CN108133205B - 复制图像中文本内容的方法及装置 - Google Patents

复制图像中文本内容的方法及装置 Download PDF

Info

Publication number
CN108133205B
CN108133205B CN201810113055.1A CN201810113055A CN108133205B CN 108133205 B CN108133205 B CN 108133205B CN 201810113055 A CN201810113055 A CN 201810113055A CN 108133205 B CN108133205 B CN 108133205B
Authority
CN
China
Prior art keywords
image
pixel
region
target image
determining
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201810113055.1A
Other languages
English (en)
Other versions
CN108133205A (zh
Inventor
赵斌
寇斌
余山林
闰道德
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Run Daode
Xinyang Industrial School
Original Assignee
Run Daode
Xinyang Industrial School
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Run Daode, Xinyang Industrial School filed Critical Run Daode
Priority to CN201810113055.1A priority Critical patent/CN108133205B/zh
Publication of CN108133205A publication Critical patent/CN108133205A/zh
Application granted granted Critical
Publication of CN108133205B publication Critical patent/CN108133205B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/54Interprogram communication
    • G06F9/543User-generated data transfer, e.g. clipboards, dynamic data exchange [DDE], object linking and embedding [OLE]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/22Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
    • G06V10/225Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition based on a marking or identifier characterising the area
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Character Input (AREA)
  • Processing Or Creating Images (AREA)

Abstract

本发明提供了一种复制图像中文本内容的方法及装置,其中,该方法包括:获取用户输入的指向第一目标图像的文本复制指令;根据文本复制指令确定第一目标图像,并获取与第一目标图像相对应的中间信息,中间信息与第一目标图像中的文本内容相对应;识别中间信息,并确定与中间信息相对应的文本内容,将文本内容粘贴至相应位置处。该方法根据用户输入的文本复制指令即可以获取并识别中间信息,进而复制其中的文本内容,用户输入简单的指令即可,操作简单,且速度快,效率高。

Description

复制图像中文本内容的方法及装置
技术领域
本发明涉及图像处理技术领域,特别涉及一种复制图像中文本内容的方法及装置。
背景技术
目前,对于电子设备,特别是移动设备,只支持查看图片(jpg,gif等格式)的功能,当图片中含有字符串或汉字时,用户只能阅读图片中的内容,而不能复制其中的字符串或汉字等文字。
虽然现有的部分应用程序可以基于OCR(Optical Character Recognition,光学字符识别)技术对图片文字进行识别,但当用户复制图片中的文字时,需要用户将该图片复制到应用程序中,在应用程序识别结束后用户选取其中的文字,操作复杂,效率低下。
发明内容
本发明提供一种复制图像中文本内容的方法及装置,用以解决现有方案中不能快速复制图片中文字的缺陷。
本发明实施例提供的一种复制图像中文本内容的方法,包括:
获取用户输入的指向第一目标图像的文本复制指令;
根据所述文本复制指令确定所述第一目标图像,并获取与所述第一目标图像相对应的中间信息,所述中间信息与所述第一目标图像中的文本内容相对应;
识别所述中间信息,并确定与所述中间信息相对应的文本内容,将所述文本内容粘贴至相应位置处。
在一种可能的实现方式中,所述获取与所述第一目标图像相对应的中间信息,包括:
采集用户基于所述第一目标图像输入的音频信息,将所述音频信息作为所述中间信息。
在一种可能的实现方式中,所述将所述文本内容粘贴至相应位置处,包括:
获取用户输入的指向第二目标图像的文本粘贴指令,并根据所述文本粘贴指令确定所述第二目标图像;
对所述第二目标图像进行预处理,确定所述第二目标图像的灰度图像;
根据预设的灰度值等级以及所述灰度图像中所有像素点的灰度值,将像素点进行等级划分,且将同一等级中所有相邻的像素点组成的区域作为该等级的一个像素集合区域;
选取所有的像素集合区域中的单连通集合区域,根据所述单连通集合区域与相邻的像素集合区域之间的等级大小关系选择所述单连通集合区域内的极值像素区域;当所述单连通集合区域的等级大于相邻的像素集合区域的等级时,所述极值像素区域为所述单连通集合区域内灰度值最大的像素点组成的区域;当所述单连通集合区域的等级小于相邻的像素集合区域的等级时,所述极值像素区域为所述单连通集合区域内灰度值最小的像素点组成的区域;
根据预设差值对所述极值像素区域进行扩展,确定扩展后的得到的临时文字区域,所述临时文字区域内所有像素点的灰度值之间的差值不大于所述预设差值;
确定所述临时文字区域A的面积sA,并根据所述临时文字区域A内每个像素点与相邻像素点之间的灰度差值确定所述临时文字区域A的灰度变化率rA
Figure BDA0001569833310000021
其中,xij表示所述灰度图像的第i行第j列的像素点的灰度值,且xij∈A,N为所述临时文字区域内所有像素点的数量;
确定所述临时文字区域A的评价值pA,并将评价值最高的临时文字区域作为所述第二目标图像的最终文字区域;其中:
Figure BDA0001569833310000031
w1和w2分别为面积和灰度变化率的权重值,s0为预设的标准面积,r0为预设的标准灰度变化率;
将所述文本内容粘贴至所述最终文字区域内。
在一种可能的实现方式中,所述获取与所述第一目标图像相对应的中间信息,包括:
遍历所述第一目标图像,确定并定位所述第一目标图像中的文字区域;
截取与所述文字区域相对应的第一图像,将截取后的第一图像作为所述中间信息。
在一种可能的实现方式中,所述识别所述中间信息包括:
对所述中间信息进行预处理,确定中间信息的二值化图形,并确定所述二值化图形包含的所有单字图像;
分别对所述单字图像进行骨架化处理,确定包含单像素宽度的文字的骨架图像;
提取所述骨架图像特征值,所述特征值包括所述骨架图像的特征点以及相邻特征点之间的特征向量,所述特征点包括起点、终点、拐点、三岔交叉点和四岔交叉点;
根据所述骨架图像的特征值与预设的标准骨架图像的特征值进行匹配,将与匹配度最高的标准骨架图像相对应的文字作为所述骨架图像的文字。
在一种可能的实现方式中,在所述识别所述中间信息之后,该方法还包括:
确定与所述第一目标图像的非文字区域相对应的第二图像;
检索与所述第二图像相对应的摘要信息,并根据所述摘要信息对识别所述中间信息的识别结果进行校正;
将校正后的识别结果作为与所述中间信息相对应的文本内容。
基于同样的发明构思,本发明还提供一种复制图像中文本内容的装置,包括:
获取模块,用于获取用户输入的指向第一目标图像的文本复制指令;
确定模块,用于根据所述文本复制指令确定所述第一目标图像,并获取与所述第一目标图像相对应的中间信息,所述中间信息与所述第一目标图像中的文本内容相对应;
处理模块,用于识别所述中间信息,并确定与所述中间信息相对应的文本内容,将所述文本内容复制至相应位置处。
在一种可能的实现方式中,所述确定模块用于:采集用户基于所述第一目标图像输入的音频信息,将所述音频信息作为所述中间信息。
在一种可能的实现方式中,所述处理模块包括:
获取单元,用于获取用户输入的指向第二目标图像的文本粘贴指令,并根据所述文本粘贴指令确定所述第二目标图像;
预处理单元,用于对所述第二目标图像进行预处理,确定所述第二目标图像的灰度图像;
划分单元,用于根据预设的灰度值等级以及所述灰度图像中所有像素点的灰度值,将像素点进行等级划分,且将同一等级中所有相邻的像素点组成的区域作为该等级的一个像素集合区域;
确定极值像素区域单元,用于选取所有的像素集合区域中的单连通集合区域,根据所述单连通集合区域与相邻的像素集合区域之间的等级大小关系选择所述单连通集合区域内的极值像素区域;当所述单连通集合区域的等级大于相邻的像素集合区域的等级时,所述极值像素区域为所述单连通集合区域内灰度值最大的像素点组成的区域;当所述单连通集合区域的等级小于相邻的像素集合区域的等级时,所述极值像素区域为所述单连通集合区域内灰度值最小的像素点组成的区域;
确定临时文字区域单元,用于根据预设差值对所述极值像素区域进行扩展,确定扩展后的得到的临时文字区域,所述临时文字区域内所有像素点的灰度值之间的差值不大于所述预设差值;
处理单元,用于确定所述临时文字区域A的面积sA,并根据所述临时文字区域A内每个像素点与相邻像素点之间的灰度差值确定所述临时文字区域A的灰度变化率rA
Figure BDA0001569833310000051
其中,xij表示所述灰度图像的第i行第j列的像素点的灰度值,且xij∈A,N为所述临时文字区域内所有像素点的数量;
评价单元,用于确定所述临时文字区域A的评价值pA,并将评价值最高的临时文字区域作为所述第二目标图像的最终文字区域;其中:
Figure BDA0001569833310000052
w1和w2分别为面积和灰度变化率的权重值,s0为预设的标准面积,r0为预设的标准灰度变化率;
粘贴单元,用于将所述文本内容粘贴至所述最终文字区域内。
在一种可能的实现方式中,所述确定模块包括:
遍历单元,用于遍历所述第一目标图像,确定并定位所述第一目标图像中的文字区域;
截取单元,用于截取与所述文字区域相对应的第一图像,将截取后的第一图像作为所述中间信息。
在一种可能的实现方式中,所述处理模块包括:
二值化单元,用于对所述中间信息进行预处理,确定中间信息的二值化图形,并确定所述二值化图形包含的所有单字图像;
骨架化单元,用于分别对所述单字图像进行骨架化处理,确定包含单像素宽度的文字的骨架图像;
提取单元,用于提取所述骨架图像特征值,所述特征值包括所述骨架图像的特征点以及相邻特征点之间的特征向量,所述特征点包括起点、终点、拐点、三岔交叉点和四岔交叉点;
匹配单元,用于根据所述骨架图像的特征值与预设的标准骨架图像的特征值进行匹配,将与匹配度最高的标准骨架图像相对应的文字作为所述骨架图像的文字。
在一种可能的实现方式中,该装置还包括:非文字区域确定模块、检索模块和校正模块;
在所述处理模块识别所述中间信息之后,非文字区域确定模块用于确定与所述第一目标图像的非文字区域相对应的第二图像;
所述检索模块用于检索与所述第二图像相对应的摘要信息,并根据所述摘要信息对识别所述中间信息的识别结果进行校正;
所述校正模块用于将校正后的识别结果作为与所述中间信息相对应的文本内容。
本发明实施例提供的一种复制图像中文本内容的方法及装置,根据用户输入的文本复制指令即可以获取并识别中间信息,进而复制其中的文本内容,用户输入简单的指令即可,操作简单,且速度快,效率高。采用音频格式的中间信息,可以更加精确的识别第一目标图像中的文字,特别是第一目标图像中不易识别的文字。将含有最少的特定信息的最终文字区域作为粘贴文字的区域,文字覆盖该区域也不会过多造成第二目标图像的信息丢失。将单字图像中的文字变为单像素宽度的文字,大大简化了后续比对过程的处理量,可以提高处理效率;同时可以快速提取骨架图像的特征值,进一步提高匹配速度。利用摘要信息对识别结果进行校正,可以进一步提高识别精度。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1为本发明实施例中复制图像中文本内容的方法流程图;
图2为本发明实施例中像素等级划分的示意图;
图3为本发明实施例中复制图像中文本内容的装置的第一结构图;
图4为本发明实施例中复制图像中文本内容的装置的第二结构图。。
具体实施方式
以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。
本发明实施例提供的一种复制图像中文本内容的方法,不需要用户过多的操作即可快速复制图像中文本内容。参见图1所示,该方法包括步骤101-103:
步骤101:获取用户输入的指向第一目标图像的文本复制指令。
本发明实施例中,第一目标图像即为需要提取其中文本内容的图像,用户通过单击、双击、或者长按该第一目标图像等操作即可以向终端输入指向该第一目标图像的文本复制指令。
可选的,当用户只需要复制图像中一部分的文本内容,此时用户可以通过操作终端的触摸屏来框选该图像中的部分区域,将部分区域中的图像作为第一目标图像。
步骤102:根据文本复制指令确定第一目标图像,并获取与第一目标图像相对应的中间信息,中间信息与第一目标图像中的文本内容相对应。
本发明实施例中,在接收到用户输入的文本复制指令后,该方法可以自动获取与第一目标图像相对应的中间信息,不需要用户执行任何其他操作。本发明实施例中,中间信息与第一目标图像中的文本内容相对应,该中间信息表示将第一目标图像转换为文本内容的中间状态,基于不同的场合或用户需求可以有多种形式,比如中间信息可以为音频形式,也可以为处理后的图像形式等。
步骤103:识别中间信息,并确定与中间信息相对应的文本内容,将文本内容粘贴至相应位置处。
本发明实施例中,在确定中间信息后,根据中间信息的内容即可以确定其中包含的文本内容;之后由用户确定文本内容的粘贴位置,将该文本内容粘贴至用户确定的相应位置处。即当用户需要复制图片中的文本内容时,只需要输入文本复制指令并确定粘贴位置即可,该操作与现有复制文本的操作类似,不需要用户输入额外的操作即可将图片中的文本快速复制出来。
本发明实施例提供的一种复制图像中文本内容的方法,根据用户输入的文本复制指令即可以获取并识别中间信息,进而复制其中的文本内容,用户输入简单的指令即可,操作简单,且速度快,效率高。
本发明另一实施例提供一种复制图像中文本内容的方法,该方法包括上述实施例中的步骤101-103,其实现原理以及技术效果参见图1对应的实施例。同时,本发明实施例中,步骤102中获取与第一目标图像相对应的中间信息,具体包括:采集用户基于第一目标图像输入的音频信息,将音频信息作为中间信息。
本发明实施例中,获取与该第一目标图像相对应的音频信息,之后将该音频信息转换为文本格式的内容即可。具体的,用户在向终端输入文本复制指令,可以根据该第一目标图像主动输入相对应的音频信息,终端采集到该音频信息(即中间信息)后即可以进行文本识别。该方法虽然需要用户额外输入相对应的音频信息,但是在音频信息的基础上可以更加精确的识别第一目标图像中的文字,特别是第一目标图像中不易识别的文字,例如艺术文字、草书等。
本发明另一实施例提供一种复制图像中文本内容的方法,该方法包括上述实施例中的步骤101-103,其实现原理以及技术效果参见图1对应的实施例。同时,本发明实施例中,步骤103中将文本内容粘贴至相应位置处,具体可以将文本内容粘贴至其他图片中,例如,将第一目标图像中的文字复制粘贴至第二目标图像中,该过程具体包括如下步骤A1-A8:
步骤A1:获取用户输入的指向第二目标图像的文本粘贴指令,并根据文本粘贴指令确定第二目标图像。
本发明实施例中,用户可以采用与输入文本复制指令相同的操作来输入文本粘贴指令,例如用户通过单击、双击、或者长按该第二目标图像等操作即可以向终端输入指向该第二目标图像的文本粘贴指令。
步骤A2:对第二目标图像进行预处理,确定第二目标图像的灰度图像。
步骤A3:根据预设的灰度值等级以及灰度图像中所有像素点的灰度值,将像素点进行等级划分,且将同一等级中所有相邻的像素点组成的区域作为该等级的一个像素集合区域。
本发明实施例中,预先将灰度值划分为多个等级,根据像素点的灰度值可以确定该像素点的等级,灰度值越高,对应的等级越高(或越大)。具体的,灰度值的范围为0~255例如,可以每隔50个灰度值划分为一个等级,比如划分为0~50,51~100,101~150,151~200,201~255等。
同时,由于同一等级的像素点组成的区域可能是不连接的,故本发明实施例中,将同一等级中所有相邻的像素点组成的区域作为该等级的一个像素集合区域,即对于第二目标图像的灰度图像来说,一个等级可能对应一个或多个像素集合区域。如图2所示,图2示意性地表示像素等级划分,其中,最外面的矩形表示第二目标图像的灰度图像,图2中将该灰度图像分为四个等级W、X、Y、Z,其中W和Z等级对应的像素集合区域均只有一个,而X等级对应两个像素集合区域X1和X2,Y等级对应三个像素集合区域Y1、Y2和Y3。
步骤K4:选取所有的像素集合区域中的单连通集合区域,根据单连通集合区域与相邻的像素集合区域之间的等级大小关系选择单连通集合区域内的极值像素区域;当单连通集合区域的等级大于相邻的像素集合区域的等级时,极值像素区域为单连通集合区域内灰度值最大的像素点组成的区域;当单连通集合区域的等级小于相邻的像素集合区域的等级时,极值像素区域为单连通集合区域内灰度值最小的像素点组成的区域。
本发明实施例中,由于有的像素集合区域为多连通的区域,该类型区域一般不适合作为文本区域;故首先选取出其中的单连通集合区域(图2中的W、X2、Y3均为单连通集合区域),之后根据单连通集合区域内的极值像素区域可以确定可以粘贴文本的区域。
具体的,当单连通集合区域的等级大于相邻的像素集合区域的等级时,极值像素区域为单连通集合区域内灰度值最大的像素点组成的区域;当单连通集合区域的等级小于相邻的像素集合区域的等级时,极值像素区域为单连通集合区域内灰度值最小的像素点组成的区域。以图2为例,当单连通集合区域W的等级大于相邻的像素集合区域X1的等级时,此时确定单连通集合区域W内像素点的最大灰度值,该灰度值会对应一个或多个像素点,此时所有具有最大灰度值的像素点组成的区域即为单连通集合区域W的极值像素区域。需要说明的是,在某些情况下,单连通集合区域与多个像素集合区域相邻,此时该单连通集合区域等级可能大于部分相邻的像素集合区域的等级,而同时又小于另一部分相邻的像素集合区域的等级,此时可以择一选取灰度值最大或最小的像素点组成的区域作为极值像素区域;或者直接舍弃该单连通集合区域,即该类单连通集合区域不执行后续的过程。
步骤A5:根据预设差值对极值像素区域进行扩展,确定扩展后的得到的临时文字区域,临时文字区域内所有像素点的灰度值之间的差值不大于预设差值。
本发明实施例中需要根据极值像素区域确定可以粘贴文本的区域,即临时文字区域,具体通过预设差值对极值像素区域进行扩展的方式确定临时文字区域。例如,极值像素区域的灰度值为110,预设差值为20,此时可以将极值像素区域周围灰度值位于[90,110]或[110,130]范围内的像素点组成临时文字区域。其中,一个单连通集合区域对应一个临时文字区域。根据预设差值对极值像素区域进行扩展,可以使得扩展后得到的临时文字区域与该第二目标图像中的像素点的像素值尽可能相关,使得获取的临时文字区域可以尽量适应第二目标图像。
步骤A6:确定临时文字区域A的面积sA,并根据临时文字区域A内每个像素点与相邻像素点之间的灰度差值确定临时文字区域A的灰度变化率rA
Figure BDA0001569833310000111
其中,xij表示灰度图像的第i行第j列的像素点的灰度值,且xij∈A,N为临时文字区域内所有像素点的数量。
本发明实施例中,每个像素点与相邻像素点之间的灰度差值可以表示相邻像素点之间的差异,每个像素点xij与四个其他像素点相邻,即x(i+1)j、x(i-1)j、xi(j+1)、xi(j-1),根据临时文字区域A内所有像素点之间的灰度差值表示临时文字区域A的灰度变化率rA。当像素点xij为第二目标图像的边缘像素点时,该像素点xij的邻边数量小于4,此时将该邻边对应的像素点与像素点xij之间的灰度差值设为零。即,当x(i+1)j、x(i-1)j、xi(j+1)或xi(j-1)不存在时,将不存在的像素点的灰度值设为xij
步骤A7:确定临时文字区域A的评价值pA,并将评价值最高的临时文字区域作为第二目标图像的最终文字区域;其中:
Figure BDA0001569833310000112
w1和w2分别为面积和灰度变化率的权重值,s0为预设的标准面积,r0为预设的标准灰度变化率。
本发明实施例中,像素点与相邻像素点之间的差值越大,灰度变化率越大,此时说明该临时文字区域内像素点的变动较大,可能包含较多的信息,作为文本区域添加文字时可能会遮挡住关键信息;反至,说明该临时文字区域较为适合作为文本区域。同样的,临时文字区域的面积越大,则该区域越适合作为文字区域。通过评价值可以确定哪一个临时文字区域最适合作为最终的文字区域。
步骤A8:将文本内容粘贴至最终文字区域内。
本发明实施例中,在粘贴文本内容时,需要根据文本内容的字数数量以及最终文字区域的面积确定文字字体大小,同时根据最终文字区域的灰度值(或者该区域相对应的RGB值)确定字体颜色。
本发明实施例提供的复制图像中文本内容的方法,用户通过简单的操作即可以将文本内容粘贴至第二目标图像的合适位置,操作简单,且最终文字区域为该第二目标图像中含有最少的特定信息,最适合作为粘贴文字的区域,文字覆盖该区域也不会过多造成第二目标图像的信息丢失。
本发明另一实施例提供一种复制图像中文本内容的方法,该方法包括上述实施例中的步骤101-103,其实现原理以及技术效果参见图1对应的实施例。同时,本发明实施例中,步骤102中获取与第一目标图像相对应的中间信息,具体包括步骤B1-B2:
步骤B1:遍历第一目标图像,确定并定位第一目标图像中的文字区域。
步骤B2:截取文字区域相对应的第一图像,将截取后的第一图像作为中间信息。
由于第一目标图像为图片,该第一目标图像中一般包含文本和图像,为了提高文本识别的效率,本发明实施例中先截取第一目标图像中的文字区域,方便后续处理。即将截取后的第一图像作为中间信息。
同时,由于现有一般将图像灰度化处理或二值化处理后再识别文本区域,该方案可能造成误判;这是因为RGB图像转为灰度图像时一般采用如下公式:Gray=R*0.299+G*0.587+B*0.114,其中,R、G、B分别为RGB图像的红色分量、绿色分量和蓝色分量,在转换后可能会将不同RGB值转换为相同的灰度值Gray。本发明实施例中,记录第一目标图像每个像素点的RGB三维数组,之后对该第一目标图像进行灰度化处理,确定第一目标图像的初步文本区域;之后根据该初步文本区域中像素点的RGB三维数组进行分类,将RGB三维数组之间的差值小于预设阈值的像素点分为一类,并将像素点数量最大的一组组成的区域作为所述第一目标图像的文本区域。
在步骤B2中,在截取第一图像时,对像素点数量小于预设数量的每一类分中的像素点分别进行初始化处理,以避免此类像素点对文本区域的像素点再次产生影响,之后将第一目标图像中初始化处理后的与文字区域相对应的图像作为第一图像。
在一种可能的实现方式中,在将截取后的第一图像作为中间信息之后,上述步骤103识别中间信息具体包括步骤C1-C4:
步骤C1:对中间信息进行预处理,确定二值化图形,并确定中间信息包含的所有单字图像。
本发明实施例中,对中间信息(即上述的第一图像)进行预处理后,即可以得到二值化后的第一图像,即二值化图形;该二值化图形可能会含有多个单字的二值化图形,此时截取每个单字的图形即可以确定所有单字对应的单字图像。
步骤C2:分别对单字图像进行骨架化处理,确定包含单像素宽度的文字的骨架图像。
每个单字图像的字迹的宽度一般为十几甚至几十像素宽度,此时进行文本识别需要处理的像素点数量多,效率低。本发明实施例中,首先对单字图像进行骨架化处理,从而将单字图像中的文字变为单像素宽度的文字,大大简化了后续比对过程的处理量,可以提高处理效率。
步骤C3:提取骨架图像特征值,特征值包括骨架图像的特征点以及相邻特征点之间的特征向量,特征点包括起点、终点、拐点、三岔交叉点和四岔交叉点。
本发明实施例中,骨架图像中的文字宽度为单像素宽度,其特征点主要包括起点、终点、拐点、三岔交叉点和四岔交叉点。其中,起点和终点的结构类似,即起点或终点都是只有一边与文字的其他像素点相邻,另外三个边均不与文字的像素点相邻。例如,以0和1表示像素点,1表示骨架文字中的像素点,0表示骨架图像中没有文字的像素点,以矩阵形式表示图像中的像素点时,则起点或终点的一种形式为:
Figure BDA0001569833310000141
或者
Figure BDA0001569833310000142
其中,两个矩阵(每个矩阵均表示9个像素点)最中间的像素点表示起点或终点。可选的,由于一般汉字的书写顺序为从左到右、从上到下,故本发明实施例中,将像素点只有下边或右边与其他像素点相邻时,该像素点为起点;相对的,当像素点只有上边或左边与其他像素点相邻时,该像素点为终点。如上述两个矩阵为例,前者矩阵中最中间的像素点表示起点,后者矩阵中最中间的像素点表示终点。
本发明实施例中的拐点为:有两个边与文字的其他像素点相邻、且这两个边也为相邻的边的像素点,其一种形式为
Figure BDA0001569833310000143
若这两个边不相邻,则说明该像素点为骨架文字中普通的像素点,此类像素点的数量最多,一般不予考虑;例如:
Figure BDA0001569833310000144
本发明实施例中的三岔交叉点为有三个边与骨架文字的其他像素点相邻的像素点,四岔交叉点为有四个边与骨架文字的其他像素点相邻的像素点。三岔交叉点和四岔交叉点的一种形式分别为:
Figure BDA0001569833310000145
同时,本发明实施例中的相邻特征点指的是沿着骨架文字相邻的两个特征点。通过确定特征点以及特征向量,可以表示该文字的整体结构和局部笔画走向,能够更精确地确定骨架文字与哪个文字相匹配。
步骤C4:根据骨架图像的特征值与预设的标准骨架图像的特征值进行匹配,将与匹配度最高的标准骨架图像相对应的文字作为骨架图像的文字。
本发明实施例中,预先获取标准骨架图像,每个标准骨架图像对应一个文字。具体的,可以预先参照类似步骤C1-C3的步骤对标准文字图像进行骨架化处理,并确定标准文字图像骨架化后的特征值,从而方便在步骤C4中对骨架图像进行匹配。
本发明实施例提供的一种复制图像中文本内容的方法,将单字图像中的文字变为单像素宽度的文字,大大简化了后续比对过程的处理量,可以提高处理效率;同时可以快速提取骨架图像的特征值,进一步提高匹配速度。
在一种可能的实现方式中,在上述识别中间信息之后,该方法还包括步骤D1-D3:
步骤D1:确定与第一目标图像的非文字区域相对应的第二图像。
步骤D2:检索与第二图像相对应的摘要信息,并根据摘要信息对识别中间信息的识别结果进行校正。
步骤D3:将校正后的识别结果作为与中间信息相对应的文本内容。
本发明实施例中,为了进一步提高识别精度,在上述步骤B1确定图像中文字区域的同时,还确定非文字区域,进而可以确定第一目标图像中的非文字区域的第二图像。通过将该第二图像发送至服务器或搜索引擎等可以检索到与该第二图像相关的摘要信息,该摘要信息为网络中与第二图像相关的信息。例如,该第一目标图像为一张电影海报,在去除其中电影名称、演员名字等文字区域后,可以在剩余的部分截取相对完整的图像区域,即第二图像,之后搜索第二图像的相似图像,并确定网络中与该相似图像相关的介绍信息(即摘要信息),该介绍信息中极有可能包含该电影海报中的文字内容。此时利用该摘要信息对识别结果进行校正,可以进一步提高识别精度。
本发明实施例提供的一种复制图像中文本内容的方法,根据用户输入的文本复制指令即可以获取并识别中间信息,进而复制其中的文本内容,用户输入简单的指令即可,操作简单,且速度快,效率高。采用音频格式的中间信息,可以更加精确的识别第一目标图像中的文字,特别是第一目标图像中不易识别的文字。将含有最少的特定信息的最终文字区域作为粘贴文字的区域,文字覆盖该区域也不会过多造成第二目标图像的信息丢失。将单字图像中的文字变为单像素宽度的文字,大大简化了后续比对过程的处理量,可以提高处理效率;同时可以快速提取骨架图像的特征值,进一步提高匹配速度。利用摘要信息对识别结果进行校正,可以进一步提高识别精度。
以上详细介绍了复制图像中文本内容的方法流程,该方法也可以通过相应的装置实现,下面详细介绍该装置的结构和功能。
本发明实施例提供的一种复制图像中文本内容的装置,参见图3所示,包括:
获取模块31,用于获取用户输入的指向第一目标图像的文本复制指令;
确定模块32,用于根据文本复制指令确定第一目标图像,并获取与第一目标图像相对应的中间信息,中间信息与第一目标图像中的文本内容相对应;
处理模块33,用于识别中间信息,并确定与中间信息相对应的文本内容,将文本内容复制至相应位置处。
在一种可能的实现方式中,确定模块32用于:采集用户基于第一目标图像输入的音频信息,将音频信息作为中间信息。
在一种可能的实现方式中,处理模块33包括:
获取单元,用于获取用户输入的指向第二目标图像的文本粘贴指令,并根据文本粘贴指令确定第二目标图像;
预处理单元,用于对第二目标图像进行预处理,确定第二目标图像的灰度图像;
划分单元,用于根据预设的灰度值等级以及灰度图像中所有像素点的灰度值,将像素点进行等级划分,且将同一等级中所有相邻的像素点组成的区域作为该等级的一个像素集合区域;
确定极值像素区域单元,用于选取所有的像素集合区域中的单连通集合区域,根据单连通集合区域与相邻的像素集合区域之间的等级大小关系选择单连通集合区域内的极值像素区域;当单连通集合区域的等级大于相邻的像素集合区域的等级时,极值像素区域为单连通集合区域内灰度值最大的像素点组成的区域;当单连通集合区域的等级小于相邻的像素集合区域的等级时,极值像素区域为单连通集合区域内灰度值最小的像素点组成的区域;
确定临时文字区域单元,用于根据预设差值对极值像素区域进行扩展,确定扩展后的得到的临时文字区域,临时文字区域内所有像素点的灰度值之间的差值不大于预设差值;
处理单元,用于确定临时文字区域A的面积sA,并根据临时文字区域A内每个像素点与相邻像素点之间的灰度差值确定临时文字区域A的灰度变化率rA
Figure BDA0001569833310000171
其中,xij表示灰度图像的第i行第j列的像素点的灰度值,且xij∈A,N为临时文字区域内所有像素点的数量;
评价单元,用于确定临时文字区域A的评价值pA,并将评价值最高的临时文字区域作为第二目标图像的最终文字区域;其中:
Figure BDA0001569833310000172
w1和w2分别为面积和灰度变化率的权重值,s0为预设的标准面积,r0为预设的标准灰度变化率;
粘贴单元,用于将文本内容粘贴至最终文字区域内。
在一种可能的实现方式中,确定模块32包括:
遍历单元,用于遍历第一目标图像,确定并定位第一目标图像中的文字区域;
截取单元,用于截取与文字区域相对应的第一图像,将截取后的第一图像作为中间信息。
在一种可能的实现方式中,处理模块33包括:
二值化单元,用于对中间信息进行预处理,确定中间信息的二值化图形,并确定二值化图形包含的所有单字图像;
骨架化单元,用于分别对单字图像进行骨架化处理,确定包含单像素宽度的文字的骨架图像;
提取单元,用于提取骨架图像特征值,特征值包括骨架图像的特征点以及相邻特征点之间的特征向量,特征点包括起点、终点、拐点、三岔交叉点和四岔交叉点;
匹配单元,用于根据骨架图像的特征值与预设的标准骨架图像的特征值进行匹配,将与匹配度最高的标准骨架图像相对应的文字作为骨架图像的文字。
在一种可能的实现方式中,参见图4所示,该装置还包括:非文字区域确定模块34、检索模块35和校正模块36;
在处理模块33识别中间信息之后,非文字区域确定模块34用于确定与第一目标图像的非文字区域相对应的第二图像;
检索模块35用于检索与第二图像相对应的摘要信息,并根据摘要信息对识别中间信息的识别结果进行校正;
校正模块36用于将校正后的识别结果作为与中间信息相对应的文本内容。
本发明实施例提供的一种复制图像中文本内容的装置,根据用户输入的文本复制指令即可以获取并识别中间信息,进而复制其中的文本内容,用户输入简单的指令即可,操作简单,且速度快,效率高。采用音频格式的中间信息,可以更加精确的识别第一目标图像中的文字,特别是第一目标图像中不易识别的文字。将含有最少的特定信息的最终文字区域作为粘贴文字的区域,文字覆盖该区域也不会过多造成第二目标图像的信息丢失。将单字图像中的文字变为单像素宽度的文字,大大简化了后续比对过程的处理量,可以提高处理效率;同时可以快速提取骨架图像的特征值,进一步提高匹配速度。利用摘要信息对识别结果进行校正,可以进一步提高识别精度。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (8)

1.一种复制图像中文本内容的方法,其特征在于,包括:
获取用户输入的指向第一目标图像的文本复制指令;
根据所述文本复制指令确定所述第一目标图像,并获取与所述第一目标图像相对应的中间信息,所述中间信息与所述第一目标图像中的文本内容相对应;
识别所述中间信息,并确定与所述中间信息相对应的文本内容,将所述文本内容粘贴至相应位置处;
所述将所述文本内容粘贴至相应位置处,包括:
获取用户输入的指向第二目标图像的文本粘贴指令,并根据所述文本粘贴指令确定所述第二目标图像;
对所述第二目标图像进行预处理,确定所述第二目标图像的灰度图像;
根据预设的灰度值等级以及所述灰度图像中所有像素点的灰度值,将像素点进行等级划分,且将同一等级中所有相邻的像素点组成的区域作为该等级的一个像素集合区域;
选取所有的像素集合区域中的单连通集合区域,根据所述单连通集合区域与相邻的像素集合区域之间的等级大小关系选择所述单连通集合区域内的极值像素区域;当所述单连通集合区域的等级大于相邻的像素集合区域的等级时,所述极值像素区域为所述单连通集合区域内灰度值最大的像素点组成的区域;当所述单连通集合区域的等级小于相邻的像素集合区域的等级时,所述极值像素区域为所述单连通集合区域内灰度值最小的像素点组成的区域;
根据预设差值对所述极值像素区域进行扩展,确定扩展后的得到的临时文字区域,所述临时文字区域内所有像素点的灰度值之间的差值不大于所述预设差值;
确定所述临时文字区域A的面积sA,并根据所述临时文字区域A内每个像素点与相邻像素点之间的灰度差值确定所述临时文字区域A的灰度变化率rA
Figure FDA0003409174820000021
其中,xij表示所述灰度图像的第i行第j列的像素点的灰度值,且xij∈A,N为所述临时文字区域内所有像素点的数量;
确定所述临时文字区域A的评价值pA,并将评价值最高的临时文字区域作为所述第二目标图像的最终文字区域;其中:
Figure FDA0003409174820000022
w1和w2分别为面积和灰度变化率的权重值,s0为预设的标准面积,r0为预设的标准灰度变化率;
将所述文本内容粘贴至所述最终文字区域内。
2.根据权利要求1所述的方法,其特征在于,所述获取与所述第一目标图像相对应的中间信息,包括:
采集用户基于所述第一目标图像输入的音频信息,将所述音频信息作为所述中间信息。
3.根据权利要求1所述的方法,其特征在于,所述获取与所述第一目标图像相对应的中间信息,包括:
遍历所述第一目标图像,确定并定位所述第一目标图像中的文字区域;
截取与所述文字区域相对应的第一图像,将截取后的第一图像作为所述中间信息。
4.根据权利要求3所述的方法,其特征在于,所述识别所述中间信息包括:
对所述中间信息进行预处理,确定中间信息的二值化图形,并确定所述二值化图形包含的所有单字图像;
分别对所述单字图像进行骨架化处理,确定包含单像素宽度的文字的骨架图像;
提取所述骨架图像特征值,所述特征值包括所述骨架图像的特征点以及相邻特征点之间的特征向量,所述特征点包括起点、终点、拐点、三岔交叉点和四岔交叉点;
根据所述骨架图像的特征值与预设的标准骨架图像的特征值进行匹配,将与匹配度最高的标准骨架图像相对应的文字作为所述骨架图像的文字。
5.根据权利要求3所述的方法,其特征在于,在所述识别所述中间信息之后,还包括:
确定与所述第一目标图像的非文字区域相对应的第二图像;
检索与所述第二图像相对应的摘要信息,并根据所述摘要信息对识别所述中间信息的识别结果进行校正;
将校正后的识别结果作为与所述中间信息相对应的文本内容。
6.一种复制图像中文本内容的装置,其特征在于,包括:
获取模块,用于获取用户输入的指向第一目标图像的文本复制指令;
确定模块,用于根据所述文本复制指令确定所述第一目标图像,并获取与所述第一目标图像相对应的中间信息,所述中间信息与所述第一目标图像中的文本内容相对应;
处理模块,用于识别所述中间信息,并确定与所述中间信息相对应的文本内容,将所述文本内容复制至相应位置处;
所述处理模块包括:
获取单元,用于获取用户输入的指向第二目标图像的文本粘贴指令,并根据所述文本粘贴指令确定所述第二目标图像;
预处理单元,用于对所述第二目标图像进行预处理,确定所述第二目标图像的灰度图像;
划分单元,用于根据预设的灰度值等级以及所述灰度图像中所有像素点的灰度值,将像素点进行等级划分,且将同一等级中所有相邻的像素点组成的区域作为该等级的一个像素集合区域;
确定极值像素区域单元,用于选取所有的像素集合区域中的单连通集合区域,根据所述单连通集合区域与相邻的像素集合区域之间的等级大小关系选择所述单连通集合区域内的极值像素区域;当所述单连通集合区域的等级大于相邻的像素集合区域的等级时,所述极值像素区域为所述单连通集合区域内灰度值最大的像素点组成的区域;当所述单连通集合区域的等级小于相邻的像素集合区域的等级时,所述极值像素区域为所述单连通集合区域内灰度值最小的像素点组成的区域;
确定临时文字区域单元,用于根据预设差值对所述极值像素区域进行扩展,确定扩展后的得到的临时文字区域,所述临时文字区域内所有像素点的灰度值之间的差值不大于所述预设差值;
处理单元,用于确定所述临时文字区域A的面积sA,并根据所述临时文字区域A内每个像素点与相邻像素点之间的灰度差值确定所述临时文字区域A的灰度变化率rA
Figure FDA0003409174820000041
其中,xij表示所述灰度图像的第i行第j列的像素点的灰度值,且xij∈A,N为所述临时文字区域内所有像素点的数量;
评价单元,用于确定所述临时文字区域A的评价值pA,并将评价值最高的临时文字区域作为所述第二目标图像的最终文字区域;其中:
Figure FDA0003409174820000042
w1和w2分别为面积和灰度变化率的权重值,s0为预设的标准面积,r0为预设的标准灰度变化率;
粘贴单元,用于将所述文本内容粘贴至所述最终文字区域内。
7.根据权利要求6所述的装置,其特征在于,所述确定模块用于:采集用户基于所述第一目标图像输入的音频信息,将所述音频信息作为所述中间信息。
8.根据权利要求6所述的装置,其特征在于,所述确定模块包括:
遍历单元,用于遍历所述第一目标图像,确定并定位所述第一目标图像中的文字区域;
截取单元,用于截取与所述文字区域相对应的第一图像,将截取后的第一图像作为所述中间信息。
CN201810113055.1A 2018-02-05 2018-02-05 复制图像中文本内容的方法及装置 Expired - Fee Related CN108133205B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810113055.1A CN108133205B (zh) 2018-02-05 2018-02-05 复制图像中文本内容的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810113055.1A CN108133205B (zh) 2018-02-05 2018-02-05 复制图像中文本内容的方法及装置

Publications (2)

Publication Number Publication Date
CN108133205A CN108133205A (zh) 2018-06-08
CN108133205B true CN108133205B (zh) 2022-03-11

Family

ID=62430553

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810113055.1A Expired - Fee Related CN108133205B (zh) 2018-02-05 2018-02-05 复制图像中文本内容的方法及装置

Country Status (1)

Country Link
CN (1) CN108133205B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108921168A (zh) * 2018-07-03 2018-11-30 佛山市影腾科技有限公司 一种文本信息处理方法、装置及终端
CN111626297A (zh) * 2020-04-13 2020-09-04 小船出海教育科技(北京)有限公司 文字书写质量评价方法、装置、电子设备和记录介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20060064288A (ko) * 2004-12-08 2006-06-13 삼성전자주식회사 모자이크 처리가 가능한 복사기 및 그 방법
CN101437115A (zh) * 2007-11-12 2009-05-20 鸿富锦精密工业(深圳)有限公司 数码相机以及图像名称设置方法
CN102750556A (zh) * 2012-06-01 2012-10-24 山东大学 一种脱机手写体汉字识别方法
CN103853698A (zh) * 2012-12-03 2014-06-11 三星电子(中国)研发中心 一种进行文本复制粘贴的方法
CN104636322A (zh) * 2015-03-03 2015-05-20 广东欧珀移动通信有限公司 一种文本复制的方法及装置
CN106326888A (zh) * 2016-08-16 2017-01-11 北京旷视科技有限公司 图像识别方法和装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20060064288A (ko) * 2004-12-08 2006-06-13 삼성전자주식회사 모자이크 처리가 가능한 복사기 및 그 방법
CN101437115A (zh) * 2007-11-12 2009-05-20 鸿富锦精密工业(深圳)有限公司 数码相机以及图像名称设置方法
CN102750556A (zh) * 2012-06-01 2012-10-24 山东大学 一种脱机手写体汉字识别方法
CN103853698A (zh) * 2012-12-03 2014-06-11 三星电子(中国)研发中心 一种进行文本复制粘贴的方法
CN104636322A (zh) * 2015-03-03 2015-05-20 广东欧珀移动通信有限公司 一种文本复制的方法及装置
CN106326888A (zh) * 2016-08-16 2017-01-11 北京旷视科技有限公司 图像识别方法和装置

Also Published As

Publication number Publication date
CN108133205A (zh) 2018-06-08

Similar Documents

Publication Publication Date Title
JP7564962B2 (ja) 画像処理方法、画像処理装置及び非一時的な記憶媒体
CN111325203B (zh) 一种基于图像校正的美式车牌识别方法及系统
US10699109B2 (en) Data entry from series of images of a patterned document
CN110689037A (zh) 用于使用深度网络的自动对象注释的方法和系统
CN110880000B (zh) 图片文字定位方法、装置、计算机设备和存储介质
JP2014531097A (ja) マルチレイヤ連結成分をヒストグラムと共に用いるテキスト検出
CN112613502A (zh) 文字识别方法及装置、存储介质、计算机设备
CN114862845A (zh) 手机触摸屏的缺陷检测方法、装置、设备及存储介质
CN113436222A (zh) 图像处理方法、图像处理装置、电子设备及存储介质
CN108133205B (zh) 复制图像中文本内容的方法及装置
CN113033558A (zh) 一种用于自然场景的文本检测方法及装置、存储介质
CN114429636B (zh) 图像扫描识别方法、装置及电子设备
CN112861861A (zh) 识别数码管文本的方法、装置及电子设备
RU2633182C1 (ru) Определение направления строк текста
RU2603495C1 (ru) Классификация изображений документов на основе параметров цветовых слоев
CN112184843B (zh) 图像数据压缩的冗余数据去除系统及方法
CN113628113A (zh) 一种图像拼接方法及其相关设备
CN113657162A (zh) 一种基于深度学习的票据ocr识别方法
CN110298347B (zh) 一种基于GrayWorld与PCA-CNN的汽车尾气分析仪屏幕的识别方法
CN113159029A (zh) 一种图片中局部信息精准抓取的方法和系统
CN117392698A (zh) 手绘电路图的识别方法、装置、设备和存储介质
CN115861922B (zh) 一种稀疏烟火检测方法、装置、计算机设备及存储介质
KR20050062350A (ko) 카메라 문서영상의 기하학적 왜곡 보정방법
CN116469172A (zh) 一种多时间尺度下的骨骼行为识别视频帧提取方法及系统
CN113793264A (zh) 一种基于卷积模型的档案图像处理方法、系统和电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20220311