CN109961063B - 文本检测方法及装置、计算机设备和存储介质 - Google Patents
文本检测方法及装置、计算机设备和存储介质 Download PDFInfo
- Publication number
- CN109961063B CN109961063B CN201711431092.9A CN201711431092A CN109961063B CN 109961063 B CN109961063 B CN 109961063B CN 201711431092 A CN201711431092 A CN 201711431092A CN 109961063 B CN109961063 B CN 109961063B
- Authority
- CN
- China
- Prior art keywords
- target
- pattern
- character
- patterns
- target character
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 63
- 238000003860 storage Methods 0.000 title claims abstract description 9
- 238000000034 method Methods 0.000 claims abstract description 102
- 238000012545 processing Methods 0.000 claims abstract description 7
- 230000003044 adaptive effect Effects 0.000 claims description 14
- 238000003709 image segmentation Methods 0.000 claims description 10
- 238000004590 computer program Methods 0.000 claims description 9
- 230000008569 process Effects 0.000 description 18
- 230000002159 abnormal effect Effects 0.000 description 10
- 238000004364 calculation method Methods 0.000 description 10
- 238000004519 manufacturing process Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 6
- 238000012015 optical character recognition Methods 0.000 description 4
- 238000012856 packing Methods 0.000 description 3
- 238000012216 screening Methods 0.000 description 3
- 230000011218 segmentation Effects 0.000 description 3
- 238000007621 cluster analysis Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/22—Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/62—Text, e.g. of license plates, overlay texts or captions on TV images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/148—Segmentation of character regions
- G06V30/153—Segmentation of character regions using recognition of characters or words
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Character Input (AREA)
Abstract
本发明提供了一种文本检测方法及装置、计算机设备及存储介质,属于数据处理技术领域。该方法包括:获取至少一项外观参数的目标值;在待检测的图像中检测出对应项外观参数符合所述目标值的目标字符图案;根据所述目标字符图案的位置,将所述目标字符图案分组而形成目标文本行,其中每个所述目标文本行包含至少一个目标字符图案。本发明是根据至少一项外观参数的目标值对待检测的图像中的目标文本行进行检测,可一次检测多个目标文本行,效率较高,且不需要采用模板进行比对,因而具有较好的普适性。
Description
技术领域
本发明涉及数据处理技术领域,特别涉及一种文本检测方法及装置、计算机设备和存储介质。
背景技术
OCR(Optical Character Recognition,光学字符识别)是采用光学的方式将印刷体的字符转换成为图像文件,并通过识别软件将图像中的字符转换成文本格式,以供文字处理软件进一步编辑加工的技术。OCR相对于人眼识别来说,效率较高,其应用越来越广泛。OCR将待检测的图像中的文字转换为文本格式的过程包括文本检测和字符识别两个步骤。在文本检测的过程中,先在图像中检测出需要识别的目标文本行,确定目标文本行在图像中的位置,在字符识别的过程中将目标文本行中的字符转换为文本格式。在应用时,当检测的图像中包含多个文本行时,需要从图像中检测出目标文本行以确定其位置。
现有的技术在图像中检测目标文本行时,当目标文本行在图像中的位置确定时,直接指定目标文本行的位置;当目标文本行在图像中的位置不确定,但是图像中有与目标文本的位置相对固定的图案,先通过模板确定出该图案的位置,然后通过坐标变换确定目标文本行的位置;当目标文本行在图像中的位置不确定且图像中没有位置与目标文本行的位置相对固定的图案,则把图像中所有的文本行都检测出来,并对所有的文本行进行字符识别,最后通过文本信息筛选出目标文本行。
在实现本发明的过程中,本发明人发现现有技术中至少存在以下问题:
采用现有的方法检测目标文本行,当目标文本行在图像中的位置不确定,但在图像中有与目标文本行的位置相对固定的图案时,采用模板匹配的方法进行目标文本的检测,只适用于图案中有目标文本行的位置相对固定的图案的情景,应用比较受限;当目标文本行在图像中的位置不确定且图像中没有与目标文本行的位置相对固定的图案时,需要将所有的文本行都检测出来进行字符识别,再从识别的文本行中筛选出目标文本行,即该方法需要将所有的目标文本行进行检测及识别之后才能确定目标文本行在图像中的位置,流程比较复杂,检测目标文本行的效率较低。
发明内容
有鉴于此,本发明提供一种文本检测方法及装置及装置、计算机设备和存储介质,以提高检测目标文本的效率。
具体而言,包括以下的技术方案:
第一方面,本发明提供了一种文本检测方法,包括:
获取至少一项外观参数的目标值;
在待检测的图像中检测出对应项外观参数符合所述目标值的目标字符图案;
根据所述目标字符图案的位置,将所述目标字符图案分组而形成目标文本行,其中每个所述目标文本行包含至少一个目标字符图案。
可选择地,所述至少一项外观参数包括下列的至少一项:字符的高度、字符的宽度、字符的笔画宽度、字符的特殊标记和字符的颜色。
可选择地,所述在待检测的图像中检测出对应项外观参数符合所述目标值的目标字符图案,包括:
在待检测的图像中检测出字符图案;
在检测到的字符图案中查找出对应项外观参数符合所述目标值的目标字符图案;或者,
在检测到的字符图案中选择对应项外观参数符合所述目标值的字符图案;根据选择的字符图案的位置,得到各个所述选择的字符图案的归属距离和局部密度;在所述选择的字符图案中查找出归属距离大于第一预设归属距离阈值且局部密度小于第一预设局部密度阈值的字符图案。
可选择地,所述在待检测的图像中检测出字符图案,包括:
对所述图像进行图像分割,得到所述图像中的字符图案。
可选择地,所述对所述图像进行图像分割,得到所述图像中的字符图案,包括:
若所述图像是灰度图像,采用全局阈值法、固定阈值法或自适应阈值法从所述灰度图像中分割出所述字符图案;
若所述图案是彩色图像,通过设定颜色范围从所述彩色图像中分割出所述字符图案;或者,将彩色图像转化为灰度图像,采用全局阈值法、固定阈值法或自适应阈值法从转化后的所述灰度图像中分割出所述字符图案。
可选择地,所述根据所述目标字符图案的位置,将所述目标字符图案分组而形成目标文本行,包括:
获取所述目标文本行的行数;
在所述目标字符图案中选取数量为所述目标文本行的行数的二倍的目标字符图案;
将所述选取的目标字符图案分为组数与所述目标文本行数量相同的多组图案组,每一组包括两个所述选取的目标字符图案,并对于每一组图案组,基于两个所述选取的目标字符图案的位置形成一条与该图案组对应的第一直线;
对于每一个所述目标字符图案,将其归属于与其距离最近的所述第一直线对应的图案组;
根据每一组图案组所包括的目标字符图案,形成目标文本行。
可选择地,在所述根据每一组图案组所包括的目标字符图案,形成目标文本行之前,所述方法还包括:
对于每一组图案组,根据归属于其的所述目标字符图案的位置,拟合得到与该图案组对应的第二直线;
判断每个所述第一直线与其对应的所述第二直线是否相同;
所述根据每一组图案组所包括的目标字符图案,形成目标文本行,包括:
在每个所述第一直线与其对应的所述第二直线相同的情况下,根据每一组图案组所包括的目标字符图案,形成目标文本行。
可选择地,在所述判断每个所述第一直线与其对应的所述第二直线是否相同后,所述方法还包括:
在至少一个所述第一直线与其对应的所述第二直线不相同的情况下,对于每个第一直线,将与其对应的第二直线作为新的第一直线,再次将每一个所述目标字符图案归属于与其距离最近的所述第一直线对应的图案组,拟合得到每个图案组对应的第二直线。
可选择地,所述在所述目标字符图案中选取数量为所述目标文本行的行数的二倍的目标字符图案,包括:
在所述目标字符图案中选择数量为所述目标文本行的行数的二倍的目标字符图案;将选择的所述目标字符图案分为组数与所述目标文本行数量相同的多组待定图案组,每一组待定图案组包括两个所述目标字符图案,并对于每一组待定图案组,基于两个所述目标字符图案的位置形成一条与该待定图案组对应的第三直线;对于每一个所述目标字符图案,求取其与最近的第三直线的距离,作为该目标字符图案的最小直线距离;计算最小直线距离小于预设距离阈值的目标字符图案的个数与所述目标字符图案的总数的比值;
判断所述比值是否大于或等于预设比值阈值;当判断结果为否时,再次选择数量为所述目标文本行的行数的二倍的目标字符图案进行分组并计算比值,直到判断结果为是;当判断结果为是时,将本次选择的所述目标字符图案作为选取的目标字符图案。
可选择地,所述获取所述目标文本行的行数,包括:
根据所述目标字符图案的位置,计算各个所述目标字符图案的归属距离和局部密度;
获取所述目标字符图案中的所述归属距离大于第二预设归属距离阈值且所述局部密度大于第二预设局部密度阈值的目标字符图案的数量,将该数量作为所述目标文本行的行数。
可选择地,在所述根据所述目标字符图案的位置,将所述目标字符图案分组而形成目标文本行之后,所述方法还包括:
标识所述目标文本行和/或输出所述目标文本行的字符识别结果。
第二方面,本发明还提供了一种文本检测装置,包括:
获取模块,用于获取至少一项外观参数的目标值;
查找模块,用于在待检测的图像中检测出对应项外观参数符合所述目标值的目标字符图案;
分组模块,用于根据所述目标字符图案的位置,将所述目标字符图案分组而形成目标文本行,其中每个目标文本行包含至少一个目标字符图案。
可选择地,所述至少一项外观参数包括下列的至少一项:字符的高度、字符的宽度、字符的笔画宽度、字符的特殊标记和字符的颜色。
可选择地,所述查找模块包括:
检测单元,用于在待检测的图像中检测出字符图案;
查找单元,用于:
在检测到的字符图案中查找出对应项外观参数符合所述目标值的目标字符图案;或者,
在检测到的字符图案中选择对应项外观参数符合所述目标值的字符图案;根据选择的字符图案的位置,得到各个所述选择的字符图案的归属距离和局部密度;在所述选择的字符图案中查找出归属距离大于第一预设归属距离阈值且局部密度小于第一预设局部密度阈值的目标字符图案。
可选择地,所述检测单元进一步用于对所述图像进行图像分割,得到所述图像中的字符图案。
可选择地,所述检测单元进一步用于:
若所述图像是灰度图像,采用全局阈值法、固定阈值法或自适应阈值法从所述灰度图像中分割出所述字符图案;
若所述图案是彩色图像,通过设定颜色范围从所述彩色图像中分割出所述字符图案;或者,若所述图案是彩色图像,将彩色图像转化为灰度图像,采用全局阈值法、固定阈值法或自适应阈值法从转化后的所述灰度图像中分割出所述字符图案。
可选择地,所述分组模块包括:
行数获取单元,用于获取所述目标文本行的行数;
字符图案选择单元,用于在所述目标字符图案中选取数量为所述目标文本行的行数的二倍的目标字符图案;
第一直线形成单元,用于将所述选取的所述目标字符图案分为组数与所述目标文本行数量相同的多组图案组,每一组包括两个所述选取的目标字符图案,并对于每一组图案组,基于两个所述选取的目标字符图案的位置形成一条与该图案组对应的第一直线;
归属确定单元,用于对于每一个所述目标字符图案,将其归属于与其距离最近的所述第一直线对应的图案组;
目标文本行形成单元,用于根据每一组图案组所包括的目标字符图案,形成目标文本行。
可选择地,所述分组模块还包括:
第二直线形成单元,用于对于每一组图案组,根据归属于其的所述目标字符图案的位置,拟合得到与该图案组对应的第二直线;
判断单元,用于判断每个所述第一直线与其对应的所述第二直线是否相同;
所述所述分组模块还包括第一直线重置单元,用于:
在每个所述第一直线与其对应的所述第二直线相同的情况下,根据每一组图案所包括的目标字符图案,形成目标文本行。
可选择地,所述分组模块还包括第一直线重置单元,用于:
在至少一个所述第一直线与其对应的所述第二直线不相同的情况下,对于每个第一直线,将与其对应的第二直线作为新的第一直线,再次将每一个所述目标字符图案归属于与其距离最近的所述第一直线对应的图案组,拟合得到每个图案组对应的第二直线。
可选择地,所述字符图案选择单元进一步用于:
在所述目标字符图案中选择数量为所述目标文本行的行数的二倍的目标字符图案;将选择出的所述目标字符图案分为组数与所述目标文本行数量相同的多组待定图案组,每一组待定图案组包括两个所述目标字符图案,并对于每一组待定图案组,基于两个所述目标字符图案的位置形成一条与该待定图案组对应的第三直线;对于每一个所述目标字符图案,求取其与最近的第三直线的距离,作为该目标字符图案的最小直线距离;计算最小直线距离小于预设距离阈值的目标字符图案的个数与所述目标字符图案的总数的比值;
判断所述比值是否大于或等于预设比值阈值;当判断结果为否时,再次选择数量为所述目标文本行的行数的二倍的目标字符图案进行分组并计算比值,直到判断结果为是;当判断结果为是时,将本次选择的所述目标字符图案作为选取的目标字符图案。
可选择地,所述行数获取单元进一步用于:
根据所述目标字符图案的位置,计算各个所述目标字符图案的归属距离和局部密度;
获取所述目标字符图案中的所述归属距离大于第二预设归属距离阈值且所述局部密度大于第二预设局部密度阈值的目标字符图案的数量,将该数量作为所述目标文本行的行数。
可选择地,所述装置还包括处理模块,用于在所述分组模块根据所述目标字符图案的位置,将所述目标字符图案分组而形成目标文本行之后,标识所述目标文本行和/或输出所述目标文本行的字符识别结果。
第三方面,本发明还提供了一种计算机设备,包括处理器和存储器,其中,所述存储器用于存放计算机程序;所述处理器,用于执行存储器上所存放的计算机程序,实现第一方面任一项所述的文本检测方法步骤。
第四方面,本发明还提供了一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现第一方面任一项所述的方法步骤。
本发明实施例提供的技术方案的有益效果:
本发明实施例通过获取至少一项外观参数的目标值,在待检测的图像中查找对应项外观参数符合目标值的的目标字符图案,并根据每个目标字符的位置,将目标字符图案分组而形成目标文本行。由于是根据外观参数的目标值对待检测的图像中的目标文本行进行检测,可一次检测多个目标文本行,效率较高,且不需要采用模板进行比对,因而具有较好的普适性。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的一种文本检测方法的流程图;
图2是本发明实施例提供的一种文本检测方法的流程图;
图3是本发明实施例提供的待检测图像的示意图;
图4是本发明实施例提供的包含符合外观参数的目标字符图案的图像的示意图;
图5是本发明实施例包含目标文本行的图像的示意图;
图6为本发明实施例提供的获取目标文本行的行数的方法的流程图;
图7为本发明实施例提供的选择目标字符图案的方法的流程图;
图8为本发明实施例提供的形成目标文本行的方法的流程图;
图9为本发明实施例提供的输出目标文本行的字符识别结果的方法的流程图;
图10为本发明实施例提供的文本检测装置的框图。
具体实施方式
为使本发明的技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。
图1是本发明实施例提供的一种文本检测方法的流程图。参见图1,该方法包括:
步骤101、获取至少一项外观参数的目标值;
步骤102、在待检测的图像中检测出对应项外观参数符合目标值的目标字符图案;
步骤103、根据每个目标字符图案的位置,将目标字符图案分组而形成目标文本行,其中每个目标文本行包含至少一个目标字符图案。
本发明实施例提供的方法,通过获取至少一项外观参数的目标值,在待检测的图像中查找对应项外观参数符合目标值的目标字符图案,并根据每个目标字符的位置,将目标字符图案分组而形成目标文本行。由于是根据外观参数的目标值对待检测的图像中的目标文本行进行检测,可一次检测多个目标文本行,效率较高,且不需要采用模板进行比对,因而具有较好的普适性。
其中,根据每个目标字符图案的位置,将目标字符图案分组而形成目标文本行,指的是将检测到的目标字符图案按位置分成若干组,每组目标字符图案沿一定方向分布,就形成了一组目标文本行。
其中,至少一项外观参数可包括下列的至少一项:字符的高度、字符的宽度、字符的笔画宽度、字符的特殊标记和字符的颜色。
其中,在待检测的图像中检测出对应项外观参数符合目标值的目标字符图案,可包括:
在待检测的图像中检测出字符图案;
在检测到的字符图案中查找出对应项外观参数符合目标值的目标字符图案;或者,
在检测到的字符图案中选择对应项外观参数符合目标值的字符图案;根据选择的字符图案的位置,得到各个选择的字符图案的归属距离和局部密度;在选择的字符图案中查找出归属距离大于第一预设归属距离阈值且局部密度小于第一预设局部密度阈值的目标字符图案。
其中,在待检测的图像中检测出字符图案,可包括:
对图像进行图像分割,得到图像中的字符图案。
其中,对图像进行图像分割,得到图像中的字符图案,可包括:
若图像是灰度图像,采用全局阈值法、固定阈值法或自适应阈值法从灰度图像中分割出字符图案;
若图案是彩色图像,通过设定颜色范围从彩色图像中分割出字符图案;或者,将彩色图像转化为灰度图像,采用全局阈值法、固定阈值法或自适应阈值法从转化后的灰度图像中分割出字符图案。
其中,根据目标字符图案的位置,将目标字符图案分组而形成目标文本行,可包括:
获取目标文本行的行数;
在字符图案中选取数量为目标文本行的行数的二倍的目标字符图案;
将选取的目标字符图案分为组数与目标文本行数量相同的多组图案组,每一组包括两个选取的目标字符图案,并对于每一组图案组,基于两个选取的目标字符图案的位置形成一条与该图案组对应的第一直线;
对于每一个目标字符图案,将其归属于与其距离最近的第一直线对应的图案组;
根据每一组图案组所包括的目标字符图案,形成目标文本行。
其中,在根据每一组图案组所包括的目标字符图案,形成目标文本行之前,该方法还可包括:
对于每一组图案组,根据归属于其的目标字符图案的位置,拟合得到与该图案组对应的第二直线;
判断每个第一直线与其对应的第二直线是否相同;
根据每一组图案组所包括的目标字符图案,形成目标文本行,可包括:
在每个第一直线与其对应的第二直线相同的情况下,根据每一组图案组所包括的目标字符图案,形成目标文本行。
其中,在判断每个第一直线与其对应的第二直线是否相同后,该方法还可包括:
在至少一个第一直线与其对应的第二直线不相同的情况下,对于每个第一直线,将与其对应的第二直线作为新的第一直线,再次将每一个目标字符图案归属于与其距离最近的第一直线对应的图案组,拟合得到每个图案组对应的第二直线。
其中,在目标字符图案中选择数量为目标文本行的行数的二倍的目标字符图案,可包括:
在目标字符图案中选取数量为目标文本行的行数的二倍的目标字符图案;将选取的目标字符图案分为组数与目标文本行数量相同的多组待定图案组,每一组待定图案组包括两个目标字符图案,并对于每一组待定图案组,基于两个目标字符图案的位置形成一条与该待定图案组对应的第三直线;对于每一个目标字符图案,求取其与每一条第三直线的距离,得到其与最近的第三直线的距离;计算最小直线距离小于预设距离阈值的目标字符图案的个数与目标字符图案的总数的比值;
判断比值是否大于或等于预设比值阈值;当判断结果为否时,再次选择数量为目标文本行的行数的二倍的目标字符图案进行分组并计算比值,直到判断结果为是;当判断结果为是时,将本次选择的目标字符图案作为选取的目标字符图案。
其中,获取目标文本行的行数,可包括:
根据目标字符图案的基准点,计算各个目标字符图案的归属距离和局部密度;
获取目标字符图案中的归属距离大于第二预设归属距离阈值且局部密度大于第二预设局部密度阈值的目标字符图案的数量,将该数量作为目标文本行的行数。
其中,在根据目标字符图案的位置,将目标字符图案分组而形成目标文本行之后,该方法还可包括:
标识目标文本行和/或输出目标文本行的字符识别结果。
上述所有可选技术方案,可以采用任意结合形成本发明的可选实施例,在此不再一一赘述。
图2是本发明实施例提供的一种文本检测方法的流程图。该方法由计算机设备执行,参见图2,该方法包括步骤201-步骤209。下面具体介绍该方法的各个步骤。
步骤201、获取至少一项外观参数的目标值。
计算机设备获取外观参数的目标值的过程可以是用户输入。外观参数用来指示字符图案的所呈现的外在特征,一般指的字符本身的特征信息,即字体参数,但本申请不限于此,也可以是字符图案中的其他特征信息,例如字符图案的背景颜色。其中,字符图案的至少一项外观参数可包括下列的至少一项:字符的高度、字符的宽度、字符的笔画宽度、字符的特殊标记和字符的颜色。其中,字符的特殊标记例如为字符的下划线。外观参数的目标值可以是确定的一个值,也可以是取值范围。
用户获取外观参数的目标值的过程可以是经过观察和多次试验得到。具体地,用户可选择一张或几张待检测的图像,首先通过观察获取目标文本行中的字符图案与其他文本行中的字符图案不同的外观参数,再通过多次试验最终确定目标文本行中的字符图案的外观参数的目标值。
具体地,如果用户观察到目标文本行中的字符图案与非目标文本行的字符图案或者非字符图案的高度或宽度有较明显的差异,其他外观参数无明显差异,则可调整高度或宽度的目标值取值范围,直到计算机设备检测到的文本行为目标文本行;如果用户观察到目标文本行中的字符图案与非目标文本行的字符图案或者非字符图案的笔画宽度有较明显的差异,其他外观参数无明显差异,则可调整笔画宽度的目标值取值范围,直到计算机设备检测到的文本行为目标文本行;如果用户观察到目标文本行中的字符图案有特殊标记,而部分非目标文本行的字符图案或者非字符图案没有特殊标记,则可将该特殊标记作为特殊标记项的取值,例如目标文本行中的字符有下划线,则设置特殊标记项为有下划线;如果用户观察到目标文本行中的字符图案有特殊标记,而部分非目标文本行的字符图案或者非字符图案没有特殊标记,且目标文本行中的字符图案的笔画宽度与非目标文本行中的字符图案的笔画宽度有明显差异,则可输入目标文本行含有的特殊标记,并调整输入的笔画宽度的目标值取值范围,直到计算机设备检测到的文本行为目标文本行。将计算机设备检测到目标文本行时输入的某项外观参数的取值或取值范围确定为该项外观参数的目标值。
例如,用户观察到目标文本行中的字符图案与非目标文本行的字符图案或者非字符图案的高度有较明显的差异,其他外观参数无明显差异,当输入的高度为0.7~0.8cm,计算机设备检测到的文本行不是目标文本行时,则继续调整输入的高度。当输入的高度为0.5~0.7cm,计算机设备检测到的文本行为全部的目标文本行和部分其他文本行时,用户可确定目标文本行的字符的高度属于0.5~0.7cm的范围内,因而用户可继续调整输入的高度范围。当用户输入的高度范围为0.6~0.7cm,计算机设备检测到的文本行包含所有的目标文本行且无其他非目标文本行,即可确定该目标文本行中包含的字符的高度为0.6~0.7cm。
需要说明的是,待检测的图像一般为一系列图像,该一系列图像中的目标文本行中包含的字符的外观参数相同或者很相近。用户通过一张或几张图像确定目标文本行中包含的字符的一项或多项外观参数的目标值后,计算机设备可根据用户输入的目标文本行中包含的字符的一项或多项外观参数的目标值对该系列图像中的目标文本行进行检测。
例如,如图3所示,图中的001和002为目标文本行,用户通过观察可以确定目标文本行中包含的字符与非目标文本行004、005和006中的字符高度以及非文本行007中的图案的高度不同,与非目标文本行003中的字符的笔画宽度不同。之后,用户可以通过调整输入的高度的范围来限定目标字符图案的高度,通过调整输入的笔画宽度的范围来限定目标字符图案的笔画宽度。
当然,也可以由计算机设备获取用户输入的需要检测的文本样本,并根据用户输入的文本行样本计算出文本行样本中的字符图案的外观参数的目标值;或者,直接接收印刷字符时采用的字符的外观参数的实际值作为外观参数的目标值。
步骤202、对图像进行图像分割,得到图像中的字符图案。
在发明实施例中,计算机设备可先从待检测的图像中筛选出字符图案,之后再从字符图案中筛选目标文本行包含的字符时可提高筛选的效率。
其中,可采用图像分割法通过以下三种实现方式从待检测的图像中筛选出字符图案。
在第一种可能的实现方式中,若待检测的图像是灰度图像,计算机设备可采用全局阈值法、固定阈值法或自适应阈值法从灰度图像中分割出字符图案。
在该种实现方式中,计算机设备可先检测灰度图像中的字符图案的亮度以及非字符图案的亮度,并判断字符图案与非字符图案的亮度差。当判断出字符图案的亮度差超过预定亮度差时,再对待检测的图像进行分割得到字符图案。从而确保在条件合适时再采用这种方式,可保证分割的准确率。
如图3所示,待检测的图像是灰度图像,并且字符图案001-008与非字符图案存在一定的亮度差,则计算机设备可采用上述图像分割方法从图像中筛选出字符图案。
在第二种可能的实现方式中,若待检测的图像是彩色图像,计算机设备可通过设定颜色范围从彩色图像中分割出字符图案。
在该种实现方式中,计算机设备可先检测彩色图像中的字符图案的颜色以及非字符图案的颜色,并判断字符图案与非字符图案的色度差。当判断出字符图案的色度差超过预定色度差时,再对待检测的图像进行分割得到字符图案。从而确保在条件合适时再采用这种方式,可保证分割的准确率。
在第三种可能的实现方式中,若待检测的图像是彩色图像,将彩色图像转化为灰度图像,采用全局阈值法、固定阈值法或自适应阈值法从转化后的灰度图像中分割出字符图案。
该种实现方式可适用于彩色图像中的字符图案与非字符图案的色差不大,但彩色图像转化为灰度图像后,字符图案与非字符图案存在一定的亮度差的情况。在该种实现方式中,计算机设备可先检测灰度图像中的字符图案的亮度以及非字符图案的亮度,并判断字符图案与非字符图案的亮度差。当判断出字符图案的亮度差超过预定亮度差时,再对待检测的图像进行分割得到字符图案。从而确保在条件合适时再采用这种方式,可保证分割的准确率。
需要说明的是,本发明实施例中步骤202不限于以上三种实现方式。上述方式可以由用户根据待检测的图像的情况进行选择,也可以由计算机对待检测的图像进行检测后,自动选择合适的方案。
如图4中所示,计算机设备经过上述处理得到的字符图案为文本行001-006、008中的字符图案及007中的非字符图案。
应该理解,在本发明其他实施例中,也可以采用任何其他合适的方式来在待检测的图像中检测出字符图案。
步骤203、在字符图案中选择对应项外观参数符合目标值的字符图案;根据选择的字符图案的位置,得到各个选择的字符图案的归属距离和局部密度;在选择的字符图案中查找出归属距离大于第一预设归属距离阈值且局部密度小于第一预设局部密度阈值的目标字符图案。
该步骤是计算机设备根据步骤201获取的目标文本行包含的字符图案的外观参数的目标值,在步骤202得到的字符图案中查找对应项外观参数符合目标值的字符图案。
在本实施例中,当某项外观参数的目标值为预设定值,该项外观参数的检测值与预设定值相等时,可确定该项外观参数的检测值符合外观参数的目标值;当某项外观参数的目标值为预设范围时,该项外观参数的检测值在预设范围内,可确定该项外观参数的检测值符合外观参数的目标值。
例如,步骤201中获取的各项外观参数的目标值:下划线为无、字符高度为0.4~0.5cm以及笔画宽度为0.1cm,则根据获取的各项外观参数的目标值在获取的字符图案中查找到符合该外观参数的目标值的字符图案为文本行001、002及008中包含的字符图案,如图4所示。
根据外观参数的目标值选择符合目标值的字符图案时,只要保证选择的字符图案满足外观参数的目标值,且与其他字符图案有一定的区别即可,适用范围较广。并且使用外观参数的目标值可快速筛选出需要识别处理的字符图案,排除外观不同的字符图案的干扰。
在拍摄图像时,由于现场环境干扰的影响,图像中包含的字符图案可能是脏污或者是光线过强形成的异常点,当这些异常点恰好符合目标文本行中的字符图案的外观参数时,会被计算机设备当成目标文本行的字符图案。例如,文本行008中的字符图案其实是拍照过程中形成的异常点。因此需要将这些异常点剔除。
由于异常点通常分布比较稀疏,多位于距离文本行较远的位置,因此可采用聚类分析法进行剔除,具体过程如下。
在步骤202中对图像进行图像分割时,已获取了各个选择出的字符图案的位置。在本实施例中,字符图案的位置可包括字符图案的各边界位置和覆盖范围,为了方便进行连线和计算等操作,可以以基准点的坐标表示字符图案的位置。为了提高准确率,一般采用目标字符图案的中心点作为基准点来计算各个目标字符图案的归属距离和局部密度。
本实施例提供两种局部密度的计算方法:
第一种计算方法中采用与选择的字符图案的基准点的距离小于截断距离的坐标点的个数作为该字符图案的局部密度,计算公式如下:
ρi=∑j∈Isχ(dij-dc)
式中,
ρi——局部密度;
dij——坐标点xi与xj之间的距离;
dc——截断距离,常数。
第二种计算方法中采用与选择的字符图案的基准点的高斯核距离作为该字符图案的局部密度,计算公式如下:
式中,
ρi——局部密度;
dij——坐标点xi与xj之间的距离;
dc——截断距离,常数。
当选择的字符图案的基准点xi具有最大的局部密度时,归属距离表示目标字符图案中与xi距离最大的基准点与xi之间的距离;否则,归属距离表示在所有局部密度大于xi的基准点当中,与xi的距离最小的坐标点与xi之间的距离。
归属距离的计算公式如下:
式中,
δi——归属距离;
dij——基准点xi与xj之间的距离;
如果基准点xi是聚类中心点,则其局部密度和归属距离比其他基准点大;如果基准点xi是归属于某个聚类中心点的基准点,则其归属距离与聚类中心点相比偏小;当基准点xi是分布稀疏的异常点,其归属距离较大,局部密度较小。因此,可将归属距离大于第一预设归属距离阈值且局部密度小于第一预设局部密度阈值的基准点作为异常点,将异常点对应的字符图案去除,余下的字符图案即为目标文本行包含的字符图案。
在该步骤中,截断距离、第一预设归属距离阈值及第一预设局部密度阈值可由用户向计算机设备输入。用户可以通过试探来获取截断距离、第一预设归属距离阈值及第一预设局部密度阈值,在此不再进行赘述。
采用聚类分析法,可以较为准确有效地去除异常字符图案。
如图5所示,为去除异常字符图案之后的图像的示意图,此时图像中只剩下目标文本行001和002。
204、获取目标文本行的行数。
计算机设备获取目标文本行的行数的过程可由用户向计算机设备输入。当已知待检测的图像中的目标文本行的行数时,计算机设备可直接获取已知的目标文本行的行数。
当待检测的图像中的目标文本行的行数未知时,计算机设备需要先获取目标文本行的行数。如图6所示,目标文本行的行数的获取过程可由子步骤401-402来实现。
子步骤401、根据目标字符图案的位置,计算各个目标字符图案的归属距离和局部密度。
在该步骤中,各个目标字符图案的归属距离和局部密度的计算过程与步骤203中目标字符图案的归属距离和局部密度的计算过程相同,在此不再进行赘述。
子步骤402、获取目标字符图案中的归属距离大于第二预设归属距离阈值且局部密度大于第二预设局部密度阈值的目标字符图案的数量,将该数量作为目标文本行的行数。
在该步骤中,第二预设归属距离阈值与第二预设局部密度阈值可由用户向计算机设备输入。用户可以通过试探来获取第二预设归属距离阈值及第二预设局部密度阈值,一般而言,字符图案尺寸相同且间隔相同的文本行可以采用相同的第二预设归属距离阈值及第二预设局部密度阈值,因此对于字符图案外观参数相同的一系列图像,可以只需要通过试探获取其中一个图像的第二预设归属距离阈值及第二预设局部密度阈值就可以将其作为其他图像的第二预设归属距离及第二预设局部密度阈值。
步骤205、在目标字符图案中选取数量为目标文本行的行数的二倍的目标字符图案。
选取数量为目标文本行的行数的二倍的目标字符图案的目的是为了以两个目标字符确定一个目标文本行,因此其实质就是要求在每个目标文本行中选取到两个目标字符图案。计算机设备在选取数量为目标文本行的行数的二倍的目标字符图案时,可随机进行选择,再判断随机选择的目标字符图案是否满足该要求。当随机选择的目标字符图案满足该要求时,将选择的目标字符图案作为选取的目标字符图案。该步骤可通过子步骤501~503实现,如图7所示。
子步骤501、选择目标字符图案进行分组并计算比值。
该子步骤可通过以下过程实现:
在目标字符图案中选择数量为目标文本行的行数的二倍的目标字符图案;将选择出的目标字符图案分为组数与目标文本行数量相同的多组待定图案组,每一组待定图案组包括两个目标字符图案,并对于每一组待定图案组,基于两个目标字符图案的位置形成一条与该待定图案组对应的第三直线;对于每一个目标字符图案,求取其与最近的第三直线的距离,作为该目标字符图案的最小直线距离;计算最小直线距离小于预设距离阈值的目标字符图案的个数与目标字符图案的总数的比值。
其中,目标文本行的行数在步骤204中已经获取,可直接获取目标文本行的数量。在选择目标字符图案时,可随机从目标字符图案中进行选择。
对于每一组待定图案组,基于两个目标字符图案的位置形成一条与该待定图案组对应的第三直线,指的是过每一组待定图案组包含的两个目标字符图案的基准点生成待定图案组对应的第三直线。
在获取目标字符图案的最小直线距离时,对于每一个目标字符图案,计算机设备先求取其与每一条第三直线的距离,将求取得到的多个距离中最小的距离作为目标字符图案的最小直线距离。
对于待定图案组组内的两个目标字符图案,其与所属的待定图案组对应的第三直线的距离为零,因此每一个待定图案组组内的两个目标字符图案的最小直线距离为零。
其中,目标字符图案与第三直线之间的距离可以是欧式距离,也可以是其他类型的距离。
计算与第三直线的最小直线距离小于预设距离阈值的目标字符图案的个数与目标字符图案的总数的比值的过程例如如下:
设其中一个目标字符图案与第三直线的最小直线距离为dmin,预设距离阈值为dthresh,当dmin<dthresh时,则确定该目标字符图案与第三直线的最小直线距离小于预设距离阈值。
其中,该比值的计算公式如下:
式中,
R——比值;
C——与第三直线的最小直线距离小于预设距离阈值的目标字符图案的个数;
N——目标字符图案的总数。
子步骤502、判断该比值是否大于或等于预设比值阈值。
例如预设比值阈值为Rthresh,当R<Rthresh时,判断结果为否,当R≥Rthresh,判断结果为是。
当判断结果为否时,返回步骤501,重新选择数量为目标文本行的行数的二倍的目标字符图案进行分组并计算比值,其中每次选择的目标字符图案与之前任一次不完全相同。这里所述的每次选择的目标字符图案与之前任一次不同,指的是本次选择的目标字符图案中至少有一个目标字符图案不包含在之前任一次选择的目标字符图案中。当判断结果为是时,执行子步骤503。
子步骤503、将本次选择的目标字符图案作为选取的目标字符图案。
步骤206、将选取的目标字符图案分为组数与目标文本行数量相同的多组图案组,每一组图案组包括两个选取的目标字符图案,并对于每一组图案组,基于两个选取的目标字符图案的位置形成一条与该图案组对应的第一直线。
在该步骤中,目标字符图案的分组可按照步骤205中最终确定的分组方案,也可采用其他分组方案。目标字符图案的位置可以用其基准点的坐标表示。基于两个选取的目标字符图案的位置形成一条直线,指的是过这两个目标字符图案的基准点形成一条直线。也就是说,该步骤实际上就是计算机设备过两个选取的目标字符图案的基准点生成一条第一直线,从而总共生成与目标文本行数量相同的第一直线,而生成一条第一直线的两个目标字符图案就构成了所在图案组的初始成员。
步骤207、对于每一个目标字符图案,将其归属于与其距离最近的第一直线对应的图案组。
在该步骤中,对于每一个目标字符图案,计算机设备首先求取其与每一条第一直线的距离,将其归属于与其距离最近的第一直线对应的图案组。每个图案组的初始两个目标字符图案显然与第一直线的距离为零,因此不需要计算就认为这两个目标字符图案归属于该图案组。
其中,目标字符图案与第一直线之间的距离指的是目标字符图案的基准点与第一直线之间的距离,该距离可以是欧式距离,也可以是其他类型的距离。
步骤208、根据每一组图案组所包括的目标字符图案,形成目标文本行。
在该步骤中,计算机设备首先判断每个图案组包括的目标字符图案是否都在一个目标文本行内,如果是表明分组方案是正确的,则根据每一图案组所包括的目标字符图案,形成一个对应的目标文本行。如果否则表明分组方案是错误的,则需要对图案组重新分组再次判断直到相同。该步骤可由子步骤801~804实现,如图8所示。
子步骤801、对于每一组图案组,根据归属于其的目标字符图案的位置,拟合得到与该图案组对应的第二直线。
具体地,计算机设备根据归属于一组图案组的目标字符图案的基准点的坐标,拟合得到与该图案组对应的第二直线。
拟合第二直线的方法可以为最小直线二乘法或者RANSC法,但本发明不限于这两种方法。
子步骤802、判断每个第一直线与其对应的第二直线是否相同。
在该步骤中,当第一直线与其对应的第二直线的方程相同,或者第一直线与其对应的第二直线重合时,即确定第一直线与其对应的第二直线相同,当然根据实际情况,也可以认为在一定的偏差范围内即是相同。
当判断结果为否时,执行子步骤803;当判断结果为是时,执行子步骤804。
子步骤803、在至少一个第一直线与其对应的第二直线不相同的情况下,对于每个第一直线,将与其对应的第二直线作为新的第一直线,再次将每一个目标字符图案归属于与其距离最近的第一直线对应的图案组,然后返回子步骤802,拟合得到每个图案组对应的第二直线。
子步骤804、在每个第一直线与其对应的第二直线相同的情况下,对于每一组图案组,根据该组图案组所包括的目标字符图案,形成一个包括组内的目标字符图案的目标文本行。
由于每一个目标字符图案在图像中的位置已知,其基准点的坐标、图案边界都是可知的,则根据归属于同一个目标文本行的目标字符图案的位置可获取该目标文本行在图像中的位置信息。
目标文本行在图像中的位置信息可包括其包含的每个目标字符图案的基准点的坐标、目标文本行覆盖范围的各边界、目标文本行中的所有字符图案的最大高度以及目标文本行中的所有字符图案的基准点的x轴或y轴坐标的最大值和最小值之差,其中可根据第一直线的斜率判断采用x轴或y轴坐标。
采用步骤204-步骤208,可以准确地获取各个目标文本行包含的目标字符图案,且同一图像中不同的目标文本行可以是不同方向,不受目标文本行的角度的限制。
步骤209、标识目标文本行和/或输出目标文本行的字符识别结果。
该步骤中,计算机设备可以将目标文本行在图像中以某种方式标识出来呈现在屏幕上,或者可以直接在屏幕上显示目标文本行的字符识别结果,也可以两者都执行。
由于在步骤208中形成了形成了目标文本行,因此其占据的图像区域和位置都是可知的,因此其占据的图像区域和位置都是可知的,所以可方便地对所以可方便地对目标文本行进行标识,以便于用户查看。对目标文本行可采用显示文本行的边框、进行高亮显示或者其他方法进行标识。
输出目标文本行的字符识别结果即为计算机设备识别并输出目标文本行中包含的字符的过程,该过程可通过子步骤901-905来实现,如图9所示。
子步骤901、检测是否需要判断目标文本行的正反。
本发明实施例提供的方法中,由于计算机设备不对目标文本行的倾斜角度进行检测,所以在步骤208中获取的目标文本行的位置时目标文本行可能是倒转的,这将导致计算机设备识别不出来目标文本行的文本信息。因此计算机设备需要对目标文本行是否需要翻转进行判断。
在该步骤中,可由用户观察检测出来的目标文本行来判断目标文本行是否需要翻转,并将判断结果输入到计算机设备。计算机设备根据用户的输入来判断目标文本行是否需要翻转。
当计算机设备检测到目标文本行需要翻转时,进入到步骤902;当检测到目标文本行不需要翻转时,进入到子步骤905。
子步骤902、将目标文本行对应的区域图案不翻转而进行识别。
计算机设备首先对未翻转的每行目标文本行进行识别获取识别结果。
子步骤903、将目标文本行对应的区域图案翻转后进行识别。
在该步骤中,计算机设备首先将每行目标文本行对应的区域图案进行翻转,再识别翻转后的该行目标文本行对应的区域图案中的字符,获取识别结果。
子步骤904、根据翻转前后的目标文本行对应的区域图案中的字符识别结果,确定采用哪个识别结果。
在该步骤中,计算机设备可以获取每行目标文本行对应的区域图案翻转前后的识别结果的置信分数,并进一步每行判断目标文本行对应的区域图案是否需要翻转。当目标文本行对应的区域图案需要翻转后识别时,翻转前大部分的字符都不能被计算机设备识别,表现为置信度分数较低,而翻转之后置信度分数较高;当目标文本行对应的区域图案不需要需要翻转识别时,翻转前大部分的字符可以被计算机设备识别,表现为置信度分数较高,翻转之后置信度分数较低。可通过以下方式根据置信度分数判断文本行对应的区域图案的位置是否正确。
一种实施方式中,可将置信度分数大于预设分数阈值的识别结果对应的文本行对应的区域图案的位置确定为正确的位置。一种特殊的情况中,当翻转前后的识别结果对应的置信度分数相同,如文本行中包含的字符全是0、6、8、9、H、I、N、O、S、X、Z中的一个或者多个字符,由于一般情况下同一图像中的文本行的倾斜角度差别较小,因此可通过其他文本行的位置信息得到当前文本行的倾斜角度。
另一种实施方式中,将所有的目标文本行的翻转前或翻转后的识别结果的置信度分数总和较大的位置确定为正确的位置。
通过判断目标文本行的位置是否正确,可以解决目标文本行的翻转造成的目标文本行位置不准确的问题,从而准确的输出目标文本行的字符。
子步骤905、识别目标文本行对应的区域图案中的字符。
当计算机设备检测出不需要判断目标文本行的正反时,说明目标文本行当前的位置是正确的,不需要翻转,可直接对目标文本行对应的区域图案中的字符进行识别以获取识别结果。
子步骤906、输出目标文本行对应的区域图案中的字符识别结果。
计算机设备可以可编辑的方式输出文本行对应的区域图案中的字符,比如text和word等格式。
此外,计算机设备在输出目标文本行对应的区域图案中的字符时,可对目标文本信息进行处理,比如只输出文本行中的数字或字母,或者输出固定位数的字符,或者输出特定文本前或后的字符,或者输出该文本所代表的语义信息,或者根据文本行的位置,将文本行分为特定的几组分别输出。
本发明实施例提供的方法,通过获取至少一项外观参数的目标值,在待检测的图像中查找对应项外观参数符合目标值的目标字符图案,并根据每个目标字符的位置,将目标字符图案分组而形成目标文本行。由于是根据外观参数的目标值对待检测的图像中的目标文本行进行检测,可一次检测多个目标文本行,效率较高,且不需要预制模板进行比对,因而具有较好的普适性。用户也可以主动设计印刷品的版面格式,使需要识别的文本的外观参数与其他文本具有更大区别,从而可以进一步提高文本检测的效率和准确性。
图10是本发明实施例提供的一种文本检测装置的框图。参见图10,该装置包括
获取模块1001,用于获取外观参数的目标值;
查找模块1002,用于在待检测的图像中检测出对应项外观参数符合目标值的目标字符图案;
分组模块1003,用于根据目标字符图案的位置,将目标字符图案分组而形成目标文本行,其中每个目标文本行包含至少一个目标字符图。
可选择地,外观参数包括下列的至少一项:字符的高度、字符的宽度、字符的笔画宽度、字符的特殊标记和字符的颜色。
可选择地,查找模块1003可包括:
检测单元,用于在待检测的图像中检测出字符图案;
查找单元,用于:
在检测到的字符图案中查找出对应项外观参数符合目标值的目标字符图案;或者,
在检测到的字符图案中选择对应项外观参数符合目标值的字符图案;根据选择的字符图案的位置,得到各个选择的字符图案的归属距离和局部密度;在选择的字符图案中查找出归属距离大于第一预设归属距离阈值且局部密度小于第一预设局部密度阈值的目标字符图案。
可选择地,检测单元进一步可用于对图像进行图像分割,得到图像中的字符图案。
可选择地,检测单元进一步可用于:
若图像是灰度图像,采用全局阈值法、固定阈值法或自适应阈值法从灰度图像中分割出字符图案;
或者,
若图案是彩色图像,通过设定颜色范围从彩色图像中分割出字符图案;
或者,
若图案是彩色图像,将彩色图像转化为灰度图像,采用全局阈值法、固定阈值法或自适应阈值法从转化后的灰度图像中分割出字符图案。
可选择地,分组模块1003可包括:
行数获取单元,用于获取目标文本行的行数;
字符选择单元,用于在目标字符图案中选取数量为目标文本行的行数的二倍的目标字符图案;
第一直线形成单元,用于将选取的目标字符图案分为组数与目标文本行数量相同的多组图案组,每一组图案组包括两个目标字符图案,并对于每一组图案组,基于两个选取的目标字符图案的位置形成一条第一直线;
归属确定单元,用于对于每一个目标字符图案,将其归属于与其距离最近的第一直线对应的图案组;
目标文本行形成单元,用于根据每一组图案组所包括的目标字符图案,形成目标文本行。
可选择地,分组模块还可包括:
第二直线形成单元,用于对于每一组图案组,根据归属于其的目标字符图案的位置,拟合得到与该图案组对应的第二直线;
判断单元,用于判断每个第一直线与其对应的第二直线是否相同;
目标文本行形成单元进一步可用于:
在至少一个第一直线与其对应的第二直线相同的情况下,根据每一组图案所包括的目标字符图案,形成目标文本行。
可选择地,分组模块1003还包括第一直线重置单元,用于:
在每个第一直线与其对应的第二直线不相同的情况下,对于每个第一直线,将与其对应的第二直线作为新的第一直线,再次将每一个目标字符图案归属于与其距离最近的第一直线对应的图案组,拟合得到每个图案组对应的第二直线。
可选择地,字符图案选择单元进一步可用于:
在目标字符图案中选择数量为目标文本行的行数的二倍的目标字符图案;将选择出的目标字符图案分为组数与目标文本行数量相同的多组待定图案组,每一组待定图案组包括两个目标字符图案,并对于每一组待定图案组,基于两个目标字符图案的位置形成一条与该待定图案组对应的第三直线;对于每一个目标字符图案,求取其与最近的第三直线的距离,作为该目标字符图案的最小直线距离;计算最小直线距离小于预设距离阈值的目标字符图案的个数与目标字符图案的总数的比值;
判断该比值是否大于或等于预设比值阈值;当判断结果为否时,再次选择数量为目标文本行的行数的二倍的目标字符图案进行分组并计算比值,直到判断结果为是;当判断结果为是时,将本次选择的目标字符图案作为选取的目标字符图案。
可选择地,行数获取单元进一步可用于:
根据目标字符图案的位置,计算各个目标字符图案的归属距离和局部密度;
获取目标字符图案中的归属距离大于第二预设归属距离阈值且局部密度大于第二预设局部密度阈值的目标字符图案的数量,将该数量作为目标文本行的行数。
可选择地,该装置还可包括处理模块,用于在分组模块根据目标字符图案的位置,将目标字符图案分组而形成目标文本行之后,标识目标文本行和/或输出目标文本行的字符识别结果。
本发明实施例提供的装置,通过获取至少一项外观参数的目标值,在待检测的图像中查找对应项外观参数符合目标值的目标字符图案,并根据每个目标字符的位置,将目标字符图案分组而形成目标文本行。由于是根据外观参数的目标值对待检测的图像中的目标文本行进行检测,可一次检测多个目标文本行,效率较高,且不需要采用模板进行比对,因而具有较好的普适性。
需要说明的是:上述实施例提供的文本检测装置在进行文本检测时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的文本检测装置与文本检测方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
本发明实施例还提供了一种计算机设备,包括处理器和存储器,其中,存储器,用于存放计算机程序;处理器,用于执行存储器上所存放的程序,实现上面实施例中记载的文本检测方法。例如,包装盒的表面上印刷有多行文本,其中有一行文本是生产日期,还有一行文本是产品批号,另外还包含与生产日期的文本行的字符图案的外观参数有明显差异的其他文本,需要通过本发明实施例中的文本检测方法得到生产日期所在的文本行和生产日期。计算机设备可通过摄像头拍摄多个包装盒的表面来从通信接口中获取多个图像,接收从通信接口输入的生产日期文本行的字符图案的外观参数的目标值,通过执行对应于文本检测方法的计算机程序,就可从每个图像中获取记载有生产日期的那行文本,进而识别该行文本来确定每个包装盒印刷的生产日期。
在示例性实施例中,还提供了一种存储有计算机程序的计算机可读存储介质,例如存储有计算机程序的存储器,上述计算机程序被处理器执行时实现上述图1或图2所示实施例中的文本检测方法。例如,所述计算机可读存储介质可以是只读内存(Read-OnlyMemory,ROM)、随机存取存储器(Random Access Memory,RAM)、只读光盘(Compact DiscRead-Only Memory,CD-ROM)、磁带、软盘和光数据存储设备等。
以上所述仅是为了便于本领域的技术人员理解本发明的技术方案,并不用以限制本发明。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (24)
1.一种文本检测方法,其特征在于,包括:
获取至少一项外观参数的目标值;
在待检测的图像中检测出对应项外观参数符合所述目标值的字符图案,在所述符合所述目标值的字符图案中检测出归属距离小于等于第一预设归属距离阈值或局部密度大于等于第一预设局部密度阈值的目标字符图案;其中,采用与选择的字符图案的基准点的距离小于截断距离的坐标点的个数作为所述字符图案的局部密度,或者采用与选择的字符图案的基准点的高斯核距离作为所述字符图案的局部密度;当选择的字符图案的基准点xi具有最大的局部密度时,字符图案的归属距离表示所述目标字符图案中与xi距离最大的基准点与xi之间的距离,否则,字符图案的归属距离表示在所有局部密度大于xi的基准点当中,与xi的距离最小的坐标点与xi之间的距离;字符图案的基准点是指字符图案的中心点;
根据所述目标字符图案的位置,将所述目标字符图案分组而形成目标文本行,其中每个所述目标文本行包含至少一个目标字符图案。
2.根据权利要求1所述的文本检测方法,其特征在于,所述至少一项外观参数包括下列的至少一项:字符的高度、字符的宽度、字符的笔画宽度、字符的特殊标记和字符的颜色。
3.根据权利要求1所述的文本检测方法,其特征在于,所述在待检测的图像中检测出对应项外观参数符合所述目标值的字符图案,在所述符合所述目标值的字符图案中检测出归属距离小于等于第一预设归属距离阈值或局部密度大于等于第一预设局部密度阈值的目标字符图案,包括:
在待检测的图像中检测出字符图案;
在检测到的字符图案中选择对应项外观参数符合所述目标值的字符图案;根据选择的字符图案的位置,得到各个所述选择的字符图案的归属距离和局部密度;在所述选择的字符图案中查找出归属距离小于等于所述第一预设归属距离阈值或局部密度大于等于所述第一预设局部密度阈值的字符图案作为所述目标字符图案。
4.根据权利要求3所述的文本检测方法,其特征在于,所在待检测的图像中检测出字符图案,包括:
对所述图像进行图像分割,得到所述图像中的字符图案。
5.根据权利要求4所述的文本检测方法,其特征在于,所述对所述图像进行图像分割,得到所述图像中的字符图案,包括:
若所述图像是灰度图像,采用全局阈值法、固定阈值法或自适应阈值法从所述灰度图像中分割出所述字符图案;
若所述图案是彩色图像,通过设定颜色范围从所述彩色图像中分割出所述字符图案;或者,将彩色图像转化为灰度图像,采用全局阈值法、固定阈值法或自适应阈值法从转化后的所述灰度图像中分割出所述字符图案。
6.根据权利要求1所述的文本检测方法,其特征在于,所述根据所述目标字符图案的位置,将所述目标字符图案分组而形成目标文本行,包括:
获取所述目标文本行的行数;
在所述目标字符图案中选取数量为所述目标文本行的行数的二倍的目标字符图案;
将所述选取的目标字符图案分为组数与所述目标文本行数量相同的多组图案组,每一组包括两个所述选取的目标字符图案,并对于每一组图案组,基于两个所述选取的目标字符图案的位置形成一条与该图案组对应的第一直线;
对于每一个所述目标字符图案,将其归属于与其距离最近的所述第一直线对应的图案组;
根据每一组图案组所包括的目标字符图案,形成目标文本行。
7.根据权利要求6所述的文本检测方法,其特征在于,在所述根据每一组图案组所包括的目标字符图案,形成目标文本行之前,所述方法还包括:
对于每一组图案组,根据归属于其的所述目标字符图案的位置,拟合得到与该图案组对应的第二直线;
判断每个所述第一直线与其对应的所述第二直线是否相同;
所述根据每一组图案组所包括的目标字符图案,形成目标文本行,包括:
在每个所述第一直线与其对应的所述第二直线相同的情况下,根据每一组图案组所包括的目标字符图案,形成目标文本行。
8.根据权利要求7所述的文本检测方法,其特征在于,在所述判断每个所述第一直线与其对应的所述第二直线是否相同后,所述方法还包括:
在至少一个所述第一直线与其对应的所述第二直线不相同的情况下,对于每个第一直线,将与其对应的第二直线作为新的第一直线,再次将每一个所述目标字符图案归属于与其距离最近的所述第一直线对应的图案组,拟合得到每个图案组对应的第二直线。
9.根据权利要求6所述的文本检测方法,其特征在于,所述在所述目标字符图案中选取数量为所述目标文本行的行数的二倍的目标字符图案,包括:
在所述目标字符图案中选择数量为所述目标文本行的行数的二倍的目标字符图案;将选择的所述目标字符图案分为组数与所述目标文本行数量相同的多组待定图案组,每一组待定图案组包括两个所述目标字符图案,并对于每一组待定图案组,基于两个所述目标字符图案的位置形成一条与该待定图案组对应的第三直线;对于每一个所述目标字符图案,求取其与最近的第三直线的距离,作为该目标字符图案的最小直线距离;计算最小直线距离小于预设距离阈值的目标字符图案的个数与所述目标字符图案的总数的比值;
判断所述比值是否大于或等于预设比值阈值;当判断结果为否时,再次选择数量为所述目标文本行的行数的二倍的目标字符图案进行分组并计算比值,直到判断结果为是;当判断结果为是时,将本次选择的所述目标字符图案作为选取的目标字符图案。
10.根据权利要求6所述的文本检测方法,其特征在于,所述获取所述目标文本行的行数,包括:
根据所述目标字符图案的位置,计算各个所述目标字符图案的归属距离和局部密度;
获取所述目标字符图案中的所述归属距离大于第二预设归属距离阈值且所述局部密度大于第二预设局部密度阈值的目标字符图案的数量,将该数量作为所述目标文本行的行数。
11.根据权利要求1-10任一项所述的文本检测方法,其特征在于,在所述根据所述目标字符图案的位置,将所述目标字符图案分组而形成目标文本行之后,所述方法还包括:
标识所述目标文本行和/或输出所述目标文本行的字符识别结果。
12.一种文本检测装置,其特征在于,包括:
获取模块,用于获取至少一项外观参数的目标值;
查找模块,用于在待检测的图像中检测出对应项外观参数符合所述目标值的字符图案,在所述符合所述目标值的字符图案中检测出归属距离小于等于第一预设归属距离阈值或局部密度大于等于第一预设局部密度阈值的目标字符图案;其中,采用与选择的字符图案的基准点的距离小于截断距离的坐标点的个数作为所述字符图案的局部密度,或者采用与选择的字符图案的基准点的高斯核距离作为所述字符图案的局部密度;当选择的字符图案的基准点xi具有最大的局部密度时,字符图案的归属距离表示所述目标字符图案中与xi距离最大的基准点与xi之间的距离,否则,字符图案的归属距离表示在所有局部密度大于xi的基准点当中,与xi的距离最小的坐标点与xi之间的距离;字符图案的基准点是指字符图案的中心点;
分组模块,用于根据所述目标字符图案的位置,将所述目标字符图案分组而形成目标文本行,其中每个目标文本行包含至少一个目标字符图案。
13.根据权利要求12所述的文本检测装置,其特征在于,所述至少一项外观参数包括下列的至少一项:字符的高度、字符的宽度、字符的笔画宽度、字符的特殊标记和字符的颜色。
14.根据权利要求12所述的文本检测装置,其特征在于,所述查找模块包括:
检测单元,用于在待检测的图像中检测出字符图案;
查找单元,用于在检测到的字符图案中选择对应项外观参数符合所述目标值的字符图案;根据选择的字符图案的位置,得到各个所述选择的字符图案的归属距离和局部密度;在所述选择的字符图案中查找出归属距离小于等于所述第一预设归属距离阈值或局部密度大于等于所述第一预设局部密度阈值的字符图案作为所述目标字符图案。
15.根据权利要求14所述的文本检测装置,其特征在于,所述检测单元进一步用于对所述图像进行图像分割,得到所述图像中的字符图案。
16.根据权利要求15所述的文本检测装置,其特征在于,所述检测单元进一步用于:
若所述图像是灰度图像,采用全局阈值法、固定阈值法或自适应阈值法从所述灰度图像中分割出所述字符图案;
若所述图案是彩色图像,通过设定颜色范围从所述彩色图像中分割出所述字符图案;或者,若所述图案是彩色图像,将彩色图像转化为灰度图像,采用全局阈值法、固定阈值法或自适应阈值法从转化后的所述灰度图像中分割出所述字符图案。
17.根据权利要求12所述的文本检测装置,其特征在于,所述分组模块包括:
行数获取单元,用于获取所述目标文本行的行数;
字符图案选择单元,用于在所述目标字符图案中选取数量为所述目标文本行的行数的二倍的目标字符图案;
第一直线形成单元,用于将所述选取的所述目标字符图案分为组数与所述目标文本行数量相同的多组图案组,每一组包括两个所述选取的目标字符图案,并对于每一组图案组,基于两个所述选取的目标字符图案的位置形成一条与该图案组对应的第一直线;
归属确定单元,用于对于每一个所述目标字符图案,将其归属于与其距离最近的所述第一直线对应的图案组;
目标文本行形成单元,用于根据每一组图案组所包括的目标字符图案,形成目标文本行。
18.根据权利要求17所述的文本检测装置,其特征在于,所述分组模块还包括:
第二直线形成单元,用于对于每一组图案组,根据归属于其的所述目标字符图案的位置,拟合得到与该图案组对应的第二直线;
判断单元,用于判断每个所述第一直线与其对应的所述第二直线是否相同;
所述目标文本行形成单元进一步用于:
在每个所述第一直线与其对应的所述第二直线相同的情况下,根据每一组图案所包括的目标字符图案,形成目标文本行。
19.根据权利要求18所述的文本检测装置,其特征在于,所述分组模块还包括第一直线重置单元,用于:在至少一个所述第一直线与其对应的所述第二直线不相同的情况下,对于每个第一直线,将与其对应的第二直线作为新的第一直线,再次将每一个所述目标字符图案归属于与其距离最近的所述第一直线对应的图案组,拟合得到每个图案组对应的第二直线。
20.根据权利要求17所述的文本检测装置,其特征在于,所述字符图案选择单元进一步用于:
在所述目标字符图案中选择数量为所述目标文本行的行数的二倍的目标字符图案;将选择出的所述目标字符图案分为组数与所述目标文本行数量相同的多组待定图案组,每一组待定图案组包括两个所述目标字符图案,并对于每一组待定图案组,基于两个所述目标字符图案的位置形成一条与该待定图案组对应的第三直线;对于每一个所述目标字符图案,求取其与最近的第三直线的距离,作为该目标字符图案的最小直线距离;计算最小直线距离小于预设距离阈值的目标字符图案的个数与所述目标字符图案的总数的比值;
判断所述比值是否大于或等于预设比值阈值;当判断结果为否时,再次选择数量为所述目标文本行的行数的二倍的目标字符图案进行分组并计算比值,直到判断结果为是;当判断结果为是时,将本次选择的所述目标字符图案作为选取的目标字符图案。
21.根据权利要求17所述的文本检测装置,其特征在于,所述行数获取单元进一步用于:
根据所述目标字符图案的位置,计算各个所述目标字符图案的归属距离和局部密度;
获取所述目标字符图案中的所述归属距离大于第二预设归属距离阈值且所述局部密度大于第二预设局部密度阈值的目标字符图案的数量,将该数量作为所述目标文本行的行数。
22.根据权利要求12-21任一项所述的文本检测装置,其特征在于,所述装置还包括处理模块,用于在所述分组模块根据所述目标字符图案的位置,将所述目标字符图案分组而形成目标文本行之后,标识所述目标文本行和/或输出所述目标文本行的字符识别结果。
23.一种计算机设备,其特征在于,包括处理器和存储器,其中,所述存储器用于存放计算机程序;所述处理器,用于执行存储器上所存放的计算机程序,实现权利要求1-11任一项所述的文本检测方法步骤。
24.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1-11任一项所述的文本检测方法步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711431092.9A CN109961063B (zh) | 2017-12-26 | 2017-12-26 | 文本检测方法及装置、计算机设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711431092.9A CN109961063B (zh) | 2017-12-26 | 2017-12-26 | 文本检测方法及装置、计算机设备和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109961063A CN109961063A (zh) | 2019-07-02 |
CN109961063B true CN109961063B (zh) | 2021-12-14 |
Family
ID=67022026
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711431092.9A Active CN109961063B (zh) | 2017-12-26 | 2017-12-26 | 文本检测方法及装置、计算机设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109961063B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117079282B (zh) * | 2023-08-16 | 2024-06-25 | 读书郎教育科技有限公司 | 一种基于图像处理的智能词典笔 |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102054174A (zh) * | 2009-10-30 | 2011-05-11 | 佳能株式会社 | 用于定位车牌的方法和系统 |
JP4977232B2 (ja) * | 2010-05-12 | 2012-07-18 | 株式会社東芝 | 文字読取結果確認装置および文字読取結果確認方法 |
US9418304B2 (en) * | 2011-06-29 | 2016-08-16 | Qualcomm Incorporated | System and method for recognizing text information in object |
CN104077593A (zh) * | 2013-03-27 | 2014-10-01 | 富士通株式会社 | 图像处理方法和装置 |
CN105830091A (zh) * | 2013-11-15 | 2016-08-03 | 柯法克斯公司 | 使用移动视频数据生成长文档的合成图像的系统和方法 |
CN104408095B (zh) * | 2014-11-15 | 2017-12-05 | 北京广利核系统工程有限公司 | 一种基于改进的knn文本分类方法 |
CN106570500B (zh) * | 2016-11-11 | 2018-01-23 | 北京三快在线科技有限公司 | 文本行的识别方法及装置、计算设备 |
CN106991422B (zh) * | 2017-05-02 | 2020-03-27 | 北京京东金融科技控股有限公司 | 字符切割方法、装置及计算机可读存储介质和电子设备 |
CN107273500A (zh) * | 2017-06-16 | 2017-10-20 | 中国电子技术标准化研究院 | 文本分类器生成方法、文本分类方法、装置及计算机设备 |
-
2017
- 2017-12-26 CN CN201711431092.9A patent/CN109961063B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN109961063A (zh) | 2019-07-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110232713B (zh) | 一种图像目标定位修正方法及相关设备 | |
CN111428723B (zh) | 字符识别方法及装置、电子设备、存储介质 | |
US7627148B2 (en) | Image data processing apparatus and method, and image data processing program | |
US8600162B2 (en) | Image identification device, image identification method and recording medium | |
US6385338B1 (en) | Image processing method and apparatus | |
CN110619333B (zh) | 一种文本行分割方法、文本行分割装置及电子设备 | |
CN107665351B (zh) | 基于难样本挖掘的机场检测方法 | |
CN110717366A (zh) | 文本信息的识别方法、装置、设备及存储介质 | |
CN110020692B (zh) | 一种基于印刷体模板的手写体分离与定位方法 | |
CN110929727A (zh) | 图像标注方法及装置、文字检测方法及系统、电子设备 | |
CN110598566A (zh) | 图像处理方法、装置、终端和计算机可读存储介质 | |
CN113095267B (zh) | 统计图的数据提取方法、电子设备和存储介质 | |
CN110443235B (zh) | 一种智能纸质试卷总分识别方法及系统 | |
CN107423735A (zh) | 一种利用水平梯度和饱和度的车牌定位算法 | |
CN112288724A (zh) | 缺陷检测方法及装置、电子设备和存储介质 | |
EP3291179B1 (en) | Image processing device, image processing method, and image processing program | |
CN113840135B (zh) | 色偏检测方法、装置、设备及存储介质 | |
CN109961063B (zh) | 文本检测方法及装置、计算机设备和存储介质 | |
JP5027201B2 (ja) | テロップ文字領域検出方法,テロップ文字領域検出装置およびテロップ文字領域検出プログラム | |
CN117557784A (zh) | 目标检测方法、装置、电子设备及存储介质 | |
CN112434640A (zh) | 确定文档图像的旋转角度方法、装置及存储介质 | |
CN106951902A (zh) | 一种图像二值化处理方法及装置 | |
CN111160147A (zh) | 一种书法作品图像的裁剪和识别方法 | |
CN113537216B (zh) | 一种点阵字体文本行倾斜校正方法及装置 | |
CN111291756B (zh) | 图像中文本区域的检测方法、装置、计算机设备及计算机存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CP03 | Change of name, title or address | ||
CP03 | Change of name, title or address |
Address after: 310051 room 304, B / F, building 2, 399 Danfeng Road, Binjiang District, Hangzhou City, Zhejiang Province Patentee after: Hangzhou Hikvision Robot Co.,Ltd. Address before: 310051 5th floor, building 1, building 2, no.700 Dongliu Road, Binjiang District, Hangzhou City, Zhejiang Province Patentee before: HANGZHOU HIKROBOT TECHNOLOGY Co.,Ltd. |