CN111666941B - 一种文本检测方法、装置及电子设备 - Google Patents
一种文本检测方法、装置及电子设备 Download PDFInfo
- Publication number
- CN111666941B CN111666941B CN202010537495.7A CN202010537495A CN111666941B CN 111666941 B CN111666941 B CN 111666941B CN 202010537495 A CN202010537495 A CN 202010537495A CN 111666941 B CN111666941 B CN 111666941B
- Authority
- CN
- China
- Prior art keywords
- text
- anchor point
- region
- category
- text line
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 78
- 238000000034 method Methods 0.000 claims abstract description 28
- 238000006243 chemical reaction Methods 0.000 claims description 15
- 230000001629 suppression Effects 0.000 claims description 13
- 239000000758 substrate Substances 0.000 claims 1
- 230000008569 process Effects 0.000 abstract description 4
- 238000012549 training Methods 0.000 description 18
- 238000012545 processing Methods 0.000 description 11
- 238000004891 communication Methods 0.000 description 10
- 238000000605 extraction Methods 0.000 description 9
- 238000012015 optical character recognition Methods 0.000 description 9
- 238000011176 pooling Methods 0.000 description 8
- 238000005516 engineering process Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 4
- 102220198146 rs1057519886 Human genes 0.000 description 4
- 230000005236 sound signal Effects 0.000 description 4
- 102220491290 Annexin A1_S34A_mutation Human genes 0.000 description 2
- 230000001133 acceleration Effects 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000007726 management method Methods 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/62—Text, e.g. of license plates, overlay texts or captions on TV images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/24—Aligning, centring, orientation detection or correction of the image
- G06V10/243—Aligning, centring, orientation detection or correction of the image by compensating for image skew or non-uniform image deformations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
Abstract
本公开关于一种文本检测方法、装置及电子设备,该方法包括:获取待检测图像;从待检测图像中,确定关于文本行的备选区域;确定备选区域的锚点特征;其中,锚点特征包括备选区域的倾斜角度和尺寸特征两类特征信息;利用备选区域的锚点特征,以及预设的锚点数据与文本行识别结果的对应关系,确定备选区域是否为文本行;其中,文本行识别结果用于表征区域是否为文本行的结果;锚点数据为基于预设的多个样本锚点特征所确定出的数据;当备选区域为文本行时,将备选区域的内容确定为检测得到的文本。与现有技术相比,应用本公开提供的方案,可以提高在OCR检测过程中,所检测得到的文本区域的准确率,进而,提高所获取到的图像中的文字的准确性。
Description
技术领域
本公开涉及图像处理技术领域,尤其涉及一种文本检测方法、装置及电子设备。
背景技术
当前OCR(Optical Character Recognition,光学字符识别)检测在各个领域中的应用越来越广泛,所谓OCR是指:对文本资料进行扫描后,对扫描得到的图像进行分析处理,从而获取该图像中的文字及版面信息的过程。
其中,在进行OCR检测时,由于扫描时文本资料所摆放角度、扫描仪器的物理参数限制等原因,所得到的图像中,各文本行所在的文本区域可能是倾斜的。
基于此,在OCR检测过程中,当使用当前所存在的各种目标对象检测方法时,由于无法检测到倾斜的文本区域,因此,导致所检测得到的文本区域的准确率较低,从而大大降低了所获取到的图像中的文字的准确性。
发明内容
本公开提供一种文本检测方法、装置、电子设备及存储介质,以至少解决相关技术中在OCR检测过程中,由于无法检测到倾斜的文本区域所导致的所检测得到的文本区域的准确率较低,降低了所获取到的图像中的文字的准确性的问题。本公开的技术方案如下:
根据本公开实施例的第一方面,提供一种文本检测方法,包括:
获取待检测图像;
从所述待检测图像中,确定关于文本行的备选区域;
确定所述备选区域的锚点特征;其中,所述锚点特征包括所述备选区域的倾斜角度和尺寸特征两类特征信息;
利用所述备选区域的锚点特征,以及预设的锚点数据与文本行识别结果的对应关系,确定所述备选区域是否为文本行;其中,所述文本行识别结果用于表征区域是否为文本行的结果;所述锚点数据为基于预设的多个样本锚点特征所确定出的数据;
当所述备选区域为文本行时,将所述备选区域的内容确定为所检测得到的目标文本。
可选的,一种具体实现方式中,所述锚点数据与文本行识别结果的对应关系包括:锚点类别与文本行识别结果的对应关系;
所述利用所述备选区域的锚点特征,以及预设的锚点数据与文本行识别结果的对应关系,确定所述备选区域是否为文本行的步骤,包括:
确定所述备选区域的锚点特征所属的目标锚点类别;
利用所述目标锚点类别,以及预设的锚点类别与文本行识别结果的对应关系,确定所述备选区域是否为文本行。
可选的,一种具体实现方式中,所述关于锚点类别与文本行识别结果的对应关系的确定方式,包括:
获取第一样本图像的特征图,以及基于第二样本图像中各个文本行的锚点特征得到的各个锚点类别;
基于所述特征图和所述各个锚点类别,进行关于文本区域的类别回归和检测框回归,得到多个初始文本区域;
在所述特征图中截取各个初始文本区域对应的待回归文本区域;
对所截取到的多个待回归文本区域进行类别回归、检测框回归和角度回归,得到关于锚点类别与文本行识别结果的对应关系。
可选的,一种具体实现方式中,所述各个锚点类别的确定方式,包括:
确定所述第二样本图像中各个文本行的倾斜角度和尺寸特征,得到角度数据组和尺寸数据组;
对所述角度数据组和所述尺寸数据组分别进行聚类,得到第一数量个角度聚类结果和第二数据量个尺寸聚类结果;
从所述第一数量个角度聚类结果和所述第二数据量个尺寸聚类结果中,分别选取一个聚类结果的聚类中心,构成一个锚点类别,得到锚点类别;其中,不同锚点类别包括的两类特征信息不完全相同。
可选的,一种具体实现方式中,在所述对所截取到的多个待回归文本区域进行类别回归、检测框回归和角度回归的步骤之前,所述方法还包括:
提取所截取到的多个待回归文本区域中的倾斜文本区域的角度特征,并基于所述角度特征,对所述倾斜文本区域进行旋转转换;
所述对所截取到的多个待回归文本区域进行类别回归、检测框回归和角度回归的步骤,包括:
对所截取到的多个待回归文本区域中的非倾斜文本区域和旋转转换后的所述倾斜文本区域进行类别回归、检测框回归和角度回归。
可选的,一种具体实现方式中,在所述在所述特征图中截取各个初始文本区域对应的待回归文本区域的步骤之前,所述方法还包括:
对各个初始文本区域执行非极大值抑制NMS操作,得到各个初始文本区域的建议检测区域;
所述在所述特征图中截取各个初始文本区域对应的待回归文本区域的步骤,包括:
在所述特征图中截取所得到的各个建议文本区域对应的待回归文本区域。
根据本公开实施例的第二方面,提供一种文本检测装置,包括:
图像获取模块,被配置为获取待检测图像;
区域确定模块,被配置为从所述待检测图像中,确定关于文本行的备选区域;
特征确定模块,被配置为确定所述备选区域的锚点特征;其中,所述锚点特征包括所述备选区域的倾斜角度和尺寸特征两类特征信息;
文本行确定模块,被配置为利用所述备选区域的锚点特征,以及预设的锚点数据与文本行识别结果的对应关系,确定所述备选区域是否为文本行;其中,所述文本行识别结果用于表征区域是否为文本行的结果;所述锚点数据为基于预设的多个样本锚点特征所确定出的数据;
文本确定模块,被配置为当所述备选区域为文本行时,将所述备选区域的内容确定为所检测得到的目标文本。
可选的,一种具体实现方式中,所述锚点数据与文本行识别结果的对应关系包括:锚点类别与文本行识别结果的对应关系;
所述文本行确定模块,被配置为确定所述备选区域的锚点特征所属的目标锚点类别;利用所述目标锚点类别,以及预设的锚点类别与文本行识别结果的对应关系,确定所述备选区域是否为文本行。
可选的,一种具体实现方式中,所述装置还包括:用于确定所述关于锚点类别与文本行识别结果的对应关系的关系确定模块;所述关系确定模块,包括:
信息获取子模块,被配置为:获取第一样本图像的特征图,以及基于第二样本图像中各个文本行的锚点特征得到的各个锚点类别;
区域获取子模块,被配置为基于所述特征图和所述各个锚点类别,进行关于文本区域的类别回归和检测框回归,得到多个初始文本区域;
区域截取子模块,被配置为在所述特征图中截取各个初始文本区域对应的待回归文本区域;
关系确定子模块,被配置为对所截取到的多个待回归文本区域进行类别回归、检测框回归和角度回归,得到关于锚点类别与文本行识别结果的对应关系。
可选的,一种具体实现方式中,所述装置还包括:用于确定各个锚点类别的锚点确定模块;
所述锚点确定模块,被配置为确定所述第二样本图像中各个文本行的倾斜角度和尺寸特征,得到角度数据组和尺寸数据组;对所述角度数据组和所述尺寸数据组分别进行聚类,得到第一数量个角度聚类结果和第二数据量个内容尺寸聚类结果;从所述第一数量个角度聚类结果和所述第二数据量个尺寸聚类结果中,分别选取一个聚类结果的聚类中心,构成一个锚点类别,得到锚点类别;其中,不同锚点类别包括的两类特征信息不完全相同。
可选的,一种具体实现方式中,所述关系确定模块,还包括:
区域旋转子模块,被配置为在对所截取到的多个待回归文本区域进行类别回归、检测框回归和角度回归之前,提取所截取到的多个待回归文本区域中的倾斜文本区域的角度特征,并基于所述角度特征,对所述倾斜文本区域进行旋转转换;
所述关系确定子模块,具体被配置为对所截取到的多个待回归文本区域中的非倾斜文本区域和旋转转换后的所述倾斜文本区域进行类别回归、检测框回归和角度回归。
可选的,一种具体实现方式中,所述关系确定模块,还包括:
区域抑制子模块,被配置为在在所述特征图中截取各个初始文本区域对应的待回归文本区域之前,对各个初始文本区域执行非极大值抑制NMS操作,得到各个初始文本区域的建议检测区域;
所述区域截取子模块,具体被配置为在所述特征图中截取所得到的各个建议文本区域对应的待回归文本区域。
根据本公开实施例的第三方面,提供一种电子设备,包括:
处理器;
被配置为存储所述处理器可执行指令的存储器;
其中,所述处理器被配置为执行所述指令,以实现如第一方面提供的任一文本检测方法的步骤。
根据本公开实施例的第四方面,提供一种存储介质,当所述存储介质中的指令由电子设备的处理器执行时,使得所述电子设备能够执行如第一方面提供的任一文本检测方法的步骤。
根据本公开实施例的第五方面,提供一种计算机程序产品,当其在计算机上运行时,使得计算机执行如第一方面提供的任一文本检测方法的步骤。
本公开的实施例提供的技术方案至少带来以下有益效果:
在对包括文字的待检测图像进行OCR检测,以获得待检测图像中的文本区域,进而,识别待检测图像中的文字内容时,可以在获取到该待检测图像后,从该待检测图像中,确定关于文本行的备选区域,从而,确定出该备选区域的倾斜角度和尺寸特征两类特征信息,作为被选区域的锚点特征。这样,便可以利用该锚点特征,以及预设的关于锚点数据与文本行识别结果的对应关系,确定该备选区域是否为文本行。其中,当该备选区域为文本行时,则该备选区域即为文本区域,从而,便可以将该被选区域的内容确定为所检测得到的目标文本。
其中,由于被选取的锚点特征中包括备选区域的倾斜角度,进而,在利用备选区域的锚点信息确定备选区域是否为文本行时,便可以利用备选区域的倾斜角度。基于此,在本公开提供的技术方案中,能够检测到待检测图像中包括的倾斜文本区域,从而,可以提高所检测得到的文本区域的准确率,进而,当所检测得到的文本区域的准确率提高时,所识别得到的该文本区域中的文字的准确率也随之提高,即提高所获取到的待检测图像中的文字的准确性。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理,并不构成对本公开的不当限定。
图1是根据一示例性实施例示出的一种文本检测方法的流程图。
图2是根据一示例性实施例示出的图1中步骤S14的一种具体实现方式的流程图。
图3是根据一示例性实施例示出的一种关于锚点类别与文本行识别结果的对应关系的确定方式的流程图。
图4是根据一示例性实施例示出的图3中步骤S32-S34的一种具体实现方式的流程图。
图5是根据另一示例性实施例示出的一种文本检测方法的流程图。
图6是根据一示例性实施例示出的一种基于第二样本图像中各个文本行的锚点特征得到的各个锚点类别的方式的流程图。
图7是根据另一示例性实施例示出的一种基于第二样本图像中各个文本行的锚点特征得到的各个锚点类别的方式的流程图。
图8(a)是图3所示实施例基础上,根据一示例性实施例示出的一种关于锚点类别与文本行识别结果的对应关系的确定方式的流程图。
图8(b)是图3所示实施例基础上,根据另一示例性实施例示出的一种关于锚点类别与文本行识别结果的对应关系的确定方式的流程图。
图8(c)是图8(a)和图8(b)所示实施例基础上,根据另一示例性实施例示出的一种关于锚点类别与文本行识别结果的对应关系的确定方式的流程图。
图9是根据一示例性实施例示出的图8(b)和图8(c)中步骤S33A的一种具体实现方式的流程图。
图10是根据一示例性实施例示出的一种文本检测装置框图。
图11是根据一示例性实施例示出的一种用于检测文本的电子设备的框图。
具体实施方式
为了使本领域普通人员更好地理解本公开的技术方案,下面将结合附图,对本公开实施例中的技术方案进行清楚、完整地描述。
需要说明的是,本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
图1是根据一示例性实施例示出的一种文本检测方法的流程图,其中,该方法可以应用于任一需要进行文本检测的电子设备,例如,笔记本电脑、台式电脑、平板电脑、手机等,对此,本公开不做具体限定,以下简称电子设备。
其中,可以将本公开提供的检测方法整合到电子设备的功能模块中,以使得电子设备自身便可以具有实现本公开提供的检测方法的功能;也可以将本公开提供的检测方法作为应用软件,安装到电子设备中,这样,电子设备可以通过所安装的该应用软件的客户端,实现本公开提供的检测方法,这都是合理的。
如图1所示,本公开提供的一种文本检测方法,包括以下步骤。
在步骤S11中,获取待检测图像;
其中,电子设备可以通过多种方式获取待检测图像,对此,本公开不做具体限定。例如,电子设备可以从本地存储区域中获取所存储的待检测图像,也可以从其他电子设备处获取待检测图像,还可以从网上下载待检测图像。
此外,该包括文字的待检测图像可以为任一类型的图像,例如,可以为照片,也可以为对文本资料进行扫描得到的扫描图片等,这都是合理的。
在步骤S12中,从待检测图像中,确定关于文本行的备选区域;
在获取到待检测图像后,电子设备便可以根据该待检测图像的图像内容,在该待检测图像中确定至少一个关于文本行的备选区域。
其中,每个备选区域可能为一文本行,也可能为除文字外的其他内容构成的区域,例如,由多个尺寸较小的装饰性图案横向排列构成的行区域等。并且,每个备选区域可以具有一定的倾斜角度。
需要说明的是,电子设备可以通过多种方式从待检测图像中,确定关于文本行的备选区域,例如,电子设备可以通过图像特征提取、图像检测等各类算法,从待检测图像中,确定关于文本行的备选区域。对此,本公开不做具体限定。
在步骤S13中,确定备选区域的锚点特征;
其中,锚点特征包括备选区域的倾斜角度和尺寸特征两类特征信息。
在确定出待检测图像中,关于文本行的各个备选区域后,针对每个备选区域,电子设备便可以对该备选区域进行区域特征提取,以得到该备选区域的倾斜角度和尺寸特征,即得到备选区域的锚点特征。
可选的,备选区域的尺寸特征可以只包括备选区域的宽高比;也可以只包括备选区域所包括的内容的尺寸信息,例如,所包括文字的尺寸、所包括图案的尺寸等;还可以同时包括备选区域的宽高比和备选区域所包括的内容的尺寸信息。这都是合理的。
当然,备选区域的尺寸特征还可以包括其他与备选区域的形状和尺寸相关的信息,例如,备选区域的高度和宽度等,对此,本公开不做具体限定。
在步骤S14中,利用备选区域的锚点特征,以及预设的锚点数据与文本行识别结果的对应关系,确定备选区域是否为文本行;
其中,文本行识别结果用于表征区域是否为文本行的结果;锚点数据为基于预设的多个样本锚点特征所确定出的数据;
在本公开的实施例提供的技术方案中,可以预先构建锚点数据与文本行识别结果的对应关系,从而,该对应关系便可以表征具有何种锚点数据的区域是文本行。
可选的,在上述对应关系中,文本行识别结果包括是和否两种情况,即上述对应关系不但可以表征具有何种锚点数据的区域是文本行,还可以表征具有何种锚点数据的区域不是文本行。进而,在得到待检测图像中的备选区域的锚点特征后,便可以从上述对应关系中查找包括该锚点特征的锚点数据,从而,所查找到的锚点数据对应的文本行识别结果,即为该备选区域的文本行识别结果,进而,便可以根据所得到的文本行识别结果,确定该备选区域是否为文本行。
这样,当上述文本行识别结果为是时,则可以确定该备选区域为文本行;相应的,当上述文本行识别结果为否时,则可以确定该备选区域不是文本行。
可选的,在上述对应关系中,文本行识别结果只包括是,即上述对应关系用于表征具有何种锚点数据的区域是文本行。进而,在得到待检测图像中的备选区域的锚点特征后,便可以从上述对应关系中查找包括该锚点特征的锚点数据,从而,当查找到包括该锚点特征的锚点数据时,则可以确定该备选区域为文本行;相应的,当未查找到包括该锚点特征的锚点数据时,则可以确定该备选区域不是文本行。
当然,上述对应关系还可以通过其他方式表征具有何种锚点数据的区域是文本行,进而,根据上述对应关系的表征方式不同,利用备选区域的锚点特征,以及上述对应关系,确定备选区域是否为文本行的方式也可以随之调整,对此,本公开不做具体限定。
需要说明的是,上述对应关系可以是在电子设备本地确定并存储在本地的,这样,在执行上述步骤S14时,电子设备便可以从本地直接读取得到该对应关系;当然,上述对应关系也可以是在其他电子设备上确定并发送给电子设备,以使电子设备存储在本地的,这样,在执行上述步骤S14时,电子设备便可以从本地直接读取得到该对应关系;此外,上述对应关系也可以是在其他电子设备上确定并存储在其他电子设备中的,这样,在执行上述步骤S14时,电子设备需要首先从其他电子设备处读取得到该对应关系,其中,确定该对应关系和存储该对应关系的其他电子设备可以是同一其他电子设备,也可以是不同的电子设备。这都是合理的。
其中,可以通过多种方式构建上述预设的锚点数据与文本行识别结果的对应关系,对此,本公开不做具体限定。为了行为清晰,候选将会对上述对应关系的确定方式进行举例说明。
在步骤S15中,当备选区域为文本行时,将备选区域的内容确定为所检测得到的目标文本。
当确定出备选区域为文本行时,则可以说明该本选区域即为文本区域,从而,该备选区域中的内容为文本,从而,而本公开的目的即为获得待检测图像中的文本区域,也就是说,当确定出备选区域为文本行时,该备选区域即为所要获得的待检测图像中的文本区域,从而,便可以将备选区域的内容确定为所检测得到的目标文本。
以上可见,在本公开的实施例中提供的技术方案中,在对包括文字的待检测图像进行OCR检测,以获得待检测图像中的文本区域,进而,识别待检测图像中的文字内容时,可以在获取到该待检测图像后,从该待检测图像中,确定关于文本行的备选区域,从而,确定出该备选区域的倾斜角度和尺寸特征两类特征信息,作为被选区域的锚点特征。这样,便可以利用该锚点特征,以及预设的关于锚点数据与文本行识别结果的对应关系,确定该备选区域是否为文本行。其中,当该备选区域为文本行时,则该备选区域即为文本区域,从而,便可以将该被选区域的内容确定为所检测得到的目标文本。
其中,由于被选取的锚点特征中包括备选区域的倾斜角度,进而,在利用备选区域的锚点信息确定备选区域是否为文本行时,便可以利用备选区域的倾斜角度。基于此,在本公开提供的技术方案中,能够检测到待检测图像中包括的倾斜文本区域,从而,可以提高所检测得到的文本区域的准确率,进而,当所检测得到的文本区域的准确率提高时,所识别得到的该文本区域中的文字的准确率也随之提高,即提高所获取到的待检测图像中的文字的准确性。
可以理解的,在确定上述锚点数据与文本行识别结果的对应关系时,锚点数据为基于预设的多个样本锚点特征所确定出的数据,而该多个样本锚点特征按照所包括倾斜角度和尺寸特征的具体数值,可以分成多个类别。
基于此,可选的,一种具体实现方式中,上述锚点数据与文本行识别结果的对应关系可以包括:锚点类别与文本行识别结果的对应关系。
其中,多个样本锚点特征包括备选区域的倾斜角度和尺寸特征两类特征信息;进而,所确定的每一锚点类别可以包括:一倾斜角度和一尺寸特征,并且,每一锚点类别所包括的倾斜角度是基于多个样本锚点特征中,各个倾斜角度的聚类结果确定的,每一锚点类比所包括的尺寸特征是基于多个样本锚点特征中,各个尺寸特征的聚类结果确定的。也就是说,每一锚点类别可以包括上述倾斜角度和尺寸特征两类特征信息,并且,每一锚点类别包括的每一类特征信息是基于上述多个样本锚点特征中该类特征信息的聚类结果得到的。
需要说明的是,可选的,当上述尺寸特征包括:备选区域的宽高比和备选区域所包括的内容的尺寸信息时,则上述锚点类别即可以包括倾斜角度、宽高比和内容的尺寸信息三类特征信息。也就是说,所确定的每一锚点类别可以包括一倾斜角度、一宽高比和一内存的尺寸信息。
相应的,在本具体实现方式中,如图2所示,上述步骤S14,利用备选区域的锚点特征,以及预设的锚点数据与文本行识别结果的对应关系,确定备选区域是否为文本行,可以包括如下步骤:
在步骤S21中,确定备选区域的锚点特征所属的目标锚点类别;
在步骤S22中,利用目标锚点类别,以及预设的锚点类别与文本行识别结果的对应关系,确定备选区域是否为文本行。
在本具体实现方式中,由于锚点类别与文本行识别结果的对应关系可以表征所具有锚点数据属于何种锚点类别的区域为文本行,因此,在得到备选区域的锚点特征后,便可以首先确定备选区域的锚点特征所属的目标锚点类别,从而,利用该目标锚点类别和上述锚点类别与文本行识别结果的对应关系,确定备选区域是否为文本行。
可选的,在上述锚点类别与文本行识别结果的对应关系中,文本行识别结果包括是和否两种情况,即上述对应关系不但可以表征所具有锚点数据属于何种锚点类别的区域是文本行,还可以表征所具有锚点数据属于何种锚点类别的区域不是文本行。进而,在得到待检测图像中的备选区域的锚点特征所属的目标锚点类别后,便可以从上述锚点类别与文本行识别结果的对应关系中查找该目标锚点类别,从而,所查找到的目标锚点类别对应的文本行识别结果,即为该备选区域的文本行识别结果,进而,便可以根据所得到的文本行识别结果,确定该备选区域是否为文本行。
这样,当上述文本行识别结果为是时,则可以确定该备选区域为文本行;相应的,当上述文本行识别结果为否时,则可以确定该备选区域不是文本行。
可选的,在上述对应关系中,文本行识别结果只包括是,即上述锚点类别与文本行识别结果的对应关系用于表征所具有锚点数据属于何种锚点类别的区域是文本行。进而,在得到待检测图像中的备选区域的锚点特征所属的目标锚点类别后,便可以从上述对应关系中查找该目标锚点类别,从而,当查找到该目标锚点类别时,则可以确定该备选区域为文本行;相应的,当未查找到该目标锚点类别时,则可以确定该备选区域不是文本行。
当然,上述锚点类别与文本行识别结果的对应关系还可以通过其他方式表征所具有锚点数据属于何种锚点类别的区域是文本行,进而,根据上述锚点类别与文本行识别结果的对应关系的表征方式不同,利用备选区域的锚点特征所属的目标锚点类别,以及上述锚点类别与文本行识别结果的对应关系,确定备选区域是否为文本行的方式也可以随之调整,对此,本公开不做具体限定。
下面,对本公开提供的锚点类别与文本行识别结果的对应关系的确定方式进行举例说明。需要说明的是,在如下说明中,锚点类别与文本行识别结果的对应关系的确定方式的执行主体为执行本公开提供的一种文本检测方法的电子设备,其中,当利用其它电子设备确定锚点类别与文本行识别结果的对应关系时,所采用的方法可以与如下说明中的方法相同,在此不再赘述。
可选的,一种具体实现方式中,如图3所示,锚点类别与文本行识别结果的对应关系的确定方式可以包括如下步骤:
在步骤S31中,获取第一样本图像的特征图,以及基于第二样本图像中各个文本行的锚点特征得到的各个锚点类别;
在步骤S32中,基于特征图和各个锚点类别,进行关于文本区域的类别回归和检测框回归,得到多个初始文本区域;
在步骤S33中,在特征图中截取各个初始文本区域对应的待回归文本区域;
在步骤S34中,对所截取到的多个待回归文本区域进行类别回归、检测框回归和角度回归,得到锚点类别与文本行识别结果的对应关系。
电子设备首先获取第一样本图像的特征图,以及基于第二样本图像中各个文本行的锚点特征得到的各个锚点类别。
其中,电子设备可以通过多种方式获取上述特征图和各个锚点类别,对此,本公开不做具体限定。为了行文清晰,后续将会对电子设备获取上述特征图和各个锚点类别的方式进行举例说明。
此外,需要说明的是,上述第一图像样本和第二图像样本可以为相同的图像样本,也可以为不同的图像样本。这都是合理的。
在得到上述特征图和各个锚点类别后,便可以基于该特征图和各个锚点类别,对特征图中所存在的各个图像区域,进行关于文本区域的类别回归和检测框回归,得到多个初始文本区域。其中,所得到的初始文本区域可以具有倾斜角度和尺寸特征。
进一步的,在得到上述多个初始文本区域后,针对每个初始文本区域,便可以利用该初始文本区域在上述特征图中截取该初始文本区域对应的待回归文本区域。
这样,白可以对所截取到的各个待回归文本区域进行类别回归、检测框回归和角度回归,从而,得到锚点类别与文本行识别结果的对应关系。
可选的,一种具体实现方式中,上述图3所示具体实现方式中的步骤S32-S34可以通过对预设模型进行训练实现。具体的,如图4所示,上述步骤S32-S34可以包括如下步骤:
在步骤S41中,将第一样本图像的特征图和文本区域锚点输入到预设模型的区域选取层进行训练,得到区域候选层输出的初始文本区域;
在步骤S42中,在第一样本图像的特征图中截取初始文本区域对应的待回归文本区域;
在步骤S43中,将待回归文本区域输入到预设模型的池化层进行训练,在满足预设完成条件时,得到锚点类别与文本行识别结果的对应关系。
具体的,在进行模型训练之前,电子设备首先获取到第一样本图像的特征图和文本区域锚点(anchor),并构建预设模型。
其中,anchor是利用上述基于第二样本图像中各个文本行的锚点特征得到的各个锚点类别确定的。即在得到上述各个锚点类别后,可以进一步确定anchor。并且,由于各个锚点类别包括上述倾斜角度和尺寸特征两类特征信息,因此,anchor可以反映文本区域的倾斜角度和尺寸特征,即anchor可以表征一文本区域。
此外,该预设模型可以为faster-rcnn、rfcn、rcnn、SSD等各种模型,对此,本公开不做具体限定。
其中,该预设模型可以包括区域选取层和池化层。例如,当该预设模型为faster-rcnn时,该区域选取层即可以为rpn(Region Proposal Network,区域选取网络),该池化层可以为roi-pooling(Region of Interest-Pooling)层。
这样,在获取到上述特征图和anchor,并构建了预设模型后,电子设备便可以将所获取到的特征图和anchor输入到该预设模型的区域候选层进行训练,进而,当区域候选层对特征图和anchor的训练满足预设的区域候选层训练完成条件时,该区域候选层便可以输出所训练得到的初始文本区域。
其中,区域候选层对特征图和anchor进行训练的具体方式为:进行类别回归与检测框回归,从而得到所训练得到的类别为文本区域的各个区域,即得到初始文本区域。
此外,上述区域候选层训练完成条件可以为训练的迭代次数达到预设数值,也可以为训练得到的损失值小于预设损失值,这都是合理的。
进一步的,在得到区域候选层输出的初始文本区域后,由于该初始文本区域具有倾斜角度和尺寸特征,则可以利用该初始文本区域在上述特征图中截取初始文本区域对应的待回归文本区域。
接着,将所截取到的待回归文本区域输入到上述预设模型的池化层中进行训练,即将所截取到的各个待回归文本区域缩小或放大至与上述预设模型的池化层的模型参数相匹配的尺寸大小,并利用池化层对缩小或放大后的各个待回归文本区域进行类别回归、检测框回归和角度回归。进而,在满足预设完成条件时,得到训练完成的目标模型。
其中,由于训练完成的目标模型中建立了锚点类别与文本行识别结果的对应关系,因此,在得到训练完成的目标模型后,便可以得到锚点类别与文本行识别结果的对应关系。
此外,上述预设完成条件可以为训练的迭代次数达到预设数值,也可以为训练得到的损失值小于预设损失值,这都是合理的。
进一步的,为了保证训练得到的目标模型的精度,以保证所得到的锚点类别与文本行识别结果的对应关系的精度,上述特征图和anchor可以满足一定的数量,该数量的具体数值可以根据实际应用的需求进行限定。
可选的,一种具体实现方式中,在上述图4所示具体实现方式的基础上,如图5所示,本公开提供的一种文本检测方式即可以包括如下步骤:
在步骤S51中,获取待检测图像;
在步骤S52中,将待检测图像输入到训练完成的目标模型中,得到该目标模型输出的目标文本区域;
在步骤S53,将所得到的目标文本区域中的内容确定为所检测得到的目标文本。
其中,上述训练完成的目标模型即为上述图4所示具体实现方式中,基于特征图和anchor训练得到的模型。
这样,当将上述待检测图像输入到该目标模型中,该目标模型便可以确定该待检测图像中关于文本行的备选区域,并学习各个备选区域的锚点特征,从而确定该锚点特征所属的锚点类别。进而,根据该目标模型中所建立的关于锚点类别与文本行识别结果的对应关系,便可以基于上述锚点类别和该对应关系,确定该待检测图像中关于文本行的备选区域中是否为文本行,从而,将确定是文本行的备选区域作为目标文本区域作为输出结果进行输出,以使得电子设备可以得到该目标文本区域。进一步的,电子设备便可以将所得到的目标文本区域中的内容确定为所检测得到的目标文本。
其中,上述目标文本区域的输出方式可以为:在待检测图像中进行标注,也可以为:通过输出的目标文本框的倾斜角度和尺寸特征的具体数值进行表征,这都是合理的。
可选的,一种具体实现方式中,上述第一样本图像的特征图的获取方式可以为:
获取第一样本图像,进而,将所获取到的第一样本图像输入到图像特征提取模型中。这样,该图像特征提取模型便可以学习第一样本图像的图像特征,从而,生成第一样本图像对应的特征图。这样,针对每一第一样本图像,便可以通过图像特征提取模型来得到该第一样本图像对应的特征图。
其中,为了提高图像特征提取模型生成特征图的精度和速度,在将第一样本图像输入到图像特征提取模型之前,可以根据图像特征提取模型的模型参数,将第一样本图像缩小或者放大至于该模型参数相匹配的尺寸大小,进而,将缩小或者放大后的第一样本图像输入到该图像特征提取模型。
此外,该图像特征提取模型可以为任一能够提取图像特征,生成特征图的模型,对此,本公开不做具体限定。例如,VGG16、InceptionV1、InceptionV2、resnet、Inception-resnet等网络模型。
可选的,一种具体实现方式中,如图6所示,上述基于第二样本图像中各个文本行的锚点特征得到的各个锚点类别的方式,可以包括如下步骤:
在步骤S61中,确定第二样本图像中各个文本行的倾斜角度和尺寸特征,得到角度数据组和尺寸数据组;
在步骤S62中,对角度数据组和尺寸数据组分别进行聚类,得到第一数量个角度聚类结果和第二数据量个尺寸聚类结果;
在步骤S63中,从第一数量个角度聚类结果和第二数据量个尺寸聚类结果中,分别选取一个聚类结果的聚类中心,构成一个锚点类别,得到锚点类别;
其中,不同锚点类别包括的两类特征信息不完全相同。
具体的,电子设备首先获取各个第二样本图像,其中,每一第二样本图像中可以包括至少一个文本行,当然,该文本行的长度可以不大于所在第二样本图像的长度或宽度。进而,提取该第二样本图像中所包括的每一文本行,得到每一文本行对应的文本区域,并计算所得到的每一文本框的倾斜角度和尺寸特征。
其中,需要说明的是,上述所获取的每一文本行对应的文本区域可以是每一第二样本图像中所包括的实际文本区域,则所计算得到的每一文本区域的倾斜角度和尺寸特征也可以为该文本区域在第二样本图像中的真实数据。
进而,在计算得到每一第二样本图像中的每一文本区域的倾斜角度和尺寸特征后,便可以得到包括所计算得到的全部倾斜角度的角度数据组,以及包括所计算得到的全部尺寸特征的尺寸数据组。
接着,电子设备便可以按照预设的根据预设角度范围所划分的类别数和尺寸特征对应的类别数,对所得到的角度数据组和尺寸数据组分别进行聚类,得到第一数量个角度聚类结果和第二数据量个尺寸聚类结果。
进而,便可以从所得到的每个角度聚类结果和每个尺寸聚类结果中,分别选取一个聚类结果的聚类中心,所选取的角度聚类中心和尺寸聚类中心便可以构成一个锚点类别,从而,多次选取之后,便可以得到多个锚点类别。其中,不同锚点类别包括的两类特征信息不完全相同。
可以理解的,在得到第一数量个角度聚类结果和第二数据量个尺寸聚类结果的基础上,最多可以得到第一数量和第二数量的乘积个锚点类别。
其中,该第一数量和第二数量可以相同,也可以不同。并且,该第一数量是对预设角度范围进行划分所得到的,例如,预设角度范围可以为0°-90°,进而,以30°为标准,将该预设角度范围划分为0°-30°,30°-60°和60°-90°,三个类别,即第一数量为3,即角度类别的数量为3。
此外,在上述步骤S63中,所采用的聚类方法可以包括但不限于knn、k-means、高斯模型等。
可选的,一种具体实现方式中,当上述尺寸特征包括:宽高比和内容的尺寸信息时,如图7所示,上述基于第二样本图像中各个文本行的锚点特征得到的各个锚点类别的方式,可以包括如下步骤:
在步骤S71中,确定第二样本图像中各个文本行的倾斜角度、宽高比和内容的尺寸信息,得到角度数据组、宽高比数据组和内容尺寸数据组;
在步骤S72中,对角度数据组、宽高比数据组和内容尺寸数据组分别进行聚类,得到第一数值个角度聚类结果、第二数值个宽高比聚类结果和第三数据值个内容尺寸聚类结果;
在步骤S73中,从角度聚类结果、第一数量个宽高比聚类结果和第二数据量个文字尺寸聚类结果中,分别选取一个聚类结果的聚类中心,构成一个锚点类别,得到锚点类别;
其中,不同锚点类别包括的三类特征信息不完全相同。
其中,上述步骤S71-S73的具体内容与上述步骤S61-S63的具体内容相似,在此不再赘述。
可选的,一种具体实现方式中,在图3所示实施例的基础上,如图8(a)所示,上述关于锚点类别与文本行识别结果的对应关系的确定方式还可以包括如下步骤:
在步骤S34A中,提取所截取到的多个待回归文本区域中的倾斜文本区域的角度特征,并基于角度特征,对倾斜文本区域进行旋转转换;
相应的,在本具体实现方式中,上述步骤S34,可以包括如下步骤:
在步骤S34B中:对所截取到的多个待回归文本区域中的非倾斜文本区域和旋转转换后的倾斜文本区域进行类别回归、检测框回归和角度回归。
其中,对于旋转转换后的倾斜文本区域而言,在旋转该倾斜文本区域时,该倾斜文本区域将会发生角度变化,从而,使得旋转转换后的倾斜文本区域的像素中,可能存在亚像素级别的对应,也就是说,倾斜文本区域的像素点在旋转转换后变成亚像素级别的点。因此,为了消除该亚像素级别的点的影响,需要进行亚像素级别的双线性差值。其中,所谓亚像素级别是指:在图像中的两个像素点之间可以存在的更小的点。
可选的,一种具体实现方式中,在图3所示实施例的基础上,如图8(b)所示,上述关于锚点类别与文本行识别结果的对应关系的确定方式还可以包括如下步骤:
在步骤S33A中,对各个初始文本区域执行非极大值抑制NMS操作,得到各个初始文本区域的建议检测区域;
相应的,在本具体实现方式中,上述步骤S33,可以包括如下步骤:
在步骤S33B中,在特征图中截取所得到的各个建议文本区域对应的待回归文本区域。
其中,所谓NMS为non maximum suppression的缩写,中文含义为非极大值抑制。
具体的,在上述步骤S32中,在进行关于文本区域的类别回归时,其实质是:产生固定尺寸的窗口,进而,针对同一文本对象,通过滑动该窗口在第一样本图像的特征图中截取到多个关于该文本对象的区域,并且,为所截取到的每一个区域添加一个分类得分。
其中,该分类得分为:所确定的初始文本区域为真实文本区域的概率,具体的,分类得分越高,则表明所确定的该初始文本区域为真实文本区域的概率越高。
显然,在上述步骤S32中所得到的初始文本区域中,包括针对同一文本对象的多个区域,基于此,为了提高所得到的关于锚点类别与文本行识别结果的对应关系的准确率,可以通过NMS,从针对同一文本对象的多个初始文本区域中选取极大值最大的文本区域,作为针对该文本对象的建议文本区域。
相应的,在本具体实现方式中,上述步骤S33,即可以包括在特征图中截取建议文本区域对应的待回归文本区域。
其中,上述步骤S33B的执行方式与上述步骤S33的执行方式相似,在此不再赘述。
可选的,一种具体实现方式中,在图3所示具体实现方式的基础上,基于图8(a)和图8(b)所示的具体实现方式,如图8(c)所示,上述关于锚点类别与文本行识别结果的对应关系的确定方式还可以包括如下步骤:
在步骤S33A中,对各个初始文本区域执行非极大值抑制NMS操作,得到各个初始文本区域的建议检测区域;
相应的,在本具体实现方式中,上述步骤S33,可以包括如下步骤:
在步骤S33B中,在特征图中截取所得到的各个建议文本区域对应的待回归文本区域。
进而,在本具体实现方式中,上述关于锚点类别与文本行识别结果的对应关系的确定方式还可以包括如下步骤:
在步骤S34A中,提取所截取到的多个待回归文本区域中的倾斜文本区域的角度特征,并基于角度特征,对倾斜文本区域进行旋转转换;
相应的,在本具体实现方式中,上述步骤S34,可以包括如下步骤:
在步骤S34B中:对所截取到的多个待回归文本区域中的非倾斜文本区域和旋转转换后的倾斜文本区域进行类别回归、检测框回归和角度回归。
其中,图8(c)中所示的相关步骤,与图8(a)和图8(b)中所示的相关步骤的执行方式相同,在此不再赘述。
其中,可选的,一种具体实现方式中,如图9所示,电子设备执行上述步骤S33A,对各个初始文本区域执行非极大值抑制NMS操作,得到各个初始文本区域的建议检测区域的方式,可以包括如下步骤:
在步骤S91中,将初始文本区域中分类得分最高的文本区域作为目标文本区域;
其中,分类得分为:所确定的每一初始文本区域为真实文本区域的概率;
在步骤S92中,删除候选文本区域中重叠面积与并集面积的比值大于预设比值的文本区域,得到当前的初始文本区域;
其中,候选文本区域为:初始文本区域中除目标文本区域以外的文本区域,重叠面积为:候选文本区域与目标文本区域的重叠区域的面积,并集面积为:候选文本区域与目标文本区域的并集区域的面积;
在步骤S93中,将剩余文本区域中分类得分最高的文本区域作为下一目标文本区域,返回上述步骤S92;
其中,剩余文本区域为:当前的初始文本区域中未作为目标文本区域的文本区域;
在步骤S94中,将所保留的各个目标文本区域作为各个建议检测区域。
在本具体实现方式中,将初始文本区域中分类得分最高的文本区域作为目标文本区域,进而,将初始文本区域中除目标文本区域以外的文本区域作为候选文本区域。
则针对每一候选文本区域,计算该候选文本区域与目标文本区域的重叠区域的面积,以及该候选文本区域与目标文本区域的并集区域的面积;进而,计算上述重叠面积与并集面积的比值。
接着,针对每一候选文本区域,判断所计算得到重叠面积与并集面积的比值与预设比值的大小关系,其中,当重叠面积与并集面积的比值大于预设比值时,则在初始文本区域中删除该候选文本区域。
这样,当遍历每一候选文本区域后,可以得到当前的初始文本区域。其中,该当前的初始文本区域相比于步骤S32中所得到的初始文本区域,可能少了至少一个文本区域。
进而,便可以将当前的初始文本区域中未作为目标文本区域的文本区域作为剩余文本区域,从而,可以确定该剩余文本区域中分类得分最高的文本区域作为下一目标文本区域,则电子设备便可以重复上述步骤S92,得到再次更新的初始文本区域。
进而,将再次更新的初始文本区域中未作为目标文本区域的文本区域作为剩余文本区域,并确定该更新后的剩余文本区域中分类得分最高的文本区域作为下一目标文本区域,并再次返回执行上述步骤S92。
依次类推,当再次更新后的初始文本区域不存在未作为目标文本区域的文本区域时,则电子设备便可以将当前的初始文本区域中所保留的各个目标文本区域作为各个建议文本区域。
图10是根据一示例性实施例示出的一种文本检测装置框图。参照图10,该装置包括图像获取模块1010、区域确定模块1020、特征确定模块1030、文本行确定模块1040和文本确定模块1050。
该图像获取模块1010被配置为获取待检测图像;
该区域确定模块1020被配置为从所述待检测图像中,确定关于文本行的备选区域;
该特征确定模块1030被配置为确定所述备选区域的锚点特征;其中,所述锚点特征包括所述备选区域的倾斜角度和尺寸特征两类特征信息;
该文本行确定模块1040被配置为利用所述备选区域的锚点特征,以及预设的锚点数据与文本行识别结果的对应关系,确定所述备选区域是否为文本行;其中,所述文本行识别结果用于表征区域是否为文本行的结果;所述锚点数据为基于预设的多个样本锚点特征所确定出的数据;
该文本确定模块1050被配置为当所述备选区域为文本行时,将所述备选区域的内容确定为所检测得到的目标文本。
以上可见,在本公开的实施例提供的技术方案中,在对包括文字的待检测图像进行OCR检测,以获得待检测图像中的文本区域,进而,识别待检测图像中的文字内容时,可以在获取到该待检测图像后,从该待检测图像中,确定关于文本行的备选区域,从而,确定出该备选区域的倾斜角度和尺寸特征两类特征信息,作为被选区域的锚点特征。这样,便可以利用该锚点特征,以及预设的关于锚点数据与文本行识别结果的对应关系,确定该备选区域是否为文本行。其中,当该备选区域为文本行时,则该备选区域即为文本区域,从而,便可以将该被选区域的内容确定为所检测得到的目标文本。
其中,由于被选取的锚点特征中包括备选区域的倾斜角度,进而,在利用备选区域的锚点信息确定备选区域是否为文本行时,便可以利用备选区域的倾斜角度。基于此,在本公开提供的技术方案中,能够检测到待检测图像中包括的倾斜文本区域,从而,可以提高所检测得到的文本区域的准确率,进而,当所检测得到的文本区域的准确率提高时,所识别得到的该文本区域中的文字的准确率也随之提高,即提高所获取到的待检测图像中的文字的准确性。
可选的,一种具体实现方式中,锚点数据与文本行识别结果的对应关系,包括:锚点类别与文本行识别结果的对应关系;
所述文本行确定模块1040,被配置为确定所述备选区域的锚点特征所属的目标锚点类别;利用所述目标锚点类别,以及预设的锚点类别与文本行识别结果的对应关系,确定所述备选区域是否为文本行。
可选的,一种具体实现方式中,所述装置还包括:用于确定所述关于锚点类别与文本行识别结果的对应关系的关系确定模块;所述关系确定模块,包括:
信息获取子模块,被配置为:获取第一样本图像的特征图,以及基于第二样本图像中各个文本行的锚点特征得到的各个锚点类别;
区域获取子模块,被配置为基于所述特征图和所述各个锚点类别,进行关于文本区域的类别回归和检测框回归,得到多个初始文本区域;
区域截取子模块,被配置为在所述特征图中截取各个初始文本区域对应的待回归文本区域;
关系确定子模块,被配置为对所截取到的多个待回归文本区域进行类别回归、检测框回归和角度回归,得到关于锚点类别与文本行识别结果的对应关系。
可选的,一种具体实现方式中,所述装置还包括:用于确定各个锚点类别的锚点确定模块;
所述锚点确定模块,被配置为确定所述第二样本图像中各个文本行的倾斜角度和尺寸特征,得到角度数据组和尺寸数据组;对所述角度数据组和所述尺寸数据组分别进行聚类,得到第一数量个角度聚类结果和第二数据量个尺寸聚类结果;从所述第一数量个角度聚类结果和所述第二数据量个尺寸聚类结果中,分别选取一个聚类结果的聚类中心,构成一个锚点类别,得到锚点类别;其中,不同锚点类别包括的两类特征信息不完全相同。
可选的,一种具体实现方式中,所述关系确定模块,还包括:
区域旋转子模块,被配置为在对所截取到的多个待回归文本区域进行类别回归、检测框回归和角度回归之前,提取所截取到的多个待回归文本区域中的倾斜文本区域的角度特征,并基于所述角度特征,对所述倾斜文本区域进行旋转转换;
所述关系确定子模块,具体被配置为对所截取到的多个待回归文本区域中的非倾斜文本区域和旋转转换后的所述倾斜文本区域进行类别回归、检测框回归和角度回归。
可选的,一种具体实现方式中,所述关系确定模块,还包括:
区域抑制子模块,被配置为在在所述特征图中截取各个初始文本区域对应的待回归文本区域之前,对各个初始文本区域执行非极大值抑制NMS操作,得到各个初始文本区域的建议检测区域;
所述区域截取子模块,具体被配置为在所述特征图中截取所得到的各个建议文本区域对应的待回归文本区域。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
图11是根据一示例性实施例示出的一种用于检测文本的电子设备1100的框图。例如,电子设备1100可以是移动电话,计算机,数字广播终端,消息收发设备,游戏控制台,平板设备,医疗设备,健身设备,个人数字助理等。
参照图11,电子设备1100可以包括以下一个或多个组件:处理组件1102,存储器1104,电源组件1106,多媒体组件1108,音频组件1110,输入/输出(I/O)接口1112,传感器组件1114,以及通信组件1116。
处理组件1102通常控制电子设备1100的整体操作,诸如与显示,电话呼叫,数据通信,相机操作和记录操作相关联的操作。处理组件1102可以包括一个或多个处理器1120来执行指令,以完成上述的方法的全部或部分步骤。此外,处理组件1102可以包括一个或多个模块,便于处理组件1102和其他组件之间的交互。例如,处理组件1102可以包括多媒体模块,以方便多媒体组件1108和处理组件1102之间的交互。
存储器1104被配置为存储各种类型的数据以支持在电子设备1100的操作。这些数据的示例包括用于在电子设备1100上操作的任何应用程序或方法的指令,联系人数据,电话簿数据,消息,图片,视频等。存储器1104可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。
电源组件1106为电子设备1100的各种组件提供电力。电源组件1106可以包括电源管理系统,一个或多个电源,及其他与为电子设备1100生成、管理和分配电力相关联的组件。
多媒体组件1108包括在所述电子设备1100和用户之间的提供一个输出接口的屏幕。在一些实施例中,屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中,多媒体组件1108包括一个前置摄像头和/或后置摄像头。当设备1100处于操作模式,如拍摄模式或视频模式时,前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。
音频组件1110被配置为输出和/或输入音频信号。例如,音频组件1110包括一个麦克风(MIC),当电子设备1100处于操作模式,如呼叫模式、记录模式和语音识别模式时,麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器1104或经由通信组件1116发送。在一些实施例中,音频组件1110还包括一个扬声器,用于输出音频信号。
I/O接口1112为处理组件1102和外围接口模块之间提供接口,上述外围接口模块可以是键盘,点击轮,按钮等。这些按钮可包括但不限于:主页按钮、音量按钮、启动按钮和锁定按钮。
传感器组件1114包括一个或多个传感器,用于为电子设备1100提供各个方面的状态评估。例如,传感器组件1114可以检测到设备1100的打开/关闭状态,组件的相对定位,例如所述组件为电子设备1100的显示器和小键盘,传感器组件1114还可以检测电子设备1100或电子设备1100一个组件的位置改变,用户与电子设备1100接触的存在或不存在,电子设备1100方位或加速/减速和电子设备1100的温度变化。传感器组件1114可以包括接近传感器,被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件1114还可以包括光传感器,如CMOS或CCD图像传感器,用于在成像应用中使用。在一些实施例中,该传感器组件1114还可以包括加速度传感器,陀螺仪传感器,磁传感器,压力传感器或温度传感器。
通信组件1116被配置为便于电子设备1100和其他设备之间有线或无线方式的通信。电子设备1100可以接入基于通信标准的无线网络,如WiFi,运营商网络(如2G、3G、4G或5G),或它们的组合。在一个示例性实施例中,通信组件1116经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中,所述通信组件1016还包括近场通信(NFC)模块,以促进短程通信。例如,在NFC模块可基于射频识别(RFID)技术,红外数据协会(IrDA)技术,超宽带(UWB)技术,蓝牙(BT)技术和其他技术来实现。
在示例性实施例中,电子设备1100可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述方法。
在示例性实施例中,还提供了一种包括指令的存储介质,例如包括指令的存储器1104,上述指令可由电子设备1100的处理器1120执行以完成上述方法。可选地,存储介质可以是非临时性计算机可读存储介质,例如,所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
在本公开提供的又一实施例中,还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述实施例中任一文本检测方法。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。
Claims (12)
1.一种文本检测方法,其特征在于,所述方法,包括:
获取待检测图像;
从所述待检测图像中,确定关于文本行的备选区域;
确定所述备选区域的锚点特征;其中,所述锚点特征包括所述备选区域的倾斜角度和尺寸特征两类特征信息;
利用所述备选区域的锚点特征,以及预设的锚点数据与文本行识别结果的对应关系,确定所述备选区域是否为文本行;其中,所述文本行识别结果用于表征区域是否为文本行的结果;所述锚点数据为基于预设的多个样本锚点特征所确定出的数据;
当所述备选区域为文本行时,将所述备选区域的内容确定为所检测得到的目标文本;
其中,所述锚点数据与文本行识别结果的对应关系包括:锚点类别与文本行识别结果的对应关系;
关于锚点类别与文本行识别结果的对应关系的确定方式,包括:
获取第一样本图像的特征图,以及基于第二样本图像中各个文本行的锚点特征得到的各个锚点类别;
基于所述特征图和所述各个锚点类别,进行关于文本区域的类别回归和检测框回归,得到多个初始文本区域;
在所述特征图中截取各个初始文本区域对应的待回归文本区域;
对所截取到的多个待回归文本区域进行类别回归、检测框回归和角度回归,得到关于锚点类别与文本行识别结果的对应关系。
2.根据权利要求1所述的方法,其特征在于,
所述利用所述备选区域的锚点特征,以及预设的锚点数据与文本行识别结果的对应关系,确定所述备选区域是否为文本行的步骤,包括:
确定所述备选区域的锚点特征所属的目标锚点类别;
利用所述目标锚点类别,以及预设的锚点类别与文本行识别结果的对应关系,确定所述备选区域是否为文本行。
3.根据权利要求1所述的方法,其特征在于,所述各个锚点类别的确定方式,包括:
确定所述第二样本图像中各个文本行的倾斜角度和尺寸特征,得到角度数据组和尺寸数据组;
对所述角度数据组和所述尺寸数据组分别进行聚类,得到第一数量个角度聚类结果和第二数据量个尺寸聚类结果;
从所述第一数量个角度聚类结果和所述第二数据量个尺寸聚类结果中,分别选取一个聚类结果的聚类中心,构成一个锚点类别,得到锚点类别;其中,不同锚点类别包括的两类特征信息不完全相同。
4.根据权利要求1所述的方法,其特征在于,在所述对所截取到的多个待回归文本区域进行类别回归、检测框回归和角度回归的步骤之前,所述方法还包括:
提取所截取到的多个待回归文本区域中的倾斜文本区域的角度特征,并基于所述角度特征,对所述倾斜文本区域进行旋转转换;
所述对所截取到的多个待回归文本区域进行类别回归、检测框回归和角度回归的步骤,包括:
对所截取到的多个待回归文本区域中的非倾斜文本区域和旋转转换后的所述倾斜文本区域进行类别回归、检测框回归和角度回归。
5.根据权利要求1所述的方法,其特征在于,在所述特征图中截取各个初始文本区域对应的待回归文本区域的步骤之前,所述方法还包括:
对各个初始文本区域执行非极大值抑制NMS操作,得到各个初始文本区域的建议检测区域;
所述在所述特征图中截取各个初始文本区域对应的待回归文本区域的步骤,包括:
在所述特征图中截取所得到的各个建议文本区域对应的待回归文本区域。
6.一种文本检测装置,其特征在于,包括:
图像获取模块,被配置为获取待检测图像;
区域确定模块,被配置为从所述待检测图像中,确定关于文本行的备选区域;
特征确定模块,被配置为确定所述备选区域的锚点特征;其中,所述锚点特征包括所述备选区域的倾斜角度和尺寸特征两类特征信息;
文本行确定模块,被配置为利用所述备选区域的锚点特征,以及预设的锚点数据与文本行识别结果的对应关系,确定所述备选区域是否为文本行;其中,所述文本行识别结果用于表征区域是否为文本行的结果;所述锚点数据为基于预设的多个样本锚点特征所确定出的数据;
文本确定模块,被配置为当所述备选区域为文本行时,将所述备选区域的内容确定为所检测得到的目标文本;
其中,所述锚点数据与文本行识别结果的对应关系包括:锚点类别与文本行识别结果的对应关系;
所述装置还包括:用于确定关于锚点类别与文本行识别结果的对应关系的关系确定模块;所述关系确定模块,包括:
信息获取子模块,被配置为:获取第一样本图像的特征图,以及基于第二样本图像中各个文本行的锚点特征得到的各个锚点类别;
区域获取子模块,被配置为基于所述特征图和所述各个锚点类别,进行关于文本区域的类别回归和检测框回归,得到多个初始文本区域;
区域截取子模块,被配置为在所述特征图中截取各个初始文本区域对应的待回归文本区域;
关系确定子模块,被配置为对所截取到的多个待回归文本区域进行类别回归、检测框回归和角度回归,得到关于锚点类别与文本行识别结果的对应关系。
7.根据权利要求6所述的装置,其特征在于,
所述文本行确定模块,被配置为确定所述备选区域的锚点特征所属的目标锚点类别;利用所述目标锚点类别,以及预设的锚点类别与文本行识别结果的对应关系,确定所述备选区域是否为文本行。
8.根据权利要求6所述的装置,其特征在于,所述装置还包括:用于确定各个锚点类别的锚点确定模块;
所述锚点确定模块,被配置为确定所述第二样本图像中各个文本行的倾斜角度和尺寸特征,得到角度数据组和尺寸数据组;对所述角度数据组和所述尺寸数据组分别进行聚类,得到第一数量个角度聚类结果和第二数据量个尺寸聚类结果;从所述第一数量个角度聚类结果和所述第二数据量个尺寸聚类结果中,分别选取一个聚类结果的聚类中心,构成一个锚点类别,得到锚点类别;其中,不同锚点类别包括的两类特征信息不完全相同。
9.根据权利要求6所述的装置,其特征在于,所述关系确定模块,还包括:
区域旋转子模块,被配置为在对所截取到的多个待回归文本区域进行类别回归、检测框回归和角度回归之前,提取所截取到的多个待回归文本区域中的倾斜文本区域的角度特征,并基于所述角度特征,对所述倾斜文本区域进行旋转转换;
所述关系确定子模块,具体被配置为对所截取到的多个待回归文本区域中的非倾斜文本区域和旋转转换后的所述倾斜文本区域进行类别回归、检测框回归和角度回归。
10.根据权利要求6所述的装置,其特征在于,所述关系确定模块,还包括:
区域抑制子模块,被配置为在所述特征图中截取各个初始文本区域对应的待回归文本区域之前,对各个初始文本区域执行非极大值抑制NMS操作,得到各个初始文本区域的建议检测区域;
所述区域截取子模块,具体被配置为在所述特征图中截取所得到的各个建议文本区域对应的待回归文本区域。
11.一种电子设备,其特征在于,包括:
处理器;
被配置为存储所述处理器可执行指令的存储器;
其中,所述处理器被配置为执行所述指令,以实现如权利要求1至5中任一项所述的文本检测方法。
12.一种存储介质,当所述存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行如权利要求1至5中任一项所述的文本检测方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010537495.7A CN111666941B (zh) | 2020-06-12 | 2020-06-12 | 一种文本检测方法、装置及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010537495.7A CN111666941B (zh) | 2020-06-12 | 2020-06-12 | 一种文本检测方法、装置及电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111666941A CN111666941A (zh) | 2020-09-15 |
CN111666941B true CN111666941B (zh) | 2024-03-29 |
Family
ID=72387583
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010537495.7A Active CN111666941B (zh) | 2020-06-12 | 2020-06-12 | 一种文本检测方法、装置及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111666941B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112381089A (zh) * | 2020-11-20 | 2021-02-19 | 山西同方知网数字出版技术有限公司 | 一种复杂环境下的自反馈文本分离方法及系统 |
CN112686128B (zh) * | 2020-12-28 | 2022-10-14 | 南京览众智能科技有限公司 | 基于机器学习的教室课桌检测方法 |
CN113449728A (zh) * | 2021-07-21 | 2021-09-28 | 北京有竹居网络技术有限公司 | 一种文字识别方法及其相关设备 |
CN113673516A (zh) * | 2021-08-20 | 2021-11-19 | 平安科技(深圳)有限公司 | 检测区域合并方法、文字识别方法、系统、电子设备及存储介质 |
CN114387332B (zh) * | 2022-01-17 | 2022-11-08 | 江苏省特种设备安全监督检验研究院 | 一种管道测厚方法及装置 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106980858A (zh) * | 2017-02-28 | 2017-07-25 | 中国科学院信息工程研究所 | 一种语言文本检测与定位系统及应用该系统的语言文本检测与定位方法 |
CN108304761A (zh) * | 2017-09-25 | 2018-07-20 | 腾讯科技(深圳)有限公司 | 文本检测方法、装置、存储介质和计算机设备 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106156766B (zh) * | 2015-03-25 | 2020-02-18 | 阿里巴巴集团控股有限公司 | 文本行分类器的生成方法及装置 |
-
2020
- 2020-06-12 CN CN202010537495.7A patent/CN111666941B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106980858A (zh) * | 2017-02-28 | 2017-07-25 | 中国科学院信息工程研究所 | 一种语言文本检测与定位系统及应用该系统的语言文本检测与定位方法 |
CN108304761A (zh) * | 2017-09-25 | 2018-07-20 | 腾讯科技(深圳)有限公司 | 文本检测方法、装置、存储介质和计算机设备 |
Non-Patent Citations (2)
Title |
---|
Arbitrary-Oriented Scene Text Detection via Rotation Proposals;Jianqi Ma等;《IEEE TRANSACTIONS ON MULTIMEDIA》;1-6页 * |
Improved localization accuracy by LocNet for Faster R-CNN based text detection in natural scene images;Zhuoyao Zhong等;《Pattern Recognition》;第1-9页 * |
Also Published As
Publication number | Publication date |
---|---|
CN111666941A (zh) | 2020-09-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111666941B (zh) | 一种文本检测方法、装置及电子设备 | |
KR101805090B1 (ko) | 영역 인식 방법 및 장치 | |
EP3226204B1 (en) | Method and apparatus for intelligently capturing image | |
CN107977659B (zh) | 一种文字识别方法、装置及电子设备 | |
CN106228556B (zh) | 图像质量分析方法和装置 | |
CN114240882A (zh) | 缺陷检测方法及装置、电子设备和存储介质 | |
CN108717542B (zh) | 识别文字区域的方法、装置及计算机可读存储介质 | |
CN105528765A (zh) | 处理图像的方法及装置 | |
CN112200040A (zh) | 遮挡图像检测方法、装置及介质 | |
CN112927122A (zh) | 水印去除方法、装置及存储介质 | |
CN112967264A (zh) | 缺陷检测方法及装置、电子设备和存储介质 | |
CN113888543B (zh) | 肤色分割方法、装置、电子设备及存储介质 | |
CN113656627B (zh) | 肤色分割方法、装置、电子设备及存储介质 | |
CN107292901B (zh) | 边缘检测方法及装置 | |
CN113920293A (zh) | 信息识别方法、装置、电子设备及存储介质 | |
CN104484683A (zh) | 黄色图片检测方法及装置 | |
CN113627277A (zh) | 一种识别车位的方法和装置 | |
CN110738267B (zh) | 图像分类方法、装置、电子设备及存储介质 | |
CN112381091A (zh) | 视频内容识别方法、装置、电子设备及存储介质 | |
CN108182145B (zh) | 验证app界面布局的方法、装置及计算机可读存储介质 | |
CN111814797A (zh) | 图片文字识别方法、装置及计算机可读存储介质 | |
CN105975621B (zh) | 识别浏览器页面中的搜索引擎的方法及装置 | |
CN113012029B (zh) | 一种曲面图像的矫正方法、装置及电子设备 | |
CN114155160A (zh) | 结构图的连接器还原方法、装置、电子设备及存储介质 | |
CN113888742A (zh) | 图像识别方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |