CN113343980B - 自然场景文本检测方法及系统 - Google Patents
自然场景文本检测方法及系统 Download PDFInfo
- Publication number
- CN113343980B CN113343980B CN202110646374.0A CN202110646374A CN113343980B CN 113343980 B CN113343980 B CN 113343980B CN 202110646374 A CN202110646374 A CN 202110646374A CN 113343980 B CN113343980 B CN 113343980B
- Authority
- CN
- China
- Prior art keywords
- character
- word
- level
- text
- level text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/355—Class or cluster creation or modification
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Molecular Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Probability & Statistics with Applications (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Image Analysis (AREA)
- Character Discrimination (AREA)
Abstract
本发明实施例是关于一种自然场景文本检测方法及系统。该方法包括:分类并回归各单词级文本实例和各字符级文本实例,输出各单词级文本实例矩形框和各字符级文本实例矩形框;设置待聚类单词级文本实例的个数为k,聚类中心为各单词级文本实例矩形框的质心,待聚类数据点为各字符级文本实例的质心;将各单词级文本实例按照其矩形框面积进行升序排列,按序计算各单词级文本实例聚类中心的质量;计算各待聚类数据点质量;计算各待聚类数据点和各聚类中心之间引力进行初始聚类得到k个初始类簇;对k个初始类簇中各字符进行异常点检测,对异常点进行重新聚类,直至检测到无异常点后输出最终类簇;根据k个最终类簇使用Alpha‑Shape算法生成单词级文本实例边界。
Description
技术领域
本发明实施例涉及图像识别技术领域,尤其涉及一种自然场景文本检测方法及系统。
背景技术
自然场景文本检测作为文本识别的首要环节,因其在实时翻译、场景理解等多个领域发挥重要作用,所以成为计算机视觉领域的重要研究方向。
自然场景文本检测尽管可看作一般目标检测问题进行处理,但也有其自身特点,例如:剧烈的尺度变化、横纵比变化剧烈、文本形状任意性高(水平文本、多方向文本、曲线文本、不规则文本等)、具有多种粒度(文本组件级、字符级、单词级、文本行级)等。上述场景文本特点使得自然场景文本检测问题难以采用通用目标检测框架进行处理。
因此,有必要改善上述相关技术方案中存在的一个或者多个问题。
需要注意的是,本部分旨在为权利要求书中陈述的本发明的实施方式提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。
发明内容
本发明实施例的目的在于提供一种自然场景文本检测方法及系统,进而至少在一定程度上克服由于相关技术的限制和缺陷而导致的一个或者多个问题。
根据本发明实施例的第一方面,提供一种自然场景文本检测方法,包括:
通过Faster R-CNN分类并回归各单词级文本实例和各字符级文本实例,输出各单词级文本实例矩形框的集合和各字符级文本实例矩形框的集合;
设置待聚类单词级文本实例的个数为k,聚类中心为所述各单词级文本实例矩形框的质心,待聚类数据点为所述各字符级文本实例矩形框的质心;
将各单词级文本实例按照其矩形框的面积进行升序排列,按照排列次序计算各单词级文本实例聚类中心的质量,所述聚类中心的质量为单词级文本实例矩形框中包含的所有字符级文本实例的矩形框的面积之和;
计算各待聚类数据点的质量,所述各待聚类数据点的质量为所述各字符级文本实例矩形框的面积;
根据万有引力定律计算各待聚类数据点和各聚类中心之间的引力根据类间引力最小,类内引力最大原则进行初始聚类得到k个初始类簇,其中,G—6.67×10- 11N·m2/kg2,M—聚类中心的质量,m—待聚类数据点的质量,r—待聚类数据点到聚类中心的欧氏距离;
对k个初始类簇中的各字符进行异常点检测,对所述异常点进行重新聚类,直至检测到无异常点后输出k个最终类簇;
其中,所述对k个初始类簇中的各字符进行异常点检测的步骤包括:
计算隶属于同一单词级文本实例中的除尾字符外的各字符与相邻下一字符之间的垂直偏差di,i表示同一单词级文本实例中的第i个字符,计算所有字符垂直偏差的平均值davg,计算首字符和尾字符与其相邻字符之间的垂直偏差,分别比较首字符和尾字符与其相邻字符之间的垂直偏差与ε×davg的大小,ε=3.58;当首字符与其相邻字符之间的垂直偏差和/或尾字符与其相邻字符之间的垂直偏差大于ε×davg时,则首字符与其相邻字符之间的垂直偏差和/或尾字符与其相邻字符之间的垂直偏差为异常点;
计算隶属于同一单词级文本实例中的除首字符和尾字符外的各字符与相邻上一字符及下一字符的连接线形成的角度θi,当θi不满足128°≤θi≤180°时,第i个字符为异常点;
根据所述k个最终类簇使用Alpha-Shape算法生成单词级文本实例边界。
本发明的一实施例中,所述Faster R-CNN包括骨干网络模块、区域建议网络模块和Fast R-CNN模块。
本发明的一实施例中,所述使用Faster R-CNN分类并回归各单词级文本实例和各字符集文本实例,输出各单词级文本实例矩形框的集合和各字符级文本实例矩形框的集合的步骤,包括:
采用骨干网络模块对图像画面进行特征提取;
设定区域建议网络的锚框参数;
通过Fast R-CNN模块输出各单词级文本实例矩形框的集合和各字符级文本实例矩形框的集合。
本发明的一实施例中,所述骨干网络模块为ResNet-50和FPN结合。
本发明的一实施例中,所述锚框参数包括基础尺度参数和横纵比参数,所述基础尺度参数为[322,642,1282,2562,5122],所述横纵比参数为[0.5,1,2]。
本发明的一实施例中,所述Fast R-CNN模块包括分类分支和回归分支。
本发明的一实施例中,所述Fast R-CNN模块通过RoI Align过程进行分类和回归,输出各单词级文本实例矩形框的集合和各字符级文本实例矩形框的集合。
本发明的一实施例中,所述根据所述k个最终类簇使用Alpha-Shape算法生成单词级文本实例边界的步骤,包括:
在所述k个最终类簇中各字符级文本实例矩形框上分别设置6个重要结构点,所述6个结构点分别为矩形框的4个端点和上下两条边的中点;
按照k个最终类簇中各最终类簇中的字符顺序,分别提取关键结构点组成k个空间点集;
通过Alpha-Shape算法生成单词级文本实例边界。
根据本发明实施例的第二方面,提供一种自然场景文本检测系统,包括:
分类回归单元,用于通过Faster R-CNN分类并回归各单词级文本实例和各字符级文本实例,输出各单词级文本实例矩形框的集合和各字符级文本实例矩形框的集合;
设置单元,用于设置待聚类单词级文本实例的个数为k,聚类中心为所述各单词级文本实例矩形框的质心,待聚类数据点为所述各字符级文本实例矩形框的质心;
第一计算单元,用于将各单词级文本实例按照其矩形框的面积进行升序排列,按照排列次序计算各单词级文本实例聚类中心的质量,所述聚类中心的质量为单词级文本实例矩形框中包含的所有字符级文本实例的矩形框的面积之和;
第二计算单元,用于计算各待聚类数据点的质量,所述各待聚类数据点的质量为所述各字符级文本实例矩形框的面积;
第三计算单元,用于根据万有引力定律计算各待聚类数据点和各聚类中心之间的引力根据类间引力最小,类内引力最大原则进行初始聚类得到k个初始类簇,其中,G—6.67×10-11N·m2/kg2,M—聚类中心的质量,m—待聚类数据点的质量,r—待聚类数据点到聚类中心的欧氏距离;
异常检测单元,用于对k个初始类簇中的各字符进行异常点检测,对所述异常点进行重新聚类,直至检测到无异常点后输出k个最终类簇;
边界生成单元,用于根据所述k个最终类簇使用Alpha-Shape算法生成单词级文本实例边界。
本发明的实施例提供的技术方案可以包括以下有益效果:
本发明的实施例中,上述自然场景文本检测方法及系统,基于单词级文本实例提供的上下文信息和隶属于同一单词内的字符存在的特定规律进行设计,进而实现字符聚类任务,并且利用单词几何特性作为聚类算法初始条件;提出引力原则以解决距离原则对字符聚类存在的不足;针对同一单词内部字符满足的垂直偏差关系和角度关系提出异常点检测机制作为算法迭代终止条件,文本检测的准确性较高。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示出本发明示例性实施例中自然场景文本检测方法流程图;
图2示出本发明示例性实施例中聚类中心的质量计算不准确原因示意图;
图3示出本发明示例性实施例中长文本单词边缘字符被错误聚类的示意图;
图4示出本发明示例性实施例中字符级文本重要结构点示意图和单词级文本边界示意图;
图5示出本发明示例性实施例中异常点检测机制原理图;
图6示出本发明示例性实施例中自然场景文本检测系统结构示意图;。
具体实施方式
现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施方式使得本发明将更加全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。
此外,附图仅为本发明实施例的示意性图解,并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分,因而将省略对它们的重复描述。附图中所示的一些方框图是功能实体,不一定必须与物理或逻辑上独立的实体相对应。
本示例实施方式中首先提供了一种自然场景文本检测方法。参考图1中所示,该自然场景文本检测方法可以包括:
S101:通过Faster R-CNN分类并回归各单词级文本实例和各字符级文本实例,输出各单词级文本实例矩形框的集合和各字符级文本实例矩形框的集合;
S102:设置待聚类单词级文本实例的个数为k,聚类中心为所述各单词级文本实例矩形框的质心,待聚类数据点为所述各字符级文本实例矩形框的质心;
S103:将各单词级文本实例按照其矩形框的面积进行升序排列,按照排列次序计算各单词级文本实例聚类中心的质量,所述聚类中心的质量为单词级文本实例矩形框中包含的所有字符级文本实例的矩形框的面积之和;
S104:计算各待聚类数据点的质量,所述各待聚类数据点的质量为所述各字符级文本实例矩形框的面积;
S105:根据万有引力定律计算各待聚类数据点和各聚类中心之间的引力根据类间引力最小,类内引力最大原则进行初始聚类得到k个初始类簇,其中,G—6.67×10-11N·m2/kg2,M—聚类中心的质量,m—待聚类数据点的质量,r—待聚类数据点到聚类中心的欧氏距离;
S106:对k个初始类簇中的各字符进行异常点检测,对所述异常点进行重新聚类,直至检测到无异常点后输出k个最终类簇;
S107:根据所述k个最终类簇使用Alpha-Shape算法生成单词级文本实例边界。
具体的,在步骤S101中,通过Faster R-CNN分类并回归各单词级文本实例和各字符集文本实例,输出各单词级文本实例矩形框的集合P={p1,p2,...,pk}和各字符级文本实例矩形框的集合C={c1,c2,...,cm},其中p1表示第1个单词级文本实例举行边框,p2表示第2个单词级文本示例举行边框,k表示第k个,即单词级文本实例矩形框的集合P中总共有k个单词级文本示例边框;c1表示第1个字符级文本实例矩形框,c2表示第2个字符级文本实例矩形框,m表示第m个,即字符级文本实例矩形框的集合C中总共有m个字符级文本实例矩形框。
在步骤S102中,由于任一个字符级文本实例在理论上必然隶属于某个单词级文本实例,因此将待聚类个数设定为单词级文本实例个数k,且将聚类中心设定为于各单词级文本实例矩形框的质心,待聚类数据点为各字符级文本实例矩形框的质心;上述设定方法改善了K-Means聚类算法存在的随机选择初始聚类中心的不足,可以达到自适应聚类的目的。
在步骤S103中,考虑到自然场景图像中存在如图2所示情况,在计算弯曲的单词级文本实例聚类中心的质量的过程中,由于其边界框内可能包含部分其它较小的单词级文本实例矩形框中的字符矩形框,在计算弯曲的单词级文本实例聚类中心的质量时,必然会导致聚类中心的质量计算不准确的问题,因此在计算各单词级文本实例聚类中心的质量前,先按照各单词级文本实例按照其矩形框的面积进行升序排列,根据摆列次序,从最小矩形框面积的单词级文本示例开始计算各单词级文本实例聚类中心的质量,如此计算的聚类中心的质量能在一定程度上减少上述问题引起的计算不准确问题。
在步骤S104中,各待聚类数据点的质量为各字符级文本实例矩形框的面积,参考图2中所示,字符L待聚类数据点的质量即为其所在阴影矩形的面积值;
在步骤S105中,常见的K-measn基于“类间距离最大,类内距离最小”的聚类原则,使用欧几里得度量作为判决条件,通过迭代计算数据点与各聚类中心的欧氏距离大小并进行比较,以此聚类各样本点。然而,若沿用欧几里得度量作为字符聚类的判决条件,由于自然场景图像中场景文本分布的随机性会导致如图3所示问题,即:长文本单词的边缘字符Ce因远离单词质心Pr(样本点远离其理应归属的类簇中心),假若此时图像中存在某一邻近簇中心Pe相较于Pr更邻近于Ce,则该边缘字符有极大概率被错误划分到邻近簇内。本方法对数据集进行深入研究,发现长文本单词可具体分为两类:1)绝对长,即该单词内部包含大量字符,致使该单词为长文本单词;2)相对长,即单词所含有字符数量较少,但由于其字符尺度相交于邻近簇内字符更大,所以仍可将其定义为长文本单词。基于此,本文认为字符数量和字符尺度在影响长文本单词质心和边缘字符间距离大小的基础上进而影响了引力强弱,因此本方法依据万有引力定律提出“类间引力最小,类内引力最大”原则对字符进行聚类。
在步骤S106中,由于自然场景文本分布的随机性较高,所以在基于引力原则完成对字符的初始聚类后,必然存在部分字符未被分配到其本应所隶属的类簇中,致使其被错误分属的簇内的所有字符构成的单词实例不符合自然场景下单词级文本实例所固有特征,因此对k个初始类簇中的各字符进行异常点检测,对异常点进行重新聚类,直到检测出无异常点。
在步骤S107中,对成功聚类后的k个最终类簇使用Alpha-Shape算法生成单词级文本实例边界。
上述自然场景文本检测方法,基于单词级文本实例提供的上下文信息和隶属于同一单词内的字符存在的特定规律进行设计,进而实现字符聚类任务,并且利用单词几何特性作为聚类算法初始条件;提出引力原则以解决距离原则对字符聚类存在的不足;针对同一单词内部字符满足的垂直偏差关系和角度关系提出异常点检测机制作为算法迭代终止条件,文本检测的准确性较高。
下面,将参考图1至图6对本示例实施方式中的上述自然场景文本检测方法的各个部分进行更详细的说明。
在一个实施例中,所述Faster R-CNN可以包括骨干网络模块、区域建议网络模块和Fast R-CNN模块。具体的,Faster R-CNN是一种目标检测网络,当然,所述Faster R-CNN还可以包括其他模块,在此不作具体的限定。
在一个实施例中,所述使用Faster R-CNN分类并回归各单词级文本实例和各字符集文本实例,输出各单词级文本实例矩形框的集合和各字符级文本实例矩形框的集合的步骤,可以包括:采用骨干网络模块对图像画面进行特征提取;设定区域建议网络的锚框参数;通过Fast R-CNN模块输出各单词级文本实例矩形框的集合和各字符级文本实例矩形框的集合。
在一个实施例中,所述骨干网络模块可以为ResNet-50和FPN结合。具体的,不同于一般目标对象,场景文本通常具有剧烈的尺度变化,易导致出现模型超小尺度文本的漏检和对超大尺度文本的局部检测问题,而VGG-16骨干网络无法提供高层级语义特征图,所以无法解决上述问题;本方法中将ResNet-50和FPN进行结合并作为Faster R-CNN的基础骨干网络去获取所有尺度的语义特征图可以较好的解决上述问题且具有一下优点:1)ResNet-50对于多变尺度文本具有较强的表征能力;2)FPN采用自顶向下的结构实现了融合单一尺度输入的不同分辨率特征图的功能,进而使得最终生成的特征图同时包含了高层的语义信息和低层的位置信息。
在一个实施例中,所述锚框参数可以包括基础尺度参数和横纵比参数,所述基础尺度参数为[322,642,1282,2562,5122],所述横纵比参数为[0.5,1,2]。具体的,上述基础尺度参数值和横纵比参数值为上述值时可以较大概率完整地检测到任意尺度和横纵比的文本区域。
在一个实施例中,所述Fast R-CNN模块可以包括分类分支和回归分支。
在一个实施例中,所述Fast R-CNN模块通过RoI Align过程进行分类和回归,输出各单词级文本实例矩形框的集合和各字符级文本实例矩形框的集合。具体的,常见的RoIPooling过程中存在两次量化操作,使得生成的文本建议区域准确率下降,进而导致最终输出文本实例边框并不准确。本方法采用RoI Align过程进行分类和回归,使得Faste R-CNN输出更加准确的文本边界框。
在一个实施例中,所述对k个初始类簇中的各字符进行异常点检测的步骤,可以包括:计算隶属于同一单词级文本实例中的除尾字符外的各字符与相邻下一字符之间的垂直偏差di,i表示同一单词级文本实例中的第i个字符,计算所有字符垂直偏差的平均值davg,计算首字符和尾字符与其相邻字符之间的垂直偏差,分别比较首字符和尾字符与其相邻字符之间的垂直偏差与ε×davg的大小,ε=3.58;当首字符与其相邻字符之间的垂直偏差和/或尾字符与其相邻字符之间的垂直偏差大于ε×davg时,则首字符和/或尾字符则被定义为当前所处理的文本实例内的异常点;计算隶属于同一单词级文本实例中的除首字符和尾字符外的各字符与相邻上一字符及下一字符的连接线形成的角度θi,当θi不满足128°≤θi≤180°时,第i个字符为异常点。
具体的,参考图5中b图所示,第一种为隶属于同一单词级文本实例中首、尾字符异常点检测方法,计算隶属于同一单词级文本实例中的除尾字符外的各字符与相邻下一字符之间的垂直偏差di,i=1时则是第一个字符和第二个字符之间的垂直偏差,当i=2时则是第二个字符和第三个字符之间的垂直偏差,以此类推,计算同一单词级文本实例中所有字符垂直偏差的平均值davg,计算首字符和尾字符与其相邻字符之间的垂直偏差,首字符与其相邻字符之间的垂直偏差即为首字符与第二个字符之间的垂直偏差,尾字符与相邻字符之间的垂直偏差即为尾字符与倒数第二个字符之间的垂直偏差,当首字符与其相邻字符之间的垂直偏差大于ε×davg时,则首字符为异常点,当尾字符与相邻字符之间的垂直偏差大于ε×davg时,则尾字符为异常点;参考图5中c图所示,第二种异常点检测方法为,计算隶属于同一单词级文本实例中的除首字符和尾字符外的各字符与相邻上一字符及下一字符的连接线形成的角度θi,当i=2时则是第二个字符分别与第一个字符和第三个字符连线形成的角度,当i=3时则是第三个字符分别与第二个字符和第四个字符连线形成的角度,以此类推;判断θi的大小,当θi不满足128°≤θi≤180°时,第i个字符为异常点;上述第一种异常点检测方法用于检测首尾字符,第二种检测方法用于检测除首尾字符外的中间字符,两种方法结合则对同一单词级文本实例中的字符均进行了异常点检测,极大的提高的聚类的准确性。
在一个实施例中,所述根据所述k个最终类簇使用Alpha-Shape算法生成单词级文本实例边界的步骤,可以包括:在所述k个最终类簇中各字符级文本实例矩形框上分别设置6个重要结构点,所述6个结构点分别为矩形框的4个端点和上下两条边的中点;按照k个最终类簇中各最终类簇中的字符顺序,分别提取关键结构点组成k个空间点集;通过Alpha-Shape算法生成单词级文本实例边界。具体的,参考图4中所示,所述各字符级文本实例矩形框上的重要结构点如图中左侧字符A边框上所示的6个点,按照k个最终类簇中各最终类簇中的字符顺序,分别提取关键结构点组成k个空间点集,通过Alpha-Shape算法生成单词级文本实例边界,所述边界例如图右侧单词级文本实例“SOUTHERN”周围的点线连接边界。
根据本发明实施例的第二方面,参考图6所示,提供一种自然场景文本检测系统,包括:
分类回归单元,用于通过Faster R-CNN分类并回归各单词级文本实例和各字符级文本实例,输出各单词级文本实例矩形框的集合和各字符级文本实例矩形框的集合;
设置单元,用于设置待聚类单词级文本实例的个数为k,聚类中心为所述各单词级文本实例矩形框的质心,待聚类数据点为所述各字符级文本实例矩形框的质心;
第一计算单元,用于将各单词级文本实例按照其矩形框的面积进行升序排列,按照排列次序计算各单词级文本实例聚类中心的质量,所述聚类中心的质量为单词级文本实例矩形框中包含的所有字符级文本实例的矩形框的面积之和;
第二计算单元,用于计算各待聚类数据点的质量,所述各待聚类数据点的质量为所述各字符级文本实例矩形框的面积;
第三计算单元,用于根据万有引力定律计算各待聚类数据点和各聚类中心之间的引力根据类间引力最小,类内引力最大原则进行初始聚类得到k个初始类簇,其中,G—6.67×10-11N·m2/kg2,M—聚类中心的质量,m—待聚类数据点的质量,r—待聚类数据点到聚类中心的欧氏距离;
异常检测单元,用于对k个初始类簇中的各字符进行异常点检测,对所述异常点进行重新聚类,直至检测到无异常点后输出k个最终类簇;
边界生成单元,用于根据所述k个最终类簇使用Alpha-Shape算法生成单词级文本实例边界。
本发明的实施例提供的技术方案可以包括以下有益效果:
上述自然场景文本检测系统,基于单词级文本实例提供的上下文信息和隶属于同一单词内的字符存在的特定规律进行设计,进而实现字符聚类任务,并且利用单词几何特性作为聚类算法初始条件;提出引力原则以解决距离原则对字符聚类存在的不足;针对同一单词内部字符满足的垂直偏差关系和角度关系提出异常点检测机制作为算法迭代终止条件,文本检测的准确性较高。
需要理解的是,上述描述中的术语“中心”、“纵向”、“横向”、“长度”、“宽度”、“厚度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”“内”、“外”、“顺时针”、“逆时针”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明实施例和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明实施例的限制。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明实施例的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
在本发明实施例中,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或成一体;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通或两个元件的相互作用关系。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。
在本发明实施例中,除非另有明确的规定和限定,第一特征在第二特征之“上”或之“下”可以包括第一和第二特征直接接触,也可以包括第一和第二特征不是直接接触而是通过它们之间的另外的特征接触。而且,第一特征在第二特征“之上”、“上方”和“上面”包括第一特征在第二特征正上方和斜上方,或仅仅表示第一特征水平高度高于第二特征。第一特征在第二特征“之下”、“下方”和“下面”包括第一特征在第二特征正下方和斜下方,或仅仅表示第一特征水平高度小于第二特征。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。此外,本领域的技术人员可以将本说明书中描述的不同实施例或示例进行接合和组合。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本发明的其它实施方案。本申请旨在涵盖本发明的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本发明未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本发明的真正范围和精神由所附的权利要求指出。
Claims (9)
1.一种自然场景文本检测方法,其特征在于,包括:
通过Faster R-CNN分类并回归各单词级文本实例和各字符级文本实例,输出各单词级文本实例矩形框的集合和各字符级文本实例矩形框的集合;
设置待聚类单词级文本实例的个数为k,聚类中心为所述各单词级文本实例矩形框的质心,待聚类数据点为所述各字符级文本实例矩形框的质心;
将各单词级文本实例按照其矩形框的面积进行升序排列,按照排列次序计算各单词级文本实例聚类中心的质量,所述聚类中心的质量为单词级文本实例矩形框中包含的所有字符级文本实例的矩形框的面积之和;
计算各待聚类数据点的质量,所述各待聚类数据点的质量为所述各字符级文本实例矩形框的面积;
根据万有引力定律计算各待聚类数据点和各聚类中心之间的引力根据类间引力最小,类内引力最大原则进行初始聚类得到k个初始类簇,其中,G—6.67×10-11N·m2/kg2,M—聚类中心的质量,m—待聚类数据点的质量,r—待聚类数据点到聚类中心的欧氏距离;
对k个初始类簇中的各字符进行异常点检测,对所述异常点进行重新聚类,直至检测到无异常点后输出k个最终类簇;其中,所述对k个初始类簇中的各字符进行异常点检测的步骤包括:计算隶属于同一单词级文本实例中的除尾字符外的各字符与相邻下一字符之间的垂直偏差di,i表示同一单词级文本实例中的第i个字符,计算所有字符垂直偏差的平均值davg,计算首字符和尾字符与其相邻字符之间的垂直偏差,分别比较首字符和尾字符与其相邻字符之间的垂直偏差与ε×davg的大小,ε=3.58;当首字符与其相邻字符之间的垂直偏差和/或尾字符与其相邻字符之间的垂直偏差大于ε×davg时,则首字符和/或尾字符则被定义为当前所处理的文本实例内的异常点;计算隶属于同一单词级文本实例中的除首字符和尾字符外的各字符与相邻上一字符及下一字符的连接线形成的角度θi,当θi不满足128°≤θi≤180°时,第i个字符为异常点;
根据所述k个最终类簇使用Alpha-Shape算法生成单词级文本实例边界。
2.根据权利要求1所述自然场景文本检测方法,其特征在于,所述Faster R-CNN包括骨干网络模块、区域建议网络模块和Fast R-CNN模块。
3.根据权利要求2所述自然场景文本检测方法,其特征在于,所述使用Faster R-CNN分类并回归各单词级文本实例和各字符集文本实例,输出各单词级文本实例矩形框的集合和各字符级文本实例矩形框的集合的步骤,包括:
采用骨干网络模块对图像画面进行特征提取;
设定区域建议网络的锚框参数;
通过Fast R-CNN模块输出各单词级文本实例矩形框的集合和各字符级文本实例矩形框的集合。
4.根据权利要求3所述自然场景文本检测方法,其特征在于,所述骨干网络模块为ResNet-50和FPN结合。
5.根据权利要求3所述自然场景文本检测方法,其特征在于,所述锚框参数包括基础尺度参数和横纵比参数,所述基础尺度参数为[322,642,1282,2562,5122],所述横纵比参数为[0.5,1,2]。
6.根据权利要求3所述自然场景文本检测方法,其特征在于,所述Fast R-CNN模块包括分类分支和回归分支。
7.根据权利要求6所述自然场景文本检测方法,其特征在于,所述Fast R-CNN模块通过RoIAlign过程进行分类和回归,输出各单词级文本实例矩形框的集合和各字符级文本实例矩形框的集合。
8.根据权利要求1所述自然场景文本检测方法,其特征在于,所述根据所述k个最终类簇使用Alpha-Shape算法生成单词级文本实例边界的步骤,包括:
在所述k个最终类簇中各字符级文本实例矩形框上分别设置6个重要结构点,所述6个结构点分别为矩形框的4个端点和上下两条边的中点;
按照k个最终类簇中各最终类簇中的字符顺序,分别提取关键结构点组成k个空间点集;
通过Alpha-Shape算法生成单词级文本实例边界。
9.一种自然场景文本检测系统,其特征在于,包括:
分类回归单元,用于通过Faster R-CNN分类并回归各单词级文本实例和各字符级文本实例,输出各单词级文本实例矩形框的集合和各字符级文本实例矩形框的集合;
设置单元,用于设置待聚类单词级文本实例的个数为k,聚类中心为所述各单词级文本实例矩形框的质心,待聚类数据点为所述各字符级文本实例矩形框的质心;
第一计算单元,用于将各单词级文本实例按照其矩形框的面积进行升序排列,按照排列次序计算各单词级文本实例聚类中心的质量,所述聚类中心的质量为单词级文本实例矩形框中包含的所有字符级文本实例的矩形框的面积之和;
第二计算单元,用于计算各待聚类数据点的质量,所述各待聚类数据点的质量为所述各字符级文本实例矩形框的面积;
第三计算单元,用于根据万有引力定律计算各待聚类数据点和各聚类中心之间的引力根据类间引力最小,类内引力最大原则进行初始聚类得到k个初始类簇,其中,G—6.67×10-11N·m2/kg2,M—聚类中心的质量,m—待聚类数据点的质量,r—待聚类数据点到聚类中心的欧氏距离;
异常检测单元,用于对k个初始类簇中的各字符进行异常点检测,对所述异常点进行重新聚类,直至检测到无异常点后输出k个最终类簇;其中,所述对k个初始类簇中的各字符进行异常点检测的步骤包括:计算隶属于同一单词级文本实例中的除尾字符外的各字符与相邻下一字符之间的垂直偏差di,i表示同一单词级文本实例中的第i个字符,计算所有字符垂直偏差的平均值davg,计算首字符和尾字符与其相邻字符之间的垂直偏差,分别比较首字符和尾字符与其相邻字符之间的垂直偏差与ε×davg的大小,ε=3.58;当首字符与其相邻字符之间的垂直偏差和/或尾字符与其相邻字符之间的垂直偏差大于ε×davg时,则首字符和/或尾字符则被定义为当前所处理的文本实例内的异常点;计算隶属于同一单词级文本实例中的除首字符和尾字符外的各字符与相邻上一字符及下一字符的连接线形成的角度θi,当θi不满足128°≤θi≤180°时,第i个字符为异常点;
边界生成单元,用于根据所述k个最终类簇使用Alpha-Shape算法生成单词级文本实例边界。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110646374.0A CN113343980B (zh) | 2021-06-10 | 2021-06-10 | 自然场景文本检测方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110646374.0A CN113343980B (zh) | 2021-06-10 | 2021-06-10 | 自然场景文本检测方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113343980A CN113343980A (zh) | 2021-09-03 |
CN113343980B true CN113343980B (zh) | 2023-06-09 |
Family
ID=77475636
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110646374.0A Active CN113343980B (zh) | 2021-06-10 | 2021-06-10 | 自然场景文本检测方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113343980B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117933571B (zh) * | 2024-03-20 | 2024-05-31 | 临沂恒泰新能源有限公司 | 一种垃圾发电数据综合管理系统及存储方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110837835A (zh) * | 2019-10-29 | 2020-02-25 | 华中科技大学 | 一种基于边界点检测的场景文本端到端识别方法 |
CN112418216A (zh) * | 2020-11-18 | 2021-02-26 | 湖南师范大学 | 一种复杂自然场景图像中的文字检测方法 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107862089B (zh) * | 2017-12-02 | 2020-03-13 | 北京工业大学 | 一种基于感知数据的标签提取方法 |
CN108549893B (zh) * | 2018-04-04 | 2020-03-31 | 华中科技大学 | 一种任意形状的场景文本端到端识别方法 |
CN109446517B (zh) * | 2018-10-08 | 2022-07-05 | 平安科技(深圳)有限公司 | 指代消解方法、电子装置及计算机可读存储介质 |
US20210110189A1 (en) * | 2019-10-14 | 2021-04-15 | Shenzhen Malong Technologies Co., Ltd. | Character-based text detection and recognition |
-
2021
- 2021-06-10 CN CN202110646374.0A patent/CN113343980B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110837835A (zh) * | 2019-10-29 | 2020-02-25 | 华中科技大学 | 一种基于边界点检测的场景文本端到端识别方法 |
CN112418216A (zh) * | 2020-11-18 | 2021-02-26 | 湖南师范大学 | 一种复杂自然场景图像中的文字检测方法 |
Also Published As
Publication number | Publication date |
---|---|
CN113343980A (zh) | 2021-09-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11062123B2 (en) | Method, terminal, and storage medium for tracking facial critical area | |
CN109657629B (zh) | 一种文本行提取方法及装置 | |
US10552705B2 (en) | Character segmentation method, apparatus and electronic device | |
US8401979B2 (en) | Multiple category learning for training classifiers | |
Bukhari et al. | Layout analysis for arabic historical document images using machine learning | |
US8391592B2 (en) | System and method for detection of multi-view/multi-pose objects | |
US20080226171A1 (en) | Correcting device and method for perspective transformed document images | |
CN107368807A (zh) | 一种基于视觉词袋模型的监控视频车型分类方法 | |
CN110969129A (zh) | 一种端到端税务票据文本检测与识别方法 | |
CN110598690A (zh) | 一种端到端光学字符检测识别方法与系统 | |
CN105354533B (zh) | 一种基于词袋模型的卡口无牌车辆车型识别方法 | |
CN110533046B (zh) | 一种图像实例分割方法、装置、计算机可读存储介质及电子设备 | |
CN111144300B (zh) | 一种基于图像识别的pdf表格结构识别方法 | |
CN113343980B (zh) | 自然场景文本检测方法及系统 | |
CN109325487B (zh) | 一种基于目标检测的全种类车牌识别方法 | |
CN111507353B (zh) | 一种基于文字识别的中文字段检测方法及系统 | |
CN113781483B (zh) | 工业产品外观缺陷检测方法和装置 | |
CN116740758A (zh) | 一种防止误判的鸟类图像识别方法及系统 | |
CN107368830B (zh) | 文本检测方法和装置以及文本识别系统 | |
CN111814801B (zh) | 一种机械图中标注串的提取方法 | |
CN102254194B (zh) | 基于监督流形学习的场景分类方法及装置 | |
CN110097058A (zh) | 基于区域加权组合的不规则形式图像物体自动标注方法 | |
CN113963150B (zh) | 一种基于多尺度孪生级联网络的行人重识别方法 | |
CN113792739B (zh) | 一种通用型车牌文本识别方法 | |
CN112949634B (zh) | 一种铁路接触网鸟窝检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |