CN116958981B - 一种文字识别方法及装置 - Google Patents

一种文字识别方法及装置 Download PDF

Info

Publication number
CN116958981B
CN116958981B CN202310642042.4A CN202310642042A CN116958981B CN 116958981 B CN116958981 B CN 116958981B CN 202310642042 A CN202310642042 A CN 202310642042A CN 116958981 B CN116958981 B CN 116958981B
Authority
CN
China
Prior art keywords
text
boxes
candidate
text candidate
offset
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310642042.4A
Other languages
English (en)
Other versions
CN116958981A (zh
Inventor
蔡君
唐亮
杨件
王靖聪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong Nanfang Network Information Technology Co ltd
Original Assignee
Guangdong Nanfang Network Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong Nanfang Network Information Technology Co ltd filed Critical Guangdong Nanfang Network Information Technology Co ltd
Priority to CN202310642042.4A priority Critical patent/CN116958981B/zh
Publication of CN116958981A publication Critical patent/CN116958981A/zh
Application granted granted Critical
Publication of CN116958981B publication Critical patent/CN116958981B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/146Aligning or centring of the image pick-up or image-field
    • G06V30/147Determination of region of interest
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/191Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
    • G06V30/19147Obtaining sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/191Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
    • G06V30/1918Fusion techniques, i.e. combining data from various sources, e.g. sensor fusion

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Character Discrimination (AREA)

Abstract

本发明公开了一种文字识别方法及装置,包括:将待检测图片输入预先训练好的第一检测模型,以使所述第一检测模型识别待检测图片中的文字;其中,所述第一检测模型识别待检测图片中的文字,具体为:根据第一生成网络对所述待检测图片进行特征提取操作,获得各卷积层提取的特征样本;并对各卷积层提取的特征样本进行融合操作,获得第一特征,并根据所述第一特征生成文本候选框;所述融合操作包括求和操作和拼接操作;根据纵横向预测序列定位所述文本候选框中的曲线文本,并根据多边形处理模型检测所述文本候选框中的重叠框,生成单词级边界框,以识别待检测图片中的文字。

Description

一种文字识别方法及装置
技术领域
本发明涉及数据处理技术领域,尤其涉及一种文字识别方法及装置。
背景技术
目前,识别电子公文中的文本文字,首先要对对公文中存在的文字进行检测。但是,电子公文中的文字文本包含了多种文字类型,如文本印章中大多数是弯曲的文字内容,在同一页面中的文本文字存在的不同尺寸和大小字体,以及公文图片横幅中的轻度堆叠、形变的文字。因此通过文本检测准确查找、定位出公文图像中所有文本的单词级区域在文字识别中起着极为重要的作用。
现有的文字检测方法,通过利用卷积神经网络高层的卷积层提取的特征图检测文字,未考虑文本中字体大小不同、弯曲堆叠程度不同。仅采用高层特征也通常会导致图中尺度较小字体的特征信息缺失,使得不同高宽比文本的出现或字体大小的变化对文本检测系统的性能产生较大影响,检测准确性较低。
发明内容
本发明提供了一种文字识别方法及装置,以解决现有检测方案中对不同大小、弯曲程度字体检测准确性不高的技术问题。
为了解决上述技术问题,本发明实施例提供了一种文字识别方法,包括:
将待检测图片输入预先训练好的第一检测模型,以使所述第一检测模型识别待检测图片中的文字;
其中,所述第一检测模型识别待检测图片中的文字,具体为:
根据第一生成网络对所述待检测图片进行特征提取操作,获得各卷积层提取的特征样本;并对各卷积层提取的特征样本进行融合操作,获得第一特征,并根据所述第一特征生成文本候选框;所述融合操作包括求和操作和拼接操作;
根据纵横向预测序列定位所述文本候选框中的曲线文本,并根据多边形处理模型检测所述文本候选框中的重叠框,生成单词级边界框,以识别待检测图片中的文字。
本发明通过第一检测模型提取图片中的特征,并通过求和与拼接相结合的融合方式融合各卷积层之间的特征,由多个卷积层的输出融合创建新的表征特征以提高描述特征的多样性,令上层提取的信息能更平稳地传至下一层,各层能更准确地学习到从输入特征图中获取的差异性信息,提高整个模型对多尺度文本的鲁棒性;再基于纵横向预测序列检测文本框中的弯曲文本,以使无需外部连接也可定位出弯曲字体区域;最后通过基于多边形处理模型,对文字目标检测中的因物体褶皱等原因导致的重叠框加以抑制,并最终生成出更准确的单词级文本边界框,从而识别文本框中的文字,提高识别准确性。
进一步的,所述对各卷积层提取的特征样本进行融合操作,获得第一特征,并根据所述第一特征生成文本候选框,具体为:
对各个卷积层提取的特征样本进行求和操作,获取各个卷积层的特征求和结果;
对各个卷积层的特征求和结果进行拼接,获得第一特征,并根据所述第一特征对所述待检测图片生成文本候选框。
本发明先通过对不同卷积层之间的输出求和,使得上一层获得的信息更平稳地流到下一层,同时各层可以从输入的特征图中学习特征的差异性,最后再将不同层特征的求和结果拼接为新特征,既提高了收敛速度,也一定程度提升了模型得性能。
进一步的,在所述根据所述第一特征生成文本候选框之后,还包括:
对所述文本候选框进行修正操作,所述修正操作包括筛选、分组和区域修正。
进一步的,所述对所述文本候选框进行修正操作,具体为:
设置置信度阈值,筛选并保留所有置信度不低于所述置信度阈值的文本候选框;
根据各个文本候选框之间的交叉区域对各个文本候选框进行分组,并生成若干个区域候选边界框;
获取各个文本候选框的尺度因子,根据各个文本候选框的尺度因子调整所述区域候选边界框中各个文本候选框的尺寸,并将各个区域候选边界框设置为一个定值。
本发明通过对文本候选框进行修正操作,过滤置信度低的文本候选框,并对各个文本候选框进行分组和调整尺寸,从而使其各文本候选框中的文字定位结果更紧密,提高文本候选区域的准确性。
进一步的,所述根据纵横向预测序列定位所述文本候选框中的曲线文本,具体为:
根据目标检测特殊层连接循环神经网络,并设置所述目标检测特殊层的宽度偏移和高度偏移;
根据所述目标检测特殊层的宽度偏移和高度偏移分别预测所述文本候选框的横向偏移量和纵向偏移量,并根据所述横向偏移量和纵向偏移量检测所述文本候选框中的曲线文本。
进一步的,在所述根据所述目标检测特殊层的宽度偏移和高度偏移分别预测所述文本候选框的横向偏移量和纵向偏移量之前,还包括:
根据循环神经网络获取各个文本候选框的潜在特征,并根据所述潜在特征对各个文本候选框进行分类。
本发明通过将目标检测特殊层与循环神经网络进行连接,使得循环神经网络的时间序列数不被输入图像的大小所限制,并通过目标检测特殊层的宽度偏移和高度偏移分别预测文本候选框的横向偏移量和纵向偏移量,提高曲线文本的检测准确性。
进一步的,所述根据多边形处理模型检测所述文本候选框中的重叠框,生成单词级边界框,具体为:
将所述候选边界框映射到待检测图片中,并根据尺度因子对各个候选边界框进行缩放;
根据第一比例阈值对缩放后的候选边界框进行检测和过滤,并根据多边形非极大值抑制法对所述文本候选框中的重叠框进行删除,生成单词级边界框。
本发明通过多边形非极大值抑制法对所述文本候选框中的重叠框进行删除从而抑制文本框重叠现象,以生成单词级边界框,识别文本框中的文字,提高文字识别准确率。
第二方面,本发明提供了一种文字识别装置,所述文字识别装置将待检测图片输入预先训练好的第一检测模型,以使所述第一检测模型识别待检测图片中的文字
所述第一检测模型根据第一生成网络对所述待检测图片进行特征提取操作,获得各卷积层提取的特征样本;并对各卷积层提取的特征样本进行融合操作,获得第一特征,并根据所述第一特征生成文本候选框;所述融合操作包括求和操作和拼接操作;
根据纵横向预测序列定位所述文本候选框中的曲线文本,并根据多边形处理模型检测所述文本候选框中的重叠框,生成单词级边界框,以识别待检测图片中的文字。
第三方面,本发明提供了一种计算机设备,包括:处理器、通信接口和存储器,所述处理器、所述通信接口和所述存储器相互连接,其中,所述存储器存储有可执行程序代码,所述处理器用于调用所述可执行程序代码,执行所述的文字识别方法。
第四方面,本发明提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机指令,所述计算机指令被处理器执行时实现所述的文字识别方法。
附图说明
图1为本发明实施例提供的文字识别方法的一种流程示意图
图2为本发明实施例的提供的文字识别方法的第一生成网络的一种结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例一
请参照图1,图1为本发明实施例提供的文字识别方法的一种流程示意图,包括步骤101至步骤102,具体如下:
步骤101:将待检测图片输入预先训练好的第一检测模型,以使所述第一检测模型识别待检测图片中的文字;
在本实施例中,所述第一检测模型包括主干网络、候选区域生成网络(MSF-RPN)、纵横向预测序列检测器和后处理模块,通过大量的文本图片进行训练生成。其中所述主干网络为较为精简的ResNet-50预训练模型。
步骤102:其中,所述第一检测模型识别待检测图片中的文字,具体为:
根据第一生成网络对所述待检测图片进行特征提取操作,获得各卷积层提取的特征样本;并对各卷积层提取的特征样本进行融合操作,获得第一特征,并根据所述第一特征生成文本候选框;所述融合操作包括求和操作和拼接操作;
根据纵横向预测序列定位所述文本候选框中的曲线文本,并根据多边形处理模型检测所述文本候选框中的重叠框,生成单词级边界框,以识别待检测图片中的文字。
请参照图2,图2为本发明实施例的提供的文字识别方法的第一生成网络的一种结构示意图。
在本实施例中,第一生成网络为基于多尺度特征融合的网络(MSF-RPN),所述第一生成网络中包括特征提取器、特征融合、多任务输出和召回修正模块四个子模块。
在本实施例中,为了避免使用群卷积、跳过连接或初始模块,所述第一生成网络中的特征提取器主要遵循VGG-16的设计,采用直接堆叠3×3卷积层的方式搭建特征提取网络,在每次降采样后,将内核数量增加1.5-2倍。由于鲁棒的场景文本特性也可以通过随机初始化和较少的网络参数获得,因此所述第一生成网络适当减少了内核的数量,第一层采用64内核的VGG-16。同时,为了扩大接受域,额外插入或附加3×3卷积层。
在本实施例中,由于公文文字识别场景具有各种各样的文字对象,其中既包括非常小的文本也有较大的文本,只使用简单底层特征无法提升特征表示的多样性,因此本方法通过对多个CNN层的输出特征进行融合来创建新特征。
在本实施例中,所述对各卷积层提取的特征样本进行融合操作,获得第一特征,并根据所述第一特征生成文本候选框,具体为:
对各个卷积层提取的特征样本进行求和操作,获取各个卷积层的特征求和结果;
对各个卷积层的特征求和结果进行拼接,获得第一特征,并根据所述第一特征对所述待检测图片生成文本候选框。
在本实施例中,由于简单逐层特征拼接再输入的融合方式会导致特征图的深度增加,从而降低模型的收敛速度。因此通过求和和拼接结合的融合方式,先通过对不同卷积层之间的输出求和,使得上一层获得的信息更平稳地流到下一层,同时各层可以从输入的特征图中学习特征的差异性,最后再将不同层特征的求和结果拼接为新特征,既提高收敛速度,也一定程度提升了模型性能。对不同层的特征进行求和融合。
在本实施例中,设第a、b层输出的两个特征图分别为f(a)和f(b)(其中,f(a),),则两层输出特征的融合结果为:
其中,1≤i≤H,1≤j≤W,1≤l≤D。
最终将各层拼接为新的特征:
其中,1≤l≤2D。
作为本发明实施例的一种具体举例,如图2所示,由于所述第一生成网络没有使用C6之后的最后一个池化层,因此,C3之后的特征映射的大小是C4和C5之后的特征映射的两倍多。为了对它们进行和连接,应用了2×2内核和2×2步幅的最大池。从而将卷积层C9和C8融合之后的特征图汇总为一个特征图,然后与C7的特征图相加。
在本实施例中,通过使用不同的大小的卷积层提取多尺度特征,当融合时,可以增强特征,使其更具鉴别性。
在本实施例中,通过对不同卷积层之间的输出求和,使得上一层获得的信息更平稳地流到下一层,同时各层可以从输入的特征图中学习特征的差异性,最后再将不同层特征的求和结果拼接为新特征,既提高了收敛速度,也一定程度提升了模型得性能。
在本实施例中,在所述根据所述第一特征生成文本候选框之后,还包括:
对所述文本候选框进行修正操作,所述修正操作包括筛选、分组和区域修正。
在本实施例中,通过对多尺度特征融合RPN网络的生成的文本候选框进行进一步修正,从而获取更准确的文本候选区域;修正过程具体包括三个步骤:文本候选框筛选、文本候选框分组和文本候选框区域修正。
在本实施例中,所述对所述文本候选框进行修正操作,具体为:
设置置信度阈值,筛选并保留所有置信度不低于所述置信度阈值的文本候选框;
根据各个文本候选框之间的交叉区域对各个文本候选框进行分组,并生成若干个区域候选边界框;
获取各个文本候选框的尺度因子,根据各个文本候选框的尺度因子调整所述区域候选边界框中各个文本候选框的尺寸,并将各个区域候选边界框设置为一个定值。
在本实施例中,在进行文本候选框筛选时,为了保证一定比例的文本区域框召回率,通过预先设置一个置信度阈值过滤掉置信度较低的文本区域框。同时,将文本区域划分为三种预定义尺度:小区域、正常区域和大区域,分别对应三种不同的尺度因子βk(k=1,2,3)。并将对划分后的每个尺度区域进行独立处理。
在本实施例中,所述独立处理具体为:将任意四边形框转换为矩形形状以提高速度。若其中某个文本区域位于图中(x,y)处,边界回归任务是预测包含8个元素的向量d,对应的矩形框为{4x+min(d1:2:8),4y+min(d2:2:8),4x+max(d1:2:8),4y+max(d2:2:8)}。
在本实施例中,在进行文本候选框分组时,根据文本候选框筛选所生成各矩形框之间是否存在交叉区域对这些矩形候选框进行分组,从而生成更准确的文本区域候选框。各候选矩形窗分成P个组后,每个组生成一个区域候选边界框Bp(p=1...P),该边界框包含该组所有矩形候选框。
在本实施例中,在进行候选文本框区域修正时,根据文本候选框筛选时计算的初始文本区域框不同尺度的尺度因子βk,调整相应文本候选边界框内图像的尺寸为βk·Bp。然后,将每个文本候选边界框展开为一个给定值。最后,在候选边界框内的文字候选区域图像送至文本检测器。从而调整文本候选框,使得所述文本候选框更好的包含整个文本。
在本实施例中,通过对文本候选框进行修正操作,过滤置信度低的文本候选框,并对各个文本候选框进行分组和调整尺寸,从而使其各文本候选框中的文字定位结果更紧密,提高文本候选区域的准确性。
在本实施例中,通过纵横向预测序列进行文字检测,在文本候选框的基础上,定位出弯曲字体区域,并对文本候选框进行调整以使其更紧密。
在本实施例中,所述根据纵横向预测序列定位所述文本候选框中的曲线文本,具体为:
根据目标检测特殊层连接循环神经网络,并设置所述目标检测特殊层的宽度偏移和高度偏移;
根据所述目标检测特殊层的宽度偏移和高度偏移分别预测所述文本候选框的横向偏移量和纵向偏移量,并根据所述横向偏移量和纵向偏移量检测所述文本候选框中的曲线文本。
在本实施例中,将循环神经网络RNN连接到对信息位置敏感的目标检测特殊层中的PSROIPooling(Position Sensitive ROI Pooling,位置敏感的候选区域池化)模块,并将输出目标的数量设定为固定的各u个宽度偏移和高度偏移。
在本实施例中,在所述根据所述目标检测特殊层的宽度偏移和高度偏移分别预测所述文本候选框的横向偏移量和纵向偏移量之前,还包括:
根据循环神经网络获取各个文本候选框的潜在特征,并根据所述潜在特征对各个文本候选框进行分类。
在本实施例中,通过PSROIPooling预测类概率和本地化偏移,并进行投票。同时,将各个候选框划分为r×r个小块以估算位置信息,由PSROIPooling为每个类生成出r2维度的得分图。对于分类分支,该类表示前景类的数量,所述前景类只有一个为“文本”。
在本实施例中,对于偏移量回归分支,类别数为偏移量的数量u。对于横向和纵向偏移量的预测,去除掉背景类的分数预测,因此输入卷积层的维数为u×r×r。通过使用第(m,n)个得分中的对应位置,来计算对应的第(m,n)个小块中(0<m,n<r-1)各像素值的平均池化,具体为:
其中,Rq(m,n|θ)是类别q(q=1,2...Q,共Q个类别)的第(m,n)个小块的合并值,Sm,n,q代表对应维度的得分特征图。为该ROI的左上角坐标,n为小块中的像素数量,θ为网络参数。经过PSROIPooling后,检测器将通过位置敏感得分特征图上的全局特征图接收每个ROI的得分或估计的偏移量为:
生成出Q+1维的向量。再利用softmax计算所有Q个类别的类别投票分数,输出最终的置信度,具体为:
将定位偏移量输入到定位损失函数中。在训练阶段为得分和偏移量预测选择类似的多任务损失函数,如下式所示:
其中,NP是正例候选框数目,而N是与特定重叠范围相匹配的正负例候选框数目,负例样本候选框则不需要细化。λ和μ分别表示权重因子,Lsoft为SoftMax损失函数,Lloc为本地化损失函数。此外,(c,b,w,h)分别表示预测类,用来估计边界框以及宽度和高度偏移,而表示对应的标签值。
在本实施例中,假设每个点的宽度和高度都具有关联的上下文信息,并通过RNN获取这些潜在特征。并确定PSROIPooling的输出是否适合对偏移量上下文信息进行编码。对于宽度偏移,PSROIPooling输出u个得分特征图,并对其中每个偏移量进行投票,第m分数图的r2小块具有来自每个相应位置的投票值,可以将其编码为Zm的特征。然后,RNN将每个点的宽度偏移功能作为顺序输入,并循环更新隐藏层Lv中的固有状态,具体为:
Lv=ψ(Lv-1,Ov) (7)
其中,(v=1...r)是相对于相应PSROIPooling输出通道的第v个预测偏移量。Lv是从当前输入Ov和以Lv-1进行编码的先前状态计算得出的循环内部状态,利用非线性函数ψ计算递归。
在本实施例中,RNN采用双向长短期记忆BLSTM架构,并使用256维的BLSTM隐藏层,RNN隐藏层内部的内部状态通过循环连接将顺序上下文信息与所有先前估计的偏移量相关联。BLSTM的最终输出是r维的1×256向量,该向量由(1×256)内核全局合并以输出最终的预测。而对于高度偏移,也可以通过类似方法获得。
在本实施例中,为了确保为RNN网络提供固定数量的输入时间序列。本方法在不进行外部连接的基础上进行文字弯曲区域定位,同时令RNN的时间序列数不被输入图像的大小所限制。
在本实施例中,将横向和纵向分支分开以预测用于定位文本区域的偏移量,并确定PSROIPooling的输出是否适合对偏移量上下文信息进行编码,以避免独立预测每个偏移量可能会导致文本区域粗糙并导致错误检测。
在本实施例中,通过将目标检测特殊层与循环神经网络进行连接,使得循环神经网络的时间序列数不被输入图像的大小所限制,并通过目标检测特殊层的宽度偏移和高度偏移分别预测文本候选框的横向偏移量和纵向偏移量,提高曲线文本的检测准确性。
在本实施例中,所述根据多边形处理模型检测所述文本候选框中的重叠框,生成单词级边界框,具体为:
将所述候选边界框映射到待检测图片中,并根据尺度因子对各个候选边界框进行缩放;
根据第一比例阈值对缩放后的候选边界框进行检测和过滤,并根据多边形非极大值抑制法对所述文本候选框中的重叠框进行删除,生成单词级边界框。
在本实施例中,将文本候选框中的候选边界框映射回原始图像。若某个候选区域的四边形框B的位置为{(x1,y1)、...、(x4,y4)},区域B按尺寸因子βk进行缩放,其在原始图像中的左上角位置为则该四边形边框B的位置映射回原图像中,获得的边框B′的坐标位置{(x1′,y1′)、...、(x4′,y4′)}具体为:
在本实施例中,由于候选项中预测的边界框映射回原始图像后,部分可能无法包含整个文本单词,为了减少这种情况对最终检测结果的影响,通过第一检测规则对文本进行检测,所述第一检测规则具体为:当B′被另一个候选边界框按一定比例阈值ψ包含在内时,且B′的边界与该候选边界框边界非常接近时,将边界框B′去除不再进行下一步处理,从而去除部分不能包含整个文本单词的边界框干扰项。
在本实施例中,将有效的边界框映射回原始图像后,需要对文字目标检测中的重叠框加以抑制。针对弯曲场景文本的特殊性,本文采用多边形非极大值抑制PNMS法来删除冗余预测,生成单词级边界框,并得到最终的文本检测结果。
在本实施例中,通过多边形非极大值抑制法对所述文本候选框中的重叠框进行删除从而抑制文本框重叠现象,以生成单词级边界框,识别文本框中的文字,提高文字识别准确率。
本发明实施例还提供了一种文字识别装置,所述文字识别装置将所述待检测图片输入预先训练好的第一检测模型,以使所述第一检测模型识别待检测图片中的文字。
所述第一检测模型根据第一生成网络对所述待检测图片进行特征提取操作,获得各卷积层提取的特征样本;并对各卷积层提取的特征样本进行融合操作,获得第一特征,并根据所述第一特征生成文本候选框;所述融合操作包括求和操作和拼接操作;
根据纵横向预测序列定位所述文本候选框中的曲线文本,并根据多边形处理模型检测所述文本候选框中的重叠框,生成单词级边界框,以识别待检测图片中的文字。
在本实施例中,通过基于多尺度特征融合的第一生成网络(MSF-RPN)生成文本候选框,并利用候选框召回修正子模块对上述生成区域进行微调,使其各区域的文字定位结果更紧密。再由纵横向预测序列连接模块将网络体系结构无缝集成,通过RNN网络学习各文本定位点之间的固有连接,从而使弯曲文本检测结果更平滑,更准确,并经回归模块连接主干网。最后通过后处理模块对上一阶段的候选框进行进一步处理,抑制文本检测中出现的文本框重叠现象,最终获得原始图像中更精确的单词级边界框。
本发明实施例还提供了一种计算机设备,包括:处理器、通信接口和存储器,所述处理器、所述通信接口和所述存储器相互连接,其中,所述存储器存储有可执行程序代码,所述处理器用于调用所述可执行程序代码,执行所述的文字识别方法。
本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机指令,所述计算机指令被处理器执行时实现所述的文字识别方法。
在本实施例中,通过第一检测模型提取图片中的特征,并通过求和与拼接相结合的融合方式融合各卷积层之间的特征,由多个卷积层的输出融合创建新的表征特征以提高描述特征的多样性,令上层提取的信息能更平稳地传至下一层,各层能更准确地学习到从输入特征图中获取的差异性信息,提高整个模型对多尺度文本的鲁棒性;再基于纵横向预测序列检测文本框中的弯曲文本,以使无需外部连接也可定位出弯曲字体区域;最后通过基于多边形处理模型,对文字目标检测中的因物体褶皱等原因导致的重叠框加以抑制,并最终生成出更准确的单词级文本边界框,从而识别文本框中的文字,提高识别准确性。
以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步的详细说明,应当理解,以上所述仅为本发明的具体实施例而已,并不用于限定本发明的保护范围。特别指出,对于本领域技术人员来说,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (6)

1.一种文字识别方法,其特征在于,包括:
将待检测图片输入预先训练好的第一检测模型,以使所述第一检测模型识别待检测图片中的文字;所述第一检测模型包括主干网络、第一生成网络、纵横向预测序列检测器和后处理模块;所述第一生成网络为基于多尺度特征融合的网络,所述第一生成网络中包括特征提取器、特征融合、多任务输出和召回修正模块四个子模块;
其中,所述第一检测模型识别待检测图片中的文字,具体为:
根据第一生成网络对所述待检测图片进行特征提取操作,获得各卷积层提取的特征样本;并对各卷积层提取的特征样本进行融合操作,获得第一特征,并根据所述第一特征生成文本候选框;所述融合操作包括求和操作和拼接操作;并对所述文本候选框进行修正操作,所述修正操作包括筛选、分组和区域修正;具体的:设置置信度阈值,筛选并保留所有置信度不低于所述置信度阈值的文本候选框;根据各个文本候选框之间的交叉区域对各个文本候选框进行分组,并生成若干个区域候选边界框;其中,每个组生成一个区域候选边界框,所述区域候选边界框包含该组所有文本候选框;获取各个文本候选框的尺度因子,根据各个文本候选框的尺度因子调整所述区域候选边界框中各个文本候选框的尺寸,并将各个区域候选边界框设置为一个定值;
根据纵横向预测序列定位所述文本候选框中的曲线文本,具体为:根据目标检测特殊层连接循环神经网络,并设置所述目标检测特殊层的宽度偏移和高度偏移;根据所述目标检测特殊层的宽度偏移和高度偏移分别预测所述文本候选框的横向偏移量和纵向偏移量,并根据所述横向偏移量和纵向偏移量检测所述文本候选框中的曲线文本;并根据多边形处理模型检测所述文本候选框中的重叠框,生成单词级边界框,具体为:将所述候选边界框映射到待检测图片中,并根据尺度因子对各个候选边界框进行缩放;根据第一比例阈值对缩放后的候选边界框进行检测和过滤,并根据多边形非极大值抑制法对所述文本候选框中的重叠框进行删除,生成单词级边界框,以识别待检测图片中的文字。
2.如权利要求1所述的文字识别方法,其特征在于,所述对各卷积层提取的特征样本进行融合操作,获得第一特征,并根据所述第一特征生成文本候选框,具体为:
对各个卷积层提取的特征样本进行求和操作,获取各个卷积层的特征求和结果;
对各个卷积层的特征求和结果进行拼接,获得第一特征,并根据所述第一特征对所述待检测图片生成文本候选框。
3.如权利要求1所述的文字识别方法,其特征在于,在所述根据所述目标检测特殊层的宽度偏移和高度偏移分别预测所述文本候选框的横向偏移量和纵向偏移量之前,还包括:
根据循环神经网络获取各个文本候选框的潜在特征,并根据所述潜在特征对各个文本候选框进行分类。
4.一种文字识别装置,其特征在于,所述文字识别装置将待检测图片输入预先训练好的第一检测模型,以使所述第一检测模型识别待检测图片中的文字;所述第一检测模型包括主干网络、第一生成网络、纵横向预测序列检测器和后处理模块;所述第一生成网络为基于多尺度特征融合的网络,所述第一生成网络中包括特征提取器、特征融合、多任务输出和召回修正模块四个子模块;
所述第一检测模型根据第一生成网络对所述待检测图片进行特征提取操作,获得各卷积层提取的特征样本;并对各卷积层提取的特征样本进行融合操作,获得第一特征,并根据所述第一特征生成文本候选框;所述融合操作包括求和操作和拼接操作;并对所述文本候选框进行修正操作,所述修正操作包括筛选、分组和区域修正;具体的:设置置信度阈值,筛选并保留所有置信度不低于所述置信度阈值的文本候选框;根据各个文本候选框之间的交叉区域对各个文本候选框进行分组,并生成若干个区域候选边界框;其中,每个组生成一个区域候选边界框,所述区域候选边界框包含该组所有文本候选框;获取各个文本候选框的尺度因子,根据各个文本候选框的尺度因子调整所述区域候选边界框中各个文本候选框的尺寸,并将各个区域候选边界框设置为一个定值;
根据纵横向预测序列定位所述文本候选框中的曲线文本,具体为:根据目标检测特殊层连接循环神经网络,并设置所述目标检测特殊层的宽度偏移和高度偏移;根据所述目标检测特殊层的宽度偏移和高度偏移分别预测所述文本候选框的横向偏移量和纵向偏移量,并根据所述横向偏移量和纵向偏移量检测所述文本候选框中的曲线文本;并根据多边形处理模型检测所述文本候选框中的重叠框,生成单词级边界框,具体为:将所述候选边界框映射到待检测图片中,并根据尺度因子对各个候选边界框进行缩放;根据第一比例阈值对缩放后的候选边界框进行检测和过滤,并根据多边形非极大值抑制法对所述文本候选框中的重叠框进行删除,生成单词级边界框,以识别待检测图片中的文字。
5.一种计算机设备,其特征在于,包括:处理器、通信接口和存储器,所述处理器、所述通信接口和所述存储器相互连接,其中,所述存储器存储有可执行程序代码,所述处理器用于调用所述可执行程序代码,执行如权利要求1至3中任一项所述的文字识别方法。
6.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机指令,所述计算机指令被处理器执行时实现权利要求1至3中任意一项所述的文字识别方法。
CN202310642042.4A 2023-05-31 2023-05-31 一种文字识别方法及装置 Active CN116958981B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310642042.4A CN116958981B (zh) 2023-05-31 2023-05-31 一种文字识别方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310642042.4A CN116958981B (zh) 2023-05-31 2023-05-31 一种文字识别方法及装置

Publications (2)

Publication Number Publication Date
CN116958981A CN116958981A (zh) 2023-10-27
CN116958981B true CN116958981B (zh) 2024-04-30

Family

ID=88443424

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310642042.4A Active CN116958981B (zh) 2023-05-31 2023-05-31 一种文字识别方法及装置

Country Status (1)

Country Link
CN (1) CN116958981B (zh)

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110287960A (zh) * 2019-07-02 2019-09-27 中国科学院信息工程研究所 自然场景图像中曲线文字的检测识别方法
CN110837835A (zh) * 2019-10-29 2020-02-25 华中科技大学 一种基于边界点检测的场景文本端到端识别方法
CN111553349A (zh) * 2020-04-26 2020-08-18 佛山市南海区广工大数控装备协同创新研究院 一种基于全卷积网络的场景文本定位与识别方法
CN112070040A (zh) * 2020-09-11 2020-12-11 上海海事大学 一种用于视频字幕的文本行检测方法
CN112861739A (zh) * 2021-02-10 2021-05-28 中国科学技术大学 端到端文本识别方法、模型训练方法及装置
CN113255669A (zh) * 2021-06-28 2021-08-13 山东大学 任意形状自然场景文本检测方法及系统
CN113498520A (zh) * 2020-01-21 2021-10-12 京东方科技集团股份有限公司 文字识别方法、文字识别装置和存储介质
CN113516116A (zh) * 2021-05-19 2021-10-19 西安建筑科技大学 一种适用于复杂自然场景的文本检测方法、系统和介质
CN113869304A (zh) * 2020-06-30 2021-12-31 华为技术有限公司 视频的文字检测方法及装置
CN114519345A (zh) * 2022-01-17 2022-05-20 广东南方网络信息科技有限公司 一种内容校对方法、装置、移动终端及存储介质
CN114898372A (zh) * 2022-06-06 2022-08-12 桂林电子科技大学 一种基于边缘注意力引导的越南场景文字检测方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9367766B2 (en) * 2014-07-22 2016-06-14 Adobe Systems Incorporated Text line detection in images
CN111860479B (zh) * 2020-06-16 2024-03-26 北京百度网讯科技有限公司 光学字符识别方法、装置、电子设备及存储介质
CN111860506B (zh) * 2020-07-24 2024-03-29 北京百度网讯科技有限公司 识别文字的方法和装置

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110287960A (zh) * 2019-07-02 2019-09-27 中国科学院信息工程研究所 自然场景图像中曲线文字的检测识别方法
CN110837835A (zh) * 2019-10-29 2020-02-25 华中科技大学 一种基于边界点检测的场景文本端到端识别方法
CN113498520A (zh) * 2020-01-21 2021-10-12 京东方科技集团股份有限公司 文字识别方法、文字识别装置和存储介质
CN111553349A (zh) * 2020-04-26 2020-08-18 佛山市南海区广工大数控装备协同创新研究院 一种基于全卷积网络的场景文本定位与识别方法
CN113869304A (zh) * 2020-06-30 2021-12-31 华为技术有限公司 视频的文字检测方法及装置
CN112070040A (zh) * 2020-09-11 2020-12-11 上海海事大学 一种用于视频字幕的文本行检测方法
CN112861739A (zh) * 2021-02-10 2021-05-28 中国科学技术大学 端到端文本识别方法、模型训练方法及装置
CN113516116A (zh) * 2021-05-19 2021-10-19 西安建筑科技大学 一种适用于复杂自然场景的文本检测方法、系统和介质
CN113255669A (zh) * 2021-06-28 2021-08-13 山东大学 任意形状自然场景文本检测方法及系统
CN114519345A (zh) * 2022-01-17 2022-05-20 广东南方网络信息科技有限公司 一种内容校对方法、装置、移动终端及存储介质
CN114898372A (zh) * 2022-06-06 2022-08-12 桂林电子科技大学 一种基于边缘注意力引导的越南场景文字检测方法

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
Curved scene text detection via transverse and longitudinal sequence connection;Yuliang Liu等;《Pattern Recognition》;20190630;第90卷;第337-345页 *
Deep Multi-Scale Context Aware Feature Aggregation for Curved Scene Text Detection;Pengwen Dai等;IEEE Transactions on Multimedia;第22卷(第8期);第1969-1984页 *
Fused Text Segmentation Networks for Multi-oriented Scene Text Detection;Yuchen Dai等;《arXiv》;20180507;第1-6页 *
基于卷积神经网络的弯曲文本检测方法研究;张刘明;《中国优秀硕士学位论文全文数据库 信息科技辑》;20220515(第5期);第I138-900页 *
基于深度学习的自然场景文本检测及端到端识别的研究;刘禹良;《中国博士学位论文全文数据库 信息科技辑》(第5期);第四章 *
面向非纯文本文档图像检索与文字检测研究;周杰;《中国优秀硕士学位论文全文数据库 信息科技辑》;20200215(第2期);第I138-1539页 *

Also Published As

Publication number Publication date
CN116958981A (zh) 2023-10-27

Similar Documents

Publication Publication Date Title
CN110738207B (zh) 一种融合文字图像中文字区域边缘信息的文字检测方法
CN109376681B (zh) 一种多人姿态估计方法及系统
CN111027493B (zh) 一种基于深度学习多网络软融合的行人检测方法
CN110135424B (zh) 倾斜文本检测模型训练方法和票证图像文本检测方法
CN111814794B (zh) 文本检测方法、装置、电子设备及存储介质
US20180114071A1 (en) Method for analysing media content
CN111488826A (zh) 一种文本识别方法、装置、电子设备和存储介质
CN113139543B (zh) 目标对象检测模型的训练方法、目标对象检测方法和设备
CN109886174A (zh) 一种仓库货架标识牌文字识别的自然场景文字识别方法
CN112418278A (zh) 一种多类物体检测方法、终端设备及存储介质
CN111723841A (zh) 文本检测方法、装置、电子设备及存储介质
CN113591719B (zh) 一种自然场景任意形状文本检测方法、装置和训练方法
US8254690B2 (en) Information processing apparatus, information processing method, and program
RU2697649C1 (ru) Способы и системы сегментации документа
CN116645592B (zh) 一种基于图像处理的裂缝检测方法和存储介质
CN116311310A (zh) 一种结合语义分割和序列预测的通用表格识别方法和装置
CN115311550B (zh) 遥感影像语义变化检测方法、装置、电子设备及存储介质
CN112733942A (zh) 一种基于多级特征自适应融合的变尺度目标检测方法
CN113837168A (zh) 一种图像文本检测与ocr识别方法、装置及存储介质
CN117765363A (zh) 一种基于轻量型记忆库的图像异常检测方法及系统
CN111582177A (zh) 一种图像检测方法和相关装置
CN111738069A (zh) 人脸检测方法、装置、电子设备及存储介质
CN116958981B (zh) 一种文字识别方法及装置
KR102026280B1 (ko) 딥 러닝을 이용한 씬 텍스트 검출 방법 및 시스템
CN115223173A (zh) 对象识别方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant