CN114898379A - 一种弯曲文本识别的方法、装置、设备及存储介质 - Google Patents

一种弯曲文本识别的方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN114898379A
CN114898379A CN202210507472.0A CN202210507472A CN114898379A CN 114898379 A CN114898379 A CN 114898379A CN 202210507472 A CN202210507472 A CN 202210507472A CN 114898379 A CN114898379 A CN 114898379A
Authority
CN
China
Prior art keywords
text
curved
horizontal
boundary
recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210507472.0A
Other languages
English (en)
Inventor
苏振锋
杨青
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Du Xiaoman Technology Beijing Co Ltd
Original Assignee
Du Xiaoman Technology Beijing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Du Xiaoman Technology Beijing Co Ltd filed Critical Du Xiaoman Technology Beijing Co Ltd
Priority to CN202210507472.0A priority Critical patent/CN114898379A/zh
Publication of CN114898379A publication Critical patent/CN114898379A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/24Character recognition characterised by the processing or recognition method
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/146Aligning or centring of the image pick-up or image-field
    • G06V30/1463Orientation detection or correction, e.g. rotation of multiples of 90 degrees

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Character Input (AREA)

Abstract

本申请提供了一种弯曲文本识别的方法、装置、设备及存储介质。该方法包括:根据待识别文本图像内弯曲文本的弯曲边界关键点,确定对应的弯曲文本边界线;对所述弯曲文本边界线形成的文本弯曲区域进行水平转换,得到对应的水平文本识别区域;利用单独训练的水平文本识别模型,识别所述水平文本识别区域内的文本内容。本申请通过弯曲文本边界线形成的文本弯曲区域,无需在弯曲文本识别时对除真正的文本内容之外的其他图像特征进行分析,确保弯曲文本识别的文本特征精确度,然后通过单独训练的水平文本识别模型,进一步提高弯曲文本识别的准确性和高效性。

Description

一种弯曲文本识别的方法、装置、设备及存储介质
技术领域
本申请实施例涉及图像处理技术领域,具体涉及一种弯曲文本识别的方法、装置、设备及存储介质。
背景技术
为了获知图像内的文字内容,通常需要对图像内的文本信息进行识别。目前,通常会采用基于目标框的目标检测算法检测出图像内的整体文本区域。然后,采用基于分割思路的文本检测算法,对检测出的整体文本区域内的文本内容进行识别。
但是,对于图像内印章等留下的弯曲文本而言,由于所检测出的整体文本区域通常为矩形框,使得整体文本区域内除了包含有真正的弯曲文本内容之外,还会存在其他图像特征。因此,在对整体文本区域内的文本内容进行识别时,极大降低了弯曲文本识别前的文本特征精确程度,从而影响弯曲文本识别的准确性。
发明内容
本申请提供一种弯曲文本识别的方法、装置、设备及存储介质,确保弯曲文本识别的文本特征精确度,并通过单独训练的水平文本识别模型,进一步提高弯曲文本识别的准确性和高效性。
第一方面,本申请实施例提供了一种弯曲文本识别的方法,该方法包括:
根据待识别文本图像内弯曲文本的弯曲边界关键点,确定对应的弯曲文本边界线;
对所述弯曲文本边界线形成的文本弯曲区域进行水平转换,得到对应的水平文本识别区域;
利用单独训练的水平文本识别模型,识别所述水平文本识别区域内的文本内容。
第二方面,本申请实施例提供了一种弯曲文本识别的装置,该装置包括:
弯曲边界确定模块,用于根据待识别文本图像内弯曲文本的弯曲边界关键点,确定对应的弯曲文本边界线;
弯曲文本转换模块,用于对所述弯曲文本边界线形成的文本弯曲区域进行水平转换,得到对应的水平文本识别区域;
弯曲文本识别模块,用于利用单独训练的水平文本识别模型,识别所述水平文本识别区域内的文本内容。
第三方面,本申请实施例提供了一种电子设备,该电子设备包括:
处理器和存储器,所述存储器用于存储计算机程序,所述处理器用于调用并运行所述存储器中存储的计算机程序,以执行本申请第一方面中提供的弯曲文本识别的方法。
第四方面,本申请实施例提供了一种计算机可读存储介质,用于存储计算机程序,所述计算机程序使得计算机执行如本申请第一方面中提供的弯曲文本识别的方法。
第五方面,本申请实施例提供了一种计算机程序产品,包括计算机程序/指令,其特征在于,该计算机程序/指令被处理器执行时实现如本申请第一方面中提供的弯曲文本识别的方法。
本申请实施例提供的一种弯曲文本识别的方法、装置、设备及存储介质,首先根据待识别文本图像内弯曲文本的弯曲边界关键点,确定对应的弯曲文本边界线,然后对由弯曲文本边界线形成的文本弯曲区域进行水平转换,即可得到水平文本识别区域,最后利用单独训练的水平文本识别模型,识别该水平文本识别区域内的文本内容,从而实现弯曲文本的准确识别。通过弯曲文本边界线形成的文本弯曲区域,无需在弯曲文本识别时对除真正的文本内容之外的其他图像特征进行分析,确保弯曲文本识别的文本特征精确度,然后通过单独训练的水平文本识别模型,进一步提高弯曲文本识别的准确性和高效性。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例示出的一种弯曲文本识别的方法的流程图;
图2为本申请实施例示出的另一种弯曲文本识别的方法的流程图;
图3为本申请实施例示出的弯曲文本识别过程的原理示意图;
图4为本申请实施例示出的从待识别文本图像中框选出的弯曲文本区域的示意图;
图5为本申请实施例示出的通过贝塞尔控制点和贝塞尔曲线来表示弯曲文本边界线的示意图;
图6为本申请实施例示出的文本弯曲区域水平转换后的水平文本识别区域的示意图;
图7为本申请实施例示出的一种弯曲文本识别的装置的原理框图;
图8是本申请实施例提供的电子设备的示意性框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或服务器不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
考虑到对待识别图像内的整体文本区域进行弯曲文本识别,整体文本区域内包含除弯曲文本内容外的其他图像特征,会降低弯曲文本识别前的文本特征精确程度,进而影响弯曲文本识别的准确性。因此,本申请设计了一种准确识别弯曲文本的方案。通过分析待识别文本图像内的弯曲文本边界线,得到由弯曲文本边界线形成的文本弯曲区域,从而减少弯曲文本识别时对除真正的弯曲文本内容之外的其他图像特征分析,确保弯曲文本识别的文本特征精确度。然后,利用单独训练的水平文本识别模型对水平转换后的文本弯曲区域进行弯曲文本识别,进一步提高弯曲文本识别的准确性和高效性。
图1为本申请实施例示出的一种弯曲文本识别的方法的流程图。参照图1,该方法具体可以包括如下步骤:
S110,根据待识别文本图像内弯曲文本的弯曲边界关键点,确定对应的弯曲文本边界线。
具体的,由于采用常规基于目标框的目标检测模型来检测任一文本图像内存在的各个弯曲文本时,通常会检测出由矩形框表示的弯曲文本整体区域,其内包含除了真正的弯曲文本外的其他图像特征,而无法单独检测出只包含真正的弯曲文本特征的精准区域。
由上述内容可知,为了精准识别文本图像内的弯曲文本,首先需要从待识别文本图像内提取出真正的弯曲文本所在的精准文本区域,避免对除了真正的弯曲文本之外的其他图像特征进行分析,以确保弯曲文本识别的准确性。
需要说明的是,本申请中的待识别文本图像可以为包含有任意印章图案的图像,且待识别文本图像内的印章图案内存在弯曲的文本内容。例如,在特定文件内用于标识指定身份信息的印章图像等。
作为本申请中的一种可选实现方案,本申请中的待识别文本图像内可以包括至少一个弯曲文本。而且,每一弯曲文本在待识别文本图像内所在的精准文本区域也是相应的弯曲区域,并且该弯曲区域主要可以由多条曲线相连形成。因此,在待识别文本图像内提取弯曲文本所在的精准文本区域时,首先需要确定形成该精准文本区域的各条曲线,也就是本申请中弯曲文本整体连通后形成的各条弯曲文本边界线。
在本申请中,通过对待识别文本图像内的文本特征进行分析,可以提取出待识别文本图像内用于指示弯曲文本的各条边界曲线的各个弯曲边界关键点。然后,按照每一弯曲文本下各个弯曲边界关键点对于文本边界曲线设定的绘制算法,对每一弯曲文本下各个弯曲边界关键点进行相应处理,即可得到每一弯曲文本对应的弯曲文本边界线。
一方面,本申请中每一弯曲文本下的弯曲边界关键点可以为待识别文本图像内通过关键点依次连接而能够精准框选出该弯曲文本整体内容的某些特征点。也就是说,通过对待识别文本图像内弯曲文本周围的大量特征点进行回归处理,以判断将各个特定特征点依次连接后是否能够精准框选出整个弯曲文本,即可得到每一弯曲文本下的各个弯曲边界关键点。然后,通过依次连接每一弯曲文本下的各个弯曲边界关键点,即可得到该弯曲文本对应的弯曲文本边界线。
另一方面,本申请中每一弯曲文本下的弯曲边界关键点可以为用于形成贝塞尔曲线来表示待识别文本图像内每一弯曲文本下的各个弯曲文本边界的贝塞尔控制点。其中,贝塞尔曲线与贝塞尔控制点间存在相应的关联关系,通过调整各个贝塞尔控制点,即可变换贝塞尔曲线的形状。因此,本申请通过对待识别文本图像内弯曲文本周围的大量特征点进行回归处理,以判断按照贝塞尔曲线的数学公式对某些特定的特征点进行曲线绘制后,是否能够精准表示各个弯曲文本边界,以此得到所形成的贝塞尔曲线能够精准表示待识别文本图像内每一弯曲文本下的各个弯曲文本边界的各个贝塞尔控制点,并将所形成的贝塞尔曲线作为对应的弯曲文本边界线。
S120,对弯曲文本边界线形成的文本弯曲区域进行水平转换,得到对应的水平文本识别区域。
在确定出待识别文本图像内每一弯曲文本对应的弯曲文本边界线后,通过顺序连接每一弯曲文本对应的各个弯曲文本边界线,即可精准框选出相应的弯曲文本,从而形成对应的文本弯曲区域。
然后,考虑到每一弯曲文本对应的文本弯曲区域内的各个字符串也是弯曲的,本申请会进一步通过控制每一弯曲文本下的各个弯曲边界关键点进行水平移动,来控制各个文本弯曲区域进行水平转换,得到水平转换后的文本弯曲区域,作为本申请中的水平文本识别区域。此时,水平文本识别区域内的各个字符串能够水平显示。
S130,利用单独训练的水平文本识别模型,识别水平文本识别区域内的文本内容。
在得到每一弯曲文本所在的文本弯曲区域水平转换后的水平文本识别区域后,由于水平文本识别区域内的各个字符串是水平显示的,因此可以直接采用大量水平文本图像作为训练样本,来单独训练对应的水平文本识别模型,无需与用于检测弯曲文本的文本弯曲区域的网络模型进行端到端综合训练。然后,利用单独训练的水平文本识别模型对各个水平文本识别区域内的字符串进行识别,即可识别出对应弯曲文本的真正文本内容。
此时,通过单独获取水平文本图像,并标注对应的标签信息,相对于端到端训练时包含弯曲文本的训练样本数据量少,且标注标签难度较大的问题,本申请中通过单独采用大量水平文本图像来训练谁聘文本识别模型,极大降低训练样本的获取难度和标注工作量。而且,通过针对性增加特定性能的训练样本,能够进一步提高单独训练的水平文本识别模型的识别准确性。
作为本申请中的一种可选实现方案,可以将每一弯曲文本所在的文本弯曲区域水平转换后的水平文本识别区域对应的输入到单独训练好的水平文本识别模型内,由该水平文本识别模型对水平文本识别区域内的字符串进行特征分析,即可识别出该水平文本识别区域内的真正文本内容,从而实现弯曲文本的准确识别。
此外,考虑到待识别文本图像内可能会存在多个弯曲文本,那么会识别出每一弯曲文本的真正文本内容。然后,通过根据每一弯曲文本在待识别文本图像内的区域位置等信息,对各个弯曲文本识别出的文本内容进行标准化处理,从而得到标准化的弯曲文本识别结果。
本申请实施例提供的技术方案,首先根据待识别文本图像内弯曲文本的弯曲边界关键点,确定对应的弯曲文本边界线,然后对由弯曲文本边界线形成的文本弯曲区域进行水平转换,即可得到水平文本识别区域,最后利用单独训练的水平文本识别模型,识别该水平文本识别区域内的文本内容,从而实现弯曲文本的准确识别。通过弯曲文本边界线形成的文本弯曲区域,无需在弯曲文本识别时对除真正的文本内容之外的其他图像特征进行分析,确保弯曲文本识别的文本特征精确度,然后通过单独训练的水平文本识别模型,进一步提高弯曲文本识别的准确性和高效性。
作为本申请中的一种可选实现方案,对于利用待识别文本图像内各个弯曲文本的弯曲边界关键点,确定对应的弯曲文本边界线的具体步骤进行详细的解释说明。
图2为本申请实施例示出的另一种弯曲文本识别的方法的流程图。参照图2,该方法具体可以包括如下步骤:
S210,从待识别文本图像中框选出对应的弯曲文本区域。
在本申请中,为了确保弯曲文本识别的高效性,本申请首先会尽可能的去掉除了真正弯曲文本之外的其他图像特征。因此,如图3所示,本申请可以将待识别文本图像输入到预先训练好的基于目标框的文本检测模型中,由该文本检测模型利用矩形框的方式框选出待识别文本图像内的每一弯曲文本,得到对应的弯曲文本区域。其中,如图4所示,本申请中框选出的各个弯曲文本对应的弯曲文本区域为矩形框区域,除了包含真正的弯曲文本之外,还会包含一些其他图像特征,后续对弯曲文本区域进行处理。
作为本申请中的一种可选实现方案,考虑到待识别文本图像内各个弯曲文本的字符朝向可能不同,而文本识别时正向字符串能够提高文本识别的准确性。因此,本申请在从待识别文本图像中框选出对应的弯曲文本区域之后,如图3所示,可以进一步根据弯曲文本区域的文本朝向对弯曲文本区域进行旋转,得到正向的弯曲文本区域,以对正向的弯曲文本区域内的弯曲文本边界进行边界盒回归,得到对应的弯曲边界关键点。也就是说,通过分析弯曲文本区域的文本朝向与正向关系,可以得到相应的旋转角度。然后,根据该旋转角度对弯曲文本区域进行相应旋转,即可得到正向的弯曲文本区域,后续通过对正向的弯曲文本区域进行文本识别处理,提高弯曲文本识别的准确性。
S220,对弯曲文本区域内的弯曲文本边界进行边界盒回归,得到对应的弯曲边界关键点。
作为本申请中的一种可选实现方案,可以采用预先训练的回归模型,来对弯曲文本区域内的各个弯曲文本边界进行边界盒回归,来分析对应的弯曲边界参数,从而确定出对应的弯曲边界关键点。
示例性的,本申请中的弯曲边界关键点为用于形成贝塞尔曲线来表示待识别文本图像内弯曲文本边界的贝塞尔控制点。那么,本申请可以预先构建一个ABCnet模型,该ABCnet模型是一个端到端可训练的场景文本定位框架,其中采用单次、无锚定的卷积神经网络作为检测框架,并采用4个叠加的卷积层构成对应的贝塞尔控制点检测功能,从而简化边界盒回归过程。此时,如图3所示,通过将弯曲文本区域输入到ABCnet模型内,即可检测出每一弯曲文本下用于能够表示各个弯曲文本边界线的贝塞尔控制点。
S230,利用弯曲边界关键点,拟合出弯曲文本区域内的弯曲文本边界线。
在本申请中,通过按照每一弯曲文本下各个弯曲边界关键点对于文本边界曲线设定的绘制算法,对每一弯曲文本下各个弯曲边界关键点进行相应处理,即可得到每一弯曲文本对应的弯曲文本边界线。
示例性的,以三阶贝塞尔曲线表示弯曲文本区域内每一弯曲文本下的各个弯曲文本边界线为例,由于每一弯曲文本下存在上下两条弯曲文本边界线,而每一条弯曲文本边界线均可以采用三阶贝塞尔曲线表示,且三阶贝塞尔曲线可以由4个贝塞尔控制点确定。因此,本申请中对于每一弯曲文本下的弯曲文本边界线,可以由8个贝塞尔控制点确定。
贝塞尔曲线的数学描述公式可以为:
Figure BDA0003636634030000081
其中,C(t)为以伯恩斯坦多项式为基的参数曲线,Pi为第i个贝塞尔控制点,n为n阶贝塞尔曲线,Bi,n(t)为伯恩斯坦多项式,在t取值范围[0,1]之间,得到的C(t)轨迹即为对应的n阶贝塞尔曲线。
在确定出弯曲文本区域内每一弯曲文本对应的各个弯曲边界关键点,也就是贝塞尔控制点后,可以如图5所示,以三阶贝塞尔曲线为例,利用上述公式,通过所得到的每一弯曲文本对应的8个贝塞尔控制点,即可在弯曲文本区域内拟合出每一弯曲文本下的贝塞尔曲线,也就是对应的弯曲文本边界线。
S240,通过对弯曲边界关键点进行水平对齐,控制弯曲文本边界线形成的文本弯曲区域进行水平转换,得到对应的水平文本识别区域。
可选的,考虑到由每一弯曲文本下的弯曲文本边界线形成的文本弯曲区域内的各个字符串也是弯曲的,本申请会进一步通过控制每一弯曲文本下的各个弯曲边界关键点进行水平对齐,从而带动该弯曲文本周围的各个特征点进行相应移动,也就是带动各个文本弯曲区域内的各个特征点进行相应移动,使得各个文本弯曲区域进行水平转换,即可得到水平转换后的文本弯曲区域,作为本申请中的水平文本识别区域。
示例性的,本申请中的弯曲边界关键点为用于形成贝塞尔曲线来表示待识别文本图像内弯曲文本边界的贝塞尔控制点。那么,采用ABCnet模型内设定的贝塞尔对齐的方式,即可控制文本弯曲区域水平转换为图6中所示的水平文本识别区域,使得弯曲文本在水平文本识别区域内水平显示。
S250,利用单独训练的水平文本识别模型,识别所述水平文本识别区域内的文本内容。
本申请实施例提供的技术方案,首先根据待识别文本图像内弯曲文本的弯曲边界关键点,确定对应的弯曲文本边界线,然后对由弯曲文本边界线形成的文本弯曲区域进行水平转换,即可得到水平文本识别区域,最后利用单独训练的水平文本识别模型,识别该水平文本识别区域内的文本内容,从而实现弯曲文本的准确识别。通过弯曲文本边界线形成的文本弯曲区域,无需在弯曲文本识别时对除真正的文本内容之外的其他图像特征进行分析,确保弯曲文本识别的文本特征精确度,然后通过单独训练的水平文本识别模型,进一步提高弯曲文本识别的准确性和高效性。
图7为本申请实施例示出的一种弯曲文本识别的装置的原理框图。如图7所示,该装置700可以包括:
弯曲边界确定模块710,用于根据待识别文本图像内弯曲文本的弯曲边界关键点,确定对应的弯曲文本边界线;
弯曲文本转换模块720,用于对所述弯曲文本边界线形成的文本弯曲区域进行水平转换,得到对应的水平文本识别区域;
弯曲文本识别模块730,用于利用单独训练的水平文本识别模型,识别所述水平文本识别区域内的文本内容。
进一步的,所述弯曲边界确定模块710,可以具体用于:
从所述待识别文本图像中框选出对应的弯曲文本区域;
对所述弯曲文本区域内的弯曲文本边界进行边界盒回归,得到对应的弯曲边界关键点;
利用所述弯曲边界关键点,拟合出所述弯曲文本区域内的弯曲文本边界线。
进一步的,所述弯曲边界确定模块710,还可以用于:
区域旋转模块,用于根据所述弯曲文本区域的文本朝向对所述弯曲文本区域进行旋转,得到正向的弯曲文本区域,以对正向的弯曲文本区域内的弯曲文本边界进行边界盒回归,得到对应的弯曲边界关键点。
进一步的,所述弯曲边界关键点为用于形成贝塞尔曲线来表示所述待识别文本图像内弯曲文本边界的贝塞尔控制点。
进一步的,所述弯曲文本转换模块720,可以具体用于:
通过对所述弯曲边界关键点进行水平对齐,控制所述弯曲文本边界线形成的文本弯曲区域进行水平转换,得到对应的水平文本识别区域。
进一步的,所述弯曲文本识别模块730,可以具体用于:
将所述水平文本识别区域输入到训练好的水平文本识别模型内,输出所述水平文本识别区域内的文本内容;
其中,所述水平文本识别模型采用标注有真实文本内容的各水平文本图像进行单独训练。
本申请实施例中,首先根据待识别文本图像内弯曲文本的弯曲边界关键点,确定对应的弯曲文本边界线,然后对由弯曲文本边界线形成的文本弯曲区域进行水平转换,即可得到水平文本识别区域,最后利用单独训练的水平文本识别模型,识别该水平文本识别区域内的文本内容,从而实现弯曲文本的准确识别。通过弯曲文本边界线形成的文本弯曲区域,无需在弯曲文本识别时对除真正的文本内容之外的其他图像特征进行分析,确保弯曲文本识别的文本特征精确度,然后通过单独训练的水平文本识别模型,进一步提高弯曲文本识别的准确性和高效性。
应理解的是,装置实施例与方法实施例可以相互对应,类似的描述可以参照方法实施例。为避免重复,此处不再赘述。具体地,图7所示的装置700可以执行本申请提供的方法实施例,并且装置700中的各个模块的前述和其它操作和/或功能分别为了实现本申请实施例的各个方法中的相应流程,为了简洁,在此不再赘述。
上文中结合附图从功能模块的角度描述了本申请实施例的装置700。应理解,该功能模块可以通过硬件形式实现,也可以通过软件形式的指令实现,还可以通过硬件和软件模块组合实现。具体地,本申请实施例中的方法实施例的各步骤可以通过处理器中的硬件的集成逻辑电路和/或软件形式的指令完成,结合本申请实施例公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。可选地,软件模块可以位于随机存储器,闪存、只读存储器、可编程只读存储器、电可擦写可编程存储器、寄存器等本领域的成熟的存储介质中。该存储介质位于存储器,处理器读取存储器中的信息,结合其硬件完成上述方法实施例中的步骤。
图8是本申请实施例提供的电子设备800的示意性框图。
如图8所示,该电子设备800可包括:
存储器810和处理器820,该存储器810用于存储计算机程序,并将该程序代码传输给该处理器820。换言之,该处理器820可以从存储器810中调用并运行计算机程序,以实现本申请实施例中的方法。
例如,该处理器820可用于根据该计算机程序中的指令执行上述方法实施例。
在本申请的一些实施例中,该处理器820可以包括但不限于:
通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(FieldProgrammable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等等。
在本申请的一些实施例中,该存储器810包括但不限于:
易失性存储器和/或非易失性存储器。其中,非易失性存储器可以是只读存储器(Read-Only Memory,ROM)、可编程只读存储器(Programmable ROM,PROM)、可擦除可编程只读存储器(Erasable PROM,EPROM)、电可擦除可编程只读存储器(Electrically EPROM,EEPROM)或闪存。易失性存储器可以是随机存取存储器(Random Access Memory,RAM),其用作外部高速缓存。通过示例性但不是限制性说明,许多形式的RAM可用,例如静态随机存取存储器(Static RAM,SRAM)、动态随机存取存储器(Dynamic RAM,DRAM)、同步动态随机存取存储器(Synchronous DRAM,SDRAM)、双倍数据速率同步动态随机存取存储器(Double DataRate SDRAM,DDR SDRAM)、增强型同步动态随机存取存储器(Enhanced SDRAM,ESDRAM)、同步连接动态随机存取存储器(synch link DRAM,SLDRAM)和直接内存总线随机存取存储器(Direct Rambus RAM,DR RAM)。
在本申请的一些实施例中,该计算机程序可以被分割成一个或多个模块,该一个或者多个模块被存储在该存储器810中,并由该处理器820执行,以完成本申请提供的方法。该一个或多个模块可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述该计算机程序在该电子设备中的执行过程。
如图8所示,该电子设备还可包括:
收发器830,该收发器830可连接至该处理器820或存储器810。
其中,处理器820可以控制该收发器830与其他设备进行通信,具体地,可以向其他设备发送信息或数据,或接收其他设备发送的信息或数据。收发器830可以包括发射机和接收机。收发器830还可以进一步包括天线,天线的数量可以为一个或多个。
应当理解,该电子设备中的各个组件通过总线系统相连,其中,总线系统除包括数据总线之外,还包括电源总线、控制总线和状态信号总线。
本申请实施例还提供了一种计算机存储介质,其上存储有计算机程序,该计算机程序被计算机执行时使得该计算机能够执行上述方法实施例的方法。或者说,本申请实施例还提供一种包含指令的计算机程序产品,该指令被计算机执行时使得计算机执行上述方法实施例的方法。
当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。该计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行该计算机程序指令时,全部或部分地产生按照本申请实施例该的流程或功能。该计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。该计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,该计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(digital subscriber line,DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。该计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。该可用介质可以是磁性介质(例如,软盘、硬盘、磁带)、光介质(例如数字视频光盘(digital video disc,DVD))、或者半导体介质(例如固态硬盘(solid state disk,SSD))等。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的模块及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,该模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个模块或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或模块的间接耦合或通信连接,可以是电性,机械或其它的形式。
作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理模块,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。例如,在本申请各个实施例中的各功能模块可以集成在一个处理模块中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个模块中。
以上,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以该权利要求的保护范围为准。

Claims (10)

1.一种弯曲文本识别的方法,其特征在于,包括:
根据待识别文本图像内弯曲文本的弯曲边界关键点,确定对应的弯曲文本边界线;
对所述弯曲文本边界线形成的文本弯曲区域进行水平转换,得到对应的水平文本识别区域;
利用单独训练的水平文本识别模型,识别所述水平文本识别区域内的文本内容。
2.根据权利要求1所述的方法,其特征在于,所述根据待识别文本图像内弯曲文本的弯曲边界关键点,确定对应的弯曲文本边界线,包括:
从所述待识别文本图像中框选出对应的弯曲文本区域;
对所述弯曲文本区域内的弯曲文本边界进行边界盒回归,得到对应的弯曲边界关键点;
利用所述弯曲边界关键点,拟合出所述弯曲文本区域内的弯曲文本边界线。
3.根据权利要求2所述的方法,其特征在于,在从所述待识别文本图像中框选出对应的弯曲文本区域之后,还包括:
根据所述弯曲文本区域的文本朝向对所述弯曲文本区域进行旋转,得到正向的弯曲文本区域,以对正向的弯曲文本区域内的弯曲文本边界进行边界盒回归,得到对应的弯曲边界关键点。
4.根据权利要求1-3任一项所述的方法,其特征在于,所述弯曲边界关键点为用于形成贝塞尔曲线来表示所述待识别文本图像内弯曲文本边界的贝塞尔控制点。
5.根据权利要求1所述的方法,其特征在于,所述对所述弯曲文本边界线形成的文本弯曲区域进行水平转换,得到对应的水平文本识别区域,包括:
通过对所述弯曲边界关键点进行水平对齐,控制所述弯曲文本边界线形成的文本弯曲区域进行水平转换,得到对应的水平文本识别区域。
6.根据权利要求1所述的方法,其特征在于,所述利用单独训练的水平文本识别模型,识别所述水平文本识别区域内的文本内容,包括:
将所述水平文本识别区域输入到训练好的水平文本识别模型内,输出所述水平文本识别区域内的文本内容;
其中,所述水平文本识别模型采用标注有真实文本内容的各水平文本图像进行单独训练。
7.一种弯曲文本识别的装置,其特征在于,包括:
弯曲边界确定模块,用于根据待识别文本图像内弯曲文本的弯曲边界关键点,确定对应的弯曲文本边界线;
弯曲文本转换模块,用于对所述弯曲文本边界线形成的文本弯曲区域进行水平转换,得到对应的水平文本识别区域;
弯曲文本识别模块,用于利用单独训练的水平文本识别模型,识别所述水平文本识别区域内的文本内容。
8.一种电子设备,其特征在于,包括:
处理器和存储器,所述存储器用于存储计算机程序,所述处理器用于调用并运行所述存储器中存储的计算机程序,以执行权利要求1-6中任一项所述的弯曲文本识别的方法。
9.一种计算机可读存储介质,其特征在于,用于存储计算机程序,所述计算机程序使得计算机执行如权利要求1-6中任一项所述的弯曲文本识别的方法。
10.一种计算机程序产品,包括计算机程序/指令,其特征在于,该计算机程序/指令被处理器执行时实现如执行权利要求1-6中任一项所述的弯曲文本识别的方法。
CN202210507472.0A 2022-05-10 2022-05-10 一种弯曲文本识别的方法、装置、设备及存储介质 Pending CN114898379A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210507472.0A CN114898379A (zh) 2022-05-10 2022-05-10 一种弯曲文本识别的方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210507472.0A CN114898379A (zh) 2022-05-10 2022-05-10 一种弯曲文本识别的方法、装置、设备及存储介质

Publications (1)

Publication Number Publication Date
CN114898379A true CN114898379A (zh) 2022-08-12

Family

ID=82721635

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210507472.0A Pending CN114898379A (zh) 2022-05-10 2022-05-10 一种弯曲文本识别的方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN114898379A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116453133A (zh) * 2023-06-16 2023-07-18 湖北工业大学 基于贝塞尔曲线和关键点的横幅文本检测方法及系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116453133A (zh) * 2023-06-16 2023-07-18 湖北工业大学 基于贝塞尔曲线和关键点的横幅文本检测方法及系统
CN116453133B (zh) * 2023-06-16 2023-09-05 湖北工业大学 基于贝塞尔曲线和关键点的横幅文本检测方法及系统

Similar Documents

Publication Publication Date Title
CN109117831B (zh) 物体检测网络的训练方法和装置
CN108171203B (zh) 用于识别车辆的方法和装置
US20230119593A1 (en) Method and apparatus for training facial feature extraction model, method and apparatus for extracting facial features, device, and storage medium
CN110363220B (zh) 行为类别检测方法、装置、电子设备和计算机可读介质
CN109285105B (zh) 水印检测方法、装置、计算机设备和存储介质
CN112132143B (zh) 数据处理方法、电子设备及计算机可读介质
EP2806374A1 (en) Method and system for automatic selection of one or more image processing algorithm
CN111639648B (zh) 证件识别方法、装置、计算设备和存储介质
CN110826494A (zh) 标注数据质量评价方法、装置、计算机设备及存储介质
CN112668640B (zh) 一种文本图像质量评估方法、装置、设备及介质
CN113989549A (zh) 一种基于伪标签的半监督学习图像分类优化方法及系统
CN111444986A (zh) 建筑图纸构件分类方法、装置、电子设备及存储介质
CN112818852A (zh) 印章校验方法、装置、设备及存储介质
CN114330588A (zh) 一种图片分类方法、图片分类模型训练方法及相关装置
CN114898379A (zh) 一种弯曲文本识别的方法、装置、设备及存储介质
CN112052702A (zh) 一种识别二维码的方法和装置
CN116612417A (zh) 利用视频时序信息的特殊场景车道线检测方法及装置
CN113140012B (zh) 图像处理方法、装置、介质及电子设备
CN113762303B (zh) 图像分类方法、装置、电子设备及存储介质
CN112036516A (zh) 一种图像处理方法、装置、电子设备和存储介质
CN109934185B (zh) 数据处理方法及装置、介质和计算设备
CN113761968A (zh) 数据处理方法、装置、电子设备及计算机存储介质
CN112241749A (zh) 字符识别模型训练方法、装置及设备
CN115116073A (zh) 洗涤标签识别方法、装置、存储介质及电子装置
CN112801960B (zh) 图像处理方法及装置、存储介质、电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination