CN112712072A - 文本的识别方法和识别装置 - Google Patents
文本的识别方法和识别装置 Download PDFInfo
- Publication number
- CN112712072A CN112712072A CN202110323752.1A CN202110323752A CN112712072A CN 112712072 A CN112712072 A CN 112712072A CN 202110323752 A CN202110323752 A CN 202110323752A CN 112712072 A CN112712072 A CN 112712072A
- Authority
- CN
- China
- Prior art keywords
- feature
- text
- text content
- content
- recognized
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/148—Segmentation of character regions
- G06V30/153—Segmentation of character regions using recognition of characters or words
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Biophysics (AREA)
- Evolutionary Computation (AREA)
- Computational Linguistics (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Character Discrimination (AREA)
Abstract
本发明涉及一种文本的识别方法和识别装置。该识别方法包括:接收待识别文本图像,获取待识别文本图像对应的特征序列,其中,待识别文本图像包括:文字内容和标记符号;获取特征序列中每个特征对应的文字内容,建立特征组和文字内容的对应关系,其中,一个特征组包括至少一个特征,一个特征组内的特征对应同一个文字内容;根据特征组和文字内容的对应关系,获取特征组对应的标记符号;根据特征组和文字内容的对应关系,以及特征组对应的标记符号,获取文字内容和标记符号的对应关系;根据文字内容和标记符号的对应关系输出识别结果。该文本的识别方法能够解决普通文本与标记符号位置无法对齐的问题。
Description
技术领域
本公开涉及图像识别技术领域,尤其涉及一种文本的识别方法和识别装置。
背景技术
光学字符识别(Optical Character Recognition,OCR)是通过电子设备检查纸上打印的字符,通过检测暗、亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机文字的过程。这种字符识别的方法由于其智能化,广泛应用于教育、金融、物流、安防等领域。二维标记文字包括普通文本和特殊标识,且特殊标识和普通文本构成一一对应的结果对,例如波浪线、下划线、着重号等特殊标识与普通文字区域组成含有标记符号的文本。
现有技术中,通过注意力(Attention)机制实现含有标记符号的文本的识别,但是Attention机制存在漂移问题,无法实现普通文本与标记符号的对齐。
发明内容
为了解决上述技术问题或者至少部分地解决上述技术问题,本发明实施例提供了一种文本的识别方法和识别装置,能够解决普通文本与标记符号结果无法对齐的问题。
第一方面,本发明实施例提供了一种文本的识别方法,包括:
接收待识别文本图像,获取所述待识别文本图像对应的特征序列,其中,所述待识别文本图像包括:文字内容和标记符号;
获取所述特征序列中每个特征对应的文字内容,建立特征组和所述文字内容的对应关系,其中,一个所述特征组包括至少一个特征,一个所述特征组内的特征对应同一个文字内容;
根据所述特征组和所述文字内容的对应关系,获取所述特征组对应的标记符号;
根据所述特征组和所述文字内容的对应关系,以及所述特征组对应的标记符号,获取所述文字内容和所述标记符号的对应关系;
根据所述文字内容和所述标记符号的对应关系输出识别结果。
可选地,所述获取所述待识别文本图像对应的特征序列,包括:
对所述待识别文本图像进行多次卷积和多次池化,获取所述待识别文本图像对应的特征序列。
可选地,所述对所述待识别文本图像进行多次卷积和多次池化,获取所述待识别文本图像对应的特征序列,包括:
对所述待识别文本图像进行一次卷积和一次池化,获取第一结果;
对所述第一结果进行两次卷积和一次池化,获取第二结果;
对所述第二结果进行四次卷积和一次池化,获取第三结果;
对所述第三结果进行两次卷积和一次池化,获取第四结果;
对所述第四结果进行一次卷积,获取所述待识别文本图像对应的特征序列。
可选地,所述获取所述特征序列中每个特征对应的文字内容,包括:
根据所述特征序列,获取所述特征序列中每个特征对应的文字概率矩阵;
根据所述文字概率矩阵中最大概率值对应的文字内容,获取所述每个特征对应的文字内容。
可选地,所述获取所述特征序列中每个特征对应的文字概率矩阵,包括:
对所述特征序列进行双向长短时记忆传播,获取所述每个特征对应的文字概率矩阵和标记符号概率矩阵。
可选地,所述根据所述特征组和所述文字内容的对应关系,获取所述特征组对应的标记符号,包括:
根据所述特征组和所述文字内容的对应关系,以及所述每个特征对应的标记符号概率矩阵,获取所述特征组对应的标记符号概率矩阵;
根据所述特征组对应的标记符号概率矩阵中最大概率值对应的标记符号,获取所述特征组对应的标记符号。
可选地,所述获取所述特征组对应的标记符号之后,还包括:
根据所述特征组和所述文字内容的对应关系,获取首个文字内容对应的特征组;
根据所述特征组对应的标记符号概率矩阵,以及所述首个文字内容对应的特征组,获取所述首个文字内容对应的标记符号概率矩阵;
若所述首个文字内容对应的标记符号概率矩阵中的目标概率值大于等于概率阈值,调整所述首个文字内容对应的标记符号,所述目标概率值为首个文字内容无标记符号的概率值之外的概率值。
可选地,所述调整所述首个文字内容对应的标记符号,包括:
若所述首个文字内容对应的标记符号概率矩阵中的第一标记符号概率值大于等于第二标记符号概率值,将第一标记符号确定为所述首个文字内容对应的标记符号。
可选地,所述获取所述待识别文本图像对应的特征序列之前,还包括:
对所述文本图像进行预处理,获取所述待识别文本图像,其中,所述待识别文本图像的高度为2的倍数。
第二方面提供了一种文本的识别装置,用于执行第一方面提供的任一种文本的识别方法,文本的识别装置包括:
特征序列获取模块,用于接收待识别文本图像,获取所述待识别文本图像对应的特征序列,其中,所述待识别文本图像包括:文字内容和标记符号;
关系建立模块,用于获取所述特征序列中每个特征对应的文字内容,建立特征组和所述文字内容的对应关系,其中,一个所述特征组包括至少一个特征,一个所述特征组内的特征对应同一个文字内容;
标记符号获取模块,用于根据所述特征组和所述文字内容的对应关系,获取所述特征组对应的标记符号;
关系获取模块,用于根据所述特征组和所述文字内容的对应关系,以及所述特征组对应的标记符号,获取所述文字内容和所述标记符号的对应关系;
识别结果输出模块,用于根据所述文字内容和所述标记符号的对应关系输出识别结果。
本发明实施例提供的技术方案中,通过接收待识别文本图像,获取待识别文本图像对应的特征序列,其中,待识别文本图像包括:文字内容和标记符号;获取特征序列中每个特征对应的文字内容,建立特征组和文字内容的对应关系,其中,一个特征组包括至少一个特征,一个特征组内的特征对应同一个文字内容;根据特征组和文字内容的对应关系,获取特征组对应的标记符号;根据特征组和文字内容的对应关系,以及特征组对应的标记符号,获取文字内容和标记符号的对应关系;根据文字内容和标记符号的对应关系输出识别结果,在识别过程中能够建立文字内容和标记符号的对应关系,从而实现普通文本与标记符号的对齐。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。
为了更清楚地说明本公开实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。
为了更清楚地说明本公开实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种文本的识别方法的流程示意图;
图2为本发明实施例提供的又一种文本的识别方法的流程示意图;
图3为本发明实施例提供的一种CNN模型的结构示意图;
图4为本发明实施例提供的又一种文本的识别方法的流程示意图;
图5为本发明实施例提供的又一种文本的识别方法的流程示意图;
图6为本发明实施例提供的又一种文本的识别方法的流程示意图;
图7为本发明实施例提供的一种文本的识别装置的结构示意图。
具体实施方式
为了能够更清楚地理解本公开的上述目的、特征和优点,下面将对本公开的方案进行进一步描述。需要说明的是,在不冲突的情况下,本公开的实施例及实施例中的特征可以相互组合。
在下面的描述中阐述了很多具体细节以便于充分理解本公开,但本公开还可以采用其他不同于在此描述的方式来实施;显然,说明书中的实施例只是本公开的一部分实施例,而不是全部的实施例。
图1为本发明实施例提供的一种文本的识别方法的流程示意图,如图1所示,文本的识别方法包括:
S110,接收待识别文本图像,获取所述待识别文本图像对应的特征序列。
其中,待识别文本图像包括:文字内容和标记符号。
具体地,通常为了着重强调某些文字内容,在该文字内容的上部或下部增加会波浪线、下划线等标记符号,形成含有标记符号的文本。显然,在含有标记符号的文本中,文字内容和标记符号存在一一对应的关系。
对上述含有标记符号的文本进行识别时,首先需要获取含有标记符号的文本的图像,即待识别文本图像。接收到待识别文本图像后,提取待识别文本图像的多个局部特征,也可以称之为特征,这些特征组成待识别文本图像的特征序列,从而能够获取到待识别文本图像对应的特征序列。
S120,获取所述特征序列中每个特征对应的文字内容,建立特征组和所述文字内容的对应关系。
其中,一个特征组包括至少一个特征,一个特征组内的特征对应同一个文字内容。
具体地,特征序列中每个特征均与待识别文本图像中的一个视野区域对应,在识别过程中可能有多个相邻的特征对应同一个文字内容,将与同一个文字内容对应的多个特征组成一个特征组,从而建立了特征组和文字内容的对应关系。
示例性地,待识别文本图像为:万径人踪灭。特征序列中第10个特征-第14个特征对应的文字内容均为“万”,第20个特征-第23个特征对应的文字内容均为“径”,第27个特征-第29个特征对应的文字内容均为“人”,第32个特征-第35个特征对应的文字内容均为“踪”,第39个特征-第40个特征对应的文字内容均为“灭”。第10个特征-第14个特征组成第一特征组,第20个特征-第23个特征组成第二特征组,第27个特征-第29个特征组成第三特征组,第32个特征-第35个特征组成第四特征组,第39个特征-第40个特征组成第五特征组,即“万”与第一特征组对应,“径”与第二特征组对应,“人”与第三特征组对应,“踪”与第四特征组对应,“灭”与第五特征组对应。例如:最终建立的特征组和文字内容的对应关系可以表示为:万(10-14)径(20-23)人(27-29)踪(32-35)灭(39-40)。
需要说明的是,本发明实施例仅示例性展示了待识别文本图像中的标记符号包括下划线,在实际应用中,标记符号可以是下划线、波浪线、双下划线、点、三角符号等的至少一种标记符号。
S130,根据所述特征组和所述文字内容的对应关系,获取所述特征组对应的标记符号。
具体地,根据特征序列,获取特征序列中每个特征对应的标记符号,一个特征组内的特征对应同一个文字内容,则一个特征组内的特征也对应同一个标记符号,据此可以获取特征组对应的标记符号。
示例性地,基于上述实施例,获取第10个特征-第14个特征对应的标记符号均为2,即第一特征组对应的标记符号为2;获取第20个特征-第23个特征对应的标记符号均为0,即第二特征组对应的标记符号均为0;获取第27个特征-第29个特征对应的标记符号均为1,即第三特征组对应的标记符号为1;获取第32个特征-第35个特征对应的标记符号均为1,即第四特征组对应的标记符号为1;第39个特征-第40个特征对应的标记符号均为1,即第五特征组对应的标记符号为1。
需要说明的是,本发明实施例仅示例性展示了利用数字2表示含波浪线,数字1表示含下划线,数字0表示不含标记符号。在其他实施方式中,还可以用其他数字表示表示其他种类的标记符号。
还需要说明的是,本发明实施例利用数字对标记符号的类别进行区分,仅仅是区别标识符号的一种方式,不作为对本发明实施例的具体限制。
S140,根据所述特征组和所述文字内容的对应关系,以及所述特征组对应的标记符号,获取所述文字内容和所述标记符号的对应关系。
具体地,根据特征组和文字内容的对应关系,以及特征组和标记符号的对应关系,能够确定同一个特征组对应文字内容和标记符号,故而建立了文字内容和标记符号的对应关系。
示例性地,基于上述实施例可知:“万”与第一特征组对应,“径”与第二特征组对应,“人”与第三特征组对应,“踪”与第四特征组对应,“灭”与第五特征组对应;第一特征组对应的标记符号为2,第二特征组对应的标记符号为0,第三特征组对应的标记符号为1,第四特征组对应的标记符号为1,第五特征组对应的标记符号为1,可以确定“万”与标记符号2对应,“径”与标记符号0对应,“人”与标记符号1对应,“踪”与标记符号1对应,“灭”与标记符号1对应,从而建立文字内容和标记符号的对应关系。
S150,根据所述文字内容和所述标记符号的对应关系输出识别结果。
示例性地,将文字内容和其对应的标记符号以结果对的形式输出,完成含有标记符号的文本的识别。例如:上述实施例的输出结果为:(万,2)(径,0)(人,1)(踪,1)(灭,1)。
本发明实施例提供的技术方案中,通过接收待识别文本图像,获取待识别文本图像对应的特征序列,其中,待识别文本图像包括:文字内容和标记符号;获取特征序列中每个特征对应的文字内容,建立特征组和文字内容的对应关系,其中,一个特征组包括至少一个特征,一个特征组内的特征对应同一个文字内容;根据特征组和文字内容的对应关系,获取特征组对应的标记符号;根据特征组和文字内容的对应关系,以及特征组对应的标记符号,获取文字内容和标记符号的对应关系;根据文字内容和标记符号的对应关系输出识别结果,在识别过程中能够建立文字内容和标记符号的对应关系,从而实现普通文本与标记符号的对齐。
可选地,在执行S110时,具体步骤包括:
对所述待识别文本图像进行多次卷积和多次池化,获取所述待识别文本图像对应的特征序列。
具体地,将待识别文本图像输入至卷积神经网络(Convolutional NeuralNetworks,CNN)模型,CNN模型包括卷积层和池化层。卷积层对待识别文本图像进行卷积,提取待识别文本图像中的多幅特征图像;池化层对特征图像进行池化,能够大幅度降低特征图像的数据量。例如待识别文本图像的大小为32*512,经过多次卷积和多次池化后,形成多个大小为1*128的特征,即形成特征序列。CNN模型能够将大数据量的图像降维成小数据量的图像,提高数据处理效率,缩短处理时间。
可选地,图2为本发明实施例提供的又一种文本的识别方法的流程示意图,如图2所示,在执行对所述待识别文本图像进行多次卷积和多次池化,获取所述待识别文本图像对应的特征序列的步骤时,包括:
S210,对所述待识别文本图像进行一次卷积和一次池化,获取第一结果。
示例性地,图3为本发明实施例提供的一种CNN模型的结构示意图,如图3所示,CNN模型包括十层卷积层和四层池化层。将32*512的待识别文本图像输入至第一卷积层111和第一池化层121,其中,第一卷积层111的内核尺寸为3*3,卷积步长为1*1,第一池化层121的内核尺寸为2*2,池化步长为2*2。第一卷积层111对待识别文本图像卷积后形成32*512的特征图像,第一池化层121对32*512的特征图像进行降维后形成16*256的特征图像,实现特征图像的第一次降维。
S220,对所述第一结果进行两次卷积和一次池化,获取第二结果。
基于上述实施例,将16*256的特征图像依次输入至第二卷积层112、第三卷积层113和第二池化层122,其中,第二卷积层112和第三卷积层113的内核尺寸为3*3,卷积步长为1*1,第二池化层122的内核尺寸为2*2,池化步长为2*2。对16*256的特征图像进行两次卷积后仍然形成16*256的特征图像,第二池化层122对16*256的特征图像进行降维后形成8*128的特征图像,实现特征图像的第二次降维。
S230,对所述第二结果进行四次卷积和一次池化,获取第三结果。
基于上述实施例,将8*128的特征图像依次输入至第四卷积层114、第五卷积层115、第六卷积层116、第七卷积层117和第三池化层123,其中,第四卷积层114、第五卷积层115、第六卷积层116、第七卷积层117的内核尺寸为3*3,卷积步长为1*1,第三池化层123的内核尺寸为2*1,池化步长为2*1。对8*128的特征图像进行四次卷积后仍然形成8*128的特征图像,第三池化层123对8*128的特征图像进行降维后形成4*128的特征图像,保留了更多宽度方向的信息,实现特征图像的第三次降维。
S240,对所述第三结果进行两次卷积和一次池化,获取第四结果。
基于上述实施例,将4*128的特征图像依次输入至第八卷积层118、第九卷积层119和第四池化层124,其中,第八卷积层118和第九卷积层119的内核尺寸为3*3,卷积步长为1*1,第四池化层124的内核尺寸为2*1,池化步长为2*1。对4*128的特征图像进行两次卷积后仍然形成4*128的特征图像,第四池化层124对4*128的特征图像进行降维后形成2*128的特征图像,保留了更多宽度方向的信息,实现特征图像的第四次降维。
S250,对所述第四结果进行一次卷积,获取所述待识别文本图像对应的特征序列。
基于上述实施例,将2*128的特征图像输入至第十卷积层1110,其中,第十卷积层1110的内核尺寸为3*3,卷积步长为2*1。对2*128的特征图像进行最后一次卷积,最终形成1*128的特征序列。根据同一个特征序列,既可以获取特征序列中每个特征对应的文字内容也可以获取每个特征对应标记符号,也就是说文字内容识别和标记符号识别共用特征序列,即文字内容识别和标记符号识别共用CNN模型,能够降低识别过程中的计算量,提高识别效率。
可选地,图4为本发明实施例提供的又一种文本的识别方法的流程示意图,如图4所示,执行S120的一种实施方式,包括:
S121,根据所述特征序列,获取所述特征序列中每个特征对应的文字概率矩阵。
具体地,每个特征对应待识别文本图像中的局部视野,对于局部视野的识别会产生多种可能的文字内容,且每种可能的文字内容对应不同的概率值,这些可能的文字内容的概率值则构成文字概率矩阵。通过对特征序列中每个特征进行计算,能够获取特征序列中每个特征对应的文字概率矩阵。
示例性地,特征序列中第10个特征对应的文字内容可能为“万”、“乃”或“同”,其中,第10个特征对应的文字内容为“万”的概率为0.8、“乃”的概率为0.12、“同”的概率为0.08,0.8、0.12和0.08组成的矩阵为第10个特征对应的文字概率矩阵。
S122,根据所述文字概率矩阵中最大概率值对应的文字内容,获取所述每个特征对应的文字内容。
示例性地,基于上述实施例,文字概率矩阵中最大概率值为0.8,0.8对应的文字内容为“万”,则将“万”作为第10个特征对应的文字内容,据此获取所有特征对应的文字内容。将文字概率矩阵中最大概率值对应的文字内容作为特征对应的文字内容,能够提高识别文字内容的准确度。
可选地,作为执行S121的一种实施方式,包括:
对特征序列进行双向长短时记忆传播,分别获取每个特征对应的文字概率矩阵和标记符号概率矩阵。
具体地,将特征序列输入至循环神经网络(Recurrent Neural Network,RNN)模型,例如RNN模型可以是两层双向长短时记忆(Bi-directional Long Short-Term Memory,Bi-LSTM)网络模型,其中,隐藏层为256层。
特征序列中每个特征对应多种可能的标记符号,且每种可能的标记符号对应不同的概率值,这些可能的标记符号的概率值则构成标记符号概率矩阵。将特征序列输入至同一个RNN模型,该RNN模型能够输出特征序列中每个特征对应的文字概率矩阵和标记符号概率矩阵,也就是说通过一个RNN模型能够获取文字概率矩阵和标记符号概率矩阵,即文字内容识别和标记符号识别共用RNN模型,能够降低识别过程中的计算量,提高识别效率。
可选地,图5为本发明实施例提供的又一种文本的识别方法的流程示意图,如图5所示,执行S130的一种实施方式,包括:
S131,根据特征组和所述文字内容的对应关系,以及所述每个特征对应的标记符号概率矩阵,获取所述特征组对应的标记符号概率矩阵。
具体地,特征组包括至少一个特征,每个特征对应有标记符号概率矩阵,将特征组内的特征对应的标记符号概率矩阵作为特征组对应的标记符号概率矩阵。例如:基于上述实施例,第27个特征对应的标记符号概率矩阵为0.8、0.1和0.1组成的矩阵,其中,标记符号为1的概率为0.8,标记符号为0的概率为0.1,标记符号为2的概率为0.1,第27个特征对应的标记符号概率矩阵即为第三特征组对应的标记符号概率矩阵。
S132,根据所述特征组对应的标记符号概率矩阵中最大概率值对应的标记符号,获取所述特征组对应的标记符号。
基于上述实施例,第三特征组对应的标记符号概率矩阵中的最大概率值为0.8,则将标记符号1作为第三特征组对应的标记符号,据此获取所有特征组对应的标记符号。将标记符号概率矩阵中最大概率值对应的标记符号作为特征组对应的标记符号,能够提高识别标记符号的准确度。
可选地,图6为本发明实施例提供的又一种文本的识别方法的流程示意图,如图6所示,执行S132之后,还包括:
S310,根据所述特征组和所述文字内容的对应关系,获取首个文字内容对应的特征组。
S320,根据所述特征组对应的标记符号概率矩阵,以及所述首个文字内容对应的特征组,获取所述首个文字内容对应的标记符号概率矩阵。
S330,若所述首个文字内容对应的标记符号概率矩阵中的目标概率值大于等于概率阈值,调整所述首个文字内容对应的标记符号。
所述目标概率值为首个文字内容无标记符号的概率值之外的概率值。
具体地,由于Bi-LSTM的记忆特性,待识别文本图像中的首个文字内容对应的标记符号可能没有识别出来,此时,首个文字内容与标记符号0对应,即首个文字内容对应的标记符号概率矩阵中最大概率值与标记符号0对应。
首先确定首个文字内容,再根据文字内容和特征组的对应关系,确定首个文字内容对应的特征组。根据首个文字内容对应的特征组,以及特征组和标记符号概率矩阵的对应关系,得到首个文字内容对应的标记符号概率矩阵。将首个文字内容对应的标记符号概率矩阵中除标记符号为0的概率值之外的概率值与概率阈值进行比较,若前者大于等于后者,则将前者对应的标记符号作为首个文字内容对应的标记符号。
示例性地,基于上述实施例,首个文字内容为“万”,“万”与第一特征组对应,第一特征组对应的标记符号概率矩阵为0.4、0.26和0.34组成的概率矩阵,其中0.4对应标记符号0的概率值,0.26对应标记符号1的概率值,0.34对应标记符号2的概率值,此时,首个文字内容及其对应的标记符号的识别结果为(万,0),显然首个文字内容对应的标记符号没有识别出来。将第一特征组对应的标记符号概率矩阵中标记符号1的概率值与标记符号2的概率值分别与概率阈值0.3进行比较,其中,0.26小于0.3且0.34大于0.3,因此,将0.34对应的标记符号,即标记符号2作为首个文字内容对应的标记符号,调整后的首个文字内容及其对应的标记符号的识别结果为(万,2)。
综上所述,本发明实施例提供的技术中,通过将首个文字内容对应的标记符号概率矩阵中标记符号为非0的概率值与概率阈值进行比较,对首个文字内容对应的标记符号进行修正,能够避免待识别文本图像中的首个文字内容对应的标记符号没有识别出来,提高识别结果的准确性。
可选地,执行S330时,具体包括:
若所述首个文字内容对应的标记符号概率矩阵中的第一标记符号概率值大于等于第二标记符号概率值,将第一标记符号确定为所述首个文字内容对应的标记符号。
具体地,若首个文字内容对应的标记符号概率矩阵中的第一标记符号概率值和第二标记符号概率值均大于概率阈值时,将第一标记符号概率值和第二标记符号概率值进行比较,确定两者中较大概率值对应的标记符号为首个文字内容对应的标记符号。
示例性地,基于上述实施例,标记符号1的概率值0.26与标记符号2的概率值0.34分别与概率阈值0.2进行比较,显然,标记符号1的概率值与标记符号2的概率值均大于概率阈值0.2。此时,比较标记符号1的概率值0.26与标记符号2的概率值0.34,显然,标记符号2的概率值0.34大于标记符号1的概率值0.26,因此,确定标记符号2为首个文字内容对应的标记符号。
可选地,在执行S110之前,还包括:
对所述文本图像进行预处理,获取所述待识别文本图像,其中,所述待识别文本图像的高度为2的倍数。
具体地,文本图像来自于图像采集装置,为了适配网络的输入,对文本图像进行尺度归一化的预处理,形成待识别文本图像。由于待识别文本图像需要经过后续的卷积和池化,最终产生高度为1的特征序列,因此将其高度设置为2的倍数。
本发明实施例还提供了一种文本的识别装置,用于实现上述实施例提供的任一种文本的识别方法。
图7为本发明实施例提供的一种文本的识别装置的结构示意图,如图7所示,文本的识别装置包括:
特征序列获取模块210,用于接收待识别文本图像,获取所述待识别文本图像对应的特征,其中,所述待识别文本图像包括:文字内容和标记符号。
关系建立模块220,用于获取所述特征序列中每个特征对应的文字内容,建立所述特征组和所述文字内容和特征序列组的对应关系,其中,一个特征组包含至少一个特征,一个特征组内的特征对应同一个文字内容。
标记符号获取模块230,用于根据所述特征组和所述文字内容和特征序列组的对应关系,获取所述特征组对应的标记符号。
关系获取模块240,用于根据所述特征组和所述文字内容和特征序列组的对应关系,以及所述特征组对应的标记符号,获取所述文字内容和所述标记符号的对应关系。
识别结果输出模块250,用于根据所述文字内容和所述标记符号的对应关系输出识别结果。
具体地,对上述含有标记符号的文本进行识别时,首先需要获取含有标记符号的文本的图像,即待识别文本图像,对待识别文本图像进行识别时,特征序列获取模块210接收待识别文本图像,并提取待识别文本图像的多个局部特征,也可以称之为特征,这些特征组成待识别文本图像的特征序列,从而能够获取到待识别文本图像对应的特征序列。关系建立模块220根据特征序列获取特征序列中每个特征对应的文字内容时,可能会有多个特征对应同一个文字内容,将与同一个文字内容对应的多个特征组成一个特征组,从而建立了特征组和文字内容的对应关系。标记符号获取模块230根据特征序列,获取特征序列中每个特征对应的标记符号,一个特征组内的特征对应同一个文字内容,则一个特征组内的特征也对应同一个标记符号,据此可以获取特征组对应的标记符号。关系获取模块240根据文字内容和特征组的对应关系,以及特征组对应的标记符号,确定同一个特征组对应的文字内容和标记符号,故而建立了文字内容和标记符号的对应关系。识别结果输出模块250将文字内容和其对应的标记符号以结果对的形式输出,完成含有标记符号的文本的识别。
本发明实施例提供的技术方案中,通过特征序列获取模块210接收待识别文本图像,获取待识别文本图像对应的特征序列,其中,待识别文本图像包括:文字内容和标记符号;关系建立模块220获取特征序列中每个特征对应的文字内容,建立特征组和文字内容的对应关系,其中,一个特征组包括至少一个特征,一个特征组内的特征对应同一个文字内容;标记符号获取模块230根据特征组和文字内容的对应关系,获取特征组对应的标记符号;关系获取模块240根据特征组和文字内容的对应关系,以及特征组对应的标记符号,获取文字内容和标记符号的对应关系;识别结果输出模块250根据文字内容和标记符号的对应关系输出识别结果,在识别过程中能够建立文字内容和标记符号的对应关系,从而实现普通文本与标记符号的对齐。
需要说明的是,在本文中,诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上所述仅是本公开的具体实施方式,使本领域技术人员能够理解或实现本公开。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本公开的精神或范围的情况下,在其它实施例中实现。因此,本公开将不会被限制于本文所述的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
Claims (10)
1.一种文本的识别方法,其特征在于,包括:
接收待识别文本图像,获取所述待识别文本图像对应的特征序列,其中,所述待识别文本图像包括:文字内容和标记符号;
获取所述特征序列中每个特征对应的文字内容,建立特征组和所述文字内容的对应关系,其中,一个所述特征组包括至少一个特征,一个所述特征组内的特征对应同一个文字内容;
根据所述特征组和所述文字内容的对应关系,获取所述特征组对应的标记符号;
根据所述特征组和所述文字内容的对应关系,以及所述特征组对应的标记符号,获取所述文字内容和所述标记符号的对应关系;
根据所述文字内容和所述标记符号的对应关系输出识别结果。
2.根据权利要求1所述的文本的识别方法,其特征在于,所述获取所述待识别文本图像对应的特征序列,包括:
对所述待识别文本图像进行多次卷积和多次池化,获取所述待识别文本图像对应的特征序列。
3.根据权利要求2所述的文本的识别方法,其特征在于,所述对所述待识别文本图像进行多次卷积和多次池化,获取所述待识别文本图像对应的特征序列,包括:
对所述待识别文本图像进行一次卷积和一次池化,获取第一结果;
对所述第一结果进行两次卷积和一次池化,获取第二结果;
对所述第二结果进行四次卷积和一次池化,获取第三结果;
对所述第三结果进行两次卷积和一次池化,获取第四结果;
对所述第四结果进行一次卷积,获取所述待识别文本图像对应的特征序列。
4.根据权利要求1-3任一项所述的文本的识别方法,其特征在于,所述获取所述特征序列中每个特征对应的文字内容,包括:
根据所述特征序列,获取所述特征序列中每个特征对应的文字概率矩阵;
根据所述文字概率矩阵中最大概率值对应的文字内容,获取所述每个特征对应的文字内容。
5.根据权利要求4所述的文本的识别方法,其特征在于,所述获取所述特征序列中每个特征对应的文字概率矩阵,包括:
对所述特征序列进行双向长短时记忆传播,获取所述每个特征对应的文字概率矩阵和标记符号概率矩阵。
6.根据权利要求5所述的文本的识别方法,其特征在于,所述根据所述特征组和所述文字内容的对应关系,获取所述特征组对应的标记符号,包括:
根据所述特征组和所述文字内容的对应关系,以及所述每个特征对应的标记符号概率矩阵,获取所述特征组对应的标记符号概率矩阵;
根据所述特征组对应的标记符号概率矩阵中最大概率值对应的标记符号,获取所述特征组对应的标记符号。
7.根据权利要求6所述的文本的识别方法,其特征在于,所述获取所述特征组对应的标记符号之后,还包括:
根据所述特征组和所述文字内容的对应关系,获取首个文字内容对应的特征组;
根据所述特征组对应的标记符号概率矩阵,以及所述首个文字内容对应的特征组,获取所述首个文字内容对应的标记符号概率矩阵;
若所述首个文字内容对应的标记符号概率矩阵中的目标概率值大于等于概率阈值,调整所述首个文字内容对应的标记符号,所述目标概率值为首个文字内容无标记符号的概率值之外的概率值。
8.根据权利要求7所述的文本的识别方法,其特征在于,所述调整所述首个文字内容对应的标记符号,包括:
若所述首个文字内容对应的标记符号概率矩阵中的第一标记符号概率值大于等于第二标记符号概率值,将第一标记符号确定为所述首个文字内容对应的标记符号。
9.根据权利要求1所述的文本的识别方法,其特征在于,所述获取所述待识别文本图像对应的特征序列之前,还包括:
对所述文本图像进行预处理,获取所述待识别文本图像,其中,所述待识别文本图像的高度为2的倍数。
10.一种文本的识别装置,其特征在于,包括:
特征序列获取模块,用于接收待识别文本图像,获取所述待识别文本图像对应的特征序列,其中,所述待识别文本图像包括:文字内容和标记符号;
关系建立模块,用于获取所述特征序列中每个特征对应的文字内容,建立特征组和所述文字内容的对应关系,其中,一个所述特征组包括至少一个特征,一个所述特征组内的特征对应同一个文字内容;
标记符号获取模块,用于根据所述特征组和所述文字内容的对应关系,获取所述特征组对应的标记符号;
关系获取模块,用于根据所述特征组和所述文字内容的对应关系,以及所述特征组对应的标记符号,获取所述文字内容和所述标记符号的对应关系;
识别结果输出模块,用于根据所述文字内容和所述标记符号的对应关系输出识别结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110323752.1A CN112712072B (zh) | 2021-03-26 | 2021-03-26 | 文本的识别方法和识别装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110323752.1A CN112712072B (zh) | 2021-03-26 | 2021-03-26 | 文本的识别方法和识别装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112712072A true CN112712072A (zh) | 2021-04-27 |
CN112712072B CN112712072B (zh) | 2021-07-23 |
Family
ID=75550243
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110323752.1A Active CN112712072B (zh) | 2021-03-26 | 2021-03-26 | 文本的识别方法和识别装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112712072B (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107358227A (zh) * | 2017-06-29 | 2017-11-17 | 努比亚技术有限公司 | 一种标记识别方法、移动终端以及计算机可读存储介质 |
CN110619325A (zh) * | 2018-06-20 | 2019-12-27 | 北京搜狗科技发展有限公司 | 一种文本识别方法及装置 |
WO2020034154A1 (zh) * | 2018-08-16 | 2020-02-20 | 朱小军 | 一种作用于仿生数据细胞体的数据蛋白 |
CN111709420A (zh) * | 2020-06-18 | 2020-09-25 | 北京易真学思教育科技有限公司 | 文本检测方法、电子设备及计算机可读介质 |
-
2021
- 2021-03-26 CN CN202110323752.1A patent/CN112712072B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107358227A (zh) * | 2017-06-29 | 2017-11-17 | 努比亚技术有限公司 | 一种标记识别方法、移动终端以及计算机可读存储介质 |
CN110619325A (zh) * | 2018-06-20 | 2019-12-27 | 北京搜狗科技发展有限公司 | 一种文本识别方法及装置 |
WO2020034154A1 (zh) * | 2018-08-16 | 2020-02-20 | 朱小军 | 一种作用于仿生数据细胞体的数据蛋白 |
CN111709420A (zh) * | 2020-06-18 | 2020-09-25 | 北京易真学思教育科技有限公司 | 文本检测方法、电子设备及计算机可读介质 |
Also Published As
Publication number | Publication date |
---|---|
CN112712072B (zh) | 2021-07-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Ahmed et al. | Handwritten Urdu character recognition using one-dimensional BLSTM classifier | |
CN111160352B (zh) | 一种基于图像分割的工件金属表面文字识别方法及系统 | |
CN107133622B (zh) | 一种单词的分割方法和装置 | |
CN110490081B (zh) | 一种基于聚焦权重矩阵与变尺度语义分割神经网络的遥感对象解译方法 | |
US20120134576A1 (en) | Automatic recognition of images | |
US11790675B2 (en) | Recognition of handwritten text via neural networks | |
Yousfi et al. | ALIF: A dataset for Arabic embedded text recognition in TV broadcast | |
CN111639648B (zh) | 证件识别方法、装置、计算设备和存储介质 | |
CN106446954A (zh) | 一种基于深度学习的字符识别方法 | |
CN108681735A (zh) | 基于卷积神经网络深度学习模型的光学字符识别方法 | |
Bai et al. | Keyword spotting in document images through word shape coding | |
CN112508011A (zh) | 一种基于神经网络的ocr识别方法及设备 | |
US7136526B2 (en) | Character string recognition apparatus, character string recognizing method, and storage medium therefor | |
Hossain et al. | Recognition and solution for handwritten equation using convolutional neural network | |
CN110458162B (zh) | 一种智能提取图像文字信息的方法 | |
CN112686263B (zh) | 文字识别方法、装置、电子设备及存储介质 | |
CN112712072B (zh) | 文本的识别方法和识别装置 | |
JPH06282686A (ja) | 文字認識方法 | |
Al Ghamdi | A novel approach to printed Arabic optical character recognition | |
Ovodov | Optical Braille recognition using object detection CNN | |
CN114092931B (zh) | 场景文字识别方法、装置、电子设备及存储介质 | |
CN114612911B (zh) | 笔画层级手写字符序列识别方法、装置、终端及存储介质 | |
US20150193900A1 (en) | Composite device and application process and apparatus thereof | |
CN112990210A (zh) | 一种基于二维空间注意力的车牌识别方法 | |
Shetty et al. | Transliteration of text input from Kannada to Braille and vice versa |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |