CN115937875A - 文本识别方法及装置、存储介质、终端 - Google Patents

文本识别方法及装置、存储介质、终端 Download PDF

Info

Publication number
CN115937875A
CN115937875A CN202111161555.0A CN202111161555A CN115937875A CN 115937875 A CN115937875 A CN 115937875A CN 202111161555 A CN202111161555 A CN 202111161555A CN 115937875 A CN115937875 A CN 115937875A
Authority
CN
China
Prior art keywords
text
image
images
character
target scene
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111161555.0A
Other languages
English (en)
Inventor
张子也
何思清
沈晓静
赵雪娇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Fudan Microelectronics Group Co Ltd
Original Assignee
Shanghai Fudan Microelectronics Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Fudan Microelectronics Group Co Ltd filed Critical Shanghai Fudan Microelectronics Group Co Ltd
Priority to CN202111161555.0A priority Critical patent/CN115937875A/zh
Publication of CN115937875A publication Critical patent/CN115937875A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Image Analysis (AREA)

Abstract

一种文本识别方法及装置、存储介质、终端,所述方法还包括:获取多个随机文本内容和属性特征信息;根据所述多个随机文本内容和所述属性特征信息,生成图像样本集,其中,所述图像样本集包括多张文本图像;采用图像样本集对预设模型进行训练,以得到文本识别模型;采用所述文本识别模型对待识别图像进行识别,以确定所述待识别图像中的识别结果,其中,所述待识别图像为所述目标场景下的图像。通过本发明的方案,可以提高文本识别的准确率。

Description

文本识别方法及装置、存储介质、终端
技术领域
本发明涉及文本识别技术领域,尤其涉及一种文本识别方法及装置、存储介质、终端。
背景技术
文本识别是计算机视觉领域目前研究的主要问题之一,且在实际生产生活中有着广泛的应用场景。文本识别的结果通常作为下游任务模块的输入,以执行其他任务,例如,下游任务模块可以是发票识别模块、产品信息录入模块、产品出入库信息管理模块等等,因此,对于文本识别结果的准确性要求越来越高。
因此,亟需一种文本识别方法,能够提高文本识别的准确度。
发明内容
本发明解决的技术问题是如何提高文本识别的准确度。
为解决上述技术问题,本发明实施例提供一种文本识别方法,所述方法包括:获取多个随机文本内容和属性特征信息,其中,每个随机文本内容包括至少一个字符,所述属性特征信息用于描述所述至少一个字符在目标场景下的图像中的特征,其中,所述字符为所述目标场景下需要识别的字符;根据所述多个随机文本内容和所述属性特征信息,生成图像样本集,其中,所述图像样本集包括多张文本图像;采用所述图像样本集对预设模型进行训练,以得到文本识别模型;采用所述文本识别模型对待识别图像进行识别,以确定所述待识别图像中的识别结果,其中,所述待识别图像为所述目标场景下的图像。
可选的,获取所述属性特征信息包括:获取所述目标场景下的多张第一样本图像,其中,每张第一样本图像包括标注出的文本内容,所述文本内容包括至少一个字符;根据所述多张第一样本图像,计算得到所述属性特征信息。
可选的,所述属性特征信息包括以下一项或多项:字符的字体类型范围、字符的大小范围、字符的个数范围、字符之间的间距范围、字符的倾斜角度范围、字符的弯曲角度范围和字符与背景之间的对比度范围。
可选的,所述属性特征信息包括字符特征信息,所述字符特征信息用于描述所述目标场景下的图像中字符本身的特征,根据所述多个随机文本内容和所述属性特征信息,生成图像样本集包括:对于每个随机文本内容,根据所述字符属性特征信息,生成该随机文本内容对应的多张第一文本图像;基于所述多张第一文本图像生成所述图像样本集。
可选的,所述属性特征信息包括字符特征信息,所述字符特征信息用于描述所述目标场景下的图像中字符本身的特征,根据所述多个随机文本内容和所述属性特征信息,生成图像样本集包括:对于每个随机文本内容,根据所述字符属性特征信息,生成该随机文本内容对应的多张第一文本图像;获取所述目标场景下的多张背景图像;对于每张第一文本图像,将该第一文本图像与至少一张背景图像结合,以得到多张第二文本图像;基于所述多张第二文本图像生成所述图像样本集。
可选的,所述属性特征信息包括字符特征信息和对比度信息,所述字符特征信息用于描述所述目标场景下的图像中字符本身的特征,所述对比度信息用于描述所述目标场景下的图像中字符与背景的对比度,根据所述多个随机文本内容和所述属性特征信息,生成图像样本集包括:对于每个随机文本内容,根据所述字符属性特征信息,生成该随机文本内容对应的多张第一文本图像;获取所述目标场景下的多张背景图像;对于每张第一文本图像,将该第一文本图像与至少一张背景图像结合,以得到多张第二文本图像;根据所述对比度信息对每张第二文本图像进行处理,以得到多张第三文本图像;基于所述多张第三文本图像生成所述图像样本集。
可选的,所述图像样本集还包括所述目标场景下的多张背景图像。
可选的,所述图像样本集包括多张训练样本图像,多张训练样本图像包括所述多张文本图像,所述多张训练样本图像具有文本内容标签和文本位置标签,采用图像样本集对预设模型进行训练包括:将所述多张训练样本图像输入所述预设模型,以得到所述多张训练样本图像的分类预测结果和位置预测结果;根据所述文本内容标签和所述分类预测结果计算分类损失,并根据所述文本位置标签和所述位置预测结果计算位置损失;根据所述分类损失和所述位置损失更新所述预设模型。
可选的,所述文本位置标签为位置热力图,所述预设模型包括特征提取模块和注意力模块,其中,所述特征提取模块用于提取所述训练样本图像的初始特征图,所述注意力模块用于基于注意力机制对所述初始特征图进行注意力提取,以得到注意力热力图,其中,所述位置预测结果为所述注意力热力图,所述分类预测结果是根据融合后的特征图计算得到的,所述融合后的特征图是根据所述注意力热力图和所述初始特征图融合处理后得到的。
可选的,采用所述文本识别模型对待识别图像进行识别之前,所述方法还包括:获取所述目标场景下的多张测试图像;将所述多张测试图像输入所述文本识别模型,以得到多张测试图像的识别结果;根据所述多张测试图像的文本内容标签和识别结果,确定困难样本的特征;根据所述困难样本的特征,获取所述目标场景下的多张第二样本图像,所述多张第二样本图像具有文本内容标签;根据所述多张第二样本图像对所述文本识别模型进行训练,以更新所述文本识别模型,并将更新后的文本识别模型作为所述文本识别模型。
本发明实施例还提供一种文本识别装置,所述装置包括:获取模块,用于获取多个随机文本内容和属性特征信息,其中,每个随机文本内容包括至少一个字符,所述属性特征信息用于描述所述至少一个字符在所述目标场景下图像中的特征,其中,所述字符为所述目标场景下需要识别的字符;样本生成模块,用于根据所述多个随机文本内容和所述属性特征信息,生成图像样本集,其中,所述图像样本集包括多张文本图像;训练模块,用于采用所述图像样本集对预设模型进行训练,以得到文本识别模型;识别模块,用于采用所述文本识别模型对待识别图像进行识别,以确定所述待识别图像中的识别结果,其中,所述待识别图像为所述目标场景下的图像。
本发明实施例还提供一种存储介质,其上存储有计算机程序,所述计算机程序被处理器运行时,执行上述的文本识别方法的步骤。
本发明实施例还提供一种终端,包括存储器和处理器,所述存储器上存储有可在所述处理器上运行的计算机程序,所述处理器运行所述计算机程序时执行上述的文本识别方法的步骤。
与现有技术相比,本发明实施例的技术方案具有以下有益效果:
在本发明实施例的方案中,先根据多个随机文本内容和属性特征信息生成图像样本集,再采用图像样本集中的文本图像对预设模型进行训练,以得到文本识别模型,然后可以采用文本识别模型识别目标场景下的待识别图像中的文本内容。采用这样的方案时,由于随机文本内容包括至少一个目标场景下需要识别的字符,且属性特征信息用于描述字符在目标场景下的图像中的特征,因此,根据多个随机文本内容和属性特征信息生成的图像样本集中的文本图像既包含目标场景下字符的内容,又包含目标场景下字符的特征,由于图像样本集中每两张文本图像中包括的字符不同和/或包括的字符的特征不同,因此采用这样的图像样本集对预设模型进行训练,训练得到的文本识别模型具备目标场景下的文本识别能力。与现有技术相比,本发明实施例的方案中通过生成针对目标场景的图像样本集来训练预设模型,以得到用于目标场景的文本识别模型,无需对大量的图像进行标注的过程,因此可以快速高效地得到用于目标场景的文本识别模型。此外,还避免了无关数据对于模型学习的干扰,因此采用该文本识别模型进行目标场景下的文本识别的准确度更高。
进一步,在本发明实施例的方案中,根据字符属性特征信息,生成多张第一文本图像,还获取目标场景下的多张背景图像,对于每张第一文本图像与至少一张背景图像结合,以得到多张第二文本图像,再基于多张第二文本图像生成图像样本集。采用这样的方案,可以使图像样本集中的文本图像的背景也具有目标场景下图像的特征,采用这样的图像样本集对预设模型进行训练,可以使模型充分学习目标场景中图像的特征,利于提高识别的准确度。
进一步地,在本发明实施例的方案中,属性特征信息除了包含用于描述字符本身特征的字符属性特征信息,还包括对比度信息。由于对比度信息用于描述目标场景下字符与背景的对比度,因此根据对比度信息对第二文本图像进行处理得到的第三文本图像更加符合目标场景中图像的特征,也即,更加贴近目标场景下的真实图像,采用这样的图像样本集对预设模型进行训练,可以使模型充分学习目标场景中图像的特征,利于提高识别的准确度。
进一步地,本发明实施例的方案中,图像样本集还包括多张背景图像,也即,还采用多张背景图像对预设模型进行训练,以得到文本识别模型。与现有技术中通常只关注包含文本内容的正样本的方案相比,本发明实施例的方案中还将不包含文本内容的负样本(也即,背景图像)作为训练数据对预设模型进行训练,采用这样的方案可以使文本识别模型对目标场景下的背景的特征进行充分的学习,避免文本识别模型误将背景识别为文本的情况,利于进一步提高文本识别的准确性。
进一步地,考虑到注意力机制容易产生漂移,而文本识别的过程是基于时间顺序依次对文本中的字符逐个进行识别的,上一个字符的识别结果会影响下一个字符的识别结果,因此识别长文本时因累积误差容易导致识别的准确度较差。相比于现有技术中只根据分类损失更新模型的方案,本发明实施例的方案中,在训练预设模型的过程中,不仅计算分类损失,还计算位置损失,同时根据位置损失和分类损失更新预设模型,换言之,分类约束的基础上增加了位置约束,可以进一步提高文本识别的准确性。
进一步地,本发明实施例的方案中,在采用文本识别模型对待识别图像之前,先采用测试图像对文本识别模型进行评估。具体而言,根据文本识别模型对测试图像的识别结果确定困难样本的特征,再根据困难样本的特征再选取对应的第二样本图像对文本识别模型进行训练,使得通过具有困难样本的特征的样本图像对文本识别模型进行微调,以进一步地提高文本识别模型在目标场景下的识别能力,也即进一步提高文本识别的准确性。
附图说明
图1是本发明实施例中一种文本识别方法的流程示意图;
图2是图1中步骤S102的第一种具体实施方式的流程示意图;
图3是图1中步骤S102的第二种具体实施方式的流程示意图;
图4是图1中步骤S102的第三种具体实施方式的流程示意图;
图5是图1中步骤S103的一种具体实施方式的流程示意图;
图6是本发明实施例中一种预设模型的结构示意图;
图7是本发明实施例中另一种文本识别方法的部分流程示意图;
图8是本发明实施例中一种文本识别装置的结构示意图。
具体实施方式
如背景技术所述,亟需一种文本识别方法,能够提高文本识别的准确度。
本发明的发明人经过研究发现,针对一个具体的业务场景下的文本识别任务,现有技术中,通常采用以下几种方案:
(1)针对该业务场景,预先对该业务场景下大量的样本图像标注,并将标注后的样本图像作为训练数据,然后基于深度学习的方法得到文本识别模型,并采用该文本识别模型进行识别。
采用这样的方案时,由于深度学习的方法依赖于海量的训练数据,其数据量至少需要百万级别,并且现有技术中通常通过人工标注的方式对样本图像进行标注,因此采用这样的方案会耗费大量的时间,效率较低,成本较高。
(2)选取已有的开源数据集中的样本图像作为训练数据,对模型进行第一步的训练,在第一步的训练中使模型具备较为泛化的特征提取能力,也即,使模型学习到“什么是字”;然后采集该业务场景下的样本图像并对其进行标注,并采用标注后的该业务场景下的样本图像对经过第一步训练得到的模型再次进行训练,使得模型能够具备针对该业务场景的识别能力。
采用这样的方案时,由于已有的开源数据集中样本图像通常包含非常复杂的文本内容,可能远超所针对的业务场景的需求,换言之,用于训练预设模型的样本图像可能会包含大量与业务场景无关的特征,这样的训练数据容易对模型产生误导,从而使得训练得到的文本识别模型在对实际业务场景下图像进行文本识别时准确度较差。此外,已有的开源数据集中的文本内容通常是常用或常规的单词等内容,可能不能覆盖该业务场景下需要识别的字符(例如,☆、@等等),导致训练后的文本识别模型无法识别出这些字符,识别的准确度较差。另外,开源数据集通常类别不均衡,也即不同字符出现的次数不一样,出现次数较少的字符很可能识别不好。
(3)现有技术中文本识别模型通常采用基于注意力机制的解码器,由于注意力机制容易产生漂移的问题,文本识别模型对于长文本的识别效果仍然较差。
由上,针对特定的业务场景下的文本识别任务,如何快速、高效地构建文本识别模型且提高文本识别的准确度是亟待解决的问题。
为了解决上述技术问题,本发明实施例提供一种文本识别方法。在本发明实施例的方案中,在本发明实施例的方案中,先根据多个随机文本内容和属性特征信息生成图像样本集,再采用图像样本集中的文本图像对预设模型进行训练,以得到文本识别模型,然后可以采用文本识别模型识别目标场景下的待识别图像中的文本内容。采用这样的方案时,由于随机文本内容包括至少一个目标场景下需要识别的字符,且属性特征信息用于描述字符在目标场景下的图像中的特征,因此,根据多个随机文本内容和属性特征信息生成的图像样本集中的文本图像既包含目标场景下字符的内容,又包含目标场景下字符的特征,由于图像样本集中每两张文本图像中包括的字符不同和/或包括的字符的特征不同,因此采用这样的图像样本集对预设模型进行训练,训练得到的文本识别模型具备目标场景下的文本识别能力。与现有技术相比,本发明实施例的方案中通过生成针对目标场景的图像样本集来训练预设模型,以得到用于目标场景识别的文本识别模型,无需对大量的图像进行标注的过程,因此可以快速高效地得到用于目标场景的文本识别模型。此外,还避免了无关数据对于模型学习的干扰,因此采用该文本识别模型进行目标场景下的文本识别的准确度更高。
为使本发明的上述目的、特征和有益效果能够更为明显易懂,下面结合附图对本发明的具体实施例做详细的说明。
参照图1,图1是本发明实施例中一种文本识别方法的流程示意图。所述方法可以由终端执行,所述终端可以是各种现有的具有数据接收和处理能力的终端设备,例如,可以是手机、电脑、平台电脑、物联网设备和服务器等,但并不限于此。通过图1示出的文本识别方法,无需对目标场景下大量的文本图像进行标注,可以快速、高效地生成用于目标场景的文本识别模型,采用该文本识别模型对目标场景的待识别图像进行文本识别时,准确度更高。其中,目标场景可以是任意的业务场景。图1示出的文本识别方法可以包括以下步骤:
步骤S101:获取多个随机文本内容和属性特征信息;
步骤S102:根据所述多个随机文本内容和所述属性特征信息,生成图像样本集;
步骤S103:采用图像样本集对预设模型进行训练,以得到文本识别模型;
步骤S104:采用所述文本识别模型对待识别图像进行识别,以确定所述待识别图像中的识别结果。
可以理解的是,在具体实施中,所述方法可以采用软件程序的方式实现,该软件程序运行于芯片或芯片模组内部集成的处理器中;或者,该方法可以采用硬件或者软硬结合的方式来实现。
在步骤S101的具体实施中,可以获取多个随机文本内容,每个随机文本内容包括至少一个字符,所述字符可以是目标场景中需要识别的字符。其中,所述目标场景可以是具有文本识别需求的实际业务场景。在一个具体的例子中,目标场景为自动识别轮胎上的编号。
需要说明的是,本发明实施例中的目标场景区别于通用或常规的业务场景,目标场景下需要识别的文本内容与通用或常规的业务场景下需要识别出的文本内容或字符通常具有较大的差异,或者,目标场景下的图像的特征与通用或常规的业务场景下的图像的特征有较大的差异。例如,在自动识别轮胎上的编号的场景中,图像中的文本内容和背景的对比度通常比较低,而车牌识别的场景中,图像中的文本内容和背景的对比度通常比较高。
进一步地,所述字符可以是字母、数字、符号等等,但并不限于此。在一个具体的例子中,字符可以包括:英文字母、数字和预先设置的多个特殊符号,例如:@、☆、△等等。
其中,多个随机文本内容可以是从外部获取的,也可以是预先存储在本地的数据集中的。在一个具体的例子中,可以是先获取目标场景下需要识别的至少一个字符,然后再根据至少一个字符随机生成多个随机文本内容。换言之,每个随机文本内容可以为一个或多个字符经过随机的排列组合后得到的字符串。由此,随机文本内容可以具有目标场景下待识别的文本的内容特征。
进一步地,还可以获取属性特征信息,所述属性特征信息用于描述字符在目标场景下的特征,其中,所述特征既可以是字符本身的特征,例如,字符的大小、倾斜角度、字体类型等等,还可以是字符与背景之间特征等,例如,可以是字符与背景的对比度、字符在图像中所处的位置等等,但并不限于此。
在一个具体的例子中,可以获取目标场景下的多张第一样本图像,每张第一样本图像包括标注出的文本内容,换言之,每张第一样本图像的文本内容包括至少一个字符。进一步地,第一样本图像具有文本内容标签和文本位置标签,所述文本内容标签用于指示图像中的文本中的各个字符,文本位置标签用于指示文本内容中各个字符的位置。
其中,第一样本图像上的文本内容标签可以是预先标注在第一样本图像上的,也可以是在终端获取第一样本图像后对第一样本图像进行操作后得到的,例如,可以由人工在第一样本图像上进行标注,还可以由终端自动地在第一样本图像上进行标注的,但并不限于此。
进一步地,可以对多张第一样本图像进行预处理。具体而言,可以对第一样本图像进行裁减,以使得文本内容占据第一样本图像的面积的二分之一以上,但并不限于此。
进一步地,可以根据多张第一样本图像,计算得到属性特征信息。换言之,可以根据多张第一样本图像,统计得到属性特征信息。
具体而言,属性特征信息可以包括字符属性特征信息,所述字符属性特征信息可以用于描述目标场景下的图像中字符本身的特征,字符属性特征信息可以包括以下一项或多项:字符的字体类型范围、字符的大小范围、字符的个数范围、字符之间的间距范围、字符的倾斜角度范围和字符的弯曲角度范围等,但并不限于此。
进一步地,属性特征信息还可以包括对比度信息,所述对比度信息可以用于描述目标场景下的图像中字符与背景之间的对比度范围等,但并不限于此。
需要说明的是,本发明实施例对于获取多个随机文本内容和属性特征信息的顺序并不进行限制,可以先获取多个随机文本内容,再获取属性特征信息,也可以先获取属性特征信息,再获取多个随机文本内容,还可以同时获取多个随机文本内容和属性特征信息。
在一个具体的例子中,可以先获取属性特征信息,再获取多个随机文本内容。具体而言,可以先获取属性特征信息和多个目标场景下需要识别的多个字符,属性特征信息可以包括字符的个数范围,可以多次地从多个字符中选取n个字符,以得到随机文本内容,其中,每次选取字符时,每个字符被选取的概率相等,根据n个字符生成随机文本内容,其中,N≤n≤M,N为字符的个数范围的最小值,M为字符的个数范围的最大值,n、N、M为正整数。采用这样的方案时,由于生成随机文本内容时各个字符被选取的概率是相同的,可以避免因字符在样本中出现的次数较少而导致识别不准确的情况。
在另一个具体的例子中,可以获取多个随机文本内容,再获取属性特征信息,然后可以根据字符的个数范围对多个随机文本内容进行筛选,以剔除超出字符的个数范围的随机文本内容。
在步骤S102的具体实施中,可以根据多个随机文本内容和属性特征信息,生成图像样本集,其中,图像样本集包括多张文本图像,其中,多张文本图像中的字符不同和/或多张文本图像中的字符的特征不同。更具体地,每两张文本图像中包括的字符不同,和/或,每两张文本图像中包括的字符的特征不同。需要说明的是,本发明实施例的方案中,图像样本集中的多张文本图像是根据多个随机文本内容和属性特征信息生成的新的图像,而并非是根据多个随机文本内容和属性特征信息对已有的图像进行处理得到的图像。
参照图2,图2是图1中步骤S201的第一种具体实施方式。图2示出的步骤S102可以包括以下步骤:
步骤S201:对于每个随机文本内容,根据字符属性特征信息生成该随机文本内容对应的第一文本图像;
步骤S202:基于多张第一文本图像生成图像样本集。
在步骤S201的具体实施中,字符属性特征信息可以选自以下一项或多项:字符的字体类型范围、字符的大小范围、字符之间的间距范围、字符的倾斜角度范围和字符的弯曲角度范围等,但并不限于此。
换言之,多张第一文本图像中的文本内容可以满足以下一项或多项:字符的字体属于上述的字体类型范围,字符的大小为上述的字体大小范围内的任意值、字符之间的间距为上述间距范围内的任意值、字符的倾斜角度为上述倾斜角度内的任意值和字符的弯曲角度为上述弯曲角度范围内的任意值等。
需要说明的是,上述第一文本图像可以为透明图像,第一文本图像具有文本内容标签,换言之,生成每张第一文本图像时,一并生成该第一文本图像的文本内容标签,第一文本图像的文本内容标签即为该第一文本图像对应的随机文本内容。此外,第一文本图像还具有文本位置标签,换言之,生成每张第一文本图像时,还一并生成该第一文本图像的多个文本位置标签,所述文本位置标签可以是标注框等,但并不限于此。其中,文本位置标签可以与字符一一对应,也即,每个字符具有对应的文本位置标签,以指示该字符在图像中的位置。
在一个具体的例子中,对于每个随机文本内容,可以从字体类型范围内随机选择任一字体类型,作为第一文本图像中的字符的类型,和/或从字符的大小范围内随机选择字符大小作为第一文本图像中的字符大小,和/或从字符之间的间距范围内随机选择字符间距作为第一文本图像中的字符间距等,以得到多张初始图像。
进一步地,还可以为多张初始图像中的至少一部分设置光线扭曲等。
进一步地,对于每张初始图像,可以从倾斜角度范围内随机选择倾斜角度值作为初始图像中字符的倾斜角度,和/或,从弯曲角度范围内随机选择弯曲角度值作为初始图像中字符的弯曲角度,以得到多张第一文本图像。
在步骤S202的具体实施中,可以根据多张第一文本图像生成图像样本集,也即,图像样本集可以包括多张第一文本图像。
参考图3,图3是步骤S102的第二种具体实施方式。图3示出的步骤S102可以包括以下步骤:
步骤S301:对于每个随机文本内容,根据字符属性特征信息生成该随机文本内容对应的多张第一文本图像;
步骤S302:获取所述目标场景下的多张背景图像;
步骤S303:对于每张第一文本图像,将该第一文本图像与至少一张背景图像结合,以得到多张第二文本图像;
步骤S304:基于所述多张第二文本图像生成所述图像样本集。
关于步骤S301的具体内容可以参照上文图2的相关描述,在此不再赘述。
在步骤S302的具体实施中,可以获取所述目标场景下的多张背景图像。所述多张背景图像可以从外部获取的,也可以是预先存储在本地的数据库的,但并不限于此。
在一个具体的例子中,多张背景图像可以是从多个第一样本图像中裁减得到的。由此,既可以获取到目标场景下的图像的背景特征,还可以无需额外采集样本图像,减少需要采集或标注的图像的数量。需要说明的是,背景图像中不包含文本内容,换言之,背景图像中不包含目标场景下需要识别的字符。
在步骤S303的具体实施中,对于每张第一文本图像,可以将该第一文本图像与至少一个背景图像进行结合,换言之,可以将每张第一文本图像与至少一张背景图像进行合成,以得到该第一文本图像对应的至少一张第二文本图像。需要说明的是,第一文本图像与随机文本内容具有对应关系,第一文本图像与第二文本图像具有对应关系,第二文本图像与随机文本内容也具有对应关系。
还需要说明的是,第二文本图像也具有文本内容标签和文本位置标签,第二文本图像的文本内容标签即为该第二文本图像对应的随机文本内容,第二文本图像的文本位置标签用于指示各个字符在第二文本图像中的位置。
其中,对于每张第二文本图像,文本内容可以位于第二文本图像中的任意位置,且第二文本图像中的背景对文本内容造成遮挡。
在步骤S304的具体实施中,可以根据多张第二文本图像生成图像样本集,也即,图像样本集可以包括多张第二文本图像。
在一个具体的例子中,基于多张第二文本图像生成图像样本集之前,可以先对一张或多张第二文本图像随机添加噪声,还可以为一张或多张第二文本图像中的文本内容随机设置3D效果等,但并不限于此。
采用这样的方案,可以使图像样本集中的文本图像的背景也具有目标场景下图像的特征,采用这样的图像样本集对预设模型进行训练,可以使模型充分学习目标场景中图像的特征,利于提高识别的准确度。
关于图3示出的步骤S102的更多内容可以参照上文图1和图2的相关描述,在此不再赘述。
参照图4,图4是图1中步骤S102的第三种具体实施方式的流程示意图。图4示出的步骤S102可以包括以下步骤:
步骤S401:对于每个随机文本内容,根据所述字符属性特征信息,生成该随机文本内容对应的多张第一文本图像;
步骤S402:获取所述目标场景下的多张背景图像;
步骤S403:对于每张第一文本图像,将该第一文本图像与至少一张背景图像结合,以得到多张第二文本图像;
步骤S404:根据所述对比度信息对每张第二文本图像进行处理,以得到多张第三文本图像;
步骤S405:基于所述多张第三文本图像生成所述图像样本集。
关于步骤S401至步骤S403的具体内容可以参照图3中步骤S301至步骤S303的相关描述,在此不再赘述。
在步骤S404的具体实施中,可以根据对比度信息对每张第二文本图像进行处理,以得到多张第三文本图像。具体而言,由于对比度信息用于描述所述目标场景下的图像中字符与背景的对比度,因此,可以根据对比度信息调整第二文本图像中文本内容和背景之间的对比度,得到的第三文本图像更加符合目标场景下采集的真实图像的特征。
需要说明的是,第三文本图像与随机文本内容之间具有对应关系。第三文本图像也具有文本内容标签和文本位置标签,第三文本图像的文本内容标签即为该第三文本图像对应的随机文本内容,第三文本图像的文本位置标签用于指示各个字符在第三文本图像中的位置。
在步骤S405的具体实施中,可以根据多张第三文本图像生成图像样本集,也即,图像样本集可以包括多张第三文本图像。采用这样的图像样本集对预设模型进行训练,可以使模型充分学习目标场景中图像的特征,利于提高识别的准确度。
关于图4示出的步骤S102的更多内容可以参照上文图1至图3的相关描述,在此不再赘述。
继续参考图1,在步骤S103的具体实施中,可以采用图像样本集对预设模型进行训练,以得到文本识别模型。
具体而言,所述图像样本集可以包括多张训练样本图像,其中,多张训练样本图像可以包括文本图像,每两张文本图像包括的字符不同,和/或,每两张图像包括的字符的特征不同,所述特征不同可以是字符本身的特征不同,也可以是字符与背景之间的对比度等特征不同。其中,每张文本图像具有文本内容标签和文本位置标签,关于文本内容标签和文本位置标签的更多内容可以参照上文的相关描述,在此不再赘述。
需要说明的是,所述多张文本图像可以是第一文本图像,也可以是第二文本图像,还可以是第三文本图像等,本发明实施例对此并不进行限制。
在一个具体的例子中,多张训练样本图像还可以包括目标场景下的多张背景图像,例如,可以是图2中步骤S302获取的背景图像,但并不限于此。
换言之,本发明实施例的方案中,用于训练预设模型的图像样本集不仅包括正样本(也即,包括目标场景下的文本内容和特征的图像),还包括负样本(也即,背景图像),采用这样的方案可以使文本识别模型对目标场景下的背景的特征进行充分的学习,避免文本识别模型误将背景识别为文本的情况,利于进一步提高文本识别的准确性。尤其是在图像中文本内容和背景区分较小的目标场景(例如,识别轮胎上的编号)中,通过对背景图像的学习,可以提高模型对于文本内容和背景的区分能力,从而提高识别的准确度。
需要说明的是,对于输入至预设模型的背景图像,该背景图像也可以具有文本内容标签,该文本内容标签可以为预设标签值,预设标签值可以用于指示该图像的文本内容为空,还可以具有文本位置标签,背景图像的文本位置标签也可以为用于指示该图像为背景图像的预设标签。
参考图5,图5是图1中步骤S103的一种具体实施方式的流程示意图。图5示出的步骤S103可以包括以下步骤:
步骤S501:将所述多张训练样本图像输入所述预设模型,以得到所述多张训练样本图像的分类预测结果和位置预测结果;
步骤S502:根据所述文本内容标签和所述分类预测结果计算分类损失,并根据所述文本位置标签和所述位置预测结果计算位置损失;
步骤S503:根据所述分类损失和所述位置损失更新所述预设模型。
在步骤S501的具体实施中,将训练样本图像输入所述预设模型之前,可以先对训练样本图像进行预处理。所述预处理可以包括以下一项或多项:图像尺寸处理、热力图计算处理和文本扩展处理等,但并不限于此。
在第一个具体的例子中,可以对每张训练样本图像进行图像尺寸预处理,以使每张训练样本图像的宽高比为预设值。其中,所述宽高比为图像的宽度与高度的比值。更具体地,宽度可以是行方向上的像素点个数,高度可以是列方向上的像素点个数。
具体而言,如果训练样本图像的宽高比小于预设值,则将该训练样本图像与空白图像进行拼接,以使拼接后的训练样本图像的宽高比等于该预设值,其中,所述空白图像的每个像素点的像素值均为0。如果文本图像的宽高比大于预设值,则可以将对文本图像进行压缩处理,以使压缩后的文本图像的宽高比等于该预设值等,但并不限于此。
其中,所述预设值可以是预先计算得到的。在一个具体的例子中,可以根据裁减后的多张第一样本图像的宽高比进行统计得到的,所述预设值可以为多张第一样本图像的宽高比的最大值等,但并不限于此。
在第二个具体的例子中,可以对训练样本图像进行文本扩展处理。具体而言,可以在文本图像中文本内容的最后增加结束字符,以指示文本内容的结尾,换言之,可以在字符串的最后增加结束字符。结束字符可以是预先设置的,例如可以是“EOS”。进一步地,还可以一并更新文本图像的文本内容标签和文本位置标签等。如果训练样本图像为背景图像,则背景图像的文本内容标签和文本位置标签均为用于指示该图像为背景图像的预设标签。
在第三个具体的例子中,可以对每张训练样本图像进行热力图计算处理,也即,计算每张训练样本图像的位置热力图,并将该位置热力图与训练样本图像进行融合,以得到处理后的图像。具体而言,位置热力图中各个像素点的像素值为0~1之间的值。更具体地,对于文本图像中的每个字符,该字符的标注框的中心位置处对应的像素点的像素值为1,背景区域的像素点的像素值为0,距离标注框的中心位置处越近,像素值越大。由此,位置热力图可以通过像素点的像素值来指示文本图像中各个字符在图像中的位置。换言之,可以将位置热力图作为训练样本图像的文本位置标签。需要说明的是,本发明实施例对于计算位置热力图的方式并不进行限制,可以是根据各种现有的算法得到训练样本图像的热力图,例如,可以根据高斯核计算得到热力图,但并不限于此。
进一步地,可以将多张训练样本图像或者经过一项或多项预处理后的训练样本图像输入至预设模型。需要说明的是,本发明实施例对于预处理的顺序并不进行特别的限制。
在一个具体的例子中,可以分多个批次将图像输入至预设模型中对预设模型进行训练,其中,每个批次中可以包括至少一张背景图像。
参照图6,图6是本发明实施例中一种预设模型的结构示意图。
如图6所示,预设模型可以包括特征提取模块61,所述特征提取模块61可以用于计算输入预设模型的训练样本图像60的特征图,其中,特征提取模块61计算得到的特征图可以记为初始特征图。其中,训练样本图像60可以为文本图像,也可以是背景图像,还可以是经过上述预处理的文本图像或经过预处理的背景图像等。
具体而言,特征提取模块61可以包括一个或多个中间层,所述一个或多个中间层可以包括卷积层(Convolutional layer),还可以包括池化层(Pooling layer)等,但并不限于此。特征提取模块61可以是现有的各种恰当的用于提取特征图的神经网络,例如,残差网络(ResNets)、视觉几何组(Visual Geometry Group,VGG)网络等,但并不限于此,本发明实施例对特征提取模块61的具体类型和结构并不进行任何限制。
进一步地,预设模型还可以包括注意力模块62,特征提取模块61的输出可以与注意力模块62的输入连接,注意力模块62可以用于基于注意力机制对特征图进行注意力提取,以得到注意力热力图。
具体而言,可以基于注意力机制对初始特征图进行注意力提取,以得到初始特征图对应的注意力图,然后根据注意力图计算该注意力图对应的注意力热力图。其中,基于注意力机制进行注意力提取的方法可以是现有的各种恰当的方法,例如,可以采用卷积块注意力模块(Convolutional Block Attention Module,CBAM)对初始特征图进行注意力提取,以得到注意力图,但并不限于此。
进一步地,可以基于注意力图计算训练样本图像60中字符的位置,换言之,基于注意力图预测训练样本图像60中字符的位置,以得到注意力热力图。也即,注意力热力图即为预设模型对训练样本图像计算得到的位置预测结果。其中,基于注意力图计算得到注意力热力图的方法可以是各种现有的恰当的方法,本发明实施例对此并不进行限制。
进一步地,注意力模块62还可以用于将注意力热力图与初始特征图进行融合处理,以得到融合后的特征图。
在一个具体的例子中,可以采用下列公式对注意力热力图与初始特征图进行融合处理:
Figure BDA0003290103300000181
其中,ct为第t个时刻融合后的特征图,Fx,y为初始特征图,αt,x,y为第t个时刻的注意力热力图,w为训练样本图像60的宽度,h为训练样本图像60的高度,rw为宽度上降采样的比例,rh为高度上降采样的比例。其中,x、y、t为正整数,且1≤x≤w/rw,1≤y≤h/rh
可以理解的是,文本识别的过程是基于时间顺序对文本内容中的字符按照先后顺序依次进行识别,由此,ct也可以为识别第t个字符时计算得到的融合后的特征图,αt,x,y也可以为第t个字符对应的注意力热力图,换言之,αt,x,y可以用于指示预设模型预测的第t个字符在训练样本图像60中的位置。
进一步地,预设模型还可以包括预测模块63,注意力模块62的输出可以与预测模块63的输入连接,预测模块63可以根据融合后的特征图计算得到分类预测结果,更具体地,预测模块63可以根据第t个时刻融合后的特征图ct计算第t个时刻的分类预测结果。所述预测模块63可以是解码器,所述解码器可以包括全连接层,解码器可以是现有的各种恰当的解码器,本发明实施例对预测模块的类型和结构并不进行任何限制。
继续参考图5,在步骤S502的具体实施中,可以根据训练样本图像的文本内容标签和分类预测结果计算分类损失,其中,分类预测结果可以是根据上文所述的融合后的特征图计算得到的。
进一步地,还可以根据位置预测结果和文本位置标签计算位置损失,其中,本发明实施例对于计算位置预测结果的方法并不进行限制。在一个具体的例子中,文本位置标签为位置热力图,位置预测结果为上文所述的注意力热力图,由此可以根据为位置热力图和注意力热力图计算位置损失。需要说明的是,本发明实施例对于用于计算分类损失的损失函数以及用于计算位置损失的损失函数的类型并不进行任何限制,可以是各种现有的恰当的损失函数。
在一个具体的例子中,可以采用下列公式计算分类损失:
Figure BDA0003290103300000182
其中,Losspred为分类损失,T为当前文本的长度,也即,文本内容中字符的个数,P(gt|θ)为所述分类预测结果,其中,gt为t时刻的文本内容标签,也即,gt为第t个字符的内容,θ为预设模型中所有可学习的参数。
进一步地,还可以采用下列公式计算位置损失:
Figure BDA0003290103300000191
Figure BDA0003290103300000192
其中,Lossatt为位置损失,Ax,y为文本位置标签,β为预设参数。
在步骤S503的具体实施中,可以采用下列公式计算模型的总损失:
Loss=a1×Losspred+a2×Lossatt
其中,Loss为所述总损失,a1为预设的第一权重,a2为预设的第二权重。
进一步地,可以根据模型的总损失更新预设模型。具体而言,可以根据模型总损失的值调整预设模型中的各个可学习的参数的值,例如可以调整特征提取模块、注意力模块和预测模块预设模型中的连接权重,还可以根据损失对预设模型进行其他适当的操作。其中,调整预设模型的参数的方法可以是现有的各种恰当的方法,例如,可以采用梯度下降法调整预设模型的连接权重等,但并不限于此。
进一步地,重复步骤501至步骤S503,直至计算得到的总损失小于预设损失阈值,则可以得到文本识别模型。
由上,考虑到注意力机制容易产生漂移,而文本识别的过程是基于时间顺序依次对文本中的字符逐个进行识别的,上一个字符的识别结果会影响下一个字符的识别结果,因此识别长文本时因累积误差容易导致识别的准确度较差。相比于现有技术中只根据分类损失更新模型的方案,本发明实施例的方案中,在训练预设模型的过程中,不仅计算分类损失,还计算位置损失,同时根据位置损失和分类损失更新预设模型,换言之,分类约束的基础上增加了位置约束,可以进一步提高文本识别的准确性。
继续参考图1,在步骤S104的具体实施中,可以将待识别图像输入至文本识别模型中,其中,将待识别图像输入至文本识别模型之前,还可以对待识别图像进行图像尺寸处理,具体内容可以参照上文的相关描述,在此不再赘述。
进一步地,可以得到待识别图像的识别结果,所述待识别图像可以包括未识别的文本内容,也可以不包括未识别的文本内容,本发明实施例对于待识别文本图像的内容并不进行任何限制。其中,待识别图像是在目标场景下采集到的,所述待识别图像可以是实时采集的,也可以是从外部获取的,还可以是预先存储在本地的,本发明实施例对此并不进行限制。
由上,与现有技术相比,本发明实施例的方案中通过生成针对目标场景的图像样本集来训练预设模型,以得到用于目标场景识别的文本识别模型,无需对大量的图像进行标注的过程,因此可以快速高效地得到用于目标场景的文本识别模型。此外,还避免了无关数据对于模型学习的干扰以及避免了注意力偏移对分类预测结果的误导,因此采用该文本识别模型进行目标场景下的文本识别的准确度更高。
参考图7,图7是本发明实施例中另一种文本识别方法的部分流程示意图,图7示出的文本识别方法可以包括以下步骤:
步骤S701:获取所述目标场景下的多张测试图像,其中,每张测试图像包括未标注的文本内容;
步骤S702:将所述多张测试图像输入所述文本识别模型,以得到多张测试图像的识别结果;
步骤S703:根据所述多张测试图像的文本内容标签和识别结果,确定困难样本的特征;
步骤S704:根据所述困难样本的特征,获取所述目标场景下的多张第二样本图像,所述多张第二样本图像具有文本内容标签;
步骤S705:根据所述多张第二样本图像对所述文本识别模型进行训练,以更新所述文本识别模型,并将更新后的文本识别模型作为所述文本识别模型。
需要说明的是,步骤S701至步骤S705可以在步骤S103之后且在步骤S104之前执行。下面就图7示出的文本识别方法与图1示出的文本识别方法的不同之处进行描述,关于图7示出的另一种文本识别方法的更多内容可以参照图1至图6的相关描述,在此不再赘述。
在步骤S701的具体实施中,可以获取多张目标场景下的测试图像,其中,测试图像可以是包括文本内容的文本图像,也可以是不包括文本内容的背景图像,本发明实施例对此并不进行限制。需要说明的是,在步骤S701的实施过程中,测试图像不具有文本内容标签和文本位置标签。
其中,测试图像是在目标场景下采集到的,所述测试图像可以是实时采集的,也可以是从外部获取的,还可以是预先存储在本地的,本发明实施例对此并不进行限制。
在步骤S702的具体实施中,可以将所述多张测试图像输入所述文本识别模型,以得到多张测试图像的预测结果。其中,将测试图像输入至文本识别模型之前,还可以先对测试图像进行图像尺寸处理,具体内容可以参照上文的相关描述,在此不再赘述。
在步骤S703的具体实施中,多张测试图像具有文本内容标签,本发明实施例对于获取多张测试图像的文本内容标签的方法并不进行限制,例如,可以是由人工进行标注的,但并不限于此。可以根据所述多张测试图像的文本内容标签和识别结果,确定困难样本的特征。其中,困难样本是指识别结果与文本内容标签差异较大的样本。困难样本的特征可以用于指示文本识别模型进行文本识别时表现较差的图像的类型。
例如,困难样本的特征可以是包含特殊字符,也可以是同时包含英文字母的大写和小写等等,本发明实施例对此并不进行限制。
在步骤S704的具体实施中,可以根据困难样本的特征,获取目标场景下的多张第二样本图像,换言之,第二样本图像具有困难样本的特征。例如,困难样本的特征为包含特殊字符☆,则第二样本图像中的文本内容中包括☆。又例如,困难样本的特征为不包含文本内容,也即,文本识别模型容易将背景图像识别为包含文本内容的文本图像,则第二样本图像包括多张背景图像等等,但并不限于此。
进一步地,第二样本图像具有文本内容标签,该文本内容标签可以指示第二样本图像中的文本内容。需要说明的是,本发明实施例对于获取第二样本图像的方法并不进行限制。
进一步地,可以对多张第二样本图像进行数据增强处理,以增强第二样本图像在目标场景中的真实性。例如,可以对第二样本图像添加高斯噪声、椒盐噪声等,还可以对第二样本图像进行运动模糊处理,还可以调节第二样本图像的亮度、对比度等等,本发明实施例对于数据增强处理的具体方式并不进行限制。
在步骤S705的具体实施中,可以将多张第二样本图像作为训练数据,来对文本识别模型进行进一步的训练,以得到更新后的文本识别模型。需要说明的是,采用多张第二样本图像作为训练数据对文本识别模型的训练方法可以是各种现有的方法,本发明实施例对此并不进行限制。在一个具体的例子中,采用多张第二样本图像作为训练数据对文本识别模型进行训练的过程中,可以只计算分类损失,也即,可以只根据分类损失更新文本识别模型,但并不限于此。
进一步地,还可以获取不同的测试图像对更新后的文本识别模型的性能进行测试,如果测试结果不满足预设条件,则可以重复步骤S701至步骤S705,直至得到的更新后的文本识别模型满足预设条件,从而得到最终的文本识别模型。其中,预设条件可以是根据实际的业务场景设置的,本发明实施例对于预设条件的具体内容并不进行限制。
由上,本发明实施例的方案中,在采用文本识别模型对待识别图像之前,先采用测试图像对文本识别模型进行评估。具体而言,根据文本识别模型对测试图像的识别结果确定困难样本的特征,再根据困难样本的特征再选取对应的第二样本图像对文本识别模型进行训练,使得通过具有困难样本的特征的样本图像对文本识别模型进行微调,以进一步地提高文本识别模型的识别能力,也即进一步提高文本识别的准确性。
参照图8,图8是本发明实施例中一种文本识别装置的结构示意图。图8示出的文本识别装置可以包括:
获取模块81,用于获取多个随机文本内容和属性特征信息,其中,每个随机文本内容包括至少一个字符,所述属性特征信息用于描述所述至少一个字符在所述目标场景下的图像中的特征,所述字符为所述目标场景下需要识别的字符;
样本生成模块82,用于根据所述多个随机文本内容和所述属性特征信息,生成图像样本集,其中,所述图像样本集包括多张文本图像,其中,每两张文本图像中包括的字符不同和/或字符的特征不同;
训练模块83,用于采用所述图像样本集对预设模型进行训练,以得到文本识别模型;
识别模块84,用于采用所述文本识别模型对待识别图像进行识别,以确定所述待识别图像中的识别结果,其中,所述待识别图像为所述目标场景下的图像。
在具体实施中,上述文本识别装置可以对应于终端内具有文本识别功能的芯片;或者对应于终端中具有文本识别功能的芯片模组,或者对应于终端。
关于图8示出的文本识别装置的工作原理、工作方式和有益效果等更多内容,可以参照上文关于图1至图7的相关描述,在此不再赘述。
本发明实施例还提供一种存储介质,其上存储有计算机程序,所述计算机程序被处理器运行时,执行上述的文本识别方法的步骤。所述存储介质可以包括ROM、RAM、磁盘或光盘等。所述存储介质还可以包括非挥发性存储器(non-volatile)或者非瞬态(non-transitory)存储器等。
本发明实施例还提供一种终端,包括存储器和处理器,所述存储器上存储有可在所述处理器上运行的计算机程序,所述处理器运行所述计算机程序时执行上述的文本识别方法的步骤。所述计算设备包括但不限于手机、计算机、平板电脑等终端设备。
应理解,本申请实施例中,所述处理器可以为中央处理单元(central processingunit,简称CPU),该处理器还可以是其他通用处理器、数字信号处理器(digital signalprocessor,简称DSP)、专用集成电路(application specific integrated circuit,简称ASIC)、现成可编程门阵列(field programmable gate array,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
还应理解,本申请实施例中的存储器可以是易失性存储器或非易失性存储器,或可包括易失性和非易失性存储器两者。其中,非易失性存储器可以是只读存储器(read-only memory,简称ROM)、可编程只读存储器(programmable ROM,简称PROM)、可擦除可编程只读存储器(erasable PROM,简称EPROM)、电可擦除可编程只读存储器(electricallyEPROM,简称EEPROM)或闪存。易失性存储器可以是随机存取存储器(random accessmemory,简称RAM),其用作外部高速缓存。通过示例性但不是限制性说明,许多形式的随机存取存储器(random access memory,简称RAM)可用,例如静态随机存取存储器(staticRAM,简称SRAM)、动态随机存取存储器(DRAM)、同步动态随机存取存储器(synchronousDRAM,简称SDRAM)、双倍数据速率同步动态随机存取存储器(double data rate SDRAM,简称DDR SDRAM)、增强型同步动态随机存取存储器(enhanced SDRAM,简称ESDRAM)、同步连接动态随机存取存储器(synchlink DRAM,简称SLDRAM)和直接内存总线随机存取存储器(direct rambus RAM,简称DR RAM)。
上述实施例,可以全部或部分地通过软件、硬件、固件或其他任意组合来实现。当使用软件实现时,上述实施例可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令或计算机程序。在计算机上加载或执行所述计算机指令或计算机程序时,全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以为通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机程序可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机程序可以从一个网站站点、计算机、服务器或数据中心通过有线或无线方式向另一个网站站点、计算机、服务器或数据中心进行传输。
在本申请所提供的几个实施例中,应该理解到,所揭露的方法、装置和系统,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的;例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式;例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理包括,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。例如,对于应用于或集成于芯片的各个装置、产品,其包含的各个模块/单元可以都采用电路等硬件的方式实现,或者,至少部分模块/单元可以采用软件程序的方式实现,该软件程序运行于芯片内部集成的处理器,剩余的(如果有)部分模块/单元可以采用电路等硬件方式实现;对于应用于或集成于芯片模组的各个装置、产品,其包含的各个模块/单元可以都采用电路等硬件的方式实现,不同的模块/单元可以位于芯片模组的同一组件(例如芯片、电路模块等)或者不同组件中,或者,至少部分模块/单元可以采用软件程序的方式实现,该软件程序运行于芯片模组内部集成的处理器,剩余的(如果有)部分模块/单元可以采用电路等硬件方式实现;对于应用于或集成于终端的各个装置、产品,其包含的各个模块/单元可以都采用电路等硬件的方式实现,不同的模块/单元可以位于终端内同一组件(例如,芯片、电路模块等)或者不同组件中,或者,至少部分模块/单元可以采用软件程序的方式实现,该软件程序运行于终端内部集成的处理器,剩余的(如果有)部分模块/单元可以采用电路等硬件方式实现。
应理解,本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,表示前后关联对象是一种“或”的关系。
本申请实施例中出现的“多个”是指两个或两个以上。
本申请实施例中出现的第一、第二等描述,仅作示意与区分描述对象之用,没有次序之分,也不表示本申请实施例中对设备个数的特别限定,不能构成对本申请实施例的任何限制。
虽然本发明披露如上,但本发明并非限定于此。任何本领域技术人员,在不脱离本发明的精神和范围内,均可作各种更动与修改,因此本发明的保护范围应当以权利要求所限定的范围为准。

Claims (13)

1.一种文本识别方法,其特征在于,所述方法包括:
获取多个随机文本内容和属性特征信息,其中,每个随机文本内容包括至少一个字符,所述属性特征信息用于描述所述至少一个字符在目标场景下的图像中的特征,其中,所述字符为所述目标场景下需要识别的字符;
根据所述多个随机文本内容和所述属性特征信息,生成图像样本集,其中,所述图像样本集包括多张文本图像;
采用所述图像样本集对预设模型进行训练,以得到文本识别模型;
采用所述文本识别模型对待识别图像进行识别,以确定所述待识别图像中的识别结果,其中,所述待识别图像为所述目标场景下的图像。
2.根据权利要求1所述的文本识别方法,其特征在于,获取所述属性特征信息包括:
获取所述目标场景下的多张第一样本图像,其中,每张第一样本图像包括标注出的文本内容,所述文本内容包括至少一个字符;
根据所述多张第一样本图像,计算得到所述属性特征信息。
3.根据权利要求1所述的文本识别方法,其特征在于,所述属性特征信息包括以下一项或多项:
字符的字体类型范围、字符的大小范围、字符的个数范围、字符之间的间距范围、字符的倾斜角度范围、字符的弯曲角度范围和字符与背景之间的对比度范围。
4.根据权利要求1所述的文本识别方法,其特征在于,所述属性特征信息包括字符特征信息,所述字符特征信息用于描述所述目标场景下的图像中字符本身的特征,根据所述多个随机文本内容和所述属性特征信息,生成图像样本集包括:
对于每个随机文本内容,根据所述字符属性特征信息,生成该随机文本内容对应的多张第一文本图像;
基于所述多张第一文本图像生成所述图像样本集。
5.根据权利要求1所述的文本识别方法,其特征在于,所述属性特征信息包括字符特征信息,所述字符特征信息用于描述所述目标场景下的图像中字符本身的特征,根据所述多个随机文本内容和所述属性特征信息,生成图像样本集包括:
对于每个随机文本内容,根据所述字符属性特征信息,生成该随机文本内容对应的多张第一文本图像;
获取所述目标场景下的多张背景图像;
对于每张第一文本图像,将该第一文本图像与至少一张背景图像结合,以得到多张第二文本图像;
基于所述多张第二文本图像生成所述图像样本集。
6.根据权利要求1所述的文本识别方法,其特征在于,所述属性特征信息包括字符特征信息和对比度信息,所述字符特征信息用于描述所述目标场景下的图像中字符本身的特征,所述对比度信息用于描述所述目标场景下的图像中字符与背景的对比度,根据所述多个随机文本内容和所述属性特征信息,生成图像样本集包括:
对于每个随机文本内容,根据所述字符属性特征信息,生成该随机文本内容对应的多张第一文本图像;
获取所述目标场景下的多张背景图像;
对于每张第一文本图像,将该第一文本图像与至少一张背景图像结合,以得到多张第二文本图像;
根据所述对比度信息对每张第二文本图像进行处理,以得到多张第三文本图像;
基于所述多张第三文本图像生成所述图像样本集。
7.根据权利要求1所述的文本识别方法,其特征在于,所述图像样本集还包括所述目标场景下的多张背景图像。
8.根据权利要求1所述的文本识别方法,其特征在于,所述图像样本集包括多张训练样本图像,所述多张训练样本图像包括所述多张文本图像,所述多张训练样本图像具有文本内容标签和文本位置标签,采用图像样本集对预设模型进行训练包括:
将所述多张训练样本图像输入所述预设模型,以得到所述多张训练样本图像的分类预测结果和位置预测结果;
根据所述文本内容标签和所述分类预测结果计算分类损失,并根据所述文本位置标签和所述位置预测结果计算位置损失;
根据所述分类损失和所述位置损失更新所述预设模型。
9.根据权利要求8所述的文本识别方法,其特征在于,所述文本位置标签为位置热力图,所述预设模型包括特征提取模块和注意力模块,
其中,所述特征提取模块用于提取所述训练样本图像的初始特征图,所述注意力模块用于基于注意力机制对所述初始特征图进行注意力提取,以得到注意力热力图,
其中,所述位置预测结果为所述注意力热力图,所述分类预测结果是根据融合后的特征图计算得到的,所述融合后的特征图是根据所述注意力热力图和所述初始特征图融合处理后得到的。
10.根据权利要求1所述的文本识别方法,其特征在于,采用所述文本识别模型对待识别图像进行识别之前,所述方法还包括:
获取所述目标场景下的多张测试图像;
将所述多张测试图像输入所述文本识别模型,以得到多张测试图像的识别结果;
根据所述多张测试图像的文本内容标签和识别结果,确定困难样本的特征;根据所述困难样本的特征,获取所述目标场景下的多张第二样本图像,所述多张第二样本图像具有文本内容标签;
根据所述多张第二样本图像对所述文本识别模型进行训练,以更新所述文本识别模型,并将更新后的文本识别模型作为所述文本识别模型。
11.一种文本识别装置,其特征在于,所述装置包括:
获取模块,用于获取多个随机文本内容和属性特征信息,其中,每个随机文本内容包括至少一个字符,所述属性特征信息用于描述所述至少一个字符在目标场景下图像中的特征,其中,所述字符为所述目标场景下需要识别的字符;
样本生成模块,用于根据所述多个随机文本内容和所述属性特征信息,生成图像样本集,其中,所述图像样本集包括多张文本图像;
训练模块,用于采用所述图像样本集对预设模型进行训练,以得到文本识别模型;
识别模块,用于采用所述文本识别模型对待识别图像进行识别,以确定所述待识别图像中的识别结果,其中,所述待识别图像为所述目标场景下的图像。
12.一种存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器运行时,执行权利要求1至10中任一项所述的文本识别方法的步骤。
13.一种终端,包括存储器和处理器,所述存储器上存储有可在所述处理器上运行的计算机程序,其特征在于,所述处理器运行所述计算机程序时执行权利要求1至10中任一项所述的文本识别方法的步骤。
CN202111161555.0A 2021-09-30 2021-09-30 文本识别方法及装置、存储介质、终端 Pending CN115937875A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111161555.0A CN115937875A (zh) 2021-09-30 2021-09-30 文本识别方法及装置、存储介质、终端

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111161555.0A CN115937875A (zh) 2021-09-30 2021-09-30 文本识别方法及装置、存储介质、终端

Publications (1)

Publication Number Publication Date
CN115937875A true CN115937875A (zh) 2023-04-07

Family

ID=86653001

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111161555.0A Pending CN115937875A (zh) 2021-09-30 2021-09-30 文本识别方法及装置、存储介质、终端

Country Status (1)

Country Link
CN (1) CN115937875A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116563840A (zh) * 2023-07-07 2023-08-08 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) 基于弱监督跨模态对比学习的场景文本检测与识别方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116563840A (zh) * 2023-07-07 2023-08-08 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) 基于弱监督跨模态对比学习的场景文本检测与识别方法
CN116563840B (zh) * 2023-07-07 2023-09-05 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) 基于弱监督跨模态对比学习的场景文本检测与识别方法

Similar Documents

Publication Publication Date Title
US10762376B2 (en) Method and apparatus for detecting text
US11810374B2 (en) Training text recognition systems
US10354168B2 (en) Systems and methods for recognizing characters in digitized documents
CN108229303B (zh) 检测识别和检测识别网络的训练方法及装置、设备、介质
CN107944450B (zh) 一种车牌识别方法及装置
WO2020238054A1 (zh) Pdf文档中图表的定位方法、装置及计算机设备
CN110866495A (zh) 票据图像识别方法及装置和设备、训练方法和存储介质
CN111615702B (zh) 一种从图像中提取结构化数据的方法、装置和设备
CN110084172B (zh) 文字识别方法、装置和电子设备
CN107886082B (zh) 图像中数学公式检测方法、装置、计算机设备及存储介质
CN112699775A (zh) 基于深度学习的证件识别方法、装置、设备及存储介质
CN111639648B (zh) 证件识别方法、装置、计算设备和存储介质
CN113837151B (zh) 表格图像处理方法、装置、计算机设备及可读存储介质
CN112861842A (zh) 基于ocr的案件文本识别方法及电子设备
CN111723815A (zh) 模型训练方法、图像处理方法、装置、计算机系统和介质
CN113205095A (zh) 一种训练模型以及字符检测的方法及装置
CN114596566A (zh) 文本识别方法及相关装置
CN114357174B (zh) 基于ocr和机器学习的代码分类系统及方法
CN111104941B (zh) 图像方向纠正方法、装置及电子设备
CN115731422A (zh) 多标签分类模型的训练方法、分类方法及装置
CN115546809A (zh) 基于单元格约束的表格结构识别方法及其应用
CN111178363A (zh) 文字识别方法、装置、电子设备以及可读存储介质
CN106611148B (zh) 基于图像的离线公式识别方法和装置
CN115937875A (zh) 文本识别方法及装置、存储介质、终端
CN115984886A (zh) 表格信息抽取方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination