CN116311279A

CN116311279A - 样本图像的生成、模型训练、字符识别方法、设备及介质

Info

Publication number: CN116311279A
Application number: CN202310300797.6A
Authority: CN
Inventors: 陆峥岩; 李敏杰; 肖潇; 章勇
Original assignee: Suzhou Keda Technology Co Ltd
Current assignee: Suzhou Keda Technology Co Ltd
Priority date: 2023-03-24
Filing date: 2023-03-24
Publication date: 2023-06-23

Abstract

本发明涉及图像处理技术领域，具体涉及样本图像的生成、模型训练、字符识别方法、设备及介质，该生成方法包括获取目标场景下的目标文本和风格特征以及第一样本字符，目标文本和风格特征是对目标场景下的真实字符图像进行文本风格编码得到的；基于目标扩散模型对第一样本字符以及目标文本和风格特征进行处理，得到目标场景下的样本字符图像，目标扩散模型用于将第一样本字符的字体风格迁移到真实字符图像中以生成样本字符图像；将样本字符图像与目标场景下的背景图像进行拼接，得到样本图像。利用目标扩散模型将第一样本字符的字体风格迁移到真实字符图像中，实现风格统一，得到逼真的样本图像。

Description

样本图像的生成、模型训练、字符识别方法、设备及介质

技术领域

本发明涉及图像处理技术领域，具体涉及样本图像的生成、模型训练、字符识别方法、设备及介质。

背景技术

光学字符识别(OCR)在现阶段飞速发展的深度学习应用领域有着多方面的应用，在文档及证件识别等应用上具有卓越的表现，在机器视觉方面随之生发出不同场景下的字符识别需求。在样本数据量充足的情况下，按照所训练出的字符识别模型的二阶段模式，可以很好的识别出图片上的文本内容。基于此，样本数据影响着字符识别模型的准确性。

然而，在一些应用场景下样本数据量较少，通过一些数据增强处理所得到的样本数据的逼真性较低。例如，服装上的字符识别，为了提高样本数据量，现有的方案是直接在人身上贴上字符，即使加上一些文本图像扩增变换，也很难做到看上去就是衣服自带的字符而不是后期贴上去，从而导致样本图像的逼真性较低。

发明内容

有鉴于此，本发明实施例提供了一种样本图像的生成、模型训练、字符识别、设备及介质，以解决样本图像的逼真性较低的问题。

根据第一方面，本发明实施例提供了一种样本图像的生成方法，包括：

获取目标场景下的目标文本和风格特征以及第一样本字符，所述目标文本和风格特征是对所述目标场景下的真实字符图像进行文本风格编码得到的；

基于目标扩散模型对所述第一样本字符以及所述目标文本和风格特征进行处理，得到所述目标场景下的样本字符图像，所述目标扩散模型用于将所述第一样本字符的字体风格迁移到所述真实字符图像中以生成所述样本字符图像；

将所述样本字符图像与所述目标场景下的背景图像进行拼接，得到样本图像。

本发明实施例提供的样本图像的生成方法，利用目标场景下的真实字符图像获得的目标文本和风格特征作为目标扩散模型的条件，使用目标扩散模型将第一样本字符的字体风格迁移到真实字符图像中，从而保证所生成的样本字符图像中的文本与图像能够实现风格统一且更接近目标场景的真实文本风格，再将样本字符图像与目标场景下的背景图像进行拼接能够得到逼真的样本字符图像。

在一些实施方式中，所述获取目标场景下的目标文本和风格特征，包括：

获取所述真实字符图像；

对所述真实字符图像进行图像特征提取，得到图像风格编码；

对所述真实字符图像中的文本内容进行文本特征提取，得到文本编码；

对所述图像风格编码与所述文本编码进行融合，得到所述目标文本和风格特征。

本发明实施例提供的样本图像的生成方法，针对真实字符图像分别进行图像特征以及文本特征的提取，再将两者进行融合，使得所得到的目标文本和风格特征中既包括有图像特征又包括有文本特征，提高了所得到的目标文本和风格特征的可靠性。

在一些实施方式中，所述对所述图像风格编码与所述文本编码进行融合，得到所述目标文本和风格特征，包括：

对所述图像风格编码以及所述文本编码进行注意力处理，得到所述图像风格编码以及所述文本编码之间的注意力；

将所述注意力与所述文本编码融合，并将融合结果经过前馈网络的处理得到所述目标文本和风格特征。

本发明实施例提供的样本图像的生成方法，通过注意力实现图像风格编码与文本编码的融合，使得不同的文本内容关注给定图像风格编码的不同部分，提高了所得到的融合结果的可靠性以及真实性，在此基础上再经过前馈网络的处理能够提取较丰富的语义特征，进一步保证了真实字符图像文本风格编码的真实性，从而使得将目标文本和风格特征作为目标扩散模型的输入条件时，目标扩散模型能够得到扩散得到更为真实的样本图像。

在一些实施方式中，所述将所述样本字符图像与所述目标场景下的背景图像进行拼接，得到样本图像，包括：

获取所述目标场景下的背景图像，并对所述背景图像进行感兴趣区域的识别，得到感兴趣区域图像；

对所述样本字符图像进行任意角度的旋转，得到旋转后的样本字符图像；

将所述旋转后的样本字符图像与所述感兴趣区域图像进行拼接，得到所述样本图像。

本发明实施例提供的样本图像的生成方法，通过感兴趣区域的识别以便于后续将样本字符图像拼接到感兴趣区域，以贴近目标场景下的使用；同时，对样本字符图像进行任意角度的旋转，从而能够生成大量的样本图像，从而丰富样本图像的数量。

在一些实施方式中，所述目标扩散模型的训练方法包括：

获取第二样本字符以及所述目标场景下样本图像的文本和风格特征；

在预设扩散模型的正向扩散过程中，基于所述第二样本字符生成噪声图像；

基于所述噪声图像以及所述目标场景下样本图像的文本和风格特征，对所述预设扩散模型的反向扩散过程进行训练，以确定所述目标扩散模型。

本发明实施例提供的样本图像的生成方法，以第二样本字符作为监督，目标场景下样本图像的文本和风格特征作为条件对预设扩散模型的反向扩散过程进行训练，能够保证所得到的目标扩散模型能够生成与目标场景贴合的图像。

根据第二方面，本发明实施例还提供了一种字符检测模型的训练方法，包括：

获取样本图像，所述样本图像是根据本发明第一方面或第一方面任一项实施方式中所述的样本图像的生成方法得到的；

获取所述样本图像的标签数据，所述标签数据包括所述样本图像中文本内容的位置信息以及目标旋转角度；

将所述样本图像输入所述字符检测模型中，得到所述样本图像中文本内容的预测位置信息以及预测旋转角度；

基于所述预测位置信息、所述预测旋转角度以及所述标签数据，对所述字符检测模型的参数进行更新，以得到目标字符检测模型。

本发明实施例提供的字符检测模型的训练方法，在获取到的目标场景下的大量且逼真的样本图像的基础上，进行字符检测模型的训练，能够提高所得到的目标字符检测模型的准确性；且训练得到的目标字符检测模型还输出有文本内容的旋转角度，提高目标字符检测模型的检测准确性。并且，后续对字符识别时可利用旋转角度对检测出的文本内容进行旋转，以进一步提高字符识别的准确性。

根据第三方面，本发明实施例还提供了一种字符识别模型的训练方法，包括：

获取样本图像，所述样本图像是根据本发明第一方面或第一方面任一实施方式中所述的样本图像的生成方法得到的；

将所述样本图像输入目标字符检测模型中，得到所述样本图像中文本内容的位置以及旋转角度，所述目标字符检测模型是根据本发明第二方面所述的字符检测模型的训练方法训练得到的；

利用所述文本内容的位置以及所述旋转角度对所述样本图像中的文本内容进行旋转，得到目标文本内容；

基于所述目标文本内容以及所述样本图像的文本标签，对字符识别模型的参数进行更新，以得到目标字符识别模型。

本发明实施例提供的字符识别模型的训练方法，在将检测出的文本行输入字符识别模型之前，先利用预测出的位置以及旋转角度对文本内容进行旋转校正，以保证所得到的目标文本内容的角度统一，再利用角度统一的目标文本内容对字符识别模型的参数进行更新，进一步提高了训练得到的目标字符识别模型的准确性。

根据第四方面，本发明实施例还提供了一种字符识别方法，包括：

获取目标场景下的待处理图像；

将所述待处理图像输入目标字符检测模型中，得到所述待处理图像中文本内容的位置以及旋转角度，所述目标字符检测模型是根据本发明第二方面所述的字符检测模型的训练方法训练得到的；

利用所述待处理图像中文本内容的位置以及旋转角度对所述待处理图像中文本内容进行旋转，得到待识别文本内容；

将所述待识别文本内容输入目标字符识别模型中，得到所述待处理图像的字符识别结果，所述目标字符识别模型是根据本发明第三方面所述的字符识别模型的训练方法训练得到的。

本发明实施例提供的字符识别方法，由于目标字符检测模型以及目标字符识别模型是用大量逼真的样本图像训练得到的，具有较高的字符检测以及字符识别准确性，利用目标字符检测模型以及目标字符识别模型对待处理图像进行字符识别，能够得到较准确的字符识别结果。

根据第五方面，本发明实施例还提供了一种样本图像的生成模块，包括：

第一获取模块，用于获取目标场景下的目标文本和风格特征以及第一样本字符的字体风格，所述目标文本和风格特征是对所述目标场景下的真实字符图像进行文本风格编码得到的；

风格处理模块，用于基于目标扩散模型对所述第一样本字符的字体风格以及所述目标文本和风格特征进行处理，得到所述目标场景下的样本字符图像，所述目标扩散模型用于将所述第一样本字符的字体风格迁移到所述真实字符图像中以生成所述样本字符图像；

拼接模块，用于将所述样本字符图像与所述目标场景下的背景图像进行拼接，得到样本图像。

根据第六方面，本发明实施例还提供了一种字符检测模型的训练装置，包括：

第二获取模块，用于获取样本图像，所述样本图像是根据本发明第一方面或第一方面任一项实施方式中所述的样本图像的生成方法得到的；

第三获取模块，用于获取所述样本图像的标签数据，所述标签数据包括所述样本图像中文本内容的位置信息以及目标旋转角度；

第一预测模块，用于将所述样本图像输入所述字符检测模型中，得到所述样本图像中文本内容的预测位置信息以及预测旋转角度；

第一更新模块，用于基于所述预测位置信息、所述预测旋转角度以及所述标签数据，对所述字符检测模型的参数进行更新，以得到目标字符检测模型。

根据第七方面，本发明实施例还提供了一种字符识别模型的训练装置，包括：

第四获取模块，用于获取样本图像，所述样本图像是根据本发明第一方面或第一方面任一项实施方式中所述的样本图像的生成方法得到的；

第一检测模块，用于将所述样本图像输入目标字符检测模型中，得到所述样本图像中文本内容的位置以及旋转角度，所述目标字符检测模型是根据本发明第二方面所述的字符检测模型的训练方法训练得到的；

第一旋转模块，用于利用所述文本内容的位置以及所述旋转角度对所述样本图像中的文本内容进行旋转，得到目标文本内容；

第二更新模块，用于基于所述目标文本内容以及所述样本图像的文本标签，对字符识别模型的参数进行更新，以得到目标字符识别模型。

根据第八方面，本发明实施例还提供了一种字符识别模块，包括：

第五获取模块，用于获取目标场景下的待处理图像；

第二检测模块，用于将所述待处理图像输入目标字符检测模型中，得到所述待处理图像中文本内容的位置以及旋转角度，所述目标字符检测模型是根据本发明第二方面所述的字符检测模型的训练方法训练得到的；

第二旋转模块，用于利用所述待处理图像中文本内容的位置以及旋转角度对所述待处理图像中文本内容进行旋转，得到待识别文本内容；

识别模块，用于将所述待识别文本内容输入目标字符识别模型中，得到所述待处理图像的字符识别结果，所述目标字符识别模型是根据本发明第三方面所述的字符识别模型的训练方法训练得到的。

根据第九方面，本发明实施例提供了一种电子设备，包括：存储器和处理器，所述存储器和所述处理器之间互相通信连接，所述存储器中存储有计算机指令，所述处理器通过执行所述计算机指令，从而执行第一方面或者第一方面的任意一种实施方式中所述的样本图像的生成方法，或者，执行第二方面所述的字符检测模型的训练方法，或者，执行第三方面所述的字符识别模型的训练方法，或者执行第四方面所述的字符识别方法。

根据第十方面，本发明实施例提供了一种计算机可读存储介质，所述计算机可读存储介质存储计算机指令，所述计算机指令用于使所述计算机执行第一方面或者第一方面的任意一种实施方式中所述的样本图像的生成方法，或者，执行第二方面所述的字符检测模型的训练方法，或者，执行第三方面所述的字符识别模型的训练方法，或者，执行第四方面所述的字符识别方法。

需要说明的是，本发明实施例提供的样本图像的生成装置、字符检测模型的训练装置、字符识别模型的训练装置、字符识别装置、电子设备及计算机可读存储介质的相应有益效果，请参见上文样本图像的生成方法、字符检测模型的训练方法、字符识别模型的训练方法以及字符识别方法得对应有益效果描述，在此不再赘述。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是根据本发明实施例的样本图像的生成方法的流程图；

图2是根据本发明实施例的样本图像的生成方法的流程图；

图3是根据本发明实施例的字符编码的示意图；

图4是根据本发明实施例的反向扩散过程的结构示意图；

图5是根据本发明实施例的字符检测模型的训练方法的流程图；

图6是根据本发明实施例的字符检测模型的结构示意图；

图7是根据本发明实施例的字符识别模型的训练方法的流程图；

图8是根据本发明实施例的字符识别方法的流程图；

图9是根据本发明实施例的样本图像的生成装置的结构框图；

图10是根据本发明实施例的字符检测模型的训练装置的结构框图；

图11是根据本发明实施例的字符识别模型的训练装置的结构框图；

图12是根据本发明实施例的字符识别装置的结构框图；

图13是根据本发明实施例提供的电子设备的硬件结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如上文所述，利用简单的字符风格生成的字符印刷体图像，其与目标场景下的背景图像不能很好地融合，对于字符识别造成很大的负面影响。在样本量稀缺的状况下，相关技术一般是利用生成模型来扩充样本数据集。其中，生成模型大多采用对抗神经模型，但由于对抗神经模型本身具有对抗性，很难训练达到平衡。基于此，本发明实施例提供的样本图像的生成方法，在样本数据集较少的情况下，基于目标扩散模型进行样本数据集的扩充，在此基础上提高了所得到的样本图像的逼真性。基于所生成的样本图像，本发明实施例还提供一种字符检测模型的训练方法，用于训练得到目标字符检测模型，以用于文本内容位置及旋转角度检测；进一步地，基于样本字符图像，本申请实施例还提供一种字符识别模型的训练方法，用于训练得到目标字符识别模型，以用于字符识别。

基于训练得到的目标字符识别模型，本发明实施例提供的字符识别方法可以应用于服装上的字符识别，也可以应用于条幅上的字符识别，等等。关于字符识别的具体应用场景是根据实际需求设置的，在此对其并不做任何限定。

根据本发明实施例，提供了一种样本图像的生成方法、字符识别模型的训练方法以及字符识别方法实施例，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

在本实施例中提供了一种样本图像的生成方法，可用于电子设备，如电脑、服务器等，图1是根据本发明实施例的样本图像的生成方法的流程图，如图1所示，该流程包括如下步骤：

S11，获取目标场景下的目标文本和风格特征以及第一样本字符。

其中，所述目标文本和风格特征是对目标场景下的真实字符图像进行文本风格编码得到的。

如上文所述，目标场景是根据实际需求设置的。例如，所训练出的字符识别模型是用于识别服装上的字符，相应地，目标场景下的真实字符图像为服装上的真实字符图像。通过图像采集设备采集到的真实场景中抠出服装上的字符图像，得到目标场景下的真实字符图像。

第一样本字符为不同风格的网络印刷字符，或其他形式的字符等等，在此对字符的形式和来源并不做任何限定，具体根据实际需求进行设置。

目标场景下的目标文本和风格特征是通过文本风格编码器得到的，该文本风格编码器的输入为字符图像，输出为字符图像的文本和风格特征，文本风格编码器的作用是用于提取输入字符图像的文本和风格特征，基于此，风格编码器是基于特征提取模型构建的。此处的特征提取模型包括但不限于MobileNetV2模型、ResNet或VGG等等。

S12，基于目标扩散模型对第一样本字符以及目标文本和风格特征进行处理，得到目标场景下的样本字符图像。

其中，所述目标扩散模型用于将第一样本字符的字体风格迁移到真实字符图像中以生成样本字符图像。

目标扩散模型是用于实现字体风格的迁移，在得到第一样本字符以及目标文本和风格特征之后，将其输入到目标扩散模型中，得到目标场景下的样本字符图像。具体地，目标扩散模型将第一样本字符的字体风格迁移到真实字符图像中，生成样本字符图像。以目标场景为服装上的字符识别为例，基于目标扩散模型将第一样本字符中的字体风格迁移到实际的人员服装场景中，生成逼真的样本字符图像。

S13，将样本字符图像与目标场景下的背景图像进行拼接，得到样本图像。

目标场景下的背景图像为字符图像的背景，上述S12中得到的仅仅是样本字符图像，该样本字符图像是融合了目标场景的文本和风格特征的字符图像，而为了得到具体的样本图像，需要将该字符图像融合到目标场景的背景中。具体地，将样本字符图像与目标场景下的背景图像进行拼接，该拼接可以是将样本字符图像放置在背景图像的任意位置，或者，以任意角度放置在背景图像的任意位置，等等。经过拼接处理之后，得到包括目标场景的背景以及样本字符的样本图像。

在此对所生成的样本图像的数量并不做任何限定，具体根据实际需求进行设置即可。

本实施例提供的样本图像的生成方法，利用目标场景下的真实字符图像获得的目标文本和风格特征作为目标扩散模型的条件，使用目标扩散模型将第一样本字符的字体风格迁移到真实字符图像中，从而保证所生成的样本字符图像中的文本与图像能够实现风格统一且更接近目标场景的真实文本风格，再将样本字符图像与目标场景下的背景图像进行拼接能够得到逼真的样本字符图像。利用该方法能够生成目标场景下的大量且逼真的样本图像，在此基础上，再进行预设字符识别模型的训练，能够提高所得到的目标字符识别模型的准确性。

在本实施例中提供了一种样本图像的生成方法，可用于电子设备，如电脑、服务器等，图2是根据本发明实施例的字符识别模型的训练方法的流程图，如图2所示，该流程包括如下步骤：

S21，获取目标场景下的目标文本和风格特征以及第一样本字符的字体风格。

具体地，上述S21包括：

S211，获取真实字符图像。

真实字符图像是从目标场景下采集的图像中抠取出字符图像得到的，具体的抠取方式在此对其并不做任何限定。

S212，对真实字符图像进行图像特征提取，得到图像风格编码。

图像特征提取可以是通过图像特征提取模型实现的，也可以是通过图像处理方式实现的。以特征提取模型为例，将真实字符图像输入到特征提取模型中，该模型的输出即为图像风格编码，例如，对输入的真实字符图像进行局部特征或关键点特征的提取，得到图像风格编码。

S213，对真实字符图像中的文本内容进行文本特征提取，得到文本编码。

文本内容为真实字符图像中的文本行，对文本行进行文本特征提取得到文本编码。文本特征提取也可以是通过文本特征提取模型实现的，该文本特征提取模块包括但不限于基于词袋模型的特征提取、基于持平-逆向文档频率(即，TF-IDF)的特征提取或者基于词向量的特征提取等等。

S214，对图像风格编码与文本编码进行融合，得到目标文本和风格特征。

图像风格编码与文本编码的融合方式包括但不限于两个编码向量的拼接，或两个编码向量的加权和方式等等，经过融合处理之后得到目标文本和风格特征。

在一些实施方式中，上述S214包括：

(1)对图像风格编码以及文本编码进行注意力处理，得到图像风格编码以及文本编码之间的注意力。

(2)将注意力与文本编码融合，并将融合结果经过前馈网络的处理得到目标文本和风格特征。

注意力处理是基于多头注意力模块实现的，输入为图像风格编码以及文本编码，输出为图像风格编码与文本编码之间的注意力，使得不同的文本字符关注给定风格样本的不同部分。在得到两者之间的注意力之后，将该注意力与文本编码进行融合得到融合结果，再将融合结果经过前馈网络后得到目标文本和风格特征。其中，注意力与文本编码的融合可以是多维矩阵通道方向上的堆叠。前馈网络的作用是整合字符区域的图像特征和该区域字符内容的语义特征。

通过注意力实现图像风格编码与文本编码的融合，使得不同的文本内容关注给定图像风格编码的不同部分，提高了所得到的融合结果的可靠性以及真实性，在此基础上再经过前馈网络的处理能够提取较丰富的语义特征，进一步保证了真实字符图像文本风格编码的真实性，从而使得将目标文本和风格特征作为目标扩散模型的输入条件时，目标扩散模型能够得到扩散得到更为真实的样本图像。

作为一个具体应用实例，以服装上的字符识别为例。图3示出了文本风格编码的一个具体应用实例。具体地，如图3所示，上述的确定目标文本和风格特征的方式包括：将相机采集到的真实场景抠取出服装上的字符图像，输入到在Imagenet上预训练的MobileNetV2模型，丢弃顶部全连接层，利用平均池化层提取局部特征作为图像风格编码。由于此处的MobileNetV2模型，本质上来说是一个分类模型，所以才会在模型的最后接入全连层用来实现分类功能。而在本实施例中，只需要该模型作为一个特征提取器，所以去掉全连层；也就是分类模块的全连层之前的网络结构是特征提取模块，加入平均池化的目的是为了对特征进行滤波。当然，除了平均池化以外，还可以采用最大池化层等等，在此对其并不做任何限定。进一步地，根据字符图像中的文本内容使用嵌入层对当前文本行编码，按照英文及数字的字符顺序编码，用于表示文本编码。将提取的图像风格编码与文本编码输入至多头注意力层，通过计算文本编码和提取的特征之间的注意力，使得不同的文本字符关注给定风格样本的不同部分。最后，将多头注意力机制的输出加上到文本编码上，再经过前馈网络得到最终的目标文本和风格特征输出。

S215，获取第一样本字符。

S22，基于目标扩散模型对第一样本字符以及目标文本和风格特征进行处理，得到目标场景下的样本字符图像。

如上文所述，目标扩散模型是用于实现字体风格迁移的，其输出为样本字符图像。

在一些实施方式中，目标扩散模型的训练方法包括：

(1)获取第二样本字符以及目标场景下样本图像的文本和风格特征。

(2)在预设扩散模型的正向扩散过程中，基于第二样本字符生成噪声图像。

(3)基于噪声图像以及目标场景下样本图像的文本和风格特征，对预设扩散模型的反向扩散过程进行训练，以确定目标扩散模型。

第二样本字符是随机生成的图像，例如，利用opencv工具生成随机长度、随机颜色、随机大小的第二样本字符作为原始图像。目标场景下样本图像的文本和风格特征的获取方式以上文所述的目标文本和风格特征的获取方式类似，在此不再赘述。

对于预设扩散模型而言，其包括正向扩散过程以及反向扩散过程，其中，正向扩散过程是用于将原始图像的分布变成标准的高斯分布的过程，反向扩散过程是用于生成目标场景下的字符图像的。以服装上的字符识别为例，在正向扩散过程中，在原始图像上随机添加噪声。对于噪音机制β₁,…β_T，采用β_t＝0.02+Exponential(1×10^-5,0.4)，其中Exponential(1×10^-5,0.4)表示log(1×10^-5)到log(0.4)之间的浮点数。经过T步迭代最终将原始图片的分布变成标准的高斯分布。其中，β_i表示第i次迭代加入的噪声(i＝1，2，……，T)，T的具体取值是根据实际需求设置的，在此对其并不做任何限定。

对于反向扩散过程是基于如图4所述的UNet模型实现的，如图4所示，UNet模型由下采样块和上采样块组成，并使用长范围卷积跳跃连接，其主要使用两种类型的区块，卷积区块和注意力区块。卷积块由3个卷积层和一个卷积跳跃连接组成并对每个卷积层的输出应用条件仿射变换，每个条件仿射变换的尺度和偏差由全连接层的输出参数化。注意块由2个多头注意层和一个前馈网络组成。第一个注意层在输入的噪声图像的文本序列潜变量和样本图像的文本和风格特征之间执行注意，而第二个注意层执行自我注意。使用层归一化在每个注意层和前馈网络后进行条件仿射变换。如图4所示，注意力块的输入包括两部分，一部分是作为监督使用的原始图像，另一部分是目标场景下样本图像的文本和风格特征，即，以噪声图像作为监督，将真实服装场景下的样本图像的文本和风格特征作为条件训练扩散模型的反向过程。

在反向过程中，从球形高斯函数中对一个正向过程输出的噪声图像进行采样得到长马尔科夫链的噪声图像，并使用包含服装字符语义的条件潜变量(即，样本图像的文本和风格特征)对长马尔可夫链中的噪声图像进行去噪，生成服装场景风格的字符图像。

以第二样本字符作为监督，目标场景下样本图像的文本和风格特征作为条件对预设扩散模型的反向扩散过程进行训练，能够保证所得到的目标扩散模型能够生成与目标场景贴合的图像。

S23，将样本字符图像与目标场景下的背景图像进行拼接，得到样本图像。

具体地，上述S23包括：

S231，获取目标场景下的背景图像，并对背景图像进行感兴趣区域的识别，得到感兴趣区域图像。

在将样本字符图像拼接至背景图像中时，一般是拼接在背景图像中的感兴趣区域的。例如，服装上的字符一般是为人员的上半身，基于此，需要对采集到的背景图像进行人员上半身的识别，此时人员的生半身为背景图像中的感兴趣区域。

在对背景图像进行感兴趣区域的识别，确定感兴趣区域的位置，再利用该感兴趣区域的位置从背景图像中截取出局部图像，得到感兴趣区域图像。

S232，对样本字符图像进行任意角度的旋转，得到旋转后的样本字符图像。

样本字符图像的旋转角度是根据实际需求设置的，对样本字符图像旋转任意角度后，得到旋转后的样本字符图像。为了便于对旋转角度的记录，规定旋转角度为旋转目标框的短边与x轴正方向的锐角夹角，其中逆时针方向指定为正角，顺时针方向为负角，因此，角度范围为[-90，90)。

S233，将旋转后的样本字符图像与感兴趣区域图像进行拼接，得到样本图像。

拼接方式是将旋转后的样本字符图像贴在感兴趣区域图像中，得到样本图像。

进一步地，为了得到大量的样本图像，可以采用大量且不同风格的第一样本字符作为目标扩散模型的输入，收集目标场景下不同风格的真实场景图像得到真实场景图像的目标文本和风格特征，再以目标文本和风格特征作为目标扩散模型的条件，生成大量的样本字符图像，从而生成大量的样本图像。

本实施例提供的样本图像的生成方法，针对真实字符图像分别进行图像特征以及文本特征的提取，再将两者进行融合，使得所得到的目标文本和风格特征中既包括有图像特征又包括有文本特征，提高了所得到的目标文本和风格特征的可靠性。通过感兴趣区域的识别以便于后续将样本字符图像拼接到感兴趣区域，以贴近目标场景下的使用；同时，对样本字符图像进行任意角度的旋转，从而能够生成大量的样本图像，从而丰富样本图像的数量。

在本实施例中提供了一种字符检测模型的训练方法，可用于电子设备，如电脑、服务器等，图5是根据本发明实施例的字符检测模型的训练方法的流程图，如图5所示，该流程包括如下步骤：

S31，获取样本图像。

其中，所述样本图像是根据上述任一项所述的样本图像的生成方法得到的。关于样本图像的生成请参见上文所述，在此不再赘述。

S32，获取样本图像的标签数据。

其中，所述标签数据包括所述样本图像中文本内容的位置信息以及目标旋转角度。

文本内容的位置信息以及目标旋转角度是在上述将样本字符图像与目标场景下的背景图像进行拼接时记录得到的。

S33，将样本图像输入字符检测模型中，得到样本图像中文本内容的预测位置信息以及预测旋转角度。

字符检测模型的输入为样本图像，输出为样本图像中文本行的预测位置信息以及预测旋转角度。其中，预测位置信息可以采用中心点、长度与宽度的方式进行表示，也可以采用文本行所在的预测框的左上角坐标与右下角坐标的方式进行表示等等，具体对其并不做任何限定。

S34，基于预测位置信息、预测旋转角度以及标签数据，对字符检测模型的参数进行更新，确定目标字符检测模型。

作为本实施例的字符检测模型的一个具体应用实例，以resnet-18作为主干网络搭建字符检测模型，并在其后接4个输出的特征图分支，分别是目标中心点热图、采样偏移量、目标框的大小以及目标框的旋转角度，通过对这四个分支进行训练以预测目标的具体位置。具体地，将所得到的样本图像缩放至3*320*192分辨率大小，作为字符检测模型的输入，其输出中心点热图、偏移量特征图、目标框大小特征图以及角度特征图。再结合样本图像的标签，不断迭代标签与字符检测模型输出之间的损失值，进行参数化训练，以更新字符检测模型的参数，最终确定出目标字符检测单元。

具体地，针对在主干网络输出的特征图大小，通过高斯核计算热图真实值，当枚举块的位置和真实中心关键点坐标接近重合的时候，高斯核输出值接近为1；当枚举块位置和真实中心关键点相差很大时，高斯核输出值接近为0。中心点热图输出尺寸为原图尺寸的四分之一，由于检测目标只有字符框一个类别，故输出热图尺寸为80*48*1。在训练过程中，中心点热图采用focal loss进行训练。在推理过程中，对预测的中心点热图进行3×3最大池化计算出符合检测阈值的中心点。

由于图像进行了R＝4的下采样，根据特征图下采样率计算中心点x轴和y轴的偏移量，设定关于偏移的损失函数，使得训练后的网络能够弥补中心点偏移值，修正检测框的位置。该分支输出特征图尺寸为80*48*2，用来预测x轴和y轴的偏移量，这个偏置值用L1损失来训练。

字符检测模型输出的目标框大小特征图尺寸为80*48*2，2个通道分别对应高和宽的预测，将预测得到的高和宽映射成原图大小，采用L1损失训练此分支，进而使得字符检测模型预测的高和宽逐渐收敛于原图字符框。

字符检测模型在主干网络的特征提取器后，添加角度信息的检测头，此特征图尺寸为80*48*1，用来预测目标框的旋转角度，将目标角度误差反馈到字符检测模型中，使得字符检测模型能够学习到目标的角度信息。

本实施例提供的字符检测模型的训练方法，在获取到的目标场景下的大量且逼真的样本图像的基础上，进行字符检测模型的训练，能够提高所得到的目标字符检测模型的准确性；且训练得到的目标字符检测模型还输出有文本内容的旋转角度，提高目标字符检测模型的检测准确性。并且，后续字符识别时可利用旋转角度对检测出的文本内容进行旋转，以进一步提高字符识别的准确性。

在本实施例中提供了一种字符识别模型的训练方法，可用于电子设备，如电脑、服务器等，图6是根据本发明实施例的字符识别模型的训练方法的流程图，如图6所示，该流程包括如下步骤：

S41，获取样本图像。

S42，将样本图像输入目标字符检测模型中，得到样本图像中文本内容的位置以及旋转角度。

其中，目标字符检测模型是根据上述的字符检测模型的训练方法训练得到的。关于目标字符检测模型的具体细节请参见上文所述，在此不再赘述。

S43，利用文本内容的位置以及旋转角度对样本图像中的文本内容进行旋转，得到目标文本内容。

对文本内容的旋转方式可以是利用文本内容的位置先提取出文本行，再结合旋转角度对文本行进行旋转得到目标文本内容；也可以利用文本内容的位置以及旋转角度对文本内容梯形校正，具体地，利用位置以及旋转角度来计算出透视变换矩阵，再利用该透视变换矩阵对样本图像中的文本内容进行透视变换，得到目标文本内容。

当然，也可以在文本内容的位置以及旋转角度的基础上，采用其他方式对文本内容进行旋转得到目标文本内容，在此对其并不做任何限定。

S44，基于目标文本内容以及样本图像的文本标签，对字符识别模型的参数进行更新，以得到目标字符识别模型。

字符识别模型可以是预训练的字符识别模型，例如，可以是一个预训练的英文字符及数字字符分类器，用于识别英文和数字。在训练过程中，对字符识别模型的参数进行调整，以固定该字符识别模型的参数。参数调整过程可以是将生成的样本图像按原图宽高比例缩放至3*32*384分辨率，若原图缩放后宽度不足384，则三通道分别使用三通道的均值补齐，若宽度大于384，将图像以384宽度截断分批送入预训练的字符识别模型。该字符识别模型是以resnet18为主干网络搭建的，通过softmax激活函数对52个英文大小写字母以及10个数字进行分类。训练使用文本分类的CTCloss，对于输入的重复的字符设为blank。作为一个类别，则最终分类特征图为1*48*63，在此特征图上进行CTCloss计算，通过Adam优化器不断调整网络参数以拟合正确的字符串，从而固定字符识别模型的参数，得到预训练字符识别模型。进一步地，将预训练字符识别模型应用到目标场景中，使用目标字符检测模型对样本图像进行检测，并基于文本内容的位置和旋转角度对文本内容进行旋转得到目标文本内容，利用预训练字符识别模型计算目标文本内容和样本图像文本标签的损失，基于该损失更新预训练字符识别模型的参数得到目标字符识别模型，使得目标字符识别模型更适应于目标场景下的字符/文本识别。

本实施例提供的字符识别模型的训练方法，在将检测出的文本行输入字符识别模型之前，先利用预测出的位置以及旋转角度对文本内容进行旋转校正，以保证所得到的目标文本内容的角度统一，再利用角度统一的目标文本内容对字符识别模型的参数进行更新，进一步提高了训练得到的目标字符识别模型的准确性。

在本实施例中提供了一种字符识别方法，可用于电子设备，如电脑、服务器，移动终端等，图8是根据本发明实施例的字符识别方法的流程图，如图8所示，该流程包括如下步骤：

S51，获取目标场景下的待处理图像。

待处理图像为在目标场景下的图像，可以是目标场景下的采集设备采集得到的，也可以存储在电子设备中的等等，在此对其来源并不做任何限定。

S52，将待处理图像输入目标字符检测模型中，得到待处理图像中文本内容的位置以及旋转角度。

其中，所述目标字符检测模型是根据上述的字符检测模型的训练方法训练得到的。关于目标字符检测模型的具体结构细节请参见上文所述，在此不再赘述。

S53，利用待处理图像中文本内容的位置以及旋转角度对待处理图像中文本内容进行旋转，得到待识别文本内容。

具体的旋转处理与上文S43中的旋转处理类似，在此不再赘述。

S54，将待识别文本内容输入目标字符识别模型中，得到待处理图像的字符识别结果。

其中，所述目标字符识别模型是根据上述的字符识别模型的训练方法训练得到的。

在一些实施方式中，若所训练的目标字符识别模型仅能够识别英文字符和数字，对于目标字符识别模型而言，可能检测到中文字符，从而导致目标字符识别模型出现误分类的情况，即输出较长的英文和数字夹杂的乱码情况。基于此，设定中英文出现次数的比例阈值，由于中文字符的预测得分普遍较低，当低于分类得分阈值的字符个数与该字符串长度的比值大于设定的比例阈值时，则认为该字符串为中文，不输出，其他情况输出字符识别结果。

由于旋转校正是依赖于目标字符检测模型的输出而并非是独立的旋转检测得到的，基于此对文本内容进行旋转得到校正后的待识别文本内容，在此基础上再进行字符识别，提高了字符识别结果的准确性。

本实施例提供的字符识别方法，由于目标字符检测模型以及目标字符识别模型是用大量逼真的样本图像训练得到的，具有较高的字符检测以及字符识别准确性，利用目标字符检测模型以及目标字符识别模型对待处理图像进行字符识别，能够得到较准确的字符识别结果。

在本实施例中还提供了一种样本图像的生成装置、字符检测模型的训练装置、字符识别模型的训练装置以及字符识别装置，该装置用于实现上述实施例及优选实施方式，已经进行过说明的不再赘述。如以下所使用的，术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现，但是硬件，或者软件和硬件的组合的实现也是可能并被构想的。

本实施例提供一种样本图像的生成装置，如图9所示，包括：

第一获取模块61，用于获取目标场景下的目标文本和风格特征以及第一样本字符，所述目标文本和风格特征是对所述目标场景下的真实字符图像进行文本风格编码得到的；

风格处理模块62，用于基于目标扩散模型对所述第一样本字符以及所述目标文本和风格特征进行处理，得到所述目标场景下的样本字符图像，所述目标扩散模型用于将所述第一样本字符的字体风格迁移到所述真实字符图像中以生成所述样本字符图像；

拼接模块63，用于将所述样本字符图像与所述目标场景下的背景图像进行拼接，得到样本图像。

在一些实施方式中，第一获取模块61包括：

第一获取单元，用于获取所述真实字符图像；

第一特征提取单元，用于对所述真实字符图像进行图像特征提取，得到图像风格编码；

第二特征提取单元，用于对所述真实字符图像中的文本内容进行文本特征提取，得到文本编码；

融合单元，用于对所述图像风格编码与所述文本编码进行融合，得到所述目标文本和风格特征。

在一些实施方式中，融合单元包括：

注意力处理子单元，用于对所述图像风格编码以及所述文本编码进行注意力处理，得到所述图像风格编码以及所述文本编码之间的注意力；

融合子单元，用于将所述注意力与所述文本编码融合，并将融合结果经过前馈网络的处理得到所述目标文本和风格特征。

在一些实施方式中，拼接模块63包括：

第二获取单元，用于获取所述目标场景下的背景图像，并对所述背景图像进行感兴趣区域的识别，得到感兴趣区域图像；

第一旋转单元，用于对所述样本字符图像进行任意角度的旋转，得到旋转后的样本字符图像；

拼接单元，用于将所述旋转后的样本字符图像与所述感兴趣区域图像进行拼接，得到所述样本图像。

在一些实施方式中，所述目标扩散模型的训练模块包括：

第四获取单元，用于获取第二样本字符以及所述目标场景下样本图像的文本和风格特征；

生成单元，用于在预设扩散模型的正向扩散过程中，基于所述第二样本字符生成噪声图像；

训练单元，用于基于所述噪声图像以及所述目标场景下样本图像的文本和风格特征，对所述预设扩散模型的反向扩散过程进行训练，以确定所述目标扩散模型。

本实施例提供一种字符检测模型的训练装置，如图10所示，包括：

第二获取模块71，用于获取样本图像，所述样本图像是根据本发明第一方面或第一方面任一项实施方式中所述的样本图像的生成方法得到的；

第三获取模块72，用于获取所述样本图像的标签数据，所述标签数据包括所述样本图像中文本内容的位置信息以及目标旋转角度；

第一预测模块73，用于将所述样本图像输入所述字符检测模型中，得到所述样本图像中文本内容的预测位置信息以及预测旋转角度；

第一更新模块74，用于基于所述预测位置信息、所述预测旋转角度以及所述标签数据，对所述字符检测模型的参数进行更新，以得到目标字符检测模型。

本实施例提供一种字符识别模型的训练装置，如图11所示，包括：

第四获取模块81，用于获取样本图像，所述样本图像是根据本发明第一方面或第一方面任一项实施方式中所述的样本图像的生成方法得到的；

第一检测模块82，用于将所述样本图像输入目标字符检测模型中，得到所述样本图像中文本内容的位置以及旋转角度，所述目标字符检测模型是根据本发明第二方面所述的字符检测模型的训练方法训练得到的；

第一旋转模块83，用于利用所述文本内容的位置以及所述旋转角度对所述样本图像中的文本内容进行旋转，得到目标文本内容；

第二更新模块84，用于基于所述目标文本内容以及所述样本图像的文本标签，对字符识别模型的参数进行更新，以得到目标字符识别模型。

本实施例提供一种字符识别装置，如图12所示，包括：

第五获取模块91，用于获取目标场景下的待处理图像；

第二检测模块92，用于将所述待处理图像输入目标字符检测模型中，得到所述待处理图像中文本内容的位置以及旋转角度，所述目标字符检测模型是根据本发明第二方面所述的字符检测模型的训练方法训练得到的；

第二旋转模块93，用于利用所述待处理图像中文本内容的位置以及旋转角度对所述待处理图像中文本内容进行旋转，得到待识别文本内容；

识别模块94，用于将所述待识别文本内容输入目标字符识别模型中，得到所述待处理图像的字符识别结果，所述目标字符识别模型是根据本发明第三方面所述的字符识别模型的训练方法训练得到的。

本实施例中的字符识别模型的训练装置以及字符识别装置是以功能单元的形式来呈现，这里的单元是指ASIC电路，执行一个或多个软件或固定程序的处理器和存储器，和/或其他可以提供上述功能的器件。

上述各个模块的更进一步的功能描述与上述对应实施例相同，在此不再赘述。

本发明实施例还提供一种电子设备，具有上述图9所示的样本图像的生成装置，或图10所示的字符检测模型的训练装置，或图11所示的字符识别模型的训练装置，或图12所示的字符识别装置。

请参阅图13，图13是本发明可选实施例提供的一种终端的结构示意图，如图13所示，该终端可以包括：至少一个处理器101，例如CPU(Central Processing Unit，中央处理器)，至少一个通信接口103，存储器104，至少一个通信总线102。其中，通信总线102用于实现这些组件之间的连接通信。其中，通信接口103可以包括显示屏(Display)、键盘(Keyboard)，可选通信接口103还可以包括标准的有线接口、无线接口。存储器104可以是高速RAM存储器(Random Access Memory，易挥发性随机存取存储器)，也可以是非不稳定的存储器(non-volatile memory)，例如至少一个磁盘存储器。存储器104可选的还可以是至少一个位于远离前述处理器101的存储装置。其中处理器101可以结合图9或图10或图11或图12所描述的装置，存储器104中存储应用程序，且处理器101调用存储器104中存储的程序代码，以用于执行上述任一方法步骤。

其中，通信总线102可以是外设部件互连标准(peripheral componentinterconnect，简称PCI)总线或扩展工业标准结构(extended industry standardarchitecture，简称EISA)总线等。通信总线102可以分为地址总线、数据总线、控制总线等。为便于表示，图13中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

其中，存储器104可以包括易失性存储器(英文：volatile memory)，例如随机存取存储器(英文：random-access memory，缩写：RAM)；存储器也可以包括非易失性存储器(英文：non-volatile memory)，例如快闪存储器(英文：flash memory)，硬盘(英文：hard diskdrive，缩写：HDD)或固态硬盘(英文：solid-state drive，缩写：SSD)；存储器104还可以包括上述种类的存储器的组合。

其中，处理器101可以是中央处理器(英文：central processing unit，缩写：CPU)，网络处理器(英文：network processor，缩写：NP)或者CPU和NP的组合。

其中，处理器101还可以进一步包括硬件芯片。上述硬件芯片可以是专用集成电路(英文：application-specific integrated circuit，缩写：ASIC)，可编程逻辑器件(英文：programmable logic device，缩写：PLD)或其组合。上述PLD可以是复杂可编程逻辑器件(英文：complex programmable logic device，缩写：CPLD)，现场可编程逻辑门阵列(英文：field-programmable gate array，缩写：FPGA)，通用阵列逻辑(英文：generic arraylogic,缩写：GAL)或其任意组合。

可选地，存储器104还用于存储程序指令。处理器101可以调用程序指令，实现如本申请任一实施例中所示的样本图像的生成方法、字符检测模型的训练方法、字符识别模型的训练方法或字符识别方法。

本发明实施例还提供了一种非暂态计算机存储介质，所述计算机存储介质存储有计算机可执行指令，该计算机可执行指令可执行上述任意方法实施例中的样本图像的生成方法、字符检测模型的训练方法、字符识别模型的训练方法或字符识别方法。其中，所述存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)、随机存储记忆体(Random Access Memory，RAM)、快闪存储器(Flash Memory)、硬盘(Hard Disk Drive，缩写：HDD)或固态硬盘(Solid-State Drive，SSD)等；所述存储介质还可以包括上述种类的存储器的组合。

虽然结合附图描述了本发明的实施例，但是本领域技术人员可以在不脱离本发明的精神和范围的情况下做出各种修改和变型，这样的修改和变型均落入由所附权利要求所限定的范围之内。

Claims

1.一种样本图像的生成方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述获取目标场景下的目标文本和风格特征，包括：

获取所述真实字符图像；

3.根据权利要求2所述的方法，其特征在于，所述对所述图像风格编码与所述文本编码进行融合，得到所述目标文本和风格特征，包括：

4.根据权利要求1所述的方法，其特征在于，所述将所述样本字符图像与所述目标场景下的背景图像进行拼接，得到样本图像，包括：

5.根据权利要求1-4中任一项所述的方法，其特征在于，所述目标扩散模型的训练方法包括：

6.一种字符检测模型的训练方法，其特征在于，包括：

获取样本图像，所述样本图像是根据权利要求1-5中任一项所述的样本图像的生成方法得到的；

7.一种字符识别模型的训练方法，其特征在于，包括：

将所述样本图像输入目标字符检测模型中，得到所述样本图像中文本内容的位置以及旋转角度，所述目标字符检测模型是根据权利要求6所述的字符检测模型的训练方法训练得到的；

8.一种字符识别方法，其特征在于，包括：

获取目标场景下的待处理图像；

将所述待处理图像输入目标字符检测模型中，得到所述待处理图像中文本内容的位置以及旋转角度，所述目标字符检测模型是根据权利要求6所述的字符检测模型的训练方法训练得到的；

将所述待识别文本内容输入目标字符识别模型中，得到所述待处理图像的字符识别结果，所述目标字符识别模型是根据权利要求7所述的字符识别模型的训练方法训练得到的。

9.一种电子设备，其特征在于，包括：

存储器和处理器，所述存储器和所述处理器之间互相通信连接，所述存储器中存储有计算机指令，所述处理器通过执行所述计算机指令，从而执行权利要求1-5中任一项所述的样本图像的生成方法，或者，执行权利要求6所述的字符检测模型的训练方法，或者，执行权利要求7所述的字符识别模型的训练方法，或者，执行权利要求8所述的字符识别方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机指令，所述计算机指令用于使计算机执行权利要求1-5中任一项所述的样本图像的生成方法，或者，执行权利要求6所述的字符检测模型的训练方法，或者，执行权利要求7所述的字符识别模型的训练方法，或者，执行权利要求8所述的字符识别方法。