CN113657395A

CN113657395A - 文本识别方法、视觉特征提取模型的训练方法及装置

Info

Publication number: CN113657395A
Application number: CN202110944388.0A
Authority: CN
Inventors: 徐杨柳; 谢群义; 钦夏孟; 章成全; 姚锟
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2021-08-17
Filing date: 2021-08-17
Publication date: 2021-11-16
Anticipated expiration: 2041-08-17
Also published as: CN113657395B

Abstract

本公开提供了一种文本识别方法、视觉特征提取模型的训练方法及装置，涉及人工智能技术领域，具体为计算机视觉和深度学习技术领域，可应用于光学字符识别等场景，包括：获取待识别图像中待识别文本分别对应的先验特征和视觉特征，先验特征是基于待识别图像的先验知识确定的，对先验特征和视觉特征进行融合处理，得到融合特征，对融合特征进行编码处理得到编码特征，对编码特征进行解码处理，得到与待识别文本对应的文本内容，使得文本识别过程不再为孤立和片面的过程，而具有全面性和完整性，以通过充分考虑可能影响文本识别的信息(用于确定先验特征的信息、用于确定视觉特征的信息)确定文本内容，以提高文本识别的可靠性、准确性、及精度。

Description

文本识别方法、视觉特征提取模型的训练方法及装置

技术领域

本公开涉及人工智能技术领域，具体为计算机视觉和深度学习技术领域，可应用于光学字符识别(Optical Character Recognition，OCR)等场景，尤其涉及一种文本识别方法、视觉特征提取模型的训练方法及装置。

背景技术

随着人工智能技术地发展，可以基于人工智能技术解决因信息多样化而产生的信息处理难度大等问题，如可以基于人工智能技术解决对图像中的文本内容进行识别。

现有的文本识别方法识别得到的文本内容的准确性偏低。

发明内容

本公开提供了一种用于提高文本内容的识别的准确性的文本识别方法、视觉特征提取模型的训练方法及装置。

根据本公开的第一方面，提供了一种文本识别方法，包括：

获取待识别图像中待识别文本分别对应的先验特征和视觉特征，所述先验特征是基于所述待识别图像的先验知识确定的；

对所述先验特征和所述视觉特征进行融合处理，得到融合特征；

对所述融合特征进行编码处理得到编码特征，并对所述编码特征进行解码处理，得到与所述待识别文本对应的文本内容。

根据本公开的第二方面，提供了一种视觉特征提取模型的训练方法，包括：

重复下述步骤，直至得到满足预设迭代需求的视觉特征提取模型：

基于视觉特征提取模型提取样本图像中样本文本的样本先验特征和样本视觉特征，基于判别模型确定所述样本先验特征和所述样本视觉特征的区分信息，根据所述区分信息对所述视觉特征提取模型的参数和所述判别模型的参数进行调整，其中，所述视觉特征提取模型用于获取待识别图像中待识别文本对应的视觉特征，所述视觉特征用于，与所述待识别文本对应的先验特征确定所述待识别文本对应的文本内容，所述样本先验特征是基于所述样本图像的先验知识确定的，所述先验特征是基于所述待识别图像的先验知识确定的。

根据本公开的第三方面，提供了一种文本识别装置，包括：

获取单元，用于获取待识别图像中待识别文本分别对应的先验特征和视觉特征，所述先验特征是基于所述待识别图像的先验知识确定的；

融合单元，用于对所述先验特征和所述视觉特征进行融合处理，得到融合特征；

编码单元，用于对所述融合特征进行编码处理得到编码特征；

解码单元，用于对所述编码特征进行解码处理，得到与所述待识别文本对应的文本内容。

根据本公开的第四方面，提供了一种视觉特征提取模型的训练装置，包括：

提取单元，用于基于视觉特征提取模型提取样本图像中样本文本的样本先验特征和样本视觉特征；

确定单元，用于基于判别模型确定所述样本先验特征和所述样本视觉特征的区分信息；

调整单元，用于根据所述区分信息对所述视觉特征提取模型的参数和所述判别模型的参数进行调整，其中，所述视觉特征提取模型用于获取待识别图像中待识别文本对应的视觉特征，所述视觉特征用于，与所述待识别文本对应的先验特征确定所述待识别文本对应的文本内容，所述样本先验特征是基于所述样本图像的先验知识确定的，所述先验特征是基于所述待识别图像的先验知识确定的。

根据本公开的第五方面，提供了一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行第一方面所述的文本识别方法；或者，以使所述至少一个处理器能够执行第二方面所述的视觉特征提取模型的训练方法。

根据本公开的第六方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行第一方面所述的文本识别方法；或者，所述计算机指令用于使所述计算机执行第二方面所述的视觉特征提取模型的训练方法。

根据本公开的第七方面，提供了一种计算机程序产品，所述计算机程序产品包括：计算机程序，所述计算机程序存储在可读存储介质中，电子设备的至少一个处理器可以从所述可读存储介质读取所述计算机程序，所述至少一个处理器执行所述计算机程序使得电子设备执行第一方面所述的文本识别方法；或者，所述至少一个处理器执行所述计算机程序使得电子设备执行第二方面所述的视觉特征提取模型的训练方法。

本实施例中，通过采用包括：获取先验特征和视觉特征，根据先验特征和视觉特征生成融合特征，以基于融合特征确定文本内容的技术特征的技术方案，丰富了用于确定文本内容的特征(即先验特征)，使得文本识别过程不再为孤立和片面的过程，而具有全面性和完整性，以通过充分考虑可能影响文本识别的信息(用于确定先验特征的信息、以及用于确定视觉特征的信息)确定文本内容，提高文本识别的可靠性、准确性、及精度的技术效果。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1是根据本公开实施例的文本识别方法的应用场景的示意图；

图2是根据本公开第一实施例的示意图；

图3是根据本公开第二实施例的示意图；

图4是对组合特征与视觉特征进行融合处理的效果示意图；

图5是根据本公开第三实施例的示意图；

图6是根据本公开第四实施例的示意图；

图7是根据本公开的训练阶段和应用阶段的原理示意图；

图8是根据本公开第五实施例的示意图；

图9是根据本公开第六实施例的示意图；

图10是根据本公开第七实施例的示意图；

图11是根据本公开第八实施例的示意图；

图12是用来实现本公开实施例的文本识别方法、视觉特征提取模型的训练方法的电子设备的框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

文本识别是指，对图像进行识别，以得到图像中的文本内容，文本识别在如财务报销(如对图像中发票的文本内容进行识别等)、智慧交通(如对图像中车票的文本内容进行识别等)、以及安防监控等领域有至关重要的作用。

例如，对如图1中所示的发票的图像进行文本识别，可以得到图像中的发票的文本内容：“机器编号XX01”、“名称：XX企业”、“纳税人识别号：XXX123”。

结合图1可知，在相关技术中，通常采用的文本识别方法包括：预先训练生成文本识别模型，文本识别模型中包括矫正模型、视觉特征提取器、编码模块、以及解码模块。

其中，由矫正模块对图像进行矫正处理，以得到矫正处理后的图像；由视觉特征提取器对矫正处理后的图像进行特征提取，得到与图像中文本内容对应的视觉特征；由编码模块对视觉特征进行编码处理，得到编码特征；由解码模块对编码特征进行解码处理，得到图像中的文本内容。

然而，图像中包括较为丰富的与文本内容相关的内容，仅从视觉特征的维度确定图像中的文本内容，使得文本识别的过程相对较孤立和片面，容易丢失影响文本识别的信息，从而造成文本识别的准确性和可靠性偏低的技术问题。

在一些可能实现的方案中，提出了增加语料库中，用于训练文本识别模型的样本量，以基于足够庞大的语料库提高文本识别模型的精度。

然而，收集或者开发样本量需要更高的成本训练语言模型，以基于语言模型增加样本量，从而造成成本偏高，且训练效率相对偏低的技术问题。

为了避免上述技术问题中的至少一种，本公开的发明人经过创造性地劳动，得到了本公开的发明构思：既获取待识别图像中待识别文本的视觉特征，也获取基于待识别文本的先验知识确定的先验特征，以基于视觉特征和先验特征确定与待识别文本对应的文本内容。

基于上述发明构思，本公开提供一种文本识别方法、视觉特征提取模型的训练方法及装置，应用于人工智能技术领域，具体为计算机视觉和深度学习技术领域，可应用于光学字符识别等场景，以达到提高识别精度。

图2是根据本公开第一实施例的示意图，如图2所示，本公开实施例的文本识别方法，包括：

S201：获取待识别图像中待识别文本分别对应的先验特征和视觉特征。

其中，先验特征是基于待识别图像的先验知识确定的。

示例性地，本实施例的执行主体为文本识别装置，文本识别装置可以为服务器(如云端服务器，又如本地服务器)，文本识别装置也可以为计算机，文本识别装置也可以为终端设备(如台式电脑等)，文本识别装置也可以为处理器，文本识别装置还可以为芯片等，本实施例不做限定。

其中，先验知识是指基于经验而获得的知识，待识别图像的先验知识可以理解为，基于与待识别图像相关的历史信息、或者基于历史信息整合而得到的相关知识。

例如，当本实施例的方法应用于如图1所示的应用场景时，先验知识可以为基于发票的图像相关的历史信息确定的，如与发票的图像环境相关的知识，又如与发票的图像的背景内容相关的知识等，此处不再一一列举。

视觉特征是指，待识别文本在视觉上的特征，如颜色特征、纹理特征、形状特征、以及空间关系特征等。

例如，当本实施例的方法应用于如图1所示的应用场景时，颜色特征可以为“机器编号XX01”的颜色相关的特征；空间关系特征可以为“机器编号XX01”与“名称：XX企业”在空间上的关系的特征。

S202：对先验特征和视觉特征进行融合处理，得到融合特征。

本实施例对融合处理的方式不做限定，例如，可以通过拼接的方式实现融合处理。

S203：对融合特征进行编码处理得到编码特征，并对编码特征进行解码处理，得到与待识别文本对应的文本内容。

基于上述分析可知，本公开实施例提供了一种文本识别方法，包括：获取待识别图像中待识别文本分别对应的先验特征和视觉特征，先验特征是基于待识别图像的先验知识确定的，对先验特征和视觉特征进行融合处理，得到融合特征，对融合特征进行编码处理得到编码特征，并对编码特征进行解码处理，得到与待识别文本对应的文本内容，在本实施例中，引入了：获取先验特征和视觉特征，根据先验特征和视觉特征生成融合特征，以基于融合特征确定文本内容的技术特征，丰富了用于确定文本内容的特征(即先验特征)，使得文本识别过程不再为孤立和片面的过程，而具有全面性和完整性，以通过充分考虑可能影响文本识别的信息(用于确定先验特征的信息、以及用于确定视觉特征的信息)确定文本内容，提高文本识别的可靠性、准确性、及精度的技术效果。

图3是根据本公开第二实施例的示意图，如图3所示，本公开实施例的文本识别方法，包括：

S301：对待识别图像进行识别，得到待识别文本。

例如，在一些实施例中，可以对待识别图像进行识别，确定用于框选待识别文本的裁剪框，并基于裁剪框对待识别图像进行裁剪，从而得到待识别文本。

S302：获取待识别文本的先验特征。

在一些实施例中，先验特征包括待识别图像的明暗度信息，相应地，S302包括如下步骤：

第一步骤：获取待识别图像的形成时间。

其中，形成时间是指，拍摄待识别图像的时间。

第二步骤：根据形成时间确定形成待识别图像的环境信息，并根据环境信息确定待识别图像的明暗度信息。

其中，环境信息待识别图像被拍摄时，与拍摄的环境相关的信息，如光照信息等。相应地，可以基于如光照信息确定明暗度信息。

值得说明地是，在本实施例中，通过基于环境信息确定先验特征中的明暗度信息，以通过结合对环境信息的考虑，避免对文本识别的孤立和片面处理，增加了用于确定文本内容的文本识别的处理维度，从而提高了文本识别的多样性和准确性的技术效果。

在另一些实施例中，先验特征包括待识别文本的字体属性和/或背景属性，相应地，S302包括：获取待识别图像的来源信息，并根据来源信息确定待识别文本的字体属性和/或背景属性。

其中，字体属性可以理解为，与字体风格相关的信息，如楷体等；背景属性可以理解为非文本内容的背景相关的信息，如背景颜色等。

同理，在本实施例中，通过基于字体属性和/或背景属性确定文本内容，可以从字体风格相关的信息、以及背景颜色等更多的维度确定文本内容，提高用于确定文本内容的信息量，从而提高文本识别的可靠性和准确性的技术效果。

在另一些实施例中，先验特征包括待识别图像的类别属性、以及待识别图像中文本在待识别图像中的位置属性，相应地，S302包括：获取待识别图像的类别属性，并根据类别属性确定待识别图像中文本在待识别图像中的位置属性。

例如，当本实施例的方法应用于如图1所示的应用场景时，待识别图像的类别属性为发票类型，在确定出发票类型之后，可以基于发票类型确定待识别图像(即待识别发票)中待识别文本的位置属性。

同理，在本实施例中，通过基于类别属性和位置属性确定文本内容，可以使得文本识别具有较强的针对性，且可以实现多维度识别，从而提高文本识别的可靠性和准确性的技术效果。

在该实施例的基础上，识别装置还可以根据位置属性获取待识别文本的行信息和/或列信息，并根据行信息和/或列信息确定字段属性。

例如，当本实施例的文本识别方法应用于如图1所示的应用场景时，识别装置可以基于“机器编号XX01”的位置属性，获取“机器编号XX01”的行信息，如确定“机器编号XX01”位于待识别发票中的第一行，并根据“机器编号XX01”位于待识别发票中的第一行，确定“机器编号XX01”的字段属性，如字段属性为混合字段(既包括文字，又包括数字)。

在另一些实施例中，字段属性还可以包括：数字字段和汉字字段等。

同理，在本实施例中，通过基于字段属性确定文本内容，可以实现多维度识别，丰富识别内容，避免遗漏与待识别文本相关的信息，从而提高文本识别的可靠性和准确性的技术效果。

在一些实施例中，文本识别装置可以对明暗度信息、字体属性、背景属性、类别属性、位置属性、以及字段属性，分别进行编码处理(如通过预设神经网络模型中的数层全联接层和激活层进行特征编码)，从而得到表征待识别文本在上述内容上的抽象化特征(即先验特征)。

S303：基于预先训练的视觉特征提取模型对待识别文本进行提取处理，得到待识别文本的视觉特征。

其中，视觉特征提取模型是由重复下述步骤，直至得到满足预设迭代需求获得：基于视觉特征提取模型提取样本图像中样本文本的样本先验特征和样本视觉特征，基于判别模型确定样本先验特征和样本视觉特征的区分信息，根据区分信息对视觉特征提取模型的参数和判别模型的参数进行调整，样本先验特征是基于样本图像的先验知识确定的。

值得说明地是，在本实施例中，采用视觉特征提取模型对待识别文本的视觉特征进行提取，且视觉特征提取模型是基于判别模型对样本先验特征与样本视觉特征之间的区分信息生成的，即视觉特征提取模型结合了判别模型基于样本先验特征对视觉特征提取模型的特征提取干扰，提高了视觉特征提取模型的抗干扰能力，从而提高了确定出的视觉特征的准确性和可靠性的技术效果。

S304：对先验特征和视觉特征进行融合处理，得到融合特征。

结合上述分析可知，先验特征可以包括多种，如先验特征可以包括：待识别图像的明暗度信息、待识别文本的字体属性、待识别文本的背景属性、待识别图像的类别属性、待识别图像中文本在待识别图像中的位置属性、以及待识别图像中文本在待识别图像中的字段属性中的至少两种，若先验特征包括至少两种时，则S304可以：对至少两种特征进行组合处理，得到组合特征，并对组合特征和视觉特征进行融合处理，得到融合特征。

例如，先验特征包括：待识别图像的明暗度信息(若标记为feature1)、以及待识别文本的字体属性(若标记为feature2)，则可以对待识别图像的明暗度信息、以及待识别文本的字体属性进行相加处理，得到组合特征(若组合特征标记为feature_new，则feature_new＝feature1+feature2)；也可以对待识别图像的明暗度信息、以及待识别文本的字体属性进行连接处理，得到组合特征(feature_new＝[feature1,feature2])。

相应地，在基于上述示例得到组合特征之后，可以将组合特征与视觉特征进行融合处理，从而得到融合特征。其中，将组合特征与视觉特征进行融合处理的效果可以参阅图4。

其中，将组合特征与视觉特征进行融合处理，也可以采用相加处理，也可以采用连接处理。

值得说明地是，在本实施例中，通过将先将至少两种特征进行组合处理，得到组合特征，而后将组合特征与视觉特征进行融合，可以实现对先验特征的在先整合，以对先验特征进行综合性的处理，且可以提高确定融合特征的效率。

S305：对融合特征进行编码处理得到编码特征，并对编码特征进行解码处理，得到与待识别文本对应的文本内容。

图5是根据本公开第三实施例的示意图，如图5所示，本公开实施例的视觉特征提取模型的训练方法，包括：

S501：基于视觉特征提取模型提取样本图像中样本文本的样本先验特征和样本视觉特征。

示例性地，本实施例的执行主体为视觉特征提取模型的训练装置(训练装置)，训练装置可以为服务器(如云端服务器，又如本地服务器)，训练装置也可以为计算机，训练装置也可以为终端设备(如台式电脑等)，训练装置也可以为处理器，训练装置还可以为芯片等，本实施例不做限定。

应该理解地是，训练装置与文本识别装置可以为相同的装置，也可以为不同的装置。

本实施例中的样本先验特征、样本视觉特征、样本图像、以及样本文本，是为了与上文中的先验特征、视觉特征、待识别图像、以及待识别文本进行区分，相关理解可以参见上述实施例，此处不再赘述。

S502：基于判别模型确定样本先验特征和样本视觉特征的区分信息。

例如，判别模型对样本先验特征与样本视觉特征进行比较，以确定二者之间的差异信息(即区分信息)。

S503：根据区分信息对视觉特征提取模型的参数和判别模型的参数进行调整。

其中，视觉特征提取模型用于获取待识别图像中待识别文本对应的视觉特征，视觉特征用于，与待识别文本对应的先验特征确定待识别文本对应的文本内容，样本先验特征是基于样本图像的先验知识确定的，先验特征是基于待识别图像的先验知识确定的。

例如，通过本实施例的视觉特征提取模型的训练方法，得到视觉特征提取模型，该视觉特征提取模型可以应用于如上述任一实施例所述的文本识别方法，以在上述任一实施例中，基于视觉特征提取模型获取待识别图像中待识别文本对应的视觉特征，且可以将得到的视觉特征与待识别文本对应的先验特征相结合，确定与待识别文本对应的文本内容，具体实现原理可以参见上述实施例，此处不再赘述。

值得说明地是，在本实施例中，引入了结合样本先验特征对视觉特征提取模型进行训练，且具体基于判别模型对样本先验特征与样本视觉特征之间的区分信息，以便基于区分信息对视觉特征提取模型进行训练的技术特征，以提高在训练过程中，对视觉特征提取模型的干扰，从而提高视觉特征提取模型的抗干扰能力，进而提高当基于视觉特征提取模型提取视觉特征时，提高提取出的视觉特征的准确性和可靠性的技术效果。

图6是根据本公开第四实施例的示意图，如图6所示，本公开实施例的视觉特征提取模型的训练方法，包括：

S601：基于视觉特征提取模型提取样本图像中样本文本的样本先验特征和样本视觉特征。

S602：基于判别模型确定样本先验特征和样本视觉特征的区分信息。

S603：获取视觉特征提取模型的参数和判别模型的参数。

S604：若区分信息表征判别模型确定出样本先验特征与样本视觉特征存在差异，则在固定判别模型的参数的情况下，调整视觉特征提取模型的参数。

该实施例可以理解为，如果判别模型能够对样本先验特征与样本视觉特征进行区分，则对固定判别模型的参数进行固定，调整视觉特征提取模型的参数，以使得视觉特征提取模型提取到的样本视觉特征，无法被判别模型将其与样本先验特征进行区分，从而增强视觉特征提取模型提取样本视觉特征的能力。

S605：若区分信息表征判别模型确定出样本先验特征与样本视觉特征不存在差异，则在固定视觉特征提取模型的参数的情况下，调整判别模型的参数。

该实施例可以理解为，如果判别模型无法对样本先验特征与样本视觉特征进行区分，则对固定视觉特征提取模型的参数进行固定，调整判别模型的参数，以使得判别模型能够准确对样本视觉特征与样本先验特征进行区分，从而使得视觉特征提取模型继续学习，增强视觉特征提取模型提取样本视觉特征的能力。

基于上述分析可知，在一些实施例中，在训练阶段，可以结合判别模型训练得到特征提取模型，而在应用阶段，可以基于训练得到的特征提取模型对待识别图像中的待识别文本的视觉特征进行提取，无需再使用判别模型。

例如，结合图7所示，在训练阶段，将样本图像输入至视觉特征提取模型，由视觉特征提取模型获取样本图像中，样本文本的样本视觉特征和样本先验特征，由判别模型确定样本视觉特征和样本先验特征之间的区分信息，若区分信息表征判别模型能确定样本视觉特征和样本先验特征之间存在差异，则调整视觉特征提取模型的参数，以提高判别模型无法区分样本先验特征和样本视觉特征；若区分信息表征判别模型能确定样本视觉特征和样本先验特征之间不存在差异，则调整判别模型的参数，以提高视觉特征提取模型提取更为细节化的样本视觉特征和样本先验特征，如此重复，直至得到满足预设迭代需求的视觉特征提取模型。

其中，预设迭代需求可以为迭代次数。

在应用阶段，将待识别图像输入至视觉特征提取模型，由视觉特征提取模型提取待识别图像中待识别文本的视觉特征(也可以分别提取视觉特征和先验特征)；确定待识别图像的先验知识，以对先验知识进行抽象化(如图7中所述的“先验知识抽象化”)，得到先验特征，对视觉特征和先验特征进行融合处理，得到融合特征；由编码模块对融合特征进行编码处理，得到编码特征；由解码模块对编码特征进行解码处理，得到解码处理，得到文本内容。

图8是根据本公开第五实施例的示意图，如图8所示，本公开实施例的文本识别装置800，包括：

获取单元801，用于获取待识别图像中待识别文本分别对应的先验特征和视觉特征，先验特征是基于待识别图像的先验知识确定的。

融合单元802，用于对先验特征和视觉特征进行融合处理，得到融合特征。

编码单元803，用于对融合特征进行编码处理得到编码特征。

解码单元804，用于对编码特征进行解码处理，得到与待识别文本对应的文本内容。

图9是根据本公开第六实施例的示意图，如图9所示，本公开实施例的文本识别装置900，包括：

获取单元901，用于获取待识别图像中待识别文本分别对应的先验特征和视觉特征，先验特征是基于待识别图像的先验知识确定的。

结合图9可知，在一些实施例中，获取单元901，可以包括：

识别子单元90111，用于对待识别图像进行识别，得到待识别文本。

第一确定子单元90112，用于根据待识别文本和先验特征确定视觉特征。

在一些实施例中，视觉特征为由预先训练的视觉特征提取模型提取获得，视觉特征提取模型是由重复下述步骤，直至得到满足预设迭代需求获得：基于视觉特征提取模型提取样本图像中样本文本的样本先验特征和样本视觉特征，基于判别模型确定样本先验特征和所述样本视觉特征的区分信息，根据区分信息对视觉特征提取模型的参数和判别模型的参数进行调整，其中，样本先验特征是基于样本图像的先验知识确定的。

结合图9可知，在一些实施例中，先验特征包括待识别图像的明暗度信息；获取单元901，还可以包括：

第一获取子单元90113，用于获取待识别图像的形成时间。

第二确定子单元90114，用于根据形成时间确定形成待识别图像的环境信息，并根据环境信息确定待识别图像的明暗度信息。

结合图9可知，在一些实施例中，先验特征包括所述待识别文本的字体属性和/或背景属性；获取单元901，还可以包括：

第二获取子单元90115，用于获取待识别图像的来源信息。

第三确定子单元90116，用于根据来源信息确定待识别文本的字体属性和/或背景属性。

结合图9可知，在一些实施例中，先验特征包括待识别图像的类别属性、以及待识别图像中待识别文本在待识别图像中的位置属性；获取单元901，还可以包括：

第三获取子单元90117，用于获取待识别图像的类别属性。

第四确定单元90118，用于根据类别属性确定待识别图像中待识别文本在待识别图像中的位置属性。

结合图9可知，在一些实施例中，先验知识包括待识别图像中待识别文本在待识别图像中的字段属性；获取单元901，还可以包括：

第四获取子单元90119，用于根据所述位置属性获取所述待识别文本的行信息和/或列信息；

第五确定子单元90120，用于根据行信息和/或列信息确定字段属性。

融合单元902，用于对先验特征和视觉特征进行融合处理，得到融合特征。

在一些实施例中，结合上述实施例，若先验特征包括：待识别图像的明暗度信息、待识别文本的字体属性、待识别文本的背景属性、待识别图像的类别属性、待识别图像中文本在待识别图像中的位置属性、以及待识别图像中文本在待识别图像中的字段属性中的至少两种，则结合图9可知，融合单元902，可以包括：

组合子单元9021，用于对至少两种特征进行组合处理，得到组合特征。

融合子单元9022，用于对组合特征和视觉特征进行融合处理，得到融合特征。

编码单元903，用于对融合特征进行编码处理得到编码特征。

解码单元904，用于对编码特征进行解码处理，得到与待识别文本对应的文本内容。

图10是根据本公开第七实施例的示意图，如图10所示，本公开实施例的视觉特征提取模型的训练装置1000，包括：

提取单元1001，用于基于视觉特征提取模型提取样本图像中样本文本的样本先验特征和样本视觉特征。

确定单元1002，用于基于判别模型确定样本先验特征和样本视觉特征的区分信息。

调整单元1003，用于根据区分信息对视觉特征提取模型的参数和判别模型的参数进行调整，其中，视觉特征提取模型用于获取待识别图像中待识别文本对应的视觉特征，视觉特征用于，与待识别文本对应的先验特征确定待识别文本对应的文本内容，样本先验特征是基于样本图像的先验知识确定的，先验特征是基于待识别图像的先验知识确定的。

图11是根据本公开第八实施例的示意图，如图11所示，本公开实施例的视觉特征提取模型的训练装置1100，包括：

提取单元1101，用于基于视觉特征提取模型提取样本图像中样本文本的样本先验特征和样本视觉特征。

确定单元1102，用于基于判别模型确定样本先验特征和样本视觉特征的区分信息。

调整单元1103，用于根据区分信息对视觉特征提取模型的参数和判别模型的参数进行调整，其中，视觉特征提取模型用于获取待识别图像中待识别文本对应的视觉特征，视觉特征用于，与待识别文本对应的先验特征确定待识别文本对应的文本内容，样本先验特征是基于样本图像的先验知识确定的，先验特征是基于待识别图像的先验知识确定的。

结合图11可知，在一些实施例中，调整单元1103，可以包括：

第五获取子单元11031，用于获取视觉特征提取模型的参数和判别模型的参数。

第一调整子单元11032，用于若区分信息表征判别模型确定出样本先验特征与样本视觉特征存在差异，则在固定判别模型的参数的情况下，调整视觉特征提取模型的参数。

结合图11可知，在另一些实施例中，调整单元1103，可以包括：

第六获取子单元11033，用于获取视觉特征提取模型的参数和判别模型的参数。

第二调整子单元11034，用于若区分信息表征判别模型确定出样本先验特征与样本视觉特征不存在差异，则在固定视觉特征提取模型的参数的情况下，调整判别模型的参数。

根据本公开的实施例，本公开还提供了一种电子设备和一种可读存储介质。

根据本公开的实施例，本公开还提供了一种计算机程序产品，计算机程序产品包括：计算机程序，计算机程序存储在可读存储介质中，电子设备的至少一个处理器可以从可读存储介质读取计算机程序，至少一个处理器执行计算机程序使得电子设备执行上述任一实施例提供的方案。

图12示出了可以用来实施本公开的实施例的示例电子设备1200的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图12所示，电子设备1200包括计算单元1201，其可以根据存储在只读存储器(ROM)1202中的计算机程序或者从存储单元1208加载到随机访问存储器(RAM)1203中的计算机程序，来执行各种适当的动作和处理。在RAM 1203中，还可存储设备1200操作所需的各种程序和数据。计算单元1201、ROM 1202以及RAM 1203通过总线1204彼此相连。输入/输出(I/O)接口1205也连接至总线1204。

设备1200中的多个部件连接至I/O接口1205，包括：输入单元1206，例如键盘、鼠标等；输出单元1207，例如各种类型的显示器、扬声器等；存储单元1208，例如磁盘、光盘等；以及通信单元1209，例如网卡、调制解调器、无线通信收发机等。通信单元1209允许设备1200通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元1201可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元1201的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元1201执行上文所描述的各个方法和处理，例如文本识别方法、视觉特征提取模型的训练方法。例如，在一些实施例中，文本识别方法、视觉特征提取模型的训练方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元1208。在一些实施例中，计算机程序的部分或者全部可以经由ROM1202和/或通信单元1209而被载入和/或安装到设备1200上。当计算机程序加载到RAM1203并由计算单元1201执行时，可以执行上文描述的文本识别方法、视觉特征提取模型的训练方法的一个或多个步骤。备选地，在其他实施例中，计算单元1201可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行文本识别方法、视觉特征提取模型的训练方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决了传统物理主机与VPS服务("Virtual Private Server"，或简称"VPS")中，存在的管理难度大，业务扩展性弱的缺陷。服务器也可以为分布式系统的服务器，或者是结合了区块链的服务器。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开提供的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种文本识别方法，包括：

2.根据权利要求1所述的方法，其中，获取所述视觉特征包括：

对所述待识别图像进行识别，得到所述待识别文本；

根据所述待识别文本和所述先验特征确定所述视觉特征。

3.根据权利要求1所述的方法，其中，所述先验特征包括所述待识别图像的明暗度信息；获取待识别图像中待识别文本分别对应的先验特征，包括：

获取所述待识别图像的形成时间；

根据所述形成时间确定形成所述待识别图像的环境信息，并根据所述环境信息确定所述待识别图像的明暗度信息。

4.根据权利要求1所述的方法，其中，所述先验特征包括所述待识别文本的字体属性和/或背景属性；获取待识别图像中待识别文本分别对应的先验特征，包括：

获取所述待识别图像的来源信息，并根据所述来源信息确定所述待识别文本的字体属性和/或背景属性。

5.根据权利要求1所述的方法，其中，所述先验特征包括所述待识别图像的类别属性、以及所述待识别图像中待识别文本在所述待识别图像中的位置属性；获取待识别图像中待识别文本分别对应的先验特征，包括：

获取所述待识别图像的类别属性，并根据所述类别属性确定所述待识别图像中待识别文本在所述待识别图像中的位置属性。

6.根据权利要求5所述的方法，其中，所述先验知识包括所述待识别图像中待识别文本在所述待识别图像中的字段属性；获取待识别图像中待识别文本分别对应的先验特征，包括：

根据所述位置属性获取所述待识别文本的行信息和/或列信息，并根据所述行信息和/或列信息确定所述字段属性。

7.根据权利要求1至6中任一项所述的方法，其中，若所述先验特征包括：所述待识别图像的明暗度信息、所述待识别文本的字体属性、所述待识别文本的背景属性、所述待识别图像的类别属性、所述待识别图像中文本在所述待识别图像中的位置属性、以及所述待识别图像中文本在所述待识别图像中的字段属性中的至少两种，则对所述先验特征和所述视觉特征进行融合处理，得到融合特征，包括：

对所述至少两种特征进行组合处理，得到组合特征，并对所述组合特征和所述视觉特征进行融合处理，得到所述融合特征。

8.根据权利要求1至7中任一项所述的方法，其中，所述视觉特征为由预先训练的视觉特征提取模型提取获得，所述视觉特征提取模型是由重复下述步骤，直至得到满足预设迭代需求获得：基于视觉特征提取模型提取样本图像中样本文本的样本先验特征和样本视觉特征，基于判别模型确定所述样本先验特征和所述样本视觉特征的区分信息，根据所述区分信息对所述视觉特征提取模型的参数和所述判别模型的参数进行调整，其中，所述样本先验特征是基于所述样本图像的先验知识确定的。

9.一种视觉特征提取模型的训练方法，包括：

10.根据权利要求9所述的方法，其中，根据所述区分信息对所述视觉特征提取模型的参数进行调整，包括：

获取所述视觉特征提取模型的参数和所述判别模型的参数；

若所述区分信息表征所述判别模型确定出所述样本先验特征与所述样本视觉特征存在差异，则在固定所述判别模型的参数的情况下，调整所述视觉特征提取模型的参数。

11.根据权利要求9或10所述的方法，其中，根据所述区分信息对所述判别模型的参数进行调整，包括：

获取所述视觉特征提取模型的参数和所述判别模型的参数；

若所述区分信息表征所述判别模型确定出所述样本先验特征与所述样本视觉特征不存在差异，则在固定所述视觉特征提取模型的参数的情况下，调整所述判别模型的参数。

12.一种文本识别装置，包括：

13.根据权利要求12所述的装置，其中，所述获取单元包括：

识别子单元，用于对所述待识别图像进行识别，得到所述待识别文本；

第一确定子单元，用于根据所述待识别文本和所述先验特征确定所述视觉特征。

14.根据权利要求12所述的装置，其中，所述先验特征包括所述待识别图像的明暗度信息；所述获取单元，包括：

第一获取子单元，用于获取所述待识别图像的形成时间；

第二确定子单元，用于根据所述形成时间确定形成所述待识别图像的环境信息，并根据所述环境信息确定所述待识别图像的明暗度信息。

15.根据权利要求12所述的装置，其中，所述先验特征包括所述待识别文本的字体属性和/或背景属性；所述获取单元，包括：

第二获取子单元，用于获取所述待识别图像的来源信息；

第三确定子单元，用于根据所述来源信息确定所述待识别文本的字体属性和/或背景属性。

16.根据权利要求12所述的装置，其中，所述先验特征包括所述待识别图像的类别属性、以及所述待识别图像中待识别文本在所述待识别图像中的位置属性；所述获取单元，包括：

第三获取子单元，用于获取所述待识别图像的类别属性；

第四确定单元，用于根据所述类别属性确定所述待识别图像中待识别文本在所述待识别图像中的位置属性。

17.根据权利要求16所述的装置，其中，所述先验知识包括所述待识别图像中待识别文本在所述待识别图像中的字段属性；所述获取单元，包括：

第四获取子单元，用于根据所述位置属性获取所述待识别文本的行信息和/或列信息；

第五确定子单元，用于根据所述行信息和/或列信息确定所述字段属性。

18.根据权利要求12至17中任一项所述的装置，其中，若所述先验特征包括：所述待识别图像的明暗度信息、所述待识别文本的字体属性、所述待识别文本的背景属性、所述待识别图像的类别属性、所述待识别图像中文本在所述待识别图像中的位置属性、以及所述待识别图像中文本在所述待识别图像中的字段属性中的至少两种，则所述融合单元，包括：

组合子单元，用于对所述至少两种特征进行组合处理，得到组合特征；

融合子单元，用于对所述组合特征和所述视觉特征进行融合处理，得到所述融合特征。

19.根据权利要求12至18中任一项所述的装置，其中，所述视觉特征为由预先训练的视觉特征提取模型提取获得，所述视觉特征提取模型是由重复下述步骤，直至得到满足预设迭代需求获得：基于视觉特征提取模型提取样本图像中样本文本的样本先验特征和样本视觉特征，基于判别模型确定所述样本先验特征和所述样本视觉特征的区分信息，根据所述区分信息对所述视觉特征提取模型的参数和所述判别模型的参数进行调整，其中，所述样本先验特征是基于所述样本图像的先验知识确定的。

20.一种视觉特征提取模型的训练装置，包括：

21.根据权利要求20所述的装置，其中，所述调整单元，包括：

第五获取子单元，用于获取所述视觉特征提取模型的参数和所述判别模型的参数；

第一调整子单元，用于若所述区分信息表征所述判别模型确定出所述样本先验特征与所述样本视觉特征存在差异，则在固定所述判别模型的参数的情况下，调整所述视觉特征提取模型的参数。

22.根据权利要求20或21所述的装置，其中，所述调整单元，包括：

第六获取子单元，用于获取所述视觉特征提取模型的参数和所述判别模型的参数；

第二调整子单元，用于若所述区分信息表征所述判别模型确定出所述样本先验特征与所述样本视觉特征不存在差异，则在固定所述视觉特征提取模型的参数的情况下，调整所述判别模型的参数。

23.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1至8中任一项所述的文本识别方法；或者，以使所述至少一个处理器能够执行权利要求9至11中任一项所述的视觉特征提取模型的训练方法。

24.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行权利要求1至8中任一项所述的文本识别方法；或者，所述计算机指令用于使所述计算机执行权利要求9至11中任一项所述的视觉特征提取模型的训练方法。

25.一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现根据权利要求1至8中任一项所述的文本识别方法；或者，所述计算机程序在被处理器执行时实现根据权利要求9至11中任一项所述的视觉特征提取模型的训练方法。