CN115393872A

CN115393872A - 一种训练文本分类模型的方法、装置、设备及存储介质

Info

Publication number: CN115393872A
Application number: CN202211322295.5A
Authority: CN
Inventors: 聂畅; 胡益清; 姜德强; 屈雁秋; 包志敏
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2022-10-27
Filing date: 2022-10-27
Publication date: 2022-11-25
Anticipated expiration: 2042-10-27
Also published as: CN115393872B

Abstract

本申请提供一种训练文本分类模型的方法、装置、设备及存储介质，可以应用于人工智能领域或车联网领域等，用于解决训练得到的目标文本分类模型的分类准确性和分类可靠性较低问题。该方法至少包括：分别对所述多个文本行样本图像进行至少一种文本变换，获得相应的构造图像对；采用文本分类模型，分别对获得的各构造图像对进行特征提取，获得相应的图像特征对；基于获得的各图像特征对各自包含的两个图像特征之间的差异，调整所述文本分类模型的模型参数。训练过程中，不需要大量的标注有文本类别的样本图像参与训练，避免样本图像不足而造成训练出的目标本文分类模型的分类准确性和分类可靠性较低的问题。

Description

一种训练文本分类模型的方法、装置、设备及存储介质

技术领域

本申请涉及计算机技术领域，尤其涉及一种训练文本分类模型的方法、装置、设备及存储介质。

背景技术

随着科技的不断发展，越来越多的设备可以通过已训练的目标文本分类模型，来提供文本分类服务，文本服务可以用于确定文本图像中文本所属的类别。

例如，设备可以先通过文本检索策略，确定文档图像包含的各文本行的位置，从而获得各文本行的文本行图像。再通过已训练的目标文本分类模型，对文本行图像进行文本分类，以确定文本行图像中文本所对应的字体类别。通过确定各文本行图像中文本的字体类别，有助于设备更加准确地理解文档图像的语义内容；还有助于设备更加准确地划分文档图像的版面；还有助于设备更加准确地还原文档图像中文本的属性等。

相关技术中，训练文本分类模型的方法通常是，采用待训练的文本分类模型，对标注有文本类别的文本样本图像进行特征提取，获得图像特征；再基于图像特征，预测文本样本图像的训练类别；通过比对训练类别与文本样本图像标注的文本类别，完成针对文本分类模型的一轮训练。通过大量标注有文本类别的文本样本图像，对文本分类模型进行多轮迭代训练，获得已训练的目标文本分类模型。

然而，由于文本类别丰富多样，同时不断有新的文本类别涌现，因此，对于一些文本类别来说，很难获得大量的标注有文本类别的文本样本图像，那么由于训练文本分类模型的先验知识不足，就会使得训练出的目标文本分类模型的分类准确性较低，从而使得目标本文分类模型的分类可靠性较低。

可见，采用相关技术下采用的训练方式，训练得到的目标文本分类模型的分类准确性和分类可靠性较低。

发明内容

本申请实施例提供了一种训练文本分类模型的方法、装置、计算机设备及存储介质，用于解决训练得到的目标文本分类模型的分类准确性和分类可靠性较低的问题。

第一方面，提供一种训练文本分类模型的方法，包括：

获取多个文本行样本图像；

基于所述多个文本行样本图像，对待训练的文本分类模型进行多轮迭代训练，输出已训练的目标文本分类模型，每轮迭代包括：

分别对所述多个文本行样本图像进行至少一种文本变换，获得相应的构造图像对；其中，每个构造图像对包含两个文本行构造图像；每个文本行构造图像与相应的文本行样本图像之间存在至少一种文字特征相匹配；

采用文本分类模型，分别对获得的各构造图像对进行特征提取，获得相应的图像特征对，其中，每个所述图像特征对包含：相应的构造图像对包含的两个文本行图像各自的图像特征；

基于获得的各图像特征对各自包含的两个图像特征之间的差异，调整所述文本分类模型的模型参数。

第二方面，提供一种训练文本分类模型的装置，包括：

获取模块：用于获取多个文本行样本图像；

处理模块：用于基于所述多个文本行样本图像，对待训练的文本分类模型进行多轮迭代训练，输出已训练的目标文本分类模型，每轮迭代包括：

所述处理模块具体用于：分别对所述多个文本行样本图像进行至少一种文本变换，获得相应的构造图像对；其中，每个构造图像对包含两个文本行构造图像；每个文本行构造图像与相应的文本行样本图像之间存在至少一种文字特征相匹配；

所述处理模块具体用于：采用文本分类模型，分别对获得的各构造图像对进行特征提取，获得相应的图像特征对，其中，每个所述图像特征对包含：相应的构造图像对包含的两个文本行图像各自的图像特征；

所述处理模块具体用于：基于获得的各图像特征对各自包含的两个图像特征之间的差异，调整所述文本分类模型的模型参数。

可选的，所述至少一种文本变换包括：重排变换，则所述处理模块具体用于：

针对所述多个文本行样本图像，分别执行以下操作：

获取文本行样本图像包含的各字符的字符位置；

基于获得的各字符位置，重排所述文本行样本图像中的各字符，获得文本行构造图像；

基于获得的文本行构造图像和所述文本行样本图像，建立所述文本行样本图像对应的构造图像对。

可选的，所述至少一种文本变换包括：裁剪缩放变换，则所述处理模块具体用于：

针对所述多个文本行样本图像，分别执行以下操作：

确定文本行样本图像的图像长度大于预设的文本行长度范围的最大值时，基于所述文本行长度范围，将所述文本行样本图像裁剪为多个文本行子图像；

从所述多个文本行子图像中，选取两个文本行子图像；

基于预设的缩放策略，对选取的两个文本行子图像进行缩放处理，获得两个文本行构造图像；

基于获得的两个文本行构造图像，建立所述文本行样本图像对应的构造图像对。

可选的，所述至少一种文本变换包括：颜色抖动变换，则所述处理模块具体用于：

针对所述多个文本行样本图像，分别执行以下操作：

对文本行样本图像进行灰度处理，获得灰度文本行图像；

基于预设的数值调整范围，调整获得的灰度文本行图像的亮度、对比度和饱和度中的至少一种，获得文本行构造图像；

可选的，所述处理模块具体用于：

针对所述各图像特征对，分别执行以下操作：

分别对图像特征对包含的两个图像特征进行第一线性变换，获得相应的第一变换特征；

基于获得的两个第一变换特征之间的误差，确定所述图像特征对对应的特征误差；

基于所述各图像特征对各自对应的特征误差，调整所述文本分类模型的模型参数。

可选的，所述处理模块具体用于：

分别对所述两个第一变换特征进行第二线性变换，获得相应的第二变换特征；

确定一个第一变换特征与另一个第一变换特征对应的第二变换特征之间的余弦相似度，以及确定所述另一个第一变换特征与所述一个第一变换特征对应的第二变换特征之间的余弦相似度；

基于获得的两个余弦相似度之和，确定所述图像特征对对应的特征误差。

可选的，所述处理模块具体用于：

基于所述多个文本行样本图像，对待训练的文本分类模型进行多轮迭代训练，输出待微调的中间文本分类模型；

获取多个文本行标注图像；其中，所述多个文本行标注图像各自关联有类别标注；所述类别标注用于表征：相应的文本行标注图像包含的各字符所属的文本类别；所述多个文本行标注图像的图像数量，小于所述多个文本行样本图像的图像数量；

基于所述多个文本行标注图像和各类别标注，对所述中间文本分类模型进行多轮迭代训练，输出已训练的目标文本分类模型。

可选的，所述获取模块具体用于：

获取多个文档样本图像；其中，所述多个文档样本图像各自关联有文本行标注；所述文本行标注用于表征：相应的文档样本图像包含的各文本行的文本行位置；

基于预设的多种文本属性，分别按照所述多个文档样本图像各自关联的文本行标注，生成多个构造文本行；

采用获得的多个构造文本行，分别替换所述多个文档样本图像各自包含的各文本行，生成相应的文档构造图像；

从获得的各文档构造图像和所述多个文档样本图像中，提取所述多个文本行样本图像。

可选的，所述处理模块还用于：

在所述基于所述多个文本行样本图像，对待训练的文本分类模型进行多轮迭代训练，输出已训练的目标文本分类模型之后，获取待处理文档图像；

基于预设的文本行提取策略，提取所述待处理文档图像包含的各待分类分本行，获得各待分类分本行图像，以及获得所述各待分类分本行各自在所述待处理文档图像中的文本行位置；

采用所述目标文本分类模型，分别对所述各待分类分本行图像进行特征提取，获得各目标特征，并基于获得的各目标特征，预测所述各待分类分本行图像各自的目标类别；

基于预设的各文本类别与各标注样式之间的映射关系，在所述待处理文档图像中所述各待分类分本行各自的文本行位置，分别以所述各待分类分本行各自的目标类别相应的标注样式进行标注，获得目标文档图像。

第三方面，提供一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现如第一方面所述的方法。

第四方面，提供一种计算机设备，包括：

存储器，用于存储程序指令；

处理器，用于调用所述存储器中存储的程序指令，按照获得的程序指令执行如第一方面所述的方法。

第五方面，提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机可执行指令，所述计算机可执行指令用于使计算机执行如第一方面所述的方法。

本申请实施例中，基于多个文本行样本图像，对待训练的文本分类模型进行多轮迭代训练，输出已训练的目标文本分类模型，训练过程中，不需要大量的标注有文本类别的样本图像作为先验知识，避免了由于文本类别丰富多样，同时不断涌现新的文本类别，造成无法获得大量的标注有文本类别的样本图像，导致训练出的目标本文分类模型由于先验知识缺乏而分类准确性和分类可靠性较低的情况；也避免了依次对文本行样本图像标注文本类别，而造成训练本文分类模型的效率较低的问题。

进一步的，在对文本分类模型进行训练时，每轮训练过程中，对多个文本行样本图像进行至少一种文本变换，获得各构造图像对，通过学习每个构造图像对包含的两个文本行构造图像之间的图像特征的一致性，使得训练出的目标文本分类模型具有将属于相同文本类别的文本行样本图像识别为相同文本类别的能力，而不是将学习专注在文本行构造图像中各字符的文本特征上，避免语义信息对模型学习过程造成误导等不利影响；也避免了依次提取各字符的文本特征而造成的训练本文分类模型的效率较低的问题。

附图说明

图1A为本申请实施例提供的文本分类模型的应用领域示意图一；

图1B为本申请实施例提供的文本分类模型的应用领域示意图二；

图1C为本申请实施例提供的训练文本分类模型的方法的一种应用场景；

图2为本申请实施例提供的训练文本分类模型的方法的一种流程示意图；

图3A为本申请实施例提供的训练文本分类模型的方法的一种原理示意图一；

图3B为本申请实施例提供的训练文本分类模型的方法的一种原理示意图二；

图3C为本申请实施例提供的训练文本分类模型的方法的一种原理示意图三；

图3D为本申请实施例提供的训练文本分类模型的方法的一种原理示意图四；

图4A为本申请实施例提供的训练文本分类模型的方法的一种原理示意图五；

图4B为本申请实施例提供的训练文本分类模型的方法的一种原理示意图六；

图4C为本申请实施例提供的训练文本分类模型的方法的一种原理示意图七；

图4D为本申请实施例提供的训练文本分类模型的方法的一种原理示意图八；

图4E为本申请实施例提供的训练文本分类模型的方法的一种原理示意图九；

图4F为本申请实施例提供的训练文本分类模型的方法的一种原理示意图十；

图5A为本申请实施例提供的训练文本分类模型的方法的一种原理示意图十一；

图5B为本申请实施例提供的训练文本分类模型的方法的一种原理示意图十二；

图5C为本申请实施例提供的训练文本分类模型的方法的一种原理示意图十三；

图6A为本申请实施例提供的训练文本分类模型的方法的一种原理示意图十四；

图6B为本申请实施例提供的训练文本分类模型的方法的一种原理示意图十五；

图7A为本申请实施例提供的训练文本分类模型的方法的一种原理示意图十六；

图7B为本申请实施例提供的训练文本分类模型的方法的一种原理示意图十七；

图7C为本申请实施例提供的训练文本分类模型的方法的一种原理示意图十八；

图8为本申请实施例提供的训练文本分类模型的装置的一种结构示意图一；

图9为本申请实施例提供的训练文本分类模型的装置的一种结构示意图二。

具体实施方式

为了使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述。

下面对本申请实施例中的部分用语进行解释说明，以便于本领域技术人员理解。

（1）光学字符识别（Optical Character Recognition，OCR）：

光学字符识别是一种利用电子设备和图像字符识别方法提取出纸质或图像中文字的过程。

（2）对比学习模型：

对比学习模型是一种自监督学习的模型，自监督学习是一种无需数据标注的无监督学习方法，通过让模型对设计的数据变换保持输出一致性来学习实例表征。

本申请实施例涉及人工智能（Artificial Intelligence，AI）领域，是基于计算机视觉（Computer Vision，CV）技术设计的，可以应用于云计算、智慧交通、智能农业、智慧医疗或地图等领域。

人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它研究各种机器的设计原理与实现方法，企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器，使机器具有感知、推理和决策的功能。

人工智能是一门综合学科，涉及的领域广泛，既有硬件层面的技术，也有软件层面的技术。人工智能的基础技术一般包括传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作交互系统、机电一体化等技术。人工智能的软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术、机器学习/深度学习、自动驾驶、智慧交通等几大方向。随着人工智能的发展与进步，人工智能得以在多个领域中展开研究和应用，例如，常见的智能家居、智能客服、虚拟助理、智能音箱、智能营销、智能穿戴设备、无人驾驶、自动驾驶、无人机、机器人、智能医疗、车联网、自动驾驶、智慧交通等领域，相信随着未来技术的进一步发展，人工智能将在更多的领域中得到应用，发挥出越来越重要的价值。本申请实施例提供的方案，涉及人工智能的深度学习、增强现实等技术，具体通过如下实施例进一步说明。

计算机视觉是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建、自动驾驶、智慧交通等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。

智能车路协同系统（Intelligent Vehicle Infrastructure CooperativeSystems，IVICS），简称车路协同系统，是智能交通系统（ITS）的一个发展方向。车路协同系统是采用先进的无线通信和新一代互联网等技术，全方位实施车车、车路动态实时信息交互，并在全时空动态交通信息采集与融合的基础上开展车辆主动安全控制和道路协同管理，充分实现人车路的有效协同，保证交通安全，提高通行效率，从而形成的安全、高效和环保的道路交通系统。

应当说明的是，本申请实施例中，涉及到文本行样本图像或待处理文档图像等相关的数据，当本申请以上实施例运用到具体产品或技术中时，需要获得用户许可或者同意，且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。

下面对本申请实施例提供的训练文本分类模型的方法的应用领域进行简单介绍。

例如，设备可以先通过文本检索策略，确定文档图像包含的各文本行的位置，从而获得各文本行的文本行图像。再通过已训练的目标文本分类模型，对文本行图像进行文本分类，以确定文本行图像中文本所对应的字体类型等。通过确定各文本行图像中文本的文本类别，有助于设备更加准确地理解文档图像的语义内容；还有助于设备更加准确地划分文档图像的版面，版面例如是标题、图片和脚注等；还有助于设备更加准确地还原文档图像中文本的属性等，属性例如是字体类型、是否加粗、是否标记有下划线等。

以文本行图像中的文本行包含“ALTER”中的各字符为例，该文本行可以由不同字体类型来呈现。请参考图1A（1），第一行中“ALTER”以名称为“Comic Sans MS”的字体类型呈现；第二行中“ALTER”以名称为“Courier New”的字体类型呈现；第三行中“ALTER”以名称为“Arial Narrow”的字体类型呈现；第四行中“ALTER”以名称为“Old English Text MT”的字体类型呈现；第五行中“ALTER”以名称为“Algerian”的字体类型呈现。

以文本行图像中的文本行包含诗句“山不在高，有仙则名”中的各字符为例，该文本行可以由不同字体类型来呈现。请参考图1A（2），第一行中的上述诗句以名称为“微软雅黑”的字体类型呈现；第二行中的上述诗句以名称为“方正舒体”的字体类型呈现；第三行中的上述诗句以名称为“华文隶书”的字体类型呈现；第四行中的上述诗句以名称为“华文仿宋”的字体类型呈现；第五行中的上述诗句以名称为“华文细黑”的字体类型呈现。

请参考图1B（1），为一个文档图像示意图，在该文档图像中，文档logo、文档标题、一级标题、正文内容、二级标题、三级标题和图片注脚分别具有不同的排版样式和字体类型等，请参考图1B（2），各文档图像中，各文本行按照不同的排版样式和字体类型等进行不同样式的矩形框标记。

为了解决训练得到的目标文本分类模型的分类准确性和分类可靠性较低的问题，本申请提出一种训练文本分类模型的方法。该方法中，在获取多个文本行样本图像之后，基于多个文本行样本图像，对待训练的文本分类模型进行多轮迭代训练，输出已训练的目标文本分类模型，每轮迭代包括：

分别对多个文本行样本图像进行至少一种文本变换，获得相应的构造图像对，其中，每个构造图像对包含两个文本行构造图像，每个文本行构造图像与相应的文本行样本图像之间存在至少一种文字特征相匹配。采用文本分类模型，分别对获得的各构造图像对进行特征提取，获得相应的图像特征对，其中，每个图像特征对包含：相应的构造图像对包含的两个文本行图像各自的图像特征。基于获得的各图像特征对各自包含的两个图像特征之间的差异，调整文本分类模型的模型参数。

下面对本申请提供的训练文本分类模型的方法的应用场景进行说明。

请参考图1C，为本申请提供的训练文本分类模型的方法的一种应用场景示意图。该应用场景中包括客户端101和服务端102。客户端101和服务端102之间可以通信。通信方式可以是采用有线通信技术进行通信，例如，通过连接网线或串口线进行通信；也可以是采用无线通信技术进行通信，例如，通过蓝牙或无线保真（wireless fidelity，WIFI）等技术进行通信，具体不做限制。

客户端101泛指例如可以向服务端102提供文本行样本图像或可以使用已训练的目标文本分类模型等的设备，例如，终端设备、终端设备可以访问的第三方应用程序或终端设备可以访问的网页等。终端设备包括但不限于手机、电脑、智能医疗设备、智能家电、车载终端或飞行器等。服务端102泛指可以训练或使用目标文本分类模型的设备，例如，终端设备或服务器等。服务器包括但不限于云服务器、本地服务器或关联的第三方服务器等。客户端101和服务端102均可以采用云计算，以减少本地计算资源的占用；同样也可以采用云存储，以减少本地存储资源的占用。

作为一种实施例，客户端101和服务端102可以是同一个设备，具体不做限制。本申请实施例中，以客户端101和服务端102分别为不同的设备为例进行介绍。

下面基于图1C，以服务端102为服务器，以服务器为主体，对本申请实施例提供的训练文本分类模型的方法进行具体介绍。请参考图2，为本申请实施例提供的训练文本分类模型的方法的一种流程示意图。

S201，获取多个文本行样本图像。

文本行样本图像可以是包含一行文本行的图像；也可以是包含多行文本行的图像等，具体不做限制。文本行可以是按照一定排列规则依次排列的字符，字符可以是各种语言的文字，如中文文字或英文文字等；还可以是标点；还可以是阿拉伯数字等，具体不做限制。请参考图3A（1）和图3A（2），分别为一种可能的文本行样本图像示意图。

由于文本行样本图像未关联类别标注，类别标注例如是文本行样本图像中字符的字体类别、所属语言类别等，具体不做限制。因此，文本行样本图像既可以是从网络资源中获取的真实的文本行的图像，也可以从其他设备获取真实的文本行的图像，也可以是自动生成的构造出的文本行的图像等，具体不做限制。通过获取的多个文本行样本图像，对待训练的文本分类模型进行训练，既简化了对多个文本行样本图像依次进行标注的时间，提高了训练效率，又避免了缺少先验知识而造成训练一直无法达到训练目标，或训练出的目标文本分类模型的分类准确性较低的问题等。

作为一种实施例，下面对一种通过少量真实文本行图像，生成构造文本行图像，以获取多个文本行样本图像的方法进行介绍。

为了获取文本行样本图像，由于文档图像中通常包含一个或多个文本行，因此可以先获取多个文档样本图像。多个文档样本图像各自关联有文本行标注，文本行标注用于表征：相应的文档样本图像包含的各文本行的文本行位置。文本行标注还可以用于表征：文档样本图像包含的各文本行的文本属性等，具体不做限制。文本行位置可以是相应的文本行所在矩形区域的四条边，与相应的文档样本图像的四条边之间的相对距离；还可以是相应的文本行所在矩形区域的中心点，与相应的文档样本图像的中心点之间的向量距离；还可以是以相应的文档样本图像的两条相邻的边为参考坐标系时，相应的文本行所在矩形区域的坐标位置等，具体不做限制。文本行所在矩形区域可以是预先设定的一个区域大小，也可以是根据文本行中的字符高度和文本行长度生成的区域大小等，具体不做限制。

在获得多个文档样本图像之后，由于真实的文档图像的图像数量相对有限，因此可以基于获得的多个文档样本图像，继续生成多个文档构造图像，以丰富基于多个文档样本图像和多个文档构造图像获得的文本行样本图像的图像数量。文档构造图像可以是按照文档样本图像的图像样式或排版样式等，构造出的图像，文档构造图像中同样可以包含一行或多行文本行等，具体不做限制。

因此，可以基于预设的多种文本属性，分别按照多个文档样本图像各自关联的文本行标注，生成多个构造文本行。文本属性可以包括字体、字号、颜色、下划线、斜体和加粗等多种，具体不做限制。通过不同文本属性的组合，以及随机字符的排列，针对一个文本行标注表征的文本行位置，就可以生成多个构造文本行，从而，针对每个文本行标注表征的文本行位置，可以对应生成多个构造文本行等。生成的构造文本行中各字符所占长度，可以小于或等于相应的文本行标注的矩形区域的长度等。

例如，请参考图3B（1），为文档样本图像的一种示意图，以其中一个文本行标注301为例，文本行标注301标记了一个文本行的文本行位置，该文本行中的各字符的字号为14，字体为“楷体_GB2312”，颜色为黑色，未设置下划线、未设置斜体，以及未加粗等。基于预设的多种文本属性，可以按照文本行标注301，生成三个构造文本行。

请参考图3B（2），三个构造文本行包括“ABC的返稿hi公开了模拟20”，其字号为12，字体为“宋体”，颜色为黑色，未设置下划线、未设置斜体，以及未加粗等；以及“迫2切5人视：我需”，其字号为16，字体为“黑体”，颜色为深灰色，设置下划线、未设置斜体，以及未加粗等；以及“阿q斯w蒂。芬个寒78假乐7要在sag”，其字号为18，字体为“隶书”，颜色为浅灰色，未设置下划线、设置斜体，以及未加粗等。

在获得多个构造文本行之后，采用获得的多个构造文本行，分别替换多个文档样本图像各自包含的各文本行，生成相应的文档构造图像。替换一个文档样本图像包含的一个或一部分文本行后，生成相应的一个文档构造图像；或者，为了减少后续提取出的文本行样本图像的重复率，可以替换一个文档样本图像包含的全部文本行后，生成相应的一个文档构造图像等，具体不做限制。

例如，继续以上述例子为例，将图3B（1）中的文本行标注301对应的文本行，分别替换为图3B（2）中的构造文本行，请参考图3C，为三个文档构造图像的一种示意图。

在获得各文档构造图像之后，可以从获得的各文档构造图像和多个文档样本图像中，提取多个文本行样本图像。文档构造图像或文档样本图像当中的每个文本行所在矩形区域，都可以作为一个文本行样本图像；或者，文本行位置相邻，且文本行所在矩形区域大小相近的每多个文本行组成的矩形区域，也可以作为一个文本行样本图像等，具体不做限制。

本申请实施例中，通过在真实的文档样本图像中，替换文本行的方式，可以避免文档样本图像与生成的文档构造图像之间存在较大数据分布差异等，而影响训练效率或训练准确性。例如，文档样本图像是通过将pdf格式的文档转换成图像格式得到的，而文档构造图像是通过在画布上写字得到的，那么文档样本图像与生成的文档构造图像之间就会存在较大数据分布差异。

在获得文档构造图像之后，可以将文档构造图像包含的各文本行和文档构造图像转为pdf格式后提取出的各文本行进行匹配，从而可以获得文档构造图像关联的文本行标注，文本行标注用于表征：相应的文档构造图像包含的各文本行的文本行位置。文本行标注还可以用于表征：文档构造图像包含的各文本行的文本属性等，具体不做限制。在进行匹配时，可以依次对每个文本行和文档构造图像转为pdf格式后再提取出的相应的文本行进行顺序匹配等，具体不做限制。

本申请实施例中，通过生成文档构造图像，使得文本行中的各字符的排列顺序是随机的，也可以进行顺序调整等，文本行之间的行间距也是随机的，同样也可以进行行间距调整等，可以避免语义信息或文档结构化信息等对训练过程造成的干扰，提高模型训练的准确性。

作为一种实施例，在文档样本图像中包含一定量的字符的图片、表格或公式等时，也可以将图片、表格或公式等中包含的文本行进行替换，以生成相应的文档构造图像。

请参考图3D（1），为文档样本图像的一种示意图，该文档样本图像中包含两个表，表1中包含各种文字，以及包含文字的流程框图，以及包含文字的公式等；表2中包含各种文字；该文档样本图像中还包含文档标题和正文内容等。

文档样本图像中的文档标题和正文内容，以及表1和表2，以及流程框图和公式中的文本行，都可以进行替换，请参考图3D（2），各文本行以矩形框进行标记。

S202，基于多个文本行样本图像，对待训练的文本分类模型进行多轮迭代训练，输出已训练的目标文本分类模型。

在获得多个文本行样本图像之后，可以基于多个文本行样本图像，对待训练的文本分类模型进行多轮迭代训练，输出已训练的目标文本分类模型。既可以直接将基于多个文本行样本图像多轮迭代训练得到的文本分类模型作为已训练的目标文本分类模型，使得训练过程完全不依赖标注有文本类别的数据；也可以为了进一步提高训练得到的目标文本分类模型的分类准确性和分类可靠性，而将基于多个文本行样本图像多轮迭代训练得到的文本分类模型作为一个中间文本分类模型，在通过获取少量的标注有文本类别的数据，对中间文本分类模型进行进一步微调，获得已训练的目标文本分类模型等，具体不做限制。

作为一种实施例，在通过标注有文本类别的数据，对文本分类模型进行微调时，可以是在基于多个文本行样本图像，对待训练的文本分类模型进行多轮迭代训练，输出待微调的中间文本分类模型之后，获取多个文本行标注图像，多个文本行标注图像各自关联有类别标注，类别标注用于表征：相应的文本行标注图像包含的各字符所属的文本类别，类别标注例如是文本行样本图像中字符的字体类别、所属语言类别等，具体不做限制。多个文本行标注图像的图像数量，远小于多个文本行样本图像的图像数量，从而不需要获取大量的先验知识，降低了训练文本分类模型的难度，提高了训练出的目标文本分类模型的分类准确性和可靠性。

基于多个文本行标注图像和各类别标注，对中间文本分类模型进行多轮迭代训练，输出已训练的目标文本分类模型。例如，在每轮训练过程中，采用中间文本分类模型对文本行标注图像进行特征提取，获得图像特征，再基于获得的图像特征预测该文本行标注图像的训练类别，通过训练类别与该文本行标注图像的类别标注之间的误差，对中间文本分类模型的模型参数进行微调，直到所有文本行标注图像均训练完成，或确定出的训练类别与该文本行标注图像的类别标注之间的误差达到训练目标等为止，输出已训练的目标文本分类模型。

请参考图4A，在基于多个文本行样本图像，对待训练的文本分类模型进行多轮迭代训练之后，获得待微调的中间文本分类模型。再基于获得的各自关联有类别标注的多个文本行标注图像，对待微调的中间文本分类模型进行多轮微调，获得已训练的目标文本分类模型。

在采用多个文本行标注图像和各类别标注，对中间文本分类模型进行多轮迭代训练时，可以加入一个类别标注，表征相应的文本行标注图像的类别未知。请参考图4B，在一些情况下，从文档图像中，提取出的文本行图像中，字符的完整性不足，或字符显示错误，或为无效字符等情况，如果文本分类模型不具备识别类别未知的文本行图像的能力，那么在针对这些情况，采用目标文本分类模型进行文本分类时，可能会产生为文本行图像随机确定一个文本类别，例如，将文本行图像随机确定为一种字体等情况，从而容易出现分类错误的问题，使得分类准确性和分类可靠性较低。从而，通过添加一个表征相应的文本行标注图像的类别未知的类别标注，可以提高目标文本分类模型的分类准确性和分类可靠性。

下面以一轮迭代训练的过程为例进行介绍，请参考S203~S205，每轮迭代训练的过程类似，在此不再赘述。

S203，分别对多个文本行样本图像进行至少一种文本变换，获得相应的构造图像对。

在每轮迭代训练过程中，可以基于全部文本行样本图像进行训练，避免单个样本的特殊性造成的训练偏差等问题。本申请实施例中，先基于多个文本行样本图像建立各自对应的构造图像对，通过让文本分类模型学习构造图像对包含的两个文本行构造图像之间的共同特征，来达到让文本分类模型具有将属于相同文本类别的识别为相同的文本类别的能力，以达到训练文本分类模型的目的。文本行构造图像可以是相应的文本行样本图像本身，也可以是对相应的文本行样本图像进行文本变换生成的，因此文本行构造图像同样可以是包含一行文本行的图像；也可以是包含多行文本行的图像等，具体可以参考文本行样本图像的介绍，在此不再赘述。

在建立各构造图像对时，可以是分别对多个文本行样本图像进行至少一种文本变换，获得相应的构造图像对。每个构造图像对包含两个文本行构造图像，每个文本行构造图像与相应的文本行样本图像之间存在至少一种文字特征相匹配。

例如，文本行样本图像可以经过一种或多种文本变换后，获得相应的文本行构造图像，再将文本行样本图像作为另一个文本行构造图像。由于获得的文本行构造图像是通过对文本行样本图像进行一种或多种文本变换获得的，因此，获得的文本行构造图像与文本行样本图像之间必然存在至少一种文字特征相匹配，如文本变换是调整字符顺序的变换时，那么文本行构造图像与文本行样本图像之间至少包含的各字符相同，文本行长度相同等。因此，可以由该获得的文本行构造图像，与文本行样本图像，来建立文本行样本图像对应的构造图像对。

又例如，文本行样本图像也可以经过一种或多种文本变换后，获得相应的两个文本行构造图像，两个文本行构造图像均是通过对文本行样本图像进行一种或多种文本变换获得的，因此，两个文本行构造图像各自与文本行样本图像之间必然存在至少一种文字特征相匹配，如，文本变换是从文本行样本图像中截取两个子图像作为两个文本行构造图像，那么两个文本行构造图像中均包含有与文本行样本图像相同的字符等。因此，可以由该获得的两个文本行构造图像，来建立文本行样本图像对应的构造图像对等，具体不做限制。

作为一种实施例，下面以三种文本变换为例，对步骤S203进行介绍，文本变换不限于下面的三种，多种文本变换可以结合使用，在此不再赘述。下面分别以对多个文本行样本图像中的一个文本行样本图像进行文本变换，获得构造图像对的过程为例进行介绍，每个文本行样本图像的获得构造图像对的过程类似，在此不再赘述。

重排变换：

获取文本行样本图像包含的各字符的字符位置。基于获得的各字符位置，重排文本行样本图像中的各字符，获得文本行构造图像。基于获得的文本行构造图像和文本行样本图像，建立文本行样本图像对应的构造图像对。

在从各文档构造图像和多个文档样本图像中，提取出多个文本行样本图像的时候，可以同时获得各文本行样本图像各自包含的各字符的字符位置；或者，也可以采用预设的字符位置检测策略，获取文本行样本图像包含的各字符的字符位置等，具体不做限制。

在获得各字符位置之后，可以对文本行样本图像中的各字符的顺序进行调整，达到重排文本行样本图像中的各字符的目的，从而，可以获得文本行构造图像。文本行样本图像中的各字符的排列顺序，可以会使得整个文本行具有语义信息，而在训练文本分类模型的过程中，语义信息可能会对训练造成误导等不利影响，而获得的文本行构造图像，打乱了文本行样本图像中各字符的排列顺序，破坏了文本行样本图像中的文本行可能存在的语义信息，从而，通过学习文本行构造图像，可以提高训练出的目标文本分类模型的分类准确性和分类可靠性。

作为一种实施例，为了保证重排变换后获得的文本行构造图像中各字符的间距与文本行样本图像中各字符的间距保持一致，可以不对文本行样本图像中的首尾字符进行字符位置的调整，再将其他调整字符位置后的字符均匀排列在首尾字符之间，以保证各字符的间距保持不变等。

请参考图4C，包含文本行样本图像的一种示意图，文本行样本图像中包含“在”、“外”、“买”、“零”、“件”、“焊”、“接”、“做”、“出”、“来”、“的”这十一个字符，并按照该字符位置的顺序排列。

对文本行样本图像进行重排变换时，调整这十一个字符各自的字符位置，使得这十一个字符的排列顺序改变，请继续参考图4C，还包含文本行构造图像的一种示意图，文本行构造图像中各字符的排列顺序为“在”、“外”、“零”、“出”、“件”、“买”、“来”、“做”、“接”、“焊”、“的”。文本行样本图像中的文本行具有语义信息，而生成的文本行构造图像则不具有语义信息。

调整各字符各自的字符位置时，可以是随机重排，也可以是按照预设重排策略进行的调整，例如，以文本行中位于中心位置的字符位置为对称的两个字符位置进行互换；又例如，各字符位置调整后，使得每个字符位置都与原字符位置不同等，具体不做限制。

裁剪缩放变换：

确定文本行样本图像的图像长度大于预设的文本行长度范围的最大值时，基于文本行长度范围，将文本行样本图像裁剪为多个文本行子图像。从多个文本行子图像中，选取两个文本行子图像。基于预设的缩放策略，对选取的两个文本行子图像进行缩放处理，获得两个文本行构造图像。基于获得的两个文本行构造图像，建立文本行样本图像对应的构造图像对。

文本行样本图像中的文本行的长度很长时，即文本行样本图像的图像长度大于预设的文本行长度范围的最大值时，可以按照文本行长度范围，对文本行样本图像进行裁剪处理，以便于模型学习。通过裁剪，可以获得一个或多个文本行子图像，为了便于模型学习，可以裁剪出多个文本行子图像，从而可以针对图像长度相似的文本行子图像进行模型学习。

在进行裁剪处理时，可以以不小于文本行样本图像的图像长度的0.8倍的文本行长度范围，以及不小于文本行样本图像的图像高度的0.4倍的文本行高度范围，来对文本行样本图像进行裁剪，从而可以保证裁剪出的文本行子图像中字符的完整性等。文本行长度范围和文本行高度范围可以是其他范围值，具体不做限制。

在获得多个文本行子图像之后，可以从多个文本行子图像中，选取两个文本行子图像，该选取出的两个文本行子图像可以直接作为两个文本行构造图像，建立文本行样本图像对应的构造图像对；也可以用于进行后续缩放处理等。

选取两个文本行子图像时，可以基于图像清晰度、字符完整度、包含字符的数量等多种角度来进行选取，使得选取出的两个文本行子图像是多个文本行子图像中裁剪效果最好的两个，以提高训练准确性等。

请参考图4D，包含文本行样本图像的一种示意图，文本行样本图像中包含的文本行为“全国火速抽调1500名空调安装、维修师傅“空降”某城市，日均安装空调超6000台。”。

对文本行样本图像进行裁剪变换时，将文本行样本图像裁剪为两个文本行子图像，请继续参考图4D，还包含两个文本行子图像的一种示意图，一个文本行子图像中包含的文本行为“国火速抽调1500名空调安装、维修师”，另一个文本行子图像中包含的文本行为““空降”某城市，日均安装空调超600”。

在获得两个文本行子图像之后，可以基于预设的缩放策略，对这两个文本行子图像进行缩放处理，获得两个文本行构造图像。缩放变换可以不与裁剪变换一同进行，可以仅针对文本行样本图像进行缩放处理，来获得文本行构造图像，本申请实施例中，以裁剪变换后再进行缩放变换为例进行介绍，具体不做限制。

缩放处理可以是对文本行子图像中的各字符进行的缩放处理，实际上不改变图像大小，例如，从文本行子图像中提取出各字符所在的矩形区域，对文本行子图像中的各字符所在的矩形区域进行缩放处理，在获得缩放后的包含各字符的矩形区域之后，将缩放后的矩形区域的中心点，与文本行子图像的中心点对齐，从而将缩放后的矩形区域置于文本行子图像中，获得文本行构造图像，以保证图像尺寸不变的前提下，缩放各字符的尺寸。

预设的缩放策略可以是按照文本行长度的0.5~1.5倍，文本行高度的0.5~1.5倍的策略来进行缩放，缩放策略还可以是其他策略，具体不做限制。

请参考图4E，包含文本行子图像的一种示意图，文本行子图像中包含的文本为“国火速抽调1500名空调安装、维修师”。按照文本行长度的0.7倍，以及文本行长度的0.5倍，对该文本行子图像进行缩放处理，获得相应的文本行构造图像。请继续参考图4E，还包含文本行构造图像，该文本行构造图像与文本行子图像的图像尺寸相同，而其中的文本行的尺寸不同。

颜色抖动变换：

对文本行样本图像进行灰度处理，获得灰度文本行图像。基于预设的数值调整范围，调整获得的灰度文本行图像的亮度、对比度和饱和度中的至少一种，获得文本行构造图像。基于获得的文本行构造图像和文本行样本图像，建立文本行样本图像对应的构造图像对。

通过颜色抖动变换可以调整图像的亮度、对比度和饱和度中的至少一种，从而可以使得训练出的目标文本分类模型可以适应更多场景下获得的待分类的文本行图像，提高训练出的目标文本分类模型的适用性。

请参考图4F（1），包含文本行样本图像对应的灰度文本行图像的一种示意图，灰度文本行图像中文本行以白色背景和黑色字符呈现，文本行以外的区域以黑色背景呈现。对灰度文本行图像进行对比度变换，提高对比度值，获得文本行构造图像，请继续参考图4F（1），包含文本行构造图像的一种示意图。

请参考图4F（2），包含文本行样本图像对应的灰度文本行图像的一种示意图，灰度文本行图像中文本行以白色背景和黑色字符呈现，文本行以外的区域以黑色背景呈现。对灰度文本行图像进行亮度变换，降低亮度值，获得文本行构造图像，请继续参考图4F（2），包含文本行构造图像的一种示意图。

请参考图4F（3），包含文本行样本图像对应的灰度文本行图像的一种示意图，灰度文本行图像中文本行以白色背景和黑色字符呈现，文本行以外的区域以黑色背景呈现。对灰度文本行图像进行饱和度变换，降低饱和度值，获得文本行构造图像，请继续参考图4F（3），包含文本行构造图像的一种示意图。

请参考图4F（4），包含文本行样本图像对应的灰度文本行图像的一种示意图，灰度文本行图像中文本行以白色背景和黑色字符呈现，文本行以外的区域以黑色背景呈现。对灰度文本行图像进行亮度变换和饱和度变换，降低亮度值和饱和度值，获得文本行构造图像，请继续参考图4F（4），包含文本行构造图像的一种示意图。

S204，采用文本分类模型，分别对获得的各构造图像对进行特征提取，获得相应的图像特征对。

在获得各构造图像对之后，可以采用文本分类模型，分别对获得的各构造图像对进行特征提取，获得相应的图像特征对。每个图像特征对包含：相应的构造图像对包含的两个文本行构造图像各自的图像特征。

请参考图5A，文本分类模型可以包含两个特征提取模块，即，第一特征提取模块和第二特征提取模块，两个特征提取模块的模型参数共享。以一个构造图像对为例，在对构造图像对包含的两个文本行构造图像，即第一文本行构造图像和第二文本行构造图像，进行特征提取时，可以分别采用不同的特征提取模块，对不同的文本行构造图像进行特征提取，从而可以并行获得两个文本行构造图像各自的图像特征，即第一图像特征和第二图像特征。

作为一种实施例，文本分类模型可以采用对比学习模型的模型框架，对比学习模型例如是Simsiam模型，两个特征提取模块可以均采用ResNet50模块实现，记为

。以各构造图像对为N个构造图像对为例，那么N个构造图像对可以表示为

，其中，i表示第i个构造图像对，

表示第i个构造图像对中的第一个文本行构造图像，

表示第i个构造图像对中的第二个文本行构造图像。那么N个构造图像对各自对应的图像特征对可以表示为

，其中，

表示第i个构造图像对中的第一个文本行构造图像的图像特征，

表示第i个构造图像对中的第二个文本行构造图像的图像特征。

S205，基于获得的各图像特征对各自包含的两个图像特征之间的差异，调整文本分类模型的模型参数。

在获得各图像特征对之后，可以基于获得的各图像特征对各自包含的两个图像特征之间的差异，调整文本分类模型的模型参数。例如，在获得的各图像特征对各自包含的两个图像特征之间的差异未达到训练目标时，调整文本分类模型的模型参数，并进入下一轮迭代训练；在获得的各图像特征对各自包含的两个图像特征之间的差异达到训练目标时，将当前的文本分类模型输出，作为已训练的目标文本分类模型等。

作为一种实施例，下面对基于获得的各图像特征对各自包含的两个图像特征之间的差异，调整文本分类模型的模型参数的一种过程进行具体介绍，实际上并不局限在下面的内容中。

以一个构造图像对对应的图像特征对为例，介绍两个图像特征之间的差异，调整文本分类模型的模型参数的一种过程，针对其他图像特征对的过程类似，在此不再赘述。

分别对图像特征对包含的两个图像特征进行第一线性变换，获得相应的第一变换特征。文本分类模型中还可以包含至少一个特征变换模块，用于对获得的图像特征进行线性变换等。第一线性变换可以通过第一特征变换模块实现，记为

。第一特征变换模块可以包括两个线性投影层，以及一个激活层和一个批归一化层，那么计算第一变换特征请参考公式（1）。

其中，

表示第i个构造图像对中的第一个文本行构造图像的图像特征对应的第一变换特征，

表示第i个构造图像对中的第二个文本行构造图像的图像特征对应的第一变换特征。在构造图像对的数量为N个时，

在获得两个第一变换特征之后，可以基于获得的两个第一变换特征之间的误差，确定图像特征对对应的特征误差。从而，在获得各图像特征对各自对应的特征误差之后，可以基于各图像特征对各自对应的特征误差，调整文本分类模型的模型参数。

作为一种实施例，在获得第一变换特征之后，还可以继续进行第二线性变换，分别对两个第一变换特征进行第二线性变换，获得相应的第二变换特征。确定一个第一变换特征与另一个第一变换特征对应的第二变换特征之间的余弦相似度，以及确定另一个第一变换特征与一个第一变换特征对应的第二变换特征之间的余弦相似度。基于获得的两个余弦相似度之和，确定图像特征对对应的特征误差。

第二线性变换可以采用文本分类模型中的第二特征变换模块实现，记为

。计算第二变换特征的过程可以参考公式（2）。

其中，

表示第i个构造图像对中的第一个文本行构造图像的图像特征对应的第一变换特征对应的第二变换特征，

表示第i个构造图像对中的第二个文本行构造图像的图像特征对应的第一变换特征对应的第二变换特征。在构造图像对的数量为N个时，

确定余弦相似度的过程可以记为

，那么计算图像特征对对应的特征误差的过程请参考公式（3）。

其中，

代指梯度截断（stopgrad）操作，使得文本分类模型中的特征提取模块对于一个构造图像对中的第二个文本行构造图像，仅从

接收梯度而不是

，从而文本分类模型的训练过程中，不需要负采样。两个余弦相似度的权重均为

。

从而，在获得各图像特征对对应的特征误差之后，可以基于各特征误差之和，确定文本分类模型的训练损失

，请参考公式（4）。

其中，

表示计算L2范数。在构造图像对的数量为N个时，

例如，请参考图5B，文本分类模型包括第一特征变换模块和第二特征变换模块，一个构造图像对对应的图像特征对包含的两个图像特征，即第一图像特征和第二图像特征，分别通过第一特征变换模块进行第一线性变换后，获得两个第一变换特征，即第一变换特征A和第一变换特征B。两个第一变换特征分别通过第二特征变换模块进行第二线性变换，获得两个第二变换特征，即第二变换特征A和第二变换特征B。第二特征变换模块可以包含两个线性投影层，这两个线性投影层可以与第一特征变换模块中的两个线性投影层相同，也可以不同。

请参考图5C，确定第一变换特征A与第二变换特征B之间的余弦相似度，获得第一余弦相似度，确定第一变换特征B与第二变换特征A之间的余弦相似度，获得第二余弦相似度。对第一余弦相似度和第二余弦相似度进行加权求和，获得该图像特征对对应的特征误差。

作为一种实施例，在获得已训练的目标文本分类模型之后，可以采用真实的文档图像对目标文本分类模型进行测试，请参考图6A，在获得待处理文档图像之后，基于预设的文本行提取策略，提取待处理文档图像包含的各待分类分本行，获得各待分类分本行图像。采用目标文本分类模型，分别对各待分类分本行图像进行特征提取，获得各目标特征。继续采用目标文本分类模型，基于获得的各目标特征，预测各待分类分本行图像各自的目标类别，目标类别例如是文本行样本图像中字符的字体类别、所属语言类别等，具体不做限制。从而可以通过预测出的目标类别，来判断目标文本分类模型是否需要继续微调或继续训练等。

作为一种实施例，在获得已训练的目标文本分类模型之后，还可以使用目标文本分类模型来辅助文档图像理解、文档版面分析或文本属性还原等工作，下面进行示例介绍。

在获得待处理文档图像之后，可以基于预设的文本行提取策略，提取待处理文档图像包含的各待分类分本行，获得各待分类分本行图像，以及获得各待分类分本行各自在待处理文档图像中的文本行位置。文本行提取策略例如是光学字符识别（OpticalCharacter Recognition，OCR）技术等，具体不做限制。

采用目标文本分类模型，分别对各待分类分本行图像进行特征提取，获得各目标特征，并基于获得的各目标特征，预测各待分类分本行图像各自的目标类别。

基于预设的各文本类别与各标注样式之间的映射关系，在待处理文档图像中各待分类分本行各自的文本行位置，分别以各待分类分本行各自的目标类别相应的标注样式进行标注，获得目标文档图像。

请参考图6B，为一种从待处理文档图像获得目标文档图像的示意图。各待分类分本行分别以各自的目标类别相应的灰度值的颜色进行标注。

下面对本申请实施例提供的训练文本分类模型的方法进行示例介绍。

请参考图7A，在获得多个文档样本图像之后，在每轮训练过程中，基于多个文档样本图像进行数据构造，获得N个文本行样本图像，记为

。在获得各文本行样本图像之后，基于各文本行样本图像，建立各构造图像对，记为

，其中，

表示N个文本行样本图像中，第i个文本行样本图像对应的构造图像对中的第一个文本行构造图像，

表示N个文本行样本图像中，第i个文本行样本图像对应的构造图像对中的第二个文本行构造图像。通过获得的各构造图像对，对待训练的文本分类模型进行多轮迭代训练，获得待微调的文本分类模型。通过获得多个关联有类别标注的文本行标注图像，对待微调的文本分类模型进行多轮微调，输出已训练的目标文本分类模型。其中，获得的文本行标注图像的数量远小于N。

请参考图7B，在获得N个文本行样本图像

之后，依次对每个文本行样本图像进行文本变换，获得相应的构造图像对。例如，对文本行样本图像

，进行文本变换，获得文本行构造图像

，将文本行样本图像

，作为另一个文本行构造图像

，从而获得构造图像对

。又例如，对文本行样本图像

，进行文本变换，获得文本行构造图像

，以及文本行构造图像

，从而根据获得的两个文本行构造图像，建立构造图像对

。

在获得各构造图像对之后，采用文本分类模型包含的两个模型参数共享的特征提取模块，即第一特征提取模块和第二特征提取模块，分别对各构造图像对进行特征提取，获得各图像特征对。可以采用第一特征提取模块分别对每个构造图像对中的第一个文本行构造图像，即

，进行特征提取，获得相应的第一图像特征，即

，采用第二特征提取模块分别对每个构造图像对中的第二个文本行构造图像，即

，进行特征提取，获得相应的第二图像特征，即

。第一图像特征与其对应的第二图像特征，组成了图像特征对，记为

。

例如，采用第一特征提取模块对第一个构造图像对中的第一个文本行构造图像，即

，进行特征提取，获得相应的第一图像特征，即

。又例如，采用第二特征提取模块对第一个构造图像对中的第二个文本行构造图像，即

，进行特征提取，获得相应的第二图像特征，即

。其他不再赘述。

在获得各图像特征对之后，采用文本分类模型包含的第一特征变换模块，对各图像特征对，即

，进行第一线性变换，获得各第一变换特征，即

。

例如，采用第一特征变换模块对第一个图像特征对中的第一个图像特征，即

，进行第一线性变换，获得相应的第一变换特征，即

。又例如，采用第一特征变换模块对第一个图像特征对中的第二个图像特征，即

，进行第一线性变换，获得相应的第一变换特征，即

。其他不再赘述。

在获得各第一变换特征之后，采用文本分类模型包含的第二特征变换模块，对各第一变换特征，即

，进行第二线性变换，获得各第二变换特征，即

。

例如，采用第二特征变换模块对第一个图像特征对中的第一个图像特征对应的第一变换特征，即

，进行第二线性变换，获得相应的第二变换特征，即

。又例如，采用第二特征变换模块对第一个图像特征对中的第二个图像特征对应的第一变换特征，即

，进行第二线性变换，获得相应的第二变换特征，即

。其他不再赘述。

请参考图7C，在获得各第二变换特征之后，计算各图像特征对中，第一个图像特征对应的第一变换特征，与第二个图像特征对应的第二变换特征之间的余弦相似度，以及第二个图像特征对应的第一变换特征，与第一个图像特征对应的第二变换特征之间的余弦相似度，基于获得的余弦相似度的加权和，获得各图像特征对各自对应的特征误差。

例如，计算第一个图像特征对中，第一个图像特征对应的第一变换特征，即

，与第二个图像特征对应的第二变换特征，即

，之间的余弦相似度；以及第二个图像特征对应的第一变换特征，即

，与第一个图像特征对应的第二变换特征，即

，之间的余弦相似度。其他不再赘述。

在获得各图像特征对各自对应的特征误差之后，对获得的各特征误差进行求和，获得文本分类模型的训练损失。在训练损失不满足训练目标时，调整文本分类模型的模型参数，并进入下一轮迭代训练。

在训练损失满足训练目标时，将当前的文本分类模型输出，作为中间文本分类模型。在获得中间文本分类模型之后，可以通过少量关联有类别标注的文本行标注图像，对中间文本分类模型进行有监督的训练，达到对中间文本分类模型的模型参数进行微调的目的，从而可以获得分类准确性和分类可靠性更高的已训练的目标文本分类模型。

本申请实施例中，可以为通用文档识别场景提供文本分类功能，可以准确识别文档图像中的字体区域的文本类别，如字体类型，为文档属性还原和内容信息检测提供价值输入，具有较好的准确性和泛化性。

基于同一发明构思，本申请实施例提供一种训练文本分类模型的装置，能够实现前述的训练文本分类模型的方法对应的功能。请参考图8，该装置包括获取模块801和处理模块802，其中：

获取模块801：用于获取多个文本行样本图像；

处理模块802：用于基于多个文本行样本图像，对待训练的文本分类模型进行多轮迭代训练，输出已训练的目标文本分类模型，每轮迭代包括：

处理模块802具体用于：分别对多个文本行样本图像进行至少一种文本变换，获得相应的构造图像对，其中，每个构造图像对包含两个文本行构造图像，每个文本行构造图像与相应的文本行样本图像之间存在至少一种文字特征相匹配；

处理模块802具体用于：采用文本分类模型，分别对获得的各构造图像对进行特征提取，获得相应的图像特征对，其中，每个图像特征对包含：相应的构造图像对包含的两个文本行图像各自的图像特征；

处理模块802具体用于：基于获得的各图像特征对各自包含的两个图像特征之间的差异，调整文本分类模型的模型参数。

在一种可能的实施例中，至少一种文本变换包括：重排变换，则处理模块802具体用于：

针对多个文本行样本图像，分别执行以下操作：

获取文本行样本图像包含的各字符的字符位置；

基于获得的各字符位置，重排文本行样本图像中的各字符，获得文本行构造图像；

基于获得的文本行构造图像和文本行样本图像，建立文本行样本图像对应的构造图像对。

在一种可能的实施例中，至少一种文本变换包括：裁剪缩放变换，则处理模块802具体用于：

针对多个文本行样本图像，分别执行以下操作：

确定文本行样本图像的图像长度大于预设的文本行长度范围的最大值时，基于文本行长度范围，将文本行样本图像裁剪为多个文本行子图像；

从多个文本行子图像中，选取两个文本行子图像；

基于获得的两个文本行构造图像，建立文本行样本图像对应的构造图像对。

在一种可能的实施例中，至少一种文本变换包括：颜色抖动变换，则处理模块802具体用于：

针对多个文本行样本图像，分别执行以下操作：

对文本行样本图像进行灰度处理，获得灰度文本行图像；

在一种可能的实施例中，处理模块802具体用于：

针对各图像特征对，分别执行以下操作：

基于获得的两个第一变换特征之间的误差，确定图像特征对对应的特征误差；

基于各图像特征对各自对应的特征误差，调整文本分类模型的模型参数。

在一种可能的实施例中，处理模块802具体用于：

分别对两个第一变换特征进行第二线性变换，获得相应的第二变换特征；

确定一个第一变换特征与另一个第一变换特征对应的第二变换特征之间的余弦相似度，以及确定另一个第一变换特征与一个第一变换特征对应的第二变换特征之间的余弦相似度；

基于获得的两个余弦相似度之和，确定图像特征对对应的特征误差。

在一种可能的实施例中，处理模块802具体用于：

基于多个文本行样本图像，对待训练的文本分类模型进行多轮迭代训练，输出待微调的中间文本分类模型；

获取多个文本行标注图像；其中，多个文本行标注图像各自关联有类别标注；类别标注用于表征：相应的文本行标注图像包含的各字符所属的文本类别；多个文本行标注图像的图像数量，小于多个文本行样本图像的图像数量；

基于多个文本行标注图像和各类别标注，对中间文本分类模型进行多轮迭代训练，输出已训练的目标文本分类模型。

在一种可能的实施例中，获取模块801具体用于：

获取多个文档样本图像；其中，多个文档样本图像各自关联有文本行标注；文本行标注用于表征：相应的文档样本图像包含的各文本行的文本行位置；

基于预设的多种文本属性，分别按照多个文档样本图像各自关联的文本行标注，生成多个构造文本行；

采用获得的多个构造文本行，分别替换多个文档样本图像各自包含的各文本行，生成相应的文档构造图像；

从获得的各文档构造图像和多个文档样本图像中，提取多个文本行样本图像。

在一种可能的实施例中，处理模块802还用于：

在基于多个文本行样本图像，对待训练的文本分类模型进行多轮迭代训练，输出已训练的目标文本分类模型之后，获取待处理文档图像；

基于预设的文本行提取策略，提取待处理文档图像包含的各待分类分本行，获得各待分类分本行图像，以及获得各待分类分本行各自在待处理文档图像中的文本行位置；

采用目标文本分类模型，分别对各待分类分本行图像进行特征提取，获得各目标特征，并基于获得的各目标特征，预测各待分类分本行图像各自的目标类别；

请参照图9，上述训练文本分类模型的装置可以运行在计算机设备900上，数据存储程序的当前版本和历史版本以及数据存储程序对应的应用软件可以安装在计算机设备900上，该计算机设备900包括处理器980以及存储器920。在一些实施例中，该计算机设备900可以包括显示单元940，显示单元940包括显示面板941，用于显示由用户交互操作界面等。

在一种可能的实施例中，可以采用液晶显示器（Liquid Crystal Display，LCD）或有机发光二极管OLED（Organic Light-Emitting Diode）等形式来配置显示面板941。

处理器980用于读取计算机程序，然后执行计算机程序定义的方法，例如处理器980读取数据存储程序或文件等，从而在该计算机设备900上运行数据存储程序，在显示单元940上显示对应的界面。处理器980可以包括一个或多个通用处理器，还可包括一个或多个DSP（Digital Signal Processor，数字信号处理器），用于执行相关操作，以实现本申请实施例所提供的技术方案。

存储器920一般包括内存和外存，内存可以为随机存储器（RAM），只读存储器（ROM），以及高速缓存（CACHE）等。外存可以为硬盘、光盘、USB盘、软盘或磁带机等。存储器920用于存储计算机程序和其他数据，该计算机程序包括各客户端对应的应用程序等，其他数据可包括操作系统或应用程序被运行后产生的数据，该数据包括系统数据（例如操作系统的配置参数）和用户数据。本申请实施例中程序指令存储在存储器920中，处理器980执行存储器920中的程序指令，实现前文图论述的任意的一种方法。

上述显示单元940用于接收输入的数字信息、字符信息或接触式触摸操作/非接触式手势，以及产生与计算机设备900的用户设置以及功能控制有关的信号输入等。具体地，本申请实施例中，该显示单元940可以包括显示面板941。显示面板941例如触摸屏，可收集用户在其上或附近的触摸操作（比如用户使用手指、触笔等任何适合的物体或附件在显示面板941上或在显示面板941的操作），并根据预先设定的程式驱动相应的连接装置。

在一种可能的实施例中，显示面板941可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测玩家的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器980，并能接收处理器980发来的命令并加以执行。

其中，显示面板941可以采用电阻式、电容式、红外线以及表面声波等多种类型实现。除了显示单元940，在一些实施例中，计算机设备900还可以包括输入单元930，输入单元930可以包括图像输入设备931和其他输入设备932，其中其他输入设备可以但不限于包括物理键盘、功能键（比如音量控制按键、开关按键等）、轨迹球、鼠标、操作杆等中的一种或多种。

除以上之外，计算机设备900还可以包括用于给其他模块供电的电源990、音频电路960、近场通信模块970和RF电路910。计算机设备900还可以包括一个或多个传感器950，例如加速度传感器、光传感器、压力传感器等。音频电路960具体包括扬声器961和麦克风962等，例如计算机设备900可以通过麦克风962采集用户的声音，进行相应的操作等。

作为一种实施例，处理器980的数量可以是一个或多个，处理器980和存储器920可以是耦合设置，也可以是相对独立设置。

作为一种实施例，图9中的处理器980可以用于实现如图8中的获取模块801和处理模块802的功能。

作为一种实施例，图9中的处理器980可以用于实现前文论述的服务器或终端设备对应的功能。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于一计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：移动存储设备、只读存储器（ROM，Read-Only Memory）、随机存取存储器（RAM，Random Access Memory）、磁碟或者光盘等各种可以存储程序代码的介质。

或者，本发明上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，例如，通过计算机程序产品体现，该计算机程序产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备执行本发明各个实施例所述方法的全部或部分。而前述的存储介质包括：移动存储设备、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

Claims

1.一种训练文本分类模型的方法，其特征在于，包括：

获取多个文本行样本图像；

采用文本分类模型，分别对获得的各构造图像对进行特征提取，获得相应的图像特征对，其中，每个所述图像特征对包含：相应的构造图像对包含的两个文本行构造图像各自的图像特征；

2.根据权利要求1所述的方法，其特征在于，所述至少一种文本变换包括：重排变换，则所述分别对所述多个文本行样本图像进行至少一种文本变换，获得相应的构造图像对，包括：

针对所述多个文本行样本图像，分别执行以下操作：

获取文本行样本图像包含的各字符的字符位置；

3.根据权利要求1所述的方法，其特征在于，所述至少一种文本变换包括：裁剪缩放变换，则所述分别对所述多个文本行样本图像进行至少一种文本变换，获得相应的构造图像对，包括：

针对所述多个文本行样本图像，分别执行以下操作：

从所述多个文本行子图像中，选取两个文本行子图像；

4.根据权利要求1所述的方法，其特征在于，所述至少一种文本变换包括：颜色抖动变换，则所述分别对所述多个文本行样本图像进行至少一种文本变换，获得相应的构造图像对，包括：

针对所述多个文本行样本图像，分别执行以下操作：

对文本行样本图像进行灰度处理，获得灰度文本行图像；

5.根据权利要求1所述的方法，其特征在于，所述基于获得的各图像特征对各自包含的两个图像特征之间的差异，调整所述文本分类模型的模型参数，包括：

针对所述各图像特征对，分别执行以下操作：

6.根据权利要求5所述的方法，其特征在于，所述基于获得的两个第一变换特征之间的误差，确定所述图像特征对对应的特征误差，包括：

7.根据权利要求1~6任一项所述的方法，其特征在于，所述基于所述多个文本行样本图像，对待训练的文本分类模型进行多轮迭代训练，输出已训练的目标文本分类模型，包括：

8.根据权利要求1~6任一项所述的方法，其特征在于，所述获取多个文本行样本图像，包括：

9.根据权利要求1~6任一项所述的方法，其特征在于，在所述基于所述多个文本行样本图像，对待训练的文本分类模型进行多轮迭代训练，输出已训练的目标文本分类模型之后，还包括：

获取待处理文档图像；

10.一种训练文本分类模型的装置，其特征在于，包括：

获取模块：用于获取多个文本行样本图像；

所述处理模块具体用于：采用文本分类模型，分别对获得的各构造图像对进行特征提取，获得相应的图像特征对，其中，每个所述图像特征对包含：相应的构造图像对包含的两个文本行构造图像各自的图像特征；

11.一种计算机程序产品，包括计算机程序，其特征在于，该计算机程序被处理器执行时实现如权利要求1~9中任一项所述的方法。

12.一种计算机设备，其特征在于，包括：

存储器，用于存储程序指令；

处理器，用于调用所述存储器中存储的程序指令，按照获得的程序指令执行如权利要求1~9中任一项所述的方法。

13.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机可执行指令，所述计算机可执行指令用于使计算机执行如权利要求1~9中任一项所述的方法。