CN117173731A

CN117173731A - 一种模型训练的方法、图像处理的方法以及相关装置

Info

Publication number: CN117173731A
Application number: CN202311448654.6A
Authority: CN
Inventors: 陈皇
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2023-11-02
Filing date: 2023-11-02
Publication date: 2023-12-05
Anticipated expiration: 2043-11-02
Also published as: CN117173731B

Abstract

本申请实施例公开了一种模型训练的方法、图像处理的方法以及相关装置，至少涉及人工智能等技术，可应用于云技术、人工智能、智慧交通、辅助驾驶等各种场景，用于节省计算消耗和时间，并且提高识别准确率和识别效果。该模型训练的方法包括：获取训练图像；提取训练图像的图像特征序列；基于初始图像处理模型对训练图像的图像特征序列进行处理，得到训练图像的文本序列，文本序列包括多个文本框中每个文本框的位置信息以及对应的文本内容；基于文本序列以及文本序列的标签对初始图像处理模型进行训练，得到目标图像处理模型，目标图像处理模型用于对待识别图像进行处理，得到待识别图像中的文本内容。

Description

一种模型训练的方法、图像处理的方法以及相关装置

技术领域

本申请实施例涉及图像处理技术领域，具体涉及一种模型训练的方法、图像处理的方法以及相关装置。

背景技术

文本识别是指从图像中识别出其中的文字内容。图像文本中的文本形态可以是打印体、手写体、或者数字墨水文字等。包含文本的图像可以是由电子设备拍摄的数字图像、文档的扫描版本、或者其他任何形式包含文本的图像。通过对图像中的文本进行识别，能够实现各种不同的用途。例如说，可以实现将手写字符数字化，或者用于从所拍摄的图像中识别车牌号、证件信息，或者实现基于图像的信息检索等等。

针对图像中的文本识别，当前传统的识别方式依旧是使用文本检测模型对图像中的文本检测框进行检测，确定出文本检测框的位置信息后，再通过文本识别模型对该文本检测框的位置信息进行识别，以识别对应的文本内容。换句话说，当前对图像中的文本内容进行识别的过程中，检测过程和识别过程分别采用不同模型对应的算法，增加了计算消耗和时间增加；而且文本检测框的位置信息在较大程度上对文本识别的效果产生直接影响，导致文本识别的准确率和识别效果都欠佳。

发明内容

本申请实施例提供了一种模型训练的方法、图像处理的方法以及相关装置，用于节省计算消耗和时间，并且提高识别准确率和识别效果。

第一方面，本申请实施例提供了一种模型训练的方法。该模型训练的方法包括：获取训练图像；提取所述训练图像的图像特征序列；基于初始图像处理模型对所述训练图像的图像特征序列进行处理，得到预测的所述训练图像的文本序列，所述文本序列包括多个文本框中每个所述文本框的位置信息以及每个所述文本框对应的文本内容，每个所述文本框的位置信息用于指示对应所述文本框在所述训练图像中的位置；基于所述文本序列和所述文本序列的标签对所述初始图像处理模型进行训练，以得到目标图像处理模型，所述目标图像处理模型用于对所述待识别图像进行处理，以得到所述待识别图像中的文本内容。

第二方面，本申请实施例提供一种图像处理的方法。该图像处理的方法包括：获取待识别图像；提取所述待识别图像的图像特征序列；将所述待识别图像的图像特征序列作为目标图像处理模型的输入，得到所述待识别图像的预测文本序列，所述预测文本序列包括多个预测文本框中每个所述预测文本框的位置信息和每个所述预测文本框对应的文本内容，每个所述预测文本框的位置信息用于指示对应所述预测文本框在所述待识别图像中的位置，所述目标图像处理模型是以所预测到的训练图像的文本序列和所述文本序列的标签为训练数据，对初始图像处理模型进行迭代训练后得到的机器学习模型，所述文本序列由所述初始图像处理模型对所述训练图像的图像特征序列进行处理得到，所述文本序列包括多个文本框中每个所述文本框的位置信息以及每个所述文本框对应的文本内容，每个所述文本框的位置信息用于指示对应所述文本框在所述训练图像中的位置。

第三方面，本申请实施例提供一种模型训练装置。该模型训练装置包括获取单元、提取单元以及处理单元。其中，获取单元，用于获取训练图像。提取单元，用于提取所述训练图像的图像特征序列。处理单元，用于基于初始图像处理模型对所述训练图像的图像特征序列进行处理，得到预测的所述训练图像的文本序列，所述文本序列包括多个文本框中每个所述文本框的位置信息以及每个所述文本框对应的文本内容，每个所述文本框的位置信息用于指示对应所述文本框在所述训练图像中的位置。所述处理单元，用于基于所述文本序列和所述文本序列的标签对所述初始图像处理模型进行迭代训练，以得到目标图像处理模型，所述目标图像处理模型用于对所述待识别图像进行处理，以得到所述待识别图像中的文本内容。

在一些可选的实施方式中，处理单元用于：将所述训练图像的图像特征序列、多个文本框的排列顺序以及所述文本序列的标签输入所述初始图像处理模型，所述文本序列的标签包括当每个所述文本框的位置信息标签以及每个所述文本框对应的文本内容标签。处理单元用于通过所述初始图像处理模型执行以下步骤，以得到预测的所述训练图像的文本序列：对于当前文本框，基于按照所述排列顺序排列在所述当前文本框前的所有文本框的位置信息标签和所述所有文本框的文本内容标签，确定所述当前文本框的位置信息；基于所述当前文本框的位置信息、排列在所述当前文本框前的所有文本框的位置信息标签和所述所有文本框的文本内容标签，确定所述当前文本框所对应的当前文本内容。

在另一些可选的实施方式中，所述初始图像处理模型包括L层Transformer模型；处理单元，用于：针对当前文本框，将按照所述排列顺序排列在所述当前文本框前的所有文本框的位置信息标签和所述所有文本框的文本内容标签，作为第L层所述Transformer模型的输入，以得到所述当前文本框的位置信息，其中，所述L层Transformer模型中的第一层Transformer模型的输入为所述训练图像的图像特征序列，所述L层Transformer模型中的第L-1层Transformer模型的输入为第L-2层Transformer模型输出的第一文本框的位置信息所对应的标签、排列在所述第一文本框前的所有文本框的文本内容标签和文本内容标签，输出为所述第一文本框的位置信息，所述第一文本框为排列在所述当前文本框的前一个文本框。

在另一些可选的实施方式中，处理单元，用于：计算所述文本序列和所述文本序列的标签之间的差异，以得到损失值；基于所述损失值对所述初始图像处理模型进行训练，以得到目标图像处理模型。

在另一些可选的实施方式中，提取单元，用于：对所述训练图像进行图像划分，得到多个子图像；基于预设特征提取模型对每个所述子图像进行特征提取处理，得到每个所述子图像的图像特征；将多个所述子图像的图像特征进行拼接处理，得到所述训练图像的图像特征序列。

在另一些可选的实施方式中，提取单元，用于：基于所述预设特征提取模型中的每个注意力机制，对第一子图像中的每个图像区域进行特征提取处理，得到所述第一子图像中每个所述图像区域的图像特征，所述第一子图像为所述多个子图像中的任意一个；基于所述预设特征提取模型中的全连接层对所述第一子图像中每个所述图像区域的图像特征进行拼接处理，得到所述第一子图像的图像特征。

第四方面，本申请实施例提供一种图像处理装置。该图像处理装置包括获取单元、提取单元以及处理单元。其中，获取单元，用于获取待识别图像。提取单元，用于提取所述待识别图像的图像特征。处理单元，用于将所述待识别图像的图像特征序列作为目标图像处理模型的输入，得到所述待识别图像的预测文本序列，所述预测文本序列包括多个预测文本框中每个所述预测文本框的位置信息和每个所述预测文本框对应的文本内容，每个所述预测文本框的位置信息用于指示对应所述预测文本框在所述待识别图像中的位置，所述目标图像处理模型是以所预测到的训练图像的文本序列和所述文本序列的标签为训练数据，对初始图像处理模型进行迭代训练后得到的机器学习模型，所述文本序列由所述初始图像处理模型对所述训练图像的图像特征序列进行处理得到，所述文本序列包括多个文本框中每个所述文本框的位置信息以及每个所述文本框对应的文本内容，每个所述文本框的位置信息用于指示对应所述文本框在所述训练图像中的位置。

在一些可选的实施方式中，处理单元，用于将所述待识别图像的图像特征序列、多个预测文本框的排列顺序作为所述目标图像处理模型的输入。处理单元，用于通过所述目标图像处理模型执行以下步骤，以得到所述待识别图像的预测文本序列：对于当前预测文本框，基于按照所述多个预测文本框的排列顺序排列在所述当前预测文本框前的所有预测文本框的位置信息和所述所有预测文本框的文本内容，确定所述当前预测文本框的位置信息；基于所述当前预测文本框的位置信息、排列在所述当前预测文本框的所有预测文本框的位置信息和所述所有预测文本框的文本内容，确定所述当前预测文本框所对应的当前文本内容。

在另一些可选的实施方式中，所述目标图像处理模型包括L层Transformer模型；处理单元用于：针对当前预测文本框，基于第L层所述Transformer模型中的多头注意力层对所述当前预测文本框的位置信息、排列在所述当前预测文本框前的所有文本框的位置信息和所述所有预测文本框的文本内容进行处理，得到注意力特征；基于所述第L层所述Transformer模型中的归一化层对所述注意力特征进行归一化处理，得到归一化层特征；基于所述第L层所述Transformer模型中的前馈层对所述归一化层特征进行处理，得到所述当前预测文本框的预测概率，所述当前预测文本框的预测概率用于指示所述当前预测文本框所对应的当前文本内容。

本申请实施例第五方面提供了一种图像处理设备，包括：存储器、输入/输出（I/O）接口和存储器。存储器用于存储程序指令。处理器用于执行存储器中的程序指令，以执行上述第一方面的实施方式对应的模型训练的方法；或者，执行上述第二方面的实施方式对应的图像处理的方法。

本申请实施例第六方面提供了一种计算机可读存储介质，计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行以执行上述第一方面的实施方式对应的模型训练的方法；或者，执行上述第二方面的实施方式对应的图像处理的方法。

本申请实施例第六方面提供了一种包含指令的计算机程序产品，当其在计算机或者处理器上运行时，使得计算机或者处理器执行上述以执行上述第一方面的实施方式对应的模型训练的方法；或者，执行上述第二方面的实施方式对应的图像处理的方法。

从以上技术方案可以看出，本申请实施例具有以下优点：

本申请实施例中，在获取到训练图像后，提取该训练图像的图像特征序列，并基于初始图像处理模型对训练图像的图像特征序列进行处理，得到预测的训练图像的文本序列。其中，在文本序列中，包括多个文本框中每个文本框的位置信息以及每个文本框对应的文本内容，每个文本框的位置信息能够指示对应文本框在训练图像中的位置。进一步地，再基于文本序列和文本序列的标签对初始图像处理模型进行训练，以得到目标图像处理模型。这样，在得到目标图像处理模型后，能够通过目标图像处理模型对待识别图像进行处理，直接识别得到待识别图像中的文本内容。通过上述方式，借助训练图像的图像特征序列先确定出训练图像的文本序列，进而借助该文本序列中每个文本框的位置信息和文本内容、以及相应的文本序列的标签对初始图像处理模型进行迭代训练，从而实现将文本检测和文本识别融合在所训练得到的目标图像处理模型中，省去了单独的文本检测模块，减少了计算消耗和时间，而且基于所训练得到的目标图像处理模型能够实现对待识别图像的文本内容的直接识别，无需依赖于文本检测框的位置信息，提高识别准确率和识别效果。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了相关识别方案中提供的流程示意图；

图2示出了本申请实施例提供的图像识别的系统框架示意图；

图3示出了本申请实施例提供的图像识别的应用场景示意图；

图4示出了本申请实施例提供的模型训练的方法的流程示意图；

图5示出了本申请实施例提供的一种图像划分的示意图；

图6示出了本申请实施例提供的一种解码示意图；

图7示出了本申请实施例提供的图像处理的方法的流程示意图；

图8示出了本申请实施例提供的模型训练装置的流程示意图；

图9示出了本申请实施例提供的图像处理装置的流程示意图；

图10示出了本申请实施例中提供的图像处理设备的硬件结构示意图。

实施方式

可以理解的是，在本申请的具体实施方式中，涉及到用户信息等相关的数据，当本申请以上实施例运用到具体产品或技术中时，需要获得用户许可或者同意，且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等（如果存在）是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例如能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

随着人工智能(artificial intelligence, AI)技术研究和进步，人工智能技术在多个领域展开研究和应用。例如，应用于常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服等领域。相信随着技术的发展，人工智能技术将在更多的领域得到应用，并发挥越来越重要的价值。

基于人工智能技术识别图像中的文本，是人工智能领域中非常重要的一项技术，被广泛地应用于各种图像处理设备中，能够提高对图像中文本内容的识别效率和识别效果。端到端的文本识别基于人工智能领域中机器学习（machine learning，ML）中的光学字符识别（optical character recognition，OCR）架构等，对端到端的文本识别有较好的识别能力，是当下比较热门且重要的应用场景。

本申请实施例提供了一种模型训练的方法，以及一种图像处理的方法。本申请实施例提供的模型训练的方法、图像处理的方法均是基于人工智能实现的。人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能(Artificial Intelligence, AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、预训练模型技术、操作/交互系统、机电一体化等。其中，预训练模型又称大模型、基础模型，经过微调后可以广泛应用于人工智能各大方向下游任务。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

在本申请实施例中，主要涉及的人工智能技术包括上述所提及的计算机视觉技术、机器学习等方向。例如，可以涉及计算机视觉（computer vision，CV）技术中的图像语义理解（image semantic understanding，ISU），包括但不限于图像分割、图像特征提取、OCR文字识别等；也可以涉及机器学习（machine learning，ML）中的深度学习（deeplearning），包括自动编码器、注意学习等。

本申请提供的模型训练的方法可以应用于具有数据处理能力的图像处理设备中。示例性地，本申请提供的图像处理的方法也可以应用于上述提及的图像处理设备中。作为一个示意性的描述，所提及的图像处理设备包括但不限于例如终端设备、服务器、问答机器人等。其中，终端设备可以包括但不限于智能手机、台式计算机、笔记本电脑、平板电脑、智能音箱、车载设备、智能手表、可穿戴智能设备、智能语音交互设备、智能家电、飞行器等。服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络（context delivery network，CDN）、以及大数据和人工智能平台等基础云计算服务的云服务器等，本申请不做具体限定。另外，所提及的终端设备以及服务器可以通过有线通信或无线通信等方式进行直接连接或间接连接，本申请不做具体限定。

上述所提及的图像处理设备可以具备实施上述提及的计算机视觉技术的能力。计算机视觉是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别、轨迹追索和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。

另外，该图像处理设备还可以具备机器学习能力。机器学习是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括神经网络等技术。

在本申请实施例提供的模型训练的方法、图像处理的方法中的采用人工智能模型，主要涉及对神经网络的应用，通过神经网络实现对待识别图像所对应的文本识别结果进行识别处理。

图1示出了相关识别方案中提供的流程示意图。

如图1所示，在传统的文本识别方案中，主要在获取到待识别图像后，对该图像进行图像预处理，例如提取图像特征。随后基于文本检测模型对图像特征进行检测处理，以确定该待识别图像中的文本框的位置信息。进一步地，再将文本框的位置信息作为文本识别模型的输入，以通过该文本识别模型对文本框的位置信息所对应的文本内容进行识别，以确定该待识别图中的文本内容。

然而，从上述图1可以看出，在传统的文本识别方案中需要依赖于文本检测模型和文本识别模型这两者的共同协作。但是，文本检测模型所采用的算法和文本识别模型所采用的算法并不相同，进而在文本识别过程中增加计算消耗和时间。另外，能否准确地检测得到文本检测框的位置信息，在较大程度上对文本识别的效果产生直接影响，导致文本识别的准确率和识别效果都欠佳。

因此，为了解决上述提及的技术问题，本申请实施例提供了一种模型训练的方法。对应地，本申请实施例还提供了一种图像处理的方法。图像处理设备在使用本申请所提供的模型训练的方法，可以训练得到目标图像处理模型。这样，图像处理设备在执行图像处理的方法中，具体可以借助该目标图像处理模型实现对待识别图像中的文字内容的识别处理。

示例性地，图2示出了本申请实施例提供的图像识别的系统框架示意图。如图2所示，在该系统框架中，包括模型训练阶段和模型使用阶段。

其中，在模型训练阶段，需要先获取训练图像，并提取训练图像的图像特征序列。然后，利用初始图像处理模型对训练图像的图像特征序列进行处理，以得到预测的训练图像的文本序列。需说明，在所提及的训练图像的文本序列中，包括多个文本框中每个文本框的位置信息以及每个文本框对应的文本内容。所描述的每个文本框的位置信息用于指示对应文本框在训练图像中的位置。这样，再基于文本序列以及文本序列的标签对初始图像处理模型进行训练，得到目标图像处理模型。

这样，在模型使用阶段，先获取待识别图像，并提取该待识别图像的图像特征序列。随后再利用在模型训练阶段训练得到的目标图像处理模型对该待识别图像的图像特征序列进行处理，由此识别得到该待识别图像的预测文本序列。通过该预测文本序列能够获知该待识别图像中的文本内容。

换句话说，在模型训练阶段借助训练图像的图像特征序列先确定出训练图像的文本序列，进而借助该文本序列中每个文本框的位置信息和文本内容、以及相应的文本序列的标签对初始图像处理模型进行迭代训练，从而实现将文本检测和文本识别融合在所训练得到的目标图像处理模型中，省去了单独的文本检测模块，减少了计算消耗和时间。这样，在模型使用阶段可以基于所训练得到的目标图像处理模型能够实现对待识别图像的文本内容的直接识别，无需依赖于文本检测框的位置信息，提高识别准确率和识别效果。

图3示出了本申请实施例提供的图像识别的应用场景示意图。如图3所示，该应用场景中至少包括图像处理设备、数据库。图像处理设备可以通过网络访问数据库；或者，数据库也可以集成在图像处理设备中。其中，数据库主要用于存储待识别图像。图像处理设备可以通过访问该数据库，获得相应的待识别图像。这样，再借助前述图2中示出的目标图像处理模型，对待识别图像进行处理，由此得到该待识别图像的预测文本序列。

作为一个示意性的描述，由于上述所描述的图像处理的方法的执行处理，需要依赖于前期模型训练的方法所训练得到的目标图像处理模型。因此，下面先从实施例的角度，详细地描述本申请实施例提供的模型训练的方法。示例性地，图4示出了本申请实施例提供的模型训练的方法的流程示意图。如图4所示，该模型训练的方法至少包括如下步骤：

401、获取训练图像。

该示例中，训练图像可以包括但不限于数字图像、文档的扫描版本，或者其他任何形式包含文本的图像。换句话说，该训练图像，需理解成包含文本的图像。示例性地，图像处理设备可以采用拍摄装置来采集训练图像；或者，图像处理设备也可以从数据库中获取训练图像。具体本申请实施例中不限定训练图像的获取方式。

402、提取训练图像的图像特征序列。

该示例中，图像处理设备在获取得到训练图像后，还需要通过预设特征提取模型对训练图像进行图像编码处理，以提取得到该训练图像的图像特征序列。示例性地，所描述的预设特征提取模型包括但不限于Swin Transformer模型等，具体本申请实施例中仅以Swin Transformer模型为例进行说明。

在一些示例中，图像处理设备在基于预设特征提取模型提取图像特征序列之前，先对训练图像进行图像划分，得到多个子图像。譬如说，图5示出了本申请实施例提供的一种图像划分的示意图。如图5所示，可以按照预设的图像尺寸对训练图像进行划分，得到9个子图像，例如子图像1至子图像9。需说明，每个子图像的尺寸大小可以根据实际情况而调整，具体本申请实施例中不做限定。另外，所描述的预设的图像尺寸也可以视情况而定，本申请不做限定。

这样，在划分得到多个子图像后，基于预设特征提取模型对每个子图像进行特征提取处理，从而得到对应子图像的图像特征。作为一个示意图的描述，该预设特征提取模型包括多个注意力机制和全连接层。由于提取每个子图像的图像特征的过程，其提取原理基本类似，因此本申请实施例中仅以任意一个子图像（即第一子图像）为例进行说明。具体如下：

以第一子图像为例，在提取每个子图像的图像特征的过程中，可以先基于每个注意力机制对该第一子图像中的每个图像区域进行特征提取，得到该第一子图像中每个图像区域的图像特征。这样，再基于全连接层对第一子图像中每个图像区域的图像特征进行拼接融合处理，从而得到该第一子图像的图像特征。

举例来说，假设第一子图像为前述图5中提及的子图像1，该子图像1由2个图像区域构成，例如图像区域1和图像区域2。换句话说，这2个图像区域的并集构成完整的子图像1。这样，针对图像区域1，可基于一个注意力机制提取该图像区域1的图像特征；同样地，针对图像区域2，可以基于相同的或者不相同的一个注意力机制提取该图像区域2的图像特征。这样，再基于全连接层将图像区域1的图像特征和图像区域2的图像特征进行融合，得到该子图像1的图像特征。

按照与提取第一子图像的图像特征的方式，可以提取得到其他子图像的图像特征。由此，再将这多个子图像的图像特征进行拼接处理，得到训练图像的图像特征序列。

需说明，本申请实施例仅以图像划分的方式来实现提取图像特征序列。在实际应用中，还可以借助其他的方式来提取图像特征序列，具体本申请中不做限定。

403、基于初始图像处理模型对训练图像的图像特征序列进行处理，得到预测的训练图像的文本序列，文本序列包括多个文本框中每个文本框的位置信息以及每个文本框对应的文本内容，每个文本框的位置信息用于指示对应文本框在训练图像中的位置。

该示例中，初始图像处理模型可包括L层Transformer模型。在提取得到训练图像的图像特征序列后，将该训练图像的图像特征序列作为初始图像处理模型的输入，以通过该初始图像处理模型对训练图像的图像特征序列进行处理，从而得到训练图像的文本序列。

为了能够实现通过文本框顺序的变化增强后续目标图像处理模型的学习能力，那么在基于初始图像处理模型对训练图像的图像特征序列进行处理的过程中，还可以纳入文本框的排列顺序进行考虑，保持后续所预测到的文本序列能够按照该文本框的排列顺序进行排序输出。具体地，可以将训练图像的图像特征序列、多个文本框的排列顺序以及文本序列的标签作为初始图像处理模型的输入，进而通过该初始图像处理模型对训练图像的图像特征序列、多个文本框的排列顺序以及文本序列的标签进行处理，以得到预测的训练图像的文本序列。所描述的文本序列的标签包括每个文本框的位置信息标签和每个文本框对应的文本内容标签。

示例性地，针对当前文本框，通过初始图像处理模型基于按照排列顺序排列在当前文本框前的所有文本框的位置信息标签和所有文本框的文本内容标签，确定当前文本框的位置信息。随后，通过初始图像处理模型再基于当前文本框的位置信息标签、排列在当前文本框前的所有文本框的位置信息标签和所有文本框的文本内容标签，确定当前文本框所对应的当前文本内容。

作为一个示意性的描述，所描述的初始图像处理模型是由L层Transformer模型串联构成。每层中的Transformer模型包括多头注意力层（multi-head attention layer）、前馈层（feed forward layer）以及归一化层（layer norm）。所描述的多头注意力层可以包括但不限于具备掩码处理功能的多头注意力层，具体本申请实施例中不做限定。

在通过初始图像处理模型确定当前文本框所对应的当前文本内容的过程中，以当前文本框为例，可以基于第L层Transformer模型中的多头注意力层对当前文本框的位置信息、排列在当前文本框前的所有文本框的位置信息标签和所有文本框的文本内容标签进行处理，得到注意力特征。这样，在得到注意力层特征后，再基于第L层Transformer模型中的归一化层对注意力特征进行归一化处理，得到归一化层特征。进一步地，基于第L层Transformer模型中的前馈层对归一化层特征进行处理，得到当前文本框的预测概率。通过当前文本框的预测概率，指示当前文本框所对应的当前文本内容。例如，/>表示当前文本框的预测概率, />表示排序在当前文本框前的所有文本框的文本内容序列，im表示训练图像的图像特征序列。举例来说，图6示出了本申请实施例提供的一种解码示意图。如图6所示，假设训练图像中的文本内容为“thankyou”，若经过上述步骤403确定出文本序列为{<s>，<b_0>，<c>,<code_0>,</c>,<thansk>}，其中，<b_0>表示文本内容<thansk>所对应的文本框，<code_0>表示该<b_0>的位置信息。由此，将文本序列为{<s>，<b_0>，<c>,<code_0>,</c>,<thansk>}以及图像特征序列作为解码器的输入，以进行自回归解码，得到当前文本内容<you>。如此循环自回归解码，当解码输出的内容为结束标识符（例如</s>）时，则停止解码。

举例来说，针对排序在第一个位置的<b_0>文本框，通过识别该<b_0>文本框的起始标识，可以确定该<b_0>文本框的起始位置；同样地，通过识别该<b_0>文本框的结束标识，可以确定该<b_0>文本框的结束位置。这样，基于该<b_0>文本框的起始位置和结束位置，能够构建得到该<b_0>文本框的位置信息标签，例如使用<code_0>表示。换句话说，可以使用<code_0>来表示第0个文本框<b_0>的位置坐标。需说明，在实际应用中还可以使用其他的符号来表示，具体本申请不做限定。这样，再将该<b_0>文本框的位置信息<code_0>转换成对应的位置坐标，即理解成该文本框<b_0>在训练图像中的具体坐标位置。譬如，以该<b_0>文本框的位置信息<code_0>为矩形文本框为例，通常<code_0>采用两点坐标{（x1，y1），（x2，y2）}来表示，此时所转换得到四个位置坐标，即为token{t_x1，t_y1，t_x2，t_y2} 。由此，基于该token{t_x1，t_y1，t_x2，t_y2}确定<b_0>文本框的文本内容标签。

随后，基于<b_0>文本框的位置信息标签以及该<b_0>文本框的文本内容标签，确定<b_1>文本框的位置信息，例如得到<b_1>文本框的位置信息为<code_1>。需说明，此处所描述的<b_0>文本框排序在<b_1>文本框之前。进一步地，基于该<b_1>文本框的位置信息、<b_0>文本框的文本内容标签以及<b_0>文本框的位置信息标签确定出<b_1>文本框的当前文本内容，例如{text_1}。

以此类推，基于同样的思路确定得到<b_n>文本框的位置信息（例如使用<code_n>表示）后，基于该<b_n>文本框的位置信息、<b_0>文本框的文本内容标签、<b_0>文本框的位置信息标签、<b_1>文本框的文本内容标签、<b_1>文本框的位置信息标签、......、以及<b_n-1>文本框的文本内容标签、<b_n-1>文本框的位置信息标签，确定出<b_n>文本框的当前文本内容，例如{textn}。需说明，<b_0>文本框、<b_1>文本框、......、以及<b_n-1>文本框均按照排序顺序排列在该<b_n>文本框之前。由此，所得到的文本序列可以表示为“<s>,<b_0>，<c>,<code_0>,</c>,{text_0},<SEP>，{......}，{text_n}”。

需说明，所描述的起始标识可以使用<c>来表示，结束标识可以使用</c>来表示，<SEP>标识每两个相邻的文本框之间的分隔符，<s>为训练或者推理的起始符，具体本申请实施例中不做限定说明。

由于每个文本框在训练图像中的位置是唯一固定的，而对应的文本内容并不是唯一的，也有可能同一个训练图像中不同位置的文本框中的文本内容是相同的。基于此，在本申请构建文本序列的过程中，可以将每个文本框的位置信息放置在对应的文本内容之前，便于能够定位出准确的文本内容。譬如说，针对<b_0>文本框，可以将其相应的位置信息<code_0>放置在对应的文本内容<text_0>之前，能够明确出<text_0>为该位置信息<code_0>所对应的文本内容。

404、基于文本序列以及文本序列的标签对初始图像处理模型进行训练，得到目标图像处理模型，目标图像处理模型用于对待识别图像进行处理，以得到待识别图像中的文本内容。

该示例中，在得到训练图像的文本序列后，将训练图像的文本序列以及文本序列的标签作为初始图像处理模型的输入，通过该初始图像处理模型对训练图像的文本序列以及文本序列的序列进行处理，从而训练得到目标图像处理模型。

示例性地，因为希望深度神经网络的输出尽可能的接近真正想要预测的值，所以可以通过比较当前网络的预测值和真正想要的目标值，再根据两者之间的差异情况来更新每一层神经网络的权重向量（当然，在第一次更新之前通常会有初始化的过程，即为深度神经网络中的各层预先配置参数），比如，如果网络的预测值高了，就调整权重向量让它预测低一些，不断的调整，直到神经网络能够预测出真正想要的目标值。因此，就需要预先定义“如何比较预测值和目标值之间的差异”，这便是损失函数（loss function）或目标函数（objective function），它们是用于衡量预测值和目标值的差异的重要方程。其中，以损失函数举例，损失函数的输出值（loss）越高表示差异越大，那么深度神经网络的训练就变成了尽可能缩小这个loss的过程。

因此，在具体训练的过程中，可以同步加入损失函数来提升图像处理模型的学习能力。换句话说，可以在得到训练图像的文本序列后，计算该文本序列与文本序列的标签之间的差异，以计算得到损失值，例如L(x,t)=L_AD（t^*,t），其中，L(x,t)表示损失值，t^*表示预测得到的训练图像的文本序列，t表示文本序列的标签，L_AD（）表示交叉熵损失函数。在计算出该损失值后，基于损失值对初始图像处理模型进行模型参数更新，以得到目标图像处理模型。

需说明，除了使用交叉熵损失函数计算上述提及的损失值以外，在实际应用中还可以使用其他的损失函数来计算训练图像的文本序列与文本序列的标签之间的差异，具体在本申请实施例中不做限定。

这样，在更新得到目标图像处理模型后，便可以使用该目标图像处理模型对待识别图像进行文本识别处理。具体地，可以参照下述图7示出的本申请实施例提供的图像处理的方法进行理解。如图7所示，该图像处理的方法可以包括如下步骤：

701、获取待识别图像。

该示例中，待识别图像可以包括但不限于数字图像、文档的扫描版本，或者其他任何形式包含文本的图像。换句话说，该待识别图像，需理解成包含文本的图像。示例性地，图像处理设备可以采用拍摄装置来采集待识别图像；或者，图像处理设备也可以从数据库中获取待识别图像。具体本申请实施例中不限定待识别图像的获取方式。

702、提取待识别图像的图像特征序列。

该示例中，图像处理设备在获取得到待识别图像后，还需要通过预设特征提取模型对待识别图像进行图像编码处理，以提取得到该待识别图像的图像特征序列。示例性地，所描述的预设特征提取模型包括但不限于Swin Transformer模型等，具体本申请实施例中仅以Swin Transformer模型为例进行说明。

在一些示例中，图像处理设备在基于预设特征提取模型提取图像特征序列之前，先对待识别图像进行图像划分，得到多个子图像。这样，在划分得到多个子图像后，基于预设特征提取模型对每个子图像进行特征提取处理，从而得到对应子图像的图像特征。作为一个示意图的描述，该预设特征提取模型包括多个注意力机制和全连接层。由于提取每个子图像的图像特征的过程，其提取原理基本类似，因此本申请实施例中仅以任意一个子图像（即第一子图像）为例进行说明。具体如下：

以第一子图像为例，在提取每个子图像的图像特征的过程中，可以先基于每个注意力机制对该第一子图像中的每个图像区域进行特征提取，得到该第一子图像中每个图像区域的图像特征。这样，再基于全连接层对第一子图像中每个图像区域的图像特征进行拼接融合处理，从而得到该第一子图像的图像特征。这样，按照与提取第一子图像的图像特征的方式，可以提取得到剩余的子图像的图像特征。由此，再将这多个子图像的图像特征进行拼接处理，得到待识别图像的图像特征序列。具体可以参照前述图5中示出的示例进行理解，此处不做赘述。

703、将待识别图像的图像特征序列作为目标图像处理模型的输入，得到待识别图像的预测文本序列，预测文本序列包括多个预测文本框中每个预测文本框的位置信息和每个预测文本框对应的文本内容，每个预测文本框的位置信息用于指示对应预测文本框在待识别图像中的位置。

该示例中，所描述的目标图像处理模型是以所预测到的训练图像的文本序列和文本序列的标签为训练数据，对初始图像处理模型进行迭代训练后得到的机器学习模型。所描述的文本序列由初始图像处理模型对训练图像的图像特征序列进行处理得到，文本序列包括多个文本框中每个文本框的位置信息以及每个文本框对应的文本内容，每个文本框的位置信息用于指示对应文本框在训练图像中的位置。具体可以参照前述图4中步骤401至步骤404所描述的内容进行理解，此处不做赘述。

这样，在经过上述步骤703提取得到待识别图像的图像特征序列后，将该待识别图像的图像特征序列作为目标图像处理模型的输入，以通过目标图像处理模型对待识别图像的图像特征序列进行识别处理，从而得到待识别图像的预测文本序列。具体地，将待识别图像的图像特征序列、多个预测文本框的排列顺序作为目标图像处理模型的输入，以通过目标图像处理模型对待识别图像的图像特征序列以及多个预测文本框的排列顺序进行处理，得到该待识别图像的预测文本序列。

作为一个示意性的描述，在通过目标图像处理模型确定待识别图像的预测文本序列的过程中，针对当前预测文本框，通过目标图像处理模型基于按照多个预测文本框的排列顺序排列在当前预测文本框前的所有预测文本框的位置信息和所有预测文本框的文本内容，确定当前预测文本框的位置信息。这样，在确定出当前预测文本框的位置信息后，再基于当前预测文本框的位置信息、排列在当前预测文本框的所有预测文本框的位置信息和所有预测文本框的文本内容，确定当前预测文本框所对应的当前文本内容。譬如说，由于目标图像处理模型是由L层Transformer模型串联构成，并且每层Transformer模型包括多头注意力层、前馈层以及归一化层。那么针对当前预测文本框的当前文本内容如何确定，可以基于第L层Transformer模型中的多头注意力层对当前预测文本框的位置信息、排列在当前预测文本框前的所有文本框的位置信息和所有预测文本框的文本内容进行处理，得到注意力特征。这样，在得到注意力特征后，再基于第L层Transformer模型中的归一化层对注意力特征进行归一化处理，得到归一化层特征，进而基于第L层Transformer模型中的前馈层对归一化层特征进行处理，得到当前预测文本框的预测概率。通过当前预测文本框的预测概率用于指示当前预测文本框所对应的当前文本内容。

需说明，所描述的预测文本序列能够表明该待识别图像中的文本内容。另外，具体的识别过程可以参照前述图4中对模型训练的过程进行理解，此处不做赘述。

本申请实施例中，借助训练图像的图像特征序列先确定出训练图像的文本序列，进而借助该文本序列中每个文本框的位置信息和文本内容、以及相应的文本序列的标签对初始图像处理模型进行迭代训练，从而实现将文本检测和文本识别融合在所训练得到的目标图像处理模型中，省去了单独的文本检测模块，减少了计算消耗和时间，而且基于所训练得到的目标图像处理模型能够实现对待识别图像的文本内容的直接识别，无需依赖于文本检测框的位置信息，提高识别准确率和识别效果。

上述主要从方法的角度对本申请实施例提供的方案进行了介绍。可以理解的是为了实现上述功能，包含了执行各个功能相应的硬件结构和/或软件模块。本领域技术人员应该很容易意识到，结合本申请中所公开的实施例描述的各示例的模块及算法步骤，本申请能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

本申请实施例可以根据上述方法示例对装置进行功能模块的划分，例如，可以对应各个功能划分各个功能模块，也可以将两个或两个以上的功能集成在一个处理模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。需要说明的是，本申请实施例中对模块的划分是示意性的，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。

下面对本申请实施例中的模型训练装置进行详细描述，图8为本申请实施例中提供的模型训练装置的一个实施例示意图。如图8所示，该模型训练装置可以包括获取单元801、提取单元802以及处理单元803。

其中，获取单元801，用于获取训练图像。具体可以参照前述图4中步骤401所描述的内容进行理解，此处不做赘述。

提取单元802，用于提取训练图像的图像特征序列。具体可以参照前述图4中步骤402所描述的内容进行理解，此处不做赘述。

处理单元803，用于基于初始图像处理模型对训练图像的图像特征序列进行处理，得到预测的训练图像的文本序列，文本序列包括多个文本框中每个文本框的位置信息以及每个文本框对应的文本内容，每个文本框的位置信息用于指示对应文本框在训练图像中的位置。具体可以参照前述图4中步骤403所描述的内容进行理解，此处不做赘述。

处理单元803，用于基于文本序列和文本序列的标签对初始图像处理模型进行迭代训练，以得到目标图像处理模型，目标图像处理模型用于对待识别图像进行处理，以得到待识别图像中的文本内容。具体可以参照前述图4中步骤404所描述的内容进行理解，此处不做赘述。

在一些可选的实施方式中，处理单元803用于：将训练图像的图像特征序列、多个文本框的排列顺序以及文本序列的标签输入初始图像处理模型，文本序列的标签包括当每个文本框的位置信息标签以及每个文本框对应的文本内容标签。处理单元803用于通过初始图像处理模型执行以下步骤，以得到预测的训练图像的文本序列：对于当前文本框，基于按照排列顺序排列在当前文本框前的所有文本框的位置信息标签和所有文本框的文本内容标签，确定当前文本框的位置信息；基于当前文本框的位置信息、排列在当前文本框前的所有文本框的位置信息标签和所有文本框的文本内容标签，确定当前文本框所对应的当前文本内容。

在另一些可选的实施方式中，初始图像处理模型包括L层Transformer模型；处理单元803，用于：针对当前文本框，将按照排列顺序排列在当前文本框前的所有文本框的位置信息标签和所有文本框的文本内容标签，作为第L层Transformer模型的输入，以得到当前文本框的位置信息，其中，L层Transformer模型中的第一层Transformer模型的输入为训练图像的图像特征序列，L层Transformer模型中的第L-1层Transformer模型的输入为第L-2层Transformer模型输出的第一文本框的位置信息所对应的标签、排列在第一文本框前的所有文本框的文本内容标签和文本内容标签，输出为第一文本框的位置信息，第一文本框为排列在当前文本框的前一个文本框。

在另一些可选的实施方式中，处理单元803，用于：计算文本序列和文本序列的标签之间的差异，以得到损失值；基于损失值对初始图像处理模型进行训练，以得到目标图像处理模型。

在另一些可选的实施方式中，提取单元802，用于：对训练图像进行图像划分，得到多个子图像；基于预设特征提取模型对每个子图像进行特征提取处理，得到每个子图像的图像特征；将多个子图像的图像特征进行拼接处理，得到训练图像的图像特征序列。

在另一些可选的实施方式中，提取单元802，用于：基于预设特征提取模型中的每个注意力机制，对第一子图像中的每个图像区域进行特征提取处理，得到第一子图像中每个图像区域的图像特征，第一子图像为多个子图像中的任意一个；基于预设特征提取模型中的全连接层对第一子图像中每个图像区域的图像特征进行拼接处理，得到第一子图像的图像特征。

上述图8主要从功能模块的角度描述了模型训练装置，下面将从功能模块的角度对本申请实施例中的图像处理装置进行详细描述。图9为本申请实施例中提供的图像处理装置的一个实施例示意图。如图9所示，该图像处理装置可以包括获取单元901、提取单元902以及处理单元903。

其中，获取单元901，用于获取待识别图像。具体可以参照前述图7中的步骤701所描述的内容进行理解，此处不做赘述。

提取单元902，用于提取待识别图像的图像特征。具体可以参照前述图7中的步骤702所描述的内容进行理解，此处不做赘述。

处理单元903，用于将待识别图像的图像特征序列作为目标图像处理模型的输入，得到待识别图像的预测文本序列，预测文本序列包括多个预测文本框中每个预测文本框的位置信息和每个预测文本框对应的文本内容，每个预测文本框的位置信息用于指示对应预测文本框在待识别图像中的位置，目标图像处理模型是以所预测到的训练图像的文本序列和文本序列的标签为训练数据，对初始图像处理模型进行迭代训练后得到的机器学习模型，文本序列由初始图像处理模型对训练图像的图像特征序列进行处理得到，文本序列包括多个文本框中每个文本框的位置信息以及每个文本框对应的文本内容，每个文本框的位置信息用于指示对应文本框在训练图像中的位置。具体可以参照前述图7中的步骤703所描述的内容进行理解，此处不做赘述。

在一些可选的实施方式中，处理单元903，用于将待识别图像的图像特征序列、多个预测文本框的排列顺序作为目标图像处理模型的输入。处理单元903，用于通过目标图像处理模型执行以下步骤，以得到待识别图像的预测文本序列：对于当前预测文本框，基于按照多个预测文本框的排列顺序排列在当前预测文本框前的所有预测文本框的位置信息和所有预测文本框的文本内容，确定当前预测文本框的位置信息；基于当前预测文本框的位置信息、排列在当前预测文本框的所有预测文本框的位置信息和所有预测文本框的文本内容，确定当前预测文本框所对应的当前文本内容。

在另一些可选的实施方式中，目标图像处理模型包括L层Transformer模型；处理单元903用于：针对当前预测文本框，基于第L层Transformer模型中的多头注意力层对当前预测文本框的位置信息、排列在当前预测文本框前的所有文本框的位置信息和所有预测文本框的文本内容进行处理，得到注意力特征；基于第L层Transformer模型中的归一化层对注意力特征进行归一化处理，得到归一化层特征；基于第L层Transformer模型中的前馈层对归一化层特征进行处理，得到当前预测文本框的预测概率，当前预测文本框的预测概率用于指示当前预测文本框所对应的当前文本内容。

上面从模块化功能实体的角度对本申请实施例中的模型训练装置、图像处理装置进行描述，下面从硬件处理的角度对本申请实施例中的图像处理设备进行描述。图10是本申请实施例提供的图像处理设备的结构示意图。该图像处理设备可因配置或性能不同而产生比较大的差异，例如包括但不限于图8示出的模型训练装置，或者图9示出的图像处理装置等。该图像处理设备可以至少一个处理器1001，通信线路1007，存储器1003以及至少一个通信接口1004。

处理器1001可以是一个通用中央处理器（central processing unit，CPU），微处理器，特定应用集成电路（application-specific integrated circuit，服务器IC)，或一个或多个用于控制本申请方案程序执行的集成电路。

通信线路1007可包括一通路，在上述组件之间传送信息。

通信接口1004，使用任何收发器一类的装置，用于与其他装置或通信网络通信，如以太网，无线接入网（radio access network，RAN），无线局域网(wireless local areanetworks，WLAN)等。

存储器1003可以是只读存储器（read-only memory，ROM) 或可存储静态信息和指令的其他类型的静态存储装置，随机存取存储器（random access memory，RAM) 或者可存储信息和指令的其他类型的动态存储装置，存储器可以是独立存在，通过通信线路1007与处理器相连接。存储器也可以和处理器集成在一起。

其中，存储器1003用于存储执行本申请方案的计算机执行指令，并由处理器1001来控制执行。处理器1001用于执行存储器1003中存储的计算机执行指令，从而实现本申请上述实施例提供的模型训练的方法或者图像处理的方法。

可选的，本申请实施例中的计算机执行指令也可以称之为应用程序代码，本申请实施例对此不作具体限定。

在具体实现中，作为一种实施例，该图像处理设备可以包括多个处理器，例如图10中的处理器1001和处理器1002。这些处理器中的每一个可以是一个单核（single-CPU）处理器，也可以是一个多核（multi-CPU）处理器。这里的处理器可以指一个或多个装置、电路、和/或用于处理数据（例如计算机程序指令）的处理核。

在具体实现中，作为一种实施例，该图像处理设备还可以包括输出设备1005和输入设备1006。输出设备1005和处理器1001通信，可以以多种方式来显示信息。输入设备1006和处理器1001通信，可以以多种方式接收目标对象的输入。例如，输入设备1006可以是鼠标、触摸屏装置或传感装置等。

上述的该图像处理设备可以是一个通用装置或者是一个专用装置。在具体实现中，该图像处理设备可以是服务器、终端等或有图10中类似结构的装置。本申请实施例不限定该图像处理设备的类型。

需说明，图10中的处理器1001可以通过调用存储器1003中存储的计算机执行指令，使得图像处理设备执行如图4或图7对应的方法实施例中的方法。

具体的，图8中的提取单元802和处理单元803、图9中的提取单元902和处理单元903的功能/实现过程可以通过图10中的处理器1001调用存储器1003中存储的计算机执行指令来实现。图8中的获取单元801、图9中的获取单元901的功能/实现过程可以通过图10中的通信接口1004来实现。

本申请实施例还提供一种计算机存储介质，其中，该计算机存储介质存储用于电子数据交换的计算机程序，该计算机程序使得计算机执行如上述方法实施例中记载的任何一种模型训练的方法或者图像处理的方法的部分或全部步骤。

本申请实施例还提供一种计算机程序产品，计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质，计算机程序可操作来使计算机执行如上述方法实施例中记载的任何一种模型训练的方法或者图像处理的方法的部分或全部步骤。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本申请各个实施例方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（read-only memory，ROM）、随机存取存储器（random access memory，RAM）、磁碟或者光盘等各种可以存储程序代码的介质。

上述实施例，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现，当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。

计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行计算机执行指令时，全部或部分地产生按照本申请实施例的流程或功能。计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一计算机可读存储介质传输，例如，计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线（例如同轴电缆、光纤、数字用户线（DSL））或无线（例如红外、无线、微波等）方式向另一个网站站点、计算机、服务器或数据中心进行传输。计算机可读存储介质可以是计算机能够存储的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。可用介质可以是磁性介质，（例如，软盘、硬盘、磁带）、光介质（例如，DVD）、或者半导体介质（例如SSD)）等。

以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种模型训练的方法，其特征在于，包括：

获取训练图像；

提取所述训练图像的图像特征序列；

基于初始图像处理模型对所述训练图像的图像特征序列进行处理，得到预测的所述训练图像的文本序列，所述文本序列包括多个文本框中每个所述文本框的位置信息以及每个所述文本框对应的文本内容，每个所述文本框的位置信息用于指示对应所述文本框在所述训练图像中的位置；

基于所述文本序列和所述文本序列的标签对所述初始图像处理模型进行训练，以得到目标图像处理模型，所述目标图像处理模型用于对待识别图像进行处理，以得到所述待识别图像中的文本内容。

2.根据权利要求1所述的方法，其特征在于，所述基于初始图像处理模型对所述训练图像的图像特征序列进行处理，得到预测的所述训练图像的文本序列，包括：

将所述训练图像的图像特征序列、多个文本框的排列顺序以及所述文本序列的标签输入所述初始图像处理模型，所述文本序列的标签包括当每个所述文本框的位置信息标签以及每个所述文本框对应的文本内容标签；

通过所述初始图像处理模型执行以下步骤，以得到预测的所述训练图像的文本序列：

对于当前文本框，基于按照所述排列顺序排列在所述当前文本框前的所有文本框的位置信息标签和所述所有文本框的文本内容标签，确定所述当前文本框的位置信息；

基于所述当前文本框的位置信息标签、排列在所述当前文本框前的所有文本框的位置信息标签和所述所有文本框的文本内容标签，确定所述当前文本框所对应的当前文本内容。

3.根据权利要求2所述的方法，其特征在于，所述初始图像处理模型包括L层Transformer模型；所述基于所述当前文本框的位置信息标签、排列在所述当前文本框前的所有文本框的位置信息标签和所述所有文本框的文本内容标签，确定所述当前文本框所对应的当前文本内容，包括：

针对当前文本框，基于第L层所述Transformer模型中的多头注意力层对所述当前文本框的位置信息、排列在所述当前文本框前的所有文本框的位置信息标签和所述所有文本框的文本内容标签进行处理，得到注意力特征；

基于所述第L层所述Transformer模型中的归一化层对所述注意力特征进行归一化处理，得到归一化层特征；

基于所述第L层所述Transformer模型中的前馈层对所述归一化层特征进行处理，得到所述当前文本框的预测概率，所述当前文本框的预测概率用于指示所述当前文本框所对应的当前文本内容。

4.根据权利要求1至3中任一项所述的方法，其特征在于，所述基于所述文本序列和所述文本序列的标签对所述初始图像处理模型进行训练，以得到目标图像处理模型，包括：

计算所述文本序列和所述文本序列的标签之间的差异，以得到损失值；

基于所述损失值对所述初始图像处理模型进行训练，以得到目标图像处理模型。

5.根据权利要求1至3中任一项所述的方法，其特征在于，所述提取所述训练图像的图像特征序列，包括：

对所述训练图像进行图像划分，得到多个子图像；

基于预设特征提取模型对每个所述子图像进行特征提取处理，得到每个所述子图像的图像特征；

将多个所述子图像的图像特征进行拼接处理，得到所述训练图像的图像特征序列。

6.根据权利要求5所述的方法，其特征在于，所述基于预设特征提取模型对每个所述子图像进行特征提取处理，得到每个所述子图像的图像特征，包括：

基于所述预设特征提取模型中的每个注意力机制，对第一子图像中的每个图像区域进行特征提取处理，得到所述第一子图像中每个所述图像区域的图像特征，所述第一子图像为所述多个子图像中的任意一个；

基于所述预设特征提取模型中的全连接层对所述第一子图像中每个所述图像区域的图像特征进行拼接处理，得到所述第一子图像的图像特征。

7.一种图像处理的方法，其特征在于，包括：

获取待识别图像；

提取所述待识别图像的图像特征序列；

将所述待识别图像的图像特征序列作为目标图像处理模型的输入，得到所述待识别图像的预测文本序列，所述预测文本序列包括多个预测文本框中每个所述预测文本框的位置信息和每个所述预测文本框对应的文本内容，每个所述预测文本框的位置信息用于指示对应所述预测文本框在所述待识别图像中的位置，所述目标图像处理模型是以所预测到的训练图像的文本序列和所述文本序列的标签为训练数据，对初始图像处理模型进行迭代训练后得到的机器学习模型，所述文本序列由所述初始图像处理模型对所述训练图像的图像特征序列进行处理得到，所述文本序列包括多个文本框中每个所述文本框的位置信息以及每个所述文本框对应的文本内容，每个所述文本框的位置信息用于指示对应所述文本框在所述训练图像中的位置。

8.根据权利要求7所述的方法，其特征在于，所述将所述待识别图像的图像特征序列作为目标图像处理模型的输入，得到所述待识别图像的预测文本序列，包括：

将所述待识别图像的图像特征序列、多个预测文本框的排列顺序作为所述目标图像处理模型的输入；

通过所述目标图像处理模型执行以下步骤，以得到所述待识别图像的预测文本序列：

对于当前预测文本框，基于按照所述多个预测文本框的排列顺序排列在所述当前预测文本框前的所有预测文本框的位置信息和所述所有预测文本框的文本内容，确定所述当前预测文本框的位置信息；

基于所述当前预测文本框的位置信息、排列在所述当前预测文本框的所有预测文本框的位置信息和所述所有预测文本框的文本内容，确定所述当前预测文本框所对应的当前文本内容。

9.根据权利要求8所述的方法，其特征在于，所述目标图像处理模型包括L层Transformer模型；所述基于所述当前预测文本框的位置信息、排列在所述当前预测文本框的所有预测文本框的位置信息和所述所有预测文本框的文本内容，确定所述当前预测文本框所对应的当前文本内容，包括：

针对当前预测文本框，基于第L层所述Transformer模型中的多头注意力层对所述当前预测文本框的位置信息、排列在所述当前预测文本框前的所有文本框的位置信息和所述所有预测文本框的文本内容进行处理，得到注意力特征；

基于所述第L层所述Transformer模型中的前馈层对所述归一化层特征进行处理，得到所述当前预测文本框的预测概率，所述当前预测文本框的预测概率用于指示所述当前预测文本框所对应的当前文本内容。

10.一种模型训练装置，其特征在于，包括：

获取单元，用于获取训练图像；

提取单元，用于提取所述训练图像的图像特征序列；

处理单元，用于基于初始图像处理模型对所述训练图像的图像特征序列进行处理，得到预测的所述训练图像的文本序列，所述文本序列包括多个文本框中每个所述文本框的位置信息以及每个所述文本框对应的文本内容，每个所述文本框的位置信息用于指示对应所述文本框在所述训练图像中的位置；

所述处理单元，用于基于所述文本序列和所述文本序列的标签对所述初始图像处理模型进行迭代训练，以得到目标图像处理模型，所述目标图像处理模型用于对待识别图像进行处理，以得到所述待识别图像中的文本内容。

11.一种图像处理装置，其特征在于，包括：

获取单元，用于获取待识别图像；

提取单元，用于提取所述待识别图像的图像特征；

处理单元，用于将所述待识别图像的图像特征序列作为目标图像处理模型的输入，得到所述待识别图像的预测文本序列，所述预测文本序列包括多个预测文本框中每个所述预测文本框的位置信息和每个所述预测文本框对应的文本内容，每个所述预测文本框的位置信息用于指示对应所述预测文本框在所述待识别图像中的位置，所述目标图像处理模型是以所预测到的训练图像的文本序列和所述文本序列的标签为训练数据，对初始图像处理模型进行迭代训练后得到的机器学习模型，所述文本序列由所述初始图像处理模型对所述训练图像的图像特征序列进行处理得到，所述文本序列包括多个文本框中每个所述文本框的位置信息以及每个所述文本框对应的文本内容，每个所述文本框的位置信息用于指示对应所述文本框在所述训练图像中的位置。

12.一种图像处理设备，其特征在于，包括：输入/输出接口、处理器和存储器，所述存储器中存储有程序指令；

所述处理器用于执行存储器中存储的程序指令，执行如权利要求1至9中任一所述的方法。

13.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质包括指令，当所述指令在计算机设备上运行时，使得所述计算机设备执行如权利要求1至9中任一项所述的方法。