CN114973218A

CN114973218A - 图像处理方法、装置及系统

Info

Publication number: CN114973218A
Application number: CN202110206738.3A
Authority: CN
Inventors: 龙如蛟; 王鹏飞; 杨志博; 王永攀
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2021-02-24
Filing date: 2021-02-24
Publication date: 2022-08-30

Abstract

本申请公开了一种图像处理方法、装置及系统。其中，该方法包括：获取文本图像；利用结构检测模型对文本图像进行识别，得到文本图像的识别结果，其中，识别结果包括：文本图像包含的文字的属性，以及文字在文本图像中的位置；其中，结构检测模型包括：第一分支模型和第二分支模型，第一分支模型用于识别文本图像，得到文字在文本图像中的位置，第二分支模型用于识别文本图像，得到文字的属性，结构检测模型是依次利用第一训练样本和第二训练样本进行训练得到。本申请解决了相关技术中结构检测模型的训练成本较高的技术问题。

Description

图像处理方法、装置及系统

技术领域

本申请涉及图像处理领域，具体而言，涉及一种图像处理方法、装置及系统。

背景技术

在信息时代，数据往往是不缺的，缺的是结构化的数据。各个厂家都有大量的非结构化数据，但是这些数据往往无法直接使用。目前，可以通过标注将非结构化数据转化为结构化数据，但是需要花费大量的人力和物力；还可以通过标注一部分数据用于训练结构化检测算法从而对剩余非结构化数据实现结构化，但是训练一个好的结构化算法模型对于每一种数据依然需要上千张图片，即，现有的结构检测模型训练成本较高。

针对上述的问题，目前尚未提出有效的解决方案。

发明内容

本申请实施例提供了一种图像处理方法、装置及系统，以至少解决相关技术中结构检测模型的训练成本较高的技术问题。

根据本申请实施例的一个方面，提供了一种图像处理方法，包括：获取文本图像；利用结构检测模型对文本图像进行识别，得到文本图像的识别结果，其中，识别结果包括：文本图像包含的文字的属性，以及文字在文本图像中的位置；其中，结构检测模型包括：第一分支模型和第二分支模型，第一分支模型用于识别文本图像，得到文字在文本图像中的位置，第二分支模型用于识别文本图像，得到文字的属性，结构检测模型是依次利用第一训练样本和第二训练样本进行训练得到。

根据本申请实施例的另一方面，还提供了一种图像处理方法，包括：显示文本图像；在文本图像上标记文本图像的识别结果，其中，识别结果利用结构检测模型对文本图像进行识别得到，识别结果包括：文本图像包含的文字的属性，以及文字在文本图像中的位置；其中，结构检测模型包括：第一分支模型和第二分支模型，第一分支模型用于识别文本图像，得到文字在文本图像中的位置，第二分支模型用于识别文本图像，得到文字的属性，结构检测模型是依次利用第一训练样本和第二训练样本进行训练得到。

根据本申请实施例的另一方面，还提供了一种图像处理方法，包括：获取第一训练样本和第二训练样本；利用第一训练样本对初始模型进行训练，得到初始结构检测模型；利用第二训练样本对初始结构检测模型进行训练，得到结构检测模型，其中，结构检测模型包括：第一分支模型和第二分支模型，第一分支模型用于识别文本图像，得到文本图像包含的文字在文本图像中的位置，第二分支模型用于识别文本图像，得到文字的属性。

根据本申请实施例的另一方面，还提供了一种图像处理方法，包括：获取证件图像；利用结构检测模型对证件图像进行识别，得到证件图像的识别结果，其中，识别结果包括：证件图像包含的文字的属性，以及文字在证件图像中的位置；其中，结构检测模型包括：第一分支模型和第二分支模型，第一分支模型用于识别证件图像，得到文字在证件图像中的位置，第二分支模型用于识别证件图像，得到文字的属性，结构检测模型是依次利用第一训练样本和第二训练样本进行训练得到。

根据本申请实施例的另一方面，还提供了一种图像处理方法，包括：接收客户端上传的文本图像；利用结构检测模型对文本图像进行识别，得到文本图像的识别结果，其中，识别结果包括：文本图像包含的文字的属性，以及文字在文本图像中的位置；输出识别结果至客户端；其中，结构检测模型包括：第一分支模型和第二分支模型，第一分支模型用于识别文本图像，得到文字在文本图像中的位置，第二分支模型用于识别文本图像，得到文字的属性，结构检测模型是依次利用第一训练样本和第二训练样本进行训练得到。

根据本申请实施例的另一方面，还提供了一种图像处理方法，包括：通过调用第一接口接收文本图像，其中，第一接口包括：第一参数和第二参数，第一参数的参数值为文本图像，第二参数的参数值为文本图像对应的目标类型；基于目标类型调用结构检测模型，并利用结构检测模型对文本图像进行识别，得到文本图像的识别结果，其中，识别结果包括：文本图像包含的文字的属性，以及文字在文本图像中的位置；通过调用第二接口输出识别结果，其中，第二接口包括：第三参数，第三参数的参数值为识别结果；其中，结构检测模型包括：第一分支模型和第二分支模型，第一分支模型用于识别文本图像，得到文字在文本图像中的位置，第二分支模型用于识别文本图像，得到文字的属性，结构检测模型是依次利用第一训练样本和第二训练样本进行训练得到。

根据本申请实施例的另一方面，还提供了一种图像处理装置，包括：获取模块，用于获取文本图像；识别模块，用于利用结构检测模型对文本图像进行识别，得到文本图像的识别结果，其中，识别结果包括：文本图像包含的文字的属性，以及文字在文本图像中的位置；其中，结构检测模型包括：第一分支模型和第二分支模型，第一分支模型用于识别文本图像，得到文字在文本图像中的位置，第二分支模型用于识别文本图像，得到文字的属性，结构检测模型是依次利用第一训练样本和第二训练样本进行训练得到。

根据本申请实施例的另一方面，还提供了一种图像处理装置，包括：显示模块，用于显示文本图像；标记模块，用于在文本图像上标记文本图像的识别结果，其中，识别结果利用结构检测模型对文本图像进行识别得到，识别结果包括：文本图像包含的文字的属性，以及文字在文本图像中的位置；其中，结构检测模型包括：第一分支模型和第二分支模型，第一分支模型用于识别文本图像，得到文字在文本图像中的位置，第二分支模型用于识别文本图像，得到文字的属性，结构检测模型是依次利用第一训练样本和第二训练样本进行训练得到。

根据本申请实施例的另一方面，还提供了一种图像处理装置，包括：获取模块，用于获取第一训练样本和第二训练样本；第一训练模块，用于利用第一训练样本对初始模型进行训练，得到初始结构检测模型；第二训练模块，用于利用第二训练样本对初始结构检测模型进行训练，得到结构检测模型，其中，结构检测模型包括：第一分支模型和第二分支模型，第一分支模型用于识别文本图像，得到文字在文本图像中的位置，第二分支模型用于识别文本图像，得到文字的属性。

根据本申请实施例的另一方面，还提供了一种图像处理装置，包括：获取模块，用于获取证件图像；识别模块，用于利用结构检测模型对证件图像进行识别，得到证件图像的识别结果，其中，识别结果包括：证件图像包含的文字的属性，以及文字在证件图像中的位置；其中，结构检测模型包括：第一分支模型和第二分支模型，第一分支模型用于识别证件图像，得到文字在证件图像中的位置，第二分支模型用于识别证件图像，得到文字的属性，结构检测模型是依次利用第一训练样本和第二训练样本进行训练得到。

根据本申请实施例的另一方面，还提供了一种图像处理装置，包括：接收模块，用于接收客户端上传的文本图像；识别模块，用于利用结构检测模型对文本图像进行识别，得到文本图像的识别结果，其中，识别结果包括：文本图像包含的文字的属性，以及文字在文本图像中的位置；输出模块，用于输出识别结果至客户端；其中，结构检测模型包括：第一分支模型和第二分支模型，第一分支模型用于识别文本图像，得到文字在文本图像中的位置，第二分支模型用于识别文本图像，得到文字的属性，结构检测模型是依次利用第一训练样本和第二训练样本进行训练得到。

根据本申请实施例的另一方面，还提供了一种图像处理装置，包括：第一调用模块，用于通过调用第一接口接收文本图像，其中，第一接口包括：第一参数和第二参数，第一参数的参数值为文本图像，第二参数的参数值为文本图像对应的目标类型；第二调用模块，用于基于目标类型调用结构检测模型，并利用结构检测模型对文本图像进行识别，得到文本图像的识别结果，其中，识别结果包括：文本图像包含的文字的属性，以及文字在文本图像中的位置；第三调用模块，用于通过调用第二接口输出识别结果，其中，第二接口包括：第三参数，第三参数的参数值为识别结果；其中，结构检测模型包括：第一分支模型和第二分支模型，第一分支模型用于识别文本图像，得到文字在文本图像中的位置，第二分支模型用于识别文本图像，得到文字的属性，结构检测模型是依次利用第一训练样本和第二训练样本进行训练得到。

根据本申请实施例的另一方面，还提供了一种计算机可读存储介质，计算机可读存储介质包括存储的程序，其中，在程序运行时控制计算机可读存储介质所在设备执行上述的图像处理方法。

根据本申请实施例的另一方面，还提供了一种计算机终端，包括：存储器和处理器，处理器用于运行存储器中存储的程序，其中，程序运行时执行上述的图像处理方法。

根据本申请实施例的另一方面，还提供了一种图像处理系统，包括：处理器；以及存储器，与处理器连接，用于为处理器提供处理以下处理步骤的指令：获取文本图像；利用结构检测模型对文本图像进行识别，得到文本图像的识别结果，其中，识别结果包括：文本图像包含的文字的属性，以及文字在文本图像中的位置；其中，结构检测模型包括：第一分支模型和第二分支模型，第一分支模型用于识别文本图像，得到文字在文本图像中的位置，第二分支模型用于识别文本图像，得到文字的属性，结构检测模型是依次利用第一训练样本和第二训练样本进行训练得到。

在本申请实施例中，在获取到文本图像之后，可以利用结构检测模型对文本图像进行识别，得到文本图像的识别结果，也即，得到文本图像包含的文字的属性，以及文字在文本图像中的位置，从而实现图像识别的目的。容易注意到的是，结构检测模型包含两个分支模型，分别用于识别文字在文本图像中的位置，以及文字的属性，另外，结构检测模型是依次利用第一训练样本和第二训练样本进行训练得到的，实现通过少量的结构化处理即可完成对结构检测模型进行训练的目的，从而在获取到文本图像之后，可以通过结构检测模型对文本图像进行高精度的识别，使得到的文本图像的识别结果更加的准确，达到了减少训练样本的标注成本，提高结构检测模型的识别精度的技术效果，进而解决了相关技术中结构检测模型的训练成本较高技术问题。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1是根据本申请实施例的一种用于实现图像处理方法的计算机终端(或移动设备)的硬件结构框图；

图2是根据本申请实施例的第一种图像处理方法的流程图；

图3是根据本申请实施例的一种可选的交互界面的示意图；

图4是根据本申请实施例的一种可选的图像处理方法的流程图；

图5a是根据本申请实施例的一种可选的结构检测模型的结构图；

图5b是根据本申请实施例的一种可选的训练分类分支的示意图；

图6是根据本申请实施例的第二种图像处理方法的流程图；

图7是根据本申请实施例的第三种图像处理方法的流程图；

图8是根据本申请实施例的第四种图像处理方法的流程图；

图9是根据本申请实施例的第五种图像处理方法的流程图；

图10是根据本申请实施例的第六种图像处理方法的流程图；

图11是根据本申请实施例的第一种图像处理装置的示意图；

图12是根据本申请实施例的第二种图像处理装置的示意图；

图13是根据本申请实施例的第三种图像处理装置的示意图；

图14是根据本申请实施例的第四种图像处理装置的示意图；

图15是根据本申请实施例的第五种图像处理装置的示意图；

图16是根据本申请实施例的第六种图像处理装置的示意图；

图17是根据本申请实施例的一种计算机终端的结构框图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分的实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

需要说明的是，本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

首先，在对本申请实施例进行描述的过程中出现的部分名词或术语适用于如下解释：

结构化：将零散的、孤立的信息整理成有联系的、层次化的信息。

结构化检测：利用检测算法，在检测出重要对象位置的同时识别出该对象的结构化属性，端到端实现目标的检测及结构化。

目前的方案主要基于匹配或者数据增强的方法来实现少样本以节省结构检测模型的训练成本，具体的，基于匹配的算法首先训用通用文字检测算法得到每个字段的位置，然后用通用文字识别模型识别出文字内容，再用文字位置与内容跟模版进行匹配，从而得到每个字段属性从而实现结构化，但是，匹配算法实际加了规则进行匹配，这使得容易出现匹配错误，并且非常依赖检测框的准确性及文字识别准确性；利用合成或者加噪音等数据增强方法可以生成很多数据用于训练，但是由于合成数据跟真实数据存在一定的差异，部分噪声合成方法无法进行模拟，因此训练出的结构检测模型不具有鲁棒，从而导致图像识别的精确度较低。

为了解决上述问题，本申请提供了如下实现方案，从而可以通过较低的成本训练精度较高的结构检测模型，从而提高图像识别的精度。

实施例1

根据本申请实施例，还提供了一种图像处理的方法实施例，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

本申请实施例所提供的方法实施例可以在移动终端、计算机终端或者类似的运算装置中执行。图1示出了一种用于实现图像处理方法的计算机终端(或移动设备)的硬件结构框图。如图1所示，计算机终端10(或移动设备10)可以包括一个或多个(图中采用102a、102b，……，102n来示出)处理器102(处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)、用于存储数据的存储器104、以及用于通信功能的传输装置106。除此以外，还可以包括：显示器、输入/输出接口(I/O接口)、通用串行总线(USB)端口(可以作为BUS总线的端口中的一个端口被包括)、网络接口、电源和/或相机。本领域普通技术人员可以理解，图1所示的结构仅为示意，其并不对上述电子装置的结构造成限定。例如，计算机终端10还可包括比图1中所示更多或者更少的组件，或者具有与图1所示不同的配置。

应当注意到的是上述一个或多个处理器102和/或其他数据处理电路在本文中通常可以被称为“数据处理电路”。该数据处理电路可以全部或部分的体现为软件、硬件、固件或其他任意组合。此外，数据处理电路可为单个独立的处理模块，或全部或部分的结合到计算机终端10(或移动设备)中的其他元件中的任意一个内。如本申请实施例中所涉及到的，该数据处理电路作为一种处理器控制(例如与接口连接的可变电阻终端路径的选择)。

存储器104可用于存储应用软件的软件程序以及模块，如本申请实施例中的图像处理方法对应的程序指令/数据存储装置，处理器102通过运行存储在存储器104内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的图像处理方法。存储器104可包括高速随机存储器，还可包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器104可进一步包括相对于处理器102远程设置的存储器，这些远程存储器可以通过网络连接至计算机终端10。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

传输装置106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括计算机终端10的通信供应商提供的无线网络。在一个实例中，传输装置106包括一个网络适配器(Network Interface Controller，NIC)，其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中，传输装置106可以为射频(Radio Frequency，RF)模块，其用于通过无线方式与互联网进行通讯。

显示器可以例如触摸屏式的液晶显示器(LCD)，该液晶显示器可使得用户能够与计算机终端10(或移动设备)的用户界面进行交互。

此处需要说明的是，在一些可选实施例中，上述图1所示的计算机设备(或移动设备)可以包括硬件元件(包括电路)、软件元件(包括存储在计算机可读介质上的计算机代码)、或硬件元件和软件元件两者的结合。应当指出的是，图1仅为特定具体实例的一个实例，并且旨在示出可存在于上述计算机设备(或移动设备)中的部件的类型。

在上述运行环境下，本申请提供了如图2所示的图像处理方法。图2是根据本申请实施例的第一种图像处理方法的流程图。如图2所示，该方法包括如下步骤：

步骤S202，获取文本图像。

上述步骤中的文本图像可以是需要进行文字内容识别的一个或多个文本图像。

在一种可选的实施例中，可以通过摄像头、相机、手机、平板电脑、笔记本电脑等拍摄设备直接对文字进行拍摄，从而得到带有文字的文本图像；还可以通过手机、平板电脑、笔记本电脑等终端设备直接对需要检测的文字所在的屏幕进行截屏，从而得到带有文字的文本图像，其中，可以只对屏幕中文字所在的部分进行截屏，以减少文本图像中的无关因素，从而提高图像识别的精确度；还可以直接从终端设备中获取到一个或多个需要进行文字识别的文本图像。

需要说明的是，上述步骤中的文本图像中可以包含大量的文字。

在另一种可选的实施例中，文本图像可以是通过拍摄设备拍摄的身份证、银行卡、营业执照等卡证的图像，还可以是通过拍摄设备拍摄的火车票、发票、行程单等票据的图像，还可以是通过拍摄设备拍摄的体检单、物流单等表单的图像，但不仅限于此。例如，在教育场景中，上述的文本图像可以是试卷图像、学生作业图像、教师板书图像等；在电商场景中，上述的文本图像可以是商品海报图像，商品直播、视频等；在医疗场景中，上述的文本图像可以是患者病历图像、诊断书图像等。

在又一种可选的实施例中，可以获取包含多个人脸的人脸图像，通过对人脸图像中的多个人脸进行识别，得到人脸图像的识别结果，其中，识别结果包括：人脸对应的身份信息，以及人脸在人脸图像中的位置，从而实现对人脸图像中所包含的多个人脸进行识别，快速的确定人脸图像中各个位置的人脸所对应的身份信息。需要说明的是，上述的人脸图像中可以包含大量的人脸。

步骤S204，利用结构检测模型对文本图像进行识别，得到文本图像的识别结果。

其中，识别结果包括：文本图像包含的文字的属性，以及文字在文本图像中的位置。

可选的，结构检测模型可以包括：第一分支模型和第二分支模型，第一分支模型用于识别文本图像，得到文字在文本图像中的位置，第二分支模型用于识别文本图像，得到文字的属性。

上述步骤中的结构检测模型可以利用检测算法，在检测出重要对象位置的同时识别出该对象的结构化属性，端到端的实现目标的检测及结构化。为了实现文字的属性和文字的位置的检测目的，结构检测模型可以包括一个特征提取模型，以及与特征提取模型连接的两个分支模型，分别为回归分支模型和分类分支模型，特征提取模型和回归分支模型构成了上述的第一分支模型，特征提取模型和分类分支模型构成了上述的第二分支模型。其中，利用特征提取模型可以对输入的文本图像进行特征提取，利用回归分支模型可以对特征提取模型输出的特征进行回归处理，得到文字在文本图像中的位置，同时利用分类分支模型可以对特征提取模型输出的特征进行回归处理，得到文字的属性。

上述步骤中的文字的属性可以是文字本身的特性，也可以是预先针对不同类型的文本图像所设定的文字所属类型，例如，文字本身的特性可以是文字颜色、文字字体、文字大小、文字间距、文字结构、文字类别(如英文、汉字、数字、符号等)；又例如，对于身份证，文字所属类型可以是姓名、出生日期、住址、证件号码等。

上述步骤中的文字的位置可以是文字在整个文本中的具体位置，在文本图像中，文字的位置可以采用位置坐标来进行表示。可以将文本图像的左下角作为原点，基于该原点在文本图片上建立二维平面坐标系，以文本图像的底部作为X轴，以文本图像的左边作为Y轴，从而基于该二维平面坐标系确定文字在该文本图像中所在的坐标位置。

在一种可选的实施例中，当文本图像为身份证图像时，利用结构检测模型对身份证图像进行识别，可以得到身份证图像中文字的属性，例如：姓名、证件号码、有效期限、签发单位等文字信息，以及文字在身份证图像中的位置，以便用户在需要使用身份证信息时，以便用户在需要填写身份证信息时，直接将识别的结果粘贴在需要填写的区域，无需对照身份证手动输入；当文本图像为银行卡的图像时，利用结构检测模型对银行卡的图像进行识别，提取出银行卡号、银行名称等文字信息，以及文字在银行卡中的位置，以便用户在需要填写银行卡信息时，直接将识别的结果粘贴在需要填写的区域，无需对照银行卡手动输入，从而提高了用户的体验感；当文本图像为试卷图像时，利用结构检测模型对试卷图像进行识别，可以得到试卷图像中文字的属性，例如：姓名、学号、题目、答案等，以及文字在试卷图像中的位置，从而基于试卷图像的识别结果，可以生成电子化试卷，实现试卷电子化，进一步，对于客观题，可以直接基于识别结果进行判卷，得到相应分数，简化了教师的判卷压力，提升教师的体验感；对于主观题，可以由教师进行人工判卷，得到相应分数；当文本图像为商品海报图像时，利用结构检测模型对病海报图像进行识别，可以得到海报图像中文字的属性，例如：商品名称、商家、代言人等，以及文字在海报图像中的位置，从而基于海报图像的识别结果，可以生成海报模板，方便用户利用该模型生成自己商品的海报，无需用户手动生成，提高了用户的体验感；当文本图像为患者病历图像时，利用结构检测模型对病历图像进行识别，可以得到病历图像中文字的属性，例如：患者姓名、就诊卡号、主诉、现病史、既往史等，以及文字在病历图像中的位置，从而基于病历图像的识别结果，可以生成电子化病历，实现病历电子化，方便医生对患者的整个病情有更加全面和详细的了解，确保诊断准确度。

其中，结构检测模型是依次利用第一训练样本和第二训练样本进行训练得到，第一训练样本包含非结构化的标注数据，第二训练样本包含结构化的标注数据，第二训练样本的数量小于预设数量。

上述步骤中的结构化的标注数据是指通过将零散的、孤立的数据整理成有联系的、层次化的数据，例如，文字的属性，但不仅限于此。

上述步骤中的非结构化的标注数据实质上是除结构化的标注数据之外的一切标注数据，非结构化的标注数据具有内部结构，但不通过预定义的数字模型或模式进行结构化，不方便用数据库二维逻辑表来表现，例如，文字在文本图像中的位置，但不仅限于此。

上述步骤中的第一训练样本可以是已经进行位置标注的文本图像，非结构化的标注数据可以是文本图像中文字所在的位置标注，例如，文本图像中文字的位置坐标；第二训练样本可以是已经进行文字位置标注和属性标注的文本图像，结构化的标注数据可以是文本图像中文字的属性标注，例如：文本图像中文字的结构、字体和大小等。

在一种可选的实施例中，第二训练样本所采用的文本图像可以与第一训练样本所采用的文本图像相同，但是，第一训练样本中包含该文本图像的非结构化的标注数据，第二训练样本中包含该文本图像的非结构化的标注数据和结构化标注数据，第一训练样本和第二训练样本通过采用相同的文本图片对结构检测模型进行训练，可以提高结构检测模型的精确度。具体的，可以在第一训练样本中只对文本图像中文字的位置进行标注，而对文本图像中文字的属性不进行标注，可以在第二训练样本中只对文本图像中文字的属性进行标注，而对文本图像中文字的位置不进行标注。

上述步骤中的预设数量可以由用户进行设置，还可以为通过多次实验确定的结构检测模型可以达到较好识别效果的数量，也即，该数量可以是在确保结构检测模型精度的基础上尽可能的较小，从而降低标注成本。

在本申请实施例中，第一训练样本的数量可以远远大于第二训练样本的数量；由于带有非结构化的标注数据的文本图像比较容易获取，即获取的成本较低，因此，可以先通过大量的带有非结构化标注数据的文本图像先对结构检测模型进行训练，从而得到一个通用的文字检测算法，以实现对文本图像中的文字进行精确定位；而带有结构化标注数据的文本图像获取的成本较高，因此可以采用少量带有结构化标注数据的文本图像对结构检测模型进行微调训练，使结构检测模型可以对文本图像中的文字进行分类。

进一步地，由于先前已经通过大量的包含有非结构化标注数据的第一训练样本进行训练，因此，结构检测模型已经足够鲁棒，不会由于包含有结构化标注数据的第二训练样本过少而导致结构检测模型的识别精度不高，因此，通过少量的第二训练样本对结构检测模型再次进行分类可以在确保结构检测模型精度的前提下，减少训练模型的成本，同时也可以提高训练模型的简便性，从而方便用户使用少量的具有结构化标注数据的第二训练样本就可以对对结构检测模型进行训练。

在另一种可选的实施例中，第二训练样本中的文本图像可以与第一训练样本中的文本图像完全不同，具体的，用户可以将采用第一训练样本进行训练的结构检测模型训练好之后，再根据用户的需求采用与用户实际所要识别的相关文本图像进行训练，使得在减少结构化训练模型的训练成本的同时，可以针对性的提高用户所需要识别的文本图像中文字的精度。

示例性的，当用户需要使用结构检测模型主要对票据中的文字进行识别时，可以先利用大量的第一训练样本对结构检测模型进行训练，然后将包含有结构化标注数据的票据作为第二训练样本，并利用少量的第二训练样本对结构检测模型进行微调，以便结构检测模型在对票据中的文字进行分类时，可以达到最高的精准度，同时，由于只采用了少量的带有结构化的标注数据的票据，因此，可以大大减少训练结构检测模型的成本。

需要说明的是，为了减少客户端本地的计算压力，结构检测模型可以部署在云端服务器中，由云端服务器对外提供服务。云端服务器可以接收客户端发送的模型训练请求，并获取相应的第一训练样本和第二训练样本进行训练。在结构检测模型训练完成之后，客户端可以发送需要进行识别的文本图像至云端服务器进行处理，云端服务器调用结构检测模型对接收到的文本图像进行处理，并将识别结果返回至客户端，由客户端展示给用户查看。如图3所示，客户端可以提供给用户一个交互界面，用户通过点击“选择图像”按钮可以选择需要进行识别的文本图像，选中的文本图像可以显示在“图像显示”区域中，用户确认文本图像无误之后，可以通过点击“上传”按钮将选中的文本图像上传至云端服务器进行识别，在云端服务器将识别结果返回值客户端之后，可以将识别结果展示在“图像显示”区域中，供用户查看。

另外，如果用户对识别结果不满意，或者用户认为识别结果错误，用户可以直接在客户端上对识别结果进行修改或编辑，并通过客户端将修正后的识别结果反馈给云端服务器，从而云端服务器可以基于用户的反馈结果对结构检测模型进行调整更新，具体的，可以将该文本图像和用户上传的反馈结果构建第二训练样本，并利用新构建的第二训练样本对结构检测模型进行训练，进一步提升结构检测模型的识别精度。

通过本申请上述实施例提供的方案，在获取到文本图像之后，可以利用结构检测模型对文本图像进行识别，得到文本图像的识别结果，也即，得到文本图像包含的文字的属性，以及文字在文本图像中的位置，从而实现图像识别的目的。容易注意到的是，结构检测模型包含两个分支模型，分别用于识别文字在文本图像中的位置，以及文字的属性，另外，结构检测模型是依次利用第一训练样本和第二训练样本进行训练得到的，实现通过少量的结构化处理即可完成对结构检测模型进行训练的目的，从而在获取到文本图像之后，可以通过结构检测模型对文本图像进行高精度的识别，使得到的文本图像的识别结果更加的准确，达到了减少训练样本的标注成本，提高结构检测模型的识别精度的技术效果，进而解决了关技术中结构检测模型的训练成本较技术问题。

本申请上述实施例中，利用结构检测模型对文本图像进行识别，得到文本图像的识别结果包括：将文本图像输入至特征提取模型，得到文本图像的特征信息；将文本图像的特征信息输入至回归分支模型，确定文字在文本图像中的位置；将文本图像的特征信息输入至分类分支模型，确定文字的属性。

上述步骤中的特征信息可以是能够与其他图案的进行区分的文字特征，例如文字的形状、大小、颜色等。

上述步骤中的特征提取模型可以是能够将文本图像中与文字有关的特征进行提取的网络；上述步骤中的回归分支模型可以是能够对文本图像中的文字进行定位的网络；上述步骤中的分类分支模型可以是能够对文本图像中的文字进行分类的网络。需要说明的是，特征提取模型、回归分支模型以及分类分支模型的具体类型和网络结构可以采用现有方案实现，本申请对此不作具体限定。例如，特征提取模型可以是VGG(Visual GeometryGroup，视觉几何组)、Shuffle Net(轻量级神经网络)等。

在一种可选的实施例中，将文本图像输入至特征提取模型，可以将到文本图像中的任意数据(文本或图像)转换为可以用于机器学习的数值特征，即特征信息，并将与文字相关的特征信息进行提取。其中，与文字相关的特征信息可以是文本中文字的特征向量或特征序列。

在另一种可选的实施例中，可以将文本图像的特征信息输入到回归分支模型中，并利用回归分支模型对文本图像中文字所在的位置进行定位。

进一步地，在确定文字在文本图像中的位置之后，可以利用预设文本框对定位的文字进行标注；其中，预设文本框的大小、形状以及倾斜角度可以根据文字的大小、形状以及倾斜角度和排列方式适应性的进行调整。

在又一种可选的实施例中，可以通过分类分支模型对文本图像的特征信息进行分类，从而确定与该特征信息对应的文字的属性。

本申请上述实施例中，该方法还包括：获取第一训练样本和第二训练样本，其中，第一训练样本包括：多张第一文本图像，以及每张第一文本图像包含的第一文字的标注位置，第二训练样本包括：多张第二文本图像，每张第二文本图像包含的第二文字的标注属性；利用第一训练样本对初始模型进行训练，得到初始结构检测模型；利用第二训练样本对初始结构检测模型进行训练，得到结构检测模型，其中，初始结构检测模型的特征提取模型和回归分支模型的网络参数在训练过程中保持不变。

上述步骤中多张第二文本图像可以是从多张第一文本图像中进行提取得到的，也可以是根据检测需要由用户提供的图像。

在一种可选的实施例中，第一文本图像中第一文字的标注位置可以通过预设文本框进行标注，其中，预设文本框的大小、颜色、形状、粗细都可以进行根据文字的大小、颜色、形状、粗细等适应性的调整。可以将第一文本图像中相邻的第一文字所组成的文字块统一使用预设文本框进行标注，或者将第一文本图像中处于同一行或者同一列的第一文字统一使用预设文本框进行标注。

由于带有第一文字标注位置的第一文本图像比较容易获取，因此，可以先利用大量的第一文本图像来对初始模型进行训练，使得初始结构检测模型可以接触到大量第一文本图像，从而使训练出的初始结构检测模型具有精准文字检测的能力，以提高初始结构检测模型对文本图像中文字位置的识别精准度。

需要说明的是，在利用第一训练样本进行训练的过程中，可以默认分类分支模型输出的分类结果均满足训练需要，或者，默认第一训练样本中所有文字的属性均相同。因此，第一训练样本的训练过程并不影响分类分支模型的参数。

在另一种可选的实施例中，第二文本图像中第二文字的标注属性可以通过注释的方式标记在文本图像上，例如：一个第二文本图像可以记载有多个水果的名称：例如香蕉、苹果、橘子等，那么可以通过文本注释的方式在每个水果名称上标注该水果名称的字体颜色、结构、大小等。

由于带有第二文字标注属性的第二文本图像获取成本较大，因此，在初始结构检测模型对文本图像中文字位置的识别精准度已经达到一个很高的精度的前提下，可以采用少量带有第二文字标注属性的第二文本图像对初始结构检测模型进行训练，也可以称作是对初始结构检测模型的微调，从而进一步地提高结构检测模型在对文本图像进行识别时的识别精度，同时也可以减少训练结构检测模型的训练成本。

上述步骤中的网络参数可以是初始结构检测模型中每个网络中的权值参数。

在又一种可选的实施例中，在利用第二训练样本对初始结构检测模型进行训练的过程中，之前已经训练好的特征提取模型和回归分支模型的权值保持固定不变。

本申请上述实施例中，获取第二训练样本包括：获取多张第二文本图像；利用数据增强算法对多张第二文本图像进行处理，生成第二训练样本。

上述步骤中的数据增强算法可以对第二训练样本中的多张第二文本图像进行变化，以便使结构检测模型的泛化能力更强。

在一种可选的实施例中，利用数据增强算法对第二文本图像进行处理，可以是对第二文本图像进行旋转、翻转变化、缩放变化、平移变化、尺度变化、对比度变化、噪声扰动、颜色变化等。通过数据增强算法对第二文本图像进行处理，可以使第二文本图像的数量大大的增加，使得生成的第二训练样本能够将结构检测模型的识别能力训练的更加精准，同时，采用较少的第二文本图像来生成第二训练样本可以减少训练结构检测模型所需要的成本。

本申请上述实施例中，利用第一训练样本对初始模型进行训练，得到初始结构检测模型包括：将每张第一文本图像输入至初始模型的特征提取模型，得到每张第一文本图像的特征信息；将每张第一文本图像的特征信息输入至初始模型的回归分支模型，确定第一文字在每张第一文本图像中的预测位置；将每张第一文本图像的特征信息输入至初始模型的分类分支模型，确定分类结果，其中，分类结果用于表征当前位置是否为文字；基于第一文字的预测位置和标注位置，以及分类结果，对初始模型的特征提取模型、初始模型的回归分支模型和初始模型的分类分支模型的网络参数进行更新，得到初始结构检测模型。

在一种可选的实施例中，可以将每张第一文本图像输入至特征提取模型中，利用特征提取模型对第一文本图像中有关第一文字的特征信息进行提取，将每张第一文本图像中有关第一文字的特征信息输入到回归分支模型中，可以根据第一文字的特征信息来预测出第一文字在第一文本图像中位置，即回归分支模型对第一文字的预测位置；此时，可以根据第一文字的预测位置和第一文字在第一文本图像中的标注位置确定一个位置误差，基于该位置误差更新特征提取模型、回归分支模型和分类分支模型中的网络参数。

进一步地，可以利用分类分支模型来确定特征提取模型提取到的第一文字所在的当前位置是否存在有第一文字，如果分类分支模型针对当前位置输出分类结果，则确定当前位置存在第一文字；如果分类分支模型针对当前位置未输出分类结果，则确定当前位置不存在第一文字。此时，可以根据分类分支模型的分类结果调整结构检测模型中网络参数，从而提高结构检测模型的识别精准度。

本申请上述实施例中，利用第二训练样本对初始结构检测模型进行训练，得到结构检测模型包括：将每张第二文本图像输入至初始结构检测模型的特征提取模型，得到每张第二文本图像的特征信息；将每张第二文本图像的特征信息输入至初始结构检测模型的分类分支模型，确定第二文字的预测属性；基于第二文字的标注属性和预测属性，对初始结构检测模型的分类分支模型的网络参数进行更新，得到结构检测模型。

在一种可选的实施例中，可以将每张第二文本图像输入至特征提取模型，利用特征提取模型对第二文本图像中有关第二文字的特征信息进行提取，将每张第二文本图像中有关第二文字的特征信息输入至回归分支模型中，可以根据第二文字的特征信息来预测出第二文字在第二文本图像中的属性，即分类分支模型对第二文字的预测属性，此时，可以根据第二文字的预测属性和第二文字在第二文本图像中的标注属性确定一个属性误差，基于该属性误差更新分类分支模型中的网络参数。

本申请上述实施例中，在利用结构检测模型对文本图像进行识别，得到文本图像的识别结果之后，该方法还包括：基于文本图像的识别结果，确定识别结果对应的置信度；基于置信度确定识别结果的目标标注方式；按照目标标注方式，输出识别结果。

在一种可选的实施例中，结构检测模型在对文本图像进行识别的过程中，可以给出识别结果的识别概率，进而可以将该识别概率作为上述的置信度，例如，对于结构检测模型，可以识别文字在文本图像中的位置，以及文字的属性，因此，可以将两个识别结果的识别概率进行加权，作为最终识别结果对应的置信度。

由于置信度越高，识别结果的准确度越高，因此，为了方便用户确定文本图像的识别准确度，可以预先设置多个置信度区间，针对不同的置信度区间设置不同的标注方式，例如，对于置信度较低的置信度区间，可以采用高亮颜色、闪烁等标注方式进行标注，对于置信度较高的置信度区间，可以采用常规颜色的标注方式进行标注，从而用户更加容易注意到置信度较低的识别结果，并由用户对识别结果进行确认。

在另一种可选的实施例中，在确定出识别结果对应的置信度之后，可以确定该置信度所属的置信度区间，并将该置信度区间对应的标注方式作为该识别结果的目标标注方式，进而可以按照目标标注方式在文本图像中对识别结果进行标注，达到输出识别结果的目的，例如，可以在如图3所示的“图像显示”区域中显示文本图像，并按照目标标注方式对识别结果进行标注。

本申请上述实施例中，在输出识别结果之后，该方法还包括：接收识别结果对应的响应数据，其中，响应数据为对识别结果进行修改得到；基于响应数据对结构检测模型进行更新。

在一种可选的实施例中，用户在查看到识别结果之后，可以对识别结果进行确认，如果用户确认识别结果存在错误，则可以直接对识别结果进行修改，得到上述的响应数据，并将响应数据返回给云端服务器，由云端服务器基于响应数据对结构检测模型进行调整，进一步提升结构检测模型的识别精度。

需要说明的是，由于识别结果包含文字的位置以及文字的属性，因此，在响应数据包括修改后的位置的情况下，可以基于该文本图像和修改后的位置构建新的训练样本，并将其作为第一训练样本，对结构检测模型进行更新；在响应数据包括修改后的属性的情况下，可以基于该文本图像和修改后的属性构建新的训练样本，并将其作为第二训练样本，对结构检测模型进行更新。

本申请上述实施例中，基于响应数据对结构检测模型进行更新包括：基于响应数据，生成新的第二训练样本；利用新的第二训练样本对结构检测模型进行训练，得到更新后的结构检测模型。

在一种可选的实施例中，为了实现对结构检测模型进行更新的目的，可以基于该文本图像，以及响应数据，生成新的训练样本作为第二训练样本，并按照第二训练样本的训练过程，对结构检测模型进行训练，达到更新结构检测模型的目的。

下面结合图4、图5a和图5b对本申请一种优选的实施例进行详细说明，如图4所示，该方法可以由前端客户端或后端服务器执行，在本申请实施例中，以云端服务器执行为例进行说明。该方法包括如下步骤：

步骤S41，利用大量的文字检测数据集训练一个鲁棒、通用的文字检测算法，其中，文字检测算法中包括：backbone(特征提取模型)、回归分支模型和分类分支模型；

如图5a所示的模型结构图，图片经过backbone提取特征之后，用一条分支回归文字位置，一条分支判定当前位置是否为文字。

步骤S42，将少量标注了文字位置、属性的结构化样本，通过噪音、模糊、resize(图像大小变换)等方式进行数据增强，得到一批可以fintune(微调)模型的数据；

步骤S43，固定步骤S41训练出的backbone、回归分支模型的网络参数，利用步骤S42制作的结构化样本fintune模型的分类分支模型的网络参数；

如图5b所示，可以在利用结构化样本进行训练的过程中，将训练出的backbone和回归分支模型中的网络参数进行固定，保持不变。

通过上述步骤可以使模型能够对每个文字块的属性进行判断。

步骤S44，利用较小的学习率将backbone、回归分支模型、分类分支模型整体进行fintune，得到精准的结构检测模型。

通过上述步骤，本申请可以利用通用的文字检测数据集训练模型使模型具有精准文字检测的能力，并且由于数据集足够的大，使得模型见得数据集够多，因此，模型就足够鲁棒，不会因为用于微调的结构化数据较小而对噪音过于敏感，从而导致误检和漏检。另外，相对于现有训练过程中采用加了规则的匹配算法进行匹配，使得容易出现匹配错误，并且非常依赖检测框的准确性及文字识别准确性，本申请中不采用任何的规则解析，仅采用算法进行训练，并且采用端到端的模式可以避免因为文字识别、规则匹配等错误带来损失。

实施例2

根据本申请实施例，还提供了一种图像处理方法，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

图6是根据本申请实施例的第二种图像处理方法的流程图。如图6所示，该方法可以包括如下步骤：

步骤S602，显示文本图像。

在一种可选的实施例中，可以在移动端的显示屏上的操作界面显示文本图像，也可以在计算机终端的显示屏上的操作界面显示文本图像。例如，可以在如图3所示的交互界面的“图像显示”区域中显示文本图像。

步骤S604，在文本图像上标记文本图像的识别结果。

其中，识别结果利用结构检测模型对文本图像进行识别得到，识别结果包括：文本图像包含的文字的属性，以及文字在文本图像中的位置；其中，结构检测模型包括：第一分支模型和第二分支模型，第一分支模型用于识别文本图像，得到文字在文本图像中的位置，第二分支模型用于识别文本图像，得到文字的属性，结构检测模型是依次利用第一训练样本和第二训练样本进行训练得到，第一训练样本包含非结构化的标注数据，第二训练样本包含结构化的标注数据，第二训练样本的数量小于预设数量。

在一种可选的实施例中，可以通过注释、文本框等方式标记文本图像的识别结果。

示例性的，可以通过预设文本框标记文字在文本图像中的位置；可以将文本图像中包含的文字的属性通过注释的方式进行标注。

本申请上述实施例中，在文本图像上标记文本图像的识别结果包括：基于文本图像的识别结果，确定识别结果对应的置信度；基于置信度确定识别结果的目标标注方式；按照目标标注方式，在文本图像上标记文本图像的识别结果。

本申请上述实施例中，在文本图像上标记文本图像的识别结果之后，该方法还包括：接收识别结果对应的响应数据，其中，响应数据为对识别结果进行修改得到；基于响应数据对结构检测模型进行更新。

需要说明的是，本申请上述实施例中涉及到的优选实施方案与实施例1提供的方案以及应用场景、实施过程相同，但不仅限于实施例1所提供的方案。

实施例3

图7是根据本申请实施例的第三种图像处理方法的流程图。如图7所示，该方法可以包括如下步骤：

步骤S702，获取第一训练样本和第二训练样本。

其中，第一训练样本包含非结构化的标注数据，第二训练样本包含结构化的标注数据，第二训练样本的数量小于预设数量。

步骤S704，利用第一训练样本对初始模型进行训练，得到初始结构检测模型。

步骤S706，利用第二训练样本对初始结构检测模型进行训练，得到结构检测模型，其中，结构检测模型包括：第一分支模型和第二分支模型，第一分支模型用于识别文本图像，得到文本图像包含的文字在文本图像中的位置，第二分支模型用于识别文本图像，得到文字的属性。

本申请上述实施例中，第一训练样本包括：多张第一文本图像，以及每张第一文本图像包含的第一文字的标注位置，第二训练样本包括：多张第二文本图像，每张第二文本图像包含的第二文字的标注属性。

本申请上述实施例中，在利用第二训练样本进行训练的过程中，初始结构检测模型的特征提取模型和回归分支模型的网络参数保持不变。

实施例4

图8是根据本申请实施例的第四种图像处理方法的流程图。如图8所示，该方法可以包括如下步骤：

步骤S802，获取证件图像。

上述步骤中的证件图像可以是各种卡证或票据的图像，例如，可以是身份证、银行卡、营业执照等卡证的图像，也可以是火车牌、发票、行程单等票据的图像，但不仅限于此。

步骤S804，利用结构检测模型对证件图像进行识别，得到证件图像的识别结果。

其中，识别结果包括：证件图像包含的文字的属性，以及文字在证件图像中的位置。

可选的，结构检测模型可以包括：第一分支模型和第二分支模型，第一分支模型用于识别证件图像，得到文字在证件图像中的位置，第二分支模型用于识别证件图像，得到文字的属性。

上述步骤中的结构检测模型可以利用检测算法，在检测出重要对象位置的同时识别出该对象的结构化属性，端到端的实现目标的检测及结构化。为了实现文字的属性和文字的位置的检测目的，结构检测模型可以包括一个特征提取模型，以及与特征提取模型连接的两个分支模型，分别为回归分支模型和分类分支模型，特征提取模型和回归分支模型构成了上述的第一分支模型，特征提取模型和分类分支模型构成了上述的第二分支模型。其中，利用特征提取模型可以对输入的证件图像进行特征提取，利用回归分支模型可以对特征提取模型输出的特征进行回归处理，得到文字在证件图像中的位置，同时利用分类分支模型可以对特征提取模型输出的特征进行回归处理，得到文字的属性。

本申请上述实施例中，在利用结构检测模型对证件图像进行识别，得到证件图像的识别结果之后，该方法还包括：确定证件图像的目标板式；基于目标板式和识别结果，生成证件图像对应的文本数据。

在一种可选的实施例中，不同类型的卡证或票据往往采用不同的板式或制式进行排版，因此，可以基于证件图像的类型确定该证件图像的目标板式。在确定目标板式之后，可以基于目标板式，将相应的文字进行排版，得到最终的电子化文本，即上述的文本数据，从而实现卡证或票据的电子化。

本申请上述实施例中，利用结构检测模型对证件图像进行识别，得到证件图像的识别结果包括：将证件图像输入至特征提取模型，得到证件图像的特征信息；将证件图像的特征信息输入至回归分支模型，确定文字在证件图像中的位置；将证件图像的特征信息输入至分类分支模型，确定文字的属性。

本申请上述实施例中，该方法还包括：获取第一训练样本和第二训练样本，其中，第一训练样本包括：多张第一证件图像，以及每张第一证件图像包含的第一文字的标注位置，第二训练样本包括：多张第二证件图像，每张第二证件图像包含的第二文字的标注属性；利用第一训练样本对初始模型进行训练，得到初始结构检测模型；利用第二训练样本对初始结构检测模型进行训练，得到结构检测模型，其中，初始结构检测模型的特征提取模型和回归分支模型的网络参数在训练过程中保持不变。

本申请上述实施例中，获取第二训练样本包括：获取多张第二证件图像；利用数据增强算法对多张第二证件图像进行处理，生成第二训练样本。

本申请上述实施例中，利用第一训练样本对初始模型进行训练，得到初始结构检测模型包括：将每张第一证件图像输入至初始模型的特征提取模型，得到每张第一证件图像的特征信息；将每张第一证件图像的特征信息输入至初始模型的回归分支模型，确定第一文字在每张第一证件图像中的预测位置；将每张第一证件图像的特征信息输入至初始模型的分类分支模型，确定分类结果，其中，分类结果用于表征当前位置是否为文字；基于第一文字的预测位置和标注位置，以及分类结果，对初始模型的特征提取模型、初始模型的回归分支模型和初始模型的分类分支模型的网络参数进行更新，得到初始结构检测模型。

本申请上述实施例中，利用第二训练样本对初始结构检测模型进行训练，得到结构检测模型包括：将每张第二证件图像输入至初始结构检测模型的特征提取模型，得到每张第二证件图像的特征信息；将每张第二证件图像的特征信息输入至初始结构检测模型的分类分支模型，确定第二文字的预测属性；基于第二文字的标注属性和预测属性，对初始结构检测模型的分类分支模型的网络参数进行更新，得到结构检测模型。

本申请上述实施例中，在利用结构检测模型对证件图像进行识别，得到证件图像的识别结果之后，该方法还包括：基于证件图像的识别结果，确定识别结果对应的置信度；基于置信度确定识别结果的目标标注方式；按照目标标注方式，输出识别结果。

实施例5

图9是根据本申请实施例的第五种图像处理方法的流程图。如图9所示，该方法可以包括如下步骤：

步骤S902，接收客户端上传的文本图像。

上述步骤中的客户端可以是用户使用的智能手机(如Android手机、iOS手机)、平板电脑、掌上电脑等移动终端，或笔记本电脑、个人电脑等计算机终端，但不仅限于此。

步骤S904，利用结构检测模型对文本图像进行识别，得到文本图像的识别结果。

步骤S906，输出识别结果至客户端。

实施例6

图10是根据本申请实施例的第六种图像处理方法的流程图。如图10所示，该方法可以包括如下步骤：

步骤S1002，通过调用第一接口接收文本图像，其中，第一接口包括：第一参数和第二参数，第一参数的参数值为文本图像，第二参数的参数值为文本图像对应的目标类型。

上述步骤中的第一接口可以是云端服务器与客户端之间进行数据交互的接口，客户端可以将文本图像和目标类型传入接口函数，作为接口函数的一个参数，实现文本图像上传至云端服务器的目的。

上述步骤中的目标类型可以是文本图像对应的文字内容的类型，例如，可以是身份证、银行卡、营业执照等卡证，还可以是火车票、发票、行程单等票据，还可以是体检单、物流单等表单的图像，但不仅限于此。例如，在教育场景中，上述的目标类型可以是试卷、学生作业、教师板书等；在电商场景中，上述的目标类型可以是商品海报，商品直播、视频等；在医疗场景中，上述的目标类型可以是患者病历、诊断书等。

在一种可选的实施例中，用户可以直接将文本图像上传，并指定文本图像的目标类型，从而云端服务器通过调用第一接口可以直接获取到文本图像和目标类型。在另一种可选的实施例中，用户可以将文本图像的存储路径和目标类型上传，从而云端服务器通过调用第一接口可以获取到存储路径和目标类型，进而从存储路径中获取文本图像。在又一种可选的实施例中，用户可以直接将文本图像上传，云端你服务器在通过第一接口获取到文本图像之后，可以通过对文本图像进行识别，确定目标类型。

步骤S1004，基于目标类型调用结构检测模型，并利用结构检测模型对文本图像进行识别，得到文本图像的识别结果。

对于不同的目标类型，可以预先训练不同的结构检测模型，使得结构检测模型的识别更具有针对性，识别精度更高。在一种可选的实施例中，云端服务器中可以预先部署不同的结构检测模型，用于对不同类型的文本图像进行识别，因此，在确定文本图像的目标类型之后，可以调用目标类型对应的结构检测模型，并利用该结构检测模型对文本图像进行识别，得到识别结果。

步骤S1006，通过调用第二接口输出识别结果，其中，第二接口包括：第三参数，第三参数的参数值为识别结果。

上述步骤中的第二接口可以是云端服务器与客户端之间进行数据交互的接口，云端服务器可以将识别结果传入接口函数，作为接口函数的一个参数，实现识别结果下发至客户端的目的。

实施例7

根据本申请实施例，还提供了一种图像处理装置，如图11所示，该装置1100包括：获取模块1102和识别模块1104。

其中，获取模块1102用于获取文本图像；识别模块1104，用于利用结构检测模型对文本图像进行识别，得到文本图像的识别结果，其中，识别结果包括：文本图像包含的文字的属性，以及文字在文本图像中的位置；其中，结构检测模型可以包括：第一分支模型和第二分支模型，第一分支模型用于识别文本图像，得到文字在文本图像中的位置，第二分支模型用于识别文本图像，得到文字的属性，结构检测模型是依次利用第一训练样本和第二训练样本进行训练得到，第一训练样本包含非结构化的标注数据，第二训练样本包含结构化的标注数据，第二训练样本的数量小于预设数量。

此处需要说明的是，上述获取模块1102和识别模块1104对应于实施例1中的步骤S202至步骤S204，两个模块与对应的步骤所实现的实例和应用场景相同，但不限于上述实施例1所公开的内容。需要说明的是，上述模块作为装置的一部分可以运行在实施例1提供的计算机终端10中。

本申请上述实施例中，识别模块包括：第一获取单元、第一确定单元和第二确定单元。

其中，第一获取单元用于将文本图像输入至特征提取模型，得到文本图像的特征信息；第一确定单元用于将文本图像的特征信息输入至回归分支模型，确定文字在文本图像中的位置；第二确定单元用于将文本图像的特征信息输入至分类分支模型，确定文字的属性。

本申请上述实施例中，该装置还包括：第一训练模块和第二训练模块。

其中，获取模块还用于获取第一训练样本和第二训练样本，其中，第一训练样本包括：多张第一文本图像，以及每张第一文本图像包含的第一文字的标注位置，第二训练样本包括：多张第二文本图像，每张第二文本图像包含的第二文字的标注属性；第一训练模块用于利用第一训练样本对初始模型进行训练，得到初始结构检测模型；第二训练模块用于利用第二训练样本对初始结构检测模型进行训练，得到结构检测模型，其中，初始结构检测模型的特征提取模型和回归分支模型的网络参数在训练过程中保持不变。

本申请上述实施例中，获取模块包括：第二获取单元和处理单元。

其中，第二获取单元用于获取多个第二文本图像；处理单元用于利用数据增强算法对多张第二文本图像进行处理，生成第二训练样本。

本申请上述实施例中，第一训练模块包括：第三获取单元、第三确定单元、第四确定单元和第一更新单元。

其中，第三获取单元用于将每张第一文本图像输入至初始模型的特征提取模型，得到每张第一文本图像的特征信息；第三确定单元用于将每张第一文本图像的特征信息输入至初始模型的回归分支模型，确定第一文字在每张第一文本图像中的预测位置；第四确定单元用于将每张第一文本图像的特征信息输入至初始模型的分类分支模型，确定分类结果，其中，分类结果用于表征当前位置是否为文字；更新单元用于基于第一文字的预测位置和标注位置，以及分类结果，对初始模型的特征提取模型、初始模型的回归分支模型和初始模型的分类分支模型的网络参数进行更新，得到初始结构检测模型。

本申请上述实施例中，第二训练模块包括：第四获取单元、第五确定单元和第二更新单元。

其中，第四获取单元用于将每张第二文本图像输入至初始结构检测模型的特征提取模型，得到每张第二文本图像的特征信息；第五确定单元用于将每张第二文本图像的特征信息输入至初始结构检测模型的分类分支模型，确定第二文字的预测属性；第二更新单元用于基于第二文字的标注属性和预测属性，对初始结构检测模型的分类分支模型的网络参数进行更新，得到结构检测模型。

本申请上述实施例中，该装置还包括：第一确定模块、第二确定模块和输出模块。

其中，第一确定模块用于基于文本图像的识别结果，确定识别结果对应的置信度；第二确定模块用于基于置信度确定识别结果的目标标注方式；输出模块用于按照目标标注方式，输出识别结果。

本申请上述实施例中，该装置还包括：接收模块和更新模块。

其中，接收模块用于接收识别结果对应的响应数据，其中，响应数据为对识别结果进行修改得到；更新模块用于基于响应数据对结构检测模型进行更新。

本申请上述实施例中，更新模块包括：生成单元和训练单元。

其中，生成单元用于基于响应数据，生成新的第二训练样本；训练单元用于利用新的第二训练样本对结构检测模型进行训练，得到更新后的结构检测模型。

实施例8

根据本申请实施例，还提供了一种图像处理装置，如图12所示，该装置1200包括：显示模块1202和标记模块1204。

其中，显示模块1202用于显示文本图像；标记模块1204用于在文本图像上标记文本图像的识别结果，其中，识别结果利用结构检测模型对文本图像进行识别得到，识别结果包括：文本图像包含的文字的属性，以及文字在文本图像中的位置；其中，结构检测模型包括：第一分支模型和第二分支模型，第一分支模型用于识别文本图像，得到文字在文本图像中的位置，第二分支模型用于识别文本图像，得到文字的属性，结构检测模型是依次利用第一训练样本和第二训练样本进行训练得到，第一训练样本包含非结构化的标注数据，第二训练样本包含结构化的标注数据，第二训练样本的数量小于预设数量。

此处需要说明的是，上述显示模块1202和标记模块1204对应于实施例2中的步骤S602至步骤S604，两个模块与对应的步骤所实现的实例和应用场景相同，但不限于上述实施例2所公开的内容。需要说明的是，上述模块作为装置的一部分可以运行在实施例1提供的计算机终端10中。

本申请上述实施例中，标记模块包括：第一获取单元、第一确定单元和第二确定单元。

本申请上述实施例中，该装置还包括：获取模块、第一训练模块和第二训练模块。

其中，获取模块用于获取第一训练样本和第二训练样本，其中，第一训练样本包括：多张第一文本图像，以及每张第一文本图像包含的第一文字的标注位置，第二训练样本包括：多张第二文本图像，每张第二文本图像包含的第二文字的标注属性；第一训练模块用于利用第一训练样本对初始模型进行训练，得到初始结构检测模型；第二训练模块用于利用第二训练样本对初始结构检测模型进行训练，得到结构检测模型，其中，初始结构检测模型的特征提取模型和回归分支模型的网络参数在训练过程中保持不变。

本申请上述实施例中，标记模块包括：第六确定单元、第七确定单元和标记单元。

其中，第六确定单元用于基于文本图像的识别结果，确定识别结果对应的置信度；第七确定单元用于基于置信度确定识别结果的目标标注方式；标记单元用于按照目标标注方式，在文本图像上标记文本图像的识别结果。

实施例9

根据本申请实施例，还提供了一种图像处理装置，如图13所示，该装置1300包括：获取模块1302、第一训练模块1304和第二训练模块1306。

其中，获取模块1302用于获取第一训练样本和第二训练样本，其中，第一训练样本包含非结构化的标注数据，第二训练样本包含结构化的标注数据，第二训练样本的数量小于预设数量；第一训练模块1304用于利用第一训练样本对初始模型进行训练，得到初始结构检测模型；第二训练模块1306用于利用第二训练样本对初始结构检测模型进行训练，得到结构检测模型，其中，结构检测模型包括：第一分支模型和第二分支模型，第一分支模型用于识别文本图像，得到文本图像包含的文字在文本图像中的位置，第二分支模型用于识别文本图像，得到文字的属性。

此处需要说明的是，上述获取模块1302、第一训练模块1304和第二训练模块1306对应于实施例3中的步骤S702至步骤S706，三个模块与对应的步骤所实现的实例和应用场景相同，但不限于上述实施例3所公开的内容。需要说明的是，上述模块作为装置的一部分可以运行在实施例1提供的计算机终端10中。

本申请上述实施例中的第一训练样本包括：多张第一文本图像，以及每张第一文本图像包含的第一文字的标注位置，第二训练样本包括：多张第二文本图像，每张第二文本图像包含的第二文字的标注属性。

本申请上述实施例中，获取模块包括：第一获取单元和处理单元。

其中，第一获取单元用于获取多张第二文本图像；处理单元用于利用数据增强算法对多张第二文本图像进行处理，生成第二训练样本。

本申请上述实施例中，第一训练模块包括：第二获取单元、第一确定单元、第二确定单元和第一更新单元。

其中，第二获取单元用于将每张第一文本图像输入至结构检测模型中的初始模型的特征提取模型，得到每张第一文本图像的特征信息；第一确定单元用于将每张第一文本图像的特征信息输入至结构检测模型中的初始模型的回归分支模型，确定第一文字在每张第一文本图像中的预测位置；第二确定单元用于将每张第一文本图像的特征信息输入至结构检测模型中的初始模型的分类分支模型，确定分类结果，其中，分类结果用于表征当前位置是否为文字；第一更新单元用于基于第一文字的预测位置和标注位置，以及分类结果，对初始模型的特征提取模型、初始模型的回归分支模型和初始模型的分类分支模型的网络参数进行更新。

本申请上述实施例中，第二训练模块包括：第三获取单元、第三确定单元、第二更新单元。

其中，第三获取单元用于将每张第二文本图像输入至初始结构检测模型的特征提取模型，得到每张第二文本图像的特征信息；第三确定单元用于将每张第二文本图像的特征信息输入至初始结构检测模型的分类分支模型，确定第二文字的预测属性；第二更新单元用于基于第二文字的标注属性和预测属性，对初始结构检测模型的分类分支模型的网络参数进行更新。

实施例10

根据本申请实施例，还提供了一种图像处理装置，如图14所示，该装置1400包括：获取模块1402和识别模块1404。

其中，获取模块1402用于获取证件图像；识别模块1404用于利用结构检测模型对证件图像进行识别，得到证件图像的识别结果，其中，识别结果包括：证件图像包含的文字的属性，以及文字在证件图像中的位置；其中，结构检测模型可以包括：第一分支模型和第二分支模型，第一分支模型用于识别证件图像，得到文字在证件图像中的位置，第二分支模型用于识别证件图像，得到文字的属性，结构检测模型是依次利用第一训练样本和第二训练样本进行训练得到，第一训练样本包含非结构化的标注数据，第二训练样本包含结构化的标注数据，第二训练样本的数量小于预设数量。

此处需要说明的是，上述获取模块1402和识别模块1404对应于实施例4中的步骤S802至步骤S804，两个模块与对应的步骤所实现的实例和应用场景相同，但不限于上述实施例4所公开的内容。需要说明的是，上述模块作为装置的一部分可以运行在实施例1提供的计算机终端10中。

本申请上述实施例中，该装置还包括：第一确定模块和生成模块。

其中，第一确定模块用于确定证件图像的目标板式；生成模块用于基于目标板式和识别结果，生成证件图像对应的文本数据。

其中，第一获取单元用于将证件图像输入至特征提取模型，得到证件图像的特征信息；第一确定单元用于将证件图像的特征信息输入至回归分支模型，确定文字在证件图像中的位置；第二确定单元用于将证件图像的特征信息输入至分类分支模型，确定文字的属性。

其中，获取模块还用于获取第一训练样本和第二训练样本，其中，第一训练样本包括：多张第一证件图像，以及每张第一证件图像包含的第一文字的标注位置，第二训练样本包括：多张第二证件图像，每张第二证件图像包含的第二文字的标注属性；第一训练模块用于利用第一训练样本对初始模型进行训练，得到初始结构检测模型；第二训练模块用于利用第二训练样本对初始结构检测模型进行训练，得到结构检测模型，其中，初始结构检测模型的特征提取模型和回归分支模型的网络参数在训练过程中保持不变。

其中，第二获取单元用于获取多个第二证件图像；处理单元用于利用数据增强算法对多张第二证件图像进行处理，生成第二训练样本。

其中，第三获取单元用于将每张第一证件图像输入至初始模型的特征提取模型，得到每张第一证件图像的特征信息；第三确定单元用于将每张第一证件图像的特征信息输入至初始模型的回归分支模型，确定第一文字在每张第一证件图像中的预测位置；第四确定单元用于将每张第一证件图像的特征信息输入至初始模型的分类分支模型，确定分类结果，其中，分类结果用于表征当前位置是否为文字；更新单元用于基于第一文字的预测位置和标注位置，以及分类结果，对初始模型的特征提取模型、初始模型的回归分支模型和初始模型的分类分支模型的网络参数进行更新，得到初始结构检测模型。

其中，第四获取单元用于将每张第二证件图像输入至初始结构检测模型的特征提取模型，得到每张第二证件图像的特征信息；第五确定单元用于将每张第二证件图像的特征信息输入至初始结构检测模型的分类分支模型，确定第二文字的预测属性；第二更新单元用于基于第二文字的标注属性和预测属性，对初始结构检测模型的分类分支模型的网络参数进行更新，得到结构检测模型。

本申请上述实施例中，该装置还包括：第二确定模块、第三确定模块和输出模块。

其中，第二确定模块用于基于证件图像的识别结果，确定识别结果对应的置信度；第三确定模块用于基于置信度确定识别结果的目标标注方式；输出模块用于按照目标标注方式，输出识别结果。

实施例11

根据本申请实施例，还提供了一种图像处理装置，如图15所示，该装置1500包括：接收模块1502、识别模块1504和输出模块1506。

其中，接收模块1502用于接收客户端上传的文本图像；识别模块1504用于利用结构检测模型对文本图像进行识别，得到文本图像的识别结果，其中，识别结果包括：文本图像包含的文字的属性，以及文字在文本图像中的位置；输出模块1506用于输出识别结果至客户端；其中，结构检测模型可以包括：第一分支模型和第二分支模型，第一分支模型用于识别文本图像，得到文字在文本图像中的位置，第二分支模型用于识别文本图像，得到文字的属性，结构检测模型是依次利用第一训练样本和第二训练样本进行训练得到，第一训练样本包含非结构化的标注数据，第二训练样本包含结构化的标注数据，第二训练样本的数量小于预设数量。

此处需要说明的是，上述接收模块1502、识别模块1504和输出模块1506对应于实施例5中的步骤S902至步骤S906，三个模块与对应的步骤所实现的实例和应用场景相同，但不限于上述实施例5所公开的内容。需要说明的是，上述模块作为装置的一部分可以运行在实施例1提供的计算机终端10中。

本申请上述实施例中，该装置还包括：第一确定模块和第二确定模块。

其中，第一确定模块用于基于文本图像的识别结果，确定识别结果对应的置信度；第二确定模块用于基于置信度确定识别结果的目标标注方式；输出模块还用于按照目标标注方式，输出识别结果。

本申请上述实施例中，该装置还包括：更新模块。

其中，接收模块还用于接收识别结果对应的响应数据，其中，响应数据为对识别结果进行修改得到；更新模块用于基于响应数据对结构检测模型进行更新。

实施例12

根据本申请实施例，还提供了一种图像处理装置，如图16所示，该装置1600包括：第一调用模块1602、第二调用模块1604和第三调用模块1606。

其中，第一调用模块1602用于通过调用第一接口接收文本图像，其中，第一接口包括：第一参数和第二参数，第一参数的参数值为文本图像，第二参数的参数值为文本图像对应的目标类型；第二调用模块1604用于基于目标类型调用结构检测模型，并利用结构检测模型对文本图像进行识别，得到文本图像的识别结果，其中，识别结果包括：文本图像包含的文字的属性，以及文字在文本图像中的位置；第三调用模块1606用于通过调用第二接口输出识别结果，其中，第二接口包括：第三参数，第三参数的参数值为识别结果；其中，结构检测模型可以包括：第一分支模型和第二分支模型，第一分支模型用于识别文本图像，得到文字在文本图像中的位置，第二分支模型用于识别文本图像，得到文字的属性，结构检测模型是依次利用第一训练样本和第二训练样本进行训练得到，第一训练样本包含非结构化的标注数据，第二训练样本包含结构化的标注数据，第二训练样本的数量小于预设数量。

此处需要说明的是，上述第一调用模块1602、第二调用模块1604和第三调用模块1606对应于实施例6中的步骤S1002至步骤S1006，三个模块与对应的步骤所实现的实例和应用场景相同，但不限于上述实施例6所公开的内容。需要说明的是，上述模块作为装置的一部分可以运行在实施例1提供的计算机终端10中。

本申请上述实施例中，第二调用模块包括：第一获取单元、第一确定单元和第二确定单元。

实施例13

本申请的实施例还提供了一种计算机可读存储介质。可选地，在本实施例中，上述存储介质可以用于保存上述实施例所提供的图像处理方法所执行的程序代码。

可选地，在本实施例中，上述计算机可读存储介质可以位于计算机网络中计算机终端群中的任意一个计算机终端中，或者位于移动终端群中的任意一个移动终端中。

可选地，在本实施例中，计算机可读存储介质被设置为存储用于执行以下步骤的程序代码：获取文本图像；利用结构检测模型对文本图像进行识别，得到文本图像的识别结果，其中，识别结果包括：文本图像包含的文字的属性，以及文字在文本图像中的位置；其中，结构检测模型包括：第一分支模型和第二分支模型，第一分支模型用于识别文本图像，得到文字在文本图像中的位置，第二分支模型用于识别文本图像，得到文字的属性，结构检测模型是依次利用第一训练样本和第二训练样本进行训练得到，第一训练样本包含非结构化的标注数据，第二训练样本包含结构化的标注数据，第二训练样本的数量小于预设数量。

可选地，上述存储介质还被设置为存储用于执行以下步骤的程序代码：文本图像输入至特征提取模型，得到文本图像的特征信息；将文本图像的特征信息输入至回归分支模型，确定文字在文本图像中的位置；将文本图像的特征信息输入至分类分支模型，确定文字的属性。

可选地，上述存储介质还被设置为存储用于执行以下步骤的程序代码：获取第一训练样本和第二训练样本，其中，第一训练样本包括：多张第一文本图像，以及每张第一文本图像包含的第一文字的标注位置，第二训练样本包括：多张第二文本图像，每张第二文本图像包含的第二文字的标注属性；利用第一训练样本对初始模型进行训练，得到初始结构检测模型；利用第二训练样本对初始结构检测模型进行训练，得到结构检测模型，其中，初始结构检测模型的特征提取模型和回归分支模型的网络参数在训练过程中保持不变。

可选地，上述存储介质还被设置为存储用于执行以下步骤的程序代码：获取多张第二文本图像；利用数据增强算法对多张第二文本图像进行处理，生成第二训练样本。

可选地，上述存储介质还被设置为存储用于执行以下步骤的程序代码：将每张第一文本图像输入至初始模型的特征提取模型，得到每张第一文本图像的特征信息；将每张第一文本图像的特征信息输入至初始模型的回归分支模型，确定第一文字在每张第一文本图像中的预测位置；将每张第一文本图像的特征信息输入至初始模型的分类分支模型，确定分类结果，其中，分类结果用于表征当前位置是否为文字；基于第一文字的预测位置和标注位置，以及分类结果，对初始模型的特征提取模型、初始模型的回归分支模型和初始模型的分类分支模型的网络参数进行更新，得到初始结构检测模型。

可选地，上述存储介质还被设置为存储用于执行以下步骤的程序代码：将每张第二文本图像输入至初始结构检测模型的特征提取模型，得到每张第二文本图像的特征信息；将每张第二文本图像的特征信息输入至初始结构检测模型的分类分支模型，确定第二文字的预测属性；基于第二文字的标注属性和预测属性，对初始结构检测模型的分类分支模型的网络参数进行更新，得到结构检测模型。

可选地，上述存储介质还被设置为存储用于执行以下步骤的程序代码：基于文本图像的识别结果，确定识别结果对应的置信度；基于置信度确定识别结果的目标标注方式；按照目标标注方式，在文本图像上标记文本图像的识别结果。

可选地，上述存储介质还被设置为存储用于执行以下步骤的程序代码：接收识别结果对应的响应数据，其中，响应数据为对识别结果进行修改得到；基于响应数据对结构检测模型进行更新。

可选地，上述存储介质还被设置为存储用于执行以下步骤的程序代码：基于响应数据，生成新的第二训练样本；利用新的第二训练样本对结构检测模型进行训练，得到更新后的结构检测模型。

作为一种可选地示例，存储介质还被设置为存储用于执行以下步骤的程序代码：显示文本图像；在文本图像上标记文本图像的识别结果，其中，识别结果利用结构检测模型对文本图像进行识别得到，识别结果包括：文本图像包含的文字的属性，以及文字在文本图像中的位置；其中，结构检测模型包括：第一分支模型和第二分支模型，第一分支模型用于识别文本图像，得到文字在文本图像中的位置，第二分支模型用于识别文本图像，得到文字的属性，结构检测模型是依次利用第一训练样本和第二训练样本进行训练得到，第一训练样本包含非结构化的标注数据，第二训练样本包含结构化的标注数据，第二训练样本的数量小于预设数量。

作为一种可选地示例，存储介质还被设置为存储用于执行以下步骤的程序代码：获取第一训练样本和第二训练样本，其中，第一训练样本包含非结构化的标注数据，第二训练样本包含结构化的标注数据，第二训练样本的数量小于预设数量；利用第一训练样本对初始模型进行训练，得到初始结构检测模型；利用第二训练样本对初始结构检测模型进行训练，得到结构检测模型，其中，结构检测模型包括：第一分支模型和第二分支模型，第一分支模型用于识别文本图像，得到文字在文本图像中的位置，第二分支模型用于识别文本图像，得到文字的属性。

作为一种可选地示例，存储介质还被设置为存储用于执行以下步骤的程序代码：获取证件图像；利用结构检测模型对证件图像进行识别，得到证件图像的识别结果，其中，识别结果包括：证件图像包含的文字的属性，以及文字在证件图像中的位置；其中，结构检测模型包括：第一分支模型和第二分支模型，第一分支模型用于识别证件图像，得到文字在证件图像中的位置，第二分支模型用于识别证件图像，得到文字的属性，结构检测模型是依次利用第一训练样本和第二训练样本进行训练得到，第二训练样本的数量小于预设数量。

可选地，上述存储介质还被设置为存储用于执行以下步骤的程序代码：确定证件图像的目标板式；基于目标板式和识别结果，生成证件图像对应的文本数据。

作为一种可选地示例，存储介质还被设置为存储用于执行以下步骤的程序代码：接收客户端上传的文本图像；利用结构检测模型对文本图像进行识别，得到文本图像的识别结果，其中，识别结果包括：文本图像包含的文字的属性，以及文字在文本图像中的位置；输出识别结果至客户端；其中，结构检测模型包括：第一分支模型和第二分支模型，第一分支模型用于识别文本图像，得到文字在文本图像中的位置，第二分支模型用于识别文本图像，得到文字的属性，结构检测模型是依次利用第一训练样本和第二训练样本进行训练得到，第二训练样本的数量小于预设数量。

作为一种可选地示例，存储介质还被设置为存储用于执行以下步骤的程序代码：通过调用第一接口接收文本图像，其中，第一接口包括：第一参数和第二参数，第一参数的参数值为文本图像，第二参数的参数值为文本图像对应的目标类型；基于目标类型调用结构检测模型，并利用结构检测模型对文本图像进行识别，得到文本图像的识别结果，其中，识别结果包括：文本图像包含的文字的属性，以及文字在文本图像中的位置；通过调用第二接口输出识别结果，其中，第二接口包括：第三参数，第三参数的参数值为识别结果；其中，结构检测模型包括：第一分支模型和第二分支模型，第一分支模型用于识别文本图像，得到文字在文本图像中的位置，第二分支模型用于识别文本图像，得到文字的属性，结构检测模型是依次利用第一训练样本和第二训练样本进行训练得到，第二训练样本的数量小于预设数量。

实施例14

本申请的实施例可以提供一种计算机终端，该计算机终端可以是计算机终端群中的任意一个计算机终端设备。可选地，在本实施例中，上述计算机终端也可以替换为移动终端等终端设备。

可选地，在本实施例中，上述计算机终端可以位于计算机网络的多个网络设备中的至少一个网络设备。

在本实施例中，上述计算机终端可以执行图像处理方法中以下步骤的程序代码：获取文本图像；利用结构检测模型对文本图像进行识别，得到文本图像的识别结果，其中，识别结果包括：文本图像包含的文字的属性，以及文字在文本图像中的位置；其中，结构检测模型包括：第一分支模型和第二分支模型，第一分支模型用于识别文本图像，得到文字在文本图像中的位置，第二分支模型用于识别文本图像，得到文字的属性，结构检测模型是依次利用第一训练样本和第二训练样本进行训练得到，第一训练样本包含非结构化的标注数据，第二训练样本包含结构化的标注数据，第二训练样本的数量小于预设数量。

可选地，图17是根据本申请实施例的一种计算机终端的结构框图。如图17所示，该计算机终端10可以包括：一个或多个(图中仅示出一个)处理器1702、以及存储器1704。

其中，存储器可用于存储软件程序以及模块，如本申请实施例中的图像处理方法和装置对应的程序指令/模块，处理器通过运行存储在存储器内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的图像处理方法。存储器可包括高速随机存储器，还可以包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器可进一步包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至终端A。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

处理器可以通过传输装置调用存储器存储的信息及应用程序，以执行下述步骤：获取文本图像；利用结构检测模型对文本图像进行识别，得到文本图像的识别结果，其中，识别结果包括：文本图像包含的文字的属性，以及文字在文本图像中的位置；其中，结构检测模型包括：第一分支模型和第二分支模型，第一分支模型用于识别文本图像，得到文字在文本图像中的位置，第二分支模型用于识别文本图像，得到文字的属性，结构检测模型是依次利用第一训练样本和第二训练样本进行训练得到，第一训练样本包含非结构化的标注数据，第二训练样本包含结构化的标注数据，第二训练样本的数量小于预设数量。

可选地，上述处理器还可以执行如下步骤的程序代码：文本图像输入至特征提取模型，得到文本图像的特征信息；将文本图像的特征信息输入至回归分支模型，确定文字在文本图像中的位置；将文本图像的特征信息输入至分类分支模型，确定文字的属性。

可选地，上述处理器还可以执行如下步骤的程序代码：获取第一训练样本和第二训练样本，其中，第一训练样本包括：多张第一文本图像，以及每张第一文本图像包含的第一文字的标注位置，第二训练样本包括：多张第二文本图像，每张第二文本图像包含的第二文字的标注属性；利用第一训练样本对初始模型进行训练，得到初始结构检测模型；利用第二训练样本对初始结构检测模型进行训练，得到结构检测模型，其中，初始结构检测模型的特征提取模型和回归分支模型的网络参数在训练过程中保持不变。

可选地，上述处理器还可以执行如下步骤的程序代码：获取多张第二文本图像；利用数据增强算法对多张第二文本图像进行处理，生成第二训练样本。

可选地，上述处理器还可以执行如下步骤的程序代码：将每张第一文本图像输入至初始模型的特征提取模型，得到每张第一文本图像的特征信息；将每张第一文本图像的特征信息输入至初始模型的回归分支模型，确定第一文字在每张第一文本图像中的预测位置；将每张第一文本图像的特征信息输入至初始模型的分类分支模型，确定分类结果，其中，分类结果用于表征当前位置是否为文字；基于第一文字的预测位置和标注位置，以及分类结果，对初始模型的特征提取模型、初始模型的回归分支模型和初始模型的分类分支模型的网络参数进行更新，得到初始结构检测模型。

可选地，上述处理器还可以执行如下步骤的程序代码：将每张第二文本图像输入至初始结构检测模型的特征提取模型，得到每张第二文本图像的特征信息；将每张第二文本图像的特征信息输入至初始结构检测模型的分类分支模型，确定第二文字的预测属性；基于第二文字的标注属性和预测属性，对初始结构检测模型的分类分支模型的网络参数进行更新，得到结构检测模型。

可选地，上述处理器还可以执行如下步骤的程序代码：基于文本图像的识别结果，确定识别结果对应的置信度；基于置信度确定识别结果的目标标注方式；按照目标标注方式，在文本图像上标记文本图像的识别结果。

可选地，上述处理器还可以执行如下步骤的程序代码：接收识别结果对应的响应数据，其中，响应数据为对识别结果进行修改得到；基于响应数据对结构检测模型进行更新。

可选地，上述处理器还可以执行如下步骤的程序代码：基于响应数据，生成新的第二训练样本；利用新的第二训练样本对结构检测模型进行训练，得到更新后的结构检测模型。

处理器可以通过传输装置调用存储器存储的信息及应用程序，以执行下述步骤：显示文本图像；在文本图像上标记文本图像的识别结果，其中，识别结果利用结构检测模型对文本图像进行识别得到，识别结果包括：文本图像包含的文字的属性，以及文字在文本图像中的位置；其中，结构检测模型包括：第一分支模型和第二分支模型，第一分支模型用于识别文本图像，得到文字在文本图像中的位置，第二分支模型用于识别文本图像，得到文字的属性，结构检测模型是依次利用第一训练样本和第二训练样本进行训练得到，第一训练样本包含非结构化的标注数据，第二训练样本包含结构化的标注数据，第二训练样本的数量小于预设数量。

处理器可以通过传输装置调用存储器存储的信息及应用程序，以执行下述步骤：获取第一训练样本和第二训练样本，其中，第一训练样本包含非结构化的标注数据，第二训练样本包含结构化的标注数据，第二训练样本的数量小于预设数量；利用第一训练样本对初始模型进行训练，得到初始结构检测模型；利用第二训练样本对初始结构检测模型进行训练，得到结构检测模型，其中，结构检测模型包括：第一分支模型和第二分支模型，第一分支模型用于识别文本图像，得到文字在文本图像中的位置，第二分支模型用于识别文本图像，得到文字的属性。

处理器可以通过传输装置调用存储器存储的信息及应用程序，以执行下述步骤：获取证件图像；利用结构检测模型对证件图像进行识别，得到证件图像的识别结果，其中，识别结果包括：证件图像包含的文字的属性，以及文字在证件图像中的位置；其中，结构检测模型包括：第一分支模型和第二分支模型，第一分支模型用于识别证件图像，得到文字在证件图像中的位置，第二分支模型用于识别证件图像，得到文字的属性，结构检测模型是依次利用第一训练样本和第二训练样本进行训练得到，第二训练样本的数量小于预设数量。

可选地，上述处理器还可以执行如下步骤的程序代码：确定证件图像的目标板式；基于目标板式和识别结果，生成证件图像对应的文本数据。

处理器可以通过传输装置调用存储器存储的信息及应用程序，以执行下述步骤：接收客户端上传的文本图像；利用结构检测模型对文本图像进行识别，得到文本图像的识别结果，其中，识别结果包括：文本图像包含的文字的属性，以及文字在文本图像中的位置；输出识别结果至客户端；其中，结构检测模型包括：第一分支模型和第二分支模型，第一分支模型用于识别文本图像，得到文字在文本图像中的位置，第二分支模型用于识别文本图像，得到文字的属性，结构检测模型是依次利用第一训练样本和第二训练样本进行训练得到，第二训练样本的数量小于预设数量。

处理器可以通过传输装置调用存储器存储的信息及应用程序，以执行下述步骤：通过调用第一接口接收文本图像，其中，第一接口包括：第一参数和第二参数，第一参数的参数值为文本图像，第二参数的参数值为文本图像对应的目标类型；基于目标类型调用结构检测模型，并利用结构检测模型对文本图像进行识别，得到文本图像的识别结果，其中，识别结果包括：文本图像包含的文字的属性，以及文字在文本图像中的位置；通过调用第二接口输出识别结果，其中，第二接口包括：第三参数，第三参数的参数值为识别结果；其中，结构检测模型包括：第一分支模型和第二分支模型，第一分支模型用于识别文本图像，得到文字在文本图像中的位置，第二分支模型用于识别文本图像，得到文字的属性，结构检测模型是依次利用第一训练样本和第二训练样本进行训练得到，第二训练样本的数量小于预设数量。

采用申请实施例，通过大量的包含非结构化的标注数据的第一训练样本先对结构检测模型进行训练，可以保证结构检测模型能够对不同类型的图像进行检测识别，然后再利用少量包含结构化的标注数据的第二训练样本对结构检测模型进行训练，可以对结构检测模型进行微调，提高结构检测模型的精度，实现通过少量的结构化处理即可完成对结构检测模型进行训练的目的，从而在获取到文本图像之后，可以通过结构检测模型对文本图像进行高精度的识别，使得到的文本图像的识别结果更加的准确，达到了减少训练样本的标注成本，提高结构检测模型的识别精度的技术效果，进而解决了关技术中结构检测模型的训练成本较技术问题。

本领域普通技术人员可以理解，图17所示的结构仅为示意，计算机终端也可以是智能手机(如Android手机、iOS手机等)、平板电脑、掌上电脑以及移动互联网设备(MobileInternet Devices，MID)、PAD等终端设备。图17其并不对上述电子装置的结构造成限定。例如，计算机终端A还可包括比图17中所示更多或者更少的组件(如网络接口、显示装置等)，或者具有与图17所示不同的配置。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：闪存盘、只读存储器(Read-Only Memory，ROM)、随机存取器(RandomAccess Memory，RAM)、磁盘或光盘等。

实施例15

根据本申请实施例，还提供了一种图像处理系统，包括：

处理器；以及

存储器，与处理器连接，用于为处理器提供处理以下处理步骤的指令：获取文本图像；利用结构检测模型对文本图像进行识别，得到文本图像的识别结果，其中，识别结果包括：文本图像包含的文字的属性，以及文字在文本图像中的位置；其中，结构检测模型包括：第一分支模型和第二分支模型，第一分支模型用于识别文本图像，得到文字在文本图像中的位置，第二分支模型用于识别文本图像，得到文字的属性，结构检测模型是依次利用第一训练样本和第二训练样本进行训练得到，第一训练样本包含非结构化的标注数据，第二训练样本包含结构化的标注数据，第二训练样本的数量小于预设数量。

上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

在本申请的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的技术内容，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅是本申请的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本申请的保护范围。

Claims

1.一种图像处理方法，其特征在于，包括：

获取文本图像；

利用结构检测模型对所述文本图像进行识别，得到所述文本图像的识别结果，其中，所述识别结果包括：所述文本图像包含的文字的属性，以及所述文字在所述文本图像中的位置；

其中，所述结构检测模型包括：第一分支模型和第二分支模型，所述第一分支模型用于识别所述文本图像，得到所述文字在所述文本图像中的位置，所述第二分支模型用于识别所述文本图像，得到所述文字的属性，所述结构检测模型是依次利用第一训练样本和第二训练样本进行训练得到。

2.根据权利要求1所述的方法，其特征在于，

所述第一分支模型和所述第二分支模型采用相同特征提取模型，所述特征提取模型用于接收输入的图像，并提取所述图像的特征；

所述第一分支模型还包括：回归分支模型，所述回归分支模型的输入层与所述特征提取模型的输出层连接，所述回归分支模型用于对所述特征提取模型输出的所述图像的特征进行处理，得到所述图像包含文字在所述图像中的位置；

所述第二分支模型还包括：分类分支模型，所述分类分支模型的输入层与所述特征提取模型的输出层连接，所述分类分支模型用于对所述特征提取模型输出的所述图像的特征进行处理，得到所述图像包含文字的属性。

3.根据权利要求2所述的方法，其特征在于，利用结构检测模型对所述文本图像进行识别，得到所述文本图像的识别结果包括：

将所述文本图像输入至所述特征提取模型，得到所述文本图像的特征信息；

将所述文本图像的特征信息输入至所述回归分支模型，确定所述文字在所述文本图像中的位置；

将所述文本图像的特征信息输入至所述分类分支模型，确定所述文字的属性。

4.根据权利要求2所述的方法，其特征在于，所述方法还包括：

获取所述第一训练样本和所述第二训练样本，其中，所述第一训练样本包括：多张第一文本图像，以及每张第一文本图像包含的第一文字的标注位置，所述第二训练样本包括：多张第二文本图像，每张第二文本图像包含的第二文字的标注属性，所述第二训练样本的数量小于预设数量；

利用所述第一训练样本对初始模型进行训练，得到初始结构检测模型；

利用所述第二训练样本对所述初始结构检测模型进行训练，得到所述结构检测模型，其中，所述初始结构检测模型的特征提取模型和回归分支模型的网络参数在训练过程中保持不变。

5.根据权利要求4所述的方法，其特征在于，获取所述第二训练样本包括：

获取所述多张第二文本图像；

利用数据增强算法对所述多张第二文本图像进行处理，生成所述第二训练样本。

6.根据权利要求4所述的方法，其特征在于，利用所述第二训练样本对所述初始结构检测模型进行训练包括：

将所述每张第二文本图像输入至所述初始结构检测模型的特征提取模型，得到所述每张第二文本图像的特征信息；

将所述每张第二文本图像的特征信息输入至所述初始结构检测模型的分类分支模型，确定所述第二文字的预测属性；

基于所述第二文字的标注属性和预测属性，对所述初始结构检测模型的分类分支模型的网络参数进行更新。

7.一种图像处理方法，其特征在于，包括：

显示文本图像；

在所述文本图像上标记所述文本图像的识别结果，其中，所述识别结果利用结构检测模型对所述文本图像进行识别得到，所述识别结果包括：所述文本图像包含的文字的属性，以及所述文字在所述文本图像中的位置；

8.根据权利要求7所述的方法，其特征在于，在所述文本图像上标记所述文本图像的识别结果包括：

基于所述文本图像的识别结果，确定所述识别结果对应的置信度；

基于所述置信度确定所述识别结果的目标标注方式；

按照所述目标标注方式，在所述文本图像上标记所述识别结果。

9.根据权利要求7所述的方法，其特征在于，在所述文本图像上标记所述文本图像的识别结果之后，所述方法还包括：

接收所述识别结果对应的响应数据，其中，所述响应数据为对所述识别结果进行修改得到；

基于所述响应数据对所述结构检测模型进行更新。

10.根据权利要求9所述的方法，其特征在于，基于所述响应数据对所述结构检测模型进行更新包括：

基于所述响应数据，生成新的第二训练样本；

利用所述新的第二训练样本对所述结构检测模型进行训练，得到更新后的结构检测模型。

11.一种图像处理方法，其特征在于，包括：

获取第一训练样本和第二训练样本；

利用所述第二训练样本对所述初始结构检测模型进行训练，得到结构检测模型，其中，所述结构检测模型包括：第一分支模型和第二分支模型，所述第一分支模型用于识别文本图像，得到所述文本图像包含的文字在所述文本图像中的位置，所述第二分支模型用于识别所述文本图像，得到所述文字的属性。

12.根据权利要求11所述的方法，其特征在于，所述第一训练样本包括：多张第一文本图像，以及每张第一文本图像包含的第一文字的标注位置，所述第二训练样本包括：多张第二文本图像，每张第二文本图像包含的第二文字的标注属性，所述第二训练样本的数量小于预设数量。

13.根据权利要求12所述的方法，其特征在于，获取所述第二训练样本包括：

获取所述多张第二文本图像；

14.一种图像处理方法，其特征在于，包括：

获取证件图像；

利用结构检测模型对所述证件图像进行识别，得到所述证件图像的识别结果，其中，所述识别结果包括：所述证件图像包含的文字的属性，以及所述文字在所述证件图像中的位置；

其中，所述结构检测模型包括：第一分支模型和第二分支模型，所述第一分支模型用于识别所述证件图像，得到所述文字在所述证件图像中的位置，所述第二分支模型用于识别所述证件图像，得到所述文字的属性，所述结构检测模型是依次利用第一训练样本和第二训练样本进行训练得到。

15.根据权利要求14所述的方法，其特征在于，在利用结构检测模型对所述证件图像进行识别，得到所述证件图像的识别结果之后，所述方法还包括：

确定所述证件图像的目标板式；

基于所述目标板式和所述识别结果，生成所述证件图像对应的文本数据。

16.根据权利要求14所述的方法，其特征在于，

17.根据权利要求16所述的方法，其特征在于，所述方法还包括：

获取所述第一训练样本和所述第二训练样本，其中，所述第一训练样本包括：多张第一证件图像，以及每张第一证件图像包含的第一文字的标注位置，所述第二训练样本包括：多张第二证件图像，每张第二证件图像包含的第二文字的标注属性，所述第二训练样本的数量小于预设数量；

利用所述第二训练样本对所述初始结构检测模型进行训练，得到所述结构检测模型，其中，所述初始结构检测模型中的特征提取模型和回归分支模型的网络参数在训练过程中保持不变。

18.根据权利要求17所述的方法，其特征在于，获取所述第二训练样本包括：

获取所述多张第二证件图像；

利用数据增强算法对所述多张第二证件图像进行处理，生成所述第二训练样本。

19.一种图像处理方法，其特征在于，包括：

接收客户端上传的文本图像；

输出所述识别结果至所述客户端；

20.一种图像处理方法，其特征在于，包括：

通过调用第一接口接收文本图像，其中，所述第一接口包括：第一参数和第二参数，所述第一参数的参数值为所述文本图像，所述第二参数的参数值为所述文本图像对应的目标类型；

基于所述目标类型调用结构检测模型，并利用所述结构检测模型对所述文本图像进行识别，得到所述文本图像的识别结果，其中，所述识别结果包括：所述文本图像包含的文字的属性，以及所述文字在所述文本图像中的位置；

通过调用第二接口输出所述识别结果，其中，所述第二接口包括：第三参数，所述第三参数的参数值为所述识别结果；

21.一种图像处理装置，其特征在于，包括：

获取模块，用于获取文本图像；

识别模块，用于利用结构检测模型对所述文本图像进行识别，得到所述文本图像的识别结果，其中，所述识别结果包括：所述文本图像包含的文字的属性，以及所述文字在所述文本图像中的位置；

22.一种图像处理装置，其特征在于，包括：

显示模块，用于显示文本图像；

标记模块，用于在所述文本图像上标记所述文本图像的识别结果，其中，所述识别结果利用结构检测模型对所述文本图像进行识别得到，所述识别结果包括：所述文本图像包含的文字的属性，以及所述文字在所述文本图像中的位置；

23.一种图像处理装置，其特征在于，包括：

获取模块，用于获取证件图像；

识别模块，用于利用结构检测模型对所述证件图像进行识别，得到所述证件图像的识别结果，其中，所述识别结果包括：所述证件图像包含的文字的属性，以及所述文字在所述证件图像中的位置；

24.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质包括存储的程序，其中，在所述程序运行时控制所述计算机可读存储介质所在设备执行权利要求1至20中任意一项所述的图像处理方法。

25.一种计算机终端，其特征在于，包括：存储器和处理器，所述处理器用于运行所述存储器中存储的程序，其中，所述程序运行时执行权利要求1至20中任意一项所述的图像处理方法。

26.一种图像处理系统，其特征在于，包括：

处理器；以及

存储器，与所述处理器连接，用于为所述处理器提供处理以下处理步骤的指令：获取文本图像；利用结构检测模型对所述文本图像进行识别，得到所述文本图像的识别结果，其中，所述识别结果包括：所述文本图像包含的文字的属性，以及所述文字在所述文本图像中的位置；其中，所述结构检测模型包括：第一分支模型和第二分支模型，所述第一分支模型用于识别所述文本图像，得到所述文字在所述文本图像中的位置，所述第二分支模型用于识别所述文本图像，得到所述文字的属性，所述结构检测模型是依次利用第一训练样本和第二训练样本进行训练得到。