CN112949649B

CN112949649B - 一种文本图像的识别方法、装置及计算设备

Info

Publication number: CN112949649B
Application number: CN202110515979.6A
Authority: CN
Inventors: 秦勇
Original assignee: Beijing Century TAL Education Technology Co Ltd
Current assignee: Beijing Century TAL Education Technology Co Ltd
Priority date: 2021-05-12
Filing date: 2021-05-12
Publication date: 2021-09-03
Anticipated expiration: 2041-05-12
Also published as: CN112949649A

Abstract

本发明实施例提供了一种文本图像的识别方法、装置、可读存储介质及计算设备，通过使用VAE模型改进数据及训练过程，然后将CenterNet和CRNN的结合起来，能够快速准确地解决文本图像划痕的检测和识别问题，方法包括：获取所述文本图像的第一特征；根据所述文本图像的第一特征，识别所述文本图像中的文本框；根据所述文本框的坐标信息，从所述文本图像的第一特征中截取与所述文本框对应的第二特征；获取所述文本图像的划痕的第三特征；将所述第二特征减去所述第三特征，得到与所述文本框对应的第四特征；根据所述第四特征，识别所述文本框的内容。

Description

一种文本图像的识别方法、装置及计算设备

技术领域

本发明涉及文本图像处理领域，尤其涉及一种文本图像的识别方法、装置、可读存储介质及计算设备。

背景技术

文本检测应用范围广泛，是很多计算机视觉任务的前置步骤，比如图像搜索、文字识别，身份认证和视觉导航等。文本检测的主要目的是定位文本行或字符在图像中的位置，文本的精准定位既十分重要又具备挑战，因为相较于通用目标检测来说，文字具有多方向、不规则形状、极端长宽比、字体、颜色、背景多样等特点，因此，往往在通用目标检测上较为成功的算法无法直接迁移到文字检测中，但近年来随着深度学习的再次兴起，对文本检测的研究也成为了一大热点，出现了大量专用于文本检测的方法，且都取得了不错的检测效果。根据文本检测所用方法的技术特点，目前比较流行的文本检测方法可大致分为两类，第一类是基于滑动窗口的文本检测方法，它主要是基于通用目标检测的思想，设置大量不同长宽比、不同大小的锚点框，以这些锚点框为滑动窗口，在图像上或者在从图像上进行过卷积操作得到的特征映射图上进行遍历搜索，对于每个搜索到的位置框，进行框内是否是文本的分类判定，这种方法的优点是文本框判定之后，不需要其余的后续处理便可进行后续文本识别工作，缺点是计算量过大，不仅需要耗费大量计算资源，而且耗时较长；第二类是基于计算连通域的方法，也称基于分割思想的方法，它主要是先使用全卷积神经网络模型提取图像特征，然后对特征图进行二值化并计算其连通域，然后根据不同地应用场景（即不同地训练数据集），使用一些特定的方法，判断文本行位置，这种方法的优点是计算快速，计算量小，缺点是后处理步骤繁琐，涉及大量的计算和调优，这不仅会消耗大量时间，同时，后处理策略是否合理有效也严格制约着算法的性能。

自然场景文字识别是带文字的图片中识别出字符序列的过程（对于中文，一个字符便是一个汉字，对于英文，一个字符便是一个字母）。它是一项具有极大挑战性的课题，除了图片背景复杂，光照变化等因素外，识别输出空间的复杂性也是一大困难，由于文字由数量不固定的字母组成，因此，自然场景文字识别需要从图片中识别长度不固定的序列。目前有两种解决思路，一种是基于自底向上的策略，将识别问题拆分为字符检测、字符识别和字符组合，逐个解决。另一种是基于整体分析的策略，直接对整词整句进行分类的识别方法。

目前在针对小学数学的拍照判题等智能应用中，由于作答者的书写和思维习惯等问题，经常出现作答之后又划掉然后重新作答的情况，被划掉的部分称为划痕问题，被划掉的作答有时是需要的，有时是不需要的，但是准确掌握划痕作答内容，不仅有助于提升判题结果，更有助于掌握作答者的作答习惯和思维方式，为更好的产品迭代和为作答者提供更好的帮助奠定基础，但是目前常规的检测和识别模型，尤其识别模型对于划痕问题均不能较好的解决。

发明内容

为此，本发明提供了一种文本图像的识别方法、装置、可读存储介质及计算设备，以力图解决或者至少缓解上面存在的至少一个问题。

根据本发明实施例的一个方面，提供了一种文本图像的识别方法，包括：

获取所述文本图像的第一特征；

根据所述文本图像的第一特征，识别所述文本图像中的文本框；

根据所述文本框的坐标信息，从所述文本图像的第一特征中截取与所述文本框对应的第二特征；

获取所述文本图像的划痕的第三特征；

将所述第二特征减去所述第三特征，得到与所述文本框对应的第四特征；

根据所述第四特征，识别所述文本框的内容。

可选地，方法还包括：

将所述文本图像输入已训练的第一网络模型；

其中，所述第一网络模型用于获取所述文本图像的第一特征，根据所述文本图像的第一特征，识别所述文本图像中的文本框，根据所述文本框的坐标信息，从所述文本图像的第一特征中截取与所述文本框对应的第二特征，将所述第二特征减去所述第三特征，得到与所述文本框对应的第四特征，根据所述第四特征，识别所述文本框的内容。

可选地，训练所述第一网络模型，包括：

根据纯文本图像和/或带划痕的图像对所述第一网络模型进行第一次训练；所述第一网络模型在第一次训练时，用于获取所述纯文本图像和/或带划痕的图像的第一特征，根据所述纯文本图像和/或带划痕的图像的第一特征，识别所述纯文本图像和/或带划痕的图像中的文本框，根据所述文本框的坐标信息，从所述纯文本图像和/或带划痕的图像的第一特征中截取与所述文本框对应的第二特征，根据所述第二特征，识别所述文本框的内容；

根据带划痕的图像对所述第一网络模型进行第二次训练；所述第一网络模型在第二次训练时，用于获取所述带划痕的图像的第一特征，根据所述带划痕的图像的第一特征，识别所述带划痕的图像中的文本框，根据所述文本框的坐标信息，从所述带划痕的图像的第一特征中截取与所述文本框对应的第二特征，将所述第二特征减去所述第三特征，得到与所述文本框对应的第四特征，根据所述第四特征，识别所述文本框的内容。

可选地，根据所述第二特征或所述第四特征，识别所述文本框的内容，包括：

根据CRNN网络，将所述第二特征或所述第四特征作卷积、池化、构建时序、解码处理，得到所述文本框的内容。

可选地，获取所述文本图像的第一特征，包括：

通过特征提取网络，获取所述文本图像的第一特征；

其中，所述特征提取网络包括：VGG16、或VGG19、或VGG13、或resnet18、或resnet34、或resnet52。

可选地，根据所述文本图像的第一特征，识别所述文本图像中的文本框，包括：

根据CenterNet网络，将所述文本图像的第一特征作卷积、两次反卷积处理，得到一组用于描述所述文本图像中的文本框的多通道输出。

可选地，所述多通道输出包括6个通道输出，其中，第1个通道表示文本框中心点得分图；第2个通道和第3个通道分别表示文本框中心点的x、y方向偏移量；第4个通道和第5个通道分别表示预测的文本框的宽、高；第6个通道表示文本框的旋转角度。

可选地，获取所述文本图像的划痕的第三特征，包括：

将所述文本图像输入已训练的第一编码器，得到所述文本图像的划痕的第三特征；

训练所述第一编码器，包括：

获取一组纯文本图像，以及，获取一组纯划痕图像；

根据所述纯划痕图像，训练第一编码器；

根据所述纯文本图像，训练第二编码器；

构建包括所述第一编码器、所述第二编码器和解码器的第二网络模型；

以所述纯划痕图像作为所述第一编码器的输入，以所述纯文本图像作为所述第二编码器的输入，以带划痕的图像作为输出训练所述第二网络模型；

从训练后的所述第二网络模型中提取所述第一编码器。

可选地，以所述纯划痕图像作为所述第一编码器的输入，以所述纯文本图像作为所述第二编码器的输入，以带划痕的图像作为输出训练所述第二网络模型，包括：

固定所述第一编码器和所述第二编码器的参数，以所述纯划痕图像作为所述第一编码器的输入，以所述纯文本图像作为所述第二编码器的输入，以带划痕的图像作为输出第一次训练所述第二网络模型；

不固定所述第一编码器和所述第二编码器的参数，以所述纯划痕图像作为所述第一编码器的输入，以所述纯文本图像作为所述第二编码器的输入，以带划痕的图像作为输出第二次训练所述第二网络模型。

可选地，所述第一编码器、所述第二编码器为VAE模型编码器，以及，所述第二网络模型为VAE模型。

根据本发明实施例的又一方面，提供了一种文本图像的识别装置，包括：

数据获取单元，用于获取所述文本图像；

数据处理单元，用于获取所述文本图像的第一特征；根据所述文本图像的第一特征，识别所述文本图像中的文本框；根据所述文本框的坐标信息，从所述文本图像的第一特征中截取与所述文本框对应的第二特征；获取所述文本图像的划痕的第三特征；将所述第二特征减去所述第三特征，得到与所述文本框对应的第四特征；根据所述第四特征，识别所述文本框的内容。

可选地，其特征在于，所述数据处理单元具体用于：

将所述文本图像输入已训练的第一网络模型；所述第一网络模型用于获取所述文本图像的第一特征，根据所述文本图像的第一特征，识别所述文本图像中的文本框，根据所述文本框的坐标信息，从所述文本图像的第一特征中截取与所述文本框对应的第二特征，将所述第二特征减去所述第三特征，得到与所述文本框对应的第四特征，根据所述第四特征，识别所述文本框的内容。

可选地，所述数据处理单元用于训练所述第一网络模型时，具体用于：

可选地，所述数据处理单元用于获取所述文本图像的划痕的第三特征时，具体用于：

所述数据处理单元用于训练所述第一编码器时，具体用于：

获取一组纯文本图像，以及，获取一组纯划痕图像；

根据所述纯划痕图像，训练第一编码器；

根据所述纯文本图像，训练第二编码器；

从训练后的所述第二网络模型中提取所述第一编码器。

可选地，所述数据处理单元用于以所述纯文本图像作为所述第二编码器的输入，以所述纯划痕图像作为所述第一编码器的输入，以带划痕的图像作为输出训练所述第二网络模型时，具体用于：

固定所述第一编码器和所述第二编码器的参数，以所述纯文本图像作为所述第二编码器的输入，以所述纯划痕图像作为所述第一编码器的输入，以带划痕的图像作为输出第一次训练所述第二网络模型；

不固定所述第一编码器和所述第二编码器的参数，以所述纯文本图像作为所述第二编码器的输入，以所述纯划痕图像作为所述第一编码器的输入，以带划痕的图像作为输出第二次训练所述第二网络模型。

根据本发明实施例的又一方面，提供了一种可读存储介质，其上具有可执行指令，当可执行指令被执行时，使得计算机执行上述的文本图像的识别方法。

根据本发明实施例的又一方面，提供了一种计算设备，包括：一个或多个处理器、存储器，以及一个或多个程序，其中，所述一个或多个程序存储在所述存储器中并被配置为由所述一个或多个处理器执行上述的文本图像的识别方法。

本发明实施例的技术方案，获取所述文本图像的第一特征，根据所述文本图像的第一特征，识别所述文本图像中的文本框，根据所述文本框的坐标信息，从所述文本图像的第一特征中截取与所述文本框对应的第二特征，获取所述文本图像的划痕的第三特征，将所述第二特征减去所述第三特征，得到与所述文本框对应的第四特征，根据所述第四特征，识别所述文本框的内容；解决了文本图像的划痕识别问题，在教学判题场景具有积极的作用。

附图说明

附图示出了本发明的示例性实施方式，并与其说明一起用于解释本发明的原理，其中包括了这些附图以提供对本发明的进一步理解，并且附图包括在本说明书中并构成本说明书的一部分。

图1是示例性的计算设备的结构框图；

图2是根据本发明一实施例的文本图像的识别方法的流程示意图；

图3是根据本发明又一实施例的文本图像的识别方法的流程示意图；

图4是根据本发明一实施例的第一编码器的训练方法的流程示意图；

图5是根据本发明又一实施例的文本图像的识别方法的流程示意图；

图6是根据本发明一实施例的文本图像的识别装置的结构示意图。

具体实施方式

下面将参照附图更详细地描述本发明的示例性实施例。虽然附图中显示了本发明的示例性实施例，然而应当理解，可以以各种形式实现本发明而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本发明，并且能够将本发明的范围完整的传达给本领域的技术人员。

图1是布置为实现根据本发明的一种文本图像的识别方法的示例计算设备100的框图。在基本的配置102中，计算设备100典型地包括系统存储器106和一个或者多个处理器104。存储器总线108可以用于在处理器104和系统存储器106之间的通信。

取决于期望的配置，处理器104可以是任何类型的处理，包括但不限于：微处理器（µP）、微控制器（µC）、数字信息处理器（DSP）或者它们的任何组合。处理器104可以包括诸如一级高速缓存110和二级高速缓存112之类的一个或者多个级别的高速缓存、处理器核心114和寄存器116。示例的处理器核心114可以包括运算逻辑单元（ALU）、浮点数单元（FPU）、数字信号处理核心（DSP核心）或者它们的任何组合。示例的存储器控制器118可以与处理器104一起使用，或者在一些实现中，存储器控制器118可以是处理器104的一个内部部分。

取决于期望的配置，系统存储器106可以是任意类型的存储器，包括但不限于：易失性存储器（诸如RAM）、非易失性存储器（诸如ROM、闪存等）或者它们的任何组合。系统存储器106可以包括操作系统120、一个或者多个程序122以及程序数据124。在一些实施方式中，程序122可以被配置为在操作系统上由一个或者多个处理器104利用程序数据124执行指令。

计算设备100还可以包括有助于从各种接口设备（例如，输出设备142、外围接口144和通信设备146）到基本配置102经由总线/接口控制器130的通信的接口总线140。示例的输出设备142包括图形处理单元148和音频处理单元150。它们可以被配置为有助于经由一个或者多个A/V端口152与诸如显示终端或者扬声器之类的各种外部设备进行通信。示例外围接口144可以包括串行接口控制器154和并行接口控制器156，它们可以被配置为有助于经由一个或者多个I/O端口158和诸如输入设备（例如，键盘、鼠标、笔、语音输入设备、触摸输入设备）或者其他外设（例如打印机、扫描仪等）之类的外部设备进行通信。示例的通信设备146可以包括网络控制器160，其可以被布置为便于经由一个或者多个通信端口164与一个或者多个其他计算设备162通过网络通信链路的通信。

网络通信链路可以是通信介质的一个示例。通信介质通常可以体现为在诸如载波或者其他传输机制之类的调制数据信号中的计算机可读指令、数据结构、程序模块，并且可以包括任何信息递送介质。“调制数据信号”可以是这样的信号，它的数据集中的一个或者多个或者它的改变可以在信号中编码信息的方式进行。作为非限制性的示例，通信介质可以包括诸如有线网络或者专线网络之类的有线介质，以及诸如声音、射频（RF）、微波、红外（IR）或者其它无线介质在内的各种无线介质。这里使用的术语计算机可读介质可以包括存储介质和通信介质二者。

计算设备100可以实现为各类形态的个人计算机和服务器设备，若干计算设备100可组成集群对外提供云服务。

其中，计算设备100的一个或多个程序122包括用于执行根据本发明的一种文本图像的识别方法的指令。

图2示例性示出根据本发明的一种文本图像的识别方法的流程图，方法始于步骤S210。

首先，在步骤S210中，获取文本图像的第一特征。

具体地，通过特征提取网络，获取文本图像的第一特征。特征提取网络包括：VGG16、或VGG19、或VGG13、或resnet18、或resnet34、或resnet52等特征提取网络。

随后，在步骤S220中，根据文本图像的第一特征，识别文本图像中的文本框。

具体地，采用基于滑动窗口的文本检测方法，识别文本图像中的文本框。优选地，根据CenterNet网络，将文本图像的第一特征作卷积、两次反卷积处理，得到一组用于描述文本图像中的文本框的多通道输出。

CenterNet的基本原理是：首先设定要预测的物体的总体的类别N，最后输出通道数量为N+2+2，它只预测物体的中心点，会为每种类别输出一张得分图（其每个像素点的值在0到1之间，表示这个点是某类物体中心的概率），因此会有N张得分图，因为在预测的过程中，并不能保证预测到的中心点就是真实的中心点，实际中往往会发生偏移，因此还会用两个通道来预测中心点的偏移量（一个是x轴偏移量，一个是y轴偏移量），除此之外，剩下的两个通道用来预测中心点距离矩形框（矩形框）左边框和上边框的距离；实际的处理为：通过设定阈值在得分图找到物体的可能中心点，然后根据中心点对应的xy偏移量对中心点进行校正，然后通过中心点并结合预测到的宽高直接得到矩形框。

在本发明实施例中，提出了一种CenterNet的改进网络结构，新增了矩形框的旋转角度信息。CenterNet的包括6个通道输出，其中，第1个通道表示矩形框中心点得分图；第2个通道和第3个通道分别表示矩形框中心点的x、y方向偏移量；第4个通道和第5个通道分别表示预测的矩形框的宽、高；第6个通道表示矩形框的旋转角度。

随后，在步骤S230中，根据文本框的坐标信息，从文本图像的第一特征中截取与文本框对应的第二特征。

由于文本识别的对象是包含文本的矩形框即文本框的内容，而文本图像的第一特征包含了文本图像的全部信息，因此，需要对文本图像的第一特征作进一步地处理，提取文本框包含的特征即第二特征；具体地，根据文本框的坐标位置和范围，在文本图像的第一特征中截取等比例的第一特征，从而得到与文本框对应的第二特征。

随后，在步骤S240中，获取文本图像的划痕的第三特征。

具体地，通过对网络模型进行划痕的编码、解码操作的训练，从而得到能够提取划痕特征的编码器，该编码器即可用于获取文本图像的划痕的第三特征。

此外，也可以通过特征提取网络，提取文本图像的划痕的第三特征。

随后，在步骤S250中，将第二特征减去第三特征，得到与文本框对应的第四特征。

其中，当第二特征和第三特征的维度不同时，相应地，可通过插值方式处理后再将第二特征和第三特征相减。

随后，在步骤S260中，根据第四特征，识别所述文本框的内容。

通常地，根据第二特征，即可识别出文本框的内容；而在本发明实施例中，先将第二特征减去第三特征，得到第四特征，然后基于第四特征识别出文本框的内容，从而获取到去除划痕后的文本框的内容。

具体地，根据CRNN网络，将第二特征或第四特征作卷积、池化、构建时序、解码处理，得到文本框的内容。其中，CRNN从下至上，由卷积神经网络、循环神经网络和翻译层三部分组成，卷积神经网络负责从带文字的图片中提取特征，循环神经网络负责用卷积神经网络提取的特征进行序列预测，翻译层将循环神经网络得到的序列翻译为字母序列，目标函数选择“联结时序分类”（CTC）损失函数；CRNN的一大优点是尽管包含不同类型的网络结构，但是仍然能够被用于端到端的训练，并且具备优越的性能。

为了实现步骤S210~S260，如图3所示，在本发明的又一实施例中，提供了由第一网络模型和第二网络模型组成的神经网络，并基于该神经网络提出了一种文本图像的识别方法，方法的流程始于步骤S310。

首先，在步骤S310中，将文本图像输入已训练的第一编码器，获取第一编码器输出的第三特征；第一编码器是第二网络模型的组成部分。

参见图4，训练第一编码器的过程包括：

S410、获取一组纯文本图像，以及，获取一组纯划痕图像；

S420、根据纯划痕图像，训练第一编码器；

S430、根据纯文本图像，训练第二编码器；

S440、构建包括第一编码器、第二编码器和解码器的第二网络模型；

S450、以纯划痕图像作为第一编码器的输入，以纯文本图像作为第二编码器的输入，以带划痕的图像作为输出训练第二网络模型；

S460、从训练后的第二网络模型中提取第一编码器。

优选地，第一编码器和第二编码器为VAE模型编码器；第二网络模型为VAE模型。VAE（变分自编码器）是一种重要的生成式模型，它由编码器和解码器两部分组成，通常以对数似然的下确界作为优化目标，因此VAE模型的损失函数一般由重构损失和交叉熵损失两部分组成；VAE将输入通过编码器进行编码，然后将编码输入解码器，用于还原输入，在多数情况下，还原出的图片与原图片极为相近，相比于其他的生成式模型，VAE模型的训练更稳定，而且速度更快。

具体地，步骤S450包括：

固定第一编码器和所述第二编码器的参数，以纯文本图像作为所述第二编码器的输入，以纯划痕图像作为第一编码器的输入，以带划痕的图像作为输出第一次训练第二网络模型；

不固定第一编码器和第二编码器的参数，以纯文本图像作为第二编码器的输入，以纯划痕图像作为第一编码器的输入，以带划痕的图像作为输出第二次训练第二网络模型。

此外，在另一种实施方式中，也可以直接按照第二次训练第二网络模型的过程对第二网络模型进行训练。

通过上述训练过程，使得第一编码器具备了提取带划痕图像中的划痕特征的功能。

随后，在步骤S320中，将文本图像输入已训练的第一网络模型；其中，第一网络模型用于获取文本图像的第一特征，根据文本图像的第一特征，识别文本图像中的文本框，根据文本框的坐标信息，从文本图像的第一特征中截取与文本框对应的第二特征，将第二特征减去第三特征，得到与文本框对应的第四特征，根据第四特征，识别文本框的内容。

优选地，第一网络模型可以是基于CRNN网络和CenterNet网络组成的模型，CRNN网络和CenterNet网络采用同一特征提取网络，其中，CenterNet网络用于输出文本框识别结果，CRNN则用于输出文本识别结果。

第一模型网络的训练包括两个过程，具体包括：根据纯文本图像和/或带划痕的图像对第一网络模型进行第一次训练；第一网络模型在第一次训练时，用于获取纯文本图像和/或带划痕的图像的第一特征，根据纯文本图像和/或带划痕的图像的第一特征，识别纯文本图像和/或带划痕的图像中的文本框，根据文本框的坐标信息，从纯文本图像和/或带划痕的图像的第一特征中截取与文本框对应的第二特征，根据第二特征，识别文本框的内容；

根据带划痕的图像对第一网络模型进行第二次训练；第一网络模型在第二次训练时，用于获取带划痕的图像的第一特征，根据带划痕的图像的第一特征，识别带划痕的图像中的文本框，根据文本框的坐标信息，从带划痕的图像的第一特征中截取与文本框对应的第二特征，将第二特征减去第三特征，得到与文本框对应的第四特征，根据第四特征，识别文本框的内容。

显然，在第一次训练的过程中，单独对第一网络模型进行训练。而在第二次训练的过程中，引入了第一编码器输出的第三特征，即需要将同一文本图像分别输入第一编码器和第一网络模型，并在第一网络模型输出第二特征后，识别文本框内容之前，插入一个操作步骤——将第二特征减去第三特征，从而在训练收敛之后，实现了第一网络模型对划痕下的文字的识别。

此外，在另一种实施方式中，也可以直接对第一网络模型按照第二次训练的过程进行训练。

参见图5，本发明实施例提供了一种文本图像的识别方法，包括：

S510、收集大量的待检测和识别的文本图像，它们是正常较好的图像，不包括划痕；接着人工在白纸上制造大量划痕，得到大量只有划痕的图像，然后收集大量正常的带划痕的文本图像。

S520、构建两个VAE模型，分别称为V1和V2，它们均使用类似于U-Net网络的跨层叠加连接结构，由8个卷积层和8个反卷积层组成，其中反卷积层是将卷积层的结果跳跃连接叠加以后持续进行反卷积操作，它们的主要作用是对输入图像进行编码。

S530、构建第三个VAE模型，称为VX模型，它由两个编码器和一个解码器组成，编码器与V1和V2的编码器一样，由8个卷积层组成，解码器由8个反卷积层组成。

S540、然后根据CenterNet和CRNN，构建一个端到端的检测识别模型，使用Resnet18作为backbone（骨干网络），Resnet18网络由4个block块串联构建，每个block块包括若干层卷积操作，第一个block块输出的特征映射大小为原图的1/4,第二个为原图1/8，第三个为原图1/16,第四个为原图1/32,每个block块输出的特征映射数量都为128，将4组特征映射全部通过插值的方式将其大小变为原图1/4大小并串联，得到一组特征映射，其通道数量为512，接着对上述512通道的特征映射做一次卷积操作，两次反卷积操作，得到与输入图像大小一致的6（1+2+2+1）通道输出，第一个通道表示矩形框中心点得分图（即每个像素点值在0到1之间，表示这个点是矩形框中心点的概率），第二和第三个通道中心点的xy偏移量，第四和第五个通道表示预测的矩形框的宽和高，第六个通道表示表示这个矩形框的旋转角度（加上旋转角度以适应多方向文本行），在上述512通道特征映射之后接一个卷积层和一个金字塔池化层，之后再接两层双向LSTM（长短期记忆网络），用于构建字符之间的时序关系，最后是转录层使用解码算法，从概率矩阵中得出字符串。

S550、以人工在白纸上制造的划痕作为输入，使用L1损失函数对V1进行训练，训练结束后，得到一个能对划痕进行编码的编码器。

S560、以正常文本图像作为输入，使用L1损失函数对V2进行训练，训练结束后，得到一个能对正常图像进行编码的编码器。

S570、对VX模型进行训练，训练分两个阶段，第一阶段，固定其两个编码器，其参数分别为V1和V2编码器的参数，然后以划痕图像和正常图像作为输入，得到带划痕图像，使用L1损失函数进行训练，等到模型基本收敛之后，进入第二阶段的训练，不固定编码器的参数，对编码器参数进行微调，等到训练结束，保留VX模型的对划痕进行编码的编码器，称为VXH。

S580、训练上述构建的端到端检测识别模型，使用Ceternet和CRNN使用的损失函数，不做修改，不同的，训练分两个阶段，第一个阶段，使用正常的和带划痕的图像一起训练，首先得到检测结果，然后根据检测框的坐标在512通道的特征图上截取等比例的特征映射，然后对截取到的特征映射经过卷积和金字塔池化变化，得到双向LSTM的输入，然后得到识别结果；在损失函数趋于收敛之后，进入第二个阶段训练，首先将带划痕图像分别输入端到端检测识别模型和VXH，然后根据矩形框的坐标截取到等比例的特征映射之后，用特征映射减去VXH得到的编码，然后继续后续操作，持续训练模型，直到模型收敛。

S590、预测阶段，将图像分别输入端到端检测识别模型和VXH，然后根据检测框的坐标截取到等比例的特征映射之后，用特征映射减去VXH得到的编码，后续操作与S580一致，最终得到识别结果。

参见图6，本发明实施例提供了一种文本图像的识别装置，包括：

数据获取单元610，用于获取文本图像；

数据处理单元620，用于获取文本图像的第一特征；根据文本图像的第一特征，识别文本图像中的文本框；根据文本框的坐标信息，从文本图像的第一特征中截取与文本框对应的第二特征；获取文本图像的划痕的第三特征；将第二特征减去第三特征，得到与文本框对应的第四特征；根据第四特征，识别文本框的内容。

可选地，数据处理单元620具体用于：

将文本图像输入已训练的第一网络模型；第一网络模型用于获取文本图像的第一特征，根据文本图像的第一特征，识别文本图像中的文本框，根据文本框的坐标信息，从文本图像的第一特征中截取与文本框对应的第二特征，将第二特征减去第三特征，得到与文本框对应的第四特征，根据第四特征，识别文本框的内容。

可选地，数据处理单元620用于训练第一网络模型时，具体用于：

可选地，数据处理单元620用于获取文本图像的划痕的第三特征时，具体用于：

将文本图像输入已训练的第一编码器，得到文本图像的划痕的第三特征；

所述数据处理单元用于训练第一编码器时，具体用于：

获取一组纯文本图像，以及，获取一组纯划痕图像；

根据纯划痕图像，训练第一编码器；

根据纯文本图像，训练第二编码器；

构建包括第一编码器、第二编码器和解码器的第二网络模型；

以纯划痕图像作为第一编码器的输入，以纯文本图像作为第二编码器的输入，以带划痕的图像作为输出训练第二网络模型；

从训练后的第二网络模型中提取第一编码器。

可选地，数据处理单元620用于以纯文本图像作为第二编码器的输入，以纯划痕图像作为第一编码器的输入，以带划痕的图像作为输出训练第二网络模型时，具体用于：

固定第一编码器和第二编码器的参数，以纯文本图像作为第二编码器的输入，以纯划痕图像作为第一编码器的输入，以带划痕的图像作为输出第一次训练第二网络模型；

综上所述，本发明实施例通过使用VAE模型改进数据及训练过程，然后将CenterNet和CRNN的结合起来，提出一种端到端的检测识别方法，能够快速准确地解决文本图像划痕的检测和识别问题。

应当理解，这里描述的各种技术可结合硬件或软件，或者它们的组合一起实现。从而，本发明的方法和设备，或者本发明的方法和设备的某些方面或部分可采取嵌入有形媒介，例如软盘、CD-ROM、硬盘驱动器或者其它任意机器可读的存储介质中的程序代码(即指令)的形式，其中当程序被载入诸如计算机之类的机器，并被该机器执行时，该机器变成实践本发明的设备。

在程序代码在可编程计算机上执行的情况下，计算设备一般包括处理器、处理器可读的存储介质(包括易失性和非易失性存储器和/或存储元件)，至少一个输入装置，和至少一个输出装置。其中，存储器被配置用于存储程序代码；处理器被配置用于根据该存储器中存储的该程序代码中的指令，执行本发明的各种方法。

以示例而非限制的方式，计算机可读介质包括计算机存储介质和通信介质。计算机可读介质包括计算机存储介质和通信介质。计算机存储介质存储诸如计算机可读指令、数据结构、程序模块或其它数据等信息。通信介质一般以诸如载波或其它传输机制等已调制数据信号来体现计算机可读指令、数据结构、程序模块或其它数据，并且包括任何信息传递介质。以上的任一种的组合也包括在计算机可读介质的范围之内。

应当理解，为了精简本发明并帮助理解各个发明方面中的一个或多个，在上面对本发明的示例性实施例的描述中，本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该发明的方法解释成反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。

本领域那些技术人员应当理解在本文所发明的示例中的设备的模块或单元或组件可以布置在如该实施例中所描述的设备中，或者可替换地可以定位在与该示例中的设备不同的一个或多个设备中。前述示例中的模块可以组合为一个模块或者此外可以分成多个子模块。

本领域那些技术人员可以理解，可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件，以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外，可以采用任何组合对本说明书（包括伴随的权利要求、摘要和附图）中发明的所有特征以及如此发明的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书（包括伴随的权利要求、摘要和附图）中发明的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外，本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。

此外，所述实施例中的一些在此被描述成可以由计算机系统的处理器或者由执行所述功能的其它装置实施的方法或方法元素的组合。因此，具有用于实施所述方法或方法元素的必要指令的处理器形成用于实施该方法或方法元素的装置。此外，装置实施例的在此所述的元素是如下装置的例子：该装置用于实施由为了实施该发明的目的的元素所执行的功能。

如在此所使用的那样，除非另行规定，使用序数词“第一”、“第二”、“第三”等等来描述普通对象仅仅表示涉及类似对象的不同实例，并且并不意图暗示这样被描述的对象必须具有时间上、空间上、排序方面或者以任意其它方式的给定顺序。

尽管根据有限数量的实施例描述了本发明，但是受益于上面的描述，本技术领域内的技术人员明白，在由此描述的本发明的范围内，可以设想其它实施例。此外，应当注意，本说明书中使用的语言主要是为了可读性和教导的目的而选择的，而不是为了解释或者限定本发明的主题而选择的。因此，在不偏离所附权利要求书的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。对于本发明的范围，对本发明所做的发明是说明性的，而非限制性的，本发明的范围由所附权利要求书限定。

Claims

1.一种文本图像的识别方法，其特征在于，包括：

将文本图像输入已训练的第一编码器，提取所述文本图像的划痕的第三特征；其中，预先训练所述第一编码器，包括：构建包括第一编码器、第二编码器和解码器的第二网络模型；以纯划痕图像作为所述第一编码器的输入，以纯文本图像作为所述第二编码器的输入，以带划痕的图像作为输出训练所述第二网络模型；从训练后的所述第二网络模型中提取所述第一编码器；

将所述文本图像和所述第三特征输入已训练的第一网络模型，得到所述文本图像中的文本框的内容；

其中，所述第一网络模型用于获取所述文本图像的第一特征，根据所述文本图像的第一特征，识别所述文本图像中的文本框，根据所述文本框的坐标信息，从所述文本图像的第一特征中等比例地截取与所述文本框对应的第二特征，将所述第二特征减去所述第三特征，得到与所述文本框对应的第四特征，根据所述第四特征识别所述文本框的内容。

2.如权利要求1所述的方法，其特征在于，训练所述第一网络模型，包括：

根据纯文本图像和/或带划痕的图像对所述第一网络模型进行第一次训练；所述第一网络模型在第一次训练时，用于获取纯文本图像和/或带划痕的图像的第一特征，根据纯文本图像和/或带划痕的图像的第一特征，识别纯文本图像和/或带划痕的图像中的文本框，根据文本框的坐标信息，从纯文本图像和/或带划痕的图像的第一特征中等比例地截取与文本框对应的第二特征，根据第二特征识别文本框的内容；

根据带划痕的图像对所述第一网络模型进行第二次训练；所述第一网络模型在第二次训练时，用于获取带划痕的图像的第一特征，根据带划痕的图像的第一特征，识别带划痕的图像中的文本框，根据文本框的坐标信息，从带划痕的图像的第一特征中等比例地截取与文本框对应的第二特征，将第二特征减去所述第一编码器处理同一带划痕的图像后输出的第三特征，得到与文本框对应的第四特征，根据第四特征识别文本框的内容。

3.如权利要求1所述的方法，其特征在于，根据所述第四特征识别所述文本框的内容，包括：

根据CRNN网络，将所述第四特征作卷积、池化、构建时序、解码处理，得到所述文本框的内容。

4.如权利要求1所述的方法，其特征在于，获取所述文本图像的第一特征，包括：

通过特征提取网络，获取所述文本图像的第一特征；

5.如权利要求1所述的方法，其特征在于，根据所述文本图像的第一特征，识别所述文本图像中的文本框，包括：

6.如权利要求5所述的方法，其特征在于，所述多通道输出包括6个通道输出，其中，第1个通道表示文本框中心点得分图；第2个通道和第3个通道分别表示文本框中心点的x、y方向偏移量；第4个通道和第5个通道分别表示预测的文本框的宽、高；第6个通道表示文本框的旋转角度。

7.如权利要求1所述的方法，其特征在于，构建包括第一编码器、第二编码器和解码器的第二网络模型之前，还包括：

根据纯划痕图像训练所述第一编码器；

根据纯文本图像训练所述第二编码器。

8.如权利要求1所述的方法，其特征在于，以纯划痕图像作为所述第一编码器的输入，以纯文本图像作为所述第二编码器的输入，以带划痕的图像作为输出训练所述第二网络模型，包括：

固定所述第一编码器和所述第二编码器的参数，以纯划痕图像作为所述第一编码器的输入，以纯文本图像作为所述第二编码器的输入，以带划痕的图像作为输出第一次训练所述第二网络模型；

不固定所述第一编码器和所述第二编码器的参数，以纯划痕图像作为所述第一编码器的输入，以纯文本图像作为所述第二编码器的输入，以带划痕的图像作为输出第二次训练所述第二网络模型。

9.如权利要求1所述的方法，其特征在于，所述第一编码器、所述第二编码器为VAE模型编码器，以及，所述第二网络模型为VAE模型。

10.一种文本图像的识别装置，其特征在于，包括：

数据获取单元，用于获取文本图像；

数据处理单元，用于将所述文本图像输入已训练的第一编码器，提取所述文本图像的划痕的第三特征；其中，预先训练所述第一编码器，包括：构建包括第一编码器、第二编码器和解码器的第二网络模型；以纯划痕图像作为所述第一编码器的输入，以纯文本图像作为所述第二编码器的输入，以带划痕的图像作为输出训练所述第二网络模型；从训练后的所述第二网络模型中提取所述第一编码器；

将所述文本图像和所述第三特征输入已训练的第一网络模型，得到所述文本图像中的文本框的内容；其中，所述第一网络模型用于获取所述文本图像的第一特征，根据所述文本图像的第一特征，识别所述文本图像中的文本框，根据所述文本框的坐标信息，从所述文本图像的第一特征中等比例地截取与所述文本框对应的第二特征，将所述第二特征减去所述第三特征，得到与所述文本框对应的第四特征，根据所述第四特征识别所述文本框的内容。

11.如权利要求10所述的装置，其特征在于，所述数据处理单元用于训练所述第一网络模型时，具体用于：

12.如权利要求10所述的装置，其特征在于，所述数据处理单元用于以纯划痕图像作为所述第一编码器的输入，以纯文本图像作为所述第二编码器的输入，以带划痕的图像作为输出训练所述第二网络模型时，具体用于：

13.一种可读存储介质，其特征在于，其上具有可执行指令，当可执行指令被执行时，使得计算机执行如权利要求1-9中的任一项所述的方法。

14.一种计算设备，其特征在于，包括：一个或多个处理器、存储器，以及一个或多个程序，其中，所述一个或多个程序存储在所述存储器中并被配置为由所述一个或多个处理器执行如权利要求1-9中的任一项所述的方法。