CN112633267A

CN112633267A - 一种图片的文本定位方法、系统、设备以及介质

Info

Publication number: CN112633267A
Application number: CN202011462612.4A
Authority: CN
Inventors: 孙红岩
Original assignee: Suzhou Inspur Intelligent Technology Co Ltd
Current assignee: Suzhou Inspur Intelligent Technology Co Ltd
Priority date: 2020-12-11
Filing date: 2020-12-11
Publication date: 2021-04-09

Abstract

本发明公开了一种图片的文本定位方法，包括以下步骤：构建图像集、第一神经网络和第二神经网络；对图像集中的图像进行预处理得到第一训练集，并对第一训练集中的图像进行旋转和/或翻转以得到第二训练集；利用第一训练集对第一神经网络进行训练并利用第二训练集对第二神经网络进行训练，其中对每次训练得到第一神经网络的权重和第二神经网络的权重进行加权后作为下一次训练时第一神经网络的权重；响应于第一神经网络训练完成，利用训练完成的第一神经网络对经过预处理的图片进行推理以得到图片的文本。本发明还公开了一种系统、计算机设备以及可读存储介质。本发明提出的方案可以无需进行标注，实现非监督训练。

Description

一种图片的文本定位方法、系统、设备以及介质

技术领域

本发明涉及文本识别领域，具体涉及一种图片的文本定位方法、系统、设备以及存储介质。

背景技术

光学字符识别(Optical Character Recognition,OCR)传统上指对输入扫描文档图像进行分析处理，识别出图像中文字信息。对于OCR，目前有两种方案来进行光学字符识别，第一种是文本定位+文本识别，第二种是端到端的模型。

对于文本定位+文本识别这种方案来说，主要是先由文本定位将图像中的文本进行定位检测，检测到文本之后通过文本识别网络来进行文本识别，进而识别出文字。目前文本定位领域的深度学习方法主要包括：基于候选框的文本检测(Proposal-based)、基于分割的文本检测(Segmentation-based)、基于两者方法混合的文本检测(Hybrid-based)、其它方法的文本检测.对于基于候选框的文本检测，对于规则文本的检测可以起到很好的效果，但是对于弯曲文本的检测并不理想，经典的算法包括CTPN等，基于分割的文本检测(Segmentation-based)可以对于弯曲文本有很好的检测效果。上述的方法在训练时都需要提供标注信息，文本信息在标注是需要大量的时间和精力不说，还会出现经常标注错误或者标注模糊的现象，由于OCR文本检测的特殊性，通常会采用自动合成数据集的方式来进行OCR训练。但是自动合成的数据集同样也会存在很多问题，包括数据集的多样性匮乏，数据集和真实场景文本数据不一致等问题。

发明内容

有鉴于此，为了克服上述问题的至少一个方面，本发明实施例提出一种图片的文本定位方法，包括以下步骤：

构建图像集、第一神经网络和第二神经网络；

对所述图像集中的图像进行预处理得到第一训练集，并对所述第一训练集中的图像进行旋转和/或翻转以得到第二训练集；

利用所述第一训练集对所述第一神经网络进行训练并利用所述第二训练集对所述第二神经网络进行训练，其中对每次训练得到所述第一神经网络的权重和所述第二神经网络的权重进行加权后作为下一次训练时所述第一神经网络的权重；

响应于所述第一神经网络训练完成，利用训练完成的所述第一神经网络对经过所述预处理的图片进行推理以得到所述图片的文本。

在一些实施例中，对所述图像集中的图像进行预处理，进一步包括：

提取所述图像的特征图；

对所述特征图作预设大小的滑窗后重构得到特征向量；

将所述特征向量输入到长短期记忆网络；

将所述长短期记忆网络的输出进行重构后利用RPN网络进行文本框的划分；

将划分的多个文本框经过全连接层后得到预处理后的图像。

在一些实施例中，利用训练完成的所述第一神经网络对经过所述预处理的图片进行推理以得到所述图片的文本，进一步包括：

将所述待推理的图片经过所述预处理后得到划分有多个文本框的图片；

将所述划分有多个文本框的图片输入到所述训练完成的所述第一神经网络以得到总向量以及每一个文本框截取的图像的子向量；

根据所述总向量和所述子向量得到具有文本信息的文本框；

根据所述文本框对应的坐标在所述待推理的图片中确定对应的文本。

在一些实施例中，根据所述总向量和所述子向量得到具有文本信息的文本框，进一步包括：

判断

是否大于阈值，其中e_k为总向量，

为对应第i个文本框对应的子向量的转置；

响应于大于阈值，将对应的所述文本框确定为所述具有文本信息的文本框。

基于同一发明构思，根据本发明的另一个方面，本发明的实施例还提供了一种图片的文本定位系统，包括：

构建模块，所述构建模块配置为构建图像集、第一神经网络和第二神经网络；

预处理模块，所述预处理模块配置为对所述图像集中的图像进行预处理得到第一训练集，并对所述第一训练集中的图像进行旋转和/或翻转以得到第二训练集；

训练模块，所述训练模块配置为利用所述第一训练集对所述第一神经网络进行训练并利用所述第二训练集对所述第二神经网络进行训练，其中对每次训练得到所述第一神经网络的权重和所述第二神经网络的权重进行加权后作为下一次训练时所述第一神经网络的权重；

推理模块，所述推理模块配置为响应于所述第一神经网络训练完成，利用训练完成的所述第一神经网络对经过所述预处理的图片进行推理以得到所述图片的文本。

在一些实施例中，所述预处理模块还配置为：

提取所述图像的特征图；

对所述特征图作预设大小的滑窗后重构得到特征向量；

将所述特征向量输入到长短期记忆网络；

将划分的多个文本框经过全连接层后得到预处理后的图像。

在一些实施例中，所述推理模块还配置为：

根据所述总向量和所述子向量得到具有文本信息的文本框；

在一些实施例中，所述推理模块还配置为：

判断

是否大于阈值，其中e_k为总向量，

为对应第i个文本框对应的子向量的转置；

基于同一发明构思，根据本发明的另一个方面，本发明的实施例还提供了一种计算机设备，包括：

至少一个处理器；以及

存储器，所述存储器存储有可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时执行如上所述的任一种图片的文本定位方法的步骤。

基于同一发明构思，根据本发明的另一个方面，本发明的实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时执行如上所述的任一种图片的文本定位方法的步骤。

本发明具有以下有益技术效果之一：本发明提出的方案可以在训练过程中无需进行标注，实现非监督训练，避免了在标注文本信息时可能引起的标注框不准确或者标注不清导致文本定位在训练时可能会引起的一系列问题。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的实施例。

图1为本发明的实施例提供的图片的文本定位方法的流程示意图；

图2为本发明的实施例提供的第一神经网络和第二神经网络的结构图；

图3为本发明的实施例提供的图片的文本定位系统的结构示意图；

图4为本发明的实施例提供的计算机设备的结构示意图；

图5为本发明的实施例提供的计算机可读存储介质的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本发明实施例进一步详细说明。

需要说明的是，本发明实施例中所有使用“第一”和“第二”的表述均是为了区分两个相同名称非相同的实体或者非相同的参量，可见“第一”“第二”仅为了表述的方便，不应理解为对本发明实施例的限定，后续实施例对此不再一一说明。

在本发明的实施例中，在OCR文本训练中，其中有文本信息的可视为前景，而图片其它部分为背景。在OCR的训练数据集采集中，前景拥有很明显的特征(OCR文本有梯度特征、笔画特征等特征)，而背景通常特征不明显(背景没有明显特征，例如楼、树、书包等)，因此，可以完全避免自动合成数据集，而是通过对图片中文本框信息的embedding向量进行无监督训练。

根据本发明的一个方面，本发明的实施例提出一种图片的文本定位方法，如图1所示，其可以包括步骤：

S1，构建图像集、第一神经网络和第二神经网络；

S2，对所述图像集中的图像进行预处理得到第一训练集，并对所述第一训练集中的图像进行旋转和/或翻转以得到第二训练集；

S3，利用所述第一训练集对所述第一神经网络进行训练并利用所述第二训练集对所述第二神经网络进行训练，其中对每次训练得到所述第一神经网络的权重和所述第二神经网络的权重进行加权后作为下一次训练时所述第一神经网络的权重；

S4，响应于所述第一神经网络训练完成，利用训练完成的所述第一神经网络对经过所述预处理的图片进行推理以得到所述图片的文本。

本发明提出的方案可以利用非自动合成的数据集进行训练，并且在训练过程中无需进行标注，实现非监督训练，避免了在标注文本信息时可能引起的标注框不准确或者标注不清导致文本定位在训练时可能会引起的一系列问题。

在一些实施例中，步骤S2中，对所述图像集中的图像进行预处理，进一步包括：

提取所述图像的特征图；

对所述特征图作预设大小的滑窗后重构得到特征向量；

将所述特征向量输入到长短期记忆网络；

将划分的多个文本框经过全连接层后得到预处理后的图像。

具体的，首先可以利用VGG16网络提取特征，获得大小为N×C×H×W的conv stage5feature map。然后可以在feature map上做3×3的滑窗，获取得到一个3×3×C的特征向量，重构(reshape)后得到N×9C×H×W的特征向量，然后以NH为batch且最大时间长度T_max＝W的数据流输入双向长短期记忆网络(LSTM)，学习每一行的序列特征，即进行序列化处理。双向LSTM输出(NH)×W×256，再经Reshape恢复形状N×256×H×W，接着经过类似Faster R-CNN的RPN网络(区域生成网络)，获得文本框(text proposals)。区域生成网络会生成anchor boxes，在经过全连接层之后，生成的图片的H＝W＝40，且全连接层会输出每一个text proposals的坐标信息以及分数。而原始图像在初始处理之后会生成640×640的图像，因此H＝W＝40的特征图的一个点对应原图的16个像素点，生成anchor boxes可以如下：

heights＝[5,8,11,16,24,34,48,69,99,141]

widths＝[16]

在以stride＝16的条件下，正好铺满整个图像，也能对应相应的BLSTM单元。由于采用的是无监督训练的方法训练网络，因此不与原标签进行nms操作。

在一些实施例中，第一神经网络和第二神经网络的结构可以如图2所示，在生成text proposals之后，即可将其作为第一训练集用于训练第一神经网络，而将textproposals框出的图片进行翻转和旋转作为第二训练集(即标签)训练第二神经网络，其中text proposals框出的文本信息(即前景)具有明显特征，而text proposals框出的背景信息不具有明显特征，因此在经过训练之后可以得到收敛网络。

在一些实施例中，步骤S3，利用所述第一训练集对所述第一神经网络进行训练并利用所述第二训练集对所述第二神经网络进行训练，其中对每次训练得到所述第一神经网络的权重和所述第二神经网络的权重进行加权后作为下一次训练时所述第一神经网络的权重，具体的，在整个网络的训练过程中，第一神经网络的权重更新规则如下式所示：θ_k＝mθ_k-1+(1-m)θ_q，其中m为动量相关系数，θ_k-1为上一次训练得到所述第一神经网络的权重，θ_q为上一次训练得到所述第二神经网络的权重。通过不断地累积，第一神经网络能够生成对应相应图片的embedding向量。训练结束后，将第一神经网络中权重赋值给第二神经网络作为权重。

这样，通过MLP(第一神经网络)的引入，并且将全连接层输出的带有textproposals的图片作为输入，输入到MLP，使得MLP生成对应每个text proposals的embedding向量，其中，前景文本信息的embedding向量由于其特定的规则特征(梯度特征、笔画特征等)具有一定的相似性，背景的embedding向量由于其没有特定的规则特征，导致训练出的embedding向量具有差异性。

在一些实施例中，第一神经网络和第二神经网络的对比损失函数如下：

其中，τ为损失函数的温度，q为第二神经网络输出的向量，k_n为第一神经网络第n次输出的向量。

根据所述总向量和所述子向量得到具有文本信息的文本框；

判断

是否大于阈值，其中e_k为总向量，

为对应第i个文本框对应的子向量的转置；

具体的，当将第一神经网络训练完成后，在进行推理时，在第一神经网络输入端输入相应的经过预处理的有文本框的图片，即可从众多的text proposals中推理出图片中的文本框，其中可以按照相似度公式来筛选所有有文本信息的文本框，其中相似度公式为

其中θ即为相似度系数，可以手动调节相似度系数，e_k为将有文本信息的图片输入到第一神经网络中生成的embedding向量，而

为对应第i个text proposals生成的embedding向量的转置，当

大于θ，则表明text proposals截取的图片与文本信息的图片具有一定的相似度，保留text proposals，否则则为背景图片。

这样，当将所有的与文本信息的图片具有一定的相似度的text proposals筛选出后，根据坐标对应关系(预处理后的图片的一个点对应原图的16个像素点)可以在原图像上得到相应的文本。

本发明提出的方案可以在训练过程中无需进行标注，实现非监督训练，避免了在标注文本信息时可能引起的标注框不准确或者标注不清导致文本定位在训练时可能会引起的一系列问题。

基于同一发明构思，根据本发明的另一个方面，本发明的实施例还提供了一种图片的文本定位系统400，如图3所示，包括：

构建模块401，所述构建模块401配置为构建图像集、第一神经网络和第二神经网络；

预处理模块402，所述预处理模块402配置为对所述图像集中的图像进行预处理得到第一训练集，并对所述第一训练集中的图像进行旋转和/或翻转以得到第二训练集；

训练模块403，所述训练模块403配置为利用所述第一训练集对所述第一神经网络进行训练并利用所述第二训练集对所述第二神经网络进行训练，其中对每次训练得到所述第一神经网络的权重和所述第二神经网络的权重进行加权后作为下一次训练时所述第一神经网络的权重；

推理模块404，所述推理模块404配置为响应于所述第一神经网络训练完成，利用训练完成的所述第一神经网络对经过所述预处理的图片进行推理以得到所述图片的文本。

在一些实施例中，所述预处理模块402还配置为：

提取所述图像的特征图；

对所述特征图作预设大小的滑窗后重构得到特征向量；

将所述特征向量输入到长短期记忆网络；

将划分的多个文本框经过全连接层后得到预处理后的图像。

在一些实施例中，所述推理模块还配置为：

根据所述总向量和所述子向量得到具有文本信息的文本框；

在一些实施例中，所述推理模块还配置为：

判断

是否大于阈值，其中e_k为总向量，

为对应第i个文本框对应的子向量的转置；

基于同一发明构思，根据本发明的另一个方面，如图4所示，本发明的实施例还提供了一种计算机设备501，包括：

至少一个处理器520；以及

存储器510，存储器510存储有可在处理器上运行的计算机程序511，处理器520执行程序时执行如上的任一种图片的文本定位方法的步骤。

基于同一发明构思，根据本发明的另一个方面，如图5所示，本发明的实施例还提供了一种计算机可读存储介质601，计算机可读存储介质601存储有计算机程序指令610，计算机程序指令610被处理器执行时执行如上的任一种图片的文本定位方法的步骤。

最后需要说明的是，本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，可以通过计算机程序来指令相关硬件来完成，程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。

此外，应该明白的是，本文的计算机可读存储介质(例如，存储器)可以是易失性存储器或非易失性存储器，或者可以包括易失性存储器和非易失性存储器两者。

本领域技术人员还将明白的是，结合这里的公开所描述的各种示例性逻辑块、模块、电路和算法步骤可以被实现为电子硬件、计算机软件或两者的组合。为了清楚地说明硬件和软件的这种可互换性，已经就各种示意性组件、方块、模块、电路和步骤的功能对其进行了一般性的描述。这种功能是被实现为软件还是被实现为硬件取决于具体应用以及施加给整个系统的设计约束。本领域技术人员可以针对每种具体应用以各种方式来实现的功能，但是这种实现决定不应被解释为导致脱离本发明实施例公开的范围。

以上是本发明公开的示例性实施例，但是应当注意，在不背离权利要求限定的本发明实施例公开的范围的前提下，可以进行多种改变和修改。根据这里描述的公开实施例的方法权利要求的功能、步骤和/或动作不需以任何特定顺序执行。此外，尽管本发明实施例公开的元素可以以个体形式描述或要求，但除非明确限制为单数，也可以理解为多个。

应当理解的是，在本文中使用的，除非上下文清楚地支持例外情况，单数形式“一个”旨在也包括复数形式。还应当理解的是，在本文中使用的“和/或”是指包括一个或者一个以上相关联地列出的项目的任意和所有可能组合。

上述本发明实施例公开实施例序号仅仅为了描述，不代表实施例的优劣。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

所属领域的普通技术人员应当理解：以上任何实施例的讨论仅为示例性的，并非旨在暗示本发明实施例公开的范围(包括权利要求)被限于这些例子；在本发明实施例的思路下，以上实施例或者不同实施例中的技术特征之间也可以进行组合，并存在如上的本发明实施例的不同方面的许多其它变化，为了简明它们没有在细节中提供。因此，凡在本发明实施例的精神和原则之内，所做的任何省略、修改、等同替换、改进等，均应包含在本发明实施例的保护范围之内。

Claims

1.一种图片的文本定位方法，其特征在于，包括以下步骤：

构建图像集、第一神经网络和第二神经网络；

2.如权利要求1所述的方法，其特征在于，对所述图像集中的图像进行预处理，进一步包括：

提取所述图像的特征图；

对所述特征图作预设大小的滑窗后重构得到特征向量；

将所述特征向量输入到长短期记忆网络；

将划分的多个文本框经过全连接层后得到预处理后的图像。

3.如权利要求2所述的方法，其特征在于，利用训练完成的所述第一神经网络对经过所述预处理的图片进行推理以得到所述图片的文本，进一步包括：

根据所述总向量和所述子向量得到具有文本信息的文本框；

4.如权利要求3所述的方法，其特征在于，根据所述总向量和所述子向量得到具有文本信息的文本框，进一步包括：

判断

是否大于阈值，其中e_k为总向量，

为对应第i个文本框对应的子向量的转置；

5.一种图片的文本定位系统，其特征在于，包括：

6.如权利要求5所述的系统，其特征在于，所述预处理模块还配置为：

提取所述图像的特征图；

对所述特征图作预设大小的滑窗后重构得到特征向量；

将所述特征向量输入到长短期记忆网络；

将划分的多个文本框经过全连接层后得到预处理后的图像。

7.如权利要求6所述的系统，其特征在于，所述推理模块还配置为：

根据所述总向量和所述子向量得到具有文本信息的文本框；

8.如权利要求7所述的系统，其特征在于，所述推理模块还配置为：

判断

是否大于阈值，其中e_k为总向量，

为对应第i个文本框对应的子向量的转置；

9.一种计算机设备，包括：

至少一个处理器；以及

存储器，所述存储器存储有可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时执行如权利要求1-4任意一项所述的方法的步骤。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时执行如权利要求1-4任意一项所述的方法的步骤。