CN107480680A

CN107480680A - 基于OCR和Bi‑LSTM的识别图像中文字信息的方法、系统及设备

Info

Publication number: CN107480680A
Application number: CN201710629521.7A
Authority: CN
Inventors: 高磊; 邝展豪; 王志成; 刘志欣; 王亮
Original assignee: SF Technology Co Ltd
Current assignee: SF Technology Co Ltd; SF Tech Co Ltd
Priority date: 2017-07-28
Filing date: 2017-07-28
Publication date: 2017-12-15

Abstract

基于OCR和Bi‑LSTM的识别图像中文字信息的方法、系统及设备，所述方法包括步骤：S1，获取目标图像；S2，对步骤S1中所述的图像进行OCR识别得到OCR的输出序列集合；S3，将步骤S2中所述的OCR的输出序列集合中的全部输出序列逐一转换为数字向量；S4，对步骤S3中每个所述的数字向量进行降维处理；S5，将步骤S4中经过降维处理后的全部数字向量逐一输入Bi‑LSTM模型中得到文本序列。所述系统包括图像采集模块、OCR识别模块、向量转换模块、向量降维模块以及Bi‑LSTM模块；所述设备包括存储有计算机程序的计算机可读介质,所述程序被运行用于执行所述方法。它有效的提高了图像中文字信息识别的准确度。

Description

基于OCR和Bi-LSTM的识别图像中文字信息的方法、系统及设备

技术领域

本发明涉及计算机软件中图像识别技术领域，尤其涉及基于OCR和Bi-LSTM的识别图像中文字信息的方法、系统及设备。

背景技术

近年来，随着电子商务的迅猛发展，快件收寄呈爆发式增长，物流行业的快递工作量急剧增加。货运单的地址信息是物件投递过程中的重要依据，能否正确识别该地址信息是物件能否被正确投递的关键。而快递单地址信息录入主要是由传统的人工逐一录入。传统的人工录入快递单地址模式效率低，造成人力成本的极大浪费。并且由于手写快递单字迹复杂、快递单本身存在地址不正确或不全的风险，导致派送困难。

发明内容

为了解决上述技术问题，本发明提出基于OCR和Bi-LSTM的识别图像中文字信息的方法、系统及设备，它有效的提高了图像中文字信息识别的准确度。

为了实现上述目的，本发明的技术方案为：

基于OCR和Bi-LSTM的识别图像中文字信息的方法，包括步骤：

S1，获取目标图像；

S2，对步骤S1中所述的图像进行OCR识别得到OCR的输出序列集合；

S3，将步骤S2中所述的OCR的输出序列集合中的全部输出序列逐一转换为数字向量；

S4，对步骤S3中每个所述的数字向量进行降维处理；

S5，将步骤S4中经过降维处理后的全部数字向量逐一输入Bi-LSTM模型中得到文本序列。

所述步骤S2包括：

S21，对步骤S1中所述的图像进行OCR识别得到结果队列集合；

S22，将步骤S21中所述的结果队列集合中的全部结果队列逐一输入语言模型中，得到OCR的输出序列集合。

所述步骤S5包括：

S51，将S4中经过降维处理后的数字向量输入Bi-LSTM编码器，生成特征向量；

S52，将所述特征向量输入Bi-LSTM解码器，得到输出向量；

S53，将所述输出向量输入Softmax算法模块,得到字ID；

S54，根据字典的对应关系，将所述字ID转换为文本序列。

步骤S21中所述OCR识别的阈值为系统允许的最低reliability阈值。

所述步骤S21中OCR的识别区域为所述图像中的文字信息所属的区域。

所述步骤S4中利用word-embedding算法降维。

步骤S1中所述的目标图像为快递单图像。

所述步骤S21中OCR的识别区域为快递单的地址输入区域。

所述快递单的地址包括寄件人地址和/或收件人地址。

所述快递单的地址为手写地址。

基于OCR和Bi-LSTM的识别图像中文字信息的系统，包括：

图像采集模块，用于获取目标图像；

OCR识别模块，用于对所述的图像进行OCR识别并得到OCR的输出序列集合；

向量转换模块，用于将所述的OCR的输出序列集合中的全部输出序列逐一转换为数字向量；

向量降维模块，用于对每个所述的数字向量进行降维处理；

Bi-LSTM模块：用于将经过降维处理后的全部数字向量逐一输入Bi-LSTM模型中得到文本序列。

基于OCR和Bi-LSTM的识别图像中文字信息的方法的设备，包括存储有计算机程序的计算机可读介质,所述程序被运行用于执行：

S1，获取目标图像；

S4，对步骤S3中每个所述的数字向量进行降维处理；

本发明的有益效果是：

1、通过降低OCR的阈值以得到尽可能多输出序列，然后通过Bi-LSTM模型处理得到文本序列，可信度最高的文字识别精确度越高。

2、实现了运单数据实时处理和应用，优化运单系统业务处理流程，增强公司核心竞争能力，同时大幅降低纸质运单信息获取的成本。

附图说明

图1示出了根据本申请的实施例的方法流程图。

图2示出了根据本申请的实施例的准确率分布图。

具体实施方式

为了更好的了解本发明的技术方案，下面结合附图1-2对本发明作进一步说明。

如图1所示，基于OCR和Bi-LSTM的识别图像中文字信息的方法，包括步骤：

S1，获取目标图像：

获取一张快递运单图像，该运单的原始地址(下文简称为sss_address)为：上海上海市常德路1339号。

S2，对步骤S1中所述的图像进行OCR识别得到OCR的输出序列集合。

所述步骤S2包括：

S21，对步骤S1中所述的图像进行OCR识别得到结果队列集合；OCR识别的阈值为系统允许的最低reliability阈值；OCR的识别区域为所述图像中的文字信息所属的区域(即快递单的地址输入区域)。

S3，将步骤S2中所述的OCR的输出序列集合中的全部输出序列逐一转换为数字向量，得到数字向量集合。

S4，对步骤S3中每个所述的数字向量进行降维处理。

将该原始图片信息通过OCR识别技术处理，获得OCR返回的识别结果数据集。OCR识别的结果集举例如下，在结果集中，"segments"包含区域内的识别结果选项列表。

OCR识别结果集举例

此时，reliability值最大的输出序列：台普陀常德路1399号金心F，即为OCR的最终输出。可以看出，OCR识别出的序列精度不高，难以达到期望。

所以需要对快递单初始图像进行以下处理：

1、通过设置最低reliability(可信度)阈值，将大于该阈值的OCR输出的结果队列作为输入序列逐一传入模型中，如取出如下文本队列作为OCR的输出序列：

“台普陀常德路1399号金心F”

“上普陀常德咯1333号全心F”

等等…

2、OCR生成的每个输出序列将采用基于字典的方式转换为一个数字向量，即每个文字均对应一个多维的向量，一个数字向量就是一个文本序列对应的向量集合。

3、由于上一步骤生成的数字向量存在数据稀疏的缺陷，因此需要再根据word-embedding算法对第二步生成的数字向量进行降维，得到一个低维的向量，作为双向LSTM(以下简称Bi-LSTM)模型的输入。

S5，将步骤S4中经过降维处理后的全部数字向量逐一输入Bi-LSTM模型中得到文本序列。逐一的指的是按时间刻度将数字向量依次放入Bi-LSTM模型中。

Bi-LSTM模型处理数据的原理是通过Encoder-Decoder框架对输入序列进行编解码运算，具体步骤如下：

1、首先，将输入的数字向量逐一传入Bi-LSTM编码器，生成一个预设长度的向量，预设长度在本实施例中使用128，即生成128维的特征向量。

2、再将特征向量传入Bi-LSTM解码器，生成输出向量。所述的输出向量为算法的输出，长度为整个字典的长度，向量中每个值代表对应字的可能性(其中字典即字库，每一个字在字典中对应一个唯一的ID)。

3、输出向量再传入Softmax算法模块，映射为字ID输出。所述字ID是字对应的ID。到Softmax算法模块，计算出该时刻字典里每一个字出现的概率，并取出拥有最大值的字作为当前结果。

4、向量再根据字典的对应关系，生成文本序列。

在本例中，Bi-LSTM的最终输出为：上海上海市普陀区常德路1399号，对应的可信度(reliability)为0.984242305920785。

OCR-Bi-LSTM整体结果如表一所示：

表一

可以看出经过Bi-LSTM模型纠错后，识别的精度得到显著提高。

采用OCR+Bi-LSTM模型的准确率分布图如图2所示，其中，横轴是可信度，训练集为304896个。由图2可以得知，Bi-LSTM模型返回的可信度越高，其识别文字信息的准确率也越高。

实验最终的准确率结果如表二，单独使用OCR识别快递单地址的准确率为29.65％，而结合纠错算法后，准确率提升到41.20％。

类别	基数	与SSS相等数	准确率
				OCR	304896	90391	37.34％
纠错	304896	125607	58.08％

表二

因此，可以得出结论：地址纠错算法能一定程度的提高快递单地址的识别准确率。

本实施例是以快递单为例，但是利用OCR+Bi-LSTM对文字识别的方法适用于任何图像中的文字识别。

基于OCR和Bi-LSTM的识别图像中文字信息的系统，包括：

图像采集模块，用于获取目标图像；

向量降维模块，用于对每个所述的数字向量进行降维处理；

基于OCR和Bi-LSTM的识别图像中文字信息的方法的设备，包括存储有计算机程序的计算机可读介质,所述程序被运行用于执行上述的基于OCR和Bi-LSTM的识别图像中文字信息的方法。

以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本申请中所涉及的发明范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离所述发明构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims

1.基于OCR和Bi-LSTM的识别图像中文字信息的方法，其特征是，包括步骤：

S1，获取目标图像；

S4，对步骤S3中每个所述的数字向量进行降维处理；

2.根据权利要求1所述的基于OCR和Bi-LSTM的识别图像中文字信息的方法，其特征是，所述步骤S2包括：

S21，对步骤S1中所述的图像进行OCR识别得到结果队列集合；

3.根据权利要求1所述的基于OCR和Bi-LSTM的识别图像中文字信息的方法，其特征是，所述步骤S5包括：

S52，将所述特征向量输入Bi-LSTM解码器，得到输出向量；

S53，将所述输出向量输入Softmax算法模块,得到字ID；

S54，根据字典的对应关系，将所述字ID转换为文本序列。

4.根据权利要求1所述的基于OCR和Bi-LSTM的识别图像中文字信息的方法，其特征是，步骤S21中所述OCR识别的阈值为系统允许的最低reliability阈值。

5.根据权利要求2所述的基于OCR和Bi-LSTM的识别图像中文字信息的方法，其特征是，所述步骤S21中OCR的识别区域为所述图像中的文字信息所属的区域。

6.根据权利要求1所述的基于OCR和Bi-LSTM的识别图像中文字信息的方法，其特征是，所述步骤S4中利用word-embedding算法降维。

7.根据权利要求1所述的基于OCR和Bi-LSTM的识别图像中文字信息的方法，其特征是，步骤S1中所述的目标图像为快递单图像。

8.根据权利要求7所述的基于OCR和Bi-LSTM的识别图像中文字信息的方法，其特征是，所述步骤S21中OCR的识别区域为快递单的地址输入区域。

9.根据权利要求8所述的基于OCR和Bi-LSTM的识别图像中文字信息的方法，其特征是，所述快递单的地址包括寄件人地址和/或收件人地址。

10.根据权利要求9所述的基于OCR和Bi-LSTM的识别图像中文字信息的方法，其特征是，所述快递单的地址为手写地址。

11.基于OCR和Bi-LSTM的识别图像中文字信息的系统，其特征在于，包括：

图像采集模块，用于获取目标图像；

向量降维模块，用于对每个所述的数字向量进行降维处理；

12.基于OCR和Bi-LSTM的识别图像中文字信息的方法的设备，其特征是，包括存储有计算机程序的计算机可读介质,所述程序被运行用于执行：

S1，获取目标图像；

S4，对步骤S3中每个所述的数字向量进行降维处理；