CN112434690A

CN112434690A - 动态解析文本图像特征现象的元素自动捕获理解方法、系统及存储介质

Info

Publication number: CN112434690A
Application number: CN202011399708.0A
Authority: CN
Inventors: 万晓磊; 冯玉静; 张东峰; 陆欢旺
Original assignee: Shanghai Sandao Intelligent Technology Co ltd
Current assignee: Shanghai Sandao Intelligent Technology Co ltd
Priority date: 2020-12-02
Filing date: 2020-12-02
Publication date: 2021-03-02

Abstract

本申请涉及文本识别技术领域，公开了动态解析文本图像特征现象的元素自动捕获理解方法、系统及存储介质，包括：输入待处理的文件，包括图片类以及非图片类，并将非图片类转换为图片格式，与图片类文件统一存储；解析待处理文件类型及格式；修正待处理文件的图像成像问题；检测待处理文件中文本的所在位置、范围及布局；在文字检测的基础上对文本内容进行识别；从文本识别结果中抽取需要的字段和/或要素；输出最终文字识别结果或文本抽取处理结果。本申请提供的动态解析文本图像特征现象的元素自动捕获理解方法能够精准的识别出票据的字段。

Description

动态解析文本图像特征现象的元素自动捕获理解方法、系统及存储介质

技术领域

本申请涉及文本识别技术领域，尤其是涉及动态解析文本图像特征现象的元素自动捕获理解方法、系统及存储介质。

背景技术

OCR(OpticalCharacterRecognition，光学字符识别)是模式识别领域中重要的研究方向。近年来，随着移动设备的快速更新迭代，以及移动互联网的快速发展，使得OCR有更为广泛的应用场景，从以往的扫描文件的字符识别，到现在应用到自然场景中图片文字的识别，如识别身份证、银行卡、门牌、票据及各类网络图片中的文字。

但是在实际运用中，发明人发现现有技术中至少存在如下问题：

待识别的文件往往没有统一制式、排版格式迥异，因此往往给找出字段存在一定困难，继而造成字段的识别非常困难。

发明内容

为了改善上述寻找字段困难的问题，本申请提供了动态解析文本图像特征现象的元素自动捕获理解方法、系统及存储介质。

第一方面，本申请提供的动态解析文本图像特征现象的元素自动捕获理解方法，包括：

文件输入，输入待处理的文件，包括图片类以及非图片类，并将非图片类转换为图片格式，与图片类文件统一存储；

文件解析，解析待处理文件类型及格式；

图像预处理，修正待处理文件的图像成像问题；

文字检测，检测待处理文件中文本的所在位置、范围及布局；

文字识别，在文字检测的基础上对文本内容进行识别；

文本提取，从文本识别结果中抽取需要的字段和/或要素；

结果输出，输出最终文字识别结果或文本抽取处理结果。

通过采用上述技术方案，文件输入包括图片类以及非图片类，非图片类文件上传时被转换为图片格式，并与图片类文件统一存储，然后对文件进行解析，并进行图像处理，修正图像问题，再从图像中识别文本的所在位置、范围及布局，并在文字检测的基础上对文本内容进行识别，从而精准的识别出票据的字段。

在一些实施方式中，所述图像预处理包括:

将待处理文件的图像输入预先训练的图像校正网络中进行几何变化和/或畸变校正，得到校正后的第一目标图像；

将第一目标图像通过CV算法及仿射变换矩阵进行小角度校正，得到第二目标图像；

将第二目标图像通过去噪算法去除模糊，得到第三目标图像；

将第三目标图像经过二值化处理，得到二值化图像。

通过采用上述技术方案，通过对图像进行几何变换（包括透视、扭曲、旋转等）、畸变校正、去除模糊、图像增强和光线校正以及二值化处理，修成图像问题，便于后续文本的检测及文字的识别。

在一些实施方式中，将待处理文件的图像输入预先训练的图像校正网络中进行几何变化及畸变校正包括：

利用所述图像校正网络中的定位网络回归所述第一目标图像对应的空间变换的网络参数；

利用所述图像校正网络中的网格生成器以及所述网络参数，计算所述校正后的第一目标图像中的像素点在所述第一目标图像中的位置；

利用所述图像校正网络中的采样器以及计算出的位置，输出所述校正后的第一目标图像。

在一些实施方式中，所述文字检测包括：

将二值化图像输入预先训练的特征提取网络中；

提取所述特征提取网络中至少两个卷积层的输出信息，并对所述输出信息进行融合；

将融合后的信息输入所述特征提取网络中的全连接层，输出对应于所述二值化图像文本区域的k个anchor的2k个竖直方向坐标及坐标得分、k个边界回归结果，以实现文本定位，并得到矩形文本框。

在一些实施方式中，文字识别包括：通过预先训练的文字识别网络对矩形文本框内的文本内容进行字符识别，获取文本内容信息。

在一些实施方式中，所述文本提取包括：

基于预先设置的语义数据库生成基础语义分析引擎，所述语义数据库中包括领域基础语料库、领域词典及领域知识图谱；

基于基础语义分析引擎对文本内容信息进行字段分析处理；

基于抽取需求提取数据集合抽取文本内容中需要的字段和/或要素。

通过采用上述技术方案，通过自然语言处理结合行业识别文字的文本智能处理，结合行对抽取模型进行深度学习模型训练，能够对识别出来的数据进行简单的数据清洗。

在一些实施方式中，所述抽取需求包括：序列标注抽取、深度学习抽取及表格抽取。

在一些实施方式中，输入的待处理的文件同时存储至文件库，基于人工标注进行模型训练，以得到图像校正网络、特征提取网络、文字识别网络及深度学习抽取数据集合。

第二方面，本申请公开了动态解析文本图像特征现象的元素自动捕获理解系统，包括：

文件解析单元，接收待处理文件，并解析待处理文件类型及格式；

图像预处理单元，修正解析后的待处理文件的图像成像问题；

文字检测单元，在修正图像成像问题的基础上检测待处理文件中文本的所在位置、范围及布局；

文字识别单元，在文字检测的基础上对文本内容进行识别；

文本提取单元，从文本识别结果中抽取需要的字段和/或要素；以及，

存储器和处理器，所述存储器上存储有能够被处理器加载并执行上述动态解析文本图像特征现象的元素自动捕获理解方法的计算机程序。

第三方面，本申请公开了一种计算机可读存储介质，存储有能够被处理器加载并执行上述动态解析文本图像特征现象的元素自动捕获理解方法的计算机程序。

综上所述，本申请提供的动态解析文本图像特征现象的元素自动捕获理解方法、系统及存储介质包括以下至少一种有益技术效果：

1、文件输入包括图片类以及非图片类，非图片类文件上传时被转换为图片格式，并与图片类文件统一存储，然后对文件进行解析，并进行图像处理，修正图像问题，再从图像中识别文本的所在位置、范围及布局，并在文字检测的基础上对文本内容进行识别，从而精准的识别出票据的字段；

2、可以以框选的方式进行文本标注，并辅助通过十字定位、对于以键值对形式存在的数据，可以通过键获取值；

3、自然语言处理结合行业识别文字的文本智能处：结合行业对抽取模型进行深度学习模型训练，能够对识别出来的数据进行简单的数据清洗；

4、在报关行业内的发票和箱单根据不同客户可能存在不一样的文字排版结构，存在一对多的情况，本系统可以抽取任意结构的数据并展示。

附图说明

图1为本申请提供的动态解析文本图像特征现象的元素自动捕获理解方法的流程示意图；

图2为本申请提供的动态解析文本图像特征现象的元素自动捕获理解系统的结构框图。

图中：1、文件解析单元；2、图像预处理单元；3、文字检测单元；4、文字识别单元；5、文本提取单元；6、存储器；7、处理器。

具体实施方式

以下结合附图对本申请作进一步详细说明。

本申请实施例提供了动态解析文本图像特征现象的元素自动捕获理解方法、系统及存储介质。

如图1所示，本申请实施例提供了动态解析文本图像特征现象的元素自动捕获理解方法的主要流程描述如下，包括：

文件输入：输入待处理的文件，待处理的文件包括图片类以及非图片类，非图片类包括影印件及PDF文件，同时，将非图片类转换为图片格式，与图片类文件统一存储，输入的待处理的文件同时存储至文件库，基于人工标注进行模型训练，以得到图像校正网络、特征提取网络、文字识别网络及深度学习抽取数据集合；

文件解析，解析待处理文件类型及格式，在本申请此实施方式中，文件解析支持包括JPG、PNG、TIF、PDF格式文件的处理；

图像预处理，修正待处理文件的图像成像问题；具体包括：

将待处理文件的图像输入预先训练的图像校正网络中进行几何变化和/或畸变校正，得到校正后的第一目标图像，即：

利用所述图像校正网络中的采样器以及计算出的位置，输出所述校正后的第一目标图像；

然后，

将第三目标图像经过二值化处理，得到二值化图像；

图像预处理后进入以下步骤：

文字检测，检测待处理文件中文本的所在位置、范围及布局，通常也包括版面分析和文字行检测等，文字检测主要解决的问题是哪里有文字，文字的范围有多大。具体步骤为包括：

将二值化图像输入预先训练的特征提取网络中；

将融合后的信息输入所述特征提取网络中的全连接层，输出对应于所述二值化图像文本区域的k个anchor的2k个竖直方向坐标及坐标得分、k个边界回归结果，以实现文本定位，并得到矩形文本框；

以上文字检测采用的处理算法包括：Faster-RCNN、Mask-RCNN、FPN、PANet、Unet、IoUNet、YOLO、SSD；

接下来进入文字识别步骤，

文字识别，在文字检测的基础上，对文本内容进行识别，文字识别主要解决的问题是每个文字是什么。在本申请此实施方式中，通过预先训练的文字识别网络对矩形文本框内的文本内容进行字符识别，获取文本内容信息，其采用的处理算法包括：CRNN、AttentionOCR、RNNLM、BERT；

然后通过文本提取，从文本识别结果中抽取需要的字段和/或要素，包括：

基于基础语义分析引擎对文本内容信息进行字段分析处理；

基于抽取需求提取数据集合抽取文本内容中需要的字段和/或要素，所述抽取需求包括：序列标注抽取、深度学习抽取及表格抽取，

文本提取采用的处理算法包括：CRF、HMM、HAN、DPCNN、BiLSTM+CRF、BERT+CRF、Regex。

最后，结果输出，输出最终文字识别结果或文本抽取处理结果，或生成识别的JSON格式报文。

如图2所示，本申请还公开了动态解析文本图像特征现象的元素自动捕获理解系统，其特征在于，包括：

文件解析单元1，接收待处理文件，并解析待处理文件类型及格式；

图像预处理单元2，修正解析后的待处理文件的图像成像问题；

文字检测单元3，在修正图像成像问题的基础上检测待处理文件中文本的所在位置、范围及布局；

文字识别单元4，在文字检测的基础上对文本内容进行识别；

文本提取单元5，从文本识别结果中抽取需要的字段和/或要素；以及，

存储器6和处理器7，所述存储器6上存储有能够被处理器7加载并执行上述动态解析文本图像特征现象的元素自动捕获理解方法的计算机程序。

本申请实施例提供一种存储介质，所述存储介质存储有指令集，该指令集适于一处理器7加载并执行上述动态解析文本图像特征现象的元素自动捕获理解方法步骤。

所述计算机存储介质例如包括：U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以对本申请的技术方案进行了详细介绍，但以上实施例的说明只是用于帮助理解本申请的方法及其核心思想，不应理解为对本申请的限制。本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本申请的保护范围之内。

Claims

1.动态解析文本图像特征现象的元素自动捕获理解方法，其特征在于，包括：

文件解析，解析待处理文件类型及格式；

图像预处理，修正待处理文件的图像成像问题；

文字识别，在文字检测的基础上对文本内容进行识别；

文本提取，从文本识别结果中抽取需要的字段和/或要素；

结果输出，输出最终文字识别结果或文本抽取处理结果。

2.根据权利要求1所述的动态解析文本图像特征现象的元素自动捕获理解方法，其特征在于，所述图像预处理包括:

将第三目标图像经过二值化处理，得到二值化图像。

3.根据权利要求2所述的动态解析文本图像特征现象的元素自动捕获理解方法，其特征在于，将待处理文件的图像输入预先训练的图像校正网络中进行几何变化及畸变校正包括：

4.根据权利要求2所述的动态解析文本图像特征现象的元素自动捕获理解方法，其特征在于，所述文字检测包括：

将二值化图像输入预先训练的特征提取网络中；

5.根据权利要求4所述的动态解析文本图像特征现象的元素自动捕获理解方法，其特征在于，文字识别包括：通过预先训练的文字识别网络对矩形文本框内的文本内容进行字符识别，获取文本内容信息。

6.根据权利要求5所述的动态解析文本图像特征现象的元素自动捕获理解方法，其特征在于，所述文本提取包括：

基于基础语义分析引擎对文本内容信息进行字段分析处理；

7.根据权利要求6所述的动态解析文本图像特征现象的元素自动捕获理解方法，其特征在于，所述抽取需求包括：序列标注抽取、深度学习抽取及表格抽取。

8.根据权利要求7所述的动态解析文本图像特征现象的元素自动捕获理解方法，其特征在于，输入的待处理的文件同时存储至文件库，基于人工标注进行模型训练，以得到图像校正网络、特征提取网络、文字识别网络及深度学习抽取数据集合。

9.动态解析文本图像特征现象的元素自动捕获理解系统，其特征在于，包括：

文件解析单元（1），接收待处理文件，并解析待处理文件类型及格式；

图像预处理单元（2），修正解析后的待处理文件的图像成像问题；

文字检测单元（3），在修正图像成像问题的基础上检测待处理文件中文本的所在位置、范围及布局；

文字识别单元（4），在文字检测的基础上对文本内容进行识别；

文本提取单元（5），从文本识别结果中抽取需要的字段和/或要素；以及，

存储器（6）和处理器（7），所述存储器（6）上存储有能够被处理器（7）加载并执行如权利要求1至8中任一所述动态解析文本图像特征现象的元素自动捕获理解方法的计算机程序。

10.一种计算机可读存储介质，其特征在于，存储有能够被处理器（7）加载并执行如权利要求1至8中任一所述动态解析文本图像特征现象的元素自动捕获理解方法的计算机程序。