CN115690806B

CN115690806B - 一种基于图像数据处理的非结构化文档格式识别方法

Info

Publication number: CN115690806B
Application number: CN202211240100.2A
Authority: CN
Inventors: 金征雷; 周创; 张达平
Original assignee: Hangzhou Ruicheng Information Technology Co ltd
Current assignee: Hangzhou Ruicheng Information Technology Co ltd
Priority date: 2022-10-11
Filing date: 2022-10-11
Publication date: 2023-06-13
Anticipated expiration: 2042-10-11
Also published as: CN115690806A

Abstract

本发明公开了一种基于图像数据处理的非结构化文档格式识别方法，包括以下步骤：S1、打开文件并解析，将非结构化的文档格式转换为图片格式；S2、将S1获取到的图片进行角度校正，具体流程如下：a）对图片使用霍夫变换，检测出图像中各文本行直线角度。本发明通过将转换的图片进行矫正，使图片处于横平竖直状态，大大提高了OCR文本检测识别单元的识别率，并对识别单元识别的文本进行文本排版，保障了识别后的内容与原文件规范、样式上的一致性。

Description

一种基于图像数据处理的非结构化文档格式识别方法

技术领域

本发明涉及图像数据处理技术领域，尤其涉及一种基于图像数据处理的非结构化文档格式识别方法。

背景技术

随着AI和5G时代的到来，各级政府、企业对数字化的要求也越来越高，常规的结构化数据交互已经不能满足人们的需求，大量以非结构化文件为媒介的知识传递也对此类文件的解析提出了更深的要求。当数据交换形式为图片，现有的主流的识别类能力一般存在如下缺点，导致无法还原样式：

其一：对于文件中的文字的排版格式无法精准还原，比如标题、段首、段位、行首、行尾等排版方式，导致最终结果丢失排版样式；

其二：对于文件中的文本颜色无法识别判断，导致最终结果丢失颜色样式；

其三：对于文件中的文本字体无法准确地识别，导致最终结果丢失字体大小、字体类型等样式；

为解决上述问题，我们提出了一种基于图像数据处理的非结构化文档格式识别方法。

发明内容

本发明的目的是为了解决背景技术中的问题，而提出的一种基于图像数据处理的非结构化文档格式识别方法。

为了实现上述目的，本发明采用了如下技术方案：一种基于图像数据处理的非结构化文档格式识别方法，包括以下步骤：

S1、打开文件并解析，将非结构化的文档格式转换为图片格式；

S2、将S1获取到的图片进行角度校正，具体流程如下：

a)对图片使用霍夫变换，检测出图像中各文本行直线角度；霍夫变换公式如下：

ρ＝x*cosθ+y*cosθ；

其中：ρ是圆的半径(也可以理解为原点到直线的距离)，θ是直线与水平线所成的角度；

b)统计各角度所对应的文本行的数量，n1＝α1,n2＝α2，选取 n值最大的为文本倾斜角度α；

c)通过仿射变换旋转α度得到矫正图像，仿射变换公式如下：

x1'＝x1*cos(θ)+y1*sin(θ)；

y1'＝-x1*sin(θ)+y1*cos(θ)；

例如原始P1(x1,y1)，经过仿射变换后变为：

P1'(x1',y1'),P2'(x2',y2')；

S3、使用图像识别技术处理S2得到的图片，获取文本框文字的位置坐标(x1,y1,x2,y2)及文本框中文字内容，具体识别流程如下：

a)将图片输入到OCR文本检测识别单元；

b)获取OCR文本检测识别单元的识别结果，包含内容和位置信息；

S4、将S3识别到的各文本框依据坐标位置裁剪后依次输入到文字颜色识别单元、文字字体识别单元、文本类别检测单元；

其中文字颜色识别单元，具体识别流程如下：

a)读取图像数据，将图像转成HSV；

b)再经过高斯滤波找出字符轮廓；

c)获取轮廓范围内各像素点的像素值，如下所示：

p1[0-255,0-255,0-255],...pn[0-255,0-255,0-255]，选取次数最大的值作为该文本框内文本的颜色，公式如下：

Max(p1,...,pn)；

其中文字字体识别单元，具体识别流程如下：

a)将常用的字体类型通过图像分类网络，训练文字字体分类模型；

b)依次按文字框坐标裁剪为一张新的图片；

c)将裁剪好的图片输入到文字字体识别单元，经由训练好的字体识别深度神经网络模型进行识别，获取到该文字框内的字体及是否加粗的信息；

S5、将S4中的各文字依据文字框的坐标位置合并为同一行形成文本行，将文本行输入到文本排版格式识别单元，获取文本的排版信息，具体识别流程如下：

a)根据位置坐标合并为各文本行，以此为基准确定本图片的最长文本宽度，并标记为A；

b)按从上到下的顺序遍历其余的文本行的第一个字符并与基准文本行A的第一个字符位置做比较；

c)常规中文文本规范中段首需要空两个字符，可知该行是否为一个新的段落；

d)文本行的最后一个字符可以认其为该行的末尾；

e)对比文本行中的每一个字符，根据文字框的坐标间距，可知中间是否有空格；

S6、文本类别检测单元具体识别流程如下：

具体利用实体识别的方式获取文档信息，具体步骤包括：

建立标签集合：label＝{P-B,P-I,O}；

S7、将经由文字颜色识别单元、文字字体识别单元、文本排版格式识别单元、文本类别检测单元处理后的数据整合并输出为json格式字符串。

在上述的一种基于图像数据处理的非结构化文档格式识别方法中，S6中所述的文档信息包括主标题、正文、发文时间和署名。

在上述的一种基于图像数据处理的非结构化文档格式识别方法中，S4中所述的字体类型包括但不限于宋体、仿宋、微软雅黑、楷体及其对应加粗字体的样式中的一种。

与现有的技术相比，本基于图像数据处理的非结构化文档数据格式识别方法的优点在于：

1、经由图片角度矫正单元处理后对图片进行了矫正复位，保障了图片中文本信息都处于“横平竖直”状态，大幅降低了后续OCR文本检测识别单元的复杂度，提高了文本识别率；

2、经由文本排版格式识别单元处理后的文本，保留了原始文本文件的字体格式、字体样式、字体颜色、文本大小、文本位置信息，有效保障了识别后的内容和原文件规范、样式上的一致性。

3、针对常用文档格式，利用类别监测定向提取“主标题”、“正文”、“发文时间”、“署名”等关键实体信息；

附图说明

图1为本发明提出的一种基于图像数据处理的非结构化文档格式识别方法的信息提取流程图；

图2为本发明提出的一种基于图像数据处理的非结构化文档格式识别方法中字体识别流程图；

图3为本发明提出的一种基于图像数据处理的非结构化文档格式识别方法中颜色识别流程图；

图4为本发明提出的一种基于图像数据处理的非结构化文档格式识别方法中排版信息流程图；

图5为本发明提出的一种基于图像数据处理的非结构化文档格式识别方法中实体识别流程及文本字体、颜色、排版数据整合输出流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。

参照图1-5，一种基于图像数据处理的非结构化文档格式识别方法，包括以下步骤：

S2、将S1获取到的图片进行角度校正，具体流程如下：

ρ＝x*cosθ+y*cosθ；

其中：ρ是圆的半径(也可以理解为原点到直线的距离)，θ是直线与水平线成的角度；

b)统计各角度对应的文本行的数量，n1＝α1,n2＝α2，选取n 值最大的为文本倾斜角度α；

c)通过仿射变换旋转α度得到矫正图像，仿射变换公式如下：

x1'＝x1*cos(θ)+y1*sin(θ)；

y1'＝-x1*sin(θ)+y1*cos(θ)；

例如原始P1(x1,y1)，经过仿射变换后变为：

P1'(x1',y1'),P2'(x2',y2')；

a)将图片输入到OCR文本检测识别单元；

其中文字颜色识别单元，具体识别流程如下：

a)读取图像数据，将图像转成HSV；

b)再经过高斯滤波找出字符轮廓；

c)获取轮廓范围内各像素点的像素值，如下示：

Max(p1,...,pn)；

其中文字字体识别单元，具体识别流程如下：

b)依次按文字框坐标裁剪为一张新的图片；

S4中的字体类型包括但不限于宋体、仿宋、微软雅黑、楷体及其对应加粗字体的样式中的一种；

d)文本行的最后一个字符可以认其为该行的末尾；

S6、文本类别检测单元具体识别流程如下：

具体利用实体识别的方式获取文档信息，具体步骤包括：

建立标签集合：label＝{P-B,P-I,O}；

S6中的文档信息包括主标题、正文、发文时间和署名；

例如需要被抽取实体为“主标题”，其标签集合可以定义为：

label＝{P-B,P-I,O}；

每个标签的结果只有B、I、O三种，这种标签的定义方式叫做 BIO体系。其中B表示一个标签类别的开头，比如P-B指的是主标题的开头；相应地，I表示一个标签的延续。

对于句子“数学部辅导教学文件”，每个字符及对应标签为：

|P-B|P-I|P-I|P-I|P-I|P-I|P-I|P-I|P-I|

注意到“数“、”学”在这里表示成了“P-B”和“P-I”，反过来讲，得到“P-B”和“P-I”这样的序列，也可以合并成“P”这个标签。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于图像数据处理的非结构化文档格式识别方法，其特征在于，包括以下步骤：

S2、将S1获取到的图片进行角度校正，具体流程如下：

ρ＝x*cosθ+y*cosθ；

其中：ρ是圆原点到直线的距离，θ是直线与水平线所成的角度；

b)统计各角度所对应的文本行的数量，n1＝α1,n2＝α2，选取n值最大的为文本倾斜角度α；

c)通过仿射变换旋转α度得到矫正图像，仿射变换公式如下：

x1'＝x1*cos(θ)+y1*sin(θ)；

y1'＝-x1*sin(θ)+y1*cos(θ)；

例如原始P1(x1,y1)，经过仿射变换后变为：

P1'(x1',y1'),P2'(x2',y2')；

a)将图片输入到OCR文本检测识别单元；

其中文字颜色识别单元，具体识别流程如下：

a)读取图像数据，将图像转成HSV；

b)再经过高斯滤波找出字符轮廓；

c)获取轮廓范围内各像素点的像素值，如下所示：

p1[0-255,0-255,0-255],...pn[0-255,0-255,0-255]，选取次数出现最多的值作为该文本框内文本的颜色，公式如下：

Max(p1,...,pn)；

其中文字字体识别单元，具体识别流程如下：

b)依次按文字框坐标裁剪为一张新的图片；

d)文本行的最后一个字符可以认其为该行的末尾；

S6、文本类别检测单元具体识别流程如下：

具体利用实体识别的方式获取文档信息，具体步骤包括：

建立标签集合：label＝{P-B,P-I,O}；

2.根据权利要求1所述的一种基于图像数据处理的非结构化文档格式识别方法，其特征在于，S6中所述的文档信息包括主标题、正文、发文时间和署名。

3.根据权利要求1所述的一种基于图像数据处理的非结构化文档格式识别方法，其特征在于，S4中所述的字体类型包括但不限于宋体、仿宋、微软雅黑、楷体及其对应加粗字体的样式中的一种。