CN115690806B - 一种基于图像数据处理的非结构化文档格式识别方法 - Google Patents

一种基于图像数据处理的非结构化文档格式识别方法 Download PDF

Info

Publication number
CN115690806B
CN115690806B CN202211240100.2A CN202211240100A CN115690806B CN 115690806 B CN115690806 B CN 115690806B CN 202211240100 A CN202211240100 A CN 202211240100A CN 115690806 B CN115690806 B CN 115690806B
Authority
CN
China
Prior art keywords
text
picture
character
font
line
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202211240100.2A
Other languages
English (en)
Other versions
CN115690806A (zh
Inventor
金征雷
周创
张达平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Ruicheng Information Technology Co ltd
Original Assignee
Hangzhou Ruicheng Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Ruicheng Information Technology Co ltd filed Critical Hangzhou Ruicheng Information Technology Co ltd
Priority to CN202211240100.2A priority Critical patent/CN115690806B/zh
Publication of CN115690806A publication Critical patent/CN115690806A/zh
Application granted granted Critical
Publication of CN115690806B publication Critical patent/CN115690806B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Character Input (AREA)
  • Character Discrimination (AREA)

Abstract

本发明公开了一种基于图像数据处理的非结构化文档格式识别方法,包括以下步骤:S1、打开文件并解析,将非结构化的文档格式转换为图片格式;S2、将S1获取到的图片进行角度校正,具体流程如下:a)对图片使用霍夫变换,检测出图像中各文本行直线角度。本发明通过将转换的图片进行矫正,使图片处于横平竖直状态,大大提高了OCR文本检测识别单元的识别率,并对识别单元识别的文本进行文本排版,保障了识别后的内容与原文件规范、样式上的一致性。

Description

一种基于图像数据处理的非结构化文档格式识别方法
技术领域
本发明涉及图像数据处理技术领域,尤其涉及一种基于图像数据处理的非结构化文档格式识别方法。
背景技术
随着AI和5G时代的到来,各级政府、企业对数字化的要求也越来越高,常规的结构化数据交互已经不能满足人们的需求,大量以非结构化文件为媒介的知识传递也对此类文件的解析提出了更深的要求。当数据交换形式为图片,现有的主流的识别类能力一般存在如下缺点,导致无法还原样式:
其一:对于文件中的文字的排版格式无法精准还原,比如标题、段首、段位、行首、行尾等排版方式,导致最终结果丢失排版样式;
其二:对于文件中的文本颜色无法识别判断,导致最终结果丢失颜色样式;
其三:对于文件中的文本字体无法准确地识别,导致最终结果丢失字体大小、字体类型等样式;
为解决上述问题,我们提出了一种基于图像数据处理的非结构化文档格式识别方法。
发明内容
本发明的目的是为了解决背景技术中的问题,而提出的一种基于图像数据处理的非结构化文档格式识别方法。
为了实现上述目的,本发明采用了如下技术方案:一种基于图像数据处理的非结构化文档格式识别方法,包括以下步骤:
S1、打开文件并解析,将非结构化的文档格式转换为图片格式;
S2、将S1获取到的图片进行角度校正,具体流程如下:
a)对图片使用霍夫变换,检测出图像中各文本行直线角度;霍夫变换公式如下:
ρ=x*cosθ+y*cosθ;
其中:ρ是圆的半径(也可以理解为原点到直线的距离),θ是直线与水平线所成的角度;
b)统计各角度所对应的文本行的数量,n1=α1,n2=α2,选取 n值最大的为文本倾斜角度α;
c)通过仿射变换旋转α度得到矫正图像,仿射变换公式如下:
x1'=x1*cos(θ)+y1*sin(θ);
y1'=-x1*sin(θ)+y1*cos(θ);
例如原始P1(x1,y1),经过仿射变换后变为:
P1'(x1',y1'),P2'(x2',y2');
S3、使用图像识别技术处理S2得到的图片,获取文本框文字的位置坐标(x1,y1,x2,y2)及文本框中文字内容,具体识别流程如下:
a)将图片输入到OCR文本检测识别单元;
b)获取OCR文本检测识别单元的识别结果,包含内容和位置信息;
S4、将S3识别到的各文本框依据坐标位置裁剪后依次输入到文字颜色识别单元、文字字体识别单元、文本类别检测单元;
其中文字颜色识别单元,具体识别流程如下:
a)读取图像数据,将图像转成HSV;
b)再经过高斯滤波找出字符轮廓;
c)获取轮廓范围内各像素点的像素值,如下所示:
p1[0-255,0-255,0-255],...pn[0-255,0-255,0-255],选取次数最大的值作为该文本框内文本的颜色,公式如下:
Max(p1,...,pn);
其中文字字体识别单元,具体识别流程如下:
a)将常用的字体类型通过图像分类网络,训练文字字体分类模型;
b)依次按文字框坐标裁剪为一张新的图片;
c)将裁剪好的图片输入到文字字体识别单元,经由训练好的字体识别深度神经网络模型进行识别,获取到该文字框内的字体及是否加粗的信息;
S5、将S4中的各文字依据文字框的坐标位置合并为同一行形成文本行,将文本行输入到文本排版格式识别单元,获取文本的排版信息,具体识别流程如下:
a)根据位置坐标合并为各文本行,以此为基准确定本图片的最长文本宽度,并标记为A;
b)按从上到下的顺序遍历其余的文本行的第一个字符并与基准文本行A的第一个字符位置做比较;
c)常规中文文本规范中段首需要空两个字符,可知该行是否为一个新的段落;
d)文本行的最后一个字符可以认其为该行的末尾;
e)对比文本行中的每一个字符,根据文字框的坐标间距,可知中间是否有空格;
S6、文本类别检测单元具体识别流程如下:
具体利用实体识别的方式获取文档信息,具体步骤包括:
建立标签集合:label={P-B,P-I,O};
S7、将经由文字颜色识别单元、文字字体识别单元、文本排版格式识别单元、文本类别检测单元处理后的数据整合并输出为json格式字符串。
在上述的一种基于图像数据处理的非结构化文档格式识别方法中,S6中所述的文档信息包括主标题、正文、发文时间和署名。
在上述的一种基于图像数据处理的非结构化文档格式识别方法中,S4中所述的字体类型包括但不限于宋体、仿宋、微软雅黑、楷体及其对应加粗字体的样式中的一种。
与现有的技术相比,本基于图像数据处理的非结构化文档数据格式识别方法的优点在于:
1、经由图片角度矫正单元处理后对图片进行了矫正复位,保障了图片中文本信息都处于“横平竖直”状态,大幅降低了后续OCR文本检测识别单元的复杂度,提高了文本识别率;
2、经由文本排版格式识别单元处理后的文本,保留了原始文本文件的字体格式、字体样式、字体颜色、文本大小、文本位置信息,有效保障了识别后的内容和原文件规范、样式上的一致性。
3、针对常用文档格式,利用类别监测定向提取“主标题”、“正文”、“发文时间”、“署名”等关键实体信息;
附图说明
图1为本发明提出的一种基于图像数据处理的非结构化文档格式识别方法的信息提取流程图;
图2为本发明提出的一种基于图像数据处理的非结构化文档格式识别方法中字体识别流程图;
图3为本发明提出的一种基于图像数据处理的非结构化文档格式识别方法中颜色识别流程图;
图4为本发明提出的一种基于图像数据处理的非结构化文档格式识别方法中排版信息流程图;
图5为本发明提出的一种基于图像数据处理的非结构化文档格式识别方法中实体识别流程及文本字体、颜色、排版数据整合输出流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。
参照图1-5,一种基于图像数据处理的非结构化文档格式识别方法,包括以下步骤:
S1、打开文件并解析,将非结构化的文档格式转换为图片格式;
S2、将S1获取到的图片进行角度校正,具体流程如下:
a)对图片使用霍夫变换,检测出图像中各文本行直线角度;霍夫变换公式如下:
ρ=x*cosθ+y*cosθ;
其中:ρ是圆的半径(也可以理解为原点到直线的距离),θ是直线与水平线成的角度;
b)统计各角度对应的文本行的数量,n1=α1,n2=α2,选取n 值最大的为文本倾斜角度α;
c)通过仿射变换旋转α度得到矫正图像,仿射变换公式如下:
x1'=x1*cos(θ)+y1*sin(θ);
y1'=-x1*sin(θ)+y1*cos(θ);
例如原始P1(x1,y1),经过仿射变换后变为:
P1'(x1',y1'),P2'(x2',y2');
S3、使用图像识别技术处理S2得到的图片,获取文本框文字的位置坐标(x1,y1,x2,y2)及文本框中文字内容,具体识别流程如下:
a)将图片输入到OCR文本检测识别单元;
b)获取OCR文本检测识别单元的识别结果,包含内容和位置信息;
S4、将S3识别到的各文本框依据坐标位置裁剪后依次输入到文字颜色识别单元、文字字体识别单元、文本类别检测单元;
其中文字颜色识别单元,具体识别流程如下:
a)读取图像数据,将图像转成HSV;
b)再经过高斯滤波找出字符轮廓;
c)获取轮廓范围内各像素点的像素值,如下示:
p1[0-255,0-255,0-255],...pn[0-255,0-255,0-255],选取次数最大的值作为该文本框内文本的颜色,公式如下:
Max(p1,...,pn);
其中文字字体识别单元,具体识别流程如下:
a)将常用的字体类型通过图像分类网络,训练文字字体分类模型;
b)依次按文字框坐标裁剪为一张新的图片;
c)将裁剪好的图片输入到文字字体识别单元,经由训练好的字体识别深度神经网络模型进行识别,获取到该文字框内的字体及是否加粗的信息;
S4中的字体类型包括但不限于宋体、仿宋、微软雅黑、楷体及其对应加粗字体的样式中的一种;
S5、将S4中的各文字依据文字框的坐标位置合并为同一行形成文本行,将文本行输入到文本排版格式识别单元,获取文本的排版信息,具体识别流程如下:
a)根据位置坐标合并为各文本行,以此为基准确定本图片的最长文本宽度,并标记为A;
b)按从上到下的顺序遍历其余的文本行的第一个字符并与基准文本行A的第一个字符位置做比较;
c)常规中文文本规范中段首需要空两个字符,可知该行是否为一个新的段落;
d)文本行的最后一个字符可以认其为该行的末尾;
e)对比文本行中的每一个字符,根据文字框的坐标间距,可知中间是否有空格;
S6、文本类别检测单元具体识别流程如下:
具体利用实体识别的方式获取文档信息,具体步骤包括:
建立标签集合:label={P-B,P-I,O};
S6中的文档信息包括主标题、正文、发文时间和署名;
例如需要被抽取实体为“主标题”,其标签集合可以定义为:
label={P-B,P-I,O};
每个标签的结果只有B、I、O三种,这种标签的定义方式叫做 BIO体系。其中B表示一个标签类别的开头,比如P-B指的是主标题的开头;相应地,I表示一个标签的延续。
对于句子“数学部辅导教学文件”,每个字符及对应标签为:
|P-B|P-I|P-I|P-I|P-I|P-I|P-I|P-I|P-I|
注意到“数“、”学”在这里表示成了“P-B”和“P-I”,反过来讲,得到“P-B”和“P-I”这样的序列,也可以合并成“P”这个标签。
S7、将经由文字颜色识别单元、文字字体识别单元、文本排版格式识别单元、文本类别检测单元处理后的数据整合并输出为json格式字符串。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (3)

1.一种基于图像数据处理的非结构化文档格式识别方法,其特征在于,包括以下步骤:
S1、打开文件并解析,将非结构化的文档格式转换为图片格式;
S2、将S1获取到的图片进行角度校正,具体流程如下:
a)对图片使用霍夫变换,检测出图像中各文本行直线角度;霍夫变换公式如下:
ρ=x*cosθ+y*cosθ;
其中:ρ是圆原点到直线的距离,θ是直线与水平线所成的角度;
b)统计各角度所对应的文本行的数量,n1=α1,n2=α2,选取n值最大的为文本倾斜角度α;
c)通过仿射变换旋转α度得到矫正图像,仿射变换公式如下:
x1'=x1*cos(θ)+y1*sin(θ);
y1'=-x1*sin(θ)+y1*cos(θ);
例如原始P1(x1,y1),经过仿射变换后变为:
P1'(x1',y1'),P2'(x2',y2');
S3、使用图像识别技术处理S2得到的图片,获取文本框文字的位置坐标(x1,y1,x2,y2)及文本框中文字内容,具体识别流程如下:
a)将图片输入到OCR文本检测识别单元;
b)获取OCR文本检测识别单元的识别结果,包含内容和位置信息;
S4、将S3识别到的各文本框依据坐标位置裁剪后依次输入到文字颜色识别单元、文字字体识别单元、文本类别检测单元;
其中文字颜色识别单元,具体识别流程如下:
a)读取图像数据,将图像转成HSV;
b)再经过高斯滤波找出字符轮廓;
c)获取轮廓范围内各像素点的像素值,如下所示:
p1[0-255,0-255,0-255],...pn[0-255,0-255,0-255],选取次数出现最多的值作为该文本框内文本的颜色,公式如下:
Max(p1,...,pn);
其中文字字体识别单元,具体识别流程如下:
a)将常用的字体类型通过图像分类网络,训练文字字体分类模型;
b)依次按文字框坐标裁剪为一张新的图片;
c)将裁剪好的图片输入到文字字体识别单元,经由训练好的字体识别深度神经网络模型进行识别,获取到该文字框内的字体及是否加粗的信息;
S5、将S4中的各文字依据文字框的坐标位置合并为同一行形成文本行,将文本行输入到文本排版格式识别单元,获取文本的排版信息,具体识别流程如下:
a)根据位置坐标合并为各文本行,以此为基准确定本图片的最长文本宽度,并标记为A;
b)按从上到下的顺序遍历其余的文本行的第一个字符并与基准文本行A的第一个字符位置做比较;
c)常规中文文本规范中段首需要空两个字符,可知该行是否为一个新的段落;
d)文本行的最后一个字符可以认其为该行的末尾;
e)对比文本行中的每一个字符,根据文字框的坐标间距,可知中间是否有空格;
S6、文本类别检测单元具体识别流程如下:
具体利用实体识别的方式获取文档信息,具体步骤包括:
建立标签集合:label={P-B,P-I,O};
S7、将经由文字颜色识别单元、文字字体识别单元、文本排版格式识别单元、文本类别检测单元处理后的数据整合并输出为json格式字符串。
2.根据权利要求1所述的一种基于图像数据处理的非结构化文档格式识别方法,其特征在于,S6中所述的文档信息包括主标题、正文、发文时间和署名。
3.根据权利要求1所述的一种基于图像数据处理的非结构化文档格式识别方法,其特征在于,S4中所述的字体类型包括但不限于宋体、仿宋、微软雅黑、楷体及其对应加粗字体的样式中的一种。
CN202211240100.2A 2022-10-11 2022-10-11 一种基于图像数据处理的非结构化文档格式识别方法 Active CN115690806B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211240100.2A CN115690806B (zh) 2022-10-11 2022-10-11 一种基于图像数据处理的非结构化文档格式识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211240100.2A CN115690806B (zh) 2022-10-11 2022-10-11 一种基于图像数据处理的非结构化文档格式识别方法

Publications (2)

Publication Number Publication Date
CN115690806A CN115690806A (zh) 2023-02-03
CN115690806B true CN115690806B (zh) 2023-06-13

Family

ID=85063716

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211240100.2A Active CN115690806B (zh) 2022-10-11 2022-10-11 一种基于图像数据处理的非结构化文档格式识别方法

Country Status (1)

Country Link
CN (1) CN115690806B (zh)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109993160A (zh) * 2019-02-18 2019-07-09 北京联合大学 一种图像矫正及文本与位置识别方法及系统
CN114140803A (zh) * 2022-01-30 2022-03-04 杭州实在智能科技有限公司 基于深度学习的文档单字坐标检测和修正方法及系统

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103118342A (zh) * 2013-01-22 2013-05-22 中兴通讯股份有限公司 多媒体信息发送、接收、传输方法及卡片发送、接收终端
CN110322522B (zh) * 2019-07-11 2023-06-16 山东领能电子科技有限公司 一种基于目标识别区域截取的车辆颜色识别方法
CN111062365B (zh) * 2019-12-30 2023-05-26 上海肇观电子科技有限公司 识别混合排版文字的方法、设备、芯片电路和计算机可读存储介质
CN111259892B (zh) * 2020-01-19 2023-07-04 福建升腾资讯有限公司 一种指示灯状态的巡检方法、装置、设备和介质
CN112434699A (zh) * 2020-11-25 2021-03-02 杭州六品文化创意有限公司 手写汉字或偏旁、笔划的自动提取及智能评分系统
CN112861865B (zh) * 2021-01-29 2024-03-29 国网内蒙古东部电力有限公司 一种基于ocr技术的辅助审计方法
CN112801084A (zh) * 2021-01-29 2021-05-14 杭州大拿科技股份有限公司 图像处理方法及装置、电子设备和存储介质
CN112949261A (zh) * 2021-02-04 2021-06-11 维沃移动通信有限公司 文本还原方法、装置及电子设备
CN113408251B (zh) * 2021-06-30 2023-08-18 北京百度网讯科技有限公司 版式文档的处理方法、装置、电子设备及可读存储介质
CN113515928B (zh) * 2021-07-13 2023-03-28 抖音视界有限公司 电子文本生成方法、装置、设备及介质
CN113723252A (zh) * 2021-08-23 2021-11-30 上海财联社金融科技有限公司 一种表格型文本图片的识别方法和系统
CN113743056A (zh) * 2021-09-09 2021-12-03 掌阅科技股份有限公司 基于段落缩进量的文档转换方法、计算设备及存储介质
CN114066993B (zh) * 2021-10-25 2024-03-22 华南理工大学 基于机器视觉的配电柜控制面板分割方法
CN114241492A (zh) * 2021-12-17 2022-03-25 黑盒科技(广州)有限公司 一种识别作文稿纸的手写文本识别并复现文本结构的方法
CN114299528B (zh) * 2021-12-27 2024-03-22 万达信息股份有限公司 一种针对扫描文档的信息提取和结构化方法
CN114724166A (zh) * 2022-04-15 2022-07-08 北京百度网讯科技有限公司 一种标题抽取模型的生成方法、装置及电子设备
CN115063802A (zh) * 2022-05-12 2022-09-16 吉林省吉林祥云信息技术有限公司 一种基于PSENet的圆形印章识别方法、设备及介质
CN114926840A (zh) * 2022-05-13 2022-08-19 贵州大学 一种影印pdf转可复制pdf方法及系统

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109993160A (zh) * 2019-02-18 2019-07-09 北京联合大学 一种图像矫正及文本与位置识别方法及系统
CN114140803A (zh) * 2022-01-30 2022-03-04 杭州实在智能科技有限公司 基于深度学习的文档单字坐标检测和修正方法及系统

Also Published As

Publication number Publication date
CN115690806A (zh) 2023-02-03

Similar Documents

Publication Publication Date Title
Yu et al. A generic system for form dropout
Namboodiri et al. Document structure and layout analysis
Dongre et al. Devnagari document segmentation using histogram approach
Hanusiak et al. Writer verification using texture-based features
CN110619326B (zh) 一种基于扫描的英语试卷作文检测识别系统及方法
CN111242024A (zh) 基于机器学习识别图纸内图例及文字的方法及系统
CN112651323B (zh) 一种基于文本行检测的中文手写体识别方法及系统
CN113901952A (zh) 一种基于深度学习的印刷体与手写体分开文字识别方法
CN116704523B (zh) 一种用于出版印刷设备的文字排版图像识别系统
CN113139457A (zh) 一种基于crnn的图片表格提取方法
CN112364834A (zh) 一种基于深度学习和图像处理的表格识别的还原方法
JP2004272798A (ja) 画像読み取り装置
CN115909375A (zh) 一种基于智能识别的报表分析方法
Aravinda et al. Template matching method for Kannada handwritten recognition based on correlation analysis
CN115690806B (zh) 一种基于图像数据处理的非结构化文档格式识别方法
Puri et al. Text recognition in bilingual machine printed image documents—Challenges and survey: A review on principal and crucial concerns of text extraction in bilingual printed images
Dongre et al. Segmentation of printed Devnagari documents
CN115311666A (zh) 图文识别方法、装置、计算机设备及存储介质
Thilagavathy et al. Recognition of distorted character using edge detection algorithm
Kumar et al. Line based robust script identification for indianlanguages
CN109871910B (zh) 一种手写字符识别方法及装置
Choksi et al. Hindi optical character recognition for printed documents using fuzzy k-nearest neighbor algorithm: a problem approach in character segmentation
CN115995080B (zh) 基于ocr识别的档案智能管理系统
Mahasukhon et al. Hand-printed English character recognition based on fuzzy theory
Siras et al. A Deep Learning Approach for Digitization of Invoices

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant