CN114998905A - 一种复杂结构化文档内容的校验方法、装置与设备 - Google Patents

一种复杂结构化文档内容的校验方法、装置与设备 Download PDF

Info

Publication number
CN114998905A
CN114998905A CN202210729398.7A CN202210729398A CN114998905A CN 114998905 A CN114998905 A CN 114998905A CN 202210729398 A CN202210729398 A CN 202210729398A CN 114998905 A CN114998905 A CN 114998905A
Authority
CN
China
Prior art keywords
text
content
image data
subject
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210729398.7A
Other languages
English (en)
Inventor
黄道友
罗沙
康健
方登洲
姚庭镜
宋东波
高博
秦金飞
秦少瑞
钟跃
蒋伟
项治国
于启万
周少波
汪伟伟
徐旭东
李志鹏
白天宇
金勇�
靳继斌
何海涛
唐怀东
陈胜东
方隽杰
卢海亮
吕孝平
樊承鹏
章兵
郑飞翔
张�杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Bozhou Power Supply Co of State Grid Anhui Electric Power Co Ltd
Original Assignee
Bozhou Power Supply Co of State Grid Anhui Electric Power Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Bozhou Power Supply Co of State Grid Anhui Electric Power Co Ltd filed Critical Bozhou Power Supply Co of State Grid Anhui Electric Power Co Ltd
Priority to CN202210729398.7A priority Critical patent/CN114998905A/zh
Publication of CN114998905A publication Critical patent/CN114998905A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/413Classification of content, e.g. text, photographs or tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/16Image preprocessing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/191Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
    • G06V30/19173Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/412Layout analysis of documents structured with printed lines or input boxes, e.g. business forms or tables

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Character Discrimination (AREA)

Abstract

本发明提出了一种复杂结构化文档内容的校验方法、装置与设备,其中方法包括以下步骤:步骤1、读取等待分析的目标文档的图像数据;步骤2、对获取到的图像数据进行预处理操作;步骤3、对经过预处理后的图像数据进行形式分析,并按需标记;步骤4、构建印章检测模型,并对图像数据进行分析;步骤5、构建文本检测模型,进行文本分析;步骤6、提取目标文本框区域中的图像信息,并针对所需内容进行目标内容提取;步骤7、对提取到的目标内容进行校验;步骤8、根据用户需求以及校验结果,输出用户所需的文本信息。本发明通过对复杂文档的检测识别,减少了文本交叠区域对识别结果的影响,同时附带内容校验和交互功能,提高文档校验的工作效率。

Description

一种复杂结构化文档内容的校验方法、装置与设备
技术领域
本发明涉及机器视觉和人工智能的技术领域,特别是涉及一种复杂结构化文档内容的校验方法、装置与设备。
背景技术
传统人工查验文档信息需要集中精力挨个查阅,容易疲劳,且易造成错误。基于机器视觉的文档内容校验方法依据文本检测识别技术,能够更便捷、高效地获取文件信息,提高检验工作效率,因此,逐渐在人们的生产生活当中占据越来重要的地位,以及体现在越来越广泛的应用中。
现有技术在文本检测识别方法更多的是对打印文档的识别,内容为顺序排列的字体,例如超市小票和检查报告的识别,识别较为简单。但对诸如工程档案一类的复杂文档,有横排打印体文本、连笔手写体签名、环形排列的印章文本等多方面的内容,复杂多样,且存在文本的交叠情况,因此检测识别难度较大,现有的文本检测识别方法无法胜任。
发明内容
发明目的:提出一种复杂结构化文档内容的校验方法、装置与设备,以解决现有技术存在的上述问题。通过对复杂文档的识别检测,实现工程文档中打印体内容、手写体内容、印章内容的检测识别,并提取位置信息,减少文本交叠区域对识别结果的影响。
技术方案:第一方面,提出了一种复杂结构化文档内容的校验方法,该方法具体包括以下步骤:
步骤1、读取等待分析的目标文档的图像数据,存储为第一图像数据;
步骤2、对第一图像数据进行预处理操作,存储为第二图像数据;
步骤3、对第二图像数据进行形式分析,并按需标记,输出为第三图像数据;
步骤4、构建印章检测模型,将第三图像数据导入至所述印章检测模型进行数据分析,输出为第四图像数据;
步骤5、构建文本检测模型,将第四图像数据导入至文本检测模型中进行数据分析,输出为第五图像数据;
步骤6、构建文本识别模型,聚焦第五图像数据中目标文本框区域中的图像信息,按需提取目标内容;
步骤7、对提取到的目标内容进行校验;
步骤8、根据用户需求以及校验结果,输出用户所需的文本信息。
在第一方面的一些可实现方式中,通过图像尺寸重置操作和图像锐化操作对第一图像数据进行预处理分析;所述图像锐化操作采用将原图像和拉普拉斯图像做差运算的方式,获得锐化图像。
在分析第二图像数据的时候,采用直线检测捕捉单元格的方法,对图像数据中的表格进行识别分析,并对相应的识别结果进行序号位置标记。
采用构建的印章检测模型进行图像数据分析,通过生成的印章检测框对每个印章区域进行编号,同时生成印章个数和中心点关键数据,并用于为后续的文档分析提供依据。
所述印章检测模型主干网路采用融合了深度可分离卷积、具有线性瓶颈的倒残差结构和squeeze and excitation注意力结构的轻量级注意力模型,同时采用Hard-Swish作为激活函数。
采用构建的构建文本检测模型进行图像数据分析,生成横排打印体文本框、手写体文本框、印章文本框,并标记对应的类别信息。随后,采用构建的文本识别模型进行图像数据分析,对打印体文本框、手写体文本框、印章文本框内容进行识别,获得整体的文本内容。
其中,横排打印文本框中包含标题文本和内容文本;印章文本框中包含圆形分布文本框和线性排列分布文本框;文本检测模型针对分类的任务需求,在模型的输出端添加分类支路,使得文本检测模型可实现对所有检测框的分类;进一步的,所述文本检测模型输出端的分类支路由一层卷积Conv和两层反卷积DeConv组成。
通过构建主题词库、确定各主题词区域信息,完成对提取到的目标内容进行校验;对文档内容进行校验的类别包括:按对象划分和按任务划分;按对象划分包括:表格文档内容校验和非表格内容校验;按任务划分包括:主题词内容校验和印章校验。首先构建主题词库用于为下文内容校验做铺垫;随后,根据需求检索题目信息,调用与之对应的主题词库,并匹配主题词库信息和文本检测结果,划分各主题词所属区域。
其中,校验过程包括以下步骤:
步骤7.1、构建主题词库;所述主题词库包括:主题词索引库和特定主题词库;
所述主题词索引库用于横排打印体文本的区域定位和内容检验任务;
所述特定主题词库用于手写体签名和公章的内容检验任务;
步骤7.2、根据文本识别结果与位置数据,确定各主题词所属区域;
步骤7.3、判断各主题词所属区域内是否有打印体或手写体文本内容;
步骤7.4、基于表格的检测结果进行印章校验。
进一步的,对于表格文档校验,选定与印章相关的主题词所在的单元格,检验单元格内是否有印章,有则表示印章齐全,没有则表示需要添加印章;
对于非表格文档校验,检验内容分两部分,一是检验印章数量与相关主题词数量是否一致,二是检验距离相关主题词一定范围内是否有印章。
对提取到的目标内容进行校还包括判定主题词内容和印章信息是否完整,当检测的结果为存在信息缺失情况时,则在交互界面显示缺少信息的主题词。进一步的,主题词内容完整的检验,即判断各主题词所属区域内是否有除主题词外的其他内容;印章信息完整的检验,即判断公章是否完整。
第二方面,提出一种复杂结构化文档内容的校验装置,该装置具体包括以下单元:
图像获取单元,用于获取待检测图像数据;
检测识别单元,用于接收图像获取单元获取到的图像数据,并进行内容区域的检测,以及文字内容的识别;
主题词库存储单元,用于存储不同文档模板的主题词库信息,支持增加、删除和修改的功能;
区域确定单元,用于根据文档信息选择主题词库存储单元中对应的主题词库,再依据主题词库信息和检测识别结果,确定各主题词所属区域,同时附带内容校验功能,即确定所属区域内容是否完整;
内容校验单元,用于根据区域选择单元输出结果,判断个主题词区域信息完整度;输入输出单元,包括输入单元和输出单元;输入单元用于输入所需的主题词;输出单元用于输出处理结果;其中输出的处理结果包括信息完整度以及主题词信息。
第三方面,提出一种复杂结构化文档内容的校验设备,该设备具体包括:
处理器,用于执行相关程序,当程序执行时,可实现文档信息检测识别和检验功能;
存储器,用于存储相关程序和数据;
输入设备,用于文档图或视频数据的输入和交互界面的指令输入;
输出设备,用于交互界面内容完整度和特定信息的输出。
有益效果:本发明提出了一种复杂结构化文档内容的校验方法、装置与设备,通过对复杂文档的检测识别,提取目标位置信息,减少文本交叠区域对识别结果的影响,附带内容校验和交互功能。同时,基于内容校验的方式构建主题词库,通过主题词数据提取,输入特定主题词,在遍历识别结果后,捕捉主题词位置,并输出主题词后面对应的内容,实现特定数据的提取,提高文档校验的工作效率。
附图说明
图1为本发明的数据处理流程图。
图2为本发明某实施例的数据处理流程图。
图3为本发明拉普拉斯二阶微分算子表达式示意图。
图4为本发明图像锐化卷积核示意图。
图5为本发明文本检测模型的结构示意图。
图6为本发明复杂文档示意图。
图7为本发明某实施例交互界面示意图。
图8为本发明校验装置的结构示意图。
图9为本发明识别设备的结构示意图。
具体实施方式
在下文的描述中,给出了大量具体的细节以便提供对本发明更为彻底的理解。然而,对于本领域技术人员而言显而易见的是,本发明可以无需一个或多个这些细节而得以实施。在其他的例子中,为了避免与本发明发生混淆,对于本领域公知的一些技术特征未进行描述。
随着用户对文档识别检测需求的提高,现有技术中的文档识别检测技术难以适用存在复杂结构的文档。现有文本检测识别方法只有信息显示功能,没有内容校验功能,因此,现有的文本检测识别方法大多只能识别简单的打印体文本,对于复杂的、具有多种内容格式的、存在内容交叠情况的文档,识别能力弱,无法满足要求。因此本发明提出一种复杂结构化文档内容的校验方法、装置与设备,首先,采用目标检测与识别模型对文档图片进行处理,根据识别出的表头题目调用相关的关键词模板。将识别结果与关键词相匹配,定位关键词位置区域,从而计算关键词所属区域,搜索区域中的文本信息,判断是否有内容缺失的情况。进一步的,依据输入的关键词,查找对应关键词索引,检索所属区域的内容信息,并输出。从而实现工程文档中打印体内容、手写体内容、印章内容的检测识别,并提取位置信息,减少文本交叠区域对识别结果的影响。
实施例一
在一个实施例中,提出一种复杂结构化文档内容的校验方法,如图1所示,该方法具体包括以下步骤:
步骤1、读取等待分析的目标文档的图像数据,存储为第一图像数据;
步骤2、对第一图像数据进行预处理操作,存储为第二图像数据;
步骤3、对第二图像数据进行形式分析,并按需标记,输出为第三图像数据;
步骤4、构建印章检测模型,将第三图像数据导入至所述印章检测模型进行数据分析,输出为第四图像数据;
步骤5、构建文本检测模型,将第四图像数据导入至文本检测模型中进行数据分析,输出为第五图像数据;
步骤6、构建文本识别模型,聚焦第五图像数据中目标文本框区域中的图像信息,按需提取目标内容;
步骤7、对提取到的目标内容进行校验;
步骤8、根据用户需求以及校验结果,输出用户所需的文本信息。
优选实施例中,如图2所示,首先通过终端信息采集设备获取待检测的文档图片数据;其次,采用图像尺寸重置和图像锐化的操作对文档图片数据进行预处理操作;再次,对经过预处理后的文档图片数据进行内容检测分析,并根据文本识别的任务目标进行主题提取;从次,根据用户需求,检索主题对应内容;最后,将检索到文本内容根据终端呈现形式进行输出。
内容检测识别分析的过程中,具体包括表格检测、印章检测、文本检测和文本识别。针对表格形式的文档,利用直线检测捕捉文档中的单元格,并进行序号位置标记。针对印章形式的文档,利用YOLOv5模型生成印章检测框,并对每个印章区域进行编号。针对文本检测,采用文本检测模型检测横排打印体文本、手写体文本、弧形分布的印章文本,并标记相对应的类别。针对文本识别,采用文本识别模型识别各文本框内的内容。优选实施例中,对于待检测结构化文档,若存在表格格式,则利用横线与竖线检测提取个单元格四个角点信息,并对各单元格进行排序编号;若不存在表格格式,则省略当前操作。
相比于现有技术对复杂文档检测的研究中,只涉及打印体文本与印章内容的检测,其研究对象缺少手写体文本,难度较低,且研究只涉及文本检测,文本识别、内容验证与输出等功能都不具备,功能较为单一,实用性差。本实施例提出的方法可实现工程文档中打印体内容、手写体内容、印章内容的检测识别,并提取位置信息,减少文本交叠区域对识别结果的影响。
实施例二
在实施例一基础上的进一步实施例中,针对获取到的文档图片数据进行预处理分析时,包含图像重置操作和图像锐化操作,其中图像尺寸重置操作利用自适应图片缩放技术重新调整图像尺寸至合理,既能保证检测精度,又能保持模型合理计算量和处理速度。图像锐化操作用于使图像不同区域颜色差异性增大,特征更明显,利于检测网络特征提取。
优选实施例中,图像重置操作的过程为:针对一张尺度为1000*800的原始图像,由于其尺寸较大,因此通过图像重置操作将其缩小为32的整倍数。具体的,以长边1000为准,缩减至618,缩减比例0.618,则高按比例应缩减为494,不是32的整数倍,随后搜索大于494且距离最近的32的整倍数512,则高缩减至512。
针对图像锐化操作,优选实施例中采用拉普拉斯锐化方式,将原图像和拉普拉斯图像做差运算,得到锐化图像。采用拉普拉斯锐化方式中涉及到的拉普拉斯二阶微分算子表达式为:
Figure BDA0003712406660000061
式中,(x,y)表示图像数据中的像素点对应的坐标值。以(x,y)为坐标中心,采用图像锐化操作的转化表达形式如图3所示;随后,将原图像和拉普拉斯图像做差运算可得锐化卷积核,如图4所示。
实施例三
在实施例一基础上的进一步实施例中,采用构建的印章检测模型进行图像数据分析,通过生成的印章检测框对每个印章区域进行编号。针对现有技术中YOLOv5模型在分析印章检测中,会受到的硬件设备限制,本实施例通过轻量化处理,构建印章检测模型,使其更贴合实际的印章检测过程。通过选用训练好印章检测模型检测印章区域,输出格式为包围印章区域的长方形预测框。
具体的,印章检测模型基于现有技术中的YOLOv5模型,舍去Focus层,从而便于模型在CPU上的部署。主干网路采用MobileNet-v3。MobileNet-v3是融合了深度可分离卷积、具有线性瓶颈的倒残差结构和squeeze and excitation注意力结构的轻量级注意力模型,重新设计了计算量小、性能良好的激活函数Hard-Swish。多种优化思想使得模型在模型尺寸、检测速度与检测精度各方面取得平衡。轻量化改进,使得模型在CPU上的推理速度提升约35%,检测精度无明显变化,实时性得到较大程度的提升。
本实施例中采用的印章检测模型相比于现有技术中的YOLOv5模型,可以完成对印章区域的粗检测,以及生成印章个数和中心点等关键数据,用于为后续的文档分析提供依据。
实施例四
在实施例一基础上的进一步实施例中,采用构建的构建文本检测模型进行图像数据分析,获得整体的文本内容,生成横排打印体文本框、手写体文本框、印章文本框,并标记对应的类别信息。其中,横排打印文本框中包含标题文本和内容文本;印章文本框中包含圆形分布文本框和线性排列分布文本框。
进行文本检测的过程中,常采用DB模型,但是现有的DB模型仅支持检测功能,不兼具分类的功能,无法满足用户的实际需求。因此,本实施构建的文本检测模型针对分类的任务需求,在模型的输出端添加分类支路,使得文本检测模型用于实现对所有检测框的分类。
具体的,如图5所示,文本检测模型的输出端的分类支路class由一层卷积Conv和两层反卷积DeConv组成。在模型推理过程中,预测分支pred负责目标框的生成,分类分支class负责目标框的分类。其中,主干网络为ShuffleNet-v2,与现有技术中采用的Resnet-18,本实施例的网络结构更为精简,且在检测精度和检测速度两方面取得了平衡。优选实施例中,模型输出端添加分类检测模块class,输出各个预测框对应的类别信息,在本实施例中,文本预测框分3类,分别为横排打印体文本、手写体文本,印章文本。分类检测模块class与预测模块pred结构基本一致,均由一层3×3的普通卷积Conv和两层2×2,stride=2的反卷积组成,不包含设计新模块,结构对称。
现有技术中的原始DB模型使用结构简单的ResNet-18作为特征提取网络,但由于模型深度较浅,特征提取能力较弱,不利于文本框的检测。本实施例引入轻量级的ShuffleNet-v2主干网络,ShuffleNet-v2提出了通道分流重聚合的思想。设计了channelsplit特征通道分流模块和channel shuffle通道聚合模块。ShuffleNet-v2将深度可分离卷积与特征通道分流重聚合在保证计算量小的前提下,检测精度也保较高的水平。故选择ShuffleNet-v2作为主干网络。
经过主干网络提取不同的特征图后,通过拼接(Concat)操作融合特征,进而通过预测模块生成probability map(P)和threshold map(T),后通过可微分二值化(DB)计算approximate binary map,从而得到文本框预测结果。
文本检测的过程中,首先利用文本检测模型对文档进行整体检测,选取横排打印体文本、手写体文本;随后,在对生成的印章区域进行检测,并生成弧形文本框。生成相应文本框的同时标记其对应的文本类别。
在进一步的实施例中,为了提高文本检测模型的性能,进一步构建模型训练集,并用于对构建的文本检测模型进行训练。模型训练集包含:打印体文本图片、手写体文本图片、印章文本图片,且任意一张图片中至少含有两种不同形式文本,例如同时具备打印体与手写体。优选实施例中,当不考虑泛化性,只针对特定场景下的文档图片时,模型训练集中仅需包含一定数量的覆盖内容较全面的文档图片即可,对训练集要求有所降低。
在进一步的实施例中,对于打印体文本的检测,采用冒号“:”作为文本框结束标志,冒号之后的内容另起文本框。从而方便后续对主题词区域匹配。
本实施例构建的文本检测模型相对于现有技术中采用的DB模型,具备分类功能,更能贴合用户的实际需求。另外,相比较回归检测算法,如CTPN、EAST、TextBoxes等,DB模型对弧形分布的印章文本有良好的检测效果,而本实施例的文本检测模型不仅增添了分类分支,还采用更加高效的ShuffleNet-v2主干网络,使得模型得到进一步完善和优化。
实施例五
在实施例一基础上的进一步实施例中,基于检测出的文本框,提取目标文本框区域中的图像信息。具体的,首先将目标文本框中的区域转换成HSV颜色空间,共分为H、S、V三空间通道,并依据不同颜色3个空间通道阈值的区别,剔除干扰色,保证待识别图片区域中尽可能只有文本和背景区域两种颜色。随后,采用文本识别模型识别文本框中的文本信息,并显示。
优选实施例中,以黑字红章白底的文档图片为例,当检测到黑色文本时,根据表1选取合适的黑色三通道阈值范围;当检测到红色印章文本时,根据表1选取合适的通道阈值范围。在实际应用中,由于目标颜色区域不是严格意义上的某种颜色,存在一定程度的颜色交叉情况,因此,要根据实际情况多次测试确定合理阈值范围。以本实施例中的红色印章区域为例,实际选取阈值为Hmin=100,Hmax=180,Smin=40,Smax=255,Vmin=40,Vmax=255。
表1
绿
Hmin 0 0 0 156 11 26 35 78 100 125
Hmax 180 180 180 180 25 34 77 99 124 155
Smin 0 0 0 43 43 43 43 43 43 43
Smax 255 43 30 255 255 255 255 255 255 255
Vmin 0 46 221 46 46 46 46 46 46 46
Vmax 46 220 255 255 255 255 255 255 255 255
在进一步的实施例中,为了提高文本识别模型的识别性能,进一步对文本识别模型进行性能训练。针对文本识别模型的训练,需明确文本识别的任务目标为不分类,但需要识别出不同文本形式的内容。因此准备大量横排打印体文本、手写体文本、印章文本,标注字符段中每个字符的序号以及该字符的内容,其中印章文本呈弧形分布,随后送入模型训练。
基于文本检测分类后的处理结果,使用训练好的文本识别模型识别文档文本,相比于其他文本识别模型,本实施例提出的文本检测模型将基于STN的不规则文本区域校正和基于SRN的文本识别结合在一起,对印章文本具有良好的识别效果。
实施例六
在实施例一基础上的进一步实施例中,现有的文本检测识别方法缺乏交互功能和特定信息提取功能。例如,一张成绩单中含有3个主题词:语文成绩、数学成绩、英语成绩;传统文本检测会将3个主题词信息全部提取,而当我们只需要单独一个主题词信息时,传统文本检测识别方法无法胜任。本实施例针对上述问题进一步对提取到的目标内容进行校验。
具体的,对文档内容进行校验的过程包括:按对象划分和按任务划分;其中按对象划分包括:表格文档内容校验和非表格内容校验;按任务划分包括:主题词内容校验和印章校验。其中,主题词内容校验的过程对于表格文档和非表格文档相同。
为了便于后续的检索输出,完成内容检验后进一步构建主题词库用于为下文内容校验做铺垫;随后,根据需求检索题目信息,调用与之对应的主题词库,并匹配主题词库信息和文本检测结果,划分各主题词所属区域。
具体的,校验过程包括以下步骤:
步骤1、构建主题词库,分为主题词索引库和特定主题词库,前者用于横排打印体文本的区域定位和内容检验任务,后者用于手写体签名和公章的内容检验任务。
步骤2、根据文本识别结果与位置数据,确定各主题词所属区域。针对存在模型识别的主题词与主题词库信息存在差别的情况,进一步设置一定裕量,提高泛化能力。
步骤3、判断各主题词所属区域内是否有打印体或手写体文本内容。如果有,表示内容完整;若没有,表示内容不完整,需要添加。
步骤4、印章校验,对于表格文档校验,选定与印章相关的主题词所在的单元格,检验单元格内是否有印章,有则表示印章齐全,没有则表示需要添加印章。对于非表格文档校验,检验内容分两部分,一是检验印章数量与相关主题词数量是否一致,二是检验距离相关主题词一定范围内是否有印章。
优选实施例中,建立多种模板的主题词库,包含主题词索引库和特定主题词库。模板不同,主题词也不同。如图6所示,构建的主题词索引库内容按先后顺序以此为“项目名称、批准文号、工程项目批准内容、工程进度批准文档、设备材料是否备齐、施工措施方案是否审批完毕、申请单位意见、监理单位意见、项目实施单位意见、项目管理单位批准开工意见(专责)、项目管理单位批准开工意见(领导)”,特定主题词库内容为“负责人”。为下文内容校验做铺垫。
随后,根据检索到的题目信息,调用与之对应的主题词库。匹配主题词库信息和文本检测结果,划分各主题词所属区域。匹配信息时,由于模型识别误差,两者内容不一定完全相同,需要设置一个准确度参数识别准确率P,即识别准确的字数占主题词总字数的百分比。
当主题词与识别结果的某字段的P超过一定阈值P0时,这里设P0=0.7(可随时调整),即认为该字段即为主题词,匹配成功。如图6所示,对于主题词“监理单位意见”,若模型识别结果为“监锂单位意见”,识别准确率为83.3%,高于阈值P0,即认为匹配成功,识别结果“监锂单位意见”的分布区域即主题词“监理单位意见”的区域。
此外,注意到字段中含有“:”一般都为关键词,故将符号“:”作为关键词匹配的补充条件。设置第二阈值P1=0.5(P1<P0,可随时调整),当一段字符识别准确率P,P1≤P≤P0时,若字符中含有“:”,也认为此段字符为识别的关键词。通俗讲,就是一段字符识别准确率P≤P0,但在允许的范围中,可将“:”作为关键词的标志。当出现无法匹配的情况时,在交互界面显示“……主题词无法匹配”字样。
随后,以左上角为原点,宽为x轴,高为y轴。定位该字段区域的位置Wij,即两个角点位置(xij,min,yij,min),(xij,max,yij,max),其中i表示主题词行号,j为主题词列号,从而确定本主题词所属区域。例如,以上操作求得主题词“项目名称”位置W11、“批准文号”位置W21,只存在行数差异,只计算所属区域y轴坐标即可,“项目名称”所属区域的最大纵坐标
Figure BDA0003712406660000111
其中,
Figure BDA0003712406660000112
为纵坐标裕量。由此,求得关键词“项目名称”所属区域W11 ,同样包含两个边缘角点
Figure BDA0003712406660000113
(xwidth-,y11,max ),其中,
Figure BDA0003712406660000114
为横坐标裕量,xwidth为页面宽度。
判定主题词内容和印章信息是否完整。对于主题词内容的检验,即判断各主题词所属区域内是否有除主题词外的其他内容。判定签字是否完整,即判断特定主题词“负责人”所属区域是否有手写体文字。判断公章是否完整,即采用根据对象划分以及任务划分的内容检验方法。优选实施例中实施例中采用表格法,即确定印章中心是否在特定主题词“负责人”所在的表格中。如图7所示,当存在信息缺失情况时,则在交互界面显示缺少信息的主题词。
针对特定词信息的输出,在交互界面输入需要的主题词,遍历识别结果,捕捉主题词位置,输出主题词后面对应的内容。在用户交互指令界面,输入想查验的主题词,比如说,实施例中的“批准文号”,通过确定主题词的所属区域,搜索区域内的文本识别信息,以实施例为例,为“铜供电运检(2019)98号”。随后,将输出的文本信息显示在交互界面中。
实施例七
在实施例一基础上的进一步实施例中,基于文档校验的过程提出一种复杂结构化文档内容的校验装置,如图8所示,该装置具体包括以下单元:
图像获取单元401,用于获取待检测图像数据。
检测识别单元402,用于接收图像获取单元获取到的图像数据,并进行内容区域的检测,以及文字内容的识别。集成了用于公章检测的印章检测模型、用于文本框检测的文本检测模型、以及用于文本识别的文本识别模型。
主题词库存储单元403,用于存储不同文档模板的主题词库信息,支持通过交互界面实现对存储单元中的内容进行增加、删除和修改的功能,更贴合实际应用场景,泛化性更强。
区域确定单元404,用于根据文档信息选择主题词库存储单元中对应的主题词库,再依据主题词库信息和检测识别结果,确定各主题词所属区域,同时附带内容校验功能,即在允许一定误差的前提下,匹配两者信息,确定所属区域的范围以及内容是否完整。
内容校验单元405,用于根据区域选择单元输出结果,判断个主题词区域信息完整度。检索主题词区域内,是否有除主题词以外的检测框,若有,表示信息完善;若没有,表示信息不完善。
输入输出单元406,包括输入单元4061和输出单元4062,用于交互界面的指令输入和结果显示,输入单元用于输入所需的主题词;输出单元用于输出处理结果。其中输出结果包括信息完整度以及主题词信息。输入单元是特定内容输出功能的起始,指令输入内容是需要的主题词信息,例如,实施例中的“批准文号”。输出单元显示的是检验结果与特定内容的输出结果,是内容检验功能和特定内容输出功能的结束模块。
实施例八
在实施例一基础上的进一步实施例中,基于文档校验的过程提出一种复杂结构化文档内容的识别设备,如图9所示,该设备具体包括:
处理器501,用于执行相关程序,当程序执行时,可实现文档信息检测识别和检验功能;处理器指一切可运行本申请所述方法的计算设备,包含但不限于微处理器MCU、可编程门阵列FPGA、专用集成电路ASIC、系统芯片SoC等数字计算设备以及他们的各种组合形式。
存储器502,用于存储相关程序和数据;包含操作系统5021,例如Windows、Mac OS、Unix、Linux、计算机程序5022、运行程序所需要或保存的图片、视频数据5023。存储器分为内部存储器和外部存储器。内部存储器包含而不限于只读存储器ROM、可编程存储器PROM、随机存储器RAM以及其各种组合。外部存储器包括但不限于硬盘、U盘、光盘等各种外部存储设备以及其各种组合形式,内部存储器和外部存储器配合使用。
输入设备503,用于文档图或视频数据的输入和交互界面的指令输入,进一步包含图像输入设备5031和指令输入设备5032。其中,图像输入设备包含各种图像或视频采集硬件设备,获取图像数据的过程中还包括通过云端传输服务器获取图像数据的情况。指令输入设备包含但不限于鼠标、键盘等能输入指令的外部设备。
输出设备504,用于交互界面内容完整度和特定信息的输出,以及显示模型。包含内容检验信息和特定内容输出信息。设备主要包含各种显示屏及其各形式组合。
如上所述,尽管参照特定的优选实施例已经表示和表述了本发明,但其不得解释为对本发明自身的限制。在不脱离所附权利要求定义的本发明的精神和范围前提下,可对其在形式上和细节上做出各种变化。

Claims (10)

1.一种复杂结构化文档内容的校验方法,其特征在于,该方法具体包括以下步骤:
步骤1、读取等待分析的目标文档的图像数据,存储为第一图像数据;
步骤2、对所述第一图像数据进行预处理操作,存储为第二图像数据;
步骤3、对所述第二图像数据进行形式分析,并按需标记,输出为第三图像数据;
步骤4、构建印章检测模型,将所述第三图像数据导入至所述印章检测模型进行数据分析,输出为第四图像数据;
步骤5、构建文本检测模型,将所述第四图像数据导入至所述文本检测模型中进行数据分析,输出为第五图像数据;
步骤6、构建文本识别模型,聚焦所述第五图像数据中目标文本框区域中的图像信息,按需提取目标内容;
步骤7、对提取到的目标内容进行校验;
步骤8、根据用户需求以及校验结果,输出用户所需的文本信息。
2.根据权利要求1所述的一种复杂结构化文档内容的校验方法,其特征在于,通过图像尺寸重置操作和图像锐化操作对第一图像数据进行预处理分析;
所述图像锐化操作采用将原图像和拉普拉斯图像做差运算的方式,获得锐化图像。
3.根据权利要求1所述的一种复杂结构化文档内容的校验方法,其特征在于,分析第二图像数据的时候,采用直线检测捕捉单元格的方法,对图像数据中的表格进行识别分析,并对相应的识别结果进行序号位置标记。
4.根据权利要求1所述的一种复杂结构化文档内容的校验方法,其特征在于,采用构建的印章检测模型进行图像数据分析,通过生成的印章检测框对每个印章区域进行编号,同时生成印章个数和中心点关键数据,并用于为后续的文档分析提供依据;
所述印章检测模型主干网路采用融合了深度可分离卷积、具有线性瓶颈的倒残差结构和squeeze and excitation注意力结构的轻量级注意力模型,同时采用Hard-Swish作为激活函数。
5.根据权利要求1所述的一种复杂结构化文档内容的校验方法,其特征在于,采用构建的文本检测模型进行图像数据分析,生成横排打印体文本框、手写体文本框、印章文本框,并标记对应的类别信息;随后,采用构建的文本识别模型进行图像数据分析,对生成的三种文本框内的内容进行识别,获得整体的文本内容;
所述横排打印文本框中包含标题文本和内容文本;
所述印章文本框中包含圆形分布文本框和线性排列分布文本框;
所述文本检测模型针对分类的任务需求,在模型的输出端添加分类支路,使得文本检测模型用于实现对所有检测框的分类;所述文本检测模型输出端的分类支路由一层卷积Conv和两层反卷积DeConv组成。
6.根据权利要求1所述的一种复杂结构化文档内容的校验方法,其特征在于,通过构建主题词库、确定各主题词区域信息,完成对提取到的目标内容进行校验;
对文档内容校验的类别包括:按对象划分和按任务划分;按对象划分包括:表格文档内容校验和非表格内容校验;按任务划分包括:主题词内容校验和印章校验;
首先构建主题词库用于为下文内容校验做铺垫;随后,根据需求检索题目信息,调用与之对应的主题词库,并匹配主题词库信息和文本检测结果,划分各主题词所属区域。
7.根据权利要求6所述的一种复杂结构化文档内容的校验方法,其特征在于,校验过程包括以下步骤:
步骤7.1、构建主题词库;所述主题词库包括:主题词索引库和特定主题词库;
所述主题词索引库用于横排打印体文本的区域定位和内容检验任务;
所述特定主题词库用于手写体签名和公章的内容检验任务;
步骤7.2、根据文本识别结果与位置数据,确定各主题词所属区域;
步骤7.3、判断各主题词所属区域内是否有打印体或手写体文本内容;
步骤7.4、基于表格的检测结果进行印章校验;
对于表格文档校验,选定与印章相关的主题词所在的单元格,检验单元格内是否有印章,有则表示印章齐全,没有则表示需要添加印章;
对于非表格文档校验,检验内容分两部分,一是检验印章数量与相关主题词数量是否一致,二是检验距离相关主题词预设范围内是否有印章。
8.根据权利要求6所述的一种复杂结构化文档内容的校验方法,其特征在于,对提取到的目标内容进行校还包括判定主题词内容和印章信息是否完整,当检测的结果为存在信息缺失情况时,则在交互界面显示缺少信息的主题词;
主题词内容完整的检验,即判断各主题词所属区域内是否有除主题词外的其他内容;印章信息完整的检验,即判断公章是否完整。
9.一种复杂结构化文档内容的校验装置,用于实现权利要求1-8任意一项方法,其特征在于,该装置具体包括以下单元:
图像获取单元,用于获取待检测图像数据;
检测识别单元,用于接收图像获取单元获取到的图像数据,并进行内容区域的检测,以及文字内容的识别;
主题词库存储单元,用于存储不同文档模板的主题词库信息,支持增加、删除和修改的功能;
区域确定单元,用于根据文档信息选择主题词库存储单元中对应的主题词库,再依据主题词库信息和检测识别结果,确定各主题词所属区域,同时附带内容校验功能,即确定所属区域内容是否完整;
内容校验单元,用于根据区域选择单元输出结果,判断个主题词区域信息完整度;
输入输出单元,包括输入单元和输出单元;
所述输入单元用于输入所需的主题词;
所述输出单元用于输出处理结果;其中输出的处理结果包括信息完整度以及主题词信息。
10.一种复杂结构化文档内容的校验设备,用于实现权利要求1-8任意一项方法,其特征在于,该设备具体包括:
处理器,用于执行相关程序,当程序执行时,可实现文档信息检测识别和检验功能;
存储器,用于存储相关程序和数据;
输入设备,用于文档图或视频数据的输入和交互界面的指令输入;
输出设备,用于交互界面内容完整度和特定信息的输出。
CN202210729398.7A 2022-06-24 2022-06-24 一种复杂结构化文档内容的校验方法、装置与设备 Pending CN114998905A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210729398.7A CN114998905A (zh) 2022-06-24 2022-06-24 一种复杂结构化文档内容的校验方法、装置与设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210729398.7A CN114998905A (zh) 2022-06-24 2022-06-24 一种复杂结构化文档内容的校验方法、装置与设备

Publications (1)

Publication Number Publication Date
CN114998905A true CN114998905A (zh) 2022-09-02

Family

ID=83037801

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210729398.7A Pending CN114998905A (zh) 2022-06-24 2022-06-24 一种复杂结构化文档内容的校验方法、装置与设备

Country Status (1)

Country Link
CN (1) CN114998905A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116092099A (zh) * 2023-01-18 2023-05-09 黑龙江省公安厅 一种多目标行政执法文书信息完整性识别检测方法及系统
CN117746437A (zh) * 2024-02-20 2024-03-22 沈阳哲航信息科技有限公司 文档数据提取系统及其方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116092099A (zh) * 2023-01-18 2023-05-09 黑龙江省公安厅 一种多目标行政执法文书信息完整性识别检测方法及系统
CN116092099B (zh) * 2023-01-18 2023-08-18 黑龙江省公安厅 一种多目标行政执法文书信息完整性识别检测方法及系统
CN117746437A (zh) * 2024-02-20 2024-03-22 沈阳哲航信息科技有限公司 文档数据提取系统及其方法
CN117746437B (zh) * 2024-02-20 2024-04-30 沈阳哲航信息科技有限公司 文档数据提取系统及其方法

Similar Documents

Publication Publication Date Title
US7899249B2 (en) Media material analysis of continuing article portions
Dong et al. Tablesense: Spreadsheet table detection with convolutional neural networks
Shahab et al. An open approach towards the benchmarking of table structure recognition systems
CN110210413A (zh) 一种基于深度学习的多学科试卷内容检测与识别系统及方法
US8208737B1 (en) Methods and systems for identifying captions in media material
CN114998905A (zh) 一种复杂结构化文档内容的校验方法、装置与设备
CN116824608A (zh) 基于目标检测技术的答题卡版面分析方法
CN114463767A (zh) 信用证识别方法、装置、计算机设备和存储介质
CN114529932A (zh) 一种征信报告识别方法
CN112508000B (zh) 一种用于ocr图像识别模型训练数据生成的方法及设备
CN113780116A (zh) 发票分类方法、装置、计算机设备和存储介质
CN113159014A (zh) 基于手写题号的客观题批阅方法、装置、设备及存储介质
Yuan et al. An opencv-based framework for table information extraction
CN115019310B (zh) 图文识别方法及设备
CN111062262A (zh) 发票识别方法以及发票识别装置
Xu et al. Graphic composite segmentation for PDF documents with complex layouts
CN113705157B (zh) 一种纸质作业拍照批改的方法
Shweka et al. Automatic extraction of catalog data from digital images of historical manuscripts
CN112560849B (zh) 基于神经网络算法的文理分割方法及系统
CN111144256B (zh) 基于视频动态分析的电子表格公式合成与错误检测方法
CN111612045A (zh) 一种获取目标检测数据集的通用方法
Fu et al. Answer sheet layout analysis based on YOLOv5s-DC and MSER
Hamplová et al. Cuneiform Stroke Recognition and Vectorization in 2D Images.
CN114118010A (zh) 一种文件转换方法、计算机设备和存储介质
MacCormack Semi-automatic Segmentation & Alignment of Handwritten Historical Text Images with the use of Bayesian Optimisation

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20220902