CN115273108B - 一种人工智能识别自动归集方法及系统 - Google Patents

一种人工智能识别自动归集方法及系统 Download PDF

Info

Publication number
CN115273108B
CN115273108B CN202210685201.4A CN202210685201A CN115273108B CN 115273108 B CN115273108 B CN 115273108B CN 202210685201 A CN202210685201 A CN 202210685201A CN 115273108 B CN115273108 B CN 115273108B
Authority
CN
China
Prior art keywords
image
processing
steps
document
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210685201.4A
Other languages
English (en)
Other versions
CN115273108A (zh
Inventor
潘维有
张俊鹏
杜宛泽
岳驰涛
杨若冰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jilin Province Jilin Xiangyun Information Technology Co ltd
Original Assignee
Jilin Province Jilin Xiangyun Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jilin Province Jilin Xiangyun Information Technology Co ltd filed Critical Jilin Province Jilin Xiangyun Information Technology Co ltd
Priority to CN202210685201.4A priority Critical patent/CN115273108B/zh
Publication of CN115273108A publication Critical patent/CN115273108A/zh
Application granted granted Critical
Publication of CN115273108B publication Critical patent/CN115273108B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/1437Sensor details, e.g. position, configuration or special lenses
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/413Classification of content, e.g. text, photographs or tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Character Input (AREA)

Abstract

本发明提出了一种人工智能识别自动归集方法及系统,首先按照类别对纸质政务文件进行数据采集,之后对扫描图像进行自动归集,再通过人工智能算法对文档图像进行识别分析,最后将扫描结果和处理结果上传到数据共享平台;本发明通过人工智能算法自动识别和提取文档中的关键信息,将电子文档和关键信息汇入数据共享平台进行数据注册和挂载,实现了纸质文档对应电子扫描文件的数据反查功能,从而提高了政务文件的检索效率与准确率。

Description

一种人工智能识别自动归集方法及系统
技术领域
本发明属于人工智能技术领域,具体地,涉及一种人工智能识别自动归集方法及系统。
背景技术
大量历史纸质文档在存储以及查找方面都存在一定的不便,因此迫切需要对其进行电子化处理。对于历史纸质文档,可以通过扫描的方式转换为电子图片作为数据基础。然而,这些图片并不能形成有效的智能政务电子化办公资料,一方面由于历史纸质文档基数大,形成的扫描图片数量大,难以回溯反查原始文档作为政务办公依据,另一方面由于办公文档中的文字表格等存在大量信息,而扫描图片中的信息需要人工研判阅读,这给政务办公人员带来了大量的额外工作。
发明内容
本发明提出了一种人工智能识别自动归集方法及系统,系统通过高清扫描仪等方式对纸质文档进行采集,通过人工智能技术进行识别处理后,存入数据共享平台。
本发明通过以下技术方案实现:
一种人工智能识别自动归集方法:
所述方法具体包括以下步骤:
步骤S1:按照类别对纸质政务文件进行数据采集;
步骤S2:对步骤S1采集的数据进行自动归集识别;
步骤S3:对步骤S2得到的文档图像进行识别分析;
步骤S4:扫描结果和处理结果上传到数据共享平台。
进一步地,在步骤S1中,
所述数据采集的具体方法包括:通过扫描仪扫描、通过高拍仪拍摄以及对系统中已存在的图像进行截图;
所述纸质政务文件包括上级政策类文件、部门政策类文件、部门通告类文件、部门信息类文件、部门统计数据类文件、业务流程类文件、业务结果类文件和其他需求类文件。
进一步地,在步骤S2中,
在所述归集识别过程中,根据部门信息对扫描文档图像进行标号,合成为 pdf文件;
所述pdf文件的命名规则为:“部门-子部门-证照类型编号-办事流程-扫描日期-处理日期.pdf”。
进一步地,在步骤S3中:
S3.1:对文档图像进行预处理;
S3.2:按照不同的文档类别采用对应的识别处理方式进行识别。
进一步地,在步骤S3.1中,
所述预处理方法包括:去除图像噪声、去除图像阴影和图像倾斜校正;
所述图像去噪方法为:在拍摄或扫描的方式进行文档图像采集时,通过图像中值滤波处理去除噪声;
所述图像去除阴影方法为:在通过拍摄的方式进行文档图像采集时时,通过图像直方图均衡化处理去除阴影;
所述图像倾斜校正方法为:在通过拍摄或扫描的方式进行文档图像采集时,首先通过霍夫变换检测图像中的直线,检测到直线后,通过直线两端点的坐标信息计算倾斜角度,得到倾斜角度后,最后对图像进行反向旋转操作,完成倾斜校正。
进一步地,在步骤S3.2中,
所述文档类别包括:普通文档、表格文档、证照文档和流程图文档;
S3.2.1:所述普通文档的处理方法为:通过OCR工具提取图像中的文字信息,保存文字识别结果;
S3.2.2:所述表格文档的处理方法为:结合深度学习领域的目标检测技术和数字图像处理领域的形态学处理技术进行识别处理;
S3.2.2.1:目标检测网络用于定位文档图像中的表格区域:通过 CascadeTabNet网络模型定位表格在图像中的位置信息,区分文本区域和表格区域;
S3.2.2.1.1:对于文本区域,直接通过OCR工具识别文字内容;
S3.2.2.1.2:对于表格区域,通过位置信息,从原始图像中分割出只包括表格的区域图像,通过形态学检测对区域图像进行识别处理;
S3.2.2.2:形态学分析表格检测过程具体为:
S3.2.2.2.1:将表格区域图像转换为灰度图像,之后进行二值化处理,其中背景像素设置为0,表格线和文字像素设置为255;
S3.2.2.2.2:再对二值化后的图像分别进行横向和纵向的形态学开运算处理;
S3.2.2.2.3:对横向和纵向的形态学处理结果,分别检测行方向上和列方向上值为255的像素构成的游程的起止位置,过滤长度较短的游程以去除属于文字的线段,分别得到构成表格的横线的集合和纵线集合,
其中横线表示为(x0,y0,x1,y0),其中(x0,y0)是横线起点的坐标,(x1,y0) 是横线终点的坐标;纵线表示为(x2,y1,x2,y2),(x2,y1)是纵线起点的坐标, (x2,y2)是纵线终点的坐标;
S3.2.2.2.4:根据所有横线的纵坐标和所有纵线的横坐标得到表格的结构信息,包括表格的行数和列数,以及表格中每一个单元格在图像中的位置信息;
S3.2.2.2.5:通过OCR工具识别表格中每一个单元格内的文字内容;
S3.2.2.2.6:将识别的文字内容,结合表格结构进行保存,作为表格识别结果。
进一步地,在步骤S3.2中,
S3.2.3:对于证照文档图像的处理过程具体为:
S3.2.3.1:通过OCR工具按行识别证照文档图像中的文字信息;
S3.2.3.2:对每一行的文字识别结果,通过中文分词工具进行分词处理,将行识别结果划分为由多个词语构成的行内词汇集合;
S3.2.3.3:按照从前到后的顺序对集合内的词汇进行组合分割,每次组合为前后两部分,如集合中包含n个词汇,则最多组合次数为n-1;
S3.2.3.4:对组合的前后两部分内容,分别通过预训练的BERT模型进行概率预测,将两部分内容的概率预测结果拼接后通过全连接网络预测是否为正确的分割;
若为正确的分割,则前一部分内容作为关键字段,后一部分内容是关键字段对应的内容,
若为错误的分割,则重新进行分割,直至得到正确的分割;
S3.2.3.5:按照“关键字段:关键字段对应的内容”对识别结果进行保存,作为证照文档图像的识别结果;
S3.2.4:对于流程图文档图像的处理过程具体为:
S3.2.4.1:通过预训练的YOLO目标检测模型对流程图进行结构检测,得到构成流程图的结构元素的位置信息以及相应的类别;
其中,流程图结构元素类别包括矩形、菱形、平行四边形以及不位于形状图形内的条件文字;
S3.2.4.2:通过OCR工具识别结构元素内包含的文字信息;
S3.2.4.3:根据S3.2.4.1得到的结构元素位置信息,从图像中去除结构元素部分,此时图像中保留的部分是结构元素之间的表示逻辑执行顺序的箭头线段;
S3.2.4.4:通过连通域分析提取图像中的连续像素,得到一组组构成箭头线段的像素集合;
S3.2.4.5:分析像素的邻接关系,只有一个邻接的像素是箭头线段的端点,将像素位置作为端点候选位置;
S3.2.4.6:计算每一个箭头线段区域在图像上的重心位置,计算端点候选位置与重心的距离,距离重心较近的位置作为箭头线段的箭头位置,距离重心较远的位置作为箭头线段的箭尾位置;
S3.2.4.7:通过箭头线段的箭头和箭尾位置查找临近的结构元素,得到结构元素之间的逻辑执行顺序。
S3.2.4.8:结合结构元素,结构元素文字内容和逻辑顺序,保存流程图识别结果。
一种人工智能识别自动归集系统:
所述系统包括:数据采集模块、数据归集模块、识别分析模块和上传模块;
数据采集模块,用于按照类别对纸质政务文件进行数据采集;
数据归集模块,用于对数据采集模块采集的数据进行自动归集识别;
识别分析模块,用于通过人工智能算法对数据归集模块得到的文档图像进行识别分析;
上传模块,用于扫描结果和处理结果上传到数据共享平台。
一种电子设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述任一项所述方法的步骤。
一种计算机可读存储介质,用于存储计算机指令,所述计算机指令被处理器执行时实现上述任一项所述方法的步骤。
本发明有益效果
本发明通过自动归集政务文件扫描图像,能够有效缩减政务办公处理流程的中间环节,从而提高了政务办公人员采集纸质文档时的处理效率;
通过人工智能算法自动识别和提取文档中的关键信息,将电子文档和关键信息汇入数据共享平台进行数据注册和挂载,实现了纸质文档对应电子扫描文件的数据反查功能,从而提高了政务文件的检索效率与准确率。
附图说明
图1为本发明的方案流程图。
具体实施方式
下面将结合本发明实施例中的附图对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
根据图1,一种人工智能识别自动归集方法:
所述方法具体包括以下步骤:
步骤S1:按照类别对纸质政务文件进行数据采集;
步骤S2:对步骤S1采集的数据进行自动归集识别;
步骤S3:通过人工智能算法对步骤S2得到的文档图像进行识别分析;
步骤S4:扫描结果和处理结果上传到数据共享平台。
在步骤S1中,
所述数据采集的具体方法包括:通过扫描仪扫描、通过高拍仪拍摄以及对系统中已存在的图像进行截图等;
所述纸质政务文件包括上级政策类文件、部门政策类文件、部门通告类文件、部门信息类文件、部门统计数据类文件、业务流程类文件、业务结果类文件和其他需求类文件。
在步骤S2中,
在所述归集识别过程中,根据部门信息对扫描文档图像进行标号,合成为 pdf文件;
所述pdf文件的命名规则为:“部门-子部门-证照类型编号-办事流程-扫描日期-处理日期.pdf”。
在步骤S3中,具体包括以下步骤:
S3.1:对文档图像进行预处理;
S3.2:按照不同的文档类别采用对应的识别处理方式进行识别。
在步骤S3.1中,
所述预处理方法包括:去除图像噪声、去除图像阴影和图像倾斜校正;
所述图像去噪方法为:在拍摄或扫描的方式进行文档图像采集时,可能因为设备原因导致图像中出现噪声,为防止对识别产生干扰,通过图像中值滤波处理去除噪声;
所述图像去除阴影方法为:在通过拍摄的方式进行文档图像采集时时,可能因为对光照遮挡导致图像中出现阴影,为了识别的准确性,通过图像直方图均衡化处理去除阴影;
所述图像倾斜校正方法为:在通过拍摄或扫描的方式进行文档图像采集时,可能因为纸质文档放置时没有摆正,从而导致图像中的文档区域呈现倾斜的状态,为了识别的准确性,需校正图像。过程是首先通过霍夫变换检测图像中的直线,检测到直线后,通过直线两端点的坐标信息计算倾斜角度,得到倾斜角度后,最后对图像进行反向旋转操作,完成倾斜校正。
在步骤S3.2中,
所述文档类别包括:普通文档、表格文档、证照文档和流程图文档;
S3.2.1:所述普通文档的处理方法为:通过OCR工具提取图像中的文字信息,保存文字识别结果;
S3.2.2:所述表格文档的处理方法为:结合深度学习领域的目标检测技术和数字图像处理领域的形态学处理技术进行识别处理;
S3.2.2.1:目标检测网络用于定位文档图像中的表格区域:通过 CascadeTabNet网络模型定位表格在图像中的位置信息,区分文本区域和表格区域;
S3.2.2.1.1:对于文本区域,直接通过OCR工具识别文字内容;
S3.2.2.1.2:对于表格区域,通过位置信息,从原始图像中分割出只包括表格的区域图像,通过形态学检测对区域图像进行识别处理;
S3.2.2.2:形态学分析表格检测过程具体为:
S3.2.2.2.1:将表格区域图像转换为灰度图像,之后进行二值化处理,其中背景像素设置为0,表格线和文字像素设置为255;
S3.2.2.2.2:再对二值化后的图像分别进行横向和纵向的形态学开运算处理;
S3.2.2.2.3:对横向和纵向的形态学处理结果,分别检测行方向上和列方向上值为255的像素构成的游程的起止位置,过滤长度较短的游程以去除属于文字的线段,分别得到构成表格的横线的集合和纵线集合,
其中横线表示为(x0,y0,x1,y0),其中(x0,y0)是横线起点的坐标,(x1,y0) 是横线终点的坐标;纵线表示为(x2,y1,x2,y2),(x2,y1)是纵线起点的坐标, (x2,y2)是纵线终点的坐标;
S3.2.2.2.4:根据所有横线的纵坐标和所有纵线的横坐标得到表格的结构信息,包括表格的行数和列数,以及表格中每一个单元格在图像中的位置信息等;
S3.2.2.2.5:通过OCR工具识别表格中每一个单元格内的文字内容;
S3.2.2.2.6:将识别的文字内容,结合表格结构进行保存,作为表格识别结果。
在步骤S3.2中,
S3.2.3:对于证照文档图像的处理过程具体为:
S3.2.3.1:通过OCR工具按行识别证照文档图像中的文字信息;
S3.2.3.2:对每一行的文字识别结果,通过中文分词工具进行分词处理,将行识别结果划分为由多个词语构成的行内词汇集合;如某一行的文字识别结果为“水源类型地下水”,分词后的结果为:“水源”,“类型”,“地下”,“水”。
S3.2.3.3:按照从前到后的顺序对集合内的词汇进行组合分割,每次组合为前后两部分,如集合中包含n个词汇,则最多组合次数为n-1;如组合分割结果为“水源”、“类型地下水”;“水源类型”、“地下水”;“水源类型地下”、“水”。
S3.2.3.4:对组合的前后两部分内容,分别通过预训练的BERT模型进行概率预测,将两部分内容的概率预测结果拼接后通过全连接网络预测是否为正确的分割;
若为正确的分割,则前一部分内容作为关键字段,后一部分内容是关键字段对应的内容,例如,通过两步骤的预测,得到“水源类型”、“地下水”的分割组合是正确的分割,则“水源类型”是关键字段,“地下水”是关键字段对应的内容。
若为错误的分割,则重新进行分割,直至得到正确的分割;
S3.2.3.5:按照“关键字段:关键字段对应的内容”对识别结果进行保存,作为证照文档图像的识别结果;
S3.2.4:对于流程图文档图像的处理过程具体为:
S3.2.4.1:通过预训练的YOLO目标检测模型对流程图进行结构检测,得到构成流程图的结构元素的位置信息以及相应的类别;
其中,流程图结构元素类别包括矩形、菱形、平行四边形以及不位于形状图形内的条件文字;
S3.2.4.2:通过OCR工具识别结构元素内包含的文字信息;
S3.2.4.3:根据S3.2.4.1得到的结构元素位置信息,从图像中去除结构元素部分,此时图像中保留的部分是结构元素之间的表示逻辑执行顺序的箭头线段;
S3.2.4.4:通过连通域分析提取图像中的连续像素,得到一组组构成箭头线段的像素集合;
S3.2.4.5:分析像素的邻接关系,只有一个邻接的像素是箭头线段的端点,将像素位置作为端点候选位置;
S3.2.4.6:计算每一个箭头线段区域在图像上的重心位置,计算端点候选位置与重心的距离,距离重心较近的位置作为箭头线段的箭头位置,距离重心较远的位置作为箭头线段的箭尾位置;
S3.2.4.7:通过箭头线段的箭头和箭尾位置查找临近的结构元素,得到结构元素之间的逻辑执行顺序。
S3.2.4.8:结合结构元素,结构元素文字内容和逻辑顺序,保存流程图识别结果。
一种人工智能识别自动归集系统:
所述系统包括:数据采集模块、数据归集模块、识别分析模块和上传模块;
数据采集模块,用于按照类别对纸质政务文件进行数据采集;
数据归集模块,用于对数据采集模块采集的数据进行自动归集识别;
识别分析模块,用于通过人工智能算法对数据归集模块得到的文档图像进行识别分析;
上传模块,用于扫描结果和处理结果上传到数据共享平台。
一种电子设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述任一项所述方法的步骤。
一种计算机可读存储介质,用于存储计算机指令,所述计算机指令被处理器执行时实现上述任一项所述方法的步骤。
以上对本发明所提出的一种人工智能识别自动归集方法及系统,进行了详细介绍,对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (7)

1.一种人工智能识别自动归集方法,其特征在于:
所述方法具体包括以下步骤:
步骤S1:按照类别对纸质政务文件进行数据采集;
步骤S2:对步骤S1采集的数据进行自动归集识别;
步骤S3:对步骤S2得到的文档图像进行识别分析;
在步骤S3中,具体包括以下步骤:
S3.1:对文档图像进行预处理;
S3.2:按照不同的文档类别采用对应的识别处理方式进行识别;
在步骤S3.2中,
所述文档类别包括:普通文档、表格文档、证照文档和流程图文档;
S3.2.1:所述普通文档的处理方法为:通过OCR工具提取图像中的文字信息,保存文字识别结果;
S3.2.2:所述表格文档的处理方法为:结合深度学习领域的目标检测技术和数字图像处理领域的形态学处理技术进行识别处理;
S3.2.2.1:目标检测网络用于定位文档图像中的表格区域:通过CascadeTabNet网络模型定位表格在图像中的位置信息,区分文本区域和表格区域;
S3.2.2.1.1:对于文本区域,直接通过OCR工具识别文字内容;
S3.2.2.1.2:对于表格区域,通过位置信息,从原始图像中分割出只包括表格的区域图像,通过形态学检测对区域图像进行识别处理;
S3.2.2.2:形态学分析表格检测过程具体为:
S3.2.2.2.1:将表格区域图像转换为灰度图像,之后进行二值化处理,其中背景像素设置为0,表格线和文字像素设置为255;
S3.2.2.2.2:再对二值化后的图像分别进行横向和纵向的形态学开运算处理;
S3.2.2.2.3:对横向和纵向的形态学处理结果,分别检测行方向上和列方向上值为255的像素构成的游程的起止位置,过滤长度较短的游程以去除属于文字的线段,分别得到构成表格的横线的集合和纵线集合,
其中横线表示为(x0,y0,x1,y0),其中(x0,y0)是横线起点的坐标,(x1,y0)是横线终点的坐标;纵线表示为(x2,y1,x2,y2),(x2,y1)是纵线起点的坐标,(x2,y2)是纵线终点的坐标;
S3.2.2.2.4:根据所有横线的纵坐标和所有纵线的横坐标得到表格的结构信息,包括表格的行数和列数,以及表格中每一个单元格在图像中的位置信息;
S3.2.2.2.5:通过OCR工具识别表格中每一个单元格内的文字内容;
S3.2.2.2.6:将识别的文字内容,结合表格结构进行保存,作为表格识别结果;
在步骤S3.2中,
S3.2.3:对于证照文档图像的处理过程具体为:
S3.2.3.1:通过OCR工具按行识别证照文档图像中的文字信息;
S3.2.3.2:对每一行的文字识别结果,通过中文分词工具进行分词处理,将行识别结果划分为由多个词语构成的行内词汇集合;
S3.2.3.3:按照从前到后的顺序对集合内的词汇进行组合分割,每次组合为前后两部分,如集合中包含n个词汇,则最多组合次数为n-1;
S3.2.3.4:对组合的前后两部分内容,分别通过预训练的BERT模型进行概率预测,将两部分内容的概率预测结果拼接后通过全连接网络预测是否为正确的分割;
若为正确的分割,则前一部分内容作为关键字段,后一部分内容是关键字段对应的内容,
若为错误的分割,则重新进行分割,直至得到正确的分割;
S3.2.3.5:按照“关键字段:关键字段对应的内容”对识别结果进行保存,作为证照文档图像的识别结果;
S3.2.4:对于流程图文档图像的处理过程具体为:
S3.2.4.1:通过预训练的YOLO目标检测模型对流程图进行结构检测,得到构成流程图的结构元素的位置信息以及相应的类别;
其中,流程图结构元素类别包括矩形、菱形、平行四边形以及不位于形状图形内的条件文字;
S3.2.4.2:通过OCR工具识别结构元素内包含的文字信息;
S3.2.4.3:根据S3.2.4.1得到的结构元素位置信息,从图像中去除结构元素部分,此时图像中保留的部分是结构元素之间的表示逻辑执行顺序的箭头线段;
S3.2.4.4:通过连通域分析提取图像中的连续像素,得到一组组构成箭头线段的像素集合;
S3.2.4.5:分析像素的邻接关系,只有一个邻接的像素是箭头线段的端点,将像素位置作为端点候选位置;
S3.2.4.6:计算每一个箭头线段区域在图像上的重心位置,计算端点候选位置与重心的距离,距离重心较近的位置作为箭头线段的箭头位置,距离重心较远的位置作为箭头线段的箭尾位置;
S3.2.4.7:通过箭头线段的箭头和箭尾位置查找临近的结构元素,得到结构元素之间的逻辑执行顺序;
S3.2.4.8:结合结构元素,结构元素文字内容和逻辑顺序,保存流程图识别结果;
步骤S4:扫描结果和处理结果上传到数据共享平台。
2.根据权利要求1所述方法,其特征在于:在步骤S1中,
所述数据采集的具体方法包括:通过扫描仪扫描、通过高拍仪拍摄以及对系统中已存在的图像进行截图;
所述纸质政务文件包括上级政策类文件、部门政策类文件、部门通告类文件、部门信息类文件、部门统计数据类文件、业务流程类文件、业务结果类文件和其他需求类文件。
3.根据权利要求2所述方法,其特征在于:在步骤S2中,
在所述自动归集识别过程中,根据部门信息对扫描文档图像进行标号,合成为pdf文件;
所述pdf文件的命名规则为:“部门-子部门-证照类型编号-办事流程-扫描日期-处理日期.pdf”。
4.根据权利要求3所述方法,其特征在于:在步骤S3.1中,
所述预处理方法包括:去除图像噪声、去除图像阴影和图像倾斜校正;
所述去除图像噪声方法为:在拍摄或扫描的方式进行文档图像采集时,通过图像中值滤波处理去除噪声;
所述去除图像阴影方法为:在通过拍摄的方式进行文档图像采集时,通过图像直方图均衡化处理去除阴影;
所述图像倾斜校正方法为:在通过拍摄或扫描的方式进行文档图像采集时,首先通过霍夫变换检测图像中的直线,检测到直线后,通过直线两端点的坐标信息计算倾斜角度,得到倾斜角度后,最后对图像进行反向旋转操作,完成倾斜校正。
5.一种实现权利要求1至4中任意一项所述人工智能识别自动归集方法的系统,其特征在于:
所述系统包括:数据采集模块、数据归集模块、识别分析模块和上传模块;
数据采集模块,用于按照类别对纸质政务文件进行数据采集;
数据归集模块,用于对数据采集模块采集的数据进行自动归集识别;
识别分析模块,用于通过人工智能算法对数据归集模块得到的文档图像进行识别分析;
上传模块,用于扫描结果和处理结果上传到数据共享平台。
6.一种电子设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至4中任一项所述方法的步骤。
7.一种计算机可读存储介质,用于存储计算机指令,其特征在于,所述计算机指令被处理器执行时实现权利要求1至4中任一项所述方法的步骤。
CN202210685201.4A 2022-06-17 2022-06-17 一种人工智能识别自动归集方法及系统 Active CN115273108B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210685201.4A CN115273108B (zh) 2022-06-17 2022-06-17 一种人工智能识别自动归集方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210685201.4A CN115273108B (zh) 2022-06-17 2022-06-17 一种人工智能识别自动归集方法及系统

Publications (2)

Publication Number Publication Date
CN115273108A CN115273108A (zh) 2022-11-01
CN115273108B true CN115273108B (zh) 2023-11-17

Family

ID=83762032

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210685201.4A Active CN115273108B (zh) 2022-06-17 2022-06-17 一种人工智能识别自动归集方法及系统

Country Status (1)

Country Link
CN (1) CN115273108B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020232872A1 (zh) * 2019-05-22 2020-11-26 平安科技(深圳)有限公司 表格识别方法、装置、计算机设备和存储介质
CN112528863A (zh) * 2020-12-14 2021-03-19 中国平安人寿保险股份有限公司 表格结构的识别方法、装置、电子设备及存储介质
CN113139445A (zh) * 2021-04-08 2021-07-20 招商银行股份有限公司 表格识别方法、设备及计算机可读存储介质
CN114299528A (zh) * 2021-12-27 2022-04-08 万达信息股份有限公司 一种针对扫描文档的信息提取和结构化方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109933756B (zh) * 2019-03-22 2022-04-15 腾讯科技(深圳)有限公司 基于ocr的图像转档方法、装置、设备及可读存储介质
US11049235B2 (en) * 2019-08-30 2021-06-29 Sas Institute Inc. Techniques for extracting contextually structured data from document images

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020232872A1 (zh) * 2019-05-22 2020-11-26 平安科技(深圳)有限公司 表格识别方法、装置、计算机设备和存储介质
CN112528863A (zh) * 2020-12-14 2021-03-19 中国平安人寿保险股份有限公司 表格结构的识别方法、装置、电子设备及存储介质
CN113139445A (zh) * 2021-04-08 2021-07-20 招商银行股份有限公司 表格识别方法、设备及计算机可读存储介质
CN114299528A (zh) * 2021-12-27 2022-04-08 万达信息股份有限公司 一种针对扫描文档的信息提取和结构化方法

Also Published As

Publication number Publication date
CN115273108A (zh) 2022-11-01

Similar Documents

Publication Publication Date Title
CN110210413B (zh) 一种基于深度学习的多学科试卷内容检测与识别系统及方法
EP1598770B1 (en) Low resolution optical character recognition for camera acquired documents
CN108805076B (zh) 环境影响评估报告书表格文字的提取方法及系统
US8611662B2 (en) Text detection using multi-layer connected components with histograms
CN109784342B (zh) 一种基于深度学习模型的ocr识别方法及终端
CN109344820B (zh) 基于计算机视觉和深度学习的数字式电表读数识别方法
CN101122953A (zh) 一种图片文字分割的方法
CN111353491B (zh) 一种文字方向确定方法、装置、设备及存储介质
CN103577818A (zh) 一种图像文字识别的方法和装置
CN111091124B (zh) 一种书脊文字识别方法
Sidhwa et al. Text extraction from bills and invoices
CN116071763B (zh) 基于文字识别的教辅图书智能校编系统
CN110598566A (zh) 图像处理方法、装置、终端和计算机可读存储介质
Kaundilya et al. Automated text extraction from images using OCR system
CN111626145A (zh) 一种简捷有效的残缺表格识别及跨页拼接方法
Chang Intelligent text detection and extraction from natural scene images
CN117076455A (zh) 一种基于智能识别的保单结构化存储方法、介质及系统
CN115273108B (zh) 一种人工智能识别自动归集方法及系统
CN110378337B (zh) 金属切削刀具图纸标识信息视觉输入方法及系统
CN116543391A (zh) 一种结合图像校正的文本数据采集系统及方法
CN111832497A (zh) 一种基于几何特征的文本检测后处理方法
CN113657378B (zh) 车辆跟踪方法、车辆跟踪系统和计算设备
Liu et al. A prototype system of courtesy amount recognition for Chinese Bank checks
Basu et al. Segmentation of offline handwritten Bengali script
Jia et al. Grayscale-projection based optimal character segmentation for camera-captured faint text recognition

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant