CN116978051A - 一种表格图像关键信息提取方法和装置 - Google Patents
一种表格图像关键信息提取方法和装置 Download PDFInfo
- Publication number
- CN116978051A CN116978051A CN202310979093.6A CN202310979093A CN116978051A CN 116978051 A CN116978051 A CN 116978051A CN 202310979093 A CN202310979093 A CN 202310979093A CN 116978051 A CN116978051 A CN 116978051A
- Authority
- CN
- China
- Prior art keywords
- intersection
- image
- business
- key
- intersection point
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 22
- 238000000605 extraction Methods 0.000 claims description 13
- 238000012545 processing Methods 0.000 abstract description 4
- 239000000463 material Substances 0.000 description 3
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/414—Extracting the geometrical structure, e.g. layout tree; Block segmentation, e.g. bounding boxes for graphics or text
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
- G06N3/0455—Auto-encoder networks; Encoder-decoder networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/146—Aligning or centring of the image pick-up or image-field
- G06V30/147—Determination of region of interest
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/19—Recognition using electronic means
- G06V30/19007—Matching; Proximity measures
- G06V30/19013—Comparing pixel values or logical combinations thereof, or feature values having positional relevance, e.g. template matching
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/418—Document matching, e.g. of document images
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Multimedia (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Biophysics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Geometry (AREA)
- Computer Graphics (AREA)
- Character Input (AREA)
Abstract
本发明公开一种表格图像关键信息提取方法和装置,包括以下步骤:步骤S1、识别业务表格图像中的交点位置和交点类型;步骤S2、根据交点的位置和交点类型按规则进行排列,得到业务表格图像中表格的行列有序交点集;步骤S3、所述业务表格图像中表格的行列有序交点集与预设的模板参数进行匹配,得到关键字和键值单元格位置信息;步骤S4、根据键值单元格位置信息从OCR识别结果抽取键值,实现表格关键信息的提取。采用本发明的技术方案,可以应用于智能经办业务系统中,提高智能经办业务处理效率,节省了人工成本。
Description
技术领域
本发明属于信息处理的技术领域,尤其涉及一种表格图像关键信息提取方法和装置。
背景技术
在社会保险等业务办理过程中,涉及提交和处理大量的盖章纸质材料。业务经办人员需要把用户提交的纸质材料录入到业务系统中。由于每起业务办理所涉及的录入工作量比较大,不但影响业务办理的个人体验,而且人工成本也非常高。
发明内容
本发明要解决的技术问题是,提供一种表格图像关键信息提取方法和装置,提高经办业务处理效率,节省了人工成本。
为实现上述目的,本发明采用如下的技术方案:
一种表格图像关键信息提取方法,包括以下步骤:
步骤S1、识别业务表格图像中的交点位置和交点类型;
步骤S2、根据交点的位置和交点类型按规则进行排列,得到业务表格图像中表格的行列有序交点集;
步骤S3、所述业务表格图像中表格的行列有序交点集与预设的模板参数进行匹配,得到关键字和键值单元格位置信息;
步骤S4、根据键值单元格位置信息从OCR识别结果抽取键值,实现表格关键信息的提取。
作为优选,步骤S1中,通过表格交点检测器识别业务表格图像中的交点位置和交点类型。
作为优选,表格交点检测器的网络结构采用图像输入-编码器-解码器-支路结果输出的结构。
作为优选,步骤S2中,采用表格交点行列有序化方法得到业务表格图像中表格的行列有序交点集。
本发明还提供一种表格图像关键信息提取装置,包括:
识别模块,用于识别业务表格图像中的交点位置和交点类型;
排列模块,用于根据交点的位置和交点类型按规则进行排列,得到业务表格图像中表格的行列有序交点集;
匹配模块,用于所述业务表格图像中表格的行列有序交点集与预设的模板参数进行匹配,得到关键字和键值单元格位置信息;
提取模块,用于根据键值单元格位置信息从OCR识别结果抽取键值,实现表格关键信息的提取。
作为优选,识别模块通过表格交点检测器识别业务表格图像中的交点位置和交点类型。
作为优选,表格交点检测器的的网络结构采用图像输入-编码器-解码器-支路结果输出的结构。
作为优选,排列模块采用表格交点行列有序化方式得到业务表格图像中表格的行列有序交点集。
本发明识别业务表格图像中的交点位置和交点类型;根据交点的位置和交点类型按规则进行排列,得到业务表格图像中表格的行列有序交点集;所述业务表格图像中表格的行列有序交点集与预设的模板参数进行匹配,得到关键字和键值单元格位置信息;根据键值单元格位置信息从OCR识别结果抽取键值,实现表格关键信息的提取。采用本发明的技术方案,可以应用于智能经办业务系统中,提高智能经办业务处理效率,节省了人工成本。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本发明实施例的表格图像关键信息提取方法的流程图;
图2为本发明实施例的表格图像关键信息提取装置的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
实施例1:
如图1所示,本发明实施例提供一种表格图像关键信息提取方法,包括以下步骤:
步骤S1、识别业务表格图像中的交点位置和交点类型;
步骤S2、根据交点的位置和交点类型按规则进行排列,得到业务表格图像中表格的行列有序交点集;
步骤S3、所述业务表格图像中表格的行列有序交点集与预设的模板参数进行匹配,得到关键字和键值单元格位置信息;
步骤S4、根据键值单元格位置信息从OCR识别结果抽取键值,实现表格关键信息的提取。
作为本发明实施例的一种实施方式,步骤S1中,通过表格交点检测器识别业务表格图像中的交点位置和交点类型。
进一步,表格交点检测器的网络结构采用图像输入-编码器-解码器-支路结果输出的结构。表格图像输入到网络中后,先经过编码器进行特征编码,再送解码器进行特征解码,最后分成两个网络支路分别输出结果。一个网络支路由两层卷积和一个Sigmoid层组成,输出每个像素属于交点的概率,称为交点回归支路;另一个网络支路由两层卷积单元构成,输出每个像素属于交点类型,称为交点类型支路。根据表格中的两条线段相交情况,设计了L型交点、倒L型交点、7型交点、倒7型交点、T型交点、倒T型交点、顺时针90度T型交点、逆时针90度T型交点和十字型交点9种交点类型。表格交点检测器采用联合损失函数进行训练,联合损失函数定义为:
其中,为交点回归支路的均方误差损失函数,/>为交点类型支路的交叉熵损失函数。表格交点检测器先在合成数据进行预训练,再使用智能经办业务中的表格图像数据进行微调训练得到。
作为优选,步骤S2中,采用表格交点行列有序化方法得到业务表格图像中表格的行列有序交点集。具体包括:
先按x坐标对表格交点集从小到大排序,再按y坐标从小到大排序,得到初选交点集。
先创建一个空的行列有序交点集,从初选交点集的第一个交点开始,
如果该交点的类型是“倒L型交点”,则向后搜索直至找到一个类型为“7型交点”,把这些交点从初选交点集中拆分出来,作为一个行有序交点子集并入到行列有序交点集中;
如果该交点的类型是“逆时针90度T型交点”,则向后搜索直至找到一个类型为“顺时针90度T型交点”,把这些交点从初选交点集中拆分出来,作为一个行有序交点子集并入到行列有序交点集中;
如果该交点的类型是“L型交点”,则向后搜索直至找到一个类型为“倒7型交点”,把这些交点从初选交点集中拆分出来,作为一个行有序交点子集并入到行列有序交点集中;
直至最后一个交点,得到行列有序交点集。
作为本发明实施例的一种实施方式,步骤S3中,预设模板的构建方法包括:
选择一张质量较好的智能经办业务表格的图像作为模板图像,先使用表格交点检测器得到表格交点集。
在表格交点集中搜索L型交点、倒L型交点、7型交点和倒7型交点这4个表格顶角交点。
使用表格交点行列有序化方法得到行列有序交点集,并按行号以及行号顺序对行列有序交点集进行编号。根据业务办理内容设置关键信息的关键字和键值单元格位置,其中键值单元格位置由其左上、右上、左下和右下4个表格交点的编号确定。把表格顶角交点、行列有序交点集、关键字和键值单元格位置等数据作为该业务表格的模板参数进行预存储。
作为本发明实施例的一种实施方式,步骤S3中,业务表格行列有序交点集与模板参数中的行列有序交点集进行逐行对齐,并根据模板参数的关键字和键值单元格位置得到业务表格的关键字和键值单元格位置。
作为本发明实施例的一种实施方式,步骤S4中,根据业务表格的关键字和键值单元格位置,根据键值单元格的左上、右上、左下和右下4个表格交点的坐标,提取该区域的OCR的文字识别结果,生成业务表格的“关键字-键值”数据对。
业务材料信息都是由固定形式的表格组织的,本发明实施例根据业务表格种类固定的特点,设计一种基于业务表格类型的模板的表格关键信息提取方法,并把这些关键信息结构化传递给业务系统,可以大大提高效率、降低人工录入的成本。通过表格交点检测器,检测表格图像中的交点位置和交点类型,并采用表格交点行列有序化方法,把表格的交点数据转变成行列有序交点集。对每种表格类型设置关键字和健值信息等各种模板参数,业务表格图像的行列有序交点集与模板参数进行匹配,得到关键字和键值单元格位置,并进一步从OCR识别结果抽取键值,实现表格图像的关键信息的提取。采用本发明技术方案,提高经办业务处理效率,节省了人工成本。
实施例2:
如图2所示,本发明实施例提供一种表格图像关键信息提取装置,包括:
识别模块,用于识别业务表格图像中的交点位置和交点类型;
排列模块,用于根据交点的位置和交点类型按规则进行排列,得到业务表格图像中表格的行列有序交点集;
匹配模块,用于所述业务表格图像中表格的行列有序交点集与预设的模板参数进行匹配,得到关键字和键值单元格位置信息;
提取模块,用于根据键值单元格位置信息从OCR识别结果抽取键值,实现表格关键信息的提取。
作为本发明实施例的一种实施方式,识别模块通过表格交点检测器识别业务表格图像中的交点位置和交点类型。
作为本发明实施例的一种实施方式,表格交点检测器的网络结构采用图像输入-编码器-解码器-支路结果输出的结构。
作为本发明实施例的一种实施方式,排列模块采用表格交点行列有序化方式得到业务表格图像中表格的行列有序交点集。
以上所述的实施例仅是对本发明优选方式进行的描述,并非对本发明的范围进行限定,在不脱离本发明设计精神的前提下,本领域普通技术人员对本发明的技术方案做出的各种变形和改进,均应落入本发明权利要求书确定的保护范围内。
Claims (8)
1.一种表格图像关键信息提取方法,其特征在于,包括以下步骤:
步骤S1、识别业务表格图像中的交点位置和交点类型;
步骤S2、根据交点的位置和交点类型按规则进行排列,得到业务表格图像中表格的行列有序交点集;
步骤S3、所述业务表格图像中表格的行列有序交点集与预设的模板参数进行匹配,得到关键字和键值单元格位置信息;
步骤S4、根据键值单元格位置信息从OCR识别结果抽取键值,实现表格关键信息的提取。
2.如权利要求1所述的表格图像关键信息提取方法,其特征在于,步骤S1中,通过表格交点检测器识别业务表格图像中的交点位置和交点类型。
3.如权利要求2所述的表格图像关键信息提取方法,其特征在于,表格交点检测器的网络结构采用图像输入-编码器-解码器-支路结果输出的结构。
4.如权利要求3所述的表格图像关键信息提取方法,其特征在于,步骤S2中,采用表格交点行列有序化方法得到业务表格图像中表格的行列有序交点集。
5.一种表格图像关键信息提取装置,其特征在于,包括:
识别模块,用于识别业务表格图像中的交点位置和交点类型;
排列模块,用于根据交点的位置和交点类型按规则进行排列,得到业务表格图像中表格的行列有序交点集;
匹配模块,用于所述业务表格图像中表格的行列有序交点集与预设的模板参数进行匹配,得到关键字和键值单元格位置信息;
提取模块,用于根据键值单元格位置信息从OCR识别结果抽取键值,实现表格关键信息的提取。
6.如权利要求5所述的表格图像关键信息提取装置,其特征在于,识别模块通过表格交点检测器识别业务表格图像中的交点位置和交点类型。
7.如权利要求6所述的表格图像关键信息提取装置,其特征在于,表格交点检测器的网络结构采用图像输入-编码器-解码器-支路结果输出的结构。
8.如权利要求7所述的表格图像关键信息提取装置,其特征在于,排列模块采用表格交点行列有序化方式得到业务表格图像中表格的行列有序交点集。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310979093.6A CN116978051A (zh) | 2023-08-03 | 2023-08-03 | 一种表格图像关键信息提取方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310979093.6A CN116978051A (zh) | 2023-08-03 | 2023-08-03 | 一种表格图像关键信息提取方法和装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116978051A true CN116978051A (zh) | 2023-10-31 |
Family
ID=88474748
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310979093.6A Pending CN116978051A (zh) | 2023-08-03 | 2023-08-03 | 一种表格图像关键信息提取方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116978051A (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110210409A (zh) * | 2019-06-04 | 2019-09-06 | 南昌市微轲联信息技术有限公司 | 表格单据中表格框线检测方法及系统 |
CN111046771A (zh) * | 2019-12-05 | 2020-04-21 | 上海眼控科技股份有限公司 | 用于恢复书写轨迹的网络模型的训练方法 |
CN111582029A (zh) * | 2020-04-02 | 2020-08-25 | 天津大学 | 一种基于密集连接与注意力机制的交通标志识别方法 |
CN113673489A (zh) * | 2021-10-21 | 2021-11-19 | 之江实验室 | 一种基于级联Transformer的视频群体行为识别方法 |
CN115238723A (zh) * | 2022-06-29 | 2022-10-25 | 厦门华联电子股份有限公司 | 一种局部顶点检测方法及装置 |
CN115984885A (zh) * | 2022-12-23 | 2023-04-18 | 国网江苏省电力有限公司苏州供电分公司 | 一种用于营销现场作业的工单管理方法及系统 |
-
2023
- 2023-08-03 CN CN202310979093.6A patent/CN116978051A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110210409A (zh) * | 2019-06-04 | 2019-09-06 | 南昌市微轲联信息技术有限公司 | 表格单据中表格框线检测方法及系统 |
CN111046771A (zh) * | 2019-12-05 | 2020-04-21 | 上海眼控科技股份有限公司 | 用于恢复书写轨迹的网络模型的训练方法 |
CN111582029A (zh) * | 2020-04-02 | 2020-08-25 | 天津大学 | 一种基于密集连接与注意力机制的交通标志识别方法 |
CN113673489A (zh) * | 2021-10-21 | 2021-11-19 | 之江实验室 | 一种基于级联Transformer的视频群体行为识别方法 |
CN115238723A (zh) * | 2022-06-29 | 2022-10-25 | 厦门华联电子股份有限公司 | 一种局部顶点检测方法及装置 |
CN115984885A (zh) * | 2022-12-23 | 2023-04-18 | 国网江苏省电力有限公司苏州供电分公司 | 一种用于营销现场作业的工单管理方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112199462A (zh) | 跨模态的数据处理方法、装置、存储介质以及电子装置 | |
CN108984642A (zh) | 一种基于哈希编码的印花织物图像检索方法 | |
CN111492370A (zh) | 用于识别结构化布局的文本图像的装置和方法 | |
WO2021012793A1 (zh) | 基于大数据分析的律师推荐方法及相关设备 | |
US11010543B1 (en) | Systems and methods for table extraction in documents | |
CN111652171B (zh) | 一种基于双分支网络的面部表情识别模型的构建方法 | |
CN112036406B (zh) | 一种图像文档的文本抽取方法、装置及电子设备 | |
CN114612921B (zh) | 表单识别方法、装置、电子设备和计算机可读介质 | |
CN102968453A (zh) | 一种用于移动终端上的影视搜索方法 | |
KR20200018469A (ko) | 데이터 압축 및 분석을 위한 컴퓨터화된 방법 | |
CN101650824B (zh) | 基于共形能量的内容敏感图像缩放方法 | |
Li et al. | BViT: Broad attention-based vision transformer | |
CN116978051A (zh) | 一种表格图像关键信息提取方法和装置 | |
CN102841888B (zh) | 一种快速排版系统及方法 | |
US20240021000A1 (en) | Image-based information extraction model, method, and apparatus, device, and storage medium | |
CN106909944A (zh) | 一种人脸图片聚类的方法 | |
AYDIN | Classification of documents extracted from images with optical character recognition methods | |
CN110807449A (zh) | 一种科技项目申报线上服务终端 | |
CN111583352A (zh) | 一种用于移动终端的风格化图标智能生成方法 | |
Gupta et al. | Character Recognition From Image Using Tensorflow and Convolutional Neural Networks | |
Bradley | A large-scale sampling study of the central limit effect | |
Cao et al. | Tangut character image generation based on cycle-consistent adversarial networks | |
CN116911268B (zh) | 一种表格信息处理方法、装置、处理设备及可读存储介质 | |
CN116311275B (zh) | 一种基于seq2seq语言模型的文字识别方法及系统 | |
CN117727053B (zh) | 一种多类别汉字单样本字体识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |