CN116861912B - 一种基于深度学习的表格实体抽取方法及系统 - Google Patents
一种基于深度学习的表格实体抽取方法及系统 Download PDFInfo
- Publication number
- CN116861912B CN116861912B CN202311107511.9A CN202311107511A CN116861912B CN 116861912 B CN116861912 B CN 116861912B CN 202311107511 A CN202311107511 A CN 202311107511A CN 116861912 B CN116861912 B CN 116861912B
- Authority
- CN
- China
- Prior art keywords
- cell
- information
- entity extraction
- processing
- width
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 66
- 238000013135 deep learning Methods 0.000 title claims abstract description 19
- 238000006243 chemical reaction Methods 0.000 claims abstract description 17
- 238000000034 method Methods 0.000 claims abstract description 16
- 230000006870 function Effects 0.000 claims description 12
- 230000004913 activation Effects 0.000 claims description 3
- 238000012015 optical character recognition Methods 0.000 claims description 3
- 230000010339 dilation Effects 0.000 claims description 2
- 230000003628 erosive effect Effects 0.000 claims description 2
- 230000009466 transformation Effects 0.000 claims description 2
- 238000004364 calculation method Methods 0.000 claims 1
- 230000000694 effects Effects 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000005260 corrosion Methods 0.000 description 1
- 230000007797 corrosion Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/146—Aligning or centring of the image pick-up or image-field
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/414—Extracting the geometrical structure, e.g. layout tree; Block segmentation, e.g. bounding boxes for graphics or text
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computer Graphics (AREA)
- Geometry (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Image Analysis (AREA)
- Character Input (AREA)
- Character Discrimination (AREA)
Abstract
本发明公开了一种基于深度学习的表格实体抽取方法及系统,该方法包括以下实施步骤:文档转换步骤、表格提取步骤、单元格处理步骤、信息实体抽取步骤和信息智能填写步骤,文档转换步骤,对PDF文档进行处理,将其转换成PNG图片格式;表格提取步骤,提取图片中的网格线,定位表格区域,根据其最小外接矩形框坐标截取出表格图片;单元格处理步骤,计算线段数量及单元格的长和宽,根据单元格所在位置信息及长宽比例判断当前单元格是否为合并单元格;本发明基于传统图像处理算法以及预训练语言模型框架,通过采用传统图像算法对表格图片进行处理,增加了合并单元格及跨页单元格的处理过程,满足网络信息安全领域的高准确率要求。
Description
技术领域
本发明涉及网络信息安全领域的表格图片识别及信息抽取领域,尤其是涉及一种基于深度学习的表格实体抽取方法及系统。
背景技术
实体抽取主要任务是识别命名实体的文本范围,并将其分类为预定义的类别,学术上所涉及一般包含三大类,实体类、时间类、数字类和7个小类,比如人、地名、时间、组织、日期、货币、百分比,是问答系统、翻译系统、知识图谱的基础,早期的NER的方法主要由语言学家手工构造规则模板,选用特定特征,包括统计信息、标点符号、指示词、方向词、中心词等,以模式与字符串相匹配为主要手段,但是此方法需要大量人力构建语言模型、系统周期较长、知识更新较慢、移植性较差。
现有技术在对表格信息进行抽取时,仅在对标准形式表格信息抽取方面效果较好,当存在复杂表格或合并单元格等情况时,只能通过模板匹配等方式,且信息抽取准确率低,并且处理表格图片中的合并单元格或跨页单元格时效果差,不能很好的提取其内容,无法满足网络信息安全领域的高准确率要求,本发明是基于传统图像处理算法以及预训练语言模型框架实现的,不仅对表格图片进行处理,提高了表格分割的准确性,而且使用深度学习方法对表格信息进行处理,从中抽取实体关系,提高信息抽取的准确率。
发明内容
本发明的目的是为了提高信息抽取的准确率,节省表单的填写时间,提高表格分割的准确性,设计涉及一种基于深度学习的表格实体抽取方法及系统。
本发明为达到上述发明目的,采用如下技术方案:
第一方面,本发明提供了一种基于深度学习的表格实体抽取方法,该方法包括以下实施步骤:文档转换步骤、表格提取步骤、单元格处理步骤、信息实体抽取步骤和信息智能填写步骤;
所述文档转换步骤,对PDF文档进行处理,将其转换成PNG图片格式;
所述表格提取步骤,提取图片中的网格线,定位表格区域,根据其最小外接矩形框坐标截取出表格图片;
所述单元格处理步骤,计算线段数量及单元格的长和宽,根据单元格所在位置信息及长宽比例判断当前单元格是否为合并单元格;
所述信息实体抽取步骤,识别单元格中的文本,训练实体抽取模型,计算主体和客体之间的相关性,生成具有相关性的主客体键值对;
所述信息智能填写步骤,将实体数据根据预设好的规则自动填写入表单页面中。
更进一步地,所述文档转换步骤处理数据具体包括以下步骤:
(1)锁定PDF文档,对PDF文档进行处理;
(2)使用page.get_pixmap()函数将PDF文档转换成PNG图片格式。
更进一步地,所述表格提取步骤处理数据具体包括以下步骤:
(1)对转换后的PNG图片使用数字图像处理算法进行处理,从中提取出网格线部分;
(2)判断网格线外轮廓是否闭合或半闭合以定位图片中的表格区域,并获取表格的最小外接矩形框坐标;
(3)根据最小外接矩形框位置从图片中截取出表格区域;
(4)根据外接矩形框四个顶点是否为网格线的交点判断单元格是否跨页,若跨页将两个表格进行拼接,同时将单元格坐标进行合并。
更进一步地,所述单元格处理步骤处理数据具体包括以下步骤:
(1)根据网格线中交点的位置计算各行的线段数量以及每个单元格的长和宽;
(2)对所有单元格的长和宽进行汇总,按比例分别将长宽数据转化为整数;
(3)分析每个单元格所在行列位置及其长宽占比判断当前单元格是否为合并单元格,并添加合并信息。
更进一步地,所述信息实体抽取步骤处理数据具体包括以下步骤:
(1)对每个单元格使用光学字符识别技术进行文本识别;
(2)对所有获取到的文本内容使用基于预训练语言模型框架进行训练,将训练好的实体抽取模型进行预测;
(3)激活函数采用softmax()函数计算主体和客体之间的相关性,其输出值大于阈值T的主客体表示相关;
(4)将相关的主客体形成键值对作为模型的输出。
更进一步地,所述信息智能填写步骤中,具体是将在信息实体抽取步骤中获取到的实体数据根据预设规则自动填写入表单页面中。
更进一步地,所述page.get_pixmap()函数主要是转换文档以获取与页面相关pixmap的位图图像。
更进一步地,所述数字图像处理算法包括二值化算法、边缘处理算法、膨胀算法、腐蚀算法或霍夫变换算法。
第二方面,本发明提供了一种基于深度学习的表格实体抽取系统,用于执行实施所述的基于深度学习的表格实体抽取方法,所述系统包括文档转换模块、表格提取模块、单元格处理模块、信息实体抽取模块和信息智能填写模块,文档转换模块用于对PDF文档进行处理,将其转换成PNG图片格式,表格提取模块用于提取图片中的网格线,定位表格区域,根据其最小外接矩形框坐标截取出表格图片,单元格处理模块用于计算线段数量及单元格的长和宽,根据单元格所在位置信息及长宽比例判断当前单元格是否为合并单元格,信息实体抽取模块用于识别单元格中的文本,训练实体抽取模型,计算主体和客体之间的相关性,生成具有相关性的主客体键值对,信息智能填写模块用于将实体数据根据预设好的规则自动填写入表单页面中。
与现有技术相比,本发明的有益效果如下:
1、本发明提供的基于深度学习的表格实体抽取系统,该系统包括文档转换模块、表格提取模块、单元格处理模块、信息实体抽取模块和信息智能填写模块,通过使用了深度学习的方法获取单元格数据之间的联系,将其转换成实体对的方式,提高了信息抽取的准确率,节省表单的填写时间。
2、本发明基于传统图像处理算法以及预训练语言模型框架框架,通过采用传统图像算法对表格图片进行处理,增加了合并单元格及跨页单元格的处理过程,满足网络信息安全领域的高准确率要求,并且更加准确的提取其内容,提高表格分割的准确性。
附图说明
图1为本发明提供的实施例1公开的表格实体抽取系统流程图;
图2为本发明提供的实施例1中表格实体抽取系统模块组成示意图。
具体实施方式
实施例1:
参照图1和图2,本实施例公开了一种基于深度学习的表格实体抽取方法,该方法包括以下实施步骤:文档转换步骤、表格提取步骤、单元格处理步骤、信息实体抽取步骤和信息智能填写步骤;
文档转换步骤,对PDF文档进行处理,将其转换成PNG图片格式;表格提取步骤,提取图片中的网格线,定位表格区域,根据其最小外接矩形框坐标截取出表格图片;单元格处理步骤,计算线段数量及单元格的长和宽,根据单元格所在位置信息及长宽比例判断当前单元格是否为合并单元格;信息实体抽取步骤,识别单元格中的文本,训练实体抽取模型,计算主体和客体之间的相关性,生成具有相关性的主客体键值对;信息智能填写步骤,将实体数据根据预设好的规则自动填写入表单页面中。
其中,文档转换步骤处理数据具体包括以下步骤:
(1)锁定PDF文档,对PDF文档进行处理;
(2)使用page.get_pixmap()函数将PDF文档转换成PNG图片格式。
其中page.get_pixmap()函数主要是转换文档以获取与页面相关pixmap的位图图像。
表格提取步骤处理数据具体包括以下步骤:
(1)对转换后的PNG图片使用数字图像处理算法进行处理,从中提取出网格线部分;
(2)判断网格线外轮廓是否闭合或半闭合来定位图片中的表格区域,并获取表格的最小外接矩形框坐标;
(3)根据最小外接矩形框位置从图片中截取出表格区域;
(4)根据外接矩形框四个顶点是否为网格线的交点判断单元格是否跨页,若跨页将两个表格进行拼接,同时将单元格坐标进行合并。
其中数字图像处理算法包括二值化算法、边缘处理算法、膨胀算法、腐蚀算法或霍夫变换算法。
单元格处理步骤处理数据具体包括以下步骤:
(1)根据网格线中交点的位置计算各行的线段数量以及每个单元格的长和宽;
(2)对所有单元格的长和宽进行汇总,按比例分别将长宽数据转化为整数;
(3)分析每个单元格所在行列位置及其长宽占比判断当前单元格是否为合并单元格,并添加合并信息。
信息实体抽取步骤处理数据具体包括以下步骤:
(1)对每个单元格使用光学字符识别技术进行文本识别;
(2)对所有获取到的文本内容使用基于预训练语言模型框架训练好的实体抽取模型进行预测;
(3)激活函数采用softmax()函数来计算主体和客体之间的相关性,其输出值大于阈值T的主客体表示相关;
(4)将相关的主客体形成键值对作为模型的输出。
实施例2:
本实施例公开了一种基于深度学习的表格实体抽取系统,用于执行实施例1公开的一种基于深度学习的表格实体抽取方法,所述系统包括文档转换模块、表格提取模块、单元格处理模块、信息实体抽取模块和信息智能填写模块,文档转换模块用于对PDF文档进行处理,将其转换成PNG图片格式,表格提取模块用于提取图片中的网格线,定位表格区域,根据其最小外接矩形框坐标截取出表格图片,单元格处理模块用于计算线段数量及单元格的长和宽,根据单元格所在位置信息及长宽比例判断当前单元格是否为合并单元格,信息实体抽取模块用于识别单元格中的文本,训练实体抽取模型,计算主体和客体之间的相关性,生成具有相关性的主客体键值对,信息智能填写模块用于将实体数据根据预设好的规则自动填写入表单页面中。
Claims (7)
1.一种基于深度学习的表格实体抽取方法,其特征是,该方法包括以下实施步骤:文档转换步骤、表格提取步骤、单元格处理步骤、信息实体抽取步骤和信息智能填写步骤;
所述文档转换步骤,对PDF文档进行处理,将其转换成PNG图片格式;
所述表格提取步骤,对转换后的PNG图片使用数字图像处理算法进行处理,从中提取出网格线部分,判断网格线外轮廓是否闭合或半闭合以定位图片中的表格区域,并获取表格的最小外接矩形框坐标,根据最小外接矩形框位置从图片中截取出表格区域,根据外接矩形框四个顶点是否为网格线的交点判断单元格是否跨页,若跨页将两个表格进行拼接,同时将单元格坐标进行合并;
所述单元格处理步骤,根据网格线中交点的位置计算各行的线段数量以及每个单元格的长和宽,对所有单元格的长和宽进行汇总,按比例分别将长宽数据转化为整数,分析每个单元格所在行列位置及其长宽占比判断当前单元格是否为合并单元格,并添加合并信息;
所述信息实体抽取步骤,识别单元格中的文本,训练实体抽取模型,计算主体和客体之间的相关性,生成具有相关性的主客体键值对;
所述信息智能填写步骤,将实体数据根据预设好的规则自动填写入表单页面中。
2.根据权利要求1所述的一种基于深度学习的表格实体抽取方法,其特征是,所述文档转换步骤处理数据具体包括以下步骤:
(1)锁定PDF文档,对PDF文档进行处理;
(2)使用page.get_pixmap()函数将PDF文档转换成PNG图片格式。
3.根据权利要求1所述的一种基于深度学习的表格实体抽取方法,其特征是,所述信息实体抽取步骤处理数据具体包括以下步骤:
(1)对每个单元格使用光学字符识别技术进行文本识别;
(2)对所有获取到的文本内容使用基于预训练语言模型框架进行训练,将训练好的实体抽取模型进行预测;
(3)激活函数采用softmax()函数计算主体和客体之间的相关性,其输出值大于阈值T的主客体表示相关;
(4)将相关的主客体形成键值对作为模型的输出。
4.根据权利要求3所述的一种基于深度学习的表格实体抽取方法,其特征是,所述信息智能填写步骤中,具体是将在信息实体抽取步骤中获取到的实体数据根据预设规则自动填写入表单页面中。
5.根据权利要求2所述的一种基于深度学习的表格实体抽取方法,其特征是,所述page.get_pixmap()函数主要是转换文档以获取与页面相关pixmap的位图图像。
6.根据权利要求1所述的一种基于深度学习的表格实体抽取方法,其特征是,所述数字图像处理算法包括二值化算法、边缘处理算法、膨胀算法、腐蚀算法或霍夫变换算法。
7.一种基于深度学习的表格实体抽取系统,其特征在于,用于执行实施权利要求1~6任一项所述的基于深度学习的表格实体抽取方法,所述系统包括文档转换模块、表格提取模块、单元格处理模块、信息实体抽取模块和信息智能填写模块,文档转换模块用于对PDF文档进行处理,将其转换成PNG图片格式,表格提取模块用于对转换后的PNG图片使用数字图像处理算法进行处理,从中提取出网格线部分,判断网格线外轮廓是否闭合或半闭合以定位图片中的表格区域,并获取表格的最小外接矩形框坐标,根据最小外接矩形框位置从图片中截取出表格区域,根据外接矩形框四个顶点是否为网格线的交点判断单元格是否跨页,若跨页将两个表格进行拼接,同时将单元格坐标进行合并,单元格处理模块用于根据网格线中交点的位置计算各行的线段数量以及每个单元格的长和宽,对所有单元格的长和宽进行汇总,按比例分别将长宽数据转化为整数,分析每个单元格所在行列位置及其长宽占比判断当前单元格是否为合并单元格,并添加合并信息,信息实体抽取模块用于识别单元格中的文本,训练实体抽取模型,计算主体和客体之间的相关性,生成具有相关性的主客体键值对,信息智能填写模块用于将实体数据根据预设好的规则自动填写入表单页面中。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311107511.9A CN116861912B (zh) | 2023-08-31 | 2023-08-31 | 一种基于深度学习的表格实体抽取方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311107511.9A CN116861912B (zh) | 2023-08-31 | 2023-08-31 | 一种基于深度学习的表格实体抽取方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116861912A CN116861912A (zh) | 2023-10-10 |
CN116861912B true CN116861912B (zh) | 2023-12-05 |
Family
ID=88228895
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311107511.9A Active CN116861912B (zh) | 2023-08-31 | 2023-08-31 | 一种基于深度学习的表格实体抽取方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116861912B (zh) |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001154905A (ja) * | 1999-11-26 | 2001-06-08 | Canon Inc | オブジェクト処理装置、オブジェクト処理方法、及び記憶媒体 |
KR20070059236A (ko) * | 2005-12-06 | 2007-06-12 | 주식회사 인프라웨어 | 웹문서에 포함된 테이블 프린트 방법 |
CN110390269A (zh) * | 2019-06-26 | 2019-10-29 | 平安科技(深圳)有限公司 | Pdf文档表格提取方法、装置、设备及计算机可读存储介质 |
CN110472208A (zh) * | 2019-06-26 | 2019-11-19 | 上海恒生聚源数据服务有限公司 | Pdf文档中表格解析的方法、系统、存储介质及电子设备 |
CN111027297A (zh) * | 2019-12-23 | 2020-04-17 | 海南港澳资讯产业股份有限公司 | 一种对图像型pdf财务数据关键表格信息的处理方法 |
CN112183511A (zh) * | 2020-12-01 | 2021-01-05 | 江西博微新技术有限公司 | 一种图像导出表格的方法、系统、存储介质及设备 |
KR102309562B1 (ko) * | 2020-12-30 | 2021-10-06 | 주식회사 애자일소다 | Pdf 테이블 재구성 장치 및 그 동작 방법 |
KR20210138266A (ko) * | 2020-05-12 | 2021-11-19 | 인하대학교 산학협력단 | 딥러닝 기반 키워드 추출 방법 및 장치 |
CN113806548A (zh) * | 2021-11-19 | 2021-12-17 | 北京北大软件工程股份有限公司 | 基于深度学习模型的信访要素抽取方法及抽取系统 |
CN115761773A (zh) * | 2022-11-17 | 2023-03-07 | 上海交通大学 | 基于深度学习的图像内表格识别方法及系统 |
CN116543404A (zh) * | 2023-05-09 | 2023-08-04 | 重庆师范大学 | 基于单元格坐标优化的表格语义信息抽取方法、系统、设备及介质 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11200413B2 (en) * | 2018-07-31 | 2021-12-14 | International Business Machines Corporation | Table recognition in portable document format documents |
-
2023
- 2023-08-31 CN CN202311107511.9A patent/CN116861912B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001154905A (ja) * | 1999-11-26 | 2001-06-08 | Canon Inc | オブジェクト処理装置、オブジェクト処理方法、及び記憶媒体 |
KR20070059236A (ko) * | 2005-12-06 | 2007-06-12 | 주식회사 인프라웨어 | 웹문서에 포함된 테이블 프린트 방법 |
CN110390269A (zh) * | 2019-06-26 | 2019-10-29 | 平安科技(深圳)有限公司 | Pdf文档表格提取方法、装置、设备及计算机可读存储介质 |
CN110472208A (zh) * | 2019-06-26 | 2019-11-19 | 上海恒生聚源数据服务有限公司 | Pdf文档中表格解析的方法、系统、存储介质及电子设备 |
CN111027297A (zh) * | 2019-12-23 | 2020-04-17 | 海南港澳资讯产业股份有限公司 | 一种对图像型pdf财务数据关键表格信息的处理方法 |
KR20210138266A (ko) * | 2020-05-12 | 2021-11-19 | 인하대학교 산학협력단 | 딥러닝 기반 키워드 추출 방법 및 장치 |
CN112183511A (zh) * | 2020-12-01 | 2021-01-05 | 江西博微新技术有限公司 | 一种图像导出表格的方法、系统、存储介质及设备 |
KR102309562B1 (ko) * | 2020-12-30 | 2021-10-06 | 주식회사 애자일소다 | Pdf 테이블 재구성 장치 및 그 동작 방법 |
CN113806548A (zh) * | 2021-11-19 | 2021-12-17 | 北京北大软件工程股份有限公司 | 基于深度学习模型的信访要素抽取方法及抽取系统 |
CN115761773A (zh) * | 2022-11-17 | 2023-03-07 | 上海交通大学 | 基于深度学习的图像内表格识别方法及系统 |
CN116543404A (zh) * | 2023-05-09 | 2023-08-04 | 重庆师范大学 | 基于单元格坐标优化的表格语义信息抽取方法、系统、设备及介质 |
Non-Patent Citations (1)
Title |
---|
PDF文档表格信息的识别与提取;田翠华;张一平;胡志钢;高静敏;李西雨;;厦门理工学院学报(03);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN116861912A (zh) | 2023-10-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110363102B (zh) | 一种pdf文件的对象识别处理方法及装置 | |
KR101376863B1 (ko) | 문서 시각 구조의 문법 분석 | |
AU2020279921B2 (en) | Representative document hierarchy generation | |
CN109492199B (zh) | 一种基于ocr预判断的pdf文件转换方法 | |
CN111259873B (zh) | 一种表格数据提取方法及装置 | |
CN105260727A (zh) | 基于图像处理与序列标注的学术文献语义再结构化方法 | |
CN115424282A (zh) | 一种非结构化文本表格识别方法和系统 | |
CN112036406B (zh) | 一种图像文档的文本抽取方法、装置及电子设备 | |
CN115690823B (zh) | 电气图纸中带有毛刺特征的表格信息提取方法及装置 | |
WO2024041032A1 (zh) | 基于不可编辑的图文类图像生成可编辑文档的方法及装置 | |
CN111368695A (zh) | 一种表格结构提取方法 | |
CN113723252A (zh) | 一种表格型文本图片的识别方法和系统 | |
CN113723330A (zh) | 一种图表文档信息理解的方法及系统 | |
CN115588202B (zh) | 一种基于轮廓检测的电气设计图纸中文字提取方法及系统 | |
Jun et al. | Automatic classification and recognition of complex documents based on Faster RCNN | |
CN111626292A (zh) | 一种基于深度学习技术的楼宇指示标识的文字识别方法 | |
CN112269872A (zh) | 简历解析方法、装置、电子设备及计算机存储介质 | |
CN112257629A (zh) | 一种建筑图纸的文本信息识别方法及装置 | |
CN116704523A (zh) | 一种用于出版印刷设备的文字排版图像识别系统 | |
CN113468979A (zh) | 文本行语种识别方法、装置、电子设备 | |
CN116861912B (zh) | 一种基于深度学习的表格实体抽取方法及系统 | |
CN112036330A (zh) | 一种文本识别方法、文本识别装置及可读存储介质 | |
CN115203415A (zh) | 一种简历文档信息提取方法及相关装置 | |
CN113516041A (zh) | 一种藏文古籍文档图像版面分割、识别方法及系统 | |
CN114399782B (zh) | 文本图像处理方法、装置、设备、存储介质及程序产品 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |