CN113111864A - 基于多模态下的智能表格抽取算法 - Google Patents

基于多模态下的智能表格抽取算法 Download PDF

Info

Publication number
CN113111864A
CN113111864A CN202110521586.6A CN202110521586A CN113111864A CN 113111864 A CN113111864 A CN 113111864A CN 202110521586 A CN202110521586 A CN 202110521586A CN 113111864 A CN113111864 A CN 113111864A
Authority
CN
China
Prior art keywords
keywords
comparison
document
determining
successful
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110521586.6A
Other languages
English (en)
Inventor
郭英男
文银龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Xunlian Information Technology Co ltd
Original Assignee
Shanghai Xunlian Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Xunlian Information Technology Co ltd filed Critical Shanghai Xunlian Information Technology Co ltd
Priority to CN202110521586.6A priority Critical patent/CN113111864A/zh
Publication of CN113111864A publication Critical patent/CN113111864A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/413Classification of content, e.g. text, photographs or tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Character Discrimination (AREA)
  • Character Input (AREA)

Abstract

本发明公开了表格处理技术领域的基于多模态下的智能表格抽取算法,方法包括:导入文档,开启辅助软件;定位文档内表格位置;输入并确定关键词,对定位区域内关键词进行捕捉,确定关键词,确定关键词后比对区域内所有文档,进行关键词比对;确定关键词比对是否成功,比对成功将比对结果及记录进行显示和保存,非匹配文档排除。本发明在进行文档表格内抽取捕捉时排出表体和表头,提高智能化和工作效率,同时减少人工作业工作量。

Description

基于多模态下的智能表格抽取算法
技术领域
本发明涉及表格处理技术领域,具体是基于多模态下的智能表格抽取算法。
背景技术
随着信息时代进程的不断提升,在办公和生产生活中,电子信息存储应用也越来越广泛,而在电子信息存储及应用过程中,表格作为一项重要的信息办公方法,其应用范围也不断扩大,在表格应用过程中,为方便使用,常常需要对表格内的关键信息进行抽取。
现有OCR技术中表格的检测和识别(尤其无框表格)不能理解表格的表头和表体,需要人工设置,适用范围有限,每类表格都需要人工配置,导致对表格内信息进行抽取时,整个进程较为浪费时间及人工成本,同时不符合信息技术智能、便捷和高效率的应用思想。因此,本领域技术人员提供了基于多模态下的智能表格抽取算法,以解决上述背景技术中提出的问题。
发明内容
本发明的目的在于提供基于多模态下的智能表格抽取算法,以解决上述背景技术中提出的问题。
为实现上述目的,本发明提供如下技术方案:
基于多模态下的智能表格抽取算法,包括:预备阶段、定位阶段、扫描分析阶段和决断阶段,其中:
所述预备阶段包括:导入文档,开启辅助软件;
所述定位阶段包括:定位文档内表格位置;
所述分析阶段包括:输入并确定关键词,对定位区域内关键词进行捕捉,确定关键词,确定关键词后比对区域内所有文档,进行关键词比对;
所述决断阶段包括:确定关键词比对是否成功,比对成功将比对结果及记录进行显示和保存,非匹配文档排除;
其中,当进程处于区域定位时,若无法准确定位,则会重新启动定位进程进行重新定位;当进程处于关键词捕捉时,若无法准确捕捉到关键词,进程将重新捕捉关键词;在文档进行比对进程时,若比对成功,则进入下一进程,若比对失败,返回上一进程重新进行文档比对。
进一步:所述导入文档,开启辅助软件包括:
将含有检索表格的文档打开,开启OCR和NLP软件准备进行作业。
进一步:所述定位文档内表格位置,确定表格内的文字区域,包括:
开启文档后,定位文档内的表格区域,同时将表格的边框及表头排除,精准定位表格内的文字内容部分,确保后续进程的开启。
进一步:所述输入并确定关键词,对定位区域内关键词进行捕捉,确定关键词,确定关键词后比对区域内所有文档,进行关键词比对,包括:
通过OCR和NLP进行关键词的输入和输入信息的处理,确定关键词后,对定位区域内的文字进行扫描和捕捉,扫描捕捉到关键词后,对表格内的其它文档进行比对,并自动进行key映射。
进一步:所述确定关键词比对是否成功,比对成功将比对结果及记录进行显示和保存,非匹配文档排除,包括:
通过key映射全文,比对关键词匹配度,若无高匹配度文档,则判定比对失败,将返回上一程序对文档重新进行比对,比对成功后生成key结果并显示,同时抛弃其它比对项目。
进一步:所述抛弃定位区域内非关键词,锁定关键词并进行显示,包括:
关键词比对成功后将其进行显示,同时生成抽取关键词和比对文档信息,存储至历史抽取记录。
上述发明中的技术方案具有如下优点:
1:本发明中定位文档表格内容,排除表格表头和表体,减少人工作业工作量,进一步实现智能化,提高工作效率。
2:本发明中采用OCR和NLP进行关键词输入及捕捉分析,节省关键词输入及捕捉部分程序运行时间。
3:本发明中关键词捕捉后,通过key对定位区域进行映射,同时生产结果,确保关键词比对的准确性。
具体实施方式
下面将对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例中,基于多模态下的智能表格抽取算法,包括如下步骤:。
S1:预备阶段:导入需要进行进程的文档,开启辅助软件;
S2:定位阶段:定位文档内表格位置,定位表格位置;
S3:分析阶段:输入并确定关键词,对定位区域内关键词进行捕捉,确定关键词,确定关键词后比对区域内所有文档,进行关键词比对;
S4:决断阶段:确定关键词比对是否成功,比对成功将比对结果及记录进行显示和保存,非匹配文档排除,若文档比对失败,则重新反馈至上一进程重新进行比对,比对成功则直接进入下一进程。
其中,当进程处于区域定位时,若无法准确定位,则会重新启动定位进程进行重新定位;当进程处于关键词捕捉时,若无法准确捕捉到关键词,进程将重新捕捉关键词;在文档进行比对进程时,若比对成功,则进入下一进程,若比对失败,返回上一进程重新进行文档比对。
导入文档,开启辅助软件包括:
将含有检索表格的文档打开,开启OCR和NLP软件准备进行作业;
定位文档内表格位置,确定表格内的文字区域,包括:
开启文档后,定位文档内的表格区域,同时将表格的边框及表头排除,精准定位表格内的文字内容部分,确保后续进程的开启;
输入并确定关键词,对定位区域内关键词进行捕捉,确定关键词,确定关键词后比对区域内所有文档,进行关键词比对,包括:
通过OCR和NLP进行关键词的输入和输入信息的处理,确定关键词后,对定位区域内的文字进行扫描和捕捉,扫描捕捉到关键词后,对表格内的其它文档进行比对,并自动进行key映射;
确定关键词比对是否成功,比对成功将比对结果及记录进行显示和保存,非匹配文档排除,包括:
通过key映射全文,比对关键词匹配度,若无高匹配度文档,则判定比对失败,将返回上一程序对文档重新进行比对,比对成功后生成key结果并显示,同时抛弃其它比对项目。
抛弃定位区域内非关键词,锁定关键词并进行显示,包括:
关键词比对成功后将其进行显示,同时生成抽取关键词和比对文档信息,存储至历史抽取记录
综合上述步骤可了解本发明进程为:确定好需要捕捉的文档个,然后开启文档,同时打开OCR和NLP软件,确定文档内的表格位置,扫描表格内文字,排除表格边框及表头;通过OCR输入关键词,通过NLP进行关键词扫描,确定表格内的关键词,然后扫描表格真题文档,进行key映射比对,若比对成功,则生产key结果并显示,同时将关键词及比对信息存储至历史记录内,若比对失败,从新返回上一进程进行文档比对;结果显示后结束本次抽取进程。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明的保护范围之内。

Claims (6)

1.基于多模态下的智能表格抽取算法,包括预备阶段、定位阶段、扫描分析阶段和决断阶段;其中,
所述预备阶段包括:导入文档,开启辅助软件;
所述定位阶段包括:定位文档内表格位置;
所述分析阶段包括:输入并确定关键词,对定位区域内关键词进行捕捉,确定关键词,确定关键词后比对区域内所有文档,进行关键词比对;
所述决断阶段包括:确定关键词比对是否成功,比对成功将比对结果及记录进行显示和保存,非匹配文档排除;
其中,当进程处于区域定位时,若无法准确定位,则会重新启动定位进程进行重新定位;当进程处于关键词捕捉时,若无法准确捕捉到关键词,进程将重新捕捉关键词;在文档进行比对进程时,若比对成功,则进入下一进程,若比对失败,返回上一进程重新进行文档比对。
2.根据权利要求1所述的基于多模态下的智能表格抽取算法,其特征在于:所述导入文档,开启辅助软件包括:
将含有检索表格的文档打开,开启OCR和NLP软件准备进行作业。
3.根据权利要求1所述的基于多模态下的智能表格抽取算法,其特征在于,所述定位文档内表格位置,确定表格内的文字区域,包括:
开启文档后,定位文档内的表格区域,同时将表格的边框及表头排除,精准定位表格内的文字内容部分,确保后续进程的开启。
4.根据权利要求1所述的基于多模态下的智能表格抽取算法,其特征在于,所述输入并确定关键词,对定位区域内关键词进行捕捉,确定关键词,确定关键词后比对区域内所有文档,进行关键词比对,包括:
通过OCR和NLP进行关键词的输入和输入信息的处理,确定关键词后,对定位区域内的文字进行扫描和捕捉,扫描捕捉到关键词后,对表格内的其它文档进行比对,并自动进行key映射。
5.根据权利要求1所述的基于多模态下的智能表格抽取算法,其特征在于:所述确定关键词比对是否成功,比对成功将比对结果及记录进行显示和保存,非匹配文档排除,包括:
通过key映射全文,比对关键词匹配度,若无高匹配度文档,则判定比对失败,将返回上一程序对文档重新进行比对,比对成功后生成key结果并显示,同时抛弃其它比对项目。
6.根据权利要求1所述的基于多模态下的智能表格抽取算法,其特征在于:所述抛弃定位区域内非关键词,锁定关键词并进行显示,包括:
关键词比对成功后将其进行显示,同时生成抽取关键词和比对文档信息,存储至历史抽取记录。
CN202110521586.6A 2021-05-13 2021-05-13 基于多模态下的智能表格抽取算法 Pending CN113111864A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110521586.6A CN113111864A (zh) 2021-05-13 2021-05-13 基于多模态下的智能表格抽取算法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110521586.6A CN113111864A (zh) 2021-05-13 2021-05-13 基于多模态下的智能表格抽取算法

Publications (1)

Publication Number Publication Date
CN113111864A true CN113111864A (zh) 2021-07-13

Family

ID=76722234

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110521586.6A Pending CN113111864A (zh) 2021-05-13 2021-05-13 基于多模态下的智能表格抽取算法

Country Status (1)

Country Link
CN (1) CN113111864A (zh)

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006309347A (ja) * 2005-04-26 2006-11-09 Saga Univ 対象文書からキーワードを抽出する方法、システムおよびプログラム
US20140279583A1 (en) * 2013-03-14 2014-09-18 Lex Machina, Inc. Systems and Methods for Classifying Entities
CN107818075A (zh) * 2017-10-16 2018-03-20 平安科技(深圳)有限公司 表格信息结构化提取方法、电子设备及计算机可读存储介质
US20180225277A1 (en) * 2017-02-09 2018-08-09 International Business Machines Corporation Document segmentation, interpretation, and re-organization
CN110659346A (zh) * 2019-08-23 2020-01-07 平安科技(深圳)有限公司 表格提取方法、装置、终端及计算机可读存储介质
US20200042645A1 (en) * 2018-08-03 2020-02-06 Intuit Inc. Automated document extraction and classification
CN110866042A (zh) * 2019-10-11 2020-03-06 平安科技(深圳)有限公司 表格智能查询方法、装置及计算机可读存储介质
US20200223061A1 (en) * 2019-01-14 2020-07-16 International Business Machines Corporation Automating a process using robotic process automation code
CN112115111A (zh) * 2019-06-20 2020-12-22 上海怀若智能科技有限公司 一种基于ocr的文档版本管理方法和系统
CN112200317A (zh) * 2020-09-28 2021-01-08 西南电子技术研究所(中国电子科技集团公司第十研究所) 多模态知识图谱构建方法
CN112257768A (zh) * 2020-10-19 2021-01-22 广州金融科技股份有限公司 一种非法金融图片的识别方法、装置、计算机存储介质
CN112329964A (zh) * 2020-11-24 2021-02-05 北京百度网讯科技有限公司 用于推送信息的方法、装置、设备以及存储介质

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006309347A (ja) * 2005-04-26 2006-11-09 Saga Univ 対象文書からキーワードを抽出する方法、システムおよびプログラム
US20140279583A1 (en) * 2013-03-14 2014-09-18 Lex Machina, Inc. Systems and Methods for Classifying Entities
US20180225277A1 (en) * 2017-02-09 2018-08-09 International Business Machines Corporation Document segmentation, interpretation, and re-organization
CN107818075A (zh) * 2017-10-16 2018-03-20 平安科技(深圳)有限公司 表格信息结构化提取方法、电子设备及计算机可读存储介质
US20200042645A1 (en) * 2018-08-03 2020-02-06 Intuit Inc. Automated document extraction and classification
US20200223061A1 (en) * 2019-01-14 2020-07-16 International Business Machines Corporation Automating a process using robotic process automation code
CN112115111A (zh) * 2019-06-20 2020-12-22 上海怀若智能科技有限公司 一种基于ocr的文档版本管理方法和系统
CN110659346A (zh) * 2019-08-23 2020-01-07 平安科技(深圳)有限公司 表格提取方法、装置、终端及计算机可读存储介质
CN110866042A (zh) * 2019-10-11 2020-03-06 平安科技(深圳)有限公司 表格智能查询方法、装置及计算机可读存储介质
CN112200317A (zh) * 2020-09-28 2021-01-08 西南电子技术研究所(中国电子科技集团公司第十研究所) 多模态知识图谱构建方法
CN112257768A (zh) * 2020-10-19 2021-01-22 广州金融科技股份有限公司 一种非法金融图片的识别方法、装置、计算机存储介质
CN112329964A (zh) * 2020-11-24 2021-02-05 北京百度网讯科技有限公司 用于推送信息的方法、装置、设备以及存储介质

Similar Documents

Publication Publication Date Title
WO2021088385A1 (zh) 一种在线日志解析方法、系统及其电子终端设备
CN110321470B (zh) 文档处理方法、装置、计算机设备和存储介质
JP3689455B2 (ja) 情報処理方法及び装置
Zagoris et al. A document image retrieval system
US8108764B2 (en) Document recognition using static and variable strings to create a document signature
JP2001282820A (ja) データ圧縮方法、検索方法、検索装置、データパケット信号および記録媒体
CN110490185A (zh) 一种基于多次对比矫正ocr名片信息识别改进方法
CN114896358A (zh) 一种知识产权数据库关键词抓取识别方法及装置
CN115238154A (zh) 搜索引擎优化系统
CN104239541A (zh) 一种移动终端基于图形识别查找文件的方法及系统
CN107943937B (zh) 一种基于司法公开信息分析的债务人资产监控方法及系统
CN113111864A (zh) 基于多模态下的智能表格抽取算法
CN109977397B (zh) 基于词性组合的新闻热点提取方法、系统及存储介质
JPH1166238A (ja) 手書き文字認識方法
JP3230641B2 (ja) 文字列検索装置
CN113987355A (zh) 基于关键字识别分类的海量信息智能搜索系统
CN113342949A (zh) 智库专家与待研究课题的匹配方法及系统
Vijayarani et al. A survey on word spotting techniques for document image retrieval
CN116881335B (zh) 多模态数据智能分析系统与方法
CN113627154B (zh) 用于文档自动识别入库的方法
Nagasudha et al. Key word spotting using HMM in printed Telugu documents
JP2000259847A (ja) 情報検索方法、装置および記録媒体
CN117235137B (zh) 一种基于向量数据库的职业信息查询方法及装置
CN110717091B (zh) 基于人脸识别的词条数据扩充方法及装置
JPH064600A (ja) イメージ検索方法およびイメージ検索装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20210713