CN110889310A - 金融文档信息智能提取系统及方法 - Google Patents

金融文档信息智能提取系统及方法 Download PDF

Info

Publication number
CN110889310A
CN110889310A CN201811045306.3A CN201811045306A CN110889310A CN 110889310 A CN110889310 A CN 110889310A CN 201811045306 A CN201811045306 A CN 201811045306A CN 110889310 A CN110889310 A CN 110889310A
Authority
CN
China
Prior art keywords
data
extraction
document
database
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811045306.3A
Other languages
English (en)
Other versions
CN110889310B (zh
Inventor
郭庆河
白石
宋嘉琪
宫路
张怀朋
高海慧
石珍珍
王子芃
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Yingshisheng Information Technology Co ltd
Original Assignee
Shanghai Huairuo Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Huairuo Intelligent Technology Co Ltd filed Critical Shanghai Huairuo Intelligent Technology Co Ltd
Priority to CN201811045306.3A priority Critical patent/CN110889310B/zh
Publication of CN110889310A publication Critical patent/CN110889310A/zh
Application granted granted Critical
Publication of CN110889310B publication Critical patent/CN110889310B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/414Extracting the geometrical structure, e.g. layout tree; Block segmentation, e.g. bounding boxes for graphics or text
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computer Graphics (AREA)
  • Geometry (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Character Discrimination (AREA)

Abstract

本发明涉及一种金融文档信息智能提取系统,包括服务器,服务器包括文档数据接收端口、数据归一化模块、文档数据库、资源加载端口、资源数据库、数据提取模块、文档提取信息数据库,文档数据库包括文本数据库、表格数据库,文档提取信息数据库包括文本提取信息数据库、表格提取信息数据库、文本表格合并信息数据库。本发明还公开了一种金融文档信息智能提取方法,包括数据归一化、数据提取等过程,本发明采用人工智能进行文档信息的智能分析、提取,具有效率高、成本低的特点。

Description

金融文档信息智能提取系统及方法
技术领域
本发明涉及一种金融文档信息提取系统及方法,特别涉及一种采用人工智能的金融文档信息提取系统及方法,属于金融管理领域。
背景技术
目前,金融领域产生新数据的速率越来越快,每日可以生成海量的文档,包括文本形式的Excel、Word、PDF以及各类图片,因此银行、基金公司每天需要处理的文档也就大量增加,用人成本大幅度提升。目前,金融大数据时代已经到来,而大部分金融机构还在使用传统的手敲文本录入手段,同时金融领域人工智能技术也越来越成熟。
人工智能最近几年获得了飞速发展,人工智能在金融领域的广泛应用也获得了广泛关注。目前内容提取的主要应用的是NLP(Natural Language Processing,自然语言处理)相关的技术,用于词性标注、关键字提取以及同义词提取(多采用词向量)。随着需求的增加,技术的提高完善,内容提取系统越来越多地被开发出来。不过,金融领域内容提取系统最基础的功能是根据不同业务类型、数据来源提取不同字段,以及和它匹配的字段值,实现文档录入的自动化。
由于金融机构客户繁多,文档格式没有统一标准,导致目前金融领域同一种业务类型文档结构千差万别,更何况不同机构提供的业务类型多种多样,从而导致现有的内容提取系统很难满足金融领域的提取需求,提取精度都很差,甚至采用传统方式实现提取系统的提取手法僵化,文档结构稍有变化,则系统无法正常工作。而且,对于歧义字段,现有同类系统无法正确辨识其真正所属字段类型,比如,银行系统的划款指令存在“开户行”字段,直接提取无法分辨是“收款人开户行”还是“付款人开户行”。此外,目前现有的同类内容提取系统都无法直接和OCR(Optical Character Recognition,光学字符识别)系统对接,无法利用OCR识别结果提取结构化数据。
发明内容
本发明金融文档信息智能提取系统及方法公开了新的方案,采用人工智能进行文档信息的智能分析、提取,解决了现有方案采用人工处理带来的效率低、成本高的问题。
本发明金融文档信息智能提取系统包括服务器,服务器包括文档数据接收端口、数据归一化模块、文档数据库、资源加载端口、资源数据库、数据提取模块、文档提取信息数据库,文档数据库包括文本数据库、表格数据库,文档提取信息数据库包括文本提取信息数据库、表格提取信息数据库、文本表格合并信息数据库,文档数据接收端口用于接收外部文档数据,数据归一化模块用于将外部文档数据归一化处理成统一格式,文本数据库用于存储、管理统一格式的文本数据,表格数据库用于存储、管理统一格式的表格数据,资源加载端口用于加载外部资源数据,资源数据库用于存储、管理加载的外部资源,数据提取模块用于提取文档信息,文本提取信息数据库用于存储、管理提取的文本信息,表格提取信息数据库用于存储、管理提取的表格信息,文本表格合并信息数据库用于存储、管理合并的提取文本、表格信息。
本发明还公开了一种金融文档信息智能提取方法,金融文档信息智能提取方法基于金融文档信息智能提取系统,金融文档信息智能提取系统包括服务器,服务器包括文档数据接收端口、数据归一化模块、文档数据库、资源加载端口、资源数据库、数据提取模块、文档提取信息数据库,文档数据库包括文本数据库、表格数据库,文档提取信息数据库包括文本提取信息数据库、表格提取信息数据库、文本表格合并信息数据库。方法包括步骤:
⑴数据归一化模块将通过文档数据接收端口获取的外部文档数据分类成Excel文档、Word文档、OCR识别文档,数据归一化模块将Excel文档转换成设定格式的表格数据,数据归一化模块将Word文档分解成文本部分、表格部分,数据归一化模块将文本部分合并转换成设定格式的文本数据,数据归一化模块将表格部分转换成设定格式的表格数据,数据归一化模块将OCR识别文档的文本区域合并转换成设定格式的文本数据,数据归一化模块将OCR识别文档的表格区域重组成Excel格式后转换成设定格式的表格数据,文本数据存入文本数据库,表格数据存入表格数据库;
⑵数据提取模块根据资源数据库的业务配置数据生成待提取字段的正则表达式,数据提取模块将文本数据与正则表达式进行全文匹配来过滤提取文本数据,组合匹配结果得到提取的文本信息存入文本提取信息数据库,数据提取模块根据排版方式将表格数据分为横版表格数据、竖版表格数据,数据提取模块分别提取横版表格数据、竖版表格数据进行模糊匹配、格式化得到提取的表格信息存入表格提取信息数据库,数据提取模块合并提取的文本信息、表格信息存入文本表格合并信息数据库。
进一步,本方案方法的步骤⑴还包括过程:数据归一化模块按照OCR识别文档的表格区域的位置信息的Y轴坐标将表格区域排序,然后定义行对象、单元格对象、表格区域对象,遍历表格区域列表,如果表格区域与当前创建的行对象存在Y轴坐标重合,则根据表格区域创建当前行对象的单元格对象,将表格区域添加到当前行对象中,更新行对象当前实际上下沿坐标来添加新行对象作为当前行对象,判断当前行对象是否与表格区域存在Y轴坐标重合,最后遍历行对象列表,从右至左判断单元格对象是否与前面单元格对象存在X轴坐标重合,如果存在X轴坐标重合则合并单元格对象。
进一步,本方案方法的步骤⑵还包括过程:通过NLP技术获取正则表达式使用的语料,通过词性标注找到所有非名词短语,通过词向量找到非名词短语的同义词,通过非名词短语作为字段值的边界条件进行全文匹配,根据业务配置数据中的上下文信息过滤提取数据。
进一步,本方案方法的步骤⑵还包括过程:数据提取模块同时判断表格数据中的上下两行是否存在字段值,如果上一行存在字段值,同时下一行没有字段值,则判断当前表格数据是竖版表格数据,如果上一行与下一行都存在字段名,则判断当前表格数据是横版表格数据。
进一步,本方案方法的步骤⑵还包括过程:数据提取模块根据资源数据库的字段语料库遍历横版表格数据,找出所有的字段名,同时记录字段名出现的顺序,确定两个字段名之间的内容即为对应字段名的值映射,根据字段名出现的顺序分析出所有歧义字段的准确字段名。
进一步,本方案方法的步骤⑵还包括过程:数据提取模块根据资源数据库的字段语料库遍历竖版表格数据,判断当前行的类型,如果判断结果是字段名行,则缓存字段名,如果是字段名的值行,则按照顺序将字段名的值与当前缓存的字段名形成映射关系,如果判断结果是字段名、字段名的值行,则找出当前行所有的字段名,同时记录字段名出现的顺序,确定两个字段名之间的内容即为对应字段名的值映射。
进一步,本方案方法的步骤⑵的模糊匹配采用编辑距离算法,编辑距离算法的编辑距离是从目标字符串变换成目的字符串需要的步骤,数据提取模块根据资源数据库的与提取字段名匹配的语料库与字段值提取结果计算编辑距离获取最短编辑距离的语料数据,如果编辑距离超过阈值,则返回原提取结果,如果编辑距离未超过阈值,则返回最短编辑距离的语料数据。
更进一步,本方案方法的步骤⑵还包括过程:数据提取模块根据资源数据库的金额易错字映射表、四角编码形近字映射算法将提取数据中输入的大写金额的错别字映射覆盖得到映射结果集,将映射结果集中的大写金额字符串的大学金额转换成小写金额得到小写金额数据集,将小写金额数据集与输入的小写金额运用逻辑距离算法进行模糊匹配,判断是否存在最优大写金额结果,如果存在最优大写金额结果,则将最优大写金额结果、对应的小写金额作为最后的输出结果,如果不存在最优大写金额结果,则将输入的小写金额转换成大写金额作为最后的输出结果。
进一步,本方案方法的步骤⑵还包括过程:数据提取模块从资源数据库的业务配置数据获取字段值格式正则表达式,数据提取模块将字段值提取结果与字段值格式正则表达式进行匹配,如果字段值提取结果符合字段值格式正则表达式,则返回字段值提取结果,如果字段值提取结果不符合字段值格式正则表达式,则数据提取模块处理字段值提取结果直至符合字段值格式正则表达式后返回处理结果。
本发明金融文档信息智能提取系统及方法采用人工智能进行文档信息的智能分析、提取,具有效率高、成本低的特点。
附图说明
图1是金融文档信息智能提取系统的原理图。
图2是数据归一化的流程图。
图3是OCR识别文档中的表格区域数据统一格式的流程图。
图4是数据提取的流程图。
图5是数据提取中模糊匹配的流程图。
图6是数据提取中数据格式化的流程图。
图7是数据提取中金额数据纠错的流程图。
具体实施方式
如图1所示,本发明金融文档信息智能提取系统包括服务器,服务器包括文档数据接收端口、数据归一化模块、文档数据库、资源加载端口、资源数据库、数据提取模块、文档提取信息数据库,文档数据库包括文本数据库、表格数据库,文档提取信息数据库包括文本提取信息数据库、表格提取信息数据库、文本表格合并信息数据库,文档数据接收端口用于接收外部文档数据,数据归一化模块用于将外部文档数据归一化处理成统一格式,文本数据库用于存储、管理统一格式的文本数据,表格数据库用于存储、管理统一格式的表格数据,资源加载端口用于加载外部资源数据,资源数据库用于存储、管理加载的外部资源,数据提取模块用于提取文档信息,文本提取信息数据库用于存储、管理提取的文本信息,表格提取信息数据库用于存储、管理提取的表格信息,文本表格合并信息数据库用于存储、管理合并的提取文本、表格信息。上述方案采用人工智能进行文档信息的智能分析、提取,有效解决了人工操作因工作量增长而带来的效率下降,成本上升的问题,以及同类系统适应性差的问题。
本发明还公开了一种金融文档信息智能提取方法,金融文档信息智能提取方法基于金融文档信息智能提取系统,金融文档信息智能提取系统包括服务器,服务器包括文档数据接收端口、数据归一化模块、文档数据库、资源加载端口、资源数据库、数据提取模块、文档提取信息数据库,文档数据库包括文本数据库、表格数据库,文档提取信息数据库包括文本提取信息数据库、表格提取信息数据库、文本表格合并信息数据库。方法包括步骤:⑴数据归一化模块将通过文档数据接收端口获取的外部文档数据分类成Excel文档、Word文档、OCR识别文档,数据归一化模块将Excel文档转换成设定格式的表格数据,数据归一化模块将Word文档分解成文本部分、表格部分,数据归一化模块将文本部分合并转换成设定格式的文本数据,数据归一化模块将表格部分转换成设定格式的表格数据,数据归一化模块将OCR识别文档的文本区域合并转换成设定格式的文本数据,数据归一化模块将OCR识别文档的表格区域重组成Excel格式后转换成设定格式的表格数据,文本数据存入文本数据库,表格数据存入表格数据库;⑵数据提取模块根据资源数据库的业务配置数据生成待提取字段的正则表达式,数据提取模块将文本数据与正则表达式进行全文匹配来过滤提取文本数据,组合匹配结果得到提取的文本信息存入文本提取信息数据库,数据提取模块根据排版方式将表格数据分为横版表格数据、竖版表格数据,数据提取模块分别提取横版表格数据、竖版表格数据进行模糊匹配、格式化得到提取的表格信息存入表格提取信息数据库,数据提取模块合并提取的文本信息、表格信息存入文本表格合并信息数据库。上述方案采用人工智能进行文档信息的智能分析、提取,采用NLP技术收集各类语料数据丰富语料库资源,利用上下文信息,筛选、确认提取结果,可以支持新业务,适应金融领域多变的文档结构,同时引入了模糊匹配与数据格式化过程,有效解决了OCR文档信息提取的问题,大幅提高了信息提取的效率,缩减了人工录入成本。
如图3所示,为了实现OCR识别文档的表格区域的数据格式统一化,本方案方法的步骤⑴还包括过程:数据归一化模块按照OCR识别文档的表格区域的位置信息的Y轴坐标将表格区域排序,然后定义行对象、单元格对象、表格区域对象,遍历表格区域列表,如果表格区域与当前创建的行对象存在Y轴坐标重合,则根据表格区域创建当前行对象的单元格对象,将表格区域添加到当前行对象中,更新行对象当前实际上下沿坐标来添加新行对象作为当前行对象,判断当前行对象是否与表格区域存在Y轴坐标重合,最后遍历行对象列表,从右至左判断单元格对象是否与前面单元格对象存在X轴坐标重合,如果存在X轴坐标重合则合并单元格对象。
为了实现文本数据的提取,如图4所示,本方案方法的步骤⑵还包括过程:通过NLP技术获取正则表达式使用的语料,通过词性标注找到所有非名词短语,通过词向量找到非名词短语的同义词,通过非名词短语作为字段值的边界条件进行全文匹配,根据业务配置数据中的上下文信息过滤提取数据。
为了实现表格数据的提取,如图4所示,本方案方法的步骤⑵还包括过程:数据提取模块同时判断表格数据中的上下两行是否存在字段值,如果上一行存在字段值,同时下一行没有字段值,则判断当前表格数据是竖版表格数据,如果上一行与下一行都存在字段名,则判断当前表格数据是横版表格数据。为了实现横版表格数据的提取,本方案方法的步骤⑵还包括过程:数据提取模块根据资源数据库的字段语料库遍历横版表格数据,找出所有的字段名,同时记录字段名出现的顺序,确定两个字段名之间的内容即为对应字段名的值映射,根据字段名出现的顺序分析出所有歧义字段的准确字段名。为了实现竖版表格数据的提取,本方案方法的步骤⑵还包括过程:数据提取模块根据资源数据库的字段语料库遍历竖版表格数据,判断当前行的类型,如果判断结果是字段名行,则缓存字段名,如果是字段名的值行,则按照顺序将字段名的值与当前缓存的字段名形成映射关系,如果判断结果是字段名、字段名的值行,则找出当前行所有的字段名,同时记录字段名出现的顺序,确定两个字段名之间的内容即为对应字段名的值映射。
如图5所示,为了实现模糊匹配过程,本方案方法的步骤⑵的模糊匹配采用编辑距离算法,编辑距离算法的编辑距离是从目标字符串变换成目的字符串需要的步骤,数据提取模块根据资源数据库的与提取字段名匹配的语料库与字段值提取结果计算编辑距离获取最短编辑距离的语料数据,如果编辑距离超过阈值,则返回原提取结果,如果编辑距离未超过阈值,则返回最短编辑距离的语料数据。如图7所示,为了对提取数据中的金额数据进行纠错,本方案方法的步骤⑵还包括过程:数据提取模块根据资源数据库的金额易错字映射表、四角编码形近字映射算法将提取数据中输入的大写金额的错别字映射覆盖得到映射结果集,将映射结果集中的大写金额字符串的大学金额转换成小写金额得到小写金额数据集,将小写金额数据集与输入的小写金额运用逻辑距离算法进行模糊匹配,判断是否存在最优大写金额结果,如果存在最优大写金额结果,则将最优大写金额结果、对应的小写金额作为最后的输出结果,如果不存在最优大写金额结果,则将输入的小写金额转换成大写金额作为最后的输出结果。
如图6所示,为了实现数据提取的格式化过程,本方案方法的步骤⑵还包括过程:数据提取模块从资源数据库的业务配置数据获取字段值格式正则表达式,数据提取模块将字段值提取结果与字段值格式正则表达式进行匹配,如果字段值提取结果符合字段值格式正则表达式,则返回字段值提取结果,如果字段值提取结果不符合字段值格式正则表达式,则数据提取模块处理字段值提取结果直至符合字段值格式正则表达式后返回处理结果。
本方案公开了一种金融文档智能提取系统,主要是Excel和Word内容提取,同时与OCR系统结合,完成图片或PDF文档的内容提取任务。本方案提供更灵活的提取方案,降低对文档结构的依赖程度,并且对于歧义字段能根据上下文数据自行判断其实际所属字段类型。此外,为了提取图片上的文本内容,本发明还提供应用接口,接收外部OCR系统的识别结果,然后从中提取结构化数据。如图1所示,金融文档智能提取系统包括数据接收端、数据归一化模块、资源加载端和数据提取模块。其中数据接收端可以与外部的OCR系统连接,数据归一化模块与数据接收端连接,资源加载端与外部系统资源服务器连接,数据提取模块和数据归一化模块、资源加载端连接。数据提取模块是本发明系统的主要模块,它负责判断数据类型、应用NLP技术积累的词库资源构造自由的正则表达式、应用复杂的算法解决表格提取、模糊匹配、数据格式化、OCR数据转结构化数据等难题。数据提取模块能从自由文本中提取任意字段,同一个字段不同的表达形式也能完全适应。数据提取模块提取表格数据能将待提取字段从错字连篇的OCR识别结果中准确提取出来,而且结合模糊匹配与数据格式化能对错误字段值有一定的纠错能力。数据接收端可以直接接收用户上传的Excel或Word文档,同时提供外接接口,可以接收OCR系统的识别结果。数据归一化模块负责将多类型的数据格式统一化,方便提取模块处理,其中OCR识别结果(文本块&位置信息)转Excel的算法属于该模块的核心模块,使得本方案能外接OCR系统,提取图片文档内容。资源加载端外接资源服务器,并从中加载业务相关资源,包括字段名语料库(含字段名OCR易出现的识别结果)、字段值语料库(如银行名列表、基金名称/代码映射表等)、业务配置信息,加载资源后提供给提取模块使用。
如图2、图3所示,数据归一化模块的具体工作流程:
⑴判断输入数据的具体类型,分为Excel文档、Word文档以及OCR识别结果。
⑵对于Excel文档,直接将文档的Sheet转成Table对象(代码中定义的表格数据的统一格式)。
⑶对于Word文档,将“.doc”文件转成“.docx”文件,然后将其中内容分为text和table,合并所有文本区域,并将文档中表格转成Table对象。
⑷对于OCR识别结果,其中包括文本区域,以及表格区域(OCR系统可以判断),每个区域由文本块,以及该文本块在原图中的坐标组成,根据文本块以及坐标,将表格区域数据重组为Excel,进而转化成统一的Table对象,文本区域则直接按顺序合并。
⑸关于OCR识别结果转Table对象,本方案采用独有算法:首先,按照位置信息的Y轴坐标对文本块排序,然后定义Row(行)对象、Cell(单元格)对象以及Block(文本块,表格区域)对象,遍历Block列表,如果Block与当前创建的Row在纵轴相交,则根据Block创建Cell对象,并添加到Row对象中,并更新Row当前实际上下沿坐标(用来判断是否和Block相交),最后遍历Row列表,从右至左判断Cell是否和其前面Cell在横轴相交,如果相交则合并单元格。
如图4~7所示,数据提取模块的具体工作流程:
⑴首先判断数据类型(文本/表格)。
⑵根据数据类型不同,进入不同的处理流程:首先,自由文本处理流程中,根据业务配置文档生成待提取字段的正则表达式,生成正则使用的语料由NLP技术获取,分别是词性标注找到所有非名词短语,以及通过词向量找到他们的同义词,通过这些非名词作为字段值的边界条件,然后全文匹配,并根据配置文件中提到的上下文信息过滤提取数据(比如,甲乙方信息的辨别,和“甲方信息”及其同义词距离近的则为甲方数据,反之为乙方数据);其次,判断表格数据是横版还是竖版,找出表格中所有字段名,为了增加判断精度,采用上下两行同时判断的方式,首先判断上面的行是否存在字段名,如果存在,则继续看下一行,如果下一行没有字段值,则判定上面的行是“Title行”,进而判定当前表格是竖版表格。
⑶横版表格数据处理流程中,首先根据字段语料库遍历表格,找出所有的字段名(包括OCR可能识别出来的字段错误变形,如“划款H期”),并记录字段出现的顺序,然后根据两个字段之间的内容即为字段值的理论基础,找到字段名的值映射,随后根据字段出现的顺序,分析出所有歧义字段的准确字段类型(比如,同时出现两个“开户行”,根据前面已经出现的信息,“开户行”和收款人数据近,来判断它是“收款人开户行”)。
⑷竖版表格处理流程中,遍历每一行,判断当前行的类型(分为三类,Title行、Title&Value行以及Value行),如果是Title行,则缓存这一行,并继续读取下一行,如果是Value行,则按照顺序将Value与当前缓存的Title一一映射,如果是Title&Value行,则表示这一行是类似于横版的行,采用Title之间夹Value的逻辑处理,遍历至表格最后结束。
⑸金融业务文档中,部分待提取字段存在匹配的语料库,比如开户行,它的值都是银行名称,因此预先构造一个银行语料库,诸如此类,本方案系统提供了大量的类似语料库数据,这些语料库主要用于模糊匹配过程,本方案采用的是编辑距离算法的模糊匹配,编辑距离是从字符串A变成B需要的步骤,包括增删改,此外,由于个别数据是存在固定格式的,比如日期,因此本系统也加入了数据格式化,保证数据处理后能符合其格式需求。
⑹由于金融行业对于资金问题敏感程度很高,因此,为了提高提取准确率(尤其是OCR识别结果中可能存在噪音或者错字),本方案采用了大写金额与小写金额互相匹配的方式,首先输入大写金额与小写金额,先通过收集的金额易错字(主要是OCR容易识别错误的错别字)映射表,将部分出现的错别字映射成正确的,但是这种映射表很难做到全覆盖,因此,再配合四角编码的方式,做形近字映射,然后得到一个映射结果集,里面包含多个大写金额字符串,随后,大写金额转小写金额,以转出的小写金额作为数据集,以输入的小写金额作为匹配数据,运用编辑距离算法做模糊匹配,找出大写金额的最优结果,最后,将这个最优大写金额以及对应的小写金额作为最后的输出结果。假如没有得到最优解(处理后的大写金额转小写金额没有成功,或者最小编辑距离大于阈值),则将输入的小写金额转成大写金额,并将其作为输出。
本方案提取各类金融文档字段名/值映射,减少金融领域人工录入的成本,提供统一实时数据接口,能接收客户上传文档,并支持外接OCR系统的结构化OCR识别结果。本方案采用NLP技术,收集各类语料数据丰富语料库资源,可以支持新业务,适应金融领域多变的文档结构。本方案利用上下文信息筛选、确认提取结果。由于对OCR识别结果提取的支持,本方案引入了模糊匹配与数据格式化,尤其是针对金融领域的特点,对于金额数据进行了大小写交叉验证的操作,大幅提高了金额数据的提取精度。基于以上特点,本方案金融文档信息智能提取系统及方法相比现有同类方案具有突出的实质性特点和显著的进步。本方案金融文档信息智能提取系统及方法并不限于具体实施方式中公开的内容,实施例中出现的技术方案可以基于本领域技术人员的理解而延伸,本领域技术人员根据本方案结合公知常识作出的简单替换方案也属于本方案的范围。

Claims (10)

1.金融文档信息智能提取系统,其特征是包括服务器,所述服务器包括文档数据接收端口、数据归一化模块、文档数据库、资源加载端口、资源数据库、数据提取模块、文档提取信息数据库,所述文档数据库包括文本数据库、表格数据库,所述文档提取信息数据库包括文本提取信息数据库、表格提取信息数据库、文本表格合并信息数据库,所述文档数据接收端口用于接收外部文档数据,所述数据归一化模块用于将外部文档数据归一化处理成统一格式,所述文本数据库用于存储、管理统一格式的文本数据,所述表格数据库用于存储、管理统一格式的表格数据,所述资源加载端口用于加载外部资源数据,所述资源数据库用于存储、管理加载的外部资源,所述数据提取模块用于提取文档信息,所述文本提取信息数据库用于存储、管理提取的文本信息,所述表格提取信息数据库用于存储、管理提取的表格信息,所述文本表格合并信息数据库用于存储、管理合并的提取文本、表格信息。
2.金融文档信息智能提取方法,所述金融文档信息智能提取方法基于金融文档信息智能提取系统,所述金融文档信息智能提取系统包括服务器,所述服务器包括文档数据接收端口、数据归一化模块、文档数据库、资源加载端口、资源数据库、数据提取模块、文档提取信息数据库,所述文档数据库包括文本数据库、表格数据库,所述文档提取信息数据库包括文本提取信息数据库、表格提取信息数据库、文本表格合并信息数据库,其特征是包括步骤:
⑴数据归一化模块将通过文档数据接收端口获取的外部文档数据分类成Excel文档、Word文档、OCR识别文档,数据归一化模块将Excel文档转换成设定格式的表格数据,数据归一化模块将Word文档分解成文本部分、表格部分,数据归一化模块将文本部分合并转换成设定格式的文本数据,数据归一化模块将表格部分转换成设定格式的表格数据,数据归一化模块将OCR识别文档的文本区域合并转换成设定格式的文本数据,数据归一化模块将OCR识别文档的表格区域重组成Excel格式后转换成设定格式的表格数据,文本数据存入文本数据库,表格数据存入表格数据库;
⑵数据提取模块根据资源数据库的业务配置数据生成待提取字段的正则表达式,数据提取模块将文本数据与正则表达式进行全文匹配来过滤提取文本数据,组合匹配结果得到提取的文本信息存入文本提取信息数据库,数据提取模块根据排版方式将表格数据分为横版表格数据、竖版表格数据,数据提取模块分别提取横版表格数据、竖版表格数据进行模糊匹配、格式化得到提取的表格信息存入表格提取信息数据库,数据提取模块合并提取的文本信息、表格信息存入文本表格合并信息数据库。
3.根据权利要求2所述的金融文档信息智能提取方法,其特征在于,步骤⑴还包括过程:数据归一化模块按照OCR识别文档的表格区域的位置信息的Y轴坐标将表格区域排序,然后定义行对象、单元格对象、表格区域对象,遍历表格区域列表,如果表格区域与当前创建的行对象存在Y轴坐标重合,则根据表格区域创建当前行对象的单元格对象,将表格区域添加到当前行对象中,更新行对象当前实际上下沿坐标来添加新行对象作为当前行对象,判断当前行对象是否与表格区域存在Y轴坐标重合,最后遍历行对象列表,从右至左判断单元格对象是否与前面单元格对象存在X轴坐标重合,如果存在X轴坐标重合则合并单元格对象。
4.根据权利要求2所述的金融文档信息智能提取方法,其特征在于,步骤⑵还包括过程:通过NLP技术获取正则表达式使用的语料,通过词性标注找到所有非名词短语,通过词向量找到非名词短语的同义词,通过非名词短语作为字段值的边界条件进行全文匹配,根据业务配置数据中的上下文信息过滤提取数据。
5.根据权利要求2所述的金融文档信息智能提取方法,其特征在于,步骤⑵还包括过程:数据提取模块同时判断表格数据中的上下两行是否存在字段值,如果上一行存在字段值,同时下一行没有字段值,则判断当前表格数据是竖版表格数据,如果上一行与下一行都存在字段名,则判断当前表格数据是横版表格数据。
6.根据权利要求2所述的金融文档信息智能提取方法,其特征在于,步骤⑵还包括过程:数据提取模块根据资源数据库的字段语料库遍历横版表格数据,找出所有的字段名,同时记录字段名出现的顺序,确定两个字段名之间的内容即为对应字段名的值映射,根据字段名出现的顺序分析出所有歧义字段的准确字段名。
7.根据权利要求2所述的金融文档信息智能提取方法,其特征在于,步骤⑵还包括过程:数据提取模块根据资源数据库的字段语料库遍历竖版表格数据,判断当前行的类型,如果判断结果是字段名行,则缓存字段名,如果是字段名的值行,则按照顺序将字段名的值与当前缓存的字段名形成映射关系,如果判断结果是字段名、字段名的值行,则找出当前行所有的字段名,同时记录字段名出现的顺序,确定两个字段名之间的内容即为对应字段名的值映射。
8.根据权利要求2所述的金融文档信息智能提取方法,其特征在于,步骤⑵的模糊匹配采用编辑距离算法,编辑距离算法的编辑距离是从目标字符串变换成目的字符串需要的步骤,数据提取模块根据资源数据库的与提取字段名匹配的语料库与字段值提取结果计算编辑距离获取最短编辑距离的语料数据,如果编辑距离超过阈值,则返回原提取结果,如果编辑距离未超过阈值,则返回最短编辑距离的语料数据。
9.根据权利要求8所述的金融文档信息智能提取方法,其特征在于,步骤⑵还包括过程:数据提取模块根据资源数据库的金额易错字映射表、四角编码形近字映射算法将提取数据中输入的大写金额的错别字映射覆盖得到映射结果集,将映射结果集中的大写金额字符串的大学金额转换成小写金额得到小写金额数据集,将小写金额数据集与输入的小写金额运用逻辑距离算法进行模糊匹配,判断是否存在最优大写金额结果,如果存在最优大写金额结果,则将最优大写金额结果、对应的小写金额作为最后的输出结果,如果不存在最优大写金额结果,则将输入的小写金额转换成大写金额作为最后的输出结果。
10.根据权利要求2所述的金融文档信息智能提取方法,其特征在于,步骤⑵还包括过程:数据提取模块从资源数据库的业务配置数据获取字段值格式正则表达式,数据提取模块将字段值提取结果与字段值格式正则表达式进行匹配,如果字段值提取结果符合字段值格式正则表达式,则返回字段值提取结果,如果字段值提取结果不符合字段值格式正则表达式,则数据提取模块处理字段值提取结果直至符合字段值格式正则表达式后返回处理结果。
CN201811045306.3A 2018-09-07 2018-09-07 金融文档信息智能提取系统及方法 Active CN110889310B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811045306.3A CN110889310B (zh) 2018-09-07 2018-09-07 金融文档信息智能提取系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811045306.3A CN110889310B (zh) 2018-09-07 2018-09-07 金融文档信息智能提取系统及方法

Publications (2)

Publication Number Publication Date
CN110889310A true CN110889310A (zh) 2020-03-17
CN110889310B CN110889310B (zh) 2023-05-09

Family

ID=69744645

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811045306.3A Active CN110889310B (zh) 2018-09-07 2018-09-07 金融文档信息智能提取系统及方法

Country Status (1)

Country Link
CN (1) CN110889310B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111507230A (zh) * 2020-04-11 2020-08-07 创景未来(北京)科技有限公司 一种文档和表格数据的识别和提取方法及系统
CN112861473A (zh) * 2021-03-12 2021-05-28 国网浙江省电力有限公司物资分公司 基于openpyxl的目录审查结果汇总系统及方法
CN112861490A (zh) * 2021-03-12 2021-05-28 国网浙江省电力有限公司物资分公司 基于openpyxl的工程量清单目录比对系统及方法
CN112906695A (zh) * 2021-04-14 2021-06-04 数库(上海)科技有限公司 适配多类ocr识别接口的表格识别方法及相关设备
CN113159969A (zh) * 2021-05-17 2021-07-23 广州故新智能科技有限责任公司 一种金融长文本复核系统
CN113761202A (zh) * 2021-08-30 2021-12-07 上海快确信息科技有限公司 一种将非结构金融Excel表格映射到数据库的优化系统
CN113963367A (zh) * 2021-10-22 2022-01-21 深圳前海环融联易信息科技服务有限公司 一种基于模型的金融交易文件及金额的提取方法

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101071477A (zh) * 2006-05-10 2007-11-14 何千军 基于专家系统和非线性技术的财务分析系统及方法
DE502004008170D1 (de) * 2003-09-30 2008-11-13 Captaris Document Technologies Verfahren und system zum erfassen von daten aus maschinell lesbaren dokumenten
CN101908136A (zh) * 2009-06-08 2010-12-08 比亚迪股份有限公司 一种表格识别处理方法及系统
CN102317933A (zh) * 2009-01-02 2012-01-11 苹果公司 用于文档重构的方法和系统
WO2014073941A1 (ko) * 2012-11-12 2014-05-15 한국과학기술정보연구원 전자 서식 변환 장치 및 방법
CN106575300A (zh) * 2014-07-28 2017-04-19 微软技术许可有限责任公司 用于识别文档中的对象的基于图像的搜索
CN106649223A (zh) * 2016-12-23 2017-05-10 北京文因互联科技有限公司 基于自然语言处理的金融报告自动生成方法
CN106709032A (zh) * 2016-12-29 2017-05-24 深圳市华傲数据技术有限公司 抽取电子表格文档中结构化信息的方法及装置
CN106897690A (zh) * 2017-02-22 2017-06-27 南京述酷信息技术有限公司 Pdf表格提取方法
CN108170683A (zh) * 2018-01-22 2018-06-15 北京百度网讯科技有限公司 用于获取信息的方法和装置
CN108470021A (zh) * 2018-03-26 2018-08-31 阿博茨德(北京)科技有限公司 Pdf文档中表格的定位方法及装置

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE502004008170D1 (de) * 2003-09-30 2008-11-13 Captaris Document Technologies Verfahren und system zum erfassen von daten aus maschinell lesbaren dokumenten
CN101071477A (zh) * 2006-05-10 2007-11-14 何千军 基于专家系统和非线性技术的财务分析系统及方法
CN102317933A (zh) * 2009-01-02 2012-01-11 苹果公司 用于文档重构的方法和系统
CN101908136A (zh) * 2009-06-08 2010-12-08 比亚迪股份有限公司 一种表格识别处理方法及系统
WO2014073941A1 (ko) * 2012-11-12 2014-05-15 한국과학기술정보연구원 전자 서식 변환 장치 및 방법
CN106575300A (zh) * 2014-07-28 2017-04-19 微软技术许可有限责任公司 用于识别文档中的对象的基于图像的搜索
CN106649223A (zh) * 2016-12-23 2017-05-10 北京文因互联科技有限公司 基于自然语言处理的金融报告自动生成方法
CN106709032A (zh) * 2016-12-29 2017-05-24 深圳市华傲数据技术有限公司 抽取电子表格文档中结构化信息的方法及装置
CN106897690A (zh) * 2017-02-22 2017-06-27 南京述酷信息技术有限公司 Pdf表格提取方法
CN108170683A (zh) * 2018-01-22 2018-06-15 北京百度网讯科技有限公司 用于获取信息的方法和装置
CN108470021A (zh) * 2018-03-26 2018-08-31 阿博茨德(北京)科技有限公司 Pdf文档中表格的定位方法及装置

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
DIEU NI TRAN 等: "Table Detection from Document Image using Vertical Arrangement of Text Blocks", 《INTERNATIONAL JOURNAL OF CONTENTS》 *
MEHMET YASIN AKPINAR 等: "Extracting Table Data from Images Using Optical Character Recognition Text", 《2018 26TH SIGNAL PROCESSING AND COMMUNICATIONS APPLICATION CONFERENCE(SIU)》 *
杨洋 等: "复杂版面的文本图像图文分割算法", 《微计算机信息》 *
臧国全: "文本数字化图像OCR识别的准确度测度实验与提高", 《图书情报知识》 *
钟辉 等: "中文版面分析和重构", 《沈阳建筑大学(自然科学版)》 *

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111507230A (zh) * 2020-04-11 2020-08-07 创景未来(北京)科技有限公司 一种文档和表格数据的识别和提取方法及系统
CN112861473A (zh) * 2021-03-12 2021-05-28 国网浙江省电力有限公司物资分公司 基于openpyxl的目录审查结果汇总系统及方法
CN112861490A (zh) * 2021-03-12 2021-05-28 国网浙江省电力有限公司物资分公司 基于openpyxl的工程量清单目录比对系统及方法
CN112861473B (zh) * 2021-03-12 2024-02-02 国网浙江省电力有限公司物资分公司 基于openpyxl的目录审查结果汇总系统及方法
CN112861490B (zh) * 2021-03-12 2024-02-20 国网浙江省电力有限公司物资分公司 基于openpyxl的工程量清单目录比对系统及方法
CN112906695A (zh) * 2021-04-14 2021-06-04 数库(上海)科技有限公司 适配多类ocr识别接口的表格识别方法及相关设备
CN113159969A (zh) * 2021-05-17 2021-07-23 广州故新智能科技有限责任公司 一种金融长文本复核系统
CN113761202A (zh) * 2021-08-30 2021-12-07 上海快确信息科技有限公司 一种将非结构金融Excel表格映射到数据库的优化系统
CN113963367A (zh) * 2021-10-22 2022-01-21 深圳前海环融联易信息科技服务有限公司 一种基于模型的金融交易文件及金额的提取方法
CN113963367B (zh) * 2021-10-22 2024-05-28 深圳前海环融联易信息科技服务有限公司 一种基于模型的金融交易文件及金额的提取方法

Also Published As

Publication number Publication date
CN110889310B (zh) 2023-05-09

Similar Documents

Publication Publication Date Title
CN110889310B (zh) 金融文档信息智能提取系统及方法
CN111708773B (zh) 一种多源科创资源数据融合方法
CN109685056B (zh) 获取文档信息的方法及装置
CN110929580A (zh) 一种基于ocr的财务报表信息快速提取方法及系统
US20210366055A1 (en) Systems and methods for generating accurate transaction data and manipulation
CN111753099A (zh) 一种基于知识图谱增强档案实体关联度的方法及系统
US9141853B1 (en) System and method for extracting information from documents
CN109933796B (zh) 一种公告文本关键信息提取方法及设备
CN111259873B (zh) 一种表格数据提取方法及装置
US20190286896A1 (en) System and method for automatic detection and verification of optical character recognition data
Scheibel et al. Extraction of dimension requirements from engineering drawings for supporting quality control in production processes
CN113159969B (zh) 一种金融长文本复核系统
CN116245107B (zh) 电力审计文本实体识别方法、装置、设备及存储介质
CN112182148A (zh) 一种基于全文检索的标准辅助编写方法
CN108519963B (zh) 一种将流程模型自动转换为多语言文本的方法
CN115828874A (zh) 基于图像识别技术的行业表格数字化处理方法
CN115827862A (zh) 一种多元费用凭证数据关联采集方法
CN117648093A (zh) 基于大模型和自定制需求模板的rpa流程自动化生成方法
CN115952298A (zh) 供应商履约风险分析方法及相关设备
CN111831624A (zh) 数据表创建方法、装置、计算机设备及存储介质
CN115329765A (zh) 识别上市企业风险的方法、装置、电子设备及存储介质
US20220076109A1 (en) System for contextual and positional parameterized record building
CN113722421B (zh) 一种合同审计方法和系统,及计算机可读存储介质
CN115546801A (zh) 一种试验文书纸质图像数据特征提取方法
CN114860852A (zh) 一种面向军事领域的知识图谱构建方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20230412

Address after: Room 3701, Building T2, Shenye Shangcheng (South District), No. 5001 Huanggang Road, Lianhua Yicun Community, Huafu Street, Futian District, Shenzhen City, Guangdong Province, 518035

Applicant after: Shenzhen yingshisheng Information Technology Co.,Ltd.

Address before: Room 823, 2 / F, 148 Lane 999, XINER Road, Baoshan District, Shanghai

Applicant before: Shanghai Huairuo Intelligent Technology Co.,Ltd.

GR01 Patent grant
GR01 Patent grant