CN113159969A - 一种金融长文本复核系统 - Google Patents
一种金融长文本复核系统 Download PDFInfo
- Publication number
- CN113159969A CN113159969A CN202110531556.3A CN202110531556A CN113159969A CN 113159969 A CN113159969 A CN 113159969A CN 202110531556 A CN202110531556 A CN 202110531556A CN 113159969 A CN113159969 A CN 113159969A
- Authority
- CN
- China
- Prior art keywords
- data
- auditing
- text
- title
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000004458 analytical method Methods 0.000 claims abstract description 26
- 238000007405 data analysis Methods 0.000 claims abstract description 14
- 238000012550 audit Methods 0.000 claims abstract description 10
- 238000013499 data model Methods 0.000 claims description 12
- 238000012937 correction Methods 0.000 claims description 9
- 238000004140 cleaning Methods 0.000 claims description 8
- 238000007781 pre-processing Methods 0.000 claims description 8
- 238000012552 review Methods 0.000 claims description 8
- 238000012545 processing Methods 0.000 claims description 7
- 238000013075 data extraction Methods 0.000 claims description 5
- 238000006243 chemical reaction Methods 0.000 claims description 3
- 238000012216 screening Methods 0.000 claims description 2
- 238000013474 audit trail Methods 0.000 claims 1
- 238000003058 natural language processing Methods 0.000 description 11
- 238000010586 diagram Methods 0.000 description 8
- 238000000605 extraction Methods 0.000 description 7
- 238000000034 method Methods 0.000 description 3
- 230000006978 adaptation Effects 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000013136 deep learning model Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/06—Asset management; Financial planning or analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
- G06F40/177—Editing, e.g. inserting or deleting of tables; using ruled lines
- G06F40/18—Editing, e.g. inserting or deleting of tables; using ruled lines of spreadsheets
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/416—Extracting the logical structure, e.g. chapters, sections or page numbers; Identifying elements of the document, e.g. authors
Abstract
本发明提供一种金融长文本复核系统,其用于解析和审核非结构化金融数据长文本,其包括数据解析模块以及数据审核模块,所述数据解析模块将非结构化数据解析成结构化数据,该数据解析模块包括版面识别单元、表格语义分析单元以及表格语义解析单元;所述数据审核模块对结构化数据进行审核处理,该数据审核模块包括错别字审查单元、一致性审核单元、勾稽关系审核单元以及文本格式审核单元。
Description
技术领域
本发明涉及金融文本分析领域,尤其涉及一种金融长文本复核系统。
背景技术
金融长文本主要指年度报告、招股说明书、审计报告等财务数据文本,该些文本主要由文本段落、财务指标和表格数据等复杂元素组成,目前,金融机构或企业本身需要对金融长文本进行复核或其他处理挖掘潜在信息,但该些金融长文本主要依靠人工复核,由于数据量之大以及数据之间的关系复杂,造成人工复核的效率以及精准度低,甚至在发布出去的年度报告中存在数据不一致的问题,为了提高金融长文本的复核效率和精准度,基于计算机强大的计算能力,结合人工智能对自然语言处理技术的兴起,现提出一种金融长文本符合系统,以解决金融长文本符合效率低以及精准度低的问题。
发明内容
为了解决现有技术存在的缺点,本发明提供一种金融长文本复核系统,其通过解析金融长文本的文本内容,结合人工智能对文本内容的处理,实现金融长文本的高效率以及精准复核。
本发明提供一种金融长文本复核系统,其用于解析和审核非结构化金融数据长文本,其包括数据解析模块以及数据审核模块,所述数据解析模块将非结构化数据解析成结构化数据,该数据解析模块包括版面识别单元、表格语义分析单元以及表格语义解析单元,所述版面识别单元用于获取原始金融数据长文本对的文档篇章结构信息,所述表格语义分析单元用于分析版面识别单元获取的表格数据并按预定义的数据模型组织存储数据,所述文本语义解析用于解析版面识别单元获取的段落、标题数据并按预定义的数据模型组织存储数据;所述数据审核模块对结构化数据进行审核处理,该数据审核模块包括错别字审查单元、一致性审核单元、勾稽关系审核单元以及文本格式审核单元,所述错别字审查单元根据NLP模型检测潜在错别字得到候选字符及概率并结合领域字典针对段落、标题数据查找错别字提出纠正建议,所述一致性审核根据会计准则对表格数据进行审核,所述勾稽关系审核单元根据会计准则提取文本中存在的勾稽关系规则,并由该些勾稽关系规则进行数据审核;所述文本格式审核单元根据标题和文本的目录结构,根据序号连续性和关联序号规则进行格式审核。
优选的,所述非结构化金融数据长文本为PDF格式文本。
优选的,所述版面识别单元获取原始金融数据长文本对的文档篇章结构信息的具体步骤为:S10:将PDF格式文本按页转换为图片格式文本,并进行拉伸以及二值化预处理;S11:根据CV模型检测预处理后的图片格式文本,获取表格、页眉、页脚、图片、公式数据;S12:提取表格、页眉、页脚、图片、公式数据以外的文字数据,并将该些文字数据按页,行顺序组织;S13:根据NLP模型将提取的文字数据划分为段落数据和标题数据;S14:整合输出提取的数据保存至数据库中。
优选的,所述表格语义分析单元对表格数据分析的具体步骤为:S20:获取S14中的表格数据;S21:对表格数据进行预处理,包括:数据清洗和集合划分;S22:根据NLP模型解析预处理后的表格数据并提取表格数据关系;S23:将表格数据以及表格数据关系按预定义的数据模型组织输出并保存至数据库中;所述文本语义解析单元解析段落数据和标题数据的具体步骤为:S30:获取S14中的段落数据和标题数据;S31:对段落数据和标题数据进行预处理,包括:数据清洗、数据长度切割、定位数据提取位置,以及数据字型特征转换为预定义字型格式;S32:根据NLP模型解析预处理后的段落数据和标题数据,提取数据文本中的关键信息、相关必要信息以及关键信息之间的关联;S33:将解析后的段落数据和标题数据按预定义的数据模型组织输出并保存至数据库中。
优选的,所述一致性审核单元审核表格数据的具体步骤为:S50:读取S23中的表格数据;S51:将表格数据区分为财务摘要表、财务主表和财务附注表;S52:根据会计准则提取一致性审核规则,按规则进行数据匹配;S53:将匹配后的数据按预定格式输出并存保存至数据库并输出审核结果。
优选的,所述勾稽关系审核审核表格数据的具体步骤为:S60:读取S23中的表格数据和S33中的标题数据;S61:根据语义分析结果和标题数据,对表格数据进行归类;S62:根据表格数据勾稽关系规则,对表格数据进行关系勾稽;S63:将勾稽关系的表格数据按预定义格式输出保存至数据库并输出审核结果。
优选的,所述文本格式审核单元进行格式审核的具体步骤为:S70:读取文档的目录结构,以及S23的表格数据和S33的标题数据;S71:对标题数据进行层级格式化;S72:对格式化后的标题数据,进行连续性审核;S73:提取表格数据中引用的序号和标题格式化进行审核;S74:将审核后的数据按预定义格式输出保存至数据库并输出审核结果。
本发明提供的金融长文本复核系统,通过数据解析模块和数据审核模块两个模块配合实现金融长文本的复核,其中,数据解析模块负责将金融长文本拆分重新组织并转换为预定义的数据格式,其次,通过数据审核模块对对应修改格式后的数据进行数据处理,执行审核作业,完成审核同时输出审核结果,该人工智能审核的金融长文本复核系统极大地精简了人力重复对数据核查的工作,只需要针对审核结果进行比对判断,即可得到最终金融长文本存在的问题,高效率高精度地对金融长文本进行复核。
附图说明
图1是本发明提供的金融长文本复核系统的功能逻辑结构图;
图2是本发明提供的版面识别单元获取原始金融数据长文本对的文档篇章结构信息的具体步骤图;
图3是本发明提供的表格语义分析单元对表格数据分析的具体步骤图;
图4是本发明提供的文本语义解析单元解析段落数据和标题数据的具体步骤图;
图5是本发明提供的错别字审查单元对段落数据和标题数据中错别字查找的具体步骤图;
图6是一致性审核单元审核表格数据的具体步骤图;
图7是勾稽关系审核审核表格数据的具体步骤图;
图8是文本格式审核单元进行格式审核的具体步骤图。
具体实施方式
下面结合附图对本发明所提供的一种金融长文本复核系统作进一步说明,需要指出的是,下面仅以一种最优化的技术方案对本发明的技术方案以及设计原理进行详细阐述。
本发明提供的金融长文本复核系统,其用于解析和审核非结构化金融数据长文本,其包括数据解析模块以及数据审核模块,所述数据解析模块将非结构化数据解析成结构化数据,该数据解析模块包括版面识别单元、表格语义分析单元以及表格语义解析单元,所述版面识别单元用于获取原始金融数据长文本对的文档篇章结构信息,所述表格语义分析单元用于分析版面识别单元获取的表格数据并按预定义的数据模型组织存储数据,所述文本语义解析用于解析版面识别单元获取的段落、标题数据并按预定义的数据模型组织存储数据;所述数据审核模块对结构化数据进行审核处理,该数据审核模块包括错别字审查单元、一致性审核单元、勾稽关系审核单元以及文本格式审核单元,其中,所述错别字审查单元根据NLP模型检测潜在错别字得到候选字符及概率并结合领域字典针对段落、标题数据查找错别字提出纠正建议,所述一致性审核根据会计准则对表格数据进行审核,所述勾稽关系审核单元根据会计准则提取文本中存在的勾稽关系规则,并由该些勾稽关系规则进行数据审核;所述文本格式审核单元根据标题和文本的目录结构,根据序号连续性和关联序号规则进行格式审核,结合图1,该复核系统通过数据解析模块进行视觉判断,实现表格识别与分析、篇章结构识别以及文本识别与分析并对数据进行结构化处理,基于结构化处理后的数据,由数据审核模块结合对专业知识自学习后的规则引擎和场景配置对文档进行复核输出处理结果。
其中,在篇章结构识别的过程中,该系统先使用语言模型在大规模通用领域语料以及金融领域语料训练,使模型学到字在上下文中含有丰富语义信息的表征。除此之外还设计了基于规则的特征抽取模块抽取可以表示某行文本位置,相邻文本,对齐方式等特点的特征,最后将语言模型和特征抽取模块抽取的特征拼接后使用fusion层融合并分类,最后将无序的字符串还原出实际的结构;在语义分析过程中,先将原文输入在大规模通用语料和金融语料上训练的预训练模型获取字基本的表征,再融合候选字信息,然后使用训练好的纠错模型预测对应位置正确字符;最后还根据现有词典,领域词库等外部知识对预测结果进行纠正进一步提高纠错效果;在关键信息抽取方面,先使用训练的实体识别模型抽取对应实体,将抽出的实体输入事件抽取模型组合成具体事件;另外,在原始表格存在冗余信息,不能直接使用,还需要使用模型抽取关键信息,去除冗余信息,我们先使用预先训练好的表格识别模型,将表格结构以及表格内单元格的文字提取出来,再将表格结构信息例如标题,单元格位置等等输入表格信息抽取模型,最后得到下游任务可直接使用的表格信息。
接下来,具体介绍每一单元对数据处理的具体步骤,在本实施例中,输入文档以PDF格式文档为例。
参阅图2,所述版面识别单元获取原始金融数据长文本对的文档篇章结构信息的具体步骤为:S10:将PDF格式文本按页转换为图片格式文本,并进行拉伸以及二值化预处理;S11:根据CV模型检测预处理后的图片格式文本,获取表格、页眉、页脚、图片、公式数据;S12:提取表格、页眉、页脚、图片、公式数据以外的文字数据,并将该些文字数据按页,行顺序组织;S13:根据NLP模型将提取的文字数据划分为段落数据和标题数据;S14:整合输出提取的数据保存至数据库中。
参阅图3,所述表格语义分析单元对表格数据分析的具体步骤为:S20:获取S14中的表格数据;S21:对表格数据进行预处理,包括:数据清洗和集合划分;S22:根据NLP模型解析预处理后的表格数据并提取表格数据关系;
S23:将表格数据以及表格数据关系按预定义的数据模型组织输出并保存至数据库中;
参阅图4,所述文本语义解析单元解析段落数据和标题数据的具体步骤为:S30:获取S14中的段落数据和标题数据;S31:对段落数据和标题数据进行预处理,包括:数据清洗、数据长度切割、定位数据提取位置,以及数据字型特征转换为预定义字型格式;S32:根据NLP模型解析预处理后的段落数据和标题数据,提取数据文本中的关键信息、相关必要信息以及关键信息之间的关联;S33:将解析后的段落数据和标题数据按预定义的数据模型组织输出并保存至数据库中。
参阅图5,所述错别字审查单元对段落数据和标题数据中错别字查找的具体步骤为:S40:读取S33中的段落数据和标题数据;S41:对段落数据和标题数据进行预处理,包括:数据清洗,非敏感文本数据提取;S42:根据NLP模型检测潜在错别字得到候选字符以及候选字符概率并输出错别字模型;S43:根据金融领域的领域字典以及错别字模型,筛选错别字以及提出纠正建议并输出;S44:将输出数据处理为预定义格式数据并展示。
参阅图6,所述一致性审核单元审核表格数据的具体步骤为:S50:读取S23中的表格数据;S51:将表格数据区分为财务摘要表、财务主表和财务附注表;S52:根据会计准则提取一致性审核规则,按规则进行数据匹配;S53:将匹配后的数据按预定格式输出并存保存至数据库并输出审核结果。
参阅图7,所述勾稽关系审核审核表格数据的具体步骤为:S60:读取S23中的表格数据和S33中的标题数据;S61:根据语义分析结果和标题数据,对表格数据进行归类;S62:根据表格数据勾稽关系规则,对表格数据进行关系勾稽;S63:将勾稽关系的表格数据按预定义格式输出保存至数据库并输出审核结果。
参阅图8,所述文本格式审核单元进行格式审核的具体步骤为:S70:读取文档的目录结构,以及S23的表格数据和S33的标题数据;S71:对标题数据进行层级格式化;S72:对格式化后的标题数据,进行连续性审核;S73:提取表格数据中引用的序号和标题格式化进行审核;S74:将审核后的数据按预定义格式输出保存至数据库并输出审核结果。
本发明提供的金融长文本复核系统,基于计算机视觉算法可解析各种类型的复杂表格,其中,该些复杂表格的形式包括word、pdf以及图片格式的表格,通用性强,基于NLP深度学习模型进行文本信息提取,在实现多维度信息提取的同时提高系统鲁棒性。
本发明提供的金融长文本复核系统,可供企业对自身的财务指标报告进行自行复核,另外,其他金融机构也可以从现有材料中下载各个公司的年度报告等进行解析以深入研究获取投资信息。
以上仅是本发明的优选实施方式,应当指出的是,上述优选实施方式不应视为对本发明的限制,本发明的保护范围应当以权利要求所限定的范围为准。对于本技术领域的普通技术人员来说,在不脱离本发明的精神和范围内,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (8)
1.一种金融长文本复核系统,其用于解析和审核非结构化金融数据长文本,其特征在于,其包括数据解析模块以及数据审核模块,
所述数据解析模块将非结构化数据解析成结构化数据,该数据解析模块包括版面识别单元、表格语义分析单元以及表格语义解析单元,所述版面识别单元用于获取原始金融数据长文本对的文档篇章结构信息,所述表格语义分析单元用于分析版面识别单元获取的表格数据并按预定义的数据模型组织存储数据,所述文本语义解析用于解析版面识别单元获取的段落、标题数据并按预定义的数据模型组织存储数据;
所述数据审核模块对结构化数据进行审核处理,该数据审核模块包括错别字审查单元、一致性审核单元、勾稽关系审核单元以及文本格式审核单元,其中,所述错别字审查单元根据NLP模型检测潜在错别字得到候选字符及概率并结合领域字典针对段落、标题数据查找错别字提出纠正建议,所述一致性审核根据会计准则对表格数据进行审核,所述勾稽关系审核单元根据会计准则提取文本中存在的勾稽关系规则,并由该些勾稽关系规则进行数据审核;所述文本格式审核单元根据标题和文本的目录结构,根据序号连续性和关联序号规则进行格式审核。
2.根据权利要求1所述的一种金融长文本复核系统,其特征在于,所述非结构化金融数据长文本为PDF格式文本。
3.根据权利要求2所述的一种金融长文本复核系统,其特征在于,所述版面识别单元获取原始金融数据长文本对的文档篇章结构信息的具体步骤为:
S10:将PDF格式文本按页转换为图片格式文本,并进行拉伸以及二值化预处理;
S11:根据CV模型检测预处理后的图片格式文本,获取表格、页眉、页脚、图片、公式数据;
S12:提取表格、页眉、页脚、图片、公式数据以外的文字数据,并将该些文字数据按页,行顺序组织;
S13:根据NLP模型将提取的文字数据划分为段落数据和标题数据;
S14:整合输出提取的数据保存至数据库中。
4.根据权利要求3所述的一种金融长文本复核系统,其特征在于,所述表格语义分析单元对表格数据分析的具体步骤为:
S20:获取S14中的表格数据;
S21:对表格数据进行预处理,包括:数据清洗和集合划分;
S22:根据NLP模型解析预处理后的表格数据并提取表格数据关系;
S23:将表格数据以及表格数据关系按预定义的数据模型组织输出并保存至数据库中;
所述文本语义解析单元解析段落数据和标题数据的具体步骤为:
S30:获取S14中的段落数据和标题数据;
S31:对段落数据和标题数据进行预处理,包括:数据清洗、数据长度切割、定位数据提取位置,以及数据字型特征转换为预定义字型格式;
S32:根据NLP模型解析预处理后的段落数据和标题数据,提取数据文本中的关键信息、相关必要信息以及关键信息之间的关联;
S33:将解析后的段落数据和标题数据按预定义的数据模型组织输出并保存至数据库中。
5.根据权利要求4所述的一种金融长文本复核系统,其特征在于,所述错别字审查单元对段落数据和标题数据中错别字查找的具体步骤为:
S40:读取S33中的段落数据和标题数据;
S41:对段落数据和标题数据进行预处理,包括:数据清洗,非敏感文本数据提取;
S42:根据NLP模型检测潜在错别字得到候选字符以及候选字符概率并输出错别字模型;
S43:根据金融领域的领域字典以及错别字模型,筛选错别字以及提出纠正建议并输出;
S44:将输出数据处理为预定义格式数据并展示。
6.根据权利要求4所述的一种金融长文本复核系统,其特征在于,所述一致性审核单元审核表格数据的具体步骤为:
S50:读取S23中的表格数据;
S51:将表格数据区分为财务摘要表、财务主表和财务附注表;
S52:根据会计准则提取一致性审核规则,按规则进行数据匹配;
S53:将匹配后的数据按预定格式输出并存保存至数据库并输出审核结果。
7.根据权利要求7所述的一种金融长文本复核系统,其特征在于,所述勾稽关系审核审核表格数据的具体步骤为:
S60:读取S23中的表格数据和S33中的标题数据;
S61:根据语义分析结果和标题数据,对表格数据进行归类;
S62:根据表格数据勾稽关系规则,对表格数据进行关系勾稽;
S63:将勾稽关系的表格数据按预定义格式输出保存至数据库并输出审核结果。
8.根据权利要求8所述的一种金融长文本复核系统,其特征在于,所述文本格式审核单元进行格式审核的具体步骤为:
S70:读取文档的目录结构,以及S23的表格数据和S33的标题数据;
S71:对标题数据进行层级格式化;
S72:对格式化后的标题数据,进行连续性审核;
S73:提取表格数据中引用的序号和标题格式化进行审核;
S74:将审核后的数据按预定义格式输出保存至数据库并输出审核结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110531556.3A CN113159969A (zh) | 2021-05-17 | 2021-05-17 | 一种金融长文本复核系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110531556.3A CN113159969A (zh) | 2021-05-17 | 2021-05-17 | 一种金融长文本复核系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113159969A true CN113159969A (zh) | 2021-07-23 |
Family
ID=76876385
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110531556.3A Pending CN113159969A (zh) | 2021-05-17 | 2021-05-17 | 一种金融长文本复核系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113159969A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114549014A (zh) * | 2022-04-25 | 2022-05-27 | 深圳市佑荣信息科技有限公司 | 基于自动和人工审核结合的供应链金融风控办法及系统 |
CN117172249A (zh) * | 2023-11-03 | 2023-12-05 | 青矩技术股份有限公司 | 合同审查方法、装置、设备及计算机可读存储介质 |
Citations (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104574179A (zh) * | 2013-10-25 | 2015-04-29 | 中国银联股份有限公司 | 银行卡资金清算平台的复核验证系统和复核验证方法 |
CN106547726A (zh) * | 2015-09-16 | 2017-03-29 | 中国航空工业第六八研究所 | 一种基于文档的自动化审查方法及审查装置 |
CN108875737A (zh) * | 2018-06-11 | 2018-11-23 | 四川骏逸富顿科技有限公司 | 一种纸质处方单据中检测复选框是否勾选的方法及系统 |
CN109117479A (zh) * | 2018-08-13 | 2019-01-01 | 数据地平线(广州)科技有限公司 | 一种金融文档智能核查方法、装置及存储介质 |
CN109190092A (zh) * | 2018-08-15 | 2019-01-11 | 深圳平安综合金融服务有限公司上海分公司 | 不同来源文件的一致性审核方法 |
CN109670477A (zh) * | 2018-12-28 | 2019-04-23 | 上海大智慧财汇数据科技有限公司 | 面向pdf表格的自动识别系统和方法 |
CN110210440A (zh) * | 2019-06-11 | 2019-09-06 | 中国农业银行股份有限公司 | 一种表格图像版面分析方法及系统 |
CN110473224A (zh) * | 2019-08-19 | 2019-11-19 | 合肥学院 | 一种基于kl熵的rsf水平集图像自动分割方法 |
CN110889310A (zh) * | 2018-09-07 | 2020-03-17 | 上海怀若智能科技有限公司 | 金融文档信息智能提取系统及方法 |
CN110909226A (zh) * | 2019-11-28 | 2020-03-24 | 达而观信息科技(上海)有限公司 | 金融类文档信息处理方法、装置、电子设备及存储介质 |
WO2020232872A1 (zh) * | 2019-05-22 | 2020-11-26 | 平安科技(深圳)有限公司 | 表格识别方法、装置、计算机设备和存储介质 |
CN112101010A (zh) * | 2020-11-23 | 2020-12-18 | 中博信息技术研究院有限公司 | 一种基于bert的电信行业oa办公自动化文稿审核的方法 |
CN112149680A (zh) * | 2020-09-28 | 2020-12-29 | 武汉悦学帮网络技术有限公司 | 错字检测识别方法、装置、电子设备及存储介质 |
WO2021088400A1 (zh) * | 2019-11-07 | 2021-05-14 | 达而观信息科技(上海)有限公司 | 一种文档审核方法、装置、系统、设备及存储介质 |
CN115934928A (zh) * | 2022-12-28 | 2023-04-07 | 达而观智能(深圳)有限公司 | 一种信息抽取方法、装置、设备及存储介质 |
-
2021
- 2021-05-17 CN CN202110531556.3A patent/CN113159969A/zh active Pending
Patent Citations (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104574179A (zh) * | 2013-10-25 | 2015-04-29 | 中国银联股份有限公司 | 银行卡资金清算平台的复核验证系统和复核验证方法 |
CN106547726A (zh) * | 2015-09-16 | 2017-03-29 | 中国航空工业第六八研究所 | 一种基于文档的自动化审查方法及审查装置 |
CN108875737A (zh) * | 2018-06-11 | 2018-11-23 | 四川骏逸富顿科技有限公司 | 一种纸质处方单据中检测复选框是否勾选的方法及系统 |
CN109117479A (zh) * | 2018-08-13 | 2019-01-01 | 数据地平线(广州)科技有限公司 | 一种金融文档智能核查方法、装置及存储介质 |
CN109190092A (zh) * | 2018-08-15 | 2019-01-11 | 深圳平安综合金融服务有限公司上海分公司 | 不同来源文件的一致性审核方法 |
CN110889310A (zh) * | 2018-09-07 | 2020-03-17 | 上海怀若智能科技有限公司 | 金融文档信息智能提取系统及方法 |
CN109670477A (zh) * | 2018-12-28 | 2019-04-23 | 上海大智慧财汇数据科技有限公司 | 面向pdf表格的自动识别系统和方法 |
WO2020232872A1 (zh) * | 2019-05-22 | 2020-11-26 | 平安科技(深圳)有限公司 | 表格识别方法、装置、计算机设备和存储介质 |
CN110210440A (zh) * | 2019-06-11 | 2019-09-06 | 中国农业银行股份有限公司 | 一种表格图像版面分析方法及系统 |
CN110473224A (zh) * | 2019-08-19 | 2019-11-19 | 合肥学院 | 一种基于kl熵的rsf水平集图像自动分割方法 |
WO2021088400A1 (zh) * | 2019-11-07 | 2021-05-14 | 达而观信息科技(上海)有限公司 | 一种文档审核方法、装置、系统、设备及存储介质 |
CN110909226A (zh) * | 2019-11-28 | 2020-03-24 | 达而观信息科技(上海)有限公司 | 金融类文档信息处理方法、装置、电子设备及存储介质 |
CN112149680A (zh) * | 2020-09-28 | 2020-12-29 | 武汉悦学帮网络技术有限公司 | 错字检测识别方法、装置、电子设备及存储介质 |
CN112101010A (zh) * | 2020-11-23 | 2020-12-18 | 中博信息技术研究院有限公司 | 一种基于bert的电信行业oa办公自动化文稿审核的方法 |
CN115934928A (zh) * | 2022-12-28 | 2023-04-07 | 达而观智能(深圳)有限公司 | 一种信息抽取方法、装置、设备及存储介质 |
Non-Patent Citations (2)
Title |
---|
张元鸣;陈苗;陆佳炜;徐俊;肖刚;: "非结构化表格文档数据抽取与组织模型研究", 浙江工业大学学报, no. 05, pages 487 - 494 * |
张昊玥等: "非结构化文档的版面分析及表格提取", 《中国优秀硕士学位论文全文数据库 信息科技辑》, pages 138 - 1407 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114549014A (zh) * | 2022-04-25 | 2022-05-27 | 深圳市佑荣信息科技有限公司 | 基于自动和人工审核结合的供应链金融风控办法及系统 |
CN117172249A (zh) * | 2023-11-03 | 2023-12-05 | 青矩技术股份有限公司 | 合同审查方法、装置、设备及计算机可读存储介质 |
CN117172249B (zh) * | 2023-11-03 | 2024-01-26 | 青矩技术股份有限公司 | 合同审查方法、装置、设备及计算机可读存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
AU2019263758B2 (en) | Systems and methods for generating a contextually and conversationally correct response to a query | |
CN111723215B (zh) | 基于文本挖掘的生物技术信息知识图谱构建装置与方法 | |
CN110399457B (zh) | 一种智能问答方法和系统 | |
US20210319180A1 (en) | Systems and methods for deviation detection, information extraction and obligation deviation detection | |
CN113806563B (zh) | 面向多源异构建筑人文史料的建筑师知识图谱构建方法 | |
CN111090986A (zh) | 一种公文文档纠错的方法 | |
CN110609983B (zh) | 一种政策文件结构化分解方法 | |
CN111061882A (zh) | 一种知识图谱构建方法 | |
CN113254574A (zh) | 一种机关公文辅助生成方法、装置以及系统 | |
CN111611399A (zh) | 一种基于自然语言处理的资讯事件图谱化系统及方法 | |
CN112035652A (zh) | 一种基于机器阅读理解的智能问答交互方法及系统 | |
CN113159969A (zh) | 一种金融长文本复核系统 | |
US20230028664A1 (en) | System and method for automatically tagging documents | |
CN115688705A (zh) | 一种基于自然语义的智能文档处理系统 | |
CN114118089A (zh) | 一种基于裁判文书的企业司法诉讼关系的构建方法及系统 | |
CN112257442B (zh) | 一种基于扩充语料库神经网络的政策文件信息提取方法 | |
CN112966097A (zh) | 一种基于nlp的上市公司财务快讯自动生成方法及系统 | |
CN103164398A (zh) | 汉维电子辞典及其自动转译汉维语的方法 | |
CN112380848A (zh) | 文本生成方法、装置、设备及存储介质 | |
CN115908027A (zh) | 一种金融长文本复核系统的金融数据一致性审核模块 | |
CN115759037A (zh) | 建筑施工方案智能审核框架及审核方法 | |
CN113392189B (zh) | 基于自动分词的新闻文本处理方法 | |
CN112488593B (zh) | 一种用于招标的辅助评标系统及方法 | |
CN113722421A (zh) | 一种合同审计方法和系统,及计算机可读存储介质 | |
CN111241827B (zh) | 一种基于句子检索模式的属性抽取方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |