CN115908027A

CN115908027A - 一种金融长文本复核系统的金融数据一致性审核模块

Info

Publication number: CN115908027A
Application number: CN202111403999.0A
Authority: CN
Inventors: 朱乐为; 马文翔; 崔子锋
Original assignee: Guangzhou Guxin Intelligent Technology Co ltd
Current assignee: Guangzhou Guxin Intelligent Technology Co ltd
Priority date: 2021-11-24
Filing date: 2021-11-24
Publication date: 2023-04-04

Abstract

本发明提供一种金融长文本复核系统的金融数据一致性审核模块，其包括：文本解析模块，用于获取金融长文本的表格数据；表格解析模块，使用NLP和表格识别技术，识别表格数据并提取关键信息，将表格数据以及表格数据关系按预定义的数据模型组织输出并保存至数据库中；表格数据读取模块，根据表格数据关系读取表格数据；表格数据处理模块，用于将表格数据划分为财务摘要表、财务主表和财务附注表；表格数据审核模块，根据会计准则提取数据一致性审核规则，按规则进行数据匹配；审核结果输出模块，将匹配后的数据按预定格式输出并存保存至数据库并输出审核结果其包括数据解析模块以及数据审核模块。

Description

一种金融长文本复核系统的金融数据一致性审核模块

技术领域

本发明涉及金融文本分析领域，尤其涉及一种金融长文本复核系统的金融数据一致性审核模块。

背景技术

金融长文本主要指年度报告、招股说明书、审计报告等财务数据文本，该些文本主要由文本段落、财务指标和表格数据等复杂元素组成，目前，金融机构或企业本身需要对金融长文本进行复核或其他处理挖掘潜在信息，但该些金融长文本主要依靠人工复核，由于数据量之大以及数据之间的关系复杂，造成人工复核的效率以及精准度低，甚至在发布出去的年度报告中存在数据不一致的问题，为了提高金融长文本的复核效率和精准度，基于计算机强大的计算能力，结合人工智能对自然语言处理技术的兴起，现提出一种金融长文本符合系统，以解决金融长文本符合效率低以及精准度低的问题，而金融长文本复核系统需要对前后文的表格数据进行数据一致性审核，为此需要提出一种金融长文本数据一致性审核模块。

发明内容

为了解决现有技术存在的缺点，本发明提供一种金融长文本复核系统的金融数据一致性审核模块，其通过解析金融长文本的文本内容，结合人工智能对文本内容的处理，实现金融长文本的高效率以及精准复核。

本发明提供一种金融长文本复核系统，其包括：文本解析模块，用于获取金融长文本的表格数据；表格解析模块，使用NLP和表格识别技术，识别表格数据并提取关键信息，将表格数据以及表格数据关系按预定义的数据模型组织输出并保存至数据库中；表格数据读取模块，根据表格数据关系读取表格数据；表格数据处理模块，用于将表格数据划分为财务摘要表、财务主表和财务附注表；表格数据审核模块，根据会计准则提取数据一致性审核规则，按规则进行数据匹配；审核结果输出模块，将匹配后的数据按预定格式输出并存保存至数据库并输出审核结果其包括数据解析模块以及数据审核模块。

优选的，所述金融长文本为PDF格式文本。

优选的，所述表格数审核模块还包括金融长文本预处理模块，其用于将PDF格式文本按页转换为图片格式文本，根据CV模型预处理后输出表格数据。

优选的，所述表格数据审核模块通过通用预料和金融预料进行自学习训练获取会计准则。

优选的，所述表格数据审核模块根据会计准则对上下文出现的同义数据进行匹配。

优选的，其还包括一批注模块，该批注模块支持表格数据批注，该批注同时显示在与该被批注的表格数据的同义数据处。

优选的，其根据以下步骤处理金融长文本：S1：输入金融长文本；S2：解析金融长文本获取表格数据；S3：区分表格数据类型；S4：提取会计准则；S5：根据会计准则进行数据匹配；S6：将得到的信息处理为规定格式；S7：输出审核结果。

本发明提供的金融长文本复核系统，通过解析金融长文本得到表格数据，并定义表格数据关系，以区分表格类型，进而通过自学习获得会计准则，根据会计准则进行数据匹配，省去人工比对，加速数据的审核速度和准确性，提高金融长文本。

附图说明

图1是本发明提供的金融长文本复核系统的数据一致性审核模块的功能逻辑结构图；

图2是本发明提供的金融长文本复核系统的功能逻辑结构图；

图3是本发明提供的版面识别单元获取原始金融长文本对的文档篇章结构信息的具体步骤图；

图4是本发明提供的表格语义分析单元对表格数据分析的具体步骤图；

图5是本发明提供的文本语义解析单元解析段落数据和标题数据的具体步骤图；

图6是数据一致性审核模块处理表格数据的具体步骤图。

具体实施方式

下面结合附图对本发明所提供的一种金融长文本复核系统作进一步说明，需要指出的是，下面仅以一种最优化的技术方案对本发明的技术方案以及设计原理进行详细阐述。

参阅图1，本发明提供的金融长文本复核系统的金融数据一致性审核模块，用于对金融长文本的数据进行全文一致性审核，其包括，文本解析模块，用于获取金融长文本的表格数据；表格解析模块，使用NLP和表格识别技术，识别表格数据并提取关键信息，将表格数据以及表格数据关系按预定义的数据模型组织输出并保存至数据库中；表格数据读取模块，根据表格数据关系读取表格数据；表格数据处理模块，用于将表格数据划分为财务摘要表、财务主表和财务附注表；表格数据审核模块，根据会计准则提取数据一致性审核规则，按规则进行数据匹配；审核结果输出模块，将匹配后的数据按预定格式输出并存保存至数据库并输出审核结果其包括数据解析模块以及数据审核模块。

参阅图6，该金融数据一致性审核模块处理表格数据的步骤包括：S1：输入金融长文本；S2：解析金融长文本获取表格数据；S3：区分表格数据类型；S4：提取会计准则；S5：根据会计准则进行数据匹配；S6：将得到的信息处理为规定格式；S7：输出审核结果。

接下来，结合金融长文本复核系统进行详细说明：

本发明提供的金融长文本复核系统，其用于解析和审核非结构化金融长文本，其包括数据解析模块以及数据审核模块，所述数据解析模块将非结构化数据解析成结构化数据，该数据解析模块包括版面识别单元、表格语义分析单元以及表格语义解析单元，所述版面识别单元用于获取原始金融长文本对的文档篇章结构信息，所述表格语义分析单元用于分析版面识别单元获取的表格数据并按预定义的数据模型组织存储数据，所述文本语义解析用于解析版面识别单元获取的段落、标题数据并按预定义的数据模型组织存储数据；所述数据审核模块对结构化数据进行审核处理，该数据审核模块包括错别字审查单元、数据一致性审核模块、勾稽关系审核单元以及文本格式审核单元，其中，所述错别字审查单元根据NLP模型检测潜在错别字得到候选字符及概率并结合领域字典针对段落、标题数据查找错别字提出纠正建议，所述一致性审核根据会计准则对表格数据进行审核，所述勾稽关系审核单元根据会计准则提取文本中存在的勾稽关系规则，并由该些勾稽关系规则进行数据审核；所述文本格式审核单元根据标题和文本的目录结构，根据序号连续性和关联序号规则进行格式审核，结合图2，该复核系统通过数据解析模块进行视觉判断，实现表格识别与分析、篇章结构识别以及文本识别与分析并对数据进行结构化处理，基于结构化处理后的数据，由数据审核模块结合对专业知识自学习后的规则引擎和场景配置对文档进行复核输出处理结果。

其中，在篇章结构识别的过程中，该系统先使用语言模型在大规模通用领域语料以及金融领域语料训练，使模型学到字在上下文中含有丰富语义信息的表征。除此之外还设计了基于规则的特征抽取模块抽取可以表示某行文本位置，相邻文本，对齐方式等特点的特征，最后将语言模型和特征抽取模块抽取的特征拼接后使用fusion层融合并分类，最后将无序的字符串还原出实际的结构；在语义分析过程中，先将原文输入在大规模通用语料和金融语料上训练的预训练模型获取字基本的表征，再融合候选字信息，然后使用训练好的纠错模型预测对应位置正确字符；最后还根据现有词典，领域词库等外部知识对预测结果进行纠正进一步提高纠错效果；在关键信息抽取方面，先使用训练的实体识别模型抽取对应实体，将抽出的实体输入事件抽取模型组合成具体事件；另外，在原始表格存在冗余信息，不能直接使用，还需要使用模型抽取关键信息，去除冗余信息，我们先使用预先训练好的表格识别模型，将表格结构以及表格内单元格的文字提取出来，再将表格结构信息例如标题，单元格位置等等输入表格信息抽取模型，最后得到下游任务可直接使用的表格信息。

接下来，具体介绍每一单元对数据处理的具体步骤，在本实施例中，输入文档以PDF格式文档为例。

参阅图3，所述版面识别单元获取原始金融长文本对的文档篇章结构信息的具体步骤为：S10：将PDF格式文本按页转换为图片格式文本，并进行拉伸以及二值化预处理；S11：根据CV模型检测预处理后的图片格式文本，获取表格、页眉、页脚、图片、公式数据；S12：提取表格、页眉、页脚、图片、公式数据以外的文字数据，并将该些文字数据按页，行顺序组织；S13：根据NLP模型将提取的文字数据划分为段落数据和标题数据；S14：整合输出提取的数据保存至数据库中。

参阅图4，所述表格语义分析单元对表格数据分析的具体步骤为：S20：获取S14中的表格数据；S21：对表格数据进行预处理，包括：数据清洗和集合划分；S22：根据NLP模型解析预处理后的表格数据并提取表格数据关系；

S23：将表格数据以及表格数据关系按预定义的数据模型组织输出并保存至数据库中；

参阅图5，所述文本语义解析单元解析段落数据和标题数据的具体步骤为：S30：获取S14中的段落数据和标题数据；S31：对段落数据和标题数据进行预处理，包括：数据清洗、数据长度切割、定位数据提取位置，以及数据字型特征转换为预定义字型格式；S32：根据NLP模型解析预处理后的段落数据和标题数据，提取数据文本中的关键信息、相关必要信息以及关键信息之间的关联；S33：将解析后的段落数据和标题数据按预定义的数据模型组织输出并保存至数据库中。

所述错别字审查单元对段落数据和标题数据中错别字查找的具体步骤为：S40：读取S33中的段落数据和标题数据；S41：对段落数据和标题数据进行预处理，包括：数据清洗，非敏感文本数据提取；S42：根据NLP模型检测潜在错别字得到候选字符以及候选字符概率并输出错别字模型；S43：根据金融领域的领域字典以及错别字模型，筛选错别字以及提出纠正建议并输出；S44：将输出数据处理为预定义格式数据并展示。

结合图6，所述数据一致性审核模块审核表格数据的具体步骤为：S50：读取S23中的表格数据；S51：将表格数据区分为财务摘要表、财务主表和财务附注表；

S52：根据会计准则提取一致性审核规则，按规则进行数据匹配；S53：将匹配后的数据按预定格式输出并存保存至数据库并输出审核结果。

本发明提供的金融长文本复核系统，基于计算机视觉算法可解析各种类型的复杂表格，其中，该些复杂表格的形式包括word、pdf以及图片格式的表格，通用性强，基于NLP深度学习模型进行文本信息提取，在实现多维度信息提取的同时提高系统鲁棒性。

本发明提供的金融长文本复核系统，可供企业对自身的财务指标报告进行自行复核，另外，其他金融机构也可以从现有材料中下载各个公司的年度报告等进行解析以深入研究获取投资信息。

本发明提供的金融长文本复核系统的金融数据一致性审核模块，可对公司的年度报告进行上下文一致性审核，防止数据与上一年年度报告出现偏差造成财务数据误报。

以上仅是本发明的优选实施方式，应当指出的是，上述优选实施方式不应视为对本发明的限制，本发明的保护范围应当以权利要求所限定的范围为准。对于本技术领域的普通技术人员来说，在不脱离本发明的精神和范围内，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种金融长文本复核系统的金融数据一致性审核模块，其特征在于，其包括：文本解析模块，用于获取金融长文本的表格数据；

表格解析模块，使用NLP和表格识别技术，识别表格数据并提取关键信息，将表格数据以及表格数据关系按预定义的数据模型组织输出并保存至数据库中；

表格数据读取模块，根据表格数据关系读取表格数据；

表格数据处理模块，用于将表格数据划分为财务摘要表、财务主表和财务附注表；

表格数据审核模块，根据会计准则提取数据一致性审核规则，按规则进行数据匹配；

审核结果输出模块，将匹配后的数据按预定格式输出并存保存至数据库并输出审核结果其包括数据解析模块以及数据审核模块。

2.根据权利要求1所述的一种金融长文本复核系统的金融数据一致性审核模块，其特征在于，所述金融长文本为PDF格式文本。

3.根据权利要求2所述的一种金融长文本复核系统的金融数据一致性审核模块，其特征在于，所述表格数审核模块还包括金融长文本预处理模块，其用于将PDF格式文本按页转换为图片格式文本，根据CV模型预处理后输出表格数据。

4.根据权利要求1所述的一种金融长文本复核系统的金融数据一致性审核模块，其特征在于，所述表格数据审核模块通过通用预料和金融预料进行自学习训练获取会计准则。

5.根据权利要求1所述的一种金融长文本复核系统的金融数据一致性审核模块，其特征在于，所述表格数据审核模块根据会计准则对上下文出现的同义数据进行匹配。

6.根据权利要求1所述的一种金融长文本复核系统的金融数据一致性审核模块，其特征在于，其还包括一批注模块，该批注模块支持表格数据批注，该批注同时显示在与该被批注的表格数据的同义数据处。

7.根据权利要求1～6所述的一种金融长文本复核系统的金融数据一致性审核模块，其特征在于，其根据以下步骤处理金融长文本：

S1：输入金融长文本；

S2：解析金融长文本获取表格数据；

S3：区分表格数据类型；

S4：提取会计准则；

S5：根据会计准则进行数据匹配；

S6：将得到的信息处理为规定格式；

S7：输出审核结果。