CN110543475A

CN110543475A - 一种基于机器学习的财务报表数据自动识别和分析方法

Info

Publication number: CN110543475A
Application number: CN201910820809.1A
Authority: CN
Inventors: 李梓成; 刘广洲; 杨超凡
Original assignee: Shenzhen Origin Parameter Technology Co Ltd
Current assignee: Shenzhen Origin Parameter Information Technology Co ltd
Priority date: 2019-08-29
Filing date: 2019-08-29
Publication date: 2019-12-06

Abstract

本发明提供一种基于机器学习的财务报表数据自动识别和分析方法，经由数据抽取模块进行数据抽取，通过数据清洗及文本聚合模块对文本内容进行筛选和组合，使之抽取的单个信息能形成完整的数据块或者文本块，然后对于所形成的数据块进行文档结构的分析和信息点的标注，由财务信息格式化模块提取其中的财务数据，然后通过检查之后输出财务数据。无法通过信息完整度检查的数据，由人工辅助子系统进行人工标记和纠正，并将标记和纠正的数据反馈给知识库进行大数据学习，从而训练文档结构及信息标注模块、财务信息格式化模块和信息完整度检查模块进行信息系统的训练升级，使之信息处理更加完善并形成数据解析闭环。

Description

一种基于机器学习的财务报表数据自动识别和分析方法

技术领域

本发明涉及财务工具领域，特别是涉及一种基于机器学习的财务报表数据自动识别和分析方法。

背景技术

在金融行业，银行、证券公司、基金公司、投资公司每天需要对海量的企业财务报表进行分析。目前的方法是依靠人工逐字、逐句的阅读整个财务报表，判断其中的关键信息，并一一记录下来，制作报告。

这种方法存在如下弊端：

1.效率低，因为依靠人的肉眼观察和判断，逐条对信息点的理解与分析，并手工进行统计与记录，整体效率非常低。

2.成本高，耗费大量的人力和资源，成本极高。

3.出错率高，依靠人的主观判断对报表信息的内容、含义进行理解和记录，产生错误的概率非常高。

发明内容

本发明的目的在于提供一种基于机器学习的财务报表数据自动识别和分析方法，其能够从最原始的数据开始，利用机器学习算法对信息进行分析和抽取，并且借助人工辅助子系统对极端情况进行处理，并积累相关标签数据使整个数据解析过程形成闭环。

本发明的实施例是这样实现的：

一种基于机器学习的财务报表数据自动识别和分析方法，所述方法应用于财务报表数据识别和分析系统，从解析最原始的数据开始，利用机器学习算法对信息进行分析和抽取，并且借助人工辅助子系统对极端情况进行处理，并积累标签数据使整个数据解析过程形成闭环。

在本发明的一些实施例中，所述财务报表数据识别和分析系统具体包括数据抽取模块、数据清洗及文本聚合模块、文档结构及信息点标注模块、财务信息格式化模块、信息完整性检查模块以及人工辅助子系统。

在本发明的一些实施例中，所述的信息的抽取过程由数据抽取模块从源文件中抽取原始信息，所获取的信息包括每个字符及其位置、字体、字号及文字方向的相关信息。

在本发明的一些实施例中，所述的源文件数据包括PDF、HTML及XBRL格式的各类数据原始信息。

在本发明的一些实施例中，所述的信息分析过程包括数据的清洗和聚合过程，所述的数据清洗通过数据清洗模块对抽取出来的数据进行汇总，过滤无用的文字信息，并对字符在编码上进行标准化；文本聚合针对提取并编码出来的分开的字符，根据未知信息及逻辑回归模型对字符进行汇聚，形成从词语到语句再到完整的文本块的过程。

在本发明的一些实施例中，所述的信息分析过程还包括文档结构调整及信息点的标注，由文档结构及信息点标注模块利用文本相似度分析技术，目标文件的目录进行内容该分析，通过知识库提供的标签数据所训练的机器模型对目标目录内容进行识别，按目录内容对目标文件内容进行模块划分，同时对相应模块进行内容标注。

在本发明的一些实施例中，所述的信息分析过程还包括财务数据的提取，由财务信息格式化模块完成，具体包括：

A、财务数据的区域定位，根据文档结构和信息点的标注之后，快速对相关财务数据进行区域定位；

B、文本块属性分析，构建一个神经网络对文本块属性进行识别，使用位置信息进行训练，其文本属性包括：普通文本块、键值对文本块、表格、小标题文本块；

模型的输出为文本块类别的概率。

C、对表格进行格式化，根据知识库中积累的表格样式数据，对数据进行处理，标记出哪块文本是“键”，哪块文本是“值”，最终将表格转化成键值对的形式，完成表格的键值关系数据提取，并以键值对的方式，提取出财务数据。

在本发明的一些实施例中，所述数据识别和分析方法需要完成信息完整性检查，根据财务规则，利用既有程序对整个财务报告进行扫描检查，防止财务数据被错误提取或漏提取，如果检查通过的话整个数据提取过程结束。

在本发明的一些实施例中，对于未能通过检查的信息，采用人工辅助方式进行人工标记和纠错。

在本发明的一些实施例中，所述人工标记和纠错的具体内容包括：

对于解析系统中未能正确解析的数据进行人工标记，并积累到知识库中进行学习训练；

对于原始数据存在错误的部分进行人工纠正。

本发明实施例至少具有如下优点或有益效果：

1.新技术的运用

运用云计算、大数据、和机器学习(算法)等技术，全面提升业务能力。

2.准确度高

新技术的运用保证了更全面、更充分、更实时的掌握和分析数据。

3.降低成本

整个处理过程由计算机程序自动完成，大大降低业务成本。

4.效率高、简单易用

通过网络访问，选择需要查看的报告，软件系统将自动分析原始财务报告，并输出分析数据。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1是本发明实施例基于机器学习的财务报表数据自动识别和分析方法的结构示意图。

图2-a是本发明实施例对文本范围划分格子的示意图。

图2-b是本发明实施例对文本内容划分取值示意图。

图3是本发明实施例神经网络结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。

因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

实施例1

在本发明的一些实施例中，如图1所示，所述财务报表数据识别和分析系统具体包括数据抽取模块、数据清洗及文本聚合模块、文档结构及信息点标注模块、财务信息格式化模块、信息完整性检查模块以及人工辅助子系统。

以本方案而言，本方法经由数据抽取模块进行数据抽取，通过数据清洗及文本聚合模块对文本内容进行筛选和组合，使之抽取的单个信息能形成完整的数据块或者文本块，然后对于所形成的数据块进行文档结构的分析和信息点的标注，由财务信息格式化模块提取其中的财务数据，根据数据类型的属性分类形成不同的键值对，然后通过检查之后输出财务数据。对于无法通过信息完整度检查的数据，则经由人工辅助子系统进行人工标记和纠正，并将标记和纠正的数据反馈给知识库进行大数据学习，从而训练文档结构及信息标注模块、财务信息格式化模块和信息完整度检查模块进行信息系统的训练升级，使之信息处理更加完善并形成数据解析闭环。

本方案利用逻辑回归模型对单个字符进行汇聚，具体如下：

数据从原始报表中提取出来之后是一个个离散的字符，每个字符包含一些字符信息，如：字符位置、字符大小、字符方向、字符字体等等。利用该模型判断每个字符是否与前面的字符组合在一起形成一个词语或形成更长的句子，这个步骤目的就是让离散的字符汇聚成一个词语或句子。

当前字符和前面的字符能组合在一起的概率模型可以表示为：

其中x为特征向量：

x_T＝[x₁，x₂，x₃，x₄，x₅，x₆，x₇，x₈，x₉]；

此特征向量共有9个特征变量：

x₁:该字符位置与在X轴上的取值。字符位置为该字符在所在页面的坐标值。页面左下角为坐标原点

x₂：该字符位置Y轴上的取值。

x₃：该字符的字体大小

x₄：前置字符个数。若该字符的前一个字符为词语或句子的结尾，则该字符无前置字符。

x₅：前置字符串最后一个字符的位置在X轴取值。

x₆：前置字符串最后一个字符的位置在Y轴取值。

x₇：前置字符字体大小。

x₈：该字符是否为无意义字符。如标点符号或无具体含义的字符。

x₉：该字符是否可以与前置的字符串组成词汇。此处用到语料库来判断此特征的取值。

此处利用神经网络对文本块类型进行分类，借用了手写识别的思想。如下图所示，我们会对文本块范围内划分成n×n个格子,如图2-a所示。

然后判断每个格子是否有字符落在其中，是将取值为1，不是将取值为0，转换后如图2-b所示。

由于每个文本块的范围大小不同，在这个过程中还需要做归一化的处理。

然后将上述0、1排布的表格转换成如下所示的n×1维的矩阵：

X＝[0 1 1 … 1]

我们采用的神经网络结构如图3所示：

其中x₁、x₂…x_n的取值为上述n×1维矩阵，具体计算过程如下：

模型的输出为文本块类别的概率。

对于原始数据存在错误的部分进行人工纠正。

以上仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于机器学习的财务报表数据自动识别和分析方法，其特征在于：所述方法应用于财务报表数据识别和分析系统，从解析最原始的数据开始，利用机器学习算法对信息进行分析和抽取，并且借助人工辅助子系统对极端情况进行处理，并积累标签数据使整个数据解析过程形成闭环。

2.根据权利要求1所述的基于机器学习的财务报表数据自动识别和分析方法，其特征在于，所述财务报表数据识别和分析系统具体包括数据抽取模块、数据清洗及文本聚合模块、文档结构及信息点标注模块、财务信息格式化模块、信息完整性检查模块以及人工辅助子系统。

3.根据权利要求1所述的基于机器学习的财务报表数据自动识别和分析方法，其特征在于，所述的信息的抽取过程由数据抽取模块从源文件中抽取原始信息，所获取的信息包括每个字符及其位置、字体、字号及文字方向的相关信息。

4.根据权利要求3所述的基于机器学习的财务报表数据自动识别和分析方法，其特征在于，所述的源文件数据包括PDF、HTML及XBRL格式的各类数据原始信息。

5.根据权利要求1所述的基于机器学习的财务报表数据自动识别和分析方法，其特征在于，所述的信息分析过程包括数据的清洗和聚合过程，所述的数据清洗通过数据清洗模块对抽取出来的数据进行汇总，过滤无用的文字信息，并对字符在编码上进行标准化；文本聚合针对提取并编码出来的分开的字符，根据未知信息及逻辑回归模型对字符进行汇聚，形成从词语到语句再到完整的文本块的过程。

6.根据权利要求1所述的基于机器学习的财务报表数据自动识别和分析方法，其特征在于，所述的信息分析过程还包括文档结构调整及信息点的标注，由文档结构及信息点标注模块利用文本相似度分析技术，目标文件的目录进行内容该分析，通过知识库提供的标签数据所训练的机器模型对目标目录内容进行识别，按目录内容对目标文件内容进行模块划分，同时对相应模块进行内容标注。

7.根据权利要求1所述的基于机器学习的财务报表数据自动识别和分析方法，其特征在于，所述的信息分析过程还包括财务数据的提取，由财务信息格式化模块完成，包括：

8.根据权利要求1所述的基于机器学习的财务报表数据自动识别和分析方法，其特征在于，所述数据识别和分析方法需要完成信息完整性检查，根据财务规则，利用既有程序对整个财务报告进行扫描检查，防止财务数据被错误提取或漏提取，如果检查通过的话整个数据提取过程结束。

9.根据权利要求1所述的基于机器学习的财务报表数据自动识别和分析方法，其特征在于，对于未能通过检查的信息，采用人工辅助方式进行人工标记和纠错。

10.根据权利要求9所述的基于机器学习的财务报表数据自动识别和分析方法，其特征在于，所述人工标记和纠错的具体内容包括：

对于原始数据存在错误的部分进行人工纠正。