CN108563783B - 一种基于大数据的财务分析管理系统及方法 - Google Patents
一种基于大数据的财务分析管理系统及方法 Download PDFInfo
- Publication number
- CN108563783B CN108563783B CN201810382074.4A CN201810382074A CN108563783B CN 108563783 B CN108563783 B CN 108563783B CN 201810382074 A CN201810382074 A CN 201810382074A CN 108563783 B CN108563783 B CN 108563783B
- Authority
- CN
- China
- Prior art keywords
- financial
- vector
- type
- reference set
- item
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000004458 analytical method Methods 0.000 title claims abstract description 52
- 238000000034 method Methods 0.000 title claims abstract description 19
- 239000013598 vector Substances 0.000 claims abstract description 122
- 238000000605 extraction Methods 0.000 claims abstract description 22
- 239000000284 extract Substances 0.000 claims abstract description 13
- 238000012706 support-vector machine Methods 0.000 claims description 32
- 238000007726 management method Methods 0.000 claims description 22
- 230000011218 segmentation Effects 0.000 claims description 9
- 238000009825 accumulation Methods 0.000 claims description 6
- 238000010801 machine learning Methods 0.000 abstract description 2
- 230000000694 effects Effects 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 230000007306 turnover Effects 0.000 description 3
- 238000007405 data analysis Methods 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 238000013523 data management Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2411—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)
Abstract
本申请实施例提供的一种基于大数据的财务分析管理系统和方法,系统包括:财务报表获取模块,用于获取目标企业的多种财务报表的原始表单;财务项目提取模块,用于从所述的多种财务报表的原始表单中提取预定类型的财务项目以及对应的财务数额;财务向量生成模块,用于生成财务向量;财务向量识别模块,用于将所述财务向量与预先训练的财务向量识别模型进行匹配;财务类型输出模块,用于在确定所述财务向量的类型后输出所述目标企业对应的财务类型。本申请的基于大数据的财务分析管理系统,能够全面提取财务报表中的财务指标并执行机器学习基础上的综合分析,充分挖掘分析对象在财务信息方面的规律性特征,使分析结果更加全面,同时节约了人力成本。
Description
技术领域
本申请涉及财务信息系统技术领域,尤其涉及一种基于大数据的财务分析管理系统及方法。
背景技术
随着云时代的来临,大数据吸引了越来越多的关注。大数据(big data),是一种海量、高增长率和多样化的信息资产,是信息化社会中各种活动所生成的大量非结构化数据和半结构化数据的数据集合。采用适当的处理模式对这一数据集合进行捕捉、管理和处理,能够从中诞生更强的决策力、洞察发现力和流程优化能力。大数据分析常和云系统的硬件架构联系到一起,因为实时的大型数据集分析需要像MapReduce一样的框架来向数十、数百或甚至数千的电脑分配工作。大数据也需要特殊的存储、计算和分析技术,以有效地在可以接受的时间限度内处理海量数据。适用于大数据的技术,包括大规模并行处理数据库、数据挖掘、分布式文件系统、分布式数据库、云计算平台、互联网和可扩展的存储系统。
财务分析是以会计核算和报表资料及其他相关资料为依据,采用一系列专门的分析技术和方法,对企业等经济组织过去和现在有关筹资活动、投资活动、经营活动、分配活动的盈利能力、营运能力、偿债能力和增长能力状况等进行分析与评价的经济管理活动。它是为企业的投资者、债权人、经营者及其他关心企业的组织或个人了解企业过去、评价企业现状、预测企业未来做出正确决策提供准确的信息或依据的经济应用学科。
现有技术中的财务分析,通常是由人工根据财务报表中的单指标或者多指标进行分析,分析过程不能实现智能化,使得财务分析的结果存在局限性,不能围绕财务指标对财务进行全面分析,不能通过综合性的指标体系实现对分析对象整体财务状况和规律的评估,容易受到个别偏差、错误或者伪造指标的误导,同时需要大量的人力成本,造成人力资源的浪费。
财务报表是一种基于特定的财会规则组织的半结构化数据载体,通过汇聚足够的财务报表,完全可以形成包含有丰富财务细节信息的大数据资源,并且通过大数据的分析手段挖掘通过常规的财务分析难以获得的反映分析目标规律的特征。随着大数据技术的发展,如何建立一套面向财务报表的大数据管理和分析系统及其方法,已经成为突破传统财务分析局限性的关键方向。
发明内容
有鉴于现有技术的上述需求,本申请的目的在于提出一种基于大数据的财务分析管理系统及方法,来解决现有技术中传统财务分析手段不够智能化,财务报表中被分析的指标类型和范围有限,对分析对象规律与特征的挖掘深度不足,财务分析结果存在局限性的技术问题。
基于上述目的,在本申请的一个方面,提出了一种基于大数据的财务分析管理系统,包括:
财务报表获取模块,用于获取目标企业的多种财务报表的原始表单,所述原始表单包括财务项目以及对应的财务数额;
财务项目提取模块,用于从所述的多种财务报表的原始表单中提取预定类型的财务项目以及对应的财务数额;
财务向量生成模块,用于根据所述预定类型的财务项目及对应的财务数额生成财务向量;
财务向量识别模块,用于将所述财务向量与预先训练的财务向量识别模型进行匹配,以对所述财务向量的类型进行识别;
财务类型输出模块,用于在确定所述财务向量的类型后输出所述目标企业对应的财务类型。
在一些实施例中,所述财务向量识别模块包括多个采用财务向量数据库中的财务向量样本训练的SVM分类机。
在一些实施例中,所述财务向量识别模型中的每个SVM分类机分别由不同类型的财务向量样本进行训练得到。
在一些实施例中,所述财务向量数据库中存储不同类型的财务向量样本,每个类型的财务向量样本是根据人工预先选取的预定类型企业的财务报表所生成的财务向量。
在一些实施例中,所述财务项目提取模块具体用于根据不同的SVM分类机的需要提取对应的财务项目以及对应的财务数额。
在一些实施例中,所述财务项目提取模块,通过检索多种财务报表的原始表单含有的关键词提取对应的财务项目以及财务数额。
在一些实施例中,所述财务项目提取模块按照如下方式提取对应的财务项目以及财务数额:建立财务项目名称的参考集合,从历史已经成功从财务报表提取每一类型财务项目的历史数据积累当中,提取一定数量已知的表示该类型财务项目的原始名称,分别汇合为表示该类型财务项目原始名称的参考集合;对该参考集合当中的原始的财务项目名称进行语法分词,并参照停用词表去除停用词;对于参考集合当中的关键词,根据预设的语料库扩展其同义词,扩充形成由每个关键词及其同义词组成的该类财务项目名称的参考集合;对于从当前的财务报表提取的某一财务项目的原始名称,执行分词、去除停用词和同义词扩展处理,获得待分类的关键词集合,然后查询该关键词集合与每一类型的财务项目名称对应的参考集合相应的匹配度,取匹配度最大的参考集合,根据该参考集合对应的财务项目类型,确认从当前财务报表提取的该财务项目属于与该参考集合对应的财务项目类型。
在一些实施例中,所述财务类型输出模块具体用于:
输出所述财务向量识别模块的匹配结果,对所述匹配结果进行统计并输出所述目标企业的财务类型。
基于上述目的,在本申请的另一个方面,还提出了一种基于大数据的财务分析管理方法,包括:
获取目标企业的多种财务报表的原始表单,所述原始表单包括财务项目以及对应的财务数额;
从所述的多种财务报表的原始表单中提取预定类型的财务项目以及对应的财务数额;
根据所述预定类型的财务项目及对应的财务数额生成财务向量;
将所述财务向量与预先训练的财务向量识别模型进行匹配,以对所述财务向量的类型进行识别;
在确定所述财务向量的类型后输出所述目标企业对应的财务类型。
在一些实施例中,所述预先训练的财务向量识别模型包括多个SVM分类机,所述根据所述预定类型的财务项目及对应的财务数额生成财务向量,具体包括:
根据每个SVM分类机的设定提取对应的财务项目及对应的财务数额,并生成财务向量。
在一些实施例中,所述将所述财务向量与预先训练的财务向量识别模型进行匹配,具体包括:
将所述根据所述预定类型的财务项目及对应的财务数额生成的财务向量输入到对应的SVM分类机中,判断所述根据所述预定类型的财务项目及对应的财务数额生成的财务向量是否与所述SVM分类机对应财务类型匹配。
在一些实施例中,从所述的多种财务报表的原始表单中提取预定类型的财务项目以及对应的财务数额具体包括:首先,建立财务项目名称的参考集合,从历史已经成功从财务报表提取每一类型财务项目的历史数据积累当中,提取一定数量已知的表示该类型财务项目的原始名称,分别汇合为表示该类型财务项目原始名称的参考集合;对该参考集合当中的原始的财务项目名称进行语法分词,并参照停用词表去除停用词。第二步,参考集合当中的关键词,根据预设的语料库扩展其同义词,扩充形成由每个关键词及其同义词组成的该类财务项目名称的参考集合。第三步,对于从当前的财务报表提取的某一财务项目的原始名称,执行分词、去除停用词和同义词扩展处理,获得待分类的关键词集合,然后查询该关键词集合与每一类型的财务项目名称对应的参考集合相应的匹配度,取匹配度最大的参考集合,根据该参考集合对应的财务项目类型,确认从当前财务报表提取的该财务项目属于与该参考集合对应的财务项目类型。更进一步来说,在上述第三步中,计算匹配度如下:
其中,M表示关键词集合与某一个参考集合的匹配度,tk表示待分类的关键词集合,tc表示参考集合;f(tk),f(tc)分别表示关键词集合、参考集合中的词数量,f(tk,tc)表示关键词集合、参考集合二者当中相同的词数量。
本申请实施例提供的一种基于大数据的财务分析管理系统和方法,能够全面提取财务报表中的财务指标,通过将所提取财务指标组织为特征向量并运用分类向量机执行机器学习基础上的综合分析,充分挖掘分析对象在财务信息方面的规律性特征,使分析结果更加全面,同时节约了人力成本。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:
图1是本申请实施例一的基于大数据的财务分析管理系统的结构示意图;
图2是本申请实施例二的基于大数据的财务分析管理系统的结构示意图;
图3是本申请实施例三的基于大数据的财务分析管理方法的流程图。
具体实施方式
下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关发明相关的部分。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
作为本申请的一个实施例,如图1所示,是本申请实施例一的基于大数据的财务分析管理系统的结构示意图。从图中可以看出,本实施例提供的基于大数据的财务分析管理系统,包括:
财务报表获取模块101,用于获取目标企业的多种财务报表的原始表单,所述原始表单包括财务项目以及对应的财务数额。
在本实施例中,所述的目标企业是指对其财务报表进行分析的企业,并根据结果来判断该企业是哪种类型的企业,例如可以根据财务报表中该企业的资产和收入状况,判断它是“投资型企业”,还是“营业型企业”;进而可以对该企业进行评估。每个企业都有在经营过程中的财务报表,所述的财务报表可以有多种,每种财务报表中通常都包括财务项目和对应的数额。所述财务报表通常是表格形式的,例如可以包括两列,第一列是财务项目,例如“营业额”、“应付工资”等,在第二列中对应的位置出列有对应的财务数额。
财务项目提取模块102,用于从所述的多种财务报表的原始表单中提取预定类型的财务项目以及对应的财务数额。
在实施例中,当所述财务报表获取模块101获取到目标企业的财务报表后,需要对财务报表中的预定类型的财务项目和对应的财务数额进行提取,以对目标企业的财务类型进行分析。所述财务项目提取模块102可以基于关键字段从所述原始表单中提取预定类型的财务项目以及对应的财务数额,例如,预设的关键字段为“营业额”和“应付工资”,则所述财务项目提取模块102只提取财务项目为“营业额”和“应付工资”以及各自对应的财务数额。
作为大数据级别的分析,由于信息来源的多样化,财务报表中各个财务项目经常会存在不同的表述方式,包括采用与标准的财务项目名称不符合的习惯名称等等,单纯依靠关键字段检索难以准确提取出财务报表中的财务项目。而且财务报表中各个财务项目名称少则两个字,多也不过七八个字,是非常典型的短文本,且没有上下文的照应;财务报表适应实际需要也经常会发生更新的情况;因此面向海量的财务报表,从中提取出预定类型的财务项目和对应的财务数额经常遇到失效或者错误提取的问题,需要提升正确率。为了实现上述过程中对财务项目实现准确提取和类型判定,财务项目提取模块102可以进一步采取如下手段进行优化:
首先,建立财务项目名称的参考集合,从历史已经成功从财务报表提取每一类型财务项目的历史数据积累当中,提取一定数量已知的表示该类型财务项目的原始名称,分别汇合为表示该类型财务项目原始名称的参考集合;对该参考集合当中的原始的财务项目名称进行语法分词,并参照停用词表去除停用词。第二步,对于参考集合当中的关键词,根据预设的语料库扩展其同义词,扩充形成由每个关键词及其同义词组成的该类财务项目名称的参考集合。第三步,对于从当前的财务报表提取的某一财务项目的原始名称,执行分词、去除停用词和同义词扩展处理,获得待分类的关键词集合,然后查询该关键词集合与每一类型的财务项目名称对应的参考集合相应的匹配度,取匹配度最大的参考集合,根据该参考集合对应的财务项目类型,确认从当前财务报表提取的该财务项目属于与该参考集合对应的财务项目类型。更进一步来说,在上述第三步中,计算匹配度如下:
其中,M表示关键词集合与某一个参考集合的匹配度,tk表示待分类的关键词集合,tc表示参考集合;f(tk),f(tc)分别表示关键词集合、参考集合中的词数量,f(tk,tc)表示关键词集合、参考集合二者当中相同的词数量。
财务向量生成模块103,用于根据所述预定类型的财务项目及对应的财务数额生成财务向量。
在本实施例中,当所述财务项目提取模块102从所述财务报表的原始表单中提取到预定类型的财务项目以及对应的财务数额后,根据提取到的财务项目和对应的财务数额生成财务向量,所述财务向量的维度即为财务项目,所述财务向量中的元素即为各维度的财务项目对应的财务数额,或者,也可以将所述财务项目和所述财务数额整合成财务向量中的元素。
财务向量识别模块104,用于将所述财务向量与预先训练的财务向量识别模型进行匹配,以对所述财务向量的类型进行识别。
在本实施例中,当所述财务向量生成模块103根据所述预定类型的财务项目及对应的财务数额生成财务向量后,所述财务向量识别模块104可以对生成的财务向量进行识别,具体地,可以将生成的财务向量与预先训练的财务向量识别模型进行匹配,若匹配成功,则所述财务向量即为对应的模型财务,若匹配失败,则所述财务向量即不为对应的模型财务。
财务类型输出模块105,用于在确定所述财务向量的类型后输出所述目标企业对应的财务类型。
在本实施例中,当确定目标企业的财务向量对应的模型财务后,可以根据所述模型财务对应财务类型确定所述目标企业的财务类型,并输出所述目标企业的财务类型。
本实施例的基于大数据的财务分析管理系统,根据目标企业的财务报表的原始表单,不需要对原始表单进行任何处理即可输出目标企业的财务类型,实现了财务分析的全自动化,同时能够自动围绕财务指标对财务进行分析,分析结果更加全面,同时节约了人力成本。
需要说明的是,在上述实施例中,所述财务项目提取模块102可以根据需要提取不同的财务类型及其对应的财务数额,并由所述财务向量生成模块103生成财务向量,进而可以由所述财务向量识别模块104对所述目标企业的财务类型进行多角度的识别,所述财务类型输出模块105输出的财务类型也可以是多个类型,使得对目标企业的财务分析更加全面。例如,本实施例中的财务类型可以包括:“投资型企业”和“营业型企业”。
作为本申请的一个可选实施例,如图2所示,是本申请实施例二的基于大数据的财务分析管理系统的结构示意图。在本实施例中,所述基于大数据的财务分析管理系统可以包括:
财务报表获取模块101,用于获取目标企业的多种财务报表的原始表单,所述原始表单包括财务项目以及对应的财务数额;
财务项目提取模块102,用于从所述的多种财务报表的原始表单中提取预定类型的财务项目以及对应的财务数额;
财务向量生成模块103,用于根据所述预定类型的财务项目及对应的财务数额生成财务向量;
财务向量识别模块104,用于将所述财务向量与预先训练的财务向量识别模型进行匹配,以对所述财务向量的类型进行识别;
财务类型输出模块105,用于在确定所述财务向量的类型后输出所述目标企业对应的财务类型。
其中,所述财务向量识别模块104包括多个采用财务向量数据库中的财务向量样本训练的SVM分类机1041(例如图2中示出的SVM分类机1、SVM分类机2)。其中每个SVM分类机1041可以由由不同类型的财务向量样本进行训练得到。
本实施例的工作过程如下:本实施例希望根据10000家目标企业体现其资产和收入状况的多种财务指标进行综合判断,例如判断每家目标企业是“投资型企业”还是“营业型企业”,从而为后续的各种应用提供支撑。首先获取这10000家目标企业的各种财务报表的原始表单(例如每家企业本年度的“利润表”、“资产负债表”两个表单,这样就有20000张原始表单),从20000张原始表单中提取n个预定类型的财务项目及其数额,比如我们要从每个企业的2张原始表单里面提取“营业收入”、“主营业务收入”、“营业利润”、“投资收益”、“营业外收入”、“净利润”、“货币资金”、”固定资产净值”、“无形资产”这9个类型的财务项目及每个项目的数额;将这9个财务项目及其数额整合为一个9维特征向量,作为一个财务数据记录,这样每个企业形成一个9维向量的财务数据记录,一共就有10000个财务数据记录;将该9维特征向量形式的10000个财务数据记录,加入财务大数据仓库。
进而,利用样本数据可以进行财务向量识别模型的训练。其中,人工预先选取500家已经知道是“投资型企业”的企业的财务数据记录,也就是有500个9维特征向量作为样本,把样本输入到初始SVM分类机进行训练,训练后该SVM分类机就成为了一个专门执行“投资型企业”目标分类的SVM分类机;从财务大数据仓库提取该10000家企业的财务数据记录,也就是10000个9维特征向量,使用经过训练的该SVM分类机进行分类,该SVM分类机会判断每一个财务数据记录是否属于“投资型企业”,输出“是”和“否”(1和0)作为分析结论,这样就可以从10000个企业中根据其财务状况的特征,分析出哪些是真正的”投资型企业”。这样,就可以利用训练好的SVM分类机来对企业的财务类型进行识别。
作为本申请的一个可选实施例,所述财务向量数据库中存储不同类型的财务向量样本,每个类型的财务向量样本是根据人工预先选取的预定类型企业的财务报表所生成的财务向量。
作为本申请的一个可选实施例,所述财务项目提取模块具体用于为不同的SVM分类机提取对应的财务项目以及对应的财务数额。
作为本申请的一个可选实施例,所述财务项目提取模块,通过检索多种财务报表的原始表单含有的关键词提取对应的财务项目以及财务数额。
作为本申请的一个可选实施例,所述财务类型输出模块具体用于:
输出所述财务向量识别模块的匹配结果,对所述匹配结果进行统计并输出所述目标企业的财务类型。
如图3所示,是本申请实施例三的基于大数据的财务分析管理方法的流程图。作为本申请的一个实施例,所述基于大数据的财务分析管理方法,包括以下步骤:
S301:获取目标企业的多种财务报表的原始表单,所述原始表单包括财务项目以及对应的财务数额。
S302:从所述的多种财务报表的原始表单中提取预定类型的财务项目以及对应的财务数额。
S303:根据所述预定类型的财务项目及对应的财务数额生成财务向量。
S304:将所述财务向量与预先训练的财务向量识别模型进行匹配,以对所述财务向量的类型进行识别。
S305:在确定所述财务向量的类型后输出所述目标企业对应的财务类型。
本申请的基于大数据的财务分析管理方法能够取得与上述装置实施例相类似的技术效果,这里不再赘述。
作为本申请基于大数据的财务分析管理方法的一个可选实施例,所述预先训练的财务向量识别模型包括多个SVM分类机,所述根据所述预定类型的财务项目及对应的财务数额生成财务向量,具体包括:
根据每个SVM分类机的设定提取对应的财务项目及对应的财务数额,并生成财务向量。
作为本申请基于大数据的财务分析管理方法的一个可选实施例,所述将所述财务向量与预先训练的财务向量识别模型进行匹配,具体包括:
将所述根据所述预定类型的财务项目及对应的财务数额生成的财务向量输入到对应的SVM分类机中,判断所述根据所述预定类型的财务项目及对应的财务数额生成的财务向量是否与所述SVM分类机对应财务类型匹配。
作为本申请基于大数据的财务分析管理方法的一个可选实施例,从所述的多种财务报表的原始表单中提取预定类型的财务项目以及对应的财务数额具体包括:首先,建立财务项目名称的参考集合,从历史已经成功从财务报表提取每一类型财务项目的历史数据积累当中,提取一定数量已知的表示该类型财务项目的原始名称,分别汇合为表示该类型财务项目原始名称的参考集合;对该参考集合当中的原始的财务项目名称进行语法分词,并参照停用词表去除停用词。第二步,参考集合当中的关键词,根据预设的语料库扩展其同义词,扩充形成由每个关键词及其同义词组成的该类财务项目名称的参考集合。第三步,对于从当前的财务报表提取的某一财务项目的原始名称,执行分词、去除停用词和同义词扩展处理,获得待分类的关键词集合,然后查询该关键词集合与每一类型的财务项目名称对应的参考集合相应的匹配度,取匹配度最大的参考集合,根据该参考集合对应的财务项目类型,确认从当前财务报表提取的该财务项目属于与该参考集合对应的财务项目类型。更进一步来说,在上述第三步中,计算匹配度如下:
其中,M表示关键词集合与某一个参考集合的匹配度,tk表示待分类的关键词集合,tc表示参考集合;f(tk),f(tc)分别表示关键词集合、参考集合中的词数量,f(tk,tc)表示关键词集合、参考集合二者当中相同的词数量。
以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本申请中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离上述发明构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。
Claims (9)
1.一种基于大数据的财务分析管理系统,其特征在于,包括:
财务报表获取模块,用于获取目标企业的多种财务报表的原始表单,所述原始表单包括财务项目以及对应的财务数额;
财务项目提取模块,用于从所述的多种财务报表的原始表单中提取预定类型的财务项目以及对应的财务数额;
财务向量生成模块,用于根据所述预定类型的财务项目及对应的财务数额生成财务向量;
财务向量识别模块,用于将所述财务向量与预先训练的财务向量识别模型进行匹配,以对所述财务向量的类型进行识别;
财务类型输出模块,用于在确定所述财务向量的类型后输出所述目标企业对应的财务类型;
所述财务项目提取模块,通过检索多种财务报表的原始表单含有的关键词提取对应的财务项目以及财务数额;
或者,所述财务项目提取模块按照如下方式提取对应的财务项目以及财务数额:建立财务项目名称的参考集合,从历史已经成功从财务报表提取每一类型财务项目的历史数据积累当中,提取一定数量已知的表示该类型财务项目的原始名称,分别汇合为表示该类型财务项目原始名称的参考集合;对该参考集合当中的原始的财务项目名称进行语法分词,并参照停用词表去除停用词;对于参考集合当中的关键词,根据预设的语料库扩展其同义词,扩充形成由每个关键词及其同义词组成的该类财务项目名称的参考集合;对于从当前的财务报表提取的某一财务项目的原始名称,执行分词、去除停用词和同义词扩展处理,获得待分类的关键词集合,然后查询该关键词集合与每一类型的财务项目名称对应的参考集合相应的匹配度,取匹配度最大的参考集合,根据该参考集合对应的财务项目类型,确认从当前财务报表提取的该财务项目属于与该参考集合对应的财务项目类型,
计算匹配度如下:
其中,M表示关键词集合与某一个参考集合的匹配度,tk表示待分类的关键词集合,tc表示参考集合;f(tk),f(tc)分别表示关键词集合、参考集合中的词数量,f(tk,tc)表示关键词集合、参考集合二者当中相同的词数量。
2.根据权利要求1所述的系统,其特征在于,所述财务向量识别模块包括多个采用财务向量数据库中的财务向量样本训练的SVM分类机。
3.根据权利要求2所述的系统,其特征在于,所述财务向量识别模型中的每个SVM分类机分别由不同类型的财务向量样本进行训练得到。
4.根据权利要求3所述的系统,其特征在于,所述财务向量数据库存中储不同类型的财务向量样本,每个类型的财务向量样本是根据人工预先选取的预定类型企业的财务报表所生成的财务向量。
5.根据权利要求4所述的系统,其特征在于,所述财务项目提取模块具体用于:
根据不同的SVM分类机提取对应的财务项目以及对应的财务数额。
6.根据权利要求1所述的系统,其特征在于,所述财务类型输出模块具体用于:
输出所述财务向量识别模块的匹配结果,对所述匹配结果进行统计并输出所述目标企业的财务类型。
7.一种基于大数据的财务分析管理方法,其特征在于,包括:
获取目标企业的多种财务报表的原始表单,所述原始表单包括财务项目以及对应的财务数额;
从所述的多种财务报表的原始表单中提取预定类型的财务项目以及对应的财务数额;
根据所述预定类型的财务项目及对应的财务数额生成财务向量;
将所述财务向量与预先训练的财务向量识别模型进行匹配,以对所述财务向量的类型进行识别;
在确定所述财务向量的类型后输出所述目标企业对应的财务类型;
财务项目提取模块,通过检索多种财务报表的原始表单含有的关键词提取对应的财务项目以及财务数额;
或者,所述财务项目提取模块按照如下方式提取对应的财务项目以及财务数额:建立财务项目名称的参考集合,从历史已经成功从财务报表提取每一类型财务项目的历史数据积累当中,提取一定数量已知的表示该类型财务项目的原始名称,分别汇合为表示该类型财务项目原始名称的参考集合;对该参考集合当中的原始的财务项目名称进行语法分词,并参照停用词表去除停用词;对于参考集合当中的关键词,根据预设的语料库扩展其同义词,扩充形成由每个关键词及其同义词组成的该类财务项目名称的参考集合;对于从当前的财务报表提取的某一财务项目的原始名称,执行分词、去除停用词和同义词扩展处理,获得待分类的关键词集合,然后查询该关键词集合与每一类型的财务项目名称对应的参考集合相应的匹配度,取匹配度最大的参考集合,根据该参考集合对应的财务项目类型,确认从当前财务报表提取的该财务项目属于与该参考集合对应的财务项目类型,
计算匹配度如下:
其中,M表示关键词集合与某一个参考集合的匹配度,tk表示待分类的关键词集合,tc表示参考集合;f(tk),f(tc)分别表示关键词集合、参考集合中的词数量,f(tk,tc)表示关键词集合、参考集合二者当中相同的词数量。
8.根据权利要求7 所述的方法,其特征在于,所述预先训练的财务向量识别模型包括多个SVM分类机,所述根据所述预定类型的财务项目及对应的财务数额生成财务向量,具体包括:
根据每个SVM分类机的设定提取对应的财务项目及对应的财务数额,并生成财务向量。
9.根据权利要求8 所述的方法,其特征在于,所述将所述财务向量与预先训练的财务向量识别模型进行匹配,具体包括:
将所述根据所述预定类型的财务项目及对应的财务数额生成的财务向量输入到对应的SVM分类机中,判断所述根据所述预定类型的财务项目及对应的财务数额生成的财务向量是否与所述SVM分类机对应财务类型匹配。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810382074.4A CN108563783B (zh) | 2018-04-25 | 2018-04-25 | 一种基于大数据的财务分析管理系统及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810382074.4A CN108563783B (zh) | 2018-04-25 | 2018-04-25 | 一种基于大数据的财务分析管理系统及方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108563783A CN108563783A (zh) | 2018-09-21 |
CN108563783B true CN108563783B (zh) | 2022-04-12 |
Family
ID=63536804
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810382074.4A Expired - Fee Related CN108563783B (zh) | 2018-04-25 | 2018-04-25 | 一种基于大数据的财务分析管理系统及方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108563783B (zh) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110222336A (zh) * | 2019-05-22 | 2019-09-10 | 深圳壹账通智能科技有限公司 | 财务报告分析方法、装置、计算机设备和存储介质 |
CN110543475A (zh) * | 2019-08-29 | 2019-12-06 | 深圳市原点参数科技有限公司 | 一种基于机器学习的财务报表数据自动识别和分析方法 |
CN111190973A (zh) * | 2019-12-31 | 2020-05-22 | 税友软件集团股份有限公司 | 一种申报表的分类方法、装置、设备及存储介质 |
CN111768283A (zh) * | 2020-07-01 | 2020-10-13 | 厦门力含信息技术服务有限公司 | 一种改进型协同过滤算法模型的财务大数据分析方法 |
CN112464631A (zh) * | 2020-12-08 | 2021-03-09 | 中国工商银行股份有限公司 | 一种报表导出方法、装置和设备 |
CN113297849B (zh) * | 2021-05-17 | 2023-05-09 | 陕西合友网络科技有限公司 | 基于区块链技术的财务预提费用管理方法 |
CN114493820B (zh) * | 2022-04-14 | 2022-07-05 | 国网浙江省电力有限公司绍兴供电公司 | 适用于财务数据的关联验证式采集方法、装置及存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106504079A (zh) * | 2016-09-22 | 2017-03-15 | 江苏富山企业服务有限公司 | 一种综合式财务管理方法及其管理平台 |
CN106530069A (zh) * | 2016-11-03 | 2017-03-22 | 山东中创软件工程股份有限公司 | 一种财务数据的分析方法及系统 |
CN107292744A (zh) * | 2017-06-07 | 2017-10-24 | 前海梧桐(深圳)数据有限公司 | 基于机器学习的投资趋势分析方法及其系统 |
CN107403375A (zh) * | 2017-04-19 | 2017-11-28 | 北京文因互联科技有限公司 | 一种基于深度学习的上市公司公告分类及摘要生成方法 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20040215551A1 (en) * | 2001-11-28 | 2004-10-28 | Eder Jeff S. | Value and risk management system for multi-enterprise organization |
US20130325681A1 (en) * | 2009-01-21 | 2013-12-05 | Truaxis, Inc. | System and method of classifying financial transactions by usage patterns of a user |
KR101661699B1 (ko) * | 2015-08-24 | 2016-09-30 | 김주호 | 회계 및 재무 정보 생성을 통한 경영 관리 시스템 및 방법 |
CN106803204A (zh) * | 2017-01-17 | 2017-06-06 | 上海聚赟大数据有限公司 | 一种基于机器学习的债券发行人违约分析方法 |
CN106649890B (zh) * | 2017-02-07 | 2020-07-14 | 税云网络科技服务有限公司 | 数据存储方法和装置 |
CN107066599B (zh) * | 2017-04-20 | 2021-11-30 | 北京文因互联科技有限公司 | 一种基于知识库推理的相似上市公司企业检索分类方法及系统 |
-
2018
- 2018-04-25 CN CN201810382074.4A patent/CN108563783B/zh not_active Expired - Fee Related
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106504079A (zh) * | 2016-09-22 | 2017-03-15 | 江苏富山企业服务有限公司 | 一种综合式财务管理方法及其管理平台 |
CN106530069A (zh) * | 2016-11-03 | 2017-03-22 | 山东中创软件工程股份有限公司 | 一种财务数据的分析方法及系统 |
CN107403375A (zh) * | 2017-04-19 | 2017-11-28 | 北京文因互联科技有限公司 | 一种基于深度学习的上市公司公告分类及摘要生成方法 |
CN107292744A (zh) * | 2017-06-07 | 2017-10-24 | 前海梧桐(深圳)数据有限公司 | 基于机器学习的投资趋势分析方法及其系统 |
Also Published As
Publication number | Publication date |
---|---|
CN108563783A (zh) | 2018-09-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108563783B (zh) | 一种基于大数据的财务分析管理系统及方法 | |
US9990356B2 (en) | Device and method for analyzing reputation for objects by data mining | |
Ur-Rahman et al. | Textual data mining for industrial knowledge management and text classification: A business oriented approach | |
CN108153729B (zh) | 一种面向金融领域的知识抽取方法 | |
CN112347254B (zh) | 新闻文本的分类方法、装置、计算机设备和存储介质 | |
CN114238655A (zh) | 企业关联关系识别方法、装置、设备及介质 | |
CN115794803A (zh) | 一种基于大数据ai技术的工程审计问题监测方法与系统 | |
CN108734021B (zh) | 一种基于去隐私数据的金融贷款大数据风险评估方法与系统 | |
Jaiswal et al. | Data Mining Techniques and Knowledge Discovery Database | |
CN116452212B (zh) | 一种智能客服商品知识库信息管理方法及系统 | |
CN110597796B (zh) | 基于全生命周期的大数据实时建模方法及系统 | |
CN116049376B (zh) | 一种信创知识检索回复的方法、装置和系统 | |
CN112269956A (zh) | 一种基于机器学习引擎的农业大数据搜索结果呈现的方法和装置 | |
Jeyaraman et al. | Practical Machine Learning with R: Define, build, and evaluate machine learning models for real-world applications | |
Heidari et al. | Financial footnote analysis: developing a text mining approach | |
CN114756685A (zh) | 一种投诉单的投诉风险识别方法及装置 | |
CN111027296A (zh) | 基于知识库的报表生成方法及系统 | |
Wyskwarski | Business intelligence-publication analysis using the R language | |
Januzaj et al. | An application of data mining to identify data quality problems | |
EP4120097A1 (en) | Systems and methods for intelligent automatic filing of documents in a content management system | |
Ur-Rahman | Textual Data Mining for Knowledge Discovery and Data Classification: A Comparative Study | |
Kordon et al. | Data Preparation | |
VARULE et al. | Know About Company | |
Avdeenko et al. | Information technology for decision-making based on integration of case base and the domain ontology | |
Suadaa et al. | Automatic Text Categorization to Standard Classification of Indonesian Business Fields (KBLI) 2020 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20220412 |