CN110348974A - 财务报表处理方法和装置 - Google Patents
财务报表处理方法和装置 Download PDFInfo
- Publication number
- CN110348974A CN110348974A CN201910423833.1A CN201910423833A CN110348974A CN 110348974 A CN110348974 A CN 110348974A CN 201910423833 A CN201910423833 A CN 201910423833A CN 110348974 A CN110348974 A CN 110348974A
- Authority
- CN
- China
- Prior art keywords
- financial statement
- financial
- data
- field
- processed
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
- G06F16/2282—Tablespace storage structures; Management thereof
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2455—Query execution
- G06F16/24564—Applying rules; Deductive queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2462—Approximate or statistical queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/12—Accounting
- G06Q40/125—Finance or payroll
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- General Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Finance (AREA)
- Accounting & Taxation (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Probability & Statistics with Applications (AREA)
- Economics (AREA)
- Strategic Management (AREA)
- Technology Law (AREA)
- General Business, Economics & Management (AREA)
- Marketing (AREA)
- Development Economics (AREA)
- Fuzzy Systems (AREA)
- Mathematical Physics (AREA)
- Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)
Abstract
本发明公开了一种财务报表处理方法和装置,涉及大数据领域。该财务报表处理方法包括:预先基于已存储的各企业的财务报表创建专业词汇库,所述专业词汇库中包含字段模板,每个所述字段模板关联多个模糊匹配字段;将待处理财务报表中的各数据字段分别与所述专业词汇库中的字段模板进行匹配,并且根据所述匹配的结果对所述待处理财务报表进行归一化存储;按照预设分析规则,对归一化存储的所述待处理财务报表中的多个数据字段进行关联计算,并且根据所述关联计算的结果生成财务分析报表。本发明实施例提供的技术方案能够解决现有技术中财务报表数据利用率低的问题。
Description
【技术领域】
本发明涉及大数据领域,尤其涉及一种财务报表处理方法和装置。
【背景技术】
财务报表是反映企业或预算单位一定时期内资金、利润状况的会计报表,具有统一的格式、类型,要求企业定期编报。
目前对企业财报数据的使用往往处于比较初级的阶段,多停留在查看财务报表所披露的数据的程度,比如根据财务报表查看企业的营收情况等。如果需要对财务报表进行深入分析,多通过专业的财会人员人工作业,然而分析结果又受限于分析人员的经验水平。
基于上述原因导致财务报表数据的利用率比较低。
【发明内容】
有鉴于此,本发明实施例提供了一种财务报表处理方法和装置,用以解决现有技术中财务报表数据利用率比较低的问题。
一方面,本发明实施例提供了一种财务报表处理方法,所述方法包括:
预先基于已存储的各企业的财务报表创建专业词汇库,所述专业词汇库中包含字段模板,每个所述字段模板关联多个模糊匹配字段;
将待处理财务报表中的各数据字段分别与所述专业词汇库中的字段模板进行匹配,并且根据所述匹配的结果对所述待处理财务报表进行归一化存储;其中,当所述待处理财务报表中的数据字段与所对应的字段模板所关联的多个模糊匹配字段中的其中一个匹配时,将所述数据字段归一化存储为其所匹配的模糊匹配字段所对应的字段模板;
按照预设分析规则,对归一化存储的所述待处理财务报表中的多个数据字段进行关联计算,并且根据所述关联计算的结果生成财务分析报表。
进一步地,基于已存储的各企业的财务报表创建专业词汇库,包括:
采用网络爬虫技术从互联网络中爬取已公开的各企业的财务报表;
对爬取的所述各企业的财务报表分类;
分别对每类财务报表中的各数据字段进行识别并且将从每类财务报表中识别出的数据字段作为模糊匹配字段关联至对应的字段模板;
对从各类财务报表中得到的模糊匹配字段和字段模板的关联关系进行汇总得到所述专业词汇库。
进一步地,所述按照预设分析规则,对归一化存储的所述待处理财务报表中的多个数据字段进行关联计算,并且根据所述关联计算的结果生成财务分析报表,包括:
从一份或多份归一化存储的待处理财务报表中提取多个数据字段;
根据提取的所述多个数据字段计算财务统计数据;
将所述财务统计数据与对照组统计值进行比对,得到财务分析报表。
进一步地,所述根据提取的所述多个数据字段计算财务统计数据,包括:
根据财务报表中的收入数据计算业务收益数据;
根据财务报表中的资产负债数据计算资产周转数据。
进一步地,所述财务报表为PDF格式,识别PDF格式的财务报表中的数据字段,包括:
将PDF格式的财务报表转换为灰阶图像文件;
对所述灰阶图像文件中的数据部分进行解析并保存为二维数组;
采用表格分割线扫描算法对所述二维数组中的表格区域进行识别,根据识别的结果进行表格的分割;
对分割的表格中的各个单元格区域中的数据字段进行定位识别。
一方面,本发明实施例提供了一种财务报表处理装置,所述装置包括:
词汇库创建模块,用于预先基于已存储的各企业的财务报表创建专业词汇库,所述专业词汇库中包含字段模板,每个所述字段模板关联多个模糊匹配字段;
归一化存储模块,用于将待处理财务报表中的各数据字段分别与所述专业词汇库中的字段模板进行匹配,并且根据所述匹配的结果对所述待处理财务报表进行归一化存储;其中,当所述待处理财务报表中的数据字段与所对应的字段模板所关联的多个模糊匹配字段中的其中一个匹配时,将所述数据字段归一化存储为其所匹配的模糊匹配字段所对应的字段模板;
关联计算模块,用于按照预设分析规则,对归一化存储的所述待处理财务报表中的多个数据字段进行关联计算,并且根据所述关联计算的结果生成财务分析报表。
进一步地,所述词汇库创建模块,包括:
数据爬取单元,用于采用网络爬虫技术从互联网络中爬取已公开的各企业的财务报表;
分类单元,用于对爬取的所述各企业的财务报表分类;
识别单元,用于分别对每类财务报表中的各数据字段进行识别并且将从每类财务报表中识别出的数据字段作为模糊匹配字段关联至对应的字段模板;
汇总单元,用于对从各类财务报表中得到的模糊匹配字段和字段模板的关联关系进行汇总得到所述专业词汇库。
进一步地,所述关联计算模块,包括:
数据提取单元,用于从一份或多份归一化存储的待处理财务报表中提取多个数据字段;
数据计算单元,用于根据提取的所述多个数据字段计算财务统计数据;
比对单元,用于将所述财务统计数据与对照组统计值进行比对,得到财务分析报表。
一方面,本发明实施例提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述财务报表处理方法的步骤。
一方面,本发明实施例提供了一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述财务报表处理方法的步骤。
在本发明实施例中,将企业的财务报表按照字段模板归一化存储后,按照预设分析规则从一份或多份财务报表中提取不同的数据字段,并根据数据字段之间的关联关系进行分析计算得到财务分析报表,由此以实现对财务报表数据更深层次的使用,提高财务报表中数据的利用率。
【附图说明】
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其它的附图。
图1是本发明实施例提供的一种可选的财务报表处理方法的流程图;
图2是本发明实施例提供的一种可选的财务报表处理装置的示意图;
图3是本发明实施例提供的一种可选的计算机设备的示意图。
【具体实施方式】
为了更好的理解本发明的技术方案,下面结合附图对本发明实施例进行详细描述。
应当明确,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
在本发明实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本发明。在本发明实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。
应当理解,本文中使用的术语“和/或”仅仅是一种描述关联对象的相同的字段,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
应当理解,尽管在本发明实施例中可能采用术语第一、第二、第三等来描述预设范围等,但这些预设范围不应限于这些术语。这些术语仅用来将预设范围彼此区分开。例如,在不脱离本发明实施例范围的情况下,第一预设范围也可以被称为第二预设范围,类似地,第二预设范围也可以被称为第一预设范围。
取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于检测”。类似地,取决于语境,短语“如果确定”或“如果检测(陈述的条件或事件)”可以被解释成为“当确定时”或“响应于确定”或“当检测(陈述的条件或事件)时”或“响应于检测(陈述的条件或事件)”。
图1是本发明实施例提供的一种可选的财务报表处理方法的流程图。如图1所示,该方法包括:
步骤S101:预先基于已存储的各企业的财务报表创建专业词汇库,所述专业词汇库中包含字段模板,每个所述字段模板关联多个模糊匹配字段。
步骤S102:将待处理财务报表中的各数据字段分别与所述专业词汇库中的字段模板进行匹配,并且根据所述匹配的结果对所述待处理财务报表进行归一化存储。
由于各个企业的财务报表在格式基本统一的基础上略有差别,本发明实施例中基于字段模板采用模糊匹配规则对各个企业的财务报表进行归一化存储,即将同一种专业术语的不同表述综合为统一表述。具体的,将待处理财务报表中的各数据字段分别与专业词汇库中的字段模板进行匹配以及根据匹配的结果对待处理财务报表归一化存储的方式包括:当待处理财务报表中的数据字段与所对应的字段模板所关联的多个模糊匹配字段中的其中一个匹配时,将所述数据字段归一化存储为其所匹配的模糊匹配字段所对应的字段模板。
步骤S103:按照预设分析规则,对归一化存储的所述待处理财务报表中的多个数据字段进行关联计算,并且根据所述关联计算的结果生成财务分析报表。
在本发明实施例中,上述的待处理财务报表可以为一份报表也可以为来自同一或不同企业的多份财务报表。在本发明设计中,将企业的待处理财务报表按照字段模板归一化存储后,按照专家规则从一份或多份财务报表中提取不同的字段进行分析计算,所述专家规则指多个归一化后的数据字段之间的关联关系,根据所述分析计算的结果获得财务分析报表,以实现对财务报表数据更深层次的使用。
在本发明实施例中,由于不同企业的财务报表对相同专业术语会有不同表述,但对于某一专业术语的不同表述有一定的范围,在本发明实施例中预先创建专业词汇库,在所述专业词汇库中将专业术语可能存在的描述(对应模糊匹配字段)统一指向其所对应的唯一的专业术语,即形成多对一关系;在对待处理财务报表进行处理时,可以首先基于所述专业词汇库对待处理财务报表归一化存储,之后再进行预设分析。
在本发明实施例中,创建所述专业词汇库的方式包括:
(1)采用网络爬虫技术从互联网络中爬取已公开的各企业的财务报表,并且对爬取的所述各企业的财务报表进行分类存储。
基于网络爬虫技术,如python爬虫,从互联网上爬取已公开的各企业财务报表,并将获取的各企业财务报表导入存储系统中存储,如存储在HDFS集群中。
在本发明实施例方案中,在对爬取的各企业财务报表存储时,可以对财务报表进行预分类,例如,按照时间分类,可以分为月份、季度、半年期和年度财务报表;按照报表类型可以分为资产负债表、利润表和现金流量表等;按照重要程度可以分为主表和附表等。可选的,可以按照企业财务报表的类型分别存储,以使相同类别的财务报表存储至同一存储系统中,实现财务报表的集中存储和管理。在后续处理时,由于同一存储系统的财务报表类型相同,可以提高处理的针对性,提高后续处理效率。
(2)分别对每类财务报表中的各数据字段进行识别并且将从每类财务报表中识别出的数据字段作为模糊匹配字段关联至对应的字段模板。
一般的,从互联网直接爬取的企业财务报表是原生的PDF财报,此时需要对PDF财报进行分割和文本识别,从而提取财务报表中的词汇。
具体的,对PDF财报进行分割和文本识别的方式可以是:首先识别财务报表中的表格之后再对所述表格中的数据字段进行识别。例如:对PDF格式的财务报表中数据字段的识别,包括:将PDF格式的财务报表转换为灰阶图像文件;对所述灰阶图像文件中的数据部分进行解析并保存为二维数组;采用表格分割线扫描算法对所述二维数组中的表格区域进行识别,根据识别的结果进行表格的分割;对分割的表格中的各个单元格区域中的数据字段进行定位识别。
本发明实施例中在提取财务报表中的数据时,先识别财务报表中的表格之后对识别出的表格中的数据字段进行模糊匹配,由此以提高财务报表中数据的处理效率。
(3)对从各类财务报表中得到的模糊匹配字段和字段模板的关联关系进行汇总得到所述专业词汇库。
在本发明实施例中,对各类财务报表的数据字段进行识别后,基于所识别数据字段生成专业词汇库包括:结合财务报表词汇的语义分析,如根据财务报表词汇的计算公式、附注等,将获取得到的财报报表词汇进行分类,对于同一类别的财报报表词汇构建一专业词汇子集,并定义统一中文名称,最终得到专业词汇集合库,该专业词汇库中包括若干专业词汇子集,其涵盖了财务报表专业领域内各种术语表述。例如,词汇A、词汇B和词汇N中均包括多种描述的表达,当某一企业财务报表中的表达与专业词汇集合中的词汇匹配时,即可将其归一为统一表述,能够有效解决不同企业财务报表中词汇表达不同的问题。此外,还可以针对统一表述的专业词汇定义英文简称,该英文简称为唯一定义,与专业词汇库中的中文表述也形成一对多映射关系。通过定义英文简称,可以实现多语言财务报表处理。
因此可见,基于该专业词汇库可以对任何一份财务报表进行快速分析,提取出其中关键内容,避免人工编写解析代码,能够有效提高财务报表的分析效率。
对于财务报表的分析:当接收到待处理财务报表时,可以基于构建的专业词汇库,确定待处理财务报表中涉及的各项财报词汇,并根据用户提供的分析规则,配置财报输出的范围、结构和内容等参数,最后得到结构化财报,实现对任一份财务报表的快速分析。具体的,可以通过语法结构简单且层次结构清洗的JSON技术来实现输出结构化财务报表,以便网络传输、机器阅读及大数据分析使用。当待处理财务报表输入后,通过专业词汇库进行匹配,解析出待处理财务报表所涉及的财报数据类别,并根据用户设定的分析规则进行输出配置,最后输出满足用户要求的结构化财报。
在一种可能的设计中,对待处理财务报表中进行关联分析以及生成结构化的财务分析报表,包括:从一份或多份归一化存储的待处理财务报表中提取多个数据字段;根据提取的所述多个数据字段计算财务统计数据;将所述财务统计数据与对照组统计值进行比对,得到财务分析报表。
其中,上述根据提取的多个数据字段计算财务统计数据,包括:根据财务报表中的收入数据计算业务收益数据;根据财务报表中的资产负债数据计算资产周转数据。
在一个具体方式中,企业的利润报表中包含一些基本字段,比如:主营业务收入,主营业务税金及附加,主营业务利润,其他业务利润,营业费用,管理费用,财务费用,补贴收入等等。基于这些基本财报数据,进行指标化加工,最终输出的指标有:净资产收益率,总资产报酬率,销售(营业)利润率,盈余现金保障倍数,成本费用利润率等。
在企业的资产负债报表中包括以下基本字段:资产类流动资产(合计)年初数,资产类货币资金期末数,资产类应收账款年初数,资产类应收账款期末数,资产类存货年初数,资产类存货期末数,固定资产(合计)年初数,固定资产(合计)期末数等等。基于这些基本财报数据,生成以下指标:总资产周转率,应收账款周转率,不良资产比率,流动资产周转率等。
在根据待处理财务报表中的数据字段得到财务统计数据后,可以进一步基于预设分析规则将所述财务统计数据与对照组统计值进行比对以得到结构化的财务分析报表,例如将得到的财务统计数据与行业统计值进行比对,以得到结构化的财务分析报表,在结构化财务分析报表中可以包括企业的盈利能力状况、资产质量状况、债务风险状况、经营增长状况等,通过该财务分析报表可以直观、深层次得到企业财务状况。
在一个具体实施例中,根据本发明实施例方法对某公司的财务报表归一化存储后,对归一化存储的数据字段进行关联分析后输出结构化财务分析报表,所述结构化分析报表的企业盈利能力状况包括该公司净资产收益率、总资产报酬率、销售(营业)利润率、盈余现金保障倍数、成本费用利润率、资本收益率等统计数据与行业统计数据的比较分析,由此以基于该财务分析报表得到该公司的盈利能力状况。
具体示例:某有限公司的盈利能力状况
某有限公司2017年净资产收益率(%)为1.58%,低于行业平均值2.6%,高于行业较低值-7.1%。
总资产报酬率(%)为402.47%,高于行业优秀值4.9%。
销售(营业)利润率(%)为18.93%,高于行业优秀值14.5%。
盈余现金保障倍数为3.195352476E7,高于行业优秀值5.7。
成本费用利润率(%)为28.15%,高于行业优秀值4.5%。
资本收益率(%)为9.21%,高于行业良好值6.3%,低于行业最优值11.0%。
盈利能力状况
盈余现金保障倍数
进一步的,在上述公司的结构化分析报表的资产质量状况中包括总资产周转率、应收账款周转率、不良资产比率、流动资产周转率、资产现金回收率等统计数据与行业统计数据的比较分析,由此以基于该财务分析报表得到该公司的资产质量状况。
具体示例:某有限公司的资产质量状况
某有限公司2017年总资产周转率(次)为8.74次,高于行业优秀值4.6次。
应收账款周转率(次)为5.95次,低于行业平均值8.7次,高于行业较低值5.4次。
不良资产比率(新制度)(%)为180.0%,劣于行业较差值46.6%。
流动资产周转率(次)为1.39次,低于行业平均值2.6次,高于行业较低值1.2次。
资产现金回收率(%)为4.4734934664E9%,高于行业优秀值8.2%。
进一步的,在上述公司的结构化分析报表的债务风险状况中包括资产负债率、已获利息倍数、速动比率、现金流动负债比率、带息负债比率、有负债比率等统计数据与行业统计数据的比较分析,由此以基于该财务分析报表得到该公司的债务风险状况。
具体示例:某有限公司的债务风险状况
某有限公司2017年资产负债率(%)为1520.0%,劣于行业较差值89.5%。
已获利息倍数为1.87,高于行业平均值1.0,低于行业良好值2.8。
速动比率(%)为13.85%,低于行业较差值47.5%。
现金流动负债比率(%)为3.4411488203E8%,高于行业优秀值17.5%。
带息负债比率(%)为1334.21%,劣于行业较差值74.4%。
有负债比率(%)为0.0%,优于行业优秀值1.9%。
进一步的,在上述公司的结构化分析报表的经营增长状况中包括销售(营业)增长率、资本保值增值率、销售(营业)利润增长率、总资产增长率、技术投入比率等统计数据与行业统计数据的比较分析,由此以基于该财务分析报表得到该公司的经营增长状况。
具体示例:某有限公司的经营增长状况
某有限公司2017年销售(营业)增长率(%)为-63.8%,低于行业较差值-13.0%。
资本保值增值率(%)为0.0%,低于行业较差值85.7%。
销售(营业)利润增长率(%)为644.44%,高于行业优秀值31.8%。
总资产增长率(%)为0.0%,低于行业平均值0.6%,高于行业较低值-13.6%。
技术投入比率(%)为153.95%,高于行业平均值5.3%。
本发明实施例中,使用预设规则对财务报表进行分析统计,实现对财务报表数据更深层次的使用,具体的该方案具有以下有益效果:1.利用网络爬虫技术从互联网中爬取已公开的财务报表,并基于爬取的财务报表建立专业词汇库;2.基于创建的专业词汇库采用模糊匹配方式对财务报表数据归一化存储,以利于对财务报表数据的规范管理和深层次使用;3.采用预设规则对归一化存储的财务报表中的关键数据进行分析处理,基于预设规则找出财务数据之间的内在联系,对财务数据二次加工,形成自动化输出的财务分析报表,实现企业财务报表数据的自动分析。
以下将详细描述本发明的一个或多个实施例的财务报表处理装置。本领域技术人员可以理解,这些财务报表处理装置均可使用市售的硬件组件通过本方案所教导的步骤进行配置来构成。
图2是本发明实施例提供的一种可选的财务报表处理装置的示意图。该装置用于执行上述财务报表处理方法,如图2所示,该装置包括:
词汇库创建模块11,用于预先基于已存储的各企业的财务报表创建专业词汇库,所述专业词汇库中包含字段模板,每个所述字段模板关联多个模糊匹配字段;
归一化存储模块12,用于将待处理财务报表中的各数据字段分别与所述专业词汇库中的字段模板进行匹配,并且根据所述匹配的结果对所述待处理财务报表进行归一化存储;其中,当所述待处理财务报表中的数据字段与所对应的字段模板所关联的多个模糊匹配字段中的其中一个匹配时,将所述数据字段归一化存储为其所匹配的模糊匹配字段所对应的字段模板;
关联计算模块13,用于按照预设分析规则,对归一化存储的所述待处理财务报表中的多个数据字段进行关联计算,并且根据所述关联计算的结果生成财务分析报表。
进一步地,所述词汇库创建模块11,包括:
数据爬取单元,用于采用网络爬虫技术从互联网络中爬取已公开的各企业的财务报表;
分类单元,用于对爬取的所述各企业的财务报表分类;
识别单元,用于分别对每类财务报表中的各数据字段进行识别并且将从每类财务报表中识别出的数据字段作为模糊匹配字段关联至对应的字段模板;
汇总单元,用于对从各类财务报表中得到的模糊匹配字段和字段模板的关联关系进行汇总得到所述专业词汇库。
进一步地,所述关联计算模块13,包括:
数据提取单元,用于从一份或多份归一化存储的待处理财务报表中提取多个数据字段;
数据计算单元,用于根据提取的所述多个数据字段计算财务统计数据;
比对单元,用于将所述财务统计数据与对照组统计值进行比对,得到财务分析报表。
数据计算单元根据提取的所述多个数据字段计算财务统计数据,具体包括:
根据财务报表中的收入数据计算业务收益数据;根据财务报表中的资产负债数据计算资产周转数据。
在本发明实施例中,所述财务报表为PDF格式,识别单元识别PDF格式的财务报表中的数据字段,具体包括:将PDF格式的财务报表转换为灰阶图像文件;对所述灰阶图像文件中的数据部分进行解析并保存为二维数组;采用表格分割线扫描算法对所述二维数组中的表格区域进行识别,根据识别的结果进行表格的分割;对分割的表格中的各个单元格区域中的数据字段进行定位识别。
在本发明实施例中,将企业的财务报表按照字段模板归一化存储后,按照预设分析规则从一份或多份财务报表中提取不同的数据字段,并根据数据字段之间的关联关系进行分析计算得到财务分析报表,由此以实现对财务报表数据更深层次的使用,提高财务报表中数据的利用率。
图2所示装置可以执行图1所示实施例的方法,本实施例未详细描述的部分,可参考对图1所示实施例的相关说明。该技术方案的执行过程和技术效果参见图1所示实施例中的描述,在此不再赘述。
进一步,本发明实施例提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述财务报表处理方法的以下步骤:
预先基于已存储的各企业的财务报表创建专业词汇库,所述专业词汇库中包含字段模板,每个所述字段模板关联多个模糊匹配字段;
将待处理财务报表中的各数据字段分别与所述专业词汇库中的字段模板进行匹配,并且根据所述匹配的结果对所述待处理财务报表进行归一化存储;其中,当所述待处理财务报表中的数据字段与所对应的字段模板所关联的多个模糊匹配字段中的其中一个匹配时,将所述数据字段归一化存储为其所匹配的模糊匹配字段所对应的字段模板;
按照预设分析规则,对归一化存储的所述待处理财务报表中的多个数据字段进行关联计算,并且根据所述关联计算的结果生成财务分析报表。
可选地,计算机程序指令被处理器加载并执行时还实现以下步骤:基于已存储的各企业的财务报表创建专业词汇库,包括:采用网络爬虫技术从互联网络中爬取已公开的各企业的财务报表;对爬取的所述各企业的财务报表分类;分别对每类财务报表中的各数据字段进行识别并且将从每类财务报表中识别出的数据字段作为模糊匹配字段关联至对应的字段模板;对从各类财务报表中得到的模糊匹配字段和字段模板的关联关系进行汇总得到所述专业词汇库。
可选地,计算机程序指令被处理器加载并执行时还实现以下步骤:所述按照预设分析规则,对归一化存储的所述待处理财务报表中的多个数据字段进行关联计算,并且根据所述关联计算的结果生成财务分析报表,包括:从一份或多份归一化存储的待处理财务报表中提取多个数据字段;根据提取的所述多个数据字段计算财务统计数据;将所述财务统计数据与对照组统计值进行比对,得到财务分析报表。
可选地,计算机程序指令被处理器加载并执行时还实现以下步骤:所述根据提取的所述多个数据字段计算财务统计数据,包括:根据财务报表中的收入数据计算业务收益数据;根据财务报表中的资产负债数据计算资产周转数据。
可选地,计算机程序指令被处理器加载并执行时还实现以下步骤:所述财务报表为PDF格式,识别PDF格式的财务报表中的数据字段,包括:将PDF格式的财务报表转换为灰阶图像文件;对所述灰阶图像文件中的数据部分进行解析并保存为二维数组;采用表格分割线扫描算法对所述二维数组中的表格区域进行识别,根据识别的结果进行表格的分割;对分割的表格中的各个单元格区域中的数据字段进行定位识别。
图2描述了财务报表处理装置的内部功能和结构,在一个可能的设计中,财务报表处理装置的结构可实现为一计算机设备,该计算机设备可以为银行系统中的处理设备。图3是本发明实施例提供的一种计算机设备的示意图。如图3所示,该实施例的计算机设备包括:处理器21、存储器22以及存储在存储器22中并可在处理器21上运行的计算机程序23,该计算机程序23被处理器21执行时实现实施例中的财务报表处理方法,为避免重复,此处不一一赘述。或者,该计算机程序被处理器21执行时实现实施例中财务报表处理装置中各模型/单元的功能,为避免重复,此处不一一赘述。
计算机设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。计算机设备可包括,但不仅限于,处理器21、存储器22。本领域技术人员可以理解,图3仅仅是计算机设备的示例,并不构成对计算机设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如计算机设备还可以包括输入输出设备、网络接入设备、总线等。
所称处理器21可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
存储器22可以是计算机设备的内部存储单元,例如计算机设备的硬盘或内存。存储器22也可以是计算机设备的外部存储设备,例如计算机设备上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,存储器22还可以既包括计算机设备的内部存储单元也包括外部存储设备。存储器22用于存储计算机程序以及计算机设备所需的其他程序和数据。存储器22还可以用于暂时地存储已经输出或者将要输出的数据。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本发明所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
上述以软件功能单元的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中,包括若干指令用以使得一台计算机装置(可以是个人计算机,服务器,或者网络装置等)或处理器(Processor)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。
Claims (10)
1.一种财务报表处理方法,其特征在于,所述方法包括:
预先基于已存储的各企业的财务报表创建专业词汇库,所述专业词汇库中包含字段模板,每个所述字段模板关联多个模糊匹配字段;
将待处理财务报表中的各数据字段分别与所述专业词汇库中的字段模板进行匹配,并且根据所述匹配的结果对所述待处理财务报表进行归一化存储;其中,当所述待处理财务报表中的数据字段与所对应的字段模板所关联的多个模糊匹配字段中的其中一个匹配时,将所述数据字段归一化存储为其所匹配的模糊匹配字段所对应的字段模板;
按照预设分析规则,对归一化存储的所述待处理财务报表中的多个数据字段进行关联计算,并且根据所述关联计算的结果生成财务分析报表。
2.根据权利要求1所述的方法,其特征在于,基于已存储的各企业的财务报表创建专业词汇库,包括:
采用网络爬虫技术从互联网络中爬取已公开的各企业的财务报表;
对爬取的所述各企业的财务报表分类;
分别对每类财务报表中的各数据字段进行识别并且将从每类财务报表中识别出的数据字段作为模糊匹配字段关联至对应的字段模板;
对从各类财务报表中得到的模糊匹配字段和字段模板的关联关系进行汇总得到所述专业词汇库。
3.根据权利要求1所述的方法,其特征在于,所述按照预设分析规则,对归一化存储的所述待处理财务报表中的多个数据字段进行关联计算,并且根据所述关联计算的结果生成财务分析报表,包括:
从一份或多份归一化存储的待处理财务报表中提取多个数据字段;
根据提取的所述多个数据字段计算财务统计数据;
将所述财务统计数据与对照组统计值进行比对,得到财务分析报表。
4.根据权利要求3所述的方法,其特征在于,所述根据提取的所述多个数据字段计算财务统计数据,包括:
根据财务报表中的收入数据计算业务收益数据;
根据财务报表中的资产负债数据计算资产周转数据。
5.根据权利要求1所述的方法,其特征在于,所述财务报表为PDF格式,识别PDF格式的财务报表中的数据字段,包括:
将PDF格式的财务报表转换为灰阶图像文件;
对所述灰阶图像文件中的数据部分进行解析并保存为二维数组;
采用表格分割线扫描算法对所述二维数组中的表格区域进行识别,根据识别的结果进行表格的分割;
对分割的表格中的各个单元格区域中的数据字段进行定位识别。
6.一种财务报表处理装置,其特征在于,所述装置包括:
词汇库创建模块,用于预先基于已存储的各企业的财务报表创建专业词汇库,所述专业词汇库中包含字段模板,每个所述字段模板关联多个模糊匹配字段;
归一化存储模块,用于将待处理财务报表中的各数据字段分别与所述专业词汇库中的字段模板进行匹配,并且根据所述匹配的结果对所述待处理财务报表进行归一化存储;其中,当所述待处理财务报表中的数据字段与所对应的字段模板所关联的多个模糊匹配字段中的其中一个匹配时,将所述数据字段归一化存储为其所匹配的模糊匹配字段所对应的字段模板;
关联计算模块,用于按照预设分析规则,对归一化存储的所述待处理财务报表中的多个数据字段进行关联计算,并且根据所述关联计算的结果生成财务分析报表。
7.根据权利要求6所述的装置,其特征在于,所述词汇库创建模块,包括:
数据爬取单元,用于采用网络爬虫技术从互联网络中爬取已公开的各企业的财务报表;
分类单元,用于对爬取的所述各企业的财务报表分类;
识别单元,用于分别对每类财务报表中的各数据字段进行识别并且将从每类财务报表中识别出的数据字段作为模糊匹配字段关联至对应的字段模板;
汇总单元,用于对从各类财务报表中得到的模糊匹配字段和字段模板的关联关系进行汇总得到所述专业词汇库。
8.根据权利要求6所述的装置,其特征在于,所述关联计算模块,包括:
数据提取单元,用于从一份或多份归一化存储的待处理财务报表中提取多个数据字段;
数据计算单元,用于根据提取的所述多个数据字段计算财务统计数据;
比对单元,用于将所述财务统计数据与对照组统计值进行比对,得到财务分析报表。
9.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至5任一项所述财务报表处理方法的步骤。
10.一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至5任一项所述财务报表处理方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910423833.1A CN110348974A (zh) | 2019-05-21 | 2019-05-21 | 财务报表处理方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910423833.1A CN110348974A (zh) | 2019-05-21 | 2019-05-21 | 财务报表处理方法和装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110348974A true CN110348974A (zh) | 2019-10-18 |
Family
ID=68173889
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910423833.1A Pending CN110348974A (zh) | 2019-05-21 | 2019-05-21 | 财务报表处理方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110348974A (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110826308A (zh) * | 2019-11-11 | 2020-02-21 | 北京明略软件系统有限公司 | 财务报表生成方法、装置、计算机设备和可读存储介质 |
CN111061704A (zh) * | 2019-11-01 | 2020-04-24 | 东方微银科技(北京)有限公司 | 一种财务分析报表生成方法及设备 |
CN112183035A (zh) * | 2020-11-06 | 2021-01-05 | 上海恒生聚源数据服务有限公司 | 一种文本标注方法、装置、设备及可读存储介质 |
CN113610617A (zh) * | 2021-08-18 | 2021-11-05 | 上海交通大学 | 一种适合多财务报表的船舶费用配置系统及方法 |
CN114547170A (zh) * | 2022-02-18 | 2022-05-27 | 中远海运科技股份有限公司 | 一种非结构化财务报表数据标准化抽取与建模的方法 |
CN116542800A (zh) * | 2023-06-29 | 2023-08-04 | 天津星耀九洲科技有限公司 | 基于云端ai技术的智能化财务报表分析系统 |
CN116645228A (zh) * | 2022-12-28 | 2023-08-25 | 南京贝特威信息技术有限公司 | 一种面向全球民航客票机场税实时计算的预处理方法及系统 |
CN116993859A (zh) * | 2023-09-28 | 2023-11-03 | 深圳市维度数据科技股份有限公司 | 一种基于图片数据提取技术生成统计报表的方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20050102212A1 (en) * | 2003-11-07 | 2005-05-12 | Qd Financial, Llc | Systems and methods for generating audited and unaudited financial statements and reports |
CN106202091A (zh) * | 2015-05-04 | 2016-12-07 | 阿里巴巴集团控股有限公司 | 一种字段设置方法和装置 |
CN107832371A (zh) * | 2017-10-27 | 2018-03-23 | 安徽经邦软件技术有限公司 | 一种基于财务报表的Excel智能匹配导入系统和方法 |
CN109376191A (zh) * | 2018-09-18 | 2019-02-22 | 深圳壹账通智能科技有限公司 | 财报数据处理方法、装置、计算机设备和存储介质 |
CN109408561A (zh) * | 2018-10-17 | 2019-03-01 | 杭州骑轻尘信息技术有限公司 | 业务名称匹配方法及装置 |
CN109446197A (zh) * | 2018-09-26 | 2019-03-08 | 深圳壹账通智能科技有限公司 | 用户信息处理方法、装置、计算机设备及存储介质 |
-
2019
- 2019-05-21 CN CN201910423833.1A patent/CN110348974A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20050102212A1 (en) * | 2003-11-07 | 2005-05-12 | Qd Financial, Llc | Systems and methods for generating audited and unaudited financial statements and reports |
CN106202091A (zh) * | 2015-05-04 | 2016-12-07 | 阿里巴巴集团控股有限公司 | 一种字段设置方法和装置 |
CN107832371A (zh) * | 2017-10-27 | 2018-03-23 | 安徽经邦软件技术有限公司 | 一种基于财务报表的Excel智能匹配导入系统和方法 |
CN109376191A (zh) * | 2018-09-18 | 2019-02-22 | 深圳壹账通智能科技有限公司 | 财报数据处理方法、装置、计算机设备和存储介质 |
CN109446197A (zh) * | 2018-09-26 | 2019-03-08 | 深圳壹账通智能科技有限公司 | 用户信息处理方法、装置、计算机设备及存储介质 |
CN109408561A (zh) * | 2018-10-17 | 2019-03-01 | 杭州骑轻尘信息技术有限公司 | 业务名称匹配方法及装置 |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111061704A (zh) * | 2019-11-01 | 2020-04-24 | 东方微银科技(北京)有限公司 | 一种财务分析报表生成方法及设备 |
CN110826308A (zh) * | 2019-11-11 | 2020-02-21 | 北京明略软件系统有限公司 | 财务报表生成方法、装置、计算机设备和可读存储介质 |
CN112183035A (zh) * | 2020-11-06 | 2021-01-05 | 上海恒生聚源数据服务有限公司 | 一种文本标注方法、装置、设备及可读存储介质 |
CN112183035B (zh) * | 2020-11-06 | 2023-11-21 | 上海恒生聚源数据服务有限公司 | 一种文本标注方法、装置、设备及可读存储介质 |
CN113610617A (zh) * | 2021-08-18 | 2021-11-05 | 上海交通大学 | 一种适合多财务报表的船舶费用配置系统及方法 |
CN114547170A (zh) * | 2022-02-18 | 2022-05-27 | 中远海运科技股份有限公司 | 一种非结构化财务报表数据标准化抽取与建模的方法 |
CN114547170B (zh) * | 2022-02-18 | 2024-04-05 | 中远海运科技股份有限公司 | 一种非结构化财务报表数据标准化抽取与建模的方法 |
CN116645228A (zh) * | 2022-12-28 | 2023-08-25 | 南京贝特威信息技术有限公司 | 一种面向全球民航客票机场税实时计算的预处理方法及系统 |
CN116542800A (zh) * | 2023-06-29 | 2023-08-04 | 天津星耀九洲科技有限公司 | 基于云端ai技术的智能化财务报表分析系统 |
CN116993859A (zh) * | 2023-09-28 | 2023-11-03 | 深圳市维度数据科技股份有限公司 | 一种基于图片数据提取技术生成统计报表的方法 |
CN116993859B (zh) * | 2023-09-28 | 2024-01-02 | 深圳市维度数据科技股份有限公司 | 一种基于图片数据提取技术生成统计报表的方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110348974A (zh) | 财务报表处理方法和装置 | |
CN110909226B (zh) | 金融类文档信息处理方法、装置、电子设备及存储介质 | |
JP7132918B2 (ja) | データ要素間の関係を決定するためのシステム及び方法 | |
Bovee et al. | Financial reporting and auditing agent with net knowledge (FRAANK) and extensible business reporting language (XBRL) | |
US10614073B2 (en) | System and method for using data incident based modeling and prediction | |
US20130073480A1 (en) | Real time cross correlation of intensity and sentiment from social media messages | |
Li et al. | Online portfolio selection: principles and algorithms | |
Gao et al. | Mining business contracts for service exceptions | |
WO2009046062A2 (en) | Method and system for an automated corporate governance rating system | |
CA2519238A1 (en) | Technique evaluating device, technique evaluating program, and technique evaluating method | |
Teodorescu | Machine Learning methods for strategy research | |
US20230236892A1 (en) | Apparatus for resource enhacement | |
US11783252B1 (en) | Apparatus for generating resource allocation recommendations | |
Chou et al. | Integrating XBRL data with textual information in Chinese: A semantic web approach | |
CN108804564A (zh) | 金融产品的组合推荐方法及终端设备 | |
CN109783638A (zh) | 一种基于半监督学习的用户评论聚类方法 | |
CN103544299A (zh) | 一种商业智能云计算系统的构建方法 | |
CN105405051B (zh) | 金融事件预测方法和装置 | |
Jaiswal et al. | Data Mining Techniques and Knowledge Discovery Database | |
Leewis et al. | Future challenges in decision mining at governmental institutions | |
Kamaruddin et al. | A text mining system for deviation detection in financial documents | |
KR20110010664A (ko) | 문서 분석 시스템 | |
US7653871B2 (en) | Mathematical decomposition of table-structured electronic documents | |
CN110727842A (zh) | 基于辅助性知识的Web服务开发者按需推荐方法及系统 | |
Sergey et al. | Using machine learning methods to establish program authorship |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |