CN114547170A - 一种非结构化财务报表数据标准化抽取与建模的方法 - Google Patents
一种非结构化财务报表数据标准化抽取与建模的方法 Download PDFInfo
- Publication number
- CN114547170A CN114547170A CN202210150493.1A CN202210150493A CN114547170A CN 114547170 A CN114547170 A CN 114547170A CN 202210150493 A CN202210150493 A CN 202210150493A CN 114547170 A CN114547170 A CN 114547170A
- Authority
- CN
- China
- Prior art keywords
- data
- financial
- excel
- standardized
- extraction
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 38
- 238000000034 method Methods 0.000 title claims abstract description 38
- 238000004364 calculation method Methods 0.000 claims abstract description 61
- 238000004458 analytical method Methods 0.000 claims abstract description 44
- 238000004140 cleaning Methods 0.000 claims abstract description 26
- 238000013075 data extraction Methods 0.000 claims abstract description 16
- 230000005477 standard model Effects 0.000 claims abstract description 7
- 238000013500 data storage Methods 0.000 claims description 13
- 238000013499 data model Methods 0.000 claims description 9
- 230000000694 effects Effects 0.000 claims description 6
- 238000007726 management method Methods 0.000 claims description 6
- 238000000547 structure data Methods 0.000 claims description 4
- 239000012530 fluid Substances 0.000 claims description 3
- 238000012545 processing Methods 0.000 abstract description 13
- 238000007405 data analysis Methods 0.000 abstract description 12
- 238000006243 chemical reaction Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 6
- 238000013523 data management Methods 0.000 description 5
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012552 review Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 230000008676 import Effects 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 238000002955 isolation Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012821 model calculation Methods 0.000 description 1
- 230000007306 turnover Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/25—Integrating or interfacing systems involving database management systems
- G06F16/254—Extract, transform and load [ETL] procedures, e.g. ETL data flows in data warehouses
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Quality & Reliability (AREA)
- Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)
Abstract
本发明涉及一种非结构化财务报表数据标准化抽取与建模方法。包括:针对不同的财务报表类型分别创建标准化的初始化模板;针对模板类型及数据结构分别定义不同的变量及常量,以匹配所述财务数据对应的类型,识别所述财务数据的结构,建立对所述财务数据进行清洗的规则;基于财务报表的标准模型及业务逻辑和规则创建数据计算模型;建立数据抽取与调度规则,用于在抽取非标准化结构财务数据后,实现自动化调用数据库中对应的数据计算模型进行计算或分析;计算或分析的结果存储于数据库中,获取用户的选择指令后,直接调用数据库将结果显示在终端界面上。本方案通过将非结构化财务数据标准化并建模的方法,为后续的财务数据分析和处理提供关键基础。
Description
技术领域
本发明属于信息数据处理领域,涉及信息数据转换,具体涉及一种非结构化财务报表数据标准化抽取与建模方法。
背景技术
随着企业业务的发展和信息系统的广泛应用,各企业的业务数据量的不断增大,原有的数据管理模式形成了大大小小的数据孤岛,制约着企业数据分析工作。
鉴于财务数据分析在企业经营管理中的重要性,企业的财务数据量随着业务的和人员的扩张也处于不断增长的状态,而且原有的财务数据管理模式具有孤立性,不利于企业财务数据的分析工作的进展,为企业财务等部门带来了极大的不便。
虽然,目前有很多数据分析及处理系统,可以实现企业业务的数据信息化,但是,由于财务的数据大量以非结构化的报表形式存储,实际情况上的采集、应用都存在极大的难点。
关于信息数据转换,尤其是非结构数据转换为结构数据,目前已经有部分技术方案,如 CN104504041B,其提供一种数据分析系统、方法及装置,使得用户可以回顾历史非结构数据以及由结构化数据形成的分析图表等,进行自我分析及调整;使得信息咨询提供者可以回顾历史非结构数据以及由结构化数据形成的分析图表等,响应用户类别分布、用户满意度和接受程度,协助用户进行调整的效果等分析、调整。其依靠用户提供的非结构及结构数据,进行分析,从关系型数据库导出成非结构化数据,然后让用户自行进行标记和处理,因此难以满足大量非结构化的财务数据自动化处理的需求。或者,如CN104298705B,一种关系型数据和非结构化数据的转换方法,可以实现关系型逻辑数据到非结构化数据的数据转换设置及非结构化数据到关系型逻辑数据的转换设置以及权限控制,虽然其也可以实现非结构数据到关系型逻辑数据的转换,但是其需要依靠之前已经转换的非结构化数据的数据,并不能适应现实生活中随机的大量非结构财务数据进行转换,也难以解决现实生活中的非结构的财务数据分析和处理的需求。
进一步的,如CN106682153A,一种基于数据建模及实现数据增量的数据抽取工具,该基于数据建模及实现数据增量的数据抽取工具,分类定制数据模版,并根据源表数据量选择合理的抽取方式,提高了数据模版的执行效率,虽然其提供了一种在增量业务下的抽取数据的方法,提高了数据查询的效率,但是对于非结构的财务数据却不能进标准化,难以适应现有的大量的财务数据的自动化的处理需求。
因此,鉴于财务数据的普遍是非结构化的数据,而且财务数据分析在企业经营管理中的重中之重,从非结构化的财务数据中提炼出标准化的财务数据来供企业进行进一步数据分析工作,进一步指导企业的生产和经营,是目前企业数据管理与信息化中亟待解决的问题。
发明内容
本发明为了实现企业财务数据管理与信息化,解决从非结构化的财务数据中提炼出标准化的财务数据以供企业进行进一步数据分析工作等问题,本发明提出了一种非结构化财务报表数据标准化抽取与建模方法。
本发明提供以下方案:
本发明提供一种非结构化财务报表数据标准化抽取与建模方法,包括以下步骤:
S1创建初始化模板:针对不同的财务报表类型分别创建对应的标准化的初始化模板;
S2建立数据结构识别及清洗规则:在所述初始化模板中,针对模板对应的类型以及数据结构分别定义不同的变量及常量,以匹配所述财务数据对应的财务表类型,识别所述财务数据的结构;同时根据基于识别后的所述财务数据的结构以及所述变量与常量,建立对所述财务数据进行清洗的规则;
S3创建数据计算模型:基于财务报表的标准模型以及财务中的业务逻辑和业务规则创建不同的数据计算模型;用于在识别所述财务数据的结构后,直接匹配对应的数据计算模型,并将清洗后的所述财务数据导入所述数据计算模型中,并将所述数据模型导入模型的数据库,以供后续数据的抽取调用;
S4建立数据抽取与调度规则:基于用户的需求,从时间以及标准化数据的格式要求等粒度来建立不同的非标准化结构数据的抽取规则,用于在数据库中抽取非标准化结构财务数据后,直接匹配对应的初始化模板,并自适应所述数据结构识别及清洗规则,调用数据库中对应的数据计算模型进行计算或分析,实现自动化的数据调度;
S5数据存储与显示:数据计算模型计算或分析的结果存储于数据库中,供后续分析应用;获取用户的选择指令后,通过直接调用数据库将所述计算或分析的结果显示在终端界面上。
进一步的,所述不同的财务报表类型,包括:Excel、CSV等常用的财务报表类型。
进一步的,基于不同的非结构化数据类型来进行选择对应的初始化模板,所述标准化的初始化模板用于自动匹配对应的非结构化财务报表,包括Excel、CSV等常用的财务报表类型对应的标准化的初始化模板。
进一步的,在S3创建数据计算模型中,所述财务报表的标准模型是指财务三张主表,包括资产负债表、损益表、现金流量表以及相应的附注。
优选的,本发明所述的非结构化财务报表数据标准化抽取与建模方法,所述不同的财务报表类型采用的是Excel财务报表。进一步的,包括以下步骤:
S1创建初始化模板:根据Excel财务报表类型创建对应的Excel初始化模板;
S2建立数据结构识别及清洗规则:在所述Excel初始化模板以及数据结构分别定义不同的变量及常量,以建立匹配所述Excel财务数据对应的财务表类型,同时识别所述Excel财务数据的结构,并对所述Excel财务数据进行清洗的规则;
S3创建数据计算模型:基于Excel数据表的内容创建数据计算模型;在识别所述Excel 财务数据的结构后,直接匹配对应的数据计算模型,并将清洗后的所述Excel财务数据导入所述数据计算模型中,并将所述数据模型导入模型的数据库,以供后续数据的抽取调用;
S4建立数据抽取与调度规则:基于用户的需求,从时间以及标准化数据的格式要求等粒度来建立不同的抽取数据规则,在数据库中抽取Excel财务数据后,进行自动化的数据调度,直接匹配对应的Excel初始化模板,并自适应所述数据结构识别及清洗规则,调用数据库中的数据计算模型进行计算或分析;
S5数据存储与显示:数据计算模型计算或分析的结果存储于数据库中,供后续分析应用;获取用户的选择指令后,直接调用数据库将所述计算或分析的结果显示在终端界面上。
进一步的,在S2建立数据结构识别及清洗规则中,Excel报表由纵向分栏和横向分栏等不同格式,针对数据定义不同的变量,变量分为:
全局变量:针对整个excel所有的sheet;
局部变量:针对excel中的某一个sheet,仅在这个sheet中生效;
Excel变量:从固定位置抽取作为变量,存入结构化数据;
常量:在数据上载过程中赋值一个常量,包括文件名,上载日期,时间戳等。
其中,建立模型为:财务指标(D1;M1),资产负债(D2;M2),现金流量(D3;M3),利润(D4;M4);
其中:D1=D2=D3=D4=({企业维,行业维,地区维,时间维});
时间维=({时间代码,报告期间});
行业维=({行业代码,行业名称});
地区维=({地区码,地区名称});
企业维=({证券代码,企业名称,描述});
其中:M1=({净资产收益率,总资产净利率,销售净利率,营业利润率,m1});
M2=({流动资产,货币资金,拆出资金,应收票据,m2});
M3=({经营活动产生的现金流量,商品劳务现金,中央银行借款净增加额,m3});
M4=({营业收入,营业成本,销售费用,管理费用,m4});
所述变量m1、m2、m3、m4分别代指模型中M1、M2、M3、M4的具体其他的一个或多个财务数据指标。
进一步的,本发明所述的非结构化财务报表数据标准化抽取与建模方法,其中,在S5数据存储与显示中,还包括:数据抽取与显示,在获取财务数据后,并利用所述识别数据结构规则进行数据抽取,并将抽取后的所述数据展示在用户终端显示界面上,用户根据所需对所述展示数据进行数据的调整和设置,来保证数据的准确性。
进一步的,在S5数据存储与显示中,所述供后续分析应用,包括:数据存入数据库之后,后续的分析场景中,根据用户的需要来获取数据进行分析,包括进行杜邦分析、企业对标等等。
本发明公开了一种非结构化财务报表数据进行标准化抽取和建模的方法,所述方法包括非结构数据的识别、标准化以及构建统一模型的方法。本发明的方法主要是开发抽取工具、定义标准化结构,结合相关业务逻辑和业务规则,完成财务数据的抽取和建模。
本发明针对非结构化财务excel数据报表,结合相关业务逻辑和业务规则,通过对excel 的解析和处理,将非结构化财务数据标准化并建模的方法,为后续的财务数据分析和处理提供关键基础。
附图说明
图1.本发明提供的一种非结构化财务报表数据标准化抽取与建模方法的步骤示意图。
图2.本发明提供的一种基于Excel非结构化财务报表数据标准化抽取与建模的流程图。
图3.一种非结构化的Excel财务报表的展示图,其中的4个sheet分别为:资产负债表、利润表、现金流量表、带息负债表。
图4.利用本发明提供的方法将一种非结构化的Excel财务报表中数据的识别与数据清洗展示图。
图5.利用本发明提供的方法将一种非结构化的Excel财务报表中的数据抽取与调度的展示图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
非结构化数据是数据结构不规则或不完整,没有预定义的数据模型,不方便用数据库二维逻辑表来表现的数据。包括所有格式的办公文档、文本、图片、XML,HTML、各类报表信息等等。计算机信息化系统中的数据分为结构化数据和非结构化数据。非结构化数据其格式非常多样,标准也是多样性的,而且在技术上非结构化信息比结构化信息更难标准化和理解。
鉴于财务数据分析在企业经营管理中的重要性,本发明提出了一种针对非结构化财务 excel数据,结合相关业务逻辑和业务规则,通过对excel的解析和处理,将非结构化财务数据标准化并建模的方法,为后续的财务数据分析和处理提供关键基础。
需要注意的是,本发明并不仅局限于Excel格式,还包括财务中会涉及的所有格式的办公文档、文本、图片、XML,HTML、各类报表信息等等;需要创建对应的初始化模板、建立符合办公文档、文本、图片、XML,HTML、各类报表对应的数据的数据结构识别及清洗规则,并创建数据计算模型,基于载入后的非标准化数据,直接调用计算模型并通过调用数据的规则,最终得到用户所需的标准化的数据形式。
如图1所示,本发明提供一种非结构化财务报表数据标准化抽取与建模方法,包括以下步骤:
S1创建初始化模板:针对不同的财务报表类型分别创建对应的标准化的初始化模板;这里所述不同的财务报表类型,包括财务中常用的Excel、CSV等常用的财务报表类型,但不限于这些类型,还包括财务中会涉及的所有格式的办公文档、文本、图片、XML,HTML、各类报表信息等等。基于不同的非结构化数据类型来进行选择对应的初始化模板,所述标准化的初始化模板用于自动匹配对应的非结构化财务报表,包括Excel、CSV等常用的财务报表类型对应的标准化的初始化模板。
S2建立数据结构识别及清洗规则:在所述初始化模板中,针对模板对应的类型以及数据结构分别定义不同的变量及常量,以匹配所述财务数据对应的财务表类型,识别所述财务数据的结构;同时根据基于识别后的所述财务数据的结构以及所述变量与常量,建立对所述财务数据进行清洗的规则。数据的结构包括数据的字段大小、属性、数据指标的计算规则、数据之间的逻辑关系等。
在初始化标准模板中定义了数据结构识别和清洗的规则,针对不同类型的报表由纵向分栏和横向分栏等不同格式,关键是针对数据定义不同的变量,变量分为:全局变量:针对整个报表,例如:证券代码、主表类型。局部变量:针对报表中的某一个栏,仅在这个栏中生效。常量:在数据上载过程中赋值一个常量,例如文件名,上载日期,时间戳等。报表类型变量:从固定位置抽取作为变量-存入结构化数据。
这样在加载或上载实际的非结构化财务报表数据时,可以自动化的匹配与识别报表结构和类型,同时进行数据清洗,所述数据清洗是指数据一致性的处理、错误值的处理、重复值的处理、缺失数据的处理等。
S3创建数据计算模型:基于财务报表的标准模型结合,创建不同的数据计算模型;用于在识别所述财务数据的结构后,直接匹配对应的数据计算模型,并将清洗后的所述财务数据导入所述数据计算模型中,并将所述数据模型导入模型的数据库,以供后续数据的抽取调用。所述财务报表的标准模型是指财务三张主表,包括资产负债表、损益表、现金流量表以及相应的附注。
这里所述的相关业务逻辑和业务规则,例如:净资产收益率=净利润/平均净资产*100%;资产=负债+所有者权益;应收账款周转次数=销售(营业)收入净额/应收账款平均余额;这里应当包括财务计算中的相关业务逻辑和业务规则,可以写入计算模型并计算或分析的都在保护范围内,不仅限于上述示例。
S4建立数据抽取与调度规则:基于用户的需求,从时间以及标准化数据的格式要求等粒度来建立不同的非标准化结构数据的抽取规则,用于在数据库中抽取非标准化结构财务数据后,直接匹配对应的初始化模板,并自适应所述数据结构识别及清洗规则,调用数据库中对应的数据计算模型进行计算或分析,实现自动化的数据调度。
针对大型企业或小型公司,在财务数据管理中,本发明建立不同的非标准化结构数据的抽取规则,用于实现用户基于需求可以自己选择设定抽取或上载财务数据报表的时间或频率,最终实现自动化的数据调度。
S5数据存储与显示:数据计算模型计算或分析的结果存储于数据库中,供后续分析应用;获取用户的选择指令后,直接调用数据库将所述计算或分析的结果显示在终端界面上。
如图2所示,本发明针对常用的Excel非结构化财务报表,提供的一种非结构化财务报表数据标准化抽取与建模的流程图,包括:创建模板、识别excel结构、结构定义及定义数据清洗规则(变量定义);数据上载后,数据建模(调用数据模型)、数据存储(导入模型中的数据的存储)、定义调度规则(用于实现用户需求的调度要求,如获得不同规定格式的标准化数据报表、数据图标;如基于时间粒度抽取数据并实现自动化调度数据)。
其中,创建模板,即步骤S1创建初始化模板:根据Excel财务报表类型创建对应的Excel 初始化模板。基于财务excel报表数据的结构创建模板,通过模板的创建,为后续的结构识别和规则定义提供基础。
其中,识别excel结构、结构定义及定义数据清洗规则(变量定义)即步骤S2建立数据结构识别及清洗规则:在所述Excel初始化模板以及数据结构分别定义不同的变量及常量,以建立匹配所述Excel财务数据对应的财务表类型,同时识别所述Excel财务数据的结构,并对所述Excel财务数据进行清洗的规则。
在S2步骤中,Excel报表由纵向分栏和横向分栏等不同格式,针对数据定义不同的变量,变量分为:
全局变量:针对整个excel所有的sheet;例如:证券代码、主表类型。
局部变量:针对excel中的某一个sheet,仅在这个sheet中生效;
Excel变量:从固定位置抽取作为变量,存入结构化数据;
常量:在数据上载过程中赋值一个常量,包括文件名,上载日期,时间戳等。
基于步骤S3已经创建的Excel数据表的数据计算模型;当数据上载后,数据建模(调用数据模型)、数据存储(导入模型中的数据的存储),在识别所述Excel财务数据的结构后,直接匹配对应的数据计算模型,并将清洗后的所述Excel财务数据导入所述数据计算模型中,并将所述数据模型导入模型的数据库。
其中,建立模型为:财务指标(D1;M1),资产负债(D2;M2),现金流量(D3;M3),利润(D4;M4);
其中:D1=D2=D3=D4=({企业维,行业维,地区维,时间维});
时间维=({时间代码,报告期间});
行业维=({行业代码,行业名称});
地区维=({地区码,地区名称});
企业维=({证券代码,企业名称,描述});
其中:M1=({净资产收益率,总资产净利率,销售净利率,营业利润率,……,m1});
M2=({流动资产,货币资金,拆出资金,应收票据,……,m2});
M3=({经营活动产生的现金流量,商品劳务现金,中央银行借款净增加额,……,m3});
M4=({营业收入,营业成本,销售费用,管理费用,……,m4});
所述变量m1、m2、m3、m4分别代指模型中M1、M2、M3、M4的具体其他的一个或多个财务数据指标。这里需要注意的是,本发明所指的建立的模型中应当包括本领域中其他的财务数据指标的变量,用于进行财务数据分析计算的变量指标应当都在本发明的保护范围内。
如图3所示,本实施例中列举非结构化的一个Excel财务报表,其中的4个sheet分别为:资产负债表、利润表、现金流量表、带息负债表的展示图。
如图4所示,本实施例中列举非结构化的一个Excel财务报表,上载后,识别结构与数据清洗后的其中的sheet利润表的展示图。这里的展示图中,基于定义的结构和规则上载excel 数据,识别展示供用户进行数据的调整和设置,以便数据导入进入后续的建立的数据计算模型中,以供后续数据的抽取调用。图4中,包括Excel表格中的横向、纵向、栏目(连续纵向分栏)、自定义分栏;以及横向、纵向、栏目(连续纵向分栏)、自定义分栏中的数据的内容,还包括表名称、类型。其中,横向结构中展示的数据内容包括载入的非结构化的Excel中的横向的标题的数据内容,如报告期、报表类型、营业总收入、营业收入……等。
基于步骤S4中已经建立好的数据抽取与调度规则,基于用户的需求,从时间以及标准化数据的格式要求等粒度来建立不同的抽取数据规则,在数据库中抽取Excel财务数据后,进行自动化的数据调度,直接匹配对应的Excel初始化模板,并自适应所述数据结构识别及清洗规则,调用数据库中的数据计算模型进行计算或分析。定义调度规则,即用于实现用户需求的调度要求,如获得不同规定格式的标准化数据报表、数据图标;如基于时间粒度抽取数据并实现自动化调度数据。
如图5所示,基于上述步骤抽取规则,基于时间的粒度、数据结构(变量)、数据增量的粒度用户可以在显示界面直接自设定抽取规则。
最后,在步骤S5数据存储与显示中,数据计算模型计算或分析的结果存储于数据库中,供后续分析应用;获取用户的选择指令后,直接调用数据库将所述计算或分析的结果显示在终端界面上。所述供后续分析应用,包括:数据存入数据库之后,后续的分析场景中,根据用户的需要来获取数据进行分析,包括进行杜邦分析、企业对标等等。
这里还包括:数据抽取与显示,在获取财务数据后,并利用所述识别数据结构规则进行数据抽取,并将抽取后的所述数据展示在用户终端显示界面上,用户根据所需对所述展示数据进行数据的调整和设置,来保证数据的准确性。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (10)
1.一种非结构化财务报表数据标准化抽取与建模方法,其特征在于,包括以下步骤:
S1创建初始化模板:针对不同的财务报表类型分别创建对应的标准化的初始化模板;
S2建立数据结构识别及清洗规则:在所述初始化模板中,针对模板对应的类型以及数据结构分别定义不同的变量及常量,以匹配所述财务数据对应的财务表类型,识别所述财务数据的结构;同时根据基于识别后的所述财务数据的结构以及所述变量与常量,建立对所述财务数据进行清洗的规则;
S3创建数据计算模型:基于财务报表的标准模型以及财务中的业务逻辑和业务规则创建不同的数据计算模型;用于在识别所述财务数据的结构后,直接匹配对应的数据计算模型,并将清洗后的所述财务数据导入所述数据计算模型中,并将所述数据模型导入模型的数据库,以供后续数据的抽取调用;
S4建立数据抽取与调度规则:基于用户的需求,从时间以及标准化数据的格式要求等粒度来建立不同的非标准化结构数据的抽取规则,用于在数据库中抽取非标准化结构财务数据后,直接匹配对应的初始化模板,并自适应所述数据结构识别及清洗规则,调用数据库中对应的数据计算模型进行计算或分析,实现自动化的数据调度;
S5数据存储与显示:数据计算模型计算或分析的结果存储于数据库中,供后续分析应用;获取用户的选择指令后,通过直接调用数据库将所述计算或分析的结果显示在终端界面上。
2.根据权利要求1所述的非结构化财务报表数据标准化抽取与建模方法,其特征还在于,所述不同的财务报表类型,包括:Excel、CSV等常用的财务报表类型。
3.根据权利要求1所述的非结构化财务报表数据标准化抽取与建模方法,其特征还在于,基于不同的非结构化数据类型来进行选择对应的初始化模板,所述标准化的初始化模板用于自动匹配对应的非结构化财务报表,包括Excel、CSV等常用的财务报表类型对应的标准化的初始化模板。
4.根据权利要求1所述的非结构化财务报表数据标准化抽取与建模方法,其特征还在于,在S3创建数据计算模型中,所述财务报表的标准模型是指财务三张主表,包括资产负债表、损益表、现金流量表以及相应的附注。
5.根据权利要求1或2或3或4所述的非结构化财务报表数据标准化抽取与建模方法,其特征还在于,所述不同的财务报表类型采用的是Excel财务报表。
6.根据权利要求5所述的非结构化财务报表数据标准化抽取与建模方法,其特征还在于,
S1创建初始化模板:根据Excel财务报表类型创建对应的Excel初始化模板;
S2建立数据结构识别及清洗规则:在所述Excel初始化模板以及数据结构分别定义不同的变量及常量,以建立匹配所述Excel财务数据对应的财务表类型,同时识别所述Excel财务数据的结构,并对所述Excel财务数据进行清洗的规则;
S3创建数据计算模型:基于Excel数据表的内容创建数据计算模型;在识别所述Excel财务数据的结构后,直接匹配对应的数据计算模型,并将清洗后的所述Excel财务数据导入所述数据计算模型中,并将所述数据模型导入模型的数据库,以供后续数据的抽取调用;
S4建立数据抽取与调度规则:基于用户的需求,从时间以及标准化数据的格式要求等粒度来建立不同的抽取数据规则,在数据库中抽取Excel财务数据后,进行自动化的数据调度,直接匹配对应的Excel初始化模板,并自适应所述数据结构识别及清洗规则,调用数据库中的数据计算模型进行计算或分析;
S5数据存储与显示:数据计算模型计算或分析的结果存储于数据库中,供后续分析应用;获取用户的选择指令后,直接调用数据库将所述计算或分析的结果显示在终端界面上。
7.根据权利要求6所述的非结构化财务报表数据标准化抽取与建模方法,其特征还在于,
在S2建立数据结构识别及清洗规则中,Excel报表由纵向分栏和横向分栏等不同格式,针对数据定义不同的变量,变量分为:
全局变量:针对整个excel所有的sheet;
局部变量:针对excel中的某一个sheet,仅在这个sheet中生效;
Excel变量:从固定位置抽取作为变量,存入结构化数据;
常量:在数据上载过程中赋值一个常量,包括文件名,上载日期,时间戳等。
8.根据权利要求6所述的非结构化财务报表数据标准化抽取与建模方法,其特征还在于,
其中,建立模型为:财务指标(D1;M1),资产负债(D2;M2),现金流量(D3;M3),利润(D4;M4);
其中:D1=D2=D3=D4=({企业维,行业维,地区维,时间维});
时间维=({时间代码,报告期间});
行业维=({行业代码,行业名称});
地区维=({地区码,地区名称});
企业维=({证券代码,企业名称,描述});
其中:M1=({净资产收益率,总资产净利率,销售净利率,营业利润率,m1});
M2=({流动资产,货币资金,拆出资金,应收票据,m2});
M3=({经营活动产生的现金流量,商品劳务现金,中央银行借款净增加额,m3});
M4=({营业收入,营业成本,销售费用,管理费用,m4});
所述变量m1、m2、m3、m4分别代指模型中M1、M2、M3、M4的具体其他的一个或多个财务数据指标。
9.根据权利要求1或6所述的非结构化财务报表数据标准化抽取与建模方法,其特征还在于,在S5数据存储与显示中,还包括:数据抽取与显示,在获取财务数据后,并利用所述识别数据结构规则进行数据抽取,并将抽取后的所述数据展示在用户终端显示界面上,用户根据所需对所述展示数据进行数据的调整和设置,来保证数据的准确性。
10.根据权利要求1或6所述的非结构化财务报表数据标准化抽取与建模方法,其特征还在于,在S5数据存储与显示中,所述供后续分析应用,包括:数据存入数据库之后,后续的分析场景中,根据用户的需要来获取数据进行分析,包括进行杜邦分析、企业对标等等。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210150493.1A CN114547170B (zh) | 2022-02-18 | 2022-02-18 | 一种非结构化财务报表数据标准化抽取与建模的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210150493.1A CN114547170B (zh) | 2022-02-18 | 2022-02-18 | 一种非结构化财务报表数据标准化抽取与建模的方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114547170A true CN114547170A (zh) | 2022-05-27 |
CN114547170B CN114547170B (zh) | 2024-04-05 |
Family
ID=81676409
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210150493.1A Active CN114547170B (zh) | 2022-02-18 | 2022-02-18 | 一种非结构化财务报表数据标准化抽取与建模的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114547170B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115409589A (zh) * | 2022-09-05 | 2022-11-29 | 北京华科诚信科技股份有限公司 | 一种财务数据标准化系统及其方法 |
CN116821325A (zh) * | 2023-06-30 | 2023-09-29 | 广东铭太信息科技有限公司 | 一种非结构化报告的信息提取方法 |
CN117688308A (zh) * | 2024-01-26 | 2024-03-12 | 中国人民解放军军事科学院系统工程研究院 | 一种异构数据智能清洗方法与系统 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110348974A (zh) * | 2019-05-21 | 2019-10-18 | 深圳壹账通智能科技有限公司 | 财务报表处理方法和装置 |
WO2020023960A1 (en) * | 2018-07-27 | 2020-01-30 | Rocky Mountain Innovation Insights Llc | Cloud-based, data-driven artificial intelligence and machine learning financial planning and analysis visualization platform |
CN112883081A (zh) * | 2021-02-24 | 2021-06-01 | 江西数拓科技有限公司 | 一种抽检数据智能分析方法及系统 |
-
2022
- 2022-02-18 CN CN202210150493.1A patent/CN114547170B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020023960A1 (en) * | 2018-07-27 | 2020-01-30 | Rocky Mountain Innovation Insights Llc | Cloud-based, data-driven artificial intelligence and machine learning financial planning and analysis visualization platform |
CN110348974A (zh) * | 2019-05-21 | 2019-10-18 | 深圳壹账通智能科技有限公司 | 财务报表处理方法和装置 |
CN112883081A (zh) * | 2021-02-24 | 2021-06-01 | 江西数拓科技有限公司 | 一种抽检数据智能分析方法及系统 |
Non-Patent Citations (1)
Title |
---|
杨峻;: "财务报表分析的新视角及财务数据的外延思考", 企业科技与发展, no. 10, 10 October 2018 (2018-10-10) * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115409589A (zh) * | 2022-09-05 | 2022-11-29 | 北京华科诚信科技股份有限公司 | 一种财务数据标准化系统及其方法 |
CN115409589B (zh) * | 2022-09-05 | 2023-09-12 | 北京华科诚信科技股份有限公司 | 一种财务数据标准化系统及其方法 |
CN116821325A (zh) * | 2023-06-30 | 2023-09-29 | 广东铭太信息科技有限公司 | 一种非结构化报告的信息提取方法 |
CN116821325B (zh) * | 2023-06-30 | 2024-03-26 | 广东铭太信息科技有限公司 | 一种非结构化报告的信息提取方法 |
CN117688308A (zh) * | 2024-01-26 | 2024-03-12 | 中国人民解放军军事科学院系统工程研究院 | 一种异构数据智能清洗方法与系统 |
Also Published As
Publication number | Publication date |
---|---|
CN114547170B (zh) | 2024-04-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114547170B (zh) | 一种非结构化财务报表数据标准化抽取与建模的方法 | |
US11461723B2 (en) | Cloud-based, data-driven artificial intelligence and machine learning financial planning and analysis visualization platform | |
US7392210B1 (en) | Workflow management system and method | |
US8065177B2 (en) | Project management system and method | |
JP2002015108A (ja) | 企業価値分析装置及び企業価値分析方法 | |
US20180150926A1 (en) | Systems & methods for automated assessment for remediation and/or redevelopment of brownfield real estate | |
US11461853B2 (en) | System to predict impact of existing risk relationship adjustments | |
US8577776B2 (en) | Risk and reward assessment mechanism | |
Ali et al. | ERP System Implementation in a Leading LED Manufacturing in Malaysia: A Supply Chain Perspective | |
CN112990886B (zh) | 基于手机终端的航空行业数据管理显示系统 | |
Rautiainen et al. | Towards fluid role identity of management accountants: A case study of a Finnish bank | |
CN104424513A (zh) | 面向装修市场行业的供应商信息管理处理系统 | |
Maryska et al. | The reference model for managing business informatics economics based on the corporate performance management–proposal and implementation | |
DE112016005092T5 (de) | Verwaltungsunterstützungsvorrichtung und Verwaltungsunterstützungsverfahren | |
WO2020104831A1 (en) | Flexible and smart financial analysis based on industry type using artificial intelligence. | |
Nugus | Financial planning using Excel: forecasting, planning and budgeting techniques | |
Ruvolo | Business Intelligence: concepts and application-Implementation of an Intelligent Planning through software Board | |
CN115952174B (zh) | 一种数据表联接方法、系统、终端及存储介质 | |
Mutschler et al. | A Survey on Economic-driven Evaluations of Information Technology | |
Schön | Organization and processes | |
WO2000010097A1 (en) | Universal business management system and method | |
Schön | Planning and Reporting in BI-supported Controlling: Fundamentals, Business Intelligence, Mobile BI, Big Data Analytics and AI | |
Khan et al. | Business Intelligence: a new dimension to business | |
Zhang | Intelligent Operation of Financial Department in XX Furniture Enterprise under the Background of Digital Economy | |
Veriga et al. | INFORMATION SUPPORT OF FINANCIAL CONTROLLING OF SUBJECTS OF JOINT ACTIVITY |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |