CN116089407A - 一种基于数据挖掘的整合系统 - Google Patents

一种基于数据挖掘的整合系统 Download PDF

Info

Publication number
CN116089407A
CN116089407A CN202211392417.8A CN202211392417A CN116089407A CN 116089407 A CN116089407 A CN 116089407A CN 202211392417 A CN202211392417 A CN 202211392417A CN 116089407 A CN116089407 A CN 116089407A
Authority
CN
China
Prior art keywords
financial
financial data
data
unit
mining
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211392417.8A
Other languages
English (en)
Inventor
江航宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Central university of finance and economics
Original Assignee
Central university of finance and economics
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Central university of finance and economics filed Critical Central university of finance and economics
Priority to CN202211392417.8A priority Critical patent/CN116089407A/zh
Publication of CN116089407A publication Critical patent/CN116089407A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/283Multi-dimensional databases or data warehouses, e.g. MOLAP or ROLAP
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification
    • G06F16/287Visualization; Browsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Quality & Reliability (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提供一种基于数据挖掘的整合系统,涉及财务数据挖掘整合技术领域,所述互动体感式多媒体系统包括:服务器单元:用于存储、处理和传递财务数据,同时也用于接收各个单元发送的、待操作财务数据结构对应的操作指令;本发明中,通过财务数据统计单元能够将互联网以及人为录入的数据采集至服务器中,并对统计出的财务数据按照资产负债表、利润表、现金流量表、所有者权益变动表进行分类,从而生成相应的以图形曲线形式存在的当前财务报表信息,随后利用训练成熟的机器学习模型,识别采集在服务器单元中财务数据真伪以及可靠性,由于财务数据采集后通过筛选和过滤剔除了冗余,减少了服务器的负担,同时也增加了财务数据的可靠性。

Description

一种基于数据挖掘的整合系统
技术领域
本发明涉及财务数据挖掘整合技术领域,尤其涉及一种基于数据挖掘的整合系统。
背景技术
数据挖掘是指从大量的数据中通过算法搜索隐藏于其中信息的过程,通过统计、在线分析处理、情报检索、机器学习、专家系统(依靠过去的经验法则)和模式识别等诸多方法来实现上述目标,项目财务数据预测简称项目财务预测,是指在投资决策之前,采用与企业财务口径相一致的计算方法,对拟投资项目的财务数据进行收集和测算,并编制财务预测表的一系列工作,为了获取财务预测数据通常使用数据挖掘手段来进行数据筛选和处理,由于财务数据量庞大,在数据挖掘过程中容易出现获取冗余或是虚假数据的情况,进而增加服务器的负载。
发明内容
本发明的目的是为了解决现有技术中存在的缺点,而提出的一种基于数据挖掘的整合系统。
为了实现上述目的,本发明采用了如下技术方案:一种基于数据挖掘的整合系统,所述互动体感式多媒体系统包括:
服务器单元:用于存储、处理和传递财务数据,同时也用于接收各个单元发送的、待操作财务数据结构对应的操作指令;
财务数据统计单元:用于响应用户操作,基于多线程采集用户上传的财务数据,还能够用互联网搜索引擎实现财务数据抓取,按照实际需要制定规则和筛选标准进行财务数据归类,最终形成财务数据库文件,采集后的财务数据返回服务器财务数据库中;
财务数据分析单元:用于对统计出的财务数据按照资产负债表、利润表、现金流量表、所有者权益变动表进行分类,从而生成相应的以图形曲线形式存在的当前财务报表信息,最后呈现在前端页面,实现了财务数据的挖掘;
机器学习单元:利用训练成熟的机器学习模型,识别采集在服务器单元中财务数据真伪以及可靠性,并将识别结果呈现在前端页面通过人工方式筛选删洗,删洗后的财务数据在服务器单元中更新;
财务数据整合单元:将服务器中的财务报表上传至同一整合页中,实现财务数据的初步录入效果,随后将相同类型的财务报表分类整合即可,进而能够通过查询终端对财务数据查看。
为了去除财务数据冗余,本发明改进有,所述财务数据采集单元还包括财务数据筛选模块和财务数据过滤模块,财务数据筛选模块用于判断是否对主网页下的子网页的财务数据采集,财务数据过滤模块用于对采集过的网址过滤去重操作。
为了获得数据库,本发明改进有,所述财务数据库包括普通二维财务数据库以及SSAS多维财务数据库。
为了保留需要分析的财务数据,本发明改进有,在财务数据分析前,服务器财务数据库需预先创建带备份财务数据存储表,用于存储待分析财务数据。
为了呈现不同效果,本发明改进有,所述财务数据分析单元还能够将所有财务报表信息的分析结果进行对比显示。
为了满足学习效果,本发明改进有,机器学习模型对模型进行训练后,可以使用它根据之前未见过的财务数据进行推理,并对这些财务数据进行预测,直到识别结果准确率达到设定阈值。
为了赋予机器模型性能,本发明改进有,所述机器学习模型基于连接逻辑回归模型输出、支持向量机模型输出、决策树模型输出、神经网络模型输出的Stacking算法模型。
为了防止财务数据丢失,本发明改进有,在删洗财务数据前能够人工选择是否备份当前财务数据,进而避免所需财务数据的丢失。
为了便于财务报表检索,本发明改进有,在财务报表整合过程中,财务数据整合单元会预先对相同类型的财务报表标记并赋予行号,便于后续对报表的检索。
与现有技术相比,本发明的优点和积极效果在于,
本发明中,通过财务数据统计单元能够将互联网以及人为录入的数据采集至服务器中,并对统计出的财务数据按照资产负债表、利润表、现金流量表、所有者权益变动表进行分类,从而生成相应的以图形曲线形式存在的当前财务报表信息,随后利用训练成熟的机器学习模型,识别采集在服务器单元中财务数据真伪以及可靠性,进而起到了辅助删洗虚假财务数据的作用,由于财务数据采集后通过筛选和过滤剔除了冗余,减少了服务器的负担,同时也增加了财务数据的可靠性。
附图说明
图1为本发明提出一种基于数据挖掘的整合系统的控制流程图。
具体实施方式
为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合附图和实施例对本发明做进一步说明。需要说明的是,在不冲突的情况下,本申请的实施例及实施例中的特征可以相互组合。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是,本发明还可以采用不同于在此描述的其他方式来实施,因此,本发明并不限于下面公开说明书的具体实施例的限制。
实施例一,请参阅图1,本发明提供一种技术方案:一种基于数据挖掘的整合系统,互动体感式多媒体系统包括:
服务器单元:用于存储、处理和传递财务数据,同时也用于接收各个单元发送的、待操作财务数据结构对应的操作指令;
财务数据统计单元:用于响应用户操作,基于多线程采集用户上传的财务数据,还能够用互联网搜索引擎实现财务数据抓取,按照实际需要制定规则和筛选标准进行财务数据归类,最终形成财务数据库文件,采集后的财务数据返回服务器财务数据库中;
财务数据分析单元:用于对统计出的财务数据按照资产负债表、利润表、现金流量表、所有者权益变动表进行分类,从而生成相应的以图形曲线形式存在的当前财务报表信息,最后呈现在前端页面,实现了财务数据的挖掘;
机器学习单元:利用训练成熟的机器学习模型,识别采集在服务器单元中财务数据真伪以及可靠性,并将识别结果呈现在前端页面通过人工方式筛选删洗,删洗后的财务数据在服务器单元中更新;
财务数据整合单元:将服务器中的财务报表上传至同一整合页中,实现财务数据的初步录入效果,随后将相同类型的财务报表分类整合即可,进而能够通过查询终端对财务数据查看。
财务数据采集单元还包括财务数据筛选模块和财务数据过滤模块,财务数据筛选模块用于判断是否对主网页下的子网页的财务数据采集,财务数据过滤模块用于对采集过的网址过滤去重操作。
财务数据库包括普通二维财务数据库以及SSAS多维财务数据库。
在财务数据分析前,服务器财务数据库需预先创建带备份财务数据存储表,用于存储待分析财务数据。
财务数据分析单元还能够将所有财务报表信息的分析结果进行对比显示。
机器学习模型对模型进行训练后,可以使用它根据之前未见过的财务数据进行推理,并对这些财务数据进行预测,直到识别结果准确率达到设定阈值。
机器学习模型基于连接逻辑回归模型输出、支持向量机模型输出、决策树模型输出、神经网络模型输出的Stacking算法模型。
在删洗财务数据前能够人工选择是否备份当前财务数据,进而避免所需财务数据的丢失。
在财务报表整合过程中,财务数据整合单元会预先对相同类型的财务报表标记并赋予行号,便于后续对报表的检索。
本发明中,通过财务数据统计单元能够将互联网以及人为录入的数据采集至服务器中,并对统计出的财务数据按照资产负债表、利润表、现金流量表、所有者权益变动表进行分类,从而生成相应的以图形曲线形式存在的当前财务报表信息,随后利用训练成熟的机器学习模型,识别采集在服务器单元中财务数据真伪以及可靠性,进而起到了辅助删洗虚假财务数据的作用,由于财务数据采集后通过筛选和过滤剔除了冗余,减少了服务器的负担,同时也增加了财务数据的可靠性。
以上所述,仅是本发明的较佳实施例而已,并非是对本发明作其它形式的限制,任何熟悉本专业的技术人员可能利用上述揭示的技术内容加以变更或改型为等同变化的等效实施例应用于其它领域,但是凡是未脱离本发明技术方案内容,依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与改型,仍属于本发明技术方案的保护范围。

Claims (9)

1.一种基于数据挖掘的整合系统,其特征在于,所述互动体感式多媒体系统包括:
服务器单元:用于存储、处理和传递财务数据,同时也用于接收各个单元发送的、待操作财务数据结构对应的操作指令;
财务数据统计单元:用于响应用户操作,基于多线程采集用户上传的财务数据,还能够用互联网搜索引擎实现财务数据抓取,按照实际需要制定规则和筛选标准进行财务数据归类,最终形成财务数据库文件,采集后的财务数据返回服务器财务数据库中;
财务数据分析单元:用于对统计出的财务数据按照资产负债表、利润表、现金流量表、所有者权益变动表进行分类,从而生成相应的以图形曲线形式存在的当前财务报表信息,最后呈现在前端页面,实现了财务数据的挖掘;
机器学习单元:利用训练成熟的机器学习模型,识别采集在服务器单元中财务数据真伪以及可靠性,并将识别结果呈现在前端页面通过人工方式筛选删洗,删洗后的财务数据在服务器单元中更新;
财务数据整合单元:将服务器中的财务报表上传至同一整合页中,实现财务数据的初步录入效果,随后将相同类型的财务报表分类整合即可,进而能够通过查询终端对财务数据查看。
2.根据权利要求1所述的基于数据挖掘的整合系统,其特征在于:所述财务数据采集单元还包括财务数据筛选模块和财务数据过滤模块,财务数据筛选模块用于判断是否对主网页下的子网页的财务数据采集,财务数据过滤模块用于对采集过的网址过滤去重操作。
3.根据权利要求1所述的基于数据挖掘的整合系统,其特征在于:所述财务数据库包括普通二维财务数据库以及SSAS多维财务数据库。
4.根据权利要求1所述的基于数据挖掘的整合系统,其特征在于:在财务数据分析前,服务器财务数据库需预先创建带备份财务数据存储表,用于存储待分析财务数据。
5.根据权利要求1所述的基于数据挖掘的整合系统,其特征在于:所述财务数据分析单元还能够将所有财务报表信息的分析结果进行对比显示。
6.根据权利要求1所述的基于数据挖掘的整合系统,其特征在于:机器学习模型对模型进行训练后,可以使用它根据之前未见过的财务数据进行推理,并对这些财务数据进行预测,直到识别结果准确率达到设定阈值。
7.根据权利要求1所述的基于数据挖掘的整合系统,其特征在于:所述机器学习模型基于连接逻辑回归模型输出、支持向量机模型输出、决策树模型输出、神经网络模型输出的Stacking算法模型。
8.根据权利要求1所述的基于数据挖掘的整合系统,其特征在于:在删洗财务数据前能够人工选择是否备份当前财务数据,进而避免所需财务数据的丢失。
9.根据权利要求1所述的基于数据挖掘的整合系统,其特征在于:在财务报表整合过程中,财务数据整合单元会预先对相同类型的财务报表标记并赋予行号,便于后续对报表的检索。
CN202211392417.8A 2022-11-08 2022-11-08 一种基于数据挖掘的整合系统 Pending CN116089407A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211392417.8A CN116089407A (zh) 2022-11-08 2022-11-08 一种基于数据挖掘的整合系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211392417.8A CN116089407A (zh) 2022-11-08 2022-11-08 一种基于数据挖掘的整合系统

Publications (1)

Publication Number Publication Date
CN116089407A true CN116089407A (zh) 2023-05-09

Family

ID=86205301

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211392417.8A Pending CN116089407A (zh) 2022-11-08 2022-11-08 一种基于数据挖掘的整合系统

Country Status (1)

Country Link
CN (1) CN116089407A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117216478A (zh) * 2023-09-12 2023-12-12 杭州融易算智能科技有限公司 一种财务数据批量处理方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117216478A (zh) * 2023-09-12 2023-12-12 杭州融易算智能科技有限公司 一种财务数据批量处理方法
CN117216478B (zh) * 2023-09-12 2024-04-30 杭州融易算智能科技有限公司 一种财务数据批量处理方法

Similar Documents

Publication Publication Date Title
CN107239891B (zh) 一种基于大数据的招投标审核方法
CN103297435B (zh) 一种基于web日志的异常访问行为检测方法与系统
CN111767716B (zh) 企业多级行业信息的确定方法、装置及计算机设备
CN105488697A (zh) 一种基于客户行为特征的潜在客户挖掘方法
CN104769585A (zh) 递归地遍历因特网和其他源以识别、收集、管理、评判和鉴定企业身份及相关数据的系统和方法
CN110413786A (zh) 基于网页文本分类的数据处理方法、智能终端及存储介质
CN106095965A (zh) 一种数据处理方法和装置
CN110544023A (zh) 一种企业区域性贡献力的数据化评估系统及其评估方法
CN116089407A (zh) 一种基于数据挖掘的整合系统
CN115358481A (zh) 一种企业外迁预警识别的方法、系统及装置
CN107609203B (zh) 一种搜索引擎优化效果量化评估的数据分析系统及方法
CN113408207A (zh) 基于社会网络分析技术的数据挖掘的一种方法
Magistri et al. Continual learning for adaptive social network identification
CN116431895A (zh) 安全生产知识个性化推荐方法及系统
CN116630056A (zh) 一种资产管理平台
Kapusta et al. Determining the time window threshold to identify user sessions of stakeholders of a commercial bank portal
CN116302984A (zh) 一种测试任务的根因分析方法、装置及相关设备
CN115600677A (zh) 针对序列推荐系统成员推断攻击推理系统及方法
CN114116831B (zh) 一种大数据挖掘处理方法及装置
WO2022271431A1 (en) System and method that rank businesses in environmental, social and governance (esg)
Permatasari et al. Features Selection for Entity Resolution in Prostitution on Twitter
CN113742495A (zh) 基于预测模型的评级特征权重确定方法及装置、电子设备
CN112417858A (zh) 一种实体权重评分方法、系统、电子设备及存储介质
CN111291198A (zh) 基于大数据的经济形势指数分析方法、系统及计算机可读介质
Cemernek Outlier Detection as Instance Selection Method for Feature Selection in Time Series Classification

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination