CN114169998A - 一种金融大数据分析与挖掘算法 - Google Patents

一种金融大数据分析与挖掘算法 Download PDF

Info

Publication number
CN114169998A
CN114169998A CN202111454315.XA CN202111454315A CN114169998A CN 114169998 A CN114169998 A CN 114169998A CN 202111454315 A CN202111454315 A CN 202111454315A CN 114169998 A CN114169998 A CN 114169998A
Authority
CN
China
Prior art keywords
financial
feature
model
data
data analysis
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111454315.XA
Other languages
English (en)
Inventor
赵军产
陈建文
向浩楠
王宇
董倩
姜永滚
欧阳彬
曾可涵
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hunan University of Technology
Original Assignee
Hunan University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hunan University of Technology filed Critical Hunan University of Technology
Priority to CN202111454315.XA priority Critical patent/CN114169998A/zh
Publication of CN114169998A publication Critical patent/CN114169998A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/03Credit; Loans; Processing thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/06Asset management; Financial planning or analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Physics & Mathematics (AREA)
  • Finance (AREA)
  • Accounting & Taxation (AREA)
  • Theoretical Computer Science (AREA)
  • Development Economics (AREA)
  • General Physics & Mathematics (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Strategic Management (AREA)
  • Technology Law (AREA)
  • General Business, Economics & Management (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Game Theory and Decision Science (AREA)
  • Human Resources & Organizations (AREA)
  • Operations Research (AREA)
  • Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种金融大数据分析与挖掘算法,涉及数据分析与挖掘技术领域,通过对金融数据进行采集;对采集到的金融数据进行处理;通过特征工程对金融数据局进行特征提取,得到特征信息;利用图模型对所述特征信息进行选取,得到目标特征信息;基于所述目标特征信息以及预设问题信息,对模型进行训练,直至得到目标模型;对金融市场进行风险评估;对三类问题进行模型训练与优化;本发明提供一种金融大数据分析与挖掘算法,能够利用图模型对特征进行选择,并且能够训练和优化多种模型解对应解决不同问题。

Description

一种金融大数据分析与挖掘算法
技术领域
本发明涉及数据分析与挖掘技术领域,更具体的是涉及一种金融大数据分析与挖掘算法。
背景技术
金融市场有很强的不确定性,金融投资者和市场管理部门需要对风险进行评估。本发明基于通过大数据分析与挖掘技术,建立金融风险评估和金融欺诈等识别算法。当前金融风险评估的主要方法为:以机器学习算法进行分类和回归,通过对特征进行提取和选择来对模型进行优化,建立识别或回归框架对整体进行调优,建立风险评估模型。
但是现有技术中由于实际问题的数据分布不均衡,特征选择和用户画像的准确度不高,造成学习效果偏低,影响风险评估算法的稳定性,并且小样本、不平衡样本以及高维样本问题难以解决,难以理解各特征之间的内在联系和因果关系,风险识别能力不高,需要对模型和算法整体框架进行优化。
发明内容
本发明的目的在于:为了解决上述技术问题,本发明提供一种金融大数据分析与挖掘算法,能够利用图模型对特征进行选择,并且能够训练和优化多种模型解对应解决不同问题。
本发明为了实现上述目的具体采用以下技术方案:一种金融大数据分析与挖掘算法,包括以下步骤:
步骤S1:对金融数据进行采集;
步骤S2:对采集到的金融数据进行处理,包括数据的探索、数据的分布及数据的异常检测;
步骤S3:通过特征工程对金融数据局进行特征提取,得到特征信息;
步骤S4:利用图模型对所述特征信息进行选取,得到目标特征信息;
步骤S5:基于所述目标特征信息以及预设问题信息,对模型进行训练,直至得到目标模型,预设问题包括以下至少一种:产品定价问题、金融欺诈识别问题、金融客户流失预警问题及股票涨跌预测与投资收益问题;
步骤S6:对金融市场进行风险评估;
步骤S7:对三类问题进行模型训练与优化,三类问题包括回归和分类问题、时间序列预测问题及金融市场风险问题。
进一步的:当预设问题为产品定价问题时,所述目标特征信息为金融产品的属性及价格,对其进行特征构造及特征提取,进行构建回归模型,做特征选择。
进一步的:当预设问题为金融欺诈识别问题时,所述目标特征信息为金融客户信息,对其进行特征构造及特征提取,进行构建回归模型,做特征选择。
进一步的:当预设问题为金融客户流失预警问题时,所述目标特征信息为金融客户信息,对其进行特征构造及特征提取,进行构建回归模型,做特征选择。
进一步的:当预设问题为股票涨跌预测与投资收益问题时,所述目标特征信息为金融产品的属性及价格,对其进行特征构造及特征提取,进行构建回归模型,做特征选择。
进一步的:所述步骤S3包括以下步骤:
步骤S31:去除无用特征;
步骤S32;去除冗余特征;
步骤S33:利用存在的特征、转换特征、内容中的特征及其他数据源生成新特征;
步骤S34:对特征进行转换,包括数值化、类别转换及归一化;
步骤S35:对特征进行处理,包括异常值、最大值、最小值及缺失值。
进一步的:在步骤S6中利用图模型对特征进行选择,并且所述步骤S6包括以下步骤:
步骤S61:将金融市场数据按不同时间段进行数据的分割;
步骤S62:计算每部分数据所对应的各个特征间的相似性;
步骤S63:分析特征点之间的联系,同时选择一个相似性的阈值分别建立复杂网络,用临接矩阵表示;
步骤S64:对每部分数据生成最小生成树,计算每个节点的度;
步骤S65:计算相邻不同时间区间节点度的变化值;
步骤S66:对比某个相邻时间区间,对每个节点度的辩护之做平均,得到度变化的平均值,同时对度变化从大到小进行排序,度变化超过平均值的节点重要性进行提取;
步骤S67:提取每个时间区间的重要节点,以最重要的中心节点利用时间区间建立金融风险传导路径,以可视化形式展现。
进一步的:所述回归用户分类问题包括产品定价、金融欺诈、客户流失及投资收益,利用逻辑斯蒂回归、决策树、支持向量机、Adaboost、XGBoost、LightGBM及人工神经网络算法对特征工程后的数据进行训练,并利用stacking的集成模型或贝叶斯优化器对学习过程进行优化。
进一步的:所述时间序列预测问题包括股票价格预测及投资收益预测,利用循环神经网络算法,构建LSTM、GRU模型,对特征工程后的数据进行训练,利用贝叶斯优化器对模型进行优化。
进一步的:所述金融市场风险问题时对整体风险的评估,利用图模型的最小生成树得到的重要节点及建立的节点传导路径,利用优化器对相似性阈值的选取和时间区间的划分标准进行优化,优化器包括贝叶斯优化器、粒子群算法、遗传算法及模拟退火算法,构建整体学习框架,提升学习效果,以实际金融市场的变化来对数据分析结果进行评估。
本发明的有益效果如下:
1:本发明利用特征工程,有效的改善乐回归或分类模型的精度,提升了整体学习效果。
2:利用重采样技术,有效解决了数据分类不平衡问题。
3:利用图模型的最小生成树等算法,有效发现特征股票之间的相互作用,对提取特征股票阶段具有重要价值,有效防范金融市场的风险。
4:利用数据处理、特征工程、算法设计、模型优化及模型融合来构建分类识别回归分析的整体框架,综合对金融数据分析和挖掘算法的性能进行整合优化。
附图说明
图1是本发明的整体流程示意图;
图2是本发明中金融市场节点度在四个时间段的最小生成树图像。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。
因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例1
如图1-图2所示,本实施例提供一种金融大数据分析与挖掘算法,包括以下步骤:
步骤S1:对金融数据进行采集,生成xlsx或csv文档或json文档,数据采集可以通过tushare或requests库在正规网站获取;
步骤S2:对采集到的金融数据进行处理,包括数据的探索、数据的分布及数据的异常检测,通常可以利用pandas库进行数据的处理工作;
步骤S3:通过特征工程对金融数据局进行特征提取,得到特征信息,特征提取就是从原始数据提取特征的过程,这些特征可以很好地描述数据,并且利用特征建立的模型在未知数据上的性能表现可以达到最优(或者接近最优),特征工程一般包括特征使用、特征获取、特征处理、特征选择和特征监控;其具体的实施包括以下步骤:
步骤S31:去除无用特征;
步骤S32;去除冗余特征;
步骤S33:利用存在的特征、转换特征、内容中的特征及其他数据源生成新特征;
步骤S34:对特征进行转换,包括数值化、类别转换及归一化;
步骤S35:对特征进行处理,包括异常值、最大值、最小值及缺失值。
步骤S4:利用图模型对所述特征信息进行选取,得到目标特征信息;
步骤S5:基于所述目标特征信息以及预设问题信息,对模型进行训练,直至得到目标模型,预设问题包括以下至少一种:产品定价问题、金融欺诈识别问题、金融客户流失预警问题及股票涨跌预测与投资收益问题;
当预设问题为产品定价问题时,所述目标特征信息为金融产品的属性及价格,对其进行特征构造及特征提取,进行构建回归模型,做特征选择;当预设问题为金融欺诈识别问题时,所述目标特征信息为金融客户信息,对其进行特征构造及特征提取,进行构建回归模型,做特征选择;当预设问题为金融客户流失预警问题时,所述目标特征信息为金融客户信息,对其进行特征构造及特征提取,进行构建回归模型,做特征选择;当预设问题为股票涨跌预测与投资收益问题时,所述目标特征信息为金融产品的属性及价格,对其进行特征构造及特征提取,进行构建回归模型,做特征选择。
步骤S6:对金融市场进行风险评估,以每只股票作为金融股市数据的一个特征;其具体的实施包括以下步骤:
步骤S61:将金融市场数据按不同时间段进行数据的分割;
步骤S62:计算每部分数据所对应的各个特征间的相似性;
步骤S63:分析特征点之间的联系,同时选择一个相似性的阈值分别建立复杂网络,用临接矩阵表示(如果相似性大于该阈值的则这两个点连接,在邻接矩阵中用1表示;反之如果相似性小于该阈值的则这两个点不连接,在邻接矩阵中用0表示);
步骤S64:对每部分数据生成最小生成树,计算每个节点(特征)的度;
步骤S65:计算相邻不同时间区间节点度的变化值;
步骤S66:对比某个相邻时间区间,对每个节点度的辩护之做平均,得到度变化的平均值,同时对度变化从大到小进行排序,度变化超过平均值的节点重要性进行提取;
步骤S67:提取每个时间区间的重要节点,以最重要的中心节点利用时间区间建立金融风险传导路径,以可视化形式展现。
步骤S7:对三类问题进行模型训练与优化,三类问题包括回归和分类问题、时间序列预测问题及金融市场风险问题。
所述回归用户分类问题包括产品定价、金融欺诈、客户流失及投资收益,利用逻辑斯蒂回归、决策树、支持向量机、Adaboost、XGBoost、LightGBM及人工神经网络算法对特征工程后的数据进行训练,并利用stacking的集成模型或贝叶斯优化器对学习过程进行优化。
所述时间序列预测问题包括股票价格预测及投资收益预测,利用循环神经网络算法,构建LSTM、GRU模型,对特征工程后的数据进行训练,利用贝叶斯优化器对模型进行优化。
所述金融市场风险问题时对整体风险的评估,利用图模型的最小生成树得到的重要节点及建立的节点传导路径,利用优化器对相似性阈值的选取和时间区间的划分标准进行优化,优化器包括贝叶斯优化器、粒子群算法、遗传算法及模拟退火算法,构建整体学习框架,提升学习效果,以实际金融市场的变化来对数据分析结果进行评估。

Claims (10)

1.一种金融大数据分析与挖掘算法,其特征在于,包括以下步骤:
步骤S1:对金融数据进行采集;
步骤S2:对采集到的金融数据进行处理,包括数据的探索、数据的分布及数据的异常检测;
步骤S3:通过特征工程对金融数据局进行特征提取,得到特征信息;
步骤S4:利用图模型对所述特征信息进行选取,得到目标特征信息;
步骤S5:基于所述目标特征信息以及预设问题信息,对模型进行训练,直至得到目标模型,预设问题包括以下至少一种:产品定价问题、金融欺诈识别问题、金融客户流失预警问题及股票涨跌预测与投资收益问题;
步骤S6:对金融市场进行风险评估;
步骤S7:对三类问题进行模型训练与优化,三类问题包括回归和分类问题、时间序列预测问题及金融市场风险问题。
2.根据权利要求1所述的一种金融大数据分析与挖掘算法,其特征在于,当预设问题为产品定价问题时,所述目标特征信息为金融产品的属性及价格,对其进行特征构造及特征提取,进行构建回归模型,做特征选择。
3.根据权利要求1所述的一种金融大数据分析与挖掘算法,其特征在于,当预设问题为金融欺诈识别问题时,所述目标特征信息为金融客户信息,对其进行特征构造及特征提取,进行构建回归模型,做特征选择。
4.根据权利要求1所述的一种金融大数据分析与挖掘算法,其特征在于,当预设问题为金融客户流失预警问题时,所述目标特征信息为金融客户信息,对其进行特征构造及特征提取,进行构建回归模型,做特征选择。
5.根据权利要求1所述的一种金融大数据分析与挖掘算法,其特征在于,当预设问题为股票涨跌预测与投资收益问题时,所述目标特征信息为金融产品的属性及价格,对其进行特征构造及特征提取,进行构建回归模型,做特征选择。
6.根据权利要求1所述的一种金融大数据分析与挖掘算法,其特征在于,所述步骤S3包括以下步骤:
步骤S31:去除无用特征;
步骤S32;去除冗余特征;
步骤S33:利用存在的特征、转换特征、内容中的特征及其他数据源生成新特征;
步骤S34:对特征进行转换,包括数值化、类别转换及归一化;
步骤S35:对特征进行处理,包括异常值、最大值、最小值及缺失值。
7.根据权利要求6所述的一种金融大数据分析与挖掘算法,其特征在于,在步骤S6中利用图模型对特征进行选择,并且所述步骤S6包括以下步骤:
步骤S61:将金融市场数据按不同时间段进行数据的分割;
步骤S62:计算每部分数据所对应的各个特征间的相似性;
步骤S63:分析特征点之间的联系,同时选择一个相似性的阈值分别建立复杂网络,用临接矩阵表示;
步骤S64:对每部分数据生成最小生成树,计算每个节点的度;
步骤S65:计算相邻不同时间区间节点度的变化值;
步骤S66:对比某个相邻时间区间,对每个节点度的辩护之做平均,得到度变化的平均值,同时对度变化从大到小进行排序,度变化超过平均值的节点重要性进行提取;
步骤S67:提取每个时间区间的重要节点,以最重要的中心节点利用时间区间建立金融风险传导路径,以可视化形式展现。
8.根据权利要求7所述的一种金融大数据分析与挖掘算法,其特征在于,所述回归用户分类问题包括产品定价、金融欺诈、客户流失及投资收益,利用逻辑斯蒂回归、决策树、支持向量机、Adaboost、XGBoost、LightGBM及人工神经网络算法对特征工程后的数据进行训练,并利用stacking的集成模型或贝叶斯优化器对学习过程进行优化。
9.根据权利要求7所述的一种金融大数据分析与挖掘算法,其特征在于,所述时间序列预测问题包括股票价格预测及投资收益预测,利用循环神经网络算法,构建LSTM、GRU模型,对特征工程后的数据进行训练,利用贝叶斯优化器对模型进行优化。
10.根据权利要求7所述的一种金融大数据分析与挖掘算法,其特征在于,所述金融市场风险问题时对整体风险的评估,利用图模型的最小生成树得到的重要节点及建立的节点传导路径,利用优化器对相似性阈值的选取和时间区间的划分标准进行优化,优化器包括贝叶斯优化器、粒子群算法、遗传算法及模拟退火算法,构建整体学习框架,提升学习效果,以实际金融市场的变化来对数据分析结果进行评估。
CN202111454315.XA 2021-11-30 2021-11-30 一种金融大数据分析与挖掘算法 Pending CN114169998A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111454315.XA CN114169998A (zh) 2021-11-30 2021-11-30 一种金融大数据分析与挖掘算法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111454315.XA CN114169998A (zh) 2021-11-30 2021-11-30 一种金融大数据分析与挖掘算法

Publications (1)

Publication Number Publication Date
CN114169998A true CN114169998A (zh) 2022-03-11

Family

ID=80482225

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111454315.XA Pending CN114169998A (zh) 2021-11-30 2021-11-30 一种金融大数据分析与挖掘算法

Country Status (1)

Country Link
CN (1) CN114169998A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114757723A (zh) * 2022-06-13 2022-07-15 山东国赢大数据产业有限公司 用于资源要素交易平台的数据分析模型构建系统及方法
CN116503174A (zh) * 2023-06-26 2023-07-28 北京力码科技有限公司 一种基于大数据的金融数据预测系统

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114757723A (zh) * 2022-06-13 2022-07-15 山东国赢大数据产业有限公司 用于资源要素交易平台的数据分析模型构建系统及方法
CN114757723B (zh) * 2022-06-13 2022-09-06 山东国赢大数据产业有限公司 用于资源要素交易平台的数据分析模型构建系统及方法
CN116503174A (zh) * 2023-06-26 2023-07-28 北京力码科技有限公司 一种基于大数据的金融数据预测系统

Similar Documents

Publication Publication Date Title
WO2019237492A1 (zh) 一种基于半监督学习的异常用电用户检测方法
CN111882446B (zh) 一种基于图卷积网络的异常账户检测方法
CN108764584B (zh) 一种企业电能替代潜力评估方法
Lee et al. YASS: yet another spike sorter
Pandey et al. An analysis of machine learning techniques (J48 & AdaBoost)-for classification
CN114169998A (zh) 一种金融大数据分析与挖掘算法
Shahzad et al. Missing data imputation using genetic algorithm for supervised learning
Casalino et al. Incremental adaptive semi-supervised fuzzy clustering for data stream classification
CN111641608A (zh) 异常用户识别方法、装置、电子设备及存储介质
CN112700324A (zh) 基于CatBoost与受限玻尔兹曼机结合的用户借贷违约预测方法
Agarwal et al. Sentiment analysis in stock price prediction: a comparative study of algorithms
CN111986027A (zh) 基于人工智能的异常交易处理方法、装置
CN117061322A (zh) 物联网流量池管理方法及系统
CN113569920A (zh) 基于自动编码的第二近邻异常检测方法
CN113837481B (zh) 一种基于区块链的金融大数据管理系统
CN114626433A (zh) 一种智能电能表故障预测并分类方法、装置及系统
CN117273791A (zh) 基于大数据的数学模型优化系统及方法
CN112465397A (zh) 一种审计数据的分析方法和装置
CN112256964A (zh) 一种基于多维度数据学习的金融机构潜在客户推荐方法
Pei et al. Financial trading decisions based on deep fuzzy self-organizing map
CN111209955A (zh) 基于深度神经网络和随机森林的飞机电源系统故障识别方法
CN112949954A (zh) 基于识别学习建立财务欺诈识别模型的方法
Baruque et al. THE S 2-ENSEMBLE FUSION ALGORITHM
CN115840920A (zh) 光伏组串单日可分异常分类方法、装置、设备及存储介质
CN115796704A (zh) 基于LightGBM指标模型的物资抽检方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20220311