CN117333012A - 基于数据挖掘的金融风险跟踪管理系统、装置和存储介质 - Google Patents
基于数据挖掘的金融风险跟踪管理系统、装置和存储介质 Download PDFInfo
- Publication number
- CN117333012A CN117333012A CN202311294957.7A CN202311294957A CN117333012A CN 117333012 A CN117333012 A CN 117333012A CN 202311294957 A CN202311294957 A CN 202311294957A CN 117333012 A CN117333012 A CN 117333012A
- Authority
- CN
- China
- Prior art keywords
- data
- risk
- module
- financial
- index
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000007418 data mining Methods 0.000 title claims abstract description 17
- 238000003860 storage Methods 0.000 title claims description 7
- 238000007405 data analysis Methods 0.000 claims abstract description 40
- 238000004140 cleaning Methods 0.000 claims abstract description 36
- 238000000034 method Methods 0.000 claims abstract description 29
- 230000008569 process Effects 0.000 claims abstract description 14
- 238000011156 evaluation Methods 0.000 claims abstract description 4
- 238000001914 filtration Methods 0.000 claims description 38
- 238000007726 management method Methods 0.000 claims description 33
- 238000005516 engineering process Methods 0.000 claims description 20
- 238000004422 calculation algorithm Methods 0.000 claims description 17
- 238000010801 machine learning Methods 0.000 claims description 17
- 238000012545 processing Methods 0.000 claims description 15
- 238000004364 calculation method Methods 0.000 claims description 13
- 230000009471 action Effects 0.000 claims description 6
- 230000008859 change Effects 0.000 claims description 6
- 238000012549 training Methods 0.000 claims description 6
- 230000007306 turnover Effects 0.000 claims description 6
- 238000012360 testing method Methods 0.000 claims description 5
- 230000002159 abnormal effect Effects 0.000 claims description 4
- 230000006399 behavior Effects 0.000 claims description 3
- 238000004590 computer program Methods 0.000 claims description 3
- 238000012544 monitoring process Methods 0.000 abstract description 9
- 238000004458 analytical method Methods 0.000 abstract description 6
- 230000008901 benefit Effects 0.000 abstract description 5
- 238000011161 development Methods 0.000 abstract description 4
- 238000013079 data visualisation Methods 0.000 description 3
- 238000011835 investigation Methods 0.000 description 3
- 238000012502 risk assessment Methods 0.000 description 3
- 230000000007 visual effect Effects 0.000 description 3
- 208000025174 PANDAS Diseases 0.000 description 2
- 208000021155 Paediatric autoimmune neuropsychiatric disorders associated with streptococcal infection Diseases 0.000 description 2
- 240000004718 Panda Species 0.000 description 2
- 235000016496 Panda oleosa Nutrition 0.000 description 2
- 238000003491 array Methods 0.000 description 2
- 238000012217 deletion Methods 0.000 description 2
- 230000037430 deletion Effects 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 238000012216 screening Methods 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 238000013524 data verification Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000006866 deterioration Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000010978 in-process monitoring Methods 0.000 description 1
- 238000002955 isolation Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008092 positive effect Effects 0.000 description 1
- 230000005855 radiation Effects 0.000 description 1
- 238000007637 random forest analysis Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 230000009897 systematic effect Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0635—Risk analysis of enterprise or organisation activities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/242—Query formulation
- G06F16/243—Natural language query formulation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/25—Integrating or interfacing systems involving database management systems
- G06F16/252—Integrating or interfacing systems involving database management systems between a Database Management System and a front-end application
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/26—Visual data mining; Browsing structured data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2411—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
- G06F18/24155—Bayesian classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Human Resources & Organizations (AREA)
- Strategic Management (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Economics (AREA)
- Entrepreneurship & Innovation (AREA)
- Development Economics (AREA)
- Marketing (AREA)
- Mathematical Physics (AREA)
- General Business, Economics & Management (AREA)
- Educational Administration (AREA)
- Accounting & Taxation (AREA)
- Technology Law (AREA)
- Computational Linguistics (AREA)
- Game Theory and Decision Science (AREA)
- Tourism & Hospitality (AREA)
- Quality & Reliability (AREA)
- Operations Research (AREA)
- Finance (AREA)
- Probability & Statistics with Applications (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明属于金融风险监测领域,公开了一种基于数据挖掘的金融风险跟踪管理系统,该系统包括:数据获取模块对企业的数据进行多维度获取;数据分类与清洗模块对采集的数据进行整理分类,并将重复信息和干扰信息进行清洗;指标选取模块选取反映企业金融风险的指标;数据分析模块根据指标选取模块选取的指标,对采集的数据进行对比、分析、计算和处理,输出该企业对应指标金融风险的风险等级;预警模块当数据分析模块输出金融风险安全的风险等级较高,进行金融预警;信息呈现模块显示数据分析模块输出的多维度评估结果。本发明在进行数据采集和分析的过程中,减小分析人员和开发人员的劳动量,推动大数据产业的蓬勃发展,具有重要的经济效益和社会效益。
Description
技术领域
本发明属于金融风险监测领域,尤其涉及一种基于数据挖掘的金融风险跟踪管理系统、装置和存储介质。
背景技术
数字经济是继农业经济、工业经济之后的主要经济形态,是以数据资源为关键要素,以现代信息网络为主要载体,以信息通信技术融合应用、全要素数字化转型为重要推动力,促进公平与效率更加统一的新经济形态。数字经济发展速度快、辐射范围广、影响程度深,正推动生产方式、生活方式和治理方式深刻变革,成为重组全球要素资源、重塑全球经济结构、改变全球竞争格局的关键力量。
大型企业作为金融风险的重要关注对象,在激烈的市场竞争中,由于经营状况恶化、企业偿债能力和财务表现下降,导致企业的金融风险不断增加聚集,形成区域性、系统性金融风险。
其中,上市公司、重点融资企业以及大额负债企业等重点融资企业的影响尤为显著。
传统的企业监测方法依靠人力进行排查,手段落后,不能精准定位、提前预警。
因此,如何改进现有技术中的企业监测方法及监测效率,使其对高风险企业或重点融资企业进行有效监测、掌握企业的风险动态变化情况,对突发的金融事件提前预警,形成事前预警、事中监测、事后追踪的有效监测机制,以便营造良好的金融行业环境,是目前亟待解决的问题。
发明内容
针对现有技术存在的问题,本发明提供了一种基于数据挖掘的金融风险跟踪管理系统、装置和存储介质。
本发明是这样实现的,一种基于数据挖掘的金融风险跟踪管理系统,该系统每个模块的具体实现方案以及详细的信号和数据处理过程包括:
数据获取模块:利用API接口、网络爬虫技术或其他数据采集技术,从互联网和大数据平台上获取企业相关数据,这些数据为企业财务报告、市场交易数据、新闻报道、社交媒体帖子,获取的数据是结构化的或非结构化的;
数据分类与清洗模块:主要处理获取的原始数据,先将数据按照数据类型、时间范围分类,再使用各种数据清洗技术清洗,如去除重复的数据记录、删除或填充缺失的数据、过滤噪声;
指标选取模块:选取反映企业金融风险的关键指标,这些指标为财务比率和市场数据等;
数据分析模块:使用贝叶斯网络机器学习算法对数据进行分析,包括训练模型、测试模型以及使用模型对新数据进行预测,最后,输出每个企业的风险等级;
预警模块:根据数据分析模块的输出结果发出预警信号,包括发送邮件或短信、在界面上显示预警信息;
信息呈现模块:将数据分析的结果可视化,生成包含企业风险等级、关键指标变化等信息的报表或图表。
进一步,基于数据挖掘的金融风险跟踪管理系统,该系统包括:
数据获取模块,用于获取利用互联网和大数据平台,对企业的数据进行多维度获取;
数据分类与清洗模块,与数据获取模块连接,用于对采集的数据进行整理分类,并将重复信息和干扰信息进行清洗;
指标选取模块,用于选取反映企业金融风险的指标;
数据分析模块,与数据分类与清洗模块、指标选取模块连接,用于利用贝叶斯网络机器学习算法根据指标选取模块选取的指标,对采集的数据进行对比、分析、计算和处理,输出该企业对应指标金融风险的风险等级;
预警模块,与数据分析模块连接,用于当数据分析模块输出金融风险安全的风险等级较高时,进行金融预警;
信息呈现模块,与数据分析模块连接,用于显示数据分析模块输出的多维度评估结果。
进一步,所述数据获取模块包括结构化数据获取和非结构化数据获取两种方式;
所述结构化数据内容包括企业的金融资产、金融债务,企业名下运营商数据、非金融机构债务等信用行为;
所述非结构化数据内容包括企业的其他造成金融风险的信息。
进一步,所述指标选取模块,选取反映企业金融风险的指标,具体包括:
偿债能力单元、盈利能力单元、运营能力单元以及成长能力单元、资本背景单元、经营状况单元、担保质押风险单元、并购风险单元。
进一步,所述偿债能力单元包括流动比率、资产负债率以及债务规模三个指标,相应的计算公式为:
流动比率=(期末)流动资产/(期末)流动负债;
资产负债率=(期末)负债总计/(期末)资产总计;
所述盈利能力单元包括销售利润率指标,其计算公式为:
销售利润率=(期末)利润总额/(期末)营业收入;
所述运营能力单元包括存货周转率指标,其计算公式为:
存货周转率=(期末)营业成本/[0.5*(存货期初余额+存货期末余额)];
所述并购风险单元包括商誉指标,其计算公式为:
商誉占净资产比重=商誉/所有者权益。
进一步,所述数据分类与清洗模块,将重复信息和干扰信息进行清洗具体包括:
S1:基于触发器的触发节点和当前动作节点的数据过滤需求,配置对应的数据过滤规则,并指定触发节点和当前动作节点执行数据过滤规则的触发字段;配置所述数据过滤规则包括选择匹配规则、选择过滤值类型、设置过滤值;
S2:基于预先配置的数据过滤规则,执行所述触发器的对应节点的数据过滤规则时,先根据过滤值类型和过滤值得到匹配规则的参数,再通过匹配规则对触发字段的数据进行匹配。
进一步,所述匹配规则用于指定匹配的算法;所述过滤值类型用于指定将过滤值转化为匹配规则的参数的方法;所述过滤值用于获取匹配规则的参数。
进一步,所述数据分析模块,对采集的数据利用贝叶斯网络机器学习算法进行对比、分析、计算和处理具体包括:
(1)分类级别的定义:包含A,B,C,D,E五种等级,其中A等级所代表的风险程度最低,E等级所代表的风险程度最高,根据贝叶斯定理可知,所采集的信息属于某一等级的概率为:
其中,特征向量X为某一环境下所采集的事件集合,变量c以及k为某一特定风险等级,具体而言,P(C=c|X=x)为所采集事件集合的风险等级的条件概率,P(C=c)为风险等级的先验概率,P(X=x|C=c)为根据所采集事件计算的不同等级的概率,分母为所采集事件本身的先验概率;
(2)借助朴素贝叶斯的思想,对特征向量X进行假设:即假设X中每一维的特征都是相互独立的,特征与特征之间不存在任何联系,得到如下公式:
其中,特征向量X为所采集所有事件的集合,xk为具体某一事件元素,n为所有元素的数量;
(3)将步骤(1)中的公式代入到步骤(2)中的公式中,得拥有特征向量X的未知样本所属等级概率,且公式表示如下:
其中,拥有特征向量X的未知样本的所属等级即为此时金融风险安全的风险等级。
本发明另一目的在于提供一种基于大数据的金融风险跟踪管理装置,所述基于大数据的金融风险跟踪管理设备用于实现所述的基于大数据的金融风险跟踪管理系统。
本发明另一目的在于提供一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行所述基于大数据的金融风险跟踪管理系统。
与现有技术相比,本发明具备以下有益效果:
第一、本发明通过大数据挖掘技术获取公开的数据,并结合征信数据来实现数据汇总,来保证数据的准确可靠、以便后续通过财务数据、征信数据等指标来判断与评估指标风险,从而提高风险评估准确度和可靠度。
本发明提供的数据分类方法,能加快机器学习算法的训练速度;能自动对所采集的公司金融的信息进行分类,能够提高工作效率。
本发明使用利用贝叶斯网络机器学习算法对借贷对象的信息进行风险评估分级,可有效的明确这些风险的严重程度,可帮助管理人员全面、深入的了解风险产生的原因,从而针对性的选择风险措施来降低和控制风险。
第二、本发明提供了大数据平台,在进行数据采集和分析的过程中,减小了分析人员和开发人员的劳动量,为包括消费金融行业在内的各行业提供服务,推动大数据产业的蓬勃发展,具有重要的经济效益和社会效益。
第三、以下是每个模块的优点和积极效果:
数据获取模块:使用自然语言处理(NLP)和深度学习模型,从各种非结构化文本中提取关键信息,大大提高了数据获取的广度和深度。与传统的数据获取方法相比,这种技术进步使得系统能够从更丰富和多样的数据源中获取数据,从而更全面地评估金融风险。
数据分类与清洗模块:通过使用机器学习的异常检测算法和数据预处理工具,可以自动检测和处理数据中的异常和错误,从而提高了数据质量。这种技术进步减少了人工数据清洗的工作量,同时也提高了数据处理的效率和准确性。
指标选取模块:通过使用机器学习的特征选择技术,能够自动选取最有代表性和预测能力的风险指标,从而提高了风险预测的准确性。这种技术进步使得系统能够根据数据的实际情况,灵活地选择最适合的风险指标。
数据分析模块:使用更复杂和强大的机器学习模型,如深度神经网络和随机森林等,提高了风险预测的性能。这种技术进步使得系统能够更准确地预测金融风险,从而更有效地监测和预警金融风险。
预警模块:通过使用人工智能决策系统,可以自动决定何时和如何发出预警信号,大大提高了预警的效率和准确性。这种技术进步使得系统能够根据实际情况,灵活地发出预警,从而更有效地防止和应对金融风险。
信息呈现模块:使用人工智能的数据可视化技术,能够自动生成直观且易于理解的报表和图表,提高了结果的可解释性和易用性。这种技术进步使得系统的结果能够更直观地呈现给用户,从而提高用户的满意度和使用体验。
附图说明
图1是本发明实施例提供的一种基于数据挖掘的金融风险跟踪管理系统结构图;
图2是本发明实施例提供的数据分类与清洗模块,将重复信息和干扰信息进行清洗方法流程图;
图中:1、数据获取模块;2、数据分类与清洗模块;3、指标选取模块;4、数据分析模块;5、预警模块;6、信息呈现模块。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明实施例提供的一种基于数据挖掘的金融风险跟踪管理系统,该金融风险跟踪管理系统中每个模块的具体实现方案,以及详细的信号和数据处理过程包括:
数据获取模块:利用API接口、网络爬虫技术或其他数据采集技术,从互联网和大数据平台上获取企业相关数据,这些数据包括企业财务报告、市场交易数据、新闻报道、社交媒体帖子,获取的数据是结构化的(例如数据库表格)或非结构化的(例如文本);
数据分类与清洗模块:主要处理获取的原始数据,以便进行后续的分析,首先,将数据按照数据类型、时间范围进行分类,然后,使用各种数据清洗技术,如去除重复的数据记录、删除或填充缺失的数据、过滤噪声;
指标选取模块:选取反映企业金融风险的关键指标,这些指标包括财务比率(如负债比率、流动比率等)、市场数据(如股价波动、交易量等),选取这些指标的过程通常需要专业的金融知识和实践经验。
数据分析模块:使用贝叶斯网络机器学习算法对数据进行分析,这个过程包括训练模型(使用已知的企业风险数据来学习模型参数)、测试模型(用测试数据检验模型的预测能力)以及使用模型对新数据进行预测,最后,输出每个企业的风险等级。
预警模块:根据数据分析模块的输出结果,如果风险等级过高,则发出预警信号,包括发送邮件或短信、在界面上显示预警信息。
信息呈现模块:将数据分析的结果可视化,生成包含企业风险等级、关键指标变化等信息的报表或图表,以帮助用户更容易理解和解释结果。
如图1所示,本发明实施例提供一种基于数据挖掘的金融风险跟踪管理系统,该系统包括:
数据获取模块1,用于利用互联网和大数据平台,对企业的数据进行多维度获取;
数据分类与清洗模块2,与数据获取模块1连接,用于对采集的数据进行整理分类,并将重复信息和干扰信息进行清洗;数据分类与清洗是数据预处理的重要步骤,它可以帮助我们从原始数据中获取有意义的信息。以下是一个的实现过程:
1)数据获取:数据首先从各种源(如传感器、数据库、网络等)获取。
2)数据分类:将获取的数据按照数据类型(如数值型、类别型等)、时间范围(如按日、按月等)、来源等因素进行分类。
3)数据清洗:在完成数据分类后,接下来对每一类数据进行清洗。具体步骤包括:
重复数据的删除:检查每一类数据,查找并删除重复的数据记录。如果完全相同,就是重复数据。
缺失数据的处理:查找每一类数据中的缺失值,然后决定是删除这些记录,还是用某种方法(如均值、中位数、最近邻值等)填充这些缺失值。
异常数据的过滤:查找每一类数据中的异常值,这些值是由传感器错误、数据传输错误等原因造成的。可以使用统计方法(如Z-score、IQR等)或机器学习方法(如IsolationForest、Local Outlier Factor等)来检测和过滤这些异常值。
4)数据验证:在完成数据清洗后,需要对清洗后的数据进行验证,以确保数据的质量。这包括数据一致性、完整性、准确性等方面的检查。
以上步骤需要使用数据处理和分析的工具和语言来实现,如Python的pandas、NumPy、scikit-learn等库,或者R语言的dplyr、tidyr、caret等包。
指标选取模块3,用于选取反映企业金融风险的指标;
数据分析模块4,与数据分类与清洗模块2、指标选取模块3连接,用于利用贝叶斯网络机器学习算法根据指标选取模块选取的指标,对采集的数据进行对比、分析、计算和处理,输出该企业对应指标金融风险的风险等级;
预警模块5,与数据分析模块4连接,用于当数据分析模块4输出金融风险安全的风险等级较高时,进行金融预警;
信息呈现模块6,与数据分析模块4连接,用于显示数据分析模块4输出的多维度评估结果。
所述数据获取模块1包括结构化数据获取和非结构化数据获取两种方式;
所述结构化数据内容包括企业的金融资产、金融债务,企业名下运营商数据、非金融机构债务等信用行为;
所述非结构化数据内容包括企业的其他造成金融风险的信息。
所述指标选取模块3,选取反映企业金融风险的指标,具体包括:
偿债能力单元、盈利能力单元、运营能力单元以及成长能力单元、资本背景单元、经营状况单元、担保质押风险单元、并购风险单元。
所述偿债能力单元包括流动比率、资产负债率以及债务规模三个指标,相应的计算公式为:
流动比率=(期末)流动资产/(期末)流动负债;
资产负债率=(期末)负债总计/(期末)资产总计;
所述盈利能力单元包括销售利润率指标,其计算公式为:
销售利润率=(期末)利润总额/(期末)营业收入;
所述运营能力单元包括存货周转率指标,其计算公式为:
存货周转率=(期末)营业成本/[0.5*(存货期初余额+存货期末余额)];
所述并购风险单元包括商誉指标,其计算公式为:
商誉占净资产比重=商誉/所有者权益。
所述数据分类与清洗模块2,将重复信息和干扰信息进行清洗具体包括:
S1:基于触发器的触发节点和当前动作节点的数据过滤需求,配置对应的数据过滤规则,并指定触发节点和当前动作节点执行数据过滤规则的触发字段;配置所述数据过滤规则包括选择匹配规则、选择过滤值类型、设置过滤值;
S2:基于预先配置的数据过滤规则,执行所述触发器的对应节点的数据过滤规则时,先根据过滤值类型和过滤值得到匹配规则的参数,再通过匹配规则对触发字段的数据进行匹配。
所述匹配规则用于指定匹配的算法;所述过滤值类型用于指定将过滤值转化为匹配规则的参数的方法;所述过滤值用于获取匹配规则的参数。
所述数据分析模块4,对采集的数据利用贝叶斯网络机器学习算法进行对比、分析、计算和处理具体包括:
(1)分类级别的定义:包含A,B,C,D,E五种等级,其中A等级所代表的风险程度最低,E等级所代表的风险程度最高,根据贝叶斯定理可知,所采集的信息属于某一等级的概率为:
其中,特征向量X为某一环境下所采集的事件集合,变量c以及k为某一特定风险等级,具体而言,P(C=c|X=x)为所采集事件集合的风险等级的条件概率,P(C=c)为风险等级的先验概率,P(X=x|C=c)为根据所采集事件计算的不同等级的概率,分母为所采集事件本身的先验概率;
(2)借助朴素贝叶斯的思想,对特征向量X进行假设:即假设X中每一维的特征都是相互独立的,特征与特征之间不存在任何联系,得到如下公式:
其中,特征向量X为所采集所有事件的集合,xk为具体某一事件元素,n为所有元素的数量;
(3)将步骤(1)中的公式代入到步骤(2)中的公式中,得拥有特征向量X的未知样本所属等级概率,且公式表示如下:
其中,拥有特征向量X的未知样本的所属等级即为此时金融风险安全的风险等级。
所述信息呈现模块6为显示器,并出具风险评估报告。
本发明实施例提供一种基于大数据的金融风险跟踪管理装置,所述基于大数据的金融风险跟踪管理设备用于实现所述的基于大数据的金融风险跟踪管理系统。
本发明实施例提供一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行所述基于大数据的金融风险跟踪管理系统。
1.数据获取模块:
信号来源:互联网和大数据平台;
数据采集技术:API接口、网络爬虫技术等;
数据类型:结构化数据(如数据库表格)和非结构化数据(如文本);
数据获取流程:通过API接口或网络爬虫技术从互联网和大数据平台上获取企业相关数据,包括财务报告、市场交易数据、新闻报道、社交媒体帖子等。
2.数据分类与清洗模块:
信号来源:数据获取模块获取的原始数据;
数据分类:按照数据类型和时间范围进行分类;
数据清洗技术:去除重复数据记录、删除或填充缺失数据、过滤噪声等;
数据清洗流程:将从数据获取模块获取的原始数据按照数据类型和时间范围进行分类,并对每个类别的数据进行清洗处理,去除重复数据、填充缺失数据、过滤噪声等。
3.指标选取模块:
信号来源:经过数据分类与清洗的数据;
关键指标选取:选取反映企业金融风险的关键指标,如财务比率、市场数据等;
指标选取流程:根据专业金融知识和实践经验,从经过数据清洗的数据中选取关键指标,这些指标通常包括财务比率(如负债比率、流动比率等)和市场数据(如股价波动、交易量等)。
4.数据分析模块:
信号来源:经过指标选取的数据;
数据分析技术:贝叶斯网络机器学习算法;
数据分析流程:使用贝叶斯网络机器学习算法对经过指标选取的数据进行分析,包括模型训练、测试和预测,最后输出每个企业的风险等级。
5.预警模块:
信号来源:数据分析模块输出的风险等级;
预警信号:如果风险等级过高,发出预警信号;
预警流程:根据数据分析模块输出的风险等级,如果风险等级超过预设阈值,则触发预警,可以通过发送邮件或短信,或在界面上显示预警信息。
6.信息呈现模块:
信号来源:数据分析模块输出的结果;
信息呈现方式:可视化报表或图表。
信息呈现流程:将数据分析模块输出的结果进行可视化处理,生成包含企业风险等级、关键指标变化等信息的报表或图表,以帮助用户更容易理解和解释结果。
1.数据获取模块的具体实现方案:
利用API接口:通过与数据提供方合作或使用公开的API接口,通过HTTP请求获取数据。根据API文档和协议,发送请求并接收响应数据。
网络爬虫技术:使用Python等编程语言编写爬虫程序,模拟浏览器访问目标网站,提取网页内容并解析数据。可以使用第三方库如BeautifulSoup和Scrapy来简化爬虫开发过程。
2.数据分类与清洗模块的具体实现方案:
数据分类:对获取的原始数据进行解析和识别,根据数据类型和时间范围等属性进行分类,并将数据存储到不同的数据表或文件中,方便后续处理。
数据清洗技术:使用数据处理工具或编程语言,对每个类别的数据进行清洗处理,去除重复数据、填充缺失数据、过滤噪声等。可以使用Python的pandas库来进行数据清洗和处理。
3.指标选取模块的具体实现方案:
专业金融知识和实践经验:由金融领域的专业人士根据业务需求和实际情况选取关键指标。可以建立一个指标库,包含常用的财务比率和市场数据指标,根据企业类型和行业特点进行选择。
数据筛选和处理:根据选取的指标,从经过清洗的数据中筛选出相应的字段,并进行必要的计算和转换,得到指标的具体数值。
4.数据分析模块的具体实现方案:
贝叶斯网络机器学习算法:根据数据的相关性和条件概率,构建贝叶斯网络模型,利用历史数据进行模型训练和参数学习,从而实现对新数据的预测。可以使用Python的pgmpy库来构建和训练贝叶斯网络模型。
5.预警模块的具体实现方案:
预警阈值设置:根据实际业务需求和风险管理策略,设定相应的预警阈值,当风险等级超过阈值时触发预警。
预警信号发送:通过调用邮件或短信发送的接口,将预警信息及时通知相关人员。可以使用Python的smtplib库来发送邮件,使用短信接口发送短信。
6.信息呈现模块的具体实现方案:
数据可视化:使用数据可视化工具如Matplotlib、Seaborn、Plotly等,将分析结果可视化为图表和报表,以便用户更直观地理解和解释数据。
报表生成:根据分析结果,生成包含企业风险等级、关键指标变化等信息的报表,可以采用Excel或HTML格式,也可以通过Web界面呈现。
应当注意,本发明的实施方式可以通过硬件、软件或者软件和硬件的结合来实现。硬件部分可以利用专用逻辑来实现;软件部分可以存储在存储器中,由适当的指令执行系统,例如微处理器或者专用设计硬件来执行。本领域的普通技术人员可以理解上述的设备和方法,可以使用计算机可执行指令和/或包含在处理器控制代码中来实现,例如在诸如磁盘、CD或DVD-ROM的载体介质,诸如只读存储器(固件)的可编程的存储器,或者诸如光学或电子信号载体的数据载体上提供了这样的代码。本发明的设备及其模块可以由诸如超大规模集成电路或门阵列、诸如逻辑芯片、晶体管等的半导体、或者诸如现场可编程门阵列、可编程逻辑设备等的可编程硬件设备的硬件电路实现,也可以用由各种类型的处理器执行的软件实现,也可以由上述硬件电路和软件的结合例如固件来实现。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,都应涵盖在本发明的保护范围之内。
Claims (10)
1.一种基于数据挖掘的金融风险跟踪管理系统,其特征在于,包括:
数据获取模块:利用API接口、网络爬虫技术或其他数据采集技术,从互联网和大数据平台上获取企业相关数据,这些数据为企业财务报告、市场交易数据、新闻报道、社交媒体帖子,获取的数据是结构化的或非结构化的;
数据分类与清洗模块:主要处理获取的原始数据,先将数据按照数据类型、时间范围分类,再使用各种数据清洗技术清洗,如去除重复的数据记录、删除或填充缺失的数据、过滤噪声;
指标选取模块:选取反映企业金融风险的关键指标,这些指标为财务比率、市场数据;
数据分析模块:使用贝叶斯网络机器学习算法对数据进行分析,包括训练模型、测试模型以及使用模型对新数据进行预测,最后,输出每个企业的风险级;
预警模块:根据数据分析模块的输出结果发出预警信号,包括发送邮件或短信、在界面上显示预警信息;
信息呈现模块:将数据分析的结果可视化,生成包含企业风险级、关键指标变化信息的报表或图表。
2.如权利要求1所述基于数据挖掘的金融风险跟踪管理系统,其特征在于,该系统包括:
数据获取模块,用于获取利用互联网和大数据平台,对企业的数据进行多维度获取;
数据分类与清洗模块,与数据获取模块连接,用于对采集的数据进行整理分类,并将重复信息和干扰信息进行清洗;
指标选取模块,用于选取反映企业金融风险的指标;
数据分析模块,与数据分类与清洗模块、指标选取模块连接,用于利用贝叶斯网络机器学习算法根据指标选取模块选取的指标,对采集的数据进行对比、分析、计算和处理,输出该企业对应指标金融风险的风险级;
预警模块,与数据分析模块连接,用于当数据分析模块输出金融风险安全的风险级较高时,进行金融预警;
信息呈现模块,与数据分析模块连接,用于显示数据分析模块输出的多维度评估结果。
3.如权利要求1所述基于数据挖掘的金融风险跟踪管理系统,其特征在于,所述数据获取模块包括结构化数据获取和非结构化数据获取两种方式;
所述结构化数据内容包括企业的金融资产、金融债务,企业名下运营商数据、非金融机构债务信用行为;
所述非结构化数据内容包括企业的其他造成金融风险的信息。
4.如权利要求2所述基于数据挖掘的金融风险跟踪管理系统,其特征在于,所述指标选取模块,选取反映企业金融风险的指标,具体包括:
偿债能力单元、盈利能力单元、运营能力单元以及成长能力单元、资本背景单元、经营状况单元、担保质押风险单元、并购风险单元。
5.如权利要求4所述基于数据挖掘的金融风险跟踪管理系统,其特征在于,所述偿债能力单元包括流动比率、资产负债率以及债务规模三个指标,相应的计算公式为:
流动比率=(期末)流动资产/(期末)流动负债;
资产负债率=(期末)负债总计/(期末)资产总计;
所述盈利能力单元包括销售利润率指标,其计算公式为:
销售利润率=(期末)利润总额/(期末)营业收入;
所述运营能力单元包括存货周转率指标,其计算公式为:
存货周转率=(期末)营业成本/[0.5*(存货期初余额+存货期末余额)];
所述并购风险单元包括商誉指标,其计算公式为:
商誉占净资产比重=商誉/所有者权益。
6.如权利要求2所述基于数据挖掘的金融风险跟踪管理系统,其特征在于,所述数据分类与清洗模块,将重复信息和干扰信息进行清洗具体包括:
S1:基于触发器的触发节点和当前动作节点的数据过滤需求,配置对应的数据过滤规则,并指定触发节点和当前动作节点执行数据过滤规则的触发字段;配置所述数据过滤规则包括选择匹配规则、选择过滤值类型、设置过滤值;
S2:基于预先配置的数据过滤规则,执行所述触发器的对应节点的数据过滤规则时,先根据过滤值类型和过滤值得到匹配规则的参数,再通过匹配规则对触发字段的数据进行匹配。
7.如权利要求6所述的基于大数据的金融风险跟踪管理系统,其特征在于,具体包括:
数据首先从各种源获取;
将获取的数据按照数据类型、时间范围、来源等因素进行分类;
在完成数据分类后,接下来对每一类数据进行清洗;具体步骤包括:检查每一类数据,查找并删除重复的数据记录;如果完全相同,就是重复数据;查找每一类数据中的缺失值,然后决定是删除这些记录,还是用某种方法填充这些缺失值;查找每一类数据中的异常值;
在完成数据清洗后,需要对清洗后的数据进行验证,以确保数据的质量;这包括数据一致性、完整性、准确性等方面的检查。
8.如权利要求2所述的基于大数据的金融风险跟踪管理系统,其特征在于,所述数据分析模块,对采集的数据利用贝叶斯网络机器学习算法进行对比、分析、计算和处理具体包括:
(1)分类级别的定义:包含A,B,C,D,E五种等级,其中A等级所代表的风险程度最低,E等级所代表的风险程度最高,根据贝叶斯定理可知,所采集的信息属于某一等级的概率为:
其中,特征向量X为某一环境下所采集的事件集合,变量c以及k为某一特定风险等级,具体而言,P(C=c|X=x)为所采集事件集合的风险等级的条件概率,P(C=c)为风险等级的先验概率,P(X=x|C=c)为根据所采集事件计算的不同等级的概率,分母为所采集事件本身的先验概率;
(2)借助朴素贝叶斯的思想,对特征向量X进行假设:即假设X中每一维的特征都是相互独立的,特征与特征之间不存在任何联系,得到如下公式:
其中,特征向量X为所采集所有事件的集合,xk为具体某一事件元素,n为所有元素的数量;
(3)将步骤(1)中的公式代入到步骤(2)中的公式中,得拥有特征向量X的未知样本所属等级概率,且公式表示如下:
其中,拥有特征向量X的未知样本的所属等级即为此时金融风险安全的风险等级。
9.一种基于大数据的金融风险跟踪管理装置,其特征在于,所述基于大数据的金融风险跟踪管理设备用于实现如权利要求1-8所述的基于大数据的金融风险跟踪管理系统。
10.一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行如权利要求1-8所述基于大数据的金融风险跟踪管理系统。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311294957.7A CN117333012A (zh) | 2023-10-08 | 2023-10-08 | 基于数据挖掘的金融风险跟踪管理系统、装置和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311294957.7A CN117333012A (zh) | 2023-10-08 | 2023-10-08 | 基于数据挖掘的金融风险跟踪管理系统、装置和存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117333012A true CN117333012A (zh) | 2024-01-02 |
Family
ID=89294766
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311294957.7A Pending CN117333012A (zh) | 2023-10-08 | 2023-10-08 | 基于数据挖掘的金融风险跟踪管理系统、装置和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117333012A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117971817A (zh) * | 2024-03-27 | 2024-05-03 | 智慧(东营)大数据有限公司 | 一种具有筛选有效数据功能的金融数据处理系统 |
-
2023
- 2023-10-08 CN CN202311294957.7A patent/CN117333012A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117971817A (zh) * | 2024-03-27 | 2024-05-03 | 智慧(东营)大数据有限公司 | 一种具有筛选有效数据功能的金融数据处理系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Ganesh et al. | Future of artificial intelligence and its influence on supply chain risk management–A systematic review | |
Omri et al. | Industrial data management strategy towards an SME-oriented PHM | |
EP4195112A1 (en) | Systems and methods for enriching modeling tools and infrastructure with semantics | |
US20190095507A1 (en) | Systems and methods for autonomous data analysis | |
CN114066242A (zh) | 一种企业风险的预警方法及装置 | |
CN112116184A (zh) | 使用历史检验数据的工厂风险估计 | |
CN110738527A (zh) | 一种特征重要性排序方法、装置、设备和存储介质 | |
CN111738843B (zh) | 一种使用流水数据的量化风险评价系统和方法 | |
Aboutorab et al. | A survey on the suitability of risk identification techniques in the current networked environment | |
CN111798297A (zh) | 一种财务风险预警分析的方法与装置 | |
CN117333012A (zh) | 基于数据挖掘的金融风险跟踪管理系统、装置和存储介质 | |
CN117473048B (zh) | 基于数据挖掘的财务异常数据监测分析系统及方法 | |
CN111179051A (zh) | 金融目标客户确定方法、装置及电子设备 | |
Goel et al. | Integration of data analytics with cloud services for safer process systems, application examples and implementation challenges | |
US20060248096A1 (en) | Early detection and warning systems and methods | |
CN117422181B (zh) | 一种基于模糊标签的代发客户流失预警方法及系统 | |
KR102499181B1 (ko) | 인공지능을 이용한 대출 상시감사지원시스템 | |
CN117764724A (zh) | 一种智能化的信用评级报告构建方法及系统 | |
Kumar et al. | Cryptocurrency price forecasting in a volatile landscape: Sarimax modeling and short-term strategies | |
KR102499182B1 (ko) | 인공지능을 이용한 가계대출 사기/부실 상시감사지원시스템 | |
CA3177037A1 (en) | Forecasting based on bernoulli uncertainty characterization | |
CN111612302A (zh) | 一种集团级数据管理方法和设备 | |
Bingying | Artificial Intelligence-Based Research in Investment and Financing Decision Making | |
KR102499183B1 (ko) | 인공지능을 이용한 기업대출 사기/사기의심 상시감사지원시스템 | |
Varshini et al. | Stock data analysis with Ulpath automation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |