CN117349900B - 一种基于数据挖掘的智能预测系统及预测方法 - Google Patents
一种基于数据挖掘的智能预测系统及预测方法 Download PDFInfo
- Publication number
- CN117349900B CN117349900B CN202311260091.8A CN202311260091A CN117349900B CN 117349900 B CN117349900 B CN 117349900B CN 202311260091 A CN202311260091 A CN 202311260091A CN 117349900 B CN117349900 B CN 117349900B
- Authority
- CN
- China
- Prior art keywords
- data
- credit
- target
- financial
- samples
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 29
- 238000007418 data mining Methods 0.000 title claims abstract description 21
- 238000012502 risk assessment Methods 0.000 claims abstract description 32
- 238000013475 authorization Methods 0.000 claims abstract description 23
- 238000011156 evaluation Methods 0.000 claims abstract description 17
- 238000007405 data analysis Methods 0.000 claims abstract description 10
- 238000012549 training Methods 0.000 claims description 60
- 238000001514 detection method Methods 0.000 claims description 27
- 230000004048 modification Effects 0.000 claims description 16
- 238000012986 modification Methods 0.000 claims description 16
- 230000002159 abnormal effect Effects 0.000 claims description 13
- 238000005242 forging Methods 0.000 claims description 10
- 238000013210 evaluation model Methods 0.000 claims description 7
- 238000012935 Averaging Methods 0.000 claims description 6
- 230000008569 process Effects 0.000 claims description 6
- 238000012545 processing Methods 0.000 claims description 3
- 230000007246 mechanism Effects 0.000 abstract description 4
- 230000009471 action Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000007726 management method Methods 0.000 description 3
- 238000004590 computer program Methods 0.000 description 2
- 238000013500 data storage Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000013178 mathematical model Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/64—Protecting data integrity, e.g. using checksums, certificates or signatures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2465—Query processing support for facilitating data mining operations in structured databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/602—Providing cryptographic facilities or services
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/62—Protecting access to data via a platform, e.g. using keys or access control rules
- G06F21/6218—Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
- G06F21/6245—Protecting personal data, e.g. for financial or medical purposes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/03—Credit; Loans; Processing thereof
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/04—Network architectures or network communication protocols for network security for providing a confidential data exchange among entities communicating through data packet networks
- H04L63/0428—Network architectures or network communication protocols for network security for providing a confidential data exchange among entities communicating through data packet networks wherein the data content is protected, e.g. by encrypting or encapsulating the payload
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/10—Network architectures or network communication protocols for network security for controlling access to devices or network resources
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L9/00—Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols
- H04L9/40—Network security protocols
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L9/00—Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols
- H04L9/50—Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols using hash chains, e.g. blockchains or hash trees
Landscapes
- Engineering & Computer Science (AREA)
- Computer Security & Cryptography (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computer Hardware Design (AREA)
- Signal Processing (AREA)
- General Health & Medical Sciences (AREA)
- Bioethics (AREA)
- Software Systems (AREA)
- Computer Networks & Wireless Communication (AREA)
- Health & Medical Sciences (AREA)
- Business, Economics & Management (AREA)
- Databases & Information Systems (AREA)
- Finance (AREA)
- Computing Systems (AREA)
- Accounting & Taxation (AREA)
- Computational Linguistics (AREA)
- Fuzzy Systems (AREA)
- Data Mining & Analysis (AREA)
- Probability & Statistics with Applications (AREA)
- Mathematical Physics (AREA)
- Medical Informatics (AREA)
- Development Economics (AREA)
- Economics (AREA)
- Marketing (AREA)
- Strategic Management (AREA)
- Technology Law (AREA)
- General Business, Economics & Management (AREA)
- Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)
Abstract
本发明公开了一种基于数据挖掘的智能预测系统及预测方法,涉及金融大数据技术领域。链外存储模块使用加密密钥加密目标金融数据,并将加密密钥和存储地址保存至共享区块链,当接收到金融服务请求和授权文件,根据授权文件获取加密密钥和目标存储数据,得到目标金融数据返回风险评估服务器;对目标金融数据进行数据分析生成目标用户的信用评估报告。该系统通过对称密钥系统和同意管理机制的组合来加强数据安全,结合共享区块链和链外存储模块对于目标金融数据提供了多层安全防护,通过使用共享区块链可以有效地管理对数据访问的授权,提高了金融数据的隐私、安全和数据完整性,进而降低了智能决策系统的网络风险且提高了预测精度。
Description
技术领域
本发明属于金融大数据技术领域,具体涉及一种基于数据挖掘的智能预测系统及预测方法。
背景技术
随着科技的进步和人们对于金融产品的需求日益提高,互联网金融行业迅速发展。互联网金融的优势在于将金融服务从传统机构解放出来,通过互联网渠道为人们提供便利的金融服务。但是互联网金融的金融服务风险大于传统机构的金融服务。
基于数据挖掘的智能决策系统是一种利用大数据和机器学习技术辅助决策的系统。其可以从大量的数据中提取有价值的信息,并通过建立数学模型和算法来辅助决策者做出准确、可靠的决策。决策者可以结合系统的输出结果与自身经验和专业知识,做出最终的决策。可以极大提升互联网金融风险评估和信用评级的效率。
但是基于数据挖掘的智能决策系统,所有金融数据均通过互联网进行传输,导致客户的金融数据容易丢失或者被篡改,导致智能决策系统的网络风险较大且预测精度降低。
发明内容
本发明的目的就在于解决上述背景技术的问题,而提出一种基于数据挖掘的智能预测系统及预测方法。
本发明的目的可以通过以下技术方案实现:
本发明实施例提供了一种基于数据挖掘的智能预测系统,包括用户终端、风险评估服务器和共享存储服务器;所述共享存储服务器包括共享区块链和链外存储模块;
所述用户终端,用于将目标用户在预设历史时间段内的目标金融数据发送至所述共享存储服务器;
所述链外存储模块,用于使用加密密钥加密目标金融数据,得到目标存储数据,并将所述加密密钥和目标存储数据的存储地址保存至所述共享区块链;
所述链外存储模块,用于当接收到所述风险评估服务器转发的所述用户终端的金融服务请求和授权文件,根据所述授权文件在所述共享区块链获取所述加密密钥和所述目标存储数据,解密所述目标存储数据得到目标金融数据返回至所述风险评估服务器;
所述风险评估服务器,用于对所述目标金融数据进行数据分析生成所述目标用户的信用评估报告。
可选地,所述风险评估服务器包括数据获取模块、数据检测模块、信用评价模块和信用评估模块;其中:
所述数据检测模块,用于检测所述目标金融数据通过预设数据检测模型,将所述目标金融数据分割为正常数据和异常数据;所述目标金融数据包括所述目标用户的用户信息、资产信息和公共信息;
所述信用评价模块,用于将所述正常数据通过预设信用评价模型,得到其中的良好信用数据和不良信用数据;
所述信用评估模块,用于将所述异常数据与所述不良信用数据合并作为目标不良信用数据,根据所述良好信用数据和所述目标不良信用数据生成所述目标用户的信用评估报告。
可选地,所述系统还包括模型训练模块;所述模型训练模块包括:
样本处理模块,用于获取历史金融数据作为训练样本,将所述训练样本划分为不良信用样本和良好信用样本;
样本伪造模块,用于在所述不良信用样本中随机选择第一预设数目个子样本,使用伪造字典修改每一子样本的金融属性序列,得到伪造信用样本;所述金融属性序列保存有子样本各金融属性的属性值,所述伪造字典保存金融属性修改的规则;
样本生成模块,用于将所述良好信用样本和所述伪造信用样本分别进行多次欠采样,组合得到多个目标训练样本;
训练模块,用于使用目标训练样本训练多个孤立森林模型,将所有孤立森林模型的参数取平均值得到所述预设数据检测模型。
可选地,所述样本生成模块包括:
平衡模块,用于确定所述伪造信用样本中的子样本数量作为目标数目;
组合模块,用于针对每一次欠采样,在所述良好信用样本中随机选取所述目标数目个子样本,与所述伪造信用样本组合得到目标训练样本。
可选地,样本伪造模块包括:
相关系数,用于针对每一子样本中的金融属性序列的属性值,计算该属性值与预设信用标准值之间的相关系数;所述预设信用标准值用于判断属性值是否为不良信用;
第一修改模块,用于根据所述伪造字典,若相关系数大于预设第一阈值,则将该属性修改为金融属性序列中的最小值;
第二修改模块,用于根据所述伪造字典,若相关系数小于预设第二阈值,则将该属性修改为金融属性序列中的最大值;
第三修改模块,用于根据所述伪造字典,若相关系数在预设第一阈值和预设第二阈值之间,则将不修改该属性。
本发明实施例还提供了一种基于数据挖掘的智能预测方法,应用于风险评估服务器,所述风险评估服务器、共享存储服务器和用户终端相互连接,所述共享存储服务器包括链外存储模块和共享区块链;所述方法包括:
当接收到用户终端发送的金融服务请求和授权文件,向共享存储服务器转发所述金融服务请求和所述授权文件;以使所述链外存储模块根据所述授权文件在所述共享区块链获取加密密钥和目标存储数据,解密所述目标存储数据得到目标金融数据返回至所述风险评估服务器;所述目标金融数据为所述用户终端事先存储在所述链外存储模块的数据;
对所述目标金融数据进行数据分析生成所述目标用户的信用评估报告。
可选地,对所述目标金融数据进行数据分析生成所述目标用户的信用评估报告包括:
检测所述目标金融数据通过预设数据检测模型,将所述目标金融数据分割为正常数据和异常数据;所述目标金融数据包括所述目标用户的用户信息、资产信息和公共信息;
将所述正常数据通过预设信用评价模型,得到其中的良好信用数据和不良信用数据;
将所述异常数据与所述不良信用数据合并作为目标不良信用数据,根据所述良好信用数据和所述目标不良信用数据生成所述目标用户的信用评估报告。
可选地,所述预设数据检测模型的训练过程包括:
获取历史金融数据作为训练样本,将所述训练样本划分为不良信用样本和良好信用样本;
在所述不良信用样本中随机选择第一预设数目个子样本,使用伪造字典修改每一子样本的金融属性序列,得到伪造信用样本;所述金融属性序列保存有子样本各金融属性的属性值,所述伪造字典保存金融属性修改的规则;
将所述良好信用样本和所述伪造信用样本分别进行多次欠采样,组合得到多个目标训练样本;
使用目标训练样本训练多个孤立森林模型,将所有孤立森林模型的参数取平均值得到所述预设数据检测模型。
可选地,将所述良好信用样本和所述伪造信用样本分别进行多次欠采样,组合得到多个目标训练样本包括:
确定所述伪造信用样本中的子样本数量作为目标数目;
针对每一次欠采样,在所述良好信用样本中随机选取所述目标数目个子样本,与所述伪造信用样本组合得到目标训练样本。
可选地,使用伪造字典修改每一子样本的金融属性序列包括:
针对每一子样本中的金融属性序列的属性值,计算该属性值与预设信用标准值之间的相关系数;所述预设信用标准值用于判断属性值是否为不良信用;
根据所述伪造字典,若相关系数大于预设第一阈值,则将该属性修改为金融属性序列中的最小值;
根据所述伪造字典,若相关系数小于预设第二阈值,则将该属性修改为金融属性序列中的最大值;
根据所述伪造字典,若相关系数在预设第一阈值和预设第二阈值之间,则将不修改该属性。
本发明的有益效果:
本发明实施例提供了一种基于数据挖掘的智能预测系统,包括用户终端、风险评估服务器和共享存储服务器;共享存储服务器包括共享区块链和链外存储模块;用户终端,用于将目标用户在预设历史时间段内的目标金融数据发送至共享存储服务器;链外存储模块,用于使用加密密钥加密目标金融数据得到目标存储数据,并将加密密钥和目标存储数据的存储地址保存至共享区块链;链外存储模块,用于当接收到风险评估服务器转发的用户终端的金融服务请求和授权文件,根据授权文件在共享区块链获取加密密钥和目标存储数据,解密目标存储数据得到目标金融数据返回至风险评估服务器;风险评估服务器,用于对目标金融数据进行数据分析生成目标用户的信用评估报告。该系统通过对称密钥系统和同意管理机制的组合来加强数据安全,结合共享区块链和链外存储模块对于目标金融数据提供了多层安全防护,通过使用共享区块链可以有效地管理对数据访问的授权,提高了金融数据的隐私、安全和数据完整性,进而降低了智能决策系统的网络风险且提高了预测精度。
附图说明
下面结合附图对本发明作进一步的说明。
图1为本发明实施例提供的一种基于数据挖掘的智能预测系统的系统框图;
图2为本发明实施例提供的一种基于数据挖掘的智能预测方法的流程图;
图3为本发明实施例提供的另一种基于数据挖掘的智能预测方法的流程图;
图4为本发明实施例提供的预设数据检测模型的训练方法的流程。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
本发明实施例提供了一种基于数据挖掘的智能预测系统,参见图1,图1为本发明实施例提供的一种基于数据挖掘的智能预测系统的系统框图,包括用户终端、风险评估服务器和共享存储服务器;共享存储服务器包括共享区块链和链外存储模块;
用户终端,用于将目标用户在预设历史时间段内的目标金融数据发送至共享存储服务器;
链外存储模块,用于使用加密密钥加密目标金融数据,得到目标存储数据,并将加密密钥和目标存储数据的存储地址保存至共享区块链;
链外存储模块,用于当接收到风险评估服务器转发的用户终端的金融服务请求和授权文件,根据授权文件在共享区块链获取加密密钥和目标存储数据,解密目标存储数据得到目标金融数据返回至风险评估服务器;
风险评估服务器,用于对目标金融数据进行数据分析生成目标用户的信用评估报告。
基于本发明实施例提供的一种基于数据挖掘的智能预测系统,该系统通过对称密钥系统和同意管理机制的组合来加强数据安全,结合共享区块链和链外存储模块对于目标金融数据提供了多层安全防护,通过使用共享区块链可以有效地管理对数据访问的授权,提高了金融数据的隐私、安全和数据完整性,进而降低了智能决策系统的网络风险且提高了预测精度。
一种实现方式中,由于共享区块链不适合大量数据存储,因此结合链外存储模块,实现数据的存储及授权访问,可以极大提高金融数据的安全性和完整性。
在一个实施例中,风险评估服务器包括数据获取模块、数据检测模块、信用评价模块和信用评估模块;其中:
数据检测模块,用于检测目标金融数据通过预设数据检测模型,将目标金融数据分割为正常数据和异常数据;目标金融数据包括目标用户的用户信息、资产信息和公共信息;
信用评价模块,用于将正常数据通过预设信用评价模型,得到其中的良好信用数据和不良信用数据;
信用评估模块,用于将异常数据与不良信用数据合并作为目标不良信用数据,根据良好信用数据和目标不良信用数据生成目标用户的信用评估报告。
在一个实施例中,系统还包括模型训练模块;模型训练模块包括:
样本处理模块,用于获取历史金融数据作为训练样本,将训练样本划分为不良信用样本和良好信用样本;
样本伪造模块,用于在不良信用样本中随机选择第一预设数目个子样本,使用伪造字典修改每一子样本的金融属性序列,得到伪造信用样本;金融属性序列保存有子样本各金融属性的属性值,伪造字典保存金融属性修改的规则;
样本生成模块,用于将良好信用样本和伪造信用样本分别进行多次欠采样,组合得到多个目标训练样本;
训练模块,用于使用目标训练样本训练多个孤立森林模型,将所有孤立森林模型的参数取平均值得到预设数据检测模型。
在一个实施例中,样本生成模块包括:
平衡模块,用于确定伪造信用样本中的子样本数量作为目标数目;
组合模块,用于针对每一次欠采样,在良好信用样本中随机选取目标数目个子样本,与伪造信用样本组合得到目标训练样本。
在一个实施例中,样本伪造模块包括:
相关系数,用于针对每一子样本中的金融属性序列的属性值,计算该属性值与预设信用标准值之间的相关系数;预设信用标准值用于判断属性值是否为不良信用;
第一修改模块,用于根据伪造字典,若相关系数大于预设第一阈值,则将该属性修改为金融属性序列中的最小值;
第二修改模块,用于根据伪造字典,若相关系数小于预设第二阈值,则将该属性修改为金融属性序列中的最大值;
第三修改模块,用于根据伪造字典,若相关系数在预设第一阈值和预设第二阈值之间,则将不修改该属性。
基于相同的发明构思本发明实施例还提供了一种基于数据挖掘的智能预测方法,参见图2,图2为本发明实施例提供的一种基于数据挖掘的智能预测方法的流程图。该方法应用于风险评估服务器,风险评估服务器、共享存储服务器和用户终端相互连接,共享存储服务器包括链外存储模块和共享区块链;方法包括:
S101,当接收到用户终端发送的金融服务请求和授权文件,向共享存储服务器转发金融服务请求和授权文件;以使链外存储模块根据授权文件在共享区块链获取加密密钥和目标存储数据,解密目标存储数据得到目标金融数据返回至风险评估服务器。
S102,对目标金融数据进行数据分析生成目标用户的信用评估报告。
目标金融数据为用户终端事先存储在链外存储模块的数据。
基于本发明实施例提供的一种基于数据挖掘的智能预测方法,该方法通过对称密钥系统和同意管理机制的组合来加强数据安全,结合共享区块链和链外存储模块对于目标金融数据提供了多层安全防护,通过使用共享区块链可以有效地管理对数据访问的授权,提高了金融数据的隐私、安全和数据完整性,进而降低了智能决策系统的网络风险且提高了预测精度。
在一个实施例中,参见图3,在图2的基础上S102包括:
S1021,检测目标金融数据通过预设数据检测模型,将目标金融数据分割为正常数据和异常数据。
S1022,将正常数据通过预设信用评价模型,得到其中的良好信用数据和不良信用数据。
S1023,将异常数据与不良信用数据合并作为目标不良信用数据,根据良好信用数据和目标不良信用数据生成目标用户的信用评估报告。
目标金融数据包括目标用户的用户信息、资产信息和公共信息。
一种实现方式中,通过共享存储服务器可以防止目标金融数据被第三人进行篡改,而通过预设数据检测模型可以检测目标金融数据本身的真实性,也即目标用户是否对目标金融数据中的数据进行了伪造。将检测出的伪造数据(异常数据)也作为不良信用数据,可以提升信用评估的精确度。
一种实现方式中,预设信用评价模型可以为现有技术中的任意一种,在此不作限定。
在一个实施例中,参见图4,图4为本发明实施例提供的预设数据检测模型的训练方法的流程。预设数据检测模型的训练过程包括:
S401,获取历史金融数据作为训练样本,将训练样本划分为不良信用样本和良好信用样本。
S402,在不良信用样本中随机选择第一预设数目个子样本,使用伪造字典修改每一子样本的金融属性序列,得到伪造信用样本。
S403,将良好信用样本和伪造信用样本分别进行多次欠采样,组合得到多个目标训练样本。
S404,使用目标训练样本训练多个孤立森林模型,将所有孤立森林模型的参数取平均值得到预设数据检测模型。
金融属性序列保存有子样本各金融属性的属性值,伪造字典保存金融属性修改的规则;
一种实现方式中,历史金融数据可以为银行或者金融机构本地存储的用户金融数据。通过修改不良信用样本得到伪造信用样本,用于训练预设数据检测模型。
一种实现方式中,伪造信用样本包括了已修改的不良信用样本和未修改的不良信用样本,将训练样本进行多次欠采样得到多个目标训练样本,然后各目标训练样本的训练结果求平均,提升预设数据检测模型的检测精度。
在一个实施例中,步骤S403具体包括:
步骤一,确定伪造信用样本中的子样本数量作为目标数目。
步骤二,针对每一次欠采样,在良好信用样本中随机选取目标数目个子样本,与伪造信用样本组合得到目标训练样本。
一种实现方式中,由于历史金融数据中良好信用样本相对于不良信用样本数量过多导致训练样本不平衡,伪造信用是由不良信用样本得到的两者数量相同,通过对良好信用样本进行欠采样,使目标训练样本中伪造信用样本和良好信用样本的数目保持一致,解决训练样本不平衡的问题。
在一个实施例中S402中使用伪造字典修改每一子样本的金融属性序列包括:
步骤一,针对每一子样本中的金融属性序列的属性值,计算该属性值与预设信用标准值之间的相关系数;预设信用标准值用于判断属性值是否为不良信用;
步骤二,根据伪造字典,若相关系数大于预设第一阈值,则将该属性修改为金融属性序列中的最小值;
步骤三,根据伪造字典,若相关系数小于预设第二阈值,则将该属性修改为金融属性序列中的最大值;
步骤四,根据伪造字典,若相关系数在预设第一阈值和预设第二阈值之间,则将不修改该属性。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统、电子设备及存储介质而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上对本发明的一个实施例进行了详细说明,但所述内容仅为本发明的较佳实施例,不能被认为用于限定本发明的实施范围。凡依本发明申请范围所作的均等变化与改进等,均应仍归属于本发明的专利涵盖范围之内。
Claims (2)
1.一种基于数据挖掘的智能预测系统,其特征在于,包括用户终端、风险评估服务器和共享存储服务器;所述共享存储服务器包括共享区块链和链外存储模块;
所述用户终端,用于将目标用户在预设历史时间段内的目标金融数据发送至所述共享存储服务器;
所述链外存储模块,用于使用加密密钥加密目标金融数据,得到目标存储数据,并将所述加密密钥和目标存储数据的存储地址保存至所述共享区块链;
所述链外存储模块,用于当接收到所述风险评估服务器转发的所述用户终端的金融服务请求和授权文件,根据所述授权文件在所述共享区块链获取所述加密密钥和所述目标存储数据,解密所述目标存储数据得到目标金融数据返回至所述风险评估服务器;
所述风险评估服务器,用于对所述目标金融数据进行数据分析生成所述目标用户的信用评估报告;
所述风险评估服务器包括数据获取模块、数据检测模块、信用评价模块和信用评估模块;其中:
所述数据检测模块,用于检测所述目标金融数据通过预设数据检测模型,将所述目标金融数据分割为正常数据和异常数据;所述目标金融数据包括所述目标用户的用户信息、资产信息和公共信息;
所述信用评价模块,用于将所述正常数据通过预设信用评价模型,得到其中的良好信用数据和不良信用数据;
所述信用评估模块,用于将所述异常数据与所述不良信用数据合并作为目标不良信用数据,根据所述良好信用数据和所述目标不良信用数据生成所述目标用户的信用评估报告;
所述系统还包括模型训练模块;所述模型训练模块包括:
样本处理模块,用于获取历史金融数据作为训练样本,将所述训练样本划分为不良信用样本和良好信用样本;
样本伪造模块,用于在所述不良信用样本中随机选择第一预设数目个子样本,使用伪造字典修改每一子样本的金融属性序列,得到伪造信用样本;所述金融属性序列保存有子样本各金融属性的属性值,所述伪造字典保存金融属性修改的规则;
样本生成模块,用于将所述良好信用样本和所述伪造信用样本分别进行多次欠采样,组合得到多个目标训练样本;
训练模块,用于使用目标训练样本训练多个孤立森林模型,将所有孤立森林模型的参数取平均值得到所述预设数据检测模型;
所述样本生成模块包括:
平衡模块,用于确定所述伪造信用样本中的子样本数量作为目标数目;
组合模块,用于针对每一次欠采样,在所述良好信用样本中随机选取所述目标数目个子样本,与所述伪造信用样本组合得到目标训练样本;
样本伪造模块包括:
相关系数,用于针对每一子样本中的金融属性序列的属性值,计算该属性值与预设信用标准值之间的相关系数;所述预设信用标准值用于判断属性值是否为不良信用;
第一修改模块,用于根据所述伪造字典,若相关系数大于预设第一阈值,则将该属性修改为金融属性序列中的最小值;
第二修改模块,用于根据所述伪造字典,若相关系数小于预设第二阈值,则将该属性修改为金融属性序列中的最大值;
第三修改模块,用于根据所述伪造字典,若相关系数在预设第一阈值和预设第二阈值之间,则将不修改该属性。
2.一种基于数据挖掘的智能预测方法,其特征在于,应用于风险评估服务器,所述风险评估服务器、共享存储服务器和用户终端相互连接,所述共享存储服务器包括链外存储模块和共享区块链;所述方法包括:
当接收到用户终端发送的金融服务请求和授权文件,向共享存储服务器转发所述金融服务请求和所述授权文件;以使所述链外存储模块根据所述授权文件在所述共享区块链获取加密密钥和目标存储数据,解密所述目标存储数据得到目标金融数据返回至所述风险评估服务器;所述目标金融数据为所述用户终端事先存储在所述链外存储模块的数据;
对所述目标金融数据进行数据分析生成目标用户的信用评估报告;
对所述目标金融数据进行数据分析生成所述目标用户的信用评估报告包括:
检测所述目标金融数据通过预设数据检测模型,将所述目标金融数据分割为正常数据和异常数据;所述目标金融数据包括所述目标用户的用户信息、资产信息和公共信息;
将所述正常数据通过预设信用评价模型,得到其中的良好信用数据和不良信用数据;
将所述异常数据与所述不良信用数据合并作为目标不良信用数据,根据所述良好信用数据和所述目标不良信用数据生成所述目标用户的信用评估报告;
所述预设数据检测模型的训练过程包括:
获取历史金融数据作为训练样本,将所述训练样本划分为不良信用样本和良好信用样本;
在所述不良信用样本中随机选择第一预设数目个子样本,使用伪造字典修改每一子样本的金融属性序列,得到伪造信用样本;所述金融属性序列保存有子样本各金融属性的属性值,所述伪造字典保存金融属性修改的规则;
将所述良好信用样本和所述伪造信用样本分别进行多次欠采样,组合得到多个目标训练样本;
使用目标训练样本训练多个孤立森林模型,将所有孤立森林模型的参数取平均值得到所述预设数据检测模型;
将所述良好信用样本和所述伪造信用样本分别进行多次欠采样,组合得到多个目标训练样本包括:
确定所述伪造信用样本中的子样本数量作为目标数目;
针对每一次欠采样,在所述良好信用样本中随机选取所述目标数目个子样本,与所述伪造信用样本组合得到目标训练样本;
使用伪造字典修改每一子样本的金融属性序列包括:
针对每一子样本中的金融属性序列的属性值,计算该属性值与预设信用标准值之间的相关系数;所述预设信用标准值用于判断属性值是否为不良信用;
根据所述伪造字典,若相关系数大于预设第一阈值,则将该属性修改为金融属性序列中的最小值;
根据所述伪造字典,若相关系数小于预设第二阈值,则将该属性修改为金融属性序列中的最大值;
根据所述伪造字典,若相关系数在预设第一阈值和预设第二阈值之间,则将不修改该属性。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311260091.8A CN117349900B (zh) | 2023-09-27 | 2023-09-27 | 一种基于数据挖掘的智能预测系统及预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311260091.8A CN117349900B (zh) | 2023-09-27 | 2023-09-27 | 一种基于数据挖掘的智能预测系统及预测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117349900A CN117349900A (zh) | 2024-01-05 |
CN117349900B true CN117349900B (zh) | 2024-04-05 |
Family
ID=89368320
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311260091.8A Active CN117349900B (zh) | 2023-09-27 | 2023-09-27 | 一种基于数据挖掘的智能预测系统及预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117349900B (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110704531A (zh) * | 2019-04-25 | 2020-01-17 | 中国南方电网有限责任公司 | 基于区块链的用电客户信用管理方法及系统 |
CN112685790A (zh) * | 2021-03-19 | 2021-04-20 | 中企链信(北京)科技有限公司 | 一种区块链数据安全及隐私保护方法 |
CN112685760A (zh) * | 2021-01-08 | 2021-04-20 | 浙江泰科数联信息技术有限公司 | 一种区块链上可授权的金融数据隐私处理与共享的方法 |
CN114553436A (zh) * | 2022-02-23 | 2022-05-27 | 山东省计算中心(国家超级计算济南中心) | 用于智能医学工程的数据安全共享与隐私保护方法及系统 |
CN115526425A (zh) * | 2022-10-25 | 2022-12-27 | 深圳市东方碳素实业有限公司 | 一种基于区块链和大数据的金融数据预测系统及方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20110161218A1 (en) * | 2009-09-22 | 2011-06-30 | Cortera, Inc. | Credit reporting interface |
-
2023
- 2023-09-27 CN CN202311260091.8A patent/CN117349900B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110704531A (zh) * | 2019-04-25 | 2020-01-17 | 中国南方电网有限责任公司 | 基于区块链的用电客户信用管理方法及系统 |
CN112685760A (zh) * | 2021-01-08 | 2021-04-20 | 浙江泰科数联信息技术有限公司 | 一种区块链上可授权的金融数据隐私处理与共享的方法 |
CN112685790A (zh) * | 2021-03-19 | 2021-04-20 | 中企链信(北京)科技有限公司 | 一种区块链数据安全及隐私保护方法 |
CN114553436A (zh) * | 2022-02-23 | 2022-05-27 | 山东省计算中心(国家超级计算济南中心) | 用于智能医学工程的数据安全共享与隐私保护方法及系统 |
CN115526425A (zh) * | 2022-10-25 | 2022-12-27 | 深圳市东方碳素实业有限公司 | 一种基于区块链和大数据的金融数据预测系统及方法 |
Non-Patent Citations (1)
Title |
---|
区块链技术下科技金融服务和风险监管模型研究;拜亚萌;《创新科技》;20191031;第19卷(第10期);第88-92页 * |
Also Published As
Publication number | Publication date |
---|---|
CN117349900A (zh) | 2024-01-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11276022B2 (en) | Enhanced system and method for identity evaluation using a global score value | |
US11695755B2 (en) | Identity proofing and portability on blockchain | |
US10965668B2 (en) | Systems and methods to authenticate users and/or control access made by users based on enhanced digital identity verification | |
US10356099B2 (en) | Systems and methods to authenticate users and/or control access made by users on a computer network using identity services | |
US10187369B2 (en) | Systems and methods to authenticate users and/or control access made by users on a computer network based on scanning elements for inspection according to changes made in a relation graph | |
US10250583B2 (en) | Systems and methods to authenticate users and/or control access made by users on a computer network using a graph score | |
US7543740B2 (en) | Fraud analyst smart cookie | |
US11743245B2 (en) | Identity access management using access attempts and profile updates | |
CN109242481A (zh) | 基于区块链查询质押信息方法、装置及计算机设备 | |
CN110162958B (zh) | 用于计算设备的综合信用分的方法、装置和记录介质 | |
KR101999765B1 (ko) | 데이터마이닝 기술을 이용한 금융 사기 대출 패턴화 분석 시스템 및 방법 | |
Abusaimeh et al. | Detecting the phishing website with the highest accuracy | |
CN106790025B (zh) | 一种对链接进行恶意性检测的方法及装置 | |
AU2014203818B2 (en) | Fraud management system and method | |
CN117349900B (zh) | 一种基于数据挖掘的智能预测系统及预测方法 | |
CA2855168C (en) | Fraud management system and method | |
CN116308434B (zh) | 一种保险欺诈识别方法及系统 | |
Alla et al. | What Is Anomaly Detection? | |
CN117391696A (zh) | 异常交易行为监测方法、装置、计算机设备和存储介质 | |
CN116611895A (zh) | 交易异常识别方法、装置、计算机设备和存储介质 | |
Stojkovic et al. | Forging Payment Cards and Cybercrime | |
Katarina et al. | FORGING PAYMENT CARDS AND CYBERCRIME | |
CN116977069A (zh) | 数据处理方法、装置、设备、介质及产品 | |
CN117454408A (zh) | 基于差分隐私的数据共享安全性效验方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |