CN117349900B

CN117349900B - 一种基于数据挖掘的智能预测系统及预测方法

Info

Publication number: CN117349900B
Application number: CN202311260091.8A
Authority: CN
Inventors: 王月虎; 王超; 丁军军; 邱玥灏; 包祥文; 韩峰; 陶军
Original assignee: Nanjing University of Finance and Economics
Current assignee: Nanjing University of Finance and Economics
Priority date: 2023-09-27
Filing date: 2023-09-27
Publication date: 2024-04-05
Anticipated expiration: 2043-09-27
Also published as: CN117349900A

Abstract

本发明公开了一种基于数据挖掘的智能预测系统及预测方法，涉及金融大数据技术领域。链外存储模块使用加密密钥加密目标金融数据，并将加密密钥和存储地址保存至共享区块链，当接收到金融服务请求和授权文件，根据授权文件获取加密密钥和目标存储数据，得到目标金融数据返回风险评估服务器；对目标金融数据进行数据分析生成目标用户的信用评估报告。该系统通过对称密钥系统和同意管理机制的组合来加强数据安全，结合共享区块链和链外存储模块对于目标金融数据提供了多层安全防护，通过使用共享区块链可以有效地管理对数据访问的授权，提高了金融数据的隐私、安全和数据完整性，进而降低了智能决策系统的网络风险且提高了预测精度。

Description

一种基于数据挖掘的智能预测系统及预测方法

技术领域

本发明属于金融大数据技术领域，具体涉及一种基于数据挖掘的智能预测系统及预测方法。

背景技术

随着科技的进步和人们对于金融产品的需求日益提高，互联网金融行业迅速发展。互联网金融的优势在于将金融服务从传统机构解放出来，通过互联网渠道为人们提供便利的金融服务。但是互联网金融的金融服务风险大于传统机构的金融服务。

基于数据挖掘的智能决策系统是一种利用大数据和机器学习技术辅助决策的系统。其可以从大量的数据中提取有价值的信息，并通过建立数学模型和算法来辅助决策者做出准确、可靠的决策。决策者可以结合系统的输出结果与自身经验和专业知识，做出最终的决策。可以极大提升互联网金融风险评估和信用评级的效率。

但是基于数据挖掘的智能决策系统，所有金融数据均通过互联网进行传输，导致客户的金融数据容易丢失或者被篡改，导致智能决策系统的网络风险较大且预测精度降低。

发明内容

本发明的目的就在于解决上述背景技术的问题，而提出一种基于数据挖掘的智能预测系统及预测方法。

本发明的目的可以通过以下技术方案实现：

本发明实施例提供了一种基于数据挖掘的智能预测系统，包括用户终端、风险评估服务器和共享存储服务器；所述共享存储服务器包括共享区块链和链外存储模块；

所述用户终端，用于将目标用户在预设历史时间段内的目标金融数据发送至所述共享存储服务器；

所述链外存储模块，用于使用加密密钥加密目标金融数据，得到目标存储数据，并将所述加密密钥和目标存储数据的存储地址保存至所述共享区块链；

所述链外存储模块，用于当接收到所述风险评估服务器转发的所述用户终端的金融服务请求和授权文件，根据所述授权文件在所述共享区块链获取所述加密密钥和所述目标存储数据，解密所述目标存储数据得到目标金融数据返回至所述风险评估服务器；

所述风险评估服务器，用于对所述目标金融数据进行数据分析生成所述目标用户的信用评估报告。

可选地，所述风险评估服务器包括数据获取模块、数据检测模块、信用评价模块和信用评估模块；其中：

所述数据检测模块，用于检测所述目标金融数据通过预设数据检测模型，将所述目标金融数据分割为正常数据和异常数据；所述目标金融数据包括所述目标用户的用户信息、资产信息和公共信息；

所述信用评价模块，用于将所述正常数据通过预设信用评价模型，得到其中的良好信用数据和不良信用数据；

所述信用评估模块，用于将所述异常数据与所述不良信用数据合并作为目标不良信用数据，根据所述良好信用数据和所述目标不良信用数据生成所述目标用户的信用评估报告。

可选地，所述系统还包括模型训练模块；所述模型训练模块包括：

样本处理模块，用于获取历史金融数据作为训练样本，将所述训练样本划分为不良信用样本和良好信用样本；

样本伪造模块，用于在所述不良信用样本中随机选择第一预设数目个子样本，使用伪造字典修改每一子样本的金融属性序列，得到伪造信用样本；所述金融属性序列保存有子样本各金融属性的属性值，所述伪造字典保存金融属性修改的规则；

样本生成模块，用于将所述良好信用样本和所述伪造信用样本分别进行多次欠采样，组合得到多个目标训练样本；

训练模块，用于使用目标训练样本训练多个孤立森林模型，将所有孤立森林模型的参数取平均值得到所述预设数据检测模型。

可选地，所述样本生成模块包括：

平衡模块，用于确定所述伪造信用样本中的子样本数量作为目标数目；

组合模块，用于针对每一次欠采样，在所述良好信用样本中随机选取所述目标数目个子样本，与所述伪造信用样本组合得到目标训练样本。

可选地，样本伪造模块包括：

相关系数，用于针对每一子样本中的金融属性序列的属性值，计算该属性值与预设信用标准值之间的相关系数；所述预设信用标准值用于判断属性值是否为不良信用；

第一修改模块，用于根据所述伪造字典，若相关系数大于预设第一阈值，则将该属性修改为金融属性序列中的最小值；

第二修改模块，用于根据所述伪造字典，若相关系数小于预设第二阈值，则将该属性修改为金融属性序列中的最大值；

第三修改模块，用于根据所述伪造字典，若相关系数在预设第一阈值和预设第二阈值之间，则将不修改该属性。

本发明实施例还提供了一种基于数据挖掘的智能预测方法，应用于风险评估服务器，所述风险评估服务器、共享存储服务器和用户终端相互连接，所述共享存储服务器包括链外存储模块和共享区块链；所述方法包括：

当接收到用户终端发送的金融服务请求和授权文件，向共享存储服务器转发所述金融服务请求和所述授权文件；以使所述链外存储模块根据所述授权文件在所述共享区块链获取加密密钥和目标存储数据，解密所述目标存储数据得到目标金融数据返回至所述风险评估服务器；所述目标金融数据为所述用户终端事先存储在所述链外存储模块的数据；

对所述目标金融数据进行数据分析生成所述目标用户的信用评估报告。

可选地，对所述目标金融数据进行数据分析生成所述目标用户的信用评估报告包括：

检测所述目标金融数据通过预设数据检测模型，将所述目标金融数据分割为正常数据和异常数据；所述目标金融数据包括所述目标用户的用户信息、资产信息和公共信息；

将所述正常数据通过预设信用评价模型，得到其中的良好信用数据和不良信用数据；

将所述异常数据与所述不良信用数据合并作为目标不良信用数据，根据所述良好信用数据和所述目标不良信用数据生成所述目标用户的信用评估报告。

可选地，所述预设数据检测模型的训练过程包括：

获取历史金融数据作为训练样本，将所述训练样本划分为不良信用样本和良好信用样本；

在所述不良信用样本中随机选择第一预设数目个子样本，使用伪造字典修改每一子样本的金融属性序列，得到伪造信用样本；所述金融属性序列保存有子样本各金融属性的属性值，所述伪造字典保存金融属性修改的规则；

将所述良好信用样本和所述伪造信用样本分别进行多次欠采样，组合得到多个目标训练样本；

使用目标训练样本训练多个孤立森林模型，将所有孤立森林模型的参数取平均值得到所述预设数据检测模型。

可选地，将所述良好信用样本和所述伪造信用样本分别进行多次欠采样，组合得到多个目标训练样本包括：

确定所述伪造信用样本中的子样本数量作为目标数目；

针对每一次欠采样，在所述良好信用样本中随机选取所述目标数目个子样本，与所述伪造信用样本组合得到目标训练样本。

可选地，使用伪造字典修改每一子样本的金融属性序列包括：

针对每一子样本中的金融属性序列的属性值，计算该属性值与预设信用标准值之间的相关系数；所述预设信用标准值用于判断属性值是否为不良信用；

根据所述伪造字典，若相关系数大于预设第一阈值，则将该属性修改为金融属性序列中的最小值；

根据所述伪造字典，若相关系数小于预设第二阈值，则将该属性修改为金融属性序列中的最大值；

根据所述伪造字典，若相关系数在预设第一阈值和预设第二阈值之间，则将不修改该属性。

本发明的有益效果：

本发明实施例提供了一种基于数据挖掘的智能预测系统，包括用户终端、风险评估服务器和共享存储服务器；共享存储服务器包括共享区块链和链外存储模块；用户终端，用于将目标用户在预设历史时间段内的目标金融数据发送至共享存储服务器；链外存储模块，用于使用加密密钥加密目标金融数据得到目标存储数据，并将加密密钥和目标存储数据的存储地址保存至共享区块链；链外存储模块，用于当接收到风险评估服务器转发的用户终端的金融服务请求和授权文件，根据授权文件在共享区块链获取加密密钥和目标存储数据，解密目标存储数据得到目标金融数据返回至风险评估服务器；风险评估服务器，用于对目标金融数据进行数据分析生成目标用户的信用评估报告。该系统通过对称密钥系统和同意管理机制的组合来加强数据安全，结合共享区块链和链外存储模块对于目标金融数据提供了多层安全防护，通过使用共享区块链可以有效地管理对数据访问的授权，提高了金融数据的隐私、安全和数据完整性，进而降低了智能决策系统的网络风险且提高了预测精度。

附图说明

下面结合附图对本发明作进一步的说明。

图1为本发明实施例提供的一种基于数据挖掘的智能预测系统的系统框图；

图2为本发明实施例提供的一种基于数据挖掘的智能预测方法的流程图；

图3为本发明实施例提供的另一种基于数据挖掘的智能预测方法的流程图；

图4为本发明实施例提供的预设数据检测模型的训练方法的流程。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

本发明实施例提供了一种基于数据挖掘的智能预测系统，参见图1，图1为本发明实施例提供的一种基于数据挖掘的智能预测系统的系统框图，包括用户终端、风险评估服务器和共享存储服务器；共享存储服务器包括共享区块链和链外存储模块；

用户终端，用于将目标用户在预设历史时间段内的目标金融数据发送至共享存储服务器；

链外存储模块，用于使用加密密钥加密目标金融数据，得到目标存储数据，并将加密密钥和目标存储数据的存储地址保存至共享区块链；

链外存储模块，用于当接收到风险评估服务器转发的用户终端的金融服务请求和授权文件，根据授权文件在共享区块链获取加密密钥和目标存储数据，解密目标存储数据得到目标金融数据返回至风险评估服务器；

风险评估服务器，用于对目标金融数据进行数据分析生成目标用户的信用评估报告。

基于本发明实施例提供的一种基于数据挖掘的智能预测系统，该系统通过对称密钥系统和同意管理机制的组合来加强数据安全，结合共享区块链和链外存储模块对于目标金融数据提供了多层安全防护，通过使用共享区块链可以有效地管理对数据访问的授权，提高了金融数据的隐私、安全和数据完整性，进而降低了智能决策系统的网络风险且提高了预测精度。

一种实现方式中，由于共享区块链不适合大量数据存储，因此结合链外存储模块，实现数据的存储及授权访问，可以极大提高金融数据的安全性和完整性。

在一个实施例中，风险评估服务器包括数据获取模块、数据检测模块、信用评价模块和信用评估模块；其中：

数据检测模块，用于检测目标金融数据通过预设数据检测模型，将目标金融数据分割为正常数据和异常数据；目标金融数据包括目标用户的用户信息、资产信息和公共信息；

信用评价模块，用于将正常数据通过预设信用评价模型，得到其中的良好信用数据和不良信用数据；

信用评估模块，用于将异常数据与不良信用数据合并作为目标不良信用数据，根据良好信用数据和目标不良信用数据生成目标用户的信用评估报告。

在一个实施例中，系统还包括模型训练模块；模型训练模块包括：

样本处理模块，用于获取历史金融数据作为训练样本，将训练样本划分为不良信用样本和良好信用样本；

样本伪造模块，用于在不良信用样本中随机选择第一预设数目个子样本，使用伪造字典修改每一子样本的金融属性序列，得到伪造信用样本；金融属性序列保存有子样本各金融属性的属性值，伪造字典保存金融属性修改的规则；

样本生成模块，用于将良好信用样本和伪造信用样本分别进行多次欠采样，组合得到多个目标训练样本；

训练模块，用于使用目标训练样本训练多个孤立森林模型，将所有孤立森林模型的参数取平均值得到预设数据检测模型。

在一个实施例中，样本生成模块包括：

平衡模块，用于确定伪造信用样本中的子样本数量作为目标数目；

组合模块，用于针对每一次欠采样，在良好信用样本中随机选取目标数目个子样本，与伪造信用样本组合得到目标训练样本。

在一个实施例中，样本伪造模块包括：

相关系数，用于针对每一子样本中的金融属性序列的属性值，计算该属性值与预设信用标准值之间的相关系数；预设信用标准值用于判断属性值是否为不良信用；

第一修改模块，用于根据伪造字典，若相关系数大于预设第一阈值，则将该属性修改为金融属性序列中的最小值；

第二修改模块，用于根据伪造字典，若相关系数小于预设第二阈值，则将该属性修改为金融属性序列中的最大值；

第三修改模块，用于根据伪造字典，若相关系数在预设第一阈值和预设第二阈值之间，则将不修改该属性。

基于相同的发明构思本发明实施例还提供了一种基于数据挖掘的智能预测方法，参见图2，图2为本发明实施例提供的一种基于数据挖掘的智能预测方法的流程图。该方法应用于风险评估服务器，风险评估服务器、共享存储服务器和用户终端相互连接，共享存储服务器包括链外存储模块和共享区块链；方法包括：

S101，当接收到用户终端发送的金融服务请求和授权文件，向共享存储服务器转发金融服务请求和授权文件；以使链外存储模块根据授权文件在共享区块链获取加密密钥和目标存储数据，解密目标存储数据得到目标金融数据返回至风险评估服务器。

S102，对目标金融数据进行数据分析生成目标用户的信用评估报告。

目标金融数据为用户终端事先存储在链外存储模块的数据。

基于本发明实施例提供的一种基于数据挖掘的智能预测方法，该方法通过对称密钥系统和同意管理机制的组合来加强数据安全，结合共享区块链和链外存储模块对于目标金融数据提供了多层安全防护，通过使用共享区块链可以有效地管理对数据访问的授权，提高了金融数据的隐私、安全和数据完整性，进而降低了智能决策系统的网络风险且提高了预测精度。

在一个实施例中，参见图3，在图2的基础上S102包括：

S1021，检测目标金融数据通过预设数据检测模型，将目标金融数据分割为正常数据和异常数据。

S1022，将正常数据通过预设信用评价模型，得到其中的良好信用数据和不良信用数据。

S1023，将异常数据与不良信用数据合并作为目标不良信用数据，根据良好信用数据和目标不良信用数据生成目标用户的信用评估报告。

目标金融数据包括目标用户的用户信息、资产信息和公共信息。

一种实现方式中，通过共享存储服务器可以防止目标金融数据被第三人进行篡改，而通过预设数据检测模型可以检测目标金融数据本身的真实性，也即目标用户是否对目标金融数据中的数据进行了伪造。将检测出的伪造数据(异常数据)也作为不良信用数据，可以提升信用评估的精确度。

一种实现方式中，预设信用评价模型可以为现有技术中的任意一种，在此不作限定。

在一个实施例中，参见图4，图4为本发明实施例提供的预设数据检测模型的训练方法的流程。预设数据检测模型的训练过程包括：

S401，获取历史金融数据作为训练样本，将训练样本划分为不良信用样本和良好信用样本。

S402，在不良信用样本中随机选择第一预设数目个子样本，使用伪造字典修改每一子样本的金融属性序列，得到伪造信用样本。

S403，将良好信用样本和伪造信用样本分别进行多次欠采样，组合得到多个目标训练样本。

S404，使用目标训练样本训练多个孤立森林模型，将所有孤立森林模型的参数取平均值得到预设数据检测模型。

金融属性序列保存有子样本各金融属性的属性值，伪造字典保存金融属性修改的规则；

一种实现方式中，历史金融数据可以为银行或者金融机构本地存储的用户金融数据。通过修改不良信用样本得到伪造信用样本，用于训练预设数据检测模型。

一种实现方式中，伪造信用样本包括了已修改的不良信用样本和未修改的不良信用样本，将训练样本进行多次欠采样得到多个目标训练样本，然后各目标训练样本的训练结果求平均，提升预设数据检测模型的检测精度。

在一个实施例中，步骤S403具体包括：

步骤一，确定伪造信用样本中的子样本数量作为目标数目。

步骤二，针对每一次欠采样，在良好信用样本中随机选取目标数目个子样本，与伪造信用样本组合得到目标训练样本。

一种实现方式中，由于历史金融数据中良好信用样本相对于不良信用样本数量过多导致训练样本不平衡，伪造信用是由不良信用样本得到的两者数量相同，通过对良好信用样本进行欠采样，使目标训练样本中伪造信用样本和良好信用样本的数目保持一致，解决训练样本不平衡的问题。

在一个实施例中S402中使用伪造字典修改每一子样本的金融属性序列包括：

步骤一，针对每一子样本中的金融属性序列的属性值，计算该属性值与预设信用标准值之间的相关系数；预设信用标准值用于判断属性值是否为不良信用；

步骤二，根据伪造字典，若相关系数大于预设第一阈值，则将该属性修改为金融属性序列中的最小值；

步骤三，根据伪造字典，若相关系数小于预设第二阈值，则将该属性修改为金融属性序列中的最大值；

步骤四，根据伪造字典，若相关系数在预设第一阈值和预设第二阈值之间，则将不修改该属性。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统、电子设备及存储介质而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上对本发明的一个实施例进行了详细说明，但所述内容仅为本发明的较佳实施例，不能被认为用于限定本发明的实施范围。凡依本发明申请范围所作的均等变化与改进等，均应仍归属于本发明的专利涵盖范围之内。

Claims

1.一种基于数据挖掘的智能预测系统，其特征在于，包括用户终端、风险评估服务器和共享存储服务器；所述共享存储服务器包括共享区块链和链外存储模块；

所述风险评估服务器，用于对所述目标金融数据进行数据分析生成所述目标用户的信用评估报告；

所述风险评估服务器包括数据获取模块、数据检测模块、信用评价模块和信用评估模块；其中：

所述信用评估模块，用于将所述异常数据与所述不良信用数据合并作为目标不良信用数据，根据所述良好信用数据和所述目标不良信用数据生成所述目标用户的信用评估报告；

所述系统还包括模型训练模块；所述模型训练模块包括：

训练模块，用于使用目标训练样本训练多个孤立森林模型，将所有孤立森林模型的参数取平均值得到所述预设数据检测模型；

所述样本生成模块包括：

组合模块，用于针对每一次欠采样，在所述良好信用样本中随机选取所述目标数目个子样本，与所述伪造信用样本组合得到目标训练样本；

样本伪造模块包括：

2.一种基于数据挖掘的智能预测方法，其特征在于，应用于风险评估服务器，所述风险评估服务器、共享存储服务器和用户终端相互连接，所述共享存储服务器包括链外存储模块和共享区块链；所述方法包括：

对所述目标金融数据进行数据分析生成目标用户的信用评估报告；

对所述目标金融数据进行数据分析生成所述目标用户的信用评估报告包括：

将所述异常数据与所述不良信用数据合并作为目标不良信用数据，根据所述良好信用数据和所述目标不良信用数据生成所述目标用户的信用评估报告；

所述预设数据检测模型的训练过程包括：

使用目标训练样本训练多个孤立森林模型，将所有孤立森林模型的参数取平均值得到所述预设数据检测模型；

将所述良好信用样本和所述伪造信用样本分别进行多次欠采样，组合得到多个目标训练样本包括：

确定所述伪造信用样本中的子样本数量作为目标数目；

针对每一次欠采样，在所述良好信用样本中随机选取所述目标数目个子样本，与所述伪造信用样本组合得到目标训练样本；

使用伪造字典修改每一子样本的金融属性序列包括：