CN115689708A - 训练数据的筛选方法、风险评估方法、装置、设备和介质 - Google Patents

训练数据的筛选方法、风险评估方法、装置、设备和介质 Download PDF

Info

Publication number
CN115689708A
CN115689708A CN202211371035.7A CN202211371035A CN115689708A CN 115689708 A CN115689708 A CN 115689708A CN 202211371035 A CN202211371035 A CN 202211371035A CN 115689708 A CN115689708 A CN 115689708A
Authority
CN
China
Prior art keywords
data
training
test
value
sample set
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211371035.7A
Other languages
English (en)
Inventor
李策
郭运雷
杜锦阳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Industrial and Commercial Bank of China Ltd ICBC
Original Assignee
Industrial and Commercial Bank of China Ltd ICBC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Industrial and Commercial Bank of China Ltd ICBC filed Critical Industrial and Commercial Bank of China Ltd ICBC
Priority to CN202211371035.7A priority Critical patent/CN115689708A/zh
Publication of CN115689708A publication Critical patent/CN115689708A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Complex Calculations (AREA)

Abstract

本申请涉及人工智能、大数据领域,特别是涉及一种训练数据的筛选方法、风险评估方法、训练数据的筛选装置、计算机设备、存储介质和计算机程序产品。所述筛选方法包括:通过获取测试样本集合和训练样本集合;测试样本集合中包括有多种维度的测试数据,训练样本集合中包括有与测试数据相同维度的训练数据;确定测试样本集合的数据稳定值和训练样本集合的数据稳定值;数据稳定值用于表征对应数据集合中各数据之间取值的变化程度;基于测试样本集合的数据稳定值和训练样本集合的数据稳定值之间的差异距离,筛选至少部分训练数据用于训练业务数据模型。采用本方法能够改善各样本数据之间的均衡性,以及提升经过样本数据训练后的数据模型的稳定性。

Description

训练数据的筛选方法、风险评估方法、装置、设备和介质
技术领域
本申请涉及数据处理技术领域,特别是涉及一种训练数据的筛选方法、风险评估方法、训练数据的筛选装置、计算机设备、存储介质和计算机程序产品。
背景技术
随着银行业科技的不断发展,银行业的数字化转型进程的不断深化,以机器学习技术为代表的人工智能技术的应用越来越丰富,例如,通过大量训练样本训练得到的机器学习模型能够改变由传统的基于专家规则、业务经验等方式进行的银行业的营销、风控等工作,极大的提升了应用精度。
目前在银行业构建机器学习模型,主要是通过获取大量的客户样本,将其中的一部分客户样本划分为用于训练模型的训练样本,一部分划分为用于测试模型的测试样本,以通过训练样本和测试样本构建得到最终投入使用的机器学习模型。
然而,由于训练样本中常常会有极端样本(即极端数据)的情况,依照当前的划分方式得到的训练样本和测试样本之间数据的分布差异较大,使得两种样本的划分不够均衡,最终导致训练得到的机器学习模型的稳定性不强,机器学习模型的计算处理效果不佳。
发明内容
基于此,有必要针对上述技术问题,提供一种能够保证训练样本和测试样本之间数据分布均衡的训练数据的筛选方法、风险评估方法、训练数据的筛选装置、计算机设备、存储介质和计算机程序产品。
第一方面,本申请提供了一种训练数据的筛选方法,所述方法包括:
获取测试样本集合和训练样本集合;所述测试样本集合中包括有多种维度的测试数据,所述训练样本集合中包括有与所述测试数据相同多种维度的训练数据,所述训练数据和所述测试数据为由银行业客户系统记录的业务数据;
确定所述测试样本集合的数据稳定值和所述训练样本集合的数据稳定值;所述数据稳定值用于表征对应数据集合中各数据之间取值的变化程度;
基于所述测试样本集合的数据稳定值和所述训练样本集合的数据稳定值之间的差异距离,筛选至少部分所述训练数据用于训练所述业务数据模型。
在其中一个实施例中,所述训练数据中包括有与所述测试数据相同多种维度的正样本数据和负样本数据;
所述获取测试样本集合和训练样本集合,包括:
从对应于所述银行业客户系统的一业务数据存储库中获取多个所述正样本数据和多个所述负样本数据,以集合得到所述训练样本集合;
从所述业务数据存储库中获取多个所述测试数据,以集合得到所述测试样本集合。
在其中一个实施例中,所述业务数据存储库中存储的负样本数据的数量远大于正样本数据的数量;
从所述业务数据存储库中获取多个所述正样本数据和所述负样本数据,包括:
提取所述业务数据存储库中存储的全部正样本数据,得到多个所述正样本数据;和
从所述业务数据存储库中抽取部分负样本数据,得到多个所述负样本数据;其中,正样本数据和负样本数据两者之间数据稳定值的差异距离的大小与业务数据模型的稳定性负相关。
在其中一个实施例中,所述确定所述测试样本集合的数据稳定值和所述训练样本集合的数据稳定值,包括:
基于各种维度的所述测试数据和所述训练数据对应的第一类统计数据,确定每一维度的所述测试数据的单类型稳定值和每一维度的所述训练数据的单类型稳定值;所述单类型稳定值用于表征一种维度的数据中各个数据之间取值的变化程度;各种相同维度的测试数据和训练数据至少包括资产总额维度、月存款额维度、月流出款额维度、业务收入额维度、月交易次数维度;
确定所述测试数据的多个单类型稳定值对应的第二类统计数据,和所述训练数据的多个单类型稳定值对应的第三类统计数据;
分别基于所述第二类统计数据、所述第三类统计数据,确定所述测试样本集合的数据稳定值、所述训练样本集合的数据稳定值。
在其中一个实施例中,所述第一类统计数据包括标准差和中位数;
所述基于各种维度的所述测试数据和所述训练数据对应的第一类统计数据,确定每一维度的所述测试数据的单类型稳定值和每一维度的所述训练数据的单类型稳定值,包括:
基于每一维度的所述测试数据的标准差和中位数,计算出对应各种维度的所述测试数据的单类型稳定值;和
基于每一维度的所述训练数据的标准差和中位数,计算出对应各种维度的所述训练数据的单类型稳定值。
在其中一个实施例中,所述第二类统计数据、所述第三类统计数据均包括标准差和均值;
所述分别基于所述第二类统计数据、所述第三类统计数据,确定所述测试样本集合的数据稳定值、所述训练样本集合的数据稳定值,包括:
基于所述测试数据中各种单类型稳定值的标准差和均值,计算出所述测试样本集合的数据稳定值;和
基于所述训练数据中各种单类型稳定值的标准差和均值,计算出所述训练样本集合的数据稳定值。
在其中一个实施例中,所述基于所述测试样本集合的数据稳定值和所述训练样本集合的数据稳定值之间的差异距离,筛选至少部分所述训练数据用于训练所述业务数据模型,包括:
利用所述测试样本集合的数据稳定值和所述训练样本集合的数据稳定值的商值,得到所述差异距离;所述差异距离用于表征两种数据稳定值之间的离散程度;差异距离的大小与业务数据模型的稳定性负相关;
基于所述差异距离与预设距离限值的大小关系,筛选至少部分所述训练数据用于训练所述业务数据模型。
在其中一个实施例中,所述利用所述测试样本集合的数据稳定值和所述训练样本集合的数据稳定值的商值,得到所述差异距离,包括:
计算所述商值与预设常数的差值的绝对值,确定所述差异距离;
所述基于所述差异距离与预设距离限值的大小关系,筛选至少部分所述训练数据用于训练所述业务数据模型,包括:
若所述差异距离小于或等于所述距离限值,筛选所述训练样本集合中的全部训练数据用于训练所述业务数据模型。
在其中一个实施例中,若所述差异距离越大,则所述业务数据模型的稳定性越低;若所述差异距离越小,则所述业务数据模型的稳定性越高;
所述基于所述差异距离与预设距离限值的大小关系,筛选至少部分所述训练数据用于训练所述业务数据模型,包括:
若所述差异距离大于所述距离限值,从对应于所述银行业客户系统的业务数据存储库中重新获取多个新的负样本数据;
集合所述新的负样本数据和所述训练样本集合中的正样本数据,得到新的训练样本集合;
基于所述新的训练样本集合和所述测试样本集合,重新执行确定所述测试样本集合的数据稳定值和所述训练样本集合的数据稳定值的步骤,直到所述差异距离小于或等于所述距离限值。
第二方面,本申请提供了一种风险评估方法,所述方法应用于银行业客户系统,所述方法包括:
获取客户的投资数据;
将所述投资数据输入一已训练的风险评估模型中进行风险计算,得到所述客户按照所述投资数据进行投资的风险分值;所述风险评估模型是利用测试样本集合中的测试数据和训练样本集合中的训练数据构建得到,所述训练样本集合中的训练数据是基于上述的训练数据的筛选方法筛选得到;
基于所述风险分值,确定所述客户的风险评估结果。
第三方面,本申请还提供了一种训练数据的筛选装置,所述装置包括:
样本获取单元,被配置为执行获取测试样本集合和训练样本集合;所述测试样本集合中包括有多种维度的测试数据,所述训练样本集合中包括有与所述测试数据相同多个维度的训练数据,所述训练数据和所述测试数据为由银行业客户系统记录的业务数据;
数据处理单元,被配置为执行确定所述测试样本集合的数据稳定值和所述训练样本集合的数据稳定值;所述数据稳定值用于表征对应数据集合中各数据之间取值的变化程度;
数据筛选单元,被配置为执行基于所述测试样本集合的数据稳定值和所述训练样本集合的数据稳定值之间的差异距离,筛选至少部分所述训练数据用于训练所述业务数据模型。
第四方面,本申请还提供了一种电子设备,所述电子设备包括:
处理器;
用于存储所述处理器的可执行指令的存储器;
其中,所述处理器被配置为执行所述可执行指令,以实现如上所述的训练数据的筛选方法和/或风险评估方法。
第五方面,本申请还提供了一种计算机可读存储介质。所述计算机可读存储介质中包括程序数据,当所述程序数据由电子设备的处理器执行时,使得所述电子设备能够执行如上所述的训练数据的筛选方法和/或风险评估方法。
第六方面,本申请还提供了一种计算机程序产品。所述计算机程序产品中包括程序指令,所述程序指令被电子设备的处理器执行时,使得所述电子设备能够执行如上所述的训练数据的筛选方法和/或风险评估方法。
上述训练数据的筛选方法、风险评估方法、训练数据的筛选装置、计算机设备、存储介质和计算机程序产品,首先,通过获取测试样本集合和训练样本集合;测试样本集合中包括有多种维度的测试数据,训练样本集合中包括有与测试数据相同多种维度的训练数据,训练数据和测试数据为由银行业客户系统记录的业务数据;确定测试样本集合的数据稳定值和训练样本集合的数据稳定值;数据稳定值用于表征对应数据集合中各数据之间取值的变化程度;基于测试样本集合的数据稳定值和训练样本集合的数据稳定值之间的差异距离,筛选至少部分训练数据用于训练业务数据模型。这样,一方面,利用测试样本集合和训练样本集合的数据稳定值来确定各数据之间取值的变化程度,能够准确的得出各样本集合中数据的分布情况,进而可以改善样本集合中各数据之间的均衡性;另一方面,将筛选的至少部分训练数据用来训练银行业客户系统中的数据模型,以能够利用样本均衡性改善后的训练数据来训练模型,从而提升了训练的数据模型的稳定性。
附图说明
图1是根据一示例性实施例示出的一种训练数据的筛选方法的应用环境图;
图2是根据一示例性实施例示出的一种训练数据的筛选方法的流程示意图;
图3是根据一示例性实施例示出的一种获取样本集合的流程示意图;
图4是根据一示例性实施例示出的一种确定样本集合的数据稳定值的流程示意图;
图5是根据一示例性实施例示出的一种筛选至少部分训练数据的流程示意图;
图6是根据一示例性实施例示出的另一种筛选至少部分训练数据的流程示意图;
图7是根据一示例性实施例示出的一种风险评估方法的流程示意图;
图8是根据一示例性实施例示出的另一种训练数据的筛选的流程示意图;
图9是根据一示例性实施例示出的一种训练数据的筛选装置框图;
图10是根据一示例性实施例示出的一种用于训练数据的筛选装置的电子设备的框图;
图11是根据一示例性实施例示出的一种用于训练数据的筛选装置的计算机可读存储介质的框图;
图12是根据一示例性实施例示出的一种用于训练数据的筛选装置的计算机程序产品的框图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请中的术语“第一”、“第二”等是用于区别不同对象,而不是用于描述特定顺序。此外,尽管多次采用术语“第一”、“第二”等来描述各种操作(或各种阈值或各种应用或各种指令或各种元件)等,不过这些操作(或阈值或应用或指令或元件)不应受这些术语的限制。这些术语只是用于区分一个操作(或阈值或应用或指令或元件)和另一个操作(或阈值或应用或指令或元件)。例如,第一类统计数据可以被称为第二类统计数据,第二类统计数据也可以被称为第一类统计数据,而不脱离本申请的范围,第一类统计数据和第二类统计数据都是对相应数据集合进行统计后得到数据,只是二者并不是相同的统计后得到数据而已。
本申请实施例提供的训练数据的筛选方法,可以应用于如图1所示的应用环境中。其中,终端102通过网络与数据存储系统103进行通信,数据存储系统103与服务器104通信连接。数据存储系统103可以存储服务器104需要处理的数据。数据存储系统103可以集成在服务器104上,也可以放在云上或其他网络服务器上。
在一些实施例中,终端102上搭载有银行业客户系统,客户通过在终端102上进行的各种金融行为以产生大量的业务数据,然后,数据存储系统103再将这些业务数据进行存储。
在一些实施例中,终端102(如移动终端、固定终端)可以以各种形式来实施。其中,终端102可为包括诸如移动电话、智能电话、笔记本电脑、便携式手持式设备、个人数字助理(PDA,Personal Digital Assistant)、平板电脑(PAD)等等的搭载有银行业客户系统,且可以通过客户的各种金融行为以产生大量的业务数据的移动终端,终端102也可以是自动柜员机(Automated Teller Machine,ATM)、门禁一体机、数字TV、台式计算机、固式计算机等等的搭载有银行业客户系统,且可以通过客户的各种金融行为以产生大量的业务数据的固定终端。下面,假设终端102是固定终端。然而,本领域技术人员将理解的是,若有特别用于移动目的的操作或者元件,根据本申请公开的实施方式的构造也能够应用于移动类型的终端102。
在一些实施例中,参考图1,服务器104获取测试样本集合和训练样本集合;其中,测试样本集合中包括有多种维度的测试数据,训练样本集合中包括有与测试数据相同多种维度的训练数据,训练数据和测试数据为由银行业客户系统记录的业务数据;然后,服务器104再确定测试样本集合的数据稳定值和训练样本集合的数据稳定值;数据稳定值用于表征对应数据集合中各数据之间取值的变化程度;最后,服务器104再基于测试样本集合的数据稳定值和训练样本集合的数据稳定值之间的差异距离,筛选至少部分训练数据用于训练业务数据模型。
在某些实施例中,服务器104运行的数据处理组件可以加载正在被执行的可以包括各种附加服务器应用和/或中间层应用中的任何一种,如包括HTTP(超文本传输协议)、FTP(文件传输协议)、CGI(通用网关界面)、RDBMS(关系型数据库管理系统)等。
在一些实施例中,服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。服务器104可以适于运行提供前述公开中描述的终端102的一个或多个应用服务或软件组件。
在一个实施例中,如图2所示,提供了一种训练数据的筛选方法,以该方法应用于图1中的服务器104为例进行说明,该方法包括以下步骤:
步骤S11,获取测试样本集合和训练样本集合。
在一实施例中,测试样本集合中包括有多种维度的测试数据,训练样本集合中包括有与测试数据相同多种维度的训练数据,训练数据和测试数据为由银行业客户系统记录的业务数据。
在一些实施例中,银行业客户系统可以包括一个数据存储库,用于存储和大量的业务数据。服务器响应于启动对训练数据的筛选程序,服务器从银行业客户系统对应的数据存储库中获取测试数据和训练数据,以得到测试样本集合和训练样本集合。
在一些实施例中,训练样本集合中的至少一部分训练数据被筛选用于训练银行业中的业务数据模型,测试数据用于测试该业务数据模型的稳定性。
在一些实施例中,训练数据和测试数据包括的维度可以为如银行业客户系统记录的“资产总额”、“月存款额”、“月流出款额”,“中间业务收入”、“月交易次数”等等的各种业务数据。
步骤S12,确定测试样本集合的数据稳定值和训练样本集合的数据稳定值。
在一些实施例中,服务器基于预设的计算规则,根据测试样本集合中各种维度的测试数据的数值,确定测试样本集合的数据稳定值;以及服务器基于预设的计算规则,根据训练样本集合中各种维度的训练数据的数值,确定训练样本集合的数据稳定值。
在一实施例中,数据稳定值用于表征对应数据集合中各数据之间取值的变化程度。
例如,若测试样本集合和/或训练样本集合中各数据之间取值的变化程度越大,则对应的测试样本集合和/或训练样本集合的数据稳定值越小;反之,若测试样本集合和/或训练样本集合中各数据之间取值的变化程度越小,则对应的测试样本集合和/或训练样本集合的数据稳定值越大。
步骤S13,基于测试样本集合的数据稳定值和训练样本集合的数据稳定值之间的差异距离,筛选至少部分训练数据用于训练业务数据模型。
在一实施例中,服务器基于测试样本集合的数据稳定值和训练样本集合的数据稳定值之间的差异距离,可以确定出测试样本集合和训练样本集合之间包括的数据对应的数值分布的均衡程度,服务器再根据两种样本集合中数据对应的数值分布的均衡程度,从训练样本集合中筛选出至少一部分训练数据的用于训练业务数据模型。
上述的训练数据的筛选方法中,首先,通过获取测试样本集合和训练样本集合;测试样本集合中包括有多种维度的测试数据,训练样本集合中包括有与测试数据相同多种维度的训练数据,训练数据和测试数据为由银行业客户系统记录的业务数据;确定测试样本集合的数据稳定值和训练样本集合的数据稳定值;数据稳定值用于表征对应数据集合中各数据之间取值的变化程度;基于测试样本集合的数据稳定值和训练样本集合的数据稳定值之间的差异距离,筛选至少部分训练数据用于训练业务数据模型。这样,一方面,利用测试样本集合和训练样本集合的数据稳定值来确定各数据之间取值的变化程度,能够准确的得出各样本集合中数据的分布情况,进而可以改善样本集合中各数据之间的均衡性;另一方面,将筛选的至少部分训练数据用来训练银行业客户系统中的数据模型,以能够利用样本均衡性改善后的训练数据来训练模型,从而提升了训练的数据模型的稳定性。
本领域技术人员可以理解地,在具体实施方式的上述方法中,所揭露的方法可以通过更为具体的方式以实现。例如,上述的训练数据的筛选过程的实施方式仅仅是一种示意性的描述。
示例性地,服务器确定测试样本集合的数据稳定值和训练样本集合的数据稳定值的过程;或者服务器基于测试样本集合的数据稳定值和训练样本集合的数据稳定值之间的差异距离,筛选至少部分训练数据的过程等等,其仅仅为一种集合的方式,实际实现时可以有另外的划分方式,例如服务器确定的测试样本集合的数据稳定值和训练样本集合的数据稳定值可以结合或者可以集合到另一个系统中,或一些特征可以忽略,或不执行。
在一实施例中,训练样本集合的训练数据中包括有与测试数据相同多种维度的正样本数据和负样本数据。
其中,正样本数据和负样本数据均为一种训练数据,两者在样本数据的数值大小上不同,且正样本数据的数值趋于一般性,而负样本数据的数值趋于极端性,两种样本数据均具有与测试数据相同的多种维度。
在一实施例中,正样本数据和负样本数据两者之间数据的分布差异与后续训练得到的业务数据模型的稳定性负相关,即正样本数据和负样本数据两者之间的数据稳定值的差异距离的大小与业务数据模型的稳定性负相关。
在一些实施例中,若正样本数据和负样本数据两者之间数据的分布差异越大,则后续训练得到的业务数据模型的稳定性越低;若正样本数据和负样本数据两者之间数据的分布差异越小,则后续训练得到的业务数据模型的稳定性越高。
在一实施例中,各种相同维度的测试数据和训练数据至少包括资产总额维度、月存款额维度、月流出款额维度、业务收入额维度、月交易次数维度。
作为示例,训练样本集合中的正样本数据和负样本数据的维度包括有“资产总额”和“月存款额”。其中,正样本数据中“资产总额”类型的数据的数值分别有2000、3200、3600和3800,负样本数据中“资产总额”类型的数据的数值分别有10、30、40000和68000。正样本数据中“月存款额”类型的数据的数值分别有200、320、360和380,负样本数据中“月存款额”类型的数据的数值分别有5、20、40000和58000。
在一示例性实施例中,参阅图3,图3为本申请中获取样本集合一实施例的流程示意图。在步骤S11中,服务器获取测试样本集合和训练样本集合的过程,具体可以通过以下方式实现:
步骤S111,从对应于银行业客户系统的一业务数据存储库中获取多个正样本数据和多个负样本数据,以集合得到训练样本集合。
在一实施例中,银行业客户系统的业务数据存储库中存储有大量的负样本数据和少量的正样本数据,即业务数据存储库中存储的负样本数据的数量远大于正样本数据的数量。
在一实施例中,服务器从业务数据存储库中,提取出存储的全部正样本数据,得到多个正样本数据。
在一实施例中,服务器从业务数据存储库中,通过预设的抽样方式,抽取出存储的部分负样本数据,以得到多个负样本数据。
在一实施例中,服务器将该多个正样本数据和多个负样本数据集合在一起,以得到训练样本集合。
其中,预设的抽样方式可以为预设的随机抽样方式、分层抽样方式或者概率抽样方式等等,这里不做具体限定。
在一些实施例中,服务器获取的多个正样本数据的数量和多个负样本数据的数量可以相同,也可以不相同。例如,服务器获取的多个正样本数据的数量为100个,服务器获取的多个负样本数据的数量可为100个、120个、150个等等。
步骤S112,从业务数据存储库中获取多个测试数据,以集合得到测试样本集合。
在一实施例中,服务器从业务数据存储库中,通过预设的抽样方式,抽取出存储的部分业务数据,并作为获取的多个测试数据,然后,服务器再将该多个测试数据集合在一起,以得到测试样本集合。
在一实施例中,服务器获取的测试样本集合中测试数据的数量和训练样本集合中各训练数据的数量可以相同,也可以不相同。例如,服务器获取的测试数据的数量为200个,服务器获取的训练数据的数量可为100个、150个、200个、300个等等。
在一示例性实施例中,参阅图4,图4为本申请中确定样本集合的数据稳定值一实施例的流程示意图。在步骤S12中,服务器确定测试样本集合的数据稳定值和训练样本集合的数据稳定值的过程,具体可以通过以下方式实现:
步骤S121,基于各种维度的测试数据和训练数据对应的第一类统计数据,确定每一维度的测试数据的单类型稳定值和每一维度的训练数据的单类型稳定值。
在一实施例中,第一类统计数据包括各种维度的测试数据对应的标准差和中位数,和各种维度的训练数据对应的标准差和中位数。
在一实施例中,单类型稳定值用于表征一种维度的数据中各个数据之间取值的变化程度。
作为一示例,若测试样本集合中“月交易次数”类型的各测试数据之间取值的变化程度越大,则对应测试样本集合中“月交易次数”类型的单类型稳定值越小;反之,若测试样本集合中“月交易次数”类型的各测试数据之间取值的变化程度越小,则对应测试样本集合中“月交易次数”类型的单类型稳定值越大。
在一实施例中,服务器基于每一维度的测试数据的标准差和中位数,计算出对应各种维度的测试数据的单类型稳定值;以及服务器基于每一维度的训练数据的标准差和中位数,计算出对应各种维度的训练数据的单类型稳定值。
在一些实施例中,服务器可以基于每一维度的测试数据的标准差与中位数的商值,以得到对应各种维度的测试数据的单类型稳定值;以及服务器可以基于每一维度的训练数据的标准差与中位数的商值,以得到对应各种维度的测试数据训练数据的单类型稳定值。
步骤S122,确定测试数据的多个单类型稳定值对应的第二类统计数据,和训练数据的多个单类型稳定值对应的第三类统计数据。
在一实施例中,第二类统计数据包括测试数据中各种单类型稳定值的标准差和均值,第三类统计数据包括训练数据中各种单类型稳定值的标准差和均值。
步骤S123,分别基于第二类统计数据、第三类统计数据,确定测试样本集合的数据稳定值、训练样本集合的数据稳定值。
在一实施例中,服务器基于测试数据中各种单类型稳定值的标准差和均值,计算出测试样本集合的数据稳定值;以及服务器基于训练数据中各种单类型稳定值的标准差和均值,计算出训练样本集合的数据稳定值。
在一些实施例中,服务器可以基于训练数据中各种单类型稳定值的标准差与均值的商值,以确定测试样本集合的数据稳定值;以及服务器可以基于训练数据中各种单类型稳定值的标准差与均值的商值,以确定训练样本集合的数据稳定值。
在一示例性实施例中,参阅图5,图5为本申请中筛选至少部分训练数据一实施例的流程示意图。在步骤S13中,服务器基于测试样本集合的数据稳定值和训练样本集合的数据稳定值之间的差异距离,筛选至少部分训练数据用于训练业务数据模型的过程,具体可以通过以下方式实现:
步骤S131,利用测试样本集合的数据稳定值和训练样本集合的数据稳定值的商值,得到差异距离。
在一实施例中,服务器先计算出测试样本集合的数据稳定值和训练样本集合的数据稳定值的商值,然后,服务器再计算该商值与预设常数的差值的绝对值,以确定差异距离。
其中,服务器预设常数可以为任意的常数,例如0.5、1、1.5等等,这里不做具体限定。
在一实施例中,差异距离用于表征两种数据稳定值之间的离散程度。
作为一示例,若测试样本集合的数据稳定值和训练样本集合的数据稳定值之间的差异距离越大,则测试样本集合的数据稳定值和训练样本集合的数据稳定值之间的离散程度越大,进而,测试样本集合中各测试数据与训练样本集合中各训练数据之间数据分布的均衡性越弱;反之,若测试样本集合的数据稳定值和训练样本集合的数据稳定值之间的差异距离越小,则测试样本集合的数据稳定值和训练样本集合的数据稳定值之间的离散程度越小,进而,测试样本集合中各测试数据与训练样本集合中各训练数据之间数据分布的均衡性越强。
步骤S132,基于差异距离与预设距离限值的大小关系,筛选至少部分训练数据用于训练所述业务数据模型。
在一实施例中,若差异距离小于或等于预设的距离限值,则服务器筛选训练样本集合中的全部训练数据用于训练业务数据模型。
在一些实施例中,若差异距离小于或等于预设的距离限值,则表明测试样本集合中各测试数据与训练样本集合中各训练数据之间数据分布的均衡性为可被服务器接受的程度。因此,服务器将训练样本集合中全部的正样本数据和负样本数据筛选出来,以用于训练业务数据模型。
在一实施例中,用于对业务数据模型进行训练和测试的测试测试和训练数据两者之间数据的分布差异与业务数据模型的稳定性负相关,即测试测试和训练数据两者之间的数据稳定值的差异距离的大小与业务数据模型的稳定性负相关。
在一些实施例中,若测试测试和训练数据两者之间数据的分布差异越大,则训练得到的业务数据模型的稳定性越低;若测试测试和训练数据两者之间数据的分布差异越小,则训练得到的业务数据模型的稳定性越高。
在一示例性实施例中,参阅图6,图6为本申请中筛选至少部分训练数据另一实施例的流程示意图。在步骤S132中,服务器基于差异距离与预设距离限值的大小关系,筛选至少部分训练数据用于训练所述业务数据模型的过程,具体可以通过以下方式实现:
步骤a1,若差异距离大于距离限值,从对应于银行业客户系统的业务数据存储库中重新获取多个新的负样本数据。
在一实施例中,若差异距离大于预设的距离限值,则服务器将训练样本集合中的正样本数据筛选出来,并且,服务器再从业务数据存储库中重新获取多个新的负样本数据。
在一些实施例中,若差异距离大于预设的距离限值,则表明测试样本集合中各测试数据与训练样本集合中各训练数据之间数据分布的均衡性为不可以被服务器接受的程度。因此,服务器将训练样本集合中全部的正样本数据单独筛选出来,以剔除不可用的负样本数据。
步骤a2,集合新的负样本数据和训练样本集合中的正样本数据,得到新的训练样本集合。
在一实施例中,服务器将获取的多个新的负样本数据和单独筛选出来的正样本数据集合在一起,以得到新的训练样本集合。
步骤a3,基于新的训练样本集合和测试样本集合,重新执行确定测试样本集合的数据稳定值和训练样本集合的数据稳定值的步骤,直到差异距离小于或等于距离限值。
在一实施例中,服务器根据新获取的新的训练样本集合和已获取的测试样本集合,重新执行测试样本集合的数据稳定值和训练样本集合的数据稳定值的步骤,直到两者之间的差异距离小于或等于距离限值。
在一个实施例中,如图7所示,提供了一种风险评估方法,以该方法应用于如上述实施例中的银行业客户系统为例进行说明,该方法包括以下步骤:
步骤S21,获取客户的投资数据。
在一实施例中,服务器从银行业客户系统中的业务数据存储库中获取客户的多个投资数据。
在一些实施例中,客户的多个投资数据可以为如客户的“资产总额”、“月存款额”、“月流出款额”,“中间业务收入”、“月交易次数”等等的业务数据,这里不做具体限定。
步骤S22,将投资数据输入一已训练的风险评估模型中进行风险计算,得到客户按照投资数据进行投资的风险分值。
在一实施例中,风险评估模型是利用测试样本集合中的测试数据和训练样本集合中的训练数据构建得到。
在一些实施例中,风险评估模型可以是一种神经网络(如CNN、VGG、ResNet等)模型、语义分割(如Transformer、基于Attention的RNN、LSTM等)模型。
在一实施例中,训练样本集合中的训练数据是基于如上述实施例中所述的训练数据的筛选方法筛选得到。
在一实施例中,服务器将客户的投资数据输入到风险评估模型中进行风险计算,风险评估模型计算完成后输出客户按照投资数据进行投资的风险分值。
在某些实施例中,风险评估模型可以是一种机器学习模型。其中,机器学习模型通过学习大量的训练数据采取的不同入参数据(即训练数据的数值)后得到的累积反馈值,以得到不同的行动策略(即测试数据的数值)在每个初始入参数据(即输入的训练数据的数值)下最优的反馈值范围(即模型的学习参数的最优反馈数据范围)。
作为一示例,机器学习模型设置每一入参数据对应的初始入参值分别为sp=(x1n,x2n,....,xnn),其中,sp为入参维度,xnn为一个入参数据的初始入参数据,xi∈[li,hi]是第i个入参数据的初始入参数据,总共需要学习的初始入参数据有n∈N个。机器学习模型采取不同入参数据的累积反馈值为rt=score(st+1)-score(st),其中,累积反馈值设定每次调参的步长为1,即a=(±1,±1,.......,±1,),score为当前入参数据设置下根据工程师认定的综合最优的反馈值范围。
步骤S23,基于风险分值,确定客户的风险评估结果。
在一实施例中,服务器利用风险评估模型输出的风险分值和预先设置完成的风险对照表进行对照,以得出客户的风险评估结果。
上述风险评估方法,首先,服务器通过获取客户的投资数据;然后,服务器再将投资数据输入一已训练的风险评估模型中进行风险计算,得到客户按照投资数据进行投资的风险分值;最后,服务器再基于风险分值,确定客户的风险评估结果。这样,利用筛选的至少部分训练数据用来训练银行业客户系统中的风险评估模型,以能够利用样本均衡性被改善后的训练数据来训练模型,从而提升了训练的风险评估模型的稳定性。
为了更清晰阐明本公开实施例提供的训练数据的筛选方法,以下以一个具体的实施例对该训练数据的筛选方法进行具体说明。在一示例性实施例中,如图8所示,图8为根据另一示例性实施例示出的一种训练数据的筛选方法的流程图,该训练数据的筛选方法用于服务器104中,具体包括如下内容:
步骤S31:确定测试样本和训练样本的数量。
其中,对于金融业而言,机器学习模型可使用的真实样本的数量通常是海量的,对于模型建模所使用的训练样本而言,其中正样本的数量通常较为有限,负样本较为丰富。因此,需要先确定训练样本中正样本的数量,再确定训练样本中负样本的数量,最后确定测试样本的数量。其中,正样本的数量和负样本的数量可以是一定的比例,测试样本的数量和整个训练样本的数量相同。
在一实施例中,设真实的测试样本的数量为M,训练样本中正样本的数量为K,训练样本中负样本的数量为L,其中,M=2K=2L。
步骤S32:对训练样本中的负样本进行抽样。
其中,对于金融业建模过程而言,通常在样本库中的负样本L的数量远大于负样本K样本的数量,为保证机器学习模型训练速度以及正负样本的均衡程度,需要对负样本L进行抽样,待测试样本M以及正样本K无需抽样。
步骤S33:分别计算测试样本和训练样本中各种类型的单特征稳定性。
其中,测试样本和训练样本均为相同的多种类型的数据组成,每一种类型的数据包括一种特征。例如,测试样本和训练样本均为“金融资产总额”、“月均存款余额”、“月流出资产”、“中间业务收入”、“月交易次数”这五种类型的数据组成,每一种类型的数据代表一种数据特征。
其中,对于样本中同一特征而言,若训练数据与实际数据的变化程度不一样,会对模型效果有显著影响,单特征稳定性主要考虑样本单一特征的变化情况。单特征稳定性定义为特征序列取值的变化情况与平均水平的比值。其中变化情况使用标准差衡量,考虑到金融业不同客户之间的数据区分程度较大,使用中位数来衡量数据的平均水平以排除极端值对数据的影响。
其中,计算测试样本和训练样本中各种类型的单特征稳定性可通过如下公式表达:
Figure BDA0003924758390000171
其中,Wn为第n种单特征的稳定性,σn为第n种单特征取值序列的标准差,M0.5为单特征取值序列的中位数。此时Wn的大小可以反映单特征的稳定情况,Wn越大,则此单特征变化程度越大,Wn越小则此单特征变化程度越小。
步骤S34:分别计算测试样本中各种类型的单特征稳定性的总体稳定性,和训练样本中各种类型的单特征稳定性的总体稳定性。
其中,计算各种类型的单特征稳定性的总体稳定性可通过如下公式表达:
Figure BDA0003924758390000181
其中,σ为各种类型的单特征稳定性的标准差,mean为各种类型的单特征稳定性的均值。
其中,测试样本M的总体稳定性可通过WM表示,正样本和负样本K+L的总体稳定性可通过WK+L表示。
步骤S35:比较测试样本M的总体稳定性和正负样本的总体稳定性的差距,来挑选合适的用于训练模型的训练集样本。
其中,比较测试样本M的总体稳定性和训练样本中的正负样本K+L的总体稳定性的差距可通过如下公式表达:
Figure BDA0003924758390000182
其中,WΔ越小,则训练样本与待预测样本之间的差异就越小,模型在实际使用的过程效果就越好。例如,在实际使用的过程中WΔ的判断阈值可使用0.2,若WΔ的值大于0.2,则可通过从样本库中重复采样负样本L,并比较测试样本M的总体稳定性和训练样本中的正负样本K+L的总体稳定性的差距WΔ,直到WΔ进入小于0.2的范围后,使用此时的训练样本中的正负样本K+L进行建模训练可保证较好的实际应用效果。
作为一示例,若某负样本抽样l与正样本K组成的样本集合K+l,若其特征“金融资产总额”,取值序列为100,200,300,1000,10000。则“金融资产总额”的特征标准差为4307,中位数为300,则“金融资产总额”特征的稳定性系数为14.35。若样本l共有五个特征,除“金融资产总额”外分别是“月均存款余额”,“月流出资产”,“中间业务收入”,“月交易次数”,分别计算其特征的稳定性系数,若其稳定性系数由小到大排列分别是14.35、15、25、35、50,以此稳定性序列进行计算,则样本K+l的稳定性系数为0.5371。若待预测样本M的稳定性系数为0.55,样本K+l与样本M的稳定性系数的差距WΔ的值为0.023,若使用的WΔ的判断阈值为0.2,则保留该负样本抽样l,使用样本K+l作为模型的训练样本。否则重新抽样新的负样本l,计算WΔ,直到满足设置的阈值为止。此时以得到的样本进行模型训练,能够得到较为优良的效果。
应该理解的是,虽然图2-图8的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图2-图8中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
可以理解的是,本说明书中上述方法的各个实施例之间相同/相似的部分可互相参见,每个实施例重点说明的是与其他实施例的不同之处,相关之处参见其他方法实施例的说明即可。
图9是根据一示例性实施例示出的一种训练数据的筛选装置框图。参照图9,该筛选装置10包括样本获取单元11、数据处理单元12和数据筛选单元13。
该样本获取单元11被配置为执行获取测试样本集合和训练样本集合;所述测试样本集合中包括有多种维度的测试数据,所述训练样本集合中包括有与所述测试数据相同维度的训练数据,所述训练数据和所述测试数据为由银行业客户系统记录的业务数据。
该数据处理单元12被配置为执行确定所述测试样本集合的数据稳定值和所述训练样本集合的数据稳定值;所述数据稳定值用于表征对应数据集合中各数据之间取值的变化程度。
该数据筛选单元13被配置为执行基于所述测试样本集合的数据稳定值和所述训练样本集合的数据稳定值之间的差异距离,筛选至少部分所述训练数据用于训练所述业务数据模型。
在一示例性实施例中,所述样本获取单元11,还被配置为执行从对应于所述银行业客户系统的一业务数据存储库中获取多个所述正样本数据和多个所述负样本数据,以集合得到所述训练样本集合;
从所述业务数据存储库中获取多个所述测试数据,以集合得到所述测试样本集合,其中,所述训练数据中包括有与所述测试数据相同维度的正样本数据和负样本数据。
在一示例性实施例中,所述样本获取单元11,还被配置为执行提取所述业务数据存储库中存储的全部正样本数据,得到多个所述正样本数据;和
从所述业务数据存储库中抽取部分负样本数据,得到多个所述负样本数据,其中,所述业务数据存储库中存储的负样本数据的数量远大于正样本数据的数量。
在一示例性实施例中,所述数据处理单元12,还被配置为执行基于各种维度的所述测试数据和所述训练数据对应的第一类统计数据,确定每一维度的所述测试数据的单类型稳定值和每一维度的所述训练数据的单类型稳定值;所述单类型稳定值用于表征一种维度的数据中各个数据之间取值的变化程度;
确定所述测试数据的多个单类型稳定值对应的第二类统计数据,和所述训练数据的多个单类型稳定值对应的第三类统计数据;
分别基于所述第二类统计数据、所述第三类统计数据,确定所述测试样本集合的数据稳定值、所述训练样本集合的数据稳定值。
在一示例性实施例中,所述数据处理单元12,还被配置为执行基于每一维度的所述测试数据的标准差和中位数,计算出对应各种维度的所述测试数据的单类型稳定值;和
基于每一维度的所述训练数据的标准差和中位数,计算出对应各种维度的所述训练数据的单类型稳定值,其中,所述第一类统计数据包括标准差和中位数。
在一示例性实施例中,所述数据处理单元12,还被配置为执行基于所述测试数据中各种单类型稳定值的标准差和均值,计算出所述测试样本集合的数据稳定值;和
基于所述训练数据中各种单类型稳定值的标准差和均值,计算出所述训练样本集合的数据稳定值,其中,所述第二类统计数据、所述第三类统计数据均包括标准差和均值。
在一示例性实施例中,所述数据筛选单元13,还被配置为执行利用所述测试样本集合的数据稳定值和所述训练样本集合的数据稳定值的商值,得到所述差异距离;所述差异距离用于表征两种数据稳定值之间的离散程度;
基于所述差异距离与预设距离限值的大小关系,筛选至少部分所述训练数据用于训练所述业务数据模型。
在一示例性实施例中,所述数据筛选单元13,还被配置为执行计算所述商值与预设常数的差值的绝对值,确定所述差异距离;
所述基于所述差异距离与预设距离限值的大小关系,筛选至少部分所述训练数据用于训练所述业务数据模型,包括:
若所述差异距离小于或等于所述距离限值,筛选所述训练样本集合中的全部训练数据用于训练所述业务数据模型。
在一示例性实施例中,所述数据筛选单元13,还被配置为执行若所述差异距离大于所述距离限值,从对应于所述银行业客户系统的业务数据存储库中重新获取多个新的负样本数据;
集合所述新的负样本数据和所述训练样本集合中的正样本数据,得到新的训练样本集合;
基于所述新的训练样本集合和所述测试样本集合,重新执行确定所述测试样本集合的数据稳定值和所述训练样本集合的数据稳定值的步骤,直到所述差异距离小于或等于所述距离限值。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
图10是根据一示例性实施例示出的一种用于训练数据的筛选的电子设备20的框图。例如,电子设备20可以为服务器。参照图10,电子设备20包括处理组件21,其进一步包括一个或多个处理器,以及由存储器22所代表的存储器资源,用于存储可由处理组件21的执行的可执行指令,例如应用程序。存储器22中存储的应用程序可以包括一个或一个以上的每一个对应于一组可执行指令的模块。此外,处理组件21被配置为执行可执行指令,以执行上述方法。
在一实施例中,电子设备20为服务器,该服务器中的计算系统可以运行一个或多个操作系统,包括以上讨论的任何操作系统以及任何商用的服务器操作系统。该服务器还可以运行各种附加服务器应用和/或中间层应用中的任何一种,包括HTTP(超文本传输协议)服务器、FTP(文件传输协议)服务器、CGI(通用网关界面)服务器、服务器、数据库服务器等。示例性数据库服务器包括但不限于可从(国际商业机器)等商购获得的数据库服务器。
在一实施例中,处理组件21通常控制电子设备20的整体操作,诸如与显示、数据处理、数据通信和记录操作相关联的操作。处理组件21可以包括一个或多个处理器来执行指令,以完成上述的方法的全部或部分步骤。此外,处理组件21可以包括一个或多个模块,便于处理组件21和其他组件之间的交互。例如,处理组件21可以包括多媒体模块,以方便利用多媒体组件控制用户终端和处理组件21之间的交互。
在一实施例中,处理组件21中的处理器还可以称为CPU(Central ProcessingUnit,中央处理单元)。处理器可能是一种电子芯片,具有信号的处理能力。处理器还可以是通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、专用集成电路(ApplicationSpecific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable GateArray,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。另外,处理器可以由集成电路芯片共同实现。
在一实施例中,存储器22被配置为存储各种类型的数据以支持在电子设备20的操作。这些数据的示例包括用于在电子设备20上操作的任何应用程序或方法的指令、采集数据、消息、图片、视频等。存储器22可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM)、电可擦除可编程只读存储器(EEPROM)、可擦除可编程只读存储器(EPROM)、可编程只读存储器(PROM)、只读存储器(ROM)、磁存储器、快闪存储器、磁盘、光盘或石墨烯存储器。
在一实施例中,存储器22可以为内存条、TF卡等,可以存储电子设备20中的全部信息,包括输入的原始数据、计算机程序、中间运行结果和最终运行结果都保存在在一实施例中,存储器22中。它根据处理器指定的位置存入和取出信息。有了在一实施例中,存储器22,电子设备20才有记忆功能,才能保证正常工作。电子设备20的在一实施例中,存储器22按用途可分为主存储器(内存)和辅助存储器(外存),也有分为外部存储器和内部存储器的分类方法。外存通常是磁性介质或光盘等,能长期保存信息。内存指主板上的存储部件,用来存放当前正在执行的数据和程序,但仅用于暂时存放程序和数据,关闭电源或断电,数据会丢失。
电子设备20还可以包括:电源组件23被配置为执行电子设备20的电源管理,有线或无线网络接口24被配置为将电子设备20连接到网络,和输入输出(I/O)接口25。电子设备20可以操作基于存储在存储器22的操作系统,例如Windows Server,Mac OS X,Unix,Linux,FreeBSD或类似。
在一实施例中,电源组件23为电子设备20的各种组件提供电力。电源组件23可以包括电源管理系统,一个或多个电源,及其他与为电子设备20生成、管理和分配电力相关联的组件。
在一实施例中,有线或无线网络接口24被配置为便于电子设备20和其他设备之间有线或无线方式的通信。电子设备20可以接入基于通信标准的无线网络,如WiFi,运营商网络(如2G、3G、4G或5G),或它们的组合。
在一个示例性实施例中,有线或无线网络接口24经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中,有线或无线网络接口24还包括近场通信(NFC)模块,以促进短程通信。例如,在NFC模块可基于射频识别(RFID)技术,红外数据协会(IrDA)技术,超宽带(UWB)技术,蓝牙(BT)技术和其他技术来实现。
在一实施例中,输入输出(I/O)接口25为处理组件21和外围接口模块之间提供接口,上述外围接口模块可以是键盘,点击轮,按钮等。这些按钮可包括但不限于:主页按钮、音量按钮、启动按钮和锁定按钮。
图11是根据一示例性实施例示出的一种用于训练数据的筛选的计算机可读存储介质30的框图。该计算机可读存储介质30中存储有能够实现上述方法的程序数据31。
在本申请各个实施例中的各功能单元集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在计算机可读存储介质30中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机可读存储介质30在一个程序数据31中,包括若干指令用以使得一台计算机设备(可以是个人计算机,系统服务器,或者网络设备等)、电子设备(例如MP3、MP4等,也可以是手机、平板电脑、可穿戴设备等智能终端,也可以是台式电脑等)或者处理器(processor)以执行本申请各个实施方式方法的全部或部分步骤。
图12是根据一示例性实施例示出的一种用于训练数据的筛选的计算机程序产品40的框图。该计算机程序产品40中包括程序指令41,上述程序数据可由电子设备20的处理器执行以完成上述方法。
本领域内的技术人员应明白,本申请的实施例可提供为对生物进行身份识别方法、训练数据的筛选装置10、电子设备20、计算机可读存储介质30或计算机程序产品40。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机程序指令41(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品40的形式。
本申请是参照根据本申请实施例中训练数据的筛选方法、训练数据的筛选装置10、电子设备20、计算机可读存储介质30或计算机程序产品40的流程图和/或方框图来描述的。应理解可由计算机程序产品40实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序产品40到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的程序指令41产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序产品40也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机程序产品40中的程序指令41产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些程序指令41也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的程序指令41提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
需要说明的,上述的各种方法、装置、电子设备、计算机可读存储介质、计算机程序产品等根据方法实施例的描述还可以包括其他的实施方式,具体的实现方式可以参照相关方法实施例的描述,在此不作一一赘述。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由权利要求指出。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims (14)

1.一种训练数据的筛选方法,其特征在于,所述方法包括:
获取测试样本集合和训练样本集合;所述测试样本集合中包括有多种维度的测试数据,所述训练样本集合中包括有与所述测试数据相同多种维度的训练数据,所述训练数据和所述测试数据为由银行业客户系统记录的业务数据;
确定所述测试样本集合的数据稳定值和所述训练样本集合的数据稳定值;所述数据稳定值用于表征对应数据集合中各数据之间取值的变化程度;
基于所述测试样本集合的数据稳定值和所述训练样本集合的数据稳定值之间的差异距离,筛选至少部分所述训练数据用于训练业务数据模型。
2.根据权利要求1所述的方法,其特征在于,所述训练数据中包括有与所述测试数据相同多种维度的正样本数据和负样本数据;
所述获取测试样本集合和训练样本集合,包括:
从对应于所述银行业客户系统的一业务数据存储库中获取多个所述正样本数据和多个所述负样本数据,以集合得到所述训练样本集合;
从所述业务数据存储库中获取多个所述测试数据,以集合得到所述测试样本集合。
3.根据权利要求2所述的方法,其特征在于,所述业务数据存储库中存储的负样本数据的数量远大于正样本数据的数量;
从所述业务数据存储库中获取多个所述正样本数据和所述负样本数据,包括:
提取所述业务数据存储库中存储的全部正样本数据,得到多个所述正样本数据;和
从所述业务数据存储库中抽取部分负样本数据,得到多个所述负样本数据;其中,所述正样本数据和所述负样本数据两者之间数据稳定值的差异距离的大小与所述业务数据模型的稳定性负相关。
4.根据权利要求1所述的方法,其特征在于,所述确定所述测试样本集合的数据稳定值和所述训练样本集合的数据稳定值,包括:
基于各种维度的所述测试数据和所述训练数据对应的第一类统计数据,确定每一维度的所述测试数据的单类型稳定值和每一维度的所述训练数据的单类型稳定值;所述单类型稳定值用于表征一种维度的数据中各个数据之间取值的变化程度;各种相同维度的所述测试数据和所述训练数据至少包括资产总额维度、月存款额维度、月流出款额维度、业务收入额维度、月交易次数维度;
确定所述测试数据的多个单类型稳定值对应的第二类统计数据,和所述训练数据的多个单类型稳定值对应的第三类统计数据;
分别基于所述第二类统计数据、所述第三类统计数据,确定所述测试样本集合的数据稳定值、所述训练样本集合的数据稳定值。
5.根据权利要求4所述的方法,其特征在于,所述第一类统计数据包括标准差和中位数;
所述基于各种维度的所述测试数据和所述训练数据对应的第一类统计数据,确定每一维度的所述测试数据的单类型稳定值和每一维度的所述训练数据的单类型稳定值,包括:
基于每一维度的所述测试数据的标准差和中位数,计算出对应各种维度的所述测试数据的单类型稳定值;和
基于每一维度的所述训练数据的标准差和中位数,计算出对应各种维度的所述训练数据的单类型稳定值。
6.根据权利要求5所述的方法,其特征在于,所述第二类统计数据、所述第三类统计数据均包括标准差和均值;
所述分别基于所述第二类统计数据、所述第三类统计数据,确定所述测试样本集合的数据稳定值、所述训练样本集合的数据稳定值,包括:
基于所述测试数据中各种单类型稳定值的标准差和均值,计算出所述测试样本集合的数据稳定值;和
基于所述训练数据中各种单类型稳定值的标准差和均值,计算出所述训练样本集合的数据稳定值。
7.根据权利要求1至6任一所述的方法,其特征在于,所述基于所述测试样本集合的数据稳定值和所述训练样本集合的数据稳定值之间的差异距离,筛选至少部分所述训练数据用于训练业务数据模型,包括:
利用所述测试样本集合的数据稳定值和所述训练样本集合的数据稳定值的商值,得到所述差异距离;所述差异距离用于表征两种数据稳定值之间的离散程度;所述差异距离的大小与所述业务数据模型的稳定性负相关;
基于所述差异距离与预设距离限值的大小关系,筛选至少部分所述训练数据用于训练所述业务数据模型。
8.根据权利要求7所述的方法,其特征在于,
所述利用所述测试样本集合的数据稳定值和所述训练样本集合的数据稳定值的商值,得到所述差异距离,包括:
计算所述商值与预设常数的差值的绝对值,确定所述差异距离;
所述基于所述差异距离与预设距离限值的大小关系,筛选至少部分所述训练数据用于训练所述业务数据模型,包括:
若所述差异距离小于或等于所述距离限值,筛选所述训练样本集合中的全部训练数据用于训练所述业务数据模型。
9.根据权利要求8所述的方法,其特征在于,若所述差异距离越大,则所述业务数据模型的稳定性越低;若所述差异距离越小,则所述业务数据模型的稳定性越高;
所述基于所述差异距离与预设距离限值的大小关系,筛选至少部分所述训练数据用于训练所述业务数据模型,包括:
若所述差异距离大于所述距离限值,从对应于所述银行业客户系统的业务数据存储库中重新获取多个新的负样本数据;
集合所述新的负样本数据和所述训练样本集合中的正样本数据,得到新的训练样本集合;
基于所述新的训练样本集合和所述测试样本集合,重新执行确定所述测试样本集合的数据稳定值和所述训练样本集合的数据稳定值的步骤,直到所述差异距离小于或等于所述距离限值。
10.一种风险评估方法,所述方法应用于银行业客户系统,其特征在于,所述方法包括:
获取客户的投资数据;
将所述投资数据输入一已训练的风险评估模型中进行风险计算,得到所述客户按照所述投资数据进行投资的风险分值;所述风险评估模型是利用测试样本集合中的测试数据和训练样本集合中的训练数据构建得到,所述训练样本集合中的训练数据是基于权利要求1-9中的任意一项所述的训练数据的筛选方法筛选得到;
基于所述风险分值,确定所述客户的风险评估结果。
11.一种训练数据的筛选装置,其特征在于,包括:
样本获取单元,被配置为执行获取测试样本集合和训练样本集合;所述测试样本集合中包括有多种维度的测试数据,所述训练样本集合中包括有与所述测试数据相同多种维度的训练数据,所述训练数据和所述测试数据为由银行业客户系统记录的业务数据;
数据处理单元,被配置为执行确定所述测试样本集合的数据稳定值和所述训练样本集合的数据稳定值;所述数据稳定值用于表征对应数据集合中各数据之间取值的变化程度;
数据筛选单元,被配置为执行基于所述测试样本集合的数据稳定值和所述训练样本集合的数据稳定值之间的差异距离,筛选至少部分所述训练数据用于训练所述业务数据模型。
12.一种电子设备,其特征在于,包括:
处理器;
用于存储所述处理器的可执行指令的存储器;
其中,所述处理器被配置为执行所述可执行指令,以实现如权利要求1至9中任一项所述的训练数据的筛选方法和/或权利要求10所述的风险评估方法。
13.一种计算机可读存储介质,所述计算机可读存储介质中包括程序数据,其特征在于,当所述程序数据由电子设备的处理器执行时,使得所述电子设备能够执行如权利要求1至9中任一项所述的训练数据的筛选方法和/或权利要求10所述的风险评估方法。
14.一种计算机程序产品,所述计算机程序产品中包括程序指令,其特征在于,在所述程序指令被电子设备的处理器执行时,使得所述电子设备能够执行如权利要求1至9中任一项所述的训练数据的筛选方法和/或权利要求10所述的风险评估方法。
CN202211371035.7A 2022-11-03 2022-11-03 训练数据的筛选方法、风险评估方法、装置、设备和介质 Pending CN115689708A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211371035.7A CN115689708A (zh) 2022-11-03 2022-11-03 训练数据的筛选方法、风险评估方法、装置、设备和介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211371035.7A CN115689708A (zh) 2022-11-03 2022-11-03 训练数据的筛选方法、风险评估方法、装置、设备和介质

Publications (1)

Publication Number Publication Date
CN115689708A true CN115689708A (zh) 2023-02-03

Family

ID=85047426

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211371035.7A Pending CN115689708A (zh) 2022-11-03 2022-11-03 训练数据的筛选方法、风险评估方法、装置、设备和介质

Country Status (1)

Country Link
CN (1) CN115689708A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113190851A (zh) * 2021-05-26 2021-07-30 北京天融信网络安全技术有限公司 恶意文档检测模型的主动学习方法、电子设备及存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113190851A (zh) * 2021-05-26 2021-07-30 北京天融信网络安全技术有限公司 恶意文档检测模型的主动学习方法、电子设备及存储介质
CN113190851B (zh) * 2021-05-26 2023-07-18 北京天融信网络安全技术有限公司 恶意文档检测模型的主动学习方法、电子设备及存储介质

Similar Documents

Publication Publication Date Title
CN108648074B (zh) 基于支持向量机的贷款评估方法、装置及设备
CN109583966A (zh) 一种高价值客户识别方法、系统、设备及存储介质
CN111709826A (zh) 目标信息确定方法和装置
CN110634060A (zh) 一种用户信用风险的评估方法、系统、装置及存储介质
CN114154672A (zh) 一种用于客户流失预测的数据挖掘方法
CN110288468B (zh) 数据特征挖掘方法、装置、电子设备及存储介质
CN115689708A (zh) 训练数据的筛选方法、风险评估方法、装置、设备和介质
CN115545103A (zh) 异常数据识别、标签识别方法和异常数据识别装置
CN115271931A (zh) 一种信用卡产品的推荐方法、装置、电子设备和介质
CN113723995A (zh) 一种确定营销任务的方法和装置
Wang Research on bank marketing behavior based on machine learning
CN117217902A (zh) 信贷风险识别方法、装置、设备及存储介质
CN114626940A (zh) 数据分析方法、装置及电子设备
CN114511329A (zh) 账户识别方法、装置、存储介质和电子设备
CN110472680B (zh) 目标分类方法、装置和计算机可读存储介质
CN113240513A (zh) 一种用户授信额度的确定方法和相关装置
CN110852392A (zh) 一种用户分群方法、装置、设备和介质
CN111932018B (zh) 银行业务绩效贡献信息预测方法及装置
CN118569910A (zh) 面向小程序的智能营销管理方法及装置
CN118115268A (zh) 一种信息处理方法及装置、存储介质
Orlova Data Driven Design to Credit Risk Management Using Digital Footprint Intelligence
CN114662824A (zh) 风控策略切换方法、装置、计算机设备和存储介质
CN115687926A (zh) 样本数据的处理方法、相关方法、装置、服务器和介质
CN118333738A (zh) 构建零售信用风险预测模型的方法和信用卡业务Scorealpha模型
CN117807315A (zh) 推荐方法、装置以及计算机设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination