CN111400663B

CN111400663B - 模型训练方法、装置、设备及计算机可读存储介质

Info

Publication number: CN111400663B
Application number: CN202010189398.3A
Authority: CN
Inventors: 张鹏
Original assignee: WeBank Co Ltd
Current assignee: WeBank Co Ltd
Priority date: 2020-03-17
Filing date: 2020-03-17
Publication date: 2022-06-14
Anticipated expiration: 2040-03-17
Also published as: CN111400663A

Abstract

本发明涉及金融科技技术领域，公开了一种模型训练方法、装置、设备及计算机可读存储介质。该方法包括：获取样本用户的第一和第二风险数据集、标注标签；按预设时段对第一和第二风险数据集中的数据进行处理，得到同时段位移特征数据；对第一和第二风险数据集中的数据进行合并，得到合并风险数据集，并基于合并风险数据集提取得到目标特征数据；基于同时段位移特征数据、目标特征数据和标注标签构建训练样本集，并通过训练样本集对预设风险识别模型进行训练，得到训练好的风险识别模型。本发明从位移、空间、和时间三个角度对风险数据进行总结和变量计算，以用于训练风险识别模型，可提高风险识别结果的准确性，提升模型的风险识别效果。

Description

模型训练方法、装置、设备及计算机可读存储介质

技术领域

本发明涉及金融科技(Fintech)的数据处理技术领域，尤其涉及一种模型训练方法、装置、设备及计算机可读存储介质。

背景技术

随着计算机技术的发展，越来越多的技术应用在金融领域，传统金融业正在逐步向金融科技(Fintech)转变，但由于金融行业的安全性、实时性要求，也对技术提出了更高的要求。

信贷风险管理通过风险识别、计量、监测和控制等程序，对风险进行评级、分类、报告和管理，保持风险和效益的平衡发展，提高贷款的经济效益。对于个人信贷业务来说，风险管理就是结合各种导致个人发生违约的因素，识别个人发生违约的风险，并在全流程中进行管理和控制。

现有的个贷风险识别方法主要是基于评分卡模型，而影响评分卡模型效果的重要因素之一就是输入变量的质量，好的变量要满足区分力高、解释性强和跨时点稳定等特性，需要对数据有比较深的理解，从而从中抽象出有效信息，去除噪声。然而，现有变量主要是对于底层信息的一些统计，较为基础和笼统，导致训练得到的模型风险识别效果较差。

发明内容

本发明的主要目的在于提供一种模型训练方法、装置、设备及计算机可读存储介质，旨在提升模型的风险识别效果。

为实现上述目的，本发明提供一种模型训练方法，所述模型训练方法包括：

获取样本用户在第一时间内的第一风险数据集、在第二时间内的第二风险数据集和标注标签；

按预设时段对所述第一风险数据集和所述第二风险数据集中的数据进行处理，得到同时段位移特征数据；

对所述第一风险数据集和所述第二风险数据集中的数据进行合并，得到合并风险数据集，并基于所述合并风险数据集提取得到目标特征数据；其中，所述目标特征数据包括时段间位移特征数据、空间类特征数据和时间类特征数据；

基于所述同时段位移特征数据、所述目标特征数据和所述标注标签构建训练样本集，并通过所述训练样本集对预设风险识别模型进行训练，得到训练好的风险识别模型。

可选地，所述按预设时段对所述第一风险数据集和所述第二风险数据集中的数据进行处理，得到同时段位移特征数据的步骤包括：

根据样本用户的用户标识，从所述第一风险数据集和所述第二风险数据集中获取同一样本用户处于不同位置时的数据，得到第一数据子集和第二数据子集；

按预设时段对所述第一数据子集和所述第二数据子集中的数据进行相似度计算，得到同时段位移特征数据。

可选地，所述按预设时段对所述第一数据子集和所述第二数据子集中的数据进行相似度计算，得到同时段位移特征数据的步骤包括：

按预设时段从所述第一数据子集和所述第二数据子集中获取同一样本用户同一时段处于不同位置时连接天数的最大值和最小值；

对所述最大值进行加和，得到最大值和，并对所述最小值进行加和，得到最小值和；

基于所述最小值和所述最大值进行除法运算，得到同时段位移特征数据。

可选地，所述目标特征数据包括所述时段间位移特征数据，所述基于所述合并风险数据集提取得到目标特征数据的步骤包括：

根据样本用户的用户标识，从所述合并风险数据集中获取同一样本用户各时段处于不同位置时的数据，记为第三数据子集；

对预设时段进行两两组合，并基于组合结果对所述第三数据子集进行相似度计算，得到时段间位移特征数据。

可选地，所述目标特征数据包括空间类特征数据，所述基于所述合并风险数据集提取得到目标特征数据的步骤包括：

按位置标识从所述合并风险数据集提取得到各位置标识对应的第一属性特征数据集；

从所述合并风险数据集获取各样本用户处于不同位置时的连接天数数据集，并根据所述连接天数数据集和所述第一属性特征数据集得到各样本用户对应的第二属性特征数据集；

根据样本用户的用户标识，计算所述第二属性特征数据集中各样本用户处于不同位置时的连接天数的权重值；

根据所述权重值和所述第二属性特征数据集中各样本用户的属性特征，计算得到空间类特征数据。

可选地，所述按位置标识从所述合并风险数据集提取得到各位置标识对应的第一属性特征数据集的步骤包括：

根据位置标识对所述合并风险数据集中的数据进行统计，得到各位置标识对应的连接客户总数和各时段的总连接天数；

基于所述各时段的总连接天数计算得到各位置标识各时段的连接人天占比数据；

基于所述连接客户总数和所述连接人天占比数据，构建得到各位置标识对应的第一属性特征数据集。

可选地，所述目标特征数据包括时间类特征数据，所述基于所述合并风险数据集提取得到目标特征数据的步骤包括：

对所述合并风险数据集中的数据进行统计，得到各样本用户各预设时段的总连接天数和总连接个数；

根据所述第一时间和所述第二时间确定采样天数，并对所述总连接天数和所述采样天数进行除法运算，得到各样本用户各预设时段的连接频率；

其中，所述时间类特征数据包括所述总连接天数、所述总连接个数和所述连接频率。

可选地，所述模型训练方法还包括：

获取待识别风险数据集，并对所述待识别风险数据集进行处理，得到输入特征数据；

将所述输入特征数据输入至所述训练好的风险识别模型中，得到风险识别结果。

此外，为实现上述目的，本发明还提供一种模型训练装置，所述模型训练装置包括：

数据获取模块，用于获取样本用户在第一时间内的第一风险数据集、在第二时间内的第二风险数据集和标注标签；

第一处理模块，用于按预设时段对所述第一风险数据集和所述第二风险数据集中的数据进行处理，得到同时段位移特征数据；

数据提取模块，用于对所述第一风险数据集和所述第二风险数据集中的数据进行合并，得到合并风险数据集，并基于所述合并风险数据集提取得到目标特征数据；其中，所述目标特征数据包括时段间位移特征数据、空间类特征数据和时间类特征数据；

模型训练模块，用于基于所述同时段位移特征数据、所述目标特征数据和所述标注标签构建训练样本集，并通过所述训练样本集对预设风险识别模型进行训练，得到训练好的风险识别模型。

此外，为实现上述目的，本发明还提供一种模型训练设备，所述模型训练设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的模型训练程序，所述模型训练程序被所述处理器执行时实现如上所述的模型训练方法的步骤。

此外，为实现上述目的，本发明还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有模型训练程序，所述模型训练程序被处理器执行时实现如上所述的模型训练方法的步骤。

本发明提供一种模型训练方法、装置、设备及计算机可读存储介质，通过获取样本用户在第一时间内的第一风险数据集、在第二时间内的第二风险数据集和标注标签；按预设时段对第一风险数据集和第二风险数据集中的数据进行处理，得到同时段位移特征数据；对第一风险数据集和第二风险数据集中的数据进行合并，得到合并风险数据集，并基于合并风险数据集提取得到目标特征数据；其中，目标特征数据包括时段间位移特征数据、空间类特征数据和时间类特征数据；基于同时段位移特征数据、目标特征数据和标注标签构建训练样本集，并通过训练样本集对预设风险识别模型进行训练，得到训练好的风险识别模型。通过上述方式，本发明从位移、空间、和时间三个角度对风险数据进行总结和变量计算，可以有效覆盖时空数据的主要信息点，同时得到统一的规律性表达形式，进而将处理得到的数据用于训练风险识别模型，相比于现有技术，基于基础和笼统的统计数据来训练风险识别模型，本发明可提高风险识别结果的准确性，提升模型的风险识别效果。

附图说明

图1为本发明实施例方案涉及的硬件运行环境的设备结构示意图；

图2为本发明模型训练方法第一实施例的流程示意图；

图3为本发明模型训练装置第一实施例的功能模块示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

参照图1，图1为本发明实施例方案涉及的硬件运行环境的设备结构示意图。

本发明实施例模型训练设备可以是智能手机，也可以是PC(Personal Computer，个人计算机)、平板电脑、便携计算机等终端设备。

如图1所示，该模型训练设备可以包括：处理器1001，例如CPU，通信总线1002，用户接口1003，网络接口1004，存储器1005。其中，通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard)，可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如Wi-Fi接口)。存储器1005可以是高速RAM存储器，也可以是稳定的存储器(non-volatile memory)，例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。

本领域技术人员可以理解，图1中示出的模型训练设备结构并不构成对模型训练设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

如图1所示，作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块以及模型训练程序。

在图1所示的终端中，网络接口1004主要用于连接后台服务器，与后台服务器进行数据通信；用户接口1003主要用于连接客户端，与客户端进行数据通信；而处理器1001可以用于调用存储器1005中存储的模型训练程序，并执行以下模型训练方法的各个步骤。

基于上述硬件结构，提出本发明模型训练方法的各实施例。

本发明提供一种模型训练方法。

参照图2，图2为本发明模型训练方法第一实施例的流程示意图。

在本实施例中，该模型训练方法包括：

步骤S10，获取样本用户在第一时间内的第一风险数据集、在第二时间内的第二风险数据集和标注标签；

本实施例的模型训练方法是由模型训练设备实现的，该设备以服务器为例进行说明。

服务器先获取样本用户在第一时间内的第一风险数据集、在第二时间内的第二风险数据集和标注标签。其中，第一风险数据集和第二风险数据集可以为表格的形式，便于后续进行数据的统计和处理，如下表1，第一风险数据集和第二风险数据集中的数据包括不同的样本用户的用户标识、位置标识及不同时段所对应的连接天数。其中，该位置标识可以以POI id(编号)来表征，POI(Point of Information，兴趣点)用来标识一个具体的位置，POIid是基于经纬度进行编号划分的，可将在同一位置范围内的POI划分为同一POI id；时段可包括工作日时段和休息日时段，工作日时段和休息日时段又可以具体划分为多个时段，如0-6、6-10、10-12、12-14、14-17、17-20、20-22、22-24，大致涵盖客户一天的睡眠、出行、工作、吃饭、娱乐等不同区间，如下表1中，工作日时段w0和休息日时段r0分别对应工作日和休息日的时段0-6，工作日时段w1和休息日时段r2对应工作日和休息日的时段6-10，依次类推；连接天数即为样本用户在不同时段处于POI所描述位置所对应的天数。

表1第一风险数据集和第二风险数据集的示例表

步骤S20，按预设时段对所述第一风险数据集和所述第二风险数据集中的数据进行处理，得到同时段位移特征数据；

然后，按预设时段对第一风险数据集和第二风险数据集中的数据进行处理，得到同时段位移特征数据。具体的，先根据样本用户的用户标识，从第一风险数据集和第二风险数据集中获取同一样本用户处于不同位置时的数据，得到第一数据子集和第二数据子集；然后，按预设时段对第一数据子集和第二数据子集中的数据进行相似度计算，得到同时段位移特征数据。具体的处理过程可参照下述第二实施例，此处不作赘述。其中，同时段位移特征数据为其中一种位移类特征数据，是通过对各样本用户不同时间内同时段的数据进行比较分析得到的，可描述固定时段样本用户不同时间内的位置变化情况，从而判断其生活是否发生了某种变化。

步骤S30，对所述第一风险数据集和所述第二风险数据集中的数据进行合并，得到合并风险数据集，并基于所述合并风险数据集提取得到目标特征数据；其中，所述目标特征数据包括时段间位移特征数据、空间类特征数据和时间类特征数据；

对第一风险数据集和第二风险数据集中的数据进行合并，得到合并风险数据集，具体的，对第一风险数据集和第二风险数据集中同一样本用户处于同一位置同一时段所对应的连接天数进行加和，以得到合并风险数据集。

进而，基于合并风险数据集提取得到目标特征数据；其中，目标特征数据包括时段间位移特征数据、空间类特征数据和时间类特征数据。

其中，时间段位移特征数据是另一种位移类特征数据，是通过对各样本用户不同时段的数据进行比较分析得到的，其获取过程可参照下述第三实施例。空间类特征数据是通过将位置的属性特征与样本用户在不同时段的连接情况相结合分析得到的，其获取过程可参照下述第四实施例。时间类特征数据包括各样本用户各预设时段的总连接天数和连接频率、及各样本用户的总连接个数，是对合并风险数据集中的数据进行统计、计算得到的，其获取过程可参照下述第五实施例。

需要说明的是，步骤S20和步骤S30的执行顺序不分先后。

步骤S40，基于所述同时段位移特征数据、所述目标特征数据和所述标注标签构建训练样本集，并通过所述训练样本集对预设风险识别模型进行训练，得到训练好的风险识别模型。

在对数据处理完成后，基于处理得到的同时段位移特征数据、目标特征数据和标注标签构建训练样本集，具体的，可基于同时段位移特征数据、目标特征数据构建特征向量，以作为预设风险识别模型的输入变量，标注标签作为目标Y，构建得到训练样本集。

然后，通过训练样本集对预设风险识别模型进行训练，得到训练好的风险识别模型。其中，预设风险识别模型的类型可以包括但不限于：逻辑回归模型、神经网络模型、XGBoost(eXtreme Gradient Boosting，极端梯度增强)模型，SVM(Support VectorMachine，支持向量机)模型，贝叶斯模型和CNN(Convolutional Neural Networks，卷积神经网络)模型等，具体的模型训练过程可参照现有技术，此处不作赘述。

本发明实施例提供一种模型训练方法，通过获取样本用户在第一时间内的第一风险数据集、在第二时间内的第二风险数据集和标注标签；按预设时段对第一风险数据集和第二风险数据集中的数据进行处理，得到同时段位移特征数据；对第一风险数据集和第二风险数据集中的数据进行合并，得到合并风险数据集，并基于合并风险数据集提取得到目标特征数据；其中，目标特征数据包括时段间位移特征数据、空间类特征数据和时间类特征数据；基于同时段位移特征数据、目标特征数据和标注标签构建训练样本集，并通过训练样本集对预设风险识别模型进行训练，得到训练好的风险识别模型。通过上述方式，本发明实施例从位移、空间、和时间三个角度对风险数据进行总结和变量计算，可以有效覆盖时空数据的主要信息点，同时得到统一的规律性表达形式，进而将处理得到的数据用于训练风险识别模型，相比于现有技术，基于基础和笼统的统计数据来训练风险识别模型，本发明实施例可提高风险识别结果的准确性，提升模型的风险识别效果。

进一步地，基于图2所示的第一实施例，提出本发明模型训练方法的第二实施例。

在本实施例中，上述第一实施例中的步骤S20包括：

步骤a1，根据样本用户的用户标识，从所述第一风险数据集和所述第二风险数据集中获取同一样本用户处于不同位置时的数据，得到第一数据子集和第二数据子集；

本实施例中介绍了同时段位移特征数据的获取过程，具体如下：

先根据样本用户的用户标识，从第一风险数据集和第二风险数据集中获取同一样本用户处于不同位置时的数据，得到第一数据子集和第二数据子集。其中，第一数据子集和第二数据子集由多个数据表格组成，每个数据表格记录了一样本用户处于不同位置时各个时段的连接数据，第一数据子集中的每个数据表格则记录了一样本用户在第一时间内处于不同位置时各个时段的连接数据，而第二数据子集中的每个数据表格则记录了一样本用户在第二时间内处于不同位置时各个时段的连接数据。第一数据子集与第二数据子集中的各数据表格以用户标识相关联。

步骤a2，按预设时段对所述第一数据子集和所述第二数据子集中的数据进行相似度计算，得到同时段位移特征数据。

然后，按预设时段对第一数据子集和第二数据子集中的数据进行相似度计算，得到同时段位移特征数据。其中，相似度是利用交并比的方式进行计算的。

具体的，步骤a2包括：

步骤a21，按预设时段从所述第一数据子集和所述第二数据子集中获取同一样本用户同一时段处于不同位置时连接天数的最大值和最小值；

步骤a22，对所述最大值进行加和，得到最大值和，并对所述最小值进行加和，得到最小值和；

步骤a23，基于所述最小值和所述最大值进行除法运算，得到同时段位移特征数据。

具体的，先按预设时段从第一数据子集和第二数据子集中获取同一样本用户同一时段处于不同位置时连接天数的最大值和最小值。例如，以用户标识为C1的样本用户在工作日时段w0的同时段位移特征数据的计算为例，先获取得到用户标识为C1的样本用户在第一时间的工作日时段w0(来源于第一数据子集)和第二时间的工作日时段w0(来源于第二数据子集)的连接数据，如下表2。然后，确定C1处于不同位置时连接天数的最大值和最小值，可得到C1处于A对应位置时连接天数的最大值和最小值分别为20和10、C1处于B对应位置时连接天数的最大值和最小值分别为15和0、C1处于C对应位置时连接天数的最大值和最小值分别为1和0。

样本用户	POI	工作日时段w0_第一时间	工作日时段w0_第二时间
				C1	A	10	20
C1	B	0	15
				C1	C	0	1

表2

然后，对最大值进行加和，得到最大值和，并对最小值进行加和，得到最小值和；最后，基于最小值和最大值进行除法运算，得到同时段位移特征数据。例如上例中，可计算得到C1在第一时间和第二时间的同一工作日时段w0的连接天数的最大值和为20+15+1＝36，最小值和为10+0+0＝10，对应的同时段位移特征为10/36＝0.278。

可以理解，若工作日时段和休息日时段均为k个时，对应的各样本用户的同时段位移特征数据包括2k个。

通过上述方式，通过将两个不同时间内的同一样本用户同一时段的连接数据进行处理计算，得到同时段位移特征数据，可用于描述固定时段样本用户不同时间内的位置变化情况，从而判断其生活是否发生了某种变化。

进一步地，基于图2所示的第一实施例，提出本发明模型训练方法的第三实施例。

在本实施例中，所述目标特征数据包括所述时段间位移特征数据，上述第一实施例中的步骤“基于所述合并风险数据集提取得到目标特征数据”包括：

步骤b1，根据样本用户的用户标识，从所述合并风险数据集中获取同一样本用户各时段处于不同位置时的数据，记为第三数据子集；、

先根据样本用户的用户标识，从合并风险数据集中获取同一样本用户各时段处于不同位置时的数据，记为第三数据子集。其中，第三数据子集可由多个数据表格组成，每个数据表格记录了一样本用户处于不同位置时各个时段的连接数据。

步骤b2，对预设时段进行两两组合，并基于组合结果对所述第三数据子集进行相似度计算，得到时段间位移特征数据。

对预设时段进行两两组合，并基于组合结果对第三数据子集进行相似度计算，得到时段间位移特征数据。例如，以用户标识为C1，对工作日时段w0和工作日时段w1进行组合为例，则对用户标识为C1的样本用户在工作日时段w0和工作日时段w1的连接数据进行相似度计算，得到对应的时段间位移特征数据。相似度计算的过程与上述第二实施例中同时段位移特征数据的相似度计算过程相一致，此处不再赘述。

可以理解，若工作日时段和休息日时段均为k个时，对应的各样本用户的时段间位移特征数据包括2k(k-1)个。

本实施例实现了从位移角度对风险数据进行总结和变量计算，通过将同一样本用户不同时段的连接数据进行处理计算，得到时段间位移特征数据，该时段间位移特征数据描述了样本用户每日的轨迹模式，可基本涵盖所有样本用户的位移情况，并且这种表达是统一的，跟样本用户的具体位置和物理距离无关。将这些特征利用某种模型组合起来，就可以描述不同类型的风险客群。

进一步地，基于图2所示的第一实施例，提出本发明模型训练方法的第四实施例。

在本实施例中，所述目标特征数据包括所述空间类特征数据，上述第一实施例中的步骤“基于所述合并风险数据集提取得到目标特征数据”包括：

步骤c1，按位置标识从所述合并风险数据集提取得到各位置标识对应的第一属性特征数据集；

本实施例中介绍了空间类特征数据的获取过程，具体如下：

先按位置标识从合并风险数据集提取得到各位置标识对应的第一属性特征数据集。第一属性特征数据集中可以包括但不限于：不同位置标识所对应的工作日连接客户总数、休息日连接客户总数、各时段的连接人天占比数据、工作日连接大于第一预设天数的客户数、休息日连接大于第二预设天数的客户数等数据。

具体的，步骤c1包括：

步骤c11，根据位置标识对所述合并风险数据集中的数据进行统计，得到各位置标识对应的连接客户总数和各时段的总连接天数；

步骤c12，基于所述各时段的总连接天数计算得到各位置标识各时段的连接人天占比数据；

步骤c13，基于所述连接客户总数和所述连接人天占比数据，构建得到各位置标识对应的第一属性特征数据集。

本实施例中，对于第一属性特征数据的获取，可以先根据位置标识对合并风险数据集中的数据进行统计，得到各位置标识对应的连接客户总数和各时段的总连接天数。其中，连接客户总数可包括工作日连接客户总数和休息日连接客户总数，各时段的总连接天数即为各样本用户各时段的连接天数之和。可以理解，在具体实施例中，还可以统计得到其他数据，例如工作日连接大于第一预设天数的客户数、休息日连接大于第二预设天数的客户数。

例如，以POI id为A为例，若其数据如下表3，由于C1、C3、C4和C5对应的工作日时段各行均存在非0的连接天数，说明均连接过A(即处于A对应的位置)，因此，可统计得到A这一POI对应的连接客户总数为4；根据表3显示的数据，可计算得到A对应的工作日时段w0的总连接天数为2，A对应的工作日时段w1的总连接天数为3，A对应的工作日时段w0的总连接天数为9。

用户标识	POI	工作日时段w0	工作日时段w1	工作日时段w2	…
						C1	A	1	1	6	…
C3	A	0	2	0	…
						C4	A	1	0	2	…
C5	A	0	0	1	…

表3

在统计得到各位置标识对应的连接客户总数和各时段的总连接天数后基于基于各位置标识对应的各时段的总连接天数计算得到各位置标识各时段的连接人天占比数据。其中，各时段的连接人天占比数据可以包括工作日各时段的连接人天占比数据和休息日各时段的连接人天占比数据，以对工作日和休息日进行区分。在计算某一位置标识对应的工作日各时段的连接人天占比数据时，可先对工作日各时段的总连接天数进行加和得到工作日总连接天数，进而分别将工作日各时段的总连接天数除以工作日总连接天数，可对应得到各工作日各时段的连接人天占比数据。休息日各时段的连接人天占比数据的计算过程类似。

然后，基于连接客户总数和连接人天占比数据，构建得到各位置标识对应的第一属性特征数据集。其中，第一属性特征数据集可以为表格的形式，第一属性特征数据集中的数据可以包括不同位置标识对应的连接客户总数、不同时段的连接人天占比数据，还可以包括不同位置标识对应的工作日连接大于第一预设天数的客户数、休息日连接大于第二预设天数的客户数等数据。

参照下表4，为第一属性特征数据集的一示意表。

表4

步骤c2，从所述合并风险数据集获取各样本用户处于不同位置时的连接天数数据集，并根据所述连接天数数据集和所述第一属性特征数据集得到各样本用户对应的第二属性特征数据集；

在提取得到第一属性特征数据集后，从合并风险数据集获取各样本用户处于不同位置时的连接天数数据集，其中，连接天数数据集中包括各样本用户处于不同位置时的连接天数(为各时段对应的连接天数之和)。然后，根据该连接天数数据集和第一属性特征数据集得到各样本用户对应的第二属性特征数据集。第二属性特征数据集可以为表格的形式，包括不同用户标识的样本用户处于不同位置时的连接天数、连接客户总数(包括工作日连接客户总数和休息日连接客户总数)、不同时段的连接人天占比数据，还可以包括不同位置标识对应的工作日连接大于第一预设天数的客户数、休息日连接大于第二预设天数的客户数等数据。参照下表5，为第二属性特征数据集的一示意表。由表5可知，各样本用户处于不同位置时的连接客户总数和各时段连接人天占比即为对应位置标识的连接客户总数和各时段连接人天占比。

表5

步骤c3，根据样本用户的用户标识，计算所述第二属性特征数据集中各样本用户处于不同位置时的连接天数的权重值；

步骤c4，根据所述权重值和所述第二属性特征数据集中各样本用户的属性特征，计算得到空间类特征数据。

在得到各样本用户对应的第二属性特征数据集之后，根据样本用户的用户标识，计算第二属性特征数据集中各样本用户处于不同位置时的连接天数的权重值。例如以表5中的数据为例，样本用户C1处于A对应的位置时，其连接天数的权重值为6/(6+1+9)＝0.375；样本用户C1处于B对应的位置时，其连接天数的权重值为1/(6+1+9)＝0.0625，样本用户C1处于C对应的位置时，其连接天数的权重值为6/(6+1+9)＝0.5625。

进而根据计算得到的权重值和第二属性特征数据集中各样本用户的属性特征，计算得到空间类特征数据。如表5所示，属性特征包括工作日连接客户总数、休息日连接客户总数、各工作日时段的连接人天占比和各休息日时段的连接人天占比，对应的空间类特征数据可以包括工作日连接客户总数加权值、休息日连接客户总数加权值、各工作日时段的连接人天占比加权值和各休息日时段的连接人天占比加权值。以工作日连接客户总数这一属性对应的工作日连接客户总数加权值的计算为例进行说明，工作日连接客户总数加权值为0.375*10+0.0625*3+0.5625*100＝60.1875。其他属性对应加权值的计算同理。

本实施例提取各位置标识对应的第一属性特征数据集，并基于各样本用户处于不同位置时的连接天数数据集和第一属性特征数据集构建第二属性特征数据集，进而确定各样本用户处于不同位置时的连接天数的权重值，以结合权重值和各样本用户的属性特征，计算得到空间类特征数据，实现了从时间角度对风险数据进行总结和变量计算。通过上述方式，利用其他客户连接情况来描述各POI的属性(即不同位置的属性)，并使用样本用户的连接天数加权法结合各POI的属性，来综合描述样本用户在各时段所处的位置属性。

进一步地，基于图2所示的第一实施例，提出本发明模型训练方法的第五实施例。

在本实施例中，所述目标特征数据包括时间类特征数据，上述第一实施例中的步骤“基于所述合并风险数据集提取得到目标特征数据”包括：

步骤d1，对所述合并风险数据集中的数据进行统计，得到各样本用户各预设时段的总连接天数和总连接个数；

步骤d2，根据所述第一时间和所述第二时间确定采样天数，并对所述总连接天数和所述采样天数进行除法运算，得到各样本用户各预设时段的连接频率；其中，所述时间类特征数据包括所述总连接天数、所述总连接个数和所述连接频率。

本实施例介绍了时间类特征数据的获取过程，其中，时间类特征数据包括总连接天数、总连接个数和连接频率，获取过程如下：

对合并风险数据集中的数据进行统计，得到各样本用户各预设时段的总连接天数和总连接个数，其中，各样本用户各预设时段的总连接天数即为各样本用户各预设时段处于不同位置的连接天数之和，例如，若样本用户C3在工作日时段w0处于不同位置A、B和C(即POI id分别为A、B和C时)的连接天数分别为1、3、5，则样本用户C3在工作日时段w0的总连接天数为1+3+5＝9天。而总连接个数即为样本用户所有所处位置的总个数，例如上例中，样本用户C3所对应的POI id包括A、B和C，则其总连接个数为3个。

然后，根据第一时间和第二时间确定采样天数，其中采样天数即为第一时间对应的天数与第二时间对应的天数之和，进而对总连接天数和采样天数进行除法运算，得到各样本用户各预设时段的连接频率，即，连接频率＝总连接天数/采样天数。

通过上述方式，通过对风险数据进行统计、计算，可得到时间类特征数据，实现了从时间角度对风险数据进行总结和变量计算。

进一步地，基于上述各实施例，提出本发明模型训练方法的第六实施例。

在本实施例中，在上述步骤S40之后，该模型训练方法还包括：

步骤A，获取待识别风险数据集，并对所述待识别风险数据集进行处理，得到输入特征数据；

在本实施例中，在模型训练完成，得到训练好的风险识别模型之后，可以将该风险识别模型用于识别用户的违约风险。具体的，在接收到风险识别指令时，根据该风险识别指令获取待识别风险数据集，并对该待识别风险数据集进行处理，得到输入特征数据。其中，输入特征数据包括：位移类特征数据(包括同时段位移特征数据和时段间位移特征数据)、空间类特征数据和时间类特征数据，具体的处理过程可参照上述各实施例，此处不再赘述。

步骤B，将所述输入特征数据输入至所述训练好的风险识别模型中，得到风险识别结果。

然后，将处理得到的输入特征数据输入至训练好的风险识别模型中，得到风险识别结果，金融机构或企业可基于该风险识别结果确定客户发生违约的风险，进而在全流程中进行管理和控制。

本实施例中基于训练得到的风险识别模型对客户进行风险识别，可便于金融机构或企业及时监控客户发生违约的风险，进而在全流程中进行管理和控制。

本发明还提供一种模型训练装置。

参照图3，图3为本发明模型训练装置第一实施例的功能模块示意图。

如图3所示，所述模型训练装置包括：

数据获取模块10，用于获取样本用户在第一时间内的第一风险数据集、在第二时间内的第二风险数据集和标注标签；

第一处理模块20，用于按预设时段对所述第一风险数据集和所述第二风险数据集中的数据进行处理，得到同时段位移特征数据；

数据提取模块30，用于对所述第一风险数据集和所述第二风险数据集中的数据进行合并，得到合并风险数据集，并基于所述合并风险数据集提取得到目标特征数据；其中，所述目标特征数据包括时段间位移特征数据、空间类特征数据和时间类特征数据；

模型训练模块40，用于基于所述同时段位移特征数据、所述目标特征数据和所述标注标签构建训练样本集，并通过所述训练样本集对预设风险识别模型进行训练，得到训练好的风险识别模型。

进一步地，所述第一处理模块20包括：

第一获取单元，用于根据样本用户的用户标识，从所述第一风险数据集和所述第二风险数据集中获取同一样本用户处于不同位置时的数据，得到第一数据子集和第二数据子集；

第一计算单元，用于按预设时段对所述第一数据子集和所述第二数据子集中的数据进行相似度计算，得到同时段位移特征数据。

进一步地，所述第一计算单元具体用于：

进一步地，所述目标特征数据包括所述时段间位移特征数据，所述数据提取模块30包括：

第二获取单元，用于根据样本用户的用户标识，从所述合并风险数据集中获取同一样本用户各时段处于不同位置时的数据，记为第三数据子集；

第二计算单元，用于对预设时段进行两两组合，并基于组合结果对所述第三数据子集进行相似度计算，得到时段间位移特征数据。

进一步地，所述目标特征数据包括空间类特征数据，所述数据提取模块30包括：

数据提取单元，用于按位置标识从所述合并风险数据集提取得到各位置标识对应的第一属性特征数据集；

第三获取单元，用于从所述合并风险数据集获取各样本用户处于不同位置时的连接天数数据集，并根据所述连接天数数据集和所述第一属性特征数据集得到各样本用户对应的第二属性特征数据集；

第三计算单元，用于根据样本用户的用户标识，计算所述第二属性特征数据集中各样本用户处于不同位置时的连接天数的权重值；

第四计算单元，用于根据所述权重值和所述第二属性特征数据集中各样本用户的属性特征，计算得到空间类特征数据。

进一步地，所述数据提取单元具体用于：

进一步地，所述目标特征数据包括时间类特征数据，所述数据提取模块30包括：

数据统计单元，用于对所述合并风险数据集中的数据进行统计，得到各样本用户各预设时段的总连接天数和总连接个数；

第五计算单元，用于根据所述第一时间和所述第二时间确定采样天数，并对所述总连接天数和所述采样天数进行除法运算，得到各样本用户各预设时段的连接频率；其中，所述时间类特征数据包括所述总连接天数、所述总连接个数和所述连接频率。

进一步地，所述模型训练装置还包括：

第二处理模块，用于获取待识别风险数据集，并对所述待识别风险数据集进行处理，得到输入特征数据；

风险识别模块，用于将所述输入特征数据输入至所述训练好的风险识别模型中，得到风险识别结果。

其中，上述模型训练装置中各个模块的功能实现与上述模型训练方法实施例中各步骤相对应，其功能和实现过程在此处不再一一赘述。

本发明还提供一种计算机可读存储介质，该计算机可读存储介质上存储有模型训练程序，所述模型训练程序被处理器执行时实现如以上任一项实施例所述的模型训练方法的步骤。

本发明计算机可读存储介质的具体实施例与上述模型训练方法各实施例基本相同，在此不作赘述。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种模型训练方法，其特征在于，所述模型训练方法包括：

按预设时段对所述第一风险数据集和所述第二风险数据集中的数据进行处理，得到同时段位移特征数据，其中，所述同时段位移特征数据是通过对各所述样本用户不同时间内同时段的数据进行比较分析得到的；

对所述第一风险数据集和所述第二风险数据集中的数据进行合并，得到合并风险数据集，并基于所述合并风险数据集提取得到目标特征数据；其中，所述目标特征数据包括时段间位移特征数据、空间类特征数据和时间类特征数据，其中，所述时段间位移特征数据是通过对各所述样本用户不同时段的数据进行比较分析得到的，所述空间类特征数据是通过将位置的属性特征与所述样本用户在不同时段的连接情况相结合分析得到的；

基于所述同时段位移特征数据、所述目标特征数据和所述标注标签构建训练样本集，并通过所述训练样本集对预设风险识别模型进行训练，得到训练好的风险识别模型；

其中，所述基于所述合并风险数据集提取得到目标特征数据的步骤包括：

2.如权利要求1所述的模型训练方法，其特征在于，所述按预设时段对所述第一风险数据集和所述第二风险数据集中的数据进行处理，得到同时段位移特征数据的步骤包括：

3.如权利要求2所述的模型训练方法，其特征在于，所述按预设时段对所述第一数据子集和所述第二数据子集中的数据进行相似度计算，得到同时段位移特征数据的步骤包括：

4.如权利要求1所述的模型训练方法，其特征在于，所述目标特征数据包括所述时段间位移特征数据，所述基于所述合并风险数据集提取得到目标特征数据的步骤包括：

5.如权利要求1所述的模型训练方法，其特征在于，所述目标特征数据包括空间类特征数据，所述基于所述合并风险数据集提取得到目标特征数据的步骤包括：

6.如权利要求5所述的模型训练方法，其特征在于，所述按位置标识从所述合并风险数据集提取得到各位置标识对应的第一属性特征数据集的步骤包括：

7.如权利要求1至6中任一项所述的模型训练方法，其特征在于，所述模型训练方法还包括：

8.一种模型训练装置，其特征在于，所述模型训练装置包括：

第一处理模块，用于按预设时段对所述第一风险数据集和所述第二风险数据集中的数据进行处理，得到同时段位移特征数据，其中，所述同时段位移特征数据是通过对各所述样本用户不同时间内同时段的数据进行比较分析得到的；

数据提取模块，用于对所述第一风险数据集和所述第二风险数据集中的数据进行合并，得到合并风险数据集，并基于所述合并风险数据集提取得到目标特征数据；其中，所述目标特征数据包括时段间位移特征数据、空间类特征数据和时间类特征数据，其中，所述时段间位移特征数据是通过对各所述样本用户不同时段的数据进行比较分析得到的，所述空间类特征数据是通过将位置的属性特征与所述样本用户在不同时段的连接情况相结合分析得到的，其中，所述基于所述合并风险数据集提取得到目标特征数据的步骤包括：对所述合并风险数据集中的数据进行统计，得到各样本用户各预设时段的总连接天数和总连接个数；根据所述第一时间和所述第二时间确定采样天数，并对所述总连接天数和所述采样天数进行除法运算，得到各样本用户各预设时段的连接频率；其中，所述时间类特征数据包括所述总连接天数、所述总连接个数和所述连接频率；

9.一种模型训练设备，其特征在于，所述模型训练设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的模型训练程序，所述模型训练程序被所述处理器执行时实现如权利要求1至7中任一项所述的模型训练方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有模型训练程序，所述模型训练程序被处理器执行时实现如权利要求1至7中任一项所述的模型训练方法的步骤。