CN113032643B

CN113032643B - 目标行为识别系统

Info

Publication number: CN113032643B
Application number: CN202110289510.5A
Authority: CN
Inventors: 朱金星; 张静雅; 段力阁
Original assignee: Beijing Yunzhenxin Technology Co ltd
Current assignee: Beijing Yunzhenxin Technology Co ltd
Priority date: 2021-03-18
Filing date: 2021-03-18
Publication date: 2023-06-23
Anticipated expiration: 2041-03-18
Also published as: CN113032643A

Abstract

本发明涉及一种目标行为识别系统，包括预先构建的第一数据库、第二数据库和处理器，存储有计算机程序的存储器，其中，所述第一数据库用于存储用户特征记录，所述用户特征记录字段包括用户和对应的预设M个特征信息(C1，C2，…CM)；所述第二数据库用于存储样本目标行为的记录，所述样本目标行为记录的字段包括样本用户id和目标行为数值字段，所述目标行为数值字段为0，表示样本用户不具有目标行为，所述目标行为数值字段为1，表示样本用户具有目标行为。本发明提高了目标行为的识别效率和准确度。

Description

目标行为识别系统

技术领域

本发明涉及计算机技术领域，尤其涉及一种目标行为识别系统。

背景技术

目前传统的对目标行为的识别技术主要是依靠人工对历史上确定存在目标行为记录的人员进行特征筛选分析，建立多种判断规则，通过判断规则预测待识别用户是否存在目标行为。但是，随着大数据时代的到来，用户的特征数量和种类数据巨大，这便会造成人工筛选目标行为所对应的用户特征以及审核的工作量很大，识别目标行为的效率低。此外，人工建立的判断规则往往更倾向于具有可解释性的特征，而不具有可解释性的特征往往容易被忽略，但有些不具有可解释性的特征也是对目标行为识别结果贡献度大的特征，这便造成目标行为且准确度低，由此可知，如何提高目标行为的识别效率和准确度成为亟待解决的技术问题。

发明内容

本发明目的在于，提供一种目标行为识别系统，提高了目标行为的识别效率和准确度。

根据本发明一方面，提供了一种目标行为识别系统，包括预先构建的第一数据库、第二数据库和处理器，存储有计算机程序的存储器，其中，所述第一数据库用于存储用户特征记录，所述用户特征记录字段包括用户和对应的预设M个特征信息(C1，C2，…CM)；所述第二数据库用于存储样本目标行为的记录，所述样本目标行为记录的字段包括样本用户id和目标行为数值字段，所述目标行为数值字段为0，表示样本用户不具有目标行为，所述目标行为数值字段为1，表示样本用户具有目标行为；

所述处理器执行所述计算机程序实现以下步骤:

步骤S1、从所述第二数据库中选取P个第一样本用户id组成训练样本id集，从所述第一数据库中获取每一第一样本用户id对应的预设M个特征信息(C1，C2，…CM)；

步骤S2、基于P个第一样本用户id的对应的预设M个特征信息(C1，C2，…CM)中每一特征信息对目标行为的贡献度从预设M个特征信息中选择第一特征信息(c1,c2,…cm),m小于M；

步骤S3、从所述第一数据库中获取每一第一样本用户对应的第一特征信息，基于每一第一样本用户id对应的第一特征信息构建输入特征向量，将第一样本用户id对应的目标行为数值作为实际分类结果，训练得到预设分类模型，所述预设分类模型为二分类模型；

步骤S4、从所述第一数据库中获取待测用户id对应的第一特征信息构建对应的输入特征向量，输入至所述预设分类模型中，基于输出的分类结果数值判断所述待测用户id是否具有目标行为。

本发明与现有技术相比具有明显的优点和有益效果。借由上述技术方案，本发明提供的一种目标行为识别系统可达到相当的技术进步性及实用性，并具有产业上的广泛利用价值，其至少具有下列优点：

本发明在分类模型训练之前，确定了各类特征数据对判定目标行为的贡献度，将根据贡献度筛选后的特征数据类型作为算法模型训练的参数特征，筛选出对预测有实质作用的特征类型，不但将海量的用户特征信息精简，同时，又能给不具有解释性的特征信息留有使用空间，提高了目标行为的识别效率和准确度。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其他目的、特征和优点能够更明显易懂，以下特举较佳实施例，并配合附图,详细说明如下。

附图说明

图1为本发明实施例提供的目标行为识别系统示意图；

图2为本发明另一实施例提供的目标行为识别系统示意图。

具体实施方式

为更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效,以下结合附图及较佳实施例，对依据本发明提出的一种目标行为识别系统的具体实施方式及其功效，详细说明如后。

本发明实施例提供了一种目标行为识别系统，如图1所示，包括预先构建的第一数据库、第二数据库和处理器，存储有计算机程序的存储器，其中，所述第一数据库用于存储用户特征记录，所述用户特征记录字段包括用户和对应的预设M个特征信息(C1，C2，…CM)；所述第二数据库用于存储样本目标行为的记录，所述样本目标行为记录的字段包括样本用户id和目标行为数值字段，所述目标行为数值字段为0，表示样本用户不具有目标行为，所述目标行为数值字段为1，表示样本用户具有目标行为；

所述处理器执行所述计算机程序实现以下步骤:

需要说明的是，(C1，C2，…CM)、(c1,c2,…cm)中的特征信息既可能是对目标行为具有可解释性的特征信息，又可能是对目标行为不具备可解释性的特征信息，因此，模型训练参数更具有广泛性，既能从正面特征信息预测用户是否具有目标行为，又能从侧面判断用户是否具有目标行为。

作为一种实施例，步骤S4中可以直接基于预设分类模型输出结果判断所述待测用户id是否具有目标行为，具体地，判断所述预设分类模型输出的待测用户id的分类结果数值是否大于预设的判断阈值，若大于，则判断所述待测用户id是否具有目标行为。

根据本发明，所述系统可以物理实现为一个服务器，也可以实现为包括多个服务器的服务器群组。本领域技术人员知晓，服务器的型号、规格等参数并不影响本发明的保护范围。

本发明实施例在分类模型训练之前，确定了各类特征数据对判定目标行为的贡献度，将根据贡献度筛选后的特征数据类型作为算法模型训练的参数特征，筛选出对预测有实质作用的特征类型，不但将海量的用户特征信息精简，同时，又能给不具有解释性的特征信息留有使用空间，提高了目标行为的识别效率和准确度。

在更加详细地讨论示例性实施例之前应当提到的是，一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各步骤描述成顺序的处理，但是其中的许多步骤可以被并行地、并发地或者同时实施。此外，各步骤的顺序可以被重新安排。当其操作完成时处理可以被终止，但是还可以具有未包括在附图中的附加步骤。处理可以对应于方法、函数、规程、子例程、子程序等等。

为了进一步提高目标行为判断结果的准确性，在获取预设分类模型预测结果后，可以进一步通过人机结合的方式，来进一步判断待测用户id是否具有目标行为。作为一种实施例，所述系统还包括第三数据库和信息交互界面，如图2所示，所述第三数据库用于存储对目标行为具有可解释性的用户特征记录，所述对目标行为具有可解释性的用户特征记录包括用户id和预设N个可解释性特征信息(D1，D2，…DN)，其中，作为一种实施例，第一数据库中可存储全量的用户特征信息，这样使得(C1，C2，…CM)包含(D1，D2，…DN)，N小于M，所述处理器执行所述计算机程序还实现以下步骤:

步骤S5、从所述可解释性特征信息(D1，D2，…DN)和所述第一特征信息(c1,c2,…cm)中选择n个第二特征信息(d1,d2,…dn),n小于M；

可以理解的是，所述步骤S5中，第二特征信息可以基于具体的判断场景和待测用户id的特征类别等信息来具体选定，根据应用场景的不同，可以动态选取对应的第二特征信息(d1,d2,…dn)。

步骤S6、判断所述预设分类模型输出的待测用户id的分类结果数值是否大于预设的判断阈值，若大于，则执行步骤S7；

步骤S7、从所述第一数据库中获取所述待测用户id对应的第二特征信息，并呈现在信息交互界面上，若接收到用户基于所述待测用户id对应的第二特征信息发送的确认指令，则确定所述待测用户id具有目标行为。

在本发明的实施例中，具体可根据所述选定第二特征信息(d1,d2,…dn)建立人工判定规则，将待测用户id对应的第二特征信息呈现在信息交互界面上，基于所述人工判定规则，进一步判断所述待测用户id是否具有目标行为，这样不但能与预设分类模型的判定结果相互结合对比，相辅相成，提高最终判定结果的准确性，还能帮助审核人员提升对不具有可解释性的特征数据的使用和识别能力。

为了实现更具有针对性的目标行为判定，提高判定结果的准确性，可以通过结合预设的条件，选择训练样本id集，作为一种实施例，所述步骤S1包括：

步骤S11、基于所述待测用户id的特征信息从所述第一数据库中获取与所述待测用户具有预设关联关系的用户id，构建目标样本集合；

步骤S12、从所述第二数据库中选取P个属于所述目标样本集合的第一样本用户id组成所述训练样本id集。

例如，选取待测用户id及其社会关系数据中户籍地址、住址、联系地址同为某一地区的样本用户id，可以有效识别和预防基于亲属关系的区域性目标行为；又例如，选取同属某一年龄段、某一薪酬收入区间、甚至于某一星座、属相的样本用户id作为训练样本id集，可以在后续贡献度的计算中获得对该类样本用户id更具有针对性的贡献度计算结果，有助于对该类样本用户id因何发生目标行为进行研究分析。可以理解的是，也可以设置多种预设条件，选择多类样本id集，并赋予对应的权重，综合判断。

作为一种实施例，所述步骤S2可包括步骤S21、步骤S22和步骤S23中的至少一个步骤：

步骤S21、基于P个第一样本用户id的对应的特征信息确定Ci对于实现目标行为的IV(Information Value，信息量)值IVi，i的取值为1到M，将IVi大于预设IV阈值的Ci确定为第一特征信息；

其中，IV值用来对输入变量进行编码和预测能力评估，IV值与特征信息对目标行为的贡献度正相关，IV值越大，表明正负样本区分的程度越好。

步骤S22、基于P个第一样本用户id的对应的特征信息确定Ci对于实现目标行为的KS(Kolmogorov-Smirnov，正态分布检验)值KSi，i的取值为1到M，将KSi大于预设KS阈值的Ci确定为第一特征信息；

其中，KS值是在模型中用来区分正负样本分隔程度的评价指标，KSi值与特征信息对目标行为的贡献度正相关，KS值越大，表明正负样本区分的程度越好。

步骤S23、基于P个第一样本用户id的对应的特征信息确定Ci对于实现目标行为的WOE(weight of evidence，证据权重)值WOEi，i的取值为1到M，将WOEi的绝对值大于预设WOE阈值的Ci确定为第一特征信息。

其中，WOE值表示的是"当前特征类型中发生目标行为用户占所有发生目标行为用户的比例"和"当前特征类型中没有发生目标行为的用户占所有没有发生目标行为用户的比例"的差异，WOE的绝对值与特征信息对目标行为的贡献度正相关，WOE的绝对值越大，表明正负样本区分的程度越好。

预设模型可以为单个分类模型，也可以为多个分类模型的组合，还可以在多种模型训练结果中选择最后的模型作为最终的预设分类模型，以下通过几个具体实施例进行进一步说明：

实施例一、

所述预设模型为单个分类模型，所述步骤S3可包括：

步骤S31、基于每一第一样本用户id对应的第一特征信息(c1,c2,…cm)构建输入特征向量，将第一样本用户id对应的目标行为数值作为实际分类结果，输入预设的第一分类模型中进行训练，得到第一分类模型；

步骤S32、基于每一第一样本用户id对应的第一特征信息(c1,c2,…cm)构建输入特征向量，将第一样本用户id对应的目标行为数值作为实际分类结果，输入预设的第二分类模型中进行训练，得到第二分类模型；

步骤S33、基于每一第一样本用户id对应的第一特征信息(c1,c2,…cm)构建输入特征向量，将第一样本用户id对应的目标行为数值作为实际分类结果，输入预设的第三分类模型中进行训练，得到第三分类模型；

步骤S34、从所述第二数据库中选取P个第二样本用户id组成测试样本id集，从所述第一数据库中获取每一第二样本用户对应的第一特征信息，基于每一第二样本用户id对应的第一特征信息构建输入特征向量，分别输入所述第一分类模型、第二分类模型和第三分类模型中进行测试，将具备最优测试结果的分类模型确定为所述预设分类模型。

实施例二、

所述预设模型为组合分类模型，包括第一分类模型、第二分类模型和第三分类模型，所述步骤S3包括：

步骤S301、基于每一第一样本用户id对应的第一特征信息(c1,c2,…cm)构建输入特征向量，将第一样本用户id对应的目标行为数值作为实际分类结果，分别输入第一分类模型、第二分类模型和第三分类模型中；

步骤S302、并将三个模型的输出结果平均值作为组合模型的输出结果进行训练，得到第一组合分类模型。

实施例三、

步骤S311、基于每一第一样本用户id对应的第一特征信息(c1,c2,…cm)构建输入特征向量，将第一样本用户id对应的目标行为数值作为实际分类结果，分别输入第一分类模型、第二分类模型和第三分类模型中；

步骤S302、对三个模型的输出结果进行投票，将得票高的结果作为组合模型的输出结果进行训练，得到第二组合分类模型。

实施例四、

步骤S321、基于每一第一样本用户id对应的第一特征信息(c1,c2,…cm)构建输入特征向量，将第一样本用户id对应的目标行为数值作为第一分类模型的实际分类结果，输入第一分类模型中，得到第一残差项；

将线性第一分类模型得到的残差项、第二分类模型和第三分类模型中；

步骤S322、将所述第一残差项作为第二分类模型的实际输出结果，将第一样本用户id对应的输入特征向量和所述第一残差项输入所述第二分类模型中，得到第二残差项；

步骤S323、将所述第二残差项作为第三分类模型的实际输出结果，将第一样本用户id对应的输入特征向量和所述第二残差项输入所述第三分类模型模型中进行组合模型训练，得到第三组合模型。

实施例五、

本实施例可以同时基于实施例二、实施例三、实施例四分别训练一个得到第一组合模型、第二组合模型和第三组合模型，然后基于下述步骤从中选择最优的组合模型，作为最终的预设分类模型：

具体的，所述步骤S3还包括：

步骤S331、从所述第二数据库中选取P个第二样本用户id组成测试样本id集，从所述第一数据库中获取每一第二样本用户对应的第一特征信息，基于每一第二样本用户id对应的第一特征信息构建输入特征向量，分别输入所述第一组合模型、第二组合模型和第三组合模型中进行测试，将具备最优测试结果的组合模型确定为所述预设分类模型。

作为一种实施例，上述实施例中所述第一分类模型为逻辑回归模型，第二分类模型为决策树模型，第三分类模型为SVM模型。

作为一种实施例，所述步骤S3中，所述基于每一第一样本用户id对应的第一特征信息构建输入特征向量，可包括：

步骤S341、将每一第一样本用户id对应的第一特征信息进行特征降维、特征筛选、特征交叉和特征数值变换中的至少一种处理，生成对应的输入特征向量。

作为一种实施例，所述处理器执行所述计算机程序还实现：构建所述第一数据库，具体包括:

步骤S10、从预设的本地数据库或外部数据库中获取用户id对应的用户数据，本地数据库或外部数据库位于不同物理位置的服务器中，所述用户数据包括属性信息、设备参数信息、社会关系信息、资产信息和行为特征信息中的至少一种；

步骤S11、基于所用户数据构建对应的用户特征信息，或基于所述用户数据训练第一特征生成模型，并基于所述用户数据和第一特征生成模型生成对应的用户特征信息；

可以理解的是，第一特征生成模型可以基于一种或多种用户数据训练得到。

步骤S12、基于用户id和对应的用户特征信息构建所述第一数据库。

作为一种实施例，所述处理器执行所述计算机程序还实现：构建或更新所述第三数据库，具体包括:

步骤S100、接收用户输入的可解释性特征id，基于所述可解释性特征id从预设的本地数据库或外部数据库中获取用户id对应的可解释性用户数据，

步骤S101、基于所可解释性用户数据构建对应的用户可解释性特征信息，或基于所述用户可解释性数据训练第二特征生成模型，并基于所述用户可解释性数据和第二特征生成模型生成对应的用户可解释性特征信息；

可以理解的是，第二特征生成模型可以基于一种或多种用户可解释性数据训练得到。

步骤S12、基于用户id和对应的用户可解释性特征信息构建所述第三数据库。

可以理解的是，用户特征信息根据具体的应用场景来选择确定，以判断用户是否具备保险欺诈行为的应用场景为例，所述用户特征信息包括基础特征数据和行为特征数据；所述基础特征数据的类型包括个人属性数据、社会关系数据、资产情况数据，个人属性数据可包括学历、职业、收入、近年工作单位等传统风控所依赖的强特征数据，还可包括年龄、生日、星座、血型、身高、籍贯、纹身等对是否会发生目标行为不具有可解释性的数据；社会关系数据可包括父母、配偶、亲友的个人属性数据；资产情况数据可包括房产、车产、存款、贷款的情况数据；所述行为特征数据的类型可包括终端使用情况数据、终端应用使用情况数据、终端地理位置轨迹数据、线上及线下消费情况数据，终端使用情况数据是指手机终端的设备型号、每日使用时长、耗电量、消耗数据流量、高频使用时间段、最晚使用时间段等；终端应用使用情况数据包括安装于该终端上的银行类手机App、贷款类手机App、股票手机App、付费手机App、游戏手机App的数量及使用情况；终端地理位置轨迹数据是由终端获得根据位置点和时间绘制成的轨迹数据；线上及线下消费情况数据包括在线上购物类手机App及银行手机App的消费情况、在线下的刷卡消费情况。个人属性数据还可包括征信源数据，包含社保、公积金、银联数据或来自预设app等信用数据。行为特征数据的类型还包括：根据移动终端的地理位置轨迹数据获得的异常出行数据、根据待识别人群与具有目标行为的样本人群出现重合的终端地理位置轨迹数据获得的异常接触行为数据。异常出行数据可以是根据待识别人群的终端地理位置轨迹数据获得的在投保日期之前频繁出入医院的出行数据，尤其是前往异地、大型医院的出行数据。

以上所述，仅是本发明的较佳实施例而已，并非对本发明作任何形式上的限制，虽然本发明已以较佳实施例揭露如上，然而并非用以限定本发明,任何熟悉本专业的技术人员，在不脱离本发明技术方案范围内,当可利用上述揭示的技术内容作出些许更动或修饰为等同变化的等效实施例,但凡是未脱离本发明技术方案的内容，依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰，均仍属于本发明技术方案的范围内。

Claims

1.一种目标行为识别系统，其特征在于，

包括预先构建的第一数据库、第二数据库和处理器，存储有计算机程序的存储器，其中，所述第一数据库用于存储用户特征记录，所述用户特征记录字段包括用户和对应的预设M个特征信息(C1，C2，…CM)；所述第二数据库用于存储样本目标行为的记录，所述样本目标行为记录的字段包括样本用户id和目标行为数值字段，所述目标行为数值字段为0，表示样本用户不具有目标行为，所述目标行为数值字段为1，表示样本用户具有目标行为；

所述处理器执行所述计算机程序实现以下步骤:

2.根据权利要求1所述的系统，其特征在于，

还包括第三数据库和信息交互界面，所述第三数据库用于存储对目标行为具有可解释性的用户特征记录，所述对目标行为具有可解释性的用户特征记录包括用户id和预设N个可解释性特征信息(D1，D2，…DN)，其中，N小于M，所述处理器执行所述计算机程序还实现以下步骤:

3.根据权利要求2所述的系统，其特征在于，

(C1，C2，…CM)包含(D1，D2，…DN)。

4.根据权利要求1所述的系统，其特征在于，

所述步骤S2包括步骤S21、步骤S22和步骤S23中的至少一个步骤：

步骤S21、基于P个第一样本用户id的对应的特征信息确定Ci对于实现目标行为的IV值IVi，i的取值为1到M，将IVi大于预设IV阈值的Ci确定为第一特征信息；

步骤S22、基于P个第一样本用户id的对应的特征信息确定Ci对于实现目标行为的KS值KSi，i的取值为1到M，将KSi大于预设KS阈值的Ci确定为第一特征信息；

步骤S23、基于P个第一样本用户id的对应的特征信息确定Ci对于实现目标行为的WOE值WOEi，i的取值为1到M，将WOEi的绝对值大于预设WOE阈值的Ci确定为第一特征信息。

5.根据权利要求1所述的系统，其特征在于，

所述预设分类模型为单个分类模型，所述步骤S3包括：

6.根据权利要求1所述的系统，其特征在于，

所述预设分类模型为组合分类模型，包括第一分类模型、第二分类模型和第三分类模型，所述步骤S3包括：

7.根据权利要求6所述的系统，其特征在于，

8.根据权利要求7所述的系统，其特征在于，

9.根据权利要求8所述的系统，其特征在于，

所述步骤S3还包括：

步骤S331、从所述第二数据库中选取P个第二样本用户id组成测试样本id集，从所述第一数据库中获取每一第二样本用户对应的第一特征信息，基于每一第二样本用户id对应的第一特征信息构建输入特征向量，分别输入所述第一组合分类模型、第二组合分类模型和第三组合模型中进行测试，将具备最优测试结果的组合模型确定为所述预设分类模型。

10.根据权利要求8所述的系统，其特征在于，

所述第一分类模型为逻辑回归模型，第二分类模型为决策树模型，第三分类模型为SVM模型。