CN111222976B

CN111222976B - 一种基于双方网络图数据的风险预测方法、装置和电子设备

Info

Publication number: CN111222976B
Application number: CN201911290912.6A
Authority: CN
Inventors: 姚聪
Original assignee: Beijing Qilu Information Technology Co Ltd
Current assignee: Beijing Qilu Information Technology Co Ltd
Priority date: 2019-12-16
Filing date: 2019-12-16
Publication date: 2024-04-23
Anticipated expiration: 2039-12-16
Also published as: CN111222976A

Abstract

本发明提供了一种基于双方网络图数据的风险预测方法、装置和电子设备。所述方法包括：获取历史用户的基础特征数据和行为特征数据，并构建双方网络关系图，双方网络关系图包括两类节点，即用户节点和信息节点；从双方网络关系图中提取历史用户的本地图特征数据；建立欺诈预测模型，使用历史用户的本地图特征数据和欺诈表现数据训练所述欺诈预测模型；获取目标用户的基础特征数据和行为特征数据，将该目标用户加入双方网络关系图中以提取目标用户的本地图特征数据，并输入欺诈预测模型，计算目标用户的欺诈预测值以进行风险预测。本发明的风险预测方法提高了数据的利用率，提升了欺诈模型的精度，还提升了业务水平。

Description

一种基于双方网络图数据的风险预测方法、装置和电子设备

技术领域

本发明涉及通信领域，特别涉及一种基于双方网络图数据的风险预测方法、装置、电子设备和存储介质。

背景技术

通过互联网申请贷款的信贷模式已得到长足发展。然而，相比于传统的信贷模式，网上申请贷款在带给人们便利性同时，也给信贷业务部门带来了欺诈骗贷风险的增加。如果不能很好的进行欺诈行为的识别和处理，将会给互联网金融平台带来了难以估量的损失。

最近国内网贷规模逐步增加，网络借贷的风控作为重中之重。据报道，2017年有超过2000个网贷公司共完成超过2000亿笔借款，大笔数量借款使得这些公司曝露到频繁的欺诈行为中。为了识别这些欺诈行为，网贷公司存在如下问题：稀疏的信用相关数据；借贷行为的高频高次高速；欺诈行为的迭代更新等。因此，如何实时检测出上述这些欺诈行为，并且及时反馈到业务流程当中是非常关键的。

现有技术通过建立专门的欺诈模型对申请用户进行欺诈评分，但是，由于欺诈行为发生的概率较少，数据较为单一，数据量不足，尤其是在关系网络图数据中存在大量缺失或不完整的数据，因此，在使用现有的欺诈模型进行模型优化时，可能不能准确、高效地识别出欺诈人或欺诈行为，由此导致模型精度低等问题。

综上，有必要提供一种更精准的风险预测方法。

发明内容

为了解决上述问题，本发明提供了一种基于双方网络图数据的风险预测方法，包括：获取历史用户的基础特征数据和行为特征数据，并构建双方网络关系图，所述双方网络关系图包括两类节点，即用户节点和信息节点，所述用户节点是代表用户的节点，所述信息节点是将不同用户关联起来的节点；从所述双方网络关系图中提取历史用户的本地图特征数据；建立欺诈预测模型，使用所述历史用户的本地图特征数据和欺诈表现数据训练所述欺诈预测模型；获取目标用户的基础特征数据和行为特征数据，将该目标用户加入所述双方网络关系图中以提取目标用户的本地图特征数据，并输入所述欺诈预测模型，计算目标用户的欺诈预测值以进行风险预测。

优选地，所述提取包括：确定所述本地图特征数据，所述本地图特征数据包括度序列特征数据、多边形特征数据、本地聚类系数中的至少一个。

优选地，所述多边形特征是由两个用户节点关联不同的信息节点形成的四边形特征，其中，一个用户节点的数据与目标用户的数据相对应。

优选地，所述预测方法还包括：基于所述四边形特征数据及已知的用户节点和信息节点的信息数据，计算未知的用户节点或信息节点的信息数据。

优选地，所述用户节点包括用户个人特征数据和网络特征数据。

优选地，所述信息节点包括APP信息、位置信息、通信录信息、通话记录信息、设备信息和运营商信息中的至少一个。

优选地，所述预测方法还包括：设定风险阈值，将所计算的目标用户的风险预测值与所述风险阈值进行比较，以对所述目标用户进行风险分类。

优选地，所述预测方法还包括：通过计算未知的用户节点或信息节点的信息数据，并将所述信息数据加入双方网络关系图，以进一步更新所述双方网络关系图的图数据。

此外，本发明还提供了一种基于图数据的风险预测装置，所述风险预测装置包括：数据获取模块，其用于获取历史用户的基础特征数据和行为特征数据，并构建双方网络关系图，所述双方网络关系图包括两类节点，即用户节点和信息节点，所述用户节点是代表用户的节点，所述信息节点是将不同用户关联起来的节点；数据处理模块，其用于从所述双方网络关系图中提取历史用户的本地图特征数据；模型建立模块，建立欺诈预测模型，使用所述历史用户的本地图特征数据和欺诈表现数据训练所述欺诈预测模型；计算模块，获取目标用户的基础特征数据和行为特征数据，将该目标用户加入所述双方网络关系图中以提取目标用户的本地图特征数据，并输入所述欺诈预测模型，计算目标用户的欺诈预测值以进行风险预测。

优选地，确定所述本地图特征数据，所述本地图特征数据包括度序列特征数据、多边形特征数据、本地聚类系数中的至少一个。

优选地，所述风险预测装置还包括：基于所述四边形特征数据及已知的用户节点和信息节点的信息数据，计算未知的用户节点或信息节点的信息数据。

优选地，所述风险预测装置还包括设定模块，所述设定模块用于设定风险阈值，将所计算的目标用户的风险预测值与所述风险阈值进行比较，以对所述目标用户进行风险分类。

优选地，所述风险预测装置还包括更新模块，所述更新模块通过计算未知的用户节点或信息节点的信息数据，并将所述信息数据加入双方网络关系图，以进一步更新所述双方网络关系图的图数据。

此外，本发明还提供了一种电子设备，其中，该电子设备包括：处理器；以及存储计算机可执行指令的存储器，所述可执行指令在被执行时使所述处理器执行本发明所述的风险预测方法。

此外，本发明还提供了一种计算机可读存储介质，其中，所述计算机可读存储介质存储一个或多个程序，所述一个或多个程序当被处理器执行时，实现本发明所述的风险预测方法。

有益效果

与现有技术相比，本发明的风险预测方法应用广泛，适用于大规模数据处理和数据分析，特别是在用户节点的特征数据不完整或者缺失的情况下，也能够通过使用群体图特征的挖掘(四边形特征数据)对该用户节点所表示的用户进行风险预测，提高了风险预测的精度。此外，本发明的风险预测方法通过使用不匹配特征预测风险，提升了欺诈模型的精度；提高了数据的利用率，优化了目标数据；降低了网贷风险；提升了业务水平。

附图说明

为了使本发明所解决的技术问题、采用的技术手段及取得的技术效果更加清楚，下面将参照附图详细描述本发明的具体实施例。但需声明的是，下面描述的附图仅仅是本发明本发明示例性实施例的附图，对于本领域的技术人员来讲，在不付出创造性劳动的前提下，可以根据这些附图获得其他实施例的附图。

图1是本发明的基于双方网络图数据的风险预测方法的一示例的流程图。

图2是本发明的实施例1的双方网络关系图的局部示意性图。

图3是本发明的实施例1的风险预测模型的构建过程的示意性框图。

图4是本发明的双方网络关系图中的图数据提取的一示例的图表。

图5是本发明的基于双方网络图数据的风险预测方法的另一示例的流程图。

图6是本发明的基于双方网络图数据的风险预测方法的又一示例的流程图。

图7是本发明的实施例2的风险预测装置的一示例的结构框图。

图8是本发明的实施例2的风险预测装置的另一示例的结构框图。

图9是本发明的实施例2的风险预测装置的又一示例的结构框图。

图10是根据本发明的一种电子设备的示例性实施例的结构框图。

图11是根据本发明的计算机可读介质的示例性实施例的结构框图。

具体实施方式

现在将参考附图更全面地描述本发明的示例性实施例。然而，示例性实施例能够以多种形式实施，且不应被理解为本发明仅限于在此阐述的实施例。相反，提供这些示例性实施例能够使得本发明更加全面和完整，更加便于将发明构思全面地传达给本领域的技术人员。在图中相同的附图标记表示相同或类似的元件、组件或部分，因而将省略对它们的重复描述。

在符合本发明的技术构思的前提下，在某个特定的实施例中描述的特征、结构、特性或其他细节不排除可以以合适的方式结合在一个或更多其他的实施例中。

在对于具体实施例的描述中，本发明描述的特征、结构、特性或其他细节是为了使本领域的技术人员对实施例进行充分理解。但是，并不排除本领域技术人员可以实践本发明的技术方案而没有特定特征、结构、特性或其他细节的一个或更多。

附图中所示的流程图仅是示例性说明，不是必须包括所有的内容和操作/步骤，也不是必须按所描述的顺序执行。例如，有的操作/步骤还可以分解，而有的操作/步骤可以合并或部分合并，因此实际执行的顺序有可能根据实际情况改变。

附图中所示的方框图仅仅是功能实体，不一定必须与物理上独立的实体相对应。即，可以采用软件形式来实现这些功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

应理解，虽然本文中可能使用第一、第二、第三等表示编号的定语来描述各种器件、元件、组件或部分，但这不应受这些定语限制。这些定语乃是用以区分一者与另一者。例如，第一器件亦可称为第二器件而不偏离本发明实质的技术方案。

术语“和/或”或者“及/或”包括相关联的列出项目中的任一个及一或多者的所有组合。

实施例1

下面，将参照图1至图6描述本发明的基于双方网络图数据的风险预测方法。

第一实施方式

图1为本发明的基于双方网络图数据的风险预测方法的一示例的流程图。如图1所示，一种基于双方网络图数据的风险预测方法，该风险方法包括如下步骤。

步骤S101，获取历史用户的基础特征数据和行为特征数据，并构建双方网络关系图，所述双方网络关系图包括两类节点，即用户节点和信息节点，所述用户节点是代表用户的节点，所述信息节点是将不同用户关联起来的节点。

步骤S102，从所述双方网络关系图中提取历史用户的本地图特征数据。

步骤S103，建立欺诈预测模型，使用所述历史用户的本地图特征数据和欺诈表现数据训练所述欺诈预测模型；

步骤S104，获取目标用户的基础特征数据和行为特征数据，将该目标用户加入所述双方网络关系图中以提取目标用户的本地图特征数据，并输入所述欺诈预测模型，计算目标用户的欺诈预测值以进行风险预测。

具体地，在步骤S101中，获取历史用户的基础特征数据和行为特征数据，并构建双方网络关系图。

在本示例中，历史用户的基础特征数据包括性别、年龄、职业等特征数据。行为特征数据包括用户关联行为数据和金融行为数据，其中，用户关联行为特征数据包括与用户关联人之间的行为特征数据、与同设备关联的用户的行为特征数据等。金融行为数据则是指与用户的金融行为有关的数据，例如月收入、年收入、借贷信息、还款信息、逾期信息等。

对于数据的获取，例如在用户授权基础上的SDK嵌入，获取合法且用于数据分析的所有相关数据。在某些特定场景下，也可以通过埋点方式获取APP内的行为数据。获取数据后，进行网络关系图的构建，参见图2。

然而，实际上在构建网络关系图中有些用户的特征数据(样本数据)存在缺失或不完整，例如将用户的特征数据加工处理之后，在处理后的向量数据中，存在多个缺失值，或者有些用户的特征数据是获取不到的。因此，这种特征数据无法在数据分析中使用，或者这种特征数据的使用有效性低。

针对上述问题，本发明的发明人采用了一种与传统方法不同的构建方法，称为双方网络，即将网络关系中的节点分为两类节点(用户节点和信息节点)，一类节点是代表用户的节点，另一类节点是将不同用户关联起来的节点，参见图3。具体地，例如使用设备id、wifi地址、GPS范围等作为节点，将用户关联起来的特征数据汇集，将上述这种节点称为信息节点。换言之，将用户的所有数据划分成用户节点的数据和信息节点的数据。基于这两类节点，构建双方网络关系图。

进一步地，用户节点和信息节点之间通过联系(或者边)连接的联系，其中，各节点可以包括一个或多个标签，并且各节点上还可以包含属性，属性可以以任何键值对的形式存在，例如键是字符串，值则是Java字符串和基元数据，或是这些数据类型的数组。同样地，联系也可以包括特性和属性。

具体地，用户节点包括用户个人特征数据和网络特征数据。信息节点包括APP信息、位置信息、通信录信息、通话记录信息、设备信息和运营商信息中的至少一个。

接下来，在步骤S102中，从所述双方网络关系图中提取历史用户的本地图特征数据。

在本示例中，所述风险预测方法还包括确定本地图特征数据，具体地，本地图特征数据包括度序列特征数据、多边形特征数据、本地聚类系数中的至少一个。图数据提取具体参见图4。

进一步地，度序列特征数据包括出度、入度。此外，还包括关联的申请用户数、关联的欺诈用户数比例、加权申请用户数、加权欺诈用户数。

需要说明的是，在本发明中，多边形特征是表示路径的环形特征，就双方网络关系图而言，在双方网络关系图中路径会形成一个环(或者闭合)。

在本示例中，多边形特征为四边形特征(也称为四边形闭合)，进一步地，多边形特征数据即由两个用户节点关联不同的信息节点形成的四边形特征数据，其中，一个用户节点的数据与目标用户的数据相对应。因此，通过四边形特征数据表示四边形特征所包含的所有节点的数据，即使在四边形特征中的某一个用户节点的特征数据不完整或者缺失的情况下，也能够通过使用四边形特征数据对该用户结点所表示的用户进行风险预测。

具体地，四边形特征数据包括基础统计数据、标签数据、加权系数，更具体地，四边形特征数据的基础统计数据包括四边形个数、关联申请用户数的平均/最大/中位四边形个数。标签数据包括关联到欺诈用户的四边形比例、关联到欺诈用户的平均/最大/中位四边形个数。加权系数包括加权总四边形个数、加权关联申请用户的平均/最大/中位四边形个数、加权关联欺诈用户数的平均/最大/中位四边形个数。但是不限于此，上述仅作为示例进行说明，不能理解成对本发明的限制。

需要说明的是，这里，加权其实是基于边的操作，强度也是指边的强度，例如在反欺诈里，基于身份证的关系强于基于设备的关系，并且反欺诈比较注重时效性，加入了上述关系的时效性因素，因此，综合定义这种加权为加权系数。

在其他示例中，基于四边形特征数据及已知的用户节点和信息节点的信息数据，计算未知的用户节点(或信息节点)的信息数据。例如，在一个四边形特征数据中，已知两个信息节点的信息数据和一个用户节点的信息数据，在这种情况下，基于已知的信息数据，能够计算未知的用户节点的信息数据。因此，提高了使用数据的有效性。

此外，多边形特征还可以为三角形特征(也称为三角形闭合)，或者三角形特征和四边形特征，但是不限于此，上述仅作为优选的实施例，不能理解成对本发明的限制。

在本发明中，聚类系数是用于评估关系图中节点的聚集程度的系数，聚类系数包括本地聚类系数和全局聚类系数。具体地，本地聚类系数是表示在本地图数据中节点之间聚集程度的系数。

更具体地，本地聚类系数包括不同度数的聚类系数，例如1度聚类系数、2度聚类系数、3度聚类系数等。进一步地，1度聚类系数是指含有信息节点和用户节点且用户节点中不含有欺诈用户节点的系数，2度聚类系数是指含有信息节点和用户节点且用户节点中含有一个欺诈用户节点的系数，3度聚类系数是指只含有信息节点和欺诈用户节点的系数。此外，本地聚类系数还包括反应四边形特征的连通度。

接下来，在步骤S103中，建立欺诈预测模型，使用历史用户的本地图特征数据和欺诈表现数据训练欺诈预测模型。

具体地，对于欺诈预测模型的创建，可使用CART算法或XGB算法创建模型树(ModelTree)等。在本示例中，使用XGB算法创建模型树(Model Tree)。

需要说明的是，上述仅用于说明，不能理解成对本发明的限制。在其他示例中，还可以使用其他算法，或者可以混合使用两种以上的算法等。

在本示例中，使用历史用户的本地图特征数据和欺诈表现数据(作为训练数据)训练欺诈预测模型，其中，历史用户的本地图特征数据作为输入层的特征(X)，历史用户的欺诈表现数据作为输出层的特征(Y)。在本示例中，历史用户的欺诈表现数据例如为欺诈概率。

此外，使用训练数据训练欺诈模型还包括定义好坏样本。作为一个具体的例子，可以使用“用户是否具有欺诈行为”作来定义好坏样本，即标签为“用户是否具有欺诈行为”标签值规定为0或1，其中，1表示用户有欺诈行为，0表示用户没有欺诈行为。

对于各目标用户，所述欺诈预测模型输出的各目标产品的欺诈预测值(在本示例中为欺诈概率)通常是一个0和1之间的数值。越接近1则该目标用户更倾向于会有欺诈行为。

因此，使用欺诈预测模型，能够实现对用户的欺诈预测。

接下来，在步骤S104中，获取目标用户的基础特征数据和行为特征数据，将该目标用户加入所述双方网络关系图中以提取目标用户的本地图特征数据，并输入所述欺诈预测模型，计算目标用户的欺诈预测值以进行风险预测。

需要说明的是，目标用户和历史用户的本地图特征数据的具体含义是一致的，因此省略了对目标用户的本地图特征数据的具体描述。

优选地，所述预测方法还包括：设定风险阈值，将所计算的目标用户的风险预测值与所述风险阈值进行比较，以对所述目标用户进行风险分类，例如分为欺诈用户和非欺诈用户，并对欺诈用户进一步划分成风险等级。

在其他示例中，所述预测方法还包括：使用计算的数据进一步更新双方网络关系图的步骤。具体地，通过计算未知的用户节点或信息节点的信息数据，并将计算的用户节点或信息节点的信息数据加入双方网络关系图，并作为四边形特征数据中的已知数据以进行下一个未知的用户节点(或信息节点)的信息数据的计算。

因此，通过四边形特征数据，不仅能够计算未知、不完整的节点的信息数据，还能够将所计算的节点的信息数据作为新的已知数据进一步更新所述双方网络关系图的图数据。

优选地，例如对所计算的用户节点(或信息节点)的信息数据进行检测，将所计算的用户节点(或信息节点)的信息数据与所检测的用户节点(或信息节点)的信息数据进行比较，对基于所检测的信息数据对所计算的信息数据进行校正，以使得图数据更加精准。

进一步地，将校正后的用户节点(或信息节点)的信息数据用于进一步更新所述双方网络关系图的图数据，并储存上述这些图数据，以用于后续数据分析等。

在其他示例中，基于计算确定的欺诈用户进行相应处理，例如“不良”标记、拒绝、降低信用度等方式。

要说明的是，上述仅为优选的实施例，不能理解成对本发明的限制。

第二实施方式

在现有的数据抽取中，通常针对未打标签或者标签少的节点不进行抽取。为了抽取并使用上述这种节点的特征数据，本发明的发明人提出了全局图特征数据，全局图特征数据是基于抽取所有节点(包括未打标签或者标签少的节点)的数据进行确定的，具体方案如下。

参见图4和图5描述第二实施方式，第二实施方式与第一实施方式的区别在于，在步骤S102中，从所述双方网络关系图中提取历史用户的全局图特征数据，其中，全局特特征数据是体现整体网络图的特征，例如为表示整体连通性的特征或者通用特征。

进一步地，全局特征数据包括通用特征、全局聚类系数和/或反应整体图形的连通度。

具体地，在本发明中，全局聚类系数是表示整个网络关系图(即双向网络关系图)中整体的聚集程度的系数。

在本示例中，对所述双方网络关系图中的所有用户节点和信息节点，根据出入度重要性，计算各节点的关联度，以确定历史用户的全局图特征数据。

优选地，使用PageRank(网页排名)算法，计算双方网络关系图中的所有用户节点和信息节点(节点总数为N)的PR值，经过迭代运算之后，得每个节点的PR值。

需要说明的是，PR值原来指一个网页被其他网页访问的概率，在本发明中，PR值是指一个用户节点被其他节点关联的概率，并且代表该节点的关联度。PR值越大，表示该节点的欺诈的可能性越大。

此外，对于PR值的计算，还包括对阻尼系数d的预设，可以根据实际需要进行人为设定。

经过PageRank算法计算后，将每个节点的PR值(代表关联度)与预设阈值进行比较，将与大于预设阈值的关联度相对应的用户节点或信息节点的特征数据作为全局特征图特征数据进行提取。

此外，根据历史欺诈表现数据调整权重，以得到每个非打标用户的欺诈概率。例如随着时间的改变，可以基于所计算的数据衰减历史节点的权重。

需要说明的是，在其他示例中，还可以提取历史用户的全局图特征数据和本地图特征数据，不限于此，上述仅用于说明，不能理解成对本发明的限制。

此外，第二实施方式与第一实施方式的区别在于，在步骤S104中，获取目标用户的基础特征数据和行为特征数据，将该目标用户加入所述双方网络关系图中以提取目标用户的全局图特征数据，并输入所述欺诈预测模型，计算目标用户的欺诈预测值以进行风险预测。在其他示例中，可以提取目标用户的全局图特征数据和本地图特征数据。不限于此，上述仅用于说明，不能理解对本发明的限制。

需要说明的是，由于第二实施方式与第一实施方式的其他部分相同，因此省略了对其他部分的描述。

第三实施方式

参照图6描述第三实施方式，第三实施方式与第一实施方式的区别在于，在步骤S102中，从所述双方网络关系图中提取历史用户的不匹配特征数据，其中，不匹配特征数据包括第一不匹配特征数据和第二不匹配特征数据。不限于此，在其他示例中，还可以提取历史用户的不匹配特征数据和本地图特征数据。

需要说明的是，在很多情况下，会出现信息或数据不匹配。具体地，在数据来源于不同的渠道的情况下，由于数据来源不同，可能会出现同一用户的数据不匹配。在本发明中，将上述这种数据不匹配称为第一不匹配特征数据。

进一步地，步骤S102还包括确定第一不匹配特征数据。

优选地，在数据源不同的情况下，基于确定杰卡德距离，计算同一用户节点或信息节点的相似度(或者不相似度)，以确定第一不匹配特征数据。

例如，从渠道Q1获取的用户节点1的特征数据为A，从渠道Q2获取的用户节点1的特征数据为B，通过杰卡德(Jaccard)算法，确定杰卡德距离，具体参见如下表达式1。

表达式1

D_j(A,B)＝1-J(A,B)

其中，D_j(A,B)是指jaccard距离，用于描述不相似度；A为样本集A；B为样本集B。

通过确定D_j(A,B)，能够计算出用户节点1的不相似度(或者不匹配度)，以确定第一不匹配特征数据，并从双方网络关系图中提取。

需要说明的是，计算相似度的方法不限于杰卡德(Jaccard)算法，还包括余弦夹角方法等。

此外，优选地，基于确定相邻两个节点之间的最短距离，计算同一用户节点(或信息节点)的匹配度(不匹配度)，以确定第一不匹配特征数据。

在本示例中，优选地，通过例如广度优选搜索的方式遍历所构建的双方网络关系图中的所有节点。例如使用Dijkstra算法，计算并记录每个节点与其邻居节点之间的路径长度，从中找出每个用户节点(或信息节点)与其邻居节点的最短路径长度。

进一步地，在数据源不同的情况下，例如使用用户节点(或信息节点)与其邻居节点的最短路径长度，计算同一用户节点(或信息节点)的匹配度(或者不匹配度)，由此，确定第一不匹配特征，并从双方网络关系图中提取。

此外，在个人信息与其余网络信息发生了冲突的情况下，例如，监测出某个用户与其他用户在地理位置上的群体性，但是该用户的实际定位信息与其他用户的位置信息完全不同，在本发明中，将这种不匹配称为第二不匹配特征数据，例如，地理信息维度上的不匹配度信息特征数据。

更具体地，第二不匹配特征数据包括同一用户节点的个人信息和网络信息不匹配、相互关联的两个用户节点的地理信息不匹配、相互关联的用户节点和信息节点的信息不匹配中的至少一种。

在本示例中，风险预测方法还包括：监测用户节点与其关联的用户节点的信息数据是否匹配，以确定第二不匹配特征数据。

此外，第三实施方式与第一实施方式的区别在于，在步骤S104中，获取目标用户的基础特征数据和行为特征数据，将该目标用户加入所述双方网络关系图中以提取目标用户的不匹配特征数据，并输入所述欺诈预测模型，计算目标用户的欺诈预测值以进行风险预测。在其他示例中，可以提取目标用户的不匹配特征数据和本地图特征数据。不限于此，上述仅用于说明，不能理解对本发明的限制。

需要说明的是，由于第三实施方式与第一实施方式、第二实施方式的其他部分相同，因此省略了对其他部分的描述。

第四实施方式

第四实施方式与第一实施方式的区别在于，在步骤S102中，从所述双方网络关系图中提取历史用户的本地图特征数据、全局图特征数据和不匹配特征数据，其中，不匹配特征数据包括第一不匹配特征数据和/或第二不匹配特征数据。不限于此，在其他示例中，还可以提取上述三种特征数据的任意组合。

此外，第四实施方式与第一实施方式的区别在于，在步骤S104中，获取目标用户的基础特征数据和行为特征数据，将该目标用户加入所述双方网络关系图中以提取目标用户的本地图特征数据、全局图特征数据和不匹配特征数据，并输入所述欺诈预测模型，计算目标用户的欺诈预测值以进行风险预测。在其他示例中，可以提取上述三种特征数据的任意组合。

需要说明的是，由于第四实施方式与第一实施方式、第二实施方式及第三实施方式的其他部分相同，因此省略了对其他部分的描述。

上述仅为优选的实施例，不能理解成对本发明的限制。在其他实施例中，步骤S104还可以拆分成两个步骤(S501和S104)，具体参见图5。

本领域技术人员可以理解，实现上述实施例的全部或部分步骤被实现为由计算机数据处理设备执行的程序(计算机程序)。在该计算机程序被执行时，可以实现本发明提供的上述方法。而且，所述的计算机程序可以存储于计算机可读存储介质中，该存储介质可以是磁盘、光盘、ROM、RAM等可读存储介质，也可以是多个存储介质组成的存储阵列，例如磁盘或磁带存储阵列。所述的存储介质不限于集中式存储，其也可以是分布式存储，例如基于云计算的云存储。

下面，通过将本发明的风险预测方法应用到具体业务进行效果验证，具体参见下表1。

注：传统模型：基于个人图数据以及特征的集成学习模

本发明的风险预测模型：基于双方网络图数据以及特征的集成学习模型

从表1中可知，与传统方法相比，本发明的风险预测方法中的预测模型的KS提升了0.08，接近27％，并且AUC提升4％，由此，极大地提升了欺诈模型的精度，还带来了首逾率的下降，提升了业务水平。

实施例2

下面描述本发明的装置实施例，该装置可以用于执行本发明的方法实施例。对于本发明装置实施例中描述的细节，应视为对于上述方法实施例的补充；对于在本发明装置实施例中未披露的细节，可以参照上述方法实施例来实现。

参照图7、图8和图9，本发明还提供了一种基于图数据的风险预测装置700，所述风险预测装置700包括：数据获取模块701，其用于获取历史用户的基础特征数据和行为特征数据，并构建双方网络关系图，所述双方网络关系图包括两类节点，即用户节点和信息节点，所述用户节点是代表用户的节点，所述信息节点是将不同用户关联起来的节点；数据处理模块702，其用于从所述双方网络关系图中提取历史用户的本地图特征数据；模型建立模块703，建立欺诈预测模型，使用所述历史用户的本地图特征数据和欺诈表现数据训练所述欺诈预测模型；计算模块704，获取目标用户的基础特征数据和行为特征数据，将该目标用户加入所述双方网络关系图中以提取目标用户的本地图特征数据，并输入所述欺诈预测模型，计算目标用户的欺诈预测值以进行风险预测。

优选地，如图8所示，所述风险预测装置还包括设定模块801，所述设定模块用于设定风险阈值，将所计算的目标用户的风险预测值与所述风险阈值进行比较，以对所述目标用户进行风险分类。

优选地，如图9所示，所述风险预测装置还包括更新模块901，所述更新模块通过计算未知的用户节点或信息节点的信息数据，并将所述信息数据加入双方网络关系图，以进一步更新所述双方网络关系图的图数据。

需要说明的是，在实施例2中，省略了与实施例1相同的部分的说明。

本领域技术人员可以理解，上述装置实施例中的各模块可以按照描述分布于装置中，也可以进行相应变化，分布于不同于上述实施例的一个或多个装置中。上述实施例的模块可以合并为一个模块，也可以进一步拆分成多个子模块。

实施例3

下面描述本发明的电子设备实施例，该电子设备可以视为对于上述本发明的方法和装置实施例的具体实体实施方式。对于本发明电子设备实施例中描述的细节，应视为对于上述方法或装置实施例的补充；对于在本发明电子设备实施例中未披露的细节，可以参照上述方法或装置实施例来实现。

图10是根据本发明的一种电子设备的示例性实施例的结构框图。下面参照图10来描述根据本发明该实施例的电子设备200。图10显示的电子设备200仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图10所示，电子设备200以通用计算设备的形式表现。电子设备200的组件可以包括但不限于：至少一个处理单元210、至少一个存储单元220、连接不同系统组件(包括存储单元220和处理单元210)的总线230、显示单元240等。

其中，所述存储单元存储有程序代码，所述程序代码可以被所述处理单元210执行，使得所述处理单元210执行本说明书上述电子处方流转处理方法部分中描述的根据本发明各种示例性实施方式的步骤。例如，所述处理单元210可以执行如图1所示的步骤。

所述存储单元220可以包括易失性存储单元形式的可读介质，例如随机存取存储单元(RAM)2201和/或高速缓存存储单元2202，还可以进一步包括只读存储单元(ROM)2203。

所述存储单元220还可以包括具有一组(至少一个)程序模块2205的程序/实用工具2204，这样的程序模块2205包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

总线230可以为表示几类总线结构中的一种或多种，包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。

电子设备200也可以与一个或多个外部设备300(例如键盘、指向设备、蓝牙设备等)通信，还可与一个或者多个使得用户能与该电子设备200交互的设备通信，和/或与使得该电子设备200能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口250进行。并且，电子设备200还可以通过网络适配器260与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。网络适配器260可以通过总线230与电子设备200的其它模块通信。应当明白，尽管图中未示出，可以结合电子设备200使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

通过以上的实施方式的描述，本领域的技术人员易于理解，本发明描述的示例性实施例可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，根据本发明实施方式的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个计算机可读的存储介质(可以是CD-ROM，U盘，移动硬盘等)中或网络上，包括若干指令以使得一台计算设备(可以是个人计算机、服务器、或者网络设备等)执行根据本发明的上述方法。当所述计算机程序被一个数据处理设备执行时，使得该计算机可读介质能够实现本发明的上述方法，即：使用历史用户的APP下载序列向量数据和逾期信息作为训练数据，对所创建的用户风险控制模型进行训练，使用所创建的用户风险控制模型计算目标用户的金融风险预测值。

如图11所示，所述计算机程序可以存储于一个或多个计算机可读介质上。计算机可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

所述计算机可读存储介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。可读存储介质还可以是可读存储介质以外的任何可读介质，该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。可读存储介质上包含的程序代码可以用任何适当的介质传输，包括但不限于无线、有线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络，包括局域网(LAN)或广域网(WAN)，连接到用户计算设备，或者，可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。

综上所述，本发明可以以硬件实现，或者以在一个或者多个处理器上运行的软件模块实现，或者以它们的组合实现。本领域的技术人员应当理解，可以在实践中使用微处理器或者数字信号处理器(DSP)等通用数据处理设备来实现根据本发明实施例中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如，计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上，或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到，或者在载体信号上提供，或者以任何其他形式提供。

以上所述的具体实施例，对本发明的目的、技术方案和有益效果进行了进一步详细说明，应理解的是，本发明不与任何特定计算机、虚拟装置或者电子设备固有相关，各种通用装置也可以实现本发明。以上所述仅为本发明的具体实施例而已，并不用于限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于双方网络图数据的风险预测方法，其特征在于，包括：

获取历史用户的基础特征数据和行为特征数据，并构建双方网络关系图，所述双方网络关系图包括用户节点和信息节点两类节点，所述用户节点是代表用户的节点，所述信息节点是将不同用户关联起来的节点；

计算未知的用户节点或信息节点的信息数据，并将所述信息数据加入双方网络关系图，以进一步更新所述双方网络关系图的图数据；

对所计算的用户节点或信息节点的信息数据进行检测，将所计算的用户节点或信息节点的信息数据与所检测的用户节点或信息节点的信息数据进行比较，基于所检测的信息数据对计算的信息数据进行校正，并将校正后的用户节点或信息节点的信息数据进一步更新所述双方网络关系图的图数据；

从所述双方网络关系图中提取历史用户的本地图特征数据、全局图特征数据和不匹配特征数据的任意组合；所述本地图特征数据包括度序列特征数据、多边形特征数据、本地聚类系数和全局聚类系数中的至少一个，多边形特征数据表示双方网络关系图中路径形成的环形特征；在一个多边形特征数据中，基于所述多边形特征数据中已知的用户节点和信息节点的信息数据，完善未知的用户节点或信息节点的信息数据；

建立欺诈预测模型，使用所述历史用户的所述任意组合和欺诈表现数据作为训练数据训练所述欺诈预测模型，历史用户的所述任意组合作为输入层的特征，历史用户的所述欺诈表现数据作为输出层的特征；

获取目标用户的基础特征数据和行为特征数据，将该目标用户加入所述双方网络关系图中以提取目标用户的本地图特征数据、全局图特征数据和不匹配特征数据的任意组合，并输入所述欺诈预测模型，计算目标用户的欺诈预测值以进行风险预测。

2.根据权利要求1所述的方法，其特征在于，所述多边形特征是由两个用户节点关联不同的信息节点形成的四边形特征，其中，一个用户节点的数据与目标用户的数据相对应。

3.根据权利要求2所述的方法，其特征在于，还包括：

基于所述四边形特征及已知的用户节点和信息节点的信息数据，计算未知的用户节点或信息节点的信息数据并将信息数据加入双方关系图并作为四边形特征中的已知数据进行下一个未知的用户节点或信息节点的信息数据的计算。

4.根据权利要求1所述的方法，其特征在于，所述用户节点包括用户个人特征数据和网络特征数据。

5.根据权利要求1-3任一项所述的方法，其特征在于，所述信息节点包括APP信息、位置信息、通信录信息、通话记录信息、设备信息和运营商信息中的至少一个。

6.根据权利要求1-3任一项所述的方法，其特征在于，还包括：

设定风险阈值，将所计算的目标用户的风险预测值与所述风险阈值进行比较，以对所述目标用户进行风险分类。

7.一种基于双方网络图数据的风险预测装置，其特征在于，包括：

数据获取模块，其用于获取历史用户的基础特征数据和行为特征数据，并构建双方网络关系图，所述双方网络关系图包括用户节点和信息节点两类节点，所述用户节点是代表用户的节点，所述信息节点是将不同用户关联起来的节点；

更新模块，计算未知的用户节点或信息节点的信息数据，并将所述信息数据加入双方网络关系图，以进一步更新所述双方网络关系图的图数据；以及，对所计算的用户节点或信息节点的信息数据进行检测，将所计算的用户节点或信息节点的信息数据与所检测的用户节点或信息节点的信息数据进行比较，基于所检测的信息数据对计算的信息数据进行校正，并将校正后的用户节点或信息节点的信息数据进一步更新所述双方网络关系图的图数据；

数据处理模块，其用于从所述双方网络关系图中提取历史用户的本地图特征数据、全局图特征数据和不匹配特征数据的任意组合；所述本地图特征数据包括度序列特征数据、多边形特征数据、本地聚类系数和全局聚类系数中的至少一个，多边形特征数据表示双方网络关系图中路径形成的环形特征；在一个多边形特征数据中，基于所述多边形特征数据中已知的用户节点和信息节点的信息数据，完善未知的用户节点或信息节点的信息数据；

模型建立模块，建立欺诈预测模型，使用所述历史用户的所述任意组合和欺诈表现数据作为训练数据训练所述欺诈预测模型，历史用户的所述任意组合作为输入层的特征，历史用户的所述欺诈表现数据作为输出层的特征；

计算模块，获取目标用户的基础特征数据和行为特征数据，将该目标用户加入所述双方网络关系图中以提取目标用户的本地图特征数据、全局图特征数据和不匹配特征数据的任意组合，并输入所述欺诈预测模型，计算目标用户的欺诈预测值以进行风险预测。

8.根据权利要求7所述的装置，其特征在于，所述多边形特征是由两个用户节点关联不同的信息节点形成的四边形特征，其中，一个用户节点的数据与目标用户的数据相对应。

9.根据权利要求8所述的装置，其特征在于，所述风险预测装置还包括：

10.根据权利要求7-9任一项所述的装置，其特征在于，所述用户节点包括用户个人特征数据和网络特征数据。

11.根据权利要求7-9任一项所述的风险预测装置，其特征在于，所述信息节点包括APP信息、位置信息、通信录信息、通话记录信息、设备信息和运营商信息中的至少一个。

12.根据权利要求7-9任一项所述的装置，其特征在于，还包括设定模块，所述设定模块用于设定风险阈值，将所计算的目标用户的风险预测值与所述风险阈值进行比较，以对所述目标用户进行风险分类。

13.一种电子设备，其中，该电子设备包括：

处理器；以及，

存储计算机可执行指令的存储器，所述可执行指令在被执行时使所述处理器执行根据权利要求1-6中任一项所述的方法。

14.一种计算机可读存储介质，其中，所述计算机可读存储介质存储一个或多个程序，所述一个或多个程序当被处理器执行时，实现权利要求1-6中任一项所述的方法。