CN107767262A

CN107767262A - 信息处理方法、装置和计算机可读存储介质

Info

Publication number: CN107767262A
Application number: CN201711002500.9A
Authority: CN
Inventors: 詹青; 尹航
Original assignee: Shanghai Point Information Technology Co Ltd
Current assignee: Shanghai Point Information Technology Co Ltd
Priority date: 2017-10-24
Filing date: 2017-10-24
Publication date: 2018-03-06
Anticipated expiration: 2037-10-24
Also published as: CN107767262B

Abstract

本发明公开了一种信息处理的方法和系统。该方法包括：基于与历史业务参与人相对应的通信标识，确定历史业务参与人信息集，进而确定历史业务参与人的社交网络图，其中，在社交网络图中，通信标识对应于社交网络图中的节点，历史业务参与人之间的通信关系对应于节点之间的边；在社交网络图中，基于与社交网络图中的节点和边相关联的邻居权重信息和别名信息进行随机游走，进而确定具有指定长度的多条路径；以及基于神经网络，使用对多条路径对社交网络图中的节点进行向量化，进而以生成评估模型，进而使得通信标识在评估模型中能够以指定的维数进行表示。通过采用本发明的方法对贷款的逾期性进行评估，能够大幅提升准确度。

Description

信息处理方法、装置和计算机可读存储介质

技术领域

本发明属于计算机领域，尤其涉及一种利用知识图谱结合机器学习进而对信息进行处理的方法、装置及计算机可读存储介质。

背景技术

目前，随着互联网与金融技术的发展，互联网金融公司所发放的贷款可分为有人工参与的贷款和无人工参与的贷款。无人工参与的贷款因其审核时间短，放款速度快的优点，越来越被互联网金融公司所青睐，与此同时，无人工参与的贷款也对公司的反欺诈能力提出更高的要求。

显然，传统的评价方法难以快速响应欺诈分子的手段变化，因此，需要一种能够快速并准确当前评估贷款行为是否容易存在欺诈的方法。

发明内容

本发明针对上述问题，提出一种采用知识图谱结合机器学习进而评估业务申请人可靠性的方法与系统。

本发明一方面还提出了一种信息处理方法，其特征在于，包括：基于有效通话时长阈值，在与多个历史业务参与人相对应的通话详单中进行筛选，以确定所述多个历史业务参与人之间的有效通话记录，其中，所述多个历史业务参与人包括历史业务人和特殊联系人，所述特殊联系人与指定数目以上的所述历史业务人之间存在有效通话记录；基于所述多个历史业务参与人之间的有效通话记录来产生对应于所述多个历史业务参与人的社交网络图，其中，在所述社交网络图中，所述历史业务参与人的电话号码对应于所述社交网络图中的节点，所述历史业务参与人之间的通信关系对应于所述节点之间的边；在所述社交网络图中，根据与所述社交网络图中的节点和边相关联的邻居节点权重信息和别名对应信息进行随机游走，进而确定具有指定长度的多条路径，其中，确定所述路径包括：确定每个所述节点的邻居节点的权重；根据每条边的起始节点和目标节点来确定所述邻居节点权重表和所述别名对应表；基于所述路径的源节点的邻居节点的权重，确定下一步跳到的节点，并加入路径列表中；根据所述路径列表中新加入的边，在所述邻居权重表以及所述别名对应表中进行查找，以确定所述路径的下一个节点。在每条所述路径中确定至少一个节点对，将所述节点对中的两个节点分别作为神经网络的输入和输出，进而确定所述神经网络的隐藏层权重矩阵，其中，所述隐藏层权重矩阵中的行用于表征所述历史业务参与人的电话号码，所述隐藏层权重矩阵是N*M矩阵，其中N为所述社交网络图中的节点数目，M为所述评估模型中用于标识所述节点的向量的维度。当接收到业务请求时，基于业务请求人的联系人的电话号码来在所述多条路径中确定对应于所述业务请求人的电话号码的新路径，其中，与所述业务请求人的联系人的电话号码相对应的节点位于所述新路径的第二节点位置上；基于所述评估模型和所述新路径来确定指定数目的历史业务参与人的电话号码，根据与所述历史业务参与人的相关联的指定特征参数对所述指定数目的历史业务参与人中的所述历史业务人和/或所述特殊联系人进行评估。当所述历史业务人的指定特征参数小于等于第一阈值时，将所述历史业务人评估为可靠历史业务人；当与所述业务参与人中的特殊联系人相邻接的历史业务人中可靠历史业务人占比小于等于第二阈值时，将所述特殊联系人评估为不可靠，否则，基于所述可靠历史业务人占比、所述特殊联系人的邻接的历史业务人的指定特征参数以及所述第一阈值来评估所述特殊联系人是否可靠；以及当所述指定数目的历史业务参与人中被评估为可靠的历史业务参与人的占比大于等于第三阈值时，所述业务请求人被评估为可靠业务请求人。

通过上述实施方式，实现了基于借款人通话详单而生成了可靠性模型。通过对借款人的社交关系进行分析，可以将确定该借款人是否可靠。另外，由该实施方式可知，借款人的通话详单包括了借款人与借款人之间、以及借款人与特殊联系人之间的电话。通过基于通话时长来进行有效通话的筛选，可以提升后续所生成的模型的可靠性，减少了因骚扰、误拨等情形所造成的通话被纳入历史业务人信息集中。

本发明另外一方面提出了一种信息处理方法，其包括：基于与多个历史业务参与人相对应的多个通信标识，确定历史业务参与人信息集，其中，所述历史业务参与人信息集包括所述多个历史业务参与人之间的通信关系；基于所述历史业务参与人信息集，确定所述多个历史业务参与人的社交网络图，其中，在所述社交网络图中，所述多个通信标识对应于所述社交网络图中的节点，所述多个历史业务参与人之间的通信关系对应于所述节点之间的边；在所述社交网络图中，基于与所述社交网络图中的节点和边相关联的邻居权重信息和别名信息进行随机游走，进而确定具有指定长度的多条路径；以及基于神经网络，使用对所述多条路径对所述社交网络图中的节点进行向量化，进而以生成评估模型，进而使得所述多个通信标识在所述评估模型中能够以指定的维数进行表示。

通过上述实施方式，实现了基于借款人的通信关系而生成了可靠性模型。通过对借款人的社交关系进行分析，可以将确定该借款人是否可靠。可以理解的，这里的通信标识至少包括以下项目中的一个：电话号码、电子邮箱地址、网络即时通信标识、网络支付标识。

本发明另一方面还提出了一种信息处理装置，其包括：处理器；以及存储器，其用于存储指令，当所述指令在执行时使得所述处理器执行以下操作：基于与多个历史业务参与人相对应的多个通信标识，确定历史业务参与人信息集，其中，所述历史业务参与人信息集包括所述多个历史业务参与人之间的通信关系；基于所述历史业务参与人信息集，确定所述多个历史业务参与人的社交网络图，其中，在所述社交网络图中，所述通信标识对应于所述社交网络图中的节点，所述历史业务参与人之间的通信关系对应于所述节点之间的边；在所述社交网络图中，基于与所述社交网络图中的节点和边相关联的邻居权重信息和别名信息进行随机游走，进而确定具有指定长度的多条路径；以及基于神经网络，使用所述多条路径对所述社交网络图中的节点进行向量化，以生成评估模型，进而使得所述通信标识在所述评估模型中能够以指定的维数进行表示。

本发明另一方面还提出了一种计算机可读存储介质，该介质包括指令，其特征在于，当该指令被执行时，执行前述的任一项中的方法。

相较于传统的评估方法，通过采用本发明的方法对业务申请的可靠性进行评估，譬如，对贷款的逾期性进行评估，进而能够大幅提升准确度。另外，本发明的技术方案具有处理50万以上的节点的能力，在大数据应用上具有十分大的优势。

附图说明

参考附图示出并阐明实施例。这些附图用于阐明基本原理，从而仅仅示出了对于理解基本原理必要的方面。这些附图不是按比例的。在附图中，相同的附图标记表示相似的特征。

图1为依据本发明实施例的构建评估模型的流程图；

图2为依据本发明实施例的电话社交网络图的一部分；

图3为依据本发明实施例的随机游走生成路径的流程图；

图4为依据本发明实施例的评估贷款逾期性的流程图；

图5为依据本发明实施例的评估特殊联系人的可靠性的方法。

具体实施方式

在以下优选的实施例的具体描述中，将参考构成本发明一部分的所附的附图。所附的附图通过示例的方式示出了能够实现本发明的特定的实施例。示例的实施例并不旨在穷尽根据本发明的所有实施例。可以理解，在不偏离本发明的范围的前提下，可以利用其他实施例，也可以进行结构性或者逻辑性的修改。因此，以下的具体描述并非限制性的，且本发明的范围由所附的权利要求所限定。

对于相关领域普通技术人员已知的技术、方法和单元可能不作详细讨论，但在适当情况下，所述技术、方法和单元应当被视为说明书的一部分。

首先对本发明中涉及到的专有名词进行定义。历史业务人是指曾经成功申请到贷款的人(即借款人)；特殊联系人是指与指定数目以上(譬如，6名以上)的借款人联系过的人，特殊联系人可以包括金融机构、银行或是提供贷款相关服务的法人或自然人；历史业务参与人包括历史业务人和/或特殊联系人。社交网络图是一种知识图谱，其由多个节点和边构成。在本发明中，社交网络图中的节点用于表征电话实体(譬如，历史业务人的电话号码或业务请求人的电话号码)，边则用于表征各电话实体之间是否产生了联系(譬如，存在有效电话)。对于边而言，起始节点是该边的起点，目标节点则是该边的终点。对于随机游走所生成的路径而言，源节点是指路径的起点，路径的长度则对应于路径上的节点数。one-hot向量是指具有one-hot编码形式的向量。one-hot编码也可称为一位有效编码，其方法是使用N位状态寄存器来对N个状态进行编码，每个状态都有其独立的寄存器位，并且在任意时候，其中只有一位有效。计算机可读存储介质则是包括任意类型的计算机可读存储的信号。

发明人针对传统的贷款评价方法，进行了大量的理论与实验分析，发现了传统的贷款评价存在如下缺陷：

传统的贷款评价方法一般是基于静态数据和孤立的关系的评估方法。譬如，利用贷款申请人的基础信息如性别、年龄、收入等构建对贷款申请人的打分机制。显然，该方法主要是利用静态的数据和方法，无法对借款人是否可靠进行动态地更新。另外，传统的方法很难找到“团体欺诈”或者说“欺诈团伙”。譬如，传统的打分机制对于某个新来的借款人，只能根据之前在训练数据里面训练好的模型进行处理。当传统的评价方法结合知识图谱时，往往是针对借款人、借款人的联系人、借款人电话号码、借款人银行卡、工作单位等信息进行构建知识图谱。当贷款处理系统接收到新借款申请时，将判断对应于该新借款申请的借款人是否与之前的借款人有公用的电话号码、银行卡，或者两个借款人填写了相同的公司电话号码，但是填写的公司名称差异很大等来对该借款人进行评价。利用上述信息构建的知识图谱往往较为稀疏，从而导致了贷款评价过程较为缓慢，或是评价结果不甚理想。

发明人针对上述问题，创造性地提出了利用借款人的征信数据中所包含的通信数据来构建社交图谱，通过机器学习来形成反欺诈模型。

通过利用借款人的通信数据构建社交网络图，可以找出欺诈团体。另外，本发明中的反欺诈模型不仅可以单独作为一个评估模型来使用，还可以作为特征加入传统的反欺诈模型里面以提高传统模型的效果。本发明利用深度学习的方法来得到借款人的特征，以借款人为起始节点，利用随机游走在联系网络中获得联系人的路径。另外，本发明还采用了词向量的思路，利用层次softmax的word2vec，计算出借款人的向量，从而实现了能够通过低维向量来表征借款人。理论上，有过共同的联系的借款人在新的投影空间的距离小于其他没有共同联系的借款人之间的距离。换而言之，通过判断两个向量之间的欧氏距离，能够得知该两个向量之间的相关性，进而能够得知该两个向量所表征的借款人之间的相关性。

需要注意的是，虽然下面将要描述的实施例是基于对借款人的电话号码的处理结果进行阐述的，但是本领域技术人员可以理解的是，由于借款人之间、借款人与特殊联系人之间可能借助于邮箱、即时通讯工具、支付软件等具有通信作用的硬件或软件进行通信，对此，本发明同样可以适用于基于其它网络工具的通信数据。因此，能够表征借款人的通信标识至少包括以下项目中的一个：电话号码、电子邮箱地址、网络即时通信标识、网络支付标识。下面以电话号码为例，基于借款人通话详单来阐述本发明的思想。

图1为依据本发明实施例的构建评估模型的流程图。

步骤S11：基于借款人通话详单，确定借款参与人信息集。

在此步骤中，借款参与人信息集包括“借款人-特殊联系人”以及“借款人-借款人”通话列表，以及借款人的逾期天数等等相关信息。在本实施例中，该借款参与人信息集以CSV文件的形式进行存储。这里，借款人和特殊联系人均对应于历史业务参与人，同时，借款人对应于历史业务人。

具体而言，可以针对指定的时间段(例如，6个月)的通话详单进行筛选，进而选出有效电话。通话详单包括了借款人在6个月内的通话记录，该通话记录可以包括借款人电话、联系人电话、通话次数、通话总时长等。在本实施例中，将通话时间大于等于10s的通话作为有效通话，然后通过以下条件对有效电话进行筛选，进而选出可用的通话记录：联系人是借款人，或者联系人是特殊联系人。因此，基于过滤后的通话记录，可以通过借款人的电话在贷款处理系统中查出用该电话申请的贷款的历史最大逾期数，基于前述，关于逾期天数的数据同样存储在上述的CSV文件中。此外，还可以从历史交易数据中获取借款人的历史最大逾期数。

步骤S12：基于借款参与人信息集，确定电话社交网络图。

基于前述的CSV文件，可以确定各借款人以及特殊联系人之间的联系以及跨度。在此实施例中，基于该CSV文件中的电话实体以及实体之间是否产生联系而确定电话社交网络图。在该电话社交网络图中，各电话实体作为一个节点，实体之间的边则表征该两个实体之间存在有效通话。在本实施例中，该电话社交网络图能够包含50万个以上的节点，相应地具有1000万条以上的边。

步骤S13：对电话社交网络图中的每个节点进行随机游走，生成多个路径。

通过将社交网络图中的节点向量化，可以将知识图谱和机器学习结合。向量化过程用了自然语言处理(NLP)技术(这在步骤S14中描述),因此需要收集每个节点的上下文信息。对社交网络图而言,每个节点的上下文信息是通过游走的方式来获得的邻居信息(不止是一度邻居的信息)。换而言之，在社交网络图中，节点的邻居信息是通过游走而确定的路径上的各节点信息。在本实施例中，每个节点根据预设的权重跳到周围的节点，然后再同样按权重跳到更多一跳的节点,直到跳数达到预设的值，即每条路径可以选择性地具有相同的长度。根据社交网络图的特性，可以将上述游走设置为偏广度的游走或是偏深度的游走。在本实施例中，偏广度游走是指路径长度小于等于第一阈值，偏深度游走则是指路径长度大于第一阈值。

图2为依据本发明实施例的电话社交网络图的一部分。结合图2对本实施例中的游走路径的形成进行阐述。

如图2所示，设路径从节点A跳到节点B，节点B和4个节点相连，分别是A、C、D、E。假设A又和C相连，那么可以设权重B跳到A为w1(往回跳权重)，B跳到C为w2(广度权重)，B跳到D和B跳到E均为w3(深度权重)。

对于一个节点，如果下一步有N个节点供选择，每种选择的权重P(i)，其中，i代表N个节点中的一个。为了让该N个节点中的每个节点被选到的次数和权重成比例，可以通过如下描述的方法来实现。

结合图2所示的节点，以最终形成的路径为A-B-D-F为例进行阐述，其中，节点F未示出。图3为依据本发明实施例的随机游走生成路径的流程图。

步骤S31：针对每个节点收集邻居节点信息。

在该步骤中，将针对社交网络图中每个节点，确定其邻居节点信息，该信息可以包括邻居节点的名称(ID)以及创建时间(T)。

步骤S32：确定每个节点的邻居节点的权重。

在该步骤中，通过Alias方法来构造每个节点的邻居权重和与之相应的别名(Alias)对应表，即通过第一数组(Index_i)来表征邻居权重，通过第二数组(P_i)来表征别名对应表。

具体而言，可以将每个节点的权重按照均值归一化，然后构建新的邻居权重表和与之相应的别名对应表。将每个节点的概率分布拉平成为一个1*N的长方形即为AliasTable。第一数组存着第i列对应的事件i矩形占的面积百分比Prab[i](即第i列中事件i的概率)，另一个数组里面储存着第i列不是事件i的另外一个事件的标号(即，Alias)。当进行采样时，可以产生第一、第二随机数，其中，第一随机数为1～N之间的整数i，其用于决定选择哪一列；第二随机数为0～1之间的任意数，判断其与Prab[i]大小，如果小于等于Prab[i]，则采样i，如果大于Prab[i]，则采样Alias[i]。由此，可以在O(1)时间得到结果，所占空间也只有节点数的2倍。

当A点为待生成路径的源节点时，由于此时节点A、B之间并未存在路径，即还并未开始游走，因此对于源节点A而言，可以根据邻居节点的属性来设置每个邻居节点的权重。在本实施例中，每个邻居的权重被设置为相同(譬如，均为1)。对于Alias方法而言，由于每个节点的权重均是相同，则此时别名对应表中的值均为空(Null)。可以理解的，在另一实施例中，可以根据邻居节点的属性或是由用户指定，来分别对各个邻居节点设置相同或不同的权重。

步骤S33：根据每条边的起始节点和目标节点来确定邻居权重表和别名对应表。

在该步骤中，将对节点之间的每条边进行计算，以确定与该边对应的应该邻居权重和别名。具体而言，可以根据边的起始节点和目标节点以及广度、深度、回跳权重来算出对应于边的这两个表。可以理解的，在随机游走生成路径时，对于同一条边，由于该边两端的节点均是可以作为起始节点。因此，对于邻居权重表和别名对应表而言，根据方向的不同，每条边对应着不同的参数。对于每走一步而新加入的边，就可以通过对邻居权重表和别名对应表进行查找来确定下一步要走到的节点。可以理解的，邻居节点权重表和别名对应表包括了节点和边相关联的邻居节点权重信息和别名对应信息。

步骤S34：基于源节点的邻居权重表，确定下一步跳到的节点，加入路径列表中。

基于前一步骤中确定的邻居权重，源节点A跳到节点B，由此形成路径A-B，并将节点B加入路径列表中。因此，基于该路径列表，可以确定与边AB相对应的第一数组中的Index₁和第二数组中的P₁，这里边AB表示起始节点为A，目标节点为B。可以理解的，边BA则表示起始节点为B，目标节点为A。

步骤S35：基于新加入的边，确定路径的下一个节点。

在该步骤中，将根据所读取的新加入的边(即边AB)对邻居权重表以及别名对应表进行查找，通过这两个表可以在O(1)时间给出下一个要跳到的节点。

对于图2中的节点B而言，其下一个跳到的节点选自节点A、C、D和E。然而，由于已存在路径A-B，可以在邻居权重表以及别名对应表中查找以确定下一个跳到的节点。换而言之，路径A-B的存在将影响到节点B的下一个要跳到的节点。在本实施例中，由于节点C和A之间存在边，而节点D、E并不和节点A之间存在边，则可以将节点B跳到C的权重w2设为1。另外，增大节点B跳到D和E的概率，譬如，可以将节点B跳到D以及节点B跳到E的权重w3设为10。同时，为了避免产生节点B返跳至A的路径，可以将w1设为0.1。通过以上设置，可以使得随机游走所形成的路径具有更深的深度，同时可以减少三角形路径的形成(即，减少路径A-B-C的形成)。

当节点B选择跳到节点D(即形成路径A-B-D)后，同样会根据边BD的起始节点(B)和目标节点(D)来在邻居权重表以及别名对应表中查找，进而确定节点D的下一个要跳到的节点。

由上述可知，本发明根据与社交网络图中的节点和边相关联的邻居节点权重信息和别名对应信息进行随机游走，进而确定具有指定长度的多条路径。由于在决定路径生成时，不仅参考了源节点的邻居权重，还参考了新生成的边所对应的节点权重信息和别名对应信息，从而使得随机游走所形成的路径具有更深的深度。

请继续参阅图1：

步骤S14：利用路径对节点进行向量化，确定逾期性评估模型。

将上述步骤生成的所有电话(借款人的电话和特殊联系人的电话)作为神经网络的输入，可以学习出一个模型，该模型能够为每个电话算出一个向量。在此实施例中，该向量的维数为40。可以理解的，在其它实施例中，该向量的维数可以根据需要来调整。该向量表征了业务的相似性，因此，可以通过向量的余弦相似度来推荐指定数目的电话号码.该模型针对每一个学习过的电话，可以推荐出N个相似的电话。

每个电话在图中都有一个唯一的ID，所有的电话ID合起来可以看作是一个词汇表。对步骤S13生成的路径应用上一个滑动窗口，窗口大小(总长度)为11。窗口中位的电话为phone_m，如此，可以得到多个电话对：(phone₁，phone_m)，(phone₂，phone_m)…(phone₁₁，phone_m)。

首先，可以以随机值生成隐藏层权重矩阵和输出层权重矩阵，以进行初始化，其中，这两个矩阵都是N*M矩阵，其中N为所有phone的个数，M为节点向量的维度。对于每个电话对，以phone_m的one-hot向量作为输入，生成所有电话的输出概率，再根据电话对里的另一个电话的one-hot向量来用反向传播的梯度下降方式调整两个矩阵的值。最后，将隐藏层权重矩阵作为结果，每一行就对应于每个电话的节点向量。这种向量相似度越接近，其业务上就越接近。

换而言之，该步骤分别基于每条路径确定至少一个节点对，将述节点对中的两个节点分别作为神经网络的输入和输出，进而确定神经网络的隐藏层权重矩阵，该隐藏层权重矩阵中的行用于表征历史业务参与人的电话(即，通信标识)。

可以理解的，本实施例中的电话社交网络图能够包含50万以上的节点(譬如60万)，因此，如果以one-hot向量的形式来表示某个电话，其维度将是60万，会给后续的运算带来极大的不便。而通过上述步骤，可以利用隐藏层权重矩阵来表示电话，该矩阵可以是60万*40的矩阵，即每一行就对应于每个电话的节点向量，利用40维的数组即可表征每个电话。显然，这明显地减少了运算量以及复杂度。

通过执行步骤S11-S14，实现了根据借款人通话详单而进行的评估模型建模。下面结合图4对利用该模型对贷款申请电话的逾期性进行评估为例进行阐述，图4为依据本发明实施例的评估贷款逾期性的流程图。

步骤S41：基于贷款申请电话的通话详单构造随机游走路径，进而通过评估模型确定N个相似电话。

当接收到新的贷款申请电话时，可以将其通话详单作为预测的输入。用新贷款申请人的通话详单构造出随机游走路径，加入上述的模型，得到余弦相似度相近的N个电话。

为了提升系统的实时性，可以周期性地(譬如，每天)对包括最新的数据的通话详单进行随机游走和模型生成，并将更新后的游走结果(路径)作为当前可使用的游走结果。基于该贷款申请电话的联系电话，在O(1)时间内查找游走结果中是否已经存在与该联系电话相关的路径，可以理解的，在前述的与该联系电话相关的路径中，该联系电话对应于该相关的路径的源节点。如果有相关的路径，则把该贷款申请电话放在路径最前头，进而生成对应于该贷款申请电话的一条新路径。相应地，与贷款请求人的联系人的电话相对应的节点位于新路径的第二节点位置上。

举例说明：假设新来的贷款申请电话phone100的联系电话包括电话phone1、phone2、phone3。该三个电话出现在更新后的游走结果中，并且phone1存在路径phone1-phone4-phone5、phone1-phone6-phone7。phone3路径是phone3-phone4-phone8、phone3-phone5-phone9。那么，将phone100放在这些路径的最前头，生成的路径包括phone100-phone1-phone4-phone5、phone100-phone1-phone6-phone7、phone100-phone3-phone4-phone8以及phone100-phone3-phone5-phone9。

当针对该贷款申请电话的所有路径都生成完之后，可以确定该贷款申请电话的相关路径。然后，将贷款申请电话的相关路径放入步骤S14中所得到的模型里进行增量学习，进而确定N个相似的电话(譬如，N可以是20-100中的任意值)。由于增量学习充分利用了历史的训练结果，因此显著地减少了后续训练的时间。

可选地，也可以让评估模型输出与新贷款申请电话相关的向量，通过分类模型，以向量作为输入，进行分类操作。如此，也能够确定上述N个相似电话。

步骤S42：根据该N个相似的电话的逾期天数来确定贷款申请人发生逾期的可能性。

在该步骤中，将基于评估模型和新路径确定指定数目的业务参与人，进而对贷款请求人进行评估。这里，指定数目的历史参与人包括历史业务人和/或中介特殊联系人。

如果贷款申请人的电话是之前的贷款电话，可以基于步骤S11中的借款参与人信息集中所包含的信息来确定其最大逾期天数。对于一个电话申请多笔贷款的情形，可以将这里取的是最近一笔贷款的最大逾期天数。对于一笔贷款多次还款(分期)的情形，如果其分成三次还款，则每次还款均对应于一个逾期天数，则上述最大逾期天数选自这三个逾期天数。本领域技术人员能够理解的，上述最大逾期天数还可以根据需要进行调整，譬如，以最近的两笔或多笔贷款来确定最大逾期天数。

在本实施例中，将小于等于最大逾期天数阈值(譬如为4)的电话视为好电话(即，可靠性大)，否则为坏电话(即，可靠性小)。如果是特殊联系人电话，则可以按照图5中的方法来确定其最大逾期天数。图5为依据本发明实施例的评估特殊联系人的可靠性的方法。

步骤S51：判断该电话的邻接的借款人电话中的坏电话占比是否超过50％；

步骤S52：若判断结果为是，则将该特殊联系人电话的最大逾期天数设为最大逾期天数阈值+1，从而通过对该特殊联系人电话的最大逾期天数进行设置而将其标识为不可靠。

步骤S53：若判断结果为否，则将该特殊联系人电话的最大逾期天数设置为坏电话占比*邻接的借款人电话的最大逾期天数的平均值，以进行下一步判断。

在步骤S53之后执行步骤S54：判断该特殊联系人电话的最大逾期天数是否大于最大逾期天数阈值。若大于最大逾期天数阈值，则将该特殊联系人电话确定为坏电话(步骤S56)，否则，将该特殊联系人电话确定为好电话(步骤S55)。

通过上述步骤可以确定对应于新的贷款申请电话的N个相似的电话中哪些电话是坏电话或是好电话，如果坏电话占比超过指定的阈值(譬如，30％)，则预测新的贷款申请电话是坏电话，将会有坏账；否则就是好电话。

相较于传统的评估方法，通过采用本发明的方法对贷款的逾期性进行评估，能够大幅提升准确度。虽然上述实施例是以评估贷款的逾期性为例进行阐述，但是可以理解的是，上述方法可以适用于任意的需要评估的业务。例如，基于步骤S11-S14所阐述的思想，可以构造指定业务请求的评估模型；结合该评估模型，可以对与该业务相对应的一个或多个特征进行评估(譬如，可靠性、稳定性评估)。

因此，本发明是通过与业务的指定特征来对指定数目的借款人进行评估，进而实现了对业务请求人的可靠性的判断。另外，本发明可以包括20万以上的节点，由此可知，本发明的方法在大数据应用上具有十分大的优势，能够处理非常大的数据量。

图1、3-5中的信息处理方法的流程还代表计算机可读指令，该计算机可读指令包括由处理器执行的程序。该程序可被实体化在被存储于有形计算机可读介质中，该有形计算机可读介质如CD-ROM、软盘、硬盘、数字通用光盘(DVD)、蓝光光盘或其它形式的存储器。替代的，图1中的示例方法中的一些步骤或所有步骤可利用专用集成电路(ASIC)、可编程逻辑器件(PLD)、现场可编程逻辑器件(EPLD)、离散逻辑、硬件、固件等的任意组合被实现。在可读介质上信息可以存储任意时间。可以理解的，该计算机可读指令还可以存储在网络服务器中、云端平台上，以便于用户使用。

本发明还提出了一种信息处理装置，该信息处理装置包括处理器；以及存储器。该存储器用于存储指令，当指令在执行时使得处理器执行图1图1、3-5中的信息处理方法。譬如，当该指定在执行时，使得处理器执行以下操作：基于与多个历史业务参与人相对应的多个通信标识，确定历史业务参与人信息集，其中，历史业务参与人信息集包括多个历史业务参与人之间的通信关系；基于历史业务参与人信息集，确定多个历史业务参与人的社交网络图，其中，在社交网络图中，通信标识对应于社交网络图中的节点，历史业务参与人之间的通信关系对应于节点之间的边；在社交网络图中，基于与社交网络图中的节点和边相关联的邻居权重信息和别名信息进行随机游走，进而确定具有指定长度的多条路径；以及基于神经网络，使用多条路径对社交网络图中的节点进行向量化，以生成评估模型，进而使得通信标识在评估模型中能够以指定的维数进行表示。

另外，尽管操作以特定顺序被描绘，但这并不应该理解为要求此类操作以示出的特定顺序或以相继顺序完成，或者执行所有图示的操作以获取期望结果。在某些情况下，多任务或并行处理会是有益的。同样地，尽管上述讨论包含了某些特定的实施细节，但这并不应解释为限制任何发明或权利要求的范围，而应解释为对可以针对特定发明的特定实施例的描述。本说明书中在分开的实施例的上下文中描述的某些特征也可以整合实施在单个实施例中。反之，在单个实施例的上下文中描述的各种特征也可以分离地在多个实施例或在任意合适的子组合中实施。

因此，虽然参照特定的示例来描述了本发明，其中这些特定的示例仅仅旨在是示例性的，而不是对本发明进行限制，但对于本领域普通技术人员来说显而易见的是，在不脱离本发明的精神和保护范围的基础上，可以对所公开的实施例进行改变、增加或者删除。

Claims

1.一种信息处理方法，其特征在于，包括：

基于有效通话时长阈值，在与多个历史业务参与人相对应的通话详单中进行筛选，以确定所述多个历史业务参与人之间的有效通话记录，其中，所述多个历史业务参与人包括历史业务人和特殊联系人，所述特殊联系人与指定数目以上的所述历史业务人之间存在有效通话记录；

基于所述多个历史业务参与人之间的有效通话记录来产生对应于所述多个历史业务参与人的社交网络图，其中，在所述社交网络图中，所述历史业务参与人的电话号码对应于所述社交网络图中的节点，所述历史业务参与人之间的通信关系对应于所述节点之间的边；

在所述社交网络图中，根据与所述社交网络图中的节点和边相关联的邻居节点权重信息和别名对应信息进行随机游走，进而确定具有指定长度的多条路径，其中，确定所述路径包括：

确定每个所述节点的邻居节点的权重；

根据每条边的起始节点和目标节点来确定所述邻居节点权重表和所述别名对应表；

基于所述路径的源节点的邻居节点的权重，确定下一步跳到的节点，并加入路径列表中；

根据所述路径列表中新加入的边，在所述邻居权重表以及所述别名对应表中进行查找，以确定所述路径的下一个节点；以及

在每条所述路径中确定至少一个节点对，将所述节点对中的两个节点分别作为神经网络的输入和输出，进而确定所述神经网络的隐藏层权重矩阵，其中，所述隐藏层权重矩阵中的行用于表征所述历史业务参与人的电话号码，所述隐藏层权重矩阵是N*M矩阵，其中N为所述社交网络图中的节点数目，M为所述评估模型中用于标识所述节点的向量的维度；

当接收到业务请求时，基于业务请求人的联系人的电话号码来在所述多条路径中确定对应于所述业务请求人的电话号码的新路径，其中，与所述业务请求人的联系人的电话号码相对应的节点位于所述新路径的第二节点位置上；

基于所述评估模型和所述新路径来确定指定数目的历史业务参与人的电话号码，根据与所述历史业务参与人的相关联的指定特征参数对所述指定数目的历史业务参与人中的所述历史业务人和/或所述特殊联系人进行评估，

当所述历史业务人的指定特征参数小于等于第一阈值时，将所述历史业务人评估为可靠历史业务人；

当与所述业务参与人中的特殊联系人相邻接的历史业务人中可靠历史业务人占比小于等于第二阈值时，将所述特殊联系人评估为不可靠，否则，基于所述可靠历史业务人占比、所述特殊联系人的邻接的历史业务人的指定特征参数以及所述第一阈值来评估所述特殊联系人是否可靠；以及

当所述指定数目的历史业务参与人中被评估为可靠的历史业务参与人的占比大于等于第三阈值时，所述业务请求人被评估为可靠业务请求人。

2.一种信息处理方法，其特征在于，包括：

基于与多个历史业务参与人相对应的多个通信标识，确定历史业务参与人信息集，其中，所述历史业务参与人信息集包括所述多个历史业务参与人之间的通信关系；

基于所述历史业务参与人信息集，确定所述多个历史业务参与人的社交网络图，其中，在所述社交网络图中，所述通信标识对应于所述社交网络图中的节点，所述历史业务参与人之间的通信关系对应于所述节点之间的边；

在所述社交网络图中，基于与所述社交网络图中的节点和边相关联的邻居权重信息和别名信息进行随机游走，进而确定具有指定长度的多条路径；以及

基于神经网络，使用所述多条路径对所述社交网络图中的节点进行向量化，以生成评估模型，进而使得所述通信标识在所述评估模型中能够以指定的维数进行表示。

3.如权利要求2所述的方法，其特征在于，确定具有指定长度的多条路径包括：

基于所述路径的源节点的邻居权重信息来确定下一步跳到的节点。

4.如权利要求3所述的方法，其特征在于，基于所述路径中的第一节点到第二节点之间的边所对应的邻居权重信息和别名信息来确定所述第二节点将要跳到的第三节点。

5.如权利要求2所述的方法，其特征在于，生成所述评估模型

包括：

分别基于每条所述路径确定至少一个节点对，将所述节点对中的两个节点分别作为所述神经网络的输入和输出，进而确定所述神经网络的隐藏层权重矩阵，其中，所述隐藏层权重矩阵中的行用于表征所述历史业务参与人的通信标识。

6.如权利要求2所述的方法，其特征在于，当接收到业务请求时，基于业务请求人的联系人的通信标识和所述多条路径确定对应于所述业务请求人的新路径，其中，与所述业务请求人的联系人的通信标识相对应的节点位于所述新路径的第二节点位置上。

7.如权利要求6所述的方法，其特征在于，基于所述评估模型和所述新路径确定指定数目的历史业务参与人，进而对所述业务请求人进行评估，其中，所述历史业务参与人包括历史业务人和/或特殊联系人。

8.如权利要求7所述的方法，其特征在于，根据指定特征参数对所述指定数目的历史业务参与人中的所述历史业务人和/或所述特殊联系人进行评估，

当与所述特殊联系人相邻接的历史业务人中可靠历史业务人占比小于等于第二阈值时，将所述特殊联系人评估为不可靠，否则，基于所述可靠历史业务人占比、所述特殊联系人的邻接的历史业务人的指定特征以及所述第一阈值来评估所述特殊联系人是否可靠；以及

当所述指定数目的历史业务参与人中被评估为可靠的历史业务参与人的占比大于等于第三阈值时，将所述业务请求人评估为可靠业务请求人。

9.如权利要求2所述的方法，其特征在于，当所述通信标识为电话号码时，根据通话时长阈值和与多个历史业务参与人相对应的通信标识来确定所述历史业务参与人信息集，其中，所述历史业务参与人信息集包括所述多个历史业务参与人之间的有效通话信息。

10.如权利要求9所述的方法，其特征在于，基于指定时段内的所述历史业务参与人的通话信息，来确定所述历史业务参与人信息集，并且周期性地更新所述历史业务参与人信息集。

11.如权利要求2所述的方法，其特征在于，所述通信标识至少包括以下项目中的一个：

电话号码、电子邮箱地址、网络即时通信标识、网络支付标识。

12.一种信息处理装置，包括：

处理器；以及

存储器，其用于存储指令，当所述指令在执行时使得所述处理器执行以下操作：

13.如权利要求12所述的装置，其特征在于，确定具有指定长度的多条路径包括：

14.如权利要求13所述的方法，其特征在于，基于所述路径中的第一节点到第二节点之间的边所对应的邻居权重信息和别名信息来确定所述第二节点将要跳到的第三节点。

15.如权利要求12所述的装置，其特征在于，生成所述评估模型包括：

16.如权利要求12所述的装置，其特征在于，当接收到业务请求时，基于业务请求人的联系人的通信标识和所述多条路径确定对应于所述业务请求人的新路径，其中，与所述业务请求人的联系人的通信标识相对应的节点位于所述新路径的第二节点位置上。

17.如权利要求16所述的装置，其特征在于，基于所述评估模型和所述新路径确定指定数目的历史业务参与人，进而对所述业务请求人进行评估，其中，所述历史业务参与人包括历史业务人和/或特殊联系人。

18.如权利要求17所述的装置，其特征在于，根据指定特征参数对所述指定数目的历史业务参与人中的所述历史业务人和/或所述特殊联系人进行评估，

19.如权利要求2所述的装置，其特征在于，当所述通信标识为电话号码时，根据通话时长阈值和与多个历史业务参与人相对应的通信标识来确定所述历史业务参与人信息集，其中，所述历史业务参与人信息集包括所述多个历史业务参与人之间的有效通话信息。

20.如权利要求19所述的装置，其特征在于，基于指定时段内的所述历史业务参与人的通话信息，来确定所述历史业务参与人信息集，并且周期性地更新所述历史业务参与人信息集。

21.如权利要求12所述的装置，其特征在于，所述通信标识至少包括以下项目中的一个：

22.一种计算机可读存储介质，具有存储在其上的计算机可读程序指令，其特征在于，当所述指令被执行时，执行如权利要求2-11中任一项所述的方法。