CN111368147B

CN111368147B - 图特征处理的方法及装置

Info

Publication number: CN111368147B
Application number: CN202010114823.2A
Authority: CN
Inventors: 张屹綮; 张天翼; 王维强
Original assignee: Alipay Hangzhou Information Technology Co Ltd
Current assignee: Alipay Hangzhou Information Technology Co Ltd
Priority date: 2020-02-25
Filing date: 2020-02-25
Publication date: 2021-07-06
Anticipated expiration: 2040-02-25
Also published as: WO2021169454A1; CN111368147A

Abstract

本说明书实施例提供一种图特征处理的方法和装置。根据该方法，首先根据关系数据，构建关系网络图，其中关系数据包括用户参与的交互事件记录；关系网络图包括多个用户节点，以及基于交互事件形成的有向边。然后，将该关系图分割为多个子图，其中包括用于用户分类模型训练的第一子图。对于第一子图中各个节点，获取节点的低阶特征，其中包括节点的度。然后，还对于基于第一子图得到的无向图中的各个节点，获取节点的高阶特征，其中包括多阶H指数，每阶H指数表示，满足H个邻居节点的上一阶H指数大于等于H的最大H值；其中0阶H指数为节点的度。于是，可以基于低阶特征和高阶特征，生成备选特征集，作为训练用户分类模型的备选特征。

Description

图特征处理的方法及装置

技术领域

本说明书一个或多个实施例涉及机器学习领域，尤其涉及针对用户分类模型进行图特征处理的方法和装置。

背景技术

随着人工智能和机器学习的快速发展，在多种业务场景中开始使用机器学习的模型进行业务分析。例如，在许多应用场景中，需要对用户进行分类识别，例如，识别用户的风险等级，区分用户所属的人群，等等。为此，常常需要训练用户分类模型，来进行与业务相关的用户识别和用户分类。

特征的选择和处理是模型训练的基础。对于用户分类模型来说，为了训练出性能优异，预测准确的模型，就需要从大量用户特征中选择出与预测目标更为相关、更能反映用户特点的特征，来进行模型训练。在最为简单的场景下，从用户的基本属性特征中进行特征选择，训练的模型就可以达到要求。然而，随着业务场景越来越复杂，在许多情况下，用户的基本属性特征往往不够丰富和全面，不能满足模型训练的性能要求。为此，考虑生成一些附加特征或衍生特征，作为模型训练的补充，其中，基于用户关系网络生成图特征，是补充特征的一个方面。然而，网络图是一种比较复杂的数据结构，其分析运算都需要很大的计算量，如何高效地从中提取出适用于模型训练的有意义的特征是一项困难和挑战。

因此，希望能有改进的方案，可以更为高效地对图数据进行处理，快速提取出有效的图特征，以供用户分类模型进行选择和训练。

发明内容

本说明书一个或多个实施例描述了一种针对用户分类模型进行图特征处理的方法和装置，可以高效地生成丰富的图特征，从而便于用户分类模型的特征选择和训练。

根据第一方面，提供了一种图特征处理的方法，包括：

根据关系数据，构建关系网络图；所述关系数据包括，用户参与的交互事件记录；所述关系网络图包括多个节点，以及基于所述交互事件形成的节点之间的有向边，所述多个节点中包括用户节点；

将所述关系网络图分割为多个子图，其中包括用于用户分类模型训练的第一子图；

对于所述第一子图中各个节点，获取节点的低阶特征，其中所述低阶特征至少包括，节点的度；

将所述第一子图转换为无向图；

对于所述无向图中的各个节点，获取节点的高阶特征，所述高阶特征包括多阶H指数，其中每阶H指数表示，满足H个邻居节点的上一阶H指数大于等于H这一条件的最大H值；其中0阶H指数为节点的度；

至少基于所述低阶特征和高阶特征，生成备选特征集，作为训练所述用户分类模型的备选特征。

根据一种实施方式，交互事件为用户借助介质进行的事件；所述多个节点还包括介质节点；所述有向边为用户节点与介质节点之间的有向连接边。

在上述实施方式的具体实施例中，交互事件具体为登录事件或认证事件，所述介质节点的信息包括以下中的一项或多项：设备标识信息，网络环境信息，认证媒介信息。

根据另一种实施方式，交互事件为用户之间的有方向的交互事件，所述用户节点包括，第一类节点和第二类节点；所述有向边为从第一类节点指向第二类节点的连接边。

在上述实施方式的具体实施例中，交互事件可以为交易事件，此时所述第一类节点为买家节点，第二类节点为卖家节点；或者，交互事件可以为转账事件，此时所述第一类节点为转出方节点，第二类节点为收款方节点。

根据一个实施例，在将所述关系网络图分割为多个子图之前，对该关系网络图进行图过滤，这包括，从所述关系网络图中剔除不符合所述用户分类模型训练需要的若干节点，以及所述若干节点对应的连接边。

具体的，所剔除的若干节点可以包括以下中的一项或多项：不符合预定格式的无效节点；连接边数目大于一定阈值的节点；位于白名单中的节点；在所述交互事件涉及资金的情况下，预定时长周期内往来资金超过预定阈值的节点。

根据一种实施方式，通过以下方式将关系网络图分割为多个子图：根据所述关系网络图中有向边所对应的交互事件发生的时间段，将所述关系网络图分割为多个子图，每个子图对应一个时间段；确定用于训练所述用户分类模型的标签数据的标注时间所对应的时间段，将该时间段对应的子图确定为所述第一子图。

根据另一种实施方式，通过以下方式将关系网络图分割为多个子图：根据所述用户节点的基本属性中的地理区域，将关系网络图分割为多个子图，每个子图对应一个地理区域；将与用于训练所述用户分类模型的标签数据中用户样本集的地理区域相对应的子图，确定为所述第一子图。

根据一个实施例，所述关系网络图为同质图，此时，获取的节点的低阶特征还包括：该节点所连接的邻居节点中，双重节点的数目和占比；其中所述双重节点为，在所述关系网络图中同时作为第一类节点和第二类节点的用户节点。

在关系网络图为同质图的情况下，将所述第一子图转换为无向图具体包括：将所述第一子图中的有向边转换为无向边，并合并其中的重复节点，得到所述无向图。

根据一个实施例，在获取节点的高阶特征时，对于任意阶H指数，当无法确定出所述满足H个邻居节点的上一阶H指数大于等于H这一条件的最大H值时，将满足H个邻居节点的上一阶H指数大于H这一条件的最大H值，作为其本阶H指数。

根据一个实施例，生成备选特征集具体包括：对于各个节点，根据其邻居节点的低阶特征和高阶特征中各项特征的统计结果，得到统计特征，将所述统计特征包含在所述备选特征集中；所述统计结果包括以下中的一项或多项：最大值、最小值、平均值、中位数和众数。

根据一种实施方式，所述方法还包括：获取用于训练所述用户分类模型的标签数据，所述标签数据包括用户样本集和其中各个用户样本的类别标签；将所述用户样本集映射到所述第一子图中的第一节点集；根据所述备选特征集中的各项特征在所述第一节点集上的特征值分布和标签值分布，进行特征筛选，得到用于所述用户分类模型的特征集。

在上述实施方式中，特征筛选的过程具体可以包括：根据所述各项特征的特征值分布和所述标签值分布，确定各项特征的信息价值IV，基于信息价值IV对各项特征进行第一筛选操作；对于所述第一筛选操作后的保留特征，计算保留特征之间的相关系数，基于所述相关系数进行第二筛选操作，得到所述特征集。

在一个实施例中，在得到上述特征集后，还生成特征记录表，用于记录所述特征集中各项特征的描述信息。

根据第二方面，提供了一种图特征处理的装置，包括：

图构建单元，配置为根据关系数据，构建关系网络图；所述关系数据包括，用户参与的交互事件记录；所述关系网络图包括多个节点，以及基于所述交互事件形成的节点之间的有向边，所述多个节点中包括用户节点；

图分割单元，配置为将所述关系网络图分割为多个子图，其中包括用于用户分类模型训练的第一子图；

低阶特征获取单元，配置为对于所述第一子图中各个节点，获取节点的低阶特征，其中所述低阶特征至少包括，节点的度；

图转换单元，配置为将所述第一子图转换为无向图；

高阶特征获取单元，配置为对于所述无向图中的各个节点，获取节点的高阶特征，所述高阶特征包括多阶H指数，其中每阶H指数表示，满足H个邻居节点的上一阶H指数大于等于H这一条件的最大H值；其中0阶H指数为节点的度；

特征集生成单元，配置为至少基于所述低阶特征和高阶特征，生成备选特征集，作为训练所述用户分类模型的备选特征。

根据第三方面，提供了一种计算机可读存储介质，其上存储有计算机程序，当所述计算机程序在计算机中执行时，令计算机执行第一方面的方法。

根据第四方面，提供了一种计算设备，包括存储器和处理器，其特征在于，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，实现第一方面的方法。

根据本说明书实施例的描述，为了针对用户分类模型的训练提供更为丰富的特征选择，在实施例的方案中，基于用户参与的交互事件构建关系网络图，并从中提取图特征。其中，图特征不仅包括例如节点的度的低阶特征，还创新性引入H指数作为高阶图特征。如此，得到了各个节点的更为丰富的图特征，用于用户分析模型的特征选择和训练。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1为本说明书披露的一个实施例的图特征处理过程的示意图；

图2示出根据一个实施例的针对用户分类模型进行图特征处理的方法流程图；

图3示出根据一个实施例的同质图的例子；

图4示出根据一个实施例对同质图进行变换的例子；

图5示出根据一个实施例的图特征处理装置的示意性框图。

具体实施方式

下面结合附图，对本说明书提供的方案进行描述。

为了更高效地实现用户分类模型的建模和训练，在本说明书的一个实施例中，提供一种端到端的图特征处理方案，该方案可以基于记录用户交互事件的关系数据，生成关系网络图，从中提取节点的低阶图特征和高阶图特征作为备选特征，供用户分类模型筛选和训练使用。

图1为本说明书披露的一个实施例的图特征处理过程的示意图。如图1所示，首先基于关系数据，构建关系网络图。其中，关系数据用于记录用户所参与的交互事件的事件记录；相应的，据此构建的关系网络图中包括有用户节点，而节点之间的连接边基于交互事件而建立。在本说明书的实施例中，可以考虑交互事件的方向性，建立有向的连接边。相应的，关系网络图可以体现为二部图。

可选的，可以对以上构建的关系网络图进行一些过滤处理，去除掉一些不必进行分析的节点和边。进一步地，可以将关系网络图拆分为子图，从而便于后续处理。

基于以上处理得到的子图，可以进行节点特征的提取。所提取的节点特征包括低阶特征和高阶特征，其中低阶特征至少包括节点的度。对于高阶特征，在本说明书的实施例中，创新性地将其他领域采用的H指数应用到图分析中，作为高阶图特征，其中关系网络图中节点的H指数是指，邻居节点的度大于等于H的最多H个邻居节点的个数。进一步地，还可以迭代得到多阶H指数。如此，得到了各个节点的更为丰富的高阶特征。

可选地，还可以对各个节点的邻居节点的低阶/高阶特征进行统计，得到统计特征。于是，以上的低阶特征，高阶特征，以及可选的统计特征，共同构成备选特征集。该备选特征集中包含基于关系网络图生成和提取的图特征，且这些图特征，特别是节点高阶特征，与常规方式提取的特征具有本质的不同。

对于备选特征集中的各项特征，可以通过各种评估方式，例如特征信息价值IV，相关系数等，对特征进行评估，从而进行筛选。于是，最终可以从备选特征集中选择出适用于用户分类模型的特征集，从而有助于训练得到性能更为优异的用户分类模型。

下面描述以上方案的具体步骤和执行方式。

图2示出根据一个实施例的针对用户分类模型进行图特征处理的方法流程图。可以理解，该方法可以通过任何具有计算、处理能力的装置、设备、平台、设备集群来执行。如图2所示，该图特征处理方法至少包括以下步骤。

在步骤21，根据关系数据，构建关系网络图。其中，关系数据包括，用户参与的交互事件的事件记录；相应地，构建的关系网络图包括多个节点，以及基于上述交互事件形成的节点之间的有向边，所述多个节点中包括用户节点。

具体的，上述交互事件可以是用户所参与的、对于用户分类模型的分类预测目标有帮助的事件。例如，当用户分类模型用于评估用户的交易风险时，可以基于交易事件构建关系网络图；当用户分类模型用于评估用户的登录风险时，可以基于登录事件构建关系网络图；当用户分类模型用于判断用户所属的营销人群时，可以基于优惠核销事件构建关系网络图，等等。

在不同实施例中，交互事件可以是用户之间的交互，也可以涉及其他的对象。在以上两种情况下，所形成的关系网络图分别为同质图和异质图。

具体地，在一种实施方式中，上述交互事件为用户借助介质进行的事件，其中涉及介质对象。在这样的情况下，构建的关系网络图为异质图，其中除了包含用户节点，还包括介质节点。相应的，连接边为用户节点与介质节点之间的有向连接边。

例如，交互事件可以为登录事件，其中用户借助特定的设备以及网络环境进行登录。此时，介质节点可以包括设备节点，和/或网络环境节点。更具体的，设备节点可以通过设备标识信息来表示，具体可以包括，设备的MAC地址，手机SIM号，UMID，APDID等设备标识。网络环境节点可以示出登录时的网络环境信息，例如，IP地址，wifi网络标识，等等。如果某个用户借助于某种介质进行了登录，就在该用户对应的用户节点和该介质对应的介质节点之间，构建连接边。

又例如，交互事件可以为认证事件，其中用户借助于一些认证媒介进行身份认证。此时，介质节点可以上述认证媒介，例如，认证所用的信用卡号，身份证号，手机号等等。如果某个用户使用某种认证媒介进行了身份认证，就在该用户对应的用户节点和该认证媒介对应的介质节点之间，构建连接边。

还存在其他异质图的具体例子，在此不一一进行枚举。在异质图的情况下，可以将用户节点视为一类节点，将其他对象视为另一类节点，如此得到的异质图可以是二部图。

在另一种实施方式中，上述交互事件为用户之间的进行的有方向性的交互事件。在这样的情况下，构建的关系网络图为同质图，其中所有节点均为用户节点。各个用户节点可以通过用户标识信息表示，其中用户标识信息具体可以采用账户ID，手机号，邮箱地址等形式。进一步地，根据交互事件的方向性，可以将用户节点划分为两类节点，称为第一类节点和第二类节点，第一类节点对应于事件起点，第二类节点对应于事件目标。相应的，同质图中的连接边为从第一类节点指向第二类节点的有向边。

具体的，在一个例子中，上述交互事件为交易事件。在这样的情况下，第一类节点对应于买家用户，第二类节点对应于卖家用户。在一种典型的实现中，对应的关系数据为交易记录表，其中每行记录一条交易。该交易记录表例如可以包含4列数据：买家账户、卖家账户、交易金额、交易时间。如此，可以将买家账户这一列的各个账户作为第一类节点，将卖家账户这一列的各个账户作为第二类节点，在出现在同一条交易中的买家账户和卖家账户之间建立一条有向边，从买家账户指向卖家账户。

如果同一账户在不同交易中，有时作为买家记录在买家账户一列中，有时作为卖家记录在卖家账户一列中，那么在构图时，分别在第一类节点和第二类节点中记录该账户，也就是说，将该账户分别表示为一个第一类节点和一个第二类节点。

对于以上图中的连接边，可以将交易金额，交易时间作为边属性信息。在一种情况下，同一组买家账户和卖家账户可能进行过多次交易，此时，可以将交易次数等信息也包含在边属性信息中。

在另一例子中，交互事件可以是转账事件，在这样的情况下，第一类节点为转出方节点，第二类节点为收款方节点。在又一个例子中，交互事件可以是包含某种行为的社交事件，比如呼叫行为，分享行为等，此时，第一类节点对应于行为的发起方，例如呼叫方，分享发起方，第二类节点对应于行为的接收方，例如被呼叫方，分享接收方，等等。

还存在其他同质图的具体例子，在此不一一进行枚举。在同质图的情况下，由于将用户节点划分为两类，此时得到的同质图也可以视为一种二部图。

在一个实施例中，关系网络图可以采用表的形式记录其拓扑结构，例如，可以记录为邻接表，或者以有向边的起点和目标点分别为2列，记录各条连接边，等等。

在得到上述关系网络图之后，可选地，可以对该关系网络图进行一些预处理操作，以简化或便于后续运算。在一个实施例中，预处理操作可以包括，图过滤操作，即，从上述关系网络图中去除掉不符合用户分类模型训练需要的节点以及相关的连接边。

具体的，图过滤操作可以包括，首先去除一些无效节点。无效节点是不符合格式要求的节点，主要包括在数据传输过程中导致的节点格式错误产生的无效节点。实际业务中无效节点多为介质类节点，包括UMID、APDID、SIM等节点。若其格式不满足标准格式，则将该节点以及与该节点相连的边全部去除。

图过滤操作还可以包括，去除连接边数目大于一定阈值的节点。这样的节点可以称为热点节点。业务中根据关系数据的不同设定不同的阈值。例如，交易事件中，将连接边超过300的节点认为是热点，异质图中针对介质节点可以设定超过1000条连接边为热点节点。

在交互事件涉及资金的情况下，例如交易事件，转账事件等等，可以在图过滤步骤中，去除预定时长周期内往来资金超过预定阈值的节点，例如单日交易量达到10w的节点。

在其他例子中，可以预先设置有一份白名单，其中包含分类情况已知，无需进行分析的节点，例如已知商户的账户。在这样的情况下，可以在图过滤操作中，去除白名单中的节点，以及相关的连接边。

需要理解，上述热点节点，白名单节点，交易量大的节点，通常可以通过其他规则确定其分类，往往不作为用户分类模型的训练样本。而这类节点通常连接结构比较复杂。因此，在预处理时去除这些节点，可以简化关系网络图，进而便于后续的图计算分析，同时，不影响用户分类模型的训练数据选取。

为了进一步简化关系网络图的处理，在步骤22，将关系网络图分割为多个子图，其中包括用于用户分类模型训练的第一子图。步骤22中的关系网络图可以是经过图过滤或不经过图过滤的关系网络图。

需要理解，用户分类模型的训练不仅需要特征数据，还需要标签数据，标签数据中包括用户样本集和其中各个用户样本的类别标签。在一种实施方式中，可以参考标签数据进行关系网络图的分割和子图的选取。

在一个实施例中，标签数据中包含类别标签的标注时间，在这样的情况下，可以基于时间对关系网络图进行分割。具体的，可以根据关系网络图中连接边所对应的交互事件发生的时间段，将关系网络图分割为多个子图，每个子图对应一个时间段。然后，确定标签数据中的标注时间所对应的时间段，将该时间段对应的子图确定为用于模型训练的第一子图。需要理解，第一子图可以是多个子图的统称。例如，标签数据可以是按照月份进行标注的，其中包含分别在7,8两个月标注的标签。相应的，可以按照交易发生的月份，将交易关系网络图分割为多个子图，每个子图对应一个月份。于是，可以从各个子图中选出7,8两个月对应的子图，作为上述第一子图。

在一个实施例中，标签数据按照用户样本所在的地理区域进行划分，在这样的情况下，可以基于地理区域对关系网络图进行分割。具体的，可以根据关系网络图中各个用户节点的基本属性中的地理区域，例如城市，将关系网络图分割为多个子图，每个子图对应一个地理区域。于是，可以将与标签数据中用户样本集的地理区域相对应的子图确定为用于模型训练的第一子图。

根据另一种实施方式，可以采用预先训练的分割模型，对上述关系网络图进行分割。例如，可以训练一个元学习多分类模型，用于对图中的连接边进行分类，然后根据边的分类，进行关系网络图的分割。元学习多分类模型的损失函数可以是，图分割后生成的图特征与不分割生成图特征的信息价值IV值的误差。元学习多分类模型的训练可以采用已有方式进行，此处不进行详细描述。

在其他具体例子中，还可以基于其他原则，对上述关系网络图进行图分割，得到多个子图。在得到的多个子图中，可以有一个或多个子图与标签数据相对应，作为用于用户分类模型训练的第一子图。

接着，在步骤23，针对第一子图中的各个节点，获取节点的低阶特征。

如前所述，关系网络图可以是异质图或同质图，相应的，第一子图与之对应。在第一子图为异质图的情况下，节点的低阶特征可以是，节点的度。节点的度表示，节点所连接到的邻居节点数目，或者节点所具有的连接边数目。

在第一子图为同质图的情况下，节点的低阶特征除了包含节点的度，还包括，所连接的邻居节点中双重节点的数目和占比；其中双重节点为，在关系网络图中同时作为第一类节点和第二类节点的用户节点。

图3示出根据一个实施例的同质图的例子。假定该关系网络图基于交易事件而构建，左边一列为买家用户节点，即交易事件中的付款方，右边一列是卖家用户节点，即交易事件的收款方。如图所示，节点2和4既是卖家又是买家，因此节点2和节点4属于双重节点，或称为互换身份节点。

如图3所示，双重节点对应的用户在构图时，按照第一类节点和第二类节点分别表示为两个节点；在计算节点的低阶特征时，也分别考虑其作为第一类节点时的低阶特征和作为第二类节点的低阶特征。如此，可以针对图3中各个买家节点和各个卖家节点，分别确定其低阶特征。例如，对于买家节点1，其连接到3个卖家节点(6,2,4)，并且这3个卖家节点中，节点2和4均为双重节点，因此，双重节点数目为2，占比为2/3。如此，按买家节点和卖家节点分组计算低阶特征如以下表1所示。

表1：

如此，得到第一子图中各个节点的低阶特征。

接着，在步骤24，将所述第一子图转换为无向图。

对于第一子图为异质图的情况，只需要将其中的有向边转换为无向边，即可得到上述无向图。对于第一子图为同质图的情况，上述转换可以包括，将同质图中的有向边转换为无向边，并且合并其中的重复节点，从而得到上述无向图。

图4示出根据一个实施例对同质图进行变换的例子。图4最左侧示出原始的同质图，该同质图与图3所示相同。对于该同质图，首先将从左侧第一类节点指向右侧第二类节点的有向边，转换为无向边，得到图A。然后，将图A中的重复节点进行合并。于是，将其中的两个节点2合并为一个节点，将两个节点4合并为一个节点。在将两个重复节点合并为一个节点的过程中，其他节点与将该两个重复节点的连接边，都归为与合并后节点的连接边。于是得到图B，其中更新了同质图中的各个节点和连接边。

接着，在步骤25，可以基于该无向图，进行高阶特征的提取，得到比节点的度更高维更抽象的图特征。在本说明书的实施例中，创新性地在图分析中引入H指数的概念，作为高阶图特征。

H指数(H-index)又称为H因子(h-factor)，是一种评价学术成就的方法。H代表“高引用次数”(high citations)，一名科研人员的H指数是指，他至多有H篇论文分别被引用了至少H次。在本实施例的方案中，将H指数的概念应用到图分析中，其中，某个节点的H指数指代，邻居节点的度大于等于H的最多H个邻居节点的个数，或者说，满足“存在H个邻居节点的度大于等于H”这一条件的最大H值。如果无法确定出度大于等于H的最多H个邻居节点，则将度大于H的最多H个邻居节点的H值作为H指数。此处节点的度，为无向图中节点的度。对于异质图来说，无向图中节点的度与其在低阶特征中确定的度相同；对于同质图来说，无向图转换过程中进行了节点的更新，相应也需要重新确定无向图中节点的度。

下面结合例子进行描述。延续图4的示例，其中在图B，对同质图进行了变换，更新了各个节点和连接边，得到无向图。因此，可以重新确定各个节点的度，得到以下的列表：

表2：

节点	度	节点	度
				1	3	5	1
2	4	6	2
				3	2	7	2
4	4

图4中最右侧的图C更清楚地示出了各个节点的度。下面以节点1，即图C中的深色节点为例，描述H指数的确定。

可以看到，节点1的邻居为节点2、4、6，查询上述表2可知，这3个邻居节点的度分别为4、4、2，因此，存在2个邻居节点的度大于2(却不存在3个邻居节点的度大于3)，因此，节点1的H指数为2。此处由于无法找到度大于等于H的最多H个邻居，则寻找大于H的最多H个邻居。

通过类似的方式，可以逐个确定各个节点的H指数。然后，可以基于如此确定的H指数，进一步确定高阶H指数。也就是说，将节点的度作为0阶H指数，以上确定的H指数作为1阶H指数，递归确定更高阶H指数，其中k阶H指数表示，邻居节点的k-1阶H指数大于等于H的最多H个邻居个数，或者说，满足H个邻居节点的k-1阶H指数大于等于H这一条件的最大H值。如此，可以依次迭代确定出各个节点的2阶H指数，3阶H指数，直到预定阶数N。

上述预定阶数N可以根据图结构的特点和业务需要来设定。一般地，通过上述递归计算，最终各个节点的高阶H指数会达到收敛，且收敛至图的核心度(K-Core)。因此，在一个例子中，可以将阶数N设定为达到收敛时的阶数。

通过以上方式，得到了第一子图中各个节点的高阶特征：1阶H指数，2阶H指数，…,N阶H指数。

需要说明的是，在关系网络图通过表的形式记录时，低阶特征和高阶特征均可以通过SQL查询语句简单地实现，避免了常规图特征运算中大量的矩阵运算，因此特征生成效率很高。

接下来，在步骤26，至少基于上述低阶特征和高阶特征，生成备选特征集，作为训练用户分类模型的备选特征。

在一个实施例中，将以上得到的低阶特征和高阶特征，汇总形成备选特征集。在另一实施例中，对于各个节点，根据其邻居节点的低阶特征和高阶特征中各项特征的统计结果，得到统计特征，将所述统计特征归入备选特征集中。其中，上述统计结果包括以下中的一项或多项：最大值、最小值、平均值、中位数和众数。

在以上统计结果中，中位数表示，在有限的数集中，通过把所有观察值高低排序后找出的正中间的一个。如果观察值有偶数个，通常取最中间的两个数值的平均数作为中位数。众数表示一组数据中出现次数最多的数值。当众数有多个时，可以选择多个众数的平均数作为产出。

在一个具体例子中，对于同质图的第一子图，针对各个节点最终生成的备选特征集包括，每个节点自身的度、双重节点个数、双重节点比例、0阶H指数，1阶H指数，2阶H指数,…N阶H指数，以及邻居节点针对以上各项特征的最大值、最小值、平均值、中位数和众数。

如此，基于关系网络图，生成了备选特征集，以供用户分类模型进行选择和训练使用。

接下来，可以针对上述备选特征集进行特征筛选，从中选择出适用于用户分类模型的特征。具体地，可以获取用于训练用户分类模型的标签数据，其中包括用户样本集和其中各个用户样本的类别标签；然后将上述用户样本集映射到第一子图中的第一节点集；根据所述备选特征集中的各项特征在第一节点集上的特征值分布和标签值分布，进行特征筛选，得到用于用户分类模型的选中特征集。特征筛选可以基于特征信息价值IV，和/或特征之间的相关系数进行。

在一个实施例中，首先基于特征IV值进行筛选，然后基于特征相关系数进行筛选。为此，对于备选特征集中的任意的一项特征(例如2阶H指数)，称为第一特征，可以根据该第一特征在第一节点集中的特征值分布和所述标签值分布，确定其信息价值IV。

更具体地，对于上述第一特征X，可以得到第一节点集中各个用户节点(假定n个节点)针对该第一特征的第一特征值，将各个第一特征值排序形成第一特征值序列(x₁,x₂,…x_n)。

接着，关联标签数据，得到标签值序列(L₁,L₂,…L_n)，该标签值序列(L₁,L₂,…L_n)与第一特征值序列(x₁,x₂,…x_n)关于用户顺序相对齐。

接下来，根据第一特征值序列(x₁,x₂,…x_n)对用户节点进行分箱。在一个实施例中，根据第一特征值序列中最大值和最小值所限定的取值范围，进行均匀分箱。在另一实施例中，根据第一特征值序列所体现的数据分布，进行自动分箱。

如此，各个用户节点被划分到各个分箱中。于是，基于标签值序列，统计各个分箱中用户节点的标签值分布情况；然后根据各个分箱的标签值分布情况，确定第一特征的信息价值IV。

以用户分类模型为二分类模型，类别标签具有二值化的情况为例，根据标签值为0还是1，可以将用户划分为正样本和负样本。对于任意分箱i，可以统计其中正样本个数pos_i，负样本个数neg_i；然后计算分箱i对应的证据权重WOE值：

其中，

为分箱i中正样本数目占全部正样本数目的比例，

为分箱i中负样本数目占全部负样本数目的比例。

进而，可以得到第一特征的IV值：

通过以上方式，针对备选特征集中的每项特征，可以确定出其IV值。于是可以基于各项特征的IV值，进行第一筛选操作。具体的，可以将各项特征的IV值与一阈值比较，将IV值低于该阈值的特征剔除，保留IV值高于该阈值的特征。实际操作中，可以将该阈值设置为例如0.5。当然也可以根据筛选目标调整该阈值。

然后，对于所述第一筛选操作后的保留特征，计算保留特征之间的相关系数，基于所述相关系数进行第二筛选操作，得到选中特征集。

可以采用各种已有的方式，计算两两特征之间的相关系数。相关系数通常采用Pearson相关系数，可以根据已知的算法来计算。也可以采用其他计算方式，例如Spearman秩相关系数等。基于上述相关系数，可以对特征进行第二筛选操作，得到多项选中特征。具体的，第二筛选操作可以通过方式执行。

在一个实施例中，对于每一项特征，如果该特征与任何其他特征之间的相关系数高于预定相关性阈值，例如0.8，则剔除该项特征，如果与所有其他特征之间的相关系数均低于该阈值，则保留该特征。在又一实施例中，对于每一项特征，可以计算该特征与其他各项特征之间的相关系数的均值。然后，将综合特征表中的各项特征，按照相关系数的均值大小进行排序，选取均值较小的预定数目的特征予以保留。对于保留的特征，还可以进一步结合IV值，再次筛选，最终得到选中特征。

如此，通过多种方式，基于特征之间的相关系数，进行第二阶段的筛选，得到多个选中特征，构成选中特征集。这多个选中特征于是可以用于用户分类模型的训练。

在确定出各项选中特征的基础上，在一个实施例中，生成特征记录表，用于记录上述选中特征集中各项特征的描述信息。该描述信息具体可以是对选中特征的定义解释，或生成过程描述。如此，这样的特征记录表可以用于类似的其他模型在建模时，进行特征生成和选择。

回顾以上过程，在说明书实施例中，为了为用户分类模型的训练提供更为丰富的特征选择，基于用户参与的交互事件构建关系网络图，并从中提取图特征。其中，图特征不仅包括例如节点的度的低阶特征，还创新性引入H指数作为高阶图特征。如此，得到了各个节点的更为丰富的图特征，用于用户分析模型的特征选择和训练。

根据另一方面的实施例，提供了一种针对用户分类模型进行图特征处理的装置，该装置可以部署在任何具有计算、处理能力的设备、平台或设备集群中。图5示出根据一个实施例的图特征处理装置的示意性框图。如图5所示，该装置500包括：

图构建单元51，配置为根据关系数据，构建关系网络图；所述关系数据包括，用户参与的交互事件记录；所述关系网络图包括多个节点，以及基于所述交互事件形成的节点之间的有向边，所述多个节点中包括用户节点；

图分割单元52，配置为将所述关系网络图分割为多个子图，其中包括用于用户分类模型训练的第一子图；

低阶特征获取单元53，配置为对于所述第一子图中各个节点，获取节点的低阶特征，其中所述低阶特征至少包括，节点的度；

图转换单元54，配置为将所述第一子图转换为无向图；

高阶特征获取单元55，配置为对于所述无向图中的各个节点，获取节点的高阶特征，所述高阶特征包括多阶H指数，其中每阶H指数表示，满足H个邻居节点的上一阶H指数大于等于H这一条件的最大H值；其中0阶H指数为节点的度；

特征集生成单元56，配置为至少基于所述低阶特征和高阶特征，生成备选特征集，作为训练所述用户分类模型的备选特征。。

根据一种实施方式，上述交互事件为用户借助介质进行的事件；所述多个节点还包括介质节点；所述有向边为用户节点与介质节点之间的有向连接边。

在上述实施方式的具体实施例中，交互事件具体可以为登录事件或认证事件，所述介质节点的信息包括以下中的一项或多项：设备标识信息，网络环境信息，认证媒介信息。

根据一个实施例，上述装置500还包括图过滤单元(未示出)，配置为从所述关系网络图中剔除不符合所述用户分类模型训练需要的若干节点，以及所述若干节点对应的连接边。

根据一种实施方式，图分割单元52具体配置为：根据所述关系网络图中有向边所对应的交互事件发生的时间段，将所述关系网络图分割为多个子图，每个子图对应一个时间段；确定用于训练所述用户分类模型的标签数据的标注时间所对应的时间段，将该时间段对应的子图确定为所述第一子图。

根据另一种实施方式，图分割单元52具体配置为，根据所述用户节点的基本属性中的地理区域，将关系网络图分割为多个子图，每个子图对应一个地理区域；将与用于训练所述用户分类模型的标签数据中用户样本集的地理区域相对应的子图，确定为所述第一子图。

根据一个实施例，所述关系网络图为同质图，此时，低阶特征获取单元53还配置为获取节点的以下特征：该节点所连接的邻居节点中，双重节点的数目和占比；其中所述双重节点为，在所述关系网络图中同时作为第一类节点和第二类节点的用户节点。

在关系网络图为同质图的情况下，图转换单元54配置为：将所述第一子图中的有向边转换为无向边，并合并其中的重复节点，得到所述无向图。

根据一个实施例，高阶特征获取单元55在获取节点的高阶特征时，对于任意阶H指数，当无法确定出所述满足H个邻居节点的上一阶H指数大于等于H这一条件的最大H值时，将满足H个邻居节点的上一阶H指数大于H这一条件的最大H值，作为其本阶H指数。

根据一个实施例，特征集生成单元56配置为：对于各个节点，根据其邻居节点的低阶特征和高阶特征中各项特征的统计结果，得到统计特征，将所述统计特征包含在所述备选特征集中；所述统计结果包括以下中的一项或多项：最大值、最小值、平均值、中位数和众数。

根据一种实施方式，所述装置还包括特征筛选单元(未示出)，配置为：获取用于训练所述用户分类模型的标签数据，所述标签数据包括用户样本集和其中各个用户样本的类别标签；将所述用户样本集映射到所述第一子图中的第一节点集；根据所述备选特征集中的各项特征在所述第一节点集上的特征值分布和标签值分布，进行特征筛选，得到用于所述用户分类模型的特征集。

在一个实施例中，上述特征筛选单元在得到上述特征集后，还生成特征记录表，用于记录所述特征集中各项特征的描述信息。

通过以上装置，针对用户分类模型，快速高效地生成丰富的图特征，从而便于用户分类模型的特征选择和训练。

根据另一方面的实施例，还提供一种计算机可读存储介质，其上存储有计算机程序，当所述计算机程序在计算机中执行时，令计算机执行结合图2所描述的方法。

根据再一方面的实施例，还提供一种计算设备，包括存储器和处理器，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，实现结合图2所述的方法。

本领域技术人员应该可以意识到，在上述一个或多个示例中，本发明所描述的功能可以用硬件、软件、固件或它们的任意组合来实现。当使用软件实现时，可以将这些功能存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输。

以上所述的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的技术方案的基础之上，所做的任何修改、等同替换、改进等，均应包括在本发明的保护范围之内。

Claims

1.一种图特征处理的方法，包括：

将所述第一子图转换为无向图；

2.根据权利要求1所述的方法，其中，所述交互事件为用户借助介质进行的事件；所述多个节点还包括介质节点；所述有向边为用户节点与介质节点之间的有向连接边。

3.根据权利要求2所述的方法，其中，所述交互事件为登录事件或认证事件，所述介质节点的信息包括以下中的一项或多项：设备标识信息，网络环境信息，认证媒介信息。

4.根据权利要求1所述的方法，其中，所述交互事件为用户之间的有方向的交互事件，所述用户节点包括，第一类节点和第二类节点；所述有向边为从第一类节点指向第二类节点的连接边。

5.根据权利要求4所述的方法，其中，

所述交互事件为交易事件，所述第一类节点为买家节点，第二类节点为卖家节点；或者：

所述交互事件为转账事件，所述第一类节点为转出方节点，第二类节点为收款方节点。

6.根据权利要求1所述的方法，其中，在将所述关系网络图分割为多个子图之前，还包括：从所述关系网络图中剔除不符合所述用户分类模型训练需要的若干节点，以及所述若干节点对应的连接边。

7.根据权利要求6所述的方法，其中，所述若干节点包括以下中的一项或多项：

不符合预定格式的无效节点；

连接边数目大于设定阈值的节点；

位于白名单中的节点；

在所述交互事件涉及资金的情况下，预定时长周期内往来资金超过预定阈值的节点。

8.根据权利要求1所述的方法，其中，将所述关系网络图分割为多个子图，包括：

根据所述关系网络图中有向边所对应的交互事件发生的时间段，将所述关系网络图分割为多个子图，每个子图对应一个时间段；

确定用于训练所述用户分类模型的标签数据的标注时间所对应的时间段，将该时间段对应的子图确定为所述第一子图。

9.根据权利要求1所述的方法，其中，将所述关系网络图分割为多个子图，包括：

根据所述用户节点的属性中的地理区域，将关系网络图分割为多个子图，每个子图对应一个地理区域；

将与用于训练所述用户分类模型的标签数据中用户样本集的地理区域相对应的子图，确定为所述第一子图。

10.根据权利要求4所述的方法，其中，所述节点的低阶特征还包括：该节点所连接的邻居节点中，双重节点的数目和占比；其中所述双重节点为，在所述关系网络图中同时作为第一类节点和第二类节点的用户节点。

11.根据权利要求4所述的方法，其中，将所述第一子图转换为无向图，包括：

将所述第一子图中的有向边转换为无向边，并合并其中的重复节点，得到所述无向图。

12.根据权利要求1所述的方法，其中，获取节点的高阶特征包括，对于任意阶H指数，当无法确定出所述满足H个邻居节点的上一阶H指数大于等于H这一条件的最大H值时，将满足H个邻居节点的上一阶H指数大于H这一条件的最大H值，作为其本阶H指数。

13.根据权利要求1所述的方法，其中，至少基于所述低阶特征和高阶特征，生成备选特征集，包括：对于各个节点，根据其邻居节点的低阶特征和高阶特征中各项特征的统计结果，得到统计特征，将所述统计特征包含在所述备选特征集中；所述统计结果包括以下中的一项或多项：最大值、最小值、平均值、中位数和众数。

14.根据权利要求1或13所述的方法，还包括：

获取用于训练所述用户分类模型的标签数据，所述标签数据包括用户样本集和其中各个用户样本的类别标签；

将所述用户样本集映射到所述第一子图中的第一节点集；

根据所述备选特征集中的各项特征在所述第一节点集上的特征值分布和标签值分布，进行特征筛选，得到所述用户分类模型的特征集。

15.根据权利要求14所述的方法，其中，根据所述备选特征集中的各项特征在所述第一节点集上的特征值分布和标签值分布，进行特征筛选，包括：

根据所述各项特征的特征值分布和所述标签值分布，确定各项特征的信息价值IV，基于信息价值IV对各项特征进行第一筛选操作；

对于所述第一筛选操作后的保留特征，计算保留特征之间的相关系数，基于所述相关系数进行第二筛选操作，得到所述用户分类模型的特征集。

16.根据权利要求14所述的方法，还包括，生成特征记录表，用于记录所述用户分类模型的特征集中各项特征的描述信息。

17.一种图特征处理的装置，包括：

图转换单元，配置为将所述第一子图转换为无向图；

18.一种计算机可读存储介质，其上存储有计算机程序，当所述计算机程序在计算机中执行时，令计算机执行权利要求1-16中任一项的所述的方法。

19.一种计算设备，包括存储器和处理器，其特征在于，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，实现权利要求1-16中任一项所述的方法。