CN111444395B

CN111444395B - 获取实体间关系表达的方法、系统和设备、广告召回系统

Info

Publication number: CN111444395B
Application number: CN201910041481.3A
Authority: CN
Inventors: 温世阳; 陈怡然; 吴文金; 林伟; 朱晓宇
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2019-01-16
Filing date: 2019-01-16
Publication date: 2023-05-16
Anticipated expiration: 2039-01-16
Also published as: CN111444395A; WO2020147595A1

Abstract

本发明公开了一种获取实体间关系表达的方法、系统和设备、广告召回系统。所述方法包括：将异构图按照边的类型拆分为子图，对子图进行采样，得到样本集合，将样本集合输入机器学习模型，得到每个子图的样本集合中各条样本的源节点、正节点和每个负节点的向量表达；基于得到的向量表达优化模型参数；对不同子图中的相同源节点的向量表达进行聚合，得到相同源节点的向量表达；基于相同源节点的向量表达、正节点和每个负节点的向量表达，优化聚合模型参数；重复上述流程得到异构图中每个节点的低维向量表达。能够实现对复杂的异构图的学习，处理速度块、效率高，用于广告搜索时使召回广告的匹配度更高。

Description

获取实体间关系表达的方法、系统和设备、广告召回系统

技术领域

本发明涉及数据挖掘技术领域，特别涉及一种获取实体间关系表达的方法、系统和设备、广告召回系统。

背景技术

随着移动终端及应用软件的普及，在社交、电商、物流、出行、外卖、营销等领域的服务提供商沉淀了海量业务数据，基于海量业务数据，挖掘不同业务实体(实体)之间的关系成为数据挖掘领域一个重要的技术研究方向。而随着机器处理能力的提升，越来越多技术人员开始研究如何通过机器学习技术进行挖掘。

本发明的发明人发现：

目前，通过机器学习技术，对海量业务数据进行学习，得到用于表达实体及实体之间关系的图(Graph)，即，对海量业务数据进行图学习，成为一个优选的技术方向。简单理解，图由节点和边构成，一个节点用于表示一个实体，节点与节点之间的边用于表示节点之间的关系。一张图一般会包括两个以上的节点和一条以上的边，因此，图也可以理解为由节点的集合和边的集合组成，通常表示为：G(V，E)，其中，G表示图，V表示图G中节点的集合，E是图G中边的集合。图可以分为同构图和异构图，其中，异构图指的是一张图中的节点的类型不同(边的类型可以相同或者不同)，或者一张图中边的类型不同(节点的类型可以相同或者不同)。所以，当实体的类型较多需要用多种类型的节点来表达，或者，实体之间的关系不唯一需要用多种类型的边来表达时，优选通过异构图表达这些实体及这些实体之间的关系，而当异构图包括的节点和边的量级很大时，该异构图会异常复杂且数据量会非常庞大，因此，降低异构图的复杂度及数据量成为本领域技术人员面临的技术问题。

发明内容

鉴于上述问题，提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的一种异构图学习方法、系统和设备。

本发明实施例提供一种广告召回系统，包括获取实体间关系表达的系统和广告召回匹配系统；

所述获取实体间关系表达的系统，用于将预先构建的异构图按照边的类型，拆分为子图，一个子图包括一种类型的边；所述异构图中的所述节点类型包括：广告、商品、查询词中的至少一种，所述边的类型包括点击边、共同点击边、协同过滤边、内容语义相似边和属性相似边中的至少一种；

针对每个子图进行采样，得到每个子图的样本集合，样本集合的每条样本中包括一个源节点、一个正节点和至少一个负节点；

将每个子图的同一个批次的样本集合输入预设的机器学习模型进行训练，分别得到每个子图的样本集合中各条样本的源节点的向量表达、正节点的向量表达和每个负节点的向量表达；基于得到的各节点的向量表达使用预设的损失函数对机器学习模型中的参数进行优化；

预设的聚合模型，对不同子图中的相同源节点的向量表达进行聚合学习，得到所述相同源节点的一个向量表达；基于所述相同源节点的一个向量表达和该源节点在各子图的样本中包括的正节点的向量表达和每个负节点的向量表达，使用预设的损失函数对聚合模型的参数进行优化；

重复上述流程对所有批次的样本集合进行预设次数的训练，得到所述异构图中每个节点的一个低维向量表达，异构图中的一个节点对应样本数据中的一个实体。

所述广告召回匹配系统，用于使用所述获取实体间关系表达的系统得到的查询词节点、商品节点和搜索广告节点的低维向量表达，确定查询词节点、商品节点和搜索广告节点之间的匹配程度，根据所述匹配程度选择与商品、查询词匹配程度符合设定要求的搜索广告。

在一些可选的实施例中，所述获取实体间关系表达的系统针对每个子图进行采样，得到每个子图的样本集合，包括：

针对每个子图，以选择节点为起点分别进行随机游走，得到每个子图对应的至少一个节点序列；用预设的滑动窗口，从所述节点序列中，得到每个子图对应的正样本集合，所述正样本集合中的一条正样本包括一个源节点与一个正节点；

基于每个子图对应的正样本集合进行一次负节点的采样，得到每个子图对应的样本集合，所述样本集合中的一条样本包括一个源节点、一个正节点和至少一个负节点，所述负节点与正节点的分布具有一致性，所述负节点与源节点的预设属性具有相关性。

在一些可选的实施例中，所述获取实体间关系表达的系统将每个子图的同一个批次的样本集合输入预设的机器学习模型进行训练，分别得到每个子图的样本集合中各条样本的源节点的向量表达、正节点的向量表达和每个负节点的向量表达，包括：

针对每个子图的同一批次的样本集合，将样本集合中每条样本包括的源节点、正节点、负节点及各节点的属性信息输入到机器学习模型中；

经机器学习模型的嵌入层，将样本中包括的节点的稀疏特征映射成稠密特征；

源节点的稠密性特征经过对应的一个机器学习模型网络训练得到源节点的向量表达，正节点和负节点的稠密性特征经过对应的一个机器学习模型训练得到正节点和各负节点的向量表达。

在一些可选的实施例中，所述获取实体间关系表达的系统基于得到的各节点的向量表达使用预设的损失函数对机器学习模型中的参数进行优化，包括：

根据训练得到的各条样本的源节点的向量表达、正节点的向量表达和每个负节点的向量表达，计算源节点和正节点、各负节点的余弦距离；

预设的损失函数基于所述余弦距离对机器学习模型中的参数进行优化。

在一些可选的实施例中，所述获取实体间关系表达的系统通过预设的聚合模型，对不同子图中的相同源节点的向量表达进行聚合学习，得到所述相同源节点的一个向量表达，包括：

根据每个子图训练得到的源节点的每个向量表达和对应的学习权重因子，确定所述源节点的从每个子图中训练得到的向量表达的权重；

使用确定出来的权重对所述源节点从每个子图中训练得到的向量表达进行加权求和，得到所述源节点聚合后的一个向量表达。

本发明实施例还提供一种获取实体间关系表达的方法，包括：

将预先构建的异构图按照边的类型，拆分为子图，一个子图包括一种类型的边；

在一些可选的实施例中，针对每个子图进行采样，得到每个子图的样本集合，包括：

在一些可选的实施例中，用预设的滑动窗口，从所述节点序列中，得到每个子图对应的正样本集合，具体包括：

针对序列中的每个节点，按照预设的滑动窗口的大小，获取当该节点位于所述滑动窗口中时位于所述滑动窗口范围内的其他节点，将获取的其他节点分别与该节点组成样本对，得到所述正样本集合。

在一些可选的实施例中，从正节点中进行负节点的采样，为每一对源节点和正节点得到对应的至少一个负节点，所述负节点与正节点的分布是一致的，所述负节点与源节点的具有相关性。

在一些可选的实施例中，从正节点中进行负节点的采样，为每一对源节点和正节点得到对应的至少一个负节点，所述负节点与正节点的分布是一致的，所述负节点与源节点的具有相关性，包括：

对样本集合中的正节点对进行统计，得到各正节点所在类目和同一个正节点在不同正样本中出现的次数作为所述正节点的分布权重；

根据源节点的类目信息，从统计出的正节点中选取该类目下的正节点，根据所述分布权重确定获取的正节点作为负节点的概率，根据所述概率选择与源节点相关性符合要求的负节点。

在一些可选的实施例中，将每个子图的同一个批次的样本集合输入预设的机器学习模型进行训练，分别得到每个子图的样本集合中各条样本的源节点的向量表达、正节点的向量表达和每个负节点的向量表达，包括：

在一些可选的实施例中，基于得到的各节点的向量表达使用预设的损失函数对机器学习模型中的参数进行优化，包括：

在一些可选的实施例中，预设的聚合模型，对不同子图中的相同源节点的向量表达进行聚合学习，得到所述相同源节点的一个向量表达，包括：

本发明实施例还提供一种获取实体间关系表达的系统，包括：注册装置、存储装置、计算装置和参数交换装置；

存储装置，用于存储异构图的数据；

计算装置，用于通过注册装置从存储装置获取异构图的数据，采用上述的获取实体间关系表达的方法对异构图进行学习，得到异构图中每个节点的低维向量表达。

参数交换装置，用于与计算装置进行参数交互。

本发明实施例提供的上述技术方案的有益效果至少包括：

基于异构图拆分后的子图，对子图进行采样，并对采样得到的样本集合进行训练学习，融合学习到的各子图的学习结果，得到对异构图的学习结果，从而实现对复杂的异构图的学习；通过对异构图拆解的子图进行学习，有效的避免了训练参数爆炸性增长的问题，同时也有效地避免了邻居数随层数指数级增长的问题，大大减少了异构图学习过程中的数据处理量，使其计算量级降低到处理设备能够支撑的量级范围内，降低了对异构图学习设备的硬件要求，大大提高异构图学习的速度和效率。该异构图学习方法用于广告搜索场景中，挖掘广告搜索场景中的实体关系实现使用大量信息准确实现广告召回，提高广告召回的质量，以全体广告作为候选，保证在任意流量下都能够召回足够多的广告，通过向量方式，实现广告改写和广告筛选可以一步完成。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。在附图中：

图1为本发明实施例一中获取实体间关系表达的方法的流程图；

图2为本发明实施例二中获取实体间关系表达的方法的流程图；

图3为本发明实施例二中广告场景下的异构图示例；

图4为本发明实施例二中根据异构图构建的子图示例一；

图5为本发明实施例二中根据异构图构建的子图示例二；

图6为本发明实施例二中根据异构图构建的子图示例三；

图7为本发明实施例二中子图的模型网络示意图；

图8为本发明实施例二中多个子图的学习结果融合结果示例图；

图9为本发明实施例中获取实体间关系表达的系统的结构示意图；

图10为本发明实施例中广告召回系统的一种实现结构示例图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

为了解决现有技术中存在的异构图学习时，训练参数指数级增长，邻居采样也随层数增加而指数级增长，从而导致设备无法支持如此大数量级的运算的问题，本发明实施例提供一种的方法，能够很好地解决上述问题，有效地减少异构图学习过程中的数据处获取实体间关系表达理量，处理速度快、效率高。

图学习在现实领域中挖掘各种数据关系时有着广泛的应用，例如在搜索广告平台中用于挖掘搜索请求和广告之间的相关性以及点击通过率(Click-Through-Rate，CTR)等。即本发明方法可以用于广告搜索领域，用于搜索广告的召回。搜索广告是指广告主根据自己的产品或服务的内容、特点等，确定相关的关键词，撰写广告内容并自主定价投放在关键词对应的搜索结果中的广告。搜索广告召回是指通过某种算法或者模型从海量广告集合中挑选最相关的广告。

现有的搜索广告召回技术或是基于查询词与广告主竞价词(bidword)匹配程度、广告主买词价格以及用户对广告的统计偏好筛选“高质量”的广告；或是加入每个用户的历史行为数据，对广告进行个性化匹配召回。

发明人在对现有技术研究中发现，现有的召回技术或是只偏重广告与查询词的匹配程度，亦或只偏重提高召回广告收益，缺少一个集成模型将二者兼顾。由于广告召回的质量高低，对搜索广告收益及用户体验至关重要，因此，发明者提供了一种图学习技术，在广告召回过程中用来获取实体间关系表达，能得到更多高质量、用户更加关心的广告召回集合。

下面通过具体的实施例来详细描述获取实体间关系表达方法和系统，以及用于广告召回系统的具体实现方式。

实施例一

本发明实施例一提供一种获取实体间关系表达的方法，其流程如图1所示，包括如下步骤：

步骤S101：将预先构建的异构图按照边的类型，拆分为子图，一个子图包括一种类型的边。

由于异构图的复杂性和数据的庞大性，导致处理的过程中数据量呈指数级增长，因此，对异构图进行处理时，将其拆分为子图，对子图进行处理，在进行拆分时，按照边的类型来进行拆分，根据一种边的类型对应一个子图，子图中的节点的类型可以不同。优选的，一个子图中包括异构图中的所有节点和一种类型的边。

步骤S102：针对每个子图进行采样，得到每个子图的样本集合，样本集合的每条样本中包括一个源节点、一个正节点和至少一个负节点；

针对每个子图，以选择节点为起点分别进行随机游走，得到每个子图对应的至少一个节点序列；用预设的滑动窗口，从节点序列中，得到每个子图对应的正样本集合，正样本集合中的一条正样本包括一个源节点与一个正节点；

基于每个子图对应的正样本集合进行一次负节点的采样，得到每个子图对应的样本集合，样本集合中的一条样本包括一个源节点、一个正节点和至少一个负节点，负节点与正节点的分布具有一致性，负节点与源节点的预设属性具有相关性。

随机游走的算法可以采用deepwalk、node2vec等学习算法。

用预设的滑动窗口，从节点序列中，得到每个子图对应的正样本集合，具体包括：针对序列中的每个节点，按照预设的滑动窗口的大小，获取当该节点位于所述滑动窗口中时位于所述滑动窗口范围内的其他节点，将获取的其他节点分别与该节点组成样本对，得到正样本集合。

进行负节点采样时，从正节点中进行负节点的采样，为每一对源节点和正节点得到对应的至少一个负节点，所述负节点与正节点的分布是一致的，所述负节点与源节点的具有相关性。具体的，对样本集合中的正节点对进行统计，得到各正节点所在类目和同一个正节点在不同正样本中出现的次数作为所述正节点的分布权重；根据源节点的类目信息，从统计出的正节点中选取该类目下的正节点，根据所述分布权重确定获取的正节点作为负节点的概率，根据概率选择与源节点相关性符合要求的负节点。

针对每个子图中的每个节点，设定以该节点为起点时的游走次数，针对每个节点进行相应次数的游走，得到以起点节点为源节点的一系列的节点序列，根据得到的节点序列提取正样本对，得到正样本集合。得到正样本集合后，根据负节点的采样原则进行负节点采样，为每个正样本对采样至少一个负节点，得到包括一个源节点、一个正节点、至少一个负节点的一条样本。

步骤S103：将每个子图的同一个批次的样本集合输入预设的机器学习模型进行训练，分别得到每个子图的样本集合中各条样本的源节点的向量表达、正节点的向量表达和每个负节点的向量表达。

步骤S104：基于得到的各节点的向量表达使用预设的损失函数对机器学习模型中的参数进行优化。

根据训练得到的各条样本的源节点的向量表达、正节点的向量表达和每个负节点的向量表达，计算源节点和正节点、各负节点的余弦距离；预设的损失函数基于余弦距离对机器学习模型中的参数进行优化。

针对子图中每条样本的学习结果，计算该样本中源节点源节点的向量表达与样本中包括的正节点向量表达的余弦距离、该源节点与各负节点的向量表达进行余弦距离，将计算得到的各个余弦距离输入损失函数中，得到优化向量。

该步骤中，根据每个子图对应的机器学习模型对一个批次的样本数据的学习结果优化该子图对应的机器学习模型的参数。使用参数优化后的机器学习模型用于对下一批次的样本的学习，从而使得上一批次的样本学习的结果能够影响下一批次的样本学习。

步骤S105：预设的聚合模型，对不同子图中的相同源节点的向量表达进行聚合学习，得到相同源节点的一个向量表达。

该步骤中实现对不同子图中相同的源节点的向量表达进行聚合。根据每个子图训练得到的源节点的每个向量表达和对应的学习权重因子，确定所述源节点的从每个子图中训练得到的向量表达的权重；使用确定出来的权重对所述源节点从每个子图中训练得到的向量表达进行加权求和，得到所述源节点聚合后的一个向量表达。

步骤S106：基于相同源节点的一个向量表达和该源节点在各子图的样本中包括的正节点的向量表达和每个负节点的向量表达，使用预设的损失函数对聚合模型的参数优化。

根据训练得到的各条样本的源节点的向量表达、正节点的向量表达和每个负节点的向量表达，计算源节点和正节点、各负节点的余弦距离；预设的损失函数基于所述余弦距离对机器学习模型中的参数进行优化。

对不同子图中相同的源节点的向量表达进行聚合，针对每个源节点，从每个子图的样本集合中获取包含该源节点的样本，针对获取的每条样本，分别计算该源节点的向量表达与样本中包括的正节点向量表达的余弦距离、该源节点与各负节点的向量表达进行余弦距离，将计算得到的各个余弦距离输入损失函数中，得到优化向量。

该步骤中，根据不同子图对应的机器学习模型对一个批次的样本数据的学习结果优化其参数。使用参数优化后的机器学习模型用于对下一批次的样本的学习，从而使得上一批次的样本学习的结果能够影响下一批次的样本学习。

步骤S107：重复上述流程对所有批次的样本集合进行预设次数的训练，得到异构图中每个节点的一个低维向量表达，异构图中的一个节点对应样本数据中的一个实体。

对异构图生成的不同批次的样本集合进行预设次数的训练，并用后一次的训练结果更新前一次的训练结果，得到异构图中各节点的最终的一个低维向量表达。

本实施例的上述方法中，基于异构图拆分后的子图，对子图进行采样，并对采样得到的样本集合进行训练学习，融合学习到的各子图的学习结果，得到对异构图的学习结果，从而实现对复杂的异构图的学习；通过对异构图拆解的子图进行学习，有效的避免了训练参数爆炸性增长的问题，同时也有效地避免了邻居数随层数指数级增长的问题，大大减少了异构图学习过程中的数据处理量，使其计算量级降低到处理设备能够支撑的量级范围内，降低了对异构图学习设备的硬件要求，大大提高异构图学习的速度和效率。该异构图学习方法用于广告搜索场景中，挖掘广告搜索场景中的实体关系实现使用大量信息准确实现广告召回，提高广告召回的质量，以全体广告作为候选，保证在任意流量下都能够召回足够多的广告，通过向量方式，实现广告改写和广告筛选可以一步完成。

实施例二

本发明实施例二提供获取实体间关系表达的方法的一种具体实现过程，以搜索广告场景下实现广告召回的过程为例进行说明，该方法流程如图2所示，包括如下步骤：

步骤S201：构造异构图。

以广告搜索场景为例，根据用户日志以及相关商品、广告数据，为搜索召回场景构造了一张大规模异构图，作为广告搜索场景的丰富的搜索交互图，以构造的异构图作为后续的图数据输入。

构建的异构图的一个示例参照图3所示，该异构图中包括Query1、Query2、Item1、Item2、Item3、Item4、Ad1等若干接点和连接不同节点的边，异构图中包括Query、Item、Ad等多种类型的节点，来表示搜索场景中的不同实体，异构图中包括了多种类型的边，来表示实体之间的多种关系。如query和item之间的点击关系，item是ad的前置点击关系等。其中，节点类型及其具体含义可以如下表1所示，边的类型及其含义可以如下表2所示。

表1

其中，使用Query节点和Item节点作为用户意图节点，刻画用户的个性化搜索意图，Ad节点为广告主投放的广告。

表2

其中：

用户行为边表示用户的历史行为偏好，例如，可以在Query节点和Item节点之间或在Query节点和Ad节点之间建“点击边(click边)并使用点击次数作为边权重，表示Query和Item/Ad之间的点击；又例如，可以建立共同点击边(session边)，表示同session(时段)同Query共同点击的Item或Ad；又例如，还可以建立协同过滤边(cf边)表示不同节点之间的协同过滤关系。在广告搜索场景下，用户行为边刻画的是一种动态变化的关系。热门的节点(例如高频Query的节点)会有更多的展示和点击，进而拥有更稠密的边关系和更大的边权重，而冷门节点和新节点，则会拥有相对稀疏的变关系和较小的边权重，因此用户行为边能够更好地刻画热门节点。

内容相似边(semantic边)，用来客户节点之间的相似度，例如：在Item节点之间建立边，使用其标题的文本相似度作为变得权重。内容相似边反映了节点之间的一种静态关系，更加稳定，也可以很好的刻画冷门节点和新节点之间的关系。

属性相似边(domain边)，表示节点之间的领域的重叠成都，例如品牌、种类等领域。

步骤S202：将预先构建的异构图按照边的类型，拆分为子图，一个子图包括一种类型的边；

异构图中的每种边都可以作为节点和节点之间的一种关系。例如，item和ad之间的标题文本相似边刻画了两者之间的语义相似度；点击边代表了他们在同一个query下被同一个用户点击过。一方面，每种边可以单独的刻画节点之间的部分关系；另一方面，多种不同的边互补可以更加刻画更加丰富和鲁棒的关系。因此，针对异构图本发明提出了基于子图的解法，每个子图中包括一种类型的边。

针对异构图，给每种类型边分别构造不同的子图。每个子图只包含一种边，可以包含全部或部分的节点。在搜索广告场景中，可以根据不同的边来构造三种不同的子图。具体来说，可以根据用户的搜索和点击行为构造用户行为子图；可以根据query、item标题以及广告标题之间的文本相似度构造文本相似子图；可以根据query、item以及ad的点击共现关系构造共现关系子图。构造的子图如图4、图5、图6所示。

图4所示的用户行为子图中，包括用户行为边和所有的节点，图5所示的文本相似子图中包括内容相似边和所有的节点，图6所示的共同关系子图中包括属性相似边和所有的节点。

步骤S203：针对每个子图进行采样，得到每个子图的样本集合，样本集合的每条样本中包括一个源节点、一个正节点和至少一个负节点。

针对每个子图，利用Node2Vec进行随机游走产生正样本对，以及遵循负采样的两个原则来产生负节点，得到大量的样本：(src_node，pos_node，{neg_node}K，edge_type)，其中src_node表示源节点，pos_node表示正节点，{neg_node}K表示负采样得到的K个负节点，edge_type表示这个子图的边类型。即每条样本包含一个源节点src_node，一个正节点pos_node，K个负节点neg_node。

针对每个子图进行采样的过程可以分为两个环节，正采样环节和负采样环节。其中：

正采样环节通过游走方式产生正样本。可以采用Node2Vec的游走方式。在异构图上进行游走生成正样本。Node2vec Walk是一种介于DFS和BFS之间的搜索方式，已经被证明在网络嵌入(Network Embedding)上有着很好的效果。给定一个异构图G＝(V_P,E_Q)，从每个节点v∈V_P开始游走。对于每种边E_q，使用Node2vec Walk进行π_q次游走，每次游走得到长度为τ的序列：v₁-＞v₂-＞...-＞v_τ，对于每个序列，通过滑窗得到正样本对：

(src_node，pos_node，edge_type)

如图4、图5、图6所示的子图示例，图中包含三种节点，query为用户的查询词，item为商品，ad为搜索广告。假如以query1为起点，沿着一定类型的边，通过Node2Vec的方式进行游走，可以得到一个结点序列，比如：query1->ad1->query2->item1->item2。从这个序列中，通过滑窗可得到一系列的正样本对(src_node，pos_node)。如果设置滑窗大小为3，当节点query1位于滑窗中时，因为滑窗的大小为3，可能出现在滑窗的节点有ad1和query2，因此可以得到样本对(query1，ad1)、(query1，query2)，当节点ad1位于滑窗中时，因为滑窗的大小为3，可能出现在滑窗的节点有query1、query2和item1，因此可以得到样本对(ad1，query1)、(ad1，query2)、(ad1，item1)，以此类推，根据该节点序列可以得到如下的正样本对：(query1，ad1)、(query1，query2)、(ad1，query1)、(ad1，query2)、(ad1，item1)、(query2，ad1)、(query2，query1)、(query2，item1)、(query2，item2)、(item1，query2)、(item1，ad1)、(item1，item2)、(item2，item1)、(item2，query2)。

对于每一个节点，都会设置一个游走次数，即以此节点为起点的游走次数。针对每个节点每次游走之后得到的序列，都会根据上述的步骤得到一系列的正样本对。

负采样环节根据两个原则进行负采样。对于每个正样本对(positive pair),使用负采样生成K个负节点：(src_node，pos_node，{neg_node}K，edge_type)。

在广告搜索场景，每个节点都有丰富的属性(Side Information)来帮助描述节点。例如：item的价格、品牌等。和节点ID相比，这些属性具有很好的泛化能力，能够帮助提高模型的稳定性。由于广告召回场景对向量的距离敏感，提出了负采样的如下两个原则：

一致性原则：负采样得到的负节点需要和正节点有着一致的分布。如果正负节点有着不一样的分布，模型就会“偷懒”地倾向记住正负节点是什么，而不是去学习节点之间的关系。因此，我们使用Alias Method进行带权重地负采样，保证正负节点分布一致。

相关性原则：负节点和源节点之间应该具有弱相关性。如果负节点和源节点完全无关，则会导致模型过于轻易地分别出正负样本；而在线上使用时，模型则不能很好地分别出最好的广告和次好的广告。因此，我们使用类目信息，来保证负样本和源节点之间有弱相关性。

针对全图中的每个节点进行游走之后，会得到全部的正样本对(src_node，pos_node)。接下来会统计所有的正节点pos_node的分布，即得到每一个正节点pos_node的频次。根据分布一致性原则，负采样的时候会根据pos_node的分布进行采样，也就是按pos_node的权重进行采样。同时，根据相关性原则，会保证源节点src_node和负节点有弱相关性，在电商搜索广告的场景中，可以使用类目信息来保证这种弱相关性。例如，统计得到正节点的类目以及频次如下：(query1，cate1，100)、(query2，cate2，200)、(item1，cate1，50)、(item2，cate2，50)、(item3，cate1，100)、(item4，cate1，150)、(ad1，cate1，150)。

那么，对于正样本对<ad1，item1>，ad1的类目是cate1，根据相关性原则，所以在类目为cate1的item节点中进行采样，满足这种条件的有(item1，cate1，50)，(item3，cate1，100)，(item4，cate1，150)。由于正节点不能和负节点一样，所以排除(item1，cate1，50)，从(item3，cate1，100)，(item4，cate1，150)中进行负采样。再根据分布一致性原则，将item3作为负节点的概率为100/(100+150)＝0.4，将item4作为负节点的概率为150/(100+150)＝0.6。

上述按源节点的类目进行选择，体现了一致性原则，根据权重计算概率体现了相关性原则。

步骤S204：将每个子图的同一个批次的样本集合输入预设的机器学习模型进行训练。

对样本进行学习时，使用子图对应的模型网络，将样本以及样本的属性输入模型网络中进行学习。

一个子图的机器学习模型的示例如图7所示，图7中最下面的虚线框中是一个子图的示例，对子图进行游走(walk)得到源节点(src)和正节点(pos)，并通过负节点采样得到负节点(neg₁、neg₂、……、neg_k)，得到的每个节点的数据包括节点标识(node id)和属性信息(attr₁、attr₂、……、attr_n)。将源节点、正节点、负节点的相关数据输入到一层共享的嵌入层(shared layer)进行训练学习，将节点的稀疏特征映射成稠密特征。在该层中每个节点经过对应的EMB模型进行学习。

步骤S205：分别得到每个子图的样本集合中各条样本的源节点的向量表达、正节点的向量表达和每个负节点的向量表达。

得到各节点的筹码特征后，源节点的稠密特征经过一个神经网络

得到一个源节点向量(X_src)，正节点和K个负节点经过另外一个神经网络

分别得到正节点向量(X_pos)和各负节点向量

对每条样本进行学习，得到每条样本的源节点的向量表达、正节点的向量表达和每个负节点的向量表达。

步骤S206：基于得到的各节点的向量表达使用预设的损失函数对机器学习模型中的参数进行优化。

根据样本的源节点的向量表达(X_src)、正节点的向量表达(X_pos)和每个负节点的向量表达

分别计算源节点的向量表达(X_src)与正节点的向量表达(X_pos)、各负节点的向量表达

的余弦距离，根据计算得到的各余弦距离得到对该子图的机器学习模型的优化参数表达(O_rel)，得到优化参数原则是通过分别计算源节点和正节点以及负节点的余弦距离来使得源节点和正节点的距离尽可能的近。

上述步骤S204-步骤S206，通过如图7所示的子图的模型网络实现对子图的样本集合的学习：

1)通过游走和负采样得到训练样本(src_node，pos_node，{neg_node}K，edge_type)，与图存储引擎交互取得节点的属性。节点属性包括ID特征以及其他属性如title文本信息，店铺信息，品牌信息等。(node_id，attr1，attr2，attrn…)

2)源节点、正节点、负节点进入一个共享层(shared layer)。这一层是EMB(Embedding查找层)，目的是将稀疏的ID特征映射为稠密特征。

3)经过EMB层之后，源节点单独经过一个DNN网络，称之为

正节点和负节点共享一个DNN网络，称之为

每个节点经过DNN网络均会得到一个向量表达，将其表示为x_src、x_pos、x_neg1、……等，

4)计算源节点向量表达与正节点和负节点的余弦距离，使得与正节点的距离尽可能的近。这个优化目标就是对应的O_rel。

上述步骤S204-步骤S206，基于相关性(Relevance)目标构建子图的机器学习模型：

给定异构图G＝(V_P,E_Q)，包含了P种节点和Q中边。对于第p种类型的源节点v∈V_P和第q种类型的边e∈E_q，学习出一个DNN网络

其中，FC表示全连接层，w和b均为需要学习的全连接权重和偏置，ELU为指数线性单元激活函数，

为学习得到的向量表达。

为了保证同一个节点通过不同类型的边的向量表达(Embedding)得到的向量能够映射到同一低维空间，让所有目标节点(即正节点和负节点)在所有类型的边关系中，共享相同的DNN网络

为学习得到的向量表达。

因此，同时协同地学习P*Q+P个DNN网络。其中P*Q个网络用来源节点Embedding，P个网络用来Embedding目标节点。

给定第q种类型的边，v∈V_P表示源节点，v'∈V_P'表示正节点，

表示负节点。使用Cosine距离刻画节点之间的相似性，并使用Softmax交叉熵Loss作为Relevance目标O_rel：

其中，v′表示正节点，v″表示负节点。

步骤S207：预设的聚合模型，对不同子图中的相同源节点的向量表达进行聚合学习，得到相同源节点的一个向量表达。

融合多个子图的学习结果的原理示意如图8所示，可以通过注意力机制融合多个子图的结果，相同的节点在不同的子图中会得到不同的向量表达，接着使用注意力机制将不同子图的向量表达融合成一个统一的表达。

参见图8所示的，将不同子图中得到相同节点的向量表达

等，进行融合，通过注意力机制融合得到融合后的该节点的向量表达

其中，

为v节点在边类型为q¹的子图得到的向量表达，

和

分别为v节点在边类型为q²和Q的子图得到的向量表达。

对异构图中每个节点都进行融合处理后，得到各节点作为源节点时的融合后的向量表达。

步骤S208：基于相同源节点的一个向量表达和该源节点在各子图的样本中包括的正节点的向量表达和每个负节点的向量表达，使用预设的损失函数对聚合模型的参数进行优化。

根据源节点所在的样本，将融合之后的源节点向量表达

分别与其所在样本中的正节点的向量表达(X_pos)、各负节点的向量表达

进行余弦距离计算，根据计算得到的各余弦距离得到对该聚合模型的优化参数表达(O_att)，这个优化目标就是对应的O_att。得到优化参数原则是通过分别计算源节点和正节点以及负节点的余弦距离来使得源节点和正节点的距离尽可能的近。

步骤S208：重复上述流程对所有批次的样本集合进行预设次数的训练，得到异构图中每个节点的一个低维向量表达，异构图中的一个节点对应样本数据中的一个实体。

对当前批次的样本集合进行训练学习得到的各节点的向量表达时，会使用上一批次的结果更新后的系统参数进行训练，会替代之前批次的样本集合的学习结果，这样使得之前的学习能够影响后边的学习且以最后的学习结果为准，使得学习结果能体现所有样本的特征。

上述步骤S207-步骤S208，基于注意力(Attention)目标构建聚合模型：

对于一个源节点v∈V_P，可以通过每种类型的边得到Q个低维向量

通过Attention机制，自动学习每个向量的权重，把Q个向量合并成一个向量

其中λ^pq(v)表示第p种类型的节点v在第q种类型边上的权重，z_pq是注意力机制所需要学习的参数，是一个向量，表示第p种节点对应第q种边的聚合权重。如果z_pq和

的内积较大，则表明v认为第q种边是有信息的。此外，如果两个节点有着类似的向量，表明它们在图中关系亲密，会有着相似的权重分布。

同样使用Cosine距离和Softmax交叉熵Loss作为Attention目标O_att：

其中，v′表示正节点，v″表示负节点。

基于同一发明构思，本发明实施例还提供一种获取实体间关系表达的系统装置，该系统可以设置在网络中的网络设备、云端的云端设备或者架构的服务器设备、用户端设备等设备中。该系统的结构如图9所示，包括：注册装置903、存储装置901、计算装置902和参数交换装置904。

存储装置901，用于存储异构图的数据；

计算装置902，用于通过注册装置903从存储装置获取异构图的数据，采用上述的获取实体间关系表达的方法对异构图进行学习，得到异构图中每个节点的低维向量表达。

参数交换装置904，用于与计算装置902进行参数交互。

计算装置902通过注册装置903从存储装置获取各节点和边的数据，包括：

上述存储装置901中存储异构图中各节点以及边的数据。

计算装置902向注册装置903发送数据查询请求，数据查询请求中包括要查询的节点和边的信息；接收注册装置903返回的查询结果，查询结果中包括存储节点和边的数据的存储装置信息；根据存储装置信息向相应的存储装置901获取各节点和边的数据。

基于同一发明构思，本发明实施例还提供一一种广告召回系统，参照图10所示，包括获取实体间关系表达的系统101和广告召回匹配系统102；

获取实体间关系表达的系统101，用于将预先构建的异构图按照边的类型，拆分为子图，一个子图包括一种类型的边；所述异构图中的所述节点类型包括：广告、商品、查询词中的至少一种，所述边的类型包括点击边、共同点击边、协同过滤边、内容语义相似边和属性相似边中的至少一种；

所述广告召回匹配系统102，用于使用所述获取实体间关系表达的系统得到的查询词节点、商品节点和搜索广告节点的低维向量表达，确定查询词节点、商品节点和搜索广告节点之间的匹配程度，根据所述匹配程度选择与商品、查询词匹配程度符合设定要求的搜索广告。

获取实体间关系表达的系统101获取实体间关系表达的系统针对每个子图进行采样，得到每个子图的样本集合，包括：

获取实体间关系表达的系统101获取实体间关系表达的系统将每个子图的同一个批次的样本集合输入预设的机器学习模型进行训练，分别得到每个子图的样本集合中各条样本的源节点的向量表达、正节点的向量表达和每个负节点的向量表达，包括：

获取实体间关系表达的系统101获取实体间关系表达的系统基于得到的各节点的向量表达使用预设的损失函数对机器学习模型中的参数进行优化，包括：

获取实体间关系表达的系统101获取实体间关系表达的系统通过预设的聚合模型，对不同子图中的相同源节点的向量表达进行聚合学习，得到所述相同源节点的一个向量表达，包括：

可选的，广告召回匹配系统确定查询词节点、商品节点和搜索广告节点之间的匹配程度，包括：

使用注意力机制对查询词节点的低维向量表达和同查询词下的用户前置点击商品节点的低维向量表达进行汇聚，得到虚拟请求节点的低维向量表达；所述虚拟请求节点为通过查询词节点和通查询词下的用户前置点击的商品节点构建出的虚拟节点；

根据虚拟请求节点的低维向量表达与搜索广告节点的低维向量表达，确定查询词节点、商品节点和搜索广告节点之间的匹配程度。

可选的，广告召回匹配系统根据所述匹配程度选择与商品、查询词匹配程度符合设定要求的搜索广告，包括：

根据所述虚拟请求节点的低维融合信息向量与搜索广告节点的低维融合信息向量的余弦距离，选择距离符合设定要求的搜索广告。

本发明实施例还提供一种计算机可读存储介质，其上存储有计算机指令，其特征在于，该指令被处理器执行时实现上述的获取实体间关系表达的方法。

本发明实施例还提供一种异构图学习设备，包括：存储器，处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述的获取实体间关系表达的方法。

关于上述实施例中的系统，其中各个装置和模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

除非另外具体陈述，术语比如处理、计算、运算、确定、显示等等可以指一个或更多个处理或者计算系统、或类似设备的动作和/或过程，所述动作和/或过程将表示为处理系统的寄存器或存储器内的物理(如电子)量的数据操作和转换成为类似地表示为处理系统的存储器、寄存器或者其他此类信息存储、发射或者显示设备内的物理量的其他数据。信息和信号可以使用多种不同的技术和方法中的任何一种来表示。例如，在贯穿上面的描述中提及的数据、指令、命令、信息、信号、比特、符号和码片可以用电压、电流、电磁波、磁场或粒子、光场或粒子或者其任意组合来表示。

应该明白，公开的过程中的步骤的特定顺序或层次是示例性方法的实例。基于设计偏好，应该理解，过程中的步骤的特定顺序或层次可以在不脱离本公开的保护范围的情况下得到重新安排。所附的方法权利要求以示例性的顺序给出了各种步骤的要素，并且不是要限于所述的特定顺序或层次。

在上述的详细描述中，各种特征一起组合在单个的实施方案中，以简化本公开。不应该将这种公开方法解释为反映了这样的意图，即，所要求保护的主题的实施方案需要清楚地在每个权利要求中所陈述的特征更多的特征。相反，如所附的权利要求书所反映的那样，本发明处于比所公开的单个实施方案的全部特征少的状态。因此，所附的权利要求书特此清楚地被并入详细描述中，其中每项权利要求独自作为本发明单独的优选实施方案。

本领域技术人员还应当理解，结合本文的实施例描述的各种说明性的逻辑框、模块、电路和算法步骤均可以实现成电子硬件、计算机软件或其组合。为了清楚地说明硬件和软件之间的可交换性，上面对各种说明性的部件、框、模块、电路和步骤均围绕其功能进行了一般地描述。至于这种功能是实现成硬件还是实现成软件，取决于特定的应用和对整个系统所施加的设计约束条件。熟练的技术人员可以针对每个特定应用，以变通的方式实现所描述的功能，但是，这种实现决策不应解释为背离本公开的保护范围。

结合本文的实施例所描述的方法或者算法的步骤可直接体现为硬件、由处理器执行的软件模块或其组合。软件模块可以位于RAM存储器、闪存、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、移动磁盘、CD-ROM或者本领域熟知的任何其它形式的存储介质中。一种示例性的存储介质连接至处理器，从而使处理器能够从该存储介质读取信息，且可向该存储介质写入信息。当然，存储介质也可以是处理器的组成部分。处理器和存储介质可以位于ASIC中。该ASIC可以位于用户终端中。当然，处理器和存储介质也可以作为分立组件存在于用户终端中。

对于软件实现，本申请中描述的技术可用执行本申请所述功能的模块(例如，过程、函数等)来实现。这些软件代码可以存储在存储器单元并由处理器执行。存储器单元可以实现在处理器内，也可以实现在处理器外，在后一种情况下，它经由各种手段以通信方式耦合到处理器，这些都是本领域中所公知的。

上文的描述包括一个或多个实施例的举例。当然，为了描述上述实施例而描述部件或方法的所有可能的结合是不可能的，但是本领域普通技术人员应该认识到，各个实施例可以做进一步的组合和排列。因此，本文中描述的实施例旨在涵盖落入所附权利要求书的保护范围内的所有这样的改变、修改和变型。此外，就说明书或权利要求书中使用的术语“包含”，该词的涵盖方式类似于术语“包括”，就如同“包括，”在权利要求中用作衔接词所解释的那样。此外，使用在权利要求书的说明书中的任何一个术语“或者”是要表示“非排它性的或者”。

Claims

1.一种广告召回系统，其特征在于，包括获取实体间关系表达的系统和广告召回匹配系统；

所述获取实体间关系表达的系统，用于将预先构建的异构图按照边的类型，拆分为子图，一个子图包括一种类型的边；所述异构图中的节点类型包括：广告、商品、查询词中的至少一种，所述边的类型包括点击边、共同点击边、协同过滤边、内容语义相似边和属性相似边中的至少一种；

重复上述流程对所有批次的样本集合进行预设次数的训练，得到所述异构图中每个节点的一个低维向量表达，异构图中的一个节点对应样本数据中的一个实体；

2.如权利要求1所述的系统，其特征在于，所述获取实体间关系表达的系统针对每个子图进行采样，得到每个子图的样本集合，包括：

3.如权利要求1所述的系统，其特征在于，所述获取实体间关系表达的系统将每个子图的同一个批次的样本集合输入预设的机器学习模型进行训练，分别得到每个子图的样本集合中各条样本的源节点的向量表达、正节点的向量表达和每个负节点的向量表达，包括：

4.如权利要求1所述的系统，其特征在于，所述获取实体间关系表达的系统基于得到的各节点的向量表达使用预设的损失函数对机器学习模型中的参数进行优化，包括：

5.如权利要求1所述的系统，其特征在于，所述获取实体间关系表达的系统通过预设的聚合模型，对不同子图中的相同源节点的向量表达进行聚合学习，得到所述相同源节点的一个向量表达，包括：

6.如权利要求1所述的系统，其特征在于，所述获取实体间关系表达的系统基于得到的各节点的向量表达使用预设的损失函数对机器学习模型中的参数进行优化，包括：

7.一种获取实体间关系表达的方法，其特征在于，用于广告召回系统中，该方法包括：

获取实体间关系表达的系统将预先构建的异构图按照边的类型，拆分为子图，一个子图包括一种类型的边；所述异构图中的节点类型包括：广告、商品、查询词中的至少一种，所述边的类型包括点击边、共同点击边、协同过滤边、内容语义相似边和属性相似边中的至少一种；

8.如权利要求7所述的方法，其特征在于，针对每个子图进行采样，得到每个子图的样本集合，包括：

9.如权利要求8所述的方法，其特征在于，用预设的滑动窗口，从所述节点序列中，得到每个子图对应的正样本集合，具体包括：

10.如权利要求8所述的方法，其特征在于，从正节点中进行负节点的采样，为每一对源节点和正节点得到对应的至少一个负节点，所述负节点与正节点的分布是一致的，所述负节点与源节点的具有相关性。

11.如权利要求10所述的方法，其特征在于，从正节点中进行负节点的采样，为每一对源节点和正节点得到对应的至少一个负节点，所述负节点与正节点的分布是一致的，所述负节点与源节点的具有相关性，包括：

12.如权利要求7所述的方法，其特征在于，将每个子图的同一个批次的样本集合输入预设的机器学习模型进行训练，分别得到每个子图的样本集合中各条样本的源节点的向量表达、正节点的向量表达和每个负节点的向量表达，包括：

13.如权利要求7所述的方法，其特征在于，基于得到的各节点的向量表达使用预设的损失函数对机器学习模型中的参数进行优化，包括：

14.如权利要求7所述的方法，其特征在于，预设的聚合模型，对不同子图中的相同源节点的向量表达进行聚合学习，得到所述相同源节点的一个向量表达，包括：

15.如权利要求7所述的方法，其特征在于，基于得到的各节点的向量表达使用预设的损失函数对机器学习模型中的参数进行优化，包括：

16.一种获取实体间关系表达的系统，其特征在于，包括：注册装置、存储装置、计算装置和参数交换装置；

存储装置，用于存储异构图的数据；

计算装置，用于通过注册装置从存储装置获取异构图的数据，采用如权利要求7-15任一所述的获取实体间关系表达的方法对异构图进行学习，得到异构图中每个节点的低维向量表达；

参数交换装置，用于与计算装置进行参数交互。