CN112685603A

CN112685603A - 顶级相似性表示的有效检索

Info

Publication number: CN112685603A
Application number: CN202011119294.1A
Authority: CN
Inventors: 谭树龙; 周至心; 徐兆卓; 李平
Original assignee: Baidu USA LLC
Current assignee: Baidu USA LLC
Priority date: 2019-10-18
Filing date: 2020-10-19
Publication date: 2021-04-20

Abstract

对由表示学习产生的相关向量的检索会严重影响自然语言处理(NLP)任务的效率。在本文中提出了用于经由常规非公制匹配函数‑内积来搜索向量的系统和方法。针对top‑1最大内积搜索(MIPS)构造近似内积Delaunay图(IPDG)的实施方式，将最合适潜在向量的检索转换成具有很大效率优势的图搜索问题。针对不同机器学习任务学习的数据表示的实验验证了IPDG实施方式的出色效果和效率。

Description

顶级相似性表示的有效检索

相关申请的交叉引用

本专利申请涉及于2019年10月18日提交的、题为“Efficient Retrieval of TopSimilarity Representations(顶级相似性表示的有效检索)”的第62/923,459号(案卷号：28888-2366P)共同待定和共有的美国专利申请，并要求其优先权权益，该申请将ShulongTan、Zhixin Zhou、Zhaozhuo Xu和Ping Li列为发明人，并且出于所有目的，上述专利申请通过引用以其整体并入本文。

技术领域

本公开总体涉及用于计算机学习的系统和方法，该系统和方法可提供改进的计算机性能、特征和使用。更具体地，本公开涉及用于有效检索相似性表示的系统和方法。

背景技术

在自然语言处理(NLP)和其它机器学习应用程序中，寻找诸如向量的相似对象是项重要任务。以示例的方式，考虑表示学习方法。随着诸如Word2vec的表示学习方法的普及，单词被表示为语义空间中的实值嵌入向量。因此，相似单词嵌入的检索是自然语言处理中最基本的操作之一，在针对与查询有关的文档的同义词提取、句子对齐、多义词学习以及语义搜索中具有广泛的适用性。

因此，需要的是用于有效检索相似性表示(诸如向量)的系统和方法。

公开内容

本公开的第一方面提供了一种包括一个或多个指令序列的非暂时性计算机可读介质或媒介，该指令序列在由至少一个处理器执行时，致使构造近似内积空间中的有向图的图的步骤，包括：给定数据集中的一组向量中的至少一个，其中，每个向量均表示插入节点、顶级邻域候选者的数量或图中每个节点的最大外向链接数，将图初始化并将向量作为节点插入图中；针对一组向量中的每个向量，执行以下步骤，包括：使用搜索过程以获得一组候选邻域；将针对内积的边缘选择过程应用于一组候选邻域，以获得插入节点的一组邻域；将来自插入节点的边缘添加到一组邻域中的每个邻域，一组邻域中的一个或多个邻域具有邻域；通过执行以下步骤来更新边缘，包括：针对每个邻域的邻域：将插入节点作为邻域添加到一组邻域的邻域中；将边缘选择过程应用于一组邻域的邻域；移除边缘；将与一组邻域的邻域相关联的更新边缘添加到图中；以及输出图。

本公开的第二方面提供了一种用于使用有向图执行相似性搜索的计算机实现的方法，包括：确定表示一组向量中的查询向量的查询；对图应用查询，以识别与图相关联的一组向量中的、与查询向量具有内积的向量，内积大于该向量与一组向量中的任何向量的内积；以及输出向量作为相似性表示，其中，图已通过以下步骤生成，包括：针对一组向量中的每个向量，使用搜索过程以获得一组候选邻域；将边缘选择过程应用于一组候选邻域，以获得插入节点的一组邻域；通过从图中添加边缘和移除边缘，更新图；以及输出图。

本公开的第三方面提供了一种用于构造近似有向图的图的系统，系统包括：一个或多个处理器；以及非暂时性计算机可读介质或媒介，其包括一组或多组指令，该一组或多组指令在由一个或多个处理器中的至少一个执行时，致使执行以下步骤，包括：给定一组向量，使用搜索过程获得一组候选邻域；使用边缘选择过程以从一组候选邻域中识别一组邻域，边缘选择过程包括：确定一组候选邻域中的候选邻域与其自身的内积是否大于与一组候选邻域中的每个邻域的内积；以及使用一组邻域构建图。

附图说明

将参考本公开的实施方式，它们的示例可示于附图中。这些附图旨在是说明性的而非限制性的。虽然本公开大体上在这些实施方式的上下文中描述，但应理解，本公开的范围并不旨在限于这些特定实施方式。附图中的项目可能未按比例绘制。

图1示出内积空间中Delaunay图与Voronoi单元之间的关系。

图2A描绘对用于分级可导航小世界(HNSW)和ip-NSW中的公制空间的选择方法。

图2B描绘根据本公开的实施方式的使用内积Delaunay图(IPDG)的边缘选择。

图2C描绘根据本公开的实施方式的用于构造近似内积空间中有向图的图的过程的流程图。

图2D描绘根据本公开的实施方式的针对边缘更新过程的流程图。

图2E描绘根据本公开的实施方式的针对使用有向图执行相似性搜索的过程的流程图。

图3A描绘用于内积的真实Delaunay图。

图3B描绘用于近似内积Delaunay图构造的玩具示例的结果。图305是根据本公开的IPDG实施方式构建的。

图3C是由ip-NSW构建的。

图4A至图4F描绘top-1MIPS中对于所有方法的调用与时间曲线。

图5A至图5C描绘top-1MIPS中的调用与计算曲线。

图6描绘根据本公开的实施方式的计算设备/信息处理系统的简化框图。

具体实施方式

在以下描述中，出于解释目的，阐明具体细节以便提供对本公开的理解。然而，将对本领域的技术人员显而易见的是，可在没有这些细节的情况下实践本公开。此外，本领域的技术人员将认识到，下文描述的本公开的实施方式可以以各种方式(例如过程、装置、系统、设备或方法)在有形的计算机可读介质上实施。

附图中示出的组件或模块是本公开实施方式的示例性说明，并且意图避免使本公开不清楚。还应理解，在本论述的全文中，组件可描述为单独的功能单元(可包括子单元)，但是本领域的技术人员将认识到，各种组件或其部分可划分成单独组件，或者可整合在一起(包括例如位于单个的系统或组件内)。应注意，本文论述的功能或操作可实施为组件。组件可以以软件、硬件、或它们的组合实施。

此外，附图内的组件或系统之间的连接并不旨在限于直接连接。相反，在这些组件之间的数据可由中间组件修改、重格式化、或以其它方式改变。另外，可使用另外或更少的连接。还应注意，术语“联接”、“连接”、“通信地联接”、“接合”、“接口”或其派生词中的任一个，应理解为包括直接连接、通过一个或多个中间设备来进行的间接连接、和无线连接。还应注意，任何通信(诸如信号、响应、答复、确认、消息、查询等)可包括一个或多个信息交换。

在本说明书中对“一个或多个实施方式”、“优选实施方式”、“实施方式”、“多个实施方式”等的提及表示结合实施方式所描述的具体特征、结构、特性或功能包括在本公开的至少一个实施方式中，以及可包括在多于一个的实施方式中。另外，在本说明书的各个地方出现以上所提到的短语并不一定全都是指相同的实施方式或多个相同实施方式。

在本说明书的各个地方使用某些术语目的在于说明，并且不应被理解为限制。服务、功能或资源并不限于单个服务、单个功能或单个资源；这些术语的使用可指代相关服务、功能或资源的可分布或聚合的分组。术语“包括”、“包括有”、“包含”和“包含有”应理解为开放性的术语，并且其后任何列出内容都是实例，而不旨在限于所列项目。“层”可包括一个或多个操作。词“最佳”、“优化”、“最优化”等是指对结果或过程的改进，并非要求指定的结果或过程已达到“最佳”或峰值状态。存储器、数据库、信息库、数据存储、表、硬件、高速缓存等在本文中的使用，可用来指代可输入信息或以其它方式记录信息的一个或多个系统组件。

在一个或多个实施方式中，停止条件可包括：(1)已执行了设定次数的迭代；(2)已达到一定量的处理时间；(3)收敛(例如，连续迭代之间的差小于第一阈值)；(4)发散(例如，性能劣化)；(5)已达到可接受的结果。

本文所使用的任何标题仅是为了组织目的，并且不应被用于限制说明书或权利要求的范围。本专利文献中提到的每个参考文献/文件以其整体通过引用并入本文。

应注意，本文提供的任何实验和结果均以说明性的方式提供，并且是在特定条件下使用特定实施方式进行的；因此，这些实验及其结果均不得用于限制当前专利文件的公开范围。

还应注意，尽管本文描述的实施方式可能在单词嵌入的情景内，但是本公开的各方面不限于此。因此，本公开的各方面可应用或适用于其它情景，诸如推荐、广告评级、问题回答和机器学习模型训练。

A.总体介绍

相似表示(诸如单词嵌入和其它表示)的有效检索包括内积(点积)相似度。内积是指通用的语义匹配功能，应用于神经概率语言模型、机器翻译、问题回答以及注意机制中。对于归一化向量，内积可视为等同于余弦相似度，这是在语义分类和搜索、关系提取(RE)和文本一致性评估中使用的常见语义文本相似度。对于非归一化向量，尽管余弦相似度仍被广泛应用，但单词嵌入的最终匹配分数通常由基于排序的系数(例如，边信息)加权，这将问题转换回经由内积搜索，如由以下等式(2)所示。

形式上，用内积排序函数检索最相似的单词是最大内积搜索(MIPS)问题。MIPS是持续提及的话题，并且与常规的“近似最近邻域搜索”(ANNS)问题具有不小的差异。ANNS是用于在给定集合中查找到查询点的接近点的优化问题。通常，“接近”意味着诸如余弦或欧几里得距离的公制距离较小，这具有明显的几何含义。相反地，内积是典型的非公制度量，这将MIPS与常规的ANNS问题区分开来。因此，针对ANNS设计的方法在MIPS中可具有性能限制。针对诸如通过余弦和欧几里得距离来检索相关单词嵌入的NLP任务，已研究出不同的ANNS方法。然而，针对检索词或语言表示的MIPS文献似乎很少。

当前，诸如HNSW的对图进行搜索的方法被视为最新的ANNS方法。性能评估已表明，对公制距离基准，HNSW能够大大优于其它ANNS方法。同时，图结构还对边缘具有定义度量的灵活性，因而使HNSW对MIPS可行。有人针对MIPS进行了HNSW并取得了积极的成果，他们还引入了Delaunay图的概念来解释基于相似图的MIPS方法。然而，HNSW与Delaunay Graph之间的联系仍然很脆弱。尽管通过使用Delaunay图可检索MIPS的全局最优值，但几乎没有证据显示HNSW近似于针对内积的适当Delaunay图。因此，如何提供基于实体图的MIPS方法仍是悬而未决的问题。

在本专利文件中，阐述了用于MIPS的新的对图进行搜索的方法(名为内积Delaunay图(IPDG))的实施方式。贡献中的一些包括以下实施方式：

-设计专门针对内积的边缘选择方法，该方法减少了图上的无用边缘，从而提高了搜索效率；

-使用两轮图构造方法，以使用内积有效地近似Delaunay图；

-在经验上评估实施方式的有效性和效率；以及

-提供用于相似性搜索的最新MIPS方法的实施方式。

在B部分中，介绍了一些研究背景。在C部分中，介绍了近似IPDG的实施方式。在D部分中，探讨了IPDG在最大内积单词检索中的有效性和效率，并将结果与最新的MIPS方法进行了比较。

B.一般背景信息

在本部分中，提出了MIPS的定义，并回顾了用于MIPS的最新的技术中的一些。然后，总结了用于通过对Delaunay图进行搜索的MIPS理论解决方案。

1.问题陈述

在机器学习任务中，诸如Word2vec、Glove或深度协作过滤的嵌入方法将数据表示学习为密集的分布式实值向量。形式上，对于潜在空间

给定任意查询向量q∈X和一组向量

向量相似度可限定为连续对称匹配函数

相似向量检索的目标是找到：

在本专利文件中，讨论了非公制相似性度量(内积)：

在不失一般性的情况下，可假定||q||＝1。零向量不重要，因为它与任何向量的内积始终为零。在文献中，关于内积的等式(1)中的问题通常称为MIPS。

加权余弦ANNS问题也可视为MIPS问题。考虑数据集S＝{(z_i，w_i)：i∈[n]}，其中，w_i是实标量，z_i是向量，

其中，||q||＝1。可看出，通过使x_i＝w_iz_i/||z_i||，关于余弦相似度的加权ANNS等同于MIPS。

2.相关工作

先前针对MIPS的方法主要可分为以下几类：(1)将MIPS简化为ANNS；(2)非简化法。简化法在索引数据和非对称查询上添加包装器(wrapper)，并将MIPS问题简化为公制空间中ANNS。例如，给定查询q，索引数据S＝{x₁，...，x_n}和Φ＝max_i||x_i||，包装器可定义为：

Q(q)＝[q；0] 等式(4)

不难证明通过余弦或l₂-距离搜索新数据等于通过内积搜索原始数据。最近，研究人员发现，基于对数据范数中长尾分布的观察，可进一步改进上述方法。通过对每个范数范围添加包装器，已提出了诸如“Range-LSH”的新方法。通过如上述一种简化，可将任何ANNS方法应用于MIPS。然而，事实显示，简化MIPS方法存在性能限制。

最近，提出了越来越多的非简化方法，尤其是针对MIPS。有人提出了基于积量化(PQ)的MIPS方法。其它人使用内积的上限作为MIPS的近似值，并设计了贪婪(greedy)搜索方法以找到近似值，称为“Greedy-MIPS”。基于图的非简化MIPS方法ip-NSW，最早由Stanislav Morozov和Artem Babenko在“神经信息处理系统的发展(NeurIPS)”的第4722-31页(2018)的“Nonmetric Similarity Graphs For Maximum Inner product Search(用于最大内积搜索的非公制相似性图)”中进行了介绍，且还提供了通过相似度图进行MIPS的理论基础。延续了针对ANNS的基于相似度图方法的优势，ip-NSW显示了MIPS的卓越性能。

3.Delaunay图

Delaunay图在相似性搜索中发挥了重要作用。文献中已经考虑了l²-Delaunay图的特性和构造。实际上，可将定义推广到任何实际的二进制函数(包括内积)。

定义2.1。关于f和x_i的Voronoi单元R_i是以下集合：

R_i：＝{q∈X：f(x_i，q)≥f(x，q)对于所有x∈S}。

此外，如果x∈S与非空Voronoi单元关联，则其为极点。

定义2.2。当且仅当

时，关于f和S的Delaunay图G是顶点S满足{x_i，x_j}∈G的无向图。

图1中示出了内积空间中的Voronoi单元与相应的Delaunay图的示例。对于极点(例如，点105)，不同阴影中的区域对应于Voronoi单元。图1中的Delaunay图100用黑色边缘连接极点。如果在该数据集上进行搜索，则每个查询都具有与这些极点(即外部极点105)之一的最大内积。与公制相似度(例如，l²-范数)不同，关于内积的一些数据点的Voronoi单元可能为空。根据定义2.2，如果数据点的Voronoi单元为空，则数据点是孤立的(即没有关联边缘)。如图1所示，存在许多孤立的点(例如，点110)。一般而言，极点所占的比例相对较小。并且以下定理2.1示出，对于任何非零查询，只有极点可实现最大的内积分数。

当且仅当x在S的凸包的边界上时，极点的定义可设置为x∈S是极端的。图1中也显示了，在二维的情况下，边缘形成凸包的边界。

4.对Delaunay图进行搜索

已证明对于相似性搜索，对Delaunay图进行搜索是有效的。在内积案例中，给定任何查询向量q∈X，一个查询向量可从极点开始，然后移动到其与q的内积更大的邻域中。可重复此步骤，直至获得并返回与q的内积大于其所有邻域的极点。可证明返回的局部最优实际上是全局最优。

通常，对于任何搜索度量f，如果连接了对应Voronoi单元，则由贪婪搜索返回的局部最优也是全局最优。形式上，该表述可总结如下。可在以上引用的Morozov和Babenko(2018)中找到证据。

定理2.1。假设f满足关于S的任何子集合(包括S本身)的Voronoi单元R_i在X上连接，并且G是关于f和一些S的Delaunay图，则对于q∈X，从极点开始的贪婪搜索的局部最大值，即x_i∈S满足：

其中，N(x_i)＝{x∈S：{x_i，x}∈G}是全局最大值。

假设定理2.1中的假设(即连接的Voronoi单元)成立，可认为对Delaunay图进行搜索可找到全局最大值。容易检查，对于内积案例假设成立，因为关于内积的Voronoi单元为空或凸锥，因此它们是连接的。那么，可声称，使用内积对Delaunay图进行搜索，将检索S中与查询向量内积最大的向量。

C.内积Delaunay图的实施方式

尽管Delaunay图已证明了其在相似性搜索中的潜力，但是由于高维中的边缘数量呈指数增长，因此在大规模和高维数据集中直接构建Delaunay图是不可行的。为了解决这个问题，实际方法通常近似Delaunay图。在本部分中，提出了用于在内积空间中构造近似Delaunay图的新方法的实施方式(为方便起见，通常称为IPDG或IPDG实施方式)。首先介绍该方法的特征中的两个：(i)专门针对内积的边缘选择；(ii)两轮图构造。然后，进行了对玩具数据集的案例研究，以显示IPDG在为内积构造更好的近似Delaunay图的有效性。

1.针对内积的边缘选择

为了平衡检索的有效性(例如，最近邻域的检索)与效率(例如，在有限时间内完成过程)，通常在对图进行搜索的先前方法中应用一些经验技巧：a)使用有向边缘代替无向边缘；b)限制每个节点的外向边缘的程度；c)选择更多样的外向边缘。

具体而言，对于内积案例，ip-NSW应用了以上列出的所有技巧(尽管以上引用的Morozov和Babenko(2018)中没有提到，但该实现确实继承了HNSW的所有特征)。边缘选择方法对于搜索中的有效性和效率的平衡很重要。然而，根据本公开的各种实施方式，HNSW和ip-NSW中使用的现有边缘选择技术设计为用于公制距离，该公制距离不适用于非公制度量，例如内积。

图2A描绘了用于HNSW和ip-NSW中的公制空间的选择方法，其中，选择c而放弃b是由于b与a无区别。如图2A所示，针对公制空间的边缘选择工作如下：对于要添加或插入到图中的每个新插入节点(或边缘更新节点)、q及其以下方法2中的最邻近邻域集合(候选)，首先构造从q到最近邻域a的有向边缘。对于其它候选，如b，边缘选择方法将检查是否：

dis(q，b)＜dis(a，b) (6)

其中，dis(·，·)是两个向量的距离，诸如l₂-距离或角距离。如果是，则将会存在从q到b的边缘，否则，将会在选择中放弃b。这样，在受约束的程度上，新插入节点将具有多种输出邻域。如图2A所示，不选择b而选择c。显然，公制空间的边缘选择方法不适用于内积。

图2B描绘了根据本公开的实施方式的使用IPDG的边缘选择，其中，其中，由于a是已选择的“超”点，将忽略b。如图2B所示，尽管q^Tb＞a^Tb(对应于dis(q，b)＜dis(a，b))，但是不应选择b，因为a^Tb＞b^Tb且对于任何具有所有正元素的查询向量q′，具有q′^Ta＞q′^Tb。这意味着b在top-1MIPS任务中是可有可无的，且不应构造从q到b的边缘。为了解决这个问题，本文提出了新的边缘选择方法，包括确定是否

b^Tb＞a^Tb (7)

以及如果是，则可选择b。否则，可跳过b，因为a是b的超点，从而b是可有可无的。这样，每个插入节点将趋向于连接极点，而非其它短范数向量。方法1的第17至28行中总结了详细的方法实施方式。

方法1—IPDG的构建

2.两轮构造

基于以上介绍的新的边缘选择方法(以及反向边缘更新，参见方法1的第9至13行)，具有较大范数的节点将具有较高概率被选为输出邻域。因此，一般而言，数据集的极点将具有更多的进入边缘，而非极点将更可能无进入边缘。这与内积空间中的真实Delaunay图一致，如图1先前所示。

然而，在图构造开始时，相对超点不是真正的极点。稍后出现的向量可能是更好的候选(即真正的极点)。这个问题可能会损害整体图的质量并影响最终搜索性能。在一个或多个实施方式中，一种直接方法可能会有所帮助：首先插入具有更大范数的数据点。尝试了该方法，但未取得足够令人满意的结果。一个原因在于高的范数点不一定是极点。用于一些Voronoi单元的极点的范数可能相对较小。顶级大范数点可能仅来自一个或几个Voronoi单元。在高维数据中，难以找到真正的极点。

可替代地，在一个或多个实施方式中，开发了两轮构造方法以解决该问题，并且还利用了附加轮构造以更新边缘，尤其是对于开始时插入的节点。这样，图构造方法可自动检测极点。对于ip-NSW，也尝试了两轮构造方法，但没有明显改进。应注意，实施方式可包括多于两轮。

在(以上)方法1中共享了针对IPDG的包括边缘选择函数的图构造方法的实施方式。在一个或多个实施方式中，在构造了图之后，可经由贪婪搜索方法来执行MIPS；在以下方法2中提出了示例性实施方式。诸如方法2的贪婪搜索方法也可用于在图构造中进行候选收集。

方法2—GREEDY_SEARCH(q，G，N)

图2C描绘了根据本公开的实施方式的用于构造近似内积空间中的有向图的图的过程的流程图。在一个或多个实施方式中，给定数据集中的一组向量，其中，每个向量均表示插入节点、顶级邻域候选的数量以及图中每个节点的最大外向链接数，当有向图被初始化(202)且向量作为节点插入到图中时，过程200可开始。

对于该组向量中的每个向量，可使用(204)搜索过程(例如，贪婪搜索过程)，以获得与顶级邻域候选数量对应的一组候选邻域。可将针对内积的边缘选择过程应用于(206)该组候选邻域，以获得具有比该组候选邻域少的成员的插入节点的第一组邻域。可将来自插入节点的边缘添加(208)至第一组邻域中的每个邻域，第一组邻域中的一个或多个邻域具有第二组邻域。对于第二组邻域中的每个邻域，可例如根据图2D所示的过程执行边缘更新。可将与第二组邻域相关联的更新边缘添加(212)到图中。如果满足(214)停止条件，例如，轮数或重复次数，则可输出(216)图。否则，过程200可继续搜索过程(204)，例如，再次重复步骤中的一些，以在输出(216)图之前重构(即更新)该图。在一个或多个实施方式中，搜索过程可包括检测数据集中的极点。

本领域的技术人员应认识到本文中：(1)某些步骤可以可选地执行；(2)步骤可不限于本文中所阐述的特定次序；(3)某些步骤可以以不同次序执行；以及(4)某些步骤可同时地进行。

图2D描绘了根据本公开的实施方式的用于边缘更新过程的流程图。在一个或多个实施方式中，对于第二组邻域中的每个邻域，可将插入节点作为邻域添加(252)到第二组邻域中，例如，只要尚未超过顶级邻域候选数量。边缘选择过程可应用于(254)第二组邻域集合。原始边缘可移除(256)。

图2E描绘了根据本公开的实施方式的用于使用有向图执行相似性搜索的过程的流程图。在一个或多个实施方式中，当识别出(282)表示一组向量中的查询向量的查询时，可开始过程280。该组向量中的向量可与可应用于(284)查询的图相关联，例如，以识别该组向量中的向量，该向量与查询向量的内积大于该向量与该组向量中的任何向量的内积。一旦识别出向量，即可输出(286)识别的向量作为相似性表示。

应理解，例如，可基于若干期望的结果，生成任意数量的相似性表示，并且根据内积排序函数进行排序。还应理解，例如，可根据参考图2C所述的过程来构造图。

3.示例

为了进一步解释本文提出的方法的实施方式与先前的最新技术ip-NSW之间的差异，对图3中所示的玩具示例数据进行了案例研究，随机生成了具有以下分布Normal(0，I₂)的400个二维向量。图3A示出了针对内积的真实Delaunay图300。较大的深色节点对应于该数据集的极点。图3B描绘了由IPDG实施方式构建的图305。线表示边缘，且较大(较深)的外部点表示极点。图3C中的图310由ip-NSW构建。应注意，出于效率考虑，IPDG和ip-NSW构造有向边缘而非无向边缘。图3B和图3C中仅示出了针对具有进入边缘的节点的边缘。在本研究中，两种方法的参数N设定为10，M设定为2。应注意，由IPDG和ip-NSW构建的图是有向图。为了帮助整理这些图，仅保留与具有进入边缘的节点相对应的边缘，且忽略其它边缘。在一个或多个实施方式中，将不访问无进入边缘的节点且不会影响搜索过程，因此，在图构造之后可将其移除。可看出，由IPDG实施方式构建的图更像真实的Delaunay图300，并且对于MIPS更为有效，而由ip-NSW构建的图具有太多的无用边缘，如图3C所示。

D.实验

在本部分中，通过将IPDG实施方式与最新的MIPS方法进行比较来评估IPDG实施方式。应注意的是，这些实验和结果以说明的方式提供，并且使用一个或多个的具体实施方式在具体条件下执行；因此，这些实验或其结果不应当用于限制本专利文件的公开的范围。

1.数据集

以下三个预训练的嵌入用于研究IPDG在MIPS中用于相似单词搜索的性能。对于每个单词嵌入数据集，随机选择10000个向量作为查询，以及其他向量作为基础数据。

fastTextEn和fastTextFr是维基百科上使用fastText(Armand Joulin，EdouardGrave，Piotr Bojanowski，Matthijs Douze，HérveJégou和Tomas Mikolov，2016，Fasttext.zip：Compressing text classification models(压缩文本分类模型).arXiv.预印本arXiv：1612.03651)训练的300维英语和法语单词嵌入。

GloVe50是Wikipedia2014和Gigaword5上使用GloVe训练的50维单词嵌入。

当多数最新的MIPS方法评估其在数据集上的性能时，IPDG实施例也以三个数据集为基准：数据集A、数据集B和数据集C。Hu等人的矩阵分解(MF)方法(Yifan Hu，YehudaKoren和Chris Volinsky，“Collaborative filtering for implicit feedback datasets(对隐式反馈数据集的协作过滤)”，第八届IEEE数据挖掘国际会议(ICDM)会议录，第263-272页(2008年)中)用于获得用户和项目的潜在向量。然后，在检索过程中，将用户向量视为查询，并且应通过MIPS方法返回与每个查询具有最高内积分数的项目向量。

表1：数据集的统计数据

表1中列出了六个数据集的统计数据信息。它们在维度(300、64和50)、来源(推荐等级，Word文档)和提取方法(fastText、GloVe和MF)方面有所不同，足以进行公平的比较。基本事实是内积的top-1最近的邻域。

2.基准线

在本专利文件中，将IPDG实施方式与最新的MIPS方法进行了比较。首先，简化方法可以是基准线。一些流行的ANNS开源平台利用简化技巧来解决MIPS，诸如Annoy。如在B.2部分所介绍的，通过简化，任何ANNS方法都可应用于MIPS。在该线中，选择HNSW(YuryA.Malkov和Dmitry A.Yashunin，“Efficient And Robust Approximate NearestNeighbor Search Using Hierarchical Navigable Small World Graphs(使用分层可导航小世界图的高效且鲁棒的近似最近搜索)”，IEEE关于模式分析与机器智能的合约(2018))(称作HNSW-Wrapper)作为基准线，而忽略其它替代方案，因为HNSW通常被认为是公制空间中用于ANNS的最有前途的方法。利用了HNSW的原始实现，并添加了B.2部分中介绍的包装器。

Range-LSH(Xiao Yan，Jinfeng Li，Xinyan Dai，Hongzhi Chen和James Cheng，“Norm-ranging LSH for Maximum Inner product Search(用于最大内积搜索的范数范围LSH)”，神经信息处理系统研究进展(NeurIPS)，第2952至2961页(2018年)，蒙特利尔，加拿大)也是简化MIPS方法，并考虑了数据的范数分布。使用了原始实现。

Faiss-PQ(github.com/facebookresearch/faiss)是来自Facebook的流行开源ANNS平台，主要通过积量化(PQ)技术实现。它包含作为一个组件的MIPS。

Greedy-MIPS是来自Yu等人的MIPS方法(Hsiang-Fu Yu，Cho-Jui Hsieh，Qi Lei和Inderjit S.Dhillon，“A greedy approach for budgeted maximum inner productsearch(用于预算的最大内积搜索的贪婪方法)”神经信息处理系统研究进展(NIPS)，第5453至5462页(2017)，长滩，加利福尼亚)。使用了原始实现(github.com/rofuyu/exp-gmips-nips17)。

ip-NSW是在以上已引用的Morozov和Babenko(2018)中提出的最新MIPS方法(github.com/stanis-morozov/ip-nsw)。

3.实验设定

存在两种流行方式来评估ANNS/MIPS方法：(i)调用与时间图；(ii)调用与计算图。调用与时间图报告了在每个调用级别，方法每秒可处理的查询数。调用与计算图报告了在每个调用级别，ANNS/MIPS方法花费的成对距离/相似度计算的数量/百分比。两种评估指标各有优缺点。调用与时间图很简单，但可能会在实现中引入偏差。调用与计算图超出了实现，但其不考虑不同索引结构的成本。这两种观点将在以下实验中示出，以进行综合评估。

所有比较方法都具有可调参数。为了进行公平的比较，对于所有方法，所有参数都在细网格上变化。对于每个实验中的每种方法，将有散布在平面上的多个点。为了绘制曲线，找到最佳结果max_x，并沿x轴绘制(即，调用)。然后，通过平均分配0到max_x的范围来产生100个存储区。对于每个存储区，选择沿y轴的最佳结果(例如，最大的每秒查询量或最低的计算百分比)。如果存储区中无数据点，则忽略该存储区。这样，应该存在多对数据以进行曲线绘制。所有与时间相关的实验均在具有32GB内存的2X 3.00GHz 8核i7-5960X中央处理单元(CPU)服务器上执行。

4.实验结果

通过图4A至图4F中示出的调用与时间图的视图，示出了所有比较方法的实验结果。最佳结果在右上角。总体而言，在所有六个数据集上，测试IPDG实施方式的性能一致且显著优于基准线。可看出，一些基准线在部分数据集上显示出有前景的性能，但是它们在其它数据集上可能效果差得多。例如，ip-NSW在低维数据集(即，图4C至图4F)上表现优良，但在高维数据集(即，fastTextEn和fastTextFr)上却失效。Greedy-MIPS在高维数据集上显示出优势，但在一些低维数据集(诸如数据集3和GloVe)上却表现得较差。所有方法中，只有IPDG实施方式在所有数据集上始终表现良好，这显示了其有效性和鲁棒性。在这些实验中，Range-LSH表现不佳。主要原因在于，Range-LSH不具有类似于Greedy-MIPS中的预算和基于图的方法中的参数N_搜索的良好“预算”设定。HNSW-Wrapper也不能与IPDG实施方式相提并论，尤其是在单词嵌入数据集上。在一些调用级别上，如大于0.5，通过HNSW-Wrapper的搜索及其慢(参见图4A至图4C)。清楚的是，在具挑战性的MIPS任务(诸如较大或较高维向量数据集)中，HNSW-Wrapper远远不是最新技术。基于PQ的方法Faiss-PQ在所有数据集上均表现不佳，因为量化代码可加快检索速度然而可能大大降低搜索性能，尤其是对于具挑战性的top-1MIPS问题。应注意，Faiss-PQ在fastTextEn和fastTextFr上的结果未在图4A至图4F中示出，因为它们不能产生大于0.6的调用。

图5A至图5C中示出了调用与计算的实验结果。应注意，对于HNSW-Wrapper在fastTextFr和Glove上的结果未示出。右下角中示出了最佳结果。不能以该观点评估Greedy-MIPS和Faiss-PQ，本文中探讨了四种其它方法。由于空间有限，仅表示了部分数据集上的结果。可看出，只有IPDG实施方式和ip-NSW在所示的所有数据集上始终表现良好。HNSW-Wrapper和Range-LSH在推荐数据集“数据集A”上与其它两种方法相当，而在单词嵌入数据集fastTextFr和GloVe上表现差得多。甚至不能在显示范围内示出对于HNSW-Wrapper在fastTextFr和Glove上的结果。对于IPDG实施方式和ip-NSW，其共享相似的索引结构，因此比较每个查询的计算量是公平的。为了得到相似调用，IPDG实施方式需要更少的内积计算。例如，在fastTextFr上，为了达到95％的调用，ip-NSW需要约0.3％的计算，而IPDG实施方式仅需要0.07％的计算。这也证明了通过IPDG检索向量内积的效率。

5.与ip-NSW的更多比较

表2：对于由ip-NSW和经测试的IPDG实施方式构建的图，具有进入边缘的节点数和百分比

在本部分中，通过比较IPDG实施方式及其相关方法ip-NSW，对索引图质量进行了研究。评估度量是具有进入边缘的节点数。直观上，只有每个数据集的极点对top-1MIPS检索有用。在图构造中可忽略非极点(即，无进入边缘因而不会在搜索中被访问)。在表2中示出了N＝100和M＝16的结果。可看出，由IPDG实施方式构建的图具有少得多的带进入边缘的节点，这与以上介绍的玩具示例一致。以下解释其中一个原因。IPDG实施方式中精心设计的边缘选择方法趋向于，为每个新插入的节点或每个边缘更新节点选择极点作为外向邻域(参见方法1，第9至13行)。同时，在边缘更新和二轮图构造中，极点将有更多机会保留进入边缘。而非极点将在这些过程中丧失其进入边缘。

E.一些结论

经由内积进行用于数据表示的快速相似性搜索是项至关重要且具挑战性的任务，因为其为机器学习方法和推荐方法中的基本操作之一。为了解决这个问题，在本文中提出了用于嵌入式潜在矢量中的MIPS的图论搜索的实施方式，为方便起见，通常将其称为IPDG。与先前的方法相比，IPDG实施方式提供了更好的针对内积的Delaunay图近似，并且对于MIPS任务更有效。对广泛基准的测试表明，IPDG实施方式在检索内积下的潜在向量方面优于先前的最新MIPS方法。

在本专利文件中，我们通过基于图的索引来改善top-1MIPS的性能。应注意，不仅对于top-1MIPS，而且对于top-n，n>1，实现方式可适于进一步推动最前沿的MIPS的结果。除了公制度量(例如，l₂-距离和余弦相似度)和内积外，自然语言处理任务中还可采用更复杂的度量。另外，实施方式可采用用于快速ANNS或MIPS的基于GPU的系统，已经显示出其对一般的ANNS任务非常有效。

F.系统实施方式

在一个或多个实施方式中，本专利文献的方面可涉及、可包括一个或多个信息处理系统/计算系统，或者可在一个或多个信息处理系统(或计算系统)上实现。信息处理系统/计算系统可包括可操作来计算、运算、确定、分类、处理、传输、接收、检索、发起、路由、交换、存储、显示、通信、显现、检测、记录、再现、处理或利用任何形式信息、智能或数据的任何手段或手段的组合。例如，计算系统可以是或可包括个人计算机(例如，膝上型计算机)、平板电脑、移动设备(例如，个人数字助理(PDA)、智能手机、平板手机、平板等)、智能手表、服务器(例如，刀片式服务器或机架式服务器)、网络存储设备、摄像机或任何其它合适设备，并且可在大小、形状、性能、功能和价格方面改变。计算系统可包括随机存取存储器(RAM)、一个或多个处理资源(诸如CPU或硬件或软件控制逻辑)、只读存储器(ROM)和/或其它类型的存储器。计算系统的另外组件可包括一个或多个盘驱动器、用于与外部设备通信的一个或多个网络端口、以及各种输入和输出(I/O)设备(例如键盘、鼠标、手写笔、触摸屏和/或视频显示器)。计算系统还可包括可操作为在各种硬件组件之间传输通信的一个或多个总线。

图6描绘了根据本公开的实施方式的计算设备/信息处理系统(或计算系统)的简化框图。应理解，计算系统可不同地配置并且包括不同组件，包括如图6中所示的更少或更多的部件，但应理解，针对系统600所示出的功能可操作为支持计算系统的各种实施方式。

如图6所示，计算系统600包括一个或多个CPU 601，CPU 601提供计算资源并控制计算机。CPU 601可用微处理器等实现，并且还可包括一个或多个图处理单元(GPU)619和/或用于数学计算的浮点协处理器。在一个或多个实施方式中，一个或多个GPU 602可并入显示控制器609内，诸如一个或多个图卡的一部分。系统600还可包括系统存储器619，系统存储器619可包括随机存取存储器(RAM)、只读存储器(ROM)或两者。

如图6中所示，还可提供多个控制器和外围设备。输入控制器603表示至各种输入设备604的接口，例如键盘、鼠标、触摸屏和/或触笔。计算系统600还可包括存储控制器607，该存储控制器607用于与一个或多个存储设备608对接，存储设备中的每个包括存储介质(诸如磁带或盘)或光学介质(其可用于记录用于操作系统、实用工具和应用程序的指令的程序，它们可包括实施本公开的各方面的程序的实施方式)。存储设备608还可用于存储经处理的数据或是将要根据本公开处理的数据。系统600还可包括显示控制器609，该显示控制器609用于为显示设备611提供接口，显示设备611可为阴极射线管(CRT)显示器、薄膜晶体管(TFT)显示器、有机发光二极管、电致发光面板、等离子面板或任何其它类型的显示器。计算系统600还可包括用于一个或多个外围设备606的一个或多个外围设备控制器或接口605。外围设备的示例可包括一个或多个打印机、扫描仪、输入设备、输出设备、传感器等。通信控制器614可与一个或多个通信设备615对接，这使系统600能够通过各种网络(包括互联网、云资源(例如以太云、经以太网的光纤通道(FCoE)/数据中心桥接(DCB)云等)、局域网(LAN)、广域网(WAN)、存储区域网络(SAN))中的任一网络，或通过任何合适电磁载波信号(包括红外信号)来连接至远程设备。如描绘的实施方式中所示，计算系统600包括一个或多个风扇或风扇托盘618以及一个或多个冷却子系统控制器617，其监视系统600(或其组件)的热温度并操作风扇/风扇托盘618以助于调节温度。

在示出的系统中，所有主要系统组件可连接至总线616，总线616可表示多于一个的物理总线。然而，各种系统组件可在物理上彼此接近或可不在物理上彼此接近。例如，输入数据和/或输出数据可远程地从一个物理位置传输到另一物理位置。另外，实现本公开的各方面的程序可经由网络从远程位置(例如，服务器)访问。此类数据和/或程序可通过各种机器可读介质中的任一机器可读介质来传送，机器可读介质包括例如：诸如硬盘、软盘和磁带的磁性介质；诸如光盘(CD)和全息设备的光学介质；磁光介质；以及专门配置成存储或存储并执行程序代码的硬件设备，诸如专用集合成电路(ASIC)、可编程逻辑器件(PLD)、闪存设备、其它非易失性存储器(NVM)设备(诸如基于XPoint的3D设备)、以及ROM和RAM设备。

本公开的方面可利用用于一个或多个处理器或处理单元以使步骤执行的指令在一个或多个非暂态计算机可读介质上编码。应注意，一个或多个非暂态计算机可读介质应包括易失性存储器和/或非易失性存储器。应注意，替代实现方式是可能的，其包括硬件实现方式或软件/硬件实现方式。硬件实施的功能可使用专用集合成电路(ASIC)、可编程的阵列、数字信号处理电路等来实现。因此，任何权利要求中的术语“手段”旨在涵盖软件实现方式和硬件实现方式两者。类似地，如本文使用的术语“计算机可读媒介或介质”包括具有实施在其上的指令程序的软件和/或硬件或它们的组合。利用所构想的这些替代实现方式，应理解，附图以及随附描述提供本领域的技术人员编写程序代码(即，软件)和/或制造电路(即，硬件)以执行所需处理所要求的功能信息。

应注意，本公开的实施方式还可涉及具有其上具有用于执行各种计算机实施的操作的计算机代码的非暂态有形计算机可读介质的计算机产品。介质和计算机代码可为出于本公开的目的而专门设计和构造的介质和计算机代码，或者它们可为相关领域中的技术人员已知或可用的。有形计算机可读介质的示例包括例如：诸如硬盘、软盘和磁带的磁性介质；诸如CD和全息设备的光学介质；磁光介质；以及专门配置成存储或存储并执行程序代码的硬件设备，诸如ASIC、PLD、闪存设备、其它NVM设备(诸如基于XPoint的3D设备)、以及ROM和RAM设备。计算机代码的示例包括机器代码(例如，编译器产生的代码)以及包含可由计算机使用解释器来执行的更高级代码的文件。本公开的实施方式可整体地或部分地实施为可在由处理设备执行的程序模块中的机器可执行指令。程序模块的示例包括库、程序、例程、对象、组件和数据结构。在分布的计算环境中，程序模块可物理上定位在本地、远程或两者的设定中。

本领域的技术人员将认识到，计算系统或编程语言对本公开的实践来说均不重要。本领域的技术人员将还将认识到，多个上述元件可物理地和/或在功能上划分成模块和/或子模块或组合在一起。

本领域技术人员将理解，前文的示例和实施方式是示例性的，并且不限制本公开的范围。旨在说明的是，在本领域的技术人员阅读本说明书并研究附图后将对本领域的技术人员显而易见的本公开的所有、置换、增强、等同、组合或改进包括在本公开的真实精神和范围内。还应注意，任何权利要求书的元素可不同地布置，包括具有多个从属、配置和组合。

Claims

1.一种包括一个或多个指令序列的非暂时性计算机可读介质或媒介，所述指令序列在由至少一个处理器执行时，致使构造近似内积空间中的有向图的图的步骤，包括：

给定数据集中的一组向量中的至少一个，其中，每个向量均表示插入节点、顶级邻域候选的数量或图中每个节点的最大外向链接数，初始化所述图并将向量作为节点插入所述图中；

针对所述一组向量中的每个向量，执行以下步骤，包括：

使用搜索过程以获得一组候选邻域；

将针对内积的边缘选择过程应用于所述一组候选邻域，以获得所述插入节点的一组邻域；

将来自所述插入节点的边缘添加到所述一组邻域中的每个邻域，所述一组邻域中的一个或多个邻域具有邻域；

通过执行以下步骤来更新所述边缘，包括：

针对每个邻域的邻域：

将所述插入节点作为邻域添加到一组邻域的邻域中；

将所述边缘选择过程应用于所述一组邻域的邻域；

移除所述边缘；

将与所述一组邻域的邻域相关联的更新边缘添加到所述图中；以及

输出所述图。

2.根据权利要求1所述的非暂时性计算机可读介质或媒介，其中，所述边缘选择过程包括：

确定所述一组候选邻域中的候选邻域与其自身的内积是否大于所述候选邻域与所述一组邻域中的任何邻域的内积。

3.根据权利要求2所述的非暂时性计算机可读介质或媒介，其中，所述边缘选择过程还包括：

只要不超过顶级邻域候选的数量，将所述候选邻域添加到所述一组邻域的邻域中；以及

响应于确定所述候选邻域与其自身的内积不大于所述候选邻域与所述一组邻域中的任何邻域的内积，忽略所述候选邻域。

4.根据权利要求1所述的非暂时性计算机可读介质或媒介，还包括：在输出所述图之后，恢复使用所述搜索过程。

5.根据权利要求4所述的非暂时性计算机可读介质或媒介，其中，所述恢复包括：检测所述数据集中的一个或多个极点。

6.根据权利要求1所述的非暂时性计算机可读介质或媒介，其中，所述一组候选邻域包括的邻域少于所述一组邻域。

7.根据权利要求6所述的非暂时性计算机可读介质或媒介，其中，所述一组候选邻域由所述搜索过程确定。

8.根据权利要求7所述的非暂时性计算机可读介质或媒介，其中，所述搜索过程是使用查询向量来确定所述一组候选邻域的贪婪搜索过程。

9.一种用于使用有向图执行相似性搜索的计算机实现的方法，包括：

确定表示一组向量中的查询向量的查询；

对图应用所述查询，以识别与所述图相关联的所述一组向量中的、与所述查询向量具有内积的向量，所述内积大于该向量与所述一组向量中的任何向量的内积；以及

输出所述向量作为相似性表示，其中，所述图已通过以下步骤生成，包括：

针对所述一组向量中的每个向量，使用搜索过程以获得一组候选邻域；

将边缘选择过程应用于所述一组候选邻域，以获得插入节点的一组邻域；

通过从所述图中添加边缘和移除边缘，更新所述图；以及

输出所述图。

10.根据权利要求9所述的计算机实现的方法，还包括：使用所述图以识别所述一组向量中的、与所述查询向量具有最大内积的向量的数量。

11.根据权利要求10所述的计算机实现的方法，其中，使用所述图包括：使用内积排序函数。

12.根据权利要求9所述的计算机实现的方法，其中，所述步骤至少重复一次。

13.根据权利要求9所述的计算机实现的方法，其中，添加边缘包括：将来自所述插入节点的边缘添加到所述一组邻域中的每个邻域。

14.根据权利要求9所述的计算机实现的方法，其中，所述一组候选邻域由贪婪搜索过程确定，所述贪婪搜索过程使用所述查询向量确定所述一组候选邻域。

15.根据权利要求9所述的计算机实现的方法，其中，所述一组候选邻域包括的邻域少于所述一组邻域。

16.一种用于构造近似有向图的图的系统，所述系统包括：

一个或多个处理器；以及

非暂时性计算机可读介质或媒介，包括一组或多组指令，所述一组或多组指令在由所述一个或多个处理器中的至少一个执行时，致使执行以下步骤，包括：

给定一组向量，使用搜索过程获得一组候选邻域；

使用边缘选择过程以从所述一组候选邻域中识别一组邻域，所述边缘选择过程包括：确定所述一组候选邻域中的候选邻域与其自身的内积是否大于与所述一组候选邻域中的每个邻域的内积；以及

使用所述一组邻域构建图。

17.根据权利要求16所述的系统，其中，所述图是方向索引图。

18.根据权利要求16所述的系统，其中，所述边缘选择过程包括：

19.根据权利要求18所述的系统，其中，所述边缘选择过程还包括：

只要不超过顶级邻域候选的数量，将所述候选邻域添加到一组邻域的邻域中；以及

20.根据权利要求16所述的系统，还包括：在输出所述图之后，恢复使用所述搜索过程。