CN108717407A

CN108717407A - 实体向量确定方法及装置，信息检索方法及装置

Info

Publication number: CN108717407A
Application number: CN201810447394.3A
Authority: CN
Inventors: 华镇; 钟啸林; 余婷婷; 侯培旭; 张弓
Original assignee: Beijing Sankuai Online Technology Co Ltd
Current assignee: Beijing Sankuai Online Technology Co Ltd
Priority date: 2018-05-11
Filing date: 2018-05-11
Publication date: 2018-10-30
Anticipated expiration: 2038-05-11
Also published as: CN108717407B

Abstract

本申请实施例公开了一种实体向量确定方法，属于计算机技术领域，解决现有技术中，获取的实体向量不能准确表达实体之间相关性的问题。本申请实施例公开的实体向量确定方法包括：根据预先训练的词向量模型，确定实体的关键词的词向量；将所述实体的所述关键词的词向量以相应的权重进行加权运算，得到所述实体的实体向量。本申请公开的方法，通过对实体的关键词赋予相应的权重，之后，通过对关键词的词向量进行加权计算，得到相应的实体向量，充分考虑了不同关键词对于不同实体特征表达的重要程度和影响，使得确定的实体向量能准确表达实体的特征，准确的体现实体之间相关性。

Description

实体向量确定方法及装置，信息检索方法及装置

技术领域

本申请涉及计算机技术领域，特别是涉及一种实体向量确定方法及装置，信息检索方法及装置。

背景技术

随着移动互联网技术的发展，O2O(Online-to-Offline)本地生活化服务，极大的方便了人们的生活。与传统网页平台不同，O2O平台的信息描述载体往往具有多个文本域，从不同的角度尝试对服务进行具体的描述，例如：一个提供具体餐饮服务的商家POI(Pointof Interest)，可能会有商家名称、品牌名称、商家所处商圈、商家地址、商家主营菜品，商家评论区的用户原创内容UGC(User Generated Content)等等多个文本域。另外，还有一些不同类型的信息描述载体，如用户写的关于美食类的文章可能也会提到这个商家。这类信息描述载体的文本域有时多达几十个甚至几千个。现有技术中，在信息检索时，主要通过关键词匹配技术，而对于O2O平台的信息描述载体，如果存储信息描述载体的所有文本域，将占用很大的存储空间，同时，检索效率低下，如果只存储关键信息，从而会丢失一部分信息，导致检索准确率降低。

现有技术中，有通过语义向量进行搜索的应用，但是现有技术中直接通过词向量模型或神经网络模型计算关键词的语义向量，仅考虑了关键词的文本相似度，不能准确、全面表达表达实体之间相关性，从而会导致搜索结果不准确。

综上，现有技术中的实体向量确定方法至少存在不能准确、全面表达表达实体之间相关性的缺陷。

发明内容

本申请提供一种实体向量确定方法，至少解决现有技术中获取的实体向量不能准确表达实体之间相关性的问题。

为了解决上述问题，第一方面，本申请实施例提供了一种实体向量确定方法，包括：

根据预先训练的词向量模型，确定实体的关键词的词向量；

将所述实体的所述关键词的词向量以相应的权重进行加权运算，得到所述实体的实体向量。

第二方面，本申请实施例提供了一种信息检索方法包括：

通过本申请实施例公开的实体向量确定方法，确定预设实体的实体向量；

通过局部敏感哈希技术对预设实体的实体向量进行哈希计算，以根据计算得到的哈希值构建索引关系，其中，所述索引关系至少包括：所述哈希值、所述预设实体；

根据所述索引关系中的所述哈希值，确定目标实体的候选实体，其中，所述目标实体和所述候选实体选自于所述预设实体；

根据所述目标实体和所述候选实体的所述实体向量，确定所述目标实体和所述候选实体的相似度，以根据所述相似度确定所述目标实体的信息检索结果。

第三方面，本申请实施例提供了一种实体向量确定装置，包括：

关键词词向量确定模块，用于根据预先训练的词向量模型，确定实体的关键词的词向量；

实体向量确定模块，用于将所述实体的所述关键词的词向量以相应的权重进行加权运算，得到所述实体的实体向量。

第四方面，本申请实施例提供了一种信息检索装置，包括：

实体向量确定模块，用于通过本申请实施例所述的实体向量确定方法确定预设实体的实体向量；

预设实体哈希索引构建模块，用于通过局部敏感哈希技术对预设实体的实体向量进行哈希计算，以根据计算得到的哈希值构建索引关系，其中，所述索引关系至少包括：所述哈希值、所述预设实体；

候选实体确定模块，用于根据所述预设实体哈希索引构建模块构建的索引关系中的所述哈希值，确定目标实体的候选实体，其中，所述目标实体和所述候选实体选自于所述预设实体；

信息检索模块，用于根据所述目标实体和所述候选实体确定模块确定的候选实体的所述实体向量，确定所述目标实体和所述候选实体的相似度，以根据所述相似度确定所述目标实体的信息检索结果。

第五方面，本申请实施例还公开了一种电子设备，包括存储器、处理器及存储在所述存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现本申请实施例所述的实体向量确定方法和/或信息检索方法。

第六方面，本申请实施例提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时本申请实施例公开的实体向量确定方法和/或信息检索方法的步骤。

本申请实施例公开的实体向量确定方法，通过根据预先训练的词向量模型，确定实体的关键词的词向量；将所述实体的所述关键词的词向量以相应的权重进行加权运算，得到所述实体的实体向量，解决了现有技术中获取的实体向量不能准确表达实体之间相关性的问题。本申请实施例公开的实体向量确定方法，通过对实体的关键词赋予相应的权重，之后，通过对关键词的词向量进行加权计算，得到相应的实体向量，充分考虑了不同关键词对于不同实体特征表达的重要程度和影响，使得确定的实体向量能准确表达实体的特征，准确的体现实体之间相关性。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例一的实体向量确定方法流程图；

图2是本申请实施例二的信息检索方法流程图；

图3是本申请实施例三的信息检索方法流程图；

图4是本申请实施例三的信息检索方法中实体实体向量表示示意图；

图5是本申请实施例三的信息检索方法中索引关系构建示意图；

图6是本申请实施例四的实体向量确定装置的结构示意图之一；

图7是本申请实施例四的实体向量确定装置的结构示意图之二；

图8是本申请实施例五的信息检索装置的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

实施例一

本实施例公开的一种实体向量确定方法，如图1所示，该方法包括：步骤110和步骤120。

步骤110，根据预先训练的词向量模型，确定实体的关键词的词向量。

本申请具体实施时，首先通过通用数据训练词相量模型。

所述通用数据包括：百度百科、维基百科、O2O平台上的点评文章以及用户UGC数据等。训练词相量模型的具体方法参见现有技术，本申请实施例中不再赘述。通用数据通常为非结构化数据，具有语法和语义特征，基于通用数据训练词相量模型，可以提升训练的到的词相量模型的准确性。

具体实施时，实体的关键词是描述实体特征的词语和/或实体包括的词语。所述实体的词向量是根据所述实体包括的关键词的词向量组合得到的向量，因此，还需要确定所述实体包括的关键词，然后，再进一步确定每个关键词的词向量。

本申请实施例中的实体选自于预设实体，所述预设实体为O2O平台上的信息检索对象，所述预设实体可以用户、商户、文章等。例如，搜索平台上的一个用户为一个预设实体、一个商户为一个预设实体、一篇文章为一个预设实体。

具体实施时，在确定实体包括的关键词时，首先需要确定O2O平台的关键词库和所述关键词的初始权重。

例如，首先获取O2O平台上所述预设实体相关的源数据，如平台的用户数据、用户历史查询关键词、用户历史点击数据、商户数据、用户历史评论数据、商户UGC数据、文章信息等数据。所述源数据包括结构化数据和非结构化数据，其中，结构化数据进一步包括如：用户结构化数据(如用户数据)、商户结构化数据(如包括：商户名，商户所处商区名，商户周边标志性建筑名，商户地址，商户所属类目名(例如，川菜，火锅，便利店等的商户数据)；非结构化数据包括用户历史评论数据、商户UGC数据、文章信息等数据。

然后，基于实体，对预设实体在不同数据源、不同时间段、不同类型的数据做汇总。例如对于用户实体，将用户实体相关的数据进行汇总。具体实施时，可以根据用户标识做类似于group by userid操作，把每个用户各个数据源的近半年的结构化和非结构化的数据聚合，得到每个用户的所有源数据。

之后，再基于文本特征、自有词库，采用统计规则等方法，对每个实体的源数据中的非结构化数据进行分词处理，确定该非结构化数据中的关键词。其中，自有词库主要包括品牌名，菜品名，商圈名，商家地址等词语。例如，对于用户A的源数据，统计一些词出现的次数和权重，当一些新词或流行词出现次数大于一定阈值的时候，将这些新词或流行词切分出来，作为所述用户A的关键词。分词的方法举例如下：使用ANSJ方法分词，“中山公园的麻辣荟香锅”可能会被分成“中山|公园|的|麻辣荟|香锅”，很显然在自有词库中“中山公园”是一个商区词，“麻辣荟香锅”是一个商户名，所以正确的结果是“中山公园|的|麻辣荟香锅”。具体实施时，将根据实体的非结构化数据确定的所述预设实体的关键词，标记为挖掘得到的关键词。实体的结构化数据是由自有关键词构成的，结构化数据不需要进行分词。具体实施时，将根据结构化数据确定的所述预设实体的关键词，标记为自有关键词。按照上述方法，分别确定每个实体包括的所有关键词。例如，商户实体的结构化数据中包括：商户名、商户地址，则根据商户的结构化数据提取出的商户名“来福士”和商户地址“中山公园”将被标记为该商户的自有关键词。而从该商户的用户评论数据中挖掘得到的关键词“毛肚”将被标记为该商户的挖掘得到的关键词。最后，由根据实体的非结构化数据和非结构化数据切分出的关键词，构成关键词库。

进一步的，确定所述关键词库中每个关键词的初始权重。具体实施时，所述关键词的初始权重根据时间衰减因子和词频因子的乘积确定。具体实施时，时间衰减因子的取值是根据艾宾浩斯遗忘曲线，根据时间计算得到的。词频因子根据所述关键词出现的频次确定。

具体实施时，为了体现核心关键词对于实体向量的重要性，进一步的，可以首先对所述预设实体的关键词进行加权过滤。

所述实体的关键词主要包括：用户的关键词、商户的关键词、文章的关键词。以用户的关键词为例，用户_123的关键词可以包括：“火锅”，“辣”，“面食”，“徐家汇”；用户_234的关键词可以包括：“天山西路”，“霸王餐”，“串串”，“土豪”等等。再以商户的关键词为例，商户_122的关键词可以包括：“中山公园”，“龙之梦”，“川菜”，“夫妻肺片”，“服务态度好”；商户_233的关键词可以包括：“医院”，“疫苗”，“宠物”，“猫咪”等等。再以文章的关键词为例，文章_123的关键词可以包括：“魔都”，“小吃”，“甜食”等等。

具体实施时，根据所述预设实体的初始权重对关键词库中的关键词进行过滤。例如，当某一关键词的权重大于预设权重阈值，并且，所述关键词的逆向文本频率IDF小于预设IDF阈值时，过滤掉该关键词。逆向文本频率IDF用于反映关键词的重要性。具体实施时，通过分析权重值的统计学分布，即最大值、最小值、中位数和分位数值的分布等,确定关键词的权重阈值。例如，一般小于5分位的值认为异常，则权重阈值设置为0.25，对权重大于0.25的关键词确定为异常关键词，予以过滤。结合O2O平台常用的IDF设置关键词的IDF阈值，如IDF阈值设置为0.1。具体实施时，可以根据业务需求，结合最终召回效果，对权重阈值和IDF阈值进行调整。

逆向文件频率IDF(Inverse Document Frequency)可以通过将出现某个关键词的文件数目和全部文件的数目的比值的倒数再取对数来确定。可见，对应用户点评数据，关键词“美食”IDF就很低。

具体实施时，可以基于所述关键词库确定实体中包括的关键词。例如，首先对实体相关的非结构化数据进行分词，并结合预设关键词库得到所述实体的一部分关键词，还可以通过所述实体的结构化数据中直接获取关键词。同时，可以根据所述关键词确定各关键词的权重。

然后，通过预先训练的词向量模型获得每个关键词的词向量。例如，用户A的关键词可以包括：“火锅”，“烧烤”；关键词库中，“火锅”的权重为120，“烧烤”的权重为80。进一步地，通过预先训练的词向量模型可以得到：关键词“火锅”的词向量和键词“烧烤”的词向量。例如：关键词“火锅”的词向量为[0.232,0.12.0.35],关键词“烧烤”的词向量为[0.234,0.13.0.32]。

步骤120，将所述实体的所述关键词的词向量以相应的权重进行加权运算，得到所述实体的实体向量。

具体实施时，所述通过将所述实体的所述关键词的词向量以相应的权重进行加权运算，例如加权求和，得到所述实体的实体向量。实体的实体向量是由所述实体的关键词的词向量生成的，具体实施时，可以采用以下公式确定实体的实体向量：

其中，表示实体的关键词i的词向量，w_i表述关键词i的权重，n表示实体item的关键词有n个，n为大于或等于1的整数，表示实体item的实体向量。

具体实施时，所述关键词的权重根据时间衰减因子、词频因子和场景因子中的至少一项确定。优选的，所述关键词的权重根据时间衰减因子、词频因子和场景因子确定，例如，所述关键词i的权重w_i为时间衰减因子w_{time_i}、词频因子w_{TF_i}和场景因子w_η的乘积确定，表示为：w_i＝w_{time_i}×w_{TF_i}×w_η。

其中，时间衰减因子w_time和词频因子w_TF从关键词库中获取，即：时间衰减因子的取值是根据艾宾浩斯遗忘曲线，根据时间计算得到的，词频因子根据所述关键词出现的频次确定。根据历史数据确定；场景因子w_η结合具体应用场景，通过训练获得。通过结合时间衰减因子和词频因子，对于最近使用和频繁使用的关键词赋予更大的权重，可以强化实体的失效和热度特征，进一步提升实体向量表示的准确性。进一步的，基于实体向量进行搜索或推荐时，有效提升热点实体的曝光率。

具体实施时，在将所述实体的所述关键词的词向量以相应的权重进行加权运算，得到所述实体的实体向量之前，还包括：通过基于点击行为优化目标函数，使得关键词、当次召回对应的环境信息的关键词、用户点击的当次召回实体之间的相似度最大，且所述关键词、当次召回对应的环境信息的关键词、用户未点击的当次召回实体之间的相似度最小，确定所述场景因子w_η。

具体实施时，关键词可以包括查询关键词，也可以包括用户关键词，在搜索场景中，所述关键词是查询关键词，在推荐场景中，所述关键词是用户关键词。以搜索场景为例，基于点击行为优化的目标函数可以表示为：

其中，MAX()为最大化函数；MIN()为最小化函数；simi()为计算相似度函数；表示当次查询的查询词的词向量；表示所述当次查询对应的环境信息的关键词的词向量；表示当次查询召回实体中被点击实体的实体向量；表示所述当次查询召回实体中未被点击实体的实体向量；所述召回实体的实体向量通过对所述召回实体的关键词的词向量进行加权求和得到，所述加权求和的权值通过所述场景因子计算得到。

具体实施时，对于每一条历史的查询请求，使用该词查询对应的关键词的词向量，和该次查询请求对应的环境信息的关键词的词向量(主要是对应的商区关键词向量等)相加作为本次查询的输入向量。从本次查询请求的历史点击数据中随机提取m％的点击实体的实体向量作为正样本，同样选取m％的非点击实体的实体向量作为负样本。计算输入向量和正、负样本中的每一个样本的相似度，计算得到使得输入向量与正样本的相似度尽可能大，同时使得输入向量与负样本的相似度尽可能的小的场景因子W_η。具体实施时，向量之间的相似度可以通过余弦相似度表示。通过不点调整场景因子W_η的取值，使得上述公式满足所有历史查询请求，即完成了目标函数的优化。

然后，根据公式w_i＝w_{time_i}×w_{TF_i}×w_η重新确定关键词的权重，并进一进一步通过公式确定实体的实体向量。

例如，对于实体SHOPID_123，其对应的关键词和关键词初始的权重是：来福士：35，火锅：35，毛肚：45，中山公园：30。经过场景因子对关键词的权重进行修正后，关键词的权重是：来福士：23，火锅：60，毛肚：15，中山公园：35。实体SHOPID_123的实体向量为：“来福士”的词向量乘以权重23，加上“火锅”的词向量乘以60，加上“毛肚”的词向量乘以15，加上“中山公园”的词向量乘以35。

本申请实施例公开的实体向量确定方法，通过根据预先训练的词向量模型，确定实体的关键词的词向量；将所述实体的所述关键词的词向量以相应的权重进行加权运算，得到所述实体的实体向量，解决了现有技术中获取的实体向量不能准确表达实体之间相关性的问题。本申请实施例公开的实体向量确定方法，通过对实体的关键词赋予相应的权重，之后，通过对关键词的词向量进行加权计算，得到相应的实体向量，充分考虑了不同关键词对于不同实体特征表达的重要程度和影响，使得确定的实体向量能准确表达实体的特征，准确的体现实体之间相关性。。

实施例二

本实施例公开的一种信息检索方法，如图2所示，该方法包括：步骤210至步骤240。

步骤210，确定预设实体的实体向量。

本申请实施例中的预设实体为O2O平台上的信息检索对象，所述预设实体可以用户、商户、文章等。例如，搜索平台上的一个用户为一个预设实体、一个商户为一个预设实体、一篇文章为一个预设实体。

具体实施时，首先通过对O2O平台上的每个预设实体进行预处理、切词等，得到每个预设实体包括的关键词。然后，通过预先训练的词向量模型分别确定每个关键词的词向量。进一步的，根据每个预设实体包括的关键词的词向量，确定相应预设实体的实体向量。具体实施时，所述预设实体的实体向量可以包括多个维度，每个维度对应不同空间的向量值。

步骤220，通过局部敏感哈希技术对预设实体的实体向量进行哈希计算，以根据计算得到的哈希值构建索引关系。

其中，所述索引关系至少包括：所述哈希值、所述预设实体的对应关系。

接下来，对于所有预设实体的实体向量，通过局部敏感哈希技术对每个预设实体的实体向量进行哈希计算，对每个预设实体设置不同的哈希值标签，并建立哈希值标签和预设实体的对应关系。所有哈希值标签和预设实体的对应关系，构成了基于哈希值构建的索引关系。

步骤230，根据所述索引关系中的所述哈希值，确定目标实体的候选实体。

其中，所述目标实体和所述候选实体选自于所述预设实体的不同实体。

具体应用过程中，当对目标实体进行信息检索时，首先在已经建立的索引关系中，确定目标实体对应的哈希值。然后，对于目标实体对应的每一个哈希值，分别遍历所述索引关系，进一步确定对应每一个所述哈希值的其他所有预设实体。最后，将对应每一个所述哈希值的其他所有预设实体，做为所述目标实体的候选实体。

步骤240，根据所述目标实体和所述候选实体的所述实体向量，确定所述目标实体和所述候选实体的相似度，以根据所述相似度确定所述目标实体的信息检索结果。

在确定了目标实体的候选实体之后，通过计算所述目标实体与每一个所述候选实体的实体向量的相似度距离，进一步确定所述目标实体与每一个所述候选实体的相似度。然后，根据业务需要，将于所述目标实体相似度最高的预设数量的候选实体做为所述目标实体的关联信息进行召回，已完成对所述目标实体的信息检索。

本申请实施例公开的信息检索方法，通过首先确定预设实体的实体向量，然后通过局部敏感哈希技术对预设实体的实体向量进行哈希计算，以根据计算得到的哈希值构建索引关系，其中，所述索引关系至少包括：所述哈希值、所述预设实体；然后，根据所述索引关系中的所述哈希值，确定目标实体的候选实体，其中，所述目标实体和所述候选实体选自于所述预设实体；最后，根据所述目标实体和所述候选实体的所述实体向量，确定所述目标实体和所述候选实体的相似度，以根据所述相似度确定所述目标实体的信息检索结果，解决了现有技术中通过文本检索时由于需要存储大量文本域，需要匹配的数据量大，所导致的检索效率低下的问题。存储大量文本域，还会占用较大存储空间。

同时，通过局部敏感哈希技术对预设实体的实体向量进行哈希计算，并基于计算的到的哈希值构建索引关系，并进一步通过所述索引关系进行实体检索，可以缩小目标实体的检索范围，有效提升了信息检索的效率。

实施例三

本实施例公开的一种信息检索方法，如图3所示，该方法包括：步骤310至步骤350。

步骤310，根据预先训练的词向量模型，确定预设实体的关键词的词向量。

具体实施时，通过局部敏感哈希技术对预设实体的实体向量进行哈希计算，以根据计算得到的哈希值构建索引关系之前，还包括：根据预先训练的词向量模型，确定所述预设实体的关键词的词向量；根据所述预设实体的所述关键词的词向量，确定相应预设实体的实体向量。

首先，根据O2O平台的历史数据，确定包括用户、商价、文章等类型的预设实体的关键词。具体实施时，可以参照实施例一种确定实体的关键词的方法确定各预设实体的关键词。

然后，通过预先训练的词向量模型获取每个预设实体的关键词的词向量。

步骤320，根据所述预设实体的所述关键词的词向量，确定相应预设实体的实体向量。

具体实施时，根据所述预设实体的所述关键词的词向量，确定相应预设实体的实体向量，包括：根据所述预设实体的所述关键词的词向量和所述关键词的权重，确定所述预设实体的实体向量。具体实施时，可以通过以下公式对所述预设实体的关键词的词向量进行求和汇总，得到所述预设实体的实体向量：

其中，表示实体item的实体向量；w_i表示考虑场景的关键词i的权重，表示该item的关键词i的词向量。本实施例中w_i＝w_{time_i}×w_{TF_i}×w_η，其中，w_η为场景因子。其中，item的关键词包含了用户关键词，商户关键词，文章关键词等多种类别的关键词，在这个实体向量空间下，综合考虑item的关键词的权重和场景权重，生成相应的高维度的实体向量。例如，对于一个实体：SHOPID_123，其对应的关键词和初始权重是：来福士：35，火锅：35，毛肚：30，中山公园：30。则实体SHOPID_123对应的实体向量计算方法为：使用“来福士”的词向量乘以权重35乘以场景因子，加上“火锅”的词向量乘以35乘以场景因子，加上“毛肚”的词向量乘以30乘以场景因子，加上“中山公园”的词向量乘以30乘以场景因子得到。

由于词向量模型是基于词向量的，而所有的实体的关键词都可以在所述词向量模型中找到对应的词，对应的词有对应的向量，这样，就可以用词的向量来合成表示实体的实体向量。同一个词向量模型下的词向量是在同一个向量空间下计算得到的，因此，实体的实体向量也是基于统一的向量空间的，可以进一步通过实体的实体向量比较实体的相似度。例如：可以比较一个商户和一篇美食的文章的相似度等。如图4所示，不同预设实体(如火锅、冒菜、烧烤、疫苗、宠物、宠物医院等)的实体向量基于相同的向量空间进行表示。具体应用中，在不同的细分搜索场景，当搜索“宠物”时，如果“宠物”的实体向量与“疫苗”的实体向量的相似度较高，则召回结果中将会包含“疫苗”信息，进一步提升了检索结果的全面性。

将关键词转化成统一的向量空间下的高维向量表征，用于检索召回，保证检索信息丰富程度的同时还会产生一定的语义相似关系，同时极大地降低了数据的复杂度。实体向量相对于独热(ONE-HOT)编码需要更少的存储空间，并存储更多的信息。

步骤330，通过局部敏感哈希技术对预设实体的实体向量进行哈希计算，以根据计算得到的哈希值构建索引关系。

具体实施时，通过局部敏感哈希技术对预设实体的实体向量进行哈希计算，以根据计算得到的哈希值构建索引关系，包括：通过均匀分布的哈希函数簇进行哈希运算，基于各预设实体的实体向量各维度的取值，将所述预设实体分发到相应的哈希桶中；将每个哈希桶对应的哈希值，作为所述哈希桶中包括的所述预设实体的索引。对应的哈希值每一个所述预设实体都对应一个实体向量，通常，所述实体向量包括多个维度，如图4中的实体向量包括3个维度。对所有实体的实体向量，利用LSH(局部敏感哈希技术)通过均匀分布的哈希函数簇进行哈希运算，可以得到各实体的每个实体向量维度对应的哈希值。然后，进一步将哈希值相似的实体向量分发到一个哈希桶中。最后，将该哈希桶对应的哈希值作为所述哈希桶中实体的哈希值标签，构建至少包括所述预设实体和哈希值的对应关系，以通过哈希值对预设实体进行索引。

以图4中所示的实体“宠物”和“疫苗”举例，实体“宠物”的标识为ID_1，实体向量各维度的取值为：1.0,-0.2,-1.0，则实体“宠物”表示为：ID_1[1.0,-0.2,-1.0]；实体“疫苗”的标识为ID_2，实体向量各维度的取值为：1.0,1.2,3.0，则实体“疫苗”表示为：ID_2[1.0,1.2,3.0]。预设实体ID_1和ID_2的实体向量如图5所示。实体“宠物”的实体向量第一个维度的值1.0和“疫苗”的实体向量第一个维度的值1.0相同，则将实体“宠物”和“疫苗”分发到相同的哈希桶中，如图5中的501，并且，通过哈希运算进一步得到该哈希桶501对应的哈希值，表示为hash_501。实体“宠物”的实体向量第二个维度的值-0.2与实体“疫苗”的实体向量各维度的值均不相近，因此被单独分发到一个哈希桶中，如图5中的502，同样，通过哈希运算进一步得到该哈希桶502对应的哈希值，表示为hash_502。同理，基于实体“宠物”和“疫苗”的每个维度的实体向量值，将实体“宠物”和“疫苗”分发至相应的哈希桶中。最后，将该哈希桶对应的哈希值作为所述哈希桶中实体的哈希值标签，以构建索引关系，即所述预设实体的索引，实体“宠物”和“疫苗”将得到多个哈希值标签。例如，实体“宠物”的哈希值标签可以表示为：ID_1:hash_501,hash_502,hash_503；实体“疫苗”的哈希值标签可以表示为：ID_2:hash_501,hash_504,hash_505。

具体实施时，为了进一步减小存储空间，可以对哈希值进行压缩处理，如对相近的哈希值进行合并。如果向量的值相近，那么在空间上是相近的，同样如果向量的值相近，那么对应的哈希值也相同，所以空间上相似(或相近)的向量其对应的哈希值相同，这样就把实体向量的空间划分和哈希相似碰撞特点融合到了一起。对于不同的两个预设实体，如果其具有相同的哈希值标签，那么在某个维度就是相似的，如果每一个维度都相似的话，这两个预设实体在多维空间上也是相似的。

可选的，预设实体的索引关系中还可以包括所述预设实体的实体向量。如实体“宠物”的索引关系可以表示为：ID_1:vector1，hash_501,hash_502,hash_503。

由于O2O场景是一个高频的快速搜索召回环境，直接使用全量的向量来计算会极大地拖慢召回速度，通过组合实体向量和分布式索引，将实体向量的空间划分和哈希相似碰撞特点融入到场景中，将相似实体向量索引到一起，通过所述索引关系进行实体检索，可以缩小目标实体的检索范围，有效提升了信息检索的效率，达到快速召回相似度高实体的效果。通过本申请公开的信息检索方法，通常一个目标实体的信息检索可以在20毫秒内完成。

步骤340，根据所述索引关系中的所述哈希值，确定目标实体的候选实体。

具体实施时，所述根据所述索引关系中的所述哈希值，确定目标实体的候选实体，包括：遍历所述索引关系，将与目标实体共同对应至少一个哈希值的所述预设实体，作为所述目标实体的候选实体，其中，所述候选实体不同于所述目标实体。例如，首先根据目标实体的标识，确定所述索引关系中的所述目标实体对应的哈希值。其中，所述目标实体为所属预设实体中的一个实体，如一个用户；所述目标实体对应的哈希值可能为多个，如用户ID_3对应的哈希值为hash_506和hash_507。然后，基于每个哈希值hash_506和hash_507，分别确定对应该哈希值hash_506的其他预设实体和对应哈希值hash_506的其他预设实体。最后，将所有对应哈希值hash_506的其他预设实体和所有对应哈希值hash_507的其他预设实体，都作为所述目标实体用户ID_3的候选实体。

具体实施时，哈希值为长度远远小于实体的实体向量的一个数值，因此，通过比较哈希值确定候选实体的效率远远高于直接比较实体向量。

步骤350，根据所述目标实体和所述候选实体的所述实体向量，确定所述目标实体和所述候选实体的相似度，以根据所述相似度确定所述目标实体的信息检索结果。

在确定了目标实体的候选实体之后，通过计算所述目标实体与每一个所述候选实体的实体向量的相似度距离，进一步确定所述目标实体与每一个所述候选实体的相似度。然后，根据业务需要，将于所述目标实体相似度最高的预设数量的候选实体做为所述目标实体的关联信息进行召回，已完成对所述目标实体的信息检索。具体实施时，根据所述目标实体和所述候选实体的所述实体向量，确定所述目标实体和所述候选实体的相似度，包括：通过计算所述目标实体和所述候选实体的所述实体向量之间的相似度，确定所述目标实体和所述候选实体的相似度。由于目标实体和候选实体在统一的向量空间，因此，可以将目标实体和候选实体的实体向量的夹角余弦值做为目标实体和候选实体的相似度。具体实施时，实体向量的相似度还可以通过集卡德相似度，欧氏距离等表示，本申请不再一一列举。

传统方式依靠独热编码(ONE-HOT)的方式存储所有的关键词，需要非常大的存储空间，匹配的数据量大，检索效率低下。通过组合实体向量和分布式索引，将实体向量的空间划分和哈希相似碰撞特点融入到场景中，将相似实体向量索引到一起，通过所述索引关系进行实体检索，可以缩小目标实体的检索范围，有效提升了信息检索的效率。

并且，现有的信息检索技术源于布尔检索，依赖用户查询与倒排索引的字面匹配情况，这种方式高度依赖索引关键词，不能做到语义相似理解用户的搜索意图。例如，用户搜索打防疫针，是希望找到可以打防疫针的医院或者类似的医疗机构。而传统方式会从商户的商户名，商户品牌名中搜索，显然不可能有医院的名字叫打防疫针，所以传统的方式不能满足用户这一需求。同时，传统方式通用性比较差，不同的实体之间需要建立不同格式的索引，不同实体之间的的特征不同，不支持混合检索和排序，不能实现横向比较，例如：用户搜索火锅，传统的方式只会返回火锅的商户，如果用户想看火锅的文章，需要单独点击文章进行搜索，影响用户的搜索体验。可见，现有技术中的信息检索方法无法实现全类型实体的信息检索。

本申请实施例公开的信息检索方法，通过引入结构化数据和UGC评论数据、文章等非结构化的数据来提取预设实体的关键词，并进一步对所述预设实体的关键词进行融合，构建更全面的实体抽象向量化描述，可以解决跨实体的信息检索。

同时，本申请实施例公开的信息检索方法还能解决用户冷启动问题。例如，解决推荐系统的用户冷启动问题。具体而言：对于一个以前仅使用O2O平台检索美食商户，从来不用使用O2O平台检索美食文章的用户，怎样给该用户推荐美食文章的问题，在没有还用户历史看过的文章的数据的情况下，现有技术中只能给该用户推荐热门的文章，但是热门的文章不一定是该用户想看的。通过本申请公开的信息检索方法，O2O平台通过该用户的关键词可以获取该用户喜欢火锅和川菜的关键词，那么就可以召回含有火锅和川菜关键词的文章，通过计算该用户和文章之间的向量相似度，可以进一步确定还用户和文章之间的相似性，有效解决了数据冷启动的问题，同时提升了推荐结果的准确性。

实施例四

本实施例公开的一种实体向量确定装置，如图6所示，所述装置包括：

关键词词向量确定模块610，用于根据预先训练的词向量模型，确定实体的关键词的词向量；

实体向量确定模块620，用于将所述实体的所述关键词的词向量以相应的权重进行加权运算，得到所述实体的实体向量。

可选的，所述关键词的权重根据时间衰减因子、词频因子和场景因子中的至少一项确定。

可选的，如图7所示，所述装置还包括：

权重训练模块630，用于通过基于点击行为优化目标函数，使得关键词、当次召回对应的环境信息的关键词、用户点击的当次召回实体之间的相似度最大，且所述关键词、当次召回对应的环境信息的关键词、用户未点击的当次召回实体之间的相似度最小，确定所述场景因子。

其中，所述关键词可以包括查询关键词，也可以包括用户关键词，在搜索场景中，所述关键词是查询关键词，在推荐场景中，所述关键词是用户关键词。

通过结合时间衰减因子和词频因子，对于最近使用和频繁使用的关键词赋予更大的权重，可以强化实体的失效和热度特征，进一步提升实体向量表示的准确性。进一步的，基于实体向量进行搜索或推荐时，有效提升热点实体的曝光率。

实施例五

本实施例公开的一种信息检索装置，如图8所示，所述装置包括：

实体向量确定模块810，用于通过实施例一所述的实体向量确定方法确定预设实体的实体向量

预设实体哈希索引构建模块820，用于通过局部敏感哈希技术对预设实体的实体向量进行哈希计算，以根据计算得到的哈希值构建索引关系，其中，所述索引关系至少包括：所述哈希值、所述预设实体；

候选实体确定模块830，用于根据所述预设实体哈希索引构建模块820构建的索引关系中的所述哈希值，确定目标实体的候选实体，其中，所述目标实体和所述候选实体选自于所述预设实体；

信息检索模块840，用于根据所述目标实体和所述候选实体确定模块830确定的候选实体的所述实体向量，确定所述目标实体和所述候选实体的相似度，以根据所述相似度确定所述目标实体的信息检索结果。

具体实施时，所述实体向量确定模块810的具体实施方式参见实施例一的描述，此处不再赘述。

可选的，所述预设实体哈希索引构建模块820进一步用于：

通过均匀分布的哈希函数簇进行哈希运算，基于各预设实体的实体向量各维度的取值，将所述预设实体分发到相应的哈希桶中；

将每个哈希桶对应的哈希值，作为所述哈希桶中包括的所述预设实体的索引。

可选的，所述候选实体确定模块830进一步用于：

遍历所述索引关系，将与目标实体共同对应至少一个哈希值的所述预设实体，作为所述目标实体的候选实体，其中，所述候选实体不同于所述目标实体。

可选的，所述信息检索模块840进一步用于：

通过计算所述目标实体和所述候选实体的所述实体向量之间的相似度，确定所述目标实体和所述候选实体的相似度。

本申请实施例公开的信息检索装置，通过预先确定预设实体的实体向量，然后，通过局部敏感哈希技术对预设实体的实体向量进行哈希计算，以根据计算得到的哈希值构建索引关系，其中，所述索引关系至少包括：所述哈希值、所述预设实体；然后，根据所述索引关系中的所述哈希值，确定目标实体的候选实体，其中，所述目标实体和所述候选实体选自于所述预设实体；最后，根据所述目标实体和所述候选实体的所述实体向量，确定所述目标实体和所述候选实体的相似度，以根据所述相似度确定所述目标实体的信息检索结果，解决了现有技术中通过文本检索时由于需要存储大量文本域，需要匹配的数据量大，所导致的检索效率低下的问题。存储大量文本域，还会占用较大存储空间。

本申请实施例公开的信息检索装置，通过引入结构化数据和UGC评论数据、文章等非结构化的数据来提取预设实体的关键词，并进一步对所述预设实体的关键词进行融合，构建更全面的实体抽象向量化描述，可以解决跨实体的信息检索。

同时，本申请实施例公开的信息检索装置还能解决用户冷启动问题。例如，解决推荐系统的用户冷启动问题。具体而言：对于一个以前仅使用O2O平台检索美食商户，从来不用使用O2O平台检索美食文章的用户，怎样给该用户推荐美食文章的问题，在没有还用户历史看过的文章的数据的情况下，现有技术中只能给该用户推荐热门的文章，但是热门的文章不一定是该用户想看的。通过本申请公开的信息检索装置，O2O平台通过该用户的关键词可以获取该用户喜欢火锅和川菜的关键词，那么就可以召回含有火锅和川菜关键词的文章，通过计算该用户和文章之间的向量相似度，可以进一步确定还用户和文章之间的相似性，有效解决了数据冷启动的问题，同时提升了推荐结果的准确性。

相应的，本申请还公开了一种电子设备，包括存储器、处理器及存储在所述存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如本申请实施例一所述和实体向量确定方法和/或实施例二、实施例三所述的信息检索方法。所述电子设备可以为PC机、移动终端、个人数字助理、平板电脑等。

本申请还公开了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如本申请所述和实体向量确定方法和/或实施例二、实施例三所述的信息检索方法的步骤。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上对本申请提供的一种实体向量确定方法及装置信息检索方法及装置进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件实现。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

Claims

1.一种实体向量确定方法，其特征在于，包括：

根据预先训练的词向量模型，确定实体的关键词的词向量；

2.根据权利要求1所述的方法，其特征在于，所述关键词的权重根据时间衰减因子、词频因子和场景因子中的至少一项确定。

3.根据权利要求2所述的方法，其特征在于，所述将所述实体的所述关键词的词向量以相应的权重进行加权运算，得到所述实体的实体向量的步骤之前，还包括：

通过基于点击行为优化目标函数，使得关键词、当次召回对应的环境信息的关键词、用户点击的当次召回实体之间的相似度最大，且所述关键词、当次召回对应的环境信息的关键词、用户未点击的当次召回实体之间的相似度最小，确定所述场景因子。

4.一种检索方法，其特征在于，包括：

通过权利要求1至3任一项所述的实体向量确定方法，确定预设实体的实体向量；

5.根据权利要求4所述的方法，其特征在于，所述通过局部敏感哈希技术对预设实体的实体向量进行哈希计算，以根据计算得到的哈希值构建索引关系的步骤，包括：

6.根据权利要求4所述的方法，其特征在于，所述根据所述索引关系中的所述哈希值，确定目标实体的候选实体的步骤，包括：

7.根据权利要求4所述的方法，其特征在于，所述根据所述目标实体和所述候选实体的所述实体向量，确定所述目标实体和所述候选实体的相似度的步骤，包括：

8.一种实体向量确定装置，其特征在于，包括：

9.根据权利要求8所述的装置，其特征在于，所述关键词的权重根据时间衰减因子、词频因子和场景因子中的至少一项确定。

10.根据权利要求9所述的装置，其特征在于，还包括：

权重训练模块，用于通过基于点击行为优化目标函数，使得关键词、当次召回对应的环境信息的关键词、用户点击的当次召回实体之间的相似度最大，且所述关键词、当次召回对应的环境信息的关键词、用户未点击的当次召回实体之间的相似度最小，确定所述场景因子。

11.一种信息检索装置，其特征在于，包括：

实体向量确定模块，用于通过权利要求1至3任一项所述的实体向量确定方法确定预设实体的实体向量；

12.根据权利要求11所述的装置，其特征在于，所述预设实体哈希索引构建模块进一步用于：

13.根据权利要求12所述的方法，其特征在于，所述候选实体确定模块进一步用于：

14.根据权利要求11至13任一项所述的装置，其特征在于，所述信息检索模块进一步用于：

15.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至3任意一项所述的实体向量生成方法和/或实现权利要求4至7任意一项所述的信息检索方法。

16.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现权利要求1至3任意一项所述的实体向量生成方法和/或实现权利要求4至7任意一项所述的信息检索方法的步骤。