CN105912630A

CN105912630A - 一种信息扩展方法及装置

Info

Publication number: CN105912630A
Application number: CN201610214393.5A
Authority: CN
Inventors: 邢宁; 刘明荣; 许静芳; 常晓夫
Original assignee: Beijing Sogou Technology Development Co Ltd
Current assignee: Beijing Sogou Information Service Co Ltd
Priority date: 2016-04-07
Filing date: 2016-04-07
Publication date: 2016-08-31
Anticipated expiration: 2036-04-07
Also published as: CN105912630B

Abstract

本发明公开了一种信息扩展方法及装置，包括：接收用户输入的第一搜索词；查询词向量库，获取所述第一搜索词的第一词向量；获取至少一个第二搜索词，所述第二搜索词是所述词向量库中距离上靠近所述第一词向量的第二词向量对应的历史搜索词；所述词向量库中包括历史搜索词与所述历史搜索词对应的词向量；其中，所述词向量是依据至少一组包括所述历史搜索词的搜索序列生成的；所述搜索序列为已发生的一个用户搜索行为对应的一组历史搜索词。本发明可以更加全面且准确的扩展出表达用户搜索意图的搜索词。

Description

一种信息扩展方法及装置

技术领域

本发明涉及信息处理技术领域，尤其涉及一种信息扩展方法及装置。

背景技术

查询扩展是查询优化的一个重要和长期的分支研究方向，其目的是为了改善信息查询中的查全率和查准率。查询扩展主要是采用一定的方法和策略，对用户输入的原搜索词进行扩展，具体是对原搜索词中的关键词进行同义词替换或者根据原搜索词的上下文内容增减相关搜索词，以构造出新的搜索词，以便搜索引擎利用新的搜索词进行再次查询，使搜索引擎可以从海量信息中找到用户想要的查询内容。

上述查询扩展方式主要是基于语义相关性对原搜索词进行扩展，但却不能基于原搜索词扩展出表达用户搜索意图的新搜索词，从而不能利用更多的新搜索词再次进行信息查询，使得搜索引擎在信息搜索方面的查全率和查准率较低，进而使搜索引擎不能给用户提供更多更全的相关查询结果。比如，假设大量用户会在搜索“天津爆炸事件”的时候，短时间内还会搜索“天津爆炸危险物来源”，但由于“危险物来源”与“事件”的语义相关性不大，所以现有查询扩展方式不能以“天津爆炸事件”为原搜索词通过词替换或词增减的方式扩展出“天津爆炸危险物来源”这一表达用户搜索意图的新搜索词。

发明内容

有鉴于此，本发明实施例的主要目的在于提供一种信息扩展方法及装置，可以更加全面且准确的扩展出表达用户搜索意图的搜索词。

一方面，本发明实施例提供了一种信息扩展方法，包括：

接收用户输入的第一搜索词；

查询词向量库，获取所述第一搜索词的第一词向量；获取至少一个第二搜索词，所述第二搜索词是所述词向量库中距离上靠近所述第一词向量的第二词向量对应的历史搜索词；

所述词向量库中包括历史搜索词与所述历史搜索词对应的词向量；其中，所述词向量是依据至少一组包括所述历史搜索词的搜索序列生成的；所述搜索序列为已发生的一个用户搜索行为对应的一组历史搜索词。

可选的，所述获取至少一个第二搜索词，包括：

遍历所述词向量库，获取与所述第一词向量的距离小于预设值的词向量作为所述第二词向量；

查询词向量库，获取所述第二词向量对应的第二搜索词。

可选的，所述方法还包括：

对所述词向量库中的词向量进行聚类，将在距离上靠近的各个词向量聚为一个向量集；

所述获取与所述第一词向量的距离小于预设值的词向量作为所述第二词向量，包括：

查询得到所述第一词向量所属的向量集；

从所述第一词向量所属的向量集中获取至少一个与所述第一词向量的距离小于预设值的词向量作为所述第二词向量；

或者，

查询得到与所述第一词向量距离最近的向量集；

从所述距离最近的向量集中获取至少一个与所述第一词向量的距离小于预设值的词向量作为所述第二词向量。

可选的，为所述词向量库中的每个向量集配置一对应的中心向量，所述中心向量接近或等于对应向量集中所有词向量的平均向量；

所述查询得到与所述第一词向量距离最近的向量集，包括：

计算所述第一词向量与每个向量集的中心向量之间的距离；

选择与所述第一词向量距离最近的中心向量对应的向量集，作为与所述第一词向量距离最近的向量集。

可选的，所述方法还包括：

获取历史搜索词，构建训练词库；

针对训练词库中的各历史搜索词，依据至少一组包括所述历史搜索词的搜索序列生成所述历史搜索词对应的词向量；

建立所述历史搜索词与所述词向量之间的对应关系，保存在词向量库中。

可选的，所述获取历史搜索词，构建训练词库，包括：

统计第一时段内接收的各历史搜索词的词频；

提取高频词，构建训练词库。

可选的，所述针对训练词库中的各历史搜索词，依据至少一组包括所述历史搜索词的搜索序列生成所述历史搜索词对应的词向量，包括：

将训练词库中的各历史搜索词按照对应的用户进行分类，生成每个用户完成一次搜索行为对应的搜索序列；

依据每一历史搜索词所属的各个搜索序列进行模型训练，生成所述历史搜索词对应的词向量。

依据历史搜索记录，生成搜索序列集；所述搜索序列集包括各用户完成一次搜索行为对应的搜索序列；

遍历所述搜索序列集，对每个搜索序列中包括的与所述训练词库匹配的历史搜索词，依据包括所述历史搜索词的各搜索序列进行模型训练，生成所述历史搜索词对应的词向量。

搜索词接收单元，用于接收用户输入的第一搜索词；

扩展词获取单元，用于查询词向量库，获取所述第一搜索词的第一词向量；获取至少一个第二搜索词，所述第二搜索词是所述词向量库中距离上靠近所述第一词向量的第二词向量对应的历史搜索词；

另一方面，本发明实施例还提供了一种信息扩展装置，包括：

搜索词接收单元，用于接收用户输入的第一搜索词；

词向量获取单元，用于查询词向量库，获取所述第一搜索词的第一词向量；所述词向量库中包括历史搜索词与所述历史搜索词对应的词向量；其中，所述词向量是依据至少一组包括所述历史搜索词的搜索序列生成的；所述搜索序列为已发生的一个用户搜索行为对应的一组历史搜索词；

扩展词获取单元，用于获取至少一个第二搜索词，所述第二搜索词是所述词向量库中距离上靠近所述第一词向量的第二词向量对应的历史搜索词。

另一方面，本发明实施例还提供了一种用于信息扩展的装置，包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：

接收用户输入的第一搜索词；

本发明实施例提供的一种信息扩展方法及装置，对于用户输入的第一搜索词，当所述第一搜索词与第二搜索词同时出现在大量不同的搜索序列中时，说明大量用户的共同搜索意图是在查询所述第一搜索词的同时还想查询所述第二搜索词的相关信息，当存在同时包含第一搜索词与第二搜索词的大量搜索序列时，由于利用这些搜索序列生成的第一搜索词的第一词向量和第二搜索词的第二词向量，二者在距离上会更为相近，因此，在距离上靠近第一词向量的第二词向量对应的第二搜索词，即为基于第一搜索词扩展出的包含用户搜索意图的搜索词。可见，利用包含用户搜索意图的搜索序列，可以更加全面且准确的扩展出表达用户搜索意图的搜索词。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的信息扩展方法的流程示意图；

图2为本发明实施例提供的词向量库的建立方法的流程示意图；

图3为本发明实施例提供的信息扩展装置示意图；

图4为本发明实施例提供的用于信息扩展的装置示意图；

图5是本发明实施例中服务器的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

当用户利用互联网搜索自己感兴趣的信息时，通常会在短时间内，在浏览器的搜索框内先后输入不同的相关搜索词，直到放弃搜索或搜索到满意的内容为止，该短时间内输入的一组相关搜索词即为该用户的一次搜索行为对应的搜索序列。通常情况下，一个用户短时间内输入的搜索序列，不但具有很强的语义相关性，还包含了该用户的搜索意图，因此，如果当前用户通过输入搜索词进行信息查询时，则可以根据已经存在的与当前搜索词相关的不同搜索系列，扩展出新的、更能表达当前用户搜索意图的多个搜索词，这样利用扩展出的搜索词进行信息查询时，可以查询出更全面更准确的相关内容。

参见图1，为本发明实施例提供的信息扩展方法的流程示意图，该方法包括以下步骤：

步骤101：接收用户输入的第一搜索词。

当用户想要了解一些感兴趣的信息时，比如一些热点事件的相关信息，会在浏览器的搜索框内输入相关搜索词，以便搜索引擎根据用户输入的搜索词从互联网上搜集相关内容，在对信息进行组织和处理后展示给用户。

其中，所述第一搜索词可以是当前用户输入到搜索框内的完整内容，具体可以是一个词或一个短语甚至可以是一短句。

优选地，所述第一搜索词还可以是当前用户输入到搜索框内的部分内容。具体地，如果当前用户将一短语或者一短句或者是用空格分隔开的若干个搜索词输入到搜索框，则可以对短语或短句或若干个搜索词进行过滤，去除其中包括的无用信息，以得到短语或短句或若干个搜索词中的关键搜索内容，并将过滤出的关键搜索内容作为第一搜索词。例如，假设用户输入的短语是“天津爆炸的具体原因”，将该短语进行过滤后得到的第一搜索词可以为“天津爆炸”或“天津爆炸原因”等，假设用户输入的短句是“我想查询天津爆炸的具体原因”，将该短句进行过滤后得到的第一搜索词也可以为“天津爆炸”或“天津爆炸原因”等，假设用户输入的是用空格分隔开的“天津爆炸”和“具体原因”这两个搜索词，将二者进行过滤后得到的第一搜索词同样可以为“天津爆炸”或“天津爆炸原因”等。

步骤102：查询词向量库，获取所述第一搜索词的第一词向量。

具体的，查询词向量库，获取所述词向量库中与所述第一搜索词对应的第一词向量。其中，所述词向量库中保存有历史搜索词和历史搜索词对应的词向量。

需要说明的是，如果在所述词向量库中查询不到与所述第一搜索词对应的第一词向量，则可以查询与所述第一搜索词对应的核心关键词对应的词向量，作为所述第一搜索词对应的第一词向量。

例如，假设用户输入的第一搜索词是“天津爆炸的具体原因”，依据该短语查询词向量库时，可能查询不到与该短语对应的词向量，则可以提取得到该第一搜索词对应的核心关键词，例如“天津爆炸”或“天津爆炸原因”，并依据该核心关键词查询词向量库，获取与所述核心关键词对应的词向量，作为所述第一搜索词对应的第一词向量。

步骤103：获取至少一个第二搜索词，所述第二搜索词是所述词向量库中在距离上靠近所述第一词向量的第二词向量对应的历史搜索词。

由于一个用户搜索行为对应的一组历史搜索词(即搜索序列)，具有很强的语义相关性且包含了用户的搜索意图，所以利用搜索序列生成的词向量中也包含了语义信息和意图信息。因此，在利用所述第一搜索词进行搜索词扩展时，如果在历史搜索记录中，所述第一搜索词与所述第二搜索词多次共同出现在同一搜索序列中，则第一搜索词的第一词向量与所述第二搜索词的第二词向量的距离会更近，则基于所述第一搜索词以及这些搜索序列便可以扩展出表达用户搜索意图的第二搜索词。比如，假设大量用户在搜索“天津爆炸事件”的时候，短时间内还会搜索“天津爆炸危险物来源”，即“天津爆炸事件”与“天津爆炸危险物来源”同时属于不同用户搜索行为对应的不同搜索序列中，这说明不同用户的共同搜索意图是在搜索“天津爆炸事件”的同时还想搜索“天津爆炸危险物来源”的相关信息，因此，当用户输入的第一搜索词是“天津爆炸事件”时，扩展出的搜索词还可以包括“天津爆炸危险物来源”这一表达用户搜索意图的词，这是现有扩展方式无法扩展出的。

可见，所述第二搜索词即为根据所述第一搜索词扩展出的新的、且能表达用户搜索意图的搜索词，搜索引擎可以将所述第二搜索词作为新的搜索词再次进行查询，或者将所述第二搜索词作为查询提示(hint)推荐给用户，以便用户将查询提示作为新的第一搜索词进行重新查询，这样可以有效提高搜索引擎在信息搜索方面的查全率和查准率，并为用户提供较好的查询体验。

在一些实施方式中，步骤103可以包括步骤103A和步骤103B：

步骤103A：遍历所述词向量库，获取与所述第一词向量的距离小于预设值的词向量作为所述第二词向量。

步骤103A具体可以采用以下两种方式之一：

方式一：依次遍历所述词向量库中的各个词向量，计算所述第一词向量与词向量库中每个词向量之间的距离，从这些距离值中筛选出小于预设值的距离值，并将所述词向量库中的与筛选出的距离值对应的词向量作为第二词向量。

方式二：为节省系统运算时间，预先对所述词向量库中的词向量进行聚类，将在距离上靠近的各个词向量聚为一个向量集，基于这些向量集，可以从所述第一词向量所属的向量集或与所述第一词向量距离最近的向量集中选取至少一个第二词向量。

在方式二的一种实施方式中，步骤103A所述的获取与所述第一词向量的距离小于预设值的词向量作为所述第二词向量可以包括：查询得到所述第一词向量所属的向量集；从所述第一词向量所属的向量集中获取至少一个与所述第一词向量的距离小于预设值的词向量作为所述第二词向量。

在这种实施方式中，如果所述第一词向量是所述词向量库中的一个词向量，则可以从所述词向量库中的各个向量集中找到所述第一词向量所属的向量集，计算所述第一词向量与该向量集中每个词向量之间的距离，从这些距离值中筛选出小于预设值的距离值，并将该向量集中的与筛选出的距离值对应的词向量作为第二词向量。

在方式二的另一种实施方式中，步骤103A所述的获取与所述第一词向量的距离小于预设值的词向量作为所述第二词向量还可以包括：查询得到与所述第一词向量距离最近的向量集；从所述距离最近的向量集中获取至少一个与所述第一词向量的距离小于预设值的词向量作为所述第二词向量。

在这种实施方式中，如果所述第一词向量不是所述词向量库中的一个词向量，则可以从所述词向量库中的各个向量集中找到与所述第一词向量距离最近的向量集，计算所述第一词向量与该向量集中每个词向量之间的距离，从这些距离值中筛选出小于预设值的距离值，并将该向量集中的与筛选出的距离值对应的词向量作为第二词向量。

为了查询到与所述第一词向量距离最近的向量集，所述方法还包括：为所述词向量库中的每个向量集配置一对应的中心向量，所述中心向量接近或等于对应向量集中所有词向量的平均向量。具体来讲，可以预先为每个向量集分别配置一个中心向量，中心向量代表了向量集中所有词向量的总体属性，具体配置时可以使中心向量接近或等于向量集中所有词向量的平均向量，在选择与所述第一词向量距离最近的向量集时，可以计算所述第一词向量与各个向量集的中心向量之间的距离，从中选择与所述第一词向量距离最近的中心向量对应的向量集。可见，所述查询得到与所述第一词向量距离最近的向量集，可以包括：计算所述第一词向量与每个向量集的中心向量之间的距离；选择与所述第一词向量距离最近的中心向量对应的向量集，作为与所述第一词向量距离最近的向量集。

步骤103B：查询词向量库，获取所述第二词向量对应的第二搜索词。

由于所述词向量库中保存有历史搜索词和历史搜索词对应的词向量，因此，可以通过查询词向量库，从中找到所述第二词向量对应的第二搜索词。

为了从所述词向量库中获取第一搜索词的第一词向量、获取第二词向量以及获取第二词向量对应的第二搜索词，需要预先建立一个词向量库，参见图2所示的词向量库的建立方法的流程示意图。

步骤201：获取历史搜索词，构建训练词库。

所述训练词库中的历史搜索词可以包括输入到不同浏览器的搜索框内的搜索词、或者包括输入到某一个具体浏览器的搜索框内的搜索词，比如，搜狗浏览器、百度浏览器等。所述训练词库中的内容可以随时进行更新。

所述训练词库中的搜索词可以是第一时段(比如过去的几个月或过去的一年等等)内不同用户输入的部分历史搜索词或者全部历史搜索词，当为所述部分历史搜索词时，可以从所述全部历史搜索词中筛选出一部分，这部分历史搜索词可以是搜索热度较高或者说是关注度较高的搜索词。

具体地，所述部分搜索词可以是所述第一时段内接收的高频词，因此步骤201具体可以包括：统计第一时段内接收的各历史搜索词的词频；提取高频词，构建训练词库。

具体地，所述高频词的提取方式可以包括：按照词频由高到低的顺序，从所述第一时段内接收的各历史搜索词中筛选出预设数量的历史搜索词；或者，从所述第一时段内接收的各历史搜索词中筛选出词频大于设定阈值的历史搜索词。

举例说明这种高频词提取方式：假设所述第一时段为2015年，先统计出2015年内接收到的所有历史搜索词，再计算出每个历史搜索词的词频(即计算每个历史搜索词在2015年中的被搜索次数)，最后根据词频大小从所有历史搜索词中筛选出搜索热度或关注度较高的历史搜索词。一种筛选方式是，按照词频由高到低的顺序，筛选出前N(N为大于0的整数)个词频对应的历史搜索词，为便于记录，为选出的N个历史搜索词分别配置一个索引值，比如索引成1、 2……N；另一种筛选方式是，利用一个设定的词频阈值来筛选，假设所述词频阈值为10，选出词频大于10的历史搜索词(即选出2015年内搜索次数大于10的各个历史搜索词)，当选出M(M为大于0的整数)个历史搜索词时，为便于记录，为选出的M个历史搜索词分别配置一个索引值，比如索引成1、2……M。对于第N个以后或低于词频阈值的历史搜索词，是搜索热度或关注度不高的词，可以配置一个unk字符，用于与筛选出的高频词区分。

步骤202：针对训练词库中的各历史搜索词，依据至少一组包括所述历史搜索词的搜索序列生成所述历史搜索词对应的词向量。

在第一种实施方式中，步骤202具体可以包括：将训练词库中的各历史搜索词按照对应的用户进行分类，生成每个用户完成一次搜索行为对应的搜索序列；依据每一历史搜索词所属的各个搜索序列进行模型训练，生成所述历史搜索词对应的词向量。

这种实施方式中，针对所述训练词库中的每个历史搜索词，确定利用该历史搜索词进行信息查询的用户，依据各个历史搜索词对应的用户进行分类，以将所述训练词库中的所有历史搜索词划分成多个搜索序列，使同一用户的一次用户搜索行为对应一个搜索序列，对于所述训练词库中的每个历史搜索词，依据包含该历史搜索词的各个搜索序列对该历史搜索词进行模型训练，以得到该历史搜索词的词向量。

在第二种实施方式中，步骤202具体可以包括：依据历史搜索记录，生成搜索序列集；所述搜索序列集包括各用户完成一次搜索行为对应的搜索序列；遍历所述搜索序列集，对每个搜索序列中包括的与所述训练词库匹配的历史搜索词，依据包括所述历史搜索词的各搜索序列进行模型训练，生成所述历史搜索词对应的词向量。

在这种实施方式中，统计第二时段(比如第二时段是过去的几个月或过去的一年等等、第二时段与上述第一时段相同或不同)内接收的各个历史搜索词，由于历史搜索记录中记录有各个历史搜索词对应的用户信息，依据各个历史搜索词对应的用户进行分类，可以将第二时段内接收的所有历史搜索词划分成多个搜索序列，使同一用户的一次用户搜索行为对应一个搜索序列，对于搜索序列中的每个历史搜索词，判断其是否为所述训练词库中的高频词，如果是，则依据包含该历史搜索词的各个搜索序列对该历史搜索词进行模型训练，以得到该历史搜索词的词向量。

在上述两种实施方式中，所述一个用户搜索行为对应的搜索序列是指短时间内某用户输入到搜索框内的一系列历史搜索词，比如搜索序列为：苹果、苹果手机、iphone6s、土豪金价格、苹果6，假设该搜索序列对应的索引序列为15、2、20、6、1，可以在该搜索序列之后添加诸如end这类结束标识，用以区分不同的搜索序列。其中，一个搜索序列中的历史搜索词的排序，可以是按照对应用户输入到搜索框内的先后顺序排序的也可以是随机排序的。

在生成搜索序列时，具体可采用以下两种方式之一：

方式一：生成每个用户关闭浏览器前输入的搜索序列。

由于是以用户搜索行为为单位划分搜索序列的，因此需要对用户完成的一个完整搜索行为进行判断，具体可以依据用户关闭浏览器的操作来判断，在这种判断方式中，可以在用户输入搜索词的过程中，检测浏览器是否被该用户关闭，若检测到关闭操作则进行记录。

在上述步骤202的第一种实施方式中，由于是利用所述训练词库中的词生成搜索序列的，因此可以预先为所述训练词库中的每个历史搜索词配置用户标识和对应的浏览器关闭记录，基于这些配置信息，可以在生成搜索序列时，将同一关闭记录前同一用户输入的一系列历史搜索词划分成一个搜索序列。

在上述步骤202的第二种实施方式中，由于是利用第二时段内的历史搜索记录中记录的词生成搜索序列的，且由于历史搜索记录中记录了每个用户的用户标识和对应的浏览器关闭记录，因此可以在生成搜索序列时，直接根据历史搜索记录将同一关闭记录前同一用户输入的一系列历史搜索词划分一个搜索序列。

方式二：生成预设时长前每个用户输入的搜索序列，所述预设时长内未检测到对应用户的搜索操作。

由于是以用户搜索行为为单位划分搜索序列的，因此需要对用户完成的一个完整搜索行为进行判断，具体可以依据用户输入搜索词的间隔时间来判断，在这种判断方式中，可以在用户输入搜索词的过程中，监测所输入的每两个搜索词的间隔时间，若监测到间隔时间大于预设时长(比如10分钟)，即预设时长内未检测到用户输入搜索词的行为，则对该预设时长进行记录。

在上述步骤202的第一种实施方式中，由于是利用所述训练词库中的词生成搜索序列的，因此可以预先为所述训练词库中的每个历史搜索词配置用户标识和对应的预设时长记录，基于这些配置信息，可以在生成搜索序列时，将同一预设时长记录前同一用户输入的一系列历史搜索词划分为一个搜索序列。

在上述步骤202的第二种实施方式中，由于是利用第二时段内的历史搜索记录中记录的词生成搜索序列的，且由于历史搜索记录中记录了每个用户的用户标识和对应的预设时长记录，因此可以在生成搜索序列时，直接根据历史搜索记录将同一预设时长记录前同一用户输入的一系列历史搜索词划分为一个搜索序列。

在生成各个搜索序列之后，基于这些搜索序列进行模型训练，以生成训练词库中每一历史搜索词对应的词向量。模型训练所使用的是文本深度表示模型(Word2vec)，Word2vec是一款将词表征为实数值向量的高效工具，其利用深度学习的思想，可以通过训练，把对文本内容的处理简化为K维向量空间中的向量运算，而向量空间上的相似度可以用来表示文本语义上的相似度。其基本思想是通过训练将每个历史搜索词映射成一个K维实数向量即词向量，进而可以通过词向量之间的距离来判断它们之间的语义相似度，基于此，在一些实施方式中，利用Word2vec的Skip-gram模型作为词向量模型，并建模如下：

\arg \max_{θ} \underset{w &Element; T}{Π} [\underset{c &Element; C (w)}{Π} p (c | w; θ)] - - - (1)

其中，θ：模型参数；

w：训练词库中的一个历史搜索词；

T：所有搜索序列的集合；

c：以w为中心，向前k个历史搜索词和向后k个历史搜索词所形成的语境中一个历史搜索词，其中，所述语境中的历史搜索词包括一个搜索序列中的部分或全部历史搜索词；

C(w)：在集合T中，w出现过的语境所包含的历史搜索词的集合，比如一个搜索序列为：苹果、苹果手机、iphone6s、土豪金价格、苹果6，若w为iphone6s，k是1，则w出现过的语境包括苹果手机、iphone6s、土豪金价格；

p(c|w)：当w出现时，c出现的概率。

公式(1)等同于下式：

\arg \max_{θ} \underset{(w, c &Element; D)}{Π} p (c | w; θ) - - - (2)

其中，D：所有w和w对应的C(w)构成的组合的集合。

对θ进行形式化处理，使得条件概率转化为下式：

p (c | w; θ) = \frac{e^{v_{c} \cdot v_{w}}}{e_{v_{c,} \cdot v_{w}}^{c, &Element; C}} - - - (3)

其中，v_c和v_w分别是c和w的词向量，C是所有语境中的历史搜索词构成的集合，c’是C中的一个历史搜索词，v_c’是c’的词向量。

将式(3)代入式(2)，并于等式两边取对数可得：

\arg \max_{θ} \underset{(w, c &Element; D)}{Σ} \log p (c | w) = \underset{(w, c &Element; D)}{Σ} (\log e^{v_{c} \cdot v_{w}} - \log \underset{c}{Σ} e^{v_{c,} \cdot v_{w}}) - - - (4)

对于训练词库中的每一历史搜索词w，如果训练得出的词向量v_w能够使条件概率p(c|w)最大化，则训练出的v_w即为该历史搜索词w的词向量。

可以理解的是，以历史搜索词w为中心、向前k个历史搜索词和向后k个历史搜索词所组成的词组(该词组包括w所在搜索序列中的部分或全部历史搜索词)是w所在的语境，如果大量包含历史搜索词w的语境中同时还包含历史搜索词v，则在进行上述模型训练时，历史搜索词w的词向量与历史搜索词v的词向量之间的距离会更为相近，这表征大量用户的共同搜索意图是在查询历史搜索词w的同时还想查询历史搜索词v的相关信息。所以，基于历史搜索词w的词向量与历史搜索词v的词向量在距离上较近这一特性，使得当前用户在搜索历史搜索词w时，搜索引擎会根据历史搜索词w扩展出历史搜索词v，反之，还使得当前用户在搜索历史搜索词v时，搜索引擎会根据历史搜索词v扩展出历史搜索词w。

步骤203：建立所述历史搜索词与所述词向量之间的对应关系，保存在词向量库中。

对于词向量库中的每个历史搜索词，在词向量库中均对应有一个自己的词向量，在建立历史搜索词与对应词向量之间的对应关系时，具体可为历史搜索词与对应词向量配置一个统一编码。对于步骤101中用户输入的第一搜索词，若通过查找词向量库找到第一搜索词或第一搜索词对应的核心关键词时，可基于所述第一搜索词或所述核心关键词与对应词向量之间的对应关系查找第一词向量，具体可利用为所述第一搜索词或所述核心关键词配置的编码查询词向量库，找到同样配置有该编码的第一词向量。因此，步骤102具体可以包括：根据所述对应关系，从所述词向量库中获取与所述第一搜索词对应的第一词向量。

在计算所述第一词向量与词向量库中其它词向量之间的距离时，若找到距离上与所述第一词向量较近的一个或多个第二词向量，则可利用所述第二词向量与对应搜索词之间的对应关系，具体可利用为所述第二词向量配置的编码查询词向量库，找到同样配置有该编码的第二搜索词。因此，步骤103具体可以包括：遍历所述词向量库，获取与所述第一词向量的距离小于预设值的词向量作为所述第二词向量；根据所述对应关系，从词向量库获取所述第二词向量对应的第二搜索词。

需要说明的是，在计算词向量与词向量、或词向量与中心向量之间的距离时，具体可以采用欧氏距离、或曼哈顿距离、或夹角余弦等距离计算方法，在此不做限定。

本发明实施例提供的一种信息扩展方法，对于用户输入的第一搜索词，当所述第一搜索词与第二搜索词同时出现在大量不同的搜索序列中时，说明大量用户的共同搜索意图是在查询所述第一搜索词的同时还想查询所述第二搜索词的相关信息，当存在同时包含第一搜索词与第二搜索词的大量搜索序列时，由于利用这些搜索序列生成的第一搜索词的第一词向量和第二搜索词的第二词向量，二者在距离上会更为相近，因此，在距离上靠近第一词向量的第二词向量对应的第二搜索词，即为基于第一搜索词扩展出的包含用户搜索意图的搜索词。可见，利用包含用户搜索意图的搜索序列，可以更加全面且准确的扩展出表达用户搜索意图的搜索词。

参见图3，为本发明实施例提供的信息扩展装置示意图，所述信息扩展装置300包括：

搜索词接收单元301，用于接收用户输入的第一搜索词；

词向量获取单元302，用于查询词向量库，获取所述第一搜索词的第一词向量；所述词向量库中包括历史搜索词与所述历史搜索词对应的词向量；其中，所述词向量是依据至少一组包括所述历史搜索词的搜索序列生成的；所述搜索序列为已发生的一个用户搜索行为对应的一组历史搜索词；

扩展词获取单元303，用于获取至少一个第二搜索词，所述第二搜索词是所述词向量库中距离上靠近所述第一词向量的第二词向量对应的历史搜索词。

在一种实现方式中，所述扩展词获取单元303，包括：词向量获取模块和扩展词获取模块。

词向量获取模块，用于遍历所述词向量库，获取与所述第一词向量的距离小于预设值的词向量作为所述第二词向量；

扩展词获取模块，用于查询词向量库，获取所述第二词向量对应的第二搜索词。

进一步地，所述装置还可以包括：聚类单元，用于对所述词向量库中的词向量进行聚类，将在距离上靠近的各个词向量聚为一个向量集；

基于所述聚类单元，所述词向量获取模块可以包括：第一查询子模块和第一获取子模块。

第一查询子模块，用于查询得到所述第一词向量所属的向量集；

第一获取子模块，用于从所述第一词向量所属的向量集中获取至少一个与所述第一词向量的距离小于预设值的词向量作为所述第二词向量。

基于所述聚类单元，所述词向量获取模块还可以包括：第二查询子模块和第二获取子模块。

第二查询子模块，用于查询得到与所述第一词向量距离最近的向量集；

第二获取子模块，用于从所述距离最近的向量集中获取至少一个与所述第一词向量的距离小于预设值的词向量作为所述第二词向量。

在一种实现方式中，所述装置还可以包括：中心向量配置单元，用于为所述词向量库中的每个向量集配置一对应的中心向量，所述中心向量接近或等于对应向量集中所有词向量的平均向量；

基于此，所述第二查询子模块可以包括：距离计算子模块和选择子模块。

距离计算子模块，用于计算所述第一词向量与每个中心向量之间的距离；

选择子模块，用于选择与所述第一词向量距离最近的中心向量对应的向量集，作为与所述第一词向量距离最近的向量集。

进一步地，所述装置还可以包括：训练词库构建单元、词向量生成单元、向量库建立单元。

训练词库构建单元，用于获取历史搜索词，构建训练词库；

词向量生成单元，用于针对训练词库中的各历史搜索词，依据至少一组包括所述历史搜索词的搜索序列生成所述历史搜索词对应的词向量；

向量库建立单元，用于建立所述历史搜索词与所述词向量之间的对应关系，保存在词向量库中。

在一种实现方式中，所述训练词库构建单元，可以包括：搜索词频统计模块和训练词库构建模块。

搜索词频统计模块，用于统计第一时段内接收的各历史搜索词的词频；

训练词库构建模块，用于提取高频词，构建训练词库。

在一种实现方式中，所述词向量生成单元，可以包括：第一序列生成模块和第一向量生成模块。

第一序列生成模块，用于将训练词库中的各历史搜索词按照对应的用户进行分类，生成每个用户完成一次搜索行为对应的搜索序列；

第一向量生成模块，用于依据每一历史搜索词所属的各个搜索序列进行模型训练，生成所述历史搜索词对应的词向量。

在另一种实现方式中，所述词向量生成单元，可以包括：第二序列生成模块和第二向量生成模块。

第二序列生成模块，用于依据历史搜索记录，生成搜索序列集；所述搜索序列集包括各用户完成一次搜索行为对应的搜索序列；

第二向量生成模块，用于遍历所述搜索序列集，对每个搜索序列中包括的与所述训练词库匹配的历史搜索词，依据包括所述历史搜索词的各搜索序列进行模型训练，生成所述历史搜索词对应的词向量。

参见图4，为本发明实施例提供的用于信息扩展的装置示意图。例如，装置400可以是移动电话，计算机，数字广播终端，消息收发设备，游戏控制台，平板设备，医疗设备，健身设备，个人数字助理等。

参照图4，装置400可以包括以下一个或多个组件：处理组件402，存储器404，电源组件406，多媒体组件408，音频组件410，输入/输出(I/O)的接口412，传感器组件414，以及通信组件416。

处理组件402通常控制装置400的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理组件402可以包括一个或多个处理器420来执行指令，以完成上述的方法的全部或部分步骤。此外，处理组件402可以包括一个或多个模块，便于处理组件402和其他组件之间的交互。例如，处理部件402可以包括多媒体模块，以方便多媒体组件408和处理组件402之间的交互。

存储器404被配置为存储各种类型的数据以支持在设备400的操作。这些数据的示例包括用于在装置600上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。存储器404可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

电源组件406为装置400的各种组件提供电力。电源组件406可以包括电源管理系统，一个或多个电源，及其他与为装置400生成、管理和分配电力相关联的组件。

多媒体组件408包括在所述装置400和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件408包括一个前置摄像头和/或后置摄像头。当设备400处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。

音频组件410被配置为输出和/或输入音频信号。例如，音频组件410包括一个麦克风(MIC)，当装置400处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器404或经由通信组件416发送。在一些实施例中，音频组件410还包括一个扬声器，用于输出音频信号。

I/O接口412为处理组件402和外围接口模块之间提供接口，上述外围接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件414包括一个或多个传感器，用于为装置600提供各个方面的状态评估。例如，传感器组件414可以检测到设备400的打开/关闭状态，组件的相对定位，例如所述组件为装置400的显示器和小键盘，传感器组件414还可以检测装置400或装置400一个组件的位置改变，用户与装置400接触的存在或不存在，装置400方位或加速/减速和装置400的温度变化。传感器组件414可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件414还可以包括光传感器，如CMOS或CCD图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件414还可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器或温度传感器。

通信组件416被配置为便于装置400和其他设备之间有线或无线方式的通信。装置400可以接入基于通信标准的无线网络，如WiFi，2G或3G，或它们的组合。在一个示例性实施例中，通信部件416经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，所述通信部件416还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

在示例性实施例中，装置400可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述方法。

在示例性实施例中，本发明实施例还提供了一种包括指令的非临时性计算机可读存储介质，例如包括指令的存储器404，上述指令可由装置400的处理器420执行以完成上述方法。例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

一种非临时性计算机可读存储介质，当所述存储介质中的指令由移动终端的处理器执行时，使得移动终端能够执行一种信息扩展方法，所述方法包括：接收用户输入的第一搜索词；

图5是本发明实施例中服务器的结构示意图。该服务器1900可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上中央处理器(central processing units，CPU)1922(例如，一个或一个以上处理器)和存储器1932，一个或一个以上存储应用程序1942或数据1944的存储介质1930(例如一个或一个以上海量存储设备)。其中，存储器1932和存储介质1930可以是短暂存储或持久存储。存储在存储介质1930的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对服务器中的一系列指令操作。更进一步地，中央处理器1922可以设置为与存储介质1930通信，在服务器1900上执行存储介质1930中的一系列指令操作。

服务器1900还可以包括一个或一个以上电源1926，一个或一个以上有线或无线网络接口1950，一个或一个以上输入输出接口1958，一个或一个以上键盘1956，和/或，一个或一个以上操作系统1941，例如Windows ServerTM，Mac OS XTM，UnixTM，LinuxTM，FreeBSDTM等等。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到上述实施例方法中的全部或部分步骤可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者诸如媒体网关等网络通信设备，等等)执行本发明各个实施例或者实施例的某些部分所述的方法。

需要说明的是，对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种信息扩展方法，其特征在于，包括：

接收用户输入的第一搜索词；

查询词向量库，获取所述第一搜索词的第一词向量；

获取至少一个第二搜索词，所述第二搜索词是所述词向量库中距离上靠近所述第一词向量的第二词向量对应的历史搜索词；

2.根据权利要求1所述的方法，其特征在于，所述获取至少一个第二搜索词，包括：

查询词向量库，获取所述第二词向量对应的第二搜索词。

3.根据权利要求2所述的方法，其特征在于，所述方法还包括：

查询得到所述第一词向量所属的向量集；

或者，

查询得到与所述第一词向量距离最近的向量集；

4.根据权利要求3所述的方法，其特征在于，为所述词向量库中的每个向量集配置一对应的中心向量，所述中心向量接近或等于对应向量集中所有词向量的平均向量；

所述查询得到与所述第一词向量距离最近的向量集，包括：

计算所述第一词向量与每个向量集的中心向量之间的距离；

5.根据权利要求1所述的方法，其特征在于，所述方法还包括：

获取历史搜索词，构建训练词库；

6.根据权利要求5所述的方法，其特征在于，所述获取历史搜索词，构建训练词库，包括：

统计第一时段内接收的各历史搜索词的词频；

提取高频词，构建训练词库。

7.根据权利要求5所述的方法，其特征在于，所述针对训练词库中的各历史搜索词，依据至少一组包括所述历史搜索词的搜索序列生成所述历史搜索词对应的词向量，包括：

8.根据权利要求5所述的方法，其特征在于，所述针对训练词库中的各历史搜索词，依据至少一组包括所述历史搜索词的搜索序列生成所述历史搜索词对应的词向量，包括：

9.一种信息扩展装置，其特征在于，包括：

搜索词接收单元，用于接收用户输入的第一搜索词；

10.一种用于信息扩展的装置，其特征在于，包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：

接收用户输入的第一搜索词；

查询词向量库，获取所述第一搜索词的第一词向量；