CN106339756A

CN106339756A - 训练数据的生成方法、搜索方法以及装置

Info

Publication number: CN106339756A
Application number: CN201610730054.2A
Authority: CN
Inventors: 姜迪; 石磊; 廖梦; 陈泽裕; 连荣忠
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2016-08-25
Filing date: 2016-08-25
Publication date: 2017-01-18
Anticipated expiration: 2036-08-25
Also published as: CN106339756B

Abstract

本发明公开了一种训练数据的生成方法、基于神经网络模型的搜索方法以及装置。其中训练数据的生成方法包括：获取用户的历史搜索数据，其中，历史搜索数据包括历史搜索词和历史搜索词对应的历史搜索结果；获取用户的历史查询点击行为，并根据历史查询点击行为对历史搜索词对应的历史搜索结果进行分类以生成历史搜索结果的标签；根据预设策略、历史搜索结果的标签、历史搜索词以及历史搜索结果生成训练数据。该方法无需人工参与，实现了自动化功能，并且按照历史搜索结果的标签生成训练数据，可以使得该训练数据能够更加适用于神经网络模型中，以便通过该神经网络模型进行搜索，以得到更加精确的搜索结果，提高搜索的准确性。

Description

训练数据的生成方法、搜索方法以及装置

技术领域

本发明涉及搜索引擎技术领域，尤其涉及一种训练数据的生成方法、基于神经网络模型的搜索方法以及装置。

背景技术

在信息检索中，LTR(Learning To Rank，学习排序)是一种重要的排序方法。当搜索引擎从网页库召回了很多相关网页之后，需要对这些网页文档进行排序，从而展现给用户，在这个过程中，LTR起到了关键的作用。LTR作为监督学习，训练数据的获取尤为关键。目前，LTR一般来说有三类方法：单文档方法(Pointwise)，文档对比方法(Pairwise)，文档列表方法(Listwise)。然而，在上述的三种方法中，由于单文档方法忽略了文档之间的相对顺序会导致效果不佳，而文档列表方法在训练时计算复杂度会相对比较高，并且训练数据标注起来难度也极大，因此在实际应用中，经常选取的是文档对比方法，那么就需要知道文档之间的相对顺序，因为需要大量的标注数据，所以人工标注显得不太实际，并且由于目前神经网络模型广泛地被应用到工业界很多领域中，其中也被用来做LTR，但是LTR与以往的神经网络模型学习方式以及目标有些差异，即构建的训练数据的方式不适用于神经网络模型中。

因此，如何能够自动生成训练数据，且使得构建的训练数据能够适用于神经网络中以实现搜索功能，已经成为亟待解决的问题。

发明内容

本发明的目的旨在至少在一定程度上解决上述的技术问题之一。

为此，本发明的第一个目的在于提出一种训练数据的生成方法。该方法无需人工参与，实现了自动化功能，并且按照历史搜索结果的标签生成训练数据，可以使得该训练数据能够更加适用于神经网络模型中，以便通过该神经网络模型进行搜索，以得到更加精确的搜索结果，提高搜索的准确性。

本发明的第二个目的在于提出一种基于神经网络模型的搜索方法。

本发明的第三个目的在于提出一种训练数据的生成装置。

本发明的第四个目的在于提出一种基于神经网络模型的搜索装置。

为达上述目的，本发明第一方面实施例的训练数据的生成方法，包括：获取用户的历史搜索数据，其中，所述历史搜索数据包括历史搜索词和所述历史搜索词对应的历史搜索结果；获取所述用户的历史查询点击行为，并根据所述历史查询点击行为对所述历史搜索词对应的历史搜索结果进行分类以生成所述历史搜索结果的标签；根据预设策略、所述历史搜索结果的标签、所述历史搜索词以及所述历史搜索结果生成训练数据。

本发明实施例的训练数据的生成方法，获取用户的历史搜索数据，其中，历史搜索数据包括历史搜索词和历史搜索词对应的历史搜索结果，并获取用户的历史查询点击行为，并根据历史查询点击行为对历史搜索词对应的历史搜索结果进行分类以生成历史搜索结果的标签，最后，根据预设策略、历史搜索结果的标签、历史搜索词以及历史搜索结果生成训练数据。即同历史查询点击行为对历史搜索结果进行分类以得到每个历史搜索结果的标签，并根据该标签按照预设策略对历史搜索结果进行配对组合以得到最终的训练数据，在整个过程中，无需人工参与，实现了自动化功能，并且按照历史搜索结果的标签生成训练数据，可以使得该训练数据能够更加适用于神经网络模型中，以便通过该神经网络模型进行搜索，以得到更加精确的搜索结果，提高搜索的准确性。

为达上述目的，本发明第二方面实施例的基于神经网络模型的搜索方法，包括：接收搜索词；根据本发明第一方面实施例所述的训练数据的生成方法获取所述训练数据；基于所述神经网络模型，根据所述搜索词和所述训练数据获取与所述搜索词对应的多个搜索结果，并计算所述多个搜索结果与所述搜索词的相关度；根据所述相关度对所述多个搜索结果进行排序，并将排序后的所述多个搜索结果提供给用户。

本发明实施例的基于神经网络模型的搜索方法，接收搜索词，并获取训练数据，并基于神经网络模型，根据搜索词和训练数据获取与搜索词对应的多个搜索结果，并计算多个搜索结果与搜索词的相关度，最后，根据相关度对多个搜索结果进行排序，并将排序后的多个搜索结果提供给用户。即通过本发明实施例的训练数据的生成方法来生成训练数据，使得训练数据更适用于神经网络模型中，使得通过该神经网络模型进行搜索，以得到更加精确的搜索结果，提高搜索的准确性。

为达上述目的，本发明第三方面实施例的训练数据的生成装置，包括：第一获取模块，用于获取用户的历史搜索数据，其中，所述历史搜索数据包括历史搜索词和所述历史搜索词对应的历史搜索结果；第二获取模块，用于获取所述用户的历史查询点击行为；第一生成模块，用于根据所述历史查询点击行为对所述历史搜索词对应的历史搜索结果进行分类以生成所述历史搜索结果的标签；第二生成模块，用于根据预设策略、所述历史搜索结果的标签、所述历史搜索词以及所述历史搜索结果生成训练数据。

本发明实施例的训练数据的生成装置，可通过第一获取模块获取用户的历史搜索数据，其中，历史搜索数据包括历史搜索词和历史搜索词对应的历史搜索结果，第二获取模块获取用户的历史查询点击行为，第一生成模块根据历史查询点击行为对历史搜索词对应的历史搜索结果进行分类以生成历史搜索结果的标签，第二生成模块根据预设策略、历史搜索结果的标签、历史搜索词以及历史搜索结果生成训练数据。即同历史查询点击行为对历史搜索结果进行分类以得到每个历史搜索结果的标签，并根据该标签按照预设策略对历史搜索结果进行配对组合以得到最终的训练数据，在整个过程中，无需人工参与，实现了自动化功能，并且按照历史搜索结果的标签生成训练数据，可以使得该训练数据能够更加适用于神经网络模型中，以便通过该神经网络模型进行搜索，以得到更加精确的搜索结果，提高搜索的准确性。

为达上述目的，本发明第四方面实施例的基于神经网络模型的搜索装置，包括：接收模块，用于接收搜索词；第一获取模块，用于根据本发明第三方面所述的训练数据的生成装置获取所述训练数据；第二获取模块，用于基于所述神经网络模型，根据所述搜索词和所述训练数据获取与所述搜索词对应的多个搜索结果，并计算所述多个搜索结果与所述搜索词的相关度；排序模块，用于根据所述相关度对所述多个搜索结果进行排序；提供模块，用于将排序后的所述多个搜索结果提供给用户。

本发明实施例的基于神经网络模型的搜索装置，可通过接收模块接收搜索词，第一获取模块获取训练数据，第二获取模块基于神经网络模型，根据搜索词和训练数据获取与搜索词对应的多个搜索结果，并计算多个搜索结果与搜索词的相关度，排序模块根据相关度对多个搜索结果进行排序，排序模块将排序后的多个搜索结果提供给用户。即通过本发明实施例的训练数据的生成方法来生成训练数据，使得训练数据更适用于神经网络模型中，使得通过该神经网络模型进行搜索，以得到更加精确的搜索结果，提高搜索的准确性。

本发明附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1是根据本发明一个实施例的训练数据的生成方法的流程图；

图2是对不同配对组合的方式应用到搜索引擎的学习排序中，并通过实验对不同配对组合的方式进行精确度计算的实验结果的一个示例图；

图3是对不同配对组合的方式应用到搜索引擎的学习排序中，并通过实验对不同配对组合的方式进行精确度计算的实验结果的另一个示例图；

图4是根据本发明一个实施例的训练数据的生成装置的结构示意图；

图5是根据本发明一个具体实施例的训练数据的生成装置的结构示意图；

图6是根据本发明一个实施例的基于神经网络模型的搜索方法的流程图；

图7是根据本发明一个实施例的网页搜索中神经网络模型的示例图；

图8是根据本发明一个实施例的基于神经网络模型的搜索装置的结构示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。

下面参考附图描述本发明实施例的训练数据的生成方法、基于神经网络模型的搜索方法以及装置。

目前，LTR一般来说有三类方法：单文档方法(Pointwise)、文档对比方法(Pairwise)、文档列表方法(Listwise)。单文档方法处理对象是单一文档，将文档转化为特征向量后，主要是将排序问题转化为机器学习中常规的分类或回归问题。单文档方法完全从单文档的分类角度计算，没有考虑文档之间的相对顺序。而且它假设相关度是查询无关的，只要(query，di)的相关度相同，其中di可表示第i个文档，那么他们就被划分到同一个级别中，属于同一类。然而在实际中，相关度的相对性是和查询相关的，例如，一个常见的查询它会有很多相关的文档，该查询和它相关性相对靠后的文档的label标注级别时可能会比一个稀有的查询和它为数不多的高度相关文档的label标注级别更高。这样就导致训练数据的不一致，并且对于预测为同一label级别的文档之间也无法相对排序。文档对比方法是比较使用较多的方法，与单文档相比它更倾向于文档的相对顺序，它主要将排序问题归结为二元分类问题，对于同一query的相关文档集中，对任何两个不同label的文档，都可以得到一个训练实例(di,dj)，如果di>dj，则赋值+1，反之-1，即若第i个文档与query的相关度大于第j个文档与query的相关度，则可通过数值1将该第i个文档标记为一类，通过数值-1将该第j个文档标记为另一类，于是我们就得到了二元分类器训练所需的训练数据了，测试时，只要对所有pair(对)进行分类就可以得到所有文档的一个偏序关系，从而实现排序。文档列表与上述两种方法不同，它是将每个查询对应的所有搜索结果列表作为一个训练样例。文档列表根据训练样例训练得到最优评分函数F，对应新的查询，评分F对每个文档打分，然后根据得分由高到低排序，即为最终的排序结果。

LTR作为监督学习，训练数据的获取尤为关键。在上述的三种方法中，由于单文档方法忽略了文档之间的相对顺序会导致效果不佳，而文档列表方法在训练时候计算复杂度会相对比较高并且训练数据标注起来难度也极其大，因此在实际应用中，经常选取的是文档对比方法，那么就需要知道文档之间的相对顺序，因为需要大量的标注数据，所以人工标注显得不太实际。

为此，本发明提出了一种训练数据的生成方法，以能够实现自动生成训练数据的功能，并能够更好地去组文档对，从而使得LTR的排序效果更佳。具体地，图1是根据本发明一个实施例的训练数据的生成方法的流程图。

需要说明的是，本发明实施例的训练数据的生成方法可应用于训练数据的生成装置，该训练数据的生成装置可被配置于搜索引擎中，以使得搜索引擎通过该训练数据的生成装置利用该生成方法生成训练数据，从而能够根据该训练数据和用户输入的搜索词对神经网络模型进行预测，以得到与该搜索词相关度高的搜索结果。如图1所示，该训练数据的生成方法可以包括：

S110，获取用户的历史搜索数据，其中，历史搜索数据包括历史搜索词和历史搜索词对应的历史搜索结果。

具体地，可以大量搜集多个用户的历史搜索数据，该历史搜索数据可包括用户查询所输入的历史搜索词和历史搜索词对应的历史搜索结果，其中，该历史搜索结果可理解是搜索引擎根据历史搜索词而搜索到的，且提供给用户的结果。

S120，获取用户的历史查询点击行为，并根据历史查询点击行为对历史搜索词对应的历史搜索结果进行分类以生成历史搜索结果的标签。

具体地，可先获取大量用户的历史查询日志，并从该历史查询日志中分析出这些用户的历史查询点击行为，该历史查询点击行为可理解为如用户点击了针对某个搜索词的哪个或哪些搜索结果等。然后，可根据该历史查询点击行为对获取到的历史搜索结果进行分类以标记这些历史搜索结果，即可通过标签对历史搜索结果进行标记。

其中，上述标签可包括第一标签、第二标签和第二标签，其中，第一标签用于指示点击的搜索结果，第二标签用于指示跳过的搜索结果，第三标签用于指示还没查看的搜索结果。可以理解，根据用户的点击行为，可将历史搜索结果细分成三个类别，即历史搜索结果的标签可分为三种：第一标签，用于指示点击的搜索结果(例如，用英文Clicked表示)，如用户点击查看的搜索结果页面；第二标签，用于指示跳过的搜索结果(例如，用英文Skiped表示)，如在点击的搜索结果之前并且用户没有点击的搜索结果页面，也就是这个结果用户有看到但是跳过了；第三标签，用于指示还没查看的搜索结果(例如，用英文Not-Examined表示)，如在点击的文档后面，用户还没机会去查看的结果页面。

也就是说，在获取到用户的历史查询点击行为之后，可根据该历史查询点击行为对历史搜索结果进行分类，以标记历史搜索结果中哪些结果是用户点击过的，哪些结果是用户看到但没有点击的，哪些结果又是用户没有机会查看的。

S130，根据预设策略、历史搜索结果的标签、历史搜索词以及历史搜索结果生成训练数据。

具体而言，在本发明的一个实施例中，可根据预设策略和历史搜索结果的标签对历史搜索结果进行配对组合，以得到多个结果组对，并根据历史搜索词以及多个结果组对生成训练数据。

更具体地，可根据历史搜索结果的标签按照预设策略对历史搜索结果进行配对组合，以得到不同的结果组对，并将历史搜索词与其对应的结果组对建立对应关系，并以历史搜索词为维度将该对应关系以及对应的结果组对进行汇总，以生成训练数据。

其中，上述预设策略可包括：将标签为第一标签的历史搜索结果与标签为第三标签的历史搜索结果进行配对组合；和/或，将标签为第二标签和第三标签的历史搜索结果，与标签为第一标签的历史搜索结果进行配对组合。

需要说明的是，由于标签可包括第一标签、第二标签和第三标签，所以，对这三种标签的历史结果分别进行组合，其实是可以得到多个配对组合方式，即除了上述的那两种方式：将标签为第一标签的历史搜索结果与标签为第三标签的历史搜索结果进行配对组合(以下简称第一种方式)、将标签为第二标签和第三标签的历史搜索结果，与标签为第一标签的历史搜索结果进行配对组合(以下简称第二种方式)之后，还可以得到以下配对组合方式：将标签为第一标签的历史搜索结果与标签为第二标签的历史搜索结果进行配对组合(以下简称第三种方式)、将标签为第一标签的历史搜索结果与标签为第一标签的历史搜索结果行配对组合(以下简称第四种方式)、将标签为第二标签的历史搜索结果与标签为第三标签的历史搜索结果进行配对组合(以下简称第五种方式)。

根据上述提到的几种配对组合的方式，发明人将这几种配对组合的方式应用到搜索引擎的学习排序中，并通过实验对第一种方式、第三种方式、第四种方式和第五种方式进行精确度计算并比较，实验结果可如图2所示。从图2中可以看出，发明人通过比较不同迭代轮数下，比较上述第一种方式、第三种方式、第四种方式和第五种方式的precision(精确度)值，发明人发现，其中第一种方式效果是最好的，其次是第三种方式、第五种方式，效果最不好的是第四种方式。

为了能够更加配对组合的不同策略，扩展训练数据的多样性，发明人还将多个标签混合组合，如上述的第二种方式，并将该第二种方式应用到搜索引擎的学习排序中，并通过实现对第二种方式进行精确度计算并比较，，发明人发现第二种方式不会对第一种方式带来损害，且几乎能达到第一种方式的效果。实验结果如图3所示，其中，Test-1,Test-2表示两个测试数据集。

综上，根据上述的实验结果，可以总结如下：

1)常规的LTR算法文档组对的方式并不适用于神经网络模型，因为传统的LTR算法的目标是去学习排序函数中每个特征的权重，而神经网络的目标是学习更好的特征表达；

2)第一种方式(即将标签为第一标签的历史搜索结果与标签为第三标签的历史搜索结果进行配对组合)很少用于LTR构建训练数据，但是在神经网络中效果却是最好的；

3)融合跳过的文档与还没查看的文档(即第二种方式)，对神经网络并没有坏的影响效果。

为此，本发明根据上述实验结果，在对历史搜索结果进行配对组合时，将效果比较好的第一种方式和第二种方式作为配对组合的策略，使得根据该策略和历史搜索结果的标签实现对历史搜索结果进行配对组合，以得到多个结果组对。

与上述几种实施例提供的训练数据的生成方法相对应，本发明的一种实施例还提供一种训练数据的生成装置，由于本发明实施例提供的训练数据的生成装置与上述几种实施例提供的训练数据的生成方法相对应，因此在前述训练数据的生成方法的实施方式也适用于本实施例提供的训练数据的生成装置，在本实施例中不再详细描述。图4是根据本发明一个实施例的训练数据的生成装置的结构示意图。如图4所示，该训练数据的生成装置可以包括：第一获取模块110、第二获取模块120、第一生成模块130和第二生成模块140。

具体地，第一获取模块110可用于获取用户的历史搜索数据，其中，历史搜索数据包括历史搜索词和历史搜索词对应的历史搜索结果。

第二获取模块120可用于获取用户的历史查询点击行为。

第一生成模块130可用于根据历史查询点击行为对历史搜索词对应的历史搜索结果进行分类以生成历史搜索结果的标签。作为一种示例，该标签可包括第一标签、第二标签和第二标签，其中，第一标签用于指示点击的搜索结果，第二标签用于指示跳过的搜索结果，第三标签用于指示还没查看的搜索结果。

第二生成模块140可用于根据预设策略、历史搜索结果的标签、历史搜索词以及历史搜索结果生成训练数据。

具体而言，在本发明的一个实施例中，如图5所示，该第二生成模块140可包括配对单元141和生成单元142。其中，配对单元141可用于根据预设策略和历史搜索结果的标签对历史搜索结果进行配对组合，以得到多个结果组对。生成单元142可用于根据历史搜索词以及多个结果组对生成训练数据

其中，预设策略可包括：将标签为第一标签的历史搜索结果与标签为第三标签的历史搜索结果进行配对组合；和/或，将标签为第二标签和第三标签的历史搜索结果，与标签为第一标签的历史搜索结果进行配对组合。

可以理解，可将通过本发明实施例的训练数据的生成方法生成的训练数据应用于搜索引擎的神经网络模型中，即将该训练数据作为神经网络模型中的训练语料。为此，本发明还提出了一种基于神经网络模型的搜索方法。

图6是根据本发明一个实施例的基于神经网络模型的搜索方法的流程图。如图6所示，该基于神经网络模型的搜索方法可以包括：

S610，接收搜索词。

例如，搜索引擎可接收用户在搜索输入框中输入的搜索词。其中，该搜索词可以是汉字、字母、数字等一种或任意一种。

S620，获取训练数据。其中，该训练数据可根据上述本发明任一个实施例的训练数据的生成方法来生成的。

S630，基于神经网络模型，根据搜索词和训练数据获取与搜索词对应的多个搜索结果，并计算多个搜索结果与搜索词的相关度。

具体地，基于神经网络模型，可根据搜索词对上述获得的训练数据进行训练，以得到该搜索词对应的多个搜索结果，并计算这些搜索结果与该搜索词之间的相关度(即相关性度量)。可以理解，该神经网络模型可以是可用于搜索引擎中实现信息检索功能的任一种模型，本发明对此不作具体限定。

S640，根据相关度对多个搜索结果进行排序，并将排序后的多个搜索结果提供给用户。

为了使得本领域的技术人员能够更加清楚地的了解本发明，下面可以在信息检索中使用的神经网络模型作为例子说明一下结果组合(即上述的训练数据)如何应用在训练中。

举例而言，如图7所示，为网页搜索中的神经网络模型，其中，输入层有三个部分：第一个部分是用户的查询(Query)，第二部分是结果组合中相关性更高的结果文档的标题，而第三部分则是结果组合中相关性比较低的结果文档的标题，然后通过神经网络中的若干层的处理，这个三个部分分别转为成一个向量，之后通过查询分别跟这两个结果组合进行相关性计算，可以分别算出一个相关性得分，神经网络的训练目标就是让更相关的文档的相关性得分比相对不相关文档的得分高，从而优化整个模型。

与上述几种实施例提供的基于神经网络模型的搜索方法相对应，本发明的一种实施例还提供一种基于神经网络模型的搜索装置，由于本发明实施例提供的基于神经网络模型的搜索装置与上述几种实施例提供的基于神经网络模型的搜索方法相对应，因此在前述基于神经网络模型的搜索方法的实施方式也适用于本实施例提供的基于神经网络模型的搜索装置，在本实施例中不再详细描述。图8是根据本发明一个实施例的基于神经网络模型的搜索装置的结构示意图。如图8所示，该基于神经网络模型的搜索装置可以包括：接收模块210、第一获取模块220、第二获取模块230、排序模块240和提供模块250。

具体地，接收模块210可用于接收搜索词。

第一获取模块220可用于获取训练数据。其中，该训练数据可根据本发明上述任一个实施例所述的训练数据的生成装置生成的。

第二获取模块230可用于基于神经网络模型，根据搜索词和训练数据获取与搜索词对应的多个搜索结果，并计算多个搜索结果与搜索词的相关度。

排序模块240可用于根据相关度对多个搜索结果进行排序。

提供模块250可用于将排序后的多个搜索结果提供给用户。

在本发明的描述中，需要理解的是，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本发明的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本发明的实施例所属技术领域的技术人员所理解。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式光盘只读存储器(CDROM)。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本发明各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器，磁盘或光盘等。尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种训练数据的生成方法，其特征在于，包括以下步骤：

获取用户的历史搜索数据，其中，所述历史搜索数据包括历史搜索词和所述历史搜索词对应的历史搜索结果；

获取所述用户的历史查询点击行为，并根据所述历史查询点击行为对所述历史搜索词对应的历史搜索结果进行分类以生成所述历史搜索结果的标签；

根据预设策略、所述历史搜索结果的标签、所述历史搜索词以及所述历史搜索结果生成训练数据。

2.如权利要求1所述的方法，其特征在于，所述根据预设策略、所述历史搜索结果的标签、所述历史搜索词以及所述历史搜索结果生成训练数据，包括：

根据所述预设策略和所述历史搜索结果的标签对所述历史搜索结果进行配对组合，以得到多个结果组对；

根据所述历史搜索词以及所述多个结果组对生成所述训练数据。

3.如权利要求2所述的方法，其特征在于，其中，所述标签包括第一标签、第二标签和第二标签，其中，所述第一标签用于指示点击的搜索结果，所述第二标签用于指示跳过的搜索结果，所述第三标签用于指示还没查看的搜索结果。

4.如权利要求3所述的方法，其特征在于，所述预设策略包括：

将所述标签为所述第一标签的历史搜索结果与所述标签为所述第三标签的历史搜索结果进行配对组合；和/或，

将所述标签为所述第二标签和第三标签的历史搜索结果，与所述标签为所述第一标签的历史搜索结果进行配对组合。

5.一种基于神经网络模型的搜索方法，其特征在于，包括：

接收搜索词；

根据权利要求1至4中任一项所述的训练数据的生成方法获取所述训练数据；

基于所述神经网络模型，根据所述搜索词和所述训练数据获取与所述搜索词对应的多个搜索结果，并计算所述多个搜索结果与所述搜索词的相关度；

根据所述相关度对所述多个搜索结果进行排序，并将排序后的所述多个搜索结果提供给用户。

6.一种训练数据的生成装置，其特征在于，包括：

第一获取模块，用于获取用户的历史搜索数据，其中，所述历史搜索数据包括历史搜索词和所述历史搜索词对应的历史搜索结果；

第二获取模块，用于获取所述用户的历史查询点击行为；

第一生成模块，用于根据所述历史查询点击行为对所述历史搜索词对应的历史搜索结果进行分类以生成所述历史搜索结果的标签；

第二生成模块，用于根据预设策略、所述历史搜索结果的标签、所述历史搜索词以及所述历史搜索结果生成训练数据。

7.如权利要求6所述的装置，其特征在于，所述第二生成模块包括：

配对单元，用于根据所述预设策略和所述历史搜索结果的标签对所述历史搜索结果进行配对组合，以得到多个结果组对；

生成单元，用于根据所述历史搜索词以及所述多个结果组对生成所述训练数据。

8.如权利要求7所述的装置，其特征在于，其中，所述标签包括第一标签、第二标签和第二标签，其中，所述第一标签用于指示点击的搜索结果，所述第二标签用于指示跳过的搜索结果，所述第三标签用于指示还没查看的搜索结果。

9.如权利要求8所述的装置，其特征在于，所述预设策略包括：

10.一种基于神经网络模型的搜索装置，其特征在于，包括：

接收模块，用于接收搜索词；

第一获取模块，用于根据权利要求6至9中任一项所述的训练数据的生成装置获取所述训练数据；

第二获取模块，用于基于所述神经网络模型，根据所述搜索词和所述训练数据获取与所述搜索词对应的多个搜索结果，并计算所述多个搜索结果与所述搜索词的相关度；

排序模块，用于根据所述相关度对所述多个搜索结果进行排序；

提供模块，用于将排序后的所述多个搜索结果提供给用户。