CN104331449A

CN104331449A - 查询语句与网页相似度的确定方法、装置、终端及服务器

Info

Publication number: CN104331449A
Application number: CN201410592231.6A
Authority: CN
Inventors: 呉先超
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Baidu Online Network Technology Beijing Co Ltd; Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2014-10-29
Filing date: 2014-10-29
Publication date: 2015-02-04
Anticipated expiration: 2034-10-29
Also published as: CN104331449B

Abstract

本发明实施例公开了查询语句与网页相似度的确定方法、装置、终端及服务器。该方法包括：通过预先创建的短语翻译模型，将目标查询语句翻译为具有相似语义的至少一条候选语句；根据所述至少一条候选语句与网页主题句之间的相似度，确定目标查询语句和网页主题句之间的相似度；其中，所述网页主题句为网页标题，或者基于设定算法对网页内容进行解析得到的用于描述网页主要内容的语句。本实施例提供的技术方案，可以提高搜索引擎对任一查询语句的网页召回率，使得搜索引擎能够针对表现形式不同而语义相似的各条查询句，返回相差较小的网页集合，提升用户对查询结果的满意度。

Description

查询语句与网页相似度的确定方法、装置、终端及服务器

技术领域

本发明实施例涉及数据处理技术领域，尤其涉及查询语句与网页相似度的确定方法、装置、终端及服务器。

背景技术

目前，搜索引擎在为用户提供搜索服务时，通常是先获取用户在搜索栏中所输入的指令，基于该指令生成查询句，然后计算该查询句与大量网页之间的相关性，最后将相关性较高的网页所对应的链接作为本次查询结果呈现给用户，以供用户点击查看。

由于基于相关性计算的网页排名直接决定了搜索引擎的优劣和用户体验质量，因此如何能够准确高效的计算出查询语句和网页之间的相关性是搜索引擎的核心问题点。然而，现有技术在得到用户输入的查询句之后，并未对该查询句进行其他处理，而是采取硬匹配的方法，直接计算查询语句和网页的相关性，这样一方面使得搜索引擎对与查询语句相关的网页的召回率较低；另一方面使得搜索引擎分别在表现形式不同而语义相似的各条查询句下，所得到的网页集合相差较大，用户搜索体验差。

发明内容

本发明实施例提供查询语句与网页相似度的确定方法、装置、终端及服务器，以提高搜索引擎对任一查询语句的网页召回率，使得搜索引擎能够针对表现形式不同而语义相似的各条查询句，返回相差较小的网页集合，提升用户对查询结果的满意度。

第一方面，本发明实施例提供了一种查询语句与网页相似度的确定方法，该方法包括：

通过预先创建的短语翻译模型，将目标查询语句翻译为具有相似语义的至少一条候选语句；

根据所述至少一条候选语句与网页主题句之间的相似度，确定目标查询语句和网页主题句之间的相似度；

其中，所述网页主题句为网页标题，或者基于设定算法对网页内容进行解析得到的用于描述网页主要内容的语句。

第二方面，本发明实施例还提供了一种查询语句与网页相似度的确定方法，该方法包括：

云端服务器获取终端发送的目标查询语句；

所述云端服务器通过预先创建的短语翻译模型，将所述目标查询语句翻译为具有相似语义的至少一条候选语句，并下发给所述终端，以指示所述终端根据所述至少一条候选语句与网页主题句之间的相似度，确定目标查询语句和网页主题句之间的相似度；

第三方面，本发明实施例还提供了一种查询语句与网页相似度的确定方法，该方法包括：

终端向云端服务器发送目标查询语句，以指示所述云端服务器通过预先创建的短语翻译模型，将所述目标查询语句翻译为具有相似语义的至少一条候选语句；

所述终端接收所述云端服务器下发的至少一条候选语句，根据所述至少一条候选语句与网页主题句之间的相似度，确定目标查询语句和网页主题句之间的相似度；

第四方面，本发明实施例提供了一种查询语句与网页相似度的确定装置，该装置包括：

候选翻译模块，用于通过预先创建的短语翻译模型，将目标查询语句翻译为具有相似语义的至少一条候选语句；

相似度确定模块，用于根据所述至少一条候选语句与网页主题句之间的相似度，确定目标查询语句和网页主题句之间的相似度；

第五方面，本发明实施例提供了一种云端服务器，该服务器包括：

查询语句获取模块，用于获取终端发送的目标查询语句；

查询语句翻译模块，用于通过预先创建的短语翻译模型，将所述目标查询语句翻译为具有相似语义的至少一条候选语句，并下发给所述终端，以指示所述终端根据所述至少一条候选语句与网页主题句之间的相似度，确定目标查询语句和网页主题句之间的相似度；

第六方面，本发明实施例提供了一种终端，该终端包括：

查询语句发送模块，用于向云端服务器发送目标查询语句，以指示所述云端服务器通过预先创建的短语翻译模型，将所述目标查询语句翻译为具有相似语义的至少一条候选语句；

相似度确定模块，用于接收所述云端服务器下发的至少一条候选语句，根据所述至少一条候选语句与网页主题句之间的相似度，确定目标查询语句和网页主题句之间的相似度；

在本发明实施例中，在获取到用户输入的查询语句后，并未采取硬匹配的方法来直接计算查询语句和网页的相关性，而是：先通过预先创建的短语翻译模型，对查询语句进行语义相似的转录，以得到多条与该查询语句具有相似语义的候选语句；然后，基于转录结果与网页主题句之间的相关性，来计算查询语句与网页主题句之间的相关性。本发明实施例提供的技术方案，一方面能够提高搜索引擎在任一查询语句下的网页召回率，另一方面使得搜索引擎能够针对表现形式不同而语义相似的各条查询句，返回相差较小的网页集合，提升用户的搜索体验。

附图说明

图1是本发明实施例一提供的一种查询语句与网页相似度的确定方法的流程示意图；

图2是本发明实施例二提供的一种查询语句与网页相似度的确定方法的流程示意图；

图3是本发明实施例三提供的一种查询语句与网页相似度的确定方法的流程示意图；

图4是本发明实施例四提供的一种查询语句与网页相似度的确定方法的流程示意图；

图5A是本发明实施例五提供的一种查询语句与网页相似度的确定方法的流程示意图；

图5B是本发明实施例五提供的一种候选短语之间在组合为候选语句时的连接关系示意图；

图6是本发明实施例六提供的另一种查询语句与网页相似度的确定方法的流程示意图；

图7是本发明实施例七提供的再一种查询语句与网页相似度的确定方法的流程示意图；

图8是本发明实施例八提供的一种优选的查询语句与网页相似度的确定方法的流程示意图；

图9是本发明实施例九提供的一种查询语句与网页相似度的确定装置的结构示意图；

图10是本发明实施例十提供的一种云端服务器的结构示意图；

图11是本发明实施例十一提供的一种终端的结构示意图；

图12是本发明实施例十二提供的一种查询语句与网页相似度的确定方法在信息检索系统上的应用流程示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部结构。

查询语句和网页的相关性计算是搜索引擎的核心问题点。正是网页的基于相关性计算的排名决定了搜索引擎的优劣和用户体验质量。查询语句表现形式多种多样，同样的语义可以用不同的句子表达，而相同的词语也具有多义性。例如，查询“日本收购的中国企业”的时候，可以采用如下多种查询语句：“被日本收购的中国企业”、“日本收购了哪些中国企业”、“中国企业日本收购”、“哪些中国企业被日本控股”等等。而一个查询语句，例如“苹果多少钱”，其语义可以指的是：苹果公司的市值、苹果公司新推出产品的价格、用户所在地的水果的价格等。

因此，在计算查询语句和网页的相关性的时候不得不尽力解决这些问题。本发明实施例从计算查询语句和网页主题句的相关性这一视角出发，部分地刻画查询语句和候选网页的相关性。特别地，本发明实施例提出一种基于短语统计翻译模型，来计算查询语句与网页主题句之间相似度的解决方案。

实施例一

图1是本发明实施例一提供的一种查询语句与网页相似度的确定方法的流程示意图，本实施例可适用于在获取到用户输入的查询语句后，计算该查询语句与网页之间的相似度的情况，以使得搜索引擎能够基于该相似度来确定网页是否可以作为查询结果中的候选网页，或者基于相似度对查询语句下的各个候选网页进行排名。

该方法可以由查询语句与网页相似度的确定装置来执行，所述装置可以是为用户提供网页搜索服务的搜索引擎本身，也可以是为搜索引擎提供查询语句与网页相似度计算的第三方服务器。参见图1，本实施例提供的方法具体包括如下操作：

操作110、通过预先创建的短语翻译模型，将目标查询语句翻译为具有相似语义的至少一条候选语句。

在本实施例中，预先创建有短语翻译模型，该模型能够将输入的查询语句，翻译为与输入的查询语句具有相似语义的至少一条候选语句。具体的创建过程可以是通过对训练样本集进行学习得到的。其中，训练样本集中包括：基于已知的大量的查询语句样本及相应的具有相似语义的多条候选语句样本。训练样本集可以是人工预先设定的，也可以是根据历史统计的用户在搜索引擎中所输入的多个查询语句，以及用户在搜索引擎返回的各个查询语句下的查询结果中分别点击的网页信息，所实时生成的。本实施例对短语翻译模型的创建过程不作限定。

在获取到用户在搜索引擎中所输入的查询句之后，可将该查询句作为本次要翻译的目标查询句，输入至预先创建的短语翻译模型中，所得到的输出便是具有相似语义的至少一条候选语句。

操作120、根据至少一条候选语句与网页主题句之间的相似度，确定目标查询语句和网页主题句之间的相似度。

在本实施例中，网页主题句为网页标题，或者基于设定算法对网页内容进行解析得到的用于描述网页主要内容的语句。

在将目标查询语句翻译为具有相似语义的至少一条候选语句之后，可以获取翻译得到的多条候选语句与网页主题句之间的相似度，对所获取的各个相似度作加权处理，将处理结果直接作为目标查询语句和网页主题句之间的相似度。其中，各个相似度的权重系数可以是预先设定的固定值，例如设定各个权重系数均为相等的值，或者依据各条候选语句与目标查询语句在语义上的相似程度，来设定各权重系数为不相等的值，相似程度越高的，权重系数越大。具体的，可以实时的将短语翻译模型得到的候选语句在目标查询语句下的翻译概率，作为该条候选语句的权重系数。

针对翻译得到的各条候选语句，可以基于任何用于计算两条语句之间相似度的算法，来计算其与网页主题句之间的相似度。例如，可以是单独基于n元语言模型字符串匹配算法，来计算当前所针对的候选语句与网页主题句之间的相似度，n可以取1、2、3或者4等；或者，同时基于1、2、3和4等n元语言模型符串匹配算法得到各个相似度，然后将这些相似度加权得到当前所针对的候选语句与网页主题句之间的相似度。

在得到查询语句与网页主题句之间的相似度之后，可以将该相似度作为用于计算查询语句与网页相似度的一个重要特征，进行后续相应处理。查询语句与网页主题句之间的相似度越高，查询语句与网页相似度也越高，搜索引擎可将相似度高于设定阈值的网页的相关内容作为查询结果返回给用户。

在本实施例中，在获取到用户输入的查询语句后，并未采取硬匹配的方法来直接计算查询语句和网页的相关性，而是：先通过预先创建的短语翻译模型，对查询语句进行语义相似的转录，以得到多条与该查询语句具有相似语义的候选语句；然后，基于转录结果与网页主题句之间的相关性，来计算查询语句与网页主题句之间的相关性。本实施例提供的技术方案，一方面能够提高搜索引擎在任一查询语句下的网页召回率；另一方面使得搜索引擎能够针对表现形式不同而语义相似的各条查询句，返回相差较小的网页集合，提升用户的搜索体验。

实施例二

图2是本发明实施例二提供的一种查询语句与网页相似度的确定方法的流程示意图，本实施例在上述实施例一的基础上，进一步增加了“创建短语翻译模型”的操作。参见图2，本实施例提供的方法具体包括如下操作：

操作210、确定翻译双语对语料；其中，翻译双语对语料中翻译双语对的源语言句子为查询语句，目标语言句子为网页主题句。

操作220、对翻译双语对语料进行训练，以创建短语翻译模型；所述短语翻译模型的输入为查询语句，输出包括与输入具有相似语义的至少一条候选语句。

操作230、通过预先创建的短语翻译模型，将目标查询语句翻译为具有相似语义的至少一条候选语句。

操作240、根据至少一条候选语句与网页主题句之间的相似度，确定目标查询语句和网页主题句之间的相似度。

在本实施例中，在创建短语翻译模型时，所需的训练样本集包括翻译双语对语料，翻译双语对语料进一步由大量的翻译双语对组成。每个翻译双语对包括源语言句子和目标语言句子，其中源语言句子为查询语句，目标语言句子为网页主题句。

为得到大量的翻译双语对，在确定翻译双语对语料之前，可预先生成查询日志，用于统计用户在搜索引擎中所输入的各条查询语句，以及用户在搜索引擎根据各条查询语句相应返回的多个查询结果中所点击的网页信息。进而，可基于查询日志所统计的数据，来确定相应的翻译双语对。

具体的，每个翻译双语对的源语言句子为查询日志中统计的查询语句，目标语言句子可以是根据查询日志中统计的用户在源语言句子下的查询结果中所点击的网页信息，得到的与该源语言句子对应的网页主题句。当然，还可将查询日志中，任意具有相似语义的两条查询语句，分别作为源语言句子和目标语言句子，来组成一个翻译双语对。在此情况下，目标语言句子也为查询语句，可被视为特殊的网页主题句。另外，其他已有的用于创建短语翻译模型的训练样本，以及所有可利用的语义相同而文字表现形式不同的句子对，均可被包括在训练样本集中，以结合翻译双语对语料，来创建短语翻译模型。

在本实施例的一种优选的具体实施方式中，确定翻译双语对语料，包括：

基于用户点击数据，确定翻译双语对语料；

其中，用户点击数据包括：查询日志中所统计的用户输入的查询语句，与用户在返回的多个查询结果中所点击的网页链接之间的映射关系；

翻译双语对语料包括：由查询日志中所包含的查询语句，和与该查询语句对应的网页链接中点击率超过设定点击阈值的网页链接的网页主题句，分别作为源语言句子和目标语言句子组成的第一翻译双语对；和/或，由查询日志中所包含的满足预设条件的两条目标查询语句分别作为源语言句子和目标语言句子组成的第二翻译双语对；所述预设条件，包括：(1)所述两条目标查询语句所分别对应的网页主题句集合之间的相似度大于设定的第一阈值；(2)所述两条目标查询语句之间的相似度小于设定的第二阈值。

在上述优选方式中，第二翻译双语对是通过查找用户点击数据中其对应的网页主题句所构成的集合非常接近(即满足预设条件中的(1))但表现形式不同(即预设条件中的(2))的任意两条查询语句得到的。所谓与目标查询语句对应的网页主题句集合，指的是在所生成的所有第一翻译双语对中，与目标查询语句对应的所有网页主题句构成的集合。

在本实施例中，任意两个集合之间的相似度可以为：|A n B|/|A U B|，其中|A U B|表示为集合A和集合B的交集中元素的个数，|A n B|表示为集合A和集合B的并集中元素的个数。例如，对于用户点击数据中的两条查询语句，与其中第一条查询语句对应的网页主题句集合为A＝{u1,u2,u3,u4,u5}；而与其中第二条查询语句对应的网页主题句集合为B＝{u2,u1,u3,u5,u6}，其相似度为4/6。这里可以设定第一阈值，例如0.6。如果相似度大于0.6，则认为这两个集合“非常接近”。

在本实施例中，任意两条目标查询语句之间的相似度，可以通过直接比较这两条目标查询语句之间的字符串差异值来得到。例如，一条目标查询语句是a b c d，另外一条目标查询语句是x y a z，这样他们一共只有一个词a是一样的，因此可以将“两条目标查询语句中相同词的个数与所有词的个数的比值”作为两条目标查询语句的相似度，即1/7。假设，设定相似度判别阈值(即第二阈值)为0.5，则判断相似度小于为0.5的两条目标查询语句为“表现形式不同”的两条目标查询语句。

在本实施例中，设置翻译双语对语料中翻译双语对的源语言句子为查询语句，目标语言句子为网页主题句，基于用户点击数据来有效地组织海量的<查询语句，网页主题句>作为训练数据，进而通过对训练数据的学习来创建面向大规模数据的短语翻译模型，这样使得短语翻译模型可以基于大规模数据来进行短语之间的基于语义相似的转录，从而更好地捕捉表现形式多样而语义相同的查询语句，使得搜索引擎对它们的查询结果具有相似的网页统一资源定位标识符返回集合，提高用户体验。

实施例三

图3是本发明实施例三提供的一种查询语句与网页相似度的确定方法的流程示意图，本实施例在上述各实施例的基础上，将“确定目标查询语句和网页主题句之间的相似度”的操作进一步优化为“根据候选语句的翻译概率，以及候选语句与网页主题句之间的相似度，来确定目标查询语句和网页主题句之间的相似度”。参见图3，本实施例提供的方法具体包括如下操作：

操作310、通过预先创建的短语翻译模型，将目标查询语句翻译为具有相似语义的至少一条候选语句。

操作320、基于如下公式，确定目标查询语句与网页主题句之间的相似度：

sim (q, t) = Σ_{i = 1}^{N} {score ({trans}_{i} (q)) * BLEU ({trans}_{i} (q), t)}

其中，sim(q,t)为目标查询语句q与网页主题句t之间的相似度；N为至少一条候选语句的总条数；score(trans_i(q))为通过短语翻译模型将目标查询语句翻译为至少一条候选语句中的第i条候选语句trans_i(q)的翻译概率；BLEU(trans_i(q),t)为trans_i(q)与t之间的相似度。

在本实施例中，通过将短语翻译模型翻译得到的多条候选语句与网页主题句之间的相似度进行加权，来得到目标查询语句与网页主题句之间的相似度，其中加权系数被设置为对应候选语句的翻译概率，这样相较于直接求取平均值的方法，能够使得所计算的目标查询语句与网页主题句相似度更加准确，符合实际。

需要说明的是，为简化计算量，加快计算速度，在通过短语翻译模型将目标查询语句翻译为多条候选语句后，可仅选取其中的部分候选语句(例如选取翻译概率较高的候选语句)，作为用于与网页主题句进行相似度的计算的语句。例如，N可以选10或者100等。并且，每条候选语句的翻译概率可以通过短语翻译模型求取得到。

在本实施例的一种具体实施方式中，在根据至少一条候选语句与网页主题句之间的相似度，确定目标查询语句和网页主题句之间的相似度之前，还包括：基于语言模型字符串匹配算法，计算至少一条候选语句与网页主题句的相似度。其中，基于n(n可以取1、2、3、4……等整数)元语言模型字符串匹配算法，来计算任意两条语句的相似度，可包括：首先采用n元语言模型计算两条语句中匹配成功的次数，具体是分别将其中一条语句中每连续的n个分词，与其中另一条语句中每连续的n个分词进行匹配，得到匹配成功的次数；然后基于匹配成功的次数，来衡量两条语句的相似度，例如可以将匹配成功的次数与匹配总次数的比值作为两条语句的相似度。

现针对前四元语言模型字符串匹配算法的情况，举例说明如何得到匹配成功的次数。例如，trans_i(q)为“a b c”；而且t为“a b”：

基于1元语言模型字符串匹配算法，即单个分词的匹配，“a”匹配成功了(同时出现在trans_i(q)和t中了)，“b”也匹配成功了，而“c”没有匹配成功，因此得到的匹配成功的次数为2，即“a”和“b”均匹配成功；

基于2元语言模型字符串匹配算法，即连续两个词的匹配，“a b”匹配成功了，“b c”没有匹配成功，因此得到的匹配成功的次数为1，即：只有“a b”匹配成功；

基于3元语言模型字符串匹配算法，即连续三个词的匹配，“a b c”没有匹配成功(它只出现在了trans_i(q)里面，没有出现在t中)，因此得到的匹配成功的次数为0；

同理，基于4元语言模型字符串匹配算法，由于没有4元语言模型出现，因此得到的匹配成功的次数也为0。

当然，也可根据其他方式，来实现“基于语言模型字符串匹配算法，计算至少一条候选语句与网页主题句的相似度”的操作。

在本实施例的一种优选的具体实施方式中，基于语言模型字符串匹配算法，计算至少一条候选语句与网页主题句的相似度，包括：

按照如下公式，计算至少一条候选语句与网页主题句的相似度：

BLEU ({trans}_{i} (q), t) = BP ({trans}_{i} (q), t) * \exp (Σ_{n = 1}^{4} \frac{1}{4} \log (P_{n}))

其中，BP(trans_i(q),t)为trans_i(q)与t对应的惩罚权重，如果trans_i(q)的分词个数小于等于t的分词个数，则BP(trans_i(q),t)的取值为exp(1-x/y)，x为t的分词个数，y为trans_i(q)的分词个数，如果trans_i(q)的分词个数大于t的分词个数，则BP(trans_i(q),t)的取值为1；P_n为采用n元语言模型所计算的trans_i(q)和t中匹配成功的次数。

考虑率n越大，语言模型越准确，但是其计算也越复杂，计算量也越大，故在上述实施方式中，优选的将n的最大值取值设定为4。

在本实施例中，通过引入语言模型，以基于语言模型字符串匹配算法，来计算至少一条候选语句与网页主题句的相似度，从而充分利用上下文信息来衡量两语句之间的相关程度，提高相似度计算结果的准确性。

实施例四

图4是本发明实施例四提供的一种查询语句与网页相似度的确定方法的流程示意图，本实施例在上述实施例三的基础上，将“将目标查询语句翻译为具有相似语义的至少一条候选语句”的操作优化为“以短语为翻译单位，将目标查询句中所包含的各查询短语逐个翻译为相应的候选短语，基于候选短语得到候选语句”，并在“确定目标查询语句和网页主题句之间的相似度”这一操作之前相应增加了“计算候选语句翻译概率”的操作。参见图4，本实施例提供的方法具体包括如下操作：

操作410、对目标查询语句进行短语的划分，得到至少一个查询短语。

操作420、遍历各个查询短语，将当前遍历到的查询短语翻译为具有相似语义的至少一个候选短语。

操作430、将各个查询短语对应的至少一个候选短语进行组合，得到至少一条候选语句。

具体的，组合过程可以是：分别针对各个查询短语，从其对应的至少一个候选短语中任选一个候选短语；然后按照所选的候选短语对应的查询短语在目标查询语句中的顺序，将所选的候选短语排列在一起，得到一条候选语句。

例如，将目标查询语句划分成了2个查询短语：第一查询短语和第二查询短语，并且将第一查询短语翻译成了2个候选短语：第一候选短语和第二候选短语，将第二查询短语翻译成了3个候选短语：第三候选短语、第四候选短语和第五候选短语，则可以通过组合这些候选短语得到2*3＝6条候选语句，例如将第一候选短语和第三候选短语排列在一起得到一条候选语句，将第一候选短语和第四候选短语排列在一起得到另一条候选语句，等。

操作440、按照如下公式，计算通过短语翻译模型将目标查询语句翻译为至少一条候选语句中的第i条候选语句trans_i(q)的翻译概率：

score ({trans}_{i} (q)) = Π_{k = 1}^{K} \Pr (e_{k} | f_{k})

其中，K为目标查询语句所包含的查询短语的个数；Pr(e_k|f_k)为通过短语翻译模型将f_k翻译为e_k的翻译概率，f_k为目标查询语句f的第k个查询短语，e_k为候选语句e中的第k个候选短语。

操作450、基于如下公式，确定目标查询语句与网页主题句之间的相似度：

sim (q, t) = Σ_{i = 1}^{N} {score ({trans}_{i} (q)) * BLEU ({trans}_{i} (q), t)}

其中，sim(q,t)为目标查询语句q与网页主题句t之间的相似度；N为至少一条候选语句的总条数；BLEU(trans_i(q),t)为trans_i(q)与t之间的相似度。

本实施例中的操作410-430实现了“将目标查询语句翻译为具有相似语义的至少一条候选语句”的操作。

本实施例以短语为翻译单位进行翻译，可以克服以单个离散分词为翻译单位进行翻译所带来的上下文信息利用不足的弊端，能够综合考虑多个连续的分词所表达的语义信息。具体的，其优点主要体现在：短语翻译语料中包含的是短语级别的“翻译对”，而不是简单的单个词到单个词的“翻译对”，例如，<“被日本收购的”—“日本收购了哪些”>，当建立起类似这样的短语到短语的“翻译对”之后，可以很好地解决“被动句”-“主动句”的映射关系，从而识别出“被日本收购的中国企业”和“日本收购了哪些中国企业”是语义上近似的。

在本实施例中的一种具体实施方式中，在根据至少一条候选语句与网页主题句之间的相似度，确定目标查询语句与网页主题句的相似度之前，还包括：

按照如下公式，计算Pr(e_k|f_k)：

\Pr (e_{k} | f_{k}) = \frac{\exp (Σ_{m = 1}^{M} λm * hm (e_{k}, f_{k}))}{Σ_{e_{k}^{'}} \exp (Σ_{m = 1}^{M} λm * hm (e_{k}^{'}, f_{k}))}

其中，M为加在e_k和f_k上的所有特征函数的总个数；

hm(e_k,f_k)为用于表征将f_k翻译为e_k的翻译概率的第m个特征函数；

hm(e'_k,f_k)为用于表征将f_k翻译为e'_k的翻译概率的第m个特征函数，e'_k为根据短语翻译模型对f_k进行翻译得到的各个候选短语；例如，f_k为“日本收购的”，对f_k进行翻译得到了如下3个候选短语：“被日本收购的”、“日本收购了”和“被日本控股”，e_k可取所述3个候选短语中的任一，作为候选语句e中的第k个候选短语，e'_k分别为“被日本收购的”、“日本收购了”和“被日本控股”。

λm为第m个特征函数的权重。

在上述具体实施方式中，可采用极小错误率训练方法(minimum error ratetraining，MERT)来确定权重。该方法使用一个独立的development set(发展集合，该集合中是一个个的双语对)，主要思想是保证短语翻译模型产出的n个翻译候选中最好的那个候选，和参考答案之间的错误率最小化。

在上述具体实施方式中，第m个特征函数为与双向翻译概率对应的函数、与语言模型对应的函数、或者根据短语分词个数得到的函数。

(一)设hm(e_k,f_k)为与双向翻译概率对应的函数，则：

hm(e_k,f_k)＝count(e_k,f_k)/count(f_k)

其中，count(e_k,f_k)为e_k和f_k同时出现在训练样本集的一个翻译双语对中的频次，count(f_k)为f_k在训练样本集包括的短语翻译语料中所有源语言句子中出现的频次。

例如，目标查询语句f为“日本收购了哪些中国企业”，被划分为“日本收购了哪些”和“中国企业”两个查询短语；候选语句e为“被日本收购的中国企业”，也存在相应的两个候选短语“被日本收购的”和“中国企业”。则将f翻译为e的翻译概率为：P(被日本收购的|日本收购了哪些)*P(中国企业|中国企业)。按照极大似然估计：

P(被日本收购的|日本收购了哪些)＝count(被日本收购的,日本收购了哪些)/count(日本收购了哪些)。

这里的分子count(被日本收购的,日本收购了哪些)，代表的是两个短语“被日本收购的”和“日本收购了哪些”同时出现在训练样本集的一个翻译双语对中的频次，分母count(日本收购了哪些)代表的是源语言短语“日本收购了哪些”在训练样本集包括的短语翻译语料中所有源语言句子中出现的频次。

更进一步，举例如下：假设一个训练样本集中，包括三个翻译双语对，如下所示：

A B C D E F|||a b c d e

B C D E F|||b c d e

D E F A B C|||d e f a b c

其中A-F是源语言句子中的词；a-f是目标语言句子中的词，因此“B C”–“b c”这样的双语短语对，在训练样本集中的频次是1+1+1＝3次。而候选短语“b c”在训练样本集包括的短语翻译语料中所有源语言句子中出现的频次是1+1+1。

(二)设hm(e_k,f_k)为与语言模型对应的函数，则：hm(e_k,f_k)为e_k基于n元语言模型得到的概率。

n-gram语言模型(n元语言模型)中当前词出现的概率和其左边的n-1个词有关系。当n取1、2、3时，n-gram模型分别称为unigram(一元语言模型)、bigram(二元语言模型)和trigram语言模型(三元语言模型)。n越大，语言模型越准确，计算也越复杂，计算量也越大。最常用的是bigram，其次是unigram和trigram，n取大于等于4的情况较少。当n-gram语言模型用到中文网页的时候，得到汉语n元语言模型；当n-gram语言模型用到英文网页的时候，得到英语n元语言模型。例如当n取值为2的时候，当前词的出现的概率仅和其前一个词有关系。例如对于句子：

S＝张三董事长发表了四个优先重要指示的讲话。

在2元语言模型下，该句子的概率(衡量该句子的正确性的度量)为：

这里<s>和</s>，是两个人工构造的词，分别代表了句子的开始和结尾。(其目的是判断“张三”作为句子开头词的概率，和“。”句号作为句子接尾词的概率)

如果是在3元语言模型下，该句子的概率是：

这里，2元模型中一个概率的计算方法为：

P(董事长|张三)＝count(张三董事长)/count(张三)

分子count(张三董事长)是“张三董事长”在训练语料(例如大规模网络语料)中出现的频次；分母count(张三)是“张三”在训练语料中出现的频次。

相应地，3元模型中一个概率的计算公式为：

P(发表|张三,董事长)＝count(张三董事长发表)/count(张三董事长)

这里的分子count(张三董事长发表)是“张三董事长发表”在训练语料中出现的频次，而分母count(张三董事长)是“张三董事长”在训练语料中出现的频次。

需要强调的一点是，本发明实施例所涉及的“n元语言模型”是可以online(在线)更新的。基于旧有的语言模型，可以加入新的训练语料数据，实现动态的时效性更新。例如，对于一个概率：P(董事长|张三)＝count(张三董事长)/count(张三)。随着新的训练语料的收集，“张三”和“张三董事长”的出现次数会分别增加，这样，我们就可以根据旧有的数据来更新如下：

P(董事长|张三)＝(count(张三董事长)+x)/(count(张三)+y)

如上公式中，x表示“张三董事长”在新加入的训练语料数据中出现的次数；y表示“张三”在新加入的训练语料数据中出现的次数，此时得到的P(董事长|张三)这一概率是衡量“张三”后边接“董事长”的最新概率。

在本实施例中，如果查询短语e_k为“张三董事长发表了”，且hm(e_k,f_k)为与3元语言模型对应的函数，即是e_k基于n元语言模型得到的概率，则：hm(e_k,f_k)＝P(张三|<s>)P(董事长|<s>,张三)P(发表|张三,董事长)P(了|董事长,发表)。

(三)设hm(e_k,f_k)为根据短语分词个数得到的函数，则hm(e_k,f_k)可以是：

hm(e_k,f_k)＝min(count(e_k),count(f_k))/max(count(e_k),count(f_k))

其中，count(e_k)为e_k中所包含的分词个数，count(f_k)为f_k中所包含的分词个数。

本实施例提供的技术方案，预先将目标查询语句分割为多个查询短语，然后以查询短语为翻译单位，基于短语翻译模型进行翻译，以得到与每个查询短语相对应的具有相似语义的多个候选短语，进而通过组合不同查询短语的候选短语来确定候选语句。当然，本领域普通技术人员应理解，在本发明实施例中，还可直接将目标查询语句翻译为多条候选语句，通过短语翻译模型将目标查询语句翻译为至少一条候选语句中的第i条候选语句trans_i(q)的翻译概率：

score(trans_i(q))＝Pr(e|f)

\Pr (e | f) = \frac{\exp (Σ_{m = 1}^{M} λm * hm (e, f))}{Σ_{e^{'}} \exp (Σ_{m = 1}^{M} λm * hm (e^{'}, f))}

其中，e'为根据短语翻译模型对f进行翻译得到的各条候选语句。

在本实施例中，通过log-linear(线性对数)模型(参见)集成多维特征共为翻译模型所用。线性对数模型的表示方法可参见上述对Pr(e|f)或Pr(e_k|f_k)的计算过程。该线性对数模型不限制特征函数的数目和类型，并且通过权重λm来控制各个特征函数在翻译过程中的贡献权重。

实施例五

图5A是本发明实施例五提供的一种查询语句与网页相似度的确定方法的流程示意图，本实施例在上述实施例四的基础上，将“将各个查询短语对应的至少一个候选短语进行组合，得到至少一条候选语句”的操作优化为“以类似词格的数据结构方式存储翻译得到的各个候选短语，通过对数据结构的读取来确定目标查询语句对应的候选语句”。参见图5A，本实施例提供的方法具体包括如下操作：

操作510、对目标查询语句进行短语的划分，得到至少一个查询短语。

操作520、遍历各个查询短语，将当前遍历到的查询短语翻译为具有相似语义的至少一个候选短语。

操作530、按照如下数据结构方式，存储各个查询短语对应的至少一个候选短语：分别为各个候选短语创建一个节点，节点包括候选短语和至少一个后继指针，至少一个后继指针用于指向目标查询语句中与该候选短语对应的查询短语的下一个查询短语所对应的至少一个候选短语节点；并记录目标查询语句中第一个查询短语对应的各个候选短语所在节点的存储位置。

操作540、根据记录的内容，对所存储的候选短语进行读取，以确定至少一条候选语句。

在本实施例中，操作530和操作540，实现了“将各个查询短语对应的至少一个候选短语进行组合，得到至少一条候选语句”的操作。

考虑到在以短语为翻译单位，将目标查询语句所包括的各个查询短语进行翻译后，所得到的候选短语数量较为庞大，本实施例以类似词格的数据结构方式对其进行存储，以建立候选短语之间在组合为候选语句时的连接关系。上述数据结构方式可以有效地节省内存空间，使得在计算候选语句和网页主题句的相似度的时候，可以采用动态规划的方法来进行，从而有效的复用相似度计算结果。

在本实施例的一种优选的实施方式中，节点还包括将查询短语翻译为候选短语的翻译概率；

根据记录的内容，对所存储的候选短语进行读取，以确定至少一条候选语句，包括：

根据记录的内容，读取存储的各个节点所包括的候选短语；

根据读取结果，生成由各个查询短语对应的至少一个候选短语组合得到的至少一条候选语句，及各条候选语句的翻译概率；

从至少一条候选语句中挑选出翻译概率排名位于前T的候选语句，用于作为与网页主题句进行相似度计算的候选语句，其中T为大于等于1的整数。

为更清楚的阐述上述操作530和操作540，先举例说明。例如，假设目标查询语句为“我吃饭”，查询短语包括“我”和“吃饭”；翻译得到的与查询短语“我”对应的候选短语包括“我”和“俺”等，与查询短语“吃饭”对应的候选短语包括“用餐”和“去食堂”等，因此候选语句包括“我用餐”、“我去食堂”、“俺用餐”和“俺去食堂”等多条语句。对于候选短语之间在组合为候选语句时的连接关系示意图可参见5B。虽然“我吃饭”的翻译结果包括4种不一样的描述形式，但是却可以用一个简单的数据结构来概括出来。在图5B中，分别有两个指针从“我”和“俺”发出，均分别指向了“用餐”和“去食堂”。随着查询短语数量的增多，例如10个短语，每个短语都有两个可能的候选短语时，则排列组合的个数会呈指数级增长。而采用上述类似词格的数据结构，则可以简洁地把指数级的候选短语描述出来，从而避免了组合爆炸的问题。为加快相似度计算速度，从上图5B中可知，可以基于已有的viterbi解码算法，简单地通过动态规划技术仅从翻译得到的大量的候选语句中挑选出来前N条候选语句，作为后续与网页主题句进行相似度计算的语句。

参见图5B，“我->我”的翻译概率为0.5，“我->俺”的翻译概率为0.2，“吃饭->用餐”的翻译概率为0.6，“吃饭->去食堂”的翻译概率为0.1；

则，“我吃饭–>我用餐”的翻译概率为0.5*0.6＝0.3

“我吃饭–>俺用餐”的概率为0.2*0.6＝0.12

“我吃饭–>我去食堂”的概率为0.5*0.1＝0.05

“我吃饭–>俺去食堂”的概率为0.2*0.1＝0.02

从而，前1个候选语句为“我用餐”，前两个候选语句为“我用餐”和“俺用餐”。

操作550、按照如下公式，计算通过短语翻译模型将目标查询语句翻译为至少一条候选语句中的第i条候选语句trans_i(q)的翻译概率：

score ({trans}_{i} (q)) = Π_{k = 1}^{K} \Pr (e_{k} | f_{k})

操作560、基于如下公式，确定目标查询语句与网页主题句之间的相似度：

sim (q, t) = Σ_{i = 1}^{N} {score ({trans}_{i} (q)) * BLEU ({trans}_{i} (q), t)}

实施例六

图6是本发明实施例六提供的另一种查询语句与网页相似度的确定方法的流程示意图，本实施例可适用于计算终端发送的目标查询语句与网页之间的相似度的情况，该方法可以由具有大数据处理能力的云端服务器执行。参见图6，本实施例提供的方法具体包括如下操作：

操作610、云端服务器获取终端发送的目标查询语句；

操作620、云端服务器通过预先创建的短语翻译模型，将目标查询语句翻译为具有相似语义的至少一条候选语句，并下发给终端，以指示终端根据至少一条候选语句与网页主题句之间的相似度，确定目标查询语句和网页主题句之间的相似度；

其中，网页主题句为网页标题，或者基于设定算法对网页内容进行解析得到的用于描述网页主要内容的语句。

需要说明的是，本实施例中关于“通过预先创建的短语翻译模型，将目标查询语句翻译为具有相似语义的至少一条候选语句”这一操作的技术细节，与本发明实施例一至实施例五所述的相应技术细节相同，在此不再赘述。

本实施例提供的技术方案，云端服务器在获取到终端上报的目标查询语句后，会通过短语翻译模型，将目标查询语句翻译为具有相似语义的至少一条候选语句，并将其下发，从而可以指示终端根据至少一条候选语句与网页主题句之间的相似度，来确定目标查询语句和网页主题句之间的相似度，这样能够提高置备在终端上的搜索引擎在任一查询语句下的网页召回率；另一方面使得搜索引擎能够针对表现形式不同而语义相似的各条查询句，返回相差较小的网页集合，提升用户的搜索体验。

实施例七

图7是本发明实施例七提供的再一种查询语句与网页相似度的确定方法的流程示意图，本实施例可适用于在获取到用户输入的查询语句后，计算该查询语句与网页之间的相似度的情况，该方法可以由为用户提供网页搜索服务的搜索引擎所在终端执行，该终端为为用户提供网页搜索服务的搜索引擎所在的电子设备，例如可以是台式电脑、笔记本电脑、平板电脑或智能手机等。参见图7，本实施例提供的方法具体包括如下操作：

操作710、终端向云端服务器发送目标查询语句，以指示云端服务器通过预先创建的短语翻译模型，将目标查询语句翻译为具有相似语义的至少一条候选语句；

操作720、终端接收云端服务器下发的至少一条候选语句，根据至少一条候选语句与网页主题句之间的相似度，确定目标查询语句和网页主题句之间的相似度；

需要说明的是，本实施例中关于“根据至少一条候选语句与网页主题句之间的相似度，确定目标查询语句和网页主题句之间的相似度”这一操作的技术细节，与本发明实施例一至实施例五所述的相应技术细节相同，在此不再赘述。

本实施例提供的技术方案，终端在生成目标查询语句后，会上报给云端服务器，指示云端服务器基于短语翻译模型，将目标查询语句翻译为具有相似语义的至少一条候选语句并返回至终端，从而使得终端可以指示终端根据至少一条候选语句与网页主题句之间的相似度，来确定目标查询语句和网页主题句之间的相似度，这样不仅能够提高置备在终端上的搜索引擎在任一查询语句下的网页召回率，使得搜索引擎能够针对表现形式不同而语义相似的各条查询句，返回相差较小的网页集合，提升用户的搜索体验，而且由于目标查询语句的翻译过程是由云端服务器来执行的，可以在很大程度上减轻终端的处理负担，且无需终端配置具有高速数据处理功能的处理器，降低了终端的设计成本。

实施例八

图8是本发明实施例八提供的一种优选的查询语句与网页相似度的确定方法的流程示意图，本实施例可以以上述各实施例为基础，提供了一种优选实例。参见图8，本实施例提供的方法具体包括如下操作：

操作810、终端生成目标查询语句，并上报给云端服务器。

操作820、云端服务器对目标查询语句进行短语的划分，得到至少一个查询短语；遍历各个查询短语，将当前遍历到的查询短语翻译为具有相似语义的至少一个候选短语，下发至终端；

操作830、终端按照如下数据结构方式，存储各个查询短语对应的至少一个候选短语：分别为各个候选短语创建一个节点，节点包括候选短语和至少一个后继指针，至少一个后继指针用于指向目标查询语句中与该候选短语对应的查询短语的下一个查询短语所对应的至少一个候选短语节点；并记录目标查询语句中第一个查询短语对应的各个候选短语所在节点的存储位置。

操作840、终端根据记录的内容，对所存储的候选短语进行读取，以确定至少一条候选语句。

操作850、终端基于如下公式，确定目标查询语句与网页主题句之间的相似度：

sim (q, t) = Σ_{i = 1}^{N} {score ({trans}_{i} (q)) * BLEU ({trans}_{i} (q), t)}

与传统的基于短语的统计翻译模型所使用的双语语料不同，本实施例面向的“目标查询语句”和“网页主题句”的相似度匹配，需要用的“源语言句子”指的是“目标查询语句”，而“目标语言句子”指的是“网页主题句”。例如“目标查询语句”可以是“日本收购的中国企业”，“网页主题句”可以是“非诚勿扰:中国企业收购日本企业的实证研究_商业福布斯中文网”，“中国有什么重大企业被日本收购了？-已回答-搜狗问问”等。也就是说，本实施例中翻译的目标是把用户输入的“目标查询语句”翻译成“网页句子”。通过翻译概率来达到对候选网页的排序，并进一步把排序完成的网页的统一资源定位标识符列表/标题/摘要等作为信息检索结果返回给用户。

另外，本实施例在计算目标查询语句与网页主题句相似度的时候，不是采取已有的硬匹配的方法，而是将目标查询语句进行翻译，再与网页主题句匹配，保证了语义信息的多样性，以及允许网页主题句表现形式的多样性。这两者的多样性，可以比较好地处理同一个目标查询语句的多个语义可能的情况，从而给用户反馈的结果中，可以包括多个领域，多个维度的信息。所谓“硬匹配”，这里指的是基于字面的匹配，例如字面上“很好”和“不错”，不是一个词；然而在语义层面上，他们是同义的，是具有相似语义的。也就是说，硬匹配无法告诉我们“很好”和“不错”是同义词。

实施例九

图9是本发明实施例九提供的一种查询语句与网页相似度的确定装置的结构示意图，本实施例可适用于在获取到用户输入的查询语句后，计算该查询语句与网页之间的相似度的情况。参见图9，该装置的具体结构如下：

候选翻译模块910，用于通过预先创建的短语翻译模型，将目标查询语句翻译为具有相似语义的至少一条候选语句；

相似度确定模块920，用于根据所述至少一条候选语句与网页主题句之间的相似度，确定目标查询语句和网页主题句之间的相似度；

进一步的，所述装置还包括：

翻译语料确定模块900，用于在所述候选翻译模块910根据预先创建的短语翻译模型，将目标查询语句翻译为具有相似语义的至少一条候选语句之前，确定翻译双语对语料；其中，所述翻译双语对语料中翻译双语对的源语言句子为查询语句，目标语言句子为网页主题句；

翻译模型创建模块905，用于对所述翻译双语对语料进行训练，以创建短语翻译模型；所述短语翻译模型的输入为查询语句，输出包括与输入具有相似语义的至少一条候选语句。

进一步的，所述翻译语料确定模块900，具体用于：

基于用户点击数据，确定翻译双语对语料；

其中，所述用户点击数据包括：查询日志中所统计的用户输入的查询语句，与用户在返回的多个查询结果中所点击的网页链接之间的映射关系；

所述翻译双语对语料包括：由查询日志中所包含的查询语句，和与该查询语句对应的网页链接中点击率超过设定点击阈值的网页链接的网页主题句，分别作为源语言句子和目标语言句子组成的第一翻译双语对；和/或，由查询日志中所包含的满足预设条件的两条目标查询语句分别作为源语言句子和目标语言句子组成的第二翻译双语对；所述预设条件，包括：所述两条目标查询语句所分别对应的网页主题句集合之间的相似度大于设定的第一阈值，所述两条目标查询语句之间的相似度小于设定的第二阈值。

进一步的，所述相似度确定模块920，具体用于：

基于如下公式，确定目标查询语句与网页主题句之间的相似度：

sim (q, t) = Σ_{i = 1}^{N} {score ({trans}_{i} (q)) * BLEU ({trans}_{i} (q), t)}

其中，sim(q,t)为目标查询语句q与网页主题句t之间的相似度；

N为所述至少一条候选语句的总条数；

score(trans_i(q))为通过所述短语翻译模型将目标查询语句翻译为所述至少一条候选语句中的第i条候选语句trans_i(q)的翻译概率；

BLEU(trans_i(q),t)为trans_i(q)与t之间的相似度。

进一步的，所述装置还包括：

候选相似度计算模块918，用于在所述相似度确定模块920根据所述至少一条候选语句与网页主题句之间的相似度，确定目标查询语句和网页主题句之间的相似度之前，基于语言模型字符串匹配算法，计算所述至少一条候选语句与网页主题句的相似度。

进一步的，所述候选相似度计算模块918，具体用于：

按照如下公式，计算所述至少一条候选语句与网页主题句的相似度：

BLEU ({trans}_{i} (q), t) = BP ({trans}_{i} (q), t) * \exp (Σ_{n = 1}^{4} \frac{1}{4} \log (P_{n}))

其中，BP(trans_i(q),t)为trans_i(q)与t对应的惩罚权重，如果trans_i(q)的分词个数小于等于t的分词个数，则BP(trans_i(q),t)的取值为exp(1-x/y)，x为t的分词个数，y为trans_i(q)的分词个数，如果trans_i(q)的分词个数大于t的分词个数，则BP(trans_i(q),t)的取值为1；

P_n为采用n元语言模型所计算的trans_i(q)和t中匹配成功的次数。

进一步的，所述候选翻译模块910，包括：

短语划分单元9101，用于对目标查询语句进行短语的划分，得到至少一个查询短语；

短语翻译单元9102，用于遍历各个查询短语，将当前遍历到的查询短语翻译为具有相似语义的至少一个候选短语；

候选语句确定单元9103，用于将各个查询短语对应的至少一个候选短语进行组合，得到至少一条候选语句；

所述装置还包括：

语句翻译概率计算模块916，用于在所述相似度确定模块920根据所述至少一条候选语句与网页主题句之间的相似度，确定目标查询语句与网页主题句的相似度之前，按照如下公式，计算通过所述短语翻译模型将目标查询语句翻译为所述至少一条候选语句中的第i条候选语句trans_i(q)的翻译概率：

score ({trans}_{i} (q)) = Π_{k = 1}^{K} \Pr (e_{k} | f_{k})

其中，K为目标查询语句所包含的查询短语的个数；

Pr(e_k|f_k)为通过所述短语翻译模型将f_k翻译为e_k的翻译概率，f_k为目标查询语句f的第k个查询短语，e_k为候选语句e中的第k个候选短语。

进一步的，所述装置还包括：

短语翻译概率计算模块914，用于在所述相似度确定模块920根据所述至少一条候选语句与网页主题句之间的相似度，确定目标查询语句与网页主题句的相似度之前，按照如下公式，计算Pr(e_k|f_k)：

\Pr (e_{k} | f_{k}) = \frac{\exp (Σ_{m = 1}^{M} λm * hm (e_{k}, f_{k}))}{Σ_{e_{k}^{'}} \exp (Σ_{m = 1}^{M} λm * hm (e_{k}^{'}, f_{k}))}

其中，M为加在e_k和f_k上的所有特征函数的总个数；

hm(e'_k,f_k)为用于表征将f_k翻译为e'_k的翻译概率的第m个特征函数，e'_k为根据所述短语翻译模型对f_k进行翻译得到的各个候选短语；

λm为第m个特征函数的权重。

进一步的，第m个特征函数为与双向翻译概率对应的函数、与语言模型对应的函数、或者根据短语分词个数得到的函数。

进一步的，所述候选语句确定单元9103，包括：

短语存储子单元91031，用于按照如下数据结构方式，存储各个查询短语对应的至少一个候选短语：分别为各个候选短语创建一个节点，节点包括候选短语和至少一个后继指针，所述至少一个后继指针用于指向目标查询语句中与该候选短语对应的查询短语的下一个查询短语所对应的至少一个候选短语节点；并记录目标查询语句中第一个查询短语对应的各个候选短语所在节点的存储位置；

短语读取子单元91032，用于根据所述短语存储子单元记录的内容，对所存储的候选短语进行读取，以确定至少一条候选语句。

进一步的，节点还包括将查询短语翻译为候选短语的翻译概率；

所述短语读取子单元91032，具体用于：

根据记录的内容，读取所述短语存储子单元存储的各个节点所包括的候选短语；

从所述至少一条候选语句中挑选出翻译概率排名位于前T的候选语句，用于作为与网页主题句进行相似度计算的候选语句，其中T为大于等于1的整数。

上述产品可执行本发明任意实施例所提供的由查询语句与网页相似度的确定装置执行的方法，具备执行方法相应的功能模块和有益效果。

实施例十

图10是本发明实施例十提供的一种云端服务器的结构示意图。本实施例可适用于计算终端发送的目标查询语句与网页之间的相似度的情况。参见图10，该云端服务器的具体结构如下：

查询语句获取模块1010，用于获取终端发送的目标查询语句；

查询语句翻译模块1020，用于通过预先创建的短语翻译模型，将所述目标查询语句翻译为具有相似语义的至少一条候选语句，并下发给所述终端，以指示所述终端根据所述至少一条候选语句与网页主题句之间的相似度，确定目标查询语句和网页主题句之间的相似度；

上述产品可执行本发明任意实施例所提供的由云端服务器执行的方法，具备执行方法相应的功能模块和有益效果。

实施例十一

图11是本发明实施例十一提供的一种终端的结构示意图。本实施例可适用于在获取到用户输入的查询语句后，计算该查询语句与网页之间的相似度的情况。参见图11，该终端的具体结构如下：

查询语句发送模块1110，用于向云端服务器发送目标查询语句，以指示所述云端服务器通过预先创建的短语翻译模型，将所述目标查询语句翻译为具有相似语义的至少一条候选语句；

相似度确定模块1120，用于接收所述云端服务器下发的至少一条候选语句，根据所述至少一条候选语句与网页主题句之间的相似度，确定目标查询语句和网页主题句之间的相似度；

上述产品可执行本发明任意实施例所提供的由终端执行的方法，具备执行方法相应的功能模块和有益效果。

实施例十二

图12是本发明实施例十二提供的一种查询语句与网页相似度的确定方法在信息检索系统上的应用流程示意图。参见图12，该流程具体包括如下操作：

信息检索系统通过网络爬虫技术爬取大量的网页内容，对所爬取的网页(web)内容进行理解，根据对每个网页内容的理解结果，建立一条索引信息，并存储至索引列表中，索引信息包括网页统一资源定位标识符、网页摘要以及网页标题等信息；

信息检索系统获取用户在用户交互界面上输入的查询语句，并对该查询语句进行理解，然后从索引列表中检索出多条索引信息，基于查询语句理解结果和检索出的索引信息，完成查询语句与各网页的匹配，该匹配包括查询语句与各网页标题的匹配(即计算查询语句与各网页标题之间的相似度)；

信息检索系统在完成查询语句与各网页的匹配之后，按照查询语句与各网页的相关性，对各网页进行排序，根据排序结果确定返回给用户的候选网页。

其中，网页理解过程包括短语识别、关键短语识别、主题识别、结构识别等。即对于包括了众多句子的一个网页，从其中识别出短语和关键短语(频次明显高于其他n元连续的词的字符串的短语)，所在领域(科技，新闻，娱乐等)。进一步的，结构识别主要包括：主谓宾定状补等语法结构信息识别。

查询语句理解包括拼写检查、短语识别、近似查询语句查询、主题识别等，以及结构解析。例如，对于查询语句：谁是谢蜓峰的儿子，执行拼写检查，确定“谢蜓峰”的正确描述是“谢霆锋”；短语识别：“谢霆锋的儿子”是一个短语；近似查询语句：“谁是谢蜓峰的儿子”–>“谢霆锋儿子”；主题识别：谢霆锋是演员、明星，属于“娱乐”领域；结构解析：谓语“是”，主语“谁”，宾语“谢霆锋的儿子”。

网络爬虫(又被称为网页蜘蛛，网络机器人)，是一种按照一定的规则，自动的抓取万维网信息的程序或者脚本。网络爬虫是一个自动提取网页的程序，它为搜索引擎从万维网上下载网页，是搜索引擎的重要组成。传统爬虫从一个或若干初始网页的统一资源定位标识符开始，获得初始网页上的统一资源定位标识符，在抓取网页的过程中，不断从当前页面上抽取新的统一资源定位标识符放入队列,直到满足系统的一定停止条件。聚焦爬虫的工作流程较为复杂，需要根据一定的网页分析算法过滤与主题无关的链接，保留有用的链接并将其放入等待抓取的统一资源定位标识符队列。然后，它将根据一定的搜索策略从队列中选择下一步要抓取的网页统一资源定位标识符，并重复上述过程，直到达到系统的某一条件时停止。另外，所有被爬虫抓取的网页将会被系统存贮，进行一定的分析、过滤，并建立索引，以便之后的查询和检索；对于聚焦爬虫来说，这一过程所得到的分析结果还可能对以后的抓取过程给出反馈和指导。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

Claims

1.一种查询语句与网页相似度的确定方法，其特征在于，包括：

2.根据权利要求1所述的查询语句与网页相似度的确定方法，其特征在于，在通过预先创建的短语翻译模型，将目标查询语句翻译为具有相似语义的至少一条候选语句之前，还包括：

确定翻译双语对语料；其中，所述翻译双语对语料中翻译双语对的源语言句子为查询语句，目标语言句子为网页主题句；

对所述翻译双语对语料进行训练，以创建短语翻译模型；所述短语翻译模型的输入为查询语句，输出包括与输入具有相似语义的至少一条候选语句。

3.根据权利要求2所述的查询语句与网页相似度的确定方法，其特征在于，确定翻译双语对语料，包括：

基于用户点击数据，确定翻译双语对语料；

4.根据权利要求1-3中任一项所述的查询语句与网页相似度的确定方法，其特征在于，根据所述至少一条候选语句与网页主题句之间的相似度，确定目标查询语句与网页主题句的相似度，包括：

sim (q, t) = Σ_{i = 1}^{N} {score ({trans}_{i} (q)) * BLEU ({trans}_{i} (q), t)}

其中，sim(q,t)为目标查询语句q与网页主题句t之间的相似度；

N为所述至少一条候选语句的总条数；

BLEU(trans_i(q),t)为trans_i(q)与t之间的相似度。

5.根据权利要求4所述的查询语句与网页相似度的确定方法，其特征在于，在根据所述至少一条候选语句与网页主题句之间的相似度，确定目标查询语句和网页主题句之间的相似度之前，还包括：

基于语言模型字符串匹配算法，计算所述至少一条候选语句与网页主题句的相似度。

6.根据权利要求5所述的查询语句与网页相似度的确定方法，其特征在于，基于语言模型字符串匹配算法，计算所述至少一条候选语句与网页主题句的相似度，包括：

BLEU ({trans}_{i} (q), t) = BP ({trans}_{i} (q), t) * \exp (Σ_{n = 1}^{4} \frac{1}{4} \log (P_{n}))

7.根据权利要求4所述的查询语句与网页相似度的确定方法，其特征在于，通过预先创建的短语翻译模型，将目标查询语句翻译为具有相似语义的至少一条候选语句，包括：

对目标查询语句进行短语的划分，得到至少一个查询短语；

遍历各个查询短语，将当前遍历到的查询短语翻译为具有相似语义的至少一个候选短语；

将各个查询短语对应的至少一个候选短语进行组合，得到至少一条候选语句；

在根据所述至少一条候选语句与网页主题句之间的相似度，确定目标查询语句与网页主题句的相似度之前，还包括：

按照如下公式，计算通过所述短语翻译模型将目标查询语句翻译为所述至少一条候选语句中的第i条候选语句trans_i(q)的翻译概率：

score ({trans}_{i} (q)) = Π_{k = 1}^{K} \Pr (e_{k} | f_{k})

其中，K为目标查询语句所包含的查询短语的个数；

8.根据权利要求7所述的查询语句与网页相似度的确定方法，其特征在于，在根据所述至少一条候选语句与网页主题句之间的相似度，确定目标查询语句与网页主题句的相似度之前，还包括：

按照如下公式，计算Pr(e_k|f_k)：

\Pr (e_{k} | f_{k}) = \frac{\exp (Σ_{m = 1}^{M} λm * hm (e_{k}, f_{k}))}{Σ_{e_{k}^{'}} \exp (Σ_{m = 1}^{M} λm * hm (e_{k}^{'}, f_{k}))}

其中，M为加在e_k和f_k上的所有特征函数的总个数；

hm(e′_k,f_k)为用于表征将f_k翻译为e'_k的翻译概率的第m个特征函数，e'_k为根据所述短语翻译模型对f_k进行翻译得到的各个候选短语；

λm为第m个特征函数的权重。

9.根据权利要求8所述的查询语句与网页相似度的确定方法，其特征在于，第m个特征函数为与双向翻译概率对应的函数、与语言模型对应的函数、或者根据短语分词个数得到的函数。

10.根据权利要求7所述的查询语句与网页相似度的确定方法，其特征在于，将各个查询短语对应的至少一个候选短语进行组合，得到至少一条候选语句，包括：

按照如下数据结构方式，存储各个查询短语对应的至少一个候选短语：

分别为各个候选短语创建一个节点，节点包括候选短语和至少一个后继指针，所述至少一个后继指针用于指向目标查询语句中与该候选短语对应的查询短语的下一个查询短语所对应的至少一个候选短语节点；并记录目标查询语句中第一个查询短语对应的各个候选短语所在节点的存储位置；

根据记录的内容，对所存储的候选短语进行读取，以确定至少一条候选语句。

11.根据权利要求10所述的查询语句与网页相似度的确定方法，其特征在于，节点还包括将查询短语翻译为候选短语的翻译概率；

根据记录的内容，读取存储的各个节点所包括的候选短语；

12.一种查询语句与网页相似度的确定方法，其特征在于，包括：

云端服务器获取终端发送的目标查询语句；

13.一种查询语句与网页相似度的确定方法，其特征在于，包括：

14.一种查询语句与网页相似度的确定装置，其特征在于，包括：

15.根据权利要求14所述的查询语句与网页相似度的确定装置，其特征在于，还包括：

翻译语料确定模块，用于在所述候选翻译模块根据预先创建的短语翻译模型，将目标查询语句翻译为具有相似语义的至少一条候选语句之前，确定翻译双语对语料；其中，所述翻译双语对语料中翻译双语对的源语言句子为查询语句，目标语言句子为网页主题句；

翻译模型创建模块，用于对所述翻译双语对语料进行训练，以创建短语翻译模型；所述短语翻译模型的输入为查询语句，输出包括与输入具有相似语义的至少一条候选语句。

16.根据权利要求15所述的查询语句与网页相似度的确定装置，其特征在于，所述翻译语料确定模块，具体用于：

基于用户点击数据，确定翻译双语对语料；

17.根据权利要求14-16中任一项所述的查询语句与网页相似度的确定装置，其特征在于，所述相似度确定模块，具体用于：

sim (q, t) = Σ_{i = 1}^{N} {score ({trans}_{i} (q)) * BLEU ({trans}_{i} (q), t)}

其中，sim(q,t)为目标查询语句q与网页主题句t之间的相似度；

N为所述至少一条候选语句的总条数；

BLEU(trans_i(q),t)为trans_i(q)与t之间的相似度。

18.根据权利要求17所述的查询语句与网页相似度的确定装置，其特征在于，还包括：

候选相似度计算模块，用于在所述相似度确定模块根据所述至少一条候选语句与网页主题句之间的相似度，确定目标查询语句和网页主题句之间的相似度之前，基于语言模型字符串匹配算法，计算所述至少一条候选语句与网页主题句的相似度。

19.根据权利要求18所述的查询语句与网页相似度的确定装置，其特征在于，所述候选相似度计算模块，具体用于：

BLEU ({trans}_{i} (q), t) = BP ({trans}_{i} (q), t) * \exp (Σ_{n = 1}^{4} \frac{1}{4} \log (P_{n}))

20.根据权利要求17所述的查询语句与网页相似度的确定装置，其特征在于，所述候选翻译模块，包括：

短语划分单元，用于对目标查询语句进行短语的划分，得到至少一个查询短语；

短语翻译单元，用于遍历各个查询短语，将当前遍历到的查询短语翻译为具有相似语义的至少一个候选短语；

候选语句确定单元，用于将各个查询短语对应的至少一个候选短语进行组合，得到至少一条候选语句；

所述装置还包括：

语句翻译概率计算模块，用于在所述相似度确定模块根据所述至少一条候选语句与网页主题句之间的相似度，确定目标查询语句与网页主题句的相似度之前，按照如下公式，计算通过所述短语翻译模型将目标查询语句翻译为所述至少一条候选语句中的第i条候选语句trans_i(q)的翻译概率：

score ({trans}_{i} (q)) = Π_{k = 1}^{K} \Pr (e_{k} | f_{k})

其中，K为目标查询语句所包含的查询短语的个数；

21.根据权利要求20所述的查询语句与网页相似度的确定装置，其特征在于，还包括：

短语翻译概率计算模块，用于在所述相似度确定模块根据所述至少一条候选语句与网页主题句之间的相似度，确定目标查询语句与网页主题句的相似度之前，按照如下公式，计算Pr(e_k|f_k)：

\Pr (e_{k} | f_{k}) = \frac{\exp (Σ_{m = 1}^{M} λm * hm (e_{k}, f_{k}))}{Σ_{e_{k}^{'}} \exp (Σ_{m = 1}^{M} λm * hm (e_{k}^{'}, f_{k}))}

其中，M为加在e_k和f_k上的所有特征函数的总个数；

λm为第m个特征函数的权重。

22.根据权利要求21所述的查询语句与网页相似度的确定装置，其特征在于，第m个特征函数为与双向翻译概率对应的函数、与语言模型对应的函数、或者根据短语分词个数得到的函数。

23.根据权利要求20所述的查询语句与网页相似度的确定装置，其特征在于，所述候选语句确定单元，包括：

短语存储子单元，用于按照如下数据结构方式，存储各个查询短语对应的至少一个候选短语：分别为各个候选短语创建一个节点，节点包括候选短语和至少一个后继指针，所述至少一个后继指针用于指向目标查询语句中与该候选短语对应的查询短语的下一个查询短语所对应的至少一个候选短语节点；并记录目标查询语句中第一个查询短语对应的各个候选短语所在节点的存储位置；

短语读取子单元，用于根据所述短语存储子单元记录的内容，对所存储的候选短语进行读取，以确定至少一条候选语句。

24.根据权利要求23所述的查询语句与网页相似度的确定装置，其特征在于，节点还包括将查询短语翻译为候选短语的翻译概率；

所述短语读取子单元，具体用于：

25.一种云端服务器，其特征在于，包括：

查询语句获取模块，用于获取终端发送的目标查询语句；

26.一种终端，其特征在于，包括：