CN104391969A

CN104391969A - 确定用户查询语句句法结构的方法及装置

Info

Publication number: CN104391969A
Application number: CN201410733986.3A
Authority: CN
Inventors: 吴先超; 刘占一
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Baidu Online Network Technology Beijing Co Ltd; Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2014-12-04
Filing date: 2014-12-04
Publication date: 2015-03-04
Anticipated expiration: 2034-12-04
Also published as: CN104391969B

Abstract

本发明实施例公开了一种确定用户查询语句句法结构的方法及装置。其中，所述方法包括：识别用户查询语句中的分词与预设的网页主题句中的分词之间的对齐关系；根据所述对齐关系和网页主题句的句法结构，构建用户查询语句的句法结构。本发明实施例提供的技术方案，能够采用一种便于后续处理的方式来捕捉用户查询语句的句法结构，特别是便于后续衡量用户查询语句和待匹配网页主题句之间的相关性处理。

Description

确定用户查询语句句法结构的方法及装置

技术领域

本发明实施例涉及计算机技术领域，尤其涉及一种确定用户查询语句句法结构的方法及装置。

背景技术

用户查询语句(用户向搜索引擎输入的字符串)和网页主题句(网页标题，或者对网页进行解析得到的用于描述网页主要内容的语句)的相关性计算是搜索产品的核心问题点。正是网页的基于相关性计算的排名决定了搜索引擎的优劣和用户的搜索体验质量。其中，对于在搜索引擎输入的用户查询语句而言，其表现形式具有多样性，不仅同样的语义可以用不同的用户查询语句表达，而且同样的分词在不同的用户查询语句中也具有多义性。

例如，查询“日本收购的中国企业”的时候，可以采用如下多种用户查询语句：“被日本收购的中国企业”、“日本收购了哪些中国企业”、“中国企业日本收购”、“哪些中国企业被日本控股”等。而同一个查询关键词，例如“苹果多少钱”，可以指的是：苹果公司的市值，苹果公司新推出产品的价格，也可以指用户所在地的苹果这一水果的价格等。

因此，在计算用户查询语句和网页主题句的相关性的时候，不得不尽力解决这些问题。然而，传统的基于词袋(bag-of-words)的方法，只是简单地考虑单个词或者多个词的直接匹配，并没有考虑这些词组合起来后得到的真正语义是怎样的。例如一个用户查询语句“日本收购的中国企业”和一个网页主题句“中国收购日本企业”，虽然采用单个词直接匹配的方法，相似度非常高(除了助词“的”，其他的词都被匹配上了)，然而这二者的含义却大为不同。即单单考虑词级别的匹配，无法区分开上述两句话的语义不匹配的问题。图1A是现有技术提供的一种搜索引擎在用户查询语句为“日本收购的中国企业”下的排名前六的搜索结果。参见图1A，只有排名第四的网页与用户查询语句所表达的含义是较为吻合的，而排名第一的网页、排名第二的网页、排名第三的网页、排名第五的网页、以及排名第六的网页，所表达的含义都趋向于“中国收购日本企业”，与用户查询语句“日本收购的中国企业”所表达的含义完全相反，严重影响用户体验。

为此，可尝试从句法结构的层面，来计算用户查询语句和网页主题句的相关性。也即，分别构建用户查询语句和网页主题句的句法结构，然后根据二者的句法结构之间的相似度，来衡量其相关性。但是，由于在搜索引擎中输入的用户查询语句往往是多种多样的，在语序上也是自由的，用户查询语句较为随意，所以要想捕捉到用户查询语句的句法结构，存在较大难度。即使能够捕捉成功，基于该捕捉结果与网页主题句的句法结构进行匹配，其匹配结果的准确率也十分低下。

发明内容

本发明实施例提供一种确定用户查询语句句法结构的方法及装置，以能够采用一种便于后续处理的方式来捕捉用户查询语句的句法结构，特别是便于后续衡量用户查询语句和待匹配网页主题句之间的相关性处理。

第一方面，本发明实施例提供了一种确定用户查询语句句法结构的方法，该方法包括：

识别用户查询语句中的分词与预设的网页主题句中的分词之间的对齐关系；

根据所述对齐关系和所述网页主题句的句法结构，构建所述用户查询语句的句法结构。

第二方面，本发明实施例还提供了一种确定用户查询语句句法结构的装置，该装置包括：

对齐关系识别单元，用于识别用户查询语句中的分词与预设的网页主题句中的分词之间的对齐关系；

句法结构构建单元，用于根据所述对齐关系和所述网页主题句的句法结构，构建所述用户查询语句的句法结构。

本发明实施例通过用户查询语句中的分词与预设的网页主题句中的分词之间的对齐关系，以及所述网页主题句的句法结构，来捕捉用户查询语句的句法结构，十分便于后续处理。特别是，在预设的网页主题句为与用户查询语句具有很高置信度关系的网页主题句的情况下，能够更好的以一种符合人类自然语言的方式来描述用户查询语句所表达的含义；在预设的网页主题句为与用户查询语句待匹配的网页主题句的情况下，可以提高后续搜索引擎对用户查询语句与网页主题句之间相似度的计算精度，有效保证搜索结果返回的准确率，提升用户的搜索体验。

附图说明

图1A是现有技术提供的一种搜索引擎在用户查询语句为“日本收购的中国企业”下的排名前六的搜索结果示意图；

图1B是本发明实施例一提供的一种确定用户查询语句句法结构的方法的流程示意图；

图2是本发明实施例二提供的一种确定用户查询语句句法结构的方法的流程示意图；

图3是本发明实施例三提供的一种确定用户查询语句句法结构的方法的流程示意图；

图4A是本发明实施例四提供的一种基于句法结构模型计算用户查询句和候选网页标题相似度的方法的流程示意图；

图4B是本发明实施例四提供的在建立某候选网页标题的各个依存弧的过程中所涉及的第一个动作状态选择示意图；

图4C是本发明实施例四提供的在建立上述候选网页标题的各个依存弧的过程中所涉及的第二个动作状态选择示意图；

图4D是本发明实施例四提供的在建立上述候选网页标题的各个依存弧的过程中所涉及的第三个动作状态选择示意图；

图4E是本发明实施例四提供的最终建立的上述候选网页标题的包含有多条依存弧的语法依存树的结构示意图；

图4F是本发明实施例四提供的候选网页标题为“我吃红苹果”的语法依存树的结构示意图；

图4G是本发明实施例四提供的一种用户查询语句为“理想的薪水”的语法依存树构建示意图；

图5A是本发明实施例五提供的另一种基于句法结构模型计算用户查询句和候选网页标题相似度的方法的流程示意图；

图5B是本发明实施例五提供的一个候选网页标题的语义角色标注树的结构示意图；

图5C是本发明实施例五提供的一个候选网页标题的语法依存树和语义角色标注树的生成示意图；

图5D是本发明实施例五提供的一种用户查询语句为“小官打贪的调查”的语法依存树构建示意图；

图6是本发明实施例六提供的确定用户查询语句句法结构的装置的结构示意图；

图7是本发明实施例七提供的一种基于句法结构模型计算用户查询句和网页标题的相似度方法在搜索引擎中的信息检索系统上的应用流程图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部结构。

实施例一

图1B是本发明实施例一提供的一种确定用户查询语句句法结构的方法的流程示意图。该方法可以由确定用户查询语句句法结构的装置来执行；所述装置由软件实现，可作为搜索引擎的一部分，被置备于安装在终端上的搜索引擎中，当然也可为能够与搜索引擎进行数据通信的独立产品。。参见图1B，本实施例提供的确定用户查询语句句法结构的方法具体包括如下操作：

操作110、识别用户查询语句中的分词与预设的网页主题句中的分词之间的对齐关系。

操作120、根据所述对齐关系和网页主题句的句法结构，构建用户查询语句的句法结构。

由于用户查询语句形式的多样性和任意性，故在对其语句句法结构的确定上会存在较大难度。构造高精度高覆盖率(指覆盖广阔的形式自由的用户查询语句)的面向用户查询语句的句法结构分析器并不是一件简单的事情。但是，网页主题句通常则较为规则，其句法结构的随意性更小一些，从而使得构建网页主题句句法结构的难度要远低于构建用户查询语句句法结构的难度。在本发明实施例中，句法结构指的是句子的语法结构(例如语法依存树)和/或语义结构(例如语义角色标注树)。

为此，本实施例使用词对齐的思想，从构建相对容易的网页主题句的句法结构出发，来构建用户查询句的句法结构。具体的，首先根据设定的词对齐算法，来识别用户查询语句中的分词与预设的网页主题句中的分词之间的对齐关系；然后，根据识别的对齐关系和网页主题句的句法结构，来构建用户查询语句的句法结构。在本实施例中，如果用户查询语句中的一个分词与预设的网页主题句中的一个分词是完全相同，或是同义的，则可判定这两个分词是对齐的，二者之间具有对齐关系。

如果本实施例所确定的用户查询语句句法结构是应用于用户查询语句与网页主题句之间匹配度计算的，则预设的网页主题句可以是与用户查询语句待匹配的网页主题句；如果本实施例所确定的用户查询语句句法结构主要应用于对用户查询语句所表达含义的正确表示的，则预设的网页主题句可以是与用户查询语句具有置信关系的网页主题句。其中，与用户查询语句具有置信关系的网页主题句，可具体指的是与用户查询语句对应的用户点击网页链接中点击率最高的网页链接的网页主题句。

在本实施例的一种具体实施方式中，可预先通过人工或智能学习的方式来得到大量的分词之间的对齐关系；然后根据该对齐关系，来识别用户查询语句中的分词与预设的网页主题句中的分词之间的对齐关系。例如，用户查询语句为“理想的薪水”，预设的网页主题句为“理想薪水”，则会识别出用户查询语句中的分词“理想”与“薪水”，分别与预设的网页主题句中的“理想”与“薪水”是对齐的；再例如，用户查询语句为“小官巨贪的调查”，预设的网页主题句为“警方调查小官巨贪”，则会识别出用户查询语句中的分词“小官巨贪”与“调查”，分别与预设的网页主题句中的“小官巨贪”与“调查”是对齐的。

在本实施例的一种具体实施方式中，根据识别的对齐关系和预设的网页主题句的句法结构，来构建用户查询语句的句法结构，可具体包括：如果预设的网页主题句中的两个分词之间具备句法结构关系，且所述两个分词分别与用户查询语句中的两个分词具备对齐关系，则在用户查询语句中的两个分词之间，建立预设的网页主题句中的两个分词之间所具备的句法结构关系，以构成用户查询语句的句法结构。其中，如果句法结构为语法依存树，则句法结构关系为依存关系，两个分词之间具备句法结构关系指的是两个分词之间具有依存弧；如果句法结构为语义角色标注树，句法结构关系为语义关系。

本实施例通过用户查询语句中的分词与预设的网页主题句中的分词之间的对齐关系，以及所述网页主题句的句法结构，来捕捉用户查询语句的句法结构，十分便于后续处理。特别是，在预设的网页主题句为与用户查询语句具有很高置信度关系的网页主题句的情况下，能够更好的以一种符合人类自然语言的方式来描述用户查询语句所表达的含义；在预设的网页主题句为与用户查询语句待匹配的网页主题句的情况下，可以提高后续搜索引擎对用户查询语句与网页主题句之间相似度的计算精度，有效保证搜索结果返回的准确率，提升用户的搜索体验。

实施例二

图2是本发明实施例二提供的一种确定用户查询语句句法结构的方法的流程示意图。本实施例在上述实施例一的基础上，进一步增加了生成词对齐列表的操作，并相应优化识别词对齐关系的操作。参见图2，本实施例提供的确定用户查询语句句法结构的方法具体包括如下操作：

操作210、获取样本集。

其中，获取的样本集包括：由多个查询语句样本组成的源语言样本子集，以及由与查询语句样本具有置信关系的网页主题句样本组成的翻译语言样本子集。

在本实施例中，源语言样本子集包括：查询日志中所包含的用户输入的历史查询语句；翻译语言样本子集包括：与历史查询语句对应的用户点击网页链接中点击率超过设定点击阈值的网页链接的网页主题句。互为对应关系的历史查询语句与网页主题句可为一组数据对。

操作220、基于词对齐算法，对样本集进行训练，以学习得到词对齐列表，其中词对齐列表中包含源语言样本子集中的分词与翻译语言样本子集中的分词之间的对齐关系。

在本实施例中，预先通过查询日志中所包含的大规模的历史查询语句与网页主题句的用户点击数据，来挖掘具有高相关性的查询语句样本与网页主题句样本对的数据集合。从而，可进一步根据分词的共现频次等信息，来迭代学习出来查询语句样本中的分词和网页主题句样本中的分词之间的对齐概率。

具体的，在学习词对齐关系的时候，需优先考虑那些词形完全一致的词对，例如，对实施例一中所述的“理想的薪水”和“理想薪水”而言，这两个不同语句中的“理想”与“理想”，“薪水”与“薪水”都是相同词形的词的对齐。当然，本实施例允许不是相同词形的词的对齐，这样可以更好地抽取同义词。例如，在迭代学习过程当中，学习到“理想的薪水”与“理想工资”这样的数据对出现的频次非常高的时候，可得出“薪水”与“工资”是对齐的，从而，根据词的共现信息，抽出了具有词对齐关系的同义词对“薪水”与“工资”。

在本实施例的一种具体实施方式中，词对齐算法可以是基于EM(Expectation Maximization，期望最大化)算法得到的。

下面介绍一下基于EM算法的词对齐方法。

例如，假设存在两个查询语句样本与网页主题句样本对如下：

x:a

x y:a b

上述中的“x”和“x y”均为查询语句样本，“a”和“a b”均为网页主题句样本。假设根据查询日志中的用户点击数据，已确定在输入查询语句“x”(只含有“x”这一个词)的时候，用户点击网页主题句为“a”的网页次数最多；用户在输入查询语句“x y”(网页主题句样本中包含“x”和“y”这两个词)的时候，用户点击网页主题句为“a b”的网页次数最多。这样，根据EM算法，可以首先建立x-a，x-b，y-a，y-b(其中“-”表示具有对齐关系)四种可能的词对齐关系；然后，因为x-a出现了2次，而x-b只出现了一次，再考虑到y-a，y-b只有一对查询语句样本和网页主题句样本的支持。这样，根据x-a和xy-ab，可推断出x-a的可能性大于x-b的可能性；而当x-a的时候，y-b的可能性(概率)就提高了。从而最终学习出x-a，y-b是两种更加可能的词对齐方式。

操作230、根据词对齐列表，识别用户查询语句中的分词与预设的网页主题句中的分词之间的对齐关系。

具体的，可先在词对齐列表中，查找与预设的网页主题句中的分词(设为第一分词)具有对齐关系的目标分词(设为第二分词)，然后判断用户查询语句中是否包含目标分词，如果是，则判定预设的网页主题句中的第一分词与用户查询语句中的第二分词是对齐的。

操作240、根据所述对齐关系和网页主题句的句法结构，构建用户查询语句的句法结构。

本实施例通过获取样本集，对样本集进行训练学习得到词对齐列表，从而能够以一种智能学习的方式而非人工的方式，来预先得到大量的分词之间的对齐关系，然后据此来识别用户查询语句中的分词与预设的网页主题句中的分词之间的对齐关系，这样可节省大量的人力和物力，缩短词对齐关系的生成周期，且识别结果的准确率也很高，能够更好的捕捉用户查询语句的句法结构，以便后续处理。

在上述技术方案的基础上，在识别用户查询语句的各分词与预设的网页主题句中的分词之间的对齐关系之前，还包括：

识别用户查询语句中的各分词的词性，以得到词性标注结果；获取网页主题句的词性标注结果。

相应的，识别用户查询语句中的分词与预设的网页主题句中的分词之间的对齐关系，包括：

根据词对齐列表、用户查询语句的词性标注结果和网页主题句的词性标注结果，确定用户查询语句中的分词与网页主题句中的分词之间的对齐关系。

在实际处理当中，根据中文语言的特性可知，在具有相同词性的两个分词之间，在名词与动词之间，形容词与副词之间，存在对齐关系的可能性较大，而形容词或者副词与动词之间存在对齐关系的可能性则十分小。为加快词对齐关系的识别速度，可同时结合用户查询语句与网页主题句中各分词的词性，以及词对齐列表，来进行词对齐关系的识别。例如，可先根据用户查询语句与网页主题句中各分词的词性标注结果，初步分析用户查询语句中与网页主题句中的分词可能存在对齐关系的至少一个候选分词；然后，进一步根据词对齐列表，来验证所分析得到的各个候选分词是否确实为与网页主题句中的分词存在对齐关系的分词。

实施例三

图3是本发明实施例三提供的一种确定用户查询语句句法结构的方法的流程示意图。本实施例针对搜索引擎在计算用户查询语句与候选网页主题句之间的相关性这一应用场景，将预设的网页主题句优选为候选网页主题句(也即与用户查询语句待匹配的网页主题句)。本实施例在上述实施例一和实施例二的基础上，进一步增加了计算用户查询语句的句法结构与网页主题句的句法结构之间的相似度的操作。参见图3，本实施例提供的确定用户查询语句句法结构的方法具体包括如下操作：

操作310、识别用户查询语句中的分词与候选网页主题句中的分词之间的对齐关系。

操作320、根据所述对齐关系和候选网页主题句的句法结构，构建用户查询语句的句法结构。

操作330、计算用户查询语句的句法结构与候选网页主题句的句法结构之间的相似度，将计算结果作为用户查询语句与候选网页主题句之间的匹配结果。

在本实施例的一种优选实施方式下，计算用户查询语句的句法结构与候选网页主题句的句法结构之间的相似度，包括：

按照如下公式，计算相似度：

L＝S/[{S1+S2}/2]

其中，L为用户查询语句的句法结构与候选网页主题句的句法结构之间的相似度；S1为用户查询语句的句法结构中所包含的分词之间的句法结构关系的总数量；S2为候选网页主题句的句法结构中所包含的分词之间的句法结构关系的总数量；S为用户查询语句的句法结构中与候选网页主题句的句法结构中具有的相同句法结构关系的总数量。

现依然通过现有技术中所给的计算用户查询语句“日本收购的中国企业”和一个候选网页主题句“中国收购日本企业”之间相关性的示例，来解释本实施例所具备的优点。对于该示例，采用本实施例的方案，可以得到用户查询语句中的主语是“日本”，谓语是“收购”，宾语是“中国企业”；而候选网页标题的主语是“中国”，谓语是“收购”，宾语是“日本企业”。这样的话，主谓结构不匹配，因为前者是“日本-收购”，后者是“中国-收购”；同样地，谓宾结构也不匹配。通过计算用户查询语句和候选网页主题句之间在句法结构上的相似度来衡量用户查询语句和候选网页主题句之间的相关性，可以更好地区分开具有很高匹配度的分词，而含义完全不同的用户查询语句和候选网页主题句。

上面的例子是关于“字面意思相似，而语义不同”的例子，下面再给出一个“字面匹配度低，语义相同”的例子。例如，用户查询语句为“崔永元骂教育厅”，一个网页标题(也即网页候选主题句)为“著名主持人崔永元昨天发帖骂湖南省教育厅不要脸不作为不负责”。可以看到，网页标题中的大部分词都没有匹配到用户查询语句上。简单的基于词的匹配度的相似度计算方法，有把这个网页标题与用户查询语句之间的相关性调低的倾向。但是采用本实施例的方案，在句法结构上来看，用户查询语句是“崔永元-主语骂-谓语教育厅-宾语”，而网页标题的语义主干是“崔永元-主语骂-谓语湖南省教育厅-宾语”，可以看到这个时候的基于语义主干的匹配，可以把这两个句子的相似度提高。

本实施例基于句法结构来刻画用户查询语句和候选网页主题句之间的相关性，可以提高后续搜索引擎对用户查询语句与网页主题句之间相似度的计算精度，有效保证搜索结果返回的准确率，提升用户的搜索体验。

实施例四

图4A是本发明实施例四提供的一种基于句法结构模型计算用户查询句和候选网页标题相似度的方法的流程示意图。本实施例以上述实施例一至实施例三为基础，提供一种优选实例。本实施例可适用于计算用户查询语句与候选网页标题之间的相关性的情况。在本实施例中，候选网页标题为与用户查询语句待匹配的网页主题句。参见图4A，本实施例提供的方法具体包括如下操作：

操作401、获取用户查询句。

操作402、确定用户查询句中所包含的各个分词。

操作403、识别用户查询语句中各分词的词性，以得到用户查询句的词性标注结果。

操作404、获取候选网页标题。

操作405、确定候选网页标题中所包含的各个分词。

操作406、识别候选网页标题中各分词的词性，以得到候选网页标题的词性标注结果。

操作407、采用移近归约算法，构建候选网页标题的语法依存树。

操作408、根据预先生成的词对齐列表、用户查询语句的词性标注结果和候选网页标题的词性标注结果，识别用户查询语句中的分词与候选网页标题中的分词之间的对齐关系。

操作409、根据所述对齐关系和候选网页标题的语法依存树，构建用户查询语句的语法依存树。

操作410、计算用户查询语句的语法依存树与候选网页标题的语法依存树之间的相似度，将计算结果作为用户查询语句与候选网页标题之间的匹配结果。

具体的，按照如下公式，计算所述相似度L：

L＝S/[{S1+S2}/2]

其中，S1为用户查询语句的语法依存树中所包含的分词之间的依存关系(依存弧)的总数量；S2为候选网页标题的语法依存树中所包含的分词之间的依存关系(依存弧)的总数量；S为用户查询语句的语法依存树中与候选网页标题的语法依存树中具有的相同依存关系(依存弧)的总数量。

需要说明的是，本实施例对操作401-403和操作404-406之间的先后执行顺序不作限定，操作404-406还可先于操作401-403而被执行。类似的，对操作407和操作408之间的先后执行顺序也不作限定，操作408还可先于操作407而被执行。

在本发明实施例中，任意一条句子的语法依存树为用于描述句子中分词之间的依存关系的树形图。如果句子中的两个分词之间存在依存关系，则在该句子的语法依存树中这两个分词之间应存在一条依存弧。具体的，可使用移近归约算法来执行对候选网页标题的语法依存树的构建。其中，根据依存弧的方向，分为向左(Left-arc或者称为Left-reduce)和向右(Right-arc或者称为Right-reduce)建立依存弧，再加上一个移近(Shift)操作，一共三个动作(Action)。

现举例说明Shift、Left-reduce和Right-reduce这三个动作。

参见图4B所示的在建立某候选网页标题的各个依存弧的过程中所涉及的第一个动作状态选择示意图。在当前的状态(state)中，有σ这个堆栈(stack)和β这个队列(buffer)；其中在σ这个堆栈中只有一个节点root。root节点是为每个句子的核心词所设定的一个“虚拟”节点。0代表的是其标号，一般设定一个句子的最左边的词为第一个词，而这个词之前，有一个认为设定的虚拟的root节点，其标号为0。而β这个队列中有输入的等待句法结构解析的某候选网页标题“Economic news had little effect on financial markets.”这一句子。

使用三个动作Shift,Left-arc,Right-arc来具体构造依存弧arc的效果在该图4B中的上部：

Shift,即把β中的首个单词“economic”移动到σ中；

Left-arc，即建立一个左方向的依存弧，从“economic”这个单词出发到root节点，即将“economic”作为root的父亲节点；

Right-arc，即建立一个右方向的依存弧，从root节点出发到“economic”这个单词，即root作为“economic”的父亲节点；

SVM(Support Vector Machine,支持向量机)分类器负责给上面三种动作进行打分，移近归约算法将按照打分从大到小的顺序，来选用一种动作到当前的状态(state)中，并得到下一步的结果。假设这里选择了shift这个动作，则得到如图4C所示的在建立上述候选网页标题的各个依存弧的过程中所涉及的第二个动作状态选择示意图。

进一步的，可以持续对当前的状态(state)进行下一个动作的预测，例如在shift,left-arc和right-arc中选择了概率最大的动作Left-arc进行进一步的扩展，得到如图4D所示的在建立上述候选网页标题的各个依存弧的过程中所涉及的第三个动作状态选择示意图。

进一步的，可以持续对当前的状态(state)进行下一个动作的预测，例如在shift,left-arc和right-arc中选择了概率最大的动作shift进行进一步的扩展。

按照上述方式持续下去，最终可以得到如图4E所示的包含有多条依存弧的语法依存树的结构示意图。

参见图4E，在最后生成语法依存树的时候，当前的状态(state)中的β这个队列已经为空，从而当前的状态(state)作为终结状态。

图4F是本发明实施例四提供的候选网页标题为“我吃红苹果”的语法依存树的结构示意图。参见图4F，“红”是修饰“苹果”的，“吃”的主语是“我”，宾语是“红苹果”，该候选网页标题的语法依存树共有四个依存关系，分别为：“吃”作为“我吃红苹果”句子的核心词，与“root”节点(也为核心词“吃”设定的“虚拟”节点)具有向左的依存弧；“我”与“吃”具有向左的依存弧；“苹果”与“吃”具有向右的依存弧；“红”与“苹果”具有向左的依存弧。一条依存弧为一个依存关系。

参见图4G，在现有技术采用与生成候选网页标题的句法结构相同的句法结构解析器，所得到的用户查询语句的原始语法依存树中，总共有三条依存弧，分别为：“薪水”作为“理想的薪水”用户查询语句的核心词，与“root”节点具有的向左的依存弧；“的”与“薪水”具有的向左的依存弧；“理想”与“的”具有的向左的依存弧；

在采用本实施例提供的确定用户查询语句句法结构的方法，所得到的用户查询语句的新的语法依存树中，由于候选网页标题中的“理想”与用户查询语句中的“理想”具有词对齐关系，候选网页标题中的“薪水”与用户查询语句中的“薪水”具有词对齐关系，并且候选网页标题的语法依存树包括：“薪水”与“root”节点具有的向左的依存弧；“理想”与“薪水”具有的向左的依存弧，所以在用户查询语句中所包含的“理想”与“薪水”之间，也应具备候选网页标题中的“理想”与“薪水”之间所具备的依存关系，即具有向左的依存弧。

因此，在上述示例中，对于候选网页标题的语法依存树与用户查询语句的原始语法依存树而言，由于二者具有的相同语法依存关系的总数量为1，也即二者仅有“薪水”与“root”之间的一条向左的依存弧是相同的，所以这两个语法依存树之间的相似度为：1/((3+2)/2)＝0.4，这里的“1”代表的是二者具有的相同语法依存关系的总数量，而“3”代表的是用户查询语句的原始语法依存树中所包含的分词之间的语法依存关系(也即依存弧)的总数量，与“3”作相加操作的“2”代表的是候选网页标题的语法依存树中所包含的分词之间的语法依存关系的总数量。

同理，对于候选网页标题的语法依存树与用户查询语句的新的语法依存树而言，其相似度为2/((2+2)/2)＝1。

本实施例提供的基于句法结构模型计算用户查询句和候选网页标题相似度的方法，可以有效地增强语法结构对于用户查询句和候选网页标题的匹配的影响能力，提高匹配的精度。

实施例五

图5A是本发明实施例五提供的另一种基于句法结构模型计算用户查询句和候选网页标题相似度的方法的流程示意图。本实施例以上述实施例一至实施例三为基础，提供一种优选实例。本实施例可适用于计算用户查询语句与候选网页标题之间的相关性的情况。在本实施例中，候选网页标题为与用户查询语句待匹配的网页主题句。参见图5A，本实施例提供的方法具体包括如下操作：

操作501、获取用户查询句；

操作502、确定用户查询句中所包含的各个分词；

操作503、识别用户查询语句中各分词的词性，以得到用户查询句的词性标注结果；

操作504、获取候选网页标题；

操作505、确定候选网页标题中所包含的各个分词；

操作506、识别候选网页标题中各分词的词性，以得到候选网页标题的词性标注结果；

操作507、采用移近归约算法，构建候选网页标题的语法依存树；

操作508、根据得到的语法依存树，构建候选网页标题的语义角色标注树；

操作509、根据预先生成的词对齐列表、用户查询语句的词性标注结果和候选网页标题的词性标注结果，识别用户查询语句中的分词与候选网页标题中的分词之间的对齐关系；

操作510、根据所述对齐关系和候选网页标题的语义角色标注树，构建用户查询语句的语义角色标注树；

操作511、计算用户查询语句的语义角色标注树与候选网页标题的语义角色标注树之间的相似度，将计算结果作为用户查询语句与候选网页标题之间的匹配结果。

具体的，按照如下公式，计算所述相似度L：

L＝S/[{S1+S2}/2]

其中，S1为用户查询语句的语义角色标注树中所包含的分词之间的语义关系的总数量；S2为候选网页标题的语义角色标注树中所包含的分词之间的语义关系的总数量；S为用户查询语句的语义角色标注树中与候选网页标题的语义角色标注树中具有的相同语义关系的总数量。

需要说明的是，本实施例对操作501-503和操作504-506之间的先后执行顺序不作限定，操作504-506还可先于操作501-503而被执行。类似的，对操作507-508和操作509之间的先后执行顺序不作限定，操作509还可先于操作507-508而被执行。

依存关系是从语法角度刻画句子的结构信息的。相对于语法结构而言，本实施例中所述的语义角色标注树，则着重从“语义”角度刻画句子的结构信息。在本发明实施例中，任意一条句子的语义角色标注树为用于描述句子中分词之间的语义关系的树形图。特别地，本发明涉及的“语义”，主要指的是以句子中的核心动词(例如“我吃红苹果”中的“吃”就是这个句子的核心动词)为中心，识别核心动词，判别核心动词的主语宾语等关键语义角色成分，以及时间，地点等状语成分。从而以一种“只看大局，不看细节”的方式，勾勒出句子的语义主干。

具体的，可基于语义角色标注系统，构建候选网页标题的语义角色标注树。现对语义角色标注系统的相关知识，详细介绍如下：

任务是：为一个句子中的每个谓词找到其所有论元并确定每个论元的语义角色，进而理解句子的主干语义；

核心的语义角色包括：(谓词的)施事、受事等；

非核心的语义角色包括：地点、时间等；

解决的问题为：理解句子的主干语义，即：

Who did what to whom,for whom or what,how,where,when,and why？

解决的是句子主干抽取，即“主谓宾定状补”的自动识别自动抽取的问题。

语义角色标注以一个句子的语法依存树(包括已经分词和词性标注好的句子)为输入，输出的是该句子的“主干结构”。该“主干结构”包括：谓词，谓词的语义分类，以及每个谓词的论元和谓词与论元之间的语义关系。基于对速度和精度的双重要求，语义角色标注器可采用O(n)复杂度的解码算法，其中n是输入句子中分词的个数。

例如，候选网页标题为：“克里斯蒂娜昨天用棒球打了斯科特”。该候选网页标题的语义角色标注树的结构示意图可参见图5B。

根据图5B所示的语义角色分析结果，可以进行如下提问：

谁用棒球打了斯科特？

谁被克里斯蒂娜用棒球打了？

克里斯蒂娜用啥打的斯科特？

克里斯蒂娜什么时候用棒球打的斯科特？

上面完成了对语义角色标注系统的介绍。

图5C是本发明实施例五提供的一个候选网页标题的语法依存树和语义角色标注树的生成示意图。参见图5C，在获取到候选网页标题51“谢霆锋和张柏芝的孩子Lucas出生了”之后，首先对该候选网页标题51进行分词、词性标注(包含命名实体识别)，得到该候选网页标题中共包含8个分词52，依次为：“谢霆锋”、“和”、“张柏芝”、“的”、“孩子”、“Lucas”、“出生”以及“了”，其中“谢霆锋”、“张柏芝”以及“Lucas”均为名词性质的人名；然后，构建该候选网页标题的语法依存树53；进而，将该语法依存树作为语义角色标注系统的输入，基于语义角色标注系统得到语义角色标注树54。

从图5C中可以看到，语法依存树的输出作为语义角色标注系统的输入使用。对于给定的例子，通过人名识别，依存分析，以及语义角色标注这一系列解析，最终得到语法语义结构化表示。

为更加清楚的阐述本实施例提供的技术方案，先进行举例说明。

图5D是本发明实施例五提供的一种用户查询语句为“小官打贪的调查”的语法依存树构建示意图。参见图5D，候选网页标题为“警方调查小官大贪”，用户查询语句为“小官大贪的调查”；在基于动词的语义角色标注系统中，候选网页标题可以解析出来“警方<-A0/主语调查->A1/宾语小官大贪”这样的语义关系，也即“调查”与“警方”是主谓形式的语义关系(也即“调查”)；“调查”与“小官巨贪”是动宾形式的语义关系；而在现有技术中采用与生成候选网页标题的句法结构相同的句法结构解析器，所得到的用户查询语句的原始语义角色标注树中，不包含任何语义关系。因为，用户查询语句中的“调查”是名词，采用现有技术中的基于动词的语义角色标注系统，是不会产生出来“小官大贪<-A1/宾语调查”这样的语义结构的。

在采用本实施例提供的方法中，所得到的用户查询语句的新的语义角色标注树中，由于候选网页标题中的“小官巨贪”与用户查询语句中的“小官巨贪”具有词对齐关系，候选网页标题中的“调查”与用户查询语句中的“调查”具有词对齐关系，并且候选网页标题的义角色标注树表明：“调查”与“小官巨贪”是动宾形式的语义关系，所以在用户查询语句中所包含的“调查”与“小官巨贪”之间，也应具备候选网页标题中的“调查”与“小官巨贪”之间所具备的语义关系，即为动宾关系，从而将用户查询语句中所包含的“调查”赋予具有动词性质的语义。这样使得原本没有语义结构的用户查询语句，也可以通过新生成的这种语义关系，来实现在语义结构上的候选网页标题与用户查询语句的匹配了，这里匹配上的是“调查->A1/宾语->小官巨贪”。

因此，在上述示例中，对于候选网页标题的语义角色标注树与用户查询语句的原始语义角色标注树而言，由于二者具有的相同语义关系的总数量为0，所以这两个语义角色标注树之间的相似度为：0/((0+2)/2)＝0。但是，对于候选网页标题的语法依存树与用户查询语句的新的语法依存树而言，其相似度则为1/((1+2)/2)＝0.67。

在本实施例中，A1代表的是第一个论元，也即是所谓的宾语；A0代表的是第0个论元，也即是所谓的主语”。更进一步的有A2，代表的是谓词的简介宾语；例如对于“给你一本书”这样的句子，“你”是“给”的直接宾语A1，而“一本书”是“给”的简介宾语A2)。

实施例六

图6是本发明实施例六提供的确定用户查询语句句法结构的装置的结构示意图。参见图6，该装置的具体结构如下：

对齐关系识别单元610，用于识别用户查询语句中的分词与预设的网页主题句中的分词之间的对齐关系；

句法结构构建单元620，用于根据所述对齐关系和所述网页主题句的句法结构，构建所述用户查询语句的句法结构。

进一步的，所述句法结构构建单元620，具体用于：

如果所述网页主题句中的两个分词之间具备句法结构关系，且所述两个分词分别与所述用户查询语句中的两个分词具备对齐关系，则在所述用户查询语句中的两个分词之间，建立所述网页主题句中的两个分词之间所具备的句法结构关系，以构成所述用户查询语句的句法结构。

进一步的，该装置还包括词对齐列表生成单元600，用于：

获取样本集，其中所述样本集包括：由多个查询语句样本组成的源语言样本子集，以及由与所述查询语句样本具有置信关系的网页主题句样本组成的翻译语言样本子集；

基于词对齐算法，对所述样本集进行训练，以学习得到词对齐列表，其中所述词对齐列表中包含源语言样本子集中的分词与翻译语言样本子集中的分词之间的对齐关系；

所述对齐关系识别单元610，具体用于：

根据所述词对齐列表生成单元600得到的词对齐列表，识别用户查询语句中的分词与预设的网页主题句中的分词之间的对齐关系。

进一步的，所述源语言样本子集包括：查询日志中所包含的用户输入的历史查询语句；

所述翻译语言样本子集包括：与所述历史查询语句对应的用户点击网页链接中点击率超过设定点击阈值的网页链接的网页主题句。

进一步的，该装置还包括词性标注单元605，用于：

识别所述用户查询语句中的各分词的词性，以得到词性标注结果；获取所述网页主题句的词性标注结果；

所述对齐关系识别单元610，具体用于：

根据所述词对齐列表生成单元600得到的词对齐列表，以及所述词性标注单元605得到的所述用户查询语句的词性标注结果和所述网页主题句的词性标注结果，确定所述用户查询语句中的分词与所述网页主题句中的分词之间的对齐关系。

在上述技术方案的基础上，所述网页主题句为与所述用户查询语句待匹配的网页主题句；

所述装置还包括：

相似度计算单元630，用于在所述句法结构构建单元620构建所述用户查询语句的句法结构之后，计算所述用户查询语句的句法结构与所述网页主题句的句法结构之间的相似度，将计算结果作为所述用户查询语句与所述网页主题句之间的匹配结果。

进一步的，所述相似度计算单元630，具体用于：

按照如下公式，计算所述相似度：

L＝S/[{S1+S2}/2]

其中，L为所述相似度；S1为所述用户查询语句的句法结构中所包含的分词之间的句法结构关系的总数量；S2为所述网页主题句的句法结构中所包含的分词之间的句法结构关系的总数量；S为所述用户查询语句的句法结构中与所述网页主题句的句法结构中具有的相同句法结构关系的总数量。

在上述技术方案的基础上，所述句法结构为语法依存树，句法结构关系为依存关系；或者

所述句法结构为语义角色标注树，句法结构关系为语义关系。

上述产品可执行本发明任意实施例所提供的方法，具备执行方法相应的功能模块和有益效果。

实施例七

图7是本发明实施例七提供的一种基于句法结构模型计算用户查询句和网页标题的相似度方法在搜索引擎中的信息检索系统上的应用流程图。在本实施例中，用户查询句和网页标题的相似度计算结果，作为用户查询句和网页匹配的一部分特征使用；用户查询句可以是来自用户输入的文本，音声识别出的文本，图片OCR识别出的文本等信息；在文本级别执行匹配之后，输出的检索结果可以是传统的文本，文本转换成的音声(举例说明，例如“日本收购的中国企业”，检索系统返回一系列候选)，也可以是OCR识别出来的文字在网页上的检索结果的显示。

参见图7，该流程具体包括如下操作：

信息检索系统通过网络爬虫技术爬取大量的网页内容，对所爬取的网页(web)内容进行理解，根据对每个网页内容的理解结果，建立一条索引信息，并存储至索引列表中，索引信息包括网页统一资源定位标识符、网页摘要以及网页标题等信息；

信息检索系统获取用户在用户交互界面上输入的查询语句(也即用户查询句)，并对该查询语句进行理解，然后从索引列表中检索出多条索引信息，基于查询语句理解结果和检索出的索引信息，完成查询语句与各网页的匹配，该匹配包括查询语句与各网页标题的匹配(即计算查询语句与各网页标题之间的相似度)；

信息检索系统在完成查询语句与各网页的匹配之后，按照查询语句与各网页的相关性，对各网页进行排序，根据排序结果确定返回给用户的候选网页信息。

其中，网页理解过程包括短语识别、关键短语识别、主题识别、句法结构识别等。即对于包括了众多句子的一个网页，从其中识别出短语和关键短语(频次明显高于其他n元连续的词的字符串的短语)，所在领域(科技，新闻，娱乐等)。

查询语句理解包括拼写检查、短语识别、近似查询语句查询、主题识别等，以及句法结构识别。其中，对查询语句句法结构的识别可通过本发明任意实施例提供的确定用户查询句句法结构的方法实现。例如，对于查询语句：谁是谢蜓峰的儿子，执行拼写检查，确定“谢蜓峰”的正确描述是“谢霆锋”；短语识别：“谢霆锋的儿子”是一个短语；近似查询语句：“谁是谢蜓峰的儿子”–>“谢霆锋儿子”；主题识别：谢霆锋是演员、明星，属于“娱乐”领域；句法结构包括：谓语“是”，主语“谁”，宾语“谢霆锋的儿子”。

网络爬虫(又被称为网页蜘蛛，网络机器人)，是一种按照一定的规则，自动的抓取万维网信息的程序或者脚本。网络爬虫是一个自动提取网页的程序，它为搜索引擎从万维网上下载网页，是搜索引擎的重要组成。传统爬虫从一个或若干初始网页的统一资源定位标识符开始，获得初始网页上的统一资源定位标识符，在抓取网页的过程中，不断从当前页面上抽取新的统一资源定位标识符放入队列,直到满足系统的一定停止条件。聚焦爬虫的工作流程较为复杂，需要根据一定的网页分析算法过滤与主题无关的链接，保留有用的链接并将其放入等待抓取的统一资源定位标识符队列。然后，它将根据一定的搜索策略从队列中选择下一步要抓取的网页统一资源定位标识符，并重复上述过程，直到达到系统的某一条件时停止。另外，所有被爬虫抓取的网页将会被系统存贮，进行一定的分析、过滤，并建立索引，以便之后的查询和检索；对于聚焦爬虫来说，这一过程所得到的分析结果还可能对以后的抓取过程给出反馈和指导。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

Claims

1.一种确定用户查询语句句法结构的方法，其特征在于，包括：

2.根据权利要求1所述的确定用户查询语句句法结构的方法，其特征在于，根据所述对齐关系和所述网页主题句的句法结构，确定所述用户查询语句的句法结构，包括：

3.根据权利要求1所述的确定用户查询语句句法结构的方法，其特征在于，在识别用户查询语句中的分词与预设的网页主题句中的分词之间的对齐关系之前，还包括：

识别用户查询语句中的分词与预设的网页主题句中的分词之间的对齐关系，包括：

根据所述词对齐列表，识别用户查询语句中的分词与预设的网页主题句中的分词之间的对齐关系。

4.根据权利要求3所述的确定用户查询语句句法结构的方法，其特征在于，所述源语言样本子集包括：查询日志中所包含的用户输入的历史查询语句；

5.根据权利要求3所述的确定用户查询语句句法结构的方法，其特征在于，在识别用户查询语句的各分词与预设的网页主题句中的分词之间的对齐关系之前，还包括：

根据所述词对齐列表、所述用户查询语句的词性标注结果和所述网页主题句的词性标注结果，确定所述用户查询语句中的分词与所述网页主题句中的分词之间的对齐关系。

6.根据权利要求1-5中任一项所述的确定用户查询语句句法结构的方法，其特征在于，所述网页主题句为与所述用户查询语句待匹配的网页主题句；

在构建所述用户查询语句的句法结构之后，还包括：

计算所述用户查询语句的句法结构与所述网页主题句的句法结构之间的相似度，将计算结果作为所述用户查询语句与所述网页主题句之间的匹配结果。

7.根据权利要求6所述的确定用户查询语句句法结构的方法，其特征在于，计算所述用户查询语句的句法结构与所述网页主题句的句法结构之间的相似度，包括：

按照如下公式，计算所述相似度：

L＝S/[{S1+S2}/2]

8.根据权利要求1-5中任一项所述的确定用户查询语句句法结构的方法，其特征在于，所述句法结构为语法依存树，句法结构关系为依存关系；或者

9.一种确定用户查询语句句法结构的装置，其特征在于，包括：

10.根据权利要求9所述的确定用户查询语句句法结构的装置，其特征在于，所述句法结构构建单元，具体用于：

11.根据权利要求9所述的确定用户查询语句句法结构的装置，其特征在于，还包括词对齐列表生成单元，用于：

所述对齐关系识别单元，具体用于：

根据所述词对齐列表生成单元得到的词对齐列表，识别用户查询语句中的分词与预设的网页主题句中的分词之间的对齐关系。

12.根据权利要求11所述的确定用户查询语句句法结构的装置，其特征在于，所述源语言样本子集包括：查询日志中所包含的用户输入的历史查询语句；

13.根据权利要求11所述的确定用户查询语句句法结构的装置，其特征在于，还包括词性标注单元，用于：

所述对齐关系识别单元，具体用于：

根据所述词对齐列表生成单元得到的词对齐列表，以及所述词性标注单元得到的所述用户查询语句的词性标注结果和所述网页主题句的词性标注结果，确定所述用户查询语句中的分词与所述网页主题句中的分词之间的对齐关系。

14.根据权利要求9-13中任一项所述的确定用户查询语句句法结构的装置，其特征在于，所述网页主题句为与所述用户查询语句待匹配的网页主题句；

所述装置还包括：

相似度计算单元，用于在所述句法结构构建单元构建所述用户查询语句的句法结构之后，计算所述用户查询语句的句法结构与所述网页主题句的句法结构之间的相似度，将计算结果作为所述用户查询语句与所述网页主题句之间的匹配结果。

15.根据权利要求14所述的确定用户查询语句句法结构的装置，其特征在于，所述相似度计算单元，具体用于：

按照如下公式，计算所述相似度：

L＝S/[{S1+S2}/2]

16.根据权利要求9-13中任一项所述的确定用户查询语句句法结构的装置，其特征在于，所述句法结构为语法依存树，句法结构关系为依存关系；或者所述句法结构为语义角色标注树，句法结构关系为语义关系。