CN104331472B

CN104331472B - 分词训练数据的构造方法和装置

Info

Publication number: CN104331472B
Application number: CN201410608667.XA
Authority: CN
Inventors: 石磊; 张开旭
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2014-11-03
Filing date: 2014-11-03
Publication date: 2018-01-30
Anticipated expiration: 2034-11-03
Also published as: CN104331472A

Abstract

本发明实施例公开了一种分词训练数据的构造方法和装置。所述分词训练数据的构造方法包括：获取用户的一次查询会话中用户的查询语句及用户最终所点击网页的网页标题；将所述查询语句与所述网页标题进行比对，以获取所述查询语句与所述网页标题之间的公共字符串；根据获取到的所述公共字符串对所述查询语句与所述网页标题进行分词。本发明实施例提供的分词训练数据的构造方法和装置丰富了分词训练数据的数据源，克服了分词训练数据的数据稀疏问题。

Description

分词训练数据的构造方法和装置

技术领域

本发明实施例涉及自然语言处理技术领域，尤其涉及一种分词训练数据的构造方法和装置。

背景技术

大部分的分词技术都需要基于后台的语料库。所以语料库中语料的标注质量决定着最终的分词结果的质量。目前，大部分的语料库中的语料数据的标注都是依靠人工完成的。对语料数据的人工标注对标注人员的业务素质要求较高，而且人工标注过程费时费力，造成对语料数据的分词效率低下。

有一种提高语料数据的分词效率的方案，就是以网页上的锚文本作为参考，对语料数据进行分词。比如，某网页上出现了文本“约翰·维恩是19世纪英国的哲学家和数学家”，其中“约翰·维恩”、“英国”、“哲学家”和“数学家”是锚文本。则应当以上述锚文本中出现的词作为分词后的词语对上述文本进行分词。但是，并不是所有语料数据都能够在互联网上找到内部含有锚文本数据的网页内容，所以这种方案的数据源非常有限。因此，如果完全依照这种方式获取分词训练数据，则得到的分词训练数据会有明显的数据稀疏问题。

发明内容

有鉴于此，本发明实施例提出一种分词训练数据的构造方法和装置，以丰富分词训练数据的数据源。

第一方面，本发明实施例提供了一种分词训练数据的构造方法，所述方法包括：

获取用户的一次查询会话中用户的查询语句及用户在该查询语句的查询结果中所点击网页链接的网页标题；

将所述查询语句与所述网页标题进行比对，以获取所述查询语句与所述网页标题之间的公共字符串；

根据获取到的所述公共字符串对所述查询语句与所述网页标题进行分词，得到分词训练数据。

第二方面，本发明实施例提供了一种分词训练数据的构造装置，所述装置包括：

数据获取模块，用于获取用户的一次查询会话中用户的查询语句及用户在该查询语句的查询结果中所点击网页链接的网页标题；

数据比对模块，用于将所述查询语句与所述网页标题进行比对，以获取所述查询语句与所述网页标题之间的公共字符串；

分词模块，用于根据获取到的所述公共字符串对所述查询语句与所述网页标题进行分词，得到分词训练数据。

本发明实施例提供的分词训练数据的构造方法和装置，通过获取用户的一次查询会话中用户的查询语句及用户最终所点击网页的网页标题，将所述查询语句与所述网页标题进行比对，以获取所述查询语句与所述网页标题之间的公共字符串，根据获取到的所述公共字符串对所述查询语句与所述网页标题进行分词，丰富了分词训练数据的数据源，克服了分词训练数据的数据稀疏问题。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1是本发明第一实施例提供的分词训练数据的构造方法的流程图；

图2是本发明第一实施例提供的用户输入查询语句以后的搜索结果页面的示意图；

图3是本发明第二实施例提供的分词训练数据的构造方法的流程图；

图4是本发明第二实施例提供的分词训练数据的构造方法中公共字符串获取的流程图；

图5是本发明第三实施例提供的分词训练数据的构造方法的流程图；

图6是本发明第三实施例提供的分词训练数据的构造方法中公共字符串获取的流程图；

图7是本发明第四实施例提供的分词训练数据的构造装置的结构图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部内容。

图1及图2示出了本发明的第一实施例。

图1是本发明第一实施例提供的分词训练数据的构造方法的流程图。参见图1，所述分词训练数据的构造方法包括：

S110，获取用户的一次查询会话中用户的查询语句及用户在该查询语句的查询结果中所点击网页链接的网页标题。

由于对没有分词标注的语料数据可能会存在不同的理解，造成对分词训练数据的分词标注结果不准确，进行影响分词模型的准确性。比如，对文本“物理学起来很难”的分词标注可以是“物理|学起来|很难”，也可以是“物理学|起来|很难”。显然，如果采用第二种分词方案，则利用这样的分词训练数据训练出的分词模型将是不可靠的。

本发明实施例通过对用户使用搜索引擎的日志数据的分析来获取分词训练数据。一般来讲，用户在使用搜索引擎时，用户输入的查询语句会与用户所点击的网页链接的网页标题具有相同的语义。所以可以将用户的一次查询会话中的查询语句与用户所点击的网页链接的网页比较进行比较，将比较的结果作为获取分词训练数据的参考。

因此，可以获取用户在一次查询会话中的查询语句与该查询语句的查询结果中所点击网页链接的网页标题。

S120，将所述查询语句与所述网页标题进行比对，以获取所述查询语句与所述网页标题之间的公共字符串。

由于所述查询语句与所述用户所点击的网页链接的网页标题具有相同的语义，因此所述查询语句与所述用户所点击的网页链接的网页标题通常具有相同的公共字符串。

图2是本发明第一实施例提供的用户输入查询语句以后的搜索结果页面的示意图。参见图2，所述查询语句与所述搜索结果页面上的网页链接的网页标题都具有相同的字符串。

正因如此，可以通过提取所述查询语句与所述网页标题之间的公共字符串来对所述查询语句进行分词，以获取所述分词训练数据。

所述公共字符串为所述查询语句与所述网页标题所共有的，并且长度最长的连续的子字符串。首先，所述公共字符串是所述查询语句与所述网页标题所共有的子字符串；其次，并不存在这样的一个字符串，它同时是所述查询语句与所述网页标题的子字符串，而且所述公共字符串有时它的子字符串。

S130，根据获取到的所述公共字符串对所述查询语句与所述网页标题进行分词，得到分词训练数据。

获取到所述公共字符串以后，根据获取到的公共字符串对所述查询语句与所述网页标题进行分词。优选的，以所述公共字符串的起始位置和终止位置为分词位置，对所述查询语句以及所述网页标题进行分词。

对所述查询语句以及所述网页标题进行分词以后，就得到了所述分词训练数据。所述分词训练数据可以用于训练分词模型。而训练得到的分词模型可以用于机器翻译系统的分词处理，或者其他自然语言处理系统的分词处理。

本实施例通过获取用户的一次查询会话中用户的查询语句及用户在该查询语句的查询结果中所点击网页链接的网页标题，将所述查询语句与所述网页标题进行比对，以获取所述查询语句与所述网页标题之间的公共字符串，以及根据获取到的所述公共字符串对所述查询语句与所述网页标题进行分词，得到分词训练数据，丰富了分词训练数据的数据源，克服了分词训练数据的数据稀疏问题。

图3示出了本发明的第二实施例。

图3是本发明第二实施例提供的分词训练数据的构造方法的流程图。所述分词训练数据的构造方法以本发明的第一实施例为基础，进一步的，获取用户的一次查询会话中用户的查询语句及用户最终所点击网页的网页标题包括：获取用户的一次查询会话中用户的查询语句及用户最终所点击的一个网页链接的网页标题；将所述查询语句与所述网页标题进行比对，以获取所述查询语句与所述网页标题之间的公共字符串包括：使用字符串匹配算法将所述查询语句与所述一个网页链接的网页标题进行匹配；将匹配得到的长度最长的连续的子字符串作为所述公共字符串。

参见图3，所述分词训练数据的构造方法包括：

S310，获取用户的一次查询会话中用户的查询语句及用户最终所点击的一个网页链接的网页标题。

在本实施例中，在获取用户的查询语句以后，获取用户点击的网页标题时，进货去用户在该查询会话中最终所点击的一个网页链接的网页标题。这样一来所述网页标题仅有一个，在进行查询语句与所述网页标题的比对时，执行的比对过程较为简单。

S320，将所述查询语句与所述网页标题进行比对，以获取所述查询语句与所述网页标题之间的公共字符串。

图4是本发明第二实施例提供的分词训练数据的构造方法中公共字符串获取的流程图。参见图4，将所述查询语句与所述网页标题进行比对，以获取所述查询语句与所述网页标题之间的公共字符串包括：

S321，使用字符串匹配算法将所述查询语句与所述一个网页链接的网页标题进行匹配。

在本实施例中，将所述查询语句与所述网页标题进行比对时，使用字符串匹配算法将所述查询语句与所述网页标题进行匹配，以获取所述查询语句与所述网页标题之间的公共字符串。优选的，所述字符串匹配算法包括：KMP算法、Horspool算法或者Boyer Moore算法。

S322，将匹配得到的长度最长的连续的子字符串作为所述公共字符串。

在运用所述字符串匹配算法对所述查询语句及所述网页标题进行匹配后，将匹配得到的长度最长的连续的子字符串作为所述公共字符串。

S330，根据获取到的所述公共字符串对所述查询语句与所述网页标题进行分词，得到分词训练数据。

本实施例通过获取用户的一次查询会话中用户的查询语句及用户最终所点击的一个网页链接的网页标题，以及在获取公共字符串时使用字符串匹配算法将所述查询语句与所述一个网页链接的网页标题进行匹配，将匹配得到的长度最长的连续的子字符串作为所述公共字符串，进一步的丰富了分词训练数据的数据源，克服了分词训练数据的数据稀疏问题。

图5及图6示出了本发明的第三实施例。

图5是本发明第三实施例提供的分词训练数据的构造方法的流程图。所述分词训练数据的构造方法以本发明的第一实施例为基础，进一步的，获取用户的一次查询会话中用户的查询语句及用户最终所点击网页的网页标题包括：获取用户的一次查询会话中用户的查询语句及用户所点击的至少两个网页链接的网页标题；将所述查询语句与所述网页标题进行比对，以获取所述查询语句与所述网页标题之间的公共字符串包括：使用字符串匹配算法将所述查询语句与所述至少两个网页链接的网页标题分别进行匹配；分别获取所述查询语句与所述至少两个网页链接中每个网页链接的网页标题的长度最长的连续的子字符串，并将所述长度最长的连续的子字符串作为备选公共字符串；将所述备选公共字符串中出现次数最多的备选公共字符串作为公共字符串。

参见图5，所述分词训练数据的构造方法包括：

S510，获取用户的一次查询会话中用户的查询语句及用户所点击的至少两个网页链接的网页标题。

在一次查询会话中，用户可能会点击多个网页链接。因此，对于用户点击了多个网页链接的查询会话，在获取网页标题时，可以获取一次查询会话中用户所点击的至少两个网页链接的网页标题。优选的，通过分析用户的查询日志可以得到用户的查询语句以及用户所点击的至少两个网页链接的网页标题。

S520，将所述查询语句与所述网页标题进行比对，以获取所述查询语句与所述网页标题之间的公共字符串。

图6是本发明第三实施例提供的分词训练数据的构造方法中公共字符串获取的流程图。参见图6，将所述查询语句与所述网页标题进行比对，以获取所述查询语句与所述网页标题之间的公共字符串包括：

S521，使用字符串匹配算法将所述查询语句与所述至少两个网页链接的网页标题分别进行匹配。

若用户在一次查询会话中点击了多个网页链接，在获取所述查询语句与所述网页标题之间的公共字符串时，需要将所述查询语句与所述至少两个网页链接的网页标题分别进行匹配。

优选的，所述字符串匹配算法包括：KMP算法、Horspool算法或者BoyerMoore算法。

S522，分别获取所述查询语句与所述至少两个网页链接中每个网页链接的网页标题的长度最长的连续的子字符串，并将所述长度最长的连续的子字符串作为备选公共字符串。

分别进行匹配后，分别获取所述查询语句与所述网页链接中每个网页链接的网页标题的长度最长的连续的子字符串，并将每次匹配获取到的长度最长的连续的子字符串作为备选公共字符串。

S523，将所述备选公共字符串中出现次数最多的备选公共字符串作为公共字符串。

进行分别的字符串匹配和分别的备选公共字符串获取后，将多个获取到的备选公共字符串中出现次数最多的备选公共字符串作为公共字符串。

S530，根据获取到的所述公共字符串对所述查询语句与所述网页标题进行分词，得到分词训练数据。

本实施例通过获取用户的一次查询会话中用户的查询语句及用户所点击的至少两个网页链接的网页标题，以及在获取公共字符串时将所述查询语句与所述至少两个网页链接的网页标题分别进行比对，分别获取长度最长的连续的子字符串，作为备选公共子字符串，并将备选公共子字符串中出现次数最多的备选公共子字符串作为公共子字符串，进一步的丰富了分词训练数据的数据源，克服了分词训练数据的数据稀疏问题。

图7示出了本发明的第四实施例。

图7是本发明第四实施例提供的分词训练数据的构造装置的结构图。参见图7，所述分词训练数据的构造装置包括：数据获取模块710、数据比对模块720以及分词模块730。

所述数据获取模块710用于获取用户的一次查询会话中用户的查询语句及用户最终所点击网页的网页标题。

所述数据比对模块720用于将所述查询语句与所述网页标题进行比对，以获取所述查询语句与所述网页标题之间的公共字符串。

所述分词模块730用于根据获取到的所述公共字符串对所述查询语句与所述网页标题进行分词。

优选的，所述公共字符串为所述查询语句与所述网页标题所共有的，并且长度最长的连续的子字符串。

优选的，所述数据获取模块710包括：第一数据获取单元711。

所述第一数据获取单元711用于获取用户的一次查询会话中用户的查询语句及用户最终所点击的一个网页链接的网页标题。

所述数据比对模块720包括：第一匹配单元721以及第一公共字符串获取单元722。

所述第一匹配单元721用于使用字符串匹配算法将所述查询语句与所述一个网页链接的网页标题进行匹配。

所述第一公共字符串获取单元722用于将匹配得到的长度最长的连续的子字符串作为所述公共字符串。

优选的，所述数据获取模块710包括：第二数据获取单元712。

所述第二数据获取单元712用于获取用户的一次查询会话中用户的查询语句及用户所点击的至少两个网页链接的网页标题。

所述数据比对模块720包括：第二匹配单元723、备选公共字符串获取单元724以及第二公共字符串获取单元725。

所述第二匹配单元723用于使用字符串匹配算法将所述查询语句与所述至少两个网页链接的网页标题分别进行匹配。

所述备选公共字符串获取单元724用于分别获取所述查询语句与所述至少两个网页链接中每个网页链接的网页标题的长度最长的连续的子字符串，并将所述长度最长的连续的子字符串作为备选公共字符串。

所述第二公共字符串获取单元725用于将所述备选公共字符串中出现次数最多的备选公共字符串作为公共字符串。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

本领域普通技术人员应该明白，上述的本发明的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个计算装置上，或者分布在多个计算装置所组成的网络上，可选地，他们可以用计算机装置可执行的程序代码来实现，从而可以将它们存储在存储装置中由计算装置来执行，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明不限制于任何特定的硬件和软件的结合。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间的相同或相似的部分互相参见即可。

以上所述仅为本发明的优选实施例，并不用于限制本发明，对于本领域技术人员而言，本发明可以有各种改动和变化。凡在本发明的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种分词训练数据的构造方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述公共字符串为所述查询语句与所述网页标题所共有的，并且长度最长的连续的子字符串。

3.根据权利要求2所述的方法，其特征在于，获取用户的一次查询会话中用户的查询语句及用户最终所点击网页的网页标题包括：

获取用户的一次查询会话中用户的查询语句及用户最终所点击的一个网页链接的网页标题；

将所述查询语句与所述网页标题进行比对，以获取所述查询语句与所述网页标题之间的公共字符串包括：

使用字符串匹配算法将所述查询语句与所述一个网页链接的网页标题进行匹配；

将匹配得到的长度最长的连续的子字符串作为所述公共字符串。

4.根据权利要求2所述的方法，其特征在于，获取用户的一次查询会话中用户的查询语句及用户最终所点击网页的网页标题包括：

获取用户的一次查询会话中用户的查询语句及用户所点击的至少两个网页链接的网页标题；

使用字符串匹配算法将所述查询语句与所述至少两个网页链接的网页标题分别进行匹配；

分别获取所述查询语句与所述至少两个网页链接中每个网页链接的网页标题的长度最长的连续的子字符串，并将所述长度最长的连续的子字符串作为备选公共字符串；

将多个获取到的所述备选公共字符串中出现次数最多的备选公共字符串作为公共字符串。

5.根据权利要求3或4所述的方法，其特征在于，所述字符串匹配算法包括：KMP算法、Horspool算法或者Boyer Moore算法。

6.一种分词训练数据的构造装置，其特征在于，包括：

7.根据权利要求6所述的装置，其特征在于，所述公共字符串为所述查询语句与所述网页标题所共有的，并且长度最长的连续的子字符串。

8.根据权利要求7所述的装置，其特征在于，所述数据获取模块包括：

第一数据获取单元，用于获取用户的一次查询会话中用户的查询语句及用户最终所点击的一个网页链接的网页标题；

所述数据比对模块包括：

第一匹配单元，用于使用字符串匹配算法将所述查询语句与所述一个网页链接的网页标题进行匹配；

第一公共字符串获取单元，用于将匹配得到的长度最长的连续的子字符串作为所述公共字符串。

9.根据权利要求7所述的装置，其特征在于，所述数据获取模块包括：

第二数据获取单元，用于获取用户的一次查询会话中用户的查询语句及用户所点击的至少两个网页链接的网页标题；

所述数据比对模块包括：

第二匹配单元，用于使用字符串匹配算法将所述查询语句与所述至少两个网页链接的网页标题分别进行匹配；

备选公共字符串获取单元，用于分别获取所述查询语句与所述至少两个网页链接中每个网页链接的网页标题的长度最长的连续的子字符串，并将所述长度最长的连续的子字符串作为备选公共字符串；

第二公共字符串获取单元，用于将多个获取到的所述备选公共字符串中出现次数最多的备选公共字符串作为公共字符串。

10.根据权利要求8或9所述的装置，其特征在于，所述字符串匹配算法包括：KMP算法、Horspool算法或者Boyer Moore算法。