CN102760134A

CN102760134A - 一种同义词的挖掘方法和装置

Info

Publication number: CN102760134A
Application number: CN2011101089767A
Authority: CN
Inventors: 徐文智; 赵世奇; 呼大为
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2011-04-28
Filing date: 2011-04-28
Publication date: 2012-10-31
Anticipated expiration: 2031-04-28
Also published as: CN102760134B

Abstract

本发明提供了一种同义词的挖掘方法和装置，其中方法包括：从搜索日志中，搜索请求(query)及其对应的搜索结果中被点击或浏览的网页标题，或者，被点击或浏览的网页标题对应的不同query，获取由短语对构成的同义词的候选资源；从候选资源的各短语对中抽取同义词对，其中抽取的同义词对在所属的短语对中具有相同的上下文。通过本发明能够提高同义词挖掘的效率和准确性，也使挖掘出的同义词更符合搜索引擎的语言特点。

Description

一种同义词的挖掘方法和装置

【技术领域】

本发明涉及计算机技术领域，特别涉及一种同义词的挖掘方法和装置。

【背景技术】

当用户在使用搜索引擎进行搜索时，为了能够将与用户所输入query的同义词相匹配的网页也包含在搜索结果中召回，会用到基于同义词的搜索请求(query)扩展，即在利用query进行搜索的同时也利用query的同义词进行搜索。为了在搜索引擎中应用该技术，同义词的挖掘是非常重要的基础工作。

现有的同义词挖掘方式通过计算语料库中各词语之间的相关概率来进行同义词挖掘，但这种方式需要对语料库中的词语两两进行计算，效率很低。

【发明内容】

有鉴于此，本发明提供了一种同义词的挖掘方法和装置，以便于提高同义词挖掘的效率。

具体技术方案如下：

一种同义词的挖掘方法，该方法包括：

A、从搜索日志中，搜索请求query及其对应的搜索结果中被点击或浏览的网页标题，或者，被点击或浏览的网页标题对应的不同query，获取由短语对构成的同义词的候选资源；

B、从候选资源的各短语对中抽取同义词对，其中抽取的同义词对在所属的短语对中具有相同的上下文。

步骤A中所述候选资源的获取具体包括以下所列任一方式或任意方式的组合：

从搜索日志中获取query对应的搜索结果中被点击或浏览的网页标题，得到query与标题构成的短语对；

从搜索日志中获取相同query对应的搜索结果中被点击或浏览的网页标题，得到标题与标题构成的短语对；以及，

从搜索日志中获取被点击或浏览的相同网页标题对应的不同query，得到query与query构成的短语对。

所述步骤B具体包括：

B1、对同义词的候选资源的各短语对进行相似性过滤，得到候选同义短语对；

B2、从候选同义短语对中抽取同义词对，其中抽取的同义词对在所属的候选同义短语对中具有相同的上下文。

具体地，所述步骤B1中将满足以下所列相似性过滤条件中的任一或任意组合的短语对过滤掉，得到候选同义短语对：

短语对在候选资源中出现的次数在设定次数阈值N1以下；

短语对中短语之间的编辑距离在设定距离阈值L以下；

短语对中短语之间的字重合度小于预设的字重合度阈值；

短语对中短语之间的词重合度小于预设的词重合度阈值；以及，

短语对中短语之间的TF-IDF相似度小于预设的相似度阈值。

短语对中短语之间的字重合度采用公式

计算，其中，C1(P1，P2)为短语对中短语P1和短语P2之间的字重合度，Com1(P1，P2)为P1和P2间相同的字数目，L1(X)为短语X包含的字数目；

短语对中短语之间的词重合度采用公式

计算，其中，C2(P1，P2)为短语对中短语P1和短语P2之间的词重合度，Com2(P1，P2)为P1和P2间相同的词数目，L1(X)为短语X包含的词数目。

具体地，短语对中短语之间的TF-IDF相似度的计算方法为：

对由短语P1和短语P2构成的短语对，分别计算P1中各词语的TF-IDF值构成P1的特征向量以及P2中各词语的TF-IDF值构成P2的特征向量；

计算P1的特征向量和P2的特征向量的余弦距离作为P1和P2的TF-IDF相似度。

较优地，在所述步骤A和步骤B之间进一步包括：

E、对候选资源的各短语对中来源于标题的短语进行预处理，以删除所述来源于标题的短语中的噪声数据；

其中，所述预处理包括：

E1、基于预设的符号对所述来源于标题的短语进行分割；

E2、将分割后得到的各部分中满足预设删除位置要求的部分删除；或者，如果所述短语对中的另一个短语来源于query，则将步骤E1分割后得到的各部分中，与所述来源于query的短语之间字重合度不满足预设字重合度要求的部分删除。

更优地，在所述步骤B1和B2之间还包括：

将其中一个短语包含另一个短语的全部内容的候选短语对删除。

更进一步地，在所述步骤B之后还包括：

C、将抽取出的同义词对进行整合，将同一个词语对应的所有同义词构成该词语对应的同义词集合。

更进一步地，在所述步骤C之后还包括：

D、对同义词集合进行噪声过滤，具体为：将词语w1对应的同义词集合中满足以下所列过滤条件中的任一或任意组合的词语w2从词语w1对应的同义词集合中过滤掉：

词语w2与词语w1构成的同义词对在候选资源中出现的次数在预设的次数阈值N2以下；

词语w2与词语w1构成的同义词对在所述词语w1对应的同义词集合中的相对词频在预设的相对词频阈值N3以下，其中，词语w2与词语w1构成的同义词对在所述词语w1对应的同义词集合中的相对词频的计算方式为：词语w2与词语w1构成的同义词对在候选资源中出现的次数除以词语w1对应的同义词集合中各词语与词语w1分别构成的同义词对在候选资源中出现次数的最大值；

词语w2对应的同义词集合与词语w1对应的同义词集合的重合度小于预设的重合度阈值O1；

在搜索日志中，词语w2与词语w1在同一个query中共现的次数超过预设的次数阈值N4；以及，

词语w2与词语w1对应同一语种的翻译词语重合度小于预设的重合度阈值O2。

一种同义词的挖掘装置，该装置包括：候选资源获取单元和同义词抽取单元；

所述候选资源获取单元，用于从搜索日志中，搜索请求query及其对应的搜索结果中被点击或浏览的网页标题，或者，被点击或浏览的网页标题对应的不同query，获取由短语对构成的同义词的候选资源；

所述同义词抽取单元，用于从候选资源的各短语对中抽取同义词对，其中抽取的同义词对在所属的短语对中具有相同的上下文。

具体地，所述候选资源获取单元采用以下所列任一方式或任意方式的组合获取所述候选资源：

其中，所述同义词抽取单元具体包括：相似性过滤子单元和同义词抽取子单元；

所述相似性过滤子单元，用于对同义词的候选资源的各短语对进行相似性过滤，得到候选同义短语对；

所述同义词抽取子单元，用于从候选同义短语对中抽取同义词对，其中抽取的同义词对在所属的候选同义短语对中具有相同的上下文。

所述相似性过滤子单元具体将满足以下所列相似性过滤条件中的任一或任意组合的短语对过滤掉，得到候选同义短语对：

短语对在候选资源中出现的次数在设定次数阈值N1以下；

短语对中短语之间的编辑距离在设定距离阈值L以下；

短语对中短语之间的字重合度小于预设的字重合度阈值；

短语对中短语之间的TF-IDF相似度小于预设的相似度阈值。

当所述相似性过滤条件包括：短语对中短语之间的字重合度小于预设的字重合度阈值时，所述同义词抽取单元还包括：

字重合度计算子单元，用于采用公式

计算所述候选资源的短语对中短语之间的字重合度，并将计算结果提供给所述相似性过滤子单元；

其中，C1(P1，P2)为短语对中短语P1和短语P2之间的字重合度，Com1(P1，P2)为P1和P2间相同的字数目，L1(X)为短语X包含的字数目。

当所述相似性过滤条件包括：短语对中短语之间的词重合度小于预设的词重合度阈值时，所述同义词抽取单元还包括：

词重合度计算子单元，用于采用公式

计算所述候选资源的短语对中短语之间的词重合度，并将计算结果提供给所述相似性过滤子单元；

其中，C2(P1，P2)为短语对中短语P1和短语P2之间的词重合度，Com2(P1，P2)为P1和P2间相同的词数目，L1(X)为短语X包含的词数目。

当所述相似性过滤条件包括：短语对中短语之间的TF-IDF相似度小于预设的相似度阈值时，所述同义词抽取单元还包括：

相似度确定子单元，用于在所述候选资源中，对短语P1和短语P2构成的短语对分别计算P1中各词语的TF-IDF值构成P1的特征向量以及P2中各词语的TF-IDF值构成P2的特征向量，计算P1的特征向量和P2的特征向量的余弦距离作为P1和P2的TF-IDF相似度，并将计算结果提供给所述相似性过滤子单元。

较优地，该装置还包括：预处理单元，用于对候选资源的各短语对中来源于标题的短语进行预处理，以删除所述来源于标题的短语中的噪声数据；

其中所述预处理单元具体包括：分割处理子单元和过滤处理子单元；

所述分割处理子单元，用于基于预设的符号对所述来源于标题的短语进行分割；

所述过滤处理子单元，用于将所述分割处理子单元分割后得到的各部分中满足预设删除位置要求的部分删除；或者，如果所述短语对中的另一个短语来源于query，则将所述分割处理子单元分割后得到的各部分中，与所述来源于query的短语之间字重合度不满足于预设字重合度要求的部分删除；

所述同义词抽取单元，用于从经所述预处理单元处理后的候选资源的各短语对中抽取同义词对。

更优地，所述同义词抽取单元还包括：无效短语对过滤子单元，用于在所述候选同义短语对中，将其中一个短语包含另一个短语的全部内容的候选短语对删除；

所述同义词抽取子单元从所述无效短语对过滤子单元处理后的候选同义短语对中抽取同义词对。

更进一步地，该装置还包括：同义词整合单元，用于将所述同义词抽取单元抽取出的同义词进行整合，将同一个词语对应的所有同义词构成该词语对应的同义词集合。

另外，该装置还可以包括：噪声过滤单元，用于对所述同义词整合单元得到的同义词集合进行噪声过滤，具体为：将词语w1对应的同义词集合中满足以下所列过滤条件中的任一或任意组合的词语w2从词语w1对应的同义词集合中过滤掉：

由以上技术方案可以看出，本发明从搜索日志中，query及其对应的搜索结果中被点击或浏览的网页标题，或者，被点击或浏览的网页标题对应的不同query，获取由短语对构成的同义词的候选资源，并利用同义词对在所属的短语中具有相同的上下文这一特点，从候选资源中抽取同义词对。本发明无需对网页中的词语两两计算相似度，显然大大提高了同义词挖掘的效率。

【附图说明】

图1为本发明实施例一提供的方法流程图；

图2为本发明实施例二提供的装置结构图。

【具体实施方式】

为了使本发明的目的、技术方案和优点更加清楚，下面结合附图和具体实施例对本发明进行详细描述。

实施例一、

图1为本发明实施例一提供的方法流程图，该实施例所示的方法可以由搜索引擎所在的服务器端在后台离线执行，如图1所示，该方法可以包括以下步骤：

步骤101：从搜索日志中，query及其对应的搜索结果中被点击或浏览的网页标题，或者，被点击或浏览的网页标题对应的不同query，获取同义词的候选资源。

当用户输入query后，在搜索结果中发生了点击或浏览行为，通常这个query和被点击或浏览的网页标题间会具有语义上的关联甚至一致，同一query对应的被点击或浏览的网页标题间也可能具有语义上的关联甚至一致。

再者，不同用户输入不同的query，或者相同用户输入不同的query，但对于不同query的搜索结果中被点击或浏览的网页相同，则这些相同的网页对应的不同query间可能具有语义上的关联甚至一致。

基于以上情况的考虑，可以将上述的这些可能具有语义上的关联甚至一致的短语(本实施例中所述的短语为广义的短语包含：句子、词语等形式)获取出来，作为抽取同义词的候选资源。

具体地，候选资源的获取可以包括以下三种方式任一或任意组合：

1)从搜索日志中获取query对应的搜索结果中被点击或浏览的网页标题，得到query与标题构成的短语对(即“query-title”对)作为同义词的候选资源。

2)从搜索日志中获取相同query对应的搜索结果中被点击或浏览的网页标题，得到标题与标题构成的短语对(即“title-title”对)作为同义词的候选资源。

3)从搜索日志中获取被点击或浏览的相同网页标题对应的不同query，得到query与query构成的短语对(即“query-query”对)作为同义词的候选资源。

在得到上述各短语对(包括：“query-title”对、“title-title”对或“query-query”对)后，可以将这些短语对作为同义词的候选资源存储为数据文件，供步骤102调用。

步骤102：对同义词的候选资源进行相似性过滤，得到候选同义短语对。

由于在实际情况中，能会存在大量的无关点击、浏览或者网页标题不规范等原因，可能会导致步骤101获取的同义词的候选资源中，各短语对之间在语义上相去甚远。因此，在本步骤中可以对候选资源进行相似性过滤，将在语义上相去甚远的短语对过滤掉。

在进行相似性过滤时，可以将满足以下过滤条件中的任一或任意组合的短语对从候选资源中过滤掉：

1)基于出现次数统计的过滤条件：短语对在候选资源中共现的次数在设定次数阈值N1以下。即统计短语对在候选资源中共现的次数，将共现的次数在设定次数阈值N1以下的短语对从候选资源中过滤掉。

如果短语对为“query-title”对，则统计该query对应的搜索结果中该title的网页被点击或浏览的次数，即为该短语对在候选资源中共现的次数。

如果短语对为“title-title”对，则统计这两个title的网页作为同一query对应的搜索结果中被点击或浏览的次数，即为该短语对在候选资源中共现的次数。

如果短语对为“query-query”对，则统计这两个query对应同一个被点击或浏览网页的次数，即为该短语对在候选资源中共现的次数。

2)基于编辑距离的过滤条件：短语对中短语之间的编辑距离在设定距离阈值L以下。计算短语对中短语之间的编辑距离，将编辑距离在设定距离阈值L以下的短语对从候选资源中过滤掉。

其中，短语之间的编辑距离可以采用莱文斯坦算法(LD，LevenshteinDistance)算法计算。在本实施例中，LD算法衡量的是短语对之间从一个短语转换为另一个短语所需要的最小词语操作数：包括增加、删除或修改词语的次数。比如，短语对由短语P1和短语P2构成，P1的词语构成为：a1、a2和a3，P2的词语构成为：b1、b2和b3，则短语P1和短语P2之间的编辑距离LD(P1，P2)可以采用以下的迭代方式计算：

LD (P 1, P 2) = LD (a 1 a 2 a 3, b 1 b 2 b 3) =

\{\begin{matrix} \min (LD (a 1 a 2 a 3, b 1 b 2) + 1, & LD (a 1 a 2, b 1 b 2 b 3) + 1, & LD (a 1 a 2, b 1 b 2)), & a 3 = b 3 \\ \min (LD (a 1 a 2 a 3, b 1 b 2) + 1, & LD (a 1 a 2, b 1 b 2 b 3) + 1, & LD (a 1 a 2, b 1 b 2) + 1), & a 3 &NotEqual; b 3 \end{matrix} - - - (1)

LD算法为已有成熟技术，在此不再详细描述。

3)基于字重合度的过滤条件：短语对中短语之间的字重合度小于预设的字重合度阈值。计算短语对中短语之间的字重合度，将字重合度小于预设的字重合度阈值的短语对从候选资源中过滤掉。

其中，短语之间的字重合度指的是两个短语间相同的字数目与两个短语中字长度中较大值的比值。比如，短语对由短语P1和短语P2构成，P1和P2之间的字重合度C1(P1，P2)为：

C 1 (P 1, P 2) = \frac{Com 1 (P 1, P 2)}{\max (L 1 (P 1), L 1 (P 2))}, - - - (2)

其中，Com1(P1，P2)为P1和P2间相同的字数目，L1(X)为短语X包含的字数目。

4)基于词重合度的过滤条件：短语对中短语之间的词重合度小于预设的词重合度阈值。计算短语对中短语之间的词重合度，将词重合度小于预设的词重合度阈值的短语对从候选资源中过滤掉。

其中，短语之间的词重合度指的是两个短语间相同的词数目与两个短语中词数目中较大值的比值。比如，短语对由短语P1和短语P2构成，P1和P2之间的词重合度C2(P1，P2)为：

C 2 (P 1, P 2) = \frac{Com 2 (P 1, P 2)}{\max (L 2 (P 1), L 2 (P 2))}, - - - (3)

其中，Com2(P1，P2)为P1和P2间相同的词数目，L2(X)为短语X包含的词数目。

5)基于词频-倒文档率(TF-IDF)相似度的过滤条件：短语对中短语之间的TF-IDF相似度小于预设的相似度阈值。计算短语对中两短语的各词语TF-IDF值分别作为两短语的特征向量，然后计算两特征向量的余弦距离作为两短语的TF-IDF相似度，将TF-IDF相似度小于预设的相似度阈值的短语对从候选资源中过滤掉。

其中，短语P中词语w_i的TF-IDF值T(w_i)可以采用如下公式计算：

T (w_{i}) = tf (w_{i}) * \log (\frac{N}{C (w_{i})} + α), - - - (4)

tf(w_i)为词语w_i在短语P中出现的次数除以短语P包含的词语数目，N为候选资源中所有短语的数目，C(w_i)为w_i在所有短语中出现的次数，α为预设的参数。

上述过滤条件中涉及到的阈值可以根据对同义词质量的需求进行设置和调整。

上述五种过滤条件可以以任意组合的形式使用，例如，当同时采用以上五种过滤条件时，可以同时满足以上五种过滤条件的短语对从候选资源中过滤掉。

另外，在标题中可能会含有大量的噪声数据，例如标题“冬天穿鞋要注意什么_百度知道”中的“_百度知道”就是噪声数据。为了避免噪声数据对步骤102中过滤处理以及后续同义词抽取所带来的影响，较优地，在执行步骤102之前可以首先对短语对中来源于标题的短语进行预处理，删除短语中的噪声数据。

具体地，上述预处理可以包括：基于预设的符号对来源于标题的短语进行分割，将分割后得到的各部分中，满足预设删除位置要求的部分删除。例如：当存在预设符号“_”时，将分段后在“_”以后位置的部分删除，对于“冬天穿鞋要注意什么_百度知道”的短语，将“_”以后位置的部分删除，得到“冬天穿鞋要注意什么”。

如果短语对为“query-title”对，则基于预设的符号对来源于标题的短语进行分割后，可以将分割后得到的各部分中与query之间字重合度不满足预设字重合度要求的部分删除。例如，“小孩嗓子疼怎么办”和“小孩喉咙疼怎么办_百度知道”的短语对，来源于标题的短语“小孩喉咙疼怎么办_百度知道”进行分割后，“百度知道”显然与“小孩嗓子疼怎么办”的字重合度很低，将其删除，仅保留“小孩喉咙疼怎么办”。

需要说明的是，本步骤102并不是本发明的必要步骤，也可以将候选资源的各短语对都作为候选同义短语对，直接对候选资源的各短语对执行步骤103，即抽取同义词对。

步骤103：从候选同义短语对中抽取同义词对，其中抽取的同义词对在所属的候选同义短语对中的上下文相同。

在确定出候选同义短语对后，需要对候选同义短语对中的同义词进行准确地抽取。基于搜索引擎的特点，候选同义短语对中大部分的词语是一样的，同义词出现的上下文也是一样的。例如：“小孩喉咙疼怎么办”与“小孩嗓子疼怎么办”这样的候选同义短语对，同义词对“喉咙”和“嗓子”具有相同的上下文，即前面都是“小孩”，后面都是“疼”。利用这一特点便可以抽取出同义词对。

另外，在执行步骤103之前，当步骤102确定的候选同义短语对中其中一个短语包含另一个短语的全部内容，则该候选同义短语对无法用于同义词的抽取，将这种情况的候选同义短语对删除。

步骤104：将抽取出的同义词对进行整合构成各词语的同义词集合。

在抽取的同义词对中，可能会在多个同义词对中具有相同的同义词，也就是说，一个词语可能会抽取出多个同义词，将同一个词语对应的所有同义词构成该词语对应的同义词集合。

例如，抽取出的同义词对中包括“a1-a2”、“a1-a3”、“a1-a4”，“a2-a4”进行整合后，可以得到a1对应的同义词集合为{a2，a3，a4}，a2对应的同义词集合为{a1，a4}，a4对应的同义词集合为{a1，a2}。

步骤105：将各同义词集合进行噪声过滤。

本步骤中进行的噪声过滤可以采用以下方式过滤条件中的任一或任意组合：

1)基于同义词的绝对词频的过滤条件：对应同义词对在候选资源中出现的次数在预设的次数阈值N2以下。即统计词语w的同义词集合中各词语与w分别构成的同义词对在候选资源中出现的次数，将对应同义词对的出现次数在N2以下的词语从词语w的同义词集合中删除。

2)基于同义词的相对词频的过滤条件：对应同义词对在同义词集合中的相对词频在预设的相对词频阈值N3以下。一个词语可能会对应多个同义词，如果在词语w对应的同义词集合中，某个词语a与词语w构成的同义词对的绝对词频相比较其他词语与词语w构成的同义词对的绝对词频低很多，则这个词语a就不太可能是词语w的同义词。词语a与词语w构成的同义词对的相对词频可以为：词语a与词语w构成的同义词对在候选资源中出现的次数除以该同义词集合中各词语与词语w分别构成的同义词对在候选资源中出现次数的最大值。

例如，在词语w的同义词集合中存在词语a1、a2、a3，假设a3与w构成的同义词对在候选资源中出现的次数最大，即为Num3，a1与w构成的同义词对以及a2与w构成的同义词对在候选资源中出现的次数分别为Num1和Num2。a1对应同义词对在同义词集合中的相对词频为：Num1/Num3，a2对应同义词在同义词集合中的相对词频为：Num2/Num3，a3对应同义词在同义词集合中的相对词频为1。如果Num1/Num3的值在预设的相对词频阈值N3以下，则将a1从w对应的同义词集合中删除。

3)基于同义词的重合度的过滤条件：两词语对应的同义词集合的重合度小于预设的重合度阈值O1。如果词语w1对应的同义词集合为{a1，a2，a3}，词语w2对应的同义词集合为{b1，b2，b3}，如果w1和w2是同义词，则{a1，a2，a3}和{b1，b2，b3}的重合度也会较高。基于该道理对词语w对应的同义词集合进行过滤时，可以确定同义词集合中各词语对应的同义词集合，分别与词语w对应的同义词集合计算重合度，对应重合度低于预设的重合度阈值的词语从同义词集合中过滤掉。

4)基于同义词的上下文共现的过滤条件：两词语在同一个query中共现的次数超过预设的次数阈值N4。如果两个词语w1和w2是同义词，则w1和w2通常是不会共现于同一个query中的，也就是说，用户在输入query时，通常不会同时输入互为同义词的两个词。因此，可以统计词语w对应的同义词集合中各词语与w共现于同一个query中的次数，如果次数超过设定的次数阈值N4，则将对应词语从词语w对应的同义词集合中过滤掉。

5)基于双语翻译语料的过滤条件：两词语对应同一语种的翻译词语重合度小于预设的重合度阈值O2。如果词语w1和w2是同义词，那么w1和w2对应的同一语种的翻译词语通常具有较高的重合度，例如，对于“著名”和“闻名”来说，“著名”对应的英文的翻译词语为“famous”、“well-known”、“celebrated”和“renowned”，“闻名”对应的英文的翻译词语为“throat”、“famous”和“renowned”，可见两者对应的翻译词语具有很高的重合度。反之，可以确定词语w对应的同义词集合中各词语与词语w对应同一语种的翻译词语的重合度，如果重合度很低，则将对应词语从词语w对应的同义词集合中过滤掉。

本步骤中的五种过滤条件可以择一使用，也可以以任意组合的形式使用。例如，当选择以上五种过滤条件组合使用时，将同时满足以上五种过滤条件的词语从同义词集合中过滤掉。通过上述过滤条件组合方式以及过滤条件中阈值的设置，能够灵活控制挖掘出的同义词的质量。

至此实施例一所示的流程结束。利用实施例一提供的方法能够挖掘出词语的同义词集合，并存储在数据库中。在数据库中的数据存储格式实例可以如表1所示。

表1

索引	同义词集合
		w1	w2、w3、w4
w2	w1、w3、w5
		w3	w1、w2
…	…

建立的同义词集合可以用于搜索引擎中query的扩展。例如，当用户输入某个query，对query进行分词处理后，可以查找分词处理后得到的词语所对应的同义词集合，利用同义词集合中的词语对query进行扩展。假设query进行分词处理后得到的词语为：a1和a2，其中经过查找数据库确定a1对应的同义词有b1和b2，则可以将query扩展为：(a1 or b1 or b2)and a2。其中“or”表示逻辑或，“and”表示逻辑与。

以上是对本发明所提供方法进行的描述，下面结合实施例二对本发明所提供的装置进行详细描述。

实施例二、

图2为本发明实施例二提供的同义词的挖掘装置结构图，该装置可以设置在搜索引擎所在的服务器端，如图2所示，该装置可以包括：候选资源获取单元200和同义词抽取单元210。

候选资源获取单元200从搜索日志中，query及其对应的搜索结果中被点击或浏览的网页标题，或者，被点击或浏览的网页标题对应的不同query，获取由短语对构成的同义词的候选资源。

其中，候选资源获取单元200可以采用以下所列任一方式或任意方式的组合获取候选资源：

从搜索日志中获取query对应的搜索结果中被点击或浏览的网页标题，得到query与标题构成的短语对(即“query-title”对)；

从搜索日志中获取相同query对应的搜索结果中被点击或浏览的网页标题，得到标题与标题构成的短语对(即“title-title”对)；以及，

从搜索日志中获取被点击或浏览的相同网页标题对应的不同query，得到query与query构成的短语对(即“query-query”对)。

在得到上述各短语对(包括：“query-title”对、“title-title”对或“query-query”对)后，可以将这些短语对作为同义词的候选资源存储为数据文件，供同义词抽取单元210调用。

同义词抽取单元210从候选资源的各短语对中抽取同义词对，其中抽取的同义词对在所属的短语对中具有相同的上下文。

具体地，同义词抽取单元210可以包括：相似性过滤子单元211和同义词抽取子单元212。

相似性过滤子单元211对同义词的候选资源的各短语对进行相似性过滤，得到候选同义短语对。

同义词抽取子单元212从候选同义短语对中抽取同义词对，其中抽取的同义词对在所属的候选同义短语对中具有相同的上下文。

其中，相似性过滤子单元211可以将满足以下所列相似性过滤条件中的任一或任意组合的短语对过滤掉，得到候选同义短语对：

短语对在候选资源中出现的次数在设定次数阈值N1以下；

短语对中短语之间的编辑距离在设定距离阈值L以下；

短语对中短语之间的字重合度小于预设的字重合度阈值；

短语对中短语之间的TF-IDF相似度小于预设的相似度阈值。

当相似性过滤条件包括：短语对在候选资源中出现的次数在设定次数阈值N1以下时，同义词抽取单元210还可以包括：出现次数统计子单元213，统计候选资源中的短语对出现的次数，并将统计结果提供给相似性过滤子单元211。

当相似性过滤条件包括：短语对中短语之间的编辑距离在设定距离阈值L以下时，同义词抽取单元210还可以包括：编辑距离计算子单元214，计算候选资源中各短语对中短语之间的编辑距离，并将计算结果提供给相似性过滤子单元211。其中短语之间的编辑距离可以采用LD算法，具体可以参见公式(1)。

当相似性过滤条件包括：短语对中短语之间的字重合度小于预设的字重合度阈值时，同义词抽取单元210还包括：字重合度计算子单元215，采用公式计算候选资源的短语对中短语之间的字重合度，并将计算结果提供给相似性过滤子单元211。

当相似性过滤条件包括：短语对中短语之间的词重合度小于预设的词重合度阈值时，同义词抽取单元210还包括：词重合度计算子单元216，采用公式

计算候选资源的短语对中短语之间的词重合度，并将计算结果提供给相似性过滤子单元211。

当相似性过滤条件包括：短语对中短语之间的TF-IDF相似度小于预设的相似度阈值时，同义词抽取单元210还包括：相似度确定子单元217，在候选资源中，对短语P1和短语P2构成的短语对分别计算P1中各词语的TF-IDF值构成P1的特征向量以及P2中各词语的TF-IDF值构成P2的特征向量，计算P1的特征向量和P2的特征向量的余弦距离作为P1和P2的TF-IDF相似度，并将计算结果提供给相似性过滤子单元211。

由于在网页标题中可能会含有大量的噪声数据，为了避免噪声数据对后续同义词抽取所带来的影响，该装置可以进一步包括：预处理单元220，用于对候选资源的各短语对中来源于标题的短语进行预处理，以删除来源于标题的短语中的噪声数据。

其中预处理单元220可以具体包括：分割处理子单元221和过滤处理子单元222。

分割处理子单元211基于预设的符号对来源于标题的短语进行分割。

过滤处理子单元222将分割处理子单元211分割后得到的各部分中满足预设删除位置要求的部分删除；或者，如果短语对中的另一个短语来源于query，则将分割处理子单元211分割后得到的各部分中，与来源于query的短语之间字重合度不满足于预设字重合度要求的部分删除。

此时，同义词抽取单元210从经预处理单元220处理后的候选资源的各短语对中抽取同义词对。

更优地，同义词抽取单元210还可以包括：无效短语对过滤子单元218，在候选同义短语对中，将其中一个短语包含另一个短语的全部内容的候选短语对删除。此时，同义词抽取子单元212从无效短语对过滤子单元218处理后的候选同义短语对中抽取同义词对。

经过上述各单元已经挖掘出各同义词对，为了对这些同义关系进行整合，方便后续应用，该装置还可以进一步包括：同义词整合单元230，能够将同义词抽取单元210抽取出的同义词进行整合，将同一个词语对应的所有同义词构成该词语对应的同义词集合。

为了更进一步提高获取到的同义词的质量，该装置还可以包括：噪声过滤单元240，用于对同义词整合单元230得到的同义词集合进行噪声过滤，具体为：将词语w1对应的同义词集合中满足以下所列过滤条件中的任一或任意组合的词语w2从词语w1对应的同义词集合中过滤掉：

词语w2与词语w1构成的同义词对在词语w1对应的同义词集合中的相对词频在预设的相对词频阈值N3以下，其中，词语w2与词语w1构成的同义词对在词语w1对应的同义词集合中的相对词频的计算方式为：词语w2与词语w1构成的同义词对在候选资源中出现的次数除以词语w1对应的同义词集合中各词语与词语w1分别构成的同义词对在候选资源中出现次数的最大值；

本发明上述装置得到的同义词集合可以存储于数据库中，方便后续搜索引擎对query进行扩展时查询使用。

由以上描述可以看出，本发明提供的方法和装置可以具备以下优点：

1)本发明从搜索日志中，query及其对应的搜索结果中被点击或浏览的网页标题，或者，被点击或浏览的网页标题对应的不同query，获取由短语对构成的同义词的候选资源，并利用同义词对在所属的短语中具有相同的上下文这一特点，从候选资源中抽取同义词对。本发明无需对网页中的词语两两计算相似度，显然大大提高的同义词挖掘的效率。

2)由于同义词的挖掘取自搜索日志中的query和/或网页标题，因此，挖掘出的同义词也更符合搜索引擎的语言特点。

3)本发明利用了同义词通常在“query-title”对、“query-query”对或者“title-title”对中具有相同的上下文这一特点，挖掘出的同义词准确性较高。

4)在本发明中能够通过灵活设置噪声过滤条件的组合形式以及噪声过滤条件中的阈值，使得同义词质量的控制也更加灵活。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明保护的范围之内。

Claims

1.一种同义词的挖掘方法，其特征在于，该方法包括：

2.根据权利要求1所述的方法，其特征在于，步骤A中所述候选资源的获取具体包括以下所列任一方式或任意方式的组合：

3.根据权利要求1或2所述的方法，其特征在于，所述步骤B具体包括：

4.根据权利要求3所述的方法，其特征在于，所述步骤B1中将满足以下所列相似性过滤条件中的任一或任意组合的短语对过滤掉，得到候选同义短语对：

短语对在候选资源中出现的次数在设定次数阈值N1以下；

短语对中短语之间的编辑距离在设定距离阈值L以下；

短语对中短语之间的字重合度小于预设的字重合度阈值；

短语对中短语之间的词频TF-倒文档率IDF相似度小于预设的相似度阈值。

5.根据权利要求4所述的方法，其特征在于，短语对中短语之间的字重合度采用公式

短语对中短语之间的词重合度采用公式计算，其中，C2(P1，P2)为短语对中短语P1和短语P2之间的词重合度，Com2(P1，P2)为P1和P2间相同的词数目，L1(X)为短语X包含的词数目。

6.根据权利要求4所述的方法，其特征在于，短语对中短语之间的TF-IDF相似度的计算方法为：

7.根据权利要求1或2所述的方法，其特征在于，在所述步骤A和步骤B之间进一步包括：

其中，所述预处理包括：

E1、基于预设的符号对所述来源于标题的短语进行分割；

8.根据权利要求3所述的方法，其特征在于，在所述步骤B1和B2之间还包括：

9.根据权利要求1或2所述的方法，其特征在于，在所述步骤B之后还包括：

10.根据权利要求9所述的方法，其特征在于，在所述步骤C之后还包括：

11.一种同义词的挖掘装置，其特征在于，该装置包括：候选资源获取单元和同义词抽取单元；

12.根据权利要求11所述的装置，其特征在于，所述候选资源获取单元采用以下所列任一方式或任意方式的组合获取所述候选资源：

13.根据权利要求11或12所述的装置，其特征在于，所述同义词抽取单元具体包括：相似性过滤子单元和同义词抽取子单元；

14.根据权利要求13所述的装置，其特征在于，所述相似性过滤子单元具体将满足以下所列相似性过滤条件中的任一或任意组合的短语对过滤掉，得到候选同义短语对：

短语对在候选资源中出现的次数在设定次数阈值N1以下；

短语对中短语之间的编辑距离在设定距离阈值L以下；

短语对中短语之间的字重合度小于预设的字重合度阈值；

短语对中短语之间的TF-IDF相似度小于预设的相似度阈值。

15.根据权利要求14所述的装置，其特征在于，当所述相似性过滤条件包括：短语对中短语之间的字重合度小于预设的字重合度阈值时，所述同义词抽取单元还包括：

字重合度计算子单元，用于采用公式

16.根据权利要求14所述的装置，其特征在于，当所述相似性过滤条件包括：短语对中短语之间的词重合度小于预设的词重合度阈值时，所述同义词抽取单元还包括：

词重合度计算子单元，用于采用公式

17.根据权利要求14所述的装置，其特征在于，当所述相似性过滤条件包括：短语对中短语之间的TF-IDF相似度小于预设的相似度阈值时，所述同义词抽取单元还包括：

18.根据权利要求11或12所述的装置，其特征在于，该装置还包括：预处理单元，用于对候选资源的各短语对中来源于标题的短语进行预处理，以删除所述来源于标题的短语中的噪声数据；

19.根据权利要求13所述的装置，其特征在于，所述同义词抽取单元还包括：无效短语对过滤子单元，用于在所述候选同义短语对中，将其中一个短语包含另一个短语的全部内容的候选短语对删除；

20.根据权利要求11或12所述的装置，其特征在于，该装置还包括：同义词整合单元，用于将所述同义词抽取单元抽取出的同义词进行整合，将同一个词语对应的所有同义词构成该词语对应的同义词集合。

21.根据权利要求20所述的装置，其特征在于，该装置还包括：噪声过滤单元，用于对所述同义词整合单元得到的同义词集合进行噪声过滤，具体为：将词语w1对应的同义词集合中满足以下所列过滤条件中的任一或任意组合的词语w2从词语w1对应的同义词集合中过滤掉：