CN103390004A

CN103390004A - 一种语义冗余的确定方法和装置、对应的搜索方法和装置

Info

Publication number: CN103390004A
Application number: CN2012101471544A
Authority: CN
Inventors: 方高林
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2012-05-11
Filing date: 2012-05-11
Publication date: 2013-11-13
Anticipated expiration: 2032-05-11
Also published as: CN103390004B

Abstract

本发明提供了一种语义冗余的确定方法和装置、对应的搜索方法和装置，其中语义冗余的确定方法包括：S1、确定词A及其搭配词B；S2、从语料中统计词A和词B构成的搭配词对的上下文向量，以及统计词A的上下文向量；S3、计算所述词A和词B构成的搭配词对的上下文向量与所述词A的上下文向量之间的相似度，如果相似度大于预设相似度阈值，则确定所述词A和词B构成的搭配词对与所述词A构成语义冗余对，其中所述词B为冗余词。通过本发明能够有效地确定query中存在的语义冗余状况，为query的去冗余提供基础。利用去冗余后的query进行搜索，使得冗余的关键词不必参与匹配，提高了搜索结果的召回率，提高了搜索效果。

Description

一种语义冗余的确定方法和装置、对应的搜索方法和装置

【技术领域】

本发明涉及自然语言处理技术，特别涉及一种语义冗余的确定方法和装置、对应的搜索方法和装置。

【背景技术】

随着搜索引擎技术的不断发展，传统基于关键词匹配的策略在现代搜索引擎中对于语义匹配方面越来越力不从心。其中用户在进行搜索的过程中，有很大比例的语义冗余表达，例如：“北京中关村在哪里”实际上与“中关村在哪里”表达的含义相同，“苹果iphone4s”与“iphone4s”表达的含义相同，“张艺谋导演的新片”与“张艺谋的新片”表达的含义相同，“离婚后对前夫仇恨怎么办”与“前夫仇恨怎么办”表达的含义相同，等等，由于基于关键词匹配的方式需要每个关键词都能够匹配才能够取得靠前的排名，因此对于实际上在语义上匹配的网页但由于并没有对query中语义冗余的关键词匹配，则可能无法取得靠前的排名，甚至无法召回。

【发明内容】

本发明提供了一种语义冗余的确定方法和装置、对应的搜索方法和装置，以便于有效地确定query中存在的语义冗余状况，从而提高搜索效果。

具体技术方案如下：

一种语义冗余的确定方法，该方法包括：

S1、确定词A及其搭配词B；

S2、从语料中统计词A和词B构成的搭配词对的上下文向量，以及统计词A的上下文向量；

S3、计算所述词A和词B构成的搭配词对的上下文向量与所述词A的上下文向量之间的相似度，如果相似度大于预设相似度阈值，则确定所述词A和词B构成的搭配词对与所述词A构成语义冗余对，其中所述词B为冗余词。

根据本发明一优选实施例，所述步骤S1中确定词A具体为：

确定所述语料中出现频率大于预设第一频率阈值的名词作为所述词A。

根据本发明一优选实施例，所述步骤S1中确定词A的搭配词B具体为：

确定所述语料中与所述词A共现在预设窗口范围内的频率大于预设第二频率阈值，且与词A共现的状况满足预设第一模板的词，利用确定出的词选择词B。

根据本发明一优选实施例，所述利用确定出的词选择词B包括：

将确定出的词作为词B；或者，

将确定出的词按照卡方值进行排序，选择排在前N个的词作为词B，N为预设的正整数；或者，

从确定出的词中选择卡方值大于预设卡方值阈值的词作为词B。

根据本发明一优选实施例，在所述步骤S2中统计词A和词B构成的搭配词对的上下文向量具体包括：

确定所述语料中与所述搭配词对共现的状况满足预设第二模板的词，从确定出的词与所述搭配词对共现在预设窗口范围内时的语料中抽取所述搭配词对的上下文，并利用抽取的上下文与所述搭配词对的共现频率确定上下文的权值，得到所述搭配词对的上下文向量；

其中，在所述第二模板中所述搭配词对为前缀或后缀。

根据本发明一优选实施例，在所述步骤S2中统计词A的上下文向量具体包括：

从语料中抽取所述词A的上下文，并利用抽取的上下文与所述词A的共现频率确定上下文的权值，得到所述词A的上下文向量。

根据本发明一优选实施例，在所述步骤S3中计算的相似度采用余弦相似度或信息半径相似度。

一种搜索方法，该搜索方法包括：

对用户输入的query进行分词处理；

利用分词处理后得到的各词两两构成的搭配词对查找语义冗余对数据库，如果匹配到语义冗余对，则利用匹配到的语义冗余对对所述query进行去冗余处理，并利用去冗余处理后的query进行搜索；

所述语义冗余对数据库中的各语义冗余对采用如权利要求1至7任一权项所述的方法确定。

根据本发明一优选实施例，所述利用分词处理后得到的各词两两构成的搭配词对查找语义冗余对数据库具体包括：

确定分词处理后得到的各词中，共现在预设窗口范围内且共现状况满足预设第一模板的两个词构成搭配词对，利用确定的搭配词对查找所述语义冗余对数据库。

一种语义冗余的确定装置，该装置包括：

搭配词对确定单元，用于确定词A及其搭配词B；

上下文向量确定单元，用于从语料中统计词A和词B构成的搭配词对的上下文向量，以及统计词A的上下文向量；

冗余对确定单元，用于计算所述词A和词B构成的搭配词对的上下文向量与所述词A的上下文向量之间的相似度，如果相似度大于预设相似度阈值，则确定所述词A和词B构成的搭配词对与所述词A构成语义冗余对，其中所述词B为冗余词。

根据本发明一优选实施例，所述搭配词对确定单元包括：候选词确定子单元，用于确定所述语料中出现频率大于预设第一频率阈值的名词作为所述词A。

根据本发明一优选实施例，所述搭配词对确定单元包括：搭配词确定子单元，用于确定所述语料中与所述词A共现在预设窗口范围内的频率大于预设第二频率阈值，且与词A共现的状况满足预设第一模板的词，利用确定出的词选择词B。

根据本发明一优选实施例，所述搭配词确定子单元在利用确定出的词选择词B时，具体将确定出的词作为词B；或者，

根据本发明一优选实施例，所述上下文向量确定单元包括：第一向量确定子单元，用于确定所述语料中与所述搭配词对共现的状况满足预设第二模板的词，从确定出的词与所述搭配词对共现在预设窗口范围内时的语料中抽取所述搭配词对的上下文，并利用抽取的上下文与所述搭配词对的共现频率确定上下文的权值，得到所述搭配词对的上下文向量；

其中，在所述第二模板中所述搭配词对为前缀或后缀。

根据本发明一优选实施例，所述上下文向量确定单元包括：第二向量确定子单元，用于从语料中抽取所述词A的上下文，并利用抽取的上下文与所述词A的共现频率确定上下文的权值，得到所述词A的上下文向量。

根据本发明一优选实施例，所述冗余对确定单元在计算相似度时采用余弦相似度或信息半径相似度。

一种搜索装置，该搜索装置包括：

分词处理单元，用于对用户输入的query进行分词处理；

冗余处理单元，用于利用分词处理后得到的各词两两构成的搭配词对查找语义冗余对数据库，如果匹配到语义冗余对，则利用匹配到的语义冗余对对所述query进行去冗余处理；

搜索单元，用于利用去冗余处理后的query进行搜索；

所述语义冗余对数据库中的各语义冗余对采用如权利要求10至16任一权项所述的装置确定。

根据本发明一优选实施例，所述冗余处理单元在利用分词处理后得到的各词两两构成的搭配词对查找语义冗余对数据库时，具体确定分词处理后得到的各词中，共现在预设窗口范围内且共现状况满足预设第一模板的两个词构成搭配词对，利用确定的搭配词对查找所述语义冗余对数据库。

由以上技术方案可以看出，本发明通过统计词A和词B构成的搭配词对的上下文向量，以及词A的上下文向量，计算两向量之间的相似度，如果相似度大于预设相似度阈值，则确定词A和词B构成的搭配词对与词A构成语义冗余对，其中词B为冗余词。通过本发明能够有效地确定query中存在的语义冗余状况，为query的去冗余提供基础。利用去冗余后的query进行搜索，使得冗余的关键词不必参与匹配，提高了搜索结果的召回率，且在实际语义上与query匹配的网页能够取得靠前的排名，提高了搜索效果。

【附图说明】

图1为本发明实施例一提供的语义冗余的确定方法流程图；

图2为本发明实施例二提供的搜索方法；

图3为本发明实施例三提供的语义冗余的确定装置结构图；

图4为本发明实施例四提供的搜索装置结构图。

【具体实施方式】

为了使本发明的目的、技术方案和优点更加清楚，下面结合附图和具体实施例对本发明进行详细描述。

实施例一、

图1为本发明实施例一提供的语义冗余的确定方法流程图，如图1所示，该方法可以包括：

步骤101：确定语义冗余挖掘中的词A。

由于存在语义冗余的情况大多以名词作为中心词，因此在本步骤中以名词为主确定词A，同时在大规模语料中进行统计，将出现频率大于预设第一频率阈值的名词作为词A。该第一频率阈值可以根据实际需求进行设置，例如将在语料中出现频率大于10的名词作为词A。

步骤102：确定词A的搭配词B。

本步骤确定出的搭配词B是用于后续挖掘冗余词所使用的，鉴于与词A构成语义冗余情况时，通常满足一定的规则，因此在本步骤中选择词A的搭配词B时，在语料中统计与词A共现的状况满足第一模板的词，此处与词A的共现状况主要指的是与词A的词性搭配组合状况。该第一模板可以包括但不限于：形容词+词A，名词+词A、词A+动词、动词+词A。同时，需要该搭配词B与词A共现在预设窗口范围内的频率大于预设第二频率值，例如共现在5个词的范围内的频率大于10。也就是说，确定大规模语料中与词A共现在预设窗口范围内的频率大于预设第二频率阈值，且与词A共现的状况满足预设第一模板的词，利用确定出的词选择词B。

需要说明的是，上述第一频率阈值和第二频率阈值可以相同，也可以不同。

具体在利用确定出的词选择词B时，可以采用但不限于以下几种选择策略：

第一种选择策略：直接将确定出的词作为词B。

第二种选择策略：将确定出的词按照卡方值进行排序，选择排在前N个的词作为词B，N为预设的正整数。

第三种选择策略：从确定出的词中选择卡方值大于预设卡方值阈值的词作为词B，例如选择卡方值大于4的词作为词B。

上述第二种选择策略和第三种选择策略为确定出的词数量较多的情况下，为了提高计算效率所采用的优选的选择策略。

步骤103：从语料中统计词A和词B构成的搭配词对的上下文向量。

在本步骤中，可以首先按照预设的第二模板统计三元组合，其中第二模板可以包括但不限于：名词+搭配词对、形容词+搭配词对、动词+搭配词对、搭配词对+动词等等，在第二模板中搭配词对通常作为前缀或后缀，在统计这些三元组合时，需要满足三元组合在语料中出现在预设窗口范围内，例如出现在10个词语范围内。从统计的三元组合所在的语料中抽取搭配词对的上下文，例如，x-A-B，y-A-B，A-B-e，A-B-f，抽取出的上下文就是{x，y，e，f}。也就是说，确定语料中与搭配词对共现的状况满足预设第二模板的词，此处与搭配词对的共现状况主要指的是与搭配词对的词性搭配组合状况，从确定出的词与搭配词对共现在预设窗口范围内时的语料中抽取搭配词对的上下文。

在抽取上下文后，进一步确定出各上下文的权值，该权值可以利用抽取的上下文与搭配词对的共现频率确定。例如，采用共现频率的log值加1作为权重。由上述抽取的搭配词对的上下文以及各上下文的权重，即{W₁(x)，W₁(y)，W₁(e)，W₁(f)}，构成搭配词对的上下文向量。

步骤104：从语料中统计词A的上下文向量。

在本步骤中，从词A所在的所有语料中抽取上下文，例如，e-A，f-A，A-g，A-h，抽取的上下文为{e，f，g，h}。更进一步地，确定出各上下文的权值，具体可以利用抽取的上下文与词A的共现频率来确定，例如采用共现频率的log值加1作为权重。由上述抽取的词A的上下文以及各上下文的权重，即{W₂(e)，W₂(f)，W₂(g)，W₂(h)}，构成词A的上下文向量。

需要说明的是，上述步骤103和步骤104可以以任意的顺序先后执行，也可以同时执行，本实施例仅为其中一种执行顺序。

步骤105：计算词A和词B构成的搭配词对的上下文向量与词A的上下文向量之间的相似度，如果相似度大于预设的相似度阈值，则确定该搭配词对与词A构成语义冗余对，其中词B为冗余词。

进行相似度计算的方式可以有很多种，包括但不限于：余弦相似度和信息半径相似度。

以信息半径相似度为例，可以采用如下公式计算词A和词B构成的搭配词对的上下文向量W₁和词A的上下文向量W₂之间的信息半径相似度IRad(W₁，W₂)：

IRad (W_{1}, W_{2}) = 10^{- 0.6 A (W_{1}, W_{2})}

其中

A (W_{1}, W_{2}) = 2 \log 2 + \underset{z &Element; Z}{Σ} W_{1} (z) \log \frac{W_{1} (z)}{W_{1} (z) + W_{2} (z)} + W_{2} (z) \log \frac{W_{2} (z)}{W_{1} (z) + W_{2} (z)},

Z为向量W₁和向量W₂中同时出现的词所构成的集合，W₁(z)为z在向量W₁中的权值，W₂(z)为z在向量W₂中的权值。

举个例子，通过上述过程首先确定出的词A为“中关村”，确定出的其中一个搭配词为“北京”，确定出“中关村”的上下文向量和“北京-中关村”的上下文向量之后，计算出两向量的相似度大于预设的相似度阈值，则确定出“北京-中关村”和中关村”构成语义冗余对，其中“北京”为冗余词。

通过上述方式可以确定出一批语义冗余对，构成语义冗余对数据库，从而供后续搜索时查询使用，下面通过实施例二对基于上述语义冗余对数据库的搜索方法进行描述。

实施例二、

图2为本发明实施例二提供的搜索方法，如图2所示，该搜索方法包括：

步骤201：对用户输入的query进行分词处理。

步骤202：确定分词处理后得到的各词两两构成的搭配词对。

在本步骤中确定搭配词对时，可以与实施例一中步骤102的方式类似，即确定分词处理后得到的各词中，共现在预设窗口范围内且共现状况满足预设第一模板的两个词构成搭配词对。其中第一模板可以包括但不限于：形容词+名词，名词+名词、名词+动词、动词+名词、等等。

步骤203：利用确定的搭配词对查找语义冗余对数据库，如果匹配到语义冗余对，则利用匹配到的语义冗余对对query进行去冗余处理。

语义冗余对数据库中存储有大量的语义冗余对，语义冗余对包含语义相似的搭配词对和词，将确定的搭配词对到语义冗余数据库中进行匹配，如果匹配到语义冗余对，则说明该确定的搭配词对存在冗余，可以将其进行去冗余处理，即将query中该搭配词对替换为该搭配词对在语义冗余对数据库中对应的词，或者将冗余的词语去掉。

另外，在进行去冗余处理时，将冗余的词语去掉时还可能需要对query进行平滑处理，去除因去掉冗余的词语所带来的多余的词语，其中多余的词语包括：助词、介词、副词、连词等。

步骤204：利用去冗余处理后的query进行搜索。

在利用去冗余处理后的query进行搜索后，与去冗余处理后的query中各关键词匹配的搜索结果能够被召回，或能够取得靠前的排名，而不必与query中冗余的关键词匹配。

例如，用户输入query“北京中关村在什么地方”，进行分词处理后，确定搭配词对为“北京-中关村”，在语义冗余对数据库中匹配到语义冗余对：“北京-中关村”和“中关村”，进行去冗余处理后得到的query为“中关村在什么地方”，利用“中关村在什么地方”进行搜索时，存在语义冗余的关键词“北京”不需要被匹配上。

再例如，用户输入query“离婚后对前夫仇恨怎么办”，进行分词处理后，确定的搭配词对包括“离婚-前夫”，在语义冗余对数据库中匹配到语义冗余对：“离婚-前夫”和“前夫”，进行去冗余处理后得到的query为“对前夫仇恨怎么办”(在去冗余处理时去除“后”以进行平滑)，利用“对前夫仇恨怎么办”进行搜索时，存在语义冗余的关键词“离婚”不需要被匹配上。

以上是对本发明所提供的方法进行的描述，下面通过实施例三和实施例四对本发明提供的装置进行详细描述。

实施例三、

图3为本发明实施例三提供的语义冗余的确定装置结构图，如图3所示，该装置可以包括：搭配词对确定单元300、上下文向量确定单元310和冗余对确定单元320。

搭配词对确定单元300确定词A及其搭配词B。

其中，搭配词对确定单元300可以具体包括：候选词确定子单元301，用于确定语料中出现频率大于预设第一频率阈值的名词作为词A。

由于存在语义冗余的情况大多以名词作为中心词，因此候选词确定子单元301以名词为主确定词A，同时在大规模语料中进行统计，将出现频率大于预设第一频率阈值的名词作为词A。该第一频率阈值可以根据实际需求进行设置，例如将在语料中出现频率大于10的名词作为词A。

还包括：搭配词确定子单元302，用于确定语料中与词A共现在预设窗口范围内的频率大于预设第二频率阈值，且与词A共现的状况满足预设第一模板的词，利用确定出的词选择词B。

其中，第一模板可以包括但不限于：形容词+词A，名词+词A、词A+动词、动词+词A。

具体在利用确定出的词选择词B时，可以直接将确定出的词作为词B；或者，将确定出的词按照卡方值进行排序，选择排在前N个的词作为词B，N为预设的正整数；或者，从确定出的词中选择卡方值大于预设卡方值阈值的词作为词B。

上述第一频率阈值和第二频率阈值可以相同，也可以不同。

上下文向量确定单元310从语料中统计词A和词B构成的搭配词对的上下文向量，以及统计词A的上下文向量。

其中，上下文向量确定单元310可以具体包括：第一向量确定子单元311，用于确定语料中与搭配词对共现的状况满足预设第二模板的词，从确定出的词与搭配词对共现在预设窗口范围内时的语料中抽取搭配词对的上下文，并利用抽取的上下文与搭配词对的共现频率确定上下文的权值，得到搭配词对的上下文向量。

其中，第二模板可以包括但不限于：名词+搭配词对、形容词+搭配词对、动词+搭配词对、搭配词对+动词等等，在第二模板中搭配词对为前缀或后缀。上下文的权值可以利用上下文与搭配词对的共现频率确定，例如，采用共现频率的log值加1作为权重。

上下文向量确定单元310还可以包括：第二向量确定子单元312，用于从语料中抽取词A的上下文，并利用抽取的上下文与词A的共现频率确定上下文的权值，得到词A的上下文向量。

其中词A的上下文的权值可以利用抽取的上下文与词A的共现频率来确定，例如采用共现频率的log值加1作为权重。

冗余对确定单元320，用于计算词A和词B构成的搭配词对的上下文向量与词A的上下文向量之间的相似度，如果相似度大于预设相似度阈值，则确定词A和词B构成的搭配词对与词A构成语义冗余对，其中词B为冗余词。

其中在计算相似度时可以采用余弦相似度或信息半径相似度。

实施例四、

图4为本发明实施例四提供的搜索装置结构图，如图4所示，该搜索装置可以包括：分词处理单元401、冗余处理单元402和搜索单元403。

分词处理单元401，用于对用户输入的query进行分词处理。

冗余处理单元402，用于利用分词处理后得到的各词两两构成的搭配词对查找语义冗余对数据库，如果匹配到语义冗余对，则利用匹配到的语义冗余对对query进行去冗余处理。

冗余处理单元402在确定搭配词对时，与实施例三中的搭配词对确定单元采用的方式类似，即确定分词处理后得到的各词中，共现在预设窗口范围内且共现状况满足预设第一模板的两个词构成搭配词对。其中第一模板可以包括但不限于：形容词+名词，名词+名词、名词+动词、动词+名词、等等。

语义冗余对数据库中存储有大量的语义冗余对，语义冗余对包含语义相似的搭配词对和词，将确定的搭配词对到语义冗余数据库中进行匹配，如果匹配到语义冗余对，则说明该确定的搭配词对存在冗余，可以将其进行去冗余处理，即将query中该搭配词对替换为该搭配词对在语义冗余对数据库中对应的词。

搜索单元403，用于利用去冗余处理后的query进行搜索。

语义冗余对数据库中的各语义冗余对采用实施例三所示的装置确定。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明保护的范围之内。

Claims

1.一种语义冗余的确定方法，其特征在于，该方法包括：

S1、确定词A及其搭配词B；

2.根据权利要求1所述的方法，其特征在于，所述步骤S1中确定词A具体为：

3.根据权利要求1所述的方法，其特征在于，所述步骤S1中确定词A的搭配词B具体为：

4.根据权利要求3所述的方法，其特征在于，所述利用确定出的词选择词B包括：

将确定出的词作为词B；或者，

5.根据权利要求1所述的方法，其特征在于，在所述步骤S2中统计词A和词B构成的搭配词对的上下文向量具体包括：

其中，在所述第二模板中所述搭配词对为前缀或后缀。

6.根据权利要求1所述的方法，其特征在于，在所述步骤S2中统计词A的上下文向量具体包括：

7.根据权利要求1所述的方法，其特征在于，在所述步骤S3中计算的相似度采用余弦相似度或信息半径相似度。

8.一种搜索方法，其特征在于，该搜索方法包括：

对用户输入的query进行分词处理；

9.根据权利要求8所述的搜索方法，其特征在于，所述利用分词处理后得到的各词两两构成的搭配词对查找语义冗余对数据库具体包括：

10.一种语义冗余的确定装置，其特征在于，该装置包括：

搭配词对确定单元，用于确定词A及其搭配词B；

11.根据权利要求10所述的装置，其特征在于，所述搭配词对确定单元包括：候选词确定子单元，用于确定所述语料中出现频率大于预设第一频率阈值的名词作为所述词A。

12.根据权利要求10所述的装置，其特征在于，所述搭配词对确定单元包括：搭配词确定子单元，用于确定所述语料中与所述词A共现在预设窗口范围内的频率大于预设第二频率阈值，且与词A共现的状况满足预设第一模板的词，利用确定出的词选择词B。

13.根据权利要求12所述的装置，其特征在于，所述搭配词确定子单元在利用确定出的词选择词B时，具体将确定出的词作为词B；或者，

14.根据权利要求10所述的装置，其特征在于，所述上下文向量确定单元包括：第一向量确定子单元，用于确定所述语料中与所述搭配词对共现的状况满足预设第二模板的词，从确定出的词与所述搭配词对共现在预设窗口范围内时的语料中抽取所述搭配词对的上下文，并利用抽取的上下文与所述搭配词对的共现频率确定上下文的权值，得到所述搭配词对的上下文向量；

其中，在所述第二模板中所述搭配词对为前缀或后缀。

15.根据权利要求10所述的装置，其特征在于，所述上下文向量确定单元包括：第二向量确定子单元，用于从语料中抽取所述词A的上下文，并利用抽取的上下文与所述词A的共现频率确定上下文的权值，得到所述词A的上下文向量。

16.根据权利要求10所述的装置，其特征在于，所述冗余对确定单元在计算相似度时采用余弦相似度或信息半径相似度。

17.一种搜索装置，其特征在于，该搜索装置包括：

分词处理单元，用于对用户输入的query进行分词处理；

搜索单元，用于利用去冗余处理后的query进行搜索；

18.根据权利要求17所述的搜索装置，其特征在于，所述冗余处理单元在利用分词处理后得到的各词两两构成的搭配词对查找语义冗余对数据库时，具体确定分词处理后得到的各词中，共现在预设窗口范围内且共现状况满足预设第一模板的两个词构成搭配词对，利用确定的搭配词对查找所述语义冗余对数据库。