CN102955772B

CN102955772B - 一种基于语义的相似度计算方法和装置

Info

Publication number: CN102955772B
Application number: CN201110236902.1A
Authority: CN
Inventors: 方高林; 王海峰
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2011-08-17
Filing date: 2011-08-17
Publication date: 2015-11-25
Anticipated expiration: 2031-08-17
Also published as: CN102955772A

Abstract

本发明提供了一种基于语义的相似度计算方法和装置，其中方法包括：获取待比较的句子S₁和S₂；分别对所述S₁和S₂进行分词；对所述分词后得到的各词语中存在语义映射的词语映射为归一化的表述；计算经步骤C处理后的S₁和S₂之间的相似度Sim(S₁，S₂)。本发明通过将句子中存在语义映射的词语映射到归一化的表述，并将其融入相似度的计算，从而在语义上体现句子之间的相似度而不仅仅是字面上的相似程度，提高了计算句子之间相似度的准确性。

Description

一种基于语义的相似度计算方法和装置

【技术领域】

本发明涉及计算机技术领域，特别涉及一种基于语义的相似度计算方法和装置。

【背景技术】

随着计算机技术的不断发展，用户越来越依赖通过诸如搜索技术、问答平台或者热点新闻等获取信息。其中，会涉及到计算句子之间相似度的问题，例如，通过计算搜索结果与用户query之间的相似度确定搜索结果的排序；通过计算用户所输入问句与问答平台数据库中已有问题之间的相似度，找出用户所输入问句对应的答案；通过新闻页面的标题之间的相似度对各新闻页面进行聚类从而确定热点事件。

在现有的相似度计算方式中，仅通过计算两个句子之间的字面相似程度，但实际上，两个句子之间的相似度更多的体现在语义上。例如：句子“华中科技大学在湖北武汉那个地方”和“华科大在武汉市什么位置”，这两个句子中字面仅有“在”和“武汉”存在重合，如果采用现有的相似度计算方式计算得到的这两个句子之间的相似度很低，但实际上这两个句子在语义上是一致的，相似度应该很高。可见，现有的相似度计算方式准确性较差。

【发明内容】

有鉴于此，本发明提供了一种基于语义的相似度计算方法和装置，以便于提高所计算句子之间相似度的准确性。

具体技术方案如下：

一种基于语义的相似度计算方法，该方法包括：

A、获取待比较的句子S₁和S₂；

B、分别对所述S₁和S₂进行分词；

C、对所述分词后得到的各词语中存在语义映射的词语映射为归一化的表述；

D、计算经步骤C处理后的S₁和S₂之间的相似度Sim(S₁，S₂)。

所述步骤B中还包括：对分词后得到的各词语赋予权值；

所述步骤D具体包括：将所述S₁分词后得到的各词语与所述S₂分词后得到的各词语分别进行匹配，利用匹配成功的词语的权值以及句子类型匹配程度，计算所述S₁和S₂之间的相似度Sim(S₁，S₂)；其中所述匹配成功为：词语表述相同或者词语映射到相同的归一化表述。

其中，所述步骤B具体包括：

B1、分别对所述S₁和S₂进行分词和词性标注；

B2、对分词后得到的各词语进行基于停用词表的过滤；

B3、对分词后得到的各词语赋予权值。

具体地，所述对分词后得到的各词语赋予权值包括：

对所述分词后得到的各词语进行倒文档率的统计，按照预设的倒文档率与权值之间的对应关系，分别对所述分词后得到的各词语赋予权值；或者，

按照预设的词性与权值之间的对应关系，分别对所述分词后得到的各词语赋予权值。

较优地，在所述步骤B之后且在所述步骤D之前还包括：

识别语义冗余的词语，并对语义冗余的词语进行降权处理；或者，

在构成偏正结构的词语中，对作为中心词的词语进行提权处理或者对作为修饰词的词语进行降权处理。

其中，所述识别语义冗余的词语具体包括：将所述S₁分词后得到的各词语和所述S₂分词后得到的各词语分别与预设的语义模板进行匹配，通过匹配到的语义模板识别出在一个句子中同时出现的上位和下位的词语，将所述上位的词语识别为语义冗余的词语。

更进一步地，该方法还包括：

预先将具有相同语义但不同表述的词语组成一个簇，并从该簇中选择一个词语作为该簇的归一化表述，该簇中所有的词语都语义映射到所述归一化表述。

如果所述S₁和S₂均为问句，则在所述步骤D之前还包括：识别所述S₁和S₂的问句类型；

所述句子类型匹配程度体现所述S₁和S₂是否属于同一问句类型。

其中，识别问句的问句类型的方式具体包括：

识别问句中的疑问词，按照预设的疑问词与问句类型之间的对应关系，确定问句的问句类型；或者，

识别问句中的疑问词以及该疑问词上下文出现的名词，根据预设的名词和疑问词的组合与问句类型之间的对应关系，确定问句的问句类型。

具体地，所述步骤D可以包括：

D1、将所述S₁和S₂中最大分词粒度的词语以及该最大分词粒度的词语进一步划分的更小分词粒度的词语对应到同一个语义映射位；

D2、将所述S₁中各语义映射位逐一与所述S₂中各语义映射位分别进行匹配；

D3、按照公式

Sim (S_{1}, S_{2}) = \frac{\underset{w_{1 m_{i}} = w_{2 n_{j}}}{Σ} (Wgt (w_{1 m_{i}}) * Wgt (w_{2 n_{j}}))}{\sqrt{\underset{k = 1 \cdot \cdot \cdot M}{Σ} Wgt {(w_{1 k_{t}})}^{2}} \sqrt{\underset{l = 1 \cdot \cdot \cdot N}{Σ} Wgt {(w_{2 l_{t}})}^{2}}} * SentType (S_{1}, S_{2})

计算所述S₁和S₂之间的相似度Sim(S₁，S₂)；

其中，表示所述S₁中第m个语义映射位中第i个词语与所述S₂中第n个语义映射位中第j个词语匹配成功；为词语的权值，为词语的权值，M为所述S₁中语义映射位的数目，N为所述S₂中语义映射位的数目；SentType(S₁，S₂)表示所述S₁和S₂的问句类型匹配程度；

如果所述S₁的第K个语义映射位中存在匹配成功的词语，则为该匹配成功的词语以及该第K个语义映射位中与该匹配成功的词语具有相同分词粒度的其他词语的权值之和；如果所述S₁中的第K个语义映射位中不存在匹配成功的词语，则为该语义映射位对应的最大分词粒度词语的权值；

如果所述S₂的第l个语义映射位中存在匹配成功的词语，则为该匹配成功的词语以及该第K个语义映射位中与该匹配成功的词语具有相同分词粒度的其他词语的权值之和；如果所述S₂中的第l个语义映射位中不存在匹配成功的词语，则为该语义映射位对应的最大分词粒度词语的权值。

如果一个句子中的一个语义映射位中存在多个词语与另一个句子的一个语义映射位的词语匹配，则从所述多个词语中选择分词粒度最大的词语作为匹配成功的词语。

一种基于语义的相似度计算装置，该装置包括：

句子获取单元，用于获取待比较的句子S₁和S₂；

分词赋权单元，用于分别对所述S₁和S₂进行分词；

语义映射单元，用于对所述分词后得到的各词语中存在语义映射的词语映射为归一化的表述；

相似度计算单元，用于计算经所述语义映射单元处理后的S₁和S₂之间的相似度Sim(S₁，S₂)。

所述分词赋权单元还用于对分词后得到的各词语赋予权值；

所述相似度计算单元具体将所述S₁分词后得到的各词语与所述S₂分词后得到的各词语分别进行匹配，利用匹配成功的词语的权值以及句子类型匹配程度，计算所述S₁和S₂之间的相似度Sim(S₁，S₂)；其中所述匹配成功为：词语表述相同或者词语映射到相同的归一化表述。

其中，所述分词赋权单元具体包括：分词标注子单元、过滤子单元和赋权子单元；

所述分词标注子单元，用于对所述S₁和S₂进行分词和词性标注；

所述过滤子单元，用于对分词后得到的各词语进行基于停用词表的过滤后发送给所述赋权子单元；

所述赋权子单元，用于将接收到的词语赋予权值。

具体地，所述赋权子单元对接收到的词语进行倒文档率的统计，按照预设的倒文档率与权值之间的对应关系，分别对接收到的词语赋予权值；或者，按照预设的词性与权值之间的对应关系，分别对接收到的词语赋予权值。

较优地，该装置还包括：冗余处理单元或者结构处理单元；

所述冗余处理单元，用于识别所述分词处理后得到的词语中语义冗余的词语，并对语义冗余的词语进行降权处理；

所述结构处理单元，用于在所述分词处理后得到的词语中，对构成偏正结构的词语中的中心词进行提权处理，或者，对构成偏正结构的词语中的修饰词进行降权处理。

所述冗余处理单元将所述S₁分词后得到的各词语和所述S₂分词后得到的各词语分别与预设的语义模板进行匹配，通过匹配到的语义模板识别出在一个句子中同时出现的上位和下位的词语，将所述上位的词语识别为语义冗余的词语。

更进一步地，该装置还包括：映射挖掘单元，用于预先将具有相同语义但不同表述的词语组成一个簇，并从该簇中选择一个词语作为该簇的归一化表述，该簇中所有的词语都语义映射到所述归一化表述。

另外，该装置还包括：类型识别单元，用于在所述S₁和S₂为问句时，识别所述S₁和S₂的问句类型；

具体地，所述类型识别单元识别问句中的疑问词，按照预设的疑问词与问句类型之间的对应关系，确定问句的问句类型；或者，识别问句中的疑问词以及该疑问词上下文出现的名词，根据预设的名词和疑问词的组合与问句类型之间的对应关系，确定问句的问句类型。

所述相似度计算单元具体包括：

映射位对应子单元，用于将所述S₁和S₂中最大分词粒度的词语以及该最大分词粒度的词语进一步划分的更小分词粒度的词语对应到同一个语义映射位；

匹配处理子单元，用于将所述S₁中各语义映射位逐一与所述S₂中各语义映射位分别进行匹配；

相似度计算子单元，用于按照公式

Sim (S_{1}, S_{2}) = \frac{\underset{w_{1 m_{i}} = w_{2 n_{j}}}{Σ} (Wgt (w_{1 m_{i}}) * Wgt (w_{2 n_{j}}))}{\sqrt{\underset{k = 1 \cdot \cdot \cdot M}{Σ} Wgt {(w_{1 k_{t}})}^{2}} \sqrt{\underset{l = 1 \cdot \cdot \cdot N}{Σ} Wgt {(w_{2 l_{t}})}^{2}}} * SentType (S_{1}, S_{2})

计算所述S₁和S₂之间的相似度Sim(S₁，S₂)；

如果一个句子中的一个语义映射位中存在多个词语与另一个句子的一个语义映射位的词语匹配，则所述匹配处理子单元从所述多个词语中选择分词粒度最大的词语作为匹配成功的词语。

由以上技术方案可以看出，本发明通过将句子中存在语义映射的词语映射到归一化的表述，并将其融入相似度的计算，从而在语义上体现句子之间的相似度而不仅仅是字面上的相似程度，提高了计算句子之间相似度的准确性。

【附图说明】

图1为本发明实施例一提供的方法流程图；

图2为本发明实施例一提供的一个实例图；

图3为本发明实施例二提供的装置结构图。

【具体实施方式】

为了使本发明的目的、技术方案和优点更加清楚，下面结合附图和具体实施例对本发明进行详细描述。

本发明提供的方法主要包括：将待比较的两个句子分别进行分词；对分词后得到的各词语中存在语义映射的词语映射为归一化的表述；然后计算两句子之间的相似度。

其中，在将两句子中各词语存在语义映射的词语映射为归一化的表述之后，可以采用现有的相似度计算方式计算两句子之间的相似度，例如采用计算两句子之间字面相似程度的相似度计算方式；优选地，还可以分别将两个句子中的各词语进行匹配，利用匹配成功的词语的权值以及句子类型匹配程度计算两句子之间的相似度，其中匹配成功为：词语表述相同或者词语映射到相同的归一化表述。

下面结合实施例一对上述方法进行详细描述。

实施例一、

图1为本发明实施例一提供的方法流程图，如图1所示，该方法可以包括以下步骤：

步骤101：获取待比较的问句S₁和S₂。

本步骤中获取的待比较的问句S₁和S₂决定于相关度计算的具体应用。例如，如果本发明实施例提供的相关度计算用于搜索结果的排序，则上述待比较的问句S₁和S₂可以分别为用户输入的query和搜索结果的标题；如果本发明实施例提供的相关度计算用于问答平台，则上述待比较的问句S₁和S₂可以分别为用户所输入的问句和问答平台的数据库中的已有问题；如果本发明实施例提供的相关度计算用于确定热点事件，则上述待比较的问句S₁和S₂可以分别为新闻页面的标题，等等。

步骤102：分别对问句S₁和S₂进行分词和词性标注。

在进行分词时，可以采用但不限于正向最大匹配法、反向最大匹配法等。最终形成的分词结果中包括最大分词粒度的词语，另外，最大分词粒度的词语如果存在更小分词粒度的词语，则同时会标识出各词语中更小分词粒度的词语。

举个例子：如果S1为：“华中科技大学在湖北武汉哪个地方”进行分词处理后，得到的分词结果可以为：“华中科技大学”、“在”、“湖北”、“武汉”、“哪个地方”。其中，“华中科技大学”中更小分词粒度的划分为：“华中”、“科技”、“大学”，“哪个地方”中更小分词粒度的划分为“哪个”和“地方”。

由于分词和词性标注为已有技术，在此不再赘述。

步骤103：基于倒文档率(IDF)分别对分词后得到的各词语赋予权值。

较优地，在本步骤中可以首先对分词后得到的各词语进行基于停用词的过滤，其中停用词可以包括但不限于：副词、虚词、代词、语气词、助词等表意能力较低的词语。

然后，在大规模语料库中对分词后得到的各词语进行IDF的统计，按照预设的IDF与权值之间的对应关系，为各词语赋予权值。其中IDF＝log(N/df)，其中，N为统计语料中文档的个数，df为词语在大规模语料库中出现的文档个数。IDF值越大表示该词越重要，对应的权值越大。

除了本步骤中基于IDF的方式为分词后得到的各词语赋予权值之外，还可以按照预设的词性与权值之间的对应关系，对各词语赋予权值。例如，对识别出的人名、地名、机构名可以统一赋予一个较高的权值10，对于一般名词、常用语赋予权值8，对于动词、识别出来的数字、以及数字字母组成的非汉字串赋予权值5，对于形容词、时间词赋予更小的权重4等。

步骤104：识别语义冗余的词语，并对语义冗余的词语进行降权处理。

在问句中可能会存在语义冗余的词语，其通常是由于并列出现上位和下位的词语导致的。例如：“海淀中关村在什么地方”，其中“海淀”对于“中关村”而言就是语义冗余的，因为由“中关村”自然能够推导出是属于“海淀”的。再如：“诺基亚N97的价格是多少”，其中“诺基亚”对于“N97”而言是语义冗余的，因为由型号“N97”自然能够推导出是品牌“诺基亚”的。

语义冗余的词语如果权值过高，会影响句子之间的相似度计算，因此，在步骤中可以对识别出的语义冗余的词语进行降权处理。在进行降权时，可以权值降低到预设的权值，也可以将权值降低预设的幅值。

其中，识别语义冗余的词语的方式可以通过预设的语义模板的识别，即将两句子分别与预设的语义模板进行匹配，通过匹配到的语义模板识别出在一个句子中同时出现的上位和下位的词语，将所述上位的词语识别为语义冗余的词语。预先挖掘出同时出现上位和下位的词语的模板，例如：[地名][地名]，[品牌][型号]等模板，当匹配到这些模板时，将第一个模板槽匹配到的词语进行降权处理。

对于权重的调整，除了上述对语义冗余的词语进行降权之外，还可以对偏正结构的词语进行权值调整。由于构成偏正结构的两词语中，作为中心词的词语重要性要高于作为修饰词的词语，但有可能在对词语赋予权值时，修饰词的权值很高，这就会影响句子之间的相似度计算，因此，可以通过降低偏正结构中修饰词的权值，或者提高偏正结构中中心词的权值方式进行调整。

比如：如果问句S1为“大话西游2的player怎么下载”，问句S2为“大话西游2怎么下载”，通常大话西游2的IDF大于player，但是句子S1中“大话西游2”和“player”构成偏正结构，且“大话西游2”是中心词“player”的修饰词，因此可以对“大话西游2”进行降权，或者将“player”进行提权。比如：调整前“大话西游2”的权重是10，“player”的权重是8，调整后“player”的权重调至12。

对于偏正结构的识别可以通过模板的方式实现，基于词性标注将问句与预先挖掘的偏正结构模板进行匹配。例如，偏正结构的模板可以为：[名词1]的[名词2]，其中，名词1为修饰词，名词2为中心词；还可以为：[形容词]的[名词]，其中，形容词为修饰词，名词为中心词。

步骤105：对分词后得到的各词语中存在语义映射的词语映射为归一化的表述。

在很多情况下，同一语义可能存在多种表述方式，为了具有同一语义的多种表述考虑入相似度的计算，可以采用语义映射的方式。即预先将具有同一语义但不同表述的词语组成一个簇，该簇的表示采用归一化的表述。

例如，将“哈尔滨工程大学”、“哈船舶”、“哈船院”、“哈尔滨船舶工程学院”、“哈尔滨船舶学院”、“哈工大”、“哈尔滨工程”、“哈尔滨工程学院”、“哈工程”、“哈军工”、“黑龙江哈尔滨工程大学”组成一个簇，该簇的归一化表述为“哈尔滨工程大学”。

在将具有同一语义但不同表述的词语组成一个簇时，可以利用已有的同义词资源，按照各同义词对的级联关系进行汇聚构成一个簇，并从中选择一个词语(例如选择出现频率最高的词语)作为该簇的归一化表述。

步骤106：识别问句S₁和S₂的问句类型。

问句类型在相似度计算中也承担着较为重要的作用，比如“魔兽世界在哪下载”和“魔兽世界怎么下载”两个句子是两个不同的问句类型，前一个是地点类型、而后一个是描述方法类型，在语义上存在较大差别，因此优选地，在进行相似度计算时将问句类型作为相似度的计算因子。

在本实施例中可以预先将问句类型进行划分，例如分为几个大类：人物、地点、数字、时间、实体、描述方法、描述原因、描述定义等。在大类中可以具体进行小类的划分，例如：数字可以进一步划分为：号码、数量、价格、百分比、距离、重量、温度、年龄、面积、频率、速度、范围、顺序、数字列举等。

可以预先建立各问句类型与疑问词之间的对应关系，本步骤在识别问句类型时，从分词后得到的词语中确定出疑问词，将该疑问词对应的问句类型作为问句的问句类型。例如，对于疑问词“多宽”、“多远”和“多重”分别对应数字类型中的距离、距离和重量类型。

更进一步地，对于有些疑问词而言，单凭疑问词并不能明确的确定出其对应的具体问句类型。例如疑问词“什么”，单凭“什么”并不能明确的确定其对应的具体问句类型，需要结合其上下文出现的词语来确定，而该词语通常是名词，根据该名词和疑问词的组合查询预先设置的特征库，确定对应的问句类型。其中特征库中存储有名词和疑问词的组合所对应的问句类型。

例如“女孩叫什么”，在确定出疑问词“什么”后，确定其上下文出现的名词“女孩”，从而确定出“女孩”和“什么”的组合对应的问句类型为人物类别。再如“山峰叫什么”，在确定出疑问词“什么”后，确定其上下文出现的名词“山峰”，从而确定出“山峰”和“什么”的组合对应的问句类型为“地点”。

如果句子中没有疑问词，则可以认为该句子不是问句。

需要说明的是，上述步骤104、步骤105和步骤106之间没有固定的先后顺序，只要在步骤107之前执行即可。

步骤107：将S₁分词后得到的各词语与S₂分词后得到的各词语分别进行匹配，利用匹配成功的词语的权值以及问句类型匹配程度，计算S₁和S₂之间的相似度Sim(S₁，S₂)。

所谓匹配成功指的是词语表述相同或者词语映射到相同的归一化表述。

在执行步骤107之前，可以首先将句子中最大分词粒度的词语以及该最大分词粒度的词语中进一步划分的更小分词粒度的词语对应到同一个语义映射位。仍以“华中科技大学在湖北武汉哪个地方”为例，“华中科技大学”、“华中”、“科技”、“大学”对应第一个语义映射位，“在”对应第二个语义映射位、“湖北”对应第三个语义映射位、“武汉”对应第四个语义映射位、“哪个地方”、“哪个”以及“地方”对应第五个语义映射位。

在本步骤中可以将S₁中各语义映射位逐一与S₂中各语义映射位分别进行匹配，利用S₁和S₂中匹配成功的语义映射位中的词语的权值、S₁和S₂中各词语的权值以及问句类型匹配程度，计算问句S₁和S₂之间的相似度Sim(S₁，S₂)。

具体地，可以利用公式(1)，计算两问句S₁和S₂之间的相似度Sim(S₁，S₂)。

Sim (S_{1}, S_{2}) = \frac{\underset{w_{1 m_{i}} = w_{2 n_{j}}}{Σ} (Wgt (w_{1 m_{i}}) * Wgt (w_{2 n_{j}}))}{\sqrt{\underset{k = 1 \cdot \cdot \cdot M}{Σ} Wgt {(w_{1 k_{t}})}^{2}} \sqrt{\underset{l = 1 \cdot \cdot \cdot N}{Σ} Wgt {(w_{2 l_{t}})}^{2}}} * SentType (S_{1}, S_{2}) - - - (1)

表示问句S₁中第m个语义映射位中第i个词语与问句S₂中第n个语义映射位中第j个词语匹配成功。为词语的权值，为词语的权值。M为问句S₁中语义映射位的数目，N为问句S₂中语义映射位的数目。

如果问句S₁的第K个语义映射位中存在匹配成功的词语，则为该匹配成功的词语以及该第K个语义映射位中与该匹配成功的词语具有相同分词粒度的其他词语的权值之和；如果问句S₁中的第K个语义映射位中不存在匹配成功的词语，则为该语义映射位对应的最大分词粒度词语的权值。

举个例子，假设第一个语义映射位中包含“华中科技大学”、“华中”、“科技”、“大学”，如果“华中科技大学”与另一个句子中的某个词语匹配成功，则在利用公式(1)计算相似度时，就为“华中科技大学”的权值；如果“华中科技大学”没有匹配成功，而“华中”与另一个句子中的某个词语匹配成功，则在利用公式(1)计算相似度时，就为“华中”的权值、“科技”的权值以及“大学”的权值之和。如果该第一个语义映射位与另一个句子中的任何词语都没有匹配成功，则就为“华中科技大学”的权值。

同样地，问句S₂的第l个语义映射位中存在匹配成功的词语，则为该匹配成功的词语以及该第K个语义映射位中与该匹配成功的词语具有相同分词粒度的其他词语的权值之和；如果问句S₂中的第l个语义映射位中不存在匹配成功的词语，则为该语义映射位对应的最大分词粒度词语的权值。

SentType(S₁，S₂)为两问句S₁和S₂的问句类型匹配程度，例如：如果两个问句属于同一个问句类型，则可以设置SentType(S₁，S₂)为1；如果两个问句属于不同的问句类型，则可以设置SentType(S₁，S₂)为0.8。

在将S₁中各语义映射位逐一与S₂中各语义映射位分别进行匹配的过程中，为了提高匹配效率，可以结合状态转换位来对各语义映射位的匹配状况进行标识。如果某个语义映射位已经存在匹配成功的词语，则采用状态转换位来标识该语义映射位不再参与匹配。

另外，在对语义映射位中的词语具体进行匹配时，如果S₁中某个语义映射位中存在多个词语与S₂中某个语义映射位的词语匹配，则从该多个词语中优选分词粒度最大的词语作为匹配成功的词语。即公式(1)中，如果S₁的第m个语义映射位中存在多个与匹配，则从中优选分词粒度最大的词语作为如果S₂的第n个语义映射位中存在多个与匹配，则从中优选分词粒度最大的词语作为

需要说明的是，上述实施例提供的方法并不限于计算问句之间的相似度，可以适用于任何句子之间的相似度计算。如果不是问句，则上述公式(1)中SentType(S₁，S₂)可以作为句子类型匹配程度，例如：如果两个句子都不是问句，则SentType(S₁，S₂)的值可取1，如果其中一个句子是问句，另一个句子不是问句，则SentType(S₁，S₂)的值可取0.8。

举一个具体的实例：假设S₁为“华中科技大学在湖北武汉哪个地方”，S₂为“华科大在武汉市什么位置”。

分别进行分词处理和词性标注后，S₁得到的分词结果为(词性标注未示出)：“华中科技大学”、“在”、“湖北”、“武汉”、“哪个地方”。其中“华中科技大学”对应的更小分词粒度的词语为“华中”、“科技”、“大学”；“哪个地方”对应的更小分词粒度的词语为“哪个”、“地方”。S₂得到的分词结果为(词性标注未示出)：“华科大”、“在”、“武汉市”、“什么位置”。其中“什么位置”对应的更小分词粒度的词语为“什么”、“位置”。

基于IDF分别对分词后得到的各词语赋予权值。在进行语义冗余词语的识别后，确定S₁中“湖北”为语义冗余的词语，对其进行降权。

然后将存在语义映射的词语映射为归一化的表述后，确定S₁中“华中科技大学”映射为“华中科技大学”，“武汉”映射为“武汉”，“哪个地方”映射为“哪里”。S₂中“华科大”映射为“华中科技大学”，“武汉市”映射为“武汉”，“什么位置”映射为“哪里”。

由于疑问词“哪个”与其上下文出现的名词“地方”对应的问句类型为“地点”，疑问词“什么”与其上下文出现的名词“位置”对应的问句类型为“地点”，因此识别出问句S₁和S₂属于相同的问句类型。

上述过程的结果如图2所示。

在S₁中，“华中科技大学”、“华中”、“科技”、“大学”对应第一个语义映射位，“湖北”对应第二个语义映射位，“武汉”对应第三个语义映射位，“哪个地方”、“哪个”、“地方”对应第四个语义映射位。

在S₂中，“华科大”对应第一个语义映射位，“武汉市”对应第二个语义映射位，“什么位置”、“什么”、“位置”对应第三个语义映射位。其中“在”是停用词被过滤掉了。

由于“华中科技大学”和“华科大”映射到相同的归一化表述，因此“华中科技大学”和“华科大”为匹配成功的词语。“武汉”和“武汉市”映射为相同的归一化表述，因此“武汉”和“武汉市”也是匹配成功的词语。“哪个地方”和“什么位置”映射为相同的归一化表述，因此“哪个地方”和“什么位置”也是匹配成功的词语。

以上是对本发明所提供的方法进行的详细描述，下面结合实施例二对本发明所提供的装置进行详细描述。

实施例二、

图3为本发明实施例二提供的装置结构图，如图3所示，该装置可以包括：句子获取单元300、分词赋权单元310、语义映射单元320和相似度计算单元330。

句子获取单元300获取待比较的句子S₁和S₂。

获取的待比较的问句S₁和S₂决定于相关度计算的具体应用。例如，如果本发明实施例提供的相关度计算用于搜索结果的排序，则上述待比较的问句S₁和S₂可以分别为用户输入的query和搜索结果的标题；如果本发明实施例提供的相关度计算用于问答平台，则上述待比较的问句S₁和S₂可以分别为用户所输入的问句和问答平台的数据库中的已有问题；如果本发明实施例提供的相关度计算用于确定热点事件，则上述待比较的问句S₁和S₂可以分别为新闻页面的标题，等等。

分词赋权单元310分别对S₁和S₂进行分词。

语义映射单元320对分词后得到的各词语中存在语义映射的词语映射为归一化的表述。

相似度计算单元330计算经语义映射单元320处理后的S₁和S₂之间的相似度Sim(S₁，S₂)。

其中，相似度计算单元330可以采用现有的相似度计算方式计算两句子之间的相似度，除此之外，还可以采用一种优选的相似度计算方式，即相似度计算单元330将S₁分词后得到的各词语与S₂分词后得到的各词语分别进行匹配，利用匹配成功的词语的权值以及句子类型匹配程度，计算S₁和S₂之间的相似度Sim(S₁，S₂)；其中匹配成功为：词语表述相同或者词语映射到相同的归一化表述。这种情况下，分词赋权单元310还用于对分词后得到的各词语赋予权值。

其中，上述分词赋权单元310可以具体包括：分词标注子单元311、过滤子单元312和赋权子单元313。

分词标注子单元311对S₁和S₂进行分词和词性标注。

过滤子单元312对分词后得到的各词语进行基于停用词表的过滤后发送给赋权子单元313。

赋权子单元313将接收到的词语赋予权值。

具体地，赋权子单元313对接收到的词语进行IDF的统计，按照预设的IDF与权值之间的对应关系，分别对接收到的词语赋予权值；或者，按照预设的词性与权值之间的对应关系，分别对接收到的词语赋予权值。

由于在问句中可能会存在语义冗余的词语，其通常是由于并列出现上位和下位的词语导致的，语义冗余的词语如果权值过高，会影响句子之间的相似度计算，因此该装置还可以包括：冗余处理单元340，用于识别分词处理后得到的词语中语义冗余的词语，并对语义冗余的词语进行降权处理。

具体地，冗余处理单元340可以将S₁分词后得到的各词语和S₂分词后得到的各词语分别与预设的语义模板进行匹配，通过匹配到的语义模板识别出在一个句子中同时出现的上位和下位的词语，将上位的词语识别为语义冗余的词语。

对于权重的调整，除了上述对语义冗余的词语进行降权之外，还可以对偏正结构的词语进行权值调整。由于构成偏正结构的两词语中，作为中心词的词语重要性要高于作为修饰词的词语，但有可能在对词语赋予权值时，修饰词的权值很高，这就会影响句子之间的相似度计算，因此，可以通过降低偏正结构中修饰词的权值，或者提高偏正结构中中心词的权值方式进行调整。因此，该装置还可以包括：结构处理单元(图3中未示出)，用于在分词处理后得到的词语中，对构成偏正结构的词语中的中心词进行提权处理，或者，对构成偏正结构的词语中的修饰词进行降权处理。

为了实现语义映射单元320的语义映射操作，该装置还可以包括：映射挖掘单元350，用于预先将具有相同语义但不同表述的词语组成一个簇，并从该簇中选择一个词语作为该簇的归一化表述，该簇中所有的词语都语义映射到归一化表述。

句子类型匹配程度可以体现S₁和S₂是否都是问句，如果S₁和S₂为问句，则该装置还可以包括：类型识别单元360，用于在S₁和S₂为问句时，识别S₁和S₂的问句类型；此时句子类型匹配程度体现S₁和S₂是否属于同一问句类型。

具体地，类型识别单元360可以识别问句中的疑问词，按照预设的疑问词与问句类型之间的对应关系，确定问句的问句类型。例如，对于疑问词“多宽”、“多远”和“多重”分别对应数字类型中的距离、距离和重量类型。

对于有些疑问词而言，单凭疑问词并不能明确地确定出其对应的具体问句类型，需要结合其上下文出现的名词来确定。因此，类型识别单元360还可以识别问句中的疑问词以及该疑问词上下文出现的名词，根据预设的名词和疑问词的组合与问句类型之间的对应关系，确定问句的问句类型。

相似度计算单元330可以具体包括：映射位对应子单元331、匹配处理子单元332和相似度计算子单元333。

映射位对应子单元331将S₁和S₂中最大分词粒度的词语以及该最大分词粒度的词语进一步划分的更小分词粒度的词语对应到同一个语义映射位。

匹配处理子单元332将S₁中各语义映射位逐一与S₂中各语义映射位分别进行匹配。

相似度计算子单元333按照公式

Sim (S_{1}, S_{2}) = \frac{\underset{w_{1 m_{i}} = w_{2 n_{j}}}{Σ} (Wgt (w_{1 m_{i}}) * Wgt (w_{2 n_{j}}))}{\sqrt{\underset{k = 1 \cdot \cdot \cdot M}{Σ} Wgt {(w_{1 k_{t}})}^{2}} \sqrt{\underset{l = 1 \cdot \cdot \cdot N}{Σ} Wgt {(w_{2 l_{t}})}^{2}}} * SentType (S_{1}, S_{2})

计算S₁和S₂之间的相似度Sim(S₁，S₂)。

其中，表示S₁中第m个语义映射位中第i个词语与S₂中第n个语义映射位中第j个词语匹配成功；为词语的权值，为词语的权值，M为S₁中语义映射位的数目，N为S₂中语义映射位的数目；SentType(S₁，S₂)表示S₁和S₂的问句类型匹配程度。

如果S₁的第K个语义映射位中存在匹配成功的词语，则为该匹配成功的词语以及该第K个语义映射位中与该匹配成功的词语具有相同分词粒度的其他词语的权值之和；如果S₁中的第K个语义映射位中不存在匹配成功的词语，则为该语义映射位对应的最大分词粒度词语的权值。

如果S₂的第l个语义映射位中存在匹配成功的词语，则为该匹配成功的词语以及该第K个语义映射位中与该匹配成功的词语具有相同分词粒度的其他词语的权值之和；如果S₂中的第l个语义映射位中不存在匹配成功的词语，则为该语义映射位对应的最大分词粒度词语的权值。

优选地，如果一个句子中的一个语义映射位中存在多个词语与另一个句子的一个语义映射位的词语匹配，则匹配处理子单元从多个词语中选择分词粒度最大的词语作为匹配成功的词语。

本发明实施例提供的上述相似度计算方法和装置可以用于但不限于以下应用：

1)在对针对用户query的搜索结果进行排序时，可以将各搜索结果的标题与用户query分别进行上述实施例所述的相似度计算，根据相似度计算结果从高到低对搜索结果进行排序。

2)当用户在问答平台输入问句后，将所输入问句与问答平台数据库中的已有问题进行上述实施例所述的相似度计算，如果存在相似度超过预设相似度阈值的问题，则直接将数据库中该问题所对应的回答返回给用户。

3)将新闻页面的标题进行上述实施例所述的相似度计算，根据相似度计算结果对各新闻页面进行聚类，从而确定热点事件。

4)将搜索日志中的query之间进行上述实施例所述的相似度计算，根据相似度计算结果对各query进行聚类，从而确定热点事件。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明保护的范围之内。

Claims

1.一种基于语义的相似度计算方法，其特征在于，该方法包括：

A、获取待比较的句子S₁和S₂；

B、分别对所述S₁和S₂进行分词，对分词后得到的各词语赋予权值；

D、将所述S₁分词后得到的各词语与所述S₂分词后得到的各词语分别进行匹配，利用匹配成功的词语的权值以及句子类型匹配程度，计算所述S₁和S₂之间的相似度Sim(S₁,S₂)；其中所述匹配成功为：词语表述相同或者词语映射到相同的归一化表述。

2.根据权利要求1所述的方法，其特征在于，所述步骤B具体包括：

B1、分别对所述S₁和S₂进行分词和词性标注；

B2、对分词后得到的各词语进行基于停用词表的过滤；

B3、对分词后得到的各词语赋予权值。

3.根据权利要求1或2所述的方法，其特征在于，所述对分词后得到的各词语赋予权值包括：

4.根据权利要求1所述的方法，其特征在于，在所述步骤B之后且在所述步骤D之前还包括：

5.根据权利要求4所述的方法，其特征在于，所述识别语义冗余的词语具体包括：将所述S₁分词后得到的各词语和所述S₂分词后得到的各词语分别与预设的语义模板进行匹配，通过匹配到的语义模板识别出在一个句子中同时出现的上位和下位的词语，将所述上位的词语识别为语义冗余的词语。

6.根据权利要求1所述的方法，其特征在于，该方法还包括：

7.根据权利要求1所述的方法，其特征在于，如果所述S₁和S₂均为问句，则在所述步骤D之前还包括：识别所述S₁和S₂的问句类型；

8.根据权利要求7所述的方法，其特征在于，识别问句的问句类型的方式具体包括：

9.根据权利要求1所述的方法，其特征在于，所述步骤D具体包括：

D3、按照公式

Sim (S_{1}, S_{2}) = \frac{\underset{w_{{1 m}_{i}} = w_{2 n_{j}}}{Σ} (Wgt (w_{{1 m}_{i}}) * Wgt (w_{{2 n}_{j}}))}{\sqrt{\underset{k = 1 . . . M}{Σ} {Wgt (w_{{1 k}_{t}})}^{2}} \sqrt{\underset{l = 1 . . . N}{Σ} Wgt {(w_{{2 l}_{t}})}^{2}}} * SentType (S_{1}, S_{2})

计算所述S₁和S₂之间的相似度Sim(S₁,S₂)；

其中，表示所述S₁中第m个语义映射位中第i个词语与所述S₂中第n个语义映射位中第j个词语匹配成功；为词语的权值，为词语的权值，M为所述S₁中语义映射位的数目，N为所述S₂中语义映射位的数目；SentType(S₁,S₂)表示所述S₁和S₂的问句类型匹配程度；

10.根据权利要求9所述的方法，其特征在于，如果一个句子中的一个语义映射位中存在多个词语与另一个句子的一个语义映射位的词语匹配，则从所述多个词语中选择分词粒度最大的词语作为匹配成功的词语。

11.一种基于语义的相似度计算装置，其特征在于，该装置包括：

句子获取单元，用于获取待比较的句子S₁和S₂；

分词赋权单元，用于分别对所述S₁和S₂进行分词，对分词后得到的各词语赋予权值；

相似度计算单元，用于将所述S₁分词后得到的各词语与所述S₂分词后得到的各词语分别进行匹配，利用匹配成功的词语的权值以及句子类型匹配程度，计算所述S₁和S₂之间的相似度Sim(S₁,S₂)；其中所述匹配成功为：词语表述相同或者词语映射到相同的归一化表述。

12.根据权利要求11所述的装置，其特征在于，所述分词赋权单元具体包括：分词标注子单元、过滤子单元和赋权子单元；

所述赋权子单元，用于将接收到的词语赋予权值。

13.根据权利要求12所述的装置，其特征在于，所述赋权子单元对接收到的词语进行倒文档率的统计，按照预设的倒文档率与权值之间的对应关系，分别对接收到的词语赋予权值；或者，按照预设的词性与权值之间的对应关系，分别对接收到的词语赋予权值。

14.根据权利要求11所述的装置，其特征在于，该装置还包括：冗余处理单元或者结构处理单元；

15.根据权利要求14所述的装置，其特征在于，所述冗余处理单元将所述S₁分词后得到的各词语和所述S₂分词后得到的各词语分别与预设的语义模板进行匹配，通过匹配到的语义模板识别出在一个句子中同时出现的上位和下位的词语，将所述上位的词语识别为语义冗余的词语。

16.根据权利要求11所述的装置，其特征在于，该装置还包括：映射挖掘单元，用于预先将具有相同语义但不同表述的词语组成一个簇，并从该簇中选择一个词语作为该簇的归一化表述，该簇中所有的词语都语义映射到所述归一化表述。

17.根据权利要求11所述的装置，其特征在于，该装置还包括：类型识别单元，用于在所述S₁和S₂为问句时，识别所述S₁和S₂的问句类型；

18.根据权利要求17所述的装置，其特征在于，所述类型识别单元识别问句中的疑问词，按照预设的疑问词与问句类型之间的对应关系，确定问句的问句类型；或者，识别问句中的疑问词以及该疑问词上下文出现的名词，根据预设的名词和疑问词的组合与问句类型之间的对应关系，确定问句的问句类型。

19.根据权利要求11所述的装置，其特征在于，所述相似度计算单元具体包括：

相似度计算子单元，用于按照公式

Sim (S_{1}, S_{2}) = \frac{\underset{w_{{1 m}_{i}} = w_{2 n_{j}}}{Σ} (Wgt (w_{{1 m}_{i}}) * Wgt (w_{{2 n}_{j}}))}{\sqrt{\underset{k = 1 . . . M}{Σ} {Wgt (w_{{1 k}_{t}})}^{2}} \sqrt{\underset{l = 1 . . . N}{Σ} Wgt {(w_{{2 l}_{t}})}^{2}}} * SentType (S_{1}, S_{2})

计算所述S₁和S₂之间的相似度Sim(S₁,S₂)；

20.根据权利要求19所述的装置，其特征在于，如果一个句子中的一个语义映射位中存在多个词语与另一个句子的一个语义映射位的词语匹配，则所述匹配处理子单元从所述多个词语中选择分词粒度最大的词语作为匹配成功的词语。