CN102436442A

CN102436442A - 一种基于上下文语境的词的语义相关性度量方法

Info

Publication number: CN102436442A
Application number: CN2011103431227A
Authority: CN
Inventors: 张晓宇
Original assignee: INSTITUTE OF SCIENCE AND TECHNOLOGY INFORMATION OF CHINA
Current assignee: INSTITUTE OF SCIENCE AND TECHNOLOGY INFORMATION OF CHINA
Priority date: 2011-11-03
Filing date: 2011-11-03
Publication date: 2012-05-02

Abstract

本发明涉及自然语言处理、文本语义分析技术领域，具体是一种基于上下文语境度量的词的语义相关性的方法。该方法旨在克服现有的语义相关性度量方法无法反映词在特定上下文语境中的含义的缺点。为此，本发明的方法包括：基于统计方法度量词自身的语义相关性；度量词在上下文语境中的语义相关性；以及将词自身的语义相关性和词在上下文语境中的语义相关性进行融合，从而获得基于上下文语境的词的语义相关性度量值。由于将词自身的语义相关性和词在上下文语境中的语义相关性进行了有效融合，本发明的方法能够更准确、更全面地度量词在特定上下文语境中的语义相关性。

Description

一种基于上下文语境的词的语义相关性度量方法

技术领域

本发明涉及自然语言处理、文本语义分析技术领域，具体是一种基于上下文语境度量的词的语义相关性的方法。

背景技术

随着信息技术的发展，人类已经步入一个高度信息化的时代，各种纷繁芜杂的信息不断涌现，充斥着人类生活的方方面面。信息的急速膨胀一方面开阔了人们的视野、丰富了人们的生活、促进了文明进步，另一方面也使人们迷失在信息的汪洋大海中，难以高效地获取自己真正想要的数据。为了使人们能够有效地利用各种信息，需要一套行之有效的信息组织、整理和检索技术，而词的语义相关性度量是上述技术的核心所在。

目前，在度量词的语义相关性方面的研究主要分为两大类，即基于词典的方法和基于统计的方法。

基于词典的方法主要借助结构化的词典来计算词与词之间的语义相关性。结构化的词典可以来自于预先定义好的语义结构集合。例如，WordNet是计算词与词之间的语义相关性时广泛采用的一种结构化词典，它是由Princeton大学的心理学家、语言学家和计算机工程师联合设计的一种基于认知语言学的英语词典，它不仅将词以字母顺序排列，而且按照词的语义组成一个“词的网络”。在WordNet中，名词、动词、形容词和副词各自被组织成一个同义词网络，每个同义词集合都代表一个基本的语义概念，并且这些集合之间也通过各种关系连接。针对一些特定领域的词，也可以利用机器学习的方法，通过训练集中的已标注信息来获取结构化词典(例如在文献标引和检索中常用的词表)。

基于词典的方法虽然可以方便地获取词与词之间的语义相关性，但是构建一个结构合理的词典是相当费时费力的过程，并且需要丰富的专业知识和大量的标注数据，因而基于词典的方法使用代价过高。此外，词的数量是极其庞大并且不断增长的，而词典的规模则是有限的，因而基于词典的方法必然无法度量任意两个词的语义相关性，这在很大程度上影响了该方法的可靠性。

基于统计的方法是数据驱动(data-driven)的，其主要思想是从词与词的共生关系(即两个词出现在同一文档)中挖掘词的语义相关性。一般而言，具有较高共生频率的两个词具有较强的语义相关性，所以词与词的共生关系可以有效地反映两者之间的语义相关性。目前，归一化谷歌距离(NormalizedGoogle Distance，简称NGD)是利用共生关系度量词的语义相关性的一种常用方法，它借助Google搜索引擎获取两个词在网络文档中各自出现和同时出现的相关信息，并由此计算词的语义相关性。用p(w₁)表示词w₁出现的概率，p(w₂)表示词w₂出现的概率，p(w₁|w₂)表示在词w₂出现的条件下词w₁也出现的概率，p(w₂|w₁)表示在词w₁出现的条件下词w₂也出现的概率，因而词w₁与词w₂之间的NGD的最原始表示形式为：

NGD₀(w₁，w₂)＝max{1/p(w₁|w₂)，1/p(w₂|w₁)} (1)

对公式(1)进行取对数操作，并进行归一化之后，NGD可以表示为：

NGD (w_{1}, w_{2}) = \frac{\max {\log 1 / p (w_{1} / w_{2}), \log 1 / p (w_{2} | w_{1})}}{\max {\log 1 / p (w_{1}), \log 1 / p (w_{2})}} - - - (2)

假设被Google索引的所有网页数为M，则在此基础上可以将词w₁出现的次数n(w₁)、词w₂出现的次数n(w₂)、词w₁与w₂同时出现的次数n(w₁，w₂)表示为：

n(w₁)＝Mp(w₁)

n(w₂)＝Mp(w₂) (3)

n(w₁，w₂)＝Mp(w₁，w₂)

从而，

p(w₁|w₂)＝n(w₁，w₂)/n(w₂)

(4)

p(w₂|w₁)＝n(w₁，w₂)/n(w₁)

最终，公式(2)所示的NGD可以重写为：

NGD (w_{1}, w_{2}) = \frac{\max {\log n (w_{1}), \log n (w_{2})} - \log n (w_{1}, w_{2})}{\log M - \min {\log n (w_{1}), \log n (w_{2})}} - - - (5)

在计算NGD时，n(w₁)是将w₁作为查询词时Google搜索引擎所返回的结果数，而n(w₁，w₂)则是同时将w₁与w₂作为查询词所返回的结果数。

与基于词典的方法相比，基于统计的方法并不依赖于任何现有词库，因而无需预先构建词典，大大降低了工作量。同时，基于统计的方法适用于度量任意两个词之间的语义相关性，因而对不断出现的新兴词汇具有普遍的适用性和良好的可扩展性。

然而，在度量词的语义相关性时，上述方法仅仅考虑了词自身的语义，事实上，特定的上下文语境也是一个非常有价值的信息，对于界定判别多义词的语义、推断词在特定语境中的引申义等能够起到关键性的作用。例如，当我们考虑两个词“jaguar(美洲豹)”与“cheetah(猎豹)”之间的相互关系时，如果是在“animal(动物)”的上下文语境中，则两者的语义相关性很强；但如果是在“automobile(汽车)”的上下文语境中，“jaguar”表示的是一种汽车品牌，则它与“cheetah”的语义相关性将大大减弱。由此可见，有效利用特定的上下文语境对于准确、全面地度量词的语义相关性具有至关重要的作用。

发明内容

本发明旨在解决上述现有技术中存在的问题，为此，本发明从词自身的语义出发，综合分析特定的上下文语境，从而准确、全面地度量词与词之间的语义相关性。

具体而言，在度量词自身的语义相关性时，本发明对基于统计的方法NGD进行了改进，用几何平均值函数代替了最大值函数，一方面同时考虑了p(w₁|w₂)和p(w₂|w₁)两种条件概率，另一方面也使最终的度量表达式大大简化，提高了运行效率。在度量词在特定上下文语境中的语义相关性时，本发明分别度量两个词与特定上下文中的每个关键词的语义相关性，并将度量结果组织成“上下文直方图”或“上下文向量”，从而将词在特定上下文语境中的语义相关性度量这一抽象问题转变成为直方图距离或向量距离度量的问题。

更具体地说，根据本发明的一个方面，提供一种基于上下文语境度量词的语义相关性的方法，该方法包括基于统计方法度量词自身的语义相关性，该方法的特征在于还包括如下步骤：度量词在上下文语境中的语义相关性；以及将词自身的语义相关性和词在上下文语境中的语义相关性进行融合，从而获得基于上下文语境的词的语义相关性度量值。

在优选实施方式中，度量词在上下文语境中的语义相关性进一步包括如下步骤：从上下文中提取关键词，并用提取出的关键词构成的关键词集来表示该上下文语境；以及分别计算待度量的两个词与关键词集中的每个关键词之间的语义相关性。

在更优选的实施方式中，度量词在上下文语境中的语义相关性还包括如下步骤：将计算出的待度量词与关键词之间的语义相关性组织成上下文直方图或上下文向量；以及通过度量上下文直方图的距离或上下文向量的距离，获取词在上下文语境中的语义相关性度量值。

在更优选的实施方式中，基于统计方法度量词自身的语义相关性进一步包括如下步骤：用几何平均值函数代替最大值函数来获取词自身的语义相关性的度量表达式；以及将待度量的两个词作为查询词分别以及共同输入网络搜索引擎，获得返回的相应结果数，并且将返回的相应结果数输入所述度量表达式，从而计算出词自身的语义相关性。

在进一步优选的实施方式中，根据下列公式来度量词自身的语义相关性：

{Sim}_{word} (w_{1}, w_{2}) = \frac{1}{2} \log \frac{n^{2} (w_{1}, w_{2})}{n (w_{1}) n (w_{2})}

其中，w₁、w₂分别是待度量的两个词；n(w₁)、n(w₂)分别是将词w₁和词w₂作为查询词输入网络搜索引擎而获得的返回结果数；n(w₁，w₂)是将词w₁和词w₂同时作为查询词输入网络搜索引擎而获得的返回结果数；而Sim_word(w₁，w₂)是词自身的语义相关性。

在进一步优选的实施方式中，所述上下文直方图的距离是下述距离中的至少一种：欧氏距离、交集距离、二次方距离、EMD距离；并且/或者所述上下文向量的距离是下述距离中的至少一种：欧氏距离、绝对距离、明氏距离、马氏距离。

在进一步优选的实施方式中，根据下列公式来融合词自身的语义相关性和词在上下文语境中的语义相关性：

Sim(w₁，w₂)＝αSim_word(w₁，w₂)+βSim_context(w₁，w₂)

其中，w₁、w₂分别是待度量的两个词；Sim_word(w₁，w₂)是词自身的语义相关性，Sim_context(w₁，w₂)是词在上下文语境中的语义相关性；α、β是可调参数，用于调节两种语义相关性的权重；而Sim(w₁，w₂)是融合之后的词的语义相关性。

根据本发明的另一个方面，提供一种基于上下文语境度量词的语义相关性的方法，该方法的特征在于包括如下步骤：用几何平均值函数代替最大值函数来获取词自身的语义相关性的度量表达式；将待度量的两个词作为查询词分别以及共同输入网络搜索引擎，获得返回的相应结果数，并且将返回的相应结果数输入所述度量表达式，从而计算出词自身的语义相关性；度量词在上下文语境中的语义相关性；以及将词自身的语义相关性和词在上下文语境中的语义相关性进行融合，从而获得基于上下文语境的词的语义相关性度量值。

本发明的方法综合考虑了词自身的语义相关性和词在特定上下文语境中的语义相关性，因而可以更加准确而全面地反映词与词之间的语义相关性。

附图说明

通过结合附图来理解本发明的优选实施方式，本发明上述以及其他特征和优点将变得更清楚，附图中：

图1是根据本发明的基于上下文语境的词的语义相关性度量方法的流程图。

图2是根据本发明确定的词在特定上下文语境中的语义相关性图表的一个示例。

具体实施方式

下面对本发明的优选实施方式的描述本质上仅仅是示例性的，并非旨在限制本发明、其应用或用途。应当指出的是，尽管该优选实施方式披露了本发明的各种具体参数和细节，但是本领域技术人员容易理解的是，本发明的保护范围不限于这些参数和细节，在不偏离本发明的基本原理的情况下，本领域技术人员能够对这些参数和细节做出修改或等同替换，修改或替换后的实施方案也将落入本发明的保护范围之内。

如上所述，词的语义不仅取决于词自身的语义，而且还受到特定上下文语境的影响，因此，在度量词与词之间的语义相关性时，有必要同时考虑词自身的语义相关性以及词在特定上下文语境中的语义相关性。根据本发明，分别计算词自身的语义相关性和词在特定上下文语境中的语义相关性，在此基础上将两者进行融合，最终获得基于上下文语境的词的语义相关性。

如图1所示，根据本发明的基于上下文语境度量的词的语义相关性的方法包括如下步骤：(1)基于统计方法度量词自身的语义相关性；(2)度量词在上下文语境中的语义相关性；以及(3)将词自身的语义相关性和词在上下文语境中的语义相关性进行融合，从而获得基于上下文语境的词的语义相关性度量值。下面结合附图来详细描述各个步骤的具体示例性操作。

在度量词自身的语义相关性方面，本发明对基于统计的方法NGD进行了改进，从NGD的原始表示形式出发，在公式(1)中用几何平均值函数(xy)^1/2代替最大值函数max{x，y}：

{NGD}_{0} (w_{1}, w_{2}) = 1 / \sqrt{p (w_{1} | w_{2}) \cdot p (w_{2} | w_{1})} - - - (6)

这样，一方面在表达式中同时考虑了两种概率，另一方面也可以使后续推导所得的度量表达式形式更为简单。

由于词的语义相关性与距离成反比，因此，对公式(6)取倒数，从而得到：

{Sim}_{word} (w_{1}, w_{2}) = \sqrt{p (w_{1} | w_{2}) \cdot p (w_{2} | w_{1})} - - - (7)

对公式(6)进行取对数操作，并结合公式(3)、(4)，可得到词自身的语义相关性的度量值：

{Sim}_{word} (w_{1}, w_{2}) = \frac{1}{2} \log \frac{n^{2} (w_{1}, w_{2})}{n (w_{1}) n (w_{2})} - - - (8)

将词w₁和词w₂分别作为查询词提交到网络搜索引擎-例如但不限于Google搜索引擎，获得所返回的结果数n(w₁)和n(w₂)；将词w₁和词w₂同时作为查询词提交到Google搜索引擎，获得所返回的结果数n(w₁，w₂)。依据公式(8)，可计算出词w₁和词w₂自身的语义相关性Sim_word(w₁，w₂)，其值越大，表示词w₁和词w₂自身的语义相关性越强。

就度量一个词w在特定上下文语境中的语义相关性而言，特定上下文语境本质上就是一些词的集合，这些词限定或丰富了词w的语义，对于准确而全面地理解词w的语义具有重要作用。

本发明从特定上下文中提取关键词，并用这些关键词的集合Context＝{k₁，k₂，...，k_n}来表示该上下文语境。本领域技术人员容易理解的是，也可以用上下文中所有词的集合来表示上下文语境，但这样会导致上下文语境过于庞大，同时一些无关词、次要词的引入也会影响上下文语义相关性的度量。对于词w₁，计算它与每一个关键词k_i∈Context的自身语义相关性Sim_word(w₁，k_i)；对于词w₂，同样计算它与每一个关键词k_i∈Context的自身语义相关性Sim_word(w₂，k_i)。计算结果的集合{Sim_word(w₁，k_i)}和{Sim_word(w₂，k_i)}(1≤i≤n)可按照上下文直方图或上下文向量两种方式进行组织。

关于上下文直方图，如图2所示，将集合{Sim_word(w₁，k_i)}和{Sim_word(w₂，k_i)}(1≤i≤n)分别组织成直方图：Histogram₁和Histogram₂。Histogram₁中第i个柱形的高度对应于Sim_word(w₁，k_i)的数值，同理，Histogram₂中第i个柱形的高度对应于Sim_word(w₂，k_i)的数值。这样，便将词在特定上下文语境中的语义相关性度量问题转变成为直方图Histogram₁和Histogram₂的距离Dist_histogram(Histogram₁，Histogram₂)的度量问题，具体可采用的方法包括但不局限于：欧氏距离、交集距离、二次方距离、EMD距离等。

如上所述，也可以将集合{Sim_word(w₁，k_i)}和{Sim_word(w₂，k_i)}(1≤i≤n)分别组织成向量：

Vector₁＝(Sim_word(w₁，k₁)，Sim_word(w₁，k₂)，...，Sim_word(w₁，k_n))

(9)

Vector₂＝(Sim_word(w₂，k₁)，Sim_word(w₂，k₂)，...，Sim_word(w₂，k_n))

这样，便将词在特定上下文语境中的语义相关性的度量问题转变成为向量Vector₁和Vector₂的距离Dist_vector(Vector₁，Vector₂)的度量问题，具体可采用的方法包括但不局限于：欧氏距离、绝对距离、明氏距离、马氏距离等。

由于语义相关性与距离成反比，因此，对计算所得的距离取负对数，从而得到词在特定上下文语境中的语义相关性的度量：

Sim_context(w₁，w₂)＝-log(Dist_histogram(Histogram₁，Histogram₂))(10)

或

Sim_context(w₁，w₂)＝-log(Dist_vector(Vector₁，Vector₂))(11)

其中，Sim_context(w₁，w₂)的值越大，表示词w₁和词w₂在特定上下文语境中的语义相关性越强。

接下来，在获得词自身的语义相关性和词在特定上下文语境中的语义相关性的基础上，本发明对两者进行融合，最终获得基于上下文语境的词的语义相关性度量。例如，可按照下列公式对两种相关性进行融合：

Sim(w₁，w₂)＝αSim_word(w₁，w₂)+(1-α)Sim_context(w₁，w₂)(12)

其中，α(0≤α≤1)是可调参数，用于调节两种语义相关性的权重。在度量词的语义相关性时，如果较为关注词自身固有的语义，则选择较大的α值(特别地，当α＝1时，则完全等价于词自身的语义相关性，而忽略上下文语境的影响)；如果较为关注词在上下文语境中的特定语义，则选择较小的α值(特别地，当α＝0时，则完全等价于词在特定上下文语境中的语义相关性，而忽略词自身的语义)，尤其适用于生僻词、新生词等自身语义并不非常明确的词的语义相关性度量。

此外，也可以采用非线性融合的方式对词自身的语义相关性和词在特定上下文语境中的语义相关性进行融合，具体的模型和相应的参数可以基于经验给定或者通过训练获得。

尽管已参照优选实施方式描述了本发明的技术方案，但是本领域技术人员容易理解的是，本发明的保护范围并不局限于这些具体实施方式，在不偏离本发明的基本原理的情况下，可以对所述实施方式以及其中的具体技术特征进行拆分、组合或改变，拆分、组合或改变后的技术方案仍将落入本发明的保护范围之内。

Claims

1.一种基于上下文语境度量词的语义相关性的方法，包括基于统计方法度量词自身的语义相关性，该方法的特征在于还包括如下步骤：

度量词在上下文语境中的语义相关性；以及

将词自身的语义相关性和词在上下文语境中的语义相关性进行融合，从而获得基于上下文语境的词的语义相关性度量值。

2.根据权利要求1所述的方法，其特征在于，度量词在上下文语境中的语义相关性进一步包括如下步骤：

从上下文中提取关键词，并用提取出的关键词构成的关键词集来表示该上下文语境；以及

分别计算待度量的两个词与关键词集中的每个关键词之间的语义相关性。

3.根据权利要求2所述的方法，其特征在于，度量词在上下文语境中的语义相关性还包括如下步骤：

将计算出的待度量词与关键词之间的语义相关性组织成上下文直方图或上下文向量；以及

通过度量上下文直方图的距离或上下文向量的距离，获取词在上下文语境中的语义相关性度量值。

4.根据权利要求3所述的方法，其特征在于，基于统计方法度量词自身的语义相关性进一步包括如下步骤：

用几何平均值函数代替最大值函数来获取词自身的语义相关性的度量表达式；以及

将待度量的两个词作为查询词分别以及共同输入网络搜索引擎，获得返回的相应结果数，并且将返回的相应结果数输入所述度量表达式，从而计算出词自身的语义相关性。

5.根据权利要求4所述的方法，其特征在于，根据下列公式来度量词自身的语义相关性：

{Sim}_{word} (w_{1}, w_{2}) = \frac{1}{2} \log \frac{n^{2} (w_{1}, w_{2})}{n (w_{1}) n (w_{2})}

6.根据权利要求3至5中任一项所述的方法，其特征在于，所述上下文直方图的距离是下述距离中的至少一种：欧氏距离、交集距离、二次方距离、EMD距离；并且/或者所述上下文向量的距离是下述距离中的至少一种：欧氏距离、绝对距离、明氏距离、马氏距离。

7.根据权利要求1至5中任一项所述的方法，其特征在于，根据下列公式来融合词自身的语义相关性和词在上下文语境中的语义相关性：

Sim(w₁，w₂)＝αSim_word(w₁，w₂)+(1-α)Sim_context(w₁，w₂)

其中，w₁、w₂分别是待度量的两个词；Sim_word(w₁，w₂)是词自身的语义相关性，Sim_context(w₁，w₂)是词在上下文语境中的语义相关性；α是调节两种语义相关性的权重的可调参数且0≤α≤1；而Sim(w₁，w₂)是融合之后的词的语义相关性。

8.一种基于上下文语境度量词的语义相关性的方法，其特征在于包括如下步骤：

用几何平均值函数代替最大值函数来获取词自身的语义相关性的度量表达式；

将待度量的两个词作为查询词分别以及共同输入网络搜索引擎，获得返回的相应结果数，并且将返回的相应结果数输入所述度量表达式，从而计算出词自身的语义相关性；

度量词在上下文语境中的语义相关性；以及

9.根据权利要求8所述的方法，其特征在于，度量词在上下文语境中的语义相关性进一步包括如下步骤：

10.根据权利要求8或9所述的方法，其特征在于，根据下列公式来融合词自身的语义相关性和词在上下文语境中的语义相关性：

Sim(w₁，w₂)＝αSim_word(w₁，w₂)+(1-α)Sim_context(w₁，w₂)