CN104008092A

CN104008092A - 一种基于语义空间映射的语义关系表征、聚类及识别的方法和系统

Info

Publication number: CN104008092A
Application number: CN201410255166.8A
Authority: CN
Inventors: 王晓平; 肖仰华; 汪卫
Original assignee: Fudan University
Current assignee: Fudan University
Priority date: 2014-06-10
Filing date: 2014-06-10
Publication date: 2014-08-27
Anticipated expiration: 2034-06-10
Also published as: CN104008092B

Abstract

本发明属于文本语义处理技术领域，具体为一种基于语义空间映射的语义关系表征、聚类及识别的方法和系统。本发明对于待抽取关系的实体对：首先对包含二者的语句进行语法依存分析；然后将分析结果视作Graph，并计算Graph中对应这两个实体的结点间最短路径，来抽取出实体间关系；继而将路径上的词语向语义空间投影并进行累积，获得该关系在语义空间上的向量表示；对于多组实体对的场景，使用聚类方法对关系进行聚类并构建关系模型；依据表征输入实体对间关系的语义向量与关系模型之间的语义相似度实现关系的识别。本发明克服了传统方法在进行实体间关系比较时对词语变形、同义词变化、语法形式变化等因素敏感的缺点，提高了关系比较准确性和处理的灵活性。

Description

一种基于语义空间映射的语义关系表征、聚类及识别的方法和系统

技术领域

本发明属于文本语义信息处理技术领域，具体涉及一种基于语义空间映射的语义关系表征、聚类及识别的方法和系统。

背景技术

随着计算机的普及与网络技术的发展，各种海量的数据以电子文本的形式呈现出来，如何从中抽取出用户所关心的语义信息至关重要，除了实体抽取，用户往往会更加关心实体间的语义关系究竟是什么，因为语义关系才真正反映了数据互联的本质，将纷繁的实体世界有机地结合在一起，它在诸多领域都具有重要的应用价值：如在信息检索系统中，实体关系抽取技术使实现类似于“Which city is the capital of China”这样的语义检索功能成为可能；在自动应答系统中，实体关系抽取技术能够自动关联问题和相关的答案；在本体学习过程中，实体关系抽取技术能够发现新的实体间关系并用来进一步丰富本体结构；在语义网标注任务中，关系抽取能够自动关联语义网知识单元，等等。

然而，目前的实体关系抽取技术主要是基于种子模式迭代搜索的方法或者是基于自然语言处理的方法，它们最终抽取出的是一种确定性的关系描述，而这种确定性描述在词语变形、同义词变化、语法形式变化等情况下的鲁棒性不强，导致在此基础上的关系间语义比较的准确性不高，从而给后续的应用需求如关系聚类或识别带来了困难。

发明内容

本发明针对当前实体间语义关系抽取技术背景的不足，提出了一种基于语义空间映射的语义关系表征、聚类及识别的方法和系统。

本发明提出的基于语义空间映射的语义关系表征、聚类及识别的方法，具体步骤为：

1、输入实体对及语句，即输入待查询的实体对，及同时包含该对实体的语句；

2、抽取实体间关系，对于待抽取关系的实体对，对同时包含它们的语句进行语法依存关系分析；包括语法依存关系分析和最短路径计算；其中：

语法依存关系分析是对输入的语句进行语法依存分析，获得文本单元间的语法依赖关系。

最短路径计算是将语法依存树看作是一个Graph，并将输入实体对看作是Graph中的两个感兴趣结点，同时令各结点间的边的权值均为1；采用最短路径算法求解出该两个感兴趣结点间的最短路径，并用该路径来描述两个结点之间发生关系的实质内容；

3、关系语义向量表征，即对路径上的词语进行过滤处理，去除其中无语义的停用词；然后对每一个单词，获取其在语义空间中的投影向量，并将这些语义向量进行累加，获得该关系在语义空间上的向量表示；

4、关系聚类，

在关系向量化的基础上，对于多实体对的场景，使用聚类方法并结合向量相似性度量，进行关系聚类；

5、关系模型构建模块，对于完成聚类的实体对的每一类关系，根据其向量集合构建关系模型，

6、最后，进行关系识别，即依据该向量与预先标定关系的语义距离实现关系的识别。

具体是，对于待查询实体对，在按步骤（1）-（3）所述获得其关系向量表征后，将该向量与关系模型库中的关系模型依次进行比较，例如：对均值向量模型、高斯模型，可直接比较向量间相似度或者是计算输入向量属于模型的概率值，遍历后取最高值对应的类别作为输出；对人工神经网络、支持向量机，则是直接输出对应的类别。

根据上述输出的类别，从关系模型库中取出预先标注的相应类的关系标签赋给输入实体对，从而完成了关系的识别过程。

本发明提供的基于上述方法的系统，由六大模块组成：实体对及语句输入模块、实体间关系抽取模块、关系语义向量表征模块、关系聚类模块、关系模型构建模块、关系识别模块，其中，实体间关系抽取模块又包括两个子模块：语法依存关系分析子模块和最短路径计算子模块。

其具体内容如下：

（1）实体对及语句输入模块，用于输入待查询的实体对，及同时包含该对实体的语句；所述语句既可以是单句，也可以是从语句资源库中筛选出的满足条件的多句。

（2）实体间关系抽取模块，具体包括以下两个子模块：

语法依存关系分析子模块和最短路径计算子模块：

（2.1）语法依存关系分析子模块，用于对输入的语句进行语法依存分析，获得文本单元间的语法依赖关系。这里，凡是具备语法依存分析功能的工具均可使用，优选地，可使用美国斯坦福大学的Stanford Parser （http://nlp.stanford.edu/software/index.shtml）；

（2.2）最短路径计算子模块，具体内容如下：

（2.2.1）将语法依存树看作是一个Graph，并将输入实体对看作是Graph中的两个感兴趣结点，同时令各结点间的边的权值均为1；

（2.2.2）采用最短路径算法求解出该两个感兴趣结点间的最短路径，并用该路径来描述两个结点之间发生关系的实质内容；这里，最短路径求解算法有多种，如Dijkstra算法、A*算法、Floyd算法、Bellman-Ford算法、SPFA（Shortest Path Faster Algorithm）算法、Johnson算法等，优选地，采用Dijkstra算法。

（3）关系语义向量表征模块，具体内容如下：

（3.1）对路径上的词语进行过滤处理，去除其中无语义的停用词；

（3.2）对每一个单词，获取其在语义空间中的投影向量，并将这些语义向量进行累加。语义向量可通过多种方法计算获得，如Word2Vec方法、ESA（Explicit semantic analysis）方法、LSA（Latent semantic analysis）方法、共现词频率特征等等，优选地，采用Word2Vec方法（https://code.google.com/p/word2vec/，同时参见文献[1,2,3]）；

[1] Tomas Mikolov, et al. Efficient Estimation of Word Representations in Vector Space. In Proceedings of Workshop at ICLR, 2013.

[2] Tomas Mikolov, et al. Distributed Representations of Words and Phrases and their Compositionality. In Proceedings of NIPS, 2013.

[3] Tomas Mikolov, et al. Linguistic Regularities in Continuous Space Word Representations. In Proceedings of NAACL HLT, 2013.

构建语义向量的训练数据可来源于各大知识库，优选地，采用维基百科知识库（http://www.wikipedia.org/）。

（4）关系聚类模块，具体内容如下：

关系聚类是在关系抽取基础上的进一步语义挖掘；

（4.1）对于一批实体对，按前述方法分别计算得到各自的关系向量；

（4.2）在此基础上，进一步地对它们进行关系聚类。聚类方法有多种，如Kmeans方法、层次聚类方法等，优选地，采用Kmeans方法。相似性度量可采用多种度量，如Cosine、Cityblock、Euclidean、Mahalanobis、Minkowski、Chebychev等，优选地，采用Cosine相似度。

（5）关系模型构建模块，具体内容如下：

对于完成聚类的实体对的每一类关系，根据其向量集合构建关系模型，模型的构建可使用多种方法，如均值向量模型、高斯模型、人工神经网络、支持向量机等，优选地，使用均值向量模型；同时，人工为每一类关系标定出其对应的关系标签；

其中，m _i,j表示第i类中第j个向量，n _i为该类中的样本个数，为均值向量；

在模型构建完成后，将其添加进关系模型库。

（6）关系识别模块，具体内容如下：

（6.1）对于待查询实体对，在按模块（1）-（3）所述获得其关系向量表征后，将该向量与关系模型库中的关系模型依次进行比较，例如：对均值向量模型、高斯模型，可直接比较向量间相似度或者是计算输入向量属于模型的概率值，遍历后取最高值对应的类别作为输出；对人工神经网络、支持向量机，则是直接输出对应的类别。

以均值向量模型为例，输出的类别class为：

V为待识别关系的语义向量，为对应i类关系的均值向量,i∈｛1，2，…，N｝，N为关系模型库中的模型数目，Sim(a，b)表示向量a和向量b的相似度，这里的相似性度量可采用多种度量，如Cosine、Cityblock、Euclidean、Mahalanobis、Minkowski、Chebychev等，优选地，采用Cosine相似度；

（6.2）根据上述模块输出的类别，从关系模型库中取出预先标注的相应类的关系标签赋给输入实体对，从而完成了关系的识别过程。

本发明的有益效果

本发明通过将语义关系映射为向量，克服了传统方法在进行实体间关系比较时对词语变形、同义词变化、语法形式变化等因素敏感的缺点，不但便于进一步的关系聚类，而且易于实现关系的识别，在提高关系比较准确性的同时，也增强了处理的灵活性。

附图说明

图1：系统模块图。

具体实施方式

以下用实例来演示本发明的具体实施方式，系统各模块依次进行处理如下：

（1）实体对及语句输入

输入例句：

"Beijing is the capital of China."。

（2）实体间关系抽取

（2.1）语法依存关系分析

使用Standford Parser对例句进行语法依存关系分析，得到如下结果：

nsubj(capital-4, Beijing-1)

cop(capital-4, is-2)

det(capital-4, the-3)

root(ROOT-0, capital-4)

prep_of(capital-4, China-6)

（2.2）最短路径计算

将上述结果看作是Graph，被分析单元看作是Graph中的结点，然后采用Dijkstra算法计算两个感兴趣结点“Beijing”和 “China”间的最短路径，得到如下结果：

Shortest Path: [Beijing, capital, China]

也即，用“capital”可描述“Beijing”和“China”之间所发生的最本质的语义关系。

（3）关系语义向量表征

基于整个英文维基库的文本语料，使用Word2Vec进行训练，训练输出的向量维度为500维。对于最短路径上的词语，分别从训练结果中取出对应的语义向量，然后再进行向量累加，从而得到该关系的语义向量表征。

（4）关系聚类

以FreeBase库（http://www.freebase.com/）作为关系比较的基准，从中选择10类关系，并为每种关系选出若干实体对，共计56对。

Germany/ Berlin

France/ Paris

Canada/ Ottawa

Russia/ Moscow

Italy/ Rome

England/ London

Netherlands/ Amsterdam

Spain/ Madrid

Austria/ Vienna

2." person/nationality":

Barack Obama/ United States of America

Bill Clinton/ United States of America

Margaret Thatcher/ United Kingdom

Jacques Chirac/ France

Nicolas Sarkozy/ France

Tony Blair/ United Kingdom

3." director/film":

Martin Scorsese/ Goodfellas

Quentin Tarantino/ Reservoir Dogs

Luc Besson/ Nikita

George Lucas/ Star Wars

Francis Ford Coppola/ The Godfather

4." olympic_host_city/olympics_hosted":

London/ 2012 Summer Olympics

Los Angeles/ 1984 Summer Olympics

Lillehammer/ 1994 Winter Olympics

Albertville/ 1992 Winter Olympics

Turin/ 2006 Winter Olympics

5." book_character/appears_in_book":

Shylock/ The Merchant of Venice

Heathcliff/ Wuthering Heights

Hester Prynne/ The Scarlet Letter

Alexandre Manette/ A Tale of Two Cities

6." Company/brand ":

Apple/ Macintosh

The Coca-Cola Company/ Coca-Cola

Nestlé/ Nescafé

Colgate-Palmolive/ Colgate

Kraft Foods/ Tang

PepsiCo/ Mountain Dew

Kimberly-Clark/ Kleenex

DuPont/ Teflon

7." river/mouth":

Yellow River/ Bohai Sea

Yangtze River/ East China Sea

Mississippi River/ Gulf of Mexico

Nile/ Mediterranean Sea

Volga River/ Caspian Sea

Danube/ Black Sea

8." award/presented_by":

Grammy Awards/ National Academy of Recording Arts and Sciences

Golden Globe Awards/ Hollywood Foreign Press Association

Academy Award/ Academy of Motion Picture Arts and Sciences

9." military_person/participated_in_conflicts":

Erwin Rommel/ World War II

10." orbital_relationship/orbits":

Moon/ Earth

Earth/ Sun

Mars/ Sun

Charon/ Pluto

Venus/ Sun

Saturn/ Sun

Jupiter/ Sun

Uranus/ Sun

Deimos/ Mars 。

从英文维基库语料中检索包含以上实体对的语句，最终为不同实体对搜索到的语句数目分别从2句到2980句不等，共计13349句。

对每一对实体对的语句集合，对其中每句分别进行语法依存关系分析、最短路径计算、关系语义向量表征后，计算其均值向量作为表征该实体对间关系的语义向量；

当遍历了所有实体对后，再对得到实体对关系表征的语义向量集合进行Kmeans聚类，聚类数目设定为10，经聚类实验后有51对实体的关系被正确聚类，聚类正确率为：51/56 = 91.1% 。

（5）关系模型构建

对每一类关系，选择半数的实体对用于关系的建模，模型标签则来自于FreeBase的关系定义，建模使用均值向量模型。

（6）关系识别

将关系建模剩下的另一半实体对用于关系识别的测试实验,相似性度量使用Cosine相似度。经实验，用于关系识别实验的28对实体对全部被贴上了正确的关系标签，识别正确率为：28/28 = 100% 。

Claims

1.一种基于语义空间映射的语义关系表征、聚类及识别的方法，其特征在于具体步骤如下：

（1）输入实体对及语句，即输入待查询的实体对，及同时包含该对实体的语句；

（2）抽取实体间关系，即对于待抽取关系的实体对，对同时包含它们的语句进行语法依存关系分析；包括语法依存关系分析和最短路径计算；其中：

语法依存关系分析是对输入的语句进行语法依存分析，获得文本单元间的语法依赖关系；

（3）关系语义向量表征，即对路径上的词语进行过滤处理，去除其中无语义的停用词；然后对每一个单词，获取其在语义空间中的投影向量，并将这些语义向量进行累加，获得该关系在语义空间上的向量表示；

（4）关系聚类，

（5）关系模型构建模块，对于完成聚类的实体对的每一类关系，根据其向量集合构建关系模型，

（6）最后，进行关系识别，即依据该向量与预先标定关系的语义距离实现关系的识别。

2.根据权利要求1所述的基于语义空间映射的语义关系表征、聚类及识别的方法，其特征在于所述依据该向量与预先标定关系的语义距离实现关系的识别，是对于待查询实体对，在按步骤（1）-（3）所述获得其关系向量表征后，将该向量与关系模型库中的关系模型依次进行比较；对均值向量模型、高斯模型，直接比较向量间相似度或者是计算输入向量属于模型的概率值，遍历后取最高值对应的类别作为输出；对人工神经网络、支持向量机，则是直接输出对应的类别；

3.基于权利要求2所述方法的基于语义空间映射的语义关系表征、聚类及识别的系统，其特征在于由下述六大模块组成：实体对及语句输入模块、实体间关系抽取模块、关系语义向量表征模块、关系聚类模块、关系模型构建模块、关系识别模块，其中：

（1）实体对及语句输入模块，用于输入待查询的实体对，及同时包含该对实体的语句；所述语句是单句，或者是从语句资源库中筛选出的满足条件的多句；

（2）实体间关系抽取模块，具体包括以下两个子模块：

语法依存关系分析子模块和最短路径计算子模块：

（2.1）语法依存关系分析子模块，用于对输入的语句进行语法依存分析，获得文本单元间的语法依赖关系；

（2.2）最短路径计算子模块：

（2.2.2）采用最短路径算法求解出该两个感兴趣结点间的最短路径，并用该路径来描述两个结点之间发生关系的实质内容；

（3）关系语义向量表征模块，具体内容如下：

（3.2）对每一个单词，获取其在语义空间中的投影向量，并将这些语义向量进行累加；

（4）关系聚类模块，具体内容如下：

（4.1）对于一批实体对，按上述方法分别计算得到各自的关系向量；

（4.2）在此基础上，对它们进行关系聚类；

（5）关系模型构建模块，具体内容如下：

对于完成聚类的实体对的每一类关系，根据其向量集合构建关系模型；同时，人工为每一类关系标定出其对应的关系标签，

在模型构建完成后，将其添加进关系模型库；

（6）关系识别模块，具体内容如下：

（6.1）对于待查询实体对，在按模块（1）-（3）所述获得其关系向量表征后，将该向量与关系模型库中的关系模型依次进行比较，其中，对均值向量模型、高斯模型，直接比较向量间相似度或者是计算输入向量属于模型的概率值，遍历后取最高值对应的类别作为输出；对人工神经网络、支持向量机，直接输出对应的类别；

4.根据权利要求3所述的基于语义空间映射的语义关系表征、聚类及识别的系统，其特征在于对于均值向量模型，输出的类别为：

其中，V为待识别关系的语义向量，为对应i类关系的均值向量,i∈｛1，2，…，N｝，N为关系模型库中的模型数目，Sim(a，b)表示向量a和向量b的相似度。