CN104182386A

CN104182386A - 词对关系相似度的计算方法

Info

Publication number: CN104182386A
Application number: CN201310202669.4A
Authority: CN
Inventors: 吕钊; 洪俊
Original assignee: East China Normal University
Current assignee: East China Normal University
Priority date: 2013-05-27
Filing date: 2013-05-27
Publication date: 2014-12-03

Abstract

本发明提供一种词对关系相似度的计算方法，其特征在于，包括：a.生成第一词对以及第二词对的特征向量集，其中，所述第一词对以及所述第二词对分别包括两个英文单词，并通过以下步骤生成特征向量集；b.根据所述第一词对以及所述第二词对的特征向量集和空间余弦相似度定理计算所述第一词对的关系以及所述第二词对的关系的相似度。

Description

词对关系相似度的计算方法

技术领域

本发明涉及自然语言处理领域，具体地说是英文词对间关系相似度的计算。

背景技术

关系相似度度量研究是自然语言处理中的基础性工作，并逐渐成为研究热点，对自然语言处理具有极其重要的意义，并被广泛应用到自然语言处理的许多领域，如信息检索、信息抽取、关系挖掘和人工智能等。

相似度计算大致分为两类：属性相似度计算和关系相似度计算。对于属性相似度计算，其目标是通过比较两个词的属性来计算给定两个词的相似度。例如，单词“狮子”和“猫”拥有很多公有属性，如肉食动物，有锋利的牙齿，用四条腿行走。因此，它们被视为属性相似。另一方面，关系相似度表示给定两个词对所存在语义关系的一致性。例如，词对{狮子：猫}与{鸵鸟：鸟}就具有很高的关系相似度，因为狮子是一只很大的猫同时鸵鸟是一只很大的鸟。在这个例子中，这两个词对共享语义关系“是一只很大的”。针对属性相似度计算的研究开展较早，相关技术已经非常成熟，而针对关系相似度计算的研究相对较少，相关算法存在可移植性差、特征稀疏、时间空间复杂度大等不足，并且计算效果还有待提高。

发明内容

本发明提供一种词对关系相似度的计算方法，其特征在于，包括：a.生成第一词对以及第二词对的特征向量集，其中，所述第一词对以及所述第二词对分别包括两个英文单词，并通过以下步骤生成特征矩阵：a1.在网页中抽取所有包括一词对的文本的集合形成一语料库，其中，所述文本为包括所述第一单词以及所述第二单词的网页快照，所述词对为包括第一单词以及第二单词，所述第一单词以及所述第二单词为英文单词；a2.通过所述第一单词以及所述第二单词的不同形态的单词对所述词对进行扩展为扩展词对集合，结合所述扩展词对集合以及预设连接词集合形成短语模式集合，根据所述语料库以及所述短语模式集合的检索和匹配构建所述词对的特征矩阵；b.利用多任务学习LASSO对所述第一词对以及所述第二词对的特征矩阵进行数据处理以压缩并生成特征向量集，所述特征向量集包括所述第一词对的特征向量以及所述第二词对的特征向量；c.根据所述特征向量集和空间余弦相似度定理计算所述第一词对的关系以及所述第二词对的关系的相似度。

优选地，所述通过所述第一单词以及所述第二单词的不同形态的单词对所述词对进行扩展为扩展词对集合包括：将所述第一单词以及所述第一单词的所有不同形态的单词作为第一扩展单词，形成第一扩展单词集合；将所述第二单词以及所述第二单词的所有不同形态的单词作为第二扩展单词，形成第二扩展单词集合；一第一扩展单词以及一第二扩展单词构成扩展词对，其中，扩展词对集合包括所有由所述第一扩展单词以及所述第二扩展单词组成的不同的扩展词对。

优选地，所述结合所述扩展词对集合以及预设连接词集合形成短语模式集合包括：对应连接词集合中的每一个连接词，结合一个扩展词对组成以下两个短语模式：所述第一扩展单词空格所述连接词空格所述第二扩展单词；以及所述第二扩展单词空格所述连接词空格所述第一扩展单词，其中，所述短语模式集合包括所有由所述扩展词对以及所述连接词组成的不同的短语模式。

优选地，所述特征矩阵的行数为所述连接词集合中连接词的个数，所述特征矩阵的列数为所述文本集合中文本的个数，所述特征矩阵每一项的值为与每一个连接词相关的两个短语模式在每一个文本中出现的频次。

优选地，所述连接词集合中的一个或多个连接词还包括与所述连接词空格连接的任意一个词。

优选地，利用多任务学习LASSO对所述特征矩阵进行压缩并生成特征向量集包括：利用LARS算法，根据所述特征矩阵以及目标向量集生成特征向量集，其中，所述目标向量集中的目标向量为所述文本稀疏表示的线性叠加。

优选地，根据如下公式计算所述第一词对的关系与所述第二词对的关系的相似度：

RelSim ({A : B}, {C : D}) = \frac{r_{AB} \cdot r_{CD}}{| r_{AB} | \cdot | r_{CD} |},

其中，{A:B}为所述第一词对，{C:D}为所述第二词对，RelSim({A:B},{C:D})为所述第一词对的关系以及所述第二词对的关系的相似度，r_AB为所述第一词对的特征向量，r_CD为所述第二词对的特征向量。

本发明结合统计以及多任务学习的数据处理，提供一种基于Multi-TaskLasso的英文词对间关系相似度计算方法。通过高效抓取网络文本，并根据模式抽取方法抽取可以表达词对间语义关系的语义特征并同时构建特征矩阵。利用多任务学习在特征学习的优势及Lasso在高维数据特征选择的特性，对特征矩阵进行合理的降维、去噪，生成特征向量。采用余弦相似度计算方法，实现量化词对间关系相似度。本发明充分利用了互联网中海量的、动态更新的信息，并采用最有效的文本抓取方式，同时通过多任务学习对构建的特征矩阵进行降维去噪，较好地解决了以往算法时空开销大的问题，在大大降低计算时间的同时，增强了关系相似度计算的效果。

附图说明

图1示出了本发明提供的词对关系相似度的计算方法的流程图；以及

图2示出了本发明提供的根据短语模式生成特征矩阵的流程图。

具体实施方式

为了进一步说明本发明的原理和结构，现结合附图对本发明的优选实施例进行详细说明。

图1示出了本发明提供的词对关系相似度的计算方法的流程图。具体地，本图示出了九个步骤。

首先是步骤S101，通过网络抓取包括第一词对{A：B}的文本集合。其中，A、B为两个不同的英文单词。

具体地，本发明通过抓取与词对相关的网页来实现语料库的构建。考虑到当前网页结构复杂度大、信息内容呈现多元化扩张等问题，单纯采用传统的网页抓取方式不仅耗时，而且会带来更多的噪音干扰。优选地，本发明采用Google Web API获取网页快照的方式来采集信息。网页快照是搜索引擎提供的有效信息之一，它由搜索引擎通过复杂的高级算法获取，通过简短窗口式文本表述网页上下文的核心内容。

例如，给定词对{restrained:limit}，得到804个网页快照，用于下一步特征矩阵的构建。以下示出部分网页快照的内容摘要。

Restrain implies restriction or limitation,as on one's freedom of action:"awise and frugal government,which shall restrain men from injuring oneanother"...

Synonyms for restrain at Thesaurus.com with free online thesaurus,...jail,keep,keep down,keep in line,kill*,limit,lock up,manacle,muzzle,pinion,prevent,...

a:to prevent from doing,exhibiting,or expressing something<restrained the child from jumping>.b:to limit,restrict,or keep under control<try to restrain your...

步骤S102，抽取第一词对{A：B}的语义特征。

具体地，也就是构建第一词对{A：B}的短语模式集，该短语模式由扩展形态后的扩展词对集以及预设的连接词结合构成。具体地，如图2所示步骤构建第一词对{A：B}的短语模式集，在此不予赘述。

步骤S103，构建第一词对{A：B}的特征矩阵。

具体地，根据第一词对{A：B}的短语模式集以及文本集合构建第一词对{A：B}的特征矩阵。

步骤S104，通过网络抓取包括第二词对{C：D}的文本集合。其中，C、D为两个不同的英文单词。

步骤S105，抽取第二词对{C:D}的语义特征。

步骤S106，构建第二词对{C:D}的特征矩阵。步骤S107，对第一词对{A:B}以及第二词对{C:D}的特征矩阵进行去噪降维获得特征向量集。

具体地，为解决特征矩阵的稀疏及噪声干扰问题，本发明利用多任务学习在特征学习的优势及Lasso在高维矩阵压缩的特性来实现对特征矩阵的降维去噪。

优选地，特征向量生成过程中采用了MALSAR，它是一套包含有很多主流多任务学习方法的MATLAB库，其中就有关于解决Lasso问题的多任务学习算法Multi-Task Lasso。此算法在多任务学习的基础上，有效的结合了能良好解决Lasso问题的LARS算法，用于解决多任务学习中的Lasso问题。其中，输入是特征矩阵

及目标向量集

其中，目标向量为对应词对网页快照稀疏表示的线性叠加，即

y_{i} = Σ_{j = 1}^{n_{i}} v_{j}

输出为特征向量集

其中，k（例如，k=6）个特征向量也就是最终能表示词对类比问题中k个词对语义关系的特征向量。

其中，下标k表示词对的个数，对应到流程图中k=2。但是该方法支持多个词对的输入。对于每个词对构建特征矩阵A_i的过程都是一样的，但是需要将所有词对的特征矩阵组合在一起，形成大的特征矩阵集合A，用于降维去噪，最终生成特征向量集X。

其中，A₁代表第一词对的特征矩阵，A₂代表第二词对的特征矩阵，...，A_k代表第k个词对的特征矩阵。

其中，x₁代表第一词对的特征向量，x₂代表第二词对的特征向量，...，x_k代表第k个词对的特征向量。

步骤S108，根据获得的第一词对{A:B}与第二词对{C:D}的特征向量集通过空间余弦定理计算第一词对{A:B}的关系与第二词对{C:D}的关系的相似度。

具体地，向量空间余弦相似度使用不同个体的特征向量在方向上的差异来评价其相似度的大小。其方向差异越小，证明两个个体相似度越大。此方法满足本发明所要解决的相似度计算问题，所以使用向量空间余弦相似度来计算词对间关系相似度的大小。

设词对{A:B}、{C:D}生成的特征向量分别为r_AB及r_CD。则词对{A:B}与{C:D}间的关系相似度为：

RelSim ({A : B}, {C : D}) = \frac{r_{AB} \cdot r_{CD}}{| r_{AB} | \cdot | r_{CD} |}

其中，{A:B}为所述第一词对，{C:D}为所述第二词对，RelSim({A:B},{C:D})为所述第一词对的关系以及所述第二词对的关系的相似度，r_AB为所述第一词对的特征向量，r_CD为所述第二词对的特征向量。上式结果越大，则词对{A:B}与词对{C:D}之间的关系相似度越高。反之则越低。

图2示出了本发明提供的根据短语模式生成特征矩阵的流程图。具体地，图2示出了五个步骤。

首先是步骤S201，对词对{A:B}中的词A进行形态扩展。将词A以及词A的所有不同形态的单词作为第一扩展单词，形成第一扩展单词集合。

步骤S202，对词对{A:B}中的词B进行形态扩展。将词B以及词B的所有不同形态的单词作为第二扩展单词，形成第二扩展单词集合。

步骤S203，根据第一扩展单词集合以及第二扩展单词集合形成扩展词对集合，其中，一第一扩展单词以及一第二扩展单词构成扩展词对，其中，扩展词对集合包括所有由第一扩展单词以及第二扩展单词组成的不同的扩展词对。

具体地，对于以上三个步骤，给定第一词对{A:B}，优选地通过英文字典获取其全部形态。例如，词对{restrained:limit}，单词restrained的全部形态有：restrain、restrains、restraining、restrained、restraint、restrainer（共6个）。单词limit的全部形态包括：limit、limits、limiting、limited、limiter、limitless、limitation（共7个）。共可组成42个扩展词对，详见下表。词对{restrained:limit}的全部形态的扩展词对集合

步骤S204，根据扩展词对集合以及预定的连接词集合形成短语模式集合。

具体地，对应连接词集合中每一个连接词，结合一个扩展词对组成两个短语模式：第一扩展单词空格连接词空格第二扩展单词；以及第二扩展单词空格连接词空格第一扩展单词，其中，所述短语模式集合包括所有由所述扩展词对以及所述连接词组成的不同的短语模式。

优选地，预设的连接词集合包括64个连接词，连接词集合中的一个或多个连接词还包括与连接词空格连接的任意一个词。预设的连接词集合如下表所示。

64个连接词

1“”	17“get”	33“like the”	49“then”
				2“*not”	18“give”	34“make”	50“this”
3“*very”	19“go”	35“need”	51“to”
				4“after”	20“goes”	36“not”	52“to the”
5“and not”	21“has”	37“not the”	53“turn*”
				6“are”	22“have”	38“of”	54“use”
7“at”	23“in”	39“of the”	55“when”
				8“at the”	24“in the”	40“on”	56“which”
9“become*”	25“instead of”	41“in to”	57“will”
				10“but not”	26“into”	42“or”	58“with”
11“contain”	27“is”	43“rather than”	59“with the”
				12“for”	28“is*”	44“such as”	60“within”

13“for example”	29“is the”	45“than”	61“without”
				14“for the”	30“lack*”	46“that”	62“yet”
15“from”	31“like”	47“the”	63“’s”
				16“from the”	32“like*”	48“their”	64“’s*”

在一个具体实施例中，词对{restrained:limit}的42个扩展词对上表中的64个连接词进行对称组合以生成短语模式。具体将词对中的两个词放在连接词两边以空格隔开，再调换词对中两词的位置，一共可以生成42×64×2个短语模式。如词对{restraining:limitation}与连接词“turn*”可组成短语模式“restraining turn*limitation”和“limitation turn*restraining”。其中，“*”表示任意一个单词。

步骤S205，根据生成的短语模式集合以及抓取的文本集合构建特征矩阵。具体地，特征矩阵的行数为连接词集合中连接词的个数，特征矩阵的列数为文本集合中文本的个数，特征矩阵每一项的值为与每一个连接词相关的两个短语模式在每一个文本中出现的频次。

在一个实施例中，也就是将组合好的所有短语模式放入词对{restrained:limit}对应的全部804个网页快照中进行匹配。如果匹配成功，则该短语模式中包含的连接词即为可表达词对语义关系的语义模式。

然后，构建可表示词对语义关系的特征矩阵A。此矩阵中行表示64个连接词，列表示该词对的每个网页快照。矩阵A的第m行n列的值A[m,n]表示词对第n个网页快照中第m个连接词出现的频次。

以上所述仅为本发明的较佳可行实施例，并非限制本发明的保护范围，凡运用本发明说明书及附图内容所作出的等效结构变化，均包含在本发明的保护范围内。

Claims

1.一种词对关系相似度的计算方法，其特征在于，包括：

a.生成第一词对以及第二词对的特征向量集，其中，所述第一词对以及所述第二词对分别包括两个英文单词，并通过以下步骤生成特征矩阵：

a1.在网页中抽取所有包括一词对的文本的集合形成一语料库，其中，所述文本为包括所述第一单词以及所述第二单词的网页快照，所述词对为包括第一单词以及第二单词，所述第一单词以及所述第二单词为英文单词；

a2.通过所述第一单词以及所述第二单词的不同形态的单词对所述词对进行扩展为扩展词对集合，结合所述扩展词对集合以及预设连接词集合形成短语模式集合，根据所述语料库以及所述短语模式集合的检索和匹配构建所述词对的特征矩阵，

b.利用多任务学习LASSO对所述第一词对以及所述第二词对的特征矩阵进行数据处理以压缩并生成特征向量集，所述特征向量集包括所述第一词对的特征向量以及所述第二词对的特征向量；

c.根据所述特征向量集和空间余弦相似度定理计算所述第一词对的关系以及所述第二词对的关系的相似度。

2.根据权利要求1所述的计算方法，其特征在于，所述通过所述第一单词以及所述第二单词的不同形态的单词对所述词对进行扩展为扩展词对集合包括：

将所述第一单词以及所述第一单词的所有不同形态的单词作为第一扩展单词，形成第一扩展单词集合；

将所述第二单词以及所述第二单词的所有不同形态的单词作为第二扩展单词，形成第二扩展单词集合；

一第一扩展单词以及一第二扩展单词构成扩展词对，其中，扩展词对集合包括所有由所述第一扩展单词以及所述第二扩展单词组成的不同的扩展词对。

3.根据权利要求2所述的计算方法，其特征在于，所述结合所述扩展词对集合以及预设连接词集合形成短语模式集合包括：

对应连接词集合中的每一个连接词，结合一个扩展词对组成以下两个短语模式：

所述第一扩展单词空格所述连接词空格所述第二扩展单词；以及

所述第二扩展单词空格所述连接词空格所述第一扩展单词，

其中，所述短语模式集合包括所有由所述扩展词对以及所述连接词组成的不同的短语模式。

4.根据权利要求3所述的计算方法，其特征在于，所述特征矩阵的行数为所述连接词集合中连接词的个数，所述特征矩阵的列数为所述文本集合中文本的个数，所述特征矩阵每一项的值为与每一个连接词相关的两个短语模式在每一个文本中出现的频次。

5.根据权利要求1所述的计算方法，其特征在于，所述连接词集合中的一个或多个连接词还包括与所述连接词空格连接的任意一个词。

6.根据权利要求4所述的计算方法，其特征在于，利用多任务学习LASSO对所述特征矩阵进行压缩并生成特征向量集包括：

利用LARS算法，根据所述特征矩阵以及目标向量集生成特征向量集，其中，所述目标向量集中的目标向量为所述文本稀疏表示的线性叠加。

7.根据权利要求6所述的计算方法，其特征在于，根据如下公式计算所述第一词对的关系与所述第二词对的关系的相似度：

RelSim ({A : B}, {C : D}) = \frac{r_{AB} \cdot r_{CD}}{| r_{AB} | \cdot | r_{CD} |},