CN101777042B

CN101777042B - 信息检索领域中基于神经网络和标签库的语句相似度算法

Info

Publication number: CN101777042B
Application number: CN 201010028143
Authority: CN
Inventors: 邢玲; 张琦; 彭保; 马建国; 王娟娟
Original assignee: Southwest University of Science and Technology
Current assignee: Chengdu Ankeyun Network Technology Co ltd
Priority date: 2010-01-21
Filing date: 2010-01-21
Publication date: 2013-01-16
Anticipated expiration: 2030-01-21
Also published as: CN101777042A

Abstract

本发明公开了一种信息检索领域中基于神经网络和标签库的语句相似度算法，其特征在于，包括以下步骤：(1)载入分别带有神经网络的语义词典和同义词词林；(2)输入完整的待分析语句；(3)利用依存文法分析器分析出语句的整体句法结构，然后对语句进行分层，并获取语句的有效成分序列；(4)根据分层及其有效成分序列，确定语句在exUCL标签库中对应的标题字段；(5)判断语句是否有相似词对，若有则计算语句的相似度，反之，则重新输入新的待分析语句，再次进行相似度计算。本发明结合了基于依存的语句相似度算法和编辑距离算法的优点，使计算精度大大提高。

Description

信息检索领域中基于神经网络和标签库的语句相似度算法

技术领域

本发明涉及一种语句相似度算法，具体地说，是涉及一种信息检索领域中基于神经网络和标签库的语句相似度算法。

背景技术

近年来，由于网络新应用的不断出现，特别是互联网概念的提出及深化，网络流量与行为发生了极大的变化，动摇了互联网的传统理论基础，即流量模型从基于泊松分布转变为具有自相似的特性。对网络流量的分布、流量特性、传输的效率、用户与网络行为等方面缺乏准确的理解和精确的描述，严重影响了对网络资源的有效利用与网络自身的发展，从而使得网络的可控性和可管理性越来越差，网络提供的服务质量与用户的需求和期望存在着尖锐的矛盾。如何从大规模的数据中最大限度地挖掘出互联网用户的兴趣、行为模式，如何对这些数据进行以用户为中心的分类是非常迫切需要解决的问题。

数据挖掘的最终意义就在于帮助人们对信息进行理解，数据的分类、聚类、关联规则的发现等等都是为信息的理解服务。大规模的网络数据意味着数据是多维的、异构的、复杂的，如何对这些数据进行有效的理解成了一个巨大的挑战。对于网络数据来说，除了常规的一些数据挖掘方法外，如何利用网络分层来理解信息非常值得研究。

神经网络是模拟人类的形象直觉思维，在生物神经网络研究的基础上，根据生物神经和神经网络的特点，通过简化、归纳，提炼总结出来的一类并行处理网络，利用其非线性映射的思想和并行处理的方法，用神经网络本身的结构来表达输入和输出的关联知识。人工神经网络(ANN)是由大量并行分布式处理单元组成的简单处理单元.它有通过调整连接强度而从经验知识进行学习的能力并可将这些知识进行运算.是模拟人脑的一种技术系统。

由于人工神经网络具有对噪声数据的高承受能力和低错误率的优点，因此，各种网络训练算法的陆续提出与优化，尤其是各种网络剪枝算法和规则提取算法的不断提出与完善，使得人工神经网络在数据挖掘中的应用越来越为广大使用者所青睐。

语句相似度计算在自然语言处理领域具有非常广泛的应用背景，例如：在问答系统中通过语句相似度计算找到与问题相匹配的答案；在自动文摘系统中通过语句相似度计算去除冗余信息，抽取文摘句；在信息检索系统中通过语句相似度计算找到与用户需求相似的语句；在基于实例机器翻译中通过语句相似度计算匹配相似的语句，得到需要的译文等等。因此，长期以来，句子相似度的算法研究，一直为人们所热衷。

目前，研究语句相似度的方法有基于相同词汇的方法、使用语义依存的方法、计算编辑距离的方法、基于关键词的方法、使用语义词典的方法、基于语境框架的方法、基于属性论的方法以及基于统计的方法等等。其中，基于相同词汇的方法有很明显的局限性：它对同义词之间的替换无能为力；使用语义词典的方法，虽然可以很好地解决同义词替换问题，但是单纯地使用语义词典的方法，又没有考虑到语句内部结构和词语之间的相互作用关系，准确率不高；计算编辑距离的方法通常被用于句子的快速模糊匹配领域，但是其规定的编辑操作不够灵活，也没有考虑词语的同义替换；而基于统计的方法，需要构造大量的训练语料，工作量十分巨大，而且还存在着数据稀疏的问题。

发明内容

本发明的目的在于提供一种种信息检索领域中基于神经网络和标签库的语句相似度算法，结合基于依存的语义距离计算方法和编辑距离的计算方法的优点，扬长避短、互为补充，计算出语句之间的相似度，并获得较高的准确率。

为了实现上述目的，本发明采用的技术方案如下：

信息检索领域中基于神经网络和标签库的语句相似度算法，其特征在于，包括以下步骤：(1)载入分别带有神经网络的语义词典和同义词词林；(2)输入完整的待分析语句；(3)利用依存文法分析器分析出语句的整体句法结构，然后对语句进行分层，并获取语句的有效成分序列；(4)根据分层及其有效成分序列，确定语句在exUCL标签库中对应的标题字段；(5)判断语句是否有相似词对，若有则计算语句的相似度，反之，则重新输入新的待分析语句，再次进行相似度计算。

所谓exUCL是指网页数据多层语义描述标签。

所述整体句法结构的分层包括：第一层，语句的谓语中心词；第二层，谓语中心词的有效支配成分。

所述第二层获取的方法是利用依存算法分析器对语句进行分词和词性标注。

所述语句相似度计算包括对第一层进行语义距离计算和对第二层进行编辑距离计算。

所述语义距离计算公式如下

S(Sen₁，Sen₂)＝λ*SIM(Sen₁，Sen₂)+(1-λ)*SIM′(Sen₁，Sen₂)

所述语句相似度按照下列公式计算：

SM (S_{1}, S_{2}) = \frac{Dis (S_{1}, S_{2})}{Max (m, n)}

其中，Dis(S₁，S₂)＝α×dis₁(S₁，S₂)+β×dis₂(S₁，S₂)

所述语句相似度计算完成后，还将计算结果发送至神经网络进行训练，并将训练结果输入至语义词典和同义词词林，实现语义词典和同义词词林的动态更新。

本发明的总体思想：借鉴骨架依存树的思想，首先分析出句子的整体句法结构，所谓的整体句法结构，就是用该语句的谓语中心词及其有效支配成分来表示。它的特点是把一个语句分成两个层次，第一层为语句的谓语中心词，第二层为语句中谓语中心词的有效支配成分。当得到这两个层次以后，对第一层利用语义词典进行语义距离计算，在计算的同时，语义词典会在使用的过程中不断利用神经网络进行自主学习，从而不断完善语义词典的功能。而第二层则利用编辑距离的方法计算，最后将两个层次得到的结果相加。

本发明的基本方法为：首先，利用依存文法分析器析出句子的整体句法结构，得到句子的谓语中心词，即句子的第一层，然后再利用依存算法分析器的分词和词性标注功能分别得到两个句子的第二层的m个和n个有效成分序列：w11，w12，…，w1m和w21，w22，…，w2n，得到这两个层次以后就可以对两个句子的相似度进行计算。

计算公式见式(8)与(9)：

Dis(S₁，S₂)＝α×dis₁(S₁，S₂)+β×dis₂(S₁，S₂)

SM (S_{1}, S_{2}) = \frac{Dis (S_{1}, S_{2})}{Max (m, n)}

其中Dis(S1，S2)为两个句子的编辑距离，dis₁(S1，S2)和dis2(S1，S2)分别为两个层次的距离，并对不同层赋予不同的权重。m和n分别为两句子第二层有效成分的个数。

本发明主要利用了基于依存的语义相似度算法体现句子内部的结构和词语之间的相互作用关系的特点，以及编辑距离算法由于同义词词林的应用可以兼顾同义词之间的替换，并体现组成语句的每个词深层的语义信息的优点，在此基础上，将两种算法有效地组合起来，充分利用两种方法的优点，实现从语句的词汇及词汇之间的结构关系两方面来表达语句的信息，从而使语句相似度的算法精度大大提高。

本发明属于大规模网络数据集成与挖掘技术中语义的抽取技术，主要应用于数据检索、抽取文摘、网络安全监控等领域。

附图说明

图1为本发明的系统框图。

图2为本发明的程序流程图。

图3为“爱因斯坦是一位当代杰出人才”的依存关系示意图。

图4为“爱因斯坦是一位当代杰出人才”的依存树示意图。

图5为“事发后，伤员被及时送往就近医院救治”的依存树示意图。

图6为“晚上7时左右，所有伤员被送到了医院”的依存树示意图。

图7为“事发后，伤员被及时送往就近医院救治”的语义依存树示意图。

图8为“晚上7时左右，所有伤员被送到了医院”的语义依存树示意图。

图9为“爱吃苹果”和“喜欢吃香蕉”的编辑距离示意图。

具体实施方式

下面通过举例来对本发明作详细描述。

在此先分别介绍基于依存的语义相似度算法和编辑距离算法。

一.基于依存的语义相似度算法

依存句法是由法国语言学家L.Tesniere在其著作《结构句法基础》(1959年)中提出的。依存文法通过分析语言单位内成分之间的依存关系揭示其句法结构，主张句子中动词是支配其他成分的中心成分，而它本身却不受其他任何成分的支配，所有受支配成分都以某种依存关系从属于支配者。二十世纪七十年代，Robinson提出依存语法中关于依存关系的四条公理，在处理中文信息的研究中，中国学者又提出了依存关系的第五条公理：

①一个句子中只有一个成分是独立的；

②其它成分直接依存于某一成分；

③任何一个成分都不能依存于两个或两个以上的成分；

④如果A成分直接依存于B成分，而C成分在句中位于A和B之间，那么C或者直接依存于B，或者直接依存处于A和B之间的某一成分；

⑤中心成分左右两边的其它成分相互不发生关系。在利用依存文法进行相似度计算时，只考虑那些有效搭配对之间的相似程度。所谓有效搭配对是指全句核心词和直接依存于它的有效词组成的搭配对，这里有效词定义为动词、名词以及形容词，它是由分词后的词性标注决定的。

(1)句子依存结构的建立

利用依存结构计算句子间的相似度，关键的一步是如何获得句子各成分间的依存关系信息。本发明中采用了哈尔滨工业大学计算机科学与技术学院信息检索研究室所作的依存句法分析器。通过该依存句法分析器的分析，句子各成分之间的依存关系可以表示如下图1所示：

例句：爱因斯坦是一位当代杰出人才，其依存关系如图3，把该结果形成立体结构的依存树，可以表示为如图4所示结构。

(2)相似度计算

依存树是一个复杂的非线性关系，如果对整个依存树进行完全匹配的话，所花费的代价是巨大的；另外，一个完整的汉语句子是由句子的关键成分和修饰成分所构成，而人们往往从关键成分就可以了解一个句子的大概意思。但由于汉语表达形式的多样性，相同的关键成分可用不同的修饰成分来修饰，如果强调修饰成分，这无疑会给句子间相似度的计算增加噪音。基于以上两点，利用依存结构进行相似度计算时，只考虑那些有效搭配对之间的相似程度。所谓有效搭配对是指全句核心词和直接依存于它的有效词组成的搭配对，这里有效词定义为动词、名词以及形容词，它是由分词后的词性标注决定的。例如以下两个句子间的比较：

例句1：事发后，伤员被及时送往就近医院救治，其依存树如图5所示。

例句2：晚上7时左右，所有伤员被送到了医院，其依存树如图6所示。

从图5和图6中可以看出，所以例句1的有效搭配对为：送往_伤员、送往_医院、送往_救治。例句2的有效搭配对为：送到_伤员、送到_医院。只要比较它们之间的相似程度即可，这样一来比较算法的复杂度就大大降低，而准确率也会得到一定程度的提高。相似度计算公式见式(1)：

SIM ({Sen}_{1}, {Sen}_{2}) = \frac{Σ_{i = 1}^{n} Wi}{Max {PairCo {unt}_{1}, Pair {Count}_{2}}} - - - (1)

式中

为句子1和句子2有效搭配对匹配的总权重，PairCount₁为句子1有效搭配对数，PairCount₂为句子2有效搭配对数。

上述算法中，大配对的匹配权重是这样定义的：

假设有两个搭配对：①Word1_Word2②Word1’_Word2’；

如果Word1＝Word1’且Word2＝Word2’则搭配对①和搭配对②的匹配权重为1；如果Word1≠Word1’且Word2＝Word2’或者Word1＝Word1’且Word2≠＝Word2’，则搭配对①和搭配对②的匹配权重为0.5；否则为0。

所以由上面公式就可以求出例句1和例句2的相似度见式(2)：

SIM ({Sen}_{1}, {Sen}_{2}) = \frac{0.5 + 0.5}{3} = 0.33 - - - (2)

在上面的两个例句中，例句1的核心词“送往”和例句2的核心词“送到”意思本来差不多，但以关键词匹配的方法并不能匹配上，所以又引入了语义依存树作为补充，如图7和图8。在此基础上，例句1和例句2的语义相似度的计算公式见式(3)：

SI M^{'} ({Sen}_{1}, {Sen}_{2}) = \frac{Σ_{i = 1}^{n} W^{'} i}{Max {PairCoun {t_{1}}^{'}, Pair {Count}_{2}^{'}}} - - - (3)

式中

为句子1和句子2有效语义搭配对匹配的总权重，PairCount₁’为句子1有效语义搭配对数，PairCount₂’为句子2有效语义搭配对数。

从上图可以看出，句1中“送往”和句2中“送到”的语义都为903，这样一来“送往”和送到自然就匹配上了。所以上例两句中的语义相似度由公式(4)计算：

{SIM}^{'} ({Sen}_{1}, {Sen}_{2}) = \frac{1 + 1}{3} = 0.67 - - - (4)

由于基于关键词和基于语义的方法有着各自的优缺点，所以改进后算法最后用下面的公式(5)确定句子之间的相似度：

S(Sen₁，Sen₂)＝λ*SIM(Sen₁，Sen₂)+(1-λ)*SIM′(Sen₁，Sen₂) (5)

本发明中，取λ＝0.5。

二.编辑距离算法

编辑距离算法是用来计算从原串(s)转换到目标串(t)所需要的最少的编辑操作数目，编辑操作有“插入”、“删除”和“替换”三种。本发明所述编辑距离算法借鉴了车万翔^[65]利用改进编辑距离方法计算中文句子的相似度的方法，以“爱吃苹果”和“喜欢吃香蕉”为例，两者的编辑距离如图9所示。该方法的主要思想是：以普通编辑距离算法为基础，采用词语取代单个的汉字或字符作为基本的编辑单元参与运算。同时使用了Hownet和同义词词林两种语义资源，计算词汇之间的语义距离，加入词语的语义相似信息确定词语之间的替换代价，并且赋予不同编辑操作不同的权重。在相似度计算时，该方法充分考虑了句子中每个词的深层信息，使表面不同、深层意义相同的词被挖掘出来，在不用经过词义消歧和句法分析的情况下，兼顾了词汇的顺序和语义等信息，使之更加符合中文句子相似度计算的要求。

(1)HotNet语义词典简介

计算语义相似度，需要一定的语义知识资源作为基础。在汉语中，人们常用董振东和董强先生创建的知网(HowNet)作为语义知识资源。知网是一个以概念为描述对象，以揭示概念与概念之间以及概念所具有的属性之间的关系为基本内容的常识知识库，它是一个网状的有机的知识系统。语义词典是知网的基础文件，在这个文件中每一个词语的概念及其描述形成一个记录，每一个记录都主要包含4项内容。其中每一项都由两部分组成，中间以“＝”分隔。每一个“＝”的左侧是数据的域名，右侧是数据的值。它们排列如下：

NO.＝词或短语序号

W_X＝词或短语

G_X＝词或短语的词性

E_X＝词或短语的例子

DEF＝概念定义

其中的W_X、G_X、E_X构成每种语言的记录，X用以描述记录所代表语种，X为C则为汉语，为E则为英语。每个词语由DEF来描述其概念定义，DEF的值由若干个义原及它们与主干词之间的语义关系描述组成，义原是知网中最基本的、不易于再分割的意义的最小单位。

在此使用HotNet语义辞典作为同义词扩展的资源。HotNet中同义词的定义为具有相同的英语译文(W_E)和语义定义(DEF)的词汇。例如“我”和“俺”，简化词条如下：

可见，“我”和“俺”具有相同的英语译文(W_E)“I”和语义定义(DEF)“firstPerson/我”，是一对同义词。表1中给出了使用HotNet进行词扩展的一些例子。从中可以看出，使用HotNet进行词的扩展，效果是比较理想的。

表1 HotNet进行词扩展示例

(2)同义词词林的使用

本发明中，编辑距离算法还用到了《同义词词林》，其基本思想就是利用词林中对每个词提供的语义编码进行两个词之间的语义距离计算。本发明中的《同义词词林》将词的词义逐级划分为5层，描述了一个由上到下、由宽泛概念到具体词义的语义分类体系，并将所收的词按词义分门别类组织在其中。每个汉语词都按照其语义，赋予了一个或多个5位的语义代码。与此分类体系相对应的是一个词义的编码体系，描述如下：

<词义编码>::＝<1层><2层><3层><4层><5层>

<1层>::＝<大写英文字母>

<2层>::＝<小写英文字母>

<3层>::＝<数字><数字>

<4层>::＝<大写英文字母>

<5层>::＝<数字><数字>

对于A，B两词之间的语义距离，只要查到他们的语义编码，然后用公式(6)进行计算：

Dist (A, B) = \min_{a &Element; R, b &Element; Q} dist (a, b) - - - (6)

其中P，Q分别为A，B两词具有语义的集合。语义a，b之间的距离为：

dist(a，b)＝2×(7-n) (7)

其中，n为它们之间的语义代码从第n层开始不同，全部相同语义距离为0。如“苹果”Bh07A14，“香蕉”Bh07A34，“喜欢”Gb09A01，“爱”Gb09A01。用上面的公式可知Dist(苹果，香蕉)＝2，Dist(喜欢，爱)＝0。从以上的操作可以看出利用词林进行语义距离计算相似度比较方便、快捷。

下面以网络监管为例来对本发明的实施过程进行描述。

首先，在网络监控中心的主机上载入语义词典和同义词词林，然后从网络上获取网络内的原始数据信息(即数据流)；随后通过分析语言单位内成分之间的依存关系揭示其整体句法结构，得到语句的谓语中心词，然后再利用依存文法分析器的分词和词性标注功能分别得到语句有效成分序列并对语义词典进行扩展更新，再通过本发明所在主机结合exUCL标签库的标引方法对所获取的原始数据信息进行分析，确定该原始数据信息在标签库中对应的标题字段，确定后计算两者相似度。对于网络监控来说，一般只需要监控网络的原始数据信息中是否出现违反规定的内容，如法轮功、色情等内容，因此，在计算语句相似度时，只需要计算与监控内容接近的原始数据信息的相似度，如原始数据中出现了与法轮功接近的词语，则计算该原始数据与法轮功的语句相似度，在此基础上，网络监管人员可根据结果进行相应的操作，如断网、向有关管理部门通报等等。在计算语句相似度的同时，利用神经网络技术对得到的结论进行学习、训练以更新语义词典和同义词词林。本发明中所述的神经网络是经过系统建模后构建出来的适合网络应用的神经网络，使用时先进行初始化，再对语句相似度的计算结果进行训练。

本发明还可以应用到商品销售的货物验证系统中，销售商只需要将商品的数量、编号、EPC和具体时间输入到验证系统中，购买方即可查看商品的数据信息是否有效，从而判断该商品是否是正品。

Claims

1.信息检索领域中基于神经网络和标签库的语句相似度算法，其特征在于，包括以下步骤：

(1)载入分别带有神经网络的语义词典和同义词词林；

(2)输入完整的待分析语句；

(3)利用依存文法分析器分析出语句的整体句法结构，然后对语句进行分层，并获取语句的有效成分序列；

(4)根据分层及其有效成分序列，确定语句在exUCL标签库中对应的标题字段；

(5)判断语句是否有相似词对，若有则计算语句的相似度，反之，则重新输入新的待分析语句，再次进行相似度计算；

所述整体句法结构的分层包括：

第一层：语句的谓语中心词，第二层：谓语中心词的有效支配成分；

所述第二层获取的方法是利用依存算法分析器对语句进行分词和词性标注；

2.根据权利要求1所述的信息检索领域中基于神经网络和标签库的语句相似度算法，其特征在于，所述语义距离计算公式如下

S(Sen₁，Sen₂)＝λ*SIM(Sen₁，Sen₂)+(1-λ)*SIM′(Sen₁，Sen₂)

其中，SIM(Sen₁，Sen₂)表示语句Sen₁和Sen₂的相似度，SIM′(Sen₁，Sen₂)表示语句Sen₁和Sen₂的语义相似度，λ表示权重。

3.根据权利要求2所述的信息检索领域中基于神经网络和标签库的语句相似度算法，其特征在于，所述语句相似度按照下列公式计算：

SM (S_{1}, S_{2}) = \frac{Dis (S_{1}, S_{2})}{Max (m, n)}

Dis(S₁，S₂)＝α×dis₁(S₁，S₂)+β×dis₂(S₁，S₂)

其中，Dis(S₁，S₂)为两个句子的编辑距离，dis₁(S₁，S₂)和dis₂(S₁，S₂)分别为两个层次的距离，α和β是不同层的权重，m和n分别为两句子第二层有效成分的个数。