CN110263331A

CN110263331A - 一种知识驱动的英汉单词语义相似度自动检测方法

Info

Publication number: CN110263331A
Application number: CN201910438159.4A
Authority: CN
Inventors: 王铁鑫; 曹静雯; 李文心
Original assignee: Nanjing University of Aeronautics and Astronautics
Current assignee: Nanjing University of Aeronautics and Astronautics
Priority date: 2019-05-24
Filing date: 2019-05-24
Publication date: 2019-09-20

Abstract

本发明公开了一种知识驱动的英汉单词语义相似度自动检测方法，包括如下步骤：步骤1、基于Eclipse的MongoDB JDBC驱动，在本地MongoDB中建立数据库并建立collection，将HowNet数据库中的语义词典和义原分类树二次加工导入到MongoDB中；步骤2、人工分析MongoDB中的数据即语义词典和义原分类树中的词之间的关系，对分析出来的数据关系进行加工处理，实现关系值的量化计算；步骤3、基于Eclipse的WindowBuilder插件为工具提供可视化应用界面，提供输入和输出接口。本发明通过对“HowNet”中词语的概念进行分析、比较，实现词语的准确定义；在尽量降低人工参与的情况下，减少因自然语言二义性而产生的理解错误，能够更准确地比较和区分词语间的语义关系。

Description

一种知识驱动的英汉单词语义相似度自动检测方法

技术领域

本发明涉及自然语言处理领域，具体涉及一种知识驱动的英汉单词语义相似度自动检测方法。

背景技术

在大数据时代，数据和信息处理是各个领域的共同关注点。效率和智能是处理过程的两个关键。而随着经济的发展，企业为了谋求更好的发展，需要与其他企业进行合作，因为相互合作的企业之间需要进行数据共享，从而各自的内部系统之间需要进行通信，共享和集成。不同的企业使用不同的系统，具有不同内容的信息系统，需要识别正误、消除冗余、合并相同类型、然后以统一数据的形式生成有价值的信息。

Seth Grimes曾说“80％的商业信息来自非结构化数据，主要是文本分析”。系统之中的部分文本信息例如行政信息，需求文档等由相应人员采用自然语言进行编写，自然语言具有二义性，在传达以及执行相应任务存在理解失误性导致巨大的经济损失。所以对这些共享和传达的文本信息需要进行语义分析，给出准确的语义。

自然语言使用词语作为基本单位。词语可以形成句子，句子形成章节。因此，文本的语义由所包含的所有句子的语义合成，而句子的语义由词语和某些语法的语义决定。作为句子和文本的基本单位，这些词语具有特定的语义和内涵。语义分析是NLU(自然语言理解)的基本问题，它在NLP(自然语言处理)、信息检索、信息过滤、信息分类和语义挖掘中具有广泛的应用。

NLP是一门集语言学，计算机科学和数学于一体的科学。具有丰富NLP信息的大型计算机可用字典的重要性是显而易见的。为了提高NLP技术的效率，有必要创建大规模的知识资源，包括机器可处理的字典。目前，有几个现有的大型知识库。与其他知识库相比例如WordNet和FrameNet，HowNet强调概念之间的关系，属性与概念属性之间的关系。作为一个双语(英—汉)知识库，HowNet为设计真正的智能软件提供了知识，总记录超过120,000，而且还在不断扩大。

关于HowNet首先需要解释两个概念“义原”和“定义”。“义原”是无法分割的最小意义单位，选择义原的原则是现有义原必须能够描述所有概念。而“定义”是一个由一些义原组成的概念，用于描述词语。语义词典和义原分类树是HowNet的基本文件。语义词典由许多记录组成，包含单词的中英文翻译，词性和词的定义。每条记录都是英文和中文双语，包含每个单词含义的概念和描述，但HowNet的语义词典不仅仅是复制英汉词典，每个词的定义的选择和制定都是基于当前的流行度。

MongoDB是关系数据库和非关系数据库之间的产品。它是非关系数据库中功能最多，关系最密切的数据库。MongoDB在数据存储和查询方面有两个基本优势。首先，它支持的数据结构非常宽松——类似于JSON的BSON格式，因此它可以存储更复杂的数据类型。其次，它支持一种非常强大的查询语言，其语法与面向对象的查询语言类似。它可以实现关系数据库单表查询的几乎所有功能，并且还支持索引数据。

为了检测词(对象)概念之间的语义相似性，本文提出了一种名为SSDH的方法(基于HowNet的语义相似度检测)。SSDH建立在HowNet知识库的基础之上，且借助MongoDB和Eclipse两个软件实现工具。与现有的基于HowNet开发的词语语义相似度方法相比，SSDH使用了数据库MongoDB，使数据检索更快，并且公式的定义减少了人工设置的参数，使计算结果更具公平性。此外由于HowNet的特点，该工具可以直接比较中英文的语义相似度。

发明内容

发明目的：为了解决现有技术存在的问题，本发明的目的是提供一种知识驱动的英汉单词语义相似度自动检测方法，用于在文本分析等异构数据处理中避免两个词语因为自然语言的二义性而造成的概念模糊。

技术方案：一种知识驱动的英汉单词语义相似度自动检测方法，包括以下步骤：

步骤1、基于Eclipse的MongoDB JDBC驱动，在本地MongoDB中建立数据库并建立collection，将HowNet数据库中的语义词典和义原分类树二次加工导入到MongoDB中；

步骤2、人工分析MongoDB中的数据即语义词典和义原分类树中的词之间的关系，对分析出来的数据关系进行加工处理，实现关系值的量化计算；

步骤3、基于Eclipse的WindowBuilder插件为工具提供可视化应用界面，提供输入和输出接口。

所述步骤2具体包括如下内容：

步骤2.1、根据词语在语义词典中的定义，分析HowNet的最基本文件的存储集合semanticdictionary；

步骤2.2、对MongoDB中存储的atomtree集合进行分析；

步骤2.3、进行数据处理。

进一步的，所述步骤2.1中，词语在语义词典中的定义包括以下三种情况：

如果两个词语的定义完全一样，则是同义词；

如果两个词语的定义是部分相同的或者存在包含关系，则存在相似性；

如果两个词语的定义毫无相同，则没有关系。

进一步的，所述步骤2.3中，定义两个词语Word₁、Word₂；所述Word₁含有m个义项：def₁,def₂,……，def_m，构成集合DEF₁；所述Word₂含有n个义项：def₁,def₂,……，def_n，构成集合DEF₂；每个DEF集合中的重复def算作一个，每个def由不定数的义原atom_i’组成一个集合；

步骤2.3.1、将Word₁的DEF₁集合和Word₂的DEF₂集合进行比较，计算出相同的def占DEF集合的势的比率；

步骤2.3.2、去除两个DEF集合中的相同的def(步骤2.3.1中找出的)，将DEF₁中剩下的每一条def分别与DEF₂剩下的每一条def进行比较，在任意对def集合中，首先比较主属性即第一个atom是否相同，如果相同，给定主属性的相似度为1，否则为0；

步骤2.3.3、对每对def集合中的atom(去除第一个atom后剩下的)，计算相同的atom的占比和其余的atom之间的相似度，将主属性的相似度、相同atom的占比和其余atom之间的相似度加权计算得到每对def集合的相似度；

步骤2.3.4、对于不同的部分给相应的权重，使得结果在0～1的范围内。

更进一步的，所述步骤3中工具包括precount包和connect包。其中，所述precount包包括Treecount类和TreeHigh类。所述connect包包括ConnectMongoDB类、GetDocument_HowNet接口、GetDocument_Atom接口、SimAtom_Eng_Chi类、SimWord类和Tool类。

有益效果

和现有技术相比，本发明具有如下显著进步：本方法建立在知识库“HowNet”之上，兼具中文和英文双语语义分析的功能。提取“HowNet”中的语义相关知识，存储在非关系型数据库“MongoDB”中，利用“MongoDB”自身优点，提升大量数据查询、管理及维护的效率。本方法通过对“HowNet”中词语的概念进行分析、比较，实现词语的准确定义；在尽量降低人工参与的情况下，减少因自然语言二义性而产生的理解错误，能够更准确地比较和区分词语间的语义关系。

附图说明

图1为MongoDB存入语义词典的过程示意图；

图2为HowNet语义词典关于“偶然性”词语的记录整理；

图3为HowNet的义原分类树部分；

图4为数据处理的流程图；

图5为实现工具界面截图。

具体实施方式

本发明的一种知识驱动的英汉语义相似度自动检测方法，建立在知识库“HowNet”之上，兼具中文和英文双语语义分析的功能；提取“HowNet”中的语义相关知识，存储在非关系型数据库“MongoDB”中，利用“MongoDB”自身优点，提升大量数据查询、管理及维护的效率。

以下将结合附图及实施例来详细说明本发明的实施方式，借此对本发明如何应用技术手段来解决技术问题，并达成技术效果的实现过程进行充分理解并据以实施。需要说明的是，只要不构成冲突，本发明中的各个实施例以及各实施例中的各个特征可以相互结合，所形成的技术方案均在本发明的保护范围之内。

另外，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

1、数据处理和存储

首先将HowNet的基本文件语义词典和义原分类树通过Eclipse进行二次加工再存入到MongoDB中，分别建立两个collection“semanticdictionary”(存储语义词典)和“atomtree”(存储义原分类树)。

以数字“2”在semanticdictionary(语义词典)中的存储格式为例：

Document{

{

NO＝000003,

WC＝“2”,

GC＝“NUM”,

EC＝,

WE＝“2”,

GE＝“NUM”,

EE＝,

DEF＝[qValue|数量值,amount|多少,cardinal|基,mass|众]

}

存储的数据类型有int、String和数组。

“NO＝”后存储的是词语的序号，int类型；

“WC＝”后存储的是词语的中文，String类型；

“GC＝”后存储的是词语的词性，String类型；

“EC＝”后存储的是词语的举例，String类型；

“DEF＝”后存储的是词语的概念定义，一维数组类型。

以义原“event|事件”在atomtree(义原分类树)中的存储格式为例：

Document{

{

ID＝0,

EnglishName＝“event”,

ChineseName＝“事件”,

parent＝0

}

存储的数据类型以int和String为主。

“ID＝”后存储的是义原序号，int类型；

“EnglishName＝”后存储的是义原英文，String类型；

“ChineseName＝”后存储的是义原中文，String类型；

“parent＝”后存储的是义原在义原分类树上的父节点序号，int类型；

义原分类树是根据义原之间的类别等关系对义原进行的一个树排序，义原树从上到下分类越来越细致，所以越接近底层的义原之间相似度越高，另外义原之间相对距离越近，义原相似度越高。

2、数据分析和处理

2.1分析数据中的概念

首先分析HowNet的最基本文件的存储集合semanticdictionary，每条document存储了词语的中英文和定义以及搭配举例，定义由义原组成用“,”分割。语义即语言所含的意义(定义)，对于一个词语的准确理解从它被给出的定义得出，所以对词语进行语义分析的第一步就是看词语在语义词典中的定义。则有以下三种情况：

①不难判断出，如果两个词语的定义完全一样，就可以说两个词语是同义词。例如“platform”和“rostrum”，都对应中文“主席台”，且在HowNet中定义相同：“DEF＝facilities|设施,space|空间,@manage|管理”；

②如果定义是部分相同的或者存在包含关系，两个词语就是存在一定的相似性可能，例如“沃野”和“沃土”，定义分别为：“DEF＝land|陆地”、“DEF＝land|陆地,#crop|庄稼”；

由于中英文的语言都存在一定的描述不准确性，存在一些中文词语各对应不同的英文词语也可能包含不同的定义条，也存在一些英文词语对应不同的中文词语导致的多条定义。

然后对MongoDB中存储的atomtree集合进行分析。atomtree中的document是以父链接结构进行存储的，每条document存储了义原序号、义原的中英文和义原所在节点的父节点序号，虽然无法直接将义原和位于父节点的义原进行链接，但是进过两次查询即可得到父节点的中英文。所以通过不断地向上查询就可以找到某个义原的祖先节点。Atomtree集合中总共存储了9棵义原分类树，可以根据根节点的义原的根节点序号为本身序号判断出。

2.2、进行数据处理

定义2个词语Word1、Word2，Word1含有m个义项(设为集合DEF1)：def1,def2,……，defm(所有词语的重复def都只算作一个)；Word2含有n个义项(设为集合DEF2)：def1,def2,……，defn。则两个单词的语义相似度可以转换成DEF集合中def的相似度比较。而每个def也是集合，且由不定数的atomi’(义原)组成，def之间的比较又可以转换成def中atom的相似度比较，如图4所示。

所以计算两个单词的语义相似度采取如下方案进行：首先将Word1中的DEF1集合和Word2的DEF2集合进行比较，计算出相同的def占DEF集合的势的比率。再去除相同的def，将DEF1中剩下的每一条def分别与DEF2剩下的每一条def进行比较，在任意对def集合中，首先比较主属性即第一个atom是否相同，如果相同，给定主属性的相似度为1，否则为0。接着计算def集合中剩下的atom，计算相同的atom的占比和其余的atom之间的相似度。最后对于不同的部分给相应的权重，使得结果在0～1的范围内。

3、工具实现

本发明基于MongoDB驱动的Eclipse实现了语义分析的工具，该工具使用户可以对中英文词语进行比对。

工具开发在Eclipse上实现，采用Java语言，借助WindowBuilder插件实现可视化界面。

工具框架如下：

创建precount包：

Treecount类计算义原分类树总数：findparentid函数查找义原所在节点的父节点。

TreeHigh类计算每棵义原分类树的树高，也是使用findparentid函数。

创建connect包：

ConnectMongoDB类：链接MongoDB，仅使用一次导入数据后就无须再使用，调用两个数据二次加工函数InHownet和InAtomtree。如图1，是语义词典中的部分数据导入MongoDB中的过程示意图。

GetDocument_HowNet接口：实现返回词语的中文，词语的英文和词语的定义，用于其他类实现。

GetDocument_Atom接口：实现返回义原所在节点序号，义原中文，义原英文和义原所在节点父节点的序号，用于其他类实现。

SimAtom_Eng_Chi类：用于计算中英文混合的义原的相似度，先判断义原所在树的序号，再对义原进行处理：find函数实现义原中文查找义原所有信息；IDfind函数实现序号查找义原中英文；Search函数递归查找两个义原的最近共同祖先；Deep函数求义原最近共同祖先距离根结点的距离。

SimWord类：实现中英文词语的语义相似度计算：findDEF函数实现搜索MongoDB查找出词语的所有义项并且不重复保存；count函数实现分段计算相似度公式。

Tool类：如图5，实现工具可视化窗口，允许用户输入Word₁和Word2，并设置参数α和β。在每一个输出窗口处设置按键，点击实现功能。

实施例

如图2是HowNet的语义词典的关于中文词语“偶然性”和它对应的英文单词“chance”、“contingency”、“occasionality”几条记录的一个网状结构图。可以看到，对于中文词语“偶然性”，义项只有一条，有四个义原组成，而该词语同时对应3个英文单词，且这四个单词的义项是相同的。但也存在某个词语有多个义项，例如中文词语“人”，在HowNet中共有17条Document，整理如下：

其中部分document的词性和定义相同，对于词语“人”来说，它有9条def，在处理和“人”对比的词语时，需要将这9条def都考虑进去。同时每条def的第一个atom是主属性，例如“attribute|属性”。则“character”和“manpower”的主属性相同，而“character”和“other people”的主属性不同，主属性相同的词语的相似度要高于主属性不同的。接下来对def中的其他atoms进行分析。

HowNet定义并维护义原分类树如图3，义原的相似性可以通过义原分类树上的相对距离来计算。首先找到两个比较义原的最近共同祖先，然后递归找到两个义原和共同祖先之间的距离，即层之间的高度差，并求和以获得两个义原之间的相对距离。计算相对距离公式如下：

AtomDistance(a,b)＝Distance(a,com(a,b))+Distance(b,com(a,b))

com(a,b)表示atom a和atom b最近的共同祖先，根据不断查找父节点的方法进行向上递归查找到。

Distance(a,b)表示atom a和最近的共同祖先(两个义原的)之间的距离，即从共同祖先到存储atom a的节点上的路径长度。

AtomDistance(a,b)表示atom a和atom b之间的相对距离，是atom a和最近的共同祖先的距离与atom b和最近的共同祖先的距离纸之和。

如果两个义原不在同一棵树上，则默认义原距离为100。

然后可以计算两个义原的相似度：

TreeHigh_i表示分类树的高度，其中i是分类树的序号，范围为1～9，atom a和atomb位于i树。

Deep表示atom a和atom b的最近的共同祖先距离根节点的深度，因为深度越大，划分得越细，所以随着Deep的增大，整个公式的值增大。

2×TreeHigh表示两个atom在该树上可能有的最大距离。

AtomSim(a,b)表示atom a和atom b之间的相似性。

对于分支节点，其第一个子节点与来自同一层的其他子节点的所有节点等距，因此两个节点的最远距离可粗略估计为树高度的两倍。不同的义原分类树具有不同的TreeHigh，需要确定义原所在的树找到相应的TreeHigh放入公式计算。

考虑到上述等式的使用，下表显示了比较四对义原之间的义原距离和义原相似性的简单用例(即男-女，男-幼，动物-人，皇-家)。测试结果也显示在表中：

NO	Atom 1	Atom 2	Atom Distance	Atom Similarity
					1	男\|male	女\|female	2	0.57
2	男\|male	幼\|yong	4	0.25
					3	动物\|AnimalHuman	人\|human	1	0.73
4	皇\|royal	家\|family	2	0.3

义原的相似度计算完成后，可以开始计算两个词语的相似度：

①首先比较Word₁和Word₂的义项集合相似度：

comdef＝{def|def∈DEF₁∧def∈DEF₂}

comdef表示DEF₁和DEF₂中相同def组成的集合。

|comdef|表示求集合的势，即集合中元素个数。

defRatio表示DEF₁和DEF₂中相同def的占比率，即DEF₁和DEF₂的相似度。

如果defRatio为1，则表示DEF₁和DEF₂的相似度为1，则Word₁和Word₂的语义相似度为1，退出计算，否则，需要继续计算两个词语之间的相似度，并分别删除两个DEF集合中相同的def，只在两个词语的不同def之间进行相似度计算。

②然后对两个词语的每对def中的atom进行分析。

去除相同def后，从DEF₁和DEF₂中各选出一个def(定义为def_i和def_j)进行比较，对于每一对def，首先需要比较两个def的第一个atom，即主属性是否相同，如果它们相同，则让“mainatom＝1”，否则让“mainatom＝0”。

再比较剩余的atom，如果存在相同的atom，则将其放入集合commonatom中，并计算相同义原与所有义原的比率。公式如下：

|def_i|-1表示去除主属性atom之外集合def包含atom的个数。

sameatomRatio(def_i,def_j)表示def_i和def_j中相同atom占所有atom比率。

然后再去除共同的atom，对剩余的atom进行义原相似度计算，并求出所有atom之间的总相似度：

参数1-sameatomRatio(def_i,def_j)是不同atom之间相似度之和的权重，如果相同atom比率越高，则剩余atom的相似度计算权重下降；反之如果atom相似度过低，则剩余atom之间的相似度计算权重上升，这样保证def之间的相似度结果差距不会太大。

∑AtomSim(a,b)表示计算所有对atom a和atom b的相似度之和，atom a属于集合def_i，atom b属于集合def_j。

|def|-1-|comatom|表示去除第一个atom和共同atom之后的集合def的势，即def中剩余atom的个数。

diffatomsim(def_i,def_j)表示def_i和def_j中不同atom的总相似度(并非相似度之和)。

因为在知网中存在许多关系，例如部件-整体关系(％)，属性-宿主关系(&)，材料-成品关系(？)，工具-事件关系(*)等，这些关系将反映在义原之前添加相应的符号％，&等等，对于这些“义原”，你需要单独将它们与相同的符号进行比较。比较方法与上述比较相同的atom和不同的atom方法相同。

③最后将所有def都配对计算出相似度并求和计算出Word₁和Word₂的相似度。

参数1-defRatio是不同def的相似度之和的权重，保证总相似度不超过1，并且权衡词语相似度的结果，使差距变缓。

参数α是主属性的权重，默认为0.6，参数β是其余atom的相似度的权重，默认为0.4，这一设置保证每一对def的相似度不会超过1。

|DEF|-|comdef|表示DEF集合中不同def的个数。

WordSim(Word₁,Word₂)表示Word₁和Word₂的相似度，即DEF₁和DEF₂的相似度，根据一系列参数的设置，保证相似度在0～1之间。

考虑到上述等式的使用，下表显示了四对词语之间的语义相似性的比较。测试结果也显示在表中：

No	Word 1	Word 2	Semantic Similarity
				1	医生	人	0.30
2	男人	女人	0.79
				3	男人	girl	0.73
4	commute a sentence	reduce a penalty	1.0

因为本文中的参数设置大多是根据词语的义项以及义原的自身比较得出，所以更具公平性。

Claims

1.一种知识驱动的英汉单词语义相似度自动检测方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的英汉单词语义相似度自动检测方法，其特征在于，所述步骤2具体包括如下内容：

步骤2.2、对MongoDB中存储的atomtree集合进行分析；

步骤2.3、进行数据处理。

3.根据权利要求2所述的英汉单词语义相似度自动检测方法，其特征在于，所述步骤2.1中，词语在语义词典中的定义包括以下三种情况：

如果两个词语的定义完全一样，则是同义词；

如果两个词语的定义毫无相同，则没有关系。

4.根据权利要求2所述的知识驱动的计算英汉单词语义相似度的方法，其特征在于，所述步骤2.3中，定义两个词语Word₁、Word₂；所述Word₁含有m个义项：def₁,def₂,……，def_m，构成集合DEF₁；所述Word₂含有n个义项：def₁,def₂,……，def_n，构成集合DEF₂；每个DEF集合中的重复def只算作一个，每个def由不定数的义原atom_i’组成一个集合；

步骤2.3.2、去除两个DEF集合中的相同的def，将DEF₁中剩下的每一条def分别与DEF₂剩下的每一条def进行比较，在任意对def集合中，首先比较主属性即第一个atom是否相同，如果相同，给定主属性的相似度为1，否则为0；

步骤2.3.3、针对每对def集合中去除第一个atom后剩下的atom，计算相同的atom的占比和其余的atom之间的相似度，将主属性的相似度、相同atom的占比和其余atom之间的相似度加权计算得到每对def集合的相似度；

5.根据权利要求1所述的英汉单词语义相似度自动检测方法，其特征在于，所述步骤3中工具包括precount包和connect包。

6.根据权利要求5所述的英汉单词语义相似度自动检测方法，其特征在于：所述precount包包括Treecount类和TreeHigh类。

7.根据权利要求5所述的英汉单词语义相似度自动检测方法，其特征在于：所述connect包包括ConnectMongoDB类、GetDocument_HowNet接口、GetDocument_Atom接口、SimAtom_Eng_Chi类、SimWord类和Tool类。