CN103473222A

CN103473222A - 一种藏语语义本体创建及词汇扩充方法

Info

Publication number: CN103473222A
Application number: CN2013104216424A
Authority: CN
Inventors: 邱莉榕
Original assignee: Minzu University of China
Current assignee: Minzu University of China
Priority date: 2013-09-16
Filing date: 2013-09-16
Publication date: 2013-12-25

Abstract

本发明涉及少数民族文字处理方法，尤其涉及一种可以实现藏语语义本体创建及词汇扩充方法。其包括1）基于知网中文词库，建立上层本体；2）利用电子词典的释义，扩充上层本体中出现的概念的同义词；3）在多语言本体库中进行上层本体概念的上下位关系模式匹配算法，扩充上层本体概念；4）查找扩充后的本体概念的近义词；5）基于本体概念词汇语义相似度算法进行相似度从高到低的排序；6）对排序结果进行修订，编辑本体。本发明基于知网中文词库，建立上层本体，本体中的上下位关系定义了概念和概念之间的层次，基于这种上下位关系，可以获得更多语义新词，充实已有的藏语语义本体的词汇，极大的提高藏语信息处理精度。

Description

一种藏语语义本体创建及词汇扩充方法

技术领域

本发明涉及少数民族文字处理方法，尤其涉及一种可以实现藏语语义本体创建及词汇扩充方法。

背景技术

词典中定义的概念本身并没有二义性，它能唯一地、准确地指向现实世界中的实体或对象。但在句处理中，句中的概念是由词表示的。例如概念词“木马”在下面三个句子中至少可以表示三种概念：

（1）木马是一种玩具。

（2）木马是一种运动器械。

（3）木马是一种病毒。

因此所谓概念二义性，就是由于一个概念词可以表示多个概念引起的。而藏语也会因为上下文语境的不同，其汉语有不同译文：

另外对藏语来说，有很多外来词和音译词，例如“成都”一词在藏语中有不同翻译：

语言文字本身存在的语义模糊性和歧义性增加了机器分析的难度。文字（对于计算机而言就是二进制数据）仅仅是传达语义的媒介，而语义的表达才是交流的核心和关键。

对具有某种知识水平的人来说，可以根据句子的语境理解概念要传达的明确语义。例如：如果“木马”同“计算机”“程序”等词同时在文中出现的话，那么可以根据已有知识，得到此处的“木马”应该指“木马”病毒的可能性最大。

语义的核心是知识，语义本体就是共享概念模型的显示的形式化规范说明，用于描述（特定领域的）知识。

我们可以创建计算机领域本体，如果这个领域本体中包含了“木马、计算机、程序”等概念，并定义了这些概念之间的关系，那么计算机在使用这个本体的时候，就相当于有了这些储备知识。

现有技术的缺点:汉、英等语言的语义本体创建技术都是在大规模语料库基础上利用算法统计产生的。但藏语的语言特点和数据稀疏性，导致成功应用于汉、英等语言的本体创建和词汇扩充技术无法直接照搬到藏语上。

发明内容

针对现有技术上存在的不足，本发明提供一种基于上下位关系模式匹配算法的藏语语义本体创建及词汇扩充方法。

为了实现上述目的，本发明是通过如下的技术方案来实现：

一种藏语语义本体创建及词汇扩充方法，其包括下列步骤：

1）基于知网中文词库，建立上层本体；

2）利用电子词典的释义，扩充上层本体中出现的概念的同义词；

3）在多语言本体库中进行上层本体概念的上下位关系模式匹配算法，扩充上层本体概念；

4）查找扩充后的本体概念的近义词；

5）基于本体概念词汇语义相似度算法进行相似度从高到低的排序；

6）对排序结果进行修订，编辑本体。

上述的一种藏语语义本体创建及词汇扩充方法，其步骤3）所述的上下位关系是：如果给定概念C1和C2，C1的同义集合为{C1,C1′,…}，C2的同义集合为{C2,C2′,…}，若C2的外延包含C1的外延，则认为C1和C2具有上下位关系，其中C1称为C2的下位概念，C2称为C1的上位概念，记作hr(C1,C2)。

上述的一种藏语语义本体创建及词汇扩充方法，其步骤3）所述的上下位关系模式包括单对单模式、多对单模式、单对多模式、多对多模式和多层次模式。

上述的一种藏语语义本体创建及词汇扩充方法，其所述的单对单模式只提取一个下位概念C1和一个上位概念C2，组成一个上下位关系hr(C1,C2)。

上述的一种藏语语义本体创建及词汇扩充方法，其所述的多对单模式提取多个下位概念C1,C2,…,Cm和一个上位概念Cm+1，组成一组上下位关系hr(C1,Cm+1),hr(C2,Cm+1),…,hr(Cm,Cm+1)。

上述的一种藏语语义本体创建及词汇扩充方法，其所述的单对多模式提取一个下位概念C1和多个上位概念C2,C3,…,Cm，组成一组上下位关系hr(C1,C2),hr(C1,C3),…,hr(C1,Cm)。

上述的一种藏语语义本体创建及词汇扩充方法，其所述的多对多模式提取多个下位概念C1,C2,…,Cm和多个上位概念Cm+1,Cm+2,…,Cm+n，组成一组上下位关系hr(C1,Cm+1),hr(C2,Cm+1),…,hr(Cm,Cm+1),…,hr(C1,Cm+2),hr(C2,Cm+2),…,hr(Cm,Cm+2),…,hr(C1,Cm+n),hr(C2,Cm+n),…,hr(Cm,Cm+n)。

上述的一种藏语语义本体创建及词汇扩充方法，其所述的多层次模式提取一组概念C1,C2,C3，使得hr(C1,C2)，hr(C2,C3)多层上下位关系成立。

上述的一种藏语语义本体创建及词汇扩充方法，其所述模式匹配为：上下位关系模式集合P={p1,p2,…,pm}，语料库G，G中含有句子集合S={s1,s2,…,sn}，对任意s∈S，若通过模式匹配算法得到p1,p2,…,pk(pi∈P,i=1,2,…k)与s匹配，记作(s,{p1,p2,…,pk})，若不存在模式与s相匹配，则记作。

上述的一种藏语语义本体创建及词汇扩充方法，其模式匹配组成部分包括：基本模式、匹配句子、提取关系。

上述的一种藏语语义本体创建及词汇扩充方法，其步骤3）所述的上下位关系模式匹配算法包括下列步骤：

1）输入上下位关系模式集合P，语料库G；

2）预处理，将语料G分割转换为句子序列S={s1,s2,…,sn}；

3）若S不为空，对每一个句子s∈S，对s先进行分词处理；

4）在P中搜索s所满足的上下位关系模式，得到s所满足上下位关系模式p1,p2,…,pk(pi∈P,i=1,2,…k)；

5）根据p1,p2,…,pk中每个模式的上位概念域和下位概念域属性提取对应的上位概念部分和下位概念部分；

6）输出所有匹配结果。

有益效果：

本发明基于知网中文词库，建立上层本体，本体中的上下位关系定义了概念和概念之间的层次，基于这种上下位关系，可以获得更多语义新词，充实已有的藏语语义本体的词汇，极大的提高藏语信息处理精度。

附图说明

图1为本发明的步骤流程图。

具体实施方式

为使本发明实现的技术手段、创作特征、达成目的与功效易于明白了解，下面结合具体实施方式，进一步阐述本发明。

采用藏语本体创建及词汇扩充方法，第一步，由知识工程师和语言专家手工建立上层本体，利用电子词典进行同义词扩充后，在多语言本体库（汉、英语言创建的本体）中根据对应的上下位关系模式进行基于模式匹配的词汇扩充和翻译。第二步，根据本体概念和对应的上下位关系，在已标注语料或电子词典中查找近义词，并基于词汇语义相似度算法进行相似度从高到低的排序。知识工程师对排序结果进行修订，编辑本体。

参照附图1，本发明包括如下步骤：

（1）由知识工程师和语言专家手工编辑建立基于Hownet的上位本体；并研究藏语上下位关系的模式表示方法；

（2）上位本体中出现的概念，利用电子词典的释义，创建概念的同义词词汇集；

（3）在多语言本体库（汉、英语言创建的本体）中进行概念的上下位关系模式匹配，扩充本体概念层次；

（4）本体概念和抽取的上下位关系模式匹配，在已标注语料或电子词典中查找近义词；

（5）基于词汇语义相似度算法进行相似度从高到低的排序；

（6）知识工程师对排序结果进行修订，编辑本体。

上下位关系,Hyponymy：如果给定概念C1和C2，C1的同义集合为{C1,C1’,…}，C2的同义集合为{C2,C2’,…}，若C2的外延包含C1的外延，则认为C1和C2具有上下位关系，其中C1称为C2的下位概念（hyponym），C2称为C1的上位概念（hypernym），记作hr(C1,C2)。判断hr(C1,C2)是否成立的简单方法是看句子：“C1是一种/类/个C2”是否可以接受。

1、上下位关系模式

（1）单对单模式：只提取一个下位概念C1和一个上位概念C2，组成一个上下位关系hr(C1,C2)。如：

基本模式：

<?C1>【是一种】<?C2>

匹配句子：

{冰箱}C1【是一种】{电器}C2。

提取关系：

hr(冰箱，电器)

（2）多对单模式：多对单模式提取多个下位概念C1,C2,…,Cm和一个上位概念Cm+1，组成一组上下位关系hr(C1,Cm+1),hr(C2,Cm+1),…,hr(Cm,Cm+1)。如：

基本模式：<?C1>

<?C2>.【】.<?Cm>.【

】.<?Cm+1>

<?C1>.、.<?Cm>.【等】.<?Cm+1>

匹配句子：

【

】

【】【】

衣柜里面有{上衣}C1、{裤子}C2、{袍子}C3【等】很多{服装}C4提取关系：

hr(上衣,服装)，hr(裤子,服装)，hr(袍子,服装)

（3）单对多模式：单对多模式提取一个下位概念C1和多个上位概念C2,C3,…,Cm，组成一组上下位关系hr(C1,C2),hr(C1,C3),…,hr(C1,Cm)。如：

基本模式：<?C1>

<?C2>

<?C3>

<?C1>.【即是】.<?C2>.【又是】.<?C3>

匹配句子：

{扎西}C1【即是】{老师的一个好{学生}C2}【又是】妈妈的乖{儿子}C3提取关系：

hr(扎西,学生)，hr(扎西,儿子)

（4）多对多模式：多对多模式提取多个下位概念C1,C2,…,Cm和多个上位概念Cm+1,Cm+2,…,Cm+n，组成一组上下位关系hr(C1,Cm+1),hr(C2,Cm+1),…,hr(Cm,Cm+1),…,hr(C1,Cm+2),hr(C2,Cm+2),…,hr(Cm,Cm+2),…,hr(C1,Cm+n),hr(C2,Cm+n),…,hr(Cm,Cm+n)。如：

基本模式：<?C1>..<?C2>.

.<?C3>.

<?C4>

<?C1>.<、>.<?C2>.【既是】.<?C3>.【又是】.<?C4>

匹配句子：

{卓玛}C1、{格桑}C2【既是】校医院的{大夫}C3【又是】医学院的{老师}C4提取关系：

（5）多层次模式：多层次模式可以提取一组概念C1,C2,C3。使得hr(C1,C2)，hr(C2,C3)多层上下位关系成立，如：

基本模式：<?C1>.

.<?C2>.

.<?C3>

<?C1>.【是所有】.<?C2>.【中】.<?C3>

匹配句子：

{次央}C1【是所有】{服务员}C2【中】文化程度最高的{人}C3

提取关系：

提取关系：hr(次央,服务员)，hr(服务员,人)

2、模式匹配算法

模式匹配问题可以描述为：上下位关系模式集合P={p1,p2,…,pm}，语料库G，G中含有句子集合S={s1,s2,…,sn}，对任意s∈S，若通过模式匹配算法得到p1,p2,…,pk(pi∈P,i=1,2,…k)与s匹配，记作(s,{p1,p2,…,pk})，若不存在模式与s相匹配，则记作

。

模式匹配算法步骤如下：

上下位关系模式匹配算法

输入：上下位关系模式集合P，语料库G，

输出：模式匹配结果

Step1:预处理，将语料G分割转换为句子序列S={s1,s2,…,sn}；

Step2:若S不为空，对每一个句子s∈S，执行Step3-Step5；

Step3:对s先进行分词处理；

Step4:在P中搜索s所满足的上下位关系模式，得到s所满足上下位关系模式p1,p2,…,pk(pi∈P,i=1,2,…k)；

Step5:根据p1,p2,…,pk中每个模式的上位概念域和下位概念域属性提取对应的上位概念部分和下位概念部分；

Step6:输出所有匹配结果。

以上显示和描述了本发明的基本原理和主要特征和本发明的优点。本行业的技术人员应该了解，本发明不受上述实施例的限制，上述实施例和说明书中描述的只是说明本发明的原理，在不脱离本发明精神和范围的前提下，本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

Claims

1.一种藏语语义本体创建及词汇扩充方法，其特征在于，包括下列步骤：

1）基于知网中文词库，建立上层本体；

4）查找扩充后的本体概念的近义词；

6）对排序结果进行修订，编辑本体。

2.如权利要求1所述的一种藏语语义本体创建及词汇扩充方法，其特征在于，步骤3）所述的上下位关系是：如果给定概念C1和C2，C1的同义集合为{C1,C1′,…}，C2的同义集合为{C2,C2′,…}，若C2的外延包含C1的外延，则认为C1和C2具有上下位关系，其中C1称为C2的下位概念，C2称为C1的上位概念，记作hr(C1,C2)。

3.如权利要求1所述的一种藏语语义本体创建及词汇扩充方法，其特征在于，步骤3）所述的上下位关系模式包括单对单模式、多对单模式、单对多模式、多对多模式和多层次模式。

4.如权利要求3所述的一种藏语语义本体创建及词汇扩充方法，其特征在于，所述的单对单模式只提取一个下位概念C1和一个上位概念C2，组成一个上下位关系hr(C1,C2)。

5.如权利要求3所述的一种藏语语义本体创建及词汇扩充方法，其特征在于，所述的多对单模式提取多个下位概念C1,C2,…,Cm和一个上位概念Cm+1，组成一组上下位关系hr(C1,Cm+1),hr(C2,Cm+1),…,hr(Cm,Cm+1)。

6.如权利要求3所述的一种藏语语义本体创建及词汇扩充方法，其特征在于，所述的单对多模式提取一个下位概念C1和多个上位概念C2,C3,…,Cm，组成一组上下位关系hr(C1,C2),hr(C1,C3),…,hr(C1,Cm)。

7.如权利要求3所述的一种藏语语义本体创建及词汇扩充方法，其特征在于，所述的多对多模式提取多个下位概念C1,C2,…,Cm和多个上位概念Cm+1,Cm+2,…,Cm+n，组成一组上下位关系hr(C1,Cm+1),hr(C2,Cm+1),…,hr(Cm,Cm+1),…,hr(C1,Cm+2),hr(C2,Cm+2),…,hr(Cm,Cm+2),…,hr(C1,Cm+n),hr(C2,Cm+n),…,hr(Cm,Cm+n)。

8.如权利要求3所述的一种藏语语义本体创建及词汇扩充方法，其特征在于，所述的多层次模式提取一组概念C1,C2,C3，使得hr(C1,C2)，hr(C2,C3)多层上下位关系成立。

9.如权利要求1所述的一种藏语语义本体创建及词汇扩充方法，其特征在于，所述模式匹配为：上下位关系模式集合P={p1,p2,…,pm}，语料库G，G中含有句子集合S={s1,s2,…,sn}，对任意s∈S，若通过模式匹配算法得到p1,p2,…,pk(pi∈P,i=1,2,…k)与s匹配，记作(s,{p1,p2,…,pk})，若不存在模式与s相匹配，则记作

。

10.如权利要求9所述的一种藏语语义本体创建及词汇扩充方法，其特征在于，模式匹配组成部分包括：基本模式、匹配句子、提取关系。

11.如权利要求1所述的一种藏语语义本体创建及词汇扩充方法，其特征在于，步骤3）所述的上下位关系模式匹配算法包括下列步骤：

1）输入上下位关系模式集合P，语料库G；

2）预处理，将语料G分割转换为句子序列S={s1,s2,…,sn}；

3）若S不为空，对每一个句子s∈S，对s先进行分词处理；

6）输出所有匹配结果。