CN103473222A - 一种藏语语义本体创建及词汇扩充方法 - Google Patents
一种藏语语义本体创建及词汇扩充方法 Download PDFInfo
- Publication number
- CN103473222A CN103473222A CN2013104216424A CN201310421642A CN103473222A CN 103473222 A CN103473222 A CN 103473222A CN 2013104216424 A CN2013104216424 A CN 2013104216424A CN 201310421642 A CN201310421642 A CN 201310421642A CN 103473222 A CN103473222 A CN 103473222A
- Authority
- CN
- China
- Prior art keywords
- hyponymy
- concept
- ontology
- vocabulary
- pattern
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Machine Translation (AREA)
Abstract
本发明涉及少数民族文字处理方法,尤其涉及一种可以实现藏语语义本体创建及词汇扩充方法。其包括1)基于知网中文词库,建立上层本体;2)利用电子词典的释义,扩充上层本体中出现的概念的同义词;3)在多语言本体库中进行上层本体概念的上下位关系模式匹配算法,扩充上层本体概念;4)查找扩充后的本体概念的近义词;5)基于本体概念词汇语义相似度算法进行相似度从高到低的排序;6)对排序结果进行修订,编辑本体。本发明基于知网中文词库,建立上层本体,本体中的上下位关系定义了概念和概念之间的层次,基于这种上下位关系,可以获得更多语义新词,充实已有的藏语语义本体的词汇,极大的提高藏语信息处理精度。
Description
技术领域
本发明涉及少数民族文字处理方法,尤其涉及一种可以实现藏语语义本体创建及词汇扩充方法。
背景技术
词典中定义的概念本身并没有二义性,它能唯一地、准确地指向现实世界中的实体或对象。但在句处理中,句中的概念是由词表示的。例如概念词“木马”在下面三个句子中至少可以表示三种概念:
(1)木马是一种玩具。
(2)木马是一种运动器械。
(3)木马是一种病毒。
因此所谓概念二义性,就是由于一个概念词可以表示多个概念引起的。而藏语也会因为上下文语境的不同,其汉语有不同译文:
另外对藏语来说,有很多外来词和音译词,例如“成都”一词在藏语中有不同翻译:
语言文字本身存在的语义模糊性和歧义性增加了机器分析的难度。文字(对于计算机而言就是二进制数据)仅仅是传达语义的媒介,而语义的表达才是交流的核心和关键。
对具有某种知识水平的人来说,可以根据句子的语境理解概念要传达的明确语义。例如:如果“木马”同“计算机”“程序”等词同时在文中出现的话,那么可以根据已有知识,得到此处的“木马”应该指“木马”病毒的可能性最大。
语义的核心是知识,语义本体就是共享概念模型的显示的形式化规范说明,用于描述(特定领域的)知识。
我们可以创建计算机领域本体,如果这个领域本体中包含了“木马、计算机、程序”等概念,并定义了这些概念之间的关系,那么计算机在使用这个本体的时候,就相当于有了这些储备知识。
现有技术的缺点:汉、英等语言的语义本体创建技术都是在大规模语料库基础上利用算法统计产生的。但藏语的语言特点和数据稀疏性,导致成功应用于汉、英等语言的本体创建和词汇扩充技术无法直接照搬到藏语上。
发明内容
针对现有技术上存在的不足,本发明提供一种基于上下位关系模式匹配算法的藏语语义本体创建及词汇扩充方法。
为了实现上述目的,本发明是通过如下的技术方案来实现:
一种藏语语义本体创建及词汇扩充方法,其包括下列步骤:
1)基于知网中文词库,建立上层本体;
2)利用电子词典的释义,扩充上层本体中出现的概念的同义词;
3)在多语言本体库中进行上层本体概念的上下位关系模式匹配算法,扩充上层本体概念;
4)查找扩充后的本体概念的近义词;
5)基于本体概念词汇语义相似度算法进行相似度从高到低的排序;
6)对排序结果进行修订,编辑本体。
上述的一种藏语语义本体创建及词汇扩充方法,其步骤3)所述的上下位关系是:如果给定概念C1和C2,C1的同义集合为{C1,C1′,…},C2的同义集合为{C2,C2′,…},若C2的外延包含C1的外延,则认为C1和C2具有上下位关系,其中C1称为C2的下位概念,C2称为C1的上位概念,记作hr(C1,C2)。
上述的一种藏语语义本体创建及词汇扩充方法,其步骤3)所述的上下位关系模式包括单对单模式、多对单模式、单对多模式、多对多模式和多层次模式。
上述的一种藏语语义本体创建及词汇扩充方法,其所述的单对单模式只提取一个下位概念C1和一个上位概念C2,组成一个上下位关系hr(C1,C2)。
上述的一种藏语语义本体创建及词汇扩充方法,其所述的多对单模式提取多个下位概念C1,C2,…,Cm和一个上位概念Cm+1,组成一组上下位关系hr(C1,Cm+1),hr(C2,Cm+1),…,hr(Cm,Cm+1)。
上述的一种藏语语义本体创建及词汇扩充方法,其所述的单对多模式提取一个下位概念C1和多个上位概念C2,C3,…,Cm,组成一组上下位关系hr(C1,C2),hr(C1,C3),…,hr(C1,Cm)。
上述的一种藏语语义本体创建及词汇扩充方法,其所述的多对多模式提取多个下位概念C1,C2,…,Cm和多个上位概念Cm+1,Cm+2,…,Cm+n,组成一组上下位关系hr(C1,Cm+1),hr(C2,Cm+1),…,hr(Cm,Cm+1),…,hr(C1,Cm+2),hr(C2,Cm+2),…,hr(Cm,Cm+2),…,hr(C1,Cm+n),hr(C2,Cm+n),…,hr(Cm,Cm+n)。
上述的一种藏语语义本体创建及词汇扩充方法,其所述的多层次模式提取一组概念C1,C2,C3,使得hr(C1,C2),hr(C2,C3)多层上下位关系成立。
上述的一种藏语语义本体创建及词汇扩充方法,其所述模式匹配为:上下位关系模式集合P={p1,p2,…,pm},语料库G,G中含有句子集合S={s1,s2,…,sn},对任意s∈S,若通过模式匹配算法得到p1,p2,…,pk(pi∈P,i=1,2,…k)与s匹配,记作(s,{p1,p2,…,pk}),若不存在模式与s相匹配,则记作。
上述的一种藏语语义本体创建及词汇扩充方法,其模式匹配组成部分包括:基本模式、匹配句子、提取关系。
上述的一种藏语语义本体创建及词汇扩充方法,其步骤3)所述的上下位关系模式匹配算法包括下列步骤:
1)输入上下位关系模式集合P,语料库G;
2)预处理,将语料G分割转换为句子序列S={s1,s2,…,sn};
3)若S不为空,对每一个句子s∈S,对s先进行分词处理;
4)在P中搜索s所满足的上下位关系模式,得到s所满足上下位关系模式p1,p2,…,pk(pi∈P,i=1,2,…k);
5)根据p1,p2,…,pk中每个模式的上位概念域和下位概念域属性提取对应的上位概念部分和下位概念部分;
6)输出所有匹配结果。
有益效果:
本发明基于知网中文词库,建立上层本体,本体中的上下位关系定义了概念和概念之间的层次,基于这种上下位关系,可以获得更多语义新词,充实已有的藏语语义本体的词汇,极大的提高藏语信息处理精度。
附图说明
图1为本发明的步骤流程图。
具体实施方式
为使本发明实现的技术手段、创作特征、达成目的与功效易于明白了解,下面结合具体实施方式,进一步阐述本发明。
采用藏语本体创建及词汇扩充方法,第一步,由知识工程师和语言专家手工建立上层本体,利用电子词典进行同义词扩充后,在多语言本体库(汉、英语言创建的本体)中根据对应的上下位关系模式进行基于模式匹配的词汇扩充和翻译。第二步,根据本体概念和对应的上下位关系,在已标注语料或电子词典中查找近义词,并基于词汇语义相似度算法进行相似度从高到低的排序。知识工程师对排序结果进行修订,编辑本体。
参照附图1,本发明包括如下步骤:
(1)由知识工程师和语言专家手工编辑建立基于Hownet的上位本体;并研究藏语上下位关系的模式表示方法;
(2)上位本体中出现的概念,利用电子词典的释义,创建概念的同义词词汇集;
(3)在多语言本体库(汉、英语言创建的本体)中进行概念的上下位关系模式匹配,扩充本体概念层次;
(4)本体概念和抽取的上下位关系模式匹配,在已标注语料或电子词典中查找近义词;
(5)基于词汇语义相似度算法进行相似度从高到低的排序;
(6)知识工程师对排序结果进行修订,编辑本体。
上下位关系,Hyponymy:如果给定概念C1和C2,C1的同义集合为{C1,C1’,…},C2的同义集合为{C2,C2’,…},若C2的外延包含C1的外延,则认为C1和C2具有上下位关系,其中C1称为C2的下位概念(hyponym),C2称为C1的上位概念(hypernym),记作hr(C1,C2)。判断hr(C1,C2)是否成立的简单方法是看句子:“C1是一种/类/个C2”是否可以接受。
1、上下位关系模式
(1)单对单模式:只提取一个下位概念C1和一个上位概念C2,组成一个上下位关系hr(C1,C2)。如:
基本模式:
<?C1>【是一种】<?C2>
{冰箱}C1【是一种】{电器}C2。
hr(冰箱,电器)
(2)多对单模式:多对单模式提取多个下位概念C1,C2,…,Cm和一个上位概念Cm+1,组成一组上下位关系hr(C1,Cm+1),hr(C2,Cm+1),…,hr(Cm,Cm+1)。如:
<?C1>.、.<?Cm>.【等】.<?Cm+1>
hr(上衣,服装),hr(裤子,服装),hr(袍子,服装)
(3)单对多模式:单对多模式提取一个下位概念C1和多个上位概念C2,C3,…,Cm,组成一组上下位关系hr(C1,C2),hr(C1,C3),…,hr(C1,Cm)。如:
<?C1>.【即是】.<?C2>.【又是】.<?C3>
hr(扎西,学生),hr(扎西,儿子)
(4)多对多模式:多对多模式提取多个下位概念C1,C2,…,Cm和多个上位概念Cm+1,Cm+2,…,Cm+n,组成一组上下位关系hr(C1,Cm+1),hr(C2,Cm+1),…,hr(Cm,Cm+1),…,hr(C1,Cm+2),hr(C2,Cm+2),…,hr(Cm,Cm+2),…,hr(C1,Cm+n),hr(C2,Cm+n),…,hr(Cm,Cm+n)。如:
<?C1>.<、>.<?C2>.【既是】.<?C3>.【又是】.<?C4>
(5)多层次模式:多层次模式可以提取一组概念C1,C2,C3。使得hr(C1,C2),hr(C2,C3)多层上下位关系成立,如:
<?C1>.【是所有】.<?C2>.【中】.<?C3>
{次央}C1【是所有】{服务员}C2【中】文化程度最高的{人}C3
提取关系:
提取关系:hr(次央,服务员),hr(服务员,人)
2、模式匹配算法
模式匹配问题可以描述为:上下位关系模式集合P={p1,p2,…,pm},语料库G,G中含有句子集合S={s1,s2,…,sn},对任意s∈S,若通过模式匹配算法得到p1,p2,…,pk(pi∈P,i=1,2,…k)与s匹配,记作(s,{p1,p2,…,pk}),若不存在模式与s相匹配,则记作。
模式匹配算法步骤如下:
上下位关系模式匹配算法
输入:上下位关系模式集合P,语料库G,
输出:模式匹配结果
Step1:预处理,将语料G分割转换为句子序列S={s1,s2,…,sn};
Step2:若S不为空,对每一个句子s∈S,执行Step3-Step5;
Step3:对s先进行分词处理;
Step4:在P中搜索s所满足的上下位关系模式,得到s所满足上下位关系模式p1,p2,…,pk(pi∈P,i=1,2,…k);
Step5:根据p1,p2,…,pk中每个模式的上位概念域和下位概念域属性提取对应的上位概念部分和下位概念部分;
Step6:输出所有匹配结果。
以上显示和描述了本发明的基本原理和主要特征和本发明的优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是说明本发明的原理,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。
Claims (11)
1.一种藏语语义本体创建及词汇扩充方法,其特征在于,包括下列步骤:
1)基于知网中文词库,建立上层本体;
2)利用电子词典的释义,扩充上层本体中出现的概念的同义词;
3)在多语言本体库中进行上层本体概念的上下位关系模式匹配算法,扩充上层本体概念;
4)查找扩充后的本体概念的近义词;
5)基于本体概念词汇语义相似度算法进行相似度从高到低的排序;
6)对排序结果进行修订,编辑本体。
2.如权利要求1所述的一种藏语语义本体创建及词汇扩充方法,其特征在于,步骤3)所述的上下位关系是:如果给定概念C1和C2,C1的同义集合为{C1,C1′,…},C2的同义集合为{C2,C2′,…},若C2的外延包含C1的外延,则认为C1和C2具有上下位关系,其中C1称为C2的下位概念,C2称为C1的上位概念,记作hr(C1,C2)。
3.如权利要求1所述的一种藏语语义本体创建及词汇扩充方法,其特征在于,步骤3)所述的上下位关系模式包括单对单模式、多对单模式、单对多模式、多对多模式和多层次模式。
4.如权利要求3所述的一种藏语语义本体创建及词汇扩充方法,其特征在于,所述的单对单模式只提取一个下位概念C1和一个上位概念C2,组成一个上下位关系hr(C1,C2)。
5.如权利要求3所述的一种藏语语义本体创建及词汇扩充方法,其特征在于,所述的多对单模式提取多个下位概念C1,C2,…,Cm和一个上位概念Cm+1,组成一组上下位关系hr(C1,Cm+1),hr(C2,Cm+1),…,hr(Cm,Cm+1)。
6.如权利要求3所述的一种藏语语义本体创建及词汇扩充方法,其特征在于,所述的单对多模式提取一个下位概念C1和多个上位概念C2,C3,…,Cm,组成一组上下位关系hr(C1,C2),hr(C1,C3),…,hr(C1,Cm)。
7.如权利要求3所述的一种藏语语义本体创建及词汇扩充方法,其特征在于,所述的多对多模式提取多个下位概念C1,C2,…,Cm和多个上位概念Cm+1,Cm+2,…,Cm+n,组成一组上下位关系hr(C1,Cm+1),hr(C2,Cm+1),…,hr(Cm,Cm+1),…,hr(C1,Cm+2),hr(C2,Cm+2),…,hr(Cm,Cm+2),…,hr(C1,Cm+n),hr(C2,Cm+n),…,hr(Cm,Cm+n)。
8.如权利要求3所述的一种藏语语义本体创建及词汇扩充方法,其特征在于,所述的多层次模式提取一组概念C1,C2,C3,使得hr(C1,C2),hr(C2,C3)多层上下位关系成立。
10.如权利要求9所述的一种藏语语义本体创建及词汇扩充方法,其特征在于,模式匹配组成部分包括:基本模式、匹配句子、提取关系。
11.如权利要求1所述的一种藏语语义本体创建及词汇扩充方法,其特征在于,步骤3)所述的上下位关系模式匹配算法包括下列步骤:
1)输入上下位关系模式集合P,语料库G;
2)预处理,将语料G分割转换为句子序列S={s1,s2,…,sn};
3)若S不为空,对每一个句子s∈S,对s先进行分词处理;
4)在P中搜索s所满足的上下位关系模式,得到s所满足上下位关系模式p1,p2,…,pk(pi∈P,i=1,2,…k);
5)根据p1,p2,…,pk中每个模式的上位概念域和下位概念域属性提取对应的上位概念部分和下位概念部分;
6)输出所有匹配结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2013104216424A CN103473222A (zh) | 2013-09-16 | 2013-09-16 | 一种藏语语义本体创建及词汇扩充方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2013104216424A CN103473222A (zh) | 2013-09-16 | 2013-09-16 | 一种藏语语义本体创建及词汇扩充方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN103473222A true CN103473222A (zh) | 2013-12-25 |
Family
ID=49798081
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2013104216424A Pending CN103473222A (zh) | 2013-09-16 | 2013-09-16 | 一种藏语语义本体创建及词汇扩充方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103473222A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104679836A (zh) * | 2015-02-06 | 2015-06-03 | 中国农业大学 | 一种农业本体自动扩充方法 |
CN104699778A (zh) * | 2015-03-10 | 2015-06-10 | 东南大学 | 一种基于机器学习的跨语言分类结构匹配方法 |
CN107451130A (zh) * | 2017-08-17 | 2017-12-08 | 齐鲁工业大学 | 一种结合中英知识资源的中文词语语义关系识别方法和装置 |
CN109325224A (zh) * | 2018-08-06 | 2019-02-12 | 中国地质大学(武汉) | 一种基于语义元语的词向量表征学习方法及系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101118538A (zh) * | 2007-09-17 | 2008-02-06 | 中国科学院计算技术研究所 | 中文命名实体中特征词项的识别方法和系统 |
US20080071521A1 (en) * | 2006-09-19 | 2008-03-20 | Alcatel Lucent | Method, used by computers, for developing an ontology from a text in natural language |
US20080294426A1 (en) * | 2007-05-21 | 2008-11-27 | Justsystems Evans Research, Inc. | Method and apparatus for anchoring expressions based on an ontological model of semantic information |
US20090234640A1 (en) * | 2008-03-13 | 2009-09-17 | Siemens Aktiengesellschaft | Method and an apparatus for automatic semantic annotation of a process model |
-
2013
- 2013-09-16 CN CN2013104216424A patent/CN103473222A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080071521A1 (en) * | 2006-09-19 | 2008-03-20 | Alcatel Lucent | Method, used by computers, for developing an ontology from a text in natural language |
US20080294426A1 (en) * | 2007-05-21 | 2008-11-27 | Justsystems Evans Research, Inc. | Method and apparatus for anchoring expressions based on an ontological model of semantic information |
CN101118538A (zh) * | 2007-09-17 | 2008-02-06 | 中国科学院计算技术研究所 | 中文命名实体中特征词项的识别方法和系统 |
US20090234640A1 (en) * | 2008-03-13 | 2009-09-17 | Siemens Aktiengesellschaft | Method and an apparatus for automatic semantic annotation of a process model |
Non-Patent Citations (1)
Title |
---|
邱莉榕等: "藏文语义本体中的上下位关系模式匹配算法", 《中文信息学报》 * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104679836A (zh) * | 2015-02-06 | 2015-06-03 | 中国农业大学 | 一种农业本体自动扩充方法 |
CN104679836B (zh) * | 2015-02-06 | 2018-11-20 | 中国农业大学 | 一种农业本体自动扩充方法 |
CN104699778A (zh) * | 2015-03-10 | 2015-06-10 | 东南大学 | 一种基于机器学习的跨语言分类结构匹配方法 |
CN107451130A (zh) * | 2017-08-17 | 2017-12-08 | 齐鲁工业大学 | 一种结合中英知识资源的中文词语语义关系识别方法和装置 |
CN107451130B (zh) * | 2017-08-17 | 2021-04-02 | 齐鲁工业大学 | 一种结合中英知识资源的中文词语语义关系识别方法和装置 |
CN109325224A (zh) * | 2018-08-06 | 2019-02-12 | 中国地质大学(武汉) | 一种基于语义元语的词向量表征学习方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10776566B2 (en) | System and method of document generation | |
US10496756B2 (en) | Sentence creation system | |
CN105808711B (zh) | 一种基于文本语义的概念生成模型的系统和方法 | |
CN110378409A (zh) | 一种基于要素关联注意力机制的汉越新闻文档摘要生成方法 | |
CN106126620A (zh) | 基于机器学习的中文自动文摘方法 | |
CN110991180A (zh) | 一种基于关键词和Word2Vec的命令识别方法 | |
Zhang et al. | HANSpeller++: A unified framework for Chinese spelling correction | |
Shiwen et al. | Rule-based machine translation | |
CN103678287A (zh) | 一种关键词翻译统一的方法 | |
CN104391837A (zh) | 一种基于格语义的智能语法分析方法 | |
CN103473222A (zh) | 一种藏语语义本体创建及词汇扩充方法 | |
Rivera et al. | A flexible framework for collocation retrieval and translation from parallel and comparable corpora | |
De Melo | Wiktionary-based word embeddings | |
Khanam et al. | Named Entity Recognition using Machine learning techniques for Telugu language | |
Paskaleva et al. | Second language acquisition from aligned corpora | |
CN108255818B (zh) | 利用分割技术的复合式机器翻译方法 | |
Tran et al. | Preordering for Chinese-Vietnamese statistical machine translation | |
Ziering et al. | Multilingual lexicon bootstrapping-improving a lexicon induction system using a parallel corpus | |
Chhetri et al. | Development of a morph analyser for Nepali noun token | |
Suryavanshi et al. | Hindi Multi-Document Text Summarization Using Text Rank Algorithm | |
Malik et al. | Qualitative Analysis of Contemporary Urdu Machine Translation Systems. | |
CN107391693A (zh) | 一种针对英文专利的信息提取与结构化描述方法 | |
Mi et al. | A Phrase Table Filtering Model Based on Binary Classification for Uyghur-Chinese Machine Translation. | |
Jamwal | Modeling translation of code mixed English-Dogri language | |
Nwet | Building bilingual corpus based on hybrid approach for myanmar-english machine translation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C12 | Rejection of a patent application after its publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20131225 |