CN103336852B - 跨语言本体构建方法及装置 - Google Patents

跨语言本体构建方法及装置 Download PDF

Info

Publication number
CN103336852B
CN103336852B CN201310314435.9A CN201310314435A CN103336852B CN 103336852 B CN103336852 B CN 103336852B CN 201310314435 A CN201310314435 A CN 201310314435A CN 103336852 B CN103336852 B CN 103336852B
Authority
CN
China
Prior art keywords
language
function
ontology
relation
equivalence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201310314435.9A
Other languages
English (en)
Other versions
CN103336852A (zh
Inventor
李涓子
王志刚
李双婕
李明洋
唐杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tsinghua University
Original Assignee
Tsinghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tsinghua University filed Critical Tsinghua University
Priority to CN201310314435.9A priority Critical patent/CN103336852B/zh
Publication of CN103336852A publication Critical patent/CN103336852A/zh
Application granted granted Critical
Publication of CN103336852B publication Critical patent/CN103336852B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Machine Translation (AREA)

Abstract

本发明公开了一种跨语言本体构建方法,所述方法包括以下步骤:对于两个异构跨语言在线百科数据库,各自学习一个带有置信度输出的二元分类函数,根据学习得到的本体构建函数构建各自的单语言本体;对于两个单语言本体,学习一个新的带有置信度输出的二元分类函数,根据学习得到的实例匹配函数发现跨语言等价关系;重复执行上述两步,在每次迭代中,使用跨语言验证方法校验并调整本体构建函数和实例匹配函数,以相互提高其学习效果,进而增量式构建一个高质量的、大规模的跨语言本体。本发明同时公开了一种跨语言本体构建装置,包括以下模块:单语言本体构建模块;跨语言等价关系关联模块;迭代模块。

Description

跨语言本体构建方法及装置
技术领域
本发明涉及语义万维网技术领域,特别涉及一种跨语言本体构建方法。
背景技术
语义万维网是当前万维网的扩展,含有精确语义信息的数据的网络是语义万维网的核心。万维网Tim Berners-Lee提出的开放链接数据项目旨在构建一个数据网络,本体或语义知识库是构成该数据网络的根本。
在语义万维网环境下,多语言本体,知识库,数据库对于多语言信息检索、机器翻译、知识问答等重要领域发挥着重要作用。通过集成111种不同语言的维基百科数据库,DBpedia是一个多领域多语言的大规模语义知识库。YAGO、MENTA和BabelNet是其他知名的大规模多语言本体,它们均通过自动化集成WordNet和维基百科生成。
然而,现有大规模多语言数据库仍存在如下问题:1)非英文知识数量不足。数据库不同语言版本发展的不平衡性,导致现有多语言本体中非英文知识的数量极其稀少;2)本体语义关系中存在大量噪音。由于大多语义关系,概念与概念的关系和实例与实例的关系直接来源于数据库的分类体系,导致其包含大量的不合法的噪音;3)不同语言间等价实体对数量稀少。这些等价实体对受限于数据库现有的跨语言链接的数量。
发明内容
(一)要解决的技术问题
本发明要解决现有百科中非英文知识稀少、大量语义关系噪音存在以及跨语言等价实体对数量不足的问题。
(二)技术方案
为解决上述技术问题,本发明提供一种跨语言本体的构建方法,包括以下步骤:
1)对于两个异构跨语言在线数据库,每个数据库学习本语言的带有置信度输出的二元分类函数,进行预测本语言下两个实体之间正确的语义关系,根据学习得到的本体构建函数构建本语言的单语言本体,共构建两个单语言本体;
2)对于已建的两个单语言本体,同时学习一个新的带有置信度输出的二元分类函数,预测不同语言下两个实例之间正确的等价关系,根据学习得到的实例匹配函数实现跨语言等价关系的关联;
3)重复执行步骤1)和步骤2),在每次迭代中,使用跨语言验证方法校验并调整本体构建函数和实例匹配函数,进而增量式构建一个跨语言本体。
优选的,在步骤1)中,对于异构跨语言在线数据库,每个数据库使用字母化和/或公式化表示为一个不同的图结构G=(V,E),其中,v∈V表示一个实体,eij∈E表示两个实体vi和vj之间是否存在子分类或者分类关系;
然后生成一个不同的单语言本体O=(X,Y),其中,x∈X表示一个实体,yij∈Y表示两个实体xi和xj之间是否存在概念或者实例关系,其中V、E、X、Y表示实体。
进一步的,所述各个数据库对应所学函数如下:
g:V×V→[0,1]
其置信度输出表示两个实体之间存在正确的语义关系的概率值,1表示存在,0表示不存在,通过人工标注适量的训练数据,所述方法使用逻辑斯蒂回归模型以分别学习本体构建函数g。
优选的,步骤2)中对于每个不同的单语言本体O=(X,Y)给定一个与之对应的初始等价实例集合跨语言实例匹配生成更多的等价实例,表示为所述方法学习一个带有置信度输出的二元分类函数,以预测不同语言下两个实例之间正确的等价关系,所各个数据库对应跨语言实例匹配函数f如下:
f:X×X′→[0,1]。
其置信度输出表示两个实例之间存在正确的等价关系的概率值,1表示存在,0表示不存在,其中X、Y表示实体,n、m为自然数,a为集合A的子集。
进一步的,所述方法包括以下步骤:
B1:对于两个在线数据库中的每一个词条,以该词条及其链接的词条构建一个局部图结构,该图的边表示两个词条之间存在一个链接关系;采用最大团发现算法,得到该局部图的最大子团;如果该子团包含5个以上词条,则将该局部图中的链接关系从G中剔除;
B2:对于两个在线数据库中的每一个词条,使用n元语法模型从该词条的文本描述中标注更多的词条链接关系;
B3:通过自动的随机抽样选取一定的正例、负例训练数据,使用逻辑斯蒂回归模型,在经过B1和B2修改后的在线数据库上计算语义相似度特征值,用以学习跨语言实例匹配函数f。
B4:使用所学实例匹配函数f,发现更多的跨语言实例等价关系;
B5:对于预测得到的实例等价关系,采用启发式验证方法,剔除可信度较低的等价关系。
进一步的,在步骤B3中,逻辑斯蒂回归模型使用文本相似度特征和结构相似度特征。
进一步的,在步骤B5包括以下步骤:
B51:多等价关系剔除,即如果实例x和单语言本体O=(X,Y)中的多个实体存在等价关系,则将这些等价关系全部剔除;
B52:数字和大写英文字母剔除,即如果等价实例对中有且只有一个实例的名称包含一个由多于两个连续的数字或大写英文字母构成的子串,则将此等价关系剔除。
优选的,在步骤3)中包括以下步骤:
C1:使用跨语言验证方法,校验并调整单语言本体构建函数g;
C2:使用跨语言验证方法,校验并调整跨语言实例匹配函数f;
C3:重复执行C1和C2,直至构建一个符合期望的跨语言本体。
进一步的,在第t次迭代中,所述步骤C1包括步骤:
C11:使用当前训练数据学习本体构建函数g(t)
C12:使用学习得到的函数g(t)预测未标注数据中正确的语义关系;
C13:使用当前迭代中的跨语言等价实例对验证C12预测的结果,方法如下:
如果f(t)(x1,x′1)>θ(t)并且f(t)(x2,x′2)>θ(t),则令
当且仅当
以及当且仅当
其中,阈值θ(t)可通过实验设置获得,推荐设置为0.9、0.5和0.5,更大的阈值会生成更严格的验证结果, 表示对应的g(t)函数;
C14:使用跨语言验证后的预测结果扩充训练数据;
C15:在下一次迭代t+1中重复进行C11至C14。
进一步的,在第t次迭代中,所述步骤C2包括步骤:
C21:使用当前初始的等价实例集合学习实例匹配函数f(t)
C22:使用学习得到的函数f(t)预测未标注数据中的等价关系;
C23:在当前迭代中对C12预测的结果进行跨语言验证,方法如下:
如果f(t)(x,x′)>θ(t),则
f(t)(x,x′)=1;
其中,阈值θ(t)设置同步骤C13;
C24:使用跨语言验证后的预测结果扩充初始的等价实例集合;
C25:在下一次迭代t+1中重复进行C21至C24。
一种跨语言本体构建系统,包括以下模块:
1)单语言本体构建模块,用于对两个异构跨语言在线数据库,使每个数据库学习本语言的带有置信度输出的二元分类函数,进行预测本语言下两个实体之间正确的语义关系,根据学习得到的本体构建函数构建本语言的单语言本体,共构建两个单语言本体;
2)跨语言等价关系关联模块,用于对两个单语言本体,使之同时学习一个新的带有置信度输出的二元分类函数,进行预测不同语言下两个实例之间正确的等价关系,根据学习得到的实例匹配函数实现跨语言等价关系的关联;
3)迭代模块,用于重复执行单语言本体构建模块和跨语言等价关系关联模块处理的数据,在每次迭代中,使用跨语言验证方法校验并调整本体构建函数和实例匹配函数,进而增量式构建一个跨语言本体。
(三)有益效果
本发明所述的大规模跨语言本体的构建方法,从两个异构的跨语言在线百科数据库出发,监督学习本体构建函数和实例匹配函数,并采用带有跨语言验证的增量式迭代优化方法,从而构建一个高质量的、大规模的跨语言本体。所述方法有利于解决现有多语言本体中存在的问题,包括非英文知识稀少、大量语义关系噪音存在以及跨语言等价实体对数量不足。
附图说明
图1是本发明的大规模跨语言本体构建的流程图;
图2是本发明的增量式优化跨语言本体构建的流程图。
具体实施方式
下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明,但不用来限制本发明的范围。
图1是本发明的大规模跨语言本体构建的流程图,图2是本发明的增量式优化跨语言本体构建的流程图。本实施例使用如图1、图2所示的方法。在实施例中,具体的数据库以在线百科为例,所采用的方法如下:
步骤1):对于两个异构跨语言在线百科数据库,如互动百科和英文维基百科,形式化表示为两个图结构G1=(V,E)和G2=(V′,E′),每一个数据库和图结构一一对应。其中,v∈V表示一个实体(分类或词条),eij∈E表示两个实体vi和vj之间是否存在子分类或者分类关系。分别生成两个单语言本体O1=(X,Y)和O2=(X′Y′)。其中,x∈X表示一个实体,概念或者实例,yij∈Y表示两个实体xi和xj之间是否存在概念和概念或者实例和实例的关系。
分别学习各自对应的一个带有置信度输出的二元分类函数,以预测同一语言下两个实体之间正确的语义关系。所学函数如下:
第一数据库学习g1:V×V→[0,1];
第二数据库学习g2:V×V′→[0,1]。
其置信度输出表示两个实体之间存在正确的语义关系,概念和概念或实例和实例的概率值,1表示一定存在,0表示一定不存在。
通过人工标注适量的训练数据,所述方法使用逻辑斯蒂回归模型以分别学习各自的本体构建函数g1和g2,逻辑斯蒂回归模型使用的特征如表1所示。
其中,特征10的计算方法如下:列出当前父分类的所有子分类;计算所有子分类中每一个单词的词频;子分类评分即当前子分类所有单词词频之和。特征11计算方法类似。
表1 定义了概念和概念关系的特征计算方法,
表1 本体构建函数g1的特征定义
实例和实例的关系特征的计算方法类似,只需将表中的父分类改为分类、子分类改为词条即可。对于本体构建函数g2,分别将特征1和特征2更改为“父分类是否为子分类的前半部分子串”和“父分类是否为子分类的后半部分子串”,并且字符串处理的基本单元由单词更改为单个汉字。
步骤2):对于两个单语言本体O1=(X,Y)和O2=(X′Y′),给定一个初始等价实例集合其中ai=(x,x′)表示一对跨语言等价实例,跨语言实例匹配的目的即生成更多的等价实例,表示为所述方法学习一个带有置信度输出的二元分类函数,以预测不同语言下两个实例之间正确的等价关系。跨语言实例匹配函数f如下:
f:X×X′→[0,1]。
其置信度输出表示两个实例之间存在正确的等价关系的概率值,1表示一定存在,0表示一定不存在。
所述步骤2)具体包括以下步骤:
B1:对于两个在线百科数据库中的每一个词条,以该词条及其链接的词条构建一个局部图结构,该图的边表示两个词条之间存在一个链接关系;采用最大团发现算法,得到该局部图的最大子团;如果该子团包含5个以上词条,则将该局部图中的链接关系从G1或G2中剔除;
B2:对于两个在线百科数据库中的每一个词条,使用n元语法模型从该词条的文本描述中标注更多的词条链接关系;
B3:通过自动的随机抽样选取一定的正例、负例训练数据,使用逻辑斯蒂回归模型,在经过B1和B2修改后的在线百科数据库上计算语义相似度特征值,以学习跨语言实例匹配函数f。
逻辑斯蒂回归模型使用文本相似度特征和结构相似度特征。文本相似度主要使用实例名称间的编辑距离d(x,x′),其计算公式如下:
d(x,x′)=1-|{ops}|/max(|label(x)|,|label(x′)|),
其中,label(x)为实例x的名称,label(x′)为实例x′的名称,|label(x)|表示label(x)所对应的字符串的长度,|label(x′)|表示label(x′)所对应的字符串的长度,|{ops}|为将label(x)所对应的字符串转化为label(x′)所对应的字符串所需要的删除、替换和插入操作的次数。
结构相似度主要使用实例相关的集合相似度s(x,x′),其计算公式如下:
s(x,x′)=2·|φ1→2(Sx∩Sx′)|/(|φ1→2(Sx)|+|Sx′|),
其中,Sx表示与实例x相关的实例集合,Sx′表示与实例x′相关的实例集合,φ1→2(·)将G1中的实体映射为G2中存在的等价的实体,|·|表示对应集合的大小。
跨语言实例匹配逻辑斯蒂回归模型使用的特征如表2所示。
表2 实例匹配函数f的特征定义
B4:使用所学实例匹配函数f,发现更多的跨语言实例等价关系;
B5:对于预测得到的实例等价关系,采用启发式验证方法,剔除可信度较低的等价关系。具体包括:
B51:多等价关系剔除,即如果实例x和O2中的多个实体存在等价关系,则将这些等价关系全部剔除。例如匹配结果(美国,USA)和匹配(美国,UK)同时出现,则将其全部剔除;
B52:数字和大写英文字母剔除,即如果等价实例对中有且只有一个实例的名称包含一个由多于两个连续的数字或大写英文字母构成的子串,则将此等价关系剔除。例如匹配结果(1936年,1936)将保留,而结果(12月1日,1936)将被剔除。
步骤3):重复执行步骤A和步骤B,在每次迭代中,使用跨语言验证方法校验并调整本体构建函数和实例匹配函数,以相互提高其学习效果,进而增量式构建一个高质量的、大规模的跨语言本体。
所述步骤3)具体包括:
C1:使用跨语言验证方法,校验并调整单语言本体构建函数g1和g2
C2:使用跨语言验证方法,校验并调整跨语言实例匹配函数f;
C3:重复执行C1和C2,直至构建一个高质量的大规模跨语言本体。
在第t次迭代中,所述步骤C1具体包括:
C11:使用当前训练数据学习本体构建函数
C12:使用学习得到的函数预测未标注数据中正确的语义关系;
C13:使用当前迭代中的跨语言等价实例对验证C12预测的结果,方法如下:
如果f(t)(x1,x′1)>θ(t)并且f(t)(x2,x′2)>θ(t),则令
当且仅当
以及当且仅当
其中,阈值θ(t)可通过实验设置获得,推荐设置为0.9、0.5和0.5,更大的阈值会生成更严格的验证结果;
C14:使用跨语言验证后的预测结果扩充训练数据;
C15:在下一次迭代t+1中重复进行C11至C14。
同时,在第t次迭代中,所述步骤C2具体包括:
C21:使用当前初始的等价实例集合学习实例匹配函数f(t)
C22:使用学习得到的函数f(t)预测未标注数据中的等价关系;
C23:在当前迭代中对C12预测的结果进行跨语言验证,方法如下:
如果f(t)(x,x′)>θ(t),则令
f(t)(x,x′)=1;
其中,阈值θ(t)设置同步骤C13;
C24:使用跨语言验证后的预测结果扩充初始的等价实例集合;
C25:在下一次迭代t+1中重复进行C21至C24。
采用本发明的方法进行了实验,具体实验过程如下:
1、评测指标。评估本体构建和实例匹配方法的优劣,我们以查准率、查全率和F1-Measure来评价实验结果,具体定义如下:
查准率precision:P=预测的正确的结果数目/预测的全部的结果数目
查全率recall:R=预测的正确的结果数目/标准结果的数目
F1-Measure:F1=2PR/(P+R)
2、数据集介绍。实验采用英文维基百科和互动百科为数据集。数据集相关信息如表3所示。在此基础上,生成了126,221对初始的跨语言等价实例对。
表3 数据集相关统计
3、实验结果与分析
采用以上数据集和本发明的方法,进行3次迭代实验,得到概念和概念关系与实例和实例的关系的结果评测分别如表4、表5所示。从中可见,经过迭代优化后,本体构建的效果有了大幅度的提高。特别地,经过3次迭代,中文实例和实例的关系构建的F1-Measure最高提高了32%。
表4 概念和概念关系结果分析
表5 实例和实例的关系结果分析
实例匹配方面,经过100次迭代,成功发现31,108对新的跨语言等价实例对。最终构建的大规模跨语言本体相关统计入表6所示。
表6 实验所构建本体的相关统计
本发明实施例所述的大规模跨语言本体的构建方法,从两个异构的跨语言在线百科数据库出发,监督学习本体构建函数和实例匹配函数,并采用带有跨语言验证的增量式迭代优化方法,从而构建一个高质量的、大规模的跨语言本体。所述方法有利于解决现有多语言本体中存在的问题(包括非英文知识稀少、大量语义关系噪音存在以及跨语言等价实体对数量不足)。
以上实施方式仅用于说明本发明,而并非对本发明的限制,有关技术领域的普通技术人员,在不脱离本发明的精神和范围的情况下,还可以做出各种变化和变型,因此所有等同的技术方案也属于本发明的范畴,本发明的专利保护范围应由权利要求限定。

Claims (7)

1.一种跨语言本体构建方法,其特征在于,包括以下步骤:
1)对于两个异构跨语言在线数据库,使每个数据库学习本语言的带有置信度输出的二元分类函数,用于进行预测本语言下两个实体之间正确的语义关系,根据学习得到的本体构建函数构建本语言的单语言本体,共构建两个单语言本体;
2)对于已构建的两个单语言本体,使他们同时学习一个新的带有置信度输出的二元分类函数,用于预测不同语言下两个实例之间正确的等价关系,根据学习得到的实例匹配函数实现跨语言等价关系的关联;
3)重复执行步骤1)和步骤2),在每次迭代中,使用跨语言验证方法校验并调整本体构建函数和实例匹配函数,进而增量式构建一个跨语言本体;
所述步骤2)包括以下步骤:
B1:对于异构跨语言在线数据库,每个数据库使用字母化和/或公式化表示为一个不同的图结构G=(V,E),其中,V中任一元素v,v∈V表示一个实体,E中任一元素eij,eij∈E表示两个实体vi和vj之间是否存在子分类或者分类关系;对于两个在线数据库中的每一个词条,以该词条及其链接的词条构建一个局部图结构,该图的边表示两个词条之间存在一个链接关系;采用最大团发现算法,得到该局部图的最大子团;如果该子团包含5个以上词条,则将该局部图中的链接关系从G中剔除;
B2:对于两个在线数据库中的每一个词条,使用n元语法模型从该词条的文本描述中标注更多的词条链接关系;
B3:通过自动的随机抽样选取一定的正例、负例训练数据,使用逻辑斯蒂回归模型,在经过B1和B2修改后的在线数据库上计算语义相似度特征值,用以学习跨语言实例匹配函数f;
B4:使用所学实例匹配函数f,发现更多的跨语言实例等价关系;
B5:对于预测得到的实例等价关系,采用启发式验证方法,剔除可信度较低的等价关系;
所述步骤3)中包括以下步骤:
C1:使用跨语言验证方法,校验并调整单语言本体构建函数g;
C2:使用跨语言验证方法,校验并调整跨语言实例匹配函数f;
C3:重复执行C1和C2,直至构建一个符合期望的跨语言本体;
在第t次迭代中,所述步骤C1包括步骤:
C11:使用当前训练数据学习本体构建函数g(t)
C12:使用学习得到的函数g(t)预测未标注数据中正确的语义关系;
C13:使用当前迭代中的跨语言等价实例对验证C12预测的结果,方法如下:
如果f(t)(x1,x′1)>θ(t)并且f(t)(x2,x′2)>θ(t),则令
当且仅当
g 1 ( t ) ( x 1 , x 2 ) + g 2 ( t ) ( x 1 ′ , x 2 ′ ) > ( τ 1 ( t ) + τ 2 ( t ) ) ;
以及当且仅当
g 1 ( t ) ( x 1 , x 2 ) + g 2 ( t ) ( x 1 &prime; , x 2 &prime; ) < ( &tau; 1 ( t ) + &tau; 2 ( t ) ) ;
其中,阈值θ(t)可通过实验设置获得,推荐设置为0.9、0.5和0.5,更大的阈值会生成更严格的验证结果, 表示对应的g(t)函数;
C14:使用跨语言验证后的预测结果扩充训练数据;
C15:在下一次迭代t+1中重复进行C11至C14;
在第t次迭代中,所述步骤C2包括步骤:
C21:使用当前初始的等价实例集合学习实例匹配函数f(t)
C22:使用学习得到的函数f(t)预测未标注数据中的等价关系;
C23:在当前迭代中对C12预测的结果进行跨语言验证,方法如下:
如果f(t)(x,x′)>θ(t),则
f(t)(x,x′)=1;
其中,阈值θ(t)设置同步骤C13;
C24:使用跨语言验证后的预测结果扩充初始的等价实例集合;
C25:在下一次迭代t+1中重复进行C21至C24。
2.根据权利要求1所述的跨语言本体构建方法,其特征在于,所述步骤1)中,对于异构跨语言在线数据库,每个数据库生成一个不同的单语言本体O=(X,Y),其中,x∈X表示一个实体,yij∈Y表示两个实体xi和xj之间是否存在概念或者实例关系,其中V、E、X、Y表示实体。
3.根据权利要求2所述的跨语言本体构建方法,其特征在于,所述各个数据库对应所学函数如下:
g:V×V→[0,1]
其置信度输出表示两个实体之间存在正确的语义关系的概率值,1表示存在,0表示不存在,通过人工标注适量的训练数据,所述方法使用逻辑斯蒂回归模型以分别学习本体构建函数g。
4.根据权利要求2所述的方法,其特征在于,所述步骤2)中对于每个不同的单语言本体O=(X,Y)给定一个与之对应的初始等价实例集合跨语言实例匹配生成更多的等价实例,表示为所述步骤2)学习一个带有置信度输出的二元分类函数,以预测不同语言下两个实例之间正确的等价关系,各个数据库对应跨语言实例匹配函数f如下:
f:X×X′→[0,1]
其置信度输出表示两个实例之间存在正确的等价关系的概率值,1表示存在,0表示不存在,其中X、Y表示实体,n、m为自然数,a为集合A的子集。
5.根据权利要求1所述的跨语言本体构建方法,其特征在于,所述步骤B3中,逻辑斯蒂回归模型使用文本相似度特征和结构相似度特征。
6.根据权利要求1所述的跨语言本体构建方法,其特征在于,所述步骤B5包括以下步骤:
B51:多等价关系剔除,即如果实例x和单语言本体O=(X,Y)中的多个实体存在等价关系,则将这些等价关系全部剔除;
B52:数字和大写英文字母剔除,即如果等价实例对中有且只有一个实例的名称包含一个由多于两个连续的数字或大写英文字母构成的子串,则将此等价关系剔除。
7.一种跨语言本体构建装置,其特征在于,包括以下模块:
1)单语言本体构建模块,用于对两个异构跨语言在线数据库,使每个数据库学习本语言的带有置信度输出的二元分类函数,进行预测本语言下两个实体之间正确的语义关系,根据学习得到的本体构建函数构建本语言的单语言本体,共构建两个单语言本体;
2)跨语言等价关系关联模块,用于对两个单语言本体,使之同时学习一个新的带有置信度输出的二元分类函数,进行预测不同语言下两个实例之间正确的等价关系,根据学习得到的实例匹配函数实现跨语言等价关系的关联;
3)迭代模块,用于重复执行单语言本体构建模块和跨语言等价关系关联模块处理的数据,在每次迭代中,使用跨语言验证方法校验并调整本体构建函数和实例匹配函数,进而增量式构建一个跨语言本体;
所述跨语言等价关系关联模块,用于:
B1:对于异构跨语言在线数据库,每个数据库使用字母化和/或公式化表示为一个不同的图结构G=(V,E),其中,V中任一元素v,v∈V表示一个实体,E中任一元素eij,eij∈E表示两个实体vi和vj之间是否存在子分类或者分类关系;对于两个在线数据库中的每一个词条,以该词条及其链接的词条构建一个局部图结构,该图的边表示两个词条之间存在一个链接关系;采用最大团发现算法,得到该局部图的最大子团;如果该子团包含5个以上词条,则将该局部图中的链接关系从G中剔除;
B2:对于两个在线数据库中的每一个词条,使用n元语法模型从该词条的文本描述中标注更多的词条链接关系;
B3:通过自动的随机抽样选取一定的正例、负例训练数据,使用逻辑斯蒂回归模型,在经过B1和B2修改后的在线数据库上计算语义相似度特征值,用以学习跨语言实例匹配函数f;
B4:使用所学实例匹配函数f,发现更多的跨语言实例等价关系;
B5:对于预测得到的实例等价关系,采用启发式验证方法,剔除可信度较低的等价关系;
所述迭代模块,用于:
C1:使用跨语言验证方法,校验并调整单语言本体构建函数g;
C2:使用跨语言验证方法,校验并调整跨语言实例匹配函数f;
C3:重复执行C1和C2,直至构建一个符合期望的跨语言本体;
在第t次迭代中,所述步骤C1包括步骤:
C11:使用当前训练数据学习本体构建函数g(t)
C12:使用学习得到的函数g(t)预测未标注数据中正确的语义关系;
C13:使用当前迭代中的跨语言等价实例对验证C12预测的结果,方法如下:
如果f(t)(x1,x′1)>θ(t)并且f(t)(x2,x′2)>θ(t),则令
当且仅当
g 1 ( t ) ( x 1 , x 2 ) + g 2 ( t ) ( x 1 &prime; , x 2 &prime; ) > ( &tau; 1 ( t ) + &tau; 2 ( t ) ) ;
以及当且仅当
g 1 ( t ) ( x 1 , x 2 ) + g 2 ( t ) ( x 1 &prime; , x 2 &prime; ) < ( &tau; 1 ( t ) + &tau; 2 ( t ) ) ;
其中,阈值θ(t)可通过实验设置获得,推荐设置为0.9、0.5和0.5,更大的阈值会生成更严格的验证结果, 表示对应的g(t)函数;
C14:使用跨语言验证后的预测结果扩充训练数据;
C15:在下一次迭代t+1中重复进行C11至C14;
在第t次迭代中,所述步骤C2包括步骤:
C21:使用当前初始的等价实例集合学习实例匹配函数f(t)
C22:使用学习得到的函数f(t)预测未标注数据中的等价关系;
C23:在当前迭代中对C12预测的结果进行跨语言验证,方法如下:
如果f(t)(x,x′)>θ(t),则
f(t)(x,x′)=1;
其中,阈值θ(t)设置同步骤C13;
C24:使用跨语言验证后的预测结果扩充初始的等价实例集合;
C25:在下一次迭代t+1中重复进行C21至C24。
CN201310314435.9A 2013-07-24 2013-07-24 跨语言本体构建方法及装置 Active CN103336852B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310314435.9A CN103336852B (zh) 2013-07-24 2013-07-24 跨语言本体构建方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310314435.9A CN103336852B (zh) 2013-07-24 2013-07-24 跨语言本体构建方法及装置

Publications (2)

Publication Number Publication Date
CN103336852A CN103336852A (zh) 2013-10-02
CN103336852B true CN103336852B (zh) 2017-04-05

Family

ID=49245017

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310314435.9A Active CN103336852B (zh) 2013-07-24 2013-07-24 跨语言本体构建方法及装置

Country Status (1)

Country Link
CN (1) CN103336852B (zh)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104361224B (zh) * 2014-10-31 2018-08-03 深圳信息职业技术学院 置信分类方法及置信机器
CN105260488B (zh) * 2015-11-30 2018-10-02 哈尔滨工业大学 一种用于语义理解的文本序列迭代方法
CN106570191B (zh) * 2016-11-11 2020-05-26 浙江大学 基于维基百科的中英文跨语言实体匹配方法
CN106682209A (zh) * 2016-12-30 2017-05-17 吉林大学 一种跨语言科技文献检索方法及系统
CN106875014B (zh) * 2017-03-02 2021-06-15 上海交通大学 基于半监督学习的软件工程知识库的自动化构建实现方法
CN110019474B (zh) * 2017-12-19 2022-03-04 北京金山云网络技术有限公司 异构数据库中的同义数据自动关联方法、装置及电子设备
CN110019810B (zh) * 2018-01-02 2021-05-04 中国移动通信有限公司研究院 一种本体匹配方法、装置和计算机存储介质
CN109447267B (zh) * 2018-10-16 2021-04-06 东北石油大学 融合数据元标准的叙词本体构建方法
CN109947953B (zh) * 2019-03-27 2022-05-17 武汉市软迅科技有限公司 英语领域知识本体的构造方法、系统及设备
CN110442727A (zh) * 2019-06-24 2019-11-12 厦门美域中央信息科技有限公司 一种基于跨语言知识链接的领域本体质量控制方法
CN112860913B (zh) * 2021-02-24 2024-03-08 广州汇通国信科技有限公司 一种知识图谱的本体创建方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5301109A (en) * 1990-06-11 1994-04-05 Bell Communications Research, Inc. Computerized cross-language document retrieval using latent semantic indexing
CN102411636A (zh) * 2011-12-30 2012-04-11 北京理工大学 一种针对主题漂移问题的跨语言文本分类方法
CN102779135A (zh) * 2011-05-13 2012-11-14 北京百度网讯科技有限公司 跨语言获取搜索资源的方法和装置及对应搜索方法和装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9495358B2 (en) * 2006-10-10 2016-11-15 Abbyy Infopoisk Llc Cross-language text clustering

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5301109A (en) * 1990-06-11 1994-04-05 Bell Communications Research, Inc. Computerized cross-language document retrieval using latent semantic indexing
CN102779135A (zh) * 2011-05-13 2012-11-14 北京百度网讯科技有限公司 跨语言获取搜索资源的方法和装置及对应搜索方法和装置
CN102411636A (zh) * 2011-12-30 2012-04-11 北京理工大学 一种针对主题漂移问题的跨语言文本分类方法

Also Published As

Publication number Publication date
CN103336852A (zh) 2013-10-02

Similar Documents

Publication Publication Date Title
CN103336852B (zh) 跨语言本体构建方法及装置
CN108573411B (zh) 基于用户评论的深度情感分析和多源推荐视图融合的混合推荐方法
CN108897857B (zh) 面向领域的中文文本主题句生成方法
CN112199511B (zh) 跨语言多来源垂直领域知识图谱构建方法
Yu et al. A relationship extraction method for domain knowledge graph construction
Jung Semantic vector learning for natural language understanding
CN109271529B (zh) 西里尔蒙古文和传统蒙古文双文种知识图谱构建方法
WO2020000848A1 (zh) 面向海量非结构化文本的知识图谱自动构建方法及系统
WO2020224097A1 (zh) 智能语义文档推荐方法、装置及计算机可读存储介质
CN107463607B (zh) 结合词向量和自举学习的领域实体上下位关系获取与组织方法
Demir et al. Improving named entity recognition for morphologically rich languages using word embeddings
CN107025284A (zh) 网络评论文本情感倾向的识别方法及卷积神经网络模型
CN110888991B (zh) 一种弱标注环境下的分段式语义标注方法
CN110348227B (zh) 一种软件漏洞的分类方法及系统
CN111767325B (zh) 基于深度学习的多源数据深度融合方法
CN113392209B (zh) 一种基于人工智能的文本聚类方法、相关设备及存储介质
CN114896388A (zh) 一种基于混合注意力的层级多标签文本分类方法
CN113312480B (zh) 基于图卷积网络的科技论文层级多标签分类方法及设备
Nasim et al. Sentiment analysis on Urdu tweets using Markov chains
CN112199508A (zh) 一种基于远程监督的参数自适应农业知识图谱推荐方法
Gu et al. Enhancing text classification by graph neural networks with multi-granular topic-aware graph
CN115935995A (zh) 面向知识图谱生成的非遗丝织领域实体关系抽取方法
Lubis et al. spelling checking with deep learning model in analysis of Tweet data for word classification process
Tianxiong et al. Identifying chinese event factuality with convolutional neural networks
Lagutina et al. A survey of models for constructing text features to classify texts in natural language

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant