CN103336852A

CN103336852A - 跨语言本体构建方法及装置

Info

Publication number: CN103336852A
Application number: CN2013103144359A
Authority: CN
Inventors: 李涓子; 王志刚; 李双婕; 李明洋; 唐杰
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2013-07-24
Filing date: 2013-07-24
Publication date: 2013-10-02
Anticipated expiration: 2033-07-24
Also published as: CN103336852B

Abstract

本发明公开了一种跨语言本体构建方法，所述方法包括以下步骤：对于两个异构跨语言在线百科数据库，各自学习一个带有置信度输出的二元分类函数，根据学习得到的本体构建函数构建各自的单语言本体；对于两个单语言本体，学习一个新的带有置信度输出的二元分类函数，根据学习得到的实例匹配函数发现跨语言等价关系；重复执行上述两步，在每次迭代中，使用跨语言验证方法校验并调整本体构建函数和实例匹配函数，以相互提高其学习效果，进而增量式构建一个高质量的、大规模的跨语言本体。本发明同时公开了一种跨语言本体构建装置，包括以下模块：单语言本体构建模块；跨语言等价关系关联模块；迭代模块。

Description

跨语言本体构建方法及装置

技术领域

本发明涉及语义万维网技术领域，特别涉及一种跨语言本体构建方法。

背景技术

语义万维网是当前万维网的扩展，含有精确语义信息的数据的网络是语义万维网的核心。万维网Tim Berners-Lee提出的开放链接数据项目旨在构建一个数据网络，本体或语义知识库是构成该数据网络的根本。

在语义万维网环境下，多语言本体，知识库，数据库对于多语言信息检索、机器翻译、知识问答等重要领域发挥着重要作用。通过集成111种不同语言的维基百科数据库，DBpedia是一个多领域多语言的大规模语义知识库。YAGO、MENTA和BabelNet是其他知名的大规模多语言本体，它们均通过自动化集成WordNet和维基百科生成。

然而，现有大规模多语言数据库仍存在如下问题：1）非英文知识数量不足。数据库不同语言版本发展的不平衡性，导致现有多语言本体中非英文知识的数量极其稀少；2）本体语义关系中存在大量噪音。由于大多语义关系，概念与概念的关系和实例与实例的关系直接来源于数据库的分类体系，导致其包含大量的不合法的噪音；3）不同语言间等价实体对数量稀少。这些等价实体对受限于数据库现有的跨语言链接的数量。

发明内容

（一）要解决的技术问题

本发明要解决现有百科中非英文知识稀少、大量语义关系噪音存在以及跨语言等价实体对数量不足的问题。

（二）技术方案

为解决上述技术问题，本发明提供一种跨语言本体的构建方法，包括以下步骤：

1）对于两个异构跨语言在线数据库，每个数据库学习本语言的带有置信度输出的二元分类函数，进行预测本语言下两个实体之间正确的语义关系，根据学习得到的本体构建函数构建本语言的单语言本体，共构建两个单语言本体；

2）对于已建的两个单语言本体，同时学习一个新的带有置信度输出的二元分类函数，预测不同语言下两个实例之间正确的等价关系，根据学习得到的实例匹配函数实现跨语言等价关系的关联；

3）重复执行步骤1）和步骤2），在每次迭代中，使用跨语言验证方法校验并调整本体构建函数和实例匹配函数，进而增量式构建一个跨语言本体。

优选的，在步骤1）中，对于异构跨语言在线数据库，每个数据库使用字母化和/或公式化表示为一个不同的图结构G=(V,E)，其中，v∈V表示一个实体，e_ij∈E表示两个实体v_i和v_j之间是否存在子分类或者分类关系；

然后生成一个不同的单语言本体O=(X,Y)，其中，x∈X表示一个实体，y_ij∈Y表示两个实体x_i和x_j之间是否存在概念或者实例关系，其中V、E、X、Y表示实体。

进一步的，所述各个数据库对应所学函数如下：

g:V×V→[0,1]

其置信度输出表示两个实体之间存在正确的语义关系的概率值，1表示存在，0表示不存在，通过人工标注适量的训练数据，所述方法使用逻辑斯蒂回归模型以分别学习本体构建函数g。

优选的，步骤2）中对于每个不同的单语言本体O=(X,Y)给定一个与之对应的初始等价实例集合

跨语言实例匹配生成更多的等价实例，表示为所述方法学习一个带有置信度输出的二元分类函数，以预测不同语言下两个实例之间正确的等价关系，所各个数据库对应所学函数如下：

f:X×X'→[0,1]。

其置信度输出表示两个实例之间存在正确的等价关系的概率值，1表示存在，0表示不存在，其中X、Y表示实体，n、m为自然数，a为集合A的子集。

进一步的，所述方法包括以下步骤：

B1：对于两个在线数据库中的每一个词条，以该词条即其链接的词条构建一个局部图结构，该图的边表示两个词条之间存在一个链接关系；采用最大团发现算法，得到该局部图的最大子团；如果该子团包含5个以上词条，则将该局部图中的链接关系从G中剔除；

B2：对于两个在线数据库中的每一个词条，使用n元语法模型从该词条的文本描述中标注更多的词条链接关系；

B3：通过自动的随机抽样选取一定的正例、负例训练数据，使用逻辑斯蒂回归模型，在经过B1和B2修改后的在线数据库上计算语义相似度特征值，用以学习跨语言实例匹配函数f。

B4：使用所学实例匹配函数f，发现更多的跨语言实例等价关系；

B5：对于预测得到的实例等价关系，采用启发式验证方法，剔除可信度较低的等价关系。

进一步的，在步骤B3中，逻辑斯蒂回归模型使用文本相似度特征和结构相似度特征。

进一步的，在步骤B5包括以下步骤：

B51：多等价关系剔除，即如果实例x和O中的多个实体存在等价关系，则将这些等价关系全部剔除；

B52：数字和大写英文字母剔除，即如果等价实例对中有且只有一个实例的名称包含一个由多于两个连续的数字或大写英文字母构成的子串，则将此等价关系剔除。

优选的，在步骤3)中包括以下步骤：

C1：使用跨语言验证方法，校验并调整单语言本体构建函数g；

C2：使用跨语言验证方法，校验并调整跨语言实例匹配函数f；

C3：重复执行C1和C2，直至构建一个符合期望的跨语言本体。

进一步的，在第t次迭代中，所述步骤C1包括步骤：

C11：使用当前训练数据学习本体构建函数g^(t)；

C12：使用学习得到的函数g^(t)预测未标注数据中正确的语义关系；

C13：使用当前迭代中的跨语言等价实例对验证C12预测的结果，方法如下：

如果f^(t)(x₁,x'₁))θ^(t)并且f^(t)(x₂，x'₂))θ^(t)，则另

g_{1}^{(t)} (x_{1}, x_{2}) = g_{2}^{(t)} (x_{1}^{'}, x_{2}^{'}) = 1,

当且仅当

g_{1}^{(t)} (x_{1}, x_{2}) + g_{2}^{(t)} (x_{1}^{'}, x_{2}^{'})) (τ_{1}^{(t)} + τ_{2}^{(t)});

以及

g_{1}^{(t)} (x_{1}, x_{2}) = g_{2}^{(t)} (x_{1}^{'}, x_{2}^{'}) = 0,

当且仅当

g_{1}^{(t)} (x_{1}, x_{2}) + g_{2}^{(t)} (x_{1}^{'}, x_{2}^{'}) ((τ_{1}^{(t)} + τ_{2}^{(t)});

其中，阈值θ^(t)、

和

可通过实验设置获得，推荐设置为0.9、0.5和0.5，更大的阈值会生成更严格的验证结果

(x₁，x₂)、(x'₁，x'₂)表示对应的g^(t)函数;

C14：使用跨语言验证后的预测结果扩充训练数据；

C15：在下一次迭代t+1中重复进行C11至C14。

进一步的，在第t次迭代中，所述步骤C2包括步骤：

C21：使用当前初始的等价实例集合学习实例匹配函数f^(t)；

C22：使用学习得到的函数f^(t)预测未标注数据中的等价关系；

C23：在当前迭代中对C12预测的结果进行跨语言验证，方法如下：

如果f^(t)(x,x')）θ^(t)，则

f^(t)(x,x')=1;

其中，阈值θ^(t)设置同步骤C13；

C24：使用跨语言验证后的预测结果扩充初始的等价实例集合；

C25：在下一次迭代t+1中重复进行C21至C24。

一种跨语言本体构建系统，包括以下模块：

1）单语言本体构建模块，用于对两个异构跨语言在线数据库，使每个数据库学习本语言的带有置信度输出的二元分类函数，进行预测本语言下两个实体之间正确的语义关系，根据学习得到的本体构建函数构建本语言的单语言本体，共构建两个单语言本体；

2）跨语言等价关系关联模块，用于对两个单语言本体，使之同时学习一个新的带有置信度输出的二元分类函数，进行预测不同语言下两个实例之间正确的等价关系，根据学习得到的实例匹配函数实现跨语言等价关系的关联；

3）迭代模块，用于重复执行单语言本体构建模块和跨语言等价关系关联模块处理的数据，在每次迭代中，使用跨语言验证方法校验并调整本体构建函数和实例匹配函数，进而增量式构建一个跨语言本体。

（三）有益效果

本发明所述的大规模跨语言本体的构建方法，从两个异构的跨语言在线百科数据库出发，监督学习本体构建函数和实例匹配函数，并采用带有跨语言验证的增量式迭代优化方法，从而构建一个高质量的、大规模的跨语言本体。所述方法有利于解决现有多语言本体中存在的问题，包括非英文知识稀少、大量语义关系噪音存在以及跨语言等价实体对数量不足。

附图说明

图1是本发明的大规模跨语言本体构建的流程图；

图2是本发明的增量式优化跨语言本体构建的流程图。

具体实施方式

下面结合附图和实施例，对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明，但不用来限制本发明的范围。

图1是本发明的大规模跨语言本体构建的流程图，图2是本发明的增量式优化跨语言本体构建的流程图。本实施例使用如图1、图2所示的方法。在实施例中，具体的数据库以在线百科为例，所采用的方法如下：

步骤1）：对于两个异构跨语言在线百科数据库，如互动百科和英文维基百科，形式化表示为两个图结构G₁=(V,E)和G₂=(V',E'),每一个数据库和图结构一一对应。其中，v∈V表示一个实体（分类或词条），e_ij∈E表示两个实体v_i和v_j之间是否存在子分类或者分类关系。分别生成两个单语言本体O₁=(X，Y)和0₂=(X'，Y')。其中，x∈X表示一个实体，概念或者实例，y_ij∈Y表示两个实体x_i和x_j之间是否存在概念和概念或者实例和实例的关系。

分别学习各自对应的一个带有置信度输出的二元分类函数，以预测同一语言下两个实体之间正确的语义关系。所学函数如下：

第一数据库学习g_l:V×V→[O,1];

第二数据库学习g₂:V'×V'→[0,1]。

其置信度输出表示两个实体之间存在正确的语义关系，概念和概念或实例和实例的概率值，1表示一定存在，0表示一定不存在。

通过人工标注适量的训练数据，所述方法使用逻辑斯蒂回归模型以分别学习各自的本体构建函数g₁和g₂，逻辑斯蒂回归模型使用的特征如表1所示。

其中，特征10的计算方法如下：列出当前父分类的所有子分类；计算所有子分类中每一个单词的词频；子分类评分即当前子分类所有单词词频之和。特征11计算方法类似。

表1定义了概念和概念关系的特征计算方法，

表1本体构建函数g₁的特征定义

实例和实例的关系特征的计算方法类似，只需将表中的父分类改为分类、子分类改为词条即可。对于本体构建函数g₂，分别将特征1和特征2更改为“父分类是否为子分类的前半部分子串”和“父分类是否为子分类的后半部分子串”，并且字符串处理的基本单元由单词更改为单个汉字。

步骤2):对于两个单语言本体O₁=(X，Y)和O₂=(X'，Y'),给定一个初始等价实例集合其中a_i=(x,x')表示一对跨语言等价实例，跨语言实例匹配的目的即生成更多的等价实例，表示为(n>>m)。所述方法学习一个带有置信度输出的二元分类函数，以预测不同语言下两个实例之间正确的等价关系。所学函数如下：f:X×X'→[O,1]。

其置信度输出表示两个实例之间存在正确的等价关系的概率值，1表示一定存在，0表示一定不存在。

所述步骤2）具体包括以下步骤：

B1：对于两个在线百科数据库中的每一个词条，以该词条即其链接的词条构建一个局部图结构，该图的边表示两个词条之间存在一个链接关系；采用最大团发现算法，得到该局部图的最大子团；如果该子团包含5个以上词条，则将该局部图中的链接关系从G₁或G₂中剔除；

B2：对于两个在线百科数据库中的每一个词条，使用n元语法模型从该词条的文本描述中标注更多的词条链接关系；

B3：通过自动的随机抽样选取一定的正例、负例训练数据，使用逻辑斯蒂回归模型，在经过B1和B2修改后的在线百科数据库上计算语义相似度特征值，以学习跨语言实例匹配函数f。

逻辑斯蒂回归模型使用文本相似度特征和结构相似度特征。文本相似度主要使用实例名称间的编辑距离d(x，x')，其计算公式如下：

d(x,x')=1-|{ops}|/max(|label(x)|,|label(x')|),

其中，label(x)为实例x的名称，label(x')为实例x'的名称，|label(x)|表示label(x)所对应的字符串的长度，|label(x')|表示label(x')所对应的字符串的长度，|{ops}|为将label(x)所对应的字符串转化为label(x')所对应的字符串所需要的删除、替换和插入操作的次数。

结构相似度主要使用实例相关的集合相似度s(x,x')其计算公式如下：

s(x，x')=2·|φ_1→2(S_x∩S_x′)|/(|φ_1→2(S_x)|+|S_x′|)，

其中，S_x表示与实例x相关的实例集合，S_x'表示与实例x'相关的实例集合，φ_1→2(·)将G₁中的实体映射为G₂中存在的等价的实体，|·|表示对应集合的大小。

跨语言实例匹配逻辑斯蒂回归模型使用的特征如表2所示。

表2实例匹配函数f的特征定义

B5：对于预测得到的实例等价关系，采用启发式验证方法，剔除可信度较低的等价关系。具体包括：

B51：多等价关系剔除，即如果实例x和O₂中的多个实体存在等价关系，则将这些等价关系全部剔除。例如匹配结果（美国，USA）和匹配（美国，UK）同时出现，则将其全部剔除；

B52：数字和大写英文字母剔除，即如果等价实例对中有且只有一个实例的名称包含一个由多于两个连续的数字或大写英文字母构成的子串，则将此等价关系剔除。例如匹配结果（1936年，1936）将保留，而结果（12月1日，1936）将被剔除。

步骤3）：重复执行步骤A和步骤B，在每次迭代中，使用跨语言验证方法校验并调整本体构建函数和实例匹配函数，以相互提高其学习效果，进而增量式构建一个高质量的、大规模的跨语言本体。

所述步骤3）具体包括：

C1：使用跨语言验证方法，校验并调整单语言本体构建函数g₁和g₂；

C3：重复执行C1和C2，直至构建一个高质量的大规模跨语言本体。

在第t次迭代中，所述步骤C1具体包括：

C11：使用当前训练数据学习本体构建函数

和

C12：使用学习得到的函数

和预测未标注数据中正确的语义关系；

如果f^(t)(x_l，x'₁))θ^(t)并且f^(t)(x₂，x'₂))θ^(t)，则另

g_{1}^{(t)} (x_{1}, x_{2}) = g_{2}^{(t)} (x_{1}^{'}, x_{2}^{'}) = 1,

当且仅当

g_{1}^{(t)} (x_{1}, x_{2}) + g_{2}^{(t)} (x_{1}^{'}, x_{2}^{'})) (τ_{1}^{(t)} + τ_{2}^{(t)});

以及

g_{1}^{(t)} (x_{1}, x_{2}) = g_{2}^{(t)} (x_{1}^{'}, x_{2}^{'}) = 0,

当且仅当

g_{1}^{(t)} (x_{1}, x_{2}) + g_{2}^{(t)} (x_{1}^{'}, x_{2}^{'}) ((τ_{1}^{(t)} + τ_{2}^{(t)});

其中，阈值θ^(t)、

和

可通过实验设置获得，推荐设置为0.9、0.5和0.5，更大的阈值会生成更严格的验证结果；

C14：使用跨语言验证后的预测结果扩充训练数据；

C15：在下一次迭代t+1中重复进行C11至C14。

同时，在第t次迭代中，所述步骤C2具体包括：

C21：使用当前初始的等价实例集合学习实例匹配函数f^(t)；

如果f^(t)(x,x')）θ^(t)，则另

f^(t)(x,x')=1;

其中，阈值θ^(t)设置同步骤C13；

C25：在下一次迭代t+1中重复进行C21至C24。

采用本发明的方法进行了实验，具体实验过程如下：

1、评测指标。评估本体构建和实例匹配方法的优劣，我们以查准率、查全率和F1-Measure来评价实验结果，具体定义如下：

查准率precision:P=预测的正确的结果数目/预测的全部的结果数目

查全率recall:R=预测的正确的结果数目/标准结果的数目

F1-Measure:F1=2PR/(P+R)

2、数据集介绍。实验采用英文维基百科和互动百科为数据集。数据集相关信息如表3所示。在此基础上，生成了126,221对初始的跨语言等价实例对。

表3数据集相关统计

3、实验结果与分析

采用以上数据集和本发明的方法，进行3次迭代实验，得到概念和概念关系与实例和实例的关系的结果评测分别如表4、表5所示。从中可见，经过迭代优化后，本体构建的效果有了大幅度的提高。特别地，经过3次迭代，中文实例和实例的关系构建的F1-Measure最高提高了32%。

表4概念和概念关系结果分析

表5实例和实例的关系结果分析

实例匹配方面，经过100次迭代，成功发现31,108对新的跨语言等价实例对。最终构建的大规模跨语言本体相关统计入表6所示。

表6实验所构建本体的相关统计

本发明实施例所述的大规模跨语言本体的构建方法，从两个异构的跨语言在线百科数据库出发，监督学习本体构建函数和实例匹配函数，并采用带有跨语言验证的增量式迭代优化方法，从而构建一个高质量的、大规模的跨语言本体。所述方法有利于解决现有多语言本体中存在的问题（包括非英文知识稀少、大量语义关系噪音存在以及跨语言等价实体对数量不足）。

以上实施方式仅用于说明本发明，而并非对本发明的限制，有关技术领域的普通技术人员，在不脱离本发明的精神和范围的情况下，还可以做出各种变化和变型，因此所有等同的技术方案也属于本发明的范畴，本发明的专利保护范围应由权利要求限定。

Claims

1.一种跨语言本体构建方法，其特征在于，包括以下步骤：

1）对于两个异构跨语言在线数据库，使每个数据库学习本语言的带有置信度输出的二元分类函数，用于进行预测本语言下两个实体之间正确的语义关系，根据学习得到的本体构建函数构建本语言的单语言本体，共构建两个单语言本体；

2）对于已构建的两个单语言本体，使他们同时学习一个新的带有置信度输出的二元分类函数，用于预测不同语言下两个实例之间正确的等价关系，根据学习得到的实例匹配函数实现跨语言等价关系的关联；

2.根据权利要求1所述的跨语言本体构建方法，其特征在于，所述步骤1）中，对于异构跨语言在线数据库，每个数据库使用字母化和/或公式化表示为一个不同的图结构G=(V,E)，其中，v∈V表示一个实体，e_ij∈E表示两个实体v_i和v_j之间是否存在子分类或者分类关系；

3.根据权利要求2所述的跨语言本体构建方法，其特征在于，所述各个数据库对应所学函数如下：

g:V×V→[O,1]

4.根据权利要求2所述的方法，其特征在于，所述步骤2）中对于每个不同的单语言本体o=(X,Y)给定一个与之对应的初始等价实例集合

跨语言实例匹配生成更多的等价实例，表示为

所述方法学习一个带有置信度输出的二元分类函数，以预测不同语言下两个实例之间正确的等价关系，所各个数据库对应所学函数如下：

f:X×X'→[0,1]

5.根据权利要求4所述的方法，其特征在于，所述方法包括以下步骤：

B3：通过自动的随机抽样选取一定的正例、负例训练数据，使用逻辑斯蒂回归模型，在经过B1和B2修改后的在线数据库上计算语义相似度特征值，用以学习跨语言实例匹配函数f；

6.根据权利要求5所述的跨语言本体构建方法，其特征在于，所述步骤B3中，逻辑斯蒂回归模型使用文本相似度特征和结构相似度特征。

7.根据权利要求5所述的跨语言本体构建方法，其特征在于，所述步骤B5包括以下步骤：

8.根据权利要求3所述的跨语言本体构建方法，其特征在于，所述步骤3)中包括以下步骤：

C3：重复执行C1和C2，直至构建一个符合期望的跨语言本体。

9.根据权利要求8所述的跨语言本体构建方法，其特征在于，在第t次迭代中，所述步骤C1包括步骤：

C11：使用当前训练数据学习本体构建函数g^(t);

如果f^(t)(x₁,x'₁)）θ^(t)并且f^(t)(x₂,x'₂)）θ^(t),则另

g_{1}^{(t)} (x_{1}, x_{2}) = g_{2}^{(t)} (x_{1}^{'}, x_{2}^{'}) = 1,

当且仅当

g_{1}^{(t)} (x_{1}, x_{2}) + g_{2}^{(t)} (x_{1}^{'}, x_{2}^{'})) (τ_{1}^{(t)} + τ_{2}^{(t)});

以及

g_{1}^{(t)} (x_{1}, x_{2}) = g_{2}^{(t)} (x_{1}^{'}, x_{2}^{'}) = 0,

当且仅当

g_{1}^{(t)} (x_{1}, x_{2}) + g_{2}^{(t)} (x_{1}^{'}, x_{2}^{'}) ((τ_{1}^{(t)} + τ_{2}^{(t)});

其中，阈值θ^(t)、

和

(x₁，x₂)、

(x'₁，x'₂)表示对应的g^(t)函数;

C14：使用跨语言验证后的预测结果扩充训练数据；

C15：在下一次迭代t+1中重复进行C11至C14。

10.根据权利要求8所述的跨语言本体构建方法，其特征在于，在第t次迭代中，所述步骤C2包括步骤：

C21：使用当前初始的等价实例集合学习实例匹配函数f^(t)；

如果f^(t)(x，x'))θ^(t)，则

f^(t)(x，x')=1;

其中，阈值θ^(t)设置同步骤C13；

C25：在下一次迭代t+1中重复进行C21至C24。

11.一种跨语言本体构建装置，其特征在于，包括以下模块：