CN103678714A

CN103678714A - 实体知识库的构建方法和装置

Info

Publication number: CN103678714A
Application number: CN201310752626.3A
Authority: CN
Inventors: 王海峰; 赵世奇; 吴华
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2013-12-31
Filing date: 2013-12-31
Publication date: 2014-03-26
Anticipated expiration: 2033-12-31
Also published as: CN103678714B

Abstract

本发明提出一种实体知识库的构建方法和装置。其中该方法包括：获取源语言中的实体知识，实体知识包括实体、属性和属性值；获取实体知识在目标语言中的多个待选翻译实体知识，源语言和目标语言为不同的语言；分别获取多个待选翻译实体知识在目标语言语料库中的第一频次；根据第一频次从多个待选翻译实体知识中筛选出实体知识在目标语言中的翻译实体知识，以根据翻译实体知识构建目标语言的实体知识库。本发明实施例方法，无需在目标语言中重新挖掘实体知识以构建实体知识库，减少资源的大量浪费，同时，也提升实体知识库的构建效率。

Description

实体知识库的构建方法和装置

技术领域

本发明涉及计算机技术领域，尤其涉及一种实体知识库的构建方法和装置。

背景技术

近年来，知识搜索越来越受到学术界与工业界的重视，被认为是信息搜索的发展方向之一。尤其是随着谷歌、百度等公司相继推出知识图谱（knowledge graph）类产品，使得知识搜索融入到普通用户的信息获取过程中。

对于知识图谱类产品而言，基础工作是实体知识库的构建。在本说明书中实体知识库由三元组知识构成，所谓三元组知识，是指实体、属性和属性值，在本说明书中，三元组知识也称为实体知识。例如“刘德华-妻子-朱丽倩”就是一条典型的三元组知识，其中实体为“刘德华”，属性为“妻子”，属性值为“朱丽倩”。

目前，通常从结构化、半结构化或者无结构化的语料库中挖掘大规模的实体知识，以构建实体知识库。然而，很多知识是放之四海而皆准的客观知识，如“美国-首都-华盛顿”、“刘德华-妻子-朱丽倩”等。这些知识在其他语言的实体知识库中可能已经存在了，但是在当前目标语言的实体知识库中却并不存在，需要重新去挖掘，造成资源的大量浪费。

发明内容

本发明旨在至少解决上述技术问题之一。

为此，本发明的第一个目的在于提出一种实体知识库的构建方法。该方法无需在目标语言中重新挖掘实体知识以构建实体知识库，减少资源的大量浪费。

本发明的第二个目的在于提出一种实体知识库的构建装置。

为了实现上述目的，本发明第一方面实施例的实体知识库的构建方法，包括：获取源语言中的实体知识，所述实体知识包括实体、属性和属性值；获取所述实体知识在目标语言中的多个待选翻译实体知识，所述源语言和所述目标语言为不同的语言；分别获取所述多个待选翻译实体知识在目标语言语料库中的第一频次；根据所述第一频次从所述多个待选翻译实体知识中筛选出所述实体知识在所述目标语言中的翻译实体知识，以根据所述翻译实体知识构建所述目标语言的实体知识库。

本发明实施例的实体知识库的构建方法，对源语言的实体知识进行翻译以获取目标语言的多个待选翻译实体知识，并从多个待选翻译实体知识中选择正确、可能性最大的翻译实体知识作为目标语言的实体知识，无需在目标语言中重新挖掘实体知识以构建实体知识库，减少资源的大量浪费，同时，也提升实体知识库的构建效率。

为了实现上述目的，本发明第二方面实施例的实体知识库的构建装置，包括：第一获取模块，用于获取源语言中的实体知识，所述实体知识包括实体、属性和属性值；第二获取模块，用于获取所述实体知识在目标语言中的多个待选翻译实体知识，所述源语言和所述目标语言为不同的语言；第三获取模块，用于分别获取所述多个待选翻译实体知识在目标语言语料库中的第一频次；筛选模块，用于根据所述第一频次从所述多个待选翻译实体知识中筛选出所述实体知识在所述目标语言中的翻译实体知识，以根据所述翻译实体知识构建所述目标语言的实体知识库。

本发明实施例的实体知识库的构建装置，对源语言的实体知识进行翻译以获取目标语言的多个待选翻译实体知识，并从多个待选翻译实体知识中选择正确、可能性最大的翻译实体知识作为目标语言的实体知识，无需在目标语言中重新挖掘实体知识以构建实体知识库，减少资源的大量浪费，同时，也提升实体知识库的构建效率。

本发明附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中，

图1是根据本发明一个实施例的实体知识库的构建方法的流程图；

图2是根据本发明一个实施例的实体知识库的构建装置的结构示意图；

图3是根据本发明另一个实施例的实体知识库的构建装置的结构示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能理解为对本发明的限制。相反，本发明的实施例包括落入所附加权利要求书的精神和内涵范围内的所有变化、修改和等同物。

在本发明的描述中，需要理解的是，术语“第一”、“第二”等仅用于描述目的，而不能理解为指示或暗示相对重要性。在本发明的描述中，需要说明的是，除非另有明确的规定和限定，术语“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。此外，在本发明的描述中，除非另有说明，“多个”的含义是两个或两个以上。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本发明的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本发明的实施例所属技术领域的技术人员所理解。

目前，某些语言的实体知识库已经存在了许多实体知识，且这些实体知识是放之四海而皆准的客观知识。例如，英文的Freebase（一个创作共享类网站，其中的数据条目采用结构化形式）中含有相当规模的实体知识，而这样开放且大规模的实体知识库在中文中却不存在。为此，可以基于机器翻译技术，将其他语言中的大规模实体知识自动的转换为目标语言中的实体知识，自动构建目标语言的实体知识库。为此，本发明的实施例提出一种实体知识库的构建方法和装置，下面参考附图描述根据本发明实施例的实体知识库的构建方法和装置。

图1是根据本发明一个实施例的实体知识库的构建方法的流程图。

如图1所示，实体知识库的构建方法包括：

S101，获取源语言中的实体知识，实体知识包括实体、属性和属性值。

具体地，在本发明的实施例中，实时知识是指构成实体及其属性、属性值等关联信息的一组知识，具体地可以包括实体、属性和属性值，也可以成为三元组知识。例如，实体“刘德华”，该实体可以包括多个属性“身高”、“生日”、“妻子”、“成就”、“作品”等，且每个属性都有其具体值，每个实体-属性-属性值的三元组就构成一条实体知识。

S102，获取实体知识在目标语言中的多个待选翻译实体知识，源语言和目标语言为不同的语言。

具体地，在本发明的实施例中，可以基于现有翻译模型将每个实体知识中的实体、属性和属性值分别翻译，以生成多个实体翻译词、多个属性翻译词和多个属性值翻译词，然后可以将这些翻译词进行不同组合形成多个待选翻译实体知识。再从多个待选翻译实体知识中选择可能性最大的翻译实体知识作为目标语言的实体知识，以构建目标语言的实体知识库。

S103，分别获取所述多个待选翻译实体知识在目标语言语料库中的频次。

具体地，为了获取目标语言对应的实体知识，可以做这样的基本假设：正确的待选翻译实体知识在目标语言语料库中的频次会高于错误的或不准确的待选翻译实体知识。为此，可以预设大规模的目标语言语料库，并基于目标语言语料库统计任意两个词在给定的上下文窗口（如宽度为5个词的窗口）中的共现频次，可以将任意两个词w₁，w₂之间的共现频次记为f(w₁,w₂)，并根据共现频次获取第一频次。

更具体地，在本发明的一个实施例中，S103具体包括：分别获取多个待选翻译实体知识的实体-属性在预设目标语言语料库中的第一共现频次、实体-属性值在预设目标语言语料库中的第二共现频次、属性-属性值在预设目标语言语料库中的第三共现频次；根据第一共现频次、第二共现频次、第三共现频次、第一预设权值、第二预设权值和第三预设权值按照以下公式（1）分别获取多个待选翻译实体知识的频次，

N=λ₁f(e_t,a_t)+λ₂f(e_t,v_t)+λ₃f(a_t,v_t) （1）

其中，N表示频次，e_t表示待选翻译实体的实体，a_t表示待选翻译实体的属性，v_t表示待选翻译实体的属性值，f(e_t,a_t)表示第一共现频次，f(e_t,v_t)表示第二共现频次，f(a_t,v_t)表示第一共现频次，λ₁表示第一预设权值，λ₂表示第二预设权值，λ₃表示第三预设权值。

其中，第一预设权值、第二预设权值和第三预设权值可以人工根据经验设置，也可以通过统计获取，也可以通过现有的训练算法训练获取，在此本发明的实施例不进行限定。

S104，根据频次从多个待选翻译实体知识中筛选出实体知识在目标语言中的翻译实体知识。

具体地，在本发明的一个实施例中，可以按照以下公式（2）筛选出实体知识在目标语言中的翻译实体知识，

< {\hat{e}}_{t}, {\hat{a}}_{t}, {\hat{v}}_{t} > = \arg \max_{< e_{t}, a_{t}, v_{t} >} {λ_{1} f (e_{t}, a_{t}) + λ_{2} f (e_{t}, v_{t}) + λ_{3} f (a_{t}, v_{t})} - - - (2)

其中，

表示翻译实体知识，<e_t,a_t,v_t>表示待选翻译实体知识，

表示翻译实体知识的实体，

表示翻译实体知识的属性，

表示翻译实体知识的属性值。

结合上述实施例，在本发明的一个实施例中，实体可对应多个关联实体知识，例如，实体“刘德华”，该实体包括多个属性“身高”、“生日”、“妻子”、“成就”、“作品”等，且每个属性都有其具体值，每个实体-属性-属性值构成一条实体知识，这些实体知识都具有共同的实体，因此在本发明的实施例中称为实体对应的关联实体知识。

具体地，在本发明的一个实施例中，每个实体对应m个关联实体知识，其中m为大于0的正整数，所述方法还包括：获取m个关联实体知识的m个翻译实体知识；对m个翻译实体知识中翻译实体进行去重以获取n个翻译实体，其中，n为大于0的正整数且n小于或等于m；分别获取n个翻译实体在m个翻译实体知识中的第二频次；将第二频次最高的翻译实体作为实体的全局翻译实体。

更具体地，针对多个关联实体知识，可通过对一个源语言实体e_s的多个关联实体知识的翻译实体知识进行交叉验证，进一步优选该实体在目标语言中的翻译e_t。设e_s在源语言的实体知识库中存在m个关联实体知识，基于上述实施例的公式可以获取的每个关联实体知识的翻译实体e_t1,...,e_tm。再将其中共同的翻译进行合并，并累计第二频次，设合并之后剩下的不同翻译实体的个数为n，其中的第i个表示为e_ti，其累计的第二频次表示为c(e_ti)，则将选取其中第二频次最大者作为该实体的全局最优翻译，即公式（3）所示，

{\hat{e}}_{t} = \arg \max_{e_{ti}} {c (e_{ti})} - - - (3) .

由此，可以进一步获得更加准确的目标语言中的翻译实体。

在本发明的一个实施例中，获取全局翻译实体之后，还需要获取对应的翻译属性和翻译属性值，因此，所述方法还包括：根据全局翻译实体按照以下公式（4）分别获取m个关联实体知识对应的翻译属性和翻译属性值，

< {\hat{e}}_{t}, {\hat{a}}_{t}, {\hat{v}}_{t} > = \arg \max_{< a_{t}, v_{t} >} {λ_{1} f ({\hat{e}}_{t}, a_{t}) + λ_{2} f ({\hat{e}}_{t}, v_{t}) + λ_{3} f (a_{t}, v_{t})} - - - (4) .

由此，可以进一步获得更加准确的目标语言中的翻译属性和翻译属性值。

为了实现上述实施例，本发明还提出一种实体知识库的构建装置。

图2是根据本发明一个实施例的实体知识库的构建装置的结构示意图。

如图2所示，根据本发明实施例的实体知识库的构建装置包括：第一获取模块100、第二获取模块200、第三获取模块300和筛选模块400。

具体地，第一获取模块100用于获取源语言中的实体知识，实体知识包括实体、属性和属性值。更具体地，在本发明的实施例中，实时知识是指构成实体及其属性、属性值等关联信息的一组知识，具体地可以包括实体、属性和属性值，也可以成为三元组知识。例如，实体“刘德华”，该实体可以包括多个属性“身高”、“生日”、“妻子”、“成就”、“作品”等，且每个属性都有其具体值，每个实体-属性-属性值的三元组就构成一条实体知识。

第二获取模块200用于获取实体知识在目标语言中的多个待选翻译实体知识，源语言和目标语言为不同的语言。更具体地，在本发明的实施例中，第二获取模块200可以基于现有翻译模型将每个实体知识中的实体、属性和属性值分别翻译，以生成多个实体翻译词、多个属性翻译词和多个属性值翻译词，然后可以将这些翻译词进行不同组合形成多个待选翻译实体知识。再从多个待选翻译实体知识中选择可能性最大的翻译实体知识作为目标语言的实体知识，以构建目标语言的实体知识库。

第三获取模块300用于分别获取多个待选翻译实体知识在目标语言语料库中的第一频次。更具体地，为了获取目标语言对应的实体知识，可以做这样的基本假设：正确的待选翻译实体知识在目标语言语料库中的频次会高于错误的或不准确的待选翻译实体知识。为此，可以预设大规模的目标语言语料库，并基于目标语言语料库统计任意两个词在给定的上下文窗口（如宽度为5个词的窗口）中的共现频次，可以将任意两个词w₁，w₂之间的共现频次记为f(w₁,w₂)，并根据共现频次获取第一频次。

更具体地，在本发明的一个实施例中，第三获取模块300用于：分别获取多个待选翻译实体知识的实体-属性在预设目标语言语料库中的第一共现频次、实体-属性值在预设目标语言语料库中的第二共现频次、属性-属性值在预设目标语言语料库中的第三共现频次；根据第一共现频次、第二共现频次、第三共现频次、第一预设权值、第二预设权值和第三预设权值按照以下公式（5）分别获取多个待选翻译实体知识的频次，

N=λ₁f(e_t,a_t)+λ₂f(e_t,v_t)+λ₃f(a_t,v_t) （5）

筛选模块400用于根据第一频次从多个待选翻译实体知识中筛选出实体知识在目标语言中的翻译实体知识，以根据翻译实体知识构建目标语言的实体知识库。

更具体地，在本发明的一个实施例中，筛选模块400可以按照以下公式（6）筛选出实体知识在目标语言中的翻译实体知识，

< {\hat{e}}_{t}, {\hat{a}}_{t}, {\hat{v}}_{t} > = \arg \max_{< e_{t}, a_{t}, v_{t} >} {λ_{1} f (e_{t}, a_{t}) + λ_{2} f (e_{t}, v_{t}) + λ_{3} f (a_{t}, v_{t})} - - - (6)

其中，表示翻译实体知识，<e_t,a_t,v_t>表示待选翻译实体知识，表示翻译实体知识的实体，表示翻译实体知识的属性，

表示翻译实体知识的属性值。

如图3所示，在图2所示基础上，根据本发明实施例的实体知识库的构建装置还包括：第四获取模块500、去重模块600、第五获取模块700和第六获取模块800，其中每个实体对应m个关联实体知识，其中m为大于0的正整数。

具体地，第四获取模块500用于获取m个关联实体知识的m个翻译实体知识。去重模块600用于对m个翻译实体知识中翻译实体进行去重以获取n个翻译实体，其中，n为大于0的正整数且n小于或等于m。第五获取模块700用于分别获取n个翻译实体在m个翻译实体知识中的第二频次；将第二频次最高的翻译实体作为实体的全局翻译实体。

更具体地，针对多个关联实体知识，可通过对一个源语言实体e_s的多个关联实体知识的翻译实体知识进行交叉验证，进一步优选该实体在目标语言中的翻译e_t。设e_s在源语言的实体知识库中存在m个关联实体知识，基于上述实施例的公式可以获取的每个关联实体知识的翻译实体e_t1,...,e_tm。再将其中共同的翻译进行合并，并累计第二频次，设合并之后剩下的不同翻译实体的个数为n，其中的第i个表示为e_ti，其累计的第二频次表示为c(e_ti)，则将选取其中第二频次最大者作为该实体的全局最优翻译，即公式（7）所示，

{\hat{e}}_{t} = \arg \max_{e_{ti}} {c (e_{ti})} - - - (7) .

由此，可以进一步获得更加准确的目标语言中的翻译实体。

在本发明的一个实施例中，获取全局翻译实体之后，还需要获取对应的翻译属性和翻译属性值，因此，在本发明的一个实施例中，第六获取模块800用于根据全局翻译实体按照以下公式（8）分别获取m个关联实体知识对应的翻译属性和翻译属性值，

< {\hat{e}}_{t}, {\hat{a}}_{t}, {\hat{v}}_{t} > = \arg \max_{< a_{t}, v_{t} >} {λ_{1} f ({\hat{e}}_{t}, a_{t}) + λ_{2} f ({\hat{e}}_{t}, v_{t}) + λ_{3} f (a_{t}, v_{t})} - - - (8) .

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列（PGA），现场可编程门阵列（FPGA）等。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

尽管已经示出和描述了本发明的实施例，本领域的普通技术人员可以理解：在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由权利要求及其等同物限定。

Claims

1.一种实体知识库的构建方法，其特征在于，包括：

获取源语言中的实体知识，所述实体知识包括实体、属性和属性值；

获取所述实体知识在目标语言中的多个待选翻译实体知识，所述源语言和所述目标语言为不同的语言；

分别获取所述多个待选翻译实体知识在目标语言语料库中的第一频次；

根据所述第一频次从所述多个待选翻译实体知识中筛选出所述实体知识在所述目标语言中的翻译实体知识，以根据所述翻译实体知识构建所述目标语言的实体知识库。

2.根据权利要求1所述的方法，其特征在于，所述分别获取所述多个待选翻译实体知识在目标语言语料库中的第一频次包括：

分别获取所述多个待选翻译实体知识的实体-属性在所述预设目标语言语料库中的第一共现频次、实体-属性值在所述预设目标语言语料库中的第二共现频次、属性-属性值在所述预设目标语言语料库中的第三共现频次；

根据所述第一共现频次、第二共现频次、第三共现频次、第一预设权值、第二预设权值和第三预设权值按照以下公式（1）分别获取所述多个待选翻译实体知识的所述第一频次，

N=λ₁f(e_t,a_t)+λ₂f(e_t,v_t)+λ₃f(a_t,v_t) （1）

其中，N表示所述第一频次，e_t表示所述待选翻译实体的所述实体，a_t表示所述待选翻译实体的所述属性，v_t表示所述待选翻译实体的所述属性值，f(e_t,a_t)表示所述第一共现频次，f(e_t,v_t)表示所述第二共现频次，f(a_t,v_t)表示所述第一共现频次，λ₁表示所述第一预设权值，λ₂表示所述第二预设权值，λ₃表示所述第三预设权值。

3.根据权利要求2所述的方法，其特征在于，所述根据所述第一频次从所述多个待选翻译实体知识中筛选出所述实体知识在所述目标语言中的翻译实体知识包括：

按照以下公式（2）筛选出所述实体知识在所述目标语言中的所述翻译实体知识，