CN103678714A - 实体知识库的构建方法和装置 - Google Patents

实体知识库的构建方法和装置 Download PDF

Info

Publication number
CN103678714A
CN103678714A CN201310752626.3A CN201310752626A CN103678714A CN 103678714 A CN103678714 A CN 103678714A CN 201310752626 A CN201310752626 A CN 201310752626A CN 103678714 A CN103678714 A CN 103678714A
Authority
CN
China
Prior art keywords
entity
translation
knowledge
entity knowledge
frequency
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201310752626.3A
Other languages
English (en)
Other versions
CN103678714B (zh
Inventor
王海峰
赵世奇
吴华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201310752626.3A priority Critical patent/CN103678714B/zh
Publication of CN103678714A publication Critical patent/CN103678714A/zh
Application granted granted Critical
Publication of CN103678714B publication Critical patent/CN103678714B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology

Abstract

本发明提出一种实体知识库的构建方法和装置。其中该方法包括:获取源语言中的实体知识,实体知识包括实体、属性和属性值;获取实体知识在目标语言中的多个待选翻译实体知识,源语言和目标语言为不同的语言;分别获取多个待选翻译实体知识在目标语言语料库中的第一频次;根据第一频次从多个待选翻译实体知识中筛选出实体知识在目标语言中的翻译实体知识,以根据翻译实体知识构建目标语言的实体知识库。本发明实施例方法,无需在目标语言中重新挖掘实体知识以构建实体知识库,减少资源的大量浪费,同时,也提升实体知识库的构建效率。

Description

实体知识库的构建方法和装置
技术领域
本发明涉及计算机技术领域,尤其涉及一种实体知识库的构建方法和装置。
背景技术
近年来,知识搜索越来越受到学术界与工业界的重视,被认为是信息搜索的发展方向之一。尤其是随着谷歌、百度等公司相继推出知识图谱(knowledge graph)类产品,使得知识搜索融入到普通用户的信息获取过程中。
对于知识图谱类产品而言,基础工作是实体知识库的构建。在本说明书中实体知识库由三元组知识构成,所谓三元组知识,是指实体、属性和属性值,在本说明书中,三元组知识也称为实体知识。例如“刘德华-妻子-朱丽倩”就是一条典型的三元组知识,其中实体为“刘德华”,属性为“妻子”,属性值为“朱丽倩”。
目前,通常从结构化、半结构化或者无结构化的语料库中挖掘大规模的实体知识,以构建实体知识库。然而,很多知识是放之四海而皆准的客观知识,如“美国-首都-华盛顿”、“刘德华-妻子-朱丽倩”等。这些知识在其他语言的实体知识库中可能已经存在了,但是在当前目标语言的实体知识库中却并不存在,需要重新去挖掘,造成资源的大量浪费。
发明内容
本发明旨在至少解决上述技术问题之一。
为此,本发明的第一个目的在于提出一种实体知识库的构建方法。该方法无需在目标语言中重新挖掘实体知识以构建实体知识库,减少资源的大量浪费。
本发明的第二个目的在于提出一种实体知识库的构建装置。
为了实现上述目的,本发明第一方面实施例的实体知识库的构建方法,包括:获取源语言中的实体知识,所述实体知识包括实体、属性和属性值;获取所述实体知识在目标语言中的多个待选翻译实体知识,所述源语言和所述目标语言为不同的语言;分别获取所述多个待选翻译实体知识在目标语言语料库中的第一频次;根据所述第一频次从所述多个待选翻译实体知识中筛选出所述实体知识在所述目标语言中的翻译实体知识,以根据所述翻译实体知识构建所述目标语言的实体知识库。
本发明实施例的实体知识库的构建方法,对源语言的实体知识进行翻译以获取目标语言的多个待选翻译实体知识,并从多个待选翻译实体知识中选择正确、可能性最大的翻译实体知识作为目标语言的实体知识,无需在目标语言中重新挖掘实体知识以构建实体知识库,减少资源的大量浪费,同时,也提升实体知识库的构建效率。
为了实现上述目的,本发明第二方面实施例的实体知识库的构建装置,包括:第一获取模块,用于获取源语言中的实体知识,所述实体知识包括实体、属性和属性值;第二获取模块,用于获取所述实体知识在目标语言中的多个待选翻译实体知识,所述源语言和所述目标语言为不同的语言;第三获取模块,用于分别获取所述多个待选翻译实体知识在目标语言语料库中的第一频次;筛选模块,用于根据所述第一频次从所述多个待选翻译实体知识中筛选出所述实体知识在所述目标语言中的翻译实体知识,以根据所述翻译实体知识构建所述目标语言的实体知识库。
本发明实施例的实体知识库的构建装置,对源语言的实体知识进行翻译以获取目标语言的多个待选翻译实体知识,并从多个待选翻译实体知识中选择正确、可能性最大的翻译实体知识作为目标语言的实体知识,无需在目标语言中重新挖掘实体知识以构建实体知识库,减少资源的大量浪费,同时,也提升实体知识库的构建效率。
本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中,
图1是根据本发明一个实施例的实体知识库的构建方法的流程图;
图2是根据本发明一个实施例的实体知识库的构建装置的结构示意图;
图3是根据本发明另一个实施例的实体知识库的构建装置的结构示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。相反,本发明的实施例包括落入所附加权利要求书的精神和内涵范围内的所有变化、修改和等同物。
在本发明的描述中,需要理解的是,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性。在本发明的描述中,需要说明的是,除非另有明确的规定和限定,术语“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。此外,在本发明的描述中,除非另有说明,“多个”的含义是两个或两个以上。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。
目前,某些语言的实体知识库已经存在了许多实体知识,且这些实体知识是放之四海而皆准的客观知识。例如,英文的Freebase(一个创作共享类网站,其中的数据条目采用结构化形式)中含有相当规模的实体知识,而这样开放且大规模的实体知识库在中文中却不存在。为此,可以基于机器翻译技术,将其他语言中的大规模实体知识自动的转换为目标语言中的实体知识,自动构建目标语言的实体知识库。为此,本发明的实施例提出一种实体知识库的构建方法和装置,下面参考附图描述根据本发明实施例的实体知识库的构建方法和装置。
图1是根据本发明一个实施例的实体知识库的构建方法的流程图。
如图1所示,实体知识库的构建方法包括:
S101,获取源语言中的实体知识,实体知识包括实体、属性和属性值。
具体地,在本发明的实施例中,实时知识是指构成实体及其属性、属性值等关联信息的一组知识,具体地可以包括实体、属性和属性值,也可以成为三元组知识。例如,实体“刘德华”,该实体可以包括多个属性“身高”、“生日”、“妻子”、“成就”、“作品”等,且每个属性都有其具体值,每个实体-属性-属性值的三元组就构成一条实体知识。
S102,获取实体知识在目标语言中的多个待选翻译实体知识,源语言和目标语言为不同的语言。
具体地,在本发明的实施例中,可以基于现有翻译模型将每个实体知识中的实体、属性和属性值分别翻译,以生成多个实体翻译词、多个属性翻译词和多个属性值翻译词,然后可以将这些翻译词进行不同组合形成多个待选翻译实体知识。再从多个待选翻译实体知识中选择可能性最大的翻译实体知识作为目标语言的实体知识,以构建目标语言的实体知识库。
S103,分别获取所述多个待选翻译实体知识在目标语言语料库中的频次。
具体地,为了获取目标语言对应的实体知识,可以做这样的基本假设:正确的待选翻译实体知识在目标语言语料库中的频次会高于错误的或不准确的待选翻译实体知识。为此,可以预设大规模的目标语言语料库,并基于目标语言语料库统计任意两个词在给定的上下文窗口(如宽度为5个词的窗口)中的共现频次,可以将任意两个词w1,w2之间的共现频次记为f(w1,w2),并根据共现频次获取第一频次。
更具体地,在本发明的一个实施例中,S103具体包括:分别获取多个待选翻译实体知识的实体-属性在预设目标语言语料库中的第一共现频次、实体-属性值在预设目标语言语料库中的第二共现频次、属性-属性值在预设目标语言语料库中的第三共现频次;根据第一共现频次、第二共现频次、第三共现频次、第一预设权值、第二预设权值和第三预设权值按照以下公式(1)分别获取多个待选翻译实体知识的频次,
N=λ1f(et,at)+λ2f(et,vt)+λ3f(at,vt)   (1)
其中,N表示频次,et表示待选翻译实体的实体,at表示待选翻译实体的属性,vt表示待选翻译实体的属性值,f(et,at)表示第一共现频次,f(et,vt)表示第二共现频次,f(at,vt)表示第一共现频次,λ1表示第一预设权值,λ2表示第二预设权值,λ3表示第三预设权值。
其中,第一预设权值、第二预设权值和第三预设权值可以人工根据经验设置,也可以通过统计获取,也可以通过现有的训练算法训练获取,在此本发明的实施例不进行限定。
S104,根据频次从多个待选翻译实体知识中筛选出实体知识在目标语言中的翻译实体知识。
具体地,在本发明的一个实施例中,可以按照以下公式(2)筛选出实体知识在目标语言中的翻译实体知识,
< e ^ t , a ^ t , v ^ t > = arg max < e t , a t , v t > { &lambda; 1 f ( e t , a t ) + &lambda; 2 f ( e t , v t ) + &lambda; 3 f ( a t , v t ) } - - - ( 2 )
其中,
Figure BDA0000451406930000042
表示翻译实体知识,<et,at,vt>表示待选翻译实体知识,
Figure BDA0000451406930000043
表示翻译实体知识的实体,
Figure BDA0000451406930000044
表示翻译实体知识的属性,
Figure BDA0000451406930000045
表示翻译实体知识的属性值。
本发明实施例的实体知识库的构建方法,对源语言的实体知识进行翻译以获取目标语言的多个待选翻译实体知识,并从多个待选翻译实体知识中选择正确、可能性最大的翻译实体知识作为目标语言的实体知识,无需在目标语言中重新挖掘实体知识以构建实体知识库,减少资源的大量浪费,同时,也提升实体知识库的构建效率。
结合上述实施例,在本发明的一个实施例中,实体可对应多个关联实体知识,例如,实体“刘德华”,该实体包括多个属性“身高”、“生日”、“妻子”、“成就”、“作品”等,且每个属性都有其具体值,每个实体-属性-属性值构成一条实体知识,这些实体知识都具有共同的实体,因此在本发明的实施例中称为实体对应的关联实体知识。
具体地,在本发明的一个实施例中,每个实体对应m个关联实体知识,其中m为大于0的正整数,所述方法还包括:获取m个关联实体知识的m个翻译实体知识;对m个翻译实体知识中翻译实体进行去重以获取n个翻译实体,其中,n为大于0的正整数且n小于或等于m;分别获取n个翻译实体在m个翻译实体知识中的第二频次;将第二频次最高的翻译实体作为实体的全局翻译实体。
更具体地,针对多个关联实体知识,可通过对一个源语言实体es的多个关联实体知识的翻译实体知识进行交叉验证,进一步优选该实体在目标语言中的翻译et。设es在源语言的实体知识库中存在m个关联实体知识,基于上述实施例的公式可以获取的每个关联实体知识的翻译实体et1,...,etm。再将其中共同的翻译进行合并,并累计第二频次,设合并之后剩下的不同翻译实体的个数为n,其中的第i个表示为eti,其累计的第二频次表示为c(eti),则将选取其中第二频次最大者作为该实体的全局最优翻译,即公式(3)所示,
e ^ t = arg max e ti { c ( e ti ) } - - - ( 3 ) .
由此,可以进一步获得更加准确的目标语言中的翻译实体。
在本发明的一个实施例中,获取全局翻译实体之后,还需要获取对应的翻译属性和翻译属性值,因此,所述方法还包括:根据全局翻译实体按照以下公式(4)分别获取m个关联实体知识对应的翻译属性和翻译属性值,
< e ^ t , a ^ t , v ^ t > = arg max < a t , v t > { &lambda; 1 f ( e ^ t , a t ) + &lambda; 2 f ( e ^ t , v t ) + &lambda; 3 f ( a t , v t ) } - - - ( 4 ) .
由此,可以进一步获得更加准确的目标语言中的翻译属性和翻译属性值。
为了实现上述实施例,本发明还提出一种实体知识库的构建装置。
图2是根据本发明一个实施例的实体知识库的构建装置的结构示意图。
如图2所示,根据本发明实施例的实体知识库的构建装置包括:第一获取模块100、第二获取模块200、第三获取模块300和筛选模块400。
具体地,第一获取模块100用于获取源语言中的实体知识,实体知识包括实体、属性和属性值。更具体地,在本发明的实施例中,实时知识是指构成实体及其属性、属性值等关联信息的一组知识,具体地可以包括实体、属性和属性值,也可以成为三元组知识。例如,实体“刘德华”,该实体可以包括多个属性“身高”、“生日”、“妻子”、“成就”、“作品”等,且每个属性都有其具体值,每个实体-属性-属性值的三元组就构成一条实体知识。
第二获取模块200用于获取实体知识在目标语言中的多个待选翻译实体知识,源语言和目标语言为不同的语言。更具体地,在本发明的实施例中,第二获取模块200可以基于现有翻译模型将每个实体知识中的实体、属性和属性值分别翻译,以生成多个实体翻译词、多个属性翻译词和多个属性值翻译词,然后可以将这些翻译词进行不同组合形成多个待选翻译实体知识。再从多个待选翻译实体知识中选择可能性最大的翻译实体知识作为目标语言的实体知识,以构建目标语言的实体知识库。
第三获取模块300用于分别获取多个待选翻译实体知识在目标语言语料库中的第一频次。更具体地,为了获取目标语言对应的实体知识,可以做这样的基本假设:正确的待选翻译实体知识在目标语言语料库中的频次会高于错误的或不准确的待选翻译实体知识。为此,可以预设大规模的目标语言语料库,并基于目标语言语料库统计任意两个词在给定的上下文窗口(如宽度为5个词的窗口)中的共现频次,可以将任意两个词w1,w2之间的共现频次记为f(w1,w2),并根据共现频次获取第一频次。
更具体地,在本发明的一个实施例中,第三获取模块300用于:分别获取多个待选翻译实体知识的实体-属性在预设目标语言语料库中的第一共现频次、实体-属性值在预设目标语言语料库中的第二共现频次、属性-属性值在预设目标语言语料库中的第三共现频次;根据第一共现频次、第二共现频次、第三共现频次、第一预设权值、第二预设权值和第三预设权值按照以下公式(5)分别获取多个待选翻译实体知识的频次,
N=λ1f(et,at)+λ2f(et,vt)+λ3f(at,vt)   (5)
其中,N表示频次,et表示待选翻译实体的实体,at表示待选翻译实体的属性,vt表示待选翻译实体的属性值,f(et,at)表示第一共现频次,f(et,vt)表示第二共现频次,f(at,vt)表示第一共现频次,λ1表示第一预设权值,λ2表示第二预设权值,λ3表示第三预设权值。
其中,第一预设权值、第二预设权值和第三预设权值可以人工根据经验设置,也可以通过统计获取,也可以通过现有的训练算法训练获取,在此本发明的实施例不进行限定。
筛选模块400用于根据第一频次从多个待选翻译实体知识中筛选出实体知识在目标语言中的翻译实体知识,以根据翻译实体知识构建目标语言的实体知识库。
更具体地,在本发明的一个实施例中,筛选模块400可以按照以下公式(6)筛选出实体知识在目标语言中的翻译实体知识,
< e ^ t , a ^ t , v ^ t > = arg max < e t , a t , v t > { &lambda; 1 f ( e t , a t ) + &lambda; 2 f ( e t , v t ) + &lambda; 3 f ( a t , v t ) } - - - ( 6 )
其中,表示翻译实体知识,<et,at,vt>表示待选翻译实体知识,表示翻译实体知识的实体,表示翻译实体知识的属性,
Figure BDA0000451406930000065
表示翻译实体知识的属性值。
本发明实施例的实体知识库的构建装置,对源语言的实体知识进行翻译以获取目标语言的多个待选翻译实体知识,并从多个待选翻译实体知识中选择正确、可能性最大的翻译实体知识作为目标语言的实体知识,无需在目标语言中重新挖掘实体知识以构建实体知识库,减少资源的大量浪费,同时,也提升实体知识库的构建效率。
结合上述实施例,在本发明的一个实施例中,实体可对应多个关联实体知识,例如,实体“刘德华”,该实体包括多个属性“身高”、“生日”、“妻子”、“成就”、“作品”等,且每个属性都有其具体值,每个实体-属性-属性值构成一条实体知识,这些实体知识都具有共同的实体,因此在本发明的实施例中称为实体对应的关联实体知识。
图3是根据本发明另一个实施例的实体知识库的构建装置的结构示意图。
如图3所示,在图2所示基础上,根据本发明实施例的实体知识库的构建装置还包括:第四获取模块500、去重模块600、第五获取模块700和第六获取模块800,其中每个实体对应m个关联实体知识,其中m为大于0的正整数。
具体地,第四获取模块500用于获取m个关联实体知识的m个翻译实体知识。去重模块600用于对m个翻译实体知识中翻译实体进行去重以获取n个翻译实体,其中,n为大于0的正整数且n小于或等于m。第五获取模块700用于分别获取n个翻译实体在m个翻译实体知识中的第二频次;将第二频次最高的翻译实体作为实体的全局翻译实体。
更具体地,针对多个关联实体知识,可通过对一个源语言实体es的多个关联实体知识的翻译实体知识进行交叉验证,进一步优选该实体在目标语言中的翻译et。设es在源语言的实体知识库中存在m个关联实体知识,基于上述实施例的公式可以获取的每个关联实体知识的翻译实体et1,...,etm。再将其中共同的翻译进行合并,并累计第二频次,设合并之后剩下的不同翻译实体的个数为n,其中的第i个表示为eti,其累计的第二频次表示为c(eti),则将选取其中第二频次最大者作为该实体的全局最优翻译,即公式(7)所示,
e ^ t = arg max e ti { c ( e ti ) } - - - ( 7 ) .
由此,可以进一步获得更加准确的目标语言中的翻译实体。
在本发明的一个实施例中,获取全局翻译实体之后,还需要获取对应的翻译属性和翻译属性值,因此,在本发明的一个实施例中,第六获取模块800用于根据全局翻译实体按照以下公式(8)分别获取m个关联实体知识对应的翻译属性和翻译属性值,
< e ^ t , a ^ t , v ^ t > = arg max < a t , v t > { &lambda; 1 f ( e ^ t , a t ) + &lambda; 2 f ( e ^ t , v t ) + &lambda; 3 f ( a t , v t ) } - - - ( 8 ) .
由此,可以进一步获得更加准确的目标语言中的翻译属性和翻译属性值。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
尽管已经示出和描述了本发明的实施例,本领域的普通技术人员可以理解:在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由权利要求及其等同物限定。

Claims (10)

1.一种实体知识库的构建方法,其特征在于,包括:
获取源语言中的实体知识,所述实体知识包括实体、属性和属性值;
获取所述实体知识在目标语言中的多个待选翻译实体知识,所述源语言和所述目标语言为不同的语言;
分别获取所述多个待选翻译实体知识在目标语言语料库中的第一频次;
根据所述第一频次从所述多个待选翻译实体知识中筛选出所述实体知识在所述目标语言中的翻译实体知识,以根据所述翻译实体知识构建所述目标语言的实体知识库。
2.根据权利要求1所述的方法,其特征在于,所述分别获取所述多个待选翻译实体知识在目标语言语料库中的第一频次包括:
分别获取所述多个待选翻译实体知识的实体-属性在所述预设目标语言语料库中的第一共现频次、实体-属性值在所述预设目标语言语料库中的第二共现频次、属性-属性值在所述预设目标语言语料库中的第三共现频次;
根据所述第一共现频次、第二共现频次、第三共现频次、第一预设权值、第二预设权值和第三预设权值按照以下公式(1)分别获取所述多个待选翻译实体知识的所述第一频次,
N=λ1f(et,at)+λ2f(et,vt)+λ3f(at,vt)   (1)
其中,N表示所述第一频次,et表示所述待选翻译实体的所述实体,at表示所述待选翻译实体的所述属性,vt表示所述待选翻译实体的所述属性值,f(et,at)表示所述第一共现频次,f(et,vt)表示所述第二共现频次,f(at,vt)表示所述第一共现频次,λ1表示所述第一预设权值,λ2表示所述第二预设权值,λ3表示所述第三预设权值。
3.根据权利要求2所述的方法,其特征在于,所述根据所述第一频次从所述多个待选翻译实体知识中筛选出所述实体知识在所述目标语言中的翻译实体知识包括:
按照以下公式(2)筛选出所述实体知识在所述目标语言中的所述翻译实体知识,
< e ^ t , a ^ t , v ^ t > = arg max < e t , a t , v t > { &lambda; 1 f ( e t , a t ) + &lambda; 2 f ( e t , v t ) + &lambda; 3 f ( a t , v t ) } - - - ( 2 )
其中,
Figure FDA0000451406920000012
表示所述翻译实体知识,<et,at,vt>表示所述待选翻译实体知识,
Figure FDA0000451406920000013
表示所述翻译实体知识的实体,
Figure FDA0000451406920000014
表示所述翻译实体知识的属性,
Figure FDA0000451406920000015
表示所述翻译实体知识的属性值。
4.根据权利要求3所述的方法,其特征在于,每个实体对应m个关联实体知识,其中m为大于0的正整数,所述方法还包括:
获取所述m个关联实体知识的m个翻译实体知识;
对所述m个翻译实体知识中翻译实体进行去重以获取n个翻译实体,其中,n为大于0的正整数且n小于或等于m;
分别获取所述n个翻译实体在所述m个翻译实体知识中的第二频次;
将所述第二频次最高的所述翻译实体作为所述实体的全局翻译实体。
5.根据权利要求4所述的方法,其特征在于,所述方法还包括:
根据所述全局翻译实体按照以下公式(3)分别获取所述m个关联实体知识对应的翻译属性和翻译属性值,
< e ^ t , a ^ t , v ^ t > = arg max < a t , v t > { &lambda; 1 f ( e ^ t , a t ) + &lambda; 2 f ( e ^ t , v t ) + &lambda; 3 f ( a t , v t ) } - - - ( 3 ) .
6.一种实体知识库的构建装置,其特征在于,包括:
第一获取模块,用于获取源语言中的实体知识,所述实体知识包括实体、属性和属性值;
第二获取模块,用于获取所述实体知识在目标语言中的多个待选翻译实体知识,所述源语言和所述目标语言为不同的语言;
第三获取模块,用于分别获取所述多个待选翻译实体知识在目标语言语料库中的第一频次;
筛选模块,用于根据所述第一频次从所述多个待选翻译实体知识中筛选出所述实体知识在所述目标语言中的翻译实体知识,以根据所述翻译实体知识构建所述目标语言的实体知识库。
7.根据权利要求6所述的装置,其特征在于,所述第三获取模块用于:
分别获取所述多个待选翻译实体知识的实体-属性在所述预设目标语言语料库中的第一共现频次、实体-属性值在所述预设目标语言语料库中的第二共现频次、属性-属性值在所述预设目标语言语料库中的第三共现频次;
根据所述第一共现频次、第二共现频次、第三共现频次、第一预设权值、第二预设权值和第三预设权值按照以下公式(1)分别获取所述多个待选翻译实体知识的所述第一频次,
N=λ1f(et,at)+λ2f(et,vt)+λ3f(at,vt)   (1)
其中,N表示所述第一频次,et表示所述待选翻译实体的所述实体,at表示所述待选翻译实体的所述属性,vt表示所述待选翻译实体的所述属性值,f(et,at)表示所述第一共现频次,f(et,vt)表示所述第二共现频次,f(at,vt)表示所述第一共现频次,λ1表示所述第一预设权值,λ2表示所述第二预设权值,λ3表示所述第三预设权值。
8.根据权利要求7所述的装置,其特征在于,所述筛选模块用于:
按照以下公式(2)筛选出所述实体知识在所述目标语言中的所述翻译实体知识,
< e ^ t , a ^ t , v ^ t > = arg max < e t , a t , v t > { &lambda; 1 f ( e t , a t ) + &lambda; 2 f ( e t , v t ) + &lambda; 3 f ( a t , v t ) } - - - ( 2 )
其中,
Figure FDA0000451406920000032
表示所述翻译实体知识,<et,at,vt>表示所述待选翻译实体知识,
Figure FDA0000451406920000033
表示所述翻译实体知识的实体,
Figure FDA0000451406920000034
表示所述翻译实体知识的属性,表示所述翻译实体知识的属性值。
9.根据权利要求8所述的装置,其特征在于,每个实体对应m个关联实体知识,其中m为大于0的正整数,所述装置还包括:
第四获取模块,用于获取所述m个关联实体知识的m个翻译实体知识;
去重模块,用于对所述m个翻译实体知识中翻译实体进行去重以获取n个翻译实体,其中,n为大于0的正整数且n小于或等于m;
第五获取模块,用于分别获取所述n个翻译实体在所述m个翻译实体知识中的第二频次,并将所述第二频次最高的所述翻译实体作为所述实体的全局翻译实体。
10.根据权利要求9所述的装置,其特征在于,还包括:
第六获取模块,用于根据所述全局翻译实体按照以下公式(3)分别获取所述m个关联实体知识对应的翻译属性和翻译属性值,
< e ^ t , a ^ t , v ^ t > = arg max < a t , v t > { &lambda; 1 f ( e ^ t , a t ) + &lambda; 2 f ( e ^ t , v t ) + &lambda; 3 f ( a t , v t ) } - - - ( 3 ) .
CN201310752626.3A 2013-12-31 2013-12-31 实体知识库的构建方法和装置 Active CN103678714B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310752626.3A CN103678714B (zh) 2013-12-31 2013-12-31 实体知识库的构建方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310752626.3A CN103678714B (zh) 2013-12-31 2013-12-31 实体知识库的构建方法和装置

Publications (2)

Publication Number Publication Date
CN103678714A true CN103678714A (zh) 2014-03-26
CN103678714B CN103678714B (zh) 2017-05-10

Family

ID=50316258

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310752626.3A Active CN103678714B (zh) 2013-12-31 2013-12-31 实体知识库的构建方法和装置

Country Status (1)

Country Link
CN (1) CN103678714B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104133848A (zh) * 2014-07-01 2014-11-05 中央民族大学 藏语实体知识信息抽取方法
CN104331401A (zh) * 2014-11-25 2015-02-04 中国农业银行股份有限公司 一种翻译方法及系统
CN106023985A (zh) * 2016-05-19 2016-10-12 北京捷通华声科技股份有限公司 一种语言模型训练方法、系统和语音识别系统
CN106919689A (zh) * 2017-03-03 2017-07-04 中国科学技术信息研究所 基于术语释义知识单元的专业领域知识图谱动态构建方法
CN106951499A (zh) * 2017-03-16 2017-07-14 中国人民解放军国防科学技术大学 一种基于翻译模型的知识图谱表示方法
CN109766444A (zh) * 2018-12-10 2019-05-17 北京百度网讯科技有限公司 知识图谱的应用数据库生成方法及其装置
CN110569371A (zh) * 2019-09-17 2019-12-13 出门问问(武汉)信息科技有限公司 一种知识图谱构建方法、装置及存储设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070010992A1 (en) * 2005-07-08 2007-01-11 Microsoft Corporation Processing collocation mistakes in documents
CN101194253A (zh) * 2005-06-14 2008-06-04 微软公司 来源于单语和可用双语语料库的搭配翻译
CN102117284A (zh) * 2009-12-30 2011-07-06 安世亚太科技(北京)有限公司 一种跨语言知识检索的方法
CN102930031A (zh) * 2012-11-08 2013-02-13 哈尔滨工业大学 由网页中提取双语平行正文的方法和系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101042692B (zh) * 2006-03-24 2010-09-22 富士通株式会社 基于语义预测的译文获取方法和设备

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101194253A (zh) * 2005-06-14 2008-06-04 微软公司 来源于单语和可用双语语料库的搭配翻译
US20070010992A1 (en) * 2005-07-08 2007-01-11 Microsoft Corporation Processing collocation mistakes in documents
CN102117284A (zh) * 2009-12-30 2011-07-06 安世亚太科技(北京)有限公司 一种跨语言知识检索的方法
CN102930031A (zh) * 2012-11-08 2013-02-13 哈尔滨工业大学 由网页中提取双语平行正文的方法和系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
张朝胜: ""领域本体概念实例、属性及属性值提取研究"", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104133848A (zh) * 2014-07-01 2014-11-05 中央民族大学 藏语实体知识信息抽取方法
CN104331401A (zh) * 2014-11-25 2015-02-04 中国农业银行股份有限公司 一种翻译方法及系统
CN104331401B (zh) * 2014-11-25 2017-05-31 中国农业银行股份有限公司 一种翻译方法及系统
CN106023985A (zh) * 2016-05-19 2016-10-12 北京捷通华声科技股份有限公司 一种语言模型训练方法、系统和语音识别系统
CN106919689A (zh) * 2017-03-03 2017-07-04 中国科学技术信息研究所 基于术语释义知识单元的专业领域知识图谱动态构建方法
CN106919689B (zh) * 2017-03-03 2018-05-11 中国科学技术信息研究所 基于术语释义知识单元的专业领域知识图谱动态构建方法
CN106951499A (zh) * 2017-03-16 2017-07-14 中国人民解放军国防科学技术大学 一种基于翻译模型的知识图谱表示方法
CN106951499B (zh) * 2017-03-16 2019-09-20 中国人民解放军国防科学技术大学 一种基于翻译模型的知识图谱表示方法
CN109766444A (zh) * 2018-12-10 2019-05-17 北京百度网讯科技有限公司 知识图谱的应用数据库生成方法及其装置
CN109766444B (zh) * 2018-12-10 2021-02-23 北京百度网讯科技有限公司 知识图谱的应用数据库生成方法及其装置
CN110569371A (zh) * 2019-09-17 2019-12-13 出门问问(武汉)信息科技有限公司 一种知识图谱构建方法、装置及存储设备

Also Published As

Publication number Publication date
CN103678714B (zh) 2017-05-10

Similar Documents

Publication Publication Date Title
CN103678714A (zh) 实体知识库的构建方法和装置
Zou et al. Finding top-k maximal cliques in an uncertain graph
Saka et al. A global taxonomic review and analysis of the development of BIM research between 2006 and 2017
Bezem et al. Automating coherent logic
CN111159184B (zh) 元数据追溯方法、装置及服务器
EP3206146A1 (en) Data information processing method and device
Lang et al. Judgment aggregation rules and voting rules
Thabtah et al. A new Classification based on Association Algorithm
Zhou et al. SemFE: Facilitating ML pipeline development with semantics
CN113487211A (zh) 核电装备质量追溯方法、系统、计算机设备及介质
Sun et al. Mining software repositories for automatic interface recommendation
JP5983368B2 (ja) 情報処理装置及び情報処理プログラム
Yang et al. Hdd: a hypercube division-based algorithm for discretisation
CN102968669B (zh) 对负荷进行预测的方法和装置
Fomin et al. Parameterized complexity of elimination distance to first-order logic properties
CN104536877A (zh) 一种基于混合策略的测试数据生成方法
Pietsch et al. Comparison of BPMN2 diagrams
CN104462414A (zh) 一种基于拓扑结构的流程图相似性方法
Hatzfeld et al. Modeling circularity as Functionality Over Use-Time to reflect on circularity indicator challenges and identify new indicators for the circular economy
Philipp et al. Towards a Semantics of Unsatisfiability Proofs with Inprocessing.
Liu et al. Theory of test modeling based on regular expressions
Xia et al. An improved decomposition method for evaluating the performance of transfer lines with unreliable machines and finite buffers
Li et al. Accelerating LTL satisfiability checking by SAT solvers
KR101501124B1 (ko) 고장 형태 영향 분석(Failure Mode and Effect Analysis(FMEA)) 문서의 시맨틱 모델 처리 방법
Rios et al. Dynamic Performance Evaluation of the Secondary Control in Islanded Microgrids Considering Frequency-Dependent Load Models

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant