一种基于机器翻译的中文语义知识库的构建方法
技术领域
本发明涉及中文语义知识库构建的方法,特别涉及一种基于机器翻译的中文语义知识库的构建方法。
背景技术
知识库汇集一系列的概念、实例以及关系,在自然语言处理领域的应用越来越广泛,比如自动问答、事件检测、理解用户query等方面。目前较出名的知识库包括WordNet、HowNet、FrameNet、YAGO、Freebase、DBpedia等,分别在搜索、问答等方面发挥了很好的作用。知识库根据构建方法主要分为两种,一种是依赖语言学基础知识以及语言学专家进行的人工构建的知识库,比如WordNet、HowNet等;另外一种是基于大规模现实语料的自动构建的知识库,比如DBpedia、YAGO等。目前人工构建知识库的方法已经很成熟,但是完全依赖于昂贵的人力及时间,而自动构建语义知识库可以节省这方面的消耗。
Freebase是一个由元数据组成的大型合作知识库,内容主要来自其社区成员的贡献,它整合了许多网上的资源,包括部分私人wiki站点中的内容,包含3900万个实体和18亿条实体关系,被谷歌收购并将其全部数据迁移至维基数据;DBpedia是德国莱比锡大学等机构发起的项目,从维基百科中抽取实体关系,包括1千万个实体和14亿条实体关系;YAGO则是德国马克斯·普朗克研究所发起的项目,也是从维基百科和WordNet等知识库中抽取实体,到2010年该项目已包含1千万个实体和1.2亿条实体关系。
在汉语语义知识库方面,董振东构建了知网(HowNet),知网是一个以汉语和英语的词语所代表的概念为描述对象,以揭示概念与概念之间以及概念所具有的属性之间的关系为基本内容的常识知识库;张潮生构建的中文词语库CWB(Chinese Word Base)是一个规模较大的中文词库,该词库目前收入了13万以上的书面形式的词条,包括单词、固定词组、成语、等等,包含大量的同义、分类等语义信息。
语义知识库构建的巨大推动力是其可以应用于语义搜索、机器问答等实际的应用中。然而现有中文知识库相对匮乏,规模也较小。因此中文语义知识库的构建对中文信息处理和中文信息检索具有重要的价值。
目前语义知识库的构建方法主要有三种:
(1)是依赖语言学基础知识以及语言学专家进行的人工构建的知识库,比如WordNet、HowNet等。目前人工构建知识库的方法已经很成熟,但是完全依赖于昂贵的 人力及时间。
(2)是基于大规模语料的自动构建的知识库,比如DBpedia、YAGO等。该方法可以抽取大量的实体及属性关联,然而存在严重的冗余问题需要处理。
(3)是基于跨语言映射的语义知识库翻译,利用现有的大型外文知识库,如freebase,通过一定的翻译技术得到中文的语义知识库。
发明内容
本发明的目的是为了解决中文语义知识库匮乏的问题、现有技术昂贵的人力及时间的问题,和提高基于跨语言映射的语义知识库翻译的性能的问题,而提出的一种基于机器翻译的中文语义知识库的构建方法。
上述的发明目的是通过以下技术方案实现的:
步骤一、利用源语言语义知识库中实体对原双语语料中源语言端语料进行命名实体识别,得到标注了实体的源语言端语料;
步骤二、利用步骤一得到的标注了实体的源语言端语料构建主题模型,根据主题模型计算得到实体的主题分布;
步骤三、将标注了实体的源语言端语料和原双语语料的目的语言端语料构成源语言端标注了实体的双语语料,利用源语言端标注了实体的双语语料构建基于短语的统计机器翻译模型,利用基于短语的统计机器翻译模型生成短语翻译表,根据源语言端实体词表从短语翻译表中抽取源语言端语义知识库中实体的翻译概率,记为p(tj|si),其中tj属于si的候选翻译集;
步骤四、根据步骤二建立的源语言端主题模型和步骤三建立的p(tj|si)构建基于源语言端语义知识库图结构信息的实体翻译模型,其中,源语言端语义知识库图结构信息即实体的上下文信息。
发明效果
本发明相关研究不仅是对信息学、语言学相关理论的佐证,同时对自然语言理解有促进作用。本发明称语义知识库中每个节点为实体。为了提高实体翻译的性能,本发明利用了源语言端实体在源语言端语义知识库中的图结构信息。为了解决中文语义知识库匮乏的问题,本发明提出了一种基于机器翻译的中文语义知识库的构建方法。这种方法易于实现,不仅减少了人力物力的消耗,且能提高翻译得到的中文语义知识库的质量。总的来说,该方法提出了一种基于机器翻译的自动构建中文语义知识库的方法。
在本发明提出了一种基于机器翻译的中文语义知识库的构建方法。通过分析语义知识 库中的实体主题分布与该实体的上下文信息的相关性,利用机器翻译框架构建基于语义知识库的翻译模型,进而实现中文语义知识库的自动化构建。本发明旨在基于现有的语义知识库,比如Freebase、DBpedia等,利用机器翻译模型构建中文语义知识库。
本发明在机器翻译模型及主题模型中,一般对原始数据进行分词处理,本发明机器翻译技术应用于特定领域即知识图谱自动构建,由于源语言语义知识库中的所有实体的已知,在数据预处理时,本发明以源语言实体为词表添加到源语言单语语料分词及命名实体识别;为提高由源语言语义知识库中实体翻译得到中文语义知识库的质量,考虑了源语言端实体在源语言端语义知识库中的图结构信息。
本发明中使用源语言单语语料构建主题模型,并根据实体在源语言语义知识库的图结构信息重新计算实体的主题分布,再利用该主题分布构建基于源语言语义知识库上下文的机器翻译模型;
由于本发明是利用机器翻译技术从源语言语义知识库翻译得到中文语义知识库,本方法在对源语言语言进行预处理过程,将源语言语义知识库中的实体作为词表添加到源语言端分词及命名实体识别模型中。语义知识库以图结构进行存储,实体在语义知识库中的图结构信息包括通过属性节点和其他实体相连,因此不仅考虑与源语言实体相连的实体,也考虑属性节点对实体翻译的影响。
如在知识图谱(一种语义知识库)中,“Heat”作为实体名称时,可能对应不同的实体:Heat(盗火线,电影)、Heat(热能,物理术语)、Heat(灼热,动漫)、Heat(热度,杂志),等等。如图一所示当“Heat”实体与导演Michael Mann,主演Al Pacino等相连时,“Heat”对应的翻译结果为“盗火线”,其中Michael Mann和Al Pacino为相连实体,导演和主演为连接实体的边;当“Heat”与热能相关实体相连时,对应的翻译结果为“热能”。在本方法考虑了源语言语义知识库中的上下文信息,以期提高通过基于跨语言映射的语义知识库翻译技术自动构建的中文语义知识库的准确性。
附图说明
图1为具体实施方式一提出的一种基于机器翻译的中文语义知识库的构建方法的主要过程流程图;
图2为具体实施方式四提出的两个Heat实体在语义知识库中的示例说明;其中,热火线、Heat热能为两个heat实体对应的中文释义。
具体实施方式
具体实施方式一:本实施方式的一种基于机器翻译的中文语义知识库的构建方法,具体是按照以下步骤制备的:
基于源语言语义知识库中实体对源语言端单语语料进行分词及命名实体识别和基于源语言端语义知识库图结构信息的机器翻译模型;
步骤一、利用源语言语义知识库中实体对原双语语料中源语言端语料进行命名实体识别,得到标注了实体的源语言端语料;
步骤二、利用步骤一得到的标注了实体的源语言端语料构建主题模型,根据主题模型计算得到实体的主题分布;
步骤三、将标注了实体的源语言端语料和原双语语料的目的语言端语料构成源语言端标注了实体的双语语料,利用源语言端标注了实体的双语语料构建基于短语的统计机器翻译模型,利用基于短语的统计机器翻译模型生成短语翻译表,根据源语言端实体词表从短语翻译表中抽取源语言端语义知识库中实体的翻译概率,记为p(tj|si),其中tj属于si的候选翻译集;
步骤四、根据步骤二建立的源语言端主题模型和步骤三建立的p(tj|si)构建基于源语言端语义知识库图结构信息的实体翻译模型,其中,源语言端语义知识库图结构信息即实体的上下文信息如图1。
本实施方式效果:
本实施方式相关研究不仅是对信息学、语言学相关理论的佐证,同时对自然语言理解有促进作用。本实施方式称语义知识库中每个节点为实体。为了提高实体翻译的性能,本实施方式利用了源语言端实体在源语言端语义知识库中的图结构信息。为了解决中文语义知识库匮乏的问题,本实施方式提出了一种基于机器翻译的中文语义知识库的构建方法。这种方法易于实现,不仅减少了人力物力的消耗,且能提高翻译得到的中文语义知识库的质量。总的来说,该方法提出了一种基于机器翻译的自动构建中文语义知识库的方法。
在本实施方式提出了一种基于机器翻译的中文语义知识库的构建方法。通过分析语义知识库中的实体主题分布与该实体的上下文信息的相关性,利用机器翻译框架构建基于语义知识库的翻译模型,进而实现中文语义知识库的自动化构建。本实施方式旨在基于现有的语义知识库,比如Freebase、DBpedia等,利用机器翻译模型构建中文语义知识库。
本实施方式在机器翻译模型及主题模型中,一般对原始数据进行分词处理,本实施方式机器翻译技术应用于特定领域即知识图谱自动构建,由于源语言语义知识库中的所有实体的已知,在数据预处理时,本实施方式以源语言实体为词表添加到源语言单语语料分词及命名实体识别;为提高由源语言语义知识库中实体翻译得到中文语义知识库的质量,考虑了源语言端实体在源语言端语义知识库中的图结构信息。
本实施方式中使用源语言单语语料构建主题模型,并根据实体在源语言语义知识库的图结构信息重新计算实体的主题分布,再利用该主题分布构建基于源语言语义知识库上下文的机器翻译模型;
由于本实施方式是利用机器翻译技术从源语言语义知识库翻译得到中文语义知识库,本方法在对源语言语言进行预处理过程,将源语言语义知识库中的实体作为词表添加到源语言端分词及命名实体识别模型中。语义知识库以图结构进行存储,实体在语义知识库中的图结构信息包括通过属性节点和其他实体相连,因此不仅考虑与源语言实体相连的实体,也考虑属性节点对实体翻译的影响。
如在知识图谱(一种语义知识库)中,“Heat”作为实体名称时,可能对应不同的实体:Heat(盗火线,电影)、Heat(热能,物理术语)、Heat(灼热,动漫)、Heat(热度,杂志),等等。如图1所示当“Heat”实体与导演Michael Mann,主演Al Pacino等相连时,“Heat”对应的翻译结果为“盗火线”,其中Michael Mann和Al Pacino为相连实体,导演和主演为连接实体的边;当“Heat”与热能相关实体相连时,对应的翻译结果为“热能”。在本方法考虑了源语言语义知识库中的上下文信息,以期提高通过基于跨语言映射的语义知识库翻译技术自动构建的中文语义知识库的准确性。
具体实施方式二:本实施方式与具体实施方式一不同的是:在对源语言端语料进行预处理时,将对原始语料进行分词等预处理;现今的分词技术虽然能很好的实现分词,然而,由于很多词汇是新词,因此分词技术仍有不足;命名实体识别技术也正遇到相似的问题;然而对于本发明,由于源语言端语义知识库已知,因此
步骤一一、利用源语言端语义知识库构建源语言端实体词表,其中,源语言端实体词表包括源语言端语义知识库中所有实体的名称(实体具体为一般为具体的一个人一个实物一个单词);
步骤一二、将步骤一一得到的源语言端实体词表作为词表添加到命名实体识别模型,即对双语语料中源语言端语料进行命名实体识别。其它步骤及参数与具体实施方式一相同。
具体实施方式三:本实施方式与具体实施方式一或二不同的是:步骤二中利用步骤一得到的标注了实体的源语言端语料构建主题模型,根据主题模型计算得到实体的主题分布的具体过程:
步骤二一、利用步骤一得到的标注了实体的源语言端语料训练主题模型得到单词-主题分布:
其中,si表示标注了实体的源语言端语料中的单词,i∈{1,2....,Vs},Vs是标注了实体的源语言端语料中词表的大小;zk是第k个主题,k∈{1,2,...,K},K是主题的总个数;
步骤二二、利用步骤二一得到的单词-主题分布得到每个实体的主题分布:
其它步骤及参数与具体实施方式一或二相同。
具体实施方式四:本实施方式与具体实施方式一至三之一不同的是:步骤四中根据步骤二建立的源语言端主题模型和步骤三建立的p(tj|si)构建基于源语言端语义知识库图结构信息的实体翻译模型具体过程:
步骤四一、利用步骤二得到的源语言端的主题模型,得到上下文下的实体主题分布:
其中,C是实体si的上下文信息,即其相连节点和边的集合;
步骤四二、利用步骤三得到的源语言端语义知识库中实体的翻译概率及步骤四一得到的上下文的实体主题分布,计算上下文信息的实体翻译概率:
步骤四三、利用步骤四二得到的上下文下的实体翻译概率,计算上下文信息下的
实体翻译结果;
基于源语言端语义知识库图结构信息的机器翻译模型
语义知识库是由实体以及实体与实体之间的连接所组成;传统的概率统计针对的是词语之间的对等翻译,但其未能兼顾语义知识库中实体之间的关联性;因此本发明在借助传统机器翻译中的基本特征之外,进一步分析语义知识库中的实体主题以及实体的图结构信息,利用自然语言处理中的主题模型对其进行建模,对语义知识库中的实体主题进行识别和判断;如,在知识图谱中,“Heat”作为实体名称时,可能对应不同的实体:Heat(盗火线,电影)、Heat(热能,物理术语)、Heat(灼热,动漫)、Heat(热度,杂志),等等;如图2所示当“Heat”实体与导演Michael Mann,主演Al Pacino等相连时,“Heat”对应的翻译结果为“盗火线”,其中Michael Mann和Al Pacino为相连实体,导演和主演为连接实体的边;当“Heat”与热能相关实体相连时,对应的翻译结果为“热能”;从中我们可以看出实体在语义知识库中的图结构信息,包括相连实体及边,对其翻译结果有重要的影响,因此本方法考虑源语言语义知识库中的上下文信息来提高基于命令实体翻译技术自动构建中文 语义知识库的准确性。其它步骤及参数与具体实施方式一至三之一相同。