CN106777274B

CN106777274B - 一种中文旅游领域知识图谱构建方法及系统

Info

Publication number: CN106777274B
Application number: CN201611241944.3A
Authority: CN
Inventors: 张春霞; 徐溥; 彭飞; 武嘉玉; 王树良
Original assignee: Beijing Institute of Technology BIT
Current assignee: Beijing Institute of Technology BIT
Priority date: 2016-06-16
Filing date: 2016-12-29
Publication date: 2018-05-29
Anticipated expiration: 2036-12-29
Also published as: CN106777274A

Abstract

本发明涉及一种旅游领域知识图谱的构建方法及系统，属于Web挖掘和智能信息处理领域。旅游领域知识图谱构建任务包括实体属性知识扩充子任务和实体属性值融合子任务。本发明采用一种混合式的实体属性知识扩充方法，集成了基于词汇场、监督学习、模式匹配，以及搜索引擎问答的实体属性知识扩充算法。对于实体属性值融合子任务，采用一种基于来源可信度的多值属性的属性值融合方法、一种基于内容可信度的固定型单值属性的属性值融合方法，以及一种基于学习排序的非固定型单值属性的属性值融合方法。本发明构建了结构化的旅游领域实体知识库，准确地表达了旅游领域实体的属性和属性值知识，提高了用户获取旅游领域知识的效率，具有广阔的应用前景。

Description

一种中文旅游领域知识图谱构建方法及系统

技术领域

本发明涉及Web挖掘和智能信息处理技术领域，涉及一种中文旅游领域知识图谱构建方法及系统，本发明在信息检索、信息推荐、自动问答等领域具有广阔的应用前景。

背景技术

知识图谱(Knowledge Graph)是利用可视化技术或结构化方式来描述实体和实体关系知识，为搜索引擎用户提供高质量的知识检索服务。知识图谱是构建下一代搜索引擎的雏形，使得搜索更加语义化和智能化。目前，通用知识图谱包括谷歌的Knowledge Graph、微软的Satori、百度的知心，以及搜狗的知立方等。

相对于通用知识图谱，专业领域知识图谱构建研究较少。Lv Qingjie等在文献《Research on domain knowledge graph based on the large scale online knowledgefragment》(IEEE Workshop on Advanced Research and Technology in IndustryApplications，2014)中，首先从在线百科网站和酒类垂直网站中获取实体和关系，然后基于多维图模型抽取实体关系，由此构建了酒类专业领域知识图谱。周蓝珺在文献《音乐领域中文实体关系抽取研究》(哈尔滨工业大学硕士学位论文2009)中，采用基于序列模式挖掘的方法、基于最大熵和支持向量机的方法从新浪网音乐领域网页提取实体之间的关系。另外，Patrick Ernst等在文献《KnowLife:a Knowledge Graph for Health and LifeSciences》(IEEE 30th International Conference on Data Engineering，2014)中，研发了健康和生命科学领域知识图谱系统Knowlife，从专业医学网站和科技文献中抽取疾病、症状、病因、药品和治疗等关联关系。

现有中文专业领域知识图谱构建方法主要存在如下问题：英文专业领域知识图谱构建方法不能完全适用于中文专业领域知识图谱构建；现有专业领域知识图谱构建方法难以兼顾获取知识的规模和准确率，也难以融合从多种数据源中获取的领域知识。

针对中文专业领域知识图谱构建方法存在的上述问题和中文旅游领域知识图谱知识量较少的问题，为提供高效的中文旅游知识服务，迫切需要中文旅游领域图谱构建技术。

发明内容

本发明的目的是为了解决中文专业领域知识图谱和中文旅游领域知识图谱构建中存在的上述问题提供一种中文旅游领域知识图谱的构建方法。中文旅游领域知识图谱构建任务包括旅游领域实体属性知识扩充和旅游领域实体属性值融合；实体属性知识扩充任务是指提取实体的给定属性的属性值，实体属性值融合任务是指融合通过多种方法或多种来源提取的实体同一属性的属性值。相应地，中文旅游领域知识图谱的构建方法包括一种混合式的实体属性知识扩充方法和一种基于学习排序的实体属性值融合方法。

本发明的目的是通过以下技术方案实现的。

一种旅游领域知识图谱的构建方法，包括如下步骤：

步骤1，获取旅游领域知识图谱构建的语料

作为优选，语料的获取通过以下过程完成：首先，采集旅游领域实体词条网页构建为语料集，定义旅游领域实体的基本属性及其属性值的词性。旅游领域实体基本属性包括：别称、地址、电话、海拔、级别、建立时间、开放时间、门票价格、荣誉、相关人物、英文名、中文名、邮编、占地面积和著名景点。其次，对语料集网页中的句子进行中文分词和词性标注。

根据旅游领域实体基本属性的特点，将属性划分为多值属性、固定型单值属性、非固定型单值属性三种类别。实体的多值属性是指实体的属性存在多个属性值。实体的固定型单值属性是指实体的属性只存在一个属性值且表示方式唯一。实体的非固定型单值属性是指实体的属性只存在一个属性值，但表示方式不唯一。在上述旅游领域实体基本属性中，电话、别称、荣誉、相关人物、著名景点为多值属性；门票价格、海拔、邮编、英文名、中文名、占地面积为固定型单值属性；地址、级别、建立时间、开放时间为非固定型单值属性。

步骤2，采用混合式方法进行实体属性知识扩充

本发明提出的混合式实体属性知识扩充方法包括四个部分，分别是基于模式匹配的实体属性知识扩充、基于属性词汇场的实体属性知识扩充、基于监督学习的实体属性知识扩充，以及基于搜索引擎问答的属性知识扩充。

第一，采用基于模式匹配的方法进行实体属性知识扩充。

首先，人工构建旅游领域实体基本属性的属性知识扩充的原始模式。然后，利用《同义词词林》根据原始模式来学习属性知识扩充的扩展模式。最后，根据原始模式和扩展模式采用基于模式匹配的方法进行实体属性知识扩充，即获取三元组(实体，属性，属性值)。

第二，采用基于属性词汇场的方法进行实体属性知识扩充。

属性词汇场由不同类型的属性线索词语及其权重构成。属性线索词语的类型包括属性词语、属性值词语、属性触发词语。首先，构建每个旅游领域实体基本属性a的词汇场。然后，对于语料中的每个句子，计算句子中包含属性a的词汇场中词语的总数m和平均权重w。若m和w大于给定阈值，则将该句子构建为扩充属性a的属性知识的候选句子。最后，根据属性a的属性值的词性从候选句子中提取旅游领域实体的属性a的属性值。

第三，采用基于搜索引擎问答的方法进行实体属性知识扩充。

本发明将形如“e a”作为百度搜索引擎的查询需求，其中e为旅游领域实体，a为属性名称。根据百度搜索引擎检索结果，抽取旅游领域实体e的属性a的属性值。

第四，采用基于监督学习的方法进行实体属性知识扩充。

首先，根据属性值的词性从语料的句子中提取旅游领域实体的候选属性值。

其次，对于提取出候选属性值的句子提取其分类特征。分类特征包括属性a的候选属性值v前后五个词语的词频、v前后各五个词语的词性、v的长度、v在属性a的词汇场中的权重、v前一词是否为标点符号、v前三个词是否包含否定词、v在句子中的起始位置、v在句子中的结束位置、v所在句子中是否包含属性触发词、v所在句子中属性触发词与v的距离。

最后，基于训练好的决策树、朴素贝叶斯、随机森林，以及AdaBoost分类器采用多分类器投票法来判别候选属性值是否为旅游领域实体的属性值。对于候选属性值v，分别采用训练好的决策树、朴素贝叶斯、随机森林，以及AdaBoost四种分类器来判别候选属性值。分类标签包括True和False两类，True表示该候选属性值判别为旅游领域实体的属性值，False表示该候选属性值不能判别为旅游领域实体的属性值。进一步，对于通过这四种分类器判别的候选属性值v的分类结果，选择数量较多的分类标签作为分类结果。若数量较多的分类标签为True，则构建三元组实体、属性和属性值。

其中，决策树、朴素贝叶斯、随机森林，以及AdaBoost分类器的训练过程如下：

首先，选取语料集中部分网页构建为训练集。对于训练集中的每个句子，若句子中标记为候选属性值的字符串为旅游领域实体的属性a的属性值，则将该句子赋予类别标签“True”，标记为提取属性a的属性值的正例句子；否则，将该句子赋予类别标签“False”，标记为提取属性a的属性值的反例句子。其次，提取训练集中句子的属性值的分类特征。分类特征与从包含候选属性值的句子中提取的分类特征相同。

最后，根据训练集分别训练决策树、朴素贝叶斯、随机森林，以及AdaBoost四种分类器。

步骤3，根据实体属性的特点进行实体属性值融合

根据旅游领域实体基本属性的类别，分别进行属性的属性值融合：

第一，采用一种基于来源可信度的方法对多值属性的属性值进行融合。对于旅游领域实体e及其属性a，设通过基于模式匹配的方法m₁获取实体e的属性a的属性值v₁，通过基于词汇场的方法m₂获取属性值v₂，通过基于监督学习的方法m₃获取属性值v₃，通过基于搜索引擎问答的方法m₄获取属性值v₄，通过百科信息盒获取属性值v₅。设通过方法m₁,m₂,m₃,m₄,m₅获取的属性值v₁,v₂,v-₃,v₄,v₅的权重分别为w₁,w₂,w₃,w₄,w₅。根据实体e的属性a的属性值的权重，将所有属性值按照权重非升序的方式排序输出。

第二，采用一种基于内容可信度的方法对固定型单值属性的属性值进行融合。

对于旅游领域实体e及其属性a和候选属性值v，设x表示通过基于来源可信度的方法获取的属性值的权重，y表示该属性值通过混合式属性知识扩充方法被抽取出的次数，z表示候选属性值v的长度，u表示候选属性值v在属性a的词汇场中的权重。下面式子给出了计算候选属性值v的可信度c的方法，其中α,β,γ,δ为用户自定义的参数。

c＝αx+βy+γz+δu

若旅游领域实体e及其属性a具有多个候选属性值，则选择可信度最大的候选属性值作为属性a的属性值。

第三，采用一种基于学习排序的方法对非固定型单值属性的属性值进行融合。

首先，构建属性值融合的训练集。训练集包括“排序分值，查询编号，<实体，属性，属性值，来源>”。根据属性值与属性的相关程度，将排序分值设置为0,1,2,或3，分值越大，表示属性值和属性相关度越大。每个查询编号表示查询旅游领域实体的一个属性。来源表示三元组(实体，属性，属性值)的获取方法。

然后，采用学习排序模型对训练集进行训练，构建学习排序模型。本实施例中，采用了六种学习排序模型：随机森林、迭代决策树、RankBoost、ListNet、AdaRank和RankNet。

最后，根据训练的六个学习排序模型，对需要打分的每个属性查询的所有候选四元组<实体，属性，属性值，来源>进行打分，获得六个排序分值列表。对排序分值进行归一化，计算每个候选四元组在六个排序分值列表中的分值之和，输出分值最高的候选四元组作为属性值融合的结果。

步骤4，基于XML构建旅游领域中文知识图谱。

根据步骤3获取的三元组知识，构建旅游领域知识图谱。知识图谱包括三种节点(即图中的节点)和三种关系类型(即图中的边)。节点类型包括旅游领域实体节点、地点实体节点和属性值节点。关系类型包括地点实体和旅游领域实体之间的关系、地点实体和地点实体之间的关系，以及旅游领域实体和属性值之间的关系。通过可扩展标记语言XML(Extensible Markup Language)存储旅游领域实体节点、地点实体节点和属性值节点以及它们的关系边所表示的知识，即可获得旅游领域知识图谱。

至此，就完成了本方法的全部过程。

基于上述方法实现的一种旅游领域知识图谱构建系统，包括旅游领域语料采集模块、旅游领域实体属性知识扩充模块、旅游领域实体属性值融合模块，以及旅游领域知识图谱构建模块。旅游领域语料采集模块与旅游领域实体属性知识扩充模块相连；旅游领域实体属性知识扩充模块与旅游领域实体属性值融合模块相连；旅游领域实体属性值融合模块与旅游领域知识图谱构建模块相连。

所述旅游领域语料采集模块用于采集旅游领域实体词条网页，对网页中的句子进行中文分词和词性标注，以及定义旅游领域实体的基本属性及其属性值的词性，根据旅游领域实体的基本属性的特点，将其划分为多值属性、固定型单值属性或非固定型单值属性类别；

所述旅游领域实体属性知识扩充模块用于对所述旅游领域语料采集模块获取的网页的句子进行旅游领域实体的属性和属性值扩充；

作为优选，该模块通过上述一种旅游领域知识图谱的构建方法步骤2所述过程实现。

所述旅游领域实体属性值融合模块用于对所述旅游领域实体属性知识扩充模块提取的实体的属性值根据实体的属性类别进行融合；

作为优选，该模块通过上述一种旅游领域知识图谱的构建方法步骤3所述过程实现。

所述旅游领域知识图谱构建模块用于对所述旅游领域实体属性值融合模块提取的实体、属性和属性值三元组通过可扩展标记语言XML存储旅游领域实体节点、地点实体节点和属性值节点以及它们的关系边所表示的知识进行旅游领域知识图谱构建。

有益效果

本发明的方法，针对现有中文专业领域知识图谱构建方法难以兼顾获取知识的规模和准确率，也难以融合从多种数据源中获取的领域知识；英文专业领域知识图谱构建方法不能完全适用于中文专业领域知识图谱构建；中文旅游领域知识图谱知识量较少等问题，提供一种中文旅游领域知识图谱的构建方案，包括一种混合式的实体属性知识扩充方法和一种基于学习排序的实体属性值融合方法。该方法获取了高质量的旅游领域实体知识，极大扩充了现有旅游领域知识图谱的知识规模。具体体现在如下方面：

(1)本发明采用一种基于属性词汇场的属性知识扩充方法，属性词汇场包含了与旅游领域实体属性相关的特征词语，并根据与属性的关联程度赋予了不同权重。该方法增加了获取的旅游领域实体属性知识的规模。

(2)本发明采用一种混合式属性知识扩充技术，包括基于模式匹配的实体属性知识扩充、基于属性词汇场的实体属性知识扩充、基于监督学习的实体属性知识扩充，以及基于搜索引擎问答的属性知识扩充。该技术融合各种方法的特点，一方面提高了旅游领域知识获取的准确率，另一方面极大增加了获取的旅游领域实体知识的规模。

(3)本发明采用一种基于学习排序的知识图谱属性值融合方法。该方法的特点是将属性值融合任务转化为搜索引擎文档排序任务，通过学习排序模型对旅游领域实体的属性值进行排序，筛选表达粒度精准的属性值，提高了用户获取高质量知识的效率。

附图说明

图1为本发明实施例一种中文旅游领域知识图谱的构建方法的流程示意图；

图2为本发明实施例一种中文旅游领域知识图谱构建系统的组成结构示意图。

具体实施方式

下面结合实施例对本发明方法的优选实施方式进行详细说明。

实施例

一种中文旅游领域知识图谱的构建方法，如图1所示，包括如下步骤：

步骤1，获取旅游领域知识图谱构建的语料

首先，本发明从互动百科网站旅游相关分类中采集旅游领域实体词条列表，分类包括中国各省旅游、中国旅游、1A风景区、2A风景区、3A风景区、4A风景区和5A风景区，并且定义旅游领域实体的基本属性及其属性值的词性。本实施例中定义的基本属性包括：别称、地址、电话、海拔、级别、建立时间、开放时间、门票价格、荣誉、相关人物、英文名、中文名、邮编、占地面积和著名景点。对于旅游领域实体词条列表中的每个旅游实体词条网页，本实施例开发爬虫爬取了词条正文的信息盒和自由文本。当然，本领域技术人员知道，此处也可以采用包括Heritrix等爬虫工具对旅游实体词条网页进行爬取。

其次，使用哈尔滨工业大学的语言技术平台LTP进行中文分词和词性标注，当然，本领域技术人员知道，此处也可以采用其它工具进行中文分词和词性标注。

例如，对于句子“北京动物园，位于北京市西城区西直门外大街，东邻北京展览馆和莫斯科餐厅，占地面积约86公顷，水面8.6公顷。”，分词和词性标注后的结果为“北京(ns)动物园(n)，(wp)位于(v)北京市(ns)西城区(ns)西直门(ns)外(nd)大街(n)，(wp)东(nd)邻(n)北京(ns)展览馆(n)和(c)莫斯科(ns)餐厅(n)，(wp)占地(v)面积(n)约(d)86(m)公顷(q)，(wp)水面(n)8.6(m)公顷(q)。(wp)”。其中，词语后面的标记为词性标注符号，请见语言技术平台LTP。例如，“ns”表示地名。

步骤2，采用混合式方法进行旅游领域实体属性知识扩充

第一，采用基于模式匹配的方法进行实体属性知识扩充。

首先，人工构建旅游领域实体基本属性的属性知识扩充的原始模式。然后，利用《同义词词林》根据原始模式来学习属性知识扩充的扩展模式。最后，基于原始模式和扩展模式采用基于模式匹配的方法进行实体属性知识扩充，即获取三元组(实体，属性，属性值)。

原始模式和扩展模式的构成元素包括词语常量和词性变量。例如，属性门票价格的属性知识扩充的原始模式“门票为<n><m><q>”包括词语常量“门票”和“为”，词性变量“<n>”、“<m>”和“<q>”，其中，n表示名词，m表示数词，q表示量词。故宫博物院词条中的句子“每张门票为人民币60元”匹配该模式，由此获取三元组(故宫博物院，门票价格，人民币60元)，表示故宫博物院的属性门票价格的属性值为60元。

根据原始模式学习属性知识扩充的扩展模式的方法是，首先，对于原始模式中的词语常量，通过《同义词词林》或其它方式提取其同义词；然后，对于原始模式，原始模式中的词语常量替换为词语常量的同义词，由此构建扩展模式。

第二，采用基于属性词汇场的方法进行实体属性知识扩充。

属性词汇场由不同类型的属性线索词语及其权重构成。属性线索词语的类型包括属性词语、属性值词语、属性触发词语。本步骤内容通过以下过程实现：

首先，构建每个旅游领域实体基本属性a的词汇场。属性词汇场中的属性词语包括基本属性词语、旅游实体词条网页的信息盒(Infobox)中的属性词语、属性触发词。属性词汇场中的属性值词语包括旅游实体词条信息盒中的属性值词语，以及通过上述基于模式匹配方法抽取的属性值词语。

根据属性词语和属性值词语的来源和构成，本实施例中属性词语的权重设置方法如下：基本属性词语和属性触发词的权重都设为3；由单个汉字组成的属性词语的权重设为1.5；其他属性词语的权重设为2.5。属性值词语的权重设置方法如下：全部由数字构成的属性值词语的权重设为0.5；由单个汉字或字母组成的属性值词语的权重设为1；其他属性值的权重设为2。属性词语的权重设置遵循如下准则：属性词语和属性触发词的权重最大；单个汉字组成的属性词语的权重最小；其他类型的属性词语的权重居中。属性值词语的权重设置遵循如下准则：单个汉字或字母组成的属性值词语的权重大于全部由数字构成的属性值词语的权重，其他类型的属性值词语的权重最大。

然后，对于语料中的每个句子，计算句子中包含属性a的词汇场中词语的总数m和平均权重w。其中，词语的平均权重为m个词语的权重之和除以词语的总数m。若m和w大于给定阈值，则将该句子构建为扩充属性a的属性知识的候选句子。

最后，根据属性a的属性值的词性从候选句子中提取旅游领域实体的属性a的属性值。

例如，对于句子“798艺术区(ArtDist)位于北京朝阳区酒仙桥街道大山子地区，故又称大山子艺术区”，它包含属性地址词汇场中的5个词语，这些词语及其权重分别是：地区(2.5)、A(1.0)、位于(3.0)、北京朝阳区酒仙桥街道大山子地区(2.0)、北京(2.0)。其中，“地区”和“位于”为属性词语；“北京朝阳区酒仙桥街道大山子地区”、“北京”和“A”为属性值词语。因此，这5个词语的平均权重为2.1。进一步，该句子中包含词汇场中词语的个数和这些词语的平均权重大于给定阈值，因此，提取句子中词性标注为“ns(表示地名)”的字符串“北京朝阳区酒仙桥街道大山子地区”，作为实体“798艺术区”的属性地址的属性值，获取三元组(798艺术区，地址，北京朝阳区酒仙桥街道大山子地区)。

本实施例将形如“e a”作为百度搜索引擎的查询需求，其中e为旅游领域实体，a为属性名称，根据百度搜索引擎检索结果，抽取旅游领域实体e的属性a的属性值。本实施例中采用自己开发的网络爬虫，利用形如“https://www.baidu.com/s？wd＝<查询>”的URL爬取搜索结果，并利用正则表达式判断搜索结果中是否包含问答形式的结果，即判断是否含有op_exactqa_main的HTML标签。若搜索结果包含问答形式的结果，则提取答案构建为实体e的属性a的属性值。

第四，采用基于监督学习的方法进行实体属性知识扩充

首先，根据属性值的词性从语料的句子中提取旅游领域实体的候选属性值。对于旅游领域实体的每个属性，构建该属性的属性值的候选词性，并根据该候选词性从句子中提取候选属性值。例如，属性“级别”的属性值的候选词性是“<m><q>(m表示数词，q表示量词)”。进一步，将句子中词性为数词和量词的连续两个词语提取为候选属性值，并在句子中用符号“{”和“}”标记候选属性值的开始位置和结束位置”。例如，对于句子“风景区(n)属(v)中国(ns)国家(n)3A(m)级(q)景区(n)”，提取候选属性值“3A级”，并将该句子标记为“风景区(n)属(v)中国(ns)国家(n){3A(m)级(q)}景区(n)”。其中，词语后面的标记为词性标注符号，例如，n表示名词，v表示动词，ns表示地名。

首先，选取语料集中部分网页构建为训练集。对于训练集中的每个句子，若句子中标记为候选属性值的字符串为旅游领域实体的属性a的属性值，则将该句子赋予类别标签“True”，标记为提取属性a的属性值的正例句子；否则，将该句子赋予类别标签“False”，标记为提取属性a的属性值的反例句子。

例如，从句子“风景区(n)属(v)中国(ns)国家(n){3A(m)级(q)}景区(n)”中提取的候选属性值“3A级”为旅游领域实体的属性级别的属性值，则将该句子标记为提取属性级别的属性值的正例句子。再如，从句子“景区(n)面积(n)约(d)110(m)平方公里(q)”中提取属性级别的候选属性值“110平方公里”，由于该属性值错误，因此，将该句子标记为提取属性级别的属性值的反例句子。

其次，提取训练集中句子的属性值的分类特征。分类特征与从包含候选属性值的句子中提取的分类特征相同。

步骤3，利用学习排序方法进行旅游领域实体属性值融合

首先，根据旅游领域实体基本属性的特点，将属性划分为多值属性、固定型单值属性、非固定型单值属性三种类别。

下面针对每种类别的基本属性的属性值融合方法逐一进行介绍：

第一，采用一种基于来源可信度的方法对多值属性的属性值进行融合。实体的多值属性是指实体的属性存在多个属性值。对于旅游领域实体e及其属性a，设通过基于模式匹配的方法m₁获取实体e的属性a的属性值v₁，通过基于词汇场的方法m₂获取属性值v₂，通过基于监督学习的方法m₃获取属性值v₃，通过基于搜索引擎问答的方法m₄获取属性值v₄，通过百科信息盒获取属性值v₅。设通过方法m₁,m₂,m₃,m₄,m₅获取的属性值v₁,v₂,v₃,v₄,v₅的权重分别为w₁,w₂,w₃,w₄,w₅。根据实体e的属性a的属性值的权重，将所有属性值按照权重非升序的方式排序输出。在本实施例中，根据这五种方法提取的属性值的准确率，设w₁＝3,w₂＝2,w₃＝1,w₄＝4,w₅＝5。

第二，采用一种基于内容可信度的方法对固定型单值属性的属性值进行融合。实体的固定型单值属性是指实体的属性只存在一个属性值且表示方式唯一。例如，旅游领域实体的属性邮编为固定型单值属性。

对于旅游领域实体e及其属性a和候选属性值v，设x表示通过上述基于来源可信度的方法获取的属性值的权重，y表示该属性值通过上述步骤2所述混合式属性知识扩充方法被抽取出的次数，z表示候选属性值v的长度，u表示候选属性值v在属性a的词汇场中的权重。下面式子给出了计算候选属性值v的可信度c的方法，其中α,β,γ,δ为用户自定义的参数，表示对判别候选属性值正确的影响程度。在本实施例中，α＝20，β＝7，γ＝5，δ＝3。

c＝αx+βy+γz+δu

实体的非固定型单值属性是指实体的属性只存在一个属性值，但表示方式不唯一。例如，旅游领域实体的属性地址为非固定型单值属性。旅游领域实体“故宫”的属性地址的属性值可以表示为“北京市东城区”，“北京东城景山”等。

例如，训练集示例如下：

3 2<丁村民宅，地址,山西省襄汾县城南4公里汾河东岸,IB>

2 2<丁村民宅，地址,山西省襄汾县,SL>

1 2<丁村民宅，地址,汾河河谷，PM>

对于“3 2<丁村民宅,地址,山西省襄汾县城南4公里汾河东岸,IB>”，第一部分“3”表示属性值类别标签；第二部分“2”表示查询编号；第三部分“<丁村民宅,地址,山西省襄汾县城南4公里汾河东岸,IB>”表示通过百科词条信息盒获取的知识三元组(丁村民宅,地址,山西省襄汾县城南4公里汾河东岸)，也就是，丁村民宅的地址为山西省襄汾县城南4公里汾河东岸，其中“IB”表示三元组知识通过百科词条信息盒获得。另外，“SL”表示三元组知识通过基于监督学习方法获得，“PM”表示三元组知识通过基于模式匹配方法获得，“QA”表示三元组知识通过基于搜索引擎问答方法获得；“VF”表示表示三元组知识通过基于属性词汇场的方法获得。

步骤4，构建中文旅游领域中文知识图谱

根据步骤3获取的三元组知识，构建旅游领域知识图谱。知识图谱包括三种节点(即图中的节点)和三种关系类型(即图中的边)。节点类型包括旅游领域实体节点、地点实体节点和属性值节点。关系类型包括地点实体和旅游领域实体之间的关系、地点实体和地点实体之间的关系，以及旅游领域实体和属性值之间的关系。通过可扩展标记语言XML(Extensible Markup Language)存储旅游领域实体节点、地点实体节点和属性值节点以及它们的关系边所表示的知识，即可获得旅游领域知识图谱。例如，“故宫”和“香山公园”为旅游领域实体。“东城区”、“东直门”为地点实体。下面对基于步骤3获得的旅游领域实体属性值构建旅游领域中文知识图谱的过程进行举例说明：

根据旅游领域实体的属性地址及其属性值，提取旅游领域实体节点、地点实体节点、属性值节点、旅游领域实体和属性值之间的关系、旅游领域实体和地点实体之间的关系，以及地点实体和地点实体之间的关系。

例如，对于旅游领域实体“果洛白玉寺”，其属性建立时间的属性值为“1857年”，首先，构建旅游领域实体节点“果洛白玉寺”、属性值节点“1857年”；然后，构建该旅游领域实体节点和该属性值节点之间的关系边“建立时间”。

再如，对于旅游领域实体“汪家庄汉墓”，其属性地址的属性值为“互助土族自治县沙塘川乡汪家庄”，经过分词获得“互助土族自治县”、“沙塘川乡”、“汪家庄”三个地址。由此，提取如下三种关系：“汪家庄汉墓”位于“汪家庄”；“汪家庄”位于“沙塘川乡”；“沙塘川乡”位于“互助土族自治县”。进一步获得三元组知识(汪家庄，包含实体，汪家庄汉墓)，(沙塘川乡，包含地点，汪家庄)、(互助土族自治县，包含地点，沙塘川乡)。因此，构建地点实体“汪家庄”、“沙塘川乡”、“互助土族自治县”和旅游领域实体节点“汪家庄汉墓”；同时构建三个关系：地点实体节点“汪家庄”和旅游领域实体节点“汪家庄汉墓”的关系边“包含实体”；地点实体节点“沙塘川乡”和地点实体节点“汪家庄”的关系边“包含地点”；地点实体节点“互助土族自治县”和地点实体节点“沙塘川乡”的关系边“包含地点”。

一种中文旅游领域知识图谱构建系统，如图2所示，包括旅游领域语料采集模块、旅游领域实体属性知识扩充模块、旅游领域实体属性值融合模块，以及旅游领域知识图谱构建模块。旅游领域语料采集模块与旅游领域实体属性知识扩充模块相连；旅游领域实体属性知识扩充模块与旅游领域实体属性值融合模块相连；旅游领域实体属性值融合模块与旅游领域知识图谱构建模块相连。

所述旅游领域实体属性知识扩充模块用于对所述旅游领域语料采集模块获取的网页的句子进行旅游领域实体的属性和属性值扩充；本实施例中，该模块通过上述一种旅游领域知识图谱的构建方法步骤2所述过程实现。

所述旅游领域实体属性值融合模块用于对所述旅游领域实体属性知识扩充模块提取的实体的属性值根据实体的属性类别进行融合；本实施例中，该模块通过上述一种旅游领域知识图谱的构建方法步骤3所述过程实现。

所述旅游领域知识图谱构建模块用于对所述旅游领域实体属性值融合模块提取的实体、属性和属性值三元组进行旅游领域知识图谱构建。

实验结果

为说明本发明的中文旅游领域知识图谱构建方法的效果，本发明采用评测指标：准确率、MAP、NDCG@5和NDCG@10。准确率为获取的正确的三元组数量与获取的三元组数量的比例。MAP(Mean average precision)称为平均准确率的均值，是信息检索领域的重要评估指标。其计算公式如下，其中n表示检索主题的个数，AP_i表示第i个主题的检索结果的平均准确率，m表示第i个主题的检索结果的个数，R_j表示第j个文档在检索结果中的排名。

NDCG(Normalize Discounted cumulative gain)是信息检索领域的重要评估指标。NDCD@k计算公式如下，其中rel_i表示第k位置上文档的相关度，|REL|表示按照文档相关度非降序排列的文档列表，k为整数。

本发明的中文旅游领域知识图谱构建方法中，旅游领域实体属性知识扩充模块获取约35600个三元组，抽样准确率约为89％。本发明提出的基于属性词汇场的实体属性知识扩充方法获取约13400个三元组，抽样准确率约为77％。现有的基于监督学习的实体属性知识扩充方法获取约19300个三元组，抽样准确率约为82％；现有的基于模式匹配的实体属性知识扩充方法获取约8800个三元组，抽样准确率约为92％；现有的基于搜索引擎问答的实体属性知识扩充方法获取约1500个三元组，所有三元组知识都正确。从本发明的中文旅游领域知识图谱构建方法的实验结果看出，本发明方法获取的三元组数量最多，获取的三元组准确率高于基于属性词汇场和基于监督学习方法获取的三元组知识。本发明的中文旅游领域知识图谱构建方法中，实体属性值融合模块对非固定型单值属性级别和开放时间的属性值融合结果的正确率约为95％。由此表明：本发明的中文旅游领域知识图谱构建方法不仅扩大了获取知识的规模，而且提升了获取知识的准确率，从而提高用户获取高质量知识的效率。

为了说明本发明的内容及实施方式，本说明书给出了具体实施例。在实施例中引入细节的目的不是限制权利要求书的范围，而是帮助理解本发明所述方法。本领域的技术人员应理解：在不脱离本发明及其所附权利要求的精神和范围内，对最佳实施例步骤的各种修改、变化或替换都是可能的。因此，本发明不应局限于最佳实施例及附图所公开的内容。

Claims

1.一种旅游领域知识图谱的构建方法，其特征在于，包括以下步骤：

步骤1，获取旅游领域知识图谱构建的语料；

步骤2，对步骤1所得的语料采用混合式方法进行实体属性知识扩充；

步骤3，对步骤2所得的实体属性知识进行实体属性值融合；

步骤4，对步骤3所得结果基于可扩展标记语言XML构建旅游领域中文知识图谱；

所述步骤2中混合式方法包括四个部分，分别是基于模式匹配的实体属性知识扩充、基于属性词汇场的实体属性知识扩充、基于监督学习的实体属性知识扩充，以及基于搜索引擎问答的属性知识扩充，具体如下：

第一，采用基于模式匹配的方法进行实体属性知识扩充的具体内容如下：

首先，人工构建旅游领域实体基本属性的属性知识扩充的原始模式；

然后，利用《同义词词林》根据原始模式来学习属性知识扩充的扩展模式；

最后，根据原始模式和扩展模式采用基于模式匹配的方法进行实体属性知识扩充，即获取三元组<实体，属性，属性值>；

第二，采用基于词汇场的方法进行实体属性知识扩充的具体内容如下：

首先，构建每个旅游领域实体基本属性a的词汇场；

然后，对于所述语料中的每个句子，计算句子中包含属性a的词汇场中词语的总数m和平均权重w；若m和w大于给定阈值，则将该句子构建为扩充属性a的属性知识的候选句子；

最后，根据属性a的属性值的词性从候选句子中提取旅游领域实体的属性a的属性值；

第三，采用基于搜索引擎问答的方法进行实体属性知识扩充的具体内容如下：

将形如“e a”作为百度搜索引擎的查询需求，其中e为旅游领域实体，a为属性名称，根据百度搜索引擎检索结果，抽取旅游领域实体e的属性a的属性值；

第四，采用基于监督学习的方法进行实体属性知识扩充的具体内容如下：

首先，根据属性值的词性从语料的句子中提取旅游领域实体的候选属性值；

其次，对于提取出候选属性值的句子提取其如下分类特征：候选属性值v前后五个词语的词频、v前后各五个词语的词性、v的长度、v在词汇场中的权重、v前一词是否为标点符号、v前三个词是否包含否定词、v在句子中的起始位置、v在句子中的结束位置、v所在句子中是否包含属性触发词、v所在句子中属性触发词与v的距离；

最后，基于训练好的分类器采用多分类器投票法来判别候选属性值是否为旅游领域实体的属性的属性值。

2.根据权利要求1所述的一种旅游领域知识图谱的构建方法，其特征在于，所述步骤1通过以下过程完成：首先采集旅游领域实体词条网页构建为语料集，并定义旅游领域实体的基本属性及其属性值的词性，以及根据旅游领域实体的基本属性的特点，将其划分为多值属性、固定型单值属性或非固定型单值属性类别；然后对语料集网页中的句子进行中文分词和词性标注；

实体的多值属性是指实体的属性存在多个属性值，实体的固定型单值属性是指实体的属性只存在一个属性值且表示方式唯一，实体的非固定型单值属性是指实体的属性只存在一个属性值，但表示方式不唯一。

3.根据权利要求1所述的一种旅游领域知识图谱的构建方法，其特征在于，所述基于训练好的分类器采用多分类器投票法来判别候选属性值是否为旅游领域实体的属性的属性值通过以下过程完成：首先，对于候选属性值v，分别采用训练好的决策树、朴素贝叶斯、随机森林，以及AdaBoost四种分类器来判别候选属性值；分类标签包括True和False两类，True表示该候选属性值判别为旅游领域实体的属性值，False表示该候选属性值不能判别为旅游领域实体的属性值；然后，对于通过这四种分类器判别的候选属性值v的分类结果，选择数量较多的分类标签作为分类结果；若数量较多的分类标签为True，则构建三元组<实体，属性，属性值>。

4.根据权利要求3所述的一种旅游领域知识图谱的构建方法，其特征在于，所述训练好的决策树、朴素贝叶斯、随机森林，以及AdaBoost四种分类器训练过程如下：

首先，选取语料集中部分网页构建为训练集：对于训练集中的每个句子，若句子中标记为候选属性值的字符串为旅游领域实体的属性a的属性值，则将该句子赋予类别标签“True”，标记为提取属性a的属性值的正例句子；否则，将该句子赋予类别标签“False”，标记为提取属性a的属性值的反例句子；

其次，提取训练集中句子的如下分类特征：候选属性值v前后五个词语的词频、v前后各五个词语的词性、v的长度、v在词汇场中的权重、v前一词是否为标点符号、v前三个词是否包含否定词、v在句子中的起始位置、v在句子中的结束位置、v所在句子中是否包含属性触发词、v所在句子中属性触发词与v的距离；

5.根据权利要求2所述的一种旅游领域知识图谱的构建方法，其特征在于，所述步骤3通过以下过程完成：

根据旅游领域实体基本属性的特点，将属性划分为多值属性、固定型单值属性、非固定型单值属性三种类别；

第一，采用一种基于来源可信度的方法对多值属性的属性值进行融合；

第二，采用一种基于内容可信度的方法对固定型单值属性的属性值进行融合；

第三，采用如下一种基于学习排序的方法对非固定型单值属性的属性值进行融合：

首先，构建属性值融合的训练集：训练集包括“排序分值，查询编号，四元组<实体，属性，属性值，来源>”，其中，根据属性值与属性的相关程度，将排序分值设置为0,1,2,或3，分值越大，表示属性值和属性相关度越大；每个查询编号表示查询旅游领域实体的一个属性；来源表示三元组<实体，属性，属性值>的获取方法；

然后，采用学习排序模型对训练集进行训练，构建排序模型，本步骤采用了如下六种学习排序模型：随机森林、迭代决策树、RankBoost、ListNet、AdaRank和RankNet；

最后，首先根据训练的六个学习排序模型，对需要打分的每个属性查询的所有候选四元组<实体，属性，属性值，来源>进行打分，获得六个排序分值列表；然后对排序分值进行归一化，计算每个候选四元组在六个排序分值列表中的分值之和，输出分值最高的候选四元组作为属性值融合的结果。

6.根据权利要求1所述的一种旅游领域知识图谱的构建方法，其特征在于，所述步骤4中通过以下过程实现：

根据步骤3获取的三元组知识，构建旅游领域知识图谱；知识图谱包括三种节点和三种关系类型，节点类型包括旅游领域实体节点、地点实体节点和属性值节点，关系类型包括地点实体和旅游领域实体之间的关系、地点实体和地点实体之间的关系，以及旅游领域实体和属性值之间的关系；通过可扩展标记语言XML存储旅游领域实体节点、地点实体节点和属性值节点以及它们的关系边所表示的知识，即可获得旅游领域知识图谱。

7.一种中文旅游领域知识图谱构建系统，其特征在于，包括旅游领域语料采集模块、旅游领域实体属性知识扩充模块、旅游领域实体属性值融合模块以及旅游领域知识图谱构建模块；旅游领域语料采集模块与旅游领域实体属性知识扩充模块相连；旅游领域实体属性知识扩充模块与旅游领域实体属性值融合模块相连；旅游领域实体属性值融合模块与旅游领域知识图谱构建模块相连；

所述旅游领域语料采集模块用于采集旅游领域实体词条网页，对网页中的句子进行中文分词和词性标注，以及定义旅游领域实体的基本属性及其属性值的词性，根据旅游领域实体的基本属性的特点，将其划分为多值属性、固定型单值属性或非固定型单值属性类别；实体的多值属性是指实体的属性存在多个属性值；实体的固定型单值属性是指实体的属性只存在一个属性值且表示方式唯一；实体的非固定型单值属性是指实体的属性只存在一个属性值，但表示方式不唯一；

所述旅游领域知识图谱构建模块用于对所述旅游领域实体属性值融合模块提取的三元组<实体，属性，属性值>通过可扩展标记语言XML存储旅游领域实体节点、地点实体节点和属性值节点以及它们的关系边所表示的知识进行旅游领域知识图谱构建；

所述旅游领域实体属性知识扩充模块包括基于模式匹配的实体属性知识扩充、基于属性词汇场的实体属性知识扩充、基于监督学习的实体属性知识扩充，以及基于搜索引擎问答的属性知识扩充，具体如下：

首先，构建每个旅游领域实体基本属性a的词汇场；

8.根据权利要求7所述的一种中文旅游领域知识图谱构建系统，其特征在于，所述旅游领域实体属性值融合模块通过以下过程实现：