CN107977393A - 一种面向5w问答的基于数据图谱、信息图谱、知识图谱和智慧图谱的推荐引擎设计方法 - Google Patents

一种面向5w问答的基于数据图谱、信息图谱、知识图谱和智慧图谱的推荐引擎设计方法 Download PDF

Info

Publication number
CN107977393A
CN107977393A CN201710363378.1A CN201710363378A CN107977393A CN 107977393 A CN107977393 A CN 107977393A CN 201710363378 A CN201710363378 A CN 201710363378A CN 107977393 A CN107977393 A CN 107977393A
Authority
CN
China
Prior art keywords
illustrative plates
answer
collection
entity
guiding
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710363378.1A
Other languages
English (en)
Inventor
段玉聪
邵礼旭
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hainan University
Original Assignee
Hainan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hainan University filed Critical Hainan University
Priority to CN201710363378.1A priority Critical patent/CN107977393A/zh
Publication of CN107977393A publication Critical patent/CN107977393A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
    • GPHYSICS
    • G06COMPUTING; CALCULATING; COUNTING
    • G06NCOMPUTER SYSTEMS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Abstract

本发明是一种面向5W问答的基于数据图谱,信息图谱,知识图谱和智慧图谱的推荐引擎设计方法,主要用于通过图谱回答用户使用自然语言提出的问题,属于分布式计算和软件工程学技术交叉领域。该方法允许人们通过提出自然语言形式的问题来表达他们的信息需求。知识图谱能以图形化的方式向用户展示经过分类整理的结构化知识,从而使用户从人工过滤网页寻找答案的模式中解脱出来。我们提出在数据、信息、知识和智慧层面上澄清知识图谱的整体表达,分别使用数据图谱、信息图谱、知识图谱和智慧图谱来解决用户提出的由5W(谁(Who)/何时(When)/何地(Where),什么(What),如何(How),为什么(Why))引导的问题。

Description

-种面向5W问答的基于数据图谱、信息图谱、知识图谱和智慧 图谱的推荐引擎设计方法
技术领域
[0001] 本发明是一种面向5W问答的基于数据图谱、信息图谱、知识图谱和智慧图谱的推 荐引擎设计方法。主要用于通过查询图谱回答用户使用自然语言提出的问题,属于分布式 计算和软件工程学技术交叉领域。
[0002]
背景技术
[0003] 知识图谱于2012年5月17日被Google正式提出,其初衷是为了提高搜索引擎的能 力,增强用户的搜索质量以及搜索体验。目前,随着智能信息服务应用的不断发展,知识图 谱已被广泛应用于智能搜索、智能问答、个性化推荐等领域。尤其是在智能搜索中,用户的 搜索请求不再局限于简单的关键词匹配,用户的信息需求仅仅通过关键字是不能被完整表 达的。自然语言问题是制定信息需求最直观的方式,人们可以通过提出问题来表达他们的 信息需求。问题可用于表达不能表达为关键字的复杂信息需求,并且不会在结构和语义上 产生重大损失。知识图谱具有丰富的自然语义,可以包含各种更完整的信息,其表达机制更 接近于自然语言,能以图形化的方式向用户展示经过分类整理的结构化知识,从而使用户 从人工过滤网页寻找答案的模式中解脱出来。我们提出在数据、信息、知识和智慧层面上澄 清知识图谱的整体表达,分别使用数据图谱、信息图谱、知识图谱和智慧图谱来解决5W问 题。
[0004] 在本发明做出之前,已有的智能语义搜索应用中,当用户发起查询时,搜索引擎会 借助知识图谱的帮助对用户查询的关键字进行解析和推理,进而将其映射到知识图谱中的 一个或一组概念之上,然后根据知识图谱中的概念层次结构,向用户返回知识卡片,其中包 括指向资源页面的超链接信息。在深度问答应用中,系统同样会首先在知识图谱的帮助下 对用户使用自然语言提出的问题进行语义分析和语法分析,进而将其转化成结构化形式的 查询语句,然后在知识图谱中查询答案。我们将用户提出的问题根据疑问词的不同进行分 类,由“谁(who)、什么时候(when)、什么地点(where)”等疑问词引导的问题将在数据图谱上 进行遍历查找答案,由“什么(what)”引导的问题在信息图谱上查找答案,由“如何(how)”弓丨 导的问题在知识图谱上查找答案,由“为什么(why)”引导的问题在智慧图谱上查找答案。
发明内容
[0005] 技术问题:本发明的目的是提供一种面向5W问答的基于数据图谱、信息图谱、知识 图谱和智慧图谱的推荐引擎设计方法,用于解决当前用户信息需求变得复杂,仅仅通过关 键词查询效率低下的问题,对由5W引导的问题我们限定是最基本的问题类型,不涉及5W问 题之间的转换。本发明可显著地提高用户查询的查全率和查准率。
[0006] 技术方案:一种面向5W问答的基于数据图谱、信息图谱、知识图谱和智慧图谱的推 荐引擎设计方法,其步骤如下所示。
[0007] I.构建问题模式库。将用户用自然语言提出的问题根据疑问词的不同划分为:a) 由谁(who)或什么时候(when)或什么地点(where)引导的问题;b)由什么(what)引导的问 题;c)由如何(how)引导的问题;d)由为什么(why)引导的问题。
[0008] 2.对用户提出的问题进行分词,从而确定问题类型。
[0009] 3.根据问题的类型,选择在哪种图谱上进行遍历查找答案。
[0010] (1)基于数据图谱回答由谁(who)或什么时候(when)或什么地点(where)引导的问 题。利用对齐规则将用户提出的问题中的(疑问词,关系词,实体)映射到数据图谱中相关的 (主体,关系词,客体),形成精确的查询语句,利用该查询语句得到答案。
[0011] ⑵基于信息图谱回答由什么(What)引导的问题: a) 通过大量数据集训练,得出划分实体类型的规则;将用户问题中的实体属性与信息 图谱中实体属性相匹配,计算相似度,将相似度最高的实体作为答案返回给用户; b) 在信息图谱上若无法直接找到答案,可以通过信息推理建立两个实体间的关系,增 加图谱边密度,新建立的关系的正确度Cr是可计算的,P表示实体1和实体2之间的一条路 径,Q表示所有路径,表示训练权重:
Figure CN107977393AD00041
c) 信息图谱还能根据用户的问题进行相应的语义扩展,以返回更多用户关心的信息, 进一步提高查全率和查准率。
[0012] ⑶基于知识图谱回答由如何(how)引导的问题: 由如何(how)引导的问题,答案通常是以类似流程图的形式给出,因此我们在知识图谱 上找到问题中的相关实体后,通过路径查询,将相邻的实体和关系词进行桥接。
[0013] (4)基于智慧图谱回答由为什么(why)引导的问题: a) 本发明中使用迭代的询问技术,来探索特定问题的因果关系。该技术的主要目标是 通过重复“为什么”这个问题来确定缺陷或问题的根本原因。每个答案构成下一个问题的基 础,通过设定询问次数来终止迭代询问; b) 对于两个实体间的因果关系,我们通过遍历两个实体间的所有路径找到所有可能的 原因。
[0014] 4.生成答案并将答案返回给用户。
[0015] 体系结构: 图1和图2分别给出了本发明的总体架构和流程示意图。首先由用户通过自然语言提出 问题以表达自己的信息需求,本发明将用户提出的问题与问题模式库匹配,确定问题的类 型,之后根据问题类型确定查询图谱的类型,通过遍历图谱最终将问题的答案返回给用户。
[0016] 下面给出数据图谱、信息图谱、知识图谱和智慧图谱的具体说明。
[0017] 数据图谱:数据是通过观察获得的数字或其他类型信息的基本个体项目,但是在 没有上下文语境的情况下,它们本身没有意义。数据图谱可以通过数组、链表、队列、树、栈、 图等数据结构来表达。
[0018]信息图谱:信息是通过数据和数据组合之后的上下文传达的,经过概念映射和相 关关系组合之后的适合分析和解释的信息。信息图谱可以通过关系数据库来表达。
[0019]知识图谱:知识是从积累的彳目息中获得的总体理解和意识,将彳目息进行进一步的 抽象和归类可以形成知识。知识图谱可以通过包含结点和结点之间关系的有向图来表达, 知识图谱对需求语义的映射更完整,覆盖范围更宽。
[0020] 智慧图谱:智慧是一个外推过程,智慧使得人们可以明辨是非,从有限到无穷,从 已知到未知进行推测。信息告诉人们做什么,知识告诉人们如何做,智慧告诉人们为什么要 做。智慧图谱是在知识图谱的基础上体现出从已知到未知的推测过程,是一种混合型的难 以剥离的结构。
[0021] 有益效果:本发明方法提出了一种面向5W问答的基于数据图谱、信息图谱、知识图 谱和智慧图谱的推荐引擎设计方法,具有如下一些显著优点: (1) 将用户提出的问题有针对性地划分成5W问题,在数据、信息、知识和智慧层面上澄 清知识图谱的整体表达,降低了查询的复杂性,提高搜索效率; (2) 具备语义推理功能,能根据用户的查询条件进行相应的语义扩展和语义推理,推荐 更多用户关心的信息; (3) 支持自然语言的“问答式”查询,便于用户表达复杂中的信息需求。
[0022]
附图说明
[0023] 图1是本发明的总体架构示意图。
[0024] 图2是本发明的流程示意图。
[0025] 图3是数据图谱示例。
[0026] 图4是信息图谱示例。
[0027] 图5是知识图谱示例。
[0028] 图6和图7是智慧图谱示例。
[0029]
具体实施方式
[0030] 为了方便描述,我们通过例子来描述如何通过数据图谱回答由谁(who)或 什么时候(when)或什么地点(where)引导的问题,通过信息图谱回答由什么(what)引 导的问题,通过知识图谱回答由如何(how)引导的问题,通过智慧图谱回答由为什么(why) 引导的问题。
[0031] 具体实施方案为: (1) 构建问题模式库。本发明通过对问题进行分词和词性标注处理后将问题归类为四 种模式,分别是由谁(who)或什么时候(when)或什么地点(where)引导的问题,由什么 (what)引导的问题,由如何(how)引导的问题和由为什么(why)引导的问题; (2) 根据问题模式选择在何种图谱上进行遍历。
[0032] a)基于数据图谱回答由谁(who)或什么时候(when)或什么地点(where)引导的问 题。在图3中,我们假设用户提出的问题是“罗伯特的妻子是谁”,首先将该问题中的实体和 关系谓词提取出来,构造一个三元组(X,妻子,罗伯特),将其转换为查询语句: SELECT X WHERE (X,妻子,罗伯特)然后遍历图谱,找到与实体罗伯特有“妻子”关系 的另一端实体,作为答案返回给用户,即丽莎。
[0033] b)基于信息图谱回答由什么(what)引导的问题: 首先我们根据大量的数据集训练出对这些数据进行分类的规则,即找出每个类型的实 体应满足哪些要求。我们假设对脊椎动物的分类有以下规则: rl :(是,飞翔的动物)Λ (有,羽毛)Λ (是,恒温动物)—鸟; r2 :(是,水生动物)Λ (有,鳞片)Λ (呼吸,鳃)—鱼; r3 :(是,变温动物)Λ (有,鳞片)Λ (呼吸,肺)—爬行动物; r4:(是,胎生动物)Λ (是,恒温动物)—哺乳动物; r5 :(是,变温动物)Λ (是,半水生动物)Λ (呼吸,肺)—两栖动物。
[0034] 根据以上规则构建出脊椎动物分类的图谱如图4所示,当用户输入问题“燕子属于 哪类脊椎动物”时,我们将燕子所拥有的属性与图谱中实体的属性相匹配,匹配度最高的实 体类型将作为答案返回给用户。答案的正确率P可通过以下公式计算:
Figure CN107977393AD00061
在信息图谱中,可以通过信息推理建立更多实体之间的新关联,从而扩展实体之间的 关系,增加信息图谱的边缘密度。推理需要有规则的支持,这些规则可以由人手动构建,但 往往耗时费力。目前,它主要依靠关系的重现,利用协同挖掘技术自动找到推理规则。使用 关系规则实现关系提取的经典方法是路径排序算法,它使用每个不同的关系路径作为一维 特征。通过在信息图谱中构建大量关系路径来构建关系分类的特征向量和关系分类器来提 取关系。新建立的关系的正确度Cr是可计算的,P表示实体El和实体Ε2之间的一条路径,Q表 示所有路径,表示训练权重:
Figure CN107977393AD00062
[0035] c)基于知识图谱回答由如何(how)引导的问题: 由如何(how)引导的问题答案是一系列的流程,本发明使用路径查询来遍历图谱查找 答案。路径查询由一个初始的实体s和要遍历的一系列关系,p =(rl,...,rk)组成。查询的 答案或表示[q]是通过遍历P可以从s到达的所有实体的集合。在图5中,假设用户输入的问 题是“如何展开一次招聘”,首先找到实体招聘,找到与它相关联的所有实体,要遍历的关系 集合则是P=(下一步,下一步,…,下一步)。
[0036] d)基于智慧图谱回答由为什么(why)引导的问题。
[0037] 解决用户提问的由为什么(why)引导的问题分为两种情况:第一种是事务发生的 原因来自自身,第二种是两个实体之间的因果关系。本发明使用迭代的询问技术,该技术的 主要目标是通过重复“为什么”这个问题来确定缺陷或问题的根本原因。每个答案构成下一 个问题的基础。在图6中,用户提出的问题是:“车子为什么无法启动”,根本原因来自与车辆 本身没有按照推荐的服务计划进行维护。中间的原因是通过不断询问为什么得出的,通过 设定有关询问次数的阈值,来终止迭代询问。
[0038]对于两个实体间的因果关系,我们通过遍历两个实体间的所有路径找到所有可能 的原因。在图7中,用户提出的问题是“吸烟是如何对肺造成损害的”,在图谱上分别找到烟 和肺两个实体,将两个实体间的所有完整路径作为原因返回给用户。

Claims (5)

1. 一种面向5W问答的基于数据图谱、信息图谱、知识图谱和智慧图谱的推荐引擎设计 方法,其步骤如下: 步骤1)构建问题模式库,将用户用自然语言提出的问题根据疑问词的不同划分为:a) 由谁(who)或什么时候(when)或什么地点(where)引导的问题;b)由什么(what)引导的问 题;c)由如何(how)引导的问题;d)由为什么(why)引导的问题; 步骤2)根据问题的类型,选择在哪种图谱上进行遍历查找答案; 步骤3)生成答案并将答案返回给用户。
2. 基于数据图回答由谁(who)或什么时候(when)或什么地点(where)弓丨导的问题: 利用对齐规则将用户提出的问题中的(疑问词,关系词,实体)映射到数据图谱中相关 的(主体,关系词,客体),形成精确的查询语句,利用该查询语句得到答案。
3. 基于信息图谱回答由什么(what)引导的问题: a) 通过大量数据集训练,得出划分实体类型的规则;将用户问题中的实体属性与信息 图谱中实体属性相匹配,计算相似度,将相似度最高的实体作为答案返回给用户; b) 在信息图谱上若无法直接找到答案,可以通过推理建立两个实体间的关系,增加图 谱边密度,新建立的关系的正确度Cr是可计算的,P表示实体El和实体E2之间的一条路径,Q 表示所有路径»表示训练权重:
Figure CN107977393AC00021
c)在信息图谱上还能根据用户的问题进行相应的语义扩展,以推荐更多用户关心的 信息,进一步提高查全率和查准率。
4. 基于知识图谱回答由如何(how)引导的问题: 由如何(how)引导的问题,答案通常是以类似流程图的形式给出,因此我们在知识图谱 上找到问题中的相关实体后,通过路径查询,将相邻的实体和关系词进行桥接。
5. 基于智慧图谱回答由为什么(why)引导的问题: a) 本发明使用一种迭代的询问技术,来探索特定问题的因果关系,该技术的主要目标 是通过重复“为什么”这个问题来确定缺陷或问题的根本原因,每个答案构成下一个问题的 基础,通过设定询问次数来终止迭代询问; b) 对于两个实体间的因果关系,我们通过遍历两个实体间的所有路径找到所有可能的 原因。
CN201710363378.1A 2017-05-22 2017-05-22 一种面向5w问答的基于数据图谱、信息图谱、知识图谱和智慧图谱的推荐引擎设计方法 Pending CN107977393A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710363378.1A CN107977393A (zh) 2017-05-22 2017-05-22 一种面向5w问答的基于数据图谱、信息图谱、知识图谱和智慧图谱的推荐引擎设计方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710363378.1A CN107977393A (zh) 2017-05-22 2017-05-22 一种面向5w问答的基于数据图谱、信息图谱、知识图谱和智慧图谱的推荐引擎设计方法

Publications (1)

Publication Number Publication Date
CN107977393A true CN107977393A (zh) 2018-05-01

Family

ID=62012227

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710363378.1A Pending CN107977393A (zh) 2017-05-22 2017-05-22 一种面向5w问答的基于数据图谱、信息图谱、知识图谱和智慧图谱的推荐引擎设计方法

Country Status (1)

Country Link
CN (1) CN107977393A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106997399A (zh) * 2017-05-24 2017-08-01 海南大学 一种基于数据图谱、信息图谱、知识图谱和智慧图谱关联架构的分类问答系统设计方法
CN109033223A (zh) * 2018-06-29 2018-12-18 北京百度网讯科技有限公司 用于跨类型对话的方法、装置、设备以及计算机可读存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1794233A (zh) * 2005-12-28 2006-06-28 刘文印 一种网上用户交互问答方法及其系统
US20140006012A1 (en) * 2012-07-02 2014-01-02 Microsoft Corporation Learning-Based Processing of Natural Language Questions
CN104573028A (zh) * 2015-01-14 2015-04-29 百度在线网络技术(北京)有限公司 实现智能问答的方法和系统
CN104866593A (zh) * 2015-05-29 2015-08-26 中国电子科技集团公司第二十八研究所 一种基于知识图谱的数据库搜索方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1794233A (zh) * 2005-12-28 2006-06-28 刘文印 一种网上用户交互问答方法及其系统
US20140006012A1 (en) * 2012-07-02 2014-01-02 Microsoft Corporation Learning-Based Processing of Natural Language Questions
CN104573028A (zh) * 2015-01-14 2015-04-29 百度在线网络技术(北京)有限公司 实现智能问答的方法和系统
CN104866593A (zh) * 2015-05-29 2015-08-26 中国电子科技集团公司第二十八研究所 一种基于知识图谱的数据库搜索方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106997399A (zh) * 2017-05-24 2017-08-01 海南大学 一种基于数据图谱、信息图谱、知识图谱和智慧图谱关联架构的分类问答系统设计方法
CN109033223A (zh) * 2018-06-29 2018-12-18 北京百度网讯科技有限公司 用于跨类型对话的方法、装置、设备以及计算机可读存储介质

Similar Documents

Publication Publication Date Title
CN105701253B (zh) 中文自然语言问句语义化的知识库自动问答方法
CN104615767B (zh) 搜索排序模型的训练方法、搜索处理方法及装置
JP2017511922A (ja) スマート質問回答の実現方法、システム、および記憶媒体
Yin et al. Building taxonomy of web search intents for name entity queries
Zouaq et al. Evaluating the generation of domain ontologies in the knowledge puzzle project
CN103927358B (zh) 文本检索方法及系统
CN104915340B (zh) 自然语言问答方法及装置
US7853618B2 (en) Methods and apparatus for generic semantic access to information systems
Lee et al. Automated ontology construction for unstructured text documents
Ma et al. Extending object-oriented databases for fuzzy information modeling
Boyd et al. AutoMed: A BAV data integration system for heterogeneous data sources
CN102693310B (zh) 一种基于关系数据库的资源描述框架查询方法和系统
Wood Query languages for graph databases
DE102013003055A1 (de) Verfahren und Vorrichtung zum Durchführen von Suchen in natürlicher Sprache
CN105512687A (zh) 训练情感分类模型和文本情感极性分析的方法及系统
CN108399748B (zh) 一种基于随机森林与聚类算法的道路旅行时间预测方法
CN105843897B (zh) 一种面向垂直领域的智能问答系统
Silva et al. The similarity join database operator
CN103793476B (zh) 基于网络社区的协同过滤推荐方法
CN103778227B (zh) 从检索图像中筛选有用图像的方法
Alvarez et al. Towards a pan-european e-procurement platform to aggregate, publish and search public procurement notices powered by Linked Open Data: the MOLDEAS approach
KR20070112730A (ko) 지능형 정보 검색 처리 시스템 및 방법
US8566347B1 (en) Method and apparatus for storing ontologies in a relational database
CN105117487B (zh) 一种基于内容结构的图书语义检索方法
CN108804521A (zh) 一种基于知识图谱的问答方法及农业百科问答系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20180501

RJ01 Rejection of invention patent application after publication