CN105868313B - 一种基于模板匹配技术的知识图谱问答系统及方法 - Google Patents

一种基于模板匹配技术的知识图谱问答系统及方法 Download PDF

Info

Publication number
CN105868313B
CN105868313B CN201610179359.9A CN201610179359A CN105868313B CN 105868313 B CN105868313 B CN 105868313B CN 201610179359 A CN201610179359 A CN 201610179359A CN 105868313 B CN105868313 B CN 105868313B
Authority
CN
China
Prior art keywords
relationship
template
entity
knowledge
question
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201610179359.9A
Other languages
English (en)
Other versions
CN105868313A (zh
Inventor
王东辉
黄鹏程
李亚楠
蔺越檀
庄越挺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CN201610179359.9A priority Critical patent/CN105868313B/zh
Publication of CN105868313A publication Critical patent/CN105868313A/zh
Application granted granted Critical
Publication of CN105868313B publication Critical patent/CN105868313B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/242Query formulation
    • G06F16/243Natural language query formulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • G06F40/186Templates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/253Grammatical analysis; Style critique

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于模板匹配技术的知识图谱问答系统和方法。该系统包括离线模块和在线模块,离线模块主要用于离线数据准备,在线模块主要用于系统服务。本发明的系统可支持用户友好的自然语言问句为查询,通过对用户的问句进行语法分析,将语法分析后的结果到离线定义的手工模板库中寻找匹配的问句模板,根据所述的实体匹配方法和关系匹配方法,生成最终的结构化的知识图谱查询语句,根据该结构化查询语句到知识图谱中进行检索,返回最终的结果。本发明的基于模板匹配技术的知识图谱问答系统和方法能够针对用户的问句给出精确性的检索结果,提高用户的搜索满意度。

Description

一种基于模板匹配技术的知识图谱问答系统及方法
技术领域
本发明涉及一种知识图谱问答系统和方法,尤其涉及一种基于模板匹配技术的知识图谱问答系统和方法。
背景技术
随着互联网上信息的爆炸式增长,人们对信息检索的需求越来越大。如何快速、精确、可靠地从大量的、模态多样化的信息中搜索到用户需要的信息,成为一个热门的迫切需要解决的课题。最初的互联网只有仅供人们浏览的静态网页,人们在互联上所能处理的事情也十分有限。随着互联网的迅猛发展,互联网已经变得越来越普及,内容也越来越丰富,模态也越来越多样。如何从这些浩瀚的互联网信息中获取用户所需的信息,成为一个难题。
传统搜索引擎的出现,比如:Google、雅虎、百度等,很大程度上解决了用户对信息搜索的需求。以Google为首的传统的搜索引擎主要是基于关键词匹配的一种信息检索技术,它从互联网中以一定的策略搜集、爬取信息,对信息进行解析、索引,为用户提供检索服务。传统搜索引擎存在搜索接口不友好、搜索过程复杂、返回信息量大、返回内容针对性不强等问题。传统的搜索引擎技术无法从根本上解决搜索中存在的准确率低以及召回率低的问题。根据调查公司英国莫里(MORI)的调查结果可以发现,只有约18%的用户对搜索引擎的搜索结果比较满意,表示可以通过它获取到相关的有用信息,而相反的是,足足有68%的用户表示对传统的搜索引擎比较失望。
为了克服传统搜索引擎存在的弊端,基于知识图谱的检索开辟了一种新的信息检索模式。与传统搜索引擎相比,基于知识图谱的检索存在如下的特点:
1.基于知识图谱的搜索支持更友好的互动问答模式。
自然语言问句一方面可以使得用户的搜索更加快速、准确、方便,另一方面更符合用户的用户查询习惯。比如如果用户查询“中国历史最悠久的大学?”,传统的搜索引擎往往无法帮助你获取到想要的答案,或者无法显式的提供问题的精准答案,而基于知识图谱的搜索引擎却可以帮助你解决该问题。
2.基于知识图谱的搜索支持更精准、更简洁的结果返回。
基于知识图谱的搜索往往将用户的搜索语句映射到一个结构化查询语句,最终的定位目标是某个知识库中的实体。实体上包含丰富的相关信息。因此,只要准确定位到知识库中的实体,就可以很方便的返回给用户一个精准更简洁的搜索结果。
3.基于知识图谱的搜索支持知识内容的累积。
知识库是一个不断“吸收”新知识,而沉淀旧知识的系统。因此,知识库能够不断的累积知识,进而在更丰富的知识上面,进行推理、挖掘等工作,发现更多的知识。
4.基于知识图谱的搜索支持隐式信息的显式展现。
互联网上蕴含着丰富的信息,信息跟信息之间,有着千丝万缕的联系。传统的信息存储、信息检索技术,关于信息间的挖掘,是一个难点。由于知识库的结构化表示、存储技术,使得我们很容易就可以在知识库上进行一系列的推理、挖掘工作,进而将存在的、隐式的信息,显式的展现给用户。
由于传统搜索引擎存在的一系列弊端,以及知识搜索相对于传统搜索引擎的优点,本文基于互联网上数据源的特性,研究设计并实现了一套面向自然语言查询的知识搜索系统。该系统支持用户友好的自然语言问句为查询,在底层结构化的知识图谱数据和非结构化的社区问答数据之上,通过自然语言处理和分析,转换为基本的查询过程(包括全文查询、互联网通用查询、图数据库查询等),收集基本查询过程的反馈结果,对其进行整合、过滤和排序,并把最终查询结果转换。
发明内容
本发明的目的在于提供一种基于模板匹配技术的知识图谱问答系统及方法。
本发明提出的系统及方法主要技术方案如下:
一种基于模板匹配技术的知识图谱问答系统,包括离线模块和在线模块,其中,离线模块主要用于离线数据准备,包括基于外部无标签数据集的关系模式挖掘系统和针对问题类别手工定义的问题模板库;在线模块主要用于系统服务,包括对用户输入问句进行语法分析、为问句寻找匹配的问题模板、将问句短语映射到对应的知识图谱中的实体和关系、生成结构化知识图谱查询语句。
本发明的基于模板匹配技术的知识图谱问答方法,具体步骤如下:
步骤(1).基于外部数据集的关系模式挖掘。由于知识图谱中的关系可以有多种不同的自然语言表达形式,如何为某一个特定的关系挖掘出该关系可能的自然语言表达形式是知识图谱问答系统的一个难点。在本发明中,我们提出了一种基于外部无标签数据集的关系模式挖掘算法。该算法的具体步骤如下:
步骤1-1.知识图谱三元组集获取。对于一个给定的关系P,我们希望挖掘出该关系的所有可能的自然语言表达式。在这一步骤中,我们从知识库中抽取出所有关系P关联的三元组<Subject,Predicate,Object>。我们用集合I(P)={(s,o):(s,p,o)∈κ}来表示我们抽取出来的所有关系为P的三元组,其中κ表示我们的知识库集。
步骤1-2.外部无标签数据集获取。所述的外部无标签数据集D包括两部分:一部分为通过爬虫挖掘获取的中文wikipedia文本数据集,另一部分则为抽取上一步中每一个三元组的两个实体,输入传统搜索引擎得到的数据集;在获取了所需的wikipedia数据集之后,可以通过预处理,包括去除一些异常的字符串(|[]<<>>等),将xml格式的wikipedia数据转换成UTF-8编码的字符文本数据等。另一部分数据集,是通过将第一步中抽取的每一个三元组的两个实体,输入传统搜索引擎(如Google和Bing这两个传统搜索引擎),从返回结果的网页中,抽取每个页面的内容,作为本文的另一份数据集。通过对这些处理后的wikipedia文本数据和从搜索引擎提取到的数据做索引。
步骤1-3.自然语言表达式候选集挖掘。为了挖掘关系P的自然语言表达式,本发明准备了两部分的数据:无标签的数据集D和知识库中所有已P为关系的三元组集合I(P)={(s,o):(s,p,o)∈κ}。我们定义α(x)表示实体x的标签,β(x)表示实体x的URI。程序首先遍历无标签数据集D中所有的句子,若句子中同时出现α(s)和α(o),则把该句子α(s)和α(o)中间的短语加入到潜在自然语言表达式集合中N。
步骤1-4.自然语言表达式集验证。记θ为挖掘出的某一个具体的自然语言表达式,β为挖掘出的某类模式的集合。对于一个关系p,一个好的模式θ定义它满足如下条件:
1.对于关系p,好的模式θ应该出现在I(P)中的大部分三元组中。
2.对于关系p,好的模式θ应该在I(~P)中出现的频率比较低。
因此,基于以上两条判定规则,定义一个表达式n对于一个关系p的得分函数如公式(1):
其中,c表示对于一个三元组<si,p,oi>,关系短语n和实体si,oi同时在语料库中出现的次数,C表示实体si,oi在语料库中出现的总次数,M表示对于那些不存在关系p的实体在语料库中出现的总次数,m表示对于那些不存在关系p的实体与关系短语n在语料库中出现的总次数,i表示知识库中存在关系p的三元组个数,j表示知识库中不存在关系p的三元组个数,表示权重参数,通过实验来获取最优值。根据上述方法计算出表达式集中每个表达式的得分,选取得分较高的K个表达式作为最终验证出来的自然语言表达式,其中K根据需求设定。
步骤(2).手工定义问题模板库。一个问题模板,定义了该类问题的问句形式,以及对应的结构化知识图谱查询语句范例。通过正则表达式来定义某类问题模板,通过SPARQL查询语句定义该模板对应的知识图谱结构化查询模板。SPARQL查询模板中待确定的实体或者关系由变量来表示,最终将被匹配的问句中词、短语对应的实体或者关系填充到该SPARQL查询模板的变量中。
步骤(3).问句输入问句语法分析。语法分析步骤包括通过分词算法对用户输入的问句进行切割,分析切割后的每个词、短语的词性、疑问词识别,生成一棵语法树。
步骤(4).问句模板匹配。步骤(3)中对用户输入问句经过语法分析生成一棵语法树,树中每个节点代表了一个词,每个词有对应一个词性。步骤(2)中本发明通过手工定义,为每类问题定义了一个问题模板。问句模板匹配步骤就是通过比较问句分析后的语法树与步骤(2)中问题模板库中问题模板的相似度,在问题模板库中找出相似度最大即最匹配的问题模板,返回该模板对应的SPARQL查询模板。
步骤(5).知识库实体、关系映射。由于自然语言表达形式的多样性,同一个知识库中的实体、关系,可以有多种不同的自然语言表达形式。为了将用户的某一个自然语言表达形式映射到知识库中具体的某个实体或者关系,本发明提出了一种基于层次化模型的实体、关系匹配算法。具体步骤如下:
步骤5-1.基于倒排索引的严格匹配。基于倒排索引表的检索方法,是最直观最直接的方法。通过提取出知识图谱中所有的实体和关系,提取出实体和关系的URI和标签,然后建立从标签到URI的映射表。建立倒排索引表,键值为知识库中实体或者关系的标签,对应的值是一个URI集合,这些集合中的URI对应的实体或者关系的标签就是键值。基于倒排索引的严格匹配要求自然语言表达式与知识图谱中的实体或者关系的标签字符严格匹配。
步骤5-2.基于字符串相似度的匹配。定义两个字符串之间的相似度如公式(2):
预先设置相似度阈值,计算所有标签与目标短语的字符串相似度,如果相似度超过阈值,那么认为该标签对应的URI就是候选URI集。
步骤5-3.基于字典词汇集的扩充。不管是提出来基于倒排索引的严格匹配算法还是基于字符串相似度的模糊匹配算法,都要求用户使用的自然语言短语与我们知识库中的目标实体或者关系存在字符层面上的相似度要求。为了解决这种问题,采用同义词典扩充的方法。可以采用WordNet词典,将该短语在WordNet中对应的同义词集、上位词集、下位词集都添加进该词的候选匹配集合,然后采用步骤5-1和步骤5-2介绍的两种方法,重新进行匹配。
步骤5-4.基于语义相似度的匹配。语义相似度匹配的目的是突破实体匹配中对字符的依赖。采用Google发布的word2vec模型。基于语义相似度匹配算法最大的优势就是摆脱了传统的字符层面的相似度度量,而是从一个更高维度的语义空间进行度量。可以解决像“painted”到知识库中“artist”这种难度比较大的映射。
步骤(6).生成结构化知识图谱查询语句。将步骤(5)中映射到的实体、关系填充到步骤(4)匹配到的问题模板对应的SPARQL查询模板中,生成最终的结构化知识图谱查询语句。
本发明的基于模板匹配技术的知识图谱问答系统和方法,可支持用户友好的自然语言问句为查询,通过对用户的问句进行语法分析,并将语法分析后的结果到离线定义的手工模板库中寻找匹配的问句模板,根据所述的实体匹配方法和关系匹配方法,生成最终的结构化的知识图谱查询语句,根据该结构化查询语句到知识图谱中进行检索,返回最终的结果。该问答系统能够针对用户的问句给出精确性的检索结果,提高用户的搜索满意度。
附图说明
图1为本发明基于模板匹配技术的知识图谱问答的系统的架构图;
图2为本发明基于模板匹配技术的知识图谱问答方法的流程图。
具体实施方式
下面结合附图详细描述本发明,本发明的目的和效果将变得更加明显。
一种基于模板匹配技术的知识图谱问答系统,包括离线模块和在线模块,其中,离线模块主要用于离线数据准备,包括基于外部无标签数据集的关系模式挖掘系统和针对问题类别手工定义的问题模板库;在线模块主要用于系统服务,包括对用户输入问句进行语法分析、为问句寻找匹配的问题模板、将问句短语映射到对应的知识图谱中的实体和关系、生成结构化知识图谱查询语句。如图1所示。
基于模板匹配技术的知识图谱问答的方法,如图2所示,具体步骤如下:
(1)准备好需要检索的知识图谱数据。为了方便说明,在此以DBpedia数据库为例,数据以RDF资源描述框架的三元组格式存储于Virtuoso图数据库中,并以SPARQL图数据库查询语言进行最终的知识图谱数据检索。
(2)对于知识图谱中的某个关系p,抽取出所有与该关系关联的三元组数据<si,p,oi>,其中si表示第i个三元组左边的实体,oi表示第i个三元组右边的实体。在外部数据集中检索出实体si和实体oi同时出现的句子,抽取出句子中两个实体中间的自然语言表达式,该表达式是关系p可能的一个潜在自然语言表达模式。其中,外部数据集的来源分两部分:1)12G的中文wikipedia文档数据;2)通过将实体si和实体oi放进传统搜索引擎Google和Bing搜索引擎,检索返回的结果文档数据。记θ为挖掘出的某一个具体的自然语言表达式,β为挖掘出的某类模式的集合。对于一个关系p,一个好的模式θ定义它满足如下条件:
1.对于关系p,好的模式θ应该出现在I(p)中的大部分三元组中。
2.对于关系p,好的模式θ应该在I(~p)中出现的频率比较低。
因此,基于以上两条判定规则,定义一个表达式n对于一个关系p的得分函数如公式(3):
其中,c表示对于一个三元组<si,p,oi>,关系短语n和实体si,oi同时在语料库中出现的次数,C表示实体si,oi在语料库中出现的总次数,M表示对于那些不存在关系p的实体在语料库中出现的总次数,m表示对于那些不存在关系p的实体与关系短语n在语料库中出现的总次数,i表示知识库中存在关系p的三元组个数,j表示知识库中不存在关系p的三元组个数,表示权重参数。根据上述方法计算出表达式集中每个表达式的得分,选取得分较高的K个表达式作为最终验证出来的自然语言表达式,其中K根据需求设定。
(3)手工定义问题模板库。一个问题模板,定义了该类问题的问句形式,以及对应的结构化知识图谱查询语句范例。通过正则表达式来定义某类问题模板,通过SPARQL查询语句定义该模板对应的知识图谱结构化查询模板。SPARQL查询模板中待确定的实体或者关系由变量来表示,最终将被匹配的问句中词、短语对应的实体或者关系填充到该SPARQL查询模板的变量中。
(4)问句输入问句语法分析。语法分析步骤包括通过分词算法对用户输入的问句进行切割,分析切割后的每个词、短语的词性、疑问词识别,生成一棵语法树。
(5)问句模板匹配。通过比较问句分析后的语法树与步骤(2)中问题模板库中问题模板的相似度,在问题模板库中找出相似度最大即最匹配的问题模板,返回该模板对应的SPARQL查询模板。
(6).知识库实体、关系映射。由于自然语言表达形式的多样性,同一个知识库中的实体、关系,可以有多种不同的自然语言表达形式。为了将用户的某一个自然语言表达形式映射到知识库中具体的某个实体或者关系,本发明提出了一种基于层次化模型的实体、关系匹配算法。具体步骤如下:
步骤1).基于倒排索引的严格匹配。基于倒排索引表的检索方法,是最直观最直接的方法。提取出知识图谱中所有的实体和关系,提取出实体和关系的URI和标签,然后建立从标签到URI的映射表。建立倒排索引表,键值为知识库中实体或者关系的标签,对应的值是一个URI集合,这些集合中的URI对应的实体或者关系的标签就是键值。基于倒排索引的严格匹配要求自然语言表达式与知识图谱中的实体或者关系的标签字符严格匹配。
步骤2).基于字符串相似度的匹配。定义两个字符串之间的相似度如公式(4):
本系统中,设置相似度阈值为0.95,计算所有标签与我们的目标短语的字符串相似度,如果它们的相似度超过设置的阈值,那么认为该标签对应的URI就是我们的候选URI集。
步骤3).基于字典词汇集的扩充。不管是提出来基于倒排索引的严格匹配算法还是基于字符串相似度的模糊匹配算法,都要求用户使用的自然语言短语与我们知识库中的目标实体或者关系存在字符层面上的相似度要求。为了解决这种问题,采用同义词典扩充的方法。在本系统中,采用WordNet词典,将该短语在WordNet中对应的同义词集、上位词集、下位词集都添加进该词的候选匹配集合,然后采用步骤5-1和步骤5-2介绍的两种方法,重新进行匹配。
步骤4).基于语义相似度的匹配。语义相似度匹配的目的是突破实体匹配中对字符的依赖。采用Google发布的word2vec模型。基于语义相似度匹配算法最大的优势就是摆脱了传统的字符层面的相似度度量,而是从一个更高维度的语义空间进行度量。可以解决像“painted”到知识库中“artist”这种难度比较大的映射。
(6).生成结构化知识图谱查询语句。将(5)中映射到的实体、关系填充到(4)匹配到的问题模板对应的SPARQL查询模板中,生成最终的结构化知识图谱查询语句。
上述的对实施例的描述是为便于本技术领域的普通技术人员能理解和应用本发明。熟悉本领域技术的人员显然可以容易地对上述实施例做出各种修改,并把在此说明的一般原理应用到其他实施例中而不必经过创造性的劳动。因此,本发明不限于上述实施例,本领域技术人员根据本发明的揭示,对于本发明做出的改进和修改都应该在本发明的保护范围之内。

Claims (4)

1.一种基于模板匹配技术的知识图谱问答方法,其特征在于,具体步骤如下:
步骤(1)建立基于外部无标签数据集的关系模式挖掘系统,为知识图谱中的每一个关系挖掘所有可能的自然语言表达式;
步骤(2)手工定义问题模板库,对每一个问题模板,定义该问题的问句形式以及对应的结构化知识图谱查询语句范例;
步骤(3)对用户的问句输入进行问句语法分析;语法分析步骤包括通过分词算法对用户输入的问句进行切割,以及对分析切割后的每个词、短语的词性、疑问词识别,生成一棵语法树;
步骤(4)通过比较问句分析后的语法树与步骤(2)中问题模板库中问题模板的相似度,找出相似度最大即最匹配的问题模板,得到该问题模板相对应的结构化知识图谱查询模板;
步骤(5)将用户自然语言表达的词、短语映射到知识图谱中的某个实体或者关系;
步骤(6)将步骤(5)映射出的实体、关系填充到步骤(4)中得到的结构化知识图谱查询模板中,生成最终的结构化知识图谱查询语句;
所述的步骤(1)具体为:
步骤1-1.获取知识图谱三元组集;对于一个给定的关系P,从知识库中抽取出所有关系P关联的三元组<Subject,Predicate,Object>,用集合I(P)={(s,o):(s,p,o)∈κ}表示,其中κ表示知识库集;
步骤1-2.获取外部无标签数据集;所述的外部无标签数据集D包括两部分:一部分为通过爬虫挖掘获取的中文wikipedia文本数据集,另一部分则为抽取上一步中每一个三元组的两个实体,输入传统搜索引擎得到的数据集;
步骤1-3.挖掘自然语言表达式候选集;定义α(x)表示实体x的标签,β(x)表示实体x的URI,首先遍历无标签数据集D中所有的句子,若句子中同时出现α(s)和α(o),则把该句子α(s)和α(o)中间的短语加入到潜在自然语言表达式集合中N;
步骤1-4.验证自然语言表达式集;记θ为挖掘出的某一个具体的自然语言表达式,β为挖掘出的某类模式的集合,
定义一个表达式n对于一个关系P的得分函数如公式(1):
其中,c表示对于一个三元组<si,p,oi>,关系短语n和实体si,oi同时在语料库中出现的次数,C表示实体si,oi在语料库中出现的总次数,M表示对于那些不存在关系P的实体在语料库中出现的总次数,m表示对于那些不存在关系P的实体与关系短语n在语料库中出现的总次数,i表示知识库中存在关系P的三元组个数,j表示知识库中不存在关系P的三元组个数,表示权重参数;
根据上述方法计算出表达式集中每个表达式的得分,选取得分较高的K个表达式作为最终验证出来的自然语言表达式,其中K根据需求设定;
所述的步骤(5)具体为:
步骤5-1.基于倒排索引的严格匹配;提取出知识图谱中所有的实体和关系,提取出实体和关系的URI和标签,然后建立从标签到URI的映射表,建立倒排索引表,键值为知识库中实体或者关系的标签,对应的值是一个URI集合,这些集合中的URI对应的实体或者关系的标签就是键值,基于倒排索引的严格匹配要求自然语言表达式与知识图谱中的实体或者关系的标签字符严格匹配;
步骤5-2.基于字符串相似度的匹配;定义两个字符串之间的相似度如公式(2):
预先设置相似度阈值,计算所有标签与目标短语的字符串相似度,当相似度超过阈值,则该标签对应的URI即为候选URI集;
步骤5-3.基于字典词汇集的扩充;采用同义词典扩充的方法,将该短语在词典中对应的同义词集、上位词集、下位词集都添加进该词的候选匹配集合,然后采用步骤5-1和步骤5-2,重新进行匹配;
步骤5-4.基于语义相似度的匹配;采用Google发布的word2vec模型进行语义相似度匹配。
2.根据权利要求1所述的基于模板匹配技术的知识图谱问答方法,其特征在于,步骤1-2中所述的传统搜索引擎为Google和Bing搜索引擎。
3.根据权利要求1所述的基于模板匹配技术的知识图谱问答方法,其特征在于,所述的步骤(2)具体为:通过正则表达式来定义某类问题模板,通过SPARQL查询语句定义该模板对应的知识图谱结构化查询模板,SPARQL查询模板中待确定的实体或者关系由变量来表示。
4.根据权利要求1所述的基于模板匹配技术的知识图谱问答方法,其特征在于,所述的步骤5-3中采用WordNet词典进行同义扩充。
CN201610179359.9A 2016-03-25 2016-03-25 一种基于模板匹配技术的知识图谱问答系统及方法 Expired - Fee Related CN105868313B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610179359.9A CN105868313B (zh) 2016-03-25 2016-03-25 一种基于模板匹配技术的知识图谱问答系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610179359.9A CN105868313B (zh) 2016-03-25 2016-03-25 一种基于模板匹配技术的知识图谱问答系统及方法

Publications (2)

Publication Number Publication Date
CN105868313A CN105868313A (zh) 2016-08-17
CN105868313B true CN105868313B (zh) 2019-02-12

Family

ID=56625974

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610179359.9A Expired - Fee Related CN105868313B (zh) 2016-03-25 2016-03-25 一种基于模板匹配技术的知识图谱问答系统及方法

Country Status (1)

Country Link
CN (1) CN105868313B (zh)

Families Citing this family (117)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104657439B (zh) * 2015-01-30 2019-12-13 欧阳江 用于自然语言精准检索的结构化查询语句生成系统及方法
CN106570138B (zh) * 2016-11-03 2020-03-03 北京百度网讯科技有限公司 基于人工智能的信息搜索方法和装置
CN108021547B (zh) * 2016-11-04 2021-05-04 株式会社理光 一种自然语言的生成方法、自然语言生成装置及电子设备
CN106570002B (zh) * 2016-11-07 2021-09-14 网易(杭州)网络有限公司 自然语言处理方法和装置
CN106649878A (zh) * 2017-01-07 2017-05-10 陈翔宇 基于人工智能的物联网实体搜索方法及系统
CN108334528B (zh) * 2017-03-02 2020-12-01 腾讯科技(深圳)有限公司 一种信息推荐方法和装置
CN106934012B (zh) * 2017-03-10 2020-05-08 上海数眼科技发展有限公司 一种基于知识图谱的自然语言问答实现方法和系统
CN107247736B (zh) * 2017-05-08 2020-07-14 广州索答信息科技有限公司 一种基于知识图谱的厨房领域问答方法及系统
CN107247738B (zh) * 2017-05-10 2019-09-06 浙江大学 一种基于spark的大规模知识图谱语义查询方法
CN106997399A (zh) * 2017-05-24 2017-08-01 海南大学 一种基于数据图谱、信息图谱、知识图谱和智慧图谱关联架构的分类问答系统设计方法
CN107341215B (zh) * 2017-06-07 2020-05-12 北京航空航天大学 一种基于分布式计算平台的多源垂直知识图谱分类集成查询系统
CN109033063B (zh) * 2017-06-09 2022-02-25 微软技术许可有限责任公司 基于知识图谱的机器推理方法、电子设备及计算机可读存储介质
CN107918634A (zh) * 2017-06-27 2018-04-17 上海壹账通金融科技有限公司 智能问答方法、装置及计算机可读存储介质
CN107451240B (zh) * 2017-07-26 2019-12-13 北京大学 一种基于交互的知识图谱问答q/a系统检索提升方法和装置
CN107451276A (zh) * 2017-08-05 2017-12-08 龙飞 一种基于深度学习的智能自助导游系统及其方法
CN107688641B (zh) * 2017-08-28 2021-12-28 江西博瑞彤芸科技有限公司 一种提问管理方法及系统
CN107679124B (zh) * 2017-09-21 2020-10-27 北京航空航天大学 一种基于动态规划算法的知识图谱中文问答检索方法
CN107748757B (zh) * 2017-09-21 2021-05-07 北京航空航天大学 一种基于知识图谱的问答方法
CN107633093A (zh) * 2017-10-10 2018-01-26 南通大学 一种供电决策知识图谱的构建及其查询方法
CN107766483A (zh) * 2017-10-13 2018-03-06 华中科技大学 一种基于知识图谱的交互式问答方法及系统
CN107818148A (zh) * 2017-10-23 2018-03-20 南京南瑞集团公司 基于自然语言处理的自助式查询统计分析方法
US11487520B2 (en) * 2017-12-01 2022-11-01 Cotiviti, Inc. Automatically generating reasoning graphs
CN108280055A (zh) * 2017-12-04 2018-07-13 盈盛资讯科技有限公司 一种基于二元关系的知识学习方法和系统
CN108038200A (zh) * 2017-12-12 2018-05-15 北京百度网讯科技有限公司 用于存储数据的方法和装置
CN108038234B (zh) * 2017-12-26 2021-06-15 众安信息技术服务有限公司 一种问句模板自动生成方法及装置
CN107958091A (zh) * 2017-12-28 2018-04-24 北京贝塔智投科技有限公司 一种基于金融垂直知识图谱的nlp人工智能方法及交互系统
CN109993381B (zh) * 2017-12-29 2021-11-30 中国移动通信集团湖北有限公司 基于知识图谱的需求管理应用方法、装置、设备及介质
CN108256065B (zh) * 2018-01-16 2021-11-09 智言科技(深圳)有限公司 基于关系检测和强化学习的知识图谱推理方法
CN108427707B (zh) * 2018-01-23 2021-05-04 深圳市阿西莫夫科技有限公司 人机问答方法、装置、计算机设备和存储介质
CN110209743B (zh) * 2018-02-07 2021-10-01 大连理工大学 知识管理系统及方法
CN108376287A (zh) * 2018-03-02 2018-08-07 复旦大学 基于CN-DBpedia的多值属性分割装置及方法
CN108804521B (zh) * 2018-04-27 2021-05-14 南京柯基数据科技有限公司 一种基于知识图谱的问答方法及农业百科问答系统
CN108932278B (zh) * 2018-04-28 2021-05-18 厦门快商通信息技术有限公司 基于语义框架的人机对话方法及系统
CN108664599B (zh) * 2018-05-09 2022-02-22 腾讯科技(深圳)有限公司 智能问答方法、装置、智能问答服务器及存储介质
CN110147544B (zh) * 2018-05-24 2024-06-21 清华大学 一种基于自然语言的指令生成方法、装置以及相关设备
CN110543951B (zh) * 2018-05-28 2022-05-17 中国铁道科学研究院铁道建筑研究所 一种铁路桥梁检养修虚拟助理系统
CN108959433B (zh) * 2018-06-11 2022-05-03 北京大学 一种从软件项目数据中提取知识图谱并问答的方法与系统
CN110609995B (zh) * 2018-06-15 2023-06-27 中央民族大学 构建藏语问答语料库的方法及装置
CN109062939A (zh) * 2018-06-20 2018-12-21 广东外语外贸大学 一种面向汉语国际教育的智能导学方法
CN108846104B (zh) * 2018-06-20 2022-03-11 北京师范大学 一种基于教育知识图谱的问答分析与处理方法及系统
CN108959584B (zh) * 2018-07-09 2023-02-10 清华大学 一种基于社区结构的处理图数据的方法及装置
CN109033314B (zh) * 2018-07-18 2020-10-23 哈尔滨工业大学 内存受限情况下的大规模知识图谱的实时查询方法和系统
CN111078844B (zh) * 2018-10-18 2023-03-14 上海交通大学 软件众包的任务型对话系统及方法
CN109408821B (zh) * 2018-10-22 2020-09-04 腾讯科技(深圳)有限公司 一种语料生成方法、装置、计算设备及存储介质
CN109189946B (zh) * 2018-11-06 2021-11-26 湖南云智迅联科技发展有限公司 一种将设备故障语句描述转换为知识图谱表达的方法
CN109583750B (zh) * 2018-11-27 2023-06-16 创新先进技术有限公司 用户问句与知识点的匹配方法和装置
CN109766417B (zh) * 2018-11-30 2020-11-24 浙江大学 一种基于知识图谱的文学编年史问答系统的构建方法
CN109670024B (zh) * 2018-12-17 2021-06-04 北京百度网讯科技有限公司 逻辑表达式确定方法、装置、设备和介质
CN109684448B (zh) * 2018-12-17 2021-01-12 北京北大软件工程股份有限公司 一种智能问答方法
CN109710737B (zh) * 2018-12-21 2021-01-22 神思电子技术股份有限公司 一种基于结构化查询的智能推理方法
CN109657037A (zh) * 2018-12-21 2019-04-19 焦点科技股份有限公司 一种基于实体类型和语义相似度的知识图谱问答方法及系统
CN110019844A (zh) * 2019-02-20 2019-07-16 众安信息技术服务有限公司 一种保险行业知识图谱问答系统构建方法及装置
CN109947914B (zh) * 2019-02-21 2023-08-18 扬州大学 一种基于模板的软件缺陷自动问答方法
CN109918489B (zh) * 2019-02-28 2021-02-02 上海乐言信息科技有限公司 一种多策略融合的知识问答方法和系统
CN109918436B (zh) * 2019-03-08 2022-12-20 麦博(上海)健康科技有限公司 一种医学知识管理和查询系统
CN110717018A (zh) * 2019-04-15 2020-01-21 中国石油大学(华东) 一种基于知识图谱的工业设备故障维修问答系统
CN112002313B (zh) * 2019-05-09 2023-04-07 阿里巴巴集团控股有限公司 交互方法及装置、音箱、电子设备和存储介质
CN110334179B (zh) * 2019-05-22 2020-12-29 深圳追一科技有限公司 问答处理方法、装置、计算机设备和存储介质
CN110147437B (zh) * 2019-05-23 2022-09-02 北京金山数字娱乐科技有限公司 一种基于知识图谱的搜索方法及装置
CN110188170B (zh) * 2019-05-28 2023-05-09 丁跃辉 一种多入口医学问句模板装置及其方法
CN110334272B (zh) * 2019-05-29 2022-04-12 平安科技(深圳)有限公司 基于知识图谱的智能问答方法、装置及计算机存储介质
CN110413732B (zh) * 2019-07-16 2023-11-24 扬州大学 面向软件缺陷知识的知识搜索方法
US11138212B2 (en) 2019-07-23 2021-10-05 International Business Machines Corporation Natural language response recommendation clustering for rapid retrieval
US11157707B2 (en) * 2019-07-23 2021-10-26 International Business Machines Corporation Natural language response improvement in machine assisted agents
CN110413739B (zh) * 2019-08-01 2021-11-12 思必驰科技股份有限公司 用于口语语义理解的数据增强方法及系统
CN110532368B (zh) * 2019-09-04 2023-03-14 达闼机器人股份有限公司 问答方法、电子设备及计算机可读存储介质
CN110795528B (zh) * 2019-09-05 2023-10-13 腾讯科技(深圳)有限公司 一种数据查询方法、装置、电子设备及存储介质
CN110781284B (zh) * 2019-09-18 2024-05-28 平安科技(深圳)有限公司 基于知识图谱的问答方法、装置和存储介质
CN110674313B (zh) * 2019-09-20 2022-12-13 四川长虹电器股份有限公司 一种基于用户日志动态更新知识图谱的方法
CN110717025B (zh) * 2019-10-08 2022-08-12 北京百度网讯科技有限公司 一种问答方法、装置、电子设备及存储介质
CN110931012A (zh) * 2019-10-12 2020-03-27 深圳壹账通智能科技有限公司 答复消息生成方法、装置、计算机设备和存储介质
CN110990582A (zh) * 2019-11-21 2020-04-10 北京明略软件系统有限公司 一种实现事务处理的方法、装置、计算机存储介质及终端
CN111008284B (zh) * 2019-11-29 2021-01-12 北京数起科技有限公司 执行图谱分析的方法、装置及其服务系统
CN111008309B (zh) * 2019-12-06 2023-08-08 北京百度网讯科技有限公司 查询方法及装置
CN111026834B (zh) * 2019-12-10 2022-07-08 思必驰科技股份有限公司 问答语料生成方法及系统
CN113010632A (zh) * 2019-12-20 2021-06-22 中兴通讯股份有限公司 智能问答方法、装置、计算机设备和计算机可读介质
CN111177411A (zh) * 2019-12-27 2020-05-19 赣州市智能产业创新研究院 一种基于nlp的知识图谱构建方法
CN111192654A (zh) * 2019-12-30 2020-05-22 北京左医健康技术有限公司 基于知识图谱的用药指导查询方法及装置
CN111159220B (zh) * 2019-12-31 2023-06-23 北京百度网讯科技有限公司 用于输出结构化查询语句的方法和装置
CN111274391B (zh) * 2020-01-15 2023-09-01 北京百度网讯科技有限公司 一种spo的抽取方法、装置、电子设备及存储介质
CN111274373B (zh) * 2020-01-16 2021-06-11 山东大学 一种基于知识图谱的电子病历问答方法及系统
CN111353049A (zh) 2020-02-24 2020-06-30 京东方科技集团股份有限公司 数据更新方法、装置、电子设备及计算机可读存储介质
CN111737425B (zh) * 2020-02-28 2024-03-01 北京汇钧科技有限公司 一种应答方法、装置、服务器及存储介质
CN111444351B (zh) * 2020-03-24 2023-09-12 清华苏州环境创新研究院 一种行业工艺领域知识图谱构建方法及装置
CN111581229B (zh) * 2020-03-25 2023-04-18 平安科技(深圳)有限公司 Sql语句的生成方法、装置、计算机设备及存储介质
CN111522910B (zh) * 2020-04-14 2022-05-31 浙江大学 一种基于文物知识图谱的智能语义检索方法
CN111581329A (zh) * 2020-04-23 2020-08-25 上海兑观信息科技技术有限公司 基于倒排索引的短文本匹配方法及装置
CN111651447B (zh) * 2020-06-03 2023-09-15 南京维斯德软件有限公司 一种智能建造全寿期数据处理分析管控系统
CN111858903A (zh) * 2020-06-11 2020-10-30 创新工场(北京)企业管理股份有限公司 一种用于负面新闻预警的方法和装置
CN111858877B (zh) * 2020-06-17 2024-07-05 平安科技(深圳)有限公司 多类型问题智能问答方法、系统、设备及可读存储介质
CN111767381A (zh) * 2020-06-30 2020-10-13 北京百度网讯科技有限公司 自动问答方法和装置
CN112347772A (zh) * 2020-08-14 2021-02-09 北京京东尚科信息技术有限公司 一种语义解析方法和装置
CN114090782A (zh) * 2020-08-24 2022-02-25 南京大学 一种结构优先的知识库问答实现方法及其系统
CN112015915A (zh) * 2020-09-01 2020-12-01 哈尔滨工业大学 基于问题生成的知识库问答系统及装置
CN112183953A (zh) * 2020-09-08 2021-01-05 北京达佳互联信息技术有限公司 客服资源的分配方法、装置、电子设备和存储介质
CN112256847B (zh) * 2020-09-30 2023-04-07 昆明理工大学 融合事实文本的知识库问答方法
CN112632335A (zh) * 2020-10-15 2021-04-09 北京如易堂科技有限公司 一种辅助发明的装置、电子设备和计算机可读介质
CN112306497B (zh) * 2020-11-03 2024-04-26 高炼 一种将自然语言转化为程序代码的方法及系统
CN112597272A (zh) * 2020-11-17 2021-04-02 北京计算机技术及应用研究所 一种基于自然语言问句的专家领域知识图谱查询方法
CN112364180A (zh) * 2020-11-26 2021-02-12 上海天旦网络科技发展有限公司 基于知识图谱的标签定义和计算的方法及系统
CN112395403B (zh) * 2020-11-30 2024-06-11 广东国粒教育技术有限公司 一种基于知识图谱的问答方法、系统、电子设备及介质
CN112507135B (zh) * 2020-12-17 2021-11-16 深圳市一号互联科技有限公司 知识图谱查询模板构建方法、装置、系统、以及存储介质
CN113204696A (zh) * 2021-01-05 2021-08-03 北京欧拉认知智能科技有限公司 一种基于文本图谱的智能搜索引擎的检索方法
CN114860894A (zh) * 2021-01-20 2022-08-05 京东科技控股股份有限公司 知识库的查询方法、装置、计算机设备和存储介质
CN112836030B (zh) * 2021-01-29 2023-04-25 成都视海芯图微电子有限公司 一种智能对话系统及方法
CN112905774A (zh) * 2021-02-22 2021-06-04 武汉市聚联科软件有限公司 一种基于事理图谱的人机对话深度意图理解方法
CN113127619A (zh) * 2021-04-19 2021-07-16 厦门渊亭信息科技有限公司 一种智能问答方法和装置
CN113255374B (zh) * 2021-06-02 2024-06-07 竹间智能科技(上海)有限公司 问答管理方法及系统
CN113342842A (zh) * 2021-06-10 2021-09-03 南方电网数字电网研究院有限公司 基于计量知识的语义查询方法、装置和计算机设备
CN114281841B (zh) * 2021-12-07 2024-07-16 四川新网银行股份有限公司 一种基于业务需求生成配置sql语句的方法
CN114637765A (zh) * 2022-04-26 2022-06-17 阿里巴巴达摩院(杭州)科技有限公司 基于表格数据的人机交互方法、装置及设备
CN114564599B (zh) * 2022-04-28 2022-07-29 中科雨辰科技有限公司 一种基于查询字符串模板的检索系统
CN114780083B (zh) 2022-06-17 2022-10-18 之江实验室 一种知识图谱系统的可视化构建方法及装置
CN116737915B (zh) * 2023-08-16 2023-11-21 中移信息系统集成有限公司 基于知识图谱的语义检索方法、装置、设备及存储介质
CN117076648B (zh) * 2023-10-13 2024-02-06 腾讯科技(深圳)有限公司 一种对话文本处理方法、装置、电子设备和存储介质
CN117540799B (zh) * 2023-10-20 2024-04-09 上海歆广数据科技有限公司 一种个案图谱创建生成方法及系统
CN117608545B (zh) * 2024-01-17 2024-05-10 之江实验室 一种基于知识图谱的标准作业程序生成方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104361127A (zh) * 2014-12-05 2015-02-18 广西师范大学 基于领域本体和模板逻辑的多语种问答接口快速构成方法
CN104572970A (zh) * 2014-12-31 2015-04-29 浙江大学 一种基于本体库内容的sparql查询语句生成系统
CN104850539A (zh) * 2015-05-28 2015-08-19 宁波薄言信息技术有限公司 一种自然语言理解方法及基于该方法的旅游问答系统
CN104866593A (zh) * 2015-05-29 2015-08-26 中国电子科技集团公司第二十八研究所 一种基于知识图谱的数据库搜索方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012520529A (ja) * 2009-03-13 2012-09-06 インベンション マシーン コーポレーション 知識調査のためのシステム及び方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104361127A (zh) * 2014-12-05 2015-02-18 广西师范大学 基于领域本体和模板逻辑的多语种问答接口快速构成方法
CN104572970A (zh) * 2014-12-31 2015-04-29 浙江大学 一种基于本体库内容的sparql查询语句生成系统
CN104850539A (zh) * 2015-05-28 2015-08-19 宁波薄言信息技术有限公司 一种自然语言理解方法及基于该方法的旅游问答系统
CN104866593A (zh) * 2015-05-29 2015-08-26 中国电子科技集团公司第二十八研究所 一种基于知识图谱的数据库搜索方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
面向自然语言查询的知识搜索关键技术研究;黄鹏程;《中国优秀硕士学位论文全文数据库 信息科技辑》;20160715(第07期);I138-1243

Also Published As

Publication number Publication date
CN105868313A (zh) 2016-08-17

Similar Documents

Publication Publication Date Title
CN105868313B (zh) 一种基于模板匹配技术的知识图谱问答系统及方法
US9448995B2 (en) Method and device for performing natural language searches
Kowalski Information retrieval architecture and algorithms
US8620909B1 (en) Contextual personalized searching across a hierarchy of nodes of a knowledge base
CN101630314B (zh) 一种基于领域知识的语义查询扩展方法
CN109684448A (zh) 一种智能问答方法
CN110298033A (zh) 关键词语料标注训练提取工具
Schenker Graph-theoretic techniques for web content mining
WO2014054052A2 (en) Context based co-operative learning system and method for representing thematic relationships
CN102087669A (zh) 基于语义关联的智能搜索引擎系统
KR20100125682A (ko) 다수 분류 체계를 연동한 시멘틱 검색 방법 및 시스템
US11487795B2 (en) Template-based automatic software bug question and answer method
CN101393565A (zh) 基于本体的面向虚拟博物馆的搜索方法
CN112036178A (zh) 一种配网实体相关的语义搜索方法
CN114090861A (zh) 一种基于知识图谱的教育领域搜索引擎构建方法
CN114297404B (zh) 一种领域评审专家行为轨迹的知识图谱构建方法
Huang et al. Design and implementation of oil and gas information on intelligent search engine based on knowledge graph
CN105160046A (zh) 基于文本的数据检索方法
CN114391142A (zh) 使用结构化和非结构化数据的解析查询
Abramowicz et al. Supporting topic map creation using data mining techniques
Kolle et al. Ontology based domain dictionary
Dai et al. QAM: question answering system based on knowledge graph in the military
Martin Searching and smushing on the semantic web—challenges for soft computing
Kokare et al. A survey of natural language query builder interface for structured databases using dependency parsing
Lam et al. Web information extraction

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CB03 Change of inventor or designer information

Inventor after: Wang Donghui

Inventor after: Huang Pengcheng

Inventor after: Li Yanan

Inventor after: Lin Yuetan

Inventor after: Zhuang Yueting

Inventor before: Wang Donghui

Inventor before: Huang Pengcheng

Inventor before: Li Yanan

Inventor before: Lin Yuetan

Inventor before: Zhuang Yueting

CB03 Change of inventor or designer information
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20190212

Termination date: 20210325

CF01 Termination of patent right due to non-payment of annual fee