CN104933031B - 一种基于语义网无监督的自动问答方法 - Google Patents

一种基于语义网无监督的自动问答方法 Download PDF

Info

Publication number
CN104933031B
CN104933031B CN201510363362.1A CN201510363362A CN104933031B CN 104933031 B CN104933031 B CN 104933031B CN 201510363362 A CN201510363362 A CN 201510363362A CN 104933031 B CN104933031 B CN 104933031B
Authority
CN
China
Prior art keywords
semantic net
semantic
net
inquiry
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201510363362.1A
Other languages
English (en)
Other versions
CN104933031A (zh
Inventor
杨燕
杜泽宇
贺樑
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
East China Normal University
Original Assignee
East China Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by East China Normal University filed Critical East China Normal University
Priority to CN201510363362.1A priority Critical patent/CN104933031B/zh
Publication of CN104933031A publication Critical patent/CN104933031A/zh
Application granted granted Critical
Publication of CN104933031B publication Critical patent/CN104933031B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于语义网无监督的自动问答方法,该方法需要基于语义网的数据上实现,首先通过对用户问题进行同义转换和词干化,并利用语义网资源内部的数据进行三元组抽取,并找到语义网数据中最相关的实体和属性,生成对应的SPARQL语句查询,最终在支持语义网的用户终端中进行查询,本发明是在一个对基于语义网的自动问答的实现方案,无需复杂的训练预料和复杂的语义分析,只对语义网的文件自学习并利用同义词典进行同义转换,就能对跨领域的语义网知识库进行问答;其客观可行,并较之传统的问答方法能够回答复杂的知识问题。

Description

一种基于语义网无监督的自动问答方法
技术领域
本发明涉及自动问答(QA)的技术领域,具体地说是基于语义网的无监督自动问答的方法。
背景技术
互联网的数据增长迅速,如今已经有很多基于语义网的知识库,(如DBpedia,Freebase,Yoga)。提高这些数据的质与量对互联网向语义网的跨越发展极为重要。同样,随着语义网数据不断完善,如何友好地查询和使用语义网也成为研究的焦点。提供用户友好的自然语言接口,是解决查询语义网问题的关键。而引入语义网技术来进行自动问答并不是依靠单一的算法解决的,而是通过一系列的技术合并完成。现有的语义网标准,提供了在语义网标注的网络数据,利用庞大的语义网知识库,可以获得其背后丰富的语义解释。虽然语义网的技术提供了丰富的语义知识,但基于语义网的自动问答系统仍然面临着两大难题:(1)用户和语义网之间转换存在困难:从自动问答的终端用户的角度来说,理解基于逻辑的复杂语义网非常的困难。必须能够允许传统的用户从表达丰富的信息需求的同时能够屏蔽语义网结构的复杂性。(2)语义网数据量大,增长快,异构性增强;现有的方法需要不断的完善来应对不断增长的异构知识数据。因此,在语义网基础上的自动问答系统亟需能够提供用户友好的接口以及能够支撑大量分布式的异构数据。最近几年,随着Google知识图谱概念和Siri知识搜索的应用,基于语义网的自动问答系统成为了最新最热的研究范畴。
传统的问答系统主要分为三种:(1) 基于文本的问答系统,即对于查询相关的文档进行检索,并从文档中提取出问题的答案。(2) 基于协同的问答系统,这类问答系统通常通过找到与用户提问最相似的问题,并检索答案,比如Yahoo!Answer and Quora。 (3)基于结构化数据的问答系统,这类问答系统通过搜索知识库而不是直接使用纯文本的语料,并将自然语言翻译成结构化的查询语言,比如SQL,SPARQL,以及其它的语言,而其中通过自然语言转换成SPARQL是现阶段最主流的基于语义网自动问答的研究范畴。
发明内容
本发明的目的是提供一种基于语义网无监督的自动问答方法,该方法是在一个对基于语义网的自动问答的实现方案,无需复杂的训练预料和复杂的语义分析,只对语义网的文件自学习并利用同义词典进行同义转换,就能对跨领域的语义网知识库进行问答。
本发明的目的是这样实现的:
一种基于语义网无监督的自动问答方法,该方法需要基于语义网的数据上实现,通过查询处理模块对用户问题进行同义转换和词干化,通过查询生成模块,生成对应的SPARQL语句查询,并在支持语义网的用户终端中进行查询,具体操作步骤:
第一步:用户询问分词,提取词主干,并利用同义词典和语义网中的同义属性进行同义转换;
第二步:查询语义网中与用户询问存在相关的三元组;
第三步:利用字符相似度和同义词找出语义网中与问题中的词相似度高的实体;
第四步:查询语义网中与匹配到的实体词有连接的数据;
第五步:对于第二步至第四步生成的三元组组合成查询,并计算出与原始问题匹配值最高的sparql查询;具体为:
第二步至第四步生成的三元组集合<H>,任选K个三元组组合成如下所示查询Select distinct * {where P 属于<H> .}并计依据:Ranting=∑0.1*(Common(Pi,W)/len(Wi)) *sim(Wi,Pi),Wi表示原查询中的词,W是数据中的匹配词,Common(Wi,W)是两着的匹配字数,len(Wi)是查询词的长度,simi(Wi,Pi),是查询词与同义词的相似度(由词典直接给出)。并依据上述公式计算出原始问题匹配值最高的sparql查询;
第六步:利用Jena工具构建sparql查询终端,执行查询;
第七步:结束。
本发明进一步特征在于第一步和第五步,使用监督的方法,仅利用语义网本身的数据进行学习。
与背景技术相比,本发明有以下优点:
⑴、易行性:不需要大量训练预料。传统的问答系统需要大量的问答预料,而本方法只需要整理好的语义网数据(如:owl,rdf)就可以进行问答。
⑵、简单性:本方法利用了同义词典进行同意转换,利用Jena进行Sparql查询,而方法也非常容易重现,而语义网的数据也非常容易获取和构建,完成问答该方法的成本很低。
⑶、实时性:本方法是针对小规模的语义网数据能够高效的问答,满足问答系统实时性的要求。
⑷、智能性:本方法仅采用了少量的自然语言词干化和同义转换,充分挖掘了语义网本身的结构特征,并利用Jena工具的推理工具执行查询,可以回答知识类问题。
附图说明
图1是本发明的流程图。
具体实施方式
现结合附图详细说明本发明的技术方案。
实施例
本发明需要基于语义网的数据上实现,首先通过对用户问题进行同义转换和词干化,并利用语义网资源内部的数据进行三元组抽取,并找到语义网数据中最相关的实体和属性,生成对应的SPARQL语句查询,最终在支持语义网的用户终端中进行查询,具体操作步骤:
对于问题:“北京的法国菜餐馆有哪些?”
利用Protégé工具和整理好的餐馆数据构建,语义网的数据库餐馆.owl数据文件。
Owl片段如下:
<owl:DatatypeProperty rdf:ID="foodType">
<rdfs:domain rdf:resource="#餐馆"/>
<rdfs:range rdf:resource="http://www.w3.org/2001/XMLSchema#string"/>
<ginseng:ignore rdf:value="id text"/>
<ginseng:phrase rdf:value="食品种类"/>
<ginseng:phrase rdf:value="种类"/>
<ginseng:interrogative rdf:value="有哪些种类的吃的"/>
</owl:DatatypeProperty>
….
<owl:DatatypeProperty rdf:ID="位置">
<rdfs:domain rdf:resource="#餐馆"/>
<rdfs:range rdf:resource="http://www.w3.org/2001/XMLSchema#string"/>
<ginseng:phrase rdf:value="地址"/>
<ginseng:phrase rdf:value="位置"/>
<ginseng:phrase rdf:value="地点"/>
<ginseng:phrase rdf:value="的"/>
<ginseng:phrase rdf:value="在"/>
<ginseng:interrogative rdf:value="哪儿?"/>
</owl:DatatypeProperty>
….
<Restaurant rdf:ID="ID_北京西餐大饭店">
<label>北京西餐大饭店</label>
<位于>rdf:resource="#北京" />
<菜种类>法国菜</菜种类>
<位置>北京王府井大街<位置>
<rating rdf:datatype="http://www.w3.org/2001/XMLSchema#float">4.7</rating>
<评分>好</评分>
</Restaurant>
第一步:用户询问分词,提取词主干,并利用同义词典和语义网中的同义属性进行同义转换;
对于问题“北京的法国菜的饭店有哪些?”,首先进行分词得到“北京 的 法国菜餐馆 有 哪些?”,接着识别问题类别,根据关键词有哪些识别问题类别为0(list)类别。利用owl中的数据将问句中的词识别到owl中的数据资源:
北京-> rdf:resource="#北京"
饭店-> rdf:resource="#餐馆"
的-> rdf:resource="#位置"
第二步:查询语义网中与用户询问存在相关的三元组。
查询owl中的三元组库获得如下:
rdf:ID="ID_北京西餐大饭店" owl:is_A rdf:resource="#餐馆"
rdf:ID="ID_北京西餐大饭店" 菜种类 法国菜
rdf:ID="ID_北京西餐大饭店" 位于 rdf:resource="#北京"
第三步:利用字符相似度和同义词找出语义网中与问题中的词相似度高的实体;
的:位置(= 位置,地点….)
rdf:ID="ID_北京西餐大饭店" 位于 rdf:resource="#北京" Ranting 1
rdf:ID="ID_北京西餐大饭店" 位置 北京王府井大街 Ranting 1
第四步:查询语义网中与匹配到的实体词有连接的数据;
获得动词数据: 位置,菜类别,位于,等;
如:
XX餐馆->#菜种类->’法国菜’
XX餐馆->#位于->北京
找到 查询中 实体(北京-和-法国菜存在链接)。
第五步:对于第二步至第四步生成的三元组集合<H>,任选K个三元组组合成如下所示查询Select distinct * {where P 属于<H> .}并计依据:Ranting=∑0.1*(Common(Pi,W)/len(Wi)) *sim(Wi,Pi),Wi表示原查询中的词,W是数据中的匹配词,Common(Wi,W)是两着的匹配字数,len(Wi)是查询词的长度,simi(Wi,Pi),是查询词与同义词的相似度(由词典直接给出)。并依据上述公式计算出原始问题匹配值最高的sparql查询:
如下面两种查询
1. SELECT distinct * WHERE {
?Restaurant <#菜种类> ‘法国菜’
} Ranting = 0.1*1/3*1 + 0.1*2/3*1 = 0.1
2.SELECT distinct * WHERE {
?Restaurant <#菜种类> ‘法国菜’ .
?Restaurant <#位于> ?City .
?City <#label> ‘北京’ .
?Restaurant <#type> <#Restaurant> .
} Ranting = 0.1*1/3*1 + 0.1*2/3*1 + 0.1*2/2*1 = 0.2
3,
第六步:利用Jena构建sparql查询终端,执行评分最高的查询。
第七步:结束。

Claims (1)

1.一种基于语义网无监督的自动问答方法,其特征在于,该方法要基于语义网的数据上实现,通过查询处理模块对用户问题进行同义转换和词干化,通过查询生成模块,生成对应的SPARQL语句查询,并在支持语义网的用户终端中进行查询,具体操作步骤:
第一步:用户询问分词,提取词主干,并利用同义词典和语义网中的同义属性进行同义转换;
第二步:查询语义网中与用户询问存在相关的三元组;
第三步:利用字符相似度和同义词找出语义网中与问题中的词相似度高的实体;
第四步:查询语义网中与匹配到的实体词有连接的数据;
第五步:对于第二步至第四步生成的三元组组合成查询,并计算出与原始问题匹配值最高的sparql查询;具体为:
第二步至第四步生成的三元组集合<H>,任选K个三元组组合成如下所示查询Selectdistinct*{where P属于<H>}并计依据:Ranting=∑0.1*(Common(Pi,W)/len(Wi))*sim(Wi,Pi),Wi表示原查询中的词,W是数据中的匹配词,Common(Wi,W)是两者的匹配字数,len(Wi)是查询词的长度,simi(Wi,Pi),是查询词与同义词的相似度,由词典直接给出;并依据上述公式计算出原始问题匹配值最高的sparql查询;
第六步:利用Jena工具构建sparql查询终端,执行查询;
第七步:结束。
CN201510363362.1A 2015-06-29 2015-06-29 一种基于语义网无监督的自动问答方法 Active CN104933031B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510363362.1A CN104933031B (zh) 2015-06-29 2015-06-29 一种基于语义网无监督的自动问答方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510363362.1A CN104933031B (zh) 2015-06-29 2015-06-29 一种基于语义网无监督的自动问答方法

Publications (2)

Publication Number Publication Date
CN104933031A CN104933031A (zh) 2015-09-23
CN104933031B true CN104933031B (zh) 2018-11-06

Family

ID=54120200

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510363362.1A Active CN104933031B (zh) 2015-06-29 2015-06-29 一种基于语义网无监督的自动问答方法

Country Status (1)

Country Link
CN (1) CN104933031B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105912575B (zh) * 2016-03-31 2020-05-15 百度在线网络技术(北京)有限公司 文字信息推送方法和装置
CN106446018B (zh) * 2016-08-29 2020-02-04 北京百度网讯科技有限公司 基于人工智能的查询信息处理方法和装置
CN108073587B (zh) * 2016-11-09 2022-05-27 阿里巴巴集团控股有限公司 一种自动问答方法、装置及电子设备
CN106997399A (zh) * 2017-05-24 2017-08-01 海南大学 一种基于数据图谱、信息图谱、知识图谱和智慧图谱关联架构的分类问答系统设计方法
CN107992608B (zh) * 2017-12-15 2021-07-02 南开大学 一种基于关键字上下文的sparql查询语句自动生成方法
CN108959467B (zh) * 2018-06-20 2021-10-15 华东师范大学 一种基于强化学习的问句和答案句相关度的计算方法
CN113468255B (zh) * 2021-06-25 2023-04-07 西安电子科技大学 基于知识图谱的社会治安综合治理领域数据融合方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1928864A (zh) * 2006-09-22 2007-03-14 浙江大学 一种基于问答库的中文自然语言问答方法
CN101030267A (zh) * 2006-02-28 2007-09-05 腾讯科技(深圳)有限公司 自动问答方法及系统
CN102591862A (zh) * 2011-01-05 2012-07-18 华东师范大学 一种基于词共现的汉语实体关系提取的控制方法及装置
CN102789496A (zh) * 2012-07-13 2012-11-21 携程计算机技术(上海)有限公司 智能应答的实现方法及系统
US8935277B2 (en) * 2012-03-30 2015-01-13 Sap Se Context-aware question answering system
CN104572618A (zh) * 2014-12-31 2015-04-29 哈尔滨工业大学深圳研究生院 一种问答系统中基于语义的相似度分析方法、系统及应用

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8392436B2 (en) * 2008-02-07 2013-03-05 Nec Laboratories America, Inc. Semantic search via role labeling
US9135240B2 (en) * 2013-02-12 2015-09-15 International Business Machines Corporation Latent semantic analysis for application in a question answer system

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101030267A (zh) * 2006-02-28 2007-09-05 腾讯科技(深圳)有限公司 自动问答方法及系统
CN1928864A (zh) * 2006-09-22 2007-03-14 浙江大学 一种基于问答库的中文自然语言问答方法
CN102591862A (zh) * 2011-01-05 2012-07-18 华东师范大学 一种基于词共现的汉语实体关系提取的控制方法及装置
US8935277B2 (en) * 2012-03-30 2015-01-13 Sap Se Context-aware question answering system
CN102789496A (zh) * 2012-07-13 2012-11-21 携程计算机技术(上海)有限公司 智能应答的实现方法及系统
CN104572618A (zh) * 2014-12-31 2015-04-29 哈尔滨工业大学深圳研究生院 一种问答系统中基于语义的相似度分析方法、系统及应用

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
NLP-Reduce: A "Naive" but Domain-independent;Esther Kaufmann 等;《4th European Semantic Web Conference》;20071231;第2节第5-9段 *
基于本体的中文语义检索系统;许德山 等;《情报理论与实践》;20080530;447-452 *
基于自然语言理解的本体语义信息检索;张宗仁;《中国优秀硕士学位论文全文数据就 信息科技辑》;20111015;正文第28页最后1段、第37页最后1段、第38页倒数第3段-第39页最后1段、、第57页最后1行,表6-1,图5-4 *

Also Published As

Publication number Publication date
CN104933031A (zh) 2015-09-23

Similar Documents

Publication Publication Date Title
CN104933031B (zh) 一种基于语义网无监督的自动问答方法
US11093488B1 (en) Natural language search with semantic mapping and classification
JP6309644B2 (ja) スマート質問回答の実現方法、システム、および記憶媒体
CN106055675B (zh) 一种基于卷积神经网络和距离监督的关系抽取方法
CN107609052A (zh) 一种基于语义三角的领域知识图谱的生成方法及装置
CN105868313A (zh) 一种基于模板匹配技术的知识图谱问答系统及方法
US10467256B2 (en) Automatic query pattern generation
JP2016522524A (ja) 同義表現の探知及び関連コンテンツを検索する方法及び装置
CN104021198B (zh) 基于本体语义索引的关系数据库信息检索方法及装置
CN105718585B (zh) 文档与标签词语义关联方法及其装置
CN104281702A (zh) 基于电力关键词分词的数据检索方法及装置
CN106227762B (zh) 一种基于用户协助的垂直搜索方法和系统
CN103605781A (zh) 一种隐式篇章关系类型推理方法及系统
CN104281565A (zh) 语义词典构建方法和装置
KR20180093157A (ko) 의존구문 분석 기술 및 의미 표현 기술을 활용한 질문 번역 시스템 및 방법
CN104391969A (zh) 确定用户查询语句句法结构的方法及装置
CN109947914A (zh) 一种基于模板的软件缺陷自动问答方法
Wang et al. Semi-supervised chinese open entity relation extraction
JP5688754B2 (ja) 情報検索装置及びコンピュータプログラム
Pakojwar et al. Web data extraction and alignment using tag and value similarity
Huang et al. Automatic question-answering based on Wikipedia data extraction
Kokare et al. A survey of natural language query builder interface for structured databases using dependency parsing
Li et al. Building a large-scale cross-lingual knowledge base from heterogeneous online wikis
CN111581326A (zh) 一种基于异构外部知识源图结构抽取答案信息的方法
Zhang et al. An automatic approach to extracting geographic information from Internet

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant