CN104915340B - 自然语言问答方法及装置 - Google Patents

自然语言问答方法及装置 Download PDF

Info

Publication number
CN104915340B
CN104915340B CN201410085902.XA CN201410085902A CN104915340B CN 104915340 B CN104915340 B CN 104915340B CN 201410085902 A CN201410085902 A CN 201410085902A CN 104915340 B CN104915340 B CN 104915340B
Authority
CN
China
Prior art keywords
rel
predicate
phrase
relationship phrase
relationship
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201410085902.XA
Other languages
English (en)
Other versions
CN104915340A (zh
Inventor
邹磊
刘婷婷
路彦雄
刘怀军
黄睿哲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Peking University
Tencent Technology Shenzhen Co Ltd
Original Assignee
Peking University
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Peking University, Tencent Technology Shenzhen Co Ltd filed Critical Peking University
Priority to CN201410085902.XA priority Critical patent/CN104915340B/zh
Priority to EP15761024.7A priority patent/EP3117345A4/en
Priority to US15/109,698 priority patent/US10210245B2/en
Priority to PCT/CN2015/073884 priority patent/WO2015135455A1/en
Publication of CN104915340A publication Critical patent/CN104915340A/zh
Priority to US16/231,736 priority patent/US10956464B2/en
Application granted granted Critical
Publication of CN104915340B publication Critical patent/CN104915340B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3334Selection or weighting of terms from queries, including natural language queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/316Indexing structures
    • G06F16/322Trees
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例公开了一种自然语言问答方法及装置,属于信息检索和处理领域。所述方法包括:获取自然语言问句N;将所述自然语言问句N转换为查询语义图Qs,所述查询语义图Qs中的每条边代表所述自然语言问句N中的一个语义关系;在RDF图G中查找与所述查询语义图Qs匹配的子图;根据所述子图得到所述自然语言问句N的答案。本发明实施例解决了在问题理解阶段需要耗费很大的计算量来消歧的问题;达到了提供了一种全新的自然语言问答机制,将自然语言问句N转换为查询语义图Qs时不需要消歧,消歧过程在查找与查询语义图Qs匹配的子图的过程中自然完成的效果。

Description

自然语言问答方法及装置
技术领域
本发明实施例涉及信息检索和处理领域,特别涉及一种自然语言问答方法及装置。
背景技术
问答系统是信息检索系统的一种高级形式。它能用准确、简洁的自然语言回答用户用自然语言提出的问题。
RDF(Resource Description Framework,资源描述框架)资源库是实现问答系统的一个基础。RDF资源库,也称知识库,通常包括大量的便于计算机识别和理解的三元组。每个三元组表示为主体、谓词和客体,比如主体“《演员的自我修养》”、谓词“类别”和客体“书籍”。目前的问答系统主要包括两个阶段:问题理解阶段和查询执行阶段。在问题理解阶段,问答系统首先将自然语言问句N翻译为SPARQLs查询语句,SPARQLs是一种用于在RDF资源库中执行查询的语言;然后在查询执行阶段,问答系统将SPARQLs查询语句输入SPARQLs搜索引擎在RDF资源库中搜索出自然语言问句N的答案。
如图1所示,当一个自然语言问句“谁嫁给了那个在费城中出演的演员?”输入到问答系统后,问答系统首先将该自然语言问句翻译成SPARQLs查询语句12:
“?x主演费城_(电影);
?x类型演员;
?x配偶?y”,
然后,SPARQLs搜索引擎14输出查询结果16:“?y=梅拉妮·格里菲斯”。
在实现本发明实施例的过程中,发明人发现背景技术至少存在以下问题:由于自然语言具有歧义性,比如短语“费城”可能是指费城(城市)、费城(电影)和费城_76人队,上述技术在将自然语言问句N翻译到SPARQLs查询语句12的过程中,需要根据自然语言问句N的语义来消除歧义。而消歧并不是一项简单的任务,不仅需要耗费很大的计算量,而且如果消歧失败的话,还会干扰结果的正确性。
发明内容
为了解决在问题理解阶段需要耗费很大的计算量来消歧的问题,本发明实施例提供了一种自然语言问答方法及装置。所述技术方案如下:
第一方面,提供了一种自然语言问答方法,所述方法包括:
获取自然语言问句N;
将所述自然语言问句N转换为查询语义图Qs,所述查询语义图Qs中的每条边代表所述自然语言问句N中的一个语义关系;
在资源描述框架RDF图G中查找与所述查询语义图Qs匹配的子图;
根据所述子图得到所述自然语言问句N的答案。
可选地,所述将所述自然语言问句N转换为查询语义图Qs,包括:
发现所述自然语言问句N中的关系短语;
发现每个所述关系短语的伴随参数;
构建查询语义图Qs,所述查询语义图Qs中的每条边对应一个所述关系短语,所述查询语义图Qs中的每个顶点对应一个所述伴随参数。
可选地,所述发现所述自然语言问句N中的关系短语,包括:
从所述自然语言问句中分析出句法依赖树Y;
根据预设的关系短语字典,查询所述关系短语字典中存在于所述句法依赖树Y的关系短语;其中,所述关系短语字典中的关系短语存在于所述句法依赖树Y,当且仅当所述句法依赖树Y中存在一个相连子树y满足如下两个条件:
条件1:在所述相连子树y中的每个节点包括所述关系短语的一个词,且所述相连子树y包括所述关系短语的所有词;
条件2:无法在所述句法依赖树Y中找到一个子树y`,所述子树y`也满足所述条件1且所述相连子树y是所述子树y`的子树。
可选地,所述发现每个所述关系短语的伴随参数,包括:
对于每个所述关系短语在所述句法依赖树Y中所对应的所述相连子树y,通过主体类语义关系和客体类语义关系在所述相连子树y中发现所述关系短语的伴随参数;
所述主体类语义关系包括:主语,名词性主语,被动式名词性主语,从句型主语,被动式从句主语,控制性主语,所有格修饰符;
所述客体类语义关系包括:宾语,介词性宾语,直接宾语,间接宾语。
可选地,所述在RDF图G中查找与所述查询语义图Qs匹配的子图,包括:
设所述查询语义图Qs包括n个顶点{v1,…,vn},所述查询语义图Qs中的每条顶点vi对应一个伴随参数,i=1,…,n,获取每个伴随参数所对应的候选列表
所述查询语义图Qs中的每条边vivj对应一个关系短语1≤i≠j≤n,获取每个关系短语所对应的候选列表
根据所述候选列表和候选列表在所述RDF图G中查找与所述查询语义图Qs匹配的子图。
可选地,所述获取每个伴随参数所对应的候选列表包括:
通过实体链接技术获取每个伴随参数argi所对应的候选列表每个伴随参数argi的候选列表包括了所述伴随参数argi到所述RDF图G中的至少一个候选实体或候选类别的映射,每个映射对应有一个置信度且每个候选列表中的各个映射按照置信度由高到低排序。
可选地,所述获取每个关系短语所对应的候选列表包括:
通过预先设置的释义字典获取每个关系短语的候选列表每个关系短语的候选列表包括了所述关系短语到所述RDF图G中的至少一个候选谓词或候选谓词路径的映射,每个映射对应有一个置信度且每个候选列表中的各个映射按照置信度由高到低排序。
可选地,所述根据所述候选列表和候选列表在所述RDF图G中查找与所述查询语义图Qs匹配的子图,包括:
在所述RDF图G中查询包括顶点{u1,…,un}且满足预设条件的子图,所述预设条件包括如下三个条件:
条件1:如果所述vi映射到所述RDF图G中的一个实体ui,i=1,…,n,所述ui必须属于所述候选列表
条件2:如果所述vi映射到所述RDF图G中的一个类别ci,i=1,…,n,所述ui是一个类别为所述ci的实体,且所述ci必须属于所述候选列表
条件3:对于每一个边vivj∈Qs,uiuj∈G或ujui∈G,所述边vivj所对应的谓词或谓词路径Pij映射到所述候选列表中的uiuj或ujui
可选地,所述通过预先设置的释义字典获取每个关系短语的候选列表之前,还包括:
设字典T={rel1,…,reln},1,…,n,其中每个reli是一个所述关系短语,根据每个所述关系短语reli所对应的支持实体集Sup(reli)将所述关系短语reli映射到所述RDF图G中的谓词或谓词路径L;
计算所述关系短语reli映射到每个所述谓词或谓词路径L的置信度;
根据所述置信度查找前k个最大可能的谓词/谓词路径形成在所述RDF图G中的连续谓词边,所述连续谓词边具有与所述关系短语reli相同的语义;
根据所述关系短语reli和所述连续谓词边构建所述释义字典。
可选地,所述计算所述关系短语reli映射到每个所述谓词或谓词路径L的置信度,包括:
对于每个所述关系短语reli,设与所述关系短语reli相应的支持实体集为Sup(reli):
对于所述Sup(reli)中的每一个实体对在所述RDF图G中找到在所述实体对之间的所有的简单路径,表示为
对于谓词或谓词路径L,计算所述L在所述PS(reli)中的tf值的如下:
计算所述L在所述字典T={rel1,…,reln}中的idf值如下:
计算所述L的tf-idf值如下:
tf-idf(L,PS(reli),T)=tf(L,PS(reli))×idf(L,T)
将所述tf-idf值作为所述关系短语reli映射到所述谓词或谓词路径L的置信度。
第二方面,提供了一种自然语言问答装置,所述装置包括:
问句获取模块,用于获取自然语言问句N;
问句转换模块,用于将所述自然语言问句N转换为查询语义图Qs,所述查询语义图Qs中的每条边代表所述自然语言问句N中的一个语义关系;
子图匹配模块,用于在资源描述框架RDF图G中查找与所述查询语义图Qs匹配的子图;
答案生成模块,用于根据所述子图得到所述自然语言问句N的答案。
可选地,所述问句转换模块,包括:
短语发现单元、参数发现单元和语义图构建单元;
所述短语发现单元,用于发现所述自然语言问句N中的关系短语;
所述参数发现单元,用于发现每个所述关系短语的伴随参数;
所述语义图构建单元,用于构建查询语义图Qs,所述查询语义图Qs中的每条边对应一个所述关系短语,所述查询语义图Qs中的每个顶点对应一个所述伴随参数。
可选地,所述短语发现单元,包括:
句法分析子单元,用于从所述自然语言问句中分析出句法依赖树Y;
短语查询子单元,用于根据预设的关系短语字典,查询所述关系短语字典中存在于所述句法依赖树Y的关系短语;其中,所述关系短语字典中的关系短语存在于所述句法依赖树Y,当且仅当所述句法依赖树Y中存在一个相连子树y满足如下两个条件:
条件1:在所述相连子树y中的每个节点包括所述关系短语的一个词,且所述相连子树y包括所述关系短语的所有词;
条件2:无法在所述句法依赖树Y中找到一个子树y`,所述子树y`也满足所述条件1且所述相连子树y是所述子树y`的子树。
可选地,
所述参数发现单元,用于对于每个所述关系短语在所述句法依赖树Y中所对应的所述相连子树y,通过主体类语义关系和客体类语义关系在所述相连子树y中发现所述关系短语的伴随参数;
所述主体类语义关系包括:主语,名词性主语,被动式名词性主语,从句型主语,被动式从句主语,控制性主语,所有格修饰符;
所述客体类语义关系包括:宾语,介词性宾语,直接宾语,间接宾语。
可选地,所述子图匹配模块,包括:
第一列表获取单元,用于设所述查询语义图Qs包括n个顶点{v1,…,vn},所述查询语义图Qs中的每条顶点vi对应一个伴随参数,i=1,…,n,获取每个伴随参数所对应的候选列表
第二列表获取单元,用于所述查询语义图Qs中的每条边vivj对应一个关系短语1≤i≠j≤n,获取每个关系短语所对应的候选列表
子图匹配单元,用于根据所述候选列表和候选列表在所述RDF图G中查找与所述查询语义图Qs匹配的子图。
可选地,所述第一列表获取单元,用于通过实体链接技术获取每个伴随参数argi所对应的候选列表每个伴随参数argi的候选列表包括了所述伴随参数argi到所述RDF图G中的至少一个候选实体或候选类别的映射,每个映射对应有一个置信度且每个候选列表中的各个映射按照置信度由高到低排序。
可选地,所述第二列表获取单元,用于通过预先设置的释义字典获取每个关系短语的候选列表每个关系短语的候选列表包括了所述关系短语到所述RDF图G中的至少一个候选谓词或候选谓词路径的映射,每个映射对应有一个置信度且每个候选列表中的各个映射按照置信度由高到低排序。
可选地,所述子图匹配单元,用于在所述RDF图G中查询包括顶点{u1,…,un}且满足预设条件的子图,所述预设条件包括如下三个条件:
条件1:如果所述vi映射到所述RDF图G中的一个实体ui,i=1,…,n,所述ui必须属于所述候选列表
条件2:如果所述vi映射到所述RDF图G中的一个类别ci,i=1,…,n,所述ui是一个类别为所述ci的实体,且所述ci必须属于所述候选列表
条件3:对于每一个边vivj∈Qs,uiuj∈G或ujui∈G,所述边vivj所对应的谓词或谓词路径Pij映射到所述候选列表中的uiuj或ujui
可选地,所述装置,还包括:
路径映射模块,用于设字典T={rel1,…,reln},1,…,n,其中每个reli是一个所述关系短语,根据每个所述关系短语reli所对应的支持实体集Sup(reli)将所述关系短语reli映射到所述RDF图G中的谓词或谓词路径L;
置信度计算模块,用于计算所述关系短语reli映射到每个所述谓词或谓词路径L的置信度;
路径查找模块,用于根据所述置信度查找前k个最大可能的谓词/谓词路径形成在所述RDF图G中的连续谓词边,所述连续谓词边具有与所述关系短语reli相同的语义;
字典构建模块,用于根据所述关系短语reli和所述连续谓词边构建所述释义字典。
可选地,所述置信度计算模块,包括:
路径查找单元,用于对于每个所述关系短语reli,设与所述关系短语reli相应的支持实体集为Sup(reli):
对于所述Sup(reli)中的每一个实体对在所述RDF图G中找到在所述实体对之间的所有的简单路径,表示为
tf值计算单元,用于对于谓词或谓词路径L,计算所述L在所述PS(reli)中的tf值的如下:
idf值计算单元,用于计算所述L在所述字典T={rel1,…,reln}中的idf值如下:
Tf-idf值计算单元,用于计算所述L的tf-idf值如下:
tf-idf(L,PS(reli),T)=tf(L,PS(reli))×idf(L,T)
将所述tf-idf值作为所述关系短语reli映射到所述谓词或谓词路径L的置信度。
本发明实施例提供的技术方案带来的有益效果是:
通过将自然语言问句N转换为查询语义图Qs,在RDF图G中查找与查询语义图Qs匹配的子图,根据子图得到自然语言问句N的答案;解决了在问题理解阶段需要耗费很大的计算量来消歧的问题;达到了提供了一种全新的自然语言问答机制,将自然语言问句N转换为查询语义图Qs时不需要消歧,消歧过程在查找与查询语义图Qs匹配的子图的过程中自然完成的效果。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是背景技术提供的自然语言问答方法的方法流程图;
图2A是本发明一个实施例提供的自然语言问答方法的方法流程图;
图2B是图2A所示实施例在一个实际应用中的实施示意图;
图3A是本发明另一实施例提供的自然语言问答方法的方法流程图;
图3B至图3E是图3A所示实施例在一个实际应用中的实施示意图;
图4是本发明一个实施例提供的自然语言问答装置的结构示意图;
图5是本发明另一实施例提供的自然语言问答装置的结构示意图;
图6是本发明一个实施例提供的服务器的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。
本发明实施例提供了全新的自然语言问答机制。与背景技术采用SPARQLs查询语句和SPARQLs搜索引擎来获取自然语言问句N的答案不同的是,本发明实施例采用查询语义图Qs和RDF图G来获取自然语言问句N的答案。具体如下:
请参考图2A,其示出了本发明一个实施例提供的自然语言问答方法的方法流程图。该自然语言问答方法应用于服务器中,该方法包括:
步骤202,获取自然语言问句N;
自然语言问句N是用户使用自然语言向问答系统提出的问题。
例如,自然语言问句N为“谁嫁给了一个在费城中出演的演员?”。
步骤204,将自然语言问句N转换为查询语义图Qs,查询语义图Qs中的每条边代表自然语言问句N中的一个语义关系;
自然语言问句N中包括至少一个语义关系,查询语义图Qs用于等价地表示该自然语言问句N中的语义关系。一个语义关系是一个三元组<reli,arg1,arg2>,其中,reli是一个关系短语,arg1和arg2是关系短语的两个伴随参数。一个语义关系表示两个实体之间的关系,或者一个实体的属性值。
查询语义图Qs中的每条边代表自然语言问句N中的一个语义关系。查询语义图Qs中的每条边对应一个语义关系中的关系短语,每条边上的两个顶点分别对应一个伴随参数。
结合参考图2B,自然语言问句N“谁嫁给了那个在费城中出演的演员?”转换后得到的查询语义图Qs包括两个边:第一个边v1v2代表的语义关系为<嫁给了,谁,演员>,其中,“嫁给了”是关系短语,“谁”和“演员”是关系短语“嫁给了”的两个伴随参数;而第二个边v2v3代表的语义关系为<出演,那个,费城>,其中,“出演”是关系短语,“那个”和“费城”是关系短语“出演”的两个伴随参数。由于“演员”和“那个”指的是同一个实体,所以共用同一个顶点,这是目前已经有较多研究的“指代关系消解”问题,对此不再赘述。
步骤206,在RDF图G中查找与查询语义图Qs匹配的子图;
RDF图G是以图来表示的RDF资源库。
例如,在图2B中,假设给出的RDF图G包括了与“费城”、“费城(电影)”、“费城_76人”和“演员”等有关的三元组,如框22中所示。然后服务器通过子图匹配技术,在RDF图G中查找出与查询语义图Qs匹配的子图,如框24中所示。
步骤208,根据该子图得到自然语言问句N的答案。
由于该子图与查询语义图Qs匹配,所以该子图中包括了自然语言问句N的答案。
例如,通过子图24中与查询语义图Qs中的疑问词“谁”相对应的节点u1“梅拉妮·格里菲斯”来得出自然语言问句N的答案26。
综上所述,本实施例提供的自然语言问答方法,通过将自然语言问句N转换为查询语义图Qs,在RDF图G中查找与查询语义图Qs匹配的子图,根据子图得到自然语言问句N的答案;解决了在问题理解阶段需要耗费很大的计算量来消歧的问题;达到了提供了一种全新的自然语言问答机制,将自然语言问句N转换为查询语义图Qs时不需要消歧,消歧过程在查找与查询语义图Qs匹配的子图的过程中自然完成的效果。
请参考图3A,其示出了本发明另一实施例提供的自然语言问答方法的方法流程图。该自然语言问答方法应用于服务器中,该方法包括:
步骤301,获取自然语言问句N;
服务器可以直接获取用户提出的自然语言问句N。或者,服务器获取用户通过终端提出的自然语言问句N。
例如:用户使用手机上的麦克风输入语音形式的自然语言问句N,然后手机将该语音形式的自然语言问句N通过有线网络或者无线网络传输至服务器,服务器将该语音形式的自然语言问句N通过语音识别技术识别为文字形式的自然语言问句N,最终获取到该自然语言问句N。
为了简化描述,本文中将一直以自然语言问句N为“谁嫁给了那个在费城中出演的演员?”来举例说明。(注:实际实验时采用的是英文问句“who was married to an actorthat played in Philadelphia”,本文中部分例子限于句式限制,仍然使用原英文问句来讨论)
步骤302,将自然语言问句N转换为查询语义图Qs
服务器将获取到的自然语言问句N转换为语义等价的查询语义图Qs。查询语义图Qs中的每条边代表自然语言问句N中的一个语义关系。查询语义图Qs中的每条边对应一个语义关系中的关系短语,每条边上的两个顶点分别对应该边上的关系短语的一个伴随参数。
本步骤可以包括如下子步骤,如图3B所示:
302a,发现自然语言问句N中的关系短语;
302b,发现每个关系短语的伴随参数;
302c,构建查询语义图Qs,查询语义图Qs中的每条边对应一个关系短语,查询语义图Qs中的每个顶点对应一个伴随参数。
在子步骤302a中,服务器先从自然语言问句N中分析出句法依赖树Y,然后服务器根据预设的关系短语字典,查询关系短语字典中存在于句法依赖树Y的关系短语。服务器可以通过斯坦福大学提供的句法剖析器来得到自然语言问句N的句法依赖树Y。
其中,关系短语字典中的关系短语存在于句法依赖树Y,当且仅当句法依赖树Y中存在一个相连子树y满足如下两个条件:
条件1:在相连子树y中的每个节点包括关系短语的一个词,且相连子树y包括关系短语的所有词;
条件2:无法在句法依赖树Y中找到一个子树y`,子树y`也满足条件1且相连子树y是子树y`的子树。
换句话说,子步骤302a的任务是:给定一个自然语言问句N的句法依赖树Y和一个关系短语字典T={rel1,…,reln},服务器的目标是找出关系短语字典T中存在于句法依赖树Y的关系短语。
实现子步骤302a的任务的算法基本思想是:
对于Y中的每个节点wi,找到候选模式列表PLi,然后在PLi中检测是否存在一个根为wi的子树包括相同于关系短语的所有词。具体来讲,采用一种深度优先搜索策略,探测根为wi的每条路径,若不存在任何一个关系短语包括词w’和沿节点w’到节点wi的路径上的所有词(w’是wi的一个子节点),则搜索分支将停止在节点w’。本文使用rel[w]表示根为wi的子树上的一个词w’存在于关系短语rel上。
具体算法如下:
参考图3C,以自然语言问句N“who was married to an actor that played inPhiladelphia”为例,服务器通过上述算法,可以从句法分析树Y中找出关系短语“wasmarried to”(嫁给了)和关系短语“played in”(出演)的出现位置。关系短语“was marriedto”(嫁给了)在句法分析树Y中对应包括:“was”节点、“married”节点和“to”节点共3个节点的相连子树;关系短语“played in”(出演)在句法分析树Y中对应包括:“played”节点和“in”节点共2个节点的相连子树。
在子步骤302b中,对于每个关系短语在句法依赖树Y中所对应的相连子树y,通过主体类语义关系和客体类语义关系在相连子树y中发现关系短语的伴随参数;
主体类语义关系包括:主语subj,名词性主语nsubj,被动式名词性主语nsubjpass,从句型主语csubj,被动式从句主语csubjpass,控制性主语xsubj,所有格修饰符poss;
客体类语义关系包括:宾语obj,介词性宾语pobj,直接宾语dobj,间接宾语iobj。
也即,服务器在找到一个关系短语rel的相连子树y后,通过检查相连子树y中每个节点w和它的子节点之间是否存在主体类关系来识别伴随参数arg1。类似地,伴随参数arg2可以通过客体类关系来识别。如果对于一个伴随参数,存在不止一个候选项时,服务器选择与该关系短语rel最近的一个候选项作为该伴随参数。
例如,在图3C中,对于关系短语“was married to”(嫁给了),根据主体类语义关系在“married”节点的子节点中识别出伴随参数“who”(谁),根据客体类语义关系在“to”节点的子节点中识别出伴随参数“actor”(演员)。同理,对于关系短语“played in”(出演),根据主体类语义关系在“played”节点的子节点中识别出伴随参数“that”(那个),根据客体类语义关系在“in”节点的子节点中识别出伴随参数“Philadelphia”(费城)。
另外,如果服务器通过主体类关系和客体类关系没有识别出一个关系短语的伴随参数arg1和arg2,服务器还通过如下的启发式规则识别伴随参数:
规则1:通过一些常用词扩展关系短语的出现位置t,如介词、助词,通过新增加的树节点来识别主体类关系或客体类关系;
规则2:如果t的根节点在Y中的父亲节点存在主体类关系或客体类关系,则添加根节点为arg1;
规则3:如果t的根节点的父亲节点与它的孩子节点存在主体类关系,添加孩子节点为arg1;
规则4:如果arg1和arg2中的一个是空的,添加最近的疑问词或者在t中的第一个名词性短语为arg1或arg2。
如果仍然无法找到伴随参数arg1和arg2,服务器进一步地丢弃该关系短语。
在子步骤302c中,服务器根据从自然语言问句N中识别出的关系短语,以及每个关系短语对应的伴随参数,构建查询语义图Qs,该查询语义图Qs中的每条边对应一个关系短语,查询语义图Qs中的每个顶点对应一个伴随参数。
如果两个伴随参数指代同一实体,则在查询语义图Qs中共用同一个顶点。
至此,服务器完成自然语言问句N至查询语义图Qs的转换。然后,服务器需要找出查询语义图Qs中每个顶点和每条边在RDF图G中的候选项。如下:
步骤303,获取每个伴随参数所对应的候选列表
设查询语义图Qs包括n个顶点{v1,…,vn},查询语义图Qs中的每条顶点vi对应一个伴随参数,i=1,…,n,服务器获取每个伴随参数所对应的候选列表
具体地,服务器通过实体链接技术获取每个伴随参数argi所对应的候选列表每个伴随参数argi的候选列表包括了伴随参数argi到RDF图G中的至少一个候选实体或候选类别的映射,每个映射对应有一个置信度且每个候选列表中的各个映射按照置信度由高到低排序。
例如,结合参考图3D,自然语言问句N“谁嫁给了那个在费城中出演的演员?”所对应的查询语义图Qs包括3个顶点:顶点v1、顶点v2和顶点v3
顶点v1所对应的伴随参数是疑问词“谁”,服务器将RDF图中的所有实体都作为顶点v1的候选列表。
顶点v2所对应的伴随参数是“演员”,服务器将RDF图中的实体“演员”、实体“演员的自我修养”以及实体“安东尼奥班达拉斯”都作为顶点v2的候选列表,并按照置信度排列。其中,实体“安东尼奥班达拉斯”的类别是“演员”。
顶点v3所对应的伴随参数是“费城”,服务器将RDF图中的实体“费城”、实体“费城(电影)”以及实体“费城_76人”都作为顶点v3的候选列表,并按照置信度排列。其中,实体“费城_76人”是一只篮球队的名称。
步骤304,获取每个关系短语所对应的候选列表
查询语义图Qs中的每条边vivj对应一个关系短语1≤i≠j≤n,服务器获取每个关系短语所对应的候选列表
具体地,服务器可以预先构建一个释义字典,该释义字典包括了关系短语到RDF图G中的至少一个候选谓词或候选谓词路径的映射,且每个映射都有自己的一个置信度。
然后,服务器通过该释义字典获取查询语义图Qs中的每个关系短语的候选列表每个关系短语的候选列表包括了关系短语到RDF图G中的至少一个候选谓词或候选谓词路径的映射,每个映射对应有一个置信度且每个候选列表中的各个映射按照置信度由高到低排序。
例如,结合参考图3D,自然语言问句N“谁嫁给了那个在费城中出演的演员?”所对应的查询语义图Qs包括2个边:边v1v2和边v2v3
边v1v2所对应的关系短语是“嫁给了”,服务器将RDF图中的谓词“配偶”作为边v1v2的候选列表。
边v2v3所对应的关系短语是“出演”,服务器将RDF图中的谓词“效力团队”(注:效力和出演在英文中都用play表示)、谓词“主演”和谓词“导演”作为边v2v3的候选列表。
需要说明的是,在步骤303和步骤304中,服务器并不消除歧义,这是与背景技术不同的一点。比如,虽然实体“费城_76人”明显与自然语言问句N无关,但是服务器对该歧义暂不处理。
步骤305,根据候选列表和候选列表在RDF图G中查找与查询语义图Qs匹配的子图。
服务器在RDF图G中查询包括顶点{u1,…,un}且满足预设条件的子图,该预设条件包括如下三个条件:
条件1:如果vi映射到RDF图G中的一个实体ui,i=1,…,n,ui必须属于候选列表
条件2:如果vi映射到RDF图G中的一个类别ci,i=1,…,n,ui是一个类别为ci的实体,且ci必须属于候选列表
条件3:对于每一个边vivj∈Qs,uiuj∈G或ujui∈G,边vivj所对应的谓词或谓词路径Pij映射到候选列表中的uiuj或ujui
服务器可以通过top-k算法来在RDF图G中查询与查询语义图Qs匹配的子图。top-k算法可以找出前K个最大可能的匹配子图,每个匹配子图都有一个得分,该得分来源于该匹配子图中每条边和每个顶点上的置信概率。定义该分数如下:
设一个查询语义图Qs有n个顶点{v1,...,vn},在RDF图G中包含n个顶点{u1,...,un}的子图是Qs的一个匹配,则匹配评分如下:
其中,argi是顶点vi的伴随参数,ui是在RDF图G中的一个实体或者一个类,是边vivj的关系短语,Pij是边uiuj或ujui上的谓词。
服务器还可以根据如下启发式方法优化上述top-k算法的搜索空间:
第一种剪枝方法是尽可能减少每个候选列表列表中的候选项,如果一个属于的顶点ui不可能属于与查询语义图Qs匹配的任一子图,则服务器直接过滤该顶点。
第二种方法是尽可能早地通过top-k匹配分数阈值来结束搜索过程。
基本思想是:为每个每个候选列表设置一个浮标。对于查询语义图Qs中的每个顶点vi,设置pi指向候选列表对于查询语义图Qs中的每个边vivj,设置pij指向候选列表
为了方便表述,我们用pi表示由指针pi所指向的RDF图G中的节点。开始时,所有的指针都是指向候选列表的投。对每个节点pi,调用任何一种子图同构算法,例如VF2算法,找到包括节点pi的查询语义图的子图匹配。在这个过程中,采用一一轮流的方式考虑pi指针所对应的节点,i=1,…,|V(Qs)|。根据新找到的子图匹配,我们更新目前阈值θ。另外,对于未被发现的子图匹配,我们可以根据下面的公式计算它们匹配得分的上限值Upperbound。
如果θ>upperbound,意味着所有未被发现的子图匹配,它们的得分值不可能超过目前已经发现的子图匹配得分。也就是说,服务器已经知道了top-k匹配。因此,服务器可以终结算法运行。否则,服务器把所有的指针在所对应的队列中向前走一步,重复以上的操作。
服务器采用的top-k算法可以如下:
例如,在图3E中,服务器可以在RDF图G中找到包括顶点U1、U2、U3和C1的子图是查询语义图Qs的一个匹配结果。在Qs中的顶点v3“费城”被映射到一个实体U3<费城>;顶点V2“演员”被映射到一个实体U2<安东尼奥班德拉斯>,该实体U2<安东尼奥班德拉斯>的类别是<演员>;顶点V1“谁”被映射到一个实体U1<梅拉尼格里菲斯>,此外,两个关系短语:“嫁给了”和“出演”在Qs中的所在边被映射到了谓词<配偶>和<主演>分别所在的边。
步骤306,根据该子图得到自然语言问句N的答案。
由于该子图与查询语义图Qs匹配,所以该子图中包括了自然语言问句N的答案。
通常来讲,服务器通过子图中与查询语义图Qs中的疑问词相对应的节点来得出自然语言问句N的答案。
显然,实体U1<梅拉尼格里菲斯>是自然语言问句N的一个答案。需要注意的是,虽然在步骤303和步骤304中,服务器并未进行歧义消除,但由于如果查询语义图Qs的一个顶点到一个实体的映射是存在歧义的,事实上在子图匹配过程中并不会查找到包含该歧义实体的匹配子图。也即,在查找到的与查询语义图Qs匹配的子图中并不会包含存在歧义的实体,所以消除歧义这个过程在子图匹配过程中自然而然地完成了,并不需要服务器单独进行消歧。
综上所述,本实施例提供的自然语言问答方法,通过将自然语言问句N转换为查询语义图Qs,在RDF图G中查找与查询语义图Qs匹配的子图,根据子图得到自然语言问句N的答案;解决了在问题理解阶段需要耗费很大的计算量来消歧的问题;达到了提供了一种全新的自然语言问答机制,将自然语言问句N转换为查询语义图Qs时不需要消歧,消歧过程在查找与查询语义图Qs匹配的子图的过程中自然完成的效果。
本实施例提供的自然语言问答方法,还通过提供四条启发式规则来查找伴随参数,提高了伴随参数的查找成功率,提高了自然语言问句N的理解准确率。
本实施例提供的自然语言问答方法,还通过提供两种优化方法来优化服务器在子图匹配时的搜索空间,提高了子图匹配的搜索效率。
需要补充说明的是,在上述实施例中,服务器还需要事先构建释义字典。
也即,服务器通过预先设置的释义字典获取每个关系短语的候选列表之前,还包括:
1、设字典T={rel1,…,reln},1,…,n,其中每个reli是一个关系短语,根据每个关系短语reli所对应的支持实体集Sup(reli)将关系短语reli映射到RDF图G中的谓词或谓词路径L。
其中,关系短语的支持实体集可以通过现有的Patty和ReVerb系统提供。这些支持实体集是很多NLP(Neuro-Linguistic Programming,神经语言程序学)语义关系提取的已有研究成果。
其中,谓词路径是指由至少两个连续的简单路径所构成的谓词边。比如,A指向B的谓词是“父亲”,B指向C之间的谓词是“父亲”,那么A指向C的两个简单路径构成的谓词边代表了谓词“爷爷”。目前的技术在挖掘关系短语至谓词的映射时,只考虑简单路径,但是鉴于很多关系短语无法解释成单一谓词,本实施例中创新地提出了采用连续的谓词边来解释诸如“爷爷”、“叔叔”之类的复杂谓词。
但是,由于发明人在分析连续的谓词边时,发现会引入很多噪声。也即,对于某一个复杂谓词,分析出的很多符合特征的连续谓词边与该复杂谓词的实际含义并不相同,发明人还提出了使用tf-idf来提取挖掘关系短语至谓词的映射的办法。具体如下:
2、计算关系短语reli映射到每个谓词或谓词路径L的置信度;
对于每个关系短语reli,设与关系短语reli相应的支持实体集为Sup(reli):
对于Sup(reli)中的每一个实体对在所述RDF图G中找到在所述实体对之间的所有的简单路径,表示为P
对于谓词或谓词路径L,计算L在PS(reli)中的tf值的如下:
计算L在字典T={rel1,…,reln}中的idf值如下:
计算L的tf-idf值如下:
tf-idf(L,PS(reli),T)=tf(L,PS(reli))×idf(L,T)
将tf-idf值作为关系短语reli映射到谓词或谓词路径L的置信度。
3、根据置信度查找前k个最大可能的谓词/谓词路径形成在RDF图G中的连续谓词边,该连续谓词边具有与关系短语reli相同的语义;
4、根据关系短语reli和具有相同语义的连续谓词边构建释义字典。
该部分对应的算法如下:
综上所述,本实施例提供的自然语言问答方法,不仅通过连续谓词边来描述一些复杂的关系短语,还提出了使用tf-idf来构建释义字典的方法,有效提高了获取关系短语的候选列表时的效率和准确率。
QALD是基于RDF的问答系统的唯一测试基准。发明人使用QLAD-3测试集对上述自然语言问答方法进行了测试,发现上述自然语言问答方法可以正确回答测试集中共99个问题中的32个问题,而目前最先进的非自然语言问答系统squall2sparql可以回答77个问题,但该系统是非自然语言问答,需要用户严格指定出问题中的实体和谓词,所以squall2sparql与本文中的自然语言问答系统不具有可比性。目前第二先进的casia是一个自然语言问答系统,可以回答测试集中共99个问题中的30个问题,显然,本文提出的自然语言问答系统是在准确率上是世界领先的。同时在运行时间上,本文提出的自然语言问答系统相对于casia也具有跨数量级的优势,比如,对于QLAD-3测试集中的第81个问题,casia需要花费418秒来将自然语言问句转换为SPARQLs查询语句,而本文提出的自然语言问答系统只需要花费不到1秒的时间就可以找出第81个问题的答案。
请参考图4,其示出了本发明一个实施例提供的自然语言问答装置的结构方框图。该自然语言问答装置可以通过软件、硬件或者两者的结合实现成为服务器的全部或者一部分。该装置包括:问句获取模块420、问句转换模块440、子图匹配模块460和答案生成模块480。
问句获取模块420,用于获取自然语言问句N;
问句转换模块440,用于将所述自然语言问句N转换为查询语义图Qs,所述查询语义图Qs中的每条边代表所述自然语言问句N中的一个语义关系;
子图匹配模块460,用于在资源描述框架RDF图G中查找与所述查询语义图Qs匹配的子图;
答案生成模块480,用于根据所述子图得到所述自然语言问句N的答案。
综上所述,本实施例提供的自然语言问答装置,通过将自然语言问句N转换为查询语义图Qs,在RDF图G中查找与查询语义图Qs匹配的子图,根据子图得到自然语言问句N的答案;解决了在问题理解阶段需要耗费很大的计算量来消歧的问题;达到了提供了一种全新的自然语言问答机制,将自然语言问句N转换为查询语义图Qs时不需要消歧,消歧过程在查找与查询语义图Qs匹配的子图的过程中自然完成的效果。
请参考图5,其示出了本发明另一实施例提供的自然语言问答装置的结构方框图。该自然语言问答装置可以通过软件、硬件或者两者的结合实现成为服务器的全部或者一部分。该装置包括:问句获取模块420、问句转换模块440、子图匹配模块460和答案生成模块480。
问句获取模块420,用于获取自然语言问句N;
问句转换模块440,用于将所述自然语言问句N转换为查询语义图Qs,所述查询语义图Qs中的每条边代表所述自然语言问句N中的一个语义关系;
子图匹配模块460,用于在资源描述框架RDF图G中查找与所述查询语义图Qs匹配的子图;
答案生成模块480,用于根据所述子图得到所述自然语言问句N的答案。
可选地,所述问句转换模块440,包括:短语发现单元442、参数发现单元444和语义图构建单元446;
所述短语发现单元442,用于发现所述自然语言问句N中的关系短语;
所述参数发现单元444,用于发现每个所述关系短语的伴随参数;
所述语义图构建单元446,用于构建查询语义图Qs,所述查询语义图Qs中的每条边对应一个所述关系短语,所述查询语义图Qs中的每个顶点对应一个所述伴随参数。
可选地,所述短语发现单元442,包括:
句法分析子单元,用于从所述自然语言问句中分析出句法依赖树Y;
短语查询子单元,用于根据预设的关系短语字典,查询所述关系短语字典中存在于所述句法依赖树Y的关系短语;其中,所述关系短语字典中的关系短语存在于所述句法依赖树Y,当且仅当所述句法依赖树Y中存在一个相连子树y满足如下两个条件:
条件1:在所述相连子树y中的每个节点包括所述关系短语的一个词,且所述相连子树y包括所述关系短语的所有词;
条件2:无法在所述句法依赖树Y中找到一个子树y`,所述子树y`也满足所述条件1且所述相连子树y是所述子树y`的子树。
可选地,所述参数发现单元444,用于对于每个所述关系短语在所述句法依赖树Y中所对应的所述相连子树y,通过主体类语义关系和客体类语义关系在所述相连子树y中发现所述关系短语的伴随参数;
所述主体类语义关系包括:主语,名词性主语,被动式名词性主语,从句型主语,被动式从句主语,控制性主语,所有格修饰符;
所述客体类语义关系包括:宾语,介词性宾语,直接宾语,间接宾语。
可选地,所述子图匹配模块460,包括:
第一列表获取单元462,用于设所述查询语义图Qs包括n个顶点{v1,…,vn},所述查询语义图Qs中的每条顶点vi对应一个伴随参数,i=1,…,n,获取每个伴随参数所对应的候选列表
第二列表获取单元464,用于所述查询语义图Qs中的每条边vivj对应一个关系短语1≤i≠j≤n,获取每个关系短语所对应的候选列表
子图匹配单元466,用于根据所述候选列表和候选列表在所述RDF图G中查找与所述查询语义图Qs匹配的子图。
可选地,所述第一列表获取单元462,用于通过实体链接技术获取每个伴随参数argi所对应的候选列表每个伴随参数argi的候选列表包括了所述伴随参数argi到所述RDF图G中的至少一个候选实体或候选类别的映射,每个映射对应有一个置信度且每个候选列表中的各个映射按照置信度由高到低排序。
可选地,所述第二列表获取单元464,用于通过预先设置的释义字典获取每个关系短语的候选列表每个关系短语的候选列表包括了所述关系短语到所述RDF图G中的至少一个候选谓词或候选谓词路径的映射,每个映射对应有一个置信度且每个候选列表中的各个映射按照置信度由高到低排序。
可选地,所述子图匹配单元466,用于在所述RDF图G中查询包括顶点{u1,…,un}且满足预设条件的子图,所述预设条件包括如下三个条件:
条件1:如果所述vi映射到所述RDF图G中的一个实体ui,i=1,…,n,所述ui必须属于所述候选列表
条件2:如果所述vi映射到所述RDF图G中的一个类别ci,i=1,…,n,所述ui是一个类别为所述ci的实体,且所述ci必须属于所述候选列表
条件3:对于每一个边vivj∈Qs,uiuj∈G或ujui∈G,所述边vivj所对应的谓词或谓词路径Pij映射到所述候选列表中的uiuj或ujui
可选地,所述装置,还包括:
路径映射模块492,用于设字典T={rel1,…,reln},1,…,n,其中每个reli是一个所述关系短语,根据每个所述关系短语reli所对应的支持实体集Sup(reli)将所述关系短语reli映射到所述RDF图G中的谓词或谓词路径L;
置信度计算模块494,用于计算所述关系短语reli映射到每个所述谓词或谓词路径L的置信度;
路径查找模块496,用于根据所述置信度查找前k个最大可能的谓词/谓词路径形成在所述RDF图G中的连续谓词边,所述连续谓词边具有与所述关系短语reli相同的语义;
字典构建模块498,用于根据所述关系短语reli和所述连续谓词边构建所述释义字典。
可选地,所述置信度计算模块494,包括:
路径查找单元,用于对于每个所述关系短语reli,设与所述关系短语reli相应的支持实体集为Sup(reli):
对于所述Sup(reli)中的每一个实体对在所述RDF图G中找到在所述实体对之间的所有的简单路径,表示为
tf值计算单元,用于对于谓词或谓词路径L,计算所述L在所述PS(reli)中的tf值的如下:
idf值计算单元,用于计算所述L在所述字典T={rel1,…,reln}中的idf值如下:
Tf-idf值计算单元,用于计算所述L的tf-idf值如下:
tf-idf(L,PS(reli),T)=tf(L,PS(reli))×idf(L,T)
将所述tf-idf值作为所述关系短语reli映射到所述谓词或谓词路径L的置信度。
需要说明的是:上述实施例提供的服务器在进行自然语言问答时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将终端或服务器的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的自然语言问答装置与对应的自然语言问答方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
请参考图6,其示出了本发明一个实施例提供的服务器的结构示意图。所述服务器600包括中央处理单元(CPU)601、包括随机存取存储器(RAM)602和只读存储器(ROM)603的系统存储器604,以及连接系统存储器604和中央处理单元601的系统总线605。所述服务器600还包括帮助计算机内的各个器件之间传输信息的基本输入/输出系统(I/O系统)606,和用于存储操作系统613、应用程序614和其他程序模块615的大容量存储设备607。
所述基本输入/输出系统606包括有用于显示信息的显示器608和用于用户输入信息的诸如鼠标、键盘之类的输入设备609。其中所述显示器608和输入设备609都通过连接到系统总线605的输入输出控制器610连接到中央处理单元601。所述基本输入/输出系统606还可以包括输入输出控制器610以用于接收和处理来自键盘、鼠标、或电子触控笔等多个其他设备的输入。类似地,输入输出控制器610还提供输出到显示屏、打印机或其他类型的输出设备。
所述大容量存储设备607通过连接到系统总线605的大容量存储控制器(未示出)连接到中央处理单元601。所述大容量存储设备607及其相关联的计算机可读介质为锁功能服务器或验证服务器600提供非易失性存储。也就是说,所述大容量存储设备607可以包括诸如硬盘或者CD-ROM驱动器之类的计算机可读介质(未示出)。
不失一般性,所述计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括RAM、ROM、EPROM、EEPROM、闪存或其他固态存储其技术,CD-ROM、DVD或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然,本领域技术人员可知所述计算机存储介质不局限于上述几种。上述的系统存储器604和大容量存储设备607可以统称为存储器。
根据本发明的各种实施例,所述服务器600还可以通过诸如因特网等网络连接到网络上的远程计算机运行。也即服务器600可以通过连接在所述系统总线605上的网络接口单元611连接到网络612,或者说,也可以使用网络接口单元611来连接到其他类型的网络或远程计算机系统(未示出)。
所述存储器还包括一个或者一个以上的程序,所述一个或者一个以上程序存储于存储器中,所述一个或者一个以上程序包含用于进行本发明实施例提供的自然语言问答方法的指令。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (18)

1.一种自然语言问答方法,其特征在于,所述方法包括:
获取自然语言问句N;
将所述自然语言问句N转换为查询语义图Qs,所述查询语义图Qs中的每条边代表所述自然语言问句N中的一个语义关系;
设所述查询语义图Qs包括n个顶点{v1,…,vn},所述查询语义图Qs中的每条顶点vi对应一个伴随参数,i=1,…,n,获取每个伴随参数所对应的候选列表
所述查询语义图Qs中的每条边vivj对应一个关系短语1≤i≠j≤n,获取每个关系短语所对应的候选列表
根据所述候选列表和候选列表在资源描述框架RDF图G中查找与所述查询语义图Qs匹配的子图;
根据所述子图得到所述自然语言问句N的答案。
2.根据权利要求1所述的方法,其特征在于,所述将所述自然语言问句N转换为查询语义图Qs,包括:
发现所述自然语言问句N中的关系短语;
发现每个所述关系短语的伴随参数;
构建查询语义图Qs,所述查询语义图Qs中的每条边对应一个所述关系短语,所述查询语义图Qs中的每个顶点对应一个所述伴随参数。
3.根据权利要求2所述的方法,其特征在于,所述发现所述自然语言问句N中的关系短语,包括:
从所述自然语言问句中分析出句法依赖树Y;
根据预设的关系短语字典,查询所述关系短语字典中存在于所述句法依赖树Y的关系短语;其中,所述关系短语字典中的关系短语存在于所述句法依赖树Y,当且仅当所述句法依赖树Y中存在一个相连子树y满足如下两个条件:
条件1:在所述相连子树y中的每个节点包括所述关系短语的一个词,且所述相连子树y包括所述关系短语的所有词;
条件2:无法在所述句法依赖树Y中找到一个子树y`,所述子树y`也满足所述条件1且所述相连子树y是所述子树y`的子树。
4.根据权利要求3所述的方法,其特征在于,所述发现每个所述关系短语的伴随参数,包括:
对于每个所述关系短语在所述句法依赖树Y中所对应的所述相连子树y,通过主体类语义关系和客体类语义关系在所述相连子树y中发现所述关系短语的伴随参数;
所述主体类语义关系包括:主语,名词性主语,被动式名词性主语,从句型主语,被动式从句主语,控制性主语,所有格修饰符;
所述客体类语义关系包括:宾语,介词性宾语,直接宾语,间接宾语。
5.根据权利要求1所述的方法,其特征在于,所述获取每个伴随参数所对应的候选列表包括:
通过实体链接技术获取每个伴随参数argi所对应的候选列表每个伴随参数argi的候选列表包括了所述伴随参数argi到所述RDF图G中的至少一个候选实体或候选类别的映射,每个映射对应有一个置信度且每个候选列表中的各个映射按照置信度由高到低排序。
6.根据权利要求1所述的方法,其特征在于,所述获取每个关系短语所对应的候选列表包括:
通过预先设置的释义字典获取每个关系短语的候选列表每个关系短语的候选列表包括了所述关系短语到所述RDF图G中的至少一个候选谓词或候选谓词路径的映射,每个映射对应有一个置信度且每个候选列表中的各个映射按照置信度由高到低排序。
7.根据权利要求1、5至6任一所述的方法,其特征在于,所述根据所述候选列表和候选列表在所述RDF图G中查找与所述查询语义图Qs匹配的子图,包括:
在所述RDF图G中查询包括顶点{u1,…,un}且满足预设条件的子图,所述预设条件包括如下三个条件:
条件1:如果所述vi映射到所述RDF图G中的一个实体ui,i=1,…,n,所述ui必须属于所述候选列表
条件2:如果所述vi映射到所述RDF图G中的一个类别ci,i=1,…,n,所述ui是一个类别为所述ci的实体,且所述ci必须属于所述候选列表
条件3:对于每一个边vivj∈Qs,uiuj∈G或ujui∈G,所述边vivj所对应的谓词或谓词路径Pij映射到所述候选列表中的uiuj或ujui
8.根据权利要求6所述的方法,其特征在于,所述通过预先设置的释义字典获取每个关系短语的候选列表之前,还包括:
设字典T={rel1,…,reln},1,…,n,其中每个reli是一个所述关系短语,根据每个所述关系短语reli所对应的支持实体集Sup(reli)将所述关系短语reli映射到所述RDF图G中的谓词或谓词路径L;
计算所述关系短语reli映射到每个所述谓词或谓词路径L的置信度;
根据所述置信度查找前k个最大可能的谓词/谓词路径形成在所述RDF图G中的连续谓词边,所述连续谓词边具有与所述关系短语reli相同的语义;
根据所述关系短语reli和所述连续谓词边构建所述释义字典。
9.根据权利要求8所述的方法,其特征在于,所述计算所述关系短语reli映射到每个所述谓词或谓词路径L的置信度,包括:
对于每个所述关系短语reli,设与所述关系短语reli相应的支持实体集为Sup(reli):
对于所述Sup(reli)中的每一个实体对在所述RDF图G中找到在所述实体对之间的所有的简单路径,表示为
对于谓词或谓词路径L,计算所述L在所述PS(reli)中的tf值的如下:
计算所述L在所述字典T={rel1,…,reln}中的idf值如下:
计算所述L的tf-idf值如下:
tf-idf(L,PS(reli),T)=tf(L,PS(reli))×idf(L,T)
将所述tf-idf值作为所述关系短语reli映射到所述谓词或谓词路径L的置信度。
10.一种自然语言问答装置,其特征在于,所述装置包括:
问句获取模块,用于获取自然语言问句N;
问句转换模块,用于将所述自然语言问句N转换为查询语义图Qs,所述查询语义图Qs中的每条边代表所述自然语言问句N中的一个语义关系;
子图匹配模块,包括:
第一列表获取单元,用于设所述查询语义图Qs包括n个顶点{v1,…,vn},所述查询语义图Qs中的每条顶点vi对应一个伴随参数,i=1,…,n,获取每个伴随参数所对应的候选列表
第二列表获取单元,用于所述查询语义图Qs中的每条边vivj对应一个关系短语1≤i≠j≤n,获取每个关系短语所对应的候选列表
子图匹配单元,用于根据所述候选列表和候选列表在资源描述框架RDF图G中查找与所述查询语义图Qs匹配的子图;
答案生成模块,用于根据所述子图得到所述自然语言问句N的答案。
11.根据权利要求10所述的装置,其特征在于,所述问句转换模块,包括:
短语发现单元、参数发现单元和语义图构建单元;
所述短语发现单元,用于发现所述自然语言问句N中的关系短语;
所述参数发现单元,用于发现每个所述关系短语的伴随参数;
所述语义图构建单元,用于构建查询语义图Qs,所述查询语义图Qs中的每条边对应一个所述关系短语,所述查询语义图Qs中的每个顶点对应一个所述伴随参数。
12.根据权利要求11所述的装置,其特征在于,所述短语发现单元,包括:
句法分析子单元,用于从所述自然语言问句中分析出句法依赖树Y;
短语查询子单元,用于根据预设的关系短语字典,查询所述关系短语字典中存在于所述句法依赖树Y的关系短语;其中,所述关系短语字典中的关系短语存在于所述句法依赖树Y,当且仅当所述句法依赖树Y中存在一个相连子树y满足如下两个条件:
条件1:在所述相连子树y中的每个节点包括所述关系短语的一个词,且所述相连子树y包括所述关系短语的所有词;
条件2:无法在所述句法依赖树Y中找到一个子树y`,所述子树y`也满足所述条件1且所述相连子树y是所述子树y`的子树。
13.根据权利要求12所述的装置,其特征在于,
所述参数发现单元,用于对于每个所述关系短语在所述句法依赖树Y中所对应的所述相连子树y,通过主体类语义关系和客体类语义关系在所述相连子树y中发现所述关系短语的伴随参数;
所述主体类语义关系包括:主语,名词性主语,被动式名词性主语,从句型主语,被动式从句主语,控制性主语,所有格修饰符;
所述客体类语义关系包括:宾语,介词性宾语,直接宾语,间接宾语。
14.根据权利要求10所述的装置,其特征在于,
所述第一列表获取单元,用于通过实体链接技术获取每个伴随参数argi所对应的候选列表每个伴随参数argi的候选列表包括了所述伴随参数argi到所述RDF图G中的至少一个候选实体或候选类别的映射,每个映射对应有一个置信度且每个候选列表中的各个映射按照置信度由高到低排序。
15.根据权利要求10所述的装置,其特征在于,
所述第二列表获取单元,用于通过预先设置的释义字典获取每个关系短语的候选列表每个关系短语的候选列表包括了所述关系短语到所述RDF图G中的至少一个候选谓词或候选谓词路径的映射,每个映射对应有一个置信度且每个候选列表中的各个映射按照置信度由高到低排序。
16.根据权利要求10、14至15任一所述的装置,其特征在于,
所述子图匹配单元,用于在所述RDF图G中查询包括顶点{u1,…,un}且满足预设条件的子图,所述预设条件包括如下三个条件:
条件1:如果所述vi映射到所述RDF图G中的一个实体ui,i=1,…,n,所述ui必须属于所述候选列表
条件2:如果所述vi映射到所述RDF图G中的一个类别ci,i=1,…,n,所述ui是一个类别为所述ci的实体,且所述ci必须属于所述候选列表
条件3:对于每一个边vivj∈Qs,uiuj∈G或ujui∈G,所述边vivj所对应的谓词或谓词路径Pij映射到所述候选列表中的uiuj或ujui
17.根据权利要求15所述的装置,其特征在于,所述装置,还包括:
路径映射模块,用于设字典T={rel1,…,reln},1,…,n,其中每个reli是一个所述关系短语,根据每个所述关系短语reli所对应的支持实体集Sup(reli)将所述关系短语reli映射到所述RDF图G中的谓词或谓词路径L;
置信度计算模块,用于计算所述关系短语reli映射到每个所述谓词或谓词路径L的置信度;
路径查找模块,用于根据所述置信度查找前k个最大可能的谓词/谓词路径形成在所述RDF图G中的连续谓词边,所述连续谓词边具有与所述关系短语reli相同的语义;
字典构建模块,用于根据所述关系短语reli和所述连续谓词边构建所述释义字典。
18.根据权利要求17所述的装置,其特征在于,所述置信度计算模块,包括:
路径查找单元,用于对于每个所述关系短语reli,设与所述关系短语reli相应的支持实体集为Sup(reli):
对于所述Sup(reli)中的每一个实体对在所述RDF图G中找到在所述实体对之间的所有的简单路径,表示为
tf值计算单元,用于对于谓词或谓词路径L,计算所述L在所述PS(reli)中的tf值的如下:
idf值计算单元,用于计算所述L在所述字典T={rel1,…,reln}中的idf值如下:
Tf-idf值计算单元,用于计算所述L的tf-idf值如下:
tf-idf(L,PS(reli),T)=tf(L,PS(reli))×idf(L,T)
将所述tf-idf值作为所述关系短语reli映射到所述谓词或谓词路径L的置信度。
CN201410085902.XA 2014-03-10 2014-03-10 自然语言问答方法及装置 Active CN104915340B (zh)

Priority Applications (5)

Application Number Priority Date Filing Date Title
CN201410085902.XA CN104915340B (zh) 2014-03-10 2014-03-10 自然语言问答方法及装置
EP15761024.7A EP3117345A4 (en) 2014-03-10 2015-03-09 Natural language question answering method and apparatus
US15/109,698 US10210245B2 (en) 2014-03-10 2015-03-09 Natural language question answering method and apparatus
PCT/CN2015/073884 WO2015135455A1 (en) 2014-03-10 2015-03-09 Natural language question answering method and apparatus
US16/231,736 US10956464B2 (en) 2014-03-10 2018-12-24 Natural language question answering method and apparatus

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410085902.XA CN104915340B (zh) 2014-03-10 2014-03-10 自然语言问答方法及装置

Publications (2)

Publication Number Publication Date
CN104915340A CN104915340A (zh) 2015-09-16
CN104915340B true CN104915340B (zh) 2019-09-10

Family

ID=54070930

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410085902.XA Active CN104915340B (zh) 2014-03-10 2014-03-10 自然语言问答方法及装置

Country Status (4)

Country Link
US (2) US10210245B2 (zh)
EP (1) EP3117345A4 (zh)
CN (1) CN104915340B (zh)
WO (1) WO2015135455A1 (zh)

Families Citing this family (44)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11138205B1 (en) 2014-12-22 2021-10-05 Soundhound, Inc. Framework for identifying distinct questions in a composite natural language query
JP2016192121A (ja) * 2015-03-31 2016-11-10 ソニー株式会社 制御装置、制御方法及びコンピュータプログラム
US10831771B2 (en) * 2015-07-06 2020-11-10 Sap Se Interactive exploration of large graphs
CN106776649B (zh) * 2015-11-24 2020-02-14 中科国力(镇江)智能技术有限公司 一种基于可视化流程图的智能问答多轮交互方法和系统
US10394956B2 (en) * 2015-12-31 2019-08-27 Shanghai Xiaoi Robot Technology Co., Ltd. Methods, devices, and systems for constructing intelligent knowledge base
US10218724B2 (en) * 2016-02-04 2019-02-26 Adobe Inc. Monitoring social media for breach of organizational privacy
CN105912527A (zh) * 2016-04-19 2016-08-31 北京高地信息技术有限公司 根据自然语言输出答案的方法、装置及系统
CN107967285A (zh) * 2016-10-20 2018-04-27 富士通株式会社 数据处理方法和数据处理装置
JP6310532B1 (ja) * 2016-11-24 2018-04-11 ヤフー株式会社 生成装置、生成方法、及び生成プログラム
CN106844512B (zh) * 2016-12-28 2020-06-19 竹间智能科技(上海)有限公司 智能问答方法及系统
US20180203856A1 (en) 2017-01-17 2018-07-19 International Business Machines Corporation Enhancing performance of structured lookups using set operations
CN107145512B (zh) * 2017-03-31 2019-10-18 北京大学 数据查询的方法和装置
CN107193882B (zh) * 2017-04-27 2020-11-20 东南大学 RDF数据上基于图匹配的why-not查询回答方法
US10528523B2 (en) * 2017-05-31 2020-01-07 International Business Machines Corporation Validation of search query in data analysis system
CN107341252B (zh) * 2017-07-10 2018-08-17 北京神州泰岳软件股份有限公司 一种挖掘规则关联模型未知关联关系的方法及装置
CN107451240B (zh) * 2017-07-26 2019-12-13 北京大学 一种基于交互的知识图谱问答q/a系统检索提升方法和装置
CN107748757B (zh) * 2017-09-21 2021-05-07 北京航空航天大学 一种基于知识图谱的问答方法
US11055354B2 (en) * 2017-11-03 2021-07-06 Salesforce.Com, Inc. Omni-platform question answering system
JP7065368B2 (ja) * 2017-11-17 2022-05-12 パナソニックIpマネジメント株式会社 情報処理方法および情報処理システム
CN110019710A (zh) * 2017-11-27 2019-07-16 厦门快商通信息技术有限公司 一种主题森林式人机对话方法及系统
CN110020014B (zh) * 2017-12-15 2021-11-12 上海智臻智能网络科技股份有限公司 多轮问答装置
US10803059B2 (en) * 2018-01-30 2020-10-13 Verizon Patent And Licensing Inc. Searching using query graphs
CN108388642B (zh) * 2018-02-27 2020-08-18 中南民族大学 一种子图查询方法、装置及计算机可读存储介质
US10740541B2 (en) * 2018-05-24 2020-08-11 Microsoft Technology Licensing, Llc Fact validation in document editors
KR102060486B1 (ko) * 2018-07-12 2019-12-30 주식회사 아카인텔리전스 시맨틱 그래프 데이터베이스 기반의 챗봇 발언 생성 방법
US11132390B2 (en) * 2019-01-15 2021-09-28 International Business Machines Corporation Efficient resolution of type-coercion queries in a question answer system using disjunctive sub-lexical answer types
US10387575B1 (en) * 2019-01-30 2019-08-20 Babylon Partners Limited Semantic graph traversal for recognition of inferred clauses within natural language inputs
US11625426B2 (en) 2019-02-05 2023-04-11 Microstrategy Incorporated Incorporating opinion information with semantic graph data
US11829417B2 (en) 2019-02-05 2023-11-28 Microstrategy Incorporated Context-based customization using semantic graph data
CN109947914B (zh) * 2019-02-21 2023-08-18 扬州大学 一种基于模板的软件缺陷自动问答方法
CN109933660B (zh) * 2019-03-25 2019-11-12 广东石油化工学院 面向自然语言形式基于讲义和网站的api信息检索方法
US10902203B2 (en) * 2019-04-23 2021-01-26 Oracle International Corporation Named entity disambiguation using entity distance in a knowledge graph
CN110222194B (zh) * 2019-05-21 2022-10-04 深圳壹账通智能科技有限公司 基于自然语言处理的数据图表生成方法和相关装置
CN110852067A (zh) * 2019-10-10 2020-02-28 杭州量之智能科技有限公司 一种基于svm的非实体词依赖关系提取的问句解析方法
US11436489B2 (en) * 2019-11-25 2022-09-06 Intuit Inc. Combining statistical methods with a knowledge graph
CN111259653B (zh) * 2020-01-15 2022-06-24 重庆邮电大学 基于实体关系消歧的知识图谱问答方法、系统以及终端
CN111368048A (zh) * 2020-02-26 2020-07-03 京东方科技集团股份有限公司 信息获取方法、装置、电子设备及计算机可读存储介质
WO2021184311A1 (zh) * 2020-03-19 2021-09-23 中山大学 一种自动生成可推理问答的方法和装置
CN111488441B (zh) * 2020-04-08 2023-08-01 北京百度网讯科技有限公司 问题解析方法、装置、知识图谱问答系统和电子设备
CN112100358A (zh) * 2020-09-27 2020-12-18 四川长虹电器股份有限公司 一种基于匹配算法的视觉问答方法及系统
US11868716B2 (en) 2021-08-31 2024-01-09 International Business Machines Corporation Knowledge base question answering
CN113282729A (zh) * 2021-06-07 2021-08-20 北京金山数字娱乐科技有限公司 基于知识图谱的问答方法及装置
CN114385827A (zh) * 2021-12-29 2022-04-22 上海云思智慧信息技术有限公司 面向会议知识图谱的检索方法
CN115098618A (zh) * 2022-01-19 2022-09-23 支付宝(杭州)信息技术有限公司 基于自然语言数据进行查询、数据更新的方法及装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102722542A (zh) * 2012-05-23 2012-10-10 无锡成电科大科技发展有限公司 一种资源描述框架图模式匹配方法
CN101339551B (zh) * 2007-07-05 2013-01-30 日电(中国)有限公司 自然语言查询需求扩展设备及其方法
CN102262634B (zh) * 2010-05-24 2013-05-29 北京大学深圳研究生院 一种自动问答方法及系统

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110078166A1 (en) * 2009-09-29 2011-03-31 Nokia Corporation Method and apparatus for creating and utilizing information representation of queries
US9542647B1 (en) * 2009-12-16 2017-01-10 Board Of Regents, The University Of Texas System Method and system for an ontology, including a representation of unified medical language system (UMLS) using simple knowledge organization system (SKOS)
US20110238985A1 (en) * 2010-03-24 2011-09-29 Nokia Corporation Method and apparatus for facilitating provision of content protected by identity-based encryption
US9025767B2 (en) * 2010-03-24 2015-05-05 Nokia Corporation Method and apparatus for querying content protected by identity-based encryption
US8370863B2 (en) * 2010-05-21 2013-02-05 Nokia Corporation Method and apparatus for integrating applications on demand to display and manipulate a semantic resource
US11068657B2 (en) 2010-06-28 2021-07-20 Skyscanner Limited Natural language question answering system and method based on deep semantics
US9064006B2 (en) * 2012-08-23 2015-06-23 Microsoft Technology Licensing, Llc Translating natural language utterances to keyword search queries
GB201210234D0 (en) * 2012-06-12 2012-07-25 Fujitsu Ltd Reconciliation of large graph-based data storage
US9342556B2 (en) * 2013-04-01 2016-05-17 International Business Machines Corporation RDF graphs made of RDF query language queries
US10229188B2 (en) * 2015-12-04 2019-03-12 International Business Machines Corporation Automatic corpus expansion using question answering techniques

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101339551B (zh) * 2007-07-05 2013-01-30 日电(中国)有限公司 自然语言查询需求扩展设备及其方法
CN102262634B (zh) * 2010-05-24 2013-05-29 北京大学深圳研究生院 一种自动问答方法及系统
CN102722542A (zh) * 2012-05-23 2012-10-10 无锡成电科大科技发展有限公司 一种资源描述框架图模式匹配方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
"Natural language question answering over RDF- a graph data driven approach";zou lei;《Proceedings of the 2014 ACM SIGMOD international conference on management of data》;20140627;第313-324页
"面向知识库的中文自然语言问句的语义理解";许坤;《北京大学学报(自然科学版)》;20140131;第50卷(第1期);第86页第1段至第90页第2段

Also Published As

Publication number Publication date
US10210245B2 (en) 2019-02-19
CN104915340A (zh) 2015-09-16
EP3117345A1 (en) 2017-01-18
US20190146985A1 (en) 2019-05-16
WO2015135455A1 (en) 2015-09-17
US20160328467A1 (en) 2016-11-10
EP3117345A4 (en) 2017-04-19
US10956464B2 (en) 2021-03-23

Similar Documents

Publication Publication Date Title
CN104915340B (zh) 自然语言问答方法及装置
CN110121705B (zh) 将语用学原理应用于与可视分析交互的系统和方法
CN111259653B (zh) 基于实体关系消歧的知识图谱问答方法、系统以及终端
US10997370B2 (en) Hybrid classifier for assigning natural language processing (NLP) inputs to domains in real-time
US10649990B2 (en) Linking ontologies to expand supported language
US10915577B2 (en) Constructing enterprise-specific knowledge graphs
CN110188168A (zh) 语义关系识别方法和装置
CN108874878A (zh) 一种知识图谱的构建系统及方法
US20210303558A1 (en) Applying Natural Language Pragmatics in a Data Visualization User Interface
CN105528437B (zh) 一种基于结构化文本知识提取的问答系统构建方法
CN106815252A (zh) 一种搜索方法和设备
CN106537370A (zh) 在存在来源和翻译错误的情况下对命名实体鲁棒标记的方法和系统
CN110222045A (zh) 一种数据报表获取方法、装置及计算机设备、存储介质
US20210018332A1 (en) Poi name matching method, apparatus, device and storage medium
CN106446162A (zh) 一种面向领域的本体知识库文本检索方法
KR20180094664A (ko) 텍스트 데이터로부터 정보를 추출하기 위한 정보 추출 방법 및 장치
CN112818092B (zh) 知识图谱查询语句生成方法、装置、设备及存储介质
Gómez-Adorno et al. A graph based authorship identification approach
CN112036178A (zh) 一种配网实体相关的语义搜索方法
US20230094730A1 (en) Model training method and method for human-machine interaction
CN110442730A (zh) 一种基于deepdive的知识图谱构建方法
CN112417170B (zh) 面向不完备知识图谱的关系链接方法
CN117290478A (zh) 一种知识图谱问答方法、装置、设备和存储介质
CN113807102B (zh) 建立语义表示模型的方法、装置、设备和计算机存储介质
Hobel et al. Extracting semantics of places from user generated content

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant