CN114117000A - 应答方法、装置、设备及存储介质 - Google Patents

应答方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN114117000A
CN114117000A CN202111333097.4A CN202111333097A CN114117000A CN 114117000 A CN114117000 A CN 114117000A CN 202111333097 A CN202111333097 A CN 202111333097A CN 114117000 A CN114117000 A CN 114117000A
Authority
CN
China
Prior art keywords
type
list
entity
question
preset
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111333097.4A
Other languages
English (en)
Inventor
陈冉
杨善松
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hisense Visual Technology Co Ltd
Original Assignee
Hisense Visual Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hisense Visual Technology Co Ltd filed Critical Hisense Visual Technology Co Ltd
Priority to CN202111333097.4A priority Critical patent/CN114117000A/zh
Publication of CN114117000A publication Critical patent/CN114117000A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请提供一种应答方法、装置、设备及存储介质,该方法获取问题,对问题进行解析处理,得到问题对应的实体列表、类型列表、约束列表和属性值列表;将问题输入至预设分类模型,根据输出结果确定问题对应的问题类型;若问题类型不是事实型问题,则对问题进行转换处理,得到至少一个目标事实型问题;根据实体列表、类型列表、约束列表、属性值列表和至少一个目标事实型问题,生成问题查询图;根据问题查询图,在预设知识图谱中进行查询,得到应答结果,根据问题查询图可准确在知识图谱中确定问题对应的应答结果,提高了应答的准确率和效率,进一步地提高了用户体验。

Description

应答方法、装置、设备及存储介质
技术领域
本申请涉及信息交互技术领域,尤其涉及一种应答方法、装置、设备及存储介质。
背景技术
随着人工智能技术的发展,智能应答广泛应用于移动通信、商品客服、政企平台等领域,为用户提供业务查询、业务汇报等服务。基于知识库问答(knowledge base questionanswering,KBQA)是智能应答的一种,针对给定的自然语言问题,通过对问题进行语义理解和解析,进而利用知识库进行查询、推理得出答案。
相关技术中,主要通过基于模板匹配的方法、基于语义解析和信息检索方法实现智能应答,其中,基于模板匹配的方法通过预设模板与用户进行匹配确定答案;语义解析是KBQA最为广泛和流行的方法,它对自然语言进行语义上的分析,并将其转化为一种能够让知识库理解的语义表示,再通过语义进行结构化查询得到问题答案;基于信息检索的方法首先从问题中提取信息,并使用知识库来获取候选答案,然后对候选答案进行排名以获得最终答案。
然而相关技术仅能针对简单的问题进行应答,针对多跳关系问题、带约束问题等复杂问题,无法快速、准确地提供应答。
发明内容
本申请提供一种应答方法、装置、设备及存储介质,以解决相关技术仅能针对简单的问题进行应答,针对多跳关系问题、带约束问题等复杂问题,无法快速、准确地提供应答的技术问题。
第一方面,本申请提供一种应答方法,包括:
获取问题,对所述问题进行解析处理,得到所述问题对应的实体列表、类型列表、约束列表和属性值列表;
将所述问题输入至预设分类模型,根据输出结果确定所述问题对应的问题类型;
若所述问题类型不是事实型问题,则对所述问题进行转换处理,得到至少一个目标事实型问题;
根据所述实体列表、所述类型列表、所述约束列表、所述属性值列表和所述至少一个目标事实型问题,生成问题查询图;
根据所述问题查询图,在预设知识图谱中进行查询,得到应答结果。
这里,本申请实施例在问题应答时,可以根据预设分类模型对问题进行分类识别,从而针对不易于直接处理的多跳关系问题、带约束问题等类型的复杂问题,可将问题转换为易于处理的事实型问题,再结合解析得到的问题对应的实体列表、类型列表、约束列表和属性值列表,生成问题查询图,根据问题查询图可准确在知识图谱中确定问题对应的应答结果,提高了应答的准确率和效率,进一步地提高了用户体验。
在一种可能的设计中,所述问题类型包括事实型问题、对比型问题、交集型问题和是非型问题;
所述对所述问题进行转换处理,得到至少一个目标事实型问题,包括:
若所述问题类型为对比型问题,则删除所述问题中的代词短语,根据所述问题中的形容词确定目标事实型问题;
若所述问题类型为交集型问题,则删除所述问题中的特定交集短语,根据所述问题中的主语得到至少两个目标事实性问题;
若所述问题类型为是非型问题,则根据所述问题中的实体和\或属性,确定目标事实型问题。
其中,本申请实施例在问题分类时,将问题类型分为事实型问题、对比型问题、交集型问题和是非型问题,这里的事实型问题为易于进行应答处理的问题,其他类型的问题不易于快速进行应答,因此基于不同的问题类型,提供了不同的转换方式,依据对比型问题、交集型问题和是非型问题不同的特征进行问题的转化,从而能够得到更加准确的目标事实型问题,进一步地提高了应答的准确率,提高了用户体验。
在一种可能的设计中,在所述将所述问题输入至预设分类模型,根据输出结果确定所述问题对应的问题类型之前,还包括:
获取多个问题类型训练样本,并对所述多个问题类型训练样本进行问题类型的标注;
将携带有标注的问题类型训练样本输入至分类模型进行训练,得到预设分类模型。
这里,本申请实施例可利用大量带有问题类型标注的问题类型训练样本进行分类模型的训练,以得到准确的分类模型的权重,从而将问题输入至训练好的预设训练模型就可以快速得到问题的类型,提高了问题分类和转换的效率,进一步地提高了智能应答的效率和准确性,提高了用户体验。
在一种可能的设计中,所述根据所述实体列表、所述类型列表、所述约束列表、所述属性值列表和所述至少一个目标事实型问题,生成问题查询图,包括:
通过波束搜索算法,对所述实体列表、所述类型列表、所述约束列表、所述属性值列表和所述至少一个目标事实型问题进行迭代处理,得到多个候选查询图;
对所述多个候选查询图进行筛选处理,得到问题查询图。
这里,本申请实施例通过波束搜索来迭代生成候选查询图,能够寻找到所有与问题有关的查询图,再进行筛选,从而可以得到与问题最接近的问题查询图,从而根据问题查询图得到准确的应答结果。
在一种可能的设计中,所述对所述多个候选查询图进行筛选处理,得到问题查询图,包括:
计算每个所述候选查询图的特征参数,其中,特征参数包括查询图与问题文本相似度、查询图中的实体数量、实体链接分数总和、类型数量、类型链接分数总和、约束数量、属性值数量、关系路径跳数、查询图执行的答案数量;
根据所述特征参数,得到每个所述候选查询图对应的多维特征向量;
将所述多维特征向量输入至预设预测模型,根据输出结果得到每个所述候选查询图的预测分数;
根据每个所述候选查询图的预测分数,确定问题查询图。
这里,本申请实施例为每个候选查询图构建9个特征:查询图与问题文本相似度、查询图中的实体数量、实体链接分数总和、类型数量、类型链接分数总和、约束数量、属性值数量、关系路径跳数、查询图执行的答案数量,拼接得到一个多维特征向量,并将得到的特征向量输入至预设预测模型,从而可得到预测分数,其中,预测分数可准确反映候选查询图与问题的相似度,通过对预测分数的排序可以得到准确地问题查询图,进一步的提高了应答的准确性。
在一种可能的设计中,所述对所述问题进行解析处理,得到所述问题对应的实体列表、类型列表、约束列表和属性值列表,包括:
将所述问题输入至预设提取模型,根据输出结果得到所述问题对应的普通实体、主题实体、类型和属性值;
将所述普通实体和所述主题实体的集合与预设知识图谱建立链接,在所述预设知识图谱中确定所述问题对应的实体列表;
将所述类型与所述预设知识图谱建立链接,在所述预设知识图谱中确定所述问题对应的类型列表;
根据属性值和预设匹配规则,确定约束列表和属性值列表。
这里,本申请实施例获取问题,首先通过预设提取模型,提取问题对应的普通实体、主题实体、类型和属性值,再将实体和类型分别链接至预设知识图谱,得到与问题相关的知识图谱中的实体,再根据属性值和预设匹配规则,确定约束列表和属性值列表,可以准确提取问题中的内容并准确确定与问题相关的实体列表、类型列表、约束列表和属性值列表,便于后续进行问题应答的处理。
在一种可能的设计中,在所述将所述问题输入至预设提取模型之前,还包括:
获取多个问题提取训练样本,并对所述多个问题提取训练样本进行标签标注,其中,所述标签包括普通实体、主题实体、类型和属性值;
将携带有标签标注的问题提取训练样本输入至提取模型进行训练,得到预设提取模型。
这里,本申请实施例使用模型来进行问题中普通实体、主题实体、类型和属性值指称的识别,可以快速、准确得到结果,进一步地提高了应答效率,提高了用户体验。
第二方面,本申请提供一种应答装置,包括:
解析模块,用于获取问题,对所述问题进行解析处理,得到所述问题对应的实体列表、类型列表、约束列表和属性值列表;
分类模块,用于将所述问题输入至预设分类模型,根据输出结果确定所述问题对应的问题类型;
转换模块,用于若所述问题类型不是事实型问题,则对所述问题进行转换处理,得到至少一个目标事实型问题;
生成模块,用于根据所述实体列表、所述类型列表、所述约束列表、所述属性值列表和所述至少一个目标事实型问题,生成问题查询图;
应答模块,用于根据所述问题查询图,在预设知识图谱中进行查询,得到应答结果。
在一种可能的设计中,所述问题类型包括事实型问题、对比型问题、交集型问题和是非型问题;
所述转换模块具体用于:
若所述问题类型为对比型问题,则删除所述问题中的代词短语,根据所述问题中的形容词确定目标事实型问题;
若所述问题类型为交集型问题,则删除所述问题中的特定交集短语,根据所述问题中的主语得到至少两个目标事实性问题;
若所述问题类型为是非型问题,则根据所述问题中的实体和\或属性,确定目标事实型问题。
在一种可能的设计中,在所述分类模块将所述问题输入至预设分类模型,根据输出结果确定所述问题对应的问题类型之前,上述装置还包括:
第一训练模块,具体用于:
获取多个问题类型训练样本,并对所述多个问题类型训练样本进行问题类型的标注;
将携带有标注的问题类型训练样本输入至分类模型进行训练,得到预设分类模型。
在一种可能的设计中,所述生成模块具体用于:
通过波束搜索算法,对所述实体列表、所述类型列表、所述约束列表、所述属性值列表和所述至少一个目标事实型问题进行迭代处理,得到多个候选查询图;
对所述多个候选查询图进行筛选处理,得到问题查询图。
在一种可能的设计中,所述生成模块还具体用于:
计算每个所述候选查询图的特征参数,其中,特征参数包括查询图与问题文本相似度、查询图中的实体数量、实体链接分数总和、类型数量、类型链接分数总和、约束数量、属性值数量、关系路径跳数、查询图执行的答案数量;
根据所述特征参数,得到每个所述候选查询图对应的多维特征向量;
将所述多维特征向量输入至预设预测模型,根据输出结果得到每个所述候选查询图的预测分数;
根据每个所述候选查询图的预测分数,确定问题查询图。
在一种可能的设计中,所述解析模块具体用于:
将所述问题输入至预设提取模型,根据输出结果得到所述问题对应的普通实体、主题实体、类型和属性值;
将所述普通实体和所述主题实体的集合与预设知识图谱建立链接,在所述预设知识图谱中确定所述问题对应的实体列表;
将所述类型与所述预设知识图谱建立链接,在所述预设知识图谱中确定所述问题对应的类型列表;
根据属性值和预设匹配规则,确定约束列表和属性值列表。
在一种可能的设计中,在所述解析模块将所述问题输入至预设提取模型之前,上述装置还包括:
第二训练模块,用于:
获取多个问题提取训练样本,并对所述多个问题提取训练样本进行标签标注,其中,所述标签包括普通实体、主题实体、类型和属性值;
将携带有标签标注的问题提取训练样本输入至提取模型进行训练,得到预设提取模型。
第三方面,本申请提供一种应答设备,包括:至少一个处理器和存储器;
所述存储器存储计算机执行指令;
所述至少一个处理器执行所述存储器存储的计算机执行指令,使得所述至少一个处理器执行如上第一方面以及第一方面各种可能的设计所述的应答方法。
第四方面,本申请提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机执行指令,当处理器执行所述计算机执行指令时,实现如上第一方面以及第一方面各种可能的设计所述的应答方法。
第五方面,本申请提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时,实现如上第一方面以及第一方面各种可能的设计所述的应答方法。
本申请提供的应答方法、装置、应答装置及存储介质,其中该方法在问题应答时,可以根据预设分类模型对问题进行分类识别,从而针对不易于直接处理的多跳关系问题、带约束问题等类型的复杂问题,可将问题转换为易于处理的事实型问题,再结合解析得到的问题对应的实体列表、类型列表、约束列表和属性值列表,生成问题查询图,根据问题查询图可准确在知识图谱中确定问题对应的应答结果,提高了应答的准确率和效率,进一步地提高了用户体验。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为根据本申请一个或多个实施例的应答方法的应用场景示意图;
图2为本申请实施例提供的一种应答方法的流程示意图;
图3为本申请实施例提供的一种问题查询图示意图;
图4为本申请实施例提供的一种扩展动作查询图示意图;
图5为本申请实施例提供的另一种扩展动作查询图示意图;
图6为本申请实施例提供的一种连接动作查询图示意图;
图7为本申请实施例提供的一种聚合动作查询图示意图;
图8为本申请实施例提供的另一种聚合动作查询图示意图;
图9为本申请实施例提供的另一种应答方法的流程示意图;
图10为本申请实施例提供的一种应答方法的整体架构示意图
图11为本申请实施例提供的一种应答装置的结构示意图;
图12为本申请实施例提供的一种应答设备的结构示意图。
通过上述附图,已示出本公开明确的实施例,后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本公开构思的范围,而是通过参考特定实施例为本领域技术人员说明本公开的概念。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”及“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
知识图谱(Knowledge Graph,KG)在图书情报界称为知识域可视化或知识领域映射地图,是显示知识发展进程与结构关系的一系列各种不同的图形,用可视化技术描述知识资源及其载体,挖掘、分析、构建、绘制和显示知识及它们之间的相互联系。知识图谱作为数据来源主要有以下几方面的优势:一、数据准确性更高,知识图谱作为一种结构化的数据来源,能够为用户返回更加准确、去除了冗余信息的答案,相较于其它搜索引擎返回一篇文档或是一个网页的做法,减少了用户筛选信息的时间;二、查询更方便,相比较于自然语言构成的纯文本文档,计算机更容易处理结构化的数据。因此相较于传统的基于纯文本文档的智能应答,KBQA能够更加快速准确地得到应答结果。
KBQA的相关技术中,工业界应用的主流方案是基于模板匹配的方法,学术界研究则主要是基于语义解析和信息检索两类方法。基于模板匹配的方法优势在于答案准确、可控,语义解析是KBQA最为广泛和流行的方法,它对自然语言进行语义上的分析,并将其转化为一种能够让知识库理解的语义表示,通常体现为结构化查询。基于信息检索的方法首先从问题中提取信息,并使用知识库来获取候选答案,然后对候选答案进行排名以获得最终答案。但是,这些方法基本只能解决简单的问题,而实际应用中往往存在很多复杂问题,需要一定的推理才能回答。最常见的复杂问题有两种,一种是多跳关系问题,例如,对于复杂问题“A公司创始人的妻子是谁”,主题实体“A公司”和答案实体之间通过“创始人”和“配偶”两跳的关系连接,为了回答这类问题,需要考虑更长的关系路径才能获得正确的答案;另一种是带约束问题,例如,在“谁是B国第一任总统?”这一问题中答案实体除了和实体“B国”之间存在“总统”关系以外,还需要满足“第一”约束。多跳关系和约束可以在问题中同时存在,从而使问题更加复杂。除此之外,对于其他类型的复杂问题,即答案不为知识图谱中的实体的问题,还可能涉及逻辑、比较和定量推理,例如对于问题“有多少河流流经C国和D国”需要先分别得到流经C国和D国的河流,再通过对两个集合的交集中的实体进行计数来生成答案,无法快速、准确地提供应答。
为了解决上述技术问题,本申请实施例提供一种应答方法、装置、应答装置及存储介质,是一种基于深度学习和语义解析的知识图谱问答方法,在只能应答时首先对问题进行分类识别,将复杂问题转换为易于处理的事实型问题,再结合语义解析生成问题查询图,根据问题查询图可准确在知识图谱中确定问题对应的应答结果。
示范性地,图1为根据本申请一个或多个实施例的应答方法的应用场景示意图。如图1所示,上述架构包括用户100和应答设备200。
其中,用户100可通过应答设备的输入装置与应答设备200实现交互,向应答设备200发出问题,应答设备200在接收到问题之后通过内部的处理器根据接收到的问题进行应答,并可通过输出装置将应答结果输出给用户,实现人机交互和智能应答。
在一些实施例中,应答设备200就可以为智能电视、智能冰箱等显示设备。或者是智能手表、智能手机等智能终端等任意可与用户实现交互操作的设备。
在一些实施例中,用户100与应答设备200实现交互的方式可以为语音交互、文字交互等方式,例如应答设备200通过麦克风或者是键盘等输入装置获取用户的问题,通过显示屏或者是扬声器、喇叭等输出装置输出应答结果。
可以理解的是,本申请实施例示意的结构并不构成对应答系统架构的具体限定。在本申请另一些可行的实施方式中,上述架构可以包括比图示更多或更少的部件,或者组合某些部件,或者拆分某些部件,或者不同的部件布置,具体可根据实际应用场景确定,在此不做限制。图1所示的部件可以以硬件,软件,或软件与硬件的组合实现。
另外,本申请实施例描述的网络架构以及业务场景是为了更加清楚的说明本申请实施例的技术方案,并不构成对于本申请实施例提供的技术方案的限定,本领域普通技术人员可知,随着网络架构的演变和新业务场景的出现,本申请实施例提供的技术方案对于类似的技术问题,同样适用。
下面以几个实施例为例对本申请的技术方案进行描述,对于相同或相似的概念或过程可能在某些实施例不再赘述。
图2为本申请实施例提供的一种应答方法的流程示意图,本申请实施例的执行主体可以为图1所示实施例中的应答设备200或者是应答设备200的处理器,具体执行主体可以根据实际应用场景确定。如图2所示,该方法包括如下步骤:
S201:获取问题,对问题进行解析处理,得到问题对应的实体列表、类型列表、约束列表和属性值列表。
在一些实施例中,问题的解析过程可以通过如下方式:
将问题输入至预设提取模型,根据输出结果得到问题对应的普通实体、主题实体、类型和属性值;将普通实体和主题实体的集合与预设知识图谱建立链接,在预设知识图谱中确定问题对应的实体列表;将类型与预设知识图谱建立链接,在预设知识图谱中确定问题对应的类型列表;根据属性值和预设匹配规则,确定约束列表和属性值列表。
本申请实施例使用模型来进行问题中普通实体、主题实体、类型和属性值指称的识别,可以快速、准确得到结果,进一步地提高了应答效率,提高了用户体验。
可选地,预设提取模型可以为BERT-CRF模型。Bert模型作为大规模的预训练语言模型,可以捕获问题中的语义信息和语法结构,做出正确的预测。
在一些实施例中,预设提取模型的训练方式包括:获取多个问题提取训练样本,并对多个问题提取训练样本进行标签标注,其中,标签包括普通实体、主题实体、类型和属性值;将携带有标签标注的问题提取训练样本输入至提取模型进行训练,得到预设提取模型。
在一种可行的实现方式中,首先建立提取模型,提取模型由12层模型编码器(Transformer Encoder)和一层CRF层连接而成,上一层的输出作为下一层的输入,最后得到概率最大的标签序列作为预测结果。在训练过程中,为问题提取训练样本中问题的每个字标注标签,再编码成词向量输入提取模型进行训练。
在一些实施例中,标签集合为{B-ENT,I-ENT,B-TOPIC,I-TOPIC,B-TYPE,I-TYPE,B-ATTR,I-ATTR,O},{B(Begin),I(inside)、O(Outside)}确定提及的范围,{ENT,TOPIC,TYPE,ATTR}分别表示提及属于普通实体、主题实体、类型还是属性值。例如,问题“演员E版的电视剧F是哪一年上映的”的标注结果为{“B-ENT”,“I-ENT”,“I-ENT”,“O”,“O”,“B-TYPE”,“I-TYPE”,“I-TYPE”,“B-TOPIC”,“I-TOPIC”,“I-TOPIC”,“I-TOPIC”,“I-TOPIC”,“O”,“O”,“O”,“O”,“O”,“O”,“O”}。
这里,本申请实施例获取问题,首先通过预设提取模型,提取问题对应的普通实体、主题实体、类型和属性值,再将实体和类型分别链接至预设知识图谱,得到与问题相关的知识图谱中的实体,再根据属性值和预设匹配规则,确定约束列表和属性值列表,可以准确提取问题中的内容并准确确定与问题相关的实体列表、类型列表、约束列表和属性值列表,便于后续进行问题应答的处理。
在一些可能的设计中,需要将预设提取模型得到的实体、类型等元素链接到知识图谱对应的节点,从而在知识图谱中找到与问题有关的实体和类型形成实体列表和类型列表。将普通实体和主题实体的集合与预设知识图谱建立链接,在预设知识图谱中确定问题对应的实体列表;将类型与预设知识图谱建立链接,在预设知识图谱中确定问题对应的类型列表。
在一些实施例中,实体链接包括:对于输入的问题,可以得到普通实体集合e和主题实体集合te,然后,将两个集合合并得到问题中的实体集合E={e∪te}。实体链接的目标是将实体集合E中的实体提及链接到KG中的实体中。实体链接分为候选实体生成和候选实体重排两个阶段,对于每个实体提及,首先使用已构建的“指称-实体”词典先得到候选的实体列表,考虑到在实际应用场景中,可能存在没有见过的指称,预先基于实体及其描述得到实体向量,当指称在词典中不存在时,用预训练语言模型(如BERT模型)对实体提及及其问题上下文进行编码,并将指称和实体向量相似度超过阈值的K个最近邻作为候选实体,其中,K为任意正整数。
可选地,为了加速这一阶段的执行,采用人工智能最近邻搜索(Facebook AISimilarity Search,FAISS)加速特征匹配,FAISS是一个用于密集向量的高效相似性搜索和聚类的算法,FAISS围绕一个索引类型建立,存储了一组向量,并提供了一个函数在其中进行L2和/或点乘向量比较的搜索。
可选地,得到候选实体后,基于问题上下文和实体属性抽取并构建多个问句与候选实体特征,并使用训练好的模型对候选实体进行打分,最后将分数最高的候选实体作为实体链接结果,实体链接结果的列表为实体列表。
在一些实施例中,类型链接包括:对于输入的问题,通过预设提取模型得到类型的指称集合,类型链接的目标是将问题中的类型指称链接到KB中的类型。例如,对于问题“G主演过哪些片子”,得到问题中的类型t={“片子”},并将其链接到“电影”。
可选地,根据KB中的实体类型,可以构建一个树状的类型结构图,其中,粗粒度的类型是细粒度类型的父节点。在过滤掉一些用户输入的自然语言问题往往不会包含的粗粒度类型(如地理、生活)后,可以得到多个不同粒度的类型,针对这多个类型,与实体链接类似地,可以构建一个“指称-类型”词典。绝大部分指称可以直接通过字典得到对应的类型,对于剩下的指称,可以通过模糊搜索得到相似度高于一定阈值的指称对应的类型集合。对于集合中存在上下位关系的类型,仅保留相似度最高的类型。与实体链接类似地,在查询图生成阶段根据问题中的其他实体自动地选择正确的类型。
在一些可能的设计中,所有通过预设提取模型获取到的属性值组成属性值列表。
在一些可能的设计中,经过预设匹配规则,可以对属性值进行筛选,得到属性值列表。
可以理解的是,这里的预设匹配规则可以根据实际情况确定,本申请实施例不做具体限制。
在一些可能的设计中,根据属性值和预设匹配规则,确定约束列表包括:
将约束类型分为最值约束(如“第一高”、“最早”)和范围约束(如“20到22”、“2000年以后”)。为了检测问题中的约束,根据训练语料人工构建一系列匹配规则。
在一些实施例中,对于最值约束,制定“最[adj]”、“第[num][adj]”等一系列规则,并构建形容词集合{“早”,“高”,“大”,……},数字则使用从一到十。其中,对于“早”、“小”这类形容词,将其映射到“+1”(意为升序),对于“高”、“大”这类形容词,将其映射到“-1”(意为降序),若规则中同时存在形容词和数字,则将该形容词映射的结果和该数字相乘。使用这种方式,对于问题中匹配到的每个最值约束,可以通过数字的正负反映升序和降序,使用数字的绝对值反映排名,并使用SPARQL查询语言的ASC、DESC和LIMIT关键字进行检索,从而得到约束列表。
在一些实施例中,对于范围约束,如“1800平方公里”、“22岁”等,对于范围约束,如果问题中存在两个数字类型的属性值,并且模式满足指定的规则{“A到B”,“A和B之间”,……},将其视为“>A and<B”的范围约束。另外手动构建四种规则集合,分别为{“超过A”,“大于A”,“A以上”,……}、{“低于A”,“小于A”,“A以下”,……}、{“不超过A”,“不大于A”,……}、{“不低于A”,“不小于A”,“A以下”,……},如果问题中仅存在单个数字类型的属性值,对上下文进行匹配,满足上述规则的约束分别为“>A”、“>A”、“≤A”、“≥A”,将不满足上述任意规则的约束视为“=A”,从而得到约束列表。
S202:将问题输入至预设分类模型,根据输出结果确定问题对应的问题类型。
在一些实施例中,问题类型可以包括事实型问题和非事实性问题。
在一些实施例中,问题类型可以包括事实型问题、对比型问题、交集型问题和是非型问题。
S203:若问题类型不是事实型问题,则对问题进行转换处理,得到至少一个目标事实型问题。
S204:根据实体列表、类型列表、约束列表、属性值列表和至少一个目标事实型问题,生成问题查询图。
在一些实施例中,可以输入事实型问题q、实体列表e(其中e0为主题实体)、类型列表t、属性值列表a(非数字类型,普通字符串)以及约束列表c,在这一阶段的目标是生成一个包含多个候选查询图的列表G(|G|≤K)及每个候选查询图的分数。
可选地,查询图由四种类型的节点组成:常量节点、变量节点、答案节点、函数节点,相应的,图3为本申请实施例提供的一种问题查询图示意图,图中对应的问题为“最早拍摄电视剧版《H》的导演是谁”如图3所示,常量节点、变量节点和答案节点均是KG中存在的实体、类型或属性值(数值和时间),其中,常量节点为固定值,如H和电视剧;变量节点和答案节点在查询图中未指定,即它们可以是满足条件的任意实体、类型或属性;答案节点是一种特殊的变量节点,满足条件的实体、类型或属性即为问题的答案,变量节点和答案节点分别用?y和?x表示。另外,设计了一种特殊节点:函数节点,用于指示问题中的最值约束和范围约束,如+1。问题查询图的边有两种类型:谓词边和函数边。谓词边缘表示KG谓词,例如开机时间。函数边连接函数节点,无关系意义。将主题节点和答案之间的谓词边列表视为核心关系路径,连接到关系路径上的节点的子结构为对该节点的约束。例如,在图3中,核心关系路径为“导演”,类型和开机时间是对H这一实体的约束。
在一些实施例中,根据实体列表、类型列表、约束列表、属性值列表和至少一个目标事实型问题,生成问题查询图,包括:通过波束搜索算法,对实体列表、类型列表、约束列表、属性值列表和至少一个目标事实型问题进行迭代处理,得到多个候选查询图;对多个候选查询图进行筛选处理,得到问题查询图。
在一些实施例中,使用波束搜索(beam search)来迭代生成候选查询图,大小设置为N,N为任意正整数。初始查询图仅包含主题实体。定义了以下三种往查询图中添加边和节点的动作方式。
可选方式一:扩展动作,拓展查询图中的核心关系路径。示范性的,图4为本申请实施例提供的一种扩展动作查询图示意图,如图4所示,如果当前查询图仅包含主题实体e0,则扩展动作将在KG中找到链接到e0的关系r,并添加到路径,r的另一端成为答案节点?x。示范性的,图5为本申请实施例提供的另一种扩展动作查询图示意图,如图5所示,如果当前查询图具有答案节点?x,则扩展操作会将?x更改为变量节点?y,通过对KG执行当前查询图来查找KG中?y的所有对应实体,找到链接到这些实体之一的关系r,最后将r连接到?y。边r的另一端成为新的答案节点?x。
可选方式二:连接动作,连接动作将问题中的实体、类型和属性值连接到主题实体节点或答案节点?x,示范性的,图6为本申请实施例提供的一种连接动作查询图示意图,如图6所示,这里不考虑连接到关系路径中的其他变量节点,因为它们在过去的迭代中曾经作为答案节点,应该已经考虑了连接到该节点的情况,可以执行当前查询图确定可能存在的关系,并将其作为边。在这一步,可以过滤掉一些不合理的主题实体链接结果,如因为类型“电视剧”无法链接到“H(清代长篇人情小说)”,可以发现H这一指称大概率不会指向该实体。
可选方式三:聚合动作,聚合动作查询KG中主题实体或答案实体存在的数值或时间属性,如年龄、海拔等,将属性节点和约束添加到查询图中,示范性的,图7为本申请实施例提供的一种聚合动作查询图示意图,如图7所示,和连接动作相同,不考虑连接到关系路径中的其他变量节点。
可选地,针对聚合动作,考虑问题中没有主题实体的特殊情况,在这种情况下,为了限制搜索空间,初始查询图包含答案节点和其类型约束。示范性的,图8为本申请实施例提供的另一种聚合动作查询图示意图,如图8所示,对于这种查询图,拓展动作将答案节点转换为变量节点,并添加新的边和答案节点,连接动作和聚合操作和一般情况相同,但新的节点和边仅能连接到答案节点上。
在一些实施例中,可以通过上述三种可选方式生成候选查询图的列表,假设第t次迭代产生了N个查询图,表示为Gt。在第(t+1)次迭代中,对于每个g∈Gt,应用上面定义的三种动作拓展查询图,候选查询图的列表表示所有结果查询图的集合。然后,可以使用预测模型对所有候选查询图进行打分,并用分数最高的前N个候选查询图组成参与下一步的迭代。当关系路径达到最大跳数或不存在查询图高于任意一个上一个迭代的查询图的分数时,停止迭代。
这里,本申请实施例通过波束搜索来迭代生成候选查询图,能够寻找到所有与问题有关的查询图,再进行筛选,从而可以得到与问题最接近的问题查询图,从而根据问题查询图得到准确的应答结果。
在一些实施例中,对多个候选查询图进行筛选处理,得到问题查询图,包括:计算每个候选查询图的特征参数,其中,特征参数包括查询图与问题文本相似度、查询图中的实体数量、实体链接分数总和、类型数量、类型链接分数总和、约束数量、属性值数量、关系路径跳数、查询图执行的答案数量;根据特征参数,得到每个候选查询图对应的多维特征向量;将多维特征向量输入至预设预测模型,根据输出结果得到每个候选查询图的预测分数;根据每个候选查询图的预测分数,确定问题查询图。
可选地,为每个候选查询图构建9个特征:查询图与问题文本相似度、查询图中的实体数量、实体链接分数总和、类型数量、类型链接分数总和、约束数量、属性值数量、关系路径跳数、查询图执行的答案数量,拼接得到一个9维的特征向量,并将得到的特征向量输入到浅层前向神经网络中,最后通过激活函数得到一个0~1的分数,将训练问题看作排名问题,假设每个问题有几个候选查询图,根据它们的对应答案的F1得分进行排名,目标是查询图的F1得分越高,模型预测的分数越高。将查询图的F1得分作为奖励,采用强化学习的方法进行训练,使得模型可以从多个候选查询图中选择正确,即为问题查询图。
这里,本申请实施例为每个候选查询图构建9个特征:查询图与问题文本相似度、查询图中的实体数量、实体链接分数总和、类型数量、类型链接分数总和、约束数量、属性值数量、关系路径跳数、查询图执行的答案数量,拼接得到一个多维特征向量,并将得到的特征向量输入至预设预测模型,从而可得到预测分数,其中,预测分数可准确反映候选查询图与问题的相似度,通过对预测分数的排序可以得到准确地问题查询图,进一步的提高了应答的准确性。
S205:根据问题查询图,在预设知识图谱中进行查询,得到应答结果。
其中,通过步骤S204可以得到多次迭代以后分数最高的查询图为问题查询图,将问题查询图转换为知识图谱对应的查询语言,可以在KB中执行得到答案的集合。
本申请实施例在问题应答时,可以根据预设分类模型对问题进行分类识别,从而针对不易于直接处理的多跳关系问题、带约束问题等类型的复杂问题,可将问题转换为易于处理的事实型问题,再结合解析得到的问题对应的实体列表、类型列表、约束列表和属性值列表,生成问题查询图,根据问题查询图可准确在知识图谱中确定问题对应的应答结果,提高了应答的准确率和效率,进一步地提高了用户体验。
在一些实施例中,本申请实施例可以预先建立预设分类模型,相应的,图9为本申请实施例提供的另一种应答方法的流程示意图,如图9所示,该方法包括:
S901:获取问题,对问题进行解析处理,得到问题对应的实体列表、类型列表、约束列表和属性值列表。
S902:获取多个问题类型训练样本,并对多个问题类型训练样本进行问题类型的标注;将携带有标注的问题类型训练样本输入至分类模型进行训练,得到预设分类模型。
在一些实施例中,可以预先标注问题类型训练样本中的问题类型并训练得到一个预设分类模型。采用BiLSTM模型对问题进行编码,并将最后一个隐藏层表示作为问题的向量表示,随后使用单层的感知机模型对问题进行分类。
S903:将问题输入至预设分类模型,根据输出结果确定问题对应的问题类型。
S904:若问题类型不是事实型问题,则对问题进行转换处理,得到至少一个目标事实型问题。
在一种可能的设计中,问题类型包括事实型问题、对比型问题、交集型问题和是非型问题;对问题进行转换处理,得到至少一个目标事实型问题,包括:
若问题类型为对比型问题,则删除问题中的代词短语,根据问题中的形容词确定目标事实型问题;若问题类型为交集型问题,则删除问题中的特定交集短语,根据问题中的主语得到至少两个目标事实性问题;若问题类型为是非型问题,则根据问题中的实体和\或属性,确定目标事实型问题。
示范性的,表1为问题转换示意表。在一些实施例中,将其他类型的问题转换为事实型问题的可选方式如下:
对于对比型问题,首先去除问题中的代词短语,如“哪个”、“谁的”,再利用规则和词性标注提取问题中的比较级形容词或形容词,并替换为“有多+形容词”的形式,最后将主语“主语(1)……主语(2)”分别替换为主语(1)和主语(2)形成两个子问题,如示例②和③。
对于交集型问题,首先去除问题中的特定短语,如“一起”、“共同”,随后将主语“主语(1)……主语(2)”分别替换为主语(1)和主语(2)形成两个子问题,如示例④和⑤。
对于是非型问题,如果问题中只存在实体,从KG中获取问题中某个实体的类型,并将该实体用“什么+类型”替换,最后去除末尾的疑问词“吗”。如果该实体在KG中未标注类型,则直接用疑问词“什么”,例如,如果中国没有类型标注,则示例⑥将更改为“U是什么的首都”。如果问题中存在实体和单个属性值,则将属性值替换为“什么”,并去除末尾的疑问词“吗”,如示例⑧所示。
Figure BDA0003349532680000181
Figure BDA0003349532680000191
表1问题转换示意表
其中,本申请实施例在问题分类时,将问题类型分为事实型问题、对比型问题、交集型问题和是非型问题,这里的事实型问题为易于进行应答处理的问题,其他类型的问题不易于快速进行应答,因此基于不同的问题类型,提供了不同的转换方式,依据对比型问题、交集型问题和是非型问题不同的特征进行问题的转化,从而能够得到更加准确的目标事实型问题,进一步地提高了应答的准确率,提高了用户体验。
S905:根据实体列表、类型列表、约束列表、属性值列表和至少一个目标事实型问题,生成问题查询图。
S906:根据问题查询图,在预设知识图谱中进行查询,得到应答结果。
其中,步骤S901、S905-S306的实现过程与步骤S201、S204-S205的实现过程类似,在此不做赘述。
本申请实施例可利用大量带有问题类型标注的问题类型训练样本进行分类模型的训练,以得到准确的分类模型的权重,从而将问题输入至训练好的预设训练模型就可以快速得到问题的类型,提高了问题分类和转换的效率,进一步地提高了智能应答的效率和准确性,提高了用户体验。
在一些实施例中,图10为本申请实施例提供的一种应答方法的整体架构示意图,如图10所示,该架构可分为问题预处理(图10中的问题解析、问题分类和事实型问题及标注内容阶段)、查询图生成、答案生成三个阶段。
可选的,问题预处理阶段,可以基于问题语法和预训练语言模型对问题进行解析,将实体、类型等元素链接到知识图谱对应的节点,并将复杂类型的问题转换成事实型问题。
可选的,查询图生成阶段,可以使用波束搜索的思想,基于知识图谱迭代地进行候选查询图生成和查询图排序,从而不断地扩充查询图中的边和节点,得到最终的可执行查询图。
可选的,答案生成阶段,可以结合多个事实型问题的答案,根据原始问题的类型进行转换,生成最终的回答。
图11为本申请实施例提供的一种应答装置的结构示意图,如图11所示,本申请实施例的装置包括:解析模块1101、分类模块1102、转换模块1103和生成模块1104和应答模块1105。这里的应答装置可以是上述应答设备200本身,或者是实现应答设备200的功能的芯片或者集成电路。这里需要说明的是,解析模块1101、分类模块1102、转换模块1103和生成模块1104和应答模块1105的划分只是一种逻辑功能的划分,物理上两者可以是集成的,也可以是独立的。
其中,解析模块,用于获取问题,对问题进行解析处理,得到问题对应的实体列表、类型列表、约束列表和属性值列表;
分类模块,用于将问题输入至预设分类模型,根据输出结果确定问题对应的问题类型;
转换模块,用于若问题类型不是事实型问题,则对问题进行转换处理,得到至少一个目标事实型问题;
生成模块,用于根据实体列表、类型列表、约束列表、属性值列表和至少一个目标事实型问题,生成问题查询图;
应答模块,用于根据问题查询图,在预设知识图谱中进行查询,得到应答结果。
在一种可能的设计中,问题类型包括事实型问题、对比型问题、交集型问题和是非型问题;
转换模块具体用于:
若问题类型为对比型问题,则删除问题中的代词短语,根据问题中的形容词确定目标事实型问题;
若问题类型为交集型问题,则删除问题中的特定交集短语,根据问题中的主语得到至少两个目标事实性问题;
若问题类型为是非型问题,则根据问题中的实体和\或属性,确定目标事实型问题。
在一种可能的设计中,在分类模块将问题输入至预设分类模型,根据输出结果确定问题对应的问题类型之前,上述装置还包括:
第一训练模块,具体用于:
获取多个问题类型训练样本,并对多个问题类型训练样本进行问题类型的标注;
将携带有标注的问题类型训练样本输入至分类模型进行训练,得到预设分类模型。
在一种可能的设计中,生成模块具体用于:
通过波束搜索算法,对实体列表、类型列表、约束列表、属性值列表和至少一个目标事实型问题进行迭代处理,得到多个候选查询图;
对多个候选查询图进行筛选处理,得到问题查询图。
在一种可能的设计中,生成模块还具体用于:
计算每个候选查询图的特征参数,其中,特征参数包括查询图与问题文本相似度、查询图中的实体数量、实体链接分数总和、类型数量、类型链接分数总和、约束数量、属性值数量、关系路径跳数、查询图执行的答案数量;
根据特征参数,得到每个候选查询图对应的多维特征向量;
将多维特征向量输入至预设预测模型,根据输出结果得到每个候选查询图的预测分数;
根据每个候选查询图的预测分数,确定问题查询图。
在一种可能的设计中,解析模块具体用于:
将问题输入至预设提取模型,根据输出结果得到问题对应的普通实体、主题实体、类型和属性值;
将普通实体和主题实体的集合与预设知识图谱建立链接,在预设知识图谱中确定问题对应的实体列表;
将类型与预设知识图谱建立链接,在预设知识图谱中确定问题对应的类型列表;
根据属性值和预设匹配规则,确定约束列表和属性值列表。
在一种可能的设计中,在解析模块将问题输入至预设提取模型之前,上述装置还包括:
第二训练模块,用于:
获取多个问题提取训练样本,并对多个问题提取训练样本进行标签标注,其中,标签包括普通实体、主题实体、类型和属性值;
将携带有标签标注的问题提取训练样本输入至提取模型进行训练,得到预设提取模型。
图12为本申请实施例提供的一种应答设备(可以为图1中的应答设备200)的结构示意图。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不限制本文中描述的和/或者要求的本申请的实现。
如图12所示,该应答设备包括:处理器1201和存储器1202,各个部件利用不同的总线互相连接,并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器1201可以对在终端内执行的指令进行处理,包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如,耦合至接口的显示设备)上显示的图形信息的指令。在其它实施方式中,若需要,可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。图12中以一个处理器1201为例。
存储器1202作为一种非瞬时计算机可读存储介质,可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块,如本申请实施例中的应答设备的方法对应的程序指令/模块(例如,附图11所示的解析模块1101、分类模块1102、转换模块1103和生成模块1104和应答模块1105)。处理器1201通过运行存储在存储器1202中的非瞬时软件程序、指令以及模块,从而执行应答设备的各种功能应用以及数据处理,即实现上述方法实施例中的应答设备的方法。
应答设备还可以包括:输入装置1203和输出装置1204。处理器1201、存储器1202、输入装置1203和输出装置1204可以通过总线或者其他方式连接,图12中以通过总线连接为例。
输入装置1203可接收输入的数字或字符信息,以及产生与应答设备的用户设置以及功能控制有关的键信号输入,例如触摸屏、小键盘、鼠标、或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置1204可以是应答设备的显示设备等输出设备。该显示设备可以包括但不限于,液晶显示器(LCD)、发光二极管(LED)显示器和等离子体显示器。在一些实施方式中,显示设备可以是触摸屏。
本申请实施例的应答设备,可以用于执行本申请上述各方法实施例中的技术方案,其实现原理和技术效果类似,此处不再赘述。
本申请实施例还提供一种计算机可读存储介质,该计算机可读存储介质中存储有计算机执行指令,计算机执行指令被处理器执行时用于实现上述任一的应答方法。
本申请实施例还提供一种计算机程序产品,包括计算机程序,计算机程序被处理器执行时,用于实现上述任一项的应答方法。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
本领域技术人员在考虑说明书及实践这里公开的申请后,将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求书指出。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求书来限制。

Claims (10)

1.一种应答方法,其特征在于,包括:
获取问题,对所述问题进行解析处理,得到所述问题对应的实体列表、类型列表、约束列表和属性值列表;
将所述问题输入至预设分类模型,根据输出结果确定所述问题对应的问题类型;
若所述问题类型不是事实型问题,则对所述问题进行转换处理,得到至少一个目标事实型问题;
根据所述实体列表、所述类型列表、所述约束列表、所述属性值列表和所述至少一个目标事实型问题,生成问题查询图;
根据所述问题查询图,在预设知识图谱中进行查询,得到应答结果。
2.根据权利要求1所述的方法,其特征在于,所述问题类型包括事实型问题、对比型问题、交集型问题和是非型问题;
所述对所述问题进行转换处理,得到至少一个目标事实型问题,包括:
若所述问题类型为对比型问题,则删除所述问题中的代词短语,根据所述问题中的形容词确定目标事实型问题;
若所述问题类型为交集型问题,则删除所述问题中的特定交集短语,根据所述问题中的主语得到至少两个目标事实性问题;
若所述问题类型为是非型问题,则根据所述问题中的实体和\或属性,确定目标事实型问题。
3.根据权利要求2所述的方法,其特征在于,在所述将所述问题输入至预设分类模型,根据输出结果确定所述问题对应的问题类型之前,还包括:
获取多个问题类型训练样本,并对所述多个问题类型训练样本进行问题类型的标注;
将携带有标注的问题类型训练样本输入至分类模型进行训练,得到预设分类模型。
4.根据权利要求1至3任一项所述的方法,其特征在于,所述根据所述实体列表、所述类型列表、所述约束列表、所述属性值列表和所述至少一个目标事实型问题,生成问题查询图,包括:
通过波束搜索算法,对所述实体列表、所述类型列表、所述约束列表、所述属性值列表和所述至少一个目标事实型问题进行迭代处理,得到多个候选查询图;
对所述多个候选查询图进行筛选处理,得到问题查询图。
5.根据权利要求4所述的方法,其特征在于,所述对所述多个候选查询图进行筛选处理,得到问题查询图,包括:
计算每个所述候选查询图的特征参数,其中,特征参数包括查询图与问题文本相似度、查询图中的实体数量、实体链接分数总和、类型数量、类型链接分数总和、约束数量、属性值数量、关系路径跳数、查询图执行的答案数量;
根据所述特征参数,得到每个所述候选查询图对应的多维特征向量;
将所述多维特征向量输入至预设预测模型,根据输出结果得到每个所述候选查询图的预测分数;
根据每个所述候选查询图的预测分数,确定问题查询图。
6.根据权利要求1至3任一项所述的方法,其特征在于,所述对所述问题进行解析处理,得到所述问题对应的实体列表、类型列表、约束列表和属性值列表,包括:
将所述问题输入至预设提取模型,根据输出结果得到所述问题对应的普通实体、主题实体、类型和属性值;
将所述普通实体和所述主题实体的集合与预设知识图谱建立链接,在所述预设知识图谱中确定所述问题对应的实体列表;
将所述类型与所述预设知识图谱建立链接,在所述预设知识图谱中确定所述问题对应的类型列表;
根据属性值和预设匹配规则,确定约束列表和属性值列表。
7.根据权利要求6所述的方法,其特征在于,在所述将所述问题输入至预设提取模型之前,还包括:
获取多个问题提取训练样本,并对所述多个问题提取训练样本进行标签标注,其中,所述标签包括普通实体、主题实体、类型和属性值;
将携带有标签标注的问题提取训练样本输入至提取模型进行训练,得到预设提取模型。
8.一种应答装置,其特征在于,包括:
解析模块,用于获取问题,对所述问题进行解析处理,得到所述问题对应的实体列表、类型列表、约束列表和属性值列表;
分类模块,用于将所述问题输入至预设分类模型,根据输出结果确定所述问题对应的问题类型;
转换模块,用于若所述问题类型不是事实型问题,则对所述问题进行转换处理,得到至少一个目标事实型问题;
生成模块,用于根据所述实体列表、所述类型列表、所述约束列表、所述属性值列表和所述至少一个目标事实型问题,生成问题查询图;
应答模块,用于根据所述问题查询图,在预设知识图谱中进行查询,得到应答结果。
9.一种应答设备,其特征在于,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1至7任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机执行指令,所述计算机执行指令被处理器执行时用于实现如权利要求1至7任一项所述的应答方法。
CN202111333097.4A 2021-11-11 2021-11-11 应答方法、装置、设备及存储介质 Pending CN114117000A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111333097.4A CN114117000A (zh) 2021-11-11 2021-11-11 应答方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111333097.4A CN114117000A (zh) 2021-11-11 2021-11-11 应答方法、装置、设备及存储介质

Publications (1)

Publication Number Publication Date
CN114117000A true CN114117000A (zh) 2022-03-01

Family

ID=80378526

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111333097.4A Pending CN114117000A (zh) 2021-11-11 2021-11-11 应答方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN114117000A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114756663A (zh) * 2022-03-29 2022-07-15 税友信息技术有限公司 一种智能问答方法、系统、设备及计算机可读存储介质
CN116383027A (zh) * 2023-06-05 2023-07-04 阿里巴巴(中国)有限公司 人机交互的数据处理方法及服务器
CN116932730A (zh) * 2023-09-14 2023-10-24 天津汇智星源信息技术有限公司 基于多叉树和大规模语言模型的文档问答方法及相关设备

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114756663A (zh) * 2022-03-29 2022-07-15 税友信息技术有限公司 一种智能问答方法、系统、设备及计算机可读存储介质
CN116383027A (zh) * 2023-06-05 2023-07-04 阿里巴巴(中国)有限公司 人机交互的数据处理方法及服务器
CN116383027B (zh) * 2023-06-05 2023-08-25 阿里巴巴(中国)有限公司 人机交互的数据处理方法及服务器
CN116932730A (zh) * 2023-09-14 2023-10-24 天津汇智星源信息技术有限公司 基于多叉树和大规模语言模型的文档问答方法及相关设备
CN116932730B (zh) * 2023-09-14 2023-12-01 天津汇智星源信息技术有限公司 基于多叉树和大规模语言模型的文档问答方法及相关设备

Similar Documents

Publication Publication Date Title
CN111475623B (zh) 基于知识图谱的案件信息语义检索方法及装置
CN110968699B (zh) 一种基于事理推荐的逻辑图谱构建及预警方法和装置
CN110727779A (zh) 基于多模型融合的问答方法及系统
CN114064918B (zh) 一种多模态事件知识图谱构建方法
CN114117000A (zh) 应答方法、装置、设备及存储介质
CN111159385A (zh) 一种基于动态知识图谱的无模板通用智能问答方法
CN102567509B (zh) 视觉信息辅助的即时通信方法及系统
CN103544242A (zh) 面向微博的情感实体搜索系统
Nagamanjula et al. A novel framework based on bi-objective optimization and LAN2FIS for Twitter sentiment analysis
CN116775847A (zh) 一种基于知识图谱和大语言模型的问答方法和系统
CN116127090B (zh) 基于融合和半监督信息抽取的航空系统知识图谱构建方法
US20230030086A1 (en) System and method for generating ontologies and retrieving information using the same
CN116450834A (zh) 一种基于多模态语义特征的档案知识图谱构建方法
Lian et al. Knowledge graph construction based on judicial data with social media
CN112507089A (zh) 一种基于知识图谱的智能问答引擎及其实现方法
Zheng et al. Visual entity linking via multi-modal learning
CN117312499A (zh) 一种基于语义的大数据分析系统及方法
Liu et al. Relation classification via BERT with piecewise convolution and focal loss
Zhao RETRACTED ARTICLE: Application of deep learning algorithm in college English teaching process evaluation
CN112417170B (zh) 面向不完备知识图谱的关系链接方法
CN117932022A (zh) 一种智能问答方法、装置、电子设备及存储介质
CN116523041A (zh) 装备领域知识图谱构建方法、检索方法、系统及电子设备
Xie et al. Research and implementation of automatic question answering system based on ontology
CN115982322A (zh) 一种水利行业设计领域知识图谱的检索方法及检索系统
CN114942981A (zh) 问答查询方法、装置、电子设备及计算机可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination