CN115470328A - 基于知识图谱的开放领域问答方法及相关设备 - Google Patents

基于知识图谱的开放领域问答方法及相关设备 Download PDF

Info

Publication number
CN115470328A
CN115470328A CN202210964248.4A CN202210964248A CN115470328A CN 115470328 A CN115470328 A CN 115470328A CN 202210964248 A CN202210964248 A CN 202210964248A CN 115470328 A CN115470328 A CN 115470328A
Authority
CN
China
Prior art keywords
path
training
problem description
combined
paths
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210964248.4A
Other languages
English (en)
Inventor
贾勇哲
马国宁
王林
徐大为
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianjin Thai Technology Co ltd
Original Assignee
Tianjin Thai Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin Thai Technology Co ltd filed Critical Tianjin Thai Technology Co ltd
Priority to CN202210964248.4A priority Critical patent/CN115470328A/zh
Publication of CN115470328A publication Critical patent/CN115470328A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology

Abstract

本申请提供了一种基于知识图谱的开放领域问答方法及相关设备,该方法通过多种匹配方法对问题描述的实体和属性进行提取得到实体属性候选集,能够有效提升实体属性抽取的召回率,避免漏掉问题描述中的隐层信息。基于实体属性候选集进行路径挖掘以得到初始路径,再对初始路径进行组合和筛选以得到带有限制条件的限制组合路径,能够有效降低无效路径的召回,针对多限制问题描述进行精确路径建模,进而降低后续针对路径的算力成本。通过分类模型输出限制组合路径和问题描述的相似度得分,将相似度得分得分最高的限制组合路径对应的知识图谱子图作为推荐答案数据,提升用户的体验感。

Description

基于知识图谱的开放领域问答方法及相关设备
技术领域
本申请涉及知识图谱技术领域,尤其涉及一种基于知识图谱的开放领域问答方法及相关设备。
背景技术
随着互联网的迅速发展,数据量呈爆炸性的增长。网络数据正在从只包含网页之间文本数据的文档万维网转变为包含大量描述实体之间丰富关系的数据万维网。而知识图谱能够形式化地描述现实世界中的事物及其相互之间的关系,是以图的形式存储人类知识的大规模语义网络。目前,基于知识图谱的问答技术侧重于单次抽取的精度,抽取时尽可能减少实体和属性值的数量,导致抽取结果难以覆盖完全。此外,在路径查询时,使用固定模板进行查询且缺乏限制条件,导致获取路径不完全且及包含较多的无效路径,进而影响问答结果的准确性。
发明内容
有鉴于此,本申请的目的在于提出一种基于知识图谱的开放领域问答方法及相关设备。
基于上述目的,本申请提供了一种基于知识图谱的开放领域问答方法,包括:
获取用户输入的问题描述;
采用匹配方法对所述问题描述中的实体和属性进行提取,以得到实体属性候选集;
基于所述实体属性候选集中的实体和属性,在预先构建的知识图谱中进行路径挖掘,以得到多个初始路径;
对全部所述初始路径进行组合,得到多个组合路径;
对全部所述组合路径进行筛选,以得到多个限制组合路径;
将每个所述限制组合路径与所述问题描述输入至经过预训练的分类模型中进行分类预测,得到所述限制组合路径与所述问题描述的相似度分数;
将最大所述相似度分数对应的所述限制组合路径在所述知识图谱中匹配的子图作为所述问题描述的推荐答案数据。
进一步的,所述采用匹配方法对所述问题描述中的实体和属性进行提取,以得到实体属性候选集,包括:
通过精确匹配方法和模糊匹配方法分别对所述问题描述中的实体和属性进行提取,以得到所述实体属性候选集。
进一步的,所述实体属性候选集包括第一候选集和第二候选集,所述通过精确匹配方法和模糊匹配方法分别对所述问题描述中的实体和属性进行提取,以得到所述实体属性候选集,包括:
将所述问题描述与预先构建的字典树进行匹配,以得到所述第一候选集;
分别采用倒排索引方法和命名实体识别方法对所述问题描述中的实体进行提取,分别采用Duckling数值抽取方法和Lucene索引方法对所述问题描述中的属性进行提取,以得到所述第二候选集。
进一步的,所述对全部所述初始路径进行组合,得到多个组合路径,包括:
将具有相同答案节点的所述初始路径进行组合,得到所述组合路径。
进一步的,所述对全部所述组合路径进行筛选,以得到多个限制组合路径,包括:
基于所述问题描述确定与其关联的推理变量以及约束条件;
根据推理变量的数值大小对全部所述组合路径进行排序,将满足所述约束条件的所述组合路径作为所述限制组合路径。
进一步的,所述预训练,包括:
构建正样本训练集和负样本训练集;
将所述正样本训练集和负样本训练集划分为多组正样本子训练集和负样本子训练集,每组正样本子训练集和负样本子训练集对应所述预训练的多轮训练中的一轮训练;
对于所述多轮训练中的每轮训练,
基于正样本子训练集和负样本子训练集,采用交叉熵损失函数对所述分类模型进行训练;
从所述负样本训练集中随机选取N条负样本对经过当前轮训练的所述分类模型进行测试,得到测试结果,其中,N为正整数;
将不符合预设阈值的测试结果对应的所述负样本添加至下一轮训练对应的负样本子训练集中;
响应于达到所述预训练的预设截止条件时,停止所述预训练。
进一步的,所述分类模型至少包括BERT模型、ERNIE模型、BERT-wwm模型和RoBERTa-wwn分模型。
本申请还提供了一种基于知识图谱的开放领域问答装置,包括:
获取模块,被配置为获取用户输入的问题描述;
提取模块,被配置为采用匹配方法对所述问题描述中的实体和属性进行提取,以得到实体属性候选集;
初始路径挖掘模块,被配置为基于所述实体属性候选集中的实体和属性,在预先构建的知识图谱中进行路径挖掘,以得到多个初始路径;
组合模块,被配置为对全部所述初始路径进行组合,得到多个组合路径;
筛选模块,被配置为对全部所述组合路径进行筛选,以得到多个限制组合路径;
分类预测模块,被配置为将每个所述限制组合路径与所述问题描述输入至经过预训练的分类模型中进行分类预测,得到所述限制组合路径与所述问题描述的相似度分数;
推荐模块,被配置为将最大所述相似度分数对应的所述限制组合路径在所述知识图谱中匹配的子图作为所述问题描述的推荐答案数据。
本申请还提供了一种电子设备,包括存储器、处理器及存储在所述存储器上并可由所述处理器执行的计算机程序,所述处理器在执行所述计算机程序时实现如上所述的方法。
本申请还提供了一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令用于使计算机执行如上所述的方法。
从上面所述可以看出,本申请提供的基于知识图谱的开放领域问答方法及相关设备,该方法通过多种匹配方法对问题描述的实体和属性进行提取得到实体属性候选集,能够有效提升实体属性抽取的召回率,避免漏掉问题描述中的隐层信息。基于实体属性候选集进行路径挖掘以得到初始路径,再对初始路径进行组合和筛选以得到带有限制条件的限制组合路径,能够有效降低无效路径的召回,针对多限制问题描述进行精确路径建模,进而降低后续针对路径的算力成本。通过分类模型输出限制组合路径和问题描述的相似度得分,将相似度得分得分最高的限制组合路径对应的知识图谱子图作为推荐答案数据,提升用户的体验感。
附图说明
为了更清楚地说明本申请或相关技术中的技术方案,下面将对实施例或相关技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例的基于知识图谱的开放领域问答方法的流程图;
图2为本申请实施例的组合路径筛选方法的流程图;
图3为本申请实施例的预训练的方法流程图;
图4为本申请实施例的基于知识图谱的开放领域装置的结构示意图;
图5为本申请实施例的电子设备硬件结构示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本申请进一步详细说明。
需要说明的是,除非另外定义,本申请实施例使用的技术术语或者科学术语应当为本申请所属领域内具有一般技能的人士所理解的通常意义。本申请实施例中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性,而只是用来区分不同的组成部分。“包括”或者“包含”等类似的词语意指出现该词前面的元件或者物件涵盖出现在该词后面列举的元件或者物件及其等同,而不排除其他元件或者物件。“连接”或者“相连”等类似的词语并非限定于物理的或者机械的连接,而是可以包括电性的连接,不管是直接的还是间接的。“上”、“下”、“左”、“右”等仅用于表示相对位置关系,当被描述对象的绝对位置改变后,则该相对位置关系也可能相应地改变。
如背景技术所述,目前,现有知识图谱问答技术侧重于单次抽取的精度,尽可能减少抽取的实体和属性值的数量,通常采用BERT+CRF模型完成命名实体识别NER任务进行完全精确的匹配,并将判断为实体的结果输入实体链接词典完成实体召回,抽取结果数量在1-3个左右。路径查询模板则采用固定模板,如单实体一跳、单实体二跳、二实体一跳、二实体二跳和三实体一跳等,再通过分类模型进行分类预测得到问答结果,此过程缺乏对限制条件的表述,导致大量无效路径的召回。且当前知识图谱问答方法通常将单一模型作为分类模型,并将全部错误路径作为对分裂模型训练阶段的负样例,未考虑负样例的典型性问题,无法提升分类模型对典型错误路径的识别能力。
以下结合附图来详细说明本申请的实施例。
本申请提供了一种基于知识图谱的开放领域问答方法,参考图1,包括以下几个步骤:
步骤101、获取用户输入的问题描述。本步骤对问题描述的领域不做具体限制,可以是开放领域的问题描述,且该问题描述通常带有限制约束条件,可以是时间、地点、范围等限制条件。在后续推荐答案数据时需要考虑这些限制约束条件,以便为用户精确推荐。
步骤102、采用匹配方法对所述问题描述中的实体和属性进行提取,以得到实体属性候选集。通过匹配方法提取问题描述中的实体和属性,选取适当的匹配方法不仅能够保证实体和属性的召回率,还能够保证提取的准确率。
步骤103、基于所述实体属性候选集中的实体和属性,在预先构建的知识图谱中进行路径挖掘,以得到多个初始路径。经过步骤102得到实体属性候选集后,根据候选集中的每个实体和属性,以预先构建的知识图谱中的初始化节点或答案节点开始进行路径挖掘,基于实体和属性所在的节点于沿知识图谱中的三元组方向进行拓展,随机按照出关系或入关系进行路径拓展,将实体和属性所在节点的一跳或两跳路径作为初始路径。本步骤中的一跳或两跳仅作为示例性说明,在实际路径挖掘时可以同时采用其他方式挖掘,例如单实体一跳、单实体二跳、二实体一跳、二实体二跳和三实体一跳等,具体挖掘方式可根据实际情况进行调整。
步骤104、对全部所述初始路径进行组合,得到多个组合路径。初始路径中可能存在相同答案节点,将带有相同答案节点的路径进行组合得到组合路径,对全部初始路径进行组合后,得到多个组合路径。
步骤105、对全部所述组合路径进行筛选,以得到多个限制组合路径。如前所述,问题描述中通常带有限制约束条件,得到组合路径后,为了避免引入无效路径,需要基于限制约束条件对组合路径进行筛选,得到限制组合路径,以更精准的为用户推荐答案数据。
步骤106、将每个所述限制组合路径与所述问题描述输入至经过预训练的分类模型中进行分类预测,得到所述限制组合路径与所述问题描述的相似度分数。分类预测模型可以计算得到两个向量表示之间的相似度,将限制路径组合和问题描述嵌入至分类预测模型中转换为向量表示,进而得到问题描述和限制路径组合的相似度分数。本步骤对分类模型的具体类型不做限制,现有常用的分类模型均可,可根据每个分类模型的偏好进而选择合适的分类模型进行分类预测。
步骤107、将最大所述相似度分数对应的所述限制组合路径在所述知识图谱中匹配的子图作为所述问题描述的推荐答案数据。得到相似度分数最大的限制组合路径后,将该限制组合路径在知识图谱中涉及的子图返回给用户作为推荐答案数据。子图中包括符合问题描述的答案节点,也可能包括一些不包含在问题描述中的参考节点,参考节点可以为用户提供更多的选择。
在一些实施例中,所述采用匹配方法对所述问题描述中的实体和属性进行提取,以得到实体属性候选集,包括:
通过精确匹配方法和模糊匹配方法分别对所述问题描述中的实体和属性进行提取,以得到所述实体属性候选集。
本实施例中采用两种匹配方法提取实体和属性值,其中,精确匹配可以将问题描述中字面上包含的字或词进行匹配。模糊匹配可以提取问题描述中深层含义,避免漏掉问题描述中的隐层信息,有效提升实体和属性值的召回率。通过两种匹配方法将自然语言问题中可能与知识图谱关联的所有实体和属性尽可能进行提取。
在一些实施例中,所述实体属性候选集包括第一候选集和第二候选集,所述通过精确匹配方法和模糊匹配方法分别对所述问题描述中的实体和属性进行提取,以得到所述实体属性候选集,包括:
将所述问题描述与预先构建的字典树进行匹配,以得到所述第一候选集;
分别采用倒排索引方法和命名实体识别方法对所述问题描述中的实体进行提取,分别采用Duckling数值抽取方法和Lucene索引方法对所述问题描述中的属性进行提取,以得到所述第二候选集。
具体的,首先,采用自行构建的字典树进行精准匹配,用于实体连接环节,针对问题描述在字面上能够匹配的实体和属性值。字典树的具体构建过程为,将知识库三元组中的实体和属性值构建提及后载入到字典树中,以与问题描述进行匹配。其中,提及表示问题描述中的信息,提及与知识图谱中的实体对应,但是与实体的名称不同。需要说明的是,实体/属性在构建提及时,可能是一对多的,也即一个实体/属性对应多个提及。实体/属性在大小写归一、时间/日期归一、以及去掉标点符号等前后的字符串都会作为提及载入到字典树中,以进一步提升实体/属性的召回率。字典树构建完成后,将问题描述与字典树进行精确匹配,得到第一候选集。
其次,采用模糊匹配对实体和属性进行提取。问题描述中包含实体和属性,针对实体和属性不同的特性,分别采用不用的方法对实体和属性进行提取。对于实体提取,分别采用倒排索引方法和命名实体识别方法。其中,倒排索引方法具体为,首先建立问题描述中的字到知识库中的实体/属性值的倒排索引,获取候选的实体/属性值,基于候选实体/属性值的所有元素构建集合,在该集合中除去作为集合另一实体/属性值字符子串的元素,得到集合元素中的所有最长公共子序列。例如,集合中包含天津和天津大学,天津作为天津大学的字符子串,天津大学作为最长公共子序列。其次,通过截取与公共子序列同名的问句子串定位候选实体在问题描述中可能的提及。再次,使用word2vec算法计算问题描述中的提及与候选实体之间的相似度,根据相似度对候选实体降序排序,选择最优实体。例如问题描述为“佩妮莱·费舍尔·克里斯滕森导演的丹麦喜剧片叫什么名字?”,获取的候选实体/属性值为<佩妮莱>、<费舍尔>、<克里斯滕森>、<佩妮莱·费舍尔·克里斯滕森(第32届开罗国际电影节最佳导演)>和<丹麦>,确定的最长公共子序列为<佩妮莱·费舍尔·克里斯滕森(第32届开罗国际电影节最佳导演)>和<丹麦>,截取问题描述中与候选实体相同的子序列得到的提及为“佩妮莱·费舍尔·克里斯滕森”和“丹麦”,分别计算<佩妮莱·费舍尔·克里斯滕森(第32届开罗国际电影节最佳导演)>和“佩妮莱·费舍尔·克里斯滕森”及<丹麦>和“丹麦”的相似度,将相似度最小的<丹麦>作为最优实体。
命名实体识别方法NER是利用开源数据库的问答训练数据集中的查询语言和数据获取协议SPARQL(SPARQL Protocol and RDF Query Language),查询语句问题进行指称反标来构建训练数据,训练完成后即可通过模型输出实体作为候选实体。例如,目标实体“<成都魔幻星空酒店>”,在问题描述中的表达是“成都的魔幻星座酒店”,此时可通过命名实体识别方法NER进行识别确定候选实体为“成都魔幻星空酒店”。
对于属性提取,分别采用Duckling数值抽取方法和Lucene索引方法。其中,Duckling可针对问题描述中的数字、时间等进行解析,为下游提供建议的属性候选。例如,问题描述为“雍和宫附近3公里内,能在晚上六点入住的酒店有哪些?”,其中,“3公里”和“晚上六点”需要解析成SPARQL中需要的数值3.0和时间18:00。
Lucene索引根据知识库中的三元组中包含的属性值进行建立,将问题描述检索得到的Top1结果加入到实体/属性的候选中,可用于长属性识别。例如,问题描述为““2009年第一轮第3位被雷霆队选中”的球员球衣号码是?”中的“2009年第一轮第3位被雷霆队选中”是目标属性,这类长属性在句子中可能占据了大半部分的字符。
综上,将通过上述模糊匹配得到的候选实体和属性作为第二候选集。
在一些实施例中,所述对全部所述初始路径进行组合,得到多个组合路径,包括:将具有相同答案节点的所述初始路径进行组合,得到所述组合路径。
具体的,不同的初始路径可能包含相同的答案节点,基于答案节点对不同的初始路径进行组合,得到组合路径。例如,初始路径为“?a<类型><酒店><天坛公园>”和“<天坛公园><附近>?cvt1.”,答案节点为“<天坛公园>”,因此,组合路径为“?a<类型><酒店><天坛公园><附近>?cvt1.”。
需要说明的是,在初始路径合并得到的组合路径中可能存在着不同的路径类型,不同类型的初始路径包含的主语S、谓语P和宾语O不同。针对每个类型设置2个参数,第一个参数为是否允许该类型路径多次出现在组合路径中,数字1表示允许多次出现,数字0表示不允许多次出现;第二个参数为该类型路径是否必须出现在组合路径中,数字1表示必须出现在组合路径中,数字0表示非必须出现在组合路径中。合理配置两参数可为路径挖掘过程完成剪枝,大幅提升路径挖掘效率。例如针对问题描述“在天坛公园附近有哪些酒店可以入住?”,路径挖掘得到的初始路径如表1中前三个路径所示,在增加表内右侧两个参数后,所得到的组合路径如表1中路径4所示:
表1 组合路径及参数
Figure BDA0003794133180000091
在一些实施例中,参考图2,所述对全部所述组合路径进行筛选,以得到多个限制组合路径,包括以下几个步骤:
步骤201、基于所述问题描述确定与其关联的推理变量以及约束条件;
步骤202、根据推理变量的数值大小对全部所述组合路径进行排序,将满足所述约束条件的所述组合路径作为所述限制组合路径。
具体的,可根据问题描述提前构建推理变量。例如,推理变量可以为“平均价格”、“时间”、“距离值”、“房屋面积”、“容纳人数”等,推理变量的数量可以根据实际情况灵活调整,本实施例中的推理变量只做示例性说明。所述约束条件可以为针对推理变量的数值限制条件,例如,“平均价格”在500元之内等等。需要说明的是,约束条件的描述可以通过SPARQL进行转换,例如将问题描述中的约束条件转换为“filter(?price<800)”,表示返回price小于800的结果。
通常,问题描述中仅包含一个推理变量,根据该推理变量的数值大小对全部组合路径进行排序,将满足约束条件的组合路径作为限制组合路径。例如,问题描述中包含平均价格,根据平均价格的高低顺序进行排序后,再根据价格的约束条件,例如价格小于500,进一步对得到的组合路径进行过滤,除去平均价格大于500的组合路径。
在现有的负采样方法中,如果全量抽取候选路径作为负样本训练模型时,会出现严重的数据不平衡问题,这在句对分类任务中会表现得更加显著。最简单的一种负采样方式为,直接从每个问题描述对应的候选路径中,随机抽取n个样本,作为负样本来训练模型。这种方式可能存在的问题是,由于采样数量的限制没有覆盖到一些典型的负例,导致模型对这一类的预测会比较差,基于此,可以在不同epoch中,不断更新负样本。另一种负采方法为,在每一个epoch训练完后,对所有的负样本进行一次全量的预测,找出预测结果较差的负样本,来加入到下一轮的训练样本中。但是,若负样本数量爆炸,全量预测在时间上并非完全可行。此外,从阻止训练轮次过多导致模型对正样本过拟合的角度来考虑,即便预测结果较差的负样本数量比较多,增加训练轮次和增加负样本也是有限的。因此,本申请提出了一种负采样的预训练方法,以克服上述问题,具体如下。
在一些实施例中,参考图3,所述预训练,包括以下几个步骤:
步骤301、构建正样本训练集和负样本训练集;
步骤302、将所述正样本训练集和负样本训练集划分为多组正样本子训练集和负样本子训练集,每组正样本子训练集和负样本子训练集对应所述预训练的多轮训练中的一轮训练;
对于所述多轮训练中的每轮训练,
步骤303、基于正样本子训练集和负样本子训练集,采用交叉熵损失函数对所述分类模型进行训练;
步骤304、从所述负样本训练集中随机选取N条负样本对经过当前轮训练的所述分类模型进行测试,得到测试结果,其中,N为正整数;
步骤305、将不符合预设阈值的测试结果对应的所述负样本添加至下一轮训练对应的负样本子训练集中;
步骤306、响应于达到所述预训练的截止条件时,停止所述预训练。
具体的,在训练过程中,首先构建正样本训练集和负样本训练集,再对其进行划分为多组正样本子训练集和负样本子训练集。每组正样本子训练集和负样本子训练集用于一轮训练。
在每轮训练后,无需对所有负样例进行全量预测,而是从全部负样本中采样N条数据来进行预测,再从中选择预测结果较差的负样本添加至下一轮的训练中。在训练过程中,首先将正样本输入至模型并令其标签为1,将负样本输入模型并令其标签为0,以交叉熵为损失函数对分类模型执行二分类训练,交叉熵具体为:
Figure BDA0003794133180000111
其中,H(p,q)表示交叉熵函数,p为真实训练数据的分布,q为训练后模型预测结果的分布,x为输入模型的样本,p(x)与q(x)分别表示输入样本的真实概率分布和后验概率分布。
所述训练截止条件可以为预设阈值或预设次数等,当分类模型的测试结果达到预设阈值或分类模型的训练达到预设次数时,则停止分类模型的预训练。
在一些实施例中,所述分类模型至少包括BERT模型、ERNIE模型、BERT-wwm模型和RoBERTa-wwn模型。
具体的,将每个限制组合路径输入至分类模型时,是将每个限制组合路径分别输入至BERT模型、ERNIE模型、BERT-wwm模型和RoBERTa-wwn模型中,得到每个模型针对该限制组合路径与问题描述的相似度得分,综合4个模型的输出结果得到综合的相似度得分。其中,可以将每个模型输出的结果赋予不同的权重,以进一步提升综合相似度得分的准确性。
需要说明的是,将限制组合路径输入至每个模型之前,需要根据每个模型的特征对限制组合路径进行转换。其中,BERT模型采用的转换方式为:根据路径的类型,在限制组合路径包含的实体和属性的先后顺序在实体和属性之间增加“的”,以构建自然语言句子。例如,限制组合路径为“<刘德华><妻子>?b”,增加“的”后,转换为“刘德华的妻子的?b”。
ERNIE模型采用的转换方式为:舍去所有中间变量,将答案变量用特殊符号,例如“^”代替后直接将实体、属性和特殊符号组成的字符串进行拼接,中间变量和答案变量是根据问题描述确定的,例如,问题描述为“刘德华妻子的出生日期是哪天?”,中间变量为刘德华妻子的真实名字,答案变量为具体的出生日期,经转换为“刘德华妻子出生日期^”。
BERT-wwm模型和RoBERTa-wwn模型采用的转换方式为:把答案节点当做被mask掉的内容,用预训练的特殊字符[MASK]来表示,而中间变量用[UNK]来表示。例如,将“刘德华妻子的出生日期是哪天?”转换为“刘德华,妻子,[UNK].[出生日期,[MASK].”。
上述三种转换方式是针对每种模型的特性决定的,如果在其他实施例中选用其他的分类模型,则可以根据该分类模型的特性设定相应的转换方式。
需要说明的是,本申请实施例的方法可以由单个设备执行,例如一台计算机或服务器等。本实施例的方法也可以应用于分布式场景下,由多台设备相互配合来完成。在这种分布式场景的情况下,这多台设备中的一台设备可以只执行本申请实施例的方法中的某一个或多个步骤,这多台设备相互之间会进行交互以完成所述的方法。
需要说明的是,上述对本申请的一些实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于上述实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
基于同一发明构思,与上述任意实施例方法相对应的,本申请还提供了一种基于知识图谱的开放领域问答装置。
参考图4,所述基于知识图谱的开放领域问答装置,包括:
获取模块401,被配置为获取用户输入的问题描述;
提取模块402,被配置为采用匹配方法对所述问题描述中的实体和属性进行提取,以得到实体属性候选集;
初始路径挖掘模块403,被配置为基于所述实体属性候选集中的实体和属性,在预先构建的知识图谱中进行路径挖掘,以得到多个初始路径;
组合模块404,被配置为对全部所述初始路径进行组合,得到多个组合路径;
筛选模块405,被配置为对全部所述组合路径进行筛选,以得到多个限制组合路径;
分类预测模块406,被配置为将每个所述限制组合路径与所述问题描述输入至经过预训练的分类模型中进行分类预测,得到所述限制组合路径与所述问题描述的相似度分数;
推荐模块407,被配置为将最大所述相似度分数对应的所述限制组合路径在所述知识图谱中匹配的子图作为所述问题描述的推荐答案数据。
为了描述的方便,描述以上装置时以功能分为各种模块分别描述。当然,在实施本申请时可以把各模块的功能在同一个或多个软件和/或硬件中实现。
上述实施例的装置用于实现前述任一实施例中相应的基于知识图谱的开放领域问答方法,并且具有相应的方法实施例的有益效果,在此不再赘述。
基于同一发明构思,与上述任意实施例方法相对应的,本申请还提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上任意一实施例所述的基于知识图谱的开放领域问答方法。
图5示出了本实施例所提供的一种更为具体的电子设备硬件结构示意图,该设备可以包括:处理器1010、存储器1020、输入/输出接口1030、通信接口1040和总线1050。其中处理器1010、存储器1020、输入/输出接口1030和通信接口1040通过总线1050实现彼此之间在设备内部的通信连接。
处理器1010可以采用通用的CPU(Central Processing Unit,中央处理器)、微处理器、应用专用集成电路(Application Specific Integrated Circuit,ASIC)、或者一个或多个集成电路等方式实现,用于执行相关程序,以实现本说明书实施例所提供的技术方案。
存储器1020可以采用ROM(Read Only Memory,只读存储器)、RAM(Random AccessMemory,随机存取存储器)、静态存储设备,动态存储设备等形式实现。存储器1020可以存储操作系统和其他应用程序,在通过软件或者固件来实现本说明书实施例所提供的技术方案时,相关的程序代码保存在存储器1020中,并由处理器1010来调用执行。
输入/输出接口1030用于连接输入/输出模块,以实现信息输入及输出。输入输出/模块可以作为组件配置在设备中(图中未示出),也可以外接于设备以提供相应功能。其中输入设备可以包括键盘、鼠标、触摸屏、麦克风、各类传感器等,输出设备可以包括显示器、扬声器、振动器、指示灯等。
通信接口1040用于连接通信模块(图中未示出),以实现本设备与其他设备的通信交互。其中通信模块可以通过有线方式(例如USB、网线等)实现通信,也可以通过无线方式(例如移动网络、WIFI、蓝牙等)实现通信。
总线1050包括一通路,在设备的各个组件(例如处理器1010、存储器1020、输入/输出接口1030和通信接口1040)之间传输信息。
需要说明的是,尽管上述设备仅示出了处理器1010、存储器1020、输入/输出接口1030、通信接口1040以及总线1050,但是在具体实施过程中,该设备还可以包括实现正常运行所必需的其他组件。此外,本领域的技术人员可以理解的是,上述设备中也可以仅包含实现本说明书实施例方案所必需的组件,而不必包含图中所示的全部组件。
上述实施例的电子设备用于实现前述任一实施例中相应的基于知识图谱的开放领域问答方法,并且具有相应的方法实施例的有益效果,在此不再赘述。
基于同一发明构思,与上述任意实施例方法相对应的,本申请还提供了一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令用于使所述计算机执行如上任一实施例所述的基于知识图谱的开放领域问答方法。
本实施例的计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。
上述实施例的存储介质存储的计算机指令用于使所述计算机执行如上任一实施例所述的基于知识图谱的开放领域问答方法,并且具有相应的方法实施例的有益效果,在此不再赘述。
所属领域的普通技术人员应当理解:以上任何实施例的讨论仅为示例性的,并非旨在暗示本申请的范围(包括权利要求)被限于这些例子;在本申请的思路下,以上实施例或者不同实施例中的技术特征之间也可以进行组合,步骤可以以任意顺序实现,并存在如上所述的本申请实施例的不同方面的许多其它变化,为了简明它们没有在细节中提供。
另外,为简化说明和讨论,并且为了不会使本申请实施例难以理解,在所提供的附图中可以示出或可以不示出与集成电路(IC)芯片和其它部件的公知的电源/接地连接。此外,可以以框图的形式示出装置,以便避免使本申请实施例难以理解,并且这也考虑了以下事实,即关于这些框图装置的实施方式的细节是高度取决于将要实施本申请实施例的平台的(即,这些细节应当完全处于本领域技术人员的理解范围内)。在阐述了具体细节(例如,电路)以描述本申请的示例性实施例的情况下,对本领域技术人员来说显而易见的是,可以在没有这些具体细节的情况下或者这些具体细节有变化的情况下实施本申请实施例。因此,这些描述应被认为是说明性的而不是限制性的。
尽管已经结合了本申请的具体实施例对本申请进行了描述,但是根据前面的描述,这些实施例的很多替换、修改和变型对本领域普通技术人员来说将是显而易见的。例如,其它存储器架构(例如,动态RAM(DRAM))可以使用所讨论的实施例。
本申请实施例旨在涵盖落入所附权利要求的宽泛范围之内的所有这样的替换、修改和变型。因此,凡在本申请实施例的精神和原则之内,所做的任何省略、修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (10)

1.一种基于知识图谱的开放领域问答方法,其特征在于,包括:
获取用户输入的问题描述;
采用匹配方法对所述问题描述中的实体和属性进行提取,以得到实体属性候选集;
基于所述实体属性候选集中的实体和属性,在预先构建的知识图谱中进行路径挖掘,以得到多个初始路径;
对全部所述初始路径进行组合,得到多个组合路径;
对全部所述组合路径进行筛选,以得到多个限制组合路径;
将每个所述限制组合路径与所述问题描述输入至经过预训练的分类模型中进行分类预测,得到所述限制组合路径与所述问题描述的相似度分数;
将最大所述相似度分数对应的所述限制组合路径在所述知识图谱中匹配的子图作为所述问题描述的推荐答案数据。
2.根据权利要求1所述的方法,其特征在于,所述采用匹配方法对所述问题描述中的实体和属性进行提取,以得到实体属性候选集,包括:
通过精确匹配方法和模糊匹配方法分别对所述问题描述中的实体和属性进行提取,以得到所述实体属性候选集。
3.根据权利要求2所述的方法,其特征在于,所述实体属性候选集包括第一候选集和第二候选集,所述通过精确匹配方法和模糊匹配方法分别对所述问题描述中的实体和属性进行提取,以得到所述实体属性候选集,包括:
将所述问题描述与预先构建的字典树进行匹配,以得到所述第一候选集;
分别采用倒排索引方法和命名实体识别方法对所述问题描述中的实体进行提取,分别采用Duckling数值抽取方法和Lucene索引方法对所述问题描述中的属性进行提取,以得到所述第二候选集。
4.根据权利要求1所述的方法,其特征在于,所述对全部所述初始路径进行组合,得到多个组合路径,包括:
将具有相同答案节点的所述初始路径进行组合,得到所述组合路径。
5.根据权利要求1所述的方法,其特征在于,所述对全部所述组合路径进行筛选,以得到多个限制组合路径,包括:
基于所述问题描述确定与其关联的推理变量以及约束条件;
根据推理变量的数值大小对全部所述组合路径进行排序,将满足所述约束条件的所述组合路径作为所述限制组合路径。
6.根据权利要求1所述的方法,其特征在于,所述预训练,包括:
构建正样本训练集和负样本训练集;
将所述正样本训练集和负样本训练集划分为多组正样本子训练集和负样本子训练集,每组正样本子训练集和负样本子训练集对应所述预训练的多轮训练中的一轮训练;
对于所述多轮训练中的每轮训练,
基于正样本子训练集和负样本子训练集,采用交叉熵损失函数对所述分类模型进行训练;
从所述负样本训练集中随机选取N条负样本对经过当前轮训练的所述分类模型进行测试,得到测试结果,其中,N为正整数;
将不符合预设阈值的测试结果对应的所述负样本添加至下一轮训练对应的负样本子训练集中;
响应于达到所述预训练的预设截止条件时,停止所述预训练。
7.根据权利要求1所述的方法,其特征在于,所述分类模型至少包括BERT模型、ERNIE模型、BERT-wwm模型和RoBERTa-wwn模型。
8.一种基于知识图谱的开放领域问答装置,其特征在于,包括:
获取模块,被配置为获取用户输入的问题描述;
提取模块,被配置为采用匹配方法对所述问题描述中的实体和属性进行提取,以得到实体属性候选集;
初始路径挖掘模块,被配置为基于所述实体属性候选集中的实体和属性,在预先构建的知识图谱中进行路径挖掘,以得到多个初始路径;
组合模块,被配置为对全部所述初始路径进行组合,得到多个组合路径;
筛选模块,被配置为对全部所述组合路径进行筛选,以得到多个限制组合路径;
分类预测模块,被配置为将每个所述限制组合路径与所述问题描述输入至经过预训练的分类模型中进行分类预测,得到所述限制组合路径与所述问题描述的相似度分数;
推荐模块,被配置为将最大所述相似度分数对应的所述限制组合路径在所述知识图谱中匹配的子图作为所述问题描述的推荐答案数据。
9.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至7任意一项所述的方法。
10.一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,其特征在于,所述计算机指令用于使计算机执行权利要求1至7任一所述方法。
CN202210964248.4A 2022-08-11 2022-08-11 基于知识图谱的开放领域问答方法及相关设备 Pending CN115470328A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210964248.4A CN115470328A (zh) 2022-08-11 2022-08-11 基于知识图谱的开放领域问答方法及相关设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210964248.4A CN115470328A (zh) 2022-08-11 2022-08-11 基于知识图谱的开放领域问答方法及相关设备

Publications (1)

Publication Number Publication Date
CN115470328A true CN115470328A (zh) 2022-12-13

Family

ID=84368095

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210964248.4A Pending CN115470328A (zh) 2022-08-11 2022-08-11 基于知识图谱的开放领域问答方法及相关设备

Country Status (1)

Country Link
CN (1) CN115470328A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116860953A (zh) * 2023-09-05 2023-10-10 联通在线信息科技有限公司 一种基于问答系统的问答匹配方法及系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116860953A (zh) * 2023-09-05 2023-10-10 联通在线信息科技有限公司 一种基于问答系统的问答匹配方法及系统
CN116860953B (zh) * 2023-09-05 2024-01-26 联通在线信息科技有限公司 一种基于问答系统的问答匹配方法及系统

Similar Documents

Publication Publication Date Title
CN106776544B (zh) 人物关系识别方法及装置和分词方法
CN108287858B (zh) 自然语言的语义提取方法及装置
CN107797991B (zh) 一种基于依存句法树的知识图谱扩充方法及系统
CN112270196B (zh) 实体关系的识别方法、装置及电子设备
US9514742B2 (en) System and method for managing conversation
KR101923146B1 (ko) 워드 벡터를 이용한 시맨틱 검색 시스템 및 방법
CN109344240B (zh) 一种数据处理方法、服务器及电子设备
KR102491172B1 (ko) 자연어 질의응답 시스템 및 그 학습 방법
CN108319627A (zh) 关键词提取方法以及关键词提取装置
CN111581949B (zh) 学者人名的消歧方法、装置、存储介质及终端
JP2020191075A (ja) Web APIおよび関連エンドポイントの推薦
KR20180094664A (ko) 텍스트 데이터로부터 정보를 추출하기 위한 정보 추출 방법 및 장치
CN111782637A (zh) 一种模型构建方法、装置及设备
Upadhyay et al. Semantic knowledge extraction from research documents
CN111597788A (zh) 基于实体对齐的属性融合方法、装置、设备及存储介质
CN113779190B (zh) 事件因果关系识别方法、装置、电子设备与存储介质
CN115470328A (zh) 基于知识图谱的开放领域问答方法及相关设备
CN112581327B (zh) 基于知识图谱的法律推荐方法、装置和电子设备
CN113515589A (zh) 数据推荐方法、装置、设备以及介质
CN110750632B (zh) 一种改进的中文alice智能问答方法及系统
JP2019082860A (ja) 生成プログラム、生成方法及び生成装置
CN117112754A (zh) 信息处理方法、装置、电子设备及存储介质
CN111639494A (zh) 案件事理关系确定方法及系统
CN116069876A (zh) 基于知识图谱的问答方法、装置、设备及存储介质
CN111309852A (zh) 生成可视化决策树(集)模型的方法、系统、装置及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination