CN117077792B - 一种基于知识图谱生成提示数据的方法及装置 - Google Patents

一种基于知识图谱生成提示数据的方法及装置 Download PDF

Info

Publication number
CN117077792B
CN117077792B CN202311325368.0A CN202311325368A CN117077792B CN 117077792 B CN117077792 B CN 117077792B CN 202311325368 A CN202311325368 A CN 202311325368A CN 117077792 B CN117077792 B CN 117077792B
Authority
CN
China
Prior art keywords
template
text
instance
reasoning
question
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202311325368.0A
Other languages
English (en)
Other versions
CN117077792A (zh
Inventor
赵登
石磊
胡彬
何建杉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alipay Hangzhou Information Technology Co Ltd
Original Assignee
Alipay Hangzhou Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alipay Hangzhou Information Technology Co Ltd filed Critical Alipay Hangzhou Information Technology Co Ltd
Priority to CN202311325368.0A priority Critical patent/CN117077792B/zh
Publication of CN117077792A publication Critical patent/CN117077792A/zh
Application granted granted Critical
Publication of CN117077792B publication Critical patent/CN117077792B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • G06N5/041Abduction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本说明书实施例提供了一种基于知识图谱生成提示数据的方法及装置。在该方法中,可以通过多种方式获取相互匹配的推理规则和实例子图,实例子图来自知识图谱,知识图谱中包含隐私数据。推理规则包括推理条件和推理结果。基于该推理规则构建问答模板,问答模板包括问题模板和答案模板,答案模板包括原因模板和结果模板。问题模板和结果模板通过对推理规则中的推理结果进行文本转换得到,原因模板通过对推理规则中的推理条件进行文本转换得到。基于问答模板和实例子图的结合可以生成目标文本,该目标文本则包括问题文本和答案文本,答案文本包括原因文本和结果文本。该目标文本作为提示数据可以用于调整语言模型。

Description

一种基于知识图谱生成提示数据的方法及装置
技术领域
本说明书一个或多个实施例涉及计算机技术领域,尤其涉及一种基于知识图谱生成提示数据的方法及装置。
背景技术
最近,大语言模型ChatGPT火爆了全球。ChatGPT是一种基于语言模型的语言生成技术,它可以生成逼真的自然语言文本,包括对话、故事、新闻等。人们能够直观地感受到大语言模型在自然语言理解和自然语言生成等领域的巨大进步。语言模型的应用不止如此,还可以应用在机器翻译、情感分析、语音识别等领域。随着语言模型的应用和发展,人们同样看到了语言模型在自然语言理解上理解的事实正确性有待提升,在生成内容的可信性和可控性上也仍然有一定局限。提示数据(Prompt)已被证明在语言模型中的有效性。当训练得到语言模型以后,可以用提示数据来引导语言模型回答出更好答案。当提示数据包含隐私数据时,需要对提示数据的生成和应用过程进行隐私保护。而如何生成大量高质量的提示数据,是目前面临的一个问题。
因此,希望能有改进的方案,可以高效地生成高质量的提示数据,从而基于提示数据提高语言模型在语言方面的预测效果。
发明内容
本说明书一个或多个实施例描述了一种基于知识图谱生成提示数据的方法及装置,可以高效地生成高质量的提示数据。具体的技术方案如下。
第一方面,实施例提供了一种基于知识图谱生成提示数据的方法,包括:
获取第一推理规则和匹配的第一实例子图;其中,所述第一实例子图来自知识图谱;所述第一推理规则包括推理条件和推理结果;
获取基于所述第一推理规则构建的第一问答模板;其中,所述第一问答模板包括问题模板和答案模板;所述答案模板包括原因模板和结果模板;所述问题模板和所述结果模板通过对所述推理结果进行文本转换得到,所述原因模板通过对所述推理条件进行文本转换得到;
基于所述第一问答模板和所述第一实例子图,生成目标文本,所述目标文本包括问题文本和答案文本,所述答案文本包括原因文本和结果文本,所述目标文本作为提示数据用于调整语言模型。
在一种实施方式中,所述获取第一推理规则和匹配的第一实例子图的步骤,包括:
获取所述知识图谱的若干推理规则,所述若干推理规则包括所述第一推理规则;
从所述知识图谱中确定与所述第一推理规则匹配的若干实例子图,所述若干实例子图包括所述第一实例子图。
在一种实施方式中,所述获取第一推理规则和匹配的第一实例子图的步骤,包括:
读取所述知识图谱中的第一实例子图;
获取所述知识图谱的若干推理规则;
将所述第一实例子图分别与所述若干推理规则进行匹配,得到匹配的第一推理规则。
在一种实施方式中,所述读取所述知识图谱中的第一实例子图的步骤,包括:
接收待查询的第一问题文本;
从所述知识图谱中确定与所述第一问题文本相关联的第一实例子图。
在一种实施方式中,所述问题模板采用以下方式确定:
将所述推理结果对应的文本转换为一般疑问句,基于转换结果确定所述问题模板。
在一种实施方式中,第一推理规则对应的文本中包含若干规则元素,所述若干规则元素与所述第一实例子图中的若干实例元素对应;
所述基于转换结果确定所述问题模板的步骤,包括:
将转换结果中与所述若干规则元素对应的文本转换为待填充的若干槽位,得到所述问题模板。
在一种实施方式中,所述结果模板采用以下方式确定:
将预设的表示所以含义的词语与所述推理结果对应的文本进行组合,基于组合结果确定所述结果模板。
在一种实施方式中,所述原因模板采用以下方式确定:
将预设的表示因为含义的词语与所述推理条件对应的文本进行组合,基于组合结果确定所述原因模板。
在一种实施方式中,所述结果模板还包括待填充的概率描述词;
所述生成目标文本的步骤包括:
获取所述第一推理规则的第一评价指标;
从预先设置的评价指标与概率描述词的对应关系中,确定所述第一评价指标对应的概率描述词,将其填充到所述结果模板中,作为预填充后的结果模板;
基于所述问题模板、所述原因模板和所述预填充后的结果模板,以及所述第一实例子图,生成所述目标文本。
在一种实施方式中,所述生成目标文本的步骤包括:
获取所述第一推理规则的第一评价指标;
从预先设置的评价指标与概率描述词的对应关系中,确定所述第一评价指标对应的概率描述词,作为第一概率描述词;
生成所述目标文本,使得在所述目标文本的预定位置包含所述第一概率描述词。
在一种实施方式中,所述第一问答模板中包含待填充的若干槽位,所述若干槽位对应于所述第一推理规则中的若干规则元素;所述生成目标文本的步骤,包括:
确定所述第一实例子图中与所述若干规则元素对应匹配的若干实例元素,将所述若干实例元素填充至所述若干槽位,得到所述目标文本。
第二方面,实施例提供了一种基于知识图谱生成提示数据的装置,包括:
数据获取模块,配置为获取第一推理规则和匹配的第一实例子图;其中,所述第一实例子图来自知识图谱;所述第一推理规则包括推理条件和推理结果;
模板获取模块,配置为获取基于所述第一推理规则构建的第一问答模板;其中,所述第一问答模板包括问题模板和答案模板;所述答案模板包括原因模板和结果模板;所述问题模板和所述结果模板通过对所述推理结果进行文本转换得到,所述原因模板通过对所述推理条件进行文本转换得到;
文本生成模块,配置为基于所述第一问答模板和所述第一实例子图,生成目标文本,所述目标文本包括问题文本和答案文本,所述答案文本包括原因文本和结果文本,所述目标文本作为提示数据用于调整语言模型。
第三方面,实施例提供了一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行第一方面中任一项所述的方法。
第四方面,实施例提供了一种计算设备,包括存储器和处理器,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现第一方面中任一项所述的方法。
本说明书实施例提供的方法及装置中,利用从知识图谱中得到的推理规则构建问答模板,将问答模板与知识图谱中与推理规则匹配的实例子图进行结合生成提示数据。问答模板中存在问题模板以及包含原因模板和结果模板的答案模板,这使得基于该问答模板生成的提示数据中包含问题文本以及包含原因文本和结果文本的答案文本。利用推理规则和知识图谱中的高质量数据,能生成包含推理过程的文本作为提示数据,这种提示数据逻辑性强,且生成过程效率高。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单的介绍。显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本说明书披露的一个实施例的实施场景示意图;
图2为实施例提供的一种基于知识图谱生成提示数据的方法的流程示意图;
图3为第一推理规则R1和第一问答模板QA1的结构以及关系示意图;
图4为实施例提供的一种基于知识图谱生成提示数据的装置的示意性框图。
具体实施方式
下面结合附图,对本说明书提供的方案进行描述。
图1为本说明书披露的一个实施例的实施场景示意图。基于推理规则可以构建对应的问答模板。从知识图谱中可以提取实例子图。在得到相互匹配的推理规则和实例子图时,可以将该实例子图与该推理规则对应的问答模板进行结合,生成提示数据。
知识图谱旨在描述真实世界中存在的各种实体或概念及其关系,其构成一张巨大的语义网络图,是对知识进行表达的一种知识库。它能够将庞大且繁杂的知识以更加有序的方式表达出来。知识图谱中的数据通常具有事实正确性高、可控可解释等特点。需要着重说明的是,本说明书实施例中提及的信息或数据,均是在获取相应数据对象的授权的情况下使用的。
知识图谱包含多个代表实体的节点和体现节点之间关系的连接边,可以把节点和连接边称为知识图谱中的元素。图1示例性地列出了知识图谱中的部分节点和连接边。圆圈和灰色圆点代表节点,节点之间的连接线代表连接边。灰色圆点和直线是更多节点和连接边的示意图。实体指的是现实世界中的事物,例如地名、药物、组织、机构、设备、数字,等等。实体可以采用实体词来表示,实体词具有名词性质。例如,可乐、饮料等都是实体名称。关系用来表达不同实体之间的某种联系,例如在连接关系“可乐-属于-饮料”中,关系是“属于”,体现了可乐属于饮料这样的关系数据。
知识图谱中的节点包含节点名称和节点类型等信息,连接边包括关系类型等信息。例如,在图1所示的知识图谱中,“xx便利店”的节点类型是“商家”,“可乐”“橙汁”的节点类型是商品,“xx便利店”与“可乐”之间的关系类型是“进货”,“xx便利店”与“橙汁”之间的关系类型是“进货”,“可乐”与“饮料”之间的关系类型是“属于”,“可乐”与“橙汁”之间的关系类型是“属于”。关系还包括关系属性。关系类型“进货”的属性包括:次数>k1,数量<k2。
推理规则是基于知识图谱中的节点类型和关系类型得到的,用于进行总结推理的一种逻辑。推理规则中的规则元素包括节点类型和关系类型等。关系类型包括知识图谱中存在的关系类型和预先定义的关系类型。推理规则通常包括推理条件和推理结果。参见图1中所示的推理规则示例,“{商家}[进货]{商品}(多次),{商品}[属于]{类目}→{商家}[偏好]{类目}”是一条推理规则,其中的箭头前后分别是推理条件和推理结果。{}代表节点类型,[]代表关系类型。
推理规则的来源可以包含多种。例如,推理规则可以是采用规则提取算法从知识图谱中得到的,或者是专家根据经验总结得到的。规则提取算法在产出推理规则的同时,也会产出推理规则的置信度和/或覆盖度等评价指标。例如,在图1中,推理规则的置信度为0.85。评价指标用于对推理规则的效果进行评价。例如,置信度用于体现该推理规则的可信程度,覆盖度用于体现该推理规则在知识图谱中命中的实例子图的范围。在构建问答模板时,可以将评价指标转化成问答模板中的概率描述词。上述推理规则命中知识图谱中的实例子图,也可以称为推理规则与该实例子图相匹配,或者该实例子图满足该推理规则。
实例子图是知识图谱中以某个节点为中心点的若干跳邻居节点构成的关系图,实例子图中可以包括若干三元组,这些三元组包括以中心点为头节点或尾节点的三元组,以及以中心点的邻居节点为头节点或尾节点的三元组。三元组包括头节点、连接边和尾节点。例如,图1中示出了知识图谱中以xx便利店为中心点的实例子图。
提示数据Prompt是研究者们为了下游任务设计出来的一种输入形式或模板,用以帮助预训练后的语言模型“回忆”起在预训练时“学习”到的东西。Prompt也能引导预训练后的语言模型进行微调,以便引导语言模型以被希望的方式做出回答。
为了更高效地生成高质量的提示数据,本说明书实施例提供了一种基于知识图谱生成提示数据的方法。该方法包括以下步骤:步骤S210,获取第一推理规则和匹配的第一实例子图,第一推理规则包括推理条件和推理结果;步骤S220,获取基于第一推理规则构建的第一问答模板,其中,第一问答模板包括问题模板和答案模板;答案模板包括原因模板和结果模板;问题模板和结果模板通过对推理结果进行文本转换得到,原因模板通过对推理条件进行文本转换得到;步骤S230,基于第一问答模板和第一实例子图,生成目标文本,目标文本包括问题文本和答案文本,答案文本包括原因文本和结果文本,目标文本作为提示数据用于调整语言模型。
下面结合图2对本实施例进行详细说明。
图2为实施例提供的一种基于知识图谱生成提示数据的方法的流程示意图。该方法通过计算设备执行,该计算设备可以通过任何具有计算、处理能力的装置、设备、平台、设备集群等来实现。知识图谱可以存储在该计算设备中,也可以存储在其他设备中。知识图谱的推理规则包含一个或多个,第一推理规则R1是若干推理规则中的任意一个。第一实例子图G1是第一推理规则R1命中的多个实例子图中的任意一个。实例子图来自知识图谱。
下面对提示数据的生成方法的各个步骤进行详细说明。
在步骤S210中,获取第一推理规则R1和匹配的第一实例子图G1。
其中,第一实例子图G1来自知识图谱。第一推理规则R1包括推理条件R1_1和推理结果R1_2。
本实施例可以应用在多种实施场景中。例如,本实施例可以线下执行,预先收集若干推理规则,从而生成提示数据。又如,可以在语言模型执行线上问答时,在接收到待查询问题之后,基于待查询问题生成提示数据,利用提示数据辅助语言模型确定待回答问题的答案。
在一种实施方式中,步骤S210在执行时可以包括,获取知识图谱的若干推理规则,该若干推理规则包括第一推理规则R1;从知识图谱中确定与第一推理规则R1匹配的若干实例子图,若干实例子图包括第一实例子图G1。当知识图谱中与第一推理规则R1匹配的实例子图数量很多时,可以对该多个实例子图进行采样。
若干是指一个或多个。与第一推理规则R1匹配的实例子图,是指该实例子图满足第一推理规则R1中的推理条件R1_1。
在一种实施方式中,步骤S210在执行时可以包括,读取知识图谱中的第一实例子图G1;获取知识图谱的若干推理规则;接着,将第一实例子图G1分别与若干推理规则进行匹配,得到匹配的第一推理规则R1。
其中,读取知识图谱中的第一实例子图G1,具体可以是在接收待查询的第一问题文本时,从知识图谱中确定与第一问题文本相关联的第一实例子图G1。第一问题文本是任意一个问题文本。在接收到第一问题文本时,可以分析第一问题文本中的实例词,基于该实体词从知识图谱中确定该实体词对应的第一实例子图G1。
本实施例仅是以第一推理规则和匹配的第一实例子图为例说明如何生成提示数据。当有多个推理规则和多个实例子图时,可以针对任意一组推理规则和对应的实例子图,采用本实施例提供的方法生成提示数据。
在步骤S220中,获取基于第一推理规则R1构建的第一问答模板QA1。
基于第一推理规则R1可以构建多个问答模板,第一问答模板QA1可以是该多个问答模板中的一个。该多个问答模板的主要部分可以是相同的,其次要部分的用词可以不同。
构建第一问答模板QA1的步骤,可以是预先执行后,将第一问答模板QA1存储在指定空间中,在需要时从指定空间中获取第一问答模板QA1。也可以是在步骤S220中构建得到的。
图3为第一推理规则R1和第一问答模板QA1的结构以及关系示意图。其中,第一问答模板QA1包括问题模板Q1和答案模板A1。答案模板A1包括原因模板A1_1和结果模板A1_2。问题模板Q1和结果模板A1_2通过对推理结果R1_2进行文本转换得到,原因模板A1_1通过对推理条件R1_1进行文本转换得到。
计算设备可以基于第一推理规则R1和模板构建逻辑构建第一问答模板QA1。例如,问题模板Q1可以采用以下模板构建逻辑确定:将推理结果R1_2对应的文本转换为一般疑问句,基于转换结果确定问题模板Q1。
例如,对于图1中推理规则的推理结果R1_2“{商家}[偏好]{类目}”,将该文本转换为一般疑问句,可以得到转换结果的文本“{商家}是否[偏好]{类目}”。
模板构建逻辑还可以是其他种类,不一定是将推理结果的文本转换为一般疑问句,还可以根据推理结果的推理侧重点,将其转换为特殊疑问句,例如对主语或宾语进行提问等。
结果模板A1_2可以采用以下模板构建逻辑确定:将预设的表示所以含义的词语与推理结果R1_2对应的文本进行组合,基于组合结果确定结果模板A1_2。表示所以含义的词语包括:因此、因而和所以等。选用不同的词语可以得到与第一推理规则R1对应的不同的问答模板。具体的,可以将表示所以含义的词语置于推理结果R1_2对应的文本的开始部分或其他部分。
例如,对于图1中推理规则的推理结果R1_2“{商家}[偏好]{类目}”,将“所以”置于其开始部分,得到的组合结果可以是“所以{商家}[偏好]{类目}”。
原因模板A1_1可以采用以下模板构建逻辑确定:将预设的表示因为含义的词语与推理条件R1_1对应的文本进行组合,基于组合结果确定原因模板A1_1。表示因为含义的词语包括:由于、因为等。具体的,可以将表示因为含义的词语置于推理条件R1_1对应的文本的开始部分或其他部分。
例如,对于图1中推理规则的推理条件R1_1“{商家}[进货]{商品}(多次),{商品}[属于]{类目}”,将“因为”置于其开始部分,得到的组合结果可以是“因为{商家}[进货]{商品}(多次),{商品}[属于]{类目}”。也可以将该组合结果在语序上进行更合理的调整,得到“因为{商家}多次[进货]{商品},{商品}[属于]{类目}”。
在具体实施时,当第一推理规则R1对应的文本中包含若干规则元素时,该若干规则元素与第一实例子图G1中的若干实例元素是对应的。规则元素可以包括节点类型、关系类型以及自定义类型。实例元素包括节点和关系,这里的节点可以采用节点名称代替,关系可以采用关系类型代替。
以图1中的推理规则和实例子图为例进行说明。该推理规则中的规则元素包括:节点类型{商家}{商品}{类目},关系类型[进货][属于][偏好]等。其中,关系类型[进货]与实例子图中“xx便利店”和“可乐”之间以及“xx便利店”和“橙汁”之间的关系类型对应,关系类型[属于]与“可乐”和“饮料”之间,以及“可乐”和“饮料”之间的关系类型对应。关系类型[偏好]是自定义关系类型,也是该推理规则推导出的关系类型。节点类型{商家}{商品}{类目}与实例子图中的节点类型对应。
在基于转换结果确定问题模板Q1时,可以将转换结果中与若干规则元素对应的文本转换为待填充的若干槽位,得到问题模板Q1。也可以不将其转换为待填充的槽位,而是将转换结果中与若干规则元素对应的文本标记为待替换字符。
在基于组合结果确定结果模板A1_2时,将组合结果中与若干规则元素对应的文本转换为待填充的若干槽位,得到结果模板A1_2。
在基于组合结果确定原因模板A1_1时,将组合结果中与若干规则元素对应的文本转换为待填充的若干槽位,得到原因模板A1_1。
在步骤S230中,基于第一问答模板QA1和第一实例子图G1,生成目标文本,作为提示数据。目标文本包括问题文本和答案文本,答案文本包括原因文本和结果文本。将目标文本作为提示数据,后续可以用于调整语言模型。
将第一问答模板QA1和第一实例子图G1进行结合,可以得到目标文本。由于第一问答模板QA1中包含与第一推理规则R1中的规则元素对应的元素,而第一实例子图G1中的实例元素与第一推理规则R1中的规则元素对应,因此可以确定第一问答模板QA1中的元素与第一实例子图G1中的实例元素的对应关系。
在一种实施方式中,当第一问答模板QA1中包含待填充的若干槽位,且该若干槽位对应于第一推理规则R1中的若干规则元素时,可以确定第一实例子图G1中与该若干规则元素对应匹配的若干实例元素,将若干实例元素填充至若干槽位,得到目标文本。
为了使得生成的提示数据含义更加丰富,还可以预先设置推理规则的评价指标与概率描述词之间的对应关系。评价指标值越高,代表推理结果越可信或越可能发生,对应的概率描述词表示的可能性含义也越强。评价指标可以包括置信度和覆盖度。表1以置信度为例,列出了不同置信度值与概率描述词之间的对应关系。
表1
其中,置信度的值越接近1,代表越有可能发生。
在一种实施方式中,可以在结果模板A1_2中设置待填充的概率描述词,具体可以增加待填充的概率描述词槽位。在步骤S230中生成目标文本时,可以获取第一推理规则R1的第一评价指标,从上述对应关系中确定第一评价指标对应的概率描述词,将该概率描述词填充到结果模板A1_2中,作为预填充后的结果模板。接着,基于问题模板Q1、原因模板A1_1和预填充后的结果模板A1_2,以及第一实例子图G1,生成目标文本。
在一种实施方式中,可以在生成目标文本时加入概率描述词。在执行步骤S230时,可以获取第一推理规则R1的第一评价指标,从上述对应关系中确定第一评价指标对应的概率描述词,作为第一概率描述词。接着,生成目标文本,使得在目标文本的预定位置包含第一概率描述词。预定位置可以是根据经验设置的文字位置。
下面以图1中的推理规则和问答模板为例进行说明。该推理规则的置信度为0.85,对应的概率描述词为“很有可能”。其中,问题模板中的[]和{}表示待填充的槽位,且{}中的文字表示节点类型,[]中的文字表示关系类型。在表2中列出了问答模板和实例子图之间的对应关系。
表2
其中,表2第一行是问答模板的具体内容,第二行是实例子图包含的实例元素以及对应的节点类型或关系类型。将实例元素对应地填充至待填充的槽位,例如,将商家“xx便利店”填充至{商家}槽位,将概率描述词“很有可能”填充到{概率描述词}槽位。经过填充后,得到表3中所示的目标文本。
表3
其中,问题文本和答案文本中的{}和[]仅表示此处原来是待填充槽位,实际文本中不包含该符号。
在本实施例中,生成的提示数据包含了问题文本和答案文本,答案文本又细化为了原因文本和结果文本。这使得提示数据更清楚地展示了结果得出的过程。并且,推理规则的评价指标也转化为对应的概率描述词加入提示数据中,这使得提示数据语义更加丰富,答案更加精准。
本实施例中的语言模型是指基于深度学习技术和大规模语料库训练的自然语言处理模型。通过学习大量的语言样本,语言模型可以学习到语言的结构和规律,并能够生成合理的自然语言文本。语言模型可以应用于问答、机器翻译、文本生成、情感分析、语音识别等领域,是自然语言处理中的重要技术之一。本实施例中的语言模型可以包括大语言模型和中小语言模型。
上述本实施例中提供的生成提示数据的方法,可以通过计算设备自动化地批量进行,减少了人工参与,能明显地提高效率。知识图谱上沉淀了大量的推理规则,这些推理规则是纲要(Schema)层面上的描述,而纲要又是已经定义好的,因此问答模板可以直接套用纲要,高效地生成提示数据。
上述本实施例生成的提示数据逻辑性强。问答模板的构建过程中既满足了纲要的类型约束,又满足了推理规则约束,因此能得到逻辑性强的提示数据。提示数据逻辑性强有助于提升语言模型的逻辑能力和推理能力。评价指标与概率描述词的对应,使得实施例能够为提示数据增加精准描述词,从而使得提示数据的描述更加精准,有助于语言模型更精细化的学习和推理。
上述本实施例利用了推理规则生成提示数据,使得推理规则得到了重复利用。并且,知识图谱的数据是经过校验和纲要约束的,其质量更高。
本说明书中,第一推理规则、第一实例子图、第一问答模板和第一评价指标等词语中的“第一”,以及文中相应的“第二”(如果存在)等,仅仅是为了区分和描述方便,并不具有任何限定意义。
上述内容对本说明书的特定实施例进行了描述,其他实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行,并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要按照示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的,或者可能是有利的。
图4为实施例提供的一种基于知识图谱生成提示数据的装置的示意性框图。该装置实施例与图2所示方法实施例相对应。该装置400部署在计算设备中。该计算设备可以通过任何具有计算、处理能力的装置、设备、平台、设备集群等来实现。该装置400包括:
数据获取模块410,配置为获取第一推理规则和匹配的第一实例子图;其中,所述第一实例子图来自知识图谱;所述第一推理规则包括推理条件和推理结果;
模板获取模块420,配置为获取基于所述第一推理规则构建的第一问答模板;其中,所述第一问答模板包括问题模板和答案模板;所述答案模板包括原因模板和结果模板;所述问题模板和所述结果模板通过对所述推理结果进行文本转换得到,所述原因模板通过对所述推理条件进行文本转换得到;
文本生成模块430,配置为基于所述第一问答模板和所述第一实例子图,生成目标文本,所述目标文本包括问题文本和答案文本,所述答案文本包括原因文本和结果文本,所述目标文本作为提示数据用于调整语言模型。
在一种实施方式中,数据获取模块410包括第一获取子模块和第一确定子模块(图中未示出);
第一获取子模块,配置为获取所述知识图谱的若干推理规则,所述若干推理规则包括所述第一推理规则;
第一确定子模块,配置为从所述知识图谱中确定与所述第一推理规则匹配的若干实例子图,所述若干实例子图包括所述第一实例子图。
在一种实施方式中,所述数据获取模块410包括第一读取子模块、第二获取子模块和第一匹配子模块(图中未示出);
第一读取子模块,配置为读取所述知识图谱中的第一实例子图;
第二获取子模块,配置为获取所述知识图谱的若干推理规则;
第一匹配子模块,配置为将所述第一实例子图分别与所述若干推理规则进行匹配,得到匹配的所述第一推理规则。
在一种实施方式中,所述第一读取子模块,具体配置为:
接收待查询的第一问题文本;
从所述知识图谱中确定与所述第一问题文本相关联的第一实例子图。
在一种实施方式中,所述装置400还包括第一确定模块(图中未示出),配置为采用以下方式确定所述问题模板:
将所述推理结果对应的文本转换为一般疑问句,基于转换结果确定所述问题模板。
在一种实施方式中,第一推理规则对应的文本中包含若干规则元素,所述若干规则元素与所述第一实例子图中的若干实例元素对应;
所述第一确定模块,基于转换结果确定所述问题模板时包括:
将转换结果中与所述若干规则元素对应的文本转换为待填充的若干槽位,得到所述问题模板。
在一种实施方式中,所述装置400还包括第二确定模块(图中未示出),配置为采用以下方式确定所述结果模板:
将预设的表示所以含义的词语与所述推理结果对应的文本进行组合,基于组合结果确定所述结果模板。
在一种实施方式中,所述装置400还包括第三确定模块(图中未示出),配置为采用以下方式确定所述原因模板:
将预设的表示因为含义的词语与所述推理条件对应的文本进行组合,基于组合结果确定所述原因模板。
在一种实施方式中,结果模板还包括待填充的概率描述词;文本生成模块430包括第三获取子模块、第二确定子模块和第一生成子模块(图中未示出);
第三获取子模块,配置为获取所述第一推理规则的第一评价指标;
第二确定子模块,配置为从预先设置的评价指标与概率描述词的对应关系中,确定所述第一评价指标对应的概率描述词,将其填充到所述结果模板中,作为预填充后的结果模板;
第一生成子模块,配置为基于所述问题模板、所述原因模板和所述预填充后的结果模板,以及所述第一实例子图,生成所述目标文本。
在一种实施方式中,所述文本生成模块430包括第四获取子模块、第三确定子模块和第二生成子模块(图中未示出);
第四获取子模块,配置为获取所述第一推理规则的第一评价指标;
第三确定子模块,配置为从预先设置的评价指标与概率描述词的对应关系中,确定所述第一评价指标对应的概率描述词,作为第一概率描述词;
第二生成子模块,配置为生成所述目标文本,使得在所述目标文本的预定位置包含所述第一概率描述词。
在一种实施方式中,所述第一问答模板中包含待填充的若干槽位,所述若干槽位对应于所述第一推理规则中的若干规则元素;所述文本生成模块430具体配置为:
确定所述第一实例子图中与所述若干规则元素对应匹配的若干实例元素,将所述若干实例元素填充至所述若干槽位,得到所述目标文本。
上述装置实施例与方法实施例相对应,具体说明可以参见方法实施例部分的描述,此处不再赘述。装置实施例是基于对应的方法实施例得到,与对应的方法实施例具有同样的技术效果,具体说明可参见对应的方法实施例。
本说明书实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行图1至图3任一项所述的方法。
本说明书实施例还提供了一种计算设备,包括存储器和处理器,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现图1至图3任一项所述的方法。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于存储介质和计算设备实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。
本领域技术人员应该可以意识到,在上述一个或多个示例中,本发明实施例所描述的功能可以用硬件、软件、固件或它们的任意组合来实现。当使用软件实现时,可以将这些功能存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输。
以上所述的具体实施方式,对本发明实施例的目的、技术方案和有益效果进行了进一步的详细说明。所应理解的是,以上所述仅为本发明实施例的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的技术方案的基础之上所做的任何修改、等同替换、改进等,均应包括在本发明的保护范围之内。

Claims (14)

1.一种基于知识图谱生成提示数据的方法,包括:
获取第一推理规则和匹配的第一实例子图;其中,所述第一实例子图来自知识图谱;所述第一推理规则包括推理条件和推理结果;
获取基于所述第一推理规则构建的第一问答模板;其中,所述第一问答模板包括问题模板和答案模板;所述答案模板包括原因模板和结果模板;所述问题模板和所述结果模板通过对所述推理结果进行文本转换得到,所述原因模板通过对所述推理条件进行文本转换得到;
基于所述第一问答模板和所述第一实例子图,生成目标文本,所述目标文本包括问题文本和答案文本,所述答案文本包括原因文本和结果文本,所述目标文本作为提示数据用于调整语言模型。
2.根据权利要求1所述的方法,所述获取第一推理规则和匹配的第一实例子图的步骤,包括:
获取所述知识图谱的若干推理规则,所述若干推理规则包括所述第一推理规则;
从所述知识图谱中确定与所述第一推理规则匹配的若干实例子图,所述若干实例子图包括所述第一实例子图。
3.根据权利要求1所述的方法,所述获取第一推理规则和匹配的第一实例子图的步骤,包括:
读取所述知识图谱中的第一实例子图;
获取所述知识图谱的若干推理规则;
将所述第一实例子图分别与所述若干推理规则进行匹配,得到匹配的所述第一推理规则。
4.根据权利要求3所述的方法,所述读取所述知识图谱中的第一实例子图的步骤,包括:
接收待查询的第一问题文本;
从所述知识图谱中确定与所述第一问题文本相关联的第一实例子图。
5.根据权利要求1所述的方法,所述问题模板采用以下方式确定:
将所述推理结果对应的文本转换为一般疑问句,基于转换结果确定所述问题模板。
6.根据权利要求5所述的方法,第一推理规则对应的文本中包含若干规则元素,所述若干规则元素与所述第一实例子图中的若干实例元素对应;
所述基于转换结果确定所述问题模板的步骤,包括:
将转换结果中与所述若干规则元素对应的文本转换为待填充的若干槽位,得到所述问题模板。
7.根据权利要求1所述的方法,所述结果模板采用以下方式确定:
将预设的表示所以含义的词语与所述推理结果对应的文本进行组合,基于组合结果确定所述结果模板。
8.根据权利要求1所述的方法,所述原因模板采用以下方式确定:
将预设的表示因为含义的词语与所述推理条件对应的文本进行组合,基于组合结果确定所述原因模板。
9.根据权利要求1所述的方法,所述结果模板还包括待填充的概率描述词;
所述生成目标文本的步骤,包括:
获取所述第一推理规则的第一评价指标;
从预先设置的评价指标与概率描述词的对应关系中,确定所述第一评价指标对应的概率描述词,将其填充到所述结果模板中,作为预填充后的结果模板;
基于所述问题模板、所述原因模板和所述预填充后的结果模板,以及所述第一实例子图,生成所述目标文本。
10.根据权利要求1所述的方法,所述生成目标文本的步骤,包括:
获取所述第一推理规则的第一评价指标;
从预先设置的评价指标与概率描述词的对应关系中,确定所述第一评价指标对应的概率描述词,作为第一概率描述词;
生成所述目标文本,使得在所述目标文本的预定位置包含所述第一概率描述词。
11.根据权利要求1所述的方法,所述第一问答模板中包含待填充的若干槽位,所述若干槽位对应于所述第一推理规则中的若干规则元素;所述生成目标文本的步骤,包括:
确定所述第一实例子图中与所述若干规则元素对应匹配的若干实例元素,将所述若干实例元素填充至所述若干槽位,得到所述目标文本。
12.一种基于知识图谱生成提示数据的装置,包括:
数据获取模块,配置为获取第一推理规则和匹配的第一实例子图;其中,所述第一实例子图来自知识图谱;所述第一推理规则包括推理条件和推理结果;
模板获取模块,配置为获取基于所述第一推理规则构建的第一问答模板;其中,所述第一问答模板包括问题模板和答案模板;所述答案模板包括原因模板和结果模板;所述问题模板和所述结果模板通过对所述推理结果进行文本转换得到,所述原因模板通过对所述推理条件进行文本转换得到;
文本生成模块,配置为基于所述第一问答模板和所述第一实例子图,生成目标文本,所述目标文本包括问题文本和答案文本,所述答案文本包括原因文本和结果文本,所述目标文本作为提示数据用于调整语言模型。
13.一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行权利要求1-11中任一项所述的方法。
14.一种计算设备,包括存储器和处理器,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现权利要求1-11中任一项所述的方法。
CN202311325368.0A 2023-10-12 2023-10-12 一种基于知识图谱生成提示数据的方法及装置 Active CN117077792B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311325368.0A CN117077792B (zh) 2023-10-12 2023-10-12 一种基于知识图谱生成提示数据的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311325368.0A CN117077792B (zh) 2023-10-12 2023-10-12 一种基于知识图谱生成提示数据的方法及装置

Publications (2)

Publication Number Publication Date
CN117077792A CN117077792A (zh) 2023-11-17
CN117077792B true CN117077792B (zh) 2024-01-09

Family

ID=88704594

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311325368.0A Active CN117077792B (zh) 2023-10-12 2023-10-12 一种基于知识图谱生成提示数据的方法及装置

Country Status (1)

Country Link
CN (1) CN117077792B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117273868A (zh) * 2023-11-20 2023-12-22 浙江口碑网络技术有限公司 店铺推荐方法、装置、电子设备与存储介质
CN117290554B (zh) * 2023-11-24 2024-03-01 支付宝(杭州)信息技术有限公司 一种基于图数据的业务规则确定方法及装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017076263A1 (zh) * 2015-11-03 2017-05-11 中兴通讯股份有限公司 融合知识库处理方法和装置及知识库管理系统、存储介质
CN109284363A (zh) * 2018-12-03 2019-01-29 北京羽扇智信息科技有限公司 一种问答方法、装置、电子设备及存储介质
CN111966793A (zh) * 2019-05-20 2020-11-20 云号(北京)科技有限公司 基于知识图谱的智慧问答方法、系统和知识图谱更新系统
KR20230007926A (ko) * 2021-07-06 2023-01-13 한국전자통신연구원 의학 질의를 처리하는 전자 장치 및 그의 동작 방법
CN115964459A (zh) * 2021-12-28 2023-04-14 北方工业大学 基于食品安全认知图谱的多跳推理问答方法及系统
CN116628229A (zh) * 2023-07-21 2023-08-22 支付宝(杭州)信息技术有限公司 一种利用知识图谱生成文本语料的方法及装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017076263A1 (zh) * 2015-11-03 2017-05-11 中兴通讯股份有限公司 融合知识库处理方法和装置及知识库管理系统、存储介质
CN109284363A (zh) * 2018-12-03 2019-01-29 北京羽扇智信息科技有限公司 一种问答方法、装置、电子设备及存储介质
CN111966793A (zh) * 2019-05-20 2020-11-20 云号(北京)科技有限公司 基于知识图谱的智慧问答方法、系统和知识图谱更新系统
KR20230007926A (ko) * 2021-07-06 2023-01-13 한국전자통신연구원 의학 질의를 처리하는 전자 장치 및 그의 동작 방법
CN115964459A (zh) * 2021-12-28 2023-04-14 北方工业大学 基于食品安全认知图谱的多跳推理问答方法及系统
CN116628229A (zh) * 2023-07-21 2023-08-22 支付宝(杭州)信息技术有限公司 一种利用知识图谱生成文本语料的方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Improved relation span detection in question answering systems over extracted knowledge bases;Somayyeh Behmanesh;《Expert Systems with Applications》;全文 *
专业领域智能问答系统设计与实现;陶永芹;;计算机应用与软件(05);全文 *

Also Published As

Publication number Publication date
CN117077792A (zh) 2023-11-17

Similar Documents

Publication Publication Date Title
CN117077792B (zh) 一种基于知识图谱生成提示数据的方法及装置
CN111125309A (zh) 自然语言处理方法、装置及计算设备、存储介质
CN111708869B (zh) 人机对话的处理方法及装置
US20090119584A1 (en) Software Tool for Creating Outlines and Mind Maps that Generates Subtopics Automatically
CN112650840A (zh) 一种基于知识图谱推理的医疗智能问答处理方法及系统
WO2016199160A2 (en) Language processing and knowledge building system
CN111125295B (zh) 一种基于lstm的获取食品安全问题答案的方法及系统
CN114218379B (zh) 一种面向智能问答系统的无法回答问题的归因方法
CN112328800A (zh) 自动生成编程规范问题答案的系统及方法
CN112506945B (zh) 基于知识图谱的自适应导学方法及系统
CN112149427A (zh) 动词短语蕴含图谱的构建方法及相关设备
CN116244412A (zh) 多意图识别方法及装置
US20230316001A1 (en) System and method with entity type clarification for fine-grained factual knowledge retrieval
CN116881470A (zh) 一种生成问答对的方法及装置
CN117194646A (zh) 问答方法、装置以及电子设备
CN116595026A (zh) 信息查询方法
CN117932022A (zh) 一种智能问答方法、装置、电子设备及存储介质
CN117828057A (zh) 知识问答方法、装置、设备和存储介质
CN117520520A (zh) 一种基于知识图谱的知识查询方法和装置
CN117390155A (zh) 一种应用于智慧城市场景的智能问答系统
CN116362331A (zh) 一种基于人机协同构建知识图谱的知识点填充方法
CN115617954A (zh) 问答方法、装置、电子设备及存储介质
CN115905852A (zh) 基于预训练提示的故事生成方法、系统、存储介质和终端
CN113850383A (zh) 文本匹配模型训练方法、装置、电子设备及存储介质
CN112989001A (zh) 一种问答处理方法、装置、介质及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant