CN116881470A

CN116881470A - 一种生成问答对的方法及装置

Info

Publication number: CN116881470A
Application number: CN202310830969.0A
Authority: CN
Inventors: 唐添翼; 管健; 夏敏; 韩冬; 易丛文
Original assignee: Shenzhen Zhixian Future Industrial Software Co ltd
Current assignee: Shenzhen Zhixian Future Industrial Software Co ltd
Priority date: 2023-07-07
Filing date: 2023-07-07
Publication date: 2023-10-13

Abstract

本发明涉及一种生成问答对的方法及装置，方法包括：获取问题模板、目标领域的语料数据与知识图谱数据；分别根据所述语料数据和知识图谱数据对所述问题模板进行填充，得到多个所述目标领域的候选问题；对所述多个候选问题与所述语料数据进行第一相似度匹配，保留相似度大于第一阈值的候选问题，得到问题集合；将所述问题集合中的任一问题输入到大语言模型中，得到多个所述目标领域的候选答案；对所述多个候选答案与所述语料数据进行第二相似度匹配，保留相似度大于第二阈值的候选答案，得到答案集合；根据所述问题集合和答案集合，生成多个所述目标领域的问答对。

Description

一种生成问答对的方法及装置

技术领域

本发明涉及自然语言处理领域，尤其涉及一种生成问答对的方法及装置。

背景技术

近年来，大语言模型在自然语言处理领域得到了广泛的关注和应用。尤其是GPT(Generative Pre-trained Transformer)系列模型，通过无监督学习和自我监督学习的方式，学习了更加复杂的语言模式和知识表示，在自然语言生成、对话系统、文本分类等任务中，展现了强大的语言生成和推理能力。

当语言模型参数规模超过一定水平时，该模型将表现出小模型不具备的能力，这种能力被称为“涌现能力”，包括更强的上下文理解能力、推理能力等。然而，这种能力所带来的结果通常是不稳定和不准确的，目前还无法依靠大语言模型提供准确的专业领域问答对(Query and Answer,QA)生成任务，问答对生成任务是实现人类反馈的强化学习(Reinforcement Learning from Human Feedback,RLHF)的关键一环。虽然现有的模型可以被用来生成一些通用领域的问答对，但是在专业领域生成的问答对缺乏准确性和专业性。

发明内容

本说明书一个或多个实施例描述了一种生成问答对的方法及装置，通过使用问题模板和知识图谱生成问题，并使用大语言模型生成对应的答案，使用语料库分别筛选出问题和答案中匹配度高的结果，进而生成问答对。

第一方面，提供了一种生成问答对的方法，包括：

获取问题模板、目标领域的语料数据与知识图谱数据；

分别根据所述语料数据和知识图谱数据对所述问题模板进行填充，得到多个所述目标领域的候选问题；

对所述多个候选问题与所述语料数据进行第一相似度匹配，保留相似度大于第一阈值的候选问题，得到问题集合；

将所述问题集合中的任一问题输入到大语言模型中，得到多个所述目标领域的候选答案；

对所述多个候选答案与所述语料数据进行第二相似度匹配，保留相似度大于第二阈值的候选答案，得到答案集合；

根据所述问题集合和答案集合，生成多个所述目标领域的问答对。

在一种可能的实施方式中，在将所述问题集合中的任一问题输入到大语言模型之前，所述方法还包括：

根据所述第一相似度匹配的结果，使用所述语料数据对所述问题集合中的问题的内容进行扩充。

在一种可能的实施方式中，获取问题模板，包括：

获取与所述问题相关的提示词；

根据所述提示词，使用大语言模型生成所述问题模板。

在一种可能的实施方式中，根据所述语料数据对所述问题模板进行填充，包括：

从所述语料数据中提取与所述目标领域相关的词语，使用所述词语对所述问题模板进行填充。

在一种可能的实施方式中，根据知识图谱数据对所述问题模板进行填充，包括：

从所述知识图谱中提取与所述目标领域相关的知识，使用所述知识对所述问题模板进行匹配填充。

在一种可能的实施方式中，对所述多个候选问题与所述语料数据进行第一相似度匹配，包括：

对所述多个候选问题中的任一候选问题进行编码，得到候选问题表征；

对所述语料数据中的任一语料进行编码，得到语料表征；

对所述候选问题表征和所述语料表征进行相似度匹配。

在一种可能的实施方式中，对所述多个候选答案与所述语料数据进行第二相似度匹配，包括：

对所述多个候选答案中的任一候选答案进行编码，得到候选答案表征；

对所述语料数据中的任一语料进行编码，得到语料表征；

对所述候选答案表征和所述语料表征进行相似度匹配。

在一种可能的实施方式中，根据所述问题集合和答案集合，生成多个所述目标领域的问答对，包括：

对于所述答案集合中的第一答案，从所述问题集合中确定与其对应的第一问题，根据第一问题和第一答案组成第一问答对。

第二方面，提供了一种生成问答对的装置，包括：

获取单元，配置为，获取问题模板、目标领域的语料数据与知识图谱数据；

问题生成单元，配置为，分别根据所述语料数据和知识图谱数据对所述问题模板进行填充，得到多个所述目标领域的候选问题；

问题确定单元，配置为，对所述多个候选问题与所述语料数据进行第一相似度匹配，保留相似度大于第一阈值的候选问题，得到问题集合；

答案生成单元，配置为，将所述问题集合中的任一问题输入到大语言模型中，得到多个所述目标领域的候选答案；

答案确定单元，配置为，对所述多个候选答案与所述语料数据进行第二相似度匹配，保留相似度大于第二阈值的候选答案，得到答案集合；

问答对生成单元，配置为，根据所述问题集合和答案集合，生成多个所述目标领域的问答对。

第三方面，提供了一种计算机可读存储介质，其上存储有计算机程序，当所述计算机程序在计算机中执行时，令计算机执行第一方面的方法。

第四方面，提供了一种计算设备，包括存储器和处理器，其中，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，实现第一方面的方法。

本发明提出的一种生成问答对的方法及装置，通过使用问题模板和知识图谱生成问题，并使用大语言模型生成对应的答案，使用语料库分别筛选出问题和答案中匹配度高的结果，进而生成问答对，可以在短时间高效地生成大量的专业领域的问答对，并且具有高质量和高准确性。

附图说明

为了更清楚地说明本说明书披露的多个实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本说明书披露的多个实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1为本发明实施例公开的一种生成问答对的方法的框架图；

图2为本发明实施例公开的一种生成问答对的方法的流程图；

图3为本发明实施例公开的一种生成问答对的装置的示意性框图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

根据一个实施例，图1示出一种生成问答对的方法的框架图。如图1所示，整个流程主要分为问题生成和答案生成两个阶段，用于生成在某个专业的目标领域的问答对。在问题生成阶段，首先，通过使用提示词(prompt)让大语言模型生成一些提问模版，例如，“如何____？”、“怎样____？”。然后，从目标领域语料库中通过命名实体识别(Named EntityRecognition,NER)技术抽取出相关领域术语，并将术语填充进模版中，生成与目标领域有关的问题，例如：“如何制造玻璃纤维？”、“怎样生产玻璃涂料？”；与此同时，通过对目标领域语料库进行实体和关系的抽取，构造专业领域的名词关系知识图谱，利用图谱和模版匹配生成与目标领域有关的问题。然后，使用语言模型基于目标领域语料库对问题进行相似度匹配，如果匹配分数良好(相似度高)，则说明生成问题符合一定逻辑，可以添加进问题集合中。如果匹配分数不理想，说明这种表达不符合该领域常见表达形式，应当弃用该问题。

在答案生成阶段，使用补全模型的补全方法处理问题，将上一步目标领域语料库匹配的相似文本适应性嵌入问题生成上下文，把问题完善成更加优质和清楚的专业领域提示词。然后将提示词输入到大语言模型中，得到对于提示词中问题的候选答案。将候选答案添加进答案集合指前，也需要使用语言模型基于目标领域语料库对答案进行相似度匹配，检验语义和语法的可行性，并保留匹配分数高的答案，并与相应的问题组成问答对。

以下将结合附图以具体实施例做进一步的解释说明，实施例并不构成对本发明实施例的限定。

图2为本发明实施例公开的一种生成问答对的方法的流程图。如图2所示，所述方法至少包括：步骤201，获取问题模板、目标领域的语料数据与知识图谱数据；步骤202，分别根据所述语料数据和知识图谱数据对所述问题模板进行填充，得到多个所述目标领域的候选问题；步骤203，对所述多个候选问题与所述语料数据进行第一相似度匹配，保留相似度大于第一阈值的候选问题，得到问题集合；步骤205，将所述问题集合中的任一问题输入到大语言模型中，得到多个所述目标领域的候选答案；步骤206，对所述多个候选答案与所述语料数据进行第二相似度匹配，保留相似度大于第二阈值的候选答案，得到答案集合；步骤207，根据所述问题集合和答案集合，生成多个所述目标领域的问答对。

在步骤201，获取问题模板、目标领域的语料数据与知识图谱数据。

问题模板可以直接从已有模板库中获取，也可以先获取与所述问题相关的提示词prompt，然后根据所述提示词，使用大语言模型生成所述问题模板，这里不做限定。问题模板包含疑问词，用于辅助生成问题，例如，“如何____？”、“怎样____？”。

知识图谱可以是直接获取已有的知识图谱，也可以通过对目标领域的语料库进行实体和关系的抽取，然后根据实体和关系构造知识图谱。

在步骤202，分别根据所述语料数据和知识图谱数据对所述问题模板进行填充，得到多个所述目标领域的候选问题。

在一个实施例中，根据所述语料数据对所述问题模板进行填充可以包括：从所述语料数据中提取与所述目标领域相关的词语，使用所述词语对所述问题模板进行填充。

具体地，对所述语料数据使用命名实体识别NER技术抽取出与所述目标领域相关的词语，然后使用所述词语对所述问题模板进行填充。

本领域技术人员知晓，命名实体识别(Named Entity Recognition，NER)是自然语言处理领域的一种技术，其主要目的是识别文本中具有特定实体意义的词汇，例如人名、地名、组织机构名、日期、时间等，并将其分类为预先定义好的实体类型。

在另一个实施例中，根据知识图谱数据对所述问题模板进行填充可以包括：从所述知识图谱中提取与所述目标领域相关的知识，使用所述知识对所述问题模板进行匹配填充。

在步骤203，对所述多个候选问题与所述语料数据进行第一相似度匹配，保留相似度大于第一阈值的候选问题，得到问题集合。

在一个实施例中，对所述多个候选问题中的任一候选问题进行编码，得到候选问题表征，同时，对所述语料数据中的任一语料进行编码，得到语料表征，然后对所述候选问题表征和所述语料表征进行相似度匹配，保留相似度大于第一阈值的候选问题，得到问题集合。

可以使用多种编码方法对候选问题和语料数据进行编码，例如one-hot、word2vec、BERT编码器等，这里不做限定。

可以使用多种相似度匹配方法对所述候选问题表征和所述语料表征进行相似度匹配。

在一个实施例中，通过问题表征与语料表征之间的欧式距离、曼哈顿距离、或切比雪夫距离，进而进行第一相似度匹配。

在另一个实施例中，通过计算问题表征与语料表征之间的余弦相似度，进而进行第一相似度匹配。

然后，在步骤205，将所述问题集合中的任一问题输入到大语言模型中，得到多个所述目标领域的候选答案。

在一些可能的实施方式中，在步骤205之前，所述方法还包括：步骤204，根据所述第一相似度匹配的结果，使用所述语料数据对所述问题集合中的问题的内容进行扩充。将上一步目标领域语料库匹配的相似文本适应性嵌入问题生成上下文，把问题完善成更加优质和清楚的目标专业领域提示词。通过将提示词输入到大语言模型中，可以得到多个所述目标领域的更加优质和清楚的候选答案。

在步骤206，对所述多个候选答案与所述语料数据进行第二相似度匹配，保留相似度大于第二阈值的候选答案，得到答案集合。

在一个实施例中，对所述多个候选答案中的任一候选答案进行编码，得到候选答案表征，对所述语料数据中的任一语料进行编码，得到语料表征，然后对所述候选答案表征和所述语料表征进行相似度匹配，保留相似度大于第二阈值的候选答案，得到答案集合。

对候选答案和语料的编码以及相似度匹配的方法可以参照步骤203相关的方法进行，这里不再赘述。

在步骤207，根据所述问题集合和答案集合，生成多个所述目标领域的问答对。

通过如图2所示的方法，可以在短时间内根据目标领域语料库以及行业知识图谱生成大量的目标领域内合理的QA问答对，并且通过相似度匹配模型，保证了输出答案的逻辑性和专业性，避免了语言模型生成不准确答案对QA问答对样本集合的污染。

根据另一方面的实施例，还提供一种生成问答对的装置。图3示出根据一个实施例的生成问答对的装置的示意性框图，该装置可以部署在任何具有计算、处理能力的设备、平台或设备集群中。如图3所示，该装置300包括：

获取单元301，配置为，获取问题模板、目标领域的语料数据与知识图谱数据；

问题生成单元302，配置为，分别根据所述语料数据和知识图谱数据对所述问题模板进行填充，得到多个所述目标领域的候选问题；

问题确定单元303，配置为，对所述多个候选问题与所述语料数据进行第一相似度匹配，保留相似度大于第一阈值的候选问题，得到问题集合；

答案生成单元305，配置为，将所述问题集合中的任一问题输入到大语言模型中，得到多个所述目标领域的候选答案；

答案确定单元306，配置为，对所述多个候选答案与所述语料数据进行第二相似度匹配，保留相似度大于第二阈值的候选答案，得到答案集合；

问答对生成单元307，配置为，根据所述问题集合和答案集合，生成多个所述目标领域的问答对。

在一些可能的实施方式中，所述装置还包括：扩充单元304，配置为，根据所述第一相似度匹配的结果，使用所述语料数据对所述问题集合中的问题的内容进行扩充。

根据另一方面的实施例，还提供一种计算机可读存储介质，其上存储有计算机程序，当所述计算机程序在计算机中执行时，令计算机执行上述任一实施例所描述的方法。

根据再一方面的实施例，还提供一种计算设备，包括存储器和处理器，其中，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，实现上述任一实施例所描述的方法。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括要素的过程、方法、物品或者装置中还存在另外的相同要素。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种生成问答对的方法，其特征在于，所述方法包括：

获取问题模板、目标领域的语料数据与知识图谱数据；

2.根据权利要求1所述的方法，其特征在于，在将所述问题集合中的任一问题输入到大语言模型之前，所述方法还包括：

3.根据权利要求1所述的方法，其特征在于，获取问题模板，包括：

获取与所述问题相关的提示词；

根据所述提示词，使用大语言模型生成所述问题模板。

4.根据权利要求1所述的方法，其特征在于，根据所述语料数据对所述问题模板进行填充，包括：

5.根据权利要求1所述的方法，其特征在于，根据知识图谱数据对所述问题模板进行填充，包括：

6.根据权利要求1所述的方法，其特征在于，对所述多个候选问题与所述语料数据进行第一相似度匹配，包括：

对所述语料数据中的任一语料进行编码，得到语料表征；

对所述候选问题表征和所述语料表征进行相似度匹配。

7.根据权利要求1所述的方法，其特征在于，对所述多个候选答案与所述语料数据进行第二相似度匹配，包括：

对所述语料数据中的任一语料进行编码，得到语料表征；

对所述候选答案表征和所述语料表征进行相似度匹配。

8.根据权利要求1所述的方法，其特征在于，根据所述问题集合和答案集合，生成多个所述目标领域的问答对，包括：

9.一种生成问答对的装置，其特征在于，所述装置包括：

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，当所述计算机程序在计算机中执行时，令计算机执行权利要求1-8中任一项的所述的方法。