CN117407502A

CN117407502A - 问答对抽取方法、装置、电子设备及存储介质

Info

Publication number: CN117407502A
Application number: CN202311382008.4A
Authority: CN
Inventors: 吴昆凡; 年会; 潘青华; 王金钖; 程彩锋
Original assignee: iFlytek Co Ltd
Current assignee: iFlytek Co Ltd
Priority date: 2023-10-23
Filing date: 2023-10-23
Publication date: 2024-01-16

Abstract

本申请提供一种问答对抽取方法、装置、电子设备及存储介质，所述问答对抽取方法，对目标文档进行文档信息解析后，基于文档信息生成用于指示接收指令的对象从目标文档的文本内容中抽取问答对的第一提示指令，然后将该第一提示指令输入预训练的大语言模型，使得该大语言模型从目标文档的文本内容中提取问答对。该方案借助了预训练的大语言模型强大的自然语言处理能力，由该大语言模型执行对目标文档的问答对提取任务，能够提高问答对抽取效率。并且，大语言模型执行问答对抽取任务不受限于特定规则或模板，其问答对抽取更全面、抽取的问答对更丰富。

Description

问答对抽取方法、装置、电子设备及存储介质

技术领域

本申请涉及人工智能技术领域，尤其涉及一种问答对抽取方法、装置、电子设备及存储介质。

背景技术

问答对数据是智能客服、知识问答等场景下对执行问答任务的模型进行训练和优化的重要数据。

常规的获取问答对数据的方案是人工抽取、基于规则的抽取、基于模板的抽取等。这些方案要么效率低下，要么受限于规则和模板的局限性，抽取不全面。因此，需要一种更加高效的问答对抽取方案，从而能够获取更加全面、丰富的问答对数据。

发明内容

鉴于上述技术现状，本申请提供一种问答对抽取方法、装置、电子设备及存储介质。

根据本申请实施例的第一方面，提供了一种问答对抽取方法，包括：

对目标文档进行解析，确定所述目标文档的文档信息，所述文档信息包括文档类型、目录、标题、自然段、关键词和图片中的至少一项；

基于所述文档信息生成第一提示指令，所述第一提示指令包括所述文档信息中的至少一项、所述目标文档的文本内容以及问答对提取任务的描述信息，所述问答案对提取任务用于基于所述文档信息，从所述目标文档的文档内容中提取问答对；

将所述第一提示指令输入预先训练的大语言模型，得到所述大语言模型抽取的问答对。

可选的，所述方法还包括：

基于预设的问答对评估规则，对所述问答对进行质量评估，确定所述问答对的质量评估结果；

根据对所述问答对的质量评估结果，对所述问答对进行优化调整。

可选的，基于预设的问答对评估规则，对所述问答对进行质量评估，确定对所述问答对的质量评估结果，以及，根据对所述问答对的质量评估结果，对所述问答对进行优化调整，包括：

生成第二提示指令，所述第二提示指令包括预设的问答对评估规则、所述问答对、所述目标文档的文本内容，以及问答对评估任务的描述信息，所述问答对评估任务用于基于所述预设的问答对评估规则，对所述问答对进行质量评估，确定对所述问答对的质量评估结果，并基于所述质量评估结果，对所述问答对进行优化调整；

将所述第二提示指令输入所述大语言模型，得到优化调整后的问答对。

可选的，基于预设的问答对评估规则，对所述问答对进行质量评估，确定对所述问答对的质量评估结果，包括：

度量所述问答对与所述目标文档的文本内容之间的语料关联度、所述目标文档的文本内容的语料完整度，以及所述问答对的问题通俗度，所述问题通俗度用于表示问题的可理解性；

基于所述语料关联度、所述语料完整度以及所述问题通俗度，计算得到对所述问答对的质量评估结果。

可选的，所述方法还包括：

基于所述问答对以及所述目标文档的文本内容，生成与所述问答对中的问题对应的相似问题，所述相似问题与所述问答对中的问题表示相同的问题需求；

对所述问答对以及所述相似问题进行规整，得到规整后的问答对。

可选的，基于所述问答对以及所述目标文档的文本内容，生成与所述问答对中的问题对应的相似问题，以及，对所述问答对以及所述相似问题进行规整，得到规整后的问答对，包括：

生成第三提示指令，所述第三提示指令包括所述问答对、所述目标文档的文本内容，以及问题扩充任务的描述信息，所述问题扩充任务用于基于所述问答对以及所述目标文档的文本内容，生成与所述问答对中的问题对应的相似问题，以及，对所述问答对以及所述相似问题进行规整；

将所述第三提示指令输入所述大语言模型，得到规整后的问答对。

可选的，所述方法还包括：

按照预设的问答对过滤规则，对所述问答对进行过滤。

所述文档信息包括关键词，所述方法还包括：

计算所述问答对中的问题与各个关键词的关联度；

基于所述问答对中的问题与所述各个关键词的关联度，从所述各个关键词中确定出与所述问答对中的问题关联的关键词。

可选的，所述文档信息包括自然段；在基于所述文档信息生成第一提示指令之前，所述方法还包括：

基于所述目标文档的自然段信息，对所述目标文档的自然段进行切分，得到文档切片；

所述目标文档的文本内容，包括所述文档切片。

可选的，所述基于所述目标文档的自然段信息，对所述目标文档的自然段进行切分，得到文档切片，包括：

基于所述预训练的大语言模型的输入支持的文本长度，将所述目标文档划分为至少一个文档切片；

根据各个文档切片中的最后一个文本句的完整性，将所述各个文档切片中的最后一个不完整的文本句，迁移至该文本句所在文档切片的下一个文档切片。

可选的，所述第一提示指令包括多个文档切片，以及与每一文档切片对应的问答对提取任务的描述信息；

或者，所述第一提示指令的数量为多个，每一所述第一提示指令包括一个文档切片，以及与该文档切片对应的问答对提取任务的描述信息。

根据本申请实施例的第二方面，提供了一种问答对抽取装置，包括：

文档解析单元，用于对目标文档进行解析，确定所述目标文档的文档信息，所述文档信息包括文档类型、目录、标题、自然段、关键词和图片中的至少一项；

指令生成单元，用于基于所述文档信息生成第一提示指令，所述第一提示指令包括所述文档信息中的至少一项、所述目标文档的文本内容以及问答对提取任务的描述信息，所述问答对提取任务用于基于所述文档信息，从所述目标文档的文本内容中提取问答对；

信息抽取单元，用于将所述第一提示指令输入预训练的大语言模型，得到所述大语言模型抽取的问答对。

根据本申请实施例的第三方面，提供了一种电子设备，包括：存储器和处理器；

所述存储器与所述处理器连接，用于存储程序；

所述处理器用于通过运行所述存储器中的程序，实现上述问答对抽取方法。

根据本申请实施例的第四方面，提供了一种存储介质，所述存储介质上存储有计算机程序，所述计算机程序被处理器运行时，实现上述问答对抽取方法。

本申请提出的问答对抽取方法，对目标文档进行文档信息解析后，基于文档信息生成用于指示接收指令的对象从目标文档的文本内容中抽取问答对的第一提示指令，然后将该第一提示指令输入预训练的大语言模型，使得该大语言模型从目标文档的文本内容中提取问答对。

该方案借助了预训练的大语言模型强大的自然语言处理能力，由该大语言模型执行对目标文档的问答对提取任务，能够提高问答对抽取效率。并且，大语言模型执行问答对抽取任务不受限于特定规则或模板，其问答对抽取更全面、抽取的问答对更丰富。

另一方面，本方案在第一提示指令中嵌入了目标文档的文档信息，使得大语言模型在从目标文档中抽取问答对时，能够参考目标文档的文档信息，即对大语言模型的问答对抽取任务提供辅助，从而使得大语言模型能够更加准确、全面地从目标文档中抽取问答对，提高了问答对抽取的质量。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本申请实施例提供的问答对抽取方法流程图；

图2为本申请实施例提供的问答对抽取装置结构图；

图3为本申请实施例提供的电子设备结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

有鉴于此，本申请提供一种问答对抽取方法、装置、电子设备及存储介质，在以下实施例中逐一进行详细说明。

示例性方法

本申请实施例首先提供一种问答对抽取方法，其核心在于，借助预训练的大语言模型的自然语言处理能力，执行对目标文档的问答对提取任务，提高问答对抽取效率，由于所述大语言模型执行问答对抽取任务不受限于特定规则或模板，其问答对抽取更全面、抽取的问答对更丰富。

另一方面，所述问答对抽取方法在第一提示指令中嵌入了目标文档的文档信息，使得大语言模型在从目标文档中抽取问答对时，能够参考目标文档的文档信息，即对大语言模型的问答对抽取任务提供辅助，从而使得大语言模型能够更加准确、全面地从目标文档中抽取问答对，进而提高问答对抽取的质量。

在本申请的一种可选实施方式中，所述问答对抽取方法的实施主体可以是笔记本电脑、平板电脑、台式计算机、移动设备(例如，移动电话，个人数字助理，专用消息设备)等各种类型的用户终端或者是这些数据处理设备中的任意两个或多个的组合，也可以是服务器。

如图1所示，所述问答对抽取方法，包括：

S101，对目标文档进行解析，确定所述目标文档的文档信息，所述文档信息包括文档类型、目录、标题、自然段、关键词和图片中的至少一项。

所述目标文档可以理解为一种提供信息、知识或解决问题的文档，比如可以是文章、书籍，还可以是网络上或数据库中存在的电子形式的文档。在本申请提供的所述问答对抽取方法中旨在从所述目标文档中提取问答对，以丰富问答资料库或者是使用这些问答对训练用于回答用户问题的问答模型的数据训练库。

在本申请实施例中，所述目标文档可以根据实际的应用场景进行选择，比如说，对于企业知识问答领域，所述目标文档可以是与企业相关的文档，又比如说，对于医学领域，所述目标文档可以是医学论文、医学教材、医患对话记录等等。

在本申请实施例中，所述目标文档的可以是PDF、word、Excel等格式的文件，对此，本申请不做限制。但当所述目标文档为图像形式时，为了从所述目标文档中提取问答对，在提取所述问答对之前，还需要对所述目标文档进行扫描处理，如借助OCR(OpticalCharacter Recognition，光学字符识别)技术对所述原始文档进行扫描，以获得计算机程序能够识别的目标文档。

进一步的，所述对所述目标文档进行解析，确定所述目标文档的文档信息可以通过人工解析实现，和/或通过计算机解析实现。

如S101所示，所述文档信息包括文档类型、目录、标题、自然段、关键词和图片中的至少一个。

在本申请实施例中，所述文档类型包括：问答类文档和非问答类文档，其中，所述问答类文档是指所述目标文档中的全部或大部分都为问题和与该问题对应的答案的文本文档，所述非问答类文档则是指除所述问答类文档之外的其他文档。

可以理解的，本申请实施例对所述文档类型的限定只是为了便于理解本申请提供的所述文档类型，在实际应用中相关工作人员可以根据需要对所述文档类型做进一步划分，如根据实际使用需求，对所述问答类文档和所述非问答类文档做进一步划分，以区分符合实际场景需求的文档，对此本申请不做限制。

所述通过人工解析所述目标文档，包括对标注所述目标文档的文档类型，以确定所述目标文档所述的种类。

在本申请的一种可选方式中，如果所述目标文档属于问答类文档，则可以直接将所述目标文档输入后续的大语言模型，并给予所述大语言模型相应的提示指令，以提取所述问答对。

所述通过人工解析所述目标文档，还包括标注所述目标文档的文档内容，即，标注所述目标文档中的文档类型、目标、标题、关键词和图片等内容，以便于在后续采集和整理所述目标文档时能够精准的获取所述目标文档中与问答对相关的重要信息，从而提升问答对的提取效率。

比如说，如果所述目标文档为非问答类文档，则对所述目标文档进行文档内容标注后，可以快速的区分目标文档中的不同内容，以便于快速定位到与问答对相关的内容。

在本申请的另一种可选实施方式中，如果所述目标文档为问答类文档，所述标注所述目标文档的文档内容还包括标注所述目标文档中的问题和答案的模板格式(所述模板格式可以是“问题-答案”)，以便于更好的理解问题和答案之间的关系，从而更快速的提取问答对。

所述通过计算机程序解析所述目标文档，同样涉及对所述目标文档的文档类型、目标、标题、自然段、关键词和图片中的至少一个进行解析。

具体的，为了便于计算机程序识别所述目标文档，在对所述目标文档进行解析处理之前，还需对所述目标文档进行扫描处理(如，通过OCR技术扫描所述目标文档)。

之后，对所述目标文档进行解析和清洗处理，以获得所述文档信息，并清洗掉一些与问答对无关的图片、多媒体，以及脚注等内容。

所述文档信息中的关键词可以理解为与所述目标文档介绍的主旨相关的词，比如说，在论文中，所述关键词可以是论文的摘要中记录的关键词，以明确该论文涉及的领域以及研究方向；又比如说，在医患对话文本中，所述关键词可以是医患对话文本中提到的病症、药品等名词内容，以明确对话中讨论的病症和治疗药物。

在本申请实施例中，对所述目标文档进行解析得到所述关键词的目的在于，在后续提取所述目标文档的问答对时，可以结合所述关键词抽取与所述目标文档的主旨相关的问答对，进而提高所述问答对于所述目标文档的关联度。

在本申请实施例中，所述关键词可以通过人为标注，也可以通过预先训练的大语言模型提取，如，将所述目标文档和类似“提取目标文档中的关键词”的指令输入所述大语言模型，获得所述大语言模型输出的关键词信息。

在通过所述大语言模型提取到关键词后，还可以进一步对这些关键词进行验证，以确定各个关键词对于所述目标文档的重要性，具体的，对关键词的验证可以基于文本特征提取算法(Term Frequency-Inverse Document Frequency，TF-IDF)实现。

在通过上述方式解析得到所述目标文档的文档信息后，即可结合所述文档信息、所述目标文档的文本内容，以及相应的问答对提取任务的描述信息，提取所述目标文档中的问答对。

在本申请实施例中，提取所述目标文档中的问答对基于预先训练的大语言模型实现，考虑大语言模型处理数据时也有一定的token数限制，因此，在本申请的一种可选实施方式中，所述方法还包括：

基于所述目标文档的自然段信息，对所述目标文档的自然段进行切分，得到文档切片。

在本申请的一种可选实施方式中，所述目标文档的自然段信息可以是对所述目标文档进行解析获得的、所述文档信息中的自然段。

在本申请的另一种可选实施方式中，为了提供不同自然段之间的上下文联系，以及自然段与标题、目标之间的上下文联系，在对所述目标文档的自然段进行切分之前，还可以对所述目标文档进行规整处理，以便于优化所述目标文档的段落结构。

具体的，所述对所述目标文档进行规整处理，包括：将所述目标文档的文档内容按照所述目标的顺序进行拆分；和/或，将所述目标文档的文档内容按照自然段的顺序进行拆分；和/或，将所述目标文档的文档内容按照自然段的顺序进行拆分，并基于每段的字数进行合并；和/或，将所述目标文档的文档内容按照自然段的顺序进行拆分，并将所述标题合并至所述标题的下一自然段。

具体的，所述基于所述文档信息对所述目标文档进行规整处理的目的在于，将所述目标文档的文本内容重划分为多个子片段，并剔除掉一些与问答对或者领域知识无关的内容，以便于后续从各个子片段中抽取所述问答对。

在本申请的一种可选方式中，所述基于所述目标文档的自然段信息，对所述目标文档的自然段进行切分，得到文档切片，包括：

其中，所述大语言模型支持的文本长度是指所述大语言模型能够处理的token(一种文本单位)数量。

所述基于所述预训练的大语言模型的输入支持的文本长度，将所述目标文档划分为至少一个文档切片，包括：

根据预设的token数和所述自然段的token数进行切分，以将切分后得到的所述文档切片的token数限制在所述预设的token数以下，其中，所述预设的token数可以根据后续用于提取所述问答对的大语言模型能够处理的最大token数设置。

在切分的过程中，为了保证每个文档切片中的文档内容都是一段完整的内容，需要让每个文档切片的最后一个字符都是一个结束符(即，句号、问号或者感叹号等)。为了实现这一效果，本申请实施例在进行自然段切分的过程中，首先需要从自然段的最后一个字符向前寻找第一个文本句的结束符。在找到该结束符后，从该结束符处对该自然段进行切片处理，具体而言，该结束符之后的文本内容为所在文档切片中的最后一个不完整的文本句，在该结束符之前的文本内容为完整的文本句。基于上述区分，将文档切片中的最后一个不完整的文本句划分到下一个文档切片。以此类推，直至得到该自然段的全部文档切片。

S102，基于所述文档信息生成第一提示指令，所述第一提示指令包括所述文档信息中的至少一项、所述目标文档的文本内容以及问答对提取任务的描述信息，所述问答对提取任务用于基于所述文档信息，从所述目标文档的文本内容中提取问答对。

在本申请实施例中，所述问答对基于所述第一提示指令，以及预训练的大语言模型从所述目标文档中抽取。其中，所述第一提示指令为所述大语言模型的输入数据，以使所述大语言模型基于所述第一提示指令，执行该提示指令中的任务描述所表达的问答对提取任务，所述大语言模型通过执行该任务，即可得到所述目标文档的问答对。

所述问答对提取任务的描述信息可以按照预设的任务描述模板来生成，比如说，在任务描述模板中预设需要填充的任务描述项目，比如任务目标、任务对象、任务执行要求等，并基于所述文档信息和所述目标文档的文档内容对所述任务描述模板进行填充，即可实现所述提取任务的描述信息的生成。

在本申请的一种可选实施方式中，为了使得所述大语言模型能够执行所述第一提示指令，所述第一提示指令中的所述目标文档的文档内容包括所述文档切片。

在本申请的另一种可选实施方式中，为了提高抽取得到的所述问答对与所述目标文档的主旨相关，所述第一提示指令中包括所述关键词。

示例性的，可以直接将所述文档信息中的至少一项、所述目标文档的文本内容，以及所述问答对提取任务的描述信息进行拼接，得到所述第一提示指令，比如说，所述第一提示指令可以是：

根据目标文档的关键词XXX，抽取以下文档切片中的问答对；文档切片为xxxxxx。

具体的，在拼接过程中，可以在所述任务描述模板中设置所述文档信息以及所述目标文档的文本内容的占位符，之后将所述占位符替换为对应的文档信息和文本内容，得到所述第一提示指令。

如，使用{{docTitle}}、{{sliceContent}}和{{docKeywords}}分别表示标题、文档切片和关键词。

在本申请的一种可选实施方式中，为了提高后续大语言模型提取问答对的效率，可以针对同一篇目标文档的不同文档切片构建所述第一提示指令，以便于大语言模型并行提取不同文档切片中的问答对。

在本申请的另一种可选实施方式中，考虑到大语言模型并行提取多个文档切片的问答对，可能降低问答对质量，不同的文档切片也可以分别构建所述第一提示指令，对此，本申请不做限制。

即，所述第一提示指令包括多个文档切片，以及与每一文档切片对应的问答对提取任务的描述信息；

使大语言模型并行执行问答对提取任务，虽然可以提高提取效率，但是可能会对提取质量带来影响。在实际应用本申请实施例技术方案时，可以综合大语言模型的问答对提取效率和提取质量，来选择是否让大语言模型并行提取问答对，或者选择大语言模型并行提取问答对的并行路数。

S103，将所述第一提示指令输入预训练的大语言模型，得到所述大语言模型抽取的问答对。

所述大语言模型是一种具有大规模参数和能力的语言模型。语言模型是一种用于生成自然语言文本的人工智能模型，它可以根据输入的文本上下文预测下一个可能的单词或短语。大语言模型是在此基础上进行了扩展，具有更大的模型规模和更强大的语言理解和生成能力。大语言模型通常是通过深度学习技术中的神经网络来构建的。这些模型使用大量的文本数据进行训练，以学习单词、短语和句子之间的语义关系和上下文信息。通过学习大量的语言数据，大语言模型能够捕捉到更多的语言规律和语境，从而生成更准确、流畅的文本。

在本申请实施例中，该预训练的大语言模型可以采用任意类型的大语言模型，经过预训练的大语言模型能够具备强大的自然语言处理能力，由于在预训练的过程中，应用了各种领域得到海量数据进行训练，因此，其可以执行任意领域的问答对提取任务，在使用所述大语言模型逐个进行问答对抽取处理时，只需要向模型输入所述提示指令prompt(在本申请实施例中提示指令prompt中包含待处理数据)，模型即可按照prompt的要求执行相应的数据处理，并输出数据处理结果。在本申请实施例中，对所述大语言模型的预训练是指，对所述大语言模型进行基于所述第一提示指令的问答对提取训练。

基于上述预训练的大语言模型，将步骤S102生成的第一提示指令，输入该大语言模型，即可使得所述大语言模型执行提取任务，得到问答对。

在本申请的一种可选实施方式中，在通过所述预训练的大语言模型抽取到所述问答对后，为了评估所述问答对的质量，所述问答对抽取方法还包括以下步骤S104和步骤S105：

S104，基于预设的问答对评估规则，对所述问答对进行质量评估，确定对所述问答对的质量评估结果。

其中，所述问答对评估规则是指人为设置的、用于评估所述问答对的质量的评估标准和评估方法。

在本申请的一种可选实施方式中，所述预设的问答对评估规则包括语料关联度的评估、语料完整度的评估、问题通俗度的评估。

具体的，所述基于预设的问答对评估规则，对所述问答对进行质量评估，确定对所述问答对的质量评估结果，包括：

度量所述问答对与所述目标文档的文本内容之间的语料关联度、所述目标文档的文本内容的语料完整度，以及所述问答对的问题通俗度，所述问题通俗度用于表示问题的可理解性，问题越易于理解，则其通俗度越高，反之，问题越难理解，则其通俗度越低；基于所述语料关联度、所述语料完整度以及所述问题通俗度，计算得到对所述问答对的质量评估结果。

其中，所述语料关联度是指问答对和所述目标文档之间的关联程度，在实际应用中，所述问答对的语料关联度可以根据所述文档信息中的关键词或目标文档的摘要确定。

所述语料完整度是指提取所述与所述问答对对应的文档切片是否完整、准确，在实际应用中，可以通过衡量该文档切片的文本长度、句法结构、词汇量等指标进行衡量。

所述问题通俗度是指所述问答对中的问题是否清晰、简单、易于理解，所述问题通俗度可以根据所述问题的语言表达、逻辑结构等方面进行评估。

进一步的，在本申请实施例中，在基于所述语料关联度、语料完整度以及问题通俗度这些评估项对所述问答对进行质量评估的过程中，不同的评估项对应有不同的权重值，具体的，所述基于预设的问答对评估规则，对所述问答对进行质量评估，可以通过以下公式(1)实现：

SCORE＝语料关联度×W₁+语料完整度×W₂+问题通俗度×W₃ (1)；

其中，SCORE表示问答对的质量评估结果，W₁表示所述语料关联度的权重，W₂表示所述语料完整度的权重，W₃表示所述问题通俗度的权重。

S105，根据对所述问答对的质量评估结果，对所述问答对进行优化调整。

示例性的，根据质量评估结果，对问答对进行优化调整，具体是将问答对调整为符合预设的质量要求的问答对，具体的优化调整方式包括但不限于：删除不符合质量要求的问答对、对问答对进行修改、重新提取问答对等。

在一些实施例中，所述语料关联度，所述语料完整度，所述问题通俗度的确定，以及通过上述公式(1)确定所述问答对的指令评估结果的计算过程基于所述预训练的大语言模型实现，所述对所述问答对进行优化调整的过程同样基于所述大语言模型实现。

在对所述问答对进行质量评估和优化调整的过程中，所述大语言模型的输入数据为第二提示指令，所述大语言模型的输出为针对所述问答对的评估结果，以及所述问答对的优化调整结果。

其中，所述第二提示指令包括：预设的问答对评估规则、所述问答对、所述目标文档的文本内容，以及问答对评估任务的描述信息，所述问答对评估任务用于基于所述预设的问答对评估规则，对所述问答对进行质量评估，确定对所述问答对的质量评估结果，并基于所述质量评估结果，对所述问答对进行优化调整。

与所述问答对提取任务的描述信息类似的，所述问答对评估任务的描述信息可以按照预设的任务描述模板来生成，并基于所述问答对评估规则、所述问答对、所述目标文档的文档内容进行填充。

示例性的，可以直接将所述问答对评估规则、所述问答对、所述目标文档的文本内容，以及问答对评估任务的描述信息进行拼接，得到所述第二提示指令，比如说，所述第二提示指令可以是：

结合目标文档的关键词XXX，和以下目标文档的文档切片，对问答对QA进行质量评估；如果质量评估结果低于5分，对问答对QA进行优化调整；其中，文档切片为xxxx，评估标准为：SCORE＝语料关联度×W₁+语料完整度×W₂+问题的通俗度×W₃。

在本申请的另一种可选实施方式中，考虑到通过所述大语言模型对所述问答对进行质量评估的评估结果可能会存在一定的不稳定性，对于一些评分结果的分数较低的问答对，还可以通过人工的方式再次进行辨别和优化。

可以理解的，本申请实施例通过对所述问答对进行质量评估，能够及时对质量偏低的问答对进行优化调整，不仅能够确保得到高质量的问答对，还能够提高所述大语言模型抽取所述问答对的准确性和可靠性。

在本申请的另一种可选实施方式中，考虑到在智能客服场景和知识回答场景下，可以基于S103中提取的问答对进一步扩充一些问答模型或问答模板的语料库，为了进一步探索用户提出的问题，所述方法还以下步骤S106和S107：

S106，基于所述问答对以及所述目标文档的文本内容，生成与所述问答对中的问题对应的相似问题，所述相似问题与所述问答对中的问题表示相同的问题需求。

示例性的，可以提取问答对中的问题的语义，然后通过文本生成方法，生成与该语义相同语义的问题，即得到与该问答对中的问题相应的相似问题。

或者，也可以通过对问答对中的问题进行部分文本替换，来生成与该问题的语义相同的新文本，作为与该问题对应的相似问题。

在本申请实施例中，所述基于所述问答对以及所述目标文档的文本内容，生成与所述问答对中的问题对应的相似问题，同样基于所述预训练的大语言模型实现。

具体的，在生成相似问题的过程中，所述大语言模型的输入为第三提示指令，所述大语言模型的输出为与所述问答对中的问题对应的相似问题。

所述第三提示指令，包括：所述问答对、所述目标文档的文本内容，以及问题扩充任务的描述信息，所述问题扩充任务用于基于所述问答对以及所述目标文档的文本内容，生成与所述问答对中的问题对应的相似问题。

与上问答对提取任务的描述信息和所述问答对评估任务的描述信息类似的，所述问题扩充任务的描述信息可以按照预设的任务描述模板生成，并基于问答对、所述目标文档的文本内容，以及问题扩充任务的描述信息进行填充。

示例性的，可以直接将所述问答对、所述目标文档的文本内容，以及所述问题扩充任务的描述信息进行拼接，得到所述第三提示指令，比如说，所述第三提示指令可以是：

请结合以下目标文档的文档内容，列举问答对QA中与问题Q相似的其他问题；其中，目标文档的文档内容为xxxx。

S107，对所述问答对以及所述相似问题进行规整，得到规整后的问答对。

上述步骤S107的目的在于，结合原有的所述问答对，以及所述相似问题，对所述问答对中的问题和答案进行规整处理，以得到完整、充分和准确的问答对。在该规整后的问答对中，有多个问题对应同一个答案。

在本申请实施例中所述对所述问答对以及所述相似问题进行规整，得到规整后的问答对，同样基于所述预训练的大语言模型实现，在本申请的一种可选实施方式中，考虑到一些场景下不仅需要大量的相似问题，同时需要对问答对进行规整处理，所述第三提示指令的问题扩充任务的描述信息中可以添加一部分问答对规整任务的描述信息，以便于在得到所述相似问题的同时，得到规整后的问答对。

比如说，为了对所述问答对中的问题和答案进行规整处理，所述第三提示指令可以是：

请结合以下目标文档的文档内容，列举问答对QA中与问题Q相似的其他问题，并结合问答对QA和与问题Q相似的其他问题，以及，对问答对QA和生成的相似问题进行规整处理；其中，目标文档的文档内容为xxxx。

可以理解的，所述预训练的大语言模型的输出结果，与所述第三提示指令的设计直接相关，因此，在实际应用的过程中，可以根据实际需要设计相应的第三提示指令，以获得符合需求的输出结果，对此，本申请不做限制。如说，在本申请的另一种可选实施方式中，在设计所述第三提示指令时，也可以不再要求所述大语言模型输出相似问题，直接输出规整后的问答对。

在本申请的另一种可选实施方式中，考虑到从所述目标文档中提取的问答对不可避免的会出现一些残次或者涉及隐私无法使用的情况，为了解决这一问题，所述方法还包括：按照预设的问答对过滤规则，对所述问答对进行过滤。

所述问答对过滤规则可以根据实际情况人为设置，对此，本申请不做限制，比如说，所述过滤规则可以是剔除包含隐私信息(如身份证号)的问答对；过滤涉及禁用问题(如涉及暴力犯罪的问题)的问答对；过滤问题或答案的字符数小于预设阈值的问答对，以避免问答对无法表达明确含义；过滤非问句的问答对等等。

在实际应用的过程中，上述对所述问答对进行过滤的过程可以基于人工实现，也可以通过所述大语言模型实现(即，设置相应的包含过滤规则、问答对，以及过滤任务描述语言的提示指令，输入所述大语言模型，得到过滤后的问答对)。

在本申请的另一种可选实施方式中，考虑到在一些问答对的使用场景下，问答对的使用可以基于用户提出的问题与问答对中的问题之间的关联度，向用户输出相应的答案。

因此，为了便于后续使用过程中，快速定位于与所述用户提出的问题相关的问答对，在通过所述大语言模型得到问答对之后，所述方法还包括：

计算所述问答对中的问题与各个关键词的关联度；

其中，所述关键词是指步骤S101中提到的所述文档信息中的关键词。

具体的，所述计算所述问答对中的问题与各个关键词的关联度，可以基于所述问答对中的问题的特征，和所述关键词的特征之间的相似度实现。

在实际应用的过程中，所述问答对中的问题的特征和所述关键词的特征可以通过编码器提取得到。

在得到问题与各个关键词的关联度之后，即可确定与所述问题关联度最高的若干个关键词为与所述问答对中的问题关联的关键词。同时，可以对问答对中的问题与关键词之间的关联关系。

综上所述，本申请实施例提供的问答对抽取方法，对目标文档进行文档信息解析后，基于文档信息生成用于指示接收指令的对象从目标文档的文本内容中抽取问答对的第一提示指令，然后将该第一提示指令输入预训练的大语言模型，使得该大语言模型从目标文档的文本内容中提取问答对。

示例性装置

相应的，本申请实施例还提供了一种问答对抽取装置，如图2所示，所述问答对抽取装置，包括：

文档解析单元201，用于对目标文档进行解析，确定所述目标文档的文档信息，所述文档信息包括文档类型、目录、标题、自然段、关键词和图片中的至少一项；

指令生成单元202，用于基于所述文档信息生成第一提示指令，所述第一提示指令包括所述文档信息中的至少一项、所述目标文档的文本内容以及问答对提取任务的描述信息，所述问答对提取任务用于基于所述文档信息，从所述目标文档的文本内容中提取问答对；

信息抽取单元203，用于将所述第一提示指令输入预训练的大语言模型，得到所述大语言模型抽取的问答对。

在本申请的一种可选实施方式中，所述装置还用于：

基于预设的问答对评估规则，对所述问答对进行质量评估，确定对所述问答对的质量评估结果；

在本申请的一种可选实施方式中，基于预设的问答对评估规则，对所述问答对进行质量评估，确定对所述问答对的质量评估结果，以及，根据对所述问答对的质量评估结果，对所述问答对进行优化调整，包括：

在本申请的一种可选实施方式中，基于预设的问答对评估规则，对所述问答对进行质量评估，确定对所述问答对的质量评估结果，包括：

在本申请的一种可选实施方式中，所述装置还用于：

在本申请的一种可选实施方式中，基于所述问答对以及所述目标文档的文本内容，生成与所述问答对中的问题对应的相似问题，以及，对所述问答对以及所述相似问题进行规整，得到规整后的问答对，包括：

在本申请的一种可选实施方式中，所述装置还用于：

按照预设的问答对过滤规则，对所述问答对进行过滤。

在本申请的一种可选实施方式中，所述文档信息包括关键词，所述装置还用于：

计算所述问答对中的问题与各个关键词的关联度；

在本申请的一种可选实施方式中，所述文档信息包括自然段；在基于所述文档信息生成第一提示指令之前，所述方法还包括：

所述目标文档的文本内容，包括所述文档切片。

在本申请的一种可选实施方式中，所述基于所述目标文档的自然段信息，对所述目标文档的自然段进行切分，得到文档切片，包括：

在本申请的一种可选实施方式中，所述第一提示指令包括多个文档切片，以及与每一文档切片对应的问答对提取任务的描述信息；

本实施例提供的问答对抽取装置，与本申请上述实施例所提供的问答对抽取方法属于同一申请构思，可执行本申请上述任意实施例所提供的问答对抽取方法，具备执行问答对抽取方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节，可参见本申请上述实施例提供的问答对抽取方法的具体处理内容，此处不再加以赘述。

以上的文档解析单元201、指令生成单元202、信息抽取单元203所实现的功能可以分别由相同或不同的处理器实现，本申请实施例不作限定。

应理解以上装置中的单元可以以处理器调用软件的形式实现。例如该装置包括处理器，处理器与存储器连接，存储器中存储有指令，处理器调用存储器中存储的指令，以实现以上任一种方法或实现该装置各单元的功能，其中处理器可以为通用处理器，例如CPU或微处理器等，存储器可以为装置内的存储器或装置外的存储器。或者，装置中的单元可以以硬件电路的形式实现，可以通过对硬件电路的设计，实现部分或全部单元的功能，该硬件电路可以理解为一个或多个处理器；例如，在一种实现中，该硬件电路为ASIC，通过对电路内元件逻辑关系的设计，实现以上部分或全部单元的功能；再如，在另一种实现中，该硬件电路可以通过PLD实现，以FPGA为例，其可以包括大量逻辑门电路，通过配置文件来配置逻辑门电路之间的连接关系，从而实现以上部分或全部单元的功能。以上装置的所有单元可以全部通过处理器调用软件的形式实现，或全部通过硬件电路的形式实现，或部分通过处理器调用软件的形式实现，剩余部分通过硬件电路的形式实现。

在本申请实施例中，处理器是一种具有信号的处理能力的电路，在一种实现中，处理器可以是具有指令读取与运行能力的电路，例如CPU、微处理器、GPU、或DSP等；在另一种实现中，处理器可以通过硬件电路的逻辑关系实现一定功能，该硬件电路的逻辑关系是固定的或可以重构的，例如处理器为ASIC或PLD实现的硬件电路，例如FPGA等。在可重构的硬件电路中，处理器加载配置文档，实现硬件电路配置的过程，可以理解为处理器加载指令，以实现以上部分或全部单元的功能的过程。此外，还可以是针对人工智能设计的硬件电路，其可以理解为一种ASIC，例如NPU、TPU、DPU等。

可见，以上装置中的各单元可以是被配置成实施以上方法的一个或多个处理器(或处理电路)，例如：CPU、GPU、NPU、TPU、DPU、微处理器、DSP、ASIC、FPGA，或这些处理器形式中至少两种的组合。

此外，以上装置中的各单元可以全部或部分可以集成在一起，或者可以独立实现。在一种实现中，这些单元集成在一起，以SOC的形式实现。该SOC中可以包括至少一个处理器，用于实现以上任一种方法或实现该装置各单元的功能，该至少一个处理器的种类可以不同，例如包括CPU和FPGA，CPU和人工智能处理器，CPU和GPU等。

示例性电子设备

本申请另一实施例还提出一种电子设备，参见图3所示，该设备包括：

存储器200和处理器210；

其中，所述存储器200与所述处理器210连接，用于存储程序；

所述处理器210，用于通过运行所述存储器200中存储的程序，实现上述任一实施例公开的问答对抽取方法。

具体的，上述电子设备还可以包括：总线、通信接口220、输入设备230和输出设备240。

处理器210、存储器200、通信接口220、输入设备230和输出设备240通过总线相互连接。其中：

总线可包括一通路，在计算机系统各个部件之间传送信息。

处理器210可以是通用处理器，例如通用中央处理器(CPU)、微处理器等，也可以是特定应用集成电路(application-specific integrated circuit，ASIC)，或一个或多个用于控制本发明方案程序执行的集成电路。还可以是数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

处理器210可包括主处理器，还可包括基带芯片、调制解调器等。

存储器200中保存有执行本发明技术方案的程序，还可以保存有操作系统和其他关键业务。具体地，程序可以包括程序代码，程序代码包括计算机操作指令。更具体的，存储器200可以包括只读存储器(read-only memory，ROM)、可存储静态信息和指令的其他类型的静态存储设备、随机存取存储器(random access memory，RAM)、可存储信息和指令的其他类型的动态存储设备、磁盘存储器、flash等等。

输入设备230可包括接收用户输入的数据和信息的装置，例如键盘、鼠标、摄像头、扫描仪、光笔、语音输入装置、触摸屏、计步器或重力感应器等。

输出设备240可包括允许输出信息给用户的装置，例如显示屏、打印机、扬声器等。

通信接口220可包括使用任何收发器一类的装置，以便与其他设备或通信网络通信，如以太网，无线接入网(RAN)，无线局域网(WLAN)等。

处理器210执行存储器200中所存放的程序，以及调用其他设备，可用于实现本申请上述实施例所提供的任意一种问答对抽取方法的各个步骤。

本申请实施例还提出一种芯片，该芯片包括处理器和数据接口，所述处理器通过所述数据接口读取并运行存储器上存储的程序，以执行上述任意实施例所介绍的问答对抽取方法，具体处理过程及其有益效果可参见上述的问答对抽取方法的实施例介绍。

示例性计算机程序产品和存储介质

除了上述方法和设备以外，本申请的实施例还可以是计算机程序产品，其包括计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述任意实施例中描述的根据本申请各种实施例的问答对抽取方法中的步骤。

所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本申请实施例操作的程序代码，所述程序设计语言包括面向对象的程序设计语言，诸如Java、C++等，还包括常规的过程式程序设计语言，诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。

此外，本申请的实施例还可以是存储介质，其上存储有计算机程序，计算机程序被处理器执行本说明书上述任意实施例中描述的根据本申请各种实施例的问答对抽取方法中的步骤，具体可以实现以下步骤：

S101，对目标文档进行解析，确定所述目标文档的文档信息，所述文档信息包括文档类型、目录、标题、自然段、关键词和图片中的至少一项；

S102，基于所述文档信息生成第一提示指令，所述第一提示指令包括所述文档信息中的至少一项、所述目标文档的文本内容以及问答对提取任务的描述信息，所述问答对提取任务用于基于所述文档信息，从所述目标文档的文本内容中提取问答对；

对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本申请所必须的。

需要说明的是，本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。对于装置类实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本申请各实施例方法中的步骤可以根据实际需要进行顺序调整、合并和删减，各实施例中记载的技术特征可以进行替换或者组合。

本申请各实施例种装置及终端中的模块和子模块可以根据实际需要进行合并、划分和删减。

本申请所提供的几个实施例中，应该理解到，所揭露的终端，装置和方法，可以通过其它的方式实现。例如，以上所描述的终端实施例仅仅是示意性的，例如，模块或子模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个子模块或模块可以结合或者可以集成到另一个模块，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或模块的间接耦合或通信连接，可以是电性，机械或其它的形式。

作为分离部件说明的模块或子模块可以是或者也可以不是物理上分开的，作为模块或子模块的部件可以是或者也可以不是物理模块或子模块，即可以位于一个地方，或者也可以分布到多个网络模块或子模块上。可以根据实际的需要选择其中的部分或者全部模块或子模块来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能模块或子模块可以集成在一个处理模块中，也可以是各个模块或子模块单独物理存在，也可以两个或两个以上模块或子模块集成在一个模块中。上述集成的模块或子模块既可以采用硬件的形式实现，也可以采用软件功能模块或子模块的形式实现。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件单元，或者二者的结合来实施。软件单元可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

对所公开的实施例的上述说明，使本领域技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种问答对抽取方法，其特征在于，包括：

基于所述文档信息生成第一提示指令，所述第一提示指令包括所述文档信息中的至少一项、所述目标文档的文本内容以及问答对提取任务的描述信息，所述问答对提取任务用于基于所述文档信息，从所述目标文档的文本内容中提取问答对；

将所述第一提示指令输入预训练的大语言模型，得到所述大语言模型抽取的问答对。

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

3.根据权利要求2所述的方法，其特征在于，基于预设的问答对评估规则，对所述问答对进行质量评估，确定对所述问答对的质量评估结果，以及，根据对所述问答对的质量评估结果，对所述问答对进行优化调整，包括：

4.根据权利要求2或3所述的方法，其特征在于，基于预设的问答对评估规则，对所述问答对进行质量评估，确定对所述问答对的质量评估结果，包括：

5.根据权利要求1至3中任意一项所述的方法，其特征在于，所述方法还包括：

6.根据权利要求5所述的方法，其特征在于，基于所述问答对以及所述目标文档的文本内容，生成与所述问答对中的问题对应的相似问题，以及，对所述问答对以及所述相似问题进行规整，得到规整后的问答对，包括：

7.根据权利要求1至3中任意一项所述的方法，其特征在于，所述方法还包括：

按照预设的问答对过滤规则，对所述问答对进行过滤。

8.根据权利要求1至3中任意一项所述的方法，其特征在于，所述文档信息包括关键词，所述方法还包括：

计算所述问答对中的问题与各个关键词的关联度；

9.根据权利要求1至3中任意一项所述的方法，其特征在于，所述文档信息包括自然段；在基于所述文档信息生成第一提示指令之前，所述方法还包括：

所述目标文档的文本内容，包括所述文档切片。

10.根据权利要求9所述的方法，其特征在于，所述基于所述目标文档的自然段信息，对所述目标文档的自然段进行切分，得到文档切片，包括：

11.根据权利要求9所述的方法，其特征在于，所述第一提示指令包括多个文档切片，以及与每一文档切片对应的问答对提取任务的描述信息；

12.一种问答对抽取装置，其特征在于，包括：

13.一种电子设备，其特征在于，包括存储器和处理器；

所述存储器与所述处理器连接，用于存储程序；

所述处理器用于通过运行所述存储器中的程序，实现如权利要求1至11中任意一项所述的问答对抽取方法。

14.一种存储介质，其特征在于，所述存储介质上存储有计算机程序，所述计算机程序被处理器运行时，实现如权利要求1至11中任意一项所述的问答对抽取方法。