CN116361306A

CN116361306A - 面向开放域科普的问答库自动更新方法和装置

Info

Publication number: CN116361306A
Application number: CN202310368723.6A
Authority: CN
Inventors: 冯慧子; 刘佳; 郭政; 毛文静; 王路路
Original assignee: Beijing Zhipu Huazhang Technology Co ltd
Current assignee: Beijing Zhipu Huazhang Technology Co ltd
Priority date: 2023-04-07
Filing date: 2023-04-07
Publication date: 2023-06-30

Abstract

本申请提出了一种面向开放域科普的问答库自动更新方法，包括：获取问题库，并检索问题对应的答案和文本得到文本‑问题‑答案数据集；将文本‑问题‑答案的监督信号添加至文本‑问题‑答案数据集，并将有监督信号的文本‑问题‑答案的数据集划分为训练集和测试集；对多语言预训练模型进行模型剪枝，并对剪枝后的多语言预训练模型微调得到中文问答对生成模型，并使用测试集对中文问答对生成模型进行评测；构建待预测问题库，根据待预测问题库进行检索，并将检索得到的最优页面内容输入至中文问答对生成模型，预测生成多个问答对，并根据多个问答对自动更新问答库。本申请提高了问答对生成的准确度，同时能够生成多条问答对自动更新知识库。

Description

面向开放域科普的问答库自动更新方法和装置

技术领域

本申请涉及自然语言处理技术领域，尤其涉及一种面向开放域科普的问答库自动更新方法和装置。

背景技术

自动问答系统被广泛应用于现实场景中,如聊天机器人、智能客服、语音助手等。传统的自动问答系统存在若干问题:首先,对于开放域的问答场景,很难获取大规模的有效数据来构建相应的问答系统；其次，开放域下的问答场景，每次问题检索都需要花费一定的资源，不能做到根据检索到的文本进行“举一反三”；同时针对开放域的中文问答算法，缺少质量较高的数据机。

发明内容

本申请旨在至少在一定程度上解决相关技术中的技术问题之一。

为此，本申请的第一个目的在于提出一种面向开放域科普的问答库自动更新方法，解决了现有方法很难获取大规模的有效数据来构建相应的问答系统，问题检索花费大量资源，且缺少质量较高的数据机技术问题，提高了问答对生成的准确度，同时能够使开放域问答功能学会“举一反三”，通过检索一个问题可以根据检索到的文本生成多条问答对，自动更新知识库。

本申请的第二个目的在于提出一种面向开放域科普的问答库自动更新装置。

本申请的第三个目的在于提出一种计算机设备。

本申请的第四个目的在于提出一种非临时性计算机可读存储介质。

为达上述目的，本申请第一方面实施例提出了一种面向开放域科普的问答库自动更新方法，包括：获取问题库，并根据问题库检索问题对应的答案和文本，得到文本-问题-答案数据集；将文本-问题-答案的监督信号添加至文本-问题-答案数据集，并将有监督信号的文本-问题-答案的数据集划分为训练集和测试集；对多语言预训练模型进行模型剪枝，使用训练集对剪枝后的多语言预训练模型微调，得到中文问答对生成模型，并使用测试集对中文问答对生成模型进行评测；构建待预测问题库，根据待预测问题库进行检索，并将检索得到的最优页面内容输入至中文问答对生成模型，预测生成多个问答对，并根据多个问答对自动更新问答库。

可选地，在本申请的一个实施例中，根据问题库检索问题对应的答案和文本，得到文本-问题-答案数据集，包括：

根据问题库中的问题进行检索，得到检索页面；

当检索页面中含有精选框，则将精选框中的答案和文本作为问题的答案和文本；

当检索页面不包含精选框，则选取检索页面中非广告的预设数量的网页内容，并通过微调好的bert阅读理解模型根据预设数量的网页内容抽取答案，得到各个网页内容对应的答案和答案的置信度，并选取置信度高于预设置信度，且置信度最高的答案和对应的网页内容作为问题的答案和文本。

可选地，在本申请的一个实施例中，将文本-问题-答案的监督信号添加至文本-问题-答案数据集，包括：

将文本-问题-答案的监督信号以字符串形式添加至答案的起始位置，以生成有监督信号的文本-问题-答案的数据集。

可选地，在本申请的一个实施例中，对多语言预训练模型进行模型剪枝，使用训练集对剪枝后的多语言预训练模型微调，得到中文问答对生成模型，包括：

获取高频的标点符号、数字、英文字母和中文词替换多语言预训练模型的输入向量表示和输出向量表示的参数，以更新多语言预训练模型，保存更新后的多语言预训练模型的词汇表；

将更新后的多语言预训练模型与训练集结合进行微调得到中文问答对生成模型。

可选地，在本申请的一个实施例中，使用测试集对中文问答对生成模型进行评测，包括：

将测试集中的文本输入至中文问答对生成模型中，预测生成最佳的预设个数的问题-答案对；

将问题-答案对与标准问题-答案对进行对比，并使用BLEU-4、Rouge-L以及基于GAN网络的方法三个评测指标对模型进行评测。

可选地，在本申请的一个实施例中，根据待预测问题库进行检索，并将检索得到的最优页面内容输入至中文问答对生成模型，预测生成多个问答对，并根据多个问答对自动更新问答库，包括：

根据待预测问题库中的问题进行检索，得到检索页面；

根据检索页面得到最优页面内容，并将最优页面内容作为文本输入至中文问答对生成模型，预测生成多个问答对，并根据多个问答对自动更新问答库；

其中，当检索页面中含有精选框，则将精选框中的页面内容作为最优页面内容；

当检索页面不包含精选框，则选取检索页面中非广告的网页内容作为最优页面内容。

为达上述目的，本申请第二方面实施例提出了一种面向开放域科普的问答库自动更新装置，包括：

获取模块，用于获取问题库，并根据问题库检索问题对应的答案和文本，得到文本-问题-答案数据集；

划分模块，用于将文本-问题-答案的监督信号添加至文本-问题-答案数据集，并将有监督信号的文本-问题-答案的数据集划分为训练集和测试集；

微调模块，用于对多语言预训练模型进行模型剪枝，使用训练集对剪枝后的多语言预训练模型微调，得到中文问答对生成模型，并使用测试集对中文问答对生成模型进行评测；

生成模块，用于构建待预测问题库，根据待预测问题库进行检索，并将检索得到的最优页面内容输入至中文问答对生成模型，预测生成多个问答对，并根据多个问答对自动更新问答库。

可选地，在本申请的一个实施例中，获取模块，具体用于：

根据问题库中的问题进行检索，得到检索页面；

为达上述目的，本申请第三方面实施例提出了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时，实现上述施例所述的面向开放域科普的问答库自动更新方法。

为了实现上述目的，本申请第四方面实施例提出了一种非临时性计算机可读存储介质，当所述存储介质中的指令由处理器被执行时，能够执行一种面向开放域科普的问答库自动更新方法。

本申请实施例的面向开放域科普的问答库自动更新方法、装置、计算机设备和非临时性计算机可读存储介质，解决了现有方法很难获取大规模的有效数据来构建相应的问答系统，问题检索花费大量资源，且缺少质量较高的数据机技术问题，提高了问答对生成的准确度，同时能够使开放域问答功能学会“举一反三”，通过检索一个问题可以根据检索到的文本生成多条问答对，自动更新知识库。

本申请附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本申请的实践了解到。

附图说明

本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为本申请实施例一所提供的一种面向开放域科普的问答库自动更新方法的流程示意图；

图2为本申请实施例的面向开放域科普的问答库自动更新方法的另一个流程示意图；

图3为本申请实施例的面向开放域科普的问答库自动更新方法的答案自动化标注流程示意图；

图4为本申请实施例二所提供的一种面向开放域科普的问答库自动更新装置的结构示意图。

具体实施方式

下面详细描述本申请的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本申请，而不能理解为对本申请的限制。

下面参考附图描述本申请实施例的面向开放域科普的问答库自动更新方法和装置。

图1为本申请实施例一所提供的一种面向开放域科普的问答库自动更新方法的流程示意图。

如图1所示，该面向开放域科普的问答库自动更新方法包括以下步骤：

步骤101，获取问题库，并根据问题库检索问题对应的答案和文本，得到文本-问题-答案数据集；

步骤102，将文本-问题-答案的监督信号添加至文本-问题-答案数据集，并将有监督信号的文本-问题-答案的数据集划分为训练集和测试集；

步骤103，对多语言预训练模型进行模型剪枝，使用训练集对剪枝后的多语言预训练模型微调，得到中文问答对生成模型，并使用测试集对中文问答对生成模型进行评测；

步骤104，构建待预测问题库，根据待预测问题库进行检索，并将检索得到的最优页面内容输入至中文问答对生成模型，预测生成多个问答对，并根据多个问答对自动更新问答库。

本申请实施例的面向开放域科普的问答库自动更新方法，通过获取问题库，并根据问题库检索问题对应的答案和文本，得到文本-问题-答案数据集；将文本-问题-答案的监督信号添加至文本-问题-答案数据集，并将有监督信号的文本-问题-答案的数据集划分为训练集和测试集；对多语言预训练模型进行模型剪枝，使用训练集对剪枝后的多语言预训练模型微调，得到中文问答对生成模型，并使用测试集对中文问答对生成模型进行评测；构建待预测问题库，根据待预测问题库进行检索，并将检索得到的最优页面内容输入至中文问答对生成模型，预测生成多个问答对，并根据多个问答对自动更新问答库。由此，能够解决现有方法很难获取大规模的有效数据来构建相应的问答系统，问题检索花费大量资源，且缺少质量较高的数据机技术问题，提高了问答对生成的准确度，同时能够使开放域问答功能学会“举一反三”，通过检索一个问题可以根据检索到的文本生成多条问答对，自动更新知识库。

本申请提出一种面向开放域科普的问答库自动更新方法，该方法将问答对自动生成任务视为端到端的生成任务，该方法包括通过问题库批量读取科普内容网址；根据爬取的网页是否有精选框来做不同的答案提取处理，将文本-问题-答案作为源端的有监督信号，自动化构建数据集；对基于编码器-解码器的多语种预训练模型进行剪枝，去除语言冗余、标点等的向量表示参数；训练并评测模型的效果；模型工程化部署，利用接口实时更新知识库，在问答对生成方面具有较高的准确度，能够使开放域问答功能学会“举一反三”，通过检索一个问题可以根据检索到的文本生成多条问答对，自动更新知识库。此外，本申请在问题和答案标注阶段，采用不同策略，使得标注结果更具有准确性和可信度。

如图2所示，本申请通过问题库批量读取科普内容网址，根据爬取的网页是否有精选框来做不同的答案提取处理；将的文本-问题-答案的监督信号以字符串形式添加至答案的起始位置，从而形成有监督信号的文本-问题-答案的数据集将的有监督信号的文本-问题-答案的数据集划分为训练集、验证集、测试集；将基于编码器-解码器(Encoder-Decoder)的多语言预训练模型进行模型剪枝，将训练集和验证集用剪枝后的多语言预训练模型加以微调，得到中文问答对生成模型；用测试集评测中文问答对生成模型的性能，将测试集中的文本输入至微调后的模型中，通过微调后的模型生成预测的问题和对应答案，评测模型的效果；模型工程化部署，利用接口实时反馈问答对生成结果。

进一步地，在本申请实施例中，根据问题库检索问题对应的答案和文本，得到文本-问题-答案数据集，包括：

根据问题库中的问题进行检索，得到检索页面；

本申请实施例中，建立常见领域问题库，利用BaiduSpider等爬虫工具对每条问题进行检索，批量读取科普内容网址，根据爬取的网页是否有精选框来做不同的答案提取处理。

如图3所示，根据已有问题库，利用BaiduSpider等爬虫工具对每条问题进行检索；然后对检索回来的页面进行判断，看返回的的字段中是否含有精选框，如果检索页面含有精选回答，则将精选框中的答案和文本作为该问题的答案和对应文本；如果检索页面不含有精选框，则选取检索页面中非广告的前五个网页内容，通过使用微调好的bert阅读理解模型抽取答案，设置较高的置信度，取置信度高于预设置信度且分值最高的页面内容和答案作为该问题的对应文本和答案。

进一步地，在本申请实施例中，将文本-问题-答案的监督信号添加至文本-问题-答案数据集，包括：

本申请中，通过将文本-问题-答案的监督信号，以<监督信号名>的形式添加至答案的起始位置形成有监督信号的文本-问题-答案数据集，其中，数据集中每行数据的形式可以为(答案文本，问题，<监督信号名>答案)，每行数据可以存为json或者csv格式的文件。

其中，监督信号可以为特殊标记，将文本-问题-答案的监督信号添加至文本-问题-答案数据集可以为将问题库中的文本、问题、答案通过特殊标记做区分。

本申请可以按照8:1:1比例将带有监督信号的文本-问题-答案的数据集数据划分为训练集、验证集、测试集，以便于后续训练模型并验证模型的性能。

进一步地，在本申请实施例中，对多语言预训练模型进行模型剪枝，使用训练集对剪枝后的多语言预训练模型微调，得到中文问答对生成模型，包括：

由于包含中文的基于编码器-解码器的预训练模型大多是多语言预训练模型，对于中文而言包含过多冗余信息并且耗用资源过大，因此修剪冗余的向量表示将多语言预训练模型转变为适用于中文的单语言预训练模型。

本申请实施例中，对基于编码器-解码器(Encoder-Decoder)的多语言预训练模型进行模型剪枝，可以通过选取常用标点符号、数字和英文字母以及高频的中文词替换多语言预训练模型的输入和输出向量表示的参数以更新神经网络，并保存更新后的多语言预训练模型的新的词汇表。结合训练集和验证集对剪枝后的多语言预训练模型进行微调得到中文问答对生成模型。

进一步地，在本申请实施例中，使用测试集对中文问答对生成模型进行评测，包括：

本申请实施例中，将测试集的文本给定输入到微调后的模型中，预测生成出最佳的top k个问题-答案对，与标准参考的问题-答案对进行对比，并用BLEU-4、Rouge-L以及基于GAN网络的方法三个评测指标对模型进行评测。其中，BLEU主要用来评估机器翻译质量，主要根据精确率(Precision)衡量翻译的质量；是一种常用的机器翻译和文章摘要评价指标，根据召回率(Recall)衡量翻译的质量。Rouge-L考虑了机器译文和参考译文之间的最长公共子序列；基于GAN网络的方法进行评估，用GAN网络的思想来对对话系统的质量进行评估，是把文本生成模型当做GAN网络中的生成器，然后采用一个RNN作为判别器，来判断一对问答对是机器生成的还是人工生成的。

进一步地，在本申请实施例中，根据待预测问题库进行检索，并将检索得到的最优页面内容输入至中文问答对生成模型，预测生成多个问答对，并根据多个问答对自动更新问答库，包括：

根据待预测问题库中的问题进行检索，得到检索页面；

本申请实施例中，将中文问答对生成模型工程化部署，利用接口实时反馈问答对生成结果。具体地，使用web框架Flask封装接口，请求方式为POST，以json格式进行数据传输。过程为，通过遍历问题库，检索相应问题后返回检索页面及是否具有精选框标识，去掉广告等网页影响，将最优页面内容输入到模型中，在后端完成数据清洗与模型处理，将模型处理结果自动更新到知识库中。

如图4所示，该面向开放域科普的问答库自动更新装置，包括：

获取模块10，用于获取问题库，并根据问题库检索问题对应的答案和文本，得到文本-问题-答案数据集；

划分模块20，用于将文本-问题-答案的监督信号添加至文本-问题-答案数据集，并将有监督信号的文本-问题-答案的数据集划分为训练集和测试集；

微调模块30，用于对多语言预训练模型进行模型剪枝，使用训练集对剪枝后的多语言预训练模型微调，得到中文问答对生成模型，并使用测试集对中文问答对生成模型进行评测；

生成模块40，用于构建待预测问题库，根据待预测问题库进行检索，并将检索得到的最优页面内容输入至中文问答对生成模型，预测生成多个问答对，并根据多个问答对自动更新问答库。

本申请实施例的面向开放域科普的问答库自动更新装置，包括获取模块，用于获取问题库，并根据问题库检索问题对应的答案和文本，得到文本-问题-答案数据集；划分模块，用于将文本-问题-答案的监督信号添加至文本-问题-答案数据集，并将有监督信号的文本-问题-答案的数据集划分为训练集和测试集；微调模块，用于对多语言预训练模型进行模型剪枝，使用训练集对剪枝后的多语言预训练模型微调，得到中文问答对生成模型，并使用测试集对中文问答对生成模型进行评测；生成模块，用于构建待预测问题库，根据待预测问题库进行检索，并将检索得到的最优页面内容输入至中文问答对生成模型，预测生成多个问答对，并根据多个问答对自动更新问答库。由此，能够解决现有方法很难获取大规模的有效数据来构建相应的问答系统，问题检索花费大量资源，且缺少质量较高的数据机技术问题，提高了问答对生成的准确度，同时能够使开放域问答功能学会“举一反三”，通过检索一个问题可以根据检索到的文本生成多条问答对，自动更新知识库。

进一步地，在本申请实施例中，获取模块，具体用于：

根据问题库中的问题进行检索，得到检索页面；

为了实现上述实施例，本申请还提出了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时，实现上述施例所述的面向开放域科普的问答库自动更新方法。

为了实现上述实施例，本申请还提出了一种非临时性计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述实施例的面向开放域科普的问答库自动更新方法。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本申请的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本申请的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本申请的实施例所属技术领域的技术人员所理解。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式光盘只读存储器(CDROM)。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。如，如果用硬件来实现和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本申请各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器，磁盘或光盘等。尽管上面已经示出和描述了本申请的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本申请的限制，本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种面向开放域科普的问答库自动更新方法，其特征在于，包括以下步骤：

获取问题库，并根据所述问题库检索问题对应的答案和文本，得到文本-问题-答案数据集；

将文本-问题-答案的监督信号添加至所述文本-问题-答案数据集，并将有监督信号的文本-问题-答案的数据集划分为训练集和测试集；

对多语言预训练模型进行模型剪枝，使用所述训练集对剪枝后的多语言预训练模型微调，得到中文问答对生成模型，并使用所述测试集对所述中文问答对生成模型进行评测；

构建待预测问题库，根据所述待预测问题库进行检索，并将检索得到的最优页面内容输入至所述中文问答对生成模型，预测生成多个问答对，并根据所述多个问答对自动更新问答库。

2.如权利要求1所述的方法，其特征在于，所述根据所述问题库检索问题对应的答案和文本，得到文本-问题-答案数据集，包括：

根据问题库中的问题进行检索，得到检索页面；

当所述检索页面中含有精选框，则将所述精选框中的答案和文本作为所述问题的答案和文本；

当所述检索页面不包含精选框，则选取所述检索页面中非广告的预设数量的网页内容，并通过微调好的bert阅读理解模型根据所述预设数量的网页内容抽取答案，得到各个网页内容对应的答案和答案的置信度，并选取置信度高于预设置信度，且置信度最高的答案和对应的网页内容作为所述问题的答案和文本。

3.如权利要求1所述的方法，其特征在于，所述将文本-问题-答案的监督信号添加至所述文本-问题-答案数据集，包括：

4.如权利要求1所述的方法，其特征在于，所述对多语言预训练模型进行模型剪枝，使用所述训练集对剪枝后的多语言预训练模型微调，得到中文问答对生成模型，包括：

获取高频的标点符号、数字、英文字母和中文词替换多语言预训练模型的输入向量表示和输出向量表示的参数，以更新所述多语言预训练模型，保存更新后的多语言预训练模型的词汇表；

5.如权利要求1所述的方法，其特征在于，所述使用所述测试集对所述中文问答对生成模型进行评测，包括：

将所述测试集中的文本输入至所述中文问答对生成模型中，预测生成最佳的预设个数的问题-答案对；

将所述问题-答案对与标准问题-答案对进行对比，并使用BLEU-4、Rouge-L以及基于GAN网络的方法三个评测指标对模型进行评测。

6.如权利要求1所述的方法，其特征在于，所述根据所述待预测问题库进行检索，并将检索得到的最优页面内容输入至所述中文问答对生成模型，预测生成多个问答对，并根据所述多个问答对自动更新问答库，包括：

根据待预测问题库中的问题进行检索，得到检索页面；

根据所述检索页面得到最优页面内容，并将所述最优页面内容作为文本输入至所述中文问答对生成模型，预测生成多个问答对，并根据所述多个问答对自动更新问答库；

其中，当所述检索页面中含有精选框，则将所述精选框中的页面内容作为最优页面内容；

当所述检索页面不包含精选框，则选取所述检索页面中非广告的网页内容作为最优页面内容。

7.一种面向开放域科普的问答库自动更新装置，其特征在于，包括：

获取模块，用于获取问题库，并根据所述问题库检索问题对应的答案和文本，得到文本-问题-答案数据集；

划分模块，用于将文本-问题-答案的监督信号添加至所述文本-问题-答案数据集，并将有监督信号的文本-问题-答案的数据集划分为训练集和测试集；

微调模块，用于对多语言预训练模型进行模型剪枝，使用所述训练集对剪枝后的多语言预训练模型微调，得到中文问答对生成模型，并使用所述测试集对所述中文问答对生成模型进行评测；

生成模块，用于构建待预测问题库，根据所述待预测问题库进行检索，并将检索得到的最优页面内容输入至所述中文问答对生成模型，预测生成多个问答对，并根据所述多个问答对自动更新问答库。

8.如权利要求7所述的装置，其特征在于，所述获取模块，具体用于：

根据问题库中的问题进行检索，得到检索页面；

9.一种计算机设备，其特征在于，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时，实现如权利要求1-6中任一所述的方法。

10.一种非临时性计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1-6中任一所述的方法。