CN111124898B

CN111124898B - 问答系统测试方法、装置、计算机设备和存储介质

Info

Publication number: CN111124898B
Application number: CN201911257583.5A
Authority: CN
Inventors: 李恬静; 朱威
Original assignee: Shenzhen Ping An Smart Healthcare Technology Co ltd
Current assignee: Shenzhen Ping An Smart Healthcare Technology Co ltd
Priority date: 2019-12-10
Filing date: 2019-12-10
Publication date: 2023-03-21
Anticipated expiration: 2039-12-10
Also published as: CN111124898A

Abstract

本申请涉及测试领域，尤其是一种问答系统测试方法、装置、计算机设备和存储介质。所述方法包括：接收测试终端发送的原始测试用例，并将所述原始测试用例输入至预先训练得到的语言模型中得到扩展测试用例；将所述原始测试用例和所述扩展测试用例输入至问答系统中得到对应的系统回复；从所述原始测试用例和所述扩展测试用例中提取出标准回复；将所述系统回复和所述标准回复输入至问答系统测试模型中得到测试结果，所述问答系统测试模型是预先根据所述系统回复和标准回复通过梯度下降的方式训练得到的。采用本方法能够提高测试准确性。

Description

问答系统测试方法、装置、计算机设备和存储介质

技术领域

本申请涉及人工智能技术领域，特别是涉及一种问答系统测试方法、装置、计算机设备和存储介质。

背景技术

在人机交互过程中通常需要使用问答系统(Question Answer System,QA)。问答系统又称人机对话系统(Human-machine conversation,HMC)，是指这样的一个机器系统：能够对于用户通过自然语言输入的问句，给出简洁、准确、人性化的回答，这种回答通常是指一小段文本。

然而，针对该问答系统进行测试的时候，通常是人工构建有限的测试用例，然后输入至问答系统中得到对应的回复，然后根据该回复生成对应的测试报告，但是这样的情况下，由于人工构建的测试用例的数量有限，导致测试结果可能存在偏差。

发明内容

基于此，有必要针对上述技术问题，提供一种能够提高测试准确性的问答系统测试方法、装置、计算机设备和存储介质。

一种问答系统测试方法，所述方法包括：

接收测试终端发送的原始测试用例，并将所述原始测试用例输入至预先训练得到的语言模型中得到扩展测试用例；

将所述原始测试用例和所述扩展测试用例输入至问答系统中得到对应的系统回复；

从所述原始测试用例和所述扩展测试用例中提取出标准回复；

将所述系统回复和所述标准回复输入至问答系统测试模型中得到测试结果，所述问答系统测试模型是预先根据所述系统回复和标准回复通过梯度下降的方式训练得到的。

在其中一个实施例中，所述将所述原始测试用例输入至预先训练得到的语言模型中得到扩展测试用例，包括：

获取原始测试用例中标签为问题的数据为原始问题，标签为回复的数据为原始回复；

将所述原始问题输入至预先训练得到的语言模型中得到扩展问题；

根据所述扩展问题与对应的所述原始回复得到扩展测试用例。

在其中一个实施例中，所述根据所述扩展问题与对应的所述原始回复得到扩展测试用例之后，还包括：

提取所述原始测试用例的业务标识，并根据所述原始测试用例的业务标识生成所述扩展测试用例的业务标识；

所述将所述系统回复和所述标准回复输入至问答系统测试模型中得到测试结果之后，还包括：

根据所述原始测试用例和所述扩展测试用例的业务标识对所述测试结果进行分类；

分别计算每一类测试结果中测试指标计算得到所述业务标识对应的测试结果；

获取所述业务标识对应的测试结果中不符合要求的测试结果，将所述不符合要求的测试结果返回至所述测试终端。

在其中一个实施例中，所述将所述不符合要求的测试结果返回至所述测试终端之后，还包括：

接收所述测试终端发送的与所述不符合要求的测试结果对应的优化测试用例；

通过所述优化测试用例对所述问答系统测试模型进行优化。

在其中一个实施例中，所述问答系统测试模型的训练方式包括：

接收测试终端发送的训练测试用例；

将所述训练测试用例输入至预先训练的语言模型中得到与所述训练测试用例对应的新增测试用例；

将所述训练测试用例和所述新增测试用例输入至问答系统得到初始答案；

将所得到的初始答案发送至测试终端，以使得测试终端得到与初始答案对应的标准测试指标；

将初始答案输入至待训练问答系统测试模型中得到待训练测试指标；

根据所述标准测试指标和所述待训练测试指标构建目标损失函数，并通过梯度下降算法得到所述损失函数的最小值；

根据所述损失函数的最小值的对应的损失函数确定问答系统测试模型。

在其中一个实施例中，所述根据所述标准测试指标和所述待训练测试指标构建目标损失函数，包括：

根据业务标识对所述标准测试指标和所述待训练测试指标进行分类；

基于每一类中的所述标准测试指标和所述待训练测试指标构建初始损失函数；

根据各个类对应的初始损失函数得到目标损失函数；

计算所述目标损失函数的最小值，以得到所述初始损失函数对应的参数；

根据所述初始损失函数以及对应的参数得到目标损失函数。

一种问答系统测试装置，所述装置包括：

接收模块，用于接收测试终端发送的原始测试用例，并将所述原始测试用例输入至预先训练得到的语言模型中得到扩展测试用例；

测试模块，用于将所述原始测试用例和所述扩展测试用例输入至问答系统中得到对应的系统回复；

提取模块，用于从所述原始测试用例和所述扩展测试用例中提取出标准回复；

测试结果获取模块，用于将所述系统回复和所述标准回复输入至问答系统测试模型中得到测试结果，所述问答系统测试模型是预先根据所述系统回复和标准回复通过梯度下降的方式训练得到的。

在其中一个实施例中，所述接收模块包括：

数据提取单元，用于获取原始测试用例中标签为问题的数据为原始问题，标签为回复的数据为原始回复；

扩展单元，用于将所述原始问题输入至预先训练得到的语言模型中得到扩展问题；

扩展测试用例生成单元，用于根据所述扩展问题与对应的所述原始回复得到扩展测试用例。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现上述任一项所述方法的步骤。

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述任一项所述的方法的步骤。

上述问答系统测试方法、装置、计算机设备和存储介质，在进行测试的时候，首先通过预先训练的语言模型对原始测试用例进行泛化得到数量可观的扩展测试用例，进而通过数量可观的原始测试用例和扩展测试用例进行测试，保证了测试结果的客观性。

附图说明

图1为一个实施例中问答系统测试方法的应用场景图；

图2为一个实施例中问答系统测试方法的流程示意图；

图3为一个实施例中问答系统测试模型的训练步骤的流程示意图；

图4为一个实施例中问答系统测试方法的框架图；

图5为一个实施例中问答系统测试装置的结构框图；

图6为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请提供的问答系统测试方法，可以应用于如图1所示的应用环境中。其中，测试终端102通过网络与服务器104通过网络进行通信。测试终端102向服务器104发送原始测试用例，从而服务器104可以将该原始测试用例输入至预先训练得到的语言模型中得到扩展测试用例，然后将原始测试用例和扩展测试用例输入至问答系统中得到对应的系统回复，此外服务器还可以原始测试用例和扩展测试用例中提取出标准回复，然后将系统回复和标准回复输入至问答按系统测试模型中以进行测试得到测试结果，在进行测试的时候，首先通过预先训练的语言模型对原始测试用例进行泛化得到数量可观的扩展测试用例，进而通过数量可观的原始测试用例和扩展测试用例进行测试，保证了测试结果的客观性。其中，测试终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备，服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

在一个实施例中，如图2所示，提供了一种问答系统测试方法，以该方法应用于图1中的服务器为例进行说明，包括以下步骤：

S202：接收测试终端发送的原始测试用例，并将原始测试用例输入至预先训练得到的语言模型中得到扩展测试用例。

具体地，原始测试用例是由用户预先构造的，其可以根据业务类型的不同来构造的。语言模型是NLP领域最先进的模型，通过其极强的泛化能力可以生成新的扩展测试用例，这样基于人工构造的原始测试用例，可以生成大量的扩展测试用例。

其中原始测试用例包括问题和回复，其中该问题和回复可以通过标签进行区分，从而扩展测试用例也可以包括问题和回复，也携带有相应的标签。

S204：将原始测试用例和扩展测试用例输入至问答系统中得到对应的系统回复。

具体地，服务器将原始测试用例和扩展测试用例均输入到问答系统中，从而可以得到每个测试用例对应的系统回复，该系统回复包括原始测试用例对应的系统回复，和扩展测试用例对应的系统回复。

S206：从原始测试用例和扩展测试用例中提取出标准回复。

具体地，服务器还可以从原始测试用例和扩展测试用例中提取出标准回复。且需要注意的是，在通过预先训练的语言模型进行泛化的时候，原始测试用例中的标准回复并未改变，仅改变原始测试用例中的问题，即通过含义相似的词语代替原始测试用例中的问题中的词语以实现对原始测试用例的泛化。

其中由于原始测试用例和扩展测试用例中均包括问题和回复，问题和回复可以通过标签进行区分，这样可以根据标签提取出标准回复。

S208：将系统回复和标准回复输入至问答系统测试模型中得到测试结果，问答系统测试模型是预先根据系统回复和标准回复通过梯度下降的方式训练得到的。

具体地，问答系统测试模型是预先根据问答系统输出的系统回复以及测试用例中的标准回复通过梯度下降的方式训练得到的，其中服务器可以构造损失函数，即F＝标准回复对应的向量-系统回复对应的向量，通过梯度下降算法求解F的最小值，以完成问答系统测试模型的收敛，从而训练得到问答系统测试模型。

服务器将系统回复和标准回复输入至问答系统测试模型中从而可以得到本次测试的测试结果，根据该测试结果以衡量问答系统是否有效。且可选地，服务器可以将多个对应的系统回复和标准回复输入至问答系统测试模型中，从而可以得到多个测试指标，并根据多个测试指标得到问答系统对应的测试结果，例如服务器可以求解多个测试指标对应的均值，这样可以较为均衡地标识问答系统测试结果。

上述问答系统测试方法，在进行测试的时候，首先通过预先训练的语言模型对原始测试用例进行泛化得到数量可观的扩展测试用例，进而通过数量可观的原始测试用例和扩展测试用例进行测试，保证了测试结果的客观性。

在其中一个实施例中，将原始测试用例输入至预先训练得到的语言模型中得到扩展测试用例，包括：获取原始测试用例中标签为问题的数据为原始问题，标签为回复的数据为原始回复；将原始问题输入至预先训练得到的语言模型中得到扩展问题；根据扩展问题与对应的原始回复得到扩展测试用例。

具体地，服务器首先根据标签从原始测试用例中提取出问题和回复，将问题输入至语言模型中得到与问题对应的扩展表达，然后建立扩展表达与对应的回复的关联关系得到扩展用例。例如原始测试用例是(问题A，回复B)，则服务器根据标签将原始测试用例中的问题A提取出来，然后将问题A输入至预先训练得到的语言模型中得到扩展问题A0、A1以及A2，服务器建立扩展问题A0、A1以及A2与原始回复B的对应关系从而可以得到扩展测试用例：(问题A0，回复B)、(问题A1，回复B)和(问题A2，回复B)。

上述实施例中，根据原始测试用例的结构，对原始问题和原始回复做了划分，从而仅需要得到原始问题对应的扩展问题即可，建立扩展问题和原始回复的对应关系即可以得到对应的扩展测试用例，保证了回复的准确性，且减少了扩展的内容，提高了处理效率。

在其中一个实施例中，根据扩展问题与对应的原始回复得到扩展测试用例之后，还包括：提取原始测试用例的业务标识，并根据原始测试用例的业务标识生成扩展测试用例的业务标识；将系统回复和标准回复输入至问答系统测试模型中得到测试结果之后，还包括：根据原始测试用例和扩展测试用例的业务标识对测试结果进行分类；分别计算每一类测试结果中测试指标计算得到业务标识对应的测试结果；获取业务标识对应的测试结果中不符合要求的测试结果，将不符合要求的测试结果返回至测试终端。

在其中一个实施例中，将不符合要求的测试结果返回至测试终端之后，还包括：接收测试终端发送的与不符合要求的测试结果对应的优化测试用例；通过优化测试用例对问答系统测试模型进行优化。

具体地，在生成原始测试用例的时候，每个测试用例可以携带有业务标识，这样在生成扩展测试用例时，每个测试用例也可以携带有业务标识，从而在训练的时候，可以根据业务标识进行训练，以便于更快地定位问答系统对于哪一个业务的回复存在问题。

由于每个测试用例上均携带有业务标识，因此服务器可以将对应的系统回复和标准回复输入至问答系统测试模型得到多个用于表示测试结果的测试指标。然后服务器根据业务标识将测试指标进行分类，再根据每一类别中的测试指标分别计算每一业务类型对应的测试结果，从而用户根据测试结果即可以知道问答系统的弱点，进而进行专门的训练，提高问答系统的准确性。

可选地，服务器对所得到的测试结果进行分析得到测试结果较差的业务类型，从而可以输出该业务类型，以便于接收用户输入的关于该业务类型对应的训练样本，通过该些训练样本对问答系统进行修复，这样通过优化测试用例对问答系统测试模型进行优化，使得问答系统测试模型更为准确。

上述实施例中，在进行测试的时候，首先通过预先训练的语言模型对原始测试用例进行泛化得到数量可观的扩展测试用例，进而通过数量可观的原始测试用例和扩展测试用例进行测试，保证了测试结果的客观性。

在其中一个实施例中，参见图3，图3为一个实施例中问答系统测试模型的训练步骤的流程图，该问答系统测试模型的训练方式包括：

S302：接收测试终端发送的训练测试用例。

具体地，训练测试用例是测试人员预先编写的，其数量有限，其中携带有业务标识、问题和标准答案，问题是用于输入至问答系统中以得到初始答案的，标准答案是用于衡量初始答案的准确性的。

S304：将训练测试用例输入至预先训练的语言模型中得到与训练测试用例对应的新增测试用例。

具体地，语言模型是NLP领域最先进的模型，通过其极强的泛化能力可以生成新的扩展测试用例，这样基于人工构造的训练测试用例，可以生成大量的新增测试用例。其中新增测试用例中的问题与训练测试用例中的不同，但是对应的标准答案并未发生改变。

S306：将训练测试用例和新增测试用例输入至问答系统得到初始答案。

具体地，服务器将训练测试用例和新增测试用例输入至问答系统得到初始答案，即通过问答系统得到初始答案，通过该初始答案来衡量问答系统的好坏。

S308：将所得到的初始答案发送至测试终端，以使得测试终端得到与初始答案对应的标准测试指标。

S310：将初始答案输入至待训练问答系统测试模型中得到待训练测试指标。

具体地，标准测试指标是人工得到的用于衡量问答系统输出的初始答案的好坏的指标，待训练测试指标是通过待训练问答系统测试模型得到的用于衡量问答系统输出的初始答案的好坏的指标。

服务器将所得到的初始答案以及对应的测试用例发送至测试终端，以便于测试人员对该初始答案进行评价得到对应的标准测试指标，然后将该标准测试指标发送至服务器，且同时另一线程将初始答案输入至待训练问答系统测试模型中得到待训练测试指标。

S312：根据标准测试指标和待训练测试指标构建目标损失函数，并通过梯度下降算法得到损失函数的最小值。

具体地，服务器通过标准测试指标和待训练测试指标构建损失函数，例如服务器首先得到标准测试指标对应的语言向量，然后得到待训练测试指标对应的向量，通过两个向量构建损失函数，然后通过梯度下降算法求得损失函数的最小值，根据损失函数的最小值去调整待训练问答系统测试模型得到最后的问答系统测试模型。

在其中一个实施例中，根据标准测试指标和待训练测试指标构建目标损失函数，包括：根据业务标识对标准测试指标和待训练测试指标进行分类；基于每一类中的标准测试指标和待训练测试指标构建初始损失函数；根据各个类对应的初始损失函数得到目标损失函数；计算目标损失函数的最小值，以得到初始损失函数对应的参数；根据初始损失函数以及对应的参数得到目标损失函数。即在构建损失函数的时候服务器可以根据业务类型来构建，然后再将所有业务类型对应的业务损失函数进行统一得到目标损失函数，通计算目标损失函数的最小值，得到各个业务损失函数的参数，进而根据该确定的目标损失函数，根据确定的目标损失函数来修正待训练问答系统测试模型，例如可以根据目标损失函数得到存在问题的待训练测试指标，从而通过待训练测试指标对应的标准测试指标以及对应的初始答案去修复待训练问答系统测试模型。

S314：根据损失函数的最小值的对应的损失函数确定问答系统测试模型。

具体地，服务器首先得到标准测试指标对应的语言向量，然后得到待训练测试指标对应的向量，通过两个向量构建损失函数，然后通过梯度下降算法求得损失函数的最小值，根据损失函数的最小值去调整待训练问答系统测试模型得到最后的问答系统测试模型。

上述实施例中，通过预先训练的语言模型对训练测试用例进行泛化得到数量可观的新增测试用例，进而通过训练测试用例和新增测试用例进行模型的训练，保证了模型的准确性。

请参见图4，图4为一个实施例中的问答系统测试方法的框架图，下文将结合该框架图对该问答系统测试方法进行详细说明：

首先服务器接收训练测试用例，并输入至预先训练得到的语言模型中生成新增测试用例，然后将新增测试用例和训练测试用例均输入至问答系统中得到初始答案，然后将初始答案分别发给终端和待训练的问答系统测试模型中以得到标准测试指标和待训练测试指标，通过标准测试指标和待训练测试指标构建损失函数，并根据该损失函数确定问答系统测试模型。

从而当存在测试的时候，首先将原始测试用例输入至预先训练的语言模型中得到扩展测试用例，然后将原始测试用例和扩展测试用例输入至问答系统中得到对应的系统回复，然后提取标准回复和系统回复输入至问答系统测试模型中得到测试结果，且可选地，服务器可以根据多个测试用例对应的测试结果生成评估报告。

应该理解的是，虽然图2-3的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图2-3中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图5所示，提供了一种问答系统测试装置，包括：第一接收模块100、测试模块200、提取模块300和测试结果获取模块400，其中：

第一接收模块100，用于接收测试终端发送的原始测试用例，并将原始测试用例输入至预先训练得到的语言模型中得到扩展测试用例。

测试模块200，用于将原始测试用例和扩展测试用例输入至问答系统中得到对应的系统回复。

提取模块300，用于从原始测试用例和扩展测试用例中提取出标准回复。

测试结果获取模块400，用于将系统回复和标准回复输入至问答系统测试模型中得到测试结果，问答系统测试模型是预先根据系统回复和标准回复通过梯度下降的方式训练得到的。

在其中一个实施例中，接收模块包括：

数据提取单元，用于获取原始测试用例中标签为问题的数据为原始问题，标签为回复的数据为原始回复。

扩展单元，用于将原始问题输入至预先训练得到的语言模型中得到扩展问题。

扩展测试用例生成单元，用于根据扩展问题与对应的原始回复得到扩展测试用例。

在其中一个实施例中，上述问答系统测试装置还包括：

业务标识生成模块，用于提取原始测试用例的业务标识，并根据原始测试用例的业务标识生成扩展测试用例的业务标识。

第一分类模块，用于根据原始测试用例和扩展测试用例的业务标识对测试结果进行分类。

测试结果分类模块，用于分别计算每一类测试结果中测试指标计算得到业务标识对应的测试结果。

发送模块，用于获取业务标识对应的测试结果中不符合要求的测试结果，将不符合要求的测试结果返回至测试终端。

在其中一个实施例中，上述问答系统测试装置还包括：

优化用例接收模块，用于接收测试终端发送的与不符合要求的测试结果对应的优化测试用例。

优化模块，用于通过优化测试用例对问答系统测试模型进行优化。

在其中一个实施例中，上述问答系统测试装置还包括：

第二接收模块，用于接收测试终端发送的训练测试用例。

扩展模块，用于将训练测试用例输入至预先训练的语言模型中得到与训练测试用例对应的新增测试用例。

初始的答案获取模块，用于将训练测试用例和新增测试用例输入至问答系统得到初始答案。

标准测试指标获取模块，用于将所得到的初始答案发送至测试终端，以使得测试终端得到与初始答案对应的标准测试指标。

待训练测试指标获取模块，用于将初始答案输入至待训练问答系统测试模型中得到待训练测试指标。

损失函数构建模块，用于根据标准测试指标和待训练测试指标构建目标损失函数，并通过梯度下降算法得到损失函数的最小值。

训练模块，用于根据损失函数的最小值的对应的损失函数确定问答系统测试模型。

在其中一个实施例中，损失函数构建模块包括：

分类单元，用于根据业务标识对标准测试指标和待训练测试指标进行分类。

初始损失函数建立单元，用于基于每一类中的标准测试指标和待训练测试指标构建初始损失函数。

目标损失函数建立单元，用于根据各个类对应的初始损失函数得到目标损失函数。

参数确定单元，用于计算目标损失函数的最小值，以得到初始损失函数对应的参数。

目标损失函数确定单元，用于根据初始损失函数以及对应的参数得到目标损失函数。

关于问答系统测试装置的具体限定可以参见上文中对于问答系统测试方法的限定，在此不再赘述。上述问答系统测试装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图6所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储原始测试用例和扩展测试用例。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种问答系统测试方法。

本领域技术人员可以理解，图6中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，该存储器存储有计算机程序，该处理器执行计算机程序时实现以下步骤：接收测试终端发送的原始测试用例，并将原始测试用例输入至预先训练得到的语言模型中得到扩展测试用例；将原始测试用例和扩展测试用例输入至问答系统中得到对应的系统回复；从原始测试用例和扩展测试用例中提取出标准回复；将系统回复和标准回复输入至问答系统测试模型中得到测试结果，问答系统测试模型是预先根据系统回复和标准回复通过梯度下降的方式训练得到的。

在一个实施例中，处理器执行计算机程序时所实现的将原始测试用例输入至预先训练得到的语言模型中得到扩展测试用例，包括：获取原始测试用例中标签为问题的数据为原始问题，标签为回复的数据为原始回复；将原始问题输入至预先训练得到的语言模型中得到扩展问题；根据扩展问题与对应的原始回复得到扩展测试用例。

在一个实施例中，处理器执行计算机程序时所实现的根据扩展问题与对应的原始回复得到扩展测试用例之后，还包括：提取原始测试用例的业务标识，并根据原始测试用例的业务标识生成扩展测试用例的业务标识；将系统回复和标准回复输入至问答系统测试模型中得到测试结果之后，还包括：根据原始测试用例和扩展测试用例的业务标识对测试结果进行分类；分别计算每一类测试结果中测试指标计算得到业务标识对应的测试结果；获取业务标识对应的测试结果中不符合要求的测试结果，将不符合要求的测试结果返回至测试终端。

在一个实施例中，处理器执行计算机程序时所实现的将不符合要求的测试结果返回至测试终端之后，还包括：接收测试终端发送的与不符合要求的测试结果对应的优化测试用例；通过优化测试用例对问答系统测试模型进行优化。

在一个实施例中，处理器执行计算机程序时所涉及的问答系统测试模型的训练方式包括：接收测试终端发送的训练测试用例；将训练测试用例输入至预先训练的语言模型中得到与训练测试用例对应的新增测试用例；将训练测试用例和新增测试用例输入至问答系统得到初始答案；将所得到的初始答案发送至测试终端，以使得测试终端得到与初始答案对应的标准测试指标；将初始答案输入至待训练问答系统测试模型中得到待训练测试指标；根据标准测试指标和待训练测试指标构建目标损失函数，并通过梯度下降算法得到损失函数的最小值；根据损失函数的最小值的对应的损失函数确定问答系统测试模型。

在一个实施例中，处理器执行计算机程序时所实现的根据标准测试指标和待训练测试指标构建目标损失函数，包括：根据业务标识对标准测试指标和待训练测试指标进行分类；基于每一类中的标准测试指标和待训练测试指标构建初始损失函数；根据各个类对应的初始损失函数得到目标损失函数；计算目标损失函数的最小值，以得到初始损失函数对应的参数；根据初始损失函数以及对应的参数得到目标损失函数。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：接收测试终端发送的原始测试用例，并将原始测试用例输入至预先训练得到的语言模型中得到扩展测试用例；将原始测试用例和扩展测试用例输入至问答系统中得到对应的系统回复；从原始测试用例和扩展测试用例中提取出标准回复；将系统回复和标准回复输入至问答系统测试模型中得到测试结果，问答系统测试模型是预先根据系统回复和标准回复通过梯度下降的方式训练得到的。

在一个实施例中，计算机程序被处理器执行时所实现的将原始测试用例输入至预先训练得到的语言模型中得到扩展测试用例，包括：获取原始测试用例中标签为问题的数据为原始问题，标签为回复的数据为原始回复；将原始问题输入至预先训练得到的语言模型中得到扩展问题；根据扩展问题与对应的原始回复得到扩展测试用例。

在一个实施例中，计算机程序被处理器执行时所实现的根据扩展问题与对应的原始回复得到扩展测试用例之后，还包括：提取原始测试用例的业务标识，并根据原始测试用例的业务标识生成扩展测试用例的业务标识；将系统回复和标准回复输入至问答系统测试模型中得到测试结果之后，还包括：根据原始测试用例和扩展测试用例的业务标识对测试结果进行分类；分别计算每一类测试结果中测试指标计算得到业务标识对应的测试结果；获取业务标识对应的测试结果中不符合要求的测试结果，将不符合要求的测试结果返回至测试终端。

在一个实施例中，计算机程序被处理器执行时所实现的将不符合要求的测试结果返回至测试终端之后，还包括：接收测试终端发送的与不符合要求的测试结果对应的优化测试用例；通过优化测试用例对问答系统测试模型进行优化。

在一个实施例中，计算机程序被处理器执行时所涉及的问答系统测试模型的训练方式包括：接收测试终端发送的训练测试用例；将训练测试用例输入至预先训练的语言模型中得到与训练测试用例对应的新增测试用例；将训练测试用例和新增测试用例输入至问答系统得到初始答案；将所得到的初始答案发送至测试终端，以使得测试终端得到与初始答案对应的标准测试指标；将初始答案输入至待训练问答系统测试模型中得到待训练测试指标；根据标准测试指标和待训练测试指标构建目标损失函数，并通过梯度下降算法得到损失函数的最小值；根据损失函数的最小值的对应的损失函数确定问答系统测试模型。

在一个实施例中，计算机程序被处理器执行时所实现的根据标准测试指标和待训练测试指标构建目标损失函数，包括：根据业务标识对标准测试指标和待训练测试指标进行分类；基于每一类中的标准测试指标和待训练测试指标构建初始损失函数；根据各个类对应的初始损失函数得到目标损失函数；计算目标损失函数的最小值，以得到初始损失函数对应的参数；根据初始损失函数以及对应的参数得到目标损失函数。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种问答系统测试方法，所述方法包括：

将所述系统回复和所述标准回复输入至问答系统测试模型中得到测试结果，所述问答系统测试模型是预先根据所述系统回复和标准回复通过梯度下降的方式训练得到的；

所述问答系统测试模型的训练方式包括：

接收测试终端发送的训练测试用例；

2.根据权利要求1所述的方法，其特征在于，所述将所述原始测试用例输入至预先训练得到的语言模型中得到扩展测试用例，包括：

3.根据权利要求2所述的方法，其特征在于，所述根据所述扩展问题与对应的所述原始回复得到扩展测试用例之后，还包括：

4.根据权利要求3所述的方法，其特征在于，所述将所述不符合要求的测试结果返回至所述测试终端之后，还包括：

通过所述优化测试用例对所述问答系统测试模型进行优化。

5.根据权利要求1所述的方法，其特征在于，所述根据所述标准测试指标和所述待训练测试指标构建目标损失函数，包括：

根据各个类对应的初始损失函数得到目标损失函数；

根据所述初始损失函数以及对应的参数得到目标损失函数。

6.一种问答系统测试装置，其特征在于，所述装置包括：

第一接收模块，用于接收测试终端发送的原始测试用例，并将所述原始测试用例输入至预先训练得到的语言模型中得到扩展测试用例；

测试结果获取模块，用于将所述系统回复和所述标准回复输入至问答系统测试模型中得到测试结果，所述问答系统测试模型是预先根据所述系统回复和标准回复通过梯度下降的方式训练得到的；

第二接收模块，用于接收测试终端发送的训练测试用例；

扩展模块，用于将所述训练测试用例输入至预先训练的语言模型中得到与所述训练测试用例对应的新增测试用例；

初始的答案获取模块，用于将所述训练测试用例和所述新增测试用例输入至问答系统得到初始答案；

标准测试指标获取模块，用于将所得到的初始答案发送至测试终端，以使得测试终端得到与初始答案对应的标准测试指标；

待训练测试指标获取模块，用于将初始答案输入至待训练问答系统测试模型中得到待训练测试指标；

损失函数构建模块，用于根据所述标准测试指标和所述待训练测试指标构建目标损失函数，并通过梯度下降算法得到所述损失函数的最小值；

训练模块，用于根据所述损失函数的最小值的对应的损失函数确定问答系统测试模型。

7.根据权利要求6所述的装置，其特征在于，所述接收模块包括：

8.根据权利要求7所述的装置，其特征在于，所述装置还包括：

业务标识生成模块，用于提取所述原始测试用例的业务标识，并根据所述原始测试用例的业务标识生成所述扩展测试用例的业务标识；

第一分类模块，用于根据所述原始测试用例和所述扩展测试用例的业务标识对所述测试结果进行分类；

测试结果分类模块，用于获取所述业务标识对应的测试结果中不符合要求的测试结果，将所述不符合要求的测试结果返回至所述测试终端。

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至/5中任一项所述方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至5中任一项所述的方法的步骤。