CN115544236A

CN115544236A - 一种模型评估方法、装置及电子设备

Info

Publication number: CN115544236A
Application number: CN202211463002.5A
Authority: CN
Inventors: 陈杰
Original assignee: Beijing Hongmian Xiaoice Technology Co Ltd
Current assignee: Beijing Hongmian Xiaoice Technology Co Ltd
Priority date: 2022-11-16
Filing date: 2022-11-16
Publication date: 2022-12-30

Abstract

本发明提供一种模型评估方法、装置及电子设备，可以获得待用于评估问答对话模型的问答数据集；其中，问答数据集中包括至少一类问题对应的问答数据子集，各问答数据子集均包括相应类别问题下的至少一个问答对，各问答对均包括相对应的问题和标准答案；基于各问答数据子集，评估问答对话模型对各类别问题的回答效果。本发明可以有效评估问答对话模型对于不同类别问题的回答效果，从而有效评估问答对话模型的问题回答效果，定向优化问答对话模型对相应类别问题的处理性能，提高模型优化效率，减少相关训练资源的消耗。

Description

一种模型评估方法、装置及电子设备

技术领域

本发明涉及人工智能技术领域，尤其涉及一种模型评估方法、装置及电子设备。

背景技术

随着科学技术的发展，人工智能技术不断提高。

问答对话模型是一种能自动答复用户问题的机器学习模型，可以应用在多种业务场景中，如智能客服和聊天机器人等。问答对话模型的模型性能越好，即可以为用户提供更高质量的服务。

具体的，现有技术需要先行评估问答对话模型的问题回答效果，之后再基于其问题回答效果来评估问答对话模型的模型性能，优化问答对话模型。

但是，现有技术无法有效评估问答对话模型的问题回答效果。

发明内容

本发明提供一种模型评估方法、装置及电子设备，用以解决现有技术中无法有效评估问答对话模型的问题回答效果的缺陷，有效实现对问答对话模型的问题回答效果的评估。

一种模型评估方法，包括：

获得待用于评估问答对话模型的问答数据集；其中，所述问答数据集中包括至少一类问题对应的问答数据子集，各所述问答数据子集均包括相应类别问题下的至少一个问答对，各所述问答对均包括相对应的问题和标准答案；

基于各所述问答数据子集，评估所述问答对话模型对各类别问题的回答效果。

可选的，所述基于各所述问答数据子集，评估所述问答对话模型对各类别问题的回答效果，包括：

对于任一所述问答数据子集：将所述问答数据子集中各所述问答对中的问题，分别输入到所述问答对话模型中，获得所述问答对话模型分别针对所述问答数据子集中各问题输出的模型回答，基于各问题对应的标准答案和模型回答的比较结果，确定所述问答对话模型对目标类别问题的回答效果；所述目标类别问题为一个与所述问答数据子集相对应的所述类别问题。

可选的，所述基于各问题对应的标准答案和模型回答的比较结果，确定所述问答对话模型对与所述问答数据子集相对应的目标类别问题的回答效果，包括：

分别获得各问题对应的标准答案和模型回答的相似度比较结果；

基于各问题对应的标准答案和模型回答的相似度比较结果，确定所述问答对话模型对与所述问答数据子集相对应的目标类别问题的回答效果。

可选的，所述获得待用于评估问答对话模型的问答数据集，包括：

获得初始问答数据集，所述初始问答数据集中包括多个所述问答对；

分别将所述初始问答数据集中的各所述问答对输入到训练好的问答分类模型中，获得所述问答分类模型分别针对所述初始问答数据集中的各所述问答对输出的问题类别标识；

将对应同一所述问题类别标识的各所述问答对确定为一个所述问答数据子集；

将确定出的各所述问答数据子集组合为所述问答数据集。

可选的，在所述基于各所述问答数据子集，评估所述问答对话模型对各类别问题的回答效果之前，所述模型评估方法还包括：

分别确定各所述问答数据子集中所述问答对的数量；

当一个所述问答数据子集中所述问答对的数量不大于预设数量阈值时，添加相应类别问题下的第一数量的问答对至所述问答数据子集中。

分别确定各所述问答数据子集中所述问答对的数量；

根据已确定出的各所述问答数据子集中所述问答对的数量，通过添加问答对或减少问答对的方式，调整各所述问答数据子集中所述问答对的数量，以使得调整后的各所述问答数据子集中所述问答对的数量满足预设比例关系。

可选的，在所述基于各所述问答数据子集，评估所述问答对话模型对各类别问题的回答效果之后，所述模型评估方法还包括：

基于所述问答对话模型对各类别问题的回答效果，评估所述问答对话模型的整体模型性能。

可选的，所述基于所述问答对话模型对各类别问题的回答效果，评估所述问答对话模型的整体模型性能，包括：

分别获得各类别问题的用于评估所述问答对话模型的整体模型性能的评估权重；

基于各类别问题的评估权重和所述问答对话模型对各类别问题的回答效果，加权评估出所述问答对话模型的整体模型性能。

一种模型评估装置，包括：第一获得单元和第一评估单元；其中：

所述第一获得单元，用于获得待用于评估问答对话模型的问答数据集；其中，所述问答数据集中包括至少一类问题对应的问答数据子集，各所述问答数据子集均包括相应类别问题下的至少一个问答对，各所述问答对均包括相对应的问题和标准答案；

所述第一评估单元，用于基于各所述问答数据子集，评估所述问答对话模型对各类别问题的回答效果。

可选的，所述第一评估单元，用于对于任一所述问答数据子集：将所述问答数据子集中各所述问答对中的问题，分别输入到所述问答对话模型中，获得所述问答对话模型分别针对所述问答数据子集中各问题输出的模型回答，基于各问题对应的标准答案和模型回答的比较结果，确定所述问答对话模型对目标类别问题的回答效果；所述目标类别问题为一个与所述问答数据子集相对应的所述类别问题。

可选的，所述第一评估单元，用于对于任一所述问答数据子集：将所述问答数据子集中各所述问答对中的问题，分别输入到所述问答对话模型中，获得所述问答对话模型分别针对所述问答数据子集中各问题输出的模型回答，分别获得各问题对应的标准答案和模型回答的相似度比较结果，基于各问题对应的标准答案和模型回答的相似度比较结果，确定所述问答对话模型对与所述问答数据子集相对应的目标类别问题的回答效果。

可选的，所述第一获得单元，包括：第二获得单元、第一输入单元、第三获得单元、第一确定单元和第二确定单元；其中：

所述第二获得单元，用于获得初始问答数据集，所述初始问答数据集中包括多个所述问答对；

所述第一输入单元，用于分别将所述初始问答数据集中的各所述问答对输入到训练好的问答分类模型中；

所述第三获得单元，用于获得所述问答分类模型分别针对所述初始问答数据集中的各所述问答对输出的问题类别标识；

所述第一确定单元，用于将对应同一所述问题类别标识的各所述问答对确定为一个所述问答数据子集；

所述第二确定单元，用于将确定出的各所述问答数据子集组合为所述问答数据集。

可选的，所述模型评估装置还包括：第三确定单元和添加单元；其中：

所述第三确定单元，用于在所述基于各所述问答数据子集，评估所述问答对话模型对各类别问题的回答效果之前，分别确定各所述问答数据子集中所述问答对的数量；

所述添加单元，用于当一个所述问答数据子集中所述问答对的数量不大于预设数量阈值时，添加相应类别问题下的第一数量的问答对至所述问答数据子集中。

可选的，所述模型评估装置还包括：第四确定单元和调整单元；其中：

所述第四确定单元，用于分别确定各所述问答数据子集中所述问答对的数量；

所述调整单元，用于根据已确定出的各所述问答数据子集中所述问答对的数量，通过添加问答对或减少问答对的方式，调整各所述问答数据子集中所述问答对的数量，以使得调整后的各所述问答数据子集中所述问答对的数量满足预设比例关系。

可选的，所述模型评估装置还包括：第二评估单元；其中：

所述第二评估单元，用于在所述基于各所述问答数据子集，评估所述问答对话模型对各类别问题的回答效果之后，基于所述问答对话模型对各类别问题的回答效果，评估所述问答对话模型的整体模型性能。

可选的，所述第二评估单元包括：第四获得单元和第三评估单元；

所述第四获得单元，用于分别获得各类别问题的用于评估所述问答对话模型的整体模型性能的评估权重；

所述第三评估单元，用于基于各类别问题的评估权重和所述问答对话模型对各类别问题的回答效果，加权评估出所述问答对话模型的整体模型性能。

一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述程序时实现上述任一项所述模型评估方法。

一种非暂态计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述任一项所述模型评估方法。

一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现上述任一项所述模型评估方法。

本发明提供的模型评估方法、装置及电子设备，可以获得待用于评估问答对话模型的问答数据集；其中，问答数据集中包括至少一类问题对应的问答数据子集，各问答数据子集均包括相应类别问题下的至少一个问答对，各问答对均包括相对应的问题和标准答案；基于各问答数据子集，评估问答对话模型对各类别问题的回答效果。本发明可以有效评估问答对话模型对于不同类别问题的回答效果，从而有效评估问答对话模型的问题回答效果，定向优化问答对话模型对相应类别问题的处理性能，提高模型优化效率，减少相关训练资源的消耗。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明提供的模型评估方法的流程示意图之一；

图2是本发明提供的模型评估方法的流程示意图之二；

图3是本发明提供的模型评估方法的流程示意图之三；

图4是本发明提供的模型评估方法的流程示意图之四；

图5是本发明提供的模型评估方法的流程示意图之五；

图6是本发明提供的模型评估装置的结构示意图；

图7是本发明提供的电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

下面结合图1-图5描述本发明的模型评估方法。

如图1所示，本发明实施例提出第一种模型评估方法，该方法可以包括以下步骤：

S101、获得待用于评估问答对话模型的问答数据集；其中，问答数据集中包括至少一类问题对应的问答数据子集，各问答数据子集均包括相应类别问题下的至少一个问答对，各问答对均包括相对应的问题和标准答案；

可以理解的是，某一类问题下的问答对，即为问题属于该类问题的问答对。可选的，问答对中的标准答案可以是由人工根据问题进行设置的相应的答案；可选的，问答对中的标准答案也可以是由机器如某个机器学习模型自动根据问题确定出的答案。本发明对于标准答案的确定过程不作限定。

其中，问答数据子集可以是由一类问题下的一个或多个问答对构成的，问答数据子集可以与该类问题相对应。

可选的，本发明可以划分出两个大类的类别问题，事实类问题和观点类问题；其中，事实类问题可以进一步细分为陈述类、列表类、假设类、因果类和确认类等类别问题。

具体的，问答数据集可以包括一类问题对应的问答数据子集，或者包括多类别问题分别对应的问答数据子集。

具体的，本发明可以利用问答数据集中对应不同类别问题的问答数据子集，对问答对话模型进行评估，以评估问答对话模型对不同类别问题的回答效果。本发明可以关注问答对话模型在不同的具体类别问题上的表现，根据问答对话模型在具体类别问题上的回答效果优化问答对话模型针对具体类别问题的处理性能。

S102、基于各问答数据子集，评估问答对话模型对各类别问题的回答效果。

具体的，本发明可以在获得问答数据集后，基于问答数据集中各问答数据子集，来评估问答对话模型对不同类别问题的回答效果。

可选的，步骤S102可以包括：

对于任一问答数据子集：将问答数据子集中各问答对中的问题，分别输入到问答对话模型中，获得问答对话模型分别针对问答数据子集中各问题输出的模型回答，基于各问题对应的标准答案和模型回答的比较结果，确定问答对话模型对目标类别问题的回答效果；目标类别问题为一个与问答数据子集相对应的类别问题。

比如，对于包括第一问答对和第二问答对的第一问答数据子集，本发明可以将第一问答对中的问题输入到问答对话模型中，获得问答对话模型针对第一问答对中的问题输出的第一模型回答，将第一问答对中的标准答案与第一模型回答进行比较，获得比较结果，第二问答对中的问题输入到问答对话模型中，获得问答对话模型针对第二问答对中的问题输出的第二模型回答，将第二问答对中的标准答案与第二模型回答进行比较，获得比较结果，基于两个比较结果来确定问答对话模型对第一问答数据子集对应的目标类别问题的回答效果。

可选的，上述基于各问题对应的标准答案和模型回答的比较结果，确定问答对话模型对与问答数据子集相对应的目标类别问题的回答效果，包括：

基于各问题对应的标准答案和模型回答的相似度比较结果，确定问答对话模型对与问答数据子集相对应的目标类别问题的回答效果。

其中，标准答案与模型回答的比较结果可以为两者的相似度比较结果。

具体的，本发明可以通过分别提取出标准答案与模型回答的特征向量，计算出两者特征向量的余弦相似度，将计算出的余弦相似度确定为标准答案和模型回答的相似度，基于该相似度来确定标准答案与模型回答的相似度比较结果，比如可以在确定出相似度后对该相似度进行评分，将相似度评分值作为相似度比较结果。

可选的，本发明可以使用BM25或深度学习模型（如bert）等相似度比较方式来确定标准答案和模型答案间的相似度比较结果。

具体的，本发明可以在确定出各问题对应的相似度比较结果后，基于各问题对应的相似度比较结果，来确定问答对话模型对目标类别问题的回答效果。比如，当使用相似度评分值（如0-1分）作为相似度比较结果时，本发明可以将各问题对应的相似度评分值的和值，确定为用于评价问答对话模型对目标类别问题的问答效果的评分值；再比如，当使用相似度评分值作为相似度比较结果时，将各问题对应的相似度评分值的平均值，确定为用于评价问答对话模型对目标类别问题的问答效果的评分值。

可以理解的是，如果问答对话模型对某个类别问题的问答效果的评分值越高，则可以说明问答对话模型对该类别问题的回答效果是越好的；如果问答对话模型对某个类别问题的问答效果的评分值越低，则可以说明问答对话模型对该类别问题的回答效果是越差的。

可选的，本发明可以设置评分阈值，利用评分阈值来确定问答对话模型对不同类别问题的回答效果。

可选的，本发明也可以将标准回答与模型回答的相关度作为两者的比较结果，基于相关度比较结果来评估问答对话模型对于不同类别问题的回答效果。

具体的，如果问答对话模型对某个类别问题的回答效果的评分不高于评分阈值，则本发明可以确定问答对话模型对该类别问题的回答效果较差；此时，本发明可以获得该类别问题下的多个问答对，将该多个各问答对作为训练数据集对问答对话模型继续进行训练，定向优化问答对话模型对该类别问题的处理性能，提高模型优化效率。

具体的，如果问答对话模型对某个类别问题的回答效果的评分高于评分阈值，则本发明可以确定问答对话模型对该类别问题的回答效果较好；此时，本发明可以无需再优化问答对话模型对该类别问题的处理性能，可以减少相关训练资源的消耗。

需要说明的是，现有技术可以使用不同问答数据集评估问答对话模型在数据集上的整体表现，但未关注其在具体问题类别上的表现，而实际中问答对话模型在不同问题类别上的回答效果是有明显差异的。具体的，在未进行问题类别区分的情况下，可以评估问答对话模型在数据集上的整体效果，但不能区分问答对话模型对不同类别问题的回答效果，不利于问答对话模型的效果分析和发现，不能对不同类别问题做出针对性的改进。

可以理解的是，本发明通过图1所示步骤，可以有效评估问答对话模型对于不同类别问题的回答效果，从而有效评估问答对话模型的问题回答效果，定向优化问答对话模型对相应类别问题的处理性能，提高模型优化效率，减少相关训练资源的消耗。

本发明提出的模型评估方法，可以获得待用于评估问答对话模型的问答数据集；其中，问答数据集中包括至少一类问题对应的问答数据子集，各问答数据子集均包括相应类别问题下的至少一个问答对，各问答对均包括相对应的问题和标准答案；基于各问答数据子集，评估问答对话模型对各类别问题的回答效果。本发明可以有效评估问答对话模型对于不同类别问题的回答效果，从而有效评估问答对话模型的问题回答效果，定向优化问答对话模型对相应类别问题的处理性能，提高模型优化效率，减少相关训练资源的消耗。

如图2所示，本发明提出第二种模型评估方法。在该方法中，步骤S101可以包括：

S201、获得初始问答数据集，初始问答数据集中包括多个问答对；

其中，初始回答数据集可以是由不同类别问题的多个问答对在未经聚类的情况下无序构成的。

需要说明的是，初始回答数据集中的各问答对可以是由技术人员根据实际情况确定的，本发明对此不作限定。

S202、分别将初始问答数据集中的各问答对输入到训练好的问答分类模型中；

其中，问答分类模型可以是预先利用标注好问题类型的问答对数据集进行训练出的分类模型。可选的，问答分类模型可以为bert、xgboost或lr等分类模型。

具体的，本发明可以分别针对不同问题类别，准备相应数量的标注好问题类别的问答对，使用标注好问题类别的问答对来对问答分类模型进行训练，以使得问答分类模型具备对不同类别问题进行分类的能力。

具体的，本发明可以在将初始回答数据集中的各问答对依次输入到问答分类模型中，由问答分类模型对各问答对进行分类。

S203、获得问答分类模型分别针对初始问答数据集中的各问答对输出的问题类别标识；

其中，问题类别标识即为问题类别的标识。需要说明的是，问题类别标识可以是由汉字、数字和字母等中的至少一种字符构成的。

具体的，问答分类模型在对某个问答对进行分类过程中，可以确定出该问答对在各问题类别上的得分，之后确定出各分数中的最高分数，将最高分数对应的问题类别即确定为该问答对所属的问题类别。

S204、将对应同一问题类别标识的各问答对确定为一个问答数据子集；

具体的，本发明可以将对应同一问题类别标识的各问答对，即属于同一问题类别的各问答对，确定为与该问题类别相对应的问答数据子集。

S205、将确定出的各问答数据子集组合为问答数据集。

具体的，本发明可以在对初始问答数据集中所有的问答对进行分类，确定出所有的问答数据子集后，将所有的问答数据子集组合为问答数据集。

需要说明的是，本发明通过利用问答分类模型，对初始问答数据集中的问答对进行分类，来获得对应不同类别问题的问答数据子集和问答数据集，可以有效提高问答数据子集和问答数据集的获得效率和数据准确度。

本发明提出的模型评估方法，可以通过利用问答分类模型，对初始问答数据集中的问答对进行分类，来获得对应不同类别问题的问答数据子集和问答数据集，可以有效提高问答数据子集和问答数据集的获得效率和数据准确度。

如图3所示，本发明实施例提出第三种模型评估方法。该方法在步骤S102之前，还可以包括：

S301、分别确定各问答数据子集中问答对的数量；

具体的，本发明可以在获得问答数据集后而对问答对话模型进行评估之前，先行统计出各问答数据子集中的问答对数量。

S302、当一个问答数据子集中问答对的数量不大于预设数量阈值时，添加相应类别问题下的第一数量的问答对至问答数据子集中。

其中，预设数量阈值可以是由技术人员根据实际情况确定出的数量阈值，本发明对此不作限定。

具体的，本发明可以统计各问答数据子集中的问答对数量，如果某个问答数据子集中的问答对数量不大于预设数量阈值，则可以认为该问答数据子集中的问答对数量较少。为避免问答数据子集中问答对数量较少可能导致的问答对话模型评估不准确的问题，本发明可以在问答对数量较少的问答数据子集中，添加相应类别问题下的第一数量的问答对，以使得问答数据子集中的问答对数量满足相应数量要求。

可选的，当一个问答数据子集的问答对数量过多时，如超过预设最大数量阈值，本发明可以通过减少该问答数据子集中的问答对，来使得该问答数据子集中的问答对满足数量要求；

可选的，当一个问答数据子集的问答对数量在问答数据集中的占比不满足相关比例要求时，本发明可以通过在该问答数据子集中添加或减少相应类别问题下的问答对数量，来使得该问答数据子集中的问答对占比满足相应要求。

需要说明的时，本发明通过图3所示步骤，可以有效避免测试数据集类型分布不均，或不同测试集中分类分布不同（即各问答数据子集的问答对数量分布不均或分布不同）而可能导致的对问答对话模型回答效果的错误评估，有效保障评估准确度。

本发明提出的模型评估方法，可以通过统计各问答数据子集中的问答对数量，当发现某个问答数据子集中的问答对数量较少时，本发明可以通过添加相应类别问题的问答对的方式，来使得该问答数据子集中的问答对数量满足要求，避免问答数据子集中问答对数量较少可能导致的问答对话模型评估不准确的问题，避免测试数据集类型分布不均，或不同测试集中分类分布不同（即各问答数据子集的问答对数量分布不均或分布不同）而可能导致的对问答对话模型回答效果的错误评估，有效保障问答对话模型对不同类别问题进行评估所获得的评估结果的准确度。

基于图1，本发明实施例提出第四种模型评估方法，该方法在步骤S102之前，还可以包括：

分别确定各问答数据子集中问答对的数量；

根据已确定出的各问答数据子集中问答对的数量，通过添加问答对或减少问答对的方式，调整各问答数据子集中问答对的数量，以使得调整后的各问答数据子集中问答对的数量满足预设比例关系。

其中，预设比例关系可以是各问答数据子集的问答对数量的比例关系，如各问答数据子集的问答对数量的比值均为1。需要说明的是，预设比例关系可以是由技术人员根据实际情况和要求进行设置的，本发明对此不作限定。比如，本发明可以由技术人员根据公开的几个权威问题数据集中不同类别问题的比例，来确定上述预设比例关系。

具体的，本发明可以先行统计出各问答数据子集中的问答对数量，如果各问答数据子集的问答对数量未满足预设比例关系，本发明可以通过调整某些问答数据子集中的问答对数量，来使得调整后的各问答数据子集中的问答对数量满足预设比例关系。

本发明提出的模型评估方法，可以通过调整各问答数据子集中的问答对数量，来调整各问答数据子集的问答对数量的比例关系，避免各问答数据子集的问答对数量分布不均或分布不同而可能导致的对问答对话模型回答效果的错误评估，进一步保障模型评估准确度。

基于图1，如图4所示，本发明实施例提出第五种模型评估方法。该方法在步骤S102之后，还可以包括：

S401、基于问答对话模型对各类别问题的回答效果，评估问答对话模型的整体模型性能。

具体的，本发明可以在获得问答对话模型对各类别问题的回答效果后，基于问答对话模型对各类别问题的回答效果，来对问答对话模型的整体模型性能进行评估，进一步提高评估有效性和准确度。

具体的，当本发明利用相似度评分值，来确定用于评价问答对话模型对目标类别问题的问答效果的评分值时，本发明可以先行获得问答对话模型对各类别问题的问答效果的评分值，之后再基于问答对话模型对各类别问题的问答效果的评分值，来评估问答对话模型的整体性能。

具体的，本发明可以将问答对话模型对各类别问题的问答效果的评分值的和值，确定为用于评估问答对话模型的整体性能的评分值。需要说明的时，如果评分值越高，则问答对话模型的整体性能可以是越好的；如果评分值越低，则问答对话模型的整体性能可以是越差的。

可选的，本发明可以在获得问答对话模型对各类别问题的问答效果的评分值后，分别对各评分值进行赋权，之后再通过加权求和来计算出用于评估问答对话模型的整体性能的评分值。

其中，各评分值的赋权可以是系统默认值，也可以是由用户或技术人员确定的值，本发明对此不作限定。

本发明提出的模型评估方法，可以基于问答对话模型对各类别问题的回答效果，来对问答对话模型的整体模型性能进行评估，进一步提高评估有效性和准确度。

基于上述第三种模型评估方法或第四种模型评估方法，本发明实施例提出第六种模型评估方法。该第六种模型评估方法在步骤S102之后，还可以包括步骤S103，其中：

S103、基于所述问答对话模型对各类别问题的回答效果，评估所述问答对话模型的整体模型性能。

可选的，本发明可以在获得各问答数据子集后，先行分别确定各问答数据子集中的问答对数量，当某个问答数据子集中的问答对数量不满足数量要求即不大于预设数量阈值时，本发明可以在该问答数据子集中添加相应类别问题及相应数量的问答对，使得该问答数据子集中的问答对数量可以满足数量要求。需要说明的时，各问答数据子集对应的预设数量阈值可以为同一数值，也可以为不同数值，本发明对此不作限定。

具体的，本发明可以分别使用满足数量要求的各问答数据子集，来评估问答对话模型对相应的各类别问题的回答效果，之后再基于问答对话模型对各类别问题的回答效果，来评估问答对话模型的整体模型性能。此时，本发明在评估问答对话模型的整体模型性能时，可以有效保障各问答数据子集中的问答对数量能满足相应的数量要求，有效避免某个问答数据子集中问答对数量较少，而可能导致的无法有效评估出问答对话模型对相应类别问题的回答效果的问题，更准确的评估出问答对话模型对各类别问题的回答效果，进而保障对问答对话模型整体模型性能的评估准确度。

可选的，本发明在获得各问答数据子集后，可以通过添加问答对和减少问答对的方式，来调整各问答数据子集中的问答对数量，使得各问答数据子集中的问答对数量满足预设比例关系，之后再利用问答对数量满足预设比例关系的各问答数据子集，来评估问答对话模型对各类别问题的回答效果，之后再基于问答对话模型对各类别问题的回答效果，来对问答对话模型的整体模型性能进行评估。可以理解的是，此时本发明在对问答对话模型的整体模型性能进行评估时，可以有效避免测试数据集类型分布不均，或不同测试集中分类分布不同（即各问答数据子集的问答对数量分布不均或分布不同）而可能导致的对问答对话模型整体模型性能的错误评估，有效保障对问答对话模型整体模型性能的评估准确度。

可选的，本发明也可以在获得各问答数据子集后，先行通过调整问答对数量的方式，来使得各问答数据子集中的问答对数量满足数量要求，以及使得各问答数据子集的问答对数量比例满足预设比例关系，之后再使用调整问答对数量后的各问答数据子集来评估问答对话模型对各类别问题的回答效果，以及评估问答对话模型的整体模型性能。此时，本发明可以进一步避免测试数据较少、测试数据集类型分布不均和/或不同测试集中分类分布不同（即问答数据子集的问答对数量较少、各问答数据子集的问答对数量分布不均或分布不同）而可能导致的对问答对话模型整体模型性能的不准确评估、错误评估或无效评估等情况，有效保障对问答对话模型整体模型性能的评估准确度。

可选的，在本发明实施例提出的第七种模型评估方法中，上述步骤S103可以包括步骤S1031和S1032，其中：

S1031、分别获得各类别问题的用于评估所述问答对话模型的整体模型性能的评估权重；

其中，评估权重可以是由系统设置的默认权重，也可以是由技术人员根据实际情况进行设置的权重。

可选的，各类别问题的评估权重可以是相同的，也可以是不相同的，本发明对此不作限定。

可以理解的是，任一类别问题的评估权重，即为该类别问题对应的问答对话模型回答效果在问答对话模型整体性能评估过程中所具有的权重。比如，第一类别问题的评估权重，即为问答对话模型对第一类别问题的回答效果在问答对话模型整体性能评估过程中具有的权重。

可选的，问答对话模型对于不同类别问题的回答效果，可以在对问答对话模型的整体模型性能评估中具有不同的重要程度。比如，问答对话模型对于简单类别问题的回答效果常常会是较好的，而对于困难类别问题的回答效果常常会是一般甚至较差的，因此，问答对话模型对于困难类别问题的回答效果在对问答对话模型整体性能评估中可以扮演更重要的角色，此时本发明可以在利用问答对话模型对各类别问题的回答效果来评估问答对话模型的整体模型性能时，对关键类别问题如困难类别问题赋予较大的权重，对非关键类别问题如简单类别问题赋予较小的权重，增强问答对话模型整体模型性能的评估可靠性。

具体的，本发明可以根据问答对话模型在实际应用场景中对不同类别问题的回答难易程度，相应的对各类别问题进行赋权。如果问答对话模型在实际对话场景中，常常难以回答好某个类别问题，即针对该类别问题的回答效果往往是不合格的，则可以将该类别问题的评估权重设置为较大值；而如果问答对话模型在实际对话场景中，常容易回答好某个类别问题，即针对该类别问题的回答效果往往是良好的，则可以将该类别问题的评估权重设置为较小值。

S1032、基于各类别问题的评估权重和所述问答对话模型对各类别问题的回答效果，加权评估出所述问答对话模型的整体模型性能。

具体的，本发明可以在获得各类别问题的评估权重和问答对话模型对各类别问题的回答效果后，基于各类别问题的评估权重和问答对话模型对各类别问题的回答效果，对问答对话模型进行加权评估，确定出问答对话模型的整体模型性能。

可选的，当本发明利用相似度评分值来表征问答对话模型对各类别问题的回答效果时，本发明可以先行分别获得用于表征问答对话模型对各类别问题的回答效果的相似度评分值，之后，本发明可以基于各类别问题对应的相似度评分值以及各类别问题的评估权重，进行加权求和计算，将计算出的值确定为问答对话模型的综合评分。可以理解的是，该综合评分即可以用于表征问答对话模型的整体模型性能，该综合评分越高则问答对话模型的整体模型性能越优，该综合评分越低则问答对话模型的整体模型性能越差。

具体的，本发明可以按照第一公式来计算出综合评分。其中：第一公式可以为：

P=Σw_i*p_i；

其中，P为综合评分，w_i为类别问题i的评估权重，p_i为用于表征问答对话模型对于类别问题i的回答效果的相似度评分值。

具体的，本发明可以通过对各类别问题赋予相应的权重，来突出关键类别问题在问答对话模型中的评估重要程度，弱化非关键类别问题在问答对话模型中的评估重要程度，增强问答对话模型整体性能评估的可靠性。

可以理解的是，上述步骤S1031和S1032也可以应用在上述第五种模型评估方法中，同样可以有效增强问答对话模型整体性能评估的可靠性。

本发明提出的模型评估方法，可以有效保障对问答对话模型的评估准确度和评估可靠性。

如图5所示，本发明实施例提出第八种模型评估方法。该方法可以包括：

S501、准备评估数据；

其中，评估数据即为待用于评估回答对话模型的初始问答数据集。

S502、输入问答分类模型，以使得问答分类模型按照预设问题类别对评估数据中的问题进行分类；

具体的，本发明可以将评估数据中的各问答对分别输入到问答分类模型中。

其中，预设问题类别可以包括事实类问题和观点类问题，其中，事实类问题可以具体包括陈述类、列表类、假设类、因果类和确认类等类别问题。

具体的，问答分类模型可以按照预设问题类别对各问答对进行分类，进而确定出相应的问答数据子集和问答数据集。

S503、统计每个分类的问答对数量及其在数据集合中的比例；

具体的，本发明可以分别统计各问答数据子集的问答对数量，以及分别确定各问答数据子集的问答对数量，与问答数据集中所有问答对数量的比值。

S504、确定各类别问题的问答对数量和/或占比是否满足预定义要求；

具体的，本发明可以分别确定各问答数据子集的问答对数量是否满足数量要求和比例关系要求。如果某个问答数据子集的问答对数量未满足相关要求，则本发明可以通过调整该问答数据子集中的问答对数量，来使其满足相关要求。

S505、分别对每一类问题的回答效果进行相似度计算；

具体的，本发明可以分别将各问答数据子集的问答对中的问题，输入到问答对话模型中，获得问答对话模型输出的模型回答，对模型回答和标准答案进行相似度计算，并进行相应的相似度评分。

S506、计算各分类得分和综合得分；

具体的，本发明可以分别计算出用于表征问答对话模型针对不同类别问题的回答效果的相似度评分，即上述各分类得分，并基于计算出的各相似度评分来确定问答对话模型的综合得分。

S507、反馈评测报告。

具体的，反馈评测报告可以包括已计算出的对应不同类别问题的各分类得分，以及综合得分。

具体的，本发明可以输出评测报告，使得技术人员可以根据评测报告掌握问答对话模型针对不同类别问题的回答效果，以及整体模型性能，以使得技术人员可以根据评测报告制定相应的模型优化方案，提高模型优化效率。

本发明提出的模型评估方法，可以输出评测报告，使得技术人员可以根据评测报告掌握问答对话模型针对不同类别问题的回答效果，以及整体模型性能，以使得技术人员可以根据评测报告制定相应的模型优化方案，提高模型优化效率。

下面对本发明提供的模型评估装置进行描述，下文描述的模型评估装置与上文描述的模型评估方法可相互对应参照。

如图6所示，本发明实施例提出一种模型评估装置。该装置可以包括：第一获得单元601和第一评估单元602；其中：

第一获得单元601，用于获得待用于评估问答对话模型的问答数据集；其中，问答数据集中包括至少一类问题对应的问答数据子集，各问答数据子集均包括相应类别问题下的至少一个问答对，各问答对均包括相对应的问题和标准答案；

第一评估单元602，用于基于各问答数据子集，评估问答对话模型对各类别问题的回答效果。

需要说明的是，第一获得单元601和第一评估单元602的具体处理过程及其带来的有益效果，可以分别参照本发明关于图1中步骤S101和S102的相关说明，不再赘述。

可选的，第一评估单元，用于对于任一问答数据子集：将问答数据子集中各问答对中的问题，分别输入到问答对话模型中，获得问答对话模型分别针对问答数据子集中各问题输出的模型回答，基于各问题对应的标准答案和模型回答的比较结果，确定问答对话模型对目标类别问题的回答效果；目标类别问题为一个与问答数据子集相对应的类别问题。

可选的，第一获得单元，包括：第二获得单元、第一输入单元、第三获得单元、第一确定单元和第二确定单元；其中：

第二获得单元，用于获得初始问答数据集，初始问答数据集中包括多个问答对；

第一输入单元，用于分别将初始问答数据集中的各问答对输入到训练好的问答分类模型中；

第三获得单元，用于获得问答分类模型分别针对初始问答数据集中的各问答对输出的问题类别标识；

第一确定单元，用于将对应同一问题类别标识的各问答对确定为一个问答数据子集；

第二确定单元，用于将确定出的各问答数据子集组合为问答数据集。

可选的，模型评估装置还包括：第三确定单元和添加单元；其中：

第三确定单元，用于在基于各问答数据子集，评估问答对话模型对各类别问题的回答效果之前，分别确定各问答数据子集中问答对的数量；

添加单元，用于当一个问答数据子集中问答对的数量不大于预设数量阈值时，添加相应类别问题下的第一数量的问答对至问答数据子集中。

可选的，模型评估装置还包括：第四确定单元和调整单元；其中：

第四确定单元，用于分别确定各问答数据子集中问答对的数量；

调整单元，用于根据已确定出的各问答数据子集中问答对的数量，通过添加问答对或减少问答对的方式，调整各问答数据子集中问答对的数量，以使得调整后的各问答数据子集中问答对的数量满足预设比例关系。

可选的，模型评估装置还包括：第二评估单元；其中：

第二评估单元，用于在基于各问答数据子集，评估问答对话模型对各类别问题的回答效果之后，基于问答对话模型对各类别问题的回答效果，评估问答对话模型的整体模型性能。

可选的，第二评估单元包括：第四获得单元和第三评估单元；

第四获得单元，用于分别获得各类别问题的用于评估问答对话模型的整体模型性能的评估权重；

第三评估单元，用于基于各类别问题的评估权重和问答对话模型对各类别问题的回答效果，加权评估出问答对话模型的整体模型性能。

本发明提出的模型评估装置，可以获得待用于评估问答对话模型的问答数据集；其中，问答数据集中包括至少一类问题对应的问答数据子集，各问答数据子集均包括相应类别问题下的至少一个问答对，各问答对均包括相对应的问题和标准答案；基于各问答数据子集，评估问答对话模型对各类别问题的回答效果。本发明可以有效评估问答对话模型对于不同类别问题的回答效果，从而有效评估问答对话模型的问题回答效果，定向优化问答对话模型对相应类别问题的处理性能，提高模型优化效率，减少相关训练资源的消耗。

图7示例了一种电子设备的实体结构示意图，如图7所示，该电子设备可以包括：处理器(processor)710、通信接口(Communications Interface)720、存储器(memory)730和通信总线740，其中，处理器710，通信接口720，存储器730通过通信总线740完成相互间的通信。处理器710可以调用存储器730中的逻辑指令，以执行模型评估方法，该方法包括：

获得待用于评估问答对话模型的问答数据集；其中，问答数据集中包括至少一类问题对应的问答数据子集，各问答数据子集均包括相应类别问题下的至少一个问答对，各问答对均包括相对应的问题和标准答案；

基于各问答数据子集，评估问答对话模型对各类别问题的回答效果。

此外，上述的存储器730中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（ROM，Read-Only Memory）、随机存取存储器（RAM，Random Access Memory）、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明还提供一种计算机程序产品，计算机程序产品包括计算机程序，计算机程序可存储在非暂态计算机可读存储介质上，计算机程序被处理器执行时，计算机能够执行上述各方法所提供的模型评估方法，该方法包括：

又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各方法提供的模型评估方法，该方法包括：

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种模型评估方法，其特征在于，包括：

2.根据权利要求1所述的模型评估方法，其特征在于，所述基于各所述问答数据子集，评估所述问答对话模型对各类别问题的回答效果，包括：

3.根据权利要求2所述的模型评估方法，其特征在于，所述基于各问题对应的标准答案和模型回答的比较结果，确定所述问答对话模型对与所述问答数据子集相对应的目标类别问题的回答效果，包括：

4.根据权利要求1所述的模型评估方法，其特征在于，所述获得待用于评估问答对话模型的问答数据集，包括：

将确定出的各所述问答数据子集组合为所述问答数据集。

5.根据权利要求1所述的模型评估方法，其特征在于，在所述基于各所述问答数据子集，评估所述问答对话模型对各类别问题的回答效果之前，所述模型评估方法还包括：

分别确定各所述问答数据子集中所述问答对的数量；

6.根据权利要求1所述的模型评估方法，其特征在于，在所述基于各所述问答数据子集，评估所述问答对话模型对各类别问题的回答效果之前，所述模型评估方法还包括：

分别确定各所述问答数据子集中所述问答对的数量；

7.根据权利要求5或6所述的模型评估方法，其特征在于，在所述基于各所述问答数据子集，评估所述问答对话模型对各类别问题的回答效果之后，所述模型评估方法还包括：

8.根据权利要求7所述的模型评估方法，其特征在于，所述基于所述问答对话模型对各类别问题的回答效果，评估所述问答对话模型的整体模型性能，包括：

9.一种模型评估装置，其特征在于，包括：获得单元和评估单元；其中：

所述获得单元，用于获得待用于评估问答对话模型的问答数据集；其中，所述问答数据集中包括至少一类问题对应的问答数据子集，各所述问答数据子集均包括相应类别问题下的至少一个问答对，各所述问答对均包括相对应的问题和标准答案；

所述评估单元，用于基于各所述问答数据子集，评估所述问答对话模型对各类别问题的回答效果。

10.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至8任一项所述模型评估方法。