CN116127450A

CN116127450A - 一种模型评估方法及装置

Info

Publication number: CN116127450A
Application number: CN202211229851.4A
Authority: CN
Inventors: 井白玲; 郭剑霓; 郭江; 吴海英; 蒋宁
Original assignee: Mashang Xiaofei Finance Co Ltd
Current assignee: Mashang Xiaofei Finance Co Ltd
Priority date: 2022-10-08
Filing date: 2022-10-08
Publication date: 2023-05-16

Abstract

本申请提供一种模型评估方法及装置，该方法包括：根据敏感词识别模型对预设置的验证集进行识别，获得所述敏感词识别模型对应的真正例个数和真负例个数；根据所述真正例个数与所述验证集的正例总数确定目标正例准确率，以及根据所述真负例个数与所述验证集的负例总数确定目标负例准确率；对所述目标正例准确率和所述目标负例准确率进行加权计算，获得评估信息。本申请提供的模型评估方法，通过对目标正例准确率和目标负例准确率进行加权计算的方式，以获得表征所述模型的识别准确度的评估信息，由于所述评估信息对所述模型在正例识别方面和负例识别方面的准确率进行了综合考量，因此能较为准确地指示所述模型的识别准确度。

Description

一种模型评估方法及装置

技术领域

本申请涉及信息处理技术领域，尤其涉及一种模型评估方法及装置。

背景技术

近年来，以智能手机、平板电脑为代表的移动互联网设备正成为人们随时随地进行网络互联并获取信息的便捷通道。伴随着移动互联网的快速发展，网络信息也愈发鱼龙混杂。

目前，相关企业一般会采用敏感词识别模型对网络信息进行监管，以识别并处理网络信息中夹杂的非法内容，保持网络环境的和谐。

在相关技术中，多基于敏感词识别模型对应的F值来评估敏感词识别模型的识别准确度，此种评估方式仅对敏感词识别模型所识别正例(指被模型识别为不含敏感词的语料)进行考量，会导致评估结果所指示模型识别准确度与模型实际的识别准确度存在较大差异，也就是说，基于相关技术对敏感词识别模型的识别准确度进行评估时，所获得评估结果的可靠性差。

发明内容

本申请实施例提供一种模型评估方法及装置，以解决相关技术在对敏感词识别模型的识别准确度进行评估时，所获得评估结果不可靠的问题。

为了解决上述技术问题，本申请是这样实现的：

第一方面，本申请实施例提供了一种模型评估方法。该方法包括：

利用敏感词识别模型分别对预设置的验证样本集中的每个样本进行识别，得到所述验证样本集中的每个样本对应的识别结果；其中，所述验证样本集包括多个正例样本和多个负例样本，所述正例样本为未包含敏感词的样本，所述负例样本为包括敏感词的样本；

根据所述验证样本集中的每个样本对应的识别结果确定所述验证样本集中的真正例个数和真负例个数；其中，所述真正例个数为所述验证样本集中被识别为正例的正例样本的个数，所述真负例个数为所述验证样本集中被识别为负例的负例样本的个数；

根据所述真正例个数与正例总数确定目标正例准确率，以及根据所述真负例个数与负例总数确定目标负例准确率，其中，所述正例总数为所述验证集内的正例样本的总数，所述目标正例准确率用于指示所述敏感词识别模型对所述验证样本集的正例样本的识别准确率，所述负例总数为所述验证集内的负例样本的总数，所述目标负例准确率用于指示所述敏感词识别模型对所述验证样本集的负例样本的识别准确率；

对所述目标正例准确率和所述目标负例准确率进行加权计算，获得用于表征所述敏感词识别模型的识别准确度的评估信息。

第二方面，本申请实施例还提供一种模型评估装置。该模型评估装置包括：

模型验证模块，用于利用敏感词识别模型分别对预设置的验证样本集中的每个样本进行识别，得到所述验证样本集中的每个样本对应的识别结果；其中，所述验证样本集包括多个正例样本和多个负例样本，所述正例样本为未包含敏感词的样本，所述负例样本为包括敏感词的样本；

统计模块，用于根据所述验证样本集中的每个样本对应的识别结果确定所述验证样本集中的真正例个数和真负例个数；其中，所述真正例个数为所述验证样本集中被识别为正例的正例样本的个数，所述真负例个数为所述验证样本集中被识别为负例的负例样本的个数；

处理模块，用于根据所述真正例个数与正例总数确定目标正例准确率，以及根据所述真负例个数与负例总数确定目标负例准确率，其中，所述正例总数为所述验证集内的正例样本的总数，所述目标正例准确率用于指示所述敏感词识别模型对所述验证样本集的正例样本的识别准确率，所述负例总数为所述验证集内的负例样本的总数，所述目标负例准确率用于指示所述敏感词识别模型对所述验证样本集的负例样本的识别准确率；

模型评估模块，用于对所述目标正例准确率和所述目标负例准确率进行加权计算，获得用于表征所述敏感词识别模型的识别准确度的评估信息。

第三方面，本申请实施例还提供一种电子设备，包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现上述的模型评估方法的步骤。

第四方面，本申请实施例还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现上述的模型评估方法的步骤。

本申请实施例中，通过获取敏感词识别模型在验证过程中识别的真正例个数和真负例个数，并根据前述真正例个数和真负例个数分别确定所述模型在验证过程中的目标正例准确率和目标负例准确率，而后通过对目标正例准确率和目标负例准确率进行加权计算的方式，以获得表征所述模型的识别准确度的评估信息，由于所述评估信息对所述模型在正例识别方面和负例识别方面的准确率进行了综合考量，因此能较为准确地指示所述模型的识别准确度。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对本申请实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本申请一实施例提供的模型评估方法的流程图；

图2是本申请另一实施例提供的模型评估方法的流程图；

图3是本申请一实施例提供的模型评估装置的结构图；

图4是本申请一实施例提供的电子设备的结构图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请实施例提供一种模型评估方法。参见图1，图1是本申请实施例提供的模型评估方法的流程图，如图1所示，包括以下步骤：

步骤101、利用敏感词识别模型分别对预设置的验证样本集中的每个样本进行识别，得到所述验证样本集中的每个样本对应的识别结果。

其中，所述验证样本集包括多个正例样本和多个负例样本，所述正例样本为未包含敏感词的样本，所述负例样本为包括敏感词的样本。

所述敏感词识别模型可以理解为经训练集对初始模型进行训练后所获得的模型，所述初始模型可以为神经网络模型，或者，为基于敏感词检测算法(例如：确定有穷自动机(Deterministic Finite Automaton，DFA)算法等)实现的模型。所述训练集包括多个正例语料和多个负例语料，所述训练集来源于目标业务场景采集的语料，所述目标业务场景为所述敏感词识别模型的应用场景(可以理解为：所述敏感词识别模型可以应用于所述目标业务场景的产品中)。

举例来说，所述目标业务场景可以为黄反场景，此时，所述敏感词识别模型可以应用于黄反场景的黄反系统中，在语料输入该黄反系统中之后，所述敏感词识别模型可对输入语料进行识别，并在输入语料包括敏感词的情况下，阻止该输入语料的发布。

示例性的，其中，所述特定产品可理解为敏感词识别模型的应用方所生产产品，或者，为敏感词识别模型的应用方的合作伙伴所生产产品。

需要说明的是，所述验证集也来源于所述目标业务场景采集的语料。

敏感词识别模型对预设置的验证集进行识别可以理解为，将验证集包括的多个样本输入敏感词识别模型中，并相应获得敏感词识别模型针对验证集中每一样本输出的识别结果(指将样本识别为包括敏感词的语料样本，或者，将语料识别为不包括敏感词的语料样本)，若一样本在验证集中被标记为不包括敏感词的语料样本，且该语料被所述模型也识别为不包括敏感词的语料样本，则称该语料为真正例(True Postive，TP)；若一语料在验证集中被标记为包括敏感词的语料样本，且该语料被所述模型也识别为包括敏感词的语料样本，则称该语料为真负例(True Negative，TN)。

相应的，若一语料在验证集中被标记为不包括敏感词的语料样本，而该语料被所述模型识别为包括敏感词的语料样本，则称该语料为假负例(False Negative，FN)；若一语料在验证集中被标记为包括敏感词的语料样本，而该语料被所述模型识别为不包括敏感词的语料样本，则称该语料为假正例(False Postive，FP)。

步骤102、根据所述验证样本集中的每个样本对应的识别结果确定所述验证样本集中的真正例个数和真负例个数。

其中，所述真正例个数为所述验证样本集中被识别为正例的正例样本的个数，所述真负例个数为所述验证样本集中被识别为负例的负例样本的个数。

通过对所述验证样本集中的每个样本对应的识别结果中的TP个数进行统计，可获得所述真正例个数；同理，通过对所述验证样本集中的每个样本对应的识别结果中的TN个数进行统计，可获得所述真负例个数。

步骤103、根据所述真正例个数与正例总数确定目标正例准确率，以及根据所述真负例个数与负例总数确定目标负例准确率。

其中，所述正例总数为所述验证集内的正例样本的总数，所述目标正例准确率用于指示所述敏感词识别模型对所述验证样本集的正例样本的识别准确率，所述负例总数为所述验证集内的负例样本的总数，所述目标负例准确率用于指示所述敏感词识别模型对所述验证样本集的负例样本的识别准确率。

在一示例中，可以将所述真正例个数与所述验证集的正例总数的比值确定为目标正例准确率，即目标正例准确率＝真正例个数÷验证集的正例总数×100％(例如：若真正例个数为99，验证集的正例总数为100，则目标正例准确率为99％)。其中，验证集的正例总数可理解为验证集包括的多个正例样本的总数，所述验证集的正例总数可通过统计验证集中被标记为不包括敏感词的语料样本个数的方式得到，也可以通过对所述敏感词识别模型针对验证集输出的真正例个数和假负例个数进行求和计算(即验证集的正例总数＝TP个数+FN个数)的方式得到。

同理，可以将所述真负例个数与所述验证集的负例总数的比值确定为目标负例准确率，即目标负例准确率＝真负例个数÷验证集的负例总数×100％(例如：若真负例个数为7，验证集的负例总数为10，则目标负例准确率为70％)。其中，验证集的负例总数可理解为验证集包括的多个负例样本的总数，所述验证集的负例总数可通过统计验证集中被标记为包括敏感词的语料样本个数的方式得到，也可以通过对所述敏感词识别模型针对验证集输出的真负例个数和假正例个数进行求和计算(即验证集的负例总数＝TN个数+FP个数)的方式得到。

步骤104、对所述目标正例准确率和所述目标负例准确率进行加权计算，获得用于表征所述敏感词识别模型的识别准确度的评估信息。

对所述目标正例准确率和所述目标负例准确率进行加权计算可以理解为：

第一评估参数＝目标正例准确率×目标正例准确率的正例权重值+目标负例准确率×目标负例准确率的负例权重值(例如，若设定在目标正例准确率为99％，目标正例准确率的正例权重值为0.2，目标负例准确率为70％，目标负例准确率的负例权重值为0.8，则第一评估参数为75.8％)。其中，第一评估参数携带于前述评估信息中，且所述第一评估参数用于指示所述敏感词识别模型的识别准确度(第一评估参数的取值范围为0～100％，第一评估参数的数值越大，则指示所述敏感词识别模型的识别准确度越高)。

相关技术多根据模型正确识别的语料个数和验证集的语料总数，来评估敏感词识别模型的模型准确度，即：第二评估参数＝模型正确识别的语料个数÷验证集的语料总数，其中，所述第二评估参数为相关技术中用于指示所述敏感词识别模型的识别准确度的参数(第二评估参数的取值范围也为0～100％，第二评估参数的数值越大，则认为所述敏感词识别模型的识别准确度越高)，模型正确识别的语料个数为真正例个数和真负例个数之和。

举例来说，若设定真正例个数为99，验证集的正例总数为100，真负例个数为7，验证集的负例总数为10，正例准确率的正例权重值为0.2，负例准确率的负例权重值为0.8，则可得第一评估参数为75.8％，第二评估参数为96.4％。

由上可知，基于第二评估参数对敏感词识别模型的识别准确度的评估结果较为不准确(第二评估参数与目标负例准确率相差较大，不满足敏感词识别模型在应用中关注敏感词识别率的需求)。而在本申请实施例中，通过获取敏感词识别模型在验证过程中识别的真正例个数和真负例个数，并根据前述真正例个数和真负例个数分别确定所述模型在验证过程中的目标正例准确率和目标负例准确率，而后通过对目标正例准确率和目标负例准确率进行加权计算的方式，以获得表征所述模型的识别准确度的评估信息，由于所述评估信息对所述模型在正例识别方面和负例识别方面的准确率进行了综合考量，因此能较为准确地指示所述模型的识别准确度。

在一些可选的实施方式中，对所述目标正例准确率和所述目标负例准确率进行加权计算，获得用于表征所述敏感词识别模型的识别精度的评估信息，包括：

获取所述正例样本对应的第一权重参数以及所述负例样本对应的第二权重参数；

根据所述第一权重参数和权重总数确定所述目标正例准确率的正例权重值，以及根据所述第二权重参数和所述权重总数确定所述目标负例准确率的负例权重值，其中，所述权重总数为所述第一权重参数和所述第二权重参数之和；

将所述目标正例准确率和所述正例权重值的乘积与所述目标负例准确率和所述负例权重值的乘积之和确定为所述评估信息。

其中，根据所述第一权重参数和权重总数确定所述目标正例准确率的正例权重值可理解为：正例权重值＝第一权重参数÷权重总数。同理，根据所述第二权重参数和所述权重总数确定所述目标负例准确率的负例权重值可理解为：负例权重值＝第二权重参数÷权重总数。

举例来说，若设定所述正例对应的第一权重参数为1，所述负例对应的第二权重参数为4，则所述权重总数为5(5＝1+4)，正例权重值为0.2(0.2＝1÷5)，负例权重值为0.8(0.8＝4÷5)。

对所述目标正例准确率、所述正例权重值、所述目标负例准确率以及所述负例权重值进行计算可理解为：第一评估参数＝正例准确率×正例准确率的正例权重值+负例准确率×负例准确率的负例权重值。

所述第一权重参数用于指示敏感词识别模型在应用中对正例识别准确率的重视程度，所述第一权重参数可由用户事先设置(例如，可以通过5分制来设定第一权重参数的取值，即第一权重参数的取值可以为1、2、3、4、5中任一数值，其中，数值越高，则说明关注程度越深，1或2表征一般留意，3表征普通重视，4表征较为重视，5表征极其重视)。同理，所述第二权重参数用于指示敏感词识别模型在应用中对负例识别准确率的重视程度，所述第一权重参数也可由用户事先设置，且第一权重参数和第二权重参数采用相同分制。

需要指出的是，第一权重参数的数值确定过程和第二权重参数的数值确定过程相互独立，也就是说，第一权重参数和第二权重参数之和处于一预定义的数值范围内(例如，在5分制的情况下，第一权重参数和第二权重参数之和介于2-10之间)。

如上所述，使第一权重参数的数值确定过程和第二权重参数的数值确定过程相互独立，令第一权重参数可准确指示敏感词识别模型在应用中对正例识别准确率的重视程度，以及令第二权重参数可准确指示敏感词识别模型在应用中对负例识别准确率的重视程度，这能使所确定的正例权重值和负例权重值的准确性相应提高，因此能进一步提高所获得第一评估参数的准确性。

在一些可选的实施方式中，所述获取所述正例样本对应的第一权重参数以及所述负例样本对应的第二权重参数，包括：

获取优先级指示参数；

在所述优先级指示参数指示所述敏感词识别模型的漏测优先级高于所述敏感词识别模型的误测优先级的情况下，将所述第一权重参数设置为第一值，以及将所述第二权重参数设置为第二值；

在所述优先级指示参数指示所述敏感词识别模型的误测优先级高于所述敏感词识别模型的漏测优先级的情况下，将所述第一权重参数设置为第三值，以及将所述第二权重参数设置为第四值；

其中，所述第一值小于所述第三值，所述第二值大于所述第四值。

所述敏感词识别模型的漏测优先级高于所述敏感词识别模型的误测优先级可理解为，敏感词识别模型的目标业务场景对漏测问题的关注程度更高(相较于误测问题来说)，在此情况下，通过提高第二权重参数的数值(指将所述第二权重参数设置为第二值)，以在模型评估中为负例识别准确率赋予更多的权重值，从而匹配目标业务场景对于漏测问题的高度关注需求，使得所获得第一评估参数能更为准确地指示所述模型的模型精度。

同理，所述敏感词识别模型的误测优先级高于所述敏感词识别模型的漏测优先级可理解为，敏感词识别模型的目标业务场景对误测问题的关注程度更高(相较于漏测问题来说)，在此情况下，通过提高第一权重参数的数值(指将所述第一权重参数设置为第三值)，以在模型评估中为正例识别准确率赋予更多的权重值，从而匹配目标业务场景对于误测问题的高度关注需求，使得所获得第一评估参数能更为准确地指示所述模型的模型精度。

示例性的，优先级指示参数的取值可以为0或1，在优先级指示参数的取值为0的情况下，设定所述优先级指示参数指示所述敏感词识别模型的漏测优先级高于所述敏感词识别模型的误测优先级；而在优先级指示参数的取值为1的情况下，设定所述优先级指示参数指示所述敏感词识别模型的误测优先级高于所述敏感词识别模型的漏测优先级。

需要说明的是，优先级指示参数可以理解为用户输入的参数。

在一些可选的实施方式中，所述验证样本集中的正例样本和负例样本的比值与参考比值之间的差值位于第一预设范围内；

其中，所述参考比值为在目标业务场景采集的样本中的正例样本和负例样本的比值，所述目标业务场景为所述敏感词识别模型的应用场景。

验证集中的正例样本和负例样本的比值与参考比值之间的差值位于第一预设范围内可以理解为：验证集中的正负例的比例与目标业务场景所包括的多个语料样本中正负例的比例接近。通过上述设置，可提高验证集对目标业务场景所包括的多个语料样本的仿真程度，从而进一步提升第一评估参数对所述模型的识别精度的评估准确性。

其中，第一预设范围可根据实际需求来适应性确定(例如：可设定第一预设范围为0-0.1)。验证集中的正例和负例的比值可由验证集中的正例个数和验证集中的负例个数确定(例如：若验证集中的正例个数为90，验证集中负例个数为10，则验证集中的正例和负例的比值为9)，同理，参考比值可由目标业务场景所包括的多个语料中的正例个数、以及目标业务场景所包括的多个语料中的负例个数的比值确定(例如：若设定目标业务场景所包括的多个语料中的正例个数为95，目标业务场景所包括的多个语料中的负例个数为5，则参考比值为19)。

应用中，优选设置所述验证集中的正例和负例的比值与参考比值保持一致，即所述验证集中的正例和负例的比值与参考比值之间的差值为0，此时验证集的仿真程度最高，可最大程度提升第一评估参数对所述模型的识别准确度的评估准确性。

需要说明的是，在一些实施方式中，也可以限定前述训练集中正例和负例的比值与参考比值之间的差值位于第二预设范围，以使训练集中的正负例的比例与目标业务场景所包括的多个语料中正负例的比例接近，从而提高训练集对目标业务场景所包括的多个语料的仿真程度，这能进一步提升敏感词识别模型的训练效果。

需要强调的是，在该实施例中，敏感词识别模型用于对输入语料进行二分类处理，也即将输入语料识别为敏感词，或者，将输入语料识别为非敏感词(也就是说，该实施例中的敏感词识别模型并不对所识别敏感词的类别作进一步区分)。

参见图2，图2是本申请又一实施例提供的模型评估方法的流程图。本申请实施例与上一实施例的区别主要在于：敏感词识别模型用于对输入语料进行多分类处理，也就是说，敏感词识别模型在将输入语料识别为敏感词的情况下，还会对敏感词的类别作进一步区分(例如：将输入语料识别为第一类敏感词，或者，将输入语料识别为第二类敏感词等)；此外，所述验证样本集包括N个类别的负例样本，所述N个类别的负例样本分别与N个类别的敏感词一一对应，N为大于1的整数。

如图2所示，本申请实施例提供的模型评估方法包括以下步骤：

步骤201、利用敏感词识别模型分别对预设置的验证样本集中的每个样本进行识别，得到所述验证样本集中的每个样本对应的识别结果。

步骤202、根据所述验证样本集中的每个样本对应的识别结果，确定所述验证样本集中的真正例个数和所述N个类别的负例样本中每一类别的负例样本对应的真负例个数。

步骤203、分别根据所述N个类别的负例样本中每一类别的负例样本对应的真负例个数和每一类别的负例样本的负例总数，确定所述N个类别的负例样本中每一类别的负例样本对应的负例准确率。

举例来说，若所述N个类别的负例样本中某一类别的负例样本对应的真负例个数为8，该类别的负例样本对应的负例总数为10，则该类别的负例样本对应的负例准确率为80％。

步骤204、对所述目标正例准确率和所述N个类别的负例样本中每一类别的负例样本对应的负例准确率进行加权计算，获得所述评估信息。

步骤204的加权计算过程可以理解为：

第一评估参数＝目标正例准确率×正例权重值+第一个类别的负例样本对应的负例准确率×第一个类别的负例样本对应的负例权重值+第二个类别的负例样本对应的负例准确率×第二个类别的负例样本对应的负例权重值+…+第N个类别的负例样本对应的负例准确率×第N个类别的负例样本对应的负例权重值。

举例来说，若设定目标正例准确率为100％，目标正例准确率的正例权重值为0.5，验证集中包括含有一类敏感词的负例样本和含有二类敏感词的负例样本，且含有一类敏感词的负例样本对应的负例准确率为25％，含有一类敏感词的负例样本对应的负例权重值为0.4，含有二类敏感词的负例样本对应的负例准确率为100％，含有二类敏感词的负例样本对应的负例权重值为0.1，则第一评估参数为62.5％。

如上所示，第一评估参数除了对所述模型在正例识别方面和负例识别方面的准确率进行了综合考量，还对不同类敏感词进行区分考虑，因此能较为精确地指示所述模型的识别准确度，这不仅可满足敏感词识别模型在应用中关注敏感词识别率的需求，还能满足目标业务场景中对特定类别的敏感词高度关注的需求(指在第一评估参数计算过程中，通过调高目标业务场景重点关注的特定类类别的敏感词的负例权重值，可使最终评估结果向该类别的敏感词的识别准确率有所倾斜，以此来匹配目标业务场景重点关注特定类别敏感词的需求)。

需要指出的是，所述N个类别的负例样本中每一类别的负例样本分别对应一个敏感词优先级和一个权重值，所述N个类别的负例样本中每一类别的负例样本对应的所述敏感词优先级和所述权重值呈正相关关系。

其中，所述敏感词优先级应理解为目标业务场景对某一类别的敏感词的关注程度，敏感词优先级的数值越高，说明目标业务场景对该类别的敏感词的关注程度越高，因此，会通过设置更高数值的权重值，以体现目标业务场景对特定类别的敏感词的高关注需求。

进一步的，所述方法还包括：

将所述N个类别的负例样本中每一类别的负例样本对应的敏感词优先级均设置为预定义的初始优先级，以及将所述N个类别的负例样本中每一类别的负例样本对应的权重值均设置为预定义的初始权重值；

在获取到优先级变更请求的情况下，对所述优先级变更请求指示的负例样本所对应的敏感词优先级和权重值进行更新。

应用中发现，在目标业务场景存在N个类别的敏感词的情况下，目标业务场景通常会对N个类别的敏感词中的一两类敏感词高度关注，而N个类别的敏感词中剩余的其他类敏感词受到的关注度则基本一致，因此，相较于为所述N个类别的负例样本中每一类别的负例样本对应设置敏感词优先级和权重值的方式，使所述N个类别的负例样本中每一类别的负例样本对应的敏感词优先级和权重值先保持一致，再根据目标业务场景的实际需求，通过优先级变更请求对目标业务场景高度关注的至少一类负例样本对应的敏感词优先级和权重值进行更新的方式，可在满足目标业务场景对特定类别的敏感词高度关注需求的情况下，简化不同类别的负例样本对应的敏感词优先级和权重值的设置步骤。

前述初始优先级和初始权重值可根据实际需求进行适应性调整，本申请对所述初始优先级和所述初始权重值的具体取值并不加以限定。

另外，前述更新操作可以理解为对所述优先级变更请求指示的负例样本所对应的敏感词优先级和权重值进行增大处理，也可以理解为对所述优先级变更请求指示的负例样本所对应的敏感词优先级和权重值进行减小处理。

举例来说，在权重值的取值为5分制，且目标业务场景高度关注四类敏感词中的第二类敏感词的情况下，可以设置第一类负例样本、第二类负例样本、第三类负例样本、第四类负例样本对应的权重值分别为3、5、3、3)。

需要说明的是，在该实施例中，也可以限定所述验证集中的正例以及N个类别的负例样本(分别对应N类敏感词)的比值与参照比值之间的差值位于第三预设范围内，此时，所述参照比值为在目标业务场景采集的语料中的正例以及N个类别的负例样本的比值。以此来提高验证集对目标业务场景所包括的多个语料的仿真程度，从而进一步提升第一评估参数对所述模型的识别精度的评估准确性。

同理，在该实施例中，还可以限定所述训练集中的正例以及N个类别的负例样本的比值与所述参照比值之间的差值位于第四预设范围内。以此来提高训练集对目标业务场景所包括的多个语料的仿真程度，从而进一步提升敏感词识别模型的训练效果。

示例性的，假定目标业务场景包括的多个语料样本中存在含有敏感词1的语料样本、含义敏感词2的语料样本以及仅含义非敏感词的语料样本(也即不包括敏感词的语料样本)，其中，敏感词1的敏感词优先级高于敏感词2的敏感词优先级，敏感词1、敏感词2以及非敏感词在目标业务场景包括的多个语料样本中的数量占比为3：1：1。

若测试集包括100个语料，其中，60个语料被标记为非敏感词，20个语料被标记为敏感词1，20个语料被标记为敏感词2，应用敏感词识别模型对测试集包括的100个语料进行识别，识别结果显示被识别为敏感词1且在验证集中也被标记为敏感词1的语料的数量为5，被识别为敏感词2且验证集中也被标记为敏感词2的语料的数量为20。

基于相关技术对上述识别结果进行模型评估，可得TP＝60，TN＝25，FP＝15，FN＝0，评估结果则为：

由上可知，尽管敏感词识别模型对敏感词2准确率达到了100％，但在目标业务场景对敏感词1较为关注的情况下，敏感词识别模型对敏感词1的识别准确率仅为25％；由于相关技术在评估敏感词识别模型的模型精度时，未对敏感词的类别加以区分，因此，所获得评估结果(指第二评估参数和F值)会过高估计敏感词识别模型的模型精度。

而在假定正例对应的权重参数为5，敏感词1的负例对应的权重参数为4，敏感词2的负例对应的权重参数为1，应用本申请所提供模型评估方法，可知TP＝60，TN1＝5，TN2＝20，FP1＝15，FP2＝0，FN1＝0，FN2＝0(TN1为被识别为敏感词1且在验证集中也被标记为敏感词1的语料个数，TN2为被识别为敏感词1且在验证集中也被标记为敏感词1的语料个数，FP1为被识别为非敏感词但在验证集中被标记为敏感词1的语料个数，FP2为被识别为非敏感词但在验证集中被标记为敏感词2的语料个数，FN1为被识别为敏感词1但在验证集中被标记为非敏感词的语料个数，FN2为被识别为敏感词2但在验证集中被标记为非敏感词的语料个数)，所获得评估结果为：

第一评估参数＝(正例准确率*正例准确率权重)+(敏感词1准确率*敏感词1准确率权重)+(敏感词2准确率*敏感词2准确率权重)＝50％+10％

+10％＝70％

在该示例中，本实施例所提供模型评估方法，不仅区分了敏感词1和敏感词2，还限定了敏感词1对应的权重参数高于敏感词2对应的权重参数，以满足根据目标业务场景对敏感词1较为关注的需求，最后通过分别对正例准确率、敏感词1准确率以及敏感词2准确率进行加权计算的方式，可较为准确地指示敏感词识别模型的识别准确度。

参见图3，图3是本申请实施例提供的模型评估装置的结构图。如图3所示，模型评估装置300包括：

模型验证模块301，用于利用敏感词识别模型分别对预设置的验证样本集中的每个样本进行识别，得到所述验证样本集中的每个样本对应的识别结果；其中，所述验证样本集包括多个正例样本和多个负例样本，所述正例样本为未包含敏感词的样本，所述负例样本为包括敏感词的样本；

统计模块302，用于根据所述验证样本集中的每个样本对应的识别结果确定所述验证样本集中的真正例个数和真负例个数；其中，所述真正例个数为所述验证样本集中被识别为正例的正例样本的个数，所述真负例个数为所述验证样本集中被识别为负例的负例样本的个数；

处理模块303，用于根据所述真正例个数与正例总数确定目标正例准确率，以及根据所述真负例个数与负例总数确定目标负例准确率，其中，所述正例总数为所述验证集内的正例样本的总数，所述目标正例准确率用于指示所述敏感词识别模型对所述验证样本集的正例样本的识别准确率，所述负例总数为所述验证集内的负例样本的总数，所述目标负例准确率用于指示所述敏感词识别模型对所述验证样本集的负例样本的识别准确率；

模型评估模块304，用于对所述目标正例准确率和所述目标负例准确率进行加权计算，获得用于表征所述敏感词识别模型的识别准确度的评估信息。

可选的，所述验证样本集包括N个类别的负例样本，所述N个类别的负例样本分别与N个类别的敏感词一一对应，N为大于1的整数；

所述处理模块303，包括：

第一处理子模块，用于分别根据所述N个类别的负例样本中每一类别的负例样本对应的真负例个数和每一类别的负例样本的负例总数，确定所述N个类别的负例样本中每一类别的负例样本对应的负例准确率；其中，所述目标负例准确率包括所述N个类别的负例样本中每一类别的负例样本对应的负例准确率；

所述模型评估模块304，包括：

第一评估子模块，用于对所述目标正例准确率和所述N个类别的负例样本中每一类别的负例样本对应的负例准确率进行加权计算，获得所述评估信息。

可选的，所述N个类别的负例样本中每一类别的负例样本分别对应一个敏感词优先级和一个权重值，所述N个类别的负例样本中每一类别的负例样本对应的所述敏感词优先级和所述权重值呈正相关关系。

可选的，所述模型评估装置300，还包括：

权值初始化模块，用于将所述N个类别的负例样本中每一类别的负例样本对应的敏感词优先级均设置为预定义的初始优先级，以及将所述N个类别的负例样本中每一类别的负例样本对应的权重值均设置为预定义的初始权重值；

权值更新模块，用于在获取到优先级变更请求的情况下，对所述优先级变更请求指示的负例样本所对应的敏感词优先级和权重值进行更新。

可选的，所述验证样本集中的正例样本和负例样本的比值与参考比值之间的差值位于第一预设范围内；

可选的，所述模型评估模块304，包括：

参数获取子模块，用于获取所述正例样本对应的第一权重参数以及所述负例样本对应的第二权重参数；

权值计算子模块，用于根据所述第一权重参数和权重总数确定所述目标正例准确率的正例权重值，以及根据所述第二权重参数和所述权重总数确定所述目标负例准确率的负例权重值，其中，所述权重总数为所述第一权重参数和所述第二权重参数之和；

加权计算子模块，用于将所述目标正例准确率和所述正例权重值的乘积与所述目标负例准确率和所述负例权重值的乘积之和确定为所述评估信息。

可选的，所述参数获取子模块，包括：

第一获取单元，用于在所述优先级指示参数指示所述敏感词识别模型的漏测优先级高于所述敏感词识别模型的误测优先级的情况下，将所述第一权重参数设置为第一值，以及将所述第二权重参数设置为第二值；

第二获取单元，用于在所述优先级指示参数指示所述敏感词识别模型的误测优先级高于所述敏感词识别模型的漏测优先级的情况下，将所述第一权重参数设置为第三值，以及将所述第二权重参数设置为第四值；

本申请实施例提供的模型评估装置300能够实现上述方法实施例中的各个过程，为避免重复，这里不再赘述。

本申请实施例的模型评估装置300，通过获取敏感词识别模型在验证过程中识别的真正例个数和真负例个数，并根据前述真正例个数和真负例个数分别确定所述模型在验证过程中的目标正例准确率和目标负例准确率，而后通过对目标正例准确率和目标负例准确率进行加权计算的方式，以获得表征所述模型的识别准确度的评估信息，由于所述评估信息对所述模型在正例识别方面和负例识别方面的准确率进行了综合考量，因此能较为准确地指示所述模型的识别准确度。

参见图4，图4是本申请又一实施提供的电子设备的结构图，如图4所示，电子设备400包括：处理器401、存储器402及存储在所述存储器402上并可在所述处理器上运行的计算机程序，模型评估装置400中的各个组件通过总线接口403耦合在一起，所述计算机程序被所述处理器401执行时实现如下步骤：

所述根据所述真负例个数与负例总数确定目标负例准确率，包括：

分别根据所述N个类别的负例样本中每一类别的负例样本对应的真负例个数和每一类别的负例样本的负例总数，确定所述N个类别的负例样本中每一类别的负例样本对应的负例准确率；其中，所述目标负例准确率包括所述N个类别的负例样本中每一类别的负例样本对应的负例准确率；

所述对所述目标正例准确率和所述目标负例准确率进行加权计算，获得用于表征所述敏感词识别模型的识别准确度的评估信息，包括：

对所述目标正例准确率和所述N个类别的负例样本中每一类别的负例样本对应的负例准确率进行加权计算，获得所述评估信息。

所述N个类别的负例样本中每一类别的负例样本分别对应一个敏感词优先级和一个权重值，所述N个类别的负例样本中每一类别的负例样本对应的所述敏感词优先级和所述权重值呈正相关关系。

可选的，所述计算机程序被所述处理器401执行时还用于：

可选的，对所述目标正例准确率和所述目标负例准确率进行加权计算，获得用于表征所述敏感词识别模型的识别精度的评估信息，包括：

可选的，所述获取所述正例样本对应的第一权重参数以及所述负例样本对应的第二权重参数，包括：

获取优先级指示参数；

应理解的是，本申请实施例中，所述计算机程序被处理器401执行时能够实现上述模型评估方法实施例中的各个过程，为避免重复，这里不再赘述。

本申请实施例还提供一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，该计算机程序被处理器执行时实现上述模型评估方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。其中，所述的计算机可读存储介质，如只读存储器(Read-Only Memory，简称ROM)、随机存取存储器(Random Access Memory，简称RAM)、磁碟或者光盘等。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本申请各个实施例所述的方法。

上面结合附图对本申请的实施例进行了描述，但是本申请并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本申请的启示下，在不脱离本申请宗旨和权利要求所保护的范围情况下，还可做出很多形式，均属于本申请的保护之内。

Claims

1.一种模型评估方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述验证样本集包括N个类别的负例样本，所述N个类别的负例样本分别与N个类别的敏感词一一对应，N为大于1的整数；

3.根据权利要求2所述的方法，其特征在于，所述N个类别的负例样本中每一类别的负例样本分别对应一个敏感词优先级和一个权重值，所述N个类别的负例样本中每一类别的负例样本对应的所述敏感词优先级和所述权重值呈正相关关系。

4.根据权利要求3所述的方法，其特征在于，所述方法还包括：

5.根据权利要求1所述的方法，其特征在于，所述验证样本集中的正例样本和负例样本的比值与参考比值之间的差值位于第一预设范围内；

6.根据权利要求1所述的方法，其特征在于，对所述目标正例准确率和所述目标负例准确率进行加权计算，获得用于表征所述敏感词识别模型的识别精度的评估信息，包括：

7.根据权利要求6所述的方法，其特征在于，所述获取所述正例样本对应的第一权重参数以及所述负例样本对应的第二权重参数，包括：

获取优先级指示参数；

8.一种模型评估装置，其特征在于，包括：

9.一种电子设备，其特征在于，包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如权利要求1至7中任一项所述的模型评估方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述的模型评估方法的步骤。