CN110543920A

CN110543920A - 图像识别模型的性能检测方法、装置、服务器及存储介质

Info

Publication number: CN110543920A
Application number: CN201910863873.8A
Authority: CN
Inventors: 张志伟; 李焱; 夏雨; 赵伟阳
Original assignee: Beijing Dajia Internet Information Technology Co Ltd
Current assignee: Beijing Dajia Internet Information Technology Co Ltd
Priority date: 2019-09-12
Filing date: 2019-09-12
Publication date: 2019-12-06
Anticipated expiration: 2039-09-12
Also published as: CN110543920B

Abstract

本公开提供了一种图像识别模型的性能检测方法、装置、服务器及存储介质，属于互联网技术领域。所述方法包括：获取测试样本集，所述测试样本集包括多个测试样本以及对应的多个真实标签，将所述多个测试样本分别输入待检测的图像识别模型，获取所述图像识别模型输出的多个预测标签，获取多个文本相似度，一个文本相似度用于表示一个测试样本的真实标签和预测标签之间的相似度，根据所述多个文本相似度，确定所述图像识别模型的识别准确率。通过根据多个文本相似度，确定模型的识别准确率，可以兼容各种图像识别模型的标签体系，无需针对样本进行重新标注，即能够实现模型的性能检测，大大降低了时间和成本的消耗，提高了模型性能检测的效率。

Description

图像识别模型的性能检测方法、装置、服务器及存储介质

技术领域

本公开涉及互联网技术领域，特别涉及一种图像识别模型的性能检测方法、装置、服务器及存储介质。

背景技术

随着互联网技术的发展，人们越来越依赖通过互联网获得各种信息。比如，将自己不认识的物品拍照后，通过网络进行图像识别，从而得到该物品的名称。其中，图像识别可以利用各种图像识别模型来实现，而为了保证线上体验，图像识别模型在应用到线上真实环境之前都需要对模型进行性能检测。

相关技术的做法是从线上真实环境筛选出多张图片作为测试样本，根据图像识别模型的标签体系为每个测试样本标注真实标签，将每个测试样本输入图像识别模型，获取图像识别模型输出的每个测试样本的预测标签，将预测标签和真实标签作对比，一致则该测试样本的准确率记为1，否则记为0，将所有测试样本的准确率的平均值作为图像识别模型的准确率。

这种做法存在的问题是由于每个图像识别模型都有自己的标签体系，为这些模型的检测所收集的测试样本会按照其对应的标签体系进行标注，而这些已经标注好真实标签的测试样本不适用于其他标签体系的图像识别模型，也即是，如果要对某个标签体系的图像识别模型进行检测，则需要重新按照该标签体系对测试样本进行重新标注，时间和费用成本过高，模型的性能检测的效率较低。

发明内容

本公开实施例提供了一种图像识别模型的性能检测方法、装置、服务器及存储介质，能够解决相关技术中在对标签体系不同的图像识别模型进行性能检测时，需要针对该图像识别模型对测试样本重新标注，耗费大量时间和费用成本，模型的性能检测效率低的问题。所述技术方案如下：

根据本公开实施例的一方面，提供了一种图像识别模型的性能检测方法，所述方法包括：

获取测试样本集，所述测试样本集包括多个测试样本以及对应的多个真实标签；

将所述多个测试样本分别输入待检测的图像识别模型，获取所述图像识别模型输出的多个预测标签；

获取多个文本相似度，一个文本相似度用于表示一个测试样本的真实标签和预测标签之间的相似度；

根据所述多个文本相似度，确定所述图像识别模型的识别准确率。

在一种可能的实现方式中，所述获取多个文本相似度包括：

获取所述多个测试样本的真实标签的向量和预测标签的向量；

对于任一个测试样本，获取所述测试样本的真实标签的向量和预测标签的向量之间的相似度，基于所述相似度，获取所述测试样本的文本相似度。

在另一种可能的实现方式中，所述获取所述测试样本的真实标签的向量和预测标签的向量之间的相似度包括：

获取所述测试样本的真实标签的向量和预测标签的向量之间的余弦距离，将所述余弦距离作为所述相似度。

在另一种可能的实现方式中，所述基于所述相似度，获取所述测试样本的文本相似度包括下述任一步骤：

当所述相似度大于或等于相似度阈值时，则将所述测试样本的文本相似度确定为第一数值，当所述相似度小于所述相似度阈值时，则将所述测试样本的文本相似度确定为第二数值，所述第一数值与所述第二数值不同；

将所述相似度作为所述测试样本的文本相似度。

在另一种可能的实现方式中，所述获取所述多个测试样本的真实标签的向量和预测标签的向量包括：

对于任一个测试样本，获取所述测试样本的真实标签中的至少一个词的词向量，将所述至少一个词的词向量的平均词向量作为所述测试样本的真实标签的向量；

获取所述测试样本的预测标签中的至少一个词的词向量，将所述至少一个词的词向量的平均词向量作为所述测试样本的预测标签的向量。

在另一种可能的实现方式中，所述获取所述多个测试样本的真实标签的向量和预测标签的向量之前，所述方法包括：

将所述多个测试样本的真实标签输入分词模型，得到所述多个测试样本的真实标签中的至少一个词；

将所述多个测试样本的预测标签输入所述分词模型，得到所述多个测试样本的预测标签中的至少一个词。

对于任一个测试样本，获取所述测试样本的真实标签中的不同词性的词的词向量，将所述不同词性的词的词向量的加权平均值作为所述真实标签的向量；

获取所述测试样本的预测标签中的不同词性的词的词向量，将所述不同词性的词的词向量的加权平均值作为所述预测标签的向量。

在另一种可能的实现方式中，所述根据所述多个文本相似度，确定所述图像识别模型的识别准确率包括：

将所述多个文本相似度的平均值作为所述图像识别模型的识别准确率。

根据本公开实施例的另一方面，提供了一种图像识别模型的性能检测装置，所述装置包括：

测试样本集获取单元，被配置为执行获取测试样本集，所述测试样本集包括多个测试样本以及对应的多个真实标签；

预测标签获取单元，被配置为执行将所述多个测试样本分别输入待检测的图像识别模型，获取所述图像识别模型输出的多个预测标签；

相似度获取单元，被配置为执行获取多个文本相似度，一个文本相似度用于表示一个测试样本的真实标签和预测标签之间的相似度；

识别准确率确定单元，被配置为执行根据所述多个文本相似度，确定所述图像识别模型的识别准确率。

在一种可能的实现方式中，所述相似度获取单元，还被配置为执行获取所述多个测试样本的真实标签的向量和预测标签的向量；对于任一个测试样本，获取所述测试样本的真实标签的向量和预测标签的向量之间的相似度，基于所述相似度，获取所述测试样本的文本相似度。

在另一种可能的实现方式中，所述相似度获取单元，还被配置为执行获取所述测试样本的真实标签的向量和预测标签的向量之间的余弦距离，将所述余弦距离作为所述相似度。

在一种可能的实现方式中，所述相似度获取单元，还被配置为执行当所述相似度大于或等于相似度阈值时，则将所述测试样本的文本相似度确定为第一数值，当所述相似度小于所述相似度阈值时，则将所述测试样本的文本相似度确定为第二数值，所述第一数值与所述第二数值不同；将所述相似度作为所述测试样本的文本相似度。

在一种可能的实现方式中，所述相似度获取单元，还被配置为执行对于任一个测试样本，获取所述测试样本的真实标签中的至少一个词的词向量，将所述至少一个词的词向量的平均词向量作为所述测试样本的真实标签的向量；获取所述测试样本的预测标签中的至少一个词的词向量，将所述至少一个词的词向量的平均词向量作为所述测试样本的预测标签的向量。

在一种可能的实现方式中，所述装置还包括：

分词单元，被配置为将所述多个测试样本的真实标签输入分词模型，得到所述多个测试样本的真实标签中的至少一个词；将所述多个测试样本的预测标签输入所述分词模型，得到所述多个测试样本的预测标签中的至少一个词。

在一种可能的实现方式中，所述相似度获取单元，还被配置为执行对于任一个测试样本，获取所述测试样本的真实标签中的不同词性的词的词向量，将所述不同词性的词的词向量的加权平均值作为所述真实标签的向量；获取所述测试样本的预测标签中的不同词性的词的词向量，将所述不同词性的词的词向量的加权平均值作为所述预测标签的向量。

在一种可能的实现方式中，所述识别准确率确定单元，还被配置为执行将所述多个文本相似度的平均值作为所述图像识别模型的识别准确率。

根据本公开实施例的另一方面，提供一种服务器，所述服务器包括处理器和存储器，所述存储器中存储有至少一条指令，所述指令由所述处理器加载并执行以实现上述内容所述的图像识别模型的性能检测方法所执行的操作。

根据本公开实施例的另一方面，提供一种计算机可读存储介质，所述存储介质中存储有至少一条指令，所述指令由处理器加载并执行以实现上述内容所述的图像识别模型的性能检测方法所执行的操作。

本公开实施例提供的技术方案带来的有益效果是：

在本公开实施例中，获取测试样本集，所述测试样本集包括多个测试样本以及对应的多个真实标签，将所述多个测试样本分别输入待检测的图像识别模型，获取所述图像识别模型输出的多个预测标签，获取多个文本相似度，一个文本相似度用于表示一个测试样本的真实标签和预测标签之间的相似度，根据所述多个文本相似度，确定所述图像识别模型的识别准确率。通过采用文本相似度来表示待检测模型对测试样本进行识别后得到的预测标签和其真实标签之间的相似程度，从而可以基于上述多个文本相似度，来确定图像识别模型的识别准确率，可以兼容各种图像识别模型的标签体系，无需针对样本进行重新标注，即能够实现模型的性能检测，大大降低了时间和成本的消耗，提高了模型性能检测的效率。

附图说明

为了更清楚地说明本公开实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是根据一示例性实施例示出的实施环境的示意图；

图2是根据一示例性实施例示出的一种图像识别模型的性能检测方法流程图；

图3是根据一示例性实施例示出的一种图像识别模型的性能检测方法流程图；

图4是根据一示例性实施例示出的一种图像识别模型的性能检测装置的框图；

图5是根据一示例性实施例示出的一种服务器的结构示意图。

具体实施方式

为使本公开的目的、技术方案和优点更加清楚，下面将结合附图对本公开实施方式作进一步地详细描述。

图1是本公开实施例提供的一种实施环境的示意图。参见图1，该实施环境包括：第一服务器101和至少一个第二服务器102，其中，该第一服务器101可以用于执行本公开实施例提供的图像识别模型的性能检测方法来对待发布的任一种模型进行性能检测，该至少一个第二服务器102可以为应用上述模型的平台对应的服务器，该第一服务器101可以在模型的识别准确率达到目标准确率时，将该模型发布至该至少一个第二服务器102，该至少一个第二服务器102可以应用该模型进行例如图像识别等处理。

图2是本公开实施例提供的一种图像识别模型的性能检测方法的流程图。参见图2，该图像识别模型的性能检测方法可以应用在服务器上，该实施例包括：

在步骤201中，获取测试样本集，测试样本集包括多个测试样本以及对应的多个真实标签。

在步骤202中，将多个测试样本分别输入待检测的图像识别模型，获取图像识别模型输出的多个预测标签。

在步骤203中，获取多个文本相似度，一个文本相似度用于表示一个测试样本的真实标签和预测标签之间的相似度。

在步骤204中，根据多个文本相似度，确定图像识别模型的识别准确率。

在一种可能的实现方式中，获取多个文本相似度包括：

获取多个测试样本的真实标签的向量和预测标签的向量；

对于任一个测试样本，获取测试样本的真实标签的向量和预测标签的向量之间的相似度，基于相似度，获取测试样本的文本相似度。

在另一种可能的实现方式中，获取测试样本的真实标签的向量和预测标签的向量之间的相似度包括：

获取测试样本的真实标签的向量和预测标签的向量之间的余弦距离，将余弦距离作为相似度。

在另一种可能的实现方式中，基于相似度，获取测试样本的文本相似度包括下述任一步骤：

当相似度大于或等于相似度阈值时，则将测试样本的文本相似度确定为第一数值，当相似度小于相似度阈值时，则将测试样本的文本相似度确定为第二数值，第一数值与第二数值不同；

将相似度作为测试样本的文本相似度。

在另一种可能的实现方式中，获取多个测试样本的真实标签的向量和预测标签的向量包括：

对于任一个测试样本，获取测试样本的真实标签中的至少一个词的词向量，将至少一个词的词向量的平均词向量作为测试样本的真实标签的向量；

获取测试样本的预测标签中的至少一个词的词向量，将至少一个词的词向量的平均词向量作为测试样本的预测标签的向量。

在另一种可能的实现方式中，获取多个测试样本的真实标签的向量和预测标签的向量之前，方法包括：

将多个测试样本的真实标签输入分词模型，得到多个测试样本的真实标签中的至少一个词；

将多个测试样本的预测标签输入分词模型，得到多个测试样本的预测标签中的至少一个词。

对于任一个测试样本，获取测试样本的真实标签中的不同词性的词的词向量，将不同词性的词的词向量的加权平均值作为真实标签的向量；

获取测试样本的预测标签中的不同词性的词的词向量，将不同词性的词的词向量的加权平均值作为预测标签的向量。

在另一种可能的实现方式中，根据多个文本相似度，确定图像识别模型的识别准确率包括：

将多个文本相似度的平均值作为图像识别模型的识别准确率。

在本公开实施例中，获取测试样本集，测试样本集包括多个测试样本以及对应的多个真实标签，将多个测试样本分别输入待检测的图像识别模型，获取图像识别模型输出的多个预测标签，获取多个文本相似度，一个文本相似度用于表示一个测试样本的真实标签和预测标签之间的相似度，根据多个文本相似度，确定图像识别模型的识别准确率。通过采用文本相似度来表示待检测模型对测试样本进行识别后得到的预测标签和其真实标签和之间的相似程度，从而可以基于上述多个文本相似度，来确定图像识别模型的识别准确率，可以兼容各种图像识别模型的标签体系，无需针对样本进行重新标注，即能够实现模型的性能检测，大大降低了时间和成本的消耗，提高了模型的性能检测的效率。

图3是本公开实施例提供的一种图像识别模型的性能检测方法的流程图。参见图3，该实施例包括：

在步骤301中，服务器获取测试样本集，该测试样本集包括多个测试样本以及对应的多个真实标签。

测试样本集用于对对应类型的识别模型进行检测。例如，对于图像识别模型来说，该测试样本集可以包括图片及其对应的真实标签。

以图像识别模型的测试样本集获取过程为例，上述测试样本集的获取方式可以采用以下三种中的任一种：

第一，服务器为本次模型的性能检测从线上真实环境重新随机筛选多个测试样本，人工为每个测试样本标注真实标签，将该多个测试样本以及与该多个测试样本对应的多个真实标签组成测试样本集。

例如，在获取测试样本时，服务器可以通过网页爬取，从爬取到的网页数据中按照后缀，筛选出后缀包括图片类型后缀的文件，得到多个图片。通过从线上真实环境重新随机筛选多个测试样本，而不使用之前任一次模型的性能检测或训练所采用的样本，由这些测试样本所组成的测试样本集可以最大限度的符合当前线上真实环境的数据分布，提高图像识别模型的性能检测的准确率。

第二，服务器从训练集中随机筛选多个训练样本作为测试样本，该训练集中的训练样本已经标注好真实标签，将该多个测试样本以及与该多个测试样本对应的多个真实标签组成测试样本集。

其中，训练集用于在线下对图像识别模型进行训练。通过从训练集中随机筛选多个训练样本作为测试样本，由于该测试样本已经标注有真实标签，节省了人工标注真实标签的时间和成本，提高了图像识别模型的性能检测的效率。

第三，服务器复用本次模型的性能检测之前任一次模型的性能检测或训练时所获取到的测试样本集。

其中，该测试样本集为服务器之前所获取到的且存储在服务器中作为标准测试集使用的测试样本集。该测试样本集可以为通过第一种方式获得的测试样本集。服务器通过复用以前获取到的测试样本集，由于该测试样本集是早就获取的，且已经标注完成，所以这次性能检测过程中，无需再次标注，节省了人工标注真实标签的时间和成本，提高了图像识别模型的性能检测的效率。

其中，真实标签可以为与测试样本内容相关的一个词或者多个词，也可以为一句话。例如，一个测试样本为一张包含猫和狗的图片，则该测试样本的真实标签可以为“猫和狗”。再如，一个测试样本为一张土豆的图片，则该测试样本的真实标签可以为“土豆”或者“马铃薯”。又如，一个测试样本为一张小猫在钓鱼的图片，则该测试样本的真实标签可以为“小猫在钓鱼”。

在步骤302中，服务器将多个测试样本分别输入待检测的图像识别模型，获取图像识别模型输出的多个预测标签。

其中，一个测试样本对应至少一个预测标签。例如，对于测试样本来说，该图像识别模型对于任一个输入的测试样本可以进行特征提取，以得到测试样本的特征图，基于特征图进一步进行特征提取，基于各个卷积层的特征提取结果进行池化，再对池化结果进行全连接，以得到该测试样本的输出向量，该输出向量中的各个元素可以用于表示该测试样本是某个预测标签的概率，基于上述输出向量，就可以得到该测试样本的至少一个预测标签。

在步骤303中，服务器获取多个测试样本的真实标签的向量和预测标签的向量。

对于任一个测试样本，服务器获取测试样本的真实标签中的至少一个词的词向量，将该至少一个词的词向量的平均词向量作为测试样本的真实标签的向量。服务器获取测试样本的预测标签中的至少一个词的词向量，将该至少一个词的词向量的平均词向量作为测试样本的预测标签的向量。

例如，一个测试样本的真实标签为“猫和狗”，将该测试样本输入待检测的图像识别模型所得到的预测标签为“白猫与黄狗”，则服务器获取多个测试样本的真实标签的向量和预测标签的向量的步骤可以为：对于该测试样本，服务器获取“猫”的词向量或者“狗”的词向量作为该测试样本的真实标签的向量，或者，服务器获取“猫”的词向量和“狗”的词向量，将这两个词向量的平均词向量作为该测试样本的真实标签的向量，或者，服务器获取“猫”的词向量、“和”的词向量和“狗”的词向量，将这三个词向量的平均词向量作为该测试样本的真实标签的向量。服务器获取“白猫”的词向量或者“黄狗”的词向量作为该测试样本的预测标签的向量，或者，服务器获取“白猫”的词向量和“黄狗”的词向量，将这两个词向量的平均词向量作为该测试样本的预测标签的向量，或者，服务器获取“白猫”的词向量、“与”的词向量和“黄狗”的词向量，将这三个词向量的平均词向量作为该测试样本的预测标签的向量。

在本公开实施例中，对于任一个测试样本，服务器可以利用真实标签中的每个词或者部分词来生成真实标签的向量，也即是，服务器通过获取测试样本的真实标签中的至少一个词的词向量，将该至少一个词的词向量的平均词向量作为测试样本的真实标签的向量。获取测试样本的预测标签中的至少一个词的词向量，将该至少一个词的词向量的平均词向量作为测试样本的预测标签的向量，保证了真实标签的向量以及预测标签的向量的准确性。

在另一种可选的实现方式中，步骤303的实施方式还可以包括：对于任一个测试样本，服务器获取测试样本的真实标签中的不同词性的词的词向量，将不同词性的词的词向量的加权平均值作为真实标签的向量。服务器获取测试样本的预测标签中的不同词性的词的词向量，将不同词性的词的词向量的加权平均值作为预测标签的向量。

其中，不同词性的词可以包括名词、形容词、动词、介词、连词等。服务器可以为不同词性的词的词向量配置不同的权重，例如，可以将名词、形容词和动词的权重设置的较大，将介词和连词的权重设置的较小。相应的，服务器获取测试样本的真实标签中的不同词性的词的词向量，将不同词性的词的词向量的加权平均值作为真实标签的向量的步骤可以为：服务器获取测试样本的真实标签中的名词的词向量、形容词的词向量、动词的词向量、介词的词向量和连词的词向量，将它们的加权平均值作为该测试样本的真实标签的向量。预测标签的向量的获取方式与此同理，在此不做赘述。

例如，一个测试样本的真实标签为“小鸟在飞”，该真实标签中包括名词“小鸟”、介词“在”、动词“飞”，则服务器获取“小鸟”的词向量、“在”的词向量、“飞”的词向量，根据它们各自的权重计算它们的加权平均值，将该加权平均值作为该测试样本的真实标签的向量。

在本公开实施例中，对于任一个测试样本，服务器通过获取测试样本的真实标签中的不同词性的词的词向量，将该不同词性的词的词向量的加权平均值作为真实标签的向量。服务器获取测试样本的预测标签中的不同词性的词的词向量，将该不同词性的词的词向量的加权平均值作为预测标签的向量，考虑到了不同词性的词对标签的文本意义的影响，因此，可以结合中文的语言特点，进一步保证了真实标签的向量以及预测标签的向量的准确性。

在一种可选的方式中，在服务器获取测试样本的真实标签的向量和预测标签的向量之前，该方法还包括：服务器将多个测试样本的真实标签输入分词模型，得到多个测试样本的真实标签中的至少一个词，将多个测试样本的预测标签输入分词模型，得到多个测试样本的预测标签中的至少一个词。然后基于真实标签中的至少一个词和预测标签中的至少一个词分别获取真实标签的向量和预测标签的向量。

其中，分词模型用于确定出测试样本的真实标签以及预测标签中所包括的词，分词模型还用于确定出测试样本的真实标签以及预测标签中所包括的词的词性。分词模型可以为BosonNLP(BosonNaturalLanguageProcessing，玻森中文)、语言云、NLPIR(NaturalLanguageProcessing&InformationRetrieval，自然语言处理与信息检索)、新浪云、搜狗分词、结巴分词、SCWS(SimpleChineseWordsSegmentation，简易中文分词系统)、腾讯文智、盘古分词或者其他分词模型。

需要说明的一点是，上述获取真实标签中的至少一个词的词向量的步骤包括：服务器将真实标签中的至少一个词输入词向量模型，得到该真实标签中的至少一个词的词向量。预测标签中的至少一个词的词向量的获取方法与此同理，在此不做赘述。其中，词向量模型可以采用ChineseWord2Vector(中文词向量模型)，当然，还可以采用其他词向量模型，例如，矩阵分解模型、PLSA(Probabilistic Latent Semantic Analysis，潜在语义分析概率模型)、LDA(Latent Dirichlet Allocation，文档生成模型)等，本公开对采用哪种词向量模型不做限制。

一个样本对应一个标签，一个标签可能包括多个单词。标签向量的获取过程可以采用下述公式(1)来表示：

其中，d为词向量对应的维度，Embedding()为中文词向量模型，

#Word_i为第i个测试样本单词的个数。为第i个测试样本的标签的向量，i为测试样本的序号，j为第i个标签向量中的单词的序号。

在步骤304中，对于任一个测试样本，服务器获取测试样本的真实标签的向量和预测标签的向量之间的余弦距离，将该余弦距离作为相似度。

其中，余弦距离，也称为余弦相似度，是用向量空间中两个向量夹角的余弦值作为衡量两个个体间差异的大小的度量。当真实标签的向量与预测标签的向量的夹角余弦值越接近于1时，真实标签和预测标签的相似度越高，当真实标签的向量与预测标签的向量的夹角余弦值越接近于-1时，真实标签和预测标签的相似度越低。

例如，上述实现过程可以采用下述公式(2)来表示：

其中，Vector_eval为真实标签的向量，Vector_pred为预测标签的向量，distance_i为第i个测试样本的真实标签的向量和预测标签的向量之间的余弦距离，i为测试样本的序号。

在本公开实施例中，服务器通过获取测试样本的真实标签的向量和预测标签的向量之间的余弦距离，将余弦距离作为相似度，由于余弦距离更多的是从方向上区分差异，而对绝对的数值不敏感，用于确定真实标签与预测标签的相似度，可以修正真实标签的标签体系和预测标签的标签体系不统一的问题，进而使得该图像识别模型的性能检测方法兼容各种不同的标签体系，无需针对样本进行重新标注，即能够实现模型的性能检测，大大降低了时间和成本的消耗，提高了模型的性能检测的效率。

上述步骤303和步骤304是获取测试样本的真实标签的向量和预测标签的向量之间的相似度的一种实现过程。当然，还可以基于向量的其他计算方式来确定相似度，例如，对于任一个测试样本，服务器获取测试样本的真实标签的向量和预测标签的向量之间的欧式距离、皮尔逊相关系数、欧几里德距离、Tanimoto Coefficient(谷本系数)、曼哈顿距离等，将欧式距离、皮尔逊相关系数、欧几里德距离、Tanimoto Coefficient(谷本系数)或者曼哈顿距离作为相似度。本公开实施例对具体采用哪种方式不做限定。

在步骤305中，服务器基于该相似度，获取测试样本的文本相似度。

其中，文本相似度用于表示一个测试样本的真实标签和预测标签之间在文本上的相似程度。服务器通过基于测试样本的真实标签的向量和预测标签的向量之间的相似度，获取测试样本的文本相似度，保证了测试样本的文本相似度的准确性。

在一种可选的实现方式中，该步骤305可以包括：当相似度大于或等于相似度阈值时，则将测试样本的文本相似度确定为第一数值，当相似度小于相似度阈值时，则将测试样本的文本相似度确定为第二数值，第一数值与第二数值不同。

其中，相似度阈值、第一数值、第二数值均可以根据需要设置，例如，可以将相似度阈值设为0.5，第一数值设为1，第二数值设为0，则该步骤的实施方式为：当相似度大于或等于0.5时，服务器将测试样本的文本相似度确定为1，当相似度小于0.5时，服务器将测试样本的文本相似度确定为0。

例如，上述实现过程可以采用下述公式(3)来表示：

其中，distance_i为真实标签的向量和预测标签的向量之间的余弦距离，

α为相似度阈值，score_i为测试样本的文本相似度。

在一种可选的实现方式中，服务器将相似度作为测试样本的文本相似度。例如，当相似度为0.5时，该步骤的实施方式为，服务器将0.5作为测试样本的文本相似度。

例如，上述实现过程可以采用下述公式(4)来表示：

score_i＝distance_i (4)

其中，distance_i为真实标签的向量和预测标签的向量之间的余弦距离，score_i为测试样本的文本相似度。

在步骤306中，服务器根据多个文本相似度，确定图像识别模型的识别准确率。

该步骤的实施方式为，服务器将多个文本相似度的平均值作为图像识别模型的识别准确率。通过采用所有文本相似度，并通过取平均数的方法，可以获得准确的识别准确率，且计算步骤简单。

例如，上述实现过程可以采用下述公式(5)来表示：

其中，Accuracy为识别准确率，score_i为测试样本的文本相似度，N为测试样本的个数。

图4是本公开实施例提供的一种图像识别模型的性能检测装置的框图。参见图4，该实施例包括：

测试样本集获取单元401，被配置为执行获取测试样本集，测试样本集包括多个测试样本以及对应的多个真实标签。

预测标签获取单元402，被配置为执行将多个测试样本分别输入待检测的图像识别模型，获取图像识别模型输出的多个预测标签。

相似度获取单元403，被配置为执行获取多个文本相似度，一个文本相似度用于表示一个测试样本的真实标签和预测标签之间的相似度。

识别准确率确定单元404，被配置为执行根据多个文本相似度，确定图像识别模型的识别准确率。

在一种可能的实现方式中，相似度获取单元403，还被配置为执行获取多个测试样本的真实标签的向量和预测标签的向量；对于任一个测试样本，获取测试样本的真实标签的向量和预测标签的向量之间的相似度，基于相似度，获取测试样本的文本相似度。

在另一种可能的实现方式中，相似度获取单元403，还被配置为执行获取测试样本的真实标签的向量和预测标签的向量之间的余弦距离，将余弦距离作为相似度。

在一种可能的实现方式中，相似度获取单元403，还被配置为执行当相似度大于或等于相似度阈值时，则将测试样本的文本相似度确定为第一数值，当相似度小于相似度阈值时，则将测试样本的文本相似度确定为第二数值，第一数值与第二数值不同；将相似度作为测试样本的文本相似度。

在一种可能的实现方式中，相似度获取单元403，还被配置为执行对于任一个测试样本，获取测试样本的真实标签中的至少一个词的词向量，将至少一个词的词向量的平均词向量作为测试样本的真实标签的向量；获取测试样本的预测标签中的至少一个词的词向量，将至少一个词的词向量的平均词向量作为测试样本的预测标签的向量。

在一种可能的实现方式中，装置还包括：

分词单元，被配置为将多个测试样本的真实标签输入分词模型，得到多个测试样本的真实标签中的至少一个词；将多个测试样本的预测标签输入分词模型，得到多个测试样本的预测标签中的至少一个词。

在一种可能的实现方式中，相似度获取单元403，还被配置为执行对于任一个测试样本，获取测试样本的真实标签中的不同词性的词的词向量，将不同词性的词的词向量的加权平均值作为真实标签的向量；获取测试样本的预测标签中的不同词性的词的词向量，将不同词性的词的词向量的加权平均值作为预测标签的向量。

在一种可能的实现方式中，识别准确率确定单元404，还被配置为执行将多个文本相似度的平均值作为图像识别模型的识别准确率。

上述所有可选技术方案，可以采用任意结合形成本公开的可选实施例，在此不再一一赘述。

需要说明的是：上述实施例提供的图像识别模型的性能检测装置在模型检测时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将服务器的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的图像识别模型的性能检测装置与图像识别模型的性能检测方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

图5是本公开实施例提供的一种服务器的结构示意图，该服务器500可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器(central processingunits，CPU)501和一个或一个以上的存储器502，其中，所述存储器502中存储有至少一条指令，所述至少一条指令由所述处理器501加载并执行以实现上述各个方法实施例提供图像识别模型的性能检测方法。当然，该服务器还可以具有有线或无线网络接口、键盘以及输入输出接口等部件，以便进行输入输出，该服务器还可以包括其他用于实现设备功能的部件，在此不做赘述。

在示例性实施例中，还提供了一种计算机可读存储介质，例如包括指令的存储器，上述指令可由终端中的处理器执行以完成上述实施例中图像识别模型的性能检测方法。例如，所述计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本公开的较佳实施例，并不用以限制本公开，凡在本公开的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本公开的保护范围之内。

Claims

1.一种图像识别模型的性能检测方法，其特征在于，所述方法包括：

2.根据权利要求1所述的图像识别模型的性能检测方法，其特征在于，所述获取多个文本相似度包括：

3.根据权利要求2所述的图像识别模型的性能检测方法，其特征在于，所述获取所述测试样本的真实标签的向量和预测标签的向量之间的相似度包括：

4.根据权利要求2所述的图像识别模型的性能检测方法，其特征在于，所述基于所述相似度，获取所述测试样本的文本相似度包括下述任一步骤：

将所述相似度作为所述测试样本的文本相似度。

5.根据权利要求2所述的图像识别模型的性能检测方法，其特征在于，所述获取所述多个测试样本的真实标签的向量和预测标签的向量包括：

6.根据权利要求5所述的图像识别模型的性能检测方法，其特征在于，所述获取所述多个测试样本的真实标签的向量和预测标签的向量之前，所述方法包括：

7.根据权利要求2所述的图像识别模型的性能检测方法，其特征在于，所述获取所述多个测试样本的真实标签的向量和预测标签的向量包括：

8.根据权利要求1所述的图像识别模型的性能检测方法，其特征在于，所述根据所述多个文本相似度，确定所述图像识别模型的识别准确率包括：

9.一种图像识别模型的性能检测装置，其特征在于，所述装置包括：

10.一种服务器，其特征在于，所述服务器包括处理器和存储器，所述存储器中存储有至少一条指令，所述指令由所述处理器加载并执行以实现如权利要求1至权利要求8任一项所述的图像识别模型的性能检测方法所执行的操作。