CN112766427A

CN112766427A - 图像识别模型的训练方法、装置及设备

Info

Publication number: CN112766427A
Application number: CN202110367654.8A
Authority: CN
Inventors: 张培尧; 刘树春; 张飞云; 高巍; 邵蔚元
Original assignee: Koubei Shanghai Information Technology Co Ltd; Zhejiang Koubei Network Technology Co Ltd
Current assignee: Koubei Shanghai Information Technology Co Ltd; Zhejiang Koubei Network Technology Co Ltd
Priority date: 2021-04-06
Filing date: 2021-04-06
Publication date: 2021-05-07

Abstract

本说明书实施例提供一种图像识别模型的训练方法、装置及设备；其中，该方法利用初始数据集确定出训练数据集后，循环执行以下步骤直到图像识别模型满足模型性能条件：利用训练数据集对图像识别模型进行训练；所述训练数据集包括多张训练图像，每张所述训练图像对应有图像类别；利用训练后的图像识别模型对多张验证图像进行分类识别，并将识别结果与所述验证图像的实际图像类别进行对比；基于对比结果确定出相似的至少两个图像类别后，将文本相似度满足相似度条件的图像类别合并为一个图像类别，将合并后的数据集确定为新的训练数据集。

Description

图像识别模型的训练方法、装置及设备

技术领域

本说明书实施例涉及图像分类识别技术领域，尤其涉及图像识别模型的训练方法、装置及设备。

背景技术

在计算机视觉领域，图像分类识别可以说是最基础、最常见的一个问题。图像分类识别方案大多采用机器学习模型的方式实现，因此，如何训练得到一个准确率较好的模型，成为亟待解决的技术问题。

发明内容

为克服相关技术中存在的问题，本说明书实施例提供了图像识别模型的训练方法、装置及设备。

根据本说明书实施例的第一方面，提供一种图像识别模型的训练方法，所述方法包括：

利用初始数据集确定出训练数据集后，循环执行以下步骤直到图像识别模型满足模型性能条件：

利用训练数据集对图像识别模型进行训练；所述训练数据集包括多张训练图像，每张所述训练菜品图像对应有图像类别；

利用训练后的图像识别模型对多张验证图像进行分类识别，并将识别结果与所述验证图像的实际图像类别进行对比；

基于对比结果确定出相似的至少两个图像类别后，将文本相似度满足相似度条件的图像类别合并为一个图像类别，将合并后的数据集确定为新的训练数据集。

根据本说明书实施例的第二方面，提供一种图像识别模型的训练装置，所述装置包括：

数据集处理模块，用于：利用初始数据集确定出训练数据集；

训练模块，用于：循环执行以下处理直到图像识别模型满足模型性能条件：

根据本说明书实施例的第三方面，提供一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其中，所述处理器执行所述程序时实现前述图像识别模型的训练方法。

本说明书的实施例提供的技术方案可以包括以下有益效果：

本说明书实施例中，由于训练数据集质量较差，例如图像类别较多，图像类别未规范化等问题，训练数据集训练得到的模型，在利用验证数据集评估其性能时，会出现模型的识别准确率尚未达到较好标准的现象，而此种现象的产生正是由于训练数据集质量较低造成的，因此本实施例在模型尚未达到较好标准时，利用模型对验证数据集的识别结果对训练数据集进行优化，之后利用优化的训练数据集再次对模型进行训练，通过数据的迭代优化来迭代训练模型，从而逐渐提高模型的准确度。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本说明书。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本说明书的实施例，并与说明书一起用于解释本说明书的原理。

图1是本说明书根据一示例性实施例示出的一种图像识别模型的训练方法的流程图。

图2A是本说明书根据一示例性实施例示出的一种数据预处理的示意图。

图2B是本说明书根据一示例性实施例示出的一种菜品识别模型的训练示意图。

图2C是本说明书根据一示例性实施例示出的另一种菜品识别模型的训练示意图。

图2D是本说明书根据一示例性实施例示出的另一种菜品识别模型的训练示意图。

图3是本说明书实施例图像识别模型的训练装置所在计算机设备的一种硬件结构图。

图4是本说明书根据一示例性实施例示出的一种图像识别模型的训练装置的框图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本说明书相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本说明书的一些方面相一致的装置和方法的例子。

在本说明书使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本说明书。在本说明书和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本说明书可能采用术语第一、第二、第三等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本说明书范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

在计算机视觉领域，图像分类识别可以说是最基础、最常见的一个问题。图像分类识别方案大多采用机器学习的方式实现，在机器学习领域，通常是先通过建模表示出一个模型，再通过构建一个用于对模型进行评价的函数，最后根据样本数据及最优化方法对评价函数进行优化，把模型调整到设定的准确率标准。整个阶段涉及非常多的环节，例如样本数据的选择与处理、数据特征的设计、模型的设计、评价函数的设计等等，任一环节的细微差别都可能影响到模型的性能。

模型在训练好后，通常会采用验证集对模型进行验证，以检测训练好的模型是否准确。在利用验证集发现模型的训练结果达不到要求后，一些可选的方式是更换模型，或者是添加更多的训练数据等。

本说明书实施例方案从训练数据集入手来提升模型的性能。机器学习模型的训练需要利用到数据集，数据集是构建机器学习模型的起点，数据集的质量将对生成的模型的质量将产生很大的影响，因此，实际应用中，为了达到最高的模型质量，首先面临的问题是如何获取到质量较高的数据集，实际应用中，往往需要对数据集进行预处理。

以菜品识别场景为例，图像分类识别的任务是识别出图像中菜品的菜品类别。本申请发明人发现，在利用已有菜品数据库训练菜品识别模型时，虽然已有菜品数据库具有大量的菜品图像，但难以获得质量较好的模型，甚至难以训练模型。经过分析，这是由于已有菜品数据库中的菜品图像由用户上传，菜品图像所对应的菜品名称由用户命名，不同用户对同一菜品可能有不同的名称，因此菜品数据库中存在大量的菜品名称，且菜品名称不规范，存在一菜多名等挑战，部分菜品图像甚至并未标注有菜品名称。

实际应用中，可以对数据进行预处理后提高数据集的质量，但由于初始数据集的质量较差，在一些可选的实现方式中，可能需要技术人员投入较大精力进行数据预处理，例如人工标注等；或者，采用聚类的方式对数据集进行预处理，而聚类方式仍然需要人工的参与，例如，根据聚类处理而得到的一些不同类别，由于相似度在设定的相似度阈值上下浮动，这些类别需要人工进一步核验。作为例子，设定相似度阈值为60%，通过聚类处理后，需要人工核验50%至70%相似度的类别，以进一步进行微调。若人工不参与，质量较差的数据集经过预处理后其质量可能仍无法满足要求，也可能导致最终无法训练得到一个质量较好的模型。而实际应用中往往面临数据量巨大、类别不规范、图像和类别不匹配等问题，这些都导致数据集的预处理无法一蹴而就。

基于此，本说明书实施例提供了图像识别模型的训练方案。如图1所示，是本说明书根据一示例性实施例示出的图像识别模型的训练方法的示意图，包括如下步骤：

在步骤102中，利用初始数据集确定出训练数据集；

循环执行以下步骤106至110，直到在步骤104中确定图像识别模型满足模型性能条件；

在步骤106中，利用训练数据集对图像识别模型进行训练；所述训练数据集包括多张训练图像，每张所述训练图像对应有图像类别；

在步骤108中，利用训练后的图像识别模型对多张验证图像进行分类识别，并将识别结果与所述验证图像的实际图像类别进行对比；

在步骤110中，基于对比结果确定出相似的至少两个图像类别后，将文本相似度满足相似度条件的图像类别合并为一个图像类别，将合并后的数据集确定为新的训练数据集。

本实施例的图像训练方案，可应用多种图像分类识别场景中，例如菜品图像的菜品分类识别、动物图像分类识别、植物分类识别、花卉分类识别、零售业商品分类识别、汽车分类识别、飞机分类识别、服饰分类识别、水果蔬菜等生鲜分类识别等等。这些场景都存在类别名称不规范的问题，例如存在多个本质上属于同一个类别的类别名称，被划分为多个不同类别的情况。作为例子，以菜品识别场景为例，“番茄炒蛋”和“西红柿炒蛋”本质上应该属于同一个类别，但由于类别名称的不同，两者被划分为两个不同的类别。

本实施例的训练方案中，训练数据集中的每条数据包括有图像以及该图像对应的图像类别的类别名称。由于训练数据集质量较差，可能存在图像类别未规范化等问题，从而导致训练数据集中存在大量的图像类别；采用质量较差的训练数据集训练得到的模型，在利用验证数据集评估其性能时，会出现模型的识别准确率尚未达到较好标准的现象，而此种现象的产生正是由于训练数据集质量较低造成的。因此本实施例在模型尚未达到较好标准时，利用模型对验证数据集的识别结果对训练数据集进行优化，其中，验证数据集包括验证图像及验证图像的类别，验证图像是指预先配置有图像类别图像，与训练数据集中图像类别名称是由一般用户上传不同，验证数据集中图像类别可以是经过技术人员处理过、规范化的数据。经过验证数据集对模型验证之后，利用优化的训练数据集再次对模型进行训练，通过数据的迭代优化来迭代训练模型，从而逐渐提高模型的准确度。

已有数据库存储有大量的图像，这些图像中，有些图像未对应有类别名称，有些图像对应有类别名称，但类别名称不规范，存在一类多名的情况，因此，已知的类别名称的数量也非常大。对已有的数据，可以进行数据预处理，数据预处理的目的是为了获得合适的训练数据集以开始模型的训练，针对已有的大量图像及大量的类别名称，本实施例的数据预处理可以通过文本聚类的方式对大量相似的类别名称进行聚合，还可以通过图像聚类的方式对大量相似的图像进行聚合。

在数据预处理阶段，首先对类别名称的文本聚类。

本实施例中，可以获取初始数据集，初始数据集包括多张图像，每张图像对应有原始类别名称，一个原始类别名称下对应有至少一张图像。

本实施例可以对所有初始类别名称进行文本聚类，将相似的初始类别名称聚合至同一个类别，从而得到多个初始类别。作为例子，文本聚类可以采用K-Means聚类方法实现，K-Means聚类方法可以通过提取文本特征，利用文本特征的相似度来实现多文本的聚类。本实施例中，对于聚合至同一个类别的至少两个初始类别名称，可以根据需要选取其中一个类别名称作为该类别的名称，作为例子，可以选取图像数量最多的类别名称作为该类别的名称。

通过文本聚类处理，可以得到统一的类别名称，原本对应不同初始类别名称的图像可以聚合至同一类别中。

作为例子，在文本聚类后，可以基于图像特征进行图像聚类；例如，可以根据文本聚类后的菜品名称，获取各图像的图像特征后，利用图像特征的相似度，对所述多个初始图像类别下的各菜品图像进行图像聚类，获得训练数据集。

可选的，图像聚类的过程，可以包括不同类别之间的图像聚类，以将图像特征相似的类别合并为一个类别。作为例子，所述对所述多个初始图像类别下的各图像进行图像聚类，包括：

分别对每个初始图像类别下各图像进行图像聚类，获得每个初始图像类别的聚类中心图像；

计算不同初始图像类别的聚类中心图像的相似度，将聚类中心图像的相似度满足聚类条件的不同初始图像类别合并为同一个图像类别。

作为例子，对属于同类别的图像聚类，得到聚类中心图像；其中，聚类中心图像至少有一张，实际应用中可以根据需要灵活配置聚类中心图像的数量。在一些例子中，可以采用K-Means图像聚类方法进行聚类，以k设置为5为例，分别对每个类别下的图像执行图像聚类处理，利用K-Means图像聚类方法，可以将每个类别下的菜品图像分为五组，并针对五个组分别进行聚类处理，从而5张聚类中心图像。

在一些例子中，每个聚类类别下的图像可能存在噪声图像，可以利用聚类中心图像对该类别下的图像进行噪声处理。作为例子，在获得每个初始图像类别的聚类中心图像后，还包括如下对任一初始图像类别的图像去噪处理：

计算初始图像类别下的目标图像与聚类中心图像的相似度，将相似度低于设定阈值的目标图像从所述初始图像类别中滤除；其中，所述目标图像为所述初始图像类别下除所述聚类中心图像之外的其他任意图像。

本实施例中，可以通过提取图像的图像特征，利用图像特征的相似度确定目标图像与聚类中心图像的相似度；在一些例子中，图像特征的相似度，通过计算图像特征的欧式距离得到。对于相似度较低的目标图像可以进行滤除，从而去除类内的噪声数据，保证图文一致。在一些例子中，图像特征的提取，可以采用已有的图像分类模型提取得到。

在一些例子中，一个类别下可以具有多张聚类中心图像，此种情况下，可以分别计算目标图像与各张聚类中心图像的相似度后，基于目标图像与各张聚类中心图像的相似度确定一整体相似度，利用整体相似度来确定目标图像是否为噪声，其中，该整体相似度可以通过多种方式实现，例如可以是基于目标图像与各张聚类中心图像的相似度计算均值而得到。

在一些例子中，对于未标注有菜品名称的原始图像，可以计算原始图像各个类别下聚类中心图像的相似度，将相似度大于设定阈值并且相似度最高的一个类别确定为原始图像的图像类别，从而实现对图像类别的自动标注。

对于不同类别之间的图像，还可以计算不同类别的聚类中心图像的相似度，从而根据计算结果确定是否对类别进行合并。例如，可以将相似度对于设定阈值的类别自动合并，也可以输出计算结果以供人工审核是否合并。

通过上述处理确定出训练数据集，进而可以进行模型的训练，本实施例的图像识别模型，可以采用基于深度卷积神经网络模型。

接下来可以对模型进行迭代训练，在迭代训练的过程中迭代优化训练数据集。本实施例中，利用训练数据集训练得到的图像识别模型，可以利用验证数据集进行测试，以评估模型是否达到准确率阈值。模型性能条件可以根据需要灵活配置，在一些例子中，可以包括图像识别模型对验证数据集的识别准确率高于设定的准确率阈值。其中，验证数据集包括多张验证图像，每张验证图像标注有实际图像类别。在通过模型对验证数据集中各张验证图像，可以确定模型的准确率。如果大于准确率阈值，可以确定模型满足模型性能条件，图像识别模型训练结束；如果小于准确率阈值，说明模型尚未达到较好标准，需要对训练数据集进行优化。

本实施例中，利用训练后的图像识别模型对多张验证像进行类别识别，并将识别结果与所述验证图像的实际图像类别进行对比。其中，由于训练数据集质量不佳，若所述图像识别模型将所述验证图像的实际类别识别为目标图像类别，所述实际图像类别与目标图像类别的相似度，与所述图像识别模型将所述实际图像类别识别为所述目标图像类别的次数正相关。即，对于每个实际图像类别，所述图像识别模型错误识别为目标图像类别的次数越多，表征该实际图像类别与所述目标图像类别的相似度越大，这是由于图像识别模型是基于图像特征来识别图像的类别的，原本标注为实际图像类别的图像，被模型多次识别为另一类别，说明标注为实际图像类别的图像，与该另一类别的图像特征可能具有一定的相似度，从而导致了模型的上述错误识别现象，而这两个从图像特征上来看具有一定相似度的类别可能可以进行合并，因此本实施例基于此来对训练数据集进行优化，作为例子，本实施例可以基于对比结果确定出相似的至少两个图像类别后，将文本相似度满足相似度条件的图像类别合并为一个图像类别，将合并后的数据集确定为新的训练数据集。

在一些例子中，所述根据对比结果获取相似的至少两个图像类别，包括：

针对每个实际图像类别，计算图像识别模型将该实际图像类别识别为目标图像类别的识别错误率；

将识别错误率满足设定阈值的实际图像类别与目标图像类别，确定为相似的两个图像类别。

本实施例中，通过识别错误率来实际图像类别与其他图像类别是否相似；其中，识别错误率可以基于N与M的比例确定，其中，N是指图像识别模型在对多张验证图像识别时，将实际图像类别识别为目标图像类别的数量，M是指验证数据集中属于实际图像类别的验证图像的数量，基于此，可以准确地确定出实际图像类别与该目标图像类别是否可能相似。

实际应用中，可以采用混淆矩阵来实现识别错误率的快速获取和可视化。作为例子，假设验证数据集中涉及的图像类别有5000个，每个图像类别下有200张验证图像；

基于模型对验证数据集中各验证图像的识别结果，以及验证数据集中各验证图像的实际图像类别，生成5000*5000混淆矩阵，矩阵中每一列表示模型识别出的类别，每一行表示实际图像类别，混淆矩阵可用于表明多个类别是否有混淆；如下示出了混淆矩阵的例子：

此处示例表示，类别1的200张图片中，有150张识别准确，有另外30张错误识别成了类别2（为了示例方便，其他识别结果暂未示出）；类别2的200张图片中，有160张识别准确，有另外30张错误识别成了类别1（为了示例方便，其他识别结果暂未示出）。

可以从混淆矩阵的每一列的结果，得到每个类对应的一个相似类别集合。比如类别1的200张有150张识别正确，有30张识别为类别2，20张识别为了类别3，则类别1、类别2和类别3都可能是相似类别，由于错误识别为类别2的错误率为20%，错误率大于设定阈值，确定类别1和类别2为相似的两个类别。

除了从图像的维度来确定两个类别是否相似，本实施例还结合类别名称的文本特征以准确判定两者是否可以合并。作为例子，所述将文本相似度满足相似度条件的图像类别合并为一个图像类别，包括：

对所述相似的至少两个图像类别中每个图像类别进行文本分词；

基于文本分词结果的相似度，确定所述相似的至少两个图像类别中各图像类别的文本相似度，将文本相似度满足相似度条件的图像类别合并为一个图像类别。

沿用前述例子，假设类别1是番茄炒蛋，类别2是西红柿炒蛋；将“番茄炒蛋”和“西红柿炒蛋”分别进行分词，分词结果为：“番茄炒蛋”，以及“西红柿炒蛋”；将分词结果，利用文本特征进行相似度匹配，得到相似度为80%，该相似度大于设定阈值，因此确定两者需要合并，将类别1的番茄炒蛋和类别2的西红柿炒蛋合并为一个类别，具体合并后的类别名称，可以基于“西红柿炒蛋”下的图像数量，以及“番茄炒蛋”下的图像数量来选取其中一个作为合并后的类别名称。

由上述实施例可见，本实施例的方案通过融合图像和文本特征对数据自动进行预处理，提升图像数据库的质量。优化后的图像数据库既去除了类别内的噪声图片，保证图文一致性，又合并了相似类别。在模型训练过程中，同样也融合了图像和文本特征对训练数据集进行迭代优化，从而渐进式地提升了模型性能，训练得到的模型识别准确率较高。

接下来以菜品识别场景为例再次进行说明。

作为例子，如图2A所示，示出了一个实施例中数据预处理的示意图，首先对菜品名称的文本聚类。

本实施例中，可以获取初始数据集，初始数据集包括多张菜品图像，每张菜品图像对应有原始菜品名称，一个原始菜品名称下对应有至少一张菜品图像。

本实施例可以对所有初始菜品名称进行文本聚类，将相似的初始菜品名称聚合至同一个类别，从而得到多个初始菜品类别。作为例子，文本聚类可以采用K-Means聚类方法实现，K-Means聚类方法可以通过提取文本特征，利用文本特征的相似度来实现多文本的聚类。本实施例中，对于聚合至同一个类别的至少两个初始菜品名称，可以根据需要选取其中一个菜品名称作为该类别的名称，作为例子，可以选取菜品图像数量最多的菜品名称作为该类别的名称。

通过文本聚类处理，可以得到统一的菜品名称，原本对应不同初始菜品名称的菜品图像可以聚合至同一类别中。

作为例子，在文本聚类后，可以基于图像特征进行图像聚类；例如，可以根据文本聚类后的菜品名称，获取各菜品图像的图像特征后，利用图像特征的相似度，对所述多个初始菜品类别下的各菜品图像进行图像聚类，获得训练数据集。

可选的，图像聚类的过程，可以包括不同类别之间的图像聚类，以将图像特征相似的类别合并为一个类别。作为例子，所述对所述多个初始菜品类别下的各菜品图像进行图像聚类，可以包括：

分别对每个初始菜品类别下各菜品图像进行图像聚类，获得每个初始菜品类别的聚类中心图像；

计算不同初始菜品类别的聚类中心图像的相似度，将聚类中心图像的相似度满足聚类条件的不同初始菜品类别合并为同一个菜品类别。

作为例子，对属于同类别的菜品图像聚类，得到聚类中心图像；其中，聚类中心图像至少有一张，实际应用中可以根据需要灵活配置聚类中心图像的数量。在一些例子中，可以采用K-Means图像聚类方法，以k设置为5为例，分别对每个类别下的菜品图像执行图像聚类处理，利用K-Means图像聚类方法，可以将每个类别下的菜品图像分为五组，并针对五个组分别进行聚类处理，从而5张聚类中心图像。

在一些例子中，每个聚类类别下的图像可能存在噪声图像，可以利用聚类中心图像对该类别下的图像进行噪声处理。作为例子，可以在获得每个初始菜品类别的聚类中心图像后，还包括如下对任一初始菜品类别的图像去噪处理：

计算初始菜品类别下的目标图像与聚类中心图像的相似度，将相似度低于设定阈值的目标图像从所述初始菜品类别中滤除；其中，所述目标图像为所述初始菜品类别下除所述聚类中心图像之外的其他任意图像。

本实施例中，可以通过提取图像的图像特征，利用图像特征的相似度确定目标图像与聚类中心图像的相似度；在一些例子中，图像特征的相似度，通过计算图像特征的欧式距离得到。对于相似度较低的目标图像可以进行滤除，从而去除类内的噪声数据，保证图文一致。

在一些例子中，对于未标注有菜品名称的原始图像，可以计算原始图像各个类别下聚类中心图像的相似度，将相似度大于设定阈值并且相似度最高的一个类别确定为原始图像的菜品类别，从而实现对图像类别的自动标注。

通过上述处理确定出训练数据集，进而可以进行模型的训练，本实施例的菜品识别模型，可以采用基于深度卷积神经网络模型，如图2B所示，示出了该菜品识别模型的训练示意图，在训练过程中，可以使用反向传播和梯度下降法迭代更新模型参数，以最小化损失函数。训练好的模型可以对输入的菜品图像提取图像特征，并基于图像特征进行类别的识别。

接下来结合图2C示出的模型训练示意图进行说明，本实施例中，可以循环执行如图2D示出的步骤，直到菜品识别模型满足模型性能条件：

在步骤202中，利用训练数据集对菜品识别模型进行训练；所述训练数据集包括多张训练菜品图像，每张所述训练菜品图像对应有菜品类别；

在步骤204中，利用训练后的菜品识别模型对多张验证菜品图像进行菜品识别，并将识别结果与所述验证菜品图像的实际菜品类别进行对比；

在步骤206中，基于对比结果确定出相似的至少两个菜品类别后，将文本相似度满足相似度条件的菜品类别合并为一个菜品类别，将合并后的数据集确定为新的训练数据集。

利用训练数据集训练得到的菜品识别模型，可以利用验证数据集进行测试，以评估模型是否达到准确率阈值。模型性能条件可以根据需要灵活配置，在一些例子中，可以包括菜品识别模型对验证数据集的识别准确率高于设定的准确率阈值。其中，验证数据集包括多张验证菜品图像，每张验证菜品图像标注有实际菜品类别。在通过模型对验证数据集中各张验证菜品图像，可以确定模型的准确率。如果大于准确率阈值，可以确定模型满足模型性能条件，菜品识别模型训练结束；如果小于准确率阈值，说明模型尚未达到较好标准，需要对训练数据集进行优化。

本实施例中，利用训练后的菜品识别模型对多张验证菜品图像进行菜品识别，并将识别结果与所述验证菜品图像的实际菜品类别进行对比。其中，由于训练数据集质量不佳，若所述菜品识别模型将所述验证菜品图像的实际菜品类别识别为目标菜品类别，所述实际菜品类别与目标菜品类别的相似度，与所述菜品识别模型将所述实际菜品类别识别为所述目标菜品类别的次数正相关。即，对于每个实际菜品类别，所述菜品识别模型错误识别为目标菜品类别的次数越多，表征该实际菜品类别与所述目标菜品类别的相似度越大，这是由于菜品识别模型是基于图像特征来识别图像的菜品类别的，原本标注为实际菜品类别的图像，被模型多次识别为另一菜品类别，说明标注为实际菜品类别的图像，与该另一菜品类型下的图像特征可能具有一定的相似度，从而导致了模型的上述错误识别现象，而这两个从图像特征上来看具有一定相似度的类别可能可以进行合并，因此本实施例基于此来对训练数据集进行优化，作为例子，本实施例可以基于对比结果确定出相似的至少两个菜品类别后，将文本相似度满足相似度条件的菜品类别合并为一个菜品类别，将合并后的数据集确定为新的训练数据集。

在一些例子中，所述根据对比结果获取相似的至少两个菜品类别，包括：

针对每个实际菜品类别，计算菜品识别模型将该实际菜品类别识别为目标菜品类别的识别错误率；

将识别错误率满足设定阈值的实际菜品类别与目标菜品类别，确定为相似的两个菜品类别。

本实施例中，通过识别错误率来实际菜品类别与其他菜品类别是否相似；其中，识别错误率可以基于N与M的比例确定，其中，N是指菜品识别模型在对多张验证菜品图像识别时，将实际菜品类别识别为目标菜品类别的数量，M是指验证数据集中属于实际菜品类别的验证菜品图像的数量，基于此，可以准确地确定出实际菜品类别与该目标菜品类别是否可能相似。

实际应用中，可以采用混淆矩阵来实现识别错误率的快速获取和可视化。作为例子，假设验证数据集中涉及的菜品类别有5000个，每个菜品类别下有200张验证菜品图像；

基于模型对验证数据集中各验证菜品图像的识别结果，以及验证数据集中各验证菜品图像的实际菜品类别，生成5000*5000混淆矩阵，矩阵中每一列表示模型识别出的菜品类别，每一行表示实际菜品类别，混淆矩阵可用于表明多个菜品类别是否有混淆；如下示出了混淆矩阵的例子：

可以从混淆矩阵的每一列的结果，得到每个类对应的一个相似类别集合。比如类别1的200张有150张识别正确，有30张识别为类别2，20张识别为了类别3，则类别1、类别2和类别3都可能是相似类别，由于错误识别为类别2的错误率为20%，错误率大于设定阈值，确定类别1和类别2为相似的两个菜品类别。

除了从图像的维度来确定两个菜品类别是否相似，本实施例还结合类别名称的文本特征以准确判定两者是否可以合并。作为例子，所述将文本相似度满足相似度条件的菜品类别合并为一个菜品类别，包括：

对所述相似的至少两个菜品类别中每个菜品类别进行文本分词；

基于文本分词结果的相似度，确定所述相似的至少两个菜品类别中各菜品类别的文本相似度，将文本相似度满足相似度条件的菜品类别合并为一个菜品类别。

由上述实施例可见，本实施例的方案通过融合图像和文本特征对数据自动进行预处理，提升菜品数据库的质量。优化后的菜品数据库既去除了类别内的噪声图片，保证图文一致性，又合并了相似类别。在模型训练过程中，同样也融合了图像和文本特征对训练数据集进行迭代优化，从而渐进式地提升了模型性能，训练得到的模型识别准确率较高。

与前述图像识别模型的训练方法的实施例相对应，本说明书还提供了图像识别模型的训练装置及其所应用的计算机设备的实施例。

本说明书图像识别模型的训练装置的实施例可以应用在计算机设备上。装置实施例可以通过软件实现，也可以通过硬件或者软硬件结合的方式实现。以软件实现为例，作为一个逻辑意义上的装置，是通过其所在图像识别模型的训练的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。从硬件层面而言，如图3所示，为本说明书实施例图像识别模型的训练装置所在计算机设备的一种硬件结构图，除了图3所示的处理器310、内存330、网络接口320、以及非易失性存储器340之外，实施例中装置331所在的计算机设备，通常根据该计算机设备的实际功能，还可以包括其他硬件，对此不再赘述。

如图4所示，是本说明书根据一示例性实施例示出的图像识别模型的训练装置的框图，包括：

数据集处理模块41，用于：利用初始数据集确定出训练数据集；

训练模块42，用于：循环执行以下处理直到图像识别模型满足模型性能条件：

在一些例子中，若所述图像识别模型将所述验证图像的实际类别识别为目标类别，所述实际图像类别与目标图像类别的相似度，与所述图像识别模型将所述实际图像类别识别为所述目标图像类别的次数正相关。

在一些例子中，所述训练模块，还用于：

在一些例子中，所述数据集处理模块，还用于通过如下方式利用初始数据集确定出训练数据集：

获取初始数据集中各图像对应的原始类别名称的文本特征后，利用文本特征的相似度，对各原始类别名称进行文本聚类，获得多个初始图像类别；

根据文本聚类后的类别名称，获取各图像的图像特征后，利用图像特征的相似度，利用所述多个初始图像类别下的各图像进行图像聚类，获得所述训练数据集。

在一些例子中，所述数据集处理模块，还用于：

在一些例子中，所述数据集处理模块，还用于在获得每个初始图像类别的聚类中心图像后，通过如下方式对任一初始图像类别进行图像去噪处理：

相应的，本说明书实施例还提供一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其中，所述处理器执行所述程序时实现前述图像识别模型的训练方法。

上述图像识别模型的训练装置中各个模块的功能和作用的实现过程具体详见上述图像识别模型的训练方法中对应步骤的实现过程，在此不再赘述。

对于图像识别模型的训练装置实施例而言，由于其基本对应于方法实施例，所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理模块，即可以位于一个地方，或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本说明书方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

相应的，本说明书还提供一种装置，所述装置包括有处理器；用于存储处理器可执行指令的存储器；其中，所述处理器被配置为：

上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

本领域技术人员在考虑说明书及实践这里申请的发明后，将容易想到本说明书的其它实施方案。本说明书旨在涵盖本说明书的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本说明书的一般性原理并包括本说明书未申请的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本说明书的真正范围和精神由下面的权利要求指出。

应当理解的是，本说明书并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本说明书的范围仅由所附的权利要求来限制。

以上所述仅为本说明书的较佳实施例而已，并不用以限制本说明书，凡在本说明书的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本说明书保护的范围之内。

Claims

1.一种图像识别模型的训练方法，所述方法包括：

利用训练数据集对图像识别模型进行训练；所述训练数据集包括多张训练图像，每张所述训练图像对应有图像类别；

2.根据权利要求1所述的方法，若所述图像识别模型将所述验证图像的实际图像类别识别为目标图像类别，所述实际图像类别与目标图像类别的相似度，与所述图像识别模型将所述实际图像类别识别为所述目标图像类别的次数正相关。

3.根据权利要求2所述的方法，所述根据对比结果获取相似的至少两个图像类别，包括：

4.根据权利要求1所述的方法，所述将文本相似度满足相似度条件的图像类别合并为一个图像类别，包括：

5.根据权利要求1所述的方法，通过如下方式利用初始数据集确定出训练数据集：

6.根据权利要求5所述的方法，所述对所述多个初始图像类别下的各图像进行图像聚类，包括：

7.根据权利要求6所述的方法，在获得每个初始图像类别的聚类中心图像后，还包括如下对任一初始图像类别的图像去噪处理：

8.一种图像识别模型的训练装置，所述装置包括：

9.根据权利要求8所述的装置，若所述图像识别模型将所述验证图像的实际图像类别识别为目标图像类别，所述实际图像类别与目标图像类别的相似度，与所述图像识别模型将所述实际图像类别识别为所述目标图像类别的次数正相关。

10.根据权利要求8所述的装置，所述训练模块，还用于：

11.根据权利要求8所述的装置，所述训练模块，还用于：

12.根据权利要求8所述的装置，所述数据集处理模块，还用于通过如下方式利用初始数据集确定出训练数据集：

13.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其中，所述处理器执行所述程序时实现如下如权利要求1至7任一所述的方法。