CN111539443B

CN111539443B - 一种图像识别模型训练方法及装置、存储介质

Info

Publication number: CN111539443B
Application number: CN202010075300.1A
Authority: CN
Inventors: 吴磊; 陈渊
Original assignee: Beijing Xiaomi Pinecone Electronic Co Ltd
Current assignee: Beijing Xiaomi Pinecone Electronic Co Ltd
Priority date: 2020-01-22
Filing date: 2020-01-22
Publication date: 2024-02-09
Anticipated expiration: 2040-01-22
Also published as: US20210224592A1; CN111539443A; US11455491B2; EP3855360A1; EP3855360B1

Abstract

本公开是关于一种图像识别模型训练方法及装置、存储介质。图像识别模型训练方法，可包括：采用已标注图像样本集，对图像识别模型进行训练；利用当前训练后的图像识别模型，识别待标注图像样本集中的多个待标注图像样本，得到多个待标注图像样本中的每一个所对应识别结果的置信度；选择置信度位于预设区间的至少一个待标注图像样本作为至少一个待标注图像样本，构成第一待标注图像样本集；获取第一待标注图像样本集中待标注图像样本待标注图像样本的标注标签；根据获取的标注标签，更新已标注图像样本集；采用更新后的已标注图像样本集，继续训练图像识别模型待标注图像样本集待标注图像样本待标注图像样本。

Description

一种图像识别模型训练方法及装置、存储介质

技术领域

本公开涉及信息技术领域，尤其涉及一种图像识别模型训练方法及装置、存储介质。

背景技术

通过样本数据训练得到的图像识别模型，能够对图像进行识别。但是在使得图像识别模型具有图像识别能力之前，需要使用图像样本进行模型训练。在相关技术中，图像样本被选定之后需要由人工进行标注。而需要使得图像识别模型具有足够的识别能力，需要大量被标注过的图像样本进行训练，而纯人工标注，显然图像识别模型具有训练效率低、人工成本高等问题。

发明内容

本公开提供一种图像识别模型训练方法及装置、存储介质。

本公开实施例第一方面提供一种图像识别模型训练方法，包括：

采用已标注图像样本集，对图像识别模型进行训练；

利用当前训练后的所述图像识别模型，识别待标注图像样本集中的多个待标注图像样本，得到所述多个待标注图像样本中的每一个所对应识别结果的置信度；

选择所述置信度位于预设区间的至少一个待标注图像样本作为至少一个待标注图像样本，构成第一待标注图像样本集；

获取所述第一待标注图像样本集中待标注图像样本待标注图像样本的标注标签；

根据获取的所述标注标签，更新所述已标注图像样本集；

采用更新后的所述已标注图像样本集，继续训练所述图像识别模型。

基于上述方案，所述获取所述第一待标注图像样本集中待标注图像样本的标注标签，包括：

对所述第一待标注图像样本集中的所述至少一个待标注图像样本进行聚类，获得聚类结果；

根据所述聚类结果，从所述第一待标注图像样本集中，选择部分具有簇代表性的目标待标注图像样本构成第二待标注图像样本集；

获取所述第二待标注图像样本集中所述目标待标注图像样本的标注标签。

基于上述方案，所述对所述第一待标注图像样本集中的所述至少一个待标注图像样本进行聚类，获得聚类结果待标注图像样本，包括：

根据所述第一待标注图像样本集中待标注图像样本的图像特征，确定所述待标注图像样本的信息熵；

选择信息熵满足预定条件的所述待标注图像样本进行聚类，得到K个簇及各所述簇的簇中心；其中，所述K为正整数。

基于上述方案，所述聚类结果包括：聚类形成的簇及各所述簇的簇中心；

所述根据所述聚类结果，从所述第一待标注图像样本集中，选择部分具有簇代表性的目标待标注图像样本构成第二待标注图像样本集，包括：

从每个所述簇中选择与对应所述簇中心距离最近的一个或多个所述待标注图像样本，作为具有簇代表性的目标待标注图像样本构成所述第二待标注图像样本集。

基于上述方案，所述方法还包括：

在所述构成第一待标注图像样本集之后，确定所述第一待标注图像样本集所包含的待标注图像样本个数是否大于预设值；

所述获取所述第一待标注图像样本集中待标注图像样本的标注标签，包括：

当所述第一待标注图像样本集所包含的待标注图像样本个数大于所述预设值时，获取所述第一待标注图像样本集中待标注图像样本的标注标签。

基于上述方案，所述方法还包括：

当所述第一待标注图像样本集所包含的待标注图像样本个数小于或等于所述预设值时，停止所述图像识别模型的训练。

基于上述方案，所述采用更新后的所述已标注图像样本集，继续训练所述图像识别模型，包括：

采用更新后的所述已标注图像样本集，返回所述对图像识别模型进行训练的步骤。

基于上述方案，所述已标注图像样本集包含：第一数量的正图像样本和第二数量的负图像样本，其中，所述第一数量小于所述第二数量；

和/或，

所述第一待标注图像样本集包含：第三数量的所述待标注图像样本；所述第三数量大于所述第二数量。

基于上述方案，所述正图像样本包含：被标注为密集图像的密集恐怖图像；所述负图像样本为：所述密集恐怖图像以外的图像。

本公开实施例第二方面提供一种图像识别模型训练装置，包括：

训练模块，用于采用已标注图像样本集，对图像识别模型进行训练；

识别模块，用于利用当前训练后的所述图像识别模型，识别待标注图像样本集中的多个待标注图像样本，得到所述多个待标注图像样本中的每一个所对应识别结果的置信度；

选择模块，用于选择所述置信度位于预设区间的至少一个待标注图像样本作为至少一个待标注图像样本，构成第一待标注图像样本集；

获取模块，用于获取所述第一待标注图像样本集中待标注图像样本待标注图像样本的标注标签；

更新模块，用于根据获取的所述标注标签，更新所述已标注图像样本集；

所述训练模块，还用于采用更新后的所述已标注图像样本集，继续训练所述图像识别模型。

基于上述方案，所述获取模块，具体用于对所述第一待标注图像样本集中的所述至少一个待标注图像样本进行聚类，获得聚类结果；根据所述聚类结果，从所述第一待标注图像样本集中，选择部分具有簇代表性的目标待标注图像样本构成第二待标注图像样本集；获取所述第二待标注图像样本集中所述目标待标注图像样本的标注标签。

基于上述方案，所述获取模块，具体用于根据所述第一待标注图像样本集中待标注图像样本的图像特征，确定所述待标注图像样本的信息熵；选择信息熵满足预定条件的所述待标注图像样本进行聚类，得到K个簇及各所述簇的簇中心；其中，所述K为正整数。

基于上述方案，所述聚类结果包括：聚类形成的簇及各所述簇的簇中心；所述获取模块，还具体用于从每个所述簇中选择与对应所述簇中心距离最近的一个或多个所述待标注图像样本，作为具有簇代表性的目标待标注图像样本构成所述第二待标注图像样本集。

基于上述方案，所述装置还包括：

确定模块，用于在所述构成第一待标注图像样本集之后，确定所述第一待标注图像样本集所包含的待标注图像样本个数是否大于预设值；

所述获取模块，用于当所述第一待标注图像样本集所包含的待标注图像样本个数大于所述预设值时，获取所述第一待标注图像样本集中待标注图像样本的标注标签。

基于上述方案，所述装置还包括：

停止模块，用于当所述第一待标注图像样本集所包含的待标注图像样本个数小于或等于所述预设值时，停止所述图像识别模型的训练。

基于上述方案，所述训练模块，还用于采用更新后的所述已标注图像样本集，返回所述对图像识别模型进行训练的步骤。

和/或，

本公开实施例第三方面提供一种图像识别模型训练装置，包括处理器、存储器及存储在存储器上并能够有所述处理器运行的计算机可执行指令，所述处理器运行所述计算机可执行指令时执行如第一方面任意实施例提供的图像识别模型训练方法的步骤。

本公开实施例第四方面提供一种存储介质，其上存储由计算机可执行指令，其特征在于，所述计算机可执行指令被处理器执行时实现如第一方面任意实施例提供的图像识别模型训练方法的步骤。

本公开的实施例提供的技术方案可以包括以下有益效果：在本申请实施例中，首先利用少量的已标注的正图像样本和负图像样本进行训练，得到初步具有图像识别能力的图像识别模型。然后利用该图像识别模型识别第一待标注图像样本集中的待标注图像样本，并根据图像识别模型的对识别结果的置信度，选择出置信度为与预设区间内的待标注图像样本。选择出的待标注图像样本即为图像识别模型当前识别能力有待加强的图像进行标注，而识别置信度高的图像样本，显然就无需进行标注了，故减少了模型训练过程中所需标注的图像样本数量，减少了人工标注量，实现通过标注少量样本，就能够实现图像识别模型的训练，训练的图像识别模型具有精确度高的特点，且加速了图像识别模型的训练速度，降低了图像识别模型的训练成本。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理。

图1是根据一示例性实施例示出的一种图像识别模型训练方法的流程示意图；

图2是根据一示例性实施例示出的一种图像识别模型训练方法的流程示意图；

图3A是根据一示例性实施例示出的一种密集恐惧图像的效果示意图；

图3B是根据一示例性实施例示出的一种正常图像的效果示意图；

图4是根据一示例性实施例示出的一种图像识别模型训练装置的示意框图；

图5是根据一示例性实施例示出的一种图像识别模型训练方法的流程示意图；

图6是根据一示例性实施例示出的一种图像识别模型训练装置的框图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明实施例相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本发明实施例的一些方面相一致的装置和方法的例子。

在本发明实施例使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本发明实施例。在本发明实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本发明实施例可能采用术语第一、第二、第三等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本发明实施例范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

如图1所示，本实施例提供一种图像识别模型训练方法，包括：

S11：采用已标注图像样本集，对图像识别模型进行训练；

S12：利用当前训练后的所述图像识别模型，识别待标注图像样本集中的多个待标注图像样本，得到所述多个待标注图像样本中的每一个所对应识别结果的置信度；

S13：选择所述置信度位于预设区间的至少一个待标注图像样本作为至少一个待标注图像样本，构成第一待标注图像样本集；

S14：获取所述第一待标注图像样本集中待标注图像样本待标注图像样本的标注标签；

S15：根根据获取的所述标注标签，更新所述已标注图像样本集；

S16：采用更新后的所述已标注图像样本集，继续训练所述图像识别模型。

正图像样本和/或负图像样本为两类不同的图像，例如，正图像样本为需要识别的目标类型的图像，而负图像样本可为目标类型以外的图像。

在本申请实施例中，训练集可包括：已标注图像样本集及待标注图像样本集。

首先，利用已标注图像样本集进行模型训练，如此，经过一定数据量的已标注图像样本集内图像样本的训练，图像识别模型将具有初步的识别能力。

将待标注图像样本集中待标注图像样本输入到图像识别模型，此时，图像识别模型会输出对待标注图像样本的识别结果及对该识别结果的置信度。置信度越高，则说明图像识别模型给出的识别结果越精确。例如，若图像识别模型为一个二分类识别模型，则图像识别模型输出的识别结果可包括“0”或“1”，例如，“0”对应于目标类型，“1”对应于目标类型以外的其他类型。例如，以判断一张图像是否密集恐惧图像为例，则识别结果有“是”或“否”两种识别结果。此时，针对一个待标注图像样本的识别结果的置信度，可为0.5至1之间，越靠近1则说明识别精度越高，越靠近0.5说明识别的精度越差，图像识别模型对该图像样本的识别能力较差。若一个置信度为0.5的待标注图像样本，则该图像相当于被认定属于两种分类时的置信度都是0.5。如此，针对这种待标注图像样本有必要进行标注，以继续训练模型，提升图像识别模型的泛化能力。

在本申请实施例中的S13中会将置信度位于预设区间内的待标注图像样本，构成第一待标注图像样本集。例如，该预设区间可为：0.5至0.8、0.5至0.75、0.5至0.7或者0.5至0.6。

如此，在置信度为0.9或0.95的一张待标注图像样本而言，图像识别模型已经对其有足够的识别能力，说明当前的已标注图像样本集中已有足够相似的图像样本，就无需进行标注了。

该置信度可为置信度函数的函数值。例如，该置信度函数包括但不限于：softmax函数。该置信度可为softmax函数计算得到的函数值。

在一些实施例中，若图像样本包含正图像样本和负图像样本，则在S13中可以选择识别结果为正图像样本，且置信度位于预设区间内的待标注图像样本，构成第一待标注图像样本集合。对于识别结果为负图像样本就不用添加到第一待标注图像样本集中了，以减少所需标注的图像样本的量。

S14可包括：显示第一待标注图像样本集中待标注图像样本；接收对标注图像样本的标注信息，从而获得标注标签。

一个待标注图像样本一旦获得标注标签，则该待标注图像样本转变为了已标注图像样本，可将已标注图像样本加入到已标注图像样本集中。如此实现了S15中已标注图像样本集的更新。

后续，将继续使用更新后的已标注图像样本集进行模型继续训练。

例如，使用更新后的整个已标注图像样本集进行模型训练，如此，一方面确保完成训练后，图像识别模型对原始识别能力强的图像的识别能力得到保留，另一方面，由于新标注的图像样本的引入，会使得图像识别模型掌握对其他图像的识别能力。

再例如，也可以优先仅使用已标注图像样本集中新增加图像样本进行训练，完成训练后，通过测试集确定再次训练的图像识别模型是否保留了来图像样本相似图像的识别能力，若保留了，则无需使用旧图像样本继续训练，可以继续执行S12至S16。若未保留，则需使用旧图像样本继续训练，在使用整个已更新已标注图像样本集训练之后，再继续执行S12至S16。

总之，在本申请实施例中，首先利用少量的已标注的正图像样本和负图像样本进行训练，得到初步具有图像识别能力的图像识别模型。然后利用该图像识别模型识别第一待标注图像样本记中的待标注图像样本，并根据图像识别模型的对识别结果的置信度，选择出置信度为与预设区间内的待标注图像样本。选择出的待标注图像样本即为图像识别模型当前识别能力有待加强的图像进行标注，而识别置信度高的图像样本，显然就无需进行标注了，故减少了模型训练过程中所需标注的图像样本数量，减少了人工标注量，实现通过标注少量样本，就能够实现图像识别模型的训练，训练的图像识别模型具有精确度高的特点，且加速了图像识别模型的训练速度，降低了图像识别模型的训练成本。

在本申请实施例中，该图像识别模型训练之后用于在线或离线的图像识别，得到的图像识别结果，可以用于图像浏览的推荐，和/或骚扰图像的拦截；减少用户看到不想看到图像产生的不良感受，提升用户体验度。

在一些实施例中，如图2所示，S14可包括：

S141：对所述第一待标注图像样本集中的所述至少一个待标注图像样本进行聚类，获得聚类结果；

S142：根据所述聚类结果，从所述第一待标注图像样本集中，选择部分具有簇代表性的目标待标注图像样本构成第二待标注图像样本集；

S143：获取所述第二待标注图像样本集中所述目标待标注图像样本的标注标签。

在本申请实施例中，为了进一步减少待标注图像样本的数量，在得到第一待标注图像样本集之后会进行聚类，例如，这些待标注图像样本会被聚合成N多个簇，N可为正整数。聚类算法可以选择任意聚类算法，例如，k-means聚类算法进行聚类，或者，选择熵值聚类算法进行聚类。

通过聚类会形成多个簇，包含两个以上待标注图像样本的簇会包含有相似的多个待标注图像样本，由于这些待标注图像样本具有相似性，可以从每一个簇中选择部分待标注图像样本作为代表，构成第二待标注图像样本集。显然的，第二待标注图像样本集所包含的待标注图像样本的数量会少于第一待标注图像样本集所包含的待标注图像样本的数量。

具有代表性的待标注图像样本，可以代表对应的簇。

进一步地，S141可包括：根据所述第一待标注图像样本集中待标注图像样本的图像特征，确定所述待标注图像样本的信息熵；

选择信息熵满足预定条件的所述待标注图像样本进行聚类，得到K个簇及各所述簇的簇中心；其中，K为正整数。

在进行聚类时，不是对第一待标注图像样本集中所有的待标注图像样本进行聚类。而是通过信息熵的求取，选择信息熵满足预设定条件的待标注图像样本进行聚类，如此，在聚类之前就进行了一次待标注图像样本的过滤，从而实现了对第二待标注图像样本集中待标注图像样本的减少。

例如，选择信息熵满足预定条件的待标注图像样本进行聚类可包括以下之一：

选择信息熵大于熵阈值的待标注图像样本进行聚类；

选择信息熵最大的预定数量待标注图像样本进行聚类。

该信息熵为根据第一待标注图像样本集中待标注图像样本的图像特征确定的。该信息熵越大，则说明对应的待标注图像样本的信息量越大，则用于图像识别模型训练的意义更大。

簇中心可为：将待标注图像样本映射到预定空间内，在该预定空间内各待标注图像样本以点的形式分布，点聚集处形成了簇，簇中心为一个簇的中心坐标或者一个簇内位于最中央的点所代表的待标注图像样本的坐标。

与簇中心距离越近的待标注图像样本，相对于与簇中心距离较远的待标注图像样本而言，代表性更强。

此处的距离包括但不限于欧式距离。

聚类结果包括：聚类形成的簇及各簇的簇中心。在一些实施例中，S142可包括：从每个所述簇中选择与对应所述簇中心距离最近的一个或多个所述待标注图像样本，作为具有簇代表性的目标待标注图像样本构成所述第二待标注图像样本集。

例如，在一些实施例中，从一个簇中选择预定个数的代表性待标注图像样本构成第二待标注图像样本集。

若进行聚类的待标注图像样本为S1个，通过各个簇内代表性待标注图像样本的个数可为S2个，通常S2小于S1，如此，再次缩减了第二待标注图像样本集所包含的待标注图像样本个数。

在一些实施例中，方法还包括：

S14可包括：当所述第一待标注图像样本集所包含的待标注图像样本个数大于所述预设值时，获取所述第一待标注图像样本集中待标注图像样本的标注标签。

如果当前构成的第一待标注图像样本集，若当前第一待标注图像样本集中待标注图像样本的个数小于预设值，例如，该预设值可为预先确定的任意值，该预设值可为个位数、十位数或百位数等。该预设值可为：待标注图像样本集中所包含待标注图像样本的预定百分比。例如，该百分比为0.1％，若待标注图像样本集包含10000张待标注图像样本，则该预设值可为10。若通过前述S11至S13得到的第一待标注图像样本集中收集的待标注图像样本小于10张时，则认为当前图像识别模型的识别能力足够强了，可以停止训练，则第一待标注图像样本集中的待标注图像样本可以不再输出以获取标注标签。

若第一待标注图像样本集中所包含的待标注图像样本个数大于预设值，则说明图像识别模型需要进一步训练，则会获取第一待标注图像样本集中的待标注图像样本的标注标签。

在一些实施例中，可以输出整个第一待标注图像样本集中所有的待标注图像样本，以获得标注标签。在一些实施例中，为了进一步减少待标注图像样本的数目，可以聚类的方式，可以选择第一待标注图像样本集中有代表性的部分待标注图像样本进行标注，获得标注标签即可。如此，通过部分待标注图像样本的标注标签的获取，继续训练图像识别模型，一方面进一步减少了所需标注的图像样本数量，另一方面也确保了训练得到的图像识别模型的精确度。

在一些实施例中，方法还包括：

当第一待标注图像样本集所包含的待标注图像样本个数小于或等于预设值时，停止图像识别模型的训练。

若第一待标注图像样本集所包含的待标注图像样本个数小于或等于预设值，说明图像识别模型的精确度足够高了，此时可以停止不必要的继续训练了。

在一些实施例中，所述S16可包括：采用更新后的所述已标注图像样本集，返回所述对图像识别模型进行训练的步骤。此处，在更新已标注图像样本集之后，就返回步骤S11，进行图像识别模型的迭代训练。在一些实施例中，已标注图像样本集包含：第一数量的正图像样本和第二数量的负图像样本，其中，第一数量小于第二数量。

例如，以密集恐怖图像为例，则正图像样本为如图3A所示的图像，而负图像样本就是不会引起认为不良感受的图像，例如，如图3B所示。密集恐怖图像为：相同或相似图形元素的分布密度在预设值以上的图像。在一些情况下，密集恐怖图像与人为主观感受相关，密集恐怖图像是包含大量相同或相似图形元素的图像。正图像样本包含：被标注为密集图像的密集恐怖图像；负图像样本为：密集恐怖图像以外的图像。

在另一些实施例中，正图像样本可为涉黄图像，负图像样本为涉黄图像以外的任意正常图像。例如，涉黄图像可认为人体裸露特定部分的图像。

在还有一些实施例中，正图像样本可为涉暴图像，负图像样本为涉暴图像以外的任意正常图像。例如，该涉暴图像可为涉及血腥场面的图像。

在本申请实施例中，图像识别模型可为对重复元素的出现频次的概率进行图像区分的图像识别模型。图像分类包括但不限于密集恐怖图像或者正常图像。

在大量的正常图像中，可能会夹杂少量的密集恐怖图像等目标类型的图像。根据该规律，在本申请实施例中，正图像样本的数量小于负图像样本的数量，如此使得训练得到的图像识别模型，能够具有较高的识别精确度。

在一些实施例中，第一待标注图像样本集包含：第三数量的待标注图像样本；第三数量大于第二数量。

此处，第三数量大于第二数量，通常第三数量可远远大于第二数量，例如，第三数量可超出第二数量一个或多个数量集。如此，可以尽可能少的减少人工标注。

如图4所示，本实施例提供一种图像识别模型训练装置，包括：

训练模块41，用于采用已标注图像样本集，对图像识别模型进行训练；

识别模块42，用于利用当前训练后的所述图像识别模型，识别待标注图像样本集中的多个待标注图像样本，得到所述多个待标注图像样本中的每一个所对应识别结果的置信度；

选择模块43，用于选择置信度位于预设区间的待标注图像样本，构成第一待标注图像样本集；

获取模块44，用于选择所述置信度位于预设区间的至少一个待标注图像样本作为至少一个待标注图像样本，构成第一待标注图像样本集；

更新模块45，用于根获取所述第一待标注图像样本集中待标注图像样本待标注图像样本的标注标签；

所述训练模块41，还用于采用更新后的所述已标注图像样本集，继续训练所述图像识别模型。

在一些实施例中，训练模块41、识别模块42、选择模块43、获取模块44及更新模块45可均为程序模块；程序模块被处理器执行后，能够实现以尽可能好标注图像样本训练得到高识别精度的图像识别模型。

在另一些实施例中，训练模块41、识别模块42、选择模块43、获取模块44及更新模块45可均为软硬结合模块；软硬结合模块；软硬结合模块可包括：各种可编程阵列；可编程阵列包括但不限于：复杂可编程阵列或现场可编程阵列。

在还有一些实施例中，训练模块41、识别模块42、选择模块43、获取模块44及更新模块45可均为软硬结合模块；纯硬件模块；纯硬件模块可包括：专用集成电路。

在一些实施例中，获取模块44，具体用于对所述第一待标注图像样本集中的所述至少一个待标注图像样本进行聚类，获得聚类结果；根据所述聚类结果，从所述第一待标注图像样本集中，选择部分具有簇代表性的标待标注图像样本构成第二待标注图像样本集；

在一些实施例中，聚类结果包括：聚类形成的簇及各簇的簇中心。

获取模块44，具体用于根据所述第一待标注图像样本集中待标注图像样本的图像特征，确定所述待标注图像样本的信息熵；选择信息熵满足预定条件的所述待标注图像样本进行聚类，得到K个簇及各所述簇的簇中心；其中，所述K为正整数。

在一些实施例中，获取模块44，还具体用于从每个所述簇中选择与对应所述簇中心距离最近的一个或多个所述待标注图像样本，作为具有簇代表性的目标待标注图像样本构成所述第二待标注图像样本集。

在一些实施例中，装置还包括：

获取模块44，用于当所述第一待标注图像样本集所包含的待标注图像样本个数大于所述预设值时，获取所述第一待标注图像样本集中待标注图像样本的标注标签。

在一些实施例中，装置还包括：

在一些实施例中，所述训练模块41，还用于采用更新后的所述已标注图像样本集，返回所述对图像识别模型进行训练的步骤。

在一些实施例中，已标注图像样本集包含：第一数量的正图像样本和第二数量的负图像样本，其中，第一数量小于第二数量；和/或，第一待标注图像样本集包含：第三数量的待标注图像样本；第三数量大于第二数量。

在一些实施例中，正图像样本包含：被标注为密集图像的密集恐怖图像；负图像样本为：密集恐怖图像以外的图像。

以下结合上述任意实施例提供一个具体示例：

示例1：

本示例涉及一种基于主动深度学习的密集恐惧图片标注和识别方法，可包括：

在信息流推荐系统中(例如Miui浏览器、腾讯新闻、今日头条等)，推荐内容不论何种形式，呈现方式往往都离不开文字和图片。比起文字，图片因为具有直观形象、冲击力强和易于快速浏览的特点，已经成为信息流推荐内容中非常重要的组成部分。

在图片推荐内容呈现给用户之前，还需要经过图片审核的过程。相关审核方式主要依靠人工审核，效率较低，无法处理日益激增的海量图片数据，以对含有涉黄、涉暴涉恐、等不良信息的图片进行审核和识别，杜绝此类具有不良信息图片的传播和推荐。除此之外，对于视觉上引起人不适的图片、例如密集恐惧图片等的识别和审核，市场上这类的产品较少，大多对这些图片类别不予审核(造成推荐内容的用户体验不好)；或者仍然采用低效的人工审查的方式进行，费时费力。

本示例致力于高效地选择尽可能少、但最有用、很大可能属于密集恐惧类别的图片，进行必要的人工标注，继而不断扩充具有标签的样本集，训练一个分类性越来越好的深度学习模型，最终能更加准确地解决密集恐惧图片的识别和审核问题。

根据人工进行类别的少量标注，把其中标注为密集恐惧类别的样本加入原有标签数据集中，从而增加密集恐惧类别图片的样本数量。

例如，在进行图像识别模型训练之前，样本集包含：已标注图像样本集和待标注图像样本集。已标注图像样本集包含的图像样本均已标注获得了标签。待标注图像样本集仅包含图像样本，但是这些图像样本并未标注有标签。

首先，利用已标注图像样本集进行模型训练，然后经过一段时间训练得到的图像识别模型，对待标注图像样本集中的图像样本进行识别，得到识别结果和置信度。根据置信度选择出部分需要人工标注的待标注图像样本构成一个集合，从而可以减少人工标注获得图像样本标签的量。

进一步地，在根据置信度得到一个包含多张待标注图像样本的集合之后，会进一步通过图像聚类的方式，进一步进行过滤，再一次缩减需要人工标注的待标注图像样本的量。

示例2：

本示例提供一种图像识别模型训练方法，可包括：

输入数据：具有少量类别标签的密集恐惧图像样本(记作正图像样本)和大量类别标签的正常图像样本(记作负图像样本)的已标注图像样本集，以及大量的没有类别标签的图片的待标注图像样本集。

如图5所示，基于主动深度学习的图片标注和识别方法：

步骤1：利用具有标签的已标注图像样本集训练初始卷积神经网络深度模型，由于有标签的正图像样本数量较少，当前深度模型对密集恐惧图片的识别能力较弱。

步骤2：用当前训练得到的深度模型，对每个待标注图像样本集中的图像样本进行分类，输出每个模型对应正负类别的softmax值，可以理解为被判定为每个类别的置信度，越接近1，置信度越高，属于该类别的概率越大。

步骤3：选择正类的输出softmax值介于0.5和0.7之间的图像样本，判定为疑似密集恐惧图片的样本，加入到待标注样本集。此处的正类为正图像样本所在的类。此处的待标注样本集即为前述的第一待标注图像样本集。

步骤4：采用熵值聚类方法，在初始待标注样本集中选择k个具有最大熵值的样本，对k个样本进行聚类，选择m个(m<k)样本作为正式待标注样本集。此处的正式待标注样本集即为前述的第二待标注图像样本集。

步骤5：接收专家的人工标注操作，实现对当前待标注样本集中的所有图片进行人工标注，具体标注方法为：100％确定为正常图片的样本，加入到已标注图像样本集中；100％确定为密集恐惧图片的样本，加入到已标注图像样本集中；无法绝对判定是否为密集恐惧类别的图片，进行丢弃，不再放回任何数据集。

步骤6：用当前的已知签样本集中的数据重新训练深度模型，当前深度模型对密集恐惧图片的识别能力进一步提升。

步骤7：重新进行步骤2及步骤3，如果当前待标注样本集中的图像少于n个，方法停止，得到标签扩充的样本集和密集恐惧图片识别的模型；否则继续进行步骤4至步骤7。

本公开实施例还提供一种图像识别模型训练装置，包括处理器、存储器及存储在存储器上并能够有处理器运行的计算机可执行指令，其特征在于，处理器运行计算机可执行指令时执行如前述任意技术方案提供的图像识别模型训练方法，例如，执行如图1、图2及图5所示的方法。

图6是根据一示例性实施例示出的一种图像识别模型训练装置800的框图。例如，装置800可以是移动电话，计算机，数字广播终端，消息收发设备，游戏控制台，平板设备，医疗设备，健身设备，个人数字助理等。

参照图6，装置800可以包括以下一个或多个组件：处理组件802，存储器804，电力组件806，多媒体组件808，音频组件810，输入/输出(I/O)的接口812，传感器组件814，以及通信组件816。

处理组件802通常控制装置800的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理组件802可以包括一个或多个处理器820来执行指令，以完成上述的方法的全部或部分步骤。此外，处理组件802可以包括一个或多个模块，便于处理组件802和其他组件之间的交互。例如，处理组件802可以包括多媒体模块，以方便多媒体组件808和处理组件802之间的交互。

存储器804被配置为存储各种类型的数据以支持在设备800的操作。这些数据的示例包括用于在装置800上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。存储器804可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

电力组件806为装置800的各种组件提供电力。电力组件806可以包括电源管理系统，一个或多个电源，及其他与为装置800生成、管理和分配电力相关联的组件。

多媒体组件808包括在装置800和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件808包括一个前置摄像头和/或后置摄像头。当设备800处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。

音频组件810被配置为输出和/或输入音频信号。例如，音频组件810包括一个麦克风(MIC)，当装置800处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器804或经由通信组件816发送。在一些实施例中，音频组件810还包括一个扬声器，用于输出音频信号。

I/O接口812为处理组件802和外围接口模块之间提供接口，上述外围接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件814包括一个或多个传感器，用于为装置800提供各个方面的状态评估。例如，传感器组件814可以检测到设备800的打开/关闭状态，组件的相对定位，例如组件为装置800的显示器和小键盘，传感器组件814还可以检测装置800或装置800一个组件的位置改变，用户与装置800接触的存在或不存在，装置800方位或加速/减速和装置800的温度变化。传感器组件814可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件814还可以包括光传感器，如CMOS或CCD图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件814还可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器或温度传感器。

通信组件816被配置为便于装置800和其他设备之间有线或无线方式的通信。装置800可以接入基于通信标准的无线网络，如WiFi，2G或3G，或它们的组合。在一个示例性实施例中，通信组件816经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，通信组件816还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

在示例性实施例中，装置800可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述方法。

在示例性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括指令的存储器804，上述指令可由装置800的处理器820执行以完成上述方法。例如，非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

本申请实施例还提供一种非临时性计算机可读存储介质，该非临时性计算机可读存储介质可以简称为存储介质。当存储介质中的家计算机可执行指令由处理器执行时，使得能够执行一种图像识别模型训练方法，方法包括：采用已标注图像样本集，对图像识别模型进行训练；利用当前训练后的所述图像识别模型，识别待标注图像样本集中的多个待标注图像样本，得到所述多个待标注图像样本中的每一个所对应识别结果的置信度；选择所述置信度位于预设区间的至少一个待标注图像样本作为至少一个待标注图像样本，构成第一待标注图像样本集；获取所述第一待标注图像样本集中待标注图像样本待标注图像样本的标注标签；根据获取的所述标注标签，更新所述已标注图像样本集；采用更新后的所述已标注图像样本集，继续训练所述图像识别模型。

基于上述方案，所述获取所述第一待标注图像样本集中待标注图像样本的标注标签，包括：对所述第一待标注图像样本集中的所述至少一个待标注图像样本进行聚类，获得聚类结果；根据所述聚类结果，从所述第一待标注图像样本集中，选择部分具有簇代表性的目标待标注图像样本构成第二待标注图像样本集；获取所述第二待标注图像样本集中所述目标待标注图像样本的标注标签。

基于上述方案，所述对所述第一待标注图像样本集中的所述至少一个待标注图像样本进行聚类，获得聚类结果待标注图像样本，包括：根据所述第一待标注图像样本集中待标注图像样本的图像特征，确定所述待标注图像样本的信息熵；选择信息熵满足预定条件的所述待标注图像样本进行聚类，得到K个簇及各所述簇的簇中心；其中，所述K为正整数。

基于上述方案，所述聚类结果包括：聚类形成的簇及各所述簇的簇中心；所述根据所述聚类结果，从所述第一待标注图像样本集中，选择部分具有簇代表性的目标待标注图像样本构成第二待标注图像样本集，包括：从每个所述簇中选择与对应所述簇中心距离最近的一个或多个所述待标注图像样本，作为具有簇代表性的目标待标注图像样本构成所述第二待标注图像样本集。

基于上述方案，所述方法还包括：在所述构成第一待标注图像样本集之后，确定所述第一待标注图像样本集所包含的待标注图像样本个数是否大于预设值；所述获取所述第一待标注图像样本集中待标注图像样本的标注标签，包括：当所述第一待标注图像样本集所包含的待标注图像样本个数大于所述预设值时，获取所述第一待标注图像样本集中待标注图像样本的标注标签。

基于上述方案，所述方法还包括：当所述第一待标注图像样本集所包含的待标注图像样本个数小于或等于所述预设值时，停止所述图像识别模型的训练。基于上述方案，所述采用更新后的所述已标注图像样本集，继续训练所述图像识别模型，包括：采用更新后的所述已标注图像样本集，返回所述对图像识别模型进行训练的步骤。

基于上述方案，所述已标注图像样本集包含：第一数量的正图像样本和第二数量的负图像样本，其中，所述第一数量小于所述第二数量；和/或，所述第一待标注图像样本集包含：第三数量的所述待标注图像样本；所述第三数量大于所述第二数量。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本发明的其它实施方案。本申请旨在涵盖本发明的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本发明的真正范围和精神由下面的权利要求指出。

应当理解的是，本发明并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。

Claims

1.一种图像识别模型训练方法，其特征在于，包括：

采用已标注图像样本集，对图像识别模型进行训练；

根据获取的所述标注标签，更新所述已标注图像样本集；

2.根据权利要求1所述的方法，其特征在于，所述获取所述第一待标注图像样本集中待标注图像样本的标注标签，包括：

3.根据权利要求2所述的方法，其特征在于，所述对所述第一待标注图像样本集中的所述至少一个待标注图像样本进行聚类，获得聚类结果待标注图像样本，包括：

4.根据权利要求2所述的方法，其特征在于，所述聚类结果包括：聚类形成的簇及各所述簇的簇中心；

5.根据权利要求1至4任一项所述的方法，其特征在于，所述方法还包括：

6.根据权利要求5所述的方法，其特征在于，所述方法还包括：

7.根据权利要求6所述的方法，其特征在于，所述采用更新后的所述已标注图像样本集，继续训练所述图像识别模型，包括：

8.根据权利要求1所述的方法，其特征在于，所述已标注图像样本集包含：第一数量的正图像样本和第二数量的负图像样本，其中，所述第一数量小于所述第二数量；

和/或，

9.根据权利要求8所述的方法，其特征在于，所述正图像样本包含：被标注为密集图像的密集恐怖图像；所述负图像样本为：所述密集恐怖图像以外的图像。

10.一种图像识别模型训练装置，其特征在于，包括：

11.根据权利要求10所述的装置，其特征在于，所述获取模块，具体用于对所述第一待标注图像样本集中的所述至少一个待标注图像样本进行聚类，获得聚类结果；根据所述聚类结果，从所述第一待标注图像样本集中，选择部分具有簇代表性的目标待标注图像样本构成第二待标注图像样本集；获取所述第二待标注图像样本集中所述目标待标注图像样本的标注标签。

12.根据权利要求11所述的装置，其特征在于，

所述获取模块，具体用于根据所述第一待标注图像样本集中待标注图像样本的图像特征，确定所述待标注图像样本的信息熵；选择信息熵满足预定条件的所述待标注图像样本进行聚类，得到K个簇及各所述簇的簇中心；其中，所述K为正整数。

13.根据权利要求11所述的装置，其特征在于，所述聚类结果包括：聚类形成的簇及各所述簇的簇中心；所述获取模块，还具体用于从每个所述簇中选择与对应所述簇中心距离最近的一个或多个所述待标注图像样本，作为具有簇代表性的目标待标注图像样本构成所述第二待标注图像样本集。

14.根据权利要求10至13任一项所述的装置，其特征在于，所述装置还包括：

15.根据权利要求14所述的装置，其特征在于，所述装置还包括：

16.根据权利要求15所述的装置，其特征在于，所述训练模块，还用于采用更新后的所述已标注图像样本集，返回所述对图像识别模型进行训练的步骤。

17.根据权利要求10所述的装置，其特征在于，所述已标注图像样本集包含：第一数量的正图像样本和第二数量的负图像样本，其中，所述第一数量小于所述第二数量；

和/或，

18.根据权利要求17所述的装置，其特征在于，所述正图像样本包含：被标注为密集图像的密集恐怖图像；所述负图像样本为：所述密集恐怖图像以外的图像。

19.一种图像识别模型训练装置，包括处理器、存储器及存储在存储器上并能够有所述处理器运行的计算机可执行指令，其特征在于，所述处理器运行所述计算机可执行指令时执行如权利要求1至9任一项所述图像识别模型训练方法的步骤。

20.一种存储介质，其上存储由计算机可执行指令，其特征在于，所述计算机可执行指令被处理器执行时实现如权利要求1至9任一项所述图像识别模型训练方法的步骤。