CN110598620A

CN110598620A - 模型训练方法和装置、目标检测方法和装置

Info

Publication number: CN110598620A
Application number: CN201910842170.7A
Authority: CN
Inventors: 周鑫鹏; 李阳
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-09-06
Filing date: 2019-09-06
Publication date: 2019-12-20
Anticipated expiration: 2039-09-06
Also published as: CN110598620B

Abstract

本申请提供了一种模型训练方法和装置、目标检测方法和装置。该模型训练方法包括：获取训练样本；采用深度神经网络模型识别所述训练样本所属的类别；采用损失函数确定所识别的类别与所述训练样本的目标类别之间的损失值，其中，所述损失函数中包括指定单项式，所述指定单项式用于降低将所述训练样本识别为非目标类别的置信度；根据确定的所述损失值优化所述深度神经网络模型。由此，提升模型的识别准确率。

Description

模型训练方法和装置、目标检测方法和装置

技术领域

本公开属于人工智能技术领域，特别涉及一种模型训练方法和装置、目标检测方法和装置。

背景技术

随着信息技术的飞速发展，涌现出众多的信息流推荐平台，例如新闻平台、微博、视频平台、短视频平台、公众号等，这些内容平台可以提供诸如文章、新闻、视频、短视频等网络内容。这些内容能够为人们提供生活、工作、娱乐等众多方面的信息，能够为人们带来诸多便利。

通常，开发者通过对这些网络内容进行标签提取处理以识别这些网络内容，以便于能够为一些上层应用领域(例如网络内容分类、推荐、检索等)提供支持。然而目前针对网络内容提取标签的方式要么对用户依赖较高，要么标签粒度较粗，识别准确率较低，从而影响上层应用的效果。

发明内容

本公开的目的是提供一种模型训练方法和装置、目标检测方法和装置，以提升模型的识别准确率。

第一方面，本申请实施例提供了一种模型训练方法，该方法包括：获取训练样本；采用深度神经网络模型识别所述训练样本所属的类别；采用损失函数确定所识别的类别与所述训练样本的目标类别之间的损失值，其中，所述损失函数中包括指定单项式，所述指定单项式用于降低将所述训练样本识别为非目标类别的置信度；根据确定的所述损失值优化所述深度神经网络模型。

在一个实施例中，所述指定单项式可以包括将训练样本识别为非目标类别的置信度，以及将所述训练样本识别为非目标类别的置信度的权重因子，且所述权重因子的取值小于1。

在一个实施例中，所述权重因子可以是基于将所述训练样本识别为目标类别的置信度、将所述训练样本识别为非目标类别的置信度、以及预定非线性函数确定的。

在一个实施例中，所述训练样本包括至少一个待识别目标，所述深度神经网络模型可以对所述至少一个待识别目标所属的类别进行识别，其中，所述权重因子为将待识别目标识别为非目标类别的置信度的权重因子，且通过以下公式确定所述权重因子：

其中，c_i表示识别的第i个非目标类别，p(c_i)为识别的第i个非目标类别c_i的置信度，为对应于所述第i个非目标类别的权重因子，target_min为将所述至少一个待识别目标识别为目标类别的置信度的最小值，λ₁、λ₂均为常数，sigmoid为非线性函数。

第二方面，本申请实施例提供了一种目标检测方法，该方法包括：获取待检测对象；采用深度神经网络模型识别所述待检测对象所属的类别，其中，所述深度神经网络模型是根据如上所述的方法训练得到的。

在一个实施例中，所述待检测对象为视频，获取待检测对象包括：获取所述视频的至少一个视频帧，作为所述待检测对象，采用深度神经网络模型识别所述待检测对象所属的类别，包括：采用深度神经网络模型识别各视频帧的类别标签；以及根据各视频帧的类别标签，确定所述视频的类别标签。

在一个实施例中，获取所述视频的至少一个视频帧，包括：以预定时间间隔对所述视频进行采样得到所述至少一个视频帧。

在一个实施例中，根据各视频帧的类别标签确定所述视频的类别标签，包括：将针对所述至少一个视频帧的类别标签中置信度大于置信度阈值的类别标签，作为候选类别标签；将所述候选类别标签中出现次数大于预定次数阈值的类别标签，作为所述视频的视频标签。

第三方面，本申请实施例提供了一种模型训练装置，所述装置包括：样本获取单元，用于获取训练样本；类别识别单元，用于采用深度神经网络模型识别所述训练样本所属的类别；模型损失单元，用于采用损失函数确定所识别的类别与所述训练样本的期望类别之间的损失值，其中，所述损失函数中包括指定单项式，所述指定单项式用于降低将所述训练样本识别为非期望类别的置信度；模型训练单元，用于根据确定的所述损失值优化所述深度神经网络模型。

第四方面，本申请实施例提供了一种目标检测装置，包括：检测对象获取单元，用于获取待检测对象；类别识别单元，用于采用深度神经网络模型识别所述待检测对象所属的类别，其中，所述深度神经网络模型是根据上述训练方法训练得到的。

第五方面，本申请实施例还提供了一种计算设备，包括至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本申请实施例提供的方法。

第六方面，本申请另一实施例还提供了一种计算机存储介质，其中，所述计算机存储介质存储有计算机可执行指令，所述计算机可执行指令用于使计算机执行本申请实施例提供的方法。

本申请实施例提供的模型训练方法和装置、目标检测方法和装置，所训练的深度神经网络模型能够降低样本被识别为非目标类别的置信度，从而提高模型识别的准确率，从而为基于识别结果的上层应用提供支持。

本申请的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本申请而了解。本申请的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例中所需要使用的附图作简单地介绍，显而易见地，下面所介绍的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了根据本公开一个实施例的模型训练方法的流程示意图；

图2示出了根据本申请一个实施例的深度神经网络模型的结构示意图；

图3示出了根据本申请一个实施例的目标检测方法的流程示意图；

图4示出了根据本申请一个实施例的视频标签提取流程示意图；

图5示出了根据本申请一个实施例的视频推荐示例；

图6示出了根据本申请一个实施例的模型训练装置的结构示意图；

图7示出了根据本申请一个实施例的目标检测装置的结构示意图；

图8示出了根据本申请一个实施例的计算设备的结构示意图。

具体实施方式

通常，开发者通过对这些网络内容进行标签提取处理以识别这些网络内容，以便于能够为一些上层应用领域(例如网络内容分类、推荐、检索等)提供支持。

现有技术中针对网络内容提取标签的方法主要存在如下三种：

(1)通过用户上传的标签中提取内容标签；

(2)通过内容标题中提取内容标签；

(3)对网络内容分类的方法来对该网络内容打标签。

上述方案(1)对网络内容的提供者的依赖较大，若用户对网络内容的类别体系了解不清晰或不正确却对网络内容打标签，在此基础上提取的内容标签的错误率较高，会给基于此内容标签的网络内容分类、推荐、检索等上层应用带来负面影响。

上述方案(2)与方案(1)相似，对网络内容的提供者依赖较高，抽取标签结果不可控。

而上述方案(3)中，对网络内容分类的方法可以实现对网络内容大类的准确识别，却无法实现更细粒度类别的精准识别。例如，对于视频帧进行图像分类方法可实现对视频内容大类的准确识别，如“猫”、“狗”、“汽车”等类别，但对细粒度类型通常分类准确率较低，如在大类“狗”的细粒度类别中区分不同品种的狗时，识别准确率达不到理想的目标。

有鉴于此，本公开提出了一种模型训练方案以及基于所训练的模型的目标检测方案，该模型能够获取待检测对象的全局及局部信息，捕获更细粒度的特征，能够细粒度地识别待检测对象所包含的主要内容。并且，能够增大待检测对象被识别为目标类别的置信度与非目标类别的置信度的差值，从而提高基于该模型的目标检测的准确率。

在本申请实施例中，所训练的模型可以为一种深度神经网络模型。

人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。随着人工智能技术研究和进步，人工智能技术在多个领域展开研究和应用，也将在更多的领域得到应用，并发挥越来越重要的价值。机器学习(Machine Learning,ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。基于上述深度神经网络模型，可以进一步提升本申请的模型的性能。

并且，在本申请实施例中，用于进行模型训练所采用的训练样本可以是图像、视频、文本、语音等内容的任一项或其组合。应当理解的是，本申请实施例中，可以基于不同类型的内容分别训练对应的深度神经网络模型，也可以在同一深度神经网络的不同层分别训练对应于不同类型的内容的模型分支，本申请对此不做限制。

在如下的描述中，将以“视频”作为一种训练样本示例，来对本申请的模型训练方案或目标检测方案进行详细说明。应当理解的是，本申请的模型训练方案或目标检测方案还可以适用于其它类型的内容，例如，图像、文本、语音等，在此不再赘述。

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本公开实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。

实施例一

图1示出了根据本公开一个实施例的模型训练方法的流程示意图。

如图1所示，在步骤S110，获取训练样本。

本申请实施例中，可以根据训练需要选定训练样本。该训练样本例如可以是一副图像、一个视频、一段文本、一段语音等，也可以是多副图像、多个视频、多段文本、多段语音等，还可以是图像、视频、文本、语音等内容的任意组合，本申请对此不做限制。并且，在实际应用中，也可以根据需要，对所获取的训练样本进行处理，以得到符合模型训练规范的样本，在此不再赘述。

在步骤S120，采用深度神经网络模型识别所述训练样本所属的类别。

本申请实施例中，该深度神经网络模型可以为基于深度学习网络如卷积神经网络的模型，例如Yolo、Faster R-cnn、mask rcnn等模型。其中，深度神经网络模型可以包括输出层，该输出层可以包括多个输出函数，每个输出函数可以用于输出相应标签(例如类别标签)的预测结果，例如类别标签、类别标签对应的预测概率(本申请实施例中称之为置信度)等。

在步骤S130，采用损失函数确定所识别的类别与所述训练样本的目标类别之间的损失值。并在步骤S140，根据确定的所述损失值优化所述深度神经网络模型。

其中，所述损失函数中可以包括指定单项式，所述指定单项式可以用于降低将所述训练样本识别为非目标类别的置信度。

换言之，本申请实施例中，对于任意一个训练样本，通过损失函数中的指定单项式来降低将训练样本预测为非目标类别的预测概率，实现对将训练样本识别为非目标类别的打压，特别是对高置信度非目标类别的打压，从而拉大将训练样本识别为目标类别的置信度(即预测概率)与将训练样本识别为非目标类别置信度(即预测概率)之间的差值，减少由于将样本识别为目标类别的置信度数值低于识别为非目标类别置信度数值导致的训练样本识别错误的可能性。

在一个实施例中，上述训练样本中可以包括至少一个待识别目标，深度神经网络模型可以对所述至少一个待识别目标所属的类别进行识别。

作为示例，本申请实施例中，可以通过在指定单项式中添加针对非目标类别的置信度的权重因子，来降低将训练样本识别为非目标类别的置信度。换言之，指定单项式可以包括将训练样本识别为非目标类别的置信度，以及将所述训练样本识别为非目标类别的置信度的权重因子。

其中，权重因子的取值可以小于1。并且，权重因子可以为针对非目标类别的置信度的一个因子，也可以包括针对每个被识别为非目标类别的置信度对应的因子。另外，权重因子可以是预设的固定数值，也可以是在模型训练过程中动态计算并更新的，本申请对此不做限制。

由此，通过在模型训练过程中，添加能够对非目标类别的置信度进行打压的权重因子，来训练模型参数，从而为提升模型的识别准确率提供支持。

在一个实施例中，权重因子可以是基于将所述训练样本识别为目标类别的置信度、将所述训练样本识别为非目标类别的置信度、以及预定非线性函数确定的。

由此，对于任意一个样本，通过使用目标类别置信度和非目标类别置信度计算权重因子，增加对置信度数值较高的非目标类别的打压力度，拉大目标类别置信度与非目标类别置信度之间的差值，从而未提升模型的准确率提供支持。并且，采用非线性函数可以加速权重因子的非线性变动，从而加快非目标类别置信度的下降速率，加快模型训练。

在一个实施例中，权重因子可以为将待识别目标识别为非目标类别的置信度的权重因子，且可以通过以下公式确定所述权重因子：

应当理解的是，上述仅作为示例，来对本申请实施例的权重因子的计算方式进行解释说明，还可以通过其它计算方法或函数确定上述权重因子，本申请实施例对此不做限制。

实施例二

作为示例，本申请的如上所述的深度神经网络模型例如可以是Yolo v3模型，上述训练样本可以为图像。

图2示出了根据本申请一个实施例的深度神经网络模型的结构示意图。

如图2所示，本申请实施例的深度神经网络模型例如可以是以Yolo v3模型作为基础模型的改进模型，其中，与Yolo v3模型相似，本申请实施例的深度神经网络模型例如可以包含两部分网络结构，即特征提取网络和yolo网络。其中，例如可以使用darknet53网络作为特征提取网络。在其它实施例中，该深度神经网络模型可以为其它模型，该特征提取网络也可以替代成其他深度学习网络结构的模型，提取图像特征的层数的选择也可调整为网络结构中的其他层，本申请对此不做限制。

作为示例，以Yolo v3模型作为基础模型，该深度神经网络模型中包含的网络结构如下：

A)输入层(Input)：图像大小为width*height*channel，其中width为图像宽度、height为图像高度、channel为图像通道数。本申请实施例中使用图像例如可以均为jpg格式图像，图像输入例如可以为R、G、B三通道像素值。

B)卷积层：由卷积核的权值和偏置项构成。在一个卷积层中，输入数据首先经卷积核进行卷积计算，然后通过激活函数f得到输出的特征映射图，特征映射图是组合卷积多个通道的输入数据得到的结果，每个卷积核可生成一个特征映射图，计算方法如下：

其中，代表了连接第l层的i单元和l+1层的j单元的权值参数，是连接第l层偏置单元和第l+1层的j单元对应的参数。FM_i是第l层的特征映射图集合，代表第l层的第i个特征映射图。第l层获得的所有特征映射图分别与之对应的l+1层的j单元的权值相乘，求和之后加上第l层偏置单元和第l+1层的j单元对应的参数，然后通过一个激活函数就可以得到第l+1层的第j个特征映射图

C)BatchNorm网络层：归一化网络参数，可用于提高网络训练收敛速度，防止网络过拟合。计算方法如下：

其中，x^(k)为第k层特征值，为y^(k)归一化后的结果，μ为第k层特征均值，σ为第k层特征值标准差，γ^(k)和β^(k)为训练参数。

D)LeakyReLU网络层：常用激活函数，计算方法如下：

其中，x_i为输入，xy_i为输出，a_i为(1,+∞)内的固定参数。

E)上采样(Up Sampling)：采用内插值方法，放大图像；

F)残差(Residual)：残差网络结构中使用的Skip Connection结构。

G)卷积层(Conv2d层)：为原始卷积层，计算方法见b)。

H)卷积层网络(Conv)：由卷积层，BatchNorm网络层和LeakyReLU网络层组成。

本申请实施例的深度神经网络模型输出有三个分支，分别用来预测不同大小的待识别目标。其中，预测结果1(predict result 1)例如用来预测尺寸较大的待识别目标，预测结果3(predict result 3)用来预测尺寸较小的待识别目标，预测结果2(predictresult 2)用来预测尺寸介于两者之间的待识别目标。对每张图，深度神经网络模型的输出结果为检测出的目标信息，包括目标类别、目标框位置以及置信度(即，与识别的类别对应的预测概率)。

模型训练使用的损失(loss)函数例如可以包括下述的三部分：目标框位置损失、目标置信度损失、目标类别损失，其计算方法如下：

深度神经网络模型的整体损失函数即可以为：

Loss＝Loss_pos+Loss_class+Loss_confidence

由于在部分细分类别上，现有的Yolov3模型得到的类别置信度差别不大，导致模型在难分类别上分类效果不能达到理想性能。本申请实施例的深度神经网络模型对此进行改进，在现有Yolo v3模型基础上，添加了对非目标类别的置信度的打压方法，提高模型在难分类别上的识别准确度。

如前所述，本申请实施例主要通过在模型的损失函数中添加指定单项式，降低将所述训练样本识别为非目标类别的置信度，以实现对非目标类别的打压。指定单项式的计算方法如下：

a)求解所有目标类别的置信度的最小值，即最小目标类别置信度：

target_min＝min(p(c_obj))

其中，c_obj表示识别的目标类别，p(c_obj)表示将待识别目标识别为此目标类别的置信度。

b)计算非目标类别置信度的权重因子：

其中，c_i表示识别的第i个非目标类别，p(c_i)为识别的第i个非目标类别c_i的置信度，为对应于所述第i个非目标类别的权重因子，target_min为将所述至少一个待识别目标识别为目标类别的置信度的最小值，10和5为超参数，其目的是将差值转换到sigmoid的非线性区间。

c)计算非目标类别的置信度打压损失：

添加了非目标类别的置信度的打压损失后的模型损失函数如下：

Loss＝Loss_pos+Loss_class+Loss_confidence+Loss_{diff_punish}

在本申请的非目标类别置信度打压方法中，对任意一个样本，通过使用目标类别最小置信度与非目标类别置信度的差值计算非目标类别的权重因子，从而实现对高置信度非目标类别的打压，拉大将训练样本识别为目标类别的置信度(即预测概率)与将训练样本识别为非目标类别置信度(即预测概率)之间的差值，减少由于将样本识别为目标类别的置信度数值低于识别为非目标类别置信度数值导致的训练样本识别错误的可能性。

其中，为增加对高置信度的非目标类别的打压力度，本申请实施例中通过使用了sigmoid非线性函数增加权重因子的非线性。并且，在模型训练过程中，权重因子可以动态计算得到，实现对非目标类别的动态打压。

由此，本申请通过结合如上所述的指定单项式，对图2所示的深度神经网络模型进行训练及模型参数优化，使得训练得到的模型能够获取训练样本的全局及局部信息，捕获更细粒度的特征，能够细粒度地识别训练样本所包含的主要内容。并且，能够增大训练样本被识别为目标类别与非目标类别置信度的差值，从而提高基于该模型的目标检测的准确率。

实施例三

通过如上方法训练得到的深度神经网络模型可以用作目标检测模型，来对待检测对象进行目标检测，从而确定该待检测对象所属的类别。

图3示出了根据本申请一个实施例的目标检测方法的流程示意图。

如图3所示，在步骤S310，获取待检测对象。

与前述的训练样本相似，在此，待检测对象例如也可以是一副图像、一个视频、一段文本、一段语音等，或是多副图像、多个视频、多段文本、多段语音等，或是图像、视频、文本、语音等内容的任意组合，本申请对此不做限制。并且，在实际应用中，也可以根据需要，对所获取的待检测对象进行处理，以得到符合模型使用规范的待检测对象，在此不再赘述。

在步骤S320，采用深度神经网络模型识别所述待检测对象所属的类别，其中，所述深度神经网络模型是根据上述结合图1-2所述的模型训练方法训练得到的。

该深度神经网络模型的输出层可以包括多个输出函数，每个输出函数可以用于输出相应标签(例如类别标签)的预测结果，例如类别标签、类别标签对应的预测概率(本申请实施例中称之为置信度)等。基于所输出的各个类别标签，即可确定待检测对象所属的类别。

由此，基于本申请实施例训练的深度神经网络模型，即可实现对不同类型的待检测对象所属类别的识别。并且，基于该深度神经网络模型能够获取训练样本的全局及局部信息，捕获更细粒度的特征，能够细粒度地识别训练样本所包含的主要内容。并且，能够增大训练样本被识别为目标类别与非目标类别置信度的差值，从而提高基于该模型的目标检测的准确率。

实施例四

在一个实施例中，上述待检测对象可以是视频，基于本申请的深度神经网络模型，可以获得视频的视频标签(例如类别标签)。

具体地，如图4所示的视频标签提取流程示意图，在步骤S410，获取所述视频的至少一个视频帧，作为所述待检测对象。

在步骤S420，采用深度神经网络模型(例如NTP Yolo模型)识别各视频帧的类别标签。

在步骤S430，根据各视频帧的类别标签，确定所述视频的类别标签。

作为示例，例如可以通过投票的方法从视频的所有视频帧的检测结果中确定视频标签。

具体地，例如可以在步骤S431，将针对所述至少一个视频帧的类别标签中置信度大于置信度阈值的类别标签，作为候选类别标签，得到候选类别标签集。在步骤S432，将所述候选类别标签中出现次数大于预定次数阈值的类别标签，作为所述视频的视频标签。

结合一个应用例，在步骤S431，可以在每张视频帧图像的检测结果中，当某个类别置信度大于置信度阈值threshold_class时，将其添加到类别候选集中。在步骤S432，统计类别候选集中每个类别出现的次数，并将候选集中出现次数大于类别次数阈值threshold_label的类别作为视频的类别标签，也即视频标签。其中，置信度阈值threshold_class和次数阈值threshold_label可以为超参数，实际应用中其取值例如可以对应为0.3和3。

实施例五

基于图3-4所示的方法获得的视频标签可以为其上层应用领域(例如网络内容分类、推荐、检索等)提供支持。

图5示出了根据本申请一个实施例的视频推荐示例。

如图5左侧所示，针对一个视频(可以是完整视频，也可以是视频的片段，还可以是短视频等，本申请对此视频的具体实现不做限制)，可以执行与图4所示相同的处理，例如：

在步骤S501，针对一个视频对象选取至少一个视频帧；

在步骤S502，以基于上文训练方法训练得到的深度神经网络模型作为目标检测模型，对所述至少一个视频帧进行目标检测，以获得各视频帧对应的类别标签；

在步骤S503，从所获得的至少一个视频帧各自的类别标签中筛选符合条件(例如类别标签的置信度大于置信度阈值)的类别标签作为候选类别标签，从而得到候选类别标签集；

在步骤S504，从候选类别标签集中评选出视频的类别标签也即视频标签。基于所得到的视频标签，例如可以在视频推荐场景中进行视频推荐。

如图5所示，例如可以在步骤S505，基于视频推荐系统，将视频的标签信息与用户的用户互相进行匹配，从而得到用户感兴趣的视频集合，从而能够像用户进行相关视频推荐。

由此，已经结合图5所示的流程图说明了本申请实施例训练得到的深度神经网络模型在视频推荐场景的一个示例。由于本申请的深度神经网络模型能够获得捕获更细粒度的特征，能够细粒度地识别视频所包含的主要内容，准确地得到该视频的视频标签，从而为基于该视频标签的视频推荐提供支持，极大地提升视频推荐的准确率。

基于相同的构思，本申请实施例还对应提供了一种模型训练装置以及目标检测装置。

实施例六

图6示出了根据本申请一个实施例的模型训练装置的结构示意图。

如图6所示，本申请的模型训练装置600例如可以包括样本获取单元610、类别识别单元620、模型损失单元630和模型训练单元640。

样本获取单元610可以用于获取训练样本。

类别识别单元620可以用于采用深度神经网络模型识别所述训练样本所属的类别。

模型损失单元630可以用于采用损失函数确定所识别的类别与所述训练样本的期望类别之间的损失值，其中，所述损失函数中包括指定单项式，所述指定单项式用于降低将所述训练样本识别为非期望类别的置信度。

模型训练单元640可以用于根据确定的所述损失值优化所述深度神经网络模型。

在一个实施例中，所述训练样本包括至少一个待识别目标，所述深度神经网络模型对所述至少一个待识别目标所属的类别进行识别，其中，所述权重因子为将待识别目标识别为非目标类别的置信度的权重因子，且通过以下公式确定所述权重因子：

实施例七

图7示出了根据本申请一个实施例的目标检测装置的结构示意图。

如图7所示，本申请的目标检测装置700例如可以包括检测对象获取单元710和类别识别单元720。

检测对象获取单元710可以用于获取待检测对象。

类别识别单元720可以用于采用深度神经网络模型识别所述待检测对象所属的类别，其中，所述深度神经网络模型是如前所述的方法训练得到的。

在一个实施例中，所述待检测对象可以为视频，检测对象获取单元710可以用于：获取所述视频的至少一个视频帧，作为所述待检测对象。其中，检测对象获取单元710可以用于以预定时间间隔对所述视频进行采样得到所述至少一个视频帧。

类别识别单元720可以用于：采用深度神经网络模型识别各视频帧的类别标签，并根据各视频帧的类别标签，确定所述视频的类别标签。其中，在一个实施例中，类别识别单元720例如可以：将针对所述至少一个视频帧的类别标签中置信度大于置信度阈值的类别标签，作为候选类别标签；将所述候选类别标签中出现次数大于预定次数阈值的类别标签，作为所述视频的视频标签。

本申请实施例的模型训练装置以及目标检测装置的具体实现，与上文结合图1-2所述的模型训练方法以及结合图3-5所述的目标检测方法的实现相同或相似，具体可参见上文的相关描述，在此不再赘述。

在介绍了本申请示例性实施方式的一种模型的训练方法和装置、目标检测方法和装置之后，接下来，介绍根据本申请的另一示例性实施方式的计算设备。

所属技术领域的技术人员能够理解，本申请的各个方面可以实现为系统、方法或程序产品。因此，本申请的各个方面可以具体实现为以下形式，即：完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等)，或硬件和软件方面结合的实施方式，这里可以统称为“电路”、“模块”或“系统”。

在一些可能的实施方式中，根据本申请的计算设备可以至少包括至少一个处理器、以及至少一个存储器。其中，存储器存储有程序代码，当程序代码被处理器执行时，使得处理器执行本说明书上述描述的根据本申请各种示例性实施方式的目标检测模型的训练方法中的步骤。例如，处理器可以执行如图1中所示的步骤S110-S140或者如图3所示的步骤S310-S320或者如图4或5所示的步骤。

下面参照图8来描述根据本申请的这种实施方式的计算设备130。图8显示的计算设备130仅仅是一个示例，不应对本申请实施例的功能和使用范围带来任何限制。

如图8所示，计算设备130以通用计算设备的形式表现。计算设备130的组件可以包括但不限于：上述至少一个处理器131、上述至少一个存储器132、连接不同系统组件(包括存储器132和处理器131)的总线133。

总线133表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器、外围总线、处理器或者使用多种总线结构中的任意总线结构的局域总线。

存储器132可以包括易失性存储器形式的可读介质，例如随机存取存储器(RAM)1321和/或高速缓存存储器1322，还可以进一步包括只读存储器(ROM)1323。

存储器132还可以包括具有一组(至少一个)程序模块1324的程序/实用工具1325，这样的程序模块1324包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

计算设备130也可以与一个或多个外部设备134(例如键盘、指向设备等)通信，还可与一个或者多个使得用户能与计算设备130交互的设备通信，和/或与使得该计算设备130能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口135进行。并且，计算设备130还可以通过网络适配器136与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器136通过总线133与用于计算设备130的其它模块通信。应当理解，尽管图中未示出，可以结合计算设备130使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理器、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

在一些可能的实施方式中，本申请提供的一种目标检测模型的训练方法的各个方面还可以实现为一种程序产品的形式，其包括程序代码，当程序产品在计算机设备上运行时，程序代码用于使计算机设备执行本说明书上述描述的根据本申请各种示例性实施方式的一种目标检测模型的训练方法中的步骤，例如，计算机设备可以执行如图1中所示的步骤S110-S140或者如图3所示的步骤S310-S320或者如图4或5所示的步骤。

程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

本申请的实施方式的用于目标检测模型的训练的程序产品可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码，并可以在计算设备上运行。然而，本申请的程序产品不限于此，在本文件中，可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括——但不限于——电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质，该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

可读介质上包含的程序代码可以用任何适当的介质传输，包括——但不限于——无线、有线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言的任意组合来编写用于执行本申请操作的程序代码，程序设计语言包括面向对象的程序设计语言—诸如Java、C++等，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算设备，或者，可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。

应当注意，尽管在上文详细描述中提及了装置的若干单元或子单元，但是这种划分仅仅是示例性的并非强制性的。实际上，根据本申请的实施方式，上文描述的两个或更多单元的特征和功能可以在一个单元中具体化。反之，上文描述的一个单元的特征和功能可以进一步划分为由多个单元来具体化。

此外，尽管在附图中以特定顺序描述了本申请方法的操作，但是，这并非要求或者暗示必须按照该特定顺序来执行这些操作，或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地，可以省略某些步骤，将多个步骤合并为一个步骤执行，和/或将一个步骤分解为多个步骤执行。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本申请的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。

显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

Claims

1.一种模型训练方法，其特征在于，所述方法包括：

获取训练样本；

采用深度神经网络模型识别所述训练样本所属的类别；

采用损失函数确定所识别的类别与所述训练样本的目标类别之间的损失值，其中，所述损失函数中包括指定单项式，所述指定单项式用于降低将所述训练样本识别为非目标类别的置信度；

根据确定的所述损失值优化所述深度神经网络模型。

2.根据权利要求1所述的方法，其特征在于，

所述指定单项式包括将训练样本识别为非目标类别的置信度，以及将所述训练样本识别为非目标类别的置信度的权重因子，且所述权重因子的取值小于1。

3.根据权利要求2所述的方法，其特征在于，

所述权重因子是基于将所述训练样本识别为目标类别的置信度、将所述训练样本识别为非目标类别的置信度、以及预定非线性函数确定的。

4.根据权利要求3所述的方法，其特征在于，所述训练样本包括至少一个待识别目标，所述深度神经网络模型对所述至少一个待识别目标所属的类别进行识别，

其中，所述权重因子为将待识别目标识别为非目标类别的置信度的权重因子，且通过以下公式确定所述权重因子：

5.一种目标检测方法，其特征在于，包括：

获取待检测对象；

采用深度神经网络模型识别所述待检测对象所属的类别，其中，所述深度神经网络模型是根据权利要求1-4中任何一项所述的方法训练得到的。

6.根据权利要求5所述的方法，其特征在于，所述待检测对象为视频，获取待检测对象包括：

获取所述视频的至少一个视频帧，作为所述待检测对象，

采用深度神经网络模型识别所述待检测对象所属的类别，包括：

采用深度神经网络模型识别各视频帧的类别标签；以及

根据各视频帧的类别标签，确定所述视频的类别标签。

7.根据权利要求6所述的方法，其特征在于，获取所述视频的至少一个视频帧，包括：

以预定时间间隔对所述视频进行采样得到所述至少一个视频帧。

8.根据权利要求6所述的方法，其特征在于，根据各视频帧的类别标签确定所述视频的类别标签，包括：

将针对所述至少一个视频帧的类别标签中置信度大于置信度阈值的类别标签，作为候选类别标签；

将所述候选类别标签中出现次数大于预定次数阈值的类别标签，作为所述视频的视频标签。

9.一种模型训练装置，其特征在于，所述装置包括：

样本获取单元，用于获取训练样本；

类别识别单元，用于采用深度神经网络模型识别所述训练样本所属的类别；

模型损失单元，用于采用损失函数确定所识别的类别与所述训练样本的期望类别之间的损失值，其中，所述损失函数中包括指定单项式，所述指定单项式用于降低将所述训练样本识别为非期望类别的置信度；

模型训练单元，用于根据确定的所述损失值优化所述深度神经网络模型。

10.一种目标检测装置，其特征在于，包括：

检测对象获取单元，用于获取待检测对象；

类别识别单元，用于采用深度神经网络模型识别所述待检测对象所属的类别，其中，所述深度神经网络模型是根据权利要求1-4中任何一项所述的方法训练得到的。

11.一种计算设备，其特征在于，包括至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行根据权利要求1-8中任何一项所述的方法。

12.一种计算机存储介质，其特征在于，所述计算机存储介质存储有计算机可执行指令，所述计算机可执行指令用于使计算机执行根据权利要求1-8中任何一项所述的方法。