CN107609598A

CN107609598A - 图像鉴别模型训练方法、装置及可读存储介质

Info

Publication number: CN107609598A
Application number: CN201710887455.3A
Authority: CN
Inventors: 肖诗卉; 陈少杰; 张文明
Original assignee: Wuhan Douyu Network Technology Co Ltd
Current assignee: Wuhan Douyu Network Technology Co Ltd
Priority date: 2017-09-27
Filing date: 2017-09-27
Publication date: 2018-01-19

Abstract

本发明实施例提供一种图像鉴别模型训练方法、装置及可读存储介质。该方法包括：获取训练样本；将所述训练样本输入到所述初始卷积神经网络模型中进行训练，其中在所述训练样本在输入每一层神经网络之前对所述训练样本进行归一化处理；将训练过程中的多层卷积层提取的图像特征进行融合，生成融合多层图像特征后的待分类图像；将所述待分类图像输入到损失分类器中进行分类，得到分类结果；根据所述分类结果确定目标调整所述初始卷积神经网络模型的网络参数，获得目标网络参数，并基于所述目标网络参数得到训练好的图像鉴别模型。上述技术方案能够有效提高图像鉴别的准确性，并减少网络模型的训练时间。

Description

图像鉴别模型训练方法、装置及可读存储介质

技术领域

本发明涉及计算机技术领域，具体而言，涉及一种图像鉴别模型训练方法、装置及可读存储介质。

背景技术

随着互联网行业的蓬勃发展，带动了直播行业的快速发展。直播平台是一个可以全民参与的平台，使人们的生活变得丰富多彩。然而直播中也会出现不良行为，例如主播穿着过于暴露。如果单单依靠人工去监督各个直播间，无法满足海量视频图像处理的需求。因此，利用深度学习来进行图像处理，是构建智能图像处理系统的重要方法。然而目前视频图像中不良行为的鉴别还处于研究的阶段，存在鉴别准确率不高，并且训练时间较长的问题。

发明内容

为了克服现有技术中的上述不足，本发明的目的在于提供一种图像鉴别模型训练方法、装置及可读存储介质，能够有效提高图像鉴别的准确性，并减少网络模型的训练时间。

为了实现上述目的，本发明较佳实施例采用的技术方案如下：

本发明较佳实施例提供一种图像鉴别模型训练方法，应用于用户终端，所述用户终端中预先存储有初始卷积神经网络模型，所述初始卷积神经网络模型包括多层卷积层，所述方法包括：

获取训练样本；

将所述训练样本输入到所述初始卷积神经网络模型中进行训练，其中在所述训练样本在输入每一层神经网络之前对所述训练样本进行归一化处理；

将训练过程中的多层卷积层提取的图像特征进行融合，生成融合多层图像特征后的待分类图像；

将所述待分类图像输入到损失分类器中进行分类，得到分类结果；

根据所述分类结果确定目标调整所述初始卷积神经网络模型的网络参数，获得目标网络参数，并基于所述目标网络参数得到训练好的图像鉴别模型。

在本发明较佳实施例中，所述方法还包括：

将待鉴别视频图像输入到所述图像鉴别模型中进行图像鉴别，得到鉴别结果。

在本发明较佳实施例中，所述获取训练样本的步骤，包括：

获取视频图像数据，所述视频图像数据包括图像训练集和图像测试集；

对所述图像训练集进行加噪处理，获得训练样本，所述训练样本包括所述图像训练集以及加噪处理后的图像训练集。

在本发明较佳实施例中，所述将所述训练样本输入到所述卷积神经网络模型中进行训练，并在所述训练样本输入每一层网络前对所述训练样本进行归一化处理的步骤，包括：

在所述卷积神经网络模型中的激活函数层之后配置用于在每一层卷积层的数据输入操作前对数据进行归一化处理的归一化层；

将每一层输入的训练样本进行批量归一化，以使归一化后的训练样本满足均值为0、方差为1的分布。

在本发明较佳实施例中，所述初始卷积神经网络模型包括卷积层、激活函数层和全连接层，所述将训练过程中的多层卷积层提取的图像特征进行融合，生成融合多层图像特征后的待分类图像的步骤，包括：

将训练样本通过所述卷积层依次进行前向卷积运算，并传入所述激活函数层进行激活，得到多层卷积层提取的图像特征；

将所述多层卷积层提取的图像特征通过所述全连接层进行融合，得到融合多层图像特征后的待分类图像。

在本发明较佳实施例中，所述将所述待分类图像输入到损失分类器中进行分类，得到分类结果的步骤，包括：

将所述待分类图像输入到损失分类器中进行分类，输出loss损失函数图；

根据所述loss损失函数图得到对应的网络收敛趋势。

在本发明较佳实施例中，所述根据所述分类结果确定目标调整所述卷积神经网络模型的网络参数，获得目标网络参数，并基于所述目标网络参数得到训练好的图像鉴别模型的步骤，包括：

根据所述网络收敛趋势调整所述卷积神经网络模型的网络参数，其中，所述网络参数包括基本学习率、最大迭代次数和学习策略；

根据调整后的网络参数继续训练所述卷积神经网络模型，直到所述网络参数满足预设条件时，将最终的网络参数作为所述目标网络参数，并基于所述目标网络参数得到训练好的图像鉴别模型。

本发明较佳实施例还提供一种图像鉴别模型训练装置，应用于用户终端，所述用户终端中预先存储有初始卷积神经网络模型，所述初始卷积神经网络模型包括多层卷积层，所述装置包括：

获取模块，用于获取训练样本；

训练模块，用于将所述训练样本输入到所述初始卷积神经网络模型中进行训练，其中在所述训练样本在输入每一层神经网络之前对所述训练样本进行归一化处理；

融合模块，用于将训练过程中的多层卷积层提取的图像特征进行融合，生成融合多层图像特征后的待分类图像；

分类模块，用于将所述待分类图像输入到损失分类器中进行分类，得到分类结果；

网络参数获得模块，用于根据所述分类结果确定目标调整所述初始卷积神经网络模型的网络参数，获得目标网络参数，并基于所述目标网络参数得到训练好的图像鉴别模型。

本发明较佳实施例还提供一种可读存储介质，所述可读存储介质中存储有计算机程序，所述计算机程序运行时控制所述可读存储介质所在用户终端执行上述的图像鉴别模型训练方法。

相对于现有技术而言，本发明具有以下有益效果：

本发明实施例提供的图像鉴别模型训练方法、装置及可读存储介质，通过将训练样本输入到初始卷积神经网络模型中进行训练，在所述训练样本在输入每一层神经网络之前对所述训练样本进行归一化处理，然后将训练过程中的多层卷积层提取的图像特征进行融合，生成融合多层图像特征后的待分类图像，再将所述待分类图像输入到损失分类器中进行分类，得到分类结果，最后根据所述分类结果确定目标调整所述初始卷积神经网络模型的网络参数，获得目标网络参数，并基于所述目标网络参数得到训练好的图像鉴别模型。上述技术方案通过融合多层的特征进行最后的分类，可以有效提高图像鉴别的准确性；同时在所述训练样本在输入每一层神经网络之前对所述训练样本进行归一化处理，保证了每一层神经网络的数据分布范围，这样不需要每次训练网络时再去适应新的数据分布，也不需要在训练之前不用再刻意多次调整学习率，可以大幅度提高训练速度，减少网络模型的训练时间。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它相关的附图。

图1为本发明较佳实施例提供的用户终端的一种方框示意图；

图2为本发明较佳实施例提供的图像鉴别模型训练方法的一种流程示意图；

图3为本发明较佳实施例提供的图像鉴别模型训练方法的另一种流程示意图；

图4为本发明较佳实施例提供的图像鉴别模型训练装置的一种功能模块图；

图5为本发明较佳实施例提供的图像鉴别模型训练装置的另一种功能模块图。

图标：100-用户终端；110-存储器；120-处理器；130-通信单元；140-存储控制器；150-显示单元；200-图像鉴别模型训练装置；210-获取模块；220-训练模块；230-融合模块；240-分类模块；250-网络参数获得模块；260-鉴别模块。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。

因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。同时，在本发明的描述中，术语"第一"、"第二"等仅用于区分描述，而不能理解为指示或暗示相对重要性。

下面结合附图，对本发明的一些实施方式作详细说明。在不冲突的情况下，下述的实施例及实施例中的特征可以相互组合。

请参阅图1，为本发明较佳实施例提供的用户终端100的方框示意图。本发明实施例中，所述用户终端100可以是，但不限于，智能手机、个人电脑(Personal Computer，PC)、笔记本电脑、平板电脑、个人数字助理(Personal Digital Assistant，PDA)、移动上网设备(Mobile Internet Device，MID)等。所述用户终端100的操作系统可以是，但不限于，安卓(Andriod)系统、iOS系统、Windows系统、Linux系统、OSX系统等。

如图1所示，所述用户终端100可以包括存储器110、处理器120、通信单元130、存储控制器140以及显示单元150。所述存储器110、处理器120、通信单元130、存储控制器140以及显示单元150相互之间直接或间接地电性连接，以实现数据的传输或交互。例如，这些元件相互之间可通过一条或多条通讯总线或信号线实现电性连接。存储器110中存储有图像鉴别模型训练装置200，所述图像鉴别模型训练装置200包括至少一个可以软件或固件(Firmware)的形式存储于所述存储器110中的软件功能模块，所述处理器120通过运行存储在存储器110内的软件程序以及功能模块，如本发明实施例中的图像鉴别模型训练装置200，从而执行各种功能应用以及数据处理，即实现本发明实施例中的图像鉴别模型训练方法。

其中，所述存储器110可包括高速随机存储器，还可包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其它非易失性固态存储器。在一些实例中，存储器110可进一步包括相对于处理器120远程设置的远程存储器，这些远程存储器可以通过网络连接至所述用户终端100。其中，存储器110用于存储程序，所述处理器120在接收到执行指令后，执行所述程序。进一步地，通信单元130将各种输入/输入装置耦合至处理器120以及存储器110，上述存储器110内的软件程序以及模块还可包括操作系统，其可包括各种用于管理系统任务(例如内存管理、存储设备控制、电源管理等)的软件组件和/或驱动，并可与各种硬件或软件组件相互通讯，从而提供其它软件组件的运行环境。

所述处理器120可以是一种集成电路芯片，具有信号的处理能力。上述的处理器120可以是通用处理器，包括中央处理器(Central Processing Unit，CPU)、网络处理器(Network Processor，NP)等。还可以是数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或者其它可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者也可以是任何常规的处理器等。

所述显示单元150可以在所述用户终端100与用户之间同时提供一个输出及输入界面。具体地，所述显示单元150向用户显示视频或者图像输出，这些视频输出的内容可包括文字、图形、视频、及其任意组合。一些输出结果是对应于一些用户界面对象。此外，所述显示单元150还可以接收用户的输入，例如用户的点击、滑动等手势操作，以便用户界面对象对这些用户的输入做出响应。检测用户输入的技术可以是基于电阻式、电容式或者其它任意可能的触控检测技术。可选地，所述显示单元150的具体实例可以包括但并不限于液晶显示器或发光聚合物显示器。

可以理解，图1所示的结构仅为示意，所述用户终端100还可以包括比图1中所示更多或者更少的组件，或者具有与图1所示不同的配置。图1中所示的各组件可以采用硬件、软件或其组合实现。

请参阅图2，为本发明较佳实施例提供的图像鉴别模型训练方法的一种流程示意图，所述方法由图1所示的用户终端100执行。所应说明的是，本发明实施例提供的方法不以图2及以下所述的具体顺序为限制。所述方法的具体流程如下：

步骤S210，获取训练样本。

本实施例中，可选地，可以从直播视频或者录制视频中截取的视频图像数据，然后将所述截取的视频图像数据转化为在卷积神经网络中要求的lmdb格式，并进行减图片均值操作；。所述视频图像数据可以包括图像训练集和图像测试集，其中，所述图像训练集可以用于后续的样本训练，所述图像测试集可以用于后续的测试验证。

可选地，为了获得更大的图像训练集，可以对所述图像训练集进行加噪处理，获得加噪处理后的图像训练集，并将所述图像训练集以及加噪处理后的图像训练集作为所述训练样本用于训练，从而实现了数据集扩充，提取更多的图像特征，同时提高了网络对质量不高的图片的识别准确率，也使卷积神经网络的鲁棒性更好。

步骤S220，将所述训练样本输入到所述初始卷积神经网络模型中进行训练，其中在所述训练样本在输入每一层神经网络之前对所述训练样本进行归一化处理。

本实施例中，所述用户终端100中预先存储有所述初始卷积神经网络模型，可选地，所述初始神经网络模型可包括卷积层、激活函数层和全连接层。在将所述训练样本输入到所述初始卷积神经网络模型中进行训练的过程中，可以在所述卷积神经网络模型中的激活函数层ReLU之后配置用于在每一层卷积层的数据输入操作前对数据进行归一化处理的归一化层，其type定义为BatchNorm，例如，以第一层的卷积层conv1_1为例，BatchNorm层的输入为conv1_1，输出也是conv1_1，之后搭配一个scale层。由此，所述归一化层可以将每一层输入的训练样本进行批量归一化，以使归一化后的训练样本满足均值为0、方差为1的分布。基于此，不需要每次训练所述初始卷积神经网络模型时再去适应新的数据分布，在训练之前也不用再刻意多次调整学习率，可以随意采用初始很大的学习率，学习率的衰减速度加快快，从而可以大幅度提高训练速度。

步骤S230，将训练过程中的多层卷积层提取的图像特征进行融合，生成融合多层图像特征后的待分类图像。

具体地，由于卷积神经网络里面存在降采样的操作，目的是为了降维，减少网络中参数的个数，但是在不断降维的过程中会丢失图片中的细节信息，导致对小对象的识别效果不佳。而在本实施例中，通过将训练样本通过所述卷积层依次进行前向卷积运算，以获取所述训练样本的图像特征，并传入所述激活函数层进行激活，得到多层卷积层提取的图像特征，最后将所述多层卷积层提取的图像特征通过所述全连接层进行融合，得到融合多层图像特征后的待分类图像，例如，可以将conv3_3、conv4_3、conv5_3这三个卷积层拼接成一个新的卷积层，让图像特征能够包含多层语义信息，使得图像特征的信息完备性更强。通过将上述融合多层图像特征后的待分类图像进行分类，可以有效提高对小目标的识别效率，从而提高鉴别的准确率。

步骤S240，将所述待分类图像输入到损失分类器中进行分类，得到分类结果。

本实施例中，首先将所述待分类图像输入到损失分类器中进行分类，输出loss损失函数图，然后根据所述loss损失函数图得到对应的网络收敛趋势，所述网络收敛趋势即作为所述待分类图像的分类结果。

其中，在所述loss损失函数图中，如果loss曲线趋于平稳，但是没有降到足够低(例如,0.0x这个数量级)，那么随着学习率learningrate的进一步降低，loss还可能继续减小。如果卷积神经网络训练已经完成，但loss依旧较大，此时表示可能训练的迭代次数不够，可以通过设置一个较小的基础学习率，例如0.001或者0.0001在当前网络基础上进行相应的调整。

步骤S250，根据所述分类结果确定目标调整所述初始卷积神经网络模型的网络参数，获得目标网络参数，并基于所述目标网络参数得到训练好的图像鉴别模型。

本实施例中，可以根据所述网络收敛趋势调整所述卷积神经网络模型的网络参数，其中，所述网络参数可以包括基本学习率、最大迭代次数或者学习策略，再根据调整后的网络参数继续训练所述卷积神经网络模型，直到所述网络参数满足预设条件时，将最终的网络参数作为所述目标网络参数，并基于所述目标网络参数得到训练好的图像鉴别模型。可选地，上述预设条件可以是训练次数达到最大迭代次数。

进一步地，请参阅图3，所述方法还可以包括：

步骤S260，将待鉴别视频图像输入到所述图像鉴别模型中进行图像鉴别，得到鉴别结果。

本实施例中，上述训练好的图像鉴别模型可以用于所述待鉴别视频图像的鉴别，通过对初试卷积神经网络进行改进，能更好的识别小目标从而提升整体的识别准确率。除此之外，减少了训练时间，不会增加额外的硬件开销，节约了训练成本，解决了现有的视频图像中不良行为鉴别系统中存在的一些弊端，使得图像识别更加智能。

进一步地，请参阅图4，本发明较佳实施例还提供一种图像鉴别模型训练装置200，所述装置安装于所述存储器110中并包括一个或多个由所述处理器120执行的软件功能模块，所述装置包括：

获取模块210，用于获取训练样本。

训练模块220，用于将所述训练样本输入到所述初始卷积神经网络模型中进行训练，其中在所述训练样本在输入每一层神经网络之前对所述训练样本进行归一化处理。

融合模块230，用于将训练过程中的多层卷积层提取的图像特征进行融合，生成融合多层图像特征后的待分类图像。

分类模块240，用于将所述待分类图像输入到损失分类器中进行分类，得到分类结果。

网络参数获得模块250，用于根据所述分类结果确定目标调整所述初始卷积神经网络模型的网络参数，获得目标网络参数，并基于所述目标网络参数得到训练好的图像鉴别模型。

进一步地，请参阅图5，所述装置还可以包括：

鉴别模块260，用于将待鉴别视频图像输入到所述图像鉴别模型中进行图像鉴别，得到鉴别结果。

本实施例中的各功能模块的具体操作方法可参照上述方法实施例中相应步骤的详细描述，在此不再重复赘述。

进一步地，本发明较佳实施例还提供一种可读存储介质，所述可读存储介质中存储有计算机程序，所述计算机程序运行时控制所述可读存储介质所在用户终端100执行上述的图像鉴别模型训练方法。

综上所述，本发明实施例提供的图像鉴别模型训练方法、装置及可读存储介质，通过将训练样本输入到初始卷积神经网络模型中进行训练，在所述训练样本在输入每一层神经网络之前对所述训练样本进行归一化处理，然后将训练过程中的多层卷积层提取的图像特征进行融合，生成融合多层图像特征后的待分类图像，再将所述待分类图像输入到损失分类器中进行分类，得到分类结果，最后根据所述分类结果确定目标调整所述初始卷积神经网络模型的网络参数，获得目标网络参数，并基于所述目标网络参数得到训练好的图像鉴别模型。上述技术方案通过融合多层的特征进行最后的分类，可以有效提高图像鉴别的准确性；同时在所述训练样本在输入每一层神经网络之前对所述训练样本进行归一化处理，保证了每一层神经网络的数据分布范围，这样不需要每次训练网络时再去适应新的数据分布，也不需要在训练之前不用再刻意多次调整学习率，可以大幅度提高训练速度，减少网络模型的训练时间。

在本发明所提供的实施例中，应该理解到，所揭露的装置和方法，也可以通过其它的方式实现。以上所描述的装置和方法实施例仅仅是示意性的，例如，附图中的流程图和框图显示了根据本发明的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现方式中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

另外，在本发明各个实施例中的各功能模块可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或两个以上模块集成形成一个独立的部分。

所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，电子设备，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。

需要说明的是，在本文中，术语"包括"、"包含"或者其任何其它变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其它要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句"包括一个……"限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其它的具体形式实现本发明。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。

Claims

1.一种图像鉴别模型训练方法，应用于用户终端，其特征在于，所述用户终端中预先存储有初始卷积神经网络模型，所述初始卷积神经网络模型包括多层卷积层，所述方法包括：

获取训练样本；

2.根据权利要求1所述的图像鉴别模型训练方法，其特征在于，所述方法还包括：

3.根据权利要求1所述的图像鉴别模型训练方法，其特征在于，所述获取训练样本的步骤，包括：

4.根据权利要求1所述的图像鉴别模型训练方法，其特征在于，所述将所述训练样本输入到所述卷积神经网络模型中进行训练，并在所述训练样本输入每一层网络前对所述训练样本进行归一化处理的步骤，包括：

5.据权利要求1所述的图像鉴别模型训练方法，其特征在于，所述初始卷积神经网络模型包括卷积层、激活函数层和全连接层，所述将训练过程中的多层卷积层提取的图像特征进行融合，生成融合多层图像特征后的待分类图像的步骤，包括：

6.根据权利要求1所述的图像鉴别模型训练方法，其特征在于，所述将所述待分类图像输入到损失分类器中进行分类，得到分类结果的步骤，包括：

根据所述loss损失函数图得到对应的网络收敛趋势。

7.根据权利要求6所述的图像鉴别模型训练方法，其特征在于，所述根据所述分类结果确定目标调整所述卷积神经网络模型的网络参数，获得目标网络参数，并基于所述目标网络参数得到训练好的图像鉴别模型的步骤，包括：

8.一种图像鉴别模型训练装置，应用于用户终端，其特征在于，所述用户终端中预先存储有初始卷积神经网络模型，所述初始卷积神经网络模型包括多层卷积层，所述装置包括：

获取模块，用于获取训练样本；

9.根据权利要求8所述的图像鉴别模型训练装置，其特征在于，所述装置还包括：

鉴别模块，用于将待鉴别视频图像输入到所述图像鉴别模型中进行图像鉴别，得到鉴别结果。

10.一种可读存储介质，所述可读存储介质中存储有计算机程序，其特征在于，所述计算机程序运行时控制所述可读存储介质所在用户终端执行权利要求1-7中任意一项所述的图像鉴别模型训练方法。