CN112232425A

CN112232425A - 图像处理方法、装置、存储介质及电子设备

Info

Publication number: CN112232425A
Application number: CN202011133246.8A
Authority: CN
Inventors: 胡风; 朱安杰
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-10-21
Filing date: 2020-10-21
Publication date: 2021-01-15
Anticipated expiration: 2040-10-21
Also published as: CN112232425B

Abstract

本申请实施例公开了一种图像处理方法、装置、存储介质及电子设备，其中图像处理方法包括：获取第一样本图像集，第一样本图像集包括多个带有分类标注信息的第一样本图像；对第一样本图像进行画面风格转换处理，得到指定画面风格的目标图像集；基于目标图像集及相应的分类标注信息对预设分类神经网络进行训练，得到训练后的分类神经网络；基于训练后的分类神经网络对待处理图像进行处理。本方案通过对带有标注的图像集进行风格转换，以快速高效获取大量有标注的指定风格的分类数据集用于训练分类神经网络，使分类神经网络具备智能对该指定画面风格图像进行分类处理的能力，提升了神经网络的分类效果。

Description

图像处理方法、装置、存储介质及电子设备

技术领域

本申请涉及信息处理技术领域，具体涉及一种图像处理方法、装置、存储介质及电子设备。

背景技术

近年来基于深度神经网络的图像分类和特征提取方法取得了很多成果。ImageNet、Open Image Dataset等集推动基于深度神经网络的图像分类取得了巨大进步。

研究发现，基于ImageNet训练的深度神经网络主要基于图像的纹理进行推断，然而也会出现误判的情况。例如，若用线条画出猫的形状、用大象的皮肤材质进行填充，则该深度神经网络会将图像识别为大象。可知，当前发展的面向真实场景的深度神经分类网络并不通用。尤其是对于动漫场景而言，相同物体在不同动漫中的表现风格存在巨大差异，导致所获取的特征质量较差，特征用于检索和视频、图片理解效果不佳。而传统特征提取方法(如SIFT、RANSAC)无法准确表示动漫图片，导致动漫场景下的图像分类效果较差。

发明内容

本申请实施例提供一种图像处理方法、装置、存储介质及电子设备，可快速高效地训练分类神经网络，提升神经网络的分类效果。

本申请实施例提供了一种图像处理方法，包括：

获取第一样本图像集，所述第一样本图像集包括多个带有分类标注信息的第一样本图像；

对所述第一样本图像进行画面风格转换处理，得到指定画面风格的目标图像集；

基于所述目标图像集及相应的分类标注信息对预设分类神经网络进行训练，得到训练后的分类神经网络；

基于训练后的分类神经网络对待处理图像进行处理。

相应的，本申请实施例还提供了一种图像处理装置，包括：

第一获取单元，用于获取第一样本图像集，所述第一样本图像集包括多个带有分类标注信息的第一样本图像；

转换单元，用于处理单元，用于对所述第一样本图像进行画面风格转换处理，得到指定画面风格的目标图像集；

训练单元，用于基于所述目标图像集及相应的分类标注信息对预设分类神经网络进行训练，得到训练后的分类神经网络；

处理单元，用于基于训练后的分类神经网络对待处理图像进行处理。

在一实施例中，还包括：

第二获取单元，用于获取第一样本图像集，获取不同画面风格的第二样本图像，得到第二样本图像集；

第三获取单元，用于基于所述第二样本图像集对预设的风格迁移网络进行训练，获取不同风格的风格矩阵；

所述转换单元用于：

利用所述风格迁移网络，从不同风格的风格矩阵中选取目标风格矩阵对所述第一样本图像进行画面风格转换处理，得到指定风格的目标图像集。

在一实施例中，在从不同风格的风格矩阵中选取目标风格矩阵对所述第一样本图像进行画面风格转换处理时，所述转换单元用于：

对所述第一样本图像提取内容特征；

基于所述目标风格矩阵对所述内容特征进行风格化处理，生成风格化后的融合特征；

基于所述融合特征对所述第一样本图像进行还原，得到转换画面风格后的目标图像。

在一实施例中，所述第三获取单元包括：

获取子单元，用于将所述第二样本图像集中每一样本图像输入至预设的风格迁移网络中，以获取每一样本图像的中间层特征；

生成子单元，用于基于所述中间层特征生成每一样本图像的风格矩阵；

聚类子单元，用于对生成的风格矩阵进行聚类，并根据聚类结果确定不同风格的风格矩阵。

在一实施例中，在对生成的风格矩阵进行聚类时，所述聚类子单元用于：

对生成的每一风格矩阵计算特征值；

基于所述特征值计算不同风格矩阵之间的欧式距离；

将得到的欧式距离与预设值进行比较，并将欧式距离小于预设值的风格矩阵划分至同一风格集合，以对风格矩阵进行聚类；

根据聚类结果从每一风格集合中选取一风格矩阵，以得到不同风格的风格矩阵。

在一实施例中，所述处理单元用于：

基于训练后的分类神经网络对所述待处理图像进行识别，得到识别结果。

在一实施例中，待处理图像包括：视频帧序列；所述处理单元用于：

基于训练后的分类神经网络确定所述视频帧序列中相邻视频帧之间的相似度，得到相似度结果；

根据所述相似度结果对所述视频帧序列进行划分，得到多个子视频帧序列。

在一实施例中，训练后的分类神经网络包括：特征提取模块和特征向量化模块；所述处理单元用于：

通过所述特征提取模块对所述待处理图像进行图像特征提取；

通过所述特征向量化模块对提取的图像特征进行向量化处理，生成指定维度的特征向量；

根据所述指定维度的特征向量从预设图像库中检索匹配的目标图像。

在一实施例中，所述训练单元用于：

根据所述目标图像集及相应的分类标注信息，构建训练数据集；

获取训练数据集中每个数据对应的分类真实值；

将训练数据集中的数据输入至预设分类神经网络中，得到训练数据集中每个数据对应的分类预测值；

基于所述分类预测值和所述分类真实值对所述预设分类神经网络进行收敛，得到训练后的分类神经网络。

相应的，本申请实施例还提供了一种存储介质，所述存储介质存储有多条指令，所述指令适于处理器进行加载，以执行如上所述图像处理方法中的步骤。

相应的，本申请实施例还提供了一种电子设备，包括存储器，处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上所述图像处理方法的步骤。

本申请方案，获取第一样本图像集，第一样本图像集包括多个带有分类标注信息的第一样本图像；对第一样本图像进行画面风格转换处理，得到指定画面风格的目标图像集；基于目标图像集及相应的分类标注信息对预设分类神经网络进行训练，得到训练后的分类神经网络；基于训练后的分类神经网络对待处理图像进行处理。本方案通过对带有标注的图像集进行风格转换，以快速高效获取大量有标注的指定风格的分类数据集用于训练分类神经网络，使分类神经网络具备提取该指定画面风格图像特征的能力，提升神经网络的分类效果。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的图像处理方法的一流程示意图。

图2为本实施例提供的动漫分类神经网络的模型训练示意图。

图3为本申请实施例提供的动漫分类神经网络模型的系统架构示意图。

图4为本申请实施例提供的图像处理方法的应用场图。

图5是本申请实施例提供的图像处理装置的结构示意图。

图6是本申请实施例提供的电子设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请实施例提供一种图像处理方法、装置、存储介质及电子设备。其中，该图像处理装置具体可以集成在电子设备中。该电子设备可以为终端或服务器等设备。如该终端可以为手机、平板电脑、智能蓝牙设备、笔记本电脑、或者个人电脑(Personal Computer，PC)等设备；该服务器可以为独立的服务器，也可以是由多个独立服务器构建的服务器集群。

人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。使机器具有感知、推理与决策的功能。机器学习(Machine Learning,ML)是人工智能的核心，其专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。在本方案中，则是通过机器学习的方式使电子设备可基于多媒体内容的多模态信息对其进行分类，使电子设备具备可智能化地对信息进行分类的能力。

在本方案机器学习的过程中，可采集标记好分类的图像数据集，并对该图像数据集中的图像进行风格迁移，从而获取迁移风格后的图像数据集对基础机器学习模型进行训练，在新的任务新的数据上进行微调，从而加快模型学习效率，使机器具备对该画面风格类型的图像进行特征提取、及分类的能力，从而得到训练好的模型。具体实施时，可将待处理的图像作为输入，利用训练好的模型对待处理图像进行图像特征的提取和特征向量化，以实现基于向量化后的特征对图像的分类结果进行预测，以及相关视频搜索和推荐、视频打标签、视频分段等。

以下分别进行详细说明。需说明的是，以下实施例的序号不作为对实施例优选顺序的限定。请参阅图1，图1为本申请实施例提供的图像处理方法的流程示意图。该图像处理方法的具体流程可以如下：

101、获取第一样本图像集，该第一样本图像集包括多个带有分类标注信息的第一样本图像。

本实施例中，第一样本图像可以为带有分类标注的现实场景图像。例如，该第一样本图像集可以为Imagenet、OpenImage等数据集，其中的Imagenet图片、OpenImage图片标注有分类信息。其中，分类标注信息将根据图片实际包含的内容进行标记，例如会标注Imagenet图片、OpenImage图片里的是狗、猫、人等信息。

实际应用中，该第一样本图像的分类标注信息可以是由人工根据经验预先进行标注的；另外，该分类标注信息也可以是由分类模型对该第一样本图像进行分类处理后，基于分类处理结果进行标注的。

102、对第一样本图像进行画面风格转换处理，得到指定画面风格的目标图像集。

本实施例中，指定风格的目标图像集可以为动漫风格的图像集。由于实际中缺少动漫场景下的图片分类标注数据集，因此需要构建动漫风格场景下的分类数据集。然而，现实场景下用于分类的数据集由人工标注而来，图片数量多、标注成本巨大，且同一实体在不同动漫中的表现会有表现风格的巨大差异，给动漫场景分类数据集的构造增加了较大难度。可知，动漫类的分类数据集收集困难、收集成本高。有基于此，本实施例中将利用已有的图像数据集，通过风格迁移操作将已有的图像数据集转换成所需画面风格下的图片，以实现构建指定画面风格的目标图像集(如动漫场景分类数据集)。

实际中，由于ImageNet、OpenImage Dataset等数据集数据资源丰富，尤其适用于基于深度神经网络的图像分类。以ImageNet数据集为例，其为根据WordNet层次结构组织的图像数据库，其中层次结构的每个节点都由成百上千个图像表示，每个节点平均有500多个图像。因此，具体实施时可基于ImageNet、OpenImage Dataset等数据集进行图像风格的迁移，以构建定画面风格的目标图像集，以达到节约成本、降低数据集构建难度的目的。

在本实施例中，在对第一样本图像集进行画面风格转换时，可基于cartoonGAN、stytleGAN等风格迁移工具，将ImageNet等带有分类标注的现实场景图片数据集转变为动漫风格的分类数据集。进一步的，可通过学习不同种类的动漫风格，以获取包含不同画面风格的动漫图片分类数据集。实际应用中，还需要对风格迁移网络进行训练，以更准确获取图像风格实现对待转换风格图像的风格迁移。也即，在一些实施例中，在获取第一样本图像集之前，还可以包括以下流程：

获取不同画面风格的第二样本图像，得到第二样本图像集；

基于第二样本图像集对预设的风格迁移网络进行训练，获取不同风格的风格矩阵。

其中，不同画面风格的第二样本图像可以为多种不同画面风格的动漫图片，如写实风格、白描风格、唯美风格、可爱风格、3D(Three Dimensional，三维)风格等。风格迁移神经网络的输入为待迁移图片(即第一样本图像)和含有风格信息的风格矩阵。风格迁移神经网络训练的产物是风格矩阵，风格矩阵包含图像的风格信息。

风格迁移实质是使用卷积层的中间层特征还原出对应这种特征的原始图像，先选取原始图像，经过VGGNet计算后得到各种卷积层特征。接下来，根据卷积层特征还原出对应这种特征的原始图像。其中，卷积特征基本保留了原始图像中形状、位置、颜色、纹理等信息；深层对应的还原图像丢失了部分颜色和纹理信息，但大体保留原始图像中物体的形状和位置。

实际应用中，还原图像时可采用梯度下降法。具体的，可定义出内容损失(ContentLoss)或风格损失(Style Loss)，内容损失描述了原始图像和生成图像在内容上的差异；风格损失描述了原始图像和生成图像在风格上的差异。

在本实施例中，可将内容损失和风格损失组合起来，实现图像的风格迁移。例如，可使用一个风格迁移神经网络直接生成迁移图像。风格迁移神经网络可由两个神经网络组成：图像生成网络和损失网络。损失网络实际上是VGGNet，利用损失网络来定义内容损失、风格损失，并训练图像生成网络。图像生成网络的功能是生成某一种风格的图像，它的输入是一个图像，输出同样是一个图像。

因此，训练时可使用不同风格的动漫图片对图像迁移网络进行训练，从而实现训练风格迁移神经网络使其具备不同动漫风格的迁移能力。

那么，在对第一样本图像进行画面风格转换时，具体可利用上述训练后的风格迁移网络，从不同风格的风格矩阵中选取目标风格矩阵对第一样本图像进行画面风格转换处理，实现将第一样本图像转换为指定画面风格的图像，得到指定风格的目标图像集。

在一些实施例中，从不同风格的风格矩阵中选取目标风格矩阵对第一样本图像进行画面风格转换处理时，可包括以下流程：

对第一样本图像提取内容特征；

基于目标风格矩阵对内容特征进行风格化处理，生成风格化后的融合特征；

基于融合特征对第一样本图像进行还原，得到转换画面风格后的目标图像。

具体的，基于目标风格矩阵对内容特征进行风格化处理，实质上是将第一样本图像的内容特征与待转换的风格特征进行融合。也即，先通过卷积运算降采样，用一个比图像尺寸小很多的矩阵表示(即风格矩阵)，然后训练上采样卷积网络把风格矩阵恢复为原图，以实现风格图像的还原。

在提取内容特征时，可根据需求采用相应的提取算法对第一样本图像进行图像内容特征的提取。例如，可根据实际需求对图像提取图像哈希值(也称哈希指纹)、局部特征，以及生成视频帧对应的灰度图特征。

实际应用中，在提取图像哈希指纹时，可采用phash算法进行特征提取。另外，还可以采用avhash算法、dhash算法等方法进行特征提取。此外，为加特征快提取速度，还可以同时采用时多个哈希指纹提取算法提取多个哈希指纹。

在提取图像局部特征时，可采用orb算子图像中提取多个局部特征。另外，还可以采用surf算子、sift算子等方法进行图像局部特征的提取。此外，还可以同时采用上述多个局部特征提取算法提取多种局部特征。在本实施例中，对于单色图等局部特征数目较少的视频图像，可对其进行标记。

在生成灰度图特征时，可将图像转换为大小为N*M的压缩灰度图。其中，M、N的取值一般在1-256之间。转换后灰度图的长宽比例可保持与原图像的长宽比例相同。例如，480*270的原图像，可将其压缩调整为240*135的灰度图。当然，也可以选择M＝N，其值大小受后续计算灰度差特征时的速度影响，值越小则计算速度越快。

在一些实施例中，基于第二样本图像集对预设的风格迁移网络进行训练，获取不同风格的风格矩阵时，具体可以将第二样本图像集中每一样本图像输入至预设的风格迁移网络中，以获取每一样本图像的中间层特。然后，基于中间层特征生成每一样本图像的风格矩阵，并对生成的风格矩阵进行聚类，再根据聚类结果确定不同风格的风格矩阵。

具体的，在对生成的风格矩阵进行聚类时，具体可以对生成的每一风格矩阵计算特征值，然后基于得到的特征值计算不同风格矩阵之间的欧式距离。将得到的欧式距离与预设值进行比较，并将欧式距离小于预设值的风格矩阵划分至同一风格集合，以对风格矩阵进行聚类。最后，根据聚类结果从每一风格集合中选取一风格矩阵，以得到不同风格的风格矩阵。

103、基于目标图像集及相应的分类标注信息对预设分类神经网络进行训练，得到训练后的分类神经网络。

具体的，基于目标图像集及相应的分类标注信息对预设分类神经网络进行训练，可以包括以下流程：

根据目标图像集及相应的分类标注信息，构建训练数据集；

获取训练数据集中每个数据对应的分类真实值；

基于分类预测值和分类真实值对预设分类神经网络进行收敛，得到训练后的分类神经网络。

本实施例中，可将预先使用ImageNet预训练好的分类神经网络模型作为预设分类神经网络，在此基础上使用此分类神经网络去初始化该训练数据集的图像分类任务，分类的标签是目标图像集中每一图像对应的分类标注信息(即真实值，如狗、猫、球、桃子等标签)。然后，基于真实值与预测值之间的损失差异对预设分类神经网络调节网络参数，使真实值与预测值接近，以实现对预设分类神经网络的收敛，使最终得到的分类神经网络对不同风格的图片都有较好的分类能力。

需要说明的是，上述预设分类神经网络可以包括四个卷积层和一个全连接层。

卷积层：主要用于对输入的用户行为数据进行特征提取，其中，卷积核大小可以根据实际应用而定，比如，从第一层卷积层至第四层卷积层的卷积核大小依次可以为(7，7)，(5，5)，(3，3)，(3，3)；可选的，为了降低计算的复杂度，提高计算效率，在本实施例中，这四层卷积层的卷积核大小可以都设置为(3，3)，激活函数均采用“relu(线性整流函数，Rectified Linear Unit)”，而padding(padding，指属性定义元素边框与元素内容之间的空间)方式均设置为“same”，“same”填充方式可以简单理解为以0填充边缘，左边(上边)补0的个数和右边(下边)补0的个数一样或少一个。可选的，卷积层与卷积层之间可以通过直连的方式连接，从而加快网络收敛速度，为了进一步减少计算量，还可以在第二至第四层卷积层中的所有层或任意1～2层进行下采样(pooling)操作，该下采样操作与卷积的操作基本相同，只不过下采样的卷积核为只取对应位置的最大值(max pooling)或平均值(averagepooling)等，为了描述方便，在本申请实施例中，将均以在第二层卷积层和第三次卷积层中进行下采样操作，且该下采样操作具体为max pooling为例进行说明。

需说明的是，为了描述方便，在本申请实施例中，将激活函数所在层和下采样层(也称为池化层)均归入卷积层中，应当理解的是，也可以认为该结构包括卷积层、激活函数所在层、下采样层(即池化层)和全连接层，当然，还可以包括用于输入数据的输入层和用于输出数据的输出层，在此不再赘述。

全连接层：可以将学到的特征映射到样本标记空间，其在整个卷积神经网络中主要起到“分类器”的作用，全连接层的每一个结点都与上一层(如卷积层中的下采样层)输出的所有结点相连，其中，全连接层的一个结点即称为全连接层中的一个神经元，全连接层中神经元的数量可以根据实际应用的需求而定，可选的，在全连接层中，也可以通过加入激活函数来加入非线性因素，比如，可以加入激活函数sigmoid(S型函数)。

104、基于训练后的分类神经网络对待处理图像进行处理。

在本实施例中，该待处理图像可以属于上述指定画面风格的图像。当接收到指定画面风格的图像处理任务时，可基于训练后的分类神经网络对该图像处理任务指示的待处理图像进行处理。

具体的，可以根据图像处理任务的实际需求，对待处理图像进行不同的处理。例如，可应用到视频推荐、视频打标签、视频编辑、以图搜视频等场景。

以图像识别场景为例，在一实施例中，基于训练后的分类神经网络对待处理图像进行处理时，具体可以基于训练后的分类神经网络对所述待处理图像进行识别，得到识别结果。

以视频镜头检测场景为例，在一实施例中，待处理图像可以包括：视频帧序列。在基于训练后的分类神经网络对待处理图像进行处理是，具体可以基于训练后的分类神经网络确定视频帧序列中相邻视频帧之间的相似度，得到相似度结果。根据相似度结果对视频帧序列进行划分，得到多个子视频帧序列。

以搜索相关视频场景为例，在一些实施例中，训练后的分类神经网络包括：特征提取模块和特征向量化模块。在基于训练后的分类神经网络对待处理图像进行处理时，具体可以通过特征提取模块对所述待处理图像进行图像特征提取，然后通过特征向量化模块对提取的图像特征进行向量化处理，生成指定维度的特征向量；最后，根据指定维度的特征向量从预设图像库中检索匹配的目标图像。

其中，该指定维度的特征向量可以是该分类神经网络特定层(最后一层或中间层)输出的特征经池化后得到的N维向量化特征。通过该N维向量化特征可实现相关图片或视频的检索。

本实施例提供的图像处理方法，获取第一样本图像集，第一样本图像集包括多个带有分类标注信息的第一样本图像；对第一样本图像进行画面风格转换处理，得到指定画面风格的目标图像集；基于目标图像集及相应的分类标注信息对预设分类神经网络进行训练，得到训练后的分类神经网络；基于训练后的分类神经网络对待处理图像进行处理。本方案通过对带有标注的图像集进行风格转换，以快速高效获取大量有标注的指定风格的分类数据集用于训练分类神经网络，使分类神经网络具备提取该指定画面风格图像特征的能力，提升神经网络的分类效果。

参考图2至图4，图2为本实施例提供的动漫分类神经网络的模型训练示意图；图3为本申请实施例提供的动漫分类神经网络模型的系统架构示意图；图4为本申请实施例提供的图像处理方法的应用场图。下面，将对本申请中的图像处理方法进行详细描述。

本方案中，将对风格迁移神经网络将imangenet、openimage等现实场景图片分类数据集转化为动漫场景图片，使用现实场景下图片分类神经网络的训练方法训练动漫场景的图片分类网络。具体如下：

参考图2，首先收集不同风格的N组动漫图片，然后通过风格迁移网络获取N种动漫风格，并将imagenet、open-image等真实世界场景的图片分类数据集使用风格迁移网络转化为N种风格的动漫图片。在获取转化而来的动漫场景图片分类数据集后，利用该数据集训练分类神经网络，以使分类神经网络具备提取动漫图片特征的能力。

实际应用中，动漫图片的画面风格有边缘清晰、材质简单、颜色平滑阴影少等共性，但动漫图片和动漫图片之间的画面风格依然有较大差别，按风格分类包括写实风格，白描风格，唯美风格，可爱风格，3D风格等。因此，需要获取不同风格的动漫作品，训练风格迁移神经网络以获取不同动漫风格的迁移能力，以使动漫特征提取网络对不同风格的动漫图片都能提取类内聚、类间开，可用于分类、检索的高质量特征。

训练cartoonGAN获取对应动漫的风格矩阵，以矩阵M表示。对获取的风格矩阵M进行聚类，通过计算风格矩阵M的特征值，以计算不同风格矩阵M特征值之间的距离(如欧氏距离)。然后，去除距离小于某一阈值(即风格接近)的冗余风格矩阵，获取最终的N种动漫风格矩阵M1，M2…Mn，完成冗余动漫风格的去除，以减少生成的动漫风格的ImageNet数据集图片的数量。

在获取不同风格矩阵M1、M2…Mn后，针对Imagenet、OpenImage等有分类标注信息的每一张图片，通过cartoonGAN使用N种风格矩阵进行风格迁移，生成对应动漫风格的带有对应分类标注信息的多张动漫风格图片。获取风格迁移后的动漫风格图片后，使用通用的分类分类神经网络模型(如resnet、xception、efficientnet等)进行训练，以训练得到动漫图片的分类神经网络模型。其中，训练方式借鉴传统imagenet分类网络训练方法。

获取动漫分类神经网络模型后，可提取分类神经网络模型最后一层或选取中间层的特征，池化后转化为N维向量化特征，以用于动漫相关的图片、视频等的检索或相似度比较。

参考图3，动漫分类神经网络模型包括动漫特征提取模块和特征向量化模块。本系统输入是动漫图片，具体应用时可经过训练后的动漫特征提取模块，完成动漫图片的分类。另外，还可通过动漫特征提取模块提取动漫图片特征，再将提取出的动漫图片特征经过特征向量化模块，输出可供检索的N维向量，供后续的动漫视频推荐、动漫视频打标签、动漫视频分段、动漫图搜视频等。

参考图4，以搜索相关视频的应用场景为例，在利用训练得到动漫图片分类神经网络处理动漫图片任务时，可将待检索的动漫图片输入至训练得到动漫图片分类神经网络中，然后选取动漫图片分类神经网络的特定层处理输出特征(最后一层特征或中间层特征)，处理后作为动漫图片的向量化表示。最后，利用输出向量对视频库进行检索，以从中搜索出与待检索的动漫图片相关的视频。

由上可知，本方案能够借助ImageNet，Open Image Dataset等有标注的千万级的数据集，通过画面风格迁移处理，快速高效获取大量有标注的动漫图片的分类数据集对神经网络模型进行训练，训练过程高效快速且保证了神经网络模型的训练效果。另外，动漫图片风格可控，可获取不同动漫风格的图片，通过分类方法训练神经网络以获取神经网络提取动漫图片特征的能力，提升了动漫图片向量化表示的质量。

为便于更好的实施本申请实施例提供的图像处理方法，本申请实施例还提供一种基于上述图像处理方法的装置。其中名词的含义与上述图像处理方法中相同，具体实现细节可以参考方法实施例中的说明。

请参阅图5，图5为本申请实施例提供的一种图像处理装置的结构示意图。其中，该图像处理装置400可以集成在电子设备中。该图像处理装置400可以包括第一获取单元401、转换单元402、训练单元403及处理单元404，具体可以如下：

第一获取单元401，用于获取第一样本图像集，所述第一样本图像集包括多个带有分类标注信息的第一样本图像；

转换单元402，用于处理单元，用于对所述第一样本图像进行画面风格转换处理，得到指定画面风格的目标图像集；

训练单元403，用于基于所述目标图像集及相应的分类标注信息对预设分类神经网络进行训练，得到训练后的分类神经网络；

处理单元404，用于基于训练后的分类神经网络对待处理图像进行处理。

在一实施例中，还包括：

所述转换单元402用于：

在一实施例中，在从不同风格的风格矩阵中选取目标风格矩阵对所述第一样本图像进行画面风格转换处理时，所述转换单元402用于：

对所述第一样本图像提取内容特征；

在一实施例中，所述第三获取单元包括：

对生成的每一风格矩阵计算特征值；

基于所述特征值计算不同风格矩阵之间的欧式距离；

在一实施例中，所述处理单元404用于：

在一实施例中，待处理图像包括：视频帧序列；所述处理单元404用于：

在一实施例中，训练后的分类神经网络包括：特征提取模块和特征向量化模块；所述处理单元404用于：

在一实施例中，所述训练单元403用于：

获取训练数据集中每个数据对应的分类真实值；

本申请实施例提供的图像处理装置，可通过第一获取单元401获取第一样本图像集，第一样本图像集包括多个带有分类标注信息的第一样本图像；转换单元402对第一样本图像进行画面风格转换处理，得到指定画面风格的目标图像集；训练单元403基于目标图像集及相应的分类标注信息对预设分类神经网络进行训练，得到训练后的分类神经网络；处理单元404基于训练后的分类神经网络对待处理图像进行处理。本方案通过对带有标注的图像集进行风格转换，以快速高效获取大量有标注的指定风格的分类数据集用于训练分类神经网络，使分类神经网络具备提取该指定画面风格图像特征的能力，提升神经网络的分类效果。

本申请实施例还提供一种电子设备。如图6所示，该电子设备可以包括射频(RF，Radio Frequency)电路601、包括有一个或一个以上计算机可读存储介质的存储器602、输入单元603、显示单元604、传感器605、音频电路606、无线保真(WiFi，Wireless Fidelity)模块607、包括有一个或者一个以上处理核心的处理器608、以及电源609等部件。本领域技术人员可以理解，图6中示出的电子设备结构并不构成对电子设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。其中：

RF电路601可用于收发信息过程中，信号的接收和发送，特别地，将基站的下行信息接收后，交由一个或者一个以上处理器608处理；另外，将涉及上行的数据发送给基站。通常，RF电路601包括但不限于天线、至少一个放大器、调谐器、一个或多个振荡器、用户身份模块(SIM，Subscriber Identity Module)卡、收发信机、耦合器、低噪声放大器(LNA，LowNoise Amplifier)、双工器等。此外，RF电路601还可以通过无线通信与网络和其他设备通信。

存储器602可用于存储软件程序以及模块，处理器608通过运行存储在存储器602的软件程序以及模块，从而执行各种功能应用以及数据处理。存储器602可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等。此外，存储器602可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地，存储器602还可以包括存储器控制器，以提供处理器608和输入单元603对存储器602的访问。

输入单元603可用于接收输入的数字或字符信息，以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。具体地，在一个具体的实施例中，输入单元603可包括触敏表面以及其他输入设备。触敏表面，也称为触摸显示屏或者触控板，可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触敏表面上或在触敏表面附近的操作)，并根据预先设定的程式驱动相应的连接装置。除了触敏表面，输入单元603还可以包括其他输入设备。具体地，其他输入设备可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。

显示单元604可用于显示由用户输入的信息或提供给用户的信息以及电子设备的各种图形用户接口，这些图形用户接口可以由图形、文本、图标、视频和其任意组合来构成。显示单元604可包括显示面板，可选的，可以采用液晶显示器(LCD，Liquid CrystalDisplay)、有机发光二极管(OLED，Organic Light-Emitting Diode)等形式来配置显示面板。进一步的，触敏表面可覆盖显示面板，当触敏表面检测到在其上或附近的触摸操作后，传送给处理器608以确定触摸事件的类型，随后处理器608根据触摸事件的类型在显示面板上提供相应的视觉输出。虽然在图6中，触敏表面与显示面板是作为两个独立的部件来实现输入和输入功能，但是在某些实施例中，可以将触敏表面与显示面板集成而实现输入和输出功能。

电子设备还可包括至少一种传感器605，比如光传感器、运动传感器以及其他传感器。具体地，光传感器可包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示面板的亮度，接近传感器可在电子设备移动到耳边时，关闭显示面板和或或背光。

音频电路606、扬声器，传声器可提供用户与电子设备之间的音频接口。音频电路606可将接收到的音频数据转换后的电信号，传输到扬声器，由扬声器转换为声音信号输出；另一方面，传声器将收集的声音信号转换为电信号，由音频电路606接收后转换为音频数据，再将音频数据输出处理器608处理后，经RF电路601以发送给比如电子设备，或者将音频数据输出至存储器602以便进一步处理。音频电路606还可能包括耳塞插孔，以提供外设耳机与电子设备的通信。

WiFi属于短距离无线传输技术，电子设备通过WiFi模块607可以帮助用户收发电子邮件、浏览网页和访问流式媒体等，它为用户提供了无线的宽带互联网访问。虽然图6示出了WiFi模块607，但是可以理解的是，其并不属于电子设备的必须构成，完全可以根据需要在不改变发明的本质的范围内而省略。

处理器608是电子设备的控制中心，利用各种接口和线路连接整个手机的各个部分，通过运行或执行存储在存储器602内的软件程序和或或模块，以及调用存储在存储器602内的数据，执行电子设备的各种功能和处理数据，从而对手机进行整体监控。可选的，处理器608可包括一个或多个处理核心；优选的，处理器608可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器608中。

电子设备还包括给各个部件供电的电源609(比如电池)，优选的，电源可以通过电源管理系统与处理器608逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源609还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。

具体在本实施例中，电子设备中的处理器608会按照如下的指令，将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器602中，并由处理器608来运行存储在存储器602中的应用程序，从而实现各种功能：

基于训练后的分类神经网络对待处理图像进行处理。

本申请方案通过对带有标注的图像集进行风格转换，以快速高效获取大量有标注的指定风格的分类数据集用于训练分类神经网络，使分类神经网络具备提取该指定画面风格图像特征的能力，提升了神经网络的分类效果。

本领域普通技术人员可以理解，上述实施例的各种方法中的全部或部分步骤可以通过指令来完成，或通过指令控制相关的硬件来完成，该指令可以存储于一计算机可读存储介质中，并由处理器进行加载和执行。

为此，本申请实施例提供一种存储介质，其中存储有多条指令，该指令能够被处理器进行加载，以执行本申请实施例所提供的任一种图像处理方法中的步骤。例如，该指令可以执行如下步骤：

基于训练后的分类神经网络对待处理图像进行处理。

以上各个操作的具体实施可参见前面的实施例，在此不再赘述。

其中，该存储介质可以包括：只读存储器(ROM，Read Only Memory)、随机存取记忆体(RAM，Random Access Memory)、磁盘或光盘等。

由于该存储介质中所存储的指令，可以执行本申请实施例所提供的任一种图像处理方法中的步骤，因此，可以实现本申请实施例所提供的任一种图像处理方法所能实现的有益效果，详见前面的实施例，在此不再赘述。

以上对本申请实施例所提供的图像处理方法、装置、存储介质及电子设备进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种图像处理方法，其特征在于，包括：

基于训练后的分类神经网络对待处理图像进行处理。

2.根据权利要求1所述的图像处理方法，其特征在于，在获取第一样本图像集之前，还包括：

获取不同画面风格的第二样本图像，得到第二样本图像集；

基于所述第二样本图像集对预设的风格迁移网络进行训练，获取不同风格的风格矩阵；

所述对所述第一样本图像进行画面风格转换，得到指定画面风格的目标图像集，包括：

3.根据权利要求2所述的图像处理方法，其特征在于，所述从不同风格的风格矩阵中选取目标风格矩阵对所述第一样本图像进行画面风格转换处理，包括：

对所述第一样本图像提取内容特征；

4.根据权利要求2所述的图像处理方法，其特征在于，所述基于所述第二样本图像集对预设的风格迁移网络进行训练，获取不同风格的风格矩阵，包括：

将所述第二样本图像集中每一样本图像输入至预设的风格迁移网络中，以获取每一样本图像的中间层特征；

基于所述中间层特征生成每一样本图像的风格矩阵；

对生成的风格矩阵进行聚类，并根据聚类结果确定不同风格的风格矩阵。

5.根据权利要求4所述的图像处理方法，其特征在于，所述对生成的风格矩阵进行聚类，包括：

对生成的每一风格矩阵计算特征值；

基于所述特征值计算不同风格矩阵之间的欧式距离；

6.根据权利要求1所述的图像处理方法，其特征在于，所述基于训练后的分类神经网络对待处理图像进行处理，包括：

7.根据权利要求1所述的图像处理方法，其特征在于，所述待处理图像包括：视频帧序列；

所述基于训练后的分类神经网络对待处理图像进行处理，包括：

8.根据权利要求1所述的图像处理方法，其特征在于，训练后的分类神经网络包括：特征提取模块和特征向量化模块；

9.根据权利要求1-8任一项所述的图像处理方法，其特征在于，基于所述目标图像集及相应的分类标注信息对预设分类神经网络进行训练，得到训练后的分类神经网络，包括：

获取训练数据集中每个数据对应的分类真实值；

10.一种图像处理装置，其特征在于，包括：

11.根据权利要求10所述的图像处理装置，其特征在于，还包括：

所述转换单元用于：

12.根据权利要求11所述的图像处理装置，其特征在于，在从不同风格的风格矩阵中选取目标风格矩阵对所述第一样本图像进行画面风格转换处理时，所述转换单元用于：

对所述第一样本图像提取内容特征；

13.根据权利要求10所述的图像处理装置，其特征在于，所述训练单元用于：

获取训练数据集中每个数据对应的分类真实值；

14.一种存储介质，其特征在于，所述存储介质存储有多条指令，所述指令适于处理器进行加载，以执行权利要求1-9任一项所述图像处理方法的步骤。

15.一种电子设备，包括存储器，处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现权利要求1-9任一项所述图像处理方法的步骤。