CN110147805B

CN110147805B - 图像处理方法、装置、终端及存储介质

Info

Publication number: CN110147805B
Application number: CN201810812675.4A
Authority: CN
Inventors: 熊唯; 黄飞
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2018-07-23
Filing date: 2018-07-23
Publication date: 2023-04-07
Anticipated expiration: 2038-07-23
Also published as: CN110147805A; JP7058760B2; EP3828769A1; EP3828769A4; US20230222770A1; WO2020019873A1; US20200394388A1; EP3828769B1; KR20200128565A; JP2021524957A; KR102635373B1; US11631275B2

Abstract

本发明实施例公开了一种图像处理方法、装置、终端及存储介质，属于计算机技术领域。该方法包括：获取已训练的像素分类模型，像素分类模型用于确定任一图像中每个像素的分类标识，分类标识包括第一分类标识和第二分类标识，第一分类标识用于表示对应的像素位于头部区域，第二分类标识用于表示对应的像素位于非头部区域；基于像素分类模型，对目标图像中的每个像素进行分类，得到目标图像中每个像素的分类标识；根据分类标识为第一分类标识的像素，确定目标图像的头部区域，对头部区域进行编辑处理。实现了像素级别的头部识别，能够做到对头部边缘的精细抠取，提高了头部区域的准确性，提升了头部区域的编辑处理效果。

Description

图像处理方法、装置、终端及存储介质

技术领域

本发明实施例涉及计算机技术领域，特别涉及一种图像处理方法、装置、终端及存储介质。

背景技术

随着互联网的日益普及和多媒体技术的快速发展，照片和短视频等多媒体数据在互联网中得到了广泛传播，丰富多样的图像处理方式也开始兴起。其中，将图像中的头部区域识别出来，对头部区域进行编辑处理的方式新颖独特，趣味性强，受到了广大用户的欢迎。

针对照片或短视频中的图像，如果用户要对图像中的头部进行编辑处理，可以在头部所在的位置通过滑动操作或者拖拽操作确定矩形框，使头部位于矩形框内部。终端会将用户确定的矩形框作为头部区域，对头部区域进行编辑处理。

上述由用户手动确定矩形框的方式会导致头部区域内不仅包含头部，还包含头部的周围区域，因此确定的头部区域不够准确，导致编辑处理的效果不佳。

发明内容

本发明实施例提供了一种图像处理方法、装置、终端及存储介质，可以解决相关技术存在的问题。所述技术方案如下：

一方面，提供了一种图像处理方法，所述方法包括：

获取已训练的像素分类模型，所述像素分类模型用于确定任一图像中每个像素的分类标识，所述分类标识包括第一分类标识和第二分类标识，所述第一分类标识用于表示对应的像素位于头部区域，所述第二分类标识用于表示对应的像素位于非头部区域；

基于所述像素分类模型，对目标图像中的每个像素进行分类，得到所述目标图像中每个像素的分类标识；

根据分类标识为所述第一分类标识的像素，确定所述目标图像的头部区域，对所述头部区域进行编辑处理。

另一方面，提供了一种图像处理装置，所述装置包括：

第一获取模块，用于获取已训练的像素分类模型、所述像素分类模型用于确定任一图像中每个像素的分类标识，所述分类标识包括第一分类标识和第二分类标识，所述第一分类标识用于表示对应的像素位于头部区域，所述第二分类标识用于表示对应的像素位于非头部区域；

分类模块，用于基于所述像素分类模型，对目标图像中的每个像素进行分类，得到所述目标图像中每个像素的分类标识；

第一处理模块，用于根据分类标识为所述第一分类标识的像素，确定所述目标图像的头部区域，对所述头部区域进行编辑处理。

另一方面，提供了一种用于图像处理的终端，所述终端包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述指令、所述程序、所述代码集或所述指令集由所述处理器加载并执行以实现如所述图像处理方法中所执行的操作。

再一方面，提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述指令、所述程序、所述代码集或所述指令集由处理器加载并具有以实现如所述图像处理方法中所具有的操作。

本发明实施例提供的技术方案带来的有益效果至少包括：

本发明实施例提供的方法、装置、终端及存储介质，通过基于像素分类模型，对目标图像中的每个像素进行分类，得到目标图像中每个像素的分类标识；根据分类标识为第一分类标识的像素，确定目标图像的头部区域，能够基于像素分类模型对目标图像中的像素进行分类，以确定目标图像中的头部区域，实现了像素级别的头部识别，能够做到对头部边缘的精细抠取，提高了头部区域的准确性，提升了头部区域的编辑处理效果。

并且，在进行头部识别之前先对目标图像中的人脸区域进行表情识别，当人脸区域的表情类别为目标表情类别时，再对目标图像进行像素级别的头部识别，能够对特定表情的人脸区域进行编辑处理，提高了针对性。

并且，采用与目标表情类别对应的目标处理方式，对头部区域进行编辑处理，保证处理方式与头部区域的表情相匹配，进一步提升了处理效果。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明实施例的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种图像处理方法的流程图；

图2是本发明实施例提供的一种表情识别模型的训练流程图；

图3是本发明实施例提供的一种像素分类模型的训练流程图；

图4是本发明实施例提供的一种像素分类模型的结构示意图；

图5是本发明实施例提供的一种头部区域的处理效果示意图；

图6是本发明实施例提供的一种图像处理方法的流程图；

图7是本发明实施例提供的一种图像处理装置的结构示意图；

图8是本发明实施例提供的一种终端的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地详细描述。

相关技术中，当要对目标图像中的头部区域进行编辑处理时，通常先由用户手动确定头部区域，导致确定的头部区域内不仅包括头部，还包括头部的周围区域，无法做到对头部边缘的精细抠取。而本发明实施例提供了一种图像处理方法，能够基于像素分类模型对目标图像中的像素进行分类，以确定目标图像中的头部区域，实现了像素级别的头部识别，能够做到对头部边缘的精细抠取，并对精细抠取的头部区域进行编辑处理，提高了准确性。

本发明实施例可以应用于对图像的头部区域进行编辑处理的任一场景下。例如，当终端拍摄一张照片时，可以采用本发明实施例提供的方法对照片中的头部区域进行编辑处理。或者，当终端拍摄了一段视频或者正在拍摄视频的过程中，可以采用本发明实施例提供的方法对视频中每一帧图像的头部区域进行编辑处理。

或者，终端安装专门用于对图像进行编辑处理的第三方应用，可以在第三方应用中调用图库中的照片或视频，并采用本发明实施例提供的方法，对照片或视频中的头部区域进行编辑处理，将编辑处理完成后的照片或视频存储于图库中。

图1是本发明实施例提供的一种图像处理方法的流程图。本发明实施例的执行主体为终端，参见图1，该方法包括：

101、终端确定待处理的目标图像，对目标图像进行人脸检测，得到目标图像的人脸区域。

102、终端获取已训练的表情识别模型，基于表情识别模型，对人脸区域进行识别，得到人脸区域的表情类别。

本发明实施例应用于对目标图像的头部区域进行编辑处理的场景下，终端可以确定待处理的目标图像，识别出目标图像的头部区域后进行编辑处理。

并且，终端可以根据目标图像中的人脸区域的表情进行编辑处理，由于终端确定的目标图像中包括人脸区域，还可能会包括非人脸区域，则对目标图像进行人脸检测，得到人脸区域，并获取表情识别模型，将人脸区域输入到表情识别模型中，对人脸区域进行识别，得到表情类别。

其中，进行人脸检测时可以采用预设的人脸检测算法，或者也可以调用终端提供的人脸检测接口对目标图像进行人脸检测。表情识别模型用于将人脸区域划分为至少两个表情类别，如惊讶表情、高兴表情等，该至少两个表情类别可以在训练表情识别模型时确定。

训练装置在训练该表情识别模型的过程中，可以获取多个样本人脸图像以及每个样本人脸图像的表情类别，根据多个样本人脸图像以及每个样本人脸图像的表情类别进行多次迭代训练，得到表情识别模型，直至训练出的表情识别模型的识别准确率达到第二预设阈值时为止。

在一种可能实现方式中，训练装置可以构建初始的表情识别模型，获取训练数据集和测试数据集，训练数据集和测试数据集中均包括多个样本人脸图像以及对应的表情类别。例如，该训练装置可以采用爬虫程序对网络中的人脸图像进行抓取，获取到多个样本人脸图像，并对每个样本人脸图像中的表情类别进行标记。

在训练阶段，将训练数据集中的多个样本人脸图像作为表情识别模型的输入，将对应的表情类别作为表情识别模型的输出，对表情识别模型进行迭代训练，使表情识别模型对人脸图像中的表情特征进行学习，具备表情识别的能力。之后，将测试数据集中的每个样本人脸图像作为表情识别模型的输入，基于表情识别模型分别获取每个样本人脸图像对应的测试表情类别，将测试表情类别与标注的实际表情类别进行对比，从而确定表情识别模型的识别准确率。当表情识别模型的识别准确率小于第二预设阈值时，继续根据训练数据集进行训练，直至训练出的表情识别模型的识别准确率达到第二预设阈值时，训练完成。

其中，该第二预设阈值可以根据表情识别的精确度需求以及计算量需求确定，可以为95％或者99％等数值。该训练装置可以为终端本身，或者该训练装置也可以为除终端以外的其他设备，如服务器等，该训练装置进行离线训练后将表情识别模型发送给终端，供终端使用。该训练装置可以采用线性分类器、支持向量机、深层神经网络和决策树等训练算法中的至少一个来训练表情识别模型，相应地，训练出的表情识别模型可以包括线性分类器模型、支持向量机模型、深层神经网络模型和决策树模型等模型中的至少一种。

示例性地，表情识别模型的训练流程图可以如图2所示。以表情识别模型为Mobilenet(一种轻量级深层神经网络模型)为例，该网络模型运算速度快，网络模型体积小，识别率较准确，能够快速响应用户的大量需求，较少后台负担。

假设输入的目标图像尺寸为224*224，该网络模型的每个网络层的参数可以如下表1所示。

表1

其中，Conv为卷积层，DepthSepConv网络层为深度可分离卷积层，在该层中会先进行3*3的深度卷积操作，再进行1*1的点云卷积操作，pooling为池化层。

每个网络层中卷积操作的步幅参数为s1或s2，其中s1的值为1，s2的值为2。每个网络层的特征图大小为该网络层输出的数据大小，最后一层输出的特征图大小为1*1*N，N即为表情类别的个数。

通过上述网络模型可以看出，将224*224的目标图像输入至表情识别模型后，最终输出了N维数据，将N维数据通过softmax(柔性最大值传输函数)计算可以得到N维数据中概率最高的数据。该N维数据可以代表目标图像中人脸表情属于N个表情类别的概率，其中概率最高的数据即为目标图像中人脸表情最可能属于的表情类别。

103、当人脸区域的表情类别为目标表情类别时，终端获取已训练的像素分类模型，基于像素分类模型，对目标图像中的每个像素进行分类，得到目标图像中每个像素的分类标识。

终端可以设置一种或多种目标表情类别，仅在目标图像具有符合目标表情类别的人脸区域时，才对目标图像的头部区域进行编辑处理。因此，当终端基于表情识别模型确定目标图像中人脸区域的表情类别时，判断该表情类别是否为目标表情类别。当该表情类别不是目标表情类别时，不再进行编辑处理。

而当该表情类别是目标表情类别时，为了识别出模板图像中的头部区域，终端先获取像素分类模型，将目标图像输入到像素分类模型中，对目标图像中的每个像素进行分类，得到目标图像中每个像素的分类标识。

其中，像素分类模型用于确定任一图像中像素的分类标识，分类标识包括第一分类标识和第二分类标识，第一分类标识用于表示对应的像素位于头部区域，第二分类标识用于表示对应的像素位于非头部区域，从而能够将每个像素划分至头部区域或者非头部区域。第一分类标识和第二分类标识是在训练像素分类模型时确定的不同分类标识，如第一分类标识为1，第二分类标识为0。

训练装置在训练该像素分类模型的过程中，可以获取多个样本图像以及每个样本图像中每个像素的分类标识，根据多个样本图像以及每个样本图像中每个像素的分类标识进行多次迭代训练，得到像素分类模型，直至训练出的像素分类模型的分类准确率达到第一预设阈值时为止。

在一种可能实现方式中，该训练装置可以构建初始的像素分类模型，获取训练数据集和测试数据集，训练数据集和测试数据集中均包括多个样本图像以及每个样本图像中每个像素的分类标识。例如，该训练装置可以采用爬虫程序对网络中的样本图像进行抓取，获取到多个样本图像，并根据每个样本图像中的头部区域，对每个样本图像中每个像素的分类标识进行标记。

在训练阶段，将训练数据集中的多个样本图像作为像素分类模型的输入，将样本图像中每个像素的分类标识作为像素分类模型的输出，对像素分类模型进行迭代训练，使像素分类模型对样本图像中的头部区域特征进行学习，具备划分头部区域像素的能力。之后，将测试数据集中的每个样本图像作为像素分类模型的输入，基于像素分类模型分别获取每个样本图像中每个像素的测试分类标识，将测试分类标识与标注的实际分类标识进行对比，从而确定像素分类模型的分类准确率。当像素分类模型的分类准确率小于第一预设阈值时，继续根据训练数据集进行训练，直至训练出的像素分类模型的分类准确率达到第一预设阈值时，训练完成。

其中，该第一预设阈值可以根据样本图像中像素分类的精确度需求以及计算量需求确定，可以为95％或者99％等数值。该训练装置可以为终端本身，或者该训练装置也可以为除终端以外的其他设备，如服务器等，该训练装置进行离线训练后将像素分类模型发送给终端，供终端使用。该训练装置可以采用线性分类器、支持向量机、深度神经网络、决策树等训练算法中的至少一个来训练像素分类模型，相应地，训练出的像素分类模型可以包括线性分类器模型、支持向量机模型、深层神经网络模型和决策树模型等模型中的至少一个。

示例性地，像素分类模型的训练流程图可以如图3所示。以像素分类模型为由语义分割网络和Mobilenet基础网络模型构成的网络模型为例，参见图4，将目标图像输入到网络模型中，通过语义分割网络进行粗糙预测，再经过多分辨率卷积和反卷积操作最终获取到目标图像的尺寸，再对目标图像的每个像素进行分类，如果分类得到的分类标识为1，认为该像素是头部区域中的像素，否则认为该像素是非头部区域的像素。

104、终端根据分类标识为第一分类标识的像素，确定目标图像的头部区域。

确定目标图像中每个像素的分类标识后，可以将分类标识为第一分类标识的多个像素构成的区域确定为目标图像的头部区域。

105、终端根据预先设置的表情类别与处理方式的对应关系，确定目标表情类别对应的目标处理方式，采用目标处理方式，对目标图像中的头部区域进行编辑处理。

本发明实施例中，终端可以预先设置表情类别与处理方式的对应关系，表示对于属于特定表情类别的头部区域可以采用对应的处理方式进行编辑处理。因此，终端确定目标表情类别对应的目标处理方式，采用目标处理方式，对目标图像中的头部区域进行编辑处理。

其中，该对应关系中所设置的处理方式可以包括以下至少一项：对头部区域进行放大处理或缩小处理、在头部区域内添加素材、显示头部区域抖动的动态效果或者其他处理方式等。其中，可添加的素材可以包括发光特效、贴纸、挂件等。

例如，表情类别与处理方式的对应关系可以如表2所示。

表2

表情类别	处理方式
		惊讶	对头部区域进行放大处理
高兴	在头部区域添加发光特效
		恐惧	对头部区域进行抖动处理
喜欢	在头部区域内添加贴纸
		……	……

参见图5，当目标图像中的表情识别为高兴类别时，在目标图像中的头部区域左侧添加与高兴表情相匹配的文字贴纸“满脸写着高兴”和笑脸贴纸。

需要说明的是，在另一实施例中，终端也可以不设置该对应关系，在目标图像具有符合目标表情类别的人脸区域时，只需按照预设处理方式对头部区域进行编辑处理即可。该预设处理方式可以由终端默认设置，也可以由用户预先设置，或者也可以根据用户在目标图像中的编辑操作确定。

例如，终端显示添加贴纸选项和添加发光特效选项，当检测到用户对添加发光特效选项的选择操作时，在头部区域添加发光特效。

需要说明的是，本发明实施例仅是以先对目标图像中的人脸区域进行表情识别，在表情类别为目标表情类别时才对头部区域进行编辑处理。而在另一实施例中，终端也可以不对目标图像中的人脸区域进行表情识别，当获取到目标图像时可以直接执行步骤103-105对头部区域进行编辑处理。

需要说明的是，本发明实施例仅是以目标图像为例进行说明，该目标图像可以为单个图像或者也可以为视频中的图像。该单个图像或该视频可以由终端拍摄得到，或者可以由其他设备发送给终端。

例如，终端获取目标视频，目标视频包括按照先后顺序排列的多个图像，将多个图像中的每个图像分别作为目标图像，从而对视频中的每个图像均采用本发明实施例提供的方法进行编辑处理。

图6是本发明实施例提供的一种图像处理方法的流程图，参见图6，当终端拍摄到视频时，针对视频中的每个图像，先进行人脸检测，基于表情识别模型对检测到的人脸区域进行识别，当识别出的表情类别为目标表情类别时，基于像素分类模型，对目标图像进行像素级别地分类，确定目标图像中的头部区域，对头部区域进行编辑处理。

本发明实施例提供的方法，通过基于像素分类模型，对目标图像中的每个像素进行分类，得到目标图像中每个像素的分类标识；根据分类标识为第一分类标识的像素，确定目标图像的头部区域，能够基于像素分类模型对目标图像中的像素进行分类，以确定目标图像中的头部区域，实现了像素级别的头部识别，能够做到对头部边缘的精细抠取，提高了头部区域的准确性，提升了头部区域的编辑处理效果。

图7是本发明实施例提供的一种图像处理装置的结构示意图，参见图7，该装置包括：

第一获取模块701，用于执行上述实施例中获取已训练的像素分类模型的步骤；

分类模块702，用于执行上述实施例中基于像素分类模型，对目标图像中的每个像素进行分类的步骤；

第一处理模块703，用于执行上述实施例中确定目标图像的头部区域，对头部区域进行编辑处理的步骤。

可选地，装置还包括：

第二获取模块，用于执行上述实施例中获取多个样本图像以及多个样本图像中每个像素的分类标识的步骤；

第一训练模块，用于执行上述实施例中根据多个样本图像以及多个样本图像中每个像素的分类标识进行训练的步骤。

可选地，装置还包括：

检测模块，用于执行上述实施例中对目标图像进行人脸检测，得到目标图像的人脸区域的步骤；

第三获取模块，用于执行上述实施例中获取已训练的表情识别模型的步骤；

表情识别模块，用于执行上述实施例中基于表情识别模型，对人脸区域进行识别，得到人脸区域的表情类别的步骤；

分类模块702，还用于当人脸区域的表情类别为目标表情类别时，执行上述实施例中基于像素分类模型对目标图像中的每个像素进行分类的步骤。

可选地，第一处理模块703，包括：

目标处理单元，用于执行上述实施例中确定目标表情类别对应的目标处理方式的步骤；

编辑处理单元，用于执行上述实施例中采用目标处理方式，对头部区域进行编辑处理的步骤。

可选地，装置还包括：

第四获取模块，用于执行上述实施例中获取多个样本人脸图像以及每个样本人脸图像的表情类别的步骤；

第二训练模块，用于执行上述实施例中根据多个样本人脸图像以及每个样本人脸图像的表情类别进行训练的步骤。

可选地，装置还包括：

视频处理模块，用于执行上述实施例中获取目标视频，将多个图像中的每个图像分别作为目标图像的步骤。

可选地，第一处理模块703，包括：

缩放处理单元，用于执行上述实施例中对头部区域进行放大处理或缩小处理的步骤；

或者素材添加单元，用于执行上述实施例中在头部区域内添加素材的步骤；

或者动态处理单元，用于执行上述实施例中显示头部区域抖动的动态效果的步骤。

需要说明的是：上述实施例提供的图像处理装置在处理图像时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将终端的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的图像处理装置与图像处理方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

图8示出了本发明一个示例性实施例提供的终端800的结构示意图。该终端800可以是便携式移动终端，比如：智能手机、平板电脑、MP3播放器(Moving Picture ExpertsGroup Audio Layer III，动态影像专家压缩标准音频层面3)、MP4(Moving PictureExperts Group Audio Layer IV，动态影像专家压缩标准音频层面4)播放器、笔记本电脑、台式电脑、头戴式设备，或其他任意智能终端。终端800还可能被称为用户设备、便携式终端、膝上型终端、台式终端等其他名称。

通常，终端800包括有：处理器801和存储器802。

处理器801可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器801可以采用DSP(Digital Signal Processing，数字信号处理)、FPGA(Field－Programmable Gate Array，现场可编程门阵列)、PLA(Programmable Logic Array，可编程逻辑阵列)中的至少一种硬件形式来实现。处理器801也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU(Central ProcessingUnit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器801可以在集成有GPU(Graphics Processing Unit，图像处理器)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器801还可以包括AI(Artificial Intelligence，人工智能)处理器，该AI处理器用于处理有关机器学习的计算操作。

存储器802可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器802还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器802中的非暂态的计算机可读存储介质用于存储至少一个指令，该至少一个指令用于被处理器801所具有以实现本申请中方法实施例提供的行为向量生成方法。

在一些实施例中，终端800还可选包括有：外围设备接口803和至少一个外围设备。处理器801、存储器802和外围设备接口803之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口803相连。具体地，外围设备包括：射频电路804、触摸显示屏805、摄像头806、音频电路807和电源809中的至少一种。

外围设备接口803可被用于将I/O(Input/Output，输入/输出)相关的至少一个外围设备连接到处理器801和存储器802。在一些实施例中，处理器801、存储器802和外围设备接口803被集成在同一芯片或电路板上；在一些其他实施例中，处理器801、存储器802和外围设备接口803中的任意一个或两个可以在单独的芯片或电路板上实现，本实施例对此不加以限定。

射频电路804用于接收和发射RF(Radio Frequency，射频)信号，也称电磁信号。射频电路804通过电磁信号与通信网络以及其他通信设备进行通信。射频电路804将电信号转换为电磁信号进行发送，或者，将接收到的电磁信号转换为电信号。可选地，射频电路804包括：天线系统、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路804可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于：城域网、各代移动通信网络(2G、3G、4G及8G)、无线局域网和/或WiFi(Wireless Fidelity，无线保真)网络。在一些实施例中，射频电路804还可以包括NFC(Near Field Communication，近距离无线通信)有关的电路，本申请对此不加以限定。

显示屏805用于显示UI(User Interface，用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏805是触摸显示屏时，显示屏805还具有采集在显示屏805的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器801进行处理。此时，显示屏805还可以用于提供虚拟按钮和/或虚拟键盘，也称软按钮和/或软键盘。在一些实施例中，显示屏805可以为一个，设置终端800的前面板；在另一些实施例中，显示屏805可以为至少两个，分别设置在终端800的不同表面或呈折叠设计；在再一些实施例中，显示屏805可以是柔性显示屏，设置在终端800的弯曲表面上或折叠面上。甚至，显示屏805还可以设置成非矩形的不规则图形，也即异形屏。显示屏805可以采用LCD(LiquidCrystal Display，液晶显示屏)、OLED(Organic Light-Emitting Diode,有机发光二极管)等材质制备。

摄像头组件806用于采集图像或视频。可选地，摄像头组件806包括前置摄像头和后置摄像头。通常，前置摄像头设置在终端的前面板，后置摄像头设置在终端的背面。在一些实施例中，后置摄像头为至少两个，分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种，以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及VR(Virtual Reality，虚拟现实)拍摄功能或者其它融合拍摄功能。在一些实施例中，摄像头组件806还可以包括闪光灯。闪光灯可以是单色温闪光灯，也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合，可以用于不同色温下的光线补偿。

音频电路807可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波，并将声波转换为电信号输入至处理器801进行处理，或者输入至射频电路804以实现语音通信。出于立体声采集或降噪的目的，麦克风可以为多个，分别设置在终端800的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器801或射频电路804的电信号转换为声波。扬声器可以是传统的薄膜扬声器，也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时，不仅可以将电信号转换为人类可听见的声波，也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中，音频电路807还可以包括耳机插孔。

电源809用于为终端800中的各个组件进行供电。电源809可以是交流电、直流电、一次性电池或可充电电池。当电源809包括可充电电池时，该可充电电池可以支持有线充电或无线充电。该可充电电池还可以用于支持快充技术。

在一些实施例中，终端800还包括有一个或多个传感器810。该一个或多个传感器810包括但不限于：加速度传感器811、陀螺仪传感器812、压力传感器813、光学传感器815以及接近传感器816。

加速度传感器811可以检测以终端800建立的坐标系的三个坐标轴上的加速度大小。比如，加速度传感器811可以用于检测重力加速度在三个坐标轴上的分量。处理器801可以根据加速度传感器811采集的重力加速度信号，控制触摸显示屏805以横向视图或纵向视图进行用户界面的显示。加速度传感器811还可以用于游戏或者用户的运动数据的采集。

陀螺仪传感器812可以检测终端800的机体方向及转动角度，陀螺仪传感器812可以与加速度传感器811协同采集用户对终端800的3D动作。处理器801根据陀螺仪传感器812采集的数据，可以实现如下功能：动作感应(比如根据用户的倾斜操作来改变UI)、拍摄时的图像稳定、游戏控制以及惯性导航。

压力传感器813可以设置在终端800的侧边框和/或触摸显示屏805的下层。当压力传感器813设置在终端800的侧边框时，可以检测用户对终端800的握持信号，由处理器801根据压力传感器813采集的握持信号进行左右手识别或快捷操作。当压力传感器813设置在触摸显示屏805的下层时，由处理器801根据用户对触摸显示屏805的压力操作，实现对UI界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。

光学传感器815用于采集环境光强度。在一个实施例中，处理器801可以根据光学传感器815采集的环境光强度，控制触摸显示屏805的显示亮度。具体地，当环境光强度较高时，调高触摸显示屏805的显示亮度；当环境光强度较低时，调低触摸显示屏805的显示亮度。在另一个实施例中，处理器801还可以根据光学传感器815采集的环境光强度，动态调整摄像头组件806的拍摄参数。

接近传感器816，也称距离传感器，通常设置在终端800的前面板。接近传感器816用于采集用户与终端800的正面之间的距离。在一个实施例中，当接近传感器816检测到用户与终端800的正面之间的距离逐渐变小时，由处理器801控制触摸显示屏805从亮屏状态切换为息屏状态；当接近传感器816检测到用户与终端800的正面之间的距离逐渐变大时，由处理器801控制触摸显示屏805从息屏状态切换为亮屏状态。

本领域技术人员可以理解，图8中示出的结构并不构成对终端800的限定，可以包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。

本发明实施例还提供了一种用于图像处理的终端，该终端包括处理器和存储器，存储器中存储有至少一条指令、至少一段程序、代码集或指令集，指令、程序、代码集或指令集由处理器加载并具有以实现上述实施例的图像处理方法中所具有的操作。

本发明实施例还提供了一种计算机可读存储介质，该计算机可读存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，该指令、该程序、该代码集或该指令集由处理器加载并具有以实现上述实施例的图像处理方法中所具有的操作。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本发明实施例的较佳实施例，并不用以限制本发明实施例，凡在本发明实施例的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种图像处理方法，其特征在于，所述方法包括：

根据分类标识为所述第一分类标识的像素，确定所述目标图像的头部区域；

当预先设置有表情类别与处理方式的对应关系时，确定所述目标表情类别对应的目标处理方式，采用所述目标处理方式，对所述头部区域进行编辑处理，不同的表情类别对应不同的处理方式；当未预先设置有所述表情类别与处理方式的对应关系时，按照用户预先设置的预设处理方式对所述头部区域进行编辑处理，或者根据所述用户在所述目标图像中的编辑操作对所述头部区域进行编辑处理；

所述基于所述像素分类模型，对目标图像中的每个像素进行分类，得到所述目标图像中每个像素的分类标识之前，所述方法还包括：

对所述目标图像进行人脸检测，得到所述目标图像的人脸区域；

获取已训练的表情识别模型，所述表情识别模型用于确定人脸区域的表情类别；

基于所述表情识别模型，对所述人脸区域进行识别，得到所述人脸区域的表情类别；

当所述人脸区域的表情类别为目标表情类别时，执行所述基于所述像素分类模型，对目标图像中的每个像素进行分类的步骤；

当所述人脸区域的表情类别不是所述目标表情类别时，不对所述头部区域进行编辑处理。

2.根据权利要求1所述的方法，其特征在于，所述获取已训练的像素分类模型之前，所述方法还包括：

获取多个样本图像以及所述多个样本图像中每个像素的分类标识；

根据所述多个样本图像以及所述多个样本图像中每个像素的分类标识进行训练，直至训练出的像素分类模型的分类准确率达到第一预设阈值时为止。

3.根据权利要求1所述的方法，其特征在于，所述获取已训练的表情识别模型之前，所述方法还包括：

获取多个样本人脸图像以及每个样本人脸图像的表情类别；

根据所述多个样本人脸图像以及每个样本人脸图像的表情类别进行训练，直至训练出的表情识别模型的识别准确率达到第二预设阈值时为止。

4.根据权利要求1-3任一项所述的方法，其特征在于，所述基于所述像素分类模型，对目标图像中的每个像素进行分类，得到所述目标图像中每个像素的分类标识之前，所述方法还包括：

获取目标视频，所述目标视频包括按照先后顺序排列的多个图像；

将所述多个图像中的每个图像分别作为所述目标图像，执行对所述目标图像进行编辑处理的步骤。

5.根据权利要求1-3任一项所述的方法，其特征在于，所述对所述头部区域进行编辑处理，包括：

对所述头部区域进行放大处理或缩小处理；

或者，在所述头部区域内添加素材；

或者，显示所述头部区域抖动的动态效果。

6.一种图像处理装置，其特征在于，所述装置包括：

第一处理模块，用于根据分类标识为所述第一分类标识的像素，确定所述目标图像的头部区域，当预先设置有表情类别与处理方式的对应关系时，确定所述目标表情类别对应的目标处理方式，采用所述目标处理方式，对所述头部区域进行编辑处理，不同的表情类别对应不同的处理方式；当未预先设置有所述表情类别与处理方式的对应关系时，按照用户预先设置的预设处理方式对所述头部区域进行编辑处理，或者根据所述用户在所述目标图像中的编辑操作对所述头部区域进行编辑处理；

检测模块，用于对所述目标图像进行人脸检测，得到所述目标图像的人脸区域；

第三获取模块，用于获取已训练的表情识别模型，所述表情识别模型用于确定人脸区域的表情类别；

表情识别模块，用于基于所述表情识别模型，对所述人脸区域进行识别，得到所述人脸区域的表情类别；

所述分类模块，还用于当所述人脸区域的表情类别为目标表情类别时，执行所述基于所述像素分类模型，对目标图像中的每个像素进行分类的步骤；当所述人脸区域的表情类别不是所述目标表情类别时，不对所述头部区域进行编辑处理。

7.根据权利要求6所述的装置，其特征在于，所述装置还包括：

第二获取模块，用于获取多个样本图像以及所述多个样本图像中每个像素的分类标识；

第一训练模块，用于根据所述多个样本图像以及所述多个样本图像中每个像素的分类标识进行训练，直至训练出的像素分类模型的分类准确率达到第一预设阈值时为止。

8.根据权利要求6所述的装置，其特征在于，所述装置还包括：

第四获取模块，用于获取多个样本人脸图像以及每个样本人脸图像的表情类别；

第二训练模块，用于根据所述多个样本人脸图像以及每个样本人脸图像的表情类别进行训练，直至训练出的表情识别模型的识别准确率达到第二预设阈值时为止。

9.根据权利要求6-8所述的装置，其特征在于，所述装置还包括：

视频处理模块，用于获取目标视频，所述目标视频包括按照先后顺序排列的多个图像，将所述多个图像中的每个图像分别作为所述目标图像。

10.根据权利要求6-8所述的装置，其特征在于，所述第一处理模块包括：

缩放处理单元，用于对所述头部区域进行放大处理或缩小处理；

或者素材添加单元，用于在所述头部区域内添加素材；

或者动态处理单元，用于显示所述头部区域抖动的动态效果。

11.一种用于图像处理的终端，其特征在于，所述终端包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述指令、所述程序、所述代码集或所述指令集由所述处理器加载并执行以实现如权利要求1至5任一权利要求所述的图像处理方法中所执行的操作。

12.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述指令、所述程序、所述代码集或所述指令集由处理器加载并执行以实现如权利要求1至5任一权利要求所述的图像处理方法中所执行的操作。