CN112492397A

CN112492397A - 视频处理方法、计算机设备和存储介质

Info

Publication number: CN112492397A
Application number: CN201910863107.1A
Authority: CN
Inventors: 陈逸帆; 彭博; 郝杰; 刘亦畅
Original assignee: Shanghai Bilibili Technology Co Ltd
Current assignee: Shanghai Bilibili Technology Co Ltd
Priority date: 2019-09-12
Filing date: 2019-09-12
Publication date: 2021-03-12

Abstract

本发明提供了一种视频处理方法、计算机设备和存储介质。该视频处理方法包括：采集多个用户观看同一个视频的面部图像；识别面部图像对应的表情类型；根据多个用户识别出的表情类型确定视频的情绪特征，其中，情绪特征用于标识视频能够使观看者产生表情的位置和对应的表情类型；以及根据情绪特征对视频进行处理，通过本发明，能够提升视频处理的效果。

Description

视频处理方法、计算机设备和存储介质

技术领域

本发明涉及数据处理技术领域，尤其涉及一种视频处理方法、计算机设备和存储介质。

背景技术

现有技术中，关于视频推送、播放、分析等视频处理方法，一种情况下，需要视频提供方人工对视频本身可能使观看者产生情绪的位置进行详细分析，例如视频中可能引发观看者笑点的位置等，根据视频提供方分析的内容实现视频处理，但是，上述过程容易带有视频提供方的主观感情色彩。另一种情况下，需要已观看的用户根据自身观看体验对视频进行评价，例如视频中最让人感动的部分等，然后根据用户的评价实现视频处理，但是，该方法无法对应视频中的每个位置。因此，现有技术中基于视频情绪的处理方式，由于获得的视频情绪特征不准确，也即视频处理的依据不准确，使得视频处理效果差。

因此，提供一种视频处理方法、计算机设备和存储介质，提升视频处理结果的准确性，成为本领域亟需解决的技术问题。

发明内容

本发明的目的是提供一种视频处理方法、计算机设备和存储介质，用于解决现有技术中视频情绪特征不准确，视频处理效果差的技术问题。

一方面，为实现上述目的，本发明提供了一种视频处理方法。

该视频处理方法包括：采集多个用户观看同一个视频的面部图像；识别面部图像对应的表情类型；根据多个用户识别出的表情类型确定视频的情绪特征，其中，情绪特征用于标识视频能够使观看者产生表情的位置和对应的表情类型；以及根据情绪特征对视频进行处理。

进一步地，根据多个用户识别出的表情类型确定视频的情绪特征的步骤包括：根据识别出的表情类型构建多个表情数据组，其中，每个表情数据组对应一个用户，表情数据组包括若干条表情数据，每条表情数据包括识别一个面部图像得到的表情类型标识数据和采集面部图像时视频的位置数据；对多个表情数据组进行聚类分析，以得到若干个类别组；以及确定类别组的类中心，其中，情绪特征包括对应类中心的表情数据。

进一步地，根据情绪特征对视频进行处理的步骤包括：根据情绪特征对视频进行推送。

进一步地，根据情绪特征对视频进行推送的步骤包括：根据情绪特征生成视频的视频标签；确定目标用户的用户标签；将视频标签与用户标签相匹配的视频推送至目标用户。

进一步地，确定目标用户的用户标签的步骤包括：采集目标用户观看不同视频的面部图像；识别面部图像对应的表情类型；以及根据识别出的表情类型确定目标用户的用户标签。

进一步地，根据情绪特征对视频进行推送的步骤包括：获取包括多个视频的视频组；根据各个视频的情绪特征和预设规则在视频组中选定至少一个视频；将被选定的视频作为视频组的推送视频进行推送。

进一步地，根据情绪特征对视频进行处理的步骤包括：根据情绪特征控制视频进行播放。

进一步地，根据情绪特征控制视频进行播放的步骤包括：在视频中，确定与观看者产生表情的位置相对应的视频帧；若当前帧图像为视频帧时，在预设的提示信息库中查找与视频帧处表情类型相对应的提示信息；以及在当前帧图像上显示提示信息。

进一步地，根据情绪特征控制视频进行播放的步骤包括：在进度条对应视频能够使观看者产生表情的位置处标识对应的表情类型。

为实现上述目的，本发明还提供一种计算机设备，包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，该处理器执行计算机程序时实现上述方法的步骤。

为实现上述目的，本发明还提供计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现上述方法的步骤。

本发明提供的视频处理方法、装置、计算机设备和存储介质，针对某一视频，采集多个用户观看该视频的面部图像，并对每个面部图像进行识别，得到面部图像对应的表情类型，然后根据多个用户识别出的表情类型确定视频能够使观看者产生表情的位置和对应的表情类型，也即视频的情绪特征，最后根据视频的情绪特征对视频进行处理。本发明的视频处理方法在用户无感知的情况下，能够收集到所有时刻下多个用户观看同一个视频的真实表情，进而由该真实表情来确定视频中能够使观看者产生表情的位置和对应的表情类型，使得视频的情绪特征不依赖于观看者个体，且产生表情的位置和对应的表情类型能够准确对应，相对现有技术中的方法更客观，因而能够提高基于视频情绪特征的视频处理效果。

附图说明

图1为本发明实施例一提供的视频处理方法的流程图；

图2为本发明实施例二提供的视频处理方法的流程图；

图3为本发明实施例三提供的视频处理方法的流程图；

图4为本发明实施例四提供的视频处理方法的流程图；

图5为本发明实施例四提供的视频处理方法处理视频的示意图；

图6为本发明实施例五提供的视频处理装置的框图；

图7为本发明实施例六提供的计算机设备的硬件结构图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例提供了一种视频处理方法、装置、计算机设备和存储介质。在该视频处理方法中，采集多个用户观看同一个视频的面部图像，并对每个面部图像进行识别，得到面部图像对应的表情类型，然后根据多个用户识别出的表情类型确定视频能够使观看者产生表情的位置和对应的表情类型，也即视频的情绪特征，也就是说，本发明的视频处理方法在用户无感知的情况下，能够收集到所有时刻下多个用户观看同一个视频的真实表情，进而由该真实表情来确定视频中能够使观看者产生表情的位置和对应的表情类型，使得视频的情绪特征不依赖于观看者个体，且产生表情的位置和对应的表情类型能够准确对应，相对现有技术中的方法更客观，因而能够提高基于视频情绪特征的视频处理效果，例如能够提升基于视频情绪特征的视频推送的准确性、能够提升基于视频情绪特征的视频播放的用户体验以及能够提供基于视频情绪特征的视频分析的准确性等。

关于本发明提供的视频处理方法、装置、计算机设备和存储介质的具体实施例，将在下文中详细描述。

实施例一

本发明实施例提供了一种视频处理方法，该方法可应用于视频门户网站、视频播放器等前端对应的后台服务器，以根据该实施例提供的视频处理方法进行视频处理，具体可包括向前端推送视频、控制前端播放视频以及将视频分析结果展示于前端等。通过该方法，能够较准确地获得视频的情绪特征，进而提升视频处理效果。具体地，图1为本发明实施例一提供的视频处理方法的流程图，如图1所示，该实施例提供的视频处理方法包括如下的步骤S101至步骤S104。

步骤S101：采集多个用户观看同一个视频的面部图像。

用户观看视频时，可自动实时进行面部图像的采集，无需用户关注，在用户权限允许的情况下，观看过程中可不经意的进行采集。同时，在观看多个视频时均进行采集，同时，在每个视频的不同位置进行采集，以获得多个面部图像。

可选地，可通过网页脚本代码对播放视频终端的摄像设备检测，当终端能够正常运行脚本程序时，视为终端的摄像设备正常。

步骤S102：识别面部图像对应的表情类型。

对面部图像进行图像识别，确定面部图像所反应出来的用户的表情类型。可选地，预设6种表情类型，具体包括高兴、惊讶、悲伤、生气、沮丧和害怕，在该步骤102中，识别面部图像是否属于上述6种表情中的一种，且具体属于哪一种表情类型。

可选地，可在用户观看视频的过程中，开启表情类型的识别功能，从而，每间隔预定时间采集一帧面部图像并进行识别，例如，每间隔600毫秒采集一帧面部图像并进行识别。

可选地，识别面部图像对应的表情类型时，可利用建立在「tensorflow.js」内核上的javascript API，它实现了三种卷积神经网络架构，用于完成人脸检测、识别和特征点检测任务，可以在浏览器中进行人脸识别，该步骤调用javascript API接口即可实现表情类型的识别。

可选地，识别面部图像对应的表情类型时，具体可包括以下步骤：

根据面部图像确定面部元素的描述数据，其中，面部元素包括左眼、右眼、嘴巴、下颚、眉毛和/或鼻子；预设面部元素的描述数据与表情类型的关联关系；以及根据面部元素的描述数据和上述关联关系识别面部图像对应的表情类型。

具体而言，对于采集到的面部图像，首先进行图像识别，识别出图像中的面部元素，然后进一步确定面部元素的描述数据，其中，面部元素的描述数据用于描述的是面部元素的特征，例如面部元素的形态等。确定面部元素的描述数据后，根据预设的描述数据与表情类型的关联关系，识别面部图像对应的表情类型。

可选地，在进行图像识别时，首先定位面部图像中的所有人脸。「face-api.js」针对人脸检测工作实现了一个SSD(Single Shot Multibox Detector)算法，它本质上是一个基于MobileNetV1的卷积神经网络(CNN)，在网络的顶层加入了一些人脸边框预测层。该网络将返回每张人脸的边界框，并返回每个边框相应的分数，即每个边界框表示一张人脸的概率。这些分数被用于过滤边界框，因为可能存在一张图片并不包含任何一张人脸的情况。为了对边界框进行检索，即使图像中仅仅只有一个人，也应该执行人脸检测过程。

进一步可选地，可采集多个面部图像作为样本图像，根据样本图像确定面部元素的描述数据得到样本描述数据，同时标识面部图像对应的表情类型得到样本表情类型，以样本描述数据和对应的样本表情类型对人工智能模型进行训练，得到反应描述数据与表情类型的关联关系的智能模型，从而将确定的面部元素的描述数据输入至该智能模型后，即可识别出面部图像对应的表情类型。

人类的面部表情转换，主要体现在面部元素形态变化的差异上，例如嘴巴的弧度，眼睛睁开的大小等，通过面部元素的描述数据确定表情类型，能够提升确定表情类型的准确性。

其中，面部元素的描述数据包括面部元素符合元素状态的程度值，其中：左眼和右眼的元素状态分别包括：眨眼、向下看、向上看、向里看、向外看、眯眼和张眼；嘴巴的元素状态包括：闭嘴、鼓嘴、抿嘴、嘴左撇、嘴右撇、嘴弧度向下左倾、嘴弧度向下右倾、嘴弧度向上左倾和嘴弧度向上右倾；下颚的元素状态包括：下颚前倾、下颚左倾和下颚右倾；眉毛的元素状态包括：眉毛左下垂、眉毛右下垂和眉毛向中间下垂；鼻子的元素状态包括：左鼻孔张开和右鼻孔张开。

具体而言，可设置0～100之间的数值为面部元素符合元素状态的程度值，程度值越大，表示该面部元素越符合该元素状态，例如，嘴巴符合嘴弧度向上左倾的程度值越大，表示嘴巴越符合向上左倾的状态。而表情类型不同时，面部元素的状态不同，因此，通过面部元素符合元素状态的程度，能够确定出表情类型。

可选地，在预设面部元素的描述数据与表情类型的关联关系的步骤包括：定义每种表情类型对应的表情模型，其中，表情模型包括若干种面部元素、每种面部元素需要符合的元素状态和符合每种元素状态的程度值的范围；识别面部图像对应的表情类型的步骤包括：将面部元素的描述数据与表情模型进行匹配，将匹配到的表情模型对应的表情类型作为面部图像对应的表情类型。

具体而言，以面部元素的描述数据来定义表情模型，针对每种表情类型均定义一种表情模型。该表情模型的模型参数包括若干种面部元素，可以为一种或多种，例如，对应高兴表情的表情模型的模型参数包括嘴巴和眼睛两种面部元素，对应恐惧表情的表情模型的模型参数包括眉毛、嘴巴和眼睛共三种面部元素；该表情模型的模型参数还包括每种面部元素需要符合的元素状态，例如，对应喜悦表情的表情模型的模型参数包括嘴巴需要符合嘴弧度向上左倾和嘴弧度向上右倾；该表情模型的模型参数还包括符合每种元素状态的程度值的范围，例如，对应喜悦表情的表情模型的模型参数包括嘴巴符合嘴弧度向上左倾的程度值应大于70。

在此基础上，根据面部元素的描述数据和上述表情模型识别面部图像对应的表情类型时，将面部元素的描述数据与各个表情模型进行匹配，当面部元素的描述数据与某个表情模型相匹配时，该匹配到的表情模型对应的面部表情即为面部图像对应的表情类型。

步骤S103：根据多个用户识别出的表情类型确定视频的情绪特征。

其中，情绪特征用于标识视频能够使观看者产生表情的位置和对应的表情类型。

通过上述步骤S102，能够得到每个用户在观看视频时产生表情的位置和对应的表情类型，在该步骤S103中，将多个用户的数据进行聚合，能够得到大多数用户会在观看视频时的哪些位置产生表情，以及对应产生的表情类型，也即能够得到多个用户观看视频的情绪特点，而多个用户的情绪特点，能够反应出视频自身的情绪特点，也即视频的情绪特征。

可选地，在该步骤S103之前，可对表情类型对应的数据进行数据初始化，包括去除连续采集时间过短的碎片时间的面部图像对应的表情类型，和/或去除情绪类型波动异常的表情类型等，以去除异常数据，进一步提升处理效果。

步骤S104：根据情绪特征对视频进行处理。

在该步骤中，根据情绪特征对视频进行处理包括视频推送、视频播放以及视频分析等。具体地，可将视频的情绪特征作为视频推送时的参照因素进行视频推送；可将视频的情绪特征作为视频播放的控制因素进行视频播放；可将视频的情绪特征作为视频分析的基础进行视频分析。

采用该实施例提供的视频处理方法，针对某一视频，采集多个用户观看该视频的面部图像，并对每个面部图像进行识别，得到面部图像对应的表情类型，然后根据多个用户识别出的表情类型确定视频能够使观看者产生表情的位置和对应的表情类型，也即视频的情绪特征，最后根据视频的情绪特征对视频进行处理。本发明的视频处理方法在用户无感知的情况下，能够收集到所有时刻下多个用户观看同一个视频的真实表情，进而由该真实表情来确定视频中能够使观看者产生表情的位置和对应的表情类型，使得视频的情绪特征不依赖于观看者个体，且产生表情的位置和对应的表情类型能够准确对应，相对现有技术中的方法更客观，因而能够提高基于视频情绪特征的视频处理效果。

实施例二

本发明实施例二提供了一种优选地的视频处理方法，该实施例中的部分技术特征和相应的技术效果与上述实施例一相同，具体可参考上述实施例一，该处不再赘述。具体地，图2为本发明实施例二提供的视频处理方法的流程图，如图2所示，该实施例提供的视频处理方法包括如下的步骤S201至步骤S206。

步骤S201：采集多个用户观看同一个视频的面部图像。

步骤S202：识别面部图像对应的表情类型。

步骤S203：根据识别出的表情类型构建多个表情数据组。

其中，在每个用户观看视频时，按照预设时间间隔采集面部图像并识别表情类型，根据采集到的多个面部图像识别出的表情类型构建每个用户对应的表情数据组，也即每个表情数据组对应一个用户，表情数据组包括若干条表情数据，每条表情数据包括识别一个面部图像得到的表情类型标识数据和采集面部图像时视频的位置数据，其中，表情类型标识数据用于标识和区分不同的表情类型，例如高兴、惊讶、悲伤、生气、沮丧和害怕共六种表情类型依次分别对应的表情类型标识数据为a、b、c、d、e和f。采集面部图像时视频的位置数据可以为视频的时间数据，例如一个时长为1小时的视频，视频的位置数据为1小时以内的时间数据，具体可以为0时0分15秒，0时2分25秒等，或者，采集面部图像时视频的位置数据可以为视频的帧数据，例如一个包括x帧图像的视频，视频的位置数据为x帧以内的帧序号数据，具体可以为第0001帧，0156帧等。

步骤S204：对多个表情数据组进行聚类分析，以得到若干个类别组。

步骤S205：确定类别组的类中心，以得到视频的情绪特征。

其中，情绪特征包括对应类中心的表情数据。

对多个表情数据组进行聚类分析，能够将不同用户在同一个视频位置处表情类型相同的表情数据聚类为同一个类别组。每个类别组的类中心为处于聚类中心的一条表情数据，其位置数据能够标识出视频能够使观看者产生表情的位置，其表情类型标识数据能够标识出对应的表情类型。

步骤S206：根据情绪特征对视频进行处理。

实施例三

本发明实施例三提供了一种优选地的视频处理方法，该实施例中的部分技术特征和相应的技术效果与上述实施例一相同，具体可参考上述实施例一，同时，该实施例三可以采用上述实施例二中确定视频情绪特征的步骤，该处不再赘述。具体地，图3为本发明实施例三提供的视频处理方法的流程图，如图3所示，该实施例提供的视频处理方法包括如下的步骤S301至步骤S304。

步骤S301：采集多个用户观看同一个视频的面部图像。

步骤S302：识别面部图像对应的表情类型。

步骤S303：根据多个用户识别出的表情类型确定视频的情绪特征。

步骤S304：根据情绪特征对视频进行推送。

采用该实施例提供的视频处理方法，对视频的处理方式为对视频进行推送。在对视频进行推送时，根据情绪特征进行推送，增加了视频推送的维度，同时，该视频处理方法在用户无感知的情况下，能够收集到所有时刻下多个用户观看同一个视频的真实表情，进而由该真实表情来确定视频中能够使观看者产生表情的位置和对应的表情类型，使得视频的情绪特征不依赖于观看者个体，基于该情绪特征进行视频推送，能够提升推送的准确性。

可选地，根据情绪特征对视频进行推送的步骤包括：根据情绪特征生成视频的视频标签；确定目标用户的用户标签；将视频标签与用户标签相匹配的视频推送至目标用户。

具体而言，视频标签可以为标识视频类型的标签，例如视频类型包括搞笑视频、恐惧视频、喜剧视频、悲剧视频等等，还包括搞笑等级、恐惧等级、喜剧等级以及悲剧等级等。根据情绪特征生成视频的视频标签时，通过视频使观看者产生最多的表情类型进行确定，例如，情绪特征反应出视频使观看者产生最多的表情类型为害怕，则视频的视频标签即为恐惧视频。进一步，通过视频使观看者产生表情的频率确定视频标签，例如，情绪特征反应出视频使观看者在短时间内频繁多次产生害怕的表情类型，则视频的视频标签即为高级别恐惧视频。

用户标签可以为标识用户类型的标签，例如用户类型包括喜欢观看搞笑视频的用户、喜欢观看恐惧视频的用户、喜欢观看喜剧视频的用户、喜欢观看悲剧视频的用户等。在确定目标用户的用户标签时，可获取用户的特征数据来确定用户标签，其中，目标用户的特征数据包括年龄、性别、地理位置和播放记录等。

在进行视频推送时，对于推送的目标用户，将视频标签与用户标签相匹配的视频进行推送。

进一步可选地，确定目标用户的用户标签的步骤包括：采集目标用户观看不同视频的面部图像；识别面部图像对应的表情类型；以及根据所有视频识别出的表情类型确定目标用户的用户标签。

具体而言，在目标用户观看不同视频时，采集面部图像并识别表情类型，通过目标用户的表情类型，能够反应出目标用户对视频类型的喜好，根据识别出的表情类型来确定用户标签，使得用户标签能够体现目标视频对视频类型的喜好，进而在进行视频推送时，能够将目标用户喜好的视频推送至目标用户，进一步提升推送的准确性。

可选地，根据情绪特征对视频进行推送的步骤包括：获取包括多个视频的视频组；根据各个视频的情绪特征和预设规则在视频组中选定至少一个视频；将被选定的视频作为视频组的推送视频进行推送。

具体而言，视频组可以包括某一个视频区内的视频，例如，视频组包括古装视频区的视频；或者，视频组也可以包括某一类型的多个视频，例如，视频组包括同为贺岁喜剧的多个视频等。可预设一种推送规则，例如推送视频组中最搞笑的视频；又如推送视频组中最跌宕起伏的视频等。在此基础上，对于一个视频组内的多个视频，根据情绪特征判断哪个视频符合预设规则，将符合预设规则的视频进行推送，无需用户在视频组中进行筛选，提升用户体验。

具体地，可通过视频的情绪特征比对不同视频使用户产生某一种表情类型的次数多少，将次数最多的视频确定为最具该表情类型所反应的视频类型的视频，例如，通过视频的情绪特征比对不同视频使用户产生高兴表情类型的次数多少，将次数最多的视频确定为最搞笑的视频；通过视频的情绪特征比对不同视频使用户产生恐惧表情类型的次数多少，将次数最多的视频确定为最恐怖的视频等。

具体地，通过视频的情绪特征比对不同视频使用户在一段时间内产生表情类型变化的多少，将变化最多的视频确定为最最跌宕起伏的视频。

实施例四

本发明实施例四提供了一种优选地的视频处理方法，该实施例中的部分技术特征和相应的技术效果与上述实施例一相同，具体可参考上述实施例一，同时，该实施例四可以采用上述实施例二中确定视频情绪特征的步骤，该处不再赘述。具体地，图4为本发明实施例四提供的视频处理方法的流程图，如图4所示，该实施例提供的视频处理方法包括如下的步骤S401至步骤S404。

步骤S401：采集多个用户观看同一个视频的面部图像。

步骤S402：识别面部图像对应的表情类型。

步骤S403：根据多个用户识别出的表情类型确定视频的情绪特征。

步骤S404：根据情绪特征控制视频进行播放。

采用该实施例提供的视频处理方法，对视频的处理方式为控制视频进行播放。在对视频进行播放时，根据情绪特征进行控制，增加了视频播放的趣味性，同时，该视频处理方法在用户无感知的情况下，能够收集到所有时刻下多个用户观看同一个视频的真实表情，进而由该真实表情来确定视频中能够使观看者产生表情的位置和对应的表情类型，使得视频的情绪特征不依赖于观看者个体，基于该情绪特征进行视频播放，能够提升播放的用户体验。

可选地，根据情绪特征控制视频进行播放的步骤包括：在视频中，确定与观看者产生表情的位置相对应的视频帧；若当前帧图像为视频帧时，在预设的提示信息库中查找与视频帧处表情类型相对应的提示信息；以及在当前帧图像上显示提示信息。

具体而言，根据视频的情绪特征确定与观看者产生表情的位置相对应的视频帧，也即，在视频的哪些视频帧处会产生表情，将该信息进行存储；预设提示信息库，该提示信息库中包括若干提示信息，提示信息与表情类型相对应。在此基础上，在视频播放的过程中，若当前帧为上述视频帧中的一帧，则在提示信息库中查询该视频帧处表情类型对应的提示信息，将查询到的提示信息进行显示。具体地，该提示信息可以为弹幕，同时，该弹幕相对于其他用户发出的普通弹幕，可增大显示权重，压在其他弹幕之上进行效果输出。

采用该实施例提供的视频处理方法，根据多个用户观看视频的真实表情来确定视频的情绪特征，并在用户观看视频的过程中，通过弹幕等提示信息对视频的情绪特征进行提示，提升用户的观看体验。

可选地，根据情绪特征控制视频进行播放的步骤包括：根据情绪特征控制视频进行播放的步骤包括：在进度条对应视频能够使观看者产生表情的位置处标识对应的表情类型。

具体而言，情绪特征用于标识视频能够使观看者产生表情的位置和对应的表情类型，在进度条对应情绪特征所标识的位置处，特殊显示出情绪特征所标识的表情类型，例如，可将进度条对应情绪特征所标识的位置处高亮显示，又如在将进度条对应情绪特征所标识的位置处显示一个标识面部表情的图标。

图5为本发明实施例四提供的视频处理方法处理视频的示意图，如图5所示，在进度条下方，对应情绪特征所标识的位置处显示一个表情符号，该表情符号用于标识该位置处对应的表情类型，同时，对应每个表情符号的位置设置一个情绪程度的柱状标识，该柱状标识的高低标识的是在该处产生该种表情类型的用户的多少。

实施例五

对应于上述实施例一，本发明实施例五提供了一种视频处理装置，该装置与上述视频处理方法相对应，相应的技术特征和技术效果在该处不再赘述，具体可参考上文。图6为本发明实施例五提供的视频处理装置的框图，如图6所示，该装置包括：采集模块501、识别模块502、确定模块503和处理模块504。

其中，采集模块501用于采集多个用户观看同一个视频的面部图像。识别模块502用于识别面部图像对应的表情类型。确定模块503用于根据多个用户识别出的表情类型确定视频的情绪特征，其中，情绪特征用于标识视频能够使观看者产生表情的位置和对应的表情类型。处理模块504用于根据情绪特征对视频进行处理。

可选地，识别模块502包括：构建单元、聚类单元和确定单元。其中，构建单元用于根据识别出的表情类型构建多个表情数据组，其中，每个表情数据组对应一个用户，表情数据组包括若干条表情数据，每条表情数据包括识别一个面部图像得到的表情类型标识数据和采集面部图像时视频的位置数据；聚类单元用于对多个表情数据组进行聚类分析，以得到若干个类别组；确定单元用于确定类别组的类中心，其中，情绪特征包括对应类中心的表情数据。

可选地，处理模块504具体用于根据情绪特征对视频进行推送。

可选地，处理模块504包括生成单元、第一确定单元和第一推送单元。其中，生成单元用于根据情绪特征生成视频的视频标签；第一确定单元用于确定目标用户的用户标签；第一推送单元用于将视频标签与用户标签相匹配的视频推送至目标用户。

可选地，第一确定单元在确定目标用户的用户标签时，具体执行的步骤包括：采集目标用户观看不同视频的面部图像；识别面部图像对应的表情类型；以及根据识别出的表情类型确定目标用户的用户标签。

可选地，处理模块504包括获取单元、选择单元和第二推送单元。其中，获取单元用于获取包括多个视频的视频组；选择单元用于根据各个视频的情绪特征和预设规则在视频组中选定至少一个视频；第二推送单元用于将被选定的视频作为视频组的推送视频进行推送。

可选地，处理模块504具体用于根据情绪特征控制视频进行播放

可选地，处理模块504包括第二确定单元、查找单元和显示单元。其中，第二确定单元用于在视频中，确定与观看者产生表情的位置相对应的视频帧；查找单元用于若当前帧图像为视频帧时，在预设的提示信息库中查找与视频帧处表情类型相对应的提示信息；显示单元用于在当前帧图像上显示提示信息。

可选地，处理模块504包括标识单元，用于在进度条对应视频能够使观看者产生表情的位置处标识对应的表情类型。

实施例六

本实施例还提供一种计算机设备，如可以执行程序的智能手机、平板电脑、笔记本电脑、台式计算机、机架式服务器、刀片式服务器、塔式服务器或机柜式服务器(包括独立的服务器，或者多个服务器所组成的服务器集群)等。如图7所示，本实施例的计算机设备01至少包括但不限于：可通过系统总线相互通信连接的存储器011、处理器012，如图7所示。需要指出的是，图7仅示出了具有组件存储器011和处理器012的计算机设备01，但是应理解的是，并不要求实施所有示出的组件，可以替代的实施更多或者更少的组件。

本实施例中，存储器011(即可读存储介质)包括闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中，存储器011可以是计算机设备01的内部存储单元，例如该计算机设备01的硬盘或内存。在另一些实施例中，存储器011也可以是计算机设备01的外部存储设备，例如该计算机设备01上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)等。当然，存储器011还可以既包括计算机设备01的内部存储单元也包括其外部存储设备。本实施例中，存储器011通常用于存储安装于计算机设备01的操作系统和各类应用软件，例如实施例五的视频处理装置的程序代码等。此外，存储器011还可以用于暂时地存储已经输出或者将要输出的各类数据。

处理器012在一些实施例中可以是中央处理器(Central Processing Unit，CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器012通常用于控制计算机设备01的总体操作。本实施例中，处理器012用于运行存储器011中存储的程序代码或者处理数据，例如视频处理方法等。

实施例七

本实施例还提供一种计算机可读存储介质，如闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘、服务器、App应用商城等等，其上存储有计算机程序，程序被处理器执行时实现相应功能。本实施例的计算机可读存储介质用于存储视频处理装置，被处理器执行时实现实施例一的视频处理方法。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种视频处理方法，其特征在于，包括：

采集多个用户观看同一个视频的面部图像；

识别所述面部图像对应的表情类型；

根据多个用户识别出的表情类型确定所述视频的情绪特征，其中，所述情绪特征用于标识所述视频能够使观看者产生表情的位置和对应的表情类型；以及

根据所述情绪特征对所述视频进行处理。

2.根据权利要求1所述的视频处理方法，其特征在于，根据多个用户识别出的表情类型确定所述视频的情绪特征的步骤包括：

根据识别出的表情类型构建多个表情数据组，其中，每个所述表情数据组对应一个用户，所述表情数据组包括若干条表情数据，每条所述表情数据包括识别一个所述面部图像得到的表情类型标识数据和采集所述面部图像时所述视频的位置数据；

对所述多个表情数据组进行聚类分析，以得到若干个类别组；以及

确定所述类别组的类中心，其中，所述情绪特征包括对应所述类中心的表情数据。

3.根据权利要求1所述的视频处理方法，其特征在于，根据所述情绪特征对所述视频进行处理的步骤包括：

根据所述情绪特征对所述视频进行推送。

4.根据权利要求3所述的视频处理方法，其特征在于，根据所述情绪特征对所述视频进行推送的步骤包括：

根据所述情绪特征生成所述视频的视频标签；

确定目标用户的用户标签；

将所述视频标签与所述用户标签相匹配的视频推送至所述目标用户。

5.根据权利要求4所述的视频处理方法，其特征在于，确定目标用户的用户标签的步骤包括：

采集所述目标用户观看不同视频的面部图像；

识别所述面部图像对应的表情类型；以及

根据识别出的表情类型确定所述目标用户的用户标签。

6.根据权利要求3所述的视频处理方法，其特征在于，根据所述情绪特征对所述视频进行推送的步骤包括：

获取包括多个视频的视频组；

根据各个所述视频的情绪特征和预设规则在所述视频组中选定至少一个视频；

将被选定的视频作为所述视频组的推送视频进行推送。

7.根据权利要求1所述的视频处理方法，其特征在于，根据所述情绪特征对所述视频进行处理的步骤包括：

根据所述情绪特征控制所述视频进行播放。

8.根据权利要求7所述的视频处理方法，其特征在于，根据所述情绪特征控制所述视频进行播放的步骤包括：

在所述视频中，确定与观看者产生表情的位置相对应的视频帧；

若当前帧图像为所述视频帧时，在预设的提示信息库中查找与所述视频帧处表情类型相对应的提示信息；以及

在当前帧图像上显示所述提示信息。

9.根据权利要求7所述的视频处理方法，其特征在于，根据所述情绪特征控制所述视频进行播放的步骤包括：

在进度条对应所述视频能够使观看者产生表情的位置处标识所述对应的表情类型。

10.一种计算机设备，包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至9任一项所述方法的步骤。

11.一种计算机可读存储介质，其上存储有计算机程序，其特征在于：所述计算机程序被处理器执行时实现权利要求1至9任一项所述方法的步骤。