CN110784762A

CN110784762A - 一种视频数据处理方法、装置、设备及存储介质

Info

Publication number: CN110784762A
Application number: CN201910775190.7A
Authority: CN
Inventors: 黄小凤
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-08-21
Filing date: 2019-08-21
Publication date: 2020-02-11
Anticipated expiration: 2039-08-21
Also published as: CN110784762B

Abstract

本发明涉及视频处理领域，尤其涉及一种视频数据处理方法、装置、设备及存储介质。所述方法包括：获取实时视频画面，所述实时视频画面为视频录制过程中通过摄像设备采集获得的视频画面；对所述实时视频画面进行人脸识别，获得面部表情特征数据；从服务器获取与所述面部表情特征数据匹配的配图信息，所述配图信息包括热点事件图片和/或热点台词文本；根据所述配图信息对所述实时视频画面进行处理，生成目标视频画面。本发明实现了在视频录制过程中根据人物的面部表情实时呈现对应的热点事件图片和/或热点台词文本，使视频内容更贴近当下生活，更具趣味性和观赏性。

Description

一种视频数据处理方法、装置、设备及存储介质

技术领域

本发明涉及视频处理领域，尤其涉及一种视频数据处理方法、装置、设备及存储介质。

背景技术

随着互联网和视频处理技术的不断发展，大众所熟悉的直播已不限于新闻直播、体育赛事直播，个人网络直播逐渐深入大众的日常生活，各种互动视频直播平台万花齐放。直播内容的精彩程度决定了用户是否愿意观看直播视频，为吸引更多用户，各个直播平台都在努力提高直播视频的趣味性和观赏性。

发明内容

本发明提供了一种视频数据处理方法、装置、设备及存储介质，可以丰富直播内容，增加直播互动的趣味性。

一方面，本发明提供了一种视频数据处理方法，所述方法包括：

获取实时视频画面，所述实时视频画面为视频录制过程中通过摄像设备采集获得的视频画面；

对所述实时视频画面进行人脸识别，获得面部表情特征数据；

从服务器获取与所述面部表情特征数据匹配的配图信息，所述配图信息包括热点事件图片和/或热点台词文本；

根据所述配图信息对所述实时视频画面进行处理，生成目标视频画面。

在一些实施例中，所述服务器用于根据表情类别与预设图片的映射关系，从预设图片库中确定与所述面部表情特征数据表征的表情类别相匹配的预设图片，以及根据预设图片与热点事件图片之间的映射关系，从热点事件图片库中查找获得与确定的所述预设图片相匹配的热点事件图片；

和/或

根据表情类别与热点台词文本的映射关系，从热点台词文本库中确定与所述面部表情特征数据表征的表情类别相匹配的热点台词文本。

另一方面，本发明提供了一种视频数据处理方法，所述方法包括：

接收客户端发送的视频数据处理请求，所述视频数据处理请求包含对实时视频画面进行人脸识别获得的面部表情特征数据，所述实时视频画面为视频录制过程中通过摄像设备采集获得的视频画面；

根据所述面部表情特征数据匹配获得配图信息，所述配图信息包括热点事件图片和/或热点台词文本；

将所述配图信息返回至所述客户端，所述配图信息用于与所述实时视频画面结合以形成目标视频画面。

另一方面，本发明提供了一种视频数据处理装置，所述装置包括：

实时视频画面获取模块，用于获取实时视频画面，所述实时视频画面为视频录制过程中通过摄像设备采集获得的视频画面；

面部表情特征数据获取模块，用于对所述实时视频画面进行人脸识别，获得面部表情特征数据；

配图信息获取模块，用于从服务器获取与所述面部表情特征数据匹配的配图信息，所述配图信息包括热点事件图片和/或热点台词文本；

视频画面处理模块，用于根据所述配图信息对所述实时视频画面进行处理，生成目标视频画面。

在一些实施例中，所述配图信息获取模块包括：

视频数据处理请求生成单元，用于根据所述面部表情特征数据生成视频数据处理请求；

视频数据处理请求发送单元，用于将所述视频数据处理请求发送给服务器，以使所述服务器根据所述面部表情特征数据获取配图信息，所述配图信息包括热点事件图片和/或热点台词文本；

其中，所述服务器用于根据表情类别与预设图片的映射关系，从预设图片库中确定与所述面部表情特征数据表征的表情类别相匹配的预设图片，以及根据预设图片与热点事件图片之间的映射关系，从热点事件图片库中查找获得与确定的所述预设图片相匹配的热点事件图片；

和/或

配图信息接收单元，用于接收所述服务器返回的所述配图信息。

在一些实施例中，所述视频画面处理模块具体用于：将所述热点事件图片和/或热点台词文本叠加显示在所述实时视频画面上，获得所述目标视频画面。

在一些实施例中，所述视频数据处理装置还包括：

目标视频画面展示模块，用于展示所述目标视频画面。

视频数据处理请求接收模块，用于接收客户端发送的视频数据处理请求，所述视频数据处理请求包含对实时视频画面进行人脸识别获得的面部表情特征数据，所述实时视频画面为视频录制过程中通过摄像设备采集获得的视频画面；

配图信息匹配模块，用于根据所述面部表情特征数据匹配获得配图信息，所述配图信息包括热点事件图片和/或热点台词文本；

配图信息发送模块，用于将所述配图信息返回至所述客户端，所述配图信息用于与所述实时视频画面结合以形成目标视频画面。

在一些实施例中，所述配图信息匹配模块包括：

热点事件图片匹配单元，用于根据表情类别与预设图片的映射关系，从预设图片库中确定与所述面部表情特征数据表征的表情类别相匹配的预设图片；根据预设图片与热点事件图片之间的映射关系，从热点事件图片库中查找获得与确定的所述预设图片相匹配的热点事件图片；

和/或

热点台词文本匹配单元，用于根据表情类别与热点台词文本的映射关系，从热点台词文本库中确定与所述面部表情特征数据表征的表情类别相匹配的热点台词文本。

在一些实施例中，所述数据处理装置还包括预处理模块，所述预处理模块用于：

确定表情类别；

获取预设图片，建立所述预设图片与所述表情类别的第一映射关系，根据所述预设图片和所述第一映射关系构建预设图片库；获取热点事件图片，建立所述热点事件图片与所述预设图片的第二映射关系，根据所述热点事件图片和所述第二映射关系构建热点事件图片库；

和/或

获取热点台词文本，建立所述热点台词文本与所述表情类别的第三映射关系，根据所述热点台词文本和所述第三映射关系构建热点台词文本库。

另一方面，本发明提供了一种设备，所述设备包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如上所述的视频数据处理方法。

另一方面，本发明提供了一种计算机可读存储介质，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如上所述的视频数据处理方法。

本申请提供的一种视频数据处理方法、装置、设备及存储介质，具有如下有益效果：

本申请在视频录制过程中通过分析视频画面中人物的面部表情，进而实时向视频画面中添加与该面部表情相匹配的配图信息，该配图信息为当下流行的热点事件图片和/或热点台词文本，实现了在视频录制过程中根据人物的面部表情实时呈现对应的热点事件图片和/或热点台词文本，使视频内容更贴近当下生活，更具趣味性和观赏性。

由于在视频录制过程中对视频画面进行处理，因而减少了视频处理程序，压缩了视频处理时间，能够在热门话题出现后迅速生成热点事件图片及热点台词文本，并通过服务器及时返回给客户端，使即时生成的视频内容能够保持与当下热门话题的高度关联，该技术应用于直播中，能够增加主播在直播过程的话题性，增加互动的新鲜感。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案和优点，下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它附图。

图1是本发明实施例提供的一种应用环境图的示意图；

图2是本发明实施例提供的一种视频数据处理方法的流程示意图；

图3是本发明实施例提供的一种视频数据处理方法的流程示意图；

图4是本发明实施例提供的一种视频数据处理方法的流程示意图；

图5是本发明实施例提供的实现视频数据处理方法的一种架构图；

图6是本发明实施例提供的直播页面的可开启热点事件配图功能的示意图；

图7是本发明实施例提供的直播过程中根据主播的表情展示配图信息的示意图；

图8是本发明实施例提供的直播过程中根据主播的表情展示配图信息的示意图；

图9是本发明实施例提供的一种视频数据处理装置的结构示意图；

图10是本发明实施例提供的一种视频数据处理装置的结构示意图；

图11是本发明实施例提供的一种终端的硬件结构框图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

为了使本发明实施例公开的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明实施例进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本发明实施例，并不用于限定本发明实施例。首先，对本发明实施例涉及到的现有技术及相关概念进行描述：

直播：在现场随着事件的发生、发展进程同步制作和发布信息，具有双向流通过程的信息网络发布方式。

主播：负责直播的人。

APP：Application的缩写，指安装在智能设备上的软件，以完善智能设备原始系统的不足以及增加个性化。

人脸识别：基于人的脸部特征信息进行身份识别的一种生物识别技术。用摄像机或摄像头采集含有人脸的图像或视频流，并自动在图像中检测和跟踪人脸，进而对检测到的人脸进行脸部识别的一系列相关技术，通常也叫做人像识别、面部识别。

五官追踪：特指利用人脸识别技术追踪五官动态位置；

热点事件：指某一时期比较受用户关注的新闻或者信息，热点事件具有很高的时效性，是否成为热点事件取决于其是否具有较高的关注度(例如是否处于热门信息的前几位)；

热点事件图片：指与热点事件相关的图片，热点事件图片与热点事件一样具有很高的时效性，是否成为热点事件图片取决于该热点事件图片对应的热点事件是否仍然具有较高的关注度；

热点台词文本：指与热点事件相关的台词。

为了便于说明本发明实施例中的方法的优势，在本发明实施例的技术方案详述伊始，首先对现有技术的相关内容进行详述：

现有视频画面处理方法主要有视频表情配图技术和直播人脸滤镜技术。其中，

视频表情配图：主要应用于综艺节目、短视频中，实现方式为事先录制视频内容，然后后期通过PHOTOSHOP、AE等编辑软件人工的给视频内容添加热门表情配图。目前，视频表情配图未应用到实时互动的直播中。

(2)直播人脸滤镜：主要应用于直播或录制短视频过程中，关联人脸表情和预设的表情贴图。此技术未与热点事件进行关联应用，所呈现的表情贴图较单一，缺乏新鲜感、趣味性。此外，由于该技术应用于客户端，当贴图需要更换时，需要先进行贴图的人工识别匹配替换，然后发布新的应用软件版本或者更新应用软件的贴图，然后由用户下载或更新后才能使用，其操作成本大、耗时长，而热门事件具有热度时效性短的特点，假使如上述操作则不能及时跟进热点，且成本巨大，因而不适合将滤镜中的表情贴图替换为热门事件贴图来实现在直播或短视频中展示热门事件相关信息。

由现有视频数据处理方法可见，当前的直播视频画面仅能呈现单一的表情贴图，与实时热点毫无关联，直播内容的趣味性和新鲜感不足，容易导致主播与观众之间互动不良。

有鉴于此，本发明实施例提出一种视频数据处理方案，旨在对视频画面进行处理，使得最终呈现给用户的视频画面包含热点事件信息和互动信息，增加视频画面的趣味性和观赏性，在直播过程中，还可以增益主播与观众之间的互动。下面结合附图对本发明实施例中的技术方案进行清楚、完整的描述。

首先，本发明实施例公开一种视频数据处理方法的一种实施场景。参见图1，所述实施场景至少包括客户端01和服务器02，所述服务器02可以包括数据库服务器和视频业务服务器，所述视频业务服务器与所述数据库服务器通信连接，所述数据库服务器也可以设置于所述视频业务服务器内部，所述数据库服务器可以用于存储视频业务服务器所需的数据内容，比如存储预设图片、热点事件图片、热点台词文本等；所述数据库服务器可以通过与视频业务服务器进行交互使得视频业务服务器可以基于所述数据内容与客户端01进行交互。

所述客户端01可以基于浏览器/服务器模式(Browser/Server，B/S)或客户端/服务器模式(Client/Server，C/S)与视频业务服务器通信，以享受所述视频业务服务器提供的视频业务。视频业务服务器响应客户端01的视频数据处理请求，从数据库服务器中获得视频数据处理请求所对应的数据请求结果，再将该数据请求结果返回给客户端01，以使客户端01能够迅速的获得热点事件相关的图片和台词文本；视频业务服务器能够从网络信息中爬取最新的热点事件，将这些热点事件相关的图片及文字处理成数据内容并保存至数据库服务器，确保数据库服务器中的数据内容始终与当前热点保持一致，使得客户端01能够实时呈现最新的热点事件图片及热点台词文本，增加视频的趣味性和观赏性，提高视频的吸引力。

客户端01可以包括：智能手机、平板电脑、笔记本电脑、数字助理、智能可穿戴设备、车载终端等类型的实体设备，也可以包括运行于实体设备中的软体，例如应用程序等。比如，所述客户端01可以运行视频类软体。

所述服务器02可以包括一个独立运行的服务器，或者分布式服务器，或者由多个服务器组成的服务器集群。服务器02可以包括有网络通信单元、处理器和存储器等等。

在实际应用中，服务器02可以是互动直播平台的后台，客户端01可以是互动直播平台中主播对应的直播客户端，客户端01可以包括一个或多个(一般为多个)。

本发明实施例提供了一种视频数据处理方法，如图2所示，所述方法以所述实施环境中的客户端为执行主体，所述方法具体包括：

S201、获取实时视频画面，所述实时视频画面为视频录制过程中通过摄像设备采集获得的视频画面。

本实施例用于对录制的视频画面进行即时处理，达到一边录像一边生成处理后的视频的效果，可用于短视频录制及直播场景中。其中，摄像设备可以是直播配备的摄像头、摄像机或者录制短视频所用到的移动终端自带的摄像头。

S203、对所述实时视频画面进行人脸识别，获得面部表情特征数据。

面部表情特征数据是指组成人脸面部器官(包括眼睛、眉毛、鼻子、嘴唇和耳朵)的特征点的位置数据，面部表情特征数据可用于表征不同的表情类别，例如生气、害怕、厌恶、开心、悲伤、惊讶以及中立。视频画面是动态画面，人脸表情存在丰富的变化，在识别出人脸后可以通过五官追踪确定面部表情特征数据。具体包括：对所述实时视频画面进行人脸识别，在识别出人脸后确定人脸特征点，并将这些人脸特征点对应到特定的器官，以此来跟踪各个面部器官的动作。

人脸识别技术可以归结为三类，即：基于几何特征的方法、基于模板的方法和基于模型的方法。其中，基于几何特征的方法是最早、最传统的方法，通常需要和其他算法结合才能有比较好的效果；基于模板的方法可以分为基于相关匹配的方法、特征脸方法、线性判别分析方法、奇异值分解方法、神经网络方法、动态连接匹配方法等；基于模型的方法则有基于隐马尔柯夫模型，主动形状模型和主动外观模型的方法等。

具体的，本实施例可以采用特征脸方法(Eigenface或PCA)来进行人脸识别。特征脸方法特征脸方法是90年代初期由Turk和Pentland提出的目前最流行的算法之一，具有简单有效的特点,也称为基于主成分分析(principal component analysis,简称PCA)的人脸识别方法。特征子脸技术的基本思想是：从统计的观点，寻找人脸图像分布的基本元素，即人脸图像样本集协方差矩阵的特征向量，以此近似地表征人脸图像。这些特征向量称为特征脸(Eigenface)。特征脸反映了隐含在人脸样本集合内部的信息和人脸的结构关系，将眼睛、面颊、下颌的样本集协方差矩阵的特征向量称为特征眼、特征颌和特征唇，统称特征子脸，特征子脸在相应的图像空间中生成子空间，称为子脸空间，计算出测试图像窗口在子脸空间的投影距离，若窗口图像满足阈值比较条件，则判断其为人脸。基于特征分析的方法，也就是将人脸基准点的相对比率和其它描述人脸脸部特征的形状参数或类别参数等一起构成识别特征向量，这种基于整体脸的识别不仅保留了人脸部件之间的拓扑关系，而且也保留了各部件本身的信息。

S205、从服务器获取与所述面部表情特征数据匹配的配图信息，所述配图信息包括热点事件图片和/或热点台词文本。

在一个可行的实施例中，客户端在确定了面部表情特征数据后，会根据所述面部表情特征数据生成视频数据处理请求，并将该视频数据处理请求发送给服务器，由服务器匹配获取与该面部表情特征数据适应的配图信息，再由服务器将获取的配图信息返回至客户端。所述配图信息可以包括热点事件图片和/或热点台词文本。具体的，本实施例中，服务器预先设置了预设图片库、热点事件图片库和热点台词文本库，其中，热点事件图片库中的热点事件图片与预设图片库中的预设图片关联对应，预设图片库中的预设图片与表情类别一一对应，特点台词文本库中的热点台词文本与表情类别一一对应，服务器可以通过识别面部表情特征数据对应的表情类别，找到与该表情类别对应的预设图片和/或热点台词文本，再用与预设图片关联对应的热点事件图片替换掉预设图片，以此来获得与面部表情特征数据对应的热点事件图片，将匹配获得的热点台词文本和/或热点事件图片作为配图信息。

本申请由服务器完成配图信息的获取工作，一方面可以借助服务器强大的数据处理能力，提高数据处理效率，同时降低对客户端对应的终端的硬件要求，另一方面，服务器能够及时从网络上获取热点信息，以实现快速更新配图信息，确保客户端呈现的视频内容与当下热点紧密关联，提升视频内容的观赏性、趣味性及话题性。

S207、根据所述配图信息对所述实时视频画面进行处理，生成目标视频画面。

在一个可行的实施例中，可以将所述热点事件图片和/或热点台词文本叠加显示在所述实时视频画面上，获得所述目标视频画面。当配图信息包含热点事件图片和热点台词文本时，可以将热点事件图片和热点台词文本分别显示于所述实时视频画面不同的区域；也可以将热点台词文本和热点事件图片叠加显示于所述实时视频画面同一区域，且以热点台词文本显示于热点事件图片上方为佳。

进一步的，该方法还可以包括：展示所述目标视频画面。

本实施例在视频录制过程中通过分析视频画面中人物的面部表情，进而实时向视频画面中添加与该面部表情相匹配的配图信息，该配图信息为当下流行的热点事件图片和/或热点台词文本，实现了在视频录制过程中根据人物的面部表情实时呈现对应的热点事件图片和/或热点台词文本，使视频内容更贴近当下生活，更具趣味性、观赏性和话题性。

本发明另一实施例提供了一种视频数据处理方法，如图3所示，所述方法以所述实施环境中的服务器为执行主体，所述方法具体包括：

S401、接收客户端发送的视频数据处理请求，所述视频数据处理请求包含对实时视频画面进行人脸识别获得的面部表情特征数据，所述实时视频画面为视频录制过程中通过摄像设备采集获得的视频画面。

本实施例方法用于对实时视频画面处理得到的面部表情特征数据进行进一步处理，具体为分析面部表情特征数据对应的表情类别，进而根据表情类别结合数据库进行数据匹配，获得与面部表情特征数据对应的配图信息。

S403、根据所述面部表情特征数据匹配获得配图信息，所述配图信息包括热点事件图片和/或热点台词文本。

具体的，获取配图信息的方法可以包括：

根据表情类别与预设图片的映射关系，从预设图片库中确定与所述面部表情特征数据表征的表情类别相匹配的预设图片；根据预设图片与热点事件图片之间的映射关系，从热点事件图片库中查找获得与确定的所述预设图片相匹配的热点事件图片；

和/或

其中，预设图片库、热点事件图片库和热点台词文本库可以通过如下方法预先设置。包括：

(1)确定表情类别，表情类别可以包括生气、害怕、厌恶、开心、悲伤、惊讶以及中立；

(2)获取预设图片，建立所述预设图片与所述表情类别的第一映射关系，根据所述预设图片和所述第一映射关系构建预设图片库；获取热点事件图片，建立所述热点事件图片与所述预设图片的第二映射关系，根据所述热点事件图片和所述第二映射关系构建热点事件图片库；

和/或

为保持配图信息与当前热点的同步，热点事件图片库中的热点事件图片和热点台词文本库中的热点台词文本需要不断更新，具体可以通过从网络上获取热点事件相关的图片和文字，然后经人工处理后存入热点事件图片库和热点台词文本库。较佳的，可以将新获取的热点事件图片替换掉热点事件图片库中原有的热点事件图片，将新获取的热点台词文本替换掉热点台词文本库中原有的热点台词文本，以此节约存储资源。

S405、将所述配图信息返回至所述客户端，所述配图信息用于与所述实时视频画面结合以形成目标视频画面。

具体的，可以将配图信息叠加显示在所述实时视频画面上，获得所述目标视频画面。

本实施例由客户端和服务器交互实现目标视频画面的合成，在视频录制过程中对视频画面进行处理，因而减少了视频处理程序，压缩了视频处理时间，并且，利用服务器强大的数据处理功能，能够在热门话题出现后迅速生成热点事件图片及热点台词文本，使即时生成的视频内容能够保持与当下热门话题的高度关联，该技术应用于直播中，能够增加主播在直播过程的话题性，增加互动的新鲜感。

下面将本发明的数据处理方法应用于在线直播中为例进行说明，请参见图4-图8，直播场景中涉及主播客户端、观众客户端和服务器，在主播客户端中可显示如图6所示的信息，主播客户端的页面信息中包含“开启热点事件配图”的选项，主播可以通过选择“开启热点事件配图”的选项开启热点事件配图功能。参见图4，直播中的数据交互包括：

1.主播点击页面上的“开启热点事件配图”选项，开启热点事件配图功能；

2.主播客户端通过启动摄像设备采集视频画面；

3.主播在摄像设备前展示表情；

4.摄像设备采集实时视频画面，对实时视频画面进行人脸识别，获得面部表情特征数据；

5.主播客户端根据分析得到的面部表情特征数据生成视频数据处理请求，将视频数据处理请求发送给服务器；

6.服务器接收主播客户端发送的视频数据处理请求；

7.服务器根据视频数据处理请求中包含的面部表情特征数据匹配获得配图信息，配图信息包含热点事件图片和/或热点台词文本；

8.服务器将配图信息返回给主播客户端。

进一步的，将配图信息叠加显示在实时视频画面上获得目标视频画面，并在主播客户端和观众客户端上同步展示目标视频画面。

请参见图5，服务器中预先设置有预设图片库、热点事件图片库和热点台词文本库，其中，预设图片库中的预设图片和热点台词文本库中的热点台词文本均与面部表情特征对应的表情类别一对一关联，热点事件图片库中的热点事件图片与预设图片库中的预设图片一对一关联，热点事件图片库中的数据和热点台词文本库中的数据均为可更新数据。服务器收到主播客户端发送的视频数据处理请求后，根据表情类别与预设图片的映射关系，从预设图片库中确定与所述面部表情特征数据表征的表情类别相匹配的预设图片；根据预设图片与热点事件图片之间的映射关系，从热点事件图片库中查找获得与确定的所述预设图片相匹配的热点事件图片；根据表情类别与热点台词文本的映射关系，从热点台词文本库中确定与所述面部表情特征数据表征的表情类别相匹配的热点台词文本。

图7和图8为将配图信息叠加于实时视频画面中的展示效果。参见图7,最近热点事件为“大侦探皮卡丘”，当主播做了难过的表情时，后台服务器根据主播的表情匹配出图7右下方的配图信息，该配图信息包含热点事件图片和热点台词文本，其中热点台词文本与热点事件图片中皮卡丘的表情配合，为配合直播应用，进一步将热点台词文本优化为“好难过，求礼物安慰一下”。参见图8，最近热点事件为“权力的游戏”，当主播做了生气的表情时，后台服务器匹配出如图8右下方所示的配图信息。本实施例中配图信息与主播的表情一致，增加了视频内容的趣味性和观赏性。

本发明实施例还提供了一种视频数据处理装置，如图9所示，所述装置包括：

实时视频画面获取模块910，用于获取实时视频画面，所述实时视频画面为视频录制过程中通过摄像设备采集获得的视频画面；

面部表情特征数据获取模块930，用于对所述实时视频画面进行人脸识别，获得面部表情特征数据；

配图信息获取模块950，用于从服务器获取与所述面部表情特征数据匹配的配图信息，所述配图信息包括热点事件图片和/或热点台词文本；

视频画面处理模块970，用于根据所述配图信息对所述实时视频画面进行处理，生成目标视频画面。

在一些实施例中，所述配图信息获取模块950包括：

和/或

在一些实施例中，所述视频画面处理模块970具体用于：将所述热点事件图片和/或热点台词文本叠加显示在所述实时视频画面上，获得所述目标视频画面。

在一些实施例中，所述视频数据处理装置还包括：

目标视频画面展示模块，用于展示所述目标视频画面。

具体地，本发明实施例所述一种视频数据处理装置与图2涉及的视频数据处理方法实施例基于相同的发明构思。

另一方面，本发明实施例还提供了一种视频数据处理装置，如图10所示，所述装置包括：

视频数据处理请求接收模块1010，用于接收客户端发送的视频数据处理请求，所述视频数据处理请求包含对实时视频画面进行人脸识别获得的面部表情特征数据，所述实时视频画面为视频录制过程中通过摄像设备采集获得的视频画面；

配图信息匹配模块1030，用于根据所述面部表情特征数据匹配获得配图信息，所述配图信息包括热点事件图片和/或热点台词文本；

配图信息发送模块1050，用于将所述配图信息返回至所述客户端，所述配图信息用于与所述实时视频画面结合以形成目标视频画面。

在一些实施例中，所述配图信息匹配模块1030包括：

和/或

确定表情类别；

和/或

具体地，本发明实施例所述一种视频数据处理装置与图3涉及的视频数据处理方法实施例基于相同的发明构思。

另一方面，本发明提供了一种设备，所述设备包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现本发明实施例所述的视频数据处理方法，所述方法包括：

一种视频数据处理方法，包括：

优选地，所述从服务器获取与所述面部表情特征数据匹配的配图信息，所述配图信息包括热点事件图片和/或热点台词文本，包括：

根据所述面部表情特征数据生成视频数据处理请求；

将所述视频数据处理请求发送给服务器，以使所述服务器根据所述面部表情特征数据获取配图信息，所述配图信息包括热点事件图片和/或热点台词文本；

接收所述服务器返回的所述配图信息。

优选地，所述根据所述配图信息对所述实时视频画面进行处理，生成目标视频画面，包括：

将所述热点事件图片和/或热点台词文本叠加显示在所述实时视频画面上，获得所述目标视频画面。

一种视频数据处理方法，包括：

优选地，所述根据所述面部表情特征数据匹配获得配图信息，所述配图信息包括热点事件图片和/或热点台词文本，包括：

和/或

优选地，所述方法还包括：

确定表情类别；

和/或

进一步地，请参见图11，本发明实施例还提供了一种可以用于实施上述实施例提供的视频数据处理方法的设备的结构示意图，所述设备可以参与构成或包含本发明实施例所提供的装置或系统。

所述设备可以包括RF(Radio Frequency，射频)电路1110、包括有一个或一个以上计算机可读存储介质的存储器1120、输入单元1130、显示单元1140、传感器1150、音频电路1160、WiFi(wireless fidelity，无线保真)模块1170、包括有一个或者一个以上处理核心的处理器1180、以及电源1190等部件。本领域技术人员可以理解，图11中示出的结构并不构成对设备的限定，实际上，该设备可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。其中：

RF电路1110可用于收发信息或通话过程中，信号的接收和发送，特别地，将基站的下行信息接收后，交由一个或者一个以上处理器1180处理；另外，将涉及上行的数据发送给基站。通常，RF电路1110包括但不限于天线、至少一个放大器、调谐器、一个或多个振荡器、用户身份模块(SIM)卡、收发信机、耦合器、LNA(Low Noise Amplifier，低噪声放大器)、双工器等。此外，RF电路810还可以通过无线通信与网络和其他设备通信。所述无线通信可以使用任一通信标准或协议，包括但不限于GSM(Global System of Mobile communication，全球移动通讯系统)、GPRS(General Packet Radio Service，通用分组无线服务)、CDMA(Code Division Multiple Access，码分多址)、WCDMA(Wideband Code DivisionMultipleAccess,宽带码分多址)、LTE(Long Term Evolution,长期演进)、电子邮件、SMS(Short Messaging Service，短消息服务)等。

存储器1120可用于存储软件程序以及模块，处理器1180通过运行存储在存储器1120的软件程序以及模块，从而执行各种功能应用以及数据处理。存储器1120可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、功能所需的应用程序等；存储数据区可存储根据所述设备的使用所创建的数据等。此外，存储器1120可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地，存储器1120还可以包括存储器控制器，以提供处理器880和输入单元1130对存储器1120的访问。

输入单元1130可用于接收输入的数字或字符信息，以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。具体地，输入单元1130可包括触敏表面1131以及其他输入设备1132。触敏表面1131，也称为触摸显示屏或者触控板，可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触敏表面1131上或在触敏表面1131附近的操作)，并根据预先设定的程式驱动相应的连接装置。可选的，触敏表面1131可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器1180，并能接收处理器1180发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触敏表面1131。除了触敏表面1131，输入单元1130还可以包括其他输入设备1132。具体地，其他输入设备1132可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。

显示单元1140可用于显示由用户输入的信息或提供给用户的信息以及所述设备的各种图形用户接口，这些图形用户接口可以由图形、文本、图标、视频和其任意组合来构成。显示单元1140可包括显示面板1141，可选的，可以采用LCD(Liquid Crystal Display，液晶显示器)、OLED(Organic Light-Emitting Diode,有机发光二极管)等形式来配置显示面板1141。进一步的，触敏表面1131可覆盖显示面板1141，当触敏表面1131检测到在其上或附近的触摸操作后，传送给处理器1180以确定触摸事件的类型，随后处理器1180根据触摸事件的类型在显示面板1141上提供相应的视觉输出。其中，触敏表面1131与显示面板1141可以两个独立的部件来实现输入和输入功能，但是在某些实施例中，也可以将触敏表面1131与显示面板1141集成而实现输入和输出功能。

所述设备还可包括至少一种传感器1150，比如光传感器、运动传感器以及其他传感器。具体地，光传感器可包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示面板1141的亮度，接近传感器可在所述设备移动到耳边时，关闭显示面板1141和/或背光。作为运动传感器的一种，重力加速度传感器可检测各个方向上(一般为三轴)加速度的大小，静止时可检测出重力的大小及方向，可用于识别设备姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等；至于所述设备还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器，在此不再赘述。

音频电路1160、扬声器1161，传声器1162可提供用户与所述设备之间的音频接口。音频电路1160可将接收到的音频数据转换后的电信号，传输到扬声器1161，由扬声器1161转换为声音信号输出；另一方面，传声器1162将收集的声音信号转换为电信号，由音频电路1160接收后转换为音频数据，再将音频数据输出处理器1180处理后，经RF电路1110以发送给比如另一设备，或者将音频数据输出至存储器1120以便进一步处理。音频电路1160还可能包括耳塞插孔，以提供外设耳机与所述设备的通信。

WiFi属于短距离无线传输技术，所述设备通过WiFi模块1170可以帮助用户收发电子邮件、浏览网页和访问流式媒体等，它为用户提供了无线的宽带互联网访问。虽然图11示出了WiFi模块1170，但是可以理解的是，其并不属于所述设备的必须构成，完全可以根据需要在不改变发明的本质的范围内而省略。

处理器1180是所述设备的控制中心，利用各种接口和线路连接整个设备的各个部分，通过运行或执行存储在存储器1120内的软件程序和/或模块，以及调用存储在存储器1120内的数据，执行所述设备的各种功能和处理数据，从而对设备进行整体监控。可选的，处理器1180可包括一个或多个处理核心；优选的，处理器1180可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器1180中。

所述设备还包括给各个部件供电的电源1190(比如电池)，优选的，电源可以通过电源管理系统与处理器1180逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源1190还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。

尽管未示出，所述设备还可以包括摄像头、蓝牙模块等，在此不再赘述。具体在本实施例中，设备的显示单元是触摸屏显示器，设备还包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行本发明中方法实施例中的指令。

本发明的实施例还提供了一种存储介质，所述存储介质可设置于设备之中以保存用于实现方法实施例中一种视频数据处理方法相关的至少一条指令、至少一段程序、代码集或指令集，该至少一条指令、该至少一段程序、该代码集或指令集由该处理器加载并执行以实现上述方法实施例提供的视频数据处理方法。

可选地，在本实施例中，上述存储介质可以位于计算机网络的多个网络服务器中的至少一个网络服务器。可选地，在本实施例中，上述存储介质可以包括但不限于：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

由上述的视频数据处理方法、装置、设备及存储介质的实施例可见，本申请在视频录制过程中通过分析视频画面中人物的面部表情，进而实时向视频画面中添加与该面部表情相匹配的配图信息，实现了在视频录制过程中根据人物的面部表情实时呈现对应的热点事件图片和/或热点台词文本，使视频内容更贴近当下生活，更具趣味性和观赏性。进一步地，由于在视频录制过程中对视频画面进行处理，因而减少了视频处理程序，压缩了视频处理时间，能够在热门话题出现后迅速生成热点事件图片及热点台词文本，并通过服务器及时返回给客户端，使即时生成的视频内容能够保持与当下热门话题的高度关联，该技术应用于直播中，能够增加主播在直播过程的话题性，增加互动的新鲜感。

需要说明的是：上述本发明实施例先后顺序仅仅为了描述，不代表实施例的优劣。且上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置和服务器实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种视频数据处理方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述从服务器获取与所述面部表情特征数据匹配的配图信息，所述配图信息包括热点事件图片和/或热点台词文本，包括：

根据所述面部表情特征数据生成视频数据处理请求；

接收所述服务器返回的所述配图信息。

3.根据权利要求1所述的方法，其特征在于，所述根据所述配图信息对所述实时视频画面进行处理，生成目标视频画面，包括：

4.一种视频数据处理方法，其特征在于，所述方法包括：

5.根据权利要求4所述的方法，其特征在于，所述根据所述面部表情特征数据匹配获得配图信息，所述配图信息包括热点事件图片和/或热点台词文本，包括：

和/或

6.根据权利要求5所述的方法，其特征在于，所述方法还包括：

确定表情类别；

和/或

7.一种视频数据处理装置，其特征在于，所述装置包括：

8.一种视频数据处理装置，其特征在于，所述装置包括：

9.一种设备，其特征在于，所述设备包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如权利要求1-3任一所述的视频数据处理方法或权利要求4-6任一所述的视频数据处理方法。

10.一种计算机可读存储介质，其特征在于，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如权利要求1-3任一所述的视频数据处理方法或权利要求4-6任一所述的视频数据处理方法。