CN110418148A

CN110418148A - 视频生成方法、视频生成设备及可读存储介质

Info

Publication number: CN110418148A
Application number: CN201910619448.4A
Authority: CN
Inventors: 张进; 莫东松; 马晓琳; 张健; 钟宜峰; 赵璐; 马丹; 王科
Original assignee: Migu Cultural Technology Co Ltd
Current assignee: Migu Cultural Technology Co Ltd
Priority date: 2019-07-10
Filing date: 2019-07-10
Publication date: 2019-11-05
Anticipated expiration: 2039-07-10
Also published as: CN110418148B

Abstract

本发明提供一种视频生成方法、视频生成设备及可读存储介质，该视频生成方法包括：获取直播现场中第一视频片段对应的第一情感特征信息，所述第一视频片段为表演者的表演视频中的当前视频片段；获取直播现场中第二视频片段对应的第二情感特征信息，所述第二视频片段为观众视频中的当前视频片段；根据第一情感特征信息和第二情感特征信息，确定视频内容。本发明的实施例，可以结合表演者的情绪和观众的情绪动态调整视频内容，从而在将该视频内容作为直播屏幕所显示的内容时，可以至少解决现有直播现场中的直播屏幕所显示的内容较为单一的问题，以带给观众与直播现场完美切合的观看体验，提升观众的现场观看体验。

Description

视频生成方法、视频生成设备及可读存储介质

技术领域

本发明涉及通信技术领域，尤其涉及一种视频生成方法、视频生成设备及可读存储介质。

背景技术

目前，当表演者(比如演员、艺人等)进行现场演艺直播时，由于表演者的表演情绪可能会不断变化，同时现场观众的反馈也会存在起伏，因此直播现场的直播屏幕可成为烘托现场表演情绪的最佳工具。然而，目前直播现场中的直播屏幕所显示的内容通常为预先设置好的，或根据多摄像机影像内容切换得到的等，较为单一，无法带给观众与直播现场完美切合的观看体验。

发明内容

本发明实施例提供一种视频生成方法、视频生成设备及可读存储介质，以解决现有直播现场中的直播屏幕所显示的内容较为单一的问题。

为了解决上述技术问题，本发明是这样实现的：

第一方面，本发明实施例提供了一种视频生成方法，包括：

获取直播现场中第一视频片段对应的第一情感特征信息，所述第一视频片段为表演者的表演视频中的当前视频片段；

获取所述直播现场中第二视频片段对应的第二情感特征信息，所述第二视频片段为观众视频中的当前视频片段；

根据所述第一情感特征信息和所述第二情感特征信息，确定视频内容。

可选的，所述视频内容为如下任意一项：

直播现场中的直播屏幕的背景显示内容；

直播视频的背景区域上的显示内容。

可选的，所述视频内容为所述直播现场中的直播屏幕的背景显示内容；所述根据所述第一情感特征信息和所述第二情感特征信息，确定视频内容，包括：

在所述第一情感特征信息和所述第二情感特征信息一致的情况下，将所述第一情感特征信息或所述第二情感特征信息对应的预设显示画面确定为所述直播屏幕中第一预设区域的背景显示内容，和实时将所述观众视频中的当前帧图像确定为所述直播屏幕中第二预设区域的背景显示内容。

将所述第一情感特征信息对应的预设显示画面确定为所述直播屏幕中第一预设区域的背景显示内容，和将所述第二情感特征信息对应的预设显示画面确定为所述直播屏幕中第二预设区域的背景显示内容。

可选的，所述获取直播现场中第一视频片段对应的第一情感特征信息包括：

获取所述第一视频片段中的至少两个关键帧图像；

提取所述至少两个关键帧图像的低级特征、高级特征和光流特征；

对所述至少两个关键帧图像的低级特征、高级特征和光流特征进行融合，得到所述第一视频片段的特征向量；

确定与所述第一视频片段的特征向量对应的情感标签。

可选的，所述获取所述第一视频片段中的至少两个关键帧图像，包括：

对所述第一视频片段中的帧图像进行聚类，得到至少两类帧图像；

针对每类帧图像，将与聚类中心的距离满足预设要求的且包含人脸信息的帧图像确定为所述关键帧图像。

可选的，所述提取所述至少两个关键帧图像的低级特征、高级特征和光流特征，包括：

利用HOG局部特征描述子分别对所述至少两个关键帧图像进行特征提取，得到所述低级特征；

利用预先训练得到的神经网络模型分别对所述至少两个关键帧图像进行特征提取，得到所述高级特征；

基于光流法对所述至少两个关键帧图像进行特征提取，得到所述光流特征。

可选的，所述基于光流法对所述至少两个关键帧图像进行特征提取，得到所述光流特征，包括：

确定每相邻的两个所述关键帧图像F_i和F_i+1之间的三个维度上的光流场OF_x|y和OF_z；

根据确定的所述光流场，生成所述至少两个关键帧图像的光流图像；

对所述至少两个关键帧图像的光流图像进行特征提取，得到所述光流特征；

其中，

x表示水平方向，y表示垂直方向，z表示第三维度方向，OF_x|y表示水平和垂直方向上的光流场，OF_z表示第三个维度方向上的光流场，h和w分别表示关键帧图像的高度和宽度，v_x|y表示水平和垂直方向上的位移矢量，v_z表示第三个维度方向上的位移矢量。

可选的，所述获取所述直播现场中第二视频片段对应的第二情感特征信息，包括：

获取所述第二视频片段中的关键帧图像；

分别确定所述关键帧图像包括的n名观众中每名观众对应的情感标签；

根据每名观众对应的情感标签以及每名观众的权重值，计算所述关键帧图像对应的m种情感标签的得分；m，n为正整数，m小于或等于n；

获取所述m种情感标签中的得分最高的情感标签。

可选的，所述视频内容为直播视频的背景区域上的显示内容；所述根据所述第一情感特征信息和所述第二情感特征信息，确定视频内容之后，所述方法还包括：

以所述视频内容为直播视频的背景区域上的显示内容，对所述直播视频进行播放。

可选的，所述对所述直播视频进行播放之前，所述方法还包括：

识别用户的情感信息；

确定与所述用户的情感信息对应的情感标签；

将所述直播视频的背景区域上的显示内容替换为所述情感标签对应的预设显示画面，得到目标直播视频；

所述对所述直播视频进行播放，包括：

对所述目标直播视频进行播放。

可选的，所述将所述直播视频的背景区域上的显示内容替换为所述情感标签对应的预设显示画面，得到目标直播视频，包括：

将所述直播视频的背景区域中第三预设区域上的显示内容替换为所述情感标签对应的预设显示画面，得到所述目标直播视频。

第二方面，本发明实施例提供了一种视频生成设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其中，所述计算机程序被所述处理器执行时实现上述视频生成方法的步骤。

第三方面，本发明实施例提供了一种计算机可读存储介质，其上存储有计算机程序，其中，所述计算机程序被处理器执行时实现上述视频生成方法的步骤。

本发明实施例中，由于根据与表演者的表演视频相关的第一情感特征信息和与观众视频相关的第二情感特征信息，来确定视频内容，因此可以结合表演者的情绪和观众的情绪动态调整该视频内容，因此在将该视频内容作为直播屏幕所显示的内容时，可以丰富该直播屏幕所显示的内容，至少解决现有直播现场中的直播屏幕所显示的内容较为单一的问题，以带给观众与直播现场完美切合的观看体验，提升观众的现场观看体验。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例的视频生成方法的流程图；

图2为本发明实施例的视频生成装置的结构示意图；

图3为本发明实施例的视频生成设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参见图1，图1是本发明实施例提供的一种视频生成方法的流程图，如图1所示，该方法包括如下步骤：

步骤101：获取直播现场中第一视频片段对应的第一情感特征信息。

可选的，第一视频片段为表演者的表演视频中的当前视频片段，第一情感特征信息反映的是表演者的情绪。对于第一视频片段的选取，可以基于预设条件选取，比如每间隔一段时间选取一次。第一视频片段的时长可以预先设置，比如第一视频片段可选为包括n帧图像，而n例如为100等。

一种实施方式中，对于表演者的表演视频，可以由直播摄像机实时采集。该直播摄像机可选为静态摄像机。该直播摄像机的数量可选为至少一台。该直播摄像机采集的是实时的视频流，而本实施例中可以通过抽帧操作将对视频流的处理转变为对图像的处理。通常视频流为25帧/秒，本实施例中可以每秒抽取5帧图像进行处理。

步骤102：获取直播现场中第二视频片段对应的第二情感特征信息。

可选的，第二视频片段为观众视频中的当前视频片段，第二情感特征信息反映的是观众的情绪。对于第二视频片段的选取，可以基于预设条件选取，比如每间隔一段时间选取一次。第二视频片段的时长可以预先设置，比如第二视频片段可选为包括n帧图像，而n例如为100等。

可理解的，第一视频片段和第二视频片段是相关的，是同一时刻的表演者和观众的视频片段。

一种实施方式中，对于观众视频，可以由直播摄像机实时采集。该直播摄像机可选为动态摄像机，以便采集可反映观众情绪的视频流。该直播摄像机的数量可选为至少一台。该直播摄像机采集的是实时的视频流，而本实施例中可以通过抽帧操作将对视频流的处理转变为对图像的处理。通常视频流为25帧/秒，本实施例中可以每秒抽取5帧图像进行处理。

步骤103：根据第一情感特征信息和第二情感特征信息，确定视频内容。

可选的，第一情感特征信息可以反映以下任意一种情绪：伤感、浪漫、快乐、深情、热烈、放松等。第二情感特征信息可以反映以下任意一种情绪：伤感、浪漫、快乐、深情、热烈、放松等。这样，借助第一情感特征信息和第二情感特征信息来确定视频内容，可以结合表演者的情绪和观众的情感，动态调整该视频内容。

本发明实施例中，上述视频内容可为如下任意一项：

直播现场中的直播屏幕的背景显示内容；

直播视频的背景区域上的显示内容。

一种实施方式中，当视频内容为直播现场中的直播屏幕的背景显示内容时，在确定该背景显示内容后，可将该背景显示内容发送至屏幕终端，以由该屏幕终端控制直播屏幕显示该背景显示内容。其中，屏幕终端可基于实际情况设置，用于控制直播现场中的直播屏幕，以使其显示对应的背景显示内容。

可理解的，本实施例中的视频生成方法可以应用于采集组件，该采集组件至少包括上述用于采集表演视频的直播摄像机和上述用于采集观众视频的直播摄像机，即该采集组件除采集视频之外还可对视频进一步处理和分析，以确定可以反映表演者和观众的情绪的视频内容；也可以应用于服务器，该服务器可对采集的表演视频和观众视频进行处理和分析，以确定可以反映表演者和观众的情绪的视频内容。

本发明实施例的视频生成方法，由于根据与表演者的表演视频相关的第一情感特征信息和与观众视频相关的第二情感特征信息，来确定视频内容，因此可以结合表演者的情绪和观众的情绪动态调整该视频内容，因此在将该视频内容作为直播屏幕所显示的内容时，可以丰富该直播屏幕所显示的内容，至少解决现有直播现场中的直播屏幕所显示的内容较为单一的问题，以带给观众与直播现场完美切合的观看体验，提升观众的现场观看体验。

本发明至少一个实施例中，为了结合表演者和观众的情绪，以更突显现场氛围，可以在表演者和观众的情绪一致的情况下，在直播屏幕的一部分区域上显示与所述情绪相应的效果画面，而另一部分区域上显示可反映观众情绪的图像。可选的，当所述视频内容为直播现场中的直播屏幕的背景显示内容时，上述步骤103可包括：

在第一情感特征信息和第二情感特征信息一致的情况下，将所述第一情感特征信息或所述第二情感特征信息对应的预设显示画面确定为直播屏幕中第一预设区域的背景显示内容，和实时将所述观众视频中的当前帧图像确定为所述直播屏幕中第二预设区域的背景显示内容。

其中，第一预设区域和第二预设区域可以基于实际需求预先设置。比如，上述的第一预设区域可选为直播屏幕的2/3区域，上述的第二预设区域可选为直播屏幕剩余的1/3区域。

一种实施方式中，若第一情感特征信息反映的表演者情绪为浪漫，对应的预设显示画面可选为深蓝色，同时在若干方位动态产生泡泡，以营造出浪漫效果；或者，若第一情感特征信息反映的表演者情绪为热烈，对应的预设显示画面可选为深黄色，同时在若干方位动态产生焰火，以营造出热烈效果；或者，若第一情感特征信息反映的表演者情绪为伤感，对应的预设显示画面可选为灰色，以营造出伤感效果；等等。

可理解的，与情感特征信息(即第一、第二情感特征信息)对应的预设显示画面可以基于实际需求预先设置，本发明实施例不对此进行限制。

需说明的是，若第一情感特征信息和第二情感特征信息不一致，即表演者和观众的情绪不一致，为了避免影响演出效果，则可以根据第一情感特征信息确定直播屏幕的背景显示内容，比如直接将第一情感特征信息对应的预设显示画面确定为直播屏幕的背景显示内容。

本发明至少一个实施例中，为了分别突显表演者和观众的情绪，可以在直播屏幕的一部分区域上显示与表演者情绪相应的效果画面，而另一部分区域上显示与观众情绪相应的效果画面。可选的，当所述视频内容为直播现场中的直播屏幕的背景显示内容时，上述步骤103可包括：

将第一情感特征信息对应的预设显示画面确定为直播屏幕中第一预设区域的背景显示内容，和将第二情感特征信息对应的预设显示画面确定为直播屏幕中第二预设区域的背景显示内容。

其中，第一预设区域和第二预设区域可以基于实际需求预先设置。比如，此实施例中的第一预设区域可选为直播屏幕的1/2区域，第二预设区域可选为直播屏幕剩余的1/2区域。

对于第一、第二情感特征信息对应的预设显示画面可以基于实际需求预先设置，本发明实施例不对此进行限制。

本发明至少一个实施例中，可选的，上述步骤101中获取第一情感特征信息的过程可以为：

获取第一视频片段中的至少两个关键帧图像；

确定与所述第一视频片段的特征向量对应的情感标签。

其中，在确定与第一视频片段的特征向量对应的情感标签时，可以借助支持向量机(Support Vector Machine，SVM)分类器来确定。这样，借助对关键帧图像的特征分析，可以实现获取第一视频片段对应的情感特征信息。

可选的，在获取第一视频片段中的至少两个关键帧图像时，可以采用如下过程：首先，对第一视频片段中的帧图像进行聚类，得到至少两类帧图像；然后，针对每类帧图像，将与聚类中心的距离满足预设要求的且包含人脸信息的帧图像确定为关键帧图像。

例如，假设第一视频片段V＝{F₁，F₂…F_i…F_n}，其中F_i表示第i帧图像，对应提取关键帧图像的过程可以为：1)对于第一视频片段中的所有帧图像，按照平均RGB颜色直方图的距离D进行聚类，比如聚类成K类，聚类中心为C_i(1<i≤K)；2)针对每类帧图像，计算每个帧图像对应的D_i与聚类中心C_i的距离，并对计算得到的距离进行降序(或升序)排序；3)对排序后的前预设个比如S个帧图像(即选取距离聚类中心较近的帧图像)进行是否包含人脸信息的判断；若包含人脸信息则将其作为关键帧图像，否则不作为关键帧图像。需指出的是，若判断结果为所有帧图像均不包含人脸信息，则可以选取距离聚类中心最近的帧图像作为关键帧图像。

可选的，在提取所述至少两个关键帧图像的低级特征、高级特征和光流特征时，可以采用如下过程：

首先，利用方向梯度直方图(Histogram of Oriented Gradient，HOG)局部特征描述子分别对所述至少两个关键帧图像进行特征提取，得到低级特征；其中此低级特征主要为低层级的特征，比如像素特征等；

然后，利用预先训练得到的神经网络模型分别对所述至少两个关键帧图像进行特征提取，得到高级特征；其中此高级特征主要为高层级的特征，比如神经网络模型训练过程中学习到的图像特征；

最后，基于光流法对所述至少两个关键帧图像进行特征提取，得到光流特征；其中借助该光流法，是对视频帧在时间域上进行情感内容的分析。

上述神经网络模型可选为卷积神经网络(Convolutional Neural Networks，CNN)模型VGG19，优先可去除VGG19最后的三个全连接层。对于利用HOG局部特征描述子进行特征提取的方式，可以采用现有任意方式。对于上述神经网络模型的训练过程也可采用现有方式，在此不再赘述。

需说明的是，由于关键帧图像中并不是所有的内容都可用于视频情感内容传递，可能仅关键帧图像中特定的某一区域是识别视频情感的关键，因此为了避免对无用图像内容进行分析，可以从关键帧图像中截取图像块，以用于视频情感分析。可选的，为了从关键帧图像中截取图像块，本实施例中可以首先采用尺度不变特征变换(Scale-invariantfeature transform，SIFT)描述子获取关键帧图像中的关键点，然后对这些关键点进行聚类操作，以提取用于情感分析的图像块，比如具体实现时可提取m个32*32的图像块。

进一步的，在从关键帧图像中截取图像块之后，当提取关键帧图像的低级特征和高级特征时，可以利用HOG局部特征描述子对截取的图像块进行特征提取，以及利用预先训练得到的神经网络模型对该图像块进行特征提取。

可选的，在基于光流法对所述至少两个关键帧图像进行特征提取时，可采用如下过程：首先，确定每相邻的两个关键帧图像F_i和F_i+1之间的三个维度上的光流场OF_x|y和OF_z；然后，根据确定的所述光流场，生成所述至少两个关键帧图像的光流图像；最后，对所述至少两个关键帧图像的光流图像进行特征提取，得到相应的光流特征。

其中，对光流图像进行特征提取的方式可采用现有方式，在此不再赘述。

可选的，在对所述至少两个关键帧图像的低级特征、高级特征和光流特征进行融合时，可以采用最简单的线性特征融合方法，也可以采用现有其他特征融合方法，本发明实施例不对此进行限制。

比如，若得到的低级特征包括{FE₁₁,FE₁₂…FE_1m}，高级特征包括{FE₂₁,FE₂₂…FE_2n}，光流特征包括{FE₃₁,FE₃₂…FE_3f}，则借助线性特征融合方法进行融合得到的特征向量可为：

{FE₁₁,FE₁₂…FE_1m,FE₂₁,FE₂₂…FE_2n,FE₃₁,FE₃₂…FE_3f}。

本发明至少一个实施例中，可选的，上述步骤102中获取第二情感特征信息的过程可以为：

获取第二视频片段中的关键帧图像；该关键帧图像可为至少一个；

获取所述m种情感标签中的得分最高的情感标签。

这样，借助将得分最高的情感标签作为第二视频片段对应的情感特征信息，可以提高所确定的观众情绪的准确性。

可以理解的，对于每名观众对应的情感标签的获取过程可以参见上述对第一视频片段中的关键帧图像进行特征提取以获取相应情感标签的过程。但值得注意的是，由于观众视频片段中的关键帧图像可能包括多名观众，且需要获取每名观众对应的情感标签，因此在对该关键帧图像进行特征提取之前，可首先针对每名观众，对该关键帧图像进行分解，以使每个分解图像包括一名观众，并对每个分解图像进行特征提取，获得相应观众的情感标签。

对于每名观众的权重值，可以为相同的权重值。但一些情况下，如果某名观众具有表达情绪的形体动作，可以基于预设规则增加该名观众的权重值，比如相应权重值扩大3倍等。

例如，若一关键帧图像包括10名观众，每名观众的权重值相同比如为10，且该10名观众中，5名观众的情绪为情绪1，3名观众的情绪为情绪2，2名观众的情绪为情绪3，则该关键帧图像对应的是3种情绪，情绪1的得分为50，情绪2的得分为20，情绪3的得分为20，进一步的可确定该关键帧图像所表达的是得分最高的情绪1。

本发明至少一个实施例中，当所述视频内容为直播视频的背景区域上的显示内容时，上述步骤103之后，所述方法还包括：

这样，由于直播视频的背景区域上的显示内容是根据第一情感特征信息和第二情感特征信息确定的，因此可以方便用户感知直播现场中表演者的情绪和观众的情绪，从而带给用户与直播现场完美切合的观看体验，提升用户的观看体验。

可理解的，此对直播视频进行播放的执行主体可为用户手持终端，以借助手机APP观看直播视频。

需说明的是，对于直播现场外的场景，终端设备也可以直接获取直播视频，且该直播视频的背景区域上的显示内容是根据上述的第一情感特征信息和第二情感特征信息确定的，并对该直播视频进行播放。

可选的，上述对所述直播视频进行播放之前，所述方法还可包括：

识别用户的情感信息；其中该情感信息可以借助用户终端中的情绪识别模块识别得到；

确定与所述用户的情感信息对应的情感标签；

将所述直播视频的背景区域上的显示内容替换为所述情感标签对应的预设显示画面，得到目标直播视频。

对应的，上述对所述直播视频进行播放的步骤可包括：对所述目标直播视频进行播放。

这样，在直播内容中添加可表现用户自身情绪的内容，可以带给用户个性化的观看体验。

一种实施方式中，若用户的情感信息反映的用户情绪为浪漫，对应的预设显示画面可选为深蓝色，同时在若干方位动态产生泡泡，以营造出浪漫效果；或者，若用户的情感信息反映的用户情绪为热烈，对应的预设显示画面可选为深黄色，同时在若干方位动态产生焰火，以营造出热烈效果；或者，若用户的情感信息反映的用户情绪为伤感，对应的预设显示画面可选为灰色，以营造出伤感效果；等等。

进一步的，上述得到目标直播视频的过程可为：将所述直播视频的背景区域中第三预设区域上的显示内容替换为所述情感标签对应的预设显示画面，得到所述目标直播视频。该第三预设区域可以基于实际需求预先设置。

这样，不仅可以带给用户个性化的观看体验，还可以使得用户感知直播现场中表演者的情绪和观众的情绪，从而带给用户与直播现场完美切合的观看体验，提升用户的观看体验。

请参见图2，图2是本发明实施例提供的一种视频生成装置的结构示意图，如图2所示，该视频生成装置20包括：

第一获取模块21，用于获取直播现场中第一视频片段对应的第一情感特征信息，所述第一视频片段为表演者的表演视频中的当前视频片段；

第二获取模块22，用于获取所述直播现场中第二视频片段对应的第二情感特征信息，所述第二视频片段为观众视频中的当前视频片段；

第一确定模块23，用于根据所述第一情感特征信息和所述第二情感特征信息，确定视频内容。

本发明实施例的视频生成装置，由于根据与表演者的表演视频相关的第一情感特征信息和与观众视频相关的第二情感特征信息，来确定视频内容，因此可以结合表演者的情绪和观众的情绪动态调整该视频内容，因此在将该视频内容作为直播屏幕所显示的内容时，可以丰富该直播屏幕所显示的内容，至少解决现有直播现场中的直播屏幕所显示的内容较为单一的问题，以带给观众与直播现场完美切合的观看体验，提升观众的现场观看体验。

本发明实施例中，可选的，所述视频内容为如下任意一项：

直播现场中的直播屏幕的背景显示内容；

直播视频的背景区域上的显示内容。

可选的，所述视频内容为所述直播现场中的直播屏幕的背景显示内容；所述第一确定模块23具体用于：

可选的，所述第一获取模块21包括：

第一获取子模块，用于获取所述第一视频片段中的至少两个关键帧图像；

提取子模块，用于提取所述至少两个关键帧图像的低级特征、高级特征和光流特征；

融合子模块，用于对所述至少两个关键帧图像的低级特征、高级特征和光流特征进行融合，得到所述第一视频片段的特征向量；

第一确定子模块，用于确定与所述第一视频片段的特征向量对应的情感标签。

可选的，所述第一获取子模块包括：

聚类单元，用于对所述第一视频片段中的帧图像进行聚类，得到至少两类帧图像；

确定单元，用于针对每类帧图像，将与聚类中心的距离满足预设要求的且包含人脸信息的帧图像确定为所述关键帧图像。

可选的，所述提取子模块包括：

第一提取单元，用于利用HOG局部特征描述子分别对所述至少两个关键帧图像进行特征提取，得到所述低级特征；

第二提取单元，用于利用预先训练得到的神经网络模型分别对所述至少两个关键帧图像进行特征提取，得到所述高级特征；

第三提取单元，用于基于光流法对所述至少两个关键帧图像进行特征提取，得到所述光流特征。

可选的，所述第三提取单元包括：

确定子单元，用于确定每相邻的两个所述关键帧图像F_i和F_i+1之间的三个维度上的光流场OF_x|y和OF_z；

生成子单元，用于根据确定的所述光流场，生成所述至少两个关键帧图像的光流图像；

提取子单元，用于对所述至少两个关键帧图像的光流图像进行特征提取，得到所述光流特征；

其中，

可选的，所述第二获取模块22包括：

第二获取子模块，用于获取所述第二视频片段中的关键帧图像；

第二确定子模块，用于分别确定所述关键帧图像包括的n名观众中每名观众对应的情感标签；

计算子模块，用于根据每名观众对应的情感标签以及每名观众的权重值，计算所述关键帧图像对应的m种情感标签的得分；m，n为正整数，m小于或等于n；

第三获取子模块，用于获取所述m种情感标签中的得分最高的情感标签。

可选的，所述视频内容为直播视频的背景区域上的显示内容；该视频生成装置20还可包括：

播放模块，用于以所述视频内容为直播视频的背景区域上的显示内容，对所述直播视频进行播放。

可选的，该视频生成装置20还可包括：

识别模块，用于识别用户的情感信息；

第二确定模块，用于确定与所述用户的情感信息对应的情感标签；

替换模块，用于将所述直播视频的背景区域上的显示内容替换为所述情感标签对应的预设显示画面，得到目标直播视频；

所述播放模块具体用于：

对所述目标直播视频进行播放。

可选的，所述替换模块具体用于：

此外，本发明实施例还提供了一种视频生成设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其中，所述计算机程序被所述处理器执行时可实现上述视频生成方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

具体的，参见图3所示，本发明实施例还提供了一种视频生成设备，包括总线31、收发机32、天线33、总线接口34、处理器35和存储器36。

在本发明实施例中，所述视频生成设备还包括：存储在存储器36上并可在处理器35上运行的计算机程序。

可选的，所述计算机程序被处理器35执行时可实现如下步骤：

可理解的，本发明实施例中，所述计算机程序被处理器35执行时可实现上述图1所示的视频生成方法实施例的各个过程且能达到相同的技术效果，为避免重复，这里不再赘述。

在图3中，总线架构(用总线31来代表)，总线31可以包括任意数量的互联的总线和桥，总线31将包括由处理器35代表的一个或多个处理器和存储器36代表的存储器的各种电路链接在一起。总线31还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路链接在一起，这些都是本领域所公知的，因此，本文不再对其进行进一步描述。总线接口34在总线31和收发机32之间提供接口。收发机32可以是一个元件，也可以是多个元件，比如多个接收器和发送器，提供用于在传输介质上与各种其他装置通信的单元。经处理器35处理的数据通过天线33在无线介质上进行传输，进一步，天线33还接收数据并将数据传送给处理器35。

处理器35负责管理总线31和通常的处理，还可以提供各种功能，包括定时，外围接口，电压调节、电源管理以及其他控制功能。而存储器36可以被用于存储处理器35在执行操作时所使用的数据。

可选的，处理器35可以是CPU、ASIC、FPGA或CPLD。

本发明实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时可实现上述视频生成方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体,可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例所述的方法。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种视频生成方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述视频内容为如下任意一项：

直播现场中的直播屏幕的背景显示内容；

直播视频的背景区域上的显示内容。

3.根据权利要求2所述的方法，其特征在于，所述视频内容为所述直播现场中的直播屏幕的背景显示内容；所述根据所述第一情感特征信息和所述第二情感特征信息，确定视频内容，包括：

4.根据权利要求2所述的方法，其特征在于，所述视频内容为所述直播现场中的直播屏幕的背景显示内容；所述根据所述第一情感特征信息和所述第二情感特征信息，确定视频内容，包括：

5.根据权利要求1所述的方法，其特征在于，所述获取直播现场中第一视频片段对应的第一情感特征信息，包括：

获取所述第一视频片段中的至少两个关键帧图像；

确定与所述第一视频片段的特征向量对应的情感标签。

6.根据权利要求5所述的方法，其特征在于，所述获取所述第一视频片段中的至少两个关键帧图像，包括：

7.根据权利要求5所述的方法，其特征在于，所述提取所述至少两个关键帧图像的低级特征、高级特征和光流特征，包括：

利用方向梯度直方图HOG局部特征描述子分别对所述至少两个关键帧图像进行特征提取，得到所述低级特征；

8.根据权利要求7所述的方法，其特征在于，所述基于光流法对所述至少两个关键帧图像进行特征提取，得到所述光流特征，包括：

其中，

9.根据权利要求1所述的方法，其特征在于，所述获取所述直播现场中第二视频片段对应的第二情感特征信息，包括：

获取所述第二视频片段中的关键帧图像；

获取所述m种情感标签中的得分最高的情感标签。

10.根据权利要求2所述的方法，其特征在于，所述视频内容为直播视频的背景区域上的显示内容；所述根据所述第一情感特征信息和所述第二情感特征信息，确定视频内容之后，所述方法还包括：

11.根据权利要求10所述的方法，其特征在于，所述对所述直播视频进行播放之前，所述方法还包括：

识别用户的情感信息；

确定与所述用户的情感信息对应的情感标签；

所述对所述直播视频进行播放，包括：

对所述目标直播视频进行播放。

12.根据权利要求11所述的方法，其特征在于，所述将所述直播视频的背景区域上的显示内容替换为所述情感标签对应的预设显示画面，得到目标直播视频，包括：

13.一种视频生成设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述计算机程序被所述处理器执行时实现如权利要求1至12中任一项所述的视频生成方法的步骤。

14.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至12中任一项所述的视频生成方法的步骤。