CN110213610A

CN110213610A - 一种直播场景识别方法及装置

Info

Publication number: CN110213610A
Application number: CN201910510023.XA
Authority: CN
Inventors: 冯春阳; 吴金贵
Original assignee: Beijing QIYI Century Science and Technology Co Ltd
Current assignee: Beijing QIYI Century Science and Technology Co Ltd
Priority date: 2019-06-13
Filing date: 2019-06-13
Publication date: 2019-09-06
Anticipated expiration: 2039-06-13
Also published as: CN110213610B

Abstract

本发明实施例提供了一种直播场景识别方法及装置，其中应用于服务器的所述方法包括：获取待识别直播视频，所述待识别直播视频包括：同一时间戳下的不同维度的待识别直播视频，所述维度包括：图像帧的图像参数维度、音频帧的音频参数维度、主播的情绪状态维度及弹幕的语义表达情绪维度中两个以上的维度；将所述待识别直播视频作为已训练模型的输入，通过所述已训练模型，输出直播场景的已标注目标直播场景类别，其中，所述已训练模型是基于直播场景的训练样本集训练得到的，所述直播场景的训练样本集包括：已标注直播场景类别。这样可针对待识别直播视频为观众更准确地识别直播场景，为后期与直播场景相关的其他服务提供依据。

Description

一种直播场景识别方法及装置

技术领域

本发明涉及视频处理技术领域，特别是涉及一种直播场景识别方法及装置。

背景技术

随着互联网的广泛普及，通过互联网可以更好地为用户提供所需的个性化服务，因此我们需要掌握互联网络的情况。一般互联网络通过各式各样的应用场景，为用户提供服务，比如网络直播。当前提供网络直播的各大网络直播平台的直播内容基本完全是由主播与观众进行互动，而网络直播平台在网络直播过程中，与观众之间很少形成有效互动。因此，目前网络直播平台很难根据直播内容针对性地为观众提供更好的服务。

发明内容

本发明实施例的目的在于提供一种直播场景识别方法及装置，用以解决现有技术中网络直播平台很难根据直播内容针对性地为观众提供更好的服务的技术问题。具体技术方案如下：

第一方面，本发明实施提供了一种直播场景识别方法，应用于服务器，所述方法包括：

获取待识别直播视频，所述待识别直播视频包括：同一时间戳下的不同维度的待识别直播视频，所述维度包括：图像帧的图像参数维度、音频帧的音频参数维度、主播的情绪状态维度及弹幕的语义表达情绪维度中两个以上的维度；

将所述待识别直播视频作为已训练模型的输入，通过所述已训练模型，输出直播场景的已标注目标直播场景类别，其中，所述已训练模型是基于直播场景的训练样本集训练得到的，所述直播场景的训练样本集包括：已标注直播场景类别。

进一步的，所述将所述待识别直播视频作为已训练模型的输入，通过所述已训练模型，输出直播场景的已标注目标直播场景类别，包括：

将所述待识别直播视频作为已训练预定类别模型的输入，通过所述已训练预定类别模型，输出各维度已标注的目标预定类别，其中，所述已训练预定类别模型是基于各维度训练样本集训练得到的，所述各维度训练样本集分别包括：已标注预定类别的图像帧、音频帧、主播情绪状态的主播图像帧、语义表达情绪的弹幕信息，以及所述各维度训练样本集各自的维度；

将各维度已标注的目标预定类别，作为已训练直播场景模型的输入，通过所述已训练直播场景模型，输出直播场景的已标注目标直播场景类别，其中，所述已训练直播场景模型是基于直播场景的训练样本集训练得到的，所述直播场景的训练样本集包括：已标注直播场景类别的已标注预定类别以及所述已标注直播场景类别。

进一步的，所述已训练预定类别模型包括：预定类别的已训练图像模型，通过如下步骤，得到所述已训练图像模型：

获取已标注预定类别的预设帧频的图像帧；

从所述图像帧中获得图像参数维度，所述图像参数维度包括：亮度、对比度、色彩；

将所述图像参数维度、所述已标注预定类别，作为图像参数维度的训练样本集；

将所述图像参数维度的训练样本集作为待训练图像模型的输入，利用所述待训练图像模型进行训练，得到所述已训练图像模型。

进一步的，所述已训练预定类别模型包括：预定类别的已训练音频模型，通过如下步骤，得到所述已训练音频模型：

获取已标注预定类别的音频帧；

从所述音频帧中获得音频参数维度，所述音频参数维度包括：音量、音高和音色；

将所述音频参数维度、所述已标注预定类别，作为音频参数维度的训练样本集；

将所述音频参数维度的训练样本集作为待训练音频模型的输入，利用所述待训练音频模型进行训练，得到所述已训练音频模型。

进一步的，所述已训练预定类别模型包括：预定类别的已训练主播模型，通过如下步骤，得到所述已训练主播模型：

获取已标注预定类别包含有主播情绪状态的主播视频帧，所述主播情绪状态是通过所述主播的情绪状态维度确定的；

从所述主播视频帧，确定主播的情绪状态维度，所述主播的情绪状态维度包括：主播的表情及主播的动作；

将所述主播的情绪状态维度、所述已标注预定类别，作为主播的情绪状态维度的训练样本集；

将所述主播的情绪状态维度的训练样本集作为待训练主播模型的输入，利用所述待训练主播模型进行训练，得到所述已训练主播模型。

进一步的，所述已训练预定类别模型包括：预定类别的已训练弹幕模型，通过如下步骤，得到所述已训练弹幕模型：

获取已标注预定类别包含有观众情绪状态的弹幕信息，所述观众情绪状态是通过所述弹幕的语义表达情绪维度确定的；

从所述弹幕信息，确定弹幕的语义表达情绪维度，所述弹幕的语义表达情绪维度包括：观众的语义表达情绪的内容以及所述内容出现的频率；

将所述弹幕的语义表达情绪维度、所述已标注预定类别，作为弹幕的语义表达情绪维度的训练样本集；

将所述弹幕的语义表达情绪维度的训练样本集作为待训练弹幕模型的输入，利用所述待训练弹幕模型进行训练，得到所述已训练弹幕模型。

进一步的，在所述将所述待识别直播视频作为已训练模型的输入，通过所述已训练模型，输出直播场景的已标注目标直播场景类别之后，所述方法还包括：

基于所述已标注目标直播场景类别，按照已标注直播场景类别与渲染内容之间的对应关系，确定所述已标注目标直播场景类别对应的渲染内容，作为目标渲染内容；

输出所述目标渲染内容。

进一步的，所述输出所述目标渲染内容，包括：

输出所述目标渲染内容至终端设备，由所述终端设备通过目标渲染内容，对目标直播场景进行渲染，其中，所述由所述终端设备通过目标渲染内容，对目标直播场景进行渲染，包括：所述目标渲染内容为互动弹幕，在所述目标直播场景中的弹幕层显示所述互动弹幕；或者所述目标渲染内容为声光特效，在所述目标直播场景中播放所述声光特效。

进一步的，所述已标注预定类别包括：已标注为主题场景预定类别和/或已标注为场景气氛预定类别；

所述已标注直播场景类别包括：已标注直播场景的主题类别和/或已标注直播场景的气氛类别，所述已标注预定类别与所述已标注直播场景类别一一对应。

第二方面，本发明实施提供了一种直播场景识别装置，应用于服务器，所述装置包括：

第一获取模块，用于获取待识别直播视频，所述待识别直播视频包括：同一时间戳下的不同维度的待识别直播视频，所述维度包括：图像帧的图像参数维度、音频帧的音频参数维度、主播的情绪状态维度及弹幕的语义表达情绪维度中两个以上的维度；

第一处理模块，用于将所述待识别直播视频作为已训练模型的输入，通过所述已训练模型，输出直播场景的已标注目标直播场景类别，其中，所述已训练模型是基于直播场景的训练样本集训练得到的，所述直播场景的训练样本集包括：已标注直播场景类别。

进一步的，所述第一处理模块，用于：

进一步的，所述已训练预定类别模型包括：预定类别的已训练图像模型，所述装置还包括：第二处理模块，用于：

获取已标注预定类别的预设帧频的图像帧；

进一步的，所述已训练预定类别模型包括：预定类别的已训练音频模型，所述装置还包括：第三处理模块，用于：

获取已标注预定类别的音频帧；

进一步的，所述已训练预定类别模型包括：预定类别的已训练主播模型，所述装置还包括：第四处理模块，用于：

进一步的，所述已训练预定类别模型包括：预定类别的已训练弹幕模型，所述装置还包括：第五处理模块，用于：

进一步的，所述装置还包括：

第六处理模块，用于在所述将所述待识别直播视频作为已训练模型的输入，通过所述已训练模型，输出直播场景的已标注目标直播场景类别之后，基于所述已标注目标直播场景类别，按照已标注直播场景类别与渲染内容之间的对应关系，确定所述已标注目标直播场景类别对应的渲染内容，作为目标渲染内容；

输出模块，用于输出所述目标渲染内容。

进一步的，所述输出模块，用于：

第三方面，本发明实施提供了一种服务器，包括处理器、通信接口、存储器和通信总线，其中，所述处理器，所述通信接口，所述存储器通过所述通信总线完成相互间的通信；

所述存储器，用于存放计算机程序；

所述处理器，用于执行所述存储器上所存放的程序时，实现第一方面所述的方法步骤。

第四方面，本发明实施提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述第一方面任一的方法。

第五方面，本发明实施还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述第一方面任一的方法。

本发明实施例提供的一种直播场景识别方法及装置，通过获取待识别直播视频，所述待识别直播视频包括：同一时间戳下的不同维度的待识别直播视频；将待识别直播视频作为已训练模型的输入，通过已训练模型，输出直播场景的已标注目标直播场景类别。

由此可见，由于待识别直播视频是多维度的，并且已训练模型的输入是待识别直播视频，相较于现有技术，已训练模型完成直播场景的已标注目标直播场景类别的识别，考虑的因素比较多，这样通过使用同一时间戳下的不同维度的待识别直播视频，提高了直播场景的识别准确性，可以针对待识别直播视频为观众更准确地识别直播场景，为后期与直播场景相关的其他服务提供依据。

当然，实施本发明的任一产品或方法并不一定需要同时达到以上所述的所有优点。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要的附图作简单地介绍。

图1为本发明实施例提供的直播场景识别方法的第一流程示意图；

图2为本发明实施例得到直播场景的已标注目标直播场景类别的具体流程示意图；

图3为本发明实施例得到已训练图像模型的流程示意图；

图4为本发明实施例得到已训练音频模型的流程示意图；

图5为本发明实施例得到已训练主播模型的流程示意图；

图6为本发明实施例得到已训练弹幕模型的流程示意图；

图7为本发明实施例提供的直播场景识别方法的第二流程示意图；

图8为本发明实施例提供的直播场景识别装置的结构示意图；

图9为本发明实施例提供的服务器的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行描述。

针对现有技术中网络直播平台很难根据直播内容针对性地为观众提供更好的服务的问题，本发明实施例提供一种直播场景识别方法及装置，通过获取待识别直播视频，所述待识别直播视频包括：同一时间戳下的不同维度的待识别直播视频；将待识别直播视频作为已训练模型的输入，通过已训练模型，输出直播场景的已标注目标直播场景类别。

下面首先对本发明实施例提供的一种直播场景识别方法进行介绍。

本发明实施例所提供的一种直播场景识别方法，应用于视频直播领域。

参见图1，本发明实施例所提供的一种直播场景识别方法，应用于服务器，可以包括如下步骤：

步骤110，获取待识别直播视频，待识别直播视频包括：同一时间戳下的不同维度的待识别直播视频，维度包括：图像帧的图像参数维度、音频帧的音频参数维度、主播的情绪状态维度及弹幕的语义表达情绪维度中两个以上的维度。

上述待识别直播视频可以是指需要识别出直播场景类别的直播视频，比如流媒体，流媒体可以为视频流，所述视频流可以包括有音频数据。进一步的，待识别内容待识别直播视频可以为视频流，视频流的维度可以包括：图像帧的图像参数维度、音频帧的音频参数维度、主播的情绪状态维度，比如，视频流可以为视频直播电台的视频流。进一步的，音频数据的维度可以包括：音频帧的音频参数维度、主播的情绪状态维度。

上述维度还可以但不限于包括：小剧场模式下小剧场播放的视频维度，这样可以完成小剧场模式下待识别直播视频的识别。图像帧的图像参数维度可以但不限于包括：亮度、对比度、色彩；音频帧的音频参数维度可以但不限于包括：音量、音高和音色；主播的情绪状态维度可以但不限于包括：主播的表情和主播的动作；弹幕的语义表达情绪维度可以但不限于包括：弹幕信息中的语义表达情绪的内容以及内容出现的频率。这样可以利用不同维度，给每个维度进行标注，这个标注可以是为各维度打上标签，其中，标签可以是字符，比如，字符可以包括：数字和/或字母。

步骤120，将待识别直播视频作为已训练模型的输入，通过已训练模型，输出直播场景的已标注目标直播场景类别，其中，已训练模型是基于直播场景的训练样本集训练得到的，直播场景的训练样本集包括：已标注直播场景类别。

为了能够确定直播场景的已标注目标直播场景类别，上述已训练模型可以是一个已训练好的模型实现的，这样可以使用一次训练样本集，训练得到已训练模型，方便快捷。

为了针对性地训练，提高训练好的模型的准确性，上述已训练模型也可以是多个已训练好的模型的结合，比如，已训练模型可以包括：已训练预定类别模型以及已训练直播场景模型。如图2所示，本步骤120可以采用如下步骤实现，进一步的说明如下。

步骤121，将待识别直播视频作为已训练预定类别模型的输入，通过已训练预定类别模型，输出各维度已标注的目标预定类别，其中，已训练预定类别模型是基于各维度训练样本集训练得到的，各维度训练样本集分别包括：已标注预定类别的图像帧、音频帧、主播情绪状态的主播图像帧、语义表达情绪的弹幕信息，以及各维度训练样本集各自的维度。

其中，已训练预定类别模型可以是基于各维度已训练模型得到的。已训练预定类别模型可以但不限于包括：预定类别的已训练图像模型，预定类别的已训练音频模型，预定类别的已训练主播模型，预定类别的已训练弹幕模型及已训练小剧场模式的模型中的两种以上。已训练预定类别模型包括的具体模型，与获取的待识别直播视频的维度相对应。所述已训练预定类别模型是基于各维度训练样本集训练得到的，所述各维度训练样本集分别包括：分别已标注预定类别的图像帧、音频帧、主播情绪状态的主播图像帧、语义表达情绪的弹幕信息以及各维度训练样本集各自的维度。

上述已训练预定类别模型包括的具体模型，也可以称为各维度已训练模型。为了训练得到上述各维度已训练模型，所打上的标签，可以称为基础标签。这样使用这些标签，可以标注目标预定类别。为了得到已训练直播场景模型，所打上的标签，可以称为最终标签，这样使用这些标签，可以标注直播场景类别。

本步骤121可以按照所需的维度，可以识别出所需维度已标注的目标预定类别，其中目标预定类别可以是指在训练各维度的待训练模型时，预先设定的类别，并且目标预定类别包含于预定类别。此处预定类别可以是指包含有能够识别场景类别的内容，并且，还需要将能够识别场景类别的内容后续进一步处理的预定类别。比如，已标注预定类别可以但不限于包括：已标注为主题场景预定类别和/或已标注为场景气氛预定类别。已标注为主题场景预定类别比如可以是指预定为游戏直播主题类型，预定为秀场直播主题类型、预定为户外直播主题类型、预定为看剧直播主题类型；已标注为场景气氛预定类别比如可以是指：预定为轻松的类型、预定为欢乐的类型、预定为悲伤的类型。

为了使用已训练直播场景模型进行场景识别，需要大量的素材作为训练样本集，素材内容的选取和对选取素材进行相关的预处理，将会极大影响已训练直播场景模型的效果和识别成功率，因此需要先得到已训练预定类别模型，然后再得到已训练直播场景模型。以下详细说明已训练预定类别模型：

为了对图像帧的图像参数维度进行识别，得到已训练预定类别模型，其中已训练预定类别模型包括：预定类别的已训练图像模型，本发明实施例的方法还包括：可以通过如下任一可能的实现方式，得到已训练图像模型：

在一种可能的实现方式中，第1步骤，获取已标注预定类别的图像帧。

为了能够获取到已标注预定类别的图像帧，上述第1步骤可以采用如下步骤，获取已标注预定类别的图像帧：

第1步，获取流媒体；第2步，从流媒体中抽取出图像帧，其中图像帧可以是每秒25帧或每秒25帧以上的视频帧，其中第2步进一步可以包括：从流媒体中截断出小于流媒体总长度的音频数据；将音频数据保存，并将音频数据切割为预设播放时长的音频片段；从音频片段中，抽取出图像帧，其中预设播放时长可以是用户根据用户需求进行设置，预设播放时长可以是大于10秒小于等于40秒，可选的预设播放时长为30秒，这样确定的音频片段不会太长，方便使用；第3步，对抽取出的图像帧进行标注预定类别，得到已标注预定类别的图像帧；第4步，获取已标注预定类别的图像帧。对于服务器来说，可以直接获得到流媒体的原始数据，因此可以直接从流媒体中抽取出图像帧，这样能够准确地获取所需的图像帧。

第2步骤，从图像帧中获得图像参数维度，图像参数维度包括：亮度、对比度、色彩。第3步骤，将图像参数维度、已标注预定类别，作为图像参数维度的训练样本集。第4步骤，将图像参数维度的训练样本集作为待训练图像模型的输入，利用待训练图像模型进行训练，得到已训练图像模型，其中，待训练图像模型是指需要使用图像帧进行训练的模型，训练完成之后得到的模型，称为已训练图像模型。这样可以方便得到已训练图像模型。

由于将流媒体所有的数据作为图像参数维度的训练样本集，数据量过于庞大，会使得待训练图像模型训练速度较低，所以可以在训练之前，对流媒体所有的数据进行压缩，这些压缩可以包括：对流媒体中的视频帧进行压缩，可以每秒选取一个帧图像即可，这样待训练图像模型训练的训练量变成了原来的1/25左右，方便快速地训练待训练图像模型。具体的，参见图3所示，在另一种可能的实现方式中，

步骤211，获取已标注预定类别的预设帧频的图像帧。

其中预设帧频可以是根据用户需求进行设置。示例性的，预设帧频在每秒1帧至每秒20帧中任一取值。比如，预设帧频为每秒1帧，或者预设帧频为每秒2帧，或者预设帧频为每秒20帧。每秒取得帧数越少，则压缩量越大，训练待训练图像模型的速率越快。

为了能够获取到已标注预定类别的图像帧，上述步骤211获取已标注预定类别的预设帧频的图像帧，可以采用如下步骤实现：

第1步，获取流媒体；第2步，从流媒体中抽取出预设帧频的图像帧，其中，预设帧频可以小于每秒25帧，进一步的，预设帧频可以为每秒1帧；第3步，对抽取出的图像帧进行标注预定类别，得到已标注预定类别的图像帧；第4步，获取已标注预定类别的图像帧。对于服务器来说，可以直接获得到流媒体的原始数据，因此可以直接从流媒体中抽取出图像帧，这样能够准确地获取所需的图像帧。

其中，图像帧可以是指主播视频流中的图像帧，这些图像帧可以包括：主播的情绪状态维度，即主播的表情和主播的动作。

步骤212，从图像帧中获得图像参数维度，所述图像参数维度包括：亮度、对比度、色彩。图像参数维度还可以包括：动作图像。

步骤213，将图像参数维度、已标注预定类别，作为图像参数维度的训练样本集。

步骤214，将图像参数维度的训练样本集作为待训练图像模型的输入，利用待训练图像模型进行训练，得到已训练图像模型。这样可以快速地得到已训练图像模型。

本步骤214中，将图像参数维度的训练样本集作为待训练图像模型的输入，利用待训练图像模型进行训练，得到的已训练模型，称为已训练图像模型。

为了能够对音频帧的音频参数维度进行识别，已训练预定类别模型包括：预定类别的已训练音频模型，参见图4所示，本发明实施例的方法还包括：可以通过如下任一可能的实现方式，得到已训练音频模型：

步骤311，获取已标注预定类别的音频帧。

为了能够获取到已标注预定类别的音频帧，上述步骤311获取已标注预定类别的预设帧频的音频帧，可以采用如下步骤实现：

第1步，获取流媒体；第2步，从流媒体中抽取出音频帧，其中第2步进一步可以包括：从流媒体中截断出小于流媒体总长度的音频数据，将音频数据保存，并将音频数据切割为预设播放时长的音频片段，从音频片段中，抽取出图像帧，其中预设播放时长可以是用户根据用户需求进行设置，预设播放时长可以是大于10秒小于等于40秒，可选的预设播放时长为30秒，这样确定的音频片段不会太长，方便使用；第3步，对抽取出的音频帧进行标注预定类别，得到已标注预定类别的音频帧；第4步，获取已标注预定类别的音频帧。对于服务器来说，可以直接获得到流媒体的原始数据，因此可以直接从流媒体中抽取出音频帧，这样能够准确地获取所需的音频帧。

步骤312，从音频帧中获得音频参数维度，所述音频参数维度包括：音量、音高和音色。

其中，音频参数维度可以包括：表达情绪的词语或者表达情绪的语句。这样可以通过音频参数维度确定出关于情绪的信息。

步骤313，将音频参数维度、已标注预定类别，作为音频参数维度的训练样本集。

步骤314，将音频参数维度的训练样本集作为待训练音频模型的输入，利用待训练音频模型进行训练，得到已训练音频模型。这样可以快速地得到已训练音频模型。

本步骤314中将音频参数维度的训练样本集作为待训练音频模型的输入，利用待训练音频模型进行训练，得到的已训练模型，称为已训练音频模型。其中，待训练音频模型是指需要使用音频帧进行训练的模型，训练完成之后得到的模型，称为已训练音频模型。

为了能够对主播的情绪状态维度进行识别，已训练预定类别模型包括：预定类别的已训练主播模型，参见图5所示，本发明实施例的方法还包括：可以通过如下任一可能的实现方式，得到已训练主播模型：

步骤411，获取已标注预定类别包含有主播情绪状态的主播视频，主播情绪状态是通过主播的情绪状态维度确定的。

为了能够获取到已标注预定类别包含有主播情绪状态的主播视频，上述步骤411获取已标注预定类别包含有主播情绪状态的主播视频帧，可以采用如下步骤实现：

第1步，获取主播视频流；第2步，从主播视频流中提取包含有主播情绪状态的主播视频帧；第3步，对包含有主播情绪状态的主播视频帧进行标注预定类别，得到已标注预定类别包含有主播情绪状态的主播视频帧；第4步，获取已标注预定类别包含有主播情绪状态的主播视频帧。对于服务器来说，可以直接获得到主播视频，因此可以直接从主播视频中提取包含有主播情绪状态的主播视频帧，这样能够准确地获取所需的包含有主播情绪状态的主播视频帧。

其中，主播情绪状态可以是指主播开心，主播悲伤，主播愤怒。这样可以获得主播的情绪信息。

步骤412，从主播视频帧，确定主播的情绪状态维度，主播的情绪状态维度包括：主播的表情及主播的动作。

步骤413，将主播的情绪状态维度、已标注预定类别，作为主播的情绪状态维度的训练样本集。

步骤414，将主播的情绪状态维度的训练样本集作为待训练主播模型的输入，利用待训练主播模型进行训练，得到已训练主播模型。这样可以利用主播的情绪状态维度，训练得到已训练主播模型。

本步骤414中，将主播的情绪状态维度的训练样本集作为待训练主播模型的输入，利用待训练主播模型进行训练，得到的已训练模型，称为已训练主播模型。其中，待训练主播模型是指需要使用主播视频流进行训练的模型，训练完成之后得到的模型，称为已训练主播模型。

为了能够对弹幕的语义表达情绪维度进行识别，已训练预定类别模型包括：预定类别的已训练弹幕模型，参见图6所示，本发明实施例的方法还包括：可以通过如下任一可能的实现方式，得到已训练弹幕模型：

步骤511，获取已标注预定类别包含有观众情绪状态的弹幕信息，观众情绪状态是通过弹幕的语义表达情绪维度确定的。

为了能够获取到已标注预定类别包含有观众情绪状态的弹幕信息，上述步骤511获取已标注预定类别包含有观众情绪状态的弹幕信息，可以采用如下步骤实现：

第1步，获取弹幕层数据；第2步，从弹幕层数据中提取包含有观众情绪状态的弹幕信息；第3步，对包含有观众情绪状态的弹幕信息进行标注预定类别，得到已标注预定类别包含有观众情绪状态的弹幕信息；第4步，获取已标注预定类别包含有观众情绪状态的弹幕信息。对于服务器来说，可以直接获得到弹幕层数据，因此可以直接从弹幕层数据中提取包含有观众情绪状态的弹幕信息，这样能够准确地获取所需的包含有观众情绪状态的弹幕信息。

步骤512，从弹幕信息，确定弹幕的语义表达情绪维度，弹幕的语义表达情绪维度包括：观众的语义表达情绪的内容以及内容出现的频率。

其中，观众的语义表达情绪的内容包括：情绪表达词语、表情包及标点符号。

步骤513，将弹幕的语义表达情绪维度、已标注预定类别，作为弹幕的语义表达情绪维度的训练样本集。

步骤514，将弹幕的语义表达情绪维度的训练样本集作为待训练弹幕模型的输入，利用待训练弹幕模型进行训练，得到已训练弹幕模型。这样可以利用弹幕的语义表达情绪维度，训练得到已训练弹幕模型，从而能够更注重对观众反应的描述。

本步骤514中，将弹幕的语义表达情绪维度的训练样本集作为待训练弹幕模型的输入，利用待训练弹幕模型进行训练，得到的已训练模型，称为已训练弹幕模型。其中，待训练弹幕模型是指需要使用弹幕信息进行训练的模型，训练完成之后得到的模型，称为已训练弹幕模型。

对于得到上述已训练预定类别模型过程中，标注预定类别可以是指打上各种标签，其中，标签可以是字符，比如，字符可以包括：数字和/或字母。这里为了得到上述已训练预定类别模型，所打上的标签，可以称为基础标签。这样使用这些标签，可以标注的目标预定类别。

为了能够对小剧场模式下小剧场播放的视频维度进行识别，得到已训练预定类别模型，其中已训练预定类别模型包括：预定类别的已训练小剧场模式的模型，本发明实施例的方法还包括：可以通过如下任一可能的实现方式，得到已训练小剧场模式的模型：

第1步骤，获取小剧场模式下已标注预定类别的预设帧频的图像帧。

为了能够获取到已标注预定类别的图像帧，上述第1步骤获取已标注预定类别的预设帧频的图像帧，可以采用如下步骤实现：

第2步骤，获取已标注预定类别包含有主播情绪状态的主播视频，主播情绪状态是通过主播的情绪状态维度确定的。

第3步骤，从图像帧中获得图像参数维度，所述图像参数维度包括：亮度、对比度、色彩。

第4步骤，从主播视频，确定主播的情绪状态维度，主播的情绪状态维度包括：主播的表情及主播的动作。

第5步骤，将图像参数维度、主播的情绪状态维度、已标注预定类别，作为小剧场播放的视频维度的训练样本集。

第6步骤，将小剧场播放的视频维度的训练样本集作为待训练小剧场模式模型的输入，利用待训练小剧场模式模型进行训练，得到已训练小剧场模式的模型。这样可以快速地得到已训练小剧场模式的模型。将小剧场播放的视频维度的训练样本集作为待训练小剧场模式模型的输入，利用待训练小剧场模式模型进行训练，得到的已训练模型，称为已训练小剧场模式的模型。其中，待训练小剧场模式模型是指需要使用小剧场模式下已标注预定类别的预设帧频的图像帧进行训练的模型，训练完成之后得到的模型，称为已训练小剧场模式模型。这样可以利用小剧场模式下小剧场播放的视频维度，训练得到已训练小剧场模式的模型。

上述的待训练小剧场模式模型、待训练弹幕模型、待训练主播模型、待训练音频模型、待训练图像模型，统称为待训练模型，这些待训练模型是需要进行训练的模型，这些待训练模型可以是根据用户需求的维度进行训练，得到用户所需的已训练预定类别模型。

步骤122，将各维度已标注的目标预定类别，作为已训练直播场景模型的输入，通过已训练直播场景模型，输出直播场景的已标注目标直播场景类别，其中，已训练直播场景模型是基于直播场景的训练样本集训练得到的，直播场景的训练样本集包括：已标注直播场景类别的已标注预定类别以及已标注直播场景类别。

所述已训练直播场景模型是基于直播场景的训练样本集训练得到的，所述直播场景的训练样本集分别包括：已标注直播场景类别的已标注预定类别以及所述已标注直播场景类别。

其中，所述已标注直播场景类别包括：已标注直播场景的主题类别和/或已标注直播场景的气氛类别，所述已标注预定类别与所述已标注直播场景类别一一对应。

已标注直播场景的主题类别用于表明已标注直播场景的主题，可以但不限于包括：指游戏直播主题类型，秀场直播主题类型，户外直播主题类型，看剧直播主题类型；已标注直播场景的气氛类别用于表明已标注直播场景的气氛，可以但不限于包括：轻松的类型、欢乐的类型、悲伤的类型。

这个已训练直播场景模型实质上的执行过程是：将所有的已标注预定类别进行整合，给各维度加上相应的权重，使用主成分分析的方法可以剔除部分识别的错误，最后可以确认直播场景的已标注目标直播场景类别。

在本发明实施例中，由于待识别直播视频是多维度的，并且已训练模型的输入是待识别直播视频，相较于现有技术，已训练模型完成直播场景的已标注目标直播场景类别的识别，考虑的因素比较多，这样通过使用同一时间戳下的不同维度的待识别直播视频，提高了直播场景的识别准确性，可以针对待识别直播视频为观众更准确地识别直播场景，为后期与直播场景相关的其他服务提供依据；并且，基于待识别直播视频的不同维度，使用已训练预定类别模型，输出各维度已标注的目标预定类别，相当于，先初始识别直播场景，然后在初始识别直播场景的基础上，基于已训练直播场景模型，输出直播场景的已标注目标直播场景类别，相较于现有技术，在初始识别直播场景的基础上，再次精准识别直播场景，这样多次识别直播场景，提高了直播场景的识别准确性。

参见图7，为了能够对识别出的已标注直播场景类别进行个性化的气氛渲染，本发明实施例还提供一种直播场景识别方法，在步骤120之后，所述方法还包括：

步骤130，基于已标注目标直播场景类别，按照已标注直播场景类别与渲染内容之间的对应关系，确定已标注目标直播场景类别对应的渲染内容，作为目标渲染内容；

其中，渲染内容用于渲染目标直播场景类别，渲染内容可以包括：声光特效、文字特效、视频特效和弹幕特效。已标注直播场景类别与渲染内容之间的对应关系是为了能够准确地确定已标注直播场景类别与渲染内容之间的一一对应关系，方便通过已标注直播场景类别，得到渲染内容。

声光特效可以但不限于包括：笑声，哭声，鼓励声，闪烁灯光等。

步骤140，输出目标渲染内容。

本步骤140输出目标渲染内容包括：直接输出目标渲染内容；或者，输出目标渲染内容至前端，这样前端可以接收到目标渲染内容，通过目标渲染内容进行渲染，其中，按照是否执行的方式的前端可以包括个人计算机(personal computer，简称PC)端及移动端，也可以按照安装应用的前端包括：网页web端及客户端。目标渲染内容可以是从所有渲染内容中，与目标直播场景类别对应的渲染内容。这样方便确定出目标渲染内容。进一步的说明如下：

输出目标渲染内容至终端设备，由终端设备通过目标渲染内容，对目标直播场景进行渲染，其中，由终端设备通过目标渲染内容，对目标直播场景进行渲染，包括：目标渲染内容为互动弹幕，在目标直播场景中的弹幕层显示互动弹幕；或者所述目标渲染内容为声光特效，在目标直播场景中播放声光特效。这样可以将事先针对不同的已标注目标直播场景类别，所对应的目标渲染内容进行渲染播放。比如当检测到已标注目标直播场景类别为轻松的类型时，可以播放笑声；当检测到已标注目标直播场景类别为悲伤的类型时，可以播放阴云的动画。对于弹幕特效来说，可以弹幕特效可以是观众之前发送过的弹幕，这些观众之前发送过的弹幕包括：观众发送之前和已标注目标直播场景类别的已标注直播场景的主题类别以及已标注直播场景的气氛类别相似度小于预设相似度的弹幕，预设相似度可以是根据用户需求进行设置的，从而达到与观众进行互动的目的，提升用户体验。在本发明实施例中，可以自动、精准的渲染各式各样的特效，节约大量人力，并且渲染更加丰富的效果。

在本发明实施例中，在服务器侧，可以确定出目标直播场景类别，在终端设备侧，获取到已标注目标直播场景类别，通过已标注目标直播场景类别，确定目标渲染内容，这样可以确定出对已标注目标直播场景类别的渲染内容，方便后期在终端设备侧进行目标直播场景的渲染。

在本发明实施例中，由于待识别直播视频是多维度的，并且已训练模型的输入是待识别直播视频，相较于现有技术，已训练模型完成直播场景的已标注目标直播场景类别的识别，考虑的因素比较多，这样通过使用同一时间戳下的不同维度的待识别直播视频，提高了直播场景的识别准确性，可以针对待识别直播视频为观众更准确地识别直播场景，为后期与直播场景相关的其他服务提供依据；并且，基于待识别直播视频的不同维度，使用已训练预定类别模型，输出各维度已标注的目标预定类别，相当于，先初始识别直播场景，然后在初始识别直播场景的基础上，基于已训练直播场景模型，输出直播场景的已标注目标直播场景类别，相较于现有技术，在初始识别直播场景的基础上，再次精准识别直播场景，这样多次识别直播场景，提高了直播场景的识别准确性。并且，在服务器侧，基于已标注目标直播场景类别可以确定目标渲染内容，输出目标渲染内容，以便后期服务器或前端进行渲染。

本发明实施例还提供直播场景识别方法，应用于终端设备，所述方法包括：

第510步骤，获取直播场景的已标注目标直播场景类别；也就是获取由服务器输出的目标直播场景类别。

第520步骤，基于已标注目标直播场景类别，按照已标注直播场景类别与渲染内容之间的对应关系，确定已标注目标直播场景类别对应的渲染内容，作为目标渲染内容。

在一种可能的实现方式中，在第510步骤之后，所述方法还包括：通过目标渲染内容，对目标直播场景进行渲染。

其中，目标直播场景可以是指需要识别直播场景。

由于渲染方式各异，为了能够实现渲染的特效，本发明实施例通过目标渲染内容，对目标直播场景进行渲染，包括：

所述目标渲染内容为互动弹幕，在目标直播场景中的弹幕层显示所述互动弹幕；或者所述目标渲染内容为声光特效，在目标直播场景中播放所述声光特效。

在本发明实施例中，可以自动、精准的渲染各式各样的特效，节约大量人力，并且渲染更加丰富的效果。

第二方面，下面继续对本发明实施例提供的直播场景识别的装置进行介绍。

参见8所示，图8为本发明实施例的直播场景识别的装置的结构示意图。本发明实施例提供直播场景识别的装置，应用于服务器，所述装置包括：

第一获取模块11，用于获取待识别直播视频，所述待识别直播视频包括：同一时间戳下的不同维度的待识别直播视频，所述维度包括：图像帧的图像参数维度、音频帧的音频参数维度、主播的情绪状态维度及弹幕的语义表达情绪维度中两个以上的维度；

第一处理模块12，用于将所述待识别直播视频作为已训练模型的输入，通过所述已训练模型，输出直播场景的已标注目标直播场景类别，其中，所述已训练模型是基于直播场景的训练样本集训练得到的，所述直播场景的训练样本集包括：已标注直播场景类别。

在一种可能的实现方式，所述第一处理模块，用于：

在一种可能的实现方式，所述已训练预定类别模型包括：预定类别的已训练图像模型，所述装置还包括：第二处理模块，用于：

获取已标注预定类别的预设帧频的图像帧；

在一种可能的实现方式，所述已训练预定类别模型包括：预定类别的已训练音频模型，所述装置还包括：第三处理模块，用于：

获取已标注预定类别的音频帧；

在一种可能的实现方式，所述已训练预定类别模型包括：预定类别的已训练主播模型，所述装置还包括：第四处理模块，用于：

在一种可能的实现方式，所述已训练预定类别模型包括：预定类别的已训练弹幕模型，所述装置还包括：第五处理模块，用于：

在一种可能的实现方式，所述装置还包括：

输出模块，用于输出所述目标渲染内容。

在一种可能的实现方式，所述输出模块，用于：

本发明实施例还提供一种直播场景识别装置，应用于终端设备，所述装置包括：

第二获取模块，用于获取上述直播场景识别的装置，输出的直播场景的已标注目标直播场景类别；

第七处理模块，用于基于所述已标注目标直播场景类别，按照已标注直播场景类别与渲染内容之间的对应关系，确定所述已标注目标直播场景类别对应的渲染内容，作为目标渲染内容。

在一种可能的实现方式中，所述装置还包括：渲染模块，用于在确定所述已标注目标直播场景类别对应的渲染内容，作为目标渲染内容之后，通过目标渲染内容，对目标直播场景进行渲染。

在一种可能的实现方式中，所述渲染模块，用于：

所述目标渲染内容为互动弹幕，在所述目标直播场景中的弹幕层显示所述互动弹幕；或者所述目标渲染内容为声光特效，在所述目标直播场景中播放所述声光特效。

第三方面，下面继续对本发明实施例提供的服务器进行介绍。

参见图9，图9为本发明实施例的服务器的结构示意图。本发明实施例还提供了一种服务器，包括处理器21、通信接口22、存储器23和通信总线24，其中，处理器21，通信接口22，存储器23通过通信总线24完成相互间的通信，

存储器23，用于存放计算机程序；

处理器21，用于执行存储器23上所存放的程序时，实现如下步骤：

上述服务器提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect，简称PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture，简称EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于为，图中仅用一条粗线为，但并不为仅有一根总线或一种类型的总线。

通信接口用于上述服务器与其他设备之间的通信。

存储器可以包括随机存取存储器(Random Access Memory，简称RAM)，也可以包括非易失性存储器(Non-Volatile Memory，简称NVM)，例如至少一个磁盘存储器。可选的，存储器还可以是至少一个位于远离前述处理器的存储装置。

上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，CPU)、网络处理器(Network Processor，简称NP)等；还可以是数字信号处理器(DigitalSignal Processing，简称DSP)、专用集成电路(Application Specific IntegratedCircuit，简称ASIC)、现场可编程门阵列(Field-Programmable Gate Array，简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

本发明实施例提供了一种计算机可读存储介质，所述存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现上述的直播场景识别方法的步骤。

本发明实施例提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述的直播场景识别方法的步骤。

本发明实施例提供了一种计算机程序，当其在计算机上运行时，使得计算机执行上述的直播场景识别方法的步骤。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(Digital Subscriber Line，简称DSL)或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，高密度数字视频光盘(Digital Video Disc，简称DVD)、或者半导体介质(例如固态硬盘(SolidState Disk，简称SSD))等。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置/服务器/终端设备/存储介质实施例/包含指令的计算机程序产品/计算机程序而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

Claims

1.一种直播场景识别方法，其特征在于，应用于服务器，所述方法包括：

2.如权利要求1所述的方法，其特征在于，所述将所述待识别直播视频作为已训练模型的输入，通过所述已训练模型，输出直播场景的已标注目标直播场景类别，包括：

3.如权利要求2所述的方法，其特征在于，所述已训练预定类别模型包括：预定类别的已训练图像模型，通过如下步骤，得到所述已训练图像模型：

获取已标注预定类别的预设帧频的图像帧；

4.如权利要求2所述的方法，其特征在于，所述已训练预定类别模型包括：预定类别的已训练音频模型，通过如下步骤，得到所述已训练音频模型：

获取已标注预定类别的音频帧；

5.如权利要求2所述的方法，其特征在于，所述已训练预定类别模型包括：预定类别的已训练主播模型，通过如下步骤，得到所述已训练主播模型：

6.如权利要求2所述的方法，其特征在于，所述已训练预定类别模型包括：预定类别的已训练弹幕模型，通过如下步骤，得到所述已训练弹幕模型：

7.如权利要求1至6任一项所述的方法，其特征在于，在所述将所述待识别直播视频作为已训练模型的输入，通过所述已训练模型，输出直播场景的已标注目标直播场景类别之后，所述方法还包括：

输出所述目标渲染内容。

8.如权利要求7所述的方法，其特征在于，所述输出所述目标渲染内容，包括：

9.如权利要求1至6任一项所述的方法，其特征在于，所述已标注预定类别包括：已标注为主题场景预定类别和/或已标注为场景气氛预定类别；

10.一种直播场景识别的装置，其特征在于，应用于服务器，所述装置包括：

11.如权利要求10所述的装置，其特征在于，所述第一处理模块，用于：

12.如权利要求11所述的装置，其特征在于，所述已训练预定类别模型包括：预定类别的已训练图像模型，所述装置还包括：第二处理模块，用于：

获取已标注预定类别的预设帧频的图像帧；

13.如权利要求11所述的装置，其特征在于，所述已训练预定类别模型包括：预定类别的已训练音频模型，所述装置还包括：第三处理模块，用于：

获取已标注预定类别的音频帧；

14.如权利要求11所述的装置，其特征在于，所述已训练预定类别模型包括：预定类别的已训练主播模型，所述装置还包括：第四处理模块，用于：

15.如权利要求11所述的装置，其特征在于，所述已训练预定类别模型包括：预定类别的已训练弹幕模型，所述装置还包括：第五处理模块，用于：

16.如权利要求10至15任一项所述的装置，其特征在于，所述装置还包括：

输出模块，用于输出所述目标渲染内容。

17.如权利要求16所述的装置，其特征在于，所述输出模块，用于：

18.一种服务器，其特征在于，包括处理器、通信接口、存储器和通信总线，其中，所述处理器，所述通信接口，所述存储器通过所述通信总线完成相互间的通信；

所述存储器，用于存放计算机程序；

所述处理器，用于执行所述存储器上所存放的程序时，实现权利要求1-9任一所述的方法步骤。