CN112911323A

CN112911323A - 直播互动评估方法、装置、电子设备和可读存储介质

Info

Publication number: CN112911323A
Application number: CN202110118054.8A
Authority: CN
Inventors: 李永建
Original assignee: Guangzhou Huya Technology Co Ltd
Current assignee: Guangzhou Huya Technology Co Ltd
Priority date: 2021-01-28
Filing date: 2021-01-28
Publication date: 2021-06-04
Anticipated expiration: 2041-01-28
Also published as: CN112911323B

Abstract

本申请提供一种直播互动评估方法、装置、电子设备和可读存储介质，通过监测弹幕数据，以在监测到弹幕数据出现预设状态时，获取在该监测时间点的前预设时段内的直播音频数据，再检测获得的直播音频数据中是否包含语音内容，若包含语音内容，则可判定弹幕数据出现预设状态的触发动作与语音内容存在互动关联关系。根据平台上各个主播相应的互动关联关系信息对各主播进行互动力评级。本方案中，通过判断弹幕数据的变化是否由主播的语音内容带动触发的方式，从而体现出主播的互动带动力，该方式可以直观、准确地表征出主播的互动带动力，进而对平台上各个主播的互动力进行准确评级。

Description

直播互动评估方法、装置、电子设备和可读存储介质

技术领域

本申请涉及网络直播技术领域，具体而言，涉及一种直播互动评估方法、装置、电子设备和可读存储介质。

背景技术

随着互联网技术的发展，网络直播受到越来越多的用户的喜爱。用户粘性和留存对直播平台的长期稳定发展至关重要，平台上主播的直播内容与用户粘性强相关。在直播过程中，观众所发起的互动信息可体现出观众对直播内容的兴趣程度。而观众所发起的互动信息可能是由于主播所带动的，也可能是由其他因素所带动的。

监测直播平台中主播所带动的观众互动触发，对于主播的互动带动力的评估是一个重要指标。如何准确地基于直播平台上主播、观众在直播过程中的相关信息，以对主播在互动能力方面上进行准确评估，对于直播平台运营十分重要。

发明内容

本申请的目的包括，例如，提供了一种直播互动评估方法、装置、电子设备和可读存储介质，其能够基于直播过程中的相关信息准确评估主播的互动带动力。

本申请的实施例可以这样实现：

第一方面，本申请提供一种直播互动评估方法，所述方法包括：

在监测到弹幕数据出现预设状态时，获取在该监测时间点的前预设时段内的直播音频数据；

检测所述直播音频数据中是否包含语音内容；

若包含语音内容，则判定所述弹幕数据出现预设状态的触发动作与所述语音内容存在互动关联关系；

根据平台上各个主播相应的互动关联关系信息对各所述主播进行互动力评级。

在可选的实施方式中，所述判定所述弹幕数据出现预设状态的触发动作与所述语音内容存在互动关联关系的步骤之后，所述方法还包括：

将所述直播音频数据导入预先训练得到的判别模型，判别得到所述直播音频数据中包含的语音内容的语音类别；

在所述语音类别为预设的异常类别时，确定所述弹幕数据出现预设状态的触发动作与所述语音内容之间的互动关联关系存在异常。

在可选的实施方式中，所述方法还包括：

在监测到弹幕数据出现预设状态时，获取在该监测时间点的弹幕数据以及该监测时间点的前预设时段内的直播视频数据；

检测所述弹幕数据是否与所述直播视频数据匹配，若不匹配，则执行所述获取在该监测时间点的前预设时段内的直播音频数据的步骤。

在可选的实施方式中，所述检测所述弹幕数据是否与所述直播视频数据匹配的步骤，包括：

对所述直播视频数据中的视频画面进行识别，获得所述视频画面对应的场景信息；

获得所述弹幕数据中的关键词信息；

检测所述关键词信息与所述场景信息是否具有预设的匹配关联关系，若具有，则确定所述弹幕数据与所述直播视频数据匹配。

在可选的实施方式中，所述检测所述直播音频数据中是否包含语音内容的步骤，包括：

对所述直播音频数据进行处理，获得音频特征；

将所述音频特征导入预先训练得到检测模型进行检测得到检测结果，根据所述检测结果确定所述直播音频数据中是否包含语音内容。

在可选的实施方式中，所述对所述直播音频数据进行处理，获得音频特征的步骤，包括：

对所述直播音频数据进行划分，得到多段音频数据；

针对每段音频数据，对所述音频数据进行时域信号提取处理得到频谱图；

将所述音频数据从时域信号映射为频域信号，并基于所述频谱图得到所述音频特征。

在可选的实施方式中，每段音频数据包含多帧音频；

所述对所述音频数据进行时域信号提取处理得到频谱图的步骤，包括：

以设定帧长以及设定帧移对所述音频数据的多帧音频进行连续时域信号提取处理，得到长度为预设长度的频谱图。

在可选的实施方式中，所述检测模型包含依次连接的输入层、多个残差块、全连接层以及输出层；

所述将所述音频特征导入预先训练得到的检测模型进行检测得到检测结果的步骤，包括：

将所述音频特征通过所述输入层导入预先得到的检测模型；

通过各所述残差块依次对所述音频特征进行处理，得到分布式音频特征；

通过所述全连接层将所述分布式音频特征映射至样本标记空间，得到分类结果，并通过所述输出层将所述分类结果输出得到所述检测结果。

在可选的实施方式中，各所述残差块包含多个并行的处理通道、与多个处理通道中其中部分处理通道连接的第一融合层、与所述第一融合层和剩余的处理通道连接的第二融合层；

所述通过各所述残差块依次对所述音频特征进行处理，得到分布式音频特征的步骤，包括：

针对每一所述残差块，将输入该残差块的音频特征通过各所述处理通道进行处理，得到对应的输出特征；

通过所述第一融合层对与其连接的处理通道的输出特征进行融合处理，得到融合特征；

通过所述第二融合层对与其连接的处理通道的输出特征以及所述融合特征进行融合处理，得到分布式音频特征。

第二方面，本申请提供一种直播互动评估装置，所述装置包括：

监测模块，用于在监测到弹幕数据出现预设状态时，获取在该监测时间点的前预设时段内的直播音频数据；

检测模块，用于检测所述直播音频数据中是否包含语音内容；

判定模块，用于在所述直播音频数据中包含语音内容时，判定所述弹幕数据出现预设状态的触发动作与所述语音内容存在互动关联关系；

评估模块，用于根据平台上各个主播相应的互动关联关系信息对各所述主播进行互动力评级。

第三方面，本申请提供一种电子设备，包括一个或多个存储介质和一个或多个与存储介质通信的处理器，一个或多个存储介质存储有处理器可执行的机器可执行指令，当电子设备运行时，处理器执行所述机器可执行指令，以执行前述实施方式中任意一项所述的方法步骤。

第四方面，本申请提供一种计算机可读存储介质，所述计算机可读存储介质存储有机器可执行指令，所述机器可执行指令被执行时实现前述实施方式中任意一项所述的方法步骤。

本申请实施例的有益效果包括，例如：

本申请实施例提供的直播互动评估方法、装置、电子设备和可读存储介质，通过监测弹幕数据，以在监测到弹幕数据出现预设状态时，获取在该监测时间点的前预设时段内的直播音频数据，再检测获得的直播音频数据中是否包含语音内容，若包含语音内容，则可判定弹幕数据出现预设状态的触发动作与语音内容存在互动关联关系。根据平台上各个主播相应的互动关联关系信息对各主播进行互动力评级。本方案中，通过判断弹幕数据的变化是否由主播的语音内容带动触发的方式，从而体现出主播的互动带动力，该方式可以直观、准确地表征出主播的互动带动力，进而对平台上各个主播的互动力进行准确评级。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本申请实施例提供的直播互动评估方法的应用场景示意图；

图2为本申请实施例提供的直播互动评估方法的流程图；

图3为本申请实施例提供的直播互动评估方法中，异常关系检测方法的流程图；

图4为本申请实施例提供的直播互动评估方法中，弹幕数据和直播视频数据匹配关系检测方法的流程图；

图5为图4中步骤S420的子步骤的流程图；

图6为图2中步骤S220的子步骤的流程图；

图7为本申请实施例提供的音频帧处理示意图；

图8为本申请实施例提供的梅尔频谱示意图；

图9为本申请实施例提供的梅尔频谱特征示意图；

图10为本申请实施例提供的检测模型的网络结构示意图；

图11为图6中步骤S222的子步骤的流程图；

图12为图11中步骤S2222的子步骤的流程图；

图13为本申请实施例提供的电子设备的结构框图；

图14为本申请实施例提供的直播互动评估装置的功能模块框图。

图标：100-直播服务器；110-存储介质；120-处理器；130-直播互动评估装置；131-监测模块；132-检测模块；133-判定模块；134-评估模块；140-通信接口；200-直播提供端；300-直播接收端。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。

因此，以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

需要说明的是，在不冲突的情况下，本申请的实施例中的特征可以相互结合。

请参阅图1，为本申请实施例提供的直播互动评估方法的一种可能的应用场景示意图，该场景中包括直播提供端200、直播服务器100和直播接收端300。直播服务器100分别与直播提供端200和直播接收端300通信连接，用于为直播提供端200和直播接收端300提供直播服务。例如，直播提供端200可以将直播数据流发送给直播服务器100，观众可以通过直播接收端300访问直播服务器100以获取直播数据流。

其中，直播服务器100推送的直播数据流可以是当前正在直播平台中直播的数据流或者直播完成后形成的直播数据流。

在本实施例中，直播提供端200可为多个，直播平台上的各个主播可分别利用直播提供端200进行网络直播。本实施例中，直播提供端200可以是，但不限于，智能手机、个人数字助理、平板电脑等移动设备。而直播接收端300可以是，但不限于，智能手机、个人数字助理、平板电脑、个人计算机、笔记本电脑、虚拟现实终端设备、增强现实终端设备等。直播服务器100可为单独的服务器，也可以是由多台服务器构成的集群。

其中，直播提供端200和直播接收端300中可以安装用于提供互联网直播服务的互联网产品，例如，互联网产品可以是计算机或智能手机中使用的与互联网直播服务相关的应用程序APP、Web网页、小程序等。

本实施例中，在该场景中还可以包括用于采集主播视频帧的视频采集设备以及用于采集主播音频的音频采集设备，视频采集设备可以是，但不限于摄像头、数码照相机的镜头、监控摄像头或者网络摄像头等，音频采集设备可以是麦克风等。

视频采集设备和音频采集设备可以直接安装或集成于直播提供端200。例如，视频采集设备可以是配置在直播提供端200上的摄像头，音频采集设备可以是集成在直播提供端200上的麦克风。直播提供端200中的其他模块或组件可以经由内部总线接收从视频采集设备处发送的视频、图像，并接收音频采集设备采集到的主播语音信息。或者，视频采集设备、音频采集设备也可以独立于直播提供端200，两者之间通过有线或无线的方式进行通信。

可以理解，图1所示的场景仅为一种可行的示例，在其它可行的实施例中，该场景也可以仅包括图1所示组成部分的其中一部分或者还可以包括其它的组成部分。

图2示出了本申请实施例提供的直播互动评估方法的流程示意图，该直播互动评估方法可由图1中所示的直播服务器100执行。

应当理解，在其它实施例中，本实施例的直播互动评估方法其中部分步骤的顺序可以根据实际需要相互交换，或者其中的部分步骤也可以省略或删除。该直播互动评估方法的详细步骤介绍如下。

步骤S210，在监测到弹幕数据出现预设状态时，获取在该监测时间点的前预设时段内的直播音频数据。

步骤S220，检测所述直播音频数据中是否包含语音内容，若包含语音内容，则执行以下步骤S230。

步骤S230，判定所述弹幕数据出现预设状态的触发动作与所述语音内容存在互动关联关系。

步骤S240，根据平台上各个主播相应的互动关联关系信息对各所述主播进行互动力评级。

基于对直播运营过程的研究，发现在直播过程中观众发起的弹幕信息往往与观众的粘性与观众的留存率呈正相关。观众发起弹幕的次数越多、发起弹幕的数据量越大，表明观众对直播相关内容越感兴趣，相应地观众的粘性越强、观众的留存率越高。因此，观众的弹幕信息可表征观众对直播内容的兴趣程度。

而触发观众进行弹幕信息的发起可能由多方面的因素带动，例如，主播相关动作的带动、直播其他内容的带动。若弹幕信息的触发是由主播相关动作的带动，则表明观众对主播的这一相关动作具有较强兴趣，从而发起弹幕信息与主播进行互动。也即，主播的相关动作将触发观众进行弹幕信息的发起，主播这一相关动作触发的观众弹幕数据的改变可表征主播的互动带动力。

本实施例中，所述的直播类型可以是例如游戏直播、音乐直播等直播类型，主播在直播过程中可发起的相关动作可以是发起语音或者是其他的如发起特效等操作。其中，主播所发起的主播语音是主播风格的重要组成部分，是观众粘性和留存的关键依据。因此，主播语音是一项可以用于体现主播互动带动力的重要指标。

基于上述分析，可以通过检测主播语音是否触发观众发起弹幕信息，从而来判断主播的互动带动力。

由于在直播过程中不间断地存在音频数据，音频数据中除了可能包含主播间断性的语音信息之外，可能还包含如游戏音频、其他视频音频信息等。因此，若在直播过程中通过持续不断地对音频数据进行检测的方式，一方面检测的工作量巨大，另一方面可能导致一些不必要的工作量。

因此，在本实施例中，通过监测直播过程中弹幕信息的变化，从而在弹幕信息出现异常变动时，再触发直播音频数据的检测。可选地，本实施例中，监测弹幕数据的过程中，检测弹幕数据是否出现预设状态，其中，该预设状态可以是如一秒内或两秒内等，弹幕数据的数据量超过预设值的状态，或者是弹幕数据中存在大量的包含相同关键字的状态等，具体地本实施例不作限制，该预设状态可以根据需求进行设定。

在弹幕数据出现预设状态时，则获取在该监测时间点的前预设时段内的直播音频数据。所述的该监测时间点即为弹幕数据出现预设状态的时间点，前预设时段可以是前一分钟或前30秒等不限。其中，获得的直播音频数据中可能包含如游戏音频、其他视频音频、语音内容等中的任意一种或多种。

通过对获得的直播音频数据进行检测以判断其中是否包含语音内容，该语音内容可以是由主播发出的主播语音，当然，也可以包括由主播触发的其他的语音内容。在直播音频数据中包含语音内容时，例如主播对游戏场景的解说、直播在直播过程中与观众之间的互动聊天等等。

而由上述可知，在主播发起语音内容的短时间内，直播中的弹幕数据即出现预设状态，例如弹幕剧增状态，则可以判定很可能是由于观众对于主播的语音内容很感兴趣，因此发起弹幕数据以与直播进行互动交互。也即，弹幕数据的状态的触发是与主播的语音内容存在互动关联关系的，即由主播的语音内容所触发的弹幕数据的改变。

按上述方式，对直播平台上的各个主播进行互动带动力方面的统计，以通过上述方式获得的互动关联关系信息以表征相应主播的互动带动力。进而，可以基于平台上多个主播的统计结果，以对各个主播进行互动力评级。

例如，得到的互动关联关系信息中可以包括一段时间内由主播的语音内容所触发的弹幕数据状态改变的次数、由语音内容触发的弹幕数据的剧增数量等等。通过这些统计信息来综合计算各个主播的互动力分值，具体地计算方式可根据需要进行相应设置即可，本实施例不作具体限制。进而，基于得到的互动力分值对各个主播进行互动力评级。

本实施例中，通过检测弹幕数据和直播音频数据，从而确定弹幕数据的变化是否由主播的语音内容触发，来评价主播的互动带动力，可直观、准确地表征出直播的互动带动力。进而基于主播的互动带动力对直播平台上的各个主播的互动力进行准确评级。基于得到的互动力评级信息可为直播平台的运营策划提供有力的依据。

考虑到直播场景下有时可能存在直播不规范的情况，例如，有些主播可能通过发起一些违规的语音信息从而来引起观众的兴趣，进而触发观众发起大量的弹幕信息。这种场景下所触发的观众的弹幕数据并不能真实体现主播的互动带动力，并且，还存在直播违规、污染直播平台的问题。基于此考虑，请参阅图3，本实施例中，在确定获得的直播音频数据中包含语音内容时，还可通过以下方式确定两者之间的互动关联关系是否存在异常：

步骤S310，将所述直播音频数据导入预先训练得到的判别模型，判别得到所述直播音频数据中包含的语音内容的语音类别。

步骤S320，在所述语音类别为预设的异常类别时，确定所述弹幕数据出现预设状态的触发动作与所述语音内容之间的互动关联关系存在异常。

本实施例中，可预先采集大量的包含语音内容的音频数据作为训练样本，将包含不同语音内容的音频数据进行类别的划分，例如，可根据语音内容包含的具体信息将语音内容划分为如正常语音类别、涉及敏感信息的语音类别、涉及违规信息的语音类别等。并为各个语音内容打上相应语音类别的类别标签。

可预先利用标记有类别标签的训练样本对构建的网络模型进行训练，该网络模型可为常用的神经网络模型，通过对网络模型进行训练，以得到可满足要求的判别模型。

在对获得的直播音频数据进行检测时，可以将直播音频数据导入至训练得到的判别模型中。由于直播音频数据中包含语音内容，通过判别模型的判断，可以确定其中语音内容的语音类别。

若判别模型判断得到语音类别为预设的异常类别，例如包含涉及隐私信息的语音类别、包含涉及违规信息的语音类别等，则表明虽然此时观众发起了大量的弹幕数据，但是触发该弹幕数据剧增是由于主播的不规范的语音内容所引起的，也即，弹幕数据状态改变的触发动作与语音内容之间的互动关联关系存在异常。而该异常的互动关联关系并不能用于表征主播的互动带动力。

基于上述方式，可通过检测语音内容的类别，以判别语音内容是否存在异常，从而排除掉一些由异常的语音内容所触发的弹幕数据的改变，一方面避免了由于不真实的互动触发对主播互动力评级造成的影响，另一方面，可检测出平台上主播的违规操作，净化直播环境。

此外，由上述可知，观众发起的弹幕数据的剧增还有可能是由于本身的直播视频内容可带动的，例如直播精彩片段对应时间点，观众的弹幕数据也可能出现剧增的情形。因此，基于此考虑，请参阅图4，在本实施例中，还可增设以下步骤以针对此情形进行检测：

步骤S410，在检测到弹幕数据出现预设状态时，获取在该监测时间点的弹幕数据以及该监测时间点的前预设时段内的直播视频数据。

步骤S420，检测所述弹幕数据是否与所述直播视频数据匹配，若不匹配，则执行获取在该监测时间点的前预设时段内的直播音频数据的步骤。

本实施例中，在监测到弹幕数据出现预设状态时，相应地，可以获得该监测时间点前一分钟内或前30秒内等的直播视频数据，例如，游戏视频数据和其他相关的视频数据等。通过检测弹幕数据包含的内容和直播视频数据包含的内容是否匹配，从而以确认弹幕数据出现预设状态的触发动作是否是由于直播视频数据所触发的。例如，若弹幕数据的内容与直播视频数据的内容一致，则说明，可能是由于直播视频内容出现了精彩画面，以引起观众的兴趣，从而发起大量弹幕数据。此时，一定程度上可以排除弹幕数据的剧增并非是由于主播的语音内容所触发的，和主播的互动带动力没有关系。

而若，弹幕数据的内容与直播视频数据的内容不一致，则表明弹幕数据的剧增等改变与直播视频内容没有关系，有可能是与主播的语音内容有关的，进而再按上述方式进行音频数据的检测，以确定是否是存在主播的语音内容从而触发的该弹幕数据的改变。

请参阅图5，在本实施例中，在检测弹幕数据和直播视频数据是否一致时，可以通过以下方式实现：

步骤S421，对所述直播视频数据中的视频画面进行识别，获得所述视频画面对应的场景信息。

步骤S422，获得所述弹幕数据中的关键词信息。

步骤S423，检测所述关键词信息与所述场景信息是否具有预设的匹配关联关系，若具有，则执行以下步骤S424。

步骤S424，确定所述弹幕数据与所述直播视频数据匹配。

由于视频画面往往内容复杂，要对视频画面进行完整描述存在困难。因此，本实施例中，通过对视频画面进行识别从而获得视频画面对应的场景信息，利用视频画面的场景信息对视频内容进行描述，可大大降低处理的难度。其中，视频画面的场景信息例如可以是如游戏视频中的如攻击场景、击杀场景、庆祝场景等。

相应地，获得弹幕数据中的关键词信息，可通过文字识别处理的相关技术进行关键词信息提取，本实施例对此不作具体阐述。再通过检测关键词信息是否与场景信息具有预设的匹配关联关系，例如，若视频画面的场景是如击杀场景，则与击杀场景具有预设的匹配关联关系的关键词可以是包含如“击杀”、“痛快”等的关键词，当然，还可以是其他的关键词，可以根据需求进行相应设置，本实施例对此不作限制。

若弹幕数据的关键词信息与视频画面的场景信息具有预设的匹配关联关系，则可以确定弹幕数据与直播视频数据匹配，否则，弹幕数据与直播视频数据不匹配。

本实施例中，通过以上方式，预先检测弹幕数据是否与直播视频数据匹配的方式，从而确定弹幕数据出现预设状态的触发动作是否是由直播视频数据所引起的，进而排除开直播视频数据所引起的弹幕数据的变化，可提高对于主播互动带动力的评估的准确性。

在本实施例中，在上述对获得的直播音频数据进行检测以确认是否具有语音内容时，由上述可知，在直播过程中音频数据可能掺杂着主播语音、游戏音频、音乐音频等，需要从中确定是否有主播的语音内容，实质较难实现。目前常用的方式是利用深度学习模型以进行检测，本实施例中，考虑到现有的单独的深度学习模型存在或多或少的缺陷，因此，采用了一种检测模型以实现音频数据的检测，可选地，请参阅图6，可通过以下方式实现：

步骤S221，对所述直播音频数据进行处理，获得音频特征。

步骤S222，将所述音频特征导入预先训练得到检测模型进行检测得到检测结果，根据所述检测结果确定所述直播音频数据中是否包含语音内容。

本实施例中，可将获得的直播音频数据进行划分，得到多段音频数据。例如，可以按秒进行划分，划分得到多段单秒内的音频数据。针对每段音频数据，对音频数据进行时域信号提取处理得到频谱图。再将音频数据从时域信号映射为频域信号，并基于频谱图得到音频特征。

本实施例中，划分得到的每段音频数据可以包含44100帧，在对每段音频数据进行时域信号提取处理时，可以以设定帧长以及设定帧移对音频数据的多帧音频进行连续时域信号提取处理，得到长度为预设长度的频谱图。

例如，参见图7所示，其中，设定帧长可为2048帧、设定帧移可为882帧，得到的频谱图可为梅尔频谱图，可得到长度为50的梅尔频谱图，如图8中所示。如此，以一定帧移处理音频数据，可保障划分后的每段音频帧首尾连贯，保障特征的连续性。

在此基础上，可利用快速傅里叶变换将音频数据从时域信号映射为频域信号，最终得到50*50的梅尔频谱特征，可如图9中所示。

通过上述处理得到的音频特征导入预先训练得到的检测模型中进行检测。本实施例中，为了从检测的深度和宽度上有所优化，采用的检测模型可为基于GoogleNet和ResNet模型构成的混合卷积神经网络(Convolutional Neural Networks,CNN)模型。

预先可以采集大量的训练样本以训练得到上述检测模型，例如，在游戏类型的直播场景下，可以采集多种游戏类别(如游戏类别A、游戏类别B、游戏类别C和游戏类别D)下的音频数据作为训练样本。基于采集到的训练样本内部是否包含语音内容以对其进行标记，即正样本为内部包含语音内容的音频数据，负样本为内部不包含语音内容的音频数据。利用标记后的训练样本对构建的检测模型进行训练。

本实施例中，考虑到采集到样本数量往往有限，可能存在样本数量不够大的情形，因此，为了扩展训练样本，预先可采用半监督优化的方式，即在利用采集的训练样本经过一阶段的训练得到检测模型后，利用得到的检测模型对待检测的数据进行检测判别。再将检测判别后的数据标记相应标签以添加至训练集中，继续对检测模型进行训练。通过此方式，可以实现对训练样本的扩展，以进一步地对检测模型进行优化。

本实施例中，用于进行检测模型训练的训练样本信息可如表1中所示。为了验证检测模型的检测准确率，利用测试样本对检测模型进行测试，此外，为了横向比对检测模型的优势，还采用了几种现有技术中常见的模型(包含传统的RNN模型、CNN模型、单独的GoogleNet模型、单独的ResNet模型)进行相同条件下的测试。最终得到的多种现有技术中的模型以及本实施例中的检测模型的测试结果如表2中所示，其中，测试结果中的评价指标利用目前学习模型常用的ACC指标和AUC指标。

表1

训练样本集	样本数量	正负样本比例
			游戏类别A	1590	4:6
游戏类别B	1510	3:7
			游戏类别C	700	5:5
游戏类别D	3550	3:7

表2

由上述可见，本实施例预先所构建的检测模型的检测结果最优，后续在利用该检测模型进行音频数据的检测时，可以大大提高检测的准确性。

可选地，本实施例中的检测模型为由GoogleNet和ResNet模型构成的混合CNN模型。CNN模型是神经网络的一个重要分支，被广泛应用于图片、音频等原始特征维度高的数据特征提取处理中。本实施例中，检测模型包含依次连接的输入层、多个残差块(ResidualBlock)、全连接层(FC)以及输出层，可如图10中所示。

请参阅图11，在利用检测模型进行直播音频数据的检测时，对于音频特征的处理可参见如下：

步骤S2221，将所述音频特征通过所述输入层导入预先得到的检测模型。

步骤S2222，通过各所述残差块依次对所述音频特征进行处理，得到分布式音频特征。

步骤S2223，通过所述全连接层将所述分布式音频特征映射至样本标记空间，得到分类结果，并通过所述输出层将所述分类结果输出得到所述检测结果。

本实施例中，图10中示出的检测模型包含的残差块为两个，实施时对于残差块的数量不作具体限制，可根据需求进行设置。检测模型中设置多个残差块，可以实现对网络深度的加深，可以检测学习到音频特征更详细的信息。

在此基础上，其中，各个残差块包含多个并行的处理通道、与多个处理通道中其中部分处理通道连接的第一融合层以及与第一融合层和剩余的处理通道连接的第二融合层。请参阅图12，在上述利用残差块对音频特征进行处理的过程中，可通过以下方式实现：

步骤S22221，针对每一所述残差块，将输入该残差块的音频特征通过各所述处理通道进行处理，得到对应的输出特征。

步骤S22222，通过所述第一融合层对与其连接的处理通道的输出特征进行融合处理，得到融合特征。

步骤S22223，通过所述第二融合层对与其连接的处理通道的输出特征以及所述融合特征进行融合处理，得到分布式音频特征。

本实施例中，各个残差块内部包含多个处理通道，如图10中所示，通过多个处理通道，可以实现网络宽度的优化，在进行音频特征的提取处理时，可以提取更多维的特征信息。其中，图10中示意性地示出包含四个处理通道，从左往右依次可为第一通道、第二通道、第三通道和第四通道。实施时处理通道的数量可根据需求进行相应处理，本实施例不作具体限制。

其中，每个处理通道可包含卷积层，例如，第一通道和第二通道可包含卷积核尺寸为1*1的卷积层。第三通道和第四通道可包含卷积核尺寸为1*1的卷积层，该卷积层后分别连接有卷积核尺寸为3*3以及5*5的卷积层。

第一融合层可为卷积层，可对第二通道、第三通道和第四通道的输出特征进行融合处理，在此基础上，第二融合层可对第一融合层的输出以及第一通道的输出进行融合处理，融合的结果作为该残差块的输出。

本实施例中，通过增设多个残差块的方式，以加深网络深度，从而可以学习检测到特征的更详细的信息，并且，还通过在残差块内部设置多个通道的方式以扩宽网络的宽度，以学习检测到特征的更多维的特征。从而使构建的检测模型进行直播音频数据的检测时，能够更为准确地判断直播音频数据中是否包含语音内容。

检测模型的检测结果可为二分类结果，如1或0，例如，1可表征输入模型中的直播音频数据中包含语音内容，0则表征输入模型中的直播音频数据不包含语音内容。如此，则基于检测模型的检测结果可判断直播音频数据中是否包含语音内容。

本实施例通过上述方式，可以通过监测弹幕数据的方式，从而判断弹幕数据的变化是否是由主播的语音内容所引起，进而对主播的互动带动力进行评估，可直观、准确地表征主播的互动带动力，进而对平台上各个主播的互动力进行准确评级。

基于对主播的互动力进行评级，从而为后续平台运营中的主播推荐、用户导流、潜力主播挖掘等下游任务具有指导性作用，从而进一步地提高用户粘性和留存。

进一步地，在检测直播音频数据中是否包含语音内容时，利用预先训练的检测模型进行检测，该检测模型为对网络深度和网络宽度进行优化的模型，即包含多个残差块且各残差块内部包含多个处理通道的模型。通过该检测模型可检测得到音频数据的更多维以及更信息的特征，可提高检测判断的准确率。

请参阅图13，为本申请实施例提供的电子设备的示例性组件示意图，该电子设备可为图1中所示的直播服务器100。该电子设备可包括存储介质110、处理器120、直播互动评估装置130及通信接口140。本实施例中，存储介质110与处理器120均位于电子设备中且二者分离设置。然而，应当理解的是，存储介质110也可以是独立于电子设备之外，且可以由处理器120通过总线接口来访问。可替换地，存储介质110也可以集成到处理器120中，例如，可以是高速缓存和/或通用寄存器。

直播互动评估装置130可以理解为上述电子设备，或电子设备的处理器120，也可以理解为独立于上述电子设备或处理器120之外的在电子设备控制下实现上述直播互动评估方法的软件功能模块。

如图14所示，在一种实现方式中，上述直播互动评估装置130可以包括监测模块131、检测模块132、判定模块133和评估模块134。下面分别对该直播互动评估装置130的各个功能模块的功能进行详细阐述。

监测模块131，用于在监测到弹幕数据出现预设状态时，获取在该监测时间点的前预设时段内的直播音频数据；

可以理解，该监测模块131可以用于执行上述步骤S210，关于该监测模块131的详细实现方式可以参照上述对步骤S210有关的内容。

检测模块132，用于检测所述直播音频数据中是否包含语音内容；

可以理解，该检测模块132可以用于执行上述步骤S220，关于该检测模块132的详细实现方式可以参照上述对步骤S220有关的内容。

判定模块133，用于在所述直播音频数据中包含语音内容时，判定所述弹幕数据出现预设状态的触发动作与所述语音内容存在互动关联关系；

可以理解，该判定模块133可以用于执行上述步骤S230，关于该判定模块133的详细实现方式可以参照上述对步骤S230有关的内容。

评估模块134，用于根据平台上各个主播相应的互动关联关系信息对各所述主播进行互动力评级。

可以理解，该评估模块134可以用于执行上述步骤S240，关于该评估模块134的详细实现方式可以参照上述对步骤S240有关的内容。

在一种可能的实现方式中，上述判定模块133还可以用于：

在一种可能的实现方式中，上述监测模块131还可以用于：

在一种可能的实现方式中，上述监测模块131可以通过以下方式确定弹幕数据是否与直播视频数据匹配：

获得所述弹幕数据中的关键词信息；

在一种可能的实现方式中，上述检测模块132具体可以用于：

对所述直播音频数据进行处理，获得音频特征；

在一种可能的实现方式中，上述检测模块132可以用于通过以下方式获得音频特征：

对所述直播音频数据进行划分，得到多段音频数据；

在一种可能的实现方式中，每段音频数据包含多帧音频，检测模块132可以通过以下方式得到频谱图：

在一种可能的实现方式中，所述检测模型包含依次连接的输入层、多个残差块、全连接层以及输出层，上述检测模块132可以通过以下方式得到检测结果：

将所述音频特征通过所述输入层导入预先得到的检测模型；

在一种可能的实现方式中，各所述残差块包含多个并行的处理通道、与多个处理通道中其中部分处理通道连接的第一融合层、与所述第一融合层和剩余的处理通道连接的第二融合层，上述检测模块132可以通过以下方式得到分布式音频特征：

关于装置中的各模块的处理流程、以及各模块之间的交互流程的描述可以参照上述方法实施例中的相关说明，这里不再详述。

进一步地，本申请实施例还提供一种计算机可读存储介质，计算机可读存储介质存储有机器可执行指令，机器可执行指令被执行时实现上述任一实施例提供的直播互动评估方法。

综上所述，本申请实施例提供的直播互动评估方法、装置、电子设备和可读存储介质，通过监测弹幕数据，以在监测到弹幕数据出现预设状态时，获取在该监测时间点的前预设时段内的直播音频数据，再检测获得的直播音频数据中是否包含语音内容，若包含语音内容，则可判定弹幕数据出现预设状态的触发动作与语音内容存在互动关联关系。根据平台上各个主播相应的互动关联关系信息对各主播进行互动力评级。本方案中，通过判断弹幕数据的变化是否由主播的语音内容带动触发的方式，从而体现出主播的互动带动力，该方式可以直观、准确地表征出主播的互动带动力，进而对平台上各个主播的互动力进行准确评级。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种直播互动评估方法，其特征在于，所述方法包括：

检测所述直播音频数据中是否包含语音内容；

2.根据权利要求1所述的直播互动评估方法，其特征在于，所述判定所述弹幕数据出现预设状态的触发动作与所述语音内容存在互动关联关系的步骤之后，所述方法还包括：

3.根据权利要求1所述的直播互动评估方法，其特征在于，所述方法还包括：

4.根据权利要求3所述的直播互动评估方法，其特征在于，所述检测所述弹幕数据是否与所述直播视频数据匹配的步骤，包括：

获得所述弹幕数据中的关键词信息；

5.根据权利要求1所述的直播互动评估方法，其特征在于，所述检测所述直播音频数据中是否包含语音内容的步骤，包括：

对所述直播音频数据进行处理，获得音频特征；

6.根据权利要求5所述的直播互动评估方法，其特征在于，所述对所述直播音频数据进行处理，获得音频特征的步骤，包括：

对所述直播音频数据进行划分，得到多段音频数据；

7.根据权利要求6所述的直播互动评估方法，其特征在于，每段音频数据包含多帧音频；

8.根据权利要求5所述的直播互动评估方法，其特征在于，所述检测模型包含依次连接的输入层、多个残差块、全连接层以及输出层；

将所述音频特征通过所述输入层导入预先得到的检测模型；

9.根据权利要求8所述的直播互动评估方法，其特征在于，各所述残差块包含多个并行的处理通道、与多个处理通道中其中部分处理通道连接的第一融合层、与所述第一融合层和剩余的处理通道连接的第二融合层；

10.一种直播互动评估装置，其特征在于，所述装置包括：

11.一种电子设备，其特征在于，包括一个或多个存储介质和一个或多个与存储介质通信的处理器，一个或多个存储介质存储有处理器可执行的机器可执行指令，当电子设备运行时，处理器执行所述机器可执行指令，以执行权利要求1-9中任意一项所述的方法步骤。

12.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有机器可执行指令，所述机器可执行指令被执行时实现权利要求1-9中任意一项所述的方法步骤。