CN109492124A

CN109492124A - 选择性注意线索指导的不良主播检测方法、装置及电子设备

Info

Publication number: CN109492124A
Application number: CN201811397237.2A
Authority: CN
Inventors: 张菁; 王立元; 李晨豪; 张辉; 李嘉锋; 卓力
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2018-11-22
Filing date: 2018-11-22
Publication date: 2019-03-19
Anticipated expiration: 2038-11-22
Also published as: CN109492124B

Abstract

本申请实施例提供一种选择性注意线索指导的不良主播检测方法、装置及电子设备，该方法包括：获取待测直播音视频；基于所述待测直播音视频生成第二耦合特征；计算所述第二耦合特征与预存的各类型的影音数据对应的第一耦合特征之间的汉明距离，其中，所述第二耦合特征采用与所述第一耦合特征相同的方式生成；将与所述第二耦合特征的汉明距离小于预设阈值的第一耦合特征所对应的影音数据的类型判定为所述待测直播音视频的类型，并输出。由此，可靠地检测出直播音视频的类型。

Description

选择性注意线索指导的不良主播检测方法、装置及电子设备

技术领域

本申请涉及直播技术领域，具体而言，涉及一种选择性注意线索指导的不良主播检测方法、装置及电子设备。

背景技术

随着互联网技术的飞速发展，直播受到了越来越多人的喜好，越来越频繁的出现在大众的生活中。然而，随着直播的受众群体越来越庞大，直播类型也多种多样，且不同类型的直播其内容相差甚远。因而，对直播音视频进行监控和管理越来越有必要。

发明内容

有鉴于此，本申请实施例提供了一种选择性注意线索指导的不良主播检测方法、装置及电子设备，通过对直播音视频进行分类，所分的类型包括不良类型。通过检测直播音视频是否为不良类型的直播音视频，进一步将发出不良类型直播音视频的主播判定为与各不良类型对应的不良主播。

第一方面，本申请实施例提供了一种选择性注意线索指导的不良主播检测方法，所述方法包括：

获取待测直播音视频。

基于所述待测直播音视频生成第二耦合特征。

计算所述第二耦合特征与预存的各类型的影音数据对应的第一耦合特征之间的汉明距离。其中，所述第二耦合特征采用与所述第一耦合特征相同的方式生成。

将与所述第二耦合特征的汉明距离小于预设阈值的第一耦合特征所对应的影音数据的类型判定为所述待测直播音视频的类型，并输出。

可选地，在本申请实施例中，所述第一耦合特征通过以下步骤生成：

针对预存的每种类型的影音数据，采用设定的直播检测模型的第一子网络对该类型的影音数据进行特征提取，以获取与该类型的影音数据对应的第一子特征。

采用所述直播检测模型的第二子网络对该类型的影音数据进行特征提取，以获取与该类型的影音数据对应的第二子特征。

采用所述直播检测模型的第三子网络对该类型的影音数据进行特征提取，以获取与该类型的影音数据对应的第三子特征。

对同一类型的影音数据对应的所述第一子特征、所述第二子特征和所述第三子特征进行特征耦合处理，以生成第一耦合特征。

所述第二耦合特征通过以下步骤生成：

将所述待测直播音视频输入到所述直播检测模型。

采用所述第一子网络对所述待测直播音视进行特征提取，以获取第一待测特征。

采用所述第二子网络对所述待测直播音视进行特征提取，以获取第二待测特征。

采用所述第三子网络对所述待测直播音视进行特征提取，以获取第三待测特征。

对所述第一待测特征、所述第二待测特征和所述第三待测特征进行特征耦合处理，以生成第二耦合特征。

可选地，在本申请实施例中，对同一类型的影音数据对应的所述第一子特征、所述第二子特征和所述第三子特征进行特征耦合处理的步骤，包括：

采用所述直播检测模型的注意力机制，对同一类型的影音数据对应的所述第一子特征、所述第二子特征和所述第三子特征进行特征耦合处理。

对所述第一待测特征、所述第二待测特征和所述第三待测特征进行特征耦合处理的步骤，包括：

采用所述直播检测模型的注意力机制，对所述第一待测特征、所述第二待测特征和所述第三待测特征进行特征耦合处理。

可选地，在本申请实施例中，采用所述直播检测模型的注意力机制，对同一类型的影音数据对应的所述第一子特征、所述第二子特征和所述第三子特征进行特征耦合处理的步骤，包括：

采用所述直播检测模型的注意力机制，基于同一类型的影音数据对应的所述第一子特征生成第一注意力线索，基于同一类型的影音数据对应的所述第二子特征生成第二注意力线索，基于同一类型的影音数据对应的所述第三子特征生成第三注意力线索。

基于所述第一注意力线索、所述第二注意力线索以及所述第三注意力线索进行特征耦合。

采用所述直播检测模型的注意力机制，对所述第一待测特征、所述第二待测特征和所述第三待测特征进行特征耦合处理的步骤，包括：

可选地，在本申请实施例中，在生成第一耦合特征之后，所述方法还包括：对不同类型的影音数据对应的第一耦合特征进行运算，将运算后的各第一耦合特征进行存储以得到哈希特征库。

计算所述第二耦合特征与预存的各类型的影音数据对应的第一耦合特征之间的汉明距离的步骤，包括：

获取所述哈希特征库中运算后的各第一耦合特征。

对所述第二耦合特征进行运算，获得运算后的第二耦合特征，对所述第二耦合特征进行的运算与对所述第一耦合特征进行的运算一致。

计算运算后的第二耦合特征与运算后的各第一耦合特征之间的汉明距离，以获得所述第二耦合特征与各第一耦合特征之间的汉明距离。

可选地，在本申请实施例中，所述第一子特征和所述第一待测特征为视频特征，所述第二子特征和所述第二待测特征为音频特征，所述第三子特征和所述第三待测特征为文本特征。

第二方面，本申请实施例还提供了一种选择性注意线索指导的不良主播检测装置，应用于电子设备，所述选择性注意线索指导的不良主播检测装置包括：

处理模块，用于获取待测直播音视频，并基于所述待测直播音视频生成第二耦合特征。

第一执行模块，用于计算所述第二耦合特征与预存的各类型的影音数据对应的第一耦合特征之间的汉明距离，其中，所述第二耦合特征采用与所述第一耦合特征相同的方式生成。

第二执行模块，用于将与所述第二耦合特征的汉明距离小于预设阈值的第一耦合特征所对应的影音数据的类型判定为所述待测直播音视频的类型，并输出。

可选地，在本申请实施例中，所述处理模块通过以下步骤生成所述第一耦合特征。

所述处理模块通过以下步骤生成所述第二耦合特征：

将所述待测直播音视频输入到所述直播检测模型。

第三方面，本申请实施例还提供了一种电子设备，所述电子设备包括：

存储器；

处理器；以及

选择性注意线索指导的不良主播检测装置，所述装置存储于所述存储器中并包括由所述处理器执行的软件功能模块，所述装置包括：

第四方面，本申请实施例还提供了一种可读存储介质，所述可读存储介质中存储有计算机程序，所述计算机程序被执行时实现上述选择性注意线索指导的不良主播检测方法。

本申请实施例提供的选择性注意线索指导的不良主播检测方法、装置及电子设备，通过获取待测直播音视频，基于所述待测直播音视频生成第二耦合特征。计算所述第二耦合特征与预存的各类型的影音数据对应的第一耦合特征之间的汉明距离，其中，所述第二耦合特征采用与所述第一耦合特征相同的方式生成。将与所述第二耦合特征的汉明距离小于预设阈值的第一耦合特征所对应的影音数据的类型判定为所述待测直播音视频的类型，并输出。由此，更为准确、可靠地判定并输出待测直播音视频的类型，以便监管者对直播音视频进行监控和管理。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它相关的附图。

图1为本申请实施例提供的一种选择性注意线索指导的不良主播检测方法的流程示意图。

图2为本申请实施例提供的另一种选择性注意线索指导的不良主播检测方法的流程示意图。

图3为本申请实施例提供的又一种选择性注意线索指导的不良主播检测方法的流程示意图。

图4为本申请实施例提供的再一种选择性注意线索指导的不良主播检测方法的流程示意图。

图5为本申请实施例提供的用于实现上述选择性注意线索指导的不良主播检测方法的一种电子设备的方框示意图。

图标：100-电子设备；110-存储器；120-处理器；200-选择性注意线索指导的不良主播检测装置；210-处理模块；220-第一执行模块；220-第二执行模块。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。

因此，以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本申请保护的范围。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

随着互联网技术的飞速发展，直播受到了越来越多人的喜好，网络直播迅速成为人们常使用的互联网应用之一。另一方面，由于各个直播平台竞争激烈，直播类型越来越丰富，部分用户通过传播含有不良信息的直播音视频来增加平台收视率。并且，这些不良信息呈现出时间短、内容多样、隐蔽性高等特点，增加了对这些信息进行甄别的难度。

传统的对不良信息检测方法主要是提取图像的肤色、纹理、敏感器官等特征与分类器相结合进行图像、视频的识别和过滤。尽管传统方法在网络敏感内容识别上取得了不错的结果，但是面对网络直播这种新型媒体，特别是持续时间短、内容隐晦且复杂的不良信息进行识别，其准确性和鲁棒性急剧下降，实时性也难以满足处理需求。

部分直播检测方法利用深度学习网络在图像的检测和识别领域取得了成果。深度网络可以提取图像中具有更强表达能力的深度特征，同时可以对音频，文本等内容进行有效的处理。但是，网络直播视频具有拍摄场景复杂、主播不良行为多变等特点，采用深度学习技术处理网络直播视频时，鲁棒性、准确性、实时性仍难以尽如人意。亟需针对网络视频直播的具体特点和需求，设计新的不良直播检测处理架构和策略。

针对上述问题，本申请实施例提供了一种选择性注意线索指导的不良主播检测方法、装置及电子设备。本申请实施例提供的检测方法、装置及电子设备，通过对直播音视频进行分类，所分的类型包括不良类型。检测直播音视频是否为不良类型的直播音视频，进而将发出该不良类型的直播音视频的主播判定为对应的不良主播，以实现对不良主播的检测。

请结合参阅图1，为本申请实施例提供的一种选择性注意线索指导的不良主播检测方法的流程示意图，所应说明的是，本申请实施例提供的视频特征学习方法不以图1及以下所述的具体顺序为限制。所述方法可以通过如下步骤实现：

为了实现本申请，本申请实施例提供了一种选择性注意线索指导的不良主播检测模型，该直播检测模型包括多个子网络。

步骤S10，获取待测直播音视频。

步骤S20，基于所述待测直播音视频生成第二耦合特征。

请结合参阅图2和图3，作为一种可实施方式，步骤S20可通过以下方式实现。

步骤S201，将所述待测直播音视频输入到所述直播检测模型。

步骤S202，采用所述第一子网络对所述待测直播音视进行特征提取，以获取第一待测特征。

步骤S203，采用所述第二子网络对所述待测直播音视进行特征提取，以获取第二待测特征。

步骤S204，采用所述第三子网络对所述待测直播音视进行特征提取，以获取第三待测特征。

步骤S205，对所述第一待测特征、所述第二待测特征和所述第三待测特征进行特征耦合处理，以生成第二耦合特征。

详细地，生成第二耦合特征所用的直播检测模型为已经完成训练的。进一步地，在生成所述第二耦合特征之前，所述直播检测模型中已经存储有第一耦合特征，且所述第二耦合特征采用与所述第一耦合特征相同的方式生成。

步骤S30，计算所述第二耦合特征与预存的各类型的影音数据对应的第一耦合特征之间的汉明距离。

作为一种可实施方式，所述第二耦合特征通过以下步骤生成：

步骤S301，针对预存的每种类型的影音数据，采用设定的直播检测模型的第一子网络对该类型的影音数据进行特征提取，以获取与该类型的影音数据对应的第一子特征。

进一步地，本申请实施例提供了多个直播的影音数据，并从视频中提取出多种子特征分别进行保存。其中，影音数据包括了不同着装、不同场景、不同性别、不同成像质量的影音数据，且含有不良信息的直播约占总影音数据中的一半，以达到充分训练该直播检测模型的目的。

可选地，本申请实施例提供的所述第一子网络为基卷积神经网络(Convolutional Neural Network，CNN)和长短期记忆模型(Long-Short Term Memory，LSTM)的特征提取子网络，使用Tensor flow实现，包括一个基于CNN的Inception层，一个池化层，两个LSTM层，一个全连接层。输入影音数据S后，首先经过Inception网络提取深度第一子特征v_i，之后将得到的特征v_i输入池化层降低特征维度，得到v_i'。池化层采用最大值池化(Max Pooling)，窗口大小为3×3。之后将第一子特征v_i'输入LSTM 层捕捉时序信息，最后利用全连接层得到视觉深度特征。Inception层使用 Inception_V3网络，这是一个被广泛使用的CNN网络，深度达到46层，基于Image Net数据集训练，其中使用小卷积核代替大卷积核，表达能力没有减弱，但是参数量却大大减少。LSTM是一种循环神经网络模型，在梯度消失问题面前有着良好的表现，其提出的细胞机制，可以有效的保存长期记忆数据，并且由控制门来选择那些信息需要被保存。控制门有三种，分别是输入门、输出门、遗忘门，主要是利用sigmoid函数和点乘操作来进行控制。两个LSTM层结构相同，时间步数为16，学习率为0.001，单元大小为256，LSTM层基于自循环的思想，可以缓解梯度消失问题，并捕捉时序信息。LSTM细胞状态单元计算公式如下：

其中，代表t时刻、细胞c的状态单元，j代表循环累加次数，σ代表sigmoid函数，它将权重投影到(0,1)之间。x_t当前输入向量，h^t-1表示所有LSTM细胞的输出。

LSTM细胞的遗忘门的计算公式如下：

其中，表示遗忘门，分别代表对应偏置、输入权重和遗忘门循环权重。

LSTM细胞的输入门的计算公式如下：

其中，分别代表对应偏置、输入权重和遗忘门循环权重。

LSTM细胞的输出的计算公式如下：

其中，为输出门，可以控制细胞输出。输出门的计算公式如下：

和分别表示偏置、输入权重和遗忘门循环权重。

LSTM层与带有sigmoid函数的全连接层相连接，输出第一子特征v，所述第一子特征v可为但不限于300维向量。

步骤S302，采用所述直播检测模型的第二子网络对该类型的影音数据进行特征提取，以获取与该类型的影音数据对应的第二子特征。

可选地，在本实施例中，将对第二子特征进行采样的采样频率调整为 16kHz，使用25ms的帧长、15ms的帧移对其进行分帧，使用汉明窗函数处理分帧结果，使帧与帧之间更加平滑，汉明窗函数公式如下：

其中，时间窗t的范围为(0，T)，T为采样周期。

对处理后所得的结果做傅里叶变换，从而得到声谱图。将声谱映射到 64阶梅尔滤波器中得到梅尔声谱并组帧，得到最终的第二样本a_d。将理后的第二样本a_d将输入第二子网络提取特征，第二子网络对第二样本a_d进行处理，输出第二子特征a，所述第二子特征a可为但不限于300维向量。

进一步地，本申请实施例提供的第二子网络为VGGish网络。

步骤S303，采用所述直播检测模型的第三子网络对该类型的影音数据进行特征提取，以获取与该类型的影音数据对应的第三子特征。

从所述影音数据中提取第三样本n，利用word2Vec模型将第三样本n 进行预处理得到n'。将预处理得到的n'输入到第三子网络，经过第三子网络处理后得到第三子特征t，所述第三子特征t可为但不限于300维向量。

可选地，本申请实施例提供的第三子网络包括两个卷积层，一个池化层和一个全连接层。其中，第三子网络的卷积核大小可以是但不限于3， 5和8，优选为3。第三子网络的特征图可以是但不限于20。池化层采用最大值池化，窗口大小为2。全连接层包括300个神经元，并使用线性整流函数(Rectified Linear Unit，ReLU)作为激活函数。

步骤S304，对同一类型的影音数据对应的所述第一子特征、所述第二子特征和所述第三子特征进行特征耦合处理，以生成第一耦合特征。

请结合参阅图4，作为一种可实施方式，对同一类型的影音数据对应的所述第一子特征、所述第二子特征和所述第三子特征进行特征耦合处理，以生成第一耦合特征，可以通过以下方式实现：

步骤S3041，采用所述直播检测模型的注意力机制，基于同一类型的影音数据对应的所述第一子特征生成第一注意力线索。

详细地，所述影音数据包括多段影音视频，每一段影音视频包括N 帧，可以根据每一个帧获得一个对应的第一子特征v向量。

在本申请实施例中，第一注意力线索的生成可通过以下方式实现：

对所述第一子特征v进行转置并与所述直播检测模型的神经网络参数w求内积，再将内积后的结果与所述直播检测模型超参数a进行乘积，然后将乘积后的结果输入到归一化指数函数(softmax函数)，求出不同帧对应的权值θ，计算函数如下式所示：

θ＝softnlax(α·wv^T)

应当说明的是，在所述直播检测模型进行运算和处理的过程中，神经网络参数w和超参数a将不断进行调整，以获得性能最优的直播检测模型。

将N个v向量合并，组成一个矩阵x，用所述矩阵x来表征该段影音视频。对矩阵x和与组成所述矩阵x的各帧对应的权值θ进行如下列式子的计算：

其中，a和b是神经网络可学习标量参数，获得的a_t为所求的第一线索向量，且为维向量。将每段影音视频的N帧均进行上述计算，得到N 个第一线索向量，将N个第一线索向量构建获得第一线索矩阵A，矩阵A 进行连接进而转化为向量，再将连接得到的向量进行正则化，得到第一注意力线索v_n。

步骤S3042，采用所述直播检测模型的注意力机制，基于同一类型的影音数据对应的所述第二子特征生成第二注意力线索。

其中，所述第二注意力线索a_n的生成方式，与上述第一注意力线索 v_n生成的方式一致。

步骤S3043，采用所述直播检测模型的注意力机制，基于同一类型的影音数据对应的所述第三子特征生成第三注意力线索。

其中，所述第三注意力线索t_n的生成方式，与上述第一注意力线索 v_n生成的方式一致

步骤S3044，基于所述第一注意力线索、所述第二注意力线索以及所述第三注意力线索进行特征耦合。

在本申请实施例中，步骤S3044可通过以下方式实现：

对所述第一注意力线索v_n、所述第二注意力线索a_n以及所述第三注意力线索t_n进行元素积，获得第一耦合特征l。计算公式如下：

l＝a_R⊙v_n⊙t_n

可选地，所述第一耦合特征还可以通过以下方式生成：

根据所述第一子特征v、所述第二子特征a和所述第三子特征t映射得到第一耦合特征l，映射公式如下：

l＝[v；a；t]

其中，v代表视觉深度特征，a代表音频深度特征，t代表文本深度特征。

应当说明的是，当所述第一耦合特征通过映射得到时，所述第二耦合特征也通过同样的映射方式生成。

在本申请实施例中，获得第一耦合特征之后，所述方法还包括，利用所述直播检测模型对所述第一耦合特征进行分类处理，可通过如下方式实现：

对预存的直播音视频进行预处理，获得数据集，所述数据集包括多个不同类型的数据样本；

将所述第一耦合特征输入所述直播检测模型的输出端，求损失函数，函数公式如下：

其中，loss为所求的损失，C代表数据集的类型数，N代表每个类型下数据样本的数量，y_i,j为数据集中第j类型的第i个样本，为与y_i,j对应的分类预测值。

对所述直播检测模型进行训练，直到计算得到的loss数值最小时，记录此时的与y_i,j对应的分类预测值将与设定值的误差小于预设阈值的各对应的第一耦合特征划分到同一类型，从而获得不同类型的影音数据，并将所述影音数据存储于所述直播检测模型。

进一步地，对所述第二耦合特征也将进行相同的分类处理。

详细地，在本申请实施例中，数据集的类型可包括但不限于色情低俗、暴力惊悚、封建迷信和其他，进一步检测出的直播音视频的类型也可包括但不限于色情低俗、暴力惊悚、封建迷信和其他，再进一步地判定发出各类型的直播音视频的各主播为对应的主播并输出，以实现对不良主播的检测。

进一步地，在本实施例中，计算所述第二耦合特征与预存的各类型的影音数据对应的第一耦合特征之间的汉明距离，通过以下方式实现：

使用激活函数sigmoid将上述处理后的第一耦合特征l投影到0和1 之间，得到二值化激活值对进行哈希运算得到l_hash，运算公式如下：

对计算得到的l_hash进行如下列公式所示的哈希编码处理，并将处理后得到的y_r进行存储以得到哈希特征库。

y_r＝sgn(σ(W_r*x_r+b_r))

其中，x_r为哈希编码输入，h_r为哈希编码层的激活值，y_r为最终哈希编码结果，sgn(.)和σ(.)分别是阶跃函数和Sigmoid函数，g(.)为惩罚函数， t(.)、r(.)、o(.)分别为所述直播检测模型的参数h_r、W_r、b_r的正则项，α、 β、η为所述直播检测模型编码过程中的超参数。

进一步的，对所述第二耦合特征，也将进行相同的映射处理和相同的哈希编码处理，以获得与所述第二耦合特征对应的哈希编码结果。

对第一耦合特征的哈希编码结果和第二耦合特征的哈希编码结果进行异或计算，异或计算得到的结果为所求的汉明距离。

步骤S40，将与所述第二耦合特征的汉明距离小于预设阈值的第一耦合特征所对应的影音数据的类型判定为所述待测直播音视频的类型，并输出。

请结合参阅图5，为本申请实施例提供的用于实现上述选择性注意线索指导的不良主播检测方法的电子设备100的方框示意图。在本实施例中，所述电子设备100可以是，但不限于，智能手机、个人电脑(Personal Computer，PC)、笔记本电脑、监控设备、服务器等具备直播检测及处理能力的计算机设备。

所述电子设备100还包括选择性注意线索指导的不良主播检测装置 200、存储器110以及处理器120。本申请实施例中，选择性注意线索指导的不良主播检测装置200包括至少一个可以软件或固件(Firmware)的形式存储于所述存储器110中或固化在所述电子设备100的操作系统 (Operating System，OS)中的软件功能模块。所述处理器120用于执行所述存储器110中存储的可执行软件模块，例如，所述选择性注意线索指导的不良主播检测装置200所包括的软件功能模块及计算机程序等。本实施例中，所述选择性注意线索指导的不良主播检测装置200也可以集成于所述操作系统中，作为所述操作系统的一部分。具体地，所述选择性注意线索指导的不良主播检测装置200包括：

处理模块210，用于获取待测直播音视频，并基于所述待测直播音视频生成第二耦合特征。

第一执行模块220，用于计算所述第二耦合特征与预存的各类型的影音数据对应的第一耦合特征之间的汉明距离，其中，所述第二耦合特征采用与所述第一耦合特征相同的方式生成。

第二执行模块220，用于将与所述第二耦合特征的汉明距离小于预设阈值的第一耦合特征所对应的影音数据的类型判定为所述待测直播音视频的类型，并输出。

可以理解的是，本实施例中的各功能模块的具体操作方法可参照上述方法实施例中相应步骤的详细描述，在此不再重复赘述。

综上所述，本申请实施例提供一种选择性注意线索指导的不良主播检测方法、装置及电子设备，通过获取待测直播音视频，基于所述待测直播音视频生成第二耦合特征。计算所述第二耦合特征与预存的各类型的影音数据对应的第一耦合特征之间的汉明距离，其中，所述第二耦合特征采用与所述第一耦合特征相同的方式生成。将与所述第二耦合特征的汉明距离小于预设阈值的第一耦合特征所对应的影音数据的类型判定为所述待测直播音视频的类型，并输出。由此，能够更为准确、可靠地判定并输出待测直播音视频的类型，进而判定发出各类型的直播音视频的各主播为对应的主播并输出，以实现检测目的。以便监管者对含有不良信息的直播音视频进行监控和管理，通用性较强，降低资源和成本消耗，并且可以适应于广泛的视频场景。

在本申请所提供的实施例中，应该理解到，所揭露的装置和方法，也可以通过其它的方式实现。以上所描述的装置和方法实施例仅仅是示意性的，例如，附图中的流程图和框图显示了根据本申请的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现方式中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

另外，在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或两个以上模块集成形成一个独立的部分。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其它变体意在涵盖非排它性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其它要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

对于本领域技术人员而言，显然本申请不限于上述示范性实施例的细节，而且在不背离本申请的精神或基本特征的情况下，能够以其它的具体形式实现本申请。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本申请的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本申请内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。

Claims

1.一种选择性注意线索指导的不良主播检测方法，其特征在于，包括：

获取待测直播音视频；

基于所述待测直播音视频生成第二耦合特征；

计算所述第二耦合特征与预存的各类型的影音数据对应的第一耦合特征之间的汉明距离，其中，所述第二耦合特征采用与所述第一耦合特征相同的方式生成；

2.根据权利要求1所述的选择性注意线索指导的不良主播检测方法，其特征在于，

所述第一耦合特征通过以下步骤生成：

针对预存的每种类型的影音数据，采用设定的直播检测模型的第一子网络对该类型的影音数据进行特征提取，

以获取与该类型的影音数据对应的第一子特征；

采用所述直播检测模型的第二子网络对该类型的影音数据进行特征提取，以获取与该类型的影音数据对应的第二子特征；以及

采用所述直播检测模型的第三子网络对该类型的影音数据进行特征提取，以获取与该类型的影音数据对应的第三子特征；

对同一类型的影音数据对应的所述第一子特征、所述第二子特征和所述第三子特征进行特征耦合处理，以生成第一耦合特征；

所述第二耦合特征通过以下步骤生成：

将所述待测直播音视频输入到所述直播检测模型；

采用所述第一子网络对所述待测直播音视进行特征提取，以获取第一待测特征；

采用所述第二子网络对所述待测直播音视进行特征提取，以获取第二待测特征；以及

采用所述第三子网络对所述待测直播音视进行特征提取，以获取第三待测特征；

3.根据权利要求2所述的选择性注意线索指导的不良主播检测方法，其特征在于，

对同一类型的影音数据对应的所述第一子特征、所述第二子特征和所述第三子特征进行特征耦合处理的步骤，包括：

采用所述直播检测模型的注意力机制，对同一类型的影音数据对应的所述第一子特征、所述第二子特征和所述第三子特征进行特征耦合处理；

4.根据权利要求3所述的选择性注意线索指导的不良主播检测方法，其特征在于，

采用所述直播检测模型的注意力机制，对同一类型的影音数据对应的所述第一子特征、所述第二子特征和所述第三子特征进行特征耦合处理的步骤，包括：

采用所述直播检测模型的注意力机制，基于同一类型的影音数据对应的所述第一子特征生成第一注意力线索，基于同一类型的影音数据对应的所述第二子特征生成第二注意力线索，基于同一类型的影音数据对应的所述第三子特征生成第三注意力线索；

基于所述第一注意力线索、所述第二注意力线索以及所述第三注意力线索进行特征耦合；

5.根据权利要求2所述的选择性注意线索指导的不良主播检测方法，其特征在于，

在生成第一耦合特征之后，所述方法还包括：对不同类型的影音数据对应的第一耦合特征进行运算，将运算后的各第一耦合特征进行存储以得到哈希特征库；

获取所述哈希特征库中运算后的各第一耦合特征；

对所述第二耦合特征进行运算，获得运算后的第二耦合特征，对所述第二耦合特征进行的运算与对所述第一耦合特征进行的运算一致；

6.根据权利要求2所述的选择性注意线索指导的不良主播检测方法，其特征在于，所述第一子特征和所述第一待测特征为视频特征，所述第二子特征和所述第二待测特征为音频特征，所述第三子特征和所述第三待测特征为文本特征。

7.一种选择性注意线索指导的不良主播检测装置，应用于电子设备，其特征在于，所述选择性注意线索指导的不良主播检测装置包括：

处理模块，用于获取待测直播音视频，并基于所述待测直播音视频生成第二耦合特征；

第一执行模块，用于计算所述第二耦合特征与预存的各类型的影音数据对应的第一耦合特征之间的汉明距离，其中，所述第二耦合特征采用与所述第一耦合特征相同的方式生成；

8.根据权利要求7所述的选择性注意线索指导的不良主播检测装置，其特征在于，

所述处理模块通过以下步骤生成所述第一耦合特征：

针对预存的每种类型的影音数据，采用设定的直播检测模型的第一子网络对该类型的影音数据进行特征提取，以获取与该类型的影音数据对应的第一子特征；

所述处理模块通过以下步骤生成所述第二耦合特征：

将所述待测直播音视频输入到所述直播检测模型；

9.一种电子设备，其特征在于，所述电子设备包括：

存储器；

处理器；以及

10.一种可读存储介质，其特征在于，所述可读存储介质中存储有计算机程序，所述计算机程序被执行时实现权利要求1-6中任意一项所述的选择性注意线索指导的不良主播检测方法。