CN109840509B

CN109840509B - 网络直播视频中不良主播的多层次协同识别方法及装置

Info

Publication number: CN109840509B
Application number: CN201910119305.7A
Authority: CN
Inventors: 张菁; 李晨豪; 王立元; 张辉; 李嘉锋; 卓力
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2019-02-15
Filing date: 2019-02-15
Publication date: 2020-12-01
Anticipated expiration: 2039-02-15
Also published as: CN109840509A

Abstract

本发明提供了一种网络直播视频中不良主播的多层次协同识别方法及装置，涉及视频处理的技术领域，包括：从目标视频中提取图像样本、弹幕样本和语音样本；根据图像样本、弹幕样本和语音样本分别计算出图像分类序列、语音分类序列和弹幕分类序列；根据D‑S证据理论对图像分类序列、语音分类序列和弹幕分类序列进行融合处理，生成视频分类序列；根据视频分类序列识别出目标视频的行为分类。通过融合图像、语音和弹幕三个识别结果，提高了视频识别的鲁棒性，提高了网络直播视频中主播的不良行为的识别精度。

Description

网络直播视频中不良主播的多层次协同识别方法及装置

技术领域

本发明涉及视频处理的技术领域，尤其是涉及一种网络直播视频中不良主播的多层次协同识别方法及装置。

背景技术

传统的网络监管任务主要是针对显性不良行为，而以网络直播为平台的不良主播呈现出高隐蔽性、强暗示性、持续时间较短等，一般来说不良行为大致可以分为封建迷信等几大类，而在每一大类下还有具体的不良行为等级，直播平台根据不同程度的不良行为对主播进行扣分或者查封等不同处罚，这需要在网络直播识别过程中对主播的不良行为进行精准识别。

网络视频内容的自动识别通常采用特征提取和分类器相结合的方法，这种方法鲁棒性弱、获取高层语义困难，且只单一识别视频、语音或弹幕文本中的一种信息，导致识别精度低、难以应对内容纷繁复杂的实际应用处理需求。

针对现有技术中网络直播视频中不良主播的不良行为识别精度低的问题，目前尚未提出有效解决方案。

发明内容

有鉴于此，本发明的目的在于提供一种网络直播视频中不良主播的多层次协同识别方法及装置，网络直播视频中不良主播的不良行为识别精度低的技术问题。

第一方面，本发明实施例提供了一种网络直播视频中不良主播的多层次协同识别方法，包括：

从目标视频中提取图像样本、弹幕样本和语音样本；

图像样本、弹幕样本和语音样本分别经过第一神经网络、第二神经网络和第三神经网络，分别计算出图像分类序列、语音分类序列和弹幕分类序列；

根据D-S证据理论对图像分类序列、语音分类序列和弹幕分类序列进行融合处理，生成视频分类序列；

根据视频分类序列识别出目标视频的行为分类。

结合第一方面，本发明实施例提供了第一方面的第一种可能的实施方式，其中，根据D-S证据理论对图像分类序列、语音分类序列和弹幕分类序列进行融合处理，生成视频分类序列的步骤，包括：

对图像分类序列、语音分类序列和弹幕分类序列进行点积运算，得到点积结果；

计算点积结果的范数；

将点积结果与范数作商计算，获得视频分类序列。

结合第一方面，本发明实施例提供了第一方面的第二种可能的实施方式，其中，图像样本、弹幕样本和语音样本分别经过第一神经网络、第二神经网络和第三神经网络，分别计算出图像分类序列、语音分类序列和弹幕分类序列的步骤，包括：

第一卷积神经网络提取图像样本的图像特征，将图像特征输入第一分类器，计算出图像分类序列；

通过第二卷积神经网络提取语音样本的语音特征，将语音特征计输入第二分类器，计算出语音分类序列；

通过第三卷积神经网络提取弹幕样本的文本特征，将文本特征输入第三分类器，计算出弹幕分类序列。

结合第一方面，本发明实施例提供了第一方面的第三种可能的实施方式，其中，从目标视频中提取图像样本、弹幕样本和语音样本的步骤，包括：

从目标视频中提取多帧图像；

从多帧图像中提取关键帧图像，关键帧图像为图像样本；

从关键帧图像中提取弹幕样本。

结合第一方面的第三种可能的实施方式，本发明实施例提供了第一方面的第四种可能的实施方式，其中，从多帧图像中提取关键帧图像的步骤，包括：

分别计算多帧图像的相关性和熵值；

根据相关性最大原则和熵值最大原则，从多帧图像中提取关键帧图像。

结合第一方面的第三种可能的实施方式，本发明实施例提供了第一方面的第五种可能的实施方式，其中，从关键帧图像中提取弹幕样本的步骤，包括：

根据word2vec从关键帧图像中提取弹幕文字，并将弹幕文字转化为多个词向量；

将多个词向量进行拼接得到弹幕样本。

结合第一方面的第三种可能的实施方式，本发明实施例提供了第一方面的第六种可能的实施方式，其中，从目标视频中提取图像样本、弹幕样本和语音样本的步骤，还包括：

从目标视频中提取语音信号；

将语音信号转化为二维频谱图，二维频谱图为语音样本。

结合第一方面的第二种可能的实施方式，本发明实施例提供了第一方面的第七种可能的实施方式，其中，根据第一卷积神经网络提取图像样本的图像特征的步骤，包括：

图像样本经过多层卷积层和多个Inception模块，分别生成多个特征图；

将多个特征图通过池化层进行特征融合，生成图像特征。

结合第一方面的第七种可能的实施方式，本发明实施例提供了第一方面的第八种可能的实施方式，其中，将多个特征图通过全连接层进行特征融合，生成图像特征之后的步骤，包括：

对图像特征进行降维处理。

第二方面，本发明实施例还提供一种网络直播视频中不良主播的多层次协同识别装置，包括：

样本提取模块，用于从目标视频中提取图像样本、弹幕样本和语音样本；

分类序列获取模块，用于图像样本、弹幕样本和语音样本分别经过第一神经网络、第二神经网络和第三神经网络，分别计算出图像分类序列、语音分类序列和弹幕分类序列；

融合模块，用于根据D-S证据理论对图像分类序列、语音分类序列和弹幕分类序列进行融合处理，生成视频分类序列；

分类行为提取模块，用于根据视频分类序列识别出目标视频的行为分类。

本发明实施例带来了以下有益效果：

本发明实施例提供了一种网络直播视频中不良主播的多层次协同识别方法，包括：从目标视频中提取图像样本、弹幕样本和语音样本；根据图像样本、弹幕样本和语音样本分别计算出图像分类序列、语音分类序列和弹幕分类序列；根据D-S证据理论对图像分类序列、语音分类序列和弹幕分类序列进行融合处理，生成视频分类序列；根据视频分类序列识别出目标视频的行为分类。通过融合图像、语音和弹幕三个识别结果，提高了视频识别的鲁棒性，提高了网络直播视频中主播的不良行为的识别精度。

本公开的其他特征和优点将在随后的说明书中阐述，或者，部分特征和优点可以从说明书推知或毫无疑义地确定，或者通过实施本公开的上述技术即可得知。

为使本公开的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附图，作详细说明如下。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种网络直播视频中不良主播的多层次协同识别方法流程图；

图2为本发明实施例提供的一种卷积神经网络框架图；

图3为本发明实施例提供的另一种卷积神经网络框架图；

图4为本发明实施例提供的另一种卷积神经网络框架图；

图5为本发明实施例提供的一种网络直播视频中不良主播的多层次协同识别装置框架图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合附图对本发明的技术方案进行描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。

目前网络直播视频中主播的不良行为的分类识别只通过图像识别，导致识别精度低，基于此，本发明实施例提供的一种网络直播视频中不良主播的多层次协同识别方法及装置，可以提高网络直播视频中不良主播的不良行为识别的精度。

为便于对本实施例进行理解，首先对本发明实施例所公开的一种网络直播视频中不良主播的多层次协同识别方法进行详细介绍。

实施例1

如图1所示，为本发明实施例提供的一种网络直播视频中不良主播的多层次协同识别方法，该方法包括步骤S101-S104，具体如下：

步骤S101，从目标视频中提取图像样本、弹幕样本和语音样本。目标视屏为网络直播视频中一个固定时间段的视频片段，固定时间段越短则识别精度越高且识别的实时性越好，但固定时间段太短，又导致识别过程中运算量过大容易引起系统崩溃，该固定时间可以为3秒、4秒等。目标视频包括图片信号、弹幕文本信号和语音信号，从上述目标视频中分别提取图片信号、语音信号和弹幕文本信号分别进行处理生成图像样本、弹幕样本和语音样本。

步骤S102，图像样本、弹幕样本和语音样本分别经过第一神经网络、第二神经网络和第三神经网络，分别计算出图像分类序列、语音分类序列和弹幕分类序列。可以将主播的行为划分为性挑逗、床上镜头、自慰、吸烟、惊悚恐怖等多种行为类别。通过分别分析图像样本、弹幕样本和语音样本可以分别得到图像样本、弹幕样本和语音样本中的主播行为处于每个行为分类的概率序列，即分别得到图像分类序列、语音分类序列和弹幕分类序列。其中，第一神经网络提取图像样本的图片特征，并根据图像特征获得图像样本的行为分类结果，即获得图像分类序列g₁，其中，图像分类序列g₁可通过以下公式(1)进行表示：

表示图像样本中的主播行为处于第l种行为分类的概率，c为行为分类的总数，且图像样本处于c种行为分类的概率和为1。类似的，第二神经网络提取弹幕样本的弹幕特征，并根据弹幕特征获得弹幕分类序列g₂，其中，弹幕分类序列g₂可通过以下公式(2)进行表示：

第三神经网络提取语音样本的语音特征，并根据语音特征获得语音分类序列g₃，其中，语音分类序列g₃可通过以下公式(3)进行表示：

步骤S103，根据D-S证据理论对图像分类序列、语音分类序列和弹幕分类序列进行融合处理，生成视频分类序列。D-S证据理论是一种决策级融合方法，能有效对多个结果进行融合。根据D-S证据理论对图像分类序列、语音分类序列和弹幕分类序列进行融合处理，生成视频分类序列的步骤，包括：

对图像分类序列g₁、语音分类序列g₂和弹幕分类序列g₃进行点积运算，得到点积结果g₁·g₂·g₃，计算点积结果的1-范数||g₁·g₂·g₃||，将点积结果与范数作商计算，获得视频分类序列A，其中，视频分类序列A可通过以下公式(4)进行表示：

步骤S104，根据视频分类序列识别出目标视频的行为分类。获得视频分类序列A后，获得主播行为分别处于多种行为分类的概率，选择行为分类的最大概率所对应的行为分类，为目标视频的行为分类。

步骤S101还包括从目标视频中提取多帧图像。目标视频由多帧图像组成，可以从多帧图像中选取一帧有代表性的图像作为关键帧图像，通过识别关键帧图像来识别目标视频。从多帧图像中提取关键帧图像的步骤，包括：分别计算多帧图像的相关性和熵值。

图像相关性代表图像内容的相近程度。本发明实施例通过计算目标视频中前后两帧图像的归一化交叉相关系数(Normalization Cross Correlation，NCC)，确定前后两帧图像的相关性。对于待检测视频，其前一帧图像的灰度为I₁，后一帧图像的灰度为I₂，则两帧图像的相关性NCC₁₂：

则第i幅图像的相关性NCC_i：

NCC_i＝NCC_i,i-1+NCC_i,i+1

图像的熵值为图像灰度级集合的比特平均数，单位为比特/像素，反映了图像信息的丰富程度，图像熵值越大包含的信息量越大。根据熵的定义计算第i幅图像的二维熵H_i,综合考虑前后两帧图像相关性最大和熵最大原则，本发明实施例采用一个权重方程计算第i幅图像的综合系数P_i：

P_i＝0.5A_i+0.5H_i 0＜i＜n

其中，n为目标视频总帧数。根据相关性最大原则和熵值最大原则，从多帧图像中提取关键帧图像，即从多帧图像中选择综合系数最大的一帧图像为关键帧图像。

从多帧图像中提取关键帧图像，关键帧图像为目标视频的图像样本；且该关键帧图像中的弹幕文本为目标视频的弹幕源，即仅从关键帧图像中提取弹幕样本，简化了识别过程。

从关键帧图像中提取弹幕样本的步骤，包括：根据word2vec算法从关键帧图像中提取弹幕文字，并将弹幕文字转化为多个词向量。将多个词向量进行拼接得到弹幕样本。将不同的词向量依次进行拼接得到一个特征矩阵，矩阵的每一行代表一个词的词向量，该特征矩阵即为弹幕样本。

步骤S101还包括：从目标视频中提取语音信号，该语音信号与目标视频的时间段长度相同。将语音信号转化为二维频谱图，二维频谱图为语音样本。

步骤S102还包括：第一卷积神经网络提取图像样本的图像特征，将图像特征输入第一分类器，计算出图像分类序列；通过第二卷积神经网络提取语音样本的语音特征，将语音特征计输入第二分类器，计算出语音分类序列；通过第三卷积神经网络提取弹幕样本的文本特征，将文本特征输入第三分类器，计算出弹幕分类序列。

如图2所示，为本发明实施例提供的一种卷积神经网络框架图，根据第一卷积神经网络提取图像样本的图像特征的步骤，包括：图像样本经过多个卷积层和多个Inception模块，分别生成多个特征图；将多个特征图通过全连接层进行特征融合，生成图像特征。图像样本依次经过2个卷积计算层和9个Inception模块、平均池化层和Dropout层，进行一系列卷积操作，完成图像特征提取。第1和第2卷积层的卷积核大小可以分别为7×7和3×3，在第1、第2卷积计算层后进行最大值池化(Max Pooling)操作，降低特征维度，减少计算量的同时保证特征的不变性。9个Inception模块的结构可以相同，其中Inception结构中包含了多个并联的支路，每个支路都会对输入进行相应的计算，包括卷积和池化。同时，每个支路采用的卷积核是不同的，可以分别采用1×1，3×3，5×5的卷积核等，大的卷积核对应的在原特征图上的感受野更大，包含更多的信息，而小的卷积核则相对而言感受野更小，可以提取更多的细节信息。Inception模块通过该并联结构使得各层次的特征组合在一起，增强了网络的非线性拟合能力与特征表达能力。Inception模块的每个卷积层后采用修正线性单元(Rectified Linear Unit，ReLU)作为激活函数，从而加快收敛速度。

将多层特征图进行特征融合，生成图像特征之后的步骤，包括：对图像特征进行降维处理。特征融合后得到的图像特征维数较大，可以采用降维算法对图像特征进行降维处理，可以采用PCA(principal component analysis,主成分析)进行特征降维，消除数据噪声。

如图3所示，为本发明实施例提供的一种卷积神经网络框架图，弹幕样本进入第二卷积神经网络，卷积核可以覆盖上下几行的词向量，所以卷积核的宽度应与输入的弹幕样本的特征矩阵宽度相同，以使能够同时捕捉到多个连续词之间的特征。第一个卷积计算层可以采用3种大小的卷积核，长度可以分别为2、3和4。在提取到特征之后增加一个最大池化层和一个全连接层，输出弹幕特征。

如图4所示，为本发明实施例提供的一种卷积神经网络框架图，语音样本进入第三卷积神经网络，即依次经过四个卷积层，且卷积核大小为3×3，每个卷积层后采用修正线性单元作为激活函数，从而加快收敛速度。第2、4卷积层后进行最大值池化(Max Pooling)操作，降低特征维度，减少计算量的同时保证特征的不变性。最后通过一个全连接层，输出一维特征向量，作为目标视频的语音特征。

将图像特征、弹幕特征和语音特征计分别输入第一分类器，第二分类器和第三分类器，第一分类器，第二分类器和第三分类器均可以采用Softmax分类器。

实施例2

图5为本发明实施例提供的一种网络直播视频中不良主播的多层次协同识别装置框架图，包括：

样本提取模块S201，用于从目标视频中提取图像样本、弹幕样本和语音样本；

分类序列获取模块S202，用于图像样本、弹幕样本和语音样本分别经过第一神经网络、第二神经网络和第三神经网络，分别计算出图像分类序列、语音分类序列和弹幕分类序列；

融合模块S203，用于根据D-S证据理论对图像分类序列、语音分类序列和弹幕分类序列进行融合处理，生成视频分类序列；

分类行为提取模块S204，用于根据视频分类序列识别出目标视频的行为分类。

本发明实施例提供的一种网络直播视频中不良主播的多层次协同识别装置，与上述实施例提供的一种网络直播视频中不良主播的多层次协同识别方法具有相同的技术特征，所以也能解决相同的技术问题，达到相同的技术效果。

本发明实施例所提供的进行的络直播视频中不良主播的多层次协同识别方法的计算机程序产品，包括存储了处理器可执行的非易失的程序代码的计算机可读存储介质，所述程序代码包括的指令可用于执行前面方法实施例中所述的方法，具体实现可参见方法实施例，在此不再赘述。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本发明所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上所述实施例，仅为本发明的具体实施方式，用以说明本发明的技术方案，而非对其限制，本发明的保护范围并不局限于此，尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围，都应涵盖在本发明的保护范围之内。

Claims

1.一种网络直播视频中不良主播的多层次协同识别方法，其特征在于，包括：

从目标视频中提取图像样本、弹幕样本和语音样本；

所述图像样本、所述弹幕样本和所述语音样本分别经过第一神经网络、第二神经网络和第三神经网络，分别计算出图像分类序列、语音分类序列和弹幕分类序列；

根据D-S证据理论对所述图像分类序列、所述语音分类序列和所述弹幕分类序列进行融合处理，生成视频分类序列；

根据所述视频分类序列识别出所述目标视频的行为分类；

其中，所述根据D-S证据理论对所述图像分类序列、所述语音分类序列和所述弹幕分类序列进行融合处理，生成视频分类序列的步骤，包括：

对所述图像分类序列、所述语音分类序列和所述弹幕分类序列进行点积运算，得到点积结果；

计算所述点积结果的范数；

将所述点积结果与所述范数作商计算，获得所述视频分类序列。

2.根据权利要求1所述的网络直播视频中不良主播的多层次协同识别方法，其特征在于，所述图像样本、所述弹幕样本和所述语音样本分别经过第一神经网络、第二神经网络和第三神经网络，分别计算出图像分类序列、语音分类序列和弹幕分类序列的步骤，包括：

第一卷积神经网络提取所述图像样本的图像特征，将所述图像特征输入第一分类器，计算出所述图像分类序列；

通过第二卷积神经网络提取所述语音样本的语音特征，将所述语音特征输入第二分类器，计算出所述语音分类序列；

通过第三卷积神经网络提取所述弹幕样本的文本特征，将所述文本特征输入第三分类器，计算出所述弹幕分类序列。

3.根据权利要求1所述的网络直播视频中不良主播的多层次协同识别方法，其特征在于，所述从目标视频中提取图像样本、弹幕样本和语音样本的步骤，包括：

从所述目标视频中提取多帧图像；

从多帧所述图像中提取关键帧图像，所述关键帧图像为所述图像样本；

从所述关键帧图像中提取所述弹幕样本。

4.根据权利要求3所述的网络直播视频中不良主播的多层次协同识别方法，其特征在于，所述从多帧所述图像中提取关键帧图像的步骤，包括：

分别计算多帧所述图像的相关性和熵值；

根据相关性最大原则和熵值最大原则，从多帧所述图像中提取所述关键帧图像。

5.根据权利要求3所述的网络直播视频中不良主播的多层次协同识别方法，其特征在于，所述从所述关键帧图像中提取所述弹幕样本的步骤，包括：

根据word2vec从所述关键帧图像中提取弹幕文字，并将所述弹幕文字转化为多个词向量；

将多个所述词向量进行拼接得到所述弹幕样本。

6.根据权利要求3所述的网络直播视频中不良主播的多层次协同识别方法，其特征在于，所述从目标视频中提取图像样本、弹幕样本和语音样本的步骤，还包括：

从所述目标视频中提取语音信号；

将所述语音信号转化为二维频谱图，所述二维频谱图为所述语音样本。

7.根据权利要求2所述的网络直播视频中不良主播的多层次协同识别方法，其特征在于，所述第一卷积神经网络提取所述图像样本的图像特征的步骤，包括：

所述图像样本经过多层卷积层和多个Inception模块，分别生成多个特征图；

将多个所述特征图通过全连接层进行特征融合，生成所述图像特征。

8.根据权利要求7所述的网络直播视频中不良主播的多层次协同识别方法，其特征在于，所述将多个所述特征图通过全连接层进行特征融合，生成所述图像特征之后的步骤，包括：

对所述图像特征进行降维处理。

9.一种网络直播视频中不良主播的多层次协同识别装置，包括：

分类序列获取模块，用于所述图像样本、所述弹幕样本和所述语音样本分别经过第一神经网络、第二神经网络和第三神经网络，分别计算出图像分类序列、语音分类序列和弹幕分类序列；

融合模块，用于根据D-S证据理论对所述图像分类序列、所述语音分类序列和所述弹幕分类序列进行融合处理，生成视频分类序列；

分类行为提取模块，用于根据视频分类序列识别出所述目标视频的行为分类；

其中，所述融合模块用于：

计算所述点积结果的范数；