CN112492343A

CN112492343A - 一种视频直播监控方法及相关装置

Info

Publication number: CN112492343A
Application number: CN202011486711.6A
Authority: CN
Inventors: 韩加旭; 周祥明
Original assignee: Zhejiang Dahua Technology Co Ltd
Current assignee: Zhejiang Dahua Technology Co Ltd
Priority date: 2020-12-16
Filing date: 2020-12-16
Publication date: 2021-03-12
Anticipated expiration: 2040-12-16
Also published as: CN112492343B

Abstract

本申请公开了一种视频直播监控方法及相关装置，其中，所述监控方法包括：获得当前视频直播片段的视频数据以及音频数据；对视频数据和音频数据分别进行违规检测，以分别获得视频违规概率和音频违规概率；根据视频违规概率和音频违规概率获得综合违规概率；判断综合违规概率与预设范围的关系；若综合违规概率大于预设范围的最大值，则输出违规报警信息；若综合违规概率小于预设范围的最小值，则不输出违规报警信息；若综合违规概率位于所述预设范围内，则将当前视频直播片段发送至检测人员的终端，并接收所述检测人员的人工审核结果。通过上述方式，本申请可以提高视频直播的监控效率和准确性，大大减少人力成本。

Description

一种视频直播监控方法及相关装置

技术领域

本申请涉及视频直播监控技术领域，特别是涉及一种视频直播监控方法及相关装置。

背景技术

随着互联网技术的快速发展，视频直播正逐渐成为一种流行的生活娱乐方式。然而在鱼龙混杂的视频直播平台中，难免会出现一些不良违规甚至违法的信息，这严重破坏了视频直播的发展环境，给社会带来了恶劣影响。因此，需要加强对视频直播的实时监控，一经发现违规情况应及时处理。

传统的视频直播监控方法主要基于人工审核方式，但该方法需要投入大量的人工成本，且监控难度较大、效率较低。目前应用较广的直播视频监控方法是基于预设时间间隔，利用图像检测算法从目标直播间的视频数据中提取视频帧，再对每一帧图像进行违规分析。这类方法在使用的过程中，预设时间间隔的选取尤为重要。如果时间间隔设定较小，会存在识别资源浪费、监控效率低的问题；而如果时间间隔较大，会存在信息遗漏或丢失的问题，无法准确地识别出存在违规风险的直播，从而导致违规播放的直播事故。

发明内容

本申请主要解决的技术问题是提供一种视频直播监控方法及相关装置，能够有效避免视频采样过程中信息丢失、特征遗漏等问题，提高视频直播的监控效率和准确性，大大减少人力成本。

为解决上述技术问题，本申请采用的一个技术方案是：提供一种视频直播监控方法，包括：获得当前视频直播片段的视频数据以及音频数据；对所述视频数据和所述音频数据分别进行违规检测，以分别获得视频违规概率和音频违规概率；根据所述视频违规概率和所述音频违规概率获得综合违规概率；判断所述综合违规概率与预设范围的关系；若所述综合违规概率大于所述预设范围的最大值，则输出违规报警信息；若所述综合违规概率小于所述预设范围的最小值，则不输出违规报警信息；若所述综合违规概率位于所述预设范围内，则将所述当前视频直播片段发送至检测人员的终端，并接收所述检测人员的人工审核结果。

其中，对所述视频数据进行违规检测，以获得视频违规概率的步骤包括：将所述视频数据中的每个视频帧分别输入至违规检测模型中以获得所述视频帧中含有违规信息的置信度；将所有视频帧对应的置信度中的最大值作为所述视频违规概率。

其中，所述获得当前视频流的视频数据以及音频数据的步骤之前，还包括：获得直播视频中的多个样本图像，并对所述样本图像进行预处理；利用多个所述样本图像训练违规检测模型，其中，所述违规检测模型包括R-CNN、R-FCN、YOLO、SSD中任意一种。

其中，对所述音频数据进行违规检测，以获得音频违规概率的步骤包括：将所述音频数据分别输入声学模型和语言模型中，以获得对应的文本数据；将所述文本数据输入文本分类模型中，以获得对应的文本类别；根据所述文本类别获得对应的音频违规概率。

其中，所述获得当前视频流的视频数据以及音频数据的步骤之前，还包括：获得直播视频中的多个样本语音；利用多个所述样本语音训练所述声学模型和语言模型，其中，所述声学模型包括GMM、HMM、TDNN、RNN中任意一种，所述语言模型包括N-gram、RNN中任意一种。

其中，所述获得当前视频流的视频数据以及音频数据的步骤之前，还包括：利用多个所述样本文本训练所述文本分类模型，其中，所述文本分类模型包括FastText、TextCNN、LSTM、Bert中任意一种。

其中，所述根据所述视频违规概率和所述音频违规概率获得综合违规概率的步骤包括：获得所述视频违规概率和第一系数的第一乘积、以及所述音频违规概率和第二系数的第二乘积，并将所述第一乘积和所述第二乘积之和作为所述综合违规概率；其中，第一系数和第二系数大于0，且两者之和为1。

其中，响应于所述视频违规概率大于或等于所述预设阈值，则所述第一系数和所述第二系数非零；响应于所述视频违规概率小于所述预设阈值，则所述第一系数为0。

为解决上述技术问题，本申请采用的又一个技术方案是：提供一种视频直播监控装置，包括相互耦接的存储器和处理器，所述存储器内存储有程序指令，所述处理器用于执行所述程序指令以实现上述任一实施例中所述的视频直播监控方法。

为解决上述技术问题，本申请采用的又一个技术方案是：提供一种存储装置，存储有能够被处理器运行的程序指令，所述程序指令用于实现上述任一实施例中所述的视频直播监控方法。

区别于现有技术的情况，本申请的有益效果是：本申请中提供一种视频直播监控方法，利用视频直播片段分别从视觉和听觉两个角度对直播片段进行严密监控，将当前获得的视频直播片段分为视频数据和音频数据，对两段数据分别进行违规检测，本申请所提供的方案能够从视觉和听觉两个角度对视频直播进行监控。本申请通过违规检测分别获得视频违规概率和音频违规概率，结合视频违规概率和音频违规概率获得综合违规概率，根据综合违规概率判断该视频直播片段是否违规，相比于现有技术中基于预设时间间隔的图像检测法，本申请获取视频直播片段中视频数据和音频数据的全部特征进行检测，有效避免了视频采样过程中信息丢失、特征遗漏等问题，对整个视频片段进行了违规检测，提高了视频直播监控结果的准确性。同时，本申请在判断综合违规概率与预设范围的关系的过程中，辅以人工审核的方式，当综合违规概率位于预设范围内，则通过人工审核结果判断是否违规，该方案能够大大减少人力成本，相较于传统的人工审查方法大幅提高了视频直播的监控效率。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。其中：

图1是本申请视频直播监控方法一实施方式的流程示意图；

图2是图1中步骤S102对应的一实施方式的流程示意图；

图3是图1中步骤S102对应的另一实施方式的流程示意图；

图4是本申请视频直播监控装置一实施方式的框架示意图；

图5是本申请视频直播监控装置一实施方式的结构示意图；

图6是本申请存储装置一实施方式的框架示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性的劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

请参阅图1，图1是本申请视频直播监控方法一实施方式的流程示意图，该监控方法包括：

S101：获得当前视频直播片段的视频数据以及音频数据。

具体地，在本实施例中，上述步骤S101的具体实现方式可以为：利用能够实现音画分离技术的系统或装置，获得一段时间内视频直播片段分别对应的视频数据和音频数据。在进行监控的过程中，将一个完整的视频直播实时片段分成视频数据和音频数据两部分，有利于分别从视觉和听觉两个角度对视频直播片段进行后续的违规检测，提高检测结果的准确度。

在另一实施例中，上述步骤S101之前还包括：获得直播视频中的多个样本图像，并对样本图像进行预处理；利用多个样本图像训练违规检测模型，其中，违规检测模型包括R-CNN、R-FCN、YOLO、SSD中任意一种。具体而言，上述样本图像是指含有违规信息的图像，例如，含有色情低俗信息的图像、含有衣着暴露信息的图像等，违规信息的内容在此不作具体限定。另外，样本图像采用多尺度图像，即样本图像的像素大小各不相同，其像素大小可以为40*60，100*80，50*50等，采用多尺度图像进行模型的训练有利于增强违规检测模型的鲁棒性。获取多张图像作为违规检测模型的训练集，可以从含有违规信息的其他直播片段或者含有违规信息的录播视频中截取，当然，也可以通过其他方式获取样本图像，在此不作限定。上述对样本图像的预处理具体包括对样本图像进行缩放和去噪等，由于采用的样本图像像素大小不同，需要将不同的像素尺寸归一化到统一的像素尺寸下，保证后续模型训练过程的有效进行。将样本图像中的违规信息人为框出，并输入到模型中进行离线训练，最终获得违规检测模型。其中，违规检测模型包括但不限于R-CNN、R-FCN、YOLO、SSD等一系列目标检测算法，此处不作限定。上述利用多个样本图像训练违规检测模型的方式能够提高模型的准确性，增强模型的鲁棒性，可以使得后续获得视频违规概率的结果更为精确。

上述实施方式的具体过程可以为：获取多个样本图像为X＝{Xi|i＝1,2,…,N}，其中，Xi对应视频直播中的每一样本图像，N为样本数，图像分辨率为W*H；每一样本图像对应的标签为Yi＝{(classj,xj,yj,wj,hj)|j＝1,2,…,M}，其中，M为该样本图像中违规信息矩形框的个数，class为该违规信息对应的类别，x,y,w,h分别表示该违规信息矩形框的中心点坐标及其宽高。对样本图像进行缩放预处理的具体过程可以为：将上述分辨率为W*H的样本图像按照缩放比例归一化为目标像素大小targetSize，其中，缩放比例按照如下公式计算：

其中，scale为缩放比例，minD＝min(W,H)，maxD＝max(W,H)，maxSize为输入模型图像的最大像素尺寸。当样本图像的最大像素尺寸大于输入模型图像的最大像素尺寸时，则需要对样本图像进行缩小处理，此时缩放比例为输入模型图像的目标大小与像素最大值的比值；其他情况下，需要对样本图像进行放大处理，此时缩放比例为目标像素大小与像素最小值的比值。样本图像的缩放均采用原比例的缩放方法，即根据样本图像中较长的一边进行缩放比例的计算。

在又一实施例中，上述步骤S101之前还可以包括：获得直播视频中的多个样本语音；利用多个样本语音分别训练声学模型和语言模型，其中，声学模型包括GMM、HMM、TDNN、RNN中任意一种，语言模型包括N-gram、RNN中任意一种。具体而言，上述样本语音是指含有违规信息的语音，例如，含有辱骂词汇的语音、含有政治敏感词汇的语音等，此处不作具体限定。样本语音中的违规信息被标注出来，将标注完成的样本语音输入到声学模型和语言模型中进行离线训练。通过上述方式，能够有效提高声学模型和语言模型的准确度，提高后续语音解码转为文本的效率。

当然，在其他实施例中，上述步骤S101之前还可以包括：利用多个样本文本训练文本分类模型，其中，所述文本分类模型包括FastText、TextCNN、LSTM、Bert中任意一种。具体而言，样本文本具体是指含有违规词汇的文本，例如，含有辱骂低俗的词汇，含有政治敏感的词汇等，此处不作具体限定。通过上述方式，能够提高文本分类模型的准确度，可以使得后续获得音频违规概率的结果更为精确。

为便于理解，以TextCNN文本分类模型为例进行上述训练过程的详细讲解。利用训练完成的词向量方法获得一个Embedding层，其形状为n*k，其中，n表示句子中的单词数，k表示每个词对应的词向量的维度。将词向量输入到网络模型的特征提取操作，最后将特征送入softmax分类层输出，经过反向传播算法训练得到文本分类模型。

S102：对视频数据和音频数据分别进行违规检测，以分别获得视频违规概率和音频违规概率。

具体地，在本实施例中，利用上述视频数据输入至训练完成的视频违规检测模型中进行违规检测，以获得其对应的视频违规概率，请参阅图2，图2是图1中步骤S102对应的一实施方式的流程示意图，上述步骤S102具体包括：

S201：将视频数据中的每个视频帧分别输入至违规检测模型中进行在线分析，以获得视频帧中含有违规信息的置信度。

S202：将所有视频帧对应的置信度中的最大值作为视频违规概率。

具体而言，上述每个视频帧通过对视频数据的解析获得，视频数据解析后形成对应的图像帧序列，按照序列顺序依次将每一帧图像进行预处理后，输入违规检测模型中进行在线分析。上述对每一帧图像的预处理包括对图像的缩放和去噪等操作，此处不作限定。上述实施方式从视觉的角度对视频直播片段进行违规检测，对视频数据中的所有图像帧依次进行检测，有效避免了采样过程中信息丢失，特征遗漏等问题，提高了检测结果的可靠性。

为便于理解，以基于YOLO算法的违规检测模型为例进行在线分析过程的详细说明。实时接收视频直播片段的视频数据，对视频数据进行解析形成对应的图像帧序列，将每一图像帧按照序列顺序依次进行缩放和去噪处理，将图像像素归一化到同一像素大小下，如像素尺寸416*416，再将每一图像帧输入到违规检测模型中进行网络在线分析。检测完成后，模型在图像上输出违规预测框，同时输出结果(C，x₁,y₁,x₂,y₂)，其中，(x₁,y₁)和(x₂,y₂)表示预测框的左上角和右下角的坐标，C表示该图像含有违规信息的置信度，即违规风险，其公式为：

其中，Pr(Class|Object)表示预测框中的目标属于各个类别的概率，Pr(Object)表示违规信息出现的置信度，

表示违规预测框与样本图像违规框之间的重叠度。

在另一实施方式中，利用上述音频数据进行违规检测，以获得其对应的音频违规概率，请参阅图3，图3是图1中步骤S102对应的另一实施方式的流程示意图，上述步骤S102具体包括：

S301：将音频数据分别输入声学模型和语言模型中，以获得对应的文本数据。

具体地，利用训练完成的声学模型和语言模型，对视频直播片段中分离出的音频数据通过解码引擎进行解码，解码引擎指含有解码算法的装置或系统，解码算法是指包括基于传统WFST架构的Viterbi算法或基于端到端架构的beam search算法中的任意一种，具体不作限定，能够实现音频数据到文本数据的转换即可。

S302：将文本数据输入文本分类模型中，以获得对应的文本类别。

S303：根据文本类别获得对应的音频违规概率。

为便于理解，以TextCNN文本分类模型为例进行上述检测过程的详细讲解。将文本数据输入到TextCNN文本分类模型中，经过模型训练时形成的Embedding层得到文本数据对应的词向量，在经过文本分类模型的预测获得文本类别K，文本类别K对应的公式为：

K＝argmax S_m (3)

其中，K为文本类别，S_m为softmax的输出向量，m为向量的维数。向量S_m中的m个数值表示每个文本类别分别对应的违规概率，且m个数值的总和为1。其中，文本类别K对应于softmax的输出向量S_m中的最大值。

获取文本类别K对应的softmax的值，将其作为最终输出音频违规概率M，其公式为：

M＝s_K (4)

上述实施方式从听觉的角度对视频直播片段进行违规检测，将音频数据转换为文本数据后进行在线分析，可以实现利用声音传播违规信息的视频直播监控，有效提高检测结果的准确度。

S103：根据所述视频违规概率和所述音频违规概率获得综合违规概率。

具体地，在本实施例中，上述步骤S103具体包括：获得视频违规概率和第一系数的第一乘积、以及音频违规概率和第二系数的第二乘积，并将第一乘积和第二乘积之和作为综合违规概率；其中，第一系数和第二系数大于0，且两者之和为1。

其中，第一系数和第二系数分别表示视频违规权重和音频违规权重，且二者之和为1，可以分别为0.7和0.3、0.5和0.5、0.4和0.6、0.25和0.75等。上述实施方式中的综合违规概率结合了视频违规概率和音频违规概率的结果，从两个角度综合体现了视频直播违规的概率，使检测结果更加具备可靠性。

进一步地，上述步骤S103之前还可以包括：响应于所述视频违规概率大于或等于所述预设阈值，则所述第一系数和所述第二系数非零；响应于所述视频违规概率小于所述预设阈值，则所述第一系数为0。在获得综合违规概率之前，利用视频违规概率与预设阈值进行比较，对监控结果进行初步判断，能够有效提高视频直播的监控效率，节约时间成本。

S104：判断综合违规概率是否在预设范围内。

S105：若是，则将当前视频直播片段发送至检测人员的终端，并接收所述检测人员的人工审核结果。

S106：否则，判断综合违规概率是否大于预设范围的最大值。

S107：若是，则输出违规报警信息。

S108：否则，不输出违规报警信息。

通过上述实施方式能够有效避免视频采样过程中信息丢失、特征遗漏等问题，提高视频直播的监控效率和准确性，大大减少人力成本。

请参阅图4，图4是本申请视频直播监控装置一实施方式的框架示意图，该监控装置包括获得模块10、检测模块12和判断模块14。其中，获得模块10用于获得当前视频直播片段的视频数据以及音频数据。检测模块12用于对视频数据和音频数据分别进行违规检测，以分别获得视频违规概率和音频违规概率。判断模块14用于根据视频违规概率和音频违规概率获得综合违规概率，判断综合违规概率与预设范围的关系，若综合违规概率大于预设范围的最大值，则输出违规报警信息；若综合违规概率小于预设范围的最小值，则不输出违规报警信息；若所述综合违规概率位于所述预设范围内，则将所述当前视频直播片段发送至检测人员的终端，并接收所述检测人员的人工审核结果。

请参阅图5，图5是本申请视频直播监控装置一实施方式的结构示意图，该监控装置20包括相互耦接的存储器200和处理器202，存储器200内存储有程序指令，处理器202用于执行程序指令以实现上述任一实施例中所提及的视频直播监控方法。

具体而言，处理器202还可以称为CPU(Central Processing Unit，中央处理单元)。处理器202可能是一种集成电路芯片，具有信号的处理能力。处理器202还可以是通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(ApplicationSpecific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable GateArray,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。另外，处理器202可以由多个集成电路芯片共同实现。

请参阅图6，图6是本申请存储装置一实施方式的框架示意图。该存储装置30存储有能够被处理器运行的程序指令300，程序指令300用于实现上述任一实施例中所提及的视频直播监控方法。其中，该程序指令300可以以软件产品的形式存储在上述存储装置中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(processor)执行本申请各个实施方式所述方法的全部或部分步骤。而前述的存储装置包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质，或者是计算机、服务器、手机、平板等终端设备。

总而言之，区别于现有技术的情况，本申请中提供一种视频直播监控方法，利用视频直播片段分别从视觉和听觉两个角度对直播片段进行严密监控，并同时辅以人工审查。将当前视频直播片段分为视频数据和音频数据，对两段数据分别进行违规检测，根据违规检测结果以及人工审核结果判断是否输出报警信息。相比于现有技术中基于预设时间间隔的图像检测法，本申请所提供的方案能够从多维角度对视频直播进行监控，有效避免视频采样过程中信息丢失、特征遗漏等问题，提高视频直播的监控效率和准确性，大大减少人力成本。

以上所述仅为本申请的实施方式，并非因此限制本申请的专利范围，凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本申请的专利保护范围内。

Claims

1.一种视频直播监控方法，其特征在于，包括：

获得当前视频直播片段的视频数据以及音频数据；

对所述视频数据和所述音频数据分别进行违规检测，以分别获得视频违规概率和音频违规概率；

根据所述视频违规概率和所述音频违规概率获得综合违规概率；

判断所述综合违规概率与预设范围的关系；

若所述综合违规概率大于所述预设范围的最大值，则输出违规报警信息；若所述综合违规概率小于所述预设范围的最小值，则不输出违规报警信息；若所述综合违规概率位于所述预设范围内，则将所述当前视频直播片段发送至检测人员的终端，并接收所述检测人员的人工审核结果。

2.根据权利要求1所述的视频直播监控方法，其特征在于，对所述视频数据进行违规检测，以获得视频违规概率的步骤包括：

将所述视频数据中的每个视频帧分别输入至违规检测模型中以获得所述视频帧中含有违规信息的置信度；

将所有视频帧对应的置信度中的最大值作为所述视频违规概率。

3.根据权利要求2所述的视频直播监控方法，其特征在于，所述获得当前视频流的视频数据以及音频数据的步骤之前，还包括：

获得直播视频中的多个样本图像，并对所述样本图像进行预处理；

利用多个所述样本图像训练违规检测模型，其中，所述违规检测模型包括R-CNN、R-FCN、YOLO、SSD中任意一种。

4.根据权利要求1所述的视频直播监控方法，其特征在于，对所述音频数据进行违规检测，以获得音频违规概率的步骤包括：

将所述音频数据分别输入声学模型和语言模型中，以获得对应的文本数据；

将所述文本数据输入文本分类模型中，以获得对应的文本类别；

根据所述文本类别获得对应的音频违规概率。

5.根据权利要求4所述的视频直播监控方法，其特征在于，所述获得当前视频流的视频数据以及音频数据的步骤之前，还包括：

获得直播视频中的多个样本语音；

利用多个所述样本语音训练所述声学模型和所述语言模型，其中，所述声学模型包括GMM、HMM、TDNN、RNN中任意一种，所述语言模型包括N-gram、RNN中任意一种。

6.根据权利要求4所述的视频直播监控方法，其特征在于，所述获得当前视频流的视频数据以及音频数据的步骤之前，还包括：

利用多个所述样本文本训练所述文本分类模型，其中，所述文本分类模型包括FastText、TextCNN、LSTM、Bert中任意一种。

7.根据权利要求1所述的视频直播监控方法，其特征在于，所述根据所述视频违规概率和所述音频违规概率获得综合违规概率的步骤包括：

获得所述视频违规概率和第一系数的第一乘积、以及所述音频违规概率和第二系数的第二乘积，并将所述第一乘积和所述第二乘积之和作为所述综合违规概率；其中，第一系数和第二系数大于或等于0，且两者之和为1。

8.根据权利要求7所述的视频直播监控方法，其特征在于，响应于所述视频违规概率大于或等于所述预设阈值，则所述第一系数和所述第二系数非零；响应于所述视频违规概率小于所述预设阈值，则所述第一系数为0。

9.一种视频直播监控装置，其特征在于，包括相互耦接的存储器和处理器，所述存储器内存储有程序指令，所述处理器用于执行所述程序指令以实现权利要求1至8中任一项所述的视频直播监控方法。

10.一种存储装置，其特征在于，存储有能够被处理器运行的程序指令，所述程序指令用于实现权利要求1至8任一项所述的视频直播监控方法。