CN112492343A - 一种视频直播监控方法及相关装置 - Google Patents

一种视频直播监控方法及相关装置 Download PDF

Info

Publication number
CN112492343A
CN112492343A CN202011486711.6A CN202011486711A CN112492343A CN 112492343 A CN112492343 A CN 112492343A CN 202011486711 A CN202011486711 A CN 202011486711A CN 112492343 A CN112492343 A CN 112492343A
Authority
CN
China
Prior art keywords
video
violation
violation probability
probability
audio
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011486711.6A
Other languages
English (en)
Other versions
CN112492343B (zh
Inventor
韩加旭
周祥明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Dahua Technology Co Ltd
Original Assignee
Zhejiang Dahua Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Dahua Technology Co Ltd filed Critical Zhejiang Dahua Technology Co Ltd
Priority to CN202011486711.6A priority Critical patent/CN112492343B/zh
Publication of CN112492343A publication Critical patent/CN112492343A/zh
Application granted granted Critical
Publication of CN112492343B publication Critical patent/CN112492343B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/21Server components or server architectures
    • H04N21/218Source of audio or video content, e.g. local disk arrays
    • H04N21/2187Live feed
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/233Processing of audio elementary streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
    • H04N21/23418Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/439Processing of audio elementary streams
    • H04N21/4394Processing of audio elementary streams involving operations for analysing the audio stream, e.g. detecting features or characteristics in audio streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/44008Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics in the video stream

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Databases & Information Systems (AREA)
  • Testing, Inspecting, Measuring Of Stereoscopic Televisions And Televisions (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

本申请公开了一种视频直播监控方法及相关装置,其中,所述监控方法包括:获得当前视频直播片段的视频数据以及音频数据;对视频数据和音频数据分别进行违规检测,以分别获得视频违规概率和音频违规概率;根据视频违规概率和音频违规概率获得综合违规概率;判断综合违规概率与预设范围的关系;若综合违规概率大于预设范围的最大值,则输出违规报警信息;若综合违规概率小于预设范围的最小值,则不输出违规报警信息;若综合违规概率位于所述预设范围内,则将当前视频直播片段发送至检测人员的终端,并接收所述检测人员的人工审核结果。通过上述方式,本申请可以提高视频直播的监控效率和准确性,大大减少人力成本。

Description

一种视频直播监控方法及相关装置
技术领域
本申请涉及视频直播监控技术领域,特别是涉及一种视频直播监控方法及相关装置。
背景技术
随着互联网技术的快速发展,视频直播正逐渐成为一种流行的生活娱乐方式。然而在鱼龙混杂的视频直播平台中,难免会出现一些不良违规甚至违法的信息,这严重破坏了视频直播的发展环境,给社会带来了恶劣影响。因此,需要加强对视频直播的实时监控,一经发现违规情况应及时处理。
传统的视频直播监控方法主要基于人工审核方式,但该方法需要投入大量的人工成本,且监控难度较大、效率较低。目前应用较广的直播视频监控方法是基于预设时间间隔,利用图像检测算法从目标直播间的视频数据中提取视频帧,再对每一帧图像进行违规分析。这类方法在使用的过程中,预设时间间隔的选取尤为重要。如果时间间隔设定较小,会存在识别资源浪费、监控效率低的问题;而如果时间间隔较大,会存在信息遗漏或丢失的问题,无法准确地识别出存在违规风险的直播,从而导致违规播放的直播事故。
发明内容
本申请主要解决的技术问题是提供一种视频直播监控方法及相关装置,能够有效避免视频采样过程中信息丢失、特征遗漏等问题,提高视频直播的监控效率和准确性,大大减少人力成本。
为解决上述技术问题,本申请采用的一个技术方案是:提供一种视频直播监控方法,包括:获得当前视频直播片段的视频数据以及音频数据;对所述视频数据和所述音频数据分别进行违规检测,以分别获得视频违规概率和音频违规概率;根据所述视频违规概率和所述音频违规概率获得综合违规概率;判断所述综合违规概率与预设范围的关系;若所述综合违规概率大于所述预设范围的最大值,则输出违规报警信息;若所述综合违规概率小于所述预设范围的最小值,则不输出违规报警信息;若所述综合违规概率位于所述预设范围内,则将所述当前视频直播片段发送至检测人员的终端,并接收所述检测人员的人工审核结果。
其中,对所述视频数据进行违规检测,以获得视频违规概率的步骤包括:将所述视频数据中的每个视频帧分别输入至违规检测模型中以获得所述视频帧中含有违规信息的置信度;将所有视频帧对应的置信度中的最大值作为所述视频违规概率。
其中,所述获得当前视频流的视频数据以及音频数据的步骤之前,还包括:获得直播视频中的多个样本图像,并对所述样本图像进行预处理;利用多个所述样本图像训练违规检测模型,其中,所述违规检测模型包括R-CNN、R-FCN、YOLO、SSD中任意一种。
其中,对所述音频数据进行违规检测,以获得音频违规概率的步骤包括:将所述音频数据分别输入声学模型和语言模型中,以获得对应的文本数据;将所述文本数据输入文本分类模型中,以获得对应的文本类别;根据所述文本类别获得对应的音频违规概率。
其中,所述获得当前视频流的视频数据以及音频数据的步骤之前,还包括:获得直播视频中的多个样本语音;利用多个所述样本语音训练所述声学模型和语言模型,其中,所述声学模型包括GMM、HMM、TDNN、RNN中任意一种,所述语言模型包括N-gram、RNN中任意一种。
其中,所述获得当前视频流的视频数据以及音频数据的步骤之前,还包括:利用多个所述样本文本训练所述文本分类模型,其中,所述文本分类模型包括FastText、TextCNN、LSTM、Bert中任意一种。
其中,所述根据所述视频违规概率和所述音频违规概率获得综合违规概率的步骤包括:获得所述视频违规概率和第一系数的第一乘积、以及所述音频违规概率和第二系数的第二乘积,并将所述第一乘积和所述第二乘积之和作为所述综合违规概率;其中,第一系数和第二系数大于0,且两者之和为1。
其中,响应于所述视频违规概率大于或等于所述预设阈值,则所述第一系数和所述第二系数非零;响应于所述视频违规概率小于所述预设阈值,则所述第一系数为0。
为解决上述技术问题,本申请采用的又一个技术方案是:提供一种视频直播监控装置,包括相互耦接的存储器和处理器,所述存储器内存储有程序指令,所述处理器用于执行所述程序指令以实现上述任一实施例中所述的视频直播监控方法。
为解决上述技术问题,本申请采用的又一个技术方案是:提供一种存储装置,存储有能够被处理器运行的程序指令,所述程序指令用于实现上述任一实施例中所述的视频直播监控方法。
区别于现有技术的情况,本申请的有益效果是:本申请中提供一种视频直播监控方法,利用视频直播片段分别从视觉和听觉两个角度对直播片段进行严密监控,将当前获得的视频直播片段分为视频数据和音频数据,对两段数据分别进行违规检测,本申请所提供的方案能够从视觉和听觉两个角度对视频直播进行监控。本申请通过违规检测分别获得视频违规概率和音频违规概率,结合视频违规概率和音频违规概率获得综合违规概率,根据综合违规概率判断该视频直播片段是否违规,相比于现有技术中基于预设时间间隔的图像检测法,本申请获取视频直播片段中视频数据和音频数据的全部特征进行检测,有效避免了视频采样过程中信息丢失、特征遗漏等问题,对整个视频片段进行了违规检测,提高了视频直播监控结果的准确性。同时,本申请在判断综合违规概率与预设范围的关系的过程中,辅以人工审核的方式,当综合违规概率位于预设范围内,则通过人工审核结果判断是否违规,该方案能够大大减少人力成本,相较于传统的人工审查方法大幅提高了视频直播的监控效率。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。其中:
图1是本申请视频直播监控方法一实施方式的流程示意图;
图2是图1中步骤S102对应的一实施方式的流程示意图;
图3是图1中步骤S102对应的另一实施方式的流程示意图;
图4是本申请视频直播监控装置一实施方式的框架示意图;
图5是本申请视频直播监控装置一实施方式的结构示意图;
图6是本申请存储装置一实施方式的框架示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性的劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
请参阅图1,图1是本申请视频直播监控方法一实施方式的流程示意图,该监控方法包括:
S101:获得当前视频直播片段的视频数据以及音频数据。
具体地,在本实施例中,上述步骤S101的具体实现方式可以为:利用能够实现音画分离技术的系统或装置,获得一段时间内视频直播片段分别对应的视频数据和音频数据。在进行监控的过程中,将一个完整的视频直播实时片段分成视频数据和音频数据两部分,有利于分别从视觉和听觉两个角度对视频直播片段进行后续的违规检测,提高检测结果的准确度。
在另一实施例中,上述步骤S101之前还包括:获得直播视频中的多个样本图像,并对样本图像进行预处理;利用多个样本图像训练违规检测模型,其中,违规检测模型包括R-CNN、R-FCN、YOLO、SSD中任意一种。具体而言,上述样本图像是指含有违规信息的图像,例如,含有色情低俗信息的图像、含有衣着暴露信息的图像等,违规信息的内容在此不作具体限定。另外,样本图像采用多尺度图像,即样本图像的像素大小各不相同,其像素大小可以为40*60,100*80,50*50等,采用多尺度图像进行模型的训练有利于增强违规检测模型的鲁棒性。获取多张图像作为违规检测模型的训练集,可以从含有违规信息的其他直播片段或者含有违规信息的录播视频中截取,当然,也可以通过其他方式获取样本图像,在此不作限定。上述对样本图像的预处理具体包括对样本图像进行缩放和去噪等,由于采用的样本图像像素大小不同,需要将不同的像素尺寸归一化到统一的像素尺寸下,保证后续模型训练过程的有效进行。将样本图像中的违规信息人为框出,并输入到模型中进行离线训练,最终获得违规检测模型。其中,违规检测模型包括但不限于R-CNN、R-FCN、YOLO、SSD等一系列目标检测算法,此处不作限定。上述利用多个样本图像训练违规检测模型的方式能够提高模型的准确性,增强模型的鲁棒性,可以使得后续获得视频违规概率的结果更为精确。
上述实施方式的具体过程可以为:获取多个样本图像为X={Xi|i=1,2,…,N},其中,Xi对应视频直播中的每一样本图像,N为样本数,图像分辨率为W*H;每一样本图像对应的标签为Yi={(classj,xj,yj,wj,hj)|j=1,2,…,M},其中,M为该样本图像中违规信息矩形框的个数,class为该违规信息对应的类别,x,y,w,h分别表示该违规信息矩形框的中心点坐标及其宽高。对样本图像进行缩放预处理的具体过程可以为:将上述分辨率为W*H的样本图像按照缩放比例归一化为目标像素大小targetSize,其中,缩放比例按照如下公式计算:
Figure BDA0002839477510000051
其中,scale为缩放比例,minD=min(W,H),maxD=max(W,H),maxSize为输入模型图像的最大像素尺寸。当样本图像的最大像素尺寸大于输入模型图像的最大像素尺寸时,则需要对样本图像进行缩小处理,此时缩放比例为输入模型图像的目标大小与像素最大值的比值;其他情况下,需要对样本图像进行放大处理,此时缩放比例为目标像素大小与像素最小值的比值。样本图像的缩放均采用原比例的缩放方法,即根据样本图像中较长的一边进行缩放比例的计算。
在又一实施例中,上述步骤S101之前还可以包括:获得直播视频中的多个样本语音;利用多个样本语音分别训练声学模型和语言模型,其中,声学模型包括GMM、HMM、TDNN、RNN中任意一种,语言模型包括N-gram、RNN中任意一种。具体而言,上述样本语音是指含有违规信息的语音,例如,含有辱骂词汇的语音、含有政治敏感词汇的语音等,此处不作具体限定。样本语音中的违规信息被标注出来,将标注完成的样本语音输入到声学模型和语言模型中进行离线训练。通过上述方式,能够有效提高声学模型和语言模型的准确度,提高后续语音解码转为文本的效率。
当然,在其他实施例中,上述步骤S101之前还可以包括:利用多个样本文本训练文本分类模型,其中,所述文本分类模型包括FastText、TextCNN、LSTM、Bert中任意一种。具体而言,样本文本具体是指含有违规词汇的文本,例如,含有辱骂低俗的词汇,含有政治敏感的词汇等,此处不作具体限定。通过上述方式,能够提高文本分类模型的准确度,可以使得后续获得音频违规概率的结果更为精确。
为便于理解,以TextCNN文本分类模型为例进行上述训练过程的详细讲解。利用训练完成的词向量方法获得一个Embedding层,其形状为n*k,其中,n表示句子中的单词数,k表示每个词对应的词向量的维度。将词向量输入到网络模型的特征提取操作,最后将特征送入softmax分类层输出,经过反向传播算法训练得到文本分类模型。
S102:对视频数据和音频数据分别进行违规检测,以分别获得视频违规概率和音频违规概率。
具体地,在本实施例中,利用上述视频数据输入至训练完成的视频违规检测模型中进行违规检测,以获得其对应的视频违规概率,请参阅图2,图2是图1中步骤S102对应的一实施方式的流程示意图,上述步骤S102具体包括:
S201:将视频数据中的每个视频帧分别输入至违规检测模型中进行在线分析,以获得视频帧中含有违规信息的置信度。
S202:将所有视频帧对应的置信度中的最大值作为视频违规概率。
具体而言,上述每个视频帧通过对视频数据的解析获得,视频数据解析后形成对应的图像帧序列,按照序列顺序依次将每一帧图像进行预处理后,输入违规检测模型中进行在线分析。上述对每一帧图像的预处理包括对图像的缩放和去噪等操作,此处不作限定。上述实施方式从视觉的角度对视频直播片段进行违规检测,对视频数据中的所有图像帧依次进行检测,有效避免了采样过程中信息丢失,特征遗漏等问题,提高了检测结果的可靠性。
为便于理解,以基于YOLO算法的违规检测模型为例进行在线分析过程的详细说明。实时接收视频直播片段的视频数据,对视频数据进行解析形成对应的图像帧序列,将每一图像帧按照序列顺序依次进行缩放和去噪处理,将图像像素归一化到同一像素大小下,如像素尺寸416*416,再将每一图像帧输入到违规检测模型中进行网络在线分析。检测完成后,模型在图像上输出违规预测框,同时输出结果(C,x1,y1,x2,y2),其中,(x1,y1)和(x2,y2)表示预测框的左上角和右下角的坐标,C表示该图像含有违规信息的置信度,即违规风险,其公式为:
Figure BDA0002839477510000071
其中,Pr(Class|Object)表示预测框中的目标属于各个类别的概率,Pr(Object)表示违规信息出现的置信度,
Figure BDA0002839477510000072
表示违规预测框与样本图像违规框之间的重叠度。
在另一实施方式中,利用上述音频数据进行违规检测,以获得其对应的音频违规概率,请参阅图3,图3是图1中步骤S102对应的另一实施方式的流程示意图,上述步骤S102具体包括:
S301:将音频数据分别输入声学模型和语言模型中,以获得对应的文本数据。
具体地,利用训练完成的声学模型和语言模型,对视频直播片段中分离出的音频数据通过解码引擎进行解码,解码引擎指含有解码算法的装置或系统,解码算法是指包括基于传统WFST架构的Viterbi算法或基于端到端架构的beam search算法中的任意一种,具体不作限定,能够实现音频数据到文本数据的转换即可。
S302:将文本数据输入文本分类模型中,以获得对应的文本类别。
S303:根据文本类别获得对应的音频违规概率。
为便于理解,以TextCNN文本分类模型为例进行上述检测过程的详细讲解。将文本数据输入到TextCNN文本分类模型中,经过模型训练时形成的Embedding层得到文本数据对应的词向量,在经过文本分类模型的预测获得文本类别K,文本类别K对应的公式为:
K=argmax Sm (3)
其中,K为文本类别,Sm为softmax的输出向量,m为向量的维数。向量Sm中的m个数值表示每个文本类别分别对应的违规概率,且m个数值的总和为1。其中,文本类别K对应于softmax的输出向量Sm中的最大值。
获取文本类别K对应的softmax的值,将其作为最终输出音频违规概率M,其公式为:
M=sK (4)
上述实施方式从听觉的角度对视频直播片段进行违规检测,将音频数据转换为文本数据后进行在线分析,可以实现利用声音传播违规信息的视频直播监控,有效提高检测结果的准确度。
S103:根据所述视频违规概率和所述音频违规概率获得综合违规概率。
具体地,在本实施例中,上述步骤S103具体包括:获得视频违规概率和第一系数的第一乘积、以及音频违规概率和第二系数的第二乘积,并将第一乘积和第二乘积之和作为综合违规概率;其中,第一系数和第二系数大于0,且两者之和为1。
其中,第一系数和第二系数分别表示视频违规权重和音频违规权重,且二者之和为1,可以分别为0.7和0.3、0.5和0.5、0.4和0.6、0.25和0.75等。上述实施方式中的综合违规概率结合了视频违规概率和音频违规概率的结果,从两个角度综合体现了视频直播违规的概率,使检测结果更加具备可靠性。
进一步地,上述步骤S103之前还可以包括:响应于所述视频违规概率大于或等于所述预设阈值,则所述第一系数和所述第二系数非零;响应于所述视频违规概率小于所述预设阈值,则所述第一系数为0。在获得综合违规概率之前,利用视频违规概率与预设阈值进行比较,对监控结果进行初步判断,能够有效提高视频直播的监控效率,节约时间成本。
S104:判断综合违规概率是否在预设范围内。
S105:若是,则将当前视频直播片段发送至检测人员的终端,并接收所述检测人员的人工审核结果。
S106:否则,判断综合违规概率是否大于预设范围的最大值。
S107:若是,则输出违规报警信息。
S108:否则,不输出违规报警信息。
通过上述实施方式能够有效避免视频采样过程中信息丢失、特征遗漏等问题,提高视频直播的监控效率和准确性,大大减少人力成本。
请参阅图4,图4是本申请视频直播监控装置一实施方式的框架示意图,该监控装置包括获得模块10、检测模块12和判断模块14。其中,获得模块10用于获得当前视频直播片段的视频数据以及音频数据。检测模块12用于对视频数据和音频数据分别进行违规检测,以分别获得视频违规概率和音频违规概率。判断模块14用于根据视频违规概率和音频违规概率获得综合违规概率,判断综合违规概率与预设范围的关系,若综合违规概率大于预设范围的最大值,则输出违规报警信息;若综合违规概率小于预设范围的最小值,则不输出违规报警信息;若所述综合违规概率位于所述预设范围内,则将所述当前视频直播片段发送至检测人员的终端,并接收所述检测人员的人工审核结果。
请参阅图5,图5是本申请视频直播监控装置一实施方式的结构示意图,该监控装置20包括相互耦接的存储器200和处理器202,存储器200内存储有程序指令,处理器202用于执行程序指令以实现上述任一实施例中所提及的视频直播监控方法。
具体而言,处理器202还可以称为CPU(Central Processing Unit,中央处理单元)。处理器202可能是一种集成电路芯片,具有信号的处理能力。处理器202还可以是通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(ApplicationSpecific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable GateArray,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。另外,处理器202可以由多个集成电路芯片共同实现。
请参阅图6,图6是本申请存储装置一实施方式的框架示意图。该存储装置30存储有能够被处理器运行的程序指令300,程序指令300用于实现上述任一实施例中所提及的视频直播监控方法。其中,该程序指令300可以以软件产品的形式存储在上述存储装置中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本申请各个实施方式所述方法的全部或部分步骤。而前述的存储装置包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质,或者是计算机、服务器、手机、平板等终端设备。
总而言之,区别于现有技术的情况,本申请中提供一种视频直播监控方法,利用视频直播片段分别从视觉和听觉两个角度对直播片段进行严密监控,并同时辅以人工审查。将当前视频直播片段分为视频数据和音频数据,对两段数据分别进行违规检测,根据违规检测结果以及人工审核结果判断是否输出报警信息。相比于现有技术中基于预设时间间隔的图像检测法,本申请所提供的方案能够从多维角度对视频直播进行监控,有效避免视频采样过程中信息丢失、特征遗漏等问题,提高视频直播的监控效率和准确性,大大减少人力成本。
以上所述仅为本申请的实施方式,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利保护范围内。

Claims (10)

1.一种视频直播监控方法,其特征在于,包括:
获得当前视频直播片段的视频数据以及音频数据;
对所述视频数据和所述音频数据分别进行违规检测,以分别获得视频违规概率和音频违规概率;
根据所述视频违规概率和所述音频违规概率获得综合违规概率;
判断所述综合违规概率与预设范围的关系;
若所述综合违规概率大于所述预设范围的最大值,则输出违规报警信息;若所述综合违规概率小于所述预设范围的最小值,则不输出违规报警信息;若所述综合违规概率位于所述预设范围内,则将所述当前视频直播片段发送至检测人员的终端,并接收所述检测人员的人工审核结果。
2.根据权利要求1所述的视频直播监控方法,其特征在于,对所述视频数据进行违规检测,以获得视频违规概率的步骤包括:
将所述视频数据中的每个视频帧分别输入至违规检测模型中以获得所述视频帧中含有违规信息的置信度;
将所有视频帧对应的置信度中的最大值作为所述视频违规概率。
3.根据权利要求2所述的视频直播监控方法,其特征在于,所述获得当前视频流的视频数据以及音频数据的步骤之前,还包括:
获得直播视频中的多个样本图像,并对所述样本图像进行预处理;
利用多个所述样本图像训练违规检测模型,其中,所述违规检测模型包括R-CNN、R-FCN、YOLO、SSD中任意一种。
4.根据权利要求1所述的视频直播监控方法,其特征在于,对所述音频数据进行违规检测,以获得音频违规概率的步骤包括:
将所述音频数据分别输入声学模型和语言模型中,以获得对应的文本数据;
将所述文本数据输入文本分类模型中,以获得对应的文本类别;
根据所述文本类别获得对应的音频违规概率。
5.根据权利要求4所述的视频直播监控方法,其特征在于,所述获得当前视频流的视频数据以及音频数据的步骤之前,还包括:
获得直播视频中的多个样本语音;
利用多个所述样本语音训练所述声学模型和所述语言模型,其中,所述声学模型包括GMM、HMM、TDNN、RNN中任意一种,所述语言模型包括N-gram、RNN中任意一种。
6.根据权利要求4所述的视频直播监控方法,其特征在于,所述获得当前视频流的视频数据以及音频数据的步骤之前,还包括:
利用多个所述样本文本训练所述文本分类模型,其中,所述文本分类模型包括FastText、TextCNN、LSTM、Bert中任意一种。
7.根据权利要求1所述的视频直播监控方法,其特征在于,所述根据所述视频违规概率和所述音频违规概率获得综合违规概率的步骤包括:
获得所述视频违规概率和第一系数的第一乘积、以及所述音频违规概率和第二系数的第二乘积,并将所述第一乘积和所述第二乘积之和作为所述综合违规概率;其中,第一系数和第二系数大于或等于0,且两者之和为1。
8.根据权利要求7所述的视频直播监控方法,其特征在于,响应于所述视频违规概率大于或等于所述预设阈值,则所述第一系数和所述第二系数非零;响应于所述视频违规概率小于所述预设阈值,则所述第一系数为0。
9.一种视频直播监控装置,其特征在于,包括相互耦接的存储器和处理器,所述存储器内存储有程序指令,所述处理器用于执行所述程序指令以实现权利要求1至8中任一项所述的视频直播监控方法。
10.一种存储装置,其特征在于,存储有能够被处理器运行的程序指令,所述程序指令用于实现权利要求1至8任一项所述的视频直播监控方法。
CN202011486711.6A 2020-12-16 2020-12-16 一种视频直播监控方法及相关装置 Active CN112492343B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011486711.6A CN112492343B (zh) 2020-12-16 2020-12-16 一种视频直播监控方法及相关装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011486711.6A CN112492343B (zh) 2020-12-16 2020-12-16 一种视频直播监控方法及相关装置

Publications (2)

Publication Number Publication Date
CN112492343A true CN112492343A (zh) 2021-03-12
CN112492343B CN112492343B (zh) 2023-11-10

Family

ID=74917187

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011486711.6A Active CN112492343B (zh) 2020-12-16 2020-12-16 一种视频直播监控方法及相关装置

Country Status (1)

Country Link
CN (1) CN112492343B (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113065444A (zh) * 2021-03-26 2021-07-02 北京大米科技有限公司 一种行为检测的方法、装置、可读存储介质和电子设备
CN113315983A (zh) * 2021-05-17 2021-08-27 唐晓晖 一种5g、4g网络聚合直播帧传系统
CN113613035A (zh) * 2021-07-30 2021-11-05 广州繁星互娱信息科技有限公司 敏感信息的处理方法、装置、电子设备及存储介质
CN114140751A (zh) * 2021-12-13 2022-03-04 江苏商贸职业学院 一种考场监控方法及系统
CN114374571A (zh) * 2021-12-29 2022-04-19 广州欢城文化传媒有限公司 基于虚拟地图的语聊房健康指数监控方法及装置
CN114979727A (zh) * 2022-05-18 2022-08-30 雨果网(厦门)跨境电商有限公司 一种广告违规聚集审核系统
CN114999493A (zh) * 2022-05-07 2022-09-02 国网河北省电力有限公司建设公司 一种智能语音质检方法及电子设备
CN115086721A (zh) * 2022-08-22 2022-09-20 深圳市稻兴实业有限公司 一种基于数据分析的超高清直播系统服务监管系统
CN116822805A (zh) * 2023-08-29 2023-09-29 深圳市纬亚森科技有限公司 一种基于大数据的教育视频质量监测方法

Citations (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6501484B1 (en) * 1998-09-29 2002-12-31 Globalstreams, Inc. System and method for high definition video rescaling
CN101408943A (zh) * 2007-10-09 2009-04-15 三星电子株式会社 生成用于人脸检测的训练集的方法
CN103325249A (zh) * 2012-03-22 2013-09-25 日本电气株式会社 捕获图像处理装置和捕获图像处理方法
US20140055610A1 (en) * 2012-08-27 2014-02-27 Korea University Research And Business Foundation Indoor surveillance system and indoor surveillance method
CN106250837A (zh) * 2016-07-27 2016-12-21 腾讯科技(深圳)有限公司 一种视频的识别方法、装置和系统
CN106991423A (zh) * 2016-01-21 2017-07-28 腾讯科技(深圳)有限公司 识别规格图片中是否包含水印的方法及装置
CN107251045A (zh) * 2015-03-05 2017-10-13 欧姆龙株式会社 物体识别装置、物体识别方法及程序
CN107784651A (zh) * 2017-10-31 2018-03-09 中国矿业大学 一种基于模糊检测加权的模糊图像质量评价方法
CN109545243A (zh) * 2019-01-23 2019-03-29 北京猎户星空科技有限公司 发音质量评价方法、装置、电子设备及存储介质
CN109831697A (zh) * 2018-12-28 2019-05-31 广州华多网络科技有限公司 违规处理时长的检测方法及系统
CN109918996A (zh) * 2019-01-17 2019-06-21 平安科技(深圳)有限公司 人员违法动作识别方法、系统、计算机设备和存储介质
CN110012302A (zh) * 2018-01-05 2019-07-12 阿里巴巴集团控股有限公司 一种网络直播监测方法及装置、数据处理方法
CN110852231A (zh) * 2019-11-04 2020-02-28 云目未来科技(北京)有限公司 违规视频检测方法、装置以及存储介质
WO2020077895A1 (zh) * 2018-10-16 2020-04-23 深圳壹账通智能科技有限公司 签约意向判断方法、装置、计算机设备和存储介质
CN111324764A (zh) * 2020-02-18 2020-06-23 北京金山安全软件有限公司 一种图像检测方法、装置、电子设备及存储介质
CN111462735A (zh) * 2020-04-10 2020-07-28 网易(杭州)网络有限公司 语音检测方法、装置、电子设备及存储介质
WO2020164270A1 (zh) * 2019-02-15 2020-08-20 平安科技(深圳)有限公司 基于深度学习的行人检测方法、系统、装置及存储介质

Patent Citations (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6501484B1 (en) * 1998-09-29 2002-12-31 Globalstreams, Inc. System and method for high definition video rescaling
CN101408943A (zh) * 2007-10-09 2009-04-15 三星电子株式会社 生成用于人脸检测的训练集的方法
CN103325249A (zh) * 2012-03-22 2013-09-25 日本电气株式会社 捕获图像处理装置和捕获图像处理方法
US20140055610A1 (en) * 2012-08-27 2014-02-27 Korea University Research And Business Foundation Indoor surveillance system and indoor surveillance method
CN107251045A (zh) * 2015-03-05 2017-10-13 欧姆龙株式会社 物体识别装置、物体识别方法及程序
CN106991423A (zh) * 2016-01-21 2017-07-28 腾讯科技(深圳)有限公司 识别规格图片中是否包含水印的方法及装置
CN106250837A (zh) * 2016-07-27 2016-12-21 腾讯科技(深圳)有限公司 一种视频的识别方法、装置和系统
CN107784651A (zh) * 2017-10-31 2018-03-09 中国矿业大学 一种基于模糊检测加权的模糊图像质量评价方法
CN110012302A (zh) * 2018-01-05 2019-07-12 阿里巴巴集团控股有限公司 一种网络直播监测方法及装置、数据处理方法
WO2020077895A1 (zh) * 2018-10-16 2020-04-23 深圳壹账通智能科技有限公司 签约意向判断方法、装置、计算机设备和存储介质
CN109831697A (zh) * 2018-12-28 2019-05-31 广州华多网络科技有限公司 违规处理时长的检测方法及系统
CN109918996A (zh) * 2019-01-17 2019-06-21 平安科技(深圳)有限公司 人员违法动作识别方法、系统、计算机设备和存储介质
CN109545243A (zh) * 2019-01-23 2019-03-29 北京猎户星空科技有限公司 发音质量评价方法、装置、电子设备及存储介质
WO2020164270A1 (zh) * 2019-02-15 2020-08-20 平安科技(深圳)有限公司 基于深度学习的行人检测方法、系统、装置及存储介质
CN110852231A (zh) * 2019-11-04 2020-02-28 云目未来科技(北京)有限公司 违规视频检测方法、装置以及存储介质
CN111324764A (zh) * 2020-02-18 2020-06-23 北京金山安全软件有限公司 一种图像检测方法、装置、电子设备及存储介质
CN111462735A (zh) * 2020-04-10 2020-07-28 网易(杭州)网络有限公司 语音检测方法、装置、电子设备及存储介质

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113065444A (zh) * 2021-03-26 2021-07-02 北京大米科技有限公司 一种行为检测的方法、装置、可读存储介质和电子设备
CN113315983A (zh) * 2021-05-17 2021-08-27 唐晓晖 一种5g、4g网络聚合直播帧传系统
CN113613035A (zh) * 2021-07-30 2021-11-05 广州繁星互娱信息科技有限公司 敏感信息的处理方法、装置、电子设备及存储介质
CN114140751B (zh) * 2021-12-13 2024-02-09 江苏商贸职业学院 一种考场监控方法及系统
CN114140751A (zh) * 2021-12-13 2022-03-04 江苏商贸职业学院 一种考场监控方法及系统
CN114374571A (zh) * 2021-12-29 2022-04-19 广州欢城文化传媒有限公司 基于虚拟地图的语聊房健康指数监控方法及装置
CN114374571B (zh) * 2021-12-29 2024-04-19 广州欢城文化传媒有限公司 基于虚拟地图的语聊房健康指数监控方法及装置
CN114999493A (zh) * 2022-05-07 2022-09-02 国网河北省电力有限公司建设公司 一种智能语音质检方法及电子设备
CN114979727A (zh) * 2022-05-18 2022-08-30 雨果网(厦门)跨境电商有限公司 一种广告违规聚集审核系统
CN115086721B (zh) * 2022-08-22 2022-10-25 深圳市稻兴实业有限公司 一种基于数据分析的超高清直播系统服务监管系统
CN115086721A (zh) * 2022-08-22 2022-09-20 深圳市稻兴实业有限公司 一种基于数据分析的超高清直播系统服务监管系统
CN116822805A (zh) * 2023-08-29 2023-09-29 深圳市纬亚森科技有限公司 一种基于大数据的教育视频质量监测方法
CN116822805B (zh) * 2023-08-29 2023-12-15 北京菜鸟无忧教育科技有限公司 一种基于大数据的教育视频质量监测方法

Also Published As

Publication number Publication date
CN112492343B (zh) 2023-11-10

Similar Documents

Publication Publication Date Title
CN112492343B (zh) 一种视频直播监控方法及相关装置
US11508366B2 (en) Whispering voice recovery method, apparatus and device, and readable storage medium
CN110147726B (zh) 业务质检方法和装置、存储介质及电子装置
JP7394809B2 (ja) ビデオを処理するための方法、装置、電子機器、媒体及びコンピュータプログラム
CN113850162B (zh) 一种视频审核方法、装置及电子设备
CN110348522B (zh) 一种图像检测识别方法及系统、电子设备、图像分类网络优化方法及系统
CN111259940A (zh) 一种基于空间注意力地图的目标检测方法
US20230090590A1 (en) Speech recognition and codec method and apparatus, electronic device and storage medium
CN112017633B (zh) 语音识别方法、装置、存储介质及电子设备
JP2023530796A (ja) 認識モデルトレーニング方法、認識方法、装置、電子デバイス、記憶媒体及びコンピュータプログラム
CN114445768A (zh) 目标识别方法、装置、电子设备及存储介质
CN115376559A (zh) 基于音视频的情绪识别方法、装置及设备
CN113283396A (zh) 目标对象的类别检测方法、装置、计算机设备和存储介质
CN113297525A (zh) 网页分类方法、装置、电子设备、及存储介质
CN113140221A (zh) 语言模型融合方法、设备、介质及计算机程序产品
CN117407507A (zh) 基于大语言模型的事件处理方法、装置、设备及介质
CN116484224A (zh) 一种多模态预训练模型的训练方法、装置、介质及设备
CN115331703A (zh) 一种歌曲人声检测方法及装置
CN116129881A (zh) 语音任务处理方法、装置、电子设备及存储介质
CN111723204B (zh) 语音质检区域的校正方法、装置、校正设备及存储介质
CN115879002A (zh) 一种训练样本生成方法、模型训练方法及装置
CN114038451A (zh) 对话数据的质检方法、装置、计算机设备及存储介质
CN114724144A (zh) 文本识别方法、模型的训练方法、装置、设备及介质
CN111401317B (zh) 视频分类方法、装置、设备及存储介质
CN114092746A (zh) 一种多属性识别方法、装置、存储介质及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant