CN113382232A - 监控音视频质量的方法和装置、系统、电子设备 - Google Patents

监控音视频质量的方法和装置、系统、电子设备 Download PDF

Info

Publication number
CN113382232A
CN113382232A CN202110927179.5A CN202110927179A CN113382232A CN 113382232 A CN113382232 A CN 113382232A CN 202110927179 A CN202110927179 A CN 202110927179A CN 113382232 A CN113382232 A CN 113382232A
Authority
CN
China
Prior art keywords
audio
quality
video
video data
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110927179.5A
Other languages
English (en)
Other versions
CN113382232B (zh
Inventor
张然
夏洋
黎雄兵
郝付壮
吴沛霖
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Vhall Time Technology Co ltd
Original Assignee
Beijing Vhall Time Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Vhall Time Technology Co ltd filed Critical Beijing Vhall Time Technology Co ltd
Priority to CN202110927179.5A priority Critical patent/CN113382232B/zh
Publication of CN113382232A publication Critical patent/CN113382232A/zh
Application granted granted Critical
Publication of CN113382232B publication Critical patent/CN113382232B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N17/00Diagnosis, testing or measuring for television systems or their details
    • H04N17/004Diagnosis, testing or measuring for television systems or their details for digital television systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/75Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/60Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for measuring the quality of voice signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/233Processing of audio elementary streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
    • H04N21/23418Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/439Processing of audio elementary streams
    • H04N21/4394Processing of audio elementary streams involving operations for analysing the audio stream, e.g. detecting features or characteristics in audio streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/44008Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics in the video stream

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Library & Information Science (AREA)
  • Databases & Information Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Acoustics & Sound (AREA)
  • Biomedical Technology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Testing, Inspecting, Measuring Of Stereoscopic Televisions And Televisions (AREA)
  • Quality & Reliability (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)

Abstract

本申请提出一种监控音视频质量的方法和装置、系统、电子设备,包括获取直播流的音视频数据文件;解码音视频数据文件生成原始音频数据和原始视频数据;评价原始音频数据的音频质量;评价原始视频数据的视频质量;通过预先训练的评价模型和音频质量评价结果、视频质量评价结果获取音视频数据文件的质量评分;利用质量评分对原始视频数据进行分类分析原始视频数据质量原因;监控音频质量评价结果和/或视频质量评价结果;若音频质量评价结果和/或视频质量评价结果出现异常,则报警。根据本申请的一些实施例,以自动化的方式对音视频数据的质量评分,节省了人力,且便于排查质量问题原因,提高了工作效率。

Description

监控音视频质量的方法和装置、系统、电子设备
技术领域
本申请涉及视频直播领域,具体而言,涉及一种监控音视频质量的方法和装置、系统、电子设备。
背景技术
通常,根据直播活动生成音视频数据往往需要经历采集、前处理、编码、传输、解码、后处理和渲染播放等步骤。在前述的每一个步骤中都有可能引入质量损失,导致最终信息接受者观看到的内容变差。
目前,多利用人力对直播生成的音视频数据进行质量评分。这种方式具有很多缺点,比如,由于每个人的评判标准不同,质量评分结果受主观因素影响较大,非常消耗人力和时间,不能自动化工程化的分析音视频数据,无法在具有巨量的播放数据的工业领域推广应用。
发明内容
本申请提供了一种监控音视频质量的方法和装置、系统、电子设备,解放了人力,能够自动对对直播生成的音视频数据进行质量评分,便于行业推广应用。
根据本申请的一方面,提出一种监控音视频质量的方法,包括获取直播流的音视频数据文件;解码所述音视频数据文件生成原始音频数据和原始视频数据;评价所述原始音频数据的音频质量;评价所述原始视频数据的视频质量;通过预先训练的评价模型和音频质量评价结果、视频质量评价结果获取所述音视频数据文件的质量评分;利用所述质量评分对所述原始视频数据进行分类分析所述原始视频数据质量原因;监控所述音频质量评价结果和/或所述视频质量评价结果;若所述音频质量评价结果和/或所述视频质量评价结果出现异常,则报警。
根据一些实施例,所述预先训练的评价模型,包括获取训练用直播流的音视频数据文件及其人工质量评分;评价所述训练用直播流的音频质量;评价所述训练用直播流的视频质量;利用所述训练用直播流的音频质量评价结果、所述训练用直播流的视频质量评价结果和所述直播流的人工质量评分训练机器模型得到所述评价模型。
根据一些实施例,所述评价所述原始音频数据的音频质量,包括评估所述原始音频数据的音量;和/或评估所述原始音频数据的噪声;和/或评估所述原始音频数据的相位。
根据一些实施例,所述评价所述原始视频数据的视频质量,包括利用无参考的空域图像质量评价算法评价所述原始视频数据;和/或 利用梯度结构相似度算法评价所述原始视频数据。
根据一些实施例,所述利用无参考的空域图像质量评价算法评价所述原始视频数据,包括提取所述原始视频数据的自然场景统计信息;数据拟合所述自然场景统计信息以得到特征向量;利用预先训练的支持向量机模型和所述特征向量得到所述原始视频数据的质量评价。
根据一些实施例,所述利用梯度结构相似度算法评价所述原始视频数据包括构建所述原始视频数据的参考图像数据;提取所述原始视频数据和所述参考图像数据的梯度图像;找到所述原始视频数据的所述梯度图像中梯度信息最丰富的图像块以及所述参考图像数据的梯度图像中与之对应的图像块;计算所述原始视频数据和所述参考图像数据的所述图像块的梯度结构相似度。
根据本申请的一方面,提出一种监控音视频质量的系统,包括直播流数据库装置,用于存储直播流的音视频数据;任务分发装置,用于分发任务;缓存队列装置,用于存储所述直播流的状态数据;任务消息队列装置,用于存储所述任务分发装置分发的任务;任务消费者装置,用于从所述任务消息队列装置获取直播流的视频任务,下载所述直播流的音视频文件,利用所述音视频质量评价装置分析所述直播流的视频,利用所述直播流分析结果数据库存储所述直播流的视频的分析结果,更改所述缓存队列装置中所述直播流的状态数据。音视频质量评价装置,用于评价所述直播流的音视频质量;直播流质量分析结果数据库装置,用于存储所述直播流的音视频分析结果;检查装置,用于检查所述缓存队列装置中所述直播流的分析任务是否完成;邮件装置,用于发送今日任务量邮件和今日任务完成邮件。
根据一些实施例,前述系统还包括音视频质量可视化装置,用于将所述直播流质量分析结果数据库中存储的分析结果以可视化的方式显示出来。
根据一些实施例,所述音视频质量评价装置包括获取音视频数据模块,用于获取直播流的音视频数据文件;音视频数据解码模块,用于解码所述音视频数据文件生成原始音频数据和原始视频数据;音频质量评价模块,用于评价所述原始音频数据的音频质量;视频质量评价模块,用于评价所述原始视频数据的视频质量;获得质量评分模块,用于通过预先训练的评价模型和音频质量评价结果、视频质量评价结果获取所述音视频数据文件的质量评分;质量原因分类模块,用于利用所述质量评分对所述原始视频数据进行分类分析所述原始视频数据质量原因;监听质量评价结果模块,用于监控所述音频质量评价结果和/或所述视频质量评价结果;报警模块,用于若所述音频质量评价结果和/或所述视频质量评价结果出现异常,则报警。
根据本申请的一方面,提出一种电子设备,包括一个或多个处理器;存储装置,用于存储一个或多个程序;当所述一个或多个程序被所述一个或多个处理器执行,使得一个或多个处理器实现如前所述的方法。
根据本申请的一些示例实施例,利用训练好的评价模型对直播生成的音视频数据的质量评分,使得这种自动化音视频评价结果尽可能地与人的主观评价相统一。这种音视频数据的自动化质量评价方法即节省了人力,又方便在有大批量直播产生的音视频数据工业中应用推广。通过对质量评价结果进行监控并报警,便于工作人员第一时间排查质量问题原因。利用得到的质量评分对音视频数据质量问题进行分类排查质量问题原因,提高了工作效率。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍。
图1示出根据本申请示例实施例的一种监控音视频质量的方法流程图。
图2示出根据本申请示例实施例的一种评价模型的训练方法流程图。
图3示出根据本申请示例实施例的一种监控音视频质量的系统框图。
图4示出根据本申请示例实施例的一种音视频质量评价装置框图。
图5示出根据本申请示例实施例的一种电子设备的框图。
图6示出利用NRSS算法得到的视频评价指标随时间变化示意图。
图7示出根据本申请示例实施例的一种直播系统框图。
具体实施方式
现在将参考附图更全面地描述示例实施例。然而,示例实施例能够以多种形式实施,且不应被理解为限于在此阐述的实施例;相反,提供这些实施例使得本申请将全面和完整,并将示例实施例的构思全面地传达给本领域的技术人员。在图中相同的附图标记表示相同或类似的部分,因而将省略对它们的重复描述。
所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中,提供许多具体细节从而给出对本公开的实施例的充分理解。然而,本领域技术人员将意识到,可以实践本公开的技术方案而没有这些特定细节中的一个或更多,或者可以采用其它的方式、组元、材料、装置或操作等。在这些情况下,将不详细示出或描述公知结构、方法、装置、实现、材料或者操作。
附图中所示的流程图仅是示例性说明,不是必须包括所有的内容和操作/步骤,也不是必须按所描述的顺序执行。例如,有的操作/步骤还可以分解,而有的操作/步骤可以合并或部分合并,因此实际执行的顺序有可能根据实际情况改变。
本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别不同对象,而不是用于描述特定顺序。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其他步骤或单元。
图1示出根据本申请示例实施例的监控音视频质量的方法流程图。下面参照图1,对根据本申请示例实施例的一种监控音视频质量的方法进行详细说明。
参见图1,在步骤S101,获取直播流的音视频数据文件。
根据本申请的一些实施例,既可以对正在直播的音视频数据进行质量评价,也可以对历史直播产生的音视频数据进行质量评价。
在步骤S103,解码音视频数据文件生成原始音频数据和原始音频数据。
由于导致音频数据和视频数据产生质量问题的因素不同,因此需要分离音视频数据文件的音频数据和音频数据,并对分离的音频数据和音频数据分别进行质量分析,查找产生质量问题的原因。
根据本申请的一些实施例,利用步骤S103,将步骤S101获取的直播流的音视频数据文件分离为原始音频数据和原始视频数据。
在步骤S105,评价原始音频数据的音频质量。
直播流的音视频数据的音频质量问题多是由于设备问题、声场环境等原因导致。直播流的音视频数据的音频质量问题主要分为两类:一是采集端声音反相问题,通常会导致在部分播放终端由于软硬件支持特性而出现声音消失或严重失真的现象。二是噪声过大问题,通常是由于采集设备本身音质不够好,或者采集环境有较大的噪声干扰,降噪模块又没有正常工作导致。
根据本申请的一些示例实施例,评价原始音频数据的音频质量包括评估原始音频数据的音量、评估原始音频数据的噪声和评估原始音频数据的相位。
根据一些实施例,评估原始音频数据的音量是通过声音的能量值确定,用于评判当前是否存在声音过爆的问题。一般,音量从低到高分为默音、弱音、适度、过爆等。考虑到采样精度的多样性,系统使用均方根(RMS)振幅(单位为dB),来表述音量,取值范围为(-∞,0]。其中,(-∞,-36]为静音、(-36,-18]为弱音、(-18,-6]为适度、(-6,-3]为过强及(-3,0]为过爆。
根据一些实施例,评估原始音频数据的噪声是通过对输入音频的极弱音区段进行识别,得到的此类音频数据通常被认为大概率主要是由声场环境的噪声所构成。将此部分声音数据做频谱分析,与典型噪声频谱做比较,当置信度超过阈值,例如75%,则认为当前提取到了噪声数据,进行特征记录,例如,信噪比估计值、频谱能量分布概率和频谱能量稳定性等特征,并输出能量水平作为当前时刻的噪声水平。同时,后续输入的音频会不断更新当前记录的噪声数据特征。
声音反相会使人耳丧失对立体音的空间感,也会在部分播放设备上造成失真。部分播放设备在播放相位差过大的双声道数据时,例如,播放相位差为90°~ 270°时,会出现声音衰减、失真等问题。根据一些实施例,声音相位检测是通过比较各个声道数据的相位差,当两个声道的相位过大时进行标记。
在步骤S107,评价原始视频数据的视频质量。
根据本申请的一些示例实施例,利用无参考的空域图像质量评价算法评价原始视频数据;和/或 利用梯度结构相似度算法评价原始视频数据。
根据一些实施例,无参考的空域图像质量评价算法包括BRISQUE(BRISQUE,Blind/Referenceless Image Spatial QUality Evaluator)。
BRISQUE算法是从图像中提取评价原始视频数据的自然场景统计信息,MSCN(MSCN,mean subtracted contrast normalized coefficients) 系数。数据拟合自然场景统计信息以得到特征向量,也即将MSCN系数拟合成非对称性广义高斯分布(AGGD ,asymmetric generalized Gaussian distribution),提取拟合的高斯分布的特征向量。
利用预先训练的支持向量机模型和特征向量得到原始视频数据的质量评价,也即将拟合的高斯分布的特征向量输入到支持向量机中做回归,从而得到原始视频数据的质量评价。
根据一些实施例,梯度结构相似度算法包括NRSS(NRSS,No-ReferenceStructural Sharpness)。NRSS算法是以有参考的SSIM(SSIM,Structural Similarity)算法为基础,利用SSIM算法的结构相似度思想,结合人眼视觉系统对边缘信息更为敏感的特点进行算法设计,用于衡量图像的结构梯度相似度,以判断图像是否存在模糊。
NRSS算法包括对原始视频数据进行低通滤波,得到原始视频数据的参考图像数据。根据一些实施例,低通滤波器可以选择7x7大小的均值滤波器,也可以通过控制滤波器的参数来调整算法的灵敏度。由于人眼对水平方向和垂直方向上的边缘信息比较敏感,根据一些实施例,利用索贝尔算子分别提取原始视频数据和参考图像数据的梯度信息以分别得到原始视频数据的梯度图像。将原始视频数据的梯度图像分块,并计算方差,方差越大说明梯度信息越丰富,以得到原始视频数据的梯度图像中梯度信息最丰富的图像块。利用原始视频数据的图像块,找到与之对应的参考图像数据的梯度图像中图像块。计算原始视频数据的图像块和参考图像数据的图像块的结构相似度,也即原始视频数据的梯度结构相似度算法评价。
在步骤S109,通过预先训练的评价模型和音频质量评价结果、视频质量评价结果获取所述音视频数据文件的质量评分。
根据本申请的一些实施例,评价模型是通过对一些音视频数据进行如步骤S105的音频质量评价和步骤S107的视频质量评价后,训练评价模型,使得评价模型的质量评分和音视频数据的人工评分尽可能一致而得到。
在步骤S111,利用S109获得的质量评分,对原始视频数据进行分类,以分析原始视频数据质量原因。
在直播系统中,影响音视频质量的因素有多种,比如码率配置、场景类型及码控算法等系统参数,去噪、回声消除及锐化等数据处理模块及推流终端类型等。
根据本申请的一些实施例,将步骤S111获得的质量评分与音视频的其他描述属性相关联,如视频分辨率、视频帧率、发起方式、音频采样率、编解码格式和视频场景类型等,并对原始视频数据进行分类,查找同一类原始视频数据出现质量问题的原因。例如,在同一业务参数配置和处理逻辑下, 720p分辨率移动端推起的活动出现画质差的比例显著高于其他类型的视频,经分析发现,出现前述问题的原因在于移动端在此分辨率下的码率配置偏低。
在S113,监控音频质量评价结果和/或视频质量评价结果。
根据本申请的一些实施例,由于直播活动的场景和视频采集设备相对固定,因此认为大多数情况下音视频数据的画质一般保持相对稳定,当视频评价指标出现短时间快速变化时,则表示当前的时间点可能存在码率不足或解码错误等原因导致画面内容恶化。如图6所示,为利用NRSS算法得到的视频评价指标随时间变化示意图,图6中箭头所示的时刻,视频评价指标发生了短时快速变化,说明当前的时间点可能存在码率不足或解码错误等原因导致画面内容恶化。
音频问题与视频问题不同,音频数据占用的带宽较低,出现因带宽、码率不足导致画质损失的情况较少,更多是由设备问题和声场环境问题导致。如采集端声音反相问题会导致部分播放终端由于软硬件支持特性而出现声音消失或严重失真的现象,由于采集设备本身音质不好或采集环境有较大的噪声干扰及降噪模块没有正常工作等原因导致出现噪声过大的问题。
在S115,若音频质量评价结果和/或视频质量评价结果出现异常,则报警。
根据本申请的一些实施例,一旦在步骤S113检测到如前所述的问题,即报警,以警示后台工作人员尽快响应。
以上参照图1的技术方案,通过利用训练好的评价模型对直播生成的音视频数据的质量评分,使得这种自动化音视频评价结果尽可能地与人的主观评价相统一。这种音视频数据的自动化质量评价方法即节省了人力,又方便在有大批量直播产生的音视频数据工业中应用推广。通过对质量评价结果进行监控并报警,便于工作人员第一时间排查质量问题原因。利用得到的质量评分对音视频数据质量问题进行分类排查质量问题原因,提高了工作效率。
图2示出根据本申请示例实施例的一种评价模型的训练方法流程图。下面参照图2,对根据本申请示例实施例的一种评价模型的训练方法流程图进行详细说明。
根据本身的一些实施例,评价模型包括支撑向量机模型。
在步骤S201,获取训练用直播流的音视频数据文件及其人工质量评分。
根据本申请的一些实施例,训练用直播流的音视频数据文件既可以是正在直播的音视频数据,也可以直播产生的历史音视频数据。
根据一些实施例,需要在步骤S201之前对获取的训练用直播流的音视频数据文件进行人工质量评分。
在步骤S203,评价训练用直播流的音频质量。
根据本申请的一些实施例,利用如步骤S105所述的方法对训练用直播流的音频质量进行评价。
在步骤S205,评价训练用直播流的视频质量。
根据本申请的一些实施例,利用如步骤S107所述的方法训练用直播流的视频质量进行评价。
将步骤S203和步骤S205得到的质量评价结果输入评价模型中得到质量评分,并将质量评分和训练用直播流的人工评分比较。待质量评分和训练用直播流的人工评分误差在可接受范围内。根据一些实施例,使用皮尔逊线性相关系数(PLCC)和斯皮尔曼等级顺序相关系数(SROCC)两个指标评价当前训练结果是否足够接近人工主观评价结果。皮尔逊线性相关系数和斯皮尔曼等级顺序相关系数的值越高表示当前训练结果越接近人工评价。例如, 皮尔逊线性相关系数和斯皮尔曼等级顺序相关系数高于0.85则认为合格,表示训练评价模型已训练完成。
根据一些实施例,评价模型在应用中,如果通过其得到的质量评分和人工评价结果有偏差时,可提供反馈,可帮助评价模型进行动态更新。
以上参照图2的技术方案,通过对评价模型不断演化,使得利用评价模型得到的音视频数据的质量评分尽可能和人工评分相一致,利用自动化的方式代替人工,以克服人的主观评价不一致的问题,更适合在巨量的直播数据中推广应用。
图3示出根据本申请示例实施例的一种监控音视频质量的系统框图。下面参照图3,对根据本申请示例实施例的一种监控音视频质量的系统进行详细说明。
一种监控音视频质量的系统包括直播流数据库装置301、任务分发装置303、缓存队列装置305、任务消息队列装置307、任务消费者装置309、音视频质量评价装置311、直播流分析结果数据库装置313、检查装置315、邮件装置317。
根据一些实施例,图3所示的一种监控音视频质量的系统包括Celery分布式系统架构。
直播流数据库装置301用于存储直播流的音视频数据及视频的描述信息,例如直播流音视频的分辨率、视频帧率、编码方式、直播市场和/或直播流开始/结束时间等。
任务分发装置303用于产生任务并将任务发送到任务消息队列装置307中。例如,每个直播流的音视频数据分发一个任务。
缓存队列装置305用于存储直播流的音视频数据的状态。
根据一些实施例,缓存队列装置包括Redis缓存队列。根据一些实施例,在将直播流的音视频数据存入缓存队列时,可以存储一个任务是否完成的任务标记。例如,存储形式为key-value结构,其中key的格式为 [直播流日期] +“%%”+media_type + ID号 ,value为Status,其中media_type 为直播流的音视频文件分类,包括录制的视频格式为flv和/或点播的视频源格式为hls。Status 为直播流音视频文件的分析状态,包括未完成、已完成及任务执行失败。
任务消息队列装置307用于存储任务分发装置分发的任务。可以根据任务消息队列装置307中任务数量创建任务消费者装置309。根据一些实施例,任务消息队列装置307包括Rabbitmq任务队列。
任务消费者装置309用于从任务消息队列装置307获取任务,并解析该任务中对应的直播流的音视频数据文件存储地址,并下载该音视频数据文件。待音视频数据文件下载完成后,利用音视频质量评价装置311对音视频数据文件进行分析,并将分析结果存储到直播流分析结果数据库装置313中。最后将音视频数据文件的分析状态更新到缓存队列装置305中。例如,如果前述过程成功执行,则将缓存队列装置305中对应的音视频数据文件状态更新为已完成。
音视频质量评价装置311用于评价直播流的音视频质量。
直播流分析结果数据库装置313用于存储直播流的音视频分析结果。根据一些实施例,直播流分析结果数据库装置包括MongoDB。
检查装置315用于检查缓存队列装置305中直播流的分析任务是否完成。如果全部完成,利用邮件装置317发送今日任务完成邮件。根据一些实施例,检查装置315可以采用异步定时的方式启动检查缓存队列装置305中直播流的分析任务是否完成。
邮件装置317用于邮件,例如,发送今日任务量邮件和今日任务完成邮件。
根据一些实施例,一种监控音视频质量的系统还包括音视频质量可视化装置,用于将直播流分析结果数据库313中存储的分析结果以可视化的方式显示出来。
以上参照图3所示的技术方案,通过分布式任务处理系统进行直播流音视频数据质量分析以及以可视化的方式展示分析结果,使得分析结果更直观,更便于数据分析以及指导优化流媒体参数配置和调整处理策略。
图4示出根据本申请示例实施例的一种音视频质量评价装置框图。下面参照图4,对根据本申请示例实施例的一种音视频质量评价装置框图进行详细说明。
一种音视频质量评价装置包括获取音视频数据模块401、音视频数据解码模块403、音频质量评价模块405、视频质量评价模块407、获得质量评分模块409、质量原因分类模块411、监听质量评价结果模块413和报警模块415。
获取音视频数据模块401,用于获取直播流的音视频数据文件。音视频数据解码模块403,用于解码音视频数据文件生成原始音频数据和原始视频数据。音频质量评价模块405,用于评价原始音频数据的音频质量。视频质量评价模块407,用于评价原始视频数据的视频质量。获得质量评分模块409,用于通过预先训练的评价模型和音频质量评价结果、视频质量评价结果获取所述音视频数据文件的质量评分。质量原因分类模块411,用于利用所述质量评分对所述原始视频数据进行分类分析所述原始视频数据质量原因。监听质量评价结果模块413用于监控音频质量评价结果和/或视频质量评价结果。报警模块415用于若音频质量评价结果和/或所述视频质量评价结果出现异常,报警。
图7示出根据本申请示例实施例的一种直播系统框图。下面参照图7,对根据本申请示例实施例的一种直播系统进行详细说明。
参见图7所示的直播系统包括录制直播视频模块701,音视频评价监控模块703和前端显示模块705。
录制直播视频模块701用于提供直播推流、分发及录制服务。
音视频评价监控模块703通过分布式任务处理系统进行音视频质量的分析,实现如图3所示的功能。
前端显示模块705对音视频评价监控模块703的分析结果进行渲染并呈现在终端。
以上参照图7所示的技术方法,通过提出一种直播流程的音视频质量的分析框架,能够直观方便的分析和评价直播活动的音视频质量。随着此套系统不断积累的直播视频质量的统计数据,有助进行数据分析,帮助指导优化流媒体参数配置与媒体处理策略。为用户提供更稳定的直播平台,节约用户时间、降低人工成本。随着时间的推移,即使网络环境发生了变化,图7所示的直播系统也能提供持续的监控和优化,从而制定音视频质量等指标的优化策略。
下面参照图5来描述根据本申请的这种实施方式的电子设备200。图5显示的电子设备200仅仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。
如图5所示,电子设备200以通用计算设备的形式表现。电子设备200的组件可以包括但不限于:至少一个处理单元210、至少一个存储单元220、连接不同系统组件(包括存储单元220和处理单元210)的总线230、显示单元240等。其中,存储单元存储有程序代码,程序代码可以被处理单元210执行,使得处理单元210执行本说明书描述的根据本申请各种示例性实施方式的方法。例如,处理单元210可以执行如图1中所示的方法。
存储单元220可以包括易失性存储单元形式的可读介质,例如随机存取存储单元(RAM)2201和/或高速缓存存储单元2202,还可以进一步包括只读存储单元(ROM)2203。
存储单元220还可以包括具有一组(至少一个)程序模块2205的程序/实用工具2204,这样的程序模块2205包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
总线230可以为表示几类总线结构中的一种或多种,包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。
电子设备200也可以与一个或多个外部设备300(例如键盘、指向设备、蓝牙设备等)通信,还可与一个或者多个使得用户能与该电子设备200交互的设备通信,和/或与使得该电子设备200能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口250进行。并且,电子设备200还可以通过网络适配器260与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。网络适配器260可以通过总线230与电子设备200的其它模块通信。应当明白,尽管图中未示出,可以结合电子设备200使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
通过以上的实施方式的描述,本领域的技术人员易于理解,这里描述的示例实施方式可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。根据本申请实施方式的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、或者网络设备等)执行根据本申请实施方式的上述方法。
软件产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
计算机可读存储介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。可读存储介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。可读存储介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、有线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言的任意组合来编写用于执行本申请操作的程序代码,程序设计语言包括面向对象的程序设计语言—诸如Java、C++等,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络,包括局域网(LAN)或广域网(WAN),连接到用户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被一个该设备执行时,使得该计算机可读介质实现前述功能。
本领域技术人员可以理解上述各模块可以按照实施例的描述分布于装置中,也可以进行相应变化唯一不同于本实施例的一个或多个装置中。上述实施例的模块可以合并为一个模块,也可以进一步拆分成多个子模块。
根据本申请的一些示例实施例,利用训练好的评价模型对直播生成的音视频数据的质量评分,使得这种自动化音视频评价结果尽可能地与人的主观评价相统一。这种音视频数据的自动化质量评价方法即节省了人力,又方便在有大批量直播产生的音视频数据工业中应用推广。通过对质量评价结果进行监控并报警,便于工作人员第一时间排查质量问题原因。利用得到的质量评分对音视频数据质量问题进行分类排查质量问题原因,提高了工作效率。
以上对本申请实施例进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明仅用于帮助理解本申请的方法及其核心思想。同时,本领域技术人员依据本申请的思想,基于本申请的具体实施方式及应用范围上做出的改变或变形之处,都属于本申请保护的范围。综上所述,本说明书内容不应理解为对本申请的限制。

Claims (10)

1.一种监控音视频质量的方法,其特征在于,包括:
获取直播流的音视频数据文件;
解码所述音视频数据文件生成原始音频数据和原始视频数据;
评价所述原始音频数据的音频质量;
评价所述原始视频数据的视频质量;
通过预先训练的评价模型和音频质量评价结果、视频质量评价结果获取所述音视频数据文件的质量评分;
利用所述质量评分对所述原始视频数据进行分类分析所述原始视频数据质量原因;
监控所述音频质量评价结果和/或所述视频质量评价结果;
若所述音频质量评价结果和/或所述视频质量评价结果出现异常,则报警。
2.根据权利要求1所述的方法,其特征在于,所述预先训练的评价模型,包括:
获取训练用直播流的音视频数据文件及其人工质量评分;
评价所述训练用直播流的音频质量;
评价所述训练用直播流的视频质量;
利用所述训练用直播流的音频质量评价结果、所述训练用直播流的视频质量评价结果和所述直播流的人工质量评分训练机器模型得到所述评价模型。
3.根据权利要求1所述的方法,其特征在于,所述评价所述原始音频数据的音频质量,包括:
评估所述原始音频数据的音量;和/或
评估所述原始音频数据的噪声;和/或
评估所述原始音频数据的相位。
4.根据权利要求1所述的方法,其特征在于,所述评价所述原始视频数据的视频质量,包括:
利用无参考的空域图像质量评价算法评价所述原始视频数据;和/或
利用梯度结构相似度算法评价所述原始视频数据。
5.根据权利要求4所述的评价方法,其特征在于,所述利用无参考的空域图像质量评价算法评价所述原始视频数据,包括:
提取所述原始视频数据的自然场景统计信息;
数据拟合所述自然场景统计信息以得到特征向量;
利用预先训练的支持向量机模型和所述特征向量得到所述原始视频数据的质量评价。
6.根据权利要求4所述的评价方法,其特征在于,所述利用梯度结构相似度算法评价所述原始视频数据包括:
构建所述原始视频数据的参考图像数据;
提取所述原始视频数据和所述参考图像数据的梯度图像;
找到所述原始视频数据的所述梯度图像中梯度信息最丰富的图像块以及所述参考图像数据的梯度图像中与之对应的图像块;
计算所述原始视频数据和所述参考图像数据的所述图像块的梯度结构相似度。
7.一种监控音视频质量的系统,其特征在于,包括:
直播流数据库装置,用于存储直播流的音视频数据;
任务分发装置,用于分发任务;
缓存队列装置,用于存储所述直播流的状态数据;
任务消息队列装置,用于存储所述任务分发装置分发的任务;
任务消费者装置,用于
从所述任务消息队列装置获取直播流的视频任务;
下载所述直播流的音视频文件;
利用所述音视频质量评价装置分析所述直播流的视频;
利用所述直播流分析结果数据库存储所述直播流的视频的分析结果;
更改所述缓存队列装置中所述直播流的状态数据;
音视频质量评价装置,用于评价所述直播流的音视频质量;
直播流质量分析结果数据库装置,用于存储所述直播流的音视频分析结果;
检查装置,用于检查所述缓存队列装置中所述直播流的分析任务是否完成;
邮件装置,用于发送今日任务量邮件和今日任务完成邮件。
8.根据权利要求7所述的系统,其特征在于,所述系统还包括:
音视频质量可视化装置,用于将所述直播流质量分析结果数据库中存储的分析结果以可视化的方式显示出来。
9.根据权利要求8所述的系统,其特征在于,所述音视频质量评价装置包括:
获取音视频数据模块,用于获取直播流的音视频数据文件;
音视频数据解码模块,用于解码所述音视频数据文件生成原始音频数据和原始视频数据;
音频质量评价模块,用于评价所述原始音频数据的音频质量;
视频质量评价模块,用于评价所述原始视频数据的视频质量;
获得质量评分模块,用于通过预先训练的评价模型和音频质量评价结果、视频质量评价结果获取所述音视频数据文件的质量评分;
质量原因分类模块,用于利用所述质量评分对所述原始视频数据进行分类分析所述原始视频数据质量原因;
监听质量评价结果模块,用于监控所述音频质量评价结果和/或所述视频质量评价结果;
报警模块,用于若所述音频质量评价结果和/或所述视频质量评价结果出现异常,则报警。
10.一种电子设备,其特征在于,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得一个或多个处理器实现如权利要求1-6中任一所述的方法。
CN202110927179.5A 2021-08-12 2021-08-12 监控音视频质量的方法和装置、系统、电子设备 Active CN113382232B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110927179.5A CN113382232B (zh) 2021-08-12 2021-08-12 监控音视频质量的方法和装置、系统、电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110927179.5A CN113382232B (zh) 2021-08-12 2021-08-12 监控音视频质量的方法和装置、系统、电子设备

Publications (2)

Publication Number Publication Date
CN113382232A true CN113382232A (zh) 2021-09-10
CN113382232B CN113382232B (zh) 2021-11-19

Family

ID=77577032

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110927179.5A Active CN113382232B (zh) 2021-08-12 2021-08-12 监控音视频质量的方法和装置、系统、电子设备

Country Status (1)

Country Link
CN (1) CN113382232B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113727100A (zh) * 2021-09-30 2021-11-30 北京达佳互联信息技术有限公司 音视频通信质量的诊断方法及装置
CN117793339A (zh) * 2023-12-28 2024-03-29 广州市维博网络信息科技有限公司 基于人工智能的视频质量诊断系统

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102421008A (zh) * 2011-12-07 2012-04-18 浙江捷尚视觉科技有限公司 视频质量智能检测系统
CN103533367A (zh) * 2013-10-23 2014-01-22 传线网络科技(上海)有限公司 一种无参考视频质量评价方法及装置
CN105578203A (zh) * 2016-01-15 2016-05-11 北京赛特斯信息科技股份有限公司 视频文件质量检测系统及方法
US20180115475A1 (en) * 2016-10-20 2018-04-26 Netscout Systems, Inc Method for assessing the perceived quality of adaptive video streaming
CN110582008A (zh) * 2019-09-30 2019-12-17 北京奇艺世纪科技有限公司 一种视频质量评价方法及装置
CN111355949A (zh) * 2020-03-12 2020-06-30 上海交通大学 音视频多媒体数据库的构建及多媒体主观质量评价方法
CN111479106A (zh) * 2020-03-12 2020-07-31 上海交通大学 一二维质量描述子融合的音视频联合质量评价方法及终端
CN111479105A (zh) * 2020-03-12 2020-07-31 上海交通大学 一种视频及音频联合质量评价方法和装置
CN111479107A (zh) * 2020-03-12 2020-07-31 上海交通大学 基于自然音视频统计的无参考音视频联合质量评价方法

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102421008A (zh) * 2011-12-07 2012-04-18 浙江捷尚视觉科技有限公司 视频质量智能检测系统
CN103533367A (zh) * 2013-10-23 2014-01-22 传线网络科技(上海)有限公司 一种无参考视频质量评价方法及装置
CN105578203A (zh) * 2016-01-15 2016-05-11 北京赛特斯信息科技股份有限公司 视频文件质量检测系统及方法
US20180115475A1 (en) * 2016-10-20 2018-04-26 Netscout Systems, Inc Method for assessing the perceived quality of adaptive video streaming
CN110582008A (zh) * 2019-09-30 2019-12-17 北京奇艺世纪科技有限公司 一种视频质量评价方法及装置
CN111355949A (zh) * 2020-03-12 2020-06-30 上海交通大学 音视频多媒体数据库的构建及多媒体主观质量评价方法
CN111479106A (zh) * 2020-03-12 2020-07-31 上海交通大学 一二维质量描述子融合的音视频联合质量评价方法及终端
CN111479105A (zh) * 2020-03-12 2020-07-31 上海交通大学 一种视频及音频联合质量评价方法和装置
CN111479107A (zh) * 2020-03-12 2020-07-31 上海交通大学 基于自然音视频统计的无参考音视频联合质量评价方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113727100A (zh) * 2021-09-30 2021-11-30 北京达佳互联信息技术有限公司 音视频通信质量的诊断方法及装置
CN117793339A (zh) * 2023-12-28 2024-03-29 广州市维博网络信息科技有限公司 基于人工智能的视频质量诊断系统

Also Published As

Publication number Publication date
CN113382232B (zh) 2021-11-19

Similar Documents

Publication Publication Date Title
CN113382232B (zh) 监控音视频质量的方法和装置、系统、电子设备
CN109286825B (zh) 用于处理视频的方法和装置
CN103856789B (zh) 基于用户行为分析实现ott业务质量保障的系统及方法
US8402503B2 (en) Interactive program manager and methods for presenting program content
CN114302159B (zh) 一种直播间异常的监控方法、装置、设备以及存储介质
CN108235004B (zh) 视频播放性能测试方法、装置和系统
CN114071232B (zh) 音视频质量可视化方法及其装置、设备、介质、产品
CN107912084A (zh) 基于路径的数据中断检测
CN111277846A (zh) 一种直播的异常定位方法、装置、计算机设备和存储介质
CN109859078A (zh) 一种学生学习行为分析干预方法、装置及系统
US20200145723A1 (en) Filtering of content in near real time
JP7567028B2 (ja) ターゲットビデオを生成するための方法、装置、サーバ及び媒体
CN101888569A (zh) 一种iptv视频业务监控方法及系统
CN112434178A (zh) 图像分类方法、装置、电子设备和存储介质
CN110191356A (zh) 视频审核方法、装置和电子设备
CN106789209A (zh) 异常处理方法和装置
US8908538B1 (en) Impairment discovery using automatic geographical clustering
CN114419502A (zh) 一种数据分析方法、装置及存储介质
CN109324911A (zh) 用户行为自动检测智能屏幕抓屏系统
CN111507870A (zh) 基于在线教育的演讲展示方法、系统、设备及存储介质
CN113411672B (zh) 通信质量评估方法、装置、可读存储介质及电子设备
CN113473116B (zh) 一种直播质量监测方法、装置及介质
CN112312208A (zh) 多媒体信息的处理方法、装置、存储介质和电子设备
CN115134666B (zh) 一种直播卡顿检测方法、系统、设备和存储介质
CN117690458B (zh) 一种基于电话通信的智能语音质检系统及其质检方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant