CN113382232A

CN113382232A - 监控音视频质量的方法和装置、系统、电子设备

Info

Publication number: CN113382232A
Application number: CN202110927179.5A
Authority: CN
Inventors: 张然; 夏洋; 黎雄兵; 郝付壮; 吴沛霖
Original assignee: Beijing Vhall Time Technology Co ltd
Current assignee: Beijing Vhall Time Technology Co ltd
Priority date: 2021-08-12
Filing date: 2021-08-12
Publication date: 2021-09-10
Anticipated expiration: 2041-08-12
Also published as: CN113382232B

Abstract

本申请提出一种监控音视频质量的方法和装置、系统、电子设备，包括获取直播流的音视频数据文件；解码音视频数据文件生成原始音频数据和原始视频数据；评价原始音频数据的音频质量；评价原始视频数据的视频质量；通过预先训练的评价模型和音频质量评价结果、视频质量评价结果获取音视频数据文件的质量评分；利用质量评分对原始视频数据进行分类分析原始视频数据质量原因；监控音频质量评价结果和/或视频质量评价结果；若音频质量评价结果和/或视频质量评价结果出现异常，则报警。根据本申请的一些实施例，以自动化的方式对音视频数据的质量评分，节省了人力，且便于排查质量问题原因，提高了工作效率。

Description

监控音视频质量的方法和装置、系统、电子设备

技术领域

本申请涉及视频直播领域，具体而言，涉及一种监控音视频质量的方法和装置、系统、电子设备。

背景技术

通常，根据直播活动生成音视频数据往往需要经历采集、前处理、编码、传输、解码、后处理和渲染播放等步骤。在前述的每一个步骤中都有可能引入质量损失，导致最终信息接受者观看到的内容变差。

目前，多利用人力对直播生成的音视频数据进行质量评分。这种方式具有很多缺点，比如，由于每个人的评判标准不同，质量评分结果受主观因素影响较大，非常消耗人力和时间，不能自动化工程化的分析音视频数据，无法在具有巨量的播放数据的工业领域推广应用。

发明内容

本申请提供了一种监控音视频质量的方法和装置、系统、电子设备，解放了人力，能够自动对对直播生成的音视频数据进行质量评分，便于行业推广应用。

根据本申请的一方面，提出一种监控音视频质量的方法，包括获取直播流的音视频数据文件；解码所述音视频数据文件生成原始音频数据和原始视频数据；评价所述原始音频数据的音频质量；评价所述原始视频数据的视频质量；通过预先训练的评价模型和音频质量评价结果、视频质量评价结果获取所述音视频数据文件的质量评分；利用所述质量评分对所述原始视频数据进行分类分析所述原始视频数据质量原因；监控所述音频质量评价结果和/或所述视频质量评价结果；若所述音频质量评价结果和/或所述视频质量评价结果出现异常，则报警。

根据一些实施例，所述预先训练的评价模型，包括获取训练用直播流的音视频数据文件及其人工质量评分；评价所述训练用直播流的音频质量；评价所述训练用直播流的视频质量；利用所述训练用直播流的音频质量评价结果、所述训练用直播流的视频质量评价结果和所述直播流的人工质量评分训练机器模型得到所述评价模型。

根据一些实施例，所述评价所述原始音频数据的音频质量，包括评估所述原始音频数据的音量；和/或评估所述原始音频数据的噪声；和/或评估所述原始音频数据的相位。

根据一些实施例，所述评价所述原始视频数据的视频质量，包括利用无参考的空域图像质量评价算法评价所述原始视频数据；和/或利用梯度结构相似度算法评价所述原始视频数据。

根据一些实施例，所述利用无参考的空域图像质量评价算法评价所述原始视频数据，包括提取所述原始视频数据的自然场景统计信息；数据拟合所述自然场景统计信息以得到特征向量；利用预先训练的支持向量机模型和所述特征向量得到所述原始视频数据的质量评价。

根据一些实施例，所述利用梯度结构相似度算法评价所述原始视频数据包括构建所述原始视频数据的参考图像数据；提取所述原始视频数据和所述参考图像数据的梯度图像；找到所述原始视频数据的所述梯度图像中梯度信息最丰富的图像块以及所述参考图像数据的梯度图像中与之对应的图像块；计算所述原始视频数据和所述参考图像数据的所述图像块的梯度结构相似度。

根据本申请的一方面，提出一种监控音视频质量的系统，包括直播流数据库装置，用于存储直播流的音视频数据；任务分发装置，用于分发任务；缓存队列装置，用于存储所述直播流的状态数据；任务消息队列装置，用于存储所述任务分发装置分发的任务；任务消费者装置，用于从所述任务消息队列装置获取直播流的视频任务，下载所述直播流的音视频文件，利用所述音视频质量评价装置分析所述直播流的视频，利用所述直播流分析结果数据库存储所述直播流的视频的分析结果，更改所述缓存队列装置中所述直播流的状态数据。音视频质量评价装置，用于评价所述直播流的音视频质量；直播流质量分析结果数据库装置，用于存储所述直播流的音视频分析结果；检查装置，用于检查所述缓存队列装置中所述直播流的分析任务是否完成；邮件装置，用于发送今日任务量邮件和今日任务完成邮件。

根据一些实施例，前述系统还包括音视频质量可视化装置，用于将所述直播流质量分析结果数据库中存储的分析结果以可视化的方式显示出来。

根据一些实施例，所述音视频质量评价装置包括获取音视频数据模块，用于获取直播流的音视频数据文件；音视频数据解码模块，用于解码所述音视频数据文件生成原始音频数据和原始视频数据；音频质量评价模块，用于评价所述原始音频数据的音频质量；视频质量评价模块，用于评价所述原始视频数据的视频质量；获得质量评分模块，用于通过预先训练的评价模型和音频质量评价结果、视频质量评价结果获取所述音视频数据文件的质量评分；质量原因分类模块，用于利用所述质量评分对所述原始视频数据进行分类分析所述原始视频数据质量原因；监听质量评价结果模块，用于监控所述音频质量评价结果和/或所述视频质量评价结果；报警模块，用于若所述音频质量评价结果和/或所述视频质量评价结果出现异常，则报警。

根据本申请的一方面，提出一种电子设备，包括一个或多个处理器；存储装置，用于存储一个或多个程序；当所述一个或多个程序被所述一个或多个处理器执行，使得一个或多个处理器实现如前所述的方法。

根据本申请的一些示例实施例，利用训练好的评价模型对直播生成的音视频数据的质量评分，使得这种自动化音视频评价结果尽可能地与人的主观评价相统一。这种音视频数据的自动化质量评价方法即节省了人力，又方便在有大批量直播产生的音视频数据工业中应用推广。通过对质量评价结果进行监控并报警，便于工作人员第一时间排查质量问题原因。利用得到的质量评分对音视频数据质量问题进行分类排查质量问题原因，提高了工作效率。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍。

图1示出根据本申请示例实施例的一种监控音视频质量的方法流程图。

图2示出根据本申请示例实施例的一种评价模型的训练方法流程图。

图3示出根据本申请示例实施例的一种监控音视频质量的系统框图。

图4示出根据本申请示例实施例的一种音视频质量评价装置框图。

图5示出根据本申请示例实施例的一种电子设备的框图。

图6示出利用NRSS算法得到的视频评价指标随时间变化示意图。

图7示出根据本申请示例实施例的一种直播系统框图。

具体实施方式

现在将参考附图更全面地描述示例实施例。然而，示例实施例能够以多种形式实施，且不应被理解为限于在此阐述的实施例；相反，提供这些实施例使得本申请将全面和完整，并将示例实施例的构思全面地传达给本领域的技术人员。在图中相同的附图标记表示相同或类似的部分，因而将省略对它们的重复描述。

所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中，提供许多具体细节从而给出对本公开的实施例的充分理解。然而，本领域技术人员将意识到，可以实践本公开的技术方案而没有这些特定细节中的一个或更多，或者可以采用其它的方式、组元、材料、装置或操作等。在这些情况下，将不详细示出或描述公知结构、方法、装置、实现、材料或者操作。

附图中所示的流程图仅是示例性说明，不是必须包括所有的内容和操作/步骤，也不是必须按所描述的顺序执行。例如，有的操作/步骤还可以分解，而有的操作/步骤可以合并或部分合并，因此实际执行的顺序有可能根据实际情况改变。

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别不同对象，而不是用于描述特定顺序。此外，术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其他步骤或单元。

图1示出根据本申请示例实施例的监控音视频质量的方法流程图。下面参照图1，对根据本申请示例实施例的一种监控音视频质量的方法进行详细说明。

参见图1，在步骤S101，获取直播流的音视频数据文件。

根据本申请的一些实施例，既可以对正在直播的音视频数据进行质量评价，也可以对历史直播产生的音视频数据进行质量评价。

在步骤S103，解码音视频数据文件生成原始音频数据和原始音频数据。

由于导致音频数据和视频数据产生质量问题的因素不同，因此需要分离音视频数据文件的音频数据和音频数据，并对分离的音频数据和音频数据分别进行质量分析，查找产生质量问题的原因。

根据本申请的一些实施例，利用步骤S103，将步骤S101获取的直播流的音视频数据文件分离为原始音频数据和原始视频数据。

在步骤S105，评价原始音频数据的音频质量。

直播流的音视频数据的音频质量问题多是由于设备问题、声场环境等原因导致。直播流的音视频数据的音频质量问题主要分为两类：一是采集端声音反相问题，通常会导致在部分播放终端由于软硬件支持特性而出现声音消失或严重失真的现象。二是噪声过大问题，通常是由于采集设备本身音质不够好，或者采集环境有较大的噪声干扰，降噪模块又没有正常工作导致。

根据本申请的一些示例实施例，评价原始音频数据的音频质量包括评估原始音频数据的音量、评估原始音频数据的噪声和评估原始音频数据的相位。

根据一些实施例，评估原始音频数据的音量是通过声音的能量值确定，用于评判当前是否存在声音过爆的问题。一般，音量从低到高分为默音、弱音、适度、过爆等。考虑到采样精度的多样性，系统使用均方根(RMS)振幅(单位为dB)，来表述音量，取值范围为(-∞,0]。其中，(-∞,-36]为静音、(-36,-18]为弱音、(-18，-6]为适度、(-6，-3]为过强及(-3，0]为过爆。

根据一些实施例，评估原始音频数据的噪声是通过对输入音频的极弱音区段进行识别，得到的此类音频数据通常被认为大概率主要是由声场环境的噪声所构成。将此部分声音数据做频谱分析，与典型噪声频谱做比较，当置信度超过阈值，例如75%，则认为当前提取到了噪声数据，进行特征记录，例如，信噪比估计值、频谱能量分布概率和频谱能量稳定性等特征，并输出能量水平作为当前时刻的噪声水平。同时，后续输入的音频会不断更新当前记录的噪声数据特征。

声音反相会使人耳丧失对立体音的空间感，也会在部分播放设备上造成失真。部分播放设备在播放相位差过大的双声道数据时，例如，播放相位差为90°~ 270°时，会出现声音衰减、失真等问题。根据一些实施例，声音相位检测是通过比较各个声道数据的相位差，当两个声道的相位过大时进行标记。

在步骤S107，评价原始视频数据的视频质量。

根据本申请的一些示例实施例，利用无参考的空域图像质量评价算法评价原始视频数据；和/或利用梯度结构相似度算法评价原始视频数据。

根据一些实施例，无参考的空域图像质量评价算法包括BRISQUE（BRISQUE，Blind/Referenceless Image Spatial QUality Evaluator）。

BRISQUE算法是从图像中提取评价原始视频数据的自然场景统计信息，MSCN（MSCN，mean subtracted contrast normalized coefficients）系数。数据拟合自然场景统计信息以得到特征向量，也即将MSCN系数拟合成非对称性广义高斯分布（AGGD ，asymmetric generalized Gaussian distribution），提取拟合的高斯分布的特征向量。

利用预先训练的支持向量机模型和特征向量得到原始视频数据的质量评价，也即将拟合的高斯分布的特征向量输入到支持向量机中做回归，从而得到原始视频数据的质量评价。

根据一些实施例，梯度结构相似度算法包括NRSS（NRSS，No-ReferenceStructural Sharpness）。NRSS算法是以有参考的SSIM（SSIM，Structural Similarity）算法为基础，利用SSIM算法的结构相似度思想，结合人眼视觉系统对边缘信息更为敏感的特点进行算法设计，用于衡量图像的结构梯度相似度，以判断图像是否存在模糊。

NRSS算法包括对原始视频数据进行低通滤波，得到原始视频数据的参考图像数据。根据一些实施例，低通滤波器可以选择7x7大小的均值滤波器，也可以通过控制滤波器的参数来调整算法的灵敏度。由于人眼对水平方向和垂直方向上的边缘信息比较敏感，根据一些实施例，利用索贝尔算子分别提取原始视频数据和参考图像数据的梯度信息以分别得到原始视频数据的梯度图像。将原始视频数据的梯度图像分块，并计算方差，方差越大说明梯度信息越丰富，以得到原始视频数据的梯度图像中梯度信息最丰富的图像块。利用原始视频数据的图像块，找到与之对应的参考图像数据的梯度图像中图像块。计算原始视频数据的图像块和参考图像数据的图像块的结构相似度，也即原始视频数据的梯度结构相似度算法评价。

在步骤S109，通过预先训练的评价模型和音频质量评价结果、视频质量评价结果获取所述音视频数据文件的质量评分。

根据本申请的一些实施例，评价模型是通过对一些音视频数据进行如步骤S105的音频质量评价和步骤S107的视频质量评价后，训练评价模型，使得评价模型的质量评分和音视频数据的人工评分尽可能一致而得到。

在步骤S111，利用S109获得的质量评分，对原始视频数据进行分类，以分析原始视频数据质量原因。

在直播系统中，影响音视频质量的因素有多种，比如码率配置、场景类型及码控算法等系统参数，去噪、回声消除及锐化等数据处理模块及推流终端类型等。

根据本申请的一些实施例，将步骤S111获得的质量评分与音视频的其他描述属性相关联，如视频分辨率、视频帧率、发起方式、音频采样率、编解码格式和视频场景类型等，并对原始视频数据进行分类，查找同一类原始视频数据出现质量问题的原因。例如，在同一业务参数配置和处理逻辑下， 720p分辨率移动端推起的活动出现画质差的比例显著高于其他类型的视频，经分析发现，出现前述问题的原因在于移动端在此分辨率下的码率配置偏低。

在S113，监控音频质量评价结果和/或视频质量评价结果。

根据本申请的一些实施例，由于直播活动的场景和视频采集设备相对固定，因此认为大多数情况下音视频数据的画质一般保持相对稳定，当视频评价指标出现短时间快速变化时，则表示当前的时间点可能存在码率不足或解码错误等原因导致画面内容恶化。如图6所示，为利用NRSS算法得到的视频评价指标随时间变化示意图，图6中箭头所示的时刻，视频评价指标发生了短时快速变化，说明当前的时间点可能存在码率不足或解码错误等原因导致画面内容恶化。

音频问题与视频问题不同，音频数据占用的带宽较低，出现因带宽、码率不足导致画质损失的情况较少，更多是由设备问题和声场环境问题导致。如采集端声音反相问题会导致部分播放终端由于软硬件支持特性而出现声音消失或严重失真的现象，由于采集设备本身音质不好或采集环境有较大的噪声干扰及降噪模块没有正常工作等原因导致出现噪声过大的问题。

在S115，若音频质量评价结果和/或视频质量评价结果出现异常，则报警。

根据本申请的一些实施例，一旦在步骤S113检测到如前所述的问题，即报警，以警示后台工作人员尽快响应。

以上参照图1的技术方案，通过利用训练好的评价模型对直播生成的音视频数据的质量评分，使得这种自动化音视频评价结果尽可能地与人的主观评价相统一。这种音视频数据的自动化质量评价方法即节省了人力，又方便在有大批量直播产生的音视频数据工业中应用推广。通过对质量评价结果进行监控并报警，便于工作人员第一时间排查质量问题原因。利用得到的质量评分对音视频数据质量问题进行分类排查质量问题原因，提高了工作效率。

图2示出根据本申请示例实施例的一种评价模型的训练方法流程图。下面参照图2，对根据本申请示例实施例的一种评价模型的训练方法流程图进行详细说明。

根据本身的一些实施例，评价模型包括支撑向量机模型。

在步骤S201，获取训练用直播流的音视频数据文件及其人工质量评分。

根据本申请的一些实施例，训练用直播流的音视频数据文件既可以是正在直播的音视频数据，也可以直播产生的历史音视频数据。

根据一些实施例，需要在步骤S201之前对获取的训练用直播流的音视频数据文件进行人工质量评分。

在步骤S203，评价训练用直播流的音频质量。

根据本申请的一些实施例，利用如步骤S105所述的方法对训练用直播流的音频质量进行评价。

在步骤S205，评价训练用直播流的视频质量。

根据本申请的一些实施例，利用如步骤S107所述的方法训练用直播流的视频质量进行评价。

将步骤S203和步骤S205得到的质量评价结果输入评价模型中得到质量评分，并将质量评分和训练用直播流的人工评分比较。待质量评分和训练用直播流的人工评分误差在可接受范围内。根据一些实施例，使用皮尔逊线性相关系数(PLCC)和斯皮尔曼等级顺序相关系数(SROCC)两个指标评价当前训练结果是否足够接近人工主观评价结果。皮尔逊线性相关系数和斯皮尔曼等级顺序相关系数的值越高表示当前训练结果越接近人工评价。例如，皮尔逊线性相关系数和斯皮尔曼等级顺序相关系数高于0.85则认为合格，表示训练评价模型已训练完成。

根据一些实施例，评价模型在应用中，如果通过其得到的质量评分和人工评价结果有偏差时，可提供反馈，可帮助评价模型进行动态更新。

以上参照图2的技术方案，通过对评价模型不断演化，使得利用评价模型得到的音视频数据的质量评分尽可能和人工评分相一致，利用自动化的方式代替人工，以克服人的主观评价不一致的问题，更适合在巨量的直播数据中推广应用。

图3示出根据本申请示例实施例的一种监控音视频质量的系统框图。下面参照图3，对根据本申请示例实施例的一种监控音视频质量的系统进行详细说明。

一种监控音视频质量的系统包括直播流数据库装置301、任务分发装置303、缓存队列装置305、任务消息队列装置307、任务消费者装置309、音视频质量评价装置311、直播流分析结果数据库装置313、检查装置315、邮件装置317。

根据一些实施例，图3所示的一种监控音视频质量的系统包括Celery分布式系统架构。

直播流数据库装置301用于存储直播流的音视频数据及视频的描述信息，例如直播流音视频的分辨率、视频帧率、编码方式、直播市场和/或直播流开始/结束时间等。

任务分发装置303用于产生任务并将任务发送到任务消息队列装置307中。例如，每个直播流的音视频数据分发一个任务。

缓存队列装置305用于存储直播流的音视频数据的状态。

根据一些实施例，缓存队列装置包括Redis缓存队列。根据一些实施例，在将直播流的音视频数据存入缓存队列时，可以存储一个任务是否完成的任务标记。例如，存储形式为key-value结构，其中key的格式为 [直播流日期] +“%%”+media_type + ID号，value为Status，其中media_type 为直播流的音视频文件分类，包括录制的视频格式为flv和/或点播的视频源格式为hls。Status 为直播流音视频文件的分析状态，包括未完成、已完成及任务执行失败。

任务消息队列装置307用于存储任务分发装置分发的任务。可以根据任务消息队列装置307中任务数量创建任务消费者装置309。根据一些实施例，任务消息队列装置307包括Rabbitmq任务队列。

任务消费者装置309用于从任务消息队列装置307获取任务，并解析该任务中对应的直播流的音视频数据文件存储地址，并下载该音视频数据文件。待音视频数据文件下载完成后，利用音视频质量评价装置311对音视频数据文件进行分析，并将分析结果存储到直播流分析结果数据库装置313中。最后将音视频数据文件的分析状态更新到缓存队列装置305中。例如，如果前述过程成功执行，则将缓存队列装置305中对应的音视频数据文件状态更新为已完成。

音视频质量评价装置311用于评价直播流的音视频质量。

直播流分析结果数据库装置313用于存储直播流的音视频分析结果。根据一些实施例，直播流分析结果数据库装置包括MongoDB。

检查装置315用于检查缓存队列装置305中直播流的分析任务是否完成。如果全部完成，利用邮件装置317发送今日任务完成邮件。根据一些实施例，检查装置315可以采用异步定时的方式启动检查缓存队列装置305中直播流的分析任务是否完成。

邮件装置317用于邮件，例如，发送今日任务量邮件和今日任务完成邮件。

根据一些实施例，一种监控音视频质量的系统还包括音视频质量可视化装置，用于将直播流分析结果数据库313中存储的分析结果以可视化的方式显示出来。

以上参照图3所示的技术方案，通过分布式任务处理系统进行直播流音视频数据质量分析以及以可视化的方式展示分析结果，使得分析结果更直观，更便于数据分析以及指导优化流媒体参数配置和调整处理策略。

图4示出根据本申请示例实施例的一种音视频质量评价装置框图。下面参照图4，对根据本申请示例实施例的一种音视频质量评价装置框图进行详细说明。

一种音视频质量评价装置包括获取音视频数据模块401、音视频数据解码模块403、音频质量评价模块405、视频质量评价模块407、获得质量评分模块409、质量原因分类模块411、监听质量评价结果模块413和报警模块415。

获取音视频数据模块401，用于获取直播流的音视频数据文件。音视频数据解码模块403，用于解码音视频数据文件生成原始音频数据和原始视频数据。音频质量评价模块405，用于评价原始音频数据的音频质量。视频质量评价模块407，用于评价原始视频数据的视频质量。获得质量评分模块409，用于通过预先训练的评价模型和音频质量评价结果、视频质量评价结果获取所述音视频数据文件的质量评分。质量原因分类模块411，用于利用所述质量评分对所述原始视频数据进行分类分析所述原始视频数据质量原因。监听质量评价结果模块413用于监控音频质量评价结果和/或视频质量评价结果。报警模块415用于若音频质量评价结果和/或所述视频质量评价结果出现异常，报警。

图7示出根据本申请示例实施例的一种直播系统框图。下面参照图7，对根据本申请示例实施例的一种直播系统进行详细说明。

参见图7所示的直播系统包括录制直播视频模块701，音视频评价监控模块703和前端显示模块705。

录制直播视频模块701用于提供直播推流、分发及录制服务。

音视频评价监控模块703通过分布式任务处理系统进行音视频质量的分析，实现如图3所示的功能。

前端显示模块705对音视频评价监控模块703的分析结果进行渲染并呈现在终端。

以上参照图7所示的技术方法，通过提出一种直播流程的音视频质量的分析框架，能够直观方便的分析和评价直播活动的音视频质量。随着此套系统不断积累的直播视频质量的统计数据，有助进行数据分析，帮助指导优化流媒体参数配置与媒体处理策略。为用户提供更稳定的直播平台，节约用户时间、降低人工成本。随着时间的推移，即使网络环境发生了变化，图7所示的直播系统也能提供持续的监控和优化，从而制定音视频质量等指标的优化策略。

下面参照图5来描述根据本申请的这种实施方式的电子设备200。图5显示的电子设备200仅仅是一个示例，不应对本申请实施例的功能和使用范围带来任何限制。

如图5所示，电子设备200以通用计算设备的形式表现。电子设备200的组件可以包括但不限于：至少一个处理单元210、至少一个存储单元220、连接不同系统组件（包括存储单元220和处理单元210）的总线230、显示单元240等。其中，存储单元存储有程序代码，程序代码可以被处理单元210执行，使得处理单元210执行本说明书描述的根据本申请各种示例性实施方式的方法。例如，处理单元210可以执行如图1中所示的方法。

存储单元220可以包括易失性存储单元形式的可读介质，例如随机存取存储单元（RAM）2201和/或高速缓存存储单元2202，还可以进一步包括只读存储单元（ROM）2203。

存储单元220还可以包括具有一组（至少一个）程序模块2205的程序/实用工具2204，这样的程序模块2205包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

总线230可以为表示几类总线结构中的一种或多种，包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。

电子设备200也可以与一个或多个外部设备300（例如键盘、指向设备、蓝牙设备等）通信，还可与一个或者多个使得用户能与该电子设备200交互的设备通信，和/或与使得该电子设备200能与一个或多个其它计算设备进行通信的任何设备（例如路由器、调制解调器等等）通信。这种通信可以通过输入/输出（I/O）接口250进行。并且，电子设备200还可以通过网络适配器260与一个或者多个网络（例如局域网（LAN），广域网（WAN）和/或公共网络，例如因特网）通信。网络适配器260可以通过总线230与电子设备200的其它模块通信。应当明白，尽管图中未示出，可以结合电子设备200使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

通过以上的实施方式的描述，本领域的技术人员易于理解，这里描述的示例实施方式可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。根据本申请实施方式的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质（可以是CD-ROM，U盘，移动硬盘等）中或网络上，包括若干指令以使得一台计算设备（可以是个人计算机、服务器、或者网络设备等）执行根据本申请实施方式的上述方法。

软件产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子（非穷举的列表）包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器（RAM）、只读存储器（ROM）、可擦式可编程只读存储器（EPROM或闪存）、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

计算机可读存储介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。可读存储介质还可以是可读存储介质以外的任何可读介质，该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。可读存储介质上包含的程序代码可以用任何适当的介质传输，包括但不限于无线、有线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言的任意组合来编写用于执行本申请操作的程序代码，程序设计语言包括面向对象的程序设计语言—诸如Java、C++等，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络，包括局域网（LAN）或广域网（WAN），连接到用户计算设备，或者，可以连接到外部计算设备（例如利用因特网服务提供商来通过因特网连接）。

上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被一个该设备执行时，使得该计算机可读介质实现前述功能。

本领域技术人员可以理解上述各模块可以按照实施例的描述分布于装置中，也可以进行相应变化唯一不同于本实施例的一个或多个装置中。上述实施例的模块可以合并为一个模块，也可以进一步拆分成多个子模块。

以上对本申请实施例进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明仅用于帮助理解本申请的方法及其核心思想。同时，本领域技术人员依据本申请的思想，基于本申请的具体实施方式及应用范围上做出的改变或变形之处，都属于本申请保护的范围。综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种监控音视频质量的方法，其特征在于，包括：

获取直播流的音视频数据文件；

解码所述音视频数据文件生成原始音频数据和原始视频数据；

评价所述原始音频数据的音频质量；

评价所述原始视频数据的视频质量；

通过预先训练的评价模型和音频质量评价结果、视频质量评价结果获取所述音视频数据文件的质量评分；

利用所述质量评分对所述原始视频数据进行分类分析所述原始视频数据质量原因；

监控所述音频质量评价结果和/或所述视频质量评价结果；

若所述音频质量评价结果和/或所述视频质量评价结果出现异常，则报警。

2.根据权利要求1所述的方法，其特征在于，所述预先训练的评价模型，包括：

获取训练用直播流的音视频数据文件及其人工质量评分；

评价所述训练用直播流的音频质量；

评价所述训练用直播流的视频质量；

利用所述训练用直播流的音频质量评价结果、所述训练用直播流的视频质量评价结果和所述直播流的人工质量评分训练机器模型得到所述评价模型。

3.根据权利要求1所述的方法，其特征在于，所述评价所述原始音频数据的音频质量，包括：

评估所述原始音频数据的音量；和/或

评估所述原始音频数据的噪声；和/或

评估所述原始音频数据的相位。

4.根据权利要求1所述的方法，其特征在于，所述评价所述原始视频数据的视频质量，包括：

利用无参考的空域图像质量评价算法评价所述原始视频数据；和/或

利用梯度结构相似度算法评价所述原始视频数据。

5.根据权利要求4所述的评价方法，其特征在于，所述利用无参考的空域图像质量评价算法评价所述原始视频数据，包括：

提取所述原始视频数据的自然场景统计信息；

数据拟合所述自然场景统计信息以得到特征向量；

利用预先训练的支持向量机模型和所述特征向量得到所述原始视频数据的质量评价。

6.根据权利要求4所述的评价方法，其特征在于，所述利用梯度结构相似度算法评价所述原始视频数据包括：

构建所述原始视频数据的参考图像数据；

提取所述原始视频数据和所述参考图像数据的梯度图像；

找到所述原始视频数据的所述梯度图像中梯度信息最丰富的图像块以及所述参考图像数据的梯度图像中与之对应的图像块；

计算所述原始视频数据和所述参考图像数据的所述图像块的梯度结构相似度。

7.一种监控音视频质量的系统，其特征在于，包括：

直播流数据库装置，用于存储直播流的音视频数据；

任务分发装置，用于分发任务；

缓存队列装置，用于存储所述直播流的状态数据；

任务消息队列装置，用于存储所述任务分发装置分发的任务；

任务消费者装置，用于

从所述任务消息队列装置获取直播流的视频任务；

下载所述直播流的音视频文件；

利用所述音视频质量评价装置分析所述直播流的视频；

利用所述直播流分析结果数据库存储所述直播流的视频的分析结果；

更改所述缓存队列装置中所述直播流的状态数据；

音视频质量评价装置，用于评价所述直播流的音视频质量；

直播流质量分析结果数据库装置，用于存储所述直播流的音视频分析结果；

检查装置，用于检查所述缓存队列装置中所述直播流的分析任务是否完成；

邮件装置，用于发送今日任务量邮件和今日任务完成邮件。

8.根据权利要求7所述的系统，其特征在于，所述系统还包括：

音视频质量可视化装置，用于将所述直播流质量分析结果数据库中存储的分析结果以可视化的方式显示出来。

9.根据权利要求8所述的系统，其特征在于，所述音视频质量评价装置包括：

获取音视频数据模块，用于获取直播流的音视频数据文件；

音视频数据解码模块，用于解码所述音视频数据文件生成原始音频数据和原始视频数据；

音频质量评价模块，用于评价所述原始音频数据的音频质量；

视频质量评价模块，用于评价所述原始视频数据的视频质量；

获得质量评分模块，用于通过预先训练的评价模型和音频质量评价结果、视频质量评价结果获取所述音视频数据文件的质量评分；

质量原因分类模块，用于利用所述质量评分对所述原始视频数据进行分类分析所述原始视频数据质量原因；

监听质量评价结果模块，用于监控所述音频质量评价结果和/或所述视频质量评价结果；

报警模块，用于若所述音频质量评价结果和/或所述视频质量评价结果出现异常，则报警。

10.一种电子设备，其特征在于，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得一个或多个处理器实现如权利要求1-6中任一所述的方法。