CN111641799A

CN111641799A - 一种视频会议系统及其音频质量诊断方法

Info

Publication number: CN111641799A
Application number: CN202010312144.6A
Authority: CN
Inventors: 沈先波; 何兵兵; 石海春; 张超; 徐飞
Original assignee: HEFEI YOUO ELECTRONIC TECHNOLOGY CO LTD
Current assignee: HEFEI YOUO ELECTRONIC TECHNOLOGY CO LTD
Priority date: 2020-04-20
Filing date: 2020-04-20
Publication date: 2020-09-08
Anticipated expiration: 2040-04-20
Also published as: CN111641799B

Abstract

一种视频会议系统，涉及多媒体通信领域，对视频会议系统的音频质量进行分析诊断、评估并告警；包括交换机、MCU、RTMP直播设备、音频质量诊断系统；交换机、RTMP直播设备、音频质量诊断系统依次连接；MCU与交换及连接；交换机接收原始流音频数据并处理，MCU发出指令信号控制交换机，交换机通过端口镜像将信号送入RTMP直播设备，RTMP直播设备将信号按照实时消息传输协议送入音频质量诊断系统中，对音频数据各项指标进行诊断，判断音频质量并输出音频质量诊断结果；一种音频质量诊断方法，包括：获取原始流数据；获取音频流数据；获取音频帧；音频诊断；输出诊断结果，保证视频会议流畅性。

Description

一种视频会议系统及其音频质量诊断方法

技术领域

本发明属于多媒体通信技术领域，涉及一种视频会议系统及其音频质量诊断方法。

背景技术

随着多媒体与通信技术的迅速发展，视频会议给予用户最直观的会议体验，得到了众多企业的认可。

现有技术中，申请号为CN201910324555.4的中国发明专利申请《一种基于多链路传输的远程音视频会议系统及处理方法》，公开了一种基于多链路传输的远程音视频会议系统及处理方法，包括：客户端、多链路传输控制器、公网服务器和专家端；客户端用于采集或输入会议诊断所需要的现场数据并传输给多链路传输控制器或公网服务器，用于接收公网服务器返回的专家诊断意见数据并播放显示；现场数据包括音频数据和视频数据；多链路传输控制器用于将接收的客户端的现场数据通过多链路并行传输的方式输送给公网服务器；专家端用于接收公网服务器输送的现场数据并播放显示，用于采集或输入会议诊断所需要的专家诊断意见数据，并通过公网服务器传输给客户然能够保证在延时低的同时提供高质量的视频图像传输。

但是上述专利申请并未解决视频会议系统中出现的音频质量的问题。

发明内容

本发明所要解决的技术问题在于如何对视频会议系统的音频质量进行分析诊断、评估并告警。

本发明是通过以下技术方案解决上述技术问题的。

一种视频会议系统，包括交换机、MCU、RTMP直播设备、音频质量诊断系统；所述的交换机、RTMP直播设备、音频质量诊断系统依次连接；所述的MCU与交换机连接，所述交换机接收原始流音频数据并处理，所述的MCU发出指令信号控制交换机，所述的交换机通过端口镜像将处理后的原始流音频数据送入RTMP直播设备，所述的RTMP直播设备将处理后的原始流音频数据按照实时消息传输协议送入音频质量诊断系统中,并对音频数据的各项指标进行诊断，根据诊断结果判断音频质量，并输出音频质量诊断结果；所述的视频会议场景下的音频质量诊断系统包括：

获取原始流数据模块；用于对视频会议系统中连接MCU的交换机进行端口镜像，获取会议中原始流数据，利用RTMP直播设备将原始流数据以RTMP的方式进行推送；

获取音频流数据模块；利用FFMPEG计算机程序将步骤1中RTMP推送的原始流数据进行解码和转码，获取音频流数据；所述的FFMPEG计算机程序用来记录、转换数字音频、视频，并能将其转化为流的开源计算机程序。

获取音频帧模块；将获取音频流数据模块中的音频流数据根据时间片段进行划分，获取不同段的音频帧数据；

音频诊断模块；对获取音频帧模块中音频帧数据的指标进行音频诊断，根据诊断结果判断音频质量并输出音频质量诊断结果；

输出诊断结果、告警模块；对音频诊断模块中的各项指标的诊断结果进行分析处理并向运维中心告警，通知运维人员进行相关维护，保障会议的正常运行。

提供了一种视频会议系统，通过音频质量诊断系统，在召开视频会议系统时，从声音大小检测、声音啸叫检测方面对音频质量进行分析诊断，从而对音频的各项指标的诊断结果进行分析处理并及时向运维中心告警,通知运维人员进行相关维护，保证了视频会议的流畅性。

作为本发明技术方案的进一步改进，所述的音频诊断模块中的音频帧数据的指标进行音频诊断包括声音大小检测及声音啸叫检测。

作为本发明技术方案的进一步改进，所述的声音大小检测的方法包括以下步骤：

1)输入单个音频帧，并通过以下公式计算出单个音频帧幅值的能量值t：

t＝20*log10(x/y) (1)

其中，y为声音总的振幅最大值，x为当前声音的振幅值；

2)按照下列公式得出音量值大小T；

T＝[sum(t)*500]/(sample*VOLUMEMAX) (2)

其中，sum(t)为音频能量值总和；sample为音频采样个数；VOLUMEMAX＝32767，500为等量化比值。

3)如果T满足下式的范围，则表示音量正常；

Th1>T>Th2 (3)

其中，Th1表示音量过大的阈值、Th2表示音量过小的阈值。

作为本发明技术方案的进一步改进，所述的声音啸叫检测的方法包括以下步骤：

1)输入片段音频帧，根据获取的音频数据按时间片段划分成音频帧，将片段的音频帧进行归一化处理，将数据序列的范围统一到固定的区间(0,1)之间；对每一帧音频进行离散傅里叶变换处理，获取对应的频谱特征数据；并计算每频频谱能量K；

所述的归一化处理的公式为：

z^*＝(z-min)/(max-min) (4)

其中，max为样本信号数据的最大值，min为样本信号数据的最小值，z表示样本当前信号数据的值，z^*表示归一化处理后该样本信号的值；

所述的对每一帧音频进行离散傅里叶变换处理的公式为：

R_n＝10*log[10*(p1-p2)] (5)

其中，p1是信号功率谱中的最大幅值，p2为每帧信号中所有功率幅值的平均值，R_n为当前信号功率值，n＝1,2,3...2048。

所述的计算每频频谱能量K的公式为：

K＝(R_n)² (6)

2)将片段音频帧进行加窗处理，计算出频谱平均能量HK与方差T；

所述的加窗处理的公式为：

w[i]＝0.54-0.46cos(2πi/N) (7)

其中，w[]表示窗长内每一频的能量值，N表示一帧数内的采样点总数，i＝0,1,2,3...1024,其中0≤i≤N-1；

所述的频谱平均能量HK的计算公式如下：

其中，sum(K_a)为a帧频谱能量总和，K_a表示第a帧的能量值；SUM()_j为频谱能量总和,j＝1,2,3...2048；sample为音频采样个数,sample＝1,2,3...2048。

所述的方差T的计算公式如下：

其中，HKa为平均能量值，a为窗长数。

3)判断是否存在啸叫点；若K>HK且方差值T<1，则判断为存在啸叫点。

一种音频质量诊断方法，包括以下步骤：

步骤1：获取原始流数据；对视频会议系统中连接MCU的交换机进行端口镜像，获取会议中原始流数据，利用RTMP直播设备将原始流数据以RTMP的方式进行推送；

步骤2：获取音频流数据；利用FFMPEG计算机程序将步骤1中RTMP推送的原始流数据进行解码和转码，获取音频流数据；所述的FFMPEG计算机程序用来记录、转换数字音频、视频，并能将其转化为流的开源计算机程序。

步骤3：获取音频帧；将步骤2中的音频流数据根据时间片段进行划分，获取不同段的音频帧数据；

步骤4：音频诊断；对步骤3中音频帧数据的指标进行音频诊断，根据诊断结果判断音频质量并输出音频质量诊断结果；

步骤5：输出诊断结果、告警；对步骤4中的各项指标的诊断结果进行分析处理并向运维中心告警，通知运维人员进行相关维护，保障会议的正常运行。

作为本发明技术方案的进一步改进，所述的步骤4中的音频帧数据的指标进行音频诊断包括声音大小检测及声音啸叫检测。

t＝20*log10(x/y) (1)

其中，y为声音总的振幅最大值，x为当前声音的振幅值；

2)按照下列公式得出音量值大小T；

T＝[sum(t)*500]/(sample*VOLUMEMAX) (2)

3)如果T满足下式的范围，则表示音量正常；

Th1>T>Th2 (3)

其中，Th1表示音量过大的阈值、Th2表示音量过小的阈值。

所述的归一化处理的公式为：

z^*＝(z-min)/(max-min) (4)

所述的对每一帧音频进行离散傅里叶变换处理的公式为：

R_n＝10*log[10*(p1-p2)] (5)

所述的计算每频频谱能量K的公式为：

K＝(R_n)² (6)

所述的加窗处理的公式为：

w[i]＝0.54-0.46cos(2πi/N) (7)

所述的频谱平均能量HK的计算公式如下：

所述的方差T的计算公式如下：

其中，HKa为平均能量值，a为窗长数。

本发明的优点在于：

(1)提供一种视频会议系统，通过音频质量诊断系统，在召开视频会议系统时，从声音大小检测、声音啸叫检测方面对音频质量进行分析诊断，从而对音频的各项指标的诊断结果进行分析处理并及时向运维中心告警,通知运维人员进行相关维护，保证了视频会议的流畅性。

(2)采用了FFMPEG视频采集功能，不仅可以采集视频采集卡或USB摄像头的图像，还可以进行屏幕录制，同时还支持以RTP方式将视频流传送给支持RTSP的流媒体服务器，支持直播应用。

附图说明

图1是本发明实施例的一种视频会议系统的结构图；

图2是本发明实施例的音频质量诊断方法的流程图；

图3是本发明实施例的声音大小检测流程图；

图4是本发明实施例的声音啸叫检测流程图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

下面结合说明书附图以及具体的实施例对本发明的技术方案作进一步描述：

实施例一

如图1所示，一种视频会议系统，包括交换机、MCU、RTMP直播设备、音频质量诊断系统；所述的交换机、RTMP直播设备、音频质量诊断系统依次连接；所述的MCU与交换机连接，所述交换机接收原始流音频数据并处理，所述的MCU发出指令信号控制交换机，所述的交换机通过端口镜像将处理后的原始流音频数据送入RTMP直播设备，所述的RTMP直播设备将处理后的原始流音频数据按照实时消息传输协议(Real Time Messaging Protocol,RTMP)送入音频质量诊断系统中,并对音频数据的各项指标进行诊断，根据诊断结果判断音频质量，并输出音频质量诊断结果。

所述的音频质量诊断系统包括：

获取原始流数据模块；用于对视频会议系统中连接MCU的交换机进行端口镜像，获取会议中原始流数据，利用RTMP直播设备将原始流数据以RTMP的方式进行推送。

获取音频帧模块；将获取音频流数据模块中的音频流数据根据时间片段进行划分，获取不同段的音频帧数据。

音频诊断模块；对获取音频帧模块中音频帧数据的指标进行音频诊断，根据诊断结果判断音频质量并输出音频质量诊断结果。

所述的音频诊断模块中的音频帧数据的指标进行音频诊断包括声音大小检测及声音啸叫检测。

实施例二

如图2所示，一种音频质量诊断方法，包括以下步骤：

步骤2：获取音频流数据；利用FFMPEG计算机程序将步骤1中RTMP推送的原始流数据进行解码和转码，获取音频流数据；

所述的FFMPEG计算机程序用来记录、转换数字音频、视频，并能将其转化为流的开源计算机程序。

所述的步骤4中的音频帧数据的指标进行音频诊断包括声音大小检测及声音啸叫检测。

如图3所示，所述的声音大小检测的方法包括以下步骤：

t＝20*log10(x/y) (1)

其中，y为声音总的振幅最大值，x为当前声音的振幅值；

2)按照下列公式得出音量值大小T；

T＝[sum(t)*500]/(sample*VOLUMEMAX) (2)

3)如果T满足下式的范围，则表示音量正常；

Th1>T>Th2 (3)

其中，Th1表示音量过大的阈值、Th2表示音量过小的阈值。

如图4所示，所述的声音啸叫检测的方法包括以下步骤：

(1)输入片段音频帧，根据获取的音频数据按时间片段划分成音频帧，将片段的音频帧进行归一化处理，将数据序列的范围统一到固定的区间(0,1)之间；对每一帧音频进行离散傅里叶变换处理，获取对应的频谱特征数据；并计算每频频谱能量K；

所述的归一化处理的公式为：

z^*＝(z-min)/(max-min) (4)

所述的对每一帧音频进行离散傅里叶变换处理的公式为：

R_n＝10*log[10*(p1-p2)] (5)

所述的计算每频频谱能量K的公式为：

K＝(R_n)² (6)

(2)将片段音频帧进行加窗处理，计算出频谱平均能量HK与方差T；

所述的加窗处理的公式为：

w[i]＝0.54-0.46cos(2πi/N) (7)

所述的频谱平均能量HK的计算公式如下：

所述的方差T的计算公式如下：

其中，HKa为平均能量值，a为窗长数。

(3)判断是否存在啸叫点；若K>HK且方差值T<1，则判断为存在啸叫点。

以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种视频会议系统，其特征在于，包括交换机、MCU、RTMP直播设备、音频质量诊断系统；所述的交换机、RTMP直播设备、音频质量诊断系统依次连接；所述的MCU与交换机连接，所述交换机接收原始流音频数据并处理，所述的MCU发出指令信号控制交换机，所述的交换机通过端口镜像将处理后的原始流音频数据送入RTMP直播设备，所述的RTMP直播设备将处理后的原始流音频数据按照实时消息传输协议送入音频质量诊断系统中,并对音频数据的各项指标进行诊断，根据诊断结果判断音频质量，并输出音频质量诊断结果；所述的音频质量诊断系统包括：

获取音频流数据模块；利用FFMPEG计算机程序将步骤1中RTMP推送的原始流数据进行解码和转码，获取音频流数据；所述的FFMPEG计算机程序用来记录、转换数字音频、视频，并能将其转化为流的开源计算机程序；

2.根据权利要求1所述的视频会议系统，其特征在于，所述的音频诊断模块中的音频帧数据的指标进行音频诊断包括声音大小检测及声音啸叫检测。

3.根据权利要求2所述的视频会议系统，其特征在于，所述的声音大小检测的方法包括以下步骤：

t＝20*log10(x/y) (1)

其中，y为声音总的振幅最大值，x为当前声音的振幅值；

2)按照下列公式得出音量值大小T；

T＝[sum(t)*500]/(sample*VOLUMEMAX) (2)

其中，sum(t)为音频能量值总和；sample为音频采样个数；VOLUMEMAX＝32767，500为等量化比值；

3)如果T满足下式的范围，则表示音量正常；

Th1>T>Th2 (3)

其中，Th1表示音量过大的阈值、Th2表示音量过小的阈值。

4.根据权利要求2所述的视频会议系统，其特征在于，所述的声音啸叫检测的方法包括以下步骤：

所述的归一化处理的公式为：

z^*＝(z-min)/(max-min) (4)

所述的对每一帧音频进行离散傅里叶变换处理的公式为：

R_n＝10*log[10*(p1-p2)] (5)

其中，p1是信号功率谱中的最大幅值，p2为每帧信号中所有功率幅值的平均值，R_n为当前信号功率值，n＝1,2,3...2048；

所述的计算每频频谱能量K的公式为：

K＝(R_n)² (6)

所述的加窗处理的公式为：

w[i]＝0.54-0.46cos(2πi/N) (7)

所述的频谱平均能量HK的计算公式如下：

其中，sum(K_a)为a帧频谱能量总和，K_a表示第a帧的能量值；SUM()_j为频谱能量总和,j＝1,2,3...2048；sample为音频采样个数,sample＝1,2,3...2048；

所述的方差T的计算公式如下：

其中，HKa为平均能量值，a为窗长数；

5.一种音频质量诊断方法，包括以下步骤：

步骤2：获取音频流数据；利用FFMPEG计算机程序将步骤1中RTMP推送的原始流数据进行解码和转码，获取音频流数据；所述的FFMPEG计算机程序用来记录、转换数字音频、视频，并能将其转化为流的开源计算机程序；

6.根据权利要求5所述的音频质量诊断方法，其特征在于，所述的步骤4中的音频帧数据的指标进行音频诊断包括声音大小检测及声音啸叫检测。

7.根据权利要求6所述的音频质量诊断方法，其特征在于，所述的声音大小检测的方法包括以下步骤：

t＝20*log10(x/y) (1)

其中，y为声音总的振幅最大值，x为当前声音的振幅值；

2)按照下列公式得出音量值大小T；

T＝[sum(t)*500]/(sample*VOLUMEMAX) (2)

3)如果T满足下式的范围，则表示音量正常；

Th1>T>Th2 (3)

其中，Th1表示音量过大的阈值、Th2表示音量过小的阈值。

8.根据权利要求6所述的音频质量诊断方法，其特征在于，所述的声音啸叫检测的方法包括以下步骤：

所述的归一化处理的公式为：

z^*＝(z-min)/(max-min) (4)

所述的对每一帧音频进行离散傅里叶变换处理的公式为：

R_n＝10*log[10*(p1-p2)] (5)

所述的计算每频频谱能量K的公式为：

K＝(R_n)² (6)

所述的加窗处理的公式为：

w[i]＝0.54-0.46cos(2πi/N) (7)

所述的频谱平均能量HK的计算公式如下：

所述的方差T的计算公式如下：

其中，HKa为平均能量值，a为窗长数；