CN116471263B

CN116471263B - 一种视讯系统的实时音频择路方法

Info

Publication number: CN116471263B
Application number: CN202310533844.1A
Authority: CN
Inventors: 陈贤斌; 张路
Original assignee: Hangzhou Omnipotent Digital Technology Co ltd
Current assignee: Hangzhou Omnipotent Digital Technology Co ltd
Priority date: 2023-05-12
Filing date: 2023-05-12
Publication date: 2024-02-13
Anticipated expiration: 2043-05-12
Also published as: CN116471263A

Abstract

本发明公开了一种视讯系统的实时音频择路方法，属于音频处理技术领域，方法包括：步骤一、设置音频择路最大激活路数K；步骤二、媒体服务从网络接收数据，并解析为RTP音频数据；步骤三、将获得的RTP音频数据进行处理后插入到滑动窗口；步骤四、判断当前激活的音频路数是否超过设置的最大激活路数K，若为否，则将RTP音频数据直接投递到音频管道。本发明实时对输入的每路语音进行择路，选择出音量最大的k路语音流送到端上，这种方案首先节省了语音混流对服务器大量资源的消耗，其次送到端上的流都是独立的，较为容易做音画同步，使用户获取的声音更加流畅真实。

Description

一种视讯系统的实时音频择路方法

技术领域

本发明属于音频处理技术领域，具体涉及一种视讯系统的实时音频择路方法。

背景技术

视频会议系统是一种现代化的办公系统，它可以使不同会场的实时现场场景和语音互连起来，同时向与会者提供分享听觉和视觉的空间，使各与会方有“面对面”交谈的感觉。随着社会的发展，视频会议的应用越来越广泛，同时对其视频音频质量、灵活性以及易用性、可靠性和易管理性的要求也越来越严格。随着计算机硬件技术和网络技术的发展，视频会议系统同时百人在线已经变成一个常规需求，但是大方会议还是存在不少技术难题，比如在大方会议用户同时开麦的场景中，可能会出现的卡顿，丢字，听不清问题，大量的语音输入还会占用用户大量的带宽及系统资源。现有主流方案解决方案是通过服务端混流，原理是将所有的音频数据发送到服务端，由服务端对语音数据解码，重采样然后混成一路或多路流发送给客户端，这些处理流程会消耗服务器大量CPU资源，语音流路数越多资源消耗也越多，由于是多路语音混流，还可能会引入音画不同步问题。

发明内容

本发明的目的在于提供一种视讯系统的实时音频择路方法，用以解决上述背景技术中所面临的问题。

本发明的目的可以通过以下技术方案实现：

一种视讯系统的实时音频择路方法，所述方法包括：

步骤一、设置音频择路最大激活路数K；

步骤二、媒体服务从网络接收数据，并解析为RTP音频数据；

步骤三、将获得的RTP音频数据进行处理后插入到滑动窗口；

步骤四、判断当前激活的音频路数是否超过设置的最大激活路数K，若为否，则将RTP音频数据直接投递到音频管道，否则进行步骤五；

步骤五、对每路语音的滑动窗口求和，使用TOP-K算法选出K路，判断当前输入源是否属于K，若为是，则将音频数据输入音频管道，否则丢弃；

步骤六、将输入音频管道的音频数据进行音量处理后传输到广播播报系统进行播报。

进一步地，所述步骤二中解析的RTP音频数据是按照SDP协商约定解析成携带Audiolevel扩展的RTP音频数据。

进一步地，所述步骤三中的处理方法为：

先将RTP数据透传到音频通道预创建好的音频过滤器内，并读取RTP数据中的Audiolevel字段；

然后用127减去Audiolevel字段得到音频的能量值；

将获取的能量值通过滤波器进行滤波平滑处理。

进一步地，所述滤波器处理的方法包括静态滤波处理以及动态滤波处理，所述动态滤波处理系数根据发言者所处环境变化而变化，所述静态滤波处理系数根据设备历史数据获取。

进一步地，所述步骤六中音量处理的方法为：

获取每段音频数据的音频波形图，根据音频波形图来获取音频数据的响度值以及音调值，根据响度值以及音调值的变化来求得该段音频数据的质量波动值，从而根据质量波动值的大小来相应的调整整段音频数据的音量。

进一步地，所述音频管道内还设有提醒单元，所述提醒单元用于每隔T时间段采集系统内的平均音量，并与系统预设音量进行比较：

若平均音量大于预设音量，则进行降音提醒；

若平均音量小于预设音量，则进行升音提醒；

若平均音量与预设音量一致，则不提醒。

本发明的有益效果：

本发明实时对输入的每路语音进行择路，选择出音量最大的k路语音流送到端上，这种方案首先节省了语音混流对服务器大量资源的消耗，其次送到端上的流都是独立的，较为容易做音画同步，使用户获取的声音更加流畅真实。

本发明可从播报处来调整发言者的音量大小，从而使播报系统播报出的语音能够在合适大小，既不过小，也不过大，以便于用户读听，同时还设有提醒单元，可从语音源头处来调整音量大小，从而更加方便用户读听，以保证用户能够清楚听到播报内容。

当然，实施本发明的任一产品并不一定需要同时达到以上所述的所有优点。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明的流程框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

在一个实施例中，如图1所示，公开了一种视讯系统的实时音频择路方法，该方法包括：

步骤一、设置音频择路最大激活路数K；

步骤二、媒体服务从网络接收数据，并解析为RTP音频数据；

步骤三、将获得的RTP音频数据进行处理后插入到滑动窗口；

通过上述技术方案，本实施例提供了一种音频择路的方法，为了避免多路语音流路同时输入造成语音混流，资源过多消耗的问题，本方案先将音频数据进行汇集，实时对输入的每路语音进行择路，通过滤波器滤波、滑动窗口以及TOP-K等算法处理，选择出音量最大的k路语音流送到端上，这里,K的取值可为3，这种方案首先节省了语音混流对服务器大量资源的消耗，其次送到端上的流都是独立的，较为容易做音画同步，同时为了使用户能够清楚的听到发言者的语音，还对即将播报的语音音量进行自动调整到合适大小，从而使用户体验感得到提升。

作为本发明的一种优选方案，步骤二中解析的RTP音频数据是按照SDP协商约定解析成携带audio-level扩展的RTP音频数据。

通过上述技术方案，在大型会议中，会有多个音频流，将RTP音频数据解析成携带audio-level扩展的RTP音频数据，可以用此来调整音频混流的策略，通过该解析扩展，音频包的发送者可以指示包的有效负载的音频级别，从而减少服务器的处理负载。

作为本发明的一种优选方案，步骤三中的处理方法为：

然后用127减去Audiolevel字段得到音频的能量值；

将获取的能量值通过滤波器进行滤波平滑处理。

通过上述技术方案，将RTP数据解析成携带audio-level扩展的RTP音频数据后，读取数据汇总的Audiolevel字段，Audiolevel字段指的是当前音频的输入电平大小，127为音量电平最大值，通过127减去Audiolevel字段得到该音频的能量值，为了避免获得能量值有杂音干扰，采用滤波器进行滤波处理，使得到的该段能力值更平滑。

作为本发明的一种优选方案，滤波器处理的方法包括静态滤波处理以及动态滤波处理，动态滤波处理系数根据发言者所处环境变化而变化，静态滤波处理系数根据设备历史数据获取。

通过上述技术方案，静态滤波处理以及动态滤波处理均采用归一化最小均方算法进行处理，归一化最小均方算法采用参考信号对输入的音频信号进行处理，从而实现回声消除等滤波操作。在本实施例中，静态滤波处理的滤波系数根据设备历史数据获取，通过对设备历史数据的分析，从而估计设备当前所处的声场传递函数，从而获取相应的滤波系数，而动态滤波处理系数根据发言者所处环境变化而变化，当发言者所处的环境杂音大，其系数相应也大，通过静态滤波处理和动态滤波处理输出的音频，从而可消除杂音或者回音感染，使得到的音频更加流畅平滑。

作为本发明的一种优选方案，步骤六中音量处理的方法为：

通过上述技术方案，由于每段音频的音量波动大小是不一样的，而且由于设备自身原因，所传递出的音频音量大小也不一样，因此获取每段音频数据的音量波动随时间变化的波形图，为了便于获取分析，同时将音频波形图等距分为n段长度，获取每段长度内的波谷值B_max以及波峰值B_min，从而通过公式X_i＝B_max-B_min求出每段长度的波频起伏值X_i；因为每段长度内的波频起伏值X_i越大，则说明该长度内的音频响度越大，同时通过公式求出该段音频数据的响度值Loudness，在式中/>为该段音频数据的平均波频起伏值，通过该公式可以看出当X_i越大，其响度值也越大，而/>也能看出整段音频数据的整体波动值状况，从而利于分析整段音频数据的质量波动情况；

同时获取每段长度内的波点个数M_i，通过公式求出该段音频数据的音调值Key，由于每段长度内的波点数越多，表示波峰之间的距离越短，其相应的音调也越大，从而可以分析出整段音频数据内的音调大小，再通过公式/>求出该段音频数据的质量波动值Y，α与β分别为各自的权重系数，Y_O为预设的标准阈值，其均可根据大数据中相关历史数据分析拟合得出，在此不过多叙述，当Y不为1时，说明整段音频数据的质量不佳，则对该音频数据的音量值进行调整，具体调整为，当Y＞1时，表明音频音量过大，则可相应的将音频音量减少(Y-1)*&₁个音量，当Y＜1时，表明音频音量过小，则可相应的将音频音量增加(1-Y)*&₂个音量，其中&₁、&₂为转化系数，进而播放给用户，使用户听起来更加的清楚，传达内容也更加准确。

作为本发明的一种优选方案，音频管道内还设有提醒单元，提醒单元用于每隔T时间段采集系统内的平均音量，并与系统预设音量进行比较：

若平均音量大于预设音量，则进行降音提醒；

若平均音量小于预设音量，则进行升音提醒；

若平均音量与预设音量一致，则不提醒。

通过上述技术方案，由于发言者在发言时，可能发言声音在变化，比如随着发言时间变长，声音会变小，而自身又无法察觉，从而影响用户获取；因此本方案在音频管道内设置提醒单元，每隔一段时间来统计发言者的在本段时间内的平均音量大小，并与系统预设音量进行比较，这里的一段时间可根据人为进行设定，当本段时间内的平均音量大于系统预设音量，说明发言者的音量较大，则相应的在下阶段提醒发言者进行降音，当平均音量小于预设音量，说明发言者的音量较小，则相应的在下阶段提醒发言者进行升音，当平均音量与预设音量一致，则说明发言者的音量合适，不需要调整，因此不用产生提醒，这样可以更好从源头对音量进行调节控制，从而使用户能够清楚的听到内容，给予用户更好的体验感。

本发明可从播报处来调整发言者的音频大小，从而使播报系统播报出的语音能够在合适大小，既不过小，也不过大，以便于用户读听，同时还设有提醒单元，可从语音源头处来调整音频大小，更加方便用户读听，以保证用户能够清楚听到播报内容。

以上内容仅仅是对本发明的构思所作的举例和说明，所属本技术领域的技术人员对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代，只要不偏离发明的构思或者超越本权利要求书所定义的范围，均应属于本发明的保护范围。

Claims

1.一种视讯系统的实时音频择路方法，其特征在于，所述方法包括：

步骤一、设置音频择路最大激活路数K；

步骤二、媒体服务从网络接收数据，并解析为RTP音频数据；

步骤三、将获得的RTP音频数据进行处理后插入到滑动窗口；

步骤六、将输入音频管道的音频数据进行音量处理后传输到广播播报系统进行播报；

所述步骤六中音量处理的方法为：

获取每段音频数据的音频波形图，根据音频波形图来获取音频数据的响度值以及音调值，根据响度值以及音调值的变化来求得该段音频数据的质量波动值，从而根据质量波动值的大小来相应的调整整段音频数据的音量；

具体为：获取每段音频数据的音量波动随时间变化的波形图，将音频波形图等距分为n段长度，获取每段长度内的波谷值B_max以及波峰值B_min，通过公式X_i＝B_max-B_min求出每段长度的波频起伏值X_i；

通过公式求出该段音频数据的响度值Loudness；

获取每段长度内的波点个数M_i，通过公式求出该段音频数据的音调值Key；

通过公式求出该段音频数据的质量波动值Y，α与β分别为各自的权重系数，Y_O为预设的标准阈值；

当Y不为1时，则对该音频数据的音量值进行调整，其调整方法为：

当Y＞1时，表明音频音量过大，则可相应的将音频音量减少(Y-1)*&₁个音量；

当Y＜1时，表明音频音量过小，则可相应的将音频音量增加(1-Y)*&₂个音量；

其中&₁、&₂为转化系数。

2.根据权利要求1所述的一种视讯系统的实时音频择路方法，其特征在于，所述步骤二中解析的RTP音频数据是按照SDP协商约定解析成携带Audiolevel扩展的RTP音频数据。

3.根据权利要求1所述的一种视讯系统的实时音频择路方法，其特征在于，所述步骤三中的处理方法为：

然后用127减去Audiolevel字段得到音频的能量值；

将获取的能量值通过滤波器进行滤波平滑处理。

4.根据权利要求3所述的一种视讯系统的实时音频择路方法，其特征在于，所述滤波器处理的方法包括静态滤波处理以及动态滤波处理，所述动态滤波处理系数根据发言者所处环境变化而变化，所述静态滤波处理系数根据设备历史数据获取。

5.根据权利要求1所述的一种视讯系统的实时音频择路方法，其特征在于，所述音频管道内还设有提醒单元，所述提醒单元用于每隔T时间段采集系统内的平均音量，并与系统预设音量进行比较：

若平均音量大于预设音量，则进行降音提醒；

若平均音量小于预设音量，则进行升音提醒；

若平均音量与预设音量一致，则不提醒。