CN116614668A

CN116614668A - 一种直播音量的自适应控制方法、系统、设备及存储介质

Info

Publication number: CN116614668A
Application number: CN202310369497.3A
Authority: CN
Inventors: 刘心悦; 张康; 荣赶丁; 刘梁
Original assignee: Bigo Technology Pte Ltd
Current assignee: Bigo Technology Pte Ltd
Priority date: 2023-04-07
Filing date: 2023-04-07
Publication date: 2023-08-18

Abstract

本申请实施例公开了一种直播音量的自适应控制方法、系统、设备及存储介质。本申请实施例提供的技术方案，通过获取目标音频，确定目标音频的场景信息；进而计算目标音频的信号能量，基于场景信息对信号能量进行平滑处理得到目标音频的平滑信号；之后根据场景信息、信号能量和平滑信号估计目标音频的信号增益，基于信号增益调整目标音频的音量。采用上述技术手段，通过结合场景信息对目标音频进行平滑处理，可以针对不同场景实现音频信号的平滑表示。进而根据平滑信号估计信号增益并进行音频的音量调整，使得语音场景的音频信号更加清晰稳定，音乐场景的音频信号更加平滑，满足不同场景下的音量增益控制需求，提升用户的听感体验。

Description

一种直播音量的自适应控制方法、系统、设备及存储介质

技术领域

本申请实施例涉及音频处理技术领域，尤其涉及一种直播音量的自适应控制方法、系统、设备及存储介质。

背景技术

目前，在网络直播场景中，为了适应不同主播录制内容的音量差异，使得整个直播平台的音量相对稳定，需要对直播音量进行音量控制。在进行音量控制时，通过实时跟踪音频信号并且给予动态增益，以对主播的声音音量进行调整，使主播的声音音量的峰值稳定在同一幅值。

但是，现有的音量控制方案只适用于语音场景，为了控制主播音量峰值处于稳定的幅值，会使处理后的音频信号的动态范围降低。对于音乐场景、语音混合音乐等场景下的音量控制，其稳定相对较差，会对其中的音乐信号造成动态性损伤，导致用户的听感欠佳。

发明内容

本申请实施例提供一种直播音量的自适应控制方法、系统、设备及存储介质，能够提升音量控制的稳定性和场景适应性，解决不同场景下音量控制稳定性较差的技术问题。

在第一方面，本申请实施例提供了一种直播音量的自适应控制方法，包括：

获取目标音频，确定目标音频的场景信息；

计算目标音频的信号能量，基于场景信息对信号能量进行平滑处理得到目标音频的平滑信号；

根据场景信息、信号能量和平滑信号估计目标音频的信号增益，基于信号增益调整目标音频的音量。

在第二方面，本申请实施例提供了一种直播音量的自适应控制系统，包括：

信号检测模块，配置为获取目标音频，确定目标音频的场景信息；

信号跟踪模块，配置为计算目标音频的信号能量，基于场景信息对信号能量进行平滑处理得到目标音频的平滑信号；

增益估计模块，配置为根据场景信息、信号能量和平滑信号估计目标音频的信号增益；

增益处理模块，配置为基于信号增益调整目标音频的音量。

在第三方面，本申请实施例提供了一种直播音量的自适应控制设备，包括：

存储器以及一个或多个处理器；

所述存储器，配置为存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如第一方面所述的直播音量的自适应控制方法。

在第四方面，本申请实施例提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机可执行指令，所述计算机可执行指令在由计算机处理器执行时配置为执行如第一方面所述的直播音量的自适应控制方法。

在第五方面，本申请实施例提供了一种计算机程序产品，所述计算机程序产品中包含有指令，当指令在计算机或处理器上运行时，使得计算机或处理器执行如第一方面所述的直播音量的自适应控制方法。

本申请实施例通过获取目标音频，确定目标音频的场景信息；进而计算目标音频的信号能量，基于场景信息对信号能量进行平滑处理得到目标音频的平滑信号；之后根据场景信息、信号能量和平滑信号估计目标音频的信号增益，基于信号增益调整目标音频的音量。采用上述技术手段，通过结合场景信息对目标音频进行平滑处理，以此可以针对不同场景实现音频信号的平滑表示。进而根据平滑信号估计信号增益并进行音频的音量调整，使得语音场景的音频信号更加清晰稳定，音乐场景的音频信号保留动态范围、音量更合适，满足不同场景下的音量增益控制需求，优化音量控制结果，提升用户的听感体验。

附图说明

图1是本申请实施例提供的一种直播音量的自适应控制方法的流程图；

图2是本申请实施例中目标音频的处理流程图；

图3是本申请实施例中的信号平滑处理示意图；

图4是本申请实施例中的信号能量转换示意图；

图5是本申请实施例中的平滑信号转换示意图；

图6是本申请实施例中的信号增益计算流程图；

图7是本申请实施例中的信号增益估计示意图；

图8是本申请实施例中的目标增益值查询示意图；

图9是本申请实施例提供的一种直播音量的自适应控制系统的结构示意图；

图10是本申请实施例提供的一种直播音量的自适应控制设备的结构示意图。

具体实施方式

为了使本申请的目的、技术方案和优点更加清楚，下面结合附图对本申请具体实施例作进一步的详细描述。可以理解的是，此处所描述的具体实施例仅仅用于解释本申请，而非对本申请的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本申请相关的部分而非全部内容。在更加详细地讨论示例性实施例之前应当提到的是，一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各项操作(或步骤)描述成顺序的处理，但是其中的许多操作可以被并行地、并发地或者同时实施。此外，各项操作的顺序可以被重新安排。当其操作完成时所述处理可以被终止，但是还可以具有未包括在附图中的附加步骤。所述处理可以对应于方法、函数、规程、子例程、子程序等等。

本申请提供的直播音量的自适应控制方法，旨在通过结合场景信息对目标音频进行平滑处理，并根据平滑信号估计信号增益并进行音频的音量调整，以满足不同场景下的音量增益控制需求，实现不同场景下的音量自适应控制，提升用户的听感体验。

一般而言，在音视频业务场景中，用户倾向于稳定、流畅、清晰的音频体验，音量是影响音频体验的重要因素。音量过大会导致爆音，听众可能会感觉到声音刺耳，音量过小会让人听起来感觉吃力，声音不够清晰，且不同的音频类型需要不同的音量体验。在网络直播场景中，好的音量体验是音量合适的前提下，保证连续的语音信号的音量大小稳定，连续的音乐信号有动态起伏的感觉，同时噪声信号不过度放大。而在直播平台中，由于主播们使用的设备、直播场景以及各自录制的内容不同，导致不同主播存在较大的音量差异，故平台方需要使用音量控制算法进行调整，使得整个直播平台的音量相对稳定。由于人在语音、音乐、噪声场景对音量的需求是不同的，传统的音量控制技术主要针对特定的场景开发不同算法内核。在网络直播中如果粗暴地在不同场景使用不同的技术，则场景切换的衔接点上可能会存在算法冲突或者过度不自然的情况，降低整体的音质。对于语音场景、音乐场景、语音混合音乐等场景下的音量控制，仅针对其中一种类型的音频信号进行针对性音量控制，会影响其他类型音频信号音量处理，其稳定相对较差。

因此，适用于网络直播的音量控制方法应根据不同环境的需求，为用户提供智能化的音量调节功能。基于此，提供本申请实施例的一种直播音量的自适应控制方法，以解决不同场景下音量控制稳定性较差的技术问题。

实施例：

图1给出了本申请实施例提供的一种直播音量的自适应控制方法的流程图，本实施例中提供的直播音量的自适应控制方法可以由直播音量的自适应控制设备执行，该直播音量的自适应控制设备可以通过软件和/或硬件的方式实现，该直播音量的自适应控制设备可以是两个或多个物理实体构成，也可以是一个物理实体构成。一般而言，该直播音量的自适应控制设备可以是音频处理服务器、直播端设备、电脑，手机和平板等处理设备。

下述以该直播音量的自适应控制设备为执行直播音量的自适应控制方法的主体为例，进行描述。参照图1，该直播音量的自适应控制方法具体包括：

S110、获取目标音频，确定目标音频的场景信息；

S120、计算目标音频的信号能量，基于场景信息对信号能量进行平滑处理得到目标音频的平滑信号；

S130、根据场景信息、信号能量和平滑信号估计目标音频的信号增益，基于信号增益调整目标音频的音量。

本申请实施例在进行直播音量控制时，通过确定输入音频信号的场景信息，以根据场景信息适应性进行音量控制。对应输入该直播音量的自适应控制设备的音频信号，定义为目标音频，通过识别该目标音频的场景信息，以根据场景信息为目标音频的平滑处理和信号增益估计提供相应的策略参数，进而实时调整目标音频的音量。

一般而言，网络直播中为了降低不同直播间之间的音量差距，优化直播间内的音量体验，通常会引入音量控制方法，提供信号的压缩和放大能力，使声音听起来更稳定和更大声。基于此，本申请实施例通过提供一个基于场景的音频处理逻辑，以实现网络直播场景中音量的精准、稳定控制。

参照图2，提供本申请实施例目标音频的处理流程图，通过上述基于场景的音频处理逻辑，以对输入设备的目标音频进行音量控制。其中，对应输入信号x[n](即目标音频)，通过计算相应的信号增益，使用信号增益对其进行调整。在计算信号增益时，首先使用一个信号检测模块检测目标音频的场景信息，信号检测模块为一个复合模型，其可以提供输入信号的场景信息。信号检测模块使用SED(Signal Environment Detection信号场景检测)技术将输入信号分类为语音、音乐、语音混音乐、含噪信号等不同场景，进而输出相应的场景信息。SED技术提供了帧级别的场景分类，但频繁、快速地切换场景显然不符合网络直播场景。因此本申请还进一步对SED进行了后处理操作，使得信号检测模块提供秒级别的场景信息。

进一步使用信号跟踪模块对输入信号进行信号跟踪，以得到目标音频的平滑信号。信号跟踪模块通过计算目标音频各帧信号的帧大小，得到目标音频的信号能量。进而基于该信号能量以及根据场景信息确定相关参数信息，将目标音频从瞬时变化的幅值转换为平滑变化的包络形式的幅值，即平滑信号。信号跟踪模块通过设计不同的近指数平滑方程，对前后两帧的信号进行平滑，实现语音场景下信号跟踪精准、快速，音乐场景下精准、平滑、稳定的功能。

之后，基于该平滑信号，使用增益估计模块估计目标音频所需要的增益量，即信号增益。增益估计模块结合场景信息所提供的参数计算平滑信号和目标音频帧原始的信号能量的增益值，进而得到目标音频的信号增益。信号增益传递该增益处理模块，通过增益处理模块基于该信号增益进行目标音频的增益施加操作，以此即可使用信号增益对目标音频进行音量调整。

此外，本申请还通过控制模块，以根据场景信息为信号跟踪模块和增益估计模块提供相应的计算参数，实现不同场景下音量的自适应调整。控制模块通过接收信号检测模块传递过来的场景信息，当场景信息相对前一输入信号发生切换时，控制模块对信号跟踪模块和增益估计模块进行参数、音量控制策略调整。可选地，为了保证场景切换的自然度和流畅度，可以设计不同的切换策略，即场景A切换到场景B和场景B切换到场景A的策略不同，满足不同场景下的音量适应性控制。

根据不同场景中声音信号的特征获取场景信息，利用场景信息提供影响参数和额外机制控制实时信号跟踪和增益估计流程，以此得到的信号增益进行音量控制，使得语音信号跟踪更加准确、快速，音乐信号跟踪估计更加平滑可控，并且通过额外的增益补偿、增益控制模块满足不同场景下的信号增益需求，从而获得网络直播中更好的音量控制结果，提供用户的听感体验。

具体地，信号检测模块在确定目标音频的场景信息时，包括：

S1101、对目标音频进行语音识别，得到语音信息和噪声信息；

S1102、根据目标音频的信号组成确定目标音频的场景标签；

S1103、以语音信息、噪声信息和场景标签作为场景信息。

考虑到单一的信号检测模型可能会发生误判，故本申请实施例的信号检测模块使用两类模型进行信号检测，主要包括音频信号检测模型(SED)和音频识别模型(VAD)。其中目标音频的场景标签由音频信号检测模型决定，音频识别模型提供额外的校准信息，增加噪声场景的判断条件。其中音频信号检测模型为神经网络实现的信号分类模型，音频识别模型为基于能量特征的GMM高斯混合模型。对应该目标音频，每次输入200帧信号至信号检测模块的两个模型中，每帧信号长度为10ms。音频识别模型通过语音识别，输出200帧信号中的语音信号帧数和噪声信号帧数，即语音信息和噪声信息，用于辅助场景分类。音频信号检测模型通过信号检测，输出三个长度为200的数组，数组的元素取值范围为0～1的概率值。表示200帧信号中，每一帧信号是语音、音乐或者噪声的概率。

进一步地，音频信号检测模型还根据上述概率信息进行后处理，输出目标音频的场景标签。其中，通过确定目标音频中各个信号类型的概率值，基于各个概率值确定目标音频的场景标签，信号类型包括语音信号、音乐信号和噪声信号。音频信号检测模型通过统计200帧信号判断为语音、音乐、噪声的概率，结合模型分类的倾向性、和离线实验结果设定不同的阈值参数α、β、θ，后处理方程具体如下：

nums_voice[i]>α，i∈[1:200]，即voice_frame_count+1；

nums_music[i]>，i∈[1:200]，即music_frame_count+1；

nums_noise[i]>θ，i∈[1:200]，即noise_frame_count+1。

其中，nums_voice[i]表示语音信号概率，nums_music[i]表示音乐信号概率，nums_noise[i]表示噪声信号概率。通过逐帧信号的信号概率比对上述对应的阈值参数α、β、θ，在信号概率大于阈值参数则对应信号累计值加1。进而得到音乐、音乐和噪声信号的累计值voice_frame_count，music_frame_count和noise_frame_count。根据三个信号累计值，输出对应的场景标签：

label＝max(voice_frame_count，music_frame_count，noise_frame_count)

最终，基于上述语音信息、噪声信息和场景标签，即可得到目标音频的场景信息，该场景信息表明目标音频所处的场景。需要说明的是，目标音频每200帧信号输出一个场景标签，根据目标音频的多个场景标签，可以得到目标音频所处的音频场景。音频场景一共分为7种，包括语音场景、音乐场景、混合场景、该三个场景对应的带噪场景和纯噪声场景。其中，如果连续10个场景标签中，有5个相同的语音场景标签，则认为目标音频处于语音场景中；如果连续10个场景标签中，语音场景、音乐场景标签的数量均大于等于3，则认为目标音频处于混合场景；如果连续10个场景标签中，存在2个以上的噪声场景标签，则在场景判断的基础上加上带噪；初始场景设定为音乐场景，其他情况则维持原有的场景信息，不进行切换。通过上述场景标签可以确定目标音频所处的场景，语音信息和噪声信息提供辅助的参考信息，可以对上述场景标签确定的场景进行修正。以便于精准地制定相应的参数，用于后续的信号跟踪和增益估计。可选地，根据不同的音频场景，可以预先设定不同的参数用于后续的信号跟踪和增益估计。同时，当从不同的场景切换到同一个场景中时，其参数设置也可以不同。例如，从语音或者音乐场景切换到混合场景，两者参数设置不相同，以此来保障不同场景切换的情况下，音量控制的稳定性和可靠性。此外，还可以结合对应的语音信息和噪声信息进行参数的设置。具体的参数设置细节可以根据实际的信号跟踪和增益估计需求预先定制，在此不做固定限制。

之后，对应上述目标音频，通过信号跟踪模块确定目标音频的平滑信号。参照图3，信号跟踪模块以每帧信号长度为10ms的音频帧为输入，对输入信号首先计算信号能量RMS。计算信号能量RMS用来表示信号的大小，RMS值，也称为有效值，是信号的平方根，用于表征信号中的能量大小。信号能量计算公式表示为：

其中，k表示一帧信号中的采样点数量，y_i为每个采样点的幅值，第n帧信号的能量RMS用x[n]来表示。通过对输入信号的信号幅值进行上述信号能量计算公式的转换，得到输入信号的信号能量。参照图4，输入信号从上方的信号幅值，通过转换得到下方对应的信号能量，

进而基于场景信息对信号能量进行平滑处理得到目标音频的平滑信号，其中，根据场景信息确定平滑参数，将平滑参数和信号能量代入设定平滑处理公式，得到目标音频的平滑信号。

信号能量平滑可以使得信号从瞬时变化变成包络形式的平滑变化，通过信号近指数的平滑，设当前帧输入信号为x[n]，当前帧平滑信号为y[n]。基于该输入信号x[n]，使用相应的平滑参数计算平滑信号。

在此之前，通过获取历史平滑参数，根据场景信息确定当前平滑参数和历史平滑参数的权重系数，根据权重系数和历史平滑参数计算当前平滑参数。平滑参数计算公式如下：

αR[n]＝a0*αR[n]+a1*αR[n-1]+a2*αR[n-2]-b1*αR[n-1]-b2*αR[n-2]

αA[n]＝a0*αA[n]+a1*αA[n-1]+a2*αA[n-2]-b1*αA[n-1]-b2*αA[n-2]

其中a0、a1、a2、b1、b2为根据场景信息提供的参数，即权重系数，αR[n]和αA[n]表示当前平滑参数，αR[n-1]、αR[n-2]、αA[n-1]和αA[n-2]表示历史平滑参数。对应不同的音频场景，其权重系数均不同。

基于上述平滑参数，得到平滑信号计算公式如下：

y[n]＝αA*y[n-1]+(1-αA[n])*temp

temp＝max(x[n],αR[n]*y[n-1]+(1-αR[n])*x[n])

其中，y[n-1]表示前一帧平滑信号，αR[n]*y[n-1]+(1-αR[n])*x[n]表示当前帧的平滑参考，即从前一帧平滑后的y[n-1]和当前帧的αR[n]的平滑计算。若当前帧的真实情况大于平滑参考的时候，代表当前帧信号是上升的则当前帧的平滑信号为：

y[n]＝αA*y[n-1]+(1-αA[n])*X[n]；

在当前帧的真实情况小于平滑参考的时候，则当前帧的平滑信号为：

y[n]＝αA*y[n-1]+(1-αA[n])*(αR[n]*y[n-1]+(1-αR[n])*x[n])

当前帧的平滑信号根据当前帧信号、当前帧的平滑参考以及当前帧信号的上升或者下降状态确定。不同的αA[n]和αR[n]参数，其形成的平滑信号包络不一样，精准性和平滑性也各有侧重(如语音场景信号跟踪快速、音乐场景信号跟踪平滑)，以此可以实现更精准、适应性更强的信号控制。信号平滑处理如图5所示，通过平滑处理上方的信号能量，得到下方的平滑信号。

进而基于上述场景信息、信号能量和平滑信号估计目标音频的信号增益，参照图6，信号增益计算流程包括：

S1301、确定信号能量的第一目标增益值和平滑信号的第二目标增益值；

S1302、根据场景信息确定信号增益的影响参数，基于影响参数、第一目标增益值和第二目标增益值计算信号增益。

具体地，对应上述得到的目标音频的信号能量和平滑信号，通过确定信号原始的信号能量和平滑处理后的平滑信号所需的目标增益值，以根据目标增益值确定目标音频的信号增益。其中，确定信号能量的第一目标增益值和平滑信号的第二目标增益值，包括：将信号能量的信号幅值转换为第一分贝值，将平滑信号转换为第二分贝值；根据第一分贝值查询设定映射关系确定第一目标增益值，根据第二分贝值查询设定映射关系确定第二目标增益值，设定映射关系预先根据不同分贝值与对应的目标增益值构建。

参照图7，基于目标音频中音频信号的信号能量和平滑信号，先将信号能量(即当前信号)和平滑信号从线性值转换为分贝值xdB[n]，再根据设定映射关系gain_map确定当前帧信号x[n]需要的控制量，即目标增益值gaindB[n]，即gaindB[n]＝gain_map(xdB[n])，其中在不同的场景有不同的gain_map()。之后将gaindB[n]转换为线性的信号增益gain[n]，完成信号增益计算。

在将信号从线性域的表示转换为dB域，得到对应分贝值时，其转换形式为:

XdB[n]＝max(10*log10(X[n]),-90)

则当前信号的分贝值为cur_RMS_dB＝max(10*log10(cur_RMS[n]),-90)平滑信号的分贝值为smooth_RMS_dB＝max(10*log10(smooth_RMS[n]),-90)

映射关系gain_map如图8所示，对角直线为输入信号的分贝值，曲线为输入信号的目标增益值。坐标[-38，-22.431]表示当前帧输入信号-38dB，算法输出目标信号应为-22.431dB，其计算形式为：gaindB[n]＝gain_map(XdB[n])。

参照上述映射关系，先分别计算cur_RMS_dB[n]和smooth_RMS_dB[n]所需要对应的目标增益值gain_1[n]和gain_2[n]，再根据控制模块根据场景信息确定的信号增益的影响参数，基于影响参数、第一目标增益值和第二目标增益值计算信号增益。影响参数表示为make_up_gain和coff_gain，其中coff_gain取值范围为[0，1]，make_up_gain取值范围为[-3,6]，则信号增益gain[n]计算公式如下：

gain[n]＝(1-coff_gain)*gain_1[n]+coff_gain*gain_2[n])+make_up_gain

gain_1[n]＝gain_map(cur_RMS_dB[n])

gain_2[n]＝gain_map(smooth_RMS_dB[n])

基于上述信号增益gain[n]计算公式，即可得到根据场景信息适应性计算的信号增益。进而通过增益处理模块，以根据该信号增益调整目标音频音量。

其中，增益处理模块基于信号增益调整目标音频的音量，包括：

S1303、确定信号增益施加至目标音频后的调整音频；

S1304、在调整音频达到设定的削峰阈值的情况下，基于设定的参考信号调整信号增益，使用调整后的信号增益调整目标音频的音量；

S1305、在调整音频未达到设定的削峰阈值的情况下，使用信号增益调整目标音频的音量。

增益处理模块根据上述信号增益gain[n]计算最终作用于目标音频的响应线性增益gain_final[n]。为了防止gain[n]施加给目标音频输入信号x[n]后的输出信号发生削峰情况，本申请结合上一帧信号进行音量控制处理后的信号y_pre，对gain[n]进行修正得到真正作用于目标音频的响应线性增益gain_final[n]。通过对gain[n]进行修正，以防止信号增益gain[n]施加给输入信号x[n]后发生削峰。由于信号跟踪和增益估计模块有多次平滑操作，即可能存在gain[n]*x[n]>1的情况，因此需要避免削峰情况，对信号增益gain[n]进行修正。

则如果不存在削峰风险，即gain[n]*x[n]<1，1即为削峰阈值；

gain_final[n]＝gain[n]

如果存在削峰风险，即gain[n]*x[n]>1

y_pre[1]＝0.1

coff_gain＝y_pre[n-1]/gain[n]*x[n]

gain_final[n]＝coff_gain*gain[n]

基于上述修正公式，得到修正后的信号增益gain_final[n]，将gain_final[n]施加至目标音频，则可以得到增益后的信号h[n]，和用于下一帧峰值削峰的参考信号y_pre[n]：

y[n]＝x[n]*gain_final[n]

y_pre[n]＝h[n]

至此，通过上述信号检测、信号跟踪、增益估计和增益处理流程，即可实现基于场景的自适应音量控制，较好地处理网络直播中因设备多样性、场景多样性、和场景频繁切换、直播间频繁切换所带来的音量忽大忽小、爆音、失音问题。通过将输入信号映射到指定的动态范围，同时保证较大信号有合适的动态余量可以实现信号振幅保护，中小信号得到合适的放大，超小信号或者底噪被清除掉。使得语音场景信号音量稳定、足够大且动态变化小。音乐场景保持信号原有动态变化的同时音量足够大。此外在所有场景中嘈杂的背景声音不过度放大。同时切换不同的直播间时，直播间之间的音量差距较小。较好得解决在网络直播场景中，单一场景的技术与策略无法满足线上业务场景的问题。

上述，通过获取目标音频，确定目标音频的场景信息；进而计算目标音频的信号能量，基于场景信息对信号能量进行平滑处理得到目标音频的平滑信号；之后根据场景信息、信号能量和平滑信号估计目标音频的信号增益，基于信号增益调整目标音频的音量。采用上述技术手段，通过结合场景信息对目标音频进行平滑处理，以此可以针对不同场景实现音频信号的平滑表示。进而根据平滑信号估计信号增益并进行音频的音量调整，使得语音场景的音频信号更加清晰稳定，音乐场景的音频信号保留动态范围、音量更合适，满足不同场景下的音量增益控制需求，优化音量控制结果，提升用户的听感体验。

在上述实施例的基础上，图9为本申请提供的一种直播音量的自适应控制系统的结构示意图。参考图9，本实施例提供的直播音量的自适应控制系统具体包括：信号检测模块21、信号跟踪模块22、增益估计模块23和增益处理模块24。

其中，信号检测模块21配置为获取目标音频，确定目标音频的场景信息；

信号跟踪模块22配置为计算目标音频的信号能量，基于场景信息对信号能量进行平滑处理得到目标音频的平滑信号；

增益估计模块23配置为根据场景信息、信号能量和平滑信号估计目标音频的信号增益；

增益处理模块24配置为基于信号增益调整目标音频的音量。

具体地，确定目标音频的场景信息，包括：

对目标音频进行语音识别，得到语音信息和噪声信息；

根据目标音频的信号组成确定目标音频的场景标签；

以语音信息、噪声信息和场景标签作为场景信息。

其中，根据目标音频的信号组成确定目标音频的场景标签，包括：

确定目标音频中各个信号类型的概率值，基于各个概率值确定目标音频的场景标签，信号类型包括语音信号、音乐信号和噪声信号。

具体地，基于场景信息对信号能量进行平滑处理得到目标音频的平滑信号，包括：

根据场景信息确定平滑参数，将平滑参数和信号能量代入设定平滑处理公式，得到目标音频的平滑信号。

其中，根据场景信息确定平滑参数，包括：

获取历史平滑参数，根据场景信息确定当前平滑参数和历史平滑参数的权重系数，根据权重系数和历史平滑参数计算当前平滑参数。

具体地，根据场景信息、信号能量和平滑信号估计目标音频的信号增益，包括：

确定信号能量的第一目标增益值和平滑信号的第二目标增益值；

根据场景信息确定信号增益的影响参数，基于影响参数、第一目标增益值和第二目标增益值计算信号增益。

其中，确定信号能量的第一目标增益值和平滑信号的第二目标增益值，包括：

将信号能量的信号幅值转换为第一分贝值，将平滑信号转换为第二分贝值；

根据第一分贝值查询设定映射关系确定第一目标增益值，根据第二分贝值查询设定映射关系确定第二目标增益值，设定映射关系预先根据不同分贝值与对应的目标增益值构建。

具体地，基于信号增益调整目标音频的音量，包括：

确定信号增益施加至目标音频后的调整音频；

在调整音频达到设定的削峰阈值的情况下，基于设定的参考信号调整信号增益，使用调整后的信号增益调整目标音频的音量；

在调整音频未达到设定的削峰阈值的情况下，使用信号增益调整目标音频的音量。

本申请实施例提供的直播音量的自适应控制系统可以配置为执行上述实施例提供的直播音量的自适应控制方法，具备相应的功能和有益效果。

在上述实际上例的基础上，本申请实施例还提供了一种直播音量的自适应控制设备，参照图10，该直播音量的自适应控制设备包括：处理器31、存储器32、通信模块33、输入装置34及输出装置35。存储器32作为一种计算机可读存储介质，可配置为存储软件程序、计算机可执行程序以及模块，如本申请任意实施例所述的直播音量的自适应控制方法对应的程序指令/模块(例如，直播音量的自适应控制系统中的信号检测模块、信号跟踪模块、增益估计模块和增益处理模块)。通信模块33配置为进行数据传输。处理器31通过运行存储在存储器中的软件程序、指令以及模块，从而执行设备的各种功能应用以及数据处理，即实现上述的直播音量的自适应控制方法。输入装置34可配置为接收输入的数字或字符信息，以及产生与设备的用户设置以及功能控制有关的键信号输入。输出装置35可包括显示屏等显示设备。上述提供的直播音量的自适应控制设备可配置为执行上述实施例提供的直播音量的自适应控制方法，具备相应的功能和有益效果。

在上述实施例的基础上，本申请实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机可执行指令，所述计算机可执行指令在由计算机处理器执行时配置为执行一种直播音量的自适应控制方法，存储介质可以是任何的各种类型的存储器设备或存储设备。当然，本申请实施例所提供的一种计算机可读存储介质，其计算机可执行指令不限于如上所述的直播音量的自适应控制方法，还可以执行本申请任意实施例所提供的直播音量的自适应控制方法中的相关操作。

在上述实施例的基础上，本申请实施例还提供一种计算机程序产品，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机程序产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备、移动终端或其中的处理器执行本申请各个实施例所述直播音量的自适应控制方法的全部或部分步骤。

Claims

1.一种直播音量的自适应控制方法，其特征在于，包括：

获取目标音频，确定所述目标音频的场景信息；

计算所述目标音频的信号能量，基于所述场景信息对所述信号能量进行平滑处理得到所述目标音频的平滑信号；

根据所述场景信息、所述信号能量和所述平滑信号估计所述目标音频的信号增益，基于所述信号增益调整所述目标音频的音量。

2.根据权利要求1所述的直播音量的自适应控制方法，其特征在于，所述确定所述目标音频的场景信息，包括：

对所述目标音频进行语音识别，得到语音信息和噪声信息；

根据所述目标音频的信号组成确定所述目标音频的场景标签；

以所述语音信息、噪声信息和所述场景标签作为所述场景信息。

3.根据权利要求2所述的直播音量的自适应控制方法，其特征在于，所述根据所述目标音频的信号组成确定所述目标音频的场景标签，包括：

确定所述目标音频中各个信号类型的概率值，基于各个所述概率值确定所述目标音频的场景标签，所述信号类型包括语音信号、音乐信号和噪声信号。

4.根据权利要求1所述的直播音量的自适应控制方法，其特征在于，所述基于所述场景信息对所述信号能量进行平滑处理得到所述目标音频的平滑信号，包括：

根据所述场景信息确定平滑参数，将所述平滑参数和所述信号能量代入设定平滑处理公式，得到所述目标音频的平滑信号。

5.根据权利要求4所述的直播音量的自适应控制方法，其特征在于，所述根据所述场景信息确定平滑参数，包括：

获取历史平滑参数，根据所述场景信息确定当前平滑参数和历史平滑参数的权重系数，根据所述权重系数和历史平滑参数计算当前平滑参数。

6.根据权利要求1所述的直播音量的自适应控制方法，其特征在于，所述根据所述场景信息、所述信号能量和所述平滑信号估计所述目标音频的信号增益，包括：

确定所述信号能量的第一目标增益值和所述平滑信号的第二目标增益值；

根据所述场景信息确定所述信号增益的影响参数，基于所述影响参数、所述第一目标增益值和所述第二目标增益值计算所述信号增益。

7.根据权利要求6所述的直播音量的自适应控制方法，其特征在于，所述确定所述信号能量的第一目标增益值和所述平滑信号的第二目标增益值，包括：

将所述信号能量的信号幅值转换为第一分贝值，将所述平滑信号转换为第二分贝值；

根据所述第一分贝值查询设定映射关系确定所述第一目标增益值，根据所述第二分贝值查询所述设定映射关系确定所述第二目标增益值，所述设定映射关系预先根据不同分贝值与对应的目标增益值构建。

8.根据权利要求1所述的直播音量的自适应控制方法，其特征在于，所述基于所述信号增益调整所述目标音频的音量，包括：

确定所述信号增益施加至所述目标音频后的调整音频；

在所述调整音频达到设定的削峰阈值的情况下，基于设定的参考信号调整所述信号增益，使用调整后的所述信号增益调整所述目标音频的音量；

在所述调整音频未达到设定的削峰阈值的情况下，使用所述信号增益调整所述目标音频的音量。

9.一种直播音量的自适应控制系统，其特征在于，包括：

信号检测模块，配置为获取目标音频，确定所述目标音频的场景信息；

信号跟踪模块，配置为计算所述目标音频的信号能量，基于所述场景信息对所述信号能量进行平滑处理得到所述目标音频的平滑信号；

增益估计模块，配置为根据所述场景信息、所述信号能量和所述平滑信号估计所述目标音频的信号增益；

增益处理模块，配置为基于所述信号增益调整所述目标音频的音量。

10.一种直播音量的自适应控制设备，其特征在于，包括：

存储器以及一个或多个处理器；

所述存储器，配置为存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-8任一所述的直播音量的自适应控制方法。

11.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机可执行指令，所述计算机可执行指令在由计算机处理器执行时配置为执行如权利要求1-8任一所述的直播音量的自适应控制方法。

12.一种计算机程序产品，其特征在于，所述计算机程序产品中包含有指令，当所述指令在计算机或处理器上运行时，使得所述计算机或处理器执行如权利要求1-8任一所述的直播音量的自适应控制方法。