CN109213471A

CN109213471A - 一种音量的调节方法及系统

Info

Publication number: CN109213471A
Application number: CN201811235944.1A
Authority: CN
Inventors: 邱泽宇; 李昂
Original assignee: Beijing QIYI Century Science and Technology Co Ltd
Current assignee: Beijing QIYI Century Science and Technology Co Ltd
Priority date: 2018-10-23
Filing date: 2018-10-23
Publication date: 2019-01-15
Anticipated expiration: 2038-10-23
Also published as: CN109213471B

Abstract

本发明公开了一种音量的调节方法及系统，从环境中采集音频信号后，将该音频信号分割成多个短时音频帧，当短时音频帧中的短时能量大于短时能量阈值，短时频率大于短时频率阈值时，判定相对应的短时音频帧处于语音混合状态，通过对所有处于语音混合状态的短时音频帧进行处理，将高于基准音频帧的短时音频帧调低至所述基准音频帧，将低于基准音频帧的短时音频帧调高至所述基准音频帧，实现对音量的自动调节。从而解决了语音互动时，产生音量大幅波动的问题，并省去了用户手动调节播放器的音量的过程，因此提高了语音互动体验，使用户可以进行正常的语音交流。

Description

一种音量的调节方法及系统

技术领域

本发明涉及语音调节技术领域，更具体的说，涉及一种音量的调节方法及系统。

背景技术

在多人语音实时互动，比如直播时，由于种种因素，如新的参与者加入、环境噪音以及设备问题，有时会发生音量突然变大或突然变小的情况，或是产生刺耳的噪声，俗称“炸麦”，因此会对正常的语音交流产生影响，进而还可能影响用户的其他行为，如直播和游戏。

当出现“炸麦”现象时，就需要用户手动调节播放器的音量，这对用户而言是极其不方便的，而现有的语音实时通信软件还无法避免“炸麦”现象。因此，如何提供一种音量的调节方法及系统，实现对音量的自动调节成为了本领域技术人员亟需解决的技术问题。

发明内容

有鉴于此，本发明公开一种音量的调节方法及系统，以解决语音互动时，产生音量大幅波动的问题，并省去用户手动调节播放器的音量的过程，因此提高了语音互动体验，使用户可以进行正常的语音交流。

一种音量的调节方法，包括：

采集环境中的音频信号；

将所述音频信号分割成多个短时音频帧，所述短时音频帧的短时特征包括：短时能量和短时频率；

判断所述短时能量是否大于短时能量阈值，且所述短时频率是否大于短时频率阈值；

如果是，则判定相对应的短时音频帧处于语音混合状态，所述语音混合状态包括：超过声音标准值的声音以及低于所述声音标准值的声音；

对所有处于语音混合状态的短时音频帧进行处理，将高于基准音频帧的短时音频帧调低至所述基准音频帧，将低于所述基准音频帧的短时音频帧调高至所述基准音频帧，实现对音量的自动调节。

优选的，所述对所有处于语音混合状态的短时音频帧进行处理，将高于基准音频帧的短时音频帧调低至所述基准音频帧，将低于所述基准音频帧的短时音频帧调高至所述基准音频帧，实现对音量进行自动调节，具体包括：

每检测到一个处于语音混合状态的短时音频帧，则对检测到的短时音频帧采用小波变换，得到来自不同用户的短时音频帧和环境噪声帧；

采用小波滤波方法对所述环境噪声帧进行滤除；

计算所有用户的短时音频帧在被检时刻的平均值；

当所述平均值与所述被检时刻的上一时刻的平均值的差值不在预设差值范围内时，则将所述被检时刻的平均值作为所述基准音频帧。

连续检测N个处于语音混合状态的短时音频帧，对每个被检短时音频帧采用小波变换，得到每个所述被检短时音频帧中包含的来自不同用户的短时音频帧和环境噪声帧，N为大于1的正整数；

采用小波滤波方法对每个所述被检短时音频帧中包含的环境噪声帧进行滤除；

分别计算每个所述被检短时音频帧相对应的所有用户的短时音频帧在被检时刻的平均值；

当所述平均值与所述被检时刻的上一时刻的平均值的差值不在预设差值范围内时，则将所述被检时刻的平均值作为相对应的被检短时音频帧的基准音频帧。

优选的，当处于语音混合状态的短时音频帧的被检时刻为第一次检测对应的时刻时，所述基准音频帧为预先设定的默认值。

优选的，当所述平均值与所述被检时刻的上一时刻的平均值的差值在所述预设差值范围内时，则跳过对所述被检时刻对应的来自不同用户的短时音频帧的调节过程，并继续对所述被检时刻的下一时刻的处于语音混合状态的短时音频帧进行调节。

优选的，还包括：

当所述短时能量不大于所述短时能量阈值，或所述短时频率不大于所述短时频率阈值时，则判定相对应的短时音频帧处于语音正常状态。

一种音量的调节系统，包括：

采集单元，用于采集环境中的音频信号；

分割单元，用于将所述音频信号分割成多个短时音频帧，所述短时音频帧的短时特征包括：短时能量和短时频率；

判断单元，用于判断所述短时能量是否大于短时能量阈值，且所述短时频率是否大于短时频率阈值；

第一判定单元，用于在所述判断单元判断为是的情况下，判定相对应的短时音频帧处于语音混合状态，所述语音混合状态包括：超过声音标准值的声音以及低于所述声音标准值的声音；

音量调节单元，用于对所有处于语音混合状态的短时音频帧进行处理，将高于基准音频帧的短时音频帧调低至所述基准音频帧，将低于所述基准音频帧的短时音频帧调高至所述基准音频帧，实现对音量的自动调节。

优选的，所述音量调节单元包括：

第一变换子单元，用于每检测到一个处于语音混合状态的短时音频帧，则对检测到的短时音频帧采用小波变换，得到来自不同用户的短时音频帧和环境噪声帧；

第一噪声滤除子单元，用于采用小波滤波方法对所述环境噪声帧进行滤除；

第一计算子单元，用于计算所有用户的短时音频帧在被检时刻的平均值；

第一音量调节子单元，用于当所述平均值与所述被检时刻的上一时刻的平均值的差值不在预设差值范围内时，则将所述被检时刻的平均值作为所述基准音频帧。

优选的，所述音量调节单元包括：

第二变换子单元，用于连续检测N个处于语音混合状态的短时音频帧，对每个被检短时音频帧采用小波变换，得到每个所述被检短时音频帧中包含的来自不同用户的短时音频帧和环境噪声帧，N为大于1的正整数；

第二噪声滤除子单元，用于采用小波滤波方法对每个所述被检短时音频帧中包含的环境噪声帧进行滤除；

第二计算子单元，用于分别计算每个所述被检短时音频帧相对应的所有用户的短时音频帧在被检时刻的平均值；

第二音量调节子单元，用于当所述平均值与所述被检时刻的上一时刻的平均值的差值不在预设差值范围内时，则将所述被检时刻的平均值作为相对应的被检短时音频帧的基准音频帧。

优选的，还包括：

跳过子单元，用于当所述平均值与所述被检时刻的上一时刻的平均值的差值在所述预设差值范围内时，则跳过对所述被检时刻对应的来自不同用户的短时音频帧的调节过程，并继续对所述被检时刻的下一时刻的处于语音混合状态的短时音频帧进行调节。

优选的，还包括：

第二判定单元，用于在所述判断单元判断为否的情况下，当所述短时能量不大于所述短时能量阈值，或所述短时频率不大于所述短时频率阈值时，则判定相对应的短时音频帧处于语音正常状态。

从上述的技术方案可知，本发明公开了一种音量的调节方法及系统，从环境中采集音频信号后，将该音频信号分割成多个短时音频帧，当短时音频帧中的短时能量大于短时能量阈值，短时频率大于短时频率阈值时，判定相对应的短时音频帧处于语音混合状态，通过对所有处于语音混合状态的短时音频帧进行处理，将高于基准音频帧的短时音频帧调低至所述基准音频帧，将低于基准音频帧的短时音频帧调高至所述基准音频帧，实现对音量的自动调节。从而解决了语音互动时，产生音量大幅波动的问题，并省去了用户手动调节播放器的音量的过程，因此提高了语音互动体验，使用户可以进行正常的语音交流。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据公开的附图获得其他的附图。

图1为本发明实施例公开的一种音量的调节方法流程图；

图2为本发明一实施例公开的一种对所有处于语音混合状态的短时音频帧进行调节的方法流程图；

图3为本发明一实施例公开的另一种对所有处于语音混合状态的短时音频帧进行调节的方法流程图；

图4为本发明实施例公开的一种音量的调节系统的结构示意图；

图5为本发明一实施例公开的一种音量调节单元的结构示意图；

图6为本发明一实施例公开的另一种音量调节单元的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例公开了一种音量的调节方法及系统，从环境中获取音频信号后，将该音频信号分割成多个短时音频帧，当短时音频帧中的短时能量大于短时能量阈值，短时频率大于短时频率阈值时，判定相对应的短时音频帧处于语音混合状态，通过对所有处于语音混合状态的短时音频帧进行处理，将高于基准音频帧的短时音频帧调低至所述基准音频帧，将低于基准音频帧的短时音频帧调高至所述基准音频帧，实现对音量的自动调节。从而解决了语音互动时，产生音量大幅波动的问题，并省去了用户手动调节播放器的音量的过程，因此提高了语音互动体验，使用户可以进行正常的语音交流。

参见图1，本发明一实施例公开的一种音量的调节方法流程图，该方法应用于播放器内的声音控制器，该方法包括步骤：

步骤S101、采集环境中的音频信号；

音频信号是携带有语音、音乐和音效的，有规律的声波的频率和幅度变化信息的载体，是一种电信号，能够被音频设备，如音响等接收，并由音频设备播放出声音。

通过对从环境中采集的音频信号进行分析处理，就可以确定环境中的音频信号是否处于一个被噪声干扰和/或音量突然变大或突然变小的环境，该环境已经影响了用户的听说体验。

步骤S102、将所述音频信号分割成多个短时音频帧；

其中，短时音频帧指的是预设时间段的音频帧，预设时间段的数值依据实际需要而定，比如1ms、10ms等。

音频能量和音频频率是检测声音环境中是否存在突变声音(包括：突然变大和突然变小)和噪声的两个重要特征。为实现对音频信号中音频能量和音频频率的快速识别，本发明对音频信号的检测过程具有实时性。

基于此，本发明将音频信号分割成多个短时音频帧，并用短时能量和短时频率表示短时音频帧的短时特征，通过判断每个短时音频帧所处的状态，来进行音量的调节。其中，短时音频帧所处的状态包括：语音正常状态和语音混合状态，语音混合状态包括：超过声音标准值的声音以及低于所述声音标准值的声音。

室内噪声标准可分为住宅和非住宅两种。住宅室内噪声标准是根据生活安静的要求和所在区域环境噪声标准，参考住宅窗户条件制定，一般不应低于所在区域的环境噪声标准20分贝。中国住宅室内的标准规定为低于所在区域环境噪声标准10分贝，因为中国城市有较多的小工厂紧靠住宅，所以非住宅的室内噪声标准，是根据房间用途规定的。

在我国，有关标准规定，住宅区噪声，白天不能超过55分贝，夜间应低于45分贝。

步骤S103、判断所述短时能量是否大于短时能量阈值，且所述短时频率是否大于短时频率阈值，如果是，则执行步骤S104；

其中，短时能量阈值和短时频率阈值可通过在环境中训练得到，训练模型如下：

Tn+1＝a*Tn+(1-a)ZRCt

其中，Tn是通过训练前n帧得到的阀值(阈值包括：短时能量阈值和短时频率阈值)，ZRCt是第n帧的过零率，a是权重系数，可按实际需要调整。

采用迭代方法得到训练结果的好处是可以实时更新阀值，而并不需要记录所有的音频信号。

步骤S104、判定相对应的短时音频帧处于语音混合状态；

所述语音混合状态包括：超过声音标准值的声音以及低于所述声音标准值的声音，其中，声音标准值的取值依据实际环境对音声值的需要而定，本发明在此不做限定。

需要说明的是，当短时能量不大于短时能量阈值，或短时频率不大于短时频率阈值，则判定相对应的短时音频帧处于语音正常状态，无需对该短时音频帧进行调节，并继续对处于语音正常状态的短时音频帧的下一个短时音频帧进行判断。

步骤S105、对所有处于语音混合状态的短时音频帧进行处理，将高于基准音频帧的短时音频帧调低至所述基准音频帧，将低于所述基准音频帧的短时音频帧调高至所述基准音频帧，实现对音量的自动调节。

其中，对所有处于语音混合状态的短时音频帧具体可以采用小波分析方法进行处理，将高于基准音频帧的短时音频帧调低至所述基准音频帧，将低于所述基准音频帧的短时音频帧调高至所述基准音频帧，实现对音量的自动调节。

本发明中，当确定相对应的短时音频帧处于语音混合状态时，表明该短时音频帧中存在高于基准音频帧的短时音频帧，和/或低于基准音频帧的短时音频帧，在这种情况下，对所有处于语音混合状态的短时音频帧采用小波分析方法进行处理，将高于基准音频帧的短时音频帧调低至所述基准音频帧，将低于所述基准音频帧的短时音频帧调高至所述基准音频帧，也就是说，当从环境中采集的音量增大时，自动减小输出音量，当从环境中采集的音量减小时，自动增大输出音量，实现对音量的自动调节，以使输出的音量保持在同一水平。

其中，当处于语音混合状态的短时音频帧的被检时刻为第一次检测对应的时刻时，所述基准音频帧为预先设定的默认值，该默认值也即语音正常状态时的音频帧，第一次检测对应的时刻为对处于语音混合状态的短时音频帧第一次检测的时刻。

需要特别说明的是，在步骤S104检测到处于语音混合状态的短时音频帧时，在基于对处于语音混合状态的短时音频帧进行调节，实现对音量的调节时，调节过程必须满足两点：第一点，对音量的调节必须是连续的，不能给用户跳跃的感觉；第二点，对音量的调节是快速的，调节速度以不影响用户正常语音交流为准。

还需要说明的是，本发明中的小波分析方法具体包括：小波变换和小波滤波方法。

综上可知，本发明公开了一种音量的调节方法，从环境中获取音频信号后，将该音频信号分割成多个短时音频帧，当短时音频帧中的短时能量大于短时能量阈值，短时频率大于短时频率阈值时，判定相对应的短时音频帧处于语音混合状态，通过对所有处于语音混合状态的短时音频帧进行处理，将高于基准音频帧的短时音频帧调低至所述基准音频帧，将低于基准音频帧的短时音频帧调高至所述基准音频帧，实现对音量的自动调节。从而解决了语音互动时，产生音量大幅波动的问题，并省去了用户手动调节播放器的音量的过程，因此提高了语音互动体验，使用户可以进行正常的语音交流。

可以理解的是，在实际应用中，可以每检测到一个处于语音混合状态的短时音频帧，就对该短时音频帧进行调节，直至对所有检测到的处于语音混合状态的短时音频帧调节完毕。

因此，为进一步优化上述实施例，参见图2，本发明一实施例公开的一种对所有处于语音混合状态的短时音频帧进行调节的方法流程图，该方法包括步骤，也即步骤S105具体包括：

步骤S201、每检测到一个处于语音混合状态的短时音频帧，则对检测到的短时音频帧采用小波变换，得到来自不同用户的短时音频帧和环境噪声帧；

小波变换(wavelet transform，WT)是一种新的变换分析方法，它继承和发展了短时傅立叶变换局部化的思想，同时又克服了窗口大小不随频率变化等缺点，能够提供一个随频率改变的“时间-频率”窗口，是进行信号时频分析和处理的理想工具。

小波变换的主要特点是通过变换能够充分突出问题某些方面的特征，能对时间(空间)频率的局部化分析，通过伸缩平移运算对信号(函数)逐步进行多尺度细化，最终达到高频处时间细分，低频处频率细分，能自动适应时频信号分析的要求，从而可聚焦到信号的任意细节，解决了Fourier变换的困难问题，成为继Fourier变换以来在科学方法上的重大突破。

需要说明的是，基于小波变换的语音信号分析，使用的是中心频率来区分不同用户以及噪声，而不是使用音量(或振幅)来区分不同用户以及噪声。

本步骤中，对检测到的短时音频帧采用小波变换，绘制得到相对应的信号频谱图，基于信号频谱图中不同信号曲线的中心频率，即可确定来自不同用户的短时音频帧和环境噪声帧。其中，不同用户和不同噪声对应的中心频率不同。

步骤S202、采用小波滤波方法对所述环境噪声帧进行滤除；

小波变换具有时域局限变化特性、多分辨特性、去相关特征和选基灵活性。时域局限变化特性和多分辨特性决定了小波滤波方法与传统方法相比具有独特的优势，能够在去除噪声的同时，很好的保留信号的突变部分。基于此，本发明小波滤波方法对处于语音混合状态的短时音频帧中的环境噪声帧进行滤除，具体滤除方案可采用现有相关技术，此处不再赘述。

步骤S203、计算所有用户的短时音频帧在被检时刻的平均值；

在实际应用中，将所有用户在同一时刻(也就被检时刻)的短时音频帧进行求和，也即，将每个短时音频帧的振幅求和，得到总短时音频帧，将总短时音频帧除以相对应的用户数目，即可得到所有用户的短时音频帧在被检时刻的平均值。

步骤S204、当所述平均值与所述被检时刻的上一时刻的平均值的差值不在预设差值范围内时，则将所述被检时刻的平均值作为所述基准音频帧，对来自不同用户的短时音频帧进行调节。

具体的，将高于所述基准音频帧的短时音频帧调低至所述基准音频帧，将低于所述基准音频帧的短时音频帧调高至所述基准音频帧，实现对音量的自动调节。

需要说明的是，将所有用户的短时音频帧在被检时刻的平均值与被检时刻的上一时刻的平均值的差值，和预设差值范围进行比较的目的为：确定被检时刻的平均值与被检时刻的上一时刻的平均值的大小是否相近，当两个平均值相近，也即两个平均值的差值在预设差值范围内时，表明被检时刻所有用户的短时音频帧变化不大，也即没有发生音频帧突变，被检时刻环境未出现声音过大或过小的情况，此时，就无需对来自不同用户的短时音频帧进行调节。

反之，当被检时刻的平均值与被检时刻的上一时刻的平均值的差值，不在预设差值范围内时，表明两个平均值差别较大，被检时刻有用户的短时音频帧发生突变，被检时刻环境出现声音过大或过小的情况，此时，就需要对来自不同用户的短时音频帧进行调节，具体为：将高于所述基准音频帧的短时音频帧调低至所述基准音频帧，将低于所述基准音频帧的短时音频帧调高至所述基准音频帧，实现对音量的自动调节。

需要特别说明的是，当短时音频帧的被检时刻为第一次检测对应的时刻时，则无需计算所有用户的短时音频帧在被检时刻的平均值，此时，基准音频帧为预先设定的默认值，该默认值也即语音正常状态时的音频帧。

综上可知，当对所有处于语音混合状态的短时音频帧进行调节时，可以每检测到一个处于语音混合状态的短时音频帧，则对检测到的短时音频帧采用小波变换，得到来自不同用户的短时音频帧和环境噪声帧，采用小波滤波方法对所述环境噪声帧进行滤除，并计算所有用户的短时音频帧在被检时刻的平均值，当所述平均值与所述被检时刻的上一时刻的平均值的差值不在预设差值范围内时，则将所述被检时刻的平均值作为所述基准音频帧，对来自不同用户的短时音频帧进行调节，从而实现对音量的自动调节。从而解决了语音互动时，产生音量大幅波动的问题，并省去了用户手动调节播放器的音量的过程，因此提高了语音互动体验，使用户可以进行正常的语音交流。

可以理解，在实际应用中，还可以设置检测处于语音混合状态的短时音频帧的个数，比如，当连续检测到N(N为大于1的正整数)个处于语音混合状态的短时音频帧时，同时对N个处于语音混合状态的短时音频帧进行调节。

因此，为进一步优化上述实施例，参见图3，本发明一实施例公开的另一种对所有处于语音混合状态的短时音频帧进行调节的方法流程图，该方法包括步骤，也即步骤S105具体包括：

步骤S301、连续检测N个处于语音混合状态的短时音频帧，对每个被检短时音频帧采用小波变换，得到每个被检短时音频帧中包含的来自不同用户的短时音频帧和环境噪声帧；

对每个被检短时音频帧采用小波变换，得到每个所述被检短时音频帧中包含的来自不同用户的短时音频帧和环境噪声帧的过程可参见图2所示实施例，此处不再赘述。

步骤S302、采用小波滤波方法对每个被检短时音频帧中包含的环境噪声帧进行滤除；

本步骤的具体实现方法可参见步骤S202，此处不再赘述。

步骤S303、分别计算每个被检短时音频帧相对应的所有用户的短时音频帧在被检时刻的平均值；

具体计算过程可参见步骤S203，此处不再赘述。

步骤S304、当平均值与被检时刻的上一时刻的平均值的差值不在预设差值范围内时，则将被检时刻的平均值作为相对应的被检短时音频帧的基准音频帧，基于每个被检短时音频帧的基准音频帧，对相对应的来自不同用户的短时音频帧进行调节。

本实施例中，每次对连续检测的N个处于语音混合状态的短时音频帧进行调节，直至对所有处于语音混合状态的短时音频帧调节完毕。需要说明的是，多次对N个处于语音混合状态的短时音频帧进行调节的过程是连续的，以避免给用户产生跳跃的感觉。

综上可知，当对所有处于语音混合状态的短时音频帧进行调节时，连续检测N个处于语音混合状态的短时音频帧，对每个被检短时音频帧采用小波变换，得到每个被检短时音频帧中包含的来自不同用户的短时音频帧和环境噪声帧，采用小波滤波方法对每个被检短时音频帧中包含的环境噪声帧进行滤除，分别计算每个被检短时音频帧相对应的所有用户的短时音频帧在被检时刻的平均值，当平均值与被检时刻的上一时刻的平均值的差值不在预设差值范围内时，则将被检时刻的平均值作为相对应的被检短时音频帧的基准音频帧，基于每个被检短时音频帧的基准音频帧，对相对应的来自不同用户的短时音频帧进行调节，从而实现对音量的自动调节。从而解决了语音互动时，产生音量大幅波动的问题，并省去了用户手动调节播放器的音量的过程，因此提高了语音互动体验，使用户可以进行正常的语音交流。

需要说明的是，上述实施例中，当所有用户的短时音频帧在被检时刻的平均值与所述被检时刻的上一时刻的平均值的差值在所述预设差值范围内时，则跳过对所述被检时刻对应的来自不同用户的短时音频帧的调节过程，并继续对所述被检时刻的下一时刻的处于语音混合状态的短时音频帧进行调节。

与上述方法实施例相对应，本发明还公开了一种音量的调节系统。

参见图4，本发明一实施例公开的一种音量的调节系统的结构示意图，该系统应用于播放器内的声音控制器，该系统包括：

采集单元401，用于采集环境中的音频信号；

当多人语音实时互动时，就可以从环境中采集音频信号，通过对该音频信号进行分析处理，就可以确定环境中的音频信号是否处于一个被噪声干扰和/或音量突然变大或突然变小的环境，该环境已经影响了用户的听说体验。

分割单元402，用于将所述音频信号分割成多个短时音频帧，所述短时音频帧的短时特征包括：短时能量和短时频率；

判断单元403，用于判断所述短时能量是否大于短时能量阈值，且所述短时频率是否大于短时频率阈值；

Tn+1＝a*Tn+(1-a)ZRCt

第一判定单元404，用于在所述判断单元403判断为是的情况下，判定相对应的短时音频帧处于语音混合状态，所述语音混合状态包括：超过声音标准值的声音以及低于所述声音标准值的声音；

音量调节单元405，用于对所有处于语音混合状态的短时音频帧进行处理，将高于基准音频帧的短时音频帧调低至所述基准音频帧，将低于所述基准音频帧的短时音频帧调高至所述基准音频帧，实现对音量的自动调节。

其中，对所有处于语音混合状态的短时音频帧可以采用小波分析方法进行处理。

其中，当处于语音混合状态的短时音频帧的被检时刻为第一次检测对应的时刻时，所述基准音频帧为预先设定的默认值，该默认值也即语音正常状态时的音频帧。

需要特别说明的是，在检测到处于语音混合状态的短时音频帧时，在基于对处于语音混合状态的短时音频帧进行调节，实现对音量的调节时，调节过程必须满足两点：第一点，对音量的调节必须是连续的，不能给用户跳跃的感觉；第二点，对音量的调节是快速的，调节速度以不影响用户正常语音交流为准。

综上可知，本发明公开了一种音量的调节系统，从环境中获取音频信号后，将该音频信号分割成多个短时音频帧，当短时音频帧中的短时能量大于短时能量阈值，短时频率大于短时频率阈值时，判定相对应的短时音频帧处于语音混合状态，通过对所有处于语音混合状态的短时音频帧进行处理，将高于基准音频帧的短时音频帧调低至所述基准音频帧，将低于基准音频帧的短时音频帧调高至所述基准音频帧，实现对音量的自动调节。从而解决了语音互动时，产生音量大幅波动的问题，并省去了用户手动调节播放器的音量的过程，因此提高了语音互动体验，使用户可以进行正常的语音交流。

为进一步优化上述实施例，还可以包括：第二判定单元，用于在判断单元403判断为否的情况下，当所述短时能量不大于所述短时能量阈值，或所述短时频率不大于所述短时频率阈值时，则判定相对应的短时音频帧处于语音正常状态。

因此，为进一步优化上述实施例，参见图5，本发明一实施例公开的一种音量调节单元的结构示意图，音量调节单元包括：

第一变换子单元501，用于每检测到一个处于语音混合状态的短时音频帧，则对检测到的短时音频帧采用小波变换，得到来自不同用户的短时音频帧和环境噪声帧；

本实施例中，对检测到的短时音频帧采用小波变换，绘制得到相对应的信号频谱图，基于信号频谱图中不同信号曲线的中心频率，即可确定来自不同用户的短时音频帧和环境噪声帧。其中，不同用户和不同噪声对应的中心频率不同。

第一噪声滤除子单元502，用于采用小波滤波方法对所述环境噪声帧进行滤除；

第一计算子单元503，用于计算所有用户的短时音频帧在被检时刻的平均值；

在实际应用中，将所有用户在同一时刻(也就被检时刻)的短时音频帧进行求和，得到总短时音频帧，将总短时音频帧除以相对应的用户数目，即可得到所有用户的短时音频帧在被检时刻的平均值。

第一音量调节子单元504，用于当所述平均值与所述被检时刻的上一时刻的平均值的差值不在预设差值范围内时，则将所述被检时刻的平均值作为所述基准音频帧，对来自不同用户的短时音频帧进行调节，将高于所述基准音频帧的短时音频帧调低至所述基准音频帧，将低于所述基准音频帧的短时音频帧调高至所述基准音频帧，实现对音量的自动调节。

因此，为进一步优化上述实施例，参见图6，本发明一实施例公开的一种音量调节单元的结构示意图，包括：

第二变换子单元601，用于连续检测N个处于语音混合状态的短时音频帧，对每个被检短时音频帧采用小波变换，得到每个所述被检短时音频帧中包含的来自不同用户的短时音频帧和环境噪声帧；

第二噪声滤除子单元602，用于采用小波滤波方法对每个所述被检短时音频帧中包含的环境噪声帧进行滤除；

第二噪声滤除子单元602的具体实现过程请参见第一噪声滤除子单元502。

第二计算子单元603，用于分别计算每个所述被检短时音频帧相对应的所有用户的短时音频帧在被检时刻的平均值；

第二计算子单元603的具体实现过程请参见第一计算子单元503。

第二音量调节子单元604，用于当所述平均值与所述被检时刻的上一时刻的平均值的差值不在预设差值范围内时，则将所述被检时刻的平均值作为相对应的被检短时音频帧的基准音频帧，基于每个所述被检短时音频帧的基准音频帧，对相对应的来自不同用户的短时音频帧进行调节，将高于所述基准音频帧的短时音频帧调低至所述基准音频帧，将低于所述基准音频帧的短时音频帧调高至所述基准音频帧，实现对音量的自动调节。

因此，音量调节单元还可以包括：

跳过子单元，用于当所有用户的短时音频帧在被检时刻的平均值与所述被检时刻的上一时刻的平均值的差值在所述预设差值范围内时，则跳过对所述被检时刻对应的来自不同用户的短时音频帧的调节过程，并继续对所述被检时刻的下一时刻的处于语音混合状态的短时音频帧进行调节。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种音量的调节方法，其特征在于，包括：

采集环境中的音频信号；

2.根据权利要求1所述的调节方法，其特征在于，所述对所有处于语音混合状态的短时音频帧进行处理，将高于基准音频帧的短时音频帧调低至所述基准音频帧，将低于所述基准音频帧的短时音频帧调高至所述基准音频帧，实现对音量进行自动调节，具体包括：

采用小波滤波方法对所述环境噪声帧进行滤除；

计算所有用户的短时音频帧在被检时刻的平均值；

3.根据权利要求1所述的调节方法，其特征在于，所述对所有处于语音混合状态的短时音频帧进行处理，将高于基准音频帧的短时音频帧调低至所述基准音频帧，将低于所述基准音频帧的短时音频帧调高至所述基准音频帧，实现对音量进行自动调节，具体包括：

4.根据权利要求1所述的调节方法，其特征在于，当处于语音混合状态的短时音频帧的被检时刻为第一次检测对应的时刻时，所述基准音频帧为预先设定的默认值。

5.根据权利要求2或3所述的调节方法，其特征在于，当所述平均值与所述被检时刻的上一时刻的平均值的差值在所述预设差值范围内时，则跳过对所述被检时刻对应的来自不同用户的短时音频帧的调节过程，并继续对所述被检时刻的下一时刻的处于语音混合状态的短时音频帧进行调节。

6.根据权利要求1所述的调节方法，其特征在于，还包括：

7.一种音量的调节系统，其特征在于，包括：

采集单元，用于采集环境中的音频信号；

8.根据权利要求7所述的调节系统，其特征在于，所述音量调节单元包括：

9.根据权利要求7所述的调节系统，其特征在于，所述音量调节单元包括：

10.根据权利要求7所述的调节系统，其特征在于，当处于语音混合状态的短时音频帧的被检时刻为第一次检测对应的时刻时，所述基准音频帧为预先设定的默认值。

11.根据权利要求8或9所述的调节系统，其特征在于，还包括：

12.根据权利要求7所述的调节系统，其特征在于，还包括：