CN100438332C

CN100438332C - 一种音量限制方法和系统

Info

Publication number: CN100438332C
Application number: CNB2004100521255A
Authority: CN
Inventors: 王麒
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2004-11-06
Filing date: 2004-11-06
Publication date: 2008-11-26
Anticipated expiration: 2024-11-06
Also published as: CN1770626A

Abstract

一种音量限制方法和系统。所述方法是；先将收听端语音的样本点振幅值数据进行转换操作后得出一个相对强度值，再判断该相对强度值是否超标，最后将所述相对强度值作相应的调整限制在一个标准值附近。所述转换操作是将样本点振幅值数据以相对值的形式用对数标度来表示。所述系统包括：信号采集器、A/D转换器、处理器、D/A转换器。所述信号采集器、A/D转换器、处理器和D/A转换器顺序相连。本发明的有益效果是：人类的听觉反应是基于声音的相对变化，而不是绝对的变化，对数标度正好能模拟人类耳朵对声音的反应，以这样的方式进行音量是否超标的判断和相应的调整能更有效地达到限制音量的控制，同时又能保证处理之后的语音质量。

Description

一种音量限制方法和系统

技术领域

本发明涉及广播通信技术，尤其涉及一种音量限制方法和系统。

背景技术

在视频会议系统中，目的用户端通常会收到来自多个源用户端的语音，而不同源用户端由于其PC机的音量设置不同，经常会导致目的用户端听到不同音量的声音。而目的用户端为了能听到最小音量的源用户端的语音，通常会把本地的系统音量调高。而会议中如果某些源用户端的本地系统音量比较高，就会导致目的用户端出现音量过高的结果，从而影响了用户的听觉效果。这种情况在所有使用音量控制的系统中都会出现，因此在目的用户端进行音量限制操作是有必要的。

目前，对音量控制的解决方案一般采用自动增益控制(AGC，Automatic GainControl)技术，操作的对象是纯脉冲编码调制PCM语音数据。该技术所普遍采用的自动增益控制AGC算法的核心思想是：输入的操作对象是纯脉冲编码调制PCM语音数据，即单个的样本点量化振幅值数据，直接通过样本点的振幅值和某个事先定好的最佳音量振幅值进行比较，再以某种算法，计算出一个音量缩小倍数，最后将这个缩小倍数乘于该样本点的振幅值，作为输出。从而达到限制音量的效果。

上述方案的缺点首先是：在进行是否音量调整的判断时，直接使用样本点的绝对振幅值数据和某个最佳值进行比较，这样不能真实反映人耳感受到的音量高低效果，因为人耳的听觉反应是基于声音的相对变化，而不是绝对的变化。其次：在进行调整时，将源样本点的振幅值数据直接乘以一个系数作为调整后的输出，这种线性调整也不能达到人耳真实的听觉感受。

发明内容

鉴于现有技术不能有效模拟人类耳朵对声音的反应进行音量限制，使得处理后语音服务质量差、不能有效限制音量等不足，本发明公开了一种视频会议系统收听端音量限制方法和系统，可以克服现有技术的缺点。

本发明解决其技术问题所采用的技术方案是：一种音量限制方法，先将收听端语音的样本点振幅值数据以相对值的形式用对数标度来表示，得出一个相对强度值，再判断该相对强度值是否超标，最后根据计算得到的需要调整的幅度值diff，将所述相对强度值调整限制在一个标准值附近。

本发明还包括一种执行上述方法的系统，该系统包括：一个信号采集器，采集收听端语音的原始数据，输出语音模拟信号；一个A/D转换器，接收的语音模拟信号，转换成数字信号后输出；一个处理器，接收所述数字信号，将所述数字信号以相对值的形式用对数标度来表示，再进行是否超标判断并计算需要调整的幅度值diff，最后对所述语音的样本点的原始振幅值数据做相应调整计算，输出运算后的数字信号；一个D/A转换器，接收所述运算后的数字信号，转换成语音模拟信号后输出。

本发明的有益效果是：鉴于人类的听觉反应是基于声音的相对变化，而不是绝对的变化，对数标度正好能模拟人类耳朵对声音的反应，以这样的方式进行音量是否超标的判断和相应的调整能更有效地达到限制音量的控制，同时又能提高处理之后的语音质量。

附图说明

图1是本发明所述音量限制方法的整体方案流程图。

图2是本发明方法中计算第i个样本点的实际调整幅度值diff_i的流程图。

图3是本发明方法中计算每次调整的步长diffStep_i的流程图。

图4是本发明所述音量限制系统的原理图。

具体实施方式

下面结合附图和实施例对本发明作进一步说明。

如图1所示一种音量限制方法的整体方案流程图，先将收听端语音的样本点振幅值数据进行转换操作后得出一个相对强度值，再判断该相对强度值是否超标，最后将所述相对强度值作相应的调整限制在一个标准值附近。

所述相应的调整包括：计算需要调整的幅度值diff，再根据需要调整的幅度值diff对所述语音样本点的原始振幅值数据做调整。

所述转换操作是将样本点振幅值数据以相对值的形式用对数标度来表示，其方法是：将第i个样本点在未调整前的原始振幅值进行A/D转换后的量化值Packet_i ^old的绝对值与其量化范围的上限值n相比，然后将此比值取对数，再将上述取对数后的数值扩大20倍作为第i个样本点的相对强度值RelativeMagnitude_i。

在阐述原理时，我们假设当前处理的语音流的采样率为8000Hz，量化等级为16位，带符号，所述Packet_i的范围是(-2¹⁵～2¹⁵-1)，即(-32768～32767)，则所述n值取32767。同样地，该方案也适用于任何采用率和量化等级的语音流。

如图2所示计算需要调整的幅度值diff的流程图，首先将第i-1个样本点的实际调整幅度值diff_i-1和每次调整的步长值diffStep_i累加，再判断此累加值是否小于零，若小于零，则第i个样本点的实际调整幅度值diff_i就为0，若此累加值不小于零，则第i个样本点的实际调整幅度值diff_i就是此累加值。

而计算每次调整的步长diffStep_i的方法如图3所示的流程图：当且仅当第i个样本点的相对强度值RelativeMagnitude_i大于声音的最佳强度值OPTIMUM_LEVEL时，每次调整的步长diffStep_i就取值为正向步长常量DIFF_INCREMENT，且第i个样本点中需要调整的目标差距值diffTarget_i就是第i个样本点的相对强度值RelativeMagnitude_i与声音的最佳强度值OPTIMUM_LEVEL的差值；

当第i个样本点的相对强度值RelativeMagnitude_i小于或等于声音的最佳强度值OPTIMUM_LEVEL，则需判断第i-1个样本点的实际调整幅度值diff_i-1和第i-1个样本点中需要调整的目标差距值diffTarget_i-1的大小；

如果所述第i-1个样本点的实际调整幅度值diff_i-1大于或等于第i-1个样本点中需要调整的目标差距值diffTarget_i-1，则每次调整的步长diffStep_i就取值为负向步长常量DIFF_DECREMENT；

如果所述第i-1个样本点的实际调整幅度值diff_i-1小于第i-1个样本点中需要调整的目标差距值diffTarget_i-1，则每次调整的步长diffStep_i就取值为第i-1个样本点中所调整的步长值diffStep_i-1；

其中正向步长常量DIFF_INCREMENT表示正向增加的幅度值；负向步长常量DIFF_DECREMENT表示反向减少的幅度值。所述声音的最佳强度值OPTIMUM_LEVEL为一常量，是表示在对数形式下相对音量的最佳效果值；每次调整的步长量diffStep_i的初始值为0；需要调整的幅度值diff_i的初始值也为0；由于考虑到语音的连贯性，进而保证语音的服务质量，因此针对每个样本点都采用了微调的策略，引入正向和反向的两个微调步长量正向步长DIFF_INCREMENT和负向步长DIFF_DECREMENT，分别表示正向增加和反向减少的幅度值。

通过上述方法，最终达到的效果是，实际调整幅度值diff必须大于0，其目标值为需要调整的目标差距值diffTarget，当其未达到目标值时，实际调整幅度值diff朝目标值方向以正向步长DIFF_INCREMENT缓缓递增；相反，当其超过目标值时，实际调整幅度值diff朝目标值方向以负向步长DIFF_DECREMENT缓缓递减。

本发明所述的根据需要调整的幅度值diff对所述语音的样本点的原始振幅值做相应调整的算法为：将第i个样本点的实际调整幅度值diff_i与20相比，将此比值取反成为一个负数，然后将该负数作为10的指数得出一个系数a，最后再将第i个样本点在未调整前的原始振幅值进行A/D转换后的量化值Packet_i ^old与上述系数a相乘得出第i个样本点在调整后的振幅值数据Packet_i ^new。

由于需要调整的幅度值diff的目标值为需要调整的目标差距值diffTarget，因此将需要调整的目标差距值diffTarget替代需要调整的幅度值diff传入公式

{Packet}_{i}^{new} = 10^{- {diff}_{i} / 20} \times {Packet}_{i}^{old}

中，并将得到的第i个样本点在调整后的振幅值数据Packet_i ^new记为PacketTarget_i ^new，再进行如下推理：

Packet {T \arg et}_{i}^{new} = 10^{- diffT \arg et / 20} \times {Packet}_{i}^{old}

&DoubleRightArrow; {PacketT \arg et}_{i}^{new} = 10^{- ({RelativeMagnitude}_{i} - OPTIMUM_LEVEL) / 20} \times {Packet}_{i}^{old}

&DoubleRightArrow; {PacketT \arg et}_{i}^{new} = 10^{\frac{OPTIMUM_LEVEL}{20} - \frac{{RelativeMagnitude}_{i}}{20}} \times {Packet}_{i}^{old}

&DoubleRightArrow; {PacketT \arg et}_{i}^{new} = 10^{\frac{OPTIMUM_LEVEL}{20} - \frac{20 \times \log_{10} (\frac{| {Packet}_{i} |}{32767})}{20}} \times {Packet}_{i}^{old}

&DoubleRightArrow; {PacketT \arg et}_{i}^{new} = 10^{\frac{OPTIMUM_LEVEL}{20} - \log_{10} (\frac{| {Packet}_{i} |}{32767})} \times {Packet}_{i}^{old}

&DoubleRightArrow; {PacketT \arg et}_{i}^{new} = \frac{10^{\frac{OPTIMUM_LEVEL}{20}}}{10^{\log_{10} (\frac{| {Packet}_{i} |}{32767})}} \times {Packet}_{i}^{old}

&DoubleRightArrow; {PacketT \arg et}_{i}^{new} = \frac{10^{\frac{OPTIMUM_LEVEL}{20}}}{\frac{| {Packet}_{i} |}{32767}} \times {Packet}_{i}^{old}

&DoubleRightArrow; {PacketT \arg et}_{i}^{new} = 32767 \times 10^{\frac{OPTIMUM_LEVEL}{20}} \times \frac{{Packet}_{i}^{old}}{| {Packet}_{i} |}

&DoubleRightArrow; | {PacketT \arg et}_{i}^{new} | = 32767 \times 10^{\frac{OPTIMUM_LEVEL}{20}}

&DoubleRightArrow; OPTIMUM_LEVEL = 20 \times \log_{10} (\frac{| {PacketT \arg et}_{i}^{new} |}{32767})

现比较公式

OPTIMUM_LEVEL = 20 \times \log_{10} (\frac{| {PacketT \arg et}_{i}^{new} |}{32767})

和公式

{RelativeMagnitude}_{i} = 20 \times \log_{10} (\frac{| {Packet}_{i} |}{n}),

两个公式都是进行了相同形式的对数变换。

所述第i个样本点的相对强度值RelativeMagnitude_i的最佳目标值是所述声音的最佳强度值OPTIMUM_LEVEL，而第i个样本点的原始振幅值经过量化编码后的数据Packet_i的最佳调整值也正是第i个样本点在调整后的振幅值数据PacketTarget_i ^new。所以，从两个公式的对比可得出，基于公式

{Packet}_{i}^{new} = 10^{- {diff}_{i} / 20} \times {Packet}_{i}^{old}

的音量调整策略是朝着最佳音量的方向逼近，而且这种逼近不是简单基于线性的，而是采用了适合于人耳听觉且基于相对值的对数形式进行逼近的。因此，这种音量调整策略是合理有效的。

图4所示为实现本发明方法的音量限制系统原理图，该系统包括：一个信号采集器，采集收听端语音的原始数据，输出语音模拟信号；一个A/D转换器，接收的语音模拟信号，转换成数字信号后输出；一个处理器，接收所述数字信号，将所述数字信号进行转换操作，再进行是否超标判断并计算需要调整的幅度值diff，最后对所述语音的样本点的原始振幅值数据做相应调整计算，输出运算后的数字信号；一个D/A转换器，接收所述运算后的数字信号，转换成语音模拟信号后输出。

所述信号采集器可以是一个自带A/D转换器的信号采集卡。所述处理器可以是一个微处理器或者单片机或者微型计算机。所述单片机可以是一个自带A/D转换器的单片机。

本发明仅公开了最佳实施方式，任何从属于本思路的其他变形仍属于本发明的保护范围。

Claims

1、一种音量限制方法，其特征在于，包括以下步骤：

101，对收听端语音的样本点振幅值数据以相对值的形式用对数标度来表示，得出一个相对强度值；

102，判断该相对强度值是否超标；

103，根据计算得到的需要调整的幅度值diff，将所述相对强度值调整限制在一个标准值附近。

2、据权利要求1所述的音量限制方法，其特征在于，所述以相对值的形式用对数标度来表示的方法是：

将第i个样本点在未调整前的原始振幅值进行A/D转换后的量化值Packet_i ^old的绝对值与其量化范围的上限值n相比，再将此比值取对数。

3、根据权利要求2所述的音量限制方法，其特征在于：

再将上述取对数后的数值扩大20倍作为第i个样本点的相对强度值RelativeMagnitude_i。

4、根据权利要求2所述的音量限制方法，其特征在于：当前处理的语音流的采样率为8000Hz，量化等级为16位，所述Packet_i的范围是-2¹⁵至2¹⁵-1，即-32768至32767，n的取值为32767。

5、根据权利要求1所述的音量限制方法，其特征在于计算需要调整的幅度值diff的方法是：首先将第i-1个样本点的实际调整幅度值diff_i-1和每次调整的步长值diffStep_i累加，再判断此累加值是否小于零，若小于零，则第i个样本点的实际调整幅度值diff_i就为0，若此累加值不小于零，则第i个样本点的实际调整幅度值diff_i就是此累加值。

6、根据权利要求5所述的音量限制方法，其特征在于计算每次调整的步长值diffStep_i的方法是：

当且仅当第i个样本点的相对强度值RelativeMagnitude_i大于声音的最佳强度值OPTIMUM_LEVEL时，每次调整的步长值diffStep_i就取值为正向步长常量DIFF_INCREMENT，且第i个样本点中需要调整的目标差距值diffT arg et_i就是第i个样本点的相对强度值RelativeMagnitude_i与声音的最佳强度值OPTIMUM_LEVEL的差值；

当第i个样本点的相对强度值RelativeMagnitude_i小于或等于声音的最佳强度值OPTIMUM_LEVEL，则需判断第i-1个样本点的实际调整幅度值diff_i-1和第i-1个样本点中需要调整的目标差距值diffT arg et_i-1的大小；

如果所述第i-1个样本点的实际调整幅度值diff_i-1大于或等于第i-1个样本点中需要调整的目标差距值diffT arg et_i-1，则每次调整的步长值diffStep_i就取值为负向步长常量DIFF_DECREMENT；

如果所述第i-1个样本点的实际调整幅度值diff_i-1小于第i-1个样本点中需要调整的目标差距值diffT arg et_i-1，则每次调整的步长值diffStep_i就取值为第i-1个样本点中所调整的步长值diffStep_i-1；

其中正向步长常量DIFF_INCREMENT表示正向增加的幅度值；负向步长常量DIFF_DECREMENT表示反向减少的幅度值。

7、根据权利要求6所述的音量限制方法，其特征在于：所述声音的最佳强度值OPTIMUM_LEVEL是表示在对数形式下相对音量的最佳效果值。

8、根据权利要求5所述的音量限制方法，其特征在于：所述需要调整的幅度值diff_i的初始值为0。

9、根据权利要求5所述的音量限制方法，其特征在于：所述每次调整的步长值diffStep_i的初始值为0

10、根据权利要求2所述的音量限制方法，其特征在于根据需要调整的幅度值diff对所述语音样本点的原始振幅值数据做调整的方法为：将第i个样本点的实际调整幅度值diff_i与20相比，将此比值取反成为一个负数，然后将该负数作为10的指数得出一个系数a，最后再将第i个样本点在未调整前的原始振幅值进行A/D转换后的量化值Packet_i ^old与上述系数a相乘得出第i个样本点在调整后的振幅值数据Packet_i ^new。

11.一种音量限制系统，其特征在于，该系统包括：

一个信号采集器，采集收听端语音的原始数据，输出语音模拟信号；

一个A/D转换器，接收的语音模拟信号，转换成数字信号后输出；

一个处理器，接收所述数字信号，将所述数字信号以相对值的形式用对数标度来表示，再进行是否超标判断并计算需要调整的幅度值diff，最后对所述语音的样本点的原始振幅值数据做相应调整计算，输出运算后的数字信号；

一个D/A转换器，接收所述运算后的数字信号，转换成语音模拟信号后输出。

12、根据权利要求11所述的音量限制系统，其特征在于：所述信号采集器是一个自带A/D转换器的信号采集卡。

13、根据权利要求11所述的音量限制系统，其特征在于：所述处理器是一个微处理器或者单片机或者微型计算机。

14、根据权利要求13所述的音量限制系统，其特征在于：所述单片机是一个自带A/D转换器的单片机。