CN106328159B

CN106328159B - 一种音频流的处理方法及装置

Info

Publication number: CN106328159B
Application number: CN201610818447.9A
Authority: CN
Inventors: 牛继华; 池宝旺; 李庆燕; 彭伟刚; 王伟; 何美伊; 董大庆; 林岳; 顾思斌; 潘柏宇; 王冀
Original assignee: Youku Network Technology Beijing Co Ltd
Current assignee: Youku Network Technology Beijing Co Ltd
Priority date: 2016-09-12
Filing date: 2016-09-12
Publication date: 2021-07-09
Anticipated expiration: 2036-09-12
Also published as: CN106328159A

Abstract

本发明提供了一种音频流的处理方法及装置，用于解决现有技术中在音频中突出语音的方式存在失真的问题，该方法包括：增强输入的第一音频流中预设频率范围内的频率分量的能量，得到第二音频流；降低第二音频流中的背景声音的能量，得到第三音频流；输出第三音频流，使用该方法对音频进行处理，使得语音的失真较小，突显人声的效果较为明显。

Description

一种音频流的处理方法及装置

技术领域

本发明涉及音频处理领域，尤其涉及一种音频流的处理方法及装置。

背景技术

目前，为了使得用户在嘈杂的环境中仍能听清楚音频中的语音，往往会采用突出表现音频中语音的方式，现有的突出表现音频中语音的方式主要应用于音乐播放器中，在音乐播放器中应用此项技术主要是对歌曲进行处理，使得音乐中的歌手的声音相对于背景音乐比较明显，从而使用户获取一种新的体验，该项技术的实现方式比较单一，主要是通过调节均衡器实现，然而该方式只是机械性的增强了语音在音频中的能量，使得音频效果整体被改变，相对与处理之前的音频来说，未免存在失真的情况。

发明内容

本发明提供了一种音频流的处理方法及装置，用于解决现有技术中在音频中突出语音的方式存在失真的问题。

本方面提供一种音频流的处理方法，包括：增强输入的第一音频流中预设频率范围内的频率分量的能量，得到第二音频流；降低第二音频流中的背景声音的能量，得到第三音频流；输出第三音频流。

其中，增强输入的第一音频流中预设频率范围内的频率分量的能量，包括：将第一音频流输入滤波器组，以增强第一音频流中预设频率范围内的频率分量的能量。

其中，增强输入的第一音频流中预设频率范围内的频率分量的能量，包括：在50Hz至16000Hz的频率范围内选取10个频率作为中心频率，通过在10个频率中选择不同中心频率对应的幅度值，以增强预设频率范围内的频率分量。

其中，降低第二音频流中的背景声音的能量，包括：从第二音频流中提取背景声音信号；计算背景声音信号的能量值；根据计算得到的能量值，确定背景声音的衰减程度；根据衰减程度降低第二音频流中的背景声音。

其中，预设频率范围为500Hz到3600Hz。

根据本发明的第二个方面，提供了一种音频流的处理装置，包括：增强模块，用于增强输入的第一音频流中预设频率范围内的频率分量的能量，得到第二音频流；降低模块，用于降低第二音频流中的背景声音的能量，得到第三音频流；输出模块，用于输出第三音频流。

其中，增强模块具体用于：将第一音频流输入滤波器组，以增强第一音频流中预设频率范围内的频率分量的能量。

其中，增强模块具体用于：在50Hz至16000Hz的频率范围内选取10个频率作为中心频率，通过在10个频率中选择不同中心频率对应的幅度值，以增强预设频率范围内的频率分量。

其中，降低模块，包括：提取单元，用于从第二音频流中提取背景声音信号；计算单元，用于计算背景声音信号的能量值；确定单元，用于根据计算得到的能量值，确定背景声音的衰减程度；降低单元，用于根据衰减程度降低第二音频流中的背景声音。

其中，预设频率范围为500Hz到3600Hz。

本发明实施例提供的方法不仅对音频流中的人声部分进行了增强，而且对背景声音进行了一定的消弱，经过该方法处理后，在噪声环境中，人耳可以更容易的分辨出说话人声，同时以本实施例提供的方法处理后的音频，人声失真较小，突显人声的效果较为明显。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明第一实施例提供的音频流处理方法的流程图；

图2是本发明第二实施例提供的音频流处理方法的原理图；

图3是本发明第三实施例提供的音频流处理装置的结构框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

第一实施例

本实施例提供了一种音频流的处理方法，图1是该方法的流程图，如图1所示，该方法包括如下处理：

步骤101：增强输入的第一音频流中预设频率范围内的频率分量的能量，得到第二音频流；

在本实施例中预设频率范围可选的为500Hz到3600Hz，该频率范围具体可以囊括不同的语音的音频范围。

步骤102：降低第二音频流中的背景声音的能量，得到第三音频流；

步骤103：输出第三音频流。

在本实施例中，增强输入的第一音频流中预设频率范围内的频率分量的能量具体可以包括：将第一音频流输入滤波器组，以增强第一音频流中预设频率范围内的频率分量的能量。增强输入的第一音频流中预设频率范围内的频率分量的能量的步骤具体可以包括：在50Hz至16000Hz的频率范围内选取10个频率作为中心频率，通过在10个频率中选择不同中心频率对应的幅度值，以增强预设频率范围内的频率分量。

需要说明的是，在本实施例中增强输入的第一音频流中预设频率范围内的频率分量的能量具体还可以是，将第一音频流中预设频率范围内的频率分量的能量增强至预设值，以及降低第二音频流中的背景声音的能量具体也可以是将第二音频流中的背景声音的能量降低至预设值。

其中，降低第二音频流中的背景声音的能量具体可以包括以下处理：

从第二音频流中提取背景声音信号；计算背景声音信号的能量值；根据计算得到的能量值，确定背景声音的衰减程度；根据衰减程度降低第二音频流中的背景声音。

本发明实施例提供的方法不仅对音频中的人声部分进行了增强，而且对背景声音进行了一定的消弱，经过该方法处理后，在噪声环境中，人耳可以更容易的分辨出说话人声，同时以本实施例提供的方法处理后的音频，人声失真较小，突显人声的效果较为明显。

第二实施例

本实施例在上述第一实施例的基础上，通过公开更多的技术细节来对本发明提供的音频流处理方法进行进一步阐述。首先介绍以下本实施例提供的音频流处理方法的实现原理：

图2是本实施例提供的音频流处理方法的原理图，如图2所示，首先输入解码后的音频流，使该音频流首先经过多通带滤波器，对频率范围在500Hz到3600Hz之间的信号进行能量增强；之后从音频流中提取背景声音，以此为参考用于降低整个音频流中的背景声音能量。经过降低背景声音能量后，得到最终的输出音频。

其中，多通带滤波器由一组带通滤波器组成，带通滤波器是指能通过某一频率范围内的频率分量，但其他范围的频率分量衰减到极低水平的滤波器。优选的，本实施例可以基于滤波器组在频率50Hz－16000Hz之间选取10个频率作为中心频率，通过调整不同中心频率位置对应的幅度值，达到增强语音的目的。

提取背景声音的处理方式，具体可以是，在输入的音频信号是双声道信号的情况下，可以利用左右声道之间的差异获取背景声音，在本实施例中，也可以通过实现对背景声音进行分析，得到背景音乐的特征，根据该特征(例如可以是频率的特征)，提取音频流中的背景声音。

降低背景音能量具体可以根据获得的背景声音信号，计算背景声音的能量值，根据计算得到的能量值，确定针对背景声音的衰减程度，从而获取最终的输出信号。

采用本实施例提供的方法对视频播放器的音频流处理后，在噪声环境下，使用视频播放器播放视频时，人耳可以清晰的分辨出说话人声，且避免了音频失真的情况。

第三实施例

本实施例提供了一种音频流的处理装置，该装置用于实现上述第一实施例以及第二实施例提供的方法，图3是该装置的结构框图，如图3所示，该装置30包括如下组成部分：

增强模块31，用于增强输入的第一音频流中预设频率范围内的频率分量的能量，得到第二音频流；在本实施例中，预设频率范围可以为500Hz到3600Hz。

降低模块32，用于降低第二音频流中的背景声音的能量，得到第三音频流；

输出模块33，用于输出第三音频流。

其中，上述增强模块31具体可以用于：将第一音频流输入滤波器组，以增强第一音频流中预设频率范围内的频率分量的能量。

其中，本实施例所涉及的滤波器组可以包括10个中心频率，基于该滤波器组，上述增强模块31具体用于：在50Hz至16000Hz的频率范围内选取10个频率作为中心频率，通过在10个频率中选择不同中心频率对应的幅度值，以增强预设频率范围内的频率分量。

其中，上述降低模块32具体可以包括：提取单元，用于从第二音频流中提取背景声音信号；计算单元，用于计算背景声音信号的能量值；确定单元，用于根据计算得到的能量值，确定背景声音的衰减程度；降低单元，用于根据衰减程度降低第二音频流中的背景声音。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种音频流的处理方法，其特征在于，包括：

增强输入的第一音频流中预设频率范围内的频率分量的能量，得到第二音频流，其中，所述预设频率范围囊括不同的语音的音频范围；

从所述第二音频流中提取背景声音信号，具体包括：在输入的第二音频流是双声道信号的情况下，利用左右声道之间的差异获取背景声音；

降低所述第二音频流中的背景声音的能量，得到第三音频流，其中，所述降低所述第二音频流中的背景声音的能量具体包括：计算所述背景声音信号的能量值；根据计算得到的能量值，确定所述背景声音的衰减程度；根据所述衰减程度降低所述第二音频流中的背景声音；

输出所述第三音频流。

2.根据权利要求1所述的方法，其特征在于，所述增强输入的第一音频流中预设频率范围内的频率分量的能量，包括：

将所述第一音频流输入滤波器组，以增强所述第一音频流中预设频率范围内的频率分量的能量。

3.根据权利要求2所述的方法，其特征在于，所述增强输入的第一音频流中预设频率范围内的频率分量的能量，包括：

在50Hz至16000Hz的频率范围内选取10个频率作为中心频率，通过在所述10个频率中选择不同中心频率对应的幅度值，以增强所述预设频率范围内的频率分量。

4.根据权利要求1至3任意一项所述的方法，其特征在于，所述预设频率范围为500Hz到3600Hz。

5.一种音频流的处理装置，其特征在于，包括：

增强模块，用于增强输入的第一音频流中预设频率范围内的频率分量的能量，得到第二音频流，其中，所述预设频率范围囊括不同的语音的音频范围；

提取模块，用于从所述第二音频流中提取背景声音信号，具体包括：在输入的第二音频流是双声道信号的情况下，利用左右声道之间的差异获取背景声音；

降低模块，用于降低所述第二音频流中的背景声音的能量，得到第三音频流，其中，所述降低模块具体包括计算单元，用于计算所述背景声音信号的能量值；确定单元，用于根据计算得到的能量值，确定所述背景声音的衰减程度；降低单元，用于根据所述衰减程度降低所述第二音频流中的背景声音；

输出模块，用于输出所述第三音频流。

6.根据权利要求5所述的装置，其特征在于，所述增强模块具体用于：

7.根据权利要求6所述的装置，其特征在于，所述增强模块具体用于：

8.根据权利要求5至7任意一项所述的装置，其特征在于，所述预设频率范围为500Hz到3600Hz。