CN106328159B - 一种音频流的处理方法及装置 - Google Patents

一种音频流的处理方法及装置 Download PDF

Info

Publication number
CN106328159B
CN106328159B CN201610818447.9A CN201610818447A CN106328159B CN 106328159 B CN106328159 B CN 106328159B CN 201610818447 A CN201610818447 A CN 201610818447A CN 106328159 B CN106328159 B CN 106328159B
Authority
CN
China
Prior art keywords
audio stream
background sound
frequency range
energy
audio
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610818447.9A
Other languages
English (en)
Other versions
CN106328159A (zh
Inventor
牛继华
池宝旺
李庆燕
彭伟刚
王伟
何美伊
董大庆
林岳
顾思斌
潘柏宇
王冀
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Youku Network Technology Beijing Co Ltd
Original Assignee
Youku Network Technology Beijing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Youku Network Technology Beijing Co Ltd filed Critical Youku Network Technology Beijing Co Ltd
Priority to CN201610818447.9A priority Critical patent/CN106328159B/zh
Publication of CN106328159A publication Critical patent/CN106328159A/zh
Application granted granted Critical
Publication of CN106328159B publication Critical patent/CN106328159B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0316Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
    • G10L21/0364Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude for improving intelligibility

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Soundproofing, Sound Blocking, And Sound Damping (AREA)

Abstract

本发明提供了一种音频流的处理方法及装置,用于解决现有技术中在音频中突出语音的方式存在失真的问题,该方法包括:增强输入的第一音频流中预设频率范围内的频率分量的能量,得到第二音频流;降低第二音频流中的背景声音的能量,得到第三音频流;输出第三音频流,使用该方法对音频进行处理,使得语音的失真较小,突显人声的效果较为明显。

Description

一种音频流的处理方法及装置
技术领域
本发明涉及音频处理领域,尤其涉及一种音频流的处理方法及装置。
背景技术
目前,为了使得用户在嘈杂的环境中仍能听清楚音频中的语音,往往会采用突出表现音频中语音的方式,现有的突出表现音频中语音的方式主要应用于音乐播放器中,在音乐播放器中应用此项技术主要是对歌曲进行处理,使得音乐中的歌手的声音相对于背景音乐比较明显,从而使用户获取一种新的体验,该项技术的实现方式比较单一,主要是通过调节均衡器实现,然而该方式只是机械性的增强了语音在音频中的能量,使得音频效果整体被改变,相对与处理之前的音频来说,未免存在失真的情况。
发明内容
本发明提供了一种音频流的处理方法及装置,用于解决现有技术中在音频中突出语音的方式存在失真的问题。
本方面提供一种音频流的处理方法,包括:增强输入的第一音频流中预设频率范围内的频率分量的能量,得到第二音频流;降低第二音频流中的背景声音的能量,得到第三音频流;输出第三音频流。
其中,增强输入的第一音频流中预设频率范围内的频率分量的能量,包括:将第一音频流输入滤波器组,以增强第一音频流中预设频率范围内的频率分量的能量。
其中,增强输入的第一音频流中预设频率范围内的频率分量的能量,包括:在50Hz至16000Hz的频率范围内选取10个频率作为中心频率,通过在10个频率中选择不同中心频率对应的幅度值,以增强预设频率范围内的频率分量。
其中,降低第二音频流中的背景声音的能量,包括:从第二音频流中提取背景声音信号;计算背景声音信号的能量值;根据计算得到的能量值,确定背景声音的衰减程度;根据衰减程度降低第二音频流中的背景声音。
其中,预设频率范围为500Hz到3600Hz。
根据本发明的第二个方面,提供了一种音频流的处理装置,包括:增强模块,用于增强输入的第一音频流中预设频率范围内的频率分量的能量,得到第二音频流;降低模块,用于降低第二音频流中的背景声音的能量,得到第三音频流;输出模块,用于输出第三音频流。
其中,增强模块具体用于:将第一音频流输入滤波器组,以增强第一音频流中预设频率范围内的频率分量的能量。
其中,增强模块具体用于:在50Hz至16000Hz的频率范围内选取10个频率作为中心频率,通过在10个频率中选择不同中心频率对应的幅度值,以增强预设频率范围内的频率分量。
其中,降低模块,包括:提取单元,用于从第二音频流中提取背景声音信号;计算单元,用于计算背景声音信号的能量值;确定单元,用于根据计算得到的能量值,确定背景声音的衰减程度;降低单元,用于根据衰减程度降低第二音频流中的背景声音。
其中,预设频率范围为500Hz到3600Hz。
本发明实施例提供的方法不仅对音频流中的人声部分进行了增强,而且对背景声音进行了一定的消弱,经过该方法处理后,在噪声环境中,人耳可以更容易的分辨出说话人声,同时以本实施例提供的方法处理后的音频,人声失真较小,突显人声的效果较为明显。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明第一实施例提供的音频流处理方法的流程图;
图2是本发明第二实施例提供的音频流处理方法的原理图;
图3是本发明第三实施例提供的音频流处理装置的结构框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
第一实施例
本实施例提供了一种音频流的处理方法,图1是该方法的流程图,如图1所示,该方法包括如下处理:
步骤101:增强输入的第一音频流中预设频率范围内的频率分量的能量,得到第二音频流;
在本实施例中预设频率范围可选的为500Hz到3600Hz,该频率范围具体可以囊括不同的语音的音频范围。
步骤102:降低第二音频流中的背景声音的能量,得到第三音频流;
步骤103:输出第三音频流。
在本实施例中,增强输入的第一音频流中预设频率范围内的频率分量的能量具体可以包括:将第一音频流输入滤波器组,以增强第一音频流中预设频率范围内的频率分量的能量。增强输入的第一音频流中预设频率范围内的频率分量的能量的步骤具体可以包括:在50Hz至16000Hz的频率范围内选取10个频率作为中心频率,通过在10个频率中选择不同中心频率对应的幅度值,以增强预设频率范围内的频率分量。
需要说明的是,在本实施例中增强输入的第一音频流中预设频率范围内的频率分量的能量具体还可以是,将第一音频流中预设频率范围内的频率分量的能量增强至预设值,以及降低第二音频流中的背景声音的能量具体也可以是将第二音频流中的背景声音的能量降低至预设值。
其中,降低第二音频流中的背景声音的能量具体可以包括以下处理:
从第二音频流中提取背景声音信号;计算背景声音信号的能量值;根据计算得到的能量值,确定背景声音的衰减程度;根据衰减程度降低第二音频流中的背景声音。
本发明实施例提供的方法不仅对音频中的人声部分进行了增强,而且对背景声音进行了一定的消弱,经过该方法处理后,在噪声环境中,人耳可以更容易的分辨出说话人声,同时以本实施例提供的方法处理后的音频,人声失真较小,突显人声的效果较为明显。
第二实施例
本实施例在上述第一实施例的基础上,通过公开更多的技术细节来对本发明提供的音频流处理方法进行进一步阐述。首先介绍以下本实施例提供的音频流处理方法的实现原理:
图2是本实施例提供的音频流处理方法的原理图,如图2所示,首先输入解码后的音频流,使该音频流首先经过多通带滤波器,对频率范围在500Hz到3600Hz之间的信号进行能量增强;之后从音频流中提取背景声音,以此为参考用于降低整个音频流中的背景声音能量。经过降低背景声音能量后,得到最终的输出音频。
其中,多通带滤波器由一组带通滤波器组成,带通滤波器是指能通过某一频率范围内的频率分量,但其他范围的频率分量衰减到极低水平的滤波器。优选的,本实施例可以基于滤波器组在频率50Hz-16000Hz之间选取10个频率作为中心频率,通过调整不同中心频率位置对应的幅度值,达到增强语音的目的。
提取背景声音的处理方式,具体可以是,在输入的音频信号是双声道信号的情况下,可以利用左右声道之间的差异获取背景声音,在本实施例中,也可以通过实现对背景声音进行分析,得到背景音乐的特征,根据该特征(例如可以是频率的特征),提取音频流中的背景声音。
降低背景音能量具体可以根据获得的背景声音信号,计算背景声音的能量值,根据计算得到的能量值,确定针对背景声音的衰减程度,从而获取最终的输出信号。
采用本实施例提供的方法对视频播放器的音频流处理后,在噪声环境下,使用视频播放器播放视频时,人耳可以清晰的分辨出说话人声,且避免了音频失真的情况。
第三实施例
本实施例提供了一种音频流的处理装置,该装置用于实现上述第一实施例以及第二实施例提供的方法,图3是该装置的结构框图,如图3所示,该装置30包括如下组成部分:
增强模块31,用于增强输入的第一音频流中预设频率范围内的频率分量的能量,得到第二音频流;在本实施例中,预设频率范围可以为500Hz到3600Hz。
降低模块32,用于降低第二音频流中的背景声音的能量,得到第三音频流;
输出模块33,用于输出第三音频流。
其中,上述增强模块31具体可以用于:将第一音频流输入滤波器组,以增强第一音频流中预设频率范围内的频率分量的能量。
其中,本实施例所涉及的滤波器组可以包括10个中心频率,基于该滤波器组,上述增强模块31具体用于:在50Hz至16000Hz的频率范围内选取10个频率作为中心频率,通过在10个频率中选择不同中心频率对应的幅度值,以增强预设频率范围内的频率分量。
其中,上述降低模块32具体可以包括:提取单元,用于从第二音频流中提取背景声音信号;计算单元,用于计算背景声音信号的能量值;确定单元,用于根据计算得到的能量值,确定背景声音的衰减程度;降低单元,用于根据衰减程度降低第二音频流中的背景声音。
需要说明的是,在本实施例中增强输入的第一音频流中预设频率范围内的频率分量的能量具体还可以是,将第一音频流中预设频率范围内的频率分量的能量增强至预设值,以及降低第二音频流中的背景声音的能量具体也可以是将第二音频流中的背景声音的能量降低至预设值。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。

Claims (8)

1.一种音频流的处理方法,其特征在于,包括:
增强输入的第一音频流中预设频率范围内的频率分量的能量,得到第二音频流,其中,所述预设频率范围囊括不同的语音的音频范围;
从所述第二音频流中提取背景声音信号,具体包括:在输入的第二音频流是双声道信号的情况下,利用左右声道之间的差异获取背景声音;
降低所述第二音频流中的背景声音的能量,得到第三音频流,其中,所述降低所述第二音频流中的背景声音的能量具体包括:计算所述背景声音信号的能量值;根据计算得到的能量值,确定所述背景声音的衰减程度;根据所述衰减程度降低所述第二音频流中的背景声音;
输出所述第三音频流。
2.根据权利要求1所述的方法,其特征在于,所述增强输入的第一音频流中预设频率范围内的频率分量的能量,包括:
将所述第一音频流输入滤波器组,以增强所述第一音频流中预设频率范围内的频率分量的能量。
3.根据权利要求2所述的方法,其特征在于,所述增强输入的第一音频流中预设频率范围内的频率分量的能量,包括:
在50Hz至16000Hz的频率范围内选取10个频率作为中心频率,通过在所述10个频率中选择不同中心频率对应的幅度值,以增强所述预设频率范围内的频率分量。
4.根据权利要求1至3任意一项所述的方法,其特征在于,所述预设频率范围为500Hz到3600Hz。
5.一种音频流的处理装置,其特征在于,包括:
增强模块,用于增强输入的第一音频流中预设频率范围内的频率分量的能量,得到第二音频流,其中,所述预设频率范围囊括不同的语音的音频范围;
提取模块,用于从所述第二音频流中提取背景声音信号,具体包括:在输入的第二音频流是双声道信号的情况下,利用左右声道之间的差异获取背景声音;
降低模块,用于降低所述第二音频流中的背景声音的能量,得到第三音频流,其中,所述降低模块具体包括计算单元,用于计算所述背景声音信号的能量值;确定单元,用于根据计算得到的能量值,确定所述背景声音的衰减程度;降低单元,用于根据所述衰减程度降低所述第二音频流中的背景声音;
输出模块,用于输出所述第三音频流。
6.根据权利要求5所述的装置,其特征在于,所述增强模块具体用于:
将所述第一音频流输入滤波器组,以增强所述第一音频流中预设频率范围内的频率分量的能量。
7.根据权利要求6所述的装置,其特征在于,所述增强模块具体用于:
在50Hz至16000Hz的频率范围内选取10个频率作为中心频率,通过在所述10个频率中选择不同中心频率对应的幅度值,以增强所述预设频率范围内的频率分量。
8.根据权利要求5至7任意一项所述的装置,其特征在于,所述预设频率范围为500Hz到3600Hz。
CN201610818447.9A 2016-09-12 2016-09-12 一种音频流的处理方法及装置 Active CN106328159B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610818447.9A CN106328159B (zh) 2016-09-12 2016-09-12 一种音频流的处理方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610818447.9A CN106328159B (zh) 2016-09-12 2016-09-12 一种音频流的处理方法及装置

Publications (2)

Publication Number Publication Date
CN106328159A CN106328159A (zh) 2017-01-11
CN106328159B true CN106328159B (zh) 2021-07-09

Family

ID=57787131

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610818447.9A Active CN106328159B (zh) 2016-09-12 2016-09-12 一种音频流的处理方法及装置

Country Status (1)

Country Link
CN (1) CN106328159B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110072172B (zh) * 2019-04-25 2020-10-16 广州小鹏汽车科技有限公司 一种音频信号的输出方法、系统、电子设备及可读介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101802910A (zh) * 2007-09-12 2010-08-11 杜比实验室特许公司 利用话音清晰性的语音增强
CN102347027A (zh) * 2011-07-07 2012-02-08 瑞声声学科技(深圳)有限公司 双麦克风语音增强装置及其语音增强方法
CN103489451A (zh) * 2012-06-13 2014-01-01 百度在线网络技术(北京)有限公司 移动终端的语音处理方法及移动终端
CN104242850A (zh) * 2014-09-09 2014-12-24 联想(北京)有限公司 一种音频信号处理方法及电子设备
CN104681034A (zh) * 2013-11-27 2015-06-03 杜比实验室特许公司 音频信号处理
CN105897997A (zh) * 2014-12-18 2016-08-24 北京千橡网景科技发展有限公司 用于调整音频增益的方法和设备

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004061617A (ja) * 2002-07-25 2004-02-26 Fujitsu Ltd 受話音声処理装置
CN102664022B (zh) * 2012-04-01 2014-03-26 北京风灵创景科技有限公司 移动终端及优化移动终端通话音质的方法
CN104053120B (zh) * 2014-06-13 2016-03-02 福建星网视易信息系统有限公司 一种立体声音频的处理方法和装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101802910A (zh) * 2007-09-12 2010-08-11 杜比实验室特许公司 利用话音清晰性的语音增强
CN102347027A (zh) * 2011-07-07 2012-02-08 瑞声声学科技(深圳)有限公司 双麦克风语音增强装置及其语音增强方法
CN103489451A (zh) * 2012-06-13 2014-01-01 百度在线网络技术(北京)有限公司 移动终端的语音处理方法及移动终端
CN104681034A (zh) * 2013-11-27 2015-06-03 杜比实验室特许公司 音频信号处理
CN104242850A (zh) * 2014-09-09 2014-12-24 联想(北京)有限公司 一种音频信号处理方法及电子设备
CN105897997A (zh) * 2014-12-18 2016-08-24 北京千橡网景科技发展有限公司 用于调整音频增益的方法和设备

Also Published As

Publication number Publication date
CN106328159A (zh) 2017-01-11

Similar Documents

Publication Publication Date Title
US9881635B2 (en) Method and system for scaling ducking of speech-relevant channels in multi-channel audio
CN106878866B (zh) 音频信号处理方法、装置及终端
CN107004427B (zh) 增强多声道音频信号内语音分量的信号处理装置
CN109493877B (zh) 一种助听装置的语音增强方法和装置
US9420382B2 (en) Binaural source enhancement
CN104916288B (zh) 一种音频中人声突出处理的方法及装置
KR20160113224A (ko) 오디오 신호를 압축하는 오디오 압축 시스템
KR20140055932A (ko) 상이한 이퀄라이저 모드들 사이에 출력음 크기와 음질을 유지하기 위한 장치 및 방법
WO2015070918A1 (en) Apparatus and method for improving a perception of a sound signal
WO2015085946A1 (zh) 语音信号处理方法、装置及服务器
CN115348507A (zh) 脉冲噪声抑制方法、系统、可读存储介质及计算机设备
CN110996238B (zh) 双耳同步信号处理助听系统及方法
WO2017045512A1 (zh) 一种语音识别的方法、装置、终端及语音识别设备
JP2009296298A (ja) 音声信号処理装置および方法
CN106328159B (zh) 一种音频流的处理方法及装置
WO2012098856A1 (ja) 補聴器、及び、補聴器の制御方法
CN115022767A (zh) 耳机降风噪方法、装置、耳机及计算机可读存储介质
JPH06289898A (ja) 音声信号処理装置
CN108932953B (zh) 一种音频均衡函数确定方法、音频均衡方法及设备
CN108810737B (zh) 信号处理的方法、装置和虚拟环绕声播放设备
CN110996205A (zh) 耳机的控制方法、耳机及可读存储介质
JP6231762B2 (ja) 受信装置及びプログラム
JP2011141540A (ja) 音声信号処理装置、テレビジョン受像機、音声信号処理方法、プログラム、および、記録媒体
US20230239617A1 (en) Ear-worn device and reproduction method
JP2010028663A (ja) 音声レベル調整装置、音声レベル調整方法およびプログラム

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: 100080 A 5 C, block A, China International Steel Plaza, 8 Haidian Avenue, Haidian District, Beijing.

Applicant after: Youku network technology (Beijing) Co., Ltd.

Address before: 100080 A 5 C, block A, China International Steel Plaza, 8 Haidian Avenue, Haidian District, Beijing.

Applicant before: 1Verge Inc.

CB02 Change of applicant information
GR01 Patent grant
GR01 Patent grant