CN109616135A - 音频处理方法、装置及存储介质 - Google Patents

音频处理方法、装置及存储介质 Download PDF

Info

Publication number
CN109616135A
CN109616135A CN201811354065.0A CN201811354065A CN109616135A CN 109616135 A CN109616135 A CN 109616135A CN 201811354065 A CN201811354065 A CN 201811354065A CN 109616135 A CN109616135 A CN 109616135A
Authority
CN
China
Prior art keywords
noise
frame
current audio
audio frame
hiss
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811354065.0A
Other languages
English (en)
Other versions
CN109616135B (zh
Inventor
陈洲旋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Music Entertainment Technology Shenzhen Co Ltd
Original Assignee
Tencent Music Entertainment Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Music Entertainment Technology Shenzhen Co Ltd filed Critical Tencent Music Entertainment Technology Shenzhen Co Ltd
Priority to CN201811354065.0A priority Critical patent/CN109616135B/zh
Publication of CN109616135A publication Critical patent/CN109616135A/zh
Application granted granted Critical
Publication of CN109616135B publication Critical patent/CN109616135B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0264Noise filtering characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/21Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information

Abstract

本发明公开了一种音频处理方法、装置及存储介质,其中,可以对待处理音频信号的当前音频帧中的Hiss噪声进行估计,得到当前音频帧中Hiss噪声的预估噪声功率谱;然后,识别当前音频帧的帧类型,并确定对应帧类型的噪声跟踪速率,其中,帧类型包括信号帧或噪声帧,且信号帧对应的噪声跟踪速率小于噪声帧对应的噪声跟踪速率;然后,根据预估噪声功率谱以及确定的噪声跟踪速率,对当前音频帧的Hiss噪声进行跟踪,得到该Hiss噪声的目标噪声功率谱;然后,根据跟踪得到的目标噪声功率谱生成用于对当前音频帧中Hiss噪声进行抑制的频谱增益,并根据生成的频谱增益对当前音频帧中的Hiss噪声进行抑制,由此来消除待处理音频信号中的Hiss噪声,使其播放效果得以提高。

Description

音频处理方法、装置及存储介质
技术领域
本发明实施例涉及音频处理领域,具体涉及一种音频处理方法、装置及存储介质。
背景技术
随着互联网技术不断发展,如短视频,直播平台的兴起,个人制作的音频信号得到更多的传播,而这些音频信号由于录制环境、录制设备的差异,较容易混入各种噪声,Hiss噪声就是其中一种。Hiss噪声是一种宽频带的平稳加性白噪声,播放时有“咝咝”声,严重影响音频信号的播放效果。
发明内容
本发明实施例提供一种音频处理方法、装置及存储介质,能够抑制音频信号中的Hiss噪声,提高音频信号的播放效果。
本发明实施例提供一种音频处理方法,包括:
对待处理音频信号的当前音频帧中的Hiss噪声进行估计,得到所述Hiss噪声的预估噪声功率谱;
识别所述当前音频帧的帧类型,并确定对应所述帧类型的噪声跟踪速率,其中,所述帧类型包括信号帧或噪声帧,且所述信号帧对应的噪声跟踪速率小于所述噪声帧对应的噪声跟踪速率;
根据所述预估噪声功率谱以及所述噪声跟踪速率,对所述Hiss噪声进行跟踪,得到所述Hiss噪声的目标噪声功率谱;
根据所述目标噪声功率谱生成用于对所述Hiss噪声进行抑制的频谱增益,并根据所述频谱增益对所述Hiss噪声进行抑制。
本发明实施例还提供一种音频处理装置,包括:
预估模块,用于对待处理音频信号的当前音频帧中的Hiss噪声进行估计,得到所述Hiss噪声的预估噪声功率谱;
识别模块,用于识别所述当前音频帧的帧类型,并确定对应所述帧类型的噪声跟踪速率,其中,所述帧类型包括信号帧或噪声帧,且所述信号帧对应的噪声跟踪速率小于所述噪声帧对应的噪声跟踪速率;
更新模块,用于根据所述预估噪声功率谱以及所述噪声跟踪速率,对所述Hiss噪声进行跟踪,得到所述Hiss噪声的目标噪声功率谱;
抑制模块,用于根据所述目标噪声功率谱生成用于对所述Hiss噪声进行抑制的频谱增益,并根据所述频谱增益对所述Hiss噪声进行抑制。
本发明实施例还提供一种存储介质,所述存储介质存储有多条指令,所述指令适于处理器进行加载,执行本发明实施例所提供的音频处理方法中的步骤。
本发明实施例通过对待处理音频信号的当前音频帧中的Hiss噪声进行估计,得到当前音频帧中Hiss噪声的预估噪声功率谱;然后,识别当前音频帧的帧类型,并确定对应帧类型的噪声跟踪速率,其中,帧类型包括信号帧或噪声帧,且信号帧对应的噪声跟踪速率小于噪声帧对应的噪声跟踪速率;然后,根据预估噪声功率谱以及确定的噪声跟踪速率,对当前音频帧的Hiss噪声进行跟踪,得到该Hiss噪声的目标噪声功率谱;然后,根据跟踪得到的目标噪声功率谱生成用于对当前音频帧中Hiss噪声进行抑制的频谱增益,并根据生成的频谱增益对当前音频帧中的Hiss噪声进行抑制,由此来消除待处理音频信号中的Hiss噪声,使其播放效果得以提高。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的音频处理方法的一场景示意图;
图2为本发明实施例提供的音频处理方法的一流程示意图;
图3为本发明实施例中将待处理音频信号划分为多个音频帧的示意图;
图4为本发明实施例提供的音频处理方法的另一流程示意图;
图5为本发明实施例提供的音频处理方法的又一流程示意图;
图6为本发明实施例提供的一种音频处理装置的结构示意图;
图7为本发明实施例提供的一种终端的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明中的术语“第一”和“第二”等是用于区别不同对象,而不是用于描述特定顺序。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或模块的过程、方法、系统、产品或设备没有限定于已列出的步骤或模块,而是可选地还包括没有列出的步骤或模块,或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或模块。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本发明的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域普通技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
随着互联网技术不断发展,如短视频,直播平台的兴起,个人制作的音频信号得到更多的传播,而这些音频信号由于录制环境、录制设备的差异,较容易混入各种噪声,Hiss噪声就是其中一种。Hiss噪声是一种宽频带的平稳加性白噪声,播放时有“嘶嘶”声,实际上Hiss噪声很难用词语准确描述。这种噪声普遍存在于电器设备之中,例如空调、冰箱等设备,但是这些设备的其他噪声更加明显,很多时候由于人耳的掩蔽效应反而忽略了。但是诸如手机、平板电脑等终端在使用时距离用户较近,使得Hiss噪声显得比较明显。因此,本发明实施例提供了一种音频处理方法、装置及存储介质,用于对音频信号中的Hiss噪声进行抑制,从而提高音频信号的播放效果。
本发明实施例提供的音频处理方法,可实现在音频处理装置中,该音频处理装置具体可以集成在计算机、智能电视、智能音箱、手机、平板电脑等具备储存器并安装有处理器而具有运算能力的终端中。
请参照图1,图1为本发明实施例所提供的音频处理方法的场景示意图,该音频处理方法可以由音频处理装置执行,该音频处理装置应用于终端,使得:终端对待处理音频信号的当前音频帧中的Hiss噪声进行估计,得到当前音频帧中Hiss噪声的预估噪声功率谱,该待处理音频信号可以是用户录音产生的语音信号,比如,对老唱片进行翻录所得到的语音信号;然后,识别当前音频帧的帧类型,并确定对应帧类型的噪声跟踪速率,其中,帧类型包括信号帧或噪声帧,且信号帧对应的噪声跟踪速率小于噪声帧对应的噪声跟踪速率;然后,根据预估噪声功率谱以及确定的噪声跟踪速率,对当前音频帧的Hiss噪声进行跟踪,得到该Hiss噪声的目标噪声功率谱,比如,若当前音频帧为信号帧,则采用较小的噪声跟踪速率对当前音频帧中的Hiss噪声进行跟踪,其噪声变化较为平坦,若当前音频帧为噪声帧,则采用较大的噪声跟踪速率对当前音频帧中的Hiss噪声进行跟踪,其噪声可以更快的接近真实的噪声;然后,根据跟踪得到的目标噪声功率谱生成用于对当前音频帧中Hiss噪声进行抑制的频谱增益,并根据生成的频谱增益对当前音频帧中的Hiss噪声进行抑制,由此来消除待处理音频信号中的Hiss噪声,使其播放效果得以提高。
应当说明的是,图1所示的音频处理方法的场景示意图仅仅是一个示例,本发明实施例描述的音频处理方法的场景是为了更加清楚的说明本发明实施例的技术方案,并不构成对于本发明实施例提供的技术方案的限定,本领域普通技术人员可以理解的是,随着音频处理方法的演变和新业务场景的出现,本发明实施例提供的技术方案对于类似的技术问题,同样适用。
以下分别进行详细说明,以下各个实施例的描述先后顺序并不构成对具体实施先后顺序的限定。
请参照图2,图2为本发明实施例提供的音频处理方法的一种流程示意图,该音频处理方法包括:
101、对待处理音频信号的当前音频帧中的Hiss噪声进行估计,得到当前音频帧中Hiss噪声的预估噪声功率谱。
应当说明的是,Hiss噪声是一种全频带(0-20kHz)的平稳加性白噪声,所谓待处理音频信号可以看做是叠加有Hiss噪声的音频信号,比如,用户录制的音频信号,其Hiss噪声来源可以是录音环境中的背景噪声等。
可以理解的是,在实际生活中任何事情从不同的角度看得到的结果不同,好的可以变坏,坏的可以变好,多的变少,少的变多,等等。就如一串整齐排列的骨牌,要从中拿出一个,若从正面看的话,只能看到第一个,不容易从中找出来,而如果从侧面看的话,就很容易找出来。对于待处理音频信号的来说也是一样的,从时域看,Hiss噪声和纯净音频信号是叠加在一起的,无法识别出Hiss噪声,就好比从正面看骨牌。而从频域来看,我们会发现,Hiss噪声和纯净音频信号是可以分开的,就好比从侧面看骨牌。也即是说,在本发明实施例中,将在频域对待处理音频信号中的Hiss噪声进行抑制。
本领域普通技术人员可以理解的是,作为时域到频域的转换工具,傅里叶变换要求输入信号是平稳的。虽然音频信号在宏观上是不平稳的,但是其在微观上是平稳的,具有短时平稳性,通常认为音频信号在10毫秒至30毫秒的时间段中是平稳的。因此,本发明实施例中,需要将待处理音频信号划分为多个短段来进行处理,每一个短段称为一音频帧。
其中,终端预先获取待处理音频信号(该待处理音频信号可以是用户录音产生的语音信号,比如,对老唱片进行翻录所得到的语音信号,录制自己演唱所得到的语音信号,等等),并对待处理音频信号进行分帧、加分析窗(如汉明窗、矩形窗等)处理,得到待处理音频信号的多个音频帧。对于如何对待处理音频信号进行分帧、加分析窗处理,可由本领域普通技术人员根据实际需要进行,此处不再赘述。比如,请参照图3,对待处理音频信号进行分帧、加分析窗处理,共得到n个音频帧。
在对待处理音频信号进行分帧、加分析窗处理得到多个音频帧之后,即可采用本发明实施例提供的音频处理方法来逐帧在频域内进行Hiss噪声的抑制。
其中,首先对待处理音频信号的当前音频帧中的Hiss噪声进行估计,得到当前音频帧中Hiss噪声的预估噪声功率谱。应当说明的是,当前音频帧并不用于特指某一音频帧,而是用于代指当前时刻进行Hiss噪声抑制的音频帧,比如,若在当前时刻对待处理音频信号的第五个音频帧进行Hiss噪声抑制,则该第五个音频帧即为当前音频帧,若在当前时刻对待处理音频信号的第六个音频帧进行Hiss噪声抑制,则该第六个音频帧即为当前音频帧,等等。
可选的,在一实施方式中,对待处理音频信号的当前音频帧中的Hiss噪声进行估计,得到当前音频帧中Hiss噪声的预估噪声功率谱,可以包括:
(1)、获取当前音频帧中位于预设频率区间之内的频点的能量,并从获取到的能量中筛选出位于预设能量区间之内的能量;
(2)、对筛选出的能量按照大小进行排序,并将排序后能量的中位数确定为当前音频帧中Hiss噪声的能量;
(3)、根据Hiss噪声的能量获取预估噪声功率谱。
如上所述,当前音频帧即是一小段待处理音频信号,本发明实施例中,使用x(n)表示当前音频帧中的纯净音频信号,使用d(n)表示当前音频帧中的Hiss噪声,使用y(n)表示当前音频帧,则y(n)=x(n)+d(n),通过傅里叶变换(比如,快速傅里叶变换)将当前音频帧由时域转换到频域,得到当前音频帧的频域表示:
Y(k)=X(k)+D(k),其中k取值范围为[0,1,…,N–1],N表示进行傅里叶变换的点数,k表示频点,Y(k)、X(k)和D(k)分别表示当前音频帧、纯净音频信号和Hiss噪声的频域谱。
使用Y2(k)表示当前音频帧的能量谱,则Y2(k)=abs(Y(k))^2,其中,abs()表示取模运算。
本发明实施例中,考虑到Hiss噪声的能量分布在当前音频帧的所有频率成分中,且各频率成分的能量较为接近,而对于当前音频帧而言,其低频部分的能量比较大,高频部分的能量比较小。因此,本发明实施例中根据当前音频帧在中频部分的能量分布对Hiss噪声进行估计。其中,使用预设频率区间来限定需要分析的当前音频帧中频部分的具体范围。这样,在对当前音频帧中的Hiss噪声进行估计时,首先获取当前音频帧中位于预设频率区间之内的频点的能量,频点的能量按照如下公式获取:
E(k)=10*log10(Y2(k)/N);
其中,E(k)表示第k个频点的能量。
另外,本发明实施例中考虑到当能量较大时,其较大概率是非噪声能量,而当能量很小时,其较大概率是被切割掉的信号频段,因此,预先设置有预设能量区间,用于滤除非噪声能量和被切割掉的信号频段等无用能量。其中,对于预设能量区间的具体设置,本发明实施例中不做具体限制,可由本领域普通技术人员根据实际需要进行设置。比如,可以将预设能量区间设置为[-90dB,-50dB]。
相应的,在获取到当前音频帧中位于预设频率区间之内的频点的能量之后,从获取到的能量中筛选出位于预设能量区间之内的能量,得到集合H。
之后,对集合H中的能量按照大小进行排序,并将排序后能量的中位数确定为当前音频帧中Hiss噪声的能量。
使用zeta表示Hiss噪声的能量,则zeta=median(H),其中,median(H)表示取集合H的中位数。
之后,按照如下公式得到Hiss噪声的预估噪声功率谱:
zeta_v=pow(10,(zeta/10))*N;
其中,zeta_v表示预估噪声功率谱,pow(10,(zeta/10)表示以10为底,zeta/10为幂的指数函数。
可选的,为了能够更准确的估计Hiss噪声,针对不同码率/采样率的音频信号,可以采用不同的预设频率区间进行能量分析。在本发明实施例中,可以预先设置有码率、采样频率和预设频率区间的对应关系,这样,获取当前音频帧中位于预设频率区间之内的频点的能量,可以包括:
(1)、获取当前音频帧的码率和采样频率;
(2)、根据预设的码率、采样频率和预设频率区间的对应关系,确定当前音频帧的码率和采样频率所对应的预设频率区间,得到目标预设频率区间;
(3)、获取当前音频帧中位于目标预设频率区间之内的频点的能量。
应当说明的是,码率、采样频率和预设频率区间的对应关系的具体设置,本发明实施例不做具体限制,可由本领域普通技术人员根据实际需要进行设置。
示例性的,可以将码率、采样频率和预设频率区间的对应关系配置为:
采样频率44.1kHz、码率128kbps对应预设频率区间[5kHz,16kHz];
采样频率48kHz、码率320kbps对应预设频率区间[5kHz,18kHz],等等。
比如,若当前音频帧的采样率为44.1kHz,码率为128kbps,则在预设频率区间[5kHz,16kHz]内对当前音频帧的能量进行分析,因为其低于5kHz部分的频段能量比较大,高于16kHz部分的频段能量比较小,且高于16kHz的频段很多被切割了。
应当说明的是,在其它实施方式中,还可以采用其它方法来对Hiss噪声进行估计,比如,可以采用修正的中值绝对偏差法等。
102、识别当前音频帧的帧类型,并确定对应当前音频帧的帧类型的噪声跟踪速率,其中,帧类型包括信号帧或噪声帧,且信号帧对应的噪声跟踪速率小于噪声帧对应的噪声跟踪速率。
应当说明的是,101和102的执行顺序不受序号大小的影响,可以是101在102之前执行,也可以是101在102之后执行,还可以是101和102同时执行。
本发明实施例中,还预先设置有对应不同帧类型的噪声跟踪速率,此处对噪声跟踪速率的具体取值不做具体限制,以信号帧对应的噪声跟踪速率小于噪声帧对应的噪声跟踪速率为约束,可由本领域普通技术人员根据实际需要取值。
为此,首先就要识别当前音频帧的帧类型,以便根据当前音频帧的帧类型来确定对当前音频帧中Hiss进行跟踪的噪声跟踪速率。
可选的,在一实施方式中,识别当前音频帧的帧类型,可以包括:
(1)、获取当前音频帧的频谱平坦度;
(2)、根据当前音频帧的频谱平坦度获取用于识别当前音频帧的帧类型的概率;
(3)、判断获取到的概率是否小于预设概率,若是,则确定当前音频帧的帧类型为噪声帧,否则确定当前音频帧的帧类型为信号帧。
应当说明的是,通过计算音调,可以区分音频是否为噪声,而音调可以通过频谱平坦度来衡量。
因此,本发明实施例中,首先按照如下公式获取当前音频帧的频谱平坦度:
SFM=10*log10(GM/AM);
其中,SFM表示频谱平坦度,GM表示当前音频帧的功率谱Y2的几何平均值,AM表示当前音频帧的功率谱Y2的算数平均值。
之后,按照如下公式计算当前音频帧的音调:
Tonality=min(-SFM/60,1);
其中,Tonality表示当前音频帧的音调,min(-SFM/60,1)用于取-SFM/60和1之间的较小值,Tonality的取值范围为[0,1],将当前音频帧的音调作为用于识别当前音频帧的帧类型的概率。这样,当音调(概率)为0时,认为当前音频帧是完全的噪声帧,即当前音频帧只存在Hiss噪声,当音调(概率)为1时,认为当前音频帧是完全的信号帧,即当前音频帧只存在纯净音频,而当音调(概率)位于0和1之间时,当前音频帧即不完全是Hiss噪声,也不完全是纯净音频。
因此,预先设置一个用于对当前音频帧分类的预设概率,其中,若当前音频帧的音调(概率)小于该预设概率,则将当前音频帧判定为噪声帧,否则将当前音频帧判定为信号帧。应当说明的是,对于预设概率的设置,本发明实施例不做具体限制,可由本领域普通技术人员根据实际需要进行设置,比如,在本发明实施例中,可以在[0.5,0.7]中选取一个值作为预设概率。
应当说明的是,在其它实施方式中,还可以采用其它方法来对当前音频帧的帧类型进行识别,比如,可以预先训练用于识别帧类型的机器学习模型,从而通过已完成训练的机器学习模型来对当前音频帧的帧类型进行识别,还可以采用阈值法等来对当前音频帧的帧类型进行识别,等等。
103、根据预估噪声功率谱以及噪声跟踪速率,对当前音频帧中的Hiss噪声进行跟踪,得到当前音频帧中Hiss噪声的目标噪声功率谱;
本发明实施例中,在确定对应当前音频帧的帧类型的噪声跟踪速率之后,即可按照该噪声跟踪速率对当前音频帧中的Hiss噪声进行跟踪,从而对当前音频帧中Hiss噪声的预估噪声功率谱进行更新,将更新后的预估噪声功率谱记为目标噪声功率谱,相较于更新前的预估噪声功率谱,对预估噪声功率谱更新后得到的目标噪声功率谱能够更准确的描述实际的Hiss噪声。
可选的,在一实施方式中,根据预估噪声功率谱以及噪声跟踪速率,对当前音频帧中的Hiss噪声进行跟踪,得到当前音频帧中Hiss噪声的目标噪声功率谱,可以包括:
(1)、计算预估噪声功率谱和噪声跟踪速率的第一乘积;
(2)、计算预估噪声功率谱和第一乘积的第一差值;
(3)、获取历史目标噪声功率谱,并计算历史噪声功率谱和噪声跟踪速率的第二乘积,历史目标噪声功率谱为当前音频帧的上一音频帧中Hiss噪声的目标噪声功率谱;
(4)、计算第一差值和第二乘积的第一和值,并将第一和值作为当前音频帧中Hiss噪声的目标噪声功率谱。
若使用alpha表示噪声跟踪速率,使用lambda表示当前音频帧中Hiss噪声的目标噪声功率谱,使用lambda’表示历史目标噪声功率谱(即当前音频帧前一音频帧的目标噪声功率谱),则对当前音频帧中的Hiss噪声进行跟踪可以表示为:
lambda=(1-alpha)*lambda’+alpha*zeta_v;
其中,以噪声跟踪速率alpha小于1,且信号帧对应的噪声跟踪速率alpha小于噪声帧对应的噪声跟踪速率alpha为约束,不同帧类型所对应的噪声跟踪速率alpha可由本领域普通技术人员根据实际需要进行取值,比如,信号帧对应的噪声跟踪速率alpha可以在[0.05,0.1]之间取值,噪声帧对应的噪声跟踪速率alpha可以在[0.2,0.3]之间取值。
本领域普通技术人员可以看出,采用本发明实施例提供的噪声跟踪方式对当前音频帧中的Hiss噪声进行跟踪,若当前音频帧为信号帧,则采用较小的噪声跟踪速率对当前音频帧中的Hiss噪声进行跟踪,其噪声变化较为平坦,若当前音频帧为噪声帧,则采用较大的噪声跟踪速率对当前音频帧中的Hiss噪声进行跟踪,其噪声可以更快的接近真实的噪声,由此,可以使得对预估噪声功率谱更新所得到的目标噪声功率谱能够更准确的描述当前音频帧中的Hiss噪声。
104、根据当前音频帧的目标噪声功率谱生成用于对当前音频帧中Hiss噪声进行抑制的频谱增益,并根据生成的频谱增益对当前音频帧中的Hiss噪声进行抑制。
本发明实施例中,在对当前音频帧的预估噪声功率谱进行更新而得到当前音频帧的目标噪声功率谱之后,进一步根据当前音频帧的目标噪声功率谱生成用于对当前音频帧中Hiss噪声进行抑制的频谱增益。
可选的,根据当前音频帧的目标噪声功率谱生成用于对当前音频帧中Hiss噪声进行抑制的频谱增益,并根据生成的频谱增益对当前音频帧中的Hiss噪声进行抑制,可以包括:
(1)、根据目标噪声功率谱获取用于对当前音频帧各频点Hiss噪声进行抑制的频谱增益;
(2)、根据当前音频帧各频点对应的频谱增益,在当前音频帧的各频点对Hiss噪声进行抑制。
其中,使用G(k)表示对当前音频帧中Hiss噪声进行抑制的频谱增益,则G(k)可以表示为:
G(k)=sqrt((Y2(k)–lambda)/Y2(k));
其中,sqrt()表示开方运算。
根据当前音频帧各频点对应的频谱增益,在当前音频帧的各频点对Hiss噪声进行抑制可以表示为:
Y(k)’=Y(k)*G(k);
其中,Y(k)’为进行Hiss噪声抑制后当前音频帧的频域表示(频域谱),也即是在频域实现对当前音频帧中Hiss噪声的抑制。
可选的,在一实施方式中,为了减少因抑制Hiss噪声而产生的“音乐噪声”,根据目标噪声功率谱获取用于对当前音频帧各频点Hiss噪声进行抑制的频谱增益,可以包括:
(1)、获取预设的过减参数和噪声基底参数;
(2)、计算目标噪声功率谱和过减参数的第三乘积;
(3)、获取当前音频帧的功率谱,并判断当前音频帧的功率谱是否大于第三乘积;
(4)、若是,则计算当前音频帧的功率谱和第三乘积的第二差值,并计算第二差值和当前音频帧的功率谱的第一商值,将第一商值的开方结果作为前述频谱增益;
(5)、若否,则计算目标噪声功率谱和噪声基底参数的第四乘积,并计算第四乘积和当前音频帧的功率谱的第二商值,将第二商值的开方结果作为前述频谱增益。
其中,过减参数用于指示在当前音频帧中抑制“多少”Hiss噪声,噪声基底参数用于结合当前音频帧的目标噪声功率谱产生一个用于掩蔽Hiss噪声的基底噪声。应当说明的是,对于过减参数以及噪声基底参数的具体取值,本发明实施例不做具体限制,可由本领域普通技术人员根据实际需要取经验值。
本发明实施例中,在根据目标噪声功率谱获取用于对当前音频帧各频点Hiss噪声进行抑制的频谱增益时,首先获取到预设的过减参数和噪声基底参数;然后,计算目标噪声功率谱和过减参数的第三乘积;然后,获取当前音频帧的功率谱,并判断当前音频帧的功率谱是否大于第三乘积,该判断结果能在一定程度上反映若按照过减参数对当前音频帧中的Hiss噪声抑制,是否会产生“音乐噪声”。
其中,若判断结果为是,代表不会产生音乐噪声,此时计算当前音频帧的功率谱(即Y2(k))和第三乘积的第二差值,并计算第二差值和当前音频帧的功率谱的第一商值,将第一商值的开方结果作为前述频谱增益。
若判断结果为否,代表会产生“音乐噪声”,此时计算目标噪声功率谱和噪声基底参数的第四乘积(即产生一个基底噪声),并计算第四乘积和当前音频帧的功率谱的第二商值,将第二商值的开方结果作为前述频谱增益。
以上操作可以伪代码的形式表示为:
其中,beta1表示过减参数,beta2表示噪声基底参数,S2(k)表示在对当前音频帧进行Hiss噪声抑制后的功率谱。
可选的,在一实施方式中,根据当前音频帧各频点对应的频谱增益,在当前音频帧的各频点对Hiss噪声进行抑制之前,可以包括:
对当前音频帧各频点对应的频谱增益进行帧内平滑处理。
其中,对于任一频点,可以根据该频点的频谱增益、以及该频点相邻频点的频谱增益以几何平均的方式进行帧内平滑处理,如下所示:
其中,G_smooth(k)表示平滑处理后的G(k),bins表示需要用于进行帧内平滑处理的相邻频点数,即对[k-bins,k+bins]的频点的频谱增益求几何平均值。
应当说明的是,本发明实施例中对于相邻频点数的取值不做具体限制,可由本领域普通技术人员根据实际需要进行取值,比如,本发明实施例中在[3,4]之间取值,即取前后相邻的3个或4个频点进行帧内平滑处理。
此外,还可以采用算术平均的方式进行帧内平滑处理,或者本发明实施例中未例出的其它帧内平滑处理方式进行帧内平滑处理。
可选的,在一实施方式中,根据当前音频帧各频点对应的频谱增益,在当前音频帧的各频点对Hiss噪声进行抑制之前,可以包括:
对当前音频帧各频点对应的频谱增益进行帧间平滑处理。
可选的,在一实施方式中,在完成对各音频帧的Hiss噪声抑制之后,还可以对各音频帧进行反傅里叶变化、综合窗、Overlap-add等方法合成得到抑制Hiss后的待处理音频信号。
由上可知,本发明实施例可以对待处理音频信号的当前音频帧中的Hiss噪声进行估计,得到当前音频帧中Hiss噪声的预估噪声功率谱;然后,识别当前音频帧的帧类型,并确定对应帧类型的噪声跟踪速率,其中,帧类型包括信号帧或噪声帧,且信号帧对应的噪声跟踪速率小于噪声帧对应的噪声跟踪速率;然后,根据预估噪声功率谱以及确定的噪声跟踪速率,对当前音频帧的Hiss噪声进行跟踪,得到该Hiss噪声的目标噪声功率谱;然后,根据跟踪得到的目标噪声功率谱生成用于对当前音频帧中Hiss噪声进行抑制的频谱增益,并根据生成的频谱增益对当前音频帧中的Hiss噪声进行抑制,由此来消除待处理音频信号中的Hiss噪声,使其播放效果得以提高。
根据上述实施例所描述的方法,以下将举例作进一步详细说明。
本实施例以音频处理装置为终端为例,请参照图4,该终端可以获取用户录制的语音信号作为待处理音频信号,首先执行S1,对待处理音频信号分帧,加分析窗处理,得到多个音频帧;然后,执行S2,在频域内逐帧抑制Hiss噪声,包括通过傅里叶变换得到音频帧的频域表示(即频域谱),在频域内进行Hiss噪声预估,并识别帧类型,根据帧类型对预估Hiss噪声更新,从而得到准确的Hiss噪声,再根据Hiss噪声生成频谱增益,对生成的频谱增益进行频谱平滑后与音频帧的频域表示相乘,得到抑制Hiss噪声后的音频帧;然后,执行S3,将音频帧转换为时域表示,再执行S4和S5,对各音频帧进行综合窗处理后,进行交叠相加处理,得到抑制Hiss噪声后的音频信号。
请参照图5,图5为本发明实施例提供的音频处理方法的另一流程示意图,可以包括:
201、终端获取待处理音频信号。
其中,终端首先获取需要抑制Hiss噪声的待处理音频信号,该待处理音频信号可以是用户录音产生的语音信号,比如,对老唱片进行翻录所得到的语音信号,录制自己演唱所得到的语音信号,还可以是终端从互联网或者其它终端除获取到音频信号,
比如,终端在获取待处理音频信号,可以利用采样率为44.1kHz采集用户说话或唱歌的语音,编码得到码率为128kbps的音频信号作为待处理音频。
202、终端将待处理音频信号划分为多个音频帧。
应当说明的是,Hiss噪声是一种全频带(0-20kHz)的平稳加性白噪声,待处理音频信号可以看做是叠加有Hiss噪声的音频信号,比如,根据用户录音得到待处理音频信号可以看做是叠加有Hiss噪声的纯净音频信号,其Hiss噪声来源可以是录音环境中的背景噪声等。
可以理解的是,在实际生活中任何事情从不同的角度看得到的结果不同,好的可以变坏,坏的可以变好,多的变少,少的变多,等等。就如一串整齐排列的骨牌,要从中拿出一个,若从正面看的话,只能看到第一个,不容易从中找出来,而如果从侧面看的话,就很容易找出来。对于待处理音频信号的来说也是一样的,从时域看,Hiss噪声和纯净音频信号是叠加在一起的,无法识别出Hiss噪声,就好比从正面看骨牌。而从频域来看,我们会发现,Hiss噪声和纯净音频信号是可以分开的,就好比从侧面看骨牌。也即是说,在本发明实施例中,将在频域对待处理音频信号中的Hiss噪声进行抑制。
本领域普通技术人员可以理解的是,作为时域到频域的转换工具,傅里叶变换要求输入信号是平稳的。虽然音频信号在宏观上是不平稳的,但是其在微观上是平稳的,具有短时平稳性,通常认为音频信号在10毫秒至30毫秒的时间段中是平稳的。因此,本发明实施例中,需要将待处理音频信号划分为多个短段来进行处理,每一个短段称为一音频帧。
其中,终端在将待处理音频信号划分为多个音频帧时,可以对待处理音频信号进行分帧、加分析窗(如汉明窗、矩形窗等)处理,由此得到待处理音频信号的多个音频帧,比如,请参照图3,对待处理音频信号进行分帧、加分析窗处理,共得到n个音频帧。
应当说明的是,对于如何对待处理音频信号进行分帧、加分析窗处理,可由本领域普通技术人员根据实际需要进行,此处不再赘述。
203、终端依序从多个音频帧选取一个音频帧作为当前音频帧。
本发明实施例中,终端逐帧在频域内进行Hiss噪声的抑制。其中,在将待处理音频信号划分为多个音频帧之后,终端依序从多个音频帧选取一个音频帧作为当前音频帧。应当说明的是,当前音频帧并不用于特指某一音频帧,而是用于代指当前时刻进行Hiss噪声抑制的音频帧,比如,若在当前时刻对待处理音频信号的第五个音频帧进行Hiss噪声抑制,则该第五个音频帧即为当前音频帧,若在当前时刻对待处理音频信号的第六个音频帧进行Hiss噪声抑制,则该第六个音频帧即为当前音频帧,等等。
204、终端对当前音频帧中的Hiss噪声进行估计,得到当前音频帧中Hiss噪声的预估噪声功率谱。
其中,终端首先对当前音频帧中的Hiss噪声进行估计,得到当前音频帧中Hiss噪声的预估噪声功率谱。
可具体的,终端对当前音频帧中的Hiss噪声进行估计,得到当前音频帧中Hiss噪声的预估噪声功率谱,包括:
(1)、终端获取当前音频帧中位于预设频率区间之内的频点的能量,并从获取到的能量中筛选出位于预设能量区间之内的能量;
(2)、终端对筛选出的能量按照大小进行排序,并将排序后能量的中位数确定为当前音频帧中Hiss噪声的能量;
(3)、终端根据Hiss噪声的能量获取预估噪声功率谱。
如上所述,当前音频帧即是一小段待处理音频信号,本发明实施例中,使用x(n)表示当前音频帧中的纯净音频信号,使用d(n)表示当前音频帧中的Hiss噪声,使用y(n)表示当前音频帧,则y(n)=x(n)+d(n),通过傅里叶变换(比如,快速傅里叶变换)将当前音频帧由时域转换到频域,得到当前音频帧的频域表示:
Y(k)=X(k)+D(k),其中k取值范围为[0,1,…,N–1],N表示进行傅里叶变换的点数,k表示频点,Y(k)、X(k)和D(k)分别表示当前音频帧、纯净音频信号和Hiss噪声的频域谱。
使用Y2(k)表示当前音频帧的能量谱,则Y2(k)=abs(Y(k))^2,其中,abs()表示取模运算。
本发明实施例中,考虑到Hiss噪声的能量分布在当前音频帧的所有频率成分中,且各频率成分的能量较为接近,而对于当前音频帧而言,其低频部分的能量比较大,高频部分的能量比较小。因此,本发明实施例中根据当前音频帧在中频部分的能量分布对Hiss噪声进行估计。其中,使用预设频率区间来限定需要分析的当前音频帧中频部分的具体范围。这样,在对当前音频帧中的Hiss噪声进行估计时,首先获取当前音频帧中位于预设频率区间之内的频点的能量,频点的能量按照如下公式获取:
E(k)=10*log10(Y2(k)/N);
其中,E(k)表示第k个频点的能量。
另外,本发明实施例中考虑到当能量较大时,其较大概率是非噪声能量,而当能量很小时,其较大概率是被切割掉的信号频段,因此,预先设置有预设能量区间,用于滤除非噪声能量和被切割掉的信号频段等无用能量。其中,对于预设能量区间的具体设置,本发明实施例中不做具体限制,可由本领域普通技术人员根据实际需要进行设置。比如,可以将预设能量区间设置为[-90dB,-50dB]。
相应的,在获取到当前音频帧中位于预设频率区间之内的频点的能量之后,从获取到的能量中筛选出位于预设能量区间之内的能量,得到集合H。
之后,对集合H中的能量按照大小进行排序,并将排序后能量的中位数确定为当前音频帧中Hiss噪声的能量。
使用zeta表示Hiss噪声的能量,则zeta=median(H),其中,median(H)表示取集合H的中位数。
之后,按照如下公式得到Hiss噪声的预估噪声功率谱:
zeta_v=pow(10,(zeta/10))*N;
其中,zeta_v表示预估噪声功率谱,pow(10,(zeta/10)表示以10为底,zeta/10为幂的指数函数。
可选的,为了能够更准确的估计Hiss噪声,针对不同码率/采样率的音频信号,终端可以采用不同的预设频率区间进行能量分析。
应当说明的是,码率、采样频率和预设频率区间的对应关系的具体设置,本发明实施例不做具体限制,可由本领域普通技术人员根据实际需要进行设置。
示例性的,可以将码率、采样频率和预设频率区间的对应关系配置为:
采样频率44.1kHz、码率128kbps对应预设频率区间[5kHz,16kHz];
采样频率48kHz、码率320kbps对应预设频率区间[5kHz,18kHz],等等。
比如,若当前音频帧的采样率为44.1kHz,码率为128kbps,则终端在预设频率区间[5kHz,16kHz]内对当前音频帧的能量进行分析,因为其低于5kHz部分的频段能量比较大,高于16kHz部分的频段能量比较小,且高于16kHz的频段很多被切割了。
205、终端识别当前音频帧的帧类型,并确定对应当前音频帧的帧类型的噪声跟踪速率,其中,帧类型包括信号帧或噪声帧,且信号帧对应的噪声跟踪速率小于噪声帧对应的噪声跟踪速率。
应当说明的是,204和205的执行顺序不受序号大小的影响,可以是204在205之前执行,也可以是204在205之后执行,还可以是204和205同时执行。
本发明实施例中,还预先设置有对应不同帧类型的噪声跟踪速率,此处对噪声跟踪速率的具体取值不做具体限制,以信号帧对应的噪声跟踪速率小于噪声帧对应的噪声跟踪速率为约束,可由本领域普通技术人员根据实际需要取值。
可具体的,终端识别当前音频帧的帧类型,包括:
(1)、终端获取当前音频帧的频谱平坦度;
(2)、终端根据当前音频帧的频谱平坦度获取用于识别当前音频帧的帧类型的概率;
(3)、终端判断获取到的概率是否小于预设概率,若是,则确定当前音频帧的帧类型为噪声帧,否则确定当前音频帧的帧类型为信号帧。
应当说明的是,通过计算音调,可以区分音频是否为噪声,而音调可以通过频谱平坦度来衡量。
因此,本发明实施例中,终端首先按照如下公式获取当前音频帧的频谱平坦度:
SFM=10*log10(GM/AM);
其中,SFM表示频谱平坦度,GM表示当前音频帧的功率谱Y2的几何平均值,AM表示当前音频帧的功率谱Y2的算数平均值。
之后,终端按照如下公式计算当前音频帧的音调:
Tonality=min(-SFM/60,1);
其中,Tonality表示当前音频帧的音调,min(-SFM/60,1)用于取-SFM/60和1之间的较小值,Tonality的取值范围为[0,1],终端将当前音频帧的音调作为用于识别当前音频帧的帧类型的概率。这样,当音调(概率)为0时,认为当前音频帧是完全的噪声帧,即当前音频帧只存在Hiss噪声,当音调(概率)为1时,认为当前音频帧是完全的信号帧,即当前音频帧只存在纯净音频,而当音调(概率)位于0和1之间时,当前音频帧即不完全是Hiss噪声,也不完全是纯净音频。
因此,预先设置一个用于对当前音频帧分类的预设概率,其中,若当前音频帧的音调(概率)小于该预设概率,则终端将当前音频帧判定为噪声帧,否则终端将当前音频帧判定为信号帧。应当说明的是,对于预设概率的设置,本发明实施例不做具体限制,可由本领域普通技术人员根据实际需要进行设置,比如,在本发明实施例中,可以在[0.5,0.7]中选取一个值作为预设概率。
应当说明的是,在其它实施方式中,终端还可以采用其它方法来对当前音频帧的帧类型进行识别,比如,可以预先训练用于识别帧类型的机器学习模型,从而通过已完成训练的机器学习模型来对当前音频帧的帧类型进行识别,还可以采用阈值法等来对当前音频帧的帧类型进行识别,等等。
206、终端根据预估噪声功率谱以及噪声跟踪速率,对当前音频帧中的Hiss噪声进行跟踪,得到当前音频帧中Hiss噪声的目标噪声功率谱。
本发明实施例中,在确定对应当前音频帧的帧类型的噪声跟踪速率之后,即可按照该噪声跟踪速率对当前音频帧中的Hiss噪声进行跟踪,从而对当前音频帧中Hiss噪声的预估噪声功率谱进行更新,将更新后的预估噪声功率谱记为目标噪声功率谱,相较于更新前的预估噪声功率谱,对预估噪声功率谱更新后得到的目标噪声功率谱能够更准确的描述实际的Hiss噪声。
若使用alpha表示噪声跟踪速率,使用lambda表示当前音频帧中Hiss噪声的目标噪声功率谱,使用lambda’表示历史目标噪声功率谱(即当前音频帧前一音频帧的目标噪声功率谱),则对当前音频帧中的Hiss噪声进行跟踪可以表示为:
lambda=(1-alpha)*lambda’+alpha*zeta_v;
其中,以噪声跟踪速率alpha小于1,且信号帧对应的噪声跟踪速率alpha小于噪声帧对应的噪声跟踪速率alpha为约束,不同帧类型所对应的噪声跟踪速率alpha可由本领域普通技术人员根据实际需要进行取值,比如,信号帧对应的噪声跟踪速率alpha可以在[0.05,0.1]之间取值,噪声帧对应的噪声跟踪速率alpha可以在[0.2,0.3]之间取值。
本领域普通技术人员可以看出,采用本发明实施例提供的噪声跟踪方式对当前音频帧中的Hiss噪声进行跟踪,若当前音频帧为信号帧,则采用较小的噪声跟踪速率对当前音频帧中的Hiss噪声进行跟踪,其噪声变化较为平坦,若当前音频帧为噪声帧,则采用较大的噪声跟踪速率对当前音频帧中的Hiss噪声进行跟踪,其噪声可以更快的接近真实的噪声,由此,可以使得对预估噪声功率谱更新所得到的目标噪声功率谱能够更准确的描述当前音频帧中的Hiss噪声。
207、终端根据当前音频帧的目标噪声功率谱获取用于对当前音频帧各频点Hiss噪声进行抑制的频谱增益。
本发明实施例中,在对当前音频帧的预估噪声功率谱进行更新而得到当前音频帧的目标噪声功率谱之后,终端进一步根据当前根据当前音频帧的目标噪声功率谱生成用于对当前音频帧中Hiss噪声进行抑制的频谱增益。
其中,终端在根据目标噪声功率谱获取用于对当前音频帧各频点Hiss噪声进行抑制的频谱增益时,首先获取到预设的过减参数和噪声基底参数,过减参数用于指示在当前音频帧中抑制“多少”Hiss噪声,噪声基底参数用于结合当前音频帧的目标噪声功率谱产生一个用于掩蔽Hiss噪声的基底噪声;然后,计算目标噪声功率谱和过减参数的第三乘积;然后,获取当前音频帧的功率谱,并判断当前音频帧的功率谱是否大于第三乘积,该判断结果能在一定程度上反映若按照过减参数对当前音频帧中的Hiss噪声抑制,是否会产生“音乐噪声”。
其中,若判断结果为是,代表不会产生音乐噪声,此时终端计算当前音频帧的功率谱和第三乘积的第二差值,并计算第二差值和当前音频帧的功率谱的第一商值,将第一商值的开方结果作为前述频谱增益。
若判断结果为否,代表会产生“音乐噪声”,此时终端计算目标噪声功率谱和噪声基底参数的第四乘积(即产生一个基底噪声),并计算第四乘积和当前音频帧的功率谱的第二商值,将第二商值的开方结果作为前述频谱增益。
以上操作可以伪代码的形式表示为:
其中,G(k)表示用于对当前音频帧各频点Hiss噪声进行抑制的频谱增益,beta1表示过减参数,beta2表示噪声基底参数,S2(k)表示在对当前音频帧进行Hiss噪声抑制后的功率谱,sqrt()表示开方运算。
208、终端对当前音频帧各频点对应的频谱增益进行帧内平滑处理。
其中,对于任一频点,终端可以根据该频点的频谱增益、以及该频点相邻频点的频谱增益以几何平均的方式进行帧内平滑处理,如下所示:
其中,G_smooth(k)表示平滑处理后的G(k),bins表示需要用于进行帧内平滑处理的相邻频点数,即对[k-bins,k+bins]的频点的频谱增益求几何平均值。
应当说明的是,本发明实施例中对于相邻频点数的取值不做具体限制,可由本领域普通技术人员根据实际需要进行取值,比如,本发明实施例中在[3,4]之间取值,即取前后相邻的3个或4个频点进行帧内平滑处理。
209、终端根据当前音频帧各频点对应的频谱增益,在当前音频帧的各频点对Hiss噪声进行抑制。
其中,根据当前音频帧各频点对应的频谱增益,在当前音频帧的各频点对Hiss噪声进行抑制可以表示为:
Y(k)’=Y(k)*G_smooth(k);
其中,Y(k)’为当前音频帧进行Hiss噪声抑制后的频域表示(频域谱),也即是在频域实现对当前音频帧中Hiss噪声的抑制。
210、终端判断当前音频帧是否为最后一个音频帧。
终端在完成对当前音频帧中Hiss噪声的抑制之后,判断当前音频帧是否为待处理音频信号划分得到的多个音频帧中的最后一个音频帧,是则转入211,否则转入203。
211、终端对多个音频帧进行合成处理,得到抑制Hiss噪声后的待处理音频信号。
其中,终端在分别对多个音频帧中的Hiss噪声进行抑制之后,即可对各音频帧进行综合窗处理后,再进行交叠相加处理,将完成Hiss噪声抑制的多个音频帧合成为一个完整的音频信号,相较于待处理音频信号,合成得到音频信号也即是“消除”Hiss噪声后的待处理音频信号。
本发明实施例还提供一种音频处理装置,请参照图6,图6为本发明实施例提供的音频处理装置的一种结构示意图。音频处理装置可以包括预估模块401、识别模块402、更新模块403以及抑制模块404,其中,
预估模块401,用于对待处理音频信号的当前音频帧中的Hiss噪声进行估计,得到当前音频帧中Hiss噪声的预估噪声功率谱;
识别模块402,用于识别当前音频帧的帧类型,并确定对应当前音频帧的帧类型的噪声跟踪速率,其中,帧类型包括信号帧或噪声帧,且信号帧对应的噪声跟踪速率小于噪声帧对应的噪声跟踪速率;
更新模块403,用于根据预估噪声功率谱以及噪声跟踪速率,对当前音频帧中的Hiss噪声进行跟踪,得到当前音频帧中Hiss噪声的目标噪声功率谱;
抑制模块404,用于根据当前音频帧的目标噪声功率谱生成用于对当前音频帧中Hiss噪声进行抑制的频谱增益,并根据生成的频谱增益对当前音频帧中的Hiss噪声进行抑制。
在一实施方式中,在对待处理音频信号的当前音频帧中的Hiss噪声进行估计,得到当前音频帧中Hiss噪声的预估噪声功率谱时,预估模块401可以用于:
获取当前音频帧中位于预设频率区间之内的频点的能量,并从获取到的能量中筛选出位于预设能量区间之内的能量;
对筛选出的能量按照大小进行排序,并将排序后能量的中位数确定为当前音频帧中Hiss噪声的能量;
根据Hiss噪声的能量获取预估噪声功率谱。
在一实施方式中,在获取当前音频帧中位于预设频率区间之内的频点的能量时,预估模块401可以用于:
获取当前音频帧的码率和采样频率;
根据预设的码率、采样频率和预设频率区间的对应关系,确定当前音频帧的码率和采样频率所对应的预设频率区间,得到目标预设频率区间;
获取当前音频帧中位于目标预设频率区间之内的频点的能量。
在一实施方式中,在识别当前音频帧的帧类型时,识别模块402可以用于:
获取当前音频帧的频谱平坦度;
根据当前音频帧的频谱平坦度获取用于识别当前音频帧的帧类型的概率;
判断获取到的概率是否小于预设概率,若是,则确定当前音频帧的帧类型为噪声帧,否则确定当前音频帧的帧类型为信号帧。
在一实施方式中,在根据当前音频帧的目标噪声功率谱生成用于对当前音频帧中Hiss噪声进行抑制的频谱增益,并根据生成的频谱增益对当前音频帧中的Hiss噪声进行抑制时,抑制模块404可以用于:
根据目标噪声功率谱获取用于对当前音频帧各频点Hiss噪声进行抑制的频谱增益;
根据当前音频帧各频点对应的频谱增益,在当前音频帧的各频点对Hiss噪声进行抑制。
在一实施方式中,在根据目标噪声功率谱获取用于对当前音频帧各频点Hiss噪声进行抑制的频谱增益时,抑制模块404可以用于:
获取预设的过减参数和噪声基底参数;
计算目标噪声功率谱和过减参数的第三乘积;
获取当前音频帧的功率谱,并判断当前音频帧的功率谱是否大于第三乘积;
若是,则计算当前音频帧的功率谱和第三乘积的第二差值,并计算第二差值和当前音频帧的功率谱的第一商值,将第一商值的开方结果作为前述频谱增益;
若否,则计算目标噪声功率谱和噪声基底参数的第四乘积,并计算第四乘积和当前音频帧的功率谱的第二商值,将第二商值的开方结果作为前述频谱增益。
在一实施方式中,在根据当前音频帧各频点对应的频谱增益,在当前音频帧的各频点对Hiss噪声进行抑制之前,抑制模块404可以用于:
对当前音频帧各频点对应的频谱增益进行帧内平滑处理。
在一实施方式中,在根据当前音频帧各频点对应的频谱增益,在当前音频帧的各频点对Hiss噪声进行抑制之前,抑制模块404可以用于:
对当前音频帧各频点对应的频谱增益进行帧间平滑处理。
在一实施方式中,在根据预估噪声功率谱以及噪声跟踪速率,对当前音频帧中的Hiss噪声进行跟踪,得到当前音频帧中Hiss噪声的目标噪声功率谱时,更新模块403可以用于:
计算预估噪声功率谱和噪声跟踪速率的第一乘积;
计算预估噪声功率谱和第一乘积的第一差值;
获取历史目标噪声功率谱,并计算历史噪声功率谱和噪声跟踪速率的第二乘积,历史目标噪声功率谱为当前音频帧的上一音频帧中Hiss噪声的目标噪声功率谱;
计算第一差值和第二乘积的第一和值,并将第一和值作为当前音频帧中Hiss噪声的目标噪声功率谱。
本发明实施例提供的音频处理装置,可以对待处理音频信号的当前音频帧中的Hiss噪声进行估计,得到当前音频帧中Hiss噪声的预估噪声功率谱;然后,识别当前音频帧的帧类型,并确定对应帧类型的噪声跟踪速率,其中,帧类型包括信号帧或噪声帧,且信号帧对应的噪声跟踪速率小于噪声帧对应的噪声跟踪速率;然后,根据预估噪声功率谱以及确定的噪声跟踪速率,对当前音频帧的Hiss噪声进行跟踪,得到该Hiss噪声的目标噪声功率谱;然后,根据跟踪得到的目标噪声功率谱生成用于对当前音频帧中Hiss噪声进行抑制的频谱增益,并根据生成的频谱增益对当前音频帧中的Hiss噪声进行抑制,由此来消除待处理音频信号中的Hiss噪声,使其播放效果得以提高。
本发明实施例还提供一种终端,请参照图7,其示出了本发明实施例所涉及的终端的结构示意图,该终端可以包括射频(RF,Radio Frequency)电路601、包括有一个或一个以上计算机可读存储介质的存储器602、输入单元603、显示单元604、传感器605、音频电路606、无线保真(WiFi,Wireless Fidelity)模块607、包括有一个或者一个以上处理核心的处理器608、以及电源609等部件。本领域普通技术人员可以理解,图7中示出的终端结构并不构成对终端的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。其中:
RF电路601可用于收发信息或通话过程中,信号的接收和发送,特别地,将基站的下行信息接收后,交由一个或者一个以上处理器608处理;另外,将涉及上行的数据发送给基站。通常,RF电路601包括但不限于天线、至少一个放大器、调谐器、一个或多个振荡器、用户身份模块(SIM,Subscriber Identity Module)卡、收发信机、耦合器、低噪声放大器(LNA,Low Noise Amplifier)、双工器等。此外,RF电路601还可以通过无线通信与网络和其他设备通信。所述无线通信可以使用任一通信标准或协议,包括但不限于全球移动通讯系统(GSM,Global System of Mobile communication)、通用分组无线服务(GPRS,GeneralPacket Radio Service)、码分多址(CDMA,Code Division Multiple Access)、宽带码分多址(WCDMA,Wideband Code Division Multiple Access)、长期演进(LTE,Long TermEvolution)、电子邮件、短消息服务(SMS,Short Messaging Service)等。
存储器602可用于存储软件程序以及模块,处理器608通过运行存储在存储器602的软件程序以及模块,从而执行各种功能应用以及数据处理。存储器602可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据终端的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器602可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地,存储器602还可以包括存储器控制器,以提供处理器608和输入单元603对存储器602的访问。
输入单元603可用于接收输入的数字或字符信息,以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。具体地,在一个具体的实施例中,输入单元603可包括触敏表面以及其他输入设备。触敏表面,也称为触摸显示屏或者触控板,可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触敏表面上或在触敏表面附近的操作),并根据预先设定的程式驱动相应的连接装置。可选的,触敏表面可包括触摸检测装置和触摸控制器两个部分。其中,触摸检测装置检测用户的触摸方位,并检测触摸操作带来的信号,将信号传送给触摸控制器;触摸控制器从触摸检测装置上接收触摸信息,并将它转换成触点坐标,再送给处理器608,并能接收处理器608发来的命令并加以执行。此外,可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触敏表面。除了触敏表面,输入单元603还可以包括其他输入设备。具体地,其他输入设备可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。
显示单元604可用于显示由用户输入的信息或提供给用户的信息以及终端的各种图形用户接口,这些图形用户接口可以由图形、文本、图标、视频和其任意组合来构成。显示单元604可包括显示面板,可选的,可以采用液晶显示器(LCD,Liquid Crystal Display)、有机发光二极管(OLED,Organic Light-Emitting Diode)等形式来配置显示面板。进一步的,触敏表面可覆盖显示面板,当触敏表面检测到在其上或附近的触摸操作后,传送给处理器608以确定触摸事件的类型,随后处理器608根据触摸事件的类型在显示面板上提供相应的视觉输出。虽然在图7中,触敏表面与显示面板是作为两个独立的部件来实现输入和输入功能,但是在某些实施例中,可以将触敏表面与显示面板集成而实现输入和输出功能。
终端还可包括至少一种传感器605,比如光传感器、运动传感器以及其他传感器。具体地,光传感器可包括环境光传感器及接近传感器,其中,环境光传感器可根据环境光线的明暗来调节显示面板的亮度,接近传感器可在终端移动到耳边时,关闭显示面板和/或背光。作为运动传感器的一种,重力加速度传感器可检测各个方向上(一般为三轴)加速度的大小,静止时可检测出重力的大小及方向,可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等;至于终端还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器,在此不再赘述。
音频电路606、扬声器,传声器可提供用户与终端之间的音频接口。音频电路606可将接收到的音频数据转换后的电信号,传输到扬声器,由扬声器转换为声音信号输出;另一方面,传声器将收集的声音信号转换为电信号,由音频电路606接收后转换为音频数据,再将音频数据输出处理器608处理后,经RF电路601以发送给比如另一终端,或者将音频数据输出至存储器602以便进一步处理。音频电路606还可能包括耳塞插孔,以提供外设耳机与终端的通信。
WiFi属于短距离无线传输技术,终端通过WiFi模块607可以帮助用户收发电子邮件、浏览网页和访问流式媒体等,它为用户提供了无线的宽带互联网访问。虽然图7示出了WiFi模块607,但是可以理解的是,其并不属于终端的必须构成,完全可以根据需要在不改变发明的本质的范围内而省略。
处理器608是终端的控制中心,利用各种接口和线路连接整个手机的各个部分,通过运行或执行存储在存储器602内的软件程序和/或模块,以及调用存储在存储器602内的数据,执行终端的各种功能和处理数据,从而对手机进行整体监控。可选的,处理器608可包括一个或多个处理核心;优选的,处理器608可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器608中。
终端还包括给各个部件供电的电源609(比如电池),优选的,电源可以通过电源管理系统与处理器608逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源609还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。
尽管未示出,终端还可以包括摄像头、蓝牙模块等,在此不再赘述。具体在本实施例中,终端中的处理器608会按照如下的指令,将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器602中,并由处理器608来运行存储在存储器602中的应用程序,从而实现各种功能,如下:
对待处理音频信号的当前音频帧中的Hiss噪声进行估计,得到当前音频帧中Hiss噪声的预估噪声功率谱;
识别当前音频帧的帧类型,并确定对应当前音频帧的帧类型的噪声跟踪速率,其中,帧类型包括信号帧或噪声帧,且信号帧对应的噪声跟踪速率小于噪声帧对应的噪声跟踪速率;
根据预估噪声功率谱以及噪声跟踪速率,对当前音频帧中的Hiss噪声进行跟踪,得到当前音频帧中Hiss噪声的目标噪声功率谱;
根据当前音频帧的目标噪声功率谱生成用于对当前音频帧中Hiss噪声进行抑制的频谱增益,并根据生成的频谱增益对当前音频帧中的Hiss噪声进行抑制。
在一实施方式中,在对待处理音频信号的当前音频帧中的Hiss噪声进行估计,得到当前音频帧中Hiss噪声的预估噪声功率谱时,处理器608可以执行以下步骤:
获取当前音频帧中位于预设频率区间之内的频点的能量,并从获取到的能量中筛选出位于预设能量区间之内的能量;
对筛选出的能量按照大小进行排序,并将排序后能量的中位数确定为当前音频帧中Hiss噪声的能量;
根据Hiss噪声的能量获取预估噪声功率谱。
在一实施方式中,在获取当前音频帧中位于预设频率区间之内的频点的能量时,处理器608可以执行以下步骤:
获取当前音频帧的码率和采样频率;
根据预设的码率、采样频率和预设频率区间的对应关系,确定当前音频帧的码率和采样频率所对应的预设频率区间,得到目标预设频率区间;
获取当前音频帧中位于目标预设频率区间之内的频点的能量。
在一实施方式中,在识别当前音频帧的帧类型时,处理器608可以执行以下步骤:
获取当前音频帧的频谱平坦度;
根据当前音频帧的频谱平坦度获取用于识别当前音频帧的帧类型的概率;
判断获取到的概率是否小于预设概率,若是,则确定当前音频帧的帧类型为噪声帧,否则确定当前音频帧的帧类型为信号帧。
在一实施方式中,在根据当前音频帧的目标噪声功率谱生成用于对当前音频帧中Hiss噪声进行抑制的频谱增益,并根据生成的频谱增益对当前音频帧中的Hiss噪声进行抑制时,处理器608可以执行以下步骤:
根据目标噪声功率谱获取用于对当前音频帧各频点Hiss噪声进行抑制的频谱增益;
根据当前音频帧各频点对应的频谱增益,在当前音频帧的各频点对Hiss噪声进行抑制。
在一实施方式中,在根据目标噪声功率谱获取用于对当前音频帧各频点Hiss噪声进行抑制的频谱增益时,处理器608可以执行以下步骤:
获取预设的过减参数和噪声基底参数;
计算目标噪声功率谱和过减参数的第三乘积;
获取当前音频帧的功率谱,并判断当前音频帧的功率谱是否大于第三乘积;
若是,则计算当前音频帧的功率谱和第三乘积的第二差值,并计算第二差值和当前音频帧的功率谱的第一商值,将第一商值的开方结果作为前述频谱增益;
若否,则计算目标噪声功率谱和噪声基底参数的第四乘积,并计算第四乘积和当前音频帧的功率谱的第二商值,将第二商值的开方结果作为前述频谱增益。
在一实施方式中,在根据当前音频帧各频点对应的频谱增益,在当前音频帧的各频点对Hiss噪声进行抑制之前,处理器608可以执行以下步骤:
对当前音频帧各频点对应的频谱增益进行帧内平滑处理。
在一实施方式中,在根据当前音频帧各频点对应的频谱增益,在当前音频帧的各频点对Hiss噪声进行抑制之前,处理器608可以执行以下步骤:
对当前音频帧各频点对应的频谱增益进行帧间平滑处理。
在一实施方式中,在根据预估噪声功率谱以及噪声跟踪速率,对当前音频帧中的Hiss噪声进行跟踪,得到当前音频帧中Hiss噪声的目标噪声功率谱时,处理器608可以执行以下步骤:
计算预估噪声功率谱和噪声跟踪速率的第一乘积;
计算预估噪声功率谱和第一乘积的第一差值;
获取历史目标噪声功率谱,并计算历史噪声功率谱和噪声跟踪速率的第二乘积,历史目标噪声功率谱为当前音频帧的上一音频帧中Hiss噪声的目标噪声功率谱;
计算第一差值和第二乘积的第一和值,并将第一和值作为当前音频帧中Hiss噪声的目标噪声功率谱。
本领域普通技术人员可以理解,上述实施例的各种方法中的全部或部分步骤可以通过指令来完成,或通过指令控制相关的硬件来完成,该指令可以存储于一计算机可读存储介质中,并由处理器进行加载和执行。
为此,本发明实施例提供一种存储介质,其中存储有多条指令,该指令能够被处理器进行加载,以执行本发明实施例所提供的音频处理方法中的步骤。例如,该指令可以执行如下步骤:
对待处理音频信号的当前音频帧中的Hiss噪声进行估计,得到当前音频帧中Hiss噪声的预估噪声功率谱;
识别当前音频帧的帧类型,并确定对应当前音频帧的帧类型的噪声跟踪速率,其中,帧类型包括信号帧或噪声帧,且信号帧对应的噪声跟踪速率小于噪声帧对应的噪声跟踪速率;
根据预估噪声功率谱以及噪声跟踪速率,对当前音频帧中的Hiss噪声进行跟踪,得到当前音频帧中Hiss噪声的目标噪声功率谱;
根据当前音频帧的目标噪声功率谱生成用于对当前音频帧中Hiss噪声进行抑制的频谱增益,并根据生成的频谱增益对当前音频帧中的Hiss噪声进行抑制。
以上各个操作的具体实施可参见前面的实施例,在此不再赘述。
其中,该存储介质可以包括:只读存储器(ROM,Read Only Memory)、随机存取记忆体(RAM,Random Access Memory)、磁盘或光盘等。
由于该存储介质中所存储的指令,可以执行本发明实施例所提供的任音频处理方法中的步骤,因此,可以实现本发明实施例所提供的任一种音频处理方法所能实现的有益效果,详见前面的实施例,在此不再赘述。
以上对本发明实施例所提供的一种音频处理方法、装置和存储介质进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (10)

1.一种音频处理方法,其特征在于,所述音频处理方法包括:
对待处理音频信号的当前音频帧中的Hiss噪声进行估计,得到所述Hiss噪声的预估噪声功率谱;
识别所述当前音频帧的帧类型,并确定对应所述帧类型的噪声跟踪速率,其中,所述帧类型包括信号帧或噪声帧,且所述信号帧对应的噪声跟踪速率小于所述噪声帧对应的噪声跟踪速率;
根据所述预估噪声功率谱以及所述噪声跟踪速率,对所述Hiss噪声进行跟踪,得到所述Hiss噪声的目标噪声功率谱;
根据所述目标噪声功率谱生成用于对所述Hiss噪声进行抑制的频谱增益,并根据所述频谱增益对所述Hiss噪声进行抑制。
2.如权利要求1所述的音频处理方法,其特征在于,所述对待处理音频信号的当前音频帧中的Hiss噪声进行估计,得到所述Hiss噪声的预估噪声功率谱,包括:
获取所述当前音频帧中位于预设频率区间之内的频点的能量,并从获取到的能量中筛选出位于预设能量区间之内的能量;
对筛选出的能量按照大小进行排序,并将排序后能量的中位数确定为所述当前音频帧中Hiss噪声的能量;
根据所述Hiss噪声的能量获取所述预估噪声功率谱。
3.如权利要求2所述的音频处理方法,其特征在于,所述获取所述当前音频帧中位于预设频率区间之内的频点的能量,包括:
获取所述当前音频帧的码率和采样频率;
根据预设的码率、采样频率和预设频率区间的对应关系,确定所述码率和采样频率对应的预设频率区间,得到目标预设频率区间;
获取所述当前音频帧中位于所述目标预设频率区间之内的频点的能量。
4.如权利要求1所述的音频处理方法,其特征在于,所述识别所述当前音频帧的帧类型,包括:
获取所述当前音频帧的频谱平坦度;
根据所述频谱平坦度获取用于识别所述当前音频帧的帧类型的概率;
判断所述概率是否小于预设概率,若是,则确定所述当前音频帧的帧类型为噪声帧,否则确定所述当前音频帧的帧类型为信号帧。
5.如权利要求1所述的音频处理方法,其特征在于,所述根据所述目标噪声功率谱生成用于对所述Hiss噪声进行抑制的频谱增益,并根据所述频谱增益对所述Hiss噪声进行抑制,包括:
根据所述目标噪声功率谱获取用于对所述当前音频帧各频点Hiss噪声进行抑制的频谱增益;
根据所述当前音频帧各频点对应的频谱增益,在所述当前音频帧的各频点对所述Hiss噪声进行抑制。
6.如权利要求5所述的音频处理方法,其特征在于,所述根据所述目标噪声功率谱生成用于对所述Hiss噪声进行抑制的频谱增益,包括:
获取预设的过减参数和噪声基底参数;
计算所述目标噪声功率谱和所述过减参数的第三乘积;
获取所述当前音频帧的功率谱,并判断所述功率谱是否大于所述第三乘积;
若是,则计算所述功率谱和所述第三乘积的第二差值,并计算所述第二差值和所述功率谱的第一商值,将所述第一商值的开方结果作为所述频谱增益;
若否,则计算所述目标噪声功率谱和所述噪声基底参数的第四乘积,并计算所述第四乘积和所述功率谱的第二商值,将所述第二商值的开方结果作为所述频谱增益。
7.如权利要求5所述的音频处理方法,其特征在于,所述根据所述当前音频帧各频点对应的频谱增益,在所述当前音频帧的各频点对所述Hiss噪声进行抑制之前,还包括:
对所述当前音频帧各频点对应的频谱增益进行帧内平滑处理。
8.如权利要求1所述的音频处理方法,其特征在于,所述根据所述预估噪声功率谱以及所述噪声跟踪速率,对所述Hiss噪声进行跟踪,得到所述Hiss噪声的目标噪声功率谱,包括:
计算所述预估噪声功率谱和所述噪声跟踪速率的第一乘积;
计算所述预估噪声功率谱和所述第一乘积的第一差值;
获取历史目标噪声功率谱,并计算所述历史噪声功率谱和所述噪声跟踪速率的第二乘积,所述历史目标噪声功率谱为所述当前音频帧的上一音频帧中Hiss噪声的目标噪声功率谱;
计算所述第一差值和所述第二乘积的第一和值,并将所述第一和值作为所述当前音频帧中Hiss噪声的目标噪声功率谱。
9.一种音频处理装置,其特征在于,所述音频处理装置包括:
预估模块,用于对待处理音频信号的当前音频帧中的Hiss噪声进行估计,得到所述Hiss噪声的预估噪声功率谱;
识别模块,用于识别所述当前音频帧的帧类型,并确定对应所述帧类型的噪声跟踪速率,其中,所述帧类型包括信号帧或噪声帧,且所述信号帧对应的噪声跟踪速率小于所述噪声帧对应的噪声跟踪速率;
更新模块,用于根据所述预估噪声功率谱以及所述噪声跟踪速率,对所述Hiss噪声进行跟踪,得到所述Hiss噪声的目标噪声功率谱;
抑制模块,用于根据所述目标噪声功率谱生成用于对所述Hiss噪声进行抑制的频谱增益,并根据所述频谱增益对所述Hiss噪声进行抑制。
10.一种存储介质,其特征在于,所述存储介质存储有多条指令,所述指令适于处理器进行加载,以执行权利要求1至8任一项所述的音频处理方法中的步骤。
CN201811354065.0A 2018-11-14 2018-11-14 音频处理方法、装置及存储介质 Active CN109616135B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811354065.0A CN109616135B (zh) 2018-11-14 2018-11-14 音频处理方法、装置及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811354065.0A CN109616135B (zh) 2018-11-14 2018-11-14 音频处理方法、装置及存储介质

Publications (2)

Publication Number Publication Date
CN109616135A true CN109616135A (zh) 2019-04-12
CN109616135B CN109616135B (zh) 2021-08-03

Family

ID=66003052

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811354065.0A Active CN109616135B (zh) 2018-11-14 2018-11-14 音频处理方法、装置及存储介质

Country Status (1)

Country Link
CN (1) CN109616135B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109994127A (zh) * 2019-04-16 2019-07-09 腾讯音乐娱乐科技(深圳)有限公司 音频检测方法、装置、电子设备及存储介质
CN110265064A (zh) * 2019-06-12 2019-09-20 腾讯音乐娱乐科技(深圳)有限公司 音频爆音检测方法、装置和存储介质
CN110933235A (zh) * 2019-11-06 2020-03-27 杭州哲信信息技术有限公司 一种基于机器学习的智能呼叫系统中的噪声去除方法
CN111210817A (zh) * 2019-12-30 2020-05-29 深圳市优必选科技股份有限公司 数据处理方法及装置
WO2023000778A1 (zh) * 2021-07-19 2023-01-26 北京荣耀终端有限公司 一种音频信号的处理方法及相关电子设备

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103220440A (zh) * 2012-01-19 2013-07-24 索尼公司 噪声抑制装置、噪声抑制方法以及程序
CN103730126A (zh) * 2012-10-16 2014-04-16 联芯科技有限公司 噪声抑制方法和噪声抑制器
CN104754430A (zh) * 2013-12-30 2015-07-01 重庆重邮信科通信技术有限公司 终端麦克风降噪装置和方法
EP2905779A1 (en) * 2012-02-16 2015-08-12 2236008 Ontario Inc. System and method for dynamic residual noise shaping
CN106328160A (zh) * 2015-06-25 2017-01-11 深圳市潮流网络技术有限公司 一种基于双麦克的降噪方法
CN108429996A (zh) * 2017-02-14 2018-08-21 联发科技股份有限公司 有源噪声控制方法、电路及相关设备
US20180309421A1 (en) * 2017-04-20 2018-10-25 Dts, Inc. Loudness control with noise detection and loudness drop detection

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103220440A (zh) * 2012-01-19 2013-07-24 索尼公司 噪声抑制装置、噪声抑制方法以及程序
EP2905779A1 (en) * 2012-02-16 2015-08-12 2236008 Ontario Inc. System and method for dynamic residual noise shaping
CN103730126A (zh) * 2012-10-16 2014-04-16 联芯科技有限公司 噪声抑制方法和噪声抑制器
CN104754430A (zh) * 2013-12-30 2015-07-01 重庆重邮信科通信技术有限公司 终端麦克风降噪装置和方法
CN106328160A (zh) * 2015-06-25 2017-01-11 深圳市潮流网络技术有限公司 一种基于双麦克的降噪方法
CN108429996A (zh) * 2017-02-14 2018-08-21 联发科技股份有限公司 有源噪声控制方法、电路及相关设备
US20180309421A1 (en) * 2017-04-20 2018-10-25 Dts, Inc. Loudness control with noise detection and loudness drop detection

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
SHERGEI, M ETC.: "Rounding noise effects" reduction for estimated movement of speckle patterns", 《OPTICS EXPRESS》 *
袁文浩: "基于噪声估计的语音增强方法研究", 《中国博士学位论文全文数据库 信息科技辑》 *

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109994127A (zh) * 2019-04-16 2019-07-09 腾讯音乐娱乐科技(深圳)有限公司 音频检测方法、装置、电子设备及存储介质
CN109994127B (zh) * 2019-04-16 2021-11-09 腾讯音乐娱乐科技(深圳)有限公司 音频检测方法、装置、电子设备及存储介质
CN110265064A (zh) * 2019-06-12 2019-09-20 腾讯音乐娱乐科技(深圳)有限公司 音频爆音检测方法、装置和存储介质
WO2020248308A1 (zh) * 2019-06-12 2020-12-17 腾讯音乐娱乐科技(深圳)有限公司 音频爆音检测方法、装置和存储介质
CN110265064B (zh) * 2019-06-12 2021-10-08 腾讯音乐娱乐科技(深圳)有限公司 音频爆音检测方法、装置和存储介质
CN110933235A (zh) * 2019-11-06 2020-03-27 杭州哲信信息技术有限公司 一种基于机器学习的智能呼叫系统中的噪声去除方法
CN110933235B (zh) * 2019-11-06 2021-07-27 杭州哲信信息技术有限公司 一种基于机器学习的智能呼叫系统中的噪声识别方法
CN111210817A (zh) * 2019-12-30 2020-05-29 深圳市优必选科技股份有限公司 数据处理方法及装置
WO2023000778A1 (zh) * 2021-07-19 2023-01-26 北京荣耀终端有限公司 一种音频信号的处理方法及相关电子设备

Also Published As

Publication number Publication date
CN109616135B (zh) 2021-08-03

Similar Documents

Publication Publication Date Title
CN109616135A (zh) 音频处理方法、装置及存储介质
CN103440862B (zh) 一种语音与音乐合成的方法、装置以及设备
CN105788612B (zh) 一种检测音质的方法和装置
CN105960672B (zh) 用于稳健语音识别的变量组件深度神经网络
CN106356070B (zh) 一种音频信号处理方法,及装置
CN103578474B (zh) 一种语音控制方法、装置和设备
CN109087669A (zh) 音频相似度检测方法、装置、存储介质及计算机设备
CN105549740B (zh) 一种播放音频数据的方法和装置
CN110197662A (zh) 语音控制方法、可穿戴设备及计算机可读存储介质
CN108304758A (zh) 人脸特征点跟踪方法及装置
CN104409081B (zh) 语音信号处理方法和装置
CN106782627B (zh) 音频文件的重录方法及装置
CN109903773A (zh) 音频处理方法、装置及存储介质
CN109243488A (zh) 音频检测方法、装置及存储介质
CN108470571A (zh) 一种音频检测方法、装置及存储介质
CN110096611A (zh) 一种歌曲推荐方法、移动终端及计算机可读存储介质
CN106384599B (zh) 一种破音识别的方法和装置
CN110830368B (zh) 即时通讯消息发送方法及电子设备
CN106528545A (zh) 一种语音信息的处理方法及装置
CN109872710A (zh) 音效调制方法、装置及存储介质
CN105550316B (zh) 音频列表的推送方法及装置
CN106847307A (zh) 信号检测方法及装置
CN109817241A (zh) 音频处理方法、装置及存储介质
CN106356071B (zh) 一种噪声检测方法,及装置
CN104091600B (zh) 一种歌声位置检测方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant