CN109256144A - 基于集成学习与噪声感知训练的语音增强方法 - Google Patents
基于集成学习与噪声感知训练的语音增强方法 Download PDFInfo
- Publication number
- CN109256144A CN109256144A CN201811385650.7A CN201811385650A CN109256144A CN 109256144 A CN109256144 A CN 109256144A CN 201811385650 A CN201811385650 A CN 201811385650A CN 109256144 A CN109256144 A CN 109256144A
- Authority
- CN
- China
- Prior art keywords
- noise
- gradient
- training
- decision
- tree model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000012549 training Methods 0.000 title claims abstract description 54
- 238000000034 method Methods 0.000 title claims abstract description 48
- 230000008447 perception Effects 0.000 title claims abstract description 33
- 238000003066 decision tree Methods 0.000 claims abstract description 43
- 238000013528 artificial neural network Methods 0.000 claims abstract description 30
- 238000012360 testing method Methods 0.000 claims description 17
- 238000001228 spectrum Methods 0.000 claims description 13
- 230000001737 promoting effect Effects 0.000 claims description 3
- 230000009466 transformation Effects 0.000 claims 1
- 230000003068 static effect Effects 0.000 abstract description 14
- 238000000605 extraction Methods 0.000 abstract description 2
- 230000002269 spontaneous effect Effects 0.000 abstract description 2
- 239000004568 cement Substances 0.000 description 11
- 101000652292 Homo sapiens Serotonin N-acetyltransferase Proteins 0.000 description 7
- 102100030547 Serotonin N-acetyltransferase Human genes 0.000 description 7
- 230000000694 effects Effects 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 230000000052 comparative effect Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000002708 enhancing effect Effects 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 241001269238 Data Species 0.000 description 1
- 241000282373 Panthera pardus Species 0.000 description 1
- 239000000654 additive Substances 0.000 description 1
- 230000000996 additive effect Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L21/0232—Processing in the frequency domain
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Electrically Operated Instructional Devices (AREA)
Abstract
本发明公开了一种基于集成学习与噪声感知训练的语音增强方法,相比于静态噪声感知训练,能较为准确地跟踪非平稳噪声,同时,利用梯度提升决策树可以自发提取特征的特性,获得对每一个时频单元的噪声场景编码,为深度神经网络提供噪声的额外信息,而传统的噪声感知训练方法只能够获得噪声的幅度信息。从实验结果来看,本方法也优于采用静态噪声感知训练的语音增强方法。
Description
技术领域
本发明涉及语音信号处理技术领域,尤其涉及一种基于集成学习与噪声感知训练的语音增强方法。
背景技术
集成学习,是集成多个弱预测模型,最终得到一个强预测能力的模型;可用于分类、回归、特征选取。一般而言,集成学习模型在预测准确度和泛化能力上都优于单个模型,广泛应用于工业界。梯度提升决策树(GBDT)是一种常用的集成学习模型,基于集成学习中的boosting思想,通过迭代的方式训练一系列决策树,每次迭代都在减少残差的梯度方向建立新的决策树,最后的预测值是所有迭代生成的决策树预测值的加和。GBDT可以被用来挖掘多种有区分性的特征组合,常用的有决策树的路径或叶子节点序号。利用GBDT进行特征提取的方式已经在工业界被证明有效。
语音增强,是指从被各式各样的噪音污染的语音中提取尽量纯净的语音的技术,目的是提高语音的质量、清晰度与可懂度。根据麦克风的数目,语音增强可以分为单声道和多声道语音增强。
单声道语音增强分为无监督学习方法与有监督学习方法。
1、无监督学习方法可以追溯到上个世纪信号处理的诞生开始,通过分析语音和噪声间相互作用的关系来实现语音增强的目标。
无监督学习方法主要包括:1)谱减法。通过对噪声进行短时谱估计,从带噪语音中减去被估计的噪声,得到干净语音的估计;谱减法的算法简单易实现,但是容易因为噪声方差的估计偏差带来语音失真或音乐噪声,导致增强结果不好。2)维纳滤波法通过维纳滤波方法通过一个全极点的模型,将音乐噪声变成了白噪声,增强后的语音听感比谱减法好。3)基于最小均方误差的谱估计方法通过语音活动检测(VAD)判断这一倾是语音或非语音,然后通过迭代,对噪声方差进行估计。但是,上述无监督学习方法中一般存在许多假设条件,比如假设信号平稳等,从而会影响增强后的语音听感。
2、有监督学习方法一般利用大量训练数据学习带噪语音的一些特征,建立带噪语音与干净语音在频域上的映射关系,从而实现从噪声语音中去除噪声的目标。
有监督学习方法包括:1)非负矩阵分解方法(NMF)。通过训练数据中的语音数据和噪声数据分别学习语音和噪声的字典,然后将带噪语音进行非负矩阵分解,得到干净语音和噪声的估计。2)基于神经网络的语音增强。该方法可以追溯到上个世纪80年代的基于浅层神经网络(SNN)的语音增强方法,但当时受限于浅层神经网络的建模能力,语音增强性能不佳。
近年来,随着神经网络的兴起以及语音数据规模的增大,基于大量语音数据训练的神经网络语音增强方法相较传统方法取得了极大的优势;不同的网络结构被用于语音增强,包括深层神经网络(DNN),递归神经网络(RNN),以及生成对抗网络,这些神经网络的不同结构带来对带噪语音建模性能的差异,而语音增强的流程大致相同。具体的,首先设置信噪比,通过人工加噪生成大量的带噪语音和干净语音对。之后利用语音的短时平稳特性,对语音做分帧处理。然后通过变换域方法,将语音由时域变换到频域,提取每帧语音的频域特征;通过设置合理的目标函数(一般为均方误差),使用梯度下降等方法,使用神经网络学习带噪语音和干净语音的频谱特征之间的映射关系,获得干净语音的频谱估计。最后借助带噪语音的相位信息,利用傅里叶逆变换和经典重叠相加法,将估计的频谱变换到时域,得到增强后的时域波形。
上述神经网络均采用静态噪声感知训练,即根据语音前几个噪声帧估计静态噪声信息,将估计的噪声信息与频谱信息拼接起来训练语音增强神经网络的方法,静态噪声感知训练往往能有效地预测干净语音和抑制加性噪声。然而,面对非平稳和突发性噪声,静态噪声感知训练无法获得对噪声准确的估计。
发明内容
本发明的目的是提供一种基于集成学习与噪声感知训练的语音增强方法,可以很好地从带噪语音中恢复干净语音,提升语音增强的效果。
本发明的目的是通过以下技术方案实现的:
一种基于集成学习与噪声感知训练的语音增强方法,包括:
训练阶段:利用输入的带噪语音信号,训练用于动态噪声感知的梯度提升决策树模型;利用训练好的梯度提升决策树模型来估计带噪语音信号每个频带估计的噪声幅值以及噪声特征;将估计的噪声幅值以及噪声特征与带噪语音信号的对数频谱特征拼接起来,训练深层神经网络;
测试阶段:将待增强的带噪语音信号输入之前训练的梯度提升决策树模型,得到估计的噪声幅值及噪声特征,并与待增强的语音信号的对数频谱特征拼接起来,再输入至训练好的深层神经网络,由深层神经网络的输出层预测干净语音的对数频谱特征,再结合待增强的带噪语音信号的相位,使用重叠相加法对进行波形重构,得到增强后的语音信号。
由上述本发明提供的技术方案可以看出,相比于静态噪声感知训练,能较为准确地跟踪非平稳噪声,同时,利用梯度提升决策树可以自发提取特征的特性,获得对每一个时频单元的噪声场景编码,为深度神经网络提供噪声的额外信息,而传统的噪声感知训练方法只能够获得噪声的幅度信息。从实验结果来看,本方法也优于采用静态噪声感知训练的语音增强方法。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他附图。
图1为本发明实施例提供的一种基于集成学习与噪声感知训练的语音增强方法的流程图;
图2为本发明实施例提供的训练阶段的流程图;
图3为本发明实施例提供的训练梯度提升决策树模型的示意图。
具体实施方式
下面结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明的保护范围。
本发明实施例提供一种基于集成学习与噪声感知训练的语音增强方法,如图1所示,其主要包括:
一、训练阶段。
训练阶段的流程如图2所示,主要包括:
1、利用输入的带噪语音信号,训练用于动态噪声感知的梯度提升决策树模型。
鉴于语音信号频带间分布的差异,在每个频带分别训练梯度提升决策树模型,每个频带的梯度提升决策树模型由所有梯度提升决策树模型以加和方式集成:如图3所示,在每一帧的每一频带上分别迭代地训练K次,每颗梯度提升决策树模型学习之前所有树学习的残差,最终生成K颗梯度提升决策树模型;为获得对非平稳噪声尽可能准确的预测,每一帧将训练D*K颗梯度提升决策树模型;训练时,每个频带的梯度提升决策树模型的输入是相应频带时频单元及其邻域的STFT幅值及根据带噪语音信号的STFT幅值进行时间递归平均粗略估计的噪声幅值,时频单元及领域的STFT幅值通过对带噪语音信号进行短时傅里叶变换得到,回归的目标是时频单元噪声的STFT幅值,损失函数为均方误差。
短时傅里叶变换公式如下:
Y(t,d)=X(t,d)+N(t,d) t=1,2,....T d=1,2,....D
其中,Y(t,d)、X(t,d)、N(t,d)分别表示第t帧第d个频带的带噪语音信号的频域信号、第t帧第d个频带的干净语音信号的频域信号、第t帧第d个频带的噪声信号的频域信号,T、D分别表示带噪语音信号的帧数、每一帧中的频带数。
2、利用训练好的梯度提升决策树模型来估计带噪语音信号每个频带估计的噪声幅值(噪声感知训练)以及噪声特征。
预测时,每个时频单元的噪声估计值是K颗梯度提升决策树模型预测值的加和。每个时频单元通过K颗梯度提升决策树模型最终会分别落在各个梯度提升决策树模型的叶子节点上,将K颗梯度提升决策树模型的叶子节点序号作为非平稳的噪声特征,每一帧带噪语音信号非平稳的噪声特征由D个频带的K颗树的叶子节点序号构成,共D*K维。
3、将估计的噪声幅值以及噪声特征与带噪语音信号的对数频谱特征(LPS特征)拼接起来,训练深层神经网络。
二、测试阶段。
将待增强的带噪语音信号输入之前训练的梯度提升决策树模型,得到估计的噪声幅值及噪声特征,与带噪语音信号的LPS特征拼接起来,输入至训练好的深层神经网络,由深层神经网络的输出层预测干净语音的对数频谱特征,再结合待增强的带噪语音信号的相位,使用重叠相加法对进行波形重构,得到增强后的语音信号。
本发明实施例上述方案有如下改进:
1)估计非平稳噪声。传统的静态噪声感知训练假定一句话的起始段没有语音,全是噪声,用句子的前几帧估计的噪声在整个句子上被认为是一样的,这种简单的噪声估计过程不适用于非平稳噪声的场景。而本发明通过对每个频带以boosting的方式训练一系列的决策树,根据邻域时频单元的STFT幅度以及MMSE估计的噪声幅度预测当前时频单元的噪声幅度,能更有效地跟踪非平稳噪声。将以上述方式在线估计的噪声输入深度神经网络,神经网络才能更好地区分噪声和语音。
2)提供噪声的额外信息。传统的基于深度神经网络的语音增强任务中,没有显式地用到每一句带噪语音噪声的信息,而进一步的噪声感知训练也只提供了噪声的幅度信息。为了让深度神经网络能获得对噪声场景更准确的估计,需要在向神经网络输入带噪语音的同时,输入噪声的信息。为此,本发明提出使用集成学习的方法,对每个频带的噪声信息用多个决策树建模,用当前时频单元落入的决策树的叶子节点序号作为噪声特征,可以认为它是代表这个时频单元所处场景的噪声编码。
本发明提出的方法有效地在深度神经网络框架下实现了适用于非平稳噪声的动态噪声感知训练。传统的静态噪声感知训练方法仅能为深度神经网络提供对平稳噪声的粗略估计,本发明用一系列的梯度提升决策树对噪声建模,获得对非平稳噪声的动态估计以及噪声场景特征,使得神经网络能更好地从带噪语音中恢复干净语音。为了验证本发明所提出方法的有效性,设计了如下实验。
1)实验设置
实验中干净语音的句子来自TIMIT数据库,训练集的带噪语音通过人工加噪的方式获得,来自NOISEX92数据库的4种噪声,即Babble,Factory,Machinegun,White被按照6种信噪比人工加噪到TIMIT数据库的4620句干净语音中,信噪比的类型有:20dB,15dB,10dB,5dB,0dB,-5dB。从合成的带噪语音当中,我们随机选择了100小时作为训练数据。TIMIT数据库核心测试集的192句语音被用来构造测试集,训练集中出现的四种噪声被人工加噪到干净语音上构成噪声匹配测试集合,来自NOISEX-92的三种不可见的噪声类型,即Destroyerengine,Leopard,M109被人工加噪到干净语音上构成不匹配测试集合。
提取特征时所用帧长是512个样本(32ms),帧移是256个样本。根据短时离散傅里叶分析,提取257维的LPS特征来训练DNN网络,DNN的输入和输出特征向量都经过全局均值方差规整预处理。DNN有三个隐层。每个隐层有2048个节点,输入层有7帧的上下文相关信息。对于静态噪声感知训练,每一句语音的前6帧被用来估计静态噪声。对于本专利的动态噪声感知训练,每帧根据梯度提升决策树估计的D维的噪声幅度以及D*K维的噪声感知特征与原有的LPS特征拼接起来训练DNN。PSEQ和STOI被用来作为语音增强的评价指标,分别表征语音质量和可懂度的好坏。
2)实验结果
表1给出了只使用带噪语音LPS特征作为输入的DNN基线系统,静态噪声感知训练(SNAT)的DNN,本专利提出的集成动态噪声感知训练(EDNAT-1)的DNN,以及将噪声感知特征一并加入训练的DNN(EDNAT-2)在匹配测试集上PESQ和STOI平均结果的对比,表2给出了上述四个系统在不匹配测试集上PESQ和STOI平均结果的对比。
表1匹配测试集上不同噪声感知训练系统的PESQ、STOI结果对比
表2不匹配测试集上不同噪声感知训练系统的PESQ、STOI结果对比
从以上表中可以看出,在匹配测试集与不匹配测试集上,只使用了带噪语音LPS特征作为输入的DNN基线系统相比原始带噪语音,PESQ和STOI都有非常大的提升。SNAT相比DNN基线系统在大部分信噪比下都能带来提升,但在信噪比较低的样本上表现不佳,这可以解释为在信噪比较低的样本上,噪声占比重较大,SNAT对非平稳噪声的估计不准确导致DNN学习带噪语音到干净语音的相互关系更为困难。
EDNAT-1将静态噪声估计替换为用梯度提升决策树动态预测的噪声,对于低信噪比语音帧更加有效,能够比较准确地估计噪声,减少语音误判为噪声的情况。总体上看,在匹配测试集上EDNAT-1系统比SNAT系统平均PESQ指标提高了0.042,平均STOI指标提高了0.004;在不匹配测试集上EDNAT-1系统比SNAT系统平均PESQ指标提高了0.033,平均STOI指标提高了0.01。进一步地,EDNAT-2将噪声场景特征一并用于神经网络的训练,取得了更明显的效果提升。总体上看,在匹配测试集上EDNAT-2系统比SNAT系统平均PESQ指标提高了0.123,平均STOI指标提高了0.009;在不匹配测试集上EDNAT-1系统比SNAT系统平均PESQ指标提高了0.115,平均STOI指标提高了0.014。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例可以通过软件实现,也可以借助软件加必要的通用硬件平台的方式来实现。基于这样的理解,上述实施例的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明披露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求书的保护范围为准。
Claims (4)
1.一种基于集成学习与噪声感知训练的语音增强方法,其特征在于,包括:
训练阶段:利用输入的带噪语音信号,训练用于动态噪声感知的梯度提升决策树模型;利用训练好的梯度提升决策树模型来估计带噪语音信号每个频带估计的噪声幅值以及噪声特征;将估计的噪声幅值以及噪声特征与带噪语音信号的对数频谱特征拼接起来,训练深层神经网络;
测试阶段:将待增强的带噪语音信号输入之前训练的梯度提升决策树模型,得到估计的噪声幅值及噪声特征,并与待增强的语音信号的对数频谱特征拼接起来,再输入至训练好的深层神经网络,由深层神经网络的输出层预测干净语音的对数频谱特征,再结合待增强的带噪语音信号的相位,使用重叠相加法对进行波形重构,得到增强后的语音信号。
2.根据权利要求1所述的一种基于集成学习与噪声感知训练的语音增强方法,其特征在于,所述利用输入的带噪语音信号,训练用于动态噪声感知的梯度提升决策树模型包括:
在每一帧的每一频带上分别迭代地训练K次,每颗梯度提升决策树模型学习之前所有树学习的残差,最终生成K颗梯度提升决策树模型;每一帧将训练D*K颗梯度提升决策树模型,其中,D表示每一帧带噪语音信号中的频带数;
每个频带的梯度提升决策树模型的输入是相应频带时频单元及其邻域的STFT幅值及根据带噪语音信号的STFT幅值进行时间递归平均估计的噪声幅值,回归的目标是时频单元噪声的STFT幅值;其中,时频单元及领域的STFT幅值通过对带噪语音信号进行短时傅里叶变换得到。
3.根据权利要求2所述的一种基于集成学习与噪声感知训练的语音增强方法,其特征在于,每个时频单元的噪声估计值是K颗梯度提升决策树模型预测值的加和。
4.根据权利要求2所述的一种基于集成学习与噪声感知训练的语音增强方法,其特征在于,
时频单元通过K颗梯度提升决策树模型最终会分别落在各个梯度提升决策树模型的叶子节点上,将K颗梯度提升决策树模型的叶子节点序号作为非平稳的噪声特征,每一帧带噪语音信号非平稳的噪声特征由D个频带的K颗树的叶子节点序号构成,共D*K维。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811385650.7A CN109256144B (zh) | 2018-11-20 | 2018-11-20 | 基于集成学习与噪声感知训练的语音增强方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811385650.7A CN109256144B (zh) | 2018-11-20 | 2018-11-20 | 基于集成学习与噪声感知训练的语音增强方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109256144A true CN109256144A (zh) | 2019-01-22 |
CN109256144B CN109256144B (zh) | 2022-09-06 |
Family
ID=65043893
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811385650.7A Active CN109256144B (zh) | 2018-11-20 | 2018-11-20 | 基于集成学习与噪声感知训练的语音增强方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109256144B (zh) |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110222781A (zh) * | 2019-06-12 | 2019-09-10 | 成都嗨翻屋科技有限公司 | 音频去噪方法、装置、用户终端及存储介质 |
CN110739003A (zh) * | 2019-10-23 | 2020-01-31 | 北京计算机技术及应用研究所 | 基于多头自注意力机制的语音增强方法 |
CN111081266A (zh) * | 2019-12-18 | 2020-04-28 | 暗物智能科技(广州)有限公司 | 一种训练生成对抗网络、语音增强方法及系统 |
CN111355675A (zh) * | 2020-03-11 | 2020-06-30 | 南京航空航天大学 | 一种基于生成对抗网络的信道估计增强方法、装置和系统 |
CN111383652A (zh) * | 2019-10-25 | 2020-07-07 | 南京邮电大学 | 一种基于双层字典学习的单通道语音增强方法 |
CN111863007A (zh) * | 2020-06-17 | 2020-10-30 | 国家计算机网络与信息安全管理中心 | 一种基于深度学习的语音增强方法及系统 |
CN111883091A (zh) * | 2020-07-09 | 2020-11-03 | 腾讯音乐娱乐科技(深圳)有限公司 | 音频降噪方法和音频降噪模型的训练方法 |
CN112006697A (zh) * | 2020-06-02 | 2020-12-01 | 东南大学 | 一种基于语音信号的梯度提升决策树抑郁症识别方法 |
CN112116916A (zh) * | 2019-06-03 | 2020-12-22 | 北京小米智能科技有限公司 | 确定语音增强算法的性能参数的方法、装置、介质及设备 |
CN112309418A (zh) * | 2020-10-30 | 2021-02-02 | 出门问问(苏州)信息科技有限公司 | 一种抑制风噪声的方法及装置 |
CN115553777A (zh) * | 2022-11-02 | 2023-01-03 | 济南大学 | 一种非接触式精神压力检测方法及系统 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20010001141A1 (en) * | 1998-02-04 | 2001-05-10 | Sih Gilbert C. | System and method for noise-compensated speech recognition |
US20050182624A1 (en) * | 2004-02-16 | 2005-08-18 | Microsoft Corporation | Method and apparatus for constructing a speech filter using estimates of clean speech and noise |
US20160111108A1 (en) * | 2014-10-21 | 2016-04-21 | Mitsubishi Electric Research Laboratories, Inc. | Method for Enhancing Audio Signal using Phase Information |
US9466292B1 (en) * | 2013-05-03 | 2016-10-11 | Google Inc. | Online incremental adaptation of deep neural networks using auxiliary Gaussian mixture models in speech recognition |
CN107734126A (zh) * | 2017-11-10 | 2018-02-23 | 广东欧珀移动通信有限公司 | 语音调节方法、装置、终端及存储介质 |
CN107943865A (zh) * | 2017-11-10 | 2018-04-20 | 阿基米德(上海)传媒有限公司 | 一种适用于多场景、多类型的音频分类标签方法及系统 |
CN108133702A (zh) * | 2017-12-20 | 2018-06-08 | 重庆邮电大学 | 一种基于mee优化准则的深度神经网络语音增强模型 |
-
2018
- 2018-11-20 CN CN201811385650.7A patent/CN109256144B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20010001141A1 (en) * | 1998-02-04 | 2001-05-10 | Sih Gilbert C. | System and method for noise-compensated speech recognition |
US20050182624A1 (en) * | 2004-02-16 | 2005-08-18 | Microsoft Corporation | Method and apparatus for constructing a speech filter using estimates of clean speech and noise |
US9466292B1 (en) * | 2013-05-03 | 2016-10-11 | Google Inc. | Online incremental adaptation of deep neural networks using auxiliary Gaussian mixture models in speech recognition |
US20160111108A1 (en) * | 2014-10-21 | 2016-04-21 | Mitsubishi Electric Research Laboratories, Inc. | Method for Enhancing Audio Signal using Phase Information |
CN107734126A (zh) * | 2017-11-10 | 2018-02-23 | 广东欧珀移动通信有限公司 | 语音调节方法、装置、终端及存储介质 |
CN107943865A (zh) * | 2017-11-10 | 2018-04-20 | 阿基米德(上海)传媒有限公司 | 一种适用于多场景、多类型的音频分类标签方法及系统 |
CN108133702A (zh) * | 2017-12-20 | 2018-06-08 | 重庆邮电大学 | 一种基于mee优化准则的深度神经网络语音增强模型 |
Non-Patent Citations (4)
Title |
---|
凌佳佳等: "联合噪声分类和掩码估计的语音增强方法", 《电子设计工程》 * |
崔鸿雁等: "机器学习中的特征选择方法研究及展望", 《北京邮电大学学报》 * |
张元平等: "一种基于GBDT算法的语音模型聚类方法", 《信息化研究》 * |
贾海蓉等: "基于DNN的子空间语音增强算法", 《太原理工大学学报》 * |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112116916A (zh) * | 2019-06-03 | 2020-12-22 | 北京小米智能科技有限公司 | 确定语音增强算法的性能参数的方法、装置、介质及设备 |
CN110222781A (zh) * | 2019-06-12 | 2019-09-10 | 成都嗨翻屋科技有限公司 | 音频去噪方法、装置、用户终端及存储介质 |
CN110739003B (zh) * | 2019-10-23 | 2022-10-28 | 北京计算机技术及应用研究所 | 基于多头自注意力机制的语音增强方法 |
CN110739003A (zh) * | 2019-10-23 | 2020-01-31 | 北京计算机技术及应用研究所 | 基于多头自注意力机制的语音增强方法 |
CN111383652A (zh) * | 2019-10-25 | 2020-07-07 | 南京邮电大学 | 一种基于双层字典学习的单通道语音增强方法 |
CN111383652B (zh) * | 2019-10-25 | 2023-09-12 | 南京邮电大学 | 一种基于双层字典学习的单通道语音增强方法 |
CN111081266A (zh) * | 2019-12-18 | 2020-04-28 | 暗物智能科技(广州)有限公司 | 一种训练生成对抗网络、语音增强方法及系统 |
CN111355675A (zh) * | 2020-03-11 | 2020-06-30 | 南京航空航天大学 | 一种基于生成对抗网络的信道估计增强方法、装置和系统 |
CN112006697A (zh) * | 2020-06-02 | 2020-12-01 | 东南大学 | 一种基于语音信号的梯度提升决策树抑郁症识别方法 |
CN111863007A (zh) * | 2020-06-17 | 2020-10-30 | 国家计算机网络与信息安全管理中心 | 一种基于深度学习的语音增强方法及系统 |
CN111883091A (zh) * | 2020-07-09 | 2020-11-03 | 腾讯音乐娱乐科技(深圳)有限公司 | 音频降噪方法和音频降噪模型的训练方法 |
CN112309418B (zh) * | 2020-10-30 | 2023-06-27 | 出门问问(苏州)信息科技有限公司 | 一种抑制风噪声的方法及装置 |
CN112309418A (zh) * | 2020-10-30 | 2021-02-02 | 出门问问(苏州)信息科技有限公司 | 一种抑制风噪声的方法及装置 |
CN115553777A (zh) * | 2022-11-02 | 2023-01-03 | 济南大学 | 一种非接触式精神压力检测方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN109256144B (zh) | 2022-09-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109256144A (zh) | 基于集成学习与噪声感知训练的语音增强方法 | |
Xu et al. | A regression approach to speech enhancement based on deep neural networks | |
Hu et al. | A tandem algorithm for pitch estimation and voiced speech segregation | |
CN106486131A (zh) | 一种语音去噪的方法及装置 | |
CN111292762A (zh) | 一种基于深度学习的单通道语音分离方法 | |
Nandwana et al. | Robust unsupervised detection of human screams in noisy acoustic environments | |
Mallidi et al. | Autoencoder based multi-stream combination for noise robust speech recognition. | |
Rai et al. | Language identification using PLDA based on i-vector in noisy environment | |
Zao et al. | Colored noise based multicondition training technique for robust speaker identification | |
Han et al. | Perceptual weighting deep neural networks for single-channel speech enhancement | |
Mu et al. | Voice activity detection optimized by adaptive attention span transformer | |
Han et al. | Speech enhancement based on improved deep neural networks with MMSE pretreatment features | |
Naini et al. | Whisper Activity Detection Using CNN-LSTM Based Attention Pooling Network Trained for a Speaker Identification Task. | |
Liu et al. | Using Shifted Real Spectrum Mask as Training Target for Supervised Speech Separation. | |
Kumar | Performance measurement of a novel pitch detection scheme based on weighted autocorrelation for speech signals | |
Korba et al. | Text-independent speaker identification by combining MFCC and MVA features | |
Ping et al. | Single-channel speech enhancement using improved progressive deep neural network and masking-based harmonic regeneration | |
Han et al. | Perceptual improvement of deep neural networks for monaural speech enhancement | |
Shanmugapriya et al. | Deep neural network based speaker verification system using features from glottal activity regions | |
Sadeghi et al. | The effect of different acoustic noise on speech signal formant frequency location | |
Liang et al. | Real-time speech enhancement algorithm for transient noise suppression | |
Guo et al. | A speech enhancement algorithm using computational auditory scene analysis with spectral subtraction | |
Liu et al. | Investigation of Cost Function for Supervised Monaural Speech Separation. | |
Soni et al. | Comparing front-end enhancement techniques and multiconditioned training for robust automatic speech recognition | |
Win et al. | Speech enhancement techniques for noisy speech in real world environments |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |