CN103208291A - 一种可用于强噪声环境的语音增强方法及装置 - Google Patents

一种可用于强噪声环境的语音增强方法及装置 Download PDF

Info

Publication number
CN103208291A
CN103208291A CN2013100752846A CN201310075284A CN103208291A CN 103208291 A CN103208291 A CN 103208291A CN 2013100752846 A CN2013100752846 A CN 2013100752846A CN 201310075284 A CN201310075284 A CN 201310075284A CN 103208291 A CN103208291 A CN 103208291A
Authority
CN
China
Prior art keywords
voice
model
air
speech transducer
air conduction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2013100752846A
Other languages
English (en)
Inventor
张军
朱颖莉
宁更新
冯义志
余华
韦岗
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
South China University of Technology SCUT
Original Assignee
South China University of Technology SCUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South China University of Technology SCUT filed Critical South China University of Technology SCUT
Priority to CN2013100752846A priority Critical patent/CN103208291A/zh
Publication of CN103208291A publication Critical patent/CN103208291A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Circuit For Audible Band Transducer (AREA)

Abstract

本发明公开一种可用于强噪声环境的语音增强方法及装置,所述方法包括:建立干净环境下空气传导语音传感器检测语音和非空气传导语音传感器检测语音的联合模型;根据非空气传导语音传感器检测的语音信号,估计当前接收的空气传导语音传感器检测语音信号的噪声模型;利用得到的噪声模型对所述联合模型的参数进行修正;用修正前和修正后的联合模型对空气传导语音传感器检测语音信号进行增强,并输出增强后的语音信号。所述装置包括包括空气传导语音传感器、非空气传导语音传感器、多路数据采集模块、噪声模型估计模块、联合模型修正模块、语音增强模块、联合模型训练和自适应模块。本发明与现有技术相比,具有抗噪声能力更强,语音质量更好等优点。

Description

一种可用于强噪声环境的语音增强方法及装置
技术领域
本发明涉及信号处理领域,特别是一种可用于强噪声环境的语音增强方法及装置。
背景技术
语音是人类交流最自然的手段,但在语音通信、语音识别等实际应用中,往往存在着各种各样的环境噪声。当这些环境噪声较强时,会严重影响语音通信的质量和识别的正确率。例如在工厂、集会等嘈杂环境中,不但语音通信的音质、可懂度会显著变差,语音识别器的识别率也会急剧下降。
语音增强是一种常用的减少环境噪声影响、提高语音通信质量的方法,也可以用于识别前语音的预处理,以提高语音识别器的识别率。目前语音增强方法主要包括两类,一类是基于单麦克风的语音增强方法,包括谱减法、维纳滤波、MMSE、卡尔曼滤波、小波变换等,这类方法利用单麦克风接收语音信号,通过时域、频域、小波变换域等滤波和处理来抑制噪声,提高语音的质量;另一类是基于麦克风阵列的语音增强方法,这类方法将阵列信号处理技术应用到语音增强中,利用多个麦克风接收到的语音信号里包含的空间相位信息对输入语音进行空间滤波,形成具有指向性的空间波束,对指定方向上的语音信号进行增强,同时抑制其他方向上的干扰,可提供比传统语音增强方法更好的噪声抑制效果。现有的语音增强技术能在一定程度上提高带噪语音的质量,但由于这些技术均基于麦克风等空气传导的语音传感器,在接收信号中,环境噪声直接叠加在语音信号上,因此随着环境噪声的增强,其性能不可避免地下降,特别在强噪声环境下,现有的语音增强技术仍很难取得好的效果。
为了能适应强噪声环境下的语音通信,一些语音通信系统采用了非空气传导的语音传感器,如喉部送话器和骨传导语音传感器等。这些语音传感器在使用时紧贴使用者的喉部、颚骨等部位,使用者说话时声带振动带动传感器中的簧片发生形变,将簧片的振动转化为电信号即可得到语音信号。由于空气中传导的声波无法使这类语音传感器的簧片发生形变,因此这类语音传感器不受声学噪声的影响,具有很强的抗干扰能力,常用于坦克、工厂等强噪声环境中的语音通信和语音识别。但由于非空气传导语音传感器检测到的语音信号在传播信道的特性上与说话时声道的特性有较大的不同,因此与麦克风等空气传导语音传感器接收到的语音相比自然度差,听起来并不舒适。
发明内容
针对现有基于空气传导语音传感器的语音增强技术在强噪声环境中效果不佳和非空气传导语音传感器音质差等不足,本发明提供了一种可用于强噪声环境的语音增强方法,该方法将空气传导语音传感器和非空气传导语音传感器相结合,首先建立空气传导语音传感器检测语音和非空气传导语音传感器检测语音的联合模型,在增强时利用非空气传导语音传感器检测语音来准确估计声学噪声模型,并据此对联合模型的参数进行修正,然后利用修正后的联合模型对输入的空气传导语音传感器检测语音进行增强。由于同时利用了空气传导语音传感器检测语音和非空气传导语音传感器检测语音来恢复语音信号,因此与现有技术相比,本发明提供的方法能在强噪声环境中输出音质更好的语音信号。本发明还提供了实现上述语音增强方法的装置。本发明抗噪声能力强、语音质量好、使用方便,可以广泛用于各种强噪声环境下的语音通信、记录、识别等场合。
本发明提供的可用于强噪声环境的语音增强方法,具体包含以下步骤:
步骤1:建立干净环境下空气传导语音传感器检测语音和非空气传导语音传感器检测语音的联合模型;
步骤2:根据非空气传导语音传感器检测的语音信号,估计当前接收的空气传导语音传感器检测语音信号的噪声模型;
步骤3:利用步骤2得到的噪声模型对联合模型的参数进行修正;
步骤4:用修正前和修正后的联合模型对空气传导语音传感器检测语音信号进行增强,并输出增强后的语音信号。
进一步的,上述步骤1中空气传导语音传感器检测语音和非空气传导语音传感器检测语音的联合模型,为空气传导语音传感器检测语音和非空气传导语音传感器检测语音的联合概率模型或它们之间的映射关系。
进一步的,上述步骤1中联合模型的建立,包含以下步骤:
步骤1.1:采集同步、干净的空气传导语音传感器检测语音和非空气传导语音传感器检测语音数据作为训练数据;
步骤1.2:对步骤1.1中采集的空气传导语音传感器检测语音和非空气传导语音传感器检测语音数据进行分帧,提取每帧语音的声道参数和激励参数;
步骤1.3:利用空气传导语音传感器检测语音和非空气传导语音传感器检测语音中提取的声道参数和激励参数分别训练声道参数和激励参数的联合模型。
上述步骤2中当前接收的空气传导语音传感器检测语音信号的噪声模型估计,包含以下步骤:
步骤2.1:同步采集空气传导语音传感器检测语音和非空气传导语音传感器检测语音;
步骤2.2:利用非空气传导语音传感器检测的语音数据进行语音的端点检测;
步骤2.3:依据步骤2.2检测的语音端点,提取空气传导语音传感器检测语音中的纯噪声段;
步骤2.4:利用步骤2.3中得到的空气传导语音传感器检测语音中的纯噪声段数据,估计噪声的统计模型。
上述步骤3中, 根据空气传导语音传感器检测语音信号的噪声模型和步骤1中训练得到的声道参数联合模型,采用模型补偿技术对声道参数联合模型的参数进行修正。
上述步骤4中的空气传导语音传感器检测语音信号增强,具体包含以下步骤:
步骤4.1:利用修正前和修正后的声道参数联合模型,以及当前空气传导语音传感器检测语音和非空气传导语音传感器检测语音中提取的声道参数,按选定的优化准则估计干净的空气传导语音传感器检测语音声道参数;
步骤4.2:求出当前非空气传导语音传感器检测语音的激励参数;
步骤4.3:利用空气传导语音传感器检测语音和非空气传导语音传感器检测语音激励参数的联合模型,将非空气传导语音传感器检测语音的激励参数映射为空气传导语音传感器检测语音的激励参数,并重构空气传导语音传感器检测语音的激励;
步骤4.4:利用步骤4.3得到的空气传导语音传感器检测语音的激励和步骤4.1得到的空气传导语音传感器检测语音声道参数,合成增强后的语音。
进一步优选的,上述步骤4.1中的优化准则为最小均方误差准则。
上述方法中,空气传导语音传感器检测语音和非空气传导语音传感器检测语音联合模型的参数,在声学噪声小于预设门限时采用模型自适应技术进行调整。
本发明提供的可用于强噪声环境的语音增强装置,包括空气传导语音传感器、非空气传导语音传感器、多路数据采集模块、噪声模型估计模块、联合模型修正模块、语音增强模块、联合模型训练和自适应模块,其中空气传导语音传感器、非空气传导语音传感器、噪声模型估计模块、语音增强模块分别与多路数据采集模块连接,噪声模型估计模块、联合模型修正模块、语音增强模块顺次连接,联合模型训练和自适应模块与多路数据采集模块和联合模型修正模块连接。空气传导语音传感器和非空气传导语音传感器分别用于采集空气传导和非空气传导的语音信号,多路数据采集模块用于采集接收空气传导语音传感器和非空气传导语音传感器的输出信号,噪声模型估计模块用于估计当前空气传导语音传感器检测语音的噪声模型,联合模型修正模块用于根据当前的噪声模型对联合模型的参数进行修正,语音增强模块根据修正前和修正后的联合模型对空气传导语音传感器检测语音进行增强,联合模型训练和自适应模块用于训练联合模型,并对模型参数进行在线的自适应调整。
与现有技术相比,本发明有以下主要优点:
(1)与基于空气传导语音传感器的语音增强方法相比,抗噪声的能力更强。本发明将空气传导语音传感器与非空去传导传感器相结合,而空气中传导的声波不会对非空气传导的传感器产生影响,因而具有很强的抗噪声能力,在强噪声环境中仍能得到较清晰的语音。
(2)与基于非空气传导语音传感器的语音增强方法相比,语音质量更好。本发明在语音增强时利用了非空气传导语音和空气传导语音之间的映射关系来重建干净语音,因此与基于非空气传导语音传感器的语音增强方法相比具有更好的自然度。
(3)体积小,使用方便。与基于麦克风阵列的语音增强等方法相比,本发明只需使用一个空气传导语音传感器和一个非空气传导语音传感器,可以按人头部的构造设计成紧凑的耳机,体积更小,使用更方便。
附图说明
图1为本发明实施例提供的语音增强装置系统结构图;
图2为本发明实施例提供的语音增强方法流程图;
图3为本发明实施例提供的语音增强方法中建立语音联合模型的流程图;
图4为本发明实施例提供的语音增强方法中建立噪声模型的流程图;
图5为本发明实施例提供的语音增强方法中对空气传导语音传感器检测语音进行增强的流程图。
具体实施方式
下面结合附图和实施例对本发明的具体实施步骤作进一步说明,但本发明的实施和保护范围不限于此。
本发明实施例提供的语音增强装置的系统结构图如图1所示,由空气传导语音传感器、非空气传导语音传感器、多路数据采集模块、噪声模型估计模块、联合模型修正模块、语音增强模块、联合模型训练和自适应模块共同构成,其中空气传导语音传感器、非空气传导语音传感器、噪声模型估计模块、语音增强模块分别与多路数据采集模块连接,噪声模型估计模块、联合模型修正模块、语音增强模块顺次连接,联合模型训练和自适应模块与多路数据采集模块和联合模型修正模块连接。空气传导语音传感器和非空气传导语音传感器分别用于采集空气传导和非空气传导的语音信号,上述实施例中,空气传导语音传感器采用麦克风实现,非空气传导语音传感器采用喉部送话器实现;多路数据采集模块用于采集接收空气传导语音传感器和非空气传导语音传感器的输出信号,上述实施例中,多路数据采集模块采用多路数据采集芯片来实现;噪声模型估计模块用于估计当前空气传导语音传感器检测语音的噪声模型,联合模型修正模块用于根据当前的噪声模型对联合模型中对应于空气传导语音的参数进行修正,语音增强模块根据修正前和修正后的联合模型对空气传导语音传感器检测语音进行增强,联合模型训练和自适应模块用于训练联合模型,并对模型参数进行在线的自适应调整,上述实施例中,噪声模型估计模块,联合模型修正模块,语音增强模块,联合模型训练和自适应模块在DSP芯片中实现。
上述实施例中,语音增强方法如图2所示,采用如下步骤来实现:
步骤1:建立干净环境下空气传导语音传感器检测语音和非空气传导语音传感器检测语音的联合模型,其流程如图3所示,具体可分为以下步骤:
步骤1.1:采集同步、干净的空气传导语音传感器检测语音和非空气传导语音传感器检测语音数据作为训练数据。上述实施例中,在安静的环境下通过多路数据采集芯片同步采集麦克风和喉部送话器收集的语音数据作为联合模型的训练数据。
步骤1.2:对步骤1.1中采集的空气传导语音传感器检测语音和非空气传导语音传感器检测语音数据进行分帧,提取每帧语音的声道参数和激励参数。上述实施例中,将空气传导语音传感器检测语音和非空气传导语音传感器检测语音按10ms的间隔进行分帧,对于声道参数,采用线性预测分析法提取一帧空气传导语音传感器检测语音和非空气传导语音传感器检测语音的线性预测系数(即LPC系数)。将原始语音通过LPC分析滤波器,得到预测残差的幅度谱即为所需的激励参数。
步骤1.3:利用空气传导语音传感器检测语音和非空气传导语音传感器检测语音中提取的声道参数和激励参数分别训练声道参数联合模型和激励参数联合模型。
空气传导语音传感器检测语音和非空气传导语音传感器检测语音参数的联合模型可以采用联合概率模型或它们之间的映射关系来表示,上述实施例中,使用高斯模型来对空气传导语音传感器检测语音和非空气传导语音传感器检测语音中提取的声道参数和激励参数进行建模,具体方法如下:
对于声道参数的联合模型训练,首先将同一时刻空气传导语音传感器检测语音和非空气传导语音传感器检测语音中提取的LPC参数转换为线性预测倒谱系数(即LPCC系数),将两者合并为一个联合矢量,记为c=[c1 T,c2 T]T,其中c1为空气传导语音传感器检测语音的LPCC系数,c2为非空气传导语音传感器检测语音的LPCC系数,然后使用J个高斯模型来拟合这个联合矢量的概率分布。令λj表示第j个高斯模型,则其模型参数包括高斯函数的均值、方差和该高斯模型的先验概率。高斯模型的参数有多种成熟的训练方法,上述实施例中,采用以下步骤来训练J个高斯模型的参数:
步骤1.3.1:将所有训练用的联合矢量分成J个群,每个群使用一个高斯模型来拟合其概率分布,求出该群中所有联合矢量的均值和方差作为高斯函数的均值和方差,该群中包含的联合矢量的个数与所有训练用的联合矢量个数之比为该高斯模型的先验概率。
步骤1.3.2:根据上一步所得的高斯模型参数对所有训练用的联合矢量重新划分所属的群,其原则是如果某一联合矢量c属于群j,则有P(c|λj)>P(c|λi),i≠j。
步骤1.3.3:如果迭代次数达到预设值,则当前的高斯模型参数即为训练好的高斯模型参数。否则,按步骤1.3.2的分群结果重新计算所有高斯模型的均值、方差和先验概率,并转步骤1.3.2。
对于激励参数的联合概率模型训练,将同一时刻空气传导语音传感器检测语音和非空气传导语音传感器检测语音中提取的激励的幅度谱合并为一个联合矢量,记为s=[s1 T,s2 T]T,其中s1为空气传导语音传感器检测语音激励的幅度谱,s2为非空气传导语音传感器检测语音激励的幅度谱。使用K个高斯模型来拟合该联合矢量的概率分布,采用与声道参数相同的训练方法,可以得到激励参数的K个高斯模型的参数。
步骤2:根据非空气传导语音传感器检测的语音信号,估计当前接收的空气传导语音传感器检测语音信号的噪声模型,其流程如图4所示,具体步骤如下:
步骤2.1:同步采集空气传导语音传感器检测语音和非空气传导语音传感器检测语音。上述实施例中,通过数据采集芯片同时采集的麦克风语音信号和喉部送话器语音信号,并送入噪声模型估计模块进行噪声模型的估计;
步骤2.2:利用非空气传导语音传感器检测的语音数据进行语音的端点检测。由于非空气传导语音传感器检测的语音信号不受声学环境噪声的影响,因此可以在有声学噪声的环境下准确地检测出语音的端点。语音端点检测有多种方法,上述实施例中,采用经典的基于能量和过零率的方法对喉部送话器检测到的语音进行端点检测;
步骤2.3:依据步骤2.2检测的语音端点,提取空气传导语音传感器检测语音中的纯噪声段。由于空气传导语音传感器检测语音和非空气传导语音传感器检测语音同步采集,因此两者语音的端点在时间上是一致,依据步骤2.2检测的语音端点可以检测出空气传导语音传感器检测语音的无话音段,即纯噪声信号。
步骤2.4:利用步骤2.3中得到的空气传导语音传感器检测语音中的纯噪声段数据,估计噪声的统计模型。上述实施例中,仅对噪声的声道参数进行建模,建模模型采用单高斯函数,提取若干帧纯噪声信号的声道参数并计算其均值和方差,即可得到噪声声道参数的高斯模型。
步骤3:利用步骤2得到的噪声模型对联合模型的参数进行修正,使其与当前的使用环境匹配。
上述步骤在联合模型修正模块完成,根据空气传导语音传感器检测语音信号的噪声模型和步骤1中训练得到的声道参数联合模型,采用模型补偿技术对声道参数联合模型的参数进行修正,使其与当前的使用环境匹配。上述实施例中,非空气传导传感器检测语音被认为未受到声学噪声的影响,因此非空气传导传感器检测语音中的噪声设置为0,模型补偿中所用到的噪声参数均按此设置提取。此外,声道参数联合模型中的高斯模型先验概率保持不变,激励参数的联合模型不进行修正。
模型补偿技术在语音识别中已得到广泛的应用,对于声道参数,上述实施例中采用了一种适用于线性预测系数(LPCC)的模型补偿技术来对GMM中的高斯模型参数进行修正(见参考文献:Ivandro Sanches.Noise-Compensated Hidden Markov Models. IEEE TRANSACTIONS ON SPEECH AND AUDIO PROCESSING,2000,8(5):533-540),具体方法如下:
(1)均值的补偿
令cs表示线性倒谱域中高斯模型的均值,则其修正按以下步骤来进行:
步骤3.1A:用式(1)将cs从LPCC域变换到LPC域
a 1 = - c 1 , a k = - c k - Σ j = 1 k - 1 ( 1 - j k ) a j c k - j , 2 ≤ k ≤ p - - - ( 1 )
得到LPC域的均值as=[a1,a2,…ap]T
步骤3.2A:用式(2)将LPC域的均值变换到自相关域
Ars=-as(2)
其中 A = 1 0 0 . . . 0 a 1 1 0 . . . 0 a 2 a 1 0 . . . 0 . . . . . . . . . . . . . . . a p - 1 a p - 2 a p - 3 . . . 1 + a 2 a 3 . . . a p 0 a 3 a 4 . . . 0 0 . . . . . . . . . . . . . . . a p 0 . . . 0 0 0 0 . . . 0 0 ,rs=[r1,r2,…rp]T为自相关域的均值。
步骤3.3A:计算语音信号的信噪比
Figure BDA0000289783013
,其中ES和En分别代表干净语音信号和噪声的能量估计值,用式(3)对自相关域的均值进行补偿
r s + n = 1 1 + α ( r s + αr n ) - - - ( 3 )
步骤3.4A:将rs+n变换到LPC域得到,修正后的LPC系数均值as+n
步骤3.5A:将LPC系数均值as+n变换到LPCC域,得到修正后的LPCC系数均值cs+n
(2)方差的补偿
高斯模型的方差修正可以分为以下步骤来进行:
步骤3.1B:采用式(4)将高斯模型的均值和方差从倒谱域转换到LOG能量谱域
l s = p Cc s , σ s 2 = p 2 Cσ 2 ( c s ) C T
l n = p Cc n , σ n 2 = p 2 Cσ 2 ( c n ) C T - - - ( 4 )
其中cs、σ2(cs)和cn、σ2(cn)分别是干净语音信号和噪声倒谱域高斯模型的均值和方差,ls
Figure BDA0000289783017
和ln分别是干净语音信号和噪声LOG能量谱高斯模型的均值和方差,C为DCT矩阵。
步骤3.2B:用式(5)计算含噪语音信号在LOG能量谱域的方差
σ s + n 2 ( i , j ) = Δ i Δ j σ s 2 ( i , j ) + ( 1 - Δ i ) ( 1 - Δ j ) σ n 2 ( i , j ) - - - ( 5 )
其中 &Delta; i = 0 , if S i / N i < 1 1 , if S i / N i &GreaterEqual; 1 , i = 1,2 , . . . p ,Si、Ni分别表示干净语音信号和噪声信号的能量谱的第i个分量。
步骤3.3B:用式(6)将LOG能量谱域的方差转换到倒谱域,得到含噪语音信号倒谱域高斯模型的方差矩阵
&sigma; 2 ( c s + n ) = p - 2 C - 1 &sigma; s + n 2 C - T - - - ( 6 )
步骤4:用修正前和修正后的联合模型对空气传导语音传感器检测语音信号进行增强,并输出增强后的语音信号,其流程如图5所示,具体方法如下:
步骤4.1:利用修正前和修正后的声道参数联合模型,以及当前空气传导语音传感器检测语音和非空气传导语音传感器检测语音中提取的声道参数,按选定的优化准则估计干净的空气传导语音传感器检测语音声道参数。
设修正前声道参数的第i个高斯模型的概率密度函数为P(c|λi),该高斯模型修正后的概率密度函数为P(c'|λi'),其中c和c'分别为干净语音和带噪语音的声道参数,λi和λi'分别为修正前和修正后的第i个高斯模型。则已知空气传导语音传感器检测语音和非空气传导语音传感器检测语音中提取的声道参数时,选择最小均方误差准则,干净的空气传导语音传感器检测语音声道参数的估计为
c ~ = E ( c | c &prime; ) = &ContourIntegral; &Sigma; j = 1 J [ P ( c | &lambda; j ) &Sigma; k = 1 J ( P ( &lambda; j | &lambda; k &prime; ) P ( &lambda; k &prime; | c &prime; ) ) ] dc - - - ( 7 )
其中 P ( &lambda; k &prime; | c &prime; ) = P ( &lambda; k &prime; ) P ( c &prime; | &lambda; k &prime; ) &Sigma; k = 1 J P ( &lambda; k &prime; ) P ( c &prime; | &lambda; k &prime; ) P ( &lambda; j | &lambda; k &prime; ) = 1 j = k 0 j &NotEqual; k
步骤4.2:求出当前非空气传导语音传感器检测语音的激励参数。上述实施例中,由于认为非空气传导语音传感器检测语音未受到声学噪声的影响,因此直接利用当前声道参数中对应于非空气传导语音传感器检测语音的那部分参数来构造非空气传导语音传感器检测语音的线性预测分析滤波器,将非空气传导语音传感器检测语音通过上述线性预测分析滤波器即可得到非空气传导语音传感器检测语音的激励信号。这个激励信号的幅度谱即为当前非空气传导语音传感器检测语音的激励参数。
步骤4.3:利用空气传导语音传感器检测语音和非空气传导语音传感器检测语音激励参数联合模型,将非空气传导语音传感器检测语音的激励参数映射为空气传导语音传感器检测语音的激励参数,并重构空气传导语音传感器检测语音的激励。
设激励参数的第i个高斯模型的概率密度函数为P(s|γi),其中
Figure BDA00002897830115
,sM和sT分别为空气传导语音传感器检测语音和非空气传导语音传感器检测语音的激励参数,γi为第i个高斯模型,则可以按式(8)将非空气传导语音传感器检测语音的激励参数映射为空气传导语音传感器检测语音的激励参数
s ~ M = E ( s M | s T ) = s M &Sigma; j = 1 K [ P ( s M | &gamma; j ) P ( &gamma; j | s T ) ] d s M - - - ( 8 )
其中
Figure BDA00002897830117
。该激励参数可看作是当前干净的空气传导语音传感器检测语音激励参数的估计值。
估计出干净的空气传导语音传感器检测语音激励参数,即干净的空气传导语音传感器检测语音激励信号的幅度谱后,将该幅度谱与当前空气传导语音传感器检测语音激励的相位谱共同构造激励信号的频谱,并转换到时域,即可得到重构空气传导语音传感器检测语音的激励。
步骤4.4:利用步骤4.3得到的空气传导语音传感器检测语音的激励和步骤4.1得到的干净的空气传导语音传感器检测语音声道参数,合成得到增强后的语音。将上述步骤中估计得到的干净空气传导语音传感器检测语音的激励信号通过估计得到的干净声道参数构造的合成滤波器,即得到增强后的语音。
上述实施例中,为了减少联合模型的训练时间,在使用前先采集多个说话人同步录制的空气传导语音传感器检测语音和非空气传导语音传感器检测语音数据,训练非特定人的声道参数和激励参数联合模型。使用时,在声学噪声小于预设门限的情况下,采用传统的MLLR模型自适应技术对联合模型的参数进行调整,以更好地适应某一特定的说话人。

Claims (9)

1.一种可用于强噪声环境的语音增强方法,其特征在于包括如下步骤: 
步骤1:建立干净环境下空气传导语音传感器检测语音和非空气传导语音传感器检测语音的联合模型;
步骤2:根据非空气传导语音传感器检测的语音信号,估计当前接收的空气传导语音传感器检测语音信号的噪声模型;
步骤3:利用步骤2得到的噪声模型对所述联合模型的参数进行修正;
步骤4:用修正前和修正后的联合模型对空气传导语音传感器检测语音信号进行增强,并输出增强后的语音信号。
2.根据权利要求1所述的可用于强噪声环境的语音增强方法,其特征在于,上述步骤1中空气传导语音传感器检测语音和非空气传导语音传感器检测语音的联合模型,为空气传导语音传感器检测语音和非空气传导语音传感器检测语音的联合概率模型或它们之间的映射关系。
3.根据权利要求1所述的可用于强噪声环境的语音增强方法,其特征在于,述步骤1中所述联合模型的建立,包含以下步骤:
步骤1.1:采集同步、干净的空气传导语音传感器检测语音和非空气传导语音传感器检测语音数据作为训练数据;
步骤1.2:对步骤1.1中采集的空气传导语音传感器检测语音和非空气传导语音传感器检测语音数据进行分帧,提取每帧语音的声道参数和激励参数;
步骤1.3:利用空气传导语音传感器检测语音和非空气传导语音传感器检测语音中提取的声道参数和激励参数分别训练声道参数和激励参数的联合模型。
4.根据权利要求1所述的可用于强噪声环境的语音增强方法,其特征在于,步骤2中所述估计当前接收的空气传导语音传感器检测语音信号的噪声模型,包含以下步骤:
步骤2.1:同步采集空气传导语音传感器检测语音和非空气传导语音传感器检测语音;
步骤2.2:利用非空气传导语音传感器检测的语音数据进行语音的端点检测;
步骤2.3:依据步骤2.2检测的语音端点,提取空气传导语音传感器检测语音中的纯噪声段;
步骤2.4:利用步骤2.3中得到的空气传导语音传感器检测语音中的纯噪声段数据,估计噪声的统计模型。
5.根据权利要求1所述的可用于强噪声环境的语音增强方法,其特征在于,步骤3中, 根据空气传导语音传感器检测语音信号的噪声模型和步骤1中训练得到的声道参数联合模型,采用模型补偿技术对声道参数联合模型的参数进行修正。
6.根据权利要求1所述的可用于强噪声环境的语音增强方法,其特征在于,步骤4中,空气传导语音传感器检测语音信号的增强具体包含以下步骤:
步骤4.1:利用修正前和修正后的声道参数联合模型,以及当前空气传导语音传感器检测语音和非空气传导语音传感器检测语音中提取的声道参数,按选定的优化准则估计干净的空气传导语音传感器检测语音声道参数;
步骤4.2:求出当前非空气传导语音传感器检测语音的激励参数;
步骤4.3:利用空气传导语音传感器检测语音和非空气传导语音传感器检测语音激励参数的联合模型,将非空气传导语音传感器检测语音的激励参数映射为空气传导语音传感器检测语音的激励参数,并重构空气传导语音传感器检测语音的激励;
步骤4.4:利用步骤4.3得到的空气传导语音传感器检测语音的激励和步骤4.1得到的空气传导语音传感器检测语音声道参数,合成增强后的语音。
7.根据权利要求6所述的可用于强噪声环境的语音增强方法,其特征在于,步骤4.1中所述的优化准则为最小均方误差准则。
8.根据权利要求1所述的可用于强噪声环境的语音增强方法,其特征在于,上述方法中,空气传导语音传感器检测语音和非空气传导语音传感器检测语音联合模型的参数,在声学噪声小于预设门限时采用模型自适应技术进行调整。
9.实现权利要求1所述可用于强噪声环境的语音增强方法的装置,其特征在于包括空气传导语音传感器、非空气传导语音传感器、多路数据采集模块、噪声模型估计模块、联合模型修正模块、语音增强模块、联合模型训练和自适应模块,其中空气传导语音传感器、非空气传导语音传感器、噪声模型估计模块、语音增强模块分别与多路数据采集模块连接,噪声模型估计模块、联合模型修正模块、语音增强模块顺次连接,联合模型训练和自适应模块与多路数据采集模块和联合模型修正模块连接;其中,空气传导语音传感器和非空气传导语音传感器分别用于采集空气传导和非空气传导的语音信号,多路数据采集模块用于采集接收空气传导语音传感器和非空气传导语音传感器的输出信号,噪声模型估计模块用于估计当前空气传导语音传感器检测语音的噪声模型,联合模型修正模块用于根据当前的噪声模型对联合模型的参数进行修正,语音增强模块根据修正前和修正后的联合模型对空气传导语音传感器检测语音进行增强,联合模型训练和自适应模块用于训练联合模型,并对模型参数进行在线的自适应调整。
CN2013100752846A 2013-03-08 2013-03-08 一种可用于强噪声环境的语音增强方法及装置 Pending CN103208291A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2013100752846A CN103208291A (zh) 2013-03-08 2013-03-08 一种可用于强噪声环境的语音增强方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2013100752846A CN103208291A (zh) 2013-03-08 2013-03-08 一种可用于强噪声环境的语音增强方法及装置

Publications (1)

Publication Number Publication Date
CN103208291A true CN103208291A (zh) 2013-07-17

Family

ID=48755492

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2013100752846A Pending CN103208291A (zh) 2013-03-08 2013-03-08 一种可用于强噪声环境的语音增强方法及装置

Country Status (1)

Country Link
CN (1) CN103208291A (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105632512A (zh) * 2016-01-14 2016-06-01 华南理工大学 一种基于统计模型的双传感器语音增强方法与装置
WO2018082315A1 (zh) * 2016-11-03 2018-05-11 北京金锐德路科技有限公司 一种音频播放方法、系统和装置
WO2019128140A1 (zh) * 2017-12-28 2019-07-04 科大讯飞股份有限公司 一种语音降噪方法、装置、服务器及存储介质
CN110556097A (zh) * 2018-06-01 2019-12-10 声音猎手公司 定制声学模型
CN111464918A (zh) * 2020-01-31 2020-07-28 美律电子(深圳)有限公司 耳机及耳机组
CN111508515A (zh) * 2013-12-18 2020-08-07 思睿逻辑国际半导体有限公司 话音命令触发的语音增强
WO2021012403A1 (zh) * 2019-07-25 2021-01-28 华南理工大学 一种双传感器语音增强方法及实现装置
CN113808602A (zh) * 2021-01-29 2021-12-17 北京沃东天骏信息技术有限公司 语音增强方法、模型训练方法以及相关设备
WO2022193327A1 (zh) * 2021-03-19 2022-09-22 深圳市韶音科技有限公司 信号处理系统、方法、装置及存储介质
US11902759B2 (en) 2019-09-12 2024-02-13 Shenzhen Shokz Co., Ltd. Systems and methods for audio signal generation

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060287852A1 (en) * 2005-06-20 2006-12-21 Microsoft Corporation Multi-sensory speech enhancement using a clean speech prior
CN101030384A (zh) * 2007-03-27 2007-09-05 西安交通大学 一种自动电子喉的电子喉语音增强系统与控制方法
CN102411936A (zh) * 2010-11-25 2012-04-11 歌尔声学股份有限公司 语音增强方法、装置及头戴式降噪通信耳机
EP2458586A1 (en) * 2010-11-24 2012-05-30 Koninklijke Philips Electronics N.V. System and method for producing an audio signal
CN102761643A (zh) * 2011-04-26 2012-10-31 鹦鹉股份有限公司 组合话筒和耳机的音频头戴式耳机

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060287852A1 (en) * 2005-06-20 2006-12-21 Microsoft Corporation Multi-sensory speech enhancement using a clean speech prior
CN101030384A (zh) * 2007-03-27 2007-09-05 西安交通大学 一种自动电子喉的电子喉语音增强系统与控制方法
EP2458586A1 (en) * 2010-11-24 2012-05-30 Koninklijke Philips Electronics N.V. System and method for producing an audio signal
CN102411936A (zh) * 2010-11-25 2012-04-11 歌尔声学股份有限公司 语音增强方法、装置及头戴式降噪通信耳机
CN102761643A (zh) * 2011-04-26 2012-10-31 鹦鹉股份有限公司 组合话筒和耳机的音频头戴式耳机

Cited By (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111508515A (zh) * 2013-12-18 2020-08-07 思睿逻辑国际半导体有限公司 话音命令触发的语音增强
CN110070880A (zh) * 2016-01-14 2019-07-30 深圳市韶音科技有限公司 用于分类的联合统计模型的建立方法及应用方法
CN105632512A (zh) * 2016-01-14 2016-06-01 华南理工大学 一种基于统计模型的双传感器语音增强方法与装置
CN110070883B (zh) * 2016-01-14 2023-07-28 深圳市韶音科技有限公司 语音增强方法
CN110085250B (zh) * 2016-01-14 2023-07-28 深圳市韶音科技有限公司 气导噪声统计模型的建立方法及应用方法
CN110070880B (zh) * 2016-01-14 2023-07-28 深圳市韶音科技有限公司 用于分类的联合统计模型的建立方法及应用方法
CN110070883A (zh) * 2016-01-14 2019-07-30 深圳市韶音科技有限公司 语音增强方法
CN110085250A (zh) * 2016-01-14 2019-08-02 深圳市韶音科技有限公司 气导噪声统计模型的建立方法及应用方法
CN110010149B (zh) * 2016-01-14 2023-07-28 深圳市韶音科技有限公司 基于统计模型的双传感器语音增强方法
CN110010149A (zh) * 2016-01-14 2019-07-12 深圳市韶音科技有限公司 基于统计模型的双传感器语音增强方法
WO2018082315A1 (zh) * 2016-11-03 2018-05-11 北京金锐德路科技有限公司 一种音频播放方法、系统和装置
CN108475512A (zh) * 2016-11-03 2018-08-31 北京金锐德路科技有限公司 一种音频播放方法、系统和装置
CN108475512B (zh) * 2016-11-03 2023-06-13 北京金锐德路科技有限公司 一种音频播放方法、系统和装置
WO2019128140A1 (zh) * 2017-12-28 2019-07-04 科大讯飞股份有限公司 一种语音降噪方法、装置、服务器及存储介质
US11064296B2 (en) 2017-12-28 2021-07-13 Iflytek Co., Ltd. Voice denoising method and apparatus, server and storage medium
CN110556097A (zh) * 2018-06-01 2019-12-10 声音猎手公司 定制声学模型
CN110556097B (zh) * 2018-06-01 2023-10-13 声音猎手公司 定制声学模型
WO2021012403A1 (zh) * 2019-07-25 2021-01-28 华南理工大学 一种双传感器语音增强方法及实现装置
US11902759B2 (en) 2019-09-12 2024-02-13 Shenzhen Shokz Co., Ltd. Systems and methods for audio signal generation
CN111464918A (zh) * 2020-01-31 2020-07-28 美律电子(深圳)有限公司 耳机及耳机组
CN113808602A (zh) * 2021-01-29 2021-12-17 北京沃东天骏信息技术有限公司 语音增强方法、模型训练方法以及相关设备
WO2022193327A1 (zh) * 2021-03-19 2022-09-22 深圳市韶音科技有限公司 信号处理系统、方法、装置及存储介质

Similar Documents

Publication Publication Date Title
CN103208291A (zh) 一种可用于强噪声环境的语音增强方法及装置
CN103229238B (zh) 用于产生音频信号的系统和方法
CN105513605B (zh) 手机麦克风的语音增强系统和语音增强方法
US11024324B2 (en) Methods and devices for RNN-based noise reduction in real-time conferences
CN106710603B (zh) 利用线性麦克风阵列的语音识别方法及系统
US8880396B1 (en) Spectrum reconstruction for automatic speech recognition
CN111916101B (zh) 一种融合骨振动传感器和双麦克风信号的深度学习降噪方法及系统
CN105489227A (zh) 包括低延时声源分离单元的听力装置
CN107993670A (zh) 基于统计模型的麦克风阵列语音增强方法
CN105632512B (zh) 一种基于统计模型的双传感器语音增强方法与装置
CN106328156A (zh) 一种音视频信息融合的麦克风阵列语音增强系统及方法
CN108109617A (zh) 一种远距离拾音方法
CN106373589B (zh) 一种基于迭代结构的双耳混合语音分离方法
CN101625869B (zh) 一种基于小波包能量的非空气传导语音增强方法
CN105741849A (zh) 数字助听器中融合相位估计与人耳听觉特性的语音增强方法
CN105448302B (zh) 一种环境自适应的语音混响消除方法和系统
CN102164328A (zh) 一种用于家庭环境的基于传声器阵列的音频输入系统
CN203165457U (zh) 一种可用于强噪声环境的语音采集装置
CN103021405A (zh) 基于music和调制谱滤波的语音信号动态特征提取方法
CN111583936A (zh) 一种智能语音电梯控制方法及装置
CN111312275B (zh) 一种基于子带分解的在线声源分离增强系统
Chun et al. Drone noise reduction using deep convolutional autoencoder for UAV acoustic sensor networks
Ganguly et al. Real-time smartphone application for improving spatial awareness of hearing assistive devices
WO2021012403A1 (zh) 一种双传感器语音增强方法及实现装置
CN103890843B (zh) 信号噪声衰减

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20130717