CN106030705A - 用于基于说话者词典的语音建模的系统和方法 - Google Patents
用于基于说话者词典的语音建模的系统和方法 Download PDFInfo
- Publication number
- CN106030705A CN106030705A CN201580010366.XA CN201580010366A CN106030705A CN 106030705 A CN106030705 A CN 106030705A CN 201580010366 A CN201580010366 A CN 201580010366A CN 106030705 A CN106030705 A CN 106030705A
- Authority
- CN
- China
- Prior art keywords
- dictionary
- noise
- voice signal
- phonetic
- voice
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 115
- 238000009434 installation Methods 0.000 claims description 103
- 238000001228 spectrum Methods 0.000 claims description 54
- 230000000694 effects Effects 0.000 claims description 43
- 230000000452 restraining effect Effects 0.000 claims description 16
- 238000004891 communication Methods 0.000 claims description 15
- 239000011159 matrix material Substances 0.000 claims description 10
- 230000004913 activation Effects 0.000 claims description 9
- 238000004590 computer program Methods 0.000 claims description 7
- 230000002829 reductive effect Effects 0.000 claims description 6
- 239000011295 pitch Substances 0.000 description 83
- 230000006870 function Effects 0.000 description 37
- 238000010586 diagram Methods 0.000 description 26
- 230000001629 suppression Effects 0.000 description 26
- 238000001914 filtration Methods 0.000 description 22
- 230000008569 process Effects 0.000 description 21
- 238000000926 separation method Methods 0.000 description 18
- 238000012549 training Methods 0.000 description 15
- 230000005611 electricity Effects 0.000 description 9
- 230000001755 vocal effect Effects 0.000 description 9
- 230000008859 change Effects 0.000 description 6
- 230000005236 sound signal Effects 0.000 description 6
- 230000009471 action Effects 0.000 description 5
- 239000000203 mixture Substances 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 4
- 230000003584 silencer Effects 0.000 description 4
- 238000012937 correction Methods 0.000 description 3
- 230000002708 enhancing effect Effects 0.000 description 3
- 230000009467 reduction Effects 0.000 description 3
- 230000003068 static effect Effects 0.000 description 3
- 230000001413 cellular effect Effects 0.000 description 2
- 238000004140 cleaning Methods 0.000 description 2
- 230000008878 coupling Effects 0.000 description 2
- 238000010168 coupling process Methods 0.000 description 2
- 238000005859 coupling reaction Methods 0.000 description 2
- 239000000835 fiber Substances 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000036961 partial effect Effects 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 241001269238 Data Species 0.000 description 1
- 230000003321 amplification Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000000712 assembly Effects 0.000 description 1
- 238000000429 assembly Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 239000011469 building brick Substances 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000002860 competitive effect Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000000593 degrading effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000009432 framing Methods 0.000 description 1
- 230000001771 impaired effect Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000003199 nucleic acid amplification method Methods 0.000 description 1
- 230000008439 repair process Effects 0.000 description 1
- 230000033764 rhythmic process Effects 0.000 description 1
- 230000017105 transposition Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/20—Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
- G10L21/028—Voice signal separating using properties of sound source
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Artificial Intelligence (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
本发明描述一种用于通过电子装置进行语音建模的方法。所述方法包含基于有噪声的语音信号获得实时噪声参考。所述方法还包含基于所述实时噪声参考获得实时噪声词典。所述方法进一步包含获得第一语音词典和第二语音词典。所述方法另外包含在第一建模阶段基于所述实时噪声词典和所述第一语音词典减少残余噪声以产生残余噪声受抑制的语音信号。所述方法还包含在第二建模阶段基于所述残余噪声受抑制的语音信号和所述第二语音词典产生经重建语音信号。
Description
相关申请案
本申请案与2014年2月27日申请的第61/945,691号美国临时专利申请案“用于基于说话者词典的语音建模的系统和方法(SYSTEMS AND METHODS FOR SPEAKER DICTIONARYBASED SPEECH MODELING)”相关,并主张其优先权。
技术领域
本发明大体上涉及电子装置。更确切地说,本发明涉及用于基于说话者词典的语音建模的系统和方法。
背景技术
在最近几十年中,电子装置的使用已变得普遍。明确地说,电子技术中的进步已减少了越来越复杂且有用的电子装置的成本。成本降低和消费者需求已使电子装置的使用剧增,使得其在现代社会中几乎随处可见。
由于电子装置的使用已推广开来,因此具有对电子装置的新的且改进的特征的需求。更确切地说,常常寻求执行新功能和/或提供较高质量输出的电子装置。
一些电子装置利用音频信号。举例来说,智能电话可俘获和处理语音信号。然而,音频信号可在一些情况下包含显著噪声,这可使语音信号的质量降级。如由此论述可观察到,改进音频信号的系统和方法可为有益的。
发明内容
本发明描述一种用于通过电子装置进行语音建模的方法。所述方法包含基于有噪声的语音信号获得实时噪声参考。所述方法还包含基于实时噪声参考获得实时噪声词典。所述方法进一步包含获得第一语音词典和第二语音词典。所述方法另外包含在第一建模阶段基于实时噪声词典和第一语音词典减少残余噪声以产生残余噪声受抑制的语音信号。所述方法还包含在第二建模阶段基于残余噪声受抑制的语音信号和第二语音词典产生经重建语音信号。所述方法可包含基于重建误差从经重建语音信号和残余噪声受抑制的语音信号选择输出语音信号。
第一建模阶段可基于非负矩阵因子分解(NMF)。第二建模阶段可基于非负矩阵因子分解(NMF)。
减少残余噪声可包含修正包括第一语音词典和实时噪声词典的语音和噪声词典。减少残余噪声还可包含初始化激活系数和更新激活系数直至收敛。
减少残余噪声可包含基于第一语音词典、实时噪声词典、经调适语音激活系数和经调适噪声激活系数创建滤波器。减少残余噪声还可包含基于滤波器和预增强输入估计残余噪声受抑制的语音信号。
产生经重建语音信号可包含修正子带音高特定词典和更新激活系数直至收敛。产生经重建语音信号还可包含基于音高特定词典和激活系数产生经重建语音信号。
所述方法可包含基于音高从说话者特定词典确定音高特定词典。所述方法还可包含基于逐频段信噪比(SNR)从音高特定词典确定子带音高特定词典。
第一语音词典和第二语音词典可基于说话者特定语音词典。获得第一语音词典可包含初始化多个激活系数和语音基函数。获得第一语音词典还可包含更新参数直至收敛。
获得第二语音词典可包含估计多个说话者特定语音量值频谱的谐波性和音高。获得第二语音词典还可包含从说话者特定语音量值频谱选择具有高于谐波性阈值的对应谐波性的语音频谱。获得第二语音词典可进一步包含用对应音高标记选定语音频谱中的每一者。
还描述一种用于语音建模的电子装置。所述电子装置包含处理器和与所述处理器进行电子通信的存储器。所述电子装置还包含存储于存储器中的指令。所述指令可执行以基于有噪声的语音信号获得实时噪声参考。所述指令还可执行以基于实时噪声参考获得实时噪声词典。所述指令进一步可执行以获得第一语音词典和第二语音词典。所述指令另外可执行以在第一建模阶段基于实时噪声词典和第一语音词典减小残余噪声以产生残余噪声受抑制的语音信号。所述指令还可执行以在第二建模阶段基于残余噪声受抑制的语音信号和第二语音词典产生经重建语音信号。
还描述一种用于语音建模的计算机程序产品。计算机程序产品包含具有指令的非暂时性有形计算机可读媒体。所述指令包含用于致使电子装置基于有噪声的语音信号获得实时噪声参考的代码。所述指令还包含用于致使电子装置基于实时噪声参考获得实时噪声词典的代码。所述指令进一步包含用于致使电子装置获得第一语音词典和第二语音词典的代码。所述指令另外包含用于致使电子装置在第一建模阶段基于实时噪声词典和第一语音词典减小残余噪声以产生残余噪声受抑制的语音信号的代码。所述指令还包含用于致使电子装置在第二建模阶段基于残余噪声受抑制的语音信号和第二语音词典产生经重建语音信号的代码。
还描述一种用于语音建模的设备。所述设备包含用于基于有噪声的语音信号获得实时噪声参考的装置。所述设备还包含用于基于实时噪声参考获得实时噪声词典的装置。所述设备进一步包含用于获得第一语音词典和第二语音词典的装置。所述设备另外包含用于在第一建模阶段基于实时噪声词典和第一语音词典减少残余噪声以产生残余噪声受抑制的语音信号的装置。所述设备还包含用于在第二建模阶段基于残余噪声受抑制的语音信号和第二语音词典产生经重建语音信号的装置。
附图说明
图1为说明其中可实施用于基于说话者词典的语音建模的系统和方法的电子装置的一个配置的框图;
图2为说明用于语音建模的方法的一个配置的流程图;
图3为说明本文中所揭示的系统和方法的一些配置的较具体概述的功能框图;
图4为说明其中可实施用于基于说话者词典的语音建模的系统和方法的电子装置的另一配置的框图;
图5为说明用于语音建模的方法的另一配置的流程图;
图6为说明有噪声的语音信号的一个实例的曲线;
图7为说明噪声受抑制的语音信号的一个实例的曲线;
图8为说明根据本文中所揭示的系统和方法在第一建模阶段处理之后信号的一个实例的曲线;
图9为说明根据本文中所揭示的系统和方法在第二建模阶段处理之后信号的一个实例的曲线;
图10为说明本文中所揭示的系统和方法的一些配置的概述的一个实例的框图;
图11为说明具有钢琴和长笛音频的基于受监督非负矩阵因子分解(NMF)的音频源分离的一个实例的图;
图12为说明本文中所揭示的系统和方法的较具体配置的功能框图;
图13为说明用于第一建模阶段语音建模的词典学习的较具体实例的框图;
图14为说明用于第一建模阶段语音建模的词典的一个实例的曲线;
图15为说明用于第二建模阶段语音建模的词典学习的较具体实例的框图;
图16为说明用于第二建模阶段语音建模的词典的一个实例的曲线;
图17为说明第一建模阶段NMF维纳滤波的概述的较具体实例的框图;
图18为说明预处理的一个实例的框图;
图19为说明第一建模阶段语音/噪声分离的一个实例的框图;
图20为说明第一建模阶段维纳滤波重建的一个实例的框图;
图21为说明第二建模阶段NMF语音建模的较具体实例的框图;
图22为说明其中可实施用于基于说话者词典的建模的系统和方法的无线通信装置的一个配置的框图;以及
图23说明可以包含在电子装置内的某些组件。
具体实施方式
本文中所揭示的系统和方法涉及基于说话者词典的语音建模。噪声抑制是当今大多数通信装置的一体式组件。许多第一和第二产生系统允许有效地在各种程度减少噪声功率。然而,所得语音输出可归因于侵略性调谐而在过程中受损。此外,残余噪声可归因于噪声建模中的失配而仍然存在。更确切地说,语音增强系统的一些问题给定如下。噪声受抑制的语音输出可包含归因于从空间滤波对噪声参考的估计不足造成的在感知上显著的残余噪声。另外,语音输出可归因于低子带信号与噪声比率(SNR)而遭受子带中损坏的语音包络。相应地,需要预测任何说话者的洁净语音,而无关于输入空间信息、噪声条件和/或麦克风放置。
本文中所描述的系统和方法的一些配置可试图产生近似(例如尽可能接近)洁净语音的输出语音。举例来说,本文中所揭示的系统和方法的一些配置利用针对给定说话者已经习得的语音词典中编码的显式语音模型以及噪声模型对来自典型噪声抑制系统的内容输出进行建模。用于这些模型的激活系数可在第一建模(例如非负矩阵因子分解(NMF))阶段习得以将任何残余噪声与(例如,噪声抑制器)的输出分离。
在第二建模阶段,可习得用于经改良语音模型的激活系数以复原由噪声抑制(NS)系统损坏的语音包络。最终输出可主要含有语音要素且可具有接近洁净语音的话音色彩。
本文中所揭示的系统和方法的一些配置可包含以下各者中的一或多者。噪声和/或语音数据可使用基于词典的方法建模。可习得说话者特定语音词典。可采用利用非负矩阵因子分解(NMF)的二步基于词典的语音/噪声建模。举例来说,第一建模阶段可包含基于NMF的维纳滤波以移除残余噪声。第二建模阶段可包含基于NMF的包络重建以维持洁净语音包络。
本文中所揭示的系统和方法的优点可包含以下各者中的一或多者。可有效滤除极非静止噪声。可精确区分噪声和语音谐波结构。可维持说话者的洁净浊音语音包络。可保留说话者特定语音特性。
现在参考图式描述各种配置,其中相同的参考标号可以指示功能上相似的元件。可以广泛多种不同配置来布置和设计如本文中在各图中大体描述和说明的系统和方法。因此,对如各图中所表示的若干配置的以下更详细描述并不希望限制如所主张的范围,而仅表示系统和方法。
图1为说明其中可实施用于基于说话者词典的语音建模的系统和方法的电子装置102的一个配置的框图。电子装置102的实例包含智能电话、蜂窝式电话、话音记录器、数码相机、平板计算机装置、膝上型计算机、台式计算机、视频相机、陆线电话等。
电子装置102可包含实时噪声参考确定模块106、实时噪声词典确定模块110、残余噪声减少模块116和重建模块122中的一或多者。如本文所使用,“模块”可在硬件(例如电路)或硬件与软件的组合中实施。应注意,结合图1描述的模块中的一或多者可为任选的。此外,所述模块中的一或多者可在一些配置中组合或划分。结合图1描述的功能、程序、参数、值和/或结构中的一或多者的较具体实例可结合图2-5、10、12-13、15和17-21中的一或多者给定。
电子装置102可获得有噪声的语音信号104。举例来说,电子装置102可使用一或多个麦克风俘获有噪声的语音信号104。另外或替代地,电子装置102可从另一装置(例如无线耳机、另一装置等)接收有噪声的语音信号104。有噪声的语音信号104可包含语音和噪声。噪声可为干扰所要语音声音的任何声音和/或除所要语音声音外的任何声音。噪声的实例包含背景噪声、竞争性说话者、风噪声、音乐噪声、多路重合噪声、静止噪声和/或非静止噪声等。在某些状况下,有噪声的语音信号104可包含例如一或多个浊音部分、非浊音部分、静默部分、仅噪声部分和/或仅语音部分。在一些配置中,有噪声的语音信号104可划分成帧(和任选地子帧),其中帧为在时间上有噪声的语音信号104的一部分。有噪声的语音信号104(或基于有噪声的语音信号104的信号)可提供到实时噪声参考确定模块106。
实时噪声参考确定模块106可基于有噪声的语音信号104获得实时噪声参考108。举例来说,实时噪声参考确定模块106可产生表示有噪声的语音信号104中的噪声的信号。在一些配置中,实时噪声参考确定模块106可为噪声抑制器,可包含在噪声抑制器内和/或可结合噪声抑制器利用。结合图18给定用于获得实时噪声参考108的方法的较具体实例。实时噪声参考108可提供到实时噪声词典确定模块110。
实时噪声词典确定模块110可基于实时噪声参考108获得实时噪声词典112。举例来说,实时噪声词典确定模块110可确定表示实时噪声参考108的一或多个特性(例如频率、量值、相位等)的一或多个基函数。实时噪声词典112可包含这些基函数。结合图18给定用于获得实时噪声词典112的方法的较具体实例。实时噪声词典112可提供到残余噪声减少模块116。
电子装置102可获得第一语音词典114。举例来说,第一语音词典114可由电子装置102产生或可从另一电子装置接收。在一些配置中,电子装置102可基于语音样本产生第一语音词典114。举例来说,电子装置102可收集和/或接收洁净语音信号(例如,具有高SNR和/或无噪声的语音信号)。这些洁净语音信号可“离线”俘获,例如在SNR为高的电话呼叫期间、在检测到极少噪声或无噪声时、在校准程序期间、在训练程序期间,等等。另外或替代地,电子装置102可在满足一或多个条件时(例如,在所俘获语音展现高于阈值的SNR时)选择特定语音信号作为洁净语音信号。另外或替代地,洁净语音信号可由另一装置俘获且发射到电子装置102。在一些配置中,可仅使用洁净语音信号产生第一语音词典114。在其它配置中,可通过根据洁净语音信号调适通用语音模型来产生第一语音词典114。
在一些配置中,第一语音词典114可为低等级语音词典。举例来说,低等级语音词典可为粗略地对特定用户的语音特性建模的语音词典。在一些配置中,可经由基于NMF的语音词典学习习得低等级语音词典。举例来说,获得第一语音词典114可包含初始化一或多个激活系数和/或语音基函数,以及更新参数直至收敛。第一语音词典114可因其大小的缘故而为“低等级”的。举例来说,第一语音词典114的大小可相对较小和/或可具有词典中相对较少数目的线性独立要素(其可例如根据基于NMF的方法习得)。相应地,习得的第一语音词典114可为“低等级”的。在一些配置中,第一语音词典114的大小可较小和/或与第二语音词典120相比和/或相对于第二语音词典120可具有较少线性独立要素。
第一语音词典可为说话者特定的。举例来说,第一语音词典114可对应于单一用户和/或可表征单一用户的语音。应注意,可产生和/或接收多个第一语音词典114,其中第一语音词典114中的每一者对应于不同用户。结合图13描述获得(例如确定、学习等)第一语音词典114的方法的一个实例,且结合图14描述第一语音词典的一个实例。第一语音词典114可提供到残余噪声减少模块116。
残余噪声减少模块116可基于实时噪声词典112和第一语音词典114减少残余噪声。残余噪声可为音频信号中剩余的噪声。举例来说,残余噪声可为已对有噪声的语音信号104执行噪声抑制之后保持的噪声。残余噪声减少模块116可从噪声受抑制的语音信号减少和/或移除此残余噪声。应注意,可在第一建模阶段126内或作为第一建模阶段126的一部分执行减少残余噪声。举例来说,第一建模阶段126可为基于NMF的语音和/或噪声建模的阶段。减少残余噪声可产生残余噪声受抑制的语音信号118。举例来说,残余噪声受抑制的语音信号可为具有极少噪声剩余(如果存在的话)的洁净语音信号。然而,残余噪声受抑制的语音信号中的语音可例如归因于残余噪声抑制(以及初始噪声抑制)而损坏。残余噪声受抑制的语音信号118可提供到重建模块122。
电子装置102可获得第二语音词典120。举例来说,第二语音词典120可由电子装置102产生或可从另一电子装置接收。在一些配置中,电子装置102可基于语音样本产生第二语音词典120。举例来说,电子装置102可收集洁净语音信号(例如具有高SNR和/或无噪声的语音信号)。这些洁净语音信号可“离线”俘获,例如在SNR为高的电话呼叫期间、在检测到极少噪声或无噪声时、在校准程序期间等等。在一些配置中,第二语音词典120可仅使用洁净语音信号产生。在其它配置中,第二语音词典120可通过根据洁净语音信号调适通用语音模型来产生。在一些配置中,用于产生第一语音词典114的相同洁净语音也可用于产生第二语音词典120。在一些配置中,第二语音词典120可比第一语音词典114更精细地表征特定说话者的语音。
第二语音词典可为说话者特定的。举例来说,第二语音词典120可对应于单一用户和/或可表征单一用户的语音。应注意,可产生和/或接收多个第二语音词典120,其中第二语音词典120中的每一者对应于不同用户。结合图15描述获得(例如确定、学习等)第二语音词典120的方法的一个实例,且结合图16描述第二语音词典的一个实例。第二语音词典120可提供到重建模块122。
重建模块122可基于残余噪声受抑制的语音信号118和第二语音词典120产生经重建语音信号124。举例来说,重建模块122可重建语音频谱的被损坏部分。应注意,可在第二建模阶段128内或作为第二建模阶段128的一部分执行产生经重建语音信号124。举例来说,第二建模阶段128可为基于NMF的语音建模的阶段。
在一些配置中,电子装置102可编码、发射存储和/或重放经重建语音信号124和/或残余噪声受抑制的语音信号118。举例来说,电子装置102可编码经重建语音信号124或残余噪声受抑制的语音信号118,且将其发射到另一电子装置(例如蜂窝式电话、智能电话、计算机、游戏控制台等)。另外或替代地,电子装置102可重放经重建语音信号124或残余噪声受抑制的语音信号118。此可通过将信号提供到一或多个扬声器来实现。另外或替代地,电子装置102可存储经重建语音信号124或残余噪声受抑制的语音信号118。
图2为说明用于语音建模的方法200的一个配置的流程图。方法200可由结合图1描述的电子装置102执行。电子装置102可基于有噪声的语音信号104获得202实时噪声参考。此可(举例来说)如上文结合图1所描述来实现。
电子装置102可基于实时噪声参考108获得204实时噪声词典112。此可(举例来说)如上文结合图1所描述来实现。
电子装置102可获得206第一语音词典114和第二语音词典120。此可(举例来说)如上文结合图1所描述来实现。
电子装置102可基于实时噪声词典112和第一语音词典114减少208残余噪声以产生残余噪声受抑制的语音信号118。此可(举例来说)如上文结合图1所描述来实现。减少208残余噪声可在第一建模阶段126执行。第一建模阶段126可基于NMF。在一些配置中,减少208残余噪声可包含修正包含第一语音词典114和实时噪声词典的语音和噪声词典、初始化激活系数和/或更新激活系数直至收敛(例如,利用最大数目的迭代)。另外或替代地,减少208残余噪声可包含基于第一语音词典、实时噪声词典、经调适语音激活系数和/或经调适噪声激活系数创建滤波器。减少208残余噪声可进一步包含基于滤波器和预增强输入估计残余噪声受抑制的语音信号。
电子装置102可基于残余噪声受抑制的语音信号和第二语音词典产生210经重建语音信号。此可(举例来说)如结合图1所描述来实现。产生210经重建语音信号可在第二建模阶段128执行。第二建模阶段128可基于NMF。在一些配置中,产生210经重建语音信号可包含修正子带音高特定词典、更新激活系数直至收敛和/或基于音高特定词典(例如全子带音高特定词典)和激活系数产生经重建语音信号124。
图3为说明本文中所揭示的系统和方法的一些配置的较具体概述的功能框图。结合图3描述的功能、程序、参数、值和/或结构中的一或多者可为结合图1-2中的一或多者描述的功能、程序、参数、值和/或结构中的一或多者的实例。明确地说,图3说明噪声抑制模块352、说话者辨识模块334、预处理模块330、语音词典选择模块336、离线词典学习模块348、基于NMF的语音/噪声建模模块340和信号选择模块344。
所述概述的更详细阐释提供如下。输入304(例如有噪声的语音信号)可提供到噪声抑制模块352和说话者辨识模块334。噪声抑制模块352可对输入304(例如有噪声的语音信号)执行噪声抑制。在一些配置中,噪声抑制模块352可基于多个输入304信道(例如多个麦克风信道)执行噪声抑制。举例来说,噪声抑制模块352可抑制输入304中的静止和/或非静止噪声。在一个实例中,噪声抑制模块352可确定噪声抑制输出量值。噪声抑制输出量值可提供到预处理模块330。
预处理模块330可获得实时噪声参考。举例来说,预处理模块330可基于输入304的初级信道和噪声抑制输出量值获得实时噪声参考。预处理模块330可基于输入304的初级信道和实时噪声参考产生预增强输入332(例如Xpre)。另外,预处理模块330可基于实时噪声参考在线获得实时噪声词典312(例如Wn)。结合图18描述噪声抑制和预处理的较具体实例。预增强输入332和实时噪声词典312可提供到基于NMF的语音/噪声建模模块340。
说话者辨识模块334可执行说话者辨识。举例来说,说话者辨识模块334可基于输入304和噪声抑制模块352输出辨识一或多个说话者的话音(例如主要说话者的话音)。举例来说,说话者辨识模块334可试图将输入304和/或噪声抑制模块352输出的一或多个特性(例如频谱包络、共振峰峰值、音高等)与一或多个已知说话者简档匹配。如果说话者经辨识,那么说话者辨识模块334可将说话者识别的指示符提供到语音词典选择模块336。如果说话者辨识模块334并未辨识说话者,那么说话者辨识模块334可指示输入304并不与任何已知(例如所记录)说话者匹配。
关于离线词典学习模块348,说话者词典数据库350可用通用说话者词典初始化。离线词典学习模块348可在满足条件时(例如当(举例来说)输入语音的SNR测量值高于SNR阈值时)学习特定说话者的语音词典。
语音词典选择模块336可获得用于第一建模阶段语音建模的第一语音词典314(例如Ws1)。举例来说,语音词典选择模块336可基于经识别的说话者(如果存在)从说话者词典数据库350检索第一语音词典314。语音词典选择模块336(例如说话者特定语音词典选择模块336)还可选择用于第二建模阶段语音建模的第二语音词典320(例如Ws2)。举例来说,语音词典选择模块336可基于经识别的说话者(如果存在)从说话者词典数据库350检索第二语音词典320。在一些配置中,第二语音词典320可为用于第二建模阶段语音建模的包络-音高特定词典。如图3中所说明,第一语音词典314和第二语音词典320可各自基于一些配置中的说话者特定语音词典338(例如,是其子集)。第一语音词典314和第二语音词典320可提供到基于NMF的语音/噪声建模模块340。
基于NMF的语音/噪声建模模块340可减少(例如移除)残余噪声且产生经重建语音信号324。减少残余噪声可在第一建模阶段326执行,且产生经重建语音信号324可在第二建模阶段328执行。
第一建模阶段326可包含基于NMF的维纳滤波。举例来说,对于给定训练语音/噪声词典(例如W=[Ws1,Wn]),基于NMF的语音/噪声建模模块340可将有噪声的语音频谱的每一帧建模为X≈WH。H=[Hs,Hn]可表示每一词典的激活权重(其中Hs是第一语音词典激活权重,且Hn是实时噪声词典激活权重)。基于NMF的语音/噪声建模模块340可使用维纳滤波方法(例如Xwf=Ms·×Xpre,其中·×为逐要素乘法)产生残余噪声受抑制的语音信号318(例如Xwf)。
在一些配置中,基于NMF的语音/噪声建模模块340可在第二建模阶段328执行基于NMF的包络重建,如下。对于给定第二语音词典320Ws2(例如说话者特定语音词典),基于NMF的语音/噪声建模模块340可对高SNR子带语音频谱建模以产生经重建语音信号324(例如经重建全频带语音Xrc=Ws2H)。
残余噪声受抑制的语音信号318和经重建语音信号324可任选地提供到信号选择模块344。信号选择模块344可基于重建误差342选择残余噪声受抑制的语音信号318和经重建语音信号324中的一者作为输出346(例如输出语音信号)。举例来说,如果重建误差342(例如,dIS(X|WH)、dIS或d)为高(例如大于阈值),那么可选择残余噪声受抑制的语音信号318(例如维纳滤波输出Xwf)作为输出346(例如,Xout、输出语音信号等)。举例来说,另外,如果重建误差342dIS(X|WH)为高(例如大于相同或不同阈值),那么基于NMF的语音/噪声建模模块340可激活离线词典学习模块348以进一步训练语音词典和/或训练一或多个额外语音词典。
离线词典学习模块348可执行用于第一建模阶段326和/或用于第二建模阶段328的词典学习和/或训练。结合图13-16提供词典学习和/或训练的更详细实例。
在一些配置中,所述系统和方法可根据以下原理中的一或多者操作。第一建模阶段326处理可在应用后滤波器之前使用NMF程序来获得和/或从噪声分离语音分量。实时噪声参考可与预定义语音词典(例如第一语音词典314)一起利用。举例来说,可获得实时噪声参考和语音词典,其可在例如NMF等匹配追踪的上下文中一起使用。
在一些配置中,可基于以下假设每频段获得后滤波器增益:可通过从所述频段中的输入功率减去噪声功率来估计语音功率。然而,根据本文中所揭示的系统和方法的一些配置,可习得子带以用给定训练数据尽可能好地阐释(例如描述、表示等)目标说话者,且在应用后滤波器之前基于较正确地估计的语音功率和噪声功率估计和/或从噪声分离语音。此方法可成功,因为其利用极其准确的实时噪声参考频谱,且利用良好训练的目标说话者的语音词典,可比在较简单常规方法中更好地估计和/或分离语音频谱。应注意,为用有限大小(例如量)的训练数据构造完整语音频谱词典,一些子带原子可组合以阐释(例如描述、表示等)所有训练数据。理论上,如果几乎无限数目的基函数和/或原子被获得和/或可用于所述词典,那么用户的频谱的几乎每一快照可用于所有不同种类的发声、音高、韵律等。然而,除非用某种方式在一些约束下将大小减小到合理的水平,否则此可能较困难。
第二建模阶段328处理可对于重建包络较适合。因为第一语音词典314(其可在第一建模阶段326应用)和/或原子可归因于有限训练数据大小而在一些频率范围中本地化,所以如果一些频带由噪声主导且如果不存在足够宽以不仅覆盖那些频带而且覆盖语音主导频带的语音原子,那么可能难以复原所述频带(如(举例来说)常规后滤波方法中)。然而,应注意,可仍存在复原语音的较好机率(与常规方法中相比),只要存在用于目标说话者词典的足够的语音主导频段。相应地,可利用覆盖宽得多的范围的词典。频谱快照可为有益的,因为其覆盖整个频谱。
相应地,在第二建模阶段328处理中,可能有益的是利用频谱快照,具有一些合理的约束(例如音高和/或可能共振峰结构)。第一建模阶段326输出(例如残余噪声受抑制的语音信号318)可在估计用于约束的此些特征方面极其有帮助。在一些配置中,可仅提取对应于所估计音高和/或共振峰结构等的频谱快照。这些可利用为词典(例如音高特定词典)来估计和/或从噪声分离语音。利用这些约束,词典可为合理的大小,且NMF或任何恰当匹配追踪算法可在对于存储器和计算具有少得多的关注的情况下应用,且仍可复原目标说话者的语音的包络。相应地,本文中所揭示的系统和方法可提供一种基于前述约束具有合理的词典大小以及较宽频谱覆盖度和合理的复杂性及存储器大小且基于词典恢复包络的新颖方式。
在一些配置中,一或多个方法可包含以下步骤中的一或多者:获得语音词典(例如第一语音词典314);执行第一建模阶段326处理,其包含基于实时噪声参考和语音词典(例如第一语音词典314)执行匹配追踪(例如NMF)以从有噪声的信号获得语音分量;应用后滤波器;获得具有一或多个约束的另一语音词典(例如第二语音词典320);以及执行第二建模阶段328处理,其包含执行匹配追踪(例如NMF)以复原语音包络。所述系统和方法可另外提供具有执行以上程序中的一或多者的组件(例如电路)的电子装置、具有致使电子装置执行以上程序中的一或多者的指令的计算机可读媒体和/或具有用于执行以上程序中的一或多者的装置的设备。
图4为说明其中可实施用于基于说话者词典的语音建模的系统和方法的电子装置402的另一配置的框图。结合图4描述的电子装置402可为结合图1描述的电子装置102的一个实例。
电子装置402可包含以下中的一或多者:实时噪声参考确定模块406、实时噪声词典确定模块410、第一语音词典产生模块452、残余噪声减少模块416、音高确定模块456、第二语音词典产生模块454、音高特定词典确定模块458、子带确定模块462、子带音高特定词典确定模块460和语音建模和重建模块464。实时噪声参考确定模块406、实时噪声词典确定模块410和残余噪声减少模块416可为结合图1描述的对应组件的实例。
在一些配置中,音高确定模块456、音高特定词典确定模块458、子带确定模块462、子带音高特定词典确定模块460和语音建模和重建模块464可包含在结合图1描述的重建模块122内。应注意,结合图4描述的模块中的一或多者可为任选的。此外,所述模块中的一或多者可在一些配置中组合或划分。结合图4描述的功能、程序、参数、值和/或结构中的一或多者的较具体实例可结合图5、10、12-13、15和17-21中的一或多者给定。
电子装置402可获得有噪声的语音信号404。此可如结合图1所描述来实现。有噪声的语音信号404(或基于有噪声的语音信号404的信号)可提供到实时噪声参考确定模块406。
实时噪声参考确定模块406可基于有噪声的语音信号404获得实时噪声参考408。此可如结合图1所描述来实现。结合图18给定用于获得实时噪声参考408的方法的较具体实例。实时噪声参考408可提供到实时噪声词典确定模块410。
实时噪声词典确定模块410可基于实时噪声参考408获得实时噪声词典412。此可如结合图1所描述来实现。结合图18给定用于获得实时噪声词典412的方法的较具体实例。实时噪声词典412可提供到残余噪声减少模块416。
第一语音词典产生模块452可获得第一语音词典414。举例来说,第一语音词典产生模块452可构建和/或训练对一或多个说话者(例如用户)的语音建模的第一词典(例如一组基函数)。可如结合图1所描述实现产生第一语音词典414。第一语音词典产生模块452可另外或替代地选择对应于当前用户的第一语音词典414。
结合图13描述获得(例如确定、学习、产生等)第一语音词典414的方法的一个实例,且结合图14描述第一语音词典的一个实例。第一语音词典414可提供到残余噪声减少模块416。
残余噪声减少模块416可基于实时噪声词典412和第一语音词典414减少残余噪声。此可如结合图1所描述来实现。残余噪声受抑制的语音信号418可提供到子带确定模块462和/或音高确定模块456。
音高确定模块456可基于残余噪声受抑制的语音信号418获得音高。举例来说,音高确定模块456可确定用于残余噪声受抑制的语音信号418的每一帧的音高。所确定的音高可为每一帧中的基本音高(例如基本音高演进)。结合图21描述音高确定模块456的实例。音高可提供到音高特定词典确定模块458。
在一些配置中,音高确定模块456可通过执行帧中的残余噪声受抑制的语音信号418的时域自相关且确定音高峰值之间的周期(例如样本的数目)来确定音高。另外或替代地,音高确定模块456可将残余噪声受抑制的语音信号418变换到频域,且确定发生最大峰值量值所处的频率。
在一些配置中,音高确定模块456可将残余噪声受抑制的信号418变换到频域,且确定基频如下。音高确定模块456可通过确定和/或移除非谐波峰值、相对于最大峰值来说较小(例如小于阈值)的峰值、具有低(例如小于阈值)音值的峰值、太接近较强峰值(例如在较强峰值的频率范围内)的峰值和/或从前一帧的非谐波峰值连续的峰值来确定基频。随后,音高确定模块456可执行谐波匹配以确定基频。举例来说,音高确定模块456可寻找具有剩余峰值(例如,fl)的基频,其中基频(例如,f0)为剩余峰值的一般化最大公约数(例如,fl/f0的分数部分,表示为{fl/f0}r,对于每一fl尽可能小)。举例来说,此可用于寻找在f0使每一{fl/f0}r在针对f0的给定范围内尽可能小的意义上与观察到的峰值频率{fl}最佳匹配的f0。表示谐波匹配频谱(例如经加权谐波匹配得分),其中此为由其振幅Al加权的峰值fl的谐波匹配得分的总和。在一些配置中,加权函数为其提供用于振幅的权重。g({fl/f0}r)表示谐波匹配量度,其可为例如此提供0与1之间的得分,其反映fl/f0与某一整数接近的程度。
第二语音词典产生模块454可获得(例如产生、构建和/或训练)对一或多个说话者(例如用户)的语音建模的第二语音词典420(例如一组基函数)。在一些配置中,产生第二语音词典420可如结合图1所描述来实现。在一些实例中,获得第二语音词典可包含估计多个说话者特定语音量值频谱的谐波性和音高。获得第二语音词典还可包含从说话者特定语音量值频谱选择具有高于谐波性阈值的对应谐波性的语音频谱。获得第二语音词典可进一步包含用对应音高标记选定语音频谱中的每一者。
第二语音词典产生模块454可另外或替代地选择对应于当前用户的第二语音词典420。获得(例如确定、学习等)第二语音词典420的方法的一个实例结合图15描述,且第二语音词典的一个实例结合图16描述。第二语音词典420可为说话者特定的音高包络特定语音词典。第二语音词典420可提供到音高特定词典确定模块458。
音高特定词典确定模块458可基于音高从说话者特定词典(例如第二语音词典420)确定音高特定词典。举例来说,音高特定词典确定模块458可基于音高从第二语音词典420选择基函数的子集以便确定音高特定词典。音高特定词典可提供到子带音高特定词典确定模块460且提供到语音建模和重建模块464。
子带确定模块462可基于残余噪声受抑制的语音信号418确定一或多个子带。举例来说,子带确定模块462可基于残余噪声受抑制的语音信号418选择子带(例如频段)。举例来说,子带确定模块462可仅选择残余噪声受抑制的语音信号418的展现高于阈值的SNR的一或多个子带。子带确定模块462的实例结合图21描述。所述一或多个子带可提供到子带音高特定词典确定模块460且提供到语音建模和重建模块464。
子带音高特定词典确定模块460可基于所述一或多个子带(例如逐频段信噪比(SNR))从音高特定词典确定子带音高特定词典。举例来说,子带音高特定词典确定模块460可基于子带从音高特定词典选择一或多个基函数以产生子带音高特定词典。子带音高特定词典可提供到语音建模和重建模块464。
语音建模和重建模块464可基于子带音高特定词典和所述子带产生经重建语音信号424。举例来说,语音建模和重建模块464可修正子带音高特定词典且更新激活系数直至收敛。语音建模和重建模块464还可基于音高特定词典和激活系数产生经重建语音信号。语音建模和重建模块464的实例结合图21描述。
在一些配置中,电子装置402可基于重建误差和一或多个阈值在残余噪声受抑制的语音信号418与经重建语音信号424之间进行选择。举例来说,电子装置402可在重建误差低于阈值的情况下选择经重建语音信号424。或者,电子装置402可在重建误差高于(例如大于或等于)阈值的情况下选择残余噪声受抑制的语音信号418。电子装置402可在一些配置中输出选定信号。
图5为说明用于语音建模的方法500的另一配置的流程图。电子装置402可基于有噪声的语音信号404获得502残余噪声受抑制的语音信号418。此可(举例来说)如上文结合图4所描述来实现。
电子装置402可基于残余噪声受抑制的语音信号418获得504音高。此可(举例来说)如上文结合图4所描述来实现。
电子装置402可获得506第二语音词典420。此可(举例来说)如上文结合图4所描述来实现。
电子装置402可基于音高从第二语音词典420确定508音高特定词典。此可(举例来说)如上文结合图4所描述来实现。
电子装置402可基于残余噪声受抑制的语音信号418确定510一或多个子带。此可(举例来说)如上文结合图4所描述来实现。
电子装置402可基于所述一或多个子带从音高特定词典确定512子带音高特定词典。此可(举例来说)如上文结合图4所描述来实现。
电子装置402可在重建误差低于阈值的情况下选择514经重建语音信号。此可(举例来说)如上文结合图4所描述来实现。
图6为说明有噪声的语音信号的一个实例的曲线。明确地说,所述曲线为频率(以赫兹(Hz)计)666随时间668(以小时、分钟和秒(hms)计,其中例如2:50:0表示2分钟50.0秒)的频谱图。在此实例中,有噪声的语音信号为在存在音乐噪声的情况下包含语音信号的初级信道输入。
图7为说明噪声受抑制的语音信号的一个实例的曲线。明确地说,所述曲线为频率(Hz)766随时间768的频谱图。在此实例中,噪声受抑制的信号为包含具有从音乐噪声剩余的一些残余噪声770的语音信号的去噪输出。图7进一步说明一些遗漏的谐波分音和损坏的语音包络772。举例来说,一些类型的噪声抑制存在的问题可包含残余噪声770、遗漏谐波分音和/或损坏的语音包络772。
图8为说明根据本文中所揭示的系统和方法的第一建模阶段处理之后信号的一个实例的曲线。明确地说,所述曲线为频率(Hz)866随时间868的频谱图。在此实例中,所述频谱图说明第一建模阶段NMF维纳滤波输出。图8对应于图6-7中给定的实例。明确地说,此频谱图说明根据本文中所揭示的系统和方法在噪声抑制和第一建模阶段处理之后从被音乐噪声损坏的语音信号获得的所得残余噪声受抑制的语音信号。如可观察到,残余噪声和隔离的噪声峰值已经减小和/或移除。
图9为说明根据本文中所揭示的系统和方法的第二建模阶段处理之后的信号的一个实例的曲线。明确地说,所述曲线为频率(Hz)966随时间968的频谱图。在此实例中,所述频谱图说明第二建模阶段NMF包络重建输出(例如经重建语音信号)。图9对应于图6-8中给定的实例。明确地说,此频谱图说明根据本文中所揭示的系统和方法在噪声抑制、第一建模阶段处理和第二建模阶段处理之后从被音乐噪声损坏的语音信号获得的所得经重建语音信号。如可观察到,谐波分音已经复原,且已维持洁净浊音语音包络。
图10为说明本文中所揭示的系统和方法的一些配置的概述的一个实例的框图。结合图10描述的功能、程序、参数、值和/或结构中的一或多者可为结合图1-5中的一或多者描述的功能、程序、参数、值和/或结构中的一或多者的实例。此对应可用类似项目标号指示。
在图10中说明的配置中,有噪声的语音信号1004提供到噪声抑制模块1052。噪声抑制模块1052可抑制如上文所描述的有噪声的语音信号1004中的噪声。在一些配置中,噪声抑制模块1052可产生实时经调适噪声参考信号1008(例如实时噪声参考)和/或噪声受抑制的语音量值频谱1032。举例来说,为了抑制有噪声的语音信号1004中的噪声,噪声抑制模块1052可实时确定噪声参考1008。噪声参考1008可为有噪声的语音信号1004中的噪声(例如噪声特性)的估计。实时经调适噪声参考信号1008可(由噪声词典模块1010)利用以获取噪声词典。噪声受抑制的语音信号的量值频谱1032可提供到基于NMF的语音/噪声建模模块1040。
所述噪声受抑制的语音信号可提供到声纹模块1034。声纹模块1034可执行说话者辨识。举例来说,声纹模块1034可基于来自语音信号的特性辨识一或多个说话者。声纹模块1034可为结合图3描述的说话者辨识模块334的一个实例。声纹模块1034可将说话者辨识信息提供到语音词典模块1036/噪声词典模块1010。
语音词典模块1036/噪声词典模块1010可基于说话者辨识信息选择一或多个说话者特定词典和/或可获取噪声词典。举例来说,说话者特定语音词典选择模块可基于说话者辨识信息选择第一词典和第二词典。举例来说,如果当前说话者经辨识,那么语音词典模块1036/噪声词典模块1010可选择对应于所述特定说话者的一或多个词典(例如,已经特定地训练以表示特定说话者的语音特性的词典)。然而,如果当前说话者未经辨识,那么语音词典模块1036/噪声词典模块1010可选择一或多个通用词典。
所述一或多个词典可选自说话者特定词典数据库1050。举例来说,电子装置可离线训练一或多个洁净说话者特定词典。举例来说,电子装置可基于洁净语音样本针对每一经辨识的说话者训练一或多个词典(例如第一词典和第二词典)。“洁净”语音样本可为具有低噪声电平的语音样本(例如,具有大于某一特定阈值的SNR的样本)。
语音词典模块1036/噪声词典模块1010可另外获得实时噪声词典。获得实时噪声词典可基于实时(经调适)噪声参考1008。实时噪声词典可表示有噪声的语音信号中发生的噪声的一或多个特性。相应地,语音词典模块1036/噪声词典模块1010可利用说话者特定词典和实时噪声词典两者(例如将它们组合)。第一语音词典、第二语音词典和实时噪声词典可提供到基于NMF的语音/噪声建模模块1040。
基于NMF的语音/噪声建模模块1040可执行根据本文中所揭示的系统和方法的第一建模阶段和/或第二建模阶段处理。第一建模阶段处理(例如第一建模阶段NMF维纳滤波)的实例的更多细节结合图15和17-18提供。第二建模阶段处理(例如第二建模阶段NMF语音建模)的实例的更多细节结合图19提供。基于NMF的语音/噪声建模模块1040可产生增强型语音1024(例如残余噪声受抑制的语音信号和/或经重建语音信号)。
基于NMF的语音/噪声建模模块1040可产生(例如计算、估计等)建模误差1042或重建误差。建模误差1042可提供到洁净说话者特定词典训练模块1048。如上文所描述,洁净说话者特定词典训练模块1048可训练对应于一或多个说话者的一或多个词典。此可离线执行。结合图10(例如,在图10的下部部分中)描述的其它操作可在线(例如实时、在噪声抑制使用期间等)执行。
图11为说明在钢琴和长笛音频的情况下受监督的基于NMF的音频源分离的一个实例的图。图11包含曲线A 1174a、曲线B 1174b、曲线C 1174c、曲线D 1174d和曲线E1174e。曲线A 1174a以频率(Hz)1166a随词典数目1176说明,曲线B 1174b以频率(Hz)1166a随时间1168b说明,曲线C 1174c以频率(Hz)1166c随时间1168c说明,曲线D 1174d以频率(Hz)1166d随时间1168d说明,且曲线E 1174e以词典数目1178随时间1168e说明。明确地说,图11说明曲线A 1174a中的钢琴词典Wp和长笛词典Wf、曲线B 1174b中的钢琴-长笛混合物X的频谱图、曲线E 1174e中的对应长笛激活系数Hf和对应钢琴激活系数Hp、曲线C 1174c中的经重建钢琴Xp=WpHp和曲线D 1174d中的经重建长笛Xf=WfHf。
特定地,说明曲线B 1174b中的混合物频谱图X、曲线A 1174a中的预先训练的词典W=[Wp,Wf]和曲线E 1174e中的激活系数H=[Hp,Hf]。所述混合物可建模为X≈WH。混合物X的每一列向量表示为非负词典W的非负线性组合。H的每一列向量表示每一词典的激活权重W。
混合物X可通过找到激活系数Hp和Hf而分解为钢琴和长笛信号。H可通过最小化由界定的成本函数来确定或找到,其中dIS表示Itakura-Saito距离。一旦获得Hp和Hf,钢琴和长笛就分别重建为WpHp和WfHf。
图12为说明本文中所揭示的系统和方法的较具体配置的功能框图。结合图12描述的功能、程序、参数、值和/或结构中的一或多者可为结合图1-5和10中的一或多者描述的功能、程序、参数、值和/或结构中的一或多者的实例。明确地说,图12说明噪声抑制模块1252、声纹模块1234、预处理模块1230、语音词典选择模块1236、离线词典学习模块1248、基于NMF的语音/噪声建模模块1240和信号选择模块1244。
更详细阐释提供如下。输入1204(例如有噪声的语音信号)可提供到噪声抑制模块1252且提供到声纹模块1234。噪声抑制模块1252可执行如上文结合图3和10中的一或多者所描述的噪声抑制。噪声抑制输出量值可提供到预处理模块1230。
预处理模块1230可如上文结合图3和10中的一或多者所描述获得实时噪声参考。预处理模块1230可基于输入1204的初级信道和实时噪声参考产生预增强型输入1232(例如Xpre)。另外,预处理模块1230可基于实时噪声参考在线获得实时噪声词典1212(例如Wn)。结合图18描述噪声抑制和预处理的较具体实例。预增强型输入1232和实时噪声词典1212可提供到基于NMF的语音/噪声建模模块1240。
声纹模块1234可如上文结合图3和10中的一或多者所描述执行说话者辨识。举例来说,声纹模块1234可提供说话者识别的指示或当前说话者未经识别或并不与任何已知简档匹配的指示。
关于离线词典学习模块1248,说话者词典数据库1250可用通用说话者词典初始化。离线词典学习模块1248可在满足条件时(例如在(举例来说)输入语音的SNR测量值高于SNR阈值时)学习特定说话者的语音词典。
语音词典选择模块1236可如上文结合图3和10中的一或多者所描述获得用于第一建模阶段语音建模的第一语音词典1214(例如Ws1)。语音词典选择模块1236(例如说话者特定语音词典选择模块1236)还可如上文结合图3和10中的一或多者所描述选择用于第二建模阶段语音建模的第二语音词典1220(例如Ws2)。如图12中所说明,在一些配置中,第一语音词典1214和第二语音词典1220可各自为说话者特定语音词典1238的子集。第一语音词典1214和第二语音词典1220可提供到基于NMF的语音/噪声建模模块1240。
基于NMF的语音/噪声建模模块1240可减少(例如移除)残余噪声且产生经重建语音信号1224。减少残余噪声可在第一建模阶段1226执行,且产生经重建语音信号1224可在第二建模阶段1228执行。
第一建模阶段1226可包含基于NMF的维纳滤波。举例来说,对于给定经训练语音/噪声词典(例如W=[Ws1,Wn]),基于NMF的语音/噪声建模模块1240可将有噪声的语音频谱的每一帧建模为X≈WH。H=[Hs,Hn]可表示每一词典的激活权重(其中Hs是第一语音词典激活权重,且Hn是实时噪声词典激活权重)。基于NMF的语音/噪声建模模块1240可通过找到H将有噪声的语音X分解为语音和噪声信号。此可例如通过最小化由界定的拟合量度来实现。举例来说,第一建模阶段1226可修正W、更新(例如调适)H且使用维纳滤波方法产生残余噪声受抑制的语音信号1218(例如Xwf),其中·×为逐要素乘法。
在一些配置中,基于NMF的语音/噪声建模模块1240可在第二建模阶段1228处执行基于NMF的包络重建如下。对于给定第二语音词典1220Ws2(例如说话者特定语音词典),基于NMF的语音/噪声建模模块1240可将高SNR子带语音频谱建模为Xwf,sub≈Ws2,subH。在一些配置中,基于NMF的语音/噪声建模模块1240可修正Ws2,sub、更新(例如调适)H且产生经重建语音信号1224(例如经重建全频带语音Xrc=Ws2H)。
残余噪声受抑制的语音信号1218和经重建语音信号1224可任选地提供到信号选择模块1244。信号选择模块1244可基于重建误差1242选择残余噪声受抑制的语音信号1218和经重建语音信号1224中的一者。举例来说,如果重建误差1242(例如,dIS(X|WH)、dIS或d)为高(例如大于阈值),那么残余噪声受抑制的语音信号1218(例如维纳滤波输出Xwf)可选择为输出1246(例如Xout)。举例来说,另外,如果重建误差1242dIS(X|WH)为高(例如大于相同或不同阈值),那么基于NMF的语音/噪声建模模块1240可激活离线词典学习模块1248以进一步训练语音词典和/或训练一或多个额外语音词典。
离线词典学习模块1248可执行用于第一建模阶段1226和/或用于第二建模阶段1228的词典学习和/或训练。词典学习和/或训练的更详细实例结合图13-16提供。
图13为说明用于第一建模阶段语音建模的词典学习的较具体实例的框图。明确地说,图13说明基于NMF的语音词典学习模块1382的一个实例。基于NMF的语音词典学习模块1382可为上文描述的离线词典学习模块348、1248和第一语音词典产生模块452中的一或多者(或一部分)的一个实例。
如图13中所说明,说话者特定洁净语音量值频谱1380(例如V)可提供到基于NMF的语音词典学习模块1382。举例来说,电子装置可收集和/或接收洁净语音信号(例如具有高SNR和/或无噪声的语音信号)。这些洁净语音信号可“离线”俘获,例如在SNR为高的电话呼叫期间、在检测到极少噪声或无噪声时、在校准程序期间、在训练程序期间等。另外或替代地,电子装置可在满足一或多个条件时(例如在所俘获语音展现高于阈值的SNR时)选择特定语音信号作为洁净语音信号。另外或替代地,洁净语音信号可由另一装置俘获且发射到电子装置。应注意,在NMF中,V可指代试图进行因子分解的矩阵,如V=WH中。
基于NMF的语音词典学习模块1382可基于NMF学习第一语音词典1314(例如低等级语音词典、用于第一建模阶段的词典)。举例来说,基于NMF的语音词典学习模块1382可随机初始化激活系数H和一或多个语音基函数Ws1且更新参数(例如H)直至收敛。在一些配置中,此可根据等式和/或根据等式实现,其中β为用以控制更新期间最小化的发散类型的参数。应注意,在以上等式中,“T”表示矩阵转置。
图14为说明用于第一建模阶段语音建模的词典的一个实例的曲线。明确地说,用于第一建模阶段语音建模的词典以词典数目1486随频率1484说明。
图15为说明用于第二建模阶段语音建模的词典学习的较具体实例的框图。明确地说,图15说明音高/谐波性估计模块1588的一个实例。音高/谐波性估计模块1588可为上文描述的离线词典学习模块348、1248和第二语音词典产生模块454中的一或多者(或一部分)的一个实例。
如图15中所说明,说话者特定(洁净)语音量值频谱1580(例如V)可提供到音高/谐波性估计模块1588。举例来说,说话者特定洁净语音量值频谱1580可如上文结合图1和13中的一或多者所描述而获得。
音高/谐波性估计模块1588可估计每一语音频谱的谐波性和音高。音高/谐波性估计模块1588可选择具有高谐波性(例如具有高于谐波性阈值的对应谐波性)的浊音语音频谱Vh作为第二语音词典1520(例如Ws2=Vh),用对应音高标记每一语音词典(例如选定语音频谱)和/或通过改变每一频谱词典的音高丰富当前词典。在一些配置中,音高标记的语音词典可如下来丰富。给定音高标记的语音词典,音高可在频域中经移位而不改变其共振峰或包络。以此方式,给定一个可用语音词典,可获得跨越对应于特定共振峰结构和/或包络的整个音高范围的语音词典要素的扩展集合(例如整个集合)。
图16为说明用于第二建模阶段语音建模的词典的一个实例的曲线。明确地说,用于第二建模阶段语音建模的第二语音词典以频率1690随词典数目1692说明。
图17为说明第一建模阶段NMF维纳滤波的概述的较具体实例的框图。明确地说,图17说明噪声抑制模块1752/预处理模块1730、源分离模块1703和重建模块1707。结合图17描述的功能、程序、参数、值和/或结构中的一或多者可为结合图1-5、10、12和21中的一或多者描述的功能、程序、参数、值和/或结构中的一或多者的实例。
在此实例中,输入1704(例如有噪声的语音信号)提供到噪声抑制模块1752/预处理模块1730。噪声抑制模块1752/预处理模块1730可产生噪声词典1712和预增强型输入1732。预增强型输入1732可提供到源分离模块1703和重建模块1707。
可从说话者特定语音数据库1750提取(举例来说用于第一建模阶段)的第一语音词典1714。词典1701(例如W)可包含第一语音词典1714和噪声词典1712。词典1701可提供到源分离模块1703且提供到重建模块1707。
源分离模块1703可基于激活系数H 1711执行受监督NMF语音分离1705。举例来说,源分离模块1703可初始化H 1713且调适H 1715。在收敛后(或举例来说当达到最大迭代限制时),经调适H 1715可提供到重建模块1707。
重建模块1707可基于词典1701、预增强型输入1732和经调适系数1715执行维纳滤波语音重建1709以产生输出语音量值1718(例如残余噪声受抑制的语音信号)。输出语音量值1718可提供到第二建模阶段1728。关于图17的功能、模块和/或结构的更多细节提供于图18-20中。
图18为说明预处理的一个实例的框图。明确地说,图18说明预处理模块1830的一个实例。结合图18描述的功能、程序、参数、值和/或结构中的一或多者可为结合图1-5、10、12、17和21中的一或多者描述的功能、程序、参数、值和/或结构中的一或多者的实例。
在此实例中,输入1804(例如有噪声的语音信号)的两个信道提供到噪声抑制模块1852。噪声抑制模块1852可产生噪声抑制输出相位1819和噪声抑制输出量值1821(例如Xns)。
输入1804的初级信道可提供到快速傅里叶变换(FFT)模块1817。输入1804的初级信道可为俘获最多语音(例如具有最高SNR、最高语音量值等)的输入的信道(例如麦克风)。另外或替代地,可预先确定输入1804的初级信道。FFT模块1817可将输入1804的初级信道变换到频域(例如变换为频谱表示)。所得初级信道输入(例如X)1823可提供到预处理模块1830。
在一些配置中,预处理模块1830可确定噪声参考1808(例如Xn)。此可根据等式Xn=abs(X-βXns)实现,其中β为用以将输入X和噪声抑制输出匹配的增益因数。
在一些配置中,预处理模块1830可根据等式Xpre=X-αXn确定预增强型输入信号1832(例如Xpre)。α的一个实例=0.8。在一些配置中,预处理模块1830可根据等式获得噪声词典1812。
图19为说明第一建模阶段语音/噪声分离的一个实例的框图。明确地说,图19说明源分离模块1903的一个实例。结合图19描述的功能、程序、参数、值和/或结构中的一或多者可为结合图1-5、10、12、17-18和21中的一或多者描述的功能、程序、参数、值和/或结构中的一或多者的实例。
词典1901(例如,W)可包含第一语音词典1914(例如Ws1)和噪声词典1912(例如Wn)。词典1901可提供到源分离模块1903。预增强型输入1932(例如Xpre,如结合图18所描述)也可提供到源分离模块1903。
源分离模块1903可基于激活系数H 1911执行受监督NMF语音分离1905。举例来说,源分离模块1903可初始化H 1913且调适H 1915直至收敛(或举例来说直至达到最大迭代限制)。
在一些配置中,源分离模块1903可根据等式操作。举例来说,修正词典W 1901,同时仅可调适激活系数H 1911。对于第一帧,可随机初始化激活系数H 1911。对于第二帧和之后的帧,源分离模块1903可利用来自前一帧的经更新激活系数H 1911来开始迭代。源分离模块1903可更新激活系数H 1911直至收敛。可在先前与当前激活系数之间的改变低于阈值时检测到收敛。
图20为说明第一建模阶段维纳滤波重建的一个实例的框图。明确地说,图20说明重建模块2007的一个实例。重建模块2007可包含维纳滤波语音重建模块2009。结合图20描述的功能、程序、参数、值和/或结构中的一或多者可为结合图1-5、10、12、17-19和21中的一或多者描述的功能、程序、参数、值和/或结构中的一或多者的实例。
词典2001(例如W)可包含第一语音词典2014(例如Ws1)和噪声词典2012(例如Wn)。词典2001可提供到重建模块2007(例如提供到维纳滤波语音重建模块2009)。经调适激活系数H 2011(包含语音激活系数Hs2025和噪声激活系数Hn2027)可提供到重建模块2007。预增强型输入信号2032(例如Xpre)也可提供到重建模块2007。
重建模块2007可创建滤波器Ms。在一些配置中,此可根据等式实现。举例来说,α可设定成1或2。重建模块2007(例如维纳滤波语音重建模块2009)可根据等式Xwf=Ms·×Xpre估计语音量值Xwf2018(例如残余噪声受抑制的语音信号),其中·×为逐要素乘法。
图21为说明第二建模阶段NMF语音建模的较具体实例的框图。明确地说,图21说明音高估计模块2156、逐频段SNR模块2162、受监督子带NMF语音建模模块2137、语音重建模块2141、信号选择模块2144和离线词典学习模块2148。结合图21描述的功能、程序、参数、值和/或结构中的一或多者可为结合图1-5、10、12-13、15和17中的一或多者描述的功能、程序、参数、值和/或结构中的一或多者的实例。
第二建模阶段语音建模阐释给定如下。如图21中所说明,电子装置可获得初级输入(例如初级信道输入)Xin2104。噪声抑制输出Xns2129可基于输入2104。在一些配置中,噪声抑制输出Xns2129可基于多个信道。噪声抑制输出Xns2129可提供到音高估计模块2156和逐频段SNR模块2162。
在一些配置中,语音量值频谱Xwf2118(例如维纳滤波语音量值频谱、残余噪声受抑制的语音信号、损坏的语音量值等)可由第一阶段(例如第一建模阶段)处理2126提供。第一阶段处理2126的实例结合图20给出。音高估计模块2156可针对每一维纳滤波语音量值频谱Xwf2118估计音高和谐波性。音高和/或谐波性可基于噪声抑制输出XNS2129和说话者特定词典Ws2138来估计。电子装置(例如电子装置102)可利用谐波性以确定对应帧为浊音还是非浊音。如果帧为非浊音帧,那么可跳过或放弃第二建模阶段处理(例如可停止处理和/或可丢弃针对所述帧的经重建语音信号2124)。如果所述帧为浊音帧,那么音高估计模块2156(或另一模块)可寻找针对给定音高的对应语音词典(例如音高特定词典Wp2131)。
逐频段SNR模块2162可操作如下。Xin可为初级信道量值输入,且XNS可为噪声抑制输出2129。逐频段SNR模块2162可确定逐频段SNR(针对音高特定词典Wp2131的一或多个频带或“频段”),其可根据等式界定。针对每一浊音帧,子带置信度分数可由等式界定。如果子带置信度得分小于子带置信度阈值(例如置信度<子带置信度阈值),那么可针对所述帧(例如整个帧,其中置信度为逐帧得分)跳过或放弃第二建模阶段处理。逐频段SNR模块2162(和/或另一模块)可寻找一或多个可靠频带k(例如其中SNRk>阈值_SNR)和/或可根据等式产生子带输入量值频谱2133。逐频段SNR模块2162和/或另一模块可根据等式产生相关联子带音高特定语音词典2135。
受监督子带NMF语音建模模块2137可在一些配置中基于子带NMF执行包络重建如下。可通过最小化监视建模拟合性的Itakura-Saito(IS)发散(例如重建误差dIS 2142)来执行使用子带语音频谱Xwf,sub2133和词典Wp,sub2135的子带NMF。IS发散可根据等式界定。
受监督子带NMF语音建模模块2137可根据等式修b正词典Wp,sub且更新激活系数H 2139直至收敛.
语音重建模块2141可根据等式Xrc=WpH以全频带词典Wp2131执行语音重建。经重建语音信号Xrc 2124可提供到信号选择模块2144。应注意,当根据等式重新合成到时域信号时,电子装置可利用来自噪声抑制输出的相位。
输出质量可根据重建误差dIS(Xwf,sub|Wp,subH)控制。举例来说,如果dIS>阈值,那么可激活离线词典学习模块2148(以举例来说更新说话者词典数据库2150)。
信号选择模块2144可基于重建误差2142选择信号。举例来说,如果dIS<阈值,那么Xwf可选择为Xout。如果dIS>阈值,那么Xrc可选择为Xout。举例来说,经重建语音信号Xrc 2124可与维纳滤波语音输出Xwf 2118组合以获得如等式中提供的最终输出。在一些配置中,应注意,当跳过或放弃第二建模阶段处理时,可输出第一阶段处理的输出(例如输出语音量值、维纳滤波语音输出Xwf2118等)、噪声抑制信号(例如噪声抑制模块1252的输出、NS输出2129等)或输入信号(例如初级输入2104)。
图22为说明其中可实施用于基于说话者词典的建模的系统和方法的无线通信装置2202的一个配置的框图。图22中说明的无线通信装置2202可为本文所描述的电子装置中的一或多者的实例。所述无线通信装置2202可包含应用处理器2253。应用处理器2253通常处理指令(例如,运行程序)以执行无线通信装置2202上的功能。应用处理器2253可耦合到音频译码器/解码器(编解码器)2251。
音频编解码器2251可用于对音频信号进行译码和/或解码。音频编解码器2251可耦合到至少一个扬声器2243、耳机2245、输出插孔2247和/或至少一个麦克风2249。扬声器2243可包含一或多个将电或电子信号转换为声学信号的电-声变换器。举例来说,扬声器2243可用于播放音乐或输出说话者电话对话等。耳机2245可为可用于将声学信号(例如,语音信号)输出到用户的另一扬声器或电-声变换器。举例来说,可使用耳机2245使得仅用户可确实地听到声学信号。输出插孔2247可用于将其它装置(例如头戴式耳机)耦合到无线通信装置2202以用于输出音频。扬声器2243、耳机2245和/或输出插孔2247可通常用于从音频编解码器2251输出音频信号。所述至少一个麦克风2249可为将声学信号(例如用户的话音)转换为提供至音频编解码器2251的电或电子信号的声-电变换器。在一些配置中,音频编解码器2251和/或应用处理器2253可经配置以执行本文中所描述的第一建模阶段处理和第二建模阶段处理中的一或多者(和/或其它功能或程序中的一或多者)。
应用处理器2253还可耦合到功率管理电路2263。功率管理电路2263的一个实例为功率管理集成电路(PMIC),其可用于管理无线通信装置2202的电功率消耗。功率管理电路2263可耦合到电池2265。电池2265可通常将电功率提供到无线通信装置2202。举例来说,电池2265和/或功率管理电路2263可耦合到包含于无线通信装置2202中的元件中的至少一者。
应用处理器2253可耦合到至少一个输入装置2267以用于接收输入。输入装置2267的实例包含红外传感器、图像传感器、加速度计、触摸传感器、小键盘等。输入装置2267可允许用户与无线通信装置2202的交互。应用处理器2253还可耦合到一或多个输出装置2269。输出装置2269的实例包含打印机、投影仪、屏幕、触觉装置等。输出装置2269可允许无线通信装置2202产生可由用户体验的输出。
应用处理器2253可耦合到应用存储器2271。应用存储器2271可为能够存储电子信息的任何电子装置。应用存储器2271的实例包含双数据速率同步动态随机存取存储器(DDRAM)、同步动态随机存取存储器(SDRAM)、快闪存储器等。应用存储器2271可提供用于应用处理器2253的存储。举例来说,应用存储器2271可存储用于在应用处理器2253上运行的程序的运作的数据和/或指令。
应用处理器2253可耦合到显示控制器2273,所述显示控制器又可耦合到显示器2275。显示控制器2273可为用于在显示器2275上产生图像的硬件块。举例来说,显示控制器2273可将来自应用处理器2253的指令和/或数据转译为可呈现在显示器2275上的图像。显示器2275的实例包含液晶显示器(LCD)面板、发光二极管(LED)面板、阴极射线管(CRT)显示器、等离子显示器等。
应用处理器2253可耦合到基带处理器2255。基带处理器2255通常处理通信信号。举例来说,基带处理器2255可对所接收的信号进行解调和/或解码。另外或替代地,基带处理器2255可对信号进行编码及/或调制以准备发射。
基带处理器2255可耦合到基带存储器2277。基带存储器2277可为能够存储电子信息的任何电子装置,例如SDRAM、DDRAM、快闪存储器等。基带处理器2255可从基带存储器2277读取信息(例如指令和/或数据)和/或将信息写入到基带存储器2277。另外或替代地,基带处理器2255可使用存储在基带存储器2277中的指令和/或数据来执行通信操作。
基带处理器2255可耦合到射频(RF)收发器2257。RF收发器2257可耦合到功率放大器2259和一或多个天线2261。RF收发器2257可发射及/或接收射频信号。举例来说,RF收发器2257可使用功率放大器2259及至少一个天线2261发射RF信号。RF收发器2257还可使用所述一或多个天线2261接收RF信号。
图23说明可包含在电子装置2302内的某些组件。结合图23描述的电子装置2302可为本文中所描述的电子装置102、402和无线通信装置2202中的一或多者的实例和/或可根据所述电子装置102、402和无线通信装置2202中的一或多者实施。
电子装置2302包含处理器2395。处理器2395可为通用单或多芯片微处理器(例如ARM)、专用微处理器(例如数字信号处理器(DSP))、微控制器、可编程门阵列等。处理器2395可被称为中央处理单元(CPU)。尽管图23的电子装置2302中仅展示单一处理器2395,但在替代配置中,可使用处理器(例如ARM和DSP)的组合。
电子装置2302还包含与处理器2395进行电子通信的存储器2379(即,处理器2395可从存储器2379读取信息和/或将信息写入到存储器2379)。存储器2379可为能够存储电子信息的任何电子组件。存储器2379可为随机存取存储器(RAM)、只读存储器(ROM)、磁盘存储媒体、光学存储媒体、RAM中的快闪存储器装置、随处理器一起包含的机载存储器、可编程只读存储器(PROM)、可擦除可编程只读存储器(EPROM)、电可擦除PROM(EEPROM)、寄存器等,包含其组合。
数据2381和指令2383可存储于存储器2379中。指令2383可包含一或多个程序、例程、子例程、功能、程序、代码等。指令2383可包含单个计算机可读语句或许多计算机可读语句。指令2383可由处理器2395执行以实施上文描述的方法200、500中的一或多者。执行指令2383可涉及使用存储于存储器2379中的数据2381。图23展示一些指令2383a和数据2381a加载到处理器2395。
电子装置2302还可包含发射器2391和接收器2393以允许在电子装置2302与远程位置(例如基站)之间发射和接收信号。发射器2391和接收器2393可共同称为收发器2389。天线2387可电耦合到收发器2389。电子装置2302还可包含(未图示)多个发射器、多个接收器、多个收发器和/或多个天线。
电子装置2302的各种组件可通过一或多个总线耦合在一起,所述总线可以包含电力总线、控制信号总线、状态信号总线、数据总线等。为简单起见,各种总线在图23中说明为总线系统2385。
在以上描述中,有时结合各种术语而使用参考标号。在术语结合参考标号使用的情况下,此可意味着指代图中的一或多者中展示的特定元件。在无参考标号的情况下使用术语的情形下,此可意味着大体指代所述术语,而不限于任何特定图。
术语“确定”涵盖各种各样的动作,且因此“确定”可包含计算、估算、处理、导出、调查、查找(例如,在表、数据库或另一数据结构中查找)、查实及类似者。并且,“确定”可包含接收(例如,接收信息)、存取(例如,在存储器中存取数据)及类似者。并且,“确定”可包括解析、选择、挑选、建立等等。
除非以其它方式明确地指定,否则短语“基于”并不意味着“仅基于”。换句话说,短语“基于”描述“仅基于”与“至少基于”两者。
应注意,结合本文中所描述的配置中的任一者描述的特征、功能、程序、参数、值、组件、元件、结构等中的一或多者可与结合本文中所描述的其它配置中的任一者描述的功能、程序、参数、值组件、元件、结构等中的一或多者(在兼容的情况下)组合。换句话说,本文中所描述的功能、程序、参数、值、组件、元件等的任何兼容组合可根据本文中所揭示的系统和方法实施。
可将本文中所描述的功能作为一或多个指令而存储在处理器可读或计算机可读媒体上。术语“计算机可读媒体”是指可由计算机或处理器存取的任何可用媒体。作为实例而非限制,此类媒体可包括随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪存储器、压缩光盘只读存储器(CD-ROM)或其它光盘存储装置、磁盘存储器或其它磁性存储装置,或可用于以指令或数据结构的形式存储所要的程序代码且可由计算机存取的任何其它媒体。如本文中所使用,磁盘和光盘包含压缩光盘(CD)、激光光盘、光学光盘、数字多功能光盘(DVD)、软性磁盘和光盘,其中磁盘通常以磁性方式再现数据,而光盘利用激光以光学方式再现数据。应注意,计算机可读媒体可为有形且非暂时性的。术语“计算机程序产品”是指计算装置或处理器,其与可由计算装置或处理器执行、处理或计算的代码或指令(例如,“程序”)结合。如本文所使用,术语“代码”可指可由计算装置或处理器执行的软件、指令、代码或数据。
还可通过发射媒体发射软件或指令。举例来说,如果使用同轴电缆、光纤电缆、双绞线、数字订户线(DSL)或无线技术(例如,红外线、无线电及微波)从网站、服务器或其它远程源发射软件,则同轴电缆、光纤电缆、双绞线、DSL或无线技术(例如,红外线、无线电及微波)包含在发射媒体的定义中。
本文中所揭示的方法包括用于达成所描述的方法的一或多个步骤或动作。在不偏离权利要求书的范围的情况下,方法步骤和/或动作可彼此互换。换句话说,除非正描述的方法的适当操作需要步骤或动作的特定次序,否则,在不脱离权利要求书的范围的情况下,可修改特定步骤及/或动作的次序及/或使用。
应理解,权利要求书不限于上文所说明的精确配置和组件。在不脱离权利要求书的范围的情况下,可在本文中所描述的系统、方法和设备的布置、操作和细节方面进行各种修改、改变和变更。
Claims (30)
1.一种用于通过电子装置进行语音建模的方法,其包括:
基于有噪声的语音信号获得实时噪声参考;
基于所述实时噪声参考获得实时噪声词典;
获得第一语音词典和第二语音词典;
在第一建模阶段基于所述实时噪声词典和所述第一语音词典减少残余噪声以产生残余噪声受抑制的语音信号;以及
在第二建模阶段基于所述残余噪声受抑制的语音信号和所述第二语音词典产生经重建语音信号。
2.根据权利要求1所述的方法,其中所述第一建模阶段是基于非负矩阵因子分解NMF。
3.根据权利要求1所述的方法,其中所述第二建模阶段是基于非负矩阵因子分解NMF。
4.根据权利要求1所述的方法,其中减少残余噪声包括:
修正包括所述第一语音词典和所述实时噪声词典的语音和噪声词典;
初始化激活系数;以及
更新所述激活系数直至收敛。
5.根据权利要求1所述的方法,其中减少所述残余噪声包括:
基于所述第一语音词典、所述实时噪声词典、经调适语音激活系数和经调适噪声激活系数创建滤波器;以及
基于所述滤波器和预增强型输入估计所述残余噪声受抑制的语音信号。
6.根据权利要求1所述的方法,其中产生所述经重建语音信号包括:
修正子带音高特定词典;
更新激活系数直至收敛;以及
基于音高特定词典和所述激活系数产生所述经重建语音信号。
7.根据权利要求6所述的方法,其进一步包括:
基于音高从说话者特定词典确定所述音高特定词典;以及
基于逐频段信噪比SNR从所述音高特定词典确定所述子带音高特定词典。
8.根据权利要求1所述的方法,其进一步包括基于重建误差从所述经重建语音信号和所述残余噪声受抑制的语音信号选择输出语音信号。
9.根据权利要求1所述的方法,其中所述第一语音词典和所述第二语音词典基于说话者特定语音词典。
10.根据权利要求1所述的方法,其中获得所述第一语音词典包括:
初始化多个激活系数和语音基函数;以及
更新参数直至收敛。
11.根据权利要求1所述的方法,其中获得所述第二语音词典包括:
估计用于多个说话者特定语音量值频谱的谐波性和音高;
从所述说话者特定语音量值频谱选择具有高于谐波性阈值的对应谐波性的语音频谱;以及
用对应音高标记所述选定语音频谱中的每一者。
12.一种用于语音建模的电子装置,其包括:
处理器;
存储器,其与所述处理器进行电子通信;
存储于所述存储器中的指令,所述指令可执行以:
基于有噪声的语音信号获得实时噪声参考;
基于所述实时噪声参考获得实时噪声词典;
获得第一语音词典和第二语音词典;
在第一建模阶段基于所述实时噪声词典和所述第一语音词典减少残余噪声以产生残余噪声受抑制的语音信号;以及
在第二建模阶段基于所述残余噪声受抑制的语音信号和所述第二语音词典产生经重建语音信号。
13.根据权利要求12所述的电子装置,其中所述第一建模阶段是基于非负矩阵因子分解NMF。
14.根据权利要求12所述的电子装置,其中所述第二建模阶段是基于非负矩阵因子分解NMF。
15.根据权利要求12所述的电子装置,其中减少残余噪声包括:
修正包括所述第一语音词典和所述实时噪声词典的语音和噪声词典;
初始化激活系数;以及
更新所述激活系数直至收敛。
16.根据权利要求12所述的电子装置,其中减少所述残余噪声包括:
基于所述第一语音词典、所述实时噪声词典、经调适语音激活系数和经调适噪声激活系数创建滤波器;以及
基于所述滤波器和预增强型输入估计所述残余噪声受抑制的语音信号。
17.根据权利要求12所述的电子装置,其中产生所述经重建语音信号包括:
修正子带音高特定词典;
更新激活系数直至收敛;以及
基于音高特定词典和所述激活系数产生所述经重建语音信号。
18.根据权利要求17所述的电子装置,其中所述指令进一步可执行以:
基于音高从说话者特定词典确定所述音高特定词典;以及
基于逐频段信噪比SNR从所述音高特定词典确定所述子带音高特定词典。
19.根据权利要求12所述的电子装置,其中所述指令进一步可执行以基于重建误差从所述经重建语音信号和所述残余噪声受抑制的语音信号选择输出语音信号。
20.根据权利要求12所述的电子装置,其中所述第一语音词典和所述第二语音词典基于说话者特定语音词典。
21.根据权利要求12所述的电子装置,其中获得所述第一语音词典包括:
初始化多个激活系数和语音基函数;以及
更新参数直至收敛。
22.根据权利要求12所述的电子装置,其中获得所述第二语音词典包括:
估计用于多个说话者特定语音量值频谱的谐波性和音高;
从所述说话者特定语音量值频谱选择具有高于谐波性阈值的对应谐波性的语音频谱;以及
用对应音高标记所述选定语音频谱中的每一者。
23.一种用于语音建模的计算机程序产品,其包括上面具有指令的非暂时性有形计算机可读媒体,所述指令包括:
用于致使电子装置基于有噪声的语音信号获得实时噪声参考的代码;
用于致使所述电子装置基于所述实时噪声参考获得实时噪声词典的代码;
用于致使所述电子装置获得第一语音词典和第二语音词典的代码;
用于致使所述电子装置在第一建模阶段基于所述实时噪声词典和所述第一语音词典减少残余噪声以产生残余噪声受抑制的语音信号的代码;以及
用于致使所述电子装置在第二建模阶段基于所述残余噪声受抑制的语音信号和所述第二语音词典产生经重建语音信号的代码。
24.根据权利要求23所述的计算机程序产品,其中产生所述经重建语音信号包括:
修正子带音高特定词典;
更新激活系数直至收敛;以及
基于音高特定词典和所述激活系数产生所述经重建语音信号。
25.根据权利要求23所述的计算机程序产品,其中获得所述第一语音词典包括:
初始化多个激活系数和语音基函数;以及
更新参数直至收敛。
26.根据权利要求23所述的计算机程序产品,其中获得所述第二语音词典包括:
估计用于多个说话者特定语音量值频谱的谐波性和音高;
从所述说话者特定语音量值频谱选择具有高于谐波性阈值的对应谐波性的语音频谱;以及
用对应音高标记所述选定语音频谱中的每一者。
27.一种用于语音建模的设备,其包括:
用于基于有噪声的语音信号获得实时噪声参考的装置;
用于基于所述实时噪声参考获得实时噪声词典的装置;
用于获得第一语音词典和第二语音词典的装置;
用于在第一建模阶段基于所述实时噪声词典和所述第一语音词典减少残余噪声以产生残余噪声受抑制的语音信号的装置;以及
用于在第二建模阶段基于所述残余噪声受抑制的语音信号和所述第二语音词典产生经重建语音信号的装置。
28.根据权利要求27所述的设备,其中所述用于产生所述经重建语音信号的装置包括:
用于修正子带音高特定词典的装置;
用于更新激活系数直至收敛的装置;以及
用于基于音高特定词典和所述激活系数产生所述经重建语音信号的装置。
29.根据权利要求27所述的设备,其中所述用于获得所述第一语音词典的装置包括:
用于初始化多个激活系数和语音基函数的装置;以及
用于更新参数直至收敛的装置。
30.根据权利要求27所述的设备,其中所述用于获得所述第二语音词典的装置包括:
用于估计用于多个说话者特定语音量值频谱的谐波性和音高的装置;
用于从所述说话者特定语音量值频谱选择具有高于谐波性阈值的对应谐波性的语音频谱的装置;以及
用于用对应音高标记所述选定语音频谱中的每一者的装置。
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201461945691P | 2014-02-27 | 2014-02-27 | |
US61/945,691 | 2014-02-27 | ||
US14/629,109 | 2015-02-23 | ||
US14/629,109 US10013975B2 (en) | 2014-02-27 | 2015-02-23 | Systems and methods for speaker dictionary based speech modeling |
PCT/US2015/017336 WO2015130685A1 (en) | 2014-02-27 | 2015-02-24 | Systems and methods for speaker dictionary based speech modeling |
Publications (1)
Publication Number | Publication Date |
---|---|
CN106030705A true CN106030705A (zh) | 2016-10-12 |
Family
ID=53882822
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201580010366.XA Pending CN106030705A (zh) | 2014-02-27 | 2015-02-24 | 用于基于说话者词典的语音建模的系统和方法 |
Country Status (6)
Country | Link |
---|---|
US (1) | US10013975B2 (zh) |
EP (1) | EP3111445B1 (zh) |
JP (1) | JP2017506767A (zh) |
KR (1) | KR20160125984A (zh) |
CN (1) | CN106030705A (zh) |
WO (1) | WO2015130685A1 (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107248414A (zh) * | 2017-05-23 | 2017-10-13 | 清华大学 | 一种基于多帧频谱和非负矩阵分解的语音增强方法与装置 |
CN108145974A (zh) * | 2017-12-29 | 2018-06-12 | 深圳职业技术学院 | 一种基于语音识别的3d打印成型的方法及系统 |
CN108986834A (zh) * | 2018-08-22 | 2018-12-11 | 中国人民解放军陆军工程大学 | 基于编解码器架构与递归神经网络的骨导语音盲增强方法 |
CN110931028A (zh) * | 2018-09-19 | 2020-03-27 | 北京搜狗科技发展有限公司 | 一种语音处理方法、装置和电子设备 |
Families Citing this family (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9536537B2 (en) * | 2015-02-27 | 2017-01-03 | Qualcomm Incorporated | Systems and methods for speech restoration |
EP3387648B1 (en) * | 2015-12-22 | 2020-02-12 | Huawei Technologies Duesseldorf GmbH | Localization algorithm for sound sources with known statistics |
CN106971741B (zh) * | 2016-01-14 | 2020-12-01 | 芋头科技(杭州)有限公司 | 实时将语音进行分离的语音降噪的方法及系统 |
US10667069B2 (en) | 2016-08-31 | 2020-05-26 | Dolby Laboratories Licensing Corporation | Source separation for reverberant environment |
US10528147B2 (en) | 2017-03-06 | 2020-01-07 | Microsoft Technology Licensing, Llc | Ultrasonic based gesture recognition |
US10276179B2 (en) * | 2017-03-06 | 2019-04-30 | Microsoft Technology Licensing, Llc | Speech enhancement with low-order non-negative matrix factorization |
US10984315B2 (en) | 2017-04-28 | 2021-04-20 | Microsoft Technology Licensing, Llc | Learning-based noise reduction in data produced by a network of sensors, such as one incorporated into loose-fitting clothing worn by a person |
US10811030B2 (en) * | 2017-09-12 | 2020-10-20 | Board Of Trustees Of Michigan State University | System and apparatus for real-time speech enhancement in noisy environments |
CN109273021B (zh) * | 2018-08-09 | 2021-11-30 | 厦门亿联网络技术股份有限公司 | 一种基于rnn的实时会议降噪方法及装置 |
US11227621B2 (en) | 2018-09-17 | 2022-01-18 | Dolby International Ab | Separating desired audio content from undesired content |
KR20210008788A (ko) | 2019-07-15 | 2021-01-25 | 삼성전자주식회사 | 전자 장치 및 그 제어 방법 |
US11710492B2 (en) * | 2019-10-02 | 2023-07-25 | Qualcomm Incorporated | Speech encoding using a pre-encoded database |
CN111383652B (zh) * | 2019-10-25 | 2023-09-12 | 南京邮电大学 | 一种基于双层字典学习的单通道语音增强方法 |
KR20220110751A (ko) * | 2019-11-05 | 2022-08-09 | 더 보드 어브 트러스티스 어브 더 리랜드 스탠포드 주니어 유니버시티 | 개인 맞춤형 암 요법을 위한 종양 생태계 디콘볼루션 시스템 및 방법 |
CN112141837A (zh) * | 2020-09-08 | 2020-12-29 | 金陵科技学院 | 一种基于多层字典学习的智能语音电梯系统 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20020165711A1 (en) * | 2001-03-21 | 2002-11-07 | Boland Simon Daniel | Voice-activity detection using energy ratios and periodicity |
CN1871501A (zh) * | 2003-10-23 | 2006-11-29 | 松下电器产业株式会社 | 频谱编码装置、频谱解码装置、音响信号发送装置、音响信号接收装置及其使用方法 |
US20090119097A1 (en) * | 2007-11-02 | 2009-05-07 | Melodis Inc. | Pitch selection modules in a system for automatic transcription of sung or hummed melodies |
CN101441872A (zh) * | 2007-11-19 | 2009-05-27 | 三菱电机株式会社 | 利用受限非负矩阵分解对声学信号去噪 |
US20120185246A1 (en) * | 2011-01-19 | 2012-07-19 | Broadcom Corporation | Noise suppression using multiple sensors of a communication device |
US20130132077A1 (en) * | 2011-05-27 | 2013-05-23 | Gautham J. Mysore | Semi-Supervised Source Separation Using Non-Negative Techniques |
Family Cites Families (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3571821B2 (ja) | 1995-09-13 | 2004-09-29 | 株式会社東芝 | 音声認識装置および単語構成要素の辞書並びに隠れマルコフモデルの学習方法 |
US7725314B2 (en) * | 2004-02-16 | 2010-05-25 | Microsoft Corporation | Method and apparatus for constructing a speech filter using estimates of clean speech and noise |
US7734462B2 (en) * | 2005-09-02 | 2010-06-08 | Nortel Networks Limited | Method and apparatus for extending the bandwidth of a speech signal |
US7590530B2 (en) | 2005-09-03 | 2009-09-15 | Gn Resound A/S | Method and apparatus for improved estimation of non-stationary noise for speech enhancement |
US7873064B1 (en) * | 2007-02-12 | 2011-01-18 | Marvell International Ltd. | Adaptive jitter buffer-packet loss concealment |
US20120143604A1 (en) * | 2010-12-07 | 2012-06-07 | Rita Singh | Method for Restoring Spectral Components in Denoised Speech Signals |
US8554553B2 (en) | 2011-02-21 | 2013-10-08 | Adobe Systems Incorporated | Non-negative hidden Markov modeling of signals |
CN103329200B (zh) * | 2011-05-24 | 2016-04-20 | 三菱电机株式会社 | 目标音增强装置以及车辆导航系统 |
JP5662276B2 (ja) * | 2011-08-05 | 2015-01-28 | 株式会社東芝 | 音響信号処理装置および音響信号処理方法 |
US9966088B2 (en) * | 2011-09-23 | 2018-05-08 | Adobe Systems Incorporated | Online source separation |
US8775167B2 (en) * | 2011-09-26 | 2014-07-08 | Adobe Systems Incorporated | Noise-robust template matching |
WO2013057659A2 (en) * | 2011-10-19 | 2013-04-25 | Koninklijke Philips Electronics N.V. | Signal noise attenuation |
CN103999155B (zh) * | 2011-10-24 | 2016-12-21 | 皇家飞利浦有限公司 | 音频信号噪声衰减 |
US9786275B2 (en) * | 2012-03-16 | 2017-10-10 | Yale University | System and method for anomaly detection and extraction |
CN102915742B (zh) | 2012-10-30 | 2014-07-30 | 中国人民解放军理工大学 | 基于低秩与稀疏矩阵分解的单通道无监督语噪分离方法 |
US9324338B2 (en) * | 2013-10-22 | 2016-04-26 | Mitsubishi Electric Research Laboratories, Inc. | Denoising noisy speech signals using probabilistic model |
US10540979B2 (en) * | 2014-04-17 | 2020-01-21 | Qualcomm Incorporated | User interface for secure access to a device using speaker verification |
US9553681B2 (en) * | 2015-02-17 | 2017-01-24 | Adobe Systems Incorporated | Source separation using nonnegative matrix factorization with an automatically determined number of bases |
-
2015
- 2015-02-23 US US14/629,109 patent/US10013975B2/en active Active
- 2015-02-24 WO PCT/US2015/017336 patent/WO2015130685A1/en active Application Filing
- 2015-02-24 JP JP2016554210A patent/JP2017506767A/ja active Pending
- 2015-02-24 CN CN201580010366.XA patent/CN106030705A/zh active Pending
- 2015-02-24 KR KR1020167024059A patent/KR20160125984A/ko unknown
- 2015-02-24 EP EP15710339.1A patent/EP3111445B1/en active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20020165711A1 (en) * | 2001-03-21 | 2002-11-07 | Boland Simon Daniel | Voice-activity detection using energy ratios and periodicity |
CN1871501A (zh) * | 2003-10-23 | 2006-11-29 | 松下电器产业株式会社 | 频谱编码装置、频谱解码装置、音响信号发送装置、音响信号接收装置及其使用方法 |
US20090119097A1 (en) * | 2007-11-02 | 2009-05-07 | Melodis Inc. | Pitch selection modules in a system for automatic transcription of sung or hummed melodies |
CN101441872A (zh) * | 2007-11-19 | 2009-05-27 | 三菱电机株式会社 | 利用受限非负矩阵分解对声学信号去噪 |
US20120185246A1 (en) * | 2011-01-19 | 2012-07-19 | Broadcom Corporation | Noise suppression using multiple sensors of a communication device |
US20130132077A1 (en) * | 2011-05-27 | 2013-05-23 | Gautham J. Mysore | Semi-Supervised Source Separation Using Non-Negative Techniques |
Non-Patent Citations (2)
Title |
---|
BHIKSHA RAJ ET AL.: "Phoneme-dependent NMF for speech enhancement in monaural mixtures", 《PROCEEDINGS OF INTERSPEECH 2011》 * |
CYRIL JODER ET AL.: "Exploring Nonnegative Matrix Factorization for Audio Classification: Application to Speaker Recognition", 《SPEECH COMMUNICATION;10.ITG SYMPOSIUM;PROCEEDING OF.VED》 * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107248414A (zh) * | 2017-05-23 | 2017-10-13 | 清华大学 | 一种基于多帧频谱和非负矩阵分解的语音增强方法与装置 |
CN108145974A (zh) * | 2017-12-29 | 2018-06-12 | 深圳职业技术学院 | 一种基于语音识别的3d打印成型的方法及系统 |
CN108986834A (zh) * | 2018-08-22 | 2018-12-11 | 中国人民解放军陆军工程大学 | 基于编解码器架构与递归神经网络的骨导语音盲增强方法 |
CN110931028A (zh) * | 2018-09-19 | 2020-03-27 | 北京搜狗科技发展有限公司 | 一种语音处理方法、装置和电子设备 |
CN110931028B (zh) * | 2018-09-19 | 2024-04-26 | 北京搜狗科技发展有限公司 | 一种语音处理方法、装置和电子设备 |
Also Published As
Publication number | Publication date |
---|---|
EP3111445A1 (en) | 2017-01-04 |
EP3111445B1 (en) | 2018-12-19 |
US20150243284A1 (en) | 2015-08-27 |
WO2015130685A1 (en) | 2015-09-03 |
KR20160125984A (ko) | 2016-11-01 |
JP2017506767A (ja) | 2017-03-09 |
US10013975B2 (en) | 2018-07-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106030705A (zh) | 用于基于说话者词典的语音建模的系统和方法 | |
CN106486131B (zh) | 一种语音去噪的方法及装置 | |
Barker et al. | The PASCAL CHiME speech separation and recognition challenge | |
Potamianos et al. | Robust recognition of children's speech | |
Yadav et al. | Addressing noise and pitch sensitivity of speech recognition system through variational mode decomposition based spectral smoothing | |
CN108831437A (zh) | 一种歌声生成方法、装置、终端和存储介质 | |
Valentini-Botinhao et al. | Speech enhancement of noisy and reverberant speech for text-to-speech | |
Yağlı et al. | Artificial bandwidth extension of spectral envelope along a Viterbi path | |
US9484044B1 (en) | Voice enhancement and/or speech features extraction on noisy audio signals using successively refined transforms | |
US9530434B1 (en) | Reducing octave errors during pitch determination for noisy audio signals | |
Krishnamoorthy et al. | Speaker recognition under limited data condition by noise addition | |
US9208794B1 (en) | Providing sound models of an input signal using continuous and/or linear fitting | |
CN106448673A (zh) | 一种汉语电子喉语音转换方法 | |
US9058820B1 (en) | Identifying speech portions of a sound model using various statistics thereof | |
Kathania et al. | Explicit pitch mapping for improved children’s speech recognition | |
Zouhir et al. | A bio-inspired feature extraction for robust speech recognition | |
KR102198598B1 (ko) | 합성 음성 신호 생성 방법, 뉴럴 보코더 및 뉴럴 보코더의 훈련 방법 | |
Yanagisawa et al. | Noise robustness in HMM-TTS speaker adaptation | |
Han et al. | Language informed bandwidth expansion | |
Kathania et al. | On the role of linear, mel and inverse-mel filterbank in the context of automatic speech recognition | |
CN113345416B (zh) | 语音合成方法、装置及电子设备 | |
Wolf | Channel selection and reverberation-robust automatic speech recognition | |
KR102198597B1 (ko) | 뉴럴 보코더 및 화자 적응형 모델을 구현하기 위한 뉴럴 보코더의 훈련 방법 | |
CN114299970A (zh) | 声码器的降噪方法及其声码器、电子设备和存储介质 | |
Xiao | Robust speech features and acoustic models for speech recognition |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20161012 |