CN102934159A - 语音音频处理 - Google Patents
语音音频处理 Download PDFInfo
- Publication number
- CN102934159A CN102934159A CN2011800276020A CN201180027602A CN102934159A CN 102934159 A CN102934159 A CN 102934159A CN 2011800276020 A CN2011800276020 A CN 2011800276020A CN 201180027602 A CN201180027602 A CN 201180027602A CN 102934159 A CN102934159 A CN 102934159A
- Authority
- CN
- China
- Prior art keywords
- noise
- speech
- speaker
- information
- audio
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000012545 processing Methods 0.000 title abstract description 7
- 238000000034 method Methods 0.000 claims description 23
- 230000008569 process Effects 0.000 claims description 19
- 210000004704 glottis Anatomy 0.000 claims description 7
- 230000008878 coupling Effects 0.000 claims description 4
- 238000010168 coupling process Methods 0.000 claims description 4
- 238000005859 coupling reaction Methods 0.000 claims description 4
- 230000007613 environmental effect Effects 0.000 claims 2
- 238000001914 filtration Methods 0.000 abstract description 16
- 206010038743 Restlessness Diseases 0.000 description 10
- 238000010586 diagram Methods 0.000 description 9
- 238000005516 engineering process Methods 0.000 description 4
- YBMRDBCBODYGJE-UHFFFAOYSA-N germanium dioxide Chemical compound O=[Ge]=O YBMRDBCBODYGJE-UHFFFAOYSA-N 0.000 description 4
- 239000011159 matrix material Substances 0.000 description 4
- 230000008447 perception Effects 0.000 description 4
- 230000002093 peripheral effect Effects 0.000 description 4
- 230000005669 field effect Effects 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 241001123248 Arma Species 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 230000005236 sound signal Effects 0.000 description 2
- 230000007704 transition Effects 0.000 description 2
- 230000018199 S phase Effects 0.000 description 1
- 238000004378 air conditioning Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000000712 assembly Effects 0.000 description 1
- 238000000429 assembly Methods 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 239000004020 conductor Substances 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000006866 deterioration Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000005284 excitation Effects 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 231100001261 hazardous Toxicity 0.000 description 1
- 238000009413 insulation Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 239000002184 metal Substances 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000001259 photo etching Methods 0.000 description 1
- 230000035479 physiological effects, processes and functions Effects 0.000 description 1
- 230000035790 physiological processes and functions Effects 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000011664 signaling Effects 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 210000001260 vocal cord Anatomy 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/20—Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0264—Noise filtering characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L21/0224—Processing in the time domain
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L21/0232—Processing in the frequency domain
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/93—Discriminating between voiced and unvoiced parts of speech signals
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Quality & Reliability (AREA)
- Soundproofing, Sound Blocking, And Sound Damping (AREA)
- Circuit For Audible Band Transducer (AREA)
- Fittings On The Vehicle Exterior For Carrying Loads, And Devices For Holding Or Mounting Articles (AREA)
- Circuits Of Receivers In General (AREA)
Abstract
本发明提供一种语音处理引擎,在一些实施例中,该语音处理引擎采用具有特定发话者的声门信息的卡尔曼滤波以净化音频语音信号,从而实现更有效的自动语音识别。
Description
技术领域
本发明一般涉及音频处理并具体涉及语音信号处理。
附图简述
本发明的实施例在附图的各个示图中作为示例而非限制示出,在附图中类似的附图标记表示相似的要素。
图1是根据一些实施例的语音处理引擎的示图。
图2是根据一些实施例的合成器的示图。
图3是根据一些实施例实现语音处理引擎的结构的示图。
图4是根据一些实施例的电子设备平台的示图。
具体实施方式
话音命令和连续语音识别用于例如具有键盘功能有限的车内应用和电话的移动互联网设备。需要对任何语音识别引擎提供干净的输入,但环境中的背景噪声妨碍了这个目标。例如,试验已表明,开放式口述字词的准确性在汽车噪声和自助餐厅环境中可能下降大约20%,这对于用户而言可能难以接受。
当今的语音引擎具有一些降噪特征以降低背景噪声的影响。然而,这些特征可能不足以在有挑战的环境中允许开放式口述。因此,可使用卡尔曼(Kalman)滤波技术来改进语音信号处理。
通过本文给出的一些实施例,可通过将音频噪声滤波处理分路成独立的语音识别路径和人接收路径来提高语音识别性能。也就是说,可克隆音频路径来产生“感知”(或听觉接收)信道和用于语音识别引擎的预处理音频的独立信道。
图1是根据一些实施例的语音处理引擎102的框图。它包括基于卡尔曼的滤波引擎104、发话者/话音模型106、环境噪声模型107、自动语音识别(ASR)引擎108以及标准噪声抑制块110。
音频(例如来自麦克风的数字化音频)进入SPE(语音处理引擎)并被分成两条路径:进入卡尔曼滤波器块104的语音识别路径以及使用块110中的标准噪声抑制技术处理以由用户接收的音频感知路径(克隆的音频)。卡尔曼滤波器利用来自发话者/话音模型106的分量以及来自环境噪声模型107的分量,以从音频信号滤除噪声并将经滤波的信号提供给自动语音识别(ASR)引擎108。
发话者/话音模型106(至少最初版本)是在SPE执行之前产生的,因为SPE要对其进行处理,尽管最初版本可能相当朴素(bare),并且语音/话音模型可在SPE执行时进行更新。发话者/话音引擎106提供与当前发话者相关的特定特征。这些特征可包括一个或多个声门谐波(glottal harmonic)(包括用户的特定基本声门频率)以及任何其它适合的信息。例如,如果先前获得的模型(例如从用户训练得到)是可用的,则它们也可被纳入到发话者/用户模型106中。如所指出的,也可使用针对特定用户的先前产生的“干净”音频信息(x’(n))。
与发话者/话音模型相似,环境噪声模型107可基于假设的噪声环境或者特定的或先前表征的环境(例如办公室、汽车、飞机等)的最初缺省数据/假设。它可以是与环境关联的静态数据(例如假设的背景噪声要素)和/或它可包括从实时传感器等获得的动态数据。例如,它可包括诸如汽车车速、背景噪声麦克风数据和空调信息之类的传感器输入,以改善噪声模型估计器的性能。在一些实施例中,可通过使用话音活动检测器算法检测语音存在的周期,来例如对单个信道采用噪声估计方法。可使用噪声模型和卡尔曼滤波之间的迭代循环来进一步改善噪声模型。
滤波器104可使用发话者模型和噪声模型中的任一个或两者来对所接收的音频信号进行滤波。同样,从发话者模型开始,可使用扩展,来将脉冲形式的周期性分量加入卡尔曼滤波以将语音源(例如使用诸如口述、话音控制或翻译设备的人或其它实体发话者)产生的声门谐波考虑在内。卡尔曼滤波已典型地用于白噪声输入,但在人声语音的情形下,周期性输入的添加可更接近地模仿语音产生的生理机能。包括预定模型信息和声门谐波参数的发话者模型信息可用来加载发话者模型的一组预定或先前确定的系数。卡尔曼滤波得到的音频不一定显著地提高人感知,但它通常提高语音识别引擎的性能。因此,音频路径被克隆(两条路径)以使用卡尔曼预处理滤波来使人感知和语音识别输入两者最大化。
使用卡尔曼技术的执行滤波器104可用来将声道响应建模成AR或ARMA系统,该AR或ARMA系统使用独立输入和驱动噪声以及将附加有色噪声考虑在内的噪声观察。
在传统卡尔曼应用中,驱动周期性输入通常被忽略,并为简化起见仅使用驱动白噪声。这种假设暗示滤波器将(在理想性能下)产生既不具有生理值也并非自然声音的干净但无话音的语音信号。然而,在仅需要滤波器参数的情形下,这种假设是充分的。
另一方面,已确定线性卡尔曼滤波器可捕获在话音产生中观察到的基础交互特征,由此在吵杂条件下得出对干净输入的更好估计。当与CP分析和源建模结合时,例如对于语音处理应用,它可执行得更好。这种性质的方案中的误差关联于其参数估计误差并且不是生理/听觉误传的产物。因此,本文公开的语音改善方案基于线性卡尔曼滤波器,其结构在下表中“线性”标题下示出。
状态xk对应于由声门源uk和环境噪声wk产生的干净语音输入(x不是对SPE的实际输入)。测得的信号yk被观察噪声vk恶化。如前所述,以前的卡尔曼方法为简便起见忽略周期性输入uk,从而得出白噪声激励的语音。然而,包括这种周期性输入和状态转变矩阵的CP表示提供对干净输入xk的更好估计并因此提供更好的语音识别性能。在下面的章节中,将对这里运用的卡尔曼滤波作更详细的讨论。
在一些实施例中,基于卡尔曼滤波模型的方法用于语音改善。它假设干净的语音遵循由背景噪声线性恶化的特定表示。通过标准卡尔曼滤波,干净语音一般是使用自回归(AR)模型表示的,该AR模型通常将白高斯噪声作为输入。这以离散时间方程1表示。
在x[n]是干净语音,αn是AR或线性预测编码(LPC)系数,w[n]是白噪声输入,而p是AR模型的阶数(通常假设其遵循经验规则p=fs/1000+2,其中fs是以kHz为单位的采样率)。可重写该模型以产生卡尔曼滤波器所需要的合需结构,如方程(2)和(3)所示。由此,
xk+1=Φxk+Gwk (2)
yk=Hxk+vk (3)
其中xk+1和xk是包含将来和当前干净语音的p个样本的矢量,Φ是在可控规范形式的最后一行中包含LPC系数的状态转变矩阵,wk表示被转换成经由矢量增益G影响当前样本的矢量的白噪声输入。干净语音经由投影矢量H投影以获得当前样本,该当前样本被线性地加至背景噪声vk以产生恶化的观察或噪声语音yk。
卡尔曼滤波包括两个基础步骤:传播步骤和更新步骤。在传播步骤中,模型用来基于先前的估计预测当前样本(因此具有n∣n-1的注释)。这表示在方程(4)中。注意只需要包含先前p个点的一个矢量的一个缓冲器。更新步骤在方程(5)-(7)中描述,其中在考虑预测和估计之间误差的情况下,首先校正预测的样本。该误差受卡尔曼增益Kn控制,它在方程(6)和(7)中有定义。注意所有这些参数可在每帧内被计算一次,即,语音在每帧内被认为是固定的进程(通常持续时间不超过25ms)。
Kn=Pn|n-1Hn T(HnPn|n-1Hn T+Rn)-1 (6)
Pn|n=I-(KnHn)Pn|n-1 (7)
在这项方案中提出的“经修改的卡尔曼滤波器”通过将两种基础噪声假设归纳到系统中而扩展了标准滤波器,这两种基础噪声假设是假设声门脉冲也在话音段期间驱动AR模型以及假设背景噪声具有与之关联的共振(非白进程)。声门脉冲由u[n]表示并当存在声带振动时出现。假设背景噪声遵循q阶AR模型(它可被估计,例如凭经验获得为q=fs/2000)。因此,表示系统的新结构的两个方程是:
由于语音和噪声的模型具有相似的结构,因此可通过创建嵌入到较大对角矩阵中的两个子系统来扩展卡尔曼滤波器所需的状态方程。相同的系统结构用于跟踪如方程(10)-(13)所示的语音和噪声,这些方程中的下标s指示语音而v指示背景噪声。声门脉冲仅被引入到当前样本中,对于当前样本,矢量B具有与G相同的结构。
xk+1=Φxk+Buk+Gwk (10)
yk=Hxk+vk (11)
H=[Hs Hv] (13)
计算卡尔曼传播和更新的方程与标准卡尔曼滤波器不同,除其它原因外,是因为包括声门脉冲且不包括噪声协方差矩阵Rn,因为噪声被滤波器本身跟踪。这些改变通过用方程(14)修改方程(14)并用方程(15)修改方程(6)来表示。因此,
Kn=Pn|n-1Hn T(HnPn|n-1Hn T)-1 (15)
通过这些修改,滤波器更好地表示语音信号和背景噪声状况,由此得出更好的噪声去除和ASR性能。
新的卡尔曼滤波技术不仅能用于增进语音识别而且能改善语音合成。参见图2,图2示出了基于时域的合成器示图。所提出的方案具有将应用于输入信号的三个互相过程进行组合的设计。第一支路识别源分量的性质并创建源信号。第二支路搜索滤波器结构并应用CP(克隆相)分析或全帧分析以定义滤波器的线性预测系数(LPC)。第三支路检测包络并确保合成声音的稳定性。这些支路以顺序或并行方式计算并可使用不同的帧和开窗结构(例如在一些应用中,第一支路可使用矩形窗和非重叠帧,而第二支路可使用例如50%重叠的Hamming(加重平均)),只要交互级别被正确处理。
图3示出为了降低功耗而在例如移动设备之类中实现音频处理引擎的前端的总体结构。其示出对例如图1的SPE 102构造不同块的节能方式。它被分为计算密集块301和存储器访问密集的后端305。计算密集的前端301具有滤波器处理部302和判定块304,判定块304用于判定输入音频中是否具有语音。存储器密集的后端305具有用于产生和更新发话者模型的发话者模型块306以及用于执行ASR的语音识别块308。注意,发话者模型块306也可具有噪音模型部,用于产生噪音模型的全部或部分。音频进入前端301,由滤波器302处理,并且如果在判定块304判定具有语音,则发话者模型和语音识别块306、308被激活以处理来自滤波器302的经滤波语音信号。
通过减少硬件前端的存储器要求,可允许使用低功率操作以增加每瓦特的操作次数。前端301中的语音改善算法的硬件实现提供实现低功率的机会并还允许使用阈值检测器304以将苏醒信号提供给处理器硬件的后端。后端305提供语音识别算法的硬件实现(例如基于HMM和/或神经网络)和高性能,这种硬件实现通常是存储器密集。由此通过将硬件(例如SPE硬件)分成计算密集的前端和高性能的后端,也可实现“话音苏醒”和“持续侦听”特征以用于语音改善和识别。
图4示出例如用于便携式计算设备、智能电话等电子设备平台402的示例。所示出的部分包括一个或多个处理核404、图形处理器(GPX)406、存储器控制器中枢(MCH)408、IO部410以及功率管理部416。GPX 406与显示器407接口以提供视频内容。MCH 408与存储器409接口以为平台提供附加的存储器(例如易失性或非易失性)。功率管理部416控制电源(例如电池、适配器转换器、VR等)以将功率提供给不同的平台部分,还管理不同的活动状态以在可行时降低功耗。
IO部410包括音频处理部412和外围接口414。外围接口提供与多个不同外围设备415通信并启用这些外围设备415(键盘、无线接口、打印机等)的接口(例如PCI、USB)。音频处理部412可接收各种音频输入/输出(模拟和/或数字)以向用户提供/从用户接收音频内容。它也可与内部模块通信以例如在用户和网络(例如小区、互联网等)之间传递音频。音频处理部412包括各种组件(例如A/D/A转换器、编解码器等),用于如平台402的功能规定那样处理音频。具体地说,音频Px 412包括如本文描述的用于实现语音处理的SPE 413。具体地说,它可包括如图3所描述的高能效结构。
在之前的描述中,阐述了多个具体细节。然而,可理解的是本发明的实施例可以在没有这些具体细节的情况下实施。在其它情况下,可能没有详细示出公知的电路、结构和技术,以免使本说明书的理解变得晦涩。鉴于此,对“一个实施例”、“实施例”、“示例实施例”、“各实施例”等的引用表示如此描述的本发明实施例可包括具体的特征、结构或特性,但并不一定每个实施例都必须包括那些具体的特征、结构或特性。此外,一些实施例可具有针对其它实施例描述的特征中的一些、全部或者不具有这些特征。
在之前的说明书和所附权利要求书中,以下术语应当作如下解释:可使用术语“耦合”和“连接”以及其衍生词。应当理解,这些术语并不意图作为彼此的同义词。相反,在具体实施例中,“连接”用于指示两个或更多个要素彼此直接物理或电气接触。“耦合”用于指示两个或多个要素彼此合作或相互作用,但它们可以直接物理或电气接触或者可以不直接物理或电气接触。
术语“PMOS晶体管”表示P型金属氧化物半导体场效应晶体管。同样,术语“NMOS晶体管”表示N型金属氧化物半导体场效应晶体管。应当理解,无论何时采用下述术语:使用“MOS晶体管”、“NMOS晶体管”或“PMOS晶体管”,除非另外明确指出或由其用途性质所决定,否则它们是以示例方式使用的。它们涵盖了不同种类的MOS器件,包括具有不同VT、材料类型、绝缘体厚度、栅极构造的器件,这仅仅列举出了几个例子。此外,除非明确被称为MOS或类似物,否则术语“晶体管”可包括其它适宜的晶体管类型,例如结型场效应晶体管、双极结型晶体管、金属半导体FET以及各种类型的三维晶体管、MOS或其它目前已知或尚未研发出的晶体管。
本发明不限于所描述的实施例,而能在所附权利要求书的精神和范围内通过修改和变更来实施。例如,应理解本发明能适用于所有类型的半导体集成电路(“IC”)芯片。这些IC芯片的示例包括但不限于处理器、控制器、芯片组部件、可编程逻辑阵列(PLA)、存储器芯片、网络芯片及类似物。
应理解,在一些附图中,通过直线表示信号导体线。一些线可能较粗,以指示更多的组成信号路径,一些线具有数字标记,以指示数个组成信号路径,和/或一些线在一端或多个端具有箭头,以指示主要的信息流向。然而,这不应当以限制的方式来解释。相反,这些新增的细节可与一个或多个示例性实施例结合地使用,以使电路更容易理解。任何图示的信号线(无论是否具有附加信息)可实际上包括沿多个方向行进的一个或多个信号,并可通过任何适当类型的信号方案来实现,例如利用差分对实现的数字线路或模拟线路、光纤线路和/或单端线路。
应理解,可能已给出示例尺寸/模型/值/范围,但是本发明不限于此。随着制造技术(例如光刻法)随时间而成熟,可望制造出尺寸更小的器件。此外,为了说明和讨论简单起见并且为了不使本发明变得晦涩,在附图中可能示出或未示出与IC芯片和其它组件的公知电源/接地连接。此外,可以框图形式示出多种安排,以避免使本发明变得晦涩,并鉴于相对于这些框图安排的实现的具体细节很大程度地依赖于本发明实现的平台这一事实,即这些具体细节应当落在本领域内技术人员的眼界内。在阐述具体细节(例如电路)以描述本发明的示例性实施例的情形下,显然本领域内技术人员能在对这些具体细节作出变化或不作出变化的情况下实现本发明。因此这些描述被视为是说明性的而非限制性的。
Claims (16)
1.一种装置,包括:
具有第一和第二音频语音路径的语音处理引擎,所述第一路径被提供给听觉接收器;以及
耦合至所述第二路径以接收音频语音信号并从中去除噪声的卡尔曼滤波器,所述卡尔曼滤波器至少部分地基于包括发话者声门信息的发话者模型去除所述噪声。
2.如权利要求1所述的装置,其特征在于,所述滤波器也基于结合环境噪声信息的噪声模型来去除噪声。
3.如权利要求2所述的装置,其特征在于,所述环境噪声信息包括实时信息。
4.如权利要求3所述的装置,其特征在于,所述实时信息包括来自一个或多个噪声传感器的信息。
5.如权利要求1所述的装置,其特征在于,所述发话者模型结合对发话者先前产生的经噪声去除的语音信号信息。
6.如权利要求1所述的装置,其特征在于,所述滤波器实现在前端部,所述发话者模型实现在后端部,如果在所述音频语音信号中检测到语音,则启用后端部。
7.如权利要求6所述的装置,其特征在于,所述语音处理引擎包括语音识别引擎。
8.如权利要求7所述的装置,其特征在于,所述语音识别引擎是后端部的一部分。
9.一种电子设备,包括:
音频处理部,所述音频处理部包括具有第一和第二音频语音路径的语音处理引擎,所述第一路径被提供给听觉接收器;以及
耦合至所述第二路径以接收音频语音信号并从中去除噪声的卡尔曼滤波器,所述卡尔曼滤波器至少部分地基于包括发话者声门信息的发话者模型去除所述噪声。
10.如权利要求9所述的电子设备,其特征在于,所述滤波器也基于结合环境噪声信息的噪声模型来去除噪声。
11.如权利要求10所述的电子设备,其特征在于,所述环境噪声信息包括实时信息。
12.如权利要求11所述的电子设备,其特征在于,所述实时信息包括来自一个或多个噪声传感器的信息。
13.如权利要求9所述的电子设备,其特征在于,所述发话者模型结合对发话者先前产生的经噪声去除的语音信号信息。
14.如权利要求9所述的电子设备,其特征在于,所述滤波器实现在前端部,所述发话者模型实现在后端部,如果在所述音频语音信号中检测到语音,则启用后端部。
15.如权利要求14所述的电子设备,其特征在于,所述语音处理引擎包括语音识别引擎。
16.如权利要求15所述的电子设备,其特征在于,所述语音识别引擎是后端部的一部分。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US12/828,195 | 2010-06-30 | ||
US12/828,195 US8725506B2 (en) | 2010-06-30 | 2010-06-30 | Speech audio processing |
PCT/US2011/042515 WO2012003269A2 (en) | 2010-06-30 | 2011-06-30 | Speech audio processing |
Publications (2)
Publication Number | Publication Date |
---|---|
CN102934159A true CN102934159A (zh) | 2013-02-13 |
CN102934159B CN102934159B (zh) | 2015-12-16 |
Family
ID=45400342
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201180027602.0A Expired - Fee Related CN102934159B (zh) | 2010-06-30 | 2011-06-30 | 语音音频处理 |
Country Status (7)
Country | Link |
---|---|
US (1) | US8725506B2 (zh) |
EP (1) | EP2589047A4 (zh) |
JP (1) | JP5644013B2 (zh) |
KR (1) | KR101434083B1 (zh) |
CN (1) | CN102934159B (zh) |
TW (1) | TWI455112B (zh) |
WO (1) | WO2012003269A2 (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104464732A (zh) * | 2013-09-20 | 2015-03-25 | 联想(新加坡)私人有限公司 | 基于情境的音频滤波器选择 |
CN107481733A (zh) * | 2016-06-08 | 2017-12-15 | 福特全球技术公司 | 声信号的选择性放大 |
CN110495185A (zh) * | 2018-03-09 | 2019-11-22 | 深圳市汇顶科技股份有限公司 | 语音信号处理方法及装置 |
CN110738990A (zh) * | 2018-07-19 | 2020-01-31 | 南京地平线机器人技术有限公司 | 识别语音的方法和装置 |
CN113053382A (zh) * | 2021-03-30 | 2021-06-29 | 联想(北京)有限公司 | 处理方法和装置 |
Families Citing this family (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8725506B2 (en) | 2010-06-30 | 2014-05-13 | Intel Corporation | Speech audio processing |
US8812014B2 (en) * | 2010-08-30 | 2014-08-19 | Qualcomm Incorporated | Audio-based environment awareness |
US9947333B1 (en) * | 2012-02-10 | 2018-04-17 | Amazon Technologies, Inc. | Voice interaction architecture with intelligent background noise cancellation |
US9384759B2 (en) | 2012-03-05 | 2016-07-05 | Malaspina Labs (Barbados) Inc. | Voice activity detection and pitch estimation |
US9437213B2 (en) | 2012-03-05 | 2016-09-06 | Malaspina Labs (Barbados) Inc. | Voice signal enhancement |
US9020818B2 (en) | 2012-03-05 | 2015-04-28 | Malaspina Labs (Barbados) Inc. | Format based speech reconstruction from noisy signals |
US20140358552A1 (en) * | 2013-05-31 | 2014-12-04 | Cirrus Logic, Inc. | Low-power voice gate for device wake-up |
US9413434B2 (en) | 2013-10-04 | 2016-08-09 | Intel Corporation | Cancellation of interfering audio on a mobile device |
US10565984B2 (en) | 2013-11-15 | 2020-02-18 | Intel Corporation | System and method for maintaining speech recognition dynamic dictionary |
US9449602B2 (en) * | 2013-12-03 | 2016-09-20 | Google Inc. | Dual uplink pre-processing paths for machine and human listening |
KR102216048B1 (ko) | 2014-05-20 | 2021-02-15 | 삼성전자주식회사 | 음성 명령 인식 장치 및 방법 |
US9858922B2 (en) | 2014-06-23 | 2018-01-02 | Google Inc. | Caching speech recognition scores |
CN104463841A (zh) * | 2014-10-21 | 2015-03-25 | 深圳大学 | 衰减系数自适应的滤波方法及滤波系统 |
US9299347B1 (en) * | 2014-10-22 | 2016-03-29 | Google Inc. | Speech recognition using associative mapping |
US9786270B2 (en) | 2015-07-09 | 2017-10-10 | Google Inc. | Generating acoustic models |
US10229672B1 (en) | 2015-12-31 | 2019-03-12 | Google Llc | Training acoustic models using connectionist temporal classification |
DK3217399T3 (en) * | 2016-03-11 | 2019-02-25 | Gn Hearing As | Kalman filtering based speech enhancement using a codebook based approach |
US20180018973A1 (en) | 2016-07-15 | 2018-01-18 | Google Inc. | Speaker verification |
US10706840B2 (en) | 2017-08-18 | 2020-07-07 | Google Llc | Encoder-decoder models for sequence to sequence mapping |
US12080317B2 (en) | 2019-08-30 | 2024-09-03 | Dolby Laboratories Licensing Corporation | Pre-conditioning audio for echo cancellation in machine perception |
GB202104280D0 (en) * | 2021-03-26 | 2021-05-12 | Samsung Electronics Co Ltd | Method and apparatus for real-time sound enhancement |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5148488A (en) * | 1989-11-17 | 1992-09-15 | Nynex Corporation | Method and filter for enhancing a noisy speech signal |
CN1104010A (zh) * | 1993-02-23 | 1995-06-21 | 莫托罗拉公司 | 产生用于话音编码器的频谱噪音加权滤波器的方法 |
US20090222263A1 (en) * | 2005-06-20 | 2009-09-03 | Ivano Salvatore Collotta | Method and Apparatus for Transmitting Speech Data To a Remote Device In a Distributed Speech Recognition System |
US20100131269A1 (en) * | 2008-11-24 | 2010-05-27 | Qualcomm Incorporated | Systems, methods, apparatus, and computer program products for enhanced active noise cancellation |
Family Cites Families (33)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5774846A (en) * | 1994-12-19 | 1998-06-30 | Matsushita Electric Industrial Co., Ltd. | Speech coding apparatus, linear prediction coefficient analyzing apparatus and noise reducing apparatus |
US5864810A (en) * | 1995-01-20 | 1999-01-26 | Sri International | Method and apparatus for speech recognition adapted to an individual speaker |
JP3522012B2 (ja) * | 1995-08-23 | 2004-04-26 | 沖電気工業株式会社 | コード励振線形予測符号化装置 |
US6377919B1 (en) * | 1996-02-06 | 2002-04-23 | The Regents Of The University Of California | System and method for characterizing voiced excitations of speech and acoustic signals, removing acoustic noise from speech, and synthesizing speech |
KR20000022285A (ko) * | 1996-07-03 | 2000-04-25 | 내쉬 로저 윌리엄 | 음성 액티비티 검출기 및 검출 방법 |
TW309675B (en) | 1996-12-26 | 1997-07-01 | Yiing Lii | Method and apparatus for complex fuzzy signal processing |
US5970446A (en) * | 1997-11-25 | 1999-10-19 | At&T Corp | Selective noise/channel/coding models and recognizers for automatic speech recognition |
US6408269B1 (en) * | 1999-03-03 | 2002-06-18 | Industrial Technology Research Institute | Frame-based subband Kalman filtering method and apparatus for speech enhancement |
TW425542B (en) | 1999-03-19 | 2001-03-11 | Ind Tech Res Inst | Kalman filter for speech enhancement |
US7117157B1 (en) * | 1999-03-26 | 2006-10-03 | Canon Kabushiki Kaisha | Processing apparatus for determining which person in a group is speaking |
US6954745B2 (en) | 2000-06-02 | 2005-10-11 | Canon Kabushiki Kaisha | Signal processing system |
US7072833B2 (en) * | 2000-06-02 | 2006-07-04 | Canon Kabushiki Kaisha | Speech processing system |
US20020026253A1 (en) | 2000-06-02 | 2002-02-28 | Rajan Jebu Jacob | Speech processing apparatus |
JP2002006898A (ja) | 2000-06-22 | 2002-01-11 | Asahi Kasei Corp | ノイズ低減方法及びノイズ低減装置 |
US7457750B2 (en) * | 2000-10-13 | 2008-11-25 | At&T Corp. | Systems and methods for dynamic re-configurable speech recognition |
US6850887B2 (en) * | 2001-02-28 | 2005-02-01 | International Business Machines Corporation | Speech recognition in noisy environments |
WO2002077972A1 (en) * | 2001-03-27 | 2002-10-03 | Rast Associates, Llc | Head-worn, trimodal device to increase transcription accuracy in a voice recognition system and to process unvocalized speech |
US6757651B2 (en) * | 2001-08-28 | 2004-06-29 | Intellisist, Llc | Speech detection system and method |
WO2003036614A2 (en) * | 2001-09-12 | 2003-05-01 | Bitwave Private Limited | System and apparatus for speech communication and speech recognition |
JP2003271191A (ja) * | 2002-03-15 | 2003-09-25 | Toshiba Corp | 音声認識用雑音抑圧装置及び方法、音声認識装置及び方法並びにプログラム |
US20040064315A1 (en) * | 2002-09-30 | 2004-04-01 | Deisher Michael E. | Acoustic confidence driven front-end preprocessing for speech recognition in adverse environments |
KR100633985B1 (ko) | 2004-05-04 | 2006-10-16 | 주식회사 팬택앤큐리텔 | 단말기에서의 에코 및 잡음 제거 장치 |
EP1878012A1 (en) * | 2005-04-26 | 2008-01-16 | Aalborg Universitet | Efficient initialization of iterative parameter estimation |
US8744844B2 (en) * | 2007-07-06 | 2014-06-03 | Audience, Inc. | System and method for adaptive intelligent noise suppression |
CN101281744B (zh) | 2007-04-04 | 2011-07-06 | 纽昂斯通讯公司 | 语音分析方法和装置以及语音合成方法和装置 |
KR100930584B1 (ko) * | 2007-09-19 | 2009-12-09 | 한국전자통신연구원 | 인간 음성의 유성음 특징을 이용한 음성 판별 방법 및 장치 |
WO2009116291A1 (ja) | 2008-03-21 | 2009-09-24 | 学校法人東京理科大学 | 雑音抑圧装置および雑音抑圧方法 |
US8121837B2 (en) * | 2008-04-24 | 2012-02-21 | Nuance Communications, Inc. | Adjusting a speech engine for a mobile computing device based on background noise |
KR101056511B1 (ko) * | 2008-05-28 | 2011-08-11 | (주)파워보이스 | 실시간 호출명령어 인식을 이용한 잡음환경에서의음성구간검출과 연속음성인식 시스템 |
JP5153886B2 (ja) * | 2008-10-24 | 2013-02-27 | 三菱電機株式会社 | 雑音抑圧装置および音声復号化装置 |
US8660281B2 (en) * | 2009-02-03 | 2014-02-25 | University Of Ottawa | Method and system for a multi-microphone noise reduction |
KR101253102B1 (ko) * | 2009-09-30 | 2013-04-10 | 한국전자통신연구원 | 음성인식을 위한 모델기반 왜곡 보상형 잡음 제거 장치 및 방법 |
US8725506B2 (en) | 2010-06-30 | 2014-05-13 | Intel Corporation | Speech audio processing |
-
2010
- 2010-06-30 US US12/828,195 patent/US8725506B2/en not_active Expired - Fee Related
-
2011
- 2011-06-30 TW TW100123111A patent/TWI455112B/zh not_active IP Right Cessation
- 2011-06-30 KR KR1020127031843A patent/KR101434083B1/ko active IP Right Grant
- 2011-06-30 CN CN201180027602.0A patent/CN102934159B/zh not_active Expired - Fee Related
- 2011-06-30 WO PCT/US2011/042515 patent/WO2012003269A2/en active Application Filing
- 2011-06-30 EP EP11801384.6A patent/EP2589047A4/en not_active Withdrawn
- 2011-06-30 JP JP2013513424A patent/JP5644013B2/ja not_active Expired - Fee Related
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5148488A (en) * | 1989-11-17 | 1992-09-15 | Nynex Corporation | Method and filter for enhancing a noisy speech signal |
CN1104010A (zh) * | 1993-02-23 | 1995-06-21 | 莫托罗拉公司 | 产生用于话音编码器的频谱噪音加权滤波器的方法 |
US20090222263A1 (en) * | 2005-06-20 | 2009-09-03 | Ivano Salvatore Collotta | Method and Apparatus for Transmitting Speech Data To a Remote Device In a Distributed Speech Recognition System |
US20100131269A1 (en) * | 2008-11-24 | 2010-05-27 | Qualcomm Incorporated | Systems, methods, apparatus, and computer program products for enhanced active noise cancellation |
Non-Patent Citations (1)
Title |
---|
章旭景: "基于卡尔曼滤波的语音增强算法研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104464732A (zh) * | 2013-09-20 | 2015-03-25 | 联想(新加坡)私人有限公司 | 基于情境的音频滤波器选择 |
CN104464732B (zh) * | 2013-09-20 | 2017-10-31 | 联想(新加坡)私人有限公司 | 基于情境的音频滤波器选择 |
CN107481733A (zh) * | 2016-06-08 | 2017-12-15 | 福特全球技术公司 | 声信号的选择性放大 |
CN110495185A (zh) * | 2018-03-09 | 2019-11-22 | 深圳市汇顶科技股份有限公司 | 语音信号处理方法及装置 |
CN110738990A (zh) * | 2018-07-19 | 2020-01-31 | 南京地平线机器人技术有限公司 | 识别语音的方法和装置 |
CN110738990B (zh) * | 2018-07-19 | 2022-03-25 | 南京地平线机器人技术有限公司 | 识别语音的方法和装置 |
CN113053382A (zh) * | 2021-03-30 | 2021-06-29 | 联想(北京)有限公司 | 处理方法和装置 |
Also Published As
Publication number | Publication date |
---|---|
TW201222527A (en) | 2012-06-01 |
JP2013531275A (ja) | 2013-08-01 |
WO2012003269A2 (en) | 2012-01-05 |
JP5644013B2 (ja) | 2014-12-24 |
WO2012003269A3 (en) | 2012-03-29 |
US8725506B2 (en) | 2014-05-13 |
KR101434083B1 (ko) | 2014-08-25 |
TWI455112B (zh) | 2014-10-01 |
KR20130033372A (ko) | 2013-04-03 |
EP2589047A2 (en) | 2013-05-08 |
CN102934159B (zh) | 2015-12-16 |
US20120004909A1 (en) | 2012-01-05 |
EP2589047A4 (en) | 2015-11-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102934159B (zh) | 语音音频处理 | |
CN111261144B (zh) | 一种语音识别的方法、装置、终端以及存储介质 | |
EP1536414B1 (en) | Method and apparatus for multi-sensory speech enhancement | |
US20180301158A1 (en) | Speech noise reduction method and device based on artificial intelligence and computer device | |
KR101004495B1 (ko) | 증분 베이즈 학습을 사용하는 잡음 추정 방법 | |
CN103377651B (zh) | 语音自动合成装置及方法 | |
CN107666638B (zh) | 一种估计录音延迟的方法及终端设备 | |
CN110265040A (zh) | 声纹模型的训练方法、装置、存储介质及电子设备 | |
CN102870156A (zh) | 音频通信设备、输出音频信号的方法和通信系统 | |
CN102969001A (zh) | 用于双麦克风通信装置的降噪 | |
CN103943104A (zh) | 一种语音信息识别的方法及终端设备 | |
CN101271686A (zh) | 使用语音信号的谐波估计噪声的方法和设备 | |
CN104126165A (zh) | 算术逻辑单元架构 | |
CN113436643A (zh) | 语音增强模型的训练及应用方法、装置、设备及存储介质 | |
CN110136689A (zh) | 基于迁移学习的歌声合成方法、装置及存储介质 | |
CN104978966B (zh) | 音频流中的丢帧补偿实现方法和装置 | |
CN106033669A (zh) | 语音识别方法及装置 | |
CN103915099B (zh) | 语音基音周期检测方法和装置 | |
CN106228976A (zh) | 语音识别方法和装置 | |
US20200098383A1 (en) | Filtering of a sound signal acquired by a voice recognition system | |
Srinivas et al. | Detection of vowel-like speech: an efficient hardware architecture and it's FPGA prototype | |
CN111104546B (zh) | 一种构建语料库的方法、装置、计算设备及存储介质 | |
Mourrane et al. | Event-driven continuous-time feature extraction for ultra low-power audio keyword spotting | |
Hwang et al. | Low power showdown: comparison of five DSP platforms implementing an LPC speech codec | |
Park et al. | Noise reduction scheme for speech recognition in mobile devices |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20151216 Termination date: 20210630 |
|
CF01 | Termination of patent right due to non-payment of annual fee |