CN102483926B - 在处理语音信号中通过把语音作为目标和忽略噪声以降噪的系统及方法 - Google Patents
在处理语音信号中通过把语音作为目标和忽略噪声以降噪的系统及方法 Download PDFInfo
- Publication number
- CN102483926B CN102483926B CN2010800330923A CN201080033092A CN102483926B CN 102483926 B CN102483926 B CN 102483926B CN 2010800330923 A CN2010800330923 A CN 2010800330923A CN 201080033092 A CN201080033092 A CN 201080033092A CN 102483926 B CN102483926 B CN 102483926B
- Authority
- CN
- China
- Prior art keywords
- harmonic
- signal
- frequency
- harmonic wave
- energy
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims abstract description 44
- 238000012545 processing Methods 0.000 title claims abstract description 30
- 230000009467 reduction Effects 0.000 title description 6
- 230000008685 targeting Effects 0.000 title 1
- 230000005236 sound signal Effects 0.000 claims description 17
- 238000000605 extraction Methods 0.000 claims description 9
- 230000003044 adaptive effect Effects 0.000 claims description 7
- 239000000284 extract Substances 0.000 claims description 5
- 238000001228 spectrum Methods 0.000 claims description 4
- 239000012141 concentrate Substances 0.000 description 11
- 238000004891 communication Methods 0.000 description 6
- 230000008569 process Effects 0.000 description 6
- 230000005540 biological transmission Effects 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 230000001771 impaired effect Effects 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 230000010332 selective attention Effects 0.000 description 2
- 230000036962 time dependent Effects 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 230000003935 attention Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 239000003990 capacitor Substances 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 230000005611 electricity Effects 0.000 description 1
- 230000008030 elimination Effects 0.000 description 1
- 238000003379 elimination reaction Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000008676 import Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000013011 mating Effects 0.000 description 1
- 229910044991 metal oxide Inorganic materials 0.000 description 1
- 150000004706 metal oxides Chemical class 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/20—Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L21/0232—Processing in the frequency domain
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0264—Noise filtering characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Noise Elimination (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Telephone Function (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
一种用于处理在噪声信道中传递或具有环境噪声的语音信号的系统及方法,所述系统及方法集中于被噪声损坏最轻的谐波子集,忽略具有低信噪比的信号谐波,以及忽略与语音不一致的振幅调制。
Description
相关申请的交叉引用
本申请要求于2009年7月27日提交的美国临时专利申请第61/228,925号的优先权,其全部内容在此通过引用并入本文。
发明背景
技术领域
本发明涉及在处理语音信号中的降噪。更具体地说,本发明涉及使用自适应滤波器以从含有噪声的语音信号中提取语音信息。
相关技术的描述
自动语音识别系统(“ASR”)将含有口头语言的音频信号转换成文本。这种系统的“前端”通过从目标语音信号中提取关键性的识别语音的“特征”来初始化转换过程。当目标语音信号被噪声损坏时,ASR系统的特征提取性能显著地降低。事实上,噪声阻碍了ASR系统在众多其他实践应用中的广泛使用。任何其他的使用口头语言作为输入信号并为了使该信号被更加清晰地听见或理解的目的而处理该信号的通讯或听觉系统同样如此,例如助听器、头戴耳机、或无线电设备、有线或基于互联网的声音通讯。
当前的降噪系统试图通过将噪声建模并将其从信号中减去以降低噪声。这些系统需要准确评估噪声信号。然而,由于噪声信号的不稳定性使准确评估非常困难,并且当噪声不同于所述模型或如果噪声随时间变化时,这些技术失效或限制了其有效性。
其他的方法依赖于试图训练ASR系统识别被噪声损坏的语音的训练模型。然而,环境噪声和系统噪声的幅值通常太大或过于动态而不能产生具有必要的可靠性的训练模型。
最后,其他的方法试图利用语音的谐波特性来改善语音识别。然而,检测和跟踪语音的谐波结构的先前尝试是不足够的。
发明概述
本发明涉及一种使用滤波器以从包含人类语音的噪声信号中提取语音信息和忽略所提取资料的不携带语音信息的部分的系统及方法。
本发明的某些实施方式涉及集中于被噪声损坏最轻的谐波子集。本发明的某些实施方式涉及忽略具有低信噪比的信号谐波。某些实施方式涉及忽略与语音不一致的振幅调制。本发明的目前优选的实施方式涉及处理信号的系统,所述系统集中于被噪声损坏最轻的谐波子集,忽略具有低信噪比的信号谐波,和忽略与语音不一致的振幅调制。
本发明的某些实施方式涉及一种具有处理器的系统,所述处理器包括多个用于执行自动语音提取的处理模块。在目前优选的实施方式中,处理器包括谐波频率识别器、自适应滤波器应用器、调制器、功率比构造器、低功率谐波消除器、和非语音谐波消除器,其中这些模块被配置为以这样的方式处理信号使得集中于被噪声损坏最轻的谐波子集、忽略具有低信噪比的信号谐波、和忽略与语音不一致的振幅调制。
附图简述
图1A是依据本发明的某些实施方式的说话者发出含有存储于音高和其谐波子集中的信息的单词的频率随时间变化的曲线图;
图1B是依据本发明的某些实施方式的语音信号谐波随时间变化的振幅调制值的曲线图;
图2图示了依据本发明的目前优选的实施方式的自动语音提取的方法;
图3A图示了原始声音信号的声谱图;
图3B图示了增加了噪声分量的声音信号的声谱图;
图3C图示了依据本发明的某些实施方式的声音信号的语音转换重构的声谱图;
图4A图示了依据本发明的某些实施方式的自动语音提取系统;
图4B图示了依据本发明的目前优选的实施方式的包括多个用于执行自动语音提取的处理模块的处理引擎;以及
图5是在计算机系统的示例性形式中的机器的示意性框图,在计算机系统内部可以编程一套指令以使该机器执行本发明的逻辑步骤。
本发明的详细描述
如以上解释的,众多建立用于处理计算机可识别的语音的系统的先前尝试都是以建模和消除噪声为中心的,并且当噪声条件不同于其模型时将失败。事实上,由于这个原因等,当前最先进的ASR系统无论何处也不能接近人的技能。其他的使用声音输入的系统同样如此,例如助听器、无线电设备,有线或基于互联网的语音通讯系统。
另一方面,人类可以可靠地理解在适量的众多不同类型的噪声中和在时变条件下的语音。人类并非通过消除噪声而是通过忽略噪声并将注意力更强烈地且有选择地集中于语音信息信号的相关方面来低效有噪声的语音信号中的噪声。我们的降噪方法的目标是比最先进的降噪技术更加接近人的技能。
语音信号由包含基波频率,即“音高”,和基波频率的整数倍,即“谐波”的谐波结构组成。浊音语音呈现出能量集中于音高和谐波处的谐波结构。这意味着在浊音语音中的能量集中于音高的频率和其整数倍的谐波频率中。
本发明是一种检测和跟踪所述谐波结构的系统及方法,其中与语音理解最相关的信号方面被提取。
发明人已经注意到,由于相关能量集中存在于谐波中,音高和其谐波具有最高的局部信噪比。这意味着,当噪声电平增大时,谐波是突显于噪声的信号的最后方面。谐波的振幅调制编码用于语音感知的信息。该信息有些冗余地被编码。因此,通过仅依赖于谐波的子集来传达语音信息。
由于可以通过选择性注意被噪声损坏最轻的谐波以接收消息,集中于谐波的子集将进一步提高人类理解语音的能力。本发明的目前优选的实施方式将同样具有这种选择性地集中于被噪声损坏最轻的谐波子集的能力。
对于本发明的目的,术语“噪声”将指声音信号中的任何不需要的噪音,包括但不局限于环境噪声、信道噪声、以及两者的结合。
存在众多允许选择性地集中于被较少损坏的谐波的方法。这些方法可以被单独使用或结合使用以选择性地集中于谐波子集。将在以下更加详细地解释这些方法。
图1A和1B图示了浊音语音的谐波结构和语音信号的谐波的振幅调制,其图示了谐波子集如何传达大部分的语音信息。
图1A是说话者发出单词“一”的频率随时间变化的曲线图。如图所示,单词“一”在时标37开始并进行至时标102。所述浊音语音的谐波结构清晰明显。
如以上解释的,语音信号的振幅调制提供了关于哪些谐波携带最多的语音信息的信息。图1B是以上单词“一”的发音的语音信号谐波随时间变化的振幅调制值的曲线图。如在图1B中所示,振幅调制的模式表示了语音。例如,在该单词的结尾处的“n噪音”期间只有最低的谐波具有较大的能量。
如以上解释的,由于可以通过选择性注意被噪声损坏最轻的谐波以接收消息,集中于谐波子集将进一步提高人类理解语音的能力。同样地,本发明的目前优选的实施方式涉及从可靠的谐波子集重构语音的系统及方法。
当语音产生时,通过声道的不断变化的配置导致了谐波的调制。发明人已经注意到,对语音信息进行编码的谐波的振幅调制非常慢:大约16Hz。
由于观察到大于16Hz的调制速率与语音源不一致,因此可以将其滤除,因地可以忽略比大约16Hz更加快速地调制谐波振幅的噪声。
本发明的目前优选的实施方式涉及通过三个独立的机制降噪的系统及方法。首先,忽略所有的非谐波能量。其次,忽略具有低信噪比的信号谐波。最后,忽略与语音不一致的振幅调制。
图2图示了依据本发明的目前优选的实施方式的自动语音提取的方法200。所述方法200开始于在自动语音识别系统中传输与接收声音信号201。其次,识别所述声音信号的音高及其谐波频率202。
通过处理信号本身的固有特性来识别所述声音信号的音高。在浊音语音期间,表现了强谐波模式。所述谐波是所述音高的整数倍。一套自适应窄带滤波器被用来在整个频谱跟踪局部最强的能量集中。这些滤波器将锁定谐波和其他较强的窄频信号。锁定的频率被检查以选择与谐波系列一致的频率。所述音高被选定作为谐波系列的基频。事实上,不需要滤波器锁定基频以确定所述音高。
在传入的语音信号中,所述谐波通过人说话来进行振幅调制。通过孤立谐波及其与语音源一致的振幅调制,我们捕获了许多相关的语音信息同时忽略了许多不相关的噪声。为了重构其大部分噪声被消除的信号,在所述振幅模式在1Hz和16Hz之间被带通滤波以消除与语音源不一致的调制之后,我们将利用其自身提取的振幅模式调制每一选定的谐波。
一旦所述基频及其谐波被识别,一个或多个过滤器被应用于信号以忽略非谐波能量203。所述自适应窄带滤波器通过其窄带使非谐波能量减弱。所述自适应滤波器使用处理器以从其输出估计瞬时频率和振幅。产生其中心频率等于估计值的窄带滤波器。计算所述瞬时频率和此频率的输出振幅以提供更加精确的估计值。在本发明的某些实施方式中,该精准化过程可以被重复更多的次数直到所述输出稳定。最终的估计值被用作下一步骤中的宽带滤波器的中心频率以跟踪谐波分量。
其次,仅调制所述谐波信号204。在目前优选的实施方式中,调制步骤204包括振幅调制。
所述方法200继续,为振幅调制的谐波信号构造信噪比205并忽略其信噪比降至给定的阈值幅值以下的谐波206以集中注意力于被噪声损坏最轻的谐波。
如以上解释的,存在众多允许选择性地集中于损坏较轻的谐波的方法。这些方法可以被单独使用或结合使用以选择性地集中于谐波子集。
在本发明的某些实施方式中,所述系统通过利用未被损坏的谐波的频谱的信噪比较高的事实忽略被噪声损坏的谐波。这些实施方式涉及定义均以谐波为中心的窄带和宽带。在某些实施方式中,所述宽带从所述音高沿两个方向向外延伸至远离所述音高预定的距离。在某些实施方式中,所述宽带在百分比距离延伸至相邻的较低的谐波和相邻的较高的谐波。优选地,所述宽带从到相邻的较低的谐波频率的实质上的一半处延伸至到相邻的较高的谐波频率的实质上的一半处,其中实质上的一半包括在到最近谐波的距离的40%到60%之间的距离。在某些其他的实施方式中,所述宽带向相邻的较低的谐波频率延伸恰好一半,和向相邻的较高的谐波频率延伸恰好一半。同样地,优选地通过跟踪滤波器确定所述窄带的带宽;然而,所述带宽将小于所述宽带的带宽。在未被损坏的语音信号中,几乎所有的能量都集中在谐波附近。
因此,与谐波附近的信噪比相关的函数可以被计算作为所述窄带中的能量与所述宽带中的能量的比值。因此,忽略其信噪比降至给定的阈值幅值以下的谐波的步骤涉及忽略所述窄带中的能量与所述宽带中的能量的比值高于预定的阈值的谐波。
在本发明的某些实施方式中,基于所述系统的期望性能选择所述预定的阈值。
在本发明的某些其他的实施方式中,所述系统通过利用每一谐波的所估计的频率受到所述谐波频率附近的噪声分量的影响的观察以忽略被噪声损坏的谐波。所述噪声将“推进(pull)”谐波估计。由于谐波系列的频率关系固定,对于任何给定的谐波,参照剩余的谐波可以被用来计算“期望的”谐波频率。谐波估计值与其期望值的偏差是在谐波附近的损坏的量度。
因此,本发明的某些实施方式涉及基于所述音高估计出所述谐波的频率,通过分析所述信号确定所观察的谐波的实际频率,确定在所述估计频率和所观察的实际频率之间的偏差值,将所述偏差归因于噪声,并忽略偏差值超出预定值的谐波。
最后,在本发明的目前优选的实施方式中,所述方法通过使用窄带中的能量与宽带中的能量的比值和通过使用与期望值的偏差忽略被噪声损坏的谐波,其与选择性地集中于损坏较轻的谐波协调使用。
最后,所述方法200选择性地忽略与人类语音不一致的剩余的振幅调制信号207。在某些实施方式中,与人类语音不一致的振幅调制通过将所提取的振幅模式通过具有表征人类语音的范围的带通滤波器被抑制住。优选地,所述带通滤波器具有1Hz至16Hz的范围。
语音信号识别方法200的最终结果是音频信号不受噪声和被复制以最接近地匹配原始信号的主要分量的非关键的识别信息的影响。
用于语音识别及其他的声音信号处理应用的特征提取的现有技术方法不使用所公开的方法200的步骤来将语音信息从噪声中分离。
在另一方面,所述方法200演示了在显著的噪声电平下的可靠跟踪。例如,图3A至图3C图示了显示本发明的益处的信号的声谱图。
图3A图示了原始声音信号的声谱图。图3B图示了增加了噪声分量的声音信号的声谱图。最后,图3C图示了依据本发明的某些实施方式的声音信号的语音转换重构的声谱图。如图所示,所述重构精确地再现了没有噪声分量的语音信号。
在本发明的某些实施方式中,自动语音提取系统包括被配置成利用执行自动语音提取的方法200的信号处理器。
图4A图示了依据本发明的某些实施方式的自动语音提取的基本系统400。依据图4A,输入信号被发送至与存储器402耦合的处理器401。在本发明的目前优选的实施方式中,处理器401被配置成执行图2中的方法。同样在本发明的目前优选的实施方式中,处理器401包括用于执行各种需要的执行步骤的多个处理模块。
图4A中的系统400可以包含在任何自动语音识别系统以及利用受到噪声损坏的言语作为输入的任何其他的系统或设备中,包括,但不局限于助听器,头戴耳机,或通过有线、无线或因特网进行的语音通讯,包括空对空通讯和地空通讯。
图4B图示了依据本发明的目前优选的实施方式的包括多个用于执行自动语音提取的处理模块的处理引擎405。依据图4B,处理引擎405包括谐波频率识别器410、自适应滤波器应用器420、调制器430、功率比构造器440、低功率谐波消除器450和非语音谐波消除器460。依据本发明的目前优选的实施方式,处理引擎405被配置为执行方法200。
图5是在计算机系统1600的示例性形式中的机器的示意性框图,在计算机系统1600内部可以编程一套指令以使该机器执行本发明的逻辑步骤。在选择性的实施方式中,所述机器可以包括网络路由器、网络交换机、网桥、个人数字助理(PDA)、移动电话、网络设备或任何能够执行一系列指令的机器,所述指令规定由所述机器采取的动作。
计算机系统1600包括处理器1602、主存储器1604和静态存储器1606,其通过总线1608相互通信。计算机系统1600可以还包括显示单元1610,例如,液晶显示器(LCD)或阴极射线管(CRT)。计算机系统1600还包括字母数字输入设备1612,例如,键盘;光标控制设备1614,例如,鼠标;磁盘驱动单元1616,信号发生设备1618,例如,扬声器,和网络接口设备1620。
磁盘驱动单元1616包括机器可读介质1624,在机器可读介质上存储有一套可执行的指令,即软件1626,所述软件包含本文描述的方法的任何一种、或全部。软件1626也被显示为完全或至少部分地驻留在主存储器1604内部和/或处理器1602内部。软件1626可以进一步在网络1628、1630上依靠网络接口设备1620被传输或接收。
与以上论述的系统1600形成对比,一个不同的实施方式使用逻辑电路替代计算机执行的指令以实现处理实体。根据应用在速度、支出、工具成本等方面的特定需要,通过构造具有数以千计的微小的集成晶体管的专用集成电路(ASIC)可以实现这种逻辑。这种ASIC可以使用CMOS(互补金属氧化物半导体),TTL(晶体管-晶体管逻辑),VLSI(超大规模系统集成),或另一合适的结构实现。其他的选择包括数字信号处理芯片(DSP)、分立电路(如电阻器、电容器、二极管、电感器和晶体管)、现场可编程门阵列(FPGA)、可编程逻辑阵列(PLA)、可编程逻辑器件(PLD)、以及其他类似物。
应该理解,实施方式可以被用来作为或支持在某种形式的处理核(如计算机的CPU)上执行或以其他方式在机器或计算机可读介质上或其内部实施或实现的软件程序或软件模块。机器可读介质包括用于以机器(例如计算机)可读的形式存储或传输信息的任何机制。例如,机器可读介质包括只读存储器(ROM);随机访问存储器(RAM);磁盘存储介质;光学存储介质;闪存设备;电学、光学、声学或其他形式的传播信号,例如,载波、红外信号、数字信号等等;或任何其他类型的适用于存储或传输信息的介质。
熟悉本领域的那些技术人员将理解,本发明可以体现在其他具体的形式中而没有偏离本发明的精神或必要特征。同样地,构件、特征、属性,以及其他方面的特定命名和分类都不是强制的或重要的,以及实施本发明的机制或其特征可以具有不同的名称、分类和/或格式。因此,本发明的公开内容意在解释说明本发明的范围,并非意在限制本发明的范围,本发明的范围在以下权利要求中提出。
Claims (19)
1.一种处理声音信号的方法,包括以下步骤:
在自动语音提取系统中接收声音信号;
识别所述声音信号的基频;
识别所述基频的一个或多个谐波;
将滤波器应用于所述基频和所述一个或多个谐波,因而形成一个或多个仅有谐波的信号;
对所述一个或多个仅有谐波的信号执行振幅调制;
为所述一个或多个仅有谐波的信号构造一个或多个信噪比;
忽略所述一个或多个仅有谐波的信号中的信噪比落入阈值幅值以下的一个或多个信号;以及
忽略所述一个或多个仅有谐波的信号中的振幅调制与人类语音不一致的一个或多个信号;
其中输出最终信号。
2.如权利要求1所述的处理声音信号的方法,其中识别所述声音信号的基频的步骤还包括给被配置用于处理所述声音信号的处理器提供数字滤波器。
3.如权利要求2所述的处理声音信号的方法,其中所述数字滤波器包括一个或多个自适应窄带滤波器,所述自适应窄带滤波器被配置成在所述声音信号的整个频谱上跟踪所述声音信号的局部最强的能量集中。
4.如权利要求3所述的处理声音信号的方法,还包括:
配置所述处理器以用于选择与谐波系列一致的局部最强的能量集中,和选择与所述局部最强的能量集中相关联的频率作为所述基频。
5.如权利要求4所述的处理声音信号的方法,还包括:
配置所述处理器以用于选择与所述谐波系列一致的一个或多个另外的局部较强的能量集中,和选择与所述谐波系列一致的频率作为所述基频的谐波。
6.如权利要求3所述的处理声音信号的方法,其中配置所述一个或多个自适应窄带滤波器的步骤还包括:
生成估计的中心频率;
使用所述估计的中心频率计算所述声音信号的瞬时频率和振幅,因而提供更加精确的中心频率;以及
用所述更加精确的中心频率替换所述估计的中心频率。
7.如权利要求1所述的处理声音信号的方法,其中忽略所述一个或多个仅有谐波的信号中的信噪比落入阈值幅值以下的一个或多个信号的步骤还包括:
定义至少一个宽带,所述至少一个宽带以所述基频为中心,并从到相邻的较低的谐波频率的实质上的一半处延伸至到相邻的较高的谐波频率的实质上的一半处;
定义至少一个以所述基频为中心的窄带,其中所述窄带的带宽小于所述宽带的带宽;
计算所述窄带中的能量与所述宽带中的能量的比值;以及
忽略所述一个或多个仅有谐波的信号中的在所述窄带中的能量与在所述宽带中的能量的比值高于阈值的一个或多个信号。
8.如权利要求1所述的处理声音信号的方法,其中忽略所述一个或多个仅有谐波的信号中的信噪比落入阈值幅值以下的一个或多个信号的步骤还包括:
基于所述基频估计一个或多个谐波的频率;
确定在识别所述基频的一个或多个谐波的步骤中观察的所述一个或多个谐波的实际频率;
确定在所述一个或多个谐波的估计频率和所述一个或多个谐波的实际频率之间的偏差值;以及
忽略所述一个或多个仅有谐波的信号中的偏差值超出预定值的一个或多个信号。
9.如权利要求1所述的处理声音信号的方法,其中忽略所述一个或多个仅有谐波的信号中的信噪比落入阈值幅值以下的一个或多个信号的步骤还包括:
定义至少一个宽带,所述至少一个宽带以所述基频为中心,并从到相邻的较低的谐波频率的实质上的一半处延伸至到相邻的较高的谐波频率的实质上的一半处;
定义至少一个以所述基频为中心的窄带,其中所述窄带的带宽小于所述宽带的带宽;
计算所述窄带中的能量与所述宽带中的能量的比值;以及
忽略所述一个或多个仅有谐波的信号中的在所述窄带中的能量与在所述宽带中的能量的比值高于阈值的一个或多个信号;
基于所述基频估计一个或多个谐波的频率;
确定在识别所述基频的一个或多个谐波的步骤中观察的所述一个或多个谐波的实际频率;
确定在所述一个或多个谐波的估计频率和所述一个或多个谐波的实际频率之间的偏差值;以及
忽略所述一个或多个仅有谐波的信号中的偏差值超出预定值的一个或多个信号。
10.如权利要求1所述的处理声音信号的方法,其中忽略所述一个或多个仅有谐波的信号中的振幅调制与人类语音不一致的一个或多个信号的步骤还包括使所述振幅调制通过具有1Hz到16Hz的范围的带通滤波器。
11.一种用于处理声音信号以进行自动语音提取的系统,包括:
用于在自动语音提取系统中接收声音信号的模块;
用于识别所述声音信号的基频的模块;
用于识别所述基频的一个或多个谐波的模块;
用于将滤波器应用于所述基频和所述一个或多个谐波,因而形成一个或多个仅有谐波的信号的模块;
用于对所述一个或多个仅有谐波的信号执行振幅调制的模块;
用于为所述一个或多个仅有谐波的信号构造一个或多个信噪比的模块;
用于忽略所述一个或多个仅有谐波的信号中的信噪比落入阈值幅值以下的一个或多个信号的模块;以及
用于忽略所述一个或多个仅有谐波的信号中的振幅调制与人类语音不一致的一个或多个信号的模块;以及
用于输出最终信号的模块。
12.一种用于处理声音信号以进行自动语音提取的装置,所述装置包括:
声音信号输入设备,其被配置为在自动语音提取系统中接收声音信号;
处理器,其可操作地与存储设备和所述声音信号输入设备耦合,其中所述处理器包括多个处理模块,所述多个处理模块包括:
谐波频率识别器,其被配置为识别所述声音信号的基频的一个或多个谐波;
滤波器应用器,其被配置为将滤波器应用于所述基频和所述一个或多个谐波,因而形成一个或多个仅有谐波的信号;
调制器,其被配置为对所述一个或多个仅有谐波的信号执行振幅调制;
功率比构造器,其被配置为构造所述一个或多个仅有谐波的信号的一个或多个信噪比;
低功率谐波消除器,其被配置为忽略所述一个或多个仅有谐波的信号中的信噪比落入阈值幅值以下的一个或多个信号;以及
非语音谐波消除器,其被配置为忽略所述一个或多个仅有谐波的信号中的振幅调制与人类语音不一致的一个或多个信号;以及处理过的信号被输出。
13.如权利要求12所述的装置,其中所述滤波器应用器被配置有一个或多个自适应窄带滤波器,所述自适应窄带滤波器被配置成在所述声音信号的整个频谱上跟踪所述声音信号的局部最强的能量集中。
14.如权利要求13所述的装置,其中所述滤波器应用器被配置为选择与谐波系列一致的局部最强的能量集中,和选择与该局部最强的能量集中相关联的频率作为所述基频。
15.如权利要求14所述的装置,其中所述滤波器应用器被配置为选择与所述谐波系列一致的一个或多个另外的局部较强的能量集中,和选择与所述谐波系列一致的频率作为所述基频的谐波。
16.如权利要求12所述的装置,其中所述低功率谐波消除器还被配置为:定义至少一个宽带,所述至少一个宽带以所述基频为中心,并从到相邻的较低的谐波频率的实质上的一半处延伸至到相邻的较高的谐波频率的实质上的一半处;定义至少一个以所述基频为中心的窄带,其中所述窄带的带宽小于所述宽带的带宽;计算所述窄带中的能量与所述宽带中的能量的比值;以及忽略所述一个或多个仅有谐波的信号中的在所述窄带中的能量与在所述宽带中的能量的比值高于一阈值的一个或多个信号。
17.如权利要求12所述的装置,其中所述低功率谐波消除器还被配置为:基于所述基频估计一个或多个谐波的频率,确定在识别所述基频的一个或多个谐波的步骤中观察的所述一个或多个谐波的实际频率,确定在所述一个或多个谐波的估计频率和所述一个或多个谐波的实际频率之间的偏差值,以及忽略所述一个或多个仅有谐波的信号中的偏差值超出预定值的一个或多个信号。
18.如权利要求12所述的装置,其中所述低功率谐波消除器还被配置为:定义至少一个宽带,所述至少一个宽带以所述基频为中心,并从到相邻的较低的谐波频率的实质上的一半处延伸至到相邻的较高的谐波频率的实质上的一半处;定义至少一个以所述基频为中心的窄带,其中所述窄带的带宽小于所述宽带的带宽;计算所述窄带中的能量与所述宽带中的能量的比值;忽略所述一个或多个仅有谐波的信号中的所述窄带中的能量与所述宽带中的能量的比值高于阈值的一个或多个信号;基于所述基频估计一个或多个谐波的频率;确定在识别所述基频的一个或多个谐波的步骤中观察的所述一个或多个谐波的实际频率;确定在所述一个或多个谐波的估计频率和所述一个或多个谐波的实际频率之间的偏差值;以及忽略所述一个或多个仅有谐波的信号中的偏差值超出预定值的一个或多个信号。
19.如权利要求12所述的装置,其中所述非语音谐波消除器被配置为通过使所述振幅调制经过具有1Hz至16Hz的范围的带通滤波器以忽视所述一个或多个仅有谐波的信号中的一个或多个信号。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US22892509P | 2009-07-27 | 2009-07-27 | |
US61/228,925 | 2009-07-27 | ||
PCT/US2010/043400 WO2011014512A1 (en) | 2009-07-27 | 2010-07-27 | System and method for noise reduction in processing speech signals by targeting speech and disregarding noise |
Publications (2)
Publication Number | Publication Date |
---|---|
CN102483926A CN102483926A (zh) | 2012-05-30 |
CN102483926B true CN102483926B (zh) | 2013-07-24 |
Family
ID=43529674
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2010800330923A Expired - Fee Related CN102483926B (zh) | 2009-07-27 | 2010-07-27 | 在处理语音信号中通过把语音作为目标和忽略噪声以降噪的系统及方法 |
Country Status (6)
Country | Link |
---|---|
US (3) | US8954320B2 (zh) |
EP (1) | EP2460157B1 (zh) |
JP (1) | JP5799013B2 (zh) |
KR (1) | KR101344435B1 (zh) |
CN (1) | CN102483926B (zh) |
WO (1) | WO2011014512A1 (zh) |
Families Citing this family (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102483926B (zh) * | 2009-07-27 | 2013-07-24 | Scti控股公司 | 在处理语音信号中通过把语音作为目标和忽略噪声以降噪的系统及方法 |
CN102625207B (zh) * | 2012-03-19 | 2015-09-30 | 中国人民解放军总后勤部军需装备研究所 | 一种主动式噪声防护耳塞的声音信号处理方法 |
US9484044B1 (en) | 2013-07-17 | 2016-11-01 | Knuedge Incorporated | Voice enhancement and/or speech features extraction on noisy audio signals using successively refined transforms |
US9530434B1 (en) * | 2013-07-18 | 2016-12-27 | Knuedge Incorporated | Reducing octave errors during pitch determination for noisy audio signals |
US9208794B1 (en) | 2013-08-07 | 2015-12-08 | The Intellisis Corporation | Providing sound models of an input signal using continuous and/or linear fitting |
EP2876900A1 (en) * | 2013-11-25 | 2015-05-27 | Oticon A/S | Spatial filter bank for hearing system |
CN103594092A (zh) * | 2013-11-25 | 2014-02-19 | 广东欧珀移动通信有限公司 | 一种单麦克风语音降噪方法和装置 |
US9508343B2 (en) | 2014-05-27 | 2016-11-29 | International Business Machines Corporation | Voice focus enabled by predetermined triggers |
US9830925B2 (en) * | 2014-10-22 | 2017-11-28 | GM Global Technology Operations LLC | Selective noise suppression during automatic speech recognition |
EP3121814A1 (en) * | 2015-07-24 | 2017-01-25 | Sound object techology S.A. in organization | A method and a system for decomposition of acoustic signal into sound objects, a sound object and its use |
KR20170051856A (ko) * | 2015-11-02 | 2017-05-12 | 주식회사 아이티매직 | 사운드 신호에서 진단 신호를 추출하는 방법 및 진단 장치 |
TWI662545B (zh) * | 2018-06-22 | 2019-06-11 | 塞席爾商元鼎音訊股份有限公司 | 調整語音頻率之方法及其聲音播放裝置 |
CN108922558B (zh) * | 2018-08-20 | 2020-11-27 | 广东小天才科技有限公司 | 一种语音处理方法、语音处理装置及移动终端 |
CN109358317B (zh) * | 2018-09-30 | 2021-06-08 | 科大讯飞股份有限公司 | 一种鸣笛信号检测方法、装置、设备及可读存储介质 |
US11545143B2 (en) | 2021-05-18 | 2023-01-03 | Boris Fridman-Mintz | Recognition or synthesis of human-uttered harmonic sounds |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6925435B1 (en) * | 2000-11-27 | 2005-08-02 | Mindspeed Technologies, Inc. | Method and apparatus for improved noise reduction in a speech encoder |
CN101031963A (zh) * | 2004-09-16 | 2007-09-05 | 法国电信 | 处理有噪声的声音信号的方法以及实现该方法的装置 |
Family Cites Families (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE69232202T2 (de) * | 1991-06-11 | 2002-07-25 | Qualcomm, Inc. | Vocoder mit veraendlicher bitrate |
US5214708A (en) * | 1991-12-16 | 1993-05-25 | Mceachern Robert H | Speech information extractor |
TW271524B (zh) * | 1994-08-05 | 1996-03-01 | Qualcomm Inc | |
TW430778B (en) * | 1998-06-15 | 2001-04-21 | Yamaha Corp | Voice converter with extraction and modification of attribute data |
JP3586205B2 (ja) * | 2001-02-22 | 2004-11-10 | 日本電信電話株式会社 | 音声スペクトル改善方法、音声スペクトル改善装置、音声スペクトル改善プログラム、プログラムを記憶した記憶媒体 |
EP2254352A3 (en) * | 2003-03-03 | 2012-06-13 | Phonak AG | Method for manufacturing acoustical devices and for reducing wind disturbances |
WO2004084182A1 (en) * | 2003-03-15 | 2004-09-30 | Mindspeed Technologies, Inc. | Decomposition of voiced speech for celp speech coding |
US7949520B2 (en) * | 2004-10-26 | 2011-05-24 | QNX Software Sytems Co. | Adaptive filter pitch extraction |
EP1772855B1 (en) * | 2005-10-07 | 2013-09-18 | Nuance Communications, Inc. | Method for extending the spectral bandwidth of a speech signal |
KR100735343B1 (ko) * | 2006-04-11 | 2007-07-04 | 삼성전자주식회사 | 음성신호의 피치 정보 추출장치 및 방법 |
US8606566B2 (en) * | 2007-10-24 | 2013-12-10 | Qnx Software Systems Limited | Speech enhancement through partial speech reconstruction |
CN102483926B (zh) * | 2009-07-27 | 2013-07-24 | Scti控股公司 | 在处理语音信号中通过把语音作为目标和忽略噪声以降噪的系统及方法 |
-
2010
- 2010-07-27 CN CN2010800330923A patent/CN102483926B/zh not_active Expired - Fee Related
- 2010-07-27 WO PCT/US2010/043400 patent/WO2011014512A1/en active Application Filing
- 2010-07-27 KR KR1020127001893A patent/KR101344435B1/ko active IP Right Grant
- 2010-07-27 JP JP2012522970A patent/JP5799013B2/ja not_active Expired - Fee Related
- 2010-07-27 EP EP10804962.8A patent/EP2460157B1/en active Active
- 2010-07-27 US US13/387,058 patent/US8954320B2/en active Active
-
2015
- 2015-02-09 US US14/617,331 patent/US9318120B2/en active Active
-
2016
- 2016-04-18 US US15/131,234 patent/US9570072B2/en active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6925435B1 (en) * | 2000-11-27 | 2005-08-02 | Mindspeed Technologies, Inc. | Method and apparatus for improved noise reduction in a speech encoder |
CN101031963A (zh) * | 2004-09-16 | 2007-09-05 | 法国电信 | 处理有噪声的声音信号的方法以及实现该方法的装置 |
Also Published As
Publication number | Publication date |
---|---|
US9570072B2 (en) | 2017-02-14 |
US9318120B2 (en) | 2016-04-19 |
US8954320B2 (en) | 2015-02-10 |
EP2460157B1 (en) | 2020-02-26 |
JP2013500508A (ja) | 2013-01-07 |
EP2460157A1 (en) | 2012-06-06 |
EP2460157A4 (en) | 2017-03-22 |
US20160232895A1 (en) | 2016-08-11 |
KR101344435B1 (ko) | 2013-12-26 |
CN102483926A (zh) | 2012-05-30 |
US20120191450A1 (en) | 2012-07-26 |
US20150154978A1 (en) | 2015-06-04 |
KR20120037954A (ko) | 2012-04-20 |
WO2011014512A1 (en) | 2011-02-03 |
JP5799013B2 (ja) | 2015-10-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102483926B (zh) | 在处理语音信号中通过把语音作为目标和忽略噪声以降噪的系统及方法 | |
CN103236260B (zh) | 语音识别系统 | |
CN105448303A (zh) | 语音信号的处理方法和装置 | |
CN103035238B (zh) | 音频数据的编码方法及解码方法 | |
CN111599371B (zh) | 语音增加方法、系统、装置及存储介质 | |
TWI451770B (zh) | 增加聽障者聽到聲音正確性之方法及助聽器 | |
CN106782521A (zh) | 一种语音识别系统 | |
CN110875045A (zh) | 一种语音识别方法、智能设备和智能电视 | |
CN109036470B (zh) | 语音区分方法、装置、计算机设备及存储介质 | |
CN111145763A (zh) | 一种基于gru的音频中的人声识别方法及系统 | |
KR20080064557A (ko) | 음성 신호의 명료도를 향상시키는 장치 및 방법 | |
CN110797031A (zh) | 语音变音检测方法、系统、移动终端及存储介质 | |
CN103730117A (zh) | 一种自适应智能语音装置及方法 | |
CN116364107A (zh) | 一种语音信号检测方法、装置、设备及存储介质 | |
CN113012684B (zh) | 一种基于语音分割的合成语音检测方法 | |
CN113692618B (zh) | 一种语音命令识别的方法及装置 | |
CN112908305B (zh) | 一种提升语音识别准确性的方法和设备 | |
CN114724589A (zh) | 语音质检的方法、装置、电子设备和存储介质 | |
CN106559759B (zh) | 一种在移动设备中拦截彩信的方法和装置 | |
CN114822531A (zh) | 一种基于ai语音智能控制的液晶电视 | |
CN112116926A (zh) | 音频数据的处理方法及装置、模型训练方法及装置 | |
Dai et al. | Robust speech recognition by using spectral subtraction with noise peak shifting | |
CN117998254B (zh) | 破音修复方法、装置及存储介质 | |
Wu et al. | Speech endpoint detection in noisy environment using Spectrogram Boundary Factor | |
CN110738990A (zh) | 识别语音的方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20130724 |
|
CF01 | Termination of patent right due to non-payment of annual fee |