CN105900171A - 依赖于情境的瞬态抑制 - Google Patents
依赖于情境的瞬态抑制 Download PDFInfo
- Publication number
- CN105900171A CN105900171A CN201580003757.9A CN201580003757A CN105900171A CN 105900171 A CN105900171 A CN 105900171A CN 201580003757 A CN201580003757 A CN 201580003757A CN 105900171 A CN105900171 A CN 105900171A
- Authority
- CN
- China
- Prior art keywords
- probability
- suppression
- section
- estimated
- speech
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000001052 transient effect Effects 0.000 title claims abstract description 115
- 230000001629 suppression Effects 0.000 title claims abstract description 95
- 230000001419 dependent effect Effects 0.000 title abstract 2
- 238000000034 method Methods 0.000 claims abstract description 61
- 230000005236 sound signal Effects 0.000 claims abstract description 53
- 230000004044 response Effects 0.000 claims description 14
- 210000001260 vocal cord Anatomy 0.000 claims description 7
- 230000000694 effects Effects 0.000 claims description 4
- 230000008569 process Effects 0.000 abstract description 11
- 238000001228 spectrum Methods 0.000 description 21
- 238000011084 recovery Methods 0.000 description 20
- 238000004891 communication Methods 0.000 description 13
- 238000010586 diagram Methods 0.000 description 12
- 206010068319 Oropharyngeal pain Diseases 0.000 description 11
- 201000007100 Pharyngitis Diseases 0.000 description 11
- 230000003584 silencer Effects 0.000 description 9
- 238000001514 detection method Methods 0.000 description 8
- 238000004422 calculation algorithm Methods 0.000 description 7
- 230000006870 function Effects 0.000 description 6
- 238000000926 separation method Methods 0.000 description 4
- 241000208340 Araliaceae Species 0.000 description 3
- 235000005035 Panax pseudoginseng ssp. pseudoginseng Nutrition 0.000 description 3
- 235000003140 Panax quinquefolius Nutrition 0.000 description 3
- 230000009471 action Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 235000008434 ginseng Nutrition 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 206010013486 Distractibility Diseases 0.000 description 1
- 241000196324 Embryophyta Species 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 238000007667 floating Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 210000003205 muscle Anatomy 0.000 description 1
- 238000003825 pressing Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L25/84—Detection of presence or absence of voice signals for discriminating voice from noise
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/90—Pitch determination of speech signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
Landscapes
- Engineering & Computer Science (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Telephone Function (AREA)
- Circuit For Audible Band Transducer (AREA)
- Telephonic Communication Services (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
- Noise Elimination (AREA)
Abstract
所提供的是用于提供对于音频信号的依赖于情境的瞬态噪声抑制的方法和系统。取决于每个参与者是否在讲话(音频的浊音段或清音段/非语音段是否存在),将不同策略(例如,侵略性的层级)的瞬态抑制和信号恢复应用在与视频/音频会议中的参与者相关联的音频信号上。如果参与者未在讲话或者存在清音声音/非语音声音,用于瞬态抑制和信号恢复的较高侵略性策略可以被利用。在另一方面,检测到浊音音频(例如,参与者正在讲话)的情况下,方法和系统应用较轻柔、较低侵略性的抑制和恢复过程。
Description
背景技术
在典型的音频或视频通话(尤其是在涉及许多参与者的音频或视频通话)中,由未讲话的参与者生成的噪声能够影响正在讲话的参与者的话音,由此导致注意力分散或者甚至打断对话。一种示例场景是,会议通话的每个参与者都使用他或她自己的计算机来连接到通话并且还使用该计算机来并行地进行任务(例如,键入关于通话的笔记)。虽然计算机(例如,膝上型计算机)中内嵌的麦克风、扬声器、和网络摄像机已经使会议通话的建立变得很容易,但是这些特征也引入了特定的噪声滋扰,诸如反馈、风扇噪声和敲键噪声。通常由按键输入所导致的机械脉冲引起的敲键噪声能够包括令人不快的敲键声,除了主对话外通话的所有参与者都能够听到该敲键声。例如,在膝上型计算机的场境中,由于膝上型计算机外壳内的麦克风与键盘之间的机械连接,敲键噪声能够是极大的滋扰。
诸如敲键声的瞬态噪声对全体用户体验的影响取决于其发生时的情境。例如,与静默时段期间或仅存在背景噪声的情况期间相比,在活跃的浊音话音段中,与来自正在讲话的参与者的语音混合的敲键声被更好地遮盖而较少被其他参与者察觉。在后面这些情境下,敲键声可能更容易被参与者注意并且被感知为较大的烦扰或干扰。
发明内容
本发明内容以简化的形式介绍了概念的选择,从而提供对本公开的一些方面的基本理解。本发明内容不是本公开的广泛概述,也并非旨在标识本公开的关键的或重要的元素,也并非旨在记述本公开的范围。本发明内容仅呈现本公开的概念中的一些以作为下文所提供的具体实施方式的前序。
本公开大体涉及用于信号处理的方法和系统。更具体地,本公开的方面涉及考虑到所检测到的瞬态和已分类的段,在不同类型的音频段(例如,浊音话音段、清音段等)上执行不同类型或量的噪声抑制。
本公开的一个实施例涉及用于抑制音频信号中的瞬态噪声的计算机实现的方法,所述方法包括估计包含瞬态噪声的所述音频信号的段语音概率,所估计的语音概率是所述段包含语音数据的概率;响应于确定所述段的所估计的语音概率大于阈值概率,在所述段上执行第一类型的抑制;以及响应于确定所述段的所估计的语音概率小于所述阈值概率,在所述段上执行第二类型的抑制,其中所述第二类型的抑制将包含在所述段中的所述瞬态噪声抑制到与所述第一类型的抑制不同的程度。
在另一实施例中,用于抑制瞬态噪声的方法进一步包括将所述段的所估计的语音概率与阈值概率进行比较;以及基于所述比较来确定所估计的语音概率大于所述阈值概率。
在又另一实施例中,用于抑制瞬态噪声的方法进一步包括将所述段的所估计的语音概率与阈值概率进行比较;以及基于所述比较来确定所估计的语音概率小于所述阈值概率。
在又另一实施例中,用于抑制瞬态噪声的方法进一步包括接收所述音频信号的所述段的所估计的瞬态概率,所估计的瞬态概率是瞬态噪声存在于所述段中的概率;以及基于所接收的所估计的瞬态概率,确定所述音频信号的所述段包含瞬态噪声。
本公开的另一实施例涉及用于抑制音频信号中的瞬态噪声的系统,所述系统包括至少一个处理器以及被耦合至所述至少一个处理器的计算机可读介质,所述计算机可读介质具有存储于其上的指令,当由所述至少一个处理器执行所述指令时,致使所述至少一个处理器:估计包含瞬态噪声的所述音频信号的段的语音概率,所估计的语音概率是所述段包含语音数据的概率;响应于确定所述段的所估计的语音概率大于阈值概率,在所述段上执行第一类型的抑制;以及响应于确定所述段的所估计的语音概率小于所述阈值概率,在所述段上执行第二类型的抑制;其中所述第二类型的抑制将包含在所述段中的所述瞬态噪声抑制到与所述第一类型的抑制不同的程度。
在另一实施例中,进一步致使用于抑制瞬态噪声的所述系统中的所述至少一个处理器识别声带振动的所述段的区域;以及确定声带振动的所述段的所述区域是包含浊音话音的区域。
在又另一实施例中,进一步致使用于抑制瞬态噪声的所述系统中的所述至少一个处理器将所述段的所估计的语音概率与阈值概率进行比较;以及基于所述比较来确定所估计的语音概率大于所述阈值概率。
在又另一实施例中,进一步致使用于抑制瞬态噪声的所述系统中的所述至少一个处理器将所述段的所估计的语音概率与阈值概率进行比较;以及基于所述比较来确定所估计的语音概率小于所述阈值概率。
在另一实施例中,进一步致使用于抑制瞬态噪声的所述系统中的所述至少一个处理器接收所述音频信号的所述段的所估计的瞬态概率,所估计的瞬态概率是瞬态噪声存在于所述段中的概率;以及基于所接收的所估计的瞬态概率,确定所述音频信号的所述段包含瞬态噪声。
本公开的另一实施例涉及用于抑制音频信号中的瞬态噪声的计算机实现的方法,所述方法包括:估计包含瞬态噪声的所述音频信号的段的语音概率,所估计的语音概率是所述段包含语音数据的概率;响应于确定所述段的所估计的语音概率与第一语音状态相对应,在所述段上执行第一类型的抑制;以及响应于确定所述段的所估计的语音概率与第二语音状态相对应,在所述段上执行第二类型的抑制,其中所述第二类型的抑制将包含在所述段中的所述瞬态噪声抑制到与所述第一类型的抑制不同的程度。
在又另一实施例中,用于抑制瞬态噪声的所述方法进一步包括,响应于确定所述段的所估计的语音概率与第三语音状态相对应,在所述段上执行第三类型的抑制,其中所述第三类型的抑制将包含在所述段中的所述瞬态噪声抑制到与所述第一类型和所述第二类型的抑制不同的程度。
在一个或多个其他实施例中,本文所述的方法和系统可以选择性地包括以下附加特征中的一个或多个:所估计的语音概率基于从基音估计器所接收的浊音度信息;估计所述音频信号的所述段的所述语音概率包括识别包含浊音话音的所述段的区域;识别包含浊音话音的所述段的区域包括识别声带振动的所述段的区域;所述音频信号的所述段的所估计的语音概率基于被接收用于所述音频信号的所述段的语音活动数据;所述第二类型的抑制将包含在所述段中的所述瞬态噪声抑制到比所述第一类型的抑制更大的程度;和/或所述第二类型的抑制将包含在所述段中的所述瞬态噪声抑制到比所述第一类型的抑制更小的程度。
根据以下给出的具体实施方式,本公开进一步的适用范围将变得显而易见。然而,应当理解,尽管指示了优选实施例,但具体实施方式和具体示例仅以图示说明的方式给出,这是因为根据此具体实施方式,本公开的精神和范围内的各种变化和修改对于本领域技术人员将变得显而易见。
附图说明
根据结合所附权利要求和附图对以下具体实施方式的学习,本公开的这些以及其他目的、特征和特性对于本领域技术人员将变得显而易见,其全部内容形成本说明书的一部分。在附图中:
图1为图示根据本文所述的一个或多个实施例的依赖于情境的噪声抑制的示例应用的示意图。
图2为图示根据本文所述的一个或多个实施例的用于依赖于情境的瞬态噪声抑制的示例系统的框图。
图3为图示根据本文所述的一个或多个实施例的用于音频信号的瞬态噪声抑制和恢复的示例方法的流程图。
图4为图示根据本文所述的一个或多个实施例的用于基于确定音频信号包含清音/非话音音频数据的音频信号的恢复的示例方法的流程图。
图5为图示根据本文所述的一个或多个实施例的用于基于确定音频信号包含语音数据的音频信号的恢复的示例方法的流程图。
图6为图示根据本文所述的一个或多个实施例的为了依赖于情境的瞬态噪声抑制所布置的示例计算设备的框图。
本文提供的标题仅仅为了方便起见,并且未必影响本公开中所要求保护的范围或内涵。
在附图中,为了便于理解和方便,相同附图标记和任何缩略语识别具有相同或相似结构或功能的元素或动作。在以下具体实施方式的过程中将详细描述附图。
具体实施方式
现在将描述各种示例和实施例。以下描述提供了用于全面理解以及使能对这些示例进行描述的具体细节。然而相关领域技术人员将理解,本文所述的一个或多个实施例可以在没有这些细节中的许多的情况下被实践。同样,相关领域技术人员还将理解,本公开的一个或多个实施例能够包括本文未详细描述的许多其他明显特征。此外,以下可以不对一些公知的结构或功能详细示出或描述,从而防止不必要地模糊相关描述。
在现有的噪声抑制方法论的场境中,在抑制和话音失真之间通常要作出设计权衡。例如,在至少一些现有途径中,较高的抑制通常要以使经过对噪声加以抑制的话音信号失真为代价。
本公开的实施例涉及用于提供对于音频信号的依赖于情境的瞬态噪声抑制的方法和系统。鉴于与用于瞬态噪声的噪声抑制的现有途径相关的以上所述缺陷,本公开的方法和系统被设计为在信号中检测到较少话音或未检测到话音的情境中,执行增大(例如,较高水平或较高侵略性策略)的瞬态噪声抑制和信号恢复;而在信号的浊音话音段期间,执行降低(例如,较低水平或较低侵略性策略)的瞬态噪声抑制和信号恢复。如以下将更详细描述的,考虑到所检测到的瞬态和已分类的段,本公开的方法和系统在不同类型的音频段(例如,浊音话音段、清音段等)期间利用不同类型(例如,量)的噪声抑制。
根据本文所述的一个或多个实施例,取决于用户是否在讲话(例如,与用户相关联的信号是否包含音频的浊音段或清音段/非话音段),不同种类(例如,类型、量等)的抑制可以被应用在与用户相关联的音频信号。例如,根据至少一个实施例,如果参与者未在讲话或者与该参与者相关联的信号包含清音/非话音音频段,用于瞬态抑制和信号恢复的较高侵略性的策略可以被用于该参与者的信号。在另一方面,在参与者的信号中检测到浊音音频(例如,该参与者正在讲话)的情况下,本文所述的方法和系统可以应用较轻柔、较低侵略性的抑制和恢复。
对包含浊音音频的信号应用较轻柔的抑制和恢复使信号的任何失真最小化,因此保持了从该信号所生成的合成的话音的可懂度。通过根据对于每个信号所确定的“语音状态”来应用不同的抑制和恢复方案,无需在抑制所有所检测到的瞬态(并由此使包含在信号中的话音失真)与完全不执行任何抑制(并因此防止失真,但允许信号包含瞬态)之间进行选择。根据本文所述的一个或多个实施例,例如,可以基于对于段所生成的语音概率估计来对于音频段确定语音状态,其中所述语音概率估计是该段包含语音数据(例如,话音)的概率。
本文所述的一个或多个实施例涉及噪声抑制组件,该噪声抑制组件被配置为抑制从音频流所检测到的包括敲键声在内的瞬态噪声。例如,根据至少一个实施例,噪声抑制在频域中被执行并且依赖于假设已给出的瞬态噪声的存在概率。应当理解,本领域技术人员已知的各种瞬态噪声检测器中的任何一种都可以被用于这个目的。
图1图示出了根据本公开的一个或多个实施例的依赖于情境的瞬态噪声抑制的示例应用。例如,多个用户(例如,参与者、个人等)120a、120b、120c、一直到120n(其中n为任意数字)可以参与音频/视频通信会话(例如,音频/视频会议)。例如,用户120可以通过有线或无线连接或网络105来相互通信,并且用户120中的每一个可以使用合适的用户设备130(例如,膝上型计算机、桌面计算机、平板计算机、智能手机等)中的任意一种来参与通信会话。
根据至少一个实施例,被用于参与通信会话的计算设备130中的一个或多个可以包括作为可能的瞬态噪声源的组件或附件。例如,计算设备130中的一个或多个可以具有键盘或打字板,如果在通信会话期间所述键盘或打字板被参与者120使用,则可以生成可被其他参与者察觉(例如,被察觉为听得见的敲键声或声音)的瞬态噪声。
图2图示出了根据本文所述的一个或多个实施例的用于基于信号的所确定的语音状态在传入的音频信号上执行依赖于情境的瞬态抑制的示例系统。根据至少一个实施例,系统200可以在用于视频/音频会议的通信路径的发送侧端点处(例如,在与图1中示出的用户120中的一个或多个用户相关联的端点处)操作,并且可以包括瞬态检测器220、语音活动检测(VAD)单元230、噪声抑制器240、以及发射单元270。此外,系统200可以执行与以下将更详细描述的图3至图5所图示的算法类似的一种或多种算法。
输入到检测系统200内的音频信号210可以被传递到瞬态检测器220、VAD单元230以及噪声抑制器240。根据至少一个实施例,瞬态检测器可以被配置为主要或专门使用与信号2相关联的传入的音频数据来检测音频信号210中瞬态噪声的存在。例如,瞬态检测器可以利用音频信号210的某些时频表示(例如,离散小波变换(DWT)、小波包变换(WPT)等)作为预测性模型的基础(例如,通过利用瞬态噪声脉冲与话音信号之间的频谱特性和时间特性的比较)来识别信号中的离群瞬态噪声事件。因此,瞬态检测器可以确定存在于信号210中的瞬态噪声的所估计的概率,并且将该瞬态概率估计(225)发送至噪声抑制器240。
VAD单元230可以被配置为分析输入信号210并且使用本领域技术人员已知的各种技术中的任意来检测语音数据是否存在于信号210中。基于其对信号210的分析,VAD单元230可以将语音概率估计(235)发送至噪声抑制器240。
瞬态概率估计(225)和语音概率估计(235)可以被噪声抑制器240用来确定将多种类型的抑制/恢复中的哪一种应用到信号210。如本文将更详细描述的,取决于信号是否包含语音音频(例如,话音数据),噪声抑制器240可以在音频信号210上执行“硬”或“软”恢复。
应当注意到,根据本公开的一个或多个其他实施例,除了以上所述的发送方侧端点以外或代替该发送侧端点,系统200可以在视频/音频会议中的参与者之间的通信路径中的其他点处操作。例如,系统200可以在用于在通信路径的接收者端点处播放的所接收的信号上执行依赖于情境的瞬态抑制。
图3图示出了根据本文所述的一个或多个实施例的用于音频信号的瞬态噪声抑制和恢复的示例过程。根据至少一个实施例,示例过程300可以由上文详细描述并在图2中图示出的用于依赖于情境的瞬态抑制的示例系统200中的组件中的一个或多个来执行。
如图所示,取决于音频段被确定为浊音段还是清音/非话音段,过程300应用不同的抑制策略(例如,块315和块320)。例如,在块305处对音频信号段应用快速傅里叶变换(FFT)以将该段变换至频域后,在块310处可以做出与该段相关联的语音概率是否大于阈值概率的确定。例如,阈值概率可以是预定的固定概率。根据至少一个实施例,与音频段相关联的语音概率基于在示例过程300之外和/或之前所生成的语音信息。例如,例如,在块310处所利用的语音概率可以基于从语音活动检测单元(例如,图2所示的示例系统200中的VAD单元230)接收的语音信息。在另一示例中,例如,与段相关联的语音概率可以基于与从基音估计算法或基音估计器接收的话音内的浊音度相关的信息。例如,与从基音估计器接收的话音内的浊音度相关的信息可以被用来识别声带振动的音频段的区域。
如果在块310处确定与音频段相关联的语音概率大于阈值概率,则在块320处通过“软”恢复(例如,与块315处的“硬”恢复相比,较低侵略性的抑制)来处理该段。在另一方面,如果在块310处确定与音频段相关联的语音概率等于或小于阈值概率,则在块315处通过“硬”恢复(例如,与块320处的“软”恢复相比,较高侵略性的抑制)来处理该段。
基于(在块310处)与段相关联的语音概率和阈值概率的比较(分别在块315和块320处)执行软恢复或硬恢复,允许清音/非话音音频块的较高侵略性抑制以及包含浊音声音的音频块的较保守的抑制处理。根据本公开的至少一个实施例,在块315处所执行的(用于硬恢复的)操作可以与在图4中示出并在下文更具体描述的示例过程400中的块405处所执行的操作相对应。类似地,在块320处所执行的(用于软恢复的)操作可以与在图5中图示出并也在下文更具体描述的示例过程500中的块510处所执行的操作相对应。
在块315处和在块320处的抑制/恢复过程其中一项之后,在块325处可以对于音频段更新频谱均值。在块330处,信号可以经过快速傅里叶逆变换(IFFT)来被变换回时域。
图4图示出了用于基于确定音频信号包含清音/非话音音频数据的音频信号的硬恢复的示例过程。例如,可以基于具有(例如,与信号包含语音数据的不同概率相对应的多个可能的语音状态的)第一语音状态的音频信号来执行硬恢复过程400,其中所述第一语音状态与和该信号为低(指示该信号包含清音/非语音数据的概率高)相关联的语音概率估计相对应,第二语音状态与比与第一语音状态相对应的概率估计更高的语音概率估计相对应,以此类推。根据本文所述的一个或多个实施例,可以由上文详细描述并在图2中图示出的用于依赖于情境的瞬态抑制的示例系统200中的组件中的一个或多个(例如,噪声抑制器240)来执行示例过程400。应当理解,根据至少一个实施例,除了以上所介绍的示例对应外或代替该示例对应,语音状态可以以一种或多种其他方式来与语音概率估计相对应。
此外,根据本公开的至少一个实施例,在示例过程400中的(包括块410和块415的)块405处所执行的操作可以与上文所述且在图3中图示出的示例过程300中的块315处所执行的操作相对应。
应当注意到,在执行过程400时,可能有必要保持对频谱均值的跟踪以抑制所检测到的瞬态并且恢复原始音频信号。还应当注意到,根据至少一个实施例,包括块405的操作可以对于每个频率区间以迭代的方式来执行。例如,在块410处,可以将给定频率区间的幅值与(所跟踪的)频谱均值进行比较。
如果在块410处确定幅值大于频谱均值,则对信号进行抑制并且在块415处计算出新幅值。在另一方面,如果在块410处确定幅值不大于频谱均值(例如,等于或小于频谱均值),则不执行抑制并且可以对于下一频率重复块405的操作。
如果由于块410处所做的确定而执行了抑制,则在块415处可以计算出新幅值。根据至少一个实施例,取决于检测概率(例如,图2所示的示例系统200中,在噪声抑制器240处接收的来自瞬态检测器220的瞬态概率估计(225)),块415处所计算的新幅值可以是先前的幅值与频谱均值的线性组合。例如,可以按照如下计算新幅值:
新幅值=(1–检测)*幅值+检测*频谱均值
其中,“检测”与存在瞬态的所估计的概率相对应而“幅值”与先前幅值相对应(例如,在块410处进行比较的幅值)。鉴于以上计算,如果(例如,基于所估计的概率)确定存在瞬态,则新幅值为频谱均值。然而,如果瞬态概率估计指示该块中不存在瞬态,则不进行抑制。
图5图示出了用于基于确定音频信号包含语音数据的音频信号的软恢复的示例过程。例如,可以基于具有第二语音状态的音频信号来执行软恢复过程500,其中如上文关于图4所示的示例过程400所描述的,第二语音状态与比和第一语音状态相对应的语音概率估计更高的语音概率估计相对应。根据本文所述的一个或多个实施例,可以由上文详细描述并在图2中图示出的用于依赖于情境的瞬态抑制的示例系统200中的组件(例如,噪声抑制器240)中的一个或多个来执行示例过程500。
此外,根据本公开的至少一个实施例,在示例过程500中的(包括块515、块520、以及块525的)块510处所执行的操作可以与上文所述且在图3中图示出的示例过程300中的块320处所执行的操作相对应。
正如用于以上所述的硬恢复的示例过程(例如,过程400),应当注意到在执行过程500时,用于音频块的频谱均值可以在块505处被算出。还应当注意到,根据至少一个实施例,包括块510的操作可以对于每个频率区间以迭代的方式来执行。
在块515处,对于给定的频率区间,(在块505处确定的)块均值的因子可以被计算出来。根据至少一个实施例,块均值的因子可以是固定的频谱加权,弱化典型的话音频谱频率。例如,在块515处确定的块均值的因子可以是当前块频谱的平均数值。在块515处计算的因子可以具有(例如,在1到5之间的)连续值,该因子对于话音频率(例如300Hz到3500Hz)而言是较低的。
在块520处,可以将频率的幅值与所计算的频谱均值相比较并且也可以与在块515处计算出的块均值的因子相比较。例如,在块520处,可以确定该幅值是否大于频谱均值且小于块均值的因子。在块520处确定这样的条件是否被满足使得有可能在保持语音泛音的同时抑制泛音之间的瞬态噪声。
如果在块520处确定该幅值大于频谱均值且小于块均值的因子,则执行抑制并且在块525处继续操作,在块525处可以计算出新的幅值。在另一方面,如果在块520处确定该幅值不大于频谱均值(例如,等于或小于频谱均值)、该幅值不小于块均值的因子(例如,等于或大于块均值的因子),或者以上二者,则不执行抑制并且可以对于下一频率重复块510的操作。
如果由于在块520处作出的确定而执行抑制,则可以在块525处计算出新幅值。根据至少一个实施例,可以以与在示例过程400的块415处所执行的新幅值计算(上文所述并且在图4中图示出)类似的方式来在块525处计算出的新幅值。例如,取决于检测概率(例如,在图2中所示的示例系统200中,在噪声抑制器240处接收的来自瞬态检测器220的瞬态概率估计(225))在块525处计算的新幅值可以是先前幅值和频谱均值的线性组合。例如,在块525处新幅值可以被计算如下:
新幅值=(1-检测)*幅值+检测*频谱均值
其中“检测”与存在瞬态的所估计的概率相对应而“幅值”与先前幅值相对应(例如,在块520处进行比较的幅值)。鉴于以上计算,如果(例如,基于所估计的概率)确定存在瞬态,则新幅值为频谱均值。然而,如果瞬态概率估计指示该块中不存在瞬态,则不进行抑制。
图6是根据本文所述的一个或多个实施例的用于依赖于情境的瞬态噪声抑制所布置的示例性计算机(600)的高层级框图。在非常基本的配置(601)中,计算设备(600)通常包括一个或多个处理器(610)和系统存储器(620)。存储器总线(630)能够被用于处理器(610)与系统存储器(620)之间的通信。
取决于所期望的配置,处理器(610)可以是任何类型,包括但不限于:微处理器(μP)、微控制器(μC)、数字信号处理器(DSP)或者其任何组合。处理器(610)可以包括一个诸如层级一缓存(611)和层级二缓存(612)的多层级缓存、处理器核(613)和寄存器(614)。该处理器核(613)能够包括算法逻辑单元(ALU)、浮点单元(FPU)、数字信号处理核(DSP核)或者其任何组合。存储器控制器(616)还可以与处理器(610)—起使用,或者在一些实施方式中,存储器控制器(615)可以是处理器(610)的内部部分。
取决于所期望的配置,系统存储器(620)可以是任何类型,包括但不限于:易失性存储器(诸如RAM)、非易失性存储器(诸如ROM、闪速存储器等)或者其任何组合。系统存储器(620)通常包括操作系统(621)、一个或多个应用(622)以及程序数据(624)。应用(622)可以包括用于基于确定信号是否包含语音数据来将不同种类(例如,类型、量、层级等)的抑制/恢复应用到音频信号的依赖于情境的瞬态抑制算法(623)。根据至少一个实施例,取决于用户是否在讲话(例如,与该用户相关联的信号是否包含音频的浊音段或清音/非话音段),依赖于情境的瞬态抑制算法(623)可以操作以在与用户相关联的音频信号上执行更多/更少侵略性的抑制/恢复。例如,根据至少一个实施例,如果参与者未在讲话或者与该参与者相关联的信号包含清音/非话音音频段,则对于该参与者的信号,依赖于情境的瞬态抑制算法(623)可以应用用于瞬态抑制和信号恢复的更具侵略性的策略。另一方面,在参与者的信号中检测到浊音音频(例如,该参与者正在讲话)的情况下,依赖于情境的瞬态抑制算法(623)可以应用较轻柔、较少侵略性的抑制和恢复。
程序数据(624)可以包括储存指令,所述指令当由一个或多个处理设备执行该储存指令时,实现用于根据本文所述的一个或多个实施例的用于音频信号的依赖于情境的瞬态噪声抑制和恢复的方法。此外,根据至少一个实施例,程序数据(624)可以包括音频信号数据(625),其可以包括与音频信号包含语音数据的概率有关的数据、或与瞬态噪声存在于该信号中的概率有关的信号、或者以上两者。在一些实施例中,应用(622)能够被布置为在操作系统(621)上与程序数据(624)共同操作。
计算设备(600)能够具有附加特征或功能,以及促进基本配置(601)与任何所需设备和接口之间的通信的附加接口。
系统存储器(620)是计算机存储介质的示例。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪速存储器或其它存储技术、CD-ROM、数字化视频光盘(DVD)或其它光学存储设备、磁带盒、磁带、磁盘存储或其它磁性存储设备、或者能够用于储存所期望的信息并且能够由计算设备600访问的任何其它介质。任何这样的计算机存储介质能够是计算设备(600)的一部分。
计算设备(600)能够被实现为小型便携式(或移动)电子设备的一部分,诸如,蜂窝电话、智能电话、个人数据助理(PDA)、个人媒体播放器设备、平板式计算机(平板)、无线web收看设备、个人耳机设备、专用设备、或者包括任何上述功能的混合设备。计算设备(600)还能够被实现为包括膝上型计算机和非膝上型计算机配置这二者的个人计算机。
经由对框图、流程图、和/或示例的使用,前述的详细描述已阐述了设备和/或处理的各种实施例。在包含一个或多个功能和/或操作的这样的框图、流程图、和/或示例的范围内,本领域技术人员将理解,能够由广泛的硬件、软件、固件或实际上其任何组合单独地和/或共同地实现这样的框图、流程图、或示例内的每个功能和/或操作。在一个实施例中,可以经由专用集成电路(ASIC)、现场可编程门阵列(FPGA)、数字信号处理器(DSP)、或者其它集成的形式来实现本文所描述的主题的若干部分。然而,本领域技术人员将认识到,本文所公开的实施例的一些方面能够整体或部分地作为在一个或多个计算机上运行的一个或更多个计算机程序、作为在一个或更多个处理器上运行的一个或更多个程序、作为固件、或者作为实际上其任何组合,来等效地实现在集成电路中,并且根据该公开,对于软件和/或固件来设计电路和/或编写代码完全在本领域技术人员的技能范围之内。
此外,本领域技术人员将理解的是,本文所述的主题的机制能够以各种形式被分布作为程序产品,并且,本文所述的主题的说明性实施例的应用与用于实际执行分布的非瞬时性信号承载介质的特定类型无关。非瞬时性信号承载介质的示例包括但不限于以下:诸如软盘、硬盘驱动器、光盘(CD)、数字视频盘(DVD)、数字磁带、计算机存储器等的可记录型介质;以及诸如数字和/或模拟通信介质(例如,光缆、波导、有线通信链路、无线通信链路等)的传输型介质。
对于本文使用的相对多的任何复数和/或单数术语,只要其适合于上下文和/或应用,则本领域的技术人员能够将复数转化为单数和/或将单数转化为复数。为清楚起见,本文明确阐述了各种单数/复数排列组合。
因此,已经描述了本主题的特定实施例。其他实施例落入以下权利要求的范围内。在一些情况下,权利要求中所引用的动作能够按不同的顺序执行且依然能够获得所期望的结果。此外,附图中所描绘的过程未必要求所示的特定顺序或依次顺序,以获得所期望的结果。在某些实施方式中,多任务和并行处理可以是有利的。
Claims (20)
1.一种用于抑制音频信号中的瞬态噪声的计算机实现的方法,所述方法包括:
估计包含瞬态噪声的所述音频信号的段的语音概率,所估计的语音概率是所述段包含语音数据的概率;
响应于确定所述段的所估计的语音概率大于阈值概率,对所述段执行第一类型的抑制;以及
响应于确定所述段的所估计的语音概率小于所述阈值概率,对所述段执行第二类型的抑制,
其中所述第二类型的抑制将在所述段中包含的所述瞬态噪声抑制到与所述第一类型的抑制不同的程度。
2.根据权利要求1所述的方法,其中所估计的语音概率基于从基音估计器所接收的浊音度信息。
3.根据权利要求1所述的方法,其中估计所述音频信号的所述段的所述语音概率包括:识别包含浊音话音的所述段的区域。
4.根据权利要求3所述的方法,其中识别包含浊音话音的所述段的区域包括:识别声带振动的所述段的区域。
5.根据权利要求1所述的方法,进一步包括:
将所述段的所估计的语音概率与阈值概率进行比较;以及
基于所述比较来确定所估计的语音概率大于所述阈值概率。
6.根据权利要求1所述的方法,进一步包括:
将所述段的所估计的语音概率与阈值概率进行比较;以及
基于所述比较来确定所估计的语音概率小于所述阈值概率。
7.根据权利要求1所述的方法,进一步包括:
接收所述音频信号的所述段的所估计的瞬态概率,所估计的瞬态概率是瞬态噪声存在于所述段中的概率;以及
基于所接收的所估计的瞬态概率,确定所述音频信号的所述段包含瞬态噪声。
8.根据权利要求1所述的方法,其中所述音频信号的所述段的所估计的语音概率是基于针对所述音频信号的所述段所接收的语音活动数据。
9.根据权利要求1所述的方法,其中所述第二类型的抑制将在所述段中包含的所述瞬态噪声抑制到比所述第一类型的抑制更大的程度。
10.一种用于抑制音频信号中的瞬态噪声的系统,所述系统包括:
至少一个处理器;以及
被耦合至所述至少一个处理器的计算机可读介质,所述计算机可读介质具有存储于其上的指令,当由所述至少一个处理器执行所述指令时,致使所述至少一个处理器:
估计包含瞬态噪声的所述音频信号的段的语音概率,所估计的语音概率是所述段包含语音数据的概率;
响应于确定所述段的所估计的语音概率大于阈值概率,对所述段执行第一类型的抑制;以及
响应于确定所述段的所估计的语音概率小于所述阈值概率,对所述段执行第二类型的抑制,
其中所述第二类型的抑制将在所述段中包含的所述瞬态噪声抑制到与所述第一类型的抑制不同的程度。
11.根据权利要求10所述的系统,其中所估计的语音概率基于从基音估计器所接收的浊音度信息。
12.根据权利要求10所述的系统,其中进一步致使所述至少一个处理器:
识别声带振动的所述段的区域;以及
确定声带振动的所述段的所述区域是包含浊音话音的区域。
13.根据权利要求10所述的系统,其中进一步致使所述至少一个处理器:
将所述段的所估计的语音概率与阈值概率进行比较;以及
基于所述比较来确定所估计的语音概率大于所述阈值概率。
14.根据权利要求10所述的系统,其中进一步致使所述至少一个处理器:
将所述段的所估计的语音概率与阈值概率进行比较;以及
基于所述比较来确定所估计的语音概率小于所述阈值概率。
15.根据权利要求10所述的系统,其中进一步致使所述至少一个处理器:
接收所述音频信号的所述段的所估计的瞬态概率,所估计的瞬态概率是瞬态噪声存在于所述段中的概率;以及
基于所接收的所估计的瞬态概率,确定所述音频信号的所述段包含瞬态噪声。
16.根据权利要求10所述的系统,其中所述音频信号的所述段的所估计的语音概率是基于针对所述音频信号的所述段所接收的语音活动数据。
17.根据权利要求10所述的系统,其中所述第二类型的抑制将在所述段中包含的所述瞬态噪声抑制到比所述第一类型的抑制更大的程度。
18.一种用于抑制音频信号中的瞬态噪声的计算机实现的方法,所述方法包括:
估计包含瞬态噪声的所述音频信号的段的语音概率,所估计的语音概率是所述段包含语音数据的概率;
响应于确定所述段的所估计的语音概率与第一语音状态相对应,对所述段执行第一类型的抑制;以及
响应于确定所述段的所估计的语音概率与第二语音状态相对应,对所述段执行第二类型的抑制,
其中所述第二类型的抑制将在所述段中包含的所述瞬态噪声抑制到与所述第一类型的抑制不同的程度。
19.根据权利要求18所述的方法,其中所述第二类型的抑制将在所述段中包含的所述瞬态噪声抑制到比所述第一类型的抑制更小的程度。
20.根据权利要求18所述的方法,进一步包括:
响应于确定所述段的所估计的语音概率与第三语音状态相对应,对所述段执行第三类型的抑制,
其中所述第三类型的抑制将在所述段中包含的所述瞬态噪声抑制到与所述第一类型和所述第二类型的抑制不同的程度。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US14/230,404 | 2014-03-31 | ||
US14/230,404 US9721580B2 (en) | 2014-03-31 | 2014-03-31 | Situation dependent transient suppression |
PCT/US2015/023500 WO2015153553A2 (en) | 2014-03-31 | 2015-03-31 | Situation dependent transient suppression |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105900171A true CN105900171A (zh) | 2016-08-24 |
CN105900171B CN105900171B (zh) | 2019-10-18 |
Family
ID=52829453
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201580003757.9A Active CN105900171B (zh) | 2014-03-31 | 2015-03-31 | 依赖于情境的瞬态抑制 |
Country Status (8)
Country | Link |
---|---|
US (1) | US9721580B2 (zh) |
EP (1) | EP3127114B1 (zh) |
JP (1) | JP6636937B2 (zh) |
KR (1) | KR101839448B1 (zh) |
CN (1) | CN105900171B (zh) |
AU (1) | AU2015240992C1 (zh) |
BR (1) | BR112016020066B1 (zh) |
WO (1) | WO2015153553A2 (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108877766A (zh) * | 2018-07-03 | 2018-11-23 | 百度在线网络技术(北京)有限公司 | 歌曲合成方法、装置、设备及存储介质 |
CN110739005A (zh) * | 2019-10-28 | 2020-01-31 | 南京工程学院 | 一种面向瞬态噪声抑制的实时语音增强方法 |
CN110838299A (zh) * | 2019-11-13 | 2020-02-25 | 腾讯音乐娱乐科技(深圳)有限公司 | 一种瞬态噪声的检测方法、装置及设备 |
CN112969130A (zh) * | 2020-12-31 | 2021-06-15 | 维沃移动通信有限公司 | 音频信号处理方法、装置和电子设备 |
CN115985337A (zh) * | 2023-03-20 | 2023-04-18 | 全时云商务服务股份有限公司 | 一种基于单麦克风的瞬态噪声检测与抑制的方法及装置 |
Families Citing this family (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9589574B1 (en) | 2015-11-13 | 2017-03-07 | Doppler Labs, Inc. | Annoyance noise suppression |
EP3375195B1 (en) * | 2015-11-13 | 2023-11-01 | Dolby Laboratories Licensing Corporation | Annoyance noise suppression |
US11017793B2 (en) * | 2015-12-18 | 2021-05-25 | Dolby Laboratories Licensing Corporation | Nuisance notification |
EP3506563A1 (en) * | 2017-12-29 | 2019-07-03 | Unify Patente GmbH & Co. KG | Method, system, and server for reducing noise in a workspace |
US10440324B1 (en) | 2018-09-06 | 2019-10-08 | Amazon Technologies, Inc. | Altering undesirable communication data for communication sessions |
CN110689905B (zh) * | 2019-09-06 | 2021-12-21 | 西安合谱声学科技有限公司 | 一种用于视频会议系统的语音活动检测系统 |
TWI783215B (zh) * | 2020-03-05 | 2022-11-11 | 緯創資通股份有限公司 | 信號處理系統及其信號降噪的判定方法與信號補償方法 |
CN113824843B (zh) * | 2020-06-19 | 2023-11-21 | 大众问问(北京)信息科技有限公司 | 语音通话质量检测方法、装置、设备及存储介质 |
US11837254B2 (en) * | 2021-08-03 | 2023-12-05 | Zoom Video Communications, Inc. | Frontend capture with input stage, suppression module, and output stage |
EP4343760A1 (en) * | 2022-09-26 | 2024-03-27 | GN Audio A/S | Transient noise event detection for speech denoising |
CN116738124B (zh) * | 2023-08-08 | 2023-12-08 | 中国海洋大学 | 浮式结构运动响应信号端点瞬态效应消除方法 |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1348583A (zh) * | 1999-02-18 | 2002-05-08 | 安德烈电子公司 | 消除噪声的系统、方法和设备 |
US20060100868A1 (en) * | 2003-02-21 | 2006-05-11 | Hetherington Phillip A | Minimization of transient noises in a voice signal |
CN100394475C (zh) * | 2003-02-21 | 2008-06-11 | Qnx软件操作系统(威美科)有限公司 | 抑制风噪声的系统和方法 |
CN101309071A (zh) * | 2007-05-18 | 2008-11-19 | 展讯通信(上海)有限公司 | 一种抑制音频功率放大器瞬态噪声的装置 |
US20110103615A1 (en) * | 2009-11-04 | 2011-05-05 | Cambridge Silicon Radio Limited | Wind Noise Suppression |
KR101121489B1 (ko) * | 2006-12-30 | 2012-02-28 | 모토로라 모빌리티, 인크. | 복수의 노이즈 억제 기술을 이용하는 노이즈 억제 회로 및 방법 |
CN102387273A (zh) * | 2011-07-08 | 2012-03-21 | 歌尔声学股份有限公司 | 一种抑制残留回声的方法和装置 |
CN103262517A (zh) * | 2010-07-09 | 2013-08-21 | 谷歌公司 | 指示在呼叫中存在瞬态噪声的方法及其装置 |
CN103440871A (zh) * | 2013-08-21 | 2013-12-11 | 大连理工大学 | 一种语音中瞬态噪声抑制的方法 |
CN103456310A (zh) * | 2013-08-28 | 2013-12-18 | 大连理工大学 | 一种基于谱估计的瞬态噪声抑制方法 |
EP2395774A3 (en) * | 2010-06-10 | 2016-08-10 | Canon Kabushiki Kaisha | Audio signal processing apparatus and method of controlling the same |
Family Cites Families (58)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CA2483322C (en) * | 1991-06-11 | 2008-09-23 | Qualcomm Incorporated | Error masking in a variable rate vocoder |
US6377919B1 (en) * | 1996-02-06 | 2002-04-23 | The Regents Of The University Of California | System and method for characterizing voiced excitations of speech and acoustic signals, removing acoustic noise from speech, and synthesizing speech |
JPH11133997A (ja) * | 1997-11-04 | 1999-05-21 | Matsushita Electric Ind Co Ltd | 有音無音判定装置 |
US6426983B1 (en) * | 1998-09-14 | 2002-07-30 | Terayon Communication Systems, Inc. | Method and apparatus of using a bank of filters for excision of narrow band interference signal from CDMA signal |
US6266633B1 (en) * | 1998-12-22 | 2001-07-24 | Itt Manufacturing Enterprises | Noise suppression and channel equalization preprocessor for speech and speaker recognizers: method and apparatus |
US7092881B1 (en) * | 1999-07-26 | 2006-08-15 | Lucent Technologies Inc. | Parametric speech codec for representing synthetic speech in the presence of background noise |
US6910011B1 (en) * | 1999-08-16 | 2005-06-21 | Haman Becker Automotive Systems - Wavemakers, Inc. | Noisy acoustic signal enhancement |
US6366880B1 (en) * | 1999-11-30 | 2002-04-02 | Motorola, Inc. | Method and apparatus for suppressing acoustic background noise in a communication system by equaliztion of pre-and post-comb-filtered subband spectral energies |
JP2002149200A (ja) * | 2000-08-31 | 2002-05-24 | Matsushita Electric Ind Co Ltd | 音声処理装置及び音声処理方法 |
US6622044B2 (en) * | 2001-01-04 | 2003-09-16 | Cardiac Pacemakers Inc. | System and method for removing narrowband noise |
US6826242B2 (en) * | 2001-01-16 | 2004-11-30 | Broadcom Corporation | Method for whitening colored noise in a communication system |
US6798854B2 (en) * | 2001-01-16 | 2004-09-28 | Broadcom Corporation | System and method for canceling interference in a communication system |
US7949522B2 (en) * | 2003-02-21 | 2011-05-24 | Qnx Software Systems Co. | System for suppressing rain noise |
US7895036B2 (en) * | 2003-02-21 | 2011-02-22 | Qnx Software Systems Co. | System for suppressing wind noise |
US8073689B2 (en) * | 2003-02-21 | 2011-12-06 | Qnx Software Systems Co. | Repetitive transient noise removal |
US8326621B2 (en) * | 2003-02-21 | 2012-12-04 | Qnx Software Systems Limited | Repetitive transient noise removal |
US8271279B2 (en) * | 2003-02-21 | 2012-09-18 | Qnx Software Systems Limited | Signature noise removal |
JP3963850B2 (ja) * | 2003-03-11 | 2007-08-22 | 富士通株式会社 | 音声区間検出装置 |
US7353169B1 (en) | 2003-06-24 | 2008-04-01 | Creative Technology Ltd. | Transient detection and modification in audio signals |
US7451082B2 (en) * | 2003-08-27 | 2008-11-11 | Texas Instruments Incorporated | Noise-resistant utterance detector |
JP4520732B2 (ja) * | 2003-12-03 | 2010-08-11 | 富士通株式会社 | 雑音低減装置、および低減方法 |
JP4456504B2 (ja) * | 2004-03-09 | 2010-04-28 | 日本電信電話株式会社 | 音声雑音判別方法および装置、雑音低減方法および装置、音声雑音判別プログラム、雑音低減プログラム |
US7454332B2 (en) * | 2004-06-15 | 2008-11-18 | Microsoft Corporation | Gain constrained noise suppression |
KR100677126B1 (ko) * | 2004-07-27 | 2007-02-02 | 삼성전자주식회사 | 레코더 기기의 잡음 제거 장치 및 그 방법 |
US8027833B2 (en) * | 2005-05-09 | 2011-09-27 | Qnx Software Systems Co. | System for suppressing passing tire hiss |
US8566086B2 (en) * | 2005-06-28 | 2013-10-22 | Qnx Software Systems Limited | System for adaptive enhancement of speech signals |
JP4863713B2 (ja) * | 2005-12-29 | 2012-01-25 | 富士通株式会社 | 雑音抑制装置、雑音抑制方法、及びコンピュータプログラム |
US7519514B2 (en) * | 2006-07-14 | 2009-04-14 | Agilent Technologies, Inc. | Systems and methods for removing noise from spectral data |
US7809559B2 (en) * | 2006-07-24 | 2010-10-05 | Motorola, Inc. | Method and apparatus for removing from an audio signal periodic noise pulses representable as signals combined by convolution |
US8019089B2 (en) | 2006-11-20 | 2011-09-13 | Microsoft Corporation | Removal of noise, corresponding to user input devices from an audio signal |
WO2008108721A1 (en) | 2007-03-05 | 2008-09-12 | Telefonaktiebolaget Lm Ericsson (Publ) | Method and arrangement for controlling smoothing of stationary background noise |
US8654950B2 (en) | 2007-05-08 | 2014-02-18 | Polycom, Inc. | Method and apparatus for automatically suppressing computer keyboard noises in audio telecommunication session |
GB2449720A (en) * | 2007-05-31 | 2008-12-03 | Zarlink Semiconductor Inc | Detecting double talk conditions in a hands free communication system |
EP2201567B1 (en) * | 2007-07-27 | 2017-10-04 | Stichting VUmc | Noise suppression in speech signals |
CA2696941A1 (en) * | 2007-09-05 | 2009-03-12 | Sensear Pty Ltd | A voice communication device, signal processing device and hearing protection device incorporating same |
US8015002B2 (en) * | 2007-10-24 | 2011-09-06 | Qnx Software Systems Co. | Dynamic noise reduction using linear model fitting |
KR20090122142A (ko) * | 2008-05-23 | 2009-11-26 | 엘지전자 주식회사 | 오디오 신호 처리 방법 및 장치 |
JP5153886B2 (ja) * | 2008-10-24 | 2013-02-27 | 三菱電機株式会社 | 雑音抑圧装置および音声復号化装置 |
US8213635B2 (en) | 2008-12-05 | 2012-07-03 | Microsoft Corporation | Keystroke sound suppression |
US8416964B2 (en) * | 2008-12-15 | 2013-04-09 | Gentex Corporation | Vehicular automatic gain control (AGC) microphone system and method for post processing optimization of a microphone signal |
CN101770775B (zh) * | 2008-12-31 | 2011-06-22 | 华为技术有限公司 | 信号处理方法及装置 |
WO2010146711A1 (ja) * | 2009-06-19 | 2010-12-23 | 富士通株式会社 | 音声信号処理装置及び音声信号処理方法 |
US8908882B2 (en) | 2009-06-29 | 2014-12-09 | Audience, Inc. | Reparation of corrupted audio signals |
CN102549657B (zh) * | 2009-08-14 | 2015-05-20 | 皇家Kpn公司 | 用于确定音频系统的感知质量的方法和系统 |
GB0919672D0 (en) | 2009-11-10 | 2009-12-23 | Skype Ltd | Noise suppression |
US9628517B2 (en) | 2010-03-30 | 2017-04-18 | Lenovo (Singapore) Pte. Ltd. | Noise reduction during voice over IP sessions |
US8798992B2 (en) * | 2010-05-19 | 2014-08-05 | Disney Enterprises, Inc. | Audio noise modification for event broadcasting |
US8411874B2 (en) | 2010-06-30 | 2013-04-02 | Google Inc. | Removing noise from audio |
JP5328744B2 (ja) | 2010-10-15 | 2013-10-30 | 本田技研工業株式会社 | 音声認識装置及び音声認識方法 |
US8239196B1 (en) * | 2011-07-28 | 2012-08-07 | Google Inc. | System and method for multi-channel multi-feature speech/noise classification for noise suppression |
WO2013078677A1 (zh) * | 2011-12-02 | 2013-06-06 | 海能达通信股份有限公司 | 一种自适应调节音效的方法和设备 |
JP2013148724A (ja) * | 2012-01-19 | 2013-08-01 | Sony Corp | 雑音抑圧装置、雑音抑圧方法およびプログラム |
CN103325384A (zh) * | 2012-03-23 | 2013-09-25 | 杜比实验室特许公司 | 谐度估计、音频分类、音调确定及噪声估计 |
US20140278389A1 (en) * | 2013-03-12 | 2014-09-18 | Motorola Mobility Llc | Method and Apparatus for Adjusting Trigger Parameters for Voice Recognition Processing Based on Noise Characteristics |
US9520141B2 (en) * | 2013-02-28 | 2016-12-13 | Google Inc. | Keyboard typing detection and suppression |
KR20150032390A (ko) * | 2013-09-16 | 2015-03-26 | 삼성전자주식회사 | 음성 명료도 향상을 위한 음성 신호 처리 장치 및 방법 |
US9454976B2 (en) * | 2013-10-14 | 2016-09-27 | Zanavox | Efficient discrimination of voiced and unvoiced sounds |
JP6334895B2 (ja) * | 2013-11-15 | 2018-05-30 | キヤノン株式会社 | 信号処理装置及びその制御方法、プログラム |
-
2014
- 2014-03-31 US US14/230,404 patent/US9721580B2/en active Active
-
2015
- 2015-03-31 BR BR112016020066-7A patent/BR112016020066B1/pt active IP Right Grant
- 2015-03-31 CN CN201580003757.9A patent/CN105900171B/zh active Active
- 2015-03-31 WO PCT/US2015/023500 patent/WO2015153553A2/en active Application Filing
- 2015-03-31 KR KR1020167020201A patent/KR101839448B1/ko active IP Right Grant
- 2015-03-31 JP JP2016554861A patent/JP6636937B2/ja active Active
- 2015-03-31 EP EP15716342.9A patent/EP3127114B1/en active Active
- 2015-03-31 AU AU2015240992A patent/AU2015240992C1/en active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1348583A (zh) * | 1999-02-18 | 2002-05-08 | 安德烈电子公司 | 消除噪声的系统、方法和设备 |
US20060100868A1 (en) * | 2003-02-21 | 2006-05-11 | Hetherington Phillip A | Minimization of transient noises in a voice signal |
CN100394475C (zh) * | 2003-02-21 | 2008-06-11 | Qnx软件操作系统(威美科)有限公司 | 抑制风噪声的系统和方法 |
KR101121489B1 (ko) * | 2006-12-30 | 2012-02-28 | 모토로라 모빌리티, 인크. | 복수의 노이즈 억제 기술을 이용하는 노이즈 억제 회로 및 방법 |
CN101309071A (zh) * | 2007-05-18 | 2008-11-19 | 展讯通信(上海)有限公司 | 一种抑制音频功率放大器瞬态噪声的装置 |
US20110103615A1 (en) * | 2009-11-04 | 2011-05-05 | Cambridge Silicon Radio Limited | Wind Noise Suppression |
EP2395774A3 (en) * | 2010-06-10 | 2016-08-10 | Canon Kabushiki Kaisha | Audio signal processing apparatus and method of controlling the same |
CN103262517A (zh) * | 2010-07-09 | 2013-08-21 | 谷歌公司 | 指示在呼叫中存在瞬态噪声的方法及其装置 |
CN102387273A (zh) * | 2011-07-08 | 2012-03-21 | 歌尔声学股份有限公司 | 一种抑制残留回声的方法和装置 |
CN103440871A (zh) * | 2013-08-21 | 2013-12-11 | 大连理工大学 | 一种语音中瞬态噪声抑制的方法 |
CN103456310A (zh) * | 2013-08-28 | 2013-12-18 | 大连理工大学 | 一种基于谱估计的瞬态噪声抑制方法 |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108877766A (zh) * | 2018-07-03 | 2018-11-23 | 百度在线网络技术(北京)有限公司 | 歌曲合成方法、装置、设备及存储介质 |
CN110739005A (zh) * | 2019-10-28 | 2020-01-31 | 南京工程学院 | 一种面向瞬态噪声抑制的实时语音增强方法 |
CN110739005B (zh) * | 2019-10-28 | 2022-02-01 | 南京工程学院 | 一种面向瞬态噪声抑制的实时语音增强方法 |
CN110838299A (zh) * | 2019-11-13 | 2020-02-25 | 腾讯音乐娱乐科技(深圳)有限公司 | 一种瞬态噪声的检测方法、装置及设备 |
CN110838299B (zh) * | 2019-11-13 | 2022-03-25 | 腾讯音乐娱乐科技(深圳)有限公司 | 一种瞬态噪声的检测方法、装置及设备 |
CN112969130A (zh) * | 2020-12-31 | 2021-06-15 | 维沃移动通信有限公司 | 音频信号处理方法、装置和电子设备 |
CN115985337A (zh) * | 2023-03-20 | 2023-04-18 | 全时云商务服务股份有限公司 | 一种基于单麦克风的瞬态噪声检测与抑制的方法及装置 |
CN115985337B (zh) * | 2023-03-20 | 2023-09-22 | 全时云商务服务股份有限公司 | 一种基于单麦克风的瞬态噪声检测与抑制的方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
JP2017513046A (ja) | 2017-05-25 |
BR112016020066A2 (zh) | 2017-08-15 |
CN105900171B (zh) | 2019-10-18 |
JP6636937B2 (ja) | 2020-01-29 |
US20150279386A1 (en) | 2015-10-01 |
US9721580B2 (en) | 2017-08-01 |
AU2015240992C1 (en) | 2018-04-05 |
AU2015240992A1 (en) | 2016-06-23 |
EP3127114A2 (en) | 2017-02-08 |
KR20160102300A (ko) | 2016-08-29 |
WO2015153553A2 (en) | 2015-10-08 |
WO2015153553A3 (en) | 2015-11-26 |
KR101839448B1 (ko) | 2018-03-16 |
AU2015240992B2 (en) | 2017-12-07 |
BR112016020066B1 (pt) | 2022-09-06 |
EP3127114B1 (en) | 2019-11-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105900171A (zh) | 依赖于情境的瞬态抑制 | |
CN110164467A (zh) | 语音降噪的方法和装置、计算设备和计算机可读存储介质 | |
CN111149370B (zh) | 会议系统中的啸叫检测 | |
EP2363852B1 (en) | Computer-based method and system of assessing intelligibility of speech represented by a speech signal | |
CN105118522B (zh) | 噪声检测方法及装置 | |
US11245788B2 (en) | Acoustic echo cancellation based sub band domain active speaker detection for audio and video conferencing applications | |
TW201248613A (en) | System and method for monaural audio processing based preserving speech information | |
CN101896964A (zh) | 用于上下文描述符传输的系统、方法及设备 | |
US9378755B2 (en) | Detecting a user's voice activity using dynamic probabilistic models of speech features | |
JP2012155339A (ja) | 音声状態モデルを使用したマルチセンサ音声高品質化 | |
Xia et al. | Using optimal ratio mask as training target for supervised speech separation | |
CN112949708A (zh) | 情绪识别方法、装置、计算机设备和存储介质 | |
Abdullah et al. | Towards more efficient DNN-based speech enhancement using quantized correlation mask | |
CN112309417A (zh) | 风噪抑制的音频信号处理方法、装置、系统和可读介质 | |
WO2024017110A1 (zh) | 语音降噪方法、模型训练方法、装置、设备、介质及产品 | |
Hashimoto et al. | Improvement of interruptibility estimation during PC work by reflecting conversation status | |
CN115223584A (zh) | 音频数据处理方法、装置、设备及存储介质 | |
JP2021526669A (ja) | 音声特徴量抽出装置、音声特徴量抽出方法、及びプログラム | |
Darabkh et al. | A modified speech recognition algorithm for people with physical disabilities | |
Han et al. | A cross-talk robust multichannel VAD model for multiparty agent interactions trained using synthetic re-recordings | |
CN116504264B (zh) | 音频处理方法、装置、设备及存储介质 | |
WO2024005985A1 (en) | Acoustic environment profile estimation | |
CN116453538A (zh) | 语音降噪方法和装置 | |
CN117795597A (zh) | 用于自动语音辨识的联合声学回声消除、语音增强和话音分离 | |
CN117579770A (zh) | 用于会议中确定主发言人的方法、装置、电子设备和介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information | ||
CB02 | Change of applicant information |
Address after: American California Applicant after: Google limited liability company Address before: American California Applicant before: Google Inc. |
|
GR01 | Patent grant | ||
GR01 | Patent grant |