CN111370014A - 多流目标-语音检测和信道融合 - Google Patents
多流目标-语音检测和信道融合 Download PDFInfo
- Publication number
- CN111370014A CN111370014A CN201911241535.7A CN201911241535A CN111370014A CN 111370014 A CN111370014 A CN 111370014A CN 201911241535 A CN201911241535 A CN 201911241535A CN 111370014 A CN111370014 A CN 111370014A
- Authority
- CN
- China
- Prior art keywords
- target
- speech
- stream
- enhanced
- operable
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 31
- 230000004927 fusion Effects 0.000 title claims abstract description 17
- 238000000034 method Methods 0.000 claims abstract description 38
- 238000013528 artificial neural network Methods 0.000 claims description 11
- 238000000926 separation method Methods 0.000 claims description 10
- 230000003044 adaptive effect Effects 0.000 claims description 8
- 238000001914 filtration Methods 0.000 claims description 7
- 239000000203 mixture Substances 0.000 claims description 6
- 230000005236 sound signal Effects 0.000 abstract description 43
- 238000012545 processing Methods 0.000 abstract description 22
- 238000004891 communication Methods 0.000 description 13
- 230000015654 memory Effects 0.000 description 10
- 230000007274 generation of a signal involved in cell-cell signaling Effects 0.000 description 7
- 230000000694 effects Effects 0.000 description 5
- 230000002708 enhancing effect Effects 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 238000013459 approach Methods 0.000 description 3
- 230000008901 benefit Effects 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 230000003993 interaction Effects 0.000 description 3
- 230000000306 recurrent effect Effects 0.000 description 3
- 230000004044 response Effects 0.000 description 3
- 230000004913 activation Effects 0.000 description 2
- 230000001413 cellular effect Effects 0.000 description 2
- 239000002131 composite material Substances 0.000 description 2
- 230000002452 interceptive effect Effects 0.000 description 2
- 230000003595 spectral effect Effects 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 230000003416 augmentation Effects 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000012880 independent component analysis Methods 0.000 description 1
- 238000012886 linear function Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000002085 persistent effect Effects 0.000 description 1
- 230000001902 propagating effect Effects 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 238000013179 statistical model Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 238000012285 ultrasound imaging Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L65/00—Network arrangements, protocols or services for supporting real-time applications in data packet communication
- H04L65/80—Responding to QoS
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0316—Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
- G10L21/0364—Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude for improving intelligibility
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/20—Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L25/84—Detection of presence or absence of voice signals for discriminating voice from noise
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L65/00—Network arrangements, protocols or services for supporting real-time applications in data packet communication
- H04L65/60—Network streaming of media packets
- H04L65/65—Network streaming protocols, e.g. real-time transport protocol [RTP] or real-time control protocol [RTCP]
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R3/00—Circuits for transducers, loudspeakers or microphones
- H04R3/005—Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S3/00—Systems employing more than two channels, e.g. quadraphonic
- H04S3/008—Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L2015/088—Word spotting
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L2021/02087—Noise filtering the noise being separate speech, e.g. cocktail party
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L2021/02161—Number of inputs available containing the signal or the noise to be suppressed
- G10L2021/02166—Microphone arrays; Beamforming
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/60—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for measuring the quality of voice signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L65/00—Network arrangements, protocols or services for supporting real-time applications in data packet communication
- H04L65/60—Network streaming of media packets
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R1/00—Details of transducers, loudspeakers or microphones
- H04R1/20—Arrangements for obtaining desired frequency or directional characteristics
- H04R1/32—Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
- H04R1/40—Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers
- H04R1/406—Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers microphones
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R2430/00—Signal processing covered by H04R, not provided for in its groups
- H04R2430/20—Processing of the output signals of the acoustic transducers of an array for obtaining a desired directivity characteristic
- H04R2430/23—Direction finding using a sum-delay beam-former
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2400/00—Details of stereophonic systems covered by H04S but not provided for in its groups
- H04S2400/01—Multi-channel, i.e. more than two input channels, sound reproduction with two speakers wherein the multi-channel information is substantially preserved
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Health & Medical Sciences (AREA)
- Signal Processing (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Human Computer Interaction (AREA)
- Quality & Reliability (AREA)
- Otolaryngology (AREA)
- General Health & Medical Sciences (AREA)
- Computer Networks & Wireless Communication (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
音频处理系统和方法包括:音频传感器阵列,其可操作以接收多信道音频输入并生成对应的多信道音频信号;以及目标语音检测逻辑和自动语音识别引擎或VoIP应用。一种音频处理设备包括:目标语音增强引擎,其可操作以分析多信道音频输入信号以及生成多个增强目标流;多流目标语音检测发生器,其包括多个目标语音检测器引擎,所述目标语音检测器引擎各自可操作以确定在流中检测到感兴趣的特定目标语音的概率,其中多流目标语音检测发生器可操作以确定与增强目标流相关联的多个权重;以及融合子系统,其可操作以将多个权重应用于增强目标流以生成增强输出信号。
Description
相关申请的交叉引用
本申请要求2018年12月6日提交的并且标题为“MULTI-STREAM TARGET-SPEECHDETECTION AND CHANNEL FUSION”的美国临时专利申请No.62/776,422的优先权和权益,其通过引用以其整体特此并入。
技术领域
根据一个或多个实施例,本申请总体上涉及用于音频处理的系统和方法,并且更特别地,例如,涉及检测、跟踪和/或增强用于关键词检测的一个或多个音频目标。
背景技术
基于音频交互的人机界面(HCI)近年来随着智能扬声器、话音控制设备和并入话音交互的其它设备的出现而已经变得非常流行。在话音激活的系统中,通常在两个阶段中获得交互:(i)通过说出特定的激活关键词来激活系统,以及然后(ii)说出要由系统处理的特定问题或话音命令。第一阶段通常由自动关键词定点(KWS)算法来处理,以识别嵌入有噪声的音频信号中的特定词。第二阶段通常由自然语言和自动语音识别系统来处理。虽然当前系统提供了对于许多现实世界场景而言大体上可接受的结果,但是结果通常遭受环境中的强噪声的存在。类似地,在远场VoIP应用中,通常需要仅流式传输(stream)感兴趣的特别目标语音,这在存在响的噪声或其它干扰扬声器的情况下是困难的任务。因此,存在对用于ASR和VoIP应用两者的有噪声的环境中的关键词定点和语音增强的改进的系统和方法的持续需要。
发明内容
本公开提供了用于在有噪声的音频信号中检测、跟踪和/或增强目标音频源(诸如人类语音)的方法和系统。音频处理系统和方法包括:音频传感器阵列,其可操作以接收多信道音频输入并生成对应的多信道音频信号;以及目标-语音检测逻辑和自动语音识别引擎。音频处理设备包括:目标语音增强引擎,其可操作以分析多信道音频输入信号以及生成多个增强的目标流;多流预训练目标-语音检测引擎,其包括多个预训练的检测器引擎,所述检测器引擎各自可操作以确定在流中检测到目标-语音的概率,其中多流目标-语音检测发生器可操作以确定与增强的目标流相关联的多个权重;以及融合子系统,其可操作以将多个权重应用于增强的目标流以生成增强输出信号。
本公开的范围由权利要求限定,所述权利要求通过引用并入到此部分中。通过考虑以下对一个或多个实施例的详细描述,本领域技术人员将被给予对本发明的实施例的较完整的理解,以及其附加优点的实现。将对将首先被简要描述的附图的附页进行参考。
附图说明
参考以下附图和随后的详细描述,可以较好地理解本公开的各方面及其优点。应当领会的是,相同的参考标号用于标识一个或多个附图中所图示的相同元件,其中在其中的示出是为了说明本公开的实施例的目的,而不是为了限制本公开的实施例的目的。附图中的部件不一定是按比例的,而是将重点放在清楚地说明本公开的原理上。
图1图示了根据本公开的一个或多个实施例的多流目标-语音定点和流信号融合的示例。
图2图示了根据本公开的一个或多个实施例的多流关键词定点系统的示例实施方式。
图3图示了根据本公开的一个或多个实施例的示例关键词定点系统。
图4图示了根据本公开的一个或多个实施例的在关键词定点系统中使用的示例音频处理部件。
具体实施方式
本文中公开了用于在有噪声的音频信号中检测、跟踪和/或增强目标音频源(诸如人类语音)的系统和方法。系统和方法包括改进的多流目标-语音检测和信道融合。
在各种实施例中,话音激活的系统通过使用户(i)通过说出特定的激活关键词来激活系统,以及然后(ii)说出要由系统处理的特定问题或话音命令来进行操作。第一阶段由自动关键词定点(KWS)算法处理,该算法使用机器学习方法来识别嵌入有噪声的音频信号中的特定词。第二阶段由自然语言和通常在云服务器上运行的自动语音识别系统来处理。本文中公开的实施例包括改进的多信道语音增强,以在要将音频信号馈送到KWS、发送到云ASR引擎或通过VoIP应用流式传输之前,对音频信号进行预处理。
用于减少来自音频信号的噪声的在线多信道语音增强技术遭受在本公开中解决以改进话音启用设备的可用性的一些概念限制。例如,在线多信道语音增强技术典型地需要对构成要增强的目标语音的内容的清晰定义。此定义可通过话音活动检测器(VAD)或通过采用一些几何知识(如,例如,预期的到达的源方向(DOA))来做出。基于VAD的多信道系统通常能够减少不包含语音的噪声。然而,在许多场景中,噪声源可能包含被识别为话音活动的语音内容,诸如来自电视或无线电的音频以及来自竞争谈话者的语音。另一方面,基于几何知识的增强方法需要关于期望谈话者的物理位置的先验知识。对于免提远场话音应用,该位置通常是未知的,并且如果在同一环境中存在两个谈话者,则可能难以确定而没有歧义。在线多信道语音增强技术的另一限制在于,当谈话者的位置相对于麦克风不变时,它们大多是有效的。如果谈话者的位置急剧改变,则滤波参数需要适应新的几何配置,并且在适应期间,信号质量可能严重降级。
部分地解决基于VAD的增强的限制的一种方法是多信道盲源分离(BSS)。BSS方法可以在没有明确定义什么是感兴趣的目标源的情况下产生对输出源信号的估计。事实上,它们仅尝试分解在其单独空间分量中的混合物,例如,从3D空间中的不同物理位置传播的单独声源。这允许成功地采用BSS来分离与多个谈话者相关联的信号。然而,在实践应用中,仍然存在用于定义什么是感兴趣的“目标”语音的后验的需要。
为了解决上述问题,本文中公开了一种系统架构,其将多信道源增强/分离与并行预训练的检测器组合,以定点感兴趣的特别语音。生成多个流并将其馈送到多个检测器,所述多个检测器被训练以识别感兴趣的特定的信号/源。然后使用检测的可能性来生成用于将所有流组合成单个流的权重,该单个流由具有较高检测置信度的流组成或支配。
在各种实施例中,在存在重叠语音的持续噪声源的场景中,本文中公开的系统架构能够改进ASR应用的KWS检测性能。该场景的示例是当TV播放连续的响的音频信号时,而用户想要与系统交互时。系统架构还可以通过根据目标-语音检测器响应组合最佳输出信号来产生ASR引擎的最优增强的输出信号。
参考图1,图示了根据本申请的一个或多个实施例的目标-语音检测器系统100的示例。系统100包括多流信号生成子系统102、多流目标-语音检测器(TSD)引擎120;以及(iii)融合子系统140。
多流信号生成子系统102包括多个N个不同的语音增强模块,每个语音增强模块使用不同的增强分离准则。在各种实施例中,增强分离准则可以包括:(i)适应性空间滤波算法,诸如具有不同固定或适应性看的方向的波束成形;(ii)固定波束成形算法、例如延迟和总和波束成形、心形配置等;(iii)产生与独立源相关的多个输出的盲源分离算法;(IV)基于语音统计模型和信噪比(SNR)跟踪的传统单信道增强;(v)诸如基于非负矩阵因子分解(NMF)或神经网络的数据驱动语音增强方法和/或(vi)其它方法。每个模块可能产生不同数量的输出流SN,其将取决于用于语音增强的特别算法。
由多流信号生成子系统102产生的输出流110被馈送到多个并行TSD引擎122。TSD引擎122可以基于目标语音/扬声器或关键词定点技术,包括传统的高斯混合模型和隐马尔可夫模型和/或递归神经网络,诸如长短期记忆(LSTM)、门控递归单元(GRU)和其它神经网络技术。每个TSD引擎122可操作以产生与到对应TSD引擎122的输入信号包含特定训练的目标语音的置信度相关的后验权重124。在一些实施例中,TSD引擎122被训练为被偏置以利用清晰语音(例如,通过限制训练数据中的噪声量)产生较高后验。因此,由于馈送到多流信号生成级的输入信号104相同,所以较高后验暗示着对应的输入语音信号将更接近清晰且未失真。在各种实施例中,通过将单独的TSD后验归一化为:
来获得权重124。
融合子系统140使用权重124并应用可编程启发来组合输出流110。该组合可以作为信号的加权总和来获得为,其中,是权重的非线性函数(例如,“max”运算符或其它对比函数)。可以通过使用具有记忆的函数来采用较复杂的组合,诸如采用信道的时间一致性。例如,如果一些流的权重彼此类似,则融合子系统可以被偏置以选择相同信道的影响(contribution),因此减少信号不连续。在一些实施例中,可以定义优先级的动态顺序。
其中是连接到输出的用于检测的检测阈值,以及是从单独检测计算组合检测的函数,并且可以被实现为逻辑运算符的组合。组合的输出和检测然后被馈送到可以在云、网络服务器或其它主机系统上实现的自动语音识别引擎150。
鉴于前述内容,本公开的一个或多个实施例包括一种系统,所述系统包括:目标语音增强引擎,其配置成分析多信道音频输入信号以及生成多个增强的目标流;多流目标-语音检测器发生器,其包括多个目标-语音检测器引擎,所述目标-语音检测器引擎各自配置成确定流中特定目标-语音的质量和/或存在的置信度,其中多流目标-语音检测发生器配置成确定与增强的目标流相关联的多个权重;以及融合子系统,其配置成将多个权重应用于所述增强的目标流以生成组合的增强的输出信号。
系统还可包括音频传感器阵列,其配置成感测人类语音和环境噪声以及生成对应多信道音频输入信号。在一些实施例中,目标语音增强引擎包括多个语音增强模块,每个语音增强模块配置为分析多信道音频输入信号并且输出增强的目标流中的一个,并且包括适应性空间滤波算法、波束成形算法、盲源分离算法、单信道增强算法和/或神经网络。在一些实施例中,目标-语音检测器引擎包括高斯混合模型、隐马尔可夫模型和/或神经网络,并且被配置为产生与输入音频流包括特定目标语音的置信度相关的后验权重。
参考图2,现在将描述用于系统的可能的实践实施方式的示例。所图示的示例是指目标是要选择包含特定语音关键词且具有最高语音质量的流的情况。关键词定点系统200包括多流信号生成子系统202、多流KWS(MSKWS)引擎220;以及(iii)融合子系统240。多流信号生成子系统202包括多个语音增强模块202a-g,其中每个语音增强模块使用不同的增强分离准则。由多流信号生成子系统202产生的输出流210被馈送到多个并行KWS引擎222a-h。每个KWS引擎222a-h可操作以产生对应的后验权重,其与到对应KWS引擎222a-h的输入信号包含特定训练的关键词的置信度相关。
融合子系统240使用信号权重并且被编程为组合输出流210以产生组合的输出。MSKWS引擎220还包括可编程逻辑224,其可操作以产生用于KWS检测的组合的后验。组合的输出和检测然后被馈送到自动语音识别引擎以用于进一步处理。
在该示例中,定义了四种不同的“增强”算法类别。第一类别通过使用在不同的预定义方向(增强块202a、202b、202c和202d)上操纵方向的波束成形器来产生四个增强的输出流。每个波束成形器组合多个输入信号以便抑制噪声,同时维持在操纵方向上的整体增益。波束成形器算法可以是固定的滤波-及-总和,诸如延迟及总和(D&S),或者适应性的一个,类似最小方差无失真响应(MVDR)。
第二类别由在方向上操纵方向的适应性波束成形器(增强块202e)表示,其中该方向与输入数据在线适应。例如,可以采用话音活动检测(VAD)来更新方向。也可以从诸如视频捕获、有源超声成像、RFID梯度图等的其它多模态信号中导出。该增强算法的目标是在的估计是可靠的情况下,提供较准确的输出信号。注意,如果多个方向是可用的,则该类别能够产生较多输出流。例如,用于跟踪多个声源的系统可以估计最主导的源的角度方向和仰角。然后,适应性波束成形将产生在这些方向上增强的多个流,但那些流中的仅一个将包含系统用户的语音。增强的信号本身可以通过MVDR或广义本征值(或maxSNR)波束成形器来获得。
第三类别由增强方法表示,该增强方法不依赖于关于第一类别和第二类别(例如,单信道增强块202f)中的算法的任何空间提示。此方法将具有通过仅估计可从单信道观察导出的噪声频谱统计来增强任何噪声的目标。方法可以通过传统的数据独立的基于SNR的语音增强(例如诸如Wiener滤波)或通过数据相关或基于模型的算法(例如,通过深度神经网络或NMF的频谱屏蔽估计)来实现。
第四类别由BSS算法(202g)表示,BSS算法在统计上独立的输出流中分解输入。该方法将目标语音与噪声或其它干扰语音源分离,并且可以通过独立的矢量分析、独立分量分析、多信道NMF、深度聚类或通过用于无监督源分离的其它方法来实现。
在图示的实施例中,选择四个不同的增强类别,使得每个的特征在于在不同的现实世界条件下的不同的特定行为。例如,如果用户位于操纵方向上且混响量可忽略,则预期第一类别中的输出信号产生良好输出信号。然而,如果这些条件不满足,则输出可以是灵敏地失真的。另一方面,第二类别中的方法能够适应真实声源方向,因为那些方向随数据被更新。另一方面,如果噪声位于目标语音的相同方向上,则与定向波束成形相比,基于BSS的第四方法将提供更好的分离流。同时,如果源正在移动或间歇活动,则在用户方向上或BSS滤波器估计中将存在固有不确定性。在这些条件下,由第三类别提供的信号可以更可靠,因为它将完全独立于源空间信息。
通过由属于正交类别的技术生成输出流,系统能够产生对于观察到的特定场景而言最优的至少一个输出流。KWS引擎然后将被应用于所有流,以产生最终检测并且以产生发送到自然语言ASR引擎的组合的输出。在该示例中,选择具有最大(归一化)检测后验的流:
另外,在所图示实施例中的最终检测状态被确定为所有单独触发器检测的逻辑“或”组合。将领会的是,图2中描述的系统仅是帮助更好地理解图1中和本文中其它地方所描述的一般结构的范围的示例,并且不同的系统实施方式在本公开的范围内。尽管所图示的系统目标在于改进用于ASR应用的KWS检测和信道选择,但在其它实施例中,本文中所公开的架构可被修改用于其它应用。例如,可以实现递归神经网络来预测语音活动或产生与平均SNR相关的归一化分数以预测信号的质量,并且因此产生可以用于IP语音(VoIP)应用的组合的信道,而不使用如在图2中描述的KWS引擎。因此,这些网络的后验将给出关于如何组合流以最大化VoIP应用的SNR的指示。在另一个实施例中,可以由话音认证系统(VA)代替KWS,以便仅聚焦在包含特定谈话者的语音的信道上。
图3图示了根据本公开的各种实施例的可实现关键词定点子系统的音频处理设备300。音频处理设备300包括音频输入,诸如音频传感器阵列305、音频信号处理器320和主机系统部件350。音频传感器阵列305包括一个或多个传感器,每个传感器可以将声波转换成音频信号。在所图示的环境中,音频传感器阵列305包括多个麦克风305a-305n,每个麦克风生成多信道音频信号的一个音频信道。
音频信号处理器320包括音频输入电路322、数字信号处理器324和可选的音频输出电路326。在各种实施例中,音频信号处理器320可以被实现为包括模拟电路、数字电路和数字信号处理器324的集成电路,其可操作以执行存储在存储器中的程序指令。例如,音频输入电路322可包括到音频传感器阵列305的接口、抗混叠滤波器、模数转换器电路、回声消除电路和其它音频处理电路和部件。
数字信号处理器324可以包括以下中的一个或多个:处理器、微处理器、单核处理器、多核处理器、微控制器、可编程逻辑器件(PLD)(例如,现场可编程门阵列(FPGA))、数字信号处理(DSP)设备或可通过硬连线、执行软件指令或两者的组合来配置的其它逻辑器件,以执行本文中针对本公开的实施例所讨论的各种操作。
数字信号处理器324可操作以处理多信道数字音频输入信号以生成增强的音频信号,其输出到一个或多个主机系统部件350。在一个实施例中,数字信号处理器324可操作以诸如通过总线或其它电子通信接口与主机系统部件350接合并通信。在各种实施例中,多信道音频信号包括噪声信号和至少一个期望目标音频信号(例如,人类语音)的混合,并且数字信号处理器324可操作以隔离或增强期望的目标信号,同时减少或消除不期望的噪声信号。数字信号处理器324能够可操作以执行回声消除、噪声消除、目标信号增强、后滤波和其它音频信号处理。
可选的音频输出电路326处理从数字信号处理器324接收的音频信号以用于输出到至少一个扬声器,诸如扬声器310a和310b。在各种实施例中,音频输出电路326可以包括将一个或多个数字音频信号转换为对应的模拟信号的数模转换器以及用于驱动扬声器310a和310b的一个或多个放大器。
音频处理设备300可实现为可操作以接收和检测目标音频数据的任何设备,诸如例如移动电话、智能扬声器、平板电脑、膝上型计算机、台式计算机、话音控制装置或汽车。主机系统部件350可以包括用于操作音频处理设备300的各种硬件和软件部件。在所图示的实施例中,主机系统部件350包括处理器352、用户界面部件354、用于与外部设备和网络(诸如网络380(例如,因特网、云、局域网或蜂窝网络)和移动设备384)通信的通信接口356以及存储器358。
处理器352可以包括以下中的一个或多个:处理器、微处理器、单核处理器、多核处理器、微控制器、可编程逻辑器件(PLD)(例如,现场可编程门阵列(FPGA))、数字信号处理(DSP)设备或可以通过硬连线、执行软件指令或两者的组合来配置的其它逻辑器件,以执行本文中针对本公开的实施例所讨论的各种操作。主机系统部件350可操作以诸如通过总线或其它电子通信接口与音频信号处理器320以及其它系统部件350接合并通信。
将领会的是,虽然音频信号处理器320及主机系统部件350示出为并入硬件部件、电路及软件的组合,但在一些实施例中,硬件部件及电路可操作以执行的功能性中的至少一些或全部可实现为由处理器352和/或数字信号处理器324响应于(存储在数字信号处理器324的存储器358或固件中的)软件指令和/或配置数据而执行的软件模块。
存储器358可以被实现为可操作以存储数据和信息(包括音频数据和程序指令)的一个或多个存储器设备。存储器358可以包括一个或多个各种类型的存储器设备,包括易失性和非易失性存储器设备,诸如RAM(随机存取存储器)、ROM(只读存储器)、EEPROM(电可擦除只读存储器)、闪速存储器、硬盘驱动器和/或其它类型的存储器。
处理器352能够可操作以执行存储在存储器358中的软件指令。在各种实施例中,语音识别引擎360可操作以处理从音频信号处理器320接收的增强的音频信号,包括识别和执行话音命令。话音通信部件362能够可操作以促进与一个或多个外部设备(诸如移动设备384或用户设备386)的话音通信,这诸如是通过移动或蜂窝电话网络上的话音呼叫或IP(因特网协议)网络上的VoIP呼叫。在各种实施例中,话音通信包括将增强的音频信号传输到外部通信设备。
用户界面部件354可包括显示器、触摸板显示器、键区、一个或多个按钮和/或可操作以使得用户能够与音频处理设备300直接交互的其它输入/输出部件。
通信接口356促进音频处理设备300与外部设备之间的通信。例如,通信接口356可以实现音频处理设备300与诸如移动设备384之类的一个或多个本地设备之间的Wi-Fi(例如,802.11)或蓝牙连接,或者诸如通过网络380向远程服务器382提供网络接入的无线路由器。在各种实施例中,通信接口356可包括促进音频处理设备300与一个或多个其它设备之间的直接或间接通信的其它有线及无线通信部件。
图4图示了根据本公开的各种实施例的音频信号处理器400。在一些实施例中,音频信号处理器400体现为包括由数字信号处理器(诸如图3的数字信号处理器324)实现的模拟和数字电路及固件逻辑的一个或多个集成电路。如所图示,音频信号处理器400包括音频输入电路415、子带频率分析器420、目标语音增强引擎430、关键词定点引擎440和融合引擎450。
音频信号处理器400从多个音频传感器(诸如包括多个音频传感器405a-n的传感器阵列405)接收多信道音频输入。音频传感器405a-405n可包括与音频处理设备(诸如图3的音频处理设备300)、连接到其的外部部件或用于向音频信号处理器400提供实时多信道音频输入的其它布置来集成的麦克风。
音频信号可以最初由音频输入电路415处理,所述音频输入电路415可以包括抗混叠滤波器、模数转换器和/或其它音频输入电路。在各种实施例中,音频输入电路415输出具有N个信道的数字、多信道、时域音频信号,其中N是传感器(例如,麦克风)输入的数量。多信道音频信号被输入到子带频率分析器420,所述子带频率分析器420将多信道音频信号分割成连续的帧,并且将每个信道的每个帧分解成多个频率子带。在各种实施例中,子带频率分析器420包括傅立叶变换过程,并且输出包括多个频率窗。分解的音频信号然后被提供给目标语音增强引擎430。语音目标增强引擎430可操作以分析音频信道的帧以及生成包括期望语音的信号。目标语音增强引擎430可包括话音活动检测器,其可操作以接收音频数据的帧以及作出关于帧中存在或不存在人类语音的确定。在一些实施例中,语音目标增强引擎检测和跟踪多个音频源,并且识别来自一个或多个目标源的人类语音的存在或不存在。目标语音增强引擎430从子带频率分析器420接收子带帧,并增强被确定为语音目标的音频信号的一部分,并根据本文中公开的多流关键词检测和信道选择系统和方法来抑制被确定为噪声的音频信号的其它部分。在各种实施例中,目标语音增强引擎430以逐帧基础重构多信道音频信号以形成多个增强的音频信号,所述多个增强的音频信号被传递到关键词定点引擎440和融合引擎450。关键词定点引擎440计算要应用于多个增强的音频信号中的每个的权重,以及确定在增强的音频信号中已经检测到关键词的概率。融合引擎450然后将权重应用于多个增强的音频信号以产生增强关键词以用于进一步处理的输出增强的音频信号。
在可适用的情况下,由本公开提供的各种实施例可以使用硬件、软件或硬件和软件的组合来实现。此外,在可适用的情况下,在不脱离本公开的精神的情况下,本文中所阐述的各种硬件部件和/或软件部件可以被组合成包括软件、硬件和/或两者的复合部件。在可适用的情况下,在不脱离本公开的范围的情况下,本文中所阐述的各种硬件部件和/或软件部件可以被分离成包括软件、硬件或两者的子部件。另外,在可适用的情况下,设想的是,软件部件可以被实现为硬件部件,并且反之亦然。
根据本公开,软件(诸如程序代码和/或数据)可以被存储在一个或多个计算机可读介质上。还设想的是,本文中所标识的软件可以使用一个或多个通用或专用计算机和/或计算机系统、联网和/或以其它方式来实现。在可适用的情况下,本文中描述的各种步骤的次序可以改变、组合成复合步骤和/或分离成子步骤以提供本文中描述的特征。
前述公开不旨在将本公开限制于所公开的精确形式或特别使用领域。因此,设想的是,根据本公开,无论在本文中明确描述或暗示,本公开的各种替代实施例和/或修改是可能的。已经像这样描述了本公开的实施例,本领域的普通技术人员将认识到的是,在不脱离本公开的范围的情况下,可以在形式和细节上做出改变。因此,本公开仅受权利要求限制。
Claims (20)
1.一种系统,包括:
目标语音增强引擎,其可操作以分析多信道音频输入信号以及生成多个增强的目标流;
多流目标-语音检测器发生器,其包括多个目标-语音检测器引擎,所述目标-语音检测器引擎各自可操作以确定所述流中特定目标-语音的质量和/或存在的置信度,其中所述多流目标-语音检测发生器可操作以确定与所述增强的目标流相关联的多个权重;以及
融合子系统,其可操作以将所述多个权重应用于所述增强的目标流以生成组合的增强的输出信号。
2.根据权利要求1所述的系统,其还包括音频传感器阵列,所述音频传感器阵列可操作以感测人类语音和环境噪声以及生成对应的所述多信道音频输入信号。
3.根据权利要求1所述的系统,其中所述目标语音增强引擎包括多个语音增强模块,每个语音增强模块可操作以分析所述多信道音频输入信号并输出所述增强的目标流中的一个。
4.根据权利要求3所述的系统,其中所述多个语音增强模块包括适应性空间滤波算法、波束成形算法、盲源分离算法、单信道增强算法和/或神经网络。
5.根据权利要求1所述的系统,其中所述目标-语音检测器引擎包括高斯混合模型、隐马尔可夫模型和/或神经网络。
6.根据权利要求1所述的系统,其中每个目标语音检测器引擎可操作以产生与输入音频流包括所述特定目标语音的置信度相关的后验权重。
7.根据权利要求6所述的系统,其中每个目标-语音检测器引擎可操作以利用清晰语音产生较高后验。
8.根据权利要求1所述的系统,其中所述增强的输出信号是所述增强的目标流的加权总和。
9.根据权利要求1所述的系统,其中所述多流目标-语音检测发生器还可操作以确定在所述流中检测到特定目标语音的组合概率,并且其中在所述组合概率超过检测阈值的情况下检测所述目标-语音。
10.根据权利要求9所述的系统,还包括自动语音识别引擎或VoIP应用,并且其中如果检测到所述目标-语音,则将所述增强的输出信号转发到所述自动语音识别引擎或VoIP。
11.一种方法,包括:
使用目标语音增强引擎分析多信道音频输入信号并生成多个增强的目标流;
使用多流目标-语音检测器发生器来确定在所述流中检测到目标-语音的概率;
计算所述增强的目标流中的每个的权重;以及
将所述计算的权重应用于所述增强的目标流以生成增强输出信号。
12.根据权利要求11所述的方法,其还包括使用音频传感器阵列感测人类语音和环境噪声,以及生成对应的所述多信道音频输入信号。
13.根据权利要求11所述的方法,其中分析所述多信道音频输入信号包括应用多个语音增强模态,每个语音增强模态输出所述增强的目标流中的分离的一个。
14.根据权利要求13所述的方法,其中所述多个语音增强模态包括适应性空间滤波算法、波束成形算法、盲源分离算法、单信道增强算法和/或神经网络。
15.根据权利要求11所述的方法,其中确定在所述流中检测到所述目标-语音的所述概率包括应用高斯混合模型、隐马尔可夫模型和/或神经网络。
16.根据权利要求11所述的方法,其中确定在所述流中检测到所述目标-语音的所述概率包括产生与所述输入流包括关键词的置信度相关的后验权重。
17.根据权利要求16所述的方法,其还包括利用清晰语音产生较高后验。
18.根据权利要求11所述的方法,其中所述增强的输出信号是所述增强的目标流的加权总和。
19.根据权利要求11所述的方法,其还包括确定在所述流中检测到所述目标-语音的组合概率;以及其中在所述组合概率超过检测阈值的情况下检测所述目标-语音。
20.根据权利要求19所述的方法,其还包括如果检测到所述目标-语音,则对所述增强的输出信号执行自动语音识别。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201862776422P | 2018-12-06 | 2018-12-06 | |
US62/776422 | 2018-12-06 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111370014A true CN111370014A (zh) | 2020-07-03 |
CN111370014B CN111370014B (zh) | 2024-05-28 |
Family
ID=70970205
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911241535.7A Active CN111370014B (zh) | 2018-12-06 | 2019-12-06 | 多流目标-语音检测和信道融合的系统和方法 |
Country Status (3)
Country | Link |
---|---|
US (2) | US11158333B2 (zh) |
JP (1) | JP7407580B2 (zh) |
CN (1) | CN111370014B (zh) |
Families Citing this family (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7407580B2 (ja) | 2018-12-06 | 2024-01-04 | シナプティクス インコーポレイテッド | システム、及び、方法 |
US11048472B2 (en) | 2019-01-27 | 2021-06-29 | Listen AS | Dynamically adjustable sound parameters |
US11126398B2 (en) * | 2019-03-13 | 2021-09-21 | Listen AS | Smart speaker |
WO2020231151A1 (en) * | 2019-05-16 | 2020-11-19 | Samsung Electronics Co., Ltd. | Electronic device and method of controlling thereof |
US11557307B2 (en) | 2019-10-20 | 2023-01-17 | Listen AS | User voice control system |
US20210201928A1 (en) * | 2019-12-31 | 2021-07-01 | Knowles Electronics, Llc | Integrated speech enhancement for voice trigger application |
US11064294B1 (en) | 2020-01-10 | 2021-07-13 | Synaptics Incorporated | Multiple-source tracking and voice activity detections for planar microphone arrays |
EP4147458A4 (en) | 2020-05-08 | 2024-04-03 | Microsoft Technology Licensing Llc | SYSTEM AND METHOD FOR DATA AMPLIFICATION FOR MULTI-MICROPHONE SIGNAL PROCESSING |
US11875797B2 (en) * | 2020-07-23 | 2024-01-16 | Pozotron Inc. | Systems and methods for scripted audio production |
CN111916106B (zh) * | 2020-08-17 | 2021-06-15 | 牡丹江医学院 | 一种提高英语教学中发音质量的方法 |
CN112017686B (zh) * | 2020-09-18 | 2022-03-01 | 中科极限元(杭州)智能科技股份有限公司 | 基于门控递归融合深度嵌入式特征的多通道语音分离系统 |
CN112786069B (zh) * | 2020-12-24 | 2023-03-21 | 北京有竹居网络技术有限公司 | 语音提取方法、装置和电子设备 |
TWI761018B (zh) * | 2021-01-05 | 2022-04-11 | 瑞昱半導體股份有限公司 | 語音擷取方法以及語音擷取系統 |
US11823707B2 (en) | 2022-01-10 | 2023-11-21 | Synaptics Incorporated | Sensitivity mode for an audio spotting system |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090238377A1 (en) * | 2008-03-18 | 2009-09-24 | Qualcomm Incorporated | Speech enhancement using multiple microphones on multiple devices |
JP2010085733A (ja) * | 2008-09-30 | 2010-04-15 | Equos Research Co Ltd | 音声強調システム |
US20120215519A1 (en) * | 2011-02-23 | 2012-08-23 | Qualcomm Incorporated | Systems, methods, apparatus, and computer-readable media for spatially selective audio augmentation |
KR101318328B1 (ko) * | 2012-04-12 | 2013-10-15 | 경북대학교 산학협력단 | 성김 특성 최소화를 통한 암묵 신호 제거를 이용한 음성 향상 방법 및 장치 |
US20150117649A1 (en) * | 2013-10-31 | 2015-04-30 | Conexant Systems, Inc. | Selective Audio Source Enhancement |
US20160275961A1 (en) * | 2015-03-18 | 2016-09-22 | Qualcomm Technologies International, Ltd. | Structure for multi-microphone speech enhancement system |
US20170162194A1 (en) * | 2015-12-04 | 2017-06-08 | Conexant Systems, Inc. | Semi-supervised system for multichannel source enhancement through configurable adaptive transformations and deep neural network |
US9734822B1 (en) * | 2015-06-01 | 2017-08-15 | Amazon Technologies, Inc. | Feedback based beamformed signal selection |
US9741360B1 (en) * | 2016-10-09 | 2017-08-22 | Spectimbre Inc. | Speech enhancement for target speakers |
US20170278513A1 (en) * | 2016-03-23 | 2017-09-28 | Google Inc. | Adaptive audio enhancement for multichannel speech recognition |
US9881634B1 (en) * | 2016-12-01 | 2018-01-30 | Arm Limited | Multi-microphone speech processing system |
DE102017116528A1 (de) * | 2017-03-24 | 2018-09-27 | Hyundai Motor Company | Audiosignal-Qualitätsverbesserung basierend auf quantitativer SNR-Analyse und adaptiver Wiener-Filterung |
Family Cites Families (71)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3484112B2 (ja) | 1999-09-27 | 2004-01-06 | 株式会社東芝 | 雑音成分抑圧処理装置および雑音成分抑圧処理方法 |
US6370500B1 (en) | 1999-09-30 | 2002-04-09 | Motorola, Inc. | Method and apparatus for non-speech activity reduction of a low bit rate digital voice message |
AUPS270902A0 (en) | 2002-05-31 | 2002-06-20 | Canon Kabushiki Kaisha | Robust detection and classification of objects in audio using limited training data |
CN1303582C (zh) | 2003-09-09 | 2007-03-07 | 摩托罗拉公司 | 自动语音归类方法 |
KR100754385B1 (ko) * | 2004-09-30 | 2007-08-31 | 삼성전자주식회사 | 오디오/비디오 센서를 이용한 위치 파악, 추적 및 분리장치와 그 방법 |
US7464029B2 (en) | 2005-07-22 | 2008-12-09 | Qualcomm Incorporated | Robust separation of speech signals in a noisy environment |
JP2007047427A (ja) | 2005-08-10 | 2007-02-22 | Hitachi Ltd | 音声処理装置 |
KR100821177B1 (ko) | 2006-09-29 | 2008-04-14 | 한국전자통신연구원 | 통계적 모델에 기반한 선험적 음성 부재 확률 추정 방법 |
KR100964402B1 (ko) | 2006-12-14 | 2010-06-17 | 삼성전자주식회사 | 오디오 신호의 부호화 모드 결정 방법 및 장치와 이를 이용한 오디오 신호의 부호화/복호화 방법 및 장치 |
US8005237B2 (en) | 2007-05-17 | 2011-08-23 | Microsoft Corp. | Sensor array beamformer post-processor |
DE602008002695D1 (de) | 2008-01-17 | 2010-11-04 | Harman Becker Automotive Sys | Postfilter für einen Strahlformer in der Sprachverarbeitung |
KR20100006492A (ko) | 2008-07-09 | 2010-01-19 | 삼성전자주식회사 | 부호화 방식 결정 방법 및 장치 |
EP2146519B1 (en) | 2008-07-16 | 2012-06-06 | Nuance Communications, Inc. | Beamforming pre-processing for speaker localization |
US9202456B2 (en) | 2009-04-23 | 2015-12-01 | Qualcomm Incorporated | Systems, methods, apparatus, and computer-readable media for automatic control of active noise cancellation |
US20110010172A1 (en) | 2009-07-10 | 2011-01-13 | Alon Konchitsky | Noise reduction system using a sensor based speech detector |
JP5411807B2 (ja) * | 2010-05-25 | 2014-02-12 | 日本電信電話株式会社 | チャネル統合方法、チャネル統合装置、プログラム |
CN102956230B (zh) | 2011-08-19 | 2017-03-01 | 杜比实验室特许公司 | 对音频信号进行歌曲检测的方法和设备 |
CN103999150B (zh) | 2011-12-12 | 2016-10-19 | 杜比实验室特许公司 | 媒体数据中的低复杂度重复检测 |
CN103325386B (zh) | 2012-03-23 | 2016-12-21 | 杜比实验室特许公司 | 用于信号传输控制的方法和系统 |
US9768829B2 (en) | 2012-05-11 | 2017-09-19 | Intel Deutschland Gmbh | Methods for processing audio signals and circuit arrangements therefor |
TWI474317B (zh) | 2012-07-06 | 2015-02-21 | Realtek Semiconductor Corp | 訊號處理裝置以及訊號處理方法 |
US10142007B2 (en) | 2012-07-19 | 2018-11-27 | Intel Deutschland Gmbh | Radio communication devices and methods for controlling a radio communication device |
DK3190587T3 (en) | 2012-08-24 | 2019-01-21 | Oticon As | Noise estimation for noise reduction and echo suppression in personal communication |
EP2747451A1 (en) | 2012-12-21 | 2014-06-25 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Filter and method for informed spatial filtering using multiple instantaneous direction-of-arrivial estimates |
US9158760B2 (en) | 2012-12-21 | 2015-10-13 | The Nielsen Company (Us), Llc | Audio decoding with supplemental semantic audio recognition and report generation |
US9183849B2 (en) | 2012-12-21 | 2015-11-10 | The Nielsen Company (Us), Llc | Audio matching with semantic audio recognition and report generation |
CN104078050A (zh) | 2013-03-26 | 2014-10-01 | 杜比实验室特许公司 | 用于音频分类和音频处理的设备和方法 |
CN105122843B (zh) | 2013-04-09 | 2019-01-01 | 索诺瓦公司 | 向用户提供听力辅助的方法和系统 |
CN104217729A (zh) | 2013-05-31 | 2014-12-17 | 杜比实验室特许公司 | 音频处理方法和音频处理装置以及训练方法 |
US9747899B2 (en) * | 2013-06-27 | 2017-08-29 | Amazon Technologies, Inc. | Detecting self-generated wake expressions |
US9601130B2 (en) * | 2013-07-18 | 2017-03-21 | Mitsubishi Electric Research Laboratories, Inc. | Method for processing speech signals using an ensemble of speech enhancement procedures |
US9240182B2 (en) | 2013-09-17 | 2016-01-19 | Qualcomm Incorporated | Method and apparatus for adjusting detection threshold for activating voice assistant function |
GB2518663A (en) | 2013-09-27 | 2015-04-01 | Nokia Corp | Audio analysis apparatus |
US9589560B1 (en) | 2013-12-19 | 2017-03-07 | Amazon Technologies, Inc. | Estimating false rejection rate in a detection system |
DK2916321T3 (en) | 2014-03-07 | 2018-01-15 | Oticon As | Processing a noisy audio signal to estimate target and noise spectral variations |
US9548065B2 (en) | 2014-05-05 | 2017-01-17 | Sensory, Incorporated | Energy post qualification for phrase spotting |
US9484022B2 (en) | 2014-05-23 | 2016-11-01 | Google Inc. | Training multiple neural networks with different accuracy |
US9369113B2 (en) | 2014-06-20 | 2016-06-14 | Steve Yang | Impedance adjusting device |
US10360926B2 (en) | 2014-07-10 | 2019-07-23 | Analog Devices Global Unlimited Company | Low-complexity voice activity detection |
US9432769B1 (en) | 2014-07-30 | 2016-08-30 | Amazon Technologies, Inc. | Method and system for beam selection in microphone array beamformers |
US9953661B2 (en) | 2014-09-26 | 2018-04-24 | Cirrus Logic Inc. | Neural network voice activity detection employing running range normalization |
US9530400B2 (en) | 2014-09-29 | 2016-12-27 | Nuance Communications, Inc. | System and method for compressed domain language identification |
JP6450139B2 (ja) | 2014-10-10 | 2019-01-09 | 株式会社Nttドコモ | 音声認識装置、音声認識方法、及び音声認識プログラム |
US10229700B2 (en) | 2015-09-24 | 2019-03-12 | Google Llc | Voice activity detection |
US9668073B2 (en) | 2015-10-07 | 2017-05-30 | Robert Bosch Gmbh | System and method for audio scene understanding of physical object sound sources |
US9978397B2 (en) | 2015-12-22 | 2018-05-22 | Intel Corporation | Wearer voice activity detection |
US10090005B2 (en) | 2016-03-10 | 2018-10-02 | Aspinity, Inc. | Analog voice activity detection |
US9947323B2 (en) | 2016-04-01 | 2018-04-17 | Intel Corporation | Synthetic oversampling to enhance speaker identification or verification |
KR102295161B1 (ko) | 2016-06-01 | 2021-08-27 | 메사추세츠 인스티튜트 오브 테크놀로지 | 저전력 자동 음성 인식 장치 |
US20180039478A1 (en) | 2016-08-02 | 2018-02-08 | Google Inc. | Voice interaction services |
CN109791760A (zh) | 2016-09-30 | 2019-05-21 | 索尼公司 | 信号处理装置、信号处理方法和程序 |
WO2018106971A1 (en) | 2016-12-07 | 2018-06-14 | Interactive Intelligence Group, Inc. | System and method for neural network based speaker classification |
US10546575B2 (en) | 2016-12-14 | 2020-01-28 | International Business Machines Corporation | Using recurrent neural network for partitioning of audio data into segments that each correspond to a speech feature cluster identifier |
US10083689B2 (en) | 2016-12-23 | 2018-09-25 | Intel Corporation | Linear scoring for low power wake on voice |
US10170134B2 (en) | 2017-02-21 | 2019-01-01 | Intel IP Corporation | Method and system of acoustic dereverberation factoring the actual non-ideal acoustic environment |
JP6652519B2 (ja) | 2017-02-28 | 2020-02-26 | 日本電信電話株式会社 | ステアリングベクトル推定装置、ステアリングベクトル推定方法およびステアリングベクトル推定プログラム |
US10269369B2 (en) | 2017-05-31 | 2019-04-23 | Apple Inc. | System and method of noise reduction for a mobile device |
US10403299B2 (en) * | 2017-06-02 | 2019-09-03 | Apple Inc. | Multi-channel speech signal enhancement for robust voice trigger detection and automatic speech recognition |
US10096328B1 (en) | 2017-10-06 | 2018-10-09 | Intel Corporation | Beamformer system for tracking of speech and noise in a dynamic environment |
US10090000B1 (en) | 2017-11-01 | 2018-10-02 | GM Global Technology Operations LLC | Efficient echo cancellation using transfer function estimation |
US10777189B1 (en) | 2017-12-05 | 2020-09-15 | Amazon Technologies, Inc. | Dynamic wakeword detection |
US10504539B2 (en) | 2017-12-05 | 2019-12-10 | Synaptics Incorporated | Voice activity detection systems and methods |
US10679617B2 (en) | 2017-12-06 | 2020-06-09 | Synaptics Incorporated | Voice enhancement in audio signals through modified generalized eigenvalue beamformer |
US11087780B2 (en) | 2017-12-21 | 2021-08-10 | Synaptics Incorporated | Analog voice activity detector systems and methods |
US11062727B2 (en) | 2018-06-13 | 2021-07-13 | Ceva D.S.P Ltd. | System and method for voice activity detection |
JP7407580B2 (ja) | 2018-12-06 | 2024-01-04 | シナプティクス インコーポレイテッド | システム、及び、方法 |
US11232788B2 (en) | 2018-12-10 | 2022-01-25 | Amazon Technologies, Inc. | Wakeword detection |
US11069353B1 (en) | 2019-05-06 | 2021-07-20 | Amazon Technologies, Inc. | Multilingual wakeword detection |
US11064294B1 (en) | 2020-01-10 | 2021-07-13 | Synaptics Incorporated | Multiple-source tracking and voice activity detections for planar microphone arrays |
US11308959B2 (en) | 2020-02-11 | 2022-04-19 | Spotify Ab | Dynamic adjustment of wake word acceptance tolerance thresholds in voice-controlled devices |
US11769520B2 (en) | 2020-08-17 | 2023-09-26 | EMC IP Holding Company LLC | Communication issue detection using evaluation of multiple machine learning models |
-
2019
- 2019-12-05 JP JP2019220476A patent/JP7407580B2/ja active Active
- 2019-12-06 CN CN201911241535.7A patent/CN111370014B/zh active Active
- 2019-12-06 US US16/706,519 patent/US11158333B2/en active Active
-
2021
- 2021-09-24 US US17/484,208 patent/US11694710B2/en active Active
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090238377A1 (en) * | 2008-03-18 | 2009-09-24 | Qualcomm Incorporated | Speech enhancement using multiple microphones on multiple devices |
JP2010085733A (ja) * | 2008-09-30 | 2010-04-15 | Equos Research Co Ltd | 音声強調システム |
US20120215519A1 (en) * | 2011-02-23 | 2012-08-23 | Qualcomm Incorporated | Systems, methods, apparatus, and computer-readable media for spatially selective audio augmentation |
KR101318328B1 (ko) * | 2012-04-12 | 2013-10-15 | 경북대학교 산학협력단 | 성김 특성 최소화를 통한 암묵 신호 제거를 이용한 음성 향상 방법 및 장치 |
US20150117649A1 (en) * | 2013-10-31 | 2015-04-30 | Conexant Systems, Inc. | Selective Audio Source Enhancement |
US20160275961A1 (en) * | 2015-03-18 | 2016-09-22 | Qualcomm Technologies International, Ltd. | Structure for multi-microphone speech enhancement system |
US9734822B1 (en) * | 2015-06-01 | 2017-08-15 | Amazon Technologies, Inc. | Feedback based beamformed signal selection |
US20170162194A1 (en) * | 2015-12-04 | 2017-06-08 | Conexant Systems, Inc. | Semi-supervised system for multichannel source enhancement through configurable adaptive transformations and deep neural network |
US20170278513A1 (en) * | 2016-03-23 | 2017-09-28 | Google Inc. | Adaptive audio enhancement for multichannel speech recognition |
US9741360B1 (en) * | 2016-10-09 | 2017-08-22 | Spectimbre Inc. | Speech enhancement for target speakers |
US9881634B1 (en) * | 2016-12-01 | 2018-01-30 | Arm Limited | Multi-microphone speech processing system |
DE102017116528A1 (de) * | 2017-03-24 | 2018-09-27 | Hyundai Motor Company | Audiosignal-Qualitätsverbesserung basierend auf quantitativer SNR-Analyse und adaptiver Wiener-Filterung |
Non-Patent Citations (2)
Title |
---|
D. S. K. LENA 等,: "Speech enhancement in vehicular environments as a front end for robust speech recogniser", 2017 INTERNATIONAL CONFERENCE ON INTELLIGENT COMPUTING AND CONTROL SYSTEMS (ICICCS), MADURAI, INDIA, pages 430 - 435 * |
Y. XIONG等,: "speech Enhancement Based on Multi-Stream Model", 2016 6TH INTERNATIONAL CONFERENCE ON DIGITAL HOME (ICDH), GUANGZHOU, CHINA, pages 243 - 246 * |
Also Published As
Publication number | Publication date |
---|---|
US11158333B2 (en) | 2021-10-26 |
US20220013134A1 (en) | 2022-01-13 |
US20200184985A1 (en) | 2020-06-11 |
CN111370014B (zh) | 2024-05-28 |
US11694710B2 (en) | 2023-07-04 |
JP2020109498A (ja) | 2020-07-16 |
JP7407580B2 (ja) | 2024-01-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111370014B (zh) | 多流目标-语音检测和信道融合的系统和方法 | |
Parchami et al. | Recent developments in speech enhancement in the short-time Fourier transform domain | |
WO2020103703A1 (zh) | 一种音频数据处理方法、装置、设备及存储介质 | |
CN111418012B (zh) | 用于处理音频信号的方法和音频处理设备 | |
US11257512B2 (en) | Adaptive spatial VAD and time-frequency mask estimation for highly non-stationary noise sources | |
US11264017B2 (en) | Robust speaker localization in presence of strong noise interference systems and methods | |
US20220148611A1 (en) | Speech enhancement using clustering of cues | |
Valin | Auditory system for a mobile robot | |
Nesta et al. | A flexible spatial blind source extraction framework for robust speech recognition in noisy environments | |
Maas et al. | A two-channel acoustic front-end for robust automatic speech recognition in noisy and reverberant environments | |
Martín-Doñas et al. | Dual-channel DNN-based speech enhancement for smartphones | |
EP2745293B1 (en) | Signal noise attenuation | |
US11521635B1 (en) | Systems and methods for noise cancellation | |
US20210201928A1 (en) | Integrated speech enhancement for voice trigger application | |
WO2020064089A1 (en) | Determining a room response of a desired source in a reverberant environment | |
US20220254332A1 (en) | Method and apparatus for normalizing features extracted from audio data for signal recognition or modification | |
JP7498560B2 (ja) | システム及び方法 | |
Onuma et al. | Real-time semi-blind speech extraction with speaker direction tracking on Kinect | |
Giacobello | An online expectation-maximization algorithm for tracking acoustic sources in multi-microphone devices during music playback | |
US20230298612A1 (en) | Microphone Array Configuration Invariant, Streaming, Multichannel Neural Enhancement Frontend for Automatic Speech Recognition | |
EP4367664A1 (en) | Joint acoustic echo cancelation, speech enhancement, and voice separation for automatic speech recognition | |
CN116848537A (zh) | 用于动态声学环境中的数据增强和语音处理的系统和方法 | |
Asano | Signal processing techniques for robust speech recognition |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant |