CN110770827B - 基于相关性的近场检测器 - Google Patents

基于相关性的近场检测器 Download PDF

Info

Publication number
CN110770827B
CN110770827B CN201880041839.6A CN201880041839A CN110770827B CN 110770827 B CN110770827 B CN 110770827B CN 201880041839 A CN201880041839 A CN 201880041839A CN 110770827 B CN110770827 B CN 110770827B
Authority
CN
China
Prior art keywords
correlation
statistics
microphone
normalized
correlation function
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201880041839.6A
Other languages
English (en)
Other versions
CN110770827A (zh
Inventor
山缪尔·P·爱贝耐泽尔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Cirrus Logic International Semiconductor Ltd
Original Assignee
Cirrus Logic International Semiconductor Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Cirrus Logic International Semiconductor Ltd filed Critical Cirrus Logic International Semiconductor Ltd
Publication of CN110770827A publication Critical patent/CN110770827A/zh
Application granted granted Critical
Publication of CN110770827B publication Critical patent/CN110770827B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/06Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being correlation coefficients
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S3/00Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received
    • G01S3/80Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received using ultrasonic, sonic or infrasonic waves
    • G01S3/8006Multi-channel systems specially adapted for direction-finding, i.e. having a single aerial system capable of giving simultaneous indications of the directions of different signals
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S3/00Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received
    • G01S3/80Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received using ultrasonic, sonic or infrasonic waves
    • G01S3/802Systems for determining direction or deviation from predetermined direction
    • G01S3/805Systems for determining direction or deviation from predetermined direction using adjustment of real or effective orientation of directivity characteristics of a transducer or transducer system to give a desired condition of signal derived from that transducer or transducer system, e.g. to give a maximum or minimum signal
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0264Noise filtering characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/84Detection of presence or absence of voice signals for discriminating voice from noise
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/005Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02166Microphone arrays; Beamforming
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L2025/783Detection of presence or absence of voice signals based on threshold decision
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2430/00Signal processing covered by H04R, not provided for in its groups
    • H04R2430/20Processing of the output signals of the acoustic transducers of an array for obtaining a desired directivity characteristic

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • General Physics & Mathematics (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Quality & Reliability (AREA)
  • General Health & Medical Sciences (AREA)
  • Otolaryngology (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Obtaining Desirable Characteristics In Audible-Bandwidth Transducers (AREA)

Abstract

根据本公开的实施例,一种用于检测音频设备中的近场源的方法可包括:计算第一麦克风信号和第二麦克风信号之间的归一化互相关函数,计算第一麦克风信号和第二麦克风信号中的每个的归一化自相关函数,将归一化互相关函数和归一化自相关函数划分为多个时滞区域,针对多个时滞区域中的每个相应时滞区域计算相应时滞区域内的归一化互相关函数和归一化自相关函数之间的相应最大偏差,组合来自多个时滞区域的相应最大偏差以导出多个检测统计量,并将多个检测统计量的每个检测统计量与相应阈值进行比较以检测近场信号。

Description

基于相关性的近场检测器
技术领域
本公开的代表性实施例的领域涉及与音频设备中的语音应用有关或相关的方法、装置和实现方式。应用包括在话音活动检测器中检测近场事件。
背景技术
话音活动检测(VAD),也称为语音活动检测或语音检测,是一种在其中检测存在或不存在人类语音的在语音处理中使用的技术。VAD可用于多种应用,包括噪声抑制器、背景噪声估计器、自适应波束形成器、动态波束控制、常开话音检测和基于会话的回放管理。在可穿戴设备中使用的许多基于话音的信号处理算法中,近场语音检测是至关重要的元素。由于空间限制,可穿戴设备中的麦克风间距通常很小,并且常规的近场检测算法可能不适用于此类麦克风阵列。此外,由于可穿戴应用中的低功率约束,因此禁止使用计算上昂贵的算法诸如基于神经网络的分类方法。
在许多语音增强或降噪算法中,通常需要在存在干扰信号的情况下检测期望的语音信号,以实现所需的性能。干扰信号的范围从稳定的褐色噪声或道路噪声到动态信号诸如酒吧或饭店环境中存在的混串音/竞争性谈话者噪声。常规的话音活动检测器不能将期望的语音信号与类似语音的干扰信号区分开。在常规方法中,基于话音的信号处理算法通常依赖于使用麦克风阵列导出的空间统计信息,以在各种干扰噪声类型存在的情况下检测期望的语音信号。此类基于空间处理的传统检测器已成功用于麦克风间距大(35mm-150mm)的手机和耳机设备中。然而,当麦克风间距减小时,这些检测器的性能趋于劣化。由于空间限制,在较新的设备中,麦克风可紧密地布置在可穿戴设备中,并且由紧密间隔的麦克风阵列提供的空间多样化信息可随着间距的减小而劣化。
发明内容
根据本公开的教导,可以减少或消除与现有的近场检测方法相关联的一个或多个缺点和问题。
根据本公开的实施例,一种用于检测音频设备中的近场源的方法可包括:计算第一麦克风信号和第二麦克风信号之间的归一化互相关函数,计算第一麦克风信号和第二麦克风信号中的每个的归一化自相关函数,将归一化互相关函数和归一化自相关函数划分为多个时滞区域,针对多个时滞区域中的每个相应时滞区域计算相应时滞区域内的归一化互相关函数和归一化自相关函数之间的相应最大偏差,组合来自多个时滞区域的相应最大偏差以导出多个检测统计量,并将多个检测统计量的每个检测统计量与相应阈值进行比较以检测近场信号。
根据本公开的这些和其他实施例,用于实现音频设备的至少一部分的集成电路可包括:音频输出端,所述音频输出端被配置为通过生成音频输出信号以与音频设备的至少一个换能器通信再现音频信息,第一麦克风输入端,所述第一麦克风输入端被配置为接收第一麦克风信号,第二麦克风输入端,所述第二麦克风输入端被配置为接收第二麦克风信号,以及处理器,所述处理器被配置为实现近场检测器,所述检测器被配置为:计算第一麦克风信号和第二麦克风信号之间的归一化互相关函数,计算第一麦克风信号和第二麦克风信号中的每个的归一化自相关函数,将归一化互相关函数和归一化自相关函数划分为多个时滞区域,针对多个时滞区域中的每个相应时滞区域计算相应时滞区域内的归一化互相关函数和归一化自相关函数之间的相应最大偏差;组合来自多个时滞区域的相应最大偏差以导出多个检测统计量,并将多个检测统计量的每个检测统计量与相应阈值进行比较以检测近场信号。
根据本文所包括的附图、说明书和权利要求,本公开的技术优势对于本领域的普通技术人员而言将是显而易见的。实施例的目的和优点将至少通过权利要求中具体指出的要素、特征和组合来实现和达到。
应当理解,前面的一般描述和下面的详细描述都是示例和解释性的,并非限制本公开中提出的权利要求。
附图说明
通过参考以下结合附图进行的描述,可以获得对本发明实施例及其优点的更完整的理解,其中,相同的附图标记指示相同的特征,并且其中:
图1示出根据本公开的实施例的用例场景的示例,其中各种检测器可以与回放管理系统结合使用以增强用户体验;
图2示出根据本公开的实施例的示例回放管理系统;
图3示出根据本公开的实施例的示例基于转向响应功率的波束转向系统;
图4示出根据本公开的实施例的示例自适应波束形成器;
图5示出根据本公开的实施例的包括近场检测器的音频设备的所选组件的框图;
图6示出根据本公开的实施例的描绘针对不同噪声源的示例长期平坦度度量的图;
图7示出根据本公开的实施例的描绘在25mm间距下的麦克风阵列的最大归一化相关性统计量的辨别示例图;
图8示出根据本公开的实施例的定向近场语音源的示例自相关和互相关序列的图;
图9示出根据本公开的实施例的描绘用于扩散噪声场的示例自相关和互相关序列的图;
图10示出根据本公开的实施例的描绘用于计算相关性相异性度量的示例关注区域的图;
图11示出根据本公开的实施例的描绘在通过考虑传播损耗影响而计算的修改的归一化自相关中的传播损耗的示例效应的图;
图12示出根据本公开的实施例描绘针对由于酒吧噪声而被破坏的嘈杂近场语音的具有传播损耗的相异性度量统计量的示例;
图13示出根据本公开的实施例的描绘在存在背景噪声的情况下从侧向方向到达的近场语音的侧向统计量的示例的图;
图14示出根据本公开的实施例的描绘当存在定向背景噪声源时从相关性相异性度量中去除偏差的示例效应的图;
图15示出根据本公开的实施例的描绘空间不相关噪声的自相关和互相关序列之间的示例差异的图;
图16示出根据本公开的实施例的描绘从真实记录中提取的示例不相关噪声统计量的图;
图17示出根据本公开的实施例的描绘近场检测模块可进行比较以从负方向检测是否存在近场语音的流程图;
图18示出根据本公开的实施例的描绘近场检测模块可进行比较以从正方向检测是否存在近场语音的流程图;以及
图19示出根据本公开的实施例的描绘近场检测模块可进行比较以从侧向方向检测是否存在近场语音的流程图。
具体实施方式
根据本公开的实施例,自动回放管理框架可使用一个或多个音频事件检测器。用于音频设备的此类音频事件检测器可包括:近场检测器,其可检测何时检测到音频设备的近场中的声音,诸如音频设备的用户(例如,佩戴或以其他方式使用音频设备的用户)何时讲话,接近度检测器,其可检测何时检测到音频设备附近的声音,诸如在音频设备用户附近的另一个人何时讲话,以及音调警报检测器,其检测可能起源于音频设备附近的声音警报。图1示出根据本公开的实施例的用例场景的示例,其中可以将此类检测器与回放管理系统结合使用以增强用户体验。
图2示出根据本公开实施例的基于来自事件检测器2的决定来修改回放信号的示例回放管理系统。处理器7中的信号处理功能可包括声学回声消除器1,声学回声消除器1可消除由于输出音频换能器8(例如,扬声器)和麦克风9之间的回声耦合而在麦克风9处接收到的声学回声。可将回声减少的信号传送到事件检测器2,事件检测器2可检测一个或多个各种环境事件,包括但不限于由近场检测器3检测到的近场事件(例如,包括但不限于来自音频设备用户的语音),接近度检测器4检测到的接近事件(例如,包括但不限于除近场声音以外的语音或其他环境声音)和/或警报检测器5检测到的音调警报事件。如果检测到音频事件,则基于事件的回放控件6可修改再现到输出音频换能器8的音频信息(在图2中显示为“回放内容”)的特性。音频信息可包括可在输出音频换能器8处再现的任何信息,包括但不限于与经由通信网络(例如,蜂窝网络)接收的电话对话相关联的下行链路语音和/或来自内部音频源(例如,音乐文件、视频文件等)的内部音频。
如图2所示,近场检测器3可包括话音活动检测器11,语音活动检测器11可被近场检测器3用来检测近场事件。话音活动检测器11可包括被配置为执行语音处理以检测人类语音的存在或不存在的任何合适的系统、设备或装置。根据此类处理,话音活动检测器11可检测近场语音的存在。
如图2所示,接近度检测器4可包括话音活动检测器13,话音活动检测器13可被接近度检测器4用来检测音频设备附近的事件。类似于话音活动检测器11,话音活动检测器13可包括被配置为执行语音处理以检测人类语音的存在或不存在的任何合适的系统、设备或装置。
图3示出根据本公开的实施例的示例基于转向响应功率的波束转向系统30。可通过实现多个波束形成器33(例如,延迟和求和和/或滤波和求和波束形成器)来操作基于转向响应功率的波束转向系统30,每个波束形成器33具有不同的观察方向,使得整个波束形成器33将覆盖期望的兴趣区域。每个波束形成器33的波束宽度可取决于麦克风阵列孔的长度。可计算来自每个波束形成器33的输出功率,并且可通过基于转向响应功率的波束选择器35将具有最大输出功率的波束形成器33切换到输出路径34。可通过具有近场检测器32的话音活动检测器31限制波束选择器35的切换,使得仅当检测到语音时波束选择器35才测量输出功率,从而防止波束选择器35通过响应空间非平稳背景脉冲噪声而在多个波束形成器33之间快速切换。
图4示出根据本公开的实施例的示例自适应波束形成器40。自适应波束形成器40可包括能够基于接收到的数据适应于改变的噪声条件的任何系统、设备或装置。通常,与固定波束形成器相比,自适应波束形成器可实现更高的噪声消除或干扰抑制。如图4所示,自适应波束形成器40被实现为广义旁瓣抵消器(GSC)。因此,自适应波束形成器40可包括固定波束形成器43、阻塞矩阵44和包括自适应滤波器46的多输入自适应噪声消除器45。如果自适应滤波器46一直都在自适应,则它可训练到语音泄漏,这也导致在减法级47期间语音失真。为提高自适应波束形成器40的鲁棒性,具有近场检测器42的话音活动检测器41可将控制信号传送到自适应滤波器46以在存在语音时禁用训练或自适应。在此类实现方式中,话音活动检测器41可控制噪声估计时段,其中,每当存在语音时就不估计背景噪声。类似地,可通过使用自适应阻塞矩阵来进一步改善GSC对语音泄漏的鲁棒性,其控制可包括带有脉冲噪声检测器的改进的话音活动检测器,如标题为“使用预白化进行自适应波束形成的自适应阻塞矩阵(Adaptive Block Matrix Using Pre-Whitening for Adaptive BeamForming.)”的美国专利No.9,607,603中所描述。在这些和其他实施例中,语音活动检测器可通过自适应波束形成器40的语音身份(ID)认证模块39控制语音认证处理的启动。
为进一步提高自适应波束形成器40的鲁棒性,具有近场检测器48的风检测器49可将控制信号传送到背景噪声估计器和/或波束形成器43,以提高性能,如本公开中其他地方所描述。
图5示出根据本公开实施例的包括至少两个麦克风52a和52b以及用于实现近场检测器的处理器53的音频设备50的所选组件的框图。麦克风52可包括用于感测声压并生成指示此声压的电信号的任何合适的换能器。在一些实施例中,麦克风52可紧密地间隔开(例如,彼此之间在35mm内)。每个麦克风52可生成指示此麦克风上的声压的相应电信号(例如,mic1,mic2)。处理器53可通信地耦接到麦克风52,并且可被配置为接收由麦克风52生成的电信号并处理此类信号以执行近场检测,如本文中进一步详述的。尽管出于描述清楚的目的未示出,但是相应的模数转换器可耦合在麦克风52中的每个和处理器53之间,以便将由麦克风52生成的模拟信号转换为可由处理器53处理的相应数字信号。
如图5所示,处理器53可包括归一化互相关模块54、自相关模块56、归一化最大相关性模块58、归一化自相关模块60、具有传播效应的归一化自相关模块62、侧向统计量模块64、和相关性相异性模块66、平坦度度量模块68、动态阈值计算模块70、相关性相异性模块72、偏差计算模块74、偏差去除模块76和近场检测模块78。
当声源靠近麦克风时,麦克风处的直达混响信号比通常很高。直达混响比通常取决于房间/围墙和近场源与麦克风之间的路径中的其他物理结构的混响时间(RT60)。当源和麦克风之间的距离增加时,由于直接路径中的传播损耗,直达混响比降低,并且混响信号的能量可与直接路径信号相当。此特性可用于导出可指示对麦克风阵列(例如,麦克风52)的位置具有鲁棒性的近场信号的存在的统计量。根据此类方法,归一化互相关模块54可将麦克风52a和52b之间的互相关序列计算为:
Figure BDA0002330247710000071
其中,m的范围是:
Figure BDA0002330247710000072
其中d为麦克风间距,c为声速,Fs为采样频率。根据互相关序列,归一化最大相关性模块58可将最大归一化相关性统计量计算为:
Figure BDA0002330247710000073
其中,Ex1对应第i个麦克风能量。归一化最大相关性模块58可使最大归一化相关性统计量平滑,以生成平滑的最大归一化相关性统计量normMaxCorr,如:
Figure BDA0002330247710000074
其中,δγ是平滑常数。
在存在各种噪声类型的情况下,为归一化最大相关性统计量设置固定阈值以检测近场语音可是困难的。因此,处理器53的处理模块可实现自适应阈值机制,自适应阈值机制可在各种噪声条件下提高近场检测率。为进行说明,请参见信号模型:
Figure BDA0002330247710000075
其中,i=1,2并且j为噪声源的数量,hi[n]为近场语音源和第i个麦克风之间的脉冲响应,gij[n]为第j个噪声源和第i个麦克风之间的脉冲响应,ri[n]为不相关的噪声。此类模型的互相关序列可推导为:
Figure BDA0002330247710000076
其中,上述互相关方程的第一部分对应于语音,第二部分对应于相关噪声,
Figure BDA0002330247710000077
为不相关噪声功率。互相关序列可是语音和噪声互相关序列的叠加。因此,最大归一化相关性统计量可因背景中存在噪声而产生偏差。此外,互相关序列可取决于信号源的自相关。因此,由噪声引入的偏差也可根据噪声频谱而变化。例如,汽车噪声引起的偏差可大于宽带噪声(例如,道路噪声、白噪声)引起的偏差。
因此,处理器53的组件可实现动态阈值方案,其中平坦度度量模块68可将平坦度度量计算为:
Figure BDA0002330247710000081
根据平坦度度量将长期平坦度度量corrFlatMeas计算为:
Figure BDA0002330247710000082
其中,
Figure BDA0002330247710000083
为平滑常数。动态阈值计算模块70可将动态可调阈值normMaxCorrTh导出为:
Figure BDA0002330247710000084
其中,γo为固定阈值,参数μ确定阈值可随平坦度度量变化的速率。如果平坦度度量corrFlatMeas高,则可将动态可调阈值调整为更高的值。出于说明目的,图6描绘了针对不同噪声源(包括汽车、酒吧、道路和十字路口)的示例长期平坦度度量corrFlatMeas。
尽管上述动态阈值方案可优化各种噪声条件下的近场语音信号的检测率,但是当麦克风间距小(小于35mm)时,最大归一化相关性统计量normMaxCorr的辨别能力可劣化。对于近场语音和噪声,在此类紧密间隔的麦克风阵列中的麦克风之间的相关性可是高的。对于小的麦克风间距d,m的范围可为在16kHz处一个或两个采样的数量级,并且互相关函数在该范围内可是平坦的。为进行说明,可通过以下方程给出扩散和定向源的时空频谱相干函数:
Figure BDA0002330247710000085
Figure BDA0002330247710000086
其中,sinc(x)=sin(x)/x。对于单一源刺激,互相关函数可简化为:
rx1x2[m]=rss[m]*hp[m]
其中,rss[m]为源信号的自相关,hp[m]为麦克风之间的脉冲响应。随着麦克风间距d的减小和互相关函数hp[m]趋向于脉冲函数,时空频谱相干函数可变宽。因此,用于紧密间隔开的麦克风阵列的互相关函数可主要由源信号的自相关序列控制。对于语音应用,环境中存在的声源的自相关序列在有效的滞后相关性范围内几乎是平坦的,因此最大的归一化相关性统计量将失去其辨别能力。图7示出在25mm间距的麦克风阵列中,最大归一化相关性统计量normMaxCorr的辨别力较小。
因此,处理器53可计算基于自相关序列的统计量,以在存在背景噪声的情况下更好地辨别近场信号。具体地,处理器53可被配置为利用以下事实:对于紧密间隔的麦克风,归一化自相关序列和互相关序列的形状可是相似的。图8描绘定向近场语音源的示例自相关和互相关序列。如图8所示,对于定向近场源,互相关序列可是自相关序列的移位版本。然而,对于扩散噪声场,自相关和互相关序列可在所有时间滞后下保持相似,如图9所示。因此,处理器53可在自相关和互相关序列之间生成相异性度量以在存在背景噪声的情况下检测定向近场源。
为计算这种相异性度量,自相关模块56和归一化自相关模块60可一起将归一化自相关序列估计为:
Figure BDA0002330247710000091
使用此结果,相关性相异性模块72可分别针对正滞后和负滞后估计自相关序列和互相关序列之间的差,如下所示:
对于负滞后:
Figure BDA0002330247710000092
m=-M-L+1……-M,
Figure BDA0002330247710000093
对于正滞后:
Figure BDA0002330247710000094
m=M……M+L-1
其中,L是为导出统计量而加以考虑的滞后次数。对于来自负观察方向的信号(例如,相比于麦克风52b,声源位置更靠近麦克风52a),
Figure BDA0002330247710000095
为负,
Figure BDA0002330247710000101
为正,反之亦然。重要的是要注意,所选的滞后范围可超出用于计算归一化互相关的范围,因为相关序列在该滞后范围内相似。图10示出指示用于计算相异性度量的示例关注区域的示例图。因此,相关性相异性模块72可进一步估计最大差值:
Figure BDA0002330247710000102
Figure BDA0002330247710000103
并由此导出相关性相异性统计量为:
Figure BDA0002330247710000104
并且可进一步使相关性相异性统计量平滑以生成:
Figure BDA0002330247710000105
用户的嘴相对于麦克风52a和52b的阵列的接近度可以近距离和远距离麦克风之间的传播损耗差的形式引入近场效应。对于具有合理麦克风间距(例如,>20mm)的大多数麦克风配置(除了侧向定向之外),可进一步利用传播损耗差来进行近场检测。为利用该传播损耗效应,具有传播效应的归一化自相关模块62可分别如下计算正滞后和负滞后的归一化自相关:
Figure BDA0002330247710000106
Figure BDA0002330247710000107
负滞后和正滞后的这些自相关序列分别通过麦克风52a和52b的能量进行归一化,而不是通过与先前情况相同的麦克风能量进行归一化。
和相关性相异性模块66可以与如上所述的相关性相异性模块类似的方式估计自相关序列和互相关序列之间的差,不同之处在于新的自相关序列可表示为:
Figure BDA0002330247710000108
Figure BDA0002330247710000109
图11描绘示出在如上计算的修改的归一化自相关中的传播损耗的示例效应的图,修改的归一化自相关可提高相异性统计量的辨别能力。图12描绘示出针对因酒吧噪声而被破坏的嘈杂近场语音的具有传播损耗的相异性度量统计量的示例的图。
在许多可穿戴设备中,并非总是能够确保端射麦克风阵列相对于用户的嘴的取向(例如,一个麦克风在用户的嘴和另一个麦克风之间对齐)。此外,在许多情况下,该阵列可取向成在侧向到达近场语音。在该取向上,远场背景干扰噪声也从侧向方向到达。因此,在这种情况下检测近场语音并非易事。依赖于移位的相关序列的相关性相异性度量可无法辨别侧向近场语音。然而,对于近场侧向语音,零滞后附近的互相关序列可高度相关。因此,代替估计图10中指示的区域中的相关性差异,侧向统计量模块64可估计零滞后附近的相关性差异。与先前计算相异性度量的情况不同,在这种情况下,相异性度量应该很小,以指示存在侧向近场语音。侧向统计量模块64可将零滞后或“侧向统计量”附近的相关性相异性度度量计算为:
Figure BDA0002330247710000111
其中,P对应于零延迟滞后,并且侧向统计量模块64可进一步如下使侧向统计量broadMeas平滑:
Figure BDA0002330247710000112
其中,
Figure BDA0002330247710000113
为平滑常数。图13示出描述在存在背景噪声的情况下从侧向方向到达的近场语音的侧向统计量的示例的图。图13还显示到达方向统计量,该统计量几乎无法辨别语音和噪声。然而,侧向统计量相异性度量指示存在背景噪声的近场语音,如图13所示。
当背景噪声本质上是定向的或半定向的时,上述的相关性相异性度量θ[n]可具有偏差。可使用基于最小统计量的方法来估计由该持续背景噪声引入的偏差,使得可从相关性相异性度量θ[n]中除去该偏差。偏差计算模块74可使用本领域已知的改进的Doblinger方法来估计偏差,该偏差估计由下式给出:
Figure BDA0002330247710000114
其中,δθ为控制平均滤波器时间常数的平滑参数。偏差去除模块76可从相关性相异性量度中去除偏差,以生成如下的偏差调整后的相关性相异性量度CorrDiff:
Figure BDA0002330247710000121
图14示出描绘当存在定向背景噪声源时从相关性相异性度量中去除偏差的示例效应的图。偏差消除过程可以减少错误检测,还可以帮助在检测阶段设置适当的阈值。
由于在波束形成器输出端处增强了不相关噪声,因此不相关噪声的存在会对波束形成器应用中的波束形成器性能产生不利影响。因此,检测背景中不相关噪声的存在可是重要的。相关序列可用于辨别不相关噪声与相关环境噪声。如图15所示,对于不相关噪声,自相关和互相关序列之间的差在所有滞后下都可能很大。和相关性相异性模块66可将相关性差之和计算为:
Figure BDA0002330247710000122
并且,和相关性相异性模块66可进一步使该统计量平滑,以生成如下和相关性相异性sumCorrDiff:
Figure BDA0002330247710000123
其中,δρ为平滑常数。
另选地,和相关性相异性模块66可将最大相关性差计算为:
Figure BDA0002330247710000124
图16示出描绘从真实记录中提取的上述不相关噪声统计量的图。相关性相异性度量也可用于检测在个人可穿戴设备的典型用例场景中经常出现的风噪声。检测到的风噪声控制信号可用于控制降噪和波束成形器算法,以更新风噪声频谱信息或在前端波束成形器中采取适当的措施,以确保空间处理不会增强风噪声,如图4所示。
基于最大归一化相关性统计量normMaxCorr,动态可调阈值normMaxCorrTh,和相关性相异性sumCorrDiff,偏差调整后的相关性相异性度量CorrDiff和侧向统计量broadMeas,近场检测模块78可检测是否存在近场语音。
图17示出描绘近场检测模块78可进行比较以检测从负方向(例如,相比于麦克风52b,近场源更靠近麦克风52a)是否存在近场语音的流程图。如果:(a)归一化相关性统计量normMaxCorrγ[n]大于第一动态可调阈值normMaxCorrThγth;(b)和相关性相异性sumCorrDiffρ[n]小于相关的阈值;以及(c)(i)偏差调整后的相关性相异性度量CorrDiff小于第一相关性相异性度量阈值,或(ii)偏差调整后的相关性相异性度量CorrDiff小于第二相关性相异性度量阈值,并且归一化相关性统计量normMaxCorrγ[n]大于第二动态可调阈值normMaxCorrThγth,则近场检测模块78可确定从负方向存在近场语音。
图18示出描绘近场检测模块78可进行比较以检测从正方向(例如,相比于麦克风52a,近场源更靠近麦克风52b)是否存在近场语音的流程图。如果:(a)归一化相关性统计量normMaxCorrγ[n]大于第一动态可调阈值normMaxCorrThγth;(b)和相关性相异性sumCorrDiffρ[n]小于相关的阈值;以及(c)(i)偏差调整后的相关性相异性度量CorrDiff大于第一相关性相异性度量阈值,或(ii)偏差调整后的相关性相异性度量CorrDiff大于第二相关性相异性度量阈值,并且归一化相关性统计量normMaxCorrγ[n]大于第二动态可调阈值normMaxCorrThγth,则近场检测模块78可确定从负方向存在近场语音。
图19示出描绘近场检测模块78可进行比较以检测从侧向方向是否存在近场语音的流程图。如果:(a)归一化相关性统计量normMaxCorrγ[n]大于相关的动态可调阈值normMaxCorrThγth;(b)和相关性相异性sumCorrDiffρ[n]小于相关的阈值;以及(c)偏差调整后的相关性相异性度量CorrDiff小于相关的阈值,则近场检测模块78可确定从负方向存在近场语音。
应当理解-尤其是受益于本公开的本领域普通技术人员-本文所描述的各种操作,尤其是与附图结合描述的各种操作,可以由其他电路或其他硬件组件实现。可以改变执行给定方法的每个操作的顺序,并且可以对本文所示的系统的各个要素进行添加、重新排序、组合、省略、修改等。旨在使本公开包括所有此类修改和改变,因此,以上描述应被认为是说明性而非限制性的。
类似地,尽管本公开参考特定实施例,但是在不脱离本公开的范围和覆盖范围的情况下,可以对那些实施例进行某些修改和改变。此外,本文针对特定实施例描述的任何益处、优点或问题的解决方案均不旨在被解释为关键的、必需或必要的特征或要素。
同样地,受益于本公开的另外的实施例对于本领域普通技术人员将是显而易见的,并且此类实施例应被认为包含在本文中。

Claims (22)

1.一种用于检测音频设备中的近场源的方法,包括:
计算第一麦克风信号与第二麦克风信号之间的归一化互相关函数;
计算所述第一麦克风信号和所述第二麦克风信号中的每个的归一化自相关函数;
将所述归一化互相关函数和所述归一化自相关函数划分为多个时滞区域;
针对所述多个时滞区域中的每个相应时滞区域计算在所述相应时滞区域内的所述归一化互相关函数和所述归一化自相关函数之间的相应最大偏差;
组合来自所述多个时滞区域的所述相应最大偏差,以导出多个检测统计量;以及
将所述多个检测统计量的每个检测统计量与相应的阈值进行比较以检测近场信号。
2.根据权利要求1所述的方法,其中,所述多个检测统计量包括归一化最大相关性统计量、相关性相异性统计量、侧向统计量和不相关噪声统计量中的一个或多个。
3.根据权利要求1所述的方法,其中,所述多个检测统计量包括偏差校正的相关性相异性统计量,所述偏差校正的相关性相异性统计量包括偏差被去除的相关性相异性统计量,以补偿在输入信号内的背景噪声为定向或半定向时存在的偏差。
4.根据权利要求1所述的方法,还包括:
计算所述归一化互相关函数的最大值;以及
将所述归一化互相关函数的所述最大值与阈值进行比较以检测近场信号。
5.根据权利要求4所述的方法,还包括:
计算所述归一化互相关函数的所述最大值的长期平坦度度量统计量;以及
基于所述长期平坦度度量统计量动态地修改所述阈值。
6.根据权利要求1所述的方法,其中,所述多个检测统计量包括不相关噪声统计量,并且所述方法还包括:
计算所述归一化互相关函数的最大值;以及
将所述归一化互相关函数的所述最大值与第一阈值进行比较,并将所述不相关噪声统计量与第二阈值进行比较,以检测风噪声的存在。
7.根据权利要求1所述的方法,还包括响应于近场信号的检测而修改与音频信息相关联的特性。
8.根据权利要求7所述的方法,其中,所述特性包括以下各项中的一个或多个:
所述第一麦克风信号和所述第二麦克风信号中的一个或两个的幅值;以及
所述第一麦克风信号和所述第二麦克风信号中的一个或两个的频谱内容。
9.根据权利要求7所述的方法,其中,所述特性包括基于语音的处理算法的至少一个系数,所述基于语音的处理算法包括噪声抑制器、背景噪声估计器、自适应波束形成器、动态波束转向、常开语音,以及基于会话的回放管理系统中的至少一个。
10.根据权利要求1所述的方法,其中,所述第一麦克风和所述第二麦克风设置在个人音频设备中,并且以小于约35mm的距离彼此邻近地布置。
11.根据权利要求1所述的方法,还包括基于对所述近场信号的检测发起语音认证处理。
12.一种用于实现音频设备的至少一部分的集成电路,包括:
音频输出端,所述音频输出端被配置为通过生成音频输出信号以与所述音频设备的至少一个换能器通信再现音频信息;
第一麦克风输入端,所述第一麦克风输入端被配置为接收第一麦克风信号;
第二麦克风输入端,所述第二麦克风输入端被配置为接收第二麦克风信号;以及
处理器,所述处理器被配置为实现近场检测器,所述检测器被配置为:
计算所述第一麦克风信号与所述第二麦克风信号之间的归一化互相关函数;
计算所述第一麦克风信号和所述第二麦克风信号中的每个的归一化自相关函数;
将所述归一化互相关函数和所述归一化自相关函数划分为多个时滞区域;
针对所述多个时滞区域中的每个相应时滞区域计算在所述相应时滞区域内的所述归一化互相关函数和所述归一化自相关函数之间的相应最大偏差;
组合来自所述多个时滞区域的所述相应最大偏差,以导出多个检测统计量;以及
将所述多个检测统计量的每个检测统计量与相应的阈值进行比较以检测近场信号。
13.根据权利要求12所述的集成电路,其中,所述多个检测统计量包括归一化最大相关性统计量、相关性相异性统计量、侧向统计量和不相关噪声统计量中的一个或多个。
14.根据权利要求12所述的集成电路,其中,所述多个检测统计量包括偏差校正的相关性相异性统计量,所述偏差校正的相关性相异性统计量包括偏差被去除的相关性相异性统计量,以补偿在输入信号内的背景噪声为定向或半定向时存在的偏差。
15.根据权利要求12所述的集成电路,其中,所述处理器还被配置为:
计算所述归一化互相关函数的最大值;以及
将所述归一化互相关函数的所述最大值与阈值进行比较以检测近场信号。
16.根据权利要求15所述的集成电路,其中,所述处理器还被配置为:
计算所述归一化互相关函数的所述最大值的长期平坦度度量统计量;以及
基于所述长期平坦度度量统计量动态地修改所述阈值。
17.根据权利要求12所述的集成电路,其中,所述多个检测统计量包括不相关噪声统计量,并且所述处理器还被配置为:
计算所述归一化互相关函数的最大值;以及
将所述归一化互相关函数的所述最大值与第一阈值进行比较,并将所述不相关噪声统计量与第二阈值进行比较,以检测风噪声的存在。
18.根据权利要求12所述的集成电路,其中,所述处理器还被配置为响应于噪声事件的检测而修改与所述音频信息相关联的特性。
19.根据权利要求18所述的集成电路,其中,所述特性包括:
所述第一麦克风信号和所述第二麦克风信号中的一个或两个的幅值;以及
所述第一麦克风信号和所述第二麦克风信号中的一个或两个的频谱内容。
20.根据权利要求18所述的集成电路,其中,所述特性包括基于语音的处理算法的至少一个系数,所述基于语音的处理算法包括噪声抑制器、背景噪声估计器、自适应波束形成器、动态波束转向、常开语音,以及基于会话的回放管理系统中的至少一个。
21.根据权利要求12所述的集成电路,其中,所述第一麦克风和所述第二麦克风设置在个人音频设备中,并且以小于约35mm的距离彼此邻近地布置。
22.根据权利要求12所述的集成电路,其中,所述处理器还被配置为基于对所述近场信号的检测发起语音认证处理。
CN201880041839.6A 2017-05-12 2018-05-09 基于相关性的近场检测器 Active CN110770827B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US15/594,347 US10395667B2 (en) 2017-05-12 2017-05-12 Correlation-based near-field detector
US15/594,347 2017-05-12
PCT/US2018/031775 WO2018208899A1 (en) 2017-05-12 2018-05-09 Correlation-based near-field detector

Publications (2)

Publication Number Publication Date
CN110770827A CN110770827A (zh) 2020-02-07
CN110770827B true CN110770827B (zh) 2020-11-13

Family

ID=59462260

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201880041839.6A Active CN110770827B (zh) 2017-05-12 2018-05-09 基于相关性的近场检测器

Country Status (6)

Country Link
US (1) US10395667B2 (zh)
KR (1) KR102352927B1 (zh)
CN (1) CN110770827B (zh)
GB (1) GB2565527B (zh)
TW (1) TWI720314B (zh)
WO (1) WO2018208899A1 (zh)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110692257B (zh) * 2017-05-29 2021-11-02 哈曼贝克自动系统股份有限公司 声音捕获
US10937418B1 (en) * 2019-01-04 2021-03-02 Amazon Technologies, Inc. Echo cancellation by acoustic playback estimation
GB2585086A (en) * 2019-06-28 2020-12-30 Nokia Technologies Oy Pre-processing for automatic speech recognition
CA3146517A1 (en) * 2019-07-21 2021-01-28 Nuance Hearing Ltd. Speech-tracking listening device
TWI748465B (zh) * 2020-05-20 2021-12-01 明基電通股份有限公司 噪音判斷方法及噪音判斷裝置
CN112599126B (zh) * 2020-12-03 2022-05-27 海信视像科技股份有限公司 一种智能设备的唤醒方法、智能设备及计算设备
CN113223554A (zh) * 2021-03-15 2021-08-06 百度在线网络技术(北京)有限公司 一种风噪检测方法、装置、设备和存储介质
US20230050677A1 (en) * 2021-08-14 2023-02-16 Clearone, Inc. Wideband DOA Improvements for Fixed and Dynamic Beamformers
TWI829279B (zh) * 2022-08-09 2024-01-11 中興保全科技股份有限公司 聲幅辨識裝置及聲幅辨識系統
CN117496997B (zh) * 2023-12-27 2024-04-05 湘江实验室 基于惩罚机制的声源检测方法、装置及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101278337A (zh) * 2005-07-22 2008-10-01 索福特迈克斯有限公司 噪声环境中语音信号的健壮分离
CN103841497A (zh) * 2012-11-27 2014-06-04 奥迪康有限公司 控制自适应反馈估计系统的更新算法和去相关单元的方法
WO2017058320A1 (en) * 2015-09-30 2017-04-06 Cirrus Logic International Semiconductor Ltd. Adaptive block matrix using pre-whitening for adaptive beam forming

Family Cites Families (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US15589A (en) * 1856-08-19 Hjalmar wynblad
US6160758A (en) * 1996-06-28 2000-12-12 Scientific Innovations, Inc. Utilization of auto and cross-correlation functions in methods for locating a source of a primary signal and for localizing signals
US7577260B1 (en) * 1999-09-29 2009-08-18 Cambridge Mechatronics Limited Method and apparatus to direct sound
US6737957B1 (en) * 2000-02-16 2004-05-18 Verance Corporation Remote control signaling using audio watermarks
US7340068B2 (en) 2003-02-19 2008-03-04 Oticon A/S Device and method for detecting wind noise
JP2005236852A (ja) 2004-02-23 2005-09-02 Nippon Hoso Kyokai <Nhk> 信号分離方法、信号分離装置、及び信号分離プログラム
US7492889B2 (en) 2004-04-23 2009-02-17 Acoustic Technologies, Inc. Noise suppression based on bark band wiener filtering and modified doblinger noise estimate
EP1994788B1 (en) * 2006-03-10 2014-05-07 MH Acoustics, LLC Noise-reducing directional microphone array
US8954324B2 (en) 2007-09-28 2015-02-10 Qualcomm Incorporated Multiple microphone voice activity detector
US8218397B2 (en) * 2008-10-24 2012-07-10 Qualcomm Incorporated Audio source proximity estimation using sensor array for noise reduction
EP2339574B1 (en) * 2009-11-20 2013-03-13 Nxp B.V. Speech detector
US8565446B1 (en) 2010-01-12 2013-10-22 Acoustic Technologies, Inc. Estimating direction of arrival from plural microphones
KR101768264B1 (ko) * 2010-12-29 2017-08-14 텔레폰악티에볼라겟엘엠에릭슨(펍) 노이즈 억제 방법 및 노이즈 억제 방법을 적용하기 위한 노이즈 억제기
US10230346B2 (en) * 2011-01-10 2019-03-12 Zhinian Jing Acoustic voice activity detection
EP2671222B1 (en) * 2011-02-02 2016-03-02 Telefonaktiebolaget LM Ericsson (publ) Determining the inter-channel time difference of a multi-channel audio signal
US10015589B1 (en) * 2011-09-02 2018-07-03 Cirrus Logic, Inc. Controlling speech enhancement algorithms using near-field spatial statistics
US9549253B2 (en) * 2012-09-26 2017-01-17 Foundation for Research and Technology—Hellas (FORTH) Institute of Computer Science (ICS) Sound source localization and isolation apparatuses, methods and systems
US9570087B2 (en) * 2013-03-15 2017-02-14 Broadcom Corporation Single channel suppression of interfering sources
US20150172807A1 (en) * 2013-12-13 2015-06-18 Gn Netcom A/S Apparatus And A Method For Audio Signal Processing
EP3079074A1 (fr) * 2015-04-10 2016-10-12 B<>Com Procédé de traitement de données pour l'estimation de paramètres de mixage de signaux audio, procédé de mixage, dispositifs, et programmes d'ordinateurs associés
US9838783B2 (en) * 2015-10-22 2017-12-05 Cirrus Logic, Inc. Adaptive phase-distortionless magnitude response equalization (MRE) for beamforming applications
US10297267B2 (en) * 2017-05-15 2019-05-21 Cirrus Logic, Inc. Dual microphone voice processing for headsets with variable microphone array orientation
US10079026B1 (en) * 2017-08-23 2018-09-18 Cirrus Logic, Inc. Spatially-controlled noise reduction for headsets with variable microphone array orientation

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101278337A (zh) * 2005-07-22 2008-10-01 索福特迈克斯有限公司 噪声环境中语音信号的健壮分离
CN103841497A (zh) * 2012-11-27 2014-06-04 奥迪康有限公司 控制自适应反馈估计系统的更新算法和去相关单元的方法
WO2017058320A1 (en) * 2015-09-30 2017-04-06 Cirrus Logic International Semiconductor Ltd. Adaptive block matrix using pre-whitening for adaptive beam forming

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Linking auto- and cross-correlation functions with correlation equations: Application to estimating the relative travel times and amplitudes of multipath;John L. Spiesberger;<THE JOURNAL OF THE ACOUSTICAL SOCIETY OF AMERICA>;19980701;第104卷(第1期);300-312 *

Also Published As

Publication number Publication date
CN110770827A (zh) 2020-02-07
TW201908761A (zh) 2019-03-01
KR102352927B1 (ko) 2022-01-20
TWI720314B (zh) 2021-03-01
US20180330747A1 (en) 2018-11-15
GB2565527B (en) 2020-02-26
WO2018208899A1 (en) 2018-11-15
GB2565527A (en) 2019-02-20
GB201709761D0 (en) 2017-08-02
US10395667B2 (en) 2019-08-27
KR20200009035A (ko) 2020-01-29

Similar Documents

Publication Publication Date Title
CN110770827B (zh) 基于相关性的近场检测器
US10535362B2 (en) Speech enhancement for an electronic device
CN110741434B (zh) 用于具有可变麦克风阵列定向的耳机的双麦克风语音处理
US7386135B2 (en) Cardioid beam with a desired null based acoustic devices, systems and methods
EP1743323B1 (en) Adaptive beamformer, sidelobe canceller, handsfree speech communication device
US7099821B2 (en) Separation of target acoustic signals in a multi-transducer arrangement
Zohourian et al. Binaural speaker localization integrated into an adaptive beamformer for hearing aids
CN110140360B (zh) 使用波束形成的音频捕获的方法和装置
CN110140359B (zh) 使用波束形成的音频捕获
KR20090056598A (ko) 마이크로폰을 통해 입력된 사운드 신호로부터 잡음을제거하는 방법 및 장치
KR20090050372A (ko) 혼합 사운드로부터 잡음을 제거하는 방법 및 장치
KR20090037692A (ko) 혼합 사운드로부터 목표 음원 신호를 추출하는 방법 및장치
CN106033673B (zh) 一种近端语音信号检测方法及装置
US9406293B2 (en) Apparatuses and methods to detect and obtain desired audio
Zheng et al. BSS for improved interference estimation for blind speech signal extraction with two microphones
Zohourian et al. GSC-based binaural speaker separation preserving spatial cues
Tammen et al. Complexity reduction of eigenvalue decomposition-based diffuse power spectral density estimators using the power method
Braun et al. Directional interference suppression using a spatial relative transfer function feature
Tanaka et al. Acoustic beamforming with maximum SNR criterion and efficient generalized eigenvector tracking
Kowalczyk et al. Embedded system for acquisition and enhancement of audio signals
Kako et al. Wiener filter design by estimating sensitivities between distributed asynchronous microphones and sound sources
Wang et al. A Novel Speech Enhancement System Based on the Coherence-Based Algorithm and the Differential Beamforming
He et al. Robust MVDR beamformer based on complex gaussian mixture model with phase prior
Azarpour et al. Fast noise PSD estimation based on blind channel identification
Kim et al. Target-to-non-target directional ratio estimation based on dual-microphone phase differences for target-directional speech enhancement.

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant