CN108464015B - 麦克风阵列信号处理系统 - Google Patents

麦克风阵列信号处理系统 Download PDF

Info

Publication number
CN108464015B
CN108464015B CN201680061020.7A CN201680061020A CN108464015B CN 108464015 B CN108464015 B CN 108464015B CN 201680061020 A CN201680061020 A CN 201680061020A CN 108464015 B CN108464015 B CN 108464015B
Authority
CN
China
Prior art keywords
signal
digital audio
audio signal
segment
digital
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201680061020.7A
Other languages
English (en)
Other versions
CN108464015A (zh
Inventor
乌尔里克·科杰姆
托马斯·克罗格·安德森
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NXP semiconductor Denmark Co.,Ltd.
Original Assignee
Digital Signal Processor Regulation Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Digital Signal Processor Regulation Co ltd filed Critical Digital Signal Processor Regulation Co ltd
Publication of CN108464015A publication Critical patent/CN108464015A/zh
Application granted granted Critical
Publication of CN108464015B publication Critical patent/CN108464015B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/005Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/84Detection of presence or absence of voice signals for discriminating voice from noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02166Microphone arrays; Beamforming
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2499/00Aspects covered by H04R or H04S not otherwise provided for in their subgroups
    • H04R2499/10General applications
    • H04R2499/11Transducers incorporated or for use in hand-held devices, e.g. mobile phones, PDA's, camera's

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • General Health & Medical Sciences (AREA)
  • Otolaryngology (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Obtaining Desirable Characteristics In Audible-Bandwidth Transducers (AREA)

Abstract

本发明在一方面涉及一种麦克风阵列信号处理系统,该系统包括耦接到信号输入端并被配置为存储第一和第二数字音频信号的数字缓冲器。波束形成分析器被配置为:响应于第一语音触发,基于第一数字音频信号的第一信号段和第二数字音频信号的第一信号段来确定噪声统计。系数计算器被配置为计算波束形成算法的第一组固定波束形成器系数。波束形成算法被配置用于将第一组固定波束形成器系数应用于从数字缓冲器检索的第一和第二数字音频信号的第一信号段,以产生噪声减小的数字音频信号。

Description

麦克风阵列信号处理系统
技术领域
本发明在一方面涉及一种麦克风阵列信号处理系统,该系统包括耦接到信号输入端并被配置为存储第一和第二数字音频信号的数字缓冲器。波束形成器分析器被配置为响应于第一语音触发,基于第一数字音频信号的第一信号段和第二数字音频信号的第一信号段来确定噪声统计。系数计算器被配置为计算波束形成算法的第一组固定波束形成器系数。波束形成算法被配置为将第一组固定波束形成器系数应用于从数字缓冲器检索的第一和第二数字音频信号的第一信号段,以产生噪声减小的数字音频信号。
背景技术
对用于抑制或去除噪声感染的目标信号(诸如语音或话音信号)的噪声分量的信号处理系统、方法和算法的研究已经持续了几十年。这些努力的重要目标已经是并且仍然是为听众提供所感知的音质和/或话音可理解性的改进。在语音通信装置和系统中,已知在时频域中例如作为多个子带信号来表示有噪语音信号。在许多情况下,期望应用频率依赖的复值波束形成系数,在将噪声减小的输出信号重建为真实值时域信号之前,在从第一和第二数字音频信号导出的子带信号的复杂域中执行线性组合。这被执行以衰减可能存在于目标信号中的不期望的噪声信号分量。这些频率依赖的波束形成器系数值有时从目标信号和噪声信号的时频依赖比的估计中导出。
语音激活是一个比以往更受关注的领域,因为诸如移动电话、智能手机、支持音频的平板电脑、音频/视频会议系统、免提系统、电视机等便携式装置已经获得了如此多的信号处理力,以至于诸如免提操作的语音激活便利功能可以包括在许多这些装置中。语音激活和说话者识别系统可依靠于识别传入的声音信号中的目标或者触发词、短语或发音。语音激活系统通常在信号处理资源方面并且因此也在功率或能量消耗方面要求很高。具有相对有限的可用功率或能量的装置,诸如多种类型的便携式电池供电的通信装置,通常对于合适的语音激活控制系统和方法的整合提出了问题。
由麦克风阵列处理系统产生的噪声减小的输出信号的感知质量和可理解性对于人类用户的便利性以及对于自动话音识别系统、自动语音激活系统、说话者验证或识别系统等具有极大重要性。
发明内容
本发明的第一方面涉及一种麦克风阵列信号处理系统,包括:
-信号输入端,被配置为从麦克风阵列的第一麦克风接收第一数字音频信号并从麦克风阵列的第二麦克风接收第二数字音频信号,
-数字缓冲器,耦接到信号输入端并被配置为存储第一数字音频信号和第二数字音频信号,
-语音触发输入,指示在数字缓冲器中保持第一数字音频信号的第一语音特征的第一信号段,
-波束形成器分析器,被配置为响应于语音触发,基于第一数字音频信号的第一信号段以及与第一数字音频信号的第一信号段时间对准的第二数字音频信号的第一信号段来确定噪声统计,诸如估计的噪声协方差矩阵Svv(k),
-系数计算器,被配置为基于第一数字音频信号的第一信号段、第二数字音频信号的第一信号段和所确定的噪声统计来计算波束形成算法的第一组固定波束形成器系数,以及
-波束形成算法,被配置为将第一组固定波束形成器系数至少应用于:
从数字缓冲器检索的第一数字音频信号的第一信号段和第二数字音频信号的第一信号段,以产生噪声减小的数字音频信号。
本麦克风阵列信号处理系统的一些实施方式可依靠外部生成的语音触发输入,并且从而实现与语音触发输入由分析第一和/或第二数字音频信号是否存在第一语音特征的整体语音检测阶段生成的情况相比的减少的功耗。在某些实施方式中,麦克风阵列信号处理系统可被配置为仅监控和分析单个数字音频信号(例如,第一或第二数字音频信号)是否存在语音或语音特征而不是监控和分析所有数字音频信号,例如由麦克风阵列的各个麦克风产生的第一、第二以及可能的另外的数字音频信号。相反,波束形成器分析器被配置为至少利用由第一和第二麦克风生成的第一和第二数字音频信号来确定噪声统计。本领域技术人员将理解,麦克风阵列信号处理系统的一些实施方式可包括多于两个麦克风,例如一个或多个附加麦克风,以提供改进的方向性和增加的噪声减小。通过添加这种一个或多个附加的麦克风而增加的组件成本和功耗可以是适度的。
在麦克风阵列信号处理系统和方法的一些实施方式中,例如同时或至少部分同时地在第一和第二数字音频信号上执行语音检测。尽管该实施方式可能消耗比上面讨论的基于单个麦克风的语音检测方案更多的功率,但是该实施方式允许基于具有最高级别的数字音频信号进行检测。在第一和第二数字音频信号源自定向在不同方向上、或在便携式通信装置或设备上分开一定距离放置的定向的第一和第二麦克风时,这是特别有利的。如果在这种类型的定向的第一和第二数字音频信号上同时进行语音检测,则麦克风阵列信号处理系统的语音触发输入更有可能正确地触发后续的波束形成器分析器。这将是例如如果第二麦克风而不是第一麦克风接收到具有最高级别的声音或声学信号的情况。
如果用户试图通过语音来控制他的通信装置而没有得到任何回应,那么体验是不满意的。即使麦克风处理系统的应用层的大部分处于断电状态,本发明也可提供对于用户看起来始终开启的高效但精确的语音检测。这种真实始终开启的功能和随后的波束形成器分析可以例如与(优选地是现有技术的)语音识别算法相结合以提供出色的语音激活响应。
第一或第二数字音频信号的第一语音特征的检测可以以多种方式执行。实例包括分析信号能量和/或确定第一数字音频信号的时域或频域的信号自相关。可替换地或附加地,可利用第一数字音频信号的熵类型表征。语音检测功能、方法和算法可在整个信号带宽上操作,或者在第一数字音频信号的子带表示中的子带上操作。在某些情况下,语音特征的检测时间与检测精度之间可能存在反比关系。语音检测的精度可以通过较长的信号样本和语音检测器算法的更计算先进的设计来改进。
在一些实施方式中,当语音特征或语音发音的存在的估计可能性超过预定阈值时,语音检测器可被配置为指示或标记第一数字音频信号的第一信号段为包括语音特征。
经由波束形成算法,将第一组固定波束形成器系数应用于至少第一和第二数字音频信号的时间对准的第一信号段意味着波束形成器系数在第一信号段的持续时间内保持不变。第一信号段中的每一个的持续时间可以对应于包括整个单词、句子或包括语音特征的话音发音的实时时间段。第一信号段中的每一个的持续时间可以例如表示由第一或第二麦克风拾取的超过500毫秒、更优选地超过1秒(诸如超过4秒)的对应听觉信号的时间段(即,实时时段)。使波束形成器系数在第一和第二麦克风信号的如此长的实时时段内保持固定或恒定与传统的麦克风阵列自适应波束形成算法相反,在该传统算法中波束形成器系数例如以时间步长或几毫秒的信号帧来频繁或连续地更新。然而,当已经通过固定或恒定的波束形成器系数导出噪声减小的数字音频信号时,在噪声减小的数字音频信号中寻求识别触发词、短语或发音的语音识别应用的性能已经显示出提高。语音识别应用的这种性能改进是由当前波束形成算法的线性和时间不变特性引起的,与传统自适应波束形成算法相比,该算法产生具有更少的话音调制和其他信号伪影的噪声减小的数字音频信号。
本领域技术人员将理解,操作期间的麦克风阵列信号处理系统可被配置为将由麦克风阵列的第一麦克风和第二麦克风生成的第一数字音频信号和第二数字音频信号连续地记录或存储在循环数字缓冲器中,并且响应于接收到进一步的指示保持相应的后续接收的语音特征的第一信号段的位置的语音触发输入而重复地激活波束形成算法。以这种方式,麦克风阵列信号处理系统能够重复地或连续地检测传入的数字麦克风信号中的语音特征的存在,并且应用波束形成算法来重复地产生保持相应的语音特征的噪声减小的数字音频信号。
波束形成器分析器被配置为至少基于第一数字音频信号的第一信号段和第二数字音频信号的第一信号段来确定噪声统计,其中后一信号段与第一数字音频信号的第一信号段时间对准。在一个实施方式中,波束形成器分析器被配置为基于第一数字音频信号的整个存储部分和第二数字音频信号的整个存储部分以及在可用时可选地一个或多个数字音频信号,来确定噪声统计。
在一些实施方式中,波束形成器分析器对由例如复杂滤波器组所生成的第一和第二数字音频信号的子带表示进行操作。一个这样的实例是使用复杂离散傅立叶变换(DFT)滤波器组,其中M个系数的向量Y(k,n)被计算为
Figure GDA0002614733550000051
其中,m是麦克风编号1≤m≤M,k表示子带索引,n是帧(时间)索引,wA(l)表示分析窗口函数,L是帧长度,并且D是滤波器组采样因子。这描述了麦克风阵列中的M个(例如两个或更多个)麦克风生成对应的数字音频信号ym的一般情况。
在本发明的一些实施方式中,波束形成器分析器被配置为仅基于第一和第二数字音频信号的第一信号段确定噪声统计,因为这些信号已经被标记或指示为包括语音或话音特征。第一和第二数字音频信号的其他段(诸如在第一信号段的开始位置之前的第二信号段)可以或可以不包括语音信息,并且因此可从随后的波束形成处理(包括波束形成器分析)中丢弃以产生噪声减小的数字信号。通过仅将第一数字音频信号和第二数字音频信号的由语音触发输入标记的那些段波束形成为包括语音特征处理资源,并且麦克风阵列信号处理系统的功耗减少。
在本发明的其他实施方式中,波束形成器分析器被配置成包括在确定噪声统计数据时在时间上在第一数字音频信号的第一信号段之前的第二信号段。因为第二信号段通常保持第一数字音频信号的基本上“干净的”噪声分量或信号,即没有任何干扰的目标话音分量或特征。根据该实施方式,波束形成器分析器被配置为:
-从数字缓冲器中检索第一数字音频信号的第二信号段或第二数字音频信号的第二信号段的信号样本;所述第二信号段在时间上在第一数字音频信号的第一信号段之前;以及
-基于第一数字音频信号的第一信号段和第一或第二数字音频信号的第二信号段来确定噪声统计。
第一数字音频信号的第二信号段可例如在第一数字音频信号的第一信号段的开始位置之前一预定时间段,诸如大于100毫秒或大于200毫秒或甚至大于500毫秒的时间段。第二数字音频的第二信号段可以以对应方式在第二数字音频信号的第一信号段之前。数字缓冲器的第一数字音频信号的第一和第二信号段可在时间上相邻,使得第一或第二数字音频信号的第二信号段的结束时间可在第一或第二数字音频信号的第一信号段的开始时间之前一特定的中间时间段。第二数字音频信号的第一和第二信号段可以以对应的方式布置或位于数字缓冲器中。第一数字音频信号和第二数字音频信号的相应第一和第二信号段之间的时间关系可以以数字缓冲器中的信号段的顺序来反映。
在本发明的某些实施方式中,波束形成器分析器甚至可被配置为仅基于第一和/或第二数字音频信号的一个或多个第二信号段来确定噪声统计。
优选地,第一和第二数字音频信号具有相同的采样率或频率,例如,采样频率在16kHz和96kHz之间。第一和第二数字音频信号可以以这样的方式索引,使得第一数字音频信号的第一信号段的每个信号/音频样本在第二数字音频信号的第一信号段中具有时间对准的对应的信号/音频样本。实际上,由于例如单个麦克风信号的采样操作生成它们的对应的数字音频信号,因此可能存在第一和第二数字音频信号的相应样本之间的小时间延迟。实际上,通过适当的处理(诸如通过对第一和第二数字音频信号中的一个或两个的上采样和/或下采样、采样内插、一个数字音频信号相对于另一个(或其他,如果使用三个或更多个麦克风的话)的移位等)可以校正不同麦克风之间的不同采样率、对应的麦克风电路中的不同电子延迟等。
在本发明的一些实施方式中,语音检测基于第一数字音频信号的一个或多个信号帧。优选地,至少一个信号帧短于26毫秒,诸如短于11毫秒。
数字缓冲器优选地包括循环数字缓冲器。数字缓冲器可以存储或保持第一和第二(以及另外的,如果适用的话)数字音频信号中的每一个的至少1秒,优选至少2秒、3秒、4秒或5秒的信号部分。数字缓冲器可使用各种类型的易失性或非易失性半导体存储器单元,诸如RAM、DRAM、SRAM、寄存器文件等来存储第一和第二(以及另外的,如果适用的话)数字音频信号。
在麦克风阵列信号处理系统的某些实施方式中,波束形成算法被配置用于:
-从数字缓冲器检索第一数字音频信号的第三信号段的信号样本;所述第三信号段位于第一数字音频信号的第一信号段之后;并且
-从数字缓冲器检索第二数字音频信号的第三信号段的信号样本;所述第三信号段位于第二数字音频信号的第一信号段之后;
-将第一组固定波束形成器系数应用于第一和第二数字音频信号的第三信号段。
因此,处理器可继续将仍然使用第一组固定波束形成器系数的波束形成算法应用于所检索的第三信号段的信号样本,直到达到基本上对应于实时音频信号的第一和第二数字音频信号的信号样本。后面的实施方式允许波束形成算法的输出以产生实时噪声减小的数字信号,如在下面参照附图另外详细讨论的。第一信号段可以包括先前讨论的目标或触发词、短语或发音,并且第三信号段可以包括例如语音命令。目标/触发词、短语或发音以及语音命令都必须被基于云的应用识别,以向发出触发词和语音命令的特定用户提供语音控制服务。
第一和第二(如果适用的话,以及另外的)数字音频信号可以包括目标信号,通常是源自感兴趣的来源的声音,诸如源自与噪声信号混合的特定说话者的话音。在这种情况下,噪声信号表示声音的所有其他起源或来源,或者是其他竞争者、说话者或各种类型的静止或非静止的背景噪声。通过将波束形成算法应用于第一和第二数字音频信号的第一信号段和/或将波束形成算法应用于直接从第一和第二麦克风获得的第一和第二数字音频信号而产生的噪声减小的数字音频信号,具有比第一和第二数字音频信号中的每一个的信噪比更高的信噪比。换句话说,目标信号相对于噪声信号被增强。
一旦波束形成器分析器已经被语音触发输入或语音标志触发,波束形成器分析器访问在数字缓冲器中存储的第一和第二数字音频信号的所指示的段。如前所述,这可包括在第一信号段的开始位置之前至少200毫秒的第一和第二数字音频信号的第二信号段。在波束形成器分析阶段期间,优选地分析第一和第二数字音频信号的第一信号段以获得用于提供抑制噪声减小的数字音频信号的对应噪声信号的波束形成器系数的噪声统计。
第一语音触发输入可由相对于麦克风阵列信号处理系统的外部的、例如经由到基于云的应用的无线通信信道连接到数字缓冲器的第三方应用程序来生成。可替换地,第一语音触发输入可由麦克风阵列信号处理系统的整体语音检测器生成,如以下参照附图进一步详细讨论的。
波束形成器分析可包括用于检测并随后增强对应的多个目标信号的多个波束形成器处理通道。每个通道可以包括检测目标说话者的声学签名。每个通道优选地提供用于抑制背景噪声的波束形成器系数。
在一些实施方式中,波束形成器分析器可以继续操作特定时间段,例如直到早期分析终止信号中断进一步的处理或者直到预定时间量已经过去。早期终止信号可以由已确定已经收集到足够量的声学信息的估计器生成,以便计算用于噪声抑制的最佳第一组固定波束形成器系数。
在一些实施方式中,波束形成器分析包括确定分别指示或标记语音特征和/或噪声信号的目标指示符信号和/或噪声指示符信号的步骤。可执行分析以估计最有可能是(不期望的)噪声信号的时频域中的第一数字音频信号和第二数字音频信号的信号段,并且估计信号段(诸如可能包含目标的第一信号段)。该分析可在时频域中以一个或多个指示符信号的形式表达,诸如二进制噪声信号FN,k(n)和/或语音存在信号FS,k(n)。
在第一实施方式中,语音存在信号是常数FS,k(n)=1,并且噪声存在信号是通过将背景噪声谱密度估计器的输出与瞬时噪声等级进行比较而导出的,背景噪声谱密度估计器对来自麦克风的第一和第二数字音频信号中的预选的一个进行操作。在[1]中描述了一个示例性背景噪声谱密度估计器。假设背景噪声估计被指定为
Figure GDA0002614733550000091
则噪声存在信号可被导出为:
Figure GDA0002614733550000092
其中u(x)可以是单位阶跃函数,并且TN是预定阈值,例如5dB、10dB、15dB或20dB。
在另一实施方式中,二进制噪声信号另外基于第一和第二数字音频信号的相位特性而导出。
通过使用这些指示符信号中的一个或多个,通过在时间帧上平均第一和第二数字音频信号,在每个子带中形成所谓的混合协方差和噪声协方差矩阵Syy(k)和Svv(k)。第一和第二数字音频信号可从先前讨论的第一和第二数字音频信号的第二信号段的开始点进行平均。如上所述,第二信号段的开始点或开始时间例如可在第一信号段的开始点之前约200~500毫秒。第一信号段的开始点可被指定为信号帧N0并且分析阶段的结束点由信号帧N1所指定。在这个平均处理中,一个或多个指示符信号被用作加权函数。
Figure GDA0002614733550000093
Figure GDA0002614733550000101
其中k是指频带索引,并且v是指噪声信号分量,而α是一个小的常数,以避免被0除。
在一些实施方式中,根据混合协方差矩阵和噪声协方差矩阵在每个子带中估计目标传播向量d(k)。在一些实施方式中,通过矩阵
Figure GDA0002614733550000102
的特征向量分析特征向量选择对应于最大特征值的特征向量作为传播向量,来计算目标传播向量d(k)。
波束形成算法的一组最佳和固定的波束形成器系数可在每个子带中被计算为向量:
Figure GDA0002614733550000103
每个子带的波束形成器系数表示在对应的子带处的第一和第二数字音频信号的复杂线性组合的权重,其在保持目标话音分量的同时最小化噪声分量。噪声减小的子带信号可被计算为:
Yenh(k,n)=w(k)HY(k,n) (5)
麦克风阵列信号处理系统可以进一步包括波束形成器,该波束形成器被配置为将第一和第二数字音频信号组合为先前讨论的噪声减小的数字音频信号,其具有比第一和第二数字音频信号中的每个的信噪比高的信噪比。噪声减小的数字音频信号的改进的信噪比将允许连接的话音识别应用或语音命令应用更精确地识别诸如装置命令的口头词语。噪声减小的数字音频信号的改善的信噪比可进一步降低所连接的语音识别应用或语音命令应用的功耗和计算资源。在波束形成器分析器被配置为至少部分地在逐帧的基础上操作的情况下,这是特别有利的,在这样的情况下,麦克风阵列信号处理系统可以被配置为不需要用于存储的另外的数字缓冲器资源以用于系统例如一次对来自超过一个帧的子带信号进行操作。虽然分析滤波器组可被多次计算(至少是一次用于波束形成器分析阶段,一次用于波束形成器应用阶段,如果包括的话),由分析滤波器组产生的这些额外计算可以是有利的折衷,作为减少所需的处理存储器量的交换。
噪声减小的数字音频信号yenh(t)优选地使用合成滤波器组处理根据以下来获得:
Figure GDA0002614733550000111
其中wS(l)是合成窗口函数,对于l<0且l≥L,wS(l)=0。
在麦克风阵列信号处理系统的一些实施方式中,波束形成算法被应用于不仅对第一和第二数字信号的所存储的第一信号段和可选地第二信号段进行操作,还另外对存储在数字缓冲器中的第一和第二数字音频信号的实时样本进行操作,如以下参考附图进一步详细讨论的。本麦克风阵列信号处理系统的后一个实施方式将波束形成算法的一组计算的固定波束形成器系数应用于实时数字音频信号,以实时地产生噪声减小的数字音频信号yenh(t)并且实时地增强目标信号。该特征与话音识别和翻译数据库相结合可以提供语音的实时翻译。将波束形成算法应用于存储的第一和第二数字音频信号及其随后的从麦克风阵列接收的实时连续信号导致第一和第二数字音频信号的从语音特征的开始直到当前时间的整个部分可被减小噪声。
随后,或者以流传送方式,噪声减少的数字音频信号可被传输到或传递到随后例如由语音识别、语音响应、说话者验证或翻译应用或系统进行的分析,如下面参考附图的另外细节中所讨论的。
一旦已经处理了第一和第二数字音频信号的第一信号段以及可选地保持在数字缓冲器中的另外的信号段(诸如之前讨论的第一和第二数字音频信号的第二信号段),麦克风阵列信号处理系统可以进入清除或重写第一组固定波束形成器系数。麦克风阵列信号处理系统可以随后基于存储在数字缓冲器中的新的或更新的数字音频信号来计算第二组固定波束形成器系数,并将第二组固定波束形成器系数应用于随着时间的推移的新的数字音频信号等。以这种方式,可以重复地计算新的一组固定波束形成器系数,并以取决于麦克风阵列处的后续语音特征的到达的规则的时间间隔或不规则的时间间隔将其应用于从第一和第二麦克风接收的数字音频信号。因此,处理器可被配置为例如以超过1秒或超过2秒或超过5秒的时间间隔重复计算后续多组固定波束形成器系数。
相应地,麦克风阵列信号处理的一个实施方式被配置为:
-清除数字缓冲器中的第一和第二数字音频信号,
-将第三和第四数字音频信号存储在数字缓冲器中,
-等待第二语音触发输入,该输入指示保持数字缓冲器中的第三数字音频信号的第二语音特征的第二信号段,
-确定噪声统计,响应于第二语音触发,通过波束形成器分析器基于第三数字音频信号的第二信号段以及第三数字音频信号的第二信号段时间对准的第四数字音频信号的第二信号段来确定噪声统计,诸如噪声协方差矩阵Svv(k),
-清除第一组固定波束形成器系数,
-由系数计算器基于第三数字音频信号的第二信号段、第四数字音频信号的第二信号段以及确定的噪声统计来计算第二组固定波束形成器系数,以及
-通过波束形成算法将第二组固定波束形成器系数应用于从数字缓冲器检索的第三数字音频信号的第二段和第四数字音频信号的第二段,以产生第二个噪声减小的数字音频信号。
本领域技术人员将理解,由本发明的麦克风阵列信号处理系统的请求保护的估计器、向量、统计处理器、子带滤波器组等实现的相应信号处理功能、框或单元以及用于处理麦克风阵列信号的方法可由专用数字硬件或由在软件可编程微处理器上执行的可执行程序指令或这些的任意组合来执行。信号处理功能或框可作为在一个或多个软件可编程信号处理器上运行的一个或多个计算机程序、例程和执行线程来执行。每个计算机程序、例程和执行线程可以包括多个可执行程序指令。信号处理功能可由专用数字硬件和在一个或多个软件可编程信号处理器上运行的计算机程序、例程和执行线程的组合来执行。例如,上述估计器、处理器、滤波器和滤波器组等中的每一个可包括可在合适的微处理器,具体而言是数字信号处理器(DSP)上执行的计算机程序、程序例程或执行线程。微处理器和/或专用数字硬件可集成在ASIC上或者在FPGA装置上实现。
将数字音频输入信号分成子带信号的分析滤波器组可被配置为以各种方式计算这些数字音频输入信号,例如使用基于块的FFT算法或离散傅里叶变换(DFT)。可替换地,时域滤波器组,诸如1/3倍频程滤波器组或巴克尺度(Bark scale)滤波器组,可用于此任务。子带信号的数量通常对应于分析滤波器组的频带或信道的数量。分析滤波器组的信道数量可根据所讨论的应用和数字音频信号的采样频率而变化。
本发明的第二方面涉及一种处理麦克风阵列信号的方法。该方法包括:
a)将表示由麦克风阵列的第一麦克风接收的第一声学信号的第一数字音频信号存储在数字缓冲器中,
b)将表示由第二麦克风接收的第二声学信号的第二数字音频信号存储在数字缓冲器中,其中,第二声学信号与第一声学信号同时被接收,
c)生成或接收语音触发输入,该输入指示数字缓冲器中保持第一数字音频信号的第一语音特征的第一信号段,
d)响应于语音触发,基于第一数字音频信号的第一信号段以及与第一数字音频信号的第一信号段时间对准的第二数字音频信号的第一信号段来确定噪声统计,诸如噪声协方差矩阵Svv(k),
e)基于噪声统计来计算波束形成算法的第一组固定波束形成器系数,
f)从数字缓冲器至少检索第一数字音频信号的第一信号段和第二数字音频信号的第一信号段,
g)将波束形成算法应用于第一数字音频信号的第一信号段和第二数字音频信号的第一信号段,以产生噪声减小的数字音频信号。
如上所述,处理麦克风阵列信号的本方法的一个实施方式可包括:
h)从数字缓冲器清除第一和第二数字音频信号,
i)从第一麦克风接收第三数字音频信号并从麦克风阵列的第二麦克风接收第四数字音频信号,
j)将第三和第四数字音频信号存储在数字缓冲器中,
k)接收第二语音触发输入,该输入指示数字缓冲器中的第三数字音频信号的保持语音特征的第二信号段,
l)响应于第二语音触发,基于第三数字音频信号的第二信号段以及与第三数字音频信号的第二信号段时间对准的第四数字音频信号的第二信号段来确定噪声统计,
m)清除第一组固定波束形成器系数,
n)由系数计算器基于第三数字音频信号的第二信号段、第四数字音频信号的第二信号段和所确定的噪声统计,来计算第二组固定波束形成器系数,以及
o)从数字缓冲器检索第三数字音频信号的第二段和第四数字音频信号的第二段,
p)将第二组计算和固定的波束形成器系数应用于第三数字音频信号的第二段和第四数字音频信号的第二段,以产生第二个噪声减小的数字音频信号。
根据用于处理麦克风阵列信号的本方法的一个实施方式,第一语音触发输入的产生至少部分地在从数字缓冲器检索的第一数字音频信号的第一信号段上执行。
用于处理麦克风阵列信号的本方法可进一步包括:
-从数字缓冲器检索第一或第二数字音频信号的第二信号段的信号样本;所述第二信号段在时间上在第一数字音频信号的第一信号段之前;并且
-基于第一数字音频信号的第一信号段和第一或第二数字音频信号的第二信号段来确定噪声统计。
使用第一数字音频信号的第二段来改进所确定的噪声统计的准确性的优点已在上面详细讨论过,并且在此不再重复。如上面提到的,第一数字音频信号的第二信号段的开始位置可以在第一数字音频信号的第一信号段的开始位置之前一预定的时间间隔,诸如大于200毫秒或500毫秒的时间间隔。例如,如果第一和第二信号段彼此邻近,则第一数字音频信号的第二信号段在数字缓冲器中的结束点可以大致位于第一数字音频信号的第一信号段的开始位置。该特征能够产生第一数字音频信号的非常准确的噪声统计,如以下参照附图进一步详细讨论的。
用于处理麦克风阵列信号的本方法可以包括以下另外的步骤:通过删除或重写在数字缓冲器中的第一和第二数字音频信号的最旧样本,将第一数字音频信号和第二数字音频信号的当前样本存储在数字缓冲器中,以创建循环数字缓冲器。
用于处理麦克风阵列信号的本方法可以包括确定第一数字音频的第二信号段的一部分可能属于噪声信号。
在本方法的一个实施方式中,波束形成算法专门应用于数字缓冲器的第一和第二数字音频信号的第一信号段,以及可选地包括语音特征的另外的信号段,以产生噪声减小的数字音频信号。
处理麦克风阵列信号的本方法的一个实施方式另外包括:
-识别数字缓冲器的第一和第二数字音频信号中的至少一个的第一信号段的结束位置,
-从数字缓冲器检索第一数字音频信号的布置在第一信号段的结束位置之后的第三信号段的信号样本;以及
-从数字缓冲器检索第二数字音频信号的布置在第一信号段的结束位置之后的第三信号段的信号样本;
-将第一组固定波束形成器系数应用于第一和第二数字音频信号的第三信号段,以产生表示第三信号段的进一步噪声减小的数字音频信号。
如上所述,用于处理麦克风阵列信号的本方法包括以下的另外的步骤:
将噪声减小的数字音频信号传输到以下中的至少一项:话音识别系统、说话者验证系统、语音命令系统、计算机实现的翻译系统、自动调谐系统。
本发明的第三方面涉及包括根据上述实施方式中的任一个的麦克风阵列信号处理系统的便携式通信装置或设备。
附图说明
将结合附图更详细地描述本发明的实施方式,其中:
图1示出了根据本发明第一实施方式的麦克风阵列信号处理系统的简化示意框图,
图2示出了根据本发明第二实施方式的麦克风阵列信号处理系统的简化示意框图,
图3示出了存储第一和第二数字音频信号的几个信号段的麦克风阵列信号处理系统的数字缓冲器的示例性布局,
图4是根据本发明的另一方面的处理麦克风阵列信号的方法的处理步骤的流程图;以及
图5示出了存储在数字缓冲器中的第一和第二数字音频信号的相应信号段中的语音命令之前的示例性触发短语的处理和识别步骤。
具体实施方式
图1示出了根据本发明示例性实施方式的麦克风阵列信号处理系统100的实施方式。第一麦克风131和第二麦克风132可以分别包括在麦克风阵列130中并且布置为拾取诸如来自周围环境的可听声音的声学信号。本领域技术人员将会理解,麦克风阵列130可包括一个或多个附加麦克风133,134等,用于拾取和存储进一步的声学和相应的数字音频信号。第一麦克风131和第二麦克风132分别产生施加到麦克风阵列信号处理系统100的信号输入端111的对应的第一数字音频信号141和第二数字音频信号142。数字音频信号被存储在循环数字缓冲器113中,该缓冲器具有对应于第一数字音频信号141和第二数字音频信号142中的每一个的实时信号的大约1-10秒的存储容量。这意味着在前面的1-10秒内由第一麦克风131和第二麦克风132中的每一个拾取的声学信号(不包括与麦克风换能器之间的电子处理和存储于缓冲器有关的延迟)被保持在循环数字缓冲器113中并可用于分析和处理。该特征在图3中示意性地示出,图3示出了循环数字缓冲器113的示例性布局,示出了循环数字缓冲器113中的第一数字音频信号141的时间周期Tbuf1和循环数字缓冲器113中的第二数字音频信号142的对应时间周期Tbuf2。
在麦克风阵列信号处理系统100的操作期间,第一数字音频信号141和第二数字音频信号142不必在波束形成器分析器117中被处理。波束形成器分析117的连续操作将在没有任何语音特征或话音特征(即目标或期望信号)存在于存储在循环数字缓冲器113中的第一数字音频信号中的时间段期间,消耗不必要的处理功率。相反,语音检测器115通过检索第一数字音频信号141的某些信号段或帧并基于该帧或段执行初始语音检测,来监控保持在循环数字缓冲器113中的第一数字音频信号141和/或第二数字音频信号142。以这种方式,因为语音检测器115只需要具有语音检测能力,可使用尽可能小的功率来检测语音活动。语音检测器115被配置为响应于检测到第一数字音频信号141中的语音特征而生成语音触发输入116,并将该语音触发输入116提供给波束形成器分析器117。语音触发输入116可包括保持在保持检测到的语音特征的循环数字缓冲器113中的第一数字音频信号141的第一信号段(例如,图3的311)的位置的指示符。
本领域技术人员将会理解,麦克风阵列信号处理系统100的替代实施方式可以缺少语音检测器115,如图2所示的麦克风阵列信号处理系统200的替代实施方式中示意性地示出的。在后一实施方式中,外部第三方应用程序215访问并分析循环数字缓冲器113的内容以认出或识别期望的语音特征。第三方应用程序215可在检测到第一数字音频信号141的语音特征时生成语音触发输入216或语音标志,并且将该语音触发输入返回或传输到麦克风阵列信号处理系统200的合适功能或框,诸如波束形成器分析器217。语音触发输入216可包括保持存储在循环数字缓冲器113中的第一数字音频信号141的语音特征的第一信号段311的位置的指示符。该特征在图3中示意性地示出,图3示出了循环数字缓冲器113的示例性布局。语音触发输入指示第一信号段311的循环数字缓冲器113中的开始位置或时刻tv。开始位置当然可对应于循环数字缓冲器113的特定地址。图3中的循环数字缓冲器113的示例性布局还示出保持在保持语音特征的循环数字缓冲器113中的第二数字音频信号142的第一信号段314。语音触发输入116可同样指示第二数字音频信号142的第一信号段314的循环数字缓冲器113中的开始位置或时刻tv
响应于语音触发输入116,波束形成器分析器117从去激活状态切换到激活状态。波束形成器分析器117通常需要比语音检测器115明显更多的计算能力。如果波束形成器分析器117连续活动,则不必要的功率和处理资源将被浪费。相反,波束形成器分析器117优选地仅响应于语音检测器115指示或标记第一数字音频信号141中的语音特征的存在而被激活。
波束形成器分析器117通过使用各自的子带(例如DFT滤波器组)表示第一数字音频信号141和/或第二数字音频信号142中的每一个来进行操作,其中2个系数的向量Y(k,n)(对应于第一和第二数字麦克风信号中的每一个)被计算为
Figure GDA0002614733550000181
本实施方式的波束形成器分析通过对跨时间帧的信号在循环数字缓冲器113中保持的至少第一数字音频信号141的第一信号段311和第二数字音频信号142的第一信号段314上进行平均,还分别确定在每个子带中的噪声信号FN,k(n)、语音存在信号FS,k(n)以及混合和噪声协方差矩阵Syy(k)和Svv(k)。波束形成器分析可另外使用保持在循环数字缓冲器113中的第一数字音频信号141的第二信号段310和第二数字音频信号142的第二段313。第二信号段310、313可位于在前面讨论的如语音触发输入116所指示的第一信号段311、314的开始位置tv之前预定时间段(诸如200ms)的时间点t2。时间点t1可表示存储在循环数字缓冲器113中的第一数字音频信号141和第二数字音频信号142的最旧的部分。
第二信号段310的开始点可被指定为帧N0,直到前述分析阶段的结束N1,其中后一帧可位于第二信号段310的结束点。在该平均过程中,噪声信号和语音存在信号被用作加权函数:
Figure GDA0002614733550000191
Figure GDA0002614733550000192
其中,k表示频带指数,v表示噪声信号分量,而α是小常数,避免被0除。
分别从混合和噪声协方差矩阵Syy(k)和Svv(k)在每个子带中估计目标传播向量d(k)。传播向量通过对矩阵
Figure GDA0002614733550000193
的特征向量分析来计算。假设对应于最大特征值的特征向量表示为e(k),则传播向量被计算为d(k)=Svv(k)e(k)。
然后在步骤119中将每个子带的一组最佳波束形成器系数计算为向量:
Figure GDA0002614733550000194
每个子带的波束形成器系数表示在对应子带处的第一数字音频信号141和第二数字音频信号142的复杂线性组合的权重,该线性组合使噪声分量最小化,同时保持期望的语音或话音特征或分量。每个子带的增强的或噪声减小的输出信号可根据以下确定:
Yenh(k,n)=w(k)HY(k,n) (11)
可使用合成滤波器组处理在步骤121中计算或构建麦克风阵列信号处理系统100、200的噪声减小的数字输出信号yenh(t):
Figure GDA0002614733550000201
其中wS(l)是合成窗口函数,wS(l)=0,l<0且l≥L。
噪声减小的数字输出信号yenh(t)可根据诸如语音识别、说话者识别或其他语音/话音相关处理的特定应用的要求进行进一步开发和处理。
图4示出了根据本发明另一方面的由麦克风阵列信号处理系统100的处理器执行以实现处理麦克风阵列信号的本方法的不同实施方式的处理步骤的流程图400。在步骤401,在信号输入端应用第一数字音频信号141和第二数字音频信号142并在步骤413将该信号存储在循环数字缓冲器中。当第一数字音频信号141和第二数字音频信号142被连续地应用在信号输入端时,语音检测器在步骤403监控并分析存储在循环数字缓冲器中的第一数字音频信号是否存在语音或话音特征。注意,语音检测器对存储在循环数字缓冲器中的第一数字音频信号进行操作,而不是对信号输入端接收到的麦克风信号进行操作。可选地,语音检测器可以监控并分析直接从信号输入端而不是从数字循环缓冲器中存储的复制品取出的第一数字音频信号141。因此,在后面的实施方式中,语音检测器从循环缓冲器检索音频信号样本,如流程图400所示。如果保持在数字循环缓冲器中的第一数字音频信号的部分缺少语音或话音特征,则处理器返回重复步骤401和413,通过删除第一和第二数字音频信号的最旧样本并将相同信号的当前样本添加到循环数字缓冲器的适当位置或地址,来接收和存储循环数字缓冲器中的第一数字音频信号141和第二数字音频信号142的相应的传入样本。当语音检测器识别存储在循环数字缓冲器中的第一数字音频信号141中的语音或话音特征时,在步骤404中通过之前讨论的语音触发输入来触发波束形成器分析。波束形成器分析还包括在步骤404中检索先前讨论的存储在循环缓冲器中的第一数字音频信号141的第一信号段311和第二数字音频信号142的第一信号段314。从循环缓冲器对第一数字音频信号141和第二数字音频信号142的信号段的这个检索是有吸引力的,因为它使得本麦克风阵列信号处理系统能够提供始终开启的功能。
如前所述,波束形成器分析417确定表征至少第一数字音频信号141的第一信号段311和第二数字音频信号142的第一信号段314的噪声统计。上面已经讨论了合适的噪声统计的示例性计算,这里将不再重复。这也适用于在步骤419中基于由分析步骤417提供的噪声统计的先前讨论的第一组固定波束形成器系数的后续计算。在已经计算第一组波束形成器系数之后,第一数字音频信号141和第二数字音频信号142可以以各种方式增强,具体而言是通过形成波束形成和噪声减小的数字音频信号的方式,其中第一数字音频信号141和第二数字音频信号142中的每一个的噪声分量被抑制或衰减。
如步骤421所示,第一组固定波束形成器系数可经由适当的波束形成算法或函数而应用于存储在循环数字缓冲器中的第一数字音频信号141和第二数字音频信号142的先前讨论的段,以产生对应的噪声减小的数字音频信号Yenh1。该特征允许波束形成算法减小存储在循环数字缓冲器中的第一和第二数字音频信号的选定段的噪声,即,在第一和第二麦克风信号的旧达1-10秒的部分上。波束形成算法可例如被配置为将计算的第一组固定波束形成器系数应用于保持第一数字音频信号141的语音特征的第一信号段(图3的311)和保持第二数字音频信号142的语音特征的第一信号段(图3的314),以产生保持语音特征的第一噪声减小的数字信号Yenh1。本领域技术人员将理解,与第一数字音频信号141和第二数字音频信号142的信噪比相比,第一噪声减小的数字信号Yenh1的改善的信噪比通常导致语音命令、算法或应用450的改善的识别速率。另外,波束形成算法可被配置为将第一组固定波束形成器系数应用于保持在循环数字缓冲器中的第一数字音频信号141和第二数字音频信号142的最新或最近样本。这些样本位于图3示意性示出的循环数字缓冲器113的时间点t1+tB,并且基本上是由第一和第二麦克风提供的第一和第二数字音频信号的实时表示。利用循环数字缓冲器中的第一和第二数字音频信号的最近样本来实时产生噪声减小的数字音频信号Yenh2。技术人员将会理解,麦克风阵列信号处理系统100的处理器可能能够比实时快得多地计算噪声减小的数字音频信号Yenh1的音频信号样本。以这种方式,处理器可开始将波束形成算法应用于保持所识别/标识的语音/话音特征(例如目标或触发词、短语、发音或句子)的第一数字音频信号141的第一信号段311和第二数字音频信号142的第一信号段314,并随后继续将波束形成算法进一步分别应用于布置为时间稍晚或布置在保持在循环缓冲器中的第一数字音频信号的第一信号段311和第二数字音频信号的第一信号段314之后的第一数字音频信号的第三信号段321和第二数字音频信号的第三信号段324。因此,第三信号段321、324存储第一数字音频信号141和第二数字音频信号142的最新,即最近的信号样本。
处理器可被配置为基于语音触发输入来确定第三信号段321、324的适当开始点,该语音触发输入可指示如前讨论的在tv处的开始点的位置,并且可能是数字缓冲器中的第一信号段311、314的结束点t1+ts的位置。处理器可相应地开始从数字缓冲器检索第一数字音频信号的第三信号段321和第二数字音频信号的第三信号段324的信号样本,并将第一组固定波束形成器系数应用于第三信号段321、324,以通过波束形成算法产生噪声减小的数字音频信号。
因此,处理器可继续将仍然使用第一组固定波束形成器系数的波束形成算法应用于检索到的第三信号段321、324的信号样本,直到到达位于表示基本上实时数字音频信号的时间点t1+tB的最近的信号样本,从而产生实时的噪声减少的数字信号Yenh1。该处理器可在一些实施方式中被配置成继续使用第一组固定波束形成器系数,继续将波束形成算法应用于存储在循环数字缓冲器113中的第一数字音频信号141和第二数字音频信号142的最新的信号样本某一时间量,以产生实时噪声减小的数字信号Yenh1。噪声减小的数字信号Yenh1由于前面讨论的调制伪影的不存在、为听者提高感知的音质和/或话音可理解性,而具有许多有用的应用。检测到的语音特征(例如,先前讨论的触发词、短语或发音)的调制伪影的不存在或至少减少,将提高语音特征的主观质量,并提高前面讨论的后续应用的性能,诸如自动和连续的说话者验证或识别、语音命令系统等。
图5示出了与接收分别存储在数字缓冲器113中的第一数字音频信号和第二数字音频信号的第一信号段第三信号段的语音命令之前的示例性触发短语相关联的信号处理和识别步骤的顺序。技术人员将理解,麦克风阵列信号处理系统的本实施方式作为分布式语音命令或语音响应系统的前端操作。下部的时间序列551示出便携式通信设备的用户发出触发短语“你好(hello)”随后是语音命令“有效载荷(PAYLOAD)”,例如表示“切换电视频道”。触发短语“你好”被存储在数字缓冲器113的第一段311、314中。作为响应,内部或外部语音检测器识别第一数字语音信号的第一信号段(例如311)中的语音特征的存在,并且可寻求对这个语音特征是否包含触发短语“你好”进行初步估计。如果触发短语估计是肯定的,则将语音触发输入提供给波束形成器分析器。语音触发输入可以包括第一信号段311的开始位置的开始指示符555或开始时刻、结束位置的结束指示符557或结束时刻t1+ts。另一方面,如果触发短语估计是否定的,则处理器可以丢弃对第一信号段311的进一步处理,并等待接收包含另一语音特征的后续信号段。
响应于肯定的触发短语估计,波束形成器分析器通过检索保持在循环数字缓冲器113中的第一数字音频信号141的第二信号段310和第二数字音频信号142的第二信号段313的信号样本而如上所述地继续。第二信号段310、313优选地不含说话者或用户的语音信号分量,但当然可以包括各种类型的干扰噪声和话音,如由上部的时间序列553示意性指示的,时间序列553示出了在触发短语和语音命令的持续时间内干扰噪声如何由麦克风阵列131、132捕获。第一语音特征的开始指示符555使波束形成算法能够识别没有第二信号段310、313的用户语音。第二信号段310、313与由波束形成器分析器利用的第一信号段311、314相结合以对第一和第二数字音频信号进行出众的噪声估计。此后,系数计算器基于第一信号段311、314和所确定的噪声统计来确定或计算波束形成算法的第一组固定波束形成器系数。此后,波束形成算法将第一组固定波束形成器系数应用于存储在第一和第二数字音频信号的第一信号段311、314的开始位置555和结束位置557之间的触发短语“你好”。将波束形成算法应用于触发短语“你好”产生噪声减小的触发短语,该短语由于上面详细讨论的原因而具有改善的话音可理解性并且没有调制伪影。内部或外部语音检测器分析噪声减小的触发短语“你好”,并利用噪声的减小和信号伪影的不存在来提高识别精度。
如果先前(肯定的)识别结果被确认,则处理器通过从数字缓冲器检索第一数字音频信号的第三信号段321和第二数字音频信号的第三信号段324的信号样本来进行响应,其中,这些第三信号段321、324位于第一信号段311、314之后。如前所述,第三信号段321、324存储语音命令“有效载荷”。波束形成算法继续将先前计算的第一组固定波束形成器系数应用于语音命令“有效载荷”,并且产生由于以上详细讨论的原因而具有改进的精度和话音可理解性并且没有引入调制伪影的对应的噪声减小的语音命令。
语音命令“有效载荷”可例如通过无线或有线数据通信信道或链路561被传输到位于远程的自动(即,基于机器的)语音识别系统565、说话者验证系统或语音命令/语音应答系统。本领域技术人员将理解,远程定位的自动语音识别系统565等可包括基于云的系统。远程定位的语音识别系统565受益于噪声减小的命令“有效载荷”的改进质量并例如从基于命令表、基于库或基于规则的命令识别算法中识别适当的语音命令。一旦远程定位的语音识别系统565识别出所接收的语音命令,则系统565可相应地作出响应。该响应可经由无线或有线数据通信信道或链路561被传回给包括本麦克风阵列信号处理系统的语音通信设备。可替换地,响应可被传送到其他装置,诸如电视机、收音机或与语音通信设备的用户或所有者相关联的家庭自动化系统。
此外,自动语音识别的一部分可以在便携式通信设备或装置本身的应用处理器上执行,而自动识别任务的其他部分可在互联网服务器上执行,例如基于云的识别,诸如上面讨论的远程定位的语音识别系统565。有时为了减少从便携式通信装置向因特网上的服务器传输噪声减小的数字音频信号的时间量,可在便携式通信装置本身上执行初始话音识别阶段,并且一旦初始识别认为这是成功完成语音控制命令所需的,则在基于云的服务器系统中执行实际的有效载荷句子的识别。基于云的识别通常导致更高的精度,但是这有一定的成本。首先,这引入了对装置中活动的互联网连接的依赖性,并且其次,对于唤醒执行基于云的查询(诸如基带无线电和通信栈)所需的装置部分的功耗成本。麦克风阵列信号处理系统的上述实施方并不要求或假定基于云的话音识别系统是连接的且活动的。本麦克风阵列信号处理系统在两种情况下都展示了先前讨论的有益特性,这是因为系统的基于云和不基于云的话音识别实施方式均受益于由麦克风阵列信号处理系统产生的噪声减小的数字音频信号的改进的精度。
参考文献
[1]R.Martin,“Noise power spectral density estimation based on optimalsmoothing and minimum statistics,”IEEE Trans.Speech Audio Processing,vol.9,no.5,pp.504–512,July 2001。

Claims (25)

1.一种麦克风阵列信号处理系统,包括:
-信号输入端,被配置为从麦克风阵列的第一麦克风接收第一数字音频信号,并且从所述麦克风阵列的第二麦克风接收第二数字音频信号,
-数字缓冲器,耦接到所述信号输入端并被配置为存储所述第一数字音频信号和所述第二数字音频信号,
-语音检测器,被配置为至少分析保持在所述数字缓冲器中的所述第一数字音频信号并且生成第一语音触发输入,所述第一语音触发输入指示在所述数字缓冲器中保持所述第一数字音频信号的第一语音特征的第一信号段,
-波束形成器分析器,被配置为响应于所述第一语音触发输入,基于所述第一数字音频信号的第一信号段以及与所述第一数字音频信号的所述第一信号段时间对准的所述第二数字音频信号的第一信号段来确定噪声统计,
-系数计算器,被配置为基于所述第一数字音频信号的所述第一信号段、所述第二数字音频信号的所述第一信号段和所确定的噪声统计来计算波束形成算法的第一组固定波束形成器系数,以及
-波束形成算法,被配置为将所述第一组固定波束形成器系数至少应用于:
从所述数字缓冲器检索的所述第一数字音频信号的所述第一信号段和所述第二数字音频信号的所述第一信号段,以产生噪声减小的数字音频信号。
2.根据权利要求1所述的麦克风阵列信号处理系统,被配置为:
-清除所述数字缓冲器中的所述第一数字音频信号和所述第二数字音频信号,
-将第三数字音频信号和第四数字音频信号存储在所述数字缓冲器中,
-等待第二语音触发输入,所述第二语音触发输入指示在所述数字缓冲器中保持所述第三数字音频信号的第二语音特征的第二信号段,
-确定噪声统计,响应于所述第二语音触发输入,由所述波束形成器分析器基于所述第三数字音频信号的第二信号段以及与所述第三数字音频信号的所述第二信号段时间对准的所述第四数字音频信号的第二信号段来确定噪声统计,
-清除所述第一组固定波束形成器系数,
-由所述系数计算器基于所述第三数字音频信号的所述第二信号段、所述第四数字音频信号的所述第二信号段和确定的噪声统计来计算第二组固定波束形成器系数,以及
-由所述波束形成算法将所述第二组固定波束形成器系数应用于从所述数字缓冲器检索的所述第三数字音频信号的第二信号段和所述第四数字音频信号的第二信号段,以产生第二个噪声减小的数字音频信号。
3.根据权利要求1或2所述的麦克风阵列信号处理系统,其中,所述第一语音触发输入指示保持所述第一语音特征的所述第一信号段的位置。
4.根据权利要求1或2所述的麦克风阵列信号处理系统,其中,所述波束形成器分析器被进一步配置为:
-从所述数字缓冲器检索所述第一数字音频信号的第二信号段或所述第二数字音频信号的第二信号段的信号样本;所述第一数字音频信号和所述第二数字音频信号的所述第二信号段在时间上在所述第一数字音频信号的第一信号段之前;并且
-基于所述第一数字音频信号的所述第一信号段以及所述第一数字音频信号的所述第二信号段或所述第二数字音频信号的所述第二信号段来确定所述噪声统计。
5.根据权利要求4所述的麦克风阵列信号处理系统,其中,所述第一数字音频信号的所述第二信号段的开始位置在所述第一数字音频信号的所述第一信号段的开始之前预定的时间段。
6.根据权利要求5所述的麦克风阵列信号处理系统,其中,所述数字缓冲器中的所述第一数字音频信号的所述第二信号段的结束点位于所述第一数字音频信号的所述第一信号段的开始位置之前。
7.根据权利要求5所述的麦克风阵列信号处理系统,其中,所述数字缓冲器中的所述第一数字音频信号的所述第二信号段的结束点位于所述第一数字音频信号的所述第一信号段的开始位置处。
8.根据权利要求1或2所述的麦克风阵列信号处理系统,其中,所述波束形成算法被配置用于:
-从所述数字缓冲器检索所述第一数字音频信号的第三信号段的信号样本;所述第三信号段位于所述第一数字音频信号的所述第一信号段之后;并且
-从所述数字缓冲器检索所述第二数字音频信号的第三信号段的信号样本;所述第二数字音频信号的所述第三信号段位于所述第二数字音频信号的所述第一信号段之后;
-将所述第一组固定波束形成器系数应用于所述第一数字音频信号的所述第三信号段和所述第二数字音频信号的所述第三信号段。
9.根据权利要求1或2所述的麦克风阵列信号处理系统,其中,所述数字缓冲器包括第一循环缓冲器和第二循环缓冲器,所述第一循环缓冲器和所述第二循环缓冲器被配置用于连续存储所述第一数字音频信号和所述第二数字音频信号的表示所述第一数字音频信号和所述第二数字音频信号中的每一个的至少1秒的持续时间的相应样本。
10.根据权利要求1或2所述的麦克风阵列信号处理系统,其中,所述麦克风阵列包括连接到所述信号输入端的一个或多个附加麦克风。
11.根据权利要求1或2所述的麦克风阵列信号处理系统,其中,所述噪声统计是噪声协方差矩阵Svv(k)。
12.根据权利要求5所述的麦克风阵列信号处理系统,其中,所述预定的时间段是大于200毫秒的时间段。
13.根据权利要求9所述的麦克风阵列信号处理系统,其中,所述持续时间是至少2秒、至少3秒或至少4秒。
14.根据权利要求1所述的麦克风阵列信号处理系统,其中,所述第一数字音频信号的所述第一信号段和所述第二数字音频信号的所述第一信号段中的每一个表示超过500毫秒的实时时段。
15.一种处理麦克风阵列信号的方法,包括以下步骤:
a)将表示由麦克风阵列的第一麦克风接收的第一声学信号的第一数字音频信号存储在数字缓冲器中,
b)将表示由第二麦克风接收的第二声学信号的第二数字音频信号存储在所述数字缓冲器中,其中,所述第二声学信号与所述第一声学信号同时被接收,
c)通过至少分析保持在所述数字缓冲器中的所述第一数字音频信号以生成或接收第一语音触发输入,所述第一语音触发输入指示所述数字缓冲器中保持所述第一数字音频信号的第一语音特征的第一信号段,
d)响应于所述第一语音触发输入,基于所述第一数字音频信号的第一信号段以及与所述第一数字音频信号的所述第一信号段时间对准的所述第二数字音频信号的第一信号段来确定噪声统计,
e)基于所述噪声统计来计算波束形成算法的第一组固定波束形成器系数,
f)从所述数字缓冲器至少检索所述第一数字音频信号的所述第一信号段和所述第二数字音频信号的所述第一信号段,
g)将所述波束形成算法应用于所述第一数字音频信号的所述第一信号段和所述第二数字音频信号的所述第一信号段,以产生噪声减小的数字音频信号。
16.根据权利要求15所述的处理麦克风阵列信号的方法,进一步包括以下步骤:
h)从所述数字缓冲器清除所述第一数字音频信号和所述第二数字音频信号,
i)从所述第一麦克风接收第三数字音频信号并从所述麦克风阵列的所述第二麦克风接收第四数字音频信号,
j)将所述第三数字音频信号和所述第四数字音频信号存储在所述数字缓冲器中,
k)接收第二语音触发输入,所述第二语音触发输入指示所述数字缓冲器中的所述第三数字音频信号的保持语音特征的第二信号段,
l)响应于所述第二语音触发输入,基于所述第三数字音频信号的所述第二信号段以及与所述第三数字音频信号的所述第二信号段时间对准的所述第四数字音频信号的第二信号段来确定噪声统计,
m)清除所述第一组固定波束形成器系数,
n)由系数计算器基于所述第三数字音频信号的所述第二信号段、所述第四数字音频信号的所述第二信号段以及所确定的噪声统计,来计算第二组固定波束形成器系数,以及
o)从所述数字缓冲器检索所述第三数字音频信号的所述第二信号段和所述第四数字音频信号的所述第二信号段,
p)将所述第二组固定波束形成器系数应用于所述第三数字音频信号的所述第二信号段和所述第四数字音频信号的所述第二信号段,以产生第二个噪声减小的数字音频信号。
17.根据权利要求15或16所述的处理麦克风阵列信号的方法,进一步包括:
-从所述数字缓冲器检索所述第一数字音频信号的第二信号段或所述第二数字音频信号的第二信号段的信号样本;所述第一数字音频信号或所述第二数字音频信号的所述第二信号段在时间上在所述第一数字音频信号的所述第一信号段之前;并且
-基于所述第一数字音频信号的所述第一信号段以及所述第一数字音频信号的所述第二信号段或所述第二数字音频信号的所述第二信号段来确定所述噪声统计。
18.根据权利要求15或16所述的处理麦克风阵列信号的方法,其中,所述第一数字音频信号的所述第一信号段表示超过500毫秒的对应声学信号的时间段。
19.根据权利要求16所述的处理麦克风阵列信号的方法,进一步包括:
-通过清除或重写所述第一数字音频信号和所述第二数字音频信号的最旧样本而连续地将所述第一数字音频信号的当前样本和所述第二数字音频信号的当前样本存储在所述数字缓冲器中,以创建第一循环数字缓冲器和第二循环数字缓冲器。
20.根据权利要求16所述的处理麦克风阵列信号的方法,进一步包括:
-识别所述数字缓冲器的所述第一数字音频信号和所述第二数字音频信号中的至少一个的第一信号段的结束位置,
-从所述数字缓冲器检索所述第一数字音频信号的布置在所述第一信号段的结束位置之后的第三信号段的信号样本;以及
-从所述数字缓冲器检索所述第二数字音频信号的布置在所述第一信号段的结束位置之后的第三信号段的信号样本;
-将所述第一组固定波束形成器系数应用于所述第一数字音频信号的第三信号段和所述第二数字音频信号的第三信号段,以产生表示所述第一数字音频信号和所述第二数字音频信号的所述第三信号段的进一步噪声减小的数字音频信号。
21.根据权利要求17所述的处理麦克风阵列信号的方法,其中,所述波束形成算法专门应用于所述数字缓冲器的所述第一数字音频信号和所述第二数字音频信号的所述第一信号段和所述第二信号段、以及能够选择地包括语音特征的另外的信号段,以产生噪声减小的数字音频信号。
22.根据权利要求15所述的处理麦克风阵列信号的方法,其中,所述噪声统计是噪声协方差矩阵Svv(k)。
23.根据权利要求18所述的处理麦克风阵列信号的方法,其中,所述第一数字音频信号的所述第一信号段表示超过1秒的对应声学信号的时间段。
24.根据权利要求23所述的处理麦克风阵列信号的方法,其中,所述第一数字音频信号的所述第一信号段表示超过4秒的对应声学信号的时间段。
25.根据权利要求15所述的处理麦克风阵列信号的方法,其中,所述第一数字音频信号的所述第一信号段和所述第二数字音频信号的所述第一信号段中的每一个表示超过500毫秒的实时时段。
CN201680061020.7A 2015-08-19 2016-07-18 麦克风阵列信号处理系统 Active CN108464015B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP15181534.7 2015-08-19
EP15181534 2015-08-19
PCT/EP2016/067078 WO2017029044A1 (en) 2015-08-19 2016-07-18 Microphone array signal processing system

Publications (2)

Publication Number Publication Date
CN108464015A CN108464015A (zh) 2018-08-28
CN108464015B true CN108464015B (zh) 2020-11-20

Family

ID=53886964

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201680061020.7A Active CN108464015B (zh) 2015-08-19 2016-07-18 麦克风阵列信号处理系统

Country Status (4)

Country Link
US (1) US10412488B2 (zh)
EP (1) EP3338461B1 (zh)
CN (1) CN108464015B (zh)
WO (1) WO2017029044A1 (zh)

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10789949B2 (en) * 2017-06-20 2020-09-29 Bose Corporation Audio device with wakeup word detection
JP6633579B2 (ja) * 2017-07-31 2020-01-22 日本電信電話株式会社 音響信号処理装置、方法及びプログラム
US10304475B1 (en) * 2017-08-14 2019-05-28 Amazon Technologies, Inc. Trigger word based beam selection
US10916252B2 (en) 2017-11-10 2021-02-09 Nvidia Corporation Accelerated data transfer for latency reduction and real-time processing
US20190267009A1 (en) * 2018-02-27 2019-08-29 Cirrus Logic International Semiconductor Ltd. Detection of a malicious attack
JP7186375B2 (ja) * 2018-03-29 2022-12-09 パナソニックIpマネジメント株式会社 音声処理装置、音声処理方法および音声処理システム
US10957338B2 (en) * 2018-05-16 2021-03-23 Synaptics Incorporated 360-degree multi-source location detection, tracking and enhancement
US10575085B1 (en) 2018-08-06 2020-02-25 Bose Corporation Audio device with pre-adaptation
KR20200043642A (ko) * 2018-10-18 2020-04-28 삼성전자주식회사 동작 상태에 기반하여 선택한 마이크를 이용하여 음성 인식을 수행하는 전자 장치 및 그의 동작 방법
TWI713016B (zh) * 2019-01-03 2020-12-11 瑞昱半導體股份有限公司 語音偵測處理系統與語音偵測方法
US11380312B1 (en) * 2019-06-20 2022-07-05 Amazon Technologies, Inc. Residual echo suppression for keyword detection
EP3991450A1 (en) * 2019-06-28 2022-05-04 Snap Inc. Dynamic beamforming to improve signal-to-noise ratio of signals captured using a head-wearable apparatus
CN110677786B (zh) * 2019-09-19 2020-09-01 南京大学 一种用于提升紧凑型声重放系统空间感的波束形成方法
US10951981B1 (en) * 2019-12-17 2021-03-16 Northwestern Polyteclmical University Linear differential microphone arrays based on geometric optimization
US11862189B2 (en) 2020-04-01 2024-01-02 Qualcomm Incorporated Method and apparatus for target sound detection
US11398241B1 (en) * 2021-03-31 2022-07-26 Amazon Technologies, Inc. Microphone noise suppression with beamforming
CN113900617B (zh) * 2021-08-03 2023-12-01 钰太芯微电子科技(上海)有限公司 具有声线接口的麦克风阵列系统及电子设备
US11741934B1 (en) 2021-11-29 2023-08-29 Amazon Technologies, Inc. Reference free acoustic echo cancellation

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102111697A (zh) * 2009-12-28 2011-06-29 歌尔声学股份有限公司 一种麦克风阵列降噪控制方法及装置
CN103000185A (zh) * 2011-09-30 2013-03-27 斯凯普公司 处理信号
CN103632675A (zh) * 2012-08-24 2014-03-12 奥迪康有限公司 个人通信中降噪和回波消除时的噪声估计
CN104703106A (zh) * 2013-12-06 2015-06-10 奥迪康有限公司 用于免提通信的助听器装置

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8385557B2 (en) * 2008-06-19 2013-02-26 Microsoft Corporation Multichannel acoustic echo reduction
JP2012150237A (ja) * 2011-01-18 2012-08-09 Sony Corp 音信号処理装置、および音信号処理方法、並びにプログラム
US10229697B2 (en) * 2013-03-12 2019-03-12 Google Technology Holdings LLC Apparatus and method for beamforming to obtain voice and noise signals
US9111548B2 (en) * 2013-05-23 2015-08-18 Knowles Electronics, Llc Synchronization of buffered data in multiple microphones
US10013981B2 (en) * 2015-06-06 2018-07-03 Apple Inc. Multi-microphone speech recognition systems and related techniques

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102111697A (zh) * 2009-12-28 2011-06-29 歌尔声学股份有限公司 一种麦克风阵列降噪控制方法及装置
CN103000185A (zh) * 2011-09-30 2013-03-27 斯凯普公司 处理信号
CN103632675A (zh) * 2012-08-24 2014-03-12 奥迪康有限公司 个人通信中降噪和回波消除时的噪声估计
CN104703106A (zh) * 2013-12-06 2015-06-10 奥迪康有限公司 用于免提通信的助听器装置

Also Published As

Publication number Publication date
US10412488B2 (en) 2019-09-10
WO2017029044A1 (en) 2017-02-23
EP3338461A1 (en) 2018-06-27
EP3338461B1 (en) 2020-12-16
US20180249246A1 (en) 2018-08-30
CN108464015A (zh) 2018-08-28

Similar Documents

Publication Publication Date Title
CN108464015B (zh) 麦克风阵列信号处理系统
Parchami et al. Recent developments in speech enhancement in the short-time Fourier transform domain
CN111418010B (zh) 一种多麦克风降噪方法、装置及终端设备
US10482896B2 (en) Multi-band noise reduction system and methodology for digital audio signals
US9173025B2 (en) Combined suppression of noise, echo, and out-of-location signals
CN111489760B (zh) 语音信号去混响处理方法、装置、计算机设备和存储介质
JP6014259B2 (ja) ノイズ削減利得の百分位数フィルタリング
EP2673777B1 (en) Combined suppression of noise and out-of-location signals
US8712074B2 (en) Noise spectrum tracking in noisy acoustical signals
JP7324753B2 (ja) 修正された一般化固有値ビームフォーマーを用いた音声信号のボイス強調
CN108447496B (zh) 一种基于麦克风阵列的语音增强方法及装置
US20140025374A1 (en) Speech enhancement to improve speech intelligibility and automatic speech recognition
CN111554315B (zh) 单通道语音增强方法及装置、存储介质、终端
JP2004502977A (ja) サブバンド指数平滑雑音消去システム
CN108172231A (zh) 一种基于卡尔曼滤波的去混响方法及系统
CN110675887B (zh) 一种用于会议系统的多麦克风切换方法和系统
US20190267018A1 (en) Signal processing for speech dereverberation
EP3275208B1 (en) Sub-band mixing of multiple microphones
US10937418B1 (en) Echo cancellation by acoustic playback estimation
US11380312B1 (en) Residual echo suppression for keyword detection
EP2774147B1 (en) Audio signal noise attenuation
Bhat et al. Formant frequency-based speech enhancement technique to improve intelligibility for hearing aid users with smartphone as an assistive device
EP2063420A1 (en) Method and assembly to enhance the intelligibility of speech
WO2017193551A1 (zh) 多声道信号的编码方法和编码器
Yong et al. Incorporating multi-channel Wiener filter with single-channel speech enhancement algorithm

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP01 Change in the name or title of a patent holder

Address after: Denmark spirit ratio

Patentee after: NXP semiconductor Denmark Co.,Ltd.

Address before: Denmark spirit ratio

Patentee before: RETUNE DSP APS

CP01 Change in the name or title of a patent holder