CN112075088A - 信号处理装置、信号处理方法、程序 - Google Patents

信号处理装置、信号处理方法、程序 Download PDF

Info

Publication number
CN112075088A
CN112075088A CN201980029602.0A CN201980029602A CN112075088A CN 112075088 A CN112075088 A CN 112075088A CN 201980029602 A CN201980029602 A CN 201980029602A CN 112075088 A CN112075088 A CN 112075088A
Authority
CN
China
Prior art keywords
microphones
voice
signal processing
unit
noise
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201980029602.0A
Other languages
English (en)
Other versions
CN112075088B (zh
Inventor
立石和也
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Publication of CN112075088A publication Critical patent/CN112075088A/zh
Application granted granted Critical
Publication of CN112075088B publication Critical patent/CN112075088B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/005Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/20Arrangements for obtaining desired frequency or directional characteristics
    • H04R1/32Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
    • H04R1/40Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers
    • H04R1/406Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers microphones
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2201/00Details of transducers, loudspeakers or microphones covered by H04R1/00 but not provided for in any of its subgroups
    • H04R2201/40Details of arrangements for obtaining desired directional characteristic by combining a number of identical transducers covered by H04R1/40 but not provided for in any of its subgroups
    • H04R2201/4012D or 3D arrays of transducers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2410/00Microphones
    • H04R2410/05Noise reduction with a separate noise microphone
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2430/00Signal processing covered by H04R, not provided for in its groups
    • H04R2430/20Processing of the output signals of the acoustic transducers of an array for obtaining a desired directivity characteristic

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Otolaryngology (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

本发明的目的是防止在多个麦克风的位置改变时语音提取性能的劣化。属于本发明的信号处理装置设置有语音提取单元,用于从来自多个麦克风的信号中提取语音。当多个麦克风的位置改变成其他麦克风先前所处的位置时,语音提取单元将来自多个麦克风的每个信号用作来自其他麦克风的信号。结果,可以消除每个麦克风的位置改变对语音提取的影响。

Description

信号处理装置、信号处理方法、程序
技术领域
本技术涉及一种用于执行从多个麦克风的信号中提取例如话音声音等的语音提取的信号处理装置、其方法和程序。
背景技术
近年来,随着机器人技术和人工智能(AI)的发展,越来越多的装置变得能够与人交谈或自己移动它们的身体。为了识别人类的语音,需要假设各种使用环境,并且尽可能地抑制噪声。因此,由布置有多个麦克风的麦克风阵列收集声音,并且通过使用空间信息的信号处理来抑制噪声。
例如,下面的专利文献1公开了一种技术,该技术使用通过计算由麦克风阵列收集的信号而获得的相关矩阵来估计说话人的方向,并且在所估计的方向上强调语音,以便实现准确的语音提取,从而提高语音识别的准确性。
现有技术文献
专利文献
专利文献1:日本专利申请公开号2001-337694
发明内容
本发明要解决的问题
在此处,在诸如机器人的装置当中,使一些装置在检测到语音时面向所估计的话音方向。然后,作为这样的装置,还假设了其中麦克风阵列中的每个麦克风的位置在面向话音方向时改变的装置。在这种装置中,在面对话音方向时,已经学习的噪声特性信息(具体地,空间噪声方向信息)与相应麦克风之间的位置关系崩溃,并且不能再使用已经依次学习过的噪声特性信息。
在这种情况下,可以设想在每个麦克风移位之后再次学习噪声特性信息,但是用户的下一个话音可能在装置转向至话音方向之后立即发生。在这种情况下,不能确保足够的学习时间,结果,噪声抑制性能劣化,并且存在不能执行适当的语音提取的可能性。
鉴于上面的问题而提出本技术,并且其目的是为了防止当多个麦克风的位置改变时语音提取性能的劣化。
问题的解决方案
根据本技术的信号处理装置包括语音提取单元,该语音提取单元从多个麦克风的信号中执行语音提取,其中,当多个麦克风的相应位置改变为曾经存在有其他麦克风的位置时,语音提取单元将多个麦克风的相应信号用作其他麦克风的信号。
因此,可以消除相应麦克风的位置的改变对语音提取的影响。
在根据上述本技术的信号处理装置中,期望语音提取单元通过对多个麦克风的信号进行信道移位,而将多个麦克风的相应信号用作其他麦克风的信号。
例如,信道移位可以通过简单的方法来实现,该方法诸如,向每个麦克风的信号给出标识符,该标识符指示用哪个处理信道来处理信号。
在根据上述本技术的信号处理装置中,期望语音提取单元基于布置在圆周上的多个麦克风的信号来执行语音提取。
由于基于布置在圆周上的相应麦克风的信号来执行语音提取,所以语音提取性能得到改善,因为无论声源方向是哪个方向,都可以进行语音提取。
在根据上述本技术的信号处理装置中,期望语音提取单元基于根据多个麦克风的信号而学习的噪声特性来执行语音提取。
因此,可以基于噪声分量受抑制的信号来执行语音提取。
在根据上述本技术的信号处理装置中,期望语音提取单元在多个麦克风的位置改变时,暂停噪声特性的学习。
因此,可以防止在改变麦克风位置之前已经学习的噪声特性信息由于改变位置期间的学习而改变。
在根据上述本技术的信号处理装置中,期望语音提取单元基于位置改变后的麦克风的位置与曾经存在有其他麦克风的位置之间的误差大小来确定是否执行信道移位。
因此,即使在位置改变之后的麦克风的位置与曾经存在有其他麦克风的位置不是完全相同的位置,如果其间的位置误差小,也可以使用信道移位来执行语音提取。
在根据上述本技术的信号处理装置中,期望语音提取单元在多个麦克风的位置改变为与曾经存在有其他麦克风的位置不同的位置的情况下,基于过去学习的噪声特性来执行语音提取。
因此,即使多个麦克风的位置改变为与曾经存在有其他麦克风的位置不同的位置,也可以基于在过去的位置处学习的噪声特性来执行语音提取。
在根据上述本技术的信号处理装置中,期望语音提取单元在基于过去学习的噪声特性的语音提取中,根据时间的流逝降低过去学习的噪声特性的反映程度,并且根据时间的流逝增加正在学习的噪声特性的反映程度。
因此,即使噪声特性自过去学习以来已经改变,也可以根据当前噪声特性执行适当的语音提取。
在根据上述本技术的信号处理装置中,期望语音提取单元在麦克风信号的当前信号区间被视为话音区间时,在学习期间不增加噪声特性的反映程度。
如果在话音区间中学习噪声特性,则噪声特性的准确度劣化,因此在话音区间中不执行噪声特性的学习。因此,增加在话音区间中学习的噪声特性的反映程度是没有意义的。
此外,根据本技术的信号处理方法包括从多个麦克风的信号中执行语音提取的语音提取步骤,其中,在语音提取步骤中,当多个麦克风的相应位置改变为曾经存在有其他麦克风的位置时,多个麦克风的相应信号用作其他麦克风的信号。
即使使用这种信号处理方法,也可以获得与根据上述本技术的信号处理装置的操作和效果类似的操作和效果。
此外,根据本技术的程序是由从多个麦克风的信号中执行语音提取的信息处理装置执行的程序,该程序使信息处理装置实现以下功能:当多个麦克风的相应位置改变为曾经存在有其他麦克风的位置时,多个麦克风的相应信号用作其他麦克风的信号。
通过根据本技术的这种程序实现上述根据本技术的信号处理装置。
本发明的效果
根据本技术,在多个麦克风的位置改变的情况下,可以防止语音提取性能的劣化。
注意,此处描述的效果不必受到限制,并且可以是本公开中描述的任何效果。
附图说明
图1是示出作为根据本技术的实施例的信号处理装置的外观配置示例的透视图。
图2是作为实施例的信号处理装置中所包括的麦克风阵列的说明图。
图3是用于解释作为第一实施例的信号处理装置的电气配置示例的框图。
图4是示出作为第一实施例的信号处理装置中所包括的语音信号处理单元的内部配置示例的框图。
图5是示出作为第一实施例的信号处理装置中所包括的话音方向估计单元的内部配置示例的框图。
图6是用于解释作为实施例的信号处理装置的操作的流程图。
图7是实施例中的话音方向估计处理的流程图。
图8是例示通过标准MUSIC方法的空间谱的特性的图。
图9是例示通过使用广义特征值分解的MUSIC方法的空间谱的特性的图。
图10是与相应麦克风的位置变化相关联的问题的说明图。
图11是用空间谱表示图10所示的问题的图。
图12是示出信道移位的示例的图。
图13是用于解释信道移位的效果的图。
图14是示出为实现作为第一实施例的信号处理方法而要执行的具体处理过程的流程图。
图15是示出旋转角的示例的图。
图16是位置误差的说明图。
图17是示出矩阵表的示例的图。
图18是示出作为第二实施例的信号处理装置中所包括的语音信号处理单元的内部配置示例的框图。
图19是示出作为第二实施例的信号处理装置中所包括的话音方向估计单元的内部配置示例的框图。
图20是示出为实现作为第二实施例的信号处理方法而要执行的具体处理过程的流程图。
图21是示出作为修改例的麦克风设置示例的图。
具体实施方式
在下文中,将参考附图以以下顺序描述根据本技术的实施例。
<1.第一实施例>
[1-1.信号处理装置的外观配置]
[1-2.信号处理装置的电气配置]
[1-3.信号处理装置的操作]
[1-4.作为实施例的信号处理方法]
[1-5.处理方法]
<2.第二实施例>
[2-1.作为第二实施例的信号处理方法]
[2-2.信号处理装置的电气配置]
[2-3.处理过程]
<3.修改例>
<4.实施例的概述>
<5.本技术>
<1.第一实施例>
[1-1.信号处理装置的外观配置]
图1是示出作为根据本技术的实施例的信号处理装置1的外观配置示例的透视图。
如所示的,信号处理装置1包括大致柱状的壳体11和位于壳体11上方的大致柱状的可移动单元14。
可移动单元14由壳体11支撑,从而可沿由图中的轮廓双箭头指示的方向旋转(摇摄方向上的旋转)。例如,壳体11在放置在预定位置(诸如,桌子或地板)上的状态下,不与可移动单元14一起旋转,并且形成为所谓的固定部分。
可移动单元14由伺服马达21(稍后参考图3描述)旋转驱动,该伺服马达21作为驱动单元并入在信号处理装置1中。
麦克风阵列12设置在可移动单元14的下端。
如图2所示,麦克风阵列12通过在圆周上以基本相等的间隔设置多个(在图2的示例中为八个)麦克风13来配置。
此外,显示单元15(例如,液晶显示器(LCD)、有机电致发光(EL)显示器等)设置在可移动单元14中且在麦克风阵列12上方。在该示例中,一面部图片显示在显示单元15上,并且表示面部面向的方向是信号处理装置1的正面方向。如稍后将描述的,例如,可移动单元14旋转,使得显示单元15面向话音方向。
此外,在可移动单元14中,扬声器16容纳在显示单元15的背面。扬声器16向用户输出声音(诸如,消息)。
如上所述的信号处理装置1设置在例如空间100(例如,房间)中。
信号处理装置1并入在例如智能扬声器、语音代理、机器人等中,并且具有在语音从周围声源(例如,人)发出时估计语音的话音方向的功能。所估计的方向用于将信号处理装置1的正面朝向引导话音方向。
[1-2.信号处理装置的电气配置]
图3是用于解释信号处理装置1的电气配置示例的框图。
如所示出,信号处理装置1包括语音信号处理单元17、控制单元18、显示驱动单元19、马达驱动单元20和语音驱动单元22以及图1中描述的麦克风阵列12、显示单元15和扬声器16。
语音信号处理单元17可以包括例如数字信号处理器(DSP)、或具有中央处理单元(CPU)的计算机装置等,并且处理来自麦克风阵列12中的每个麦克风13的信号。
语音信号处理单元17包括信道移位单元17a和语音提取处理单元17b,并且来自相应麦克风13的信号经由信道移位单元17a输入到语音提取处理单元17b。
语音提取处理单元17b通过基于相应麦克风13的信号估计话音方向、强调目标声音的信号并抑制噪声,来执行目标声音的提取(语音提取)。语音提取处理单元17b将作为通过提取目标声音而获得的信号的所提取的语音信号Se输出到控制单元18。此外,语音提取处理单元17b将指示所估计的话音方向的信息作为话音方向信息Sd输出到控制单元18。
注意,稍后将再次描述信道移位单元17a和语音提取处理单元17b的细节。
控制单元18包括具有例如CPU、只读存储器(ROM)、随机存取存储器(RAM)等的微型计算机,并且通过根据存储在ROM中的程序执行处理来执行对信号处理装置1的整体控制。
例如,控制单元18执行与通过显示单元15进行的信息的显示相关的控制。具体地,向具有用于驱动显示单元15的驱动电路的显示驱动单元19给出指令,以使显示单元15执行各种类型信息的显示。
此外,该示例的控制单元18包括未示出的语音识别引擎,并且通过该语音识别引擎基于从语音信号处理单元17(语音提取处理单元17b)输入的所提取的语音信号Se来执行语音识别处理,并且还基于语音识别处理的结果确定要执行的处理。
注意,在控制单元18经由互联网等连接到云60并且在云60中存在语音识别引擎的情况下,语音识别引擎可以用于执行语音识别处理。
此外,当控制单元18伴随语音检测从语音信号处理单元17接收关于话音方向信息Sd的输入时,控制单元18计算将信号处理装置1的正面引导至话音方向所需的伺服马达21的旋转角,并且将指示旋转角的信息作为旋转角信息Sr输出到马达驱动单元20。
马达驱动单元20包括用于驱动伺服马达21的驱动电路等,并且基于从控制单元18输入的旋转角信息Sr驱动伺服马达21。
此外,控制单元18控制扬声器16输出的声音。具体地,控制单元18将语音信号输出至语音驱动单元22,并使扬声器16根据语音信号执行语音输出,该语音驱动单元22包括用于驱动扬声器16的驱动电路(放大器等)。
注意,在下文中,以这种方式由控制单元18输出到语音驱动单元22的语音信号将被称为“输出语音信号Ss”。
在此处,输出语音信号Ss也输出到语音信号处理单元17中的语音提取处理单元17b,以用于稍后描述的回声消除。
图4是示出语音信号处理单元17的内部配置示例的框图。
如所示出,语音信号处理单元17包括图3所示的信道移位单元17a和语音提取处理单元17b,并且语音提取处理单元17b包括回声消除器30、语音强调单元31、话音方向估计单元32、话音区间估计单元33和噪声去除单元34。
回声消除器30基于输出语音信号Ss执行用于消除来自每个麦克风13的信号中所包括的回声分量的处理。即,从扬声器16输出的语音可能会被延迟预定时间,并且然后在与其他声音混合的状态下被麦克风阵列12拾取作为回声。回声消除器30使用输出语音信号Ss作为参考信号,并执行处理,以便消除来每个麦克风13的信号中的回声分量。
话音区间估计单元33基于经由回声消除器30的每个麦克风13的信号来执行估计话音区间(时间方向上的话音区间)的处理,并且将作为指示话音区间的信息的话音区间信息Sp输出到话音方向估计单元32和语音强调单元31。
注意,各种方法(例如,使用人工智能(AI)技术(诸如,深度学习)等的方法)可以被认为是用于估计话音区间的具体方法,并且该方法不限于具体方法。
话音方向估计单元32基于从回声消除器30输入的每个麦克风13的信号和话音区间信息Sp来估计话音方向。话音方向估计单元32输出指示所估计的话音方向的信息作为话音方向信息Sd。
注意,稍后将再次描述话音方向估计单元32的内部配置示例和话音方向估计处理。
语音强调单元31基于由话音方向估计单元32输出的话音方向信息Sd和由话音区间估计单元33输出的话音区间信息Sp,强调经由回声消除器30的每个麦克风13的信号中所包括的信号分量当中的与目标声音(此处是话音声音)相对应的信号分量。具体地,通过波束形成来执行强调存在于话音方向上的声源分量的处理。
噪声抑制单元34抑制包括在语音强调单元31的输出信号中的噪声分量(主要是静态噪声分量)。
来自噪声抑制单元34的输出信号作为上述提取的语音信号Se从语音提取处理单元17b输出。
图5是示出话音方向估计单元32的内部配置示例的框图。
话音方向估计单元32包括频率转换单元40、语音相关矩阵计算单元41、噪声相关矩阵计算单元42、特征值分解单元43、频率权重计算单元44、传递函数存储单元45、空间谱计算单元46、频率信息积分单元47、阈值更新单元48和峰值检测单元49。
该配置与基于所谓的多信号分类(MUSIC)方法的声源方向估计方法相对应,并且具体地被配置为通过GEVD-MUSIC方法执行话音方向估计。在此处,广义特征值分解(GEVD)是指广义特征值分解,GEVD-MUSIC方法也被称为使用广义特征值分解的MUSIC方法。
频率转换单元40例如通过诸如快速傅立叶变换(FFT)或离散余弦变换(DCT)的正交转换,将经由回声消除器30输入的来自每个麦克风13的信号(时间信号)转换成频率信号。
在以下配置中,针对在频域中的每个频率的信号的相关矩阵获得特征值和特征向量。
语音相关矩阵计算单元41针对在时间方向上的每个处理单元(帧)计算每个频率的目标信号的相关矩阵。噪声相关矩阵计算单元42针对每个帧计算每个频率的噪声信号的相关矩阵。
在此处,帧的长度可以是例如大约32ms,并且帧移位可以是例如10ms。
特征值分解单元43计算相关矩阵的特征值和特征向量。频率权重计算单元44针对每个频率计算表示空间谱的贡献度的频率权重。在此处,当从某个方向传来声音时,特征值的分布有偏差,并且仅与声源数量相对应的特征值增加。
传递函数存储单元45存储预定的传递函数向量。空间谱计算单元46使用与信号处理装置1在摇摄方向上的旋转角(以下称为“水平角θ”)相关的特征向量和传递函数向量,来计算表示来自水平角θ的方向的传入声音的程度的空间谱。频率信息积分单元47基于频率权重对空间谱进行积分。
阈值更新单元48计算用于确定是否采用空间谱的峰值作为检测结果的阈值。峰值检测单元49检测具有超过阈值的峰值的空间谱的方向(水平角θ)。因此,检测到话音声音到达的方向(即话音方向)。从话音方向估计单元32输出指示该话音方向的信息作为话音方向信息Sd。
[1-3.信号处理装置的操作]
接下来,将参考图6中的流程图描述信号处理装置1的操作。在图6中,首先,在步骤S1,麦克风阵列12输入声音。即,输入由说话人产生的声音。
在步骤S2,话音方向估计单元32执行话音方向估计处理。注意,稍后将参考图7描述话音方向估计处理的细节。
在步骤S3,语音强调单元31强调信号。即,强调在被估计为话音方向的方向上的语音分量。
在接下来的步骤S4中,噪声抑制单元73抑制噪声分量,以提高信噪比(SNR)。
在步骤S5中,控制单元18(或存在于云60中的外部语音识别引擎)执行识别语音的处理。即,基于从语音信号处理单元17输入的所提取的语音信号Se来执行识别语音的处理。注意,识别结果会根据需要转换为文本。
在步骤S6,控制单元18确定操作。即,确定与所识别的语音内容相对应的动作。然后,在步骤S7中,控制单元18控制马达驱动单元20以通过伺服马达21驱动可移动单元14。
此外,在步骤S8中,控制单元18使语音驱动单元22将语音从扬声器16输出。
因此,例如,当从说话人那里识别出诸如“嗨”的问候时,可移动单元14在说话人的方向上旋转,并且诸如“嗨,你好吗?”的问候从扬声器16发送至说话人。
图7是话音方向估计处理的流程图。
注意,在该图中,假设频率转换单元40已执行频率转换。
在图7中,首先,在步骤S101中,语音相关矩阵计算单元41计算语音空间相关矩阵。语音空间相关矩阵是针对每个帧表示每个频率的目标声音的信号的空间偏差的相关矩阵,并且该矩阵的每个元素表示每个麦克风13的信号的相关性。
在此处,基于以下[公式1]计算语音空间相关矩阵。注意,在[公式1]中,TR表示用于计算相关矩阵的帧长度,并且向量zω,τ表示帧τ中具有频率ω的信号。H表示厄米特(Hermitian)转置。
[数学公式1]
Figure BDA0002754214250000111
在下一步骤S102中,噪声相关矩阵计算单元42计算噪声空间相关矩阵。噪声空间相关矩阵是针对每个帧表示每个频率的噪声信号的空间偏差的相关矩阵,并且基于以下[公式2]来计算。
[数学公式2]
Figure BDA0002754214250000112
在[公式2]中,TK表示用于计算相关矩阵的帧长度,并且Δt用于防止公共帧的信号用于[公式1]中的Rω,τ和[公式2]中的Kω,τ。αω,τ是权重并且通常可以是“1”,但是如果期望根据声源的类型改变权重,则可以如[公式3]一样防止所有权重变成“0”。
[数学公式3]
Figure BDA0002754214250000113
根据[公式3],噪声相关矩阵计算单元42基于应用了过去权重的噪声空间相关矩阵,依次更新应用了权重的噪声空间相关矩阵,该噪声空间相关矩阵是特征值分解单元43在后续阶段进行的广义特征值分解的目标。利用这样的更新公式,可以长时间使用静态噪声分量。此外,如果权重是0到1的连续值,则权重积分计数变大,并且权重在噪声空间相关矩阵上朝着过去变小,并因此施加在静态噪声分量上的权重朝着最近时间变大。因此,可以在较大权重被施加至最近时间的静态噪声分量的状态下计算噪声空间相关矩阵,该最近时间的静态噪声分量被认为接近目标声音背景中的静态噪声分量。
在步骤S103中,特征值分解单元43执行特征值分解。即,执行基于从噪声相关矩阵计算单元42提供的加权噪声空间相关矩阵和从语音相关矩阵计算单元41提供的语音空间相关矩阵的广义特征值分解。
例如,从下面的[公式4]计算特征值和特征向量。
[数学公式4]
Figure BDA0002754214250000121
在[公式4]中,λi是通过广义特征值分解而获得的第i个最大特征值向量,ei是与λi对应的特征向量,并且M是麦克风13的数量。
在广义特征值分解的情况下,使用满足以下[公式5]的矩阵
Figure BDA0002754214250000124
将[公式4]转换成[公式6]和[公式7]。因此,从[公式6]和[公式7]获得特征值和特征向量。
[数学公式5]
Figure BDA0002754214250000122
Figure BDA0002754214250000123
fω,t,i=Φω,teω,t,i...[公式7]
[公式6]中的Φ-Hω,t是白化矩阵,并且在[公式6]的左侧的括号中,Rω,t用静态噪声分量白化(即从其中去除静态噪声分量)。
在步骤S104中,空间谱计算单元46基于以下[公式8]和[公式9]计算空间谱Pn ω,θ,t。即,空间谱计算单元46使用与从较小特征值开始的M-N个特征值相对应的特征向量ei和转向向量aθ来计算空间谱Pn ω,θ,t,该空间谱表示来自方向θ(水平角θ)的声音到达的程度。
从特征值分解单元43供应特征向量ei
作为相对于方向θ的传递函数的转向向量aθ是预先假设声源存在于方向θ上而获得的传递函数,并且预先存储在传递函数存储单元45中。
[数学公式6]
Figure BDA0002754214250000131
Figure BDA0002754214250000132
注意,在[公式9]中,N表示声源的数量。
在步骤S105中,频率权重计算单元44针对每个频率计算表示空间谱的贡献度的频率权重。如上所述,在声音来自某个方向的情况下,特征值的分布有偏差,并且只有与声源数量相对应的特征值增加。例如,根据以下[公式10]计算频率权重wω,t。λi是由广义特征值分解得的第i个最大特征值,公式[10]中的分子的特征值表示最大特征值。
[数学公式7]
Figure BDA0002754214250000133
在步骤S106中,频率信息积分单元47根据下面的[公式11]和[公式12]针对每个频率计算空间谱的加权平均值P^n θ,t
从空间谱计算单元46供应空间谱Pn ω,θ,t,并且从频率权重计算单元44供应频率权重wω,t
[数学公式8]
Figure BDA0002754214250000134
Figure BDA0002754214250000135
注意,[公式12]的第二项是为了当θ’在参考用于计算空间谱的方向θ的预定的水平角范围内改变时,最小化[公式12]的
Figure BDA0002754214250000136
虽然在[公式11]的计算中获得了调和平均值,但是也可以获得算术平均值或几何平均值。通过[公式12]的计算,最小值被归一化为“0”,并且该计算中的对数的基数任意,但是可以使用例如纳皮尔常数(Napier’s constant)。[公式12]的计算具有这样的效果,即将后续阶段中的峰值检测单元49中的与声源无关的峰值抑制为等于或小于阈值。
接下来,在步骤S107中,阈值更新单元48计算阈值。即,在从频率信息积分单元47输出的空间谱的加权平均值P^n θ,t中,例如,根据下面的[公式13]和[公式14]来计算用于确定是否执行峰值检测的阈值Pth θ,t。αth、βth和γth中的每个都是常数,并且θ表示扫描方向的数量。
[数学公式9]
Figure BDA0002754214250000141
Figure BDA0002754214250000142
该阈值Pth θ,t具有这样的效果,即去除声源不在其方向上但具有小峰值的声音或者去除继续从某些方向发出的声音。目标声音通常是用于操作装置的简短命令或语音,并且假设不会持续很长时间。
接下来,在步骤S108中,峰值检测单元49检测峰值。即,在从频率信息积分单元47输出的空间谱的加权平均值P^n θ,t中,检测具有超过从阈值更新单元48输出的阈值Pth θ,t的峰值的值。然后,与具有检测到的峰值的空间谱的加权平均值P^n θ,t相对应的水平角θ被识别为话音方向。
在此处,将参考图8和图9描述空间谱的特性。
图8示出标准MUSIC方法的空间谱的特性。
在标准的MUSIC方法中,在具有一个声源的环境中,空间谱具有在声源方向(话音方向)上的水平角θ的位置处的尖峰。然而,在不断产生噪声的环境中(例如,如图8所示),峰值不仅可能出现在话音方向上,还可能出现在噪声方向上。此外,光谱可能失真,并且可能无法清楚地获得峰值。
因此,在本实施例中,通过使用广义特征值分解的MUSIC方法而不是标准MUSIC方法来执行声源方向估计。如参考上面的[公式6]所述,噪声通过广义特征值分解白化。因此,空间有色噪声可以被白化,并且因此如图9所示,当使用获得的新特征向量执行MUSIC方法时,可以从空间谱中抑制在噪声方向上的峰值,而不是话音方向上的峰值。
在使用广义特征值分解的MUSIC方法中,表示噪声空间相关矩阵的Kω,t由上面的[公式2]依次学习并更新。注意,在下文中,噪声空间相关矩阵的符号被简单地表示为“K”。
噪声空间相关矩阵K的学习估计使用环境中的噪声特性,并且例如,当诸如电视广播或无线电广播的声音不断发射时,在该方向上的噪声信息被存储在噪声空间相关矩阵K中。因此,在检测人的语音时,不太可能错误地检测到电视或无线电的方向。需要一定的时间来在噪声空间相关矩阵K中存储足够的信息。
在此处,话音方向估计单元32不学习由话音区间估计单元33估计出的话音区间中的噪声空间相关矩阵K。换言之,噪声空间相关矩阵K针对非话音区间学习。
[1-4.作为实施例的信号处理方法]
在此处,在上述信号处理装置1中,当用户讲话时,可移动单元14旋转以面向话音方向,但是此时,麦克风阵列12也一起旋转。因此,每个麦克风13在空间100中的位置改变,并且直到该点为止所学习的噪声空间相关矩阵K不能按原样使用。
这一点将参考图10进行描述。
如图10的A所示,例如,在噪声从诸如电视的静态噪声源产生的情况下,在使用广义特征值分解的MUSIC方法中,通过学习噪声空间相关矩阵K,如图10的B所示,可以抑制来自噪声源存在的方向上的分量(噪声分量)。然后,如图10的C所示,当用户的话音出现时,可以适当地提取用户的话音声音分量,而不受噪声方向上的分量的干扰。
然而,当可移动单元14旋转以面向话音方向时,要抑制的方向也会改变。图10的D示出要抑制的方向由于可移动单元14的旋转而指向说话用户的示例。在这种情况下,最初要强调的语音分量被作为抑制目标,并且来自噪声源的噪声分量不再被抑制。因此,不能正确检测话音声音分量,并且语音识别性能劣化。
图11是通过空间谱表示图10的A至图10的D的转变的图。
图11的A例示当噪声学习不足时的空间谱,并且在该状态下,峰值出现在噪声方向上。如图11的B所示,随着噪声学习的进行,抑制噪声方向上的峰值。在这种状态下,可以适当地检测用户的话音声音分量,而不受来自噪声源的噪声分量的干扰(对应于图10的B和图10的C)。
然后,如图10的D所示,当可移动单元14根据用户的话音旋转时,噪声抑制方向与声源方向彼此匹配。图11的C例示当噪声抑制方向和声源方向以这种方式彼此匹配时的空间谱。在这种情况下,不仅来自声源方向的分量被抑制,而且来自噪声源的噪声分量可能不再被抑制,并且存在如所示出的在噪声方向上出现峰值的可能性。即,可能错误地强调噪声。从这些点来看,存在不能正确地检测到用户的话音声音分量的可能性。
因此,在本实施例中,为了防止噪声抑制方向由于可移动单元14的旋转而改变,提供了图3和图4所示的信道移位单元17a。
对于来自麦克风13的信号,信道移位单元17a基于旋转角信息Sr改变信号输入信道mCH与通过语音提取处理单元17b的处理信道pCH之间的对应关系。
在本实施例中,执行可移动单元14的旋转,使得每个麦克风13在旋转之后的位置与在旋转之前曾经存在有另一麦克风13的位置相匹配。即,如果麦克风阵列12包括以相等间隔设置的四个麦克风13,并且四个麦克风13中的任何一个麦克风13在旋转之前定位的水平角θ是0度,则可移动单元14可以旋转的角被限制为90度、180度和270度中的任一个。
图12是示出由信道移位单元17a进行的信道移位的示例的图。
具体地,图12在麦克风阵列12中的麦克风13的数量为四个并且沿一个方向排列在圆周上的相应麦克风13的输入信道mCH由mCH1至mCH4依次表示的情况下,示出了当可移动单元14旋转45度以使得旋转后输入信道mCH1的麦克风13的位置与旋转前输入信道mCH2的麦克风13的位置相匹配时的信道移位的状态。
在这种情况下,假设在可移动单元14旋转之前,输入信道mCH与处理信道pCH之间的对应关系是“mCH1=pCH1”、“mCH2=pCH2”、“mCH3=pCH3”和“mCH4=pCH4”。
在这种情况下的信道移位中,旋转后的输入信道mCH与处理信道pCH之间的对应关系改变为如所示出的“mCH1=pCH2”、“mCH2=pCH3”、“mCH3=pCH4”和“mCH4=pCH1”。即,输入信道mCH相对于处理信道pCH逐个移位。
如果假设麦克风阵列12中的麦克风13的数量是N(N是两个或更多的自然数),并且可移动单元14的旋转量是以麦克风13的数量为单位的旋转量l(l是N-1或更少的自然数),则如下执行针对目标输入信道mCHn的信道移位。
即,如果“n+l≤N”,则使目标输入信道mCHn与处理信道pCH(n+l)相对应,并且如果“n+l>N”,则使目标输入信道mCHn与信道pCH(n+l-N)相对应。
注意,以上是在可移动单元14的旋转方向与输入信道mCH的末端的数字的升序方向匹配的情况下的信道移位。当可移动单元14沿相反方向旋转时,如果“n-l≤0”,则使目标输入信道mCHn与处理信道pCH(n-l+N)相对应,并且如果“n+l>N”,则使目标输入信道MChn与处理信道pCH(n-l)相对应。
通过执行如上所述的信道移位,由于在方向估计算法的前一阶段切换信号信道,从方向估计算法侧来看,已经执行的处理(具体地,噪声空间相关矩阵K的学习处理)可以在不改变任何东西的情况下继续。
图13是用于解释信道移位的效果的图。
图13的A和图13的B表示旋转之前可移动单元14的状态,并且类似于上面的图11的A和图11的B,表示随着噪声学习的进行,可以适当地抑制噪声方向上的分量。
利用上述信道移位,即使可移动单元14旋转,噪声抑制方向也可以保持在图10的C所示的方向上。因此,如图13的C所示,即使在旋转之后的空间谱中,也可以防止峰值出现在噪声方向上,并且当出现用户的话音时,可以适当地使峰值出现在声源方向上。因此,可以适当地强调话音声音的分量,并且可以适当地抑制噪声分量,并且可以防止旋转之后的语音提取性能的劣化。
在此处,在该示例中,在可移动单元14旋转的同时(即,在每个麦克风13移位的同时),话音方向估计单元32(噪声相关矩阵计算单元42)暂停噪声特性的学习。具体地,中断噪声空间相关矩阵K的学习。
因此,可以防止在改变麦克风位置之前已经学习的噪声特性信息由于位置改变期间的学习而改变。
具体地,在该示例中,由于在每个麦克风13移位的同时,存在每个麦克风13拾取到伺服马达21的操作声音的可能性,所以在这一点上,在每个麦克风13的移位期间中断噪声特性的学习也是有意义的。
[1-5.处理方法]
接下来,参考图14中的流程图,将描述为实现作为上述第一实施例的信号处理方法而要执行的具体处理过程。
注意,在该示例中,图14所示的处理由语音信号处理单元17执行。
首先,在步骤S201中,语音信号处理单元17开始噪声学习。该处理与其中话音方向估计单元32中的噪声相关矩阵计算单元42开始学习噪声空间相关矩阵K的处理相对应。
在随后的步骤S202中,语音信号处理单元17确定是否存在话音。该处理例如是确定话音区间估计单元33的处理是否检测到话音区间的处理。
如果确定不存在话音,则在步骤S203中,语音信号处理单元17确定是否满足终止条件。即,例如,确定是否满足预定的处理终止条件(诸如,关闭信号处理装置1的电源)。如果满足结束条件,则语音信号处理单元17结束该流程图中所示的一系列处理,并且如果不满足终止条件,则处理返回到步骤S202。
取决于步骤S202和S203的处理,形成循环处理以等待,直到满足话音的检测的条件或终止条件。
如果在步骤S202中确定存在话音,则语音信号处理单元17在步骤S204中估计方向,并然后在步骤S205中输出方向信息。步骤S204和S205的处理与话音方向估计单元32估计话音方向并输出话音方向信息Sd的处理相对应。
在步骤S205之后的步骤S206中,语音信号处理单元17等待可移动单元14的旋转开始。可以基于由控制单元18输出的旋转角信息Sr来确定可移动单元14的旋转是否已经开始。可替代地,控制单元18可以被配置为向语音信号处理单元17发送指示用于驱动伺服马达21的控制已开始的控制开始信息,并且可以基于该控制开始信息来确定可移动单元14是否已经开始旋转。
如果确定可移动单元14已经开始旋转,则语音信号处理单元17通过步骤S207和S208的处理停止噪声学习,直到旋转结束。即,停止噪声空间相关矩阵K的学习。因此,在可移动单元14的旋转刚刚开始之前的学习信息被保持作为噪声空间相关矩阵K。
如果在步骤S208中确定旋转已经结束,则在步骤S209中,语音信号处理单元17根据旋转角信息Sr执行信道移位。注意,已经描述了本实施例中的信道移位,因此将省略重复描述。
响应于步骤S209中的信道移位,在步骤S210中,语音信号处理单元17重新开始噪声学习,即,重新开始噪声空间相关矩阵K的学习,并返回到步骤S202。
因此,如果新检测到用户的话音并且可移动单元14相应地旋转,则根据旋转角信息Sr来执行信道移位。此外,在可移动单元14旋转的同时,暂停噪声学习。
<2.第二实施例>
[2-1.作为第二实施例的信号处理方法]
接下来,将描述第二实施例。
在第一实施例中,可移动单元14的旋转角受到限制,但是在第二实施例中,允许到曾经不存在有其他麦克风13的位置的旋转。
注意,在以下描述中,相同的附图标记和相同的步骤编号将用于与已经描述的配置和过程类似的配置和过程,并且将省略对其的描述。
在第二实施例中,即使旋转之后的麦克风13的位置与旋转之前的曾经存在有另一麦克风13的位置不完全匹配,如果其间的位置误差在特定范围内,则允许旋转、执行信道移位、并且使用旋转之前所学习的噪声特性原样执行话音方向估计。
将参考图15和图16描述可允许的位置误差。
在此处,假设麦克风阵列12中的麦克风13的数量是四个。
图15是示出旋转角的示例的图。
首先,在下面的描述中,假设输入信道mCH1的麦克风13所处的方向与信号处理装置1的正面方向匹配。此外,旋转角=0度表示伺服马达32的原点角。在下面的描述中,水平角θ是参考伺服马达32的原点角而表示的角。即,在图15的A所示的旋转之前的状态下,输入信道mCH1的麦克风13所处的方向与0度方向匹配,并且这是信号处理装置1的正面方向(可移动单元14的正面方向)与伺服马达32的原点角的方向匹配的状态。
假设从图15的A所示的状态开始出现语音,并且每个麦克风13如图15的B所示旋转以面向话音方向。此时的旋转角被描述为“角θ_e”。如上所述,由于在话音方向估计处理中估计的话音方向由水平角θ表示,所以可以说角θ_e是在话音方向估计处理中估计的话音方向的角。
图16是位置误差的说明图。
如所示出,作为参考角θ_n与角θ_e之间的误差,获得位置误差D。参考角θ_n表示以旋转之前的目标麦克风13(这里是输入通道mCH1的麦克风13)的位置为原点、直到在旋转前的各个麦克风13的位置当中的最接近旋转之后的目标麦克风13的位置的旋转角,该旋转之前的各个目标麦克风13的位置在图中由虚线表示。
在第二实施例中,基于位置误差D与预定阈值THd的比较结果,确定是否执行第一实施例中描述的信道移位。
具体地,对于作为|θ_e-θ_n|而计算的位置误差D,如果“D≤THd”,则执行信道移位,否则不执行信道移位。
因此,即使麦克风13旋转之后的位置与曾经存在有另一麦克风13的位置不完全相同,如果其间的位置误差D小,则也可以使用信道移位来执行语音提取。
注意,在例如可以通过使显示单元15独立于可移动单元14旋转等来水平移动显示单元15上所显示的面部图片(尤其是眼睛部分)的情况下,即使信号处理装置1的正面不面向话音方向,则也可以将视线调整到说话人,并因此阈值THd可以被设定为较大的值。
在此处,在第二实施例中,如果位置误差D不小于或等于阈值THd,则基于过去学习的噪声特性来执行语音提取处理。具体地,在第二实施例中,例如,假设在预定的时刻(诸如,当信号处理装置1首次安装在某个地方时的时刻),执行针对学习每个水平角θ的噪声空间相关矩阵K的校准。
通过在通过控制单元18对伺服马达21的驱动控制一次一度地改变可移动单元14的旋转角(水平角θ)的同时,在每个水平角θ的状态下学习例如噪声空间相关矩阵K来执行该校准。
例如,如图17所示,通过校准获得的每个水平角θ的噪声空间相关矩阵K作为表信息存储在信号处理装置1内部。
在下文中,表示如图17所示的每个水平角θ的噪声空间相关矩阵K的对应关系的表将被称为“矩阵表50”。
注意,在校准中,用于学习噪声空间相关矩阵K的水平角θ的间隔不限于一度,并且可以是另一间隔(诸如,两度或更多度的间隔)。
如果位置误差D不等于或小于阈值TH,则从如上所述的矩阵表50获取与旋转角θ_e相对应的噪声空间相关矩阵K,并且使用获取到的噪声空间相关矩阵K来执行话音方向估计处理
基于从矩阵表50获取的噪声空间相关矩阵K(即,过去学习的噪声空间相关矩阵K)和在可移动单元14旋转之后通过新开始的学习而获得的噪声空间相关矩阵K(即,从最近输入信号学习的噪声空间相关矩阵K:正在学习的噪声空间相关矩阵K),来执行这种情况下的话音方向估计处理。具体地,当从矩阵表50获取的噪声空间相关矩阵K是“K_d”并且正在学习的噪声空间相关矩阵K是“K_n”时,通过下面的[公式15]获得的噪声空间相关矩阵K_a用于执行话音方向估计处理。
[数学公式10]
K_a=(1-E)K_d+E·K_n...[公式15]
在[公式15]中,“E”是用于平滑地反映在过去学习的“K_d”上学习的“K_n”的值的更新系数,并且该值在“0<E≤1”的范围内根据时间的流逝而逐渐增加。因此,相对于在话音方向估计处理中所使用的“K_a”,在过去学习的“K_d”的反映程度逐渐降低的同时,正在学习的“K_n”的反映程度逐渐增加,并且最终获得仅反映正在学习的“K_n”的状态。
如果位置误差D不小于或等于阈值TH,可以继续原样使用从矩阵表50获取的“K_d”作为“K_a”。然而,存在自校准以来周围环境发生了改变的情况。例如,产生校准时未出现的空调的噪声等。
通过应用上面的[公式15],即使自过去学习以来存在噪声特性的变化,也可以根据当前噪声特性执行适当的话音方向估计处理。
在此处,在通过[公式15]更新噪声空间相关矩阵K_a的情况下,响应于从过去学习的“K_d”到正在学习的“K_n”的以上切换(即,更新系数E被设定为“1”)完成,通过正在学习的“K_n”更新矩阵表50中的“K_d”。即,与矩阵表50中的角θ_e相对应存储的“K_d”通过所学习的“K_n”来更新。
因此,可以在矩阵表50中反映最近学习的噪声空间相关矩阵K的值。因此,可以提高语音提取性能。
此外,在第二实施例中,在通过[公式15]更新噪声空间相关矩阵K_a时,更新系数E的值不会根据时间的流逝而无条件地增加,并且如果满足预定条件,则更新系数E的值不增加。具体地,在来自麦克风13的信号的当前信号区间被视为话音区间的同时,更新系数E的值不增加。
如果在话音区间中学习噪声空间相关矩阵K,则噪声空间相关矩阵K的准确度劣化,并因此在话音区间中不学习噪声空间相关矩阵K(参见第一实施例)。因此,增加在话音区间中学习的噪声空间相关矩阵K_n的反映程度没有意义。
因此,通过如上所述不增加话音区间中的更新系数E的值,可以根据学习的进展适当地增加正在学习的噪声空间相关矩阵K_n的反映程度,并因此可以提高语音提取性能。
根据如上所述的使用矩阵表50的方法,即使在执行旋转的情况下,每个麦克风13的位置通过该旋转而改变为与曾经存在有另一麦克风13的位置不同的位置,也可以防止语音提取性能劣化,并因此可以消除如第一实施例中那样对可移动单元14的旋转角设置有限制的需要。
在麦克风阵列12中的麦克风13的数量较少的情况下,容易出现没有麦克风13靠近话音方向的情况。第二实施例适合于麦克风13的数量以这种方式较少的情况。
[2-2.信号处理装置的电气配置]
将参考图18和图19描述作为第二实施例的信号处理装置1中所包括的语音信号处理单元17A的电气配置示例。
如图18所示,语音信号处理单元17A与图4所示的语音信号处理单元17的不同之处在于,提供语音提取处理单元17bA以代替语音提取处理单元17b。
语音提取处理单元17bA与语音提取处理单元17b的不同之处在于,提供话音方向估计单元32A以代替话音方向估计单元32。
如图19所示,话音方向估计单元32A与图5所示的话音方向估计单元32的不同之处在于,话音方向估计单元32A提供噪声相关矩阵计算单元42A来代替噪声相关矩阵计算单元42,并且提供矩阵表50。
噪声相关矩阵计算单元42A基于根据上述位置误差D和阈值THd的信道移位可用性的确定结果,执行存储在矩阵表50中的并基于过去学习的噪声空间相关矩阵K_d的话音方向估计处理。具体地,如果“位置误差D≤阈值THd”,并且确定可以进行信道移位,则噪声相关矩阵计算单元42A在可移动单元14旋转之后,无变化地使用在旋转之前学习的噪声空间相关矩阵K来执行话音方向估计处理。此外,如果“位置误差D>阈值THd”并且确定不可以进行信道移位,则噪声相关矩阵计算单元42A在可移动单元14旋转之后,丢弃在旋转之前学习的噪声空间相关矩阵K,重新开始噪声空间相关矩阵K的学习,并且基于正在学习的噪声空间相关矩阵K_n和与从矩阵表50获取的角θ_e相对应的噪声空间相关矩阵K_d,来根据[公式15]获得噪声空间相关矩阵K_a,并且使用噪声空间相关矩阵K_a执行话音方向估计处理。
[2-3.处理过程]
图20是示出为了实现作为第二实施例的信号处理方法而要执行的具体处理过程的流程图。
注意,图20所示的处理由语音信号处理单元17A执行。
与图14所示的第一实施例的处理的不同之处在于,增加了步骤S301至S303的处理。
如果在步骤S208中确定旋转完成,则语音信号处理单元17A将处理前进到步骤S301并确定是否可以进行信道移位。即,利用|θ_e-θ_n|计算位置误差D,该误差D为上述参考角θ_n与角θ_e之间的误差,并且如果“D≤THd”,则获得可以进行信道移位的确定结果,并且如果不是,则获得不可以进行信道移位的确定结果。
如果确定可以进行信道移位,则语音信号处理单元17A将处理前进到步骤S209。因此,在位置误差D较小的情况下,执行第一实施例中描述的信道移位。
另一方面,如果确定不可以进行信道移位,则语音信号处理单元17A提前到步骤S302,并且执行从表中获取对应角的相关矩阵K的处理。即,从矩阵表50获取与角θ_e相对应的噪声空间相关矩阵K_d。
在步骤S302之后的步骤S303中,语音信号处理单元17A开始基于获取的相关矩阵K的噪声学习,并返回到步骤S202。
作为步骤S303的处理,语音信号处理单元17A丢弃在可移动单元14旋转之前学习的噪声空间相关矩阵K,并重新开始学习噪声空间相关矩阵K,并且基于正在学习的噪声空间相关矩阵K_n和在步骤S302中获取的噪声空间相关矩阵K_d,开始根据[公式15]开始获得噪声空间相关矩阵K_a的处理。
因此,此后使用噪声空间相关矩阵K_a执行话音方向估计处理。
<3.修改例>
在此处,本技术不限于上述具体示例,并且在不脱离本技术的主旨的情况下,可以进行各种修改。
例如,在第二实施例中,已经给出了其中在确定不可以进行信道移位的情况下基于过去学习的噪声特性执行语音提取的示例。然而,也可以采用这样的方法,即在确定不可以进行信道移位的情况下,丢弃(重置)直到该点的噪声特性的学习信息,并且从开始重新开启噪声特性的学习。
此外,在上面描述了示例,在该示例中,每个麦克风13的位移是伴随配备有麦克风13的目标装置自身的旋转的位移,但是每个麦克风13的移位可以与目标装置的移动相关联。在这种情况下,例如,假设目标装置以位置A→位置B→位置C→位置A的顺序移动,当执行最后的位置C→位置A的移动时,可能存在“多个麦克风的相应位置改变为曾经存在有相应的其他麦克风的位置”的情况。
此外,多个麦克风13可以布置成另一种布置(诸如,线性布置,而不是圆周设置)。即使在这种情况下,也可能存在伴随目标装置的移动而“多个麦克风的相应位置改变为曾经存在有其他麦克风的位置”的情况。
此外,例如,麦克风13的布置可以如图21所示。
在图21的示例中,麦克风阵列12’以及麦克风阵列12设置在目标装置上,该麦克风阵列12’包括以不同于麦克风12的高度而设置的多个麦克风13。相应麦克风13布置在麦克风阵列12’中的相应麦克风水平角θ不同于相应麦克风13布置在麦克风阵列12中相应麦克风的水平角θ。
通过以这种方式相对于麦克风阵列12中的相应麦克风13的位置有意地移动麦克风阵列12’中的相应麦克风13的位置,可以增大允许信道移位的旋转角。具体地,在这种情况下,如第一实施例中所述,允许信道移位的旋转角不仅适用于满足旋转后麦克风阵列12中的相应麦克风13的位置与旋转前麦克风阵列12中的曾经存在有其他麦克风13的位置匹配的条件的旋转角,而且还适用于满足麦克风阵列12中的旋转后的相应麦克风13的位置与麦克风阵列12’中的旋转前曾经存在有麦克风13的位置匹配的条件的旋转角。
注意,此处的麦克风13的“位置”表示当平行于水平面并且彼此正交的轴是X轴和Y轴时在二维空间中的位置。
<4.实施例的概述>
如上所述,与实施例相同的信号处理装置(相同的1)包括从多个麦克风的信号执行语音提取的语音提取单元(语音信号处理单元17或17A),并且当多个麦克风的相应位置改变为曾经存在有其他麦克风的位置时,语音提取单元将多个麦克风的相应信号用作其他麦克风的信号。
因此,可以消除改变相应麦克风的位置对语音提取的影响。
因此,可以防止语音提取性能在多个麦克风的位置改变时劣化。
此外,在作为实施例的信号处理装置中,语音提取单元通过对多个麦克风的信号进行信道移位,将多个麦克风的相应信号用作其他麦克风的信号。
例如,信道移位可以通过简单的方法来实现,该方法诸如向每个麦克风的信号给出标识符,该标识符指示用哪个处理信道来处理信号。
因此,可以容易地实现将多个麦克风的信号用作其他麦克风的信号的配置。
此外,在根据实施例的信号处理装置中,语音提取单元基于布置在圆周上的多个麦克风的信号来执行语音提取。
由于基于布置在圆周上的相应麦克风的信号来执行语音提取,所以语音提取性能得到改善,因为无论声源方向是哪个方向,都可以进行语音提取。
此外,如实施例中所例示的,在包括根据本技术的信号处理装置的装置是响应于语音检测而面向话音方向的装置的情况下,可以防止伴随装置的旋转(每个麦克风的位移)而发生的语音提取性能的劣化。
此外,在根据实施例的信号处理装置中,语音提取单元基于根据多个麦克风的信号而学习的噪声特性来执行语音提取。
因此,可以基于噪声分量受抑制的信号来执行语音提取。
因此,可以提高语音提取性能。
此外,在作为实施例的信号处理装置中,语音提取单元在多个麦克风的位置改变时,暂停噪声特性的学习。
因此,可以防止在改变麦克风位置之前已经学习的噪声特性信息由于改变位置期间的学习而改变。
因此,可以提高语音提取性能。
此外,在作为实施例的信号处理装置中,语音提取单元(语音信号处理单元17A)基于位置改变后的麦克风的位置与曾经存在有其他麦克风的位置之间的误差的大小来确定是否执行信道移位。
因此,即使在位置改变之后的麦克风的位置与曾经存在有其他麦克风的位置不是完全相同的位置,如果其间的位置误差小,也可以使用信道移位来执行语音提取。
因此,可以在防止伴随多个麦克风的位置的改变而出现语音提取性能的劣化的同时,提高可改变位置的自由度。
此外,在作为实施例的信号处理装置中,语音提取单元在多个麦克风的位置改变为与曾经存在有其他麦克风的位置不同的位置的情况下,基于过去学习的噪声特性来执行语音提取。
因此,即使多个麦克风的位置改变为与曾经存在有其他麦克风的位置不同的位置,也可以基于在过去的位置处学习的噪声特性来执行语音提取。
因此,即使多个麦克风的位置改变为与曾经存在有其他麦克风的位置不同的位置,也可以抑制语音提取性能的劣化。
此外,在作为实施例的信号处理装置中,语音提取单元在基于过去学习的噪声特性的语音提取中,根据时间的流逝降低过去学习的噪声特性的反映程度,并且根据时间的流逝增加正在学习的噪声特性的反映程度。
因此,即使噪声特性自过去学习以来已经改变,也可以根据当前噪声特性执行适当的语音提取。
因此,可以提高语音提取性能。
此外,在作为实施例的信号处理装置中,语音提取单元在麦克风的信号的当前信号区间被视为话音区间时,在学习期间不增加噪声特性的反映程度。
如果在话音区间中学习噪声特性,则噪声特性的准确度劣化,因此在话音区间中不执行噪声特性的学习。因此,增加在话音区间中学习的噪声特性的反映程度是没有意义的。
利用上面的配置,可以随着学习的进展适当地增加正在学习的噪声特性的反映程度,并提高语音提取性能。
此外,作为实施例的信号处理方法具有从多个麦克风的信号中执行语音提取的语音提取步骤,其中,在语音提取步骤中,当多个麦克风的相应位置改变为曾经存在有其他麦克风的位置时,多个麦克风的相应信号用作其他麦克风的信号。
即使利用作为这种实施例的信号处理方法,也可以获得与上述实施例的信号处理装置的操作和效果类似的操作和效果。
在此处,到目前为止描述的语音提取处理单元17b和17bA的功能可以通过CPU等作为软件过程来实现。基于程序来执行该软件过程,并且该程序存储在诸如CPU的计算机装置(信息处理装置)可读的存储装置中。
作为实施例的程序是由从多个麦克风的信号中执行语音提取的信息处理装置执行的程序,并且该程序使信息处理装置实现以下功能:在多个麦克风的相应位置改变为曾经存在有其他麦克风的位置的情况下,多个麦克风的相应信号用作其他麦克风的信号。
利用这种程序,可以实现作为上述实施例的信号处理装置。
注意,在本说明书中描述的效果仅仅是示例,并且不限于此,并且还可以提供其他效果。
<5.本技术>
注意,本技术可以采用如下配置。
(1)一种信号处理装置,包括语音提取单元,该语音提取单元从多个麦克风的信号中执行语音提取,其中,
当多个麦克风的相应位置改变为曾经存在有其他麦克风的位置时,该语音提取单元将多个麦克风的相应信号用作其他麦克风的信号。
(2)根据上述(1)的信号处理装置,其中,
语音提取单元通过对多个麦克风的信号进行信道移位,将多个麦克风的相应信号用作其他麦克风的信号。
(3)根据上述(1)或(2)的信号处理装置,其中,
语音提取单元基于布置在圆周上的多个麦克风的信号来执行语音提取。
(4)根据上述(1)至(3)中任一项的信号处理装置,其中,
语音提取单元基于根据多个麦克风的信号而学习的噪声特性来执行语音提取。
(5)根据上述(4)的信号处理装置,其中,
语音提取单元在多个麦克风的位置改变时,暂停噪声特性的学习。
(6)根据上述(2)至(5)中任一项的信号处理装置,其中,
语音提取单元基于位置改变后的麦克风的位置与曾经存在有其他麦克风的位置之间的误差大小来确定是否执行信道移位。
(7)根据上述(4)至(6)中任一项的信号处理装置,其中,
语音提取单元在多个麦克风的位置改变成与曾经存在有其他麦克风的位置不同的位置的情况下,基于过去学习的噪声特性来执行语音提取。
(8)根据上述(7)的信号处理装置,其中,
语音提取单元在基于过去学习的噪声特性的语音提取中,根据时间的流逝而降低过去学习的噪声特性的反映程度,并且根据时间的流逝而增加正在学习的噪声特性的反映程度。
(9)根据上述(8)的信号处理装置,其中,
语音提取单元在麦克风的信号的当前信号区间被视为话音区间的情况下,在学习期间不增加噪声特性的反映程度。
附图标记列表
1 信号处理装置
12、12’麦克风阵列
13 麦克风
14 可移动单元
15 显示单元
16 扬声器
17、17A 语音信号处理单元
17a 信道移位单元
17b、17bA 语音提取处理单元
30 回声消除器
31 语音强调单元
32、32A 话音方向估计单元
33 话音区间估计单元
34 噪声抑制单元
42、42A 噪声相关矩阵计算单元
50 矩阵表
100 空间。

Claims (11)

1.一种信号处理装置,包括语音提取单元,所述语音提取单元从多个麦克风的信号中执行语音提取,其中,
当多个所述麦克风的相应位置改变为已经存在有其他麦克风的位置时,所述语音提取单元将多个所述麦克风的相应的信号用作所述其他麦克风的信号。
2.根据权利要求1所述的信号处理装置,其中,
所述语音提取单元通过对多个所述麦克风的所述信号进行信道移位,而将多个所述麦克风的相应的所述信号用作所述其他麦克风的所述信号。
3.根据权利要求1所述的信号处理装置,其中,
所述语音提取单元基于布置在圆周上的多个所述麦克风的所述信号来执行所述语音提取。
4.根据权利要求1所述的信号处理装置,其中,
所述语音提取单元基于噪声特性来执行所述语音提取,所述噪声特性基于多个所述麦克风的所述信号而学习。
5.根据权利要求4所述的信号处理装置,其中,
所述语音提取单元在多个所述麦克风的所述位置改变的同时,暂停所述噪声特性的学习。
6.根据权利要求2所述的信号处理装置,其中,
所述语音提取单元基于位置改变后的所述麦克风的位置与已经存在有所述其他麦克风的所述位置之间的误差大小来确定是否执行所述信道移位。
7.根据权利要求4所述的信号处理装置,其中,
所述语音提取单元在多个所述麦克风的所述位置改变成与已经存在有所述其他麦克风的所述位置不同的位置的情况下,基于过去学习的所述噪声特性来执行所述语音提取。
8.根据权利要求7所述的信号处理装置,其中,
所述语音提取单元在基于过去学习的所述噪声特性的所述语音提取中,根据时间的流逝而降低过去学习的所述噪声特性的反映程度,并且根据时间的流逝而增加正在学习的所述噪声特性的反映程度。
9.根据权利要求8所述的信号处理装置,其中,
所述语音提取单元在所述麦克风的所述信号的当前信号区间被视为话音区间的情况下,在学习期间不增加所述噪声特性的所述反映程度。
10.一种信号处理方法,包括:
语音提取步骤,从多个麦克风的信号中执行语音提取,其中,
在所述语音提取步骤中,当多个所述麦克风的相应位置改变为已经存在有其他麦克风的位置时,多个所述麦克风的相应的信号被用作所述其他麦克风的信号。
11.一种由信息处理装置执行的程序,所述信息处理装置从多个麦克风的信号中执行语音提取,
所述程序使得信息处理装置实现以下功能:当多个所述麦克风的相应位置改变为已经存在有其他麦克风的位置时,将多个所述麦克风的相应的信号用作所述其他麦克风的信号。
CN201980029602.0A 2018-05-18 2019-03-19 信号处理装置、信号处理方法和计算机可读介质 Active CN112075088B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2018096136 2018-05-18
JP2018-096136 2018-05-18
PCT/JP2019/011525 WO2019220768A1 (ja) 2018-05-18 2019-03-19 信号処理装置、信号処理方法、プログラム

Publications (2)

Publication Number Publication Date
CN112075088A true CN112075088A (zh) 2020-12-11
CN112075088B CN112075088B (zh) 2022-06-28

Family

ID=68540229

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201980029602.0A Active CN112075088B (zh) 2018-05-18 2019-03-19 信号处理装置、信号处理方法和计算机可读介质

Country Status (3)

Country Link
US (1) US11386904B2 (zh)
CN (1) CN112075088B (zh)
WO (1) WO2019220768A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113391677A (zh) * 2021-05-28 2021-09-14 四川大学 一种具有语音识别功能且能够检测音源方向的计算机

Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003044092A (ja) * 2001-08-03 2003-02-14 Alpine Electronics Inc 音声認識装置
US20030039353A1 (en) * 2001-08-13 2003-02-27 Fujitsu Limited Echo cancellation processing system
CN1655646A (zh) * 2004-02-13 2005-08-17 索尼株式会社 拾音设备和方法
JP2005227511A (ja) * 2004-02-12 2005-08-25 Yamaha Motor Co Ltd 対象音検出方法、音信号処理装置、音声認識装置及びプログラム
US20050254640A1 (en) * 2004-05-11 2005-11-17 Kazuhiro Ohki Sound pickup apparatus and echo cancellation processing method
JP2005333211A (ja) * 2004-05-18 2005-12-02 Sony Corp 音響収録方法、音響収録再生方法、音響収録装置および音響再生装置
US20070263889A1 (en) * 2006-05-12 2007-11-15 Melanson John L Method and apparatus for calibrating a sound beam-forming system
US20090310811A1 (en) * 2008-05-27 2009-12-17 Funai Electric Advanced Applied Technology Research Institute Inc. Voice sound input apparatus
US20110013075A1 (en) * 2009-07-17 2011-01-20 Lg Electronics Inc. Method for processing sound source in terminal and terminal using the same
JP2011168903A (ja) * 2010-02-17 2011-09-01 Kasen Nozuru Seisakusho:Kk 不織布製造装置及び不織布製造方法
JP2014197771A (ja) * 2013-03-29 2014-10-16 株式会社Jvcケンウッド 放送システムの音声出力制御装置及び音声出力制御方法
CN204750032U (zh) * 2015-06-30 2015-11-11 乐卡汽车智能科技(北京)有限公司 语音数据采集系统
CN105162950A (zh) * 2015-07-08 2015-12-16 惠州Tcl移动通信有限公司 一种移动终端及其实现通话中切换麦克风的方法
JP2017168903A (ja) * 2016-03-14 2017-09-21 株式会社リコー 情報処理装置、会議システムおよび情報処理装置の制御方法
JP2017229002A (ja) * 2016-06-24 2017-12-28 キヤノン株式会社 情報処理装置、情報処理方法および音声処理システム

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001337694A (ja) 2000-03-24 2001-12-07 Akira Kurematsu 音源位置推定方法、音声認識方法および音声強調方法
JP2003271191A (ja) * 2002-03-15 2003-09-25 Toshiba Corp 音声認識用雑音抑圧装置及び方法、音声認識装置及び方法並びにプログラム
JP2011101407A (ja) 2010-12-28 2011-05-19 Toyota Motor Corp ロボット、及び収音装置
CN111194464A (zh) * 2017-10-11 2020-05-22 索尼公司 语音输入装置和方法以及程序

Patent Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003044092A (ja) * 2001-08-03 2003-02-14 Alpine Electronics Inc 音声認識装置
US20030039353A1 (en) * 2001-08-13 2003-02-27 Fujitsu Limited Echo cancellation processing system
JP2005227511A (ja) * 2004-02-12 2005-08-25 Yamaha Motor Co Ltd 対象音検出方法、音信号処理装置、音声認識装置及びプログラム
CN1655646A (zh) * 2004-02-13 2005-08-17 索尼株式会社 拾音设备和方法
US20050254640A1 (en) * 2004-05-11 2005-11-17 Kazuhiro Ohki Sound pickup apparatus and echo cancellation processing method
JP2005333211A (ja) * 2004-05-18 2005-12-02 Sony Corp 音響収録方法、音響収録再生方法、音響収録装置および音響再生装置
US20070263889A1 (en) * 2006-05-12 2007-11-15 Melanson John L Method and apparatus for calibrating a sound beam-forming system
US20090310811A1 (en) * 2008-05-27 2009-12-17 Funai Electric Advanced Applied Technology Research Institute Inc. Voice sound input apparatus
US20110013075A1 (en) * 2009-07-17 2011-01-20 Lg Electronics Inc. Method for processing sound source in terminal and terminal using the same
JP2011168903A (ja) * 2010-02-17 2011-09-01 Kasen Nozuru Seisakusho:Kk 不織布製造装置及び不織布製造方法
JP2014197771A (ja) * 2013-03-29 2014-10-16 株式会社Jvcケンウッド 放送システムの音声出力制御装置及び音声出力制御方法
CN204750032U (zh) * 2015-06-30 2015-11-11 乐卡汽车智能科技(北京)有限公司 语音数据采集系统
CN105162950A (zh) * 2015-07-08 2015-12-16 惠州Tcl移动通信有限公司 一种移动终端及其实现通话中切换麦克风的方法
JP2017168903A (ja) * 2016-03-14 2017-09-21 株式会社リコー 情報処理装置、会議システムおよび情報処理装置の制御方法
JP2017229002A (ja) * 2016-06-24 2017-12-28 キヤノン株式会社 情報処理装置、情報処理方法および音声処理システム

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
张频捷等: "汽车车内噪声主动控制系统扬声器与麦克风布放优化方法", 《振动与冲击》 *
林静然: ""基于麦克风阵列的说话人跟踪及语音分离实现技术的研究"", 《中国优秀硕士学位论文全文数据库信息科技辑》 *
陆振宇等: "关于多通道语音去噪的识别优化研究", 《计算机仿真》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113391677A (zh) * 2021-05-28 2021-09-14 四川大学 一种具有语音识别功能且能够检测音源方向的计算机

Also Published As

Publication number Publication date
US20210225379A1 (en) 2021-07-22
US11386904B2 (en) 2022-07-12
WO2019220768A1 (ja) 2019-11-21
CN112075088B (zh) 2022-06-28

Similar Documents

Publication Publication Date Title
US11694710B2 (en) Multi-stream target-speech detection and channel fusion
KR101178801B1 (ko) 음원분리 및 음원식별을 이용한 음성인식 장치 및 방법
CN107221336B (zh) 一种增强目标语音的装置及其方法
CN106663445B (zh) 声音处理装置、声音处理方法及程序
KR20210091034A (ko) 평면 마이크로폰 어레이들에 대한 다중-소스 추적 및 음성 활동 검출들
WO2019113253A1 (en) Voice enhancement in audio signals through modified generalized eigenvalue beamformer
Ono Fast stereo independent vector analysis and its implementation on mobile phone
WO2015065682A1 (en) Selective audio source enhancement
WO2020037282A1 (en) Spatial audio signal encoder
Wang et al. Mask weighted STFT ratios for relative transfer function estimation and its application to robust ASR
CN111863020B (zh) 语音信号处理方法、装置、设备及存储介质
CN112799017B (zh) 声源定位方法、装置、存储介质及电子设备
CN111194464A (zh) 语音输入装置和方法以及程序
CN112075088B (zh) 信号处理装置、信号处理方法和计算机可读介质
CN113223553B (zh) 分离语音信号的方法、装置及介质
Liao et al. An effective low complexity binaural beamforming algorithm for hearing aids
CN110459236B (zh) 音频信号的噪声估计方法、装置及存储介质
CN110364159A (zh) 一种语音指令的执行方法、装置及电子设备
Kowalk et al. Geometry-aware DoA Estimation using a Deep Neural Network with mixed-data input features
Nakajima et al. Correlation matrix estimation by an optimally controlled recursive average method and its application to blind source separation
Nakadai et al. Sound source separation and automatic speech recognition for moving sources
EP4131913A1 (en) Acoustic echo cancellation using a control parameter
CN118613866A (zh) 用于使用递归神经网络进行统一声学回声抑制的技术
CN114299978A (zh) 音频信号的处理方法、装置、设备及存储介质
WO2019239723A1 (ja) 信号処理装置、信号処理方法、プログラム

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant