CN112237008A - 信号处理装置、信号处理方法和程序 - Google Patents

信号处理装置、信号处理方法和程序 Download PDF

Info

Publication number
CN112237008A
CN112237008A CN201980037465.5A CN201980037465A CN112237008A CN 112237008 A CN112237008 A CN 112237008A CN 201980037465 A CN201980037465 A CN 201980037465A CN 112237008 A CN112237008 A CN 112237008A
Authority
CN
China
Prior art keywords
signal
clipping
unit
microphones
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201980037465.5A
Other languages
English (en)
Other versions
CN112237008B (zh
Inventor
立石和也
高桥秀介
高桥晃
落合和树
及川芳明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Publication of CN112237008A publication Critical patent/CN112237008A/zh
Application granted granted Critical
Publication of CN112237008B publication Critical patent/CN112237008B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0316Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/005Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/02Circuits for transducers, loudspeakers or microphones for preventing acoustic reaction, i.e. acoustic oscillatory feedback
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/305Electronic adaptation of stereophonic audio signals to reverberation of the listening space
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L2021/02082Noise filtering the noise being echo, reverberation of the speech
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/20Arrangements for obtaining desired frequency or directional characteristics
    • H04R1/32Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
    • H04R1/40Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2430/00Signal processing covered by H04R, not provided for in its groups
    • H04R2430/20Processing of the output signals of the acoustic transducers of an array for obtaining a desired directivity characteristic
    • H04R2430/23Direction finding using a sum-delay beam-former

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Health & Medical Sciences (AREA)
  • Otolaryngology (AREA)
  • General Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Telephone Function (AREA)
  • Cable Transmission Systems, Equalization Of Radio And Reduction Of Echo (AREA)

Abstract

当回声消除处理应用于来自多个麦克风的信号时,本发明提高了与限幅补偿有关的补偿的准确度。根据本特征的信号处理装置设置有:回声消除单元,对来自多个麦克风的信号应用消除来自扬声器的输出信号分量的回声消除处理;限幅检测单元,检测来自多个麦克风的信号的限幅;以及限幅补偿单元,基于未经限幅的麦克风的信号来补偿回声消除处理之后的经限幅的麦克风的信号。

Description

信号处理装置、信号处理方法和程序
技术领域
本技术涉及对来自多个麦克风的信号执行信号处理的信号处理装置、其方法和程序,并且具体地,涉及在对多个麦克风的信号执行回声消除处理时对经限幅的麦克风的信号进行补偿的技术。
背景技术
近年来,在同一壳体内设置有多个麦克风和扬声器的被称为智能扬声器等的装置已得到广泛应用。这种类型的一些装置基于来自多个麦克风的信号来估计用户的话音方向或话音内容(语音识别)。已经实施了诸如基于所估计的话音方向将装置的正面引导至用户话音方向、基于语音识别结果与用户进行对话等操作。
在该类型的装置中,与用户的位置相比,多个麦克风的位置通常更靠近扬声器,并且在扬声器的大声再现期间,在对麦克风的信号进行A/D转换的处理中,会发生被称为限幅的现象,在该现象中量化数据粘附于最大值。
注意,作为相关的传统技术,下面的专利文献1公开了一种技术,即在用于记录来自多个麦克风的信号的系统中通过将经限幅的麦克风的信号中的限幅部分的波形替换为未经限幅的麦克风的信号的波形来实现限幅补偿。
现有技术文献
专利文献
专利文献1:日本专利申请公开号2010-245657
发明内容
本发明要解决的问题
这里,在诸如智能扬声器的装置中,可以执行回声消除处理以抑制包括在来自多个麦克风的信号中的扬声器的输出信号分量。通过执行这样的回声消除处理,可以提高在扬声器执行的声音输出下的话音方向估计和语音识别的准确性。
本技术鉴于上面的情形而提出,并且其目的在于,在对来自多个麦克风的信号进行回声消除处理的情形下,提高相对于限幅补偿的补偿准确度。
解决问题的方法
根据本技术的实施例的信号处理装置包括:回声消除单元,其对来自多个麦克风的信号执行消除来自扬声器的输出信号分量的回声消除处理;限幅检测单元,其对来自多个麦克风的信号执行限幅检测;以及限幅补偿单元,其基于麦克风中的未经限幅的一个麦克风的信号来补偿麦克风中的经限幅的一个麦克风的回声消除处理之后的信号。
在对来自多个麦克风的信号执行回声消除处理的情形下,当在回声消除处理之前对信号执行限幅补偿时,限幅补偿在扬声器的输出信号分量和包括目标声音的其他分量难以分离的状态下执行,因此限幅补偿准确度趋于降低。通过在如上所述的回声消除处理之后对信号执行限幅补偿,可以对扬声器的输出信号分量在某种程度上被抑制的信号执行限幅补偿。
在根据本技术的上述信号处理装置中,期望限幅补偿单元通过抑制经限幅的麦克风的信号来补偿该信号。
通过采用抑制经限幅的麦克风的信号的补偿方法,可以防止由于补偿而丢失经限幅的麦克风的信号的相位信息。
在根据本技术的上述信号处理装置中,期望限幅补偿单元基于未经限幅的麦克风的信号与经限幅的麦克风的信号之间的平均功率比来抑制经限幅的麦克风的信号。
因此,可以将被限幅的麦克风的信号的功率适当地抑制为在其未被限幅的情形下必须获得的回声消除处理之后的功率。
在根据本技术的上述信号处理装置中,期望限幅补偿单元使用未经限幅的麦克风的信号当中的具有最小平均功率的麦克风的信号的平均功率比作为平均功率比。
具有最小平均功率的麦克风可以被重新表述为最难发生限幅的麦克风。
在根据本技术的上述信号处理装置中,期望的是,在存在用户话音并且存在扬声器输出的情形下,限幅补偿单元根据话音电平来调整经限幅的麦克风的信号的抑制量。
在所谓的其中存在用户话音并且存在扬声器输出的双重通话部分中,如果用户的话音电平高,则由于限幅,即使在噪声叠加部分中也大量地包括话音分量(注意这里提到的双重通话意味着用户话音和扬声器输出在时间上重叠,如图9所示)。另一方面,在话音电平低的情形下,话音分量倾向于被埋藏在大的限幅噪声中。因此,在双重通话部分中,根据话音电平调整经限幅的麦克风的信号的抑制量。
因此,如果用户的话音电平高,则可以减少信号的抑制量以防止话音分量被抑制,并且当用户的话音电平低时,可以增加信号的抑制量以抑制限幅噪声。
在根据本技术的上述信号处理装置中,期望在存在用户话音并且不存在扬声器输出的情形下,限幅补偿单元以根据后续阶段中的语音识别处理的特性的抑制量来抑制经限幅的麦克风的信号。
存在用户话音并且不存在扬声器输出的情形是限幅的原因被估计为用户话音的情形。通过上述配置,例如,在限幅的原因被估计为用户话音的情形下,可以根据后续阶段的语音识别处理的特性以适当的抑制量来执行限幅补偿,使得即使叠加了限幅噪声,在存在一定程度的话音电平的情形下也可以比在抑制话音分量的情形下更好地保持语音识别准确度,等等。
在根据本技术的上述信号处理装置中,期望在存在用户话音并且不存在扬声器输出的情形下,限幅补偿单元不对经限幅的麦克风信号执行补偿。
在用户话音存在并且扬声器输出不存在的情形下(即,在限幅的原因被估计为用户话音的情形下),经验上已知,不抑制信号可以在后续阶段中导致更有利的语音识别结果。在这种情形下,可以通过不执行如上所述的限幅补偿来提高语音识别准确度。
在根据本技术的上述信号处理装置中,期望还包括驱动单元和控制单元,该驱动单元改变多个麦克风和扬声器中的至少一者的位置,该控制单元响应于由限幅检测单元检测到的限幅而通过驱动单元改变多个麦克风中和扬声器中的至少一者的位置。
因此,如果检测到限幅,则可以改变各个麦克风与扬声器之间的位置关系,或者将多个麦克风或扬声器的位置移动到墙壁反射等小的位置。
此外,根据本技术的信号处理方法包括:回声消除过程,用于对来自多个麦克风的信号执行消除来自扬声器的输出信号分量的回声消除处理;限幅检测过程,用于对来自多个麦克风的信号执行限幅检测;以及限幅补偿过程,基于麦克风的未经限幅的一个麦克风的信号来补偿麦克风中的经限幅的一个麦克风的回声消除处理之后的信号。
同样利用这种信号处理方法,可以获得与根据本技术的上述信号处理装置的操作类似的操作。
此外,根据本技术的程序是由信息处理装置执行的程序,该程序使信息处理装置实施以下功能:回声消除功能,用于对来自多个麦克风的信号执行回声消除处理以消除来自扬声器的输出信号分量;限幅检测功能,用于对来自多个麦克风的信号执行限幅检测;以及限幅补偿功能,基于未经限幅的一个麦克风的信号补偿经限幅的一个麦克风的回声消除处理之后的信号。
通过根据本技术的程序来实施根据上述本技术的信号处理装置。
本发明的效果
利用本技术,在使来自多个麦克风的信号进行回声消除处理的情形下,可以相对于限幅补偿提高补偿准确度。
注意,本文描述的效果不必受限制,并且可以是本公开中描述的任何效果。
附图说明
图1是示出作为根据本技术的实施例的信号处理装置的外观配置示例的透视图。
图2是包括在作为实施例的信号处理装置中的麦克风阵列的说明图。
图3是用于说明作为实施例的信号处理装置的电气配置示例的框图。
图4是示出包括在作为实施例的信号处理装置中的语音信号处理单元的内部配置示例的框图。
图5是示出限幅的图像的图。
图6是用于说明作为实施例的信号处理装置的操作的流程图。
图7是用于说明回声消除处理的基本概念的图。
图8是示出包括在作为实施例的信号处理装置中的AEC处理单元的内部配置示例的图。
图9是双重通话的说明图。
图10是用于在每种情形下选择性地执行与限幅补偿相关的处理的说明图。
图11是示出在实施例中采用的S形函数(sigmoid function)的行为的图。
图12是示意性地表示传统技术中的限幅补偿方法的图。
图13是传统技术中的问题的说明图。
图14是示出待执行以实施作为实施例的限幅补偿方法的特定处理过程的流程图。
具体实施方式
下文,将参考附图按以下顺序描述根据本技术的实施例。
<1.信号处理装置的外观配置>
<2.信号处理装置的电气配置>
<3.信号处理装置的操作>
<4.实施例中的回声消除方法>
<5.作为实施例的限幅补偿方法>
<6.处理过程>
<7.变形例>
<8.实施例的概述>
<9.现有技术>
<1.信号处理装置的外观配置>
图1是示出作为根据本技术的实施例的信号处理装置1的外观配置示例的透视图。
如图所示,信号处理装置1包括大致柱状的壳体11和位于壳体11上方的大致柱状的可移动单元14。
可移动单元14由壳体11支撑以便可沿由图中的轮廓双箭头所指示的方向旋转(在摇摄方向上旋转)。壳体11例如在被放置在桌子、地板等的预定位置上的状态下,不与可移动单元14一起旋转,并形成所谓的固定部。
可移动单元14由伺服马达21(稍后参见图3描述)旋转驱动,该伺服马达21作为驱动单元而并入在信号处理装置1中。
麦克风阵列12设置在壳体11的上端。
如图2所示,通过在圆周上以大致相等的间隔布置多个(在图2的示例中为八个)麦克风13来配置麦克风阵列12。
由于麦克风阵列12设置在壳体11侧而不是可移动单元14侧,因此即使当可移动单元14旋转时,每个麦克风13的位置仍保持不变。即,即使当可移动单元14旋转时,每个麦克风13在空间100中的位置也不会改变。
可移动单元14设置有显示单元15,该显示单元15包括例如液晶显示器(LCD)、电致发光(EL)显示器等。在该示例中,在显示单元15上显示面部的图片,并且面部所面对的方向是信号处理装置1的正面方向。如稍后将描述的,例如,可移动单元14旋转使得显示单元15面向话音方向。
此外,在可移动单元14中,扬声器16容纳在显示单元15的背面。扬声器16向用户输出诸如消息和音乐的声音。
如上所述的信号处理装置1布置在例如诸如房间的空间100中。
信号处理装置1并入在例如智能扬声器、语音代理、机器人等中,并且具有在语音从周围声源(例如人)发出时估计语音的话音方向的功能。所估计的方向用于将信号处理装置1的前部引导至话音方向。
<2.信号处理装置的电气配置>
图3是用于说明信号处理装置1的电气配置示例的框图。
如图所示,信号处理装置1具有图1所示的麦克风阵列12、显示单元15以及扬声器16、以及语音信号处理单元17、控制单元18、显示驱动单元19、马达驱动单元20以及语音驱动单元22。
语音信号处理单元17可以包括例如数字信号处理器(DSP)或具有中央处理单元(CPU)的计算机装置等,并且处理来自麦克风阵列12中的每个麦克风13的信号。
注意,虽然未示出,但是来自每个麦克风13的信号由A-D转换器进行模拟-数字转换,然后输入到语音信号处理单元17。
语音信号处理单元17包括回声分量抑制单元17a和语音提取处理单元17b,并且来自每个麦克风13的信号经由回声分量抑制单元17a输入到语音提取处理单元17b。
回声分量抑制单元17a使用稍后描述的输出语音信号Ss作为参考信号,执行回声消除处理,以用于抑制包括在每个麦克风13的信号中的来自扬声器16的输出信号分量。注意,该示例的回声分量抑制单元17a对来自每个麦克风13的信号执行限幅补偿,这将在后面描述。
语音提取处理单元17b通过基于经由回声分量抑制单元17a输入的每个麦克风13的信号来估计话音方向、强调目标声音的信号、并且抑制噪声,从而执行目标声音的提取(语音提取)。语音提取处理单元17b将所提取的语音信号Se作为提取目标声音而获得的信号输出到控制单元18。此外,语音提取处理单元17b将指示所估计的话音方向的信息作为话音方向信息Sd输出到控制单元18。
注意,将再次描述语音提取处理单元17b的细节。
控制单元18包括具有例如CPU、只读存储器(ROM)、随机存取存储器(RAM)等的微型计算机,并且通过执行根据存储在ROM中的程序的处理来执行信号处理装置1的整体控制。
例如,控制单元18执行与显示单元15的显示信息相关的控制。具体地,向具有用于驱动显示单元15的显示的驱动电路的显示驱动单元19给出指令,以使显示单元15执行各种类型的信息的显示。
此外,本示例的控制单元18包括未示出的语音识别引擎,并且基于由语音识别引擎从语音信号处理单元17(语音提取处理单元17b)输入的提取的语音信号Se来执行语音识别处理,并且还基于语音识别处理的结果来确定要执行的处理。
注意,在控制单元18经由互联网等连接到云60并且在云60中存在语音识别引擎的情形下,可以使用语音识别引擎来执行语音识别处理。
此外,伴随话音的检测,当控制单元18输入有来自语音信号处理单元17的话音方向信息Sd时,控制单元18计算将信号处理装置1的正面引导至话音方向所需的伺服马达21的旋转角,并将指示旋转角的信息作为旋转角信息输出到马达驱动单元20。
马达驱动单元20包括用于驱动伺服马达21的驱动电路等,并且基于从控制单元18输入的旋转角信息来驱动伺服马达21。
此外,控制单元18控制由扬声器16输出的声音。具体地,控制单元18向包括用于驱动扬声器16的驱动电路(包括D-A转换器、放大器等)等的语音驱动单元22输出语音信号,以使扬声器16根据该语音信号执行语音输出。
注意,在下文中,将由控制单元18以这种方式输出到语音驱动单元22的语音信号称为“输出语音信号Ss”。
图4是示出语音信号处理单元17的内部配置示例的框图。
如图所示,语音信号处理单元17包括图3中所示的回声分量抑制单元17a和语音提取处理单元17b,并且回声分量抑制单元17a包括限幅检测单元30、快速傅里叶变换(FFT)处理单元31、声学回声消除(AEC)处理单元32、限幅补偿单元33和FFT处理单元34,并且语音提取处理单元17b包括话音区间估计单元35、话音方向估计单元36、语音强调单元37和噪声抑制单元38。
在回声分量抑制单元17a中,限幅检测单元30对来自每个麦克风13的信号执行限幅检测。
图5示出限幅的图像。限幅意味着在A-D转换期间量化数据粘附于最大值的现象。
响应于限幅的检测,限幅检测单元30将指示其中检测到经限幅的麦克风13的信道的信息输出到限幅补偿单元33。
在回声分量抑制单元17a中,来自每个麦克风13的信号经由限幅检测单元30输入到FFT处理单元31。FFT处理单元31对作为时间信号输入的来自每个麦克风13的信号执行通过FFT的正交变换,以将该信号转换为频率信号。
另外,FFT处理单元34对作为时间信号输入的输出语音信号Ss执行通过FFT的正交变换,以将该信号转换为频率信号。
这里,正交变换不限于FFT,并且例如,也可以采用诸如离散余弦变换(DCT)的其他技术。
将来自相应麦克风13的分别由FFT处理单元31和FFT处理单元34转换为频率信号的信号以及输出的语音信号Ss输入至AEC处理单元32。
AEC处理单元32基于输入的输出语音信号Ss执行消除包括在来自每个麦克风13的信号中的回声分量的处理。即,从扬声器16输出的语音可以被延迟预定时间,并且可以作为与其他语音混合的回声被麦克风阵列12拾取。AEC处理单元32将输出语音信号Ss作为参考信号进行处理,以便从每个麦克风13的信号中消除回声分量。
此外,本示例的AEC处理单元32执行如下所述的与双重通话估计相关的处理,这将再次描述。
限幅补偿单元33针对经AEC处理单元32的回声消除处理之后的每个麦克风13的信号,基于限幅检测单元30的检测结果和经由FFT处理单元34输入的作为频率信号的输出语音信号Ss来执行限幅补偿。
在本示例中,向限幅补偿单元33输入由执行与双重通话相关的估计的AEC处理单元32生成的双重通话估计值Di,并且限幅补偿单元33基于双重通话估计值Di执行限幅补偿,这再次进行说明。
在语音提取处理单元17b中,来自每个麦克风13的信号经由限幅补偿单元33被输入到话音区间估计单元35、话音方向估计单元36和语音强调单元37中的每个。
话音区间估计单元35基于来自每个麦克风13的输入信号执行估计话音区间(在时间方向上的话音区间)的处理,并且将作为指示话音区间的信息的话音区间信息Sp输出到话音方向估计单元36和语音强调单元37。
注意,各种方法(例如使用人工智能(AI)技术(诸如深度学习)等的方法)可以被设想为用于估计话音区间的特定方法,并且因为这些方法与本技术不直接相关,所以省略了对具体处理的描述。
话音方向估计单元36基于来自每个麦克风13的信号和话音区间信息Sp来估计话音方向。话音方向估计单元36输出表示所估计的话音方向的信息作为话音方向信息Sd。
注意,作为估计话音方向的方法,例如可以提及各种方法(诸如基于多信号分类(MUSIC)方法的估计方法,具体地,使用广义本征值分解的MUSIC方法)。然而,用于估计话音方向的方法不与本技术直接相关,并且将省略对具体处理的描述。
语音强调单元37基于由话音方向估计单元36输出的话音方向信息Sd和由话音区间估计单元35输出的话音区间信息Sp,对来自每个麦克风13的信号中包括的信号分量当中的与目标声音(这里是话音声音)相对应的信号分量进行强调。具体地,通过波束成形来执行强调存在于话音方向上的声源的分量的处理。
噪声抑制单元38抑制来自语音强调单元37的输出信号中包括的噪声分量(主要是平稳噪声分量)。
来自噪声抑制单元38的输出信号作为上述提取的语音信号Se从语音提取处理单元17b输出。
<3.信号处理装置的操作>
接下来,将参考图6中的流程图描述信号处理装置1的操作。
注意,在图6中,省略了与AEC处理单元32的回声消除和限幅补偿单元33的限幅补偿相关的操作。
在图6中,首先,在步骤S1中,麦克风阵列12输入语音。即,输入由说话人产生的语音。
在步骤S2中,话音方向估计单元36执行话音方向估计处理。
在步骤S3中,语音强调单元37强调信号。即,强调在被估计为话音方向的方向上的语音分量。
另外,在步骤S4中,噪声抑制单元38抑制噪声分量,并提高信噪比(SNR)。
在步骤S5中,控制单元18(或云60中所存在的外部语音识别引擎)执行识别语音的处理。即,基于从语音信号处理单元17输入的所提取的语音信号Se执行识别语音的处理。请注意,根据需要将识别结果转换为文本。
在步骤S6中,控制单元18确定操作。即,确定与所识别的语音的内容相对应的操作。然后,在步骤S7中,控制单元18控制马达驱动单元20以通过伺服马达21驱动可移动单元14。
另外,在步骤S8中,控制单元18使语音驱动单元22从扬声器16输出声音。
因此,例如,当从说话人识别出诸如“嗨”的问候语时,可移动单元14旋转至说话人所在的方向上,并且诸如“嗨,你好吗?”的问候语从扬声器16发送至说话人。
<4.实施例中的回声消除方法>
这里,在描述限幅补偿作为实施例之前,首先,将描述在实施例中假设的回声消除方法。
将参考图7描述回声消除处理的基本概念。
首先,在特定时间帧n中,来自扬声器16的输出信号(输出语音信号Ss)被称为参考信号x(n)。参考信号x(n)从扬声器16输出,并然后通过空间输入到麦克风13。此时,由麦克风13获得的信号(声音收集信号)被称为麦克风输入信号d(n)。
从扬声器16的输出声音直到到达麦克风13为止的空间传递特性h是未知的,并且在回声消除处理中,估计该未知的空间传递特性h,并且从麦克风输入信号d(n)中减去考虑了所估计的空间传递特性的参考信号x(n)。下面将所估计的空间传递特性称为所估计的传递特性w(n)。
到达麦克风13的扬声器16的输出声音包括具有一定时间延迟的分量(诸如直接到达的声音在墙壁等上反射并返回),因此当过去的目标延迟时间由抽头长度L表示时,麦克风输入信号d(n)和所估计的传递特性w(n)可以表示如下[式1]和[式2]。
[数学式1]
x(n)=[xn,xn-1,...,xn-L+1]T...[式1]
w(n)=[wn,wn-1,...,wn-L+1]T...[式2]
在[式1]中,T表示转置。
实际上,估计针对时间帧n已经受快速傅立叶变换的频率仓(frequency bin)的数量N。在使用一般最小均方(LMS)方法的情形下,利用以下[式3]和[式4]执行频率k(k=1到N)处的回声消除处理。
[数学式2]
e(k,n)=d(k,n)-w(k,n)Hx(k,n)...[式3]
w(k,n+1)=w(k,n)+μe(k,n)*x(k,n)...[式4]
H表示埃尔米特变换,而*表示复共轭。μ是确定学习速度的步长,并且通常选择0<定≤2之间的值。
如[式3]所示,误差信号e(k,n)是从麦克风输入信号d(k,n)中减去所估计的潜行信号而得到的,所估计的潜行信号作为对所估计的传递特性w(k,n)进行卷积而获得的L个抽头长度的参考信号(x)而获得。
从图7可以看出,该误差信号e(k,n)与回声消除处理的输出信号相对应。
在LMS方法中,顺序地更新w,使得误差信号e(k,n)的平均功率最小化。
注意,除了LMS方法之外,还有诸如通过归一化更新型参考信号获得的归一化LMS(NLMS)、仿射投影算法(APA)、递归最小二乘(RLS)等的方法。在任何方法中,参考信号x用于学习所估计的传递特性。
这里,AEC处理单元32通常被配置为通过如图8所示的配置来降低双重通话期间的学习速度,以避免双重通话期间的错误学习。
这里提到的双重通话意味着用户话音和扬声器输出在时间上暂时重叠,如图9所示。
在图8中,AEC处理单元32包括回声消除处理单元32a和双重通话估计单元32b。
这里,在以下描述中,除非在描述中处理了时间信息和频率信息,否则将省略时间n和频率仓号k的符号。
双重通话估计单元32b基于经由FFT处理单元34输入的频率信号的输出语音信号Ss(即参考信号x)和经过回声消除处理单元32a的回声消除处理的每个麦克风13的信号(误差信号e),计算表示是否处于双重通话期间的确定性的双重通话估计值Di。
回声消除处理单元32a基于来自每个麦克风13的经由FFT处理单元31输入的信号(即麦克风输入信号d)和经由FFT处理单元34输入的输出语音信号Ss(即参考信号x)根据上述[式3]计算误差信号e。
此外,回声消除处理单元32a基于误差信号e、参考信号x和从双重通话估计单元32b输入的双重通话估计值Di,顺序地学习根据稍后描述的[式6]所估计的传递特性w。
这里,已经提出了用于估计双重通话的各种方法,但是作为通常的方法,存在使用参考信号x的平均功率和在回声消除处理之后的瞬时信号功率的波动的方法(维纳(Wiener)型双重通话确定单元)。在该方法中,在正常学习期间,双重通话估计值Di变为接近“1”的值,并且在双重通话期间表现为接近“0”。
具体地,在该示例中,通过以下[式5]计算双重通话量估计值Di。
[数学式3]
Figure BDA0002817066790000141
在[式5]中,“Pref^-”(注意“^-”意味着“-”写在“Pref”上方)是“Pref^-=E[xxH]”,并且意味着参考信号x的平均功率(然而,E[·]表示期望值)。此外,“β”是灵敏度调节常数。
在双重通话期间,由于话音分量的影响,误差信号e增大。因此,根据[式5],在双重通话期间,双重通话估计值Di变小。相反,如果在非双重通话期间并且误差信号e小,则双重通话估计值Di变大。
回声消除处理单元32a基于如上所述的双重通话估计值Di根据以下[式6]来学习所估计的传递特性w。
[数学式4]
wi(n+1)=wi(n)+μDiei(n)*x(n)...[式6]
因此,在双重通话估计值Di变小的双重通话期间,降低了自适应滤波器的学习速度,并且抑制了双重通话期间的错误学习。
<5.作为实施例的限幅补偿方法>
接下来,将描述作为实施例的限幅补偿方法。
首先,作为前提,当通过傅里叶变换将被时间信号限幅的信号分解为频率分量时,在空间传输期间本来不存在的信号在每个频率处表现为噪声(限幅噪声)。该限幅噪声不能通过如在该示例中使用的线性回声消除器去除,并且大体积的擦除残留仅在限幅时刻发生。该擦除残留分量在较宽的区域上产生,并且成为在后续阶段中劣化语音识别的准确性的因素。
在本实施例中,考虑到这样的前提来执行限幅补偿。
在本实施例中,限幅补偿单元33(参见图4)基于限幅检测单元30的检测结果来确定是否存在已经发生限幅的信道(麦克风13的信道)。然后,如果存在已经发生了限幅的信道,则在针对该信道的回声消除处理之后将下面描述的限幅补偿处理应用于该信号。
在本实施例中,基于麦克风13的未经限幅的信号来执行限幅补偿处理。具体地,通过基于未经限幅的麦克风13的信号与经限幅的麦克风13的信号之间的平均功率比来抑制经限幅的麦克风13的信号而执行该处理。
在以下示例中,使用与未经限幅的信道当中的最小平均功率的比率作为上述平均功率比。
在本实施例中,基本上通过由以下[式7]表示的方法来执行限幅补偿处理。
在此,以下将经过限幅补偿后的信号表示为“ei^~”(注意,“^~”是指“~”写在“ei”上方。
[数学式5]
Figure BDA0002817066790000151
在[式7]中,“ei”表示在i信道(经限幅的信道)的回声消除处理后的瞬时信号,而“eMin”表示在未经限幅的信道当中的平均功率最小的信道的在回声消除处理之后的瞬时信号。
进一步地,“Pi^-”(“^-”意味着“-”写在“Pi”上方)是“Pi^-=E[eiei H]”,并表示i信道的经回声消除处理后的信号的平均功率,并且“PMin^-”(“^-”意味着“-”写在“PMin”上方)意味着未经限幅的信道当中的最小平均功率。
这里,平均功率意味着存在扬声器输出且不存在限幅的区间中的平均功率。
根据[式7]的限幅补偿的基本概念可以解释如下。
即,仅从经限幅的信道(i)的信号中提取相位信息,并且将信号功率替换为未经限幅的信道(在该示例中,最小平均功率的信道)的瞬时功率。然而,如果保持原样,将无法实现在没有发生限幅的情形下必须输出的回声消除处理之后的信号功率,并且因此使用已按顺序获得的信道之间的信号功率比来校正所替换的信号功率。
换言之,根据[式7]的限幅补偿可以表现为抑制作为回声消除处理后的消除残余的非线性分量,并且基于未经限幅信道的麦克风输入信号信息,对经限幅信道的信号执行增益校正,以达到未经限幅时的所估计的抑制电平。
在此,在[式7]中,通过术语“1/eiei H”和“ei”来表示如上所述仅从经限幅的信道的信号中提取相位信息的事实。
此外,信号功率被替换为未经限幅的信道的瞬时功率的点在[式7]中由术语“eMineH Min”表示。
此外,使用已经按顺序获得的信道之间的信号功率比校正所替换的信号功率的点由[式7]中的术语“Pi^-/PMin^-”表示。
注意,信道之间的信号功率比出现差异的原因是由于扬声器16的方向性特性、空间中的传输路径、麦克风灵敏度变化以及具有方向性的平稳噪声等而在各个信道的信号之间出现差异。
在本实施例的限幅补偿中,对于经限幅的信道,信号的波形本身不被另一信道的波形替换,并且留下相位信息。通过这样做,防止了麦克风13之间的相位关系由于限幅补偿而被破坏。由于麦克风13之间的相位关系在话音方向估计过程中是重要的,所以本方法可以防止由于限幅补偿而使话音方向估计准确度恶化。即,语音强调单元37进行的波束形成失败的可能性较小,并且可以提高后续阶段的语音识别引擎的语音识别准确度。
这里,在未发生限幅并且存在扬声器输出的区间中,限幅补偿单元33顺序地计算平均功率“Pi^-”和“PMin^-”。此时,限幅补偿单元33基于限幅检测单元30的检测结果和通过FFT处理单元34输入的输出语音信号Ss(参考信号x)来识别其中没有发生限幅并且存在扬声器输出的区间。
可以至少总是对用户话音区间执行[式7]的补偿作为限幅补偿,但是在该示例中,执行如接下来的图10所示的划分情形,并且与每种情形相对应地选择性地执行与限幅补偿相关的处理。
具体地,在扬声器输出和用户话音都“存在”的情形(图中表示为“情形1”)下,在执行限幅补偿的同时,根据用户话音调整限幅补偿中的抑制量。
此外,在作为“情形2”的扬声器输出为“存在”并且用户话音为“无”的情形下,执行限幅补偿。
在作为“情形3”的扬声器输出为“无”并且用户话音为“存在”的情形下,执行与语音识别引擎相对应的处理。
在作为“情形4”的扬声器输出和用户话音都为“无”的情形下,不执行限幅补偿。在这种情形下,在回声消除处理之后的信号在语音识别之前被丢弃。
注意,可以假定情形1中的限幅的原因是如所示出的双重通话。此外,可以估计情形2、情形3和情形4中的限幅的原因分别是潜入扬声器、用户话音和噪声。
首先,将描述在情形1的情形下执行的并且涉及根据用户话音电平调整抑制量的限幅补偿。
在用户话音电平高的情形下,目标声音(话音声音)的信息倾向于也主要包括在限幅噪声的叠加部分中,因此对于后续阶段的语音识别处理,优选地在限幅补偿中减小信号抑制量。相反,在用户话音电平低的情形下,话音分量倾向于被埋藏在大的限幅噪声中,因此对于后续阶段的语音识别处理,优选地在限幅补偿中增加信号抑制量。
因此,在情形1中,通过以下[式8]来执行涉及根据用户话音电平调整抑制量的限幅补偿。
[数学式6]
Figure BDA0002817066790000181
在[式8]中,“αdt”是抑制量校正系数,当αdt为“1”时,信号抑制量最大,并且信号抑制量随着αdt变得大于“得大而减小。
在情形1中,根据话音电平调整抑制量校正系数αdt的值。
以下[式9]示出抑制量校正系数αdt的调整式的示例。[式9]例示了使用S形(sigmoid)函数的调整式,其中“a”是S形函数倾斜常数,而“c”是S形函数中心校正常数。
[数学式7]
Figure BDA0002817066790000182
在[式9]中,“Pdti^-”(“^-”意味着“-”写在“Pdti”上方)是“Pdti^-=E[eiei H]”,并表示在双重通话期间和在未经限幅的区间中的i信道的回声消除处理后的信号的平均功率。这样的“Pdti^-”可以被视为用户话音电平的估计值。
“Max”是由以下[式10]和[式11]表示的值,并且表示抑制量校正系数αdt的最大值。即,该“Max”是使由[式8]计算出的“ei^~”与从AEC处理单元32输入的“ei”具有相同的功率的值,换言之,是消除限幅补偿(或使信号抑制量进入最大降低状态)的值。
[数学式8]
Figure BDA0002817066790000191
Figure BDA0002817066790000192
图11示出根据[式9]的S形函数的行为。
根据[式9]所表示的调整公式,抑制量校正系数αdt的值随着作为用户话音电平估计值的“Pdti^-”的大小改变而从“1”改变为“Max”。具体地,在话音电平估计值“Pdti^-”较大的情形下,抑制量校正系数αdt的值接近“Max”,从而根据[式8]减小信号抑制量。相反,在话音电平估计值“Pdti^-”较小的情形下,抑制量校正系数αdt的值接近“1”,从而根据[式8]增加信号抑制量。
注意,如上所述,限幅补偿单元33基于经限幅的麦克风13的信号(回声消除处理之后的信号)的未经限幅的区间中的双重通话期间的平均功率来估计用户的话音电平。
因此,可以在发生限幅时适当地获得经限幅的麦克风13的信号的话音电平。
这里,在限幅补偿单元33中,有必要确定是否处于双重通话期间,以便顺序地计算作为用户话音电平估计值的“Pdti^-”。基于经由FFT处理单元34输入的输出语音信号Ss(参考信号x)、双重通话估计值Di和双重通话确定阈值γ来执行关于是否处于双重通话期间的确定。
具体地,基于输出语音信号Ss来确定是否存在扬声器输出,并且结果,如果确定存在扬声器输出并且确定双重通话估计值Di等于或小于双重通话确定阈值γ,则获得处于双重通话期间的确定结果。
返回图10进行描述。
通过由[式7]表示的方法执行限幅补偿,作为情形2的限幅补偿。
此外,作为情形3中的与语音识别引擎相对应的处理,执行限幅补偿,在该限幅补偿中使[式8]中的抑制量校正系数αdt的值与语音识别引擎的特性(语音识别处理的特性)相对应。例如使用根据控制单元18(或云60)中的语音识别引擎预定的固定值作为此时的抑制量校正系数αdt的值。
注意,情形3不限于执行与如上所述的语音识别引擎相对应的处理,并且可以省略限幅补偿(如图10中的括号所示)。
在如情形3那样存在用户话音并且不存在扬声器输出的情形下,(即,在限幅的原因被估计为用户话音的情形下),按经验已知,不抑制信号可以导致在后续阶段中更有利的语音识别结果。在这种情形下,可以通过不执行限幅补偿来提高语音识别准确度。
如上所述,限幅补偿单元33选择性地执行与限幅补偿相关的处理,该处理根据扬声器输出的存在或不存在以及用户话音的存在或不存在而相对应地被划分为多种情形。然而,此时,基于双重通话估计值Di执行用户话音存在或不存在的确定。具体地,限幅补偿单元33获得例如在双重通话估计值Di等于或小于预定值时存在用户话音的确定结果,或者在双重通话估计值Di大于预定值时不存在用户话音的确定结果。
注意,如[式5]所述,双重通话估计值Di是在存在用户话音的双重通话期间增加的估计值。
这里,将参考图12和图13来描述由[式7]或[式8]表示的实施例的限幅补偿方法与传统技术之间的差异。
图12示意性地表示作为传统技术的上述专利文献1中描述的限幅补偿方法。
在专利文献1中描述的方法中,经限幅的信号(语音信号Mb)中的包括限幅部分的过零点(zero cross point)之间的信号(分频信号m1b)被未经限幅的信号(语音信号Ma)中的对应的过零点之间的信号(分频信号m1a)代替。
图12的示例示出未经限幅的语音信号Ma中的与限幅部分相对应的分频信号m1a在时间上晚于限幅部分到达的示例,但是在这种情形下,根据专利文献1的方法,不能在图13中的时间t1所示的限幅时刻实时地执行限幅补偿。
另一方面,根据如[式7]或[式8]所表示的实施例的限幅补偿方法,不必等待未经限幅的信号中的与限幅部分相对应的波形部分到达,并且可以在限幅发生时实时地执行限幅补偿。
<6.处理过程>
将参考图14中的流程图描述为了实现如上所述的作为实施例的限幅补偿方法而执行的具体处理过程。
限幅补偿单元33对于每个时间帧重复执行图14所示的处理。
注意,除了图14中所示的处理之外,限幅补偿单元33还执行按顺序计算“Pdti^-”作为麦克风13的每个信道的平均功率(在存在扬声器输出并且没有限幅发生的区间中的回声消除处理之后的平均功率)并且作为用户话音电平估计值的处理。
首先,在步骤S101,限幅补偿单元33确定是否检测到限幅。即,根据限幅检测单元30的检测结果,确定发生限幅的信道存在还是不存在。
如果确定没有检测到限幅,则限幅补偿单元33在步骤S102中确定是否满足终止条件。注意,这里的终止条件例如是预定为处理终止条件的条件(诸如,信号处理装置1的断电)。
如果不满足终止条件,则限幅补偿单元33返回到步骤S101,或者如果满足终止条件,则终止图14所示的一系列处理。
如果在步骤S101中确定已检测到限幅,则限幅补偿单元33进行到步骤S103,并且获取经限幅的信道与最小功率信道之间的平均功率比。即,在按顺序计算出的相应信道的平均功率中,计算获得经限幅的信道的平均功率与平均功率最小的信道的平均功率的比率(“Pi^-/PMin^-”)。
在随后的步骤S104中,限幅补偿单元33计算经限幅的信道的抑制系数。这里,抑制系数意味着排除[式7]右侧的术语“eMineH Min”和“ei”的部分。
然后,在步骤S105中,限幅补偿单元33确定是否存在扬声器输出。该确定处理与确定图10所示的情形1和情形2的集合以及情形3和情形4的集合中的哪一个是适用的相对应。
如果确定存在扬声器输出,则限幅补偿单元33在步骤S106中确定是否存在用户话音。
如果在步骤S106中确定存在用户话音(即,与情形1相对应),则限幅补偿单元33进行到步骤S107,并根据所估计的话音电平更新抑制系数。即,首先,抑制量校正系数αdt基于话音电平估计值“于dti^ti由上面的[式9]计算。然后,通过将在步骤S104中获得的抑制系数乘以计算出的抑制量校正系数αdt来更新抑制系数。
然后,限幅补偿单元33执行步骤S108的限幅信号抑制处理,并返回到步骤S101。使用在步骤S107中更新的抑制系数用[式8]执行计算“ei^~”的处理,作为步骤S108中的限幅信号抑制处理。
此外,如果在步骤S106中确定存在用户话音(即,与情形2相对应),则限幅补偿单元33进行到步骤S109以执行限幅信号抑制处理,并且返回到步骤S101。使用在步骤S104中获得的抑制系数用[式7]执行计算“ei^~”的处理,作为步骤S109中的限幅信号抑制处理。
此外,如果在步骤S105中确定不存在扬声器话音(情形3或情形4),则限幅补偿单元33在步骤S110中确定是否存在用户话音。
如果在步骤S110中确定存在用户话音(情形3),则限幅补偿单元33进行到步骤S111,并执行根据识别引擎更新抑制系数的处理。即,通过将在步骤S104中获得的抑制系数乘以根据语音识别引擎的特性而确定的抑制量校正系数αdt来更新抑制系数。
然后,限幅补偿单元33执行使用在步骤S111中更新的抑制系数用[式8]计算“ei^~”的处理,作为步骤S112的限幅信号抑制处理,并返回到步骤S101。
此外,如果在步骤S110中确定不存在用户话音(情形4),则限幅补偿单元33返回到步骤S101。即,在这种情形下,不执行限幅补偿。
<7.变形例>
这里,实施例不限于上述具体示例,在不脱离本技术的范围的情形下可以进行各种修改。
例如,在前述中,已经描述了多个麦克风13布置在圆周上的示例,但是可以采用除了圆周上的布置之外的布置(诸如线性布置)。
另外,在本实施例中,对信号处理装置1包括能够变更扬声器16的方位(即,能够变更相应麦克风13相对于扬声器16的位置)的伺服马达21的示例进行了描述。然而,在采用这种配置的情形下,例如,限幅补偿单元33或控制单元18可以被配置成响应于检测到限幅而指示马达驱动单元20改变扬声器16的位置。因此,可以将扬声器16的位置移动到墙壁反射等小的位置,并且可以降低发生限幅的可能性,并且可以减弱限幅噪声。
注意,信号处理装置1可以采用麦克风13的侧面而不是扬声器16被移位的配置,并且即使在这种情形下,也可以通过响应于检测到与上述类似的限幅而移位麦克风13,来获得与上述类似的效果。
此外,扬声器16和麦克风13的移位不限于由旋转引起的移位。例如,信号处理装置1可以采用包括车轮及其驱动单元等的配置,以能够自行移动。在这种情形下,可以控制驱动单元,使得信号处理装置1自行响应于限幅的检测而移动。因此,通过以这种方式移动信号处理装置1本身,也可以将扬声器16和麦克风13的位置移动到墙壁反射等较小的位置,并且可以获得与上述类似的效果。
注意,即使在不执行由[式7]或[式8]表示的限幅补偿的情形下,也可以应用如上所述的根据限幅的检测而移位扬声器16和麦克风13的配置。
<8.实施例的概述>
如上所述,作为实施例的信号处理装置(同1)包括回声消除单元(AEC处理单元32),该回声消除单元对来自多个麦克风(同13)的信号执行消除来自扬声器(同16)的输出信号分量的回声消除处理;限幅检测单元(同30),对来自多个麦克风的信号执行限幅检测;以及限幅补偿单元(同33),基于麦克风中的未经限幅的一个麦克风的信号来补偿麦克风中的经限幅的一个麦克风的回声消除处理之后的信号。
在对来自多个麦克风的信号执行回声消除处理的情形下,当对在回声消除处理之前的信号执行限幅补偿时,在扬声器的输出信号分量和包括目标声音的其他分量难以分离的状态下执行限幅补偿,因此限幅补偿准确度趋于降低。通过在如上所述的回声消除处理之后对信号执行限幅补偿,可以对扬声器的其中输出信号分量在某种程度上受抑制的信号执行限幅补偿。
由此,可以提高限幅补偿准确度。
此外,在作为实施例的信号处理装置中,限幅补偿单元通过抑制经限幅的麦克风的信号来补偿该信号。
通过采用抑制经限幅的麦克风的信号的补偿方法,可以防止由于补偿而丢失经限幅的麦克风的信号的相位信息。
因此,可以防止相应麦克风之间的相位关系被补偿破坏。
在如实施例中的通过在限幅补偿的后续阶段中执行话音方向估计和波束形成(语音强调)来执行语音识别的配置中,因为未破坏相应麦克风之间的相位关系,所以提高了话音方向估计的准确度,可以通过波束形成适当地提取目标话音分量,并且可以提高语音识别准确度。
此外,在作为实施例的信号处理装置中,限幅补偿单元基于未经限幅的麦克风的信号与经限幅的麦克风的信号之间的平均功率比来抑制经限幅的麦克风的信号。
因此,经限幅的麦克风的信号的功率可以适当地被抑制为在该信号未经限幅的情形下所必须获得的回声消除处理之后的功率。
因此,可以提高限幅补偿的准确度。
此外,在根据本实施例的信号处理装置中,限幅补偿单元使用与未经限幅的麦克风的信号当中的具有最小平均功率的麦克风的信号的平均功率比作为平均功率比。
具有最小平均功率的麦克风可以被重新表述为最难以发生限幅的麦克风。
因此,可以使对经限幅的麦克风的信号执行补偿的确定性最大化。
此外,在作为实施例的信号处理装置中,在存在用户话音并且存在扬声器输出的情形下,限幅补偿单元根据话音电平调整经限幅的麦克风的信号的抑制量。
在所谓的存在用户话音并且存在扬声器输出的双重通话部分中,在用户的话音电平高的情形下,由于限幅即使在噪声叠加区间中也大量地包括话音分量。另一方面,在话音电平低的情形下,话音分量倾向于被埋藏在大的限幅噪声中。因此,在双重通话区间中,根据话音电平调整经限幅的麦克风的信号的抑制量。
因此,如果用户的话音电平高,则可以减小信号的抑制量以防止话音分量被抑制,并且当用户的话音电平低时,可以增大信号的抑制量以抑制限幅噪声。
因此,当如在实施例中那样在限幅补偿的后续阶段中执行语音识别时,可以提高语音识别准确度。
此外,在作为实施例的信号处理装置中,在存在用户话音并且不存在扬声器输出的情形下,限幅补偿单元以根据后续阶段中的语音识别处理的特性通过抑制量来抑制经限幅的麦克风的信号。
存在用户话音且不存在扬声器输出的情形是限幅的原因被估计为用户话音的情形。通过上述配置,例如,在限幅的原因被估计为用户话音的情形下,可以根据后续阶段中的语音识别处理的特性以适当的抑制量来执行限幅补偿,使得即使在存在叠加了限幅噪声的一定程度的话音电平的情形下也可以比在话音分量受抑制的情形下更好地保持语音识别准确度,等等。
因此,可以提高语音识别的准确性。
此外,在作为实施例的信号处理装置中,在存在用户话音且不存在扬声器输出的情形下,限幅补偿单元不对经限幅的麦克风信号执行补偿。
在存在用户话音且不存在扬声器输出的情形下,即,在限幅的原因被估计为用户话音的情形下,经验上已知,不抑制信号可以在后续阶段中导致更有利的语音识别结果。在这种情形下,可以通过不执行如上所述的限幅补偿来提高语音识别准确度。
此外,作为实施例的信号处理装置还包括驱动单元(伺服马达21),改变多个麦克风和扬声器中的至少一者的位置;以及控制单元(限幅补偿单元33或控制单元18),响应于由限幅检测单元检测到的限幅,通过驱动单元改变多个麦克风和扬声器中的至少一者。
因此,如果检测到限幅,则可以改变相应麦克风和扬声器之间的位置关系,或者将多个麦克风或扬声器的位置移动到墙壁反射等小的位置。
因此,为了降低限幅发生的可能性或降低限幅噪声,以便响应于长期产生限幅的情形或产生大的限幅噪声的情形等,可以改变多个麦克风与扬声器的位置关系、或者多个麦克风自身的位置或者扬声器自身的位置,并且可以提高后续阶段的语音识别的准确度。
此外,根据本实施例的信号处理方法包括:回声消除处理,用于对来自多个麦克风的信号执行消除来自扬声器的输出信号分量的回声消除处理;限幅检测处理,用于对来自多个麦克风的信号执行限幅检测;以及限幅补偿处理,基于麦克风中的未经限幅的一个麦克风的信号来补偿麦克风中的经限幅的一个麦克风的回声消除处理之后的信号。
利用这种实施例的信号处理方法,可以获得与上述实施例的信号处理装置的操作和效果类似的操作和效果。
这里,如上所述的语音信号处理单元17的功能(具体地,与回声消除、限幅检测和限幅补偿相关的功能)可以作为软件处理由CPU等实施。基于程序执行软件处理,并将程序存储在CPU的计算机装置(信息处理装置)可读取的存储装置中。
作为实施例的程序是由信息处理装置执行的程序,该程序使信息处理装置实施包括回声消除功能的功能,以对来自多个麦克风的信号执行消除来自扬声器的输出信号分量的回声消除处理;限幅检测功能,用于对来自多个麦克风的信号执行限幅检测;以及限幅补偿功能,用于基于未经限幅的一个麦克风的信号对经限幅的一个麦克风的回声消除处理之后的信号进行补偿。
利用这样的程序,可以实施上述实施例的信号处理装置。
注意,本说明书中描述的效果仅仅是示例而不是限制,并且可以提供其他效果。
<9.本技术>
注意,本技术还可以具有如下配置。
(1)
一种信号处理装置,包括:
回声消除单元,对来自多个麦克风的信号执行消除来自扬声器的输出信号分量的回声消除处理;
限幅检测单元,对来自多个麦克风的信号执行限幅检测;以及
限幅补偿单元,基于麦克风中的未经限幅的一个麦克风的信号来补偿麦克风中的经限幅的一个麦克风的回声消除处理之后的信号。
(2)
根据以上(1)的信号处理装置,其中
限幅补偿单元通过抑制经限幅的麦克风的信号来补偿该信号。
(3)
根据以上(2)的信号处理装置,其中
限幅补偿单元基于未经限幅的麦克风的信号与经限幅的麦克风的信号之间的平均功率比来抑制该经限幅的麦克风的信号。
(4)
根据以上(3)的信号处理装置,其中
限幅补偿单元使用与未经限幅的麦克风的信号当中的具有最小平均功率的麦克风的信号的平均功率比,作为平均功率比。
(5)
根据以上(1)至(4)中任一项的信号处理装置,其中,
限幅补偿单元在存在用户话音并且存在扬声器输出的情形下,根据话音电平调整经限幅的麦克风的信号的抑制量。
(6)
根据以上(1)至(5)中任一项的信号处理装置,其中,
限幅补偿单元在存在用户话音并且不存在扬声器输出的情形下,以根据后续阶段中的语音识别处理的特性的抑制量来抑制经限幅的麦克风的信号。
(7)
根据以上(1)至(5)中任一项的信号处理装置,其中,
限幅补偿单元在存在用户话音并且不存在扬声器输出的情形下不对经限幅的麦克风信号执行补偿。
(8)
根据以上(1)至(7)中任一项的信号处理装置,还包括:
驱动单元,改变多个麦克风和扬声器中的至少一者;以及
控制单元,响应于由限幅检测单元检测到的限幅而通过驱动单元改变多个麦克风和扬声器中的至少一者。
参考标记列表
1 信号处理装置
11 壳体
12 麦克风阵列
13 麦克风
14 可移动单元
15 显示单元
16 扬声器
30 限幅检测单元
32 AEC处理单元
32a 回声消除处理单元
32b 双重通话估计单元
33 限幅补偿单元
35 话音区间估计单元
36 话音方向估计单元
37 语音强调单元
38 噪声抑制单元。

Claims (10)

1.一种信号处理装置,包括:
回声消除单元,对来自多个麦克风的信号执行消除来自扬声器的输出信号分量的回声消除处理;
限幅检测单元,对来自多个所述麦克风的所述信号执行限幅检测;以及
限幅补偿单元,基于所述麦克风中的未经限幅的麦克风的信号来补偿所述麦克风中的经限幅的麦克风的在所述回声消除处理之后的信号。
2.根据权利要求1所述的信号处理装置,其中,
所述限幅补偿单元通过抑制所述经限幅的麦克风的所述信号来执行补偿。
3.根据权利要求2所述的信号处理装置,其中,
所述限幅补偿单元基于所述未经限幅的麦克风的所述信号与所述经限幅的麦克风的所述信号之间的平均功率比,来抑制所述经限幅的麦克风的所述信号。
4.根据权利要求3所述的信号处理装置,其中,
所述限幅补偿单元使用所述未经限幅的麦克风当中的具有最小平均功率的麦克风的信号的平均功率比,作为所述平均功率比。
5.根据权利要求1所述的信号处理装置,其中,
所述限幅补偿单元在存在用户话音并且存在扬声器输出的情形下,根据话音电平调整所述经限幅的麦克风的所述信号的抑制量。
6.根据权利要求1所述的信号处理装置,其中,
所述限幅补偿单元在存在用户话音并且不存在扬声器输出的情形下,以根据后续阶段中的语音识别处理的特性的抑制量来抑制所述经限幅的麦克风的所述信号。
7.根据权利要求1所述的信号处理装置,其中,
所述限幅补偿单元在存在用户话音并且不存在扬声器输出的情形下不对所述经限幅的麦克风的所述信号执行补偿。
8.根据权利要求1所述的信号处理装置,进一步包括:
驱动单元,改变多个所述麦克风和所述扬声器中的至少一者的位置;以及
控制单元,响应于由所述限幅检测单元检测到的限幅而通过所述驱动单元改变多个所述麦克风和所述扬声器中的至少一者的位置。
9.一种信号处理方法,包括:
回声消除过程,对来自多个麦克风的信号执行消除来自扬声器的输出信号分量的回声消除处理;
限幅检测过程,对来自多个所述麦克风的所述信号执行限幅检测;以及
限幅补偿过程,基于所述麦克风中的未经限幅的麦克风的信号来补偿所述麦克风中的经限幅的麦克风的在所述回声消除处理之后的信号。
10.一种程序,由信息处理装置执行,所述程序使所述信息处理装置实施包括以下的功能:
回声消除功能,对来自多个麦克风的信号执行消除来自扬声器的输出信号分量的回声消除处理;
限幅检测功能,对来自多个所述麦克风的所述信号执行限幅检测;以及
限幅补偿功能,基于所述麦克风中的未经限幅的麦克风的信号来补偿所述麦克风中的经限幅的麦克风的在所述回声消除处理之后的信号。
CN201980037465.5A 2018-06-11 2019-04-22 信号处理装置、信号处理方法和计算机可读存储介质 Active CN112237008B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2018110998 2018-06-11
JP2018-110998 2018-06-11
PCT/JP2019/017047 WO2019239723A1 (ja) 2018-06-11 2019-04-22 信号処理装置、信号処理方法、プログラム

Publications (2)

Publication Number Publication Date
CN112237008A true CN112237008A (zh) 2021-01-15
CN112237008B CN112237008B (zh) 2022-06-03

Family

ID=68842104

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201980037465.5A Active CN112237008B (zh) 2018-06-11 2019-04-22 信号处理装置、信号处理方法和计算机可读存储介质

Country Status (6)

Country Link
US (1) US11423921B2 (zh)
EP (1) EP3806489A4 (zh)
JP (1) JP7302597B2 (zh)
CN (1) CN112237008B (zh)
BR (1) BR112020024840A2 (zh)
WO (1) WO2019239723A1 (zh)

Citations (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE2207141A1 (de) * 1971-12-03 1973-08-02 Western Electric Co Schaltungsanordnung zur unterdrueckung unerwuenschter sprachsignale mittels eines vorhersagenden filters
WO1992012583A1 (en) * 1991-01-04 1992-07-23 Picturetel Corporation Adaptive acoustic echo canceller
US5796819A (en) * 1996-07-24 1998-08-18 Ericsson Inc. Echo canceller for non-linear circuits
GB9907912D0 (en) * 1998-08-20 1999-06-02 Mitel Corp Echo canceller with compensation for codec limiting effects
US6148078A (en) * 1998-01-09 2000-11-14 Ericsson Inc. Methods and apparatus for controlling echo suppression in communications systems
US6507653B1 (en) * 2000-04-14 2003-01-14 Ericsson Inc. Desired voice detection in echo suppression
US20030026437A1 (en) * 2001-07-20 2003-02-06 Janse Cornelis Pieter Sound reinforcement system having an multi microphone echo suppressor as post processor
US20030076948A1 (en) * 2001-10-22 2003-04-24 Eiichi Nishimura Echo canceler compensating for amplifier saturation and echo amplification
CN1798217A (zh) * 2004-12-14 2006-07-05 哈曼贝克自动系统-威美科公司 限制接收音频的系统
US20060147063A1 (en) * 2004-12-22 2006-07-06 Broadcom Corporation Echo cancellation in telephones with multiple microphones
EP1703774A2 (en) * 2005-03-19 2006-09-20 Microsoft Corporation Automatic audio gain control for concurrent capture applications
US20070165838A1 (en) * 2006-01-13 2007-07-19 Microsoft Corporation Selective glitch detection, clock drift compensation, and anti-clipping in audio echo cancellation
US20070274535A1 (en) * 2006-05-04 2007-11-29 Sony Computer Entertainment Inc. Echo and noise cancellation
US20100074434A1 (en) * 2008-09-24 2010-03-25 Nec Electronics Corporation Echo cancelling device, communication device, and echo cancelling method having the error signal generating circuit
US20160196818A1 (en) * 2015-01-02 2016-07-07 Harman Becker Automotive Systems Gmbh Sound zone arrangement with zonewise speech suppression
JP2017011541A (ja) * 2015-06-23 2017-01-12 富士通株式会社 音声処理装置、プログラム、及び通話装置

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6163608A (en) 1998-01-09 2000-12-19 Ericsson Inc. Methods and apparatus for providing comfort noise in communications systems
JP4281568B2 (ja) 2003-07-31 2009-06-17 ソニー株式会社 通話装置
JP2010245657A (ja) 2009-04-02 2010-10-28 Sony Corp 信号処理装置及び方法、並びにプログラム
JP5017441B2 (ja) 2010-10-28 2012-09-05 株式会社東芝 携帯型電子機器
CN104519212B (zh) 2013-09-27 2017-06-20 华为技术有限公司 一种消除回声的方法及装置

Patent Citations (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE2207141A1 (de) * 1971-12-03 1973-08-02 Western Electric Co Schaltungsanordnung zur unterdrueckung unerwuenschter sprachsignale mittels eines vorhersagenden filters
WO1992012583A1 (en) * 1991-01-04 1992-07-23 Picturetel Corporation Adaptive acoustic echo canceller
US5796819A (en) * 1996-07-24 1998-08-18 Ericsson Inc. Echo canceller for non-linear circuits
US6148078A (en) * 1998-01-09 2000-11-14 Ericsson Inc. Methods and apparatus for controlling echo suppression in communications systems
GB9907912D0 (en) * 1998-08-20 1999-06-02 Mitel Corp Echo canceller with compensation for codec limiting effects
US6507653B1 (en) * 2000-04-14 2003-01-14 Ericsson Inc. Desired voice detection in echo suppression
US20030026437A1 (en) * 2001-07-20 2003-02-06 Janse Cornelis Pieter Sound reinforcement system having an multi microphone echo suppressor as post processor
US20030076948A1 (en) * 2001-10-22 2003-04-24 Eiichi Nishimura Echo canceler compensating for amplifier saturation and echo amplification
CN1798217A (zh) * 2004-12-14 2006-07-05 哈曼贝克自动系统-威美科公司 限制接收音频的系统
US20060147063A1 (en) * 2004-12-22 2006-07-06 Broadcom Corporation Echo cancellation in telephones with multiple microphones
EP1703774A2 (en) * 2005-03-19 2006-09-20 Microsoft Corporation Automatic audio gain control for concurrent capture applications
US20070165838A1 (en) * 2006-01-13 2007-07-19 Microsoft Corporation Selective glitch detection, clock drift compensation, and anti-clipping in audio echo cancellation
US20070274535A1 (en) * 2006-05-04 2007-11-29 Sony Computer Entertainment Inc. Echo and noise cancellation
US20100074434A1 (en) * 2008-09-24 2010-03-25 Nec Electronics Corporation Echo cancelling device, communication device, and echo cancelling method having the error signal generating circuit
US20160196818A1 (en) * 2015-01-02 2016-07-07 Harman Becker Automotive Systems Gmbh Sound zone arrangement with zonewise speech suppression
JP2017011541A (ja) * 2015-06-23 2017-01-12 富士通株式会社 音声処理装置、プログラム、及び通話装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
朱勇: "回声消除技术在蓝牙车载免提系统中的应用", 《黑龙江水专学报》 *
殷悦: ""高通平台的手机消除优化"", 《数据采集和处理》 *

Also Published As

Publication number Publication date
WO2019239723A1 (ja) 2019-12-19
EP3806489A1 (en) 2021-04-14
BR112020024840A2 (pt) 2021-03-02
JP7302597B2 (ja) 2023-07-04
CN112237008B (zh) 2022-06-03
EP3806489A4 (en) 2021-08-11
US20210241781A1 (en) 2021-08-05
US11423921B2 (en) 2022-08-23
JPWO2019239723A1 (ja) 2021-07-01

Similar Documents

Publication Publication Date Title
US11315587B2 (en) Signal processor for signal enhancement and associated methods
JP4697465B2 (ja) 信号処理の方法、信号処理の装置および信号処理用プログラム
JP2538176B2 (ja) エコ―制御装置
EP1995940B1 (en) Method and apparatus for processing at least two microphone signals to provide an output signal with reduced interference
JP3727258B2 (ja) エコー抑制処理システム
JP2685031B2 (ja) 雑音消去方法及び雑音消去装置
WO2012046582A1 (ja) 信号処理装置、信号処理方法、及び信号処理プログラム
KR20090017531A (ko) 음향 에코를 제거하기 위한 컴퓨터 구현 프로세스 및 시스템
US10978086B2 (en) Echo cancellation using a subset of multiple microphones as reference channels
CN111052767B (zh) 音频处理装置、音频处理方法以及信息处理装置
JP5391103B2 (ja) 多チャネルエコー消去方法、多チャネルエコー消去装置、多チャネルエコー消去プログラム及びその記録媒体
CN111145771A (zh) 语音信号处理方法、处理装置、终端及其存储介质
CN109215672B (zh) 一种声音信息的处理方法、装置及设备
JP2005318518A (ja) ダブルトーク状態判定方法、エコーキャンセル方法、ダブルトーク状態判定装置、エコーキャンセル装置およびプログラム
US20140249809A1 (en) Audio signal noise attenuation
JP2002057606A (ja) 音響およびネットワークエコーキャンセレーションにおいて用いるための耐誤差性の適応フィルタ
JP5293952B2 (ja) 信号処理方法、信号処理装置、並びに信号処理プログラム
CN112237008B (zh) 信号处理装置、信号处理方法和计算机可读存储介质
CN112151060A (zh) 单通道语音增强方法及装置、存储介质、终端
KR101418023B1 (ko) 위상정보를 이용한 자동 이득 조절 장치 및 방법
JP4709714B2 (ja) エコー消去装置、その方法、そのプログラム、およびその記録媒体
US20210144472A1 (en) Echo suppression device, echo suppression method, and non-transitory computer-readable recording medium which records echo suppression program
JPH04271622A (ja) エコーキャンセラ
Schrammen et al. Change prediction for low complexity combined beamforming and acoustic echo cancellation
WO2018087855A1 (ja) エコーキャンセラ装置、エコー消去方法、及びエコー消去プログラム

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant