CN101740027A - 声音处理装置、声音处理方法及程序 - Google Patents

声音处理装置、声音处理方法及程序 Download PDF

Info

Publication number
CN101740027A
CN101740027A CN200910209332A CN200910209332A CN101740027A CN 101740027 A CN101740027 A CN 101740027A CN 200910209332 A CN200910209332 A CN 200910209332A CN 200910209332 A CN200910209332 A CN 200910209332A CN 101740027 A CN101740027 A CN 101740027A
Authority
CN
China
Prior art keywords
sound
import
unit
processing apparatus
input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN200910209332A
Other languages
English (en)
Inventor
难波隆一
安部素嗣
西口正之
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Publication of CN101740027A publication Critical patent/CN101740027A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R29/00Monitoring arrangements; Testing arrangements
    • H04R29/004Monitoring arrangements; Testing arrangements for microphones
    • H04R29/005Microphone arrays
    • H04R29/006Microphone matching
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/005Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L2021/02087Noise filtering the noise being separate speech, e.g. cocktail party
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02163Only one microphone
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0316Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
    • G10L21/0364Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude for improving intelligibility
    • G10L2021/03643Diver speech
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2430/00Signal processing covered by H04R, not provided for in its groups
    • H04R2430/20Processing of the output signals of the acoustic transducers of an array for obtaining a desired directivity characteristic
    • H04R2430/21Direction finding using differential microphone array [DMA]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2499/00Aspects covered by H04R or H04S not otherwise provided for in their subgroups
    • H04R2499/10General applications
    • H04R2499/11Transducers incorporated or for use in hand-held devices, e.g. mobile phones, PDA's, camera's

Landscapes

  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Otolaryngology (AREA)
  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

本发明公开了声音处理装置、声音处理方法及程序。提供了声音处理装置,包括:输入校正单元,对从第一输入装置输入的第一输入声音的特性与从第二输入装置输入的第二输入声音的特性之间的差别进行校正;声音分离单元,将第二输入声音以及经输入校正单元校正后的第一输入声音分离为多个声音;声音类型估计单元,估计经声音分离单元分离的多个声音的声音类型;混合比率计算单元,根据由声音类型估计单元估计出的声音类型计算每个声音的混合比率;以及声音混合单元,以由混合比率计算单元计算出的混合比率来混合由声音分离单元分离的多个声音。

Description

声音处理装置、声音处理方法及程序
技术领域
本发明涉及声音处理装置、声音处理方法及程序,并且具体地涉及通过将呼叫麦克风用作成像麦克风(imaging microphone)来调节声音的声音处理装置、声音处理方法及程序。
背景技术
近年来,诸如移动电话之类的通信装置越来越多地被装配有成像应用功能。如果通信装置装配有成像功能,则该通信装置装配有呼叫麦克风和成像麦克风。这些麦克风以进行呼叫时呼叫麦克风被使用而在成像期间成像麦克风被使用的方式彼此独立地被使用。
然而,如果在成像期间使用呼叫麦克风以及成像麦克风,则可以提高成像声音的质量。例如,如果成像麦克风是单声道的,则可以新获得诸如利用麦克风之间的空间传输特性的声音源分离之类的质量提高。如果成像麦克风是立体声的,则可以通过进一步的声音源分离来获得通过更精确地确定声音源方向而带来的功能化改进。
例如,可以考虑通过分离源自多个声音源的声音来仅强调呼叫语音的方法。作为强调声音的方法,可以考虑如下方法:将包括多个部分的音乐信号分离为各个部分并且在重新混合经分离的声音之前强调重要部分(例如,日本专利申请早期公开No.2002-236499)。
发明内容
然而,日本专利申请早期公开No.2002-236499是意图用于音乐信号的而不是用于成像声音的技术。还存在如下问题:通常呼叫麦克风的特性与成像麦克风的特性极为不同并且各个麦克风的布置未必被优化用于提高呼叫语音的质量。
本发明是鉴于上面的问题而作出的,并且希望提供能够利用具有不同特性的麦克风分离源自各个声音源的经混合声音并且以所希望比率重新混合经分离声音的新颖的改进的声音处理装置、声音处理方法以及程序。
根据本发明的一个实施例,提供了声音处理装置,包括:输入校正单元,对从第一输入装置输入的第一输入声音的特性与不同于第一输入声音的特性的、从第二输入装置输入的第二输入声音的特性之间的差别进行校正;声音分离单元,将经输入校正单元校正后的第一输入声音以及第二输入声音分离为多个声音;声音类型估计单元,估计经声音分离单元分离的多个声音的声音类型;混合比率计算单元,根据由声音类型估计单元估计出的声音类型计算每个声音的混合比率;以及声音混合单元,以由混合比率计算单元计算出的混合比率来混合由声音分离单元分离的多个声音。
根据上面的配置,从声音处理装置的第一输入装置输入的第一输入声音的特性与从第二输入装置输入的第二输入声音的特性之间的差异被校正。第二输入声音以及输入被校正的第一输入声音被分离为由多个声音源产生的声音,并且经分离的多个声音类型被估计。然后,根据估计出的声音类型计算每个声音的混合比率,并且以该混合比率重新混合每个经分离的声音。然后,从利用重新混合后的经混合声音校正了其特性的第一输入声音中提取呼叫语音。
因此,可以利用第一装置作为第二装置来分离源自各个声音源的混合声音,然后以所希望比率重新混合。此外,在装配有成像装置的声音处理装置进行成像期间,除了利用成像麦克风之外还利用呼叫麦克风在各种情形中所记录的声音可以被连续且舒适地听到,而没有用户的任何音量操作。
第一输入装置可以是呼叫麦克风,并且第二输入装置可以是成像麦克风。
输入校正单元可以向呼叫麦克风和/或成像麦克风的特性不充分的频带设置标志,并且声音分离单元可以不对由输入校正单元设置了标志的频带中的声音进行分离。
输入校正单元可以校正第一输入声音和/或第二输入声音的频率特性和/或动态范围。
输入校正单元可以对第一输入声音和/或第二输入声音执行采样速率转换。
输入校正单元可以校正因A/D转换引起的第一输入声音和第二输入声音之间的延时差异。
可以包括:同一性确定单元,判断经声音分离单元分离的声音在多个块间是否相同;以及记录单元,以块为单位记录经声音分离单元分离的声音。
声音分离单元可以利用声音的统计独立性以及空间传输特性的差异来将输入声音分离为多个声音。
声音分离单元可以利用各声音源的时间-频率分量之间的重叠很少来将输入声音分离为源自特定声音源的声音以及其它声音。
声音类型估计单元可以利用输入声音在离散时间处的幅度信息分布、方向、音量、过零数等来估计输入声音是稳定声音还是不稳定声音。
声音类型估计单元可以估计被估计为不稳定声音的声音是噪声声音还是人发出的语音。
混合比率计算单元可以计算不显著改变由声音类型估计单元估计为稳定声音的声音的音量的混合比率。
混合比率计算单元可以计算降低被声音类型估计单元估计为噪声声音的声音的音量而不降低被估计为人发出的语音的声音的音量的混合比率。
根据本发明的另一实施例,提供了声音处理方法,包括以下步骤:对从第一输入装置输入的第一输入声音的特性与不同于第一输入声音的特性的、从第二输入装置输入的第二输入声音的特性之间的差别进行校正;将经校正的第一输入声音以及第二输入声音分离为多个声音;估计经分离的多个声音的声音类型;根据估计出的声音类型计算每个声音的混合比率;以及以计算出的混合比率来混合经分离的多个声音。
根据本发明的另一实施例,提供了一种用于使得计算机用作声音处理装置的程序,声音处理装置包括:输入校正单元,对从第一输入装置输入的第一输入声音的特性与不同于第一输入声音的特性的、从第二输入装置输入的第二输入声音的特性之间的差别进行校正;声音分离单元,将第二输入声音以及经输入校正单元校正后的第一输入声音分离为多个声音;声音类型估计单元,估计经声音分离单元分离的多个声音的声音类型;混合比率计算单元,根据由声音类型估计单元估计出的声音类型计算每个声音的混合比率;以及声音混合单元,以由混合比率计算单元计算出的混合比率来混合由声音分离单元分离的多个声音。
根据本发明,如上所述,可以利用具有不同特性的麦克风来分离源自各个声音源的混合声音,然后以所希望比率重新混合。
附图说明
图1是示出了根据本发明一个实施例的声音处理装置的功能配置的框图;
图2是图示出根据本实施例由输入校正单元进行的校正的一个示例的示意图;
图3是示出根据本实施例由输入校正单元进行的标志设置处理的流程图;
图4是示出了根据本实施例的声音类型估计单元的配置的功能框图;
图5是示出了基于两个输入声音的相位差估计输入声音的声音源位置的状态的示意图;
图6是示出了基于三个输入声音的相位差估计输入声音的声音源位置的状态的示意图;
图7是示出了基于两个输入声音的音量估计输入声音的声音源位置的状态的示意图;
图8是示出了基于三个输入声音的音量估计输入声音的声音源位置的状态的示意图;
图9是图示出根据本实施例由声音处理装置执行的声音处理方法的流程图。
具体实施方式
下面,将参考附图详细描述本发明的优选实施例。注意,在本说明书和附图中,用相同的标号表示具有基本上相同的功能和结构的结构元件,并且省略对这些结构元件的重复说明。
将以如下所示的顺序来描述“具体实施方式”:
[1]实施例的目的
[2]声音处理处理装置的功能配置
[3]声音处理装置的操作
[1]实施例的目的
首先,将描述实施例的目的。近年来,诸如移动电话之类的通信装置越来越多地被装配有成像应用功能。如果通信装置装配有成像功能,则该通信装置装配有呼叫麦克风和成像麦克风。这些麦克风以进行呼叫时呼叫麦克风被使用而在成像期间成像麦克风被使用的方式彼此独立地被使用。
然而,如果在成像期间使用呼叫麦克风以及成像麦克风,则可以提高成像声音的质量。例如,如果成像麦克风是单声道的,则可以新寻求诸如利用麦克风之间的空间传输特性的声音源分离之类的功能化改进。如果成像麦克风是立体声的,则可以通过进一步的声音源分离来获得通过更精确地确定声音源方向而带来的功能化改进。
然而,存在如下问题:通常呼叫麦克风的特性与成像麦克风的特性极为不同并且各个麦克风的布置未必被优化用于提高呼叫语音的质量。因此,在关注上面的情形的情况下,开发出了根据本发明实施例的声音处理装置10。根据本实施例的声音处理装置10,可以利用呼叫麦克风作为成像麦克风来分离源自各个声音源的经混合声音,然后以所希望比率重新混合。
[2]声音处理装置的功能配置
接下来,将参考图1描述声音处理装置10的功能配置。作为根据本实施例的声音处理装置10,例如可以以具有通信功能和成像功能的移动电话为例。当利用具有通信功能和成像功能等的移动电话摄取图像时,通常源自所希望声音源的声音未以成像装置的操作者所希望的适当音量平衡被记录,这是因为源自所希望声音源的声音被源自其它声音源的声音掩盖。此外,如果在诸如移动或不连续之类的各种情形中记录的声音被再现,则每个所记录的音量水平可能波动较大,从而使得通常难以以固定再现音量舒适地收听声音。然而,根据本实施例中的声音处理装置10,通过除了利用成像麦克风之外还利用呼叫麦克风来检测多个声音源的出现,变得能够自适应地调节声音源之间的音量平衡并且还能够调节多个记录素材的音量水平。
图1是示出本实施例中的声音处理装置10的功能配置的框图。如图1所示,声音处理装置10包括:第一声音记录单元102、输入校正单元104、第二声音记录单元110、声音分离单元112、记录单元114、存储单元116、同一性(identity)确定单元118、混合比率计算单元120、声音类型估计单元122以及声音混合单元124。
第一声音记录单元102具有记录声音并离散地量化所记录声音的功能。第一声音记录单元102是本发明第一输入装置的一个示例,并且例如是呼叫麦克风。第一声音记录单元102包含两个或更多个物理上分离的记录单元(例如,麦克风)。第一声音记录单元102可以包含两个记录单元,一个用于记录左边的声音,另一个用于记录右边的声音。第一声音记录单元102将经离散量化的声音作为输入声音提供给输入校正单元104。第一声音记录单元102可以以预定长度的块为单位将输入声音提供给输入校正单元104。
输入校正单元104具有校正具有不同特性的呼叫麦克风的特性的功能。即,对从作为第一输入装置的呼叫麦克风输入的第一输入声音(呼叫语音)的特性与从作为第二输入装置的成像麦克风输入的第二输入声音(成像期间的声音)的特性之间的差异进行校正。校正输入声音例如是在采样频率与其它麦克风的采样频率不同时执行速率转换,并且在频率特性不同时应用频率特性的逆特性。如果由A/D转换等导致的延时量不同,则可以校正延时量。
这里,将参考图2描述由输入校正单元104进行的校正的一个示例。图2是图示出由输入校正单元104进行的校正的一个示例的示意图。如图2所示,检测器208检测如下间隔(单个声音源处于主导地位的间隔),在该间隔中,仅呼叫语音主要地被输入作为第二输入装置的成像麦克风中,并且此外足够音量的呼叫语音被输入作为第一输入装置的呼叫麦克风。
这里,假设通过对麦克风之一应用延时来使成像麦克风和呼叫麦克风的相位对齐(align)。此外,例如假设向呼叫麦克风输入和成像麦克风输入应用了动态范围转换和FIR滤波器之后的输出的差异或平方误差被设为评估函数。然后,通过适应性地更新FIR滤波器系数和动态范围转换曲线的倾斜度以使得评估函数最小化,从而使两个麦克风输入的特性对齐。
此时,如果作为校正的结果未获得充分的特性或者麦克风特性原本就不充分,则输入校正单元104可以对适用频带设置标志。可以不在设置了标志的频带上执行由后面所述的声音分离单元112进行的分离处理。
这里,将参考图3描述输入校正单元104进行的标志设置。图3是示出了输入校正单元104进行的标志设置处理的流程图。如图3所示,首先,第一频率块(频率f)被设为0(S102)。
接下来,判断频率f是否是终止频率(S104)。如果在步骤S104频率f是终止频率,则处理终止。如果在步骤S104频率f不是终止频率,则判断特定校正的评估函数是否足够地收敛(S106)。即,判断作为输入校正单元104的校正结果是否获得了充分的特性。
如果在步骤S106判定特定校正的评估函数足够收敛,则标志(Flag)被设为1(S108)。在此情况中,执行声音分离处理。另一方面,如果在步骤S106判定特定校正的评估函数不足够收敛,则标志(Flag)被设为0(S110)。在此情况中,不执行声音分离处理。然后,处理下一频率块(f++)(S112)。
返回图1,第二声音记录单元110具有记录声音并离散地量化所记录声音的功能。第二声音记录单元110是本发明第二输入装置的一个示例,并且例如是成像麦克风。第二声音记录单元110包含两个或更多个物理上分离的记录单元(例如,麦克风)。第二声音记录单元110可以包含两个记录单元,一个用于记录左边的声音,而另一个用于记录右边的声音。第二声音记录单元110将经离散量化的声音作为输入声音提供给声音分离单元112。第二声音记录单元110可以以预定长度的块为单位将输入声音提供给声音分离单元112。
声音分离单元112具有将输入声音分离为源自多个声音源的多个声音的功能。更具体地,利用声音源的统计独立性以及空间传输特性差异来分离由第二声音记录单元110提供的输入声音。如上所述,当输入声音由第二声音记录单元110以预定长度的块为单位来提供时,可以以块为单位来分离声音。
作为通过声音分离单元112分离声音源的具体技术,例如可以使用利用独立分量分析的技术(文章1:Y.Mori,H.Saruwatari,T.Takatani,S.Ukai,K.Shikano,T.Hietaka,T.Morita的Real-Time Implementation of Two-Stage Blind Source Separation Combining SIMO-ICA and Binary Masking,IWAENC2005学报,(2005))。还可以使用利用声音的时间-频率分量之间的重叠很少的技术(文章2:O.Yilmaz和S.Richard的BlindSeparation of Speech Mixtures via Time-Frequency Masking,IEEETRANSACTIONS ON SIGNAL PROCES SING,VOL.52,NO.7,7月(2004))。
如果在较高频率处发生由麦克风的布置引起的空间混叠(spatialaliasing),则可以利用不发生空间混叠的较低频率处的声音源方向信息以及声音从声音源方向到各个麦克风的路径差异来分离声音。不在被输入校正单元104设置了标志的、具有不充分的特性的前述频带上执行声音分离处理。在此情况下,校正单元104利用基于与设置了标志的频带相邻的频带中的经分离声音获得的声音源方向信息来进行校正。
同一性确定单元118具有如下功能:当声音分离单元112以块为单位将输入声音分离为多个声音时判断分离后的声音在多个块间是否相同。同一性确定单元118例如利用由声音分离单元112提供的经分离声音在离散时间处的幅度信息分布、音量、方向信息等,来判断连续块之间的分离声音是否源自相同声音源。
记录单元114具有以块为单位将经声音分离单元112分离的声音的音量信息记录在存储单元116中的功能。记录在存储单元116中的音量信息例如包括:由同一性确定单元118获取的每个经分离声音的声音类型信息,以及由声音分离单元112获取的经分离声音的平均值、最大值、方差等。除了实时声音之外,还可以记录过去被执行了声音处理的经分离声音的音量平均值。如果在输入声音之前可获得输入声音的音量信息,则可以记录音量信息。
声音类型估计单元122具有估计经声音分离单元112分离的多个声音的声音类型的功能。例如根据从经分离声音的音量以及幅度信息的分布、最大值、平均值、方差、过零数等获得的声音信息,以及方向距离信息来估计声音类型(稳定或不稳定,噪声或声音)。这里,将描述声音类型估计单元122的详细功能。下面将描述声音处理装置10被安装在成像装置中的情况。声音类型估计单元122判断是否包含源自成像装置附近的任何声音,例如成像装置的操作者的语音或操作者的操作产生的噪声。从而,可以估计出产生声音的声音源。
图4是示出声音类型估计单元122的配置的功能框图。声音类型估计单元122包括音量检测单元130、声音质量检测单元138、距离/方向估计器144以及声音估计器146,其中,音量检测单元130包括音量检测器132、平均音量检测器134和最大音量检测器136,声音质量检测单元138包括频谱检测器140和声音质量检测器142。
音量检测器132检测以预定长度的帧(例如,数十msec)给出的输入声音的音量值序列(幅度),并且将检测到的输入声音的音量值序列输出给平均音量检测器134、最大音量检测器136、声音质量检测器142和距离/方向估计器144。
平均音量检测器134基于从音量检测器132输入的以帧为单位的音量值序列,例如以帧为单位检测输入声音的音量的平均值。平均音量检测器134将检测到的音量平均值输出给声音质量检测器142和声音估计器146。
最大音量检测器136基于从音量检测器132输入的以帧为单位的音量值序列,例如以帧为单位检测输入声音的音量的最大值。最大音量检测器136将检测到的输入声音的音量最大值输出给声音质量检测器142和声音估计器146。
频谱检测器140例如通过对输入声音执行FFT(快速傅立叶变换)来在输入声音的频域中检测各个频谱。频谱检测器140将检测到的频谱输出给声音质量检测器142和距离/方向估计器144。
声音质量检测器142具有输入给它的输入声音、音量的平均值、音量的最大值以及频谱,检测人类语音的相似度、音乐的相似度、稳定性以及输入声音的脉冲特性(impulse property),然后将检测结果输出到声音估计器146。人类语音的相似度可以是指示出部分还是所有输入声音与人类语音相匹配或者输入声音与人类语音的类似程度的信息。此外,音乐的相似度可以是指示部分还是所有输入声音与音乐相匹配或者输入声音与音乐的类似程度的信息。
稳定性例如指示像空调声音的,声音的统计特性不随着时间显著改变的一种特性。脉冲特性例如指示像吹出的声音或爆破音的,能量集中在较短的时间段中的充满噪声的一种特性。
声音质量检测器142例如可以基于输入声音的频谱分布与人类语音的频谱分布的匹配程度来检测人类语音的相似度。声音质量检测器142还可以通过将各帧的音量的最大值相比较或者与其它帧相比较,来检测音量的最大值增加时的较高脉冲特性。
声音质量检测器142可以利用诸如过零方法和LPC(线性预测编码)分析之类的信号处理技术来分析输入声音的声音质量。根据过零方法,输入声音的基本周期被检测到,因此,声音质量检测器142根据该基本周期是否包含在人类语音的基本周期(例如,100到200Hz)中来检测人类语音的相似度。
距离/方向估计器144具有输入给它的输入声音、输入声音的音量值序列、输入声音的频谱等。距离/方向估计器144具有如下功能:基于输入,作为位置信息计算单元来估计输入声音的声音源,或者诸如产生了输入声音所包含的主导声音的声音源的方向信息和距离信息之类的位置信息。距离/方向估计器144即使在由成像装置的主体引起的声音的回响或反射具有较大影响时,也可以基于过去的平均音量值和最大音量值,通过组合输入声音的相位、音量和音量值序列以及声音源的位置信息估计方法,来总地估计声音源的位置。将参考图5至图8描述距离/方向估计器144对方向信息和距离信息的估计方法的一个示例。
图5是示出了基于两个输入声音的相位差来估计输入声音的声音源位置的状态的示意图。如果假设声音源是点声音源,则可以测量到达构成第二声音记录单元110的麦克风M1和麦克风M2的每个输入声音的相位以及输入声音的相位差。此外,可以根据输入声音的相位差以及频率f和声速c的值来计算从麦克风M1到输入声音的声音源位置的距离与从麦克风M2到输入声音的声音源位置的距离之间的差值。声音源出现在距离差是常数的一组点上。已经知道,距离差是常数的这样一组点形成了双曲线。
例如,假设麦克风M1位于(x1,0)而麦克风M2位于(x2,0)(基于该假设,不失一般性)。如果要确定的一组声音源位置上的点在(x,y)并且距离差为d,则下面所示的公式1成立:
[式1]
( x - x 1 ) 2 + y 2 - ( x - x 2 ) 2 + y 2 = d (公式1)
此外,公式1可被扩展为公式2,从公式2导出表示双曲线的公式3:
[式2]
{(x-x1)2+2y2+(x-x2)2-d2}2=4{(x-x1)2+y2}{(x-x2)2+y2}
(公式2)
[式3]
( x - x 1 + x 2 2 ) 2 ( d 2 ) 2 - y 2 ( 1 2 ) 2 = 1 (公式3)
距离/方向估计器144还可以基于由麦克风M1和麦克风M2所记录的输入声音之间的音量差,来确定距离/方向估计器144更接近麦克风M1和麦克风M2中的哪个。因此,例如如图5所示,可以确定声音源出现在更接近麦克风M2的双曲线1上。
顺便提及,用来计算相位差的输入声音的频率f需要满足公式4中的与麦克风M1和麦克风M2之间的距离有关的条件:
[式4]
f < c 2 d (公式4)
图6是示出了基于三个输入声音间的相位差来估计输入声音的声音源位置的状态的示意图。假设构成了第二声音记录单元110的麦克风M3、麦克风M4和麦克风M5的布置如图6所示。与到达麦克风M3和麦克风M4的输入声音的相位相比,到达麦克风M5的输入声音的相位可能被延时。在此情况中,距离/方向估计器144可以确定声音源位于麦克风M5相对于连接麦克风M3和麦克风M4的直线1的相对侧(前/后确定(front/back determination))。
此外,距离/方向估计器144基于到达麦克风M3和麦克风M4的每个的输入声音的相位差来计算声音源将出现在其上的双曲线2。随后,距离/方向估计器144可以基于到达麦克风M4和麦克风M5的每个的输入声音的相位差来计算声音源将出现在其上的双曲线3。结果,距离/方向估计器144可以估计出双曲线2和双曲线3的交点P1是声音源位置。
图7是示出了基于两个输入声音的音量来估计输入声音的声音源位置的状态的示意图。如果假设声音源是点声音源,则根据平方反比定律(inverse square law),在一个点处测得的音量与距离的平方成反比。如果假设了如图7所示的构成第二声音记录单元110的麦克风M6和麦克风M7,则到达麦克风M6和麦克风M7的音量的比率为常数的一组点形成圆圈。距离/方向估计器144可以通过根据从音量检测器132输入的音量值来确定音量的比率,从而确定声音源将出现在其上的圆圈的半径和中心位置。
如图7所示,假设麦克风M6位于(x3,0)而麦克风M7位于(x4,0)。在此情况中(基于该假设,不失一般性),如果要确定的一组声音源位置上的点在(x,y),则从每个麦克风到声音源的距离r1和r2可以表达为下面的公式5:
[式5]
r 1 = ( x - x 3 ) 2 + y 2 r 2 = ( x - x 4 ) 2 + y 2 (公式5)
这里,由于平方反比定律,下面的公式6成立:
[式6]
Figure G200910209332XD0000131
(公式6)
利用正常数d(例如,4)将公式6变换为公式7:
[式7]
r 2 2 r 1 2 = d (公式7)
通过将r1和r2代入公式7得出了下面的公式8:
[式8]
( x - x 4 ) 2 + y 2 ( x - x 3 ) 2 + y 2 = d
( x - x 4 - dx 3 1 - d ) 2 + y 2 = d ( x 4 - x 3 ) 2 ( 1 - d ) 2 (公式8)
如图7所示,从公式8,距离/方向估计器144可以估计出声音源出现在圆圈1上,圆圈1的中心坐标用公式9表示并且其半径用公式10表示。
[式9]
( x 4 - dx 3 1 - d , 0 ) (公式9)
[式10]
| x 4 - x 3 1 - d | d (公式10)
图8是示出了基于三个输入声音的音量来估计输入声音的声音源位置的状态的示意图。假设了如图8所示的构成第二声音记录单元110的麦克风M3、麦克风M4和麦克风M5的布置。与到达麦克风M3或麦克风M4的输入声音的相位相比,到达麦克风M5的输入声音的相位可能被延时。在此情况中,距离/方向估计器144可以确定声音源位于相对于连接麦克风M3和麦克风M4的直线2的、麦克风M5的相对侧(前/后确定)。
此外,距离/方向估计器144基于到达麦克风M3和麦克风M4的每个的输入声音的音量比率来计算声音源将出现在其上的圆圈2。随后,距离/方向估计器144可以基于到达麦克风M4和麦克风M5的每个的输入声音的音量比率来计算声音源将出现在其上的圆圈3。结果,距离/方向估计器144可以估计出圆圈2和圆圈3的交点P2是声音源位置。如果使用四个或更多个麦克风,则包括声音源的空间布置,距离/方向估计器144可以进行更精确地估计。
距离/方向估计器144如上所述那样基于输入声音的相位差或音量比率来估计输入声音的声音源的位置,并且将估计出的声音源的方向信息或距离信息输出给声音估计器146。下面的表1列出了上述音量检测单元130、声音质量检测单元138和距离/方向估计器144的每个组件的输入/输出。
[表1]
  块   输入   输出
  音量检测器   输入声音   帧内的音量值序列(幅度)
  块   输入   输出
  平均音量检测器   帧内的音量值序列(幅度)   音量的平均值
  最大音量检测器   帧内的音量值序列(幅度)   音量的最大值
  频谱检测器   输入声音   频谱
  声音质量检测器   输入声音音量的平均值音量的最大值频谱   人类语音的相似度音乐的相似度稳定或不稳定脉冲特性
  距离/方向估计器   输入声音帧内的音量值序列(幅度)频谱   方向信息距离信息
如果源自多个声音源的声音被叠加在输入声音上,则距离/方向估计器144难以精确地估计出输入声音中所主要包含的声音的声音源位置。然而,距离/方向估计器144可以估计出与输入声音中所主要包含的声音的声音源位置接近的位置。估计出的声音源位置可以用作声音分离单元112进行声音分离的初始值,因此,声音处理装置10即使在距离/方向估计器144估计出的声音源位置存在误差时,也可以执行所希望的操作。
将参考图4继续描述声音类型估计单元122的配置。声音估计器146基于输入声音的音量、声音质量和位置信息中的至少一个,总地判断输入声音中是否包含源自声音处理装置10附近的特定声音源的任何邻近声音,例如操作者的语音或从操作者的操作产生的噪声。如果声音估计器146确定输入声音中包含邻近声音,则声音估计器146具有如下功能:作为声音确定单元来将在输入声音中包含邻近声音的消息(操作者语音出现信息)以及由距离/方向估计器144估计出的位置信息输出到声音分离单元112。
更具体地,如果距离/方向估计器144估计出输入声音的声音源的位置在成像方向上处于对视频成像的成像单元(未示出)之后并且输入声音具有与人类语音的声音质量相匹配或类似的声音质量,则声音估计器146可以确定邻近声音包含在输入声音中。
如果输入声音的声音源的位置在成像方向上处于成像单元之后并且输入声音具有与人类语音的声音质量相匹配或类似的声音质量,则声音估计器146可以确定在输入声音中主要包含操作者的语音作为邻近声音。结果,可从后面所述的声音混合单元124获得降低了操作者语言的声音比率的经混合声音。
声音估计器146使输入声音的声音源的位置在离记录位置设置距离的范围内(声音处理装置10的附近,例如,声音处理装置10的1m内)。如果输入声音包含脉冲声音并且输入声音高于过去的平均音量,则声音估计器146可以确定输入声音包含由特定声音源产生的邻近声音。这里,当成像装置的操作者操作成像装置的按钮或者将成像装置从一只手移到另一只手时,通常会产生诸如“滴答”和“砰”之类的脉冲声音。此外,脉冲声音由装配有声音处理装置10的成像装置产生,因此,很有可能记录较大音量的脉冲声音。
因此,声音估计器146使输入声音的声音源的位置在离记录位置设置距离的范围内。如果输入声音包含脉冲声音并且输入声音高于过去的平均音量,则输入声音可被确定为主要包含从操作者的操作产生的噪声作为邻近声音。结果,可从后面所述的声音混合单元124获得降低了从操作者的操作产生的噪声的声音比率的经混合声音。
另外,表2总结了输入到声音估计器146的信息以及声音估计器146基于输入信息的确定结果的示例。通过组合近程传感器(proximitysensor)、温度传感器等,可以提高声音估计器146的确定精度。
[表2]
返回图1,混合比率计算单元120具有根据由声音类型估计单元122估计出的声音类型计算每个声音的混合比率的功能。例如,利用由声音分离单元112分离的经分离声音、声音类型估计单元122的声音类型信息以及记录在记录单元114中的音量信息来计算降低主导声音的音量的混合比率。
当声音类型更稳定时,也参考输出类型估计单元122的输出信息来计算使得连续块之间的音量信息不会极大地改变的混合比率。当声音类型不稳定(不稳定)并且更可能是噪声时,混合比率计算单元120降低所关注的声音的音量。另一方面,如果声音类型是不稳定的并且更可能是由人发出的语音,则与噪声声音相比,较少地降低所关注的声音的音量。
声音混合单元124具有以混合比率计算单元120提供的混合比率来混合经声音分离单元112分离的多个声音的功能。例如,声音混合单元124可以将声音处理装置10的邻近声音与要记录的声音相混合,以使得邻近声音所占的音量比率低于邻近声音在输入声音中所占的音量比率。因此,如果输入声音的邻近声音的音量不必要地高,则可以获得这样的混合声音,其中,从要记录的声音在输入声音中所占的音量比率起增加要记录的声音在混合声音中所占的音量比率。结果,可以防止要记录的声音被邻近声音埋没。
[3]声音处理装置的操作
在前面已描述了根据本实施例的声音处理装置10的功能配置。接下来,将参考图9描述由声音处理装置10执行的声音处理方法。图9是示出了根据本实施例的由声音处理装置10执行的声音处理方法的处理流程的流程图。如图9所示,首先,声音处理装置10的第一声音记录单元102记录作为第一输入声音的呼叫语音。此外,第二声音记录单元110记录作为第二输入声音的成像期间的声音(S202)。
接下来,判断第一声音是否被输入以及第二声音是否被输入(S204)。如果第一输入声音以及第二输入声音都未被输入,则处理在步骤S204终止。
如果在步骤S204确定第一输入声音被输入,则输入校正单元104校正第一输入声音的特性与第二输入声音的特性之间的差别(S206)。在步骤S206,如果作为校正结果未获得充分的特性或者麦克风特性原本就不充分,则输入校正单元104向适用频带设置一标志(S208)。
接下来,声音分离单元112判断是否向要分离的块的频带设置了标志(S208)。如果在步骤S208确定标志被设置(标志=1),则声音分离单元112分离输入声音。在步骤S210,声音分离单元112可以以预定长度的块为单位来分离输入声音。如果在步骤S208确定标志未被设置(标志=0),则执行步骤S212中的处理而不分离输入声音。
然后,同一性确定单元118判断在步骤S210中以预定长度的块为单位被分离的第二输入声音在多个块间是否相同(S212)。同一性确定单元118可以利用在步骤S210中分离的以块为单位的声音在离散时间处的幅度信息的分布、音量、方向信息等,来确定同一性。
接下来,声音类型估计单元122计算每块的音量信息(S214)以估计每块的声音类型(S216)。在步骤S216,声音类型估计单元122将声音分离为由操作者发出的语音、对象产生的声音、从操作者的操作产生的噪声、脉冲声音、稳定环境声音等。
接下来,混合比率计算单元120根据在步骤S216中估计出的声音类型来计算每个声音的混合比率(S218)。混合比率计算单元120基于在步骤S214中计算出的音量信息以及在步骤S216中计算出的声音类型信息来计算减小主导声音的音量的混合比率。
然后,利用在步骤S218中计算出的每个声音的混合比率来混合在步骤S210中分离的多个声音(S220)。在前面,已描述了由声音处理装置10执行的声音分离方法。
根据上面的实施例,如上所述,从声音处理装置10的呼叫麦克风输入的第一输入声音的特性与从成像麦克风输入的第二输入声音的特性之间的差异被校正。输入被校正的第一输入声音以及第二输入声音被分离为由多个声音源产生的声音,并且多个经分离的声音类型被估计。然后,根据估计出的声音类型计算每个声音的混合比率,并且以混合比率重新混合每个经分离的声音。然后,从利用重新混合后的经混合声音校正了其特性的第一输入声音中提取呼叫语音。
因此,可以利用呼叫麦克风作为成像麦克风分离源自各个声音源的混合声音,然后以所希望比率重新混合。此外,在装配有成像装置的声音处理装置10进行成像期间,除了利用成像麦克风之外还利用呼叫麦克风在各种情形中所记录的声音可以被连续且舒适地听到,而没有用户的任何音量操作。此外,在记录期间可以独立地调节主要的各个声音源的音量。另外,通过在成像期间额外地使用呼叫麦克风,当所希望的呼叫语音被音量高于所希望声音的音量的声音掩盖而使得难以听见时,可以防止通过记录应用记录的声音中的所希望声音不能被听见。此外,可以利用比以前更少数目的麦克风从以用户所希望的音量自动被重新混合的多个声音源的经混合声音中提取出各个声音源。
本领域的技术人员应当明白,可以根据设计要求和其它因素进行各种修改、组合、子组合和变更,只要它们在所附权利要求或其等同物的范围之内。
本申请包含与2008年11月4日向日本专利局提交的日本优先专利申请JP 2008-283069中公开的主题有关的主题,该申请的全部内容通过引用而结合于此。

Claims (15)

1.一种声音处理装置,包括:
输入校正单元,对从第一输入装置输入的第一输入声音的特性与不同于所述第一输入声音的特性的、从第二输入装置输入的第二输入声音的特性之间的差别进行校正;
声音分离单元,将所述第二输入声音以及经所述输入校正单元校正后的第一输入声音分离为多个声音;
声音类型估计单元,估计经所述声音分离单元分离的多个声音的声音类型;
混合比率计算单元,根据由所述声音类型估计单元估计出的声音类型计算每个声音的混合比率;以及
声音混合单元,以由所述混合比率计算单元计算出的混合比率来混合由所述声音分离单元分离的多个声音。
2.根据权利要求1所述的声音处理装置,其中,所述第一输入装置是呼叫麦克风,并且所述第二输入装置是成像麦克风。
3.根据权利要求2所述的声音处理装置,其中,所述输入校正单元向呼叫麦克风和/或成像麦克风的特性不充分的频带设置标志,并且
所述声音分离单元不对由所述输入校正单元设置了标志的频带中的声音进行分离。
4.根据权利要求1所述的声音处理装置,其中,所述输入校正单元校正所述第一输入声音和/或第二输入声音的频率特性和/或动态范围。
5.根据权利要求1所述的声音处理装置,其中,所述输入校正单元对所述第一输入声音和/或第二输入声音执行采样速率转换。
6.根据权利要求1所述的声音处理装置,其中,所述输入校正单元校正因A/D转换引起的所述第一输入声音和所述第二输入声音之间的延时差异。
7.根据权利要求1所述的声音处理装置,其中
所述声音分离单元以块为单位将输入声音分离为多个声音,包括:
同一性确定单元,判断经所述声音分离单元分离的声音在多个块间是否相同;以及
记录单元,以块为单位记录经所述声音分离单元分离的声音。
8.根据权利要求1所述的声音处理装置,其中,所述声音分离单元利用声音的统计独立性以及空间传输特性的差异来将输入声音分离为多个声音。
9.根据权利要求1所述的声音处理装置,其中,所述声音分离单元利用各声音源的时间-频率分量之间的重叠很少来将输入声音分离为源自特定声音源的声音以及其它声音。
10.根据权利要求1所述的声音处理装置,其中,所述声音类型估计单元利用输入声音在离散时间处的幅度信息分布、方向、音量、过零数等来估计输入声音是稳定声音还是不稳定声音。
11.根据权利要求10所述的声音处理装置,其中,所述声音类型估计单元估计被估计为不稳定声音的声音是噪声声音还是人发出的语音。
12.根据权利要求10所述的声音处理装置,其中,所述混合比率计算单元计算不显著改变由所述声音类型估计单元估计为稳定声音的声音的音量的混合比率。
13.根据权利要求11所述的声音处理装置,其中,所述混合比率计算单元计算降低被所述声音类型估计单元估计为噪声声音的声音的音量而不降低被估计为人发出的语音的声音的音量的混合比率。
14.一种声音处理方法,包括以下步骤:
对从第一输入装置输入的第一输入声音的特性与不同于所述第一输入声音的特性的、从第二输入装置输入的第二输入声音的特性之间的差别进行校正;
将所述第二输入声音以及经校正的第一输入声音分离为多个声音;
估计经分离的多个声音的声音类型;
根据估计出的声音类型计算每个声音的混合比率;以及
以计算出的混合比率来混合经分离的多个声音。
15.一种用于使得计算机用作声音处理装置的程序,所述声音处理装置包括:
输入校正单元,对从第一输入装置输入的第一输入声音的特性与不同于所述第一输入声音的特性的、从第二输入装置输入的第二输入声音的特性之间的差别进行校正;
声音分离单元,将所述第二输入声音以及经所述输入校正单元校正后的第一输入声音分离为多个声音;
声音类型估计单元,估计经所述声音分离单元分离的多个声音的声音类型;
混合比率计算单元,根据由所述声音类型估计单元估计出的声音类型计算每个声音的混合比率;以及
声音混合单元,以由所述混合比率计算单元计算出的混合比率来混合由所述声音分离单元分离的多个声音。
CN200910209332A 2008-11-04 2009-11-04 声音处理装置、声音处理方法及程序 Pending CN101740027A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2008283069A JP2010112996A (ja) 2008-11-04 2008-11-04 音声処理装置、音声処理方法およびプログラム
JP2008-283069 2008-11-04

Publications (1)

Publication Number Publication Date
CN101740027A true CN101740027A (zh) 2010-06-16

Family

ID=42131429

Family Applications (1)

Application Number Title Priority Date Filing Date
CN200910209332A Pending CN101740027A (zh) 2008-11-04 2009-11-04 声音处理装置、声音处理方法及程序

Country Status (3)

Country Link
US (1) US8818805B2 (zh)
JP (1) JP2010112996A (zh)
CN (1) CN101740027A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109069221A (zh) * 2016-04-28 2018-12-21 索尼公司 控制装置、控制方法、程序和声音输出系统

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5519689B2 (ja) 2009-10-21 2014-06-11 パナソニック株式会社 音響処理装置、音響処理方法及び補聴器
JP2012078422A (ja) * 2010-09-30 2012-04-19 Roland Corp 音信号処理装置
US9538286B2 (en) * 2011-02-10 2017-01-03 Dolby International Ab Spatial adaptation in multi-microphone sound capture
JP5821237B2 (ja) * 2011-03-31 2015-11-24 ソニー株式会社 信号処理装置および信号処理方法
JP2013072978A (ja) * 2011-09-27 2013-04-22 Fuji Xerox Co Ltd 音声解析装置および音声解析システム
WO2013108147A1 (en) * 2012-01-17 2013-07-25 Koninklijke Philips N.V. Audio source position estimation
JP6103516B2 (ja) * 2012-05-24 2017-03-29 公立大学法人首都大学東京 津波警報システム、津波警報方法、及び津波警報システム用のプログラム
US9560446B1 (en) * 2012-06-27 2017-01-31 Amazon Technologies, Inc. Sound source locator with distributed microphone array
US9900686B2 (en) 2013-05-02 2018-02-20 Nokia Technologies Oy Mixing microphone signals based on distance between microphones
CN106060707B (zh) * 2016-05-27 2021-05-04 北京小米移动软件有限公司 混响处理方法及装置
CN108550365B (zh) * 2018-02-01 2021-04-02 云知声智能科技股份有限公司 离线语音识别的阈值自适应调整方法
WO2020059075A1 (ja) * 2018-09-20 2020-03-26 三菱電機株式会社 エレベーターの落下物検知装置
WO2020148246A1 (en) * 2019-01-14 2020-07-23 Sony Corporation Device, method and computer program for blind source separation and remixing
US11487594B1 (en) 2019-09-24 2022-11-01 Meta Platforms Technologies, Llc Artificial reality system with inter-processor communication (IPC)
US11474970B2 (en) 2019-09-24 2022-10-18 Meta Platforms Technologies, Llc Artificial reality system with inter-processor communication (IPC)
US11520707B2 (en) 2019-11-15 2022-12-06 Meta Platforms Technologies, Llc System on a chip (SoC) communications to prevent direct memory access (DMA) attacks
US11190892B2 (en) * 2019-11-20 2021-11-30 Facebook Technologies, Llc Audio sample phase alignment in an artificial reality system

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH02277308A (ja) * 1989-04-18 1990-11-13 Yamaha Corp デジタルミキシング回路
GB2301003B (en) * 1995-05-19 2000-03-01 Sony Uk Ltd Audio mixing console
JP2002099297A (ja) * 2000-09-22 2002-04-05 Tokai Rika Co Ltd マイクロフォン装置
JP2004304560A (ja) * 2003-03-31 2004-10-28 Fujitsu Ltd 電子装置
JP4237699B2 (ja) * 2004-12-24 2009-03-11 防衛省技術研究本部長 混合信号分離・抽出装置
JP2006211570A (ja) * 2005-01-31 2006-08-10 Matsushita Electric Ind Co Ltd 撮影装置
US20080175407A1 (en) * 2007-01-23 2008-07-24 Fortemedia, Inc. System and method for calibrating phase and gain mismatches of an array microphone
JP4449987B2 (ja) * 2007-02-15 2010-04-14 ソニー株式会社 音声処理装置、音声処理方法およびプログラム
JP4649437B2 (ja) * 2007-04-03 2011-03-09 株式会社東芝 信号分離抽出装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109069221A (zh) * 2016-04-28 2018-12-21 索尼公司 控制装置、控制方法、程序和声音输出系统

Also Published As

Publication number Publication date
US8818805B2 (en) 2014-08-26
JP2010112996A (ja) 2010-05-20
US20100111329A1 (en) 2010-05-06

Similar Documents

Publication Publication Date Title
CN101740027A (zh) 声音处理装置、声音处理方法及程序
CN101740038B (zh) 声音处理装置、声音处理方法
CN101740035B (zh) 通话语音处理装置、通话语音处理方法
CN104781880B (zh) 用于提供通知的多信道语音存在概率估计的装置和方法
CN105405439B (zh) 语音播放方法及装置
CN102625946B (zh) 用于多信道信号的去除回响的系统、方法、设备和计算机可读媒体
US7383178B2 (en) System and method for speech processing using independent component analysis under stability constraints
Shi et al. On the importance of phase in human speech recognition
CN100476949C (zh) 不利环境中的多信道语音检测
US20090296526A1 (en) Acoustic treatment apparatus and method thereof
CN107221336A (zh) 一种增强目标语音的装置及其方法
CN103811020A (zh) 一种智能语音处理方法
CN105409247A (zh) 用于音频信号处理的多声道直接-周围分解的装置及方法
CN101246690A (zh) 声音处理设备、声音处理方法及程序
CN102549661A (zh) 音响处理装置、音响处理方法及助听器
CN102388416A (zh) 信号处理装置及信号处理方法
CN102655002B (zh) 音频处理方法和音频处理设备
CN102282865A (zh) 用于电子系统的声学语音活动检测(avad)
CN107221343A (zh) 一种数据质量的评估方法及评估系统
Shujau et al. Separation of speech sources using an acoustic vector sensor
Carlo et al. dEchorate: a calibrated room impulse response dataset for echo-aware signal processing
Mohammed et al. Mitigate the reverberant effects on speaker recognition via multi-training
CN109997186A (zh) 一种用于分类声环境的设备和方法
Nakano et al. Automatic estimation of position and orientation of an acoustic source by a microphone array network
Lai et al. Multiple-microphone time-varying filters for robust speech recognition

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C12 Rejection of a patent application after its publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20100616