CN101122636B - 声音到达方向的估测方法以及声音到达方向的估测设备 - Google Patents

声音到达方向的估测方法以及声音到达方向的估测设备 Download PDF

Info

Publication number
CN101122636B
CN101122636B CN2007101382380A CN200710138238A CN101122636B CN 101122636 B CN101122636 B CN 101122636B CN 2007101382380 A CN2007101382380 A CN 2007101382380A CN 200710138238 A CN200710138238 A CN 200710138238A CN 101122636 B CN101122636 B CN 101122636B
Authority
CN
China
Prior art keywords
signal
frequency
calculated
component
phase
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN2007101382380A
Other languages
English (en)
Other versions
CN101122636A (zh
Inventor
早川昭二
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Publication of CN101122636A publication Critical patent/CN101122636A/zh
Application granted granted Critical
Publication of CN101122636B publication Critical patent/CN101122636B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/005Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/20Arrangements for obtaining desired frequency or directional characteristics
    • H04R1/32Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
    • H04R1/40Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02166Microphone arrays; Beamforming

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Otolaryngology (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Measurement Of Velocity Or Position Using Acoustic Or Ultrasonic Waves (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)

Abstract

本发明提供一种声音到达方向的估测方法以及声音到达方向的估测设备。作为多通道输入接受来自多个方向所在的声源的声音信号,以及将每一通道的信号转换为频率轴上的信号。对于每一相同频率,计算所转换的信号的相位分量,以及计算多通道之间的相位差。计算所转换的信号的振幅分量,以及根据所计算的振幅分量,估测噪音分量。根据振幅分量以及所估测的噪音分量,对于每一频率计算SN比率,以及提取SN比率大于一预定值的频率。根据在所选取频率的相位差,计算到达距离之间的差值,以及计算被估测的目标声源所在的到达方向。

Description

声音到达方向的估测方法以及声音到达方向的估测设备
技术领域
本发明涉及一种声音到达方向的估测方法,该方法能够在即使存在周围噪音的情况下精确估测从声源通过使用多个麦克风输入的声音到达方向。本发明还涉及一种用于执行上述方法的声音到达方向的估测设备。
背景技术
由于近年来计算机技术的进步,使得需要大量操作处理的声音信号处理能够以可实现的处理速度执行。在这种情况下,使用多个麦克风的多通道声音处理功能期望得到实际的应用。用于估测声音信号的到达方向的声音到达方向的估测处理是在该功能中所使用的一个实例。声音到达方向的估测处理是这样一种处理,其用于获得在来自目标声源的声音信号到达多个麦克风中的彼此相距一定间隔安装的两个麦克风时的延迟时间,以及用于根据在与麦克风的到达距离和麦克风之间的安装间隔之间的差值估测来自声源的声音信号的到达方向。
在传统的声音到达方向估测处理中,例如,计算从两个麦克风输入的信号之间的相关系数,以及计算相关系数最大的两个信号之间的延迟。由于通过将所计算的延迟时间与在常温下声音在空气中的传送速度340m/s(该速度根据温度而变化)相乘来获得到达距离之间的差值,所以使用三角学方法根据麦克风的安装间隔来计算声音信号的到达方向。
另外,如日本专利申请特开No.2003-337164中所公开的,其能够计算对于从两个麦克风输入的每一声音信号频率的相位差频谱(phase differencespectrum),并且在频域中为线形逼近的情况下,根据相位差频谱的倾斜度计算来自声源的声音信号的到达方向。
发明内容
在上述传统的声音到达方向的估测方法中,在存在噪音的情况下,这些噪音使得难以指定相关性最大的时间(延迟)。所以会产生这样一种问题,即难以正确指定来自声源的声音信号的到达方向。另外,即使在日本专利申请特开No.2003-337164中所公开的方法中,在计算相位差频谱过程中,当存在噪音时,相位差频谱会大大改变,而这种改变所带来的问题是不能精确地获得相位差频谱的倾斜度。
考虑到上述情况,本发明的目的是提供一种声音到达方向的估测方法,以及声音到达方向的估测设备,其能够在即使在麦克风周围存在环境噪音的情况下精确估测来自目标声源的声音信号的到达方向。
为实现上述的发明目的,根据本发明的声音到达方向的估测方法的第一方面提供一种对声音信号的声源所在方向的估测方法,所述声音信号作为多通道输入从位于多个方向的声源被输入到用于输入声音信号的声音信号输入单元,其特征在于,该估测方法包括以下步骤:接受由所述声音信号输入单元输入的多通道输入,并且对于每一通道将每一信号转换为时间轴上的信号;将每一通道的在时间轴上的信号转换为频率轴上的信号;对于每同一频率,计算每一通道所转换的频率轴上的信号的相位分量;利用对于每同一频率所计算的每一通道的信号的相位分量,计算多通道之间的相位差;计算所转换的频率轴上的信号的振幅分量;根据所计算的振幅分量,估测噪音分量;根据所计算的振幅分量和所估测的噪音分量,对于每一频率计算信噪比;提取其信噪比大于预定值的频率;根据对所提取频率计算的相位差,对所计算的多通道之间的相位差与所述频率之间的关系执行线性逼近,根据已对其执行线性逼近的相位差,计算来自目标声源的声音信号的到达距离之间的差值;以及根据所计算的到达距离之间的差值,估测目标声源所在的方向。
另外,根据本发明的声音到达方向估测设备的第一方面提供一种声音到达方向估测设备,用于估测声音信号的声源所在方向,所述声音信号作为多通道输入从位于多个方向的声源被输入到用于输入声音信号的声音信号输入单元,其特征在于,该设备包括:声音信号接受部,其接受由所述声音信号输入单元输入的多通道声音信号,并且对于每一通道将每一信号转换为时间轴上的信号;信号转换部,其对于每一通道,将由所述声音信号接受部所转换的在时间轴上的信号转换为频率轴上的信号;相位分量计算部,其对于每同一频率,计算每一通道的由所述信号转换部所转换的频率轴上的信号的相位分量;相位差计算部,其利用由所述相位分量计算部对于每同一频率所计算的每一通道信号的相位分量,计算多通道之间的相位差;振幅分量计算部,其计算由所述信号转换部转换的频率轴上的信号的振幅分量;噪音分量估测部,其根据由所述振幅分量计算部计算的振幅分量,估测噪音分量;信噪比计算部,其根据由所述振幅分量计算部计算的振幅分量以及由所述噪音分量估测部所估测的噪音分量,对于每一频率计算信噪比;频率提取部,其提取由所述信噪比计算部所计算的信噪比大于预定值的频率;到达距离差值计算部,其根据由所述相位差计算部对于所述频率提取部所提取频率所计算的相位差,对所计算的多通道之间的相位差与所述频率之间的关系执行线性逼近,根据已对其执行线性逼近的相位差,计算来自目标声源的声音信号的到达距离之间的差值;以及声音到达方向估测部,其根据由所述到达距离差值计算部所计算的到达距离之间的差值,估测目标声源所在的方向。
另外,根据本发明的声音到达方向的估测方法的第二方面提供如在本设备的第一方面中所述,其特征是,在提取频率的步骤中,按所计算的信噪比的从大到小的顺序选择和提取其信噪比大于预定值的预定数目的频率。
另外,根据本发明的声音到达方向估测设备的第二方面提供如在本设备的第一方面中所述,其特征是,所述频率提取部按所计算的信噪比的从大到小的顺序选择和提取由所述信噪比计算部所计算的信噪比大于预定值的预定数目的频率。
另外,根据本发明的声音到达方向的估测方法的第三方面提供一种对声音信号的声源所在方向的估测方法,所述声音信号作为多通道输入从位于多个方向的声源被输入到用于输入声音信号的声音信号输入单元,其特征在于,该估测方法包括以下步骤:接受由所述声音信号输入单元输入的多通道输入,并且对于每一通道将每一信号转换为时间轴上的取样信号;对于每一通道将时间轴上的每一取样信号转换为频率轴上的信号;对于每同一频率,计算每一通道所转换的频率轴上的信号的相位分量;利用对于每同一频率所计算的在每一通道信号的相位分量,计算多通道之间的相位差;计算在预定取样时间所转换的频率轴上的信号的振幅分量;根据所计算的振幅分量,估测噪音分量;根据所计算的振幅分量和所估测的噪音分量,对于每一频率计算信噪比;根据所计算的信噪比和在过去取样时间的相位差的计算结果,对在当前取样时间的相位差的计算结果进行校正;根据校正之后所计算的相位差,计算来自目标声源的声音信号的到达距离之间的差值;以及根据所计算的到达距离之间的差值,估测目标声源所在的方向。
另外,根据本发明的声音到达方向估测设备的第三方面提供一种声音到达方向估测设备,用于估测声音信号的声源所在方向,所述声音信号作为多通道输入从位于多个方向的声源被输入到用于输入声音信号的声音信号输入单元,其特征在于,该设备包括:声音信号接受部,其接受由所述声音信号输入单元输入的多通道声音信号,并且对于每一通道将每一信号转换为时间轴上的取样信号;信号转换部,其对于每一通道,将由所述声音信号接受部所转换的时间轴上的每一取样信号转换为频率轴上的信号;相位分量计算部,其对于每同一频率,计算每一通道的由所述信号转换部所转换的频率轴上的信号的相位分量;相位差计算部,其利用由所述相位分量计算部对于每同一频率所计算的每一通道信号的相位分量,计算多通道之间的相位差;振幅分量计算部,其计算由所述信号转换部在预定取样时间转换的频率轴上的信号的振幅分量;噪音分量估测部,其根据由所述振幅分量计算部计算的振幅分量,估测噪音分量;信噪比计算部,其根据由所述振幅分量计算部计算的振幅分量以及由所述噪音分量估测部所估测的噪音分量,对于每一频率计算信噪比;校正部,其根据由所述信噪比计算部所计算的信噪比和在过去取样时间的相位差的计算结果,对在当前取样时间的相位差的计算结果进行校正;到达距离差值计算部,其根据由所述校正部校正之后的相位差,计算来自目标声源的声音信号的到达距离之间的差值;以及声音到达方向估测部,其根据由所述到达距离差值计算部所计算的到达距离之间的差值,估测目标声源所在的方向。
另外,根据本发明的声音到达方向的估测方法的第四方面提供如在本设备的第一、第二或第三方面中所述,其特征是,以下步骤:在所接受的声音信号输入中指定用以表示语音的部分的语音部分,其中,在将信号转换为频率轴上的信号的步骤中,仅将在指定语音部分的步骤中指定的语音部分的信号转换为频率轴上的信号。
另外,根据本发明的声音到达方向的估测设备的第四方面提供如在本设备的第一、第二或第三方面中所述,其特征是,还包括:语音部分指定部,在由所述声音信号接受部所接受的声音信号输入中指定用以表示语音的部分的语音部分,其中所述信号转换部仅将所述语音部分指定部所指定的语音部分的信号转换为频率轴上的信号。
根据本发明的第一方面,作为多通道输入接受来自位于多个方向的声源的声音信号。另外,将每一通道的在时间轴上的信号转换为频率轴上的信号,并且使用频率轴上的在每一通道所转换的信号的相位分量,对于每一频率计算多通道之间的相位差。根据所计算的相位差(下面也被称作相位差频谱),计算从目标声源的声音输入的到达距离之间的差值;根据所计算的在到达距离之间的差值,估测声源所在的方向。另一方面,计算频率轴上的所转换的信号的振幅分量;根据所计算的振幅分量,估测背景噪音分量。根据所计算的振幅分量和所估测的背景噪音分量,对于每一频率计算信噪比。然后,提取其信噪比大于预定值的频率;根据在每一提取频率的相位差,计算到达距离之间的差值。结果,根据输入声音信号的振幅分量(即所谓的振幅频谱)以及所估测的背景噪音分量(即所谓的背景噪音频谱),获得对于每一频率的信噪比(SN比率),并且仅使用其信噪比较高的频率的相位差,从而能够更精确地获取到达距离之间的差值。因此,根据到达距离之间的精确差值,能够更精确地估测声音信号的入射角,即,声源所在的方向。
根据本发明的第二方面,在第一方面中,按信噪比的从大到小的顺序选择和提取其信噪比大于预定值的预定数目的频率。结果,由于通过被噪音分量影响最小的取样频率计算到达距离之间的差值,所以到达距离之间的差值的计算结果不会有很大的变化。因此,能够更精确地估测声音信号的入射角,即目标声源所在的方向。
另外,根据本发明的第三方面,作为多通道输入接受来自在多个方向的声源的声音信号,并且对于每一通道将每一信号转换为时间轴上的取样信号,并且对于每一通道将时间轴上的取样信号转换为频率轴上的信号。使用频率轴上的在每一通道的被转换信号的相位分量,对于每一频率计算多通道之间的相位差。根据所计算的相位差,计算来自目标声源的声音输入的到达距离之间的差值,以及根据到达距离之间的差值,估测目标声源所在的方向。计算频率轴上的在预定取样时间转换的信号的振幅分量,以及根据所计算的振幅分量,估测背景噪音分量。然后,根据所计算的振幅分量和所估测的背景噪音分量,对于每一频率计算信噪比。根据所计算的信噪比和在过去取样时间的相位差的计算结果,对在取样时间的相位差的计算结果进行校正,并根据校正之后的相位差,计算到达距离之间的差值。结果,能够获得在过去取样时间SN比率较大的频率的相位差信息的相位差频谱。因此,相位差不会由于背景噪音的状态、从目标声源发出的声音信号的内容变化等而有很大变化。因此,根据到达距离之间的更加精确和稳定的差值,能够更精确地估测声音信号的入射角,即目标声源所在的方向。
另外,根据本发明的第四方面,在上述任一方面中,在所接受的声音信号输入中用指定以表示语音的部分的语音部分,并且仅将在指定语音部分的步骤中指定的语音部分的信号转换为频率轴上的信号。结果,能够更精确地估测产生声音的声源所在的方向。
结合附图并根据以下详细描述,本发明的上述以及其它的目的和特征将会更加清楚。
附图说明
图1为显示根据本发明实施例1的用以实现声音到达方向估测设备1的通用计算机结构的框图;
图2为显示在根据本发明的实施例1的声音到达方向估测设备的操作处理单元执行处理程序时所实现功能的功能框图;
图3为显示根据本发明实施例1的由声音到达方向估测设备的操作处理单元所执行的处理过程的流程图;
图4A、图4B和图4C为显示在选取其SN比率大于预定值的频率或频带情况下的相位差频谱的校正方法的示意图;
图5为显示用于表示被估测的声源所在方向的角的计算方法的示意图;
图6为显示在根据本发明实施例2的声音到达方向估测设备的操作处理单元执行处理程序时所实现的功能的功能框图;
图7为显示根据本发明实施例2的由声音到达方向估测设备的操作处理单元所执行的处理过程的流程图;
图8A和图8B为显示根据本发明实施例2的由声音到达方向估测设备的操作处理单元所执行的处理过程的流程图;和
图9为显示取决于SN比率的校正系数的实例的示图。
具体实施方式
下面将根据用以示出本发明实施例的附图来详细地描述本发明。本发明所处理的主要是由人发出的声音。
[实施例1]
图1为显示根据本发明实施例1的用以实现声音到达方向估测设备1的通用计算机结构的框图。
用作根据本发明实施例1的声音到达方向估测设备1的通用计算机至少包括:操作处理单元11,如CPU、DSP等;ROM 12;RAM 13;通信接口单元14,能够执行来自和到达外部计算机的数据通信;多个语音输入单元15,用以接受声音输入;和语音输出单元16,用以输出语音。语音输出单元16输出从经由通信网络2执行数据通信的每一通信终端设备3的语音输入单元31输入的语音。从每一通信终端设备3的语音输出单元32输出其噪音被抑制的声音。
操作处理单元11经由内部总线17与声音到达方向估测设备1的上述每一硬件单元相连接。操作处理单元11控制上述硬件单元,并且根据在ROM12中存储的处理程序执行各种软件功能,所述处理程序例如有计算信号在频率轴上的振幅分量的程序、从所计算的振幅分量估测噪音分量程序、根据所计算的振幅分量以及所估测的噪音分量计算每一频率的信噪比(SN比率)的程序、提取其SN比率大于一预定值的频率的程序、根据在所提取频率的相位差(在下文中将被称为相位差频谱)计算到达距离之间差值的程序以及根据到达距离之间的差值估测声源方向的程序。
ROM 12可由闪存等来配置,并且存储上述处理程序以及使得通用计算机用作声音到达方向估测设备1所需的程序引用的数值信息。RAM13可由SRAM等来配置,并且存储程序执行期间所产生的临时数据。通信接口单元14从外部计算机下载上述程序;经由通信网络2将输出信号发送至通信终端设备3;以及接收所输入的声音信号。
特别地,语音输入单元15可由分别用以接收声音输入的多个麦克风来配置,并用以指定声源方向、放大器、A/D转换器等。语音输出单元16是输出设备,如扬声器。为了便于解释,语音输入单元15以及语音输出单元16被安装在如图1所示的声音到达方向估测设备1中。然而,实际上,声音到达方向估测设备1被配置成经由接口使语音输入单元15以及语音输出单元16连接到通用计算机上。
图2为显示在根据本发明的实施例1的声音到达方向估测设备1的操作处理单元11执行上述处理程序时所实现功能的功能框图。在图2所示的实例中,说明基于这样的假设:两个语音输入单元15和15中的每一个都是麦克风。
如图2所示,根据本发明实施例1的声音到达方向估测设备1至少包括:语音接受单元(声音信号接收部)201、信号转换单元(信号转换部)202、相位差频谱计算单元(相位差计算部)203、振幅频谱计算单元(振幅分量计算部)204、背景噪音估测单元(噪音分量估测部)205、SN比率计算单元(信噪比计算部)206、相位差频谱选取单元(频率提取部)207、到达距离差值计算单元(到达距离差值计算部)208和声音到达方向计算单元(声音到达方向计算部)209,这些单元是在执行处理程序时所实现的功能块。
语音接受单元201从两个麦克风接收由作为声源的人所发出的声音作为声音输入。在实施例1中,经由都是麦克风的语音输入单元15和15接收输入1和输入2。
对于输入的声音,信号转换单元202将时间轴上的信号转换为频率轴上的信号,即复合频谱IN1(f)和IN2(f)。这里f代表一频率(弧度)。在信号转换单元202中,执行一种时频转换处理,如傅立叶变换。在实施例1中,通过如傅立叶变换的时频转换处理,将输入的声音转换为频谱IN1(f)和IN2(f)。
相位差频谱计算单元203根据频率转换频谱IN1(f)和IN2(f)计算相位频谱,以及对于每一频率计算在已经过计算的相位频谱之间差值的相位差频谱DIFF_PHASE(f)。注意,相位差频谱DIFF_PHASE(f)并不是通过获取频谱IN1(f)和IN2(f)的每一相位频谱获得,而通过获取IN1(f)/IN2(f)的相位分量获得。振幅频谱计算单元204计算其中一个振幅频谱,例如,计算频谱|IN1(f)|,其为图2所示实例中输入1的输入信号频谱IN1(f)的频率分量。对于计算哪一个振幅频谱没有特别的限制。可以计算振幅频谱IN1(f)和IN2(f),并且选取较大的一个。
实施例1描述了这样一种处理方式,即对于傅立叶变换的频谱中的每一频率计算振幅频谱|IN1(f)|。此外,实施例1还描述了这样一种处理方式,即执行频带划分,以及在根据特定中心频率和间隔划分的已划分频带内获取振幅频谱|IN1(f)|的代表值。在这种情况下,代表值可以是已划分频带内振幅频谱|IN1(f)|的平均值或者可以是其最大值。在所述频带划分之后,振幅频谱的代表值变成|IN1(n)|。其中n表示已划分频带的索引号。
背景噪音估测单元205根据振幅频谱|IN1(f)|估测背景噪音频谱|NOISE1(f)|。背景噪音频谱|NOISE1(f)|的估测方法不限定为任何特定的方法。也可以使用已知方法,如在声音识别中使用的语音部分检测处理或在移动电话中使用的噪音消除处理中执行的背景噪音估测处理等。换句话说,可以使用任何背景噪音频谱的估测方法。在如上所述对振幅频谱进行频带划分的情况下,应对于每一已划分频带估测背景噪音频谱|NOISE1(n)|。其中n表示已划分频带的索引号。
SN比率计算单元206通过计算在振幅频谱计算单元204内所计算的振幅频谱|IN1(f)|和在背景噪音估测单元205内估测的背景噪音频谱|NOISE1(f)|之间的比率来计算SN比率SNR(f)。通过以下表达式(1)计算SN比率SNR(f)。在对振幅频谱进行频带划分的情况下,应对于每一已划分频带计算SNR(n)。其中n表示已划分频带的索引号。
SNR(f)=20.0×log10(|IN1(f)|/|NOISE1(f)|)...(1)
相位差频谱选取单元207提取在SN比率计算单元206中计算的其SN比率大于一预定值的频率或频带,以及选取与所提取频率相对应的相位差频谱或在所提取频带内的相位差频谱。
到达距离差值计算单元208获得用通过原点的直线来线性逼近所选取的相位差频谱和频率f之间的关系的函数。根据这个函数,到达距离差值计算单元208计算从声源到语音输入单元15和15距离之间的差值,即,声音分别到达语音输入单元15和15所沿路径的距离之间的差值D。
声音到达方向估测单元209利用由到达距离差值计算单元208所计算的差值D和语音输入单元15和15的安装间隔L计算声音输入的入射角θ,即,角θ表示被估测的作为声源的人所在的方向。
下面将描述根据本发明实施例1的由声音到达方向估测设备1的操作处理单元11所执行的处理过程。图3为显示根据本发明实施例1的由声音到达方向估测设备1的操作处理单元11所执行的处理过程的流程图。
首先,在步骤S301,声音到达方向估测设备1的操作处理单元11从语音输入单元15和15接收声音信号(模拟信号)。在步骤S302,在所接收的声音信号经过A/D转换后,操作处理单元11以一预定时间为单位对所接收的声音信号执行成帧(framing)处理。根据所取样的频率、应用的类型等确定成帧单位。此时,为了获取稳定的频谱,对已成帧的取样信号添加时间窗口,例如海明(hamming)窗、汉宁(hanning)窗等。例如,以20至40ms为单位执行成帧处理,同时在每10至20ms就会出现重叠,对于每一帧执行以下处理。
在步骤S303,操作处理单元11以帧为单位将时间轴上的信号转换为频率轴上的信号,即,频谱IN1(f)和IN2(f)。其中f代表频率(弧度)。操作处理单元11执行时频转换处理,如傅立叶变换。在实施例1中,操作处理单元11通过执行如傅立叶变换的时频转换处理以帧为单位将时间轴上的信号转换为频谱IN1(f)和IN2(f)。
接着,在步骤S304,操作处理单元11对于每一频率利用频率转换频谱IN1(f)和IN2(f)的实部和虚部计算相位频谱,以及计算作为已计算的相位频谱之间的相位差的相位差频谱DIFF_PHASE(f)。
另一方面,在步骤S305,操作处理单元11计算作为输入1的输入信号频谱IN1(f)的振幅分量的振幅频谱|IN1(f)|的值。
然而,所述计算并不需要限定为对输入1的输入信号频谱IN1(f)的振幅频谱的计算。作为另一种方法,例如,可以对输入2的输入信号频谱IN2(f)的振幅频谱进行计算,或者也可以计算输入1和输入2的两个振幅频谱的平均值或其中的最大值作为振幅频谱的代表值。此处,采用这样一种处理方式,即对傅立叶变化的频谱内的每一频率计算振幅频谱|IN1(f)|。然而,也可以采用这样一种处理方式,即执行频带划分,以及在根据特定中心频率和间隔划分的已划分频带内获取振幅频谱|IN1(f)|的代表值。所述代表值可以是已划分频带内振幅频谱|IN1(f)|的平均值或者可以是其最大值。另外,所述处理方式并不限定为计算振幅频谱的方式,也可以采用计算功率频谱的方式。在这种情况下,根据以下的表达式(2)计算SN比率SNR(f)。
SNR(f)=10.0×log10(|IN1(f)|2/|NOISE1(f)|2)...(2)
在步骤S306,操作处理单元11根据所计算的振幅频谱|IN1(f)|估测噪音部分,以及根据所估测的噪音部分的振幅频谱|IN1(f)|估测背景噪音频谱|NOISE1(f)|。
注意,噪音部分的估测方法并不限定为任何特定的方法。例如,作为另一方法,对于背景噪音频谱|NOISE1(f)|的估测方法,也可以使用已知方法,如在声音识别中使用的语音部分检测处理或在移动电话中使用的噪音消除处理中执行的背景噪音估测处理等。换句话说,可以使用任何背景噪音频谱的估测方法。例如,可以利用整个频带内的功率信息估测背景噪音的等级,以及通过根据所估测的背景噪音的等级获取用于判断声音/噪音的阈值来对声音/噪音作出判断。因此,在判断结果为噪音的情况下,通常通过利用此时的振幅频谱|IN1(f)|校正背景噪音频谱|NOISE1(f)|来估测背景噪音频谱|NOISE1(f)|。
在步骤S307,操作处理单元11根据表达式(1)(或在功率频谱情况下根据表达式(2))对于每一频率或频带计算SN比率SNR(f)。然后,在步骤S308,操作处理单元11选取所计算的SN比率大于一预定值的频率或频带。根据确定预定值的方法可以改变待被选取的频率或频带。例如,可以通过以下的方式选取具有最大SN比率值的频率或频带,所述方式包括:对相邻频率或频带之间的SN比率进行比较,并通过连续选取具有较大SN比率的频率或频带,同时按序地将其存储在RAM 13中并进行选取。也可以按SN比率的从大到小的顺序选取N(N表示自然数)段频率或频带。
在步骤S309,根据与一个或多个选取的频率或频带相应的相位差频谱DIFF_PHASE(f),操作处理单元11线性逼近相位差频谱DIFF_PHASE(f)和频率f之间的关系。结果,可以利用这样一种情况,即对于SN比率较高的频率或频带,相位差频谱DIFF_PHASE(f)可靠性较高。因此,在相位差频谱DIFF_PHASE(f)和频率f之间可以按比例关系提高估测精确度。
图4A、图4B和图4C为显示在选取其SN比率大于预定值的频率或频带情况下的相位差频谱的校正方法的示意图。
图4A显示与频率或频带对应的相位差频谱DIFF_PHASE(f)。因为背景噪音通常是叠加的,所以难以发现恒定的关系。
图4B显示在频率或频带中的SN比率SNR(f)。更具体地,所述图4B中由双圆圈标识的部分表示其SN比率大于预定值的频率或频带。因此,如图4B所示,当选取其SN比率大于预定值的频率或频带时,与所选取的频率或频带对应的相位差频谱DIFF_PHASE(f)变为由图4A中的双圆圈所标识的部分。通过线性逼近如图4A所选取的相位差频谱DIFF_PHASE(f),可以发现在相位差频谱DIFF_PHASE(f)和频率f之间存在如图4C所示的比例关系。
然后,在步骤S310,操作处理单元11利用在奈奎斯特频率F(Nyquistfrequency)的线性逼近的相位差频谱DIFF_PHASE(π),即,图4C中的R以及声音c的速度,根据以下的表达式(3)计算从声源输入的声音到达距离之间的差值D。奈奎斯特频率是取样频率的一半,并且在图4A,图4B以及图4C中为π。更具体地,在取样频率为8kHz的情况下,奈奎斯特频率为4kHz。
另外,在图4C中,显示通过原点的被所选取的相位差频谱DIFF_PHASE(f)逼近的逼近直线。然而,当作为语音输入单元15和15的每个麦克风的特点彼此不同时,在整个范围内延伸的相位差频谱中存在偏差。在这样的情况下,通过对与逼近直线的频率0相应的数值(即,逼近直线的截距值)相关的奈奎斯特频率的相位差值R进行校正,可获得逼近直线。
D=(R×c)/(F×2π)...(3)
在步骤S311,操作处理单元11利用在到达距离之间的已计算差值D计算声音输入的入射角θ,即,角θ表示已估测出声源所在的方向。图5为显示用于表示被估测的声源所在方向的角θ的计算方法的示意图。
如图5所示,两个语音输入单元15和15是以间隔L彼此分开安装的。在这种情况下,在差值D(表示从声源输入的声音到达距离之间的差值)与间隔L(表示两个语音输入单元15和15之间的间隔)之间建立关系“sinθ=(D/L)”。因此,根据以下的表达式(4)可以获得用以表示被估测的声源所在的方向的角θ。
θ=sin-1(D/L)...(4)
在这种情况下,按SN比率的从大到小的顺序选取N段频率或频带,如上所述,利用最高的N个相位差频谱执行线性逼近。例如,作为另一种方法,可以通过不利用在奈奎斯特频率F(Nyquist frequency)的线性逼近的相位差频谱DIFF_PHASE(F)的R值,而是利用在所选取的频率f的相位差频谱r(=DIFF_PHASE(f)),用其中的f和r分别替代公式(3)中的F和R,并且对于每一所选取的频率计算到达距离之间的差值D,然后通过利用所计算差值D的平均值计算用以表示被估测的声源所在方向的角θ。当然,上述计算方法并不限定为这一种方法。例如,也可以通过根据SN比率加权计算到达距离之间的差值D的代表值来计算用以表示被估测的声源所在方向的角θ。
另外,在估测发出声音的人所在方向的情况下,也可以通过以下方式来计算用以表示被估测的声源所在方向的角θ,该方式为:判断声音输入是否为用以表示由人发出的声音的语音部分,以及仅当判断为语音部分时执行上述处理。
另外,即使判断出SN比率大于预定值,那么在考虑到应用的使用状态、使用条件等得知相位差是不期望的相位差的情况下,优选地应从待选取的频率或频带中去除与所述不期望的相位差相应的频率或频带。例如,将根据实施例1的声音到达方向估测设备1应用到一装置中,如移动电话,假设从前方产生声音,在估测出用以表示被计算的声音所在方向的角θ为θ<-90°或90°<θ的情况下,其中假设前方角度为0°,则可以判断出这是一种不期望的状态。
另外,即使判断出SN比率大于预定值,考虑到应用的使用状态、使用条件等,优选地从待选取的频率或频带中去除不希望用以估测目标声源的频率或频带。例如,在由人发出目标声源的情况下,不存在频率为100Hz或更低的声音信号。因此,可以从待选取的频率中去除100Hz或更低的频率。
如上所述,在根据实施例1的声音到达方向估测设备1内,根据所输入的声音信号的振幅分量(即,所谓的振幅频谱)和所估测的背景噪音频谱获得每一频率或频带的SN比率,以及使用SN比率较大的频率的相位差(相位差频谱),从而可以更精确地获取到达距离之间的差值D。因此,根据到达距离之间的精确差值D,可以精确计算声音信号的入射角,即用以表示被估测的目标声源(实施例1中的人)所在方向的角θ。
[实施例2]
下面参考附图将详细地描述根据本发明实施例2的声音到达方向估测设备1。因为用作根据本发明实施例2的声音到达方向估测设备的通用计算机的结构与本发明实施例1类似,所以可参照图1的框图来理解这种结构,因此这里不详细对其进行描述。实施例2与实施例1不同之处在于以帧为单位存储相位差频谱的计算结果,以及根据在最后时刻存储的相位差频谱和在待计算的帧内的SN比率在任一时刻校正在待计算的同一帧内的相位差频谱。
图6为显示在根据本发明实施例2的声音到达方向估测设备1的操作处理单元11执行处理程序时所实现的功能的功能框图。在图6所示的实例中,如实施例1的情况,假设每一语音输入单元15和15都是麦克风。
如图6所示,根据本发明实施例2的声音到达方向估测设备1至少包括:语音接受单元(声音信号接收部)201、信号转换单元(信号转换部)202、相位差频谱计算单元(相位差计算部)203、振幅频谱计算单元(振幅分量计算部)204、背景噪音估测单元(噪音分量估测部)205、SN比率计算单元(信噪比计算部)206、相位差频谱校正单元(校正部)210、到达距离差值计算单元(到达距离差值计算部)208和声音到达方向计算单元(声音到达方向计算部)209,这些单元是在执行处理程序时所实现的功能块。
语音接受单元201从两个麦克风接收由作为声源的人所发出的声音。在实施例2中,经由都是麦克风的语音输入单元15和15接收输入1和输入2。
对于输入的声音,信号转换单元202将时间轴上的信号转换为频率轴上的信号,即复合频谱IN1(f)和IN2(f)。这里f代表一频率(弧度)。在信号转换单元202中,执行一种时频转换处理,如傅立叶变换。在实施例1中,通过如傅立叶变换的时频转换处理,将输入的声音转换为频谱IN1(f)和IN2(f)。
在由语音输入单元15和15接收的输入信号经过A/D转换后,以一预定时间为单位对获得的取样信号执行成帧处理。此时,为了获取稳定的频谱,对已成帧的取样信号添加时间窗口,例如海明(hamming)窗、汉宁(hanning)窗等。根据所取样的频率、应用的类型等确定成帧单位。例如,以20至40ms为单位执行成帧处理,同时在每10至20ms就会出现重叠,对于每一帧执行以下处理。
相位差频谱计算单元203根据频率转换频谱IN1(f)和IN2(f)以帧为单位计算相位频谱,以及以帧为单位计算在已经过计算的相位频谱之间相位差值的相位差频谱DIFF_PHASE(f)。这里,振幅频谱计算单元204计算其中一个振幅频谱,例如,计算频谱|IN1(f)|,其为图6所示实例中输入1的输入信号频谱IN1(f)的频率分量。对于计算哪一个振幅频谱没有特别的限制。可以计算振幅频谱IN1(f)和IN2(f),并且选取两者的平均值或选取较大的一个。
背景噪音估测单元205根据振幅频谱|IN1(f)|估测背景噪音频谱|NOISE1(f)|。背景噪音频谱|NOISE1(f)|的估测方法不限定为任何特定的方法。也可以使用已知方法,如在声音识别中使用的语音部分检测处理或在移动电话中使用的噪音消除处理中执行的背景噪音估测处理等。换句话说,可以使用任何背景噪音频谱的估测方法。
SN比率计算单元206通过计算在振幅频谱计算单元204内所计算的振幅频谱|IN1(f)|和在背景噪音估测单元205内所估测的背景噪音频谱|NOISE1(f)|之间的比率来计算SN比率SNR(f)。
根据在SN比率计算单元206中所计算的SN比率以及在经过相位差频谱校正单元210校正之后在刚过去的取样时间内计算的并存储在RAM 13中的相位差频谱DIFF_PHASEt-1(f),相位差频谱校正单元210对于在当前取样时间(即,下一取样时间)计算的相位差频谱DIFF_PHASEt(f)进行校正。在当前取样时间,以相同的方式计算SN比率和相位差频谱DIFF_PHASEt(f),直至最后时刻,并且利用依据SN比率所设置的校正系数α(0≤α≤1)根据以下表达式(5)计算在当前取样时间的帧的相位差频谱DIFF_PHASEt(f)。
随后将描述校正系数α。例如,与每一个程序一起,在RAM12中存储校正系数α作为与SN比率对应的数值信息,并由处理程序所引用。
DIFF_PHASEt(f)=α×DIFF_PHASEt(f)
+(1-α)×DIFF_PHASEt-1(f)....(5)
到达距离差值计算单元208获得用通过原点的直线线性逼近所选取的相位差频谱和频率f之间的关系的函数。根据这个函数,到达距离差值计算单元208计算从声源到语音输入单元15和15距离之间的差值,即,声音分别到达语音输入单元15和15所沿路径的距离之间的差值D。
声音到达方向估测单元209利用由到达距离差值计算单元208所计算的差值D和语音输入单元15和15的安装间隔L计算声音输入的入射角θ,即,角θ表示被估测的作为声源的人所在的方向。
下面将描述根据本发明实施例2的声音到达方向估测设备1的操作处理单元11所执行的程序。图7和图8为显示根据本发明实施例2的由声音到达方向估测设备1的操作处理单元11所执行的处理过程的流程图。
首先,在步骤S701,声音到达方向估测设备1的操作处理单元11从语音输入单元15和15接收的声音信号(模拟信号)。在步骤S702,在所接收的信号经过A/D转换后,操作处理单元11以一预定时间为单位对所接收的声音信号执行成帧处理。根据所取样的频率、应用的类型等确定成帧单位。此时,为了获取稳定的频谱,对已成帧的取样信号添加时间窗口,例如海明(hamming)窗、汉宁(hanning)窗等。例如,以20至40ms为单位执行成帧处理,同时在每10至20ms就会出现重叠,对于每一帧执行以下处理。
在步骤S703,操作处理单元11以帧为单位将时间轴上的信号转换为频率轴上的信号,即,频谱IN1(f)和IN2(f)。其中f代表具有恒定取样宽度的频率(弧度)或频带。操作处理单元11执行时频转换处理,如傅立叶变换。在实施例2中,操作处理单元11通过执行如傅立叶变换的时频转换处理以帧为单位将时间轴上的信号转换为频谱IN1(f)和IN2(f)。
接着,在步骤S704,操作处理单元11对于每一频率或频带利用频率转换频谱IN1(f)和IN2(f)的实部和虚部计算相位频谱,以及计算作为已计算的相位频谱之间的相位差的相位差频谱DIFF_PHASEt(f)。
另一方面,在步骤S705,操作处理单元11计算作为输入1的输入信号频谱IN1(f)的振幅分量的振幅频谱|IN1(f)|的值。
然而,所述计算并不需要限定为对输入1的输入信号频谱IN1(f)的振幅频谱的计算。作为另一种方法,例如,可以对输入2的输入信号频谱IN2(f)的振幅频谱进行计算,或者也可以计算输入1和输入2的两个振幅频谱的平均值或其中的最大值作为振幅频谱的代表值。另外,所述处理方式并不限定为计算振幅频谱的方式,也可以采用计算功率频谱的方式。
在步骤S706,操作处理单元11根据所计算的振幅频谱|IN1(f)|估测噪音部分,以及根据所估测的噪音部分的振幅频谱|IN1(f)|估测背景噪音频谱|NOISE1(f)|。
噪音部分的估测方法并不限定为任何特定的方法。例如,作为另一方法,对于背景噪音频谱|NOISE1(f)|的估测方法,可以利用整个频带内的功率信息估测背景噪音的等级,以及通过根据所估测的背景噪音的等级获取用于判断声音/噪音的阈值来对声音/噪音作出判断。因此,在判定结果为噪音的情况下,可以使用任何背景噪音频谱的估测方法,其中通过利用此时的振幅频谱|IN1(f)|校正背景噪音频谱|NOISE1(f)|来估测背景噪音频谱|NOISE1(f)|。
在步骤S707,操作处理单元11根据上述表达式(1)对于每一频率或频带计算SN比率SNR(f)。然后,在步骤S708,操作处理单元11判断在刚过去的取样时间的相位差频谱DIFF_PHASEt-1(f)是否存储于RAM 13中。
在操作处理单元11判断出在刚过去的取样时间的相位差频谱DIFF_PHASEt-1(f)被存储的情况下(即,在步骤S708中为是),那么在步骤S710,操作处理单元11从ROM 12读取与在已计算的取样时间(当前取样时间)内的SN比率对应的校正系数α。另外,可以通过利用在程序中预先建立的用以表示SN比率和校正系数α之间关系的函数计算来获得校正系数α。
图9为显示取决于SN比率的校正系数α的实例的示图。在图9所示的实例中,当SN比率为0(零)时,将校正系数α设置为0(零)。当所计算的SN比率为0(零)时,如从上述表达式(5)中可以理解,这表示:由于不使用所计算的相位差频谱DIFF_PHASEt(f),所以通过将过去时刻的相位差频谱DIFF_PHASEt-1(f)用作当前时刻的相位差频谱来执行随后的处理。当SN比率变大时,设置校正系数α,从而使其单调性增加。在SN比率处于20bB或更大的范围内,校正系数α被固定为小于1的最大值αmax。校正系数α的最大值αmax被设置为小于1的值的原因是当不期望地发生具有较高SN比率的噪音时,防止相位差频谱值DIFF_PHASEt(f)被100%地替换为其噪音的相位差频谱。
在步骤S711,操作处理单元11利用已从ROM 12读取的与SN比率对应的校正系数α,根据上述表达式(5)校正相位差频谱DIFF_PHASEt(f)。之后,在步骤S712,操作处理单元11将存储在RAM 13中被校正的相位差频谱DIFF_PHASEt-1(f)更新为在当前取样时间的被校正的相位差频谱DIFF_PHASEt(f),并且将其存储。
在操作处理单元11判断出在刚过去的取样时间的相位差频谱DIFF_PHASEt-1(f)没有被存储的情况下(即,在步骤S708中为否),那么在步骤S717,操作处理单元11判断是否使用了在当前取样时间的相位差频谱DIFF_PHASEt(f)。作为是否使用在当前取样时间的相位差频谱DIFF_PHASEt(f)的判断标准,可使用是否从目标声源发出声音信号的标准(人是否发出声音),例如在整个频带内的SN比率、声音/噪音的判断结果等。
在操作处理单元11判断出没有使用在当前取样时间的相位差频谱DIFF_PHASEt(f)情况下,即判断出从声源产生声音信号存在较低的可能性(即,在步骤S717中为否),那么在步骤S718,操作处理单元11将相位差频谱的预定初始值设定为在当前取样时间的相位差频谱。在这种情况下,例如,对于所有的频率将相位差频谱的初始值设置为0(零)。然而,在步骤S718的设置并不限定为这个值(即零)。
接下来,在步骤S719,操作处理单元11在RAM 13中存储相位差频谱的初始值作为在当前取样时间的相位差频谱,并且继续进行步骤S713的处理。
在操作处理单元11判断出使用了在当前取样时间的相位差频谱DIFF_PHASEt(f)的情况下,即判断出从声源产生声音信号存在较高的可能性(即,在步骤S717中为是),那么在步骤S720,操作处理单元11在RAM13中存储在当前取样时间的相位差频谱,并且继续进行步骤S713的处理。
在步骤S713,根据在S712,S719以及S720中任一步骤存储的所选取的相位差频谱DIFF_PHASEt(f),操作处理单元11用通过原点的直线线性逼近所述相位差频谱DIFF_PHASE(f)和频率f之间的关系。结果,当执行根据所校正的相位差频谱的线性逼近时,可使用不是在当前取样时间的而是在过去取样时间的用以反应在SN比率较高(即,高可靠性)的频率或频带的相位差信息的相位差频谱DIFF_PHASE(f)。因此,能够提高相位差频谱DIFF_PHASE(f)和频率f之间的比例关系的估测精确度。
在步骤S714,操作处理单元11根据上述的表达式(3)利用在奈奎斯特频率F的被线性逼近的相位差频谱DIFF_PHASE(F)的值计算来自声源的声音信号到达距离之间的差值D。注意,也可以通过在不使用在奈奎斯特频率F(Nyquist frequency)的线性逼近的相位差频谱DIFF_PHASE(F)的情况下,通过用f和r分别代替表达式(3)中的F和R计算到达距离之间差值D,即使使用在任意频率f的相位差频谱值r(=DIFF_PHASE(f))。然后,在步骤S715,操作处理单元11利用在到达距离之间的已计算的差值D来计算用以表示被估测的声源(人)所在方向的角θ。
另外,在估测发出声音的人所在方向的情况下,也可以通过以下方式来计算用以表示被估测的声源所在方向的角θ,该方式为:判断声音输入是否为用以表示由人发出的声音的语音部分,以及仅当判断为语音部分时执行上述处理。
另外,即使判断出SN比率大于预定值,那么在考虑到应用的使用状态、使用条件等得知相位差是不期望的相位差的情况下,优选地应从与在待校正的当前取样时间在相位差频谱相应的频率或频带中去除与所述不期望的相位差相应的频率或频带。例如,将根据实施例1的声音到达方向估测设备1应用到一装置中,如移动电话,假设从前方产生声音,在估测出用以表示被计算的声音所在方向的角θ为θ<-90°或90°<θ的情况下,其中假设前方角度为0°,则可以判断出这是一种不期望的状态。在这种情况下,不使用在当前取样时间的相位差频谱,但是使用在最后时间或更早时间所计算的相位差频谱。
另外,即使判断出SN比率大于预定值,考虑到应用的使用状态、使用条件等,优选地从待选取的频率或频带中去除不希望用以估测目标声源的频率或频带。例如,在由人发出目标声源的情况下,不存在频率为100Hz或更低的声音信号。因此,可以从待选取的频率中去除100Hz或更低的频率。
如上所述,在根据实施例2的声音到达方向估测设备1中,在计算在SN比率较高的频率或频带的相位差频谱的情况下,在执行校正的同时,对取样时间(当前取样时间)的相位差频谱进行加权计算,使其大于在刚过去的取样时间计算的相位差频谱;在SN比率较低的情况下,在执行校正的同时,对在刚过去的取样时间的相位差频谱加权计算。因此,可连续校正新计算的相位差频谱。在过去取样时间的SN比率较高的频率的相位差信息也反映在被校正的相位差频谱中。因此,在背景噪音状态的影响、从目标声源发出的声音信号的内容改变等的情况下,相位差频谱都不会有很大变化。因此,根据到达距离之间的更精确以及更稳定的距离D,能够精确计算声音信号的入射角,即,用以表示被估测的目标声源所在方向的角θ。计算用以表示被估测的目标声源所在方向的角θ的方法并不限定为上述使用到达距离之间的差值D的方法,但是在这些方法可以以类似精度实现估测的情况下,没有必要一一列举。
如上详细描述,根据本发明的第一方面,根据所输入信号的振幅分量(即所谓的振幅频谱)和所估测的背景噪音频谱获得每一频率的信噪比(SN比率),以及仅使用信噪比较大时的频率的相位差(相位差频谱),从而能够更精确地获得到达距离之间的差值。因此,根据到达距离之间的精确的差值,可以精确地估测声音信号的入射角,即被估测的声源所在方向。
另外,根据本发明的第二方面,由于通过优先选择被噪音分量影响最小的频率来计算到达距离之间的差值,所以到达距离之间的差值的计算结果不会有很大变化。因此,可以更精确地估测声音信号的入射角,即目标声源所在的方向。
另外,根据本发明的第三方面,在计算相位差(相位差频谱)以获得到达距离之间的差值的情况下,根据在过去取样时间所计算的相位差,可连续校正新计算的相位差。由于在过去取样时间SN比率较高的频率的相位差信息反映在被校正的相位差频谱中,所以相位差不会由于背景噪音的状态、从目标声源发出的声音信号的内容改变等而有很大变化。因此,根据到达距离之间的更加精确和稳定的差值,可以精确地估测声音信号的入射角,即目标声源所在的方向。
另外,根据本发明的第四个方面,可以精确地估测产生声音的声源(例如人)所在的方向。
由于本发明的范围是由所附权利要求限定的,而并非之前的说明书来限定,所以在不脱离本发明实质特征的精神的情况下,本发明可以以多种方式实施,因此本发明实施例是示例性的,而并非限制性的,因此落于权利要求书的边界和范围内的所有改变或这种边界和范围的等同物均包含在本发明的权利要求中。

Claims (8)

1.一种对声音信号的声源所在方向的估测方法,所述声音信号作为多通道输入从位于多个方向的声源被输入到用于输入声音信号的声音信号输入单元,其特征在于,该估测方法包括以下步骤:
接受由所述声音信号输入单元输入的多通道输入,并且对于每一通道将每一信号转换为时间轴上的信号;
将每一通道的在时间轴上的信号转换为频率轴上的信号;
对于每同一频率,计算每一通道所转换的频率轴上的信号的相位分量;
利用对于每同一频率所计算的每一通道的信号的相位分量,计算多通道之间的相位差;
计算所转换的频率轴上的信号的振幅分量;
根据所计算的振幅分量,估测噪音分量;
根据所计算的振幅分量和所估测的噪音分量,对于每一频率计算信噪比;
提取其信噪比大于预定值的频率;
根据对所提取频率计算的相位差,对所计算的多通道之间的相位差与所述频率之间的关系执行线性逼近,根据已对其执行线性逼近的相位差,计算来自目标声源的声音信号的到达距离之间的差值;以及
根据所计算的到达距离之间的差值,估测目标声源所在的方向。
2.根据权利要求1所述的估测方法,其特征在于,在提取频率的步骤中,按所计算的信噪比的从大到小的顺序选择和提取其信噪比大于预定值的预定数目的频率。
3.一种对声音信号的声源所在方向的估测方法,所述声音信号作为多通道输入从位于多个方向的声源被输入到用于输入声音信号的声音信号输入单元,其特征在于,该估测方法包括以下步骤:
接受由所述声音信号输入单元输入的多通道输入,并且对于每一通道将每一信号转换为时间轴上的取样信号;
对于每一通道将时间轴上的每一取样信号转换为频率轴上的信号;
对于每同一频率,计算每一通道所转换的频率轴上的信号的相位分量;
利用对于每同一频率所计算的在每一通道信号的相位分量,计算多通道之间的相位差;
计算在预定取样时间所转换的频率轴上的信号的振幅分量;
根据所计算的振幅分量,估测噪音分量;
根据所计算的振幅分量和所估测的噪音分量,对于每一频率计算信噪比;
根据所计算的信噪比和在过去取样时间的相位差的计算结果,对在当前取样时间的相位差的计算结果进行校正;
根据校正之后所计算的相位差,计算来自目标声源的声音信号的到达距离之间的差值;以及
根据所计算的到达距离之间的差值,估测目标声源所在的方向。
4.根据权利要求1、2或3所述的估测方法,还包括以下步骤:在所接受的声音信号输入中指定用以表示语音的部分的语音部分,
其中,在将信号转换为频率轴上的信号的步骤中,仅将在指定语音部分的步骤中指定的语音部分的信号转换为频率轴上的信号。
5.一种声音到达方向估测设备,用于估测声音信号的声源所在方向,所述声音信号作为多通道输入从位于多个方向的声源被输入到用于输入声音信号的声音信号输入单元,其特征在于,该设备包括:
声音信号接受部,其接受由所述声音信号输入单元输入的多通道声音信号,并且对于每一通道将每一信号转换为时间轴上的信号;
信号转换部,其对于每一通道,将由所述声音信号接受部转换的在时间轴上的信号转换为频率轴上的信号;
相位分量计算部,其对于每同一频率,计算每一通道的由所述信号转换部所转换的频率轴上的信号的相位分量;
相位差计算部,其利用由所述相位分量计算部对于每同一频率所计算的每一通道信号的相位分量,计算多通道之间的相位差;
振幅分量计算部,其计算由所述信号转换部转换的频率轴上的信号的振幅分量;
噪音分量估测部,其根据由所述振幅分量计算部计算的振幅分量,估测噪音分量;
信噪比计算部,其根据由所述振幅分量计算部计算的振幅分量以及由所述噪音分量估测部所估测的噪音分量,对于每一频率计算信噪比;
频率提取部,其提取由所述信噪比计算部所计算的信噪比大于预定值的频率;
到达距离差值计算部,其根据由所述相位差计算部对于所述频率提取部所提取频率所计算的相位差,对所计算的多通道之间的相位差与所述频率之间的关系执行线性逼近,根据已对其执行线性逼近的相位差,计算来自目标声源的声音信号的到达距离之间的差值;以及
声音到达方向估测部,其根据由所述到达距离差值计算部所计算的到达距离之间的差值,估测目标声源所在的方向。
6.根据权利要求5所述的声音到达方向估测设备,其特征在于,所述频率提取部按所计算的信噪比的从大到小的顺序选择和提取由所述信噪比计算部所计算的信噪比大于预定值的预定数目的频率。
7.一种声音到达方向估测设备,用于估测声音信号的声源所在方向,所述声音信号作为多通道输入从位于多个方向的声源被输入到用于输入声音信号的声音信号输入单元,其特征在于,该设备包括:
声音信号接受部,其接受由所述声音信号输入单元输入的多通道声音信号,并且对于每一通道将每一信号转换为时间轴上的取样信号;
信号转换部,其对于每一通道,将由所述声音信号接受部所转换的时间轴上的每一取样信号转换为频率轴上的信号;
相位分量计算部,其对于每同一频率,计算每一通道的由所述信号转换部所转换的频率轴上的信号的相位分量;
相位差计算部,其利用由所述相位分量计算部对于每同一频率所计算的每一通道信号的相位分量,计算多通道之间的相位差;
振幅分量计算部,其计算由所述信号转换部在预定取样时间转换的频率轴上的信号的振幅分量;
噪音分量估测部,其根据由所述振幅分量计算部计算的振幅分量,估测噪音分量;
信噪比计算部,其根据由所述振幅分量计算部计算的振幅分量以及由所述噪音分量估测部所估测的噪音分量,对于每一频率计算信噪比;
校正部,其根据由所述信噪比计算部所计算的信噪比和在过去取样时间的相位差的计算结果,对在当前取样时间的相位差的计算结果进行校正;
到达距离差值计算部,其根据由所述校正部校正之后的相位差,计算来自目标声源的声音信号的到达距离之间的差值;以及
声音到达方向估测部,其根据由所述到达距离差值计算部所计算的到达距离之间的差值,估测目标声源所在的方向。
8.根据权利要求5,6或7所述的声音到达方向估测设备,还包括:语音部分指定部,在由所述声音信号接受部所接受的声音信号输入中指定用以表示语音的部分的语音部分,
其中所述信号转换部仅将所述语音部分指定部所指定的语音部分的信号转换为频率轴上的信号。
CN2007101382380A 2006-08-09 2007-07-31 声音到达方向的估测方法以及声音到达方向的估测设备 Expired - Fee Related CN101122636B (zh)

Applications Claiming Priority (6)

Application Number Priority Date Filing Date Title
JP2006-217293 2006-08-09
JP2006217293 2006-08-09
JP2006217293 2006-08-09
JP2007033911A JP5070873B2 (ja) 2006-08-09 2007-02-14 音源方向推定装置、音源方向推定方法、及びコンピュータプログラム
JP2007-033911 2007-02-14
JP2007033911 2007-02-14

Publications (2)

Publication Number Publication Date
CN101122636A CN101122636A (zh) 2008-02-13
CN101122636B true CN101122636B (zh) 2010-12-15

Family

ID=38669580

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2007101382380A Expired - Fee Related CN101122636B (zh) 2006-08-09 2007-07-31 声音到达方向的估测方法以及声音到达方向的估测设备

Country Status (5)

Country Link
US (1) US7970609B2 (zh)
EP (1) EP1887831B1 (zh)
JP (1) JP5070873B2 (zh)
KR (1) KR100883712B1 (zh)
CN (1) CN101122636B (zh)

Families Citing this family (40)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5386806B2 (ja) * 2007-08-17 2014-01-15 富士通株式会社 情報処理方法、情報処理装置、および、情報処理プログラム
JP2009151705A (ja) * 2007-12-21 2009-07-09 Toshiba Corp 情報処理装置およびその制御方法
JP5305743B2 (ja) * 2008-06-02 2013-10-02 株式会社東芝 音響処理装置及びその方法
KR101002028B1 (ko) 2008-09-04 2010-12-16 고려대학교 산학협력단 마이크로폰 및 시공간 정보를 이용한 음원 구간 탐지 시스템, 그 방법 및 이를 기록한 기록매체
KR101519104B1 (ko) * 2008-10-30 2015-05-11 삼성전자 주식회사 목적음 검출 장치 및 방법
KR100911870B1 (ko) * 2009-02-11 2009-08-11 김성완 음원 추적 장치 및 그 방법
KR101041039B1 (ko) 2009-02-27 2011-06-14 고려대학교 산학협력단 오디오 및 비디오 정보를 이용한 시공간 음성 구간 검출 방법 및 장치
US8306132B2 (en) * 2009-04-16 2012-11-06 Advantest Corporation Detecting apparatus, calculating apparatus, measurement apparatus, detecting method, calculating method, transmission system, program, and recording medium
JP5375400B2 (ja) * 2009-07-22 2013-12-25 ソニー株式会社 音声処理装置、音声処理方法およびプログラム
FR2948484B1 (fr) * 2009-07-23 2011-07-29 Parrot Procede de filtrage des bruits lateraux non-stationnaires pour un dispositif audio multi-microphone, notamment un dispositif telephonique "mains libres" pour vehicule automobile
KR101581885B1 (ko) * 2009-08-26 2016-01-04 삼성전자주식회사 복소 스펙트럼 잡음 제거 장치 및 방법
JP5672770B2 (ja) 2010-05-19 2015-02-18 富士通株式会社 マイクロホンアレイ装置及び前記マイクロホンアレイ装置が実行するプログラム
US9111526B2 (en) 2010-10-25 2015-08-18 Qualcomm Incorporated Systems, method, apparatus, and computer-readable media for decomposition of a multichannel music signal
EP2551849A1 (en) * 2011-07-29 2013-01-30 QNX Software Systems Limited Off-axis audio suppression in an automobile cabin
US8818800B2 (en) 2011-07-29 2014-08-26 2236008 Ontario Inc. Off-axis audio suppressions in an automobile cabin
US8750528B2 (en) * 2011-08-16 2014-06-10 Fortemedia, Inc. Audio apparatus and audio controller thereof
US9031259B2 (en) * 2011-09-15 2015-05-12 JVC Kenwood Corporation Noise reduction apparatus, audio input apparatus, wireless communication apparatus, and noise reduction method
JP5810903B2 (ja) * 2011-12-27 2015-11-11 富士通株式会社 音声処理装置、音声処理方法及び音声処理用コンピュータプログラム
US10107887B2 (en) * 2012-04-13 2018-10-23 Qualcomm Incorporated Systems and methods for displaying a user interface
JP5996325B2 (ja) * 2012-08-08 2016-09-21 株式会社日立製作所 パルス検出装置
WO2014047025A1 (en) * 2012-09-19 2014-03-27 Analog Devices, Inc. Source separation using a circular model
WO2014104815A1 (ko) * 2012-12-28 2014-07-03 한국과학기술연구원 바람 소음 제거를 통한 음원 위치 추적 장치 및 그 방법
US9288577B2 (en) * 2013-07-29 2016-03-15 Lenovo (Singapore) Pte. Ltd. Preserving phase shift in spatial filtering
KR101537653B1 (ko) * 2013-12-31 2015-07-17 서울대학교산학협력단 주파수 또는 시간적 상관관계를 반영한 잡음 제거 방법 및 시스템
KR101631611B1 (ko) * 2014-05-30 2016-06-20 한국표준과학연구원 시간 지연 추정 장치 및 그것의 시간 지연 추정 방법
CN106297795B (zh) * 2015-05-25 2019-09-27 展讯通信(上海)有限公司 语音识别方法及装置
CN106405501B (zh) * 2015-07-29 2019-05-17 中国科学院声学研究所 一种基于相位差回归的单声源定位方法
US9788109B2 (en) 2015-09-09 2017-10-10 Microsoft Technology Licensing, Llc Microphone placement for sound source direction estimation
CN105866741A (zh) * 2016-06-23 2016-08-17 合肥联宝信息技术有限公司 基于声源定位的家居控制装置及方法
JP6416446B1 (ja) * 2017-03-10 2018-10-31 株式会社Bonx 通信システム、通信システムに用いられるapiサーバ、ヘッドセット、及び携帯通信端末
JP6686977B2 (ja) * 2017-06-23 2020-04-22 カシオ計算機株式会社 音源分離情報検出装置、ロボット、音源分離情報検出方法及びプログラム
US11189303B2 (en) * 2017-09-25 2021-11-30 Cirrus Logic, Inc. Persistent interference detection
JP7013789B2 (ja) 2017-10-23 2022-02-01 富士通株式会社 音声処理用コンピュータプログラム、音声処理装置及び音声処理方法
KR102452952B1 (ko) * 2017-12-06 2022-10-12 삼성전자주식회사 방향성 음향 센서 및 이를 포함하는 전자 장치
US10524051B2 (en) * 2018-03-29 2019-12-31 Panasonic Corporation Sound source direction estimation device, sound source direction estimation method, and recording medium therefor
CN108562871A (zh) * 2018-04-27 2018-09-21 国网陕西省电力公司电力科学研究院 基于矢量传声器阵列的低频噪声源高精度定位方法
WO2019227353A1 (en) * 2018-05-30 2019-12-05 Goertek Inc. Method and device for estimating a direction of arrival
CN111163411B (zh) * 2018-11-08 2022-11-18 达发科技股份有限公司 减少干扰音影响的方法及声音播放装置
CN110109048B (zh) * 2019-05-23 2020-11-06 北京航空航天大学 一种基于相位差的入侵信号来波方向角度范围估计方法
CN113514799A (zh) * 2021-06-02 2021-10-19 普联国际有限公司 基于麦克风阵列的声源定位方法、装置、设备及存储介质

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4333170A (en) * 1977-11-21 1982-06-01 Northrop Corporation Acoustical detection and tracking system
JPH05307399A (ja) * 1992-05-01 1993-11-19 Sony Corp 音声分析方式
JP3337588B2 (ja) * 1995-03-31 2002-10-21 松下電器産業株式会社 音声応答装置
JP2000035474A (ja) * 1998-07-17 2000-02-02 Fujitsu Ltd 音源位置検出装置
JP4163294B2 (ja) * 1998-07-31 2008-10-08 株式会社東芝 雑音抑圧処理装置および雑音抑圧処理方法
US6363345B1 (en) * 1999-02-18 2002-03-26 Andrea Electronics Corporation System, method and apparatus for cancelling noise
JP2001318694A (ja) * 2000-05-10 2001-11-16 Toshiba Corp 信号処理装置、信号処理方法および記録媒体
AU2001261344A1 (en) * 2000-05-10 2001-11-20 The Board Of Trustees Of The University Of Illinois Interference suppression techniques
US7206421B1 (en) * 2000-07-14 2007-04-17 Gn Resound North America Corporation Hearing system beamformer
US7171008B2 (en) * 2002-02-05 2007-01-30 Mh Acoustics, Llc Reducing noise in audio systems
JP2003337164A (ja) 2002-03-13 2003-11-28 Univ Nihon 音到来方向検出方法及びその装置、音による空間監視方法及びその装置、並びに、音による複数物体位置検出方法及びその装置
JP4195267B2 (ja) * 2002-03-14 2008-12-10 インターナショナル・ビジネス・マシーンズ・コーポレーション 音声認識装置、その音声認識方法及びプログラム
JP2004012151A (ja) * 2002-06-03 2004-01-15 Matsushita Electric Ind Co Ltd 音源方向推定装置
US7885420B2 (en) * 2003-02-21 2011-02-08 Qnx Software Systems Co. Wind noise suppression system
JP4521549B2 (ja) 2003-04-25 2010-08-11 財団法人くまもとテクノ産業財団 上下、左右方向の複数の音源の分離方法、そのためのシステム
JP3862685B2 (ja) 2003-08-29 2006-12-27 株式会社国際電気通信基礎技術研究所 音源方向推定装置、信号の時間遅延推定装置及びコンピュータプログラム
KR100612616B1 (ko) * 2004-05-19 2006-08-17 한국과학기술원 영교차점을 이용한 신호대잡음비 추정방법 및 음원 방향탐지방법
JP4423300B2 (ja) * 2004-10-28 2010-03-03 富士通株式会社 雑音抑圧装置
JP4896449B2 (ja) * 2005-06-29 2012-03-14 株式会社東芝 音響信号処理方法、装置及びプログラム

Also Published As

Publication number Publication date
KR20080013734A (ko) 2008-02-13
JP2008064733A (ja) 2008-03-21
EP1887831B1 (en) 2013-05-29
CN101122636A (zh) 2008-02-13
JP5070873B2 (ja) 2012-11-14
KR100883712B1 (ko) 2009-02-12
US20080040101A1 (en) 2008-02-14
EP1887831A2 (en) 2008-02-13
EP1887831A3 (en) 2011-12-21
US7970609B2 (en) 2011-06-28

Similar Documents

Publication Publication Date Title
CN101122636B (zh) 声音到达方向的估测方法以及声音到达方向的估测设备
EP2725819B1 (en) Method and implementation apparatus for intelligently controlling volume of electronic device
CN101010722B (zh) 用于检测语音信号中话音活动的设备和方法
US9711135B2 (en) Electronic devices and methods for compensating for environmental noise in text-to-speech applications
KR100636317B1 (ko) 분산 음성 인식 시스템 및 그 방법
CN102074236B (zh) 一种分布式麦克风的说话人聚类方法
EP2107558A1 (en) Communication apparatus
CA2378535C (en) System and method for transmitting voice input from a remote location over a wireless data channel
CN102576535B (zh) 用于确定音频系统的感知质量的方法和系统
WO2011148594A1 (ja) 音声認識システム、音声取得端末、音声認識分担方法および音声認識プログラム
CN101641735B (zh) 估计通信系统中的噪声电平的方法
CN102592591A (zh) 双带语音编码
KR20080036897A (ko) 음성 끝점을 검출하기 위한 장치 및 방법
US20100111290A1 (en) Call Voice Processing Apparatus, Call Voice Processing Method and Program
US20140365212A1 (en) Receiver Intelligibility Enhancement System
CN109257687A (zh) 具有非侵入式语音清晰度的听力设备和方法
CN103871416B (zh) 语音处理设备及语音处理方法
CN111142066A (zh) 波达方向估计方法、服务器以及计算机可读存储介质
WO2004084187A1 (ja) 対象音検出方法、信号入力遅延時間検出方法及び音信号処理装置
US8868418B2 (en) Receiver intelligibility enhancement system
JP2001520764A (ja) スピーチ分析システム
CN112420079A (zh) 语音端点检测方法和装置、存储介质及电子设备
JP2003241788A (ja) 音声認識装置及び音声認識システム
CN112151055A (zh) 音频处理方法及装置
JP5792994B2 (ja) 音声比較装置及び音声比較プログラム

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20101215

Termination date: 20180731