CN113470680B - 声音信号处理系统及方法 - Google Patents

声音信号处理系统及方法 Download PDF

Info

Publication number
CN113470680B
CN113470680B CN202011318379.2A CN202011318379A CN113470680B CN 113470680 B CN113470680 B CN 113470680B CN 202011318379 A CN202011318379 A CN 202011318379A CN 113470680 B CN113470680 B CN 113470680B
Authority
CN
China
Prior art keywords
delay
sound
signal
signal processing
sound signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011318379.2A
Other languages
English (en)
Other versions
CN113470680A (zh
Inventor
波温·路
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nuvoton Technology Corp
Original Assignee
Nuvoton Technology Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nuvoton Technology Corp filed Critical Nuvoton Technology Corp
Publication of CN113470680A publication Critical patent/CN113470680A/zh
Application granted granted Critical
Publication of CN113470680B publication Critical patent/CN113470680B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/005Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10KSOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
    • G10K11/00Methods or devices for transmitting, conducting or directing sound in general; Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
    • G10K11/18Methods or devices for transmitting, conducting or directing sound
    • G10K11/26Sound-focusing or directing, e.g. scanning
    • G10K11/34Sound-focusing or directing, e.g. scanning using electrical steering of transducer arrays, e.g. beam steering
    • G10K11/341Circuits therefor
    • G10K11/346Circuits therefor using phase variation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S3/00Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received
    • G01S3/80Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received using ultrasonic, sonic or infrasonic waves
    • G01S3/82Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received using ultrasonic, sonic or infrasonic waves with means for adjusting phase or compensating for time-lag errors
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10KSOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
    • G10K11/00Methods or devices for transmitting, conducting or directing sound in general; Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
    • G10K11/36Devices for manipulating acoustic surface waves
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • HELECTRICITY
    • H01ELECTRIC ELEMENTS
    • H01QANTENNAS, i.e. RADIO AERIALS
    • H01Q3/00Arrangements for changing or varying the orientation or the shape of the directional pattern of the waves radiated from an antenna or antenna system
    • H01Q3/26Arrangements for changing or varying the orientation or the shape of the directional pattern of the waves radiated from an antenna or antenna system varying the relative phase or relative amplitude of energisation between two or more active radiating elements; varying the distribution of energy across a radiating aperture
    • H01Q3/2682Time delay steered arrays
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S3/00Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received
    • G01S3/02Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received using radio waves
    • G01S3/14Systems for determining direction or deviation from predetermined direction
    • G01S3/46Systems for determining direction or deviation from predetermined direction using antennas spaced apart and measuring phase or time difference between signals therefrom, i.e. path-difference systems
    • G01S3/48Systems for determining direction or deviation from predetermined direction using antennas spaced apart and measuring phase or time difference between signals therefrom, i.e. path-difference systems the waves arriving at the antennas being continuous or intermittent and the phase difference of signals derived therefrom being measured
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S3/00Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received
    • G01S3/80Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received using ultrasonic, sonic or infrasonic waves
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S3/00Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received
    • G01S3/80Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received using ultrasonic, sonic or infrasonic waves
    • G01S3/802Systems for determining direction or deviation from predetermined direction
    • G01S3/808Systems for determining direction or deviation from predetermined direction using transducers spaced apart and measuring phase or time difference between signals therefrom, i.e. path-difference systems
    • G01S3/8083Systems for determining direction or deviation from predetermined direction using transducers spaced apart and measuring phase or time difference between signals therefrom, i.e. path-difference systems determining direction of source
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02166Microphone arrays; Beamforming
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0224Processing in the time domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/57Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for processing of video signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2430/00Signal processing covered by H04R, not provided for in its groups
    • H04R2430/20Processing of the output signals of the acoustic transducers of an array for obtaining a desired directivity characteristic
    • H04R2430/23Direction finding using a sum-delay beam-former
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • General Health & Medical Sciences (AREA)
  • Otolaryngology (AREA)
  • General Physics & Mathematics (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Measurement Of Velocity Or Position Using Acoustic Or Ultrasonic Waves (AREA)

Abstract

本发明提供一种声音信号处理系统及方法,该系统包含输入模块、相位差模块、延迟分布模块,以及配置以基于延迟分布进行最终延迟估计的延迟估计模块。最终延迟估计施加以对两个选定的通道中的一个进行对准,并组合两个通道以获得感兴趣信号。相位差模块计算频格的一定范围的相位差。延迟估计模块考虑了从相位差得出的所有可能的延迟,包含±2π的倍数,其克服当两个声音感测器之间的间隔大于波长的一半时高频格中的模糊。

Description

声音信号处理系统及方法
技术领域
本发明关于一种需要声音定位的波束成形装置、系统及方法。特别是,本发明的一些实施例关于使用延迟分布模型(delay distribution model)来估计对准信号(aligningsignal)以获得感兴趣信号(signal of interest)的声音信号处理系统及方法。
背景技术
波束成形为一种用于声音处理的技术,其中多感测器阵列(multi-sensor array)的一些通道通过使用延迟与加总(delay-and-sum)技术来进行对准以获得感兴趣信号。例如,图1绘示一种用于决定声波源与感测器之间的距离的方法100。图1描绘由间隔「s」分隔的两个声音感测器Mi及Mj的示例性阵列,其接收来自点声源(未示出)的声波xi[n]及xj[n],每个波的路径相对于两个感测器之间的超线段(hyper line)形成角度φ。两条路径「d」之间的差会造成时间延迟dsecond,其对应于取样延迟dsample。于此,dseconds等于d/c,其中c为声速。
可期望两个感测器之间的间隔足够大到以获得足够不同的信号。然而,当间隔大于一个频率的一半波长时,相位差会产生模糊延迟(ambiguous delay)。在此情况下,可能无法明显地判断结果相位是领先(leading)、落后(trailing)还是跳离(skipping)多个周期。现有的补救方法忽略了高频格(frequency bins)的相位差,而仅依低频格的相位差进行判断。
发明人已认识到与现有方法相关的缺点。例如,感兴趣信号缺少低频能量,例如,在人声中的某些子音。另一方面,大多数环境噪音包含强烈的低频能量,低频能量倾向于破坏低频相位差。另外,大多数声音感测器在较低频率下不具有一致性。
因此,期望有一种声音信号处理系统及方法,以利用具有大于半波长(larger-than-half-wavelength)间隔的感测器阵列中的高频相位差。
发明内容
本发明提供一种声音信号处理系统,其包含输入模块、相位差模块、延迟分布模块,以及配置以基于延迟分布进行最终延迟估计的延迟估计模块。最终延迟估计施加以对两个选定的通道中的一个进行对准,并组合两个通道以获得感兴趣信号。相位差模块计算频格的一定范围的相位差。延迟估计模块考虑了从相位差得出的所有可能的延迟,包含±2π的倍数,以克服当两个声音感测器之间的间隔大于波长的一半时高频格中的模糊。
根据本发明的一些实施例,声音信号处理系统包含输入模块,其配置以经由至少两个声音感测器接收至少两个声音信号;将至少两个声音信号转换成至少两个通道的模拟信号,且随后转换成至少两个通道的数字信号。声音信号处理系统还包含相位差模块相,其配置以将至少两个通道的数字信号转换成至少两个通道的频率变换(frequencytransform);且计算两个选定的通道之间的相位差。各频率变换包含多个复数(complexnumbers)。各复数对应于一频格(frequency bin)。各相位差界于(-π,π)或(-180度,180度)内。
声音信号处理系统还包含延迟分布模块,对于各频格,延迟分布模块配置以通过相加或减去2π或360度的倍数,从相位差中得出模糊延迟;将模糊延迟保持在有效延迟范围内以作为候选延迟;且对于各候选延迟,添加以各候选延迟为中心的扩展函数以形成延迟分布函数。根据至少两个声音感测器之间的最大声音传播时间延迟加上顶部空间来预定有效延迟范围。声音信号处理系统还具有延迟估计模块,其配置以基于延迟分布函数进行最终延迟估计;以及延迟与加总模块,其配置以根据最终延迟估计,对两个选定的通道中之一个进行对准,以获得感兴趣信号。
根据本发明的一些实施例,本发明提供一种声音信号处理系统。声音信号处理系统包含麦克风界面电路,其配置以分别耦合至第一声音感测器及第二声音感测器以从同一声音信号源接收第一声音信号及第二声音信号,且将第一声音信号及第二声音信号转换成第一模拟信号及第二模拟信号。此系统还包含模拟数字转换器,其配置以分别接收第一模拟信号及第二模拟信号,且产生第一数字信号及第二数字信号。
此系统还包含信号处理电路,其配置以接收第一数字信号及第二数字信号,且决定第一数字信号与第二数字信号之间的延迟。信号处理电路包含相位差模块,其配置以转换第一数字信号及第二数字信号以提供第一频域信号及第二频域信号;且计算在多个选定的频率处的第一频域信号与第二频域信号之间的第一组相位差。各相位差为在(-π,π)或(-180度,180度)内界定的数值。信号处理电路还包含延迟分布模块,其配置以通过对第一组相位差的每一组相加或减去2π或360度的倍数,得出第二组相位差;基于第一组相位差及第二组相位差,在多个选定的频率处得出多个候选延迟时间;且决定多个候选延迟时间的直方图。信号处理电路还包含延迟估计模块,其配置以通过在多个候选延迟时间的直方图中选择具有最大计数的延迟时间来决定估计延迟时间。
在上述的声音信号处理系统的一些实施例中,信号处理电路还包含延迟与加总模块,其配置以根据估计延迟时间对第一数字信号及第二数字信号进行对准,以获得感兴趣信号。在一些实施例中,对于各候选延迟,延迟分布模块进一步配置以将以各候选延迟为中心的扩展函数添加到延迟分布函数。在一些实施例中,延迟分布模块进一步配置以将频率依存加权函数施加于扩展函数。在一些实施例中,延迟分布模块在决定估计延迟时间之前,配置以使用能量依存时间适应方法(energy-dependent temporal adapting scheme)以平滑延迟分布。在一些实施例中,相位差模块配置以使用傅立叶变换来变换第一数字信号及第二数字信号以提供第一频域信号及第二频域信号。在一些实施例中,延迟分布模块对于各频格进一步配置以在有效延迟范围内选择多个候选延迟时间作为候选延迟。根据第一声音感测器与第二声音感测器之间的最大声音传播时间延迟加上顶部空间来预定有效延迟范围。在一些实施例中,信号处理电路包含数字信号处理器。在一些实施例中,第一声音感测器及第二声音感测器以大于第一声音信号及第二声音信号的一半波长的间隔来设置。
本发明的一些实施例提供一种通过使用两个或更多个声音感测器来感测声音信号的方法。此方法包含通过使用第一声音感测器及第二声音感测器从声音信号源接收声音信号。第一声音感测器接收第一声音信号,且第二声音感测器接收第二声音信号。将第一声音信号及第二声音信号转换成第一数字信号及第二数字信号。接着,将第一数字信号及第二数字信号转换成第一频域信号及第二频域信号。此方法包含决定第一频域信号与第二频域信号之间的第一组相位差,第一组相位差界于(-π,π)或(-180度,180度)内。接着,通过对第一组相位差的每一组相加或减去2π或360度的倍数,以决定第二组相位差。接着,基于第一组相位差及第二组相位差,在多个频率处决定第一频域信号与第二频域信号之间的多个候选延迟时间。此方法还从多个候选延迟时间中选择估计延迟时间,估计延迟时间与多个频率中的最大数量相关,估计延迟时间与第一声音感测器与第二声音感测器之间的估计距离相关。
在上述方法的一些实施例中,进一步包含对第一数字信号及第二数字信号进行对准及加总以产生增强数字信号。在一些实施例中,第一声音感测器及第二声音感测器以大于第一声音信号及第二声音信号的一半波长的间隔来设置。
附图说明
图1绘示用于决定声波源与感测器之间的距离的方法;
图2为根据本发明的各种实施例的声音信号处理系统的简化方块图;
图3为根据本发明的各种实施例的两通道16kHz信号的例示性帧(exemplaryframe)的波形的示意图;
图4为根据本发明的各种实施例的两个选定的通道之间的相位差及其模糊的相位差的示意图;
图5为根据本发明的各种实施例的由模糊的相位差得出的候选延迟的延迟散布图;
图6为根据本发明的各种实施例的延迟分布函数及延迟分布函数的平滑版本的示意图;
图7绘示根据本发明的各种实施例的扩展函数;
图8为根据本发明的各种实施例的用于决定延迟分布累加的方法的流程图;
图9为根据本发明的各种实施例的使用两个或多个声音感测器感测声音信号的方法;以及
图10为根据本发明的可用于实现各种实施例的装置的简化方块图。
其中,符号说明如下:
100,800,900:方法
1000:电脑系统
1010:屏幕
1020:电脑
1030:使用者输出装置
1040:使用者输入装置
1050:通讯界面
1060:处理器
1070:随机存取存储器
1080:磁碟机
1090:汇流排子系统
200:声音信号处理系统
201:声音信号源
210:输入模块
211:麦克风界面电路
213:模拟数字转换器
220:相位差模块
230:延迟分布模块
240:延迟估计模块
250:信号处理电路
260:延迟与加总模块
270:感兴趣信号
310,320:数字信号
401,402,403,404,405:曲线
410:线段
501,502,503,504,505:区域
610:实线
620:虚线
621:点
d:路径
dsample:取样延迟
dsecond:时间延迟
Mi,Mj:声音感测器
Mic1,Mic2:麦克风
P[j]:延迟分布函数
s:间隔
x(t):模拟信号
x[n]:数字信号
x1,x2:声音信号
xi[n],xj[n]:声波
θ[k]:相位差函数
φ:角度。
具体实施方式
图2为根据本发明的各种实施例的声音信号处理系统的简化方块图。如图2所示,声音信号处理系统200包含输入模块210及信号处理电路250。在一些实施例中,信号处理电路250可包含相位差模块220、延迟分布模块230及延迟估计模块240。声音信号处理系统200还可包含延迟与加总模块260以获得感兴趣信号270。
如图2所绘示,输入模块210配置以经由至少两个声音感测器接收至少两个声音信号;将至少两个声音信号转换成至少两个通道的模拟信号,且随后转换成至少两个通道的数字信号。在图2的实例中,输入模块210可包含麦克风界面电路211及模拟数字转换器213。麦克风界面电路211配置以分别耦合至例如为麦克风Mic1及Mic2的第一声音感测器及第二声音感测器,以从同一声音信号源201接收第一声音信号x1及第二声音信号x2。麦克风界面电路211还将第一声音信号x1及第二声音信号x2分别转换成第一模拟信号及第二模拟信号x(t)。输入模块210还包含模拟数字转换器213,其配置以分别接收第一模拟信号及第二模拟信号x(t),且产生第一数字信号及第二数字信号x[n]。
图3为根据本发明的各种实施例的两通道16kHz信号的例示性帧的波形的示意图。如一实例所示,数字信号x[n]可以例如16kHz被取样。图3表示第一数字信号310的大约256个样本及第二数字信号320的大约256个样本。在图3中,横轴为取样指标,而纵轴为数字信号的振幅。两个信号之间的差由于以两个不同的麦克风进行感测。如下所述,可在相位差模块220中分析相位差。
相位差模块220配置以将至少两个通道的数字信号,例如x1[n]及x2[n],转换(convert)成至少两个通道X[k]的频率变换(frequency transforms)的。频率变换为数字信号的频域表示方式。频率变换的一个实例为傅立叶变换。每个频率变换可包含多个复数(complex numbers),且每个复数对应于跨越93至7969Hz的频格,例如253个格。相位差模块220还计算两个选定的通道之间的相位差,且产生相位差函数θ[k]。各相位差界于(-π,π)或(-180度,180度)内。
图4为根据本发明的各种实施例的两个选定的通道之间的相位差及其模糊的相位差的示意图。在图4中,相位差θ[k]相对于信号频率所绘制。纵轴以π为单位的相位差θ[k],其范围为-5π到5π。横轴为频格指标。例如,8KHz的频率范围可分为256个频格。在图4中,相位差曲线401标记由[-π,π]局限的原始相位差,亦即-π<θ[k]≤π。
再次参照图2,延迟分布模块230配置以从原始相位差中得出模糊延迟。如上所述,当两个感测器相距较远时,感测到的信号的相位差可为θ[k]±2π。算式θ[k]±2π被称为「模糊差(ambiguous differences)」或「模糊延迟(ambiguous delays)」,从中可辨识出实际延迟。延迟分布模块230通过对每个频格相加或减去2π或360度的倍数,从原始相位差θ[k]得出模糊延迟。例如,在图4中,相位差曲线402标记一组由原始相位差θ[k]加上2π得出的模糊延迟,从而导致相位差在[π,3π]的范围内。类似地,相位差曲线403标记一组由原始相位差θ[k]加上4π得出的模糊延迟,从而导致相位差在[3π,5π]的范围内。相位差曲线404标记一组由原始相位差θ[k]减去2π得出的模糊延迟,从而导致相位差在[-π,-3π]的范围内。相位差曲线405标记一组由原始相位差θ[k]加4π得出的模糊延迟,从而导致相位差在[-3π,-5π]的范围内。
如图4所示,模糊相位差在原始相位401之上或之下。图4还示出了线段410,其根据延迟强调出理想的线性相位差。
延迟分布模块230将延迟分布函数P[j]初始化,以累加从相位差得出的延迟发生次数,其中j为N个延迟格(delay bins)的指标,例如,对于10cm的间隔,N=49。如用于本文中,用语「延迟」表示可为正值或负值的两个信号之间的时间差(例如,以μs为单位,即微秒,或以样本为单位)。正延迟表示第一信号领先于第二信号。负延迟表示第一信号落后于第二信号。有效延迟范围[-T,T]由两个感测器之间的最大声音传播时间延迟来预定,T=s/c+Δt,其中s为两个感测器之间隔(例如,10cm),c为声速(例如,在室温下为343m/sec),且Δt为考量声速变化的顶部空间(headroom),例如T=375μs。
对于每个频格k,延迟分布模块得出对应于相位差θ[k]的至少一个候选延迟。更多的模糊延迟d[k]可通过对相位差加上/减去2π(360度)的倍数从相位差中得出,例如,对于频格k,...θ[k]-4π,θ[k]-2π,θ[k]+2π,θ[k]+4π...。转换公式为 其中FFT_SIZE对于16kHz可为512。仅将有效延迟范围[-T,T]内的d[k]视为候选。
图5为根据本发明的各种实施例的由模糊的相位差得出的候选延迟的延迟散布图。横轴表示频格指标,且纵轴表示由相位差得出的可能或候选延迟。纵轴的延迟单位以样本表示,此样本由数字信号的取样率来决定。图5为音频信号的每个频率分量的可能延迟的说明。例如,图5的区域501中的数据点表示在每个频格中对应于原始相位差θ[k]的可能延迟,其由图4中的相位差曲线401标识的[-π,π]所局限。类似地,图5的区域502中的数据点对应于一组从原始相位差θ[k]加上2π得出的模糊延迟,从而导致相位差在由图4中的相位差曲线402标识的[π,3π]范围内。图5的区域503中的数据点对应于一组从原始相位差θ[k]加上4π得出的模糊延迟,从而导致相位差在由图4中的相位差曲线403标识的[3π,5π]范围内。图5的区域504中的数据点对应于一组从原始相位差θ[k]减去2π得出的模糊延迟,从而导致相位差在由图4中的相位差曲线403标识的[-π,-3π]范围内。图5的区域505中的数据点对应于一组从原始相位差θ[k]减去4π得出的模糊延迟,从而导致相位差在由图4中的相位差曲线405标识的[-3π,-5π]范围内。
图6为根据本发明的各种实施例的延迟分布函数及延迟分布函数的平滑版本的示意图。在图6中,横轴表示延迟,类似于图5中的纵轴,纵轴表示对于每个延迟的数据点数。实线610为从图5中的延迟散布图得出的延迟分布函数,而虚线620为通过扩展函数平滑的延迟分布函数。
在一些实施例中,可使用时间适应方法(temporal adapting scheme)来维持延迟分布函数的一致性。可根据当前帧及先前帧的能量来调整延迟分布函数。
延迟估计模块240通过选择延迟分布函数的最大值来进行最终延迟估计。在图6中,延迟分布函数的最大值标记为点621。在图6的实例中,横轴跨距为±6个样本。在621处的延迟分布的最大值对应于约4.584个样本。对于实例的特定取样率,估计延迟约为285μs(微秒)。
再次参照图2,延迟与加总模块260配置以施加最终延迟估计以对两个通道中之一个进行对准来获得感兴趣信号270。例如,可对来自两个通道中的信号进行对准以获得更强的信号。
图7绘示根据本发明的各种实施例的例示性扩展函数。对于每个候选延迟,将以延迟为中心的扩展函数累加到延迟分布函数。取决于实施例,扩展函数可进一步由频率依存加权函数(frequency-dependent weighting function)加权以强调特定频率范围。
图8为根据本发明的各种实施例的用于决定延迟分布累加的方法的流程图。如图8所示,方法800包含在801处通过设定θ1=θ[k]来将延迟分布函数初始化。于此,θ[k]表示两个信号之间的原始相位差。在802处,基于θ[k]计算出距离d1。在804处,将距离与信号的周期T进行比较,以判断d1≤T是否成立。
若条件d1≤T成立,此方法可选地进行到806,并累加以d1为中心的扩展函数到延迟分布函数。接着,在808处,为了检查每个频格的更多候选相位差,此方法包含递增θ1=θ1+2π。接着,此方法返回至802。
从804,若条件d1≤T不成立,则此方法进行到810以检查更多候选相位差。在810处,此方法包含递增θ1=θ1-2π。在812处,基于θ[k]计算出距离d1。在814处,将距离与信号的周期T进行比较,以判断d1≥T是否成立。
若条件d1≥T为成立,则此方法可选地进行到816,且将以d1为中心的扩展函数累加到延迟分布函数。接着,在818处,为了检查每个频格的更多候选相位差,此方法包含递减θ1=θ1-2π。接着,此方法返回到812。
从814处,若条件d1≥T不成立,则此方法进行到820,其中延迟分布函数准备就绪。
在一些实施例中,本发明提供一种声音信号处理系统。声音信号处理系统包含麦克风界面电路,其配置以分别耦合至第一声音感测器及第二声音感测器以从同一声音信号源接收第一声音信号及第二声音信号,且将第一声音信号及第二声音信号转换成第一模拟信号及第二模拟信号。此系统还包含模拟数字转换器,其配置以分别接收第一模拟信号及第二模拟信号,且产生第一数字信号及第二数字信号。
此系统还包含信号处理电路,其配置以接收第一数字信号及第二数字信号,且决定第一数字信号与第二数字信号之间的延迟。信号处理电路包含相位差模块,其配置以转换第一数字信号及第二数字信号以提供第一频域信号及第二频域信号;且计算在多个选定的频率处的第一频域信号与第二频域信号之间的第一组相位差。各相位差为在(-π,π)或(-180度,180度)内界定的数值。信号处理电路还包含延迟分布模块,其配置以通过对第一组相位差的每一组相加或减去2π或360度的倍数,得出第二组相位差;基于第一组相位差及第二组相位差,在多个选定的频率处得出多个候选延迟时间;且决定多个候选延迟时间的直方图。信号处理电路还包含延迟估计模块,其配置以通过在多个候选延迟时间的直方图中选择具有最大计数的延迟时间来决定估计延迟时间。此外,信号处理电路还包含延迟与加总模块,其配置以根据估计延迟时间对第一数字信号及第二数字信号进行对准,以获得感兴趣信号。上述结合图1至图8描述了此系统的实例。
图9为根据本发明的各种实施例的使用两个或多个声音感测器感测声音信号的方法。如图9所示,在910处,此方法900包含通过使用第一声音感测器及第二声音感测器从声音信号源接收声音信号。第一声音感测器接收第一声音信号,且第二声音感测器接收第二声音信号。在920处,将第一声音信号及第二声音信号转换成第一数字信号及第二数字信号。在930处,将第一数字信号及第二数字信号转换成第一频域信号及第二频域信号。在940处,此方法包含决定第一频域信号与第二频域信号之间的第一组相位差,第一组相位差界于(-π,π)或(-180度,180度)内。在950处,通过对第一组相位差的每一组相加或减去2π或360度的倍数,以决定第二组相位差。在960处,基于第一组相位差及第二组相位差,在多个频率处决定第一频域信号与第二频域信号之间的多个候选延迟时间。在970处,此方法从多个候选延迟时间中选择估计延迟时间,估计延迟时间与多个频率中的最大数量相关,估计延迟时间表示第一声音感测器与第二声音感测器之间的估计距离。在980处,对第一数字信号及第二数字信号进行对准及加总以产生增强数字信号。
上述结合图1至图8描述了可用于实现方法900的系统的实例。在此方法的一些实施例中,第一频域信号及第二频域信号包含多个复数,其中各复数对应于一频格。在一些实施例中,此方法还包含使用傅立叶变换将第一数字信号及第二数字信号变换为第一频域信号及第二频域信号。在一些实施例中,决定多个候选延迟时间的步骤包含将相位差转换成延迟时间。在一些实施例中,此方法还包含决定多个候选延迟时间的直方图,以及通过在多个候选延迟时间的直方图中选择具有最大计数的延迟时间来决定估计延迟时间的步骤。
图10为根据本发明的可用于实现各种实施例的装置的简化方块图。图10仅为并入本揭露之实施例的说明,且不限制如权利要求书中所述的本揭露的范围。本领域技术人员将认识到其它变化、变更及替代。在一实施例中,电脑系统1000通常包含屏幕1010、电脑1020、使用者输出装置1030、使用者输入装置1040、通讯界面1050等。
图10为能够将本揭露的电脑系统具体化的表示。例如,图2中的声音信号处理系统200可使用类似于图10中描述的系统1000的系统来实现。图2中的信号处理系统250的功能可由图10中描述的一个或多个处理器执行。例如,系统1000的一部分可表示数字信号处理器,数字信号处理器可用于实现相位差模块、延迟分布模块、延迟估计模块以及延迟与加总模块。可替代地,在诸如系统1000中所描述的通用处理器中执行的软件程序码可用于实现相位差模块、延迟分布模块、延迟估计模块以及延迟与加总模块。此外,界面电路211及模拟数字转换器213可被实现为类似于系统1000的系统中的周边装置。
如图10所示,电脑1020可包含处理器1060,处理器经由汇流排子系统(bussubsystem)1090与多个周边装置进行通讯。这些周边装置可包含使用者输出装置1030、使用者输入装置1040、通讯界面1050及存储子系统,诸如随机存取存储器(RAM)1070及磁碟机1080。
使用者输入装置1040可包含用于将讯息输入到电脑1020的所有可能类型的装置及机制。这些装置可包含键盘、小键盘、整合至显示器中的触控屏幕、音频输入装置(例如语音辨识系统)、麦克风及其它类型的输入装置。在各种实施例中,使用者输入装置1040通常被具体化为电脑鼠标、轨迹球、轨迹板、手摇杆、无线遥控器、绘图板、语音指令系统、眼睛追踪系统等。使用者输入装置1040通常允许使用者经由诸如单击按钮的指令来选择出现在屏幕1010上的物件、图标、文本等。
使用者输出装置1030包含用于从电脑1020输出讯息的所有可能类型的装置及机制。这些可包含显示器(例如,屏幕1010),非视觉输出装置,诸如音讯输出装置等。
通讯界面1050提供连结到其它通讯网路及装置的界面。通讯界面1050可作为从其它系统接收数据及向其它系统传输数据的界面。通讯界面1050的实施例通常包含乙太网卡(Ethernet card)、调变解调器(电话、卫星、电缆、ISDN)、(异步)数字用户线路(digitalsubscriber line,DSL)单元、FireWire界面、USB界面等。例如,通讯界面1050可耦合至电脑网路、至FireWire汇流排等。在其它实施例中,通讯界面1050可物理性地整合在电脑1020的主机板上,且可为软件程序,例如软DSL等。
在各种实施例中,电脑系统1000还可包含能够通过网路进行通讯的软件,诸如HTTP、TCP/IP、RTP/RTSP协定等。在本揭露的替代实施例中,还可使用其它通讯软件及传输协定,例如IPX、UDP等。在一些实施例中,电脑1020包含来自英特尔公司(Intel)的一个或多个至Xeon微处理器作为处理器1060。此外,在一实施例中,电脑1020包含以UNIX为基础的作业系统。处理器1060还可包含特殊目的处理器,诸如数字信号处理(digital signalprocessor,DSP)、精简指令集电脑(reduced instruction set computer,RISC)等。
随机存取存储器(RAM)1070及磁碟机1080为配置为存储数据的有形存储媒体的实例,诸如本揭露的实施例,其包含可执行电脑程序码、人类可读程序码等。其它类型的有形存储媒体包含磁片、可移动硬碟、光学存储媒体(诸如CD-ROM、DVD及条码)、半导体存储器(诸如快闪存储器、唯读存储器(ROM)、电池支持挥发性存储器、网路存储装置)等。随机存取存储器1070及磁碟机1080可配置以存储提供本揭露的功能的基本程序设计及数据建构。
提供本揭露的功能的软件程序码模块及指令可存储在随机存取存储器1070及磁碟机1080中。这些软件模块可由处理器1060执行。随机存取存储器1070及磁碟机1080可提供用于存储根据本揭露使用的数据的存储库。
随机存取存储器1070及磁碟机1080可包含多个存储器,其包含用于在程序执行期间存储指令及数据的主随机存取存储器及存储固定非暂态性指令的唯读存储器。随机存取存储器1070及磁碟机1080可包含档案存储子系统,档案存储子系统为程序及数据档案提供永久(非挥发性)存储。随机存取存储器1070及磁碟机1080还可包含可移动存储系统,诸如可移动快闪存储器。
汇流排系统1090提供一种机制,其用于使电脑1020的各个部件及子系统按照预期的方式相互通讯。尽管汇流排1090示意性地示出为单汇流排,然而汇流排系统的替代实施例可利用多个汇流排。
图10为能够将本揭露的电脑系统具体化的表示。对于本领域技术人员将显而易见的是,许多其它软件及硬件的配置适用于本揭露。例如,电脑可为桌上型、可携式、机架安装式或平板电脑配置。另外,电脑可为一系列的联网电脑。此外,可考量其它微处理器的使用,诸如PentiumTM或ItaniumTM微处理器,以及来自先进微型装置公司(Advanced MicroDevices,Inc)的OpteronTM或AthlonXPTM微处理器等。此外,可考量其它类型的作业系统,诸如来自微软公司(Microsoft Corporation)的 等、来自升阳电脑公司(Sun Microsystems)的Solaris、LINUX、UNIX等。在其它实施例中,上述技术可在芯片或辅助处理板上实现。
本揭露的各种实施例可以软件或硬件中的逻辑或两者的组合的形式来实现。逻辑可存储在电脑可读或机器可读的非暂态存储媒体中,作为一组适应于指导电脑系统的处理器的指令,以执行本揭露的实施例中所揭露的一组步骤。逻辑可形成电脑程序产品的一部分,电脑程序产品适应于指导讯息处理装置以执行本揭露的实施例中所揭露的一组步骤。基于本文提供的揭露及教示,本领域技术人员将理解实现本揭露的其它方式及/或方法。
本文描述的数据结构及程序码可部分或完全存储在电脑可读存储媒体及/或硬件模块及/或硬件装置上。电脑可读存储媒体包含但不限于挥发性存储器、非挥发性存储器、磁性及光学存储装置(诸如磁碟机、磁带、光碟(CD)、数字多功能光碟或数字影音光碟(DVD)),或是其它现在已知或将来开发的能够存储程序码及/或数据的媒体。本文所述的硬件模块或装置包含但不限于应用特定集成电路(ASIC)、场效可程序规划逻辑闸阵列(FPGA)、专用或共享处理器及/或其它现在已知或将来开发的硬件模块或装置。
本文描述的方法及过程可部分或全部具体化为存储在电脑可读存储媒体或装置中的程序码及/或数据,从而当电脑系统读取及执行程序码及/或数据时,电脑系统可执行相关方法及过程。此方法及过程还可部分地或完全地具体化为在硬件模块或装置中,使得当硬件模块或装置被启动时,其可执行相关的方法及过程。可使用程序码、数据及硬件模块或装置的组合来将本文揭露的方法及过程具体化。
特定实施例已描述于本文中。然而,可对这些实施例进行各种变更,且本文提出的原理也可应用于其它实施例。另外,在不偏离权利要求书的情况下,各种部件及/或方法的步骤/区块可以特别揭露的布置以外的布置来实现。鉴于这些教示,本领域技术人员将容易想到其它实施例及变更。因此,当结合以上说明书及所附附图来看时,权利要求保护范围旨在涵盖所有这样的实施例及变更。

Claims (19)

1.一种声音信号处理系统,其特征在于,包含:
输入模块,其配置以:
经由至少两个声音感测器接收至少两个声音信号;及
将所述至少两个声音信号转换成至少两个通道的多个模拟信号,且随后转换成所述至少两个通道的多个数字信号;
相位差模块,其配置以:
将所述至少两个通道的多个数字信号转换成所述至少两个通道的多个频率变换;及
计算两个选定的通道之间的多个相位差;
其中各所述频率变换包含多个复数;
其中各所述复数对应于频格;及
其中各所述相位差界于(-π,π)或(-180度,180度)内;
延迟分布模块,对于各所述频格,所述延迟分布模块配置以:
初始化以对所述频格得出对应所述多个相位差的至少一个候选延迟,
通过相加或减去2π或360度的倍数,从所述多个相位差中得出多个模糊延迟;
将所述多个模糊延迟保持在有效延迟范围内以作为多个候选延迟;及
对于各所述候选延迟,添加以各所述候选延迟为中心的扩展函数以形成延迟分布函数;
其中根据所述至少两个声音感测器之间的最大声音传播时间延迟加上顶部空间来预定有效延迟范围;
延迟估计模块,其配置以基于所述延迟分布函数进行最终延迟估计;以及
延迟与加总模块,其配置以根据所述最终延迟估计对所述两个选定的通道中的一个进行对准,以获得感兴趣信号。
2.如权利要求1所述的声音信号处理系统,其特征在于,所述延迟分布模块进一步配置以将频率依存加权函数施加于所述扩展函数。
3.如权利要求1所述的声音信号处理系统,其特征在于,所述延迟分布模块在做出所述最终延迟估计之前,配置以使用能量依存时间适应方法以平滑所述延迟分布函数。
4.如权利要求1所述的声音信号处理系统,其特征在于,所述相位差模块配置以使用傅立叶变换以将所述至少两个通道的多个数字信号转换成所述至少两个通道的多个频率变换。
5.如权利要求1所述的声音信号处理系统,其特征在于,进一步包含数字信号处理器,所述数字信号处理器用以实现所述相位差模块、所述延迟分布模块、所述延迟估计模块以及所述延迟与加总模块。
6.如权利要求1所述的声音信号处理系统,其特征在于,进一步包含被执行于通用处理器中的多个软件程序码,所述多个软件程序码用以实现所述相位差模块、所述延迟分布模块、所述延迟估计模块以及所述延迟与加总模块。
7.一种声音信号处理系统,其特征在于,包含:
麦克风界面电路,其配置以分别耦合至第一声音感测器及第二声音感测器以从同一声音信号源接收第一声音信号及第二声音信号,且将所述第一声音信号及所述第二声音信号转换成第一模拟信号及第二模拟信号;
模拟数字转换器,其配置以分别接收所述第一模拟信号及所述第二模拟信号,且产生第一数字信号及第二数字信号;以及
信号处理电路,其配置以接收所述第一数字信号及所述第二数字信号,且决定所述第一数字信号与所述第二数字信号之间的延迟,其中所述信号处理电路包含:
相位差模块,其配置以:
转换所述第一数字信号及所述第二数字信号以提供第一频域信号及第二频域信号;及
计算在多个选定的频率处的所述第一频域信号与所述第二频域信号之间的第一组相位差;
其中各相位差为在(-π,π)或(-180度,180度)内界定的数值;
延迟分布模块,其配置以:
通过对所述第一组相位差的每一组相加或减去2π或360度的倍数,以得出第二组相位差;
基于所述第一组相位差及所述第二组相位差,在所述多个选定的频率处得出多个候选延迟时间;及
对于各候选延迟,所述延迟分布模块进一步配置以将以各所述候选延迟为中心的扩展函数添加到延迟分布函数;
决定所述多个候选延迟时间的直方图;
延迟估计模块,其配置以通过在所述多个候选延迟时间的所述直方图中选择具有最大计数的延迟时间来决定估计延迟时间;以及
延迟与加总模块,其配置以根据所述估计延迟时间对所述第一数字信号及所述第二数字信号进行对准,以获得感兴趣信号。
8.如权利要求7所述的声音信号处理系统,其特征在于,所述延迟分布模块进一步配置以将频率依存加权函数施加于所述扩展函数。
9.如权利要求8所述的声音信号处理系统,其特征在于,所述延迟分布模块在决定所述估计延迟时间之前,配置以使用能量依存时间适应方法以平滑延迟分布。
10.如权利要求7所述的声音信号处理系统,其特征在于,所述相位差模块配置以使用傅立叶变换来变换所述第一数字信号及所述第二数字信号以提供所述第一频域信号及所述第二频域信号。
11.如权利要求7所述的声音信号处理系统,其特征在于,所述延迟分布模块对于各频格进一步配置以:
在有效延迟范围内选择所述多个候选延迟时间作为多个所述候选延迟;及
其中根据所述第一声音感测器与所述第二声音感测器之间的最大声音传播时间延迟加上顶部空间来预定所述有效延迟范围。
12.如权利要求7所述的声音信号处理系统,其特征在于,所述信号处理电路包含数字信号处理器。
13.如权利要求7所述的声音信号处理系统,其特征在于,所述第一声音感测器及所述第二声音感测器以大于所述第一声音信号及所述第二声音信号的半波长的间隔来设置。
14.一种声音信号处理方法,其特征在于,包含:
通过使用第一声音感测器及第二声音感测器从声音信号源接收多个声音信号,所述第一声音感测器接收第一声音信号,且所述第二声音感测器接收第二声音信号;
将所述第一声音信号及所述第二声音信号转换成第一数字信号及第二数字信号;
将所述第一数字信号及所述第二数字信号转换成第一频域信号及第二频域信号;
决定所述第一频域信号与所述第二频域信号之间的第一组相位差,所述第一组相位差界于(-π,π)或(-180度,180度)内;
通过对所述第一组相位差的每一组相加或减去2π或360度的倍数,以决定第二组相位差;
基于所述第一组相位差及所述第二组相位差,在多个频率处决定所述第一频域信号与所述第二频域信号之间的多个候选延迟时间;以及
对于各候选延迟,在各所述候选延迟中心添加扩展函数以形成延迟分布函数;
从所述多个候选延迟时间中选择估计延迟时间,所述估计延迟时间与所述多个频率中的最大数量相关,其中所述估计延迟时间与所述第一声音感测器与所述第二声音感测器之间的估计距离相关。
15.如权利要求14所述的声音信号处理方法,其特征在于,在决定所述估计延迟时间之前,配置以使用能量依存时间适应方法以平滑延迟分布函数。
16.如权利要求14所述的声音信号处理方法,其特征在于,所述第一频域信号及所述第二频域信号包含多个复数,其中各所述复数对应于频格。
17.如权利要求14所述的声音信号处理方法,其特征在于,进一步包含使用傅立叶变换将所述第一数字信号及所述第二数字信号变换为所述第一频域信号及所述第二频域信号。
18.如权利要求14所述的声音信号处理方法,其特征在于,所述第一声音感测器及所述第二声音感测器以大于所述第一声音信号及所述第二声音信号的半波长的间隔来设置。
19.如权利要求14所述的声音信号处理方法,其特征在于,进一步包含:
决定所述多个候选延迟时间的直方图;以及
通过在所述多个候选延迟时间的所述直方图中选择具有最大计数的延迟时间来决定所述估计延迟时间。
CN202011318379.2A 2020-03-31 2020-11-23 声音信号处理系统及方法 Active CN113470680B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US16/836,866 2020-03-31
US16/836,866 US11276388B2 (en) 2020-03-31 2020-03-31 Beamforming system based on delay distribution model using high frequency phase difference

Publications (2)

Publication Number Publication Date
CN113470680A CN113470680A (zh) 2021-10-01
CN113470680B true CN113470680B (zh) 2023-09-29

Family

ID=77854585

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011318379.2A Active CN113470680B (zh) 2020-03-31 2020-11-23 声音信号处理系统及方法

Country Status (4)

Country Link
US (1) US11276388B2 (zh)
KR (1) KR102642163B1 (zh)
CN (1) CN113470680B (zh)
TW (1) TWI758855B (zh)

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5581620A (en) * 1994-04-21 1996-12-03 Brown University Research Foundation Methods and apparatus for adaptive beamforming
CN101236250A (zh) * 2007-01-30 2008-08-06 富士通株式会社 声音判定方法和声音判定装置
WO2008105661A1 (en) * 2007-02-28 2008-09-04 Exsilent Research B.V. Method and device for sound processing and hearing aid
TW201330648A (zh) * 2011-12-02 2013-07-16 Fraunhofer Ges Forschung 依據空間能量密度定位麥克風之設備及方法
CN104637492A (zh) * 2013-11-07 2015-05-20 大陆汽车系统公司 用于自动语音识别系统的共同讲话者调零
JP2015194557A (ja) * 2014-03-31 2015-11-05 株式会社東芝 電子機器および電子機器の制御方法
CN106576212A (zh) * 2014-06-20 2017-04-19 弗劳恩霍夫应用研究促进协会 生成并回放复制保护的波场合成音频呈现的方法及装置
WO2019002179A1 (en) * 2017-06-27 2019-01-03 Dolby International Ab HYBRID AUDIO SIGNAL SYNCHRONIZATION BASED ON CROSS CORRELATION AND ATTACK ANALYSIS
TWI662545B (zh) * 2018-06-22 2019-06-11 塞席爾商元鼎音訊股份有限公司 調整語音頻率之方法及其聲音播放裝置
CN110660413A (zh) * 2018-06-28 2020-01-07 新唐科技股份有限公司 语音活动侦测系统

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5659520A (en) * 1995-04-24 1997-08-19 Sonatech, Inc. Super short baseline navigation using phase-delay processing of spread-spectrum-coded reply signals
US6366241B2 (en) * 2000-06-26 2002-04-02 Trueposition, Inc. Enhanced determination of position-dependent signal characteristics of a wireless transmitter
KR100612616B1 (ko) * 2004-05-19 2006-08-17 한국과학기술원 영교차점을 이용한 신호대잡음비 추정방법 및 음원 방향탐지방법
US20070047743A1 (en) * 2005-08-26 2007-03-01 Step Communications Corporation, A Nevada Corporation Method and apparatus for improving noise discrimination using enhanced phase difference value
US20070050441A1 (en) * 2005-08-26 2007-03-01 Step Communications Corporation,A Nevada Corporati Method and apparatus for improving noise discrimination using attenuation factor
JP2010124370A (ja) * 2008-11-21 2010-06-03 Fujitsu Ltd 信号処理装置、信号処理方法、および信号処理プログラム
EP2809086B1 (en) * 2012-01-27 2017-06-14 Kyoei Engineering Co., Ltd. Method and device for controlling directionality
US9360546B2 (en) * 2012-04-13 2016-06-07 Qualcomm Incorporated Systems, methods, and apparatus for indicating direction of arrival
WO2017125558A1 (en) * 2016-01-22 2017-07-27 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for encoding or decoding a multi-channel signal using a broadband alignment parameter and a plurality of narrowband alignment parameters
US10535361B2 (en) * 2017-10-19 2020-01-14 Kardome Technology Ltd. Speech enhancement using clustering of cues
EP3751558B1 (en) * 2019-06-12 2022-12-28 Esaote S.p.A. Method for generating ultrasound transmission waves and ultrasound system for carrying out the method

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5581620A (en) * 1994-04-21 1996-12-03 Brown University Research Foundation Methods and apparatus for adaptive beamforming
CN101236250A (zh) * 2007-01-30 2008-08-06 富士通株式会社 声音判定方法和声音判定装置
WO2008105661A1 (en) * 2007-02-28 2008-09-04 Exsilent Research B.V. Method and device for sound processing and hearing aid
TW201330648A (zh) * 2011-12-02 2013-07-16 Fraunhofer Ges Forschung 依據空間能量密度定位麥克風之設備及方法
CN104637492A (zh) * 2013-11-07 2015-05-20 大陆汽车系统公司 用于自动语音识别系统的共同讲话者调零
JP2015194557A (ja) * 2014-03-31 2015-11-05 株式会社東芝 電子機器および電子機器の制御方法
CN106576212A (zh) * 2014-06-20 2017-04-19 弗劳恩霍夫应用研究促进协会 生成并回放复制保护的波场合成音频呈现的方法及装置
WO2019002179A1 (en) * 2017-06-27 2019-01-03 Dolby International Ab HYBRID AUDIO SIGNAL SYNCHRONIZATION BASED ON CROSS CORRELATION AND ATTACK ANALYSIS
TWI662545B (zh) * 2018-06-22 2019-06-11 塞席爾商元鼎音訊股份有限公司 調整語音頻率之方法及其聲音播放裝置
CN110660413A (zh) * 2018-06-28 2020-01-07 新唐科技股份有限公司 语音活动侦测系统

Also Published As

Publication number Publication date
KR102642163B1 (ko) 2024-03-04
TW202139179A (zh) 2021-10-16
TWI758855B (zh) 2022-03-21
CN113470680A (zh) 2021-10-01
KR20210122669A (ko) 2021-10-12
US11276388B2 (en) 2022-03-15
US20210304730A1 (en) 2021-09-30

Similar Documents

Publication Publication Date Title
US9418678B2 (en) Sound processing device, sound processing method, and program
US20110125496A1 (en) Speech recognition device, speech recognition method, and program
EP2773137A2 (en) Microphone sensitivity difference correction device
KR20080036897A (ko) 음성 끝점을 검출하기 위한 장치 및 방법
KR20200001960A (ko) 성도 면적 정보를 이용한 음성 활동 감지
US9026435B2 (en) Method for estimating a fundamental frequency of a speech signal
US11749294B2 (en) Directional speech separation
WO2006082868A2 (en) Method and system for identifying speech sound and non-speech sound in an environment
CN105103230B (zh) 信号处理装置、信号处理方法、信号处理程序
WO2015132798A2 (en) Method and system for consonant-vowel ratio modification for improving speech perception
US20080120100A1 (en) Method For Detecting Target Sound, Method For Detecting Delay Time In Signal Input, And Sound Signal Processor
Gowda et al. Quasi-closed phase forward-backward linear prediction analysis of speech for accurate formant detection and estimation
KR20070085193A (ko) 잡음제거 장치 및 방법
CN106847299B (zh) 延时的估计方法及装置
CN113470680B (zh) 声音信号处理系统及方法
KR20140108817A (ko) 음원위치추적장치 및 음원위치추적방법
EP2498252A1 (en) Information processing device, auxiliary device therefor, information processing system, control method therefor, and control program
Gerkmann et al. Improved MMSE-based noise PSD tracking using temporal cepstrum smoothing
US10951978B2 (en) Output control of sounds from sources respectively positioned in priority and nonpriority directions
WO2020110228A1 (ja) 情報処理装置、プログラム及び情報処理方法
EP2498253B1 (en) Noise suppression in a noisy audio signal
JP7152112B2 (ja) 信号処理装置、信号処理方法および信号処理プログラム
CN111226278B (zh) 低复杂度的浊音语音检测和基音估计
Graf et al. Low-Complexity Pitch Estimation Based on Phase Differences Between Low-Resolution Spectra.
JP7270869B2 (ja) 情報処理装置、出力方法、及び出力プログラム

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant