CN104025699A - 适应性音频捕获 - Google Patents

适应性音频捕获 Download PDF

Info

Publication number
CN104025699A
CN104025699A CN201280017109.5A CN201280017109A CN104025699A CN 104025699 A CN104025699 A CN 104025699A CN 201280017109 A CN201280017109 A CN 201280017109A CN 104025699 A CN104025699 A CN 104025699A
Authority
CN
China
Prior art keywords
audio
voice
signal
amplitude
user terminal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201280017109.5A
Other languages
English (en)
Other versions
CN104025699B (zh
Inventor
蒋斌
吴晟
林福辉
徐晶明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Spreadtrum Communications Shanghai Co Ltd
Original Assignee
Spreadtrum Communications Shanghai Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Spreadtrum Communications Shanghai Co Ltd filed Critical Spreadtrum Communications Shanghai Co Ltd
Publication of CN104025699A publication Critical patent/CN104025699A/zh
Application granted granted Critical
Publication of CN104025699B publication Critical patent/CN104025699B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03GCONTROL OF AMPLIFICATION
    • H03G3/00Gain control in amplifiers or frequency changers
    • H03G3/20Automatic control
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/005Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02165Two microphones, one receiving mainly the noise signal and the other one mainly the speech signal
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2499/00Aspects covered by H04R or H04S not otherwise provided for in their subgroups
    • H04R2499/10General applications
    • H04R2499/11Transducers incorporated or for use in hand-held devices, e.g. mobile phones, PDA's, camera's

Landscapes

  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Otolaryngology (AREA)
  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Telephone Function (AREA)
  • Stereophonic System (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

本发明的实施例涉及适应性音频捕获。公开了一种用于适应性音频捕获的方法,该方法包括通过与用户终端上的音频捕获元件相关联的音频通道获取音频信号;通过对获取的音频信号进行处理来计算音频通道的信号幅值;以及基于信号幅值和与用户终端上的至少一个其他音频捕获元件关联的至少一个其他音频通道的其他信号幅值来确定音频捕获元件的功能。还公开了相应的装置、计算机程序产品和用户终端。

Description

适应性音频捕获
技术领域
本发明的实施例总体上涉及音频处理,并且更具体地,涉及一种用于适应性音频捕获的方法、装置、计算机程序和用户终端。
背景技术
移动电话、平板式计算机或个人数字助理(PDA)之类的用户终端可具有多个音频捕获元件,诸如多个麦克风。这种配置在过去几年已变得流行起来。例如,可购得的智能移动电话通常配备有两个或多个麦克风。一般而言,在单个用户终端上的多个音频捕获元件中,某些音频捕获元件被设计为充当主音频捕获元件,并且用于例如捕获前景音频信号;而另一些音频捕获元件可以充当参考音频捕获元件或称辅音频捕获元件,并且用于例如捕获背景音频信号。例如,位于移动电话下半部的麦克风通常被假设能够捕获来自说话人的高质量的语音信号。因此,该麦克风通常被用作主音频捕获元件,以捕获用户在话音呼叫中的语音信号。另一位置的麦克风可以充当可用于捕获背景噪声的辅音频捕获元件,以用于环境噪声估计、噪声抑制,等等。
本领域的技术人员将会理解,用户终端相对于音频信号源的空间位置和周围环境将影响音频捕获效果。例如,在某些情况下,原始设计的主音频捕获元件可能被遮挡或者处于用户终端相对于音频信号源的背面,从而造成原始设计的主音频捕获元件无法捕获高质量的音频信号。然而,在现有技术中,辅音频捕获元件或参考音频捕获元件在这种情况下无法被激活以充当主音频捕获元件,即便该元件现位于较优或最优位置。换言之,用户终端上的音频捕获元件的功能在设计和制造时就已被固定,并且无法在使用中适应性地改变或切换。因此,音频捕获的质量将会降低。
鉴于前述内容,本领域需要一种能够适应各种使用条件的音频捕获解决方案。
发明内容
为了解决前述和其他潜在问题,本发明的实施例提出一种用于适应性音频捕获的方法、装置、计算机程序和用户终端。
在一个方面,本发明的实施例提供一种用于适应性音频捕获的方法。该方法包括:通过与用户终端上的音频捕获元件关联的音频通道获取音频信号;通过对获取的音频信号进行处理来计算音频通道的信号幅值;并且基于信号幅值和与用户终端上的至少一个其他音频捕获元件关联的至少一个其他音频通道的其他信号幅值,确定音频捕获元件的功能。本方面的其他实施例包括相应的计算机程序产品。
在另一方面,本发明的实施例提供一种用于适应性音频捕获的装置。该装置包括:获取单元,被配置为通过与用户终端上的音频捕获元件关联的音频通道获取音频信号;计算单元,被配置为通过对获取的音频信号进行处理来计算音频通道的信号幅值;以及确定单元,被配置为基于信号幅值和与用户终端上的至少一个其他音频捕获元件关联的至少一个其他音频通道的其他信号幅值,确定音频捕获元件的功能。
在又一方面,本发明的实施例提供一种用户终端。该用户终端包括至少一个处理器;多个音频捕获元件;以及至少一个存储器,与至少一个处理器耦合并且存储计算机可执行指令的程序,计算机可执行指令被配置为与至少一个处理器一起使移动终端至少根据上文概述的方法执行。
本发明的这些和其他可选实施例可以被实施以实现以下一个或多个优点。对于配备有多个音频捕获元件的用户终端,通过实时地对音频信号进行处理和分析,单个用户终端上的多个音频捕获元件的功能可以动态地被确定并且改变。例如,根据用户终端相对于音频信号源的相对位置和/或用户终端本身的姿态等各种因素,最优音频捕获元件可以被适应性地确定为主元件,而一个或多个其他音频捕获元件可以相应地充当参考音频捕获元件。以此方式,捕获的音频信号的质量可以在各种使用条件下被维持在高水平。
在结合附图阅读时,还将从以下对示例性实施例的描述中理解本发明的实施例的其他特征和益处。附图以示例方式说明了本发明的精神和原理。
附图说明
本发明的一个或多个实施例的细节将在附图和以下描述中得到阐述。本发明的其他特征、方面和益处将从说明书、附图和权利要求中变得明显,其中:
图1是示出了根据本发明的示例性实施例的一种用于适应性音频捕获的方法的流程图;
图2是示出了根据本发明的另一示例性实施例的一种用于适应性音频捕获的方法的流程图;
图3A和图3B是示出了根据本发明的示例性实施例的适应性音频捕获的示例的示意图;
图4是示出了根据本发明的示例性实施例的一种用于适应性音频捕获的装置的框图;
图5是示出了根据本发明的示例性实施例的用户终端的框图。
所有附图中,相同或相似的参考标号指示相同或相似的元素。
具体实施方式
总体上,本发明的实施例提供一种用于适应性音频捕获的方法、装置和计算机程序产品。根据本发明的实施例,对于配备有多个音频捕获元件的用户终端,通过实时地对音频信号进行处理和分析,单个用户终端上的多个音频捕获元件的功能可以动态地被确定和改变。由此,捕获的音频信号的质量可以在各种使用条件下被维持在较高水平。
首先参考图1,其示出了图示根据本发明的示例性实施例的一种用于适应性音频捕获的方法100的流程图。如图所示,方法100开始后,在步骤S101,通过与用户终端上的音频捕获元件相关联的音频通道来获取音频信号。根据本发明的实施例,用户终端配备有多个音频捕获元件。此处所使用的术语“音频捕获元件”是指可以被配置为捕获、记录或以其他方式获取音频信号的任何适当设备,诸如麦克风。每个音频捕获元件与一个音频通道相关联,音频捕获元件所捕获的音频信号可以通过音频通道被传递至例如用户终端的处理器或控制器。
方法100继而进行到步骤S103,在此通过对获取的音频信号进行处理来计算音频通道的信号幅值(amplitude)。根据本发明的实施例,音频通道的信号幅值可以包括指示该通道上的音频信号的量值(magnitude)的任何信息。在一些示例性实施例中,在步骤S103处计算的信号幅值可以包括时域中的信号量值,其例如可以表示为音频信号的均方根值。备选地或附加地,获取的音频信号在频域中的幅值,如频谱幅值和/或功率谱,也可以用作信号幅值。将会理解,这些仅仅是信号幅值的一些示例,不应被解释为对本发明的限制。任何能够指示音频通道的信号幅值的信息都可以与本发明的实施例结合使用,无论是目前已知的还是将来开发的。具体示例将在下文参考图2详述。
此外,在话音呼叫等某些情况中,音频信号源(例如,说话人)相对于用户终端上的音频捕获元件的位置通常将至少将在一段特定时间内保持稳定。因此,在一些示例性实施例中,在步骤S103计算的信号幅值可以包括在给定的时间间隔中累计的信号幅值的平均。在这些实施例中,平均信号幅值例如可以用于确定音频捕获元件在下一时间间隔中的功能。下面将参考图2对这一方面的具体示例进行详细说明。
接下来,在步骤S104,基于信号幅值以及针对与用户终端上的至少一个其他音频捕获元件相关联的至少一个其他音频通道的另一信号幅值,确定音频捕获元件的功能。如上所述,除了步骤S101和S103考虑的音频通道之外,用户终端还配备有一个或多个其他音频捕获元件,每个音频捕获元件与相应的音频通道相关联。这些音频通道中一个或多个的信号幅值可以按照与上文描述的类似方式被计算。根据本发明的实施例,其他音频通道的信号幅值可以通过方法100或通过与该该音频通道相关联或者专用于该音频通道的类似过程而计算。
音频捕获元件的功能可以基于相关联的音频通道的信号幅值以及同一用户终端上的一个或多个其他音频通道的其他信号幅值而被确定。一般而言,如果一个音频通道具有较高的信号幅值,则相关联的音频捕获元件可被用作主元件,并且例如被配置为捕获前景音频信号(例如,用户在话音呼叫中的语声信号)。反之,如果一个音频通道具有较低信号幅值,则相关联的音频捕获元件可被用作辅音频捕获元件或参考音频捕获元件,并且例如被配置为捕获背景音频信号以用于噪声估计目的。
方法100在步骤S104之后结束。通过使用方法100,多个音频捕获元件的功能可以实时地根据具体情况而被适应性地确定。例如,假定移动电话具有两个麦克风,其中之一是用于捕获用户的语声信号的主麦克风,而另一个是用于捕获背景噪声的辅麦克风。如果原始的主麦克风被物体遮挡并且相关联的音频通道上的信号量值因此降低到低于与原辅麦克风相关联的音频通道的信号量值,那么这两个麦克风的功能可以相应地交换。即,原始的辅元件现在变为充当主音频捕获元件,而原始的主音频捕获元件可以变成充当辅音频捕获元件或是被直接停用。
现在将参考图2对一个更为具体的示例进行描述。图2示出了图示根据本发明的另一示例性实施例的一种用于适应性音频捕获的方法200。
方法200开始之后,在步骤S201,通过与用户终端上的音频捕获元件相关联的音频通道获取音频信号。假定用户终端包括多个麦克风作为音频捕获元件,音频信号可以从与一个麦克风相关联的音频通道被获取。步骤S201对应于上文参考图1描述的步骤S101,在此不再详述。
接下来,方法200进行到步骤S202,在此执行话音活动检测(Voice Activity Detection,VAD),以确定用户终端的一个或多个音频通道上是否存在话音活动。如果不存在话音活动,方法200返回步骤S201。换言之,根据图2中示出的实施例,后续步骤只有在话音活动存在的情况下才会被执行。这主要是出于节能考虑。也即,如果用户终端的音频通道上不存在话音活动,则无需计算信号幅值以及确定或改变音频捕获元件的功能。以此方式,用户终端可以更有效地进行操作。
根据本发明的实施例,可以利用各种策略来实现话音活动检测。在一些示例性实施例中,话音活动检测可以仅在单个音频通道上执行。例如,话音活动检测可以在与用户终端上的当前主音频捕获元件相关联的音频通道上执行。备选地,音频活动检测可以在不止一个音频通道上执行。仅出于说明目的,下面将描述在多个音频通道上执行话音活动检测的实施例。
在这些实施例中,假定话音活动检测将在话音通道的一个子集(表示为Lsub)上被执行,该子集可以包括用户终端上的某些或所有话音通道。可以对集合中每个话音通道中的话音活动状态进行检测。一般地,话音活动可以基于音频信号的某个特征而被检测,特征例如包括但不限于:短时能量、过零率、倒谱特征、Itakura LPC谱距离和/或元音的周期性测量。一个或多个这种特征可从音频信号中被提取,继而与预定阈值进行比较以确定当前帧是话音帧还是噪声帧。任何适当的话音活动检测算法或过程都可以结合本发明的实施例使用。
如果第j个音频通道上存在话音活动,那么对于信号帧n,与第j个音频通道相关联的话音活动状态可以被设置为VADj(n)=1,以指示当前帧是语音帧。否则,与第j个通道相关联的话音活动状态被标志为VADj(n)=0,以指示当前帧是噪声帧。当前用户终端的全部话音活动状态可以被计算为集合Lsub中的每个话音通道的VAD(n)的和,其可以如下表达:
VAD ( n ) ‾ = 1 , Σ j = 1 L sub VAD j ( n ) ≥ 1 0 , Σ j = 1 L sub VAD j ( n ) = 0
将会理解,话音活动检测是可选的。可以计算并且相互比较不同音频通道的信号幅值,以确定相关联的音频捕获元件的功能(这将在下文的步骤S203和S204处描述),而无需在音频通道上检测话音活动。
返回图2,方法200继而进行到步骤S203,在此通过对获取的音频信号进行处理而计算音频通道的信号幅值。如上文参考图1的步骤S103所描述的,根据本发明的实施例,音频通道的信号幅值可以包括任何指示该通道上的音频信号的量值的信息,包括但不限于所获取音频信号的频谱幅值、功率谱或任何其他信息(时域中的或频域中的)。在图2中示出的实施例中,仅仅出于说明目的,功率谱将被描述为信号幅值。
为了计算所获取的语音信号的功率谱,在一些示例性实施例中,对所获取的音频信号进行逐帧处理。加窗(windowing)操作可被应用于音频信号的每个帧,并且经过加窗的信号进行离散傅里叶变换以得到帧的频谱,其可以表示为Xj(n,k),其中n是帧的序号,k表示离散傅立叶变换之后的频点的序号。在一些示例性实施例中,Xj(n,k)可以如下计算:
X j ( n , k ) = Σ m = - ∞ + ∞ x j ( m ) w ( nR - m ) e - i 2 πkm / N
其中R表示信号的更新样本的数目,N表示离散傅里叶变换点的数目,并且w(m)表示加窗函数。根据本发明的实施例,加窗函数可以是适于音频信号处理的任何加窗函数,诸如汉明窗、汉宁窗、矩形窗等。帧长度可以在10-40ms的范围内,例如20ms。
在一些示例性实施例中,一个帧和其前一帧之间可以存在重叠,并且重叠量可以根据具体情况进行选择。另外,离散傅里叶变换可以通过快速傅立叶变换(Fast Fourier Transform,FFT)来实现。FFT可以直接地应用于经过加窗的音频信号。备选地,可以执行补零(zero padding)操作,以提高频率分辨率和/或满足FFT的长度是2的指数倍这一条件。例如,对N个点应用FFT变换将会得到这N个点的频谱值。
在一些示例性实施例中,采样率Fs可以是16kHz,可以选择汉明窗,帧长度可以是20ms,帧间重叠可以是50%。在这些实施例中,每帧信号共有320个采样点,并且更新样本的数目R=160。通过在音频信号末尾补零,可以得到共512个采样点。这样,N-点FFT处理(N=512)可得到512个频点。基于音频信号的帧的频谱和前一帧的功率谱,当前帧的功率谱值可以如下估计:
P X j X j ( n , k ) = α j · P X j X j ( n - 1 , k ) + ( 1 - α j ) · | X j ( n , k ) | 2
其中n表示当前帧的序号,j表示所考虑的音频通道的序号,表示用户终端的音频通道的自功率谱,αj表示该音频通道的平滑因子,其可以被设置在0到1的范围内,并且|·|表示取模(mod)操作。
将会理解,上文描述只是计算功率谱以作为音频通道的信号幅值的一个示例性实施例。任何其他适当的过程或算法都可以与本发明的实施例结合使用以计算音频信号的功率谱,无论当前已知或将来被开发。此外,如上所述,可以使用其他信息来指示音频通道的信号幅值。
此外,用户终端可以具有主音频捕获元件,并且与该主音频捕获元件相关联的音频通道可以称为主音频通道(例如,表示为jm)。在这些实施例中,在步骤S203,针对任何给定的用户终端的音频通道,可以计算该音频通道相对于主音频通道的信号幅值并且可选地对其进行归一化。这种相对信号幅值指示了主通道jm和其他音频通道之间的幅值差异,并且可被用作分析准则。仍考虑上文中功率谱被用作信号幅值的示例性实施例,通道j与主通道jm的归一化相对信号幅值计算如下:
λ j ( n , k ) = P X j X j ( n , k ) - P X j m X j m ( n , k ) P X j X j ( n , k ) + P X j m X j m ( n , k ) , j = 1 , . . . , L
其中-1≤λj(n,k)≤1。可以看出,当远小于时,λj(n,k)≈-1;当远大于时,λj(n,k)≈1;并且当j=jm时,λj(n,k)≈0。可以对不同音频通道的相对信号幅值进行比较,以做出步骤S204的决策,这将在下文中详细说明。
附加地或备选地,在步骤S203,可以计算音频通道在时间间隔内的平均信号幅值。可以理解,音频源相对于用户终端及其音频捕获元件的空间位置在短时间段内可能不会改变。因此,可以通过检测和分析某个时间间隔内的通道状况,来提高后续步骤的决策精度。仅仅出于说明目的,在执行话音活动检测并且相对功率谱值被计算为信号幅值的示例性实施例中,可以如下计算音频通道j的平均信号幅值:
λ j ( t ) ‾ = Σ n ∈ T VAD Σ k = k 1 k 2 λ j ( n , k )
其中T表示时间间隔的长度,其可以具有1~10s的范围,并且在一些示例性实施例中通常为2s,n∈TVAD表示在当前时间间隔T内具有话音活动的每个帧,并且k1和k2分别为频带的上限阈值和下限阈值。频带可以是语音能量主要集中的一个频带。例如,如果采样率FS=16kHz并且FFT点的数目N=512,那么频带可以是200~3500Hz。相应地,并且
将会理解,无论单独考虑或结合考虑,上文的示例性实施例都不应该被解释为对本发明的限制。任何能够指示音频通道的信号幅值的信息及其任意组合都可以在步骤S203被计算。
接下来,方法200进行到步骤S204,在此可以基于当前音频通道的信号幅值和用户终端上的一个或多个其他音频通道的其他信号幅值,来确定音频捕获元件的功能。一般而言,音频捕获元件的功能基于它们在特定情况下的音频捕获能力而被确定。当前情况下具有较高能力的音频捕获元件将在音频捕获中起主要作用。
例如,在计算一个或多个音频通道在时间间隔T内的平均相对功率谱值时,这些值可以降序排列其中{a1,a2,…,aL}是通过重新排序{1,2,…j,…,L}得到的。继而,与排最高位的M音频通道(其在当前情况下被期望具有较高的捕获能力)相关联的音频捕获元件可以被归类到主音频捕获元件组中,以用于在下一时间间隔中捕获前景音频信号(例如,来自说话人的语音信号)。反之,与排在较低位的音频通道相关联的那些音频捕获元件可以被归类到辅语音采集元件组中,以用于在下一时间间隔中捕获背景音频信号(例如,背景噪声)。以此方式,用户终端上的音频捕获元件的功能可以根据当前情况而适应性地、动态地被设置。
将会理解,步骤S204的决策并非必须基于平均信号幅值。在一些备选的实施例中,可以基于音频通道的瞬时状态来确定功能。例如,对信号幅值的计算(步骤S203)可以周期性地执行,并且可以对不同音频通道在执行计算的时刻的瞬时信号幅值进行比较,以确定语音捕获元件的功能。
现在考虑双麦克风移动电话的具体示例。在这一示例中,移动电话包括电话正面下方的第一麦克风和背面上方的第二麦克风作为音频捕获元件。第一麦克风和第二麦克风分别具有相关联的第一音频通道和第二音频通道。在平均相对功率谱值被计算为信号幅值的实施例中,采样率可以被设置为16kHz,并且采样点的数目是16比特。音频信号在大型开放性办公室被捕获,周围具有背景噪声。说话人首先面对移动电话的正面说话,然后面对移动电话的背面说话。捕获的时域信号在图3A中示出,其中X轴表示时间,Y轴坐标表示信号幅值。图3A中,第一麦克风和第二麦克风的信号幅值分别由图示301和302示出。
在一些示例性实施例中,汉明窗用作加窗函数,帧长度是20ms,帧间重叠为50%,对音频信号的每帧末尾执行补零,并且执行N=512个点的FFT。另外,功率谱的平滑因子αj=0.8,频率阈值为k1=6并且k2=112,并且时间间隔长度T选择为2秒。图3B示出了经处理的结果。如图示303所示,当说话人面对移动电话的正面(在图3A中的时刻T1之前)时,第一音频通道的信号幅值高于第二音频通道的信号幅值。因此,相关联的第一麦克风(麦克风-1)将充当主麦克风。当说话人面对移动电话的背面(在图3B的时刻T1之后)时,由于第一麦克风和第二音频通道的信号幅值的改变,所以第二麦克风(麦克风-2)将变为主麦克风,而第一麦克风将转而充当辅麦克风。
参考图4,示出了图示根据本发明的示例性实施例的一种用于适应性音频捕获的装置400。根据本发明的实施例,装置400可以被配置为执行如上所述的方法100和/或200.
如图所示,装置400包括获取单元401,该获取单元401被配置为通过与用户终端上的音频捕获元件关联的音频通道获取音频信号。装置400还包括计算单元402,该计算单元402被配置为通过对获取的音频信号进行处理来计算音频通道的信号幅值。此外,装置400包括确定单元403,该确定单元403被配置为基于信号幅值和与用户终端上的至少一个其他音频捕获元件关联的至少一个其他音频通道的其他信号幅值来确定音频捕获元件的功能。
在一些示例性实施例中,装置400还可以包括:话音活动检测单元,被配置为检测用户终端的一个或多个音频通道上是否存在话音活动,其中确定单元被配置为在一个或多个音频通道上存在音频活动的情况下确定音频捕获元件的功能。
在一些示例性实施例中,计算单元402可以包括以下至少一个:时域幅值计算单元,被配置为计算获取的音频信号的时域幅值;以及频域幅值计算单元,被配置为计算获取的音频信号的频域幅值。
在一些示例性实施例中,计算单元402可以包括平均幅值计算单元,该平均幅值计算单元被配置为计算音频通道在时间间隔内的平均信号幅值。在这些实施例中,其他信号幅值可以包括至少一个其他音频通道在时间间隔内的其他平均信号幅值,并且确定单元403可以包括平均幅值比较单元,该平均幅值比较单元被配置为比较平均信号幅值和其他平均信号幅值。
在一些示例性实施例中,用户终端具有主音频通道。在这些实施例中,计算单元402可以包括相对幅值计算单元,该相对幅值计算单元被配置为计算音频通道关于主音频通道的相对幅值,并且其他信号幅值包括至少一个其他音频通道关于主音频通道的其他相对幅值。确定单元403可以包括相对幅值比较单元,该相对幅值比较单元被配置为比较相对幅值和其他相对幅值。
在一些示例性实施例中,确定单元403可以包括归类单元,该归类单元被配置为将音频捕获元件归类到用于捕获前景音频信号的主音频捕获元件组或用于捕获背景音频信号的辅音频捕获元件组。
将会理解,装置400中的各个单元对应于上述方法100和/或200的步骤。因此,可选单元未在图4中示出,并且相应特征未在此处详细说明。
图5是图示了根据本发明的示例性实施例的用户终端的框图。在一些实施例中,用户终端500可以体现为移动电话。然而,应该理解,移动电话仅仅是能从本发明的实施例获益的一个说明性的类型的装置,并且因此不应该用于限制本发明的实施例的范围。
用户终端500包括与发射器514和接收器516可操作地通信的天线512。用户终端500还包括至少一个处理器或控制器520。例如,控制器520可以由数字信号处理器、微处理器、各种模拟数字转换器、数字模拟转换器、以及其他支持电路组成。用户终端500的控制和信息处理功能根据它们各自的能力被分配在这些设备之间。
用户终端500还包括用户接口,该用户接口包括输出设备,诸如振铃器522、耳机或扬声器524、作为音频捕获元件的多个麦克风526和显示器528,以及用户输入设备,诸如小键盘530、操纵杆或其他用户输入接口,其全部都耦合至控制器520。用户终端500还包括电池534,诸如震动电池组,用于向操作用户终端500所需的各个电路供电,以及可选择地提供机械震动作为可检测的输出。
在一些实施例中,用户终端500包括媒体捕获元件,诸如摄相机、视频和/或音频模块,与控制器520通信。媒体捕获元件可以是用于捕获图像、视频和/或音频以供存储、显示或传输的任何装置。例如,在媒体捕获元件是相机模块536的示例性实施例中,摄相机模块536可以包括能够从捕获的图像中形成数字图像文件的数字摄相机。
当体现为移动终端时,用户终端500还可以包括通用识别模块(UIM)538。UIM538通常是具有内置的处理器的存储设备。UIM538可以例如包括订户识别模块(SIM)、通用集成电路卡(UICC)、通用订户识别模块(USIM)、可移动式用户识别模块(R-UIM)等。UIM538通常存储与订户有关的信息元素。
用户终端500可以配备有至少一个存储器。例如,用户终端500可以包括易失性存储器540,诸如包括用于数据的临时存储的高速缓存区域的随机存取存储器(RAM)。用户终端500还可以包括其他非易失性存储器542,其可以被嵌入并且/或者可以是可移动的。非易失性存储器542可以附加地或备选地包括EEPROM、闪存等等。存储器可以存储任意数量的信息、程序和数据,供用户终端500用于实现用户终端500的功能。例如,存储器可以存储计算机可执行代码的程序,其可以被配置为,与控制器520一起,使用户终端500至少执行如上所述的方法100和/或200的步骤。
为说明本发明的精神和原理目的,以上已对其某些具体实施例进行了描述。针对配备有多个音频捕获元件的用户终端,通过实时地处理并分析音频信号,可以动态地确定并改变单个用户终端上的多个音频捕获元件的功能。例如,根据各种因素,如用户终端关于音频信号源的相对位置和/或用户终端本身的姿势,最优音频捕获元件可以适应性地被确定为主元件,而一个或多个其他音频捕获元件可以相应地充当参考音频捕获元件。以此方式,捕获的音频信号的质量可以在各种使用条件下被维持在高水平。
总之,各个示例性实施例可以实现在硬件或专用电路、软件、逻辑或其任意组合中。一些方面可以实现在硬件中,而其他方面可以实现在固件或软件中,该固件或软件可以被控制器、微处理器或其他计算设备执行。尽管本发明的示例性实施例的各个方面被图示并描述为框图、流程图、或使用一些其他的图形表示,但是将领会此处描述的方框、装置、系统、技术或方法可以实现在(作为非限制性的示例)硬件、软件、固件、专用电路或逻辑、通用硬件或控制器或其他计算设备或其组合中。
例如,以上描述的装置400可以实现为硬件、软件/固件、或其任意组合。在一些示例性实施例中,装置400中的一个或多个单元可以被实现为软件模块。备选地或附加地,一些或全部的单元可以使用硬件模块实现,硬件模块如集成电路(IC)、专用集成电路(ASIC)、片上系统(SOC)、现场可编程门阵列(FPGA)等等。本发明的范围关于此点不受限制。附加地,图1至图2中示出的各个方框可以被视为方法步骤、和/或从计算机程序代码的操作中得到的操作、和/或被构造成执行关联的功能的多个耦合的逻辑电路元件。例如,方法100和/或200可以由被包含在有形地体现在机器可读介质上的计算机程序中的计算机程序代码实现。
在本说明书的上下文中,机器可读存储介质可以是能够包含、或存储程序以供或结合指令执行系统、装置、或设备使用的任何有形介质。机器可读介质可以是机器可读信号介质或机器可读存储介质。机器可读存储介质可以包括但不限于电、磁、光、电磁、红外、或半导体系统、装置、或设备、或任意前述合适的组合。机器可读存储介质更具体的示例可以包括具有一个或多个电线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或闪存)、光纤、便携式光盘只读存储器(CD-ROM)、光存储设备、磁存储设备、或任意前述合适的组合。
用于执行本发明的方法的计算机程序代码可以以一种或多种编程语言的任意组合编写。这些计算机程序代码可以被提供给通用计算机、专用计算机、或其他可编程数据处理装置的处理器,使得程序代码在被计算机或其他可编程数据处理装置的处理器执行时,使流程图和/或框图中规定的功能/操作被实现。程序代码可以完整地在计算机上、部分地在计算机上、作为独立的软件包、部分地在计算机上并且部分地在远程计算机上或完整地在远程计算机或服务器上执行。
进一步,尽管操作以特定的顺序被描述,但是这不应该被理解为要求此类操作以示出的特定顺序或者以顺序次序执行,或者所有图示的操作得到执行,以实现期望的结果。在某些情况下,多任务和并行处理可以是有利的。同样,尽管上述讨论中包含若干具体实现细节,但是这些不应该被解释为对任何发明的或所要求保护的范围的限制,而是对可以特定于特定发明的特定实施例的特征的描述。本说明书中的单独的实施例的上下文中描述的某些特征还可以结合实现在单个实施例中。相反地,在单个实施例的上下文中描述的各个特征还可以分别或以任何合适的子组合实现在多个实施例中。
鉴于前述说明,当结合附图阅读时,对本发明的前述示例性实施例的各种修改、改编可以对相关领域的技术人员变得明显。任意和所有修改将仍落入本发明的非限制性及示例性实施例的范围内。此外,本发明的这些实施例对本领域的技术人员具有呈现在前述说明书和附图中的教导益处,本领域的技术人员能够想到此处阐述的本发明的其他实施例。
因此,将领会本发明的实施例不限于公开的具体实施例,并且修改和其他实施例旨在被包括在所附权利要求的范围内。尽管此处使用了特定术语,但是它们仅在通用和描述意义上使用并且不用于限制目的。

Claims (14)

1.一种用于适应性音频捕获的方法,所述方法包括:
通过与用户终端上的音频捕获元件相关联的音频通道获取音频信号;
通过对获取的所述音频信号进行处理,来计算所述音频通道的信号幅值;以及
基于所述信号幅值以及与所述用户终端上的至少一个其他音频捕获元件相关联的至少一个其他音频通道的其他信号幅值,来确定所述音频捕获元件的功能。
2.根据权利要求1所述的方法,还包括:
检测所述用户终端的一个或多个音频通道上是否存在话音活动,
其中所述音频捕获元件的所述功能在所述一个或多个音频通道上存在所述话音活动的情况下被确定。
3.根据权利要求1所述的方法,
其中计算所述信号幅值包括计算获取的所述音频信号的时域幅值或频域幅值。
4.根据权利要求1所述的方法,
其中计算所述信号幅值包括计算所述音频通道在一个时间间隔内的平均信号幅值,
其中所述其他信号幅值包括所述至少一个其他音频通道在所述时间间隔内的其他平均信号幅值,以及
其中确定所述音频捕获元件的所述功能包括比较所述平均信号幅值和所述其他平均信号幅值。
5.根据权利要求1所述的方法,其中所述用户终端具有主音频通道,
其中计算所述信号幅值包括计算所述音频通道相对于所述主音频通道的相对幅值;
其中所述其他信号幅值包括所述至少一个其他音频通道相对于所述主音频通道的其他相对幅值,以及
其中确定所述音频捕获元件的所述功能包括比较所述相对幅值和所述其他相对幅值。
6.根据权利要求1-5中的任一项所述的方法,其中确定所述音频捕获元件的所述功能包括:
将所述音频捕获元件归类为用于捕获前景音频信号的主音频捕获元件组或者用于捕获背景音频信号的辅音频捕获元件组。
7.一种用于适应性音频捕获的装置,所述装置包括:
获取单元,被配置为通过与用户终端上的音频捕获元件相关联的音频通道获取音频信号;
计算单元,被配置为通过对获取的所述音频信号进行处理,来计算所述音频通道的信号幅值;以及
确定单元,被配置为基于所述信号幅值和与所述用户终端上的至少一个其他音频捕获元件相关联的至少一个其他音频通道的其他信号幅值,来确定所述音频捕获元件的功能。
8.根据权利要求7所述的装置,还包括:
话音活动检测单元,被配置为检测所述用户终端的一个或多个话音通道上是否存在话音活动,
其中所述确定单元被配置为在所述一个或多个音频通道上存在所述话音活动的情况下,确定所述音频捕获元件的所述功能。
9.根据权利要求7所述的装置,其中所述计算单元包括以下至少一个:
时域幅值计算单元,被配置为计算获取的所述音频信号的时域幅值;以及
频域幅值计算单元,被配置为计算获取的所述音频信号的频域幅值。
10.根据权利要求7所述的装置,
其中所述计算单元包括平均幅值计算单元,被配置为计算所述音频通道在一个时间间隔内的平均信号幅值,
其中所述其他信号幅值包括所述至少一个其他音频通道在所述时间间隔内的其他平均信号幅值,以及
其中所述确定单元包括平均幅值比较单元,被配置为比较所述平均幅值和所述其他平均幅值。
11.根据权利要求7所述的装置,
其中所述用户终端具有主音频通道,
其中所述计算单元包括相对幅值计算单元,被配置为计算所述音频通道相对于所述主音频通道的相对幅值,
其中所述其他信号幅值包括所述至少一个其他音频通道相对于所述主音频通道的其他相对幅值,以及
其中所述确定单元包括相对幅值比较单元,被配置为比较所述相对幅值和所述其他相对幅值。
12.根据权利要求7-11中的任一项所述的装置,其中所述确定单元包括:
归类单元,被配置为将所述音频捕获元件归类为用于捕获前景音频信号的主音频捕获元件组或者用于捕获背景音频信号的辅音频捕获元件组。
13.一种计算机程序产品包括有形地体现在计算机可读介质上的计算机程序代码,所述计算机程序代码包含被配置为执行根据权利要求1-6中的任一项所述的方法的程序代码。
14.一种用户终端,包括:
至少一个处理器;
多个音频捕获元件;以及
至少一个存储器,耦合至所述至少一个处理器并且存储计算机可执行指令的程序,所述计算机可执行指令被配置为与所述至少一个处理器一起使所述移动终端至少根据权利要求1-6中的任一项所述的方法执行。
CN201280017109.5A 2012-12-31 2012-12-31 适应性音频捕获 Active CN104025699B (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/CN2012/087963 WO2014101156A1 (en) 2012-12-31 2012-12-31 Adaptive audio capturing

Publications (2)

Publication Number Publication Date
CN104025699A true CN104025699A (zh) 2014-09-03
CN104025699B CN104025699B (zh) 2018-05-22

Family

ID=49911154

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201280017109.5A Active CN104025699B (zh) 2012-12-31 2012-12-31 适应性音频捕获

Country Status (4)

Country Link
US (1) US9692379B2 (zh)
EP (1) EP2797080B1 (zh)
CN (1) CN104025699B (zh)
WO (1) WO2014101156A1 (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017035771A1 (zh) * 2015-09-01 2017-03-09 华为技术有限公司 语音通路的检测方法、装置和终端
CN108965600A (zh) * 2018-07-24 2018-12-07 Oppo(重庆)智能科技有限公司 语音拾取方法及相关产品
CN110249637A (zh) * 2017-01-03 2019-09-17 皇家飞利浦有限公司 使用波束形成的音频捕获
CN112925502A (zh) * 2021-02-10 2021-06-08 歌尔科技有限公司 一种音频通路切换设备、方法、装置及电子设备

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9685156B2 (en) * 2015-03-12 2017-06-20 Sony Mobile Communications Inc. Low-power voice command detector
KR20170024913A (ko) * 2015-08-26 2017-03-08 삼성전자주식회사 복수의 마이크들을 이용한 잡음 제거 전자 장치 및 잡음 제거 방법
JP6828804B2 (ja) 2017-03-24 2021-02-10 ヤマハ株式会社 収音装置および収音方法
US10455319B1 (en) * 2018-07-18 2019-10-22 Motorola Mobility Llc Reducing noise in audio signals

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1794758A (zh) * 2004-12-22 2006-06-28 美国博通公司 一种无线电话及在该无线电话中处理音频信号的方法
CN101595452A (zh) * 2006-12-22 2009-12-02 Step实验室公司 近场矢量信号增强
US20100081487A1 (en) * 2008-09-30 2010-04-01 Apple Inc. Multiple microphone switching and configuration

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4241329A (en) * 1978-04-27 1980-12-23 Dialog Systems, Inc. Continuous speech recognition method for improving false alarm rates
JP3483695B2 (ja) * 1996-03-14 2004-01-06 株式会社リコー 音声通信装置
CN100394903C (zh) * 2005-06-24 2008-06-18 清华大学 双向数字调制多通道人工耳蜗系统
US7464029B2 (en) * 2005-07-22 2008-12-09 Qualcomm Incorporated Robust separation of speech signals in a noisy environment
JP2009089133A (ja) * 2007-10-01 2009-04-23 Yamaha Corp 放収音装置
US8175291B2 (en) * 2007-12-19 2012-05-08 Qualcomm Incorporated Systems, methods, and apparatus for multi-microphone based speech enhancement
US8411880B2 (en) * 2008-01-29 2013-04-02 Qualcomm Incorporated Sound quality by intelligently selecting between signals from a plurality of microphones
US8041054B2 (en) * 2008-10-31 2011-10-18 Continental Automotive Systems, Inc. Systems and methods for selectively switching between multiple microphones
US20110058683A1 (en) * 2009-09-04 2011-03-10 Glenn Kosteva Method & apparatus for selecting a microphone in a microphone array
US8897455B2 (en) * 2010-02-18 2014-11-25 Qualcomm Incorporated Microphone array subset selection for robust noise reduction
US20110317848A1 (en) * 2010-06-23 2011-12-29 Motorola, Inc. Microphone Interference Detection Method and Apparatus
US20130344788A1 (en) * 2012-06-22 2013-12-26 GM Global Technology Operations LLC Hvac system zone compensation for improved communication performance

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1794758A (zh) * 2004-12-22 2006-06-28 美国博通公司 一种无线电话及在该无线电话中处理音频信号的方法
CN101595452A (zh) * 2006-12-22 2009-12-02 Step实验室公司 近场矢量信号增强
US20100081487A1 (en) * 2008-09-30 2010-04-01 Apple Inc. Multiple microphone switching and configuration

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017035771A1 (zh) * 2015-09-01 2017-03-09 华为技术有限公司 语音通路的检测方法、装置和终端
CN106717027A (zh) * 2015-09-01 2017-05-24 华为技术有限公司 语音通路的检测方法、装置和终端
CN110249637A (zh) * 2017-01-03 2019-09-17 皇家飞利浦有限公司 使用波束形成的音频捕获
CN110249637B (zh) * 2017-01-03 2021-08-17 皇家飞利浦有限公司 使用波束形成的音频捕获装置和方法
CN108965600A (zh) * 2018-07-24 2018-12-07 Oppo(重庆)智能科技有限公司 语音拾取方法及相关产品
CN112925502A (zh) * 2021-02-10 2021-06-08 歌尔科技有限公司 一种音频通路切换设备、方法、装置及电子设备
CN112925502B (zh) * 2021-02-10 2022-07-08 歌尔科技有限公司 一种音频通路切换设备、方法、装置及电子设备

Also Published As

Publication number Publication date
EP2797080B1 (en) 2016-09-28
CN104025699B (zh) 2018-05-22
EP2797080A3 (en) 2015-04-22
EP2797080A2 (en) 2014-10-29
US20150341006A1 (en) 2015-11-26
WO2014101156A1 (en) 2014-07-03
US9692379B2 (en) 2017-06-27

Similar Documents

Publication Publication Date Title
CN104025699A (zh) 适应性音频捕获
US11664027B2 (en) Method of providing voice command and electronic device supporting the same
US20200357427A1 (en) Voice Activity Detection Using A Soft Decision Mechanism
US9299344B2 (en) Apparatus and method to classify sound to detect speech
WO2019101123A1 (zh) 语音活性检测方法、相关装置和设备
US9202462B2 (en) Key phrase detection
US8731936B2 (en) Energy-efficient unobtrusive identification of a speaker
EP2994910B1 (en) Method and apparatus for detecting a target keyword
US20160055847A1 (en) System and method for speech validation
US20150074524A1 (en) Management of virtual assistant action items
US8417524B2 (en) Analysis of the temporal evolution of emotions in an audio interaction in a service delivery environment
US20150350395A1 (en) Detecting and switching between noise reduction modes in multi-microphone mobile devices
CN106373564A (zh) 个性化热词检测模型
CN105704298A (zh) 声音唤醒侦测装置与方法
WO2013040414A1 (en) Mobile device context information using speech detection
US20160124564A1 (en) Electronic device and method for automatically switching input modes of electronic device
CN107491286A (zh) 移动终端的语音输入方法、装置、移动终端及存储介质
CN108665889B (zh) 语音信号端点检测方法、装置、设备及存储介质
CN108600559B (zh) 静音模式的控制方法、装置、存储介质及电子设备
KR102501083B1 (ko) 음성 인식 방법 및 이를 사용하는 전자 장치
CN109545226B (zh) 一种语音识别方法、设备及计算机可读存储介质
US8725508B2 (en) Method and apparatus for element identification in a signal
EP3140831B1 (en) Audio signal discriminator and coder
Dighe et al. Modeling Overlapping Speech using Vector Taylor Series.
CN110443466A (zh) 基于风险管理系统的数据处理方法及装置、电子设备

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20190314

Address after: 101399 Building 8-07, Ronghui Garden 6, Shunyi Airport Economic Core Area, Beijing

Patentee after: Xin Xin finance leasing (Beijing) Co.,Ltd.

Address before: 201203 No. 1 Building, No. 2288 Lane Exhibition Center, Zuchong Road, Zhangjiang High-tech Park, Shanghai

Patentee before: SPREADTRUM COMMUNICATIONS (SHANGHAI) Co.,Ltd.

EE01 Entry into force of recordation of patent licensing contract
EE01 Entry into force of recordation of patent licensing contract

Application publication date: 20140903

Assignee: SPREADTRUM COMMUNICATIONS (SHANGHAI) Co.,Ltd.

Assignor: Xin Xin finance leasing (Beijing) Co.,Ltd.

Contract record no.: X2021110000008

Denomination of invention: Adaptive audio capture

Granted publication date: 20180522

License type: Exclusive License

Record date: 20210317

TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20221017

Address after: 201203 Shanghai city Zuchongzhi road Pudong New Area Zhangjiang hi tech park, Spreadtrum Center Building 1, Lane 2288

Patentee after: SPREADTRUM COMMUNICATIONS (SHANGHAI) Co.,Ltd.

Address before: 101399 Building 8-07, Ronghui Garden 6, Shunyi Airport Economic Core Area, Beijing

Patentee before: Xin Xin finance leasing (Beijing) Co.,Ltd.