CN102947883A - 用于对音频信号进行标准非线性分析的方法和装置 - Google Patents

用于对音频信号进行标准非线性分析的方法和装置 Download PDF

Info

Publication number
CN102947883A
CN102947883A CN2011800100023A CN201180010002A CN102947883A CN 102947883 A CN102947883 A CN 102947883A CN 2011800100023 A CN2011800100023 A CN 2011800100023A CN 201180010002 A CN201180010002 A CN 201180010002A CN 102947883 A CN102947883 A CN 102947883A
Authority
CN
China
Prior art keywords
epsiv
oscillator
nonlinear
frequency
corresponds
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2011800100023A
Other languages
English (en)
Inventor
爱德华·W·拉奇
费利克斯·阿蒙特
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Florida Atlantic University
Circular Logic LLC
Original Assignee
Florida Atlantic University
Circular Logic LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Florida Atlantic University, Circular Logic LLC filed Critical Florida Atlantic University
Publication of CN102947883A publication Critical patent/CN102947883A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Signal Processing (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Theoretical Computer Science (AREA)
  • Biomedical Technology (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Complex Calculations (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
  • Piezo-Electric Or Mechanical Vibrators, Or Delay Or Filter Circuits (AREA)

Abstract

本申请涉及为确定声信号的结构而设计的系统和方法。该方法包括声输入信号的替代变换,利用非线性振荡器网络,在非线性振荡器网络中,每个振荡器都被调到不同频率。每个振荡器接收输入并且与该网络中其他振荡器相互作用,产生非线性共振,该非线性共振用于鉴定声输入信号中的结构。非线性频率变换的输出可被用于输入到将为该信号提供进一步分析的系统中。根据一个实施例,对于作为外部激励的函数的每个振荡器,非线性响应被定义为具有输入的n扩展标准振荡器Zi网络。通过这种方式,对不接近于振荡器的固有频率的输入的响应得以考虑。

Description

用于对音频信号进行标准非线性分析的方法和装置
根据空军科学研究办公室和循环逻辑有限责任公司(Circular Logic,LLC)之间的合约No.FA9550-07-C0095以及空军科学研究办公室和循环逻辑有限责任公司之间的合约No.FA9550-07-C0017,美国政府享有本申请的权利。
有关申请的交叉引用
本申请要求享有2010年1月29日提交的美国临时专利申请No.61/299,743的优先权,该临时申请以全文引用的方式并入本文。
技术领域
概括而言,本申请涉及音频信号输入的感知和识别,更为具体而言,涉及一种用于提供结构化音频信号的非线性频率分析的信号处理方法和装置,该结构化音频信号模拟人耳的操作。
背景技术
总的来说,信号处理应用中有很多众所周知的信号处理技术用于提取谱特征,分离信号与背景声音,并且找出音乐和说话节奏的时间尺度的周期性。通常,对特征进行提取,并且产生针对特定可辨别声音结构的参考模式(模型)。例如,这些声音结构可以包括音位、音调或节奏韵律(rhythmic meter)。
现参见图1,其示出了现有技术中的一般信号处理系统。将关于声信号处理来对该处理系统进行描述,但是应当明白的是,相同的概念可以应用于其他类型信号的处理。处理系统100接收输入信号101。输入信号可以是诸如音乐、语音或声纳返回(sonar returns)之类的任意类型的结构化信号。
典型地,声前端(未示出)包括麦克风或某种其他类似地设备以将声信号转换成模拟电信号,该模拟电信号具有与由该输入声音所导致的气压变化一致的随时间变化的电压。该声学前端还包括模数(A/D)转换器,A/D转换器用于通过以所希望的采样速率对模拟波形的电压进行采样并且将采样后的电压转换成相应的数字值来对模拟信号进行数字化。该采样速率通常被选择为输入信号中的最高频率分量的两倍。
在处理系统100中,频谱特征可以通过计算声信号的小波变换来在变换模块102中进行提取。或者,可以使用滑动窗傅里叶变换,以提供对声信号的时频分析。在由变换模块102进行初始频率分析之后,可以在解析变换模块103中应用一种或多种解析变换。举例而言,可以应用“压缩(squashing)”函数(例如,平方根函数和sigmoid函数),以修改结果的幅度。或者,可以使用同步挤压(synchro-squeeze)变换,以改善输出的频率分辨率。Basu等人的美国专利No.6,253,175中对这种类型的变换进行了描述。接下来,可以在倒频谱分析模块104中应用倒频谱(cepstrum),以恢复或增强输入信号中可能不存在或不可解析的结构特征(比如音高(pitch))。最后,特征提取模块105从经完全变换的信号中提取与待鉴定的结构相关的那些特征。该系统的输出随后可以传递到识别系统,该识别系统鉴定特定结构(例如音位),从而给出从输入信号提取的特征。前述模块中的每个模块的实现方式的处理在信号处理的现有技术中都是公知的。
前述主要为线性的语音处理技术已经被证明在许多应用中是有用的。然而,这些技术没有解决某些重要问题。举例而言,如目前在现有技术中已知的,耳朵和大脑利用非线性振荡以非线性方式来对声音进行处理。输入是在耳蜗、蜗背侧核、下丘和其他大脑区域处被接收的,在这些区域中,根据相互作用的兴奋过程和抑制过程对输入进行处理,以产生非线性神经振荡,从而提供由其他大脑区域处理的输出。现有技术具有这样的缺点,其利用线性振荡模型来模拟声音的非线性处理,所述声音的非线性处理要求模拟大脑对复杂信号的处理。因此,这些传统方法对于确定时变输入信号的结构并不总是有效的,这是因为这些传统方法没有能够有效地恢复出输入信号中不存在或完全可解析的分量。因此,无法模拟音频响应的全音域。
为了克服这些缺点,从美国专利No.7,376,562(Large)中可知利用非线性振荡器网络来处理语音信号。在概念上,这类似于通过一组线性振荡器来对信号进行处理,主要的区别在于这些处理单元是非线性的并且能够非线性地共振。非线性共振提供了在线性共振中无法观察到的各种行为(例如,神经振荡)。此外,振荡器能够被连成复杂的网络。图2a示出了用于处理声信号的典型架构。它由一维阵列的非线性振荡器(称为梯度(gradient)频率非线性振荡器网络(GFNNs))组成。在图2a中,GFNNs被布置成处理层,以模拟由耳蜗、蜗背侧核(DCN)和下丘(ICC)进行的听觉处理。从生理学的角度看,非线性共振模仿耳蜗内的外毛细胞非线性以及DCN和ICC上的锁相神经响应(参见图2b)。从信号处理的角度看,由多个GFNN层进行处理不是多余的;由于非线性的缘故,信息在每一层处都增加。
从图2a可见,这些振荡器被耦合在一起,跨越简单线性阵列200以及在非线性振荡器的线性阵列200、202、204的相邻层之间。非线性振荡器对之间的这些连接确定输入音频信号s(t)的处理。
常见的信号处理操作是复杂输入信号的频率分解,例如通过傅里叶变换。通常,该操作是通过处理输入信号s(t)的一组线性带通滤波器来实现的。例如,广泛使用的耳蜗模型是gammatone滤波器组(Patterson等,1992)。为了与Large模型相比较,它可被写成微分方程
z · = z ( α + iω ) + s ( t ) - - - ( 1 )
其中,上点(overdot)表示相对于时间的微分(例如,dz/dt),z是复值状态变量(时间的函数),ω是角频率(ω=2πf,f以Hz为单位),α为线性阻尼参数,在现有技术模型中,α<0。项s(t)表示由时变外部信号线性强制。为了简单起见,在以上和下面的方程中,我们将针对第i个滤波器或振荡器的z写为zi。因为z在每个时间t处都是复数,因此其可以重写成极坐标形式,以振幅r和相位φ来揭示系统行为。线性系统中的共振是指该系统在激励频率下进行振荡,振幅和相位是系统参数确定的。当激励频率ω0接近振荡器频率ω时,振荡器振幅r增加,以提供带通滤波行为。
最近,耳蜗的非线性模型已经被提出,以对外毛细胞的非线性响应进行模拟。值得注意的是,外毛细胞被认为是负责耳蜗对柔和声音的极度敏感、良好频率选择性和振幅压缩(例如,Egulluz,Ospeck,Choe,Hudspeth,&Magnasco,2000)。解释这些特性的非线性共振模型已经以针对非线性振动的霍普夫标准型(Hopfnormal form)为基础,并且是通用的。标准型(截取式)模型具有这种形式并且根据Large可被表示为
z · = z ( α + iω + β | z | 2 ) + s ( t ) + h . o . t . - - - ( 2 )
注意这种形式和方程1的线性振荡器之间的表面相似性。再次,z是由圆内的一时间点处z的实部和虚部所表示的振荡器状态,ω是角频率,并且α仍然为线性阻尼参数。然而在该非线性公式中,α变成了分岔参数(bifurcationparameter),其可假设为正值或负值以及α=0。值α=0被称为分岔点。β<0为非线性阻尼参数,其在α>0时阻止振幅放大(blow up)。再次,s(t)是指由外部信号的线性强制(linear forcing)。项h.o.t.是指非线性展开式的高阶项,在标准型模型中,这些高阶项被截去(即,忽略)。类似于线性振荡器,非线性振荡器随着听觉激励的频率开始共振;结果,它们提供了一种滤波行为,它们最大程度地响应于接近它们自己的频率的激励。然而,重要的不同点在于,非线性模型解决了线性模型没有解决的行为问题,例如对微弱信号的极度敏感性、振幅压缩和较高的频率选择性。压缩的gammachirp滤波器组表现出类似于等式2的非线性行为,但是明确地表达在信号处理框架(Irino&Patterson,2006)中。
虽然非线性振荡器和非线性建模的应用有助于模拟和产生以前使用线性模型无法得到的、表示非常复杂行为的输出,但是Large系统也具有不能充分地处理整个频谱的缺点。高阶项没有完全展开。相反,需要事先知道波形的特性,特别是频率,使得仅对最重要的高阶项进行处理,而次重要的项被忽略,即使它们的值不为零。因此,需要一种用于处理非线性振荡器以利用和大体上模拟音频声音输入的整个复杂度的系统。
发明内容
本申请涉及为确定声频信号的结构而设计的系统和方法。该方法包括声频输入信号的替代变换,利用非线性振荡器网络,在非线性振荡器网络中,每个振荡器都被调到不同频率(被称为固有频率或本征频率)。每个振荡器接收输入并且与该网络中其他振荡器相互作用,产生非线性共振,该非线性共振用于鉴定声频输入信号的结构。非线性频率变换的输出可被用于输入到将为该信号提供进一步分析的系统中。根据一个实施例,对于作为外部激励的函数的每个振荡器,非线性响应被定义为具有输入的n扩展标准振荡器zi网络。通过这种方式,对不接近振荡器的固有频率的输入的响应得以考虑。
附图说明
根据说明书和附图,本申请的其他目的、特征和优势将变得更为明显,其中:
图1为示出了根据现有技术的、线性频率分析被用于各种信号处理系统中的方法的方框图;
图2a为示出了显示有输入信号的非线性神经网络的基本结构的示意图;
图2b示出了非线性振荡器网络中单个振荡器的图形表示;
图3a和图3b为ε=1时作为时间函数的近似值和广义共振项的图形对照;
图4为ε=1时,对于近似值和广义共振项,以频率为函数的振幅的图形表示;以及
图5为根据本申请的用于处理非线性信号的系统的方框图。
具体实施方式
在本申请中,经典模型被用于求解和解释针对高阶项的所有频率。通过这种方式,为了对非线性神经网络的响应进行建模,不需要知道有关波形的任何信息,这是因为,不同于Large的非线性操作仅选择重要的高阶项,本申请求解出所有的高阶项。
这能够实现非线性振荡器的梯度频率网络的有效计算,代表对该项技术的根本改善。经典模型(下面的等式3)与标准型(等式2;参见例如Hoppensteadt&Izhikevich,1997;Murdock,2003)有关,但是它的特性超越Hopf标准型的特性,因为基本的、更为现实可行的振荡器模型被充分展开,而不是被截取。高阶项的完全扩展(complete expansion)产生如下形式的模型:
z · i = z i ( α i + i ω i + ( β 1 i + iδ 1 i ) | z i | 2 + ( β 2 i + iδ 2 i ) ϵ | z i | 4 1 - ϵ | z i | 2 ) + RT - - - ( 3 )
等式3描述了n个非线性振荡器的网络,并且正如将要描述的,求解针对每个振荡器的响应,即,在系统的每个频率处的响应。等式3的振动力学遵循公知的情形,例如Andronov-Hopf and generalized Andronov-Hopf(Bautin)bifurcations(Guckenheimer&Holmes,1983;Guckenheimer&Kuznetsov,2007;Wiggins,1990;Murdock,2003)。
等式2的模型与等式3的模型存在表面相似性。参数ω、α和β1对应等式2的截取模型的参数。但是,β2为额外的振幅压缩参数。两个频率失谐参数δ1和δ2是新出现在这个公式中的,并且使谐振器频率依赖于振幅以更好地模拟在耳朵内发现的毛细胞输入的真实世界行为。参数ε控制系统中的非线性的量。
RT(共振项)表示通式,其主要由非线性(共振)单项式组成。这些非线性对于模式识别和音频场景分析能力是至关重要的。通常,由等式3给出的标准模型比Hopf标准型更通用,并且包含了在Hopf标准型的Large使用中和非线性振荡器(滤波器)中都无法观察到的各种行为。
对于获取振荡器对不接近于其固有频率的输入的响应而言,标准型的高阶项是必要的。在Large中,耦合项基于标准型理论被写成高阶项的和,这在现有技术中是已知的。本发明利用由系统的特征值表示的等式4给出的线性关系或共振。该系统的行为是该系统中每个振荡器的本征频率的函数;该方法自动考虑这些前往零的值和那些保持显著共振的值。注意到,在Andronov-Hopf分岔点附近,标准振荡器系统的特征值的绝对值与它们的固有频率{ω1,…,ωn}相同(Hoppensteadt&Izhikevich,1996,1997)。在这种情形下,共振关系满足:
ωr=m1ω1+…+mnωn
Figure BDA00002025193500071
其中,为所有整数的集合,为所有正整数的集合,
Figure BDA00002025193500074
为所有实数的集合。数ωr是共振频率并且通常被限制为正数。
这些考虑导致针对在输入x(t)的影响下的非线性神经振荡器z的扩展的标准振荡器模型(例如,等式3)。在扩展模型中,共振项RT包括所获得的满足等式4的所有单项式(如上所描述的)。RT中包括所有单项式允许该模型适当地响应外部激励,而不考虑频率,这是因为只有与激励共振的单项式才会长期对振荡器动力学有重要影响。
现在,我们可以定义具有外部输入x(t)的n个扩展的标准振荡器的网络zi。从现在开始,为避免标记的复杂性并且依赖于上下文,假设x表示时间t的函数,即x=x(t)。在大多应用中,x为输入信号x(t)或x为源于其他振荡器的信号。在更一般的情况下,x可表示一组参数和时间的函数。
作为第一种情况,我们考虑针对未知频率的正弦外部激励x(t)=Fe2πift+φ
Figure BDA00002025193500075
的RT的展开。其中,F为该信号的能量(force)(振幅),f为该信号的频率,φ为相位。
RT = x + ϵ x z ‾ + ϵx z ‾ 2 + ϵ ϵ x z ‾ 3 + . . .
+ ϵ x 2 + ϵ x 2 z ‾ + ϵ ϵ x 2 z ‾ 2 + ϵ 2 x 2 z ‾ 3 + . . .
+ ϵ x 3 + ϵ ϵ x 3 z ‾ + ϵ 2 x 3 z ‾ 2 + ϵ 2 ϵ x 3 z ‾ 3 + . . .
+ ϵ ϵ x 4 + ϵ 2 x 4 z ‾ + ϵ 2 ϵ x 4 z ‾ 2 + ϵ 2 x 4 z ‾ 3 + . . .
= ( x + ϵ x 2 + ϵ x 3 + ϵ ϵ x 4 + . . . ) · ( 1 + ϵ z ‾ + ϵ z ‾ 2 + ϵ ϵ z ‾ 3 + . . . ) - - - ( 5 )
等式5包含了在
Figure BDA000020251935000711
Figure BDA000020251935000712
时收敛的无穷几何级数。因此,ε的选择限制了输入的振幅和振荡的振幅。
Figure BDA000020251935000713
Figure BDA000020251935000714
时,该级数收敛如下:
RT = x Σ k = 0 ∞ ( ϵ x ) k Σ k = 0 ∞ ( ϵ z ‾ ) k = x 1 - ϵ x · 1 1 - ϵ z ‾ - - - ( 6 )
考虑等式3与现有Large技术中推导出的等式6之间关系。此处作为新技术所提出的等式6表明RT的通式定义为耦合因子c和两个函数的乘积,一个函数是无源(passive)因子
Figure BDA00002025193500081
而另一函数是有源(active)因子
Figure BDA00002025193500082
我们可将等式6写为
RT = cP ( ϵ , x ) A ( ϵ , z ) - - - ( 7 )
其中,在这个非限定性的示例中, P ( ϵ , x ) = x 1 - ϵ x , A ( ϵ , z ) = 1 1 - ϵ z ‾ , 并且c=1。在上述情况中,x表示单分量频率(正弦)信号。在该新技术中,我们概括了RT。在一般情况下,x可表示任意复杂度的外部输入(例如,声音)或者x可表示耦合矩阵A乘以振荡器向量z。在后一种情况下,
x=∑ajzj
其中,aj包括矩阵A的行(即,aj为行向量),并且zj为表示网络状态的列向量中第j个的振荡器。注意到在这两种情况下,x为对振荡器的复输入信号。此外,在这两种情况下,x(t)可被写成频率分量的和:
x = Σ j x j
其中,xj表示定义为
Figure BDA00002025193500087
的输入信号的频率分量。这里,Fj表示强迫振幅(forcing amplitude),fj为分量频率,φj为相位,并且t为时间。考虑到x和xj的上述一般定义,
Figure BDA00002025193500088
可以写成由来自集合
Figure BDA00002025193500089
的(共振)单项式所组成的函数:
其中,系数
Figure BDA000020251935000811
详细说明了每一项的贡献(参见,例如Hoppensteadt&Izhikevich,1997)。
等式7中的无源因子
Figure BDA000020251935000812
的公式化可被推广为包括如下其他分量。
无源非线性的广义形式包括由以上集合
Figure BDA000020251935000814
的元素形成的表达式的和。更具体地,由与共振关系等式4中的正频率ωr相对应的所有单项式的和组成。其可以被表示为:
P ( ϵ , x ) = Σ ϵ ( - 1 + Σ j ( p j + q j ) ) / 2 x 1 p 1 · · · x n p n x ‾ 1 q 1 · · · x ‾ n q n - - - ( 8 )
为了澄清起见,如果下面四个条件得以满足,那么将来自集合的单项式包含在等式8的和中:1)n为信号的(频率)分量的数量或振荡器的数量,等等;2)p和q为正整数或0,至少一个p不为零;3)非零的p和q的总数量小于或等于n;4)共振关系等式4满足正共振频率,即
ωr=p1ω1+…+pnωn-(q1ω1+…+qnωn)>0
并且通过重写,可以得到
ωr=(p1-q11+…+(pn-qnn>0
其中,等式4的系数m1,…,mn变成
m1=(p1-q1),...,mn=(pn-qn)
使用这种形式的无源部分
Figure BDA00002025193500093
提供了RT的非常通用的形式,其中, RT = cP ( ϵ , x ) A ( ϵ , z ) .
下文给出了表达这种形式的无源非线性
Figure BDA00002025193500095
的更明确方式。
令n等于网络中振荡器的数量或信号的频率分量的数量,并且令
Figure BDA00002025193500096
1,...,ωn}=振荡器或分量的固有频率的集合。
Figure BDA00002025193500097
的幂集合的所有子集合减去空集合与单元素集合的集合。
回想集合S的划分(partition)为S的非空子集的集合,使得S中的每个元素x正好在这些子集的一个中。反之,集合S的k划分(k-partition)为基数k的S的划分。此外令:
Figure BDA00002025193500099
的划分
Figure BDA000020251935000910
的k划分,1≤k≤n
现在,我们将无源部分写成:
P ( ϵ , x 1 , . . . x n ) = 1 ϵ ( - 1 + Π k ≠ i n 1 1 - ϵ x k + Σ I ( S 1 + S 2 ) ) - - - ( 9 )
其中,I为索引集合(index set),并且
Figure BDA00002025193500102
Π k ≠ i n 1 1 - ϵ x k = Π k ≠ i n Σ p = 0 ∞ ( ϵ x k ) p
S 1 = Σ P k 1 = 1 k 1 ∈ P 1 ∞ Σ q k 2 = 1 k 2 ∈ P 2 ∞ H 1 · ( Π k 1 ∈ P 1 ( ϵ x k 1 ) p k 1 ) ( Π k 2 ∈ P 2 ( ϵ x → k 2 ) q k 2 )
S 2 = Σ P k 1 = 1 k 1 ∈ P 2 ∞ Σ q k 2 = 1 k 2 ∈ P 1 ∞ H 2 · ( Π k 1 ∈ P 2 ( ϵ x k 1 ) p k 1 ) ( Π k 2 ∈ P 1 ( ϵ x ‾ k 2 ) q k 2 )
H 1 = ( 1 + h 1 + h 2 | h 1 + h 2 | ) / 2 , H 2 = ( 1 + h 3 + h 4 | h 3 + h 4 | ) / 2
h 1 = Σ k 1 ∈ P 1 p k 1 ω k 1 , h 2 = - Σ k 2 ∈ P 2 q k 2 ω k 2
h 3 = Σ k 1 ∈ P 2 p k 1 ω k 1 , h 4 = - Σ k 2 ∈ P 1 q k 2 ω k 2
h1和h2为频率修正因子(frequency correcting factors)。
等式9提供了一种用于计算梯度频率振荡器网络内和/或梯度频率振荡器网络之间的耦合的方法。包含在等式9中的表达式
1 ϵ ( - 1 + Π k ≠ i n 1 1 - ϵ x k )
表示存在于激励中的谐波的完备集合(complete set),例如GFNN中的振荡器可对该激励共振。类似地,甲和S2表示组合频率和差频的完备集合。因此,所有高阶共振在该公式中得以考虑。
存在与上述
Figure BDA000020251935001013
(等式9)类似的另一种形式的
Figure BDA000020251935001014
由于S1和S2为复数共轭,因此所述另一种形式的
Figure BDA000020251935001015
进一步简化并且变成实值表达式。对于这种情况,不使用频率修正因子H1和H2。
因为几何级数收敛,所以S1和S2进一步简化为:
P ( ϵ , x 1 , . . . , x n ) = 1 ϵ ( - 1 + Π k ≠ i n 1 1 - ϵ x k + Σ I ( U 1 + U 2 ) ) - - - ( 10 )
其中
U 1 = ( Π k 1 ∈ P 1 x k 1 1 - ϵ x k 1 ) ( Π k 2 ∈ P 2 x ‾ k 2 1 - ϵ x ‾ k 2 )
U 2 = ( Π k 1 ∈ P 2 x k 1 1 - ϵ x k 1 ) ( Π k 2 ∈ P 1 x ‾ k 2 1 - ϵ x ‾ k 2 )
等式10提供了一种用于在不存在对共振单项式进行频率修正时,计算梯度频率振荡器网络内和/或梯度频率振荡器网络之间的耦合的方法。在这种情况下,
Figure BDA00002025193500114
由有限的表达式组成并且为实值信号。
以上是对于RT的无源部分的复杂的表达式。它们包含上述的无限的求和或大量的划分以对大的n求和。实际上,这些形式的RT可能难以使用。这些表达式的精确形式取决于激励中出现的频率或振荡器的频率。为了利用以上表达式来进行计算,必须通过傅里叶分析或某种其他技术来获得输入信号的频率分量。而且,由于无论在空间还是时间上,计算成本都是高昂的,因此必须限制分量的数量并且截取等式9中共振单项式的扩展项(expansion)。这导致我们寻求合适的近似值。一个近似值由下式给出:
P ( ϵ , x ) ≈ ( x 1 - ϵ x ) ( 1 1 - ϵ x ‾ ) - - - ( 10 )
其中,x=∑xi或输入信号x=s(t)。
等式11提供了一种用于计算梯度频率振荡器网络内和/或梯度频率振荡器网络之间的耦合的方法。它具有如下优势:可被应用到1)由任意数量的未知频率分量组成的外部输入,2)来自同一GFNN内其他振荡器的输入,或3)来自另一个GFNN中振荡器的输入。它还比等式9和等式10在计算上高效得多,并且它非常接近等式9。
图3a、图3b和图4示出了将该近似值(灰色曲线)和广义RT(黑色虚线)进行比较的例子。所述广义的RT被截取成程度(degree)4的单项式(每个变量)。存在3个分量,它们各自的固有频率为f1=200、f2=300、f3=400Hz并且对应具有振幅为0.1的输入x1、x2、x3,即
x1=0.1e2πi200t,x2=0.1e2πi300t,x3=0.1e2πi400t
从图3可见,我们可以看到,广义的RT和近似值都在它们的固有频率处具有最大响应。谐波和子谐波也被获得。此外,随着激励的振幅的减小,广义的RT和近似值重叠地越来越好。
最后,我们以普遍抽象的形式书写覆盖一整类场景的RT,所述场景包括对于来自不同源的输入的单独的耦合项。这包括内部耦合、外部输入和来自其他网络的输入,如图2中所示。通式如下:
RT = Σ k ∈ I R k , 其中 R k = c k P k ( t , x k ) A k ( ϵ , z ) - - - ( 12 )
Figure BDA00002025193500123
为第k个无源部分,
Figure BDA00002025193500124
为第k个有源部分,
Figure BDA00002025193500125
对应耦合的强度,并且I为一些索引集合。作为利用这个广义的RT的示例,等式3可被重申以包括网络层和外部输入信号,如图2中所示。对于第i个振荡器的复值状态变量的等式可被写为:
z · i = z i ( α i + i ω i + ( β 1 i + iδ 1 i ) | z i | 2 + ( β 2 i + iδ 2 i ) ϵ | z i | 4 1 - ϵ | z i | 2 ) +
R internal + R external + R afferent + R efferent - - - ( 13 )
其中,ω为以弧度为单位的振荡器频率,α为线性阻尼参数,β为非线性阻尼参数,δ为振荡器频率取决于振幅的性质。
每个Rk都具有分别对应于内部耦合、外部耦合、传入耦合和传出耦合的独特(unique)的无源非线性。有源非线性如等式7中所示。
现在参见图5,图中提供了根据本申请构造的用于处理信号的系统。系统700包括诸如麦克风之类的音频输入702,音频输入702向振荡器网络704提供输入作为时变电信号。网络704由用于接收输入音频信号s(t)的多个非线性振荡器组成。振荡器网络704的每个振荡器都具有不同的固有振荡频率并且服从动态方程
z · i = z i ( α i + iω i + ( β 1 i + iδ 1 i ) | z i | 2 + ( β 2 i + iδ 2 i ) ϵ | z i | 4 1 - ϵ | z i | 2 ) + RT
振荡器可以为计算机的形式,该计算机生成至少一个频率输出,该至少一个频率输出有利于描述振荡器网络704的输入信号s(t)的时间承载结构(time bearingstructure)。发射器706接收信号并且将所接收的信号发送到音频或视觉显示输出端。计算装置可以是能够分析声音信号的数学表示的任何计算装置,例如计算机处理单元(CPU)、现场可编程门阵列(FPGA)或ASIC芯片。
由上可见,利用非线性振荡器阵列以考虑到更多信号的方式来分析复杂的波信号是有可能的。通过考虑共振项并且以非线性方式来分析声信号,该分析可更接近地模拟大脑和听觉系统实际对信号操作的方式,使得可以模拟全音域内更多的音频响应。应当明白的是,本领域技术人员可以对本申请所描述的优选实施例进行修改。所以,前文的描述和附图中所示的所有方式都应被理解为是说明性的,而不是限制性的。因此,本申请的范围由所附权利要求确定。

Claims (12)

1.一种用于确定存在于具有时变结构的输入信号中的至少一个频率分量的方法,包括以下步骤:
接收时变输入信号s(t)到n个非线性振荡器的网络,每个非线性振荡器具有不同的固有振荡频率并且服从动态方程
z · i = z i ( α i + i ω i + ( β 1 i + iδ 1 i ) | z i | 2 + ( β 2 i + iδ 2 i ) ϵ | z i | 4 1 - ϵ | z i | 2 ) + RT
其中,zi为对应于第i个振荡器的复值状态变量,α为线性阻尼参数,ω为以弧度为单位的振荡器频率,β1为非线性阻尼参数,β2为额外的振幅压缩参数,δ1和δ2对应于所述振荡器频率取决于振幅的性质,参数ω定义系统中非线性的量,RT为谐振项;以及
从所述网络产生有利于描述所述时间承载结构的至少一个频率输出。
2.根据权利要求1所述的方法,进一步包括确定RT为CkPk(t,xk)A(ε,z)的步骤,其中,C对应所述输入信号的耦合强度。
3.根据权利要求2所述的方法,其中,CkPk(ε,xk)对应至少第一非线性振荡器和第二非线性振荡器之间的耦合函数的无源部分,并且可以表示为
P ( ϵ , x ) ≈ ( x 1 - ϵ x ) ( 1 1 - ϵ x ‾ )
其中,x=∑ajzj或x=s(t)。
4.根据权利要求2所述的方法,其中,CkPk(ε,xk)对应至少第一非线性振荡器和第二非线性振荡器之间的耦合函数的无源部分,并且可以表示为
P ( ϵ , x 1 , . . . x n ) = 1 ϵ ( - 1 + Π k ≠ i n 1 1 - ϵ x k + Σ I ( S 1 + S 2 ) )
5.根据权利要求1所述的方法,其中,α为分岔参数。
6.根据权利要求2所述的方法,其中,CkPk(ε,xk)对应至少第一非线性振荡器和第二非线性振荡器之间的耦合函数的无源部分,并且可以表示为
P ( ϵ , x 1 , . . . x n ) = 1 ϵ ( - 1 + Π k ≠ i n 1 1 - ϵ x k + Σ I ( U 1 + U 2 ) )
7.一种用于处理音频信号的系统,包括:
非线性振荡器网络,所述非线性振荡器网络包括多个非线性振荡器,每个非线性振荡器具有不同的固有振荡频率并且服从动态方程
z · i = z i ( α i + i ω i + ( β 1 i + iδ 1 i ) | z i | 2 + ( β 2 i + iδ 2 i ) ϵ | z i | 4 1 - ϵ | z i | 2 ) + RT
所述非线性网络产生用于描述输入信号的时间承载结构的至少一个频率输出。
8.根据权利要求7所述的系统,其中,RT被确定为CkPk(t,ck)A(ε,z),其中,C对应所述输入信号的耦合强度。
9.根据权利要求8所述的系统,其中,CkPk(t,xk)A(ε,z)对应至少第一非线性振荡器和第二非线性振荡器之间的耦合函数的无源部分,并且可以表示为
P ( ϵ , x ) ≈ ( x 1 - ϵ x ) ( 1 1 - ϵ x ‾ )
其中,x=∑ajzj或x=s(t)。
10.根据权利要求8所述的系统,其中,CkPk(t,xk)A(ε,z)对应至少第一非线性振荡器和第二非线性振荡器之间的耦合函数的无源部分,并且可以表示为
P ( ϵ , x 1 , . . . x n ) = 1 ϵ ( - 1 + Π k ≠ i n 1 1 - ϵ x k + Σ I ( S 1 + S 2 ) )
11.根据权利要求7所述的系统,其中,α为分岔参数。
12.根据权利要求8所述的系统,其中,CkPk(t,xk)A(ε,z)对应至少第一非线性振荡器和第二非线性振荡器之间的耦合函数的无源部分,并且可以表示为
P ( ϵ , x 1 , . . . x n ) = 1 ϵ ( - 1 + Π k ≠ i n 1 1 - ϵ x k + Σ I ( U 1 + U 2 ) )
CN2011800100023A 2010-01-29 2011-01-28 用于对音频信号进行标准非线性分析的方法和装置 Pending CN102947883A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US29974310P 2010-01-29 2010-01-29
US61/299,743 2010-01-29
PCT/US2011/023015 WO2011152889A2 (en) 2010-01-29 2011-01-28 Method and apparatus for canonical nonlinear analysis of audio signals

Publications (1)

Publication Number Publication Date
CN102947883A true CN102947883A (zh) 2013-02-27

Family

ID=44342395

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2011800100023A Pending CN102947883A (zh) 2010-01-29 2011-01-28 用于对音频信号进行标准非线性分析的方法和装置

Country Status (5)

Country Link
US (1) US20110191113A1 (zh)
EP (1) EP2529371A4 (zh)
JP (1) JP2013518313A (zh)
CN (1) CN102947883A (zh)
WO (1) WO2011152889A2 (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105898667A (zh) 2014-12-22 2016-08-24 杜比实验室特许公司 从音频内容基于投影提取音频对象
CN107203963B (zh) * 2016-03-17 2019-03-15 腾讯科技(深圳)有限公司 一种图像处理方法及装置、电子设备
CN108198546B (zh) * 2017-12-29 2020-05-19 华中科技大学 一种基于耳蜗非线性动力学机理的语音信号预处理方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7376562B2 (en) * 2004-06-22 2008-05-20 Florida Atlantic University Method and apparatus for nonlinear frequency analysis of structured signals
CN101533642A (zh) * 2009-02-25 2009-09-16 北京中星微电子有限公司 一种语音信号处理方法及装置

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6957204B1 (en) * 1998-11-13 2005-10-18 Arizona Board Of Regents Oscillatary neurocomputers with dynamic connectivity
SE526523C2 (sv) * 2004-11-17 2005-10-04 Softube Ab Ett system och en metod för simulering av akustisk rundgång
JP4169038B2 (ja) * 2006-04-06 2008-10-22 ソニー株式会社 情報処理装置および情報処理方法、並びにプログラム

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7376562B2 (en) * 2004-06-22 2008-05-20 Florida Atlantic University Method and apparatus for nonlinear frequency analysis of structured signals
CN101533642A (zh) * 2009-02-25 2009-09-16 北京中星微电子有限公司 一种语音信号处理方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
EDWARD W.LARGE ET AL: "《A canonical model for gradient frequency neural networks》", 《PHYSICA D:NONLINEAR PHENOMENA 2010》 *

Also Published As

Publication number Publication date
WO2011152889A2 (en) 2011-12-08
EP2529371A2 (en) 2012-12-05
WO2011152889A3 (en) 2012-01-26
EP2529371A4 (en) 2014-04-23
JP2013518313A (ja) 2013-05-20
US20110191113A1 (en) 2011-08-04

Similar Documents

Publication Publication Date Title
Andén et al. Joint time–frequency scattering
CN109256118B (zh) 基于生成式听觉模型的端到端汉语方言识别系统和方法
CN110335587A (zh) 语音合成方法、系统、终端设备和可读存储介质
US9292789B2 (en) Continuous-weight neural networks
CN104538028A (zh) 一种基于深度长短期记忆循环神经网络的连续语音识别方法
CN113205820B (zh) 一种用于声音事件检测的声音编码器的生成方法
CN105845139A (zh) 一种离线语音控制方法和装置
JP6499095B2 (ja) 信号処理方法、信号処理装置及び信号処理プログラム
CN102947883A (zh) 用于对音频信号进行标准非线性分析的方法和装置
US8930292B2 (en) Learning and auditory scene analysis in gradient frequency nonlinear oscillator networks
Jaitly et al. A new way to learn acoustic events
CN116564322A (zh) 语音转换方法、装置、设备及存储介质
Andén et al. Classification with joint time-frequency scattering
Karo et al. Compact Time-Domain Representation for Logical Access Spoofed Audio
Xiwen Design of voice recognition acoustic compression system based on neural network
CN110010137B (zh) 一种基于张量结构及稀疏表示的说话人确认方法及系统
Eshaghi et al. A voice activity detection algorithm in spectro-temporal domain using sparse representation
Pawar et al. Realization of Hidden Markov Model for English Digit Recognition
Sun et al. Dictionary optimization and clustering for exemplar-based voice conversion
Patel et al. A Performance Study: Convolutional Deep Belief Networks and Convolutional Neural Networks for Audio Classification
Wang et al. Speech Emotion Feature Extraction Method Based on Improved MFCC and IMFCC Fusion Features
Hua Do WaveNets Dream of Acoustic Waves?
JP2010197596A (ja) 信号解析装置、信号解析方法、プログラム、及び記録媒体
EP2887347A1 (en) Phoneme signature candidates for speech recognition
Chaudhary et al. Quaternion-enhanced neural networks: a new paradigm for audio processing efficiency

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20130227