CN102934158B - 梯度频率非线性振荡器网络中的学习和听觉场景分析 - Google Patents

梯度频率非线性振荡器网络中的学习和听觉场景分析 Download PDF

Info

Publication number
CN102934158B
CN102934158B CN201180011181.2A CN201180011181A CN102934158B CN 102934158 B CN102934158 B CN 102934158B CN 201180011181 A CN201180011181 A CN 201180011181A CN 102934158 B CN102934158 B CN 102934158B
Authority
CN
China
Prior art keywords
oscillator
vibration
connection
nonlinear
amplitude
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201180011181.2A
Other languages
English (en)
Other versions
CN102934158A (zh
Inventor
爱德华·W·拉奇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Florida Atlantic University
Circular Logic LLC
Original Assignee
Florida Atlantic University
Circular Logic LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Florida Atlantic University, Circular Logic LLC filed Critical Florida Atlantic University
Publication of CN102934158A publication Critical patent/CN102934158A/zh
Application granted granted Critical
Publication of CN102934158B publication Critical patent/CN102934158B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs

Abstract

一种用于学习神经网络中的非线性振荡器之间的连接的方法包括:提供多个非线性振荡器,响应于输入,每个非线性振荡器产生不同于其他振荡器的振荡;以及检测所述多个非线性振荡器中的至少第一振荡器处的输入。检测所述多个非线性振荡器中的至少第二振荡器处的输入,对一时间点处的所述至少第一振荡器的所述振荡和所述至少第二振荡器的所述振荡进行比较,以及确定所述至少第一振荡器的所述振荡和所述至少第二振荡器的所述振荡之间是否存在相关性。根据所述至少第一振荡器的所述振荡和所述至少第二振荡器的所述振荡之间的所述相关性来改变所述至少第一振荡器和所述至少第二振荡器之间的连接的振幅和相位中的至少一个。

Description

梯度频率非线性振荡器网络中的学习和听觉场景分析
根据空军科学研究办公室和循环逻辑有限责任公司(Circular Logic,LLC)之间的合约No.FA9550-07-C0095以及空军科学研究办公室和循环逻辑有限责任公司之间的合约No.FA9550-07-C0017,美国政府享有本申请的权利。
相关申请的交叉引用
本申请要求享有2010年1月29日提交的美国临时专利申请No.61/299,768的优先权,该临时申请以全文引用的方式并入本文。
技术领域
本申请通常涉及音频信号输入的感知和识别,更具体地,涉及一种用于以更接近地模拟人耳和大脑的操作的方式提供结构化信号的非线性频率分析的信号处理方法和装置。
背景技术
根据授权给Edward W.Large(Large)的美国专利No.7,376,562,利用非线性振荡器阵列处理输入语音信号在现有技术中是已知的。
人耳已经被建模成调谐到多个不同频率的振荡器。根据解释声音输入的需要,人脑通过连接振荡器对来对来自这些振荡器的信号进行处理。世界上自然存在的音频声音是复杂的信号,因此,发达的人耳是利用振荡器之间的这些连接的复杂处理器。事实上,振荡器之间的连接是不断变化的并且连接模式是对反复输入的学习的反应。这导致触突前细胞和触突后细胞之间的触突效率的提高。从现有建模技术还知道,两个振荡器之间的连接具有强度(振幅)和固有相位(natural phase)。
从Large通常了解到利用非线性振荡器网络来对信号进行处理。非线性共振提供了在线性共振中无法观察到的各种行为(例如,神经振荡)。此外,事实上,振荡器能够被连成复杂的网络。图1示出了用于对声信号进行处理的典型架构。它由一维阵列的非线性振荡器(称为梯度(gradient)频率非线性振荡器网络(GFNNs))组成。在图1中,GFNNs被布置成处理层,以模拟层1(输入层)处的耳蜗(102)、层2处的背侧耳蜗核(DCN)(104)以及层3处的下丘(ICC)(106)进行的听觉处理。从生理学的角度来看,非线性共振模拟耳蜗内的外毛细胞以及在DCN和ICC上的锁相神经响应。从信号处理的角度来看,由多个GFNN层进行处理不是多余的;由于非线性的缘故,信息在每一层处都增加。
更具体地,如图2所示,示例的非线性振荡器系统由包括非线性振荡器4051、4052、4053、...、405N的网络402组成。输入激励层401可以通过一组激励连接403将输入信号传输到网络402。就这一点而言,输入激励层401可以包括一个或多个输入通道(channels)4061、4062、4063、...、406C。输入通道可以包括多频率输入的单通道、多频率输入的两个或多个通道、或单频率输入的多通道,如通过事先频率分析来提供。事先频率分析可包括线性方法(傅里叶变换、小波变换、或线性滤波器组、现有技术中已知的方法)或者另一非线性网络,例如相同类型的另一网络。
假设如图2中所示的C输入通道,那么在t时刻,通道406C上的激励表示为xC(t),并且对于特定的共振,激励连接403的矩阵可以作为从输入通道406C到振荡器405N的连接的强度来进行分析,正如从Large所了解到的。尤其,可以对连接矩阵进行选择,以使得这些激励连接中的一个或多个的强度等于零。
再次参见图2,内部网络连接404确定网络402中每个振荡器405N如何连接到另一个振荡器405N。根据Large可知,这些内部连接可被表示为复值参数的矩阵,每个复值参数描述了对于特定共振从一个振荡器405M到另一个振荡器405N的连接的强度,正如下面所解释的。
从Large可以知道,可以执行由非线性振荡器网络进行的信号处理,以概括地模拟耳朵响应。这类似于通过线性滤波器组来进行的信号处理,但是重要的区别是,处理单元是非线性的,而不是线性振荡器。在这部分中,该方法通过将其与线性时频分析进行比较来说明。
常见的信号处理操作是对复杂输入信号进行频率分解,例如通过傅里叶变换。通常,该操作是通过对输入信号x(t)进行处理的一组线性带通滤波器来实现的。例如,广泛使用的耳蜗的模型是gammatone滤波器组(Patterson等,1992)。为了与我们的模型相比较,泛化形式(generalization)可以写成微分方程
z · = z ( α + iω ) + x ( t ) - - - ( 1 )
其中,上点(overdot)表示相对于时间的微分(例如,dz/dt),z是复值状态变量,ω是角频率(ω=2πf,f以Hz为单位),α<0为线性阻尼参数。项x(t)表示由时变外部信号的线性强制(linear forcing)。因为z在每个时间t处都是复数,因此其可重写成极坐标形式,以振幅r和相位φ来揭示系统行为。线性系统中的共振是指该系统在激励频率下进行振荡,振幅和相位是系统参数确定的。当激励频率ω0接近振荡器频率ω时,振荡器振幅r增加,以提供带通滤波行为。
最近,耳蜗的非线性模型已经被提,以对外毛细胞的非线性响应进行模拟。值得注意的是,外毛细胞被认为是负责耳蜗对柔和声音的极度敏感、良好的频率选择性和振幅压缩(例如,Egulluz,Ospeck,Choe,Hudspeth,& Magnasco,2000)。解释这些特性的非线性共振模型已经以针对非线性振动的霍普夫标准型(Hopf normal form)为基础,并且是通用的。标准型(截取式)模型具有形式
z · = z ( α + iω + β | z | 2 ) + s ( t ) + h . o . t . - - - ( 2 )
注意这种形式和等式1的线性振荡器之间的表面相似性。再次,ω是角频率,并且α仍然为线性阻尼参数。然而在该非线性公式中,α变成了分岔参数(bifurcation parameter),其可假设为正值或负值以及α=0。值α=0被称为分岔点。β<0为非线性阻尼参数,其在α>0时阻止振幅放大(blow up)。再次,x(t)是指由外部信号的线性强制。项h.o.t.是指非线性展开式的高阶项,在标准型模型中,这些高阶项被截去(即,忽略)。类似于线性振荡器,非线性振荡器随着听觉激励的频率开始共振;结果,它们提供了一种滤波行为,其中它们最大程度地响应于接近它们自己的频率的激励。然而,重要的不同点在于,非线性模型解决了线性模型没有解决的行为,例如对微弱信号的极度敏感性、振幅压缩和较高的频率选择性。压缩的gammachirp滤波器组表现出类似于等式2的非线性行为,但是明确地表达在信号处理框架(Irino & Patterson,2006)中。
Large教导对等式2的高阶项进行扩展以实现不同频率的振荡器之间的耦合。这实现了非线性振荡器的梯度频率网络的有效计算,代表该项技术的根本改善。从发明人的同时待审的申请No.13/016,713可知,标准模型(等式3)与标准型(等式2;参见例如Hoppensteadt & Izhikevich,1997)有关,但是它的特性超越Hopf标准型的特性,因为基本的、更为现实可行的振荡器模型被充分展开,而不是被截取。高阶项的完全扩展(complete expansion)产生如下形式的模型:
等式3描述了n个非线性振荡器的网络。其与之前的模型存在表面相似性。参数ω、α和β1对应截取模型的参数。β2为额外的振幅压缩参数,c代表与外部激励的耦合的强度。两个频率失谐参数δ1和δ2是新出现在这个公式中的,并且使谐振器频率依赖于振幅(参见图3C)。参数ε控制该系统中非线性的量。
更重要的是,与激励的耦合是非线性的并且具有无源部分和有源部分从而产生非线性共振。
上面的等式3通常是根据时变输入信号x(t)来阐述的。这里,x(t)可以是输入音频源信号,或者其可以是来自同一网络的其他振荡器或其他网络的振荡器的输入。后者的几种实例示于图1中,标记为“内部耦合”、“传入耦合”和“传出耦合”。在这些实例中,x(t)由连接值的矩阵与振荡器状态变量的乘积产生,代表梯度频率神经网络。等式3考虑了这些不同的输入,但为了便于解释,包括单个泛型(single generic)输入源x(t)。该系统(特别是非线性耦合表达式的构造)在同时待审的专利申请No.13/016,602中进行了详细描述。
与现有技术的线性模型相比,针对非线性振荡器网络的Large方法和系统更好地模拟耳朵响应于复杂语音信号的复杂性。然而,Large方法和系统仍有缺点,不同于听觉系统,Large方法和系统无法学习振荡器对之间的连接,相反,必须提前知道有关输入音频信号的信息以确定振荡器之间的哪些连接是最重要的。如图1所示,Large实现了梯度频率非线性振荡器网络内和之间的振荡器的连接成。然而,它需要手动设计连接以提供所需的网络行为。简言之,就其连接模式而言,Large系统是静态的,而不是动态的。
发明内容
提供了一种方法,经由这种方法,不同振荡器阵列的非线性振荡器之内以及不同振荡器阵列的非线性振荡器之间的连接通过被动暴露(passive exposure)于音频信号输入下得以学习。提供了多个振荡器,响应于输入,每个非线性振荡器产生不同于其他振荡器的振荡。每个振荡器能够连接到至少一个其他振荡器。检测到至少第一振荡器处的输入。检测到至少第二振荡器处的输入。对一个时间点处的所述至少第一振荡器的所述振荡和所述至少第二振荡器的所述振荡进行比较。如果所述至少第一振荡器的所述振荡和所述至少第二振荡器的所述振荡之间存在相关性,那么增大所述至少第一振荡器和所述至少第二振荡器之间的连接的振幅并且调节相位以反映所述至少第一振荡器和所述第二振荡器之间的当前相位关系。如果所述至少第一振荡器的所述振荡和所述至少第二振荡器的所述振荡之间不存在相关性,那么减小所述至少第一振荡器和所述至少第二振荡器之间的所述连接的所述振幅并且可以对相位进行调节。
附图说明
根据说明书和附图,本申请的其他目的、特征和优势是将变得明显,其中:
图1是示出了非线性神经网络的基本结构的示图;
图1A是针对非线性振荡器的模拟神经振荡器响应的示意图;
图2是示出了根据本申请的非线性神经网络的基本结构以及它与输入信号的关系的另一示意图;
图3A和图3B是根据本申请的复音和振荡器网络的响应的图示;
图4A至图4D为根据本申请的学习过程的输出的图示;以及
图5为根据本申请的用于操作非线性振荡器网络的学习算法的流程图。
具体实施方式
本申请提供了一种方法,经由这种方法,通过暴露在信号下,可以自动地学习一个网络的振荡器之间以及不同网络之间的振荡器之间的连接。
在大脑中,神经元之间的连接可通过Hebbian学习(Hoppensteadt &Izhikevich,1996b)来进行修改,以提供突触可塑性的机制,其中,触突前神经元的反复和持久的共同激活(co-activation)导致它们之间的触突效力增大。神经系统中学习的先前分析揭示了两个振荡器之间的连接具有强度和固有相位(Hoppensteadt & Izhikevich,1996a,1997)。Hebbian学习规则已经被提议用于神经振荡器并且已经相当详细地研究了单频率实例。如果在它们的固有频率之间存在近共振(near-resonant)关系,那么可以通过Hebbian机制来学习连接强度和相位(Hoppensteadt & Izhikevich,1996b)。但是,当前的算法仅学习其固有频率比接近1∶1的振荡器之间的连接。对于1∶1的情况,Hebbian学习规则的标准版本可以被写成(Hoppensteadt & Izhikevich,1996b):
c · ij = - δc ij + k ij z i z ‾ j - - - ( 4 )
其中,cij为复数,表示在某时间点处任意两个非线性振荡器之间的连接的振幅和相位,并且δij和kij为表示所述连接变化速度的参数。从上面可知变量zi和zj为通过cij所连接的两个振荡器的复值状态变量。
通过这个实施例中的示例的方式,以上模型可以学习具有频率比接近1∶1的两个振荡器的振幅(强度)与相位信息。对于在本申请中不同频率的振荡器通信,有必要规定一种用于学习不同频率的振荡器之间的连接的方法。
本申请描述了能够学习不同频率的振荡器之间的连接的Hebbian学习机制。学习算法的修改提供了能够实现听觉场景分析(auditory scene analysis)的多频率相位相关性测量。
多频率网络表现出高阶共振,我们的算法基于这些高阶共振。下面的学习规则实现了我们的标准网络中高阶共振关系的学习:
c · ij = - δ ij c ij + k ij ( z i + ∈ z i 2 + ∈ z i 3 + . . . ) · ( z ‾ j + ∈ z → j 2 + ∈ z ‾ j 3 + . . . ) - - - ( 5 )
其中,无穷级数可被累加以得出
c · ij = - δ ij c ij + k ij z i 1 - ∈ z i · z ‾ j 1 - ∈ z ‾ j - - - ( 6 )
为了阐述该学习算法的行为,生成包括两个复合的、稳态的音调(tones)所组成的激励,如图3A中所示。音调1是由频率500、1000、1500、2000和2500Hz组成的和声复合体(harmonic complex)。作为非限定性的示例,音调2是由频率600、1200、1800、2400和3000Hz组成的和声复合体。非线性振荡器的三层网络处理声音混合体(sound mixture)。振荡器网络的层1和层2工作在临界参数区(critical parameter regime)(即,α=0),层3工作在活动(active)参数区(即,α>0)。对于层1,参数β1被设置为β1=-100,对于层2,β1=-10,对于层3,β1=-1。通过非限制示例的方式,其他参数根据控制为β1=-1,δ1=δ2=0,ε=1。层3网络对该激励的响应(振荡器振幅,|z|,作为时间的函数)如图3B中所示。
现在参见图5,图中提供了学习方法的流程图。在第一步骤502中,提供多个非线性振荡器(在网络400中以示例的方式示出),每一个振荡器产生不同于其他振荡器的振荡。每个振荡器4051-406c能够在它自己的层401、402或下一最高位的相邻层中与任何其他振荡器形成连接。但是,为了说明的简单,这里使用的网络仅对应振荡器的单个线性阵列,例如层102或402。
在步骤504中,在多个非线性振荡器402中的至少一个振荡器405M处检测到使得在振荡器405M处产生振荡的输入。在步骤506中,以引起第二振荡器405N的振荡的多个振荡器402为例,在第二振荡器405N处检测到输入。应当明白的是,输入和/或振荡的值可以为零或可以为各自振荡器的固有振荡频率。在步骤508中,振荡器405M的振荡在某时间点与第二振荡器405N的振荡相比较。该比较可以为振荡器频率的比较。在步骤510中,确定振荡器405M的振荡与第二振荡器405N的振荡是否是相关的。
如果所述振荡是相关的,那么在步骤512中,增大至少一个振荡器和第二振荡器之间的连接的振幅,并且调节相位以反映两个振荡器405M和405N之间的当前相位关系。如果在步骤510中确定振荡器405M和振荡器405N是不相关的,那么所述连接的振幅减小,迫使连接朝向零并且可以对相位进行调节。在步骤516,重复该过程,并且只要存在对系统400的输入就返回步骤504。
上文结合图5所讨论的学习算法是异步实施的(即,网络已经运行之后),以非限制性示例的方式处理由PCN振荡器阵列所产生的网络神经层输出的最后10ms。学习的结果示于图4中。面板(Panel)A示出了在最后10ms求平均得到的振荡器网络的振幅响应。逆时针读取,面板B和面板C示出了连接矩阵的振幅和相位。在振幅矩阵(面板B)中,对应于500Hz和600Hz振荡器的行中的峰值是不同的。这些峰值鉴别这些振荡器,这些振荡器的行动(activity)在有关的时间尺度(time scale)上与感兴趣的振荡器(500Hz和600Hz)是相位相关的。面板D关注于振幅矩阵(面板B)的两行,振幅矩阵示出了作为频率的函数的振幅。与500Hz的振荡器(它们具有接近于500、1000、1500、2000和2500的频率)相关联的振荡器不同于与600Hz的振荡器(它们具有接近于600、1200、1800、2400和3000的频率)相关联的振荡器。面板D的顶部和底部揭示了两个不同的源(音调1和音调2)的分量。因此,即使当两个不同的源是同时出现,该学习方法也能产生适当的结果。
听觉场景分析是人脑通过其将声音组织成感知的有意义的元素这样一个过程。听觉场景分析可以基于与该学习算法根本上相同的算法,但在不同的时间尺度上操作。该学习算法操作较慢,在小时、天甚至更长的时间尺度上调节振荡器之间的连通性。听觉场景分析算法操作较快,在几十毫秒至几秒的时间尺度上操作。时间尺度是通过调节等式5和等式6的参数δij和kij来调节的。
图4还可以被解释成听觉场景分析过程的结果。如之前,面板A示出了在最后12.5ms求平均得到的振荡器网络的振幅响应。但是在该解释下,面板B和面板C示出了听觉场景分析矩阵的振幅和相位。在振幅矩阵(面板B)中,对应于500Hz和600Hz振荡器的行中的峰值是不同的。这些峰值鉴别这些振荡器,这些振荡器的行动在有关的时间尺度上与感兴趣的振荡器(500Hz和600Hz)是相位相关的。面板D关注于振幅矩阵(面板B)的两行,振幅矩阵示出了作为频率的函数的振幅。与500Hz的振荡器(它们具有接近于500、1000、1500、2000和2500的频率)相关联的振荡器不同于与600Hz的振荡器(它们具有接近于600、1200、1800、2400和3000的频率)相关联的振荡器。面板D揭示了两个不同的源(音调1(黑色)和音调2(灰色))的分量。因此,这种通过检测多频率相关性来计算听觉场景分析矩阵的方法将频率分量分离成不同的源。该方法能够根据源来分离声音分量,并且能够识别声音分量的相关模式。
通过提供如以上所述运转的非线性振荡器网络,以更接近地模拟人耳和大脑的操作的方式来进行信号分析是可能的。应当明白的是,本领域技术人员可对本申请所描述的优选实施例进行修改、变化和改变。因此,上述描述和附图中所示的所有方式都应被解释为示例性的,而不是限制性的。因此,本申请的范围由所附权利要求来确定。

Claims (13)

1.一种用于学习神经网络中的非线性振荡器之间的连接的方法,包括:
提供多个非线性振荡器,响应于公共输入,每个振荡器产生在频率方面不同于其他振荡器的相应振荡;
检测所述多个非线性振荡器中的至少第一振荡器处的输入;
检测所述多个非线性振荡器中的至少第二振荡器处的输入;
对一时间点处的所述至少第一振荡器的振荡和所述至少第二振荡器的振荡进行比较;
确定所述至少第一振荡器的振荡频率和所述至少第二振荡器的振荡频率之间是否存在多频相位相关性;以及
根据所述至少第一振荡器的振荡和所述至少第二振荡器的振荡之间的所述多频相位相关性来改变所述至少第一振荡器和所述至少第二振荡器之间的连接的振幅和相位中的至少一个。
2.根据权利要求1所述的方法,其中,所述连接表示为
c · ij = - δ ij c ij + k ij z i 1 - ∈ z i · z ‾ j 1 - ∈ z ‾ j
其中,cij为任意两个非线性振荡器之间的连接的振幅和相位,δ和k为表示连接变化速度的参数,z为所述两个连接的振荡器的复值状态变量。
3.根据权利要求1所述的方法,进一步包括以下步骤:当所述至少第一振荡器的所述振荡和所述至少第二振荡器的所述振荡之间存在相关性时,调节所述连接的所述相位以反映所述至少第一振荡器和所述第二振荡器之间的当前相位关系。
4.根据权利要求1所述的方法,进一步包括以下步骤:
当所述至少第一振荡器的所述振荡和所述至少第二振荡器的所述振荡之间不存在相关性时,减小所述至少第一振荡器和所述至少第二振荡器之间的所述连接的所述振幅。
5.根据权利要求1所述的方法,进一步包括以下步骤:
当所述至少第一振荡器的所述振荡和所述至少第二振荡器的所述振荡之间存在相关性时,增大所述至少第一振荡器和所述至少第二振荡器之间的所述连接的所述振幅。
6.一种用于学习神经网络中的非线性振荡器之间的连接的方法,包括:
提供多个非线性振荡器,响应于公共输入,每个振荡器产生在频率方面不同于其他振荡器的相应振荡;
检测所述多个非线性振荡器中的至少第一振荡器处的输入;
检测所述多个非线性振荡器中的至少第二振荡器处的输入;
对一时间点处的所述至少一个振荡器的振荡和所述至少第二振荡器的振荡进行比较;
确定所述至少一个振荡器的振荡频率和所述至少第二振荡器的振荡频率之间是否存在多频相位相关性;以及
当所述至少一个振荡器的振荡和所述至少第二振荡器的振荡大体上多频相位相关时,增大所述至少第一振荡器和所述至少第二振荡器之间的连接的振幅。
7.根据权利要求6所述的方法,其中,所述连接表示为
c · ij = - δ ij c ij + k ij z i 1 - ∈ z i · z ‾ j 1 - ∈ z ‾ j
其中,cij为任意两个非线性振荡器之间的连接的振幅和相位,δ和k为表示连接变化速度的参数,z为所述两个连接的振荡器的复值状态变量。
8.根据权利要求6所述的方法,进一步包括以下步骤:当所述至少第一振荡器的所述振荡和所述至少第二振荡器的所述振荡之间存在相关性时,调节所述连接的所述相位以反映所述至少第一振荡器和所述第二振荡器之间的当前相位关系。
9.根据权利要求6所述的方法,进一步包括以下步骤:
当所述至少第一振荡器的振荡和所述至少第二振荡器的振荡之间不存在相关性时,减小所述至少第一振荡器和所述至少第二振荡器之间的连接的振幅。
10.一种用于进行听觉场景分析的方法,包括:
提供多个非线性振荡器,响应于公共输入,每个振荡器产生在频率方面不同于其他振荡器的相应振荡;
检测所述多个非线性振荡器中的至少第一振荡器处的输入;
检测所述多个非线性振荡器中的至少第二振荡器处的输入;
对一时间点处的所述至少第一振荡器的振荡和所述至少第二振荡器的振荡进行比较;
确定所述至少第一振荡器的振荡频率和所述至少第二振荡器的振荡频率之间是否存在多频相位相关性;以及
当所述至少第一振荡器的振荡和所述至少第二振荡器的振荡之间存在多频相位相关性时,增大所述至少第一振荡器和所述至少第二振荡器之间的连接的振幅。
11.根据权利要求10所述的方法,其中,所述连接表示为
c · ij = - δ ij c ij + k ij z i 1 - ∈ z i · z ‾ j 1 - ∈ z ‾ j
其中,cij为任意两个非线性振荡器之间的连接的振幅和相位,δ和k为表示连接变化速度的参数,z为所述两个连接的振荡器的复值状态变量。
12.根据权利要求10所述的方法,进一步包括以下步骤:
当所述至少第一振荡器的所述振荡和所述至少第二振荡器的所述振荡之间存在相关性时,调节所述连接的所述相位以反映所述至少第一振荡器和所述第二振荡器之间的当前相位关系。
13.根据权利要求10所述的方法,进一步包括以下步骤:
当所述至少第一振荡器的所述振荡和所述至少第二振荡器的所述振荡之间不存在相关性时,减小所述至少第一振荡器和所述至少第二振荡器之间的所述连接的所述振幅。
CN201180011181.2A 2010-01-29 2011-01-28 梯度频率非线性振荡器网络中的学习和听觉场景分析 Expired - Fee Related CN102934158B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US29976810P 2010-01-29 2010-01-29
US61/299,768 2010-01-29
PCT/US2011/023020 WO2011094611A2 (en) 2010-01-29 2011-01-28 Learning and auditory scene analysis in gradient frequency nonlinear oscillator networks

Publications (2)

Publication Number Publication Date
CN102934158A CN102934158A (zh) 2013-02-13
CN102934158B true CN102934158B (zh) 2015-05-20

Family

ID=44320174

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201180011181.2A Expired - Fee Related CN102934158B (zh) 2010-01-29 2011-01-28 梯度频率非线性振荡器网络中的学习和听觉场景分析

Country Status (5)

Country Link
US (2) US8930292B2 (zh)
EP (1) EP2529369B1 (zh)
JP (1) JP5864441B2 (zh)
CN (1) CN102934158B (zh)
WO (2) WO2011094611A2 (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11157792B2 (en) * 2017-10-23 2021-10-26 International Business Machines Corporation Multi-layer oscillating network
US11508393B2 (en) 2018-06-12 2022-11-22 Oscilloscape, LLC Controller for real-time visual display of music
JP7080806B2 (ja) * 2018-11-29 2022-06-06 株式会社日立製作所 機械学習装置
CN115036940B (zh) * 2022-06-16 2024-03-29 南瑞集团有限公司 一种频率响应与功角振荡的耦合程度量化评价方法及装置
CN117272022A (zh) * 2023-09-19 2023-12-22 小谷粒(广州)母婴用品有限公司 一种mems振荡器的检测方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5446828A (en) * 1993-03-18 1995-08-29 The United States Of America As Represented By The Secretary Of The Navy Nonlinear neural network oscillator
US5751899A (en) * 1994-06-08 1998-05-12 Large; Edward W. Method and apparatus of analysis of signals from non-stationary processes possessing temporal structure such as music, speech, and other event sequences
US7376562B2 (en) * 2004-06-22 2008-05-20 Florida Atlantic University Method and apparatus for nonlinear frequency analysis of structured signals

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4584710A (en) 1984-11-13 1986-04-22 The United States Of America As Represented By The Secretary Of The Navy Coherent receiver phase and amplitude alignment circuit
US7412428B2 (en) * 2002-03-12 2008-08-12 Knowmtech, Llc. Application of hebbian and anti-hebbian learning to nanotechnology-based physical neural networks
US8535236B2 (en) 2004-03-19 2013-09-17 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for analyzing a sound signal using a physiological ear model
SE0402813L (sv) * 2004-11-17 2005-10-04 Softube Ab Ett system och en metod för simulering av akustisk rundgång
DE102005030327A1 (de) 2005-06-29 2007-01-04 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung, Verfahren und Computerprogramm zur Analyse eine Audiosignals
JP4169038B2 (ja) * 2006-04-06 2008-10-22 ソニー株式会社 情報処理装置および情報処理方法、並びにプログラム

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5446828A (en) * 1993-03-18 1995-08-29 The United States Of America As Represented By The Secretary Of The Navy Nonlinear neural network oscillator
US5751899A (en) * 1994-06-08 1998-05-12 Large; Edward W. Method and apparatus of analysis of signals from non-stationary processes possessing temporal structure such as music, speech, and other event sequences
US7376562B2 (en) * 2004-06-22 2008-05-20 Florida Atlantic University Method and apparatus for nonlinear frequency analysis of structured signals

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Synaptic organizations and dynamical properties of weakly connected neural oscillators;Frank C. Hoppensteadt, Eugene M. Izhikevich;《Biological Cybernetics》;19960831;第75卷(第2期);129-135 *

Also Published As

Publication number Publication date
WO2011152888A2 (en) 2011-12-08
WO2011094611A3 (en) 2011-12-29
WO2011094611A2 (en) 2011-08-04
CN102934158A (zh) 2013-02-13
EP2529369A2 (en) 2012-12-05
US20110202489A1 (en) 2011-08-18
WO2011152888A3 (en) 2012-01-26
US8930292B2 (en) 2015-01-06
JP2013518355A (ja) 2013-05-20
EP2529369B1 (en) 2019-12-04
EP2529369A4 (en) 2014-04-23
JP5864441B2 (ja) 2016-02-17
US8583442B2 (en) 2013-11-12
US20110202348A1 (en) 2011-08-18

Similar Documents

Publication Publication Date Title
EP3346462B1 (en) Speech recognizing method and apparatus
CN102934158B (zh) 梯度频率非线性振荡器网络中的学习和听觉场景分析
CA2642041C (en) Spatio-temporal pattern recognition using a spiking neural network and processing thereof on a portable and/or distributed computer
US5095443A (en) Plural neural network system having a successive approximation learning method
CN109146066A (zh) 一种基于语音情感识别的虚拟学习环境自然交互方法
CN109256118B (zh) 基于生成式听觉模型的端到端汉语方言识别系统和方法
Pascual et al. Time-domain speech enhancement using generative adversarial networks
US20050008179A1 (en) Fractal harmonic overtone mapping of speech and musical sounds
CN112070277A (zh) 基于超图神经网络的药物-标靶相互作用预测方法
Guzhov et al. Esresne (x) t-fbsp: Learning robust time-frequency transformation of audio
Williams et al. Mean field networks that learn to discriminate temporally distorted strings
Peng et al. Auditory-inspired end-to-end speech emotion recognition using 3D convolutional recurrent neural networks based on spectral-temporal representation
CN113924786B (zh) 用于耳蜗力学和处理的神经网络模型
US7376562B2 (en) Method and apparatus for nonlinear frequency analysis of structured signals
CN105023574A (zh) 一种实现合成语音增强的方法及系统
Large Musical tonality, neural resonance and Hebbian learning
CN102947883A (zh) 用于对音频信号进行标准非线性分析的方法和装置
CN116467416A (zh) 一种基于图神经网络的多模态对话情感识别方法及系统
CN110084356A (zh) 一种深度神经网络数据处理方法和装置
Feather et al. Auditory texture synthesis from task-optimized convolutional neural networks
Nagathil et al. WaveNet-based approximation of a cochlear filtering and hair cell transduction model
Reza et al. Modified deep attractor neural networks for variability compensation in recognition tasks
Elhilali et al. A biologically-inspired approach to the cocktail party problem
Tanaka Information maximization in a feedforward network replicates the stimulus preference of the medial geniculate and the auditory cortex
Zhou et al. Research on speech separation technology based on deep learning

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20150520

Termination date: 20160128

EXPY Termination of patent right or utility model