CN113316816A

CN113316816A - 使用dj变换的频率提取方法

Info

Publication number: CN113316816A
Application number: CN201980088800.4A
Authority: CN
Inventors: 金东禛
Original assignee: Naoruan Co ltd
Current assignee: Naoruan Co ltd
Priority date: 2019-01-11
Filing date: 2019-11-26
Publication date: 2021-08-27
Also published as: US20210183403A1; KR102277952B1; KR20200087402A; WO2020145509A3; WO2020145509A2

Abstract

根据本公开内容的实施方式，其每个步骤由计算机执行并且提取输入声音的频率的方法包括以下步骤：对多个弹簧进行建模，多个弹簧具有彼此不同的固有频率并根据输入声音振荡；计算多个建模的弹簧的瞬态纯音振幅；计算多个建模的弹簧的预期稳态振幅；基于预期稳态振幅计算预测的纯音振幅；通过将瞬态纯音振幅与预测的纯音振幅相乘来计算经滤波的纯音振幅；以及提取弹簧的固有频率，该弹簧的固有频率与经滤波的纯音振幅之中的局部最大值对应。

Description

使用DJ变换的频率提取方法

技术领域

本公开内容总体上涉及频率提取方法，特别地涉及能够同时增加时间分辨率和频率分辨率的频率提取方法。

背景技术

短时傅里叶变换(STFT)被用在处理声音的各个领域诸如语音识别、说话人识别等中，以从给定的声音中提取频率。然而，当通过STFT提取频率时，由于傅立叶不确定性原理导致在增加时间分辨率和频率分辨率时存在限制。傅立叶不确定性原理指出，如果短持续时间的声音被转换成频率分量，则频率分量的分辨率相对较低，而如果具有较长持续时间的声音被用来获得更精确的频率，则当频率分量被提取时的瞬时时间分辨率降低。

例如，当使用STFT时，假设窗口大小为25毫秒，并且使用矩形过滤器。在这些条件下提取的频率分量具有40Hz的分辨率。在这种情况下，即使在输入声音中存在420Hz频率，但只有400Hz频率和440Hz频率作为提取结果出现，而420Hz频率没有出现。因此，仅由420Hz频率组成的纯音与由400Hz和440Hz频率组成的复音之间的区别并不清楚。现在，假设在提取结果上存在4kHz频率。提取结果没有给出关于当4kHz频率出现在25毫秒窗口内时的时间点的任何信息。例如，不能区分4kHz频率是出现在0至10毫秒的范围内还是出现在10至20毫秒的范围内。

为了获得20Hz的频率分辨率，窗口大小应当扩展到50毫秒。然而，由于时间分辨率与频率分辨率成反比，所以时间分辨率由于50毫秒的窗口而降低。同样，如果窗口大小减小到12.5毫秒以增加时间分辨率，则频率分辨率降低到80Hz。由于这种折衷，当使用STFT时，时间分辨率和频率分辨率不能同时提高。

发明内容

根据研究发现，已知人类的听觉能力不受傅立叶不确定性原理的限制。本公开内容旨在提出DJ变换方法，该DJ变换方法是一种根据对人类听觉能力的理解的新的频率提取方法，该方法基于构成耳蜗的毛细胞的操作原理同时提高时间分辨率和频率分辨率。

根据本公开内容的实施方式的其每个步骤由计算机执行的用于提取输入声音的频率的方法包括以下步骤：对多个弹簧建模，所述多个弹簧具有彼此不同的固有频率并且根据输入声音振荡；计算多个建模的弹簧的瞬态纯音振幅；计算多个建模的弹簧的预期稳态振幅；基于预期稳态振幅计算预测的纯音振幅；通过将瞬态纯音振幅与预测的纯音振幅相乘来计算经滤波的纯音振幅；以及提取弹簧的固有频率，该弹簧的固有频率与经滤波的纯音振幅的局部最大值对应。

根据本公开内容的实施方式的用于提取声音的频率的设备包括：弹簧建模单元，其用于通过对具有彼此不同的固有频率并根据输入声音振荡的多个弹簧进行建模来产生多个弹簧的位移和速度；以及频率提取单元，其用于计算多个建模的弹簧的瞬态纯音振幅，计算多个建模的弹簧的预期稳态振幅，基于预期稳态振幅计算预测的纯音振幅，通过将瞬态纯音振幅与预测的纯音振幅相乘来计算经滤波的纯音振幅，以及提取弹簧的固有频率，该弹簧的固有频率与经滤波的纯音振幅中的局部最大值对应。

根据本公开内容的实施方式的其每个步骤由计算机执行的用于提取输入声音的频率的方法包括以下步骤：对多个弹簧进行建模，所述多个弹簧具有彼此不同的固有频率并且根据输入声音振荡；估计多个建模的弹簧之中振幅最高的弹簧的预期稳态振幅；基于预期稳态振幅计算振幅最高的弹簧的能量；以及基于该能量计算输入纯音的振幅。

根据本公开内容的实施方式的用于提取输入声音的频率的设备包括：弹簧建模单元，其用于通过对具有彼此不同的固有频率并根据输入声音振荡的多个弹簧进行建模来产生多个弹簧的位移和速度；以及频率提取单元，其用于估计在多个建模的弹簧之中振幅最高的弹簧的预期稳态振幅，基于预期稳态振幅计算振幅最高的弹簧的能量，以及基于该能量计算输入纯音振幅。

所述预期稳态振幅可以基于输入声音的持续时间内的两个不同时间点处的振幅来计算。

所述预期稳态振幅(A_i,s)可以借助于以下方程计算：

其中，t₁和t₂是输入声音的持续时间内的两个不同的时间点，t₂＞t₁，Ai(t₁)是所述多个弹簧之中的任意弹簧在t₁处的振幅，Ai(t₂)是所述弹簧在t₂处的振幅，ζ是所述弹簧的阻尼比，ω满足方程

其中，ω_i是所述弹簧的固有频率。

两个不同的时间点之间的差可以是对应的弹簧的固有频率的周期。

当两个时间点中的一个为t₁、输入声音的采样率为SR并且对应弹簧的固有频率的周期为T时，两个时间点中的另一个t₂可以借助于以下方程计算。

t₂＝[t₁+SR×T+0.5]

通过将输入声音的持续时间内的至少两个点处的振幅代入以下方程并使用线性回归分析来计算预期稳态振幅。

其中，A(t)是所述多个弹簧之中的任意弹簧在t处的振幅，A_s是所述弹簧的预期稳态振幅，A_c是所述弹簧在t_c处的振幅，ζ是所述弹簧的阻尼比，ω满足方程

其中，ω_i是弹簧的固有频率。

所述建模步骤可以包括以下步骤：测量多个弹簧中的每个弹簧在各时间点处的位移和速度；基于位移和速度计算多个弹簧中的每个弹簧在每个时间点处的能量；以及基于所述能量计算多个弹簧中的每个弹簧在每个时间点处的振幅。

多个弹簧的数目基于要提取的频率的范围和分辨率来确定。

所述用于提取输入声音的频率的方法可以记录在根据本公开内容的实施方式的计算机可读记录介质上。

一种根据本公开内容的实施方式的由计算机执行的用于提取输入声音的频率的方法，其中：当输入声音的频率在时间的特定点之前维持第一频率并在转折点处变成第二频率时，该时间的特定点之前的频率变换的结果指示第一频率，以及紧接在转折点之后，所变换的值的瞬时误差在第二频率的10％以内。

根据本公开内容的实施方式，提供了用于提取声音频率的方法，该方法示出了改进的时间和频率分辨率。因此，具有相似频率的声音可以被进一步细分和分类，并且可以通过从语音中精确地提取音素信息的顺序来提高语音识别的准确性。此外，可以在噪声环境中执行稳定的语音识别，并且可以减少语音识别学习所需的数据的大小。

附图说明

根据下面结合附图进行的详细描述，本公开内容的特定实施方式的以上和其他方面、特征和优点将更加明显，其中：

图1是示出当外力为零时弹簧的位移的曲线图的示例；

图2是示出当外力被施加以及消失时弹簧的振幅的变化的曲线图的示例；

图3是示出根据本公开内容的实施方式的用于提取输入声音的频率的方法的流程图；

图4的(a)是示出瞬态纯音振幅的曲线图，以及图4的(b)示出了输入纯音的振幅；

图5的(a)至图5的(i)示出了当具有恒定振幅的1kHz声音被输入时，根据本公开内容的实施方式的瞬态纯音振幅、预测的纯音振幅和经滤波的纯音振幅的曲线图；

图6示出了当复音被输入时经滤波的纯音振幅的曲线图；

图7示出了当与图6不同的复音被输入时经滤波的纯音振幅的曲线图；

图8是示出根据本公开内容的实施方式的用于提取输入声音的频率的方法的流程图；

图9的(a)至图9的(f)是示出当纯音被输入时根据本公开内容的STFT的结果、输入声音的频率和DJ变换的结果的图；

图10的(a)至图10的(d)是示出当输入纯音的频率改变时根据本公开内容的DJ变换的结果的图；

图11的(a)至图11的(d)是示出当输入纯音的频率改变时STFT的结果的图；

图12的(a)至图12的(c)是示出当闪烁信号和持续信号被输入时输入信号的频率分量、DJ变换的结果和STFT的结果的图；

图13的(a)至图13的(c)是示出当1kHz千赫和2kHz声音被交替输入时输入声音的频率分量、DJ变换的结果和STFT的结果的图；

图14的(a)至图14的(c)是示出当纯音和复音被输入时DJ变换的结果和STFT的结果的图；

图15示出了根据本公开内容的实施方式的用于提取输入声音的频率的设备。

具体实施方式

提供参照附图的以下描述来帮助全面理解本公开内容的各种实施方式。

毛细胞将基底膜中产生的机械信号转化为电信号，并将该电信号传递至初级听觉皮层。毛细胞由大约3500个内毛细胞和12000个外毛细胞组成，并且每个毛细胞对其自身的固有频率的声音反应灵敏。毛细胞的这种特性类似于发生在弹簧中的如下现象，当弹簧接收到具有与弹簧的固有频率匹配的频率的外力时，弹簧的振幅由于共振而增加。利用这种相似性，本公开内容使用多个弹簧来对毛细胞的行为进行建模。

已知人的可听频率在20Hz至20000Hz的范围内，并且已知人的声音频率在80Hz至8000Hz的范围内。在诸如语音识别的领域内覆盖的频率范围在8kHz以内。考虑到同样的情况，当用于声音处理时，弹簧的从50Hz到8kHz的固有频率以1Hz的间隔进行分类，并且基于那些固有频率可以使用7951种不同类型的弹簧。这意味着频率分辨率为1Hz单位。然而，这只是示例，并且通过使用更多的弹簧来扩大频率范围或增加分辨率是可行的。

由弹簧建模的毛细胞的行为可以表示为针对驱动谐波振荡的运动的微分方程。声音对应于由施加到弹簧的各种正弦波的组合而形成的外力。每个弹簧都具有其自身的固有频率，并且通过一系列声音样本绘制出其自身的运动轨迹。每个弹簧的运动轨迹可以通过使用诸如Runge-Kuta方法的数值分析技术计算来针对驱动谐波振荡的运动的微分方程的解而获得。

假设ω_i是弹簧S_i(1≤i≤N)的固有频率。弹簧S_i用于对构成人类听觉系统的毛细胞之中对ω_i频率的声音最敏感的毛细胞的响应进行建模。

当声音F₀cos(ωt)被输入时，弹簧S_i对声音的反应x_i(t)可以由以下方程(1)的运动方程表示：

其中，x_i是偏离平衡点(位移)的弹簧的长度，以及m是悬挂在弹簧中的物体的质量。ζ是阻尼比，并且当摩擦系数为b_i时，

k_i是弹簧常数。ω_i是当ζ和F_i两者都为零时弹簧的固有频率，并且

方程(1)是具有通解的微分方程。当ζ<1时，该解与下面的方程(2)相同。

其中，A_i和β_i由弹簧的初始条件决定，并且Z_i和

如下：

将整数n指定为使得

在-180°与0°之间。如图1中所示，如果F₀＝0，则弹簧经受周期性的阻尼振荡。如果F₀>0并且弹簧在一定时间段之后达到稳定状态，则方程(2)中的第一项消失且仅保留第二项，使得处于稳定状态的弹簧的轨迹X_i,s(t)遵循方程(5)。

考虑如下情况，其中具有与处于停止状态的弹簧S_i的固有频率ω_i相同的频率的声音作为外力被施加到弹簧。弹簧在达到稳定状态的过程中的行为由下面的方程(6)描述。

因此，弹簧的振幅A_i(t)沿着

的轨迹逐渐增大，并且最终变为

当外力在点t₀处消失时，弹簧的振幅逐渐减小到零。这对应于方程(2)中的F₀＝0，并且该过程中的振幅变化遵循以下方程。

图2是示出当外力被施加时和消失时弹簧的振幅变化的曲线图的示例。

根据本公开内容的实施方式，基于被建模为毛细胞的弹簧的行为，提出了用于提取输入声音的频率和振幅的两种方法。

用于提取输入声音的频率和振幅的方法I

1.处于稳定状态

(1)频率的提取

基于共振弹簧以比其他弹簧更大的振幅振荡的特性，可以提取输入声音的频率。

给定纯音F_ocos(ωt)，处于稳定状态的弹簧S_i的振幅通过方程(5)变为

如果悬挂在每个弹簧中的物体的质量m彼此相等，则具有最大振幅的弹簧是具有最小Z_i的弹簧。弹簧的固有频率ω_i与纯音的频率ω之间的关系可以通过将方程(3)关于ω_i进行微分来获得，结果如下：

其中，

如果ζ是接近零的小的值，则ω≈ω_i。例如，ζ可以是0.001。

为了找出具有最大振幅的弹簧，使用了求解微分方程的数值分析方法诸如Runge-Kuta。给定纯音F_ocos(ωt)，使用数值分析方法来计算与方程(1)的解对应的每个弹簧S_i的速度v_i(t)和位移x_i(t)。因为每个弹簧的能量是动能和势能的总和，所以弹簧S_i的能量可以由方程(9)获得。

已经达到稳定状态的弹簧的能量保持恒定值。因此，在速度v_i为0时的位移x_i成为弹簧S_i的振幅。因此，处于稳定状态的弹簧S_i的振幅A_i可以通过以下等式计算：

具有所提取的弹簧振幅之中的最大振幅的弹簧是共振弹簧。因此，通过使用具有最大振幅的弹簧的固有频率ω_i和方程(8)，可以获得输入纯音的频率。

(2)振幅的提取

在稳定状态下，弹簧的轨迹由方程(5)给出。因此，处于稳定状态的弹簧S_i的能量E_i,s与给定的纯音的振幅F_o之间的关系可以由等式(11)表示。

此外，稳定状态下的能量E_i,s可以通过将通过使用数值分析方法求解方程(1)获得的稳定状态下的位移x_i和速度v_i放入方程(9)中来获得。因此，给定的纯音的振幅F_o变为如下：

与外力共振的弹簧的固有频率ω_i与外力的频率几乎相同。因此，如果将ω≈ω_i放入方程(3)，则Z_i＝2ω_i ²ζ。如果将该结果和

两者都放入方程(12)，则输入纯音的振幅F₀可以通过方程(13)计算。

2.在瞬时状态下

(1)频率的提取

假设在时间间隔[t_a，t_b]内给出纯音F_ocos(ωt)。所有弹簧在位移和速度两者都为零的初始状态下开始移动。使用数值分析技术，计算每个时间点的弹簧的能量，并将计算结果放入方程(10)中以获得弹簧在每个时间点处的振幅。此后，具有最大振幅的弹簧的固有频率被代入方程(8)中以计算给定的纯音的频率。

(2)振幅的提取

假设通过数值分析发现的共振弹簧S_i的能量为E_i(t)。弹簧S_i在时间t的振幅A_i(t)可以使用方程(10)从E_i(t)计算。

根据方程(1)的通解，与给定的声波共振的弹簧S_i的振幅A_i(t)遵循方程(6)的轨迹，使得弹簧S_i在从初始状态开始直到其达到稳定状态的时间间隔[t_a，t_b]中遵循

的轨迹。此处，A_i,s是当弹簧达到稳定状态时该弹簧的振幅。我们将A_i,s称为预期稳态振幅。

在时间间隔[t_a，t_b]内的两个时间点t₁、t₂处的能量E_i(t₁)和E_i(t₂)可以使用数值分析方法获得。因此，振幅A_i(t₁)和A_i(t₂)可以通过将这些结果代入方程(10)来获得。预期稳态振幅A_i,s可以通过将结果放入

中获得，并且结果如以下方程：

接下来，关于频率相同但声音的音量改变的情况，假设在点t_c给出的声音的振幅已经从F₁改变到F₂。设A_c为弹簧在时间点t_c处的振幅，并且设A_s为弹簧在外力变为F₂后将接近稳定状态时的振幅。振幅随时间的反应可以通过以下方程来描述。

给定振幅从A_c变为A_s的时间间隔内的两个时间点t₁和t₂处的振幅A(t₁)和A(t₂)，可以看出所得到的A_s与方程(14)相同。

例如，考虑在时间点t_c处外力F₂＝0的情况。当外力消失时，弹簧的能量按照方程(7)以指数方式减少。也就是，测得的从外力消失时开始ΔT秒之后的弹簧的振幅将是A(t_c+ΔT)＝A(t_c)e^-ζωΔt。将该测量结果放入方程(14)会使A_s＝0，这意味着外力已经消失。

因此，可以通过不止一次测量弹簧的能量来获得预期稳态振幅A_s。使用表示振幅与能量之间的相关性的方程(10)，可以计算稳定状态的能量E_s，并且因此可以使用方程(13)计算给定的纯音的振幅F_o。

由于施加到弹簧的力是周期函数的形式，所以能量没有在瞬时状态的时间段内均匀增加。考虑到该特性，当选择上述两个时间点t₁和t₂时，使时间间隔与该时间段相同。

在这方面，由于声音数据的采样率与弹簧的固有频率之间的关系，可能不能选择如下两个时间点：所述两个时间点之间的时间差为一个周期。在这种情况下，可能出现错误，并且可以使用两种方法来纠正该错误。

第一种方法是选择相邻的样本，其示出与周期的较小差异。当给定样本的位置S₁和音频数据的周期T时，第二样本的位置S₂计算为[S₁+采样率×T+0.5]。通过将两个点的时间信息和两个点处的振幅放入方程(14)来计算预期稳态振幅A_s。

第二种方法使用线性回归分析。在提取了一些点处的振幅并将所提取的数据放入方程(15)之后，通过线性回归分析计算预期稳态振幅A_s。

基于以上理论背景，可以提出如下用于提取输入声音的频率的方法。

参照图3，根据本公开内容的实施方式的用于提取输入声音的频率的方法可以包括以下步骤，该方法的每个步骤由计算机执行：

(a)对多个弹簧进行建模，所述多个弹簧具有彼此不同的固有频率并且根据输入声音振荡；

(b)估计弹簧的预期稳态振幅A_i，s，该弹簧的振幅A_i(t)在多个建模的弹簧之中最高；

(c)基于该预期稳态振幅A_i，s计算振幅最高的所述弹簧的能量E_i，s；以及

(d)基于所述能量E_i，s计算输入声音的振幅F₀。

步骤(a)可以包括以下步骤：测量多个弹簧中的每个弹簧在各时间点处的位移x_i(t)和速度v_i(t)(见方程1)；基于位移和速度计算多个弹簧中的每个弹簧在每个时间点处的能量E_i(t)(见方程9)；以及基于能量E_i(t)计算多个弹簧中的每个弹簧的振幅A_i(t)(参见等式10)。

步骤(b)可以用方程(14)计算。

在步骤(b)中，可以基于输入声音的持续时间内的两个不同时间点处的振幅来计算所述预期稳态振幅A_i，s(t)。

两个不同时间点之间的差可以是对应的弹簧的固有频率的周期。

当两个时间点中的一个为t₁、输入声音的采样率为SR以及对应的弹簧的固有频率的周期为T时，两个时间点中的另一个t₂可以借助于下面的方程来计算。

t₂＝[t₁+SR×T+0.5]

可以基于要提取的频率的范围和分辨率来确定多个弹簧的数目N。

图4的(a)至图4的(b)是表示根据本公开内容的实施方式的实验结果的曲线图。

图4的(a)示出了通过将弹簧的能量E₂₀₀₀(t)放入方程(13)而获得的结果，该弹簧的固有频率在具有恒定振幅的频率为2kHz的纯音在0.2秒与0.8秒之间被输入的时间内为2kHz。该结果被称为瞬态纯音振幅。瞬态纯音振幅是在弹簧的能量不存在变化的假设下计算的输入纯音的振幅。随着时间的推移，弹簧的能量达到稳定状态。因此，如图4的(a)中所示，瞬态纯音振幅逐渐达到稳定状态，此时的振幅对应于输入纯音的振幅F_m(t)。此处，m指示弹簧的固有频率。

图4的(b)示出了输入纯音的振幅F_m(t)，该振幅F_m(t)是通过将测量的弹簧的振幅放入方程(14)以获得弹簧的预期稳态振幅A_m，s(t)并将结果应用于以上频率提取方法的步骤(c)和(d)而获得的。如图4的(b)中所示，从纯音的起始点开始提取输入纯音的振幅。

用于提取输入声音的频率和振幅的方法II

根据上述用于提取输入声音的频率和振幅的方法I，如果输入声音是纯音，则可以有效地提取输入声音的频率和振幅。

现在，假设存在构成复音

的n种类型的纯音。如果n＝1，则可以通过在弹簧之中选择具有最大振幅的弹簧来找到给定声音的纯音。然而，如果n＞1，则难以通过按振幅的顺序选择前n个弹簧来找出构成复音的纯音。

第一原因是，其频率与具有最大振幅的弹簧相邻的弹簧的振幅可能大于与构成复音的其他纯音共振的弹簧的振幅。第二原因是，如图2中0.8秒之后的轨迹所示，即使外力消失，也需要时间直到弹簧的振幅达到0，所以不再存在的声音的振幅可能大于其他纯音的振幅。

因此，在该实施方式中，不是在每个时间点处的弹簧振幅之中找到局部最大值，而是提出了从将预期稳态振幅与瞬态纯音振幅相乘的结果中找到局部最大值的方法。

1.预期稳态振幅和经过滤的纯音振幅

首先，为了提取构成复音的纯音，通过将方法I的步骤(a)应用于每个弹簧以提取输入声音的频率来计算每个弹簧S_i的振幅A_i(t)。图5的(a)示出了当具有恒定振幅的、频率为1kHz的声音在200毫秒处开始时，作为在215毫秒处测量的结果，其固有频率约为1kHz的弹簧的振幅。图5的(a)示出了不共振的弹簧的振幅低于共振的弹簧的振幅。

接下来，通过将用于提取输入声音的频率的方法I的步骤(b)应用于每个弹簧S_i的振幅A_i(t)来计算预期稳态振幅A_i，x(t)。然而，计算预期稳态振幅的方程(14)是从描述共振弹簧的行为的方程(7)导出的方程。因此，如在图5的(b)中，即使在远离谐振频率的频率处也可以产生高振幅。

因此，执行以下步骤。第三步骤是通过将弹簧S_i的振幅A_i(t)放入方程(13)来计算瞬态纯音振幅F_i，t(t)。此外，通过将用于提取输入声音的频率的方法I的步骤(c)和(d)应用于预期稳态振幅A_i，s(t)来计算预测的纯音振幅F_i，s(t)。

如最后的步骤，通过将瞬态纯音振幅F_i，t(t)与预测的纯音振幅F_i，s(t)相乘——如在F_i，p(t)＝F_i，t(t)×F_i(t)中——来计算经滤波的纯音振幅F_i，p(t)。另外，振幅的相乘的结果可以除以声音的最大振幅，以便不超过1而是被归一化。例如，如果声音被表示为16位整数，则结果除以32767。

经滤波的纯音振幅具有以下特征：1)当声音消失时，振幅变为0；以及2)频域中远离谐振频率的频率的振幅较低。

图5的(c)示出了作为图5的(a)和图5的(b)中的、关于相同频率的振幅相乘的结果的经滤波的纯音振幅。图5的(d)至图5的(f)分别示出了由具有1kHz的固有频率的弹簧获得的瞬态纯音振幅、预测纯音振幅和经滤波的纯音振幅。特别地示出了：在输入声音在0.8秒处消失之后，图5的(d)中的振幅保持不为零，但是图5的(e)和图5的(f)中的振幅变为零。图5的(g)至图5的(i)示出了具有1020Hz的固有频率的弹簧的结果。明显地，与图5的(f)的共振弹簧的经滤波的纯音振幅F_1000,p(t)相比，经滤波的纯音振幅F_1020,p(t)非常小。

2.从局部最大值中找到纯音

图6是示出由100Hz、250Hz、500Hz、1kHz和4kHz的五个纯音组成的复音的频率与经滤波的纯音振幅的曲线图。如图6中所示，如果构成复音的声音的频率间隔是宽的，则每个纯音频率在频率上的局部最大值之中产生局部最大值。利用这些特征，从通过使用经滤波的纯音振幅获得的频率与振幅曲线图中获得一些局部最大值。然后，再次获得那些一些局部最大值的局部最大值。最后，与局部最大值对应的频率被当作构成复音的纯音的频率。

但是，如果频率间隔是窄的，则在两个相邻的局部最大值之间可能不存在局部最大值。图7是由112Hz、181Hz、1034Hz、5017Hz和5034Hz的五个纯音组成的复音的频率与经滤波的纯音振幅的曲线图的一部分。该图表明，在由两个相邻的频率5017Hz和5034Hz产生的两个局部最大值之间不存在局部最大值。这种情况的特征是频率间隔窄并且两个经滤波的纯音振幅相似。因此，如果经滤波的纯音振幅中的两个相邻局部最大值之间的频率差在某个宽度(例如，高振幅频率的带宽)内并且那些经滤波的纯音振幅的比率等于或大于某个水平(例如，0.5)，则这两个频率都被当成是构成复音的纯音的频率。

基于上述理论背景，提出了以下用于提取输入声音的频率的方法。

参照图8，根据本公开内容的实施方式的用于提取输入声音的频率的方法包括以下步骤，该方法的每个步骤由计算机执行：

(1)对多个弹簧进行建模，具有固有频率ω_i的每个弹簧S_i(1≤i≤N)彼此不同并且根据输入声音振荡；

(2)基于建模的弹簧的位移和速度来计算多个建模的弹簧S_i在每个时间t处的瞬态纯音振幅{F_i,t(t)|1≤i≤N}；

(3)计算多个建模的弹簧在每个时间t处的预期稳态振幅{A_i,s(t)|1≤i≤N}；

(4)基于每个时间t处的预期稳态振幅{A_i，s(t)|1≤i≤N}，计算预测的纯音振幅{F_i，s(t)|1≤i≤N}；

(5)通过将每个弹簧S_i的瞬态纯音振幅F_i，t(t)与预测的纯音振幅F_i，s(t)相乘，计算每个时间t处的经滤波的纯音振幅{F_i，p(t)|1≤i≤N}；以及

(6)提取弹簧的固有频率，所述弹簧的固有频率的每个经滤波的纯音振幅是频率范围内的局部最大值。

步骤(1)可以包括以下步骤：测量多个弹簧中的每个弹簧在不同时间点处的位移x_i(t)和速度v_i(t)(见方程1)；基于位移x_i(t)和速度v_i(t)计算多个弹簧中的每个弹簧在每个时间点处的能量E_i(t)(见方程9)；以及基于能量E_i(t)计算多个弹簧中的每个弹簧在每个时间点处的振幅A_i(t)(见方程10)。

方程13可以用于步骤(2)，方程14可以用于步骤(3)，以及方程13可以用于步骤(4)。

多个弹簧的数目N可以基于要提取的频率的范围和分辨率来确定。

在步骤(3)中，可以基于在输入声音的持续时间内的两个时间点处的振幅来计算预期稳态振幅A_i，s(t)。

在步骤(3)中，可以借助于以下方程来计算预期稳态振幅A_i，s(t)：

其中，t₁和t₂是输入声音的持续时间内的两个不同的时间点，t₂＞t₁，Ai(t₁)是多个弹簧之中的任意弹簧在t₁处的振幅，Ai(t₂)是所述弹簧在t₂处的振幅，ζ是所述弹簧的阻尼比，以及ω满足方程

其中，ω_i是所述弹簧的固有频率。

两个不同时间点之间的差可以是对应弹簧的固有频率的周期。

当两个时间点中的一个为t₁、输入声音的采样率为SR以及对应弹簧的固有频率的周期为T时，两个时间点中的另一个t₂通过以下等式计算。

t₂＝[t₁+SR×T+0.5]

在下文中，将描述根据本实施方式的实验结果。为了示出根据本公开内容的DJ变换的性能，对DJ变换的结果与STFT的结果进行了比较。在DJ变换中，分别使用了7951个固有频率为从50Hz至8000Hz的弹簧。弹簧的频率间隔为1Hz。25毫秒的窗口被用于STFT。

DJ变换在具有3072个核和12GB内存的NVIDIA M40 GPU环境中执行，并使用CudaToolkit 8.0的C语言API实现。对1秒的音频数据进行DJ变换大约需要0.6秒。

图9的(a)至图9的(f)是示出STFT变换和DJ变换在频率分辨率方面的结果的图。在图9的(a)至图9的(f)中，第一行示出了STFT的结果，第二行示出了输入声音的频率，以及第三行示出了根据本公开内容的实施方式的DJ变换的结果。

如图9的(a)至图9的(f)所示，STFT结果的频率分辨率为40Hz。此外，当纯音的频率为400Hz、408Hz和416Hz时，在400Hz处输出峰值，以及当纯音的频率为424Hz、432Hz和440Hz时，在440Hz处输出峰值。然而，DJ变换结果与纯音的所有频率相匹配。这意味着DJ变换结果的频率分辨率为1Hz。

进行了三个实验来比较DJ变换和STFT在时间分辨率方面的结果。

第一实验是检查在输入频率改变的时间点处提取的频率。图10的(a)示出了当1kHz纯音已经被输入500毫秒并且2kHz纯音正好在500毫秒之后被输入时通过DJ变换的提取的频率的结果，图10的(b)示出了当2kHz纯音已经被输入500毫秒并且1kHz纯音正好在500毫秒之后被输入时通过DJ变换的提取的频率的结果，图10的(c)示出了当4kHz纯音已经被输入500毫秒并且2kHz纯音正好在500毫秒之后被输入时通过DJ变换的提取的频率的结果，以及图10的(d)示出了当2kHz纯音已经被输入500毫秒并且4kHz纯音正好在500毫秒之后被输入时通过DJ变换的提取的频率的结果。明显地，图10的(a)至图10的(d)示出了两个频率之间的边界在500毫秒处。具体地，直至500毫秒，输入纯音的1kHz、2kHz、4kHz和2kHz的频率被清楚地显示，并且紧接500毫秒之后，经改变的纯音的2kHz、1kHz、2kHz和4kHz的频率被显示为仅具有大约10％的误差。然而，在图11的(a)至图11的(d)所示的STFT结果中，在500毫秒的边界上同时提取两个频率。

第二实验是从快速出现和消失的声音中提取频率。图12的(a)至图12的(c)的第一行示出了当1kHz纯音在从200毫秒到800毫秒中被生成达5毫秒并且在下一个5毫秒静默(当闪烁信号被重复输入时)时的频率提取结果。第二行示出了从200毫秒到800毫秒连续输入1kHz纯音(当连续信号被输入时)的结果。图12的(a)是关于输入声音随时间的频率分量，图12的(b)是关于DJ变换结果，以及图12的(c)是关于STFT结果。

在示出DJ变换的结果的图12的(b)中，重复的闪烁信号导致虚线，而连续的信号导致实线，由此两种信号被明显地区分。另一方面，图12的(c)中所示的STFT的结果在1kHz处示出了实线，因此，闪烁信号与连续信号之间的区别并不清楚。

图12的(b)中的上图在1.1kHz和0.9kHz处示出了相对较弱的虚线。由于每10毫秒周期的重复的输入，这些线被解释为100Hz信号的结果。另一方面，在STFT结果中，当观察图12的(c)中的上图时，实线出现在0.88kHz、0.92kHz、0.96kHz、1.04kHz、1.08kHz和1.12kHz处。据推测，STFT结果出现的原因是因为0.9kHz和1.1kHz频率分量由100Hz信号生成，并且由于STFT的40Hz频率分辨率而导致这些分量由40Hz间隔表示。

第三实验是第二实验的扩展，第三实验示出了当1kHz和2kHz纯音在从200毫秒到800毫秒内被交替生成达5毫秒时频率提取的结果(图13的(a)至图13的(c))。图13的(b)示出：DJ变换产生以5毫秒为单位明显分开的1kHz纯音和2kHz纯音。另一方面，如图13的(c)所示，当使用STFT时，纯音之间的边界是不可区分的。

图14的(a)至图14的(c)的第一行示出了当输入420Hz纯音时的输入波形、DJ变换的结果和STFT的结果，以及第二行示出了当由400Hz和440Hz组成的复音被输入时的输入波形、DJ变换结果和STFT结果。图14的(a)示出了输入波形，以及图14的(b)和图14的(c)分别示出了DJ变换结果和STFT结果。

如在图14的(b)和图14的(c)中可见，DJ变换从纯音中提取420Hz的频率，并且从复音中提取400Hz和440Hz的频率。另一方面，使用STFT从纯音和复音两者中提取的结果之间几乎没有差异。

如图14的(a)的底部图所示，由于复音由400Hz和440Hz组成，所以振幅在40Hz周期内波动。另一方面，如图14的(b)的底部图所示，DJ变换很好地反映了振幅波动的特征。

根据本公开内容的实施方式的用于提取输入声音的频率的设备100可以包括弹簧建模单元110和频率提取单元120。

弹簧建模单元110使用方程(1)、(9)和(10)来计算多个弹簧的位移和速度。弹簧建模单元110可以包括与多个弹簧的数目对应的线程，并且每个线程可以对应于每个弹簧。

频率提取单元120基于由弹簧建模单元110计算的位移和速度，根据用于提取输入声音的频率的方法I的步骤(b)至(d)提取频率。或者，频率提取单元120基于由弹簧建模单元110计算的位移和速度，根据用于提取输入声音的频率的方法II的步骤(2)至(6)提取频率。

虽然已经通过优选实施方式详细描述了本公开内容，但是本公开内容不限于此，并且在不偏离本公开内容的技术精神的情况下可以进行各种改变和应用，这对于本领域技术人员来说是明显的。因此，本公开内容的保护的范围应当由所附权利要求来解释，并且与其等效的范围内的所有技术思想应当被解释为包括在本公开内容的范围内。

Claims

1.一种用于提取输入声音的频率的方法，所述方法的每个步骤由计算机执行，所述方法包括以下步骤：

对多个弹簧进行建模，所述多个弹簧具有彼此不同的固有频率并根据输入声音振荡；

计算多个建模的弹簧的瞬态纯音振幅；

计算所述多个模拟的弹簧的预期稳态振幅；

基于所述预期稳态振幅来计算预测的纯音振幅；

通过将所述瞬态纯音振幅与所述预测的纯音振幅相乘来计算经滤波的纯音振幅；以及

提取所述弹簧的所述固有频率，所述弹簧的所述固有频率与所述经滤波的纯音振幅之中的局部最大值对应。

2.根据权利要求1所述的方法，其中，所述预期稳态振幅基于所述输入声音的持续时间内的至少两个时间点处的振幅来计算。

3.根据权利要求1所述的方法，其中，所述预期稳态振幅(A_i,s)通过以下方程计算：

其中，t₁和t₂是所述输入声音的持续时间内的两个不同的时间点，t₂>t₁，

Ai(t₁)是所述多个弹簧之中的任意弹簧在t₁处的振幅，

Ai(t₂)是所述弹簧在t₂处的振幅，

ζ是所述弹簧的阻尼比，以及

ω满足方程

其中，ω_i是所述弹簧的所述固有频率。

4.根据权利要求2所述的方法，其中，所述两个不同的时间点之间的差是对应的弹簧的所述固有频率的周期。

5.根据权利要求2所述的方法，其中，如果所述两个时间点中的一个是t₁，所述输入声音的采样率是SR并且对应的弹簧的所述固有频率的周期是T，则所述两个时间点中的另一个t₂通过以下等式计算：

t₂＝[t₁+SR×T+0.5]。

6.根据权利要求2所述的方法，其中，通过将所述输入声音的持续时间内的至少两个点处的振幅代入以下方程并使用线性回归分析来计算所述预期稳态振幅：

其中，A(t)是所述多个弹簧之中的任意弹簧在t处的振幅，

A_s是所述弹簧的预期稳态振幅，

A_c是所述弹簧在t_c处的振幅，

ζ是所述弹簧的阻尼比，以及

ω满足方程

其中，ω_i是所述弹簧的所述固有频率。

7.根据权利要求1所述的方法，其中，所述建模步骤包括以下步骤：

测量所述多个弹簧中的每个弹簧在时间点处的位移和速度；

基于所述位移和所述速度计算所述多个弹簧中的每个弹簧在每个时间点处的能量；以及

基于所述能量计算所述多个弹簧中的每个弹簧在每个时间点处的振幅。

8.根据权利要求1所述的方法，其中，所述多个弹簧的数目基于要提取的频率的范围和分辨率来确定。

9.一种计算机可读记录介质，其上记录了根据权利要求1所述的用于提取输入声音的频率的方法。

10.一种用于提取声音的频率的设备，包括：

弹簧建模单元，其用于通过对具有彼此不同的固有频率并根据输入声音振荡的多个弹簧进行建模来产生所述多个弹簧的位移和速度；以及

频率提取单元，其用于计算多个建模的弹簧的瞬态纯音振幅，计算所述多个建模的弹簧的预期稳态振幅，基于所述预期稳态振幅来计算预测的纯音振幅，通过将所述瞬态纯音振幅与所述预测的纯音振幅相乘来计算经滤波的纯音振幅，以及提取所述弹簧的所述固有频率，所述弹簧的所述固有频率与所述经滤波的纯音振幅之中的局部最大值对应。

11.一种用于提取输入声音的频率的方法，所述方法的每个步骤由计算机执行，所述方法包括以下步骤：

估计在多个建模的弹簧之中振幅最高的弹簧的预期稳态振幅；

基于所述预期稳态振幅来计算振幅最高的弹簧的能量；以及

基于所述能量计算输入纯音的振幅。

12.根据权利要求11所述的方法，其中，所述预期稳态振幅(A_i,s)通过以下方程计算：

在所述方程中，t₁和t₂是输入声音的持续时间内满足t₂>t₁的两个时间点，

Ai(t₁)是在频率范围内振幅最高的弹簧在t₁处的振幅，

Ai(t₂)是在频率范围内振幅最高的弹簧在t₂处的振幅，

ζ是所述弹簧的阻尼比，以及

ω满足方程

其中，ω_i是振幅最高的所述弹簧的所述固有频率。

13.根据权利要求11所述的方法，其中，所述建模步骤包括以下步骤：

测量所述多个弹簧中的每个弹簧在每个时间点处的位移和速度；

14.一种计算机可读记录介质，其上记录了根据权利要求11所述的用于提取输入声音的频率的方法。

15.一种用于提取输入声音的频率的设备，包括：

频率提取单元，其用于估计在多个建模的弹簧之中振幅最高的弹簧的预期稳态振幅，基于所述预期稳态振幅计算振幅最高的弹簧的能量，以及基于所述能量计算输入纯音振幅。

16.一种由计算机执行的用于提取输入声音的频率的方法，其中：

当所述输入声音的频率在时间的特定点之前维持第一频率并在转折点处变成第二频率时，

所述特定点之前的频率变换的结果指示所述第一频率，以及

紧接在所述转折点之后，所变换的值的瞬时误差在所述第二频率的10％以内。

17.根据权利要求16所述的方法，其中，所述方法包括以下步骤：

计算多个建模的弹簧的瞬态纯音振幅；

计算所述多个建模的弹簧的预期稳态振幅；

基于所述预期稳态振幅计算预测的纯音振幅；