CN113316816A - 使用dj变换的频率提取方法 - Google Patents

使用dj变换的频率提取方法 Download PDF

Info

Publication number
CN113316816A
CN113316816A CN201980088800.4A CN201980088800A CN113316816A CN 113316816 A CN113316816 A CN 113316816A CN 201980088800 A CN201980088800 A CN 201980088800A CN 113316816 A CN113316816 A CN 113316816A
Authority
CN
China
Prior art keywords
amplitude
spring
frequency
springs
pure tone
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201980088800.4A
Other languages
English (en)
Inventor
金东禛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Naoruan Co ltd
Original Assignee
Naoruan Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Naoruan Co ltd filed Critical Naoruan Co ltd
Publication of CN113316816A publication Critical patent/CN113316816A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0316Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
    • G10L21/0364Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude for improving intelligibility
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0316Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/14Fourier, Walsh or analogous domain transformations, e.g. Laplace, Hilbert, Karhunen-Loeve, transforms
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • G10L21/0308Voice signal separating characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/15Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being formant information

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Computational Mathematics (AREA)
  • Algebra (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
  • Auxiliary Devices For Music (AREA)

Abstract

根据本公开内容的实施方式,其每个步骤由计算机执行并且提取输入声音的频率的方法包括以下步骤:对多个弹簧进行建模,多个弹簧具有彼此不同的固有频率并根据输入声音振荡;计算多个建模的弹簧的瞬态纯音振幅;计算多个建模的弹簧的预期稳态振幅;基于预期稳态振幅计算预测的纯音振幅;通过将瞬态纯音振幅与预测的纯音振幅相乘来计算经滤波的纯音振幅;以及提取弹簧的固有频率,该弹簧的固有频率与经滤波的纯音振幅之中的局部最大值对应。

Description

使用DJ变换的频率提取方法
技术领域
本公开内容总体上涉及频率提取方法,特别地涉及能够同时增加时间分辨率和频率分辨率的频率提取方法。
背景技术
短时傅里叶变换(STFT)被用在处理声音的各个领域诸如语音识别、说话人识别等中,以从给定的声音中提取频率。然而,当通过STFT提取频率时,由于傅立叶不确定性原理导致在增加时间分辨率和频率分辨率时存在限制。傅立叶不确定性原理指出,如果短持续时间的声音被转换成频率分量,则频率分量的分辨率相对较低,而如果具有较长持续时间的声音被用来获得更精确的频率,则当频率分量被提取时的瞬时时间分辨率降低。
例如,当使用STFT时,假设窗口大小为25毫秒,并且使用矩形过滤器。在这些条件下提取的频率分量具有40Hz的分辨率。在这种情况下,即使在输入声音中存在420Hz频率,但只有400Hz频率和440Hz频率作为提取结果出现,而420Hz频率没有出现。因此,仅由420Hz频率组成的纯音与由400Hz和440Hz频率组成的复音之间的区别并不清楚。现在,假设在提取结果上存在4kHz频率。提取结果没有给出关于当4kHz频率出现在25毫秒窗口内时的时间点的任何信息。例如,不能区分4kHz频率是出现在0至10毫秒的范围内还是出现在10至20毫秒的范围内。
为了获得20Hz的频率分辨率,窗口大小应当扩展到50毫秒。然而,由于时间分辨率与频率分辨率成反比,所以时间分辨率由于50毫秒的窗口而降低。同样,如果窗口大小减小到12.5毫秒以增加时间分辨率,则频率分辨率降低到80Hz。由于这种折衷,当使用STFT时,时间分辨率和频率分辨率不能同时提高。
发明内容
根据研究发现,已知人类的听觉能力不受傅立叶不确定性原理的限制。本公开内容旨在提出DJ变换方法,该DJ变换方法是一种根据对人类听觉能力的理解的新的频率提取方法,该方法基于构成耳蜗的毛细胞的操作原理同时提高时间分辨率和频率分辨率。
根据本公开内容的实施方式的其每个步骤由计算机执行的用于提取输入声音的频率的方法包括以下步骤:对多个弹簧建模,所述多个弹簧具有彼此不同的固有频率并且根据输入声音振荡;计算多个建模的弹簧的瞬态纯音振幅;计算多个建模的弹簧的预期稳态振幅;基于预期稳态振幅计算预测的纯音振幅;通过将瞬态纯音振幅与预测的纯音振幅相乘来计算经滤波的纯音振幅;以及提取弹簧的固有频率,该弹簧的固有频率与经滤波的纯音振幅的局部最大值对应。
根据本公开内容的实施方式的用于提取声音的频率的设备包括:弹簧建模单元,其用于通过对具有彼此不同的固有频率并根据输入声音振荡的多个弹簧进行建模来产生多个弹簧的位移和速度;以及频率提取单元,其用于计算多个建模的弹簧的瞬态纯音振幅,计算多个建模的弹簧的预期稳态振幅,基于预期稳态振幅计算预测的纯音振幅,通过将瞬态纯音振幅与预测的纯音振幅相乘来计算经滤波的纯音振幅,以及提取弹簧的固有频率,该弹簧的固有频率与经滤波的纯音振幅中的局部最大值对应。
根据本公开内容的实施方式的其每个步骤由计算机执行的用于提取输入声音的频率的方法包括以下步骤:对多个弹簧进行建模,所述多个弹簧具有彼此不同的固有频率并且根据输入声音振荡;估计多个建模的弹簧之中振幅最高的弹簧的预期稳态振幅;基于预期稳态振幅计算振幅最高的弹簧的能量;以及基于该能量计算输入纯音的振幅。
根据本公开内容的实施方式的用于提取输入声音的频率的设备包括:弹簧建模单元,其用于通过对具有彼此不同的固有频率并根据输入声音振荡的多个弹簧进行建模来产生多个弹簧的位移和速度;以及频率提取单元,其用于估计在多个建模的弹簧之中振幅最高的弹簧的预期稳态振幅,基于预期稳态振幅计算振幅最高的弹簧的能量,以及基于该能量计算输入纯音振幅。
所述预期稳态振幅可以基于输入声音的持续时间内的两个不同时间点处的振幅来计算。
所述预期稳态振幅(Ai,s)可以借助于以下方程计算:
Figure BDA0003158973550000031
其中,t1和t2是输入声音的持续时间内的两个不同的时间点,t2>t1,Ai(t1)是所述多个弹簧之中的任意弹簧在t1处的振幅,Ai(t2)是所述弹簧在t2处的振幅,ζ是所述弹簧的阻尼比,ω满足方程
Figure BDA0003158973550000032
其中,ωi是所述弹簧的固有频率。
两个不同的时间点之间的差可以是对应的弹簧的固有频率的周期。
当两个时间点中的一个为t1、输入声音的采样率为SR并且对应弹簧的固有频率的周期为T时,两个时间点中的另一个t2可以借助于以下方程计算。
t2=[t1+SR×T+0.5]
通过将输入声音的持续时间内的至少两个点处的振幅代入以下方程并使用线性回归分析来计算预期稳态振幅。
Figure BDA0003158973550000033
其中,A(t)是所述多个弹簧之中的任意弹簧在t处的振幅,As是所述弹簧的预期稳态振幅,Ac是所述弹簧在tc处的振幅,ζ是所述弹簧的阻尼比,ω满足方程
Figure BDA0003158973550000034
其中,ωi是弹簧的固有频率。
所述建模步骤可以包括以下步骤:测量多个弹簧中的每个弹簧在各时间点处的位移和速度;基于位移和速度计算多个弹簧中的每个弹簧在每个时间点处的能量;以及基于所述能量计算多个弹簧中的每个弹簧在每个时间点处的振幅。
多个弹簧的数目基于要提取的频率的范围和分辨率来确定。
所述用于提取输入声音的频率的方法可以记录在根据本公开内容的实施方式的计算机可读记录介质上。
一种根据本公开内容的实施方式的由计算机执行的用于提取输入声音的频率的方法,其中:当输入声音的频率在时间的特定点之前维持第一频率并在转折点处变成第二频率时,该时间的特定点之前的频率变换的结果指示第一频率,以及紧接在转折点之后,所变换的值的瞬时误差在第二频率的10%以内。
根据本公开内容的实施方式,提供了用于提取声音频率的方法,该方法示出了改进的时间和频率分辨率。因此,具有相似频率的声音可以被进一步细分和分类,并且可以通过从语音中精确地提取音素信息的顺序来提高语音识别的准确性。此外,可以在噪声环境中执行稳定的语音识别,并且可以减少语音识别学习所需的数据的大小。
附图说明
根据下面结合附图进行的详细描述,本公开内容的特定实施方式的以上和其他方面、特征和优点将更加明显,其中:
图1是示出当外力为零时弹簧的位移的曲线图的示例;
图2是示出当外力被施加以及消失时弹簧的振幅的变化的曲线图的示例;
图3是示出根据本公开内容的实施方式的用于提取输入声音的频率的方法的流程图;
图4的(a)是示出瞬态纯音振幅的曲线图,以及图4的(b)示出了输入纯音的振幅;
图5的(a)至图5的(i)示出了当具有恒定振幅的1kHz声音被输入时,根据本公开内容的实施方式的瞬态纯音振幅、预测的纯音振幅和经滤波的纯音振幅的曲线图;
图6示出了当复音被输入时经滤波的纯音振幅的曲线图;
图7示出了当与图6不同的复音被输入时经滤波的纯音振幅的曲线图;
图8是示出根据本公开内容的实施方式的用于提取输入声音的频率的方法的流程图;
图9的(a)至图9的(f)是示出当纯音被输入时根据本公开内容的STFT的结果、输入声音的频率和DJ变换的结果的图;
图10的(a)至图10的(d)是示出当输入纯音的频率改变时根据本公开内容的DJ变换的结果的图;
图11的(a)至图11的(d)是示出当输入纯音的频率改变时STFT的结果的图;
图12的(a)至图12的(c)是示出当闪烁信号和持续信号被输入时输入信号的频率分量、DJ变换的结果和STFT的结果的图;
图13的(a)至图13的(c)是示出当1kHz千赫和2kHz声音被交替输入时输入声音的频率分量、DJ变换的结果和STFT的结果的图;
图14的(a)至图14的(c)是示出当纯音和复音被输入时DJ变换的结果和STFT的结果的图;
图15示出了根据本公开内容的实施方式的用于提取输入声音的频率的设备。
具体实施方式
提供参照附图的以下描述来帮助全面理解本公开内容的各种实施方式。
毛细胞将基底膜中产生的机械信号转化为电信号,并将该电信号传递至初级听觉皮层。毛细胞由大约3500个内毛细胞和12000个外毛细胞组成,并且每个毛细胞对其自身的固有频率的声音反应灵敏。毛细胞的这种特性类似于发生在弹簧中的如下现象,当弹簧接收到具有与弹簧的固有频率匹配的频率的外力时,弹簧的振幅由于共振而增加。利用这种相似性,本公开内容使用多个弹簧来对毛细胞的行为进行建模。
已知人的可听频率在20Hz至20000Hz的范围内,并且已知人的声音频率在80Hz至8000Hz的范围内。在诸如语音识别的领域内覆盖的频率范围在8kHz以内。考虑到同样的情况,当用于声音处理时,弹簧的从50Hz到8kHz的固有频率以1Hz的间隔进行分类,并且基于那些固有频率可以使用7951种不同类型的弹簧。这意味着频率分辨率为1Hz单位。然而,这只是示例,并且通过使用更多的弹簧来扩大频率范围或增加分辨率是可行的。
由弹簧建模的毛细胞的行为可以表示为针对驱动谐波振荡的运动的微分方程。声音对应于由施加到弹簧的各种正弦波的组合而形成的外力。每个弹簧都具有其自身的固有频率,并且通过一系列声音样本绘制出其自身的运动轨迹。每个弹簧的运动轨迹可以通过使用诸如Runge-Kuta方法的数值分析技术计算来针对驱动谐波振荡的运动的微分方程的解而获得。
假设ωi是弹簧Si(1≤i≤N)的固有频率。弹簧Si用于对构成人类听觉系统的毛细胞之中对ωi频率的声音最敏感的毛细胞的响应进行建模。
当声音F0cos(ωt)被输入时,弹簧Si对声音的反应xi(t)可以由以下方程(1)的运动方程表示:
Figure BDA0003158973550000061
其中,xi是偏离平衡点(位移)的弹簧的长度,以及m是悬挂在弹簧中的物体的质量。ζ是阻尼比,并且当摩擦系数为bi时,
Figure BDA0003158973550000062
ki是弹簧常数。ωi是当ζ和Fi两者都为零时弹簧的固有频率,并且
Figure BDA0003158973550000063
方程(1)是具有通解的微分方程。当ζ<1时,该解与下面的方程(2)相同。
Figure BDA0003158973550000064
其中,Ai和βi由弹簧的初始条件决定,并且Zi
Figure BDA0003158973550000065
如下:
Figure BDA0003158973550000066
Figure BDA0003158973550000067
将整数n指定为使得
Figure BDA0003158973550000068
在-180°与0°之间。如图1中所示,如果F0=0,则弹簧经受周期性的阻尼振荡。如果F0>0并且弹簧在一定时间段之后达到稳定状态,则方程(2)中的第一项消失且仅保留第二项,使得处于稳定状态的弹簧的轨迹Xi,s(t)遵循方程(5)。
Figure BDA0003158973550000069
考虑如下情况,其中具有与处于停止状态的弹簧Si的固有频率ωi相同的频率的声音作为外力被施加到弹簧。弹簧在达到稳定状态的过程中的行为由下面的方程(6)描述。
Figure BDA0003158973550000071
因此,弹簧的振幅Ai(t)沿着
Figure BDA0003158973550000072
的轨迹逐渐增大,并且最终变为
Figure BDA0003158973550000073
当外力在点t0处消失时,弹簧的振幅逐渐减小到零。这对应于方程(2)中的F0=0,并且该过程中的振幅变化遵循以下方程。
Figure BDA0003158973550000074
图2是示出当外力被施加时和消失时弹簧的振幅变化的曲线图的示例。
根据本公开内容的实施方式,基于被建模为毛细胞的弹簧的行为,提出了用于提取输入声音的频率和振幅的两种方法。
用于提取输入声音的频率和振幅的方法I
1.处于稳定状态
(1)频率的提取
基于共振弹簧以比其他弹簧更大的振幅振荡的特性,可以提取输入声音的频率。
给定纯音Focos(ωt),处于稳定状态的弹簧Si的振幅通过方程(5)变为
Figure BDA0003158973550000075
如果悬挂在每个弹簧中的物体的质量m彼此相等,则具有最大振幅的弹簧是具有最小Zi的弹簧。弹簧的固有频率ωi与纯音的频率ω之间的关系可以通过将方程(3)关于ωi进行微分来获得,结果如下:
Figure BDA0003158973550000076
其中,
Figure BDA0003158973550000077
如果ζ是接近零的小的值,则ω≈ωi。例如,ζ可以是0.001。
为了找出具有最大振幅的弹簧,使用了求解微分方程的数值分析方法诸如Runge-Kuta。给定纯音Focos(ωt),使用数值分析方法来计算与方程(1)的解对应的每个弹簧Si的速度vi(t)和位移xi(t)。因为每个弹簧的能量是动能和势能的总和,所以弹簧Si的能量可以由方程(9)获得。
Figure BDA0003158973550000081
已经达到稳定状态的弹簧的能量保持恒定值。因此,在速度vi为0时的位移xi成为弹簧Si的振幅。因此,处于稳定状态的弹簧Si的振幅Ai可以通过以下等式计算:
Figure BDA0003158973550000082
具有所提取的弹簧振幅之中的最大振幅的弹簧是共振弹簧。因此,通过使用具有最大振幅的弹簧的固有频率ωi和方程(8),可以获得输入纯音的频率。
(2)振幅的提取
在稳定状态下,弹簧的轨迹由方程(5)给出。因此,处于稳定状态的弹簧Si的能量Ei,s与给定的纯音的振幅Fo之间的关系可以由等式(11)表示。
Figure BDA0003158973550000083
此外,稳定状态下的能量Ei,s可以通过将通过使用数值分析方法求解方程(1)获得的稳定状态下的位移xi和速度vi放入方程(9)中来获得。因此,给定的纯音的振幅Fo变为如下:
Figure BDA0003158973550000084
与外力共振的弹簧的固有频率ωi与外力的频率几乎相同。因此,如果将ω≈ωi放入方程(3),则Zi=2ωi 2ζ。如果将该结果和
Figure BDA0003158973550000085
两者都放入方程(12),则输入纯音的振幅F0可以通过方程(13)计算。
Figure BDA0003158973550000091
2.在瞬时状态下
(1)频率的提取
假设在时间间隔[ta,tb]内给出纯音Focos(ωt)。所有弹簧在位移和速度两者都为零的初始状态下开始移动。使用数值分析技术,计算每个时间点的弹簧的能量,并将计算结果放入方程(10)中以获得弹簧在每个时间点处的振幅。此后,具有最大振幅的弹簧的固有频率被代入方程(8)中以计算给定的纯音的频率。
(2)振幅的提取
假设通过数值分析发现的共振弹簧Si的能量为Ei(t)。弹簧Si在时间t的振幅Ai(t)可以使用方程(10)从Ei(t)计算。
根据方程(1)的通解,与给定的声波共振的弹簧Si的振幅Ai(t)遵循方程(6)的轨迹,使得弹簧Si在从初始状态开始直到其达到稳定状态的时间间隔[ta,tb]中遵循
Figure BDA0003158973550000092
的轨迹。此处,Ai,s是当弹簧达到稳定状态时该弹簧的振幅。我们将Ai,s称为预期稳态振幅。
在时间间隔[ta,tb]内的两个时间点t1、t2处的能量Ei(t1)和Ei(t2)可以使用数值分析方法获得。因此,振幅Ai(t1)和Ai(t2)可以通过将这些结果代入方程(10)来获得。预期稳态振幅Ai,s可以通过将结果放入
Figure BDA0003158973550000093
中获得,并且结果如以下方程:
Figure BDA0003158973550000094
接下来,关于频率相同但声音的音量改变的情况,假设在点tc给出的声音的振幅已经从F1改变到F2。设Ac为弹簧在时间点tc处的振幅,并且设As为弹簧在外力变为F2后将接近稳定状态时的振幅。振幅随时间的反应可以通过以下方程来描述。
Figure BDA0003158973550000095
给定振幅从Ac变为As的时间间隔内的两个时间点t1和t2处的振幅A(t1)和A(t2),可以看出所得到的As与方程(14)相同。
例如,考虑在时间点tc处外力F2=0的情况。当外力消失时,弹簧的能量按照方程(7)以指数方式减少。也就是,测得的从外力消失时开始ΔT秒之后的弹簧的振幅将是A(tc+ΔT)=A(tc)e-ζωΔt。将该测量结果放入方程(14)会使As=0,这意味着外力已经消失。
因此,可以通过不止一次测量弹簧的能量来获得预期稳态振幅As。使用表示振幅与能量之间的相关性的方程(10),可以计算稳定状态的能量Es,并且因此可以使用方程(13)计算给定的纯音的振幅Fo
由于施加到弹簧的力是周期函数的形式,所以能量没有在瞬时状态的时间段内均匀增加。考虑到该特性,当选择上述两个时间点t1和t2时,使时间间隔与该时间段相同。
在这方面,由于声音数据的采样率与弹簧的固有频率之间的关系,可能不能选择如下两个时间点:所述两个时间点之间的时间差为一个周期。在这种情况下,可能出现错误,并且可以使用两种方法来纠正该错误。
第一种方法是选择相邻的样本,其示出与周期的较小差异。当给定样本的位置S1和音频数据的周期T时,第二样本的位置S2计算为[S1+采样率×T+0.5]。通过将两个点的时间信息和两个点处的振幅放入方程(14)来计算预期稳态振幅As
第二种方法使用线性回归分析。在提取了一些点处的振幅并将所提取的数据放入方程(15)之后,通过线性回归分析计算预期稳态振幅As
基于以上理论背景,可以提出如下用于提取输入声音的频率的方法。
参照图3,根据本公开内容的实施方式的用于提取输入声音的频率的方法可以包括以下步骤,该方法的每个步骤由计算机执行:
(a)对多个弹簧进行建模,所述多个弹簧具有彼此不同的固有频率并且根据输入声音振荡;
(b)估计弹簧的预期稳态振幅Ai,s,该弹簧的振幅Ai(t)在多个建模的弹簧之中最高;
(c)基于该预期稳态振幅Ai,s计算振幅最高的所述弹簧的能量Ei,s;以及
(d)基于所述能量Ei,s计算输入声音的振幅F0
步骤(a)可以包括以下步骤:测量多个弹簧中的每个弹簧在各时间点处的位移xi(t)和速度vi(t)(见方程1);基于位移和速度计算多个弹簧中的每个弹簧在每个时间点处的能量Ei(t)(见方程9);以及基于能量Ei(t)计算多个弹簧中的每个弹簧的振幅Ai(t)(参见等式10)。
步骤(b)可以用方程(14)计算。
在步骤(b)中,可以基于输入声音的持续时间内的两个不同时间点处的振幅来计算所述预期稳态振幅Ai,s(t)。
两个不同时间点之间的差可以是对应的弹簧的固有频率的周期。
当两个时间点中的一个为t1、输入声音的采样率为SR以及对应的弹簧的固有频率的周期为T时,两个时间点中的另一个t2可以借助于下面的方程来计算。
t2=[t1+SR×T+0.5]
可以基于要提取的频率的范围和分辨率来确定多个弹簧的数目N。
图4的(a)至图4的(b)是表示根据本公开内容的实施方式的实验结果的曲线图。
图4的(a)示出了通过将弹簧的能量E2000(t)放入方程(13)而获得的结果,该弹簧的固有频率在具有恒定振幅的频率为2kHz的纯音在0.2秒与0.8秒之间被输入的时间内为2kHz。该结果被称为瞬态纯音振幅。瞬态纯音振幅是在弹簧的能量不存在变化的假设下计算的输入纯音的振幅。随着时间的推移,弹簧的能量达到稳定状态。因此,如图4的(a)中所示,瞬态纯音振幅逐渐达到稳定状态,此时的振幅对应于输入纯音的振幅Fm(t)。此处,m指示弹簧的固有频率。
图4的(b)示出了输入纯音的振幅Fm(t),该振幅Fm(t)是通过将测量的弹簧的振幅放入方程(14)以获得弹簧的预期稳态振幅Am,s(t)并将结果应用于以上频率提取方法的步骤(c)和(d)而获得的。如图4的(b)中所示,从纯音的起始点开始提取输入纯音的振幅。
用于提取输入声音的频率和振幅的方法II
根据上述用于提取输入声音的频率和振幅的方法I,如果输入声音是纯音,则可以有效地提取输入声音的频率和振幅。
现在,假设存在构成复音
Figure BDA0003158973550000111
的n种类型的纯音。如果n=1,则可以通过在弹簧之中选择具有最大振幅的弹簧来找到给定声音的纯音。然而,如果n>1,则难以通过按振幅的顺序选择前n个弹簧来找出构成复音的纯音。
第一原因是,其频率与具有最大振幅的弹簧相邻的弹簧的振幅可能大于与构成复音的其他纯音共振的弹簧的振幅。第二原因是,如图2中0.8秒之后的轨迹所示,即使外力消失,也需要时间直到弹簧的振幅达到0,所以不再存在的声音的振幅可能大于其他纯音的振幅。
因此,在该实施方式中,不是在每个时间点处的弹簧振幅之中找到局部最大值,而是提出了从将预期稳态振幅与瞬态纯音振幅相乘的结果中找到局部最大值的方法。
1.预期稳态振幅和经过滤的纯音振幅
首先,为了提取构成复音的纯音,通过将方法I的步骤(a)应用于每个弹簧以提取输入声音的频率来计算每个弹簧Si的振幅Ai(t)。图5的(a)示出了当具有恒定振幅的、频率为1kHz的声音在200毫秒处开始时,作为在215毫秒处测量的结果,其固有频率约为1kHz的弹簧的振幅。图5的(a)示出了不共振的弹簧的振幅低于共振的弹簧的振幅。
接下来,通过将用于提取输入声音的频率的方法I的步骤(b)应用于每个弹簧Si的振幅Ai(t)来计算预期稳态振幅Ai,x(t)。然而,计算预期稳态振幅的方程(14)是从描述共振弹簧的行为的方程(7)导出的方程。因此,如在图5的(b)中,即使在远离谐振频率的频率处也可以产生高振幅。
因此,执行以下步骤。第三步骤是通过将弹簧Si的振幅Ai(t)放入方程(13)来计算瞬态纯音振幅Fi,t(t)。此外,通过将用于提取输入声音的频率的方法I的步骤(c)和(d)应用于预期稳态振幅Ai,s(t)来计算预测的纯音振幅Fi,s(t)。
如最后的步骤,通过将瞬态纯音振幅Fi,t(t)与预测的纯音振幅Fi,s(t)相乘——如在Fi,p(t)=Fi,t(t)×Fi(t)中——来计算经滤波的纯音振幅Fi,p(t)。另外,振幅的相乘的结果可以除以声音的最大振幅,以便不超过1而是被归一化。例如,如果声音被表示为16位整数,则结果除以32767。
经滤波的纯音振幅具有以下特征:1)当声音消失时,振幅变为0;以及2)频域中远离谐振频率的频率的振幅较低。
图5的(c)示出了作为图5的(a)和图5的(b)中的、关于相同频率的振幅相乘的结果的经滤波的纯音振幅。图5的(d)至图5的(f)分别示出了由具有1kHz的固有频率的弹簧获得的瞬态纯音振幅、预测纯音振幅和经滤波的纯音振幅。特别地示出了:在输入声音在0.8秒处消失之后,图5的(d)中的振幅保持不为零,但是图5的(e)和图5的(f)中的振幅变为零。图5的(g)至图5的(i)示出了具有1020Hz的固有频率的弹簧的结果。明显地,与图5的(f)的共振弹簧的经滤波的纯音振幅F1000,p(t)相比,经滤波的纯音振幅F1020,p(t)非常小。
2.从局部最大值中找到纯音
图6是示出由100Hz、250Hz、500Hz、1kHz和4kHz的五个纯音组成的复音的频率与经滤波的纯音振幅的曲线图。如图6中所示,如果构成复音的声音的频率间隔是宽的,则每个纯音频率在频率上的局部最大值之中产生局部最大值。利用这些特征,从通过使用经滤波的纯音振幅获得的频率与振幅曲线图中获得一些局部最大值。然后,再次获得那些一些局部最大值的局部最大值。最后,与局部最大值对应的频率被当作构成复音的纯音的频率。
但是,如果频率间隔是窄的,则在两个相邻的局部最大值之间可能不存在局部最大值。图7是由112Hz、181Hz、1034Hz、5017Hz和5034Hz的五个纯音组成的复音的频率与经滤波的纯音振幅的曲线图的一部分。该图表明,在由两个相邻的频率5017Hz和5034Hz产生的两个局部最大值之间不存在局部最大值。这种情况的特征是频率间隔窄并且两个经滤波的纯音振幅相似。因此,如果经滤波的纯音振幅中的两个相邻局部最大值之间的频率差在某个宽度(例如,高振幅频率的带宽)内并且那些经滤波的纯音振幅的比率等于或大于某个水平(例如,0.5),则这两个频率都被当成是构成复音的纯音的频率。
基于上述理论背景,提出了以下用于提取输入声音的频率的方法。
参照图8,根据本公开内容的实施方式的用于提取输入声音的频率的方法包括以下步骤,该方法的每个步骤由计算机执行:
(1)对多个弹簧进行建模,具有固有频率ωi的每个弹簧Si(1≤i≤N)彼此不同并且根据输入声音振荡;
(2)基于建模的弹簧的位移和速度来计算多个建模的弹簧Si在每个时间t处的瞬态纯音振幅{Fi,t(t)|1≤i≤N};
(3)计算多个建模的弹簧在每个时间t处的预期稳态振幅{Ai,s(t)|1≤i≤N};
(4)基于每个时间t处的预期稳态振幅{Ai,s(t)|1≤i≤N},计算预测的纯音振幅{Fi,s(t)|1≤i≤N};
(5)通过将每个弹簧Si的瞬态纯音振幅Fi,t(t)与预测的纯音振幅Fi,s(t)相乘,计算每个时间t处的经滤波的纯音振幅{Fi,p(t)|1≤i≤N};以及
(6)提取弹簧的固有频率,所述弹簧的固有频率的每个经滤波的纯音振幅是频率范围内的局部最大值。
步骤(1)可以包括以下步骤:测量多个弹簧中的每个弹簧在不同时间点处的位移xi(t)和速度vi(t)(见方程1);基于位移xi(t)和速度vi(t)计算多个弹簧中的每个弹簧在每个时间点处的能量Ei(t)(见方程9);以及基于能量Ei(t)计算多个弹簧中的每个弹簧在每个时间点处的振幅Ai(t)(见方程10)。
方程13可以用于步骤(2),方程14可以用于步骤(3),以及方程13可以用于步骤(4)。
多个弹簧的数目N可以基于要提取的频率的范围和分辨率来确定。
在步骤(3)中,可以基于在输入声音的持续时间内的两个时间点处的振幅来计算预期稳态振幅Ai,s(t)。
在步骤(3)中,可以借助于以下方程来计算预期稳态振幅Ai,s(t):
Figure BDA0003158973550000141
其中,t1和t2是输入声音的持续时间内的两个不同的时间点,t2>t1,Ai(t1)是多个弹簧之中的任意弹簧在t1处的振幅,Ai(t2)是所述弹簧在t2处的振幅,ζ是所述弹簧的阻尼比,以及ω满足方程
Figure BDA0003158973550000142
其中,ωi是所述弹簧的固有频率。
两个不同时间点之间的差可以是对应弹簧的固有频率的周期。
当两个时间点中的一个为t1、输入声音的采样率为SR以及对应弹簧的固有频率的周期为T时,两个时间点中的另一个t2通过以下等式计算。
t2=[t1+SR×T+0.5]
在下文中,将描述根据本实施方式的实验结果。为了示出根据本公开内容的DJ变换的性能,对DJ变换的结果与STFT的结果进行了比较。在DJ变换中,分别使用了7951个固有频率为从50Hz至8000Hz的弹簧。弹簧的频率间隔为1Hz。25毫秒的窗口被用于STFT。
DJ变换在具有3072个核和12GB内存的NVIDIA M40 GPU环境中执行,并使用CudaToolkit 8.0的C语言API实现。对1秒的音频数据进行DJ变换大约需要0.6秒。
图9的(a)至图9的(f)是示出STFT变换和DJ变换在频率分辨率方面的结果的图。在图9的(a)至图9的(f)中,第一行示出了STFT的结果,第二行示出了输入声音的频率,以及第三行示出了根据本公开内容的实施方式的DJ变换的结果。
如图9的(a)至图9的(f)所示,STFT结果的频率分辨率为40Hz。此外,当纯音的频率为400Hz、408Hz和416Hz时,在400Hz处输出峰值,以及当纯音的频率为424Hz、432Hz和440Hz时,在440Hz处输出峰值。然而,DJ变换结果与纯音的所有频率相匹配。这意味着DJ变换结果的频率分辨率为1Hz。
进行了三个实验来比较DJ变换和STFT在时间分辨率方面的结果。
第一实验是检查在输入频率改变的时间点处提取的频率。图10的(a)示出了当1kHz纯音已经被输入500毫秒并且2kHz纯音正好在500毫秒之后被输入时通过DJ变换的提取的频率的结果,图10的(b)示出了当2kHz纯音已经被输入500毫秒并且1kHz纯音正好在500毫秒之后被输入时通过DJ变换的提取的频率的结果,图10的(c)示出了当4kHz纯音已经被输入500毫秒并且2kHz纯音正好在500毫秒之后被输入时通过DJ变换的提取的频率的结果,以及图10的(d)示出了当2kHz纯音已经被输入500毫秒并且4kHz纯音正好在500毫秒之后被输入时通过DJ变换的提取的频率的结果。明显地,图10的(a)至图10的(d)示出了两个频率之间的边界在500毫秒处。具体地,直至500毫秒,输入纯音的1kHz、2kHz、4kHz和2kHz的频率被清楚地显示,并且紧接500毫秒之后,经改变的纯音的2kHz、1kHz、2kHz和4kHz的频率被显示为仅具有大约10%的误差。然而,在图11的(a)至图11的(d)所示的STFT结果中,在500毫秒的边界上同时提取两个频率。
第二实验是从快速出现和消失的声音中提取频率。图12的(a)至图12的(c)的第一行示出了当1kHz纯音在从200毫秒到800毫秒中被生成达5毫秒并且在下一个5毫秒静默(当闪烁信号被重复输入时)时的频率提取结果。第二行示出了从200毫秒到800毫秒连续输入1kHz纯音(当连续信号被输入时)的结果。图12的(a)是关于输入声音随时间的频率分量,图12的(b)是关于DJ变换结果,以及图12的(c)是关于STFT结果。
在示出DJ变换的结果的图12的(b)中,重复的闪烁信号导致虚线,而连续的信号导致实线,由此两种信号被明显地区分。另一方面,图12的(c)中所示的STFT的结果在1kHz处示出了实线,因此,闪烁信号与连续信号之间的区别并不清楚。
图12的(b)中的上图在1.1kHz和0.9kHz处示出了相对较弱的虚线。由于每10毫秒周期的重复的输入,这些线被解释为100Hz信号的结果。另一方面,在STFT结果中,当观察图12的(c)中的上图时,实线出现在0.88kHz、0.92kHz、0.96kHz、1.04kHz、1.08kHz和1.12kHz处。据推测,STFT结果出现的原因是因为0.9kHz和1.1kHz频率分量由100Hz信号生成,并且由于STFT的40Hz频率分辨率而导致这些分量由40Hz间隔表示。
第三实验是第二实验的扩展,第三实验示出了当1kHz和2kHz纯音在从200毫秒到800毫秒内被交替生成达5毫秒时频率提取的结果(图13的(a)至图13的(c))。图13的(b)示出:DJ变换产生以5毫秒为单位明显分开的1kHz纯音和2kHz纯音。另一方面,如图13的(c)所示,当使用STFT时,纯音之间的边界是不可区分的。
图14的(a)至图14的(c)的第一行示出了当输入420Hz纯音时的输入波形、DJ变换的结果和STFT的结果,以及第二行示出了当由400Hz和440Hz组成的复音被输入时的输入波形、DJ变换结果和STFT结果。图14的(a)示出了输入波形,以及图14的(b)和图14的(c)分别示出了DJ变换结果和STFT结果。
如在图14的(b)和图14的(c)中可见,DJ变换从纯音中提取420Hz的频率,并且从复音中提取400Hz和440Hz的频率。另一方面,使用STFT从纯音和复音两者中提取的结果之间几乎没有差异。
如图14的(a)的底部图所示,由于复音由400Hz和440Hz组成,所以振幅在40Hz周期内波动。另一方面,如图14的(b)的底部图所示,DJ变换很好地反映了振幅波动的特征。
图15示出了根据本公开内容的实施方式的用于提取输入声音的频率的设备。
根据本公开内容的实施方式的用于提取输入声音的频率的设备100可以包括弹簧建模单元110和频率提取单元120。
弹簧建模单元110使用方程(1)、(9)和(10)来计算多个弹簧的位移和速度。弹簧建模单元110可以包括与多个弹簧的数目对应的线程,并且每个线程可以对应于每个弹簧。
频率提取单元120基于由弹簧建模单元110计算的位移和速度,根据用于提取输入声音的频率的方法I的步骤(b)至(d)提取频率。或者,频率提取单元120基于由弹簧建模单元110计算的位移和速度,根据用于提取输入声音的频率的方法II的步骤(2)至(6)提取频率。
虽然已经通过优选实施方式详细描述了本公开内容,但是本公开内容不限于此,并且在不偏离本公开内容的技术精神的情况下可以进行各种改变和应用,这对于本领域技术人员来说是明显的。因此,本公开内容的保护的范围应当由所附权利要求来解释,并且与其等效的范围内的所有技术思想应当被解释为包括在本公开内容的范围内。

Claims (17)

1.一种用于提取输入声音的频率的方法,所述方法的每个步骤由计算机执行,所述方法包括以下步骤:
对多个弹簧进行建模,所述多个弹簧具有彼此不同的固有频率并根据输入声音振荡;
计算多个建模的弹簧的瞬态纯音振幅;
计算所述多个模拟的弹簧的预期稳态振幅;
基于所述预期稳态振幅来计算预测的纯音振幅;
通过将所述瞬态纯音振幅与所述预测的纯音振幅相乘来计算经滤波的纯音振幅;以及
提取所述弹簧的所述固有频率,所述弹簧的所述固有频率与所述经滤波的纯音振幅之中的局部最大值对应。
2.根据权利要求1所述的方法,其中,所述预期稳态振幅基于所述输入声音的持续时间内的至少两个时间点处的振幅来计算。
3.根据权利要求1所述的方法,其中,所述预期稳态振幅(Ai,s)通过以下方程计算:
Figure FDA0003158973540000011
其中,t1和t2是所述输入声音的持续时间内的两个不同的时间点,t2>t1
Ai(t1)是所述多个弹簧之中的任意弹簧在t1处的振幅,
Ai(t2)是所述弹簧在t2处的振幅,
ζ是所述弹簧的阻尼比,以及
ω满足方程
Figure FDA0003158973540000012
其中,ωi是所述弹簧的所述固有频率。
4.根据权利要求2所述的方法,其中,所述两个不同的时间点之间的差是对应的弹簧的所述固有频率的周期。
5.根据权利要求2所述的方法,其中,如果所述两个时间点中的一个是t1,所述输入声音的采样率是SR并且对应的弹簧的所述固有频率的周期是T,则所述两个时间点中的另一个t2通过以下等式计算:
t2=[t1+SR×T+0.5]。
6.根据权利要求2所述的方法,其中,通过将所述输入声音的持续时间内的至少两个点处的振幅代入以下方程并使用线性回归分析来计算所述预期稳态振幅:
Figure FDA0003158973540000021
其中,A(t)是所述多个弹簧之中的任意弹簧在t处的振幅,
As是所述弹簧的预期稳态振幅,
Ac是所述弹簧在tc处的振幅,
ζ是所述弹簧的阻尼比,以及
ω满足方程
Figure FDA0003158973540000022
其中,ωi是所述弹簧的所述固有频率。
7.根据权利要求1所述的方法,其中,所述建模步骤包括以下步骤:
测量所述多个弹簧中的每个弹簧在时间点处的位移和速度;
基于所述位移和所述速度计算所述多个弹簧中的每个弹簧在每个时间点处的能量;以及
基于所述能量计算所述多个弹簧中的每个弹簧在每个时间点处的振幅。
8.根据权利要求1所述的方法,其中,所述多个弹簧的数目基于要提取的频率的范围和分辨率来确定。
9.一种计算机可读记录介质,其上记录了根据权利要求1所述的用于提取输入声音的频率的方法。
10.一种用于提取声音的频率的设备,包括:
弹簧建模单元,其用于通过对具有彼此不同的固有频率并根据输入声音振荡的多个弹簧进行建模来产生所述多个弹簧的位移和速度;以及
频率提取单元,其用于计算多个建模的弹簧的瞬态纯音振幅,计算所述多个建模的弹簧的预期稳态振幅,基于所述预期稳态振幅来计算预测的纯音振幅,通过将所述瞬态纯音振幅与所述预测的纯音振幅相乘来计算经滤波的纯音振幅,以及提取所述弹簧的所述固有频率,所述弹簧的所述固有频率与所述经滤波的纯音振幅之中的局部最大值对应。
11.一种用于提取输入声音的频率的方法,所述方法的每个步骤由计算机执行,所述方法包括以下步骤:
对多个弹簧进行建模,所述多个弹簧具有彼此不同的固有频率并根据输入声音振荡;
估计在多个建模的弹簧之中振幅最高的弹簧的预期稳态振幅;
基于所述预期稳态振幅来计算振幅最高的弹簧的能量;以及
基于所述能量计算输入纯音的振幅。
12.根据权利要求11所述的方法,其中,所述预期稳态振幅(Ai,s)通过以下方程计算:
Figure FDA0003158973540000031
在所述方程中,t1和t2是输入声音的持续时间内满足t2>t1的两个时间点,
Ai(t1)是在频率范围内振幅最高的弹簧在t1处的振幅,
Ai(t2)是在频率范围内振幅最高的弹簧在t2处的振幅,
ζ是所述弹簧的阻尼比,以及
ω满足方程
Figure FDA0003158973540000032
其中,ωi是振幅最高的所述弹簧的所述固有频率。
13.根据权利要求11所述的方法,其中,所述建模步骤包括以下步骤:
测量所述多个弹簧中的每个弹簧在每个时间点处的位移和速度;
基于所述位移和所述速度计算所述多个弹簧中的每个弹簧在每个时间点处的能量;以及
基于所述能量计算所述多个弹簧中的每个弹簧在每个时间点处的振幅。
14.一种计算机可读记录介质,其上记录了根据权利要求11所述的用于提取输入声音的频率的方法。
15.一种用于提取输入声音的频率的设备,包括:
弹簧建模单元,其用于通过对具有彼此不同的固有频率并根据输入声音振荡的多个弹簧进行建模来产生所述多个弹簧的位移和速度;以及
频率提取单元,其用于估计在多个建模的弹簧之中振幅最高的弹簧的预期稳态振幅,基于所述预期稳态振幅计算振幅最高的弹簧的能量,以及基于所述能量计算输入纯音振幅。
16.一种由计算机执行的用于提取输入声音的频率的方法,其中:
当所述输入声音的频率在时间的特定点之前维持第一频率并在转折点处变成第二频率时,
所述特定点之前的频率变换的结果指示所述第一频率,以及
紧接在所述转折点之后,所变换的值的瞬时误差在所述第二频率的10%以内。
17.根据权利要求16所述的方法,其中,所述方法包括以下步骤:
对多个弹簧进行建模,所述多个弹簧具有彼此不同的固有频率并根据输入声音振荡;
计算多个建模的弹簧的瞬态纯音振幅;
计算所述多个建模的弹簧的预期稳态振幅;
基于所述预期稳态振幅计算预测的纯音振幅;
通过将所述瞬态纯音振幅与所述预测的纯音振幅相乘来计算经滤波的纯音振幅;以及
提取所述弹簧的所述固有频率,所述弹簧的所述固有频率与所述经滤波的纯音振幅之中的局部最大值对应。
CN201980088800.4A 2019-01-11 2019-11-26 使用dj变换的频率提取方法 Pending CN113316816A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
KR10-2019-0003620 2019-01-11
KR1020190003620A KR102277952B1 (ko) 2019-01-11 2019-01-11 디제이 변환에 의한 주파수 추출 방법
PCT/KR2019/016347 WO2020145509A2 (ko) 2019-01-11 2019-11-26 디제이 변환에 의한 주파수 추출 방법

Publications (1)

Publication Number Publication Date
CN113316816A true CN113316816A (zh) 2021-08-27

Family

ID=71520805

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201980088800.4A Pending CN113316816A (zh) 2019-01-11 2019-11-26 使用dj变换的频率提取方法

Country Status (4)

Country Link
US (1) US20210183403A1 (zh)
KR (1) KR102277952B1 (zh)
CN (1) CN113316816A (zh)
WO (1) WO2020145509A2 (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102382208B1 (ko) * 2020-07-21 2022-04-04 브레인소프트주식회사 복합음을 구성하는 순음의 추출 방법
WO2023008831A1 (ko) * 2021-07-27 2023-02-02 브레인소프트 주식회사 해석적 방법에 기반한 디제이 변환 주파수 추출 방법

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002514457A (ja) * 1998-05-13 2002-05-21 ハウス・イアー・インスティテュート 積み重ね式誘導帯域abr振幅を使用する聴神経腫瘍検出
KR20090012154A (ko) * 2007-07-25 2009-02-02 큐엔엑스 소프트웨어 시스템즈 (웨이브마커스) 인코포레이티드 통합적 순음 감소 방식의 노이즈 감소 방법
CN102292235A (zh) * 2009-01-22 2011-12-21 株式会社明电舍 接触力测量装置和接触力测量方法
US20120008799A1 (en) * 2009-04-03 2012-01-12 Sascha Disch Apparatus and method for determining a plurality of local center of gravity frequencies of a spectrum of an audio signal
JP2012181320A (ja) * 2011-03-01 2012-09-20 Nippon Telegr & Teleph Corp <Ntt> 基本周波数モデルパラメータ推定装置、方法、及びプログラム
US20140062567A1 (en) * 2011-10-26 2014-03-06 Richard L. Waters Auto-Ranging for Time Domain Extraction of Perturbations to Sinusoidal Oscillation
CN105264598A (zh) * 2013-05-29 2016-01-20 高通股份有限公司 声场的经分解表示中的误差的补偿
JP2017042232A (ja) * 2015-08-24 2017-03-02 スター精密株式会社 生体音測定システムにおける測定データの校正方法
CN107851444A (zh) * 2015-07-24 2018-03-27 声音对象技术股份有限公司 用于将声学信号分解为声音对象的方法和系统、声音对象及其使用

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6993480B1 (en) * 1998-11-03 2006-01-31 Srs Labs, Inc. Voice intelligibility enhancement system
US7828192B2 (en) * 2005-01-03 2010-11-09 3M Innovative Properties Company Amplitude adjustment of an ultrasonic horn
US8065140B2 (en) * 2007-08-30 2011-11-22 Texas Instruments Incorporated Method and system for determining predominant fundamental frequency
AU2010292140B2 (en) * 2009-09-11 2013-07-11 Med-El Elektromedizinische Geraete Gmbh Low pulse rate cochlear implant stimulation in conjunction with a separate representation of fundamental frequencies and voiced/unvoiced distinctions
EP2992605B1 (en) * 2013-04-29 2017-06-07 Dolby Laboratories Licensing Corporation Frequency band compression with dynamic thresholds
US10755726B2 (en) * 2015-01-07 2020-08-25 Google Llc Detection and suppression of keyboard transient noise in audio streams with auxiliary keybed microphone
KR101754634B1 (ko) * 2015-05-12 2017-07-07 주식회사 신성씨앤티 2자유도 감지 모드를 갖는 멤스 자이로스코프
US10360895B2 (en) * 2017-12-21 2019-07-23 Bose Corporation Dynamic sound adjustment based on noise floor estimate
US11270721B2 (en) * 2018-05-21 2022-03-08 Plantronics, Inc. Systems and methods of pre-processing of speech signals for improved speech recognition

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002514457A (ja) * 1998-05-13 2002-05-21 ハウス・イアー・インスティテュート 積み重ね式誘導帯域abr振幅を使用する聴神経腫瘍検出
KR20090012154A (ko) * 2007-07-25 2009-02-02 큐엔엑스 소프트웨어 시스템즈 (웨이브마커스) 인코포레이티드 통합적 순음 감소 방식의 노이즈 감소 방법
CN102292235A (zh) * 2009-01-22 2011-12-21 株式会社明电舍 接触力测量装置和接触力测量方法
US20120008799A1 (en) * 2009-04-03 2012-01-12 Sascha Disch Apparatus and method for determining a plurality of local center of gravity frequencies of a spectrum of an audio signal
JP2012181320A (ja) * 2011-03-01 2012-09-20 Nippon Telegr & Teleph Corp <Ntt> 基本周波数モデルパラメータ推定装置、方法、及びプログラム
US20140062567A1 (en) * 2011-10-26 2014-03-06 Richard L. Waters Auto-Ranging for Time Domain Extraction of Perturbations to Sinusoidal Oscillation
CN105264598A (zh) * 2013-05-29 2016-01-20 高通股份有限公司 声场的经分解表示中的误差的补偿
CN107851444A (zh) * 2015-07-24 2018-03-27 声音对象技术股份有限公司 用于将声学信号分解为声音对象的方法和系统、声音对象及其使用
JP2017042232A (ja) * 2015-08-24 2017-03-02 スター精密株式会社 生体音測定システムにおける測定データの校正方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
TEODORESCU, H.N.: "Physiological measurements and devices in digital sound", 《TELEVISION MEASUREMENTS (BROADCASTING AND DISTRIBUTION). THIRD INTERNATIONAL CONFERENCE》 *
邓军: "耳声发射信号快速检测方法研究", 《中国优秀硕士学位论文全文数据库信息科技辑》 *

Also Published As

Publication number Publication date
US20210183403A1 (en) 2021-06-17
KR102277952B1 (ko) 2021-07-19
KR20200087402A (ko) 2020-07-21
WO2020145509A3 (ko) 2020-09-24
WO2020145509A2 (ko) 2020-07-16

Similar Documents

Publication Publication Date Title
JP6335390B2 (ja) 仮想多相流計測および砂検出
EP1228502B1 (en) Methods and apparatuses for signal analysis
Sreenivasan Transition and turbulence in fluid flows and low-dimensional chaos
JP7048619B2 (ja) 共振器を利用した話者認識方法及びその装置
CN113316816A (zh) 使用dj变换的频率提取方法
US8822804B1 (en) Digital aerophones and dynamic impulse response systems
Johnson et al. Time-domain isolated phoneme classification using reconstructed phase spaces
US11574646B2 (en) Fundamental frequency extraction method using DJ transform
Olson et al. Aid to Music Composition Employing a Random‐Probability System
CN101194304A (zh) 用于确定声音发生周期的音频信号处理装置和音频信号处理方法
Linke et al. Describing minimum bow force using Impulse Pattern Formulation (IPF)–an empirical validation
US20230410821A1 (en) Sound processing method and device using dj transform
KR102382208B1 (ko) 복합음을 구성하는 순음의 추출 방법
KR20230044574A (ko) 디제이변환을 통해 획득한 기본주파수를 이용한 데이터 증강법
Vydana et al. Detection of fricatives using S-transform
Singh et al. Efficient pitch detection algorithms for pitched musical instrument sounds: A comparative performance evaluation
CN108830232A (zh) 一种基于多尺度非线性能量算子的语音信号周期分割方法
Qaisar et al. Automatic Speech Recognition and its Visual Perception Via a Cymatics Based Display
Lukkari et al. Modal synthesis of wind chime sounds with stochastic event triggering
Weber et al. Modeling noisy resonant system response
Terrien et al. To what extent can a linear analysis predict the behaviour of a flute model?
Okada et al. Acoustic measurements of the infinitesimal phase response curve from a sounding organ pipe
Qadri et al. Comparative Analysis of Gender Identification using Speech Analysis and Higher Order Statistics
Deepawale et al. Energy estimation between adjacent formant frequencies to identify speaker's gender
Crisan New aspects of phoneme synthesis based on chaotic modeling

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination