CN105280178A

CN105280178A - 声音信号处理装置及其声音信号处理方法

Info

Publication number: CN105280178A
Application number: CN201410552766.0A
Authority: CN
Inventors: 黄柄凯; 陈建璋; 林哲毅; 朱柏聿
Original assignee: Arc Co ltd
Current assignee: Arc Co ltd
Priority date: 2014-07-04
Filing date: 2014-10-17
Publication date: 2016-01-27
Also published as: TW201602999A; TWI569257B; US20160005415A1

Abstract

本发明提供一种声音信号处理装置及其声音信号处理方法。该声音信号处理装置用以接收一声音信号及分割该声音信号为多个帧。该声音信号处理装置还用以对该等帧分别进行傅立叶转换以取得多个声音频谱。该声音信号处理装置还用以在该等声音频谱中将对应至各个声音频率的多个成分组合分别进行傅立叶转换以取得一二维联合频率频谱，其中该二维联合频率频谱包含一声音频率维度及一调制频率维度。该声音信号处理装置还用以根据该二维联合频率频谱计算该声音信号的至少一特征。

Description

声音信号处理装置及其声音信号处理方法

技术领域

本发明关于一种处理装置及其处理方法。更具体而言，本发明关于一种声音信号处理装置及其声音信号处理方法。

背景技术

随着数字音乐在网络及个人装置上的快速发展，如何管理收集到的大量音乐已变得非常重要。为了管理收集到的大量音乐，经常需要附加各种信息至各个音乐。可附加的信息例如有演唱者、唱片、音乐名称等等。然而，这些传统附加的信息并无法满足某些特殊应用，例如音乐治疗。取而代之，这些附加信息应还包含能够描述音乐内容的音乐类型(musicgenre)及/或能够描述音乐的本质情感的音乐情境(musicmood)。

为了满足各种特殊应用，音乐势必需要被系统地进行归类、辨识、调谐；为此，许多声音信号处理技术已被开发出来。当从一声音信号中所获取出的特征越精确，则针对该声音信号所进行的归类、辨识、调谐等后续处理将越适当。因此，对各种声音信号处理技术而言，如何有效地获取出一声音信号的特征乃为其首要考量。

有鉴于此，提供一种能够有效地获取出声音信号特征的技术，确为本发明所属技术领域的一项重大需求。

发明内容

本发明提供一种声音信号处理装置及其声音信号处理方法，本发明的主要目的在于提供一种能够有效地获取出声音信号特征的技术。

为达上述目的，本发明提供一种声音信号处理装置，该声音信号处理装置包含一接收器及一电性连接至该接收器的处理器。该接收器用以接收一声音信号。该处理器用以：分割该声音信号为多个帧；对该等帧分别进行傅立叶转换以取得多个声音频谱；在该等声音频谱中将对应至各个声音频率的多个成分组合分别进行傅立叶转换以取得一二维联合频率频谱，其中该二维联合频率频谱包含一声音频率维度及一调制频率维度；以及根据该二维联合频率频谱计算该声音信号的至少一特征。

为达上述目的，本发明提供一种用于一声音信号处理装置的声音信号处理方法，该声音信号处理装置包含一接收器及一处理器，该声音信号处理方法包含下列步骤：

使该接收器接收一声音信号；

使该处理器分割该声音信号为多个帧；

使该处理器对该等帧分别进行傅立叶转换以取得多个声音频谱；

使该处理器在该等声音频谱中将对应至各个声音频率的多个成分组合分别进行傅立叶转换以取得一二维联合频率频谱，其中该二维联合频率频谱具有一声音频率维度及一调制频率维度；以及

使该处理器根据该二维联合频率频谱计算该声音信号的至少一特征。

综上所述，本发明提供了一种声音信号处理装置及其声音信号处理方法。该声音信号处理装置及其声音信号处理方法可针对一声音信号计算一二维联合频率频谱，并根据该二维联合频率频谱计算该声音信号的特征。由于该二维联合频率频谱乃是在多个声音频谱中将对应至各个声音频率的多个成分组合分别进行傅立叶转换而得，故根据该二维联合频率频谱所计算的特征，不但包含了各短期(short-term)内的频率组合，也考虑到该声音信号的各个帧之间的交互影响。因此，相对于传统声音信号处理技术对该声音信号所计算的特征，根据该二维联合频率频谱所计算的特征更能代表该声音信号。

在参阅附图及随后描述的实施方式后，本发明所属技术领域技术人员便可了解本发明的其他目的、本发明的技术手段及部分实施例。

附图说明

以下是针对本发明附图所记载的简单说明，并非用以限定本发明，其中：

图1为本发明的一实施例的声音信号处理装置的一结构示意图；

图2A-2C为本发明的一实施例的声音信号处理装置的一处理器的一运作示意图；

图3为本发明的一实施例的一用于一声音信号处理装置的声音信号处理方法的一流程图。

附图标记说明：

1：声音信号处理装置；

11：接收器；

13：处理器；

20：声音信号；

A1～An：信号振幅；

B1～Bn：信号强度；

C1～Cm：信号强度；

F1～Fm：声音频谱；

f1～fn：声音频率；

P1～Pn：成分组合；

Q1～Qn：调制频谱；

S21、S23、S25、S27、S29：步骤；

T1～Tm：帧；

ω1～ωm：调制频率。

具体实施方式

以下将通过各种实施例来解释本发明的内容，惟以下实施例并非用以限制本发明须在如其所述的环境、应用、结构、流程或步骤方能实施。以下实施例的说明仅为阐释本发明，而非用以限制本发明。以下实施例及附图中，与本发明非直接相关的元件皆已省略而未示出，且附图中各元件间的尺寸关系仅为求容易表示，非用以限制实际实施的比例。

本发明的一实施例(简称「第一实施例」)为一种声音信号处理装置。图1为本发明的一实施例的声音信号处理装置的一结构示意图。如图1所示，一声音信号处理装置1包含一接收器11及一处理器13。接收器11与处理器13之间可直接或间接地电性连接，并可相互通信与交换信息。声音信号处理装置1可以是但不限于：一台式电脑、一智能手机、一平板电脑、一笔记本电脑等装置。接收器11可包含各种声音信号接收接口，并用以接收一声音信号20(包含一声音信号或多个声音信号)，以及可包含与处理器13通信的各种接口，用以传送声音信号20至处理器13。声音信号20可为一不特定时间长度的声音信号。

在处理器13接收到声音信号20后，可用以执行下列操作：分割声音信号20为多个帧；对该等帧分别进行傅立叶转换以取得多个声音频谱；在该等声音频谱中将对应至各个声音频率的多个成分组合分别进行傅立叶转换以取得一二维联合频率频谱，其中该二维联合频率频谱具有一声音频率维度及一调制频率维度；以及根据该二维联合频率频谱计算声音信号20的至少一特征。以下将结合图2A、图2B及图2C为一范例，进一步说明处理器13的运作。

图2A-2C为本发明的一实施例的声音信号处理装置的一处理器的一运作示意图。如图2A所示，在接收到声音信号20后，处理器13可分割声音信号20为多个帧。举例而言，处理器13可据不同需求分割声音信号20为m个帧，即帧T1、帧T2、帧T3、…、帧Tm(简称「T1～Tm」)，其中m为正整数。为了易于说明，各个帧T1～Tm可用一向量来表示。以图2A所示帧T2为例，其向量表示即为对应至不同时间t1、t2、t3、t4、t5、t6、…、tn(简称「t1～tn」)的信号振幅A1、A2、A3、A4、A5、A6、…、An(简称「A1～An」)，其中n为正整数。

处理器13可对各个帧分别进行傅立叶转换(FourierTransform)以取得多个相对应的声音频谱(acousticspectra)。举例而言，处理器13可对帧T1～Tm分别进行傅立叶转换，以取得声音频谱F1、声音频谱F2、声音频谱F3、声音频谱F4、声音频谱F5、声音频谱F6、…、声音频谱Fm(简称「F1～Fm」)。为了易于说明，各个声音频谱F1～Fm可用一向量来表示。以图2A所示声音频谱F2为例，其向量表示即为对应至不同声音频率f1、f2、f3、f4、f5、f6、…、fn(简称「f1～fn」)的信号强度B1、B2、B3、B4、B5、B6、…、Bn(简称「B1～Bn」)，其中n为正整数。本实施例所述的傅立叶转换可视为快速傅立叶转换(FastFourierTransform)，惟此并非用以限定本发明。

如图2B所示，经由傅立叶转换，该等帧T1～Tm乃分别对应至该等声音频谱F1～Fm。在该等声音频谱F1～Fm中，对应至相同频率的成分(components)分布在该等帧T1～Tm内。为了易于说明，分布在该等帧T1～Tm内的对应至各个频率的这些成分将被称为一成分组合，且用一向量来表示。详言之，分布在该等帧T1～Tm内的对应至频率f1～fn的成分组合可依序表示为成分组合P1、成分组合P2、成分组合P3、成分组合P4、成分组合P5、成分组合P6、…、成分组合Pn(简称「P1～Pn」)。

处理器13可对成分组合P1～Pn再次分别进行傅立叶转换，以取得多个调制频谱Q1～Qn(modulationspectra)。为了易于说明，各个调制频谱Q1～Qn可用一向量来表示。以图2B所示调制频谱Q2为例，其向量表示即为对应至不同调制频率ω1、ω2、ω3、ω4、ω5、ω6、…、ωm(简称「ω1～ωm」)的信号强度C1、C2、C3、C4、C5、C6、…、Cm(简称「C1～Cm」)，其中m为正整数。

经由上述操作，处理器13可取得如图2C所示的具有一声音频率维度及一调制频率维度的二维联合频率频谱(two-dimensionaljointfrequencyspectrum)24。然后，处理器13可根据二维联合频率频谱24计算声音信号20的至少一特征。于其他实施例，为了在不同的音乐节拍速率(musicalbeatrates)上分析谐波(或非谐波)的强度，处理器13还可沿着该声音频率维度分解该二维联合频率频谱24为八度子频带(octave-basedsubbands)，以及沿着该调制频率维度分解该二维联合频率频谱24为对数间隔调制子频带(logarithmicallyspacedmodulationsubbands)；然后，根据该八度子频带及该对数间隔调制子频带计算声音信号20的至少一特征。因八度子频带以及对数间隔调制子频带的计算方式及其效果已为本技术领域技术人员所公知，于此不多赘述。

处理器13根据二维联合频率频谱24计算声音信号20的特征可包含但不限于：一声音-调制频谱峰值(acoustic-modulationspectralpeak，简称AMSP)、一声音-调制频谱峰谷(acoustic-modulationspectralvalley，简称AMSV)、一声音-调制频谱对比(acoustic-modulationspectralcontrast，简称AMSC)、一声音-调制平滑测量(acoustic-modulationspectralflatnessmeasure，简称AMSFM)及一声音-调制峰值测量(acoustic-modulationspectralcrestmeasure，简称AMSCM)。

进一步言，处理器13可根据下式计算该声音-调制频谱峰值及该声音-调制频谱峰谷：

AMSP (a, b) = \log (\frac{1}{α N_{a, b}} Σ_{i = 1}^{α N_{a, b}} S_{a, b} [i])

AMSV (a, b) = \log (\frac{1}{α N_{a, b}} Σ_{i = 1}^{α N_{a, b}} S_{a, b} [N_{a, b} - i + 1]) - - - (1)

其中，S_a,b[i]为对应至第a个声音子频带(及声音频率f1～fn中的第a个)及第b个调制子频带(及调制频率ω1～ωm中的第b个)的强度频谱矩阵中的第i个元素，N_a,b为S_a,b内的元素总数，α为一邻近参数。可选择地，α可设定为大于等于1且小于等于8。

处理器13可根据下式计算该声音-调制频谱对比：

AMSC(a,b)＝AMSP(a,b)-AMSV(a,b)(2)。

处理器13可根据下式计算该声音-调制平滑测量：

AMSFM (a, b) = \frac{N_{a, b} \sqrt{Π_{i = 1}^{N_{a, b}} B_{a, b} [i]}}{\frac{1}{N_{a, b}} Σ_{i = 1}^{N_{a, b}} B_{a, b} [i]} - - - (3)

其中，B_a,b[i]为对应至第a个声音子频带(及声音频率f1～fn中的第a个)及第b个调制子频带(及调制频率ω1～ωm中的第b个)的强度频谱矩阵中之的i个元素，N_a,b为B_a,b内的元素总数。

处理器13可根据下式计算该声音-调制峰值测量：

AMSCM (a, b) = \frac{\max_{i = 1, . . ., N_{a, b}} (B_{a, b} [i])}{\frac{1}{N_{a, b}} Σ_{i = 1}^{N_{a, b}} B_{a, b} [i]} - - - (4)

其中，B_a,b[i]为对应至第a个声音子频带(及声音频率f1～fn中的第a个)及第b个调制子频带(及调制频率ω1～ωm中的第b个)的强度频谱矩阵中的第i个元素，N_a,b为B_a,b内的元素总数。

在处理器13根据二维联合频率频谱24计算声音信号20的上述特征或其他特征之后，处理器13可根据计算出来的特征来对声音信号20进行归类、辨识、调谐等后续处理。举例而言，处理器13可根据计算出来的特征辨识声音信号20的曲风，并为声音信号20的曲风提供一组均衡器参数，然后根据该组均衡器参数调谐声音信号20。

于其他实施例，音乐处理装置1还可包含一存有各种曲风信息的曲风数据库。处理器13可根据该曲风数据库所提供的曲风信息辨识声音信号20得知声音信号20所对应的曲风。具体而言，处理器13可根据二维联合频率频谱24计算出声音信号20的特征，然后根据该曲风数据库所提供的曲风信息判断声音信号20的特征属于何种曲风。在得知声音信号20所对应的曲风后，处理器13可根据各种均衡器技术，自动为该曲风提供一组均衡器参数，并根据该组均衡器参数调谐声音信号20。

本发明的另一实施例(简称「第二实施例」)为一种用于一声音信号处理装置的声音信号处理方法，其中该声音信号处理装置可包含至少一接收器及一处理器。举例而言，第二实施例可为一种用于第一实施例的声音信号处理装置1的声音信号处理方法。图3为本发明的一实施例的用于一声音信号处理装置的声音信号处理方法的一流程图。如图3所示，第二实施例的声音信号处理方法包含：步骤S21，使该接收器接收一声音信号；步骤S23，使该处理器分割该声音信号为多个帧；步骤S25，使该处理器对该等帧分别进行傅立叶转换以取得多个声音频谱；步骤S27，使该处理器在该等声音频谱中将对应至各个声音频率的多个成分组合分别进行傅立叶转换以取得一二维联合频率频谱，其中该二维联合频率频谱具有一声音频率维度及一调制频率维度；以及步骤S29，使该处理器根据该二维联合频率频谱计算该声音信号的至少一特征。

在其他实施例中，本实施例的声音信号处理方法还包含以下步骤：使该处理器沿着该声音频率维度分解该二维联合频率频谱为八度子频带；以及使该处理器沿着该调制频率维度分解该二维联合频率频谱为对数间隔调制子频带。

在其他实施例中，该声音信号的至少一特征包含一声音-调制频谱峰值及一声音-调制频谱峰谷，且该处理器根据上述方程式(1)计算该声音-调制频谱峰值及该声音-调制频谱峰谷。

在其他实施例中，该声音信号的至少一特征还包含一声音-调制频谱对比，且该处理器根据上述方程式(2)计算该声音-调制频谱对比。

在其他实施例中，该声音信号的至少一特征包含一声音-调制平滑测量，且该处理器根据上述方程式(3)计算该声音-调制平滑测量。

在其他实施例中，该声音信号的至少一特征包含一声音-调制峰值测量，且该处理器根据上述方程式(4)计算该声音-调制峰值测量。

在其他实施例中，本实施例的声音信号处理方法还包含下列步骤：使该处理器根据该至少一特征辨识该声音信号的曲风；使该处理器为该曲风提供一组均衡器参数；以及使该处理器根据该组均衡器参数调谐该声音信号。

除了上述提及的各项步骤之外，第二实施例的声音信号处理方法也包含对应至第一实施例的声音信号处理装置1的所有操作的步骤。因本技术领域技术人员可根据第一实施例的上述公开内容而直接了解未记载于第二实施例的声音信号处理方法的相对应步骤，于此不再赘述。

综上所述，本发明提供了一种声音信号处理装置及其声音信号处理方法。该声音信号处理装置及其声音信号处理方法可针对一声音信号计算一二维联合频率频谱，并根据该二维联合频率频谱计算该声音信号的特征。由于该二维联合频率频谱乃是在多个声音频谱中将对应至各个声音频率的多个成分组合分别进行傅立叶转换而得，故根据该二维联合频率频谱所计算的特征，不但包含了各短期内的频率组合，也考虑到该声音信号的各个帧之间的交互影响。因此，相对于传统声音信号处理技术对该声音信号所计算的特征，根据该二维联合频率频谱所计算的特征更能代表该声音信号。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种声音信号处理装置，其特征在于，包含：

接收器，用以接收声音信号；以及

处理器，电性连接至该接收器并用以分割该声音信号为多个帧，对该等帧分别进行傅立叶转换以取得多个声音频谱，在该等声音频谱中将对应至各个声音频率的多个成分组合分别进行傅立叶转换以取得二维联合频率频谱，以及根据该二维联合频率频谱计算该声音信号的至少一特征；

其中，该二维联合频率频谱具有声音频率维度及调制频率维度。

2.根据权利要求1所述的声音信号处理装置，其特征在于，该处理器还沿着该声音频率维度分解该二维联合频率频谱为八度子频带，以及沿着该调制频率维度分解该二维联合频率频谱为对数间隔调制子频带。

3.根据权利要求1所述的声音信号处理装置，其特征在于，该至少一特征包含声音-调制频谱峰值及声音-调制频谱峰谷，且该处理器根据下式计算该声音-调制频谱峰值及该声音-调制频谱峰谷：

AMSP (a, b) = \log (\frac{1}{a N_{a, b}} Σ_{i = 1}^{α N_{a, b}} S_{a, b} [i])

AMSV (a, b) = \log (\frac{1}{a N_{a, b}} Σ_{i = 1}^{α N_{a, b}} S_{a, b} [N_{a, b} - i + 1])

其中，S_a,b[i]为对应至第a个声音子频带及第b个调制子频带的强度频谱矩阵中的第i个元素，N_a,b为S_a,b内的元素总数，α为一邻近参数。

4.根据权利要求3所述的声音信号处理装置，其特征在于，该至少一特征还包含声音-调制频谱对比，且该处理器根据下式计算该声音-调制频谱对比：

AMSC(a，b)＝AMSP(a，b)-AMSV(a，b)。

5.根据权利要求1所述的声音信号处理装置，其特征在于，该至少一特征包含声音-调制平滑测量，且该处理器根据下式计算该声音-调制平滑测量：

AMSFM (a, b) = \frac{\sqrt[N_{a, b}]{Π_{i = 1}^{N_{a, b}} B_{a, b} [i]}}{\frac{1}{N_{a, b}} Σ_{i = 1}^{N_{a, b}} B_{a, b} [i]}

其中，B_a,b[i]为对应至第a个声音子频带及第b个调制子频带的强度频谱矩阵中的第i个元素，N_a,b为B_a,b内的元素总数。

6.根据权利要求1所述的声音信号处理装置，其特征在于，该至少一特征包含声音-调制峰值测量，且该处理器根据下式计算该声音-调制峰值测量：

AMSCM (a, b) = \frac{\max_{i = 1, . . ., N_{a, b}} (B_{a, b} [i])}{\frac{1}{N_{a, b}} Σ_{i = 1}^{N_{a, b}} B_{a, b} [i]}

7.根据权利要求1所述的声音信号处理装置，其特征在于，该处理器还根据该至少一特征辨识该声音信号的曲风、为该曲风提供一组均衡器参数、以及根据该组均衡器参数调谐该声音信号。

8.一种用于声音信号处理装置的声音信号处理方法，其特征在于，该声音信号处理装置包含一接收器及一处理器，该声音信号处理方法包含下列步骤：

使该接收器接收一声音信号；

使该处理器分割该声音信号为多个帧；

使该处理器在该等声音频谱中将对应至各个声音频率的多个成分组合分别进行傅立叶转换以取得二维联合频率频谱，其中该二维联合频率频谱具有声音频率维度及调制频率维度；以及

9.根据权利要求8所述的声音信号处理方法，其特征在于，还包含下列步骤：

使该处理器沿着该声音频率维度分解该二维联合频率频谱为八度子频带；以及

使该处理器沿着该调制频率维度分解该二维联合频率频谱为对数间隔调制子频带。

10.根据权利要求8所述的声音信号处理方法，其特征在于，该至少一特征包含声音-调制频谱峰值及声音-调制频谱峰谷，且该处理器根据下式计算该声音-调制频谱峰值及该声音-调制频谱峰谷：

AMSP (a, b) = \log (\frac{1}{a N_{a, b}} Σ_{i = 1}^{α N_{a, b}} S_{a, b} [i])

AMSV (a, b) = \log (\frac{1}{a N_{a, b}} Σ_{i = 1}^{α N_{a, b}} S_{a, b} [N_{a, b} - i + 1])

11.根据权利要求10所述的声音信号处理方法，其特征在于，该至少一特征还包含声音-调制频谱对比，且该处理器根据下式计算该声音-调制频谱对比：

AMSC(a,b)＝AMSP(a,b)-AMSV(a,b)。

12.根据权利要求8所述的声音信号处理方法，其中该至少一特征包含声音-调制平滑测量，且该处理器根据下式计算该声音-调制平滑测量：

AMSFM (a, b) = \frac{\sqrt[N_{a, b}]{Π_{i = 1}^{N_{a, b}} B_{a, b} [i]}}{\frac{1}{N_{a, b}} Σ_{i = 1}^{N_{a, b}} B_{a, b} [i]}

13.根据权利要求8所述的声音信号处理方法，其特征在于，该至少一特征包含声音-调制峰值测量，且该处理器根据下式计算该声音-调制峰值测量：

AMSCM (a, b) = \frac{\max_{i = 1, . . ., N_{a, b}} (B_{a, b} [i])}{\frac{1}{N_{a, b}} Σ_{i = 1}^{N_{a, b}} B_{a, b} [i]}

14.根据权利要求8所述的声音信号处理方法，其特征在于，还包含下列步骤：

使该处理器根据该至少一特征辨识该声音信号的曲风；

使该处理器为该曲风提供一组均衡器参数；以及

使该处理器根据该组均衡器参数调谐该声音信号。