CN105280178A - 声音信号处理装置及其声音信号处理方法 - Google Patents

声音信号处理装置及其声音信号处理方法 Download PDF

Info

Publication number
CN105280178A
CN105280178A CN201410552766.0A CN201410552766A CN105280178A CN 105280178 A CN105280178 A CN 105280178A CN 201410552766 A CN201410552766 A CN 201410552766A CN 105280178 A CN105280178 A CN 105280178A
Authority
CN
China
Prior art keywords
sound
modulation
signal processing
spectrum
frequency
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201410552766.0A
Other languages
English (en)
Inventor
黄柄凯
陈建璋
林哲毅
朱柏聿
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Arc Co ltd
Original Assignee
Arc Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Arc Co ltd filed Critical Arc Co ltd
Publication of CN105280178A publication Critical patent/CN105280178A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/54Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for retrieval
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/031Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
    • G10H2210/036Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal of musical genre, i.e. analysing the style of musical pieces, usually for selection, filtering or classification
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/031Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
    • G10H2210/076Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal for extraction of timing, tempo; Beat detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Stereophonic System (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

本发明提供一种声音信号处理装置及其声音信号处理方法。该声音信号处理装置用以接收一声音信号及分割该声音信号为多个帧。该声音信号处理装置还用以对该等帧分别进行傅立叶转换以取得多个声音频谱。该声音信号处理装置还用以在该等声音频谱中将对应至各个声音频率的多个成分组合分别进行傅立叶转换以取得一二维联合频率频谱,其中该二维联合频率频谱包含一声音频率维度及一调制频率维度。该声音信号处理装置还用以根据该二维联合频率频谱计算该声音信号的至少一特征。

Description

声音信号处理装置及其声音信号处理方法
技术领域
本发明关于一种处理装置及其处理方法。更具体而言,本发明关于一种声音信号处理装置及其声音信号处理方法。
背景技术
随着数字音乐在网络及个人装置上的快速发展,如何管理收集到的大量音乐已变得非常重要。为了管理收集到的大量音乐,经常需要附加各种信息至各个音乐。可附加的信息例如有演唱者、唱片、音乐名称等等。然而,这些传统附加的信息并无法满足某些特殊应用,例如音乐治疗。取而代之,这些附加信息应还包含能够描述音乐内容的音乐类型(musicgenre)及/或能够描述音乐的本质情感的音乐情境(musicmood)。
为了满足各种特殊应用,音乐势必需要被系统地进行归类、辨识、调谐;为此,许多声音信号处理技术已被开发出来。当从一声音信号中所获取出的特征越精确,则针对该声音信号所进行的归类、辨识、调谐等后续处理将越适当。因此,对各种声音信号处理技术而言,如何有效地获取出一声音信号的特征乃为其首要考量。
有鉴于此,提供一种能够有效地获取出声音信号特征的技术,确为本发明所属技术领域的一项重大需求。
发明内容
本发明提供一种声音信号处理装置及其声音信号处理方法,本发明的主要目的在于提供一种能够有效地获取出声音信号特征的技术。
为达上述目的,本发明提供一种声音信号处理装置,该声音信号处理装置包含一接收器及一电性连接至该接收器的处理器。该接收器用以接收一声音信号。该处理器用以:分割该声音信号为多个帧;对该等帧分别进行傅立叶转换以取得多个声音频谱;在该等声音频谱中将对应至各个声音频率的多个成分组合分别进行傅立叶转换以取得一二维联合频率频谱,其中该二维联合频率频谱包含一声音频率维度及一调制频率维度;以及根据该二维联合频率频谱计算该声音信号的至少一特征。
为达上述目的,本发明提供一种用于一声音信号处理装置的声音信号处理方法,该声音信号处理装置包含一接收器及一处理器,该声音信号处理方法包含下列步骤:
使该接收器接收一声音信号;
使该处理器分割该声音信号为多个帧;
使该处理器对该等帧分别进行傅立叶转换以取得多个声音频谱;
使该处理器在该等声音频谱中将对应至各个声音频率的多个成分组合分别进行傅立叶转换以取得一二维联合频率频谱,其中该二维联合频率频谱具有一声音频率维度及一调制频率维度;以及
使该处理器根据该二维联合频率频谱计算该声音信号的至少一特征。
综上所述,本发明提供了一种声音信号处理装置及其声音信号处理方法。该声音信号处理装置及其声音信号处理方法可针对一声音信号计算一二维联合频率频谱,并根据该二维联合频率频谱计算该声音信号的特征。由于该二维联合频率频谱乃是在多个声音频谱中将对应至各个声音频率的多个成分组合分别进行傅立叶转换而得,故根据该二维联合频率频谱所计算的特征,不但包含了各短期(short-term)内的频率组合,也考虑到该声音信号的各个帧之间的交互影响。因此,相对于传统声音信号处理技术对该声音信号所计算的特征,根据该二维联合频率频谱所计算的特征更能代表该声音信号。
在参阅附图及随后描述的实施方式后,本发明所属技术领域技术人员便可了解本发明的其他目的、本发明的技术手段及部分实施例。
附图说明
以下是针对本发明附图所记载的简单说明,并非用以限定本发明,其中:
图1为本发明的一实施例的声音信号处理装置的一结构示意图;
图2A-2C为本发明的一实施例的声音信号处理装置的一处理器的一运作示意图;
图3为本发明的一实施例的一用于一声音信号处理装置的声音信号处理方法的一流程图。
附图标记说明:
1:声音信号处理装置;
11:接收器;
13:处理器;
20:声音信号;
A1~An:信号振幅;
B1~Bn:信号强度;
C1~Cm:信号强度;
F1~Fm:声音频谱;
f1~fn:声音频率;
P1~Pn:成分组合;
Q1~Qn:调制频谱;
S21、S23、S25、S27、S29:步骤;
T1~Tm:帧;
ω1~ωm:调制频率。
具体实施方式
以下将通过各种实施例来解释本发明的内容,惟以下实施例并非用以限制本发明须在如其所述的环境、应用、结构、流程或步骤方能实施。以下实施例的说明仅为阐释本发明,而非用以限制本发明。以下实施例及附图中,与本发明非直接相关的元件皆已省略而未示出,且附图中各元件间的尺寸关系仅为求容易表示,非用以限制实际实施的比例。
本发明的一实施例(简称「第一实施例」)为一种声音信号处理装置。图1为本发明的一实施例的声音信号处理装置的一结构示意图。如图1所示,一声音信号处理装置1包含一接收器11及一处理器13。接收器11与处理器13之间可直接或间接地电性连接,并可相互通信与交换信息。声音信号处理装置1可以是但不限于:一台式电脑、一智能手机、一平板电脑、一笔记本电脑等装置。接收器11可包含各种声音信号接收接口,并用以接收一声音信号20(包含一声音信号或多个声音信号),以及可包含与处理器13通信的各种接口,用以传送声音信号20至处理器13。声音信号20可为一不特定时间长度的声音信号。
在处理器13接收到声音信号20后,可用以执行下列操作:分割声音信号20为多个帧;对该等帧分别进行傅立叶转换以取得多个声音频谱;在该等声音频谱中将对应至各个声音频率的多个成分组合分别进行傅立叶转换以取得一二维联合频率频谱,其中该二维联合频率频谱具有一声音频率维度及一调制频率维度;以及根据该二维联合频率频谱计算声音信号20的至少一特征。以下将结合图2A、图2B及图2C为一范例,进一步说明处理器13的运作。
图2A-2C为本发明的一实施例的声音信号处理装置的一处理器的一运作示意图。如图2A所示,在接收到声音信号20后,处理器13可分割声音信号20为多个帧。举例而言,处理器13可据不同需求分割声音信号20为m个帧,即帧T1、帧T2、帧T3、…、帧Tm(简称「T1~Tm」),其中m为正整数。为了易于说明,各个帧T1~Tm可用一向量来表示。以图2A所示帧T2为例,其向量表示即为对应至不同时间t1、t2、t3、t4、t5、t6、…、tn(简称「t1~tn」)的信号振幅A1、A2、A3、A4、A5、A6、…、An(简称「A1~An」),其中n为正整数。
处理器13可对各个帧分别进行傅立叶转换(FourierTransform)以取得多个相对应的声音频谱(acousticspectra)。举例而言,处理器13可对帧T1~Tm分别进行傅立叶转换,以取得声音频谱F1、声音频谱F2、声音频谱F3、声音频谱F4、声音频谱F5、声音频谱F6、…、声音频谱Fm(简称「F1~Fm」)。为了易于说明,各个声音频谱F1~Fm可用一向量来表示。以图2A所示声音频谱F2为例,其向量表示即为对应至不同声音频率f1、f2、f3、f4、f5、f6、…、fn(简称「f1~fn」)的信号强度B1、B2、B3、B4、B5、B6、…、Bn(简称「B1~Bn」),其中n为正整数。本实施例所述的傅立叶转换可视为快速傅立叶转换(FastFourierTransform),惟此并非用以限定本发明。
如图2B所示,经由傅立叶转换,该等帧T1~Tm乃分别对应至该等声音频谱F1~Fm。在该等声音频谱F1~Fm中,对应至相同频率的成分(components)分布在该等帧T1~Tm内。为了易于说明,分布在该等帧T1~Tm内的对应至各个频率的这些成分将被称为一成分组合,且用一向量来表示。详言之,分布在该等帧T1~Tm内的对应至频率f1~fn的成分组合可依序表示为成分组合P1、成分组合P2、成分组合P3、成分组合P4、成分组合P5、成分组合P6、…、成分组合Pn(简称「P1~Pn」)。
处理器13可对成分组合P1~Pn再次分别进行傅立叶转换,以取得多个调制频谱Q1~Qn(modulationspectra)。为了易于说明,各个调制频谱Q1~Qn可用一向量来表示。以图2B所示调制频谱Q2为例,其向量表示即为对应至不同调制频率ω1、ω2、ω3、ω4、ω5、ω6、…、ωm(简称「ω1~ωm」)的信号强度C1、C2、C3、C4、C5、C6、…、Cm(简称「C1~Cm」),其中m为正整数。
经由上述操作,处理器13可取得如图2C所示的具有一声音频率维度及一调制频率维度的二维联合频率频谱(two-dimensionaljointfrequencyspectrum)24。然后,处理器13可根据二维联合频率频谱24计算声音信号20的至少一特征。于其他实施例,为了在不同的音乐节拍速率(musicalbeatrates)上分析谐波(或非谐波)的强度,处理器13还可沿着该声音频率维度分解该二维联合频率频谱24为八度子频带(octave-basedsubbands),以及沿着该调制频率维度分解该二维联合频率频谱24为对数间隔调制子频带(logarithmicallyspacedmodulationsubbands);然后,根据该八度子频带及该对数间隔调制子频带计算声音信号20的至少一特征。因八度子频带以及对数间隔调制子频带的计算方式及其效果已为本技术领域技术人员所公知,于此不多赘述。
处理器13根据二维联合频率频谱24计算声音信号20的特征可包含但不限于:一声音-调制频谱峰值(acoustic-modulationspectralpeak,简称AMSP)、一声音-调制频谱峰谷(acoustic-modulationspectralvalley,简称AMSV)、一声音-调制频谱对比(acoustic-modulationspectralcontrast,简称AMSC)、一声音-调制平滑测量(acoustic-modulationspectralflatnessmeasure,简称AMSFM)及一声音-调制峰值测量(acoustic-modulationspectralcrestmeasure,简称AMSCM)。
进一步言,处理器13可根据下式计算该声音-调制频谱峰值及该声音-调制频谱峰谷:
AMSP ( a , b ) = log ( 1 α N a , b Σ i = 1 α N a , b S a , b [ i ] )
AMSV ( a , b ) = log ( 1 α N a , b Σ i = 1 α N a , b S a , b [ N a , b - i + 1 ] ) - - - ( 1 )
其中,Sa,b[i]为对应至第a个声音子频带(及声音频率f1~fn中的第a个)及第b个调制子频带(及调制频率ω1~ωm中的第b个)的强度频谱矩阵中的第i个元素,Na,b为Sa,b内的元素总数,α为一邻近参数。可选择地,α可设定为大于等于1且小于等于8。
处理器13可根据下式计算该声音-调制频谱对比:
AMSC(a,b)=AMSP(a,b)-AMSV(a,b)(2)。
处理器13可根据下式计算该声音-调制平滑测量:
AMSFM ( a , b ) = N a , b Π i = 1 N a , b B a , b [ i ] 1 N a , b Σ i = 1 N a , b B a , b [ i ] - - - ( 3 )
其中,Ba,b[i]为对应至第a个声音子频带(及声音频率f1~fn中的第a个)及第b个调制子频带(及调制频率ω1~ωm中的第b个)的强度频谱矩阵中之的i个元素,Na,b为Ba,b内的元素总数。
处理器13可根据下式计算该声音-调制峰值测量:
AMSCM ( a , b ) = max i = 1 , . . . , N a , b ( B a , b [ i ] ) 1 N a , b Σ i = 1 N a , b B a , b [ i ] - - - ( 4 )
其中,Ba,b[i]为对应至第a个声音子频带(及声音频率f1~fn中的第a个)及第b个调制子频带(及调制频率ω1~ωm中的第b个)的强度频谱矩阵中的第i个元素,Na,b为Ba,b内的元素总数。
在处理器13根据二维联合频率频谱24计算声音信号20的上述特征或其他特征之后,处理器13可根据计算出来的特征来对声音信号20进行归类、辨识、调谐等后续处理。举例而言,处理器13可根据计算出来的特征辨识声音信号20的曲风,并为声音信号20的曲风提供一组均衡器参数,然后根据该组均衡器参数调谐声音信号20。
于其他实施例,音乐处理装置1还可包含一存有各种曲风信息的曲风数据库。处理器13可根据该曲风数据库所提供的曲风信息辨识声音信号20得知声音信号20所对应的曲风。具体而言,处理器13可根据二维联合频率频谱24计算出声音信号20的特征,然后根据该曲风数据库所提供的曲风信息判断声音信号20的特征属于何种曲风。在得知声音信号20所对应的曲风后,处理器13可根据各种均衡器技术,自动为该曲风提供一组均衡器参数,并根据该组均衡器参数调谐声音信号20。
本发明的另一实施例(简称「第二实施例」)为一种用于一声音信号处理装置的声音信号处理方法,其中该声音信号处理装置可包含至少一接收器及一处理器。举例而言,第二实施例可为一种用于第一实施例的声音信号处理装置1的声音信号处理方法。图3为本发明的一实施例的用于一声音信号处理装置的声音信号处理方法的一流程图。如图3所示,第二实施例的声音信号处理方法包含:步骤S21,使该接收器接收一声音信号;步骤S23,使该处理器分割该声音信号为多个帧;步骤S25,使该处理器对该等帧分别进行傅立叶转换以取得多个声音频谱;步骤S27,使该处理器在该等声音频谱中将对应至各个声音频率的多个成分组合分别进行傅立叶转换以取得一二维联合频率频谱,其中该二维联合频率频谱具有一声音频率维度及一调制频率维度;以及步骤S29,使该处理器根据该二维联合频率频谱计算该声音信号的至少一特征。
在其他实施例中,本实施例的声音信号处理方法还包含以下步骤:使该处理器沿着该声音频率维度分解该二维联合频率频谱为八度子频带;以及使该处理器沿着该调制频率维度分解该二维联合频率频谱为对数间隔调制子频带。
在其他实施例中,该声音信号的至少一特征包含一声音-调制频谱峰值及一声音-调制频谱峰谷,且该处理器根据上述方程式(1)计算该声音-调制频谱峰值及该声音-调制频谱峰谷。
在其他实施例中,该声音信号的至少一特征还包含一声音-调制频谱对比,且该处理器根据上述方程式(2)计算该声音-调制频谱对比。
在其他实施例中,该声音信号的至少一特征包含一声音-调制平滑测量,且该处理器根据上述方程式(3)计算该声音-调制平滑测量。
在其他实施例中,该声音信号的至少一特征包含一声音-调制峰值测量,且该处理器根据上述方程式(4)计算该声音-调制峰值测量。
在其他实施例中,本实施例的声音信号处理方法还包含下列步骤:使该处理器根据该至少一特征辨识该声音信号的曲风;使该处理器为该曲风提供一组均衡器参数;以及使该处理器根据该组均衡器参数调谐该声音信号。
除了上述提及的各项步骤之外,第二实施例的声音信号处理方法也包含对应至第一实施例的声音信号处理装置1的所有操作的步骤。因本技术领域技术人员可根据第一实施例的上述公开内容而直接了解未记载于第二实施例的声音信号处理方法的相对应步骤,于此不再赘述。
综上所述,本发明提供了一种声音信号处理装置及其声音信号处理方法。该声音信号处理装置及其声音信号处理方法可针对一声音信号计算一二维联合频率频谱,并根据该二维联合频率频谱计算该声音信号的特征。由于该二维联合频率频谱乃是在多个声音频谱中将对应至各个声音频率的多个成分组合分别进行傅立叶转换而得,故根据该二维联合频率频谱所计算的特征,不但包含了各短期内的频率组合,也考虑到该声音信号的各个帧之间的交互影响。因此,相对于传统声音信号处理技术对该声音信号所计算的特征,根据该二维联合频率频谱所计算的特征更能代表该声音信号。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims (14)

1.一种声音信号处理装置,其特征在于,包含:
接收器,用以接收声音信号;以及
处理器,电性连接至该接收器并用以分割该声音信号为多个帧,对该等帧分别进行傅立叶转换以取得多个声音频谱,在该等声音频谱中将对应至各个声音频率的多个成分组合分别进行傅立叶转换以取得二维联合频率频谱,以及根据该二维联合频率频谱计算该声音信号的至少一特征;
其中,该二维联合频率频谱具有声音频率维度及调制频率维度。
2.根据权利要求1所述的声音信号处理装置,其特征在于,该处理器还沿着该声音频率维度分解该二维联合频率频谱为八度子频带,以及沿着该调制频率维度分解该二维联合频率频谱为对数间隔调制子频带。
3.根据权利要求1所述的声音信号处理装置,其特征在于,该至少一特征包含声音-调制频谱峰值及声音-调制频谱峰谷,且该处理器根据下式计算该声音-调制频谱峰值及该声音-调制频谱峰谷:
AMSP ( a , b ) = log ( 1 a N a , b Σ i = 1 α N a , b S a , b [ i ] )
AMSV ( a , b ) = log ( 1 a N a , b Σ i = 1 α N a , b S a , b [ N a , b - i + 1 ] )
其中,Sa,b[i]为对应至第a个声音子频带及第b个调制子频带的强度频谱矩阵中的第i个元素,Na,b为Sa,b内的元素总数,α为一邻近参数。
4.根据权利要求3所述的声音信号处理装置,其特征在于,该至少一特征还包含声音-调制频谱对比,且该处理器根据下式计算该声音-调制频谱对比:
AMSC(a,b)=AMSP(a,b)-AMSV(a,b)。
5.根据权利要求1所述的声音信号处理装置,其特征在于,该至少一特征包含声音-调制平滑测量,且该处理器根据下式计算该声音-调制平滑测量:
AMSFM ( a , b ) = Π i = 1 N a , b B a , b [ i ] N a , b 1 N a , b Σ i = 1 N a , b B a , b [ i ]
其中,Ba,b[i]为对应至第a个声音子频带及第b个调制子频带的强度频谱矩阵中的第i个元素,Na,b为Ba,b内的元素总数。
6.根据权利要求1所述的声音信号处理装置,其特征在于,该至少一特征包含声音-调制峰值测量,且该处理器根据下式计算该声音-调制峰值测量:
AMSCM ( a , b ) = max i = 1 , . . . , N a , b ( B a , b [ i ] ) 1 N a , b Σ i = 1 N a , b B a , b [ i ]
其中,Ba,b[i]为对应至第a个声音子频带及第b个调制子频带的强度频谱矩阵中的第i个元素,Na,b为Ba,b内的元素总数。
7.根据权利要求1所述的声音信号处理装置,其特征在于,该处理器还根据该至少一特征辨识该声音信号的曲风、为该曲风提供一组均衡器参数、以及根据该组均衡器参数调谐该声音信号。
8.一种用于声音信号处理装置的声音信号处理方法,其特征在于,该声音信号处理装置包含一接收器及一处理器,该声音信号处理方法包含下列步骤:
使该接收器接收一声音信号;
使该处理器分割该声音信号为多个帧;
使该处理器对该等帧分别进行傅立叶转换以取得多个声音频谱;
使该处理器在该等声音频谱中将对应至各个声音频率的多个成分组合分别进行傅立叶转换以取得二维联合频率频谱,其中该二维联合频率频谱具有声音频率维度及调制频率维度;以及
使该处理器根据该二维联合频率频谱计算该声音信号的至少一特征。
9.根据权利要求8所述的声音信号处理方法,其特征在于,还包含下列步骤:
使该处理器沿着该声音频率维度分解该二维联合频率频谱为八度子频带;以及
使该处理器沿着该调制频率维度分解该二维联合频率频谱为对数间隔调制子频带。
10.根据权利要求8所述的声音信号处理方法,其特征在于,该至少一特征包含声音-调制频谱峰值及声音-调制频谱峰谷,且该处理器根据下式计算该声音-调制频谱峰值及该声音-调制频谱峰谷:
AMSP ( a , b ) = log ( 1 a N a , b Σ i = 1 α N a , b S a , b [ i ] )
AMSV ( a , b ) = log ( 1 a N a , b Σ i = 1 α N a , b S a , b [ N a , b - i + 1 ] )
其中,Sa,b[i]为对应至第a个声音子频带及第b个调制子频带的强度频谱矩阵中的第i个元素,Na,b为Sa,b内的元素总数,α为一邻近参数。
11.根据权利要求10所述的声音信号处理方法,其特征在于,该至少一特征还包含声音-调制频谱对比,且该处理器根据下式计算该声音-调制频谱对比:
AMSC(a,b)=AMSP(a,b)-AMSV(a,b)。
12.根据权利要求8所述的声音信号处理方法,其中该至少一特征包含声音-调制平滑测量,且该处理器根据下式计算该声音-调制平滑测量:
AMSFM ( a , b ) = Π i = 1 N a , b B a , b [ i ] N a , b 1 N a , b Σ i = 1 N a , b B a , b [ i ]
其中,Ba,b[i]为对应至第a个声音子频带及第b个调制子频带的强度频谱矩阵中的第i个元素,Na,b为Ba,b内的元素总数。
13.根据权利要求8所述的声音信号处理方法,其特征在于,该至少一特征包含声音-调制峰值测量,且该处理器根据下式计算该声音-调制峰值测量:
AMSCM ( a , b ) = max i = 1 , . . . , N a , b ( B a , b [ i ] ) 1 N a , b Σ i = 1 N a , b B a , b [ i ]
其中,Ba,b[i]为对应至第a个声音子频带及第b个调制子频带的强度频谱矩阵中的第i个元素,Na,b为Ba,b内的元素总数。
14.根据权利要求8所述的声音信号处理方法,其特征在于,还包含下列步骤:
使该处理器根据该至少一特征辨识该声音信号的曲风;
使该处理器为该曲风提供一组均衡器参数;以及
使该处理器根据该组均衡器参数调谐该声音信号。
CN201410552766.0A 2014-07-04 2014-10-17 声音信号处理装置及其声音信号处理方法 Pending CN105280178A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
TW103123132A TWI569257B (zh) 2014-07-04 2014-07-04 音訊處理裝置及其音訊處理方法
TW103123132 2014-07-04

Publications (1)

Publication Number Publication Date
CN105280178A true CN105280178A (zh) 2016-01-27

Family

ID=55017441

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410552766.0A Pending CN105280178A (zh) 2014-07-04 2014-10-17 声音信号处理装置及其声音信号处理方法

Country Status (3)

Country Link
US (1) US20160005415A1 (zh)
CN (1) CN105280178A (zh)
TW (1) TWI569257B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111951812A (zh) * 2020-08-26 2020-11-17 杭州情咖网络技术有限公司 一种动物情感识别方法、装置及电子设备
CN112633091A (zh) * 2020-12-09 2021-04-09 北京博瑞彤芸科技股份有限公司 一种验证真实会面的方法和系统

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102364853B1 (ko) * 2017-07-18 2022-02-18 삼성전자주식회사 음향 센싱 소자의 신호 처리 방법과 음향 센싱 시스템

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07168593A (ja) * 1993-09-28 1995-07-04 Sony Corp 信号符号化方法及び装置、信号復号化方法及び装置、並びに信号記録媒体
US5745583A (en) * 1994-04-04 1998-04-28 Honda Giken Kogyo Kabushiki Kaisha Audio playback system
CN102271299A (zh) * 2010-06-01 2011-12-07 索尼公司 声音信号处理装置和声音信号处理方法
US20130030796A1 (en) * 2010-01-14 2013-01-31 Panasonic Corporation Audio encoding apparatus and audio encoding method
TW201342890A (zh) * 2011-12-20 2013-10-16 Yahoo Inc 內容辨識之聲紋
CN103426433A (zh) * 2012-05-14 2013-12-04 宏达国际电子股份有限公司 噪声消除方法

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100832360B1 (ko) * 2006-09-25 2008-05-26 삼성전자주식회사 음원 재생기에서의 이퀄라이저 조정 방법 및 그 시스템
KR20080060641A (ko) * 2006-12-27 2008-07-02 삼성전자주식회사 오디오 신호의 후처리 방법 및 그 장치
US20080300702A1 (en) * 2007-05-29 2008-12-04 Universitat Pompeu Fabra Music similarity systems and methods using descriptors
US9093120B2 (en) * 2011-02-10 2015-07-28 Yahoo! Inc. Audio fingerprint extraction by scaling in time and resampling
TWI607321B (zh) * 2012-03-01 2017-12-01 群邁通訊股份有限公司 音樂自動優化系統及方法
US9401153B2 (en) * 2012-10-15 2016-07-26 Digimarc Corporation Multi-mode audio recognition and auxiliary data encoding and decoding

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07168593A (ja) * 1993-09-28 1995-07-04 Sony Corp 信号符号化方法及び装置、信号復号化方法及び装置、並びに信号記録媒体
US5745583A (en) * 1994-04-04 1998-04-28 Honda Giken Kogyo Kabushiki Kaisha Audio playback system
US20130030796A1 (en) * 2010-01-14 2013-01-31 Panasonic Corporation Audio encoding apparatus and audio encoding method
CN102271299A (zh) * 2010-06-01 2011-12-07 索尼公司 声音信号处理装置和声音信号处理方法
TW201342890A (zh) * 2011-12-20 2013-10-16 Yahoo Inc 內容辨識之聲紋
CN103426433A (zh) * 2012-05-14 2013-12-04 宏达国际电子股份有限公司 噪声消除方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
LEE C H ET AL.: "Automatic music genre classification based on modulation spectral analysis of spectral and cepstral features", 《IEEE TRANSACTIONS ON MULTIMEDIA》 *
任佳珉: "發掘具鑑別性特徵於音樂曲風/情緒分類之應用", 《清華大學資訊工程學系所學位論文》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111951812A (zh) * 2020-08-26 2020-11-17 杭州情咖网络技术有限公司 一种动物情感识别方法、装置及电子设备
CN112633091A (zh) * 2020-12-09 2021-04-09 北京博瑞彤芸科技股份有限公司 一种验证真实会面的方法和系统

Also Published As

Publication number Publication date
TW201602999A (zh) 2016-01-16
TWI569257B (zh) 2017-02-01
US20160005415A1 (en) 2016-01-07

Similar Documents

Publication Publication Date Title
CN103718242B (zh) 采用谱运动变换的用于处理声音信号的系统和方法
CN102741921B (zh) 改进的基于子带块的谐波换位
CN103262164A (zh) 叉积增强的基于子带块的谐波换位
CN111724807A (zh) 音频分离方法、装置、电子设备及计算机可读存储介质
CN106997765A (zh) 人声音色的定量表征方法
CN105280178A (zh) 声音信号处理装置及其声音信号处理方法
Colonel et al. Reverse engineering of a recording mix with differentiable digital signal processing
Mesgarani et al. Toward optimizing stream fusion in multistream recognition of speech
Li et al. Enabling real-time on-chip audio super resolution for bone-conduction microphones
Sahai et al. Spectrogram feature losses for music source separation
Ahmed et al. Empirical mode decomposition-based feature extraction for environmental sound classification
Swift et al. Extending sharpness calculation for an alternative loudness metric input
CN105575414A (zh) 歌词文件的生成方法及装置
Jaiswal et al. Shifted nmf using an efficient constant-q transform for monaural sound source separation
Oh et al. Spectrogram-channels u-net: a source separation model viewing each channel as the spectrogram of each source
CN103824556A (zh) 声音处理设备、声音处理方法和程序
Llopis et al. Just noticeable difference for simulation accuracy between full and reduced order models (L)
Mehta et al. Statistical properties of linear prediction analysis underlying the challenge of formant bandwidth estimation
Sofianos et al. H-Semantics: A hybrid approach to singing voice separation
Saarelma et al. Audibility of dispersion error in room acoustic finite-difference time-domain simulation in the presence of absorption of air
Ganapathy et al. Temporal resolution analysis in frequency domain linear prediction
Roberts et al. An objective measure of quality for time-scale modification of audio
Fonseca et al. A New Recursive Semi-Supervised Non-Negative Matrix Factorization for Separation of Harmonic and Percussive Elements in Digital Sounds
Fenton et al. Hybrid Multiresolution Analysis of “Punch” in Musical Signals
Martin et al. The evolution of chirp-based measurement techniques

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20160127

WD01 Invention patent application deemed withdrawn after publication