CN107945809B - 一种复调音乐多音高估计方法 - Google Patents

一种复调音乐多音高估计方法 Download PDF

Info

Publication number
CN107945809B
CN107945809B CN201711358050.7A CN201711358050A CN107945809B CN 107945809 B CN107945809 B CN 107945809B CN 201711358050 A CN201711358050 A CN 201711358050A CN 107945809 B CN107945809 B CN 107945809B
Authority
CN
China
Prior art keywords
harmonic
pitch
pseudo
bispectrum
dimensional
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201711358050.7A
Other languages
English (en)
Other versions
CN107945809A (zh
Inventor
张维维
陈喆
殷福亮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dalian Minzu University
Original Assignee
Dalian Minzu University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dalian Minzu University filed Critical Dalian Minzu University
Priority to CN201711358050.7A priority Critical patent/CN107945809B/zh
Publication of CN107945809A publication Critical patent/CN107945809A/zh
Application granted granted Critical
Publication of CN107945809B publication Critical patent/CN107945809B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/002Dynamic bit allocation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/69Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for evaluating synthetic or decoded voice signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Signal Processing (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Complex Calculations (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
  • Other Investigation Or Analysis Of Materials By Electrical Means (AREA)
  • Stereophonic System (AREA)

Abstract

本分案申请涉及一种复调音乐多音高估计方法,属于数字语音信号处理领域,用于解决复调音乐的多个音高估计问题,技术要点是:步骤3:按照二维模板匹配互相关函数值从大到小排列,取出前10个频率作为候选音高;步骤4:计算各候选音高的加权谐波能量和,并选择具有最大加权谐波能量和的候选音高作为该次迭代输出音高,并保存音高值和相应的加权谐波能量;步骤5:移除该最显著音高的二维谐波成分;步骤6:重复步骤3‑5,直至本次输出音高的加权谐波能量和比前一音高的加权能量小20dB,输出所有迭代过程中估计的音高,效果是:在具有较少谐波成分的情况下也能正常工作,可区分具有重叠谐波频率成分的音符,该方法具有较小的运算量,易于实现,且可用于除复调音乐以外的谐波信号的基频提取。

Description

一种复调音乐多音高估计方法
本申请为申请号2017103013149、申请日2017-05-02、发明名称“复调音乐多音高估计方法及伪双谱在多音高估计中的应用”的分案申请。
技术领域
本发明属于数字语音信号处理领域,涉及一种音乐信号处理方法。
背景技术
以算法原理为依据,复调音乐多音高估计方法可分为基于特征,基于统计模型和基于谱分解的方法,其中大部分方法都基于一维傅里叶变换谱。当不同音符具有相同的谐波频率成分时,一维傅里叶变换谱无法将这些重叠的谐波频率成分分离。和声是音乐的基本要素之一,从而在音乐信号中具有重叠谐波频率分量的情况普遍存在,因此准确分离具有重叠谐波频率的音符具有重要意义。
最近,Argenti等人提出基于双谱的多音高估计方法,该方法将输入一维时间域信号映射到二维双谱域,在二维双谱平面上,谐波信号形成一个典型的二维双谱模板,可独立分离具有相同谐波频率成分的两音符而互不影响。然而,信号的双谱幅度是一维傅里叶变换谱三个频率分量幅度的乘积,故其中任一分量为0都会导致双谱幅度为0,进而使二维模板匹配失败。另外,由于频谱泄露也会导致基于双谱的多音高估计方法产生较多的低八度误差。
发明内容
为了解决复调音乐多音高估计问题,准确分离具有相同谐波频率成分的音符,本发明构建一个全新的二维谱变换,以下称其为“伪双谱”,并将其应用于复调音乐多音高估计。
本发明提出如下技术方案:一种复调音乐多音高估计方法,对输入的音乐音频分帧;求每帧信号的伪双谱,根据二维模板与伪双谱的匹配互相关函数值从大到小排列,取出前若干个频率作为候选音高;计算各候选音高的加权谐波能量和,并选择具有最大加权谐波能量和的候选音高作为该次迭代输出的最显著估计音高。
进一步的,移除所述最显著估计音高的二维谐波成分,迭代上述过程,直至本次输出最显著估计音高的加权谐波能量和比前一音高的加权谐波能量和小于设定值。
进一步的,所述伪双谱由下式表示:
Figure BDA0001511411700000021
其中X(f1)和X(f2)为x(t)的一维傅里叶变换,(·)*代表共轭转置运算,f1和f2为二维频率域中的自变量,t和τ分别为时间域信号x(t)和x(τ)的自变量。
进一步的,Px为输入复调音乐伪双谱的离散化矩阵,每八度有Noct个对数分布离散频点,使用每个音符的前Hr个谐波成分,令Q=(qi,j)是一个维度为Rq×Rq的稀疏矩阵,其中
Figure BDA0001511411700000022
Figure BDA0001511411700000023
是向正无穷方向取整,当且仅当基频频点索引平移i和j个索引值后都对应谐波分量时,qi,j=1,由下式计算二维模板与伪双谱的匹配互相关函数值:
Figure BDA0001511411700000031
进一步的,选择具有最大谐波加权能量和的频率作为最显著估计音高,由下式求得:
Figure BDA0001511411700000032
其中α为常数,φk为音高fk的显著函数值,X(hfk)为fk的第h次谐波幅度。
进一步的,输入信号为具有H个谐波分量的音符,表示为:
Figure BDA0001511411700000033
其中al为第l次谐波幅度,f0为基频;
z(t)的伪双谱为:
Figure BDA0001511411700000034
其中δ(·)为狄拉克函数,l和m为谐波次数,al和am分别为第l次和第m次谐波幅度;
由上述,对于具有H个谐波分量的音符作伪双谱变换生成H×H的二维模式,由下式作二维模式匹配:
Figure BDA0001511411700000035
进一步的,输入信号为M个音符的混合信号,表示为:
Figure BDA0001511411700000041
其中Hm和f0,m分别为第m个音符的谐波数和基频,
Figure BDA0001511411700000042
为第m个音符的第lm次谐波幅度;
由上述,z(t)的伪双谱为:
Figure BDA0001511411700000043
其中
Figure BDA0001511411700000044
为第m个音符的伪双谱,
Figure BDA0001511411700000045
为zm(t)和zn(t)的交叉项,且
Figure BDA0001511411700000046
其中(m,n)∈{1,,2,...,M},且m≠n;Hm和f0,m分别为第m个音符的谐波数和基频,
Figure BDA0001511411700000047
为第m个音符的第lm次谐波幅度;Hn和f0,n分别为第n个音符的谐波数和基频,
Figure BDA0001511411700000048
为第n个音符的第kn次谐波幅度;
对于具有M个音符的混合信号,由下式作二维模式匹配,匹配次数为M:
Figure BDA0001511411700000049
一种伪双谱在多音高估计中的应用,所述伪双谱,由下式表示:
Figure BDA00015114117000000410
其中X(f1)和X(f2)为x(t)的一维傅里叶变换,(·)*代表共轭转置运算,f1和f2为二维频率域中的自变量,t和τ分别为时间域信号x(t)和x(τ)的自变量。
有益效果:多音高估计是音乐信号处理领域中一项重要且基础的研究课题,在自动音频检索、音乐标记、音乐学分析、听觉场景分析等领域中具有广泛应用。本发明提出一种新的二维谱──伪双谱,并将其应用于多音高估计。伪双谱非常适合处理谐波信号,所提出的多音高估计方法不需先验知识,在具有较少谐波成分的情况下也能正常工作,可区分具有重叠谐波频率成分的音符,该方法具有较小的运算量,易于实现,且可用于除复调音乐以外的谐波信号的基频提取。
附图说明
图1复调音乐多音高估计流程图;
图2演奏A3音符的音频信号一维傅里叶变换谱示意图;
图3演奏A3音符的音频信号伪双谱示意图;
图4同时演奏A3与E4两个音符的音频信号的一维傅里叶变换谱示意图;
图5同时演奏A3与E4两个音符的音频信号的伪双谱示意图;
图6某复调音乐的各音高真实值示意图;
图7该段复调音乐的各音高估计值示意图;
图8谐波信号的典型伪双谱模式(以具有4次谐波频率成分为例);
图9演奏A3音符的音频信号伪双谱;
图10演奏A3和D4音符的音频信号伪双谱。
具体实施方式
实施例1:
本实施例定义了伪双谱,并将其应用于复调音乐多音高估计。该伪双谱适合各种一维具有谐波结构的信号基频估计问题而不局限于复调音乐的多音高估计。
首先对输入的音乐音频进行分帧;然后求每帧信号的伪双谱;根据本实施例的公式(10),按照二维模板匹配互相关函数值从大到小排列,取出前10个频率作为候选音高;再根据本实施例的公式(11)计算各候选音高的加权谐波能量和,并选择具有最大加权谐波能量和的候选音高作为该次迭代输出音高,并保存音高值和相应的加权谐波能量和;最后,移除该最显著音高的二维谐波成分,迭代上述过程直至本次输出音高的加权谐波能量比前一音高的加权能量小20dB。
为了方便叙述,用如下形式表示:
步骤1:对输入的音乐音频进行分帧;
步骤2:求每帧信号的伪双谱;
步骤3:根据公式(10),按照二维模板匹配互相关函数值从大到小排列,取出前10个频率作为候选音高;
步骤4:根据公式(11)计算各候选音高的加权谐波能量和,并选择具有最大加权谐波能量和的候选音高作为该次迭代输出音高,并保存音高值和相应的加权谐波能量;
步骤5:移除该最显著音高的二维谐波成分;
步骤6:重复步骤3-5,直至本次输出音高的加权谐波能量和比前一音高的加权能量小20dB,输出所有迭代过程中估计的音高。
在一种实施例中,其具体方法如下:
设x(t)为复调音乐信号,则该信号的伪双谱定义为:
Figure BDA0001511411700000071
其中X(f1)和X(f2)为x(t)的一维傅里叶变换,(·)*代表共轭运算。f1和f2为二维频率域中的自变量,t和τ分别为时间域信号x(t)和x(τ)的自变量。
具有H个谐波分量的音符可表示为:
Figure BDA0001511411700000072
其中al为第l次谐波幅度,f0为基频,则根据公式(1)可得z(t)的伪双谱为
Figure BDA0001511411700000073
其中δ(·)为狄拉克函数,l和m为谐波次数,al和am分别为第l次和第m次谐波幅度;由此可见,对于具有H个谐波分量的谐波信号,伪双谱变换生成H×H的二维模式。音符音高的确定(即二维模式匹配),可通过如下公式实现:
Figure BDA0001511411700000074
假设复调音乐由M个音符的混合信号组成,即可表示为:
Figure BDA0001511411700000075
其中Hm和f0,m分别为第m个音符的谐波数和音高,
Figure BDA0001511411700000081
为第m个音符的第lm次谐波幅度。对于公式(5)所表示的混合信号的伪双谱为:
Figure BDA0001511411700000082
其中
Figure BDA0001511411700000083
为第m个音符的伪双谱,
Figure BDA0001511411700000084
为zm(t)和zn(t)的交叉项,且
Figure BDA0001511411700000085
其中(m,n)∈{1,2,...M},且m≠n。
和声是音乐的基本要素之一,故具有重叠谐波频率成分的音符同时发声的情况广泛存在。公式(7)所示的交叉项要么位于公式(3)所示的二维模板之外,要么与和弦中其他音符的二维模板重合,故对多音高估计的影响很小。
假设Px为输入复调音乐伪双谱的离散化矩阵。每八度有Noct个对数分布离散频点,考虑每个音符的前Hr个谐波成分。令Q=(qi,j)是一个维度为Rq×Rq的稀疏矩阵,其中
Figure BDA0001511411700000086
其中
Figure BDA0001511411700000087
是向正无穷方向取整。当且仅当基频频点索引平移i和j个索引值后都对应谐波分量时,qi,j=1。按照下式计算二维模板与伪双谱的匹配互相关函数:
Figure BDA0001511411700000088
由于公式(1)满足共轭对称性,即
Figure BDA0001511411700000089
故公式(8)的互相关函数最大值对应的频率一定落在二维频率平面的第一象限对角线上,公式(8)可重新简化为:
Figure BDA0001511411700000091
根据公式(10)求出具有最大互相关函数输出的前10个频率值作为音高候选,然后按照下面公式(11)选择具有最大谐波加权能量和的频率作为最显著估计音高。
Figure BDA0001511411700000092
其中α=0.84,φk为音高fk的显著函数值,X(hfk)为fk的第h次谐波幅度。
某演奏A3(220Hz)音符的音频信号一维傅里叶变换谱如图2所示,该音频的伪双谱如图3所示。图3为二维灰度图,部分二维谱峰值的颜色较浅这是由于高频谐波幅值较小导致,但不影响谱峰检测。同时演奏A3(220Hz)与E4(329Hz)的音频信号的一维傅里叶变换谱如图4所示,该音频信号的伪双谱如图4所示。图4中箭头所指为A3音符的三次谐波分量和E4音符的二次谐波分量,二者重叠,在一维傅里叶变换谱中无法将二者分离开,但在图5所示的伪双谱中可以将二者区分开,其中矩形框内的谱峰属于A3音符的二维模板,椭圆框内的谱峰属于E4音符的二维模板,而菱形框内的谱峰同时属于二者。图5中部分谱峰颜色较浅也是由于高频谐波分量幅度较低导致,但不影响谱峰检测。图6为某复调音乐的各音高真实值,图7为该段复调音乐的各音高估计值,在音高估计领域,估计值与真实值相差半个半音范围的都认为正确。由图可见本实施例提出的方法能准确的提取出复调音乐中的音高。
实施例2:
本实施例对伪双谱作出进一步说明,并对使用其作二维谱变换进行介绍。为了能够准确分离具有相同谐波频率成分的信号,本实施例构建一个全新的二维谱变换,以下称其为“伪双谱”。并定义了伪双谱的正逆变换,及其性质。该伪双谱适合多个具有谐波结构的信号分离问题。
设输入信号为x(t),则其伪双谱定义为:
Figure BDA0001511411700000101
其中X(f1)和X(f2)为x(t)的一维傅里叶变换,(·)*代表共轭转置运算。t和τ分别为时间域信号x(t)和x(τ)的自变量。
通过公式(1)定义的伪双谱,可将一维时间域信号x(t)映射到二维频率域,f1和f2为二维频率域中的自变量。
该伪双谱具有如下性质:
(1)共轭对称性
Figure BDA0001511411700000102
(2)时移特性
Figure BDA0001511411700000103
(3)频移特性
Figure BDA0001511411700000104
(4)边缘积分特性
Figure BDA0001511411700000111
Figure BDA0001511411700000112
Figure BDA0001511411700000113
其中X(f1),X(f2)是信号x(t)的一维傅里叶变换,(·)*代表共轭运算。由公式(6)可得:
Figure BDA0001511411700000114
由公式(8)可见,对伪双谱做一维积分,然后除以常数x*(0)可以得到任意频率处的一维傅里叶变换谱,对于给定实信号x(t),也可将公式(8)简化为下面公式(9),而不影响各个频率成分间的相对幅度关系。
Figure BDA0001511411700000115
(5)时域卷积特性
假设
Figure BDA0001511411700000116
其中
Figure BDA0001511411700000117
代表卷积运算,则y(t),x(t)和h(t)的伪双谱Py(f1, f2),Px(f1,f2)和Ph(f1,f2)具有如下关系:
Figure BDA0001511411700000118
其中
Figure BDA0001511411700000119
代表哈达玛乘积。
(6)信号伪双谱域能量
Figure BDA00015114117000001110
伪双谱逆变换:
给定伪双谱Px(f1,f2)可通过如下两个公式任何其一得时间域信号x(t)
Figure BDA0001511411700000121
Figure BDA0001511411700000122
给定x(t)时,上面公式(12)和(13)中的x*(0)是常数,可看做比例因子,不影响信号的时域结构,当信号x(t)为实信号时,可以省略。
具有H个谐波分量的谐波信号可表示为:
Figure BDA0001511411700000123
其中al为第l次谐波幅度,f0为基频,则根据公式(1)可得z(t)的伪双谱为
Figure BDA0001511411700000124
其中δ(·)为狄拉克函数,l和m为谐波次数,al和am分别为第l次和第m次谐波幅度。由此可见,对于具有H个谐波分量的谐波信号,伪双谱变换生成H×H的二维模式。二维模式匹配,即谐波信号基频的确定,可通过如下公式实现:
Figure BDA0001511411700000125
M个谐波信号的混合信号可表示为:
Figure BDA0001511411700000126
其中Hm和f0,m分别为第m个谐波信号的谐波数和基频,
Figure BDA0001511411700000131
为第m个谐波信号的第lm次谐波幅度。对于公式(17)所表示的混合信号的伪双谱为:
Figure BDA0001511411700000132
其中
Figure BDA0001511411700000133
为第m个谐波信号的伪双谱,
Figure BDA0001511411700000134
为zm(t)和zn(t)的交叉项,且
Figure BDA0001511411700000135
其中(m,n)∈{1,2,...M},且m≠n。
对于具有M个谐波信号的混合信号进行模式匹配时,只需按照公式(16)所述的方法匹配M次即可。
在一个实施例中,假设x(t)具有4个谐波分量,即
Figure BDA0001511411700000136
则通过本发明提出的伪双谱该信号可在二维频率平面上形成如图8所示的典型二维伪双谱模式。在极端情况下,当谐波信号仅有一个频率成分,则伪双谱域中仍可将该信号映射为二维平面上的一个点,而通过双谱变换却无法将该单谱信号映射到双谱平面上。
以演奏A3音符(基频为220Hz)的音频信号为例,给出该信号的伪双谱轮廓图,如图9所示,由图可见,对于具有谐波结构的实际信号可得到与图8所示相同的典型二维模式。在图9中低频信号附近有较小的峰扩散轮廓,随着频率的增大在二维谱峰附近出现了相对幅度较大的幅度轮廓,这是由傅里叶变换所固有的频谱泄露导致,但不影响二维谱峰模式匹配。
图10为含有A3(220Hz)和D4(293.7Hz)的音频信号的伪双谱,A3的四次谐波分量与D4的三次谐波分量映射到相同的频率处,故采用一维傅里叶变换无法将这两个成分分离,而采用本发明提出的伪双谱可以将二者分离并且互不影响,如图10椭圆内的轮廓图可示。这些二维频率平面上的谱峰分别对应到两个音符的二维模式中,使两个音符能完全分离且互不影响。
在该实施例中,本发明提出的伪双谱按照如下流程实施:
步骤1:根据公式(1)对输入信号作伪双谱;
步骤2:根据公式(16)表达的伪双谱二维模式对信号进行二维模式匹配。
步骤3:根据模式匹配结果输出信号基频。
步骤4:根据公式(8)得到各次谐波对应的幅度。
步骤5:融合各次谐波的幅度与频率信息得到准确的谐波信号。
以上所述,仅为本发明创造较佳的具体实施方式,但本发明创造的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明创造披露的技术范围内,根据本发明创造的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明创造的保护范围之内。

Claims (1)

1.一种复调音乐多音高估计方法,其特征在于:包括如下步骤:
步骤1:对输入的音乐音频进行分帧;
步骤2:求每帧信号的伪双谱;
步骤3:根据公式(10),按照二维模板匹配互相关函数值从大到小排列,取出前10个频率作为候选音高;
步骤4:根据公式(11)计算各候选音高的加权谐波能量和,并选择具有最大加权谐波能量和的候选音高作为本次迭代输出音高,并保存音高值和相应的加权谐波能量;
步骤5:移除最显著音高的二维谐波成分;
步骤6:重复步骤3-5,直至本次输出音高的加权谐波能量和比前一音高的加权能量小20dB,输出所有迭代过程中估计的音高;
其具体方法如下:
设x(t)为复调音乐信号,则该信号的伪双谱定义为:
Figure FDA0003269131990000011
其中X(f1)和X(f2)为x(t)的一维傅里叶变换,(·)*代表共轭运算;f1和f2为二维频率域中的自变量,t和τ分别为时间域信号x(t)和x(τ)的自变量;
具有H个谐波分量的音符可表示为:
Figure FDA0003269131990000012
其中al为第l次谐波幅度,f0为基频,则根据公式(1)可得z(t)的伪双谱为
Figure FDA0003269131990000021
其中δ(·)为狄拉克函数,l和m为谐波次数,al和am分别为第l次和第m次谐波幅度;对于具有H个谐波分量的谐波信号,伪双谱变换生成H×H的二维模式;音符音高的确定(即二维模式匹配),可通过如下公式实现:
Figure FDA0003269131990000022
假设复调音乐由M个音符的混合信号组成,即可表示为:
Figure FDA0003269131990000023
其中Hm和f0,m分别为第m个音符的谐波数和音高,
Figure FDA0003269131990000024
为第m个音符的第lm次谐波幅度;对于公式(5)所表示的混合信号的伪双谱为:
Figure FDA0003269131990000025
其中
Figure FDA0003269131990000026
为第m个音符的伪双谱,
Figure FDA0003269131990000027
为zm(t)和zn(t)的交叉项,且
Figure FDA0003269131990000028
其中(m,n)∈{1,2,...M},且m≠n;
假设Px为输入复调音乐伪双谱的离散化矩阵;每八度有Noct个对数分布离散频点,考虑每个音符的前Hr个谐波成分;令Q=(qi,j)是一个维度为Rq×Rq的稀疏矩阵,其中
Figure FDA0003269131990000029
其中
Figure FDA00032691319900000210
是向正无穷方向取整;当且仅当基频频点索引平移i和j个索引值后都对应谐波分量时,qi,j=1;按照下式计算二维模板与伪双谱的匹配互相关函数:
Figure FDA0003269131990000031
由于公式(1)满足共轭对称性,即
Figure FDA0003269131990000034
故公式(8)的互相关函数最大值对应的频率一定落在二维频率平面的第一象限对角线上,公式(8)可重新简化为:
Figure FDA0003269131990000032
根据公式(10)求出具有最大互相关函数输出的前10个频率值作为音高候选,然后按照下面公式(11)选择具有最大谐波加权能量和的频率作为最显著估计音高;
Figure FDA0003269131990000033
其中α=0.84,φk为音高fk的显著函数值,|X(hfk)|为fk的第h次谐波幅度。
CN201711358050.7A 2017-05-02 2017-05-02 一种复调音乐多音高估计方法 Expired - Fee Related CN107945809B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711358050.7A CN107945809B (zh) 2017-05-02 2017-05-02 一种复调音乐多音高估计方法

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201711358050.7A CN107945809B (zh) 2017-05-02 2017-05-02 一种复调音乐多音高估计方法
CN201710301314.9A CN107103908B (zh) 2017-05-02 2017-05-02 复调音乐多音高估计方法及伪双谱在多音高估计中的应用

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
CN201710301314.9A Division CN107103908B (zh) 2017-05-02 2017-05-02 复调音乐多音高估计方法及伪双谱在多音高估计中的应用

Publications (2)

Publication Number Publication Date
CN107945809A CN107945809A (zh) 2018-04-20
CN107945809B true CN107945809B (zh) 2021-11-09

Family

ID=59656644

Family Applications (2)

Application Number Title Priority Date Filing Date
CN201710301314.9A Expired - Fee Related CN107103908B (zh) 2017-05-02 2017-05-02 复调音乐多音高估计方法及伪双谱在多音高估计中的应用
CN201711358050.7A Expired - Fee Related CN107945809B (zh) 2017-05-02 2017-05-02 一种复调音乐多音高估计方法

Family Applications Before (1)

Application Number Title Priority Date Filing Date
CN201710301314.9A Expired - Fee Related CN107103908B (zh) 2017-05-02 2017-05-02 复调音乐多音高估计方法及伪双谱在多音高估计中的应用

Country Status (1)

Country Link
CN (2) CN107103908B (zh)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3483880A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Temporal noise shaping
EP3483882A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Controlling bandwidth in encoders and/or decoders
WO2019091576A1 (en) 2017-11-10 2019-05-16 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoders, audio decoders, methods and computer programs adapting an encoding and decoding of least significant bits
WO2019091573A1 (en) 2017-11-10 2019-05-16 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for encoding and decoding an audio signal using downsampling or interpolation of scale parameters
EP3483886A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Selecting pitch lag
EP3483879A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Analysis/synthesis windowing function for modulated lapped transformation
EP3483884A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Signal filtering
EP3483883A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio coding and decoding with selective postfiltering
EP3483878A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio decoder supporting a set of different loss concealment tools
CN109346109B (zh) * 2018-12-05 2020-02-07 百度在线网络技术(北京)有限公司 基频提取方法和装置
CN109920446B (zh) * 2019-03-12 2021-03-26 腾讯音乐娱乐科技(深圳)有限公司 一种音频数据处理方法、装置及计算机存储介质
CN111223491B (zh) * 2020-01-22 2022-11-15 深圳市倍轻松科技股份有限公司 一种提取音乐信号主旋律的方法、装置及终端设备
CN113658612B (zh) * 2021-08-25 2024-02-09 桂林智神信息技术股份有限公司 一种基于音频识别被弹奏琴键的方法及系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102354500A (zh) * 2011-08-03 2012-02-15 华南理工大学 一种基于谐波控制的虚拟低音增强处理方法
CN104200818A (zh) * 2014-08-06 2014-12-10 重庆邮电大学 一种音高检测方法
CN105023573A (zh) * 2011-04-01 2015-11-04 索尼电脑娱乐公司 使用听觉注意力线索的语音音节/元音/音素边界检测
US9396740B1 (en) * 2014-09-30 2016-07-19 Knuedge Incorporated Systems and methods for estimating pitch in audio signals based on symmetry characteristics independent of harmonic amplitudes
CN105957538A (zh) * 2016-05-09 2016-09-21 大连民族大学 基于显著性的复调音乐主旋律提取方法
CN106157973A (zh) * 2016-07-22 2016-11-23 南京理工大学 音乐检测与识别方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20120109763A (ko) * 2011-03-28 2012-10-09 후퍼소프트 주식회사 신경망 컴퓨팅을 이용한 다중 음원의 음악정보 분석 장치 및 방법
US9548067B2 (en) * 2014-09-30 2017-01-17 Knuedge Incorporated Estimating pitch using symmetry characteristics

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105023573A (zh) * 2011-04-01 2015-11-04 索尼电脑娱乐公司 使用听觉注意力线索的语音音节/元音/音素边界检测
CN102354500A (zh) * 2011-08-03 2012-02-15 华南理工大学 一种基于谐波控制的虚拟低音增强处理方法
CN104200818A (zh) * 2014-08-06 2014-12-10 重庆邮电大学 一种音高检测方法
US9396740B1 (en) * 2014-09-30 2016-07-19 Knuedge Incorporated Systems and methods for estimating pitch in audio signals based on symmetry characteristics independent of harmonic amplitudes
CN105957538A (zh) * 2016-05-09 2016-09-21 大连民族大学 基于显著性的复调音乐主旋律提取方法
CN106157973A (zh) * 2016-07-22 2016-11-23 南京理工大学 音乐检测与识别方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
EXPECTATION-MAXIMIZATION ALGORITHM FOR MULTI-PITCH ESTIMATION;Roland BADEAU etc;《IEEE International Conference on Acoustics》;20090419;第3073-3076页 *
Main melody extraction from polyphonic music based on modified;Weiwei Zhang etc;《Applied Acoustics》;20160521;第70-78页 *
复调音乐主旋律提取方法综述;张维维 等;《电子学报》;20170430;第45卷(第4期);第1000-1011页 *

Also Published As

Publication number Publication date
CN107945809A (zh) 2018-04-20
CN107103908A (zh) 2017-08-29
CN107103908B (zh) 2019-12-24

Similar Documents

Publication Publication Date Title
CN107945809B (zh) 一种复调音乐多音高估计方法
CN105353408B (zh) 一种基于匹配追踪的Wigner高阶谱地震信号谱分解方法
CN109214469B (zh) 一种基于非负张量分解的多源信号分离方法
CN102799892B (zh) 一种mfcc水下目标特征提取和识别方法
Fuentes et al. Probabilistic model for main melody extraction using constant-Q transform
JP2009210888A (ja) 音信号の分離方法
Liu et al. Successive multivariate variational mode decomposition based on instantaneous linear mixing model
Van Balen et al. Corpus Analysis Tools for Computational Hook Discovery.
CN105044769B (zh) 提高地震信号的分辨率的方法
Ikhsan et al. Automatic musical genre classification of audio using Hidden Markov Model
Elowsson et al. Modeling the perception of tempo
Brillinger Some river wavelets
Adalbjörnsson et al. Estimating multiple pitches using block sparsity
CN102930865A (zh) 一种波形音乐粗情感软切割分类方法
Ashino et al. Blind source separation of spatio-temporal mixed signals using time-frequency analysis
Bammer et al. Invariance and stability of Gabor scattering for music signals
Solomon et al. Signal denoising using Ramanujan periodic transform
Sinith et al. Real-time swara recognition system in Indian Music using TMS320C6713
CN107122332B (zh) 一维信号二维谱变换方法、伪双谱及其应用
Volchkov et al. Presentation and Analysis of Continuous Signals in the Space of Complex Exponential Models
O'Leary et al. Polynomial approximation: An alternative to windowing in Fourier analysis
Foo et al. Application of fast filter bank for transcription of polyphonic signals
Velleman ROBUST NONLINEAR DATA SMOOTHERS: THEORY, DEFINITIONS, AND APPLICATIONS.
Azamian et al. An Adaptive Sparse Algorithm for Synthesizing Note Specific Atoms by Spectrum Analysis, Applied to Music Signal Separation.
Li et al. Knowledge based fundamental and harmonic frequency detection in polyphonic music analysis

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20211109

CF01 Termination of patent right due to non-payment of annual fee