CN107945809B - 一种复调音乐多音高估计方法 - Google Patents
一种复调音乐多音高估计方法 Download PDFInfo
- Publication number
- CN107945809B CN107945809B CN201711358050.7A CN201711358050A CN107945809B CN 107945809 B CN107945809 B CN 107945809B CN 201711358050 A CN201711358050 A CN 201711358050A CN 107945809 B CN107945809 B CN 107945809B
- Authority
- CN
- China
- Prior art keywords
- harmonic
- pitch
- pseudo
- bispectrum
- dimensional
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims abstract description 21
- 239000011295 pitch Substances 0.000 claims abstract description 70
- 238000005314 correlation function Methods 0.000 claims abstract description 12
- 238000012804 iterative process Methods 0.000 claims abstract description 3
- 230000009466 transformation Effects 0.000 claims description 11
- 239000011159 matrix material Substances 0.000 claims description 6
- NAWXUBYGYWOOIX-SFHVURJKSA-N (2s)-2-[[4-[2-(2,4-diaminoquinazolin-6-yl)ethyl]benzoyl]amino]-4-methylidenepentanedioic acid Chemical compound C1=CC2=NC(N)=NC(N)=C2C=C1CCC1=CC=C(C(=O)N[C@@H](CC(=C)C(O)=O)C(O)=O)C=C1 NAWXUBYGYWOOIX-SFHVURJKSA-N 0.000 claims description 3
- 238000009432 framing Methods 0.000 claims description 3
- 239000000203 mixture Substances 0.000 claims description 2
- 238000004364 calculation method Methods 0.000 abstract description 2
- 230000000694 effects Effects 0.000 abstract description 2
- 238000001228 spectrum Methods 0.000 description 16
- 230000003595 spectral effect Effects 0.000 description 14
- 230000005236 sound signal Effects 0.000 description 11
- 238000010586 diagram Methods 0.000 description 7
- 238000004458 analytical method Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 238000000354 decomposition reaction Methods 0.000 description 1
- 229910003460 diamond Inorganic materials 0.000 description 1
- 239000010432 diamond Substances 0.000 description 1
- 238000009792 diffusion process Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 238000013179 statistical model Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/002—Dynamic bit allocation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/69—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for evaluating synthetic or decoded voice signals
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Signal Processing (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Complex Calculations (AREA)
- Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
- Other Investigation Or Analysis Of Materials By Electrical Means (AREA)
- Stereophonic System (AREA)
Abstract
本分案申请涉及一种复调音乐多音高估计方法,属于数字语音信号处理领域,用于解决复调音乐的多个音高估计问题,技术要点是:步骤3:按照二维模板匹配互相关函数值从大到小排列,取出前10个频率作为候选音高;步骤4:计算各候选音高的加权谐波能量和,并选择具有最大加权谐波能量和的候选音高作为该次迭代输出音高,并保存音高值和相应的加权谐波能量;步骤5:移除该最显著音高的二维谐波成分;步骤6:重复步骤3‑5,直至本次输出音高的加权谐波能量和比前一音高的加权能量小20dB,输出所有迭代过程中估计的音高,效果是:在具有较少谐波成分的情况下也能正常工作,可区分具有重叠谐波频率成分的音符,该方法具有较小的运算量,易于实现,且可用于除复调音乐以外的谐波信号的基频提取。
Description
本申请为申请号2017103013149、申请日2017-05-02、发明名称“复调音乐多音高估计方法及伪双谱在多音高估计中的应用”的分案申请。
技术领域
本发明属于数字语音信号处理领域,涉及一种音乐信号处理方法。
背景技术
以算法原理为依据,复调音乐多音高估计方法可分为基于特征,基于统计模型和基于谱分解的方法,其中大部分方法都基于一维傅里叶变换谱。当不同音符具有相同的谐波频率成分时,一维傅里叶变换谱无法将这些重叠的谐波频率成分分离。和声是音乐的基本要素之一,从而在音乐信号中具有重叠谐波频率分量的情况普遍存在,因此准确分离具有重叠谐波频率的音符具有重要意义。
最近,Argenti等人提出基于双谱的多音高估计方法,该方法将输入一维时间域信号映射到二维双谱域,在二维双谱平面上,谐波信号形成一个典型的二维双谱模板,可独立分离具有相同谐波频率成分的两音符而互不影响。然而,信号的双谱幅度是一维傅里叶变换谱三个频率分量幅度的乘积,故其中任一分量为0都会导致双谱幅度为0,进而使二维模板匹配失败。另外,由于频谱泄露也会导致基于双谱的多音高估计方法产生较多的低八度误差。
发明内容
为了解决复调音乐多音高估计问题,准确分离具有相同谐波频率成分的音符,本发明构建一个全新的二维谱变换,以下称其为“伪双谱”,并将其应用于复调音乐多音高估计。
本发明提出如下技术方案:一种复调音乐多音高估计方法,对输入的音乐音频分帧;求每帧信号的伪双谱,根据二维模板与伪双谱的匹配互相关函数值从大到小排列,取出前若干个频率作为候选音高;计算各候选音高的加权谐波能量和,并选择具有最大加权谐波能量和的候选音高作为该次迭代输出的最显著估计音高。
进一步的,移除所述最显著估计音高的二维谐波成分,迭代上述过程,直至本次输出最显著估计音高的加权谐波能量和比前一音高的加权谐波能量和小于设定值。
进一步的,所述伪双谱由下式表示:
其中X(f1)和X(f2)为x(t)的一维傅里叶变换,(·)*代表共轭转置运算,f1和f2为二维频率域中的自变量,t和τ分别为时间域信号x(t)和x(τ)的自变量。
进一步的,Px为输入复调音乐伪双谱的离散化矩阵,每八度有Noct个对数分布离散频点,使用每个音符的前Hr个谐波成分,令Q=(qi,j)是一个维度为Rq×Rq的稀疏矩阵,其中,是向正无穷方向取整,当且仅当基频频点索引平移i和j个索引值后都对应谐波分量时,qi,j=1,由下式计算二维模板与伪双谱的匹配互相关函数值:
进一步的,选择具有最大谐波加权能量和的频率作为最显著估计音高,由下式求得:
其中α为常数,φk为音高fk的显著函数值,X(hfk)为fk的第h次谐波幅度。
进一步的,输入信号为具有H个谐波分量的音符,表示为:
其中al为第l次谐波幅度,f0为基频;
z(t)的伪双谱为:
其中δ(·)为狄拉克函数,l和m为谐波次数,al和am分别为第l次和第m次谐波幅度;
由上述,对于具有H个谐波分量的音符作伪双谱变换生成H×H的二维模式,由下式作二维模式匹配:
进一步的,输入信号为M个音符的混合信号,表示为:
由上述,z(t)的伪双谱为:
其中(m,n)∈{1,,2,...,M},且m≠n;Hm和f0,m分别为第m个音符的谐波数和基频,为第m个音符的第lm次谐波幅度;Hn和f0,n分别为第n个音符的谐波数和基频,为第n个音符的第kn次谐波幅度;
对于具有M个音符的混合信号,由下式作二维模式匹配,匹配次数为M:
一种伪双谱在多音高估计中的应用,所述伪双谱,由下式表示:
其中X(f1)和X(f2)为x(t)的一维傅里叶变换,(·)*代表共轭转置运算,f1和f2为二维频率域中的自变量,t和τ分别为时间域信号x(t)和x(τ)的自变量。
有益效果:多音高估计是音乐信号处理领域中一项重要且基础的研究课题,在自动音频检索、音乐标记、音乐学分析、听觉场景分析等领域中具有广泛应用。本发明提出一种新的二维谱──伪双谱,并将其应用于多音高估计。伪双谱非常适合处理谐波信号,所提出的多音高估计方法不需先验知识,在具有较少谐波成分的情况下也能正常工作,可区分具有重叠谐波频率成分的音符,该方法具有较小的运算量,易于实现,且可用于除复调音乐以外的谐波信号的基频提取。
附图说明
图1复调音乐多音高估计流程图;
图2演奏A3音符的音频信号一维傅里叶变换谱示意图;
图3演奏A3音符的音频信号伪双谱示意图;
图4同时演奏A3与E4两个音符的音频信号的一维傅里叶变换谱示意图;
图5同时演奏A3与E4两个音符的音频信号的伪双谱示意图;
图6某复调音乐的各音高真实值示意图;
图7该段复调音乐的各音高估计值示意图;
图8谐波信号的典型伪双谱模式(以具有4次谐波频率成分为例);
图9演奏A3音符的音频信号伪双谱;
图10演奏A3和D4音符的音频信号伪双谱。
具体实施方式
实施例1:
本实施例定义了伪双谱,并将其应用于复调音乐多音高估计。该伪双谱适合各种一维具有谐波结构的信号基频估计问题而不局限于复调音乐的多音高估计。
首先对输入的音乐音频进行分帧;然后求每帧信号的伪双谱;根据本实施例的公式(10),按照二维模板匹配互相关函数值从大到小排列,取出前10个频率作为候选音高;再根据本实施例的公式(11)计算各候选音高的加权谐波能量和,并选择具有最大加权谐波能量和的候选音高作为该次迭代输出音高,并保存音高值和相应的加权谐波能量和;最后,移除该最显著音高的二维谐波成分,迭代上述过程直至本次输出音高的加权谐波能量比前一音高的加权能量小20dB。
为了方便叙述,用如下形式表示:
步骤1:对输入的音乐音频进行分帧;
步骤2:求每帧信号的伪双谱;
步骤3:根据公式(10),按照二维模板匹配互相关函数值从大到小排列,取出前10个频率作为候选音高;
步骤4:根据公式(11)计算各候选音高的加权谐波能量和,并选择具有最大加权谐波能量和的候选音高作为该次迭代输出音高,并保存音高值和相应的加权谐波能量;
步骤5:移除该最显著音高的二维谐波成分;
步骤6:重复步骤3-5,直至本次输出音高的加权谐波能量和比前一音高的加权能量小20dB,输出所有迭代过程中估计的音高。
在一种实施例中,其具体方法如下:
设x(t)为复调音乐信号,则该信号的伪双谱定义为:
其中X(f1)和X(f2)为x(t)的一维傅里叶变换,(·)*代表共轭运算。f1和f2为二维频率域中的自变量,t和τ分别为时间域信号x(t)和x(τ)的自变量。
具有H个谐波分量的音符可表示为:
其中al为第l次谐波幅度,f0为基频,则根据公式(1)可得z(t)的伪双谱为
其中δ(·)为狄拉克函数,l和m为谐波次数,al和am分别为第l次和第m次谐波幅度;由此可见,对于具有H个谐波分量的谐波信号,伪双谱变换生成H×H的二维模式。音符音高的确定(即二维模式匹配),可通过如下公式实现:
假设复调音乐由M个音符的混合信号组成,即可表示为:
其中(m,n)∈{1,2,...M},且m≠n。
和声是音乐的基本要素之一,故具有重叠谐波频率成分的音符同时发声的情况广泛存在。公式(7)所示的交叉项要么位于公式(3)所示的二维模板之外,要么与和弦中其他音符的二维模板重合,故对多音高估计的影响很小。
假设Px为输入复调音乐伪双谱的离散化矩阵。每八度有Noct个对数分布离散频点,考虑每个音符的前Hr个谐波成分。令Q=(qi,j)是一个维度为Rq×Rq的稀疏矩阵,其中其中是向正无穷方向取整。当且仅当基频频点索引平移i和j个索引值后都对应谐波分量时,qi,j=1。按照下式计算二维模板与伪双谱的匹配互相关函数:
由于公式(1)满足共轭对称性,即
故公式(8)的互相关函数最大值对应的频率一定落在二维频率平面的第一象限对角线上,公式(8)可重新简化为:
根据公式(10)求出具有最大互相关函数输出的前10个频率值作为音高候选,然后按照下面公式(11)选择具有最大谐波加权能量和的频率作为最显著估计音高。
其中α=0.84,φk为音高fk的显著函数值,X(hfk)为fk的第h次谐波幅度。
某演奏A3(220Hz)音符的音频信号一维傅里叶变换谱如图2所示,该音频的伪双谱如图3所示。图3为二维灰度图,部分二维谱峰值的颜色较浅这是由于高频谐波幅值较小导致,但不影响谱峰检测。同时演奏A3(220Hz)与E4(329Hz)的音频信号的一维傅里叶变换谱如图4所示,该音频信号的伪双谱如图4所示。图4中箭头所指为A3音符的三次谐波分量和E4音符的二次谐波分量,二者重叠,在一维傅里叶变换谱中无法将二者分离开,但在图5所示的伪双谱中可以将二者区分开,其中矩形框内的谱峰属于A3音符的二维模板,椭圆框内的谱峰属于E4音符的二维模板,而菱形框内的谱峰同时属于二者。图5中部分谱峰颜色较浅也是由于高频谐波分量幅度较低导致,但不影响谱峰检测。图6为某复调音乐的各音高真实值,图7为该段复调音乐的各音高估计值,在音高估计领域,估计值与真实值相差半个半音范围的都认为正确。由图可见本实施例提出的方法能准确的提取出复调音乐中的音高。
实施例2:
本实施例对伪双谱作出进一步说明,并对使用其作二维谱变换进行介绍。为了能够准确分离具有相同谐波频率成分的信号,本实施例构建一个全新的二维谱变换,以下称其为“伪双谱”。并定义了伪双谱的正逆变换,及其性质。该伪双谱适合多个具有谐波结构的信号分离问题。
设输入信号为x(t),则其伪双谱定义为:
其中X(f1)和X(f2)为x(t)的一维傅里叶变换,(·)*代表共轭转置运算。t和τ分别为时间域信号x(t)和x(τ)的自变量。
通过公式(1)定义的伪双谱,可将一维时间域信号x(t)映射到二维频率域,f1和f2为二维频率域中的自变量。
该伪双谱具有如下性质:
(1)共轭对称性
(2)时移特性
(3)频移特性
(4)边缘积分特性
其中X(f1),X(f2)是信号x(t)的一维傅里叶变换,(·)*代表共轭运算。由公式(6)可得:
由公式(8)可见,对伪双谱做一维积分,然后除以常数x*(0)可以得到任意频率处的一维傅里叶变换谱,对于给定实信号x(t),也可将公式(8)简化为下面公式(9),而不影响各个频率成分间的相对幅度关系。
(5)时域卷积特性
(6)信号伪双谱域能量
伪双谱逆变换:
给定伪双谱Px(f1,f2)可通过如下两个公式任何其一得时间域信号x(t)
给定x(t)时,上面公式(12)和(13)中的x*(0)是常数,可看做比例因子,不影响信号的时域结构,当信号x(t)为实信号时,可以省略。
具有H个谐波分量的谐波信号可表示为:
其中al为第l次谐波幅度,f0为基频,则根据公式(1)可得z(t)的伪双谱为
其中δ(·)为狄拉克函数,l和m为谐波次数,al和am分别为第l次和第m次谐波幅度。由此可见,对于具有H个谐波分量的谐波信号,伪双谱变换生成H×H的二维模式。二维模式匹配,即谐波信号基频的确定,可通过如下公式实现:
M个谐波信号的混合信号可表示为:
其中(m,n)∈{1,2,...M},且m≠n。
对于具有M个谐波信号的混合信号进行模式匹配时,只需按照公式(16)所述的方法匹配M次即可。
在一个实施例中,假设x(t)具有4个谐波分量,即则通过本发明提出的伪双谱该信号可在二维频率平面上形成如图8所示的典型二维伪双谱模式。在极端情况下,当谐波信号仅有一个频率成分,则伪双谱域中仍可将该信号映射为二维平面上的一个点,而通过双谱变换却无法将该单谱信号映射到双谱平面上。
以演奏A3音符(基频为220Hz)的音频信号为例,给出该信号的伪双谱轮廓图,如图9所示,由图可见,对于具有谐波结构的实际信号可得到与图8所示相同的典型二维模式。在图9中低频信号附近有较小的峰扩散轮廓,随着频率的增大在二维谱峰附近出现了相对幅度较大的幅度轮廓,这是由傅里叶变换所固有的频谱泄露导致,但不影响二维谱峰模式匹配。
图10为含有A3(220Hz)和D4(293.7Hz)的音频信号的伪双谱,A3的四次谐波分量与D4的三次谐波分量映射到相同的频率处,故采用一维傅里叶变换无法将这两个成分分离,而采用本发明提出的伪双谱可以将二者分离并且互不影响,如图10椭圆内的轮廓图可示。这些二维频率平面上的谱峰分别对应到两个音符的二维模式中,使两个音符能完全分离且互不影响。
在该实施例中,本发明提出的伪双谱按照如下流程实施:
步骤1:根据公式(1)对输入信号作伪双谱;
步骤2:根据公式(16)表达的伪双谱二维模式对信号进行二维模式匹配。
步骤3:根据模式匹配结果输出信号基频。
步骤4:根据公式(8)得到各次谐波对应的幅度。
步骤5:融合各次谐波的幅度与频率信息得到准确的谐波信号。
以上所述,仅为本发明创造较佳的具体实施方式,但本发明创造的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明创造披露的技术范围内,根据本发明创造的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明创造的保护范围之内。
Claims (1)
1.一种复调音乐多音高估计方法,其特征在于:包括如下步骤:
步骤1:对输入的音乐音频进行分帧;
步骤2:求每帧信号的伪双谱;
步骤3:根据公式(10),按照二维模板匹配互相关函数值从大到小排列,取出前10个频率作为候选音高;
步骤4:根据公式(11)计算各候选音高的加权谐波能量和,并选择具有最大加权谐波能量和的候选音高作为本次迭代输出音高,并保存音高值和相应的加权谐波能量;
步骤5:移除最显著音高的二维谐波成分;
步骤6:重复步骤3-5,直至本次输出音高的加权谐波能量和比前一音高的加权能量小20dB,输出所有迭代过程中估计的音高;
其具体方法如下:
设x(t)为复调音乐信号,则该信号的伪双谱定义为:
其中X(f1)和X(f2)为x(t)的一维傅里叶变换,(·)*代表共轭运算;f1和f2为二维频率域中的自变量,t和τ分别为时间域信号x(t)和x(τ)的自变量;
具有H个谐波分量的音符可表示为:
其中al为第l次谐波幅度,f0为基频,则根据公式(1)可得z(t)的伪双谱为
其中δ(·)为狄拉克函数,l和m为谐波次数,al和am分别为第l次和第m次谐波幅度;对于具有H个谐波分量的谐波信号,伪双谱变换生成H×H的二维模式;音符音高的确定(即二维模式匹配),可通过如下公式实现:
假设复调音乐由M个音符的混合信号组成,即可表示为:
其中(m,n)∈{1,2,...M},且m≠n;
假设Px为输入复调音乐伪双谱的离散化矩阵;每八度有Noct个对数分布离散频点,考虑每个音符的前Hr个谐波成分;令Q=(qi,j)是一个维度为Rq×Rq的稀疏矩阵,其中其中是向正无穷方向取整;当且仅当基频频点索引平移i和j个索引值后都对应谐波分量时,qi,j=1;按照下式计算二维模板与伪双谱的匹配互相关函数:
由于公式(1)满足共轭对称性,即
故公式(8)的互相关函数最大值对应的频率一定落在二维频率平面的第一象限对角线上,公式(8)可重新简化为:
根据公式(10)求出具有最大互相关函数输出的前10个频率值作为音高候选,然后按照下面公式(11)选择具有最大谐波加权能量和的频率作为最显著估计音高;
其中α=0.84,φk为音高fk的显著函数值,|X(hfk)|为fk的第h次谐波幅度。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711358050.7A CN107945809B (zh) | 2017-05-02 | 2017-05-02 | 一种复调音乐多音高估计方法 |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711358050.7A CN107945809B (zh) | 2017-05-02 | 2017-05-02 | 一种复调音乐多音高估计方法 |
CN201710301314.9A CN107103908B (zh) | 2017-05-02 | 2017-05-02 | 复调音乐多音高估计方法及伪双谱在多音高估计中的应用 |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710301314.9A Division CN107103908B (zh) | 2017-05-02 | 2017-05-02 | 复调音乐多音高估计方法及伪双谱在多音高估计中的应用 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107945809A CN107945809A (zh) | 2018-04-20 |
CN107945809B true CN107945809B (zh) | 2021-11-09 |
Family
ID=59656644
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710301314.9A Expired - Fee Related CN107103908B (zh) | 2017-05-02 | 2017-05-02 | 复调音乐多音高估计方法及伪双谱在多音高估计中的应用 |
CN201711358050.7A Expired - Fee Related CN107945809B (zh) | 2017-05-02 | 2017-05-02 | 一种复调音乐多音高估计方法 |
Family Applications Before (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710301314.9A Expired - Fee Related CN107103908B (zh) | 2017-05-02 | 2017-05-02 | 复调音乐多音高估计方法及伪双谱在多音高估计中的应用 |
Country Status (1)
Country | Link |
---|---|
CN (2) | CN107103908B (zh) |
Families Citing this family (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3483880A1 (en) | 2017-11-10 | 2019-05-15 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Temporal noise shaping |
EP3483882A1 (en) | 2017-11-10 | 2019-05-15 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Controlling bandwidth in encoders and/or decoders |
WO2019091576A1 (en) | 2017-11-10 | 2019-05-16 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio encoders, audio decoders, methods and computer programs adapting an encoding and decoding of least significant bits |
WO2019091573A1 (en) | 2017-11-10 | 2019-05-16 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for encoding and decoding an audio signal using downsampling or interpolation of scale parameters |
EP3483886A1 (en) | 2017-11-10 | 2019-05-15 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Selecting pitch lag |
EP3483879A1 (en) | 2017-11-10 | 2019-05-15 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Analysis/synthesis windowing function for modulated lapped transformation |
EP3483884A1 (en) | 2017-11-10 | 2019-05-15 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Signal filtering |
EP3483883A1 (en) | 2017-11-10 | 2019-05-15 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio coding and decoding with selective postfiltering |
EP3483878A1 (en) | 2017-11-10 | 2019-05-15 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio decoder supporting a set of different loss concealment tools |
CN109346109B (zh) * | 2018-12-05 | 2020-02-07 | 百度在线网络技术(北京)有限公司 | 基频提取方法和装置 |
CN109920446B (zh) * | 2019-03-12 | 2021-03-26 | 腾讯音乐娱乐科技(深圳)有限公司 | 一种音频数据处理方法、装置及计算机存储介质 |
CN111223491B (zh) * | 2020-01-22 | 2022-11-15 | 深圳市倍轻松科技股份有限公司 | 一种提取音乐信号主旋律的方法、装置及终端设备 |
CN113658612B (zh) * | 2021-08-25 | 2024-02-09 | 桂林智神信息技术股份有限公司 | 一种基于音频识别被弹奏琴键的方法及系统 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102354500A (zh) * | 2011-08-03 | 2012-02-15 | 华南理工大学 | 一种基于谐波控制的虚拟低音增强处理方法 |
CN104200818A (zh) * | 2014-08-06 | 2014-12-10 | 重庆邮电大学 | 一种音高检测方法 |
CN105023573A (zh) * | 2011-04-01 | 2015-11-04 | 索尼电脑娱乐公司 | 使用听觉注意力线索的语音音节/元音/音素边界检测 |
US9396740B1 (en) * | 2014-09-30 | 2016-07-19 | Knuedge Incorporated | Systems and methods for estimating pitch in audio signals based on symmetry characteristics independent of harmonic amplitudes |
CN105957538A (zh) * | 2016-05-09 | 2016-09-21 | 大连民族大学 | 基于显著性的复调音乐主旋律提取方法 |
CN106157973A (zh) * | 2016-07-22 | 2016-11-23 | 南京理工大学 | 音乐检测与识别方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20120109763A (ko) * | 2011-03-28 | 2012-10-09 | 후퍼소프트 주식회사 | 신경망 컴퓨팅을 이용한 다중 음원의 음악정보 분석 장치 및 방법 |
US9548067B2 (en) * | 2014-09-30 | 2017-01-17 | Knuedge Incorporated | Estimating pitch using symmetry characteristics |
-
2017
- 2017-05-02 CN CN201710301314.9A patent/CN107103908B/zh not_active Expired - Fee Related
- 2017-05-02 CN CN201711358050.7A patent/CN107945809B/zh not_active Expired - Fee Related
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105023573A (zh) * | 2011-04-01 | 2015-11-04 | 索尼电脑娱乐公司 | 使用听觉注意力线索的语音音节/元音/音素边界检测 |
CN102354500A (zh) * | 2011-08-03 | 2012-02-15 | 华南理工大学 | 一种基于谐波控制的虚拟低音增强处理方法 |
CN104200818A (zh) * | 2014-08-06 | 2014-12-10 | 重庆邮电大学 | 一种音高检测方法 |
US9396740B1 (en) * | 2014-09-30 | 2016-07-19 | Knuedge Incorporated | Systems and methods for estimating pitch in audio signals based on symmetry characteristics independent of harmonic amplitudes |
CN105957538A (zh) * | 2016-05-09 | 2016-09-21 | 大连民族大学 | 基于显著性的复调音乐主旋律提取方法 |
CN106157973A (zh) * | 2016-07-22 | 2016-11-23 | 南京理工大学 | 音乐检测与识别方法 |
Non-Patent Citations (3)
Title |
---|
EXPECTATION-MAXIMIZATION ALGORITHM FOR MULTI-PITCH ESTIMATION;Roland BADEAU etc;《IEEE International Conference on Acoustics》;20090419;第3073-3076页 * |
Main melody extraction from polyphonic music based on modified;Weiwei Zhang etc;《Applied Acoustics》;20160521;第70-78页 * |
复调音乐主旋律提取方法综述;张维维 等;《电子学报》;20170430;第45卷(第4期);第1000-1011页 * |
Also Published As
Publication number | Publication date |
---|---|
CN107945809A (zh) | 2018-04-20 |
CN107103908A (zh) | 2017-08-29 |
CN107103908B (zh) | 2019-12-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107945809B (zh) | 一种复调音乐多音高估计方法 | |
CN105353408B (zh) | 一种基于匹配追踪的Wigner高阶谱地震信号谱分解方法 | |
CN109214469B (zh) | 一种基于非负张量分解的多源信号分离方法 | |
CN102799892B (zh) | 一种mfcc水下目标特征提取和识别方法 | |
Fuentes et al. | Probabilistic model for main melody extraction using constant-Q transform | |
JP2009210888A (ja) | 音信号の分離方法 | |
Liu et al. | Successive multivariate variational mode decomposition based on instantaneous linear mixing model | |
Van Balen et al. | Corpus Analysis Tools for Computational Hook Discovery. | |
CN105044769B (zh) | 提高地震信号的分辨率的方法 | |
Ikhsan et al. | Automatic musical genre classification of audio using Hidden Markov Model | |
Elowsson et al. | Modeling the perception of tempo | |
Brillinger | Some river wavelets | |
Adalbjörnsson et al. | Estimating multiple pitches using block sparsity | |
CN102930865A (zh) | 一种波形音乐粗情感软切割分类方法 | |
Ashino et al. | Blind source separation of spatio-temporal mixed signals using time-frequency analysis | |
Bammer et al. | Invariance and stability of Gabor scattering for music signals | |
Solomon et al. | Signal denoising using Ramanujan periodic transform | |
Sinith et al. | Real-time swara recognition system in Indian Music using TMS320C6713 | |
CN107122332B (zh) | 一维信号二维谱变换方法、伪双谱及其应用 | |
Volchkov et al. | Presentation and Analysis of Continuous Signals in the Space of Complex Exponential Models | |
O'Leary et al. | Polynomial approximation: An alternative to windowing in Fourier analysis | |
Foo et al. | Application of fast filter bank for transcription of polyphonic signals | |
Velleman | ROBUST NONLINEAR DATA SMOOTHERS: THEORY, DEFINITIONS, AND APPLICATIONS. | |
Azamian et al. | An Adaptive Sparse Algorithm for Synthesizing Note Specific Atoms by Spectrum Analysis, Applied to Music Signal Separation. | |
Li et al. | Knowledge based fundamental and harmonic frequency detection in polyphonic music analysis |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20211109 |
|
CF01 | Termination of patent right due to non-payment of annual fee |