CN107945809A - 一种复调音乐多音高估计方法 - Google Patents

一种复调音乐多音高估计方法 Download PDF

Info

Publication number
CN107945809A
CN107945809A CN201711358050.7A CN201711358050A CN107945809A CN 107945809 A CN107945809 A CN 107945809A CN 201711358050 A CN201711358050 A CN 201711358050A CN 107945809 A CN107945809 A CN 107945809A
Authority
CN
China
Prior art keywords
pitch
harmonic
bispectrum
polyphony
signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201711358050.7A
Other languages
English (en)
Other versions
CN107945809B (zh
Inventor
张维维
陈喆
殷福亮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dalian Minzu University
Original Assignee
Dalian Nationalities University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dalian Nationalities University filed Critical Dalian Nationalities University
Priority to CN201711358050.7A priority Critical patent/CN107945809B/zh
Publication of CN107945809A publication Critical patent/CN107945809A/zh
Application granted granted Critical
Publication of CN107945809B publication Critical patent/CN107945809B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/002Dynamic bit allocation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/69Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for evaluating synthetic or decoded voice signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Signal Processing (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Complex Calculations (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
  • Other Investigation Or Analysis Of Materials By Electrical Means (AREA)
  • Stereophonic System (AREA)

Abstract

本分案申请涉及一种复调音乐多音高估计方法,属于数字语音信号处理领域,用于解决复调音乐的多个音高估计问题,技术要点是:步骤3:按照二维模板匹配互相关函数值从大到小排列,取出前10个频率作为候选音高;步骤4:计算各候选音高的加权谐波能量和,并选择具有最大加权谐波能量和的候选音高作为该次迭代输出音高,并保存音高值和相应的加权谐波能量;步骤5:移除该最显著音高的二维谐波成分;步骤6:重复步骤3‑5,直至本次输出音高的加权谐波能量和比前一音高的加权能量小20dB,输出所有迭代过程中估计的音高,效果是:在具有较少谐波成分的情况下也能正常工作,可区分具有重叠谐波频率成分的音符,该方法具有较小的运算量,易于实现,且可用于除复调音乐以外的谐波信号的基频提取。

Description

一种复调音乐多音高估计方法
本申请为申请号2017103013149、申请日2017-05-02、发明名称“复调音乐多音高估计方法及伪双谱在多音高估计中的应用”的分案申请。
技术领域
本发明属于数字语音信号处理领域,涉及一种音乐信号处理方法。
背景技术
以算法原理为依据,复调音乐多音高估计方法可分为基于特征,基于统计模型和基于谱分解的方法,其中大部分方法都基于一维傅里叶变换谱。当不同音符具有相同的谐波频率成分时,一维傅里叶变换谱无法将这些重叠的谐波频率成分分离。和声是音乐的基本要素之一,从而在音乐信号中具有重叠谐波频率分量的情况普遍存在,因此准确分离具有重叠谐波频率的音符具有重要意义。
最近,Argenti等人提出基于双谱的多音高估计方法,该方法将输入一维时间域信号映射到二维双谱域,在二维双谱平面上,谐波信号形成一个典型的二维双谱模板,可独立分离具有相同谐波频率成分的两音符而互不影响。然而,信号的双谱幅度是一维傅里叶变换谱三个频率分量幅度的乘积,故其中任一分量为0都会导致双谱幅度为0,进而使二维模板匹配失败。另外,由于频谱泄露也会导致基于双谱的多音高估计方法产生较多的低八度误差。
发明内容
为了解决复调音乐多音高估计问题,准确分离具有相同谐波频率成分的音符,本发明构建一个全新的二维谱变换,以下称其为“伪双谱”,并将其应用于复调音乐多音高估计。
本发明提出如下技术方案:一种复调音乐多音高估计方法,对输入的音乐音频分帧;求每帧信号的伪双谱,根据二维模板与伪双谱的匹配互相关函数值从大到小排列,取出前若干个频率作为候选音高;计算各候选音高的加权谐波能量和,并选择具有最大加权谐波能量和的候选音高作为该次迭代输出的最显著估计音高。
进一步的,移除所述最显著估计音高的二维谐波成分,迭代上述过程,直至本次输出最显著估计音高的加权谐波能量和比前一音高的加权谐波能量和小于设定值。
进一步的,所述伪双谱由下式表示:
其中X(f1)和X(f2)为x(t)的一维傅里叶变换,(·)*代表共轭转置运算,f1和f2为二维频率域中的自变量,t和τ分别为时间域信号x(t)和x(τ)的自变量。
进一步的,Px为输入复调音乐伪双谱的离散化矩阵,每八度有Noct个对数分布离散频点,使用每个音符的前Hr个谐波成分,令Q=(qi,j)是一个维度为Rq×Rq的稀疏矩阵,其中是向正无穷方向取整,当且仅当基频频点索引平移i和j个索引值后都对应谐波分量时,qi,j=1,由下式计算二维模板与伪双谱的匹配互相关函数值:
进一步的,选择具有最大谐波加权能量和的频率作为最显著估计音高,由下式求得:
其中α为常数,φk为音高fk的显著函数值,X(hfk)为fk的第h次谐波幅度。
进一步的,输入信号为具有H个谐波分量的音符,表示为:
其中al为第l次谐波幅度,f0为基频;
z(t)的伪双谱为:
其中δ(·)为狄拉克函数,l和m为谐波次数,al和am分别为第l次和第m次谐波幅度;
由上述,对于具有H个谐波分量的音符作伪双谱变换生成H×H的二维模式,由下式作二维模式匹配:
进一步的,输入信号为M个音符的混合信号,表示为:
其中Hm和f0,m分别为第m个音符的谐波数和基频,为第m个音符的第lm次谐波幅度;
由上述,z(t)的伪双谱为:
其中为第m个音符的伪双谱,为zm(t)和zn(t)的交叉项,且
其中(m,n)∈{1,,2,...,M},且m≠n;Hm和f0,m分别为第m个音符的谐波数和基频,为第m个音符的第lm次谐波幅度;Hn和f0,n分别为第n个音符的谐波数和基频,为第n个音符的第kn次谐波幅度;
对于具有M个音符的混合信号,由下式作二维模式匹配,匹配次数为M:
一种伪双谱在多音高估计中的应用,所述伪双谱,由下式表示:
其中X(f1)和X(f2)为x(t)的一维傅里叶变换,(·)*代表共轭转置运算,f1和f2为二维频率域中的自变量,t和τ分别为时间域信号x(t)和x(τ)的自变量。
有益效果:多音高估计是音乐信号处理领域中一项重要且基础的研究课题,在自动音频检索、音乐标记、音乐学分析、听觉场景分析等领域中具有广泛应用。本发明提出一种新的二维谱──伪双谱,并将其应用于多音高估计。伪双谱非常适合处理谐波信号,所提出的多音高估计方法不需先验知识,在具有较少谐波成分的情况下也能正常工作,可区分具有重叠谐波频率成分的音符,该方法具有较小的运算量,易于实现,且可用于除复调音乐以外的谐波信号的基频提取。
附图说明
图1复调音乐多音高估计流程图;
图2演奏A3音符的音频信号一维傅里叶变换谱示意图;
图3演奏A3音符的音频信号伪双谱示意图;
图4同时演奏A3与E4两个音符的音频信号的一维傅里叶变换谱示意图;
图5同时演奏A3与E4两个音符的音频信号的伪双谱示意图;
图6某复调音乐的各音高真实值示意图;
图7该段复调音乐的各音高估计值示意图;
图8谐波信号的典型伪双谱模式(以具有4次谐波频率成分为例);
图9演奏A3音符的音频信号伪双谱;
图10演奏A3和D4音符的音频信号伪双谱。
具体实施方式
实施例1:
本实施例定义了伪双谱,并将其应用于复调音乐多音高估计。该伪双谱适合各种一维具有谐波结构的信号基频估计问题而不局限于复调音乐的多音高估计。
首先对输入的音乐音频进行分帧;然后求每帧信号的伪双谱;根据本实施例的公式(10),按照二维模板匹配互相关函数值从大到小排列,取出前10个频率作为候选音高;再根据本实施例的公式(11)计算各候选音高的加权谐波能量和,并选择具有最大加权谐波能量和的候选音高作为该次迭代输出音高,并保存音高值和相应的加权谐波能量和;最后,移除该最显著音高的二维谐波成分,迭代上述过程直至本次输出音高的加权谐波能量比前一音高的加权能量小20dB。
为了方便叙述,用如下形式表示:
步骤1:对输入的音乐音频进行分帧;
步骤2:求每帧信号的伪双谱;
步骤3:根据公式(10),按照二维模板匹配互相关函数值从大到小排列,取出前10个频率作为候选音高;
步骤4:根据公式(11)计算各候选音高的加权谐波能量和,并选择具有最大加权谐波能量和的候选音高作为该次迭代输出音高,并保存音高值和相应的加权谐波能量;
步骤5:移除该最显著音高的二维谐波成分;
步骤6:重复步骤3-5,直至本次输出音高的加权谐波能量和比前一音高的加权能量小20dB,输出所有迭代过程中估计的音高。
在一种实施例中,其具体方法如下:
设x(t)为复调音乐信号,则该信号的伪双谱定义为:
其中X(f1)和X(f2)为x(t)的一维傅里叶变换,(·)*代表共轭运算。f1和f2为二维频率域中的自变量,t和τ分别为时间域信号x(t)和x(τ)的自变量。
具有H个谐波分量的音符可表示为:
其中al为第l次谐波幅度,f0为基频,则根据公式(1)可得z(t)的伪双谱为
其中δ(·)为狄拉克函数,l和m为谐波次数,al和am分别为第l次和第m次谐波幅度;由此可见,对于具有H个谐波分量的谐波信号,伪双谱变换生成H×H的二维模式。音符音高的确定(即二维模式匹配),可通过如下公式实现:
假设复调音乐由M个音符的混合信号组成,即可表示为:
其中Hm和f0,m分别为第m个音符的谐波数和音高,为第m个音符的第lm次谐波幅度。对于公式(5)所表示的混合信号的伪双谱为:
其中为第m个音符的伪双谱,为zm(t)和zn(t)的交叉项,且
其中(m,n)∈{1,2,...M},且m≠n。
和声是音乐的基本要素之一,故具有重叠谐波频率成分的音符同时发声的情况广泛存在。公式(7)所示的交叉项要么位于公式(3)所示的二维模板之外,要么与和弦中其他音符的二维模板重合,故对多音高估计的影响很小。
假设Px为输入复调音乐伪双谱的离散化矩阵。每八度有Noct个对数分布离散频点,考虑每个音符的前Hr个谐波成分。令Q=(qi,j)是一个维度为Rq×Rq的稀疏矩阵,其中其中是向正无穷方向取整。当且仅当基频频点索引平移i和j个索引值后都对应谐波分量时,qi,j=1。按照下式计算二维模板与伪双谱的匹配互相关函数:
由于公式(1)满足共轭对称性,即
故公式(8)的互相关函数最大值对应的频率一定落在二维频率平面的第一象限对角线上,公式(8)可重新简化为:
根据公式(10)求出具有最大互相关函数输出的前10个频率值作为音高候选,然后按照下面公式(11)选择具有最大谐波加权能量和的频率作为最显著估计音高。
其中α=0.84,φk为音高fk的显著函数值,X(hfk)为fk的第h次谐波幅度。
某演奏A3(220Hz)音符的音频信号一维傅里叶变换谱如图2所示,该音频的伪双谱如图3所示。图3为二维灰度图,部分二维谱峰值的颜色较浅这是由于高频谐波幅值较小导致,但不影响谱峰检测。同时演奏A3(220Hz)与E4(329Hz)的音频信号的一维傅里叶变换谱如图4所示,该音频信号的伪双谱如图4所示。图4中箭头所指为A3音符的三次谐波分量和E4音符的二次谐波分量,二者重叠,在一维傅里叶变换谱中无法将二者分离开,但在图5所示的伪双谱中可以将二者区分开,其中矩形框内的谱峰属于A3音符的二维模板,椭圆框内的谱峰属于E4音符的二维模板,而菱形框内的谱峰同时属于二者。图5中部分谱峰颜色较浅也是由于高频谐波分量幅度较低导致,但不影响谱峰检测。图6为某复调音乐的各音高真实值,图7为该段复调音乐的各音高估计值,在音高估计领域,估计值与真实值相差半个半音范围的都认为正确。由图可见本实施例提出的方法能准确的提取出复调音乐中的音高。
实施例2:
本实施例对伪双谱作出进一步说明,并对使用其作二维谱变换进行介绍。为了能够准确分离具有相同谐波频率成分的信号,本实施例构建一个全新的二维谱变换,以下称其为“伪双谱”。并定义了伪双谱的正逆变换,及其性质。该伪双谱适合多个具有谐波结构的信号分离问题。
设输入信号为x(t),则其伪双谱定义为:
其中X(f1)和X(f2)为x(t)的一维傅里叶变换,(·)*代表共轭转置运算。t和τ分别为时间域信号x(t)和x(τ)的自变量。
通过公式(1)定义的伪双谱,可将一维时间域信号x(t)映射到二维频率域,f1和f2为二维频率域中的自变量。
该伪双谱具有如下性质:
(1)共轭对称性
(2)时移特性
(3)频移特性
(4)边缘积分特性
其中X(f1),X(f2)是信号x(t)的一维傅里叶变换,(·)*代表共轭运算。由公式(6)可得:
由公式(8)可见,对伪双谱做一维积分,然后除以常数x*(0)可以得到任意频率处的一维傅里叶变换谱,对于给定实信号x(t),也可将公式(8)简化为下面公式(9),而不影响各个频率成分间的相对幅度关系。
(5)时域卷积特性
假设其中代表卷积运算,则y(t),x(t)和h(t)的伪双谱Py(f1,f2),Px(f1,f2)和Ph(f1,f2)具有如下关系:
其中代表哈达玛乘积。
(6)信号伪双谱域能量
伪双谱逆变换:
给定伪双谱Px(f1,f2)可通过如下两个公式任何其一得时间域信号x(t)
给定x(t)时,上面公式(12)和(13)中的x*(0)是常数,可看做比例因子,不影响信号的时域结构,当信号x(t)为实信号时,可以省略。
具有H个谐波分量的谐波信号可表示为:
其中al为第l次谐波幅度,f0为基频,则根据公式(1)可得z(t)的伪双谱为
其中δ(·)为狄拉克函数,l和m为谐波次数,al和am分别为第l次和第m次谐波幅度。由此可见,对于具有H个谐波分量的谐波信号,伪双谱变换生成H×H的二维模式。二维模式匹配,即谐波信号基频的确定,可通过如下公式实现:
M个谐波信号的混合信号可表示为:
其中Hm和f0,m分别为第m个谐波信号的谐波数和基频,为第m个谐波信号的第lm次谐波幅度。对于公式(17)所表示的混合信号的伪双谱为:
其中为第m个谐波信号的伪双谱,为zm(t)和zn(t)的交叉项,且
其中(m,n)∈{1,2,...M},且m≠n。
对于具有M个谐波信号的混合信号进行模式匹配时,只需按照公式(16)所述的方法匹配M次即可。
在一个实施例中,假设x(t)具有4个谐波分量,即则通过本发明提出的伪双谱该信号可在二维频率平面上形成如图8所示的典型二维伪双谱模式。在极端情况下,当谐波信号仅有一个频率成分,则伪双谱域中仍可将该信号映射为二维平面上的一个点,而通过双谱变换却无法将该单谱信号映射到双谱平面上。
以演奏A3音符(基频为220Hz)的音频信号为例,给出该信号的伪双谱轮廓图,如图9所示,由图可见,对于具有谐波结构的实际信号可得到与图8所示相同的典型二维模式。在图9中低频信号附近有较小的峰扩散轮廓,随着频率的增大在二维谱峰附近出现了相对幅度较大的幅度轮廓,这是由傅里叶变换所固有的频谱泄露导致,但不影响二维谱峰模式匹配。
图10为含有A3(220Hz)和D4(293.7Hz)的音频信号的伪双谱,A3的四次谐波分量与D4的三次谐波分量映射到相同的频率处,故采用一维傅里叶变换无法将这两个成分分离,而采用本发明提出的伪双谱可以将二者分离并且互不影响,如图10椭圆内的轮廓图可示。这些二维频率平面上的谱峰分别对应到两个音符的二维模式中,使两个音符能完全分离且互不影响。
在该实施例中,本发明提出的伪双谱按照如下流程实施:
步骤1:根据公式(1)对输入信号作伪双谱;
步骤2:根据公式(16)表达的伪双谱二维模式对信号进行二维模式匹配。
步骤3:根据模式匹配结果输出信号基频。
步骤4:根据公式(8)得到各次谐波对应的幅度。
步骤5:融合各次谐波的幅度与频率信息得到准确的谐波信号。
以上所述,仅为本发明创造较佳的具体实施方式,但本发明创造的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明创造披露的技术范围内,根据本发明创造的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明创造的保护范围之内。

Claims (1)

1.一种复调音乐多音高估计方法,其特征在于:包括如下步骤:
步骤1:对输入的音乐音频进行分帧;
步骤2:求每帧信号的伪双谱;
步骤3:按照二维模板匹配互相关函数值从大到小排列,取出前10个频率作为候选音高;
步骤4:计算各候选音高的加权谐波能量和,并选择具有最大加权谐波能量和的候选音高作为该次迭代输出音高,并保存音高值和相应的加权谐波能量;
步骤5:移除该最显著音高的二维谐波成分;
步骤6:重复步骤3-5,直至本次输出音高的加权谐波能量和比前一音高的加权能量小20dB,输出所有迭代过程中估计的音高。
CN201711358050.7A 2017-05-02 2017-05-02 一种复调音乐多音高估计方法 Expired - Fee Related CN107945809B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711358050.7A CN107945809B (zh) 2017-05-02 2017-05-02 一种复调音乐多音高估计方法

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201710301314.9A CN107103908B (zh) 2017-05-02 2017-05-02 复调音乐多音高估计方法及伪双谱在多音高估计中的应用
CN201711358050.7A CN107945809B (zh) 2017-05-02 2017-05-02 一种复调音乐多音高估计方法

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
CN201710301314.9A Division CN107103908B (zh) 2017-05-02 2017-05-02 复调音乐多音高估计方法及伪双谱在多音高估计中的应用

Publications (2)

Publication Number Publication Date
CN107945809A true CN107945809A (zh) 2018-04-20
CN107945809B CN107945809B (zh) 2021-11-09

Family

ID=59656644

Family Applications (2)

Application Number Title Priority Date Filing Date
CN201711358050.7A Expired - Fee Related CN107945809B (zh) 2017-05-02 2017-05-02 一种复调音乐多音高估计方法
CN201710301314.9A Expired - Fee Related CN107103908B (zh) 2017-05-02 2017-05-02 复调音乐多音高估计方法及伪双谱在多音高估计中的应用

Family Applications After (1)

Application Number Title Priority Date Filing Date
CN201710301314.9A Expired - Fee Related CN107103908B (zh) 2017-05-02 2017-05-02 复调音乐多音高估计方法及伪双谱在多音高估计中的应用

Country Status (1)

Country Link
CN (2) CN107945809B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109346109A (zh) * 2018-12-05 2019-02-15 百度在线网络技术(北京)有限公司 基频提取方法和装置
CN111223491A (zh) * 2020-01-22 2020-06-02 深圳市倍轻松科技股份有限公司 一种提取音乐信号主旋律的方法、装置及终端设备

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3483878A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio decoder supporting a set of different loss concealment tools
EP3483882A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Controlling bandwidth in encoders and/or decoders
WO2019091576A1 (en) 2017-11-10 2019-05-16 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoders, audio decoders, methods and computer programs adapting an encoding and decoding of least significant bits
EP3483884A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Signal filtering
EP3483879A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Analysis/synthesis windowing function for modulated lapped transformation
WO2019091573A1 (en) 2017-11-10 2019-05-16 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for encoding and decoding an audio signal using downsampling or interpolation of scale parameters
EP3483880A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Temporal noise shaping
EP3483886A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Selecting pitch lag
EP3483883A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio coding and decoding with selective postfiltering
CN109920446B (zh) * 2019-03-12 2021-03-26 腾讯音乐娱乐科技(深圳)有限公司 一种音频数据处理方法、装置及计算机存储介质
CN113658612B (zh) * 2021-08-25 2024-02-09 桂林智神信息技术股份有限公司 一种基于音频识别被弹奏琴键的方法及系统

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102354500A (zh) * 2011-08-03 2012-02-15 华南理工大学 一种基于谐波控制的虚拟低音增强处理方法
CN104200818A (zh) * 2014-08-06 2014-12-10 重庆邮电大学 一种音高检测方法
CN105023573A (zh) * 2011-04-01 2015-11-04 索尼电脑娱乐公司 使用听觉注意力线索的语音音节/元音/音素边界检测
US20160099012A1 (en) * 2014-09-30 2016-04-07 The Intellisis Corporation Estimating pitch using symmetry characteristics
US9396740B1 (en) * 2014-09-30 2016-07-19 Knuedge Incorporated Systems and methods for estimating pitch in audio signals based on symmetry characteristics independent of harmonic amplitudes
CN105957538A (zh) * 2016-05-09 2016-09-21 大连民族大学 基于显著性的复调音乐主旋律提取方法
CN106157973A (zh) * 2016-07-22 2016-11-23 南京理工大学 音乐检测与识别方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20120109763A (ko) * 2011-03-28 2012-10-09 후퍼소프트 주식회사 신경망 컴퓨팅을 이용한 다중 음원의 음악정보 분석 장치 및 방법

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105023573A (zh) * 2011-04-01 2015-11-04 索尼电脑娱乐公司 使用听觉注意力线索的语音音节/元音/音素边界检测
CN102354500A (zh) * 2011-08-03 2012-02-15 华南理工大学 一种基于谐波控制的虚拟低音增强处理方法
CN104200818A (zh) * 2014-08-06 2014-12-10 重庆邮电大学 一种音高检测方法
US20160099012A1 (en) * 2014-09-30 2016-04-07 The Intellisis Corporation Estimating pitch using symmetry characteristics
US9396740B1 (en) * 2014-09-30 2016-07-19 Knuedge Incorporated Systems and methods for estimating pitch in audio signals based on symmetry characteristics independent of harmonic amplitudes
CN105957538A (zh) * 2016-05-09 2016-09-21 大连民族大学 基于显著性的复调音乐主旋律提取方法
CN106157973A (zh) * 2016-07-22 2016-11-23 南京理工大学 音乐检测与识别方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
ROLAND BADEAU ETC: "EXPECTATION-MAXIMIZATION ALGORITHM FOR MULTI-PITCH ESTIMATION", 《IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS》 *
WEIWEI ZHANG ETC: "Main melody extraction from polyphonic music based on modified", 《APPLIED ACOUSTICS》 *
张维维 等: "复调音乐主旋律提取方法综述", 《电子学报》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109346109A (zh) * 2018-12-05 2019-02-15 百度在线网络技术(北京)有限公司 基频提取方法和装置
CN111223491A (zh) * 2020-01-22 2020-06-02 深圳市倍轻松科技股份有限公司 一种提取音乐信号主旋律的方法、装置及终端设备

Also Published As

Publication number Publication date
CN107103908B (zh) 2019-12-24
CN107945809B (zh) 2021-11-09
CN107103908A (zh) 2017-08-29

Similar Documents

Publication Publication Date Title
CN107945809A (zh) 一种复调音乐多音高估计方法
Böck et al. Deconstruct, Analyse, Reconstruct: How to improve Tempo, Beat, and Downbeat Estimation.
CN102799892B (zh) 一种mfcc水下目标特征提取和识别方法
US6901353B1 (en) Computing Instantaneous Frequency by normalizing Hilbert Transform
CN103714806B (zh) 一种结合svm和增强型pcp特征的和弦识别方法
Safara et al. Wavelet packet entropy for heart murmurs classification
CN105411565A (zh) 基于广义尺度小波熵的心率变异性特征分类方法
Lagrange et al. Normalized cuts for predominant melodic source separation
CN106847248B (zh) 基于鲁棒性音阶轮廓特征和向量机的和弦识别方法
CN108091345B (zh) 一种基于支持向量机的双耳语音分离方法
CN112562741A (zh) 一种基于点积自注意力卷积神经网络的歌声检测方法
Mundodu Krishna et al. Single channel speech separation based on empirical mode decomposition and Hilbert transform
CN102129456A (zh) 去相关稀疏映射音乐流派有监督自动分类方法
Wang et al. Multi-subspace echo hiding based on time-frequency similarities of audio signals
CN114897023A (zh) 一种基于水声目标敏感差异特征提取的水声目标辨识方法
Tuntisak et al. Harmonic detection in distribution systems using wavelet transform and support vector machine
CN110379438A (zh) 一种语音信号基频检测与提取方法及系统
Bammer et al. Invariance and stability of Gabor scattering for music signals
CN115050391A (zh) 基于f0子带的虚假音频检测方法及其系统
Wu et al. Gabor-lbp features and combined classifiers for music genre classification
Goodman et al. A geometric framework for pitch estimation on acoustic musical signals
Fouloulis et al. Traditional asymmetric rhythms: A refined model of meter induction based on asymmetric meter templates
Wang et al. On the motor fault diagnosis based on wavelet transform and ann
CN108108333A (zh) 一种伪双谱分离具有相同谐波频率成分信号的方法
Liu et al. Research on Yunnan Folk Music Classification Based on the Features of HHT-MFCC

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20211109

CF01 Termination of patent right due to non-payment of annual fee