CN111223491B - 一种提取音乐信号主旋律的方法、装置及终端设备 - Google Patents

一种提取音乐信号主旋律的方法、装置及终端设备 Download PDF

Info

Publication number
CN111223491B
CN111223491B CN202010075634.9A CN202010075634A CN111223491B CN 111223491 B CN111223491 B CN 111223491B CN 202010075634 A CN202010075634 A CN 202010075634A CN 111223491 B CN111223491 B CN 111223491B
Authority
CN
China
Prior art keywords
frame
frequency
effective frame
candidate
effective
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010075634.9A
Other languages
English (en)
Other versions
CN111223491A (zh
Inventor
马学军
张虎
陈刚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Breo Technology Co Ltd
Original Assignee
Shenzhen Breo Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Breo Technology Co Ltd filed Critical Shenzhen Breo Technology Co Ltd
Priority to CN202010075634.9A priority Critical patent/CN111223491B/zh
Publication of CN111223491A publication Critical patent/CN111223491A/zh
Application granted granted Critical
Publication of CN111223491B publication Critical patent/CN111223491B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0212Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Auxiliary Devices For Music (AREA)

Abstract

本发明实施例适用于信号处理技术领域,提供了一种提取音乐信号主旋律的方法、装置及终端设备,所述方法包括:获取待处理的音乐信号,所述音乐信号包括多帧音频数据;通过对每帧音频数据进行预处理,区分有效帧和无效帧;对于无效帧,标识为无基频;对于有效帧,计算帧频谱并根据帧频谱确定主频;根据有效帧的主频和预置的谐波能量互相关算法,确定有效帧的多个候选基频;按照预设规则,从有效帧的多个候选基频中识别出基频;基于所有有效帧的基频,生成匹配音乐信号的基频轮廓线,即是音乐信号的主旋律。本实施例可以实时、准确地提取音乐信号的主旋律,计算量小,可以在各类含微处理器的硬件中使用。

Description

一种提取音乐信号主旋律的方法、装置及终端设备
技术领域
本发明属于信号处理技术领域,特别是涉及一种提取音乐信号主旋律的 方法、装置及终端设备。
背景技术
音乐信号节奏,准确地称为旋律,是指音频数据中每个时刻主要的音高 以及所有时间内各音高的变化情况。旋律和人耳听觉感知有关,是音频数据 的基本特征,在音乐信号学研究上没有较为严格的定义,通常采用的旋律的 定义是指音乐信号中的一组有序的音高序列,但需要和谐波区分开。一般理 解,旋律是音频数据的基频序列。具体来说,对于纯乐器信号,主旋律指占 主要地位的基频随时间变化的情况;在有人唱歌,即混合人声和背景音乐信 号时,主旋律是指人声的基频随时间变化的情况。
现有技术中,对于给定的任意一段音乐信号,如果需要提取该段音乐信 号的主旋律,其处理过程往往十分复杂,且很多处理方法都是需要全局处理, 非实时处理。
发明内容
有鉴于此,本发明实施例提供了一种提取音乐信号主旋律的方法、装置 及终端设备,以解决现有技术中提取音乐信号主旋律的过程十分复杂且不能 实时提取的问题。
本发明实施例的第一方面提供了一种提取音乐信号主旋律的方法,包 括:
获取待处理的音乐信号,所述音乐信号包括多帧音频数据;
通过对所述多帧音频数据进行预处理,区分所述音频数据中的有效帧和 无效帧,对于无效帧,标识为无基频;
对于所述有效帧,计算所述有效帧的帧频谱,并根据所述帧频谱确定所 述有效帧的主频;
根据所述有效帧的主频和预置的谐波能量互相关算法,确定所述有效帧 的多个候选基频;
按照预设规则,从所述多个候选基频中识别出基频;
基于所有有效帧的基频,生成匹配所述音乐信号的基频轮廓线,所述基 频轮廓线即是所述音乐信号的主旋律。
本发明实施例的第二方面提供了一种提取音乐信号主旋律的装置,包 括:
音乐信号获取模块,用于获取待处理的音乐信号,所述音乐信号包括多 帧音频数据;
帧类型区分模块,用于通过对所述多帧音频数据进行预处理,区分所述 音频数据中的有效帧和无效帧,对于无效帧,标识为无基频;
主频确定模块,用于对于所述有效帧,计算所述有效帧的帧频谱,并根 据所述帧频谱确定所述有效帧的主频;
候选基频确定模块,用于根据所述有效帧的主频和预置的谐波能量互相 关算法,确定所述有效帧的多个候选基频;
基频识别模块,用于按照预设规则,从所述多个候选基频中识别出基频;
主旋律生成模块,用于基于所有有效帧的基频,生成匹配所述音乐信号 的基频轮廓线,所述基频轮廓线即是所述音乐信号的主旋律。
本发明实施例的第三方面提供了一种终端设备,包括存储器、处理器以 及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器 执行所述计算机程序时实现如上述第一方面所述的提取音乐信号主旋律的 方法。
本发明实施例的第四方面提供了一种计算机可读存储介质,所述计算机 可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如上 述第一方面所述的提取音乐信号主旋律的方法。
与现有技术相比,本发明实施例包括以下优点:
本发明实施例,在获取待处理的音乐信号后,通过对该音乐信号中包括 的多帧音频数据进行预处理,可以区分出其中的有效帧和无效帧,对于无效 帧,标识为无基频,对于有效帧,通过计算帧频谱,确定主频,在根据主频 和预置的谐波能量互相关算法,确定出多个候选基频后,可以按照预设规则, 从多个候选基频中识别出基频,进而根据所有有效帧的基频,生成匹配上述 音乐信号的基频轮廓线,即是音乐信号的主旋律。本实施例能够实时、准确 地提取音乐信号的主旋律,计算量小、可以在各类含微处理器的硬件中使用。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例或现有 技术描述中所需要使用的附图作简单的介绍。显而易见地,下面描述中的附 图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创 造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一个实施例的一种提取音乐信号主旋律的方法的步骤流程 示意图;
图2是本发明一个实施例的某有效帧的当前一个基频的示意图;
图3是本发明一个实施例的一种提取音乐信号主旋律的装置的示意图;
图4是本发明一个实施例的一种终端设备的示意图。
具体实施方式
以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技 术之类的具体细节,以便透彻理解本发明实施例。然而,本领域技术人员应 当清楚,在没有这些具体细节的其他实施例中也可以实现本发明。在其他情 况中,省略对众所周知的系统、装置、电路以及方法的详细说明,以免不必 要的细节妨碍本发明的描述。
下面通过具体实施例来说明本发明的技术方案。
参照图1,示出了本发明一个实施例的一种提取音乐信号主旋律的方法 的步骤流程示意图,具体可以包括如下步骤:
S101、获取待处理的音乐信号,所述音乐信号包括多帧音频数据;
需要说明的是,待处理的音乐信号可以是任意给定或实时播放的一首音 乐或一段音乐信号。
在本发明实施例中,对于一首音乐信号,可以通过对输入的音乐信号进 行分帧处理,得到每帧音频数据。
通常,信号采样率为16k,可以按照设定的20ms帧移,40ms帧长,对 输入的音乐信号进行分帧处理,则处理后的每帧音频数据为640点。
当然,根据实际需要,本领域技术人员还可以按照其他规格对音乐信号 进行分帧处理,本实施例对此不作限定。
S102、通过对所述多帧音频数据进行预处理,区分所述音频数据中的有 效帧和无效帧,对于所述无效帧,标识为无基频;
在本发明实施例中,音乐信号中的有效帧可以是信号幅值不小于预设的 有效帧信号幅值阈值的音频数据。上述预设的有效帧信号幅值阈值可以通过 时域信号幅值统计处理的方式得到,即,通过在机器音量固定时,大量统计 最小有效声音段的信号幅值确定。
例如,可以将机器开到某个音量,输入正确格式的音乐信号(如通过手 机录制的唱歌声音),然后通过波形分析软件查看,重点考查人声起始段和 结束段的数据值大小,大致确定人声数据的信号幅值阈值。通常,数据起始 段中有一部分是随机噪声和抖动噪声,然后是人唱歌和音乐信号同时存在的 部分,最后还有一部分是背景音乐信号,通过设置某个阈值,作为一次统计。 当统计较多数据后,可以大致确定出有效帧信号幅值阈值。
因此,针对任一帧音频数据,可以判断该音频数据的信号幅值是否小于 预设的有效帧信号幅值阈值;若音频数据的音量小于预设的有效帧信号幅值 阈值,则可以判定当前音频数据为无效帧;若音频数据的音量大于等于预设 的有效帧信号幅值阈值,则可以判定当前音频数据为有效帧。在后续的处理 中,只对有效帧进行处理,对于无效帧,标识为无基频。
S103、对于所述有效帧,计算所述有效帧的帧频谱,并根据所述帧频谱 确定所述有效帧的主频;
在本发明实施例中,在上述判断出有效帧和无效帧的基础上,还可以通 过判断当前帧是否是过渡帧,来计算出相应的帧频谱。
通常,判断某一帧是否为过渡帧,主要考查前后帧的峰值位置、个数。 若峰值位置和个数比较稳定的,属于同一信号段;若前后帧变化明显的,则 后一帧为过渡帧。
在具体实现中,针对任一有效帧,判断所述有效帧与前一有效帧是否属 于同一信号段时,可以首先在设定的频带范围内,确定所述有效帧与前一有 效帧在各自对应的频谱中的峰值位置。需要说明的是,在确定当前帧和前一 帧的频谱峰值位置时,可以首先对有效帧做加窗和FFT(Fast Fourier Transformation,快速傅里叶变换)处理。例如,对640点信号补零到1024 点做1024点的FFT,得到两帧信号频谱幅值并归一化,依次设为Xt-1(f)、Xt(f)。
然后,在一定范围的低频段,分别搜寻两帧频谱幅值上的峰值位置,对 峰值设置阈值,太小的峰值可以舍弃。
当确定出峰值后,可以根据峰值位置,统计所述有效帧与前一有效帧的 峰值位置相似度。
在具体实现中,可以设定一初始的相似度,然后针对前一有效帧的任一 峰值位置,判断所述有效帧的各个峰值位置与前一有效帧的所述峰值位置之 间的变化规律是否符合预设规律,上述预设规律可以是指有效帧的各个峰值 位置与前一有效帧的所述峰值位置之差是否小于预设区间阈值。若是,则峰 值位置相似度递增,直到对前一有效帧的各个峰值位置判断完毕,便可以获 得所述有效帧与前一有效帧的峰值位置相似度。
当峰值位置相似度超过预设相似度阈值时,可以判定所述有效帧与前一 有效帧属于同一信号段,否则,判定所述有效帧与前一有效帧不属于同一信 号段。
在本发明实施例中,若所述有效帧与前一有效帧属于同一信号段,则可 以按照预设权重值对所述有效帧与前一有效帧的频谱幅值进行加权平均,获 得所述有效帧的帧频谱。上述权重值可以通过试验获得。
当然,若二者属于不同信号段,则无需对当前帧的频谱幅值进行加权处 理。
在得到所述有效帧的帧频谱后,可以在该频谱上,计算出有效帧的主频, 即寻找频谱中的峰值位置。
S104、根据所述有效帧的主频和预置的谐波能量互相关算法,确定所述 有效帧的多个候选基频;
在本发明实施例中,在确定所述有效帧的候选基频前,可以首先对所述 有效帧的帧频谱做分辨率转换处理,将频谱的分辨率转换为预设频率数值。
例如,可以将频谱分辨率转换为1Hz。为叙述方便,分辨率转换后频谱 称为变换分辨率频谱。
在本发明实施例中,可以设置一基频范围,通过判断所述有效帧的主频 是否在该基频范围内,识别出多个候选基频。在本发明实施例中,当所述有 效帧的主频在预设基频范围内时,可以在变换分辨率频谱上,分别计算在主 频的多个预设比例的频率的设定范围内,是否存在满足设定阈值要求的峰值 位置。上述多个预设比例均小于1,可以是1/2、1/3、1/4、1/5、1/6等等。 通过设定阈值要求对峰值进行限定,可以有效避免选择出较小的峰值。
若存在满足设定阈值要求的峰值位置,则可以识别峰值位置中最大峰值 对应的频率为所述有效帧的第一候选基频;若不存在满足设定阈值要求的峰 值位置,则可以将主频设为所述有效帧的第一候选基频。第一候选基频是权 重值最大的候选基频。
当然,当所述有效帧的主频不在预设基频范围内时,同样可以在变换分 辨率的频谱上,分别计算在主频的多个预设比例的频率的设定范围内,是否 存在满足设定阈值要求的峰值位置。若存在满足设定阈值要求的峰值位置, 则可以识别峰值位置中最大峰值对应的频率为所述有效帧的第二候选基频; 若不存在满足设定阈值要求的峰值位置,则可以识别主频为所述有效帧的第 三候选基频。第二候选基频是权重值次大的候选基频,第三候选基频是权重 值较大的候选基频,即第一候选基频的权重值大于第二候选基频的权重值,第二候选基频的权重值大于第三候选基频的权重值。上述最大、次大、较大 的权重值可以预先在算法中设定。即,预先在算法中设置三个大小不等的数 值,在识别出对应的候选基频后,根据各个候选基频的权重值大小关系,分 别为其赋予相应大小的数值。
在本发明实施例中,若所述有效帧与前一有效帧属于同一信号段,则还 可以确定所述有效帧的多个其他候选基频。并采用预置的谐波能量互相关算 法计算得到多个其他候选基频的权重值。
在具体实现中,可以在变换分辨率频谱的预设基频范围内,选定预设个 数的峰值,然后以峰值位置对应的频率作为所述有效帧的多个其他候选基 频。
需要说明的是,在选定预设个数的峰值时,可以按照频率由小至大的顺 序选择。例如,可以在在变换分辨率频谱的预设基频范围内,按频率由小到 大寻找15个峰值。当然,峰值需要满足一定条件,可以对其设置阈值,超 过阈值则可以作为候选基频。若峰值不足15个,峰值可以用0填充。
S105、按照预设规则,从所述多个候选基频中识别出基频;
在本发明实施例中,在得到多个候选基频后,可以按照预设规则从多个 候选基频中识别出基频。
需要说明的是,多个候选基频包括步骤S104中的第一候选基频、第二 候选基频、第三候选基频以及其他候选基频。对于其他候选基频,还可以对 其作进一步的校正。
在具体实现中,针对任一其他候选基频,可以首先识别在所述有效帧的 帧频谱上该候选基频的多个预设倍数频率附近多个谐波峰值。上述多个预设 倍数频率可以为多个连续的整数值倍数对应的频率,即在原始频谱上,在基 频整数倍附近寻找谐波关系。
例如,对于每一个其他候选基频,可以在频谱上从其2到20倍附近搜 寻峰值,对附近的控制依然是设定浮动区间,可以是固定大小区间。当同一 个区间内存在多个峰值时,取最接近整数倍的峰值。当然,对峰值大小,也 需要进行限制,设置阈值排除过小的峰值。如果某个倍数附近没有峰值存在, 或者峰值小于阈值,则该次谐波峰值用0表示。这样,记录每一帧的每个其 他候选基频的20个谐波峰值(包含1次谐波即候选基频本身的值)。
由于上述第一次搜寻到的其他候选基频不一定准确,在上述搜寻谐波峰 值的过程中,通过各个谐波峰值位置对这些其他候选基频进行校正,获得最 终校正后的其他候选基频。
例如,对于图2中所示的某帧的当前一个其他候选基频,如453.1Hz, 可以在原始频谱上找2次谐波,即在图2中906.2Hz附近搜寻峰值,设置浮 动区间为30Hz,则在图中找到是906.3Hz。此时,按照453.1Hz和906.3Hz 校正原基频,校正方式可以是设置一个加权因子,将谐波频率除以其次数的 结果和当前基频进行加权。如设置因子为a,则得到新的基频f0为:
f0=453.1*(1-a)+906.3/2*a
若设置a为0.1,则此次校正基频f0=453.105,如此每次搜寻谐波峰值 都能对基频进行校正,然后,可以记录最终校正得到的基频f0,对其取整后 可以得到相应的基频,作为最终校正后的所述其他候选基频,该其他候选基 频在变换分辨率频谱上对应的频谱幅值为其能量。
通过计算所述有效帧与前一有效帧各个其他候选基频对应的谐波能量 互相关系数,可以在识别出谐波能量互相关系数大于预设相关系数阈值的多 个目标互相关系数后,计算多个目标互相关系数对应的所述有效帧最终的其 他候选基频。即,对上述校正后的其他候选基频,还做了一次调整。
需要说明的是,计算前后两帧的各基频的谐波能量互相关系数针对的是 前后帧属于同一信号段的情形。
在具体实现中,可以以所述有效帧的一个其他候选基频的谐波能量作为 第一数组,以前一有效帧的一个其他候选基频的谐波能量作为第二数组,计 算第一数组和第二数组的协方差,然后计算第一数组的方差与第二数组的方 差之间的乘积,以协方差与乘积的平方根之间的比值,作为当前帧这个候选 目标基频对应的谐波能量互相关系数。
需要说明的是,所述有效帧的每个其他候选基频的谐波能量数组需要和 前一有效帧的每个其他候选基频的谐波能量数组做上述互相关计算。
例如,对于所述有效帧的15个其他候选基频,设为ft(0)1、ft(0)2、 ft(0)3、……、ft(0)15(不足15个基频的用0填充),对应有15组谐波峰值, 每组有20个谐波峰值(包含1次谐波,即基频),如对应第一个基频的20 个谐波峰值为:V(ft(0)1)、V(ft(1)1)、V(ft(2)1)、……、V(ft(19)1),则类似地, 前一有效帧的各个其他候选基频及其对应各次谐波,都能保存。比如前一有 效帧的第2个其他候选基频可记为ft-1(0)2,其20次谐波峰值记为则V(ft-1(0)2)、 V(ft-1(1)2)、V(ft-1(2)2)、……、V(ft-1(19)2)。对于这两帧的各个其他候选基频, 当差值在一个设置区间内时,为表达方便,不妨设前一帧第m个其他候选基 频谐波能量组成的20维数组为V(ft-1()m),后一帧第n个其他候选基频谐波 能量组成的20维数组为V(ft()n),可以按照如下公式计算这两个其他候选基 频及对应谐波的能量互相关系数:
Figure BDA0002378417830000091
其中,Cov表示求协方差,Var表示求方差。互相关值的范围在-1到1 之间。值越小,相关性越小;值越大,相关性越大。理论上,前后帧之间所 有其他候选基频都需要计算互相关(如果所有前后帧其他候选基频两两之间 差值都是在预设区间内),即,对应当前帧的第一个其他候选基频,可以和 前一帧的15个其他候选基频计算出15个相关系数;第二个其他候选基频, 也可以和前一帧的15个其他候选基频计算出15个相关系数,最终最多可以 计算出15*15个相关系数。需要注意的是,若当前帧某其他候选基频和前一 帧某其他候选基频之间差值大于设置区间,则不计算相关,直接将相关系数 置为零,所以,相邻两帧,最终还是可以计算得到15*15个相关系数。
可以对上述计算得到的相关系数设置阈值,当相关系数大于阈值则保 留,小于等于,则置为零。然后,可以通过计算,得到每个不为零的相关系 数(即大于阈值)对应的其他候选基频。
在本发明实施例中,针对任一不为零的目标互相关系数,可以首先确定 该目标互相关系数对应的前一有效帧的其他候选基频和所述有效帧的其他 候选基频,然后,计算前一有效帧的其他候选基频和所述有效帧的其他候选 基频的平均值,更新所述有效帧此其他候选基频,并以该不为零的互相关系 数作为该其他候选基频的权重值。
例如,若某个目标互相关系数是由前一帧的第p个其他候选基频谐波能 量和当前帧第q个其他候选基频谐波能量做相关计算得到的,假设前一帧第 p个其他候选基频为ft-1(0)p,当前帧第q个其他候选基频为ft(0)q,更新当前 帧的该其他候选基频可以表示为:
ft(0)q=0.5*(ft-1(0)p+ft(0)q)
当然,前述由主频确定的第一候选基频、第二候选基频和第三候选基频, 也将作为后续处理的候选基频,其权重值即是各自对应的权重值。
然后,可以从上述第一候选基频、第二候选基频、第三候选基频和其他 候选基频识别出所述有效帧的基频。
在本发明实施例中,若所述有效帧与前一有效帧不属于同一信号段,则 可以通过识别所述有效帧的候选基频的权重值中的最大值,以权重值的最大 值对应的候选基频作为所述有效帧的基频。
若所述有效帧与前一有效帧属于同一信号段,则可以首先判断所述有效 帧的候选基频与前一有效帧的基频之间的差值是否大于预设基频阈值,该预 设基频阈值可以是50音分。
当所述有效帧的候选基频与前一有效帧的基频之间的差值不大于50音 分时,则可以将所述有效帧的候选基频,作为所述有效帧的基频;
在按照上述处理后,若能够唯一地确定当前帧的基频,则给出该基频。
需要说明的是,若所述有效帧的任一候选基频与前一有效帧的基频之间 的差值均大于预设基频阈值,则可以根据当前帧全部候选基频的平均值与前 一有效帧的基频的关系,对所述有效帧的候选基频进行调整,获得所述有效 帧的基频。
例如,可以首先判断全部候选基频的平均值是否大于前一有效帧的基 频;若是,则可以将前一有效帧的基频加上预设基频阈值,作为所述有效帧 的基频;若否,则可以将前一有效帧的基频减去预设基频阈值,作为所述有 效帧的基频。
在本发明实施例中,若经过上述处理,所述有效帧的基频还包括多个, 则可以在将所述有效帧的多个基频分别减去前一有效帧的基频,再分别除以 各基频对应的权重,得到与各个基频对应的基频差值;以所有基频对应的基 频差值中绝对值最小值对应的基频作为所述有效帧的基频,若最小值对应的 基频包括多个(不止一个),则可以在最小值对应的多个基频中选择和前一 有效帧基频之间的差值最小的一个基频,作为有效帧的基频。
需要说明的是,这里也可以有其他处理方式,但基本方法都是依据前帧 基频和后帧的候选基频差值绝对值和后帧基频权重值做处理。
需要说明的是,本实施例还可以采用类似于平滑滤波的方法对有效帧的 基频做进一步调整。即,在计算出所述有效帧的基频后,若该有效帧之前有 设定帧数的相同信号段的有效帧,则可以对这个设定帧数的有效帧和当前帧 的基频序列作平滑处理,进一步调整当前帧的基频。
S106、基于所有有效帧的基频,生成匹配所述音乐信号的基频轮廓线, 所述基频轮廓线即是所述音乐信号的主旋律。
在得到各个有效帧的基频后,便可以基于所有有效帧和无效帧的基频生 成匹配当前的音乐信号的基频轮廓线,该基频轮廓线即是上述音乐信号的主 旋律。
需要说明的是,上述实施例中各步骤的序号的大小并不意味着执行顺序 的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实 施例的实施过程构成任何限定。
需要说明的是,上述实施例对提取音乐信号主旋律的过程进行了详细的 说明,但基于本发明所提供的方法,本领域的普通技术人员还可以采用其他 方式对本发明的部分细节进行修改或替换,例如,区分有效帧和无效帧的方 式,判断前后帧的相似度,通过谐波能量互相关算法确定候选基频,等等。 这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方 案的精神和范围,都应包含在本发明的保护范围之内。
参照图3,示出了本发明一个实施例的一种提取音乐信号主旋律的装置 的示意图,具体可以包括如下模块:
音乐信号获取模块301,用于获取待处理的音乐信号,所述音乐信号包 括多帧音频数据;
帧类型区分模块302,用于通过对所述多帧音频数据进行预处理,区分 所述音频数据中的有效帧和无效帧,对于所述无效帧,标识为无基频;
主频确定模块303,用于对于所述有效帧,计算所述有效帧的帧频谱, 并根据所述帧频谱确定所述有效帧的主频;
候选基频确定模块304,用于根据所述有效帧的主频和预置的谐波能量 互相关算法,确定所述有效帧的多个候选基频;
基频识别模块305,用于按照预设规则,从所述多个候选基频中识别出 基频;
主旋律生成模块306,用于基于所有有效帧的基频,生成匹配所述音乐 信号的基频轮廓线,所述基频轮廓线即是所述音乐信号的主旋律。
在本发明实施例中,所述帧类型区分模块302具体可以包括如下子模块:
音频数据信号幅值判断子模块,用于针对任一帧音频数据,判断所述音 频数据的信号幅值是否小于预设的有效帧信号幅值阈值,所述预设的有效帧 信号幅值阈值通过在机器音量固定时,统计最小有效声音段的信号幅值确 定;
无效帧识别子模块,用于若所述音频数据的信号幅值小于预设的有效帧 信号幅值阈值,则判定当前音频数据为无效帧,对于所述无效帧,标识为无 基频;
有效帧识别子模块,用于若所述音频数据的信号幅值大于或等于预设的 有效帧信号幅值阈值,则判定当前音频数据为有效帧。在本发明实施例中, 所述主频确定模块303具体可以包括如下子模块:
信号段判断子模块,用于针对任一有效帧,判断所述有效帧与前一有效 帧是否属于同一信号段;
帧频谱计算子模块,用于若所述有效帧与前一有效帧属于同一信号段, 则按照预设权重值对所述有效帧与前一有效帧的频谱幅值进行加权平均,获 得所述有效帧的帧频谱。若所述有效帧与前一有效帧不属于同一信号段,则 不作加权处理。
在本发明实施例中,所述信号段判断子模块具体可以包括如下单元:
峰值位置确定单元,用于针对任一有效帧,在设定的频带范围内,确定 所述有效帧与前一有效帧在各自对应的频谱中的峰值位置;
峰值位置相似度统计单元,用于根据所述峰值位置,统计所述有效帧与 前一有效帧的峰值位置相似度;
信号段判定单元,用于若所述峰值位置相似度超过预设相似度阈值,判 定所述有效帧与前一有效帧属于同一信号段,否则,判定所述有效帧与前一 有效帧不属于同一信号段。
在本发明实施例中,所述峰值位置相似度统计单元具体可以包括如下子 单元:
峰值位置判断子单元,用于针对所述前一有效帧的任一峰值位置,判断 所述有效帧的各个峰值位置与所述前一有效帧的所述峰值位置之间的变化 规律是否符合预设规律;
峰值位置相似度统计子单元,用于若是,则对峰值位置相似度递增,直 到对所述前一有效帧的各个峰值位置判断完毕,获得所述有效帧与前一有效 帧的峰值位置相似度。
在本发明实施例中,所述装置还可以包括如下模块:
频谱分辨率转换模块模块,用于对所述有效帧的帧频谱做抽取、插值处 理,获得所述有效帧的变换分辨率频谱。
在本发明实施例中,所述候选基频确定模块304具体可以包括如下子模 块:
第一、二、三候选基频确定子模块,用于若所述有效帧的主频在预设基 频范围内,则在变换分辨率的频谱上,分别计算在所述主频的多个预设比例 的频率的设定范围内,是否存在满足设定阈值要求的峰值位置;若存在所述 峰值位置,则识别所述峰值位置中最大峰值对应的频率为所述有效帧的第一 候选基频;若不存在所述峰值位置,则识别所述主频为所述有效帧的第一候 选基频;当所述有效帧的主频不在预设基频范围内,则在所述变换分辨率的 频谱上,分别计算在所述主频的多个预设比例的频率的设定范围内,是否存 在满足设定阈值要求的峰值位置;若存在所述峰值位置,则识别所述峰值位 置中最大峰值对应的频率为所述有效帧的第二候选基频;若不存在所述峰值 位置,则识别所述主频为所述有效帧的第三候选基频;其中,所述第一候选 基频的权重值大于所述第二候选基频的权重值,所述第二候选基频的权重值 大于所述第三候选基频的权重值,所述多个预设比例均小于1;
其他候选基频确定子模块,用于确定所述有效帧的多个其他候选基频; 所述多个其他候选基频的权重值通过采用预置的谐波能量互相关算法计算 得到。
在本发明实施例中,所述其他候选基频确定子模块可以包括如下单元:
其他候选基频确定单元,用于若所述有效帧与前一有效帧属于同一信号 段,则在所述变换分辨率的频谱的预设基频范围内,选定预设个数的峰值位 置;以所述预设个数的峰值位置对应的频率作为所述有效帧的多个其他候选 基频;
谐波峰值识别单元,用于针对任一所述其他候选基频,识别在所述有效 帧的帧频谱上所述其他候选基频的多个预设倍数频率的设定范围的多个谐 波峰值,所述多个预设倍数频率为多个连续整数值倍数对应的频率;
其他候选基频校正单元,用于通过所述多个谐波峰值位置和所述其他候 选基频的关系,校正所述其他候选基频,所述其他候选基频在变换分辨率频 谱上对应的频谱幅值为其谐波能量;
谐波能量互相关系数计算单元,用于计算所述有效帧与前一有效帧各个 其他候选基频对应的谐波能量互相关系数;
目标互相关系数识别单元,用于识别所述谐波能量互相关系数超过预设 相关系数阈值的多个目标互相关系数;
其他候选基频更新单元,用于更新所述多个目标互相关系数对应的当前 帧的其他候选基频。
在本发明实施例中,所述谐波能量互相关系数计算单元具体可以包括如 下子单元:
谐波能量互相关系数计算子单元,用于以所述有效帧的多个其他候选基 频中一个的谐波能量作为第一数组,以所述前一有效帧的多个其他候选基频 中一个的谐波能量作为第二数组,计算所述第一数组和第二数组的谐波能量 互相关系数;
谐波能量互相关系数处理单元,用于若所述谐波能量互相关系数大于所 述预设相关系数阈值,则保留所述谐波能量互相关系数;若所述谐波能量互 相关系数小于或等于所述预设相关系数阈值,则将所述谐波能量互相关系数 置为零。
在本发明实施例中,所述其他候选基频更新单元具体可以包括如下子单 元:
其他候选基频确定子单元,用于针对任一大于零的目标互相关系数,确 定所述目标互相关系数对应的前一有效帧的其他候选基频和所述有效帧的 其他候选基频;
其他候选基频计算子单元,用于计算所述前一有效帧的其他候选基频和 所述有效帧的其他候选基频的平均值,更新所述有效帧的其他候选基频,以 所述不为零的互相关系数作为所述其他候选基频的权重值。
在本发明实施例中,所述基频识别模块305还包括如下子模块:
基频判断子模块,用于若所述有效帧与前一有效帧属于同一信号段,则 判断所述有效帧的候选基频与所述前一有效帧的基频之间的差值是否大于 预设基频阈值;
基频确定子模块,还用于若所述有效帧的任一候选基频与所述前一有效 帧的基频之间的差值均大于预设基频阈值,则判断全部候选基频的平均值是 否大于所述前一有效帧的基频;若是,则将所述前一有效帧的基频加上预设 基频阈值,作为所述有效帧的基频;若否,则将所述前一有效帧的基频减去 所述预设基频阈值,作为所述有效帧的基频;
基频确定子模块,还用于若所述有效帧的候选基频与所述前一有效帧的 基频之间的差值不大于预设基频阈值,则将所述有效帧的候选基频作为所述 有效帧的基频;
基频确定子模块,还用于若所述有效帧的基频包括多个,则在将所述有 效帧的多个基频分别减去所述前一有效帧的基频,再分别除以其对应权重值 后,得到与各个基频对应的基频差值;以所述各个基频差值中绝对值最小值 对应的基频作为所述有效帧的基频,若最小值对应的基频包括多个(不止一 个),则在最小值对应的多个基频中选择和前一有效帧基频之间的差值最小 的一个基频,作为所述有效帧的基频。
基频确定子模块,还用于若所述有效帧与前一有效帧不属于同一信号 段,则识别所述有效帧的候选基频的权重值中的最大值,以所述权重值的最 大值对应的候选基频作为所述有效帧的基频。
基频调整子模块,用于在计算出所述有效帧的基频后,若该有效帧之前 有设定帧数的相同信号段的有效帧,则对所述设定帧数的有效帧和当前帧的 基频序列作平滑处理,进一步调整所述有效帧的基频。
对于装置实施例而言,由于其与方法实施例基本相似,所以描述得比较 简单,相关之处参见方法实施例部分的说明即可。
参照图4,示出了本发明一个实施例的一种终端设备的示意图。如图4 所示,本实施例的终端设备400包括:处理器410、存储器420以及存储在 所述存储器420中并可在所述处理器410上运行的计算机程序421。所述处 理器410执行所述计算机程序421时实现上述提取音乐信号主旋律的方法各 个实施例中的步骤,例如图1所示的步骤S101至S107。或者,所述处理器 410执行所述计算机程序421时实现上述各装置实施例中各模块/单元的功能,例如图3所示模块301至307的功能。
示例性的,所述计算机程序421可以被分割成一个或多个模块/单元,所 述一个或者多个模块/单元被存储在所述存储器420中,并由所述处理器410 执行,以完成本发明。所述一个或多个模块/单元可以是能够完成特定功能的 一系列计算机程序指令段,该指令段可以用于描述所述计算机程序421在所 述终端设备400中的执行过程。例如,所述计算机程序421可以被分割成音 乐信号获取模块、帧类型区分模块、主频确定模块、候选基频确定模块、基 频识别模块、主旋律生成模块,各模块具体功能如下:
音乐信号获取模块,用于获取待处理的音乐信号,所述音乐信号包括多 帧音频数据;
帧类型区分模块,用于通过对所述多帧音频数据进行预处理,区分所述 音频数据中的有效帧和无效帧,对于所述无效帧,标识为无基频;
主频确定模块,用于对于所述有效帧,计算所述有效帧的帧频谱,并根 据所述帧频谱确定所述有效帧的主频;
候选基频确定模块,用于根据所述有效帧的主频和预置的谐波能量互相 关算法,确定所述有效帧的多个候选基频;
基频识别模块,用于按照预设规则,从所述多个候选基频中识别出基频;
主旋律生成模块,用于基于所有有效帧的基频,生成匹配所述音乐信号 的基频轮廓线,所述基频轮廓线即是所述音乐信号的主旋律。
所述终端设备400可包括,但不仅限于,处理器410、存储器420。本 领域技术人员可以理解,图4仅仅是终端设备400的一种示例,并不构成对 终端设备400的限定,可以包括比图示更多或更少的部件,或者组合某些部 件,或者不同的部件,例如所述终端设备400还可以包括输入输出设备、网 络接入设备、总线等。
所述处理器410可以是中央处理单元(Central Processing Unit,CPU), 还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、 专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程 门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、 分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器 或者该处理器也可以是任何常规的处理器等。
所述存储器420可以是所述终端设备400的内部存储单元,例如终端设 备400的硬盘或内存。所述存储器420也可以是所述终端设备400的外部存 储设备,例如所述终端设备400上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(SecureDigital,SD)卡,闪存卡(Flash Card) 等等。进一步地,所述存储器420还可以既包括所述终端设备400的内部存 储单元也包括外部存储设备。所述存储器420用于存储所述计算机程序421 以及所述终端设备400所需的其他程序和数据。所述存储器420还可以用于 暂时地存储已经输出或者将要输出的数据。
以上所述实施例仅用以说明本发明的技术方案,而非对其限制。尽管参 照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理 解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部 分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本 质脱离本发明各实施例技术方案的精神和范围,均应包含在本发明的保护范 围之内。

Claims (12)

1.一种提取音乐信号主旋律的方法,其特征在于,包括:
获取待处理的音乐信号,所述音乐信号包括多帧音频数据;
通过对所述多帧音频数据进行预处理,区分所述音频数据中的有效帧和无效帧,对于所述无效帧,标识为无基频;
对于所述有效帧,计算所述有效帧的帧频谱,并根据所述帧频谱确定所述有效帧的主频,所述主频为所述帧频谱中峰值所对应的频率;
根据所述有效帧的主频和预置的谐波能量互相关算法,确定所述有效帧的多个候选基频;
按照预设规则,从所述多个候选基频中识别出基频;
基于所有有效帧的基频,生成匹配所述音乐信号的基频轮廓线,所述基频轮廓线即是所述音乐信号的主旋律;
其中,所述对于所述有效帧,计算所述有效帧的帧频谱,包括:针对任一有效帧,判断所述有效帧与前一有效帧是否属于同一信号段,所述属于同一信号段的有效帧与前一有效帧的峰值位置相似度在预设范围内;
若所述有效帧与前一有效帧属于同一信号段,则按照预设权重值对所述有效帧与前一有效帧的频谱幅值进行加权平均,获得所述有效帧的帧频谱;
若所述有效帧与前一有效帧不属于同一信号段,则直接计算所述有效帧的频谱,作为所述有效帧的帧频谱。
2.根据权利要求1所述的方法,其特征在于,通过对所述多帧音频数据进行预处理,区分所述音频数据中的有效帧和无效帧,对于所述无效帧,标识为无基频,包括:
针对任一帧音频数据,判断所述音频数据的信号幅值是否小于预设的有效帧信号幅值阈值,所述预设的有效帧信号幅值阈值通过在机器音量固定时,统计最小有效声音段的信号幅值确定;
若所述音频数据的信号幅值小于预设的有效帧信号幅值阈值,则判定当前音频数据为无效帧,对于所述无效帧,标识为无基频;
若所述音频数据的信号幅值大于或等于预设的有效帧信号幅值阈值,则判定当前音频数据为有效帧。
3.根据权利要求1所述的方法,其特征在于,所述针对任一有效帧,判断所述有效帧与前一有效帧是否属于同一信号段,包括:
针对任一有效帧,在设定的频带范围内,确定所述有效帧与前一有效帧在各自对应的频谱中的峰值位置;
根据所述峰值位置,统计所述有效帧与前一有效帧的峰值位置相似度;
若所述峰值位置相似度在预设范围内,判定所述有效帧与前一有效帧属于同一信号段,否则,判定所述有效帧与前一有效帧不属于同一信号段。
4.根据权利要求3所述的方法,其特征在于,所述根据所述峰值位置,统计所述有效帧与前一有效帧的峰值位置相似度,包括:
针对所述前一有效帧的任一峰值位置,判断所述有效帧的各个峰值位置与所述前一有效帧的所述峰值位置之间的变化规律是否符合预设规律;
若是,则对峰值位置相似度递增,直到对所述前一有效帧的各个峰值位置判断完毕,获得所述有效帧与前一有效帧的峰值位置相似度。
5.根据权利要求1所述的方法,其特征在于,所述根据所述有效帧的主频和预置的谐波能量互相关算法,确定所述有效帧的多个候选基频,包括:
对所述有效帧的帧频谱做分辨率变换处理,将频谱的分辨率转换为预设频率数值;
若所述有效帧的主频在预设基频范围内,则在变换分辨率的频谱上,分别计算在所述主频的多个预设比例的频率的设定范围内,是否存在满足设定阈值要求的峰值位置;若存在所述峰值位置,则识别所述峰值位置中最大峰值对应的频率为所述有效帧的第一候选基频;若不存在所述峰值位置,则识别所述主频为所述有效帧的第一候选基频;
若所述有效帧的主频不在预设基频范围内,则在所述变换分辨率的频谱上,分别计算在所述主频的多个预设比例的频率的设定范围内,是否存在满足所述设定阈值要求的峰值位置;若存在所述峰值位置,则识别所述峰值位置中最大峰值对应的频率为所述有效帧的第二候选基频;若不存在所述峰值位置,则识别所述主频为所述有效帧的第三候选基频;其中,所述第一候选基频的权重值大于所述第二候选基频的权重值,所述第二候选基频的权重值大于所述第三候选基频的权重值,所述多个预设比例均小于1;
若所述有效帧与前一有效帧属于同一信号段,则确定所述有效帧的多个其他候选基频,所述多个其他候选基频的权重值通过采用预置的谐波能量互相关算法计算得到。
6.根据权利要求5所述的方法,其特征在于,若所述有效帧与前一有效帧属于同一信号段,确定所述有效帧的多个其他候选基频,包括:
在所述变换分辨率的频谱的预设基频范围内,选定预设个数的峰值位置,以所述预设个数的峰值位置对应的频率作为所述有效帧的多个其他候选基频;
针对任一所述其他候选基频,识别在所述有效帧的帧频谱上所述其他候选基频的多个预设倍数频率的设定范围内满足预设阈值范围的多个谐波峰值,所述多个预设倍数频率为多个连续的整数值倍数对应的频率;
通过所述多个谐波峰值位置和所述其他候选基频的关系,校正所述其他候选基频,所述其他候选基频在降采样频谱上对应的频谱幅值为所述其他候选基频的谐波能量;
计算所述有效帧与前一有效帧各个其他候选基频对应的谐波能量互相关系数;
识别所述谐波能量互相关系数超过预设相关系数阈值的多个目标互相关系数;
计算所述多个目标互相关系数对应的其他候选基频。
7.根据权利要求6所述的方法,其特征在于,所述计算所述有效帧与前一有效帧各个其他候选基频对应的谐波能量互相关系数,包括:
以所述有效帧的多个其他候选基频中一个的谐波能量作为第一数组,以所述前一有效帧的多个其他候选基频中一个的谐波能量作为第二数组,计算所述第一数组和第二数组的互相关系数,作为所述有效帧的所述基频与所述前一有效帧的所述基频的谐波能量互相关系数;
若所述谐波能量互相关系数大于所述预设相关系数阈值,则保留所述谐波能量互相关系数;
若所述谐波能量互相关系数小于或等于所述预设相关系数阈值,则将所述谐波能量互相关系数置为零。
8.根据权利要求7所述的方法,其特征在于,所述计算所述多个目标互相关系数对应的其他候选基频,包括:
针对任一大于零的目标互相关系数,计算其所对应的所述前一有效帧的其他候选基频和所述有效帧的其他候选基频的平均值,作为所述有效帧的其他候选基频,以所述目标互相关系数,作为所述有效帧的其他候选基频的权重值。
9.根据权利要求1所述的方法,其特征在于,所述多个候选基频包括第一候选基频、第二候选基频、第三候选基频和其他候选基频,所述按照预设规则,从所述多个候选基频中识别出基频,包括:
若所述有效帧与前一有效帧属于同一信号段,则判断所述有效帧的候选基频与所述前一有效帧的基频之间的差值是否大于预设基频阈值;
若所述有效帧的任一候选基频与所述前一有效帧的基频之间的差值均大于预设基频阈值,则判断全部候选基频的平均值是否大于所述前一有效帧的基频;若是,则将所述前一有效帧的基频加上预设基频阈值,作为所述有效帧的基频;若否,则将所述前一有效帧的基频减去所述预设基频阈值,作为所述有效帧的基频;
若所述有效帧的候选基频与所述前一有效帧的基频之间的差值不大于预设基频阈值,则将所述有效帧的候选基频作为所述有效帧的基频;
若所述有效帧的基频包括多个,则在将所述有效帧的多个基频分别减去所述前一有效帧的基频,再分别除以其对应权重值后,得到与各个基频对应的基频差值;以所述各个基频对应的基频差值中绝对值最小值对应的基频作为所述有效帧的基频,若所述最小值对应的基频包括多个,则在所述最小值对应的多个基频中选择和前一有效帧基频之间的差值最小的一个基频,作为所述有效帧的基频;
若所述有效帧与前一有效帧不属于同一信号段,则识别所述有效帧的候选基频的权重值中的最大值,以所述权重值的最大值对应的候选基频作为所述有效帧的基频。
10.一种提取音乐信号主旋律的装置,其特征在于,包括:
音乐信号获取模块,用于获取待处理的音乐信号,所述音乐信号包括多帧音频数据;
帧类型区分模块,用于通过对所述多帧音频数据进行预处理,区分所述音频数据中的有效帧和无效帧,对于所述无效帧,标识为无基频;
主频确定模块,用于对于所述有效帧,计算所述有效帧的帧频谱,并根据所述帧频谱,确定所述有效帧的主频,所述主频为所述帧频谱中峰值所对应的频率;
候选基频确定模块,用于根据所述有效帧的主频和预置的谐波能量互相关算法,确定所述有效帧的多个候选基频;
基频识别模块,用于按照预设规则,从所述多个候选基频中识别出基频;
主旋律生成模块,用于基于所有有效帧的基频,生成匹配所述音乐信号的基频轮廓线,所述基频轮廓线即是所述音乐信号的主旋律;
其中,所述主频确定模块具体用于:针对任一有效帧,判断所述有效帧与前一有效帧是否属于同一信号段,所述属于同一信号段的有效帧与前一有效帧的峰值位置相似度在预设范围内;若所述有效帧与前一有效帧属于同一信号段,则按照预设权重值对所述有效帧与前一有效帧的频谱幅值进行加权平均,获得所述有效帧的帧频谱;若所述有效帧与前一有效帧不属于同一信号段,则直接计算所述有效帧的频谱,作为所述有效帧的帧频谱。
11.一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至9任一项所述的提取音乐信号主旋律的方法。
12.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至9任一项所述的提取音乐信号主旋律的方法。
CN202010075634.9A 2020-01-22 2020-01-22 一种提取音乐信号主旋律的方法、装置及终端设备 Active CN111223491B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010075634.9A CN111223491B (zh) 2020-01-22 2020-01-22 一种提取音乐信号主旋律的方法、装置及终端设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010075634.9A CN111223491B (zh) 2020-01-22 2020-01-22 一种提取音乐信号主旋律的方法、装置及终端设备

Publications (2)

Publication Number Publication Date
CN111223491A CN111223491A (zh) 2020-06-02
CN111223491B true CN111223491B (zh) 2022-11-15

Family

ID=70806901

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010075634.9A Active CN111223491B (zh) 2020-01-22 2020-01-22 一种提取音乐信号主旋律的方法、装置及终端设备

Country Status (1)

Country Link
CN (1) CN111223491B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111785237B (zh) * 2020-06-09 2024-04-19 Oppo广东移动通信有限公司 音频节奏确定方法、装置、存储介质和电子设备
CN112086104B (zh) * 2020-08-18 2022-04-29 珠海市杰理科技股份有限公司 音频信号的基频获取方法、装置、电子设备和存储介质
CN113542983B (zh) * 2021-07-09 2023-06-27 安徽聆思智能科技有限公司 一种音频信号处理方法、装置、设备及存储介质
CN113763930B (zh) * 2021-11-05 2022-03-11 深圳市倍轻松科技股份有限公司 语音分析方法、装置、电子设备以及计算机可读存储介质
CN113851114B (zh) * 2021-11-26 2022-02-15 深圳市倍轻松科技股份有限公司 语音信号的基频确定方法和装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103426441A (zh) * 2012-05-18 2013-12-04 华为技术有限公司 检测基音周期的正确性的方法和装置
CN108628982A (zh) * 2018-04-27 2018-10-09 大连民族大学 基于粒子滤波的主旋律音高序列的粗略估计方法

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5774837A (en) * 1995-09-13 1998-06-30 Voxware, Inc. Speech coding system and method using voicing probability determination
US6226606B1 (en) * 1998-11-24 2001-05-01 Microsoft Corporation Method and apparatus for pitch tracking
WO2011087332A2 (ko) * 2010-01-15 2011-07-21 엘지전자 주식회사 오디오 신호 처리 방법 및 장치
CN102842305B (zh) * 2011-06-22 2014-06-25 华为技术有限公司 一种基音检测的方法和装置
CN103247286B (zh) * 2013-03-28 2015-09-23 北京航空航天大学 一种基于gpu的多声部音乐旋律提取方法
FR3023646A1 (fr) * 2014-07-11 2016-01-15 Orange Mise a jour des etats d'un post-traitement a une frequence d'echantillonnage variable selon la trame
CN107203571B (zh) * 2016-03-18 2019-08-06 腾讯科技(深圳)有限公司 歌曲旋律信息处理方法和装置
CN105957538B (zh) * 2016-05-09 2019-06-11 大连民族大学 基于显著性的复调音乐主旋律提取方法
CN107103908B (zh) * 2017-05-02 2019-12-24 大连民族大学 复调音乐多音高估计方法及伪双谱在多音高估计中的应用

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103426441A (zh) * 2012-05-18 2013-12-04 华为技术有限公司 检测基音周期的正确性的方法和装置
CN108628982A (zh) * 2018-04-27 2018-10-09 大连民族大学 基于粒子滤波的主旋律音高序列的粗略估计方法

Also Published As

Publication number Publication date
CN111223491A (zh) 2020-06-02

Similar Documents

Publication Publication Date Title
CN111223491B (zh) 一种提取音乐信号主旋律的方法、装置及终端设备
CN102054480B (zh) 一种基于分数阶傅立叶变换的单声道混叠语音分离方法
EP2828856B1 (en) Audio classification using harmonicity estimation
CN109767783A (zh) 语音增强方法、装置、设备及存储介质
CN111128213B (zh) 一种分频段进行处理的噪声抑制方法及其系统
US8543387B2 (en) Estimating pitch by modeling audio as a weighted mixture of tone models for harmonic structures
Shahnaz et al. Pitch estimation based on a harmonic sinusoidal autocorrelation model and a time-domain matching scheme
US20230402048A1 (en) Method and Apparatus for Detecting Correctness of Pitch Period
CN105845149A (zh) 声音信号中主音高的获取方法及系统
US20170365244A1 (en) Method and installation for processing a sequence of signals for polyphonic note recognition
CN108806721B (zh) 信号处理器
CN110379438B (zh) 一种语音信号基频检测与提取方法及系统
CN108847251A (zh) 一种语音去重方法、装置、服务器及存储介质
CN109841232B (zh) 音乐信号中音符位置的提取方法和装置及存储介质
Kim et al. Phase continuity: Learning derivatives of phase spectrum for speech enhancement
Joo et al. Melody extraction from polyphonic audio signal mirex2010
Sumarno On The Performace of Segment Averaging of Discrete Cosine Transform Coefficients on Musical Instruments Tone Recognition
US20180075833A1 (en) Audio signal processing apparatus, audio signal processing method, and audio signal processing program
CN113763930B (zh) 语音分析方法、装置、电子设备以及计算机可读存储介质
Holzapfel et al. Advantages of nonstationary gabor transforms in beat tacking
CN108597537A (zh) 一种音频信号相似度检测方法
KR100198057B1 (ko) 음성신호 특징 추출방법 및 장치
Kodag et al. Harmonic product spectrum based approach for tonic extraction in Indian music
NSKI et al. High accuracy and octave error immune pitch detection algorithms
CN115641858A (zh) 变声处理方法、存储介质、芯片及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant