CN112489681A - 节拍识别方法、装置及存储介质 - Google Patents

节拍识别方法、装置及存储介质 Download PDF

Info

Publication number
CN112489681A
CN112489681A CN202011320049.7A CN202011320049A CN112489681A CN 112489681 A CN112489681 A CN 112489681A CN 202011320049 A CN202011320049 A CN 202011320049A CN 112489681 A CN112489681 A CN 112489681A
Authority
CN
China
Prior art keywords
beat
characteristic
audio
information
time
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011320049.7A
Other languages
English (en)
Inventor
郑亚军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
AAC Microtech Changzhou Co Ltd
AAC Optoelectronic Changzhou Co Ltd
Science and Education City Branch of AAC New Energy Development Changzhou Co Ltd
Original Assignee
AAC Optoelectronic Changzhou Co Ltd
Science and Education City Branch of AAC New Energy Development Changzhou Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by AAC Optoelectronic Changzhou Co Ltd, Science and Education City Branch of AAC New Energy Development Changzhou Co Ltd filed Critical AAC Optoelectronic Changzhou Co Ltd
Priority to CN202011320049.7A priority Critical patent/CN112489681A/zh
Priority to PCT/CN2020/133192 priority patent/WO2022104917A1/zh
Publication of CN112489681A publication Critical patent/CN112489681A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/031Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
    • G10H2210/076Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal for extraction of timing, tempo; Beat detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Auxiliary Devices For Music (AREA)

Abstract

本发明涉及一种节拍识别方法、装置、计算机设备和存储介质。所述方法包括:提取音频信号的特征信息,其中,所述特征信息包括第一特征音频点集的时刻信息和能量信息、以及节拍时长;对所述特征信息进行计算处理,以获得实际节拍时刻数列;根据所述实际节拍时刻数列识别节拍点。采用本方法能够全自动、高准确度的识别节拍从而改善用户体验。

Description

节拍识别方法、装置及存储介质
技术领域
本发明涉及音频识别技术领域,特别是涉及一种节拍识别方法、装置及存储介质。
背景技术
音乐作为一种艺术形式,在遵循一定的乐理基础上,通过节拍、音调、旋律、歌词等元素表达人们的思想情感与社会现实生活。自古以来,人类都是离不开音乐的。音乐除了通过传统形式的乐谱记录和传播,在现代社会中,随着科技的发展,更多的是以数字信号的形式记录、播放和传播。
相较于传统的乐谱形式记录音乐,数字音乐形式记录音乐不仅可以充分记录一首音乐的信息、也便于直接在电子设备中播放。
然而,目前的以数字音乐形式记录音乐的方法,并不能识别音乐的节拍等信息,因此,无法根据节拍对音乐进行进一步分析(例如,为音乐节拍、旋律匹配振感效果)以增添音乐播放的趣味性,用户体验差。
发明内容
基于此,有必要针对上述技术问题,提供一种能够全自动、高准确度的识别节拍从而改善用户体验的节拍识别方法、装置、计算机设备和存储介质。
本发明提供一种节拍识别方法,所述方法包括:
提取音频信号的特征信息;其中,所述特征信息包括第一特征音频点集的时刻信息和能量信息、以及节拍时长;
对所述特征信息进行计算处理,以获得实际节拍时刻数列;
根据所述实际节拍时刻数列识别节拍点。
在其中一个实施例中,所述对所述特征信息进行计算处理,以获得实际节拍时刻数列的步骤包括:
根据所述第一特征音频点集的时刻信息和能量信息,识别所述第一特征音频点集中的多个第二特征音频点,并提取多个所述第二特征音频点的时刻;
根据多个所述第二特征音频点的时刻,生成特征时刻数列;
根据多个所述第二特征音频点的时刻和所述节拍时长,生成多个预估节拍时刻数列;其中,所述预估节拍点包括多个预估节拍点的预估时刻;
根据所述特征时刻数列和多个所述预估节拍时刻数列进行概率运算,获得各所述预估节拍时刻数列成为所述实际节拍时刻数列的概率值;
选取概率值最大的所述预估节拍时刻数列作为所述实际节拍时刻数列。
在其中一个实施例中,所述识别所述第一特征音频点集中的多个第二特征音频点的步骤包括:
将所述第一特征音频点集中能量值高于预设能量阈值的第一特征音频点记为所述第二特征音频点;其中,所述预设能量阈值为所述第一特征音频点集的能量信息中最大的能量值的五分之一。
在其中一个实施例中,所述根据所述特征时刻数列和多个所述预估节拍时刻数列进行概率运算,获得各所述预估节拍时刻数列成为所述实际节拍时刻数列的概率值的步骤包括:
根据各所述预估节拍时刻数列和所述特征时刻数列,获取各所述预估节拍时刻数列的误差数列;其中,各所述误差数列包括多个预估节拍点的时刻误差值;
将各所述误差数列中小于预设误差阈值的时刻误差值所对应的预估节拍点记为有效节拍点;
根据各所述预估节拍时刻数列中有效节拍点的数量与预估节拍点的数量进行计算,获取各所述预估节拍时刻数列成为所述实际节拍时刻数列的概率值。
在其中一个实施例中,所述预设误差阈值为所述节拍时长中的最大时长值的十分之一。
在其中一个实施例中,提取所述第一特征音频点集的时刻信息的步骤包括:
获取音乐信号的能量信息;
对所述能量信息进行计算处理,以获得能量变化曲线;
根据所述能量变化曲线,识别所述第一特征音频点集,并提取所述第一特征音频点集的时刻信息。
在其中一个实施例中,提取所述第一特征音频点集的能量信息的步骤包括:
根据所述能量变化曲线和所述第一特征音频点集的时刻信息,提取所述第一特征音频点集的能量信息。
在其中一个实施例中,所述方法还包括:
当音频文件包括多个分别用于传输所述音频信号的音频轨道时,对所述音频文件进行分轨预处理,通过至少一个所述音频轨道播放所述音频信号。
本发明提供一种节拍识别装置,其包括:
音频处理模块,用于提取音频信号的特征信息,其中,所述特征信息包括第一特征音频点集的时刻信息和能量信息、以及节拍时长;以及,
计算处理模块,用于对所述特征信息进行计算处理,以获得实际节拍时刻数列;还用于根据所述实际节拍时刻数列识别节拍点。
本发明提供一种节拍识别装置,其包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
提取音频信号的特征信息;其中,所述特征信息包括第一特征音频点集的时刻信息和能量信息、以及节拍时长;
对所述特征信息进行计算处理,以获得实际节拍时刻数列;
根据所述实际节拍时刻数列识别节拍点。
本发明提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
提取音频信号的特征信息;其中,所述特征信息包括第一特征音频点集的时刻信息和能量信息、以及节拍时长;
对所述特征信息进行计算处理,以获得实际节拍时刻数列;
根据所述实际节拍时刻数列识别节拍点。
上述节拍识别方法、装置以及存储介质,在节拍识别方法中,通过提取音频信号的特征信息(特征信息包括第一特征音频点集的时刻信息和能量信息、以及节拍时长),根据特征信息计算获得实际节拍时刻数列,根据实际节拍时刻数列识别节拍点,从实际节拍时刻数列中自动识别准确的音频节拍点,实现了对音频节拍的全自动、高准确度的识别,在实际应用中,音频节拍的自动识别为人们根据节拍对音乐进行进一步分析及利用时以增添音乐播放的趣味性提供了基础,改善了用户体验。
附图说明
图1为本发明的节拍识别方法的应用环境图;
图2为本发明的节拍识别方法的流程示意图;
图3为图2中步骤S0的流程示意图;
图4为图2中步骤S4的流程示意图;
图5为图4中步骤S44的流程示意图;
图6为本发明的节拍识别装置的结构示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明提供一种节拍识别方法,可以应用于如图1所示的应用环境中。其中,终端1通过网络与服务器2进行通信,或者通过其他有线或无线的方式与其他终端或电子设备进行实现数据传输。其中,终端1可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备,服务器2可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
在一个实施例中,如图2所示,提供了一种节拍识别方法,以该方法应用于图1中的终端为例进行说明,包括以下步骤:
步骤S2,提取音频信号的特征信息。
具体的,所述特征信息包括第一特征音频点集的时刻信息和能量信息、以及节拍时长,上述的第一特征音频点集包括了多个第一特征音频点;上述的步骤S2中分别包括了对第一特征音频点集的时刻信息、能量信息和节拍时长的提取的子步骤,在本实施方式中,首先从原始的音频信号中识别出重音点并记为第一特征音频点,而多个重音点的集合记为第一特征音频点集,然后分别提取各个重音点的时刻和能量值,多个重音点的时刻共同组成第一特征音频点集的时刻信息Ts,多个重音点的能量值共同组成第一特征音频点集的能量信息Es,另外,要提取音频信号的节拍时长Lb
步骤S4,对所述特征信息进行计算处理,以获得实际节拍时刻数列。
具体的,在本实施方式中,根据所述第一特征音频点集的时刻信息Ts、能量信息Es和节拍时长Lb进行计算处理,根据计算处理的结果获取实际节拍时刻数列Tb,实质上,所述实际节拍时刻数列Tb包括了多个节拍点(节拍点为音频信号中的局部的能量爆发点)。
步骤S6,根据所述实际节拍时刻数列识别节拍点。
上述节拍识别方法中,通过提取音频信号的特征信息,根据特征信息计算获得实际节拍时刻数列,根据实际节拍时刻数列识别节拍点,从实际节拍时刻数列中自动识别准确的音频节拍点,实现了对音频节拍的全自动、高准确度的识别,在实际应用中,音频节拍的自动识别为人们根据节拍对音乐进行进一步分析及利用时以增添音乐播放的趣味性提供了基础,改善了用户体验。
为了更进一步理解上述方法,请同时参阅图1-5所示,下面对上述方法的各步骤进行详细描述:
在一个实施例中,可以根据实际使用的需要增加步骤S0,进行音频信号预处理,该步骤S0具体包括:
步骤S01,获取音频文件。具体的,在该步骤S11中,所述终端1可以通过网络从服务器2中下载音频文件(如音乐文件),也可以通过无线通信连接(如WiFi热点连接、蓝牙连接等)或有线通信连接(如数据传输线连接)接收其他的终端或者电子设备传输的音频文件,其可以获取的方式是不限的,其可以根据实际情况来确定。
步骤S02,判断音频文件是否包括多个音频轨道。具体的,所述音频轨道用于传输所述音频信号。
步骤S03,当音频文件包括多个音频轨道时,对所述音频文件进行分轨预处理,通过至少一个所述音频轨道输出音频信号,并获取所述终端1对所述音频信号的信号采样率fs,即至少选择其中一个所述音频轨道播放的音频信号进行节拍识别。
通过上述步骤S0的设置,为所述终端1能够同时满足对单音频轨道的音乐文件或多音频轨道的音乐文件所输出的音频信号进行节拍识别,提高了本发明节拍识别方法的适用性,能够满足不同应用于场景。
步骤S2,提取音频信号的特征信息,该步骤S2具体包括:
在其中一个实施例中,提取所述第一特征音频点集的时刻信息的步骤包括:
获取音乐信号的能量信息;
对所述能量信息进行计算处理,以获得能量变化曲线;
根据所述能量变化曲线,识别所述第一特征音频点集,并提取所述第一特征音频点集的时刻信息Ts
在其中一个实施例中,提取所述第一特征音频点集的能量信息的步骤包括:
根据所述能量变化曲线和所述第一特征音频点集的时刻信息Ts,提取所述第一特征音频点集的能量信息Es
步骤S4,对所述特征信息进行计算处理,以获得实际节拍时刻数列,该步骤S4具体包括:
步骤S41,根据所述第一特征音频点集的时刻信息Ts和能量信息Es,识别所述第一特征音频点集中的多个第二特征音频点,并提取多个所述第二特征音频点的时刻。
所述识别所述第一特征音频点集中的多个第二特征音频点的步骤中包括:
将所述第一特征音频点集中能量值高于预设能量阈值的第一特征音频点(亦即重音点)记为所述第二特征音频点;其中,所述第二特征音频点的识别数量可以根据实际情况进行确定,而所述预设能量阈值的数值是不限的,其可以根据实际使用的情况进行设置,比如,在本实施方式中,考虑到部分音频信号的前奏节拍不明显,前奏重音标识点对整体节拍分析会造成较大干扰,因此将所述预设能量阈值具体设置为所述第一特征音频点集的能量信息中最大的能量值的五分之一,该预设能量阈值表示为0.2·max(Es),该预设能量阈值0.2·max(Es)作为门限值有利于排除前奏对节拍识别的干扰,有利于提高识别的准确度。
具体的,在本实施方式中,需要识别四个第二音频特征点,首先从所述第一特征音频点集的能量信息Es的第一个重音点开始判断,当识别到第一个能量值高于预设能量阈值0.2·max(Es)的重音点时,将第一个能量值高于预设能量阈值0.2·max(Es)的重音点重新标记为第一个第二音频特征点,并将第一个第二音频特征点的时刻重新标记为t1,然后删除时刻在第二音频特征点的时刻t1之前的重音点,然后从第二音频特征点的时刻t1继续往后开始判断,当识别到第二个能量值高于预设能量阈值0.2·max(Es)的重音点时,将第二个能量值高于预设能量阈值0.2·max(Es)的重音点重新标记为第二个第二音频特征点,并将第二个第二音频特征点的时刻重新标记为t2,然后删除时刻在第二音频特征点的时刻t1和第二音频特征点的时刻t2之间的重音点,根据第二个第二音频特征点的时刻t2的获取,以此类推,识别到第三个第二音频特征点的时刻t3、第四个第二音频特征点的时刻t4;需要说明的是,根据基本的乐理,常见一节拍内出现四个音符,而四个音符都可能具有较大能量,因此对应的,此处标记了四个第二音频特征点(即重新标记的重音点),对该四个第二音频特征点进行概率判断,以提高对节拍识别的准确性。
步骤S42,根据多个所述第二特征音频点的时刻,生成特征时刻数列Tr
步骤S43,根据多个所述第二特征音频点的时刻和所述节拍时长Lb,生成多个预估节拍时刻数列;其中,所述预估节拍点包括多个预估节拍点的预估时刻。
具体的,在本实施方式中,根据上述第一个第二特征音频点的时刻t1和所述节拍时长Lb,生成预估节拍时刻数列T1b,根据上述第二个第二特征音频点的时刻t2和所述节拍时长Lb,生成预估节拍时刻数列T2b,以此类推,生成分别与预估节拍时刻数列T3b和预估节拍时刻数列T4b;上述的预估节拍时刻数列T1b、T2b、T3b、T4b的初值分别为第二特征音频点的时刻t1、t2、t3、t4,且各个预估节拍时刻数列均为公差为Lb的等差数列。
步骤S44,根据所述特征时刻数列Tr和多个所述预估节拍时刻数列进行概率运算,获得各所述预估节拍时刻数列成为所述实际节拍时刻数列Tb的概率值。
更具体的,所述步骤S24还包括:
步骤S441,根据各所述预估节拍时刻数列和所述特征时刻数列,获取各所述预估节拍时刻数列的误差数列;其中,各所述误差数列包括多个预估节拍点的时刻误差值。
具体的,在所述步骤S241中,将预估节拍时刻数列T1b的每一个值T1b(k)、预估节拍时刻数列T2b的每一个值T2b(k)、预估节拍时刻数列T3b的每一个值T3b(k)、预估节拍时刻数列T4b的每一个值T4b(k)分别减去特征时刻数列Tr,通过减法计算后,获得分别与预估节拍时刻数列T1b、T2b、T3b、T4b对应的误差数列Err1(k)、Err2(k)、Err3(k)、Err4(k),预估节拍时刻数列T1b、T2b、T3b、T4b的每一个值与误差数列Err1(k)、Err2(k)、Err3(k)、Err4(k)的每一个预估节拍点的时刻误差值对应,其中,k为预估节拍时刻数列索引号。
步骤S442,将各所述误差数列中小于预设误差阈值的时刻误差值所对应的预估节拍点记为有效节拍点。
其中,所述预设误差阈值的数值是不限的,在本实施方式中,由于重音点的提取不能保证百分百准确,因此将所述预设误差阈值设置为所述节拍时长中的最大时长值的十分之一,该预设误差阈值表示为0.1·max(Lb),该设置预留了一定的波动空间,使得高音点的提取更加合理。
具体的,在所述步骤S242中,判断误差数列Err1(k)、Err2(k)、Err3(k)、Err4(k)的每一个预估节拍点的时刻误差值的绝对值是否小于0.1·max(Lb),将所述误差数列Err1(k)、Err2(k)、Err3(k)、Err4(k)中小于预设误差阈值0.1·max(Lb)的时刻误差值所对应的预估节拍点记为有效节拍点,误差数列Err1(k)、Err2(k)、Err3(k)、Err4(k)的有效节拍数量分别别是为n1、n2、n3、n4
步骤S443,根据各所述预估节拍时刻数列中有效节拍点的数量与预估节拍点的数量进行计算,获取各所述预估节拍时刻数列成为所述实际节拍时刻数列Tb的概率值。
具体的,所述预估节拍时刻数列T1b、T2b、T3b、T4b成为所述实际节拍时刻数列Tb的概率值分别为p1、p2、p3、p4;进一步的,根据下述计算规则计算四个预估节拍时刻数列为实际节拍时刻数列的概率值:有效节拍的个数除以预估节拍的总个数,得到可能节拍时刻数列为真实节拍点的概率。
即:
p1=n1/N1,N1为第1个可能节拍数列的单元个数;
p2=n2/N2,N2为第2个可能节拍数列的单元个数;
p3=n3/N3,N3为第3个可能节拍数列的单元个数;
p4=n4/N4,N4为第4个可能节拍数列的单元个数。
步骤S45,选取概率值最大的所述预估节拍时刻数列作为所述实际节拍时刻数列Tb
具体的,取概率值p1、p2、p3、p4中最大值对应的预估节拍时刻数列,记为实际节拍时刻数列Tb,譬如,本实施方式中,四个概率值当中,p1的数值最大,则选择第一个预估节拍时刻数列T1b记为实际节拍时刻数列Tb
步骤S6,根据所述实际节拍时刻数列识别节拍点。
具体的,在本实施方式中,选取了第一个预估节拍时刻数列T1b记为实际节拍时刻数列Tb,在此,提取预估节拍时刻数列T1b中的预估节拍点的时刻作为节拍点的时刻,并确定为节拍点的具体位置。
应该理解的是,虽然图2-5的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图2-5中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
请参图6所示,本发明提供一种节拍识别装置100,其应用于终端,其包括:音频处理模块11以及所述音频处理模块连接的计算处理模块12,其中:
所述音频处理模块11,用于提取音频信号的特征信息,其中,所述特征信息包括第一特征音频点集的时刻信息和能量信息、以及节拍时长;
所述计算处理模块12,用于对所述特征信息进行计算处理,以获得实际节拍时刻数列;还用于根据所述实际节拍时刻数列识别节拍点。
在一个实施方式中,所述计算处理模块12,还用于根据所述第一特征音频点集的时刻信息和能量信息,识别所述第一特征音频点集中的多个第二特征音频点,并提取多个所述第二特征音频点的时刻;用于根据多个所述第二特征音频点的时刻,生成特征时刻数列;用于根据多个所述第二特征音频点的时刻和所述节拍时长,生成多个预估节拍时刻数列;用于根据所述特征时刻数列和多个所述预估节拍时刻数列进行概率运算,获得各所述预估节拍时刻数列成为所述实际节拍时刻数列的概率值;用于选取概率值最大的所述预估节拍时刻数列作为所述实际节拍时刻数列。
在一个实施方式中,所述计算处理模块12,还用于根据各所述预估节拍时刻数列和所述特征时刻数列,获取各所述预估节拍时刻数列的误差数列;其中,各所述误差数列包括多个预估节拍点的时刻误差值;用于将各所述误差数列中小于预设误差阈值的时刻误差值所对应的预估节拍点记为有效节拍点;用于根据各所述预估节拍时刻数列中有效节拍点的数量与预估节拍点的数量进行计算,获取各所述预估节拍时刻数列成为所述实际节拍时刻数列的概率值。
在一个实施方式中,所述计算处理模块12,还用于获取音乐信号的能量信息;用于对所述能量信息进行计算处理,以获得能量变化曲线;用于根据所述能量变化曲线,识别所述第一特征音频点集,并提取所述第一特征音频点集的时刻信息。
在一个实施方式中,所述计算处理模块12,还用于根据所述能量变化曲线和所述第一特征音频点集的时刻信息,提取所述第一特征音频点集的能量信息。
关于节拍识别装置的具体限定可以参见上文中对于节拍识别方法的限定,在此不再赘述。上述节拍识别装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,本发明提供一种节拍识别装置,其包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述节拍识别方法的任一步骤。
在一个实施例中,本发明提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述节拍识别方法的任一步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本发明所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-Only Memory,ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic Random Access Memory,DRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。

Claims (11)

1.一种节拍识别方法,其特征在于,所述方法包括:
提取音频信号的特征信息;其中,所述特征信息包括第一特征音频点集的时刻信息和能量信息、以及节拍时长;
对所述特征信息进行计算处理,以获得实际节拍时刻数列;
根据所述实际节拍时刻数列识别节拍点。
2.根据权利要求1所述的节拍识别方法,其特征在于,所述对所述特征信息进行计算处理,以获得实际节拍时刻数列的步骤包括:
根据所述第一特征音频点集的时刻信息和能量信息,识别所述第一特征音频点集中的多个第二特征音频点,并提取多个所述第二特征音频点的时刻;
根据多个所述第二特征音频点的时刻,生成特征时刻数列;
根据多个所述第二特征音频点的时刻和所述节拍时长,生成多个预估节拍时刻数列;其中,所述预估节拍点包括多个预估节拍点的预估时刻;
根据所述特征时刻数列和多个所述预估节拍时刻数列进行概率运算,获得各所述预估节拍时刻数列成为所述实际节拍时刻数列的概率值;
选取概率值最大的所述预估节拍时刻数列作为所述实际节拍时刻数列。
3.根据权利要求2所述的节拍识别方法,其特征在于,所述识别所述第一特征音频点集中的多个第二特征音频点的步骤包括:
将所述第一特征音频点集中能量值高于预设能量阈值的第一特征音频点记为所述第二特征音频点;其中,所述预设能量阈值为所述第一特征音频点集的能量信息中最大的能量值的五分之一。
4.根据权利要求2所述的节拍识别方法,其特征在于,所述根据所述特征时刻数列和多个所述预估节拍时刻数列进行概率运算,获得各所述预估节拍时刻数列成为所述实际节拍时刻数列的概率值的步骤包括:
根据各所述预估节拍时刻数列和所述特征时刻数列,获取各所述预估节拍时刻数列的误差数列;其中,各所述误差数列包括多个预估节拍点的时刻误差值;
将各所述误差数列中小于预设误差阈值的时刻误差值所对应的预估节拍点记为有效节拍点;
根据各所述预估节拍时刻数列中有效节拍点的数量与预估节拍点的数量进行计算,获取各所述预估节拍时刻数列成为所述实际节拍时刻数列的概率值。
5.根据权利要求4所述的节拍识别方法,其特征在于,所述预设误差阈值为所述节拍时长中的最大时长值的十分之一。
6.根据权利要求1所述的节拍识别方法,其特征在于,提取所述第一特征音频点集的时刻信息的步骤包括:
获取音乐信号的能量信息;
对所述能量信息进行计算处理,以获得能量变化曲线;
根据所述能量变化曲线,识别所述第一特征音频点集,并提取所述第一特征音频点集的时刻信息。
7.根据权利要求6所述的节拍识别方法,其特征在于,提取所述第一特征音频点集的能量信息的步骤包括:
根据所述能量变化曲线和所述第一特征音频点集的时刻信息,提取所述第一特征音频点集的能量信息。
8.根据权利要求1所述的节拍识别方法,其特征在于,所述方法还包括:
当音频文件包括多个分别用于传输所述音频信号的音频轨道时,对所述音频文件进行分轨预处理,通过至少一个所述音频轨道播放所述音频信号。
9.一种节拍识别装置,其特征在于,所述节拍识别装置包括:
音频处理模块,用于提取音频信号的特征信息,其中,所述特征信息包括第一特征音频点集的时刻信息和能量信息、以及节拍时长;以及,
计算处理模块,用于对所述特征信息进行计算处理,以获得实际节拍时刻数列;还用于根据所述实际节拍时刻数列识别节拍点。
10.一种节拍识别装置,其包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至8中任一项所述的节拍识别方法的步骤。
11.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至8中任一项所述的节拍识别方法的步骤。
CN202011320049.7A 2020-11-23 2020-11-23 节拍识别方法、装置及存储介质 Pending CN112489681A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202011320049.7A CN112489681A (zh) 2020-11-23 2020-11-23 节拍识别方法、装置及存储介质
PCT/CN2020/133192 WO2022104917A1 (zh) 2020-11-23 2020-12-02 节拍识别方法、装置及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011320049.7A CN112489681A (zh) 2020-11-23 2020-11-23 节拍识别方法、装置及存储介质

Publications (1)

Publication Number Publication Date
CN112489681A true CN112489681A (zh) 2021-03-12

Family

ID=74933393

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011320049.7A Pending CN112489681A (zh) 2020-11-23 2020-11-23 节拍识别方法、装置及存储介质

Country Status (2)

Country Link
CN (1) CN112489681A (zh)
WO (1) WO2022104917A1 (zh)

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090287323A1 (en) * 2005-11-08 2009-11-19 Yoshiyuki Kobayashi Information Processing Apparatus, Method, and Program
US20100186576A1 (en) * 2008-11-21 2010-07-29 Yoshiyuki Kobayashi Information processing apparatus, sound analysis method, and program
CN103578478A (zh) * 2013-11-11 2014-02-12 安徽科大讯飞信息科技股份有限公司 实时获取音乐节拍信息的方法及系统
US20150149166A1 (en) * 2013-11-27 2015-05-28 Electronics And Telecommunications Research Institute Method and apparatus for detecting speech/non-speech section
CN108335688A (zh) * 2017-12-28 2018-07-27 广州市百果园信息技术有限公司 音乐中主节拍点检测方法及计算机存储介质、终端
CN109712600A (zh) * 2018-12-30 2019-05-03 北京经纬恒润科技有限公司 一种节拍识别的方法及装置
CN109920449A (zh) * 2019-03-18 2019-06-21 广州市百果园网络科技有限公司 节拍分析方法、音频处理方法及装置、设备、介质
CN110890083A (zh) * 2019-10-31 2020-03-17 北京达佳互联信息技术有限公司 音频数据的处理方法、装置、电子设备及存储介质
CN111128232A (zh) * 2019-12-26 2020-05-08 广州酷狗计算机科技有限公司 音乐的小节信息确定方法、装置、存储介质及设备
US20200357369A1 (en) * 2018-01-09 2020-11-12 Guangzhou Baiguoyuan Information Technology Co., Ltd. Music classification method and beat point detection method, storage device and computer device

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103824555B (zh) * 2012-11-19 2015-11-18 腾讯科技(深圳)有限公司 音频段提取方法及提取装置
JP6539941B2 (ja) * 2014-01-07 2019-07-10 富士通株式会社 評価プログラム、評価方法及び評価装置
CN104599663B (zh) * 2014-12-31 2018-05-04 华为技术有限公司 歌曲伴奏音频数据处理方法和装置
CN110853677B (zh) * 2019-11-20 2022-04-26 北京雷石天地电子技术有限公司 歌曲的鼓声节拍识别方法、装置、终端和非临时性计算机可读存储介质

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090287323A1 (en) * 2005-11-08 2009-11-19 Yoshiyuki Kobayashi Information Processing Apparatus, Method, and Program
US20100186576A1 (en) * 2008-11-21 2010-07-29 Yoshiyuki Kobayashi Information processing apparatus, sound analysis method, and program
CN103578478A (zh) * 2013-11-11 2014-02-12 安徽科大讯飞信息科技股份有限公司 实时获取音乐节拍信息的方法及系统
US20150149166A1 (en) * 2013-11-27 2015-05-28 Electronics And Telecommunications Research Institute Method and apparatus for detecting speech/non-speech section
CN108335688A (zh) * 2017-12-28 2018-07-27 广州市百果园信息技术有限公司 音乐中主节拍点检测方法及计算机存储介质、终端
US20200357369A1 (en) * 2018-01-09 2020-11-12 Guangzhou Baiguoyuan Information Technology Co., Ltd. Music classification method and beat point detection method, storage device and computer device
CN109712600A (zh) * 2018-12-30 2019-05-03 北京经纬恒润科技有限公司 一种节拍识别的方法及装置
CN109920449A (zh) * 2019-03-18 2019-06-21 广州市百果园网络科技有限公司 节拍分析方法、音频处理方法及装置、设备、介质
CN110890083A (zh) * 2019-10-31 2020-03-17 北京达佳互联信息技术有限公司 音频数据的处理方法、装置、电子设备及存储介质
CN111128232A (zh) * 2019-12-26 2020-05-08 广州酷狗计算机科技有限公司 音乐的小节信息确定方法、装置、存储介质及设备

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
GAO, ZHANCHUN: "An Adaptive Algorithm for Music Beat Tracking", 《1ST INTERNATIONAL CONFERENCE ON INFORMATION SCIENCE AND ELECTRONIC TECHNOLOGY (ISET)》 *
路丽菲: "基于乐谱生成的音乐分析与检索平台研究与实现", 《中国优秀硕士学位论文全文数据库》 *

Also Published As

Publication number Publication date
WO2022104917A1 (zh) 2022-05-27

Similar Documents

Publication Publication Date Title
CN108346436B (zh) 语音情感检测方法、装置、计算机设备及存储介质
CN110457432B (zh) 面试评分方法、装置、设备及存储介质
WO2017219991A1 (zh) 适用于模式识别的模型的优化方法、装置及终端设备
JP4316583B2 (ja) 特徴量補正装置、特徴量補正方法および特徴量補正プログラム
CN109767765A (zh) 话术匹配方法及装置、存储介质、计算机设备
CN111444967B (zh) 生成对抗网络的训练方法、生成方法、装置、设备及介质
CN113035231B (zh) 关键词检测方法及装置
US10586519B2 (en) Chord estimation method and chord estimation apparatus
CN112863489B (zh) 语音识别方法、装置、设备及介质
CN111785288A (zh) 语音增强方法、装置、设备及存储介质
CN111145733A (zh) 语音识别方法、装置、计算机设备和计算机可读存储介质
TWI740315B (zh) 聲音分離方法、電子設備和電腦可讀儲存媒體
CN113327620A (zh) 声纹识别的方法和装置
JP6729515B2 (ja) 楽曲解析方法、楽曲解析装置およびプログラム
US20190115044A1 (en) Method and device for audio recognition
CN113157941B (zh) 业务特征数据处理、文本生成方法、装置及电子设备
CN111402918B (zh) 一种音频处理方法、装置、设备及存储介质
US11501209B2 (en) Behavior identification method, behavior identification device, non-transitory computer-readable recording medium recording therein behavior identification program, machine learning method, machine learning device, and non-transitory computer-readable recording medium recording therein machine learning program
CN112351047A (zh) 基于双引擎的声纹身份认证方法、装置、设备及存储介质
CN112489681A (zh) 节拍识别方法、装置及存储介质
WO2020162239A1 (ja) パラ言語情報推定モデル学習装置、パラ言語情報推定装置、およびプログラム
CN113223485A (zh) 节拍检测模型的训练方法、节拍检测方法及装置
US20220277761A1 (en) Impression estimation apparatus, learning apparatus, methods and programs for the same
JP6910987B2 (ja) 認識装置、認識システム、端末装置、サーバ装置、方法及びプログラム
JP2019139209A (ja) コード推定方法およびコード推定装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination