CN113223487B - 一种信息识别方法及装置、电子设备和存储介质 - Google Patents
一种信息识别方法及装置、电子设备和存储介质 Download PDFInfo
- Publication number
- CN113223487B CN113223487B CN202010080785.3A CN202010080785A CN113223487B CN 113223487 B CN113223487 B CN 113223487B CN 202010080785 A CN202010080785 A CN 202010080785A CN 113223487 B CN113223487 B CN 113223487B
- Authority
- CN
- China
- Prior art keywords
- beat
- music
- feature
- preset
- current
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 43
- 238000004458 analytical method Methods 0.000 claims abstract description 137
- 238000001228 spectrum Methods 0.000 claims description 73
- 238000013528 artificial neural network Methods 0.000 claims description 38
- 238000006243 chemical reaction Methods 0.000 claims description 29
- 238000009527 percussion Methods 0.000 claims description 25
- 238000009432 framing Methods 0.000 claims description 23
- 238000000605 extraction Methods 0.000 claims description 18
- 230000006870 function Effects 0.000 claims description 12
- 230000015654 memory Effects 0.000 claims description 11
- 230000003595 spectral effect Effects 0.000 claims description 9
- 238000004891 communication Methods 0.000 claims description 8
- 238000001914 filtration Methods 0.000 claims description 7
- 230000009466 transformation Effects 0.000 claims description 7
- 238000010586 diagram Methods 0.000 description 9
- 238000004590 computer program Methods 0.000 description 5
- 239000000284 extract Substances 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 3
- 238000005457 optimization Methods 0.000 description 3
- 230000000306 recurrent effect Effects 0.000 description 3
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 238000009877 rendering Methods 0.000 description 2
- 230000033764 rhythmic process Effects 0.000 description 2
- 238000012163 sequencing technique Methods 0.000 description 2
- 108010001267 Protein Subunits Proteins 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 235000019800 disodium phosphate Nutrition 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 238000004549 pulsed laser deposition Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H1/00—Details of electrophonic musical instruments
- G10H1/36—Accompaniment arrangements
- G10H1/40—Rhythm
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H2210/00—Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
- G10H2210/031—Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H2210/00—Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
- G10H2210/031—Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
- G10H2210/046—Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal for differentiation between music and non-music signals, based on the identification of musical parameters, e.g. based on tempo detection
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H2210/00—Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
- G10H2210/031—Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
- G10H2210/076—Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal for extraction of timing, tempo; Beat detection
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Auxiliary Devices For Music (AREA)
Abstract
本公开实施例公开了一种信息识别方法及装置、电子设备和存储介质,该方法包括:按照预设节拍分析模型指定的音乐特征,对预设音乐进行特征提取,得到当前音乐特征;预设节拍分析模型表征音乐特征和节拍点概率的对应关系;利用预设节拍分析模型,对当前音乐特征进行识别,得到当前节拍点概率;当前节拍点概率表征各个节拍点对应的节拍信息;基于当前节拍点概率,确定预设音乐的节拍序列。
Description
技术领域
本公开涉及音频处理技术,尤其涉及一种信息识别方法及装置、电子设备和存储介质。
背景技术
在人们的日常生活中,音乐总是不可或缺,而节拍是音乐中局部的能量爆发点,听众可通过节拍点与其他部分的强烈对比,感受到音乐的节奏,因此节拍起到一种带动氛围、律动的效果。如参加自己喜爱的歌手的演唱会,去公园等场所,随着音乐的进行常常伴随着音乐氛围灯、音乐喷泉等进行环境的渲染,使听众们有一种身临其境的感觉,更加的投入到对音乐的享受中。目前,环境的渲染可以通过音乐中的节拍识别进行控制,然而,现有技术存在节拍识别的准确率较低的问题。
发明内容
有鉴于此,本公开实施例提供一种信息识别方法、装置、电子设备及存储介质。
第一方面,本公开实施例提供了一种信息识别方法,所述方法包括:
按照预设节拍分析模型指定的音乐特征,对预设音乐进行特征提取,得到当前音乐特征;所述预设节拍分析模型表征音乐特征和节拍点概率的对应关系;
利用所述预设节拍分析模型,对所述当前音乐特征进行识别,得到当前节拍点概率;所述当前节拍点概率表征各个节拍点对应的节拍信息;
基于所述当前节拍点概率,确定所述预设音乐的节拍序列。
上述方案中,所述指定的音乐特征包括以下至少一个:色度特征、梅尔频谱特征、打击乐特征、短时傅里叶变化特征和常数Q变换特征。
上述方案中,所述预设节拍分析模型包括归属拍数分析模型,所述归属拍数分析模型表征音乐特征和归属拍数概率的对应关系;所述利用所述预设节拍分析模型,对所述当前音乐特征进行识别,得到当前节拍点概率,包括:
当所述当前音乐特征包括至少两个音乐特征时,对所述至少两个音乐特征进行组合,得到组合特征,并按照预设窗口时长,对所述组合特征进行分帧,得到至少一个节拍点对应的至少一帧音乐特征;
当所述当前音乐特征包括一个音乐特征时,按照所述预设窗口时长,对所述当前音乐特征进行分帧,得到至少一个节拍点对应的至少一帧音乐特征;
利用所述归属拍数分析模型,对所述至少一帧音乐特征进行识别,得到所述至少一个节拍点各自对应的归属拍数概率;
由所述至少一个节拍点各自对应的归属拍数概率,组成所述当前节拍点概率。
上述方案中,所述预设节拍分析模型包括节拍类型分析模型,所述节拍类型分析模型表征音乐特征和节拍类型概率的对应关系;所述利用所述预设节拍分析模型,对所述当前音乐特征进行识别,得到当前节拍点概率,包括:
当所述当前音乐特征包括至少两个音乐特征时,对所述至少两个音乐特征进行组合,得到组合特征,并按照预设窗口时长,对所述组合特征进行分帧,得到至少一个节拍点对应的至少一帧音乐特征;
当所述当前音乐特征包括一个音乐特征时,按照所述预设窗口时长,对所述当前音乐特征进行分帧,得到至少一个节拍点对应的至少一帧音乐特征;
利用所述节拍类型分析模型,对所述至少一帧音乐特征进行识别,得到所述至少一个节拍点各自对应的节拍类型概率;
由所述至少一个节拍点各自对应的节拍类型概率,组成所述当前节拍点概率。
上述方案中,所述基于所述当前节拍点概率,确定所述预设音乐的节拍序列,包括:
利用预设概率阈值或动态贝叶斯网络,对所述当前节拍点概率进行判断,确定至少一个节拍点各自对应的节拍信息;
由所述至少一个节拍点各自对应的节拍信息组成所述预设音乐的节拍序列。
上述方案中,所述指定的音乐特征包括色度特征,所述当前音乐特征包括当前色度特征;所述按照预设节拍分析模型指定的音乐特征,对预设音乐进行特征提取,得到当前音乐特征,包括:
对所述预设音乐进行时域到频域的转换,得到频谱信息;
利用滤波器,对所述频谱信息进行滤波,得到滤波后的频谱信息;
按照预设窗口时长,对所述滤波后的频谱信息进行分帧,得到至少一帧频谱信息;
采集所述至少一帧频谱信息中的每一帧频谱信息的高音能量;
将所述每一帧频谱信息的高音能量,作为所述当前色度特征。
上述方案中,所述指定的音乐特征包括梅尔频谱特征,所述当前音乐特征包括当前梅尔频谱特征;所述按照预设节拍分析模型指定的音乐特征,对预设音乐进行特征提取,得到当前音乐特征,包括:
对所述预设音乐进行时域到频域的转换,得到频谱信息;
利用三角窗函数,对所述频谱信息进行频率标度到梅尔频率标度的转换,得到标度转换后的信息;
对所述标度转换后的信息进行取对数和余弦变换,得到所述当前梅尔频谱特征。
上述方案中,在所述按照预设节拍分析模型指定的音乐特征,对预设音乐进行特征提取,得到当前音乐特征之前,所述方法还包括:
获取初始神经网络、音乐特征样本和节拍点概率样本;
利用所述音乐特征样本和所述节拍点概率样本,对所述初始神经网络进行训练,得到所述预设节拍分析模型。
上述方案中,所述音乐特征样本包括色度特征样本和打击乐特征样本;所述利用所述音乐特征样本和所述节拍点概率样本,对所述初始神经网络进行训练,得到所述预设节拍分析模型,包括:
对所述色度特征样本和所述打击乐特征样本进行拼接,得到组合特征样本;
按照预设窗口时长,从所述组合特征样本中确定至少一帧组合特征,从所述节拍点概率样本中确定与所述至少一帧组合特征对应的至少一个节拍点概率样本;
利用所述至少一帧组合特征和所述至少一个节拍点概率样本,对所述初始神经网络进行训练,得到所述预设节拍分析模型。
第二方面,本公开实施例提供了一种信息识别装置,所述装置包括:
特征提取模块,用于按照预设节拍分析模型指定的音乐特征,对预设音乐进行特征提取,得到当前音乐特征;所述预设节拍分析模型表征音乐特征和节拍点概率的对应关系;
特征分析模块,用于利用所述预设节拍分析模型,对所述当前音乐特征进行识别,得到当前节拍点概率;所述当前节拍点概率表征各个节拍点对应的节拍信息;
节拍获取模块,用于基于所述当前节拍点概率,确定所述预设音乐的节拍序列。
上述方案中,所述指定的音乐特征包括以下至少一个:色度特征、梅尔频谱特征、打击乐特征、短时傅里叶变化特征和常数Q变换特征。
上述方案中,所述预设节拍分析模型包括归属拍数分析模型,所述归属拍数分析模型表征音乐特征和归属拍数概率的对应关系;
所述特征分析模块,还用于当所述当前音乐特征包括至少两个音乐特征时,对所述至少两个音乐特征进行组合,得到组合特征,并按照预设窗口时长,对所述组合特征进行分帧,得到至少一个节拍点对应的至少一帧音乐特征;及当所述当前音乐特征包括一个音乐特征时,按照所述预设窗口时长,对所述当前音乐特征进行分帧,得到至少一个节拍点对应的至少一帧音乐特征;及利用所述归属拍数分析模型,对所述至少一帧音乐特征进行识别,得到所述至少一个节拍点各自对应的归属拍数概率;以及由所述至少一个节拍点各自对应的归属拍数概率,组成所述当前节拍点概率。
上述方案中,所述预设节拍分析模型包括节拍类型分析模型,所述节拍类型分析模型表征音乐特征和节拍类型概率的对应关系;
所述特征分析模块,还用于当所述当前音乐特征包括至少两个音乐特征时,对所述至少两个音乐特征进行组合,得到组合特征,并按照预设窗口时长,对所述组合特征进行分帧,得到至少一个节拍点对应的至少一帧音乐特征;及当所述当前音乐特征包括一个音乐特征时,按照所述预设窗口时长,对所述当前音乐特征进行分帧,得到至少一个节拍点对应的至少一帧音乐特征;及利用所述节拍类型分析模型,对所述至少一帧音乐特征进行识别,得到所述至少一个节拍点各自对应的节拍类型概率;以及由所述至少一个节拍点各自对应的节拍类型概率,组成所述当前节拍点概率。
上述方案中,所述节拍获取模块,还用于利用预设概率阈值或动态贝叶斯网络,对所述当前节拍点概率进行判断,确定至少一个节拍点各自对应的节拍信息;以及由所述至少一个节拍点各自对应的节拍信息组成所述预设音乐的节拍序列。
上述方案中,所述指定的音乐特征包括色度特征,所述当前音乐特征包括当前色度特征;
所述特征提取模块,还用于对所述预设音乐进行时域到频域的转换,得到频谱信息;及利用滤波器,对所述频谱信息进行滤波,得到滤波后的频谱信息;及按照预设窗口时长,对所述滤波后的频谱信息进行分帧,得到至少一帧频谱信息;及采集所述至少一帧频谱信息中的每一帧频谱信息的高音能量;以及将所述每一帧频谱信息的高音能量,作为所述当前色度特征。
上述方案中,所述指定的音乐特征包括梅尔频谱特征,所述当前音乐特征包括当前梅尔频谱特征;
所述特征提取模块,还用于对所述预设音乐进行时域到频域的转换,得到频谱信息;及利用三角窗函数,对所述频谱信息进行频率标度到梅尔频率标度的转换,得到标度转换后的信息;以及对所述标度转换后的信息进行取对数和余弦变换,得到所述当前梅尔频谱特征。
上述方案中,所述装置还包括:
模型生成模块,用于在所述按照预设节拍分析模型指定的音乐特征,对预设音乐进行特征提取,得到当前音乐特征之前,获取初始神经网络、音乐特征样本和节拍点概率样本;以及利用所述音乐特征样本和所述节拍点概率样本,对所述初始神经网络进行训练,得到所述预设节拍分析模型。
上述方案中,所述音乐特征样本包括色度特征样本和打击乐特征样本;
所述模型生成模块,还用于对所述色度特征样本和所述打击乐特征样本进行拼接,得到组合特征样本;及按照预设窗口时长,从所述组合特征样本中确定至少一帧组合特征,从所述节拍点概率样本中确定与所述至少一帧组合特征对应的至少一个节拍点概率样本;以及利用所述至少一帧组合特征和所述至少一个节拍点概率样本,对所述初始神经网络进行训练,得到所述预设节拍分析模型。
第三方面,本公开实施例提供了一种电子设备,所述电子设备包括:处理器、存储器和通信总线,所述存储器通过所述通信总线与所述处理器进行通信,所述存储器存储所述处理器可执行的一个或者多个程序,当所述一个或者多个程序被执行时,通过所述处理器执行如上述任一项信息识别方法的步骤。
第四方面,本公开实施例提供了一种存储介质,所述存储介质存储有程序,当所述程序被至少一个处理器执行时,实现如上述任一项信息识别方法的步骤。
本公开实施例具有如下有益效果:先对预设音乐进行特征提取,得到当前音乐特征,再利用预设节拍分析模型对当前音乐特征进行识别,得到当前节拍点概率,基于当前节拍点概率确定预设音乐的节拍序列;由于先提取当前音乐特征,再通过预设节拍分析模型对当前音乐特征进行识别,得到的当前节拍点概率更准确地反映出各个节拍点的节拍信息,基于该当前节拍点概率确定出更加准确地节拍序列,也就是说,提高了节拍识别的准确率。
附图说明
图1为本公开实施例的一种电子设备的结构示意图;
图2为本公开实施例提供的一种信息识别装置的结构示意图一;
图3为本公开实施例提供的一种信息识别方法的流程图一;
图4为本公开实施例提供的一种信息识别装置的结构示意图二;
图5为本公开实施例提供的一种信息识别方法的流程图二;
图6为本公开实施例提供的一种信息识别方法的流程图三;
图7为本公开实施例提供的一种信息识别装置的结构示意图三;
图8为本公开实施例提供的一种信息识别方法的流程图四。
具体实施方式
为了使本公开的目的、技术方案和优点更加清楚,下面将结合附图对本公开作进一步地详细描述,所描述的实施例不应视为对本公开的限制,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本公开保护的范围。
在以下的描述中,涉及到“一些实施例”,其描述了所有可能实施例的子集,但是可以理解,“一些实施例”可以是所有可能实施例的相同子集或不同子集,并且可以在不冲突的情况下相互结合。
下面参见图1,图1是实现本公开实施例的电子设备100的结构示意图,电子设备通过各种终端实现,例如,笔记本电脑、平板电脑(PAD)、台式计算机等终端。图1示出的电子设备仅仅是一个示例,不应对本公开实施例的功能和使用范围带来任何限制。
如图1所示,电子设备100可以包括处理装置(例如中央处理器、图形处理器等)110,其可以根据存储在只读存储器(ROM,Read-Only Memory)120中的程序或者从存储装置180加载到随机访问存储器(RAM,Random Access Memory)130中的程序而执行各种适当的动作和处理。在RAM130中,还存储有电子设备100操作所需的各种程序和数据。处理装置110、ROM120以及RAM130通过总线140彼此相连。
通常,以下装置可以连接至I/O接口150:包括例如触摸屏、触摸板、键盘、鼠标、摄像头、麦克风、加速度计、陀螺仪等的输入装置160;包括例如液晶显示器(LCD)、扬声器、振动器等的输出装置170;包括例如磁带、硬盘等的存储装置180;通信装置190。通信装置190可以允许电子设备100与其他设备进行无线或有线通信以交换数据。虽然图1示出了具有各种装置的电子设备100,但是应理解的是,并不要求实施或具备所有示出的装置。可以替代地实施或具备更多或更少的装置。
特别地,根据本公开的实施例,所提供的信息识别方法的流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机可读介质,其包括承载在计算机可读介质上的计算机程序,计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,计算机程序可以通过通信装置190从网络上被下载和安装,或者从存储装置180被安装,或者从ROM120被安装。在计算机程序被处理装置110执行时,执行本公开实施例的方法中的功能。
需要说明的是,本公开实施例上述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
在本公开实施例中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开实施例中,计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:电线、光缆、射频(RF,Radio Frequency)等等,或者上述的任意合适的组合。
上述计算机可读介质可以是上述电子设备100中所包含的;也可以是单独存在,而未装配入电子设备100中。
上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被该电子设备执行时,使得电子设备100执行本公开实施例提供的信息识别方法。
可以以一种或多种程序设计语言或其组合来编写用于执行本公开的操作的计算机程序代码,上述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或电子设备上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络,包括局域网(LAN,Local Area Network))和广域网(WAN,Wide Area Network),以连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
描述于本公开实施例中所涉及到的电子设备的单元和/或模块可以通过软件的方式实现,也可以通过硬件的方式来实现。
对于硬件的方式来说,实现本公开实施例的电子设备的单元和/或模块可以被一个或多个应用专用集成电路(ASIC,Application Specific Integrated Circuit)、DSP、可编程逻辑器件(PLD,Programmable Logic Device)、复杂可编程逻辑器件(CPLD,ComplexProgrammable Logic Device)、现场可编程门阵列(FPGA,Field-Programmable GateArray)或其他电子元件实现,用于执行实现本公开实施例提供的信息识别方法;
对于软件的方式来说,实现本公开实施例提供的信息识别方法的电子设备中的单元和/或模块可以被两个或以上的单元实现。
下面以软件的方式为例,示例性说明实现本公开实施例的信息识别装置的单元和/或模块。
参见图2,图2是实现本公开实施例的信息识别装置2的一个可选的结构示意图,示出了存储在存储装置180的如下软件模块:特征提取模块21、特征分析模块22、节拍获取模块23和模型生成模块24;其中,
特征提取模块21,用于按照预设节拍分析模型指定的音乐特征,对预设音乐进行特征提取,得到当前音乐特征;预设节拍分析模型表征音乐特征和节拍点概率的对应关系;
特征分析模块22,用于利用预设节拍分析模型,对当前音乐特征进行识别,得到当前节拍点概率;当前节拍点概率表征各个节拍点对应的节拍信息;
节拍获取模块23,用于基于当前节拍点概率,确定预设音乐的节拍序列。
在一些实施例中,指定的音乐特征包括以下至少一个:色度特征、梅尔频谱特征、打击乐特征、短时傅里叶变化特征和常数Q变换特征。
在一些实施例中,预设节拍分析模型包括归属拍数分析模型,归属拍数分析模型表征音乐特征和归属拍数概率的对应关系;
特征分析模块22,还用于当当前音乐特征包括至少两个音乐特征时,对至少两个音乐特征进行组合,得到组合特征,并按照预设窗口时长,对组合特征进行分帧,得到至少一个节拍点对应的至少一帧音乐特征;及当当前音乐特征包括一个音乐特征时,按照预设窗口时长,对当前音乐特征进行分帧,得到至少一个节拍点对应的至少一帧音乐特征;及利用归属拍数分析模型,对至少一帧音乐特征进行识别,得到至少一个节拍点各自对应的归属拍数概率;以及由至少一个节拍点各自对应的归属拍数概率,组成当前节拍点概率。
在一些实施例中,预设节拍分析模型包括节拍类型分析模型,节拍类型分析模型表征音乐特征和节拍类型概率的对应关系;
特征分析模块22,还用于当当前音乐特征包括至少两个音乐特征时,对至少两个音乐特征进行组合,得到组合特征,并按照预设窗口时长,对组合特征进行分帧,得到至少一个节拍点对应的至少一帧音乐特征;及当当前音乐特征包括一个音乐特征时,按照预设窗口时长,对当前音乐特征进行分帧,得到至少一个节拍点对应的至少一帧音乐特征;及利用节拍类型分析模型,对至少一帧音乐特征进行识别,得到至少一个节拍点各自对应的节拍类型概率;以及由至少一个节拍点各自对应的节拍类型概率,组成当前节拍点概率。
在一些实施例中,节拍获取模块23,还用于利用预设概率阈值或动态贝叶斯网络,对当前节拍点概率进行判断,确定至少一个节拍点各自对应的节拍信息;以及由至少一个节拍点各自对应的节拍信息组成预设音乐的节拍序列。
在一些实施例中,指定的音乐特征包括色度特征,当前音乐特征包括当前色度特征;
特征提取模块21,还用于对预设音乐进行时域到频域的转换,得到频谱信息;及利用滤波器,对频谱信息进行滤波,得到滤波后的频谱信息;及按照预设窗口时长,对滤波后的频谱信息进行分帧,得到至少一帧频谱信息;及采集至少一帧频谱信息中的每一帧频谱信息的高音能量;以及将每一帧频谱信息的高音能量,作为当前色度特征。
在一些实施例中,指定的音乐特征包括梅尔频谱特征,当前音乐特征包括当前梅尔频谱特征;
特征提取模块21,还用于对预设音乐进行时域到频域的转换,得到频谱信息;及利用三角窗函数,对频谱信息进行频率标度到梅尔频率标度的转换,得到标度转换后的信息;以及对标度转换后的信息进行取对数和余弦变换,得到当前梅尔频谱特征。
在一些实施例中,信息识别装置2还包括:
模型生成模块24,用于在按照预设节拍分析模型指定的音乐特征,对预设音乐进行特征提取,得到当前音乐特征之前,获取初始神经网络、音乐特征样本和节拍点概率样本;以及利用音乐特征样本和节拍点概率样本,对初始神经网络进行训练,得到预设节拍分析模型。
在一些实施例中,音乐特征样本包括色度特征样本和打击乐特征样本;
模型生成模块24,还用于对色度特征样本和打击乐特征样本进行拼接,得到组合特征样本;及按照预设窗口时长,从组合特征样本中确定至少一帧组合特征,从节拍点概率样本中确定与至少一帧组合特征对应的至少一个节拍点概率样本;以及利用至少一帧组合特征和至少一个节拍点概率样本,对初始神经网络进行训练,得到预设节拍分析模型。
需要指出,上述单元的分类并不构成对电子设备本身的限定,例如一些单元可以拆分为两个或以上的子单元,或者,一些单元可以合并为一个新的单元。
还需要指出,上述单元的名称在某种情况下并不构成对单元本身的限定,例如,上述节拍获取模块23也可以被描述为“基于当前节拍点概率,确定预设音乐的节拍序列”的单元。
基于同样的理由,电子设备中未详尽描述的单元和/或模块不代表相应的单元和/或模块的缺省,凡是电子设备所执行的操作都可以通过电子设备中的相应的单元和/或模块实现。
继续参见图3,图3是实现本公开实施例的信息识别方法的一个可选的流程示意图,将结合图3示出的步骤进行说明。
S101、按照预设节拍分析模型指定的音乐特征,对预设音乐进行特征提取,得到当前音乐特征;预设节拍分析模型表征音乐特征和节拍点概率的对应关系;
信息识别装置按照预设节拍分析模型采用的一个或多个音乐特征,对预设音乐进行特征提取,得到当前音乐特征。
在一些实施例中,预设节拍分析模型指定的音乐特征包括以下至少一个:色度特征(Chroma Features)、梅尔频谱(Mel Spectrogram)特征、打击乐特征(PercussionFeature)、短时傅里叶变化(STFT,Short-Time Fouries Transform)特征和常数Q变换(CQT,Constant Q Transform)特征等;其中,打击乐特征为所有音乐都具有的一种特征,不是打击乐的特征。
在一些实施例中,预设节拍分析模型指定的音乐特征包括色度特征,当前音乐特征包括当前色度特征;信息识别装置对预设音乐进行时域到频域的转换(傅里叶变换),得到频谱信息;利用滤波器,对频谱信息进行滤波,得到滤波后的频谱信息;按照预设窗口时长,对滤波后的频谱进行分帧,得到至少一帧频谱信息;采集至少一帧频谱信息中的每一帧频谱信息的高音能量;将每一帧频谱信息的高音能量,作为当前色度特征。
信息识别装置确定指定的音乐特征包括色度特征时,对预设音乐进行时域到频域的转换(例如,傅里叶变换),得到频谱信息;利用滤波器,对频谱信息进行滤波,得到滤波后的频谱信息;将滤波后的频谱信息分成至少一帧频谱信息,至少一帧频谱信息中的每一帧频谱信息的时长等于预设窗口时长;采集每一帧频谱信息的所有高音能量,将所有帧频谱信息各自对应的高音能量,作为当前色度特征。
在一些实施例中,预设窗口时长为所选的分帧时长,例如,10ms、11ms或12ms。
在一些实施例中,预设节拍分析模型指定的音乐特征包括梅尔频谱特征,当前音乐特征包括当前梅尔频谱特征;信息识别装置对预设音乐进行时域到频域的转换,得到频谱信息;利用三角窗函数,对频谱信息进行频率标度到梅尔频率标度的转换,得到标度转换后的信息;对标度转换后的信息进行取对数和余弦变换,得到当前梅尔频谱特征。
信息识别装置确定指定的音乐特征包括梅尔频谱特征时,对预设音乐进行时域到频域的转换,得到频谱信息;利用三角窗函数,将频谱信息转换到梅尔频率标度下的信息,即标度转换后的信息;对标度转换后的信息进行取对数和余弦变换,得到当前梅尔频谱特征。
在一些实施例中,信息识别装置可以利用梅尔标度滤波器组,对频谱信息进行频率标度到梅尔频率标度的转换,得到标度转换后的信息;其中,梅尔标度滤波器组可以由多个三角滤波器组成。
在一些实施例中,预设节拍分析模型指定的音乐特征包括色度特征和梅尔频谱特征时,信息识别装置分别获取预设音乐的当前色度特征和当前梅尔频谱特征,由当前色度特征和当前梅尔频谱特征组成当前音乐特征。
需要说明的是,信息识别装置对预设音乐提取预设节拍分析模型指定的所有音乐特征。
在一些实施例中,预设节拍分析模型为循环神经网络(RNN,Recurrent NeuralNetwork)、门控循环单元网络(GRU,Gated Recurrent Unit)或长短期记忆网络(LSTM,LongShort-termMemory Networks)。
S102、利用预设节拍分析模型,对当前音乐特征进行识别,得到当前节拍点概率;当前节拍点概率表征各个节拍点对应的节拍信息;
信息识别装置利用预设节拍分析模型对当前音乐特征进行识别,预设节拍分析模型输出预设音乐中的所有节拍点各自的节拍概率,由所有节拍点各自的节拍概率组成当前节拍点概率;其中,所有节拍点各自的节拍概率表征自身对应的节拍信息。
在一些实施例中,信息识别装置判断当前音乐特征包括几个音乐特征;当当前音乐特征包括至少两个音乐特征时,信息识别装置对至少两个音乐特征进行组合,得到组合特征;利用预设节拍分析模型,对将组合特征进行识别,得到当前节拍点概率;当当前音乐特征包括一个音乐特征时,利用预设节拍分析模型,直接对当前音乐特征进行识别,得到当前节拍点概率。
在一些实施例中,信息识别装置对至少两个音乐特征进行前后拼接,得到组合特征。
示例性地,当前音乐特征包括当前色度特征和当前打击乐特征,对当前色度特征和当前打击乐特征进行前后拼接,得到组合特征。
需要说明的是,利用当前色度特征和当前打击乐特征拼接得到组合特征,该组合特征被用于获取当前节拍点概率,能够提高当前节拍点概率的准确度和获取速度。
在一些实施例中,预设节拍分析模型包括归属拍数分析模型和节拍类型分析模型,其中,归属拍数分析模型表征音乐特征和归属拍数概率的对应关系,节拍类型分析模型表征音乐特征和节拍类型概率的对应关系。
在一些实施例中,节拍概率包括归属拍数概率和节拍类型概率,其中,归属拍数概率表征一个节拍点属于预设拍数的概率;节拍类型概率表征一个节拍点为预设节拍类型的概率。
在一些实施例中,归属拍数分析模型为五分类模型,预设拍数包括五种节拍类型,五种节拍类型包括第一拍、第二拍、第三拍、第四拍和空拍。
示例性地,某一个节拍点的归属拍数概率包括以下至少一个:该节拍点属于第一拍的概率、该节拍点属于第二拍的概率、该节拍点属于第三拍的概率、该节拍点属于第四拍的概率和该节拍点属于空拍的概率。
在一些实施例中,节拍类型分析模型为三分类模型,预设节拍类型包括强拍(重拍)、非强拍的节拍(例如,次强拍和弱拍)和非节拍。
示例性地,某一个节拍点的节拍类型概率包括以下至少一个:该节拍点为强拍的概率、该节拍点为非强拍的节拍的概率和该节拍点为非节拍的概率。
在一些实施例中,预设节拍分析模型包括归属拍数分析模型,归属拍数分析模型表征音乐特征和归属拍数概率的对应关系;当当前音乐特征包括至少两个音乐特征时,信息识别装置对至少两个音乐特征进行组合,得到组合特征,并按照预设窗口时长,对组合特征进行分帧,得到至少一个节拍点对应的至少一帧音乐特征;当当前音乐特征包括一个音乐特征时,按照预设窗口时长,对当前音乐特征进行分帧,得到至少一个节拍点对应的至少一帧音乐特征;利用归属拍数分析模型,对至少一帧音乐特征进行识别,得到至少一个节拍点各自对应的归属拍数概率;由至少一个节拍点各自对应的归属拍数概率,组成当前节拍点概率。
信息识别装置按照时间顺序,依次将组合特征或当前音乐特征中的预设窗口时长的音乐特征,提取为一个节拍点对应的一帧音乐特征,进而得到至少一个节拍点对应的至少一帧音乐特征;将至少一帧音乐特征作为归属拍数分析模型的输入,输出至少一个节拍点中的每个节拍点对应的归属拍数概率;由所有节拍点各自对应的归属拍数概率,组成当前节拍点概率;其中,预设窗口时长可以为10ms、11ms或12ms等。
在一些实施例中,预设节拍分析模型包括节拍类型分析模型,节拍类型分析模型表征音乐特征和节拍类型概率的对应关系;当当前音乐特征包括至少两个音乐特征时,信息识别装置对至少两个音乐特征进行组合,得到组合特征,并按照预设窗口时长,对组合特征进行分帧,得到至少一个节拍点对应的至少一帧音乐特征;当当前音乐特征包括一个音乐特征时,按照预设窗口时长,对当前音乐特征进行分帧,得到至少一个节拍点对应的至少一帧音乐特征;利用节拍类型分析模型,对至少一帧音乐特征进行识别,得到至少一个节拍点各自对应的节拍类型概率;由至少一个节拍点各自对应的节拍类型概率,组成当前节拍点概率。
信息识别装置按照时间顺序,依次将组合特征或当前音乐特征中的预设窗口时长的音乐特征,提取为一帧音乐特征,进而得到至少一个节拍点对应的至少一帧音乐特征;将至少一帧音乐特征作为节拍类型分析模型的输入,输出至少一个节拍点中的每个节拍点对应的节拍类型概率;由所有节拍点各自对应的节拍类型概率,组成当前节拍点概率。
S103、基于当前节拍点概率,确定预设音乐的节拍序列。
信息识别装置对当前节拍点概率中的各个节拍点的节拍概率进行判断,确定各个节拍点各自对应的节拍信息;由所有节拍点各自对应的节拍信息组成预设音乐的节拍序列,节拍序列记录了音乐中周期性出现的节拍信息;进而可以基于节拍序列更加深入地分析预设音乐,或者,基于节拍序列控制环境的渲染;其中,节拍信息为归属拍数或节拍类型。
在一些实施例中,信息识别装置利用预设概率阈值或动态贝叶斯网络(DynamicBayesian Network),对当前节拍点概率进行判断,确定至少一个节拍点各自对应的节拍信息;由至少一个节拍点各自对应的节拍信息组成预设音乐的节拍序列。
信息识别装置判断当前节拍点概率中的各个节拍点的节拍概率,是否大于预设概率阈值,来确定各个节拍点对应的节拍信息;或者,利用动态贝叶斯网络分析各个节拍点的节拍概率,确定各个节拍点对应的节拍信息;由所有节拍点的节拍信息,组成预设音乐的节拍序列。
在一些实施例中,信息识别装置确定至少一个节拍点各自对应的节拍信息之后,根据预设节拍信息和节拍标识的对应关系,将所述至少一个节拍点各自对应的节拍信息进行标识转换,得到至少一个节拍点各自对应的节拍标识;由至少一个节拍点各自对应的节拍标识,组成预设音乐的节拍序列。
在一些实施例中,预设节拍信息和节拍标识的对应关系包括:预设拍数和节拍标识的对应关系、预设节拍类型和节拍标识的对应关系;其中,预设拍数和节拍标识的对应关系包括预设拍数中的每一种拍数一一对应的一个节拍标识;预设节拍类型和节拍标识的对应关系包括预设节拍类型中的每一个节拍类型一一对应的一个节拍标识;节拍标识可以为数字或字母等。
示例性地,预设拍数包括第一拍、第二拍、第三拍、第四拍和空拍,预设拍数和节拍标识的对应关系包括:第一拍对应1、第二拍对应2、第三拍对应3、第四拍对应4、空拍对应5。
示例性地,预设节拍类型包括强拍、非强拍的节拍和非节拍,预设节拍类型和节拍标识的对应关系包括:强拍对应1、非强拍的节拍对应2、非节拍对应3。
在一些实施例中,当前节拍点概率包括至少一个节拍点各自对应的归属拍数概率;信息识别装置从每个节拍点对应的归属拍数概率中,确定最大归属拍数概率,再判断最大归属拍数概率是否大于第一预设概率阈值,来确定每个节拍点的归属拍数;或者,利用动态贝叶斯网络分析每个节拍点对应的归属拍数概率,确定每个节拍点的归属拍数。
信息识别装置在最大归属拍数概率大于第一预设概率阈值时,确定每个节拍点的归属拍数为最大归属拍数概率对应的拍数。
示例性地,第一预设概率阈值为0.4,某个节拍点对应的归属拍数概率包括该节拍点属于第一拍的概率为0.5、该节拍点属于第二拍的概率为0.2,可以确定该节拍点的归属拍数为第一拍。
示例性地,归属拍数概率表征一个节拍点属于五种节拍类型的概率时,由所有节拍点的归属拍数组成的预设音乐的节拍序列包括:第一拍、第二拍、第三拍、第四拍和空拍,且第一拍、第二拍、第三拍、第四拍和空拍在该节拍序列中周期性出现。
示例性地,预设拍数和节拍标识的对应关系包括:第一拍对应1、第二拍对应2、第三拍对应3、第四拍对应4、空拍对应5;根据预设拍数和节拍标识的对应关系,对至少一个节拍点各自对应的归属拍数进行标识转换,得到至少一个节拍点各自对应的节拍标识;由至少一个节拍点各自对应的节拍标识组成预设音乐的节拍序列,该预设音乐的节拍序列包括1、2、3、4、5,且1、2、3、4、5在该节拍序列中周期性出现。
在一些实施例中,当前节拍点概率包括至少一个节拍点各自对应的节拍类型概率;信息识别装置从每个节拍点对应的节拍类型概率中,确定最大节拍类型概率,再判断最大节拍类型概率是否大于第二预设概率阈值,来确定每个节拍点的节拍类型;或者,利用动态贝叶斯网络分析每个节拍点对应的节拍类型概率,确定每个节拍点的节拍类型。
信息识别装置在最大节拍类型概率大于第二预设概率阈值时,确定每个节拍点的节拍类型为最大归属拍数概率对应的节拍类型;其中,第一预设概率阈值和第二预设概率阈值可以相等,也可以不相等。
示例性地,第二预设概率阈值为0.5,某一个节拍点对应的节拍类型概率包括节拍点为强拍的概率为0.7、节拍点为非强拍的节拍的概率为0.2,可以确定该节拍点的节拍类型为强拍。
示例性地,节拍类型概率表征一个节拍点为预设节拍类型的概率,且预设节拍类型包括强拍、弱拍、强拍和非节拍时,可以得到的预设音乐的节拍序列包括强拍、弱拍、次强拍、弱拍和非节拍,且强拍、弱拍、次强拍、弱拍和非节拍在该节拍序列中周期性出现。
在一些实施例中,信息识别装置对预设音乐的节拍序列进行小节划分,确定周期。
示例性地,预设音乐的节拍序列中的第一拍、第二拍、第三拍和第四拍作为一个小节或一个周期。
示例性地,小节为乐曲中的由一个强拍开始到下一个强拍之前的部分,将预设音乐的节拍序列中的强拍、弱拍、次强拍和弱拍作为一个小节或一个周期。
在一些实施例中,当预设音乐的节拍序列包括至少一个节拍点各自对应的节拍类型时,信息识别装置对预设音乐的节拍序列进行排序,得到至少一个节拍点各自的归属拍数。
信息识别装置将预设音乐的节拍序列中的每一个强拍到下一个强拍之前的部分作为一个小节,或者将预设音乐的节拍序列中的最后一个强拍及最后一个强拍之后的部分作为一个小节,进而得到至少一个小节;将至少一个小节中的每个小节中的节拍点进行排序,得到每个小节中的节拍点各自的归属拍数。
示例性地,每个小节包括强拍的节拍点、弱拍的节拍点、次强拍的节拍点和弱拍的节拍点,进而排序后得到强拍的节拍点为第一拍、弱拍的节拍点为第二拍、次强拍的节拍点为第三拍和弱拍的节拍点为第四拍。
参见图4和图5,图4是实现本公开实施例的信息识别装置的一个可选的结构示意图,图5是基于图4所示的信息识别装置实现的信息识别方法的一个可选的流程示意图,将结合图5示出的步骤进行说明。
S201、获取预设音乐;
S202、对预设音乐分别进行色度特征提取和梅尔频谱特征提取,得到当前色度特征和当前梅尔频谱特征;
S203、对当前色度特征和当前梅尔频谱特征进行前后拼接,得到组合特征;
S204、将组合特征输入预设节拍分析模型,得到当前节拍点概率;其中,预设节拍分析模型为多层RNN;
S205、利用动态贝叶斯网络,对当前节拍点概率进行判断,确定至少一个节拍点各自对应的节拍信息,由至少一个节拍点各自对应的节拍信息组成预设音乐的节拍序列。
需要说明的是,信息识别装置获取预设音乐的组合特征,用多层RNN对组合特征进行识别,得到的当前节拍点概率更准确地反映出各个节拍点的节拍信息;再基于当前节拍点概率,确定出各个节拍点的准确的节拍信息。
继续参见图6,图6是实现本公开实施例的信息识别方法的一个可选的流程示意图,在步骤S101之前,信息识别方法还包括:
S301、获取初始神经网络、音乐特征样本和节拍点概率样本;
信息识别装置获取一层或多层的初始神经网络;还对至少一个音乐样本中的每个音乐样本,获取音乐特征样本和节拍点概率样本。
在一些实施例中,初始神经网络包括初始RNN、初始GRU或初始LSTM;初始神经网络的网络层数可以为一层、两层或三层等等。
在一些实施例中,信息识别装置按照指定的音乐特征,对每个音乐样本进行特征提取,得到音乐特征样本;其中,音乐特征样本包括以下至少一个:色度特征样本、梅尔频谱特征样本、打击乐特征样本、短时傅里叶变化特征样本和常数Q变换特征样本等。
需要说明的是,信息识别装置对每个音乐样本进行特征提取的实现过程,与预设音乐进行特征提取的实现过程同理,此处不再赘述。
在一些实施例中,用户对每个音乐样本中的至少一个节拍点进行节拍信息分析,设置至少一个节拍点各自对应的节拍概率,由每个音乐样本中的所有节拍点各自对应的节拍概率,组成节拍点概率样本。
在一些实施例中,每个音乐样本中的每个节拍点对应的节拍概率包括:归属拍数概率样本或节拍类型概率样本。
用户依次将每个音乐样本中的等于预设窗口时长的音乐时长,作为一个节拍点,进而得到每个音乐样本中的至少一个节拍点;用户确定每个音乐样本中的每个节拍点的实际归属拍数,并基于此设置每个音乐样本中的每个节拍点的归属拍数概率样本;或者,用户确定每个音乐样本中的每个节拍点的实际节拍类型,并基于此设置每个音乐样本中的每个节拍点的节拍类型概率样本。
在一些实施例中,归属拍数概率样本表征一个节拍点属于预设拍数的确定概率,确定概率为0或1。
示例性地,预设拍数包括五种节拍类型,五种节拍类型包括第一拍、第二拍、第三拍、第四拍和空拍;相应地,每个音乐样本中的一个节拍点属于第二拍,那么,该节拍点的归属拍数概率样本包括该节拍点属于第一拍的确定概率为0、该节拍点属于第二拍的确定概率为1、该节拍点属于第三拍的确定概率为0、该节拍点属于第四拍的确定概率为0、以及该节拍点属于空拍的确定概率为0。
在一些实施例中,节拍类型概率样本表征一个节拍点为预设节拍类型的确定概率。
示例性地,预设节拍类型包括强拍、非强拍的节拍和非节拍;相应地,每个音乐样本中的一个节拍点属于强拍,那么,该节拍点的节拍概率样本包括:该节拍点为强拍的确定概率为1、该节拍点为非强拍的节拍的确定概率为0、以及该节拍点为非节拍的确定概率为0。
S302、利用音乐特征样本和节拍点概率样本,对初始神经网络进行训练,得到预设节拍分析模型。
信息识别装置将音乐特征样本作为初始神经网络的输入,将节拍点概率样本作为初始神经网络的输出,对初始神经网络进行训练,得到预设节拍分析模型。
在一些实施例中,音乐特征样本包括色度特征样本和打击乐特征样本;信息识别装置对色度特征样本和打击乐特征样本进行拼接,得到组合特征样本;按照预设窗口时长,从组合特征样本中确定至少一帧组合特征,从节拍点概率样本中确定与至少一帧组合特征对应的至少一个节拍点概率样本;利用至少一帧组合特征和至少一个节拍点概率样本,对初始神经网络进行训练,得到预设节拍分析模型。
信息识别装置按照时间顺序,依次将组合特征样本中的预设窗口时长的音乐特征,提取为一帧组合特征,进而得到至少一个节拍点对应的至少一帧组合特征;将节拍点概率样本中的与一帧组合特征的窗口时长相同的一个节拍点概率样本,作为该帧组合特征对应的一个节拍点概率样本,进而得到至少一个节拍点概率样本;将至少一帧组合特征作为初始神经网络的输入,将至少一个节拍点概率样本作为初始神经网络的输出,对初始神经网络进行训练,得到预设节拍分析模型。
进一步地,信息识别装置将至少一帧组合特征作为初始神经网络的输入,将至少一个节拍点概率样本作为初始神经网络的输出,采用损失函数和优化算法对初始神经网络进行训练,得到预设节拍分析模型;其中,损失函数包括均方误差(MSE,Mean SquaredError)、平均绝对误差(MAE,Mean Absolute Error);优化算法包括Adam算法、RMSProp(Root Mean Square Prop)算法和随机梯度下降(SGD,Stochastic Gradient Descent)算法等。
参见图7和图8,图7是实现本公开实施例的信息识别装置的一个可选的结构示意图,图8是基于图7所示的信息识别装置实现的信息识别方法的一个可选的流程示意图,将结合图8示出的步骤进行说明,在步骤S101之前,信息识别方法还包括:
S401、获取至少一个音乐样本、至少一个音乐样本中的每个音乐样本的节拍点概率样本;
S402、对至少一个音乐样本中的每个音乐样本进行特征提取,得到色度特征样本和梅尔频谱特征样本,并将色度特征样本和梅尔频谱特征样本进行前后拼接,得到组合特征;
S403、将初始神经网络设置为三层的初始LSTM,并将每个音乐样本对应的组合特征作为初始神经网络的输入,获取实时输出结果;
S404、根据实时输出结果和每个音乐样本对应的节拍点概率样本,采用MSE损失函数和Adam优化算法,对LSTM进行训练,得到预设节拍分析模型。
需要说明的是,初始神经网络的层数越多,识别得到的节拍点概率更准确,但是速度也会减慢,当初始神经网络选用三层的LSTM时,保证了较高的识别准确度和较高的识别速度。
综上所述,本公开实施例具有以下有益效果:信息识别装置先对预设音乐进行特征提取,得到当前音乐特征,再利用预设节拍分析模型对当前音乐特征进行识别,得到当前节拍点概率,基于当前节拍点概率确定预设音乐的节拍序列;由于先提取当前音乐特征,再通过预设节拍分析模型对当前音乐特征进行识别,得到的当前节拍点概率更准确地反映出各个节拍点的节拍信息,基于该当前节拍点概率确定出更加准确地节拍序列,也就是说,提高了节拍识别的准确率。
以上描述仅为本公开的实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本公开实施例中所涉及的公开范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离上述公开实施例构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本公开实施例中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。
Claims (20)
1.一种信息识别方法,其特征在于,所述方法包括:
按照预设节拍分析模型指定的音乐特征,对预设音乐进行特征提取,得到当前音乐特征;所述预设节拍分析模型表征音乐特征和节拍点概率的对应关系;
利用所述预设节拍分析模型,对所述当前音乐特征进行识别,得到当前节拍点概率;所述当前节拍点概率表征各个节拍点对应的节拍信息;所述当前音乐特征为所述指定的音乐特征中的一个音乐特征或者多个音乐特征的组合特征,所述预设节拍分析模型包括归属拍数分析模型和\或节拍类型分析模型,所述节拍点概率包括归属拍数概率和\或节拍类型概率;
基于所述当前节拍点概率,确定所述预设音乐的节拍序列;
对所述预设音乐的节拍序列进行小节划分,确定所述预设音乐的周期。
2.根据权利要求1所述的方法,其特征在于,所述指定的音乐特征包括以下至少一个:色度特征、梅尔频谱特征、打击乐特征、短时傅里叶变化特征和常数Q变换特征。
3.根据权利要求1所述的方法,其特征在于,所述归属拍数分析模型表征音乐特征和归属拍数概率的对应关系;所述利用所述预设节拍分析模型,对所述当前音乐特征进行识别,得到当前节拍点概率,包括:
当所述当前音乐特征包括至少两个音乐特征时,对所述至少两个音乐特征进行组合,得到组合特征,并按照预设窗口时长,对所述组合特征进行分帧,得到至少一个节拍点对应的至少一帧音乐特征;
当所述当前音乐特征包括一个音乐特征时,按照所述预设窗口时长,对所述当前音乐特征进行分帧,得到至少一个节拍点对应的至少一帧音乐特征;
利用所述归属拍数分析模型,对所述至少一帧音乐特征进行识别,得到所述至少一个节拍点各自对应的归属拍数概率;
由所述至少一个节拍点各自对应的归属拍数概率,组成所述当前节拍点概率。
4.根据权利要求1所述的方法,其特征在于,所述节拍类型分析模型表征音乐特征和节拍类型概率的对应关系;所述利用所述预设节拍分析模型,对所述当前音乐特征进行识别,得到当前节拍点概率,包括:
当所述当前音乐特征包括至少两个音乐特征时,对所述至少两个音乐特征进行组合,得到组合特征,并按照预设窗口时长,对所述组合特征进行分帧,得到至少一个节拍点对应的至少一帧音乐特征;
当所述当前音乐特征包括一个音乐特征时,按照所述预设窗口时长,对所述当前音乐特征进行分帧,得到至少一个节拍点对应的至少一帧音乐特征;
利用所述节拍类型分析模型,对所述至少一帧音乐特征进行识别,得到所述至少一个节拍点各自对应的节拍类型概率;
由所述至少一个节拍点各自对应的节拍类型概率,组成所述当前节拍点概率。
5.根据权利要求1所述的方法,其特征在于,所述基于所述当前节拍点概率,确定所述预设音乐的节拍序列,包括:
利用预设概率阈值或动态贝叶斯网络,对所述当前节拍点概率进行判断,确定至少一个节拍点各自对应的节拍信息;
由所述至少一个节拍点各自对应的节拍信息组成所述预设音乐的节拍序列。
6.根据权利要求1至5任一项所述的方法,其特征在于,所述指定的音乐特征包括色度特征,所述当前音乐特征包括当前色度特征;所述按照预设节拍分析模型指定的音乐特征,对预设音乐进行特征提取,得到当前音乐特征,包括:
对所述预设音乐进行时域到频域的转换,得到频谱信息;
利用滤波器,对所述频谱信息进行滤波,得到滤波后的频谱信息;
按照预设窗口时长,对所述滤波后的频谱信息进行分帧,得到至少一帧频谱信息;
采集所述至少一帧频谱信息中的每一帧频谱信息的高音能量;
将所述每一帧频谱信息的高音能量,作为所述当前色度特征。
7.根据权利要求1至5任一项所述的方法,其特征在于,所述指定的音乐特征包括梅尔频谱特征,所述当前音乐特征包括当前梅尔频谱特征;所述按照预设节拍分析模型指定的音乐特征,对预设音乐进行特征提取,得到当前音乐特征,包括:
对所述预设音乐进行时域到频域的转换,得到频谱信息;
利用三角窗函数,对所述频谱信息进行频率标度到梅尔频率标度的转换,得到标度转换后的信息;
对所述标度转换后的信息进行取对数和余弦变换,得到所述当前梅尔频谱特征。
8.根据权利要求1至5任一项所述的方法,其特征在于,在所述按照预设节拍分析模型指定的音乐特征,对预设音乐进行特征提取,得到当前音乐特征之前,所述方法还包括:
获取初始神经网络、音乐特征样本和节拍点概率样本;
利用所述音乐特征样本和所述节拍点概率样本,对所述初始神经网络进行训练,得到所述预设节拍分析模型。
9.根据权利要求8所述的方法,其特征在于,所述音乐特征样本包括色度特征样本和打击乐特征样本;所述利用所述音乐特征样本和所述节拍点概率样本,对所述初始神经网络进行训练,得到所述预设节拍分析模型,包括:
对所述色度特征样本和所述打击乐特征样本进行拼接,得到组合特征样本;
按照预设窗口时长,从所述组合特征样本中确定至少一帧组合特征,从所述节拍点概率样本中确定与所述至少一帧组合特征对应的至少一个节拍点概率样本;
利用所述至少一帧组合特征和所述至少一个节拍点概率样本,对所述初始神经网络进行训练,得到所述预设节拍分析模型。
10.一种信息识别装置,其特征在于,所述装置包括:
特征提取模块,用于按照预设节拍分析模型指定的音乐特征,对预设音乐进行特征提取,得到当前音乐特征;所述预设节拍分析模型表征音乐特征和节拍点概率的对应关系;
特征分析模块,用于利用所述预设节拍分析模型,对所述当前音乐特征进行识别,得到当前节拍点概率;所述当前节拍点概率表征各个节拍点对应的节拍信息;所述当前音乐特征为所述指定的音乐特征中的一个音乐特征或者多个音乐特征的组合特征,所述预设节拍分析模型包括归属拍数分析模型和\或节拍类型分析模型,所述节拍点概率包括归属拍数概率和\或节拍类型概率;
节拍获取模块,用于基于所述当前节拍点概率,确定所述预设音乐的节拍序列;对所述预设音乐的节拍序列进行小节划分,确定所述预设音乐的周期。
11.根据权利要求10所述的装置,其特征在于,所述指定的音乐特征包括以下至少一个:色度特征、梅尔频谱特征、打击乐特征、短时傅里叶变化特征和常数Q变换特征。
12.根据权利要求10所述的装置,其特征在于,所述预设节拍分析模型包括归属拍数分析模型,所述归属拍数分析模型表征音乐特征和归属拍数概率的对应关系;
所述特征分析模块,还用于当所述当前音乐特征包括至少两个音乐特征时,对所述至少两个音乐特征进行组合,得到组合特征,并按照预设窗口时长,对所述组合特征进行分帧,得到至少一个节拍点对应的至少一帧音乐特征;及当所述当前音乐特征包括一个音乐特征时,按照所述预设窗口时长,对所述当前音乐特征进行分帧,得到至少一个节拍点对应的至少一帧音乐特征;及利用所述归属拍数分析模型,对所述至少一帧音乐特征进行识别,得到所述至少一个节拍点各自对应的归属拍数概率;以及由所述至少一个节拍点各自对应的归属拍数概率,组成所述当前节拍点概率。
13.根据权利要求10所述的装置,其特征在于,所述预设节拍分析模型包括节拍类型分析模型,所述节拍类型分析模型表征音乐特征和节拍类型概率的对应关系;
所述特征分析模块,还用于当所述当前音乐特征包括至少两个音乐特征时,对所述至少两个音乐特征进行组合,得到组合特征,并按照预设窗口时长,对所述组合特征进行分帧,得到至少一个节拍点对应的至少一帧音乐特征;及当所述当前音乐特征包括一个音乐特征时,按照所述预设窗口时长,对所述当前音乐特征进行分帧,得到至少一个节拍点对应的至少一帧音乐特征;及利用所述节拍类型分析模型,对所述至少一帧音乐特征进行识别,得到所述至少一个节拍点各自对应的节拍类型概率;以及由所述至少一个节拍点各自对应的节拍类型概率,组成所述当前节拍点概率。
14.根据权利要求10任一项所述的装置,其特征在于,
所述节拍获取模块,还用于利用预设概率阈值或动态贝叶斯网络,对所述当前节拍点概率进行判断,确定至少一个节拍点各自对应的节拍信息;以及由所述至少一个节拍点各自对应的节拍信息组成所述预设音乐的节拍序列。
15.根据权利要求10至14任一项所述的装置,其特征在于,所述指定的音乐特征包括色度特征,所述当前音乐特征包括当前色度特征;
所述特征提取模块,还用于对所述预设音乐进行时域到频域的转换,得到频谱信息;及利用滤波器,对所述频谱信息进行滤波,得到滤波后的频谱信息;及按照预设窗口时长,对所述滤波后的频谱信息进行分帧,得到至少一帧频谱信息;及采集所述至少一帧频谱信息中的每一帧频谱信息的高音能量;以及将所述每一帧频谱信息的高音能量,作为所述当前色度特征。
16.根据权利要求10至14任一项所述的装置,其特征在于,所述指定的音乐特征包括梅尔频谱特征,所述当前音乐特征包括当前梅尔频谱特征;
所述特征提取模块,还用于对所述预设音乐进行时域到频域的转换,得到频谱信息;及利用三角窗函数,对所述频谱信息进行频率标度到梅尔频率标度的转换,得到标度转换后的信息;以及对所述标度转换后的信息进行取对数和余弦变换,得到所述当前梅尔频谱特征。
17.根据权利要求10至14任一项所述的装置,其特征在于,所述装置还包括:
模型生成模块,用于在所述按照预设节拍分析模型指定的音乐特征,对预设音乐进行特征提取,得到当前音乐特征之前,获取初始神经网络、音乐特征样本和节拍点概率样本;以及利用所述音乐特征样本和所述节拍点概率样本,对所述初始神经网络进行训练,得到所述预设节拍分析模型。
18.根据权利要求17所述的装置,其特征在于,所述音乐特征样本包括色度特征样本和打击乐特征样本;
所述模型生成模块,还用于对所述色度特征样本和所述打击乐特征样本进行拼接,得到组合特征样本;及按照预设窗口时长,从所述组合特征样本中确定至少一帧组合特征,从所述节拍点概率样本中确定与所述至少一帧组合特征对应的至少一个节拍点概率样本;以及利用所述至少一帧组合特征和所述至少一个节拍点概率样本,对所述初始神经网络进行训练,得到所述预设节拍分析模型。
19.一种电子设备,其特征在于,所述电子设备包括:处理器、存储器和通信总线,所述存储器通过所述通信总线与所述处理器进行通信,所述存储器存储所述处理器可执行的一个或者多个程序,当所述一个或者多个程序被执行时,通过所述处理器执行如权利要求1-9任一项所述的方法。
20.一种存储介质,其特征在于,所述存储介质存储有程序,当所述程序被至少一个处理器执行时,实现如权利要求1-9任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010080785.3A CN113223487B (zh) | 2020-02-05 | 2020-02-05 | 一种信息识别方法及装置、电子设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010080785.3A CN113223487B (zh) | 2020-02-05 | 2020-02-05 | 一种信息识别方法及装置、电子设备和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113223487A CN113223487A (zh) | 2021-08-06 |
CN113223487B true CN113223487B (zh) | 2023-10-17 |
Family
ID=77085496
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010080785.3A Active CN113223487B (zh) | 2020-02-05 | 2020-02-05 | 一种信息识别方法及装置、电子设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113223487B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114154574A (zh) * | 2021-12-03 | 2022-03-08 | 北京达佳互联信息技术有限公司 | 节拍重拍联合检测模型的训练及节拍重拍联合检测方法 |
CN117037854B (zh) * | 2023-07-06 | 2024-09-20 | 上海炉石信息科技有限公司 | 一种节拍的提示方法及装置 |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH10161654A (ja) * | 1996-11-27 | 1998-06-19 | Sanyo Electric Co Ltd | 音楽ジャンル判定装置 |
CN101740010A (zh) * | 2008-11-21 | 2010-06-16 | 索尼株式会社 | 信息处理设备、声音分析方法和程序 |
EP2779155A1 (en) * | 2013-03-14 | 2014-09-17 | Yamaha Corporation | Sound signal analysis apparatus, sound signal analysis method and sound signal analysis program |
CN104395953A (zh) * | 2012-04-30 | 2015-03-04 | 诺基亚公司 | 来自音乐音频信号的拍子、和弦和强拍的评估 |
WO2015114216A2 (en) * | 2014-01-31 | 2015-08-06 | Nokia Corporation | Audio signal analysis |
CN108202334A (zh) * | 2018-03-22 | 2018-06-26 | 东华大学 | 一种能够识别音乐节拍和风格的舞蹈机器人 |
CN108320730A (zh) * | 2018-01-09 | 2018-07-24 | 广州市百果园信息技术有限公司 | 音乐分类方法及节拍点检测方法、存储设备及计算机设备 |
CN109166593A (zh) * | 2018-08-17 | 2019-01-08 | 腾讯音乐娱乐科技(深圳)有限公司 | 音频数据处理方法、装置及存储介质 |
CN109256147A (zh) * | 2018-10-30 | 2019-01-22 | 腾讯音乐娱乐科技(深圳)有限公司 | 音频节拍检测方法、装置及存储介质 |
CN109308912A (zh) * | 2018-08-02 | 2019-02-05 | 平安科技(深圳)有限公司 | 音乐风格识别方法、装置、计算机设备及存储介质 |
CN110278388A (zh) * | 2019-06-19 | 2019-09-24 | 北京字节跳动网络技术有限公司 | 展示视频的生成方法、装置、设备及存储介质 |
-
2020
- 2020-02-05 CN CN202010080785.3A patent/CN113223487B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH10161654A (ja) * | 1996-11-27 | 1998-06-19 | Sanyo Electric Co Ltd | 音楽ジャンル判定装置 |
CN101740010A (zh) * | 2008-11-21 | 2010-06-16 | 索尼株式会社 | 信息处理设备、声音分析方法和程序 |
CN104395953A (zh) * | 2012-04-30 | 2015-03-04 | 诺基亚公司 | 来自音乐音频信号的拍子、和弦和强拍的评估 |
EP2779155A1 (en) * | 2013-03-14 | 2014-09-17 | Yamaha Corporation | Sound signal analysis apparatus, sound signal analysis method and sound signal analysis program |
WO2015114216A2 (en) * | 2014-01-31 | 2015-08-06 | Nokia Corporation | Audio signal analysis |
CN108320730A (zh) * | 2018-01-09 | 2018-07-24 | 广州市百果园信息技术有限公司 | 音乐分类方法及节拍点检测方法、存储设备及计算机设备 |
CN108202334A (zh) * | 2018-03-22 | 2018-06-26 | 东华大学 | 一种能够识别音乐节拍和风格的舞蹈机器人 |
CN109308912A (zh) * | 2018-08-02 | 2019-02-05 | 平安科技(深圳)有限公司 | 音乐风格识别方法、装置、计算机设备及存储介质 |
CN109166593A (zh) * | 2018-08-17 | 2019-01-08 | 腾讯音乐娱乐科技(深圳)有限公司 | 音频数据处理方法、装置及存储介质 |
CN109256147A (zh) * | 2018-10-30 | 2019-01-22 | 腾讯音乐娱乐科技(深圳)有限公司 | 音频节拍检测方法、装置及存储介质 |
CN110278388A (zh) * | 2019-06-19 | 2019-09-24 | 北京字节跳动网络技术有限公司 | 展示视频的生成方法、装置、设备及存储介质 |
Non-Patent Citations (3)
Title |
---|
《基于深度循环神经网络的音乐节拍识别》;骆成喜 等;《2017中国自动化大会(CAC2017)暨国际智能制造创新大会(CIMIC2017)论文集》;第385-388页 * |
陈东.《葫芦丝演奏技巧》.现代出版社,2019,第25-26页. * |
骆成喜 等.《基于深度循环神经网络的音乐节拍识别》.《2017中国自动化大会(CAC2017)暨国际智能制造创新大会(CIMIC2017)论文集》.2017,第385-388页. * |
Also Published As
Publication number | Publication date |
---|---|
CN113223487A (zh) | 2021-08-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112115706B (zh) | 文本处理方法、装置、电子设备及介质 | |
CN107657017A (zh) | 用于提供语音服务的方法和装置 | |
CN112001175B (zh) | 流程自动化方法、装置、电子设备及存储介质 | |
CN111798821B (zh) | 声音转换方法、装置、可读存储介质及电子设备 | |
CN113327620B (zh) | 声纹识别的方法和装置 | |
CN109410918B (zh) | 用于获取信息的方法及装置 | |
CN113223487B (zh) | 一种信息识别方法及装置、电子设备和存储介质 | |
CN113421594B (zh) | 语音情感识别方法、装置、设备及存储介质 | |
CN109637536B (zh) | 一种自动化识别语义准确性的方法及装置 | |
CN112201253B (zh) | 文字标记方法、装置、电子设备及计算机可读存储介质 | |
CN113436634A (zh) | 基于声纹识别的语音分类方法、装置及相关设备 | |
CN115312040A (zh) | 语音唤醒方法、装置、电子设备和计算机可读存储介质 | |
CN118135997A (zh) | 多语言语音识别方法、装置、设备及介质 | |
KR102220964B1 (ko) | 오디오 인식을 위한 방법 및 디바이스 | |
CN111128131B (zh) | 语音识别方法、装置、电子设备及计算机可读存储介质 | |
US20240096347A1 (en) | Method and apparatus for determining speech similarity, and program product | |
CN113555037B (zh) | 篡改音频的篡改区域检测方法、装置及存储介质 | |
CN113221990B (zh) | 信息录入方法、装置及相关设备 | |
CN116072147A (zh) | 音乐检测模型训练方法、装置、电子设备及存储介质 | |
CN115331703A (zh) | 一种歌曲人声检测方法及装置 | |
EP4089671A1 (en) | Audio information processing method and apparatus, electronic device, and storage medium | |
CN114049875A (zh) | 一种tts播报方法、装置、设备以及存储介质 | |
CN112542157B (zh) | 语音处理方法、装置、电子设备及计算机可读存储介质 | |
CN113808577A (zh) | 语音摘要的智能提取方法、装置、电子设备及存储介质 | |
CN112929501A (zh) | 语音通话服务方法、装置、设备、介质及计算机程序产品 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |