CN110580912A - 音乐可视化的方法、装置及系统 - Google Patents

音乐可视化的方法、装置及系统 Download PDF

Info

Publication number
CN110580912A
CN110580912A CN201911004866.9A CN201911004866A CN110580912A CN 110580912 A CN110580912 A CN 110580912A CN 201911004866 A CN201911004866 A CN 201911004866A CN 110580912 A CN110580912 A CN 110580912A
Authority
CN
China
Prior art keywords
power spectrum
frequency
frequency band
audio frame
points
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911004866.9A
Other languages
English (en)
Other versions
CN110580912B (zh
Inventor
闫震海
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Music Entertainment Technology Shenzhen Co Ltd
Original Assignee
Tencent Music Entertainment Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Music Entertainment Technology Shenzhen Co Ltd filed Critical Tencent Music Entertainment Technology Shenzhen Co Ltd
Priority to CN201911004866.9A priority Critical patent/CN110580912B/zh
Publication of CN110580912A publication Critical patent/CN110580912A/zh
Application granted granted Critical
Publication of CN110580912B publication Critical patent/CN110580912B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/06Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
    • G10L21/10Transforming into visible information
    • G10L21/14Transforming into visible information by displaying frequency domain information
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/21Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Quality & Reliability (AREA)
  • Auxiliary Devices For Music (AREA)

Abstract

本发明实施例公开了一种音乐可视化方法,该方法包括:获取第一音频帧的第一功率谱;根据第一功率谱中各个频点的功率谱数据,确定第一功率谱的多个第一频点和第二频点;根据多个第一频点和第二频点,得到第一功率谱的第一频带;对第二频带做数轴映射得到第一压缩频带,第二频带为小于第一频带的最小频点的频率范围;对第三频带做数轴映射得到第二压缩频带,第三频带为大于第一频带的最大频点的频率范围;结合第一压缩频带、第二压缩频带和第一频带得到第一音频帧的第二功率谱。采用本发明实施例,可以针对不同音乐的个性化特征,为其量身定做一个有效的功率谱显示窗口,从而使音乐可视化效果更加符合人耳听感。

Description

音乐可视化的方法、装置及系统
技术领域
本发明涉及可视化领域,尤其涉及一种音乐可视化的方法、装置及系统。
背景技术
在传统意义上,音乐属于用听觉体验美感的艺术。但音乐还具有形象思维的特点,在情感的伴随下,通过想象联想,获得音乐形象、生活情景以及意境等形象,音乐可视化变为现实。音乐可视化是指提取音乐等音频信号的特征,然后通过图像渲染的方式,将音频特征表现出来,从而达到画面随音乐的变化而变化。即用图像语言解释音乐感受。
现有的音乐可视化处理技术可以包含对自然音频(如WAV、MP3等格式的音频)进行内容分析和特征提取,常见提取手段包括快速傅里叶变换(Fast Fourier Transform,FFT)、固定窗口等方式,然后将提取的结果显示出来。然而,这样的显示会出现频谱特征的画面不准确。如此,并不符合音乐可视化的初衷,音乐和画面的同步效果不佳,影响用户体验感。
发明内容
本发明实施例公开了一种音乐可视化方法、装置及系统,能够针对不同音乐的个性化特征,为其量身定做对应的功率谱显示窗口,增强音乐和画面的同步效果,使得音乐可视化效果更加符合人耳听感。
第一方面,本发明实施例提供了一种音乐可视化方法,包括:获取第一音频帧的第一功率谱;根据第一功率谱中各个频点的功率谱数据,确定该第一功率谱的多个第一频点和第二频点;其中,第一频点为满足第一条件的频点,第二频点为满足第二条件的频点;根据多个第一频点和第二频点,得到该第一功率谱的第一频带;对第二频带做数轴映射得到第一压缩频带,第二频带为小于第一频带的最小频点的频率范围,第一压缩频带在频率轴上的长度小于第二频带在频率轴上的长度;对第三频带做数轴映射得到第二压缩频带,第三频带为大于第一频带的最大频点的频率范围,第二压缩频带在频率轴上的长度小于第三频带在频率轴上的长度;结合第一压缩频带、第二压缩频带和第一频带得到第一音频帧的第二功率谱。
在上述方法中,根据各频点的活跃程度,确定活跃的第一频带、非活跃的第二频带和第三频带,并对非活跃的第二频带和第三频带做数轴映射。以进一步压缩非活跃频率范围的空间,以便最大程度地呈现有效的频率范围,又不遗漏任何可能出现的活跃频率。针对不同音乐的个性化特征,为其量身定做一个有效的功率谱显示窗口。因此可以有效地将频谱特征中变化最明显的部分,以符合人耳听觉特性的数据特征,实时地映射在合适的显示窗口之中,增加音乐和画面的同步效果,从而使音乐可视化效果更加符合人耳听感。
在第一方面的一种可选方案中,上述第一条件为第一功率谱中的频点的功率谱数据的方差大于第一阈值;上述第二条件为第一功率谱中的频点的功率谱数据的方差小于第一阈值。
在第一方面的又一种可选方案中,上述第一频带内的第一频点的数目多于上述第二频带和上述第三频带内的第一频点的数目;上述第一频带内的第二频点的数目少于上述第二频带和上述第三频带内的第二频点的数目。
在第一方面的又一种可选方案中,上述对第二频带做数轴映射得到第一压缩频带,包括:将上述第二频带内的所有频点按照对数坐标系进行等间隔划分,得到该第二频带的多个第一区间,多个第一区间内的频点数目按照对数关系依次增加;根据第一区间内的所有频点,得到该第一区间的代表频点;根据多个第一区间的代表频点得到第一压缩频带。
在上述方法中,对非活跃的第二频带按照对数坐标系进行等间隔划分,并通过划分后的区间内的频点得到该区间的代表频点,再使用多个区间的代表频点得到第一压缩频带。从而实现频率轴从线性轴映射到对数轴的过程,使得音乐可视化效果更符合人耳听感。
在第一方面的又一种可选方案中,上述对第三频带做数轴映射得到第二压缩频带,包括:将上述第三频带内的所有频点按照对数坐标系进行等间隔划分,得到该第三频带的多个第二区间,多个第二区间内的频点数目按照对数关系依次增加;根据第二区间内的所有频点,得到该第二区间的代表频点;根据多个第二区间的代表频点得到第二压缩频带。
在上述方法中,对非活跃的第二频带按照对数坐标系进行等间隔划分,并通过划分后的区间内的频点得到该区间的代表频点,再使用多个区间的代表频点得到第一压缩频带。从而实现频率轴从线性轴映射到对数轴的过程,使得音乐可视化效果更符合人耳听感。
在第一方面的又一种可选方案中,上述获取第一音频帧的第一功率谱之前,该方法还包括:将目标音频划分为多个音频帧;其中,第一音频帧为多个音频帧中任意一个音频帧;对第一音频帧的时域信号做频谱估计,得到该第一音频帧的第三功率谱;对第三功率谱做数轴映射,得到该第一音频帧的第四功率谱;对第四功率谱做频率计权加权,得到该第一音频帧的第五功率谱;对第五功率谱做高斯滤波加权,得到该第一音频帧的第六功率谱;对第六功率谱做时间加权,得到该第一音频帧的第一功率谱。
在上述方法中,为不同的音频数据设计对应的功率谱显示窗口之前,还需要实现音频特征的提取过程。该提取过程包含频谱估计、数轴映射和多次加权。通过频谱估计实现时域信号向频域信号的转换,通过数轴映射和多次加权优化音乐可视化的效果。以此增强音乐和画面的同步效果,使音乐可视化效果更加符合人耳听感。
在第一方面的又一种可选方案中,上述对第三功率谱做数轴映射,得到该第一音频帧的第四功率谱,包括:
将第三功率谱的所有频点按照对数坐标系进行等间隔划分,得到该第三功率谱的多个第三区间,多个第三区间内的频点数目按照对数关系依次增加;根据第三区间内的所有频点,得到该第三区间的代表频点;根据多个第三区间的代表频点得到第四功率谱的频率轴范围。
在上述方法中,对第三功率谱的频率轴的频率范围按照对数坐标系进行等间隔划分,并通过划分后的区间内的频点得到该区间的代表频点,再使用多个区间的代表频点得到第四功率谱的频率轴范围。从而实现频率轴从线性轴映射到对数轴的过程,使得音乐可视化效果更符合人耳听感。
在第一方面的又一种可选方案中,上述对第五功率谱做高斯滤波加权,得到该第一音频帧的第六功率谱,包括:
使用方差为第一方差的高斯滤波函数对第五功率谱做滤波加权,得到第一音频帧的第七功率谱;根据第五功率谱和第七功率谱,得到第一平坦度;根据第一平坦度和第一方差得到第二方差;使用方差为第二方差的高斯滤波函数对第五功率谱做滤波加权,得到第六功率谱。
在上述方法中,针对频域音频数据的每个音频帧的第五功率谱的不同频率特征,实时地计算对应的平坦度。根据平坦度的大小确定动态高斯滤波函数的方差,使用与频域音频数据的当前音频帧的频率特征相符合的高斯滤波函数对该当前音频帧的第五功率谱进行滤波加权。这样不仅有效地抑制了曲线中毛刺的出现,而且不至于因为过度平滑而减小曲线的动态变化特征,从而实现动态平滑的效果。
在第一方面的又一种可选方案中,上述结合第一压缩频带、第二压缩频带和第一频带得到第一音频帧的第二功率谱之后,该方法还包括:根据第二功率谱的所有频点的功率谱数据,确定该第二功率谱的第四区间,其中,第四区间为功率谱数据在该第四区间内的频点的数目大于第二阈值的功率谱数值区间;根据第四区间,调整第二功率谱中每个频点的功率谱数据。
在上述方法中,根据第二功率谱的所有频点的功率谱数据,确定大多数功率谱数据所在的第四区间,并用该第四区间调整第二功率谱的每个频点的功率谱数据。因此可以有效地将频谱特征中变化最明显的部分,以符合人耳听觉特性的数据特征,实时地映射在合适的显示窗口之中,增加音乐和画面的同步效果,从而使音乐可视化效果更加符合人耳听感。
在第一方面的又一种可选方案中,上述根据第四区间,调整第二功率谱中每个频点的功率谱数据,包括:
比较第二功率谱中每个频点的功率谱数据、第四区间的最小数值和第四区间的最大数值;在第三频点的功率谱数据大于最小数值且小于最大数值的情况下,不调整该第三频点的功率谱数据;其中,第三频点为第二功率谱中任意一个频点;在第三频点的功率谱数据小于最小数值的情况下,调整该第三频点的功率谱数据为最小数值;在第三频点的功率谱数据大于最大数值的情况下,调整该第三频点的功率谱数据为最大数值。
在第一方面的又一种可选方案中,上述结合第一压缩频带、第二压缩频带和第一频带得到第一音频帧的第二功率谱之后,该方法还包括:根据上述目标音频的响度,对第二功率谱做增益补偿。
在第一方面的又一种可选方案中,上述根据上述目标音频的响度,对第二功率谱做增益补偿,包括:
根据目标音频的响度和第一音频帧的响度,使用第一补偿值对第一音频帧的第二功率谱做增益补偿;根据目标音频的响度和第二音频帧的响度,使用第二补偿值对第二音频帧的第二功率谱做增益补偿;其中,第二音频帧为多个音频帧中任意一个音频帧,第一音频帧的响度大于第二音频帧的响度,第一补偿值小于第二补偿值。
在上述方法中,根据整首音乐的平均响度和每个音频帧的响度,按照每个音频帧的响度越大,补偿值越小的原则,对每个音频帧的第二信号功率谱做增益补偿。以此针对音乐的个性化特征,为其量身定做一个有效的功率谱显示窗口。可以有效地将频谱特征中变化最明显的部分,以符合人耳听觉特性的数据特征,实时地映射在合适的显示窗口之中,增加音乐和画面的同步效果,从而使音乐可视化效果更加符合人耳听感。
第二方面,本发明实施例提供了一种音乐可视化装置,包括:第一获取单元,用于获取第一音频帧的第一功率谱;第一确定单元,用于根据第一功率谱中各个频点的功率谱数据,确定该第一功率谱的多个第一频点和第二频点;其中,第一频点为满足第一条件的频点,第二频点为满足第二条件的频点;第二确定单元,用于根据多个第一频点和第二频点,得到该第一功率谱的第一频带;第一映射单元,用于对第二频带做数轴映射得到第一压缩频带,第二频带为小于第一频带的最小频点的频率范围,第一压缩频带在频率轴上的长度小于第二频带在频率轴上的长度;第二映射单元,对第三频带做数轴映射得到第二压缩频带,第三频带为大于第一频带的最大频点的频率范围,第二压缩频带在频率轴上的长度小于第三频带在频率轴上的长度;第三确定单元,用于结合第一压缩频带、第二压缩频带和第一频带得到第一音频帧的第二功率谱。
在第二方面的一种可选方案中,上述第一条件为第一功率谱中的频点的功率谱数据的方差大于第一阈值;上述第二条件为第一功率谱中的频点的功率谱数据的方差小于第一阈值。
在第二方面的又一种可选方案中,上述第一频带内的第一频点的数目多于上述第二频带和上述第三频带内的第一频点的数目;上述第一频带内的第二频点的数目少于上述第二频带和上述第三频带内的第二频点的数目。
在第二方面的又一种可选方案中,上述第一映射单元包括:第一划分子单元,用于将上述第二频带内的所有频点按照对数坐标系进行等间隔划分,得到该第二频带的多个第一区间,多个第一区间内的频点数目按照对数关系依次增加;第一确定子单元,用于根据第一区间内的所有频点,得到该第一区间的代表频点;第二确定子单元,用于根据多个第一区间的代表频点得到第一压缩频带。
在第二方面的又一种可选方案中,上述第二映射单元包括:第二划分子单元,用于将上述第三频带内的所有频点按照对数坐标系进行等间隔划分,得到该第三频带的多个第二区间,多个第二区间内的频点数目按照对数关系依次增加;第三确定子单元,用于根据第二区间内的所有频点,得到该第二区间的代表频点;第四确定子单元,用于根据多个第二区间的代表频点得到第二压缩频带。
在第二方面的又一种可选方案中,该音乐可视化装置还包括:分帧单元,用于在上述第一获取单元获取第一音频帧的第一功率谱之前,将目标音频划分为多个音频帧;其中,第一音频帧为多个音频帧中任意一个音频帧;第一转换单元,用于对第一音频帧的时域信号做频谱估计,得到该第一音频帧的第三功率谱;第三映射单元,用于对第三功率谱做数轴映射,得到该第一音频帧的第四功率谱;第一加权单元,用于对第四功率谱做频率计权加权,得到该第一音频帧的第五功率谱;第二加权单元,用于对第五功率谱做高斯滤波加权,得到该第一音频帧的第六功率谱;第三加权单元,用于对第六功率谱做时间加权,得到第一音频帧的第一功率谱。
在第二方面的又一种可选方案中,上述第三映射单元包括:第三划分子单元,用于将第三功率谱的所有频点按照对数坐标系进行等间隔划分,得到该第三功率谱的多个第三区间,多个第三区间内的频点数目按照对数关系依次增加;第五确定子单元,用于根据第三区间内的所有频点,得到该第三区间的代表频点;第六确定子单元,用于根据多个第三区间的代表频点得到第四功率谱的频率轴范围。
在第二方面的又一种可选方案中,上述第二加权单元包括:第一滤波子单元,用于使用方差为第一方差的高斯滤波函数对第五功率谱做滤波加权,得到第一音频帧的第七功率谱;第一计算子单元,用于根据第五功率谱和第七功率谱,得到第一平坦度;第二计算子单元,用于根据第一平坦度和第一方差得到第二方差;第二滤波子单元,用于使用方差为第二方差的高斯滤波函数对第五功率谱做滤波加权,得到第六功率谱。
在第二方面的又一种可选方案中,该音乐可视化装置还包括:第四确定单元,用于在上述第三确定单元结合第一压缩频带、第二压缩频带和第一频带得到第一音频帧的第二功率谱之后,根据第二功率谱的所有频点的功率谱数据,确定该第二功率谱的第四区间,其中,第四区间为功率谱数据在该第四区间内的频点的数目大于第二阈值的功率谱数值区间;第一调整单元,用于根据第四区间,调整第二功率谱中每个频点的功率谱数据。
在第二方面的又一种可选方案中,上述第一调整单元包括:第一比较子单元,用于比较第二功率谱中每个频点的功率谱数据、第四区间的最小数值和第四区间的最大数值;第一调整子单元,用于在第三频点的功率谱数据大于最小数值且小于最大数值的情况下,不调整该第三频点的功率谱数据;其中,第三频点为第二功率谱中任意一个频点;第二调整子单元,用于在第三频点的功率谱数据小于最小数值的情况下,调整该第三频点的功率谱数据为最小数值;第三调整子单元,用于在第三频点的功率谱数据大于最大数值的情况下,调整该第三频点的功率谱数据为最大数值。
在第二方面的又一种可选方案中,该音乐可视化装置还包括:第一补偿单元,用于在上述第三确定单元结合第一压缩频带、第二压缩频带和第一频带得到第一音频帧的第二功率谱之后,根据上述目标音频的响度,对第二功率谱做增益补偿。
在第二方面的又一种可选方案中,上述第一补偿单元包括:第一补偿子单元,用于根据目标音频的响度和第一音频帧的响度,使用第一补偿值对第一音频帧的第二功率谱做增益补偿;第二补偿子单元,用于根据目标音频的响度和第二音频帧的响度,使用第二补偿值对第二音频帧的第二功率谱做增益补偿;其中,第二音频帧为多个音频帧中任意一个音频帧,第一音频帧的响度大于第二音频帧的响度,第一补偿值小于第二补偿值。
第三方面,本发明实施例提供了一种音乐可视化装置,包括:处理器、存储器及通信接口;该处理器与上述存储器、上述通信接口相连,其中上述通信接口用于连接发送目标音频的装置,该目标音频包含多个音频帧的时域信号。
上述存储器用于存储程序代码,上述处理器用于调用上述程序代码,以执行本发明实施例第一方面或第一方面的任意一种实现方式提供的音乐可视化方法。
第四方面,本发明实施例提供了一种音乐可视化系统,包括:发送目标音频的装置和音乐可视化装置,其中,该目标音频包含多个音频帧的时域信号。该音乐可视化装置为本发明实施例第二方面或第二方面的任意一种实现方式提供的音乐可视化装置。
第五方面,本发明实施例提供了一种计算机存储介质,包括计算机指令,当该计算机指令在电子设备上运行时,使得该电子设备执行本发明实施例第一方面或第一方面的任意一种实现方式提供的音乐可视化方法。
第六方面,本发明实施例提供了一种计算机程序产品,当该计算机程序产品在电子设备上运行时,使得该电子设备执行本发明实施例第一方面或第一方面的任意一种实现方式提供的音乐可视化方法。
可以理解地,上述提供的第二方面提供的音乐可视化装置、第三方面提供的音乐可视化装置、第五方面提供的计算机存储介质,以及第六方面提供的计算机程序产品均用于执行第一方面所提供的音乐可视化方法,因此,其所能达到的有益效果可参考第一方面所提供的音乐可视化方法中的有益效果,此处不再赘述。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对本发明实施例或背景技术中所需要使用的附图作简单地介绍。
图1是本发明实施例提供的一种音乐可视化系统的网络架构示意图;
图2-图3是本发明实施例提供的一些音乐可视化界面的实施例的示意图;
图4是本发明实施例提供的一种音乐可视化方法的流程示意图;
图5是本发明实施例提供的又一种音乐可视化方法的流程示意图;
图6是本发明实施例提供的又一种音乐可视化方法的流程示意图;
图7是本发明实施例提供的一种音乐可视化装置的结构示意图;
图8是本发明实施例提供的又一种音乐可视化装置的结构示意图;
图9是本发明实施例提供的又一种音乐可视化装置的结构示意图。
具体实施方式
下面将结合附图对本发明实施例中的技术方案进行描述。
请参见图1,图1是本发明实施例提供的一种音乐可视化系统的网络架构示意图。
如图1所示,音乐可视化系统的网络架构可以包括发送目标音频的装置101和音乐可视化装置102。
发送目标音频的装置101可以为任意能对原始音频数据进行处理,并将其转换为计算机能够处理的数字信号的装置,该数字信号可以称为目标音频。发送目标音频的装置101可以但不限于是声卡等音频设备。
如图1所示,发送目标音频的装置101可以和互联网连接获取原始音频数据,也可以和话筒、磁盘、光盘等装置连接获取原始音频数据,本发明实施例对获取原始音频数据的方式不作限定。
发送目标音频的装置101获取原始音频数据后,可以但不限于使用脉冲编码调制(Pulse Code Modulation,PCM)对原始音频数据进行处理,将其转换为目标音频。PCM可以包含采样、量化和编码三个步骤,其中涉及到的参数可以但不限于为采样频率、采样位数、声道数等等。例如,若想要经过PCM处理后的数据为光盘(Compact Disc,CD)音质,采样频率可以44100赫兹(Hz),采样位数可以为16比特(Binary System,BIT),声道数可以为双声道。本发明实施例对PCM涉及使用的参数不作限定。
发送目标音频的装置101可以和音乐可视化装置102连接,发送目标音频给音乐可视化装置102。
音乐可视化装置102接收并处理该目标音频,得到和原始音频数据匹配的多个音频帧的第二功率谱。音乐可视化装置102可以根据该多个音频帧的第二功率谱,显示对应的音乐可视化界面。图1所示的音乐可视化界面仅为目标音频的一个音频帧的第二功率谱,在实际显示中,音乐可视化界面会根据目标音频整首音乐的节奏动态地显示每个音频帧的第二功率谱。
音乐可视化装置102可以为任意能对目标音频做音频特征提取流程和音频特征显示流程的装置,其中,音频特征提取流程可参见下图5和对应的说明,音频特征显示流程可参见下图4、图6和对应的说明,此处暂不详述。音乐可视化装置102可以但不限于为网络设备、音频设备和视频设备等装置。
作为一种可选的实施方式,音乐可视化装置102可以将多个音频帧的第二功率谱转换为可显示的动画。动画的格式可以但不限于是音频视频交错格式(Audio VideoInterleaved,AVI)、图像互换格式(Graphics Interchange Format、GIF)、MP4(MovingPicture Experts Group 4)格式等。
如图1所示,示例的音乐可视化界面的显示形态为二维坐标系,其中,横轴表示频率,纵轴表示频率对应的功率谱的大小。不限于图1示例的情况,在具体实现中,音乐可视化的显示形态还可以将频率轴的首尾相连构成圆环状,频率对应的功率谱大小则用该圆环上的突起表示。本发明实施例对此不作限定。
如图1所示,示例的音乐可视化界面显示的信号为单声道信号。不限于图1示例的情况,在具体实现中,音乐可视化界面显示的信号还可以为双声道信号和四声道信号,本发明实施例对此不作限定。
为了方便说明,本发明实施例采用二维坐标系和单声道进行描述,即下面所示的所有信号为单声道信号,且信号功率谱的显示形态为二维坐标系,其中,横轴表示频率,纵轴表示频率对应的功率谱的大小。
作为一种可选的实施方式,显示双声道信号的音乐可视化界面可以是左右声音通道重叠显示,并用不同的颜色区分左右声音通道。不限于上述列举的情况,在具体实现中,音乐可视化界面显示的立体声信号还可以在显示窗口中并排独立显示左右声道信号;也可以将左声道信号和右声道信号加权平均后在显示窗口中合并显示。本发明实施例对此不作限定。
需要说明的是,由于本发明实施例提出的音乐可视化方法主要在于:使用音乐可视化装置102实现包含音频特征提取流程和音频特征显示流程的音乐可视化方法,所以将发送目标音频的装置101和音乐可视化装置102分开说明。但在具体实现中,音乐可视化装置102可以包含发送目标音频的装置101的功能,本发明实施例对此不作限定。
下面在图1所示的音乐可视化系统的基础上,介绍本发明实施例涉及的应用场景以及该场景下的音乐可视化界面实施例。
请参见图2,图2示例性示出了经过针对音乐的个性化特征设置对应功率谱显示窗口的频率轴范围的方法处理前后的音频信号功率谱的音乐可视化界面的对比图。上图为处理前的音乐可视化界面,下图为处理后的音乐可视化界面。
如图2的上图所示,音乐可视化界面21显示的是音频信号功率的当前音频帧的第一信号功率谱。该第一信号功率谱的显示形态为二维坐标系,其中,横轴表示频率,纵轴表示频率对应的功率谱的大小,并且该当前音频帧的信号为单声道信号。
如图2的下图所示,音乐可视化界面22显示的是经过针对音乐的个性化特征设置对应功率谱显示窗口的频率轴范围的方法处理后的音频信号功率谱的当前音频帧的第二信号功率谱。
需要说明的是,该第二信号功率谱的显示形态,及下面实施例所示的信号功率谱的显示形态均和上述第一信号功率谱的一致,此处及下文不再赘述。
具体地,音乐可视化界面21所示的第一信号功率谱如何经过针对音乐的个性化特征设置对应功率谱显示窗口的频率轴范围的方法处理,得到音乐可视化界面22所示的第二信号功率谱,以及图2所示的相关参数的描述,请参见下面图4的说明,此处暂不详述。
请参见图3,图3示例性示出了经过针对音乐的个性化特征设置对应功率谱显示窗口的纵轴范围的方法处理前后的音频信号功率谱的音乐可视化界面的对比图。上图为处理前的音乐可视化界面,下图为处理后的音乐可视化界面。
如图3的上图所示,音乐可视化界面22显示的是音频信号功率谱的当前音频帧的第二信号功率谱。
如图3的下图所示,音乐可视化界面31显示的是经过针对音乐的个性化特征设置对应功率谱显示窗口的纵轴范围的方法处理后的音频信号功率谱的当前音频帧的第二信号功率谱。
具体地,音乐可视化界面22所示的第二信号功率谱如何经过针对音乐的个性化特征设置对应功率谱显示窗口的纵轴范围的方法处理得到音乐可视化界面31所示的第二信号功率谱,以及图3所示的相关参数的描述,请参见下面图6的说明,此处暂不详述。
下面在图1所示的音乐可视化系统的基础上,结合图2和图3所示的音乐可视化界面实施例,介绍一种音乐可视化方法。
请参见图4,图4是本发明实施例提供的一种音乐可视化方法的流程示意图,该方法可以由图1所示的音乐可视化装置102来实现,该方法包括但不限于如下步骤:
步骤S401:获取第一音频帧的第一功率谱。
具体地,目标音频可以被划分为多个音频帧,第一音频帧为多个音频帧中任意一个音频帧,在具体实现中,会对目标音频的部分或所有音频帧进行处理。为了方便说明,本发明实施例仅以一个音频帧,即第一音频帧为例进行说明。
具体地,第一音频帧的第一功率谱可以为经音频特征提取流程处理过的数字信号。其中,音频特征提取流程可参见下图5和对应的说明,此处暂不详述。
具体地,音频数据是流式的,本身没有明确一帧一帧的概念,但在实际应用中,为了处理和传输的方便,一般约定俗成取2.5毫秒(millisecond,ms)到60ms为单位的数据量为一个音频帧。在现有音频格式中,AMR(Adaptive Multi-Rate)格式规定每20ms为一个音频帧;MP3格式较为复杂,需根据采样频率、比特率等各种参数确定一个音频帧的数据量。本发明实施例对一个音频帧的数据量及如何确定一个音频帧的数据量不作限定。
步骤S402:根据第一功率谱中各个频点的功率谱数据,确定第一功率谱的多个第一频点和第二频点。
具体地,人耳的听觉频率范围为20Hz到2000Hz,若采用该范围作为音乐可视化界面的频率轴范围,可能会因为范围过大导致界面显示的频谱特征变化不明显。若采用固定的频率范围,如现有技术中经常使用200Hz到1000Hz作为音乐可视化界面的频率轴范围,则可能会遗漏出现的活跃频率。本发明实施例针对不同音乐的个性化特征设置对应功率谱显示窗口的频率轴范围,以此最大程度地呈现有效频率范围。
具体地,统计第一音频帧的第一功率谱的每个频点的功率谱数据,根据统计结果,确定第一功率谱的多个第一频点和多个第二频点。其中,第一频点可以是满足第一条件的频点,第二频点可以是满足第二条件的频点。
作为一种可选的实施方式,第一条件为第一功率谱中的频点的功率谱数据的方差大于第一阈值,第二条件为第一功率谱中的频点的功率谱数据的方差小于第一阈值。即满足第一条件的第一频点为相比均值变化较大的活跃频点,满足第二条件的第二频点为相比均值变化较小的非活跃频点。
统计第一音频帧的第一功率谱的每个频点的功率谱的方差,确定大多数频点的功率谱的方差所在的方差数值范围,可以用[a,b]代表该方差数值范围。若当前频点的功率谱的方差大于b,说明该频点相对均值的变化较大,则将该当前频点标记为活跃的第一频点;若当前频点的功率谱的方差小于b,说明该频点相对均值的变化较小,则将该当前频点标记为非活跃的第二频点。以此类推,按照统计的结果依次标记上述当前音频帧的第一功率谱的每个频点。
其中,第一阈值(即上述的b)的确认可以通过上述列举的的统计方式得到,在具体实现中,也可以根据算法得到,不同的音频帧的确认方式可以不同,本发明实施例对此不作限定。
不限于上述列举的情况,在具体实现中,还可以根据该音频信号功率谱的当前音频帧的第一功率谱的每个频点的功率谱数据的均方根,标记该当前音频帧的第一功率谱的多个第一频点和多个第二频点。本发明实施例对标记第一频点和第二频点的方式不作限定。
步骤S403:根据多个第一频点和第二频点,得到第一功率谱的第一频带。
具体地,根据步骤S402确定的第一音频帧的第一功率谱的多个第一频点和多个第二频点,确定第一音频帧中活跃频率较为集中的频率范围为第一频带。
作为一种可选的实施方式,统计第一频点和第二频点的数目,将第一频点数目最多,第二频点数目最少的频率范围确定为第一频带,可以用(f_low,f_high)代表第一频带的频率范围。其中,第一频带内的第一频点的数目多于第一频带外的第一频点数目,第一频带内的第二频点的数目少于第一频带外的第二频点的数目。
不限于上述列举的情况,在具体实现中,还可以根据第一频点和第二频点的数目的平均值、方差来确定第一频带。本发明实施例对确定第一频带的方式不作限定。
步骤S404:对第二频带做数轴映射得到第一压缩频带,对第三频带做数轴映射得到第二压缩频带。
具体地,第二频带为小于第一频带的最小频点的频率轴范围,第三频带为大于第一频带的最大频点的频率范围。
作为一种可选的实施方式,若按照步骤S403示例的用(f_low,f_high)表示第一频带的频率范围,则第二频带的频率范围可以用[20Hz,f_low]表示,第三频带的频率范围可以用[f_high,2000Hz]表示。
具体地,对第二压缩频带做数轴映射得到第一压缩频带,该第一压缩频带在频率轴上的长度小于第二频带在频率轴上的长度,对第二频带做数轴映射得到第二压缩频带,该第二压缩频带在频率轴上的长度小于第三频带在频率轴上的长度。以此进一步压缩非活跃频率范围的空间,最大程度地呈现有效频率范围,但又不遗漏任何可能出现的活跃频率。
例如但不限于,如上述图2所示,音乐可视化界面21的第一频带的频率范围为(f_low,f_high),第二频带的频率范围为[20Hz,f_low],第三频带的频率范围为[f_high,2000Hz]。音乐可视化界面22的第一压缩频带在频率轴上的长度小于音乐可视化界面21的第二频带在频率轴上的长度,音乐可视化界面22的第二压缩频带在频率轴上的长度小于音乐可视化界面21的第三频带在频率轴上的长度。
作为一种可选的实施方式,由于人耳对不同频率的分辨率不相同,对低频的分辨率高,对高频的分辨率低。为了让可视化界面的效果更合乎人耳听感,数轴映射可以采用将频率轴从线性轴映射到对数轴的映射方式,该数轴映射方式包括:
首先,将第二频带内的所有频点按照对数坐标系进行等间隔划分,得到该第二频带的多个第一区间,多个第一区间内的频点的数目按照对数关系依次增加。
然后,根据被划分在同一个第一区间内的所有频点,通过映射函数计算出对应的第一区间的代表频点。其中,映射函数可以但不限于是最大值函数、最小值函数、均方值函数和平均值函数等。
最后,根据多个第一区间的代表频点按照顺序依次组合得到第一压缩频带的频率范围。
例如但不限于,结合图2所示的音乐可视化界面,首先,划分音乐可视化界面21的第二频带得到多个第一区间,该多个第一区间内的频点的数目按照20、21、22、23、…的2n的对数关系依次增加。然后,通过最大值函数计算得到每个第一区间的代表频点为该第一区间内的最大频点。最后将多个第一区间的代表频点按照从小到大的顺序组合得到第一压缩频带。
具体地,对第三频带做将频率轴从线性轴映射到对数轴的数轴映射得到第二压缩频带的过程,可参见上述示例的对第二压缩频带做将频率轴从线性轴映射到对数轴的数轴映射得到第一压缩频带的过程,此处不再赘述。
不限于上述列举的情况,在具体实现中,还可以使用其他数轴映射方式,本发明实施例对此不作限定。
步骤S405:结合第一压缩频带、第二压缩频带和第一频带得到第一音频帧的第二功率谱。
具体地,结合第一压缩频带的频率范围,第一频带的频率范围和第二压缩频带的频率范围,按照顺序依次组成第一音频帧的第二功率谱的频率轴范围,其中,第二功率谱的纵轴按照对应频点的功率谱数值依次组合而成。
例如但不限于,上述图2示例性示出了经过图4所示方法处理前后的音频信号功率谱的音乐可视化界面的对比图。其中,音乐可视化界面21为处理前的音频信号功率的第一音频帧的第一信号功率谱,音乐可视化界面22为处理后的音频信号功率谱的第一音频帧的第二信号功率谱。
在图4描述的方法中,实现了针对不同音乐的个性化特征设置对应功率谱显示窗口的频率轴范围。以此最大程度地呈现音频数据的有效频率范围,又不遗漏任何可能的活跃频率。
上述图4的步骤S401获取的第一音频帧的第一功率谱为经过音频特征提取流程处理过的数字信号。下面基于图1所示的音乐可视化系统和图4所示的音乐可视化方法,根据图5介绍该音频特征提取的流程。
请参见图5,图5是本发明实施例提供的又一种音乐可视化方法的流程示意图,该方法可以由图1所示的音乐可视化装置102来实现,且该方法在图4描述的音乐可视化方法之前执行,该方法包括但不限于如下步骤:
步骤S501:将目标音频划分为多个音频帧。
具体地,划分音频帧可参见上述图4的步骤S401的说明,此处不予赘述。
作为一种可选的实施方式,如图1所示的发送目标音频的装置101可以对原始音频数据进行PCM处理。即将模拟信号的原始音频数据转换为数字信号的目标音频,并发送目标音频给音乐可视化装置102。
步骤S502:对第一音频帧的时域信号做频谱估计,得到第一音频帧的第三功率谱。
具体地,相比时域谱,频域谱更能凸显信号特征,所以用于展示音乐可视化界面的功率谱通常是频域的功率谱。因此为了得到对应的频域谱,可以做频谱估计。
作为一种可选的实施方式,示例性示出一种使用加窗平均周期图法(welch法)对第一音频帧的时域信号做频谱估计的过程。
第一音频帧的时域信号用x(n)表示,该信号x(n)的长度用M表示,使用welch法对长度为M的数据进行频谱估计。
首先,将长度为M的数据分成多个片段,每一小段的长度用N表示,分段个数用L表示,即L=(M-N/2)/(N/2)。该步骤可以称为截断。
然后,为了减少截断过程产生的泄露影响,可以选择加窗处理。窗函数可以但不限于是矩形窗、三角形窗、汉宁窗(Hanning)、海明窗(Hamming)和布莱克曼窗(Blackman)等等。为了使幅度识别精度较高,本发明实施例采用哈布斯窗(Blackman-Harris),用w(n)表示该窗函数,用T表示w(n)的平均能量。
Blackman-Harris窗实质是一种四项系数的余弦窗,长度为P的Blackman-Harris窗的时域表达式如下所示:
其中,0≤n≤P-1,a0=0.35875,a1=0.48829,a2=0.14128,a3=0.01168。
对长度为N的每一小段数据进行加Blackman-Harris窗处理,对应的平均能量T的表达式如下所示:
使用welch法对长度为M的时域信号进行频谱估计,对应的频谱估计公式如下:
其中,FFT[x(n)w(n)]为对加Blackman-Harris窗后的x(n)的FFT,P(w)为长度为M的功率谱,也就是一个音频帧的功率谱。
由于使用welch法对信号进行处理能够更好地减少频谱泄露,提高频谱分辨率,所以本发明实施例采用welch法作为示例。但不限于上述列举的情况,在具体实现中,还可以使用FFT、分段平均周期图法(Bartlett法)对时域信号做频谱估计,本发明实施例对此不做限定。
步骤S503:对第三功率谱做数轴映射,得到第一音频帧的第四功率谱。
具体地,对第三功率谱的频率轴做数轴映射,得到第一音频帧的第四功率谱的频率轴范围。
作为一种可选的实施方式,为了让音乐可视化界面的效果更合乎人耳听感,数轴映射可以采用将频率轴从线性轴映射到对数轴的映射方式。对第三功率谱的频率轴做将频率轴从线性轴映射到对数轴的数轴映射,以此得到第一音频帧的第四功率谱的频率轴的过程,可参见上述图4的步骤S404所示的对第二压缩频带做将频率轴从线性轴映射到对数轴的数轴映射得到第一压缩频带的过程,此处不再赘述。
不限于上述列举的数轴映射方式,在具体实现中,还可以使用其他数轴映射方式,本发明实施例对此不作限定。
具体地,结合本步骤S503和上述图4的步骤S404,本发明实施例对音频信号的频率轴的处理为对活跃的第一频带做一次数轴映射,对非活跃的第二频带和第三频带做两次数轴映射;以便最大程度地呈现有效频率范围,又不遗漏任何可能出现的活跃频率。
不限于上述列举的情况,但要保证对非活跃频带的数轴映射的次数大于对活跃频带的数轴映射的次数,在具体实现中,可以对频率轴范围做多次数轴映射,本发明实施例对此不做限定。
步骤S504:对第四功率谱做频率计权加权,得到第一音频帧的第五功率谱。
具体地,人耳对不同频率的声音敏感度不同,两个声音即使声压级相同,如果频率不同,感受到的响度也不同。为了让音乐可视化界面的效果更合乎人耳听感,增加音乐与可视化界面的同步效果,可以采用频率计权对第一音频帧的第四功率谱做加权处理。
作为一种可选的实施方式,由于人耳对低频的感知能力较弱,可以选择相比其他计权,对低频部分衰减最多的A计权,对频域音频数据的每个音频帧的第四功率谱做加权处理。A计权的曲线类似于40方(phon)等响曲线的反曲线。
但不限于上述情况,在具体实现中,还可以使用B计权、C计权、D计权等等,本发明实施例对此不作限定。
步骤S505:对第五功率谱做高斯滤波加权,得到第一音频帧的第六功率谱。
具体地,根据第五功率谱,实时地计算对应频率特征的平坦度;根据平坦度的大小,确定高斯滤波函数的方差。既有效抑制了曲线中毛刺的出现,又不至于因过度平滑而减小曲线的动态变化特征,从而实现动态平滑的效果。
作为一种可选的实施方式,平坦度可以但不限于是第五功率谱相对做过一次固定方差的高斯滤波的拟合曲线的差值。本发明实施例对如何定义平坦度不作限定。
作为一种可选的实施方式,对第五功率谱做高斯滤波加权,得到第一音频帧的第六功率谱,包括:
首先,使用固定的第一方差的高斯滤波函数对第五功率谱做滤波加权,得到第一音频帧的第七功率谱。
然后,可以计算出第七功率谱的均值和第五功率谱的均值,并用上述两个均值的差值表示第一音频帧的第一平坦度。
再者,可以根据第一平坦度的大小判断方差为第一方差的高斯滤波函数对第五功率谱的平滑效果,以此确定适合对第五功率谱滤波加权的高斯滤波函数的第二方差。
例如但不限于,若第一平坦度为0,则方差为第一方差的高斯滤波函数对第五功率谱没有起到平滑作用,说明第五功率谱的频率特征本身变化不大,因此可以调小方差,即确定的第二方差要小于第一方差,来减小高斯滤波的平滑效果。根据平坦度和第一方差确定第二方差的总体原则为:平坦度越大,则第二方差越大于第一方差;平坦度越小,则第二方差越小于第一方差;当平坦度小于一定阈值时,可不做高斯滤波加权。本发明实施例对从平坦度到第二方差的映射方法不作限定。
最后,使用方差为第二方差的高斯滤波函数对第五功率谱做滤波加权,得到第一音频帧的第六功率谱。
步骤S506:对第六功率谱做时间加权,得到第一音频帧的第一功率谱。
具体地,使用第一音频帧之前相邻的多个音频帧的第六功率谱,对第一音频帧的第六功率谱做时间加权,得到第一音频帧的第一功率谱。以此减少音乐可视化的实时画面中的闪屏情况。
作为一种可选的实施方式,可以使用相邻两个音频帧做时间加权:使用第一音频帧之前的一个音频帧的第六功率谱,对第一音频帧的第六功率谱做时间加权,即:
current_frame=current_frame+α(last_frame-current_frame)
其中,current_frame为第一音频帧的第六功率谱,last_frame为第一音频帧之前的一个音频帧的第六功率谱。α为加权因子,可以为任意数值,该加权因子越大,音乐可视化画面的更新速度越慢,该加权因子越小,音乐可视化画面的更新速度越快。本发明实施例对加权因子的设置不作限定。
作为一种可选的实施方式,可以使用相邻多帧的时间加权。例如但不限于,使用第一音频帧之前的三个音频帧的第六功率谱,对第一音频帧的第六功率谱做时间加权,即:
其中,frame(n)为第一音频帧的第六功率谱,frame(n-1)、frame(n-2)和frame(n-3)为第一音频帧之前的三个音频帧的第六功率谱;α1、α2、α3、α4均为加权因子,可以为任意数值。加权因子的数值大小可根据实际的视觉效果调整,本发明实施例对加权因子的设置不作限定。
图4所示实施例介绍了针对不同音乐的个性化特征设置对应功率谱显示窗口的频率轴范围的流程,下面根据图6介绍针对不同音乐的个性化特征设置对应功率谱显示窗口的纵轴的流程。
请参见图6,图6是本发明实施例提供的又一种音乐可视化方法的流程示意图,该方法可以由图1所示的音乐可视化装置102来实现,且该方法在图4描述的音乐可视化方法之后执行,该方法包括但不限于如下步骤:
步骤S601:根据第一音频帧的第二功率谱的所有频点的功率谱数据,确定第二功率谱的第四区间。
具体地,根据第一音频帧的第二功率谱的所有频点的纵轴功率谱数据,确定大多数功率谱数据所在的第四区间。
例如但不限于,如上述图3的上图所示,音乐可视化界面22所示的当前音频帧的第二功率谱中有超过百分之八十的频点的纵轴数据都在区间[c,d]之内,则该区间[c,d]可以为第四区间。本发明实施例对确定第四区间的方法不作限定。
步骤S602:比较第二功率谱的每个频点的功率谱数据、第四区间的最小数值和第四区间的最大数值。
步骤S603:在第三频点的功率谱数据大于最小数值且小于最大数值的情况下,不调整第三频点的功率谱数据。
步骤S604:在第三频点的功率谱数据小于最小数值的情况下,调整第三频点的功率谱数据为最小数值。
步骤S605:在第三频点的功率谱数据大于最大数值的情况下,调整第三频点的功率谱数据为最大数值。
具体地,第三频点为第二功率谱中任意一个频点,在具体实现中,会对第二功率谱的每个频点的功率谱数据进行调整。调整方式为步骤S603、步骤S604和步骤S605中任意一个方式。步骤S603、步骤S604和步骤S605为步骤S602的三种比较结果和对应的调整情况,对于超出第四区间边界的纵轴功率谱数据,可以将其调整为第四区间的边界值。
作为一种可选的实施方式,在按照图4所示的步骤调整第一音频帧的第二功率谱后,可以再将第二功率谱映射到区间[0,1],实现归一化处理,即:
例如但不限于,如上述图3所示,音乐可视化界面31显示的功率谱为经过图6所示方法处理后的音频信号功率谱的第一音频帧的第二信号功率谱。其中,横轴的频率范围为第一压缩频带、第一频带和第二压缩频带按照顺序组合的频率范围,纵轴的数值范围为[0,1]。
图6所示实施例实现了根据每个音频帧不同的功率谱数值范围,动态地确定对应功率谱显示窗口的纵轴范围。可以有效地将频谱特征中变化最明显的部分,以符合人耳听觉特征的数据特征,实时地映射在合适的显示窗口中,增加音乐和画面的同步效果,从而使音乐可视化效果更加符合人耳听感。
不限于上述图6列举的针对不同音乐的个性化特征设置对应的功率谱显示窗口的纵轴的流程,在具体实现中,还可以根据音乐的响度特征补偿纵轴的功率谱数值,以此确定有效的功率谱显示窗口。本发明实施例对此不作限定。
下面介绍根据音乐的响度特征补偿纵轴的功率谱数值,以此确定有效的功率谱显示窗口的方法,即:根据目标音频的响度,对第一音频帧的第二功率谱做增益补偿。
首先,可以计算目标音频的平均值响度、均方值响度等,并将其作为整首音乐的整体响度值,不限于此。
然后,根据该整体响度值和第一音频帧的响度值,确定对应的补偿值。
例如但不限于,可以计算第一音频帧的平均响度,并比较第一音频帧的平均响度和整首音乐的整体响度值。若二者相等,则补偿值可以为0。补偿的原则为:若第一音频帧的平均响度越大于整首音乐的整体响度,则补偿值越小;若第一音频帧的平均响度越小于整首音乐的整体响度,则补偿值越大。本发明实施例对根据响度确定补偿值的方法不作限定。
上述详细阐述了本发明实施例的方法,为了便于更好地实施本发明实施例的上述方案,相应地,下面提供了本发明实施例的装置。
请参见图7,图7是本发明实施例提供的一种音乐可视化装置的结构示意图,该音乐可视化装置70可以包括第一获取单元701、第一确定单元702、第二确定单元703、第一映射单元704、第二映射单元705和第三确定单元706,其中,各个单元的详细描述如下:
第一获取单元701,用于获取第一音频帧的第一功率谱。
第一确定单元702,用于根据第一功率谱中各个频点的功率谱数据,确定该第一功率谱的多个第一频点和第二频点。其中,第一频点为满足第一条件的频点,第二频点为满足第二条件的频点。
第二确定单元703,用于根据多个第一频点和第二频点,得到该第一功率谱的第一频带。
第一映射单元704,用于对第二频带做数轴映射得到第一压缩频带,该第二频带为小于上述第一频带的最小频点的频率范围,第一压缩频带在频率轴上的长度小于第二频带在频率轴上的长度。
第二映射单元705,用于对第三频带做数轴映射得到第二压缩频带,该第三频带为大于上述第一频带的最大频点的频率范围,第二压缩频带在频率轴上的长度小于第三频带在频率轴上的长度。
第三确定单元706,用于结合第一压缩频带、第二压缩频带和第一频带得到第一音频帧的第二功率谱。
作为一种可选的实施方式,上述第一条件为第一功率谱中的频点的功率谱数据的方差大于第一阈值;上述第二条件为第一功率谱中的频点的功率谱数据的方差小于第一阈值。
作为一种可选的实施方式,上述第一频带内的第一频点的数目多于上述第二频带和上述第三频带内的第一频点的数目;上述第一频带内的第二频点的数目少于上述第二频带和上述第三频带内的第二频点的数目。
作为一种可选的实施方式,第一映射单元704可以包括:
第一划分子单元,用于将上述第二频带内的所有频点按照对数坐标系进行等间隔划分,得到该第二频带的多个第一区间,多个第一区间内的频点数目按照对数关系依次增加,
第一确定子单元,用于根据第一区间内的所有频点,得到该第一区间的代表频点。
第二确定子单元,用于根据多个第一区间的代表频点得到第一压缩频带。
作为一种可选的实施方式,第二映射单元705可以包括:
第二划分子单元,用于将上述第三频带内的所有频点按照对数坐标系进行等间隔划分,得到该第三频带的多个第二区间,多个第二区间内的频点数目按照对数关系依次增加。
第三确定子单元,用于根据第二区间内的所有频点,得到该第二区间的代表频点。
第四确定子单元,用于根据多个第二区间的代表频点得到第二压缩频带。
请参见图8,图8是本发明实施例提供的又一种音乐可视化装置的结构示意图,在图7所示的音乐可视化装置基础上,图8所示的音乐可视化装置的各个单元的详细描述如下:
该音乐可视化装置70可以包括图7所示的各个单元,除此之外,还可以包括:
分帧单元707,用于在第一获取单元701获取第一音频帧的第一功率谱之前,将目标音频划分为多个音频帧。其中,第一音频帧为多个音频帧中任意一个音频帧。
第一转换单元708,用于对第一音频帧的时域信号做频谱估计,得到该第一音频帧的第三功率谱。
第三映射单元709,用于对第三功率谱做数轴映射,得到该第一音频帧的第四功率谱。
第一加权单元710,用于对第四功率谱做频率计权加权,得到该第一音频帧的第五功率谱。
第二加权单元711,用于对第五功率谱做高斯滤波加权,得到该第一音频帧的第六功率谱。
第三加权单元712,用于对第六功率谱做时间加权,得到第一音频帧的第一功率谱。
作为一种可选的实施方式,第三映射单元709可以包括:
第三划分子单元,用于将第三功率谱的所有频点按照对数坐标系进行等间隔划分,得到该第三功率谱的多个第三区间,多个第三区间内的频点数目按照对数关系依次增加,
第五确定子单元,用于根据第三区间内的所有频点,得到该第三区间的代表频点。
第六确定子单元,用于根据多个第三区间的代表频点得到第四功率谱的频率轴范围。
作为一种可选的实施方式,第二加权单元711可以包括:
第一滤波子单元,用于使用方差为第一方差的高斯滤波函数对第五功率谱做滤波加权,得到第一音频帧的第七功率谱。
第一计算子单元,用于根据第五功率谱和第七功率谱,得到第一平坦度。
第二计算子单元,用于根据第一平坦度和第一方差得到第二方差。
第二滤波子单元,用于使用方差为第二方差的高斯滤波函数对第五功率谱做滤波加权,得到第六功率谱。
作为一种可选的实施方式,该音乐可视化装置70还可以包括:
第四确定单元713,用于在第三确定单元706结合第一压缩频带、第二压缩频带和第一频带得到第一音频帧的第二功率谱之后,根据第二功率谱的所有频点的功率谱数据,确定该第二功率谱的第四区间,其中,第四区间为功率谱数据在该第四区间内的频点的数目大于第二阈值的功率谱数值区间。
第一调整单元714,用于根据第四区间,调整第二功率谱中每个频点的功率谱数据。
作为一种可选的实施方式,第一调整单元714可以包括:
第一比较子单元,用于比较第二功率谱中每个频点的功率谱数据、第四区间的最小数值和第四区间的最大数值。
第一调整子单元,用于在第三频点的功率谱数据大于最小数值且小于最大数值的情况下,不调整该第三频点的功率谱数据;其中,第三频点为第二功率谱中任意一个频点。
第二调整子单元,用于在第三频点的功率谱数据小于最小数值的情况下,调整该第三频点的功率谱数据为最小数值。
第三调整子单元,用于在第三频点的功率谱数据大于最大数值的情况下,调整该第三频点的功率谱数据为最大数值。
作为一种可选的实施方式,该音乐可视化装置70还可以包括:
第一补偿单元715,用于在第三确定单元706结合第一压缩频带、第二压缩频带和第一频带得到第一音频帧的第二功率谱之后,根据上述目标音频的响度,对第二功率谱做增益补偿。
作为一种可选的实施方式,第一补偿单元715可以包括:
第一补偿子单元,用于根据目标音频的响度和第一音频帧的响度,使用第一补偿值对第一音频帧的第二功率谱做增益补偿。
第二补偿子单元,用于根据目标音频的响度和第二音频帧的响度,使用第二补偿值对第二音频帧的第二功率谱做增益补偿。其中,第二音频帧为多个音频帧中任意一个音频帧,第一音频帧的响度大于第二音频帧的响度,第一补偿值小于第二补偿值。
需要说明的是,在本发明实施例中,各个单元的具体实现还可以对应参照图4、图5和图6所示的方法实施例的相应描述。
请参见图9,图9是本发明实施例提供的又一种音乐可视化装置的结构示意图,该音乐可视化装置90可以包括:至少一个处理器901,例如中央处理器(CPU,centralprocessing unit),至少一个通信总线902,至少一个网络接口903,存储器904,显示屏905。
其中,通信总线902用于实现这些组件之间的连接通信。网络接口903可选的可以包括标准的有线接口、无线接口(如WIFI接口、蓝牙接口),通过网络接口903可以与上述图1所示的发送目标音频的装置101建立通信连接。存储器904可以是高速RAM存储器,也可以是非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器。如图9所示,作为一种计算机存储介质的存储器904中可以包括操作系统、网络通信模块以及程序指令。
需要说明的是,网络接口903可以连接获取器、发射器或其他通信模块,其他通信模块可以包括但不限于WiFi模块、蓝牙模块等,可以理解,本发明实施例中音乐可视化装置90也可以包括获取器、发射器和其他通信模块等。
处理器901可以用于调用存储器904中存储的程序指令,可以执行如图4、图5和图6所示实施例提供的方法。
本发明实施例还提供了一种计算机可读存储介质,该计算机可读存储介质中存储有指令,当其在计算机或处理器上运行时,使得计算机或处理器执行上述任一个方法中的一个或多个步骤。上述信号处理装置的各组成模块如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在所述计算机可读取存储介质中。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者通过所述计算机可读存储介质进行传输。所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如,固态硬盘(solid state disk,SSD))等。
综上所述,通过实施本发明实施例,针对不同音乐的个性化特征,设置横轴(频率)和纵轴(功率谱的大小)的显示方法,来确定一个有效的功率谱显示窗口。其中,横轴(频率)的显示方法包含根据各频点的活跃程度,确定活跃频带和非活跃频带,并对活跃频带做一次数轴映射和对非活跃频带做两次数轴映射。以便最大程度地呈现有效的频率范围,又不遗漏任何可能出现的活跃频率。纵轴(功率谱的大小)的显示方法包含根据整首音乐的功率谱数值范围,动态地确定纵轴的显示范围;或者根据整首音乐的整体响度,补偿功率谱数值的大小。同时,本发明实施例所示的关键参数是根据不同歌曲的不同特点而计算得到的,所以其参数具有动态自适应调整的特点。因此可以有效地将频谱特征中变化最明显的部分,以符合人耳听觉特性的数据特征,实时地映射在合适的显示窗口之中,增加音乐和画面的同步效果,从而使音乐可视化效果更加符合人耳听感。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,可以通过计算机程序来指令相关的硬件来完成,该的程序可存储于计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可存储程序代码的介质。
以上所揭露的仅为本发明较佳实施例而已,当然不能以此来限定本发明之权利范围,因此依本发明权利要求所作的等同变化,仍属本发明所涵盖的范围。

Claims (22)

1.一种音乐可视化方法,其特征在于,包括:
获取第一音频帧的第一功率谱;
根据所述第一功率谱中各个频点的功率谱数据,确定所述第一功率谱的多个第一频点和第二频点;其中,所述第一频点为满足第一条件的频点,所述第二频点为满足第二条件的频点;
根据所述多个第一频点和第二频点,得到所述第一功率谱的第一频带;
对第二频带做数轴映射得到第一压缩频带,所述第二频带为小于所述第一频带的最小频点的频率范围,所述第一压缩频带在频率轴上的长度小于所述第二频带在频率轴上的长度;
对第三频带做数轴映射得到第二压缩频带,所述第三频带为大于所述第一频带的最大频点的频率范围,所述第二压缩频带在频率轴上的长度小于所述第三频带在频率轴上的长度;
结合所述第一压缩频带、所述第二压缩频带和所述第一频带得到所述第一音频帧的第二功率谱。
2.如权利要求1所述的方法,其特征在于,所述第一条件为所述第一功率谱中的频点的功率谱数据的方差大于第一阈值;所述第二条件为所述第一功率谱中的频点的功率谱数据的方差小于第一阈值;
所述第一频带内的所述第一频点的数目多于所述第二频带和所述第三频带内的所述第一频点的数目;所述第一频带内的所述第二频点的数目少于所述第二频带和所述第三频带内的所述第二频点的数目。
3.如权利要求2所述的方法,其特征在于,所述对第二频带做数轴映射得到第一压缩频带,包括:
将所述第二频带内的所有频点按照对数坐标系进行等间隔划分,得到所述第二频带的多个第一区间,多个所述第一区间内的频点数目按照对数关系依次增加;
根据所述第一区间内的所有频点,得到所述第一区间的代表频点;
根据多个所述第一区间的代表频点得到所述第一压缩频带;
所述对第三频带做数轴映射得到第二压缩频带,包括:
将所述第三频带内的所有频点按照对数坐标系进行等间隔划分,得到所述第三频带的多个第二区间,多个所述第二区间内的频点数目按照对数关系依次增加;
根据所述第二区间内的所有频点,得到所述第二区间的代表频点;
根据多个所述第二区间的代表频点得到所述第二压缩频带。
4.如权利要求1-3任一项所述的方法,其特征在于,所述获取第一音频帧的第一功率谱之前,所述方法还包括:
将目标音频划分为多个音频帧;其中,所述第一音频帧为所述多个音频帧中任意一个音频帧;
对所述第一音频帧的时域信号做频谱估计,得到所述第一音频帧的第三功率谱;
对所述第三功率谱做数轴映射,得到所述第一音频帧的第四功率谱;
对所述第四功率谱做频率计权加权,得到所述第一音频帧的第五功率谱;
对所述第五功率谱做高斯滤波加权,得到所述第一音频帧的第六功率谱;
对所述第六功率谱做时间加权,得到所述第一音频帧的所述第一功率谱。
5.如权利要求4所述的方法,其特征在于,所述对所述第三功率谱做数轴映射,得到所述第一音频帧的第四功率谱,包括:
将所述第三功率谱的所有频点按照对数坐标系进行等间隔划分,得到所述第三功率谱的多个第三区间,多个所述第三区间内的频点数目按照对数关系依次增加;
根据所述第三区间内的所有频点,得到所述第三区间的代表频点;
根据多个所述第三区间的代表频点得到所述第四功率谱的频率轴范围。
6.如权利要求4或5所述的方法,其特征在于,所述对所述第五功率谱做高斯滤波加权,得到所述第一音频帧的第六功率谱,包括:
使用方差为第一方差的高斯滤波函数对所述第五功率谱做滤波加权,得到所述第一音频帧的第七功率谱;
根据所述第五功率谱和所述第七功率谱,得到第一平坦度;
根据所述第一平坦度和所述第一方差得到第二方差;
使用方差为所述第二方差的高斯滤波函数对所述第五功率谱做滤波加权,得到所述第六功率谱。
7.如权利要求1-6任一项所述的方法,其特征在于,所述结合所述第一压缩频带、所述第二压缩频带和所述第一频带得到所述第一音频帧的第二功率谱之后,所述方法还包括:
根据所述第二功率谱的所有频点的功率谱数据,确定所述第二功率谱的第四区间,其中,所述第四区间为功率谱数据在所述第四区间内的频点的数目大于第二阈值的功率谱数值区间;
根据所述第四区间,调整所述第二功率谱中每个频点的功率谱数据。
8.如权利要求7所述的方法,其特征在于,所述根据所述第四区间,调整所述第二功率谱中每个频点的功率谱数据,包括:
比较所述第二功率谱中每个频点的功率谱数据、所述第四区间的最小数值和所述第四区间的最大数值;
在第三频点的功率谱数据大于所述最小数值且小于所述最大数值的情况下,不调整所述第三频点的功率谱数据;其中,所述第三频点为所述第二功率谱中任意一个频点;
在所述第三频点的功率谱数据小于所述最小数值的情况下,调整所述第三频点的功率谱数据为所述最小数值;
在所述第三频点的功率谱数据大于所述最大数值的情况下,调整所述第三频点的功率谱数据为所述最大数值。
9.如权利要求1-6任一项所述的方法,其特征在于,所述结合所述第一压缩频带、所述第二压缩频带和所述第一频带得到所述第一音频帧的第二功率谱之后,所述方法还包括:
根据所述目标音频的响度,对所述第二功率谱做增益补偿。
10.如权利要求9所述的方法,其特征在于,所述根据所述目标音频的响度,对所述第二功率谱做增益补偿,包括:
根据所述目标音频的响度和第一音频帧的响度,使用第一补偿值对所述第一音频帧的所述第二功率谱做增益补偿;
根据所述目标音频的响度和第二音频帧的响度,使用第二补偿值对所述第二音频帧的所述第二功率谱做增益补偿;
其中,所述第二音频帧为所述多个音频帧中任意一个音频帧,所述第一音频帧的响度大于所述第二音频帧的响度,所述第一补偿值小于所述第二补偿值。
11.一种音乐可视化装置,其特征在于,包括:
第一获取单元,用于获取第一音频帧的第一功率谱;
第一确定单元,用于根据所述第一功率谱中各个频点的功率谱数据,确定所述第一功率谱的多个第一频点和第二频点;其中,所述第一频点为满足第一条件的频点,所述第二频点为满足第二条件的频点;
第二确定单元,用于根据所述多个第一频点和第二频点,得到所述第一功率谱的第一频带;
第一映射单元,用于对第二频带做数轴映射得到第一压缩频带,所述第二频带为小于所述第一频带的最小频点的频率范围,所述第一压缩频带在频率轴上的长度小于所述第二频带在频率轴上的长度;
第二映射单元,用于对第三频带做数轴映射得到第二压缩频带,所述第三频带为大于所述第一频带的最大频点的频率范围,所述第二压缩频带在频率轴上的长度小于所述第三频带在频率轴上的长度;
第三确定单元,用于结合所述第一压缩频带、所述第二压缩频带和所述第一频带得到所述第一音频帧的第二功率谱。
12.如权利要求11所述的装置,其特征在于,所述第一条件为所述第一功率谱中的频点的功率谱数据的方差大于第一阈值;所述第二条件为所述第一功率谱中的频点的功率谱数据的方差小于第一阈值;
所述第一频带内的所述第一频点的数目多于所述第二频带和所述第三频带内的所述第一频点的数目;所述第一频带内的所述第二频点的数目少于所述第二频带和所述第三频带内的所述第二频点的数目。
13.如权利要求12所述的装置,其特征在于,所述第一映射单元包括:
第一划分子单元,用于将所述第二频带内的所有频点按照对数坐标系进行等间隔划分,得到所述第二频带的多个第一区间,多个所述第一区间内的频点数目按照对数关系依次增加;
第一确定子单元,用于根据所述第一区间内的所有频点,得到所述第一区间的代表频点;
第二确定子单元,用于根据多个所述第一区间的代表频点得到所述第一压缩频带;
所述第二映射单元包括:
第二划分子单元,用于将所述第三频带内的所有频点按照对数坐标系进行等间隔划分,得到所述第三频带的多个第二区间,多个所述第二区间内的频点数目按照对数关系依次增加;
第三确定子单元,用于根据所述第二区间内的所有频点,得到所述第二区间的代表频点;
第四确定子单元,用于根据多个所述第二区间的代表频点得到所述第二压缩频带。
14.如权利要求11-13任一项所述的装置,其特征在于,所述音乐可视化装置还包括:
分帧单元,用于在所述第一获取单元获取第一音频帧的第一功率谱之前,将目标音频划分为多个音频帧;其中,所述第一音频帧为所述多个音频帧中任意一个音频帧;
第一转换单元,用于对所述第一音频帧的时域信号做频谱估计,得到所述第一音频帧的第三功率谱;
第三映射单元,用于对所述第三功率谱做数轴映射,得到所述第一音频帧的第四功率谱;
第一加权单元,用于对所述第四功率谱做频率计权加权,得到所述第一音频帧的第五功率谱;
第二加权单元,用于对所述第五功率谱做高斯滤波加权,得到所述第一音频帧的第六功率谱;
第三加权单元,用于对所述第六功率谱做时间加权,得到所述第一音频帧的所述第一功率谱。
15.如权利要求14所述的装置,其特征在于,所述第三映射单元包括:
第三划分子单元,用于将所述第三功率谱的所有频点按照对数坐标系进行等间隔划分,得到所述第三功率谱的多个第三区间,多个所述第三区间内的频点数目按照对数关系依次增加;
第五确定子单元,用于根据所述第三区间内的所有频点,得到所述第三区间的代表频点;
第六确定子单元,用于根据多个所述第三区间的代表频点得到所述第四功率谱的频率轴范围。
16.如权利要求14或15所述的装置,其特征在于,所述第二加权单元包括:
第一滤波子单元,用于使用方差为第一方差的高斯滤波函数对所述第五功率谱做滤波加权,得到所述第一音频帧的第七功率谱;
第一计算子单元,用于根据所述第五功率谱和所述第七功率谱,得到第一平坦度;
第二计算子单元,用于根据所述第一平坦度和所述第一方差得到第二方差;
第二滤波子单元,用于使用方差为所述第二方差的高斯滤波函数对所述第五功率谱做滤波加权,得到所述第六功率谱。
17.如权利要求11-16任一项所述的装置,其特征在于,所述音乐可视化装置还包括:
第四确定单元,用于在所述第三确定单元结合所述第一压缩频带、所述第二压缩频带和所述第一频带得到所述第一音频帧的第二功率谱之后,根据所述第二功率谱的所有频点的功率谱数据,确定所述第二功率谱的第四区间,其中,所述第四区间为功率谱数据在所述第四区间内的频点的数目大于第二阈值的功率谱数值区间;
第一调整单元,用于根据所述第四区间,调整所述第二功率谱中每个频点的功率谱数据。
18.如权利要求17所述的装置,其特征在于,所述第一调整单元包括:
第一比较子单元,用于比较所述第二功率谱的每个频点的功率谱数据、所述第四区间的最小数值和所述第四区间的最大数值;
第一调整子单元,用于在第三频点的功率谱数据大于所述最小数值且小于所述最大数值的情况下,不调整所述第三频点的功率谱数据;其中,所述第三频点为所述第二功率谱中任意一个频点;
第二调整子单元,用于在所述第三频点的功率谱数据小于所述最小数值的情况下,调整所述第三频点的功率谱数据为所述最小数值;
第三调整子单元,用于在所述第三频点的功率谱数据大于所述最大数值的情况下,调整所述第三频点的功率谱数据为所述最大数值。
19.如权利要求11-16任一项所述的装置,其特征在于,所述音乐可视化装置还包括:
第一补偿单元,用于在所述第三确定单元结合所述第一压缩频带、所述第二压缩频带和所述第一频带得到所述第一音频帧的第二功率谱之后,根据所述目标音频的响度,对所述第二功率谱做增益补偿。
20.如权利要求19所述的装置,其特征在于,所述第一补偿单元包括:
第一补偿子单元,用于根据所述目标音频的响度和第一音频帧的响度,使用第一补偿值对所述第一音频帧的所述第二功率谱做增益补偿;
第二补偿子单元,用于根据所述目标音频的响度和第二音频帧的响度,使用第二补偿值对所述第二音频帧的所述第二功率谱做增益补偿;
其中,所述第二音频帧为所述多个音频帧中任意一个音频帧,所述第一音频帧的响度大于所述第二音频帧的响度,所述第一补偿值小于所述第二补偿值。
21.一种音乐可视化装置,其特征在于,包括:处理器、存储器及通信接口;
所述处理器与所述存储器、所述通信接口相连,其中所述通信接口用于连接发送目标音频的装置,所述目标音频包含多个音频帧的时域信号;
所述存储器用于存储程序代码,所述处理器用于调用所述程序代码,以执行如权利要求1-10任一项所述的方法。
22.一种计算机存储介质,其特征在于,包括计算机指令,当所述计算机指令在电子设备上运行时,使得所述电子设备执行如权利要求1-10任一项所述的方法。
CN201911004866.9A 2019-10-21 2019-10-21 音乐可视化的方法、装置及系统 Active CN110580912B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911004866.9A CN110580912B (zh) 2019-10-21 2019-10-21 音乐可视化的方法、装置及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911004866.9A CN110580912B (zh) 2019-10-21 2019-10-21 音乐可视化的方法、装置及系统

Publications (2)

Publication Number Publication Date
CN110580912A true CN110580912A (zh) 2019-12-17
CN110580912B CN110580912B (zh) 2022-02-22

Family

ID=68815240

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911004866.9A Active CN110580912B (zh) 2019-10-21 2019-10-21 音乐可视化的方法、装置及系统

Country Status (1)

Country Link
CN (1) CN110580912B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111710347A (zh) * 2020-04-24 2020-09-25 中科新悦(苏州)科技有限公司 音频数据分析方法、电子设备及存储介质
CN111782859A (zh) * 2020-06-16 2020-10-16 腾讯音乐娱乐科技(深圳)有限公司 一种音频可视化方法、装置和存储介质
CN114120992A (zh) * 2020-09-01 2022-03-01 北京字节跳动网络技术有限公司 语音生成视频的方法、装置、电子设备及计算机可读介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB9717761D0 (en) * 1997-08-21 1997-10-29 Lightworks Editing Systems Ltd Audio signal visual display device
CN1992533A (zh) * 2005-12-26 2007-07-04 索尼株式会社 信号编码设备和方法、信号译码设备和方法、程序及介质
JP2015043014A (ja) * 2013-08-26 2015-03-05 カシオ計算機株式会社 基音可視化装置、基音可視化方法およびプログラム
US20160255455A1 (en) * 2013-10-09 2016-09-01 Voyetra Turtle Beach, Inc. Method and System For In-Game Visualization Based on Audio Analysis
CN110085253A (zh) * 2019-05-09 2019-08-02 广州小鹏汽车科技有限公司 一种音乐可视化信息的控制方法、装置、车辆及存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB9717761D0 (en) * 1997-08-21 1997-10-29 Lightworks Editing Systems Ltd Audio signal visual display device
CN1992533A (zh) * 2005-12-26 2007-07-04 索尼株式会社 信号编码设备和方法、信号译码设备和方法、程序及介质
JP2015043014A (ja) * 2013-08-26 2015-03-05 カシオ計算機株式会社 基音可視化装置、基音可視化方法およびプログラム
US20160255455A1 (en) * 2013-10-09 2016-09-01 Voyetra Turtle Beach, Inc. Method and System For In-Game Visualization Based on Audio Analysis
CN110085253A (zh) * 2019-05-09 2019-08-02 广州小鹏汽车科技有限公司 一种音乐可视化信息的控制方法、装置、车辆及存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
MARINA KOLEDINTSEVA: "Spectrum Visualization and Measurement of Power Parameters of Microwave Wideband Noise", 《IMTC 2003 -INSTRUMENTATION AND MEASUREMENT》 *
陆汝华等: "轴承音频信号可视化方法的仿真实验", 《湘南学院学报》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111710347A (zh) * 2020-04-24 2020-09-25 中科新悦(苏州)科技有限公司 音频数据分析方法、电子设备及存储介质
CN111710347B (zh) * 2020-04-24 2023-12-05 中科新悦(苏州)科技有限公司 音频数据分析方法、电子设备及存储介质
CN111782859A (zh) * 2020-06-16 2020-10-16 腾讯音乐娱乐科技(深圳)有限公司 一种音频可视化方法、装置和存储介质
CN114120992A (zh) * 2020-09-01 2022-03-01 北京字节跳动网络技术有限公司 语音生成视频的方法、装置、电子设备及计算机可读介质

Also Published As

Publication number Publication date
CN110580912B (zh) 2022-02-22

Similar Documents

Publication Publication Date Title
JP7443423B2 (ja) マルチチャネル信号の符号化方法およびエンコーダ
CN110580912B (zh) 音乐可视化的方法、装置及系统
JP6212567B2 (ja) 圧縮されたオーディオ信号を修復するシステム、コンピュータ可読記憶媒体、および方法
KR102302683B1 (ko) 음향 출력 장치 및 그 신호 처리 방법
US9431982B1 (en) Loudness learning and balancing system
TWI501661B (zh) 參數式立體聲轉換系統及方法
JP2015050685A (ja) オーディオ信号処理装置および方法、並びにプログラム
CN103841241B (zh) 音量调整方法及装置
WO2011026908A1 (en) An auditory test and compensation method
CN101783656A (zh) 一种音响响度控制方法、模块和装置
TW201137863A (en) Audio signal encoding employing interchannel and temporal redundancy reduction
CN112423019B (zh) 调整音频播放速度的方法、装置、电子设备及存储介质
WO2018066383A1 (ja) 情報処理装置および方法、並びにプログラム
JP4922427B2 (ja) 信号補正装置
CN106973355A (zh) 环绕立体声实现方法和装置
US20130085762A1 (en) Audio encoding device
WO2020073564A1 (zh) 用于检测音频信号的响度的方法和装置
CN116168719A (zh) 一种基于语境分析的声音增益调节方法及系统
CN115243183A (zh) 一种音频检测方法、设备及存储介质
CN116349252A (zh) 用于处理双耳录音的方法和设备
CN115376527A (zh) 三维音频信号编码方法、装置和编码器
CN108028055A (zh) 信息处理装置、信息处理系统和程序
CN112306451A (zh) 一种音量调整方法、装置及系统
GB2594265A (en) Apparatus, methods and computer programs for enabling rendering of spatial audio signals
CN113194400B (zh) 音频信号的处理方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant