CN115083432A - 音频可视化方法、装置、电子设备及存储介质 - Google Patents
音频可视化方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN115083432A CN115083432A CN202210697255.2A CN202210697255A CN115083432A CN 115083432 A CN115083432 A CN 115083432A CN 202210697255 A CN202210697255 A CN 202210697255A CN 115083432 A CN115083432 A CN 115083432A
- Authority
- CN
- China
- Prior art keywords
- audio
- audio signal
- information
- rhythm
- probability
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000007794 visualization technique Methods 0.000 title claims abstract description 35
- 230000005236 sound signal Effects 0.000 claims abstract description 228
- 230000033764 rhythmic process Effects 0.000 claims abstract description 138
- 230000000007 visual effect Effects 0.000 claims abstract description 48
- 230000000694 effects Effects 0.000 claims abstract description 47
- 238000012800 visualization Methods 0.000 claims abstract description 29
- 239000000463 material Substances 0.000 claims description 84
- 230000009471 action Effects 0.000 claims description 62
- 230000008859 change Effects 0.000 claims description 33
- 230000033001 locomotion Effects 0.000 claims description 32
- 238000004590 computer program Methods 0.000 claims description 9
- 238000000605 extraction Methods 0.000 claims description 5
- 238000004091 panning Methods 0.000 claims description 2
- 238000001514 detection method Methods 0.000 description 154
- 238000012549 training Methods 0.000 description 30
- 230000006870 function Effects 0.000 description 29
- 238000003062 neural network model Methods 0.000 description 20
- 238000002372 labelling Methods 0.000 description 19
- 238000000034 method Methods 0.000 description 17
- 238000001228 spectrum Methods 0.000 description 11
- 238000013500 data storage Methods 0.000 description 8
- 239000002184 metal Substances 0.000 description 7
- 239000011435 rock Substances 0.000 description 7
- 238000010586 diagram Methods 0.000 description 6
- 230000008569 process Effects 0.000 description 6
- 230000014509 gene expression Effects 0.000 description 5
- 230000002457 bidirectional effect Effects 0.000 description 4
- 238000005457 optimization Methods 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 230000003247 decreasing effect Effects 0.000 description 2
- 230000036651 mood Effects 0.000 description 2
- 238000003672 processing method Methods 0.000 description 2
- 230000003595 spectral effect Effects 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 208000034656 Contusions Diseases 0.000 description 1
- 230000001133 acceleration Effects 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 238000011478 gradient descent method Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- APTZNLHMIGJTEW-UHFFFAOYSA-N pyraflufen-ethyl Chemical compound C1=C(Cl)C(OCC(=O)OCC)=CC(C=2C(=C(OC(F)F)N(C)N=2)Cl)=C1F APTZNLHMIGJTEW-UHFFFAOYSA-N 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/06—Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
- G10L21/10—Transforming into visible information
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Data Mining & Analysis (AREA)
- Quality & Reliability (AREA)
- Auxiliary Devices For Music (AREA)
Abstract
本公开关于一种音频可视化方法、装置、电子设备及存储介质,所述音频可视化方法包括:获取待处理的音频信号;从所述音频信号提取所述音频信号的音频风格信息和音频节奏信息;基于所述音频信号的音频风格信息和音频节奏信息,生成与所述音频信号对应的可视化音频。根据本公开的音频可视化方法、装置、电子设备及存储介质可以解决音频可视化的效果差的问题,通过可以基于音频信号的音频风格和音频节奏,生成输入音频的可视化音频,使得可视化音频更贴近人的主观感受,提高音频可视化的效果。
Description
技术领域
本公开涉及音频处理领域,尤其涉及一种音频可视化方法、装置、电子设备及存储介质。
背景技术
音频可视化,是指一种通过画面、影像来诠释音频内容的、视听结合的大众化传播方式。通过音频可视化,可以为理解、分析和比较音频作品形态的表现力和内外部结构提供直观的视觉呈现,有助于在听觉效果不佳或需要充分表达音频内容的情况下,更准确地传达音频中的信息。
在现有的音频可视化的方法中,一般是通过传统的信号处理方法对音频的频域信息进行提取,频域信息例如可以是音色的亮度、主旋律的音高变化等,然后,根据频域信息随时间的变化,生成可视化展示图像。然而,在这样的方法中,由于这样的频域信息与人的主观感受的相关度较低,仅根据这样的频域信息变化生成的展示图像不容易与人的主观感受产生共鸣,因此可能无法充分传达出音频中包含的信息,导致可视化的效果较差。
发明内容
本公开提供一种音频可视化方法、装置、电子设备及存储介质,以至少解决相关技术中仅根据频率变化生成的音频可视化的效果较差的问题。本公开的技术方案如下:
根据本公开实施例的第一方面,提供一种音频可视化方法,所述音频可视化方法包括:获取待处理的音频信号;从所述音频信号提取所述音频信号的音频风格信息和音频节奏信息;基于所述音频信号的音频风格信息和音频节奏信息,生成与所述音频信号对应的可视化音频。
可选地,基于所述音频信号的音频风格信息和音频节奏信息,生成与所述音频信号对应的可视化音频的步骤包括:基于所述音频信号的音频风格信息,生成背景影像;基于所述音频信号的音频风格信息和音频节奏信息,生成前景影像,其中,所述前景影像为动态影像;基于所述背景影像和所述前景影像,生成所述可视化音频。
可选地,基于所述音频信号的音频风格信息和音频节奏信息,生成前景影像的步骤包括:基于所述音频信号的音频风格信息,从预设的素材库中选择与所述音频风格信息匹配的素材作为前景影像素材;基于所述音频信号的音频节奏信息,确定所述前景影像素材的动态展示效果;基于所述前景影像素材和所述动态展示效果,确定与所述音频节奏信息对应的前景影像。
可选地,所述音频信号的音频节奏信息包括音频节奏概率,所述音频节奏概率表示所述音频信号中的每帧数据为节奏点的概率,其中,基于所述音频信号的音频节奏信息,确定所述前景影像素材的动态展示效果的步骤包括:基于所述音频信号中的每帧数据的音频节奏概率,确定所述前景影像素材的动作变化强度;基于所述动作变化强度,控制所述前景影像素材的动态展示效果。
可选地,基于所述音频信号中的每帧数据的音频节奏概率,确定所述前景影像素材的动作变化强度的步骤包括:根据所述音频信号中的具有最大音频节奏概率的音频帧,确定所述前景影像素材的动作变化强度中的动作切换节点,其中,所述前景影像素材在所述动作切换节点之前和所述动作切换节点之后的动作强度不同,所述前景影像素材在相邻的两个动作切换节点之间的动作强度连续变化。
可选地,所述音频节奏概率包括音频节拍概率、音频重拍概率和音频摇摆指数中的至少一个,所述音频节拍概率表示所述音频信号的每帧数据为节拍点的概率,所述音频重拍概率表示所述音频信号的每帧数据为重拍点的概率,所述音频摇摆指数表示所述音频信号的重拍和音量的关系,其中,所述动态展示效果包括亮度变化、位置移动、尺寸缩放、方向旋转和摇摆中的至少一者,其中,所述动作强度包括亮度值、位置移动的距离、尺寸、旋转角度和摇摆幅度中的至少一者。
可选地,基于所述背景影像和所述前景影像,生成所述可视化音频的步骤包括:确定所述前景影像在所述背景影像上的展示区域;将所述前景影像叠加到所述背景影像中的所述展示区域,生成所述可视化音频。
可选地,从所述音频信号提取所述音频信号的音频风格信息和音频节奏信息的步骤包括:将所述音频信号的音频特征输入到预定神经网络模型,得到所述音频信号的音频风格信息和音频节奏信息。
可选地,所述神经网络模型包括类型检测网络和节奏检测网络,所述神经网络模型通过以下方式训练:获取训练样本集,其中,所述训练样本集中包括多个样本音频信号和每个样本音频信号对应的类型标注信息和节奏标注信息;将所述样本音频信号的音频特征输入所述类型检测网络,得到所述样本音频信号属于所述预设的音频类型的类型预测概率;将所述样本音频信号的音频特征输入到所述节奏检测网络,得到所述样本音频信号中的每帧数据是节奏点的节奏预测概率;基于所述类型预测概率、所述节奏预测概率、所述类型标注信息以及所述节奏标注信息,计算目标损失函数的值;根据所述目标损失函数的值,对所述类型检测网络和所述节奏检测网络进行联合训练,得到训练完成的音频检测模型。
可选地,所述节奏预测概率通过以下方式得到:将所述类型检测网络对所述样本音频信号的音频特征执行类型预测得到的类型预测特征输入到所述节奏检测网络;基于所述节奏检测网络,对所述类型预测特征与所述样本音频信号的音频特征进行融合;基于融合的特征,得到所述样本音频信号中的每帧数据是节奏点的节奏预测概率。
可选地,所述类型检测网络包括风格分类网络和摇摆分类网络,所述节奏检测网络包括节拍检测网络和重拍检测网络,其中,所述基于融合的特征,得到所述样本音频信号中的每帧数据是节奏点的节奏预测概率,包括:将所述样本音频信号的音频特征分别输入到所述风格分类网络和所述摇摆分类网络,得到所述风格分类网络中的至少一个中间层输出的第一中间特征以及所述摇摆分类网络中的至少一个中间层输出的第二中间特征;将所述样本音频信号的音频特征和所述第一中间特征输入到所述节拍检测网络,得到所述样本音频信号中的每帧数据是节拍的节拍预测概率;将所述样本音频信号的音频特征和所述第二中间特征输入到所述重拍检测网络,得到所述样本音频信号中的每帧数据是重拍的重拍预测概率。
根据本公开实施例的第二方面,提供一种音频可视化装置,所述音频可视化装置包括:获取单元,被配置为获取待处理的音频信号;提取单元,被配置为从所述音频信号提取所述音频信号的音频风格信息和音频节奏信息;生成单元,被配置为基于所述音频信号的音频风格信息和音频节奏信息,生成与所述音频信号对应的可视化音频。
可选地,所述生成单元还被配置为:基于所述音频信号的音频风格信息,生成背景影像;基于所述音频信号的音频风格信息和音频节奏信息,生成前景影像,其中,所述前景影像为动态影像;基于所述背景影像和所述前景影像,生成所述可视化音频。
可选地,所述生成单元还被配置为:基于所述音频信号的音频风格信息,从预设的素材库中选择与所述音频风格信息匹配的素材作为前景影像素材;基于所述音频信号的音频节奏信息,确定所述前景影像素材的动态展示效果;基于所述前景影像素材和所述动态展示效果,确定与所述音频节奏信息对应的前景影像。
可选地,所述音频信号的音频节奏信息包括音频节奏概率,所述音频节奏概率表示所述音频信号中的每帧数据为节奏点的概率,其中,所述生成单元还被配置为:基于所述音频信号中的每帧数据的音频节奏概率,确定所述前景影像素材的动作变化强度;基于所述动作变化强度,控制所述前景影像素材的动态展示效果。
可选地,所述生成单元还被配置为:根据所述音频信号中的具有最大音频节奏概率的音频帧,确定所述前景影像素材的动作变化强度中的动作切换节点,其中,所述前景影像素材在所述动作切换节点之前和所述动作切换节点之后的动作强度不同,所述前景影像素材在相邻的两个动作切换节点之间的动作强度连续变化。
可选地,所述音频节奏概率包括音频节拍概率、音频重拍概率和音频摇摆指数中的至少一个,所述音频节拍概率表示所述音频信号的每帧数据为节拍点的概率,所述音频重拍概率表示所述音频信号的每帧数据为重拍点的概率,所述音频摇摆指数表示所述音频信号的重拍和音量的关系,其中,所述动态展示效果包括亮度变化、位置移动、尺寸缩放、方向旋转和摇摆中的至少一者,其中,所述动作强度包括亮度值、位置移动的距离、尺寸、旋转角度和摇摆幅度中的至少一者。
可选地,所述生成单元还被配置为:确定所述前景影像在所述背景影像上的展示区域;将所述前景影像叠加到所述背景影像中的所述展示区域,生成所述可视化音频。
可选地,所述提取单元还被配置为:将所述音频信号的音频特征输入到预定神经网络模型,得到所述音频信号的音频风格信息和音频节奏信息。
可选地,所述神经网络模型包括类型检测网络和节奏检测网络,所述神经网络模型通过以下方式训练:获取训练样本集,其中,所述训练样本集中包括多个样本音频信号和每个样本音频信号对应的类型标注信息和节奏标注信息;将所述样本音频信号的音频特征输入所述类型检测网络,得到所述样本音频信号属于所述预设的音频类型的类型预测概率;将所述样本音频信号的音频特征输入到所述节奏检测网络,得到所述样本音频信号中的每帧数据是节奏点的节奏预测概率;基于所述类型预测概率、所述节奏预测概率、所述类型标注信息以及所述节奏标注信息,计算目标损失函数的值;根据所述目标损失函数的值,对所述类型检测网络和所述节奏检测网络进行联合训练,得到训练完成的音频检测模型。
可选地,所述节奏预测概率通过以下方式得到:将所述类型检测网络对所述样本音频信号的音频特征执行类型预测得到的类型预测特征输入到所述节奏检测网络;基于所述节奏检测网络,对所述类型预测特征与所述样本音频信号的音频特征进行融合;基于融合的特征,得到所述样本音频信号中的每帧数据是节奏点的节奏预测概率。
可选地,所述类型检测网络包括风格分类网络和摇摆分类网络,所述节奏检测网络包括节拍检测网络和重拍检测网络,其中,所述基于融合的特征,得到所述样本音频信号中的每帧数据是节奏点的节奏预测概率,包括:将所述样本音频信号的音频特征分别输入到所述风格分类网络和所述摇摆分类网络,得到所述风格分类网络中的至少一个中间层输出的第一中间特征以及所述摇摆分类网络中的至少一个中间层输出的第二中间特征;将所述样本音频信号的音频特征和所述第一中间特征输入到所述节拍检测网络,得到所述样本音频信号中的每帧数据是节拍的节拍预测概率;将所述样本音频信号的音频特征和所述第二中间特征输入到所述重拍检测网络,得到所述样本音频信号中的每帧数据是重拍的重拍预测概率。
根据本公开实施例的第三方面,提供一种电子设备,所述电子设备包括:处理器;用于存储所述处理器可执行指令的存储器,其中,所述处理器被配置为执行所述指令,以实现根据本公开所述的音频可视化方法。
根据本公开实施例的第四方面,提供一种计算机可读存储介质,当所述计算机可读存储介质中的指令被至少一个处理器运行时,促使所述至少一个处理器执行根据本公开所述的音频可视化方法。
根据本公开实施例的第五方面,提供一种计算机程序产品,所述计算机程序产品包括计算机指令,所述计算机指令被处理器执行时实现根据本公开所述的音频可视化方法。
本公开的实施例提供的技术方案至少带来以下有益效果:
可以基于音频信号的音频风格和音频节奏,生成输入音频的可视化音频,使得可视化音频更贴近人的主观感受,提高音频可视化的效果。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理,并不构成对本公开的不当限定。
图1是根据现有的音频可视化方法的一示例的示意图。
图2是根据一示例性实施例示出的一种音频可视化方法的流程图。
图3是根据一示例性实施例示出的一种音频可视化方法中生成可视化音频的步骤的流程图。
图4是根据一示例性实施例示出的一种音频可视化方法中生成前景影像的步骤的流程图。
图5是根据一示例性实施例示出的一种音频可视化方法中确定前景影像素材的动态展示效果的步骤的流程图。
图6是根据一示例性实施例示出的一种音频可视化方法中的音频检测模型的示意图。
图7是根据一示例性实施例示出的一种音频可视化方法中训练音频检测模型的步骤的流程图。
图8是根据一示例性实施例示出的一种音频可视化装置的框图。
图9是根据一示例性实施例示出的一种电子设备的框图。
具体实施方式
为了使本领域普通人员更好地理解本公开的技术方案,下面将结合附图,对本公开实施例中的技术方案进行清楚、完整地描述。
需要说明的是,本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
在此需要说明的是,在本公开中出现的“若干项之中的至少一项”均表示包含“该若干项中的任意一项”、“该若干项中的任意多项的组合”、“该若干项的全体”这三类并列的情况。例如“包括A和B之中的至少一个”即包括如下三种并列的情况:(1)包括A;(2)包括B;(3)包括A和B。又例如“执行步骤一和步骤二之中的至少一个”,即表示如下三种并列的情况:(1)执行步骤一;(2)执行步骤二;(3)执行步骤一和步骤二。
如前面所述,一般来说,由于视觉的刺激比听觉的刺激更强烈,更能让人加深印象,因此,通过可视化的方式呈现音频信息,有助于理解音频的表达,特别是,对于一些仅通过听觉感受不易理解的意境高深的音乐而言,如果能通过可视化的影像表达出来,达到视听结合,则使得更加形象,更容易理解创作者所要表达的意境。
在现有的可视化方法中,如图1所示,通过传统信号处理方法得到音频的频域信息,例如音色的亮度、主旋律的音高变化等,这样的频域信息属于低维特征,其仅能表示音频的能量变化特性。例如,可以通过计算音频中不同时间点的能量平均值变化,得到随时间变化的频域信息序列,然后根据频域信息的变化,控制背景图像的亮度、移动、缩放、旋转、摇摆等视觉变化。
在这样的方法中,由于低维特征与人的主观感受相关度低,不容易与人的主观感受产生共鸣,导致可视化效果较差。
针对上述问题,本公开提供了一种音频可视化方法、音频可视化装置、电子设备、计算机可读存储介质及计算机程序产品,其能够基于音频信号的音频风格和音频节奏,生成可视化音频,使得可视化音频更贴近人的主观感受,提高音频可视化的效果。
根据本公开示例性实施例的第一方面,提供一种音频可视化方法。该音频可视化方法的实施场景包括服务器和/或用户终端,其中,用户终端的数量没有限制,其包括并不限于手机、个人计算机等设备,用户终端可以安装获取音乐的应用程序。服务器可以接收用户终端发送的音频可视化请求,对音频可视化请求所针对的音频执行音频可视化。
这里,服务端可以是指任何可以执行下面描述的音频可视化方法的执行主体,例如服务器。服务器可以包括一个独立运行的服务器,也可以是分布式服务器,或者由多个服务器组成的服务器集群,还可以是云计算平台或虚拟化中心。应用端可以是与服务端相对应的概念,其可以为用户提供本地服务,这里的应用端例如可以为终端设备,具体可包括智能手机、平板电脑、笔记本电脑、数字助理、可穿戴设备、车载终端等的实体设备,也可以包括诸如网页浏览器、虚拟机、应用程序客户端等的运行于实体设备的软体,其通过从服务端接收相应的服务信息等来为用户提供服务。
下面,将参照图2至图7详细描述根据本公开的示例性实施例的音频可视化方法。
图2是根据一示例性实施例示出的一种音频可视化方法的流程图,如图2所示,该音频可视化方法包括以下步骤:
在步骤S201中,获取待处理的音频信号。
这里,待处理的音频信号可以是诸如歌曲、乐曲等音乐形式,然而本公开不限于此,待处理的音频信号可以为任何具有节奏的音频。
在步骤S202中,从音频信号提取音频信号的音频风格信息和音频节奏信息。
这里,音频风格信息可以表征音频内容的类型特征,例如,常见的音乐类型可以包括但不限于摇滚(rock)、流行(pop)、古典(classical)、布鲁斯(blues)、雷鬼(reggae)、电子(electric)、金属(metal)、爵士(jazz)等类型。
音频节奏信息可以表征音频中的节奏特征,例如,音频节奏信息可以包括音频节拍信息、音频重拍信息和音频摇摆(swingness)信息中的至少一个。
作为示例,在步骤S202中,可以将音频信号的音频特征输入到预定神经网络模型,得到音频信号的音频风格信息和音频节奏信息。
具体来说,音频信号的音频特征例如可以是梅尔谱特征。例如,可以对待处理的原始音频信号进行短时傅里叶变换(Short-Time Fourier Transform,STFT),以将其从时域转换至时频域,然后再将时频域的音频特征转为梅尔谱特征,如此,可以将梅尔谱特征输入到预定的神经网络模型中,以得到音频信号的音频风格信息和音频节奏信息。
这里,神经网络模型可以是任何可以用于从音频信号提取音频风格信息和音频节奏信息的神经网络模型。在该模型的训练过程中,可以获取音频训练样本和与音频训练样本对应的标注信息,然后根据标注信息,确定每一帧音频特征是否为节奏帧以及该音频训练样本所属的音乐类型,这里,节奏帧可以包括节拍帧和/或重拍帧,然后可以将标注信息作为训练目标标签(target)。将音频训练样本的梅尔谱特征作为神经网络模型的输入特征为每一帧音频特征预测是否为节奏帧的概率帧以及该音频训练样本所属的音乐类型,在训练过程中,可将每一层的风格检测的信息传给节奏检测层,并通过模型预测的概率和训练目标标签计算目标损失函数,从而通过训练优化参数来降低损失函数并优化模型,最后得到每一帧音频特征的节奏检测的预测结构以及音频风格检测的预测结果。这里,基于神经网络模型对节奏和风格进行预测,可以得到音频的节奏和风格的预测概率,由于预测概率可以具有连续的取值并且可以针对每个音频帧进行预测,因此可以根据预测概率连续地或者逐帧地确定可视化音频的展示效果,使得生成的可视化音频更精细。
对此,将在下文中参考图6和图7详细描述可以用于提取音频风格信息和音频节奏信息的神经网络模型的一示例及其训练过程。
在步骤S203中,基于音频信号的音频风格信息和音频节奏信息,生成与音频信号对应的可视化音频。
这里,与音频信号对应的可视化音频可以是用于视觉地表达音频信号的内容的影像,其可以是图像、视频或二者的结合,这里的图像可以是动态图像或者是具有动态展示效果的图像。
作为示例,如图3所示,步骤S203可以包括以下步骤:
在步骤S301中,基于音频信号的音频风格信息,生成背景影像。
这里,音频风格信息例如可以为音频信号属于预定音频类型的预测概率,可以基于该预测概率确定音频信号所属的音频类型。基于该音频类型,可以从预定的背景影像库中选择与音频类型匹配的背景影像,例如,在背景影像库中的每个背景影像可标注有所匹配的音频类型,例如适合表现摇滚(rock)、流行(pop)、古典(classical)、布鲁斯(blues)、雷鬼(reggae)、电子(electric)、金属(metal)、爵士(jazz)等类型的影像。
作为示例,背景影像可以是静态图像,但其不限于此,其也可以是视频、动态图像等。
在步骤S302中,在一示例中,基于音频信号的音频风格信息和音频节奏信息,生成前景影像。
这里,前景影像可以为动态影像,例如可以为动态图像或视频等。作为示例,动态图像或视频可以通过为静态图像素材添加动态展示效果生成。
具体来说,在该示例中,如图4所示,步骤S302可以包括以下步骤:
在步骤S401中,基于音频信号的音频风格信息,从预设的素材库中选择与音频风格信息匹配的素材作为前景影像素材。
这里,前景影像素材例如可以包括静态图像、动态图像或视频,可以通过单个前景影像素材或者多个前景影像素材的组合形成前景影像。
在该步骤中,可以根据音频风格来从预设的素材库中选择前景影像素材,例如素材库中的前景影像素材可以标注有所匹配的音频类型,例如适合表现摇滚(rock)、流行(pop)、古典(classical)、布鲁斯(blues)、雷鬼(reggae)、电子(electric)、金属(metal)、爵士(jazz)等类型的影像。需要说明的是,前景影像素材的素材库与上面描述的背景影像素材的素材库可以不同或者至少部分相同。
在步骤S402中,基于音频信号的音频节奏信息,确定前景影像素材的动态展示效果。
作为示例,音频信号的音频节奏信息可以包括音频节奏概率,音频节奏概率表示音频信号中的每帧数据为节奏点的概率,这里,音频节奏概率例如可以通过上面提到的神经网络模型输出。
这里,动态展示效果可以是通过作为静态图像或者视频的前景影像素材的运动形成,或者通过作为动态图像或视频的前景影像素材本身形成。例如,动态展示效果可以包括影像的亮度变化、位置移动、尺寸缩放、方向旋转和摇摆中的至少一者。
在该示例中,如图5所示,步骤S402可以包括以下步骤:在步骤S501中,基于音频信号中的每帧数据的音频节奏概率,确定前景影像素材的动作变化强度;在步骤S502中,基于动作变化强度,控制前景影像素材的动态展示效果。
具体来说,在步骤S501中,可以根据音频信号中的具有最大音频节奏概率的音频帧,确定前景影像素材的动作变化强度中的动作切换节点。
前景影像素材在动作切换节点之前和动作切换节点之后的动作强度可以不同,前景影像素材在相邻的两个动作切换节点之间的动作强度可以连续变化。这里,动作强度可以表征前景影响素材的动态表达的程度,或者说对视觉的冲击程度,在动作强度较强时,人的主观感受到的视觉冲击更强烈;在动作强度较弱时,人的主观感受到的视觉冲击更弱。如此,可以在音频节奏点之间,前景影像素材的动作强度连续变化;在音频节奏点处,前景影像素材的动作强度突变,通过这种动作强度的改变,可以直观地呈现节奏点的时刻,使得可以从视觉上看到音频的节奏点,有助于提高听觉的理解。
作为示例,动作强度可以包括亮度值、位置移动的距离、尺寸、旋转角度和摇摆幅度中的至少一者。
如上面所述,音频节奏信息可以包括音频节拍信息、音频重拍信息和音频摇摆信息中的至少一个,相应地,该步骤中所述的音频节奏概率可以包括音频节拍概率、音频重拍概率和音频摇摆指数中的至少一个,其中,音频节拍概率表示音频信号的每帧数据为节拍点的概率,音频重拍概率表示音频信号的每帧数据为重拍点的概率,音频摇摆指数表示音频信号的重拍和音量的关系。
在得到音频节拍概率、音频重拍概率和音乐摇摆指数后,可以通过音频节拍概率、音频重拍概率和音乐摇摆指数控制前景影像素材的图层变化,例如影像的亮度、移动、缩放、旋转、摇摆等变化,从而可以实现前景影像随着节奏按照通过音频节拍概率、音频重拍概率和音频摇摆指数定义的不同动作强度产生变化。如此,通过动态的前景影像和与音乐风格吻合的背景影像的配搭,可以达到与音频契合的可视化音频展示效果。
具体来说,可以设置音频节拍概率、音频重拍概率和音频摇摆指数与动作强度的对应关系,例如可以预设音频节拍概率、音频重拍概率和音频摇摆指数与动作强度之间的函数关系,从而确定在音频信号中的每一音频帧的时间处前景影像的动作强度,例如确定前景影像的在每一音频帧处的亮度值、位置移动的距离、影像尺寸、旋转角度和摇摆幅度。
作为示例,动作切换节点可以包括亮度切换节点、移动切换节点、缩放节点、旋转切换节点和摇摆节点中的至少一个,可以通过以下方式确定前景影像素材的动作切换节点:
在动态展示效果包括影像的亮度变化的情况下,可以基于音频节拍和/或重拍信息,将前景影像素材的亮度切换节点确定在音频的节拍和/或重拍时刻,其中,前景影像素材的亮度在亮度切换节点达到最大值,前景影像素材的亮度在相邻的两个亮度切换节点之间逐渐变大或逐渐变小或者不改变;和/或
在动态展示效果包括影像的位置移动的情况下,可以基于音频节拍和/或重拍信息,将前景影像素材的移动切换节点确定在音频的节拍和/或重拍时刻,其中,前景影像素材在移动切换节点之前和移动切换节点之后的运动方向不同或者位置不同,前景影像素材在相邻的两个移动切换节点之间的运动方向或者位置可以相同,运动速度或者运动加速度可以是不变的;和/或
在动态展示效果包括影像的尺寸缩放的情况下,可以基于音频节拍和/或重拍信息,将前景影像素材的缩放节点确定在音频的节拍和/或重拍时刻,其中,前景影像素材在缩放节点之前和在缩放节点之后的尺寸不同,前景影像素材在相邻的两个缩放节点之间的尺寸可以逐渐变大或逐渐变小或者不改变;和/或
在动态展示效果包括影像的方向旋转的情况下,可以基于音频节拍和/或重拍信息,将前景影像素材的旋转切换节点确定在音频的节拍和/或重拍时刻,其中,前景影像素材在旋转切换节点之前和旋转切换节点之后的旋转方向不同或者旋转速度不同,前景影像素材在相邻的两个旋转切换节点之间的旋转方向或者旋转速度可以是不变的;和/或
在动态展示效果包括影像的摇摆的情况下,可以基于音频摇摆信息,将前景影像素材的摇摆节点确定在音频的重拍与音量的强弱相反的时刻,其中,前景影像素材在摇摆节点之前和摇摆节点之后的运动方向或速度不同,前景影像素材在相邻的两个摇摆节点之间的运动方向或速度可以是不变的。
这里,根据本公开的示例性实施例,可以基于音频信号的音频风格信息和音频节奏信息二者生成前景影像,使得前景影像可以在直观地表达出音频的节奏而与人的听觉形成呼应的同时,还能与音频的整体风格搭配,确保前景影像与背景影像的风格统一,提高整体展示效果。
尽管上面描述了基于音频信号的音频风格信息和音频节奏信息二者生成前景影像的示例,然而本公开的示例性实施例不限于此,在另一示例中,在步骤S401中,可以不考虑音频风格信息,而基于音频信号的音频节奏信息一者,生成前景影像。
具体来说,前景影像素材可以是任意指定或选取的,其可以不匹配于音频信号的音乐风格,例如,其可以是动态示波图、动态柱状图等,在此情况下,可以根据上面示例中所述的方式,基于音频节奏信息确定前景影像素材的动态展示效果。
返回图3,在步骤S303中,基于前景影像素材和动态展示效果,确定与音频节奏信息对应的前景影像。
基于确定的前景图像素材以及其动态展示效果,可以通过将动态展示效果应用于前景图像素材来生成与音频节奏信息对应的前景影像。
这里,需要说明的是,可以针对同一个前景影像素材确定上述动作切换节点中的一个或多个,例如,同一个前景影像素材的动态展示效果可以提供给亮度改变、位置移动和摇摆等多个动作合成,因此,可为该前景影像素材设置亮度切换节点、移动切换节点和摇摆节点等。
在步骤S203中,基于背景影像和前景影像,生成可视化音频。
在该步骤中,可以通过将背景影像和前景影像组合生成与音频信号对应的可视化音频。
作为示例,可以先确定前景影像在背景影像上的展示区域,然后将前景影像叠加到背景影像中的展示区域,从而生成可视化音频。
具体来说,可以根据背景影像的图案和/或尺寸,确定可以放置前景影像的展示区域,并将前景影像的尺寸设置为适合于在该展示区域进行展示的尺寸,然后可以将背景影像的图层与前景影像的图层相叠加,生成最终的可视化音频展示影像。如此,可以确保前景影像与背景影像较好地融合,不会出现前景影像遮挡背景影像的需要暴露的内容的情况。
根据本公开的示例性实施例的音频可视化方法可以通过提取音频的风格信息和节奏信息获得更贴近人主观感受的风格和节奏的高维度音频特征,从而可以提高可视化音频展示的效果。
此外,根据本公开的示例性实施例的音频可视化方法可以基于风格和节奏这些高维度音频特征,基于一部分特征(例如,风格特征),生成可视化音频的背景影像;基于另一部分特征(例如,节奏特征)或者基于风格特征和节奏特征二者,生成可视化音频的前景影像,最后将前景影像和背景影像结合组成最终的可视化音频进行输出,使得无论是可视化音频的主体风格还是动态展示方式都与音频相适配,进一步提高可视化音频的效果。
下面将结合图6和图7详细描述可以用于提取音频风格信息和音频节奏信息的神经网络模型的一示例及其训练过程。
如图6所示,神经网络模型包括节拍检测网络、重拍检测网络、风格分类网络以及摇摆(Swingness)分类网络,如图7所示,该神经网络模型的训练方法可以包括以下步骤:
在步骤S701中,获取训练样本集,其中,训练样本集中包括多个样本音频信号和每个样本音频信号对应的类型标注信息和节奏标注信息。作为示例,节奏标注信息可以包括节拍标注信息和重拍标注信息,类型标注信息可以风格分类标注信息和摇摆指数标注信息。上述每个样本音频信号对应的节拍标注信息、重拍标注信息、风格分类标注信息和摇摆指数标注信息可以是人工标注的,也可以是通过其他标注方式,本公开对此不作限制。
在步骤S702中,将样本音频信号的音频特征输入类型检测网络,得到样本音频信号属于预设的音频类型的类型预测概率。
在步骤S703中,将样本音频信号的音频特征输入到节奏检测网络,得到样本音频信号中的每帧数据是节奏点的节奏预测概率。
作为示例,节奏预测概率可以通过以下方式得到:将类型检测网络对样本音频信号的音频特征执行类型预测得到的类型预测特征输入到节奏检测网络;基于节奏检测网络,对类型预测特征与样本音频信号的音频特征进行融合;基于融合的特征,得到样本音频信号中的每帧数据是节奏点的节奏预测概率。
这里,基于融合的特征,得到样本音频信号中的每帧数据是节奏点的节奏预测概率的步骤可以包括:将样本音频信号的音频特征分别输入到风格分类网络和摇摆分类网络,得到风格分类网络中的至少一个中间层输出的第一中间特征以及摇摆分类网络中的至少一个中间层输出的第二中间特征;将样本音频信号的音频特征和第一中间特征输入到节拍检测网络,得到样本音频信号中的每帧数据是节拍的节拍预测概率;将样本音频信号的音频特征和第二中间特征输入到重拍检测网络,得到样本音频信号中的每帧数据是重拍的重拍预测概率。
下面将结合图6对步骤S702和S703进行详细描述。
作为示例,在上述步骤S702和S703中,类型检测网络可以包括风格分类网络和摇摆分类网络,节奏检测网络可以包括节拍检测网络和重拍检测网络。
具体来说,如图6所示,一方面,可以将样本音频信号的音频特征输入节拍检测网络,得到样本音频信号中每帧数据的节拍点预测概率,将样本音频信号的音频特征输入风格分类网络,得到样本音频信号的风格预测概率,其中,节拍点预测概率表示音频信号中每帧数据是节拍点的预测概率,风格预测概率表示对样本音频信号的音乐类型的预测概率。例如,上述获取音频信号的梅尔谱特征可以通过如下方式获取:
1)将原始音频信号通过短时傅里叶变换转到时频域。若长度为T的原始音频信号x在时域上为x(t),其中t代表时间,0<t≤T,则经过短时傅里叶变换后,x(t)在时频域可表示为:
X(n,k)=STFT(x(t)) (1)
其中,n为帧序列,0<n≤Ns,(Ns为总帧数);k为中心频率序列,0<k≤K;(K为总频点数)。
2)计算梅尔谱特征(即上述音频特征)可通过如下公式实现:
M(n,k)=Mel(X(n,k′)) (2)
其中,k′为梅尔谱映射后的频率序列。
在得到梅尔谱特征后,可以将得到的梅尔谱特征输入节拍检测网络和风格分类网络中,得到每一帧数据对应是否为节拍点的概率,具体可以表示如下:
P(n)=Model(M(n,k)) (3)
由于风格分类网络用于获取样本音频信号的音乐类型,因此步骤S702还可以包括:将样本音频信号的音频特征输入到风格分类网络,得到风格分类网络中的至少一个中间层输出的第一中间特征;将样本音频信号的音频特征和第一中间特征输入到节拍检测网络。通过本实施例,将风格分类信息作为特征输入到节拍检测网络,提升了网络的学习能力和识别能力,以及模型的检测准确性。例如,将音频信号先通过一个音频风格分类网络,常见的音乐类型有:rock、pop、classical、blues、reggae、electric、metal、jazz等,不同的风格会对应着不同的鼓点特征,形成一种该风格特定的节奏感,将风格信息发给节拍检测网络会在一定程度上提升节拍的检测准确率。上述第一中间特征可以是如下图6所示的风格分类网络中卷积层(Convolutional Neural Networks,缩写为CNN)的输出特征。
根据本公开的示例性实施例,将样本音频信号的音频特征和第一中间特征输入到节拍检测网络,可以包括:将样本音频信号的音频特征输入到节拍检测网络的输入层;针对节拍检测网络中的至少一个中间层的每个中间层,将当前中间层输出的第三全局特征和风格分类网络中与当前中间层对应的中间层输出的第一中间特征进行拼接,得到第二拼接全局特征,并将第二拼接全局特征输入到当前中间层的下一中间层。通过本实施例,将风格分类网络的中间层输出作为节拍检测网络作为中间层的输入,引入到节拍检测中,可以得到正确率较高的节拍检测检测结果。上述第三全局特征可以是如图6所示的节拍检测网络中双向长短期记忆层(Bilateral Long Short-Term Memory,缩写为BLSTM)的输出特征。上述第二拼接全局特征可以是如图6所示的节拍检测网络中拼接层CONCAT的输出特征。
如图6所示,另一方面,可以将样本音频信号的音频特征输入到重拍检测网络,得到音频信号中每帧数据的重拍点预测概率,将样本音频信号的音频特征输入到摇摆分类网络,得到音频信号的摇摆预测概率,其中,重拍点预测概率表示音频信号中每帧数据是重拍点的预测率,摇摆预测概率表示样本音频信号的重拍和音量的关系的预测概率。
根据本公开的示例性实施例,将样本音频信号的音频特征输入节拍检测网络,得到音频信号中每帧数据的节拍点预测概率,包括:将样本音频信号的音频特征输入节拍检测网络,得到节拍检测网络的至少一个中间层输出的全局特征以及样本音频信号中每帧数据的节拍点预测概率;其中,将样本音频信号的音频特征输入到重拍检测网络,可以包括:将样本音频信号的音频特征和全局特征输入到所述重拍检测网络,得到样本音频信号中每帧数据的重拍点预测概率。作为示例,如图6所示,节拍检测网络和重拍检测网络均可以由一层卷积层和两层双向长短期记忆层组成,二者可用相同的层,将节拍检测网络的每一层双向长短期记忆层的结果与重拍检测网络对应层的输出进行串联,传递给重拍检测网络的下一层,这样重拍检测可以包含节拍信息,从而可以进一步提高模型的准确率。通过本实施例,节拍检测网络的中间层输出的信息引入重拍检测网络,也即将节拍信息加入了重拍检测网络中,可减少重拍检测的失误率,进一步的提高了重拍检测正确率。
根据本公开的示例性实施例,将样本音频信号的音频特征和全局特征输入到重拍检测网络,可以包括:将样本音频信号的音频特征输入到重拍检测网络的输入层;针对重拍检测网络的至少一个中间层的每个中间层,将当前中间层输出的第一全局特征和节拍检测网络中与当前中间层对应的中间层输出的第二全局特征进行拼接,得到第一拼接全局特征,并将第一拼接全局特征输入到当前中间层的下一中间层。通过本实施例,将节拍检测网络的中间层输出作为重拍检测网络作为中间层的输入,引入到重拍检测中,可以得到正确率较高的重拍检测结果。
例如,在一种实现中,神经网络可以由一层卷积层(Convolutional NeuralNetworks,缩写为CNN)还有两层双向长短期记忆层(Bilateral Long Short-Term Memory,缩写为BLSTM)组成,节拍检测网络和重拍检测网络可用相同的网络,将节拍检测网络每一层BLSM的输出结果与重拍检测网络对应BLSTM层的输出进行串联,传给下一层,这样重拍检测就包含了节拍信息,可以进一步提高模型的准确率。需要说明的是,上述第一全局特征可以是重拍检测网络中BLSTM层输出的特征,上述第二全局特征可以是节拍检测网络中BLSTM层输出的特征,上述第一拼接全局特征可以是重拍检测网络中拼接层CONCAT输出的特征。
由于摇摆分类网络可以用于获取样本音频信号的重拍和音量的关系,因此步骤S603还可以包括:将样本音频信号的音频特征输入到摇摆分类网络,得到摇摆分类网络中的至少一个中间层输出的第二中间特征;将样本音频信号的音频特征、全局特征和第二中间特征输入到重拍检测网络。通过本实施例,将摇摆分类信息作为特征输入到节拍检测网络,提升了网络的学习能力和识别能力,减少了混淆,提升了模型的检测准确性。例如,除了上述风格分类网络以外,还可以让音乐再通过一个摇摆(swing)检测网络,swing的音乐通常会给人听感上的音量强弱感与实际强弱拍是反着的,也就是说重拍通常音量都会比较弱,而非重拍反而在音量上要高于重拍,因此会形成一种摇摆的感觉,此网络有助于重拍检测网络识别重拍,减少混淆。上述第二中间特征可以是如图6所示的摇摆分类网络中卷积层(Convolutional Neural Networks,缩写为CNN)的输出特征。
根据本公开的示例性实施例,将样本音频信号的音频特征、全局特征和第二中间特征输入到重拍检测网络,可以包括:将样本音频信号的音频特征输入到重拍检测网络的输入层;针对重拍检测网络的至少一个中间层的每个中间层,将当前中间层输出的第四全局特征、摇摆分类网络中与当前中间层对应的中间层输出的第二中间特征和节拍检测网络中与当前中间层对应的中间层输出的第五全局特征进行拼接,得到第三拼接全局特征,并将第三拼接全局特征输入到当前中间层的下一中间层。通过本实施例,将摇摆分类网络的中间层输出作为重拍检测网络作为中间层的输入,引入到重拍检测中,可以得到正确率较高的重拍检测检测结果。上述第四全局特征可以是如图6所示的重拍检测网络中BLSTM的输出特征,上述第五全局特征可以是如图6所示的节拍检测网络中BLSTM的输出特征,上述第三拼接全局特征可以是如图6所示的重拍检测网络中拼接层CONCAT的输出特征。
在步骤S704中,基于类型预测概率、节奏预测概率、类型标注信息以及节奏标注信息,计算目标损失函数的值。
作为示例,类型预测概率可以包括风格预测概率和摇摆预测概率,节奏预测概率可以包括节拍点预测概率和重拍点预测概率。
在步骤S704中,可以基于节拍点预测概率、重拍点预测概率、风格预测概率和摇摆预测概率以及对应的节拍标注信息、重拍标注信息、风格分类标注信息和摇摆指数标注信息,计算目标损失函数的值。
根据本公开的示例性实施例,基于节拍点预测概率、重拍点预测概率、风格预测概率和摇摆预测概率以及对应的节拍标注信息、重拍标注信息、风格分类标注信息和摇摆指数标注信息,确定目标损失函数,可以包括:基于节拍点预测概率和对应的节拍标注信息,计算第一目标损失函数的值;基于重拍点预测概率和对应的重拍标注信息,计算第二目标损失函数的值;基于风格预测概率和对应的风格分类标注信息,计算第三目标损失函数的值;基于摇摆预测概率和对应的摇摆指数标注信息,计算第四目标损失函数的值;将第一目标损失函数的值、第二目标损失函数的值、第三目标损失函数的值和第四目标损失函数的值相加,得到目标损失函数的值。通过本实施例,可以将节拍检测、重拍检测、风格分类、摇摆分类的四个损失函数结合在一起来共同训练模型,以得到更好的训练结果。
例如,可以通过两个网络分别得到的节拍点预测概率P1(n)、重拍点预测概率P2(n)、风格预测概率P1(n)、摇摆预测概率P2(n)和节拍标注信息B1(n)、重拍标注信息B2(n)、风格分类标注信息B3(n)和摇摆指数标注信息B4(n),将两个相加计算最终的目标损失函数l(n):
l1(n)=Loss(P1(n),B1(n)) (4)
l2(n)=Loss(P2(n),B2(n)) (5)
l3(n)=Loss(P3(n),B3(n)) (6)
l4(n)=Loss(P4(n),B4(n)) (7)
l(n)=l1(n)+l2(n)+l3(n)+l4(n) (8)
其中,Loss损失函数可以为加权交叉熵损失(weighted cross entropy)函数。
如此,根据本公开的示例性实施例,可以在节奏检测和重拍检测基础上,音乐风格分类标注信息和音乐摇摆指数标注信息进行联合训练,从而提高模型预测的准确率。
在步骤S705中,根据目标损失函数的值,对类型检测网络和节奏检测网络进行联合训练,得到训练完成的音频检测模型。
在类型检测网络包括风格分类网络和摇摆分类网络、节奏检测网络包括节拍检测网络和重拍检测网络的情况下,在步骤S705中,可以根据目标损失函数的值,对节拍检测网络、重拍检测网络、风格分类网络和摇摆分类网络进行联合训练,得到训练完成的节拍重拍联合检测模型。这里,可以通过随机梯度下降法来减小损失函数更新模型对应的参数,利用自适应矩估计(Adaptive moment estimation,缩写Adam)优化来加速模型训练迭代更新。
在本公开中,可以在模型的训练中将节拍检测、重拍检测、风格分类、摇摆分类进行联合训练,首先从原始音频信号中提取用于节拍和重拍检测的特征,即将原始音频信号进行STFT,从时域转换至时频域,转为梅尔谱特征,具体的过程在上面已经论述过,此处不再展开论述。其次,得到梅尔谱特征后,将梅尔谱特征作为节拍检测网络和重拍检测网络的输入特征,来预测每一帧数据是否为节拍以及重拍的概率,同时,将梅尔谱特征作为音频风格分类网络和音频Swingness分类网络的输入特征,来预测每一帧数据是否为音频风格以及音频Swingness。在训练过程中可以将音频风格分类网络每一层CNN的输出信息依次输入到节拍检测网络中对应层,与相应的BLSTM输出进行拼接,以及可以将音频Swingness分类网络每一层CNN的输出信息和每一层BLSTM的节拍检测的信息传给对应的重拍检测层,通过模型输出的节拍点预测概率、重拍点预测概率、风格预测概率和摇摆预测概率以及对应的节拍标注信息、重拍标注信息、风格分类标注信息和摇摆指数标注信息计算目标损失函数。通过训练优化模型的参数来降低损失函数并优化模型,最后得到节拍检测、重拍检测、风格分类和摇摆分类的预测结果。
如图6所示,基于得到节拍预测结果、重拍预测结果、风格预测结果和摇摆预测结果,如上文中在步骤203中所述,一方面,可以基于风格预测结果确定背景影像,另一方面,可以基于重拍预测结果、风格预测结果和摇摆预测结果生成动态的前景影像,例如可以控制前景影像素材的亮度、移动、缩放、旋转和摇摆等,最后,可以将前景影像与背景影像通过图层叠加,生成最终的可视化音频的影像。
图8是根据一示例性实施例示出的一种音频可视化装置的框图。参照图5,该音频可视化装置可以包括获取单元100、提取单元200和生成单元300。
获取单元100被配置为获取待处理的音频信号;
提取单元200被配置为从音频信号提取音频信号的音频风格信息和音频节奏信息;
生成单元300被配置为基于音频信号的音频风格信息和音频节奏信息,生成与音频信号对应的可视化音频。
根据本公开的示例性实施例,生成单元300还被配置为:基于音频信号的音频风格信息,生成背景影像;基于音频信号的音频风格信息和音频节奏信息,生成前景影像,其中,前景影像为动态影像;基于背景影像和前景影像,生成可视化音频。
根据本公开的示例性实施例,生成单元300还被配置为:基于音频信号的音频风格信息,从预设的素材库中选择与音频风格信息匹配的素材作为前景影像素材;基于音频信号的音频节奏信息,确定前景影像素材的动态展示效果;基于前景影像素材和动态展示效果,确定与音频节奏信息对应的前景影像。
根据本公开的示例性实施例,音频信号的音频节奏信息包括音频节奏概率,音频节奏概率表示音频信号中的每帧数据为节奏点的概率,其中,生成单元300还被配置为:基于音频信号中的每帧数据的音频节奏概率,确定前景影像素材的动作变化强度;基于动作变化强度,控制前景影像素材的动态展示效果。
根据本公开的示例性实施例,生成单元300还被配置为:根据音频信号中的具有最大音频节奏概率的音频帧,确定前景影像素材的动作变化强度中的动作切换节点,其中,前景影像素材在动作切换节点之前和动作切换节点之后的动作强度不同,前景影像素材在相邻的两个动作切换节点之间的动作强度连续变化。
根据本公开的示例性实施例,音频节奏概率包括音频节拍概率、音频重拍概率和音频摇摆指数中的至少一个,音频节拍概率表示音频信号的每帧数据为节拍点的概率,音频重拍概率表示音频信号的每帧数据为重拍点的概率,音频摇摆指数表示音频信号的重拍和音量的关系,其中,动态展示效果包括亮度变化、位置移动、尺寸缩放、方向旋转和摇摆中的至少一者,其中,动作强度包括亮度值、位置移动的距离、尺寸、旋转角度和摇摆幅度中的至少一者。
根据本公开的示例性实施例,生成单元300还被配置为:确定前景影像在背景影像上的展示区域;将前景影像叠加到背景影像中的展示区域,生成可视化音频。
根据本公开的示例性实施例,提取单元200还被配置为:将音频信号的音频特征输入到预定神经网络模型,得到音频信号的音频风格信息和音频节奏信息。
根据本公开的示例性实施例,神经网络模型包括类型检测网络和节奏检测网络,神经网络模型通过以下方式训练:获取训练样本集,其中,训练样本集中包括多个样本音频信号和每个样本音频信号对应的类型标注信息和节奏标注信息;将样本音频信号的音频特征输入类型检测网络,得到样本音频信号属于预设的音频类型的类型预测概率;将样本音频信号的音频特征输入到节奏检测网络,得到样本音频信号中的每帧数据是节奏点的节奏预测概率;基于类型预测概率、节奏预测概率、类型标注信息以及节奏标注信息,计算目标损失函数的值;根据目标损失函数的值,对类型检测网络和节奏检测网络进行联合训练,得到训练完成的音频检测模型。
根据本公开的示例性实施例,节奏预测概率通过以下方式得到:将类型检测网络对样本音频信号的音频特征执行类型预测得到的类型预测特征输入到节奏检测网络;基于节奏检测网络,对类型预测特征与样本音频信号的音频特征进行融合;基于融合的特征,得到样本音频信号中的每帧数据是节奏点的节奏预测概率。
根据本公开的示例性实施例,类型检测网络包括风格分类网络和摇摆分类网络,节奏检测网络包括节拍检测网络和重拍检测网络,其中,基于融合的特征,得到样本音频信号中的每帧数据是节奏点的节奏预测概率,包括:将样本音频信号的音频特征分别输入到风格分类网络和摇摆分类网络,得到风格分类网络中的至少一个中间层输出的第一中间特征以及摇摆分类网络中的至少一个中间层输出的第二中间特征;将样本音频信号的音频特征和第一中间特征输入到节拍检测网络,得到样本音频信号中的每帧数据是节拍的节拍预测概率;将样本音频信号的音频特征和第二中间特征输入到重拍检测网络,得到样本音频信号中的每帧数据是重拍的重拍预测概率。
根据本公开的实施例,可提供一种电子设备。图9是根据本公开实施例的一种电子设备1000的框图,该电子设备包括至少一个存储器1001和至少一个处理器1002,所述至少一个存储器中存储有计算机可执行指令集合,当计算机可执行指令集合被至少一个处理器执行时,执行根据本公开实施例的音频可视化方法。
作为示例,电子设备1000可以是PC计算机、平板装置、个人数字助理、智能手机、或其他能够执行上述指令集合的装置。这里,电子设备1000并非必须是单个的电子设备,还可以是任何能够单独或联合执行上述指令(或指令集)的装置或电路的集合体。电子设备1000还可以是集成控制系统或系统管理器的一部分,或者可被配置为与本地或远程(例如,经由无线传输)以接口互联的便携式电子设备。
在电子设备1000中,处理器1002可包括中央处理器(CPU)、图形处理器(GPU)、可编程逻辑装置、专用处理器系统、微控制器或微处理器。作为示例而非限制,处理器1002还可包括模拟处理器、数字处理器、微处理器、多核处理器、处理器阵列、网络处理器等。
处理器1002可运行存储在存储器中的指令或代码,其中,存储器1001还可以存储数据。指令和数据还可经由网络接口装置而通过网络被发送和接收,其中,网络接口装置可采用任何已知的传输协议。
存储器1001可与处理器1002集成为一体,例如,将RAM或闪存布置在集成电路微处理器等之内。此外,存储器1001可包括独立的装置,诸如,外部盘驱动、存储阵列或任何数据库系统可使用的其他存储装置。存储器1001和处理器1002可在操作上进行耦合,或者可例如通过I/O端口、网络连接等互相通信,使得处理器1002能够读取存储在存储器1001中的文件。
此外,电子设备1000还可包括视频显示器(诸如,液晶显示器)和用户交互接口(诸如,键盘、鼠标、触摸输入装置等)。电子设备的所有组件可经由总线和/或网络而彼此连接。
根据本公开的实施例,还可提供一种计算机可读存储介质,其中,当计算机可读存储介质中的指令被至少一个处理器运行时,促使至少一个处理器执行本公开实施例的音频可视化方法。这里的计算机可读存储介质的示例包括:只读存储器(ROM)、随机存取可编程只读存储器(PROM)、电可擦除可编程只读存储器(EEPROM)、随机存取存储器(RAM)、动态随机存取存储器(DRAM)、静态随机存取存储器(SRAM)、闪存、非易失性存储器、CD-ROM、CD-R、CD+R、CD-RW、CD+RW、DVD-ROM、DVD-R、DVD+R、DVD-RW、DVD+RW、DVD-RAM、BD-ROM、BD-R、BD-RLTH、BD-RE、蓝光或光盘存储器、硬盘驱动器(HDD)、固态硬盘(SSD)、卡式存储器(诸如,多媒体卡、安全数字(SD)卡或极速数字(XD)卡)、磁带、软盘、磁光数据存储装置、光学数据存储装置、硬盘、固态盘以及任何其他装置,所述任何其他装置被配置为以非暂时性方式存储计算机程序以及任何相关联的数据、数据文件和数据结构并将所述计算机程序以及任何相关联的数据、数据文件和数据结构提供给处理器或计算机使得处理器或计算机能执行所述计算机程序。上述计算机可读存储介质中的计算机程序可在诸如客户端、主机、代理装置、服务器等计算机设备中部署的环境中运行,此外,在一个示例中,计算机程序以及任何相关联的数据、数据文件和数据结构分布在联网的计算机系统上,使得计算机程序以及任何相关联的数据、数据文件和数据结构通过一个或多个处理器或计算机以分布式方式存储、访问和执行。
根据本公开实施例,提供了一种计算机程序产品,包括计算机指令,计算机指令被处理器执行时实现本公开实施例的音频可视化方法。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。
Claims (10)
1.一种音频可视化方法,其特征在于,所述音频可视化方法包括:
获取待处理的音频信号;
从所述音频信号提取所述音频信号的音频风格信息和音频节奏信息;
基于所述音频信号的音频风格信息和音频节奏信息,生成与所述音频信号对应的可视化音频。
2.根据权利要求1所述的音频可视化方法,其特征在于,基于所述音频信号的音频风格信息和音频节奏信息,生成与所述音频信号对应的可视化音频的步骤包括:
基于所述音频信号的音频风格信息,生成背景影像;
基于所述音频信号的音频风格信息和音频节奏信息,生成前景影像,其中,所述前景影像为动态影像;
基于所述背景影像和所述前景影像,生成所述可视化音频。
3.根据权利要求2所述的音频可视化方法,其特征在于,基于所述音频信号的音频风格信息和音频节奏信息,生成前景影像的步骤包括:
基于所述音频信号的音频风格信息,从预设的素材库中选择与所述音频风格信息匹配的素材作为前景影像素材;
基于所述音频信号的音频节奏信息,确定所述前景影像素材的动态展示效果;
基于所述前景影像素材和所述动态展示效果,确定与所述音频节奏信息对应的前景影像。
4.根据权利要求3所述的音频可视化方法,其特征在于,所述音频信号的音频节奏信息包括音频节奏概率,所述音频节奏概率表示所述音频信号中的每帧数据为节奏点的概率,
其中,基于所述音频信号的音频节奏信息,确定所述前景影像素材的动态展示效果的步骤包括:
基于所述音频信号中的每帧数据的音频节奏概率,确定所述前景影像素材的动作变化强度;
基于所述动作变化强度,控制所述前景影像素材的动态展示效果。
5.根据权利要求4所述的音频可视化方法,其特征在于,基于所述音频信号中的每帧数据的音频节奏概率,确定所述前景影像素材的动作变化强度的步骤包括:
根据所述音频信号中的具有最大音频节奏概率的音频帧,确定所述前景影像素材的动作变化强度中的动作切换节点,
其中,所述前景影像素材在所述动作切换节点之前和所述动作切换节点之后的动作强度不同,所述前景影像素材在相邻的两个动作切换节点之间的动作强度连续变化。
6.根据权利要求5所述的音频可视化方法,其特征在于,所述音频节奏概率包括音频节拍概率、音频重拍概率和音频摇摆指数中的至少一个,所述音频节拍概率表示所述音频信号的每帧数据为节拍点的概率,所述音频重拍概率表示所述音频信号的每帧数据为重拍点的概率,所述音频摇摆指数表示所述音频信号的重拍和音量的关系,
其中,所述动态展示效果包括亮度变化、位置移动、尺寸缩放、方向旋转和摇摆中的至少一者,
其中,所述动作强度包括亮度值、位置移动的距离、尺寸、旋转角度和摇摆幅度中的至少一者。
7.一种音频可视化装置,其特征在于,所述音频可视化装置包括:
获取单元,被配置为获取待处理的音频信号;
提取单元,被配置为从所述音频信号提取所述音频信号的音频风格信息和音频节奏信息;
生成单元,被配置为基于所述音频信号的音频风格信息和音频节奏信息,生成与所述音频信号对应的可视化音频。
8.一种电子设备,其特征在于,所述电子设备包括:
处理器;
用于存储所述处理器可执行指令的存储器,
其中,所述处理器被配置为执行所述指令,以实现根据权利要求1至6中任一项所述的音频可视化方法。
9.一种计算机可读存储介质,其特征在于,当所述计算机可读存储介质中的指令被至少一个处理器运行时,促使所述至少一个处理器执行根据权利要求1至6中任一项所述的音频可视化方法。
10.一种计算机程序产品,包括计算机指令,其特征在于,所述计算机指令被处理器执行时实现根据权利要求1至6中任一项所述的音频可视化方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210697255.2A CN115083432A (zh) | 2022-06-20 | 2022-06-20 | 音频可视化方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210697255.2A CN115083432A (zh) | 2022-06-20 | 2022-06-20 | 音频可视化方法、装置、电子设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115083432A true CN115083432A (zh) | 2022-09-20 |
Family
ID=83253325
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210697255.2A Pending CN115083432A (zh) | 2022-06-20 | 2022-06-20 | 音频可视化方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115083432A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116778951A (zh) * | 2023-05-25 | 2023-09-19 | 上海蜜度信息技术有限公司 | 一种基于图增强的音频分类方法、装置、设备及介质 |
-
2022
- 2022-06-20 CN CN202210697255.2A patent/CN115083432A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116778951A (zh) * | 2023-05-25 | 2023-09-19 | 上海蜜度信息技术有限公司 | 一种基于图增强的音频分类方法、装置、设备及介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109543064B (zh) | 歌词显示处理方法、装置、电子设备及计算机存储介质 | |
CN110853618B (zh) | 一种语种识别的方法、模型训练的方法、装置及设备 | |
US20190147051A1 (en) | Intelligent playing method and apparatus based on preference feedback | |
WO2020113733A1 (zh) | 动画生成方法、装置、电子设备及计算机可读存储介质 | |
US11511200B2 (en) | Game playing method and system based on a multimedia file | |
CN104395953A (zh) | 来自音乐音频信号的拍子、和弦和强拍的评估 | |
JP2021099536A (ja) | 情報処理方法、情報処理装置およびプログラム | |
CN111081272A (zh) | 歌曲高潮片段识别方法及装置 | |
CN112380377A (zh) | 一种音频推荐方法、装置、电子设备及计算机存储介质 | |
CN111259192A (zh) | 音频推荐方法和装置 | |
CN107908701A (zh) | 音乐推荐的方法、装置、存储介质及终端设备 | |
US11367424B2 (en) | Method and apparatus for training adaptation quality evaluation model, and method and apparatus for evaluating adaptation quality | |
JP7140221B2 (ja) | 情報処理方法、情報処理装置およびプログラム | |
WO2021057740A1 (zh) | 视频生成方法、装置、电子设备和计算机可读介质 | |
CN112153460A (zh) | 一种视频的配乐方法、装置、电子设备和存储介质 | |
CN115083432A (zh) | 音频可视化方法、装置、电子设备及存储介质 | |
US8681157B2 (en) | Information processing apparatus, program, and information processing method | |
CN113223485B (zh) | 节拍检测模型的训练方法、节拍检测方法及装置 | |
US20180173400A1 (en) | Media Content Selection | |
US20160277864A1 (en) | Waveform Display Control of Visual Characteristics | |
US20220335974A1 (en) | Multimedia music creation using visual input | |
CN114154574A (zh) | 节拍重拍联合检测模型的训练及节拍重拍联合检测方法 | |
CN109495786B (zh) | 视频处理参数信息的预配置方法、装置及电子设备 | |
WO2017131272A1 (ko) | 음악 감정 분석 시스템 및 이를 이용한 감정 분석 방법 | |
CN111782868A (zh) | 一种音频处理方法、装置、设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |