CN112735472B

CN112735472B - 音视频旋律动作自生成方法及装置

Info

Publication number: CN112735472B
Application number: CN202011562919.1A
Authority: CN
Inventors: 刘明; 夏立文; 牛子华
Original assignee: Aerospace Science and Industry Shenzhen Group Co Ltd
Current assignee: Aerospace Science and Industry Shenzhen Group Co Ltd
Priority date: 2020-12-25
Filing date: 2020-12-25
Publication date: 2024-04-09
Anticipated expiration: 2040-12-25
Also published as: CN112735472A

Abstract

本发明揭示了一种音视频旋律动作自生成方法及装置，包括获取音频数据和视频数据，视频数据在内容上描述了对应于音频数据的旋律动作；对音频数据和视频数据进行数值描述，生成在音频和视频维度上关联的特征向量；将音频特征向量和视频特征向量结合，得到特征向量矩阵；特征向量矩阵通过预训练的神经网络生成个性化适配音频数据和视频数据的音视频旋律动作。本方案以时间序列为参考基准，同时巧妙的把音频数据和视频数据结合并向量化，然后通过神经网络模型计算生产自动生成音视频旋律动作，实现了音频数据和视频数据两类不同数据的结合，具有智能化，多场景应用的能力。

Description

音视频旋律动作自生成方法及装置

技术领域

本发明涉及电子信息技术领域，特别涉及一种音视频旋律动作自生成方法及装置。

背景技术

音乐或动作自动生成是当下人机交互的热点方向之一，通过输入一段音乐，机器可以自生成一段音乐或动作。然而，当下的自生成的方法，一、通过编舞师根据音乐节奏编舞，即舞曲来源于编舞师灵感，由于每个编舞师对音乐节奏，舞蹈动作的理解不一致，并且受个人习惯的影响，很难形成统一的舞曲库，且非常耗费人工。二、通过算法对已有的舞蹈动作进行三维建模，形成舞曲动作库，输出舞蹈动作，即根据现有的舞曲，进行三维建模，能够形成一些基础的动作库，但是方法仅限于现有的音乐舞曲动作，并且如果没有给音乐配舞的情况下，很难找到与之匹配的舞蹈。而且音乐和舞蹈是独立分来来，并没有融合为一体。

为此，在现有技术中，音乐或舞蹈自生成的方式“预设置”模式，即提前把需要展示的舞蹈音乐等数据预先设置好，属于“机器智能”，而且没有根据外部环境把音乐与舞蹈两部分内容结合输出，音视频数据还是相互独立的输出，可见智能化程度还较低，是当下该技术发展方向的难点。

发明内容

为了实现音乐与舞蹈两部分内容融合智能输出，有必要提供一种音视频旋律动作自生成方法及装置。

一种音视频旋律动作自生成方法，包括：

S100：获取音频数据和视频数据，所述视频数据在内容上描述了对应于所述音频数据的旋律动作；

S300：对所述音频数据和所述视频数据进行数值描述，生成在音频和视频维度上关联的特征向量；

S500：将所述音频特征向量和所述视频特征向量结合，得到特征向量矩阵；

S700：所述特征向量矩阵通过预训练的神经网络生成个性化适配所述音频数据和所述视频数据的音视频旋律动作。

在一实施例中，所述获取音频数据和所述视频数据包括：通过所配置摄像头摄录获取的音频数据和视频数据，或者通过预存储在存储设备的音频数据和视频数据，或者通过云存储获取的音频数据和视频数据。

在一实施例中，所述音频特征向量的实现包括：S310A：对获取的音频信号进行预处理；S320A：对预处理后的音频信号进行傅里叶变换得到语音频谱信号；S330A：所述语音频谱信号通过梅尔滤波器得到语音梅尔刻度；S340A：通过所述语音梅尔刻度计算得到梅尔倒谱系数，并得到音频特征向量。

在一实施例中，步骤S310包括：S311A：对音频信号预加重处理；S312A：对预加重的音频信号进行分帧，所述分帧与窗函数相乘得到预处理音频信号。

在一实施例中，所述视频特征向量的实现包括：S310B：获取视频信号，所述视频信号与所述音频信号在时间序列上相关联；S320B：提取所述视频信号中的帧图像，并对图像中的目标设定关键点；S330B：获取所述关键点的位置数据，并根据所述位置数据计算得到视频特征向量。

在一实施例中，步骤330B包括：S331B：设定参考点的位置；S332B：获得所述关键点到所述参考点的高斯距离；S333B：对所述关键点的高斯距离进行归一化处理；S334B：所述归一化处理的关键点构成视频特征向量。

在一实施例中，步骤500包括：S510：将所述音频特征向量和所述视频特征向量累加得到融合特征向量；S520：所述融合特征向量按照时间序列形成特征向量矩阵。

在一实施例中，步骤700包括：S710：所述特征向量矩阵通过编码器进行编码，再通过解码器进行解码，生成时间序列的个性化特征向量矩阵；S720：所述个性化特征向量矩阵适配所述音频数据和所述视频数据的音视频旋律动作。

一种音视频旋律动作自生成装置，包括：

获取模块100，用于获取音频数据和视频数据，所述视频数据在内容上描述了对应于所述音频数据的旋律动作；

处理模块200，用于对所述音频数据和所述视频数据进行数值描述，生成在音频和视频维度上关联的特征向量；

特征向量矩阵生成模块300：将所述音频特征向量和所述视频特征向量结合，得到特征向量矩阵；

输出模块400，用于所述特征向量矩阵通过预训练的神经网络生成个性化适配所述音频数据和所述视频数据的音视频旋律动作。

在一实施例中，所述获取模块包括：摄录单元，用于摄录获取的音频数据和视频数据；存储单元，用于预存储在存储设备的音频数据和视频数据；云存储单元，用于通过云存储获取的音频数据和视频数据。

本发明的实施例提供的技术方案可以包括以下有益效果：

本方案以时间序列为参考基准，同时巧妙的把音频数据和视频数据结合并向量化，然后通过神经网络模型计算生产自动生成音视频旋律动作，实现了音频数据和视频数据两类不同数据的结合，具有智能化，多场景应用的能力。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并于说明书一起用于解释本发明的原理。

图1根据一示例性实施例示出的音视频旋律动作自生成方法流程图；

图2根据一示例性实施例示出的音频特征向量实现的流程图；

图3一示例性实施例示出的Hamming窗口示意图；

图4根据一示例性实施例示出的视频特征向量实现的流程图；

图5一示例性实施例示出的人体关键点示意图；

图6一示例性实施例示出的融合特征向量形成特征向量矩阵的示意图；

图7一示例性实施例示出的特征向量矩阵通过编码器及解码器的示意图；

图8一示例性实施例示出的音视频旋律动作自生成装置的逻辑框图。

具体实施方式

这里将详细地对示例性实施例执行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。

图1是一示例性实施例示出本方案的音视频旋律动作自生成方法流程图，该方法包括：

S100：获取音频数据和视频数据，视频数据在内容上描述了对应于音频数据的旋律动作；

S300：对音频数据和视频数据进行数值描述，生成在音频和视频维度上关联的特征向量；

S500：将音频特征向量和视频特征向量结合，得到特征向量矩阵；

S700：特征向量矩阵通过预训练的神经网络生成个性化适配音频数据和视频数据的音视频旋律动作。

具体的，对获取的一段音视频数据，音频数据获取的是语音数据，包括人的声音、音乐舞曲或者大自然的声音等；视频数据获取的是记录目标物体动作的图像数据，该目标物体可以是人、动物或机器人等。该音视频数据的内容是以时间序列描述语音与动作，生成了对应关联的特征向量。然后将音频特征向量和视频特征向量结合，得到特征向量矩阵。该特征向量矩阵通过神经网络模型计算输出个性化适配音频数据和视频数据的音视频旋律动作，即能够根据获得的音视频数据自动生成匹配音视频数据的动作，实现了自动生成的音视频旋律动作，且具有自适应的编程能力。

另外，获取音频数据和视频数据包括：通过所配置摄像头摄录获取的音频数据和视频数据，或者通过预存储在存储设备的音频数据和视频数据，或者通过云存储获取的音频数据和视频数据。该神经网络模型采用的模型包括但不限于RNN循环神经网络、CNN卷积神经网络、LSTM长短期记忆神经网络等各种神经网络模型，在此本方案不做限制。

进一步的，本方案以时间序列为参考基准，同时巧妙的把音频数据和视频数据结合并向量化，实现了音频数据和视频数据两类不同数据的结合，然后通过神经网络模型计算生产自动生成音视频旋律动作，具有智能化，多场景应用的能力。而且，本方案还打破了当下仅能够实现对单一数据自编程方案(例如单独的仅能够实现自动音频编程或视频编程)的技术瓶颈，把音视频数据有机结合，并高质量的输出音视频旋律动作的音视频数据。

图2是一示例性实施例示出的音频特征向量实现的流程图，该方法包括：

S310A：对获取的音频信号进行预处理。

具体的，对音频信号进行预处理，对于不同类型的声音采用不同的预处理方案，例如音乐，获取对应的特征属性：节奏、旋律、和声及音色；或者是人或动物的声音，获取对应的特征属性：响度、音调、音色以及乐音，对获得的音频数据的预处理，使其能够更好的提取音频特征。

S320A：对预处理后的音频信号进行傅里叶变换得到语音频谱信号。

具体的，对预处理后的音频信号进行傅里叶变换是逐帧进行，为的是取得每一帧的频谱，并保留幅度谱和相位谱。在本实施例中，只保留幅度谱，丢弃相位谱。

S330A：语音频谱信号通过梅尔滤波器得到梅尔刻度。

具体的，不同的滤波器在频率坐标轴上不是统一分布的，在低频区域有很多的滤波器能够处理，分布比较密集；但在高频区域，能够处理的滤波器数目就变得比较少，分布很稀疏。

S340A：通过梅尔刻度计算得到梅尔倒谱系数，并得到音频特征向量。

采用本方法，对音频信号的特征属性进行预处理、傅里叶变换以及梅尔滤波器以时间序列的综合算法应用，得到了与时间序列关联的音频信号，并对应得到了音频特征向量。

在一实施例中，步骤S320A中梅尔滤波器所获得的梅尔刻度的方法具体如下：梅尔滤波器所获得的梅尔刻度，其对声音的非线性感知在较低的频率下更具辨别力。为此，采用如下算法在赫兹(f)和梅尔(m)之间进行转换，其中：

从频率转换为梅尔刻度的算法公式为：f_mel＝2595*log₁₀(1+f/700)；

从梅尔回到频率的算法公式为：f＝700(10fmel/2595-1)；

并通过以下等式建模，梅尔滤波器的频率响应定义为:

f(m)可以采用如下方法加以定义：

式中，fl为滤波器频率范围的最低频率；fh为滤波器频率范围的最高频率；N为DFT(Discrete Fourier Transform)或FFT(fast Fourier transform)时的长度；fs为采样频率。

在其它实施例中，步骤310A包括：具体包括：

S311A：对音频信号预加重处理。具体的，是对音频信号通过预加重滤波器以放大高频。对高频的声音进行放大，是基于环境声音来决定，而非统一的放大值；本方案设定的算法为：放大倍数N＝(Lb-Ls)/Ls+(Fb-Fs)/Fs，其中N为放大倍数，Lb-Ls表示环境声音的响度差，Fb-Fs表示环境声音的频率差；而放大倍数N与滤波器系数α成比例关系，α＝w％*N，w为先验参考系数。

为此，可以实现平衡频谱，因为高频通常与较低频率相比具有较小的幅度，避免在傅里叶变换操作操作过程中出现数值问题。同时还改善音频信号的噪声比(SNR)，消除发声过程中声带和嘴唇的效应，来补偿语音信号。

具体所采用的算法为：y(t)＝x(t)–αx(t-1)；其中，α为滤波器系数，t表示某个时刻，x为幅度值，y为加强后的幅度值。在本实施例中，α通常为0.95。

S312A：对预加重的音频信号进行分帧，分帧信号与窗函数相乘得到预处理音频信号。具体的，对音频信号进行分帧，即区分为多个分帧信号。对音频信号分帧是因为音频信号是快速变化的，而傅里叶变换适用于分析平稳的信号。在本实施例中，对音频数据进行识别，一般把帧长取为20～50ms，这样一帧内既有足够多的周期，又不会变化太剧烈。每帧信号通常要与一个平滑的窗函数相乘，让帧两端平滑地衰减到零，因此便可以降低傅里叶变换后旁瓣的强度，取得更高质量的频谱。

结合附图3，在具体示例中，如Hamming窗口，将音频信号分割成帧后，再对每个帧乘以一个窗函数，以增加帧左端和右端的连续性，抵消傅里叶变换(假设数据是无限多)，并减少频谱泄漏，该实例算法如下：

W(n,a)＝(1-a)-a×cos(2πn/(N-1))；其中，0≤n≤N-1，N是窗口长度，n和a为辅助参数，本实施例中设定a＝0.46。

图4是一示例性实施例示出的视频特征向量实现的流程图，该方法包括：

S310B：获取视频信号，视频信号与音频信号在时间序列上相关联；

S320B：提取视频信号中的帧图像，并对图像中的目标设定关键点；

S330B：获取关键点的位置数据，并根据位置数据计算得到视频特征向量。

具体的，获取的视频信号，在时间序列上与音频信号相关联，即视频中的关键点动作与语音中的特征属性相互关联，同时提取视频信号中的每一帧图像，对图像中的目标，例如人、动物等关键点设定关键点，然后根据该关键点的位置数据得到视频特征向量。

在一实施例中，步骤330B包括：

S331B：设定参考点的位置。具体的，根据需要设置图像中的某一参考点，例如地面或者物体表面等。

S332B：获得关键点到参考点的高斯距离。具体的，关键点的设置可以多个，根据不同的物体和需求设定一定数量的关键点，然后得到每一个关键点到参考点的高斯距离。本实施例中，结合附图5，对每一帧图像中的人体图像设定19个关键点，分别设置在关节处或关键部位，然后计算每个关键节点的高斯距离，具体算法如下：

其中，L_jk为高斯距离，P表示一关键点的高斯距离，K和J分别表示第K个人，第J个关键点。

S333B：对关键点的高斯距离进行归一化处理。具体的，对多个关键点的表示采用归一化方法处理，具体的算法如下：

Pⁱ＝Lⁱ _jk/max(L_jk)(j＝0,1,2…)

其中，K和J分别表示第K个人，第J个关键点。

S334B：归一化处理的关键点构成视频特征向量。

结合本实施例中，人体图像设定19个关键点中在I时刻的视频特征向量，如Px＝[0.68,0.76,-0.32,…0.02]；其中，I表示时刻，第K个人，第J个关键点。

在一具体实施例中，结合附图6，步骤500包括：

S510：将音频特征向量和视频特征向量累加得到融合特征向量。

S520：融合特征向量按照时间序列形成特征向量矩阵。

具体的，具有动作属性的关键节点的视频特征向量与具有音乐属性的声音的音频特征向量，在时间序列上的一具体时刻的生成融合特征向量，该融合特征向量的上半部分是商品特征向量，下半部分是音频特征向量，反之亦可。

沿着时间序列，在不同的时刻记录每个融合特征向量，就会形成特征向量矩阵，该矩阵可以举例说明，例如关键节点设置为19个，即为视频特征向量，19维数据；声音选择四个属性：节奏、旋律、和声及音色，作为音频特征向量，4维数据；视频特征向量与音频特征向量两部分上下结合为23融合特征向量，沿着时间序列，在每个时间节点I上获取数据并形成特征向量矩阵Tx。

在一具体实施例中，结合附图7，步骤700包括：

S710：特征向量矩阵通过编码器进行编码，再通过解码器进行解码，生成时间序列的个性化特征向量矩阵；

S720：个性化特征向量矩阵适配音频数据和视频数据的音视频旋律动作。

具体的，通过编解码器的处理，就可以得到个性化特征向量矩阵Yx，该个性化特征向量矩阵为自生成的音频和视频数据，且在时间序列上适配音视频旋律的动作，而非预编写好的音视频数据，能够应用在交互机器人等各种人机交互领域，具有丰富的应用场景。

结合附图8，一种音视频旋律动作自生成装置，其特征在于，包括：

获取模块100，用于获取音频数据和视频数据，视频数据在内容上描述了对应于音频数据的旋律动作；

处理模块200，用于对音频数据和视频数据进行数值描述，生成在音频和视频维度上关联的特征向量；

特征向量矩阵生成模块300：将音频特征向量和视频特征向量结合，得到特征向量矩阵；

输出模块400，用于特征向量矩阵通过预训练的神经网络生成个性化适配音频数据和视频数据的音视频旋律动作。

本方案的音视频旋律动作自生成装置，该装置以时间序列为参考基准，同时巧妙的把音频数据和视频数据结合并向量化，实现了音频数据和视频数据两类不同数据的结合，然后通过神经网络模型计算生产自动生成音视频旋律动作，具有智能化。而且，本方案还打破了当下仅能够实现对单一数据自编程方案(例如单独的仅能够实现自动音频编程或视频编程)的技术瓶颈，把音视频数据有机结合，并高质量的输出音视频旋律动作的音视频数据。

在一实施例中，获取模块包括：摄录单元，用于摄录获取的音频数据和视频数据；存储单元，用于预存储在存储设备的音频数据和视频数据；云存储单元，用于通过云存储获取的音频数据和视频数据。

具体的，通过摄录设备，例如相机、录音机等设备，获取音视频数据；实现的，可以把预设置好的音视频数据存储在存储设备中，当然也可以通过互联网等有线/无线方式，从云服务器端获取音视频数据，为音视频绚丽动作的舞蹈动作输出提供素材。

应当理解的是，本发明并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围执行各种修改和改变。本发明的范围仅由所附的权利要求来限制。

Claims

1.一种音视频旋律动作自生成方法，其特征在于，包括：

音频特征向量的实现包括：

S310A：对获取的音频信号进行预处理；

S320A：对预处理后的音频信号进行傅里叶变换得到语音频谱信号；

S330A：所述语音频谱信号通过梅尔滤波器得到语音梅尔刻度；

S340A：通过所述语音梅尔刻度计算得到梅尔倒谱系数，并得到音频特征向量；

视频特征向量的实现包括：

S310B：获取视频信号，所述视频信号与所述音频信号在时间序列上相关联；

S320B：提取所述视频信号中的帧图像，并对图像中的目标设定关键点；

S330B：获取所述关键点的位置数据，并根据所述位置数据计算得到视频特征向量；

S700：所述特征向量矩阵通过预训练的神经网络生成个性化适配所述音频数据和所述视频数据的音视频旋律动作；

所述步骤S500包括：

S510：将所述音频特征向量和所述视频特征向量累加得到融合特征向量；

S520：所述融合特征向量按照时间序列形成特征向量矩阵；

所述步骤S700包括：

S710：所述特征向量矩阵通过编码器进行编码，再通过解码器进行解码，生成时间序列的个性化特征向量矩阵；

S720：所述个性化特征向量矩阵适配所述音频数据和所述视频数据的音视频旋律动作。

2.根据权利要求1所述的方法，其特征在于，所述获取音频数据和所述视频数据包括：

通过所配置摄像头摄录获取的音频数据和视频数据，或者通过预存储在存储设备的音频数据和视频数据，或者通过云存储获取的音频数据和视频数据。

3.根据权利要求2所述的方法，其特征在于，步骤S310A包括：

S311A：对音频信号预加重处理；

S312A：对预加重的音频信号进行分帧，所述分帧与窗函数相乘得到预处理音频信号。

4.根据权利要求2所述的方法，其特征在于，步骤330B包括：

S331B：设定参考点的位置；

S332B：获得所述关键点到所述参考点的高斯距离；

S333B：对所述关键点的高斯距离进行归一化处理；

S334B：所述归一化处理的关键点构成视频特征向量。

5.一种音视频旋律动作自生成装置，其特征在于，所述装置用于执行如权利要求1至4任意一项所述的方法，包括：

获取模块，用于获取音频数据和视频数据，所述视频数据在内容上描述了对应于所述音频数据的旋律动作；

处理模块，用于对所述音频数据和所述视频数据进行数值描述，生成在音频和视频维度上关联的特征向量；

特征向量矩阵生成模块：将所述音频特征向量和所述视频特征向量结合，得到特征向量矩阵；

输出模块，用于所述特征向量矩阵通过预训练的神经网络生成个性化适配所述音频数据和所述视频数据的音视频旋律动作。

6.根据权利要求5所述的装置，其特征在于，所述获取模块包括：

摄录单元，用于摄录获取的音频数据和视频数据；

存储单元，用于预存储在存储设备的音频数据和视频数据；

云存储单元，用于通过云存储获取的音频数据和视频数据。