CN115114475B

CN115114475B - 用于匹配短视频声音与音乐现场原声音轨的音频检索方法

Info

Publication number: CN115114475B
Application number: CN202211038139.6A
Authority: CN
Inventors: 姚仕元; 张琪浩; 马黎冬; 谷文君
Original assignee: Between Amakusa Beijing Music Culture Co ltd; Chengdu Sobey Digital Technology Co Ltd
Current assignee: Between Amakusa Beijing Music Culture Co ltd; Chengdu Sobey Digital Technology Co Ltd
Priority date: 2022-08-29
Filing date: 2022-08-29
Publication date: 2022-11-29
Anticipated expiration: 2042-08-29
Also published as: CN115114475A

Abstract

本发明公开了一种用于匹配短视频声音与音乐现场原声音轨的音频检索方法，属于视音频制作领域，包括步骤：S1，现场短视频拍摄；S2，原声音频获取；S3，音频检索；S4，特征提取；S5，位置标定，开启循环计算；S6，带有原声音频的短视频制作。本发明无需计算HASH编码和在歌曲库中的遍历查询，计算量低，更适合音乐现场原声音轨短视频的制作场景，能够协助制作更专业的带有现场原声音轨的短视频。

Description

用于匹配短视频声音与音乐现场原声音轨的音频检索方法

技术领域

本发明涉及视音频制作领域，更为具体的，涉及一种用于匹配短视频声音与音乐现场原声音轨的音频检索方法。

背景技术

目前市场上的音频检索方法大多需要计算HASH码，还需要足够大的音频库，经过多次遍历进行计算检索，这种方式在音乐现场进行短视频制作时过于复杂，计算量很大。本领域技术人员亟待解决这一技术问题。

发明内容

本发明的目的在于克服现有技术的不足，提供一种用于匹配短视频声音与音乐现场原声音轨的音频检索方法，无需计算HASH编码和遍历，计算量低，更适合音乐现场原声音轨短视频的制作场景，能够协助制作更专业的带有现场原声音轨的短视频等。

本发明的目的是通过以下方案实现的：

一种用于匹配短视频声音与音乐现场原声音轨的音频检索方法，包括以下步骤：

S1，现场短视频拍摄；

S2，原声音频获取；

S3，音频检索；

S4，特征提取；

S5，位置标定，开启循环计算；

S6，带有原声音频的短视频制作。

进一步地，在步骤S1中，包括子步骤：通过移动端APP拍摄一段短视频，记录短视频时长T₁，将短视频上传至云端制作平台。

进一步地，在步骤S2中，包括子步骤：通过调音台收录来自麦克风、各类乐器的音频信号，混合成一路音频，原声音频时长T₂，将原声音频上传至云端制作平台。

进一步地，在步骤S3中，包括子步骤：

S31，音频预处理：对手机收录到的音频和调音台原声音频进行滤波处理；

S32，分帧：将不定长的音频切分成固定长度的小段，将语音信号分为多个小段来分析其特征参数，其中每一段称为一“帧”，此处“帧”与“帧”之间平滑过渡；

S33，频谱变换：对去噪、分帧后的音频进行短时傅里叶变换，转为频谱图，频谱图中包含三维信息：时间、频率、响度；在所述傅里叶变换中，包括将时间分辨率设置为帧长。

进一步地，在步骤S4中，包括子步骤：

频谱图中所对应的振幅值若相比临近节点都大，那就是一个极大值，通过极大值选取，将复杂的频谱图简化成稀疏的极大值坐标图；记录极大值形成H ₁=[a ₁ ,a ₂ ,a ₃ ,a ₄ ..a _n]，H ₂=[b ₁ ,b ₂ ,b ₃ ,b ₄ ..b _n ..b _m]，同时记录H ₂ 中每个极值点对应的时间点集合T=[t ₁ ,t ₂ ,t ₃ , t ₄ ..t _n ..t _m] ，H ₁为手机记录的短视频音频频谱图极大值集合，H ₂为现场原声音频频谱图极大值集合，维度方面H ₁<< H ₂。

进一步地，在步骤S5中，包括子步骤：设：

P ₁=|a ₁-b ₁|+|a ₂-b ₂|+|a ₃-b ₃|+|a ₄-b ₄|+…+|a _n-b _n|，P ₂=|a ₁-b ₂|+|a ₂-b ₃|+|a ₃-b ₄|+|a ₄-b ₅|+…+|a _n-b _n+1，P ₃=|a ₁-b ₃|+|a ₂-b ₄|+|a ₃-b ₅|+|a ₄-b ₆|+…+|a _n- b _n+3|，…，P _m-n=|a ₁-b _m-n|+|a ₂-b _m-n+1|+…+|a _n-2-b _m-2|+|a _n-1-b _m-1|+|a _n-b _m|，P₁表示第1个偏差，P₂表示第2个偏差，P₃表示第3个偏差，P_m-n表示第m-n个偏差，获得偏差集合O=[ P ₁ , P ₂ , P ₃ ,…P _m-n]；找到偏差集合最小值O _min=P _i(1<i<m-n)，通过P _i找到对应原声音频中的点位b _i，定位b _i所在的时间点t _i。

进一步地，在步骤S6中，包括子步骤：以t _i为起始点，在T₂中截取T₁为时间长度的原声音频，与手机拍摄到的短视频画面结合，完成带有原声音频的短视频制作，后将带有原声音频的短视频发送回移动端。

进一步地，所述移动端APP拍摄的短视频包括视频和音频，且含有现场噪声。

进一步地，在步骤S32中，将语音信号在一个设定的短时间范围内看成是特性基本保持不变即相对稳定，即语音信号具有短时平稳性。

进一步地，在步骤S32中，所述“帧”与“帧”之间平滑过渡，包括子步骤：采用交叠分段的方式，根据每段帧长设置帧移。

本发明的有益效果包括：

本发明提出了一种用于匹配短视频声音与音乐现场原声音轨的音频检索方法，基于频谱变换用于匹配短视频声音与音乐现场原声音轨的音频检索，使用音频分帧、频谱变换、特征提取等简易方式，提供与短视频获取音频相同的原声音轨片段，协助制作更专业的带有现场原声音轨的短视频。

本发明提供的音频检索方法，用于匹配短视频声音中音乐与原声音轨的部分，从而进行快速原声短视频制作。

本发明提供的检索方法无需计算HASH编码和在歌曲库中的遍历查询，计算量低，更适合音乐现场原声音轨短视频的制作场景。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例方法的步骤流程图；

图2为本发明实施例音频短时平稳性示意图；

图3a为本发明实施方法中特征提取示意图；

图3b为本发明实施方法中极大值H2坐标图；

图4为本发明实施方法中极大值H1匹配H2坐标示意图。

具体实施方式

下面结合附图和实施例对发明进一步说明。本说明书中所有实施例公开的所有特征，或隐含公开的所有方法或过程中的步骤，除了互相排斥的特征和/或步骤以外，均可以以任何方式组合和/或扩展、替换。

如图1所示，本发明提供一种用于匹配短视频声音与音乐现场原声音轨的音频检索方法，包括如下步骤：

步骤一，现场短视频拍摄：通过移动端APP拍摄一段短视频（短视频+音频，含现场噪声），记录短视频时长T₁，将短视频（视频+音频）上传至云端制作平台。

步骤二，原声音频获取：通过调音台收录来自麦克风、各类乐器的音频信号，混合成一路音频，原声音频时长T₂，将原声音频上传至云端制作平台。

步骤三，音频检索，具体包括如下子步骤：

音频预处理：对手机收录到的音频和调音台原声音频进行滤波处理（尽可能去除现场环境杂声）。

分帧：如图2所示，将不定长的音频切分成固定长度的小段（语音信号虽然是随时间变化的，但是在一个短时间范围内（一般认为在10~30ms），其特性基本保持不变即相对稳定，即语音信号具有短时平稳性。所以可以进行“短时分析”：将语音信号分为一段一段来分析其特征参数，其中每一段称为一“帧”），为保证帧与帧之间的平滑过渡，采用交叠分段的方法，其中每帧设计30ms，帧移10ms。

频谱变换：对去噪、分帧后的音频进行短时傅里叶（时间分辨率设置为帧长30ms）变换，转为频谱图，频谱图中包含三维信息（时间、频率、响度）。

步骤四，特征提取：如图3a、图3b所示，频谱图中所对应的振幅值若相比临近节点都大，那就是一个峰值（极大值），通过极大值选取，复杂的频谱图就简化成了稀疏的极大值坐标图。记录极大值形成H ₁=[a ₁ ,a ₂ ,a ₃ ,a ₄ ..a _n]，H ₂=[b ₁ ,b ₂ ,b ₃ ,b ₄ ..b _n ..b _m]，同时记录H ₂ 中每个极值点对应的时间点集合T=[t ₁ ,t ₂ ,t ₃ ,t ₄ ..t _n ..t _m] (H ₁为手机记录的短视频音频频谱图极大值集合，H ₂为现场原声音频频谱图极大值集合，维度方面H ₁<< H ₂)。

步骤五，位置标定，开启循环计算：如图4所示，设：

P ₁=|a ₁-b ₁|+|a ₂-b ₂|+|a ₃-b ₃|+|a ₄-b ₄|+…+|a _n-b _n|，P ₂=|a ₁-b ₂|+|a ₂-b ₃|+|a ₃-b ₄|+|a ₄-b ₅|+…+|a _n-b _n+1|，P ₃=|a ₁-b ₃|+|a ₂-b ₄|+|a ₃-b ₅|+|a ₄-b ₆|+…+|a _n- b _n+3|，…，P _m-n=|a ₁-b _m-n|+|a ₂-b _m-n+1|+…+|a _n-2-b _m-2|+|a _n-1-b _m-1|+|a _n-b _m|，P₁表示第1个偏差，P₂表示第2个偏差，P₃表示第3个偏差，P_m-n表示第m-n个偏差，获得偏差集合O=[ P ₁ , P ₂ , P ₃ ,…P _m-n]；找到O _min=P _i(1< i<m-n)，通过P _i找到对应原声音频中的点位b _i，定位b _i所在的时间点t _i。

步骤六，带有原声音频的短视频制作。以t _i为起始点，在T₂中截取T₁为时间长度的原声音频，与手机拍摄到的短视频画面结合，完成带有原声音频的短视频制作，后将带有原声音频的短视频发送回移动端。

实施例1

S1，现场短视频拍摄；

S2，原声音频获取；

S3，音频检索；

S4，特征提取；

S5，位置标定，开启循环计算；

S6，带有原声音频的短视频制作。

实施例2

在实施例1的基础上，在步骤S1中，包括子步骤：通过移动端APP拍摄一段短视频，记录短视频时长T₁，将短视频上传至云端制作平台。

实施例3

在实施例1的基础上，在步骤S2中，包括子步骤：通过调音台收录来自麦克风、各类乐器的音频信号，混合成一路音频，原声音频时长T₂，将原声音频上传至云端制作平台。

实施例4

在实施例1的基础上，在步骤S3中，包括子步骤：

实施例5

在实施例4的基础上，在步骤S4中，包括子步骤：

实施例6

在实施例5的基础上，在步骤S5中，包括子步骤：设：

实施例7

在实施例6的基础上，在步骤S6中，包括子步骤：

以t _i为起始点，在T₂中截取T₁为时间长度的原声音频，与手机拍摄到的短视频画面结合，完成带有原声音频的短视频制作，后将带有原声音频的短视频发送回移动端。

实施例8

在实施例2的基础上，所述移动端APP拍摄的短视频包括视频和音频，且含有现场噪声。

实施例9

在实施例4的基础上，在步骤S32中，将语音信号在一个设定的短时间范围内看成是特性基本保持不变即相对稳定，即语音信号具有短时平稳性。

实施例10

在实施例4的基础上，在步骤S32中，所述“帧”与“帧”之间平滑过渡，包括子步骤：采用交叠分段的方式，根据每段帧长设置帧移。

描述于本发明实施例中所涉及到的单元可以通过软件的方式实现，也可以通过硬件的方式来实现，所描述的单元也可以设置在处理器中。其中，这些单元的名称在某种情况下并不构成对该单元本身的限定。

根据本申请的一个方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述各种可选实现方式中提供的方法。

作为另一方面，本申请还提供了一种计算机可读介质，该计算机可读介质可以是上述实施例中描述的电子设备中所包含的；也可以是单独存在，而未装配入该电子设备中。上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被一个该电子设备执行时，使得该电子设备实现上述实施例中所述的方法。

本发明未涉及部分均与现有技术相同或可采用现有技术加以实现。

上述技术方案只是本发明的一种实施方式，对于本领域内的技术人员而言，在本发明公开了应用方法和原理的基础上，很容易做出各种类型的改进或变形，而不仅限于本发明上述具体实施方式所描述的方法，因此前面描述的方式只是优选的，而并不具有限制性的意义。

除以上实例以外，本领域技术人员根据上述公开内容获得启示或利用相关领域的知识或技术进行改动获得其他实施例，各个实施例的特征可以互换或替换，本领域人员所进行的改动和变化不脱离本发明的精神和范围，则都应在本发明所附权利要求的保护范围内。

Claims

1.一种用于匹配短视频声音与音乐现场原声音轨的音频检索方法，其特征在于，包括以下步骤：

S1，现场短视频拍摄；

S2，原声音频获取；

S3，音频检索；在步骤S3中，包括子步骤：

S33，频谱变换：对去噪、分帧后的音频进行短时傅里叶变换，转为频谱图，频谱图中包含三维信息：时间、频率、响度；在所述傅里叶变换中，包括将时间分辨率设置为帧长；

S4，特征提取；在步骤S4中，包括子步骤：

频谱图中所对应的振幅值若相比临近节点都大，那就是一个极大值，通过极大值选取，将复杂的频谱图简化成稀疏的极大值坐标图；记录极大值形成H ₁=[a ₁ ,a ₂ ,a ₃ ,a ₄ ..a _n]，H ₂=[b ₁ ,b ₂ ,b ₃ ,b ₄ ..b _n ..b _m]，m为正整数，n为正整数，同时记录H ₂ 中每个极值点对应的时间点集合T=[t ₁ ,t ₂ ,t ₃ ,t ₄ ..t _n ..t _m] ，H ₁为手机记录的短视频音频频谱图极大值集合，H ₂为现场原声音频频谱图极大值集合，维度方面H ₁<< H ₂；

S5，位置标定，开启循环计算；在步骤S5中，包括子步骤：设：

P ₁=|a ₁-b ₁|+|a ₂-b ₂|+|a ₃-b ₃|+|a ₄-b ₄|+…+|a _n-b _n|，P ₂=|a ₁-b ₂|+|a ₂-b ₃|+|a ₃-b ₄|+|a ₄-b ₅|+…+|a _n-b _n+1，P ₃=|a ₁-b ₃|+|a ₂-b ₄|+|a ₃-b ₅|+|a ₄-b ₆|+…+|a _n- b _n+3|，…，P _m-n=|a ₁-b _m-n|+|a ₂-b _m-n+1|+…+|a _n-2-b _m-2|+|a _n-1-b _m-1|+|a _n-b _m|，P₁表示第1个偏差，P₂表示第2个偏差，P₃表示第3个偏差，P_m-n表示第m-n个偏差，获得偏差集合O=[ P ₁ , P ₂ , P ₃ ,…P _m-n]；找到偏差集合最小值O _min=P _i，1<i<m-n，通过P _i找到对应原声音频中的点位b _i，定位b _i所在的时间点t _i；

S6，带有原声音频的短视频制作；在步骤S6中，包括子步骤：

2.根据权利要求1所述的用于匹配短视频声音与音乐现场原声音轨的音频检索方法，其特征在于，在步骤S1中，包括子步骤：通过移动端APP拍摄一段短视频，记录短视频时长T₁，将短视频上传至云端制作平台。

3.根据权利要求1所述的用于匹配短视频声音与音乐现场原声音轨的音频检索方法，其特征在于，在步骤S2中，包括子步骤：通过调音台收录来自麦克风、各类乐器的音频信号，混合成一路音频，原声音频时长T₂，将原声音频上传至云端制作平台。

4.根据权利要求2所述的用于匹配短视频声音与音乐现场原声音轨的音频检索方法，其特征在于，所述移动端APP拍摄的短视频包括视频和音频，且含有现场噪声。

5.根据权利要求1所述的用于匹配短视频声音与音乐现场原声音轨的音频检索方法，其特征在于，在步骤S32中，将语音信号在一个设定的短时间范围内看成是特性基本保持不变即相对稳定，即语音信号具有短时平稳性。

6.根据权利要求1所述的用于匹配短视频声音与音乐现场原声音轨的音频检索方法，其特征在于，在步骤S32中，所述“帧”与“帧”之间平滑过渡，包括子步骤：采用交叠分段的方式，根据每段帧长设置帧移。