CN115114475B - 用于匹配短视频声音与音乐现场原声音轨的音频检索方法 - Google Patents

用于匹配短视频声音与音乐现场原声音轨的音频检索方法 Download PDF

Info

Publication number
CN115114475B
CN115114475B CN202211038139.6A CN202211038139A CN115114475B CN 115114475 B CN115114475 B CN 115114475B CN 202211038139 A CN202211038139 A CN 202211038139A CN 115114475 B CN115114475 B CN 115114475B
Authority
CN
China
Prior art keywords
audio
short video
short
original
spectrogram
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202211038139.6A
Other languages
English (en)
Other versions
CN115114475A (zh
Inventor
姚仕元
张琪浩
马黎冬
谷文君
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Between Amakusa Beijing Music Culture Co ltd
Chengdu Sobey Digital Technology Co Ltd
Original Assignee
Between Amakusa Beijing Music Culture Co ltd
Chengdu Sobey Digital Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Between Amakusa Beijing Music Culture Co ltd, Chengdu Sobey Digital Technology Co Ltd filed Critical Between Amakusa Beijing Music Culture Co ltd
Priority to CN202211038139.6A priority Critical patent/CN115114475B/zh
Publication of CN115114475A publication Critical patent/CN115114475A/zh
Application granted granted Critical
Publication of CN115114475B publication Critical patent/CN115114475B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/68Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/683Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7834Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using audio features
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Library & Information Science (AREA)
  • Acoustics & Sound (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Television Signal Processing For Recording (AREA)

Abstract

本发明公开了一种用于匹配短视频声音与音乐现场原声音轨的音频检索方法,属于视音频制作领域,包括步骤:S1,现场短视频拍摄;S2,原声音频获取;S3,音频检索;S4,特征提取;S5,位置标定,开启循环计算;S6,带有原声音频的短视频制作。本发明无需计算HASH编码和在歌曲库中的遍历查询,计算量低,更适合音乐现场原声音轨短视频的制作场景,能够协助制作更专业的带有现场原声音轨的短视频。

Description

用于匹配短视频声音与音乐现场原声音轨的音频检索方法
技术领域
本发明涉及视音频制作领域,更为具体的,涉及一种用于匹配短视频声音与音乐现场原声音轨的音频检索方法。
背景技术
目前市场上的音频检索方法大多需要计算HASH码,还需要足够大的音频库,经过多次遍历进行计算检索,这种方式在音乐现场进行短视频制作时过于复杂,计算量很大。本领域技术人员亟待解决这一技术问题。
发明内容
本发明的目的在于克服现有技术的不足,提供一种用于匹配短视频声音与音乐现场原声音轨的音频检索方法,无需计算HASH编码和遍历,计算量低,更适合音乐现场原声音轨短视频的制作场景,能够协助制作更专业的带有现场原声音轨的短视频等。
本发明的目的是通过以下方案实现的:
一种用于匹配短视频声音与音乐现场原声音轨的音频检索方法,包括以下步骤:
S1,现场短视频拍摄;
S2,原声音频获取;
S3,音频检索;
S4,特征提取;
S5,位置标定,开启循环计算;
S6,带有原声音频的短视频制作。
进一步地,在步骤S1中,包括子步骤:通过移动端APP拍摄一段短视频,记录短视频时长T1,将短视频上传至云端制作平台。
进一步地,在步骤S2中,包括子步骤:通过调音台收录来自麦克风、各类乐器的音频信号,混合成一路音频,原声音频时长T2,将原声音频上传至云端制作平台。
进一步地,在步骤S3中,包括子步骤:
S31,音频预处理:对手机收录到的音频和调音台原声音频进行滤波处理;
S32,分帧:将不定长的音频切分成固定长度的小段,将语音信号分为多个小段来分析其特征参数,其中每一段称为一“帧”,此处“帧”与“帧”之间平滑过渡;
S33,频谱变换:对去噪、分帧后的音频进行短时傅里叶变换,转为频谱图,频谱图中包含三维信息:时间、频率、响度;在所述傅里叶变换中,包括将时间分辨率设置为帧长。
进一步地,在步骤S4中,包括子步骤:
频谱图中所对应的振幅值若相比临近节点都大,那就是一个极大值,通过极大值选取,将复杂的频谱图简化成稀疏的极大值坐标图;记录极大值形成H 1 =[a 1 ,a 2 ,a 3 ,a 4 ..a n ],H 2 =[b 1 ,b 2 ,b 3 ,b 4 ..b n ..b m ],同时记录H 2 中每个极值点对应的时间点集合T=[t 1 ,t 2 ,t 3 , t 4 ..t n ..t m ] ,H 1 为手机记录的短视频音频频谱图极大值集合,H 2 为现场原声音频频谱图极大值集合,维度方面H 1 << H 2
进一步地,在步骤S5中,包括子步骤:设:
P 1 =|a 1 -b 1 |+|a 2 -b 2 |+|a 3 -b 3 |+|a 4 -b 4 |+…+|a n -b n |,P 2 =|a 1 -b 2 |+|a 2 -b 3 |+|a 3 -b 4 |+|a 4 -b 5 |+…+|a n -b n+1 P 3 =|a 1 -b 3 |+|a 2 -b 4 |+|a 3 -b 5 |+|a 4 -b 6 |+…+|a n - b n+3 |,…,P m-n =|a 1 -b m-n |+|a 2 -b m-n+1 |+…+|a n-2 -b m-2 |+|a n-1 -b m-1 |+|a n -b m |,P1表示第1个偏差,P2表示第2个偏差,P3表示第3个偏差,Pm-n表示第m-n个偏差,获得偏差集合O=[ P 1 , P 2 , P 3 ,…P m-n ];找到偏差集合最小值O min =P i (1<i<m-n),通过P i 找到对应原声音频中的点位b i ,定位b i 所在的时间点t i
进一步地,在步骤S6中,包括子步骤:以t i 为起始点,在T2中截取T1为时间长度的原声音频,与手机拍摄到的短视频画面结合,完成带有原声音频的短视频制作,后将带有原声音频的短视频发送回移动端。
进一步地,所述移动端APP拍摄的短视频包括视频和音频,且含有现场噪声。
进一步地,在步骤S32中,将语音信号在一个设定的短时间范围内看成是特性基本保持不变即相对稳定,即语音信号具有短时平稳性。
进一步地,在步骤S32中,所述“帧”与“帧”之间平滑过渡,包括子步骤:采用交叠分段的方式,根据每段帧长设置帧移。
本发明的有益效果包括:
本发明提出了一种用于匹配短视频声音与音乐现场原声音轨的音频检索方法,基于频谱变换用于匹配短视频声音与音乐现场原声音轨的音频检索,使用音频分帧、频谱变换、特征提取等简易方式,提供与短视频获取音频相同的原声音轨片段,协助制作更专业的带有现场原声音轨的短视频。
本发明提供的音频检索方法,用于匹配短视频声音中音乐与原声音轨的部分,从而进行快速原声短视频制作。
本发明提供的检索方法无需计算HASH编码和在歌曲库中的遍历查询,计算量低,更适合音乐现场原声音轨短视频的制作场景。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例方法的步骤流程图;
图2为本发明实施例音频短时平稳性示意图;
图3a为本发明实施方法中特征提取示意图;
图3b为本发明实施方法中极大值H2坐标图;
图4为本发明实施方法中极大值H1匹配H2坐标示意图。
具体实施方式
下面结合附图和实施例对发明进一步说明。本说明书中所有实施例公开的所有特征,或隐含公开的所有方法或过程中的步骤,除了互相排斥的特征和/或步骤以外,均可以以任何方式组合和/或扩展、替换。
如图1所示,本发明提供一种用于匹配短视频声音与音乐现场原声音轨的音频检索方法,包括如下步骤:
步骤一,现场短视频拍摄:通过移动端APP拍摄一段短视频(短视频+音频,含现场噪声),记录短视频时长T1,将短视频(视频+音频)上传至云端制作平台。
步骤二,原声音频获取:通过调音台收录来自麦克风、各类乐器的音频信号,混合成一路音频,原声音频时长T2,将原声音频上传至云端制作平台。
步骤三,音频检索,具体包括如下子步骤:
音频预处理:对手机收录到的音频和调音台原声音频进行滤波处理(尽可能去除现场环境杂声)。
分帧:如图2所示,将不定长的音频切分成固定长度的小段(语音信号虽然是随时间变化的,但是在一个短时间范围内(一般认为在10~30ms),其特性基本保持不变即相对稳定,即语音信号具有短时平稳性。所以可以进行“短时分析”:将语音信号分为一段一段来分析其特征参数,其中每一段称为一“帧”),为保证帧与帧之间的平滑过渡,采用交叠分段的方法,其中每帧设计30ms,帧移10ms。
频谱变换:对去噪、分帧后的音频进行短时傅里叶(时间分辨率设置为帧长30ms)变换,转为频谱图,频谱图中包含三维信息(时间、频率、响度)。
步骤四,特征提取:如图3a、图3b所示,频谱图中所对应的振幅值若相比临近节点都大,那就是一个峰值(极大值),通过极大值选取,复杂的频谱图就简化成了稀疏的极大值坐标图。记录极大值形成H 1 =[a 1 ,a 2 ,a 3 ,a 4 ..a n ],H 2 =[b 1 ,b 2 ,b 3 ,b 4 ..b n ..b m ],同时记录H 2 中每个极值点对应的时间点集合T=[t 1 ,t 2 ,t 3 ,t 4 ..t n ..t m ] (H 1 为手机记录的短视频音频频谱图极大值集合,H 2 为现场原声音频频谱图极大值集合,维度方面H 1 << H 2 )。
步骤五,位置标定,开启循环计算:如图4所示,设:
P 1 =|a 1 -b 1 |+|a 2 -b 2 |+|a 3 -b 3 |+|a 4 -b 4 |+…+|a n -b n |,P 2 =|a 1 -b 2 |+|a 2 -b 3 |+|a 3 -b 4 |+|a 4 -b 5 |+…+|a n -b n+1 |,P 3 =|a 1 -b 3 |+|a 2 -b 4 |+|a 3 -b 5 |+|a 4 -b 6 |+…+|a n - b n+3 |,…,P m-n =|a 1 -b m-n |+|a 2 -b m-n+1 |+…+|a n-2 -b m-2 |+|a n-1 -b m-1 |+|a n -b m |,P1表示第1个偏差,P2表示第2个偏差,P3表示第3个偏差,Pm-n表示第m-n个偏差,获得偏差集合O=[ P 1 , P 2 , P 3 ,…P m-n ];找到O min =P i (1< i<m-n),通过P i 找到对应原声音频中的点位b i ,定位b i 所在的时间点t i
步骤六,带有原声音频的短视频制作。以t i 为起始点,在T2中截取T1为时间长度的原声音频,与手机拍摄到的短视频画面结合,完成带有原声音频的短视频制作,后将带有原声音频的短视频发送回移动端。
实施例1
一种用于匹配短视频声音与音乐现场原声音轨的音频检索方法,包括以下步骤:
S1,现场短视频拍摄;
S2,原声音频获取;
S3,音频检索;
S4,特征提取;
S5,位置标定,开启循环计算;
S6,带有原声音频的短视频制作。
实施例2
在实施例1的基础上,在步骤S1中,包括子步骤:通过移动端APP拍摄一段短视频,记录短视频时长T1,将短视频上传至云端制作平台。
实施例3
在实施例1的基础上,在步骤S2中,包括子步骤:通过调音台收录来自麦克风、各类乐器的音频信号,混合成一路音频,原声音频时长T2,将原声音频上传至云端制作平台。
实施例4
在实施例1的基础上,在步骤S3中,包括子步骤:
S31,音频预处理:对手机收录到的音频和调音台原声音频进行滤波处理;
S32,分帧:将不定长的音频切分成固定长度的小段,将语音信号分为多个小段来分析其特征参数,其中每一段称为一“帧”,此处“帧”与“帧”之间平滑过渡;
S33,频谱变换:对去噪、分帧后的音频进行短时傅里叶变换,转为频谱图,频谱图中包含三维信息:时间、频率、响度;在所述傅里叶变换中,包括将时间分辨率设置为帧长。
实施例5
在实施例4的基础上,在步骤S4中,包括子步骤:
频谱图中所对应的振幅值若相比临近节点都大,那就是一个极大值,通过极大值选取,将复杂的频谱图简化成稀疏的极大值坐标图;记录极大值形成H 1 =[a 1 ,a 2 ,a 3 ,a 4 ..a n ],H 2 =[b 1 ,b 2 ,b 3 ,b 4 ..b n ..b m ],同时记录H 2 中每个极值点对应的时间点集合T=[t 1 ,t 2 ,t 3 , t 4 ..t n ..t m ] ,H 1 为手机记录的短视频音频频谱图极大值集合,H 2 为现场原声音频频谱图极大值集合,维度方面H 1 << H 2
实施例6
在实施例5的基础上,在步骤S5中,包括子步骤:设:
P 1 =|a 1 -b 1 |+|a 2 -b 2 |+|a 3 -b 3 |+|a 4 -b 4 |+…+|a n -b n |,P 2 =|a 1 -b 2 |+|a 2 -b 3 |+|a 3 -b 4 |+|a 4 -b 5 |+…+|a n -b n+1 P 3 =|a 1 -b 3 |+|a 2 -b 4 |+|a 3 -b 5 |+|a 4 -b 6 |+…+|a n - b n+3 |,…,P m-n =|a 1 -b m-n |+|a 2 -b m-n+1 |+…+|a n-2 -b m-2 |+|a n-1 -b m-1 |+|a n -b m |,P1表示第1个偏差,P2表示第2个偏差,P3表示第3个偏差,Pm-n表示第m-n个偏差,获得偏差集合O=[ P 1 , P 2 , P 3 ,…P m-n ];找到偏差集合最小值O min =P i (1<i<m-n),通过P i 找到对应原声音频中的点位b i ,定位b i 所在的时间点t i
实施例7
在实施例6的基础上,在步骤S6中,包括子步骤:
t i 为起始点,在T2中截取T1为时间长度的原声音频,与手机拍摄到的短视频画面结合,完成带有原声音频的短视频制作,后将带有原声音频的短视频发送回移动端。
实施例8
在实施例2的基础上,所述移动端APP拍摄的短视频包括视频和音频,且含有现场噪声。
实施例9
在实施例4的基础上,在步骤S32中,将语音信号在一个设定的短时间范围内看成是特性基本保持不变即相对稳定,即语音信号具有短时平稳性。
实施例10
在实施例4的基础上,在步骤S32中,所述“帧”与“帧”之间平滑过渡,包括子步骤:采用交叠分段的方式,根据每段帧长设置帧移。
描述于本发明实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现,所描述的单元也可以设置在处理器中。其中,这些单元的名称在某种情况下并不构成对该单元本身的限定。
根据本申请的一个方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述各种可选实现方式中提供的方法。
作为另一方面,本申请还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被一个该电子设备执行时,使得该电子设备实现上述实施例中所述的方法。
本发明未涉及部分均与现有技术相同或可采用现有技术加以实现。
上述技术方案只是本发明的一种实施方式,对于本领域内的技术人员而言,在本发明公开了应用方法和原理的基础上,很容易做出各种类型的改进或变形,而不仅限于本发明上述具体实施方式所描述的方法,因此前面描述的方式只是优选的,而并不具有限制性的意义。
除以上实例以外,本领域技术人员根据上述公开内容获得启示或利用相关领域的知识或技术进行改动获得其他实施例,各个实施例的特征可以互换或替换,本领域人员所进行的改动和变化不脱离本发明的精神和范围,则都应在本发明所附权利要求的保护范围内。

Claims (6)

1.一种用于匹配短视频声音与音乐现场原声音轨的音频检索方法,其特征在于,包括以下步骤:
S1,现场短视频拍摄;
S2,原声音频获取;
S3,音频检索;在步骤S3中,包括子步骤:
S31,音频预处理:对手机收录到的音频和调音台原声音频进行滤波处理;
S32,分帧:将不定长的音频切分成固定长度的小段,将语音信号分为多个小段来分析其特征参数,其中每一段称为一“帧”,此处“帧”与“帧”之间平滑过渡;
S33,频谱变换:对去噪、分帧后的音频进行短时傅里叶变换,转为频谱图,频谱图中包含三维信息:时间、频率、响度;在所述傅里叶变换中,包括将时间分辨率设置为帧长;
S4,特征提取;在步骤S4中,包括子步骤:
频谱图中所对应的振幅值若相比临近节点都大,那就是一个极大值,通过极大值选取,将复杂的频谱图简化成稀疏的极大值坐标图;记录极大值形成H 1 =[a 1 ,a 2 ,a 3 ,a 4 ..a n ],H 2 =[b 1 ,b 2 ,b 3 ,b 4 ..b n ..b m ],m为正整数,n为正整数,同时记录H 2 中每个极值点对应的时间点集合T=[t 1 ,t 2 ,t 3 ,t 4 ..t n ..t m ] ,H 1 为手机记录的短视频音频频谱图极大值集合,H 2 为现场原声音频频谱图极大值集合,维度方面H 1 << H 2
S5,位置标定,开启循环计算;在步骤S5中,包括子步骤:设:
P 1 =|a 1 -b 1 |+|a 2 -b 2 |+|a 3 -b 3 |+|a 4 -b 4 |+…+|a n -b n |,P 2 =|a 1 -b 2 |+|a 2 -b 3 |+|a 3 -b 4 |+|a 4 -b 5 |+…+|a n -b n+1 P 3 =|a 1 -b 3 |+|a 2 -b 4 |+|a 3 -b 5 |+|a 4 -b 6 |+…+|a n - b n+3 |,…,P m-n =|a 1 -b m-n |+|a 2 -b m-n+1 |+…+|a n-2 -b m-2 |+|a n-1 -b m-1 |+|a n -b m |,P1表示第1个偏差,P2表示第2个偏差,P3表示第3个偏差,Pm-n表示第m-n个偏差,获得偏差集合O=[ P 1 , P 2 , P 3 ,…P m-n ];找到偏差集合最小值O min =P i 1<i<m-n,通过P i 找到对应原声音频中的点位b i ,定位b i 所在的时间点t i
S6,带有原声音频的短视频制作;在步骤S6中,包括子步骤:
t i 为起始点,在T2中截取T1为时间长度的原声音频,与手机拍摄到的短视频画面结合,完成带有原声音频的短视频制作,后将带有原声音频的短视频发送回移动端。
2.根据权利要求1所述的用于匹配短视频声音与音乐现场原声音轨的音频检索方法,其特征在于,在步骤S1中,包括子步骤:通过移动端APP拍摄一段短视频,记录短视频时长T1,将短视频上传至云端制作平台。
3.根据权利要求1所述的用于匹配短视频声音与音乐现场原声音轨的音频检索方法,其特征在于,在步骤S2中,包括子步骤:通过调音台收录来自麦克风、各类乐器的音频信号,混合成一路音频,原声音频时长T2,将原声音频上传至云端制作平台。
4.根据权利要求2所述的用于匹配短视频声音与音乐现场原声音轨的音频检索方法,其特征在于,所述移动端APP拍摄的短视频包括视频和音频,且含有现场噪声。
5.根据权利要求1所述的用于匹配短视频声音与音乐现场原声音轨的音频检索方法,其特征在于,在步骤S32中,将语音信号在一个设定的短时间范围内看成是特性基本保持不变即相对稳定,即语音信号具有短时平稳性。
6.根据权利要求1所述的用于匹配短视频声音与音乐现场原声音轨的音频检索方法,其特征在于,在步骤S32中,所述“帧”与“帧”之间平滑过渡,包括子步骤:采用交叠分段的方式,根据每段帧长设置帧移。
CN202211038139.6A 2022-08-29 2022-08-29 用于匹配短视频声音与音乐现场原声音轨的音频检索方法 Active CN115114475B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211038139.6A CN115114475B (zh) 2022-08-29 2022-08-29 用于匹配短视频声音与音乐现场原声音轨的音频检索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211038139.6A CN115114475B (zh) 2022-08-29 2022-08-29 用于匹配短视频声音与音乐现场原声音轨的音频检索方法

Publications (2)

Publication Number Publication Date
CN115114475A CN115114475A (zh) 2022-09-27
CN115114475B true CN115114475B (zh) 2022-11-29

Family

ID=83336295

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211038139.6A Active CN115114475B (zh) 2022-08-29 2022-08-29 用于匹配短视频声音与音乐现场原声音轨的音频检索方法

Country Status (1)

Country Link
CN (1) CN115114475B (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU2016101424A4 (en) * 2015-09-08 2016-09-15 Apple Inc. Device, method, and graphical user interface for providing audiovisual feedback
CN106462609A (zh) * 2014-04-18 2017-02-22 谷歌公司 用于呈现与媒体内容相关的音乐项的方法、系统和介质
CN106851394A (zh) * 2017-01-18 2017-06-13 广东小天才科技有限公司 一种背景音乐切换方法和装置
CN110191368A (zh) * 2019-05-31 2019-08-30 北京奇艺世纪科技有限公司 视频数据采集及对齐方法、装置、电子设备及系统
CN111198958A (zh) * 2018-11-19 2020-05-26 Tcl集团股份有限公司 匹配背景音乐的方法、装置及终端
CN113628637A (zh) * 2021-07-02 2021-11-09 北京达佳互联信息技术有限公司 一种音频识别方法、装置、设备及存储介质
US11227637B1 (en) * 2021-03-31 2022-01-18 Snap Inc. Synchronizing multiple images or videos to an audio track

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113539299A (zh) * 2021-01-12 2021-10-22 腾讯科技(深圳)有限公司 一种多媒体信息处理方法、装置、电子设备及存储介质

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106462609A (zh) * 2014-04-18 2017-02-22 谷歌公司 用于呈现与媒体内容相关的音乐项的方法、系统和介质
AU2016101424A4 (en) * 2015-09-08 2016-09-15 Apple Inc. Device, method, and graphical user interface for providing audiovisual feedback
CN106851394A (zh) * 2017-01-18 2017-06-13 广东小天才科技有限公司 一种背景音乐切换方法和装置
CN111198958A (zh) * 2018-11-19 2020-05-26 Tcl集团股份有限公司 匹配背景音乐的方法、装置及终端
CN110191368A (zh) * 2019-05-31 2019-08-30 北京奇艺世纪科技有限公司 视频数据采集及对齐方法、装置、电子设备及系统
US11227637B1 (en) * 2021-03-31 2022-01-18 Snap Inc. Synchronizing multiple images or videos to an audio track
CN113628637A (zh) * 2021-07-02 2021-11-09 北京达佳互联信息技术有限公司 一种音频识别方法、装置、设备及存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Known-Artist Live Song Identification Using Audio Hashprints;TJ Tsai et al.;《IEEE TRANSACTIONS ON MULTIMEDIA》;20170215;第19卷(第7期);1569-1582 *
基于乐景融合的VLOG智能生成系统设计;黄小倚;《中国优秀硕士学位论文全文数据库 信息科技辑》;20200815(第8期);I138-167 *

Also Published As

Publication number Publication date
CN115114475A (zh) 2022-09-27

Similar Documents

Publication Publication Date Title
US20220051685A1 (en) Method for transforming audio signal, device, and storage medium
CN111640411B (zh) 音频合成方法、装置及计算机可读存储介质
CN112399247A (zh) 一种音频处理方法、音频处理设备及可读存储介质
CN105792072A (zh) 一种音效处理方法、装置及终端
WO2023040520A1 (zh) 视频配乐方法、装置、计算机设备和存储介质
WO2020097824A1 (zh) 音频处理方法、装置、存储介质及电子设备
WO2020125325A1 (zh) 一种消除回声的方法和设备
JP2019511864A (ja) チャネル間時間差パラメータの安定性を増加させるための方法および装置
JP5395399B2 (ja) 携帯端末、拍位置推定方法および拍位置推定プログラム
CN115114475B (zh) 用于匹配短视频声音与音乐现场原声音轨的音频检索方法
CN105869656B (zh) 一种语音信号清晰度的确定方法及装置
KR20020015377A (ko) 스펙트럼 모델링
CN115209209A (zh) 一种演艺现场手机录制分发专业音频短视频的方法
CN107749301B (zh) 一种音色样本重构方法及系统、存储介质及终端设备
WO2020148246A1 (en) Device, method and computer program for blind source separation and remixing
CN114268831B (zh) 一种视频剪辑方法及装置
Moinet et al. Audio time-scaling for slow motion sports videos
CN112735481B (zh) Pop音检测方法、装置、终端设备及存储介质
CN103297674A (zh) 信号处理装置、系统和方法,程序,电子器件
Czyzewski et al. DSP techniques for determining “Wow” distortion
CN114157822A (zh) 一种视频的音频处理系统及其处理方法
JPWO2020066681A1 (ja) 情報処理装置および方法、並びにプログラム
KR102431737B1 (ko) 멀티미디어 데이터에서 하이라이트를 찾는 방법 및 그를 이용한 장치
CN108205550B (zh) 音频指纹的生成方法及装置
CN112951199B (zh) 音频数据生成方法及装置、数据集构建方法、介质、设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant