CN116994603A - 一种音频信号的检测方法、装置及计算设备 - Google Patents
一种音频信号的检测方法、装置及计算设备 Download PDFInfo
- Publication number
- CN116994603A CN116994603A CN202310763750.3A CN202310763750A CN116994603A CN 116994603 A CN116994603 A CN 116994603A CN 202310763750 A CN202310763750 A CN 202310763750A CN 116994603 A CN116994603 A CN 116994603A
- Authority
- CN
- China
- Prior art keywords
- amplitude
- sub
- frequency
- band
- determining
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000005236 sound signal Effects 0.000 title claims abstract description 115
- 238000001514 detection method Methods 0.000 title claims abstract description 30
- 238000000034 method Methods 0.000 claims abstract description 42
- 230000035772 mutation Effects 0.000 claims abstract description 36
- 230000000694 effects Effects 0.000 claims description 23
- 238000012545 processing Methods 0.000 claims description 16
- 238000009877 rendering Methods 0.000 claims description 7
- 238000006243 chemical reaction Methods 0.000 claims description 3
- 238000005070 sampling Methods 0.000 description 23
- 238000010586 diagram Methods 0.000 description 7
- 230000033764 rhythmic process Effects 0.000 description 6
- 238000004364 calculation method Methods 0.000 description 5
- 230000009286 beneficial effect Effects 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 208000015181 infectious disease Diseases 0.000 description 3
- 239000002245 particle Substances 0.000 description 3
- 235000003140 Panax quinquefolius Nutrition 0.000 description 2
- 240000005373 Panax quinquefolius Species 0.000 description 2
- 241000208967 Polygala cruciata Species 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000002708 enhancing effect Effects 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 235000017166 Bambusa arundinacea Nutrition 0.000 description 1
- 235000017491 Bambusa tulda Nutrition 0.000 description 1
- 244000082204 Phyllostachys viridis Species 0.000 description 1
- 235000015334 Phyllostachys viridis Nutrition 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 239000011425 bamboo Substances 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000003908 quality control method Methods 0.000 description 1
- 210000001525 retina Anatomy 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Auxiliary Devices For Music (AREA)
Abstract
本申请实施例提供一种音频信号的检测方法、装置及计算设备。其中,获取电子设备采集的多个音频信号,多个音频信号中包括至少一种乐器演奏所产生的多个音乐信号,多个音乐信号中包括幅度突变信号;将多个音频信号转化为频域音频数据,频域音频数据中包括按照频率高低进行排序的多个子频带;确定至少一种乐器演奏所产生的多个音乐信号对应的频率范围;根据所述频域音频数据,确定频率范围对应的子频带的幅度;若频率范围对应的子频带的幅度满足第一预设条件,将子频带对应的频域音频数据确定为幅度突变信号。本申请实施例提供的技术方案能够在音频信号中实时且快速确定幅度突变信号,提高了音频信号检测的实用性及检测效率。
Description
技术领域
本申请实施例涉及音频处理技术领域,尤其涉及一种音频信号的检测方法、装置及计算设备。
背景技术
随着互联网技术的高速发展,短视频、实时直播应运而生,其中包括音乐创意短视频以及舞蹈直播等。
例如在音乐创意短视频播放场景中,为提高用户的观看体验,通常会在短视频的鼓点等节奏强的音频信号中添加音频特效(例如,屏幕抖动、闪光特效或者是粒子特效等);例如在舞蹈直播场景中,通常会根据背景音乐,提取鼓点等节奏强的音频信号去触发音频特效。
然而现有方案通常只能够实现针对音频中的鼓点进行特效触发,造成实用性较低的问题,并且现有方案在通过离线计算音频信号的强弱时,只能够针对当前所播放的音频进行计算,当用户切换音频时需要实时重新计算,从而造成计算效率低的问题。
发明内容
本申请实施例提供一种音频信号的检测方法、装置及计算设备,用以解决现有技术中多个音频信号检测方案中存在实用性低、计算效率低的问题。
第一方面,本申请实施例中提供了一种音频信号的检测方法,包括:
获取电子设备采集的多个音频信号,所述多个音频信号中包括至少一种乐器演奏所产生的多个音乐信号,所述多个音乐信号中包括幅度突变信号,所述幅度突变信号为所述多个音频信号中发生幅度突变的信号;
将所述多个音频信号转化为频域音频数据,所述频域音频数据中包括按照频率高低进行排序的多个子频带;
确定至少一种乐器演奏所产生的多个音乐信号对应的频率范围;
根据所述频域音频数据,确定所述频率范围对应的子频带的幅度,所述子频带的幅度包括所述子频带在不同时间节点获取的幅度;
若所述频率范围对应的子频带的幅度满足第一预设条件,将所述子频带对应的频域音频数据确定为幅度突变信号。
可选地,所述根据所述频域音频数据,确定所述频率范围对应的子频带的幅度,所述子频带的幅度包括所述子频带在不同时间节点获取的幅度,包括:
将所述音频信号转化为频域音频数据;
在所述频域音频数据中,确定所述频率范围对应的子频带,并获取所述子频带在不同时间节点的幅度。
可选地,所述确定至少一种乐器演奏所产生的多个音乐信号对应的频率范围,包括:
在多个子频带中,选择感兴趣的一种乐器,并确定乐器演奏所产生的多个音乐信号对应的频率范围;或者,
在多个子频带中,确定每一种乐器演奏所产生的多个音乐信号对应的频率范围。
可选地,在所述将所述子频带对应的频域音频数据确定为幅度突变信号之后,还包括:
根据所述幅度突变信号,渲染音频特效。
可选地,所述第一预设条件包括所述频率范围对应的子频带的幅度是否大于平均幅度;
所述若所述频率范围对应的子频带的幅度满足第一预设条件,将所述子频带对应的频域音频数据确定为幅度突变信号,包括:
根据所述频率范围对应的子频带的幅度,计算平均幅度;
若所述频率范围对应的子频带的幅度大于所述平均幅度,将所述子频带对应的频域音频数据确定为幅度突变信号。
可选地,所述根据所述频率范围对应的子频带的幅度,计算平均幅度,包括:
获取所述子频带在不同时间节点的幅度,并将设定数量的幅度添加至滑动窗口;
在所述滑动窗口中,根据设定数量的幅度,计算出所述滑动窗口的平均幅度。
可选地,还包括:若所述滑动窗口中的幅度数量小于设定数量,继续获取满足所述频率范围的子频带对应幅度;
若获取满足所述频率范围的子频带对应幅度的幅度数量大于所述设定数量,将大于所述设定数量的幅度依次添加至所述滑动窗口,并依次移除所述滑动窗口中的首个幅度,以保持所述滑动窗口中的幅度数量不变。
可选地,还包括:
将最新添加至所述滑动窗口的幅度确定为瞬时幅度,并确定所述瞬时幅度的第一增量以及第二增量;其中,第一增量为所述瞬时幅度相比所述瞬时幅度加入后的平均幅值提高的幅度值,第二增量为所述瞬时幅度相比前一个幅度提高的幅度值;
若所述第一增量是否大于第一预设阈值且所述第二增量是否大于第二预设阈值,将所述瞬时幅度对应的频域音频数据确定为幅度突变信号。
第二方面,本申请实施例提供了一种音频信号的检测装置,包括:
获取模块,用于获取电子设备采集的多个音频信号,所述多个音频信号中包括至少一种乐器演奏所产生的多个音乐信号,所述多个音乐信号中包括幅度突变信号,所述幅度突变信号是所述多个音频信号中发生幅度突变的信号;
转化模块,用于将所述多个音频信号转化为频域音频数据,所述频域音频数据中包括按照频率高低进行排序的多个子频带;
确定模块,用于确定至少一种乐器演奏所产生的多个音乐信号对应的频率范围;根据所述频域音频数据,确定所述频率范围对应的子频带的幅度,所述子频带的幅度包括所述子频带在不同时间节点获取的幅度;若所述频率范围对应的子频带的幅度满足第一预设条件,将所述子频带对应的频域音频数据确定为幅度突变信号。
第三方面,本申请实施例提供了一种计算设备,包括处理组件以及存储组件;所述存储组件存储一个或多个计算机指令;所述一个或多个计算机指令用以被所述处理组件调用执行,实现如上述第一方面所述的音频信号的检测方法
所述功能可以通过硬件实现,也可以通过硬件执行相应的软件实现。所述硬件或软件包括一个或多个与上述功能相对应的模块。
本申请实施例中,获取电子设备采集的多个音频信号,多个音频信号中包括至少一种乐器演奏所产生的多个音乐信号,多个音乐信号中包括幅度突变信号;将多个音频信号转化为频域音频数据,频域音频数据中包括按照频率高低进行排序的多个子频带;确定至少一种乐器演奏所产生的多个音乐信号对应的频率范围;根据所述频域音频数据,确定频率范围对应的子频带的幅度;若频率范围对应的子频带的幅度满足第一预设条件,将子频带对应的频域音频数据确定为幅度突变信号。本申请实施例提供的技术方案能够在音频信号中快速确定幅度突变信号,提高了音频信号检测的实用性及检测效率。
本申请的这些方面或其他方面在以下实施例的描述中会更加简明易懂。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提高的一种音频信号的检测系统的系统架构图;
图2为本申请实施例提供的一种音频信号的检测方法一种实施例的流程图;
图3为本申请实施例提供的一种划分子频带的示意图;
图4为本申请实施例提供的另一种划分子频带的示意图;
图5为本申请实施例提供的一种滑动窗口的示意图;
图6为本申请实施例提供的一种音频信号的检测方法另一种实施例的流程图;
图7为本申请实施例提供的另一种滑动窗口的示意图;
图8为本申请实施例提供的一种音频信号的检测装置一个实施例的结构示意图;
图9为本申请实施例提供的一种计算设备的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述。
在本申请的说明书和权利要求书及上述附图中的描述的一些流程中,包含了按照特定顺序出现的多个操作,但是应该清楚了解,这些操作可以不按照其在本文中出现的顺序来执行或并行执行,操作的序号如101、102等,仅仅是用于区分开各个不同的操作,序号本身不代表任何的执行顺序。另外,这些流程可以包括更多或更少的操作,并且这些操作可以按顺序执行或并行执行。需要说明的是,本文中的“第一”、“第二”等描述,是用于区分不同的消息、设备、模块等,不代表先后顺序,也不限定“第一”和“第二”是不同的类型。
本申请实施例的技术方案可以适用于视频播放场景、直播场景等多种场景。
例如,以音乐创意短视频播放场景为例,本申请实施例的技术方案能够快速确定短视频中音频信号的幅度突变信号,其中,幅度突变信号为音频信号中发生幅度突变的信号,以便于根据幅度突变信号渲染相关特效,从而有利于增强短视频在听觉和视觉上的感染力,进而提升用户的观看体验。
例如,以舞蹈直播场景为例,本申请实施例的技术方案能够快速确定背景音乐中的幅度突变信号,以便于根据幅度突变信号渲染相关特效,从而有利于增强用户在直播场景中的听觉和视觉的感染力,进而提升用户的观看体验。
本申请在研究过程中发现,随着互联网技术的高速发展,短视频、实时直播应运而生,其中包括音乐创意短视频以及舞蹈直播等。
例如在音乐创意短视频播放场景中,为提高用户的观看体验,通常会在短视频的鼓点等节奏强的音频信号中添加音频特效(例如,屏幕抖动、闪光特效或者是粒子特效等),以增强短视频在听觉和视觉上的感染力;例如在舞蹈直播场景中,通常会根据背景音乐,提取鼓声等节奏强的音频信号去触发音频特效,以增强直播场景在听觉和视觉上的感染力。
然而现有的视频鼓点渲染方案、或者直播鼓点渲染方案中,通常只能够实现针对音频中的鼓点进行特效触发,造成实用性较低的问题,并且现有方案在通过离线计算音频信号的强弱时,只能够针对当前所播放的音频进行计算,当用户切换音频时需要实时重新计算,从而造成计算效率低的问题。
为解决上述现有方案所存在的问题,本申请提供了一种音频信号的检测方法,该方法包括:获取电子设备采集的多个音频信号,多个音频信号中包括至少一种乐器演奏所产生的多个音乐信号,多个音乐信号中包括幅度突变信号;将多个音频信号转化为频域音频数据,频域音频数据中包括按照频率高低进行排序的多个子频带;确定至少一种乐器演奏所产生的多个音乐信号对应的频率范围;根据所述频域音频数据,确定频率范围对应的子频带的幅度;若频率范围对应的子频带的幅度满足第一预设条件,将子频带对应的频域音频数据确定为幅度突变信号。本申请实施例提供的技术方案能够在音频信号中实时且快速确定幅度突变信号,提高了音频信号检测的实用性及检测效率。
在对本申请实施例的技术方案进行介绍之前,先对本申请实施例所涉及的相关概念进行简要介绍:
(1)幅度突变
本申请的幅度突变是指在音频信号在频域范围内产生的幅度突变的现象,例如,在笙乐中的一声鼓响,在平缓琴声中的高音符等。
(2)快速傅里叶变换
快速傅立叶变换(fast Fourier transform,FFT)是一种离散傅里叶变换(Discrete Fourier Transform,DFT)的高效算法,它能将一个信号转化为频谱分量,从而得出关于该信号的频率范围。FFT方法通常适用于对机械或某个系统进行缺陷分析,品质控制以及状态监测等。快速傅里叶变换是时域-频域变换分析中最基本的方法之一。
(3)滑动窗口
滑动窗口(Sliding Window)指的是这样一类问题的求解方法,在数组上通过双指针同向移动而解决的一类问题,本申请通过利用滑动窗口与平均幅度计算瞬时幅度对应的音频信号是否为幅度突变信号。
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
图1为本申请实施例提高的一种音频信号的检测系统的系统架构图,如图1所示,该系统包括服务器1以及多个电子设备21~2N。
其中,服务器1用于获取电子设备21~2N采集的多个音频信号,并在音频信号中实时且快速确定幅度突变信号。
具体地,服务器1用于获取电子设备21~2N采集的多个音频信号,多个音频信号中包括至少一种乐器演奏所产生的多个音乐信号,多个音乐信号中包括幅度突变信号;将多个音频信号转化为频域音频数据,频域音频数据中包括按照频率高低进行排序的多个子频带;确定至少一种乐器演奏所产生的多个音乐信号对应的频率范围;根据所述频域音频数据,确定频率范围对应的子频带的幅度;若频率范围对应的子频带的幅度满足第一预设条件,将子频带对应的频域音频数据确定为幅度突变信号。
可选地,多个电子设备21~2N可以是计算机设备或者手持设备,其实现形式可以有多种,例如可以是智能手机,个人电脑,平板电脑和智能音箱等。
多个电子设备21~2N用于采集自身电子设备所使用或者所收藏的音频信号,并将所述音频信号上传至服务器1。
基于上述音频信号的检测系统,服务器1能够在音频信号中实时且快速确定幅度突变信号,提高了音频信号检测的实用性及检测效率。
图2为本申请实施例提供的一种音频信号的检测方法一种实施例的流程图,如图2所述,该方法应用于上述音频信号的检测系统中的服务器1;
该方法包括:
201、获取电子设备采集的多个音频信号,所述多个音频信号中包括至少一种乐器演奏所产生的音乐信号;
在该步骤中,所述多个音乐信号中包括幅度突变信号,所述幅度突变信号为所述多个音频信号中发生幅度突变的信号,例如,幅度突变信号可以是在笙乐中的一声鼓响,在平缓琴声中的高音符等。
本申请实施例中,多个音频信号可以来源于一个电子设备所收藏或者使用(不限于使用场景)的多个音乐,或者多个电子设备所收藏或者使用(不限于使用场景)的多个音乐。具体地,多个音频信号可以是来源于电子设备在视频所使用的单个或者多个背景音乐或者是直播场景所使用的单个或者多个背景音乐等,本申请对此不作限定。
也就是说,本申请实施例能过够获取电子设备采集的多个音频信号,并通过本申请的音频信号检测方法在音频信号中实时且快速确定幅度突变信号,相较于现存技术而言,本申请能够实现同时对多个音频信号进行实时确定幅度突变信号,从而提高了音频信号检测的实用性及检测效率。
202、将所述多个音频信号转化为频域音频数据,所述频域音频数据中包括按照频率高低进行排序的多个子频带;
本申请实施例中,所获取的多个音频信号通常为一种时域信号,可选地,可通过子带编码技术,将多个音频信号由时域转变为频域,再将频域分割为若干个子频带,并对其分别进行数字编码。可选地,可利用带通滤波器(BPF)组把多个音频信号分割为若干个子频带。
可选地,作为一种可能实现的方案,可按照采样频率,将频域音频数据划分为按照频率高低进行排序的多个子频带,如图3所示,以采样频率为48K为例,可将频域音频数据划分为按照频率高低进行排序的多个子频带,多个子频带以每秒周期数等间距分布,从0Hz开始,到固有频率(采样频率/2)结束。
可选地,作为另一种可能实现的方案,可按照采样频率以及采样点,将频域音频数据划分为按照频率高低进行排序的多个子频带,如图4所示,以采样频率为48K的音频信号,所设定采样点为1024个采样点为例,通过奈奎斯特采样定律,确定其固有频率为48K/2=24K(由于采样频率是固有频率的2倍才能重建,所以固有频率为24K),进一步地,由于FFT谱有一半是镜像的,因此取一半采样点进行计算,因此多个子频率的频率范围=0~((固有频率/(采样点/2))*512),即多个子频率的频率范围=0~((48K/2)/(1024/2))*512(0~46.875*512)。
203、确定至少一种乐器演奏所产生的多个音乐信号对应的频率范围;
本申请实施例中,由于各乐器的频率范围基本是固定,可根据经验获取每种乐器演奏所产生的音乐信号对应的频率范围,或者是根据频率检测实验获取到每种乐器演奏所产生的音乐信号对应的频率范围。例如,以鼓为例,其音乐信号对应的频率范围通常为40~80Hz。以钢琴为例,其音乐信号对应的频率范围通常为27~4186Hz。
此外,考虑到钢琴等乐器的频率范围较高,因此可设定指定音符(例如高音音符)为“节奏点”,并获取“节奏点”音乐信号对应的频率范围(例如将3000Hz~4186Hz)作为后续确定幅度突变信号的参考,其中,节奏点可理解为需要渲染音频特效的备选点,类似于鼓点。
204、在所述频域音频数据中,确定所述频率范围对应的子频带的幅度,所述子频带的幅度包括所述子频带在不同时间节点获取的幅度;
在该步骤中,在频域音频数据中包括多个子频带。
本申请实施例中,可选地,步骤204包括:通过根据快速傅里叶变化算法(FFT),将音频信号转化为频域音频数据,并在所述频域音频数据中,确定所述频率范围对应的子频带,获取所述子频带在不同时间节点的幅度。
需要说明的是,在确定所述频率范围对应的子频带的过程中,若该频率范围涉及到多个子频带,可根据频率范围在各个子频带的权重占比,进一步地,根据频率范围在各个子频带的权重占比,计算该子频带在不同时间节点的幅度。
其中,子频带的幅度为FFT的结果取模,如FFT的结果为复数(ai+bi)时,对复数(ai+bi)取模即可获得幅度,即幅度=sqrt(ai 2+bi 2),其中,i表示为ti时间节点。
例如,以上述步骤203所计算的频率范围为例,所划分的多个子频带如图3所示,在图3中多个子频带以每秒周期数等间距分布,从0Hz开始,到固有频率(采样频率/2)结束。具体地,频域音频数据可包括等间距分布的(1024/2)个子频带,其中,第一个子频带对应的频域范围为0Hz~40Hz,第二个子频带对应的频域范围为40Hz~80Hz,以此类推,第n个子频带对应的频域范围为40*(n-1)Hz~40*nHz。
根据上述方案,假设某一乐器的频率范围为30~50Hz,可确定该范围频带涉及到第一个子频带和第二个子频带,可根据该频率范围在第一个子频带的权重占比和第二个子频带的权重占比(例如,该乐器的频域范围30~40Hz在第一个子频带中,40~50Hz在第二个子频带中,因此两个子频带的权重占比分别为50%),因此可计算该频率范围对应的子频带在不同时间节点的幅度=sqrt(a1 2+b1 2)*0.5+sqrt(a2 2+b2 2)*0.5,其中,sqrt(a1 2+b1 2)表示为第一个子频带的幅度,sqrt(a2 2+b2 2)表示为第二个子频带的幅度,0.5表示权重占比。
需要说明的是,每个子频带在每个时间节点只有一个对应的幅度,可根据所设定的时间节点,获取不同时间节点每个子频带对应的幅度。例如,某一乐器的频域范围全部位于第二个子频带时,可通过公式:幅度=sqrt(a2 2+b2 2),获取第二个子频带在不同时间节点的幅度,具体地,可以在不同时间节点获取的幅度为et0~etn,其中,et0~etn均通过公式:幅度=sqrt(a2 2+b2 2)计算得到,其中,et0表示为在t0时间节点,1024个采样点做FFT获取对应子频带上的幅度,同理,etn表示为在tn时间节点,1024个采样点做FFT获取对应子频带上的幅度。
此外,需要说明的是,由于各乐器的频率范围基本是固定的,但不同的采样频率以及不同采样点得到的子频带范围略有不同(即频域分辨率不同),因此,不同乐器所对应的子频带不同,同一乐器在不同采样频率或者不同采样点所对应的子频带不同,具体可根据需求设定采样频率及采样点。
205、若所述频率范围对应的子频带的幅度满足第一预设条件,将所述子频带对应的频域音频数据确定为幅度突变信号。
在该步骤中,可选地,第一预设条件可包括所述频率范围对应的子频带的幅度是否大于平均幅度,除此之外还可以设定其他条件,本申请对此不做限定。
本申请实施例中,可选地,平均幅度的确定方式可包括:获取所述子频带在不同时间节点的幅度,并将设定数量的幅度添加至滑动窗口;在滑动窗口中,根据设定数量的幅度,计算出所述滑动窗口的平均幅度。
其中,设定数量为经验值,例如,设定数量=40~50,可根据需求设定。
例如,以某一乐器的频率范围为50~80Hz为例,在图4中,可确定该乐器的频率范围为第二个子频带,其中,第二个子频带对应的频域范围为46.875Hz~(46.875*2),根据上述步骤,可计算第二个子频带对应的幅度=sqrt(a2 2+b2 2),将该子频带对应的多个幅度et0~etn添加至滑动窗口,其中,et0~etn均通过幅度=sqrt(a2 2+b2 2)计算,如图5所示,在图5中,滑动窗口包括46.875Hz~(46.875*2)对应的多个幅度et0~etn,其中0~n的数量为设定数量。例如以0~n的数量为40为例,滑动窗口包括46.875Hz~(46.875*2)对应的多个幅度et0~et39。
进一步地,可通过公式:平均幅度=Σeti/(n+1),计算出所述滑动窗口的平均幅度,其中,i≥0,n表示为设定数量,eti表示为在ti时间节点时设定采样点做FFT获取对应子频带上的幅度,Σeti表示为在全部时间节点,设定采样点做FFT获取对应子频带上的幅度之和。
本申请实施例中,基于上述可选方案,在计算出所述滑动窗口的平均幅度之后,可确定大于该平均幅度的eti,并将eti对应的频域音频数据确定为幅度突变信号。
本申请的技术方案中,通过获取电子设备采集的多个音频信号,多个音频信号中包括至少一种乐器演奏所产生的多个音乐信号,多个音乐信号中包括幅度突变信号;将多个音频信号转化为频域音频数据,频域音频数据中包括按照频率高低进行排序的多个子频带;确定至少一种乐器演奏所产生的多个音乐信号对应的频率范围;根据所述频域音频数据,确定频率范围对应的子频带的幅度;若频率范围对应的子频带的幅度满足第一预设条件,将子频带对应的频域音频数据确定为幅度突变信号,能够在音频信号中实时且快速确定幅度突变信号,提高了音频信号检测的实用性及检测效率。
图6为本申请实施例提供的一种音频信号的检测方法另一种实施例的流程图,如图6所述,该方法应用于上述音频信号的检测系统中的服务器1;
该方法包括:
601、获取电子设备采集的多个音频信号。
在该步骤中,所述多个音频信号中包括至少一种乐器演奏所产生的音乐信号,所述多个音乐信号中包括幅度突变信号,所述幅度突变信号为所述多个音频信号中发生幅度突变的信号。
602、将所述多个音频信号转化为频域音频数据,所述频域音频数据中包括按照频率高低进行排序的多个子频带。
603、确定至少一种乐器演奏所产生的多个音乐信号对应的频率范围;
本申请实施例中,作为一种可能实现的方案,步骤603可包括:在多个子频带中,选择感兴趣的一种乐器,并确定乐器演奏所产生的多个音乐信号对应的频率范围。
在该方案中,可用户需求选择用户感兴趣的一种乐器,如鼓声、箫声、琴声等,并确定用户感兴趣的乐器,其对应的频率范围,与减少频率范围的计算量,提升后续检测幅度突变信号的检测效率。
作为另一种可能实现的方案,步骤603可包括:在多个子频带中,确定每一种乐器演奏所产生的多个音乐信号对应的频率范围。
在该方案中,需要确定每一种乐器演奏所产生的多个音乐信号对应的频率范围,以便后续获取更多的幅度突变信号,并根据幅度突变信号渲染相关特效,从而有利于提升用户观看体验。
604、将所述音频信号转化为频域音频数据;在所述频域音频数据中,确定所述频率范围对应的子频带,并获取所述子频带在不同时间节点的幅度。
605、根据所述频率范围对应的子频带的幅度,计算平均幅度。
本申请实施例中,具体地,可获取所述子频带在不同时间节点的幅度,并将设定数量的幅度添加至滑动窗口,并在滑动窗口中,根据设定数量的幅度,计算出所述滑动窗口的平均幅度。
需要说明的是,若所述滑动窗口中的幅度数量小于设定数量,继续获取满足所述频率范围的子频带对应幅度;若获取满足所述频率范围的子频带对应幅度的幅度数量大于所述设定数量,将大于所述设定数量的幅度依次添加至所述滑动窗口,并依次移除所述滑动窗口中的首个幅度,以保持所述滑动窗口中的幅度数量不变。
在上述过程中,若所述滑动窗口中的幅度数量小于设定数量,继续获取满足所述频率范围的子频带对应幅度;若获取满足所述频率范围的子频带对应幅度的幅度数量大于所述设定数量,将大于所述设定数量的幅度依次添加至所述滑动窗口,并依次移除所述滑动窗口中的首个幅度。
也就是说,例如以设定数量包括40为例,当第41个幅度添加至滑动窗口时,移除滑动窗口的第一个幅度,以此类事。
如图5和图7所示,在图7中,当etn+1添加至滑动窗口时,移除滑动窗口的第一个幅度et0,此时的滑动窗口包括et1~etn+1个幅度,保持所述滑动窗口中的幅度数量不变。
需要说明的是,当滑动窗口出现新增幅度时(如上述新增的第41个幅度、etn+1幅度等),需要重新计算所述滑动窗的平均幅度。
606、将最新添加至所述滑动窗口的幅度确定为瞬时幅度,并确定所述瞬时幅度的第一增量以及第二增量,其中,第一增量为所述瞬时幅度相比所述瞬时幅度加入后的平均幅值提高的幅度值;第二增量为所述瞬时幅度相比前一个幅度提高的幅度值。
本申请实施例中,第一增量ratio1=(etn+1-平均幅值)/平均幅值,其中,etn+1是指瞬时幅度,也叫新增幅度,平均幅值是指etn+1加入后的平均幅值,其中,平均幅值=Σeti/(n+1)。
第二增量ratio2=(etn+1-etn)/etn,其中,etn为etn+1的前一个幅度。
例如,以滑动窗口包括et0~et7、瞬时幅度为et8、设定数量=8为例,当瞬时幅度加入滑动窗口后,移除et0,并计算et8加入后的平均幅值,以及et8的第一增量ratio1=(et1+et2+...+et8)/8。et8的第二增量ratio2=(et8-et7)/et7。
需要说明的是,在执行步骤606之前,还需要确定etn+1加入后的平均幅值是否大于0,若是,计算瞬时幅度的第一增量。确定etn+1的前一个幅度是否大于0,若是,计算瞬时幅度的第二增量。
607、若所述第一增量是否大于第一预设阈值且所述第二增量是否大于第二预设阈值,将所述瞬时幅度对应的频域音频数据确定为幅度突变信号。
其中,其中,第一设定阈值和第二设定阈值为经验值,可根据需求设定。
需要说明的是,若仅满足第一增量是否大于第一预设阈值,或者仅满足第二增量是否大于第二预设阈值的情况下,则认为未产生幅度突变信号。
608、根据所述幅度突变信号,渲染音频特效。
本申请实施例中,音频特效可根据需求设定,例如,音频特效可以是画面产生粒子特效、画面抖动、画面闪光等,本申请对此不做限定。通过在幅度突变信号中渲染音频特效,有利于提升音视频在听觉和视觉上的感染力,进而提升用户的观看体验。
图8为本申请实施例提供的一种音频信号的检测装置一个实施例的结构示意图,如图8所示,该装置包括:
获取模块81,用于获取电子设备采集的多个音频信号,所述多个音频信号中包括至少一种乐器演奏所产生的多个音乐信号,所述多个音乐信号中包括幅度突变信号,所述幅度突变信号是所述多个音频信号中发生幅度突变的信号;
转化模块82,用于将所述多个音频信号转化为频域音频数据,所述频域音频数据中包括按照频率高低进行排序的多个子频带;
确定模块83,用于确定至少一种乐器演奏所产生的多个音乐信号对应的频率范围;根据所述频域音频数据,确定所述频率范围对应的子频带的幅度,所述子频带的幅度包括所述子频带在不同时间节点获取的幅度;若所述频率范围对应的子频带的幅度满足第一预设条件,将所述子频带对应的频域音频数据确定为幅度突变信号。
可选地,本申请实施例中,所述确定模块83具体用于将所述音频信号转化为频域音频数据;在所述频域音频数据中,确定所述频率范围对应的子频带,并获取所述子频带在不同时间节点的幅度。
可选地,本申请实施例中,所述确定模块83具体用于在多个子频带中,选择感兴趣的一种乐器,并确定乐器演奏所产生的多个音乐信号对应的频率范围;或者,在多个子频带中,确定每一种乐器演奏所产生的多个音乐信号对应的频率范围。
可选地,本申请实施例中,该装置还包括:渲染模块84;
渲染模块84用于根据所述幅度突变信号,渲染音频特效。
可选地,本申请实施例中,所述第一预设条件包括所述频率范围对应的子频带的幅度是否大于平均幅度;
所述确定模块83具体用于根据所述频率范围对应的子频带的幅度,计算平均幅度;若所述频率范围对应的子频带的幅度大于所述平均幅度,将所述子频带对应的频域音频数据确定为幅度突变信号。
可选地,本申请实施例中,所述确定模块83具体用于获取所述子频带在不同时间节点的幅度,并将设定数量的幅度添加至滑动窗口;在滑动窗口中,根据设定数量的幅度,计算出所述滑动窗口的平均幅度。
可选地,本申请实施例中,该装置还包括:窗口处理模块85;
窗口处理模块85用于若所述滑动窗口中的幅度数量小于设定数量,继续获取满足所述频率范围的子频带对应幅度;若获取满足所述频率范围的子频带对应幅度的幅度数量大于所述设定数量,将大于所述设定数量的幅度依次添加至所述滑动窗口,并依次移除所述滑动窗口中的首个幅度,以保持所述滑动窗口中的幅度数量不变。
可选地,本申请实施例中,窗口处理模块85还用于将最新添加至所述滑动窗口的幅度确定为瞬时幅度,并确定所述瞬时幅度的第一增量以及第二增量;其中,第一增量为所述瞬时幅度相比所述瞬时幅度加入后的平均幅值提高的幅度值,第二增量为所述瞬时幅度相比前一个幅度提高的幅度值;
若所述第一增量是否大于第一预设阈值且所述第二增量是否大于第二预设阈值,确定模块83还用于将所述瞬时幅度对应的频域音频数据确定为幅度突变信号。
图8所述的音频信号的检测装置可以执行图6所示实施例所述的音频信号的检测方法,其实现原理和技术效果不再赘述。对于上述实施例中的音频信号的检测装置其中各个模块、单元执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
在一个可能的设计中,图8所示实施例的音频信号的检测装置可以实现为计算设备,如图9所示,该计算设备可以包括存储组件901以及处理组件902;
所述存储组件901存储一条或多条计算机指令,其中,所述一条或多条计算机指令供所述处理组件调用执行。
所述处理组件902用于:获取电子设备采集的多个音频信号,多个音频信号中包括至少一种乐器演奏所产生的多个音乐信号,多个音乐信号中包括幅度突变信号;将多个音频信号转化为频域音频数据,频域音频数据中包括按照频率高低进行排序的多个子频带;确定至少一种乐器演奏所产生的多个音乐信号对应的频率范围;根据所述频域音频数据,确定频率范围对应的子频带的幅度;若频率范围对应的子频带的幅度满足第一预设条件,将子频带对应的频域音频数据确定为幅度突变信号。
其中,处理组件902可以包括一个或多个处理器来执行计算机指令,以完成上述的方法中的全部或部分步骤。当然处理组件也可以为一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述方法。
存储组件901被配置为存储各种类型的数据以支持在终端的操作。存储组件可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。
显示组件903可以为电致发光(EL)元件、液晶显示器或具有类似结构的微型显示器、或者视网膜可直接显示或类似的激光扫描式显示器。
当然,计算设备必然还可以包括其他部件,例如输入/输出接口、通信组件等。
输入/输出接口为处理组件和外围接口模块之间提供接口,上述外围接口模块可以是输出设备、输入设备等。
通信组件被配置为便于计算设备和其他设备之间有线或无线方式的通信等。
其中,该计算设备可以为物理设备或者云计算平台提供的弹性计算主机等,此时计算设备即可以是指云服务器,上述处理组件、存储组件等可以是从云计算平台租用或购买的基础服务器资源。
本申请实施例还提供了一种计算机存储介质,存储有计算机程序,所述计算机程序被计算机执行时可以实现上述图6所示实施例的音频信号的检测方法。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。
Claims (10)
1.一种音频信号的检测方法,其特征在于,包括:
获取电子设备采集的多个音频信号,所述多个音频信号中包括至少一种乐器演奏所产生的多个音乐信号,所述多个音乐信号中包括幅度突变信号,所述幅度突变信号为所述多个音频信号中发生幅度突变的信号;
将所述多个音频信号转化为频域音频数据,所述频域音频数据中包括按照频率高低进行排序的多个子频带;
确定至少一种乐器演奏所产生的多个音乐信号对应的频率范围;
根据所述频域音频数据,确定所述频率范围对应的子频带的幅度,所述子频带的幅度包括所述子频带在不同时间节点获取的幅度;
若所述频率范围对应的子频带的幅度满足第一预设条件,将所述子频带对应的频域音频数据确定为幅度突变信号。
2.根据权利要求1所述的方法,其特征在于,所述根据所述频域音频数据,确定所述频率范围对应的子频带的幅度,所述子频带的幅度包括所述子频带在不同时间节点获取的幅度,包括:
将所述音频信号转化为频域音频数据;
在所述频域音频数据中,确定所述频率范围对应的子频带,并获取所述子频带在不同时间节点的幅度。
3.根据权利要求1所述的方法,其特征在于,所述确定至少一种乐器演奏所产生的多个音乐信号对应的频率范围,包括:
在多个子频带中,选择感兴趣的一种乐器,并确定乐器演奏所产生的多个音乐信号对应的频率范围;或者,
在多个子频带中,确定每一种乐器演奏所产生的多个音乐信号对应的频率范围。
4.根据权利要求1所述的方法,其特征在于,在所述将所述子频带对应的频域音频数据确定为幅度突变信号之后,还包括:
根据所述幅度突变信号,渲染音频特效。
5.根据权利要求1所述的方法,其特征在于,所述第一预设条件包括所述频率范围对应的子频带的幅度是否大于平均幅度;
所述若所述频率范围对应的子频带的幅度满足第一预设条件,将所述子频带对应的频域音频数据确定为幅度突变信号,包括:
根据所述频率范围对应的子频带的幅度,计算平均幅度;
若所述频率范围对应的子频带的幅度大于所述平均幅度,将所述子频带对应的频域音频数据确定为幅度突变信号。
6.根据权利要求5所述的方法,其特征在于,所述根据所述频率范围对应的子频带的幅度,计算平均幅度,包括:
获取所述子频带在不同时间节点的幅度,并将设定数量的幅度添加至滑动窗口;
在所述滑动窗口中,根据设定数量的幅度,计算出所述滑动窗口的平均幅度。
7.根据权利要求6所述的方法,其特征在于,还包括:若所述滑动窗口中的幅度数量小于设定数量,继续获取满足所述频率范围的子频带对应幅度;
若获取满足所述频率范围的子频带对应幅度的幅度数量大于所述设定数量,将大于所述设定数量的幅度依次添加至所述滑动窗口,并依次移除所述滑动窗口中的首个幅度,以保持所述滑动窗口中的幅度数量不变。
8.根据权利要求7所述的方法,其特征在于,还包括:
将最新添加至所述滑动窗口的幅度确定为瞬时幅度,并确定所述瞬时幅度的第一增量以及第二增量;其中,第一增量为所述瞬时幅度相比所述瞬时幅度加入后的平均幅值提高的幅度值,第二增量为所述瞬时幅度相比前一个幅度提高的幅度值;
若所述第一增量是否大于第一预设阈值且所述第二增量是否大于第二预设阈值,将所述瞬时幅度对应的频域音频数据确定为幅度突变信号。
9.一种音频信号的检测装置,其特征在于,包括:
获取模块,用于获取电子设备采集的多个音频信号,所述多个音频信号中包括至少一种乐器演奏所产生的多个音乐信号,所述多个音乐信号中包括幅度突变信号,所述幅度突变信号是所述多个音频信号中发生幅度突变的信号;
转化模块,用于将所述多个音频信号转化为频域音频数据,所述频域音频数据中包括按照频率高低进行排序的多个子频带;
确定模块,用于确定至少一种乐器演奏所产生的多个音乐信号对应的频率范围;根据所述频域音频数据,确定所述频率范围对应的子频带的幅度,所述子频带的幅度包括所述子频带在不同时间节点获取的幅度;若所述频率范围对应的子频带的幅度满足第一预设条件,将所述子频带对应的频域音频数据确定为幅度突变信号。
10.一种计算设备,其特征在于,包括处理组件以及存储组件;所述存储组件存储一个或多个计算机指令;所述一个或多个计算机指令用以被所述处理组件调用执行,实现如权利要求1~8任一项所述的音频信号的检测方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310763750.3A CN116994603A (zh) | 2023-06-27 | 2023-06-27 | 一种音频信号的检测方法、装置及计算设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310763750.3A CN116994603A (zh) | 2023-06-27 | 2023-06-27 | 一种音频信号的检测方法、装置及计算设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116994603A true CN116994603A (zh) | 2023-11-03 |
Family
ID=88524022
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310763750.3A Pending CN116994603A (zh) | 2023-06-27 | 2023-06-27 | 一种音频信号的检测方法、装置及计算设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116994603A (zh) |
-
2023
- 2023-06-27 CN CN202310763750.3A patent/CN116994603A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10511908B1 (en) | Audio denoising and normalization using image transforming neural network | |
CN110265064B (zh) | 音频爆音检测方法、装置和存储介质 | |
RU2665298C1 (ru) | Усовершенствованное гармоническое преобразование на основе блока поддиапазонов | |
CN109922268B (zh) | 视频的拍摄方法、装置、设备及存储介质 | |
US20080262836A1 (en) | Pitch estimation apparatus, pitch estimation method, and program | |
CN109348274A (zh) | 一种直播互动方法、装置及存储介质 | |
Hill et al. | A hybrid virtual bass system for optimized steady-state and transient performance | |
CN109074814B (zh) | 一种噪声检测方法及终端设备 | |
JP2023548707A (ja) | 音声強調方法、装置、機器及びコンピュータプログラム | |
CN112712816A (zh) | 语音处理模型的训练方法和装置以及语音处理方法和装置 | |
AU2019335404B2 (en) | Methods and apparatus to fingerprint an audio signal via normalization | |
CN112866770B (zh) | 一种设备控制方法、装置、电子设备及存储介质 | |
CN112423019B (zh) | 调整音频播放速度的方法、装置、电子设备及存储介质 | |
CN116994603A (zh) | 一种音频信号的检测方法、装置及计算设备 | |
CN112365868A (zh) | 声音处理方法、装置、电子设备及存储介质 | |
CN107113065B (zh) | 通过可听见的声音在设备之间的数据传输的方法和系统 | |
CN111782859A (zh) | 一种音频可视化方法、装置和存储介质 | |
JP2015210480A (ja) | ピッチ情報生成装置、ピッチ情報生成方法、及びプログラム | |
US11817069B2 (en) | Mutating spectral resynthesizer system and methods | |
CN114678038A (zh) | 音频噪声检测方法、计算机设备和计算机程序产品 | |
JP2015200685A (ja) | アタック位置検出プログラムおよびアタック位置検出装置 | |
CN107493118B (zh) | 信号获取方法及装置 | |
WO2021046392A1 (en) | Methods and apparatus to identify media | |
US9154169B2 (en) | Fractional symbol based phase noise mitigation | |
Mu | Perceptual quality improvement and assessment for virtual bass system |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |