CN113539296B - 一种基于声音强度的音频高潮检测算法、存储介质及装置 - Google Patents
一种基于声音强度的音频高潮检测算法、存储介质及装置 Download PDFInfo
- Publication number
- CN113539296B CN113539296B CN202110740195.3A CN202110740195A CN113539296B CN 113539296 B CN113539296 B CN 113539296B CN 202110740195 A CN202110740195 A CN 202110740195A CN 113539296 B CN113539296 B CN 113539296B
- Authority
- CN
- China
- Prior art keywords
- sound intensity
- audio
- trend
- time
- climax
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 38
- 238000005070 sampling Methods 0.000 claims abstract description 25
- 238000012216 screening Methods 0.000 claims abstract description 5
- 230000033764 rhythmic process Effects 0.000 claims abstract description 4
- 238000001914 filtration Methods 0.000 claims description 7
- 238000012935 Averaging Methods 0.000 claims description 6
- 238000009499 grossing Methods 0.000 claims description 4
- 238000004891 communication Methods 0.000 claims description 3
- 230000000630 rising effect Effects 0.000 claims description 3
- 238000000034 method Methods 0.000 abstract description 5
- 238000012790 confirmation Methods 0.000 abstract description 4
- 230000008859 change Effects 0.000 abstract description 3
- 230000005236 sound signal Effects 0.000 abstract description 3
- 230000006870 function Effects 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000001228 spectrum Methods 0.000 description 3
- 230000001174 ascending effect Effects 0.000 description 1
- HAORKNGNJCEJBX-UHFFFAOYSA-N cyprodinil Chemical group N=1C(C)=CC(C2CC2)=NC=1NC1=CC=CC=C1 HAORKNGNJCEJBX-UHFFFAOYSA-N 0.000 description 1
- 210000005069 ears Anatomy 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/90—Pitch determination of speech signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/90—Pitch determination of speech signals
- G10L2025/906—Pitch tracking
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Circuit For Audible Band Transducer (AREA)
- Stereophonic System (AREA)
Abstract
本发明公开了一种基于声音强度的音频高潮检测算法、存储介质及装置,方法包括以下步骤:获取待检测的音频数据;从音频数据中选择N个采样点并计算出相应的声音强度值;从N个采样点的时间及其声音强度值筛选出趋势节点;输出多个局部最高点所对应的多个初始高潮时间片段;将处于一个八拍音乐节奏的相邻初始高潮时间片段进行合并,得到中间级高潮时间片段;对中间级高潮时间片段进行最大跃升趋势调整;将待推荐高潮时间片段与音乐拍子数进行匹配。本发明通过音频信号的声音强度变化特性,动态截取了音频高潮部分,使用拍子数和声学特性进行高潮部分的同一时刻确认,可有效的简化用户的操作步骤,达到一键完成准确的音频高潮检测功能。
Description
技术领域
本发明涉及音频处理技术领域,特别涉及一种基于声音强度的音频高潮检测算法、存储介质及装置。
背景技术
用户进行音频剪辑时,往往伴随视频或者图片的混合制作,因此更倾向于获取音频高潮部分,用于表达某种特定场景。但是不同音频数据高潮的时间跨度和出现次数都不相同,导致用户需要花较长的时间,反复听辨才可以找到准确的音频高潮。因此音频高潮检测算法的目的就是通过计算声学特征来帮助用户挑选合适的音频高潮时间段。
目前在比较主流的音乐播放器都有音频高潮检测这一功能。这些音频高潮检测所采用的主流算法都是基于频谱和高频词的检测方法,对大量的歌词进行词频和较远距离重复段落的进行统计,与频谱上的高低频率交替点进行同一时刻的确认,从而确定音频高潮部分。
现有音频高潮检测算法虽然可以准确检验一部分音频的高潮段落,但仍存在诸多难点:1.一般认为音频高潮检测部分是副歌部分,目前主流高潮检测算法也对应了这一原则,但是在实际的检测中存在着音频高潮检测时间点不准确,并且给音频高潮时间段进行了固定截取长度的设置,导致往往算法只能提供一个很粗略的位置。2.对于没有歌词的音乐,往往效果较差,无法借助高频词进行频谱图的辅助,而单纯的基于频谱的音频高潮检测,容易检测因为乐器的快速打击而误认为的高潮点,导致音频高潮部分无法被准确识别。3.对于音频高潮检测没有参考乐理特性,导致现有算法无法给予音频高潮起始、高潮、回落的音乐过程,导致算法出现音频截取后歌词从中间首个位置开始唱或者唱到一半戛然而止的情况。
发明内容
本发明旨在至少解决现有技术中存在的技术问题之一。为此,本发明提出一种基于声音强度的音频高潮检测算法、存储介质及装置,旨在解决现有音频高潮检测不够准确的问题。
根据本发明第一方面实施例的一种基于声音强度的音频高潮检测算法,包括以下步骤:S100、获取待检测的音频数据;S200、从所述音频数据中选择N个采样点并计算出相应的声音强度值,所述N个采样点在所述音频数据的时间长度上均匀分布;S300、从所述N个采样点的时间及其声音强度值筛选出反映声音强度开始上升和开始下降的趋势节点;S400、从所述趋势节点中选择出多个局部最高点,根据设定的音频高潮强度阈值输出多个所述局部最高点所对应的多个初始高潮时间片段;S500、检测所有所述初始高潮时间片段,将处于一个八拍音乐节奏的相邻所述初始高潮时间片段进行合并,得到含有单个或合并多个初始高潮时间片段的中间级高潮时间片段;S600、对所述中间级高潮时间片段进行最大跃升趋势调整从而得到待推荐高潮时间片段;S700、将所述待推荐高潮时间片段与音乐拍子数进行匹配,使待推荐高潮时间片段的起始点和终止点落在对应的节拍时间点上。
根据本发明第一方面实施例的一种基于声音强度的音频高潮检测算法,至少具有如下技术效果:本发明通过音频信号的声音强度变化特性,动态截取了音频高潮部分,使用拍子数和声学特性进行高潮部分的同一时刻确认,可有效的简化用户的操作步骤,达到一键完成准确的音频高潮检测功能,帮助用户进行音频的剪辑和音视频软件的智能辅助剪辑模式。
根据本发明第一方面的一些实施例,所述S200包括:S210、对所述音频数据时域信号的实际长度进行的补0或切片操作,使得所述音频数据可以被等分为N帧数据;S220、将所述音频数据的每一帧作为一个采样点,从而得到N个采样点;S230、对所述N个采样点的数据进行I IR高低通滤波,再提取每一帧的声音强度值,直到提取完N个声音强度值。
根据本发明第一方面的一些实施例,所述S300还包括对所述趋势节点进行平滑处理:将第一、第二以及倒数第一、第二趋势节点的声音强度值以相邻三个声音强度值取平均得到,其余中间的趋势节点声音强度值以相邻两个声音强度值取平均得到。
根据本发明第一方面的一些实施例,所述S400包括以下步骤:S410、识别出局部最高点;S420、输出与所述局部最高点所对应的初始高潮时间片段。
根据本发明第一方面的一些实施例,所述S410包括:S411、将趋势节点按时间分为两个部分,计算前半部分趋势节点和后半部分趋势节点的平均声音强度,如果两者的平均声音强度差距小于半个声压级以内,则认为局部最高点只存在一个,反之则认为局部最高点在两个以上;S412、对于S411中声音强度较低的部分,继续按时间分为两部分,按S411的方式继续计算平均声音强度,即计算局部最高点的个数;S413、累加每一次判断的局部最高点个数。
根据本发明第一方面的一些实施例,所述S420包括:S421、设定音频高潮强度阈值;S422、计算音频数据的拍子数;S423、检测出与局部最高点的强度差在所述音频高潮强度阈值内的时间片段;S424、判断所述S423检测出的时间片段是否有一半以上满足8个节拍长度,若不满足则调整所述音频高潮强度阈值,返回所述S423直到满足一半以上的时间片段满足8个节拍长度并作为初始高潮时间片段。
根据本发明第一方面的一些实施例,所述S500中将处于一个八拍音乐节奏的相邻所述初始高潮时间片段进行合并包括:将两个相邻的初始高潮时间片段进行比较,如果第一个初始高潮时间片段的结束点和第二个初始高潮时间片段的起始点相隔的时间点小于一个八拍音节,即表示两段初始高潮时间片段实际上属于同一段,则保留第一个初始高潮时间片段的起始点和第二个初始高潮时间片段的终止点进行高潮段的合并。
根据本发明第一方面的一些实施例,所述S600中最大跃升趋势调整包括:将所述中间级高潮时间片段进行前后趋势时间点的平移,找到在一定时间范围内的前后趋势节点对应声音强度的差值最大的时间点,并且保证后点的声音强度大于前点,最前端的趋势节点作为待推荐高潮时间片段的起始点,待推荐高潮时间片段的结束点声音强度要小于前点。
根据本发明第二方面实施例的一种存储介质,所述存储介质存储有计算机可执行指令,所述计算机可执行指令用于使计算机执行如上述的一种基于声音强度的音频高潮检测算法。
根据本发明第三方面实施例的一种基于声音强度的音频高潮检测装置,至少一个控制处理器和用于与所述至少一个控制处理器通信连接的存储器;所述存储器存储有可被所述至少一个控制处理器执行的指令,所述指令被所述至少一个控制处理器执行,以使所述至少一个控制处理器能够执行如所述的一种基于声音强度的音频高潮检测算法。
本发明的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解,其中:
图1是本发明第一方面实施例的方法流程图;
图2是本发明第一方面实施例的步骤S200流程图;
图3是本发明第一方面实施例的采样点声音强度曲线图;
图4是本发明第一方面实施例的步骤S300流程图;
图5是本发明第一方面实施例平滑处理后的采样点声音强度曲线图;
图6是本发明第一方面实施例的步骤S400流程图;
图7是本发明第一方面实施例的步骤S410流程图;
图8是本发明第一方面实施例的步骤S420流程图;
图9是本发明第一方面实施例的初始高潮时间片段示意图;
图10是本发明第一方面实施例的步骤S500流程图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。
如图1所示,为本发明第一方面实施例的一种基于声音强度的音频高潮检测算法,包括以下步骤:
S100、获取待检测的音频数据,音频数据包括音频时域振幅和采样率;
S200、从所述音频数据中选择N个采样点并计算出相应的声音强度值,所述N个采样点在所述音频数据的时间长度上均匀分布;
S300、从所述N个采样点的时间及其声音强度值筛选出反映声音强度开始上升和开始下降的趋势节点;具体为:由于声音强度的向上向下趋势时间点代表着音频在这一趋势时间内处于同一种表达效果,如局部的高点和落点会有明显的上升和下降线(例如一组声音强度的大小为-70.9794、-65.7129、-64.4217、-63.4322、-73.7131、-61.2458、-60.3439、-57.5192,对应的时间点0.5、1、1.5、2、2.5、3、3.5、4,则可以筛选出以下声音强度的值-70.9794、-63.4322、-73.7131、-57.5192),统计趋势时间点可以统计出高潮的起始点到高潮真正爆发的一瞬间的趋势节点,同样也可以得到高潮削减到高潮低谷的趋势节点;
S400、从所述趋势节点中选择出多个局部最高点,根据设定的音频高潮强度阈值输出多个所述局部最高点所对应的多个初始高潮时间片段;
S500、检测所有所述初始高潮时间片段,将处于一个八拍音乐节奏的相邻所述初始高潮时间片段进行合并,得到含有单个或合并多个初始高潮时间片段的中间级高潮时间片段;
S600、对所述中间级高潮时间片段进行最大跃升趋势调整从而得到待推荐高潮时间片段;
S700、将所述待推荐高潮时间片段与音乐拍子数进行匹配,使待推荐高潮时间片段的起始点和终止点落在对应的节拍时间点上。
本发明通过音频信号的声音强度变化特性,动态截取了音频高潮部分,使用拍子数和声学特性进行高潮部分的同一时刻确认,可有效的简化用户的操作步骤,达到一键完成准确的音频高潮检测功能,帮助用户进行音频的剪辑和音视频软件的智能辅助剪辑模式。
如图2所示,在本发明第一方面的一些实施例中,所述S200包括:
S210、对所述音频数据时域信号的实际长度进行的补0或切片操作,使得所述音频数据可以被等分为N帧数据;其中,本实施例以500ms为一帧数据;
S220、将所述音频数据的每一帧作为一个采样点,从而得到N个采样点;
S230、为了保证信号的频率可以被人耳所获取,对所述N个采样点的数据进行I IR高低通滤波,再提取每一帧的声音强度值,直到提取完N个声音强度值,如图3所示。
具体的计算方法如下:
首先进行低通滤波
iir_out=b1(1)*iir_in+b1(2)*x_1+b1(3)*x_2)-(a1(2)*y_1+a1(3)*y_2)x_2=x_1
x_1=iir_in
y_2=y_1
y_1=iir_out
再进行高通滤波,其中,上述低通滤波的输出值作为高通滤波的输入值iir_out=(b2(1)*iir_in+b2(2)*x_1+b2(3)*x_2)-(a2(2)*y_1+a2(3)*y_2)x_2=x_1
x_1=iir_in
y_2=y_1
y_1=iir_out
再计算声音强度:
pp=iir_out
lonud=20*log10(pp)
其中
a1=[1 -1.989169673629796 0.989199035787039]
b1=[1 -2 1]
a2=[1-1.663655113256020 0.712595428073225]
b2=[1.530841230050348-2.650979995154730 1.169079079921587]
a1,b1为I IR低通滤波器参数,a2,b2为I IR高通滤波器参数;
x_1,x_2,y_1,y_2为滤波器数值迭代参数,初始值皆为0。
以上公式仅表示计算一次声音强度的计算流程,由于本实施例采用500ms为一帧,采样率44100,那么一帧数据会有22050个点,每个点一个数据,那么上述i rr滤波器循环就会有22050次,从而得到每一个点的数据。
如图4、图5所示,因为高潮内部的趋势节点会存在小幅度的高低落差,为了平滑这一小幅度落差,在本发明第一方面的一些实施例中,所述S300还包括对所述趋势节点进行平滑处理:将第一、第二以及倒数第一、第二趋势节点的声音强度值以相邻三个声音强度值取平均得到,其余中间的趋势节点声音强度值以相邻两个声音强度值取平均得到。比如,对于第一个趋势节点的声音强度和第二个趋势节点的声音强度,分别使用第一二三个的声音强度和第二三四的声音强度进行计算;倒数第一个和倒数第二个趋势节点的声音强度分别使用倒数一二三的声音强度和倒数二三四的声音强度进行计算。
如图9所示,可以发现,声音强度可以很好的反映音频短时的声音起落,即在一定时间段中的局部最高点往往是音频的高潮部分,在本发明第一方面的一些实施例中,如图6所示,所述S400包括以下步骤:
S410、识别出局部最高点;
S420、输出与所述局部最高点所对应的初始高潮时间片段。
如图7、图9所示,在本发明第一方面的一些实施例中,所述S410包括:
S411、将趋势节点按时间分为两个部分,计算前半部分趋势节点和后半部分趋势节点的平均声音强度,如果两者的平均声音强度差距小于半个声压级(0.5db)以内,则认为局部最高点只存在一个,反之则认为局部最高点在两个以上;
S412、对于S411中声音强度较低的部分,继续按时间分为两部分,按S411的方式继续计算平均声音强度,即计算局部最高点的个数;
S413、累加每一次判断的局部最高点个数。
如图8、图9所示,在本发明第一方面的一些实施例中,所述S420包括:
S421、设定音频高潮强度阈值;
S422、计算音频数据的拍子数;
S423、检测出与局部最高点的强度差在所述音频高潮强度阈值内的时间片段;具体实施时,为了满足乐理条件,忽略前后的静音段产生的干扰声音强度,选择局部最高点的强度值(max_lound)作为参考值,并且计算音频的拍子数(beats per minute,BPM),音频高潮强度阈值music_threshold_lound_diff=2.5,寻找所有声音强度符合max_lound-music_threshold_lound_diff~max_lound的时间片段;
S424、判断所述S423检测出的时间片段是否有一半以上满足8个节拍长度,若不满足则调整所述音频高潮强度阈值,比如,music_threshold_lound_diff+=0.5,返回所述S423直到满足一半以上的时间片段满足8个节拍长度并作为初始高潮时间片段。
如图10所示,在本发明第一方面的一些实施例中,所述S500中将处于一个八拍音乐节奏的相邻所述初始高潮时间片段进行合并包括:将两个相邻的初始高潮时间片段进行比较,如果第一个初始高潮时间片段的结束点和第二个初始高潮时间片段的起始点相隔的时间点小于一个八拍音节(一般在预先限缩音乐的速度范围是70-130BPM,一个八拍的长度大约是3.7-6.85sec),即表示两段初始高潮时间片段实际上属于同一段,则保留第一个初始高潮时间片段的起始点和第二个初始高潮时间片段的终止点进行高潮段的合并。
由于选取的高潮片段的起始点发现往往不是高潮起始的准确点,通常的时间差在1~2s之内,因此在本发明第一方面的一些实施例中,所述S600中最大跃升趋势调整包括:将所述中间级高潮时间片段进行前后趋势时间点的平移,找到在一定时间范围内的前后趋势节点对应声音强度的差值最大的时间点,并且保证后点的声音强度大于前点,最前端的趋势节点作为待推荐高潮时间片段的起始点,待推荐高潮时间片段的结束点声音强度要小于前点。
根据本发明第二方面实施例的一种存储介质,所述存储介质存储有计算机可执行指令,所述计算机可执行指令用于使计算机执行如上述的一种基于声音强度的音频高潮检测算法。
根据本发明第三方面实施例的一种基于声音强度的音频高潮检测装置,至少一个控制处理器和用于与所述至少一个控制处理器通信连接的存储器;所述存储器存储有可被所述至少一个控制处理器执行的指令,所述指令被所述至少一个控制处理器执行,以使所述至少一个控制处理器能够执行如所述的一种基于声音强度的音频高潮检测算法。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示意性实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
尽管已经示出和描述了本发明的实施例,本领域的普通技术人员可以理解:在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由权利要求及其等同物限定。
Claims (8)
1.一种基于声音强度的音频高潮检测算法,其特征在于,包括以下步骤:
S100、获取待检测的音频数据;
S200、从所述音频数据中选择N个采样点并计算出相应的声音强度值,所述N个采样点在所述音频数据的时间长度上均匀分布;
S300、从所述N个采样点的时间及其声音强度值筛选出反映声音强度开始上升和开始下降的趋势节点;
S400、从所述趋势节点中选择出多个局部最高点,根据设定的音频高潮强度阈值输出多个所述局部最高点所对应的多个初始高潮时间片段;
S500、检测所有所述初始高潮时间片段,将处于一个八拍音乐节奏的相邻所述初始高潮时间片段进行合并,得到含有单个或合并多个初始高潮时间片段的中间级高潮时间片段;所述S500中将处于一个八拍音乐节奏的相邻所述初始高潮时间片段进行合并包括:将两个相邻的初始高潮时间片段进行比较,如果第一个初始高潮时间片段的结束点和第二个初始高潮时间片段的起始点相隔的时间点小于一个八拍音节,即表示两段初始高潮时间片段实际上属于同一段,则保留第一个初始高潮时间片段的起始点和第二个初始高潮时间片段的终止点进行高潮段的合并;
S600、对所述中间级高潮时间片段进行最大跃升趋势调整从而得到待推荐高潮时间片段;所述S600中最大跃升趋势调整包括:将所述中间级高潮时间片段进行前后趋势时间点的平移,找到在一定时间范围内的前后趋势节点对应声音强度的差值最大的时间点,并且保证后点的声音强度大于前点,最前端的趋势节点作为待推荐高潮时间片段的起始点,待推荐高潮时间片段的结束点声音强度要小于前点;
S700、将所述待推荐高潮时间片段与音乐拍子数进行匹配,使待推荐高潮时间片段的起始点和终止点落在对应的节拍时间点上。
2.根据权利要求1所述的一种基于声音强度的音频高潮检测算法,其特征在于,所述S200包括:
S210、对所述音频数据时域信号的实际长度进行的补0或切片操作,使得所述音频数据被等分为N帧数据;
S220、将所述音频数据的每一帧作为一个采样点,从而得到N个采样点;
S230、对所述N个采样点的数据进行IIR高低通滤波,再提取每一帧的声音强度值,直到提取完N个声音强度值。
3.根据权利要求1所述的一种基于声音强度的音频高潮检测算法,其特征在于,所述S300还包括对所述趋势节点进行平滑处理:将第一、第二以及倒数第一、第二趋势节点的声音强度值以相邻三个声音强度值取平均得到,其余中间的趋势节点声音强度值以相邻两个声音强度值取平均得到。
4.根据权利要求1所述的一种基于声音强度的音频高潮检测算法,其特征在于,所述S400包括以下步骤:
S410、识别出局部最高点;
S420、输出与所述局部最高点所对应的初始高潮时间片段。
5.根据权利要求4所述的一种基于声音强度的音频高潮检测算法,其特征在于,所述S410包括:
S411、将趋势节点按时间分为两个部分,计算前半部分趋势节点和后半部分趋势节点的平均声音强度,如果两者的平均声音强度差距小于半个声压级以内,则认为局部最高点只存在一个,反之则认为局部最高点在两个以上;
S412、筛选出S411中前半部分趋势节点和后半部分趋势节点的平均声音强度更小的一个,继续按时间分为两部分,按S411的方式继续计算平均声音强度,即计算局部最高点的个数;
S413、累加每一次判断的局部最高点个数。
6.根据权利要求4或5所述的一种基于声音强度的音频高潮检测算法,其特征在于,所述S420包括:
S421、设定音频高潮强度阈值;
S422、计算音频数据的拍子数;
S423、检测出与局部最高点的强度差在所述音频高潮强度阈值内的时间片段;
S424、判断所述S423检测出的时间片段是否有一半以上满足8个节拍长度,若不满足则调整所述音频高潮强度阈值,返回所述S423直到满足一半以上的时间片段满足8个节拍长度并作为初始高潮时间片段。
7.一种存储介质,其特征在于:所述存储介质存储有计算机可执行指令,所述计算机可执行指令用于使计算机执行如权利要求1至6任一项所述的一种基于声音强度的音频高潮检测算法。
8.一种基于声音强度的音频高潮检测装置,其特征在于:至少一个控制处理器和用于与所述至少一个控制处理器通信连接的存储器;所述存储器存储有可被所述至少一个控制处理器执行的指令,所述指令被所述至少一个控制处理器执行,以使所述至少一个控制处理器能够执行如权利要求1至6任一项所述的一种基于声音强度的音频高潮检测算法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110740195.3A CN113539296B (zh) | 2021-06-30 | 2021-06-30 | 一种基于声音强度的音频高潮检测算法、存储介质及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110740195.3A CN113539296B (zh) | 2021-06-30 | 2021-06-30 | 一种基于声音强度的音频高潮检测算法、存储介质及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113539296A CN113539296A (zh) | 2021-10-22 |
CN113539296B true CN113539296B (zh) | 2023-12-29 |
Family
ID=78126381
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110740195.3A Active CN113539296B (zh) | 2021-06-30 | 2021-06-30 | 一种基于声音强度的音频高潮检测算法、存储介质及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113539296B (zh) |
Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5247127A (en) * | 1992-04-28 | 1993-09-21 | Ricos Co., Ltd. | Musical climax display device |
US5496962A (en) * | 1994-05-31 | 1996-03-05 | Meier; Sidney K. | System for real-time music composition and synthesis |
KR100655370B1 (ko) * | 2005-07-14 | 2006-12-08 | 주식회사 텔레칩스 | 고속의 음악 파일 정보 검색 방법 |
CN102073636A (zh) * | 2009-10-30 | 2011-05-25 | 索尼株式会社 | 节目高潮检索方法和系统 |
CN103824555A (zh) * | 2012-11-19 | 2014-05-28 | 腾讯科技(深圳)有限公司 | 音频段提取方法及提取装置 |
CN104282322A (zh) * | 2014-10-29 | 2015-01-14 | 深圳市中兴移动通信有限公司 | 一种移动终端及其识别歌曲高潮部分的方法和装置 |
CN105161116A (zh) * | 2015-09-25 | 2015-12-16 | 广州酷狗计算机科技有限公司 | 多媒体文件高潮片段的确定方法及装置 |
DE102016226042A1 (de) * | 2016-12-22 | 2018-06-28 | Volkswagen Aktiengesellschaft | Vorrichtung, Fortbewegungsmittel und Verfahren zur Gestaltung eines Übergangs zwischen zwei Audio-Dateien |
CN109979483A (zh) * | 2019-03-29 | 2019-07-05 | 广州市百果园信息技术有限公司 | 音频信号的旋律检测方法、装置以及电子设备 |
CN111081272A (zh) * | 2019-12-16 | 2020-04-28 | 腾讯科技(深圳)有限公司 | 歌曲高潮片段识别方法及装置 |
CN112118481A (zh) * | 2020-09-18 | 2020-12-22 | 珠海格力电器股份有限公司 | 一种音频片段生成方法、装置、播放器及存储介质 |
CN112289344A (zh) * | 2020-10-30 | 2021-01-29 | 腾讯音乐娱乐科技(深圳)有限公司 | 鼓点波形确定方法、装置及计算机存储介质 |
CN113035160A (zh) * | 2021-02-26 | 2021-06-25 | 成都潜在人工智能科技有限公司 | 基于相似矩阵的音乐自动剪辑实现方法、装置及存储介质 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004127019A (ja) * | 2002-10-03 | 2004-04-22 | Sony Corp | 情報処理装置および画像表示制御方法と画像表示制御プログラム |
JP2014219607A (ja) * | 2013-05-09 | 2014-11-20 | ソニー株式会社 | 音楽信号処理装置および方法、並びに、プログラム |
CN108335687B (zh) * | 2017-12-26 | 2020-08-28 | 广州市百果园信息技术有限公司 | 音频信号底鼓节拍点的检测方法以及终端 |
-
2021
- 2021-06-30 CN CN202110740195.3A patent/CN113539296B/zh active Active
Patent Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5247127A (en) * | 1992-04-28 | 1993-09-21 | Ricos Co., Ltd. | Musical climax display device |
US5496962A (en) * | 1994-05-31 | 1996-03-05 | Meier; Sidney K. | System for real-time music composition and synthesis |
KR100655370B1 (ko) * | 2005-07-14 | 2006-12-08 | 주식회사 텔레칩스 | 고속의 음악 파일 정보 검색 방법 |
CN102073636A (zh) * | 2009-10-30 | 2011-05-25 | 索尼株式会社 | 节目高潮检索方法和系统 |
CN103824555A (zh) * | 2012-11-19 | 2014-05-28 | 腾讯科技(深圳)有限公司 | 音频段提取方法及提取装置 |
CN104282322A (zh) * | 2014-10-29 | 2015-01-14 | 深圳市中兴移动通信有限公司 | 一种移动终端及其识别歌曲高潮部分的方法和装置 |
CN105161116A (zh) * | 2015-09-25 | 2015-12-16 | 广州酷狗计算机科技有限公司 | 多媒体文件高潮片段的确定方法及装置 |
DE102016226042A1 (de) * | 2016-12-22 | 2018-06-28 | Volkswagen Aktiengesellschaft | Vorrichtung, Fortbewegungsmittel und Verfahren zur Gestaltung eines Übergangs zwischen zwei Audio-Dateien |
CN109979483A (zh) * | 2019-03-29 | 2019-07-05 | 广州市百果园信息技术有限公司 | 音频信号的旋律检测方法、装置以及电子设备 |
CN111081272A (zh) * | 2019-12-16 | 2020-04-28 | 腾讯科技(深圳)有限公司 | 歌曲高潮片段识别方法及装置 |
CN112118481A (zh) * | 2020-09-18 | 2020-12-22 | 珠海格力电器股份有限公司 | 一种音频片段生成方法、装置、播放器及存储介质 |
CN112289344A (zh) * | 2020-10-30 | 2021-01-29 | 腾讯音乐娱乐科技(深圳)有限公司 | 鼓点波形确定方法、装置及计算机存储介质 |
CN113035160A (zh) * | 2021-02-26 | 2021-06-25 | 成都潜在人工智能科技有限公司 | 基于相似矩阵的音乐自动剪辑实现方法、装置及存储介质 |
Non-Patent Citations (1)
Title |
---|
《基于内容的音频检索特征提取技术研究》;王薇;《中国优秀硕士学位论文全文数据库 信息科技辑》(第01期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN113539296A (zh) | 2021-10-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Goto et al. | Real-time beat tracking for drumless audio signals: Chord change detection for musical decisions | |
US7012183B2 (en) | Apparatus for analyzing an audio signal with regard to rhythm information of the audio signal by using an autocorrelation function | |
JP3914878B2 (ja) | リズム情報に関するオーディオ信号を解析するための装置及び方法 | |
US8494668B2 (en) | Sound signal processing apparatus and method | |
JP5112300B2 (ja) | コンテンツ項目の特性を決定する方法および電子装置 | |
JP3789326B2 (ja) | テンポ抽出装置、テンポ抽出方法、テンポ抽出プログラム及び記録媒体 | |
JP2007156434A (ja) | 情報処理装置および方法、並びにプログラム | |
CN108766407B (zh) | 音频连接方法及装置 | |
US20190090328A1 (en) | Lighting control device, lighting control method, and lighting control program | |
US20140123836A1 (en) | Musical composition processing system for processing musical composition for energy level and related methods | |
JP2002215195A (ja) | 音楽信号処理装置 | |
US20050217461A1 (en) | Method for music analysis | |
Elowsson et al. | Modelling perception of speed in music audio | |
Durand et al. | Enhancing downbeat detection when facing different music styles | |
CN113539296B (zh) | 一种基于声音强度的音频高潮检测算法、存储介质及装置 | |
Verma et al. | Structural segmentation of Hindustani concert audio with posterior features | |
CN112927713B (zh) | 音频特征点的检测方法、装置和计算机存储介质 | |
JP6263382B2 (ja) | 音声信号処理装置、音声信号処理装置の制御方法、プログラム | |
JP6263383B2 (ja) | 音声信号処理装置、音声信号処理装置の制御方法、プログラム | |
JP5359786B2 (ja) | 音響信号分析装置、音響信号分析方法、及び音響信号分析プログラム | |
JP5540651B2 (ja) | 音響信号分析装置、音響信号分析方法、及び音響信号分析プログラム | |
JP2023539121A (ja) | オーディオコンテンツの識別 | |
JP3232112B2 (ja) | 小節境界時刻抽出装置 | |
JP2001067068A (ja) | 音楽パートの識別方法 | |
KR20050003814A (ko) | 음정 인식 장치 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
TA01 | Transfer of patent application right | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20211129 Address after: 518000 1001, block D, building 5, software industry base, Yuehai street, Nanshan District, Shenzhen City, Guangdong Province Applicant after: Shenzhen Wanxing Software Co.,Ltd. Address before: 518000 1002, block D, building 5, software industry base, Yuehai street, Nanshan District, Shenzhen City, Guangdong Province Applicant before: SHENZHEN SIBO TECHNOLOGY Co.,Ltd. |
|
GR01 | Patent grant | ||
GR01 | Patent grant |