CN112259088B - 音频重音识别方法、装置、设备和介质 - Google Patents
音频重音识别方法、装置、设备和介质 Download PDFInfo
- Publication number
- CN112259088B CN112259088B CN202011172637.0A CN202011172637A CN112259088B CN 112259088 B CN112259088 B CN 112259088B CN 202011172637 A CN202011172637 A CN 202011172637A CN 112259088 B CN112259088 B CN 112259088B
- Authority
- CN
- China
- Prior art keywords
- audio signal
- target
- energy
- original audio
- accent
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 44
- 230000005236 sound signal Effects 0.000 claims abstract description 198
- 230000006870 function Effects 0.000 claims description 84
- 238000004364 calculation method Methods 0.000 claims description 25
- 238000006243 chemical reaction Methods 0.000 claims description 12
- 238000004590 computer program Methods 0.000 claims description 10
- 238000009795 derivation Methods 0.000 claims description 6
- 238000004422 calculation algorithm Methods 0.000 abstract description 5
- 238000010586 diagram Methods 0.000 description 11
- 230000008451 emotion Effects 0.000 description 2
- 230000033764 rhythmic process Effects 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1807—Speech classification or search using natural language modelling using prosody or stress
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Signal Processing (AREA)
- Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Auxiliary Devices For Music (AREA)
Abstract
本发明公开了一种音频重音识别方法,该方法包括:获取原始音频信号;获取目标高斯窗函数,根据目标高斯窗函数对原始音频信号进行处理,得到原始音频信号对应的能量变化曲线;获取目标滑动窗,根据目标滑动窗确定能量变化曲线中的重音时刻,将在重音时刻的原始音频信号标示为音频重音。本发明充分考虑音频信号在时间上的相关性,相较于传统算法,后续重音识别的结果更为准确。同时本发明排除了音频局部强度波动过大对整体音频识别造成的影响,因此也更具科学性及实用性。此外,还提出了音频重音识别装置、设备和存储介质。
Description
技术领域
本发明涉及音频处理技术领域,尤其是涉及音频重音识别方法、装置、设备和介质。
背景技术
不管是日常的说话交流、音乐影音、还是语音通话,都可以通过录音将声音保存为一段或多段音频信号。音频信号作为可保存的数据,是信息传播的重要媒介。重音是音乐中强度较大的音,在声音的冲击上最为突出,是构成音乐节奏的主要因素,通过对音乐中的重音进行识别,可以判断出音乐节奏的快慢。此外重音常常会包含一定的主观情绪或者重点信息,通过对音频中的重音进行识别,可因分辨出音频中的主观情绪和重点信息。因此可以说,对于音频重音进行分析识别可以更加充分的了解该段音频信号所要表达的含义。
发明内容
基于此,有必要针对上述问题,提供可准确识别的音频重音识别方法、装置、设备和介质。
一种音频重音识别的方法,所述方法包括:
获取原始音频信号;
获取目标高斯窗函数,根据所述目标高斯窗函数对所述原始音频信号进行处理,得到所述原始音频信号对应的能量变化曲线;
获取目标滑动窗,根据所述目标滑动窗确定所述能量变化曲线中的重音时刻,将在所述重音时刻的所述原始音频信号标示为音频重音。
在其中一个实施例中,所述根据所述目标高斯窗函数对所述原始音频信号进行处理,得到所述原始音频信号对应的能量变化曲线,包括:
根据所述目标高斯函数对所述原始音频信号进行加权计算,得到所述原始音频信号对应的能量曲线;
对所述能量曲线进行数值转换处理,得到所述原始音频信号对应的能量变化曲线。
在其中一个实施例中,所述根据所述目标高斯函数对所述原始音频信号进行加权计算,得到所述原始音频信号对应的能量曲线,包括:
根据所述目标高斯窗函数确定所述原始音频信号在目标时刻的截断音频信号;其中,所述目标时刻为所述原始音频信号中的任意一个时刻;
将所述截断音频信号与所述目标高斯窗函数进行加权计算,获取所述原始音频信号在所述目标时刻的目标能量值,根据在每一目标时刻的所述目标能量值得到所述原始音频信号对应的能量曲线。
在其中一个实施例中,所述根据所述目标高斯窗函数确定所述原始音频信号在目标时刻的截断音频信号,包括:
以所述目标时刻为所述目标高斯窗函数对应的高斯窗口的中间时刻,在所述原始音频信号上添加高斯窗口;
将所述高斯窗口内的音频信号作为在所述目标时刻的截断音频信号。
在其中一个实施例中,所述对所述能量曲线进行数值转换处理,得到所述原始音频信号对应的能量变化曲线,包括:
对所述能量曲线进行取对数处理,获取所述原始音频信号对应的对数函数;
对所述对数函数进行二次求导处理,获取所述原始音频信号对应的能量变化曲线。
在其中一个实施例中,所述根据所述目标滑动窗确定所述能量变化曲线中的重音时刻,包括:
在所述能量变化曲线中添加所述目标滑动窗,获取所述目标滑动窗内所述能量变化曲线的能量变化峰值,将所述能量变化峰值对应的时刻作为重音时刻;其中,所述目标滑动窗在起始位置的起始点为所述能量变化曲线的起始点;
按照预设步长滑动所述目标滑动窗,返回执行所述获取所述目标滑动窗内所述能量变化曲线的能量变化峰值,将所述能量变化峰值对应的时刻作为重音时刻的步骤。
在其中一个实施例中,在所述将所有能量变化峰值对应的时刻作为重音时刻之前还包括:
判断所述能量变化峰值是否大于或等于能量变化阈值;
若所述能量变化峰值大于或等于能量变化阈值,则继续执行所述将所述能量变化峰值对应的时刻作为重音时刻的步骤;
若所述能量变化峰值小于能量变化阈值,则继续执行所述按照预设步长滑动所述目标滑动窗的步骤。
一种音频重音识别装置,所述装置包括:
能量变化曲线获取模块,用于获取原始音频信号;获取目标高斯窗函数,根据所述目标高斯窗函数对所述原始音频信号进行处理,得到所述原始音频信号对应的能量变化曲线;
重音识别模块,用于获取目标滑动窗,根据所述目标滑动窗确定所述能量变化曲线中的重音时刻,将在所述重音时刻的所述原始音频信号标示为音频重音。
一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行如下步骤:
获取原始音频信号;
获取目标高斯窗函数,根据所述目标高斯窗函数对所述原始音频信号进行处理,得到所述原始音频信号对应的能量变化曲线;
获取目标滑动窗,根据所述目标滑动窗确定所述能量变化曲线中的重音时刻,将在所述重音时刻的所述原始音频信号标示为音频重音。
一种音频重音识别设备,包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行如下步骤:
获取原始音频信号;
获取目标高斯窗函数,根据所述目标高斯窗函数对所述原始音频信号进行处理,得到所述原始音频信号对应的能量变化曲线;
获取目标滑动窗,根据所述目标滑动窗确定所述能量变化曲线中的重音时刻,将在所述重音时刻的所述原始音频信号标示为音频重音。
本发明提供了音频重音识别方法、装置、设备和介质,基于高斯窗函数对原始音频信号进行处理,充分考虑音频信号在时间上的相关性,相较于传统算法,后续重音识别的结果更为准确。进一步的,还基于滑动窗动态识别局部能量变化的最强烈点,并将其标记为重音时刻从而识别出音频重音,本发明排除了音频局部强度波动过大对整体音频识别造成的影响,因此也更具科学性及实用性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
其中:
图1为第一实施例中音频重音识别方法的流程示意图;
图2为一个实施例中目标高斯窗函数的示意图;
图3为一个实施例中根据目标滑动窗确定重音时刻的示意图;
图4为一个实施例中确定的所有重音时刻的示意图;
图5为第二实施例中音频重音识别分法的流程示意图;
图6为一个实施例中能量曲线的示意图;
图7为一个实施例中对原始音频信号做加权处理的示意图;
图8为一个实施例中能量变化曲线的示意图;
图9为一个实施例中音频重音识别装置的结构示意图;
图10为一个实施例中音频重音识别设备的结构框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,图1为第一实施例中音频重音识别方法的流程示意图,本第一实施例中音频重音识别方法提供的步骤包括:
步骤102,获取原始音频信号。
其中,原始音频信号为待识别重音的音频信号。该原始音频信号可以是预先录制并存储于本地存储介质的音频信号,也可以是实时采集得到的一段音频信号,在此不做具体限定。
步骤104,获取目标高斯窗函数,根据目标高斯窗函数对原始音频信号进行处理,得到原始音频信号对应的能量变化曲线。
其中,目标高斯窗函数用于对原始音频信号做加权处理。能量变化曲线是反应原始音频信号在不同目标时刻能量值变化快慢情况的曲线,重音在能量变化曲线中的特点为有一个较大的能量变化值,而基于该特点即可在后续步骤识别得到原始音频信号的音频重音。
本实施例中,目标高斯窗函数的表达式为:
Gw(n)=e-n^2/(2·a^2)
其中,n是时间变量,n∈L,L是表征高斯窗函数宽度的参数,a是表征高斯窗函数形状的参数。示例性的,参见图2,图2为目标高斯窗函数的示意图,该目标高斯窗函数的参数a=0.003,高斯窗宽度L=[-0.01,0.01](单位:秒)。本实施例中高斯窗函数参数的设置对能量计算存在一定的影响,但该自动识别方法,不强调它们对算法效果的优化,对于高斯窗函数的参数不做进一步限定。
进一步的,基于上述目标高斯窗函数对原始音频信号进行加权计算,以得到原始音频信号对应的能量曲线。并对该能量曲线进行求导处理,以得到原始音频信号对应的能量变化曲线。该具体实现方法在后文详述,在此不做赘述。
步骤106,获取目标滑动窗,根据目标滑动窗确定能量变化曲线中的重音时刻,将在重音时刻的原始音频信号标示为音频重音。
其中,目标滑动窗为无纵向边界的窗口,该目标滑动窗用于提供一个能量变化曲线在特定时刻的动态判断边界。本实施例中目标滑动窗连续滑动,需判断在每一特定时刻目标滑动窗内能量变化曲线的重音时刻。
在一个具体实施例中,参见图3,首先在能量变化曲线中添加目标滑动窗,该目标滑动窗的窗口宽度具体设定为0.06秒。值得注意的是,滑动窗宽度选取为0.06秒,只是一个示例,也可以为0.05秒、0.07秒或其他。目标滑动窗的窗口宽度选取是参考“大部分音乐音频的重音间隔大约在0.02~1秒之间”这一现象,若滑动窗宽度取得太大或太小都会引入误差。其次,获取目标滑动窗内能量变化曲线的能量变化峰值(也即确定目标滑动窗内能量变化值的最大值),将能量变化峰值对应的时刻作为重音时刻。
进一步的,本实施例中目标滑动窗是连续滑动的,而为使目标滑动窗遍历能量变化曲线,设定目标滑动窗在滑动开始的起始位置处,滑动窗的起始点(滑动窗的左侧端点)与能量变化曲线的起始点(t=0)一致。然后按照预设步长滑动目标滑动窗,并执行上述获取目标滑动窗内能量变化曲线的能量变化峰值,将能量变化峰值对应的时刻作为重音时刻的步骤,直至滑动窗的终止点(滑动窗的右侧端点)到达能量变化曲线的终止点,从而停止目标滑动窗的滑动。参见图4,图4为能量变化曲线中确定的所有重音时刻的示意图,将这些重音时刻在原始音频信号中进行标示,从而得到原始音频信号中的音频重音。
在一个具体实施例中,由于重音是强度较大的音,因此还结合能量变化阈值来确定重音时刻。具体的,判断特定时刻内能量变化峰值是否大于或等于能量变化阈值,该能量变化阈值根据识别精度等要求可自行设置不同值,在此不做具体限定。若能量变化峰值大于或等于能量变化阈值,则将该能量变化峰值对应的时刻作为重音时刻;而若能量变化峰值小于能量变化阈值,则按照预设步长继续滑动目标滑动窗,直至找到下一满足能量变化阈值条件的重音时刻。
上述音频重音识别方法,基于高斯窗函数对原始音频信号进行处理,充分考虑音频信号在时间上的相关性,相较于传统算法,后续重音识别的结果更为准确。进一步的,还基于滑动窗动态识别局部能量变化的最强烈点,并将其标记为重音时刻从而识别出音频重音,本发明排除了音频局部强度波动过大对整体音频识别造成的影响,因此也更具科学性及实用性。
如图5所示,图5为第二实施例中音频重音识别方法的流程示意图,本第二实施例中音频重音识别方法提供的步骤包括:
步骤502,获取原始音频信号。
在一个具体的实施场景中,步骤502与第一实施例中音频重音识别方法中的步骤102基本一致,此处不再进行赘述。
步骤504,获取目标高斯窗函数,根据目标高斯函数对原始音频信号进行加权计算,得到原始音频信号对应的能量曲线。
其中,目标高斯窗函数的设置与步骤104中一致,在此不做赘述。能量曲线是反应原始音频信号在不同目标时刻能量值的变化曲线。
在一个具体实施例中,加权计算的步骤具体包括:首先,根据目标高斯窗函数确定原始音频信号在目标时刻的截断音频信号。其中,目标时刻为原始音频信号中的任意一个时刻;截断音频信号与高斯窗函数对应的高斯窗口的宽度相同,且都包括目标时刻。其次,将截断音频信号与目标高斯窗函数进行加权计算,从而获取原始音频信号在目标时刻的目标能量值。在时域上进行加窗计算具体表现为点乘,相应的,在目标时刻t时的目标能量值E(t)计算表示为:
E(t)=(x(n+t)^2).*Gw(n)
式中,n为固定域T的时间变量,t为原始音频信号的时间域变量。
参见图6,当求得原始音频信号在所有目标时刻的目标能量值,即可根据这些目标能量值得到原始音频信号对应的能量曲线。
在一个具体实施例中,参见图7,以目标时刻为目标高斯窗函数对应的高斯窗口的中间时刻,在原始音频信号上添加高斯窗口;将高斯窗口内的音频信号作为在目标时刻的截断音频信号。也即对于原始音频信号中的一个任意目标时刻t而言,若选取高斯窗的宽度为T=[-0.01,0.01]秒,则原始音频信号在该目标时刻t的截断音频信号为时间域[t-0.01,t+0.01]的音频信号。
值得注意的是,当高斯窗口超出原始音频信号的音频长度时,则不需要考虑对超出部分进行加权。也即当t取较小值时,高斯窗口的左半部分可能超出了原始音频信号的音频长度,对于该超出部分无需进行加权计算。相应的,当t取较大值时,高斯窗口的右半部分可能超出了原始音频信号的长度,对于该超出部分也无需进行加权计算。
步骤506,对能量曲线进行数值转换处理,得到原始音频信号对应的能量变化曲线。
在一个具体实施例中,数值转换处理具体包括:首先,对能量曲线进行取对数处理,从而获取原始音频信号对应的对数函数。这是因为若引入能量变化的方向性将增加后续对重音的识别难度,而先对能量曲线进行取对数处理可以消除能量变化的方向性(也即正负性),从而减小能量快速变大或快速变小带来的影响,继而更好的反映能量变化速率。进一步的,再对对数函数进行二次求导处理,从而获取原始音频信号对应的能量变化曲线,该能量变化曲线请参见图8。
对加权后的能量曲线进行取对数并二次求导,获得能量变化特性曲线P(t)的具体计算方式描述如下:
P(t)=d2(ln(E(t)+1))/dt2
本实施例提出对能量曲线取对数及二次求导的方式,可有效降低背景噪声影响,充分反映出能量变化曲线的能量变化特性。
步骤508,获取目标滑动窗,根据目标滑动窗确定能量变化曲线中的重音时刻,将在重音时刻的原始音频信号标示为音频重音。
在一个具体的实施场景中,步骤508与第一实施例中音频重音识别方法中的步骤106基本一致,此处不再进行赘述。
在一个实施例中,如图9所示,提出了一种音频重音识别装置,该装置包括:
能量变化曲线获取模块902,用于获取原始音频信号;获取目标高斯窗函数,根据目标高斯窗函数对原始音频信号进行处理,得到原始音频信号对应的能量变化曲线;
重音识别模块904,用于获取目标滑动窗,根据目标滑动窗确定能量变化曲线中的重音时刻,将在重音时刻的原始音频信号标示为音频重音。
上述音频重音识别装置,基于高斯窗函数对原始音频信号进行处理,充分考虑音频信号在时间上的相关性,相较于传统算法,后续重音识别的结果更为准确。进一步的,还基于滑动窗动态识别局部能量变化的最强烈点,并将其标记为重音时刻从而识别出音频重音,本发明排除了音频局部强度波动过大对整体音频识别造成的影响,因此也更具科学性及实用性。
在一个实施例中,能量变化曲线获取模块902,还具体用于:根据目标高斯函数对原始音频信号进行加权计算,得到原始音频信号对应的能量曲线;对能量曲线进行数值转换处理,得到原始音频信号对应的能量变化曲线。
在一个实施例中,能量变化曲线获取模块902,还具体用于:根据目标高斯窗函数确定原始音频信号在目标时刻的截断音频信号;其中,目标时刻为原始音频信号中的任意一个时刻;将截断音频信号与目标高斯窗函数进行加权计算,获取原始音频信号在目标时刻的目标能量值,根据在每一目标时刻的目标能量值得到原始音频信号对应的能量曲线。
在一个实施例中,能量变化曲线获取模块902,还具体用于:以目标时刻为目标高斯窗函数对应的高斯窗口的中间时刻,在原始音频信号上添加高斯窗口;将高斯窗口内的音频信号作为在目标时刻的截断音频信号。
在一个实施例中,能量变化曲线获取模块902,还具体用于:对能量曲线进行取对数处理,获取原始音频信号对应的对数函数;对对数函数进行二次求导处理,获取原始音频信号对应的能量变化曲线。
在一个实施例中,重音识别模块904,还具体用于:在能量变化曲线中添加目标滑动窗,获取目标滑动窗内能量变化曲线的能量变化峰值,将能量变化峰值对应的时刻作为重音时刻;其中,目标滑动窗在起始位置的起始点为能量变化曲线的起始点;按照预设步长滑动目标滑动窗,返回执行获取目标滑动窗内能量变化曲线的能量变化峰值,将能量变化峰值对应的时刻作为重音时刻的步骤。
在一个实施例中,重音识别模块904,还具体用于:判断能量变化峰值是否大于或等于能量变化阈值;若能量变化峰值大于或等于能量变化阈值,则继续执行将能量变化峰值对应的时刻作为重音时刻的步骤;若能量变化峰值小于能量变化阈值,则继续执行按照预设步长滑动目标滑动窗的步骤。
图10示出了一个实施例中音频重音识别设备的内部结构图。如图10所示,该音频重音识别设备包括通过系统总线连接的处理器、存储器和网络接口。其中,存储器包括非易失性存储介质和内存储器。该音频重音识别设备的非易失性存储介质存储有操作系统,还可存储有计算机程序,该计算机程序被处理器执行时,可使得处理器实现音频重音识别方法。该内存储器中也可储存有计算机程序,该计算机程序被处理器执行时,可使得处理器执行音频重音识别方法。本领域技术人员可以理解,图10中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的音频重音识别设备的限定,具体的音频重音识别设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
一种音频重音识别设备,包括存储器、处理器以及存储在该存储器中并可在该处理器上执行的计算机程序,该处理器执行该计算机程序时实现如下步骤:获取原始音频信号;获取目标高斯窗函数,根据目标高斯窗函数对原始音频信号进行处理,得到原始音频信号对应的能量变化曲线;获取目标滑动窗,根据目标滑动窗确定能量变化曲线中的重音时刻,将在重音时刻的原始音频信号标示为音频重音。
在一个实施例中,根据目标高斯窗函数对原始音频信号进行处理,得到原始音频信号对应的能量变化曲线,包括:根据目标高斯函数对原始音频信号进行加权计算,得到原始音频信号对应的能量曲线;对能量曲线进行数值转换处理,得到原始音频信号对应的能量变化曲线。
在一个实施例中,根据目标高斯函数对原始音频信号进行加权计算,得到原始音频信号对应的能量曲线,包括:根据目标高斯窗函数确定原始音频信号在目标时刻的截断音频信号;其中,目标时刻为原始音频信号中的任意一个时刻;将截断音频信号与目标高斯窗函数进行加权计算,获取原始音频信号在目标时刻的目标能量值,根据在每一目标时刻的目标能量值得到原始音频信号对应的能量曲线。
在一个实施例中,根据目标高斯窗函数确定原始音频信号在目标时刻的截断音频信号,包括:以目标时刻为目标高斯窗函数对应的高斯窗口的中间时刻,在原始音频信号上添加高斯窗口;将高斯窗口内的音频信号作为在目标时刻的截断音频信号。
在一个实施例中,对能量曲线进行数值转换处理,得到原始音频信号对应的能量变化曲线,包括:对能量曲线进行取对数处理,获取原始音频信号对应的对数函数;对对数函数进行二次求导处理,获取原始音频信号对应的能量变化曲线。
在一个实施例中,根据目标滑动窗确定能量变化曲线中的重音时刻,包括:在能量变化曲线中添加目标滑动窗,获取目标滑动窗内能量变化曲线的能量变化峰值,将能量变化峰值对应的时刻作为重音时刻;其中,目标滑动窗在起始位置的起始点为能量变化曲线的起始点;按照预设步长滑动目标滑动窗,返回执行获取目标滑动窗内能量变化曲线的能量变化峰值,将能量变化峰值对应的时刻作为重音时刻的步骤。
在一个实施例中,在将所有能量变化峰值对应的时刻作为重音时刻之前还包括:判断能量变化峰值是否大于或等于能量变化阈值;若能量变化峰值大于或等于能量变化阈值,则继续执行将能量变化峰值对应的时刻作为重音时刻的步骤;若能量变化峰值小于能量变化阈值,则继续执行按照预设步长滑动目标滑动窗的步骤。
一种计算机可读存储介质,该计算机可读存储介质存储有计算机程序,该计算机程序被处理器执行时实现如下步骤:获取原始音频信号;获取目标高斯窗函数,根据目标高斯窗函数对原始音频信号进行处理,得到原始音频信号对应的能量变化曲线;获取目标滑动窗,根据目标滑动窗确定能量变化曲线中的重音时刻,将在重音时刻的原始音频信号标示为音频重音。
在一个实施例中,根据目标高斯窗函数对原始音频信号进行处理,得到原始音频信号对应的能量变化曲线,包括:根据目标高斯函数对原始音频信号进行加权计算,得到原始音频信号对应的能量曲线;对能量曲线进行数值转换处理,得到原始音频信号对应的能量变化曲线。
在一个实施例中,根据目标高斯函数对原始音频信号进行加权计算,得到原始音频信号对应的能量曲线,包括:根据目标高斯窗函数确定原始音频信号在目标时刻的截断音频信号;其中,目标时刻为原始音频信号中的任意一个时刻;将截断音频信号与目标高斯窗函数进行加权计算,获取原始音频信号在目标时刻的目标能量值,根据在每一目标时刻的目标能量值得到原始音频信号对应的能量曲线。
在一个实施例中,根据目标高斯窗函数确定原始音频信号在目标时刻的截断音频信号,包括:以目标时刻为目标高斯窗函数对应的高斯窗口的中间时刻,在原始音频信号上添加高斯窗口;将高斯窗口内的音频信号作为在目标时刻的截断音频信号。
在一个实施例中,对能量曲线进行数值转换处理,得到原始音频信号对应的能量变化曲线,包括:对能量曲线进行取对数处理,获取原始音频信号对应的对数函数;对对数函数进行二次求导处理,获取原始音频信号对应的能量变化曲线。
在一个实施例中,根据目标滑动窗确定能量变化曲线中的重音时刻,包括:在能量变化曲线中添加目标滑动窗,获取目标滑动窗内能量变化曲线的能量变化峰值,将能量变化峰值对应的时刻作为重音时刻;其中,目标滑动窗在起始位置的起始点为能量变化曲线的起始点;按照预设步长滑动目标滑动窗,返回执行获取目标滑动窗内能量变化曲线的能量变化峰值,将能量变化峰值对应的时刻作为重音时刻的步骤。
在一个实施例中,在将所有能量变化峰值对应的时刻作为重音时刻之前还包括:判断能量变化峰值是否大于或等于能量变化阈值;若能量变化峰值大于或等于能量变化阈值,则继续执行将能量变化峰值对应的时刻作为重音时刻的步骤;若能量变化峰值小于能量变化阈值,则继续执行按照预设步长滑动目标滑动窗的步骤。
需要说明的是,上述音频重音识别方法、装置、设备及计算机可读存储介质属于一个总的发明构思,音频重音识别方法、装置、设备及计算机可读存储介质实施例中的内容可相互适用。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,该程序可存储于一非易失性计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
Claims (9)
1.一种音频重音识别的方法,其特征在于,所述方法包括:
获取原始音频信号;
获取目标高斯窗函数,根据所述目标高斯窗函数对所述原始音频信号进行处理,得到所述原始音频信号对应的能量变化曲线;
获取目标滑动窗,根据所述目标滑动窗确定所述能量变化曲线中的重音时刻,将在所述重音时刻的所述原始音频信号标示为音频重音;其中,所述重音时刻为局部能量变化的最强烈点;
其中,所述根据所述目标高斯窗函数对所述原始音频信号进行处理,得到所述原始音频信号对应的能量变化曲线,包括:根据所述目标高斯函数对所述原始音频信号进行加权计算,得到所述原始音频信号对应的能量曲线;对所述能量曲线进行数值转换处理,得到所述原始音频信号对应的能量变化曲线;所述能量变化曲线为反应原始音频信号在不同目标时刻能量值变化快慢情况的曲线。
2.根据权利要求1所述的方法,其特征在于,所述根据所述目标高斯函数对所述原始音频信号进行加权计算,得到所述原始音频信号对应的能量曲线,包括:
根据所述目标高斯窗函数确定所述原始音频信号在目标时刻的截断音频信号;其中,所述目标时刻为所述原始音频信号中的任意一个时刻;
将所述截断音频信号与所述目标高斯窗函数进行加权计算,获取所述原始音频信号在所述目标时刻的目标能量值,根据在每一目标时刻的所述目标能量值得到所述原始音频信号对应的能量曲线。
3.根据权利要求2所述的方法,其特征在于,所述根据所述目标高斯窗函数确定所述原始音频信号在目标时刻的截断音频信号,包括:
以所述目标时刻为所述目标高斯窗函数对应的高斯窗口的中间时刻,在所述原始音频信号上添加高斯窗口;
将所述高斯窗口内的音频信号作为在所述目标时刻的截断音频信号。
4.根据权利要求1所述的方法,其特征在于,所述对所述能量曲线进行数值转换处理,得到所述原始音频信号对应的能量变化曲线,包括:
对所述能量曲线进行取对数处理,获取所述原始音频信号对应的对数函数;
对所述对数函数进行二次求导处理,获取所述原始音频信号对应的能量变化曲线。
5.根据权利要求1所述的方法,其特征在于,所述根据所述目标滑动窗确定所述能量变化曲线中的重音时刻,包括:
在所述能量变化曲线中添加所述目标滑动窗,获取所述目标滑动窗内所述能量变化曲线的能量变化峰值,将所述能量变化峰值对应的时刻作为重音时刻;其中,所述目标滑动窗在起始位置的起始点为所述能量变化曲线的起始点;
按照预设步长滑动所述目标滑动窗,返回执行所述获取所述目标滑动窗内所述能量变化曲线的能量变化峰值,将所述能量变化峰值对应的时刻作为重音时刻的步骤。
6.根据权利要求5所述的方法,其特征在于,在所述将所有能量变化峰值对应的时刻作为重音时刻之前还包括:
判断所述能量变化峰值是否大于或等于能量变化阈值;
若所述能量变化峰值大于或等于能量变化阈值,则继续执行所述将所述能量变化峰值对应的时刻作为重音时刻的步骤;
若所述能量变化峰值小于能量变化阈值,则继续执行所述按照预设步长滑动所述目标滑动窗的步骤。
7.一种音频重音识别装置,其特征在于,所述装置包括:
能量变化曲线获取模块,用于获取原始音频信号;获取目标高斯窗函数,根据所述目标高斯窗函数对所述原始音频信号进行处理,得到所述原始音频信号对应的能量变化曲线;
重音识别模块,用于获取目标滑动窗,根据所述目标滑动窗确定所述能量变化曲线中的重音时刻,将在所述重音时刻的所述原始音频信号标示为音频重音;其中,所述重音时刻为局部能量变化的最强烈点;
所述能量变化曲线获取模块,还具体用于:根据目标高斯函数对原始音频信号进行加权计算,得到原始音频信号对应的能量曲线;对能量曲线进行数值转换处理,得到原始音频信号对应的能量变化曲线;所述能量变化曲线为反应原始音频信号在不同目标时刻能量值变化快慢情况的曲线。
8.一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行如权利要求1至6中任一项所述方法的步骤。
9.一种音频重音识别设备,包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行如权利要求1至6中任一项所述方法的步骤。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011172637.0A CN112259088B (zh) | 2020-10-28 | 2020-10-28 | 音频重音识别方法、装置、设备和介质 |
PCT/CN2020/127679 WO2022088242A1 (zh) | 2020-10-28 | 2020-11-10 | 音频重音识别方法、装置、设备和介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011172637.0A CN112259088B (zh) | 2020-10-28 | 2020-10-28 | 音频重音识别方法、装置、设备和介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112259088A CN112259088A (zh) | 2021-01-22 |
CN112259088B true CN112259088B (zh) | 2024-05-17 |
Family
ID=74261119
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011172637.0A Active CN112259088B (zh) | 2020-10-28 | 2020-10-28 | 音频重音识别方法、装置、设备和介质 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN112259088B (zh) |
WO (1) | WO2022088242A1 (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2014132102A1 (en) * | 2013-02-28 | 2014-09-04 | Nokia Corporation | Audio signal analysis |
CN104217729A (zh) * | 2013-05-31 | 2014-12-17 | 杜比实验室特许公司 | 音频处理方法和音频处理装置以及训练方法 |
CN108335703A (zh) * | 2018-03-28 | 2018-07-27 | 腾讯音乐娱乐科技(深圳)有限公司 | 确定音频数据的重音位置的方法和装置 |
CN109155883A (zh) * | 2016-05-09 | 2019-01-04 | 哈曼国际工业有限公司 | 噪声检测和噪声降低 |
CN109584902A (zh) * | 2018-11-30 | 2019-04-05 | 广州市百果园信息技术有限公司 | 一种音乐节奏确定方法、装置、设备及存储介质 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104347068B (zh) * | 2013-08-08 | 2020-05-22 | 索尼公司 | 音频信号处理装置和方法以及监控系统 |
CN109841232B (zh) * | 2018-12-30 | 2023-04-07 | 瑞声科技(新加坡)有限公司 | 音乐信号中音符位置的提取方法和装置及存储介质 |
CN111739542B (zh) * | 2020-05-13 | 2023-05-09 | 深圳市微纳感知计算技术有限公司 | 一种特征声音检测的方法、装置及设备 |
-
2020
- 2020-10-28 CN CN202011172637.0A patent/CN112259088B/zh active Active
- 2020-11-10 WO PCT/CN2020/127679 patent/WO2022088242A1/zh active Application Filing
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2014132102A1 (en) * | 2013-02-28 | 2014-09-04 | Nokia Corporation | Audio signal analysis |
CN104217729A (zh) * | 2013-05-31 | 2014-12-17 | 杜比实验室特许公司 | 音频处理方法和音频处理装置以及训练方法 |
CN109155883A (zh) * | 2016-05-09 | 2019-01-04 | 哈曼国际工业有限公司 | 噪声检测和噪声降低 |
CN108335703A (zh) * | 2018-03-28 | 2018-07-27 | 腾讯音乐娱乐科技(深圳)有限公司 | 确定音频数据的重音位置的方法和装置 |
CN109584902A (zh) * | 2018-11-30 | 2019-04-05 | 广州市百果园信息技术有限公司 | 一种音乐节奏确定方法、装置、设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN112259088A (zh) | 2021-01-22 |
WO2022088242A1 (zh) | 2022-05-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108022587B (zh) | 语音识别方法、装置、计算机设备和存储介质 | |
EP3955246B1 (en) | Voiceprint recognition method and device based on memory bottleneck feature | |
CN108198547A (zh) | 语音端点检测方法、装置、计算机设备和存储介质 | |
EP3016314A1 (en) | A system and a method for detecting recorded biometric information | |
EP3091534B1 (en) | Method and apparatus for processing speech signal according to frequency domain energy | |
CN108831500A (zh) | 语音增强方法、装置、计算机设备及存储介质 | |
CN110556126B (zh) | 语音识别方法、装置以及计算机设备 | |
CN108877776A (zh) | 语音端点检测方法、装置、计算机设备和存储介质 | |
CN109065022B (zh) | i-vector向量提取方法、说话人识别方法、装置、设备及介质 | |
CN109903752B (zh) | 对齐语音的方法和装置 | |
CN116490920A (zh) | 用于针对由自动语音识别系统处理的语音输入检测音频对抗性攻击的方法、对应的设备、计算机程序产品和计算机可读载体介质 | |
CN112259088B (zh) | 音频重音识别方法、装置、设备和介质 | |
CN113571096B (zh) | 语音情绪分类模型训练方法、装置、计算机设备及介质 | |
CN112802498B (zh) | 语音检测方法、装置、计算机设备和存储介质 | |
CN111108551A (zh) | 一种声纹鉴定方法和相关装置 | |
CN113744730A (zh) | 声音检测方法及装置 | |
CN113921012A (zh) | 一种合成语音的识别方法、系统、智能设备和存储介质 | |
Taboada et al. | Explicit estimation of speech boundaries | |
CN111933153B (zh) | 一种语音分割点的确定方法和装置 | |
US10276166B2 (en) | Method and apparatus for detecting splicing attacks on a speaker verification system | |
Solewicz et al. | Two-wire nuisance attribute projection | |
CN111681671A (zh) | 异常音识别方法、装置及计算机存储介质 | |
JP4537821B2 (ja) | オーディオ信号分析方法、その方法を用いたオーディオ信号認識方法、オーディオ信号区間検出方法、それらの装置、プログラムおよびその記録媒体 | |
CN113178196B (zh) | 音频数据提取方法、装置、计算机设备和存储介质 | |
CN111883142B (zh) | 基于对数似然值归一化的说话人确认方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |