CN115376548A - 一种音频信号有声段端点检测方法及系统 - Google Patents
一种音频信号有声段端点检测方法及系统 Download PDFInfo
- Publication number
- CN115376548A CN115376548A CN202210789379.3A CN202210789379A CN115376548A CN 115376548 A CN115376548 A CN 115376548A CN 202210789379 A CN202210789379 A CN 202210789379A CN 115376548 A CN115376548 A CN 115376548A
- Authority
- CN
- China
- Prior art keywords
- detection
- outlier
- audio signal
- sparsity
- segment
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 178
- 230000005236 sound signal Effects 0.000 title claims abstract description 106
- 238000001228 spectrum Methods 0.000 claims abstract description 66
- 238000000034 method Methods 0.000 claims abstract description 55
- 238000012545 processing Methods 0.000 claims abstract description 25
- 230000008859 change Effects 0.000 claims abstract description 15
- 230000001960 triggered effect Effects 0.000 claims abstract description 13
- 238000007781 pre-processing Methods 0.000 claims abstract description 12
- 238000013450 outlier detection Methods 0.000 claims description 42
- 238000004364 calculation method Methods 0.000 claims description 22
- 230000001755 vocal effect Effects 0.000 claims description 7
- 238000009432 framing Methods 0.000 claims description 6
- 238000009499 grossing Methods 0.000 claims description 4
- 238000012733 comparative method Methods 0.000 claims description 2
- 238000001914 filtration Methods 0.000 description 12
- 230000006870 function Effects 0.000 description 5
- 230000009467 reduction Effects 0.000 description 5
- 238000004422 calculation algorithm Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 230000011218 segmentation Effects 0.000 description 4
- 241001270131 Agaricus moelleri Species 0.000 description 3
- 206010041235 Snoring Diseases 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 230000003595 spectral effect Effects 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 238000000354 decomposition reaction Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- XUIMIQQOPSSXEZ-UHFFFAOYSA-N Silicon Chemical compound [Si] XUIMIQQOPSSXEZ-UHFFFAOYSA-N 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000007621 cluster analysis Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000000611 regression analysis Methods 0.000 description 1
- 230000010076 replication Effects 0.000 description 1
- 229910052710 silicon Inorganic materials 0.000 description 1
- 239000010703 silicon Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/45—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of analysis window
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D30/00—Reducing energy consumption in communication networks
- Y02D30/70—Reducing energy consumption in communication networks in wireless communication networks
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
Abstract
本发明公开了一种音频信号有声段端点检测方法及系统,其中方法包括:获取音频数据,对所述音频数据进行预处理,获得音频信号对数谱;根据所述音频信号对数谱,执行静音段检测任务获取有声段检测阈值;根据有声段检测阈值,执行有声段端点检测任务直至触发更新有声段检测阈值条件或触发结束条件。本发明通过静音段检测实现有声段检测阈值设定,无需前导静音段,能自适应各种宽平稳背景噪声环境,有效增强系统适应性;通过有声段检测阈值计算音频信号的离群点稀疏度,并根据稀疏度曲线的波峰波谷变化特征实现有声段端点检测,可有效地在低信噪比情况下快速检测出音频信号的有声段端点。本发明可广泛应用于音频信号处理技术领域。
Description
技术领域
本发明涉及音频信号处理技术领域,尤其涉及一种音频信号有声段端点检测方法及系统。
背景技术
音频信号有声段端点检测是音频信号处理与识别中的首要、重要环节,在语音通信、语音识别系统、鼾声检测系统、鸟声检测系统中被广泛应用。有声段端点检测是其他处理任务的预处理环节,快速、准确地提取有声段可为后续处理节约大量时间,提升系统性能。有声段端点检测至少包括特征参数提取及阈值判断两个步骤。目前,常用的特征参数主要有短时过零率、短时能量、自相关系数、频带或子带方差、谱距离(如对数谱、倒谱和MFCC)、谱熵、能零比、能熵比、小波分解系数、经验模式分解(Empirical ModeDecomposition,EMD)后每阶本征模态函数(Intrinsic Mode Functions,IMF)的Teager能量以及基于人工智能的特征参数。用于阈值判断的主要方法有双门限法和基于人工智能的分类器。
然而,在实际应用中上述有声段检测方法不能很好适应低信噪比下嵌入式终端(资源受限设备)应用,主要体现在三个方面:其一是需要前导静音段作为双门限检测法的阈值设定;其二是在低信噪比下,端点检测性能较差,需要额外的滤波或信号增强处理;最后,特征参数计算复杂度高,且需要对每一帧音频信号进行计算,无法保障系统实时性。
发明内容
为至少一定程度上解决现有技术中存在的技术问题之一,本发明的目的在于提供一种音频信号有声段端点检测方法及系统。
本发明所采用的技术方案是:
一种音频信号有声段端点检测方法,包括以下步骤:
获取音频数据,对所述音频数据进行预处理,获得音频信号对数谱;
根据所述音频信号对数谱,执行静音段检测任务获取有声段检测阈值;
根据有声段检测阈值,执行有声段端点检测任务直至触发更新有声段检测阈值条件或触发结束条件;
其中,在有声段端点检测任务中,根据有声段检测阈值计算音频信号对数谱的离群点稀疏度,并根据稀疏度曲线的波峰波谷变化特征实现有声段端点检测。
进一步地,所述获取音频数据,对所述音频数据进行预处理,获得音频信号对数谱,包括:
获取音频数据后,对所述音频数据执行预加重操作、分帧操作、加窗操作、快速傅里叶变换、取模后求平方操作获得音频信号功率谱,对音频信号功率谱取对数获得音频信号对数谱;
可选的,对音频信号功率谱进行降维处理;
对音频信号功率谱取对数获得音频信号对数谱。
其中,降维处理包括梅尔滤波、Bark子带滤波或ERB子带滤波中的至少一种;或者,其他降维方法。
进一步地,所述根据所述音频信号对数谱,执行静音段检测任务获取有声段检测阈值,包括:
获取初始阈值;
根据初始阈值计算所述音频信号对数谱的离群点稀疏度;
根据离群点稀疏度进行静音段检测,获得静音段音频信号对数谱;
采用离群点检测方法对被检出的静音段进行阈值计算,得到有声段检测阈值。
进一步地,所述获取初始阈值,包括:
任取M帧音频信号对数谱,采用离群点检测方法,沿时间轴对每一个频率点进行离群点检测,若检测出离群点则剔除离群点所在的帧,直至无离群点被检出;随后,对剩下的对数谱进行阈值计算,得到的正向离群点检测阈值QP与负向离群点检测阈值QN,并将所得到的正向离群点检测阈值QP与负向离群点检测阈值QN作为初始阈值;或者,
从预设的存储器中读取设备出厂设定的初始阈值;或者,
从预设的存储器中读取系统上一次运行时记录的初始阈值。
进一步地,所述根据初始阈值计算所述音频信号对数谱的离群点稀疏度,包括:
将每一帧音频信号对数谱的所有频率点与初始阈值的相应频点进行比较,并分别统计音频信号对数谱中大于正向离群点检测阈值的频率点数量,和小于负向离群点检测阈值的频率点数量,并按第一公式实时计算正向离群点稀疏度与负向离群点稀疏度;
其中,所述第一公式的表达式如下:
η=count÷(fdim×tdim)×100%
式中η表示离群点稀疏度,count是被检测出的离群点数量,fdim表示音频信号对数谱的频率维度,tdim表示音频信号对数谱的时间维度,是预设的计算离群点稀疏度窗口大小,且满足tdim≥1。
进一步地,所述根据离群点稀疏度进行静音段检测,包括:
使用预设的静音段时间tsilence作为窗口大小,计算正向离群点稀疏度与负向离群点稀疏度的均值与方差,在正向离群点稀疏度的均值与方差同时满足小于给定阈值的前提下,若负向离群点稀疏度的均值与方差满足第二公式,则判定当前时间窗内的音频信号为静音段。
其中,所述第二公式的表达式如下:
D(η)<α×E(η)
式中,D(η)表示窗口内音频信号对数谱离群点稀疏度的方差,E(η)表示窗口内音频信号对数谱离群点稀疏度的算术平均值,α表示给定阈值。
进一步地,所述采用离群点检测方法对被检出的静音段进行阈值计算,得到有声段检测阈值,包括:
根据已检测出的静音段音频信号对数谱,采用离群点检测方法,沿时间轴对每一个频率点进行离群点检测,若检测出离群点则剔除离群点所在的帧,直至无离群点被检出;随后,对剩下的对数谱进行阈值计算,得到的正向离群点检测阈值QP,并将该正向离群点检测阈值QP作为有声段检测阈值。
进一步地,所述根据有声段检测阈值,执行有声段端点检测任务直至触发更新有声段检测阈值条件或触发结束条件,包括:
根据有声段检测阈值计算音频信号的正向离群点稀疏度;
对正向离群点稀疏度进行平滑处理,以提高正向离群点稀疏度的波峰波谷检测精确度;
通过实时检测波峰与有效波谷,实现有声段端点检测任务信号。
进一步地,在所述根据有声段检测阈值计算音频信号的正向离群点稀疏度这一步骤之后,还包括对正向离群点稀疏度进行进一步处理的步骤:
通过设置最小有声段时长排除绝大部分的杂音信号,利用正向离群点稀疏度曲线的波峰波谷变化,确定连续音频包络的分割位置,克服双阈值法因背景噪声非平稳变化导致阈值取值困难的实际问题,实现音频信号的准确分割任务。
进一步地,所述有声段端点检测任务包括起始点检测、波峰检测、波峰更新、波谷检测、波谷更新、有效波谷检测、结束点检测;
其中,起始点检测是有声段检测任务的起始,也是波峰检测、波峰更新、波谷检测、波谷更新、有效波谷检测、结束点检测的必要条件;由于所有被检出的离群点均可被认定为有声事件,因此在执行起始点检测任务中,若平滑后的正向离群点稀疏度大于0,则判定该点为有声事件起始点;
其中,利用比较法实现波峰检测、波谷检测:选取最新获得的三个连续的正向离群点稀疏度,按时间次序分别记为Vt-2、Vt-1、Vt,当Vt-1>Vt-2且Vt-1≥Vt时,判定Vt-1为波峰位置,当Vt-1<Vt-2且Vt-1≤Vt时,判定Vt-1为波谷位置;
其中,波峰更新的目的是实时记录正向离群点稀疏度曲线的最大值,在检测出波峰后,将最近一次被检出的波峰与上一次被检出的波峰进行比较,若本次检出的波峰值大于上一次检出的波峰值,则执行更新波峰值操作,同时将新的波峰值乘以预设倍数作为有效波谷检测阈值,并在检测到结束点时清零;
其中,波谷更新的目的是实时记录正向离群点稀疏度曲线的最小值,在检出波谷后,将最近一次被检出的波谷与上一次被检出的波谷值进行比较,若本次检出的波谷值小于上一次检出的波谷值,则执行更新波谷值操作,同时将新的波谷值与有效波谷检测阈值进行比较,若新的波谷值小于有效波谷检测阈值,则将该波谷值设置为有效波谷,并在检测到结束点时将波谷值设置为100%;
其中,有效波谷是有声段潜在结束点,在检出有效波谷后,将最近一次被检出的有效波谷乘以预设倍数作为有声段结束检测阈值;
其中,有声段结束点的检测存在两种情况:其一,连续的多个音频包络;其二,仅存在单独的一个音频包络;对于第一种情况,在检测出有效波谷后,当后续的正向离群点稀疏度出现大于有声段结束检测阈值时,判定该有效波谷是一个音频包络的结束点,此时后一个音频包络的起始点与上一个包络的结束点相同,持续处理后最终会演变为仅剩一个包络的第二种情况;对于第二种情况,结束点出现在正向离群点稀疏度第一次回归至0的位置。
本发明所采用的另一技术方案是:
一种低信噪比下音频信号有声段端点检测系统,包括:
音频输入模块,用于获取音频数据,对所述音频数据进行预处理,获得音频信号对数谱;
数据处理模块,根据所述音频信号对数谱,执行静音段检测任务获取有声段检测阈值;根据有声段检测阈值,执行有声段端点检测任务直至触发更新有声段检测阈值条件或触发结束条件;
其中,在有声段端点检测任务中,根据有声段检测阈值计算音频信号的离群点稀疏度,并根据稀疏度曲线的波峰波谷变化特征实现有声段端点检测。
本发明的有益效果是:本发明通过静音段检测实现有声段检测阈值设定,无需前导静音段,能自适应各种宽平稳背景噪声环境,有效增强系统适应性;通过有声段检测阈值计算音频信号的离群点稀疏度,并根据稀疏度曲线的波峰波谷变化特征实现有声段端点检测,可有效地在低信噪比情况下快速检测出音频信号的有声段端点。
附图说明
为了更清楚地说明本发明实施例或者现有技术中的技术方案,下面对本发明实施例或者现有技术中的相关技术方案附图作以下介绍,应当理解的是,下面介绍中的附图仅仅为了方便清晰表述本发明的技术方案中的部分实施例,对于本领域的技术人员而言,在无需付出创造性劳动的前提下,还可以根据这些附图获取到其他附图。
图1是本发明实施例中一种音频信号处理系统的结构框图;
图2是本发明实施例中一种低信噪比下音频信号有声段端点检测方法的流程图;
图3是本发明实施例中预处理流程图;
图4是本发明实施例中有声段检测阈值设定流程图;
图5是本发明实施例中阈值计算程序流程图;
图6是本发明实施例中有声段端点检测任务流程图;
图7是本发明实施例中端点检测任务流程图;
图8是本发明实施例中有声段检测阈值设定详细流程图;
图9是本发明实施例中离群点稀疏度计算详细流程图;
图10是本发明实施例中有声段检测详细流程图
图11是本发明实施例中端点检测详细流程图;
图12是本发明实施例中静音段检测任务中离群点稀疏度曲线变化示意图;
图13是本发明实施例中有声段端点检测任务中端点检测效果图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。对于以下实施例中的步骤编号,其仅为了便于阐述说明而设置,对步骤之间的顺序不做任何限定,实施例中的各步骤的执行顺序均可根据本领域技术人员的理解来进行适应性调整。
在本发明的描述中,需要理解的是,涉及到方位描述,例如上、下、前、后、左、右等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
在本发明的描述中,若干的含义是一个或者多个,多个的含义是两个以上,大于、小于、超过等理解为不包括本数,以上、以下、以内等理解为包括本数。如果有描述到第一、第二只是用于区分技术特征为目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量或者隐含指明所指示的技术特征的先后关系。
本发明的描述中,除非另有明确的限定,设置、安装、连接等词语应做广义理解,所属技术领域技术人员可以结合技术方案的具体内容合理确定上述词语在本发明中的具体含义。
如图1所示,本实施例提供一种音频信号处理系统,该系统包括音频输入模块和处理器。进一步作为可选地,系统还包括存储器、通信接口以及人机交互。
其中,音频输入模块可以是系统实时音频采集模块如麦克风、硅麦、咪头等,也可以是通过其他存储介质读取接口如USB、SD卡接口等。处理器用于执行本发明实施例所提出的算法运算,包括但不限于各种微控制器(MCU)、可编程逻辑处理器(FPGA)、数字信号处理器(DSP)、CPU等。存储器是用于存储运算结果、系统运行日志等关键信息的存储介质。通信接口用于音频信号传输、运算结果传输、控制指令接收等任务;人机交互用于提供一个功能选择、处理结果展示的接口,提升用户使用体验。
如图2所示,本实施例还提供一种低信噪比下音频信号有声段端点检测方法,该方法可通过上述的系统来执行。方法具体包括以下步骤:
S1、获取音频数据,对音频数据进行预处理,获得音频信号对数谱;
S2、根据音频信号对数谱获取有声段检测阈值;
S3、根据有声段检测阈值,执行有声段端点检测任务直至触发更新有声段检测阈值条件或触发结束条件。
其中,在有声段端点检测任务中,根据有声段检测阈值计算音频信号的离群点稀疏度,并根据稀疏度曲线的波峰波谷变化特征实现有声段端点检测。
系统运行后,通过音频输入模块实时采集或读取音频数据,随后对音频数据经过预加重、分帧、加窗、快速傅里叶变换、取模后求平方、降维处理、取对数等预处理步骤得到音频信号的对数谱。在获得音频信号对数谱后,执行有声段检测阈值设定任务,该任务采用离群点检测方法计算音频信号离群点稀疏度,依据稀疏度曲线变化特征查找静音段,并根据静音段计算有声段检测阈值。紧接着开始执行有声段端点检测任务直至触发更新有声段检测阈值条件或触发结束条件。在有声段端点检测任务中,系统依据有声段检测阈值计算当前录入或输入的音频信号对数谱的离群点稀疏度,并根据稀疏度曲线波峰波谷变化特征实现有声段端点检测任务。
在一些可选的实施例中,步骤S1中对音频数据进行预处理的步骤,具体如下:
参见图3,在获取用户输入或设备采集的音频信号后,按图3所示的预处理流程所示步骤分步执行预加重、分帧、加窗、快速傅里叶变换、取模后求平方、取对数操作。
在分帧处理时,对音频信号进行n点平移的N点分帧,其中N为傅里叶变换点数,n是帧平移点数,n越小有声段端点检测精度越高,但计算量越大,且满足0<n≤N。
在一些实施例中,n选取0.3*N~0.5*N之间;而N一般取为2m(7≤m≤11),该参数的选取由处理器性能决定,N越大端点检测精度越高,计算量越大。
随后对已分帧的数据执行加窗操作,窗函数可选为汉明窗(Hamming)、汉宁窗(Hanning)、平顶窗(Flat-top)及布莱克曼窗(Blackman-Harris)等,窗长度与N保持一致。在本实施例中使用平顶窗或布莱克曼窗,因为这两类窗函数能够提供较好的复制精度和较理想的频谱泄露性能。
对快速傅里叶变换处理结果进行取模后求平方操作得到信号的功率谱后,根据后续音频信号处理需求可选择直接对功率谱求对数或者进行梅尔滤波、Bark子带滤波、ERB子带滤波等降维处理后再求对数,得到信号的对数谱。
在一些可选的实施例中,如图8所示,有声段检测阈值可通过以下方式获得。
参见图4,在初始阈值设定任务中,系统采用离群点检测方法计算录入或输入的音频信号频域离群点稀疏度,依据稀疏度曲线变化特征查找静音段,并根据静音段计算有声段检测阈值。具体步骤流程如图4阈值设定任务流程图所示,包括初始阈值设定、离群点稀疏度计算、静音段检测以及阈值更新。
在初始阈值设定中,初始阈值的获取有三个途径,其一是自动计算获取;其二是从预设的存储器中读取设备出厂设定的初始阈值;其三是从预设的存储器中读取系统上一次运行时记录的初始阈值。
参见图5,自动计算获取方式的初始阈值设定程序的具体操作步骤为:任取一段长度为M(M≥30,推荐取为100)的音频信号对数谱,采用离群点检测方法,沿时间轴对每一个频率点进行离群点检测,若检测出离群点则剔除离群点所在的帧,直至无离群点被检出;随后,对剩下的对数谱进行离群点检测阈值计算,得到的正向离群点检测阈值QP与负向离群点检测阈值QN,并将所得到的QP与QN作为初始阈值。
参见图9,假设第i次检测中剔除了j帧,则第i+1次检测时只需对余下的M-j帧音频信号对数谱进行处理。离群点检测方法主要有拉依达准则(又称3σ法)、四分位距法(InterquartileRange,IQR)、基于近邻判断方法、回归分析法、聚类分析法和基于模型检测方法。为达到快速、普适效果,本实施例使用四分位距法。当选取四分位距法作为离群点检测算法时,离群点检测阈值按式(1)计算得到:
式中,IQR为四分位距;QU是上四分位数;QL是下四分位数;QP表示正向离群点检测阈值,用于判断是否存在高于此阈值的离群点存在;QN表示负向离群点检测阈值,用于判断是否存在低于此阈值的离群点存在。由于在阈值计算过程中会剔除离群点所在的帧,因此正向离群点检测阈值QP和负向离群点检测阈值QN应分开计算。
在确定初始阈值后,系统开始对输入音频信号的每一帧对数谱进行离群点稀疏度计算,直至寻找到静音片段。
参见图4,离群点稀疏度计算程序将依据初始阈值对输入的音频信号对数谱进行离群点检测,将每一帧音频信号对数谱的所有频率点与初始阈值的相应频点进行比较,并分别统计音频信号对数谱中大于正向离群点检测阈值的频率点数量,和小于负向离群点检测阈值的频率点数量,并按式(2)实时计算正向离群点稀疏度和负向离群点稀疏度;
η=count÷(fdim×tdim)×100% (2)
式中η表示离群点稀疏度;count是被检测出的离群点数量;fdim表示音频信号对数谱的频率维度;tdim表示音频信号对数谱的帧数,即时间维度,是预设的计算离群点稀疏度窗口大小,满足tdim≥1。
参见图7,在静音段辨别任务处理中,可根据离群点稀疏度曲线的变化规律寻找静音段。在静音段,正向离群点稀疏度接近时间轴(即其均值与方差均接近于0),而负向离群点稀疏度在一定范围内波动,其均值由初始阈值所决定:若初始阈值由静音段计算得到,则负向离群点稀疏度的均值较小,若初始阈值由有声段计算得到,则负向离群点稀疏度的均值较大。一种可行的检测方法:使用用户设置的静音段时间tsilence为窗口大小,计算正向离群点稀疏度与负向离群点稀疏度的均值与方差,若正向离群点稀疏度的均值和方差均小于0.05,并且负向离群点稀疏度的方差与均值之比小于0.13,则可判定当前时间窗内的音频信号为静音段。
在检测出静音段后,根据已检测出的静音段音频信号对数谱,采用离群点检测方法,沿时间轴对每一个频率点进行离群点检测,若检测出离群点则剔除离群点所在的帧,直至无离群点被检出;随后,对剩下的对数谱进行阈值计算,得到的正向离群点检测阈值QP,并将该正向离群点检测阈值QP作为有声段检测阈值。至此有声段检测阈值设定完成。
在一些可选的实施例中,如图10和图11所示,有声段端点检测任务中具体执行如下:
在有声段端点检测任务中,利用有声段检测阈值设定中获得的有声段检测阈值,执行简单的比较运算,通过检测正向离群点稀疏度的波峰波谷变化实现有声段快速检测。
参见图6,有声段端点检测任务处理流程包括:正向离群点稀疏度计算、平滑滤波、端点检测及端点有效性判断子任务。
与有声段检测阈值设定中离群点稀疏度计算略有不同,在有声段检测环节,离群点稀疏度计算仅需计算正向离群点稀疏度。需要说明的是经过离群点检测,被检出的离群点所在帧均可被认定为有声段,即正向离群点稀疏度为零,则认为是静音段,正向离群点稀疏度为非零,则认为是有声段。
作为可选的实施方式,在实际应用中,音频信号里常常混杂有各类杂音,并且可能存在多个连续的音频包络,如语音信号中的词与词之间、鼾声信号中的鼾声与呼气声等,为了尽可能检出感兴趣的音频信号,滤除干扰杂音,需要对正向离群点稀疏度进行进一步处理。可通过设置最小有声段时长来排除绝大部分的杂音信号,利用正向离群点稀疏度曲线的波峰波谷变化,确定连续音频包络的分割位置,克服双阈值法因背景噪声非平稳变化导致阈值取值困难的实际问题,达到音频信号的准确分割任务。
为了提高正向离群点稀疏度的波峰波谷检测精确度,需要对正向离群点稀疏度进行平滑处理。曲线的平滑算法多种多样,各有优劣,用户可根据处理器性能选择合适的算法,本实施例给出可应用于不同性能平台上实现的中值滤波法,滤波窗口大小由用户根据音频信号特点给定,可以设置为最小有声段的长度。
端点检测任务的目的是准确寻找音频信号中有声段的起始点和结束点,通过实时检测波峰与有效波谷,实现有声段端点检测任务,具体流程如图7所示,包括起始点检测、波峰检测、波峰更新、波谷检测、波谷更新、有效波谷检测、结束点检测。
在起始点检出阶段,设置起始点检测状态初值为0,此时,系统不断轮询滤波后的正向离群点稀疏度值是否大于0,若大于则保存当前位置为有声段起始点,并将起始点检测状态置1。当起始点检测状态为1后,系统将执行波峰波谷检测,直至检测到有声段结束时将起始点检测状态清零,以重新检测起始点。
本实施例利用比较法实现波峰、波谷检测任务,即选取最新获得的三个正向离群点稀疏度,按时间次序分别记为Vt-2、Vt-1、Vt,当Vt-1>Vt-2且Vt-1≥Vt时,认定Vt-1为波峰位置,当Vt-1<Vt-2且Vt-1≤Vt时,认定Vt-1为波谷位置。需要强调的是,本实施例采用了比较法,但是并不局限于比较法,还可采用很多其他方法,具体可视处理器性能选用。
在检测到波峰后,若是第一次检测到则直接记录波峰值及其对应的帧位置,否则将其与上次记录的波峰值进行比较,以保存较高的波峰值及其对应的帧位置。同时将波峰值的最大值乘以预设的0.3得到有效波谷阈值。
当检测到波谷时,若是第一次检测到则直接记录波谷值及其对应的帧位置,否则将其与上次记录的波谷值进行比较,以保存较低的波谷值及其对应的帧位置。然后再将波谷值与有效波谷阈值进行比较,若波谷值小于有效波谷阈值则可认定该波谷为有效波谷,有效波谷表示该位置可能是有声段的结束位置。
有声段结束点的检测存在两种情况:其一,连续的多个音频包络。其二,仅存在单独的一个音频包络。对于第一种情况,在检测出有效波谷后,当后续的正向离群点稀疏度出现大于有效波谷值的1.7倍时,则可认定该有效波谷是其中一个音频包络的结束点,此时后一个音频包络的起始点与上一个包络的结束点相同,持续处理后最终会演变为仅剩一个包络的第二种情况。对于第二种情况,结束点出现在正向离群点稀疏度第一次回归0的位置。需要说明的是,每次检测到结束点后需要对波峰最大值和波谷最小值进行初始化,将波峰最大值设置为0,波谷最小值设置为100。
有声段端点检测任务过程中,静音段检测任务中离群点稀疏度曲线变化如图12所示,有声段端点检测任务中端点检测效果如图13所示。
在本说明书的上述描述中,参考术语“一个实施方式/实施例”、“另一实施方式/实施例”或“某些实施方式/实施例”等的描述意指结合实施方式或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施方式或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施方式或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施方式或示例中以合适的方式结合。
尽管已经示出和描述了本发明的实施方式,本领域的普通技术人员可以理解:在不脱离本发明的原理和宗旨的情况下可以对这些实施方式进行多种变化、修改、替换和变型,本发明的范围由权利要求及其等同物限定。
以上是对本发明的较佳实施进行了具体说明,但本发明并不限于上述实施例,熟悉本领域的技术人员在不违背本发明精神的前提下还可做作出种种的等同变形或替换,这些等同的变形或替换均包含在本申请权利要求所限定的范围内。
Claims (10)
1.一种音频信号有声段端点检测方法,其特征在于,包括以下步骤:
获取音频数据,对所述音频数据进行预处理,获得音频信号对数谱;
根据所述音频信号对数谱,执行静音段检测任务获取有声段检测阈值;
根据有声段检测阈值,执行有声段端点检测任务直至触发更新有声段检测阈值条件或触发结束条件;
其中,在有声段端点检测任务中,根据有声段检测阈值计算音频信号的离群点稀疏度,并根据稀疏度曲线的波峰波谷变化特征实现有声段端点检测。
2.根据权利要求1所述的一种音频信号有声段端点检测方法,其特征在于,所述获取音频数据,对所述音频数据进行预处理,获得音频信号对数谱,包括:
获取音频数据后,对所述音频数据执行预加重操作、分帧操作、加窗操作、快速傅里叶变换、取模后求平方操作获得音频信号功率谱,对音频信号功率谱取对数获得音频信号对数谱。
3.根据权利要求1所述的一种音频信号有声段端点检测方法,其特征在于,所述根据所述音频信号对数谱,执行静音段检测任务获取有声段检测阈值,包括:
获取初始阈值;
根据初始阈值计算所述音频信号对数谱的离群点稀疏度;
根据离群点稀疏度进行静音段检测,获得静音段音频信号对数谱;
采用离群点检测方法对被检出的静音段进行阈值计算,得到有声段检测阈值。
4.根据权利要求3所述的一种音频信号有声段端点检测方法,其特征在于,所述获取初始阈值,包括:
任取M帧音频信号对数谱,采用离群点检测方法,沿时间轴对每一个频率点进行离群点检测,若检测出离群点则剔除离群点所在的帧,直至无离群点被检出;对剩下的对数谱进行阈值计算,得到的正向离群点检测阈值QP与负向离群点检测阈值QN,并将所得到的正向离群点检测阈值QP与负向离群点检测阈值QN作为初始阈值;或者,
从预设的存储器中读取设备出厂设定的初始阈值;或者,
从预设的存储器中读取系统上一次运行时记录的初始阈值。
5.根据权利要求3所述的一种音频信号有声段端点检测方法,其特征在于,所述根据初始阈值计算所述音频信号对数谱的离群点稀疏度,包括:
将每一帧音频信号对数谱的所有频率点与初始阈值的相应频点进行比较,并分别统计音频信号对数谱中大于正向离群点检测阈值的频率点数量,和小于负向离群点检测阈值的频率点数量,并按第一公式实时计算正向离群点稀疏度与负向离群点稀疏度;
其中,所述第一公式的表达式如下:
η=count÷(fdim×tdim)×100%
式中η表示离群点稀疏度,count是被检测出的离群点数量,fdim表示音频信号对数谱的频率维度,tdim表示音频信号对数谱的时间维度,是预设的计算离群点稀疏度窗口大小,且满足tdim≥1。
6.根据权利要求3所述的一种音频信号有声段端点检测方法,其特征在于,所述根据离群点稀疏度进行静音段检测,包括:
使用预设的静音段时间tsilence作为窗口大小,计算正向离群点稀疏度与负向离群点稀疏度的均值与方差,在正向离群点稀疏度的均值与方差同时满足小于给定阈值的前提下,若负向离群点稀疏度的均值与方差满足第二公式,则判定当前时间窗内的音频信号为静音段。
其中,所述第二公式的表达式如下:
D(η)<α×E(η)
式中,D(η)表示窗口内音频信号对数谱离群点稀疏度的方差,E(η)表示窗口内音频信号对数谱离群点稀疏度的算术平均值,α表示给定阈值。
7.根据权利要求3所述的一种音频信号有声段端点检测方法,其特征在于,所述采用离群点检测方法对被检出的静音段进行阈值计算,得到有声段检测阈值,包括:
根据已检测出的静音段音频信号对数谱,采用离群点检测方法,沿时间轴对每一个频率点进行离群点检测,若检测出离群点则剔除离群点所在的帧,直至无离群点被检出;对剩下的对数谱进行阈值计算,得到的正向离群点检测阈值QP,并将该正向离群点检测阈值QP作为有声段检测阈值。
8.根据权利要求1所述的一种音频信号有声段端点检测方法,其特征在于,所述根据有声段检测阈值,执行有声段端点检测任务直至触发更新有声段检测阈值条件或触发结束条件,包括:
根据有声段检测阈值计算音频信号的正向离群点稀疏度;
对正向离群点稀疏度进行平滑处理,以提高正向离群点稀疏度的波峰波谷检测精确度;
通过实时检测波峰与有效波谷,实现有声段端点检测任务;
更新有声段检测阈值条件或结束条件检测。
9.根据权利要求8所述的一种音频信号有声段端点检测方法,其特征在于,所述有声段端点检测任务包括起始点检测、波峰检测、波峰更新、波谷检测、波谷更新、有效波谷检测、结束点检测;
其中,起始点检测是有声段检测任务的起始,也是波峰检测、波峰更新、波谷检测、波谷更新、有效波谷检测、结束点检测的必要条件;由于所有被检出的离群点均可被认定为有声事件,因此在执行起始点检测任务中,若平滑后的正向离群点稀疏度大于0,则判定该点为有声事件起始点;
其中,利用比较法实现波峰检测、波谷检测:选取最新获得的三个连续的正向离群点稀疏度,按时间次序分别记为Vt-2、Vt-1、Vt,当Vt-1>Vt-2且Vt-1≥Vt时,判定Vt-1为波峰位置,当Vt-1<Vt-2且Vt-1≤Vt时,判定Vt-1为波谷位置;
其中,波峰更新的目的是实时记录正向离群点稀疏度曲线的最大值,在检测出波峰后,将最近一次被检出的波峰与上一次被检出的波峰进行比较,若本次检出的波峰值大于上一次检出的波峰值,则执行更新波峰值操作,同时将新的波峰值乘以预设倍数作为有效波谷检测阈值,并在检测到结束点时清零;
其中,波谷更新的目的是实时记录正向离群点稀疏度曲线的最小值,在检出波谷后,将最近一次被检出的波谷与上一次被检出的波谷值进行比较,若本次检出的波谷值小于上一次检出的波谷值,则执行更新波谷值操作,同时将新的波谷值与有效波谷检测阈值进行比较,若新的波谷值小于有效波谷检测阈值,则将该波谷值设置为有效波谷,并在检测到结束点时将波谷值设置为100%;
其中,有效波谷是有声段潜在结束点,在检出有效波谷后,将最近一次被检出的有效波谷乘以预设倍数作为有声段结束检测阈值;
其中,有声段结束点的检测存在两种情况:其一,连续的多个音频包络;其二,仅存在单独的一个音频包络;对于第一种情况,在检测出有效波谷后,当后续的正向离群点稀疏度出现大于有声段结束检测阈值时,判定该有效波谷是一个音频包络的结束点,此时后一个音频包络的起始点与上一个包络的结束点相同,持续处理后最终会演变为仅剩一个包络的第二种情况;对于第二种情况,结束点出现在正向离群点稀疏度第一次回归至0的位置。
10.一种低信噪比下音频信号有声段端点检测系统,其特征在于,包括:
音频输入模块,用于获取音频数据,对所述音频数据进行预处理,获得音频信号对数谱;
数据处理模块,根据所述音频信号对数谱,执行静音段检测任务获取有声段检测阈值;根据有声段检测阈值,执行有声段端点检测任务直至触发更新有声段检测阈值条件或触发结束条件;
其中,在有声段端点检测任务中,根据有声段检测阈值计算音频信号的离群点稀疏度,并根据稀疏度曲线的波峰波谷变化特征实现有声段端点检测。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210789379.3A CN115376548B (zh) | 2022-07-06 | 2022-07-06 | 一种音频信号有声段端点检测方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210789379.3A CN115376548B (zh) | 2022-07-06 | 2022-07-06 | 一种音频信号有声段端点检测方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115376548A true CN115376548A (zh) | 2022-11-22 |
CN115376548B CN115376548B (zh) | 2023-06-20 |
Family
ID=84062513
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210789379.3A Active CN115376548B (zh) | 2022-07-06 | 2022-07-06 | 一种音频信号有声段端点检测方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115376548B (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104810018A (zh) * | 2015-04-30 | 2015-07-29 | 安徽大学 | 基于动态累积量估计的语音信号端点检测方法 |
CN105023572A (zh) * | 2014-04-16 | 2015-11-04 | 王景芳 | 一种含噪语音端点鲁棒检测方法 |
US20150348572A1 (en) * | 2014-05-30 | 2015-12-03 | Apple Inc. | Detecting a user's voice activity using dynamic probabilistic models of speech features |
US20180102135A1 (en) * | 2016-10-11 | 2018-04-12 | Cirrus Logic International Semiconductor Ltd. | Detection of acoustic impulse events in voice applications |
CN109545188A (zh) * | 2018-12-07 | 2019-03-29 | 深圳市友杰智新科技有限公司 | 一种实时语音端点检测方法及装置 |
CN114530161A (zh) * | 2021-12-31 | 2022-05-24 | 中国人民解放军陆军工程大学 | 一种基于谱减与自适应子带对数能熵积的语音检测方法 |
-
2022
- 2022-07-06 CN CN202210789379.3A patent/CN115376548B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105023572A (zh) * | 2014-04-16 | 2015-11-04 | 王景芳 | 一种含噪语音端点鲁棒检测方法 |
US20150348572A1 (en) * | 2014-05-30 | 2015-12-03 | Apple Inc. | Detecting a user's voice activity using dynamic probabilistic models of speech features |
CN104810018A (zh) * | 2015-04-30 | 2015-07-29 | 安徽大学 | 基于动态累积量估计的语音信号端点检测方法 |
US20180102135A1 (en) * | 2016-10-11 | 2018-04-12 | Cirrus Logic International Semiconductor Ltd. | Detection of acoustic impulse events in voice applications |
CN109545188A (zh) * | 2018-12-07 | 2019-03-29 | 深圳市友杰智新科技有限公司 | 一种实时语音端点检测方法及装置 |
CN114530161A (zh) * | 2021-12-31 | 2022-05-24 | 中国人民解放军陆军工程大学 | 一种基于谱减与自适应子带对数能熵积的语音检测方法 |
Also Published As
Publication number | Publication date |
---|---|
CN115376548B (zh) | 2023-06-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2021208287A1 (zh) | 用于情绪识别的语音端点检测方法、装置、电子设备及存储介质 | |
CN110364143B (zh) | 语音唤醒方法、装置及其智能电子设备 | |
WO2019101123A1 (zh) | 语音活性检测方法、相关装置和设备 | |
CN108962227B (zh) | 语音起点和终点检测方法、装置、计算机设备及存储介质 | |
Dennis et al. | Image feature representation of the subband power distribution for robust sound event classification | |
CN110232933B (zh) | 音频检测方法、装置、存储介质及电子设备 | |
US8165880B2 (en) | Speech end-pointer | |
CN111880856B (zh) | 语音唤醒方法、装置、电子设备及存储介质 | |
US20150228277A1 (en) | Voiced Sound Pattern Detection | |
US20030182118A1 (en) | System and method for indexing videos based on speaker distinction | |
WO2014153800A1 (zh) | 语音识别系统 | |
CN109801646B (zh) | 一种基于融合特征的语音端点检测方法和装置 | |
CN111540342B (zh) | 一种能量阈值调整方法、装置、设备及介质 | |
CN111465980A (zh) | 用于时延降低的自动语音辨识的得分趋势分析 | |
CN112599152B (zh) | 语音数据标注方法、系统、电子设备及存储介质 | |
CN112967738B (zh) | 人声检测方法、装置及电子设备和计算机可读存储介质 | |
CN110111811B (zh) | 音频信号检测方法、装置和存储介质 | |
WO2019232848A1 (zh) | 语音区分方法、装置、计算机设备及存储介质 | |
WO2018095167A1 (zh) | 声纹识别方法和声纹识别系统 | |
CN105706167A (zh) | 有语音的话音检测方法和装置 | |
US20220399007A1 (en) | System and method for robust wakeword detection in presence of noise in new unseen environments without additional data | |
CN110689887A (zh) | 音频校验方法、装置、存储介质及电子设备 | |
CN108847218B (zh) | 一种自适应门限整定语音端点检测方法,设备及可读存储介质 | |
CN111489739B (zh) | 音素识别方法、装置及计算机可读存储介质 | |
Marković et al. | Partial mutual information based input variable selection for supervised learning approaches to voice activity detection |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |