CN115206292A - 一种语音活动检测方法、装置,电子设备及存储介质 - Google Patents
一种语音活动检测方法、装置,电子设备及存储介质 Download PDFInfo
- Publication number
- CN115206292A CN115206292A CN202210858312.0A CN202210858312A CN115206292A CN 115206292 A CN115206292 A CN 115206292A CN 202210858312 A CN202210858312 A CN 202210858312A CN 115206292 A CN115206292 A CN 115206292A
- Authority
- CN
- China
- Prior art keywords
- long
- term
- var
- eigenvalue
- audio signal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 59
- 230000000694 effects Effects 0.000 title claims abstract description 56
- 230000007774 longterm Effects 0.000 claims abstract description 147
- 230000005236 sound signal Effects 0.000 claims abstract description 62
- 238000000034 method Methods 0.000 claims abstract description 38
- 238000000605 extraction Methods 0.000 claims abstract description 18
- 230000003595 spectral effect Effects 0.000 claims description 59
- 238000001228 spectrum Methods 0.000 claims description 24
- 238000004422 calculation algorithm Methods 0.000 claims description 12
- 238000004364 calculation method Methods 0.000 claims description 12
- 238000009499 grossing Methods 0.000 claims description 12
- 238000012545 processing Methods 0.000 claims description 9
- 238000004590 computer program Methods 0.000 claims description 7
- 241000724705 Lucerne transient streak virus Species 0.000 claims 4
- 230000007613 environmental effect Effects 0.000 description 6
- 230000006872 improvement Effects 0.000 description 6
- 230000008569 process Effects 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 238000004891 communication Methods 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000004088 simulation Methods 0.000 description 3
- 239000010902 straw Substances 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 235000014676 Phragmites communis Nutrition 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000007704 transition Effects 0.000 description 2
- NAWXUBYGYWOOIX-SFHVURJKSA-N (2s)-2-[[4-[2-(2,4-diaminoquinazolin-6-yl)ethyl]benzoyl]amino]-4-methylidenepentanedioic acid Chemical compound C1=CC2=NC(N)=NC(N)=C2C=C1CCC1=CC=C(C(=O)N[C@@H](CC(=C)C(O)=O)C(O)=O)C=C1 NAWXUBYGYWOOIX-SFHVURJKSA-N 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000002459 sustained effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/0212—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L2025/783—Detection of presence or absence of voice signals based on threshold decision
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
本申请提供一种语音活动检测方法、装置,电子设备及存储介质。该方法包括:获取待检测音频信号;对待检测音频信号进行长时特征提取,得到长时特征值;将长时特征值与预设的门限值进行比对,确定语音活动检测结果。在本申请实施例中,基于长时特征值来进行语音活动检测,能够提高语音活动检测的准确度以及稳定性。
Description
技术领域
本申请涉及语音检测技术领域,具体而言,涉及一种语音活动检测方法、装置,电子设备及存储介质。
背景技术
语音活动检测(VAD,Voice Activity Detection)是音频技术中的一个重要前端模块,其主要用于检测音频数据中是否有语音活动的段落。其可作为独立模块提供语音唤醒等功能,也可作为命令词识别,连续语音识别的前端组成低功耗的多功能语言识别系统。语音活动检测有着基于能量判决,短时过零率,梅尔倒谱系数等多种语音信号特征的检测判断方法。但是,采用上述特征进行语音活动检测的准确度以及稳定性较差。
发明内容
本申请实施例的目的在于提供一种语音活动检测方法、装置,电子设备及存储介质,以提高语音活动检测的准确度以及稳定性较。
本申请是这样实现的:
第一方面,本申请实施例提供一种语音活动检测方法,包括:获取待检测音频信号;对所述待检测音频信号进行长时特征提取,得到长时特征值;将所述长时特征值与预设的门限值进行比对,确定语音活动检测结果。
由于长时特征值保留语音信号在较长时间维度上的联系,能够反应语音信号的长时非平稳性。因此,于本申请实施例中,基于提取的长时特征值来进行语音活动检测,能够提高语音活动检测的准确度以及稳定性(或鲁棒性)。
结合上述第一方面提供的技术方案,在一些可能的实现方式中,所述对所述待检测音频信号进行长时特征提取,得到长时特征值,包括:采用遗忘因子模拟所述待检测音频信号的长时特征,得到所述长时特征值。
由于长时特征值求取过程需要用到长时间段内所有的帧数据,需要很大的内存空间来存储以及需要巨大的计算量,因此,在本申请实施例中,通过遗忘因子模拟待检测音频信号的长时特征,能够降低计算长时特征值的计算量,降低语音活动检测的延时。
结合上述第一方面提供的技术方案,在一些可能的实现方式中,所述长时特征值为LTSF(Long-Term Spectral Flatness,频谱的长时平坦度)特征值;所述采用遗忘因子模拟所述待检测音频信号的长时特征,得到所述长时特征值,包括:基于第一遗忘因子,确定所述待检测音频信号的频谱能量;基于第二遗忘因子,确定所述频谱能量的算术平均数和所述频谱能量的几何平均数;其中,所述频谱能量、所述频谱能量的算术平均数和所述频谱能量的几何平均数为所述长时特征;基于所述频谱能量的算术平均数和所述频谱能量的几何平均数,得到所述LTSF特征值。
经过上述改进所得到的LTSF特征值无需对所有的帧数据进行计算,而是通过第一遗忘因子和第二遗忘因子来模拟生成频谱能量、频谱能量的算术平均数和频谱能量的几何平均数,通过该方式,可以降低计算LTSF特征值时的计算量,减少电子设备的功耗及存储空间需求。
结合上述第一方面提供的技术方案,在一些可能的实现方式中,所述长时特征值为LTSV(Long-Term Signal Variability,信号的长时变化性)特征值;所述采用遗忘因子模拟所述待检测音频信号的长时特征,得到所述长时特征值,包括:基于第一遗忘因子和第二遗忘因子,确定所述待检测音频信号的频谱能量;其中,所述频谱能量为所述长时特征;基于所述频谱能量,确定当前帧的熵以及所述当前帧的平均熵,基于所述当前帧的熵以及所述当前帧的平均熵,得到所述LTSV特征值。
经过上述改进所得到的LTSV特征值无需对所有的帧数据进行计算,而是通过第一遗忘因子和第二遗忘因子模拟生成频谱能量,通过该方式,可以降低计算LTSV特征值时的计算量,减少电子设备的功耗以及存储空间需求。
结合上述第一方面提供的技术方案,在一些可能的实现方式中,所述采用遗忘因子模拟所述待检测音频信号的长时特征,得到所述长时特征值,包括:采用遗忘因子模拟所述待检测音频信号的长时特征;基于方差算法对所述长时特征进行处理,得到长时方差特征值;其中,所述长时方差特征值为所述长时特征值。
在本申请实施例中,通过上述方差算法得到的长时方差特征值能够使得语音和环境噪声更具有区分度,进而提高语音活动检测的稳定性。
结合上述第一方面提供的技术方案,在一些可能的实现方式中,所述长时方差特征值为基于LTSF的特征值;所述长时方差特征值的计算表达式为:
S(n,ωk)=a1*S(n-1,ωk)+(1-a2)*X(n,ωk);
AM(m,ωk)=a2*AM(m-1,ωk)+(1-a2)*S(n,ωk);
Var(n,ωk)=(S(n,ωk)-AM(n,ωk))2/S(n,ωk);
Var-s(n,ωk)=a2*Var-s(n-1,ωk)+(1-a2)*Var(n,ωk);
其中,m表示第m帧、n表示第n帧;ωk表示所述待检测音频信号经快速傅里叶变换得到的傅里叶系数对应第k个频点;X(n,ωk)表示参数n、ωk对应的频谱;S(n,ωk)表示参数n、ωk对应的频谱能量;S(n-1,ωk)表示参数n-1、ωk对应的频谱能量;AM(m,ωk)表示参数m、ωk对应的能量的算术平均数;AM(m-1,ωk)表示参数m-1、ωk对应的能量的算术平均数;Var(n,ωk)表示参数n、ωk对应的方差值;Var-s(n,ωk)表示对Var(n,ωk)进行平滑;相应的,Var-s(n-1,ωk)表示对Var(n-1,ωk)进行平滑,Var(n-1,ωk)表示参数n-1、ωk对应的方差值;Var-mean(n)表示第n帧Var-s(n,ωk)在频率轴上的平均值,bins表示总的频点数;Var-tf(n)表示所述长时方差特征值;a1表示第一遗忘因子;a2表示第二遗忘因子。
结合上述第一方面提供的技术方案,在一些可能的实现方式中,所述长时方差特征值为基于LTSV的特征值;所述长时方差特征值的计算表达式为:
S(n,ωk)=a1*S(n-1,ωk)+(1-a1)*X(n,ωk);
S(l,ωk)=a2*S(n-1,ωk)+(1-a2)*S(n,ωk);
Var(n,ωk)=(S(n,ωk)-S(l,ωk))2/S(n,ωk);
Var-s(n,ωk)=a2*Var-s(n-1,ωk)+(1-a2)*Var(n,ωk);
其中,m表示第m帧、n表示第n帧、l表示第l帧;ωk表示所述待检测音频信号经快速傅里叶变换得到的傅里叶系数对应第k个频点;X(n,ωk)表示参数n、ωk对应的频谱;S(n,ωk)表示参数n、ωk对应的频谱能量;S(n-1,ωk)表示参数n-1、ωk对应的频谱能量;S(l,ωk)表示参数l、ωk对应的频谱能量;Var(n,ωk)表示参数n、ωk对应的方差值;Var-s(n,ωk)表示对Var(n,ωk)进行平滑;相应的,Var-s(n-1,ωk)表示对Var(n-1,ωk)进行平滑,Var(n-1,ωk)表示参数n-1、ωk对应的方差值;Var-mean(n)表示第n帧Var-s(n,ωk)在频率轴上的平均值,bins表示总的频点数;Var-tf(n)表示所述长时方差特征值;a1表示第一遗忘因子;a2表示第二遗忘因子。
结合上述第一方面提供的技术方案,在一些可能的实现方式中,在所述将所述长时特征值与预设的门限值进行比对之前,所述方法还包括:基于所述长时特征值的特征频率以及背景噪声能量,动态调整所述门限值。
本申请实施例中,通过采用基于长时特征值的特征频率以及背景噪声能量来动态的调整门限值,以提高语音活动检测准确性及稳定性。
结合上述第一方面提供的技术方案,在一些可能的实现方式中,所述长时特征值为LTSF特征值或LTSV特征值。
由于LTSF特征值和LTSV特征值均保留了语音信号在较长时间维度上的联系,能够反应语音信号的长时非平稳性。因此,于本申请实施例中,基于提取的LTSF特征值或LTSV特征值来进行语音活动检测,能够提高语音活动检测的准确度以及稳定性(或鲁棒性)。
第二方面,本申请实施例提供一种语音活动检测装置,包括:获取模块,用于获取待检测音频信号;特征提取模块,用于对所述待检测音频信号进行长时特征提取,得到长时特征值;判决模块,用于将所述长时特征值与预设的门限值进行比对,确定语音活动检测结果。
第三方面,本申请实施例提供一种电子设备,包括:处理器和存储器,所述处理器和所述存储器连接;所述存储器用于存储程序;所述处理器用于调用存储在所述存储器中的程序,执行如上述第一方面实施例和/或结合上述第一方面实施例的一些可能的实现方式提供的方法。
第四方面,本申请实施例提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序在被处理器运行时执行如上述第一方面实施例和/或结合上述第一方面实施例的一些可能的实现方式提供的方法。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本申请实施例提供的一种电子设备的模块框图。
图2为本申请实施例提供的一种语音活动检测方法的步骤流程图。
图3为本申请实施例提供的三种计算LTSF特征值的方式的示意图。
图4为本申请实施例提供的一种语音活动检测方法的示意图。
图5为本申请实施例提供的一种动态调整门限值的流程示意图。
图6为本申请实施例提供的一种语音活动检测装置的模块框图。
图标:100-电子设备;110-处理器;120-存储器;200-语音活动检测装置;210-获取模块;220-特征提取模块;230-判决模块。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行描述。
请参阅图1,本申请实施例提供的一种应用语音活动检测方法及装置的电子设备100的示意性结构框图。本申请实施例中,电子设备100可以是,但不限于个人计算机(Personal Computer,PC)、智能手机、蓝牙耳机、蓝牙音箱、平板电脑、个人数字助理(Personal Digital Assistant,PDA)、移动上网设备(Mobile Internet Device,MID)等。当然,上述列举的设备仅用于便于理解本申请实施例,其不应作为对本实施例的限定。
在结构上,电子设备100可以包括处理器110和存储器120。
处理器110与存储器120直接或间接地电性连接,以实现数据的传输或交互,例如,这些元件相互之间可通过一条或多条通讯总线或信号线实现电性连接。语音活动检测装置包括至少一个可以软件或固件(Firmware)的形式存储在存储器120中或固化在电子设备100的操作系统(Operating System,OS)中的软件模块。处理器110用于执行存储器120中存储的可执行模块,例如,语音活动检测装置所包括的软件功能模块及计算机程序等,以实现语音活动检测方法。处理器110可以在接收到执行指令后,执行计算机程序。
其中,处理器110可以是一种集成电路芯片,具有信号处理能力。处理器110也可以是通用处理器,例如,可以是中央处理器(Central Processing Unit,CPU)、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific IntegratedCircuit,ASIC)、分立门或晶体管逻辑器件、分立硬件组件,可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。此外,通用处理器可以是微处理器或者任何常规处理器等。
存储器120可以是,但不限于,随机存取存储器(Random Access Memory,RAM)、只读存储器(Read Only Memory,ROM)、可编程只读存储器(Programmable Read-OnlyMemory,PROM)、可擦可编程序只读存储器(Erasable Programmable Read-Only Memory,EPROM),以及电可擦编程只读存储器(Electric Erasable Programmable Read-OnlyMemory,EEPROM)。存储器120用于存储程序,处理器110在接收到执行指令后,执行该程序。
需要说明的是,图1所示的结构仅为示意,本申请实施例提供的电子设备100还可以具有比图1更少或更多的组件,或是具有与图1所示不同的配置。此外,图1所示的各组件可以通过软件、硬件或其组合实现。
请参阅图2,图2为本申请实施例提供的语音活动检测方法的步骤流程图,该方法应用于图1所示的电子设备100。需要说明的是,本申请实施例提供的语音活动检测方法不以图2及以下所示的顺序为限制,该方法包括:步骤S101-步骤S103。
步骤S101:获取待检测音频信号。
电子设备可以实时采集当前环境中的音频信号作为待检测音频信号,也可以是在需要对历史音频信号进行分析时,将历史音频信号作为待检测音频信号。当然,待检测音频信号也可以来自于其他的设备,比如通过麦克风等音频采集设备得到待检测音频信号。
待检测音频信号可以是一段PCM(Pulse Code Modulation,脉冲编码调制)数据流。且在后续处理前,先进行加窗处理,以取出固定时长的PCM数据流作为待检测音频信号。
步骤S102:对待检测音频信号进行长时特征提取,得到长时特征值。
其中,长时特征值为LTSF特征值或LTSV特征值。
其中,LTSF特征值通过如下公式计算得到:
公式(1)~(4)中,m、n、p表示帧数,即,m表示第m帧(当前索引帧)、n表示第n帧、p表示第p帧;ωk表示待检测音频信号经快速傅里叶变换得到的傅里叶系数对应第k个频点;M表示待检测音频信号总帧数;R表示总帧数;X(p,ωk)表示参数p、ωk对应的频谱;S(n,ωk)表示参数n、ωk对应的频谱能量;AM(m,ωk)表示参数m、ωk对应的能量的算术平均数;GM(m,ωk)表示参数m、ωk对应的能量的几何平均数;Lx(m)为参数m对应的LTSF特征值。
其中,LTSV特征值通过如下公式计算得到:
公式(5)~(8)中,m、n、p、l表示帧数,即,m表示第m帧、n表示第n帧、p表示第p帧、l表示第l帧;ωk表示待检测音频信号经快速傅里叶变换得到的傅里叶系数对应第k个频点;M表示待检测音频信号总帧数;R表示总帧数;X(p,ωk)表示参数p、ωk对应的频谱;S(n,ωk)表示参数n、ωk对应的频谱能量;S(l,ωk)表示参数l、ωk对应的频谱能量;I(m,k)表示参数m、k对应的熵;表示参数m、k对应的平均熵;LSTV(m)表示参数m对应的LTSV特征值。
电子设备在获取到待检测信号后,对其进行长时特征提取,以得到用于语音活动检测的长时特征值。电子设备在对待检测信号进行特征提取之前,还需要先对其进行快速傅里叶变换(fast Fourier transform,FFT)。
步骤S103:将长时特征值与预设的门限值进行比对,确定语音活动检测结果。
最后,将长时特征值与预设的门限值进行比对,于本申请实施例中,上述比对过程可以通过判决状态机执行。需要说明的是,可以直接基于长时特征值与预设的门限值的大小关系,确定语音活动检测结果。其中,语音活动检测结果包括语音和环境噪声。
示例性的,当长时特征值大于预设的门限值,则输出的语音活动检测结果为语音,当长时特征值小于预设的门限值,则输出的语音活动检测结果为环境噪声。
需要说明的是,LTSF特征值和LTSV特征值均保留了语音信号在较长时间维度上的联系,能够反应语音信号的长时非平稳性。因此,于本申请实施例中,基于提取的LTSF特征值或LTSV特征值来进行语音活动检测,能够提高语音活动检测的准确度以及稳定性(或鲁棒性)。
发明人在实践中发现,原始的LTSF特征值和LTSV特征值求取过程需要用到长时间段内所有的帧数据,需要很大的内存空间来存储以及需要巨大的计算量。基于此,作为一种实施方式,采用遗忘因子平滑来近似模拟长时特征。即,上述步骤S102可以具体包括:采用遗忘因子模拟待检测音频信号的长时特征,得到长时特征值。
其中,当提取的长时特征值为LTSF特征值时,上述步骤具体包括:基于第一遗忘因子,确定待检测音频信号的频谱能量;基于第二遗忘因子,确定频谱能量的算术平均数和频谱能量的几何平均数;其中,频谱能量、频谱能量的算术平均数和频谱能量的几何平均数为长时特征;基于频谱能量的算术平均数和频谱能量的几何平均数,得到LTSF特征值。
采用上述步骤得到的LTSF特征值,可以通过如下公式实现:
S(n,ωk)=a1*S(n-1,ωk)+(1-a2)*X(n,ωk) (9)
GM(m,ωk)=a2*GM(m-1,ωk)+(1-a2)*log10S(n,ωk) (10)
AM(m,ωk)=a2*AM(m-1,ωk)+(1-a2)*S(n,ωk) (11)
Lx(m)=∑k(log10GM(m,ωk)-log10AM(m,ωk)) (12)
公式(9)~(10)中,a1表示第一遗忘因子;a2表示第二遗忘因子;a1和a2的数值均接近于1。于本申请实施例中,a1=0.96,a2=0.90。GM(m-1,ωk)表示参数m-1、ωk对应的能量的几何平均数;AM(m-1,ωk)表示参数m-1、ωk对应的能量的算术平均数。
需要说明的是,其他参数的解释可以参考公式(1)~(4)中相同参数的解释,此处不作赘述。
经过上述改进所得到的LTSF特征值相较于原始的LTSF特征值的计算方式,无需对所有的帧数据进行计算,而是通过第一遗忘因子和第二遗忘因子模拟生成频谱能量、频谱能量的算术平均数和频谱能量的几何平均数,通过该方式,可以降低计算LTSF特征值时的计算量,减少电子设备的功耗及存储空间需求。
其中,当提取的长时特征值为LTSV特征值时,上述步骤采用遗忘因子模拟待检测音频信号的长时特征,得到长时特征值,可以具体包括:基于第一遗忘因子和第二遗忘因子,确定所述待检测音频信号的频谱能量;其中,频谱能量为长时特征;基于频谱能量,确定当前帧的熵以及当前帧的平均熵,基于当前帧的熵以及平均熵,得到LTSV特征值。
采用上述步骤得到的LTSV特征值,可以通过如下公式实现:
S(n,ωk)=a1*S(n-1,ωk)+(1-a1)*X(n,ωk) (13)
S(l,ωk)=a2*S(n-1,ωk)+(1-a2)*S(n,ωk) (14)
I(m,k)=-S(l,ωk)×log(S(l,ωk)) (15)
公式(13)~(17)中,a1表示第一遗忘因子;a2表示第二遗忘因子;a1和a2的数值均接近于1。于本申请实施例中,a1=0.96,a2=0.90。S(n,ωk)表示参数n、ωk对应的频谱能量;S(n-1,ωk)表示参数n-1、ωk对应的频谱能量。
需要说明的是,其他参数的解释可以参考公式(5)~(8)中相同参数的解释,此处不作赘述,且公式(16)与公式(7)的表达形式相同,公式(17)与公式(8)的表达形式相同。
经过上述改进所得到的LTSV特征值相较于原始的LTSV特征值的计算方式,无需对所有的帧数据进行计算,而是通过第一遗忘因子和第二遗忘因子模拟生成频谱能量,通过该方式,可以降低计算LTSV特征值时的计算量,减少电子设备的功耗以及存储空间需求。
为了进一步地提高提取的长时特征值的区分度,提高语音活动检测的稳定性,上述步骤采用遗忘因子模拟待检测音频信号的长时特征,得到长时特征值可以进一步地包括:采用遗忘因子模拟待检测音频信号的长时特征;基于方差算法对长时特征进行处理,得到长时方差特征值;其中,长时方差特征值为长时特征值。
其中,当提取的长时特征值为LTSF特征值时,上述步骤可以具体包括:基于第一遗忘因子,确定待检测音频信号的频谱能量;基于第二遗忘因子,确定频谱能量的算术平均数;基于方差算法对频谱能量、频谱能量的算术平均数进行处理,得到长时方差特征值。
采用上述步骤得到的长时方差特征值,可以通过如下公式实现:
S(n,ωk)=a1*S(n-1,ωk)+(1-a2)*X(n,ωk) (18)
AM(m,ωk)=a2*AM(m-1,ωk)+(1-a2)*S(n,ωk) (19)
Var(n,ωk)=(S(n,ωk)-AM(n,ωk))2/S(n,ωk) (20)
Var-s(n,ωk)=a2*Var-s(n-1,ωk)+(1-a2)*Var(n,ωk) (21)
其中,公式(18)与公式(9)相同,与公式(19)与公式(11)相同,此处的参数说明互相参考即可。
在公式(20)~(23)中,Var(n,ωk)表示参数n、ωk对应的方差值;Var-s(n,ωk)表示对Var(n,ωk)进行平滑;相应的,Var-s(n-1,ωk)表示对Var(n-1,ωk)进行平滑,Var(n-1,ωk)表示参数n-1、ωk对应的方差值;Var-mean(n)表示第n帧Var-s(n,ωk)在频率轴上的平均值,bins表示总的频点数;Var-tf(n)表示长时方差特征值。上述公式(20)~(23)即对应方差算法。
其中,当提取的长时特征值为LTSV特征值时,上述步骤可以具体包括:基于第一遗忘因子,确定待检测音频信号的频谱能量;基于方差算法对频谱能量进行处理,得到长时方差特征值。
采用上述步骤得到的长时方差特征值,可以通过如下公式实现:
S(n,ωk)=a1*S(n-1,ωk)+(1-a1)*X(n,ωk) (24)
S(l,ωk)=a2*S(n-1,ωk)+(1-a2)*S(n,ωk) (25)
Var(n,ωk)=(S(n,ωk)-S(l,ωk))2/S(n,ωk) (26)
Var-s(n,ωk)=a2*Var-s(n-1,ωk)+(1-a2)*Var(n,ωk) (27)
其中,公式(24)与公式(13)相同,与公式(25)与公式(14)相同,此处的参数说明互相参考即可。此外,公式(26)~(29)与公式(20)~(23)中相同的参数互相参考即可,此处也不作赘述。上述公式(26)~(29)即对应方差算法。
可见,通过上述方差算法得到的长时方差特征值能够使得语音和环境噪声更具有区分度,同时采用上述算法计算长时方差特征值的过程也省略了对数运算,进而有效地降低计算量。
可见,于本申请实施例中,可以通过三种方式来计算长时特征值,请参阅图3,以长时特征值为LTSF特征值为例。
方式一:在获取到待检测音频信号后,采用公式(1)计算频谱能量,通过公式(2)计算几何平均数,通过公式(3)计算算数平均数,最后通过公式(4)计算得到LTSF特征值。
方式二:在获取到待检测音频信号后,采用公式(9)计算频谱能量,通过公式(10)计算几何平均数,通过公式(11)计算算数平均数,最后通过公式(12)计算得到LTSF特征值。
方式三:在获取到待检测音频信号后,采用公式(18)计算频谱能量;其中,公式(18)与公式(9相同),通过公式(19)计算算数平均数;其中,公式(19)与公式(11)相同,然后通过公式(20)计算方差值,并通过公式(21)进行平滑,再通过公式(22)计算方差平均值,最后,通过公式(23)计算得到LTSF特征值。
于本申请实施例中,预设的门限值可以是一个固定的值,其可以预先配置在电子设备中。
在一实施例中,预设的门限值可以是为动态调整的值,即,在将长时特征值与预设的门限值进行比对之前,该方法包括:基于长时特征值的特征频率以及背景噪声能量,动态调整门限值。
请参阅图4,本申请实施例所提供的语音活动检测方法包括特征提取过程的改进,以及门限值的动态调整。门限值的动态调整基于背景噪声跟踪实现,门限值调整后,通过判决状态机进行判决后输出语音活动检测结果。
请参阅图5,其中,动态调整门限值的具体过程如下:
S1:计算预设时长的特征区间的最大上限值(max_fe)以及最小下限值(min_fe)。最大上限值(max_fe)表征100%为语音的界限值,最小下限值(max_fe)表征100%为环境噪声的界限值。再基于背景噪声能量计算长时特征值的最大特征上限值(max_fe_thr)以及长时特征值的最小特征下限值(min_fe_thr)。其中,背景噪声能量为历史帧数据所获取的背景噪声能量。此步骤相当于利用历史帧数据所获取的背景噪声能量计算出最大特征上限值(max_fe_thr)以及长时特征值的最小特征下限值(min_fe_thr)。
预设时长可以是0.2秒、0.3秒,本申请不作限定。
S2:计算预设时长的长时特征值的上包络(envelop_up)、下包络(envelop_down)、上包络波动宽度(envelop_up_diff)、下包络波动宽度(envelop_down_diff)及包络宽度(envelop_wide)。其中,通过长时特征值的上包络、下包络及包络宽度用于表征特征频率,即,通过长时特征值的上包络、下包络及包络宽度的变化表示特征频率的变化。具体的,包络宽度较窄,且靠近上界限时,表示持续的语音;包络宽度较窄,且靠近下界限时,表示持续的环境噪声;包络宽度较宽时,表示语音数据和噪声数据同时存在。
S3:对当前长时特征值对应的音频状态进行判断(状态包括持续的语音,持续的噪声,语音噪声转换),并基于判断结果调整门限值。具体包括以下三种调整情况:
(1)envelop_wide<min_wide(持续为语音或噪声时的宽度,一预设值)。表示当前音频流处于持续状态,若envelop_up_diff>envelop_down_diff表示持续的语音流,门限值上移,反之,则是持续的噪声流,门限值下移。
(2)envelop_wide>well_wide(语音噪声转换时的理想宽度,一预设值)。表示当前音频流处于语音和噪声的转换状态。门限值由上包络波动宽度和下包络波动宽度的平均来计算出。
(3)min_wide<envelop_wide<well_wide:表示当前音频流界于持续状态和转换状态之间,根据代表噪声特征的最小包络宽度(min_bg_wide,一预设值)和当前理想语音包络宽度(wide_select,一预设值)分析后,调节门限值。
(3.1)假设wide_select=max_fe–min_fe_thr-well_wide;如果满足条件0<wide_select<min_bg_wide,门限值将更新为max_fe和min_fe_thr的均值,并且将min_bg_wide更新为wide_select的值.
(3.2)假设wide_select=max_fe_thr–min_fe-well_wide;如果满足条件0<wide_select<min_bg_wide,门限值将更新为max_fe_thr和min_fe的均值.并且将min_bg_wide更新为wide_select的值。
(3.3)min_bg_wide=wide_fe_thr(理想宽度门限,一预设值)-well_wide;门限值将更新为max_fe_thr和min_fe_thr的均值。
可见,本申请实施例中,通过采用基于长时特征值的特征频率以及背景噪声能量来动态的调整门限值,以提高语音活动检测准确性及稳定性。
以采用公式(18)~公式(23)的语音活动检测方法进行实验,在采集的包含18种环境噪声背景,总共2868条测试语音数据(约13GB)测试数据中实测的语音检测结果如下:
将其与目前的语音活动检测方法进行对比,对比结果如下:
从测试结果可以看出,上述示例的语音活动检测方法,显著提高了检测正确率和方法在不同负责噪声环境下的稳定性,同时该方法能够极大幅度地降低了算法的存储空间和计算量要求,成为一种高效的高鲁棒性低消耗语音检测方法,易于在嵌入式设备和低功耗设备中实现。
请参阅图6,基于同一发明构思,本申请实施例还提供一种语音活动检测装置200,该装置包括:
获取模块210,用于获取待检测音频信号。
特征提取模块220,用于对所述待检测音频信号进行长时特征提取,得到长时特征值。
判决模块230,用于将所述长时特征值与预设的门限值进行比对,确定语音活动检测结果。
可选地,特征提取模块220具体用于采用遗忘因子模拟所述待检测音频信号的长时特征,得到所述长时特征值。
可选地,所述长时特征值为LTSF特征值;特征提取模块220还具体用于基于第一遗忘因子,确定所述待检测音频信号的频谱能量;基于第二遗忘因子,确定所述频谱能量的算术平均数和所述频谱能量的几何平均数;其中,所述频谱能量、所述频谱能量的算术平均数和所述频谱能量的几何平均数为所述长时特征;基于所述频谱能量的算术平均数和所述频谱能量的几何平均数,得到所述LTSF特征值。
可选地,所述长时特征值为LTSV特征值;特征提取模块220还具体用于基于第一遗忘因子和第二遗忘因子,确定所述待检测音频信号的频谱能量;其中,所述频谱能量为所述长时特征;基于所述频谱能量,确定当前帧的熵以及所述当前帧的平均熵,基于所述当前帧的熵以及所述当前帧的平均熵,得到所述LTSV特征值。
可选地,特征提取模块220还具体用于采用遗忘因子模拟所述待检测音频信号的长时特征;基于方差算法对所述长时特征进行处理,得到长时方差特征值;其中,所述长时方差特征值为所述长时特征值。
可选地,该装置还包括门限调整模块。门限调整模块用于在所述将所述长时特征值与预设的门限值进行比对之前,基于所述长时特征值的特征频率以及背景噪声能量,动态调整所述门限值。
需要说明的是,由于所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
基于同一发明构思,本申请实施例还提供一种计算机可读存储介质,其上存储有计算机程序,计算机程序在被运行时执行上述实施例中提供的方法。
该存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如软盘、硬盘、磁带)、光介质(例如DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。
在本申请所提供的实施例中,应该理解到,所揭露装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
另外,作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
再者,在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。
以上所述仅为本申请的实施例而已,并不用于限制本申请的保护范围,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
Claims (12)
1.一种语音活动检测方法,其特征在于,包括:
获取待检测音频信号;
对所述待检测音频信号进行长时特征提取,得到长时特征值;
将所述长时特征值与预设的门限值进行比对,确定语音活动检测结果。
2.根据权利要求1所述的方法,其特征在于,所述对所述待检测音频信号进行长时特征提取,得到长时特征值,包括:
采用遗忘因子模拟所述待检测音频信号的长时特征,得到所述长时特征值。
3.根据权利要求2所述的方法,其特征在于,所述长时特征值为LTSF特征值;所述采用遗忘因子模拟所述待检测音频信号的长时特征,得到所述长时特征值,包括:
基于第一遗忘因子,确定所述待检测音频信号的频谱能量;
基于第二遗忘因子,确定所述频谱能量的算术平均数和所述频谱能量的几何平均数;其中,所述频谱能量、所述频谱能量的算术平均数和所述频谱能量的几何平均数为所述长时特征;
基于所述频谱能量的算术平均数和所述频谱能量的几何平均数,得到所述LTSF特征值。
4.根据权利要求2所述的方法,其特征在于,所述长时特征值为LTSV特征值;所述采用遗忘因子模拟所述待检测音频信号的长时特征,得到所述长时特征值,包括:
基于第一遗忘因子和第二遗忘因子,确定所述待检测音频信号的频谱能量;其中,所述频谱能量为所述长时特征;
基于所述频谱能量,确定当前帧的熵以及所述当前帧的平均熵,基于所述当前帧的熵以及所述当前帧的平均熵,得到所述LTSV特征值。
5.根据权利要求2所述的方法,其特征在于,所述采用遗忘因子模拟所述待检测音频信号的长时特征,得到所述长时特征值,包括:
采用遗忘因子模拟所述待检测音频信号的长时特征;
基于方差算法对所述长时特征进行处理,得到长时方差特征值;其中,所述长时方差特征值为所述长时特征值。
6.根据权利要求5所述的方法,其特征在于,所述长时方差特征值为基于LTSF的特征值;所述长时方差特征值的计算表达式为:
S(n,ωk)=a1*S(n-1,ωk)+(1-a2)*X(n,ωk);
AM(m,ωk)=a2*AM(m-1,ωk)+(1-a2)*S(n,ωk);
Var(n,ωk)=(S(n,ωk)-AM(n,ωk))2/S(n,ωk);
Var_s(n,ωk)=a2*Var_s(n-1,ωk)+(1-a2)*Var(n,ωk);
其中,m表示第m帧、n表示第n帧;ωk表示所述待检测音频信号经快速傅里叶变换得到的傅里叶系数对应第k个频点;X(n,ωk)表示参数n、ωk对应的频谱;S(n,ωk)表示参数n、ωk对应的频谱能量;S(n-1,ωk)表示参数n-1、ωk对应的频谱能量;AM(m,ωk)表示参数m、ωk对应的能量的算术平均数;AM(m-1,ωk)表示参数m-1、ωk对应的能量的算术平均数;Var(n,ωk)表示参数n、ωk对应的方差值;Var-s(n,ωk)表示对Var(n,ωk)进行平滑;相应的,Var-s(n-1,ωk)表示对Var(n-1,ωk)进行平滑,Var(n-1,ωk)表示参数n-1、ωk对应的方差值;Var-mean(n)表示第n帧Var-s(n,ωk)在频率轴上的平均值,bins表示总的频点数;Var-tf(n)表示所述长时方差特征值;a1表示第一遗忘因子;a2表示第二遗忘因子。
7.根据权利要求5所述的方法,其特征在于,所述长时方差特征值为基于LTSV的特征值;所述长时方差特征值的计算表达式为:
S(n,ωk)=a1*S(n-1,ωk)+(1-a1)*X(n,ωk);
S(l,ωk)=a2*S(n-1,ωk)+(1-a2)*S(n,ωk);
Var(n,ωk)=(S(n,ωk)-S(l,ωk))2/S(n,ωk);
Var_s(n,ωk)=a2*Var_s(n-1,ωk)+(1-a2)*Var(n,ωk);
其中,m表示第m帧、n表示第n帧、l表示第l帧;ωk表示所述待检测音频信号经快速傅里叶变换得到的傅里叶系数对应第k个频点;X(n,ωk)表示参数n、ωk对应的频谱;S(n,ωk)表示参数n、ωk对应的频谱能量;S(n-1,ωk)表示参数n-1、ωk对应的频谱能量;S(l,ωk)表示参数l、ωk对应的频谱能量;Var(n,ωk)表示参数n、ωk对应的方差值;Var_s(n,ωk)表示对Var(n,ωk)进行平滑;相应的,Var_s(n-1,ωk)表示对Var(n-1,ωk)进行平滑,Var(n-1,ωk)表示参数n-1、ωk对应的方差值;Var-mean(n)表示第n帧Var-s(n,ωk)在频率轴上的平均值,bins表示总的频点数;Var_tf(n)表示所述长时方差特征值;a1表示第一遗忘因子;a2表示第二遗忘因子。
8.根据权利要求1-7中任一项所述的方法,其特征在于,在所述将所述长时特征值与预设的门限值进行比对之前,所述方法还包括:
基于所述长时特征值的特征频率以及背景噪声能量,动态调整所述门限值。
9.根据权利要求1所述的方法,其特征在于,所述长时特征值为LTSF特征值或LTSV特征值。
10.一种语音活动检测装置,其特征在于,包括:
获取模块,用于获取待检测音频信号;
特征提取模块,用于对所述待检测音频信号进行长时特征提取,得到长时特征值;
判决模块,用于将所述长时特征值与预设的门限值进行比对,确定语音活动检测结果。
11.一种电子设备,其特征在于,包括:处理器和存储器,所述处理器和所述存储器连接;
所述存储器用于存储程序;
所述处理器用于运行存储在所述存储器中的程序,执行如权利要求1-9中任一项所述的方法。
12.一种计算机可读存储介质,其特征在于,其上存储有计算机程序,所述计算机程序在被计算机运行时执行如权利要求1-9中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210858312.0A CN115206292A (zh) | 2022-07-20 | 2022-07-20 | 一种语音活动检测方法、装置,电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210858312.0A CN115206292A (zh) | 2022-07-20 | 2022-07-20 | 一种语音活动检测方法、装置,电子设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115206292A true CN115206292A (zh) | 2022-10-18 |
Family
ID=83582398
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210858312.0A Pending CN115206292A (zh) | 2022-07-20 | 2022-07-20 | 一种语音活动检测方法、装置,电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115206292A (zh) |
-
2022
- 2022-07-20 CN CN202210858312.0A patent/CN115206292A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2019101123A1 (zh) | 语音活性检测方法、相关装置和设备 | |
CN108198547B (zh) | 语音端点检测方法、装置、计算机设备和存储介质 | |
CN109801646B (zh) | 一种基于融合特征的语音端点检测方法和装置 | |
CN109616098B (zh) | 基于频域能量的语音端点检测方法和装置 | |
CN103247298B (zh) | 一种灵敏度校准方法和音频设备 | |
WO2012158156A1 (en) | Noise supression method and apparatus using multiple feature modeling for speech/noise likelihood | |
WO2013109432A1 (en) | Voice activity detection in presence of background noise | |
WO2021093380A1 (zh) | 一种噪声处理方法、装置、系统 | |
CN105308679A (zh) | 用于识别与语音命令相关联的位置以控制家用电器的方法和系统 | |
CN112967732B (zh) | 调整均衡器的方法、装置、设备和计算机可读存储介质 | |
JP6182895B2 (ja) | 処理装置、処理方法、プログラム及び処理システム | |
CN112951259A (zh) | 音频降噪方法、装置、电子设备及计算机可读存储介质 | |
CN109688271A (zh) | 联系人信息输入的方法、装置及终端设备 | |
CN108847251B (zh) | 一种语音去重方法、装置、服务器及存储介质 | |
CN112216285B (zh) | 多人会话检测方法、系统、移动终端及存储介质 | |
CN111755029B (zh) | 语音处理方法、装置、存储介质以及电子设备 | |
WO2024041512A1 (zh) | 音频降噪方法、装置、电子设备及可读存储介质 | |
CN116959495A (zh) | 一种语音信号信噪比估计方法、系统 | |
CN115206292A (zh) | 一种语音活动检测方法、装置,电子设备及存储介质 | |
CN110085264A (zh) | 语音信号检测方法、装置、设备及存储介质 | |
CN114783423A (zh) | 基于语速调整的语音切分方法、装置、计算机设备及介质 | |
CN113658581A (zh) | 声学模型的训练、语音处理方法、装置、设备及存储介质 | |
CN114974213A (zh) | 音频处理方法、电子设备及存储介质 | |
CN114979798A (zh) | 播放速度控制方法和电子设备 | |
TWI756817B (zh) | 語音活動偵測裝置與方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |