CN110415729B - 语音活动检测方法、装置、介质和系统 - Google Patents
语音活动检测方法、装置、介质和系统 Download PDFInfo
- Publication number
- CN110415729B CN110415729B CN201910709899.7A CN201910709899A CN110415729B CN 110415729 B CN110415729 B CN 110415729B CN 201910709899 A CN201910709899 A CN 201910709899A CN 110415729 B CN110415729 B CN 110415729B
- Authority
- CN
- China
- Prior art keywords
- voice
- speech
- energy
- signal frame
- current
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 57
- 230000000694 effects Effects 0.000 title claims abstract description 57
- 230000008034 disappearance Effects 0.000 claims abstract description 83
- 238000000034 method Methods 0.000 claims abstract description 54
- 238000004364 calculation method Methods 0.000 claims abstract description 40
- 238000000354 decomposition reaction Methods 0.000 claims description 75
- 238000005070 sampling Methods 0.000 claims description 66
- 238000012545 processing Methods 0.000 claims description 37
- 230000015654 memory Effects 0.000 claims description 28
- 230000003139 buffering effect Effects 0.000 claims description 16
- 238000009499 grossing Methods 0.000 claims description 9
- 238000007781 pre-processing Methods 0.000 abstract description 11
- 230000004044 response Effects 0.000 abstract description 9
- 230000002829 reductive effect Effects 0.000 abstract description 6
- 230000008569 process Effects 0.000 description 19
- 230000008859 change Effects 0.000 description 12
- 238000010586 diagram Methods 0.000 description 7
- 201000007201 aphasia Diseases 0.000 description 6
- 230000003287 optical effect Effects 0.000 description 5
- 238000003860 storage Methods 0.000 description 5
- 230000007704 transition Effects 0.000 description 5
- 238000009826 distribution Methods 0.000 description 4
- 238000004519 manufacturing process Methods 0.000 description 3
- 230000007246 mechanism Effects 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 238000010183 spectrum analysis Methods 0.000 description 3
- 238000012795 verification Methods 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 230000009977 dual effect Effects 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000000670 limiting effect Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000036961 partial effect Effects 0.000 description 2
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000037433 frameshift Effects 0.000 description 1
- 230000005012 migration Effects 0.000 description 1
- 238000013508 migration Methods 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L25/87—Detection of discrete points within a voice signal
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)
- Machine Translation (AREA)
Abstract
本申请涉及一种语音活动检测方法、装置、介质和系统。语音活动检测方法包括:对当前语音信号帧进行预处理,预判断当前语音信号帧中是否有语音出现或消失;在预判断当前语音信号帧中有语音的出现或消失的情况下,将当前语音信号帧中的语音采样分解为多个语音采样组,对于多个语音采样组中的两个语音采样组,计算两个语音采样组中的每个语音采样组的能量质心以获得两个能量质心;和根据两个能量质心,确定当前语音信号帧中是否有语音出现或消失的情况。本申请能够有效减轻计算复杂度,降低系统延迟和提高响应速度,另一方面,本申请提供的方案对阈值、帧长度、采样率都具有很高的鲁棒性,使得工程化实现更加便捷。
Description
技术领域
本申请涉及一种语音活动检测方法、装置、介质和系统。
背景技术
语音活动检测(Voice Activity Detection,VAD)通常用于实现语音端点的检测,从带有噪声的语音中定位出语音的开始点和结束点,是语音相关研究领域中的重要一环,在语音识别,语音增强等研究领域有着广泛的应用。涉及到语音前处理的部分大都需要VAD模块,VAD的效率和准确度将直接影响总语音识别和唤醒错误率。
在高背景噪声下准确地检测语音是很困难的。近些年来,业内提出了大量的语音活动检测特征提取方法,例如倒谱法、梅尔倒谱系数(MFCC,Mel-scale FrequencyCepstral Coefficient)、隐马尔可夫模型等。最广泛使用的语音活动检测方法大都基于短时能量加上短时过零率。以上这些方法中很多需要基于频谱分析,大都需要大量的计算。
发明内容
本申请的目的在于提供一种新的VAD方案,提高语音相关系统的响应速度。
本申请的第一方面提供了一种语音活动检测方法,包括:对当前语音信号帧进行预处理,预判断当前语音信号帧中是否有语音出现或消失;在预判断当前语音信号帧中有语音的出现或消失的情况下,将当前语音信号帧中的语音采样分解为多个语音采样组,对于多个语音采样组中的两个语音采样组,计算两个语音采样组中的每个语音采样组的能量质心以获得两个能量质心;和根据两个能量质心,确定当前语音信号帧中是否有语音出现或消失的情况。
与现有技术相比,本申请提供的方案,能够有效减轻计算复杂度,降低系统延迟和提高响应速度。
本申请的第二方面提供了一种语音活动检测方法,包括:在时域中,计算当前语音信号帧的能量质心或者能量质心偏移量,其中,能量质心偏移量为语音信号帧的能量质心与参考能量质心的差值;将能量质心或能量质心偏移量与阈值比较;其中,阈值包括语音出现阈值和/或语音消失阈值;在能量质心或质心偏移量大于语音出现阈值的情况下,判断在当前语音信号帧中有语音的出现;和/或,在能量质心或者质心偏移量小于语音消失阈值的情况下,判断在当前语音信号帧中有语音的消失;其中,语音出现阈值和/或语音消失阈值是可调节的。
通过直接计算时域质心,迅速进行语音活动检测,减轻了计算复杂度,提高了响应速度。
本申请的第三方面提供了一种语音活动检测方法,包括:将当前语音信号帧中的语音采样分解为多个语音采样组;对于多个语音采样组中的两个语音采样组,计算两个语音采样组中的每个语音采样组的能量质心以获得两个能量质心;根据两个能量质心,确定当前语音信号帧中是否有语音出现或消失的情况。
通过分解后的语音采样组的能量质心可以迅速判断语音信号中是否有语音/静音之间的类别的变化。
本申请的第四方面提供了一种语音活动检测装置,包括:缓存模块和处理模块,缓存模块,用于缓存当前语音信号帧;处理模块,与缓存模块耦合,用于对当前语音信号帧进行预处理,预判断当前语音信号帧中是否有语音出现或消失;在预判断当前语音信号帧中有语音的出现或消失的情况下,将当前语音信号帧中的语音采样分解为多个语音采样组,对于多个语音采样组中的两个语音采样组,计算两个语音采样组中的每个语音采样组的能量质心以获得两个能量质心;和根据两个能量质心,确定当前语音信号帧中是否有语音出现或消失的情况。
本申请的第五方面提供了一种语音活动检测装置,包括:缓存模块,用于缓存当前语音信号帧;处理模块,与缓存模块耦合,用于对当前语音信号帧进行预处理,预判断当前语音信号帧中是否有语音出现或消失;在预判断当前语音信号帧中有语音的出现或消失的情况下,将当前语音信号帧中的语音采样分解为多个语音采样组,对于多个语音采样组中的两个语音采样组,计算两个语音采样组中的每个语音采样组的能量质心以获得两个能量质心;和根据两个能量质心,确定当前语音信号帧中是否有语音出现或消失的情况。
本申请的第六方面提供了一种语音活动检测装置,包括:缓存模块,用于缓存当前语音信号帧;处理模块,与缓存模块耦合,用于在时域中,计算当前语音信号帧的能量质心或者能量质心偏移量,其中,能量质心偏移量为语音信号帧的能量质心与参考能量质心的差值;将能量质心或能量质心偏移量与阈值比较;其中,阈值包括语音出现阈值和/或语音消失阈值;在能量质心或质心偏移量大于语音出现阈值的情况下,判断在当前语音信号帧中有语音的出现;和/或,在能量质心或者质心偏移量小于语音消失阈值的情况下,判断在当前语音信号帧中有语音的消失;其中,语音出现阈值和/或语音消失阈值是可调节的。
本申请的第七方面提供了一种系统,该系统包括处理器、存储器,存储器,所述存储器中存储有指令;处理器,用于读取所述存储器中的指令,以执行前述第一方面、第二方面、第三方面或他们的任一实现方式提供的方法。
本申请的第八方面提供了一种机器可读介质,机器可读介质中存储有指令,该指令被机器运行时,该机器执行前述第一方面、第二方面、第三方面或他们的任一实现方式提供的方法。
本申请提供了一种精确地检测语音活动的方案,该方案基于时域特征,减轻了计算复杂度,能够有效降低系统延迟和提高响应速度,同时基于小波分解和质心偏移的双重验证,能够有效提高VAD准确度。并且,本申请提供的方案对阈值、帧长度、采样率都具有很高的鲁棒性,使得工程化实现更加便捷。
附图说明
图1示出根据本申请的实施例的语音识别系统示例。
图2A和图2B是根据本申请的实施例的语音活动检测装置的结构示例示意图。
图3是根据本申请的实施例的对一帧原始语音信号X进行小波分解的示意图。
图4是根据本申请的实施例的语音活动检测方法的流程图。
图5是根据本申请的实施例调节第一阈值和第二阈值的方法的流程图。
图6是根据本申请实施例的系统的框图。
具体实施方式
下面结合具体实施例和附图对本申请做进一步说明。可以理解的是,本公开的说明性实施例包括但不限于语音活动检测的方法、系统和装置,此处描述的具体实施例仅仅是为了解释本申请,而非对本申请的限定。此外,为了便于描述,附图中仅示出了与本申请相关的部分而非全部的结构或过程。
以下由特定的具体实施例说明本申请的实施方式,本领域技术人员可由本说明书所揭示的内容轻易地了解本申请的其他优点及功效。虽然本申请的描述将结合较佳实施例一起介绍,但这并不代表此发明的特征仅限于该实施方式。恰恰相反,结合实施方式作发明介绍的目的是为了覆盖基于本申请的权利要求而有可能延伸出的其它选择或改造。为了提供对本申请的深度了解,以下描述中将包含许多具体的细节。本申请也可以不使用这些细节实施。此外,为了避免混乱或模糊本申请的重点,有些具体细节将在描述中被省略。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
此外,各种操作将以最有助于理解说明性实施例的方式被描述为多个离散操作;然而,描述的顺序不应被解释为暗示这些操作必须依赖于顺序。特别是,这些操作不需要按呈现顺序执行。
除非上下文另有规定,否则术语“包含”,“具有”和“包括”是同义词。短语“A/B”表示“A或B”。短语“A和/或B”表示“(A和B)或者(A或B)”。
如这里所使用的,术语“模块”或“单元”可以指代、是或者包括:专用集成电路(ASIC)、电子电路、执行一个或多个软件或固件程序的(共享、专用或组)处理器和/或存储器、组合逻辑电路和/或提供所描述的功能的其他合适的组件。
在一些情况下,所公开的实施例可以以硬件、固件、软件或其任何组合来实现。所公开的实施例还可以被实现为由一个或多个暂时或非暂时性机器可读(例如,计算机可读)存储介质承载或存储在其上的指令,其可以由一个或多个处理器读取和执行。例如,指令可以通过网络或通过其他计算机可读介质的途径分发。因此,机器可读介质可以包括用于以机器(例如,计算机)可读的形式存储或传输信息的任何机制、但不限于、软盘、光盘、光盘、只读存储器(CD-ROM)、磁光盘、只读存储器(ROM)、随机存取存储器(RAM)、可擦除可编程只读存储器(EPROM)、电可擦除可编程只读存储器(EEPROM)、磁卡或光卡、闪存、或用于通过电、光、声或其他形式的传播信号(例如,载波、红外信号、数字信号等)通过因特网传输信息的有形的机器可读存储器。因此,机器可读介质包括适合于以机器(例如,计算机)可读的形式存储或传输电子指令或信息的任何类型的机器可读介质。
在附图中,以特定布置和/或顺序示出一些结构或方法特征。然而,应该理解,可以不需要这样的特定布置和/或排序。在一些实施例中,这些特征可以以不同于说明性附图中所示的方式和/或顺序来布置。另外,在特定图中包含结构或方法特征并不意味着暗示在所有实施例中都需要这样的特征,并且在一些实施例中,可以不包括这些特征或者可以与其他特征组合。
应当理解的是,虽然在这里可能使用了术语“第一”、“第二”等等来描述各个单元或是数据,但是这些单元或数据不应当受这些术语限制。使用这些术语仅仅是为了将一个特征与另一个特征进行区分。举例来说,在不背离示例性实施例的范围的情况下,第一特征可以被称为第二特征,并且类似地第二特征可以被称为第一特征。
应注意的是,在本说明书中,相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请的实施方式作进一步地详细描述。
语音活动检测(Voice Activity Detection,VAD)通常用于实现语音端点的检测,从带有噪声的语音中定位出语音的开始点和结束点。VAD在语音识别,语音增强等研究领域有着广泛的应用,在诸如关键词识别(Keyword Spotting,KWS)、自动语音识别(AutomaticSpeech Recognition,ASR)等应用中具有重要作用,涉及到语音前处理的部分大都需要VAD模块。在语音识别中,VAD的准确率会显著影响语音识别的准确率。在语音增强时,好的VAD能够帮助更为准确地辨别语音或噪声,以更利于语音的去噪、去回声等语音增强算法的性能。在网络电话(Voice over Internet Phone,VoIP)的应用中,VAD能够有助于检测语音或静音。如果VAD检测为语音,则压缩编码,如果检测为静音,则不会压缩编码而是以一个特定方式发送,这样可以节省带宽。
图1示出了根据本申请的实施例的语音识别系统的一个示例。如图1所示,语音识别系统10可以包括语音采样模块100、VAD模块200、音频缓冲器300和语音识别模块400等。
其中,语音采样模块100用于语音采样,例如,将收到的连续的声音信号转换为离散的数字信号。根据本申请的一些实施例,语音采样模块100可以将输入的语音和/或噪音信号转换为离散的数字语音采样信号。在语音采样模块100中,采样率定义了每秒从连续信号中提取并组成离散信号的采样个数,例如,在采样率为1kHz情况下,每秒可获得1k个采样点。
语音采样模块100采集的数字语音信号可以发送给音频缓冲器300,音频缓冲器300可以用于缓存语音信号,将语音信号划分成多帧后发送给语音识别模块400等。
语音识别模块400耦合到音频缓冲器300,用于进行语音识别处理。根据本申请的一些实施例,语音识别模块400可以包括ASR模块、KWS模块等用于语音识别的各种模块,还可以包括一些语音预处理模块,语音预处理模块可以用于进行各种识别前的预处理,例如回声消除、降噪等。
通常,语音识别模块400不会一直处于高功耗的工作状态,而是在有语音时处于高功耗的工作状态,而在静音时处于低功耗状态,以节省电能,低功耗状态的示例可以包括,但不限于,休眠状态。需要注意的是,在本申请中,静音状态并不是特指完全无声音状态,而是指没有语音信息的状态,静音状态中可能包含有背景噪声。
为了准确地检测语音活动,系统10中可以包括VAD模块200,VAD模块200可以分别与语音采样模块100和语音识别模块400连接,用于实现语音端点的检测,从带有噪声的语音中准确的定位出语音的开始点和结束点,从而控制语音识别模块400的工作状态。例如,在VAD模块200检测到语音出现时,唤醒语音识别模块400,而在VAD模块200检测到语音消失时,向语音识别模块400发送信号以使语音识别模块400休眠。
图2A和2B示出了根据本申请的实施例的VAD模块200的结构示例。如图2A所示,VAD模块200可以包括缓存模块201和处理模块202,其中,缓存模块201用于缓存至少一个语音信号帧,而处理模块202与缓存模块201耦合,用于对语音信号帧中的语音采样进行处理,以确定当前语音信号帧中是否有语音出现或消失的情况。
根据本申请的一些实施方式,缓存模块201可以用于接收来自语音采样模块100的数字语音信号,该数字语音信号在缓存模块201中被划分为多帧,每帧语音信号可以包括多个语音采样,例如,根据本申请的一些实施例,一帧可以包括256个语音采样,在其他实施例中,一帧也可以包括更多或更少的采样。根据本申请的一些实施例,语音信号帧的长度可以根据语音采样模块100采样时选用的不同采样率进行调节,例如,在采样率更高的情况下,可以使一个语音信号帧包含更多的语音采样。
根据本申请的一些实施方式,为了使处理结果更为平滑,缓存模块201将数字语音信号划分为多帧时,所划分的前后帧之间可以有部分重叠。例如,相邻的两帧语音信号之间可以重叠50%,即,后一帧中包含语音采样中,一半是前一帧的后一半语音采样,一半新的语音采样。在每帧256个采样的情况中,每更新一帧只需要加载128个采样。
处理模块202可以用于从缓存模块201中读取至少一帧语音信号(例如,当前语音信号帧),并进行处理。例如,处理模块202可以通过在时域中计算该当前语音信号帧的能量质心或能量质心偏移量,判断当前语音信号帧中是否有语音出现或消失;并且还可以将当前语音信号帧中的语音采样分解为多个语音采样组,并计算其中两个语音采样组的能量质心,根据两个能量质心之间的差异判断当前语音信号帧中是否有语音出现或消失的情况;随后根据以上两次判断中的任意一者或两者,最终确定当前语音信号帧中是否有语音出现或消失。
本领域的技术人员,应该理解,对于上述实施例可以有多种变化。比如,处理模块202可以将在时域中计算该当前语音信号帧的能量质心或能量质心偏移量,判断当前语音信号帧中是否有语音出现或消失的过程作为预判断过程,将根据两个能量质心之间的差异判断当前语音信号帧中是否有语音出现或消失的情况作为判断过程,预判断过程和判断过程分别执行并相互校验,在预判断过程和判断过程都判断有语音出现或消失的情况,确定当前语音信号帧中有语音出现或消失。又如,也可以先执行预判断过程,在预判断过程中判断当前语音信号帧中有语音出现或消失的情况下,再进行第二次判断。再如,也可以只执行上述两次判断中的一种判断过程,例如,只执行上述预判断过程或者上述第二次的判断过程。
图2B示出了根据本申请的实施例的VAD模块200中的处理模块202的详细结构示例。根据本申请的一些实施方式,处理模块202中可以包括质心偏移计算单元2021、分解单元2022、质心差异计算单元2023、各层能量计算单元2024、能量信息熵计算单元2025和语音静音决策单元2026。
根据本申请的一些实施方式,质心偏移计算单元2021耦合到缓存模块201,用于在时域中计算当前语音信号帧的能量质心或能量质心偏移量,以用于预判断所述当前语音信号帧中是否有语音出现或消失。在本申请中,能量质心可以用于表征指语音信号中被认为能量集中于此的一个假想点。例如,对于当前语音信号帧,其能量质心Cent(k)可以通过式(1)求得:
其中,k是当前语音信号帧的序号,N是当前语音信号帧的帧长度,例如,在当前帧包含256个采样的情况下,N=256,xk(n)表示第k帧中的第n个采样的绝对值大小,Cent(k)代表第k语音信号帧的能量质心。
将能量质心Centroid(k)与参考能量质心求差,即可得到能量质心偏移量Centbias(k),根据本申请的一些实施例,参考能量质心可以设置在信号帧的1/2帧长度处(例如,在一个语音信号帧包括256个语音采样的情况下,1/2帧长度处可以是第128个语音采样处),那么,能量质心偏移量Centbias(k)可以根据式(2)得到:
其中,k是当前语音信号帧的序号,N是当前语音信号帧的帧长度,xk(n)表示第k帧中的第n个采样的绝对值大小,Centbias(k)代表第k语音信号帧的能量质心偏移量。
根据本申请的一些实施例,可以将参考能量质心设置在1/2帧长度处,此时,通过质心偏移量可以直观的呈现这一帧中的声音能量分布,在语音信号中,通常包含语音信息的部分能量较高,而不含语音的部分则能量较低,那么能量质心偏移量Centbias(k)可以直观地反映出这一帧中,声音能量的分布是集中于当前帧的前半部分还是后半部分。根据本发明的其他实施方式,参考能量质心也可以设为其他值。
分解单元2022耦合到缓存模块201,可以用于将当前语音信号帧中的语音采样分解为多个语音采样组。例如,根据本申请的一些实施方式,分解单元2022可以通过小波分解、QMF等方式将当前语音信号帧中的语音采样分解为所述多个语音采样组。
根据本申请的一些实施方式,分解单元2022可以通过小波分解方式将当前语音信号帧分解,例如,可以对一帧语音信号X进行两层小波分解,得到四组。具体分解方式可以如图3所示,对于当前这一帧语音信号X,进行第一层小波分解后,得到中间级语音采样组,例如,一级低频语音采样组ca和一级高频语音采样组cd,一级低频语音采样组ca代表语音信号X中的低频信息,一级高频语音采样组cd代表语音信号X中的高频信息。再将一级低频语音采样组ca进一步小波分解,得到二级低频语音采样组ca1和二级高频语音采样组cd1,其中,二级低频语音采样组ca1代表一级低频语音采样组ca中的低频信息,二级高频语音采样组cd1代表一级低频语音采样组ca中的高频信息。同理,将一级高频语音采样组cd进一步小波分解,得到二级低频语音采样组ca2和二级高频语音采样组cd2,其中,二级低频语音采样组ca2代表一级低频语音采样组cd中的低频信息,二级高频语音采样组cd2代表一级低频语音采样组cd中的高频信息。
例如,根据本申请的一些实施例,可以分别设计小波分解的低通滤波器Lo_D和高通滤波器Hi_D,通过卷积运算分别得到要被分解的信号中的低频信息和高频信息。根据本申请的一些实施例,低通滤波器Lo_D和高通滤波器Hi_D可以分别为:
Lo_D=[2/16,3/16,5/16,6/16];
Hi_D=[1/8,-3/8,-1/8,3/8];
第一层分解
以X表示当前这一帧原始语音信号,通过低通滤波器Lo_D与X的卷积运算,可以得到一级低频语音采样组ca,通过高通滤波器Hi_D与X的卷积运算,可以得到一级高频语音采样组cd。
第二层分解
将第一层分解得到的一级低频语音采样组ca和一级高频语音采样组cd再分别用上述低通滤波器Lo_D和高通滤波器Hi_D进一步分解,得到二级语音采样组ca1,cd1,ca2,cd2。
注意,上述滤波器Lo_D和Hi_D仅仅是举例说明,并不是对本申请的限制,在不同实施方式中,可以根据不同情况设计不同的低通和/或高通滤波器。此外,在不同实施方式中,也可以对当前语音信号帧只进行一层小波分解,或进行更多层小波分解。
质心差异计算单元2023与分解单元2022连接,可以用于根据分解后得到的多个语音采样组中的两个语音采样组的能量质心,确定语音信号帧中是否有所述语音出现或消失的情况。例如,根据本申请的一些实施方式,在分解单元2022按照上文的描述将原始语音信号X进行两层小波分解后,质心差异计算单元2023可以计算频率最低的一组ca1与频率最高的一组cd2之间的差异,通过该差异的大小,可以进一步校验得到当前帧中是否有静音状态到语音状态或者语音状态到静音状态的这种状态类别变化。该差异的示例可以包括,但不限于,ca1与cd2之间的质心方差、标准差等。
举例来说,根据本申请的一些实施方式,可以根据上文描述的式(1)分别计算ca1和cd2的质心,然后,通过式(9)得到ca1与cd2之间的质心方差S2。
其中,len表示两层分解后数据的长度,所以len是帧长度N的1/4,例如,在N=256(即当前帧包含256个采样)的情况下,len=64;centca1和centcd2分别表示ca1和cd2的质心。
ca1与cd2之间的质心方差S2大则表明在当前帧中,语音/静音状态类别有变化,例如,可能是语音变成静音,也有可能是静音变成语音。
语音静音决策单元2026可以接收质心偏移计算单元2021和/或质心差异计算单元2023的计算结果,并将质心偏移计算单元2021和质心差异计算单元2023的计算结果分别与不同阈值比较来确定当前帧中是否有语音出现或语音消失的情况。
根据本申请的一些实施方式,语音静音决策单元2026可以用于将质心偏移计算单元2021计算得到的能量质心偏移量Centbias(k)与语音出现阈值threshold1和/或语音消失阈值threshold2比较。如果Centbias(k)>threshold1,则表示可能是语音出现(即,语音的开始点在当前这一帧),即在当前语音信号帧中,从静音状态转变为语音状态;如果Centbias(k)<threshold2则表示可能是语音消失(即,语音的结束点在当前这一帧),即在当前语音信号帧中,从语音状态转变为静音状态;而如果Centbias(k)在语音出现阈值threshold11和语音消失阈值threshold2之间,则表示当前帧无语音出现或消失,而是处置语音状态或者静音状态中的一种中。在本申请中,静音状态并不是特指完全无声音状态,而是指没有语音信息的状态,静音状态中可能包含有背景噪声。
根据本申请的一些实施例,语音出现阈值threshold1为正值,语音消失阈值threshold2为负值,例如,threshold1可以设为12,threshold2可以设为-20。以上数值仅仅是举例说明,根据本申请的其他实施方式,语音出现阈值threshold1和/或语音消失阈值threshold2也可以设置为其他值。
根据本申请的一些实施例,语音静音决策单元2026可以只将能量质心偏移量Centbias(k)与语音出现阈值threshold1和语音消失阈值threshold2中的一个进行比较。例如,在只需要判断是否有语音出现的情况下,可以只将能量质心偏移量Centbias(k)与语音出现阈值threshold1比较,如果Centbias(k)>threshold1,则表示当前帧中可能有语音出现,即从静音状态转变为语音状态;否则,则代表当前帧中没有语音出现。而在只需要判断是否有语音消失的情况下,可以只将能量质心偏移量Centbias(k)与语音消失阈值threshold2比较,如果Centbias(k)<threshold2表示当前帧中可能有语音消失,即在当前帧中,从语音状态转变为静音状态;否则,则代表当前帧中没有语音消失。
根据本申请的一些实施例,也可以直接将能量质心Cent(k)与语音出现阈值threshold1和/或语音消失阈值threshold2比较。比较过程与上文类似,此处不再赘述。在这种情况下,语音出现阈值threshold1和语音消失阈值threshold2都可以设为正值。
根据本申请的一些实施方式,语音静音决策单元2026还可以用于将质心差异计算单元2023计算得到的分解后的两个语音采样组之间的差异与判断阈值threshold3比较,从而判断当前帧中有静音状态到语音状态或者语音状态到静音状态的这种状态类别变化。例如,根据本申请的一些实施例,可以将质心方差S2与判断阈值threshold3比较,在S2>threshold3的情况下,可以认为当前帧中有静音状态到语音状态或者语音状态到静音状态的这种状态类别变化,判断阈值threshold3可以设为,但不限于,例如1~1.2。类似地,也可以将质心标准差σ2与判断阈值比较来判断在当前帧中是否有语音/静音状态类别的变化。
根据本申请的一些实施方式,语音静音决策单元2026可以只进行上述两次判断中的任何一个,并将其结果直接输出,作为VAD的检测结果。
根据本申请的另一些实施方式,语音静音决策单元2026可以进行上述两次判断,并将两次判断结果作与逻辑运算,以更为准确地进行VAD检测。例如,在第K帧的能量质心偏移Centbias(k)>threshold1,且ca1与cd2之间的质心方差S2>threshold3的情况下,确定语音在当前帧出现。而在第K帧的能量质心偏移Centbias(k)<threshold2,且ca1与cd2之间的质心方差S2>threshold3的情况下,确定语音在当前帧消失。在其他情况下,则认为当前帧中无语音出现或消失,而是稳定地保持在语音状态或者静音状态中的一种中。此时,通过质心偏移量与分解后的频率最低的一组与频率最高的一组之间的差异大小的双重校验,得到VAD结果,准确度更高。
根据本申请的实施方式的VAD装置无需频谱分析,复杂度较低,能够有效地降低系统延迟和提高了响应速度。
根据本申请的一些实施例,语音静音决策单元2026中使用的语音出现阈值和/或语音消失阈值可以是预设的固定值,也可以是可调阈值,例如,可以通过上述小波分解后的能量信息熵来调节threshold1和threshold2。在本申请中,能量信息熵可以用于表征当前语音信号帧的能量不确定度。
根据本申请的一些实施例,各层能量计算单元2024可以耦合到分解单元2022,在分解单元2022对一帧语音信号X进行小波分解,得到ca1,cd1,ca2,cd2后,各层能量计算单元2024可以用于计算当前原始语音信号帧X的能量E0(k),以及分别计算ca1的能量E1(k)、cd1的能量E2(k)、ca2的能量E3(k)和cd2的能量E4(k)。在进行多层小波分解的情况下,可以得到更多组的能量。
E0(k)可以通过式(10)求得:
其中,k是当前语音信号帧的序号,N是当前语音信号帧的帧长度,例如,在当前帧包含256个采样的情况下,N=256,xk(n)表示第k帧中的第n个采样的绝对值大小。
而E1(k)、E2(k)、E3(k)、E4(k)可以通过式(11)求得:
其中,j可以取1,2,3,4,Ej(k)表示第k帧中第j组的能量,例如,E1(k)、E2(k)、E3(k)、E4(k);len表示两层分解后数据的长度,所以len是帧长N的1/4,例如,在N=256(即当前帧包含256个采样)的情况下,len=64;xk(n)表示第k帧中第j组的第n个采样的绝对值大小。
而能量信息熵计算单元2025可以耦合到各层能量计算单元2024,利用能量E0(k)、E1(k)、E2(k)、E3(k)、E4(k)可以计算得到当前语音信号帧的能量信息熵Entropy(k),如式(12):
其中:k为当前语音信号帧的序号,m为当前语音信号帧中语音采样组的数量,在该实施例中,m=4,Ei(k)为第k帧中第i个语音采样组的能量,E0(k)为第k帧语音信号帧的能量
根据本申请的一些实施例,可选地,在各层能量计算单元2024中,求得能量后可以利用式(13)对求得的能量进行平滑处理,利用前一帧的结果来平滑当前帧的结果:
Pi(k)=alpha*Pi(k-1)+(1-alpha)*Ei(k) (13)
其中,Pi(k)为平滑后的能量,k是当前语音信号帧的序号,alpha为预设系数,例如根据本申请的一些实施例,alpha可以设为0.6~0.8,在其他实施方式中,alpha也可以设为其他值。
在这种情况下,能量信息熵计算单元2025中,当前语音信号帧的能量信息熵Entropy可以通过式(14)得到。
其中:k为当前语音信号帧的序号,m为当前语音信号帧中语音采样组的数量,在该实施例中,m=4,Pi为第i个语音采样组平滑后的能量。
能量信息熵计算单元2025得到的能量信息熵Entropy可以输出到语音决策单元2026,用于调节语音出现阈值和/或语音消失阈值的大小,根据本申请的一些实施例,例如,如果能量信息熵越大,则语音出现阈值和/或语音消失阈值的绝对值则越小,即,语音出现阈值和/或语音消失阈值的绝对值与能量信息熵成反比。也就是说,在能量信息熵较大的情况下,较小的质心偏移即可作为语音类别变化的判断依据。
根据本申请的一些实施例,语音决策单元2026中,为了实现更为准确的判断,将能量质心偏移量Centbias(k)与语音出现阈值threshold1和/或语音消失阈值threshold2比较时,可以不使用当前帧的能量质心偏移量Centbias(k),而是选用最近几帧中绝对值最大的质心偏移量作为判断值。例如,可以使用最近2帧中绝对值最大的质心偏移量作为判断值,例如,取第k帧的Centbias(k)和第k-1帧的Centbias(k-1)中绝对值最大的,作为当前第k帧的质心偏移量判断值,与语音出现阈值threshold1和/或语音消失阈值threshold2进行比较。
本申请提供了基于时域特征的VAD方案,相比于目前普遍采用的基于频谱的方案来说,减轻了计算复杂度,能够有效降低系统延迟和提高响应速度,另一方面,本申请提供的方案对阈值、帧长度、采样率都具有很高的鲁棒性,使得工程化实现更加便捷。
上述VAD模块200和VAD模块200中的处理模块202的结构仅仅是举例说明,在各种实施方式中,可以按照不同的方式划分模块或单元来实现上述各项功能。
例如,根据本申请的一些实施例,决策单元2026可以包括两个子单元:质心偏移判断单元和质心差异判断单元,质心偏移判断单元可以通过将能量质心Cent(k)或能量质心偏移量Centbias(k)与语音出现阈值threshold1和/或语音消失阈值threshold2比较,用于实现一帧原始信号的质心偏移的判断,而质心差异判断单元可以通过将分解后的两个语音采样组之间的差异与判断阈值threshold3比较,从而判断当前帧中有静音状态到语音状态或者语音状态到静音状态的这种状态类别变化。或者,质心偏移判断单元可以与质心偏移计算单元2021合成一个单元,作为预判断单元;而质心差异判断单元可以与分解单元2022和质心差异计算单元2023合成一个单元,作为二次判断单元,二次判断单元在预判断单元判断当前语音信号帧中有语音出现或消失的情况下再执行,等等。本领域技术人员可以根据本文描述的方案设计各种结构。
本领域的技术人员应该可以理解,可以用不同的技术来实施上述实施例。例如,可以按照其他方式,例如不按照频率来对所述语音信号帧进行分解。又如,上述处理模块202中包含的功能模块(例如,质心偏移计算单元2021、分解单元2022、质心差异计算单元2023、各层能量计算单元2024、能量信息熵计算单元2025和语音静音决策单元2026)可以有其他合并或者拆分方式,甚至可以按照具体应用增加或减少。
图4示出的根据本申请的一种实施方式的语音活动检测方法。该方法可以在图1和图2中的VAD模块200中实施。
在本申请中,首先,框S101,语音信号可以被划分为多帧,每帧语音信号中可以包括多个语音采样,例如,根据本申请的一些实施例,一帧可以是256个采样,在其他实施例中,一帧也可以包括更多或更少的采样。根据本申请的一些实施例,一帧语音信号的长度可以根据不同采样率进行调节,例如,在采样率更高的情况下,可以使一帧包含更多的采样。
根据本申请的一些实施方式,为了使处理结果更为平滑,前后帧之间可以有部分重叠,例如,相邻的两帧语音信号之间可以重叠50%,在每帧256个采样的情况中,每更新一帧需要加载128个采样。
根据本申请的一些实施方式,框S101的操作也可以由前序处理过程进行,而不包括在本申请的语音活动检测方案中。
随后,框S102,从被划分为多帧的语音信号中提取一帧;框S103,计算提取的这一帧语音信号的能量质心偏移量。其中,能量质心偏移量可以指当前语音信号帧的能量质心与参考能量质心的差。
对于第k帧语音信号,能量质心Cent(k)可以通过式(1)求得:
其中,k是当前语音信号帧的序号,N是当前语音信号帧的帧长度,例如,在当前帧包含256个采样的情况下,N=256,xk(n)表示第k帧中的第n个采样的绝对值大小,Cent(k)代表第k语音信号帧的能量质心。
将能量质心Centroid(k)与参考能量质心求差,即可得到能量质心偏移量Centbias(k),根据本申请的一些实施例,参考能量质心可以设置在信号帧的1/2帧长度处,那么,能量质心偏移量Centbias(k)可以根据式(2)得到:
其中,k是当前语音信号帧的序号,N是当前语音信号帧的帧长度,xk(n)表示第k帧中的第n个采样的绝对值大小,Centbias(k)代表第k语音信号帧的能量质心偏移量。
将参考能量质心设置在1/2帧长度处,通过质心偏移量可以直观的呈现这一帧中的声音能量分布,在语音信号中,通常包含语音信息的部分能量较高,而不含语音的部分则能量较低,那么能量质心偏移量Centbias(k)可以直观地反映出这一帧中,声音能量的分布是集中于当前帧的前半部分还是后半部分。根据本发明的其他实施方式,参考能量质心也可以设为其他值。
随后,框S104和框S105,将能量质心偏移量Centbias(k)与语音出现阈值threshold1和语音消失阈值threshold2比较。如果Centbias(k)>threshold1,则表示可能是语音出现(即,语音的开始点在当前这一帧),即在当前语音信号帧中,从静音状态转变为语音状态;如果Centbias(k)<threshold2则表示可能是语音消失(即,语音的结束点在当前这一帧),即在当前语音信号帧中,从语音状态转变为静音状态;而如果Centbias(k)在语音出现阈值threshold11和语音消失阈值threshold2之间,则表示当前帧无语音出现或消失,而是处置语音状态或者静音状态中的一种中。
根据本申请的一些实施方式,语音出现阈值threshold1为正值,语音消失阈值threshold2为负值,例如,threshold1可以设为12,threshold2可以设为-20。以上数值仅仅是举例说明,根据本申请的其他实施方式,语音出现阈值threshold1和/或语音消失阈值threshold2也可以设置为其他值。
注意,根据本申请的一些实施例,框S104和框S105可以按照不同顺序先后执行,例如,可以先执行框S104再执行框S105,或者先执行框S105再执行框S104;框S104和框S105也可以同时执行。
此外,根据本申请的一些实施例,可以只执行框S104和框S105中的一个。例如,在只需要判断是否有语音出现的情况下,可以只执行框S104,将能量质心偏移量Centbias(k)与语音出现阈值threshold1比较,如果Centbias(k)>threshold1,则表示当前帧中可能有语音出现,即从静音状态转变为语音状态;否则,则代表当前帧中没有语音出现。而在只需要判断是否有语音消失的情况下,可以只执行框S105,将能量质心偏移量Centbias(k)与语音消失阈值threshold2比较,如果Centbias(k)<threshold2表示当前帧中可能有语音消失,即在当前帧中,从语音状态转变为静音状态;否则,则代表当前帧中没有语音消失。
根据本申请的一些实施方式,也可以直接将能量质心Cent(k)与语音出现阈值threshold1和/或语音消失阈值threshold2比较。比较过程与上文类似,此处不再赘述。在这种情况下,语音出现阈值threshold1和语音消失阈值threshold2都可以设为正值。
根据本申请的一些实施方式,以上操作可以直接作为VAD的检测结果,也可以作为预判断结果,与其他结果相互校验后,再最终确定当前帧中是否有语音出现或消失的情况。
根据本申请的一些实施方式,可以将当前语音信号帧中的语音采样分解为多个语音采样组,并分别获得多个语音采样组中的两个语音采样组的能量质心,从而根据两个语音采样组的能量质心,确定所述语音信号帧中是否有所述语音出现或消失的情况。例如,可以按照频率将当前语音信号帧中的语音采样分解为至少两组,并求得频率最低的一组与频率最高的一组之间的差异,通过该差异的大小,可以进一步校验得到当前帧中是否有静音状态到语音状态或者语音状态到静音状态的这种状态类别变化。
根据本申请的一些实施方式,可以通过小波分解方式将当前语音信号帧分解,例如,如图4中的框S106,可以对当前语音信号帧进行两层小波分解,得到四组。具体分解方式可以如图3所示,对于当前这一帧语音信号X,进行第一层小波分解后,得到中间级语音采样组,例如,一级低频语音采样组ca和一级高频语音采样组cd,一级低频语音采样组ca代表语音信号X中的低频信息,一级高频语音采样组cd代表语音信号X中的高频信息。再将一级低频语音采样组ca进一步小波分解,得到二级低频语音采样组ca1和二级高频语音采样组cd1,其中,二级低频语音采样组ca1代表一级低频语音采样组ca中的低频信息,二级高频语音采样组cd1代表一级低频语音采样组ca中的高频信息。同理,将一级高频语音采样组cd进一步小波分解,得到二级低频语音采样组ca2和二级高频语音采样组cd2,其中,二级低频语音采样组ca2代表一级低频语音采样组cd中的低频信息,二级高频语音采样组cd2代表一级低频语音采样组cd中的高频信息。
例如,根据本申请的一些实施例,可以分别设计小波分解的低通滤波器Lo_D和高通滤波器Hi_D,通过卷积运算分别得到要被分解的信号中的低频信息和高频信息。根据本申请的一些实施例,低通滤波器Lo_D和高通滤波器Hi_D可以分别为:
Lo_D=[2/16,3/16,5/16,6/16];
Hi_D=[1/8,-3/8,-1/8,3/8];
第一层分解
以X表示当前这一帧原始语音信号,通过低通滤波器Lo_D与X的卷积运算,可以得到一级低频语音采样组ca,通过高通滤波器Hi_D与X的卷积运算,可以得到一级高频语音采样组cd。
第二层分解
将第一层分解得到的一级低频语音采样组ca和一级高频语音采样组cd再分别用上述低通滤波器Lo_D和高通滤波器Hi_D进一步分解,得到二级语音采样组ca1,cd1,ca2,cd2。
注意,上述滤波器Lo_D和Hi_D仅仅是举例说明,并不是对本申请的限制,在不同实施方式中,可以根据不同情况设计不同的低通和/或高通滤波器。此外,在不同实施方式中,也可以对当前语音信号帧只进行一层小波分解,或进行更多层小波分解。
在该实施例中,求频率最低的一组与频率最高的一组之间的差异可以是求ca1与cd2的差异。该差异的示例可以包括,但不限于,ca1与cd2之间的质心方差、标准差等。
举例来说,根据本申请的一些实施方式,如框S107所示,可以根据上文描述的式(1)分别计算ca1和cd2的质心,然后,通过式(9)得到ca1与cd2之间的质心方差S2。
其中,len表示两层分解后数据的长度,所以len是帧长度N的1/4,例如,在N=256(即当前帧包含256个采样)的情况下,len=64;centca1和centcd2分别表示ca1和cd2的质心。
ca1与cd2之间的质心方差S2大则表明在当前帧中,语音/静音状态类别有变化,例如,可能是语音变成静音,也有可能是静音变成语音。根据本申请的一些实施方式,如框S108,可以将该质心方差S2与判断阈值threshold3比较,在S2>threshold3的情况下,可以认为当前帧中有静音状态到语音状态或者语音状态到静音状态的这种状态类别变化,判断阈值threshold3可以设为,但不限于,例如1~1.2。
利用语音信号分解后的频率最低的一组与频率最高的一组之间的差异大小,结合框S104和框S105的质心偏移量的判断结果,可以更为准确地进行VAD的判断。
例如,在框S104中,如果得到Centbias(k)>threshold1,表示可能是语音出现,随后在框S108中,得到当前帧信号分解后频率最低的一组与频率最高的一组之间的差异很大(例如,ca1与cd2之间的质心方差S2>threshold3),则可以判断语音在当前帧出现。而如果在框S105中,得到Centbias(k)<threshold2,表示可能是语音消失,随后在框S108中,得到当前帧信号分解后频率最低的一组与频率最高的一组之间的差异很大(例如,ca1与cd2之间的质心方差S2>threshold3),则可以判断语音在当前帧消失。在其他情况下,则认为当前帧中无语音出现或消失,而是稳定地保持在语音状态或者静音状态中的一种中。
根据本申请的一些实施例,求得当前语音信号帧的能量质心偏移量并与语音出现阈值和/或语音消失阈值的比较的过程,与将语音信号分解后,求得频率最低的一组与频率最高的一组之间的差异并与判断阈值比较的过程可以并行或以任意的先后顺序进行。例如,可以以如图4所示的顺序进行,也可以先执行框S106-S108,再执行框S103-框S105。
本申请通过质心偏移量与分解后的频率最低的一组与频率最高的一组之间的差异大小的双重校验,得到VAD结果,准确度更高。同时,根据本申请的实施方式的VAD方法无需频谱分析,复杂度较低,有效地降低了系统延迟和提高了响应速度。
根据本申请的一些实施例,上述语音出现阈值和/或语音消失阈值可以是预设的固定值,也可以是可调阈值,例如,可以通过上述小波分解后的能量信息熵来调节threshold1和threshold2。
图5示出了根据本申请的实施例调节语音出现阈值和语音消失阈值的方法的流程图。
根据本申请的一些实施例,在执行完图4中的框S106,对当前语音信号帧X进行两层小波分解,得到ca1,cd1,ca2,cd2后,可以执行框S1061,分别计算ca1的能量E1(k)、cd1的能量E2(k)、ca2的能量E3(k)和cd2的能量E4(k)。在进行多层小波分解的情况下,可以得到更多组的能量。并且,执行框S1062,计算当前原始语音信号帧X的能量E0(k);框S1061和框S1062的操作可以按照任意的先后顺序或者并行执行。
E0(k)可以通过式(10)求得:
其中,k是当前语音信号帧的序号,N是当前语音信号帧的帧长度,例如,在当前帧包含256个采样的情况下,N=256,xk(n)表示第k帧中的第n个采样的绝对值大小。
而E1(k)、E2(k)、E3(k)、E4(k)可以通过式(11)求得:
其中,j可以取1,2,3,4,Ej(k)表示第k帧中第j组的能量,例如,E1(k)、E2(k)、E3(k)、E4(k);len表示两层分解后数据的长度,所以len是帧长N的1/4,例如,在N=256(即当前帧包含256个采样)的情况下,len=64;xk(n)表示第k帧中第j组的第n个采样的绝对值大小。
随后,框S1063,利用框S1061和框S1062中得到的能量,可以计算得到当前语音信号帧的能量信息熵Entropy(k),如式(12):
其中:k为当前语音信号帧的序号,m为当前语音信号帧中语音采样组的数量,在该实施例中,m=4,Ei(k)为第k帧中第i个语音采样组的能量,E0(k)为第k帧语音信号帧的能量。
根据本申请的一些实施例,可选地,在执行框S1063前,可以先执行框S1062的平滑处理,即,求得能量后可以利用式(13)对求得的能量进行平滑处理,利用前一帧的结果来平滑当前帧的结果:
Pi(k)=alpha*Pi(k-1)+(1-alpha)*Ei(k) (13)
其中,Pi(k)为平滑后的能量,k是当前语音信号帧的序号,alpha为预设系数,例如根据本申请的一些实施例,alpha可以设为0.6~0.8,在其他实施方式中,alpha也可以设为其他值。
随后,执行框S1063,利用求得的P0,P1,P2,P3,P4,通过式(14)可以得到当前语音信号帧的能量信息熵Entropy。
其中:k为当前语音信号帧的序号,m为当前语音信号帧中语音采样组的数量,在该实施例中,m=4,Pi为第i个语音采样组平滑后的能量。
框S1064,根据求得的能量信息熵Entropy的大小,调节语音出现阈值和/或语音消失阈值的大小,根据本申请的一些实施例,例如,如果能量信息熵越大,则语音出现阈值和/或语音消失阈值的绝对值则越小,即,语音出现阈值和/或语音消失阈值的绝对值与能量信息熵成反比。也就是说,在能量信息熵较大的情况下,较小的质心偏移即可作为语音类别变化的判断依据。
根据本申请的一些实施例,为了实现更为准确的判断,在框S104和/或框S105中,将能量质心偏移量Centbias(k)与语音出现阈值threshold1和/或语音消失阈值threshold2比较时,可以不使用当前帧的能量质心偏移量Centbias(k),而是选用最近几帧中绝对值最大的质心偏移量作为判断值。例如,可以使用最近2帧中绝对值最大的质心偏移量作为判断值,例如,取第k帧的Centbias(k)和第k-1帧的Centbias(k-1)中绝对值最大的,作为当前第k帧的质心偏移量判断值,与语音出现阈值threshold1和/或语音消失阈值threshold2进行比较。比较的结果后续可以作为预判断结果来与分解后频率最低的一组与频率最高的一组之间的差异大小的结果来相互校验。
本申请提供了基于时域特征的VAD方案,减轻了计算复杂度,能够有效降低系统延迟和提高响应速度。另一方面,本申请提供的方案对阈值、帧长度、采样率都具有很高的鲁棒性,使得工程化实现更加便捷。再者,本申请中,基于小波分解和质心偏移的双重验证,能够有效提高VAD准确度。
根据本申请的另一些实施例,还提供了一种系统,图6是根据本申请实施例的系统的框图。该系统包括,但不局限于,膝上型设备、台式机、手持PC、个人数字助理、工程工作站、服务器、网络设备、网络集线器、交换机、嵌入式处理器、数字信号处理器(DSP)、图形设备、视频游戏设备、机顶盒、微控制器、蜂窝电话、便携式媒体播放器、手持设备以及各种其他电子设备的其他系统。一般地,能够包含本文中所公开的处理器和/或其它执行逻辑的多个系统和电子设备一般都是合适的。
现在参见图6,所示为根据本申请的一些实施例的系统1300的框图。系统1300可以包括耦合到控制器中枢1303的一个或多个处理器1301。
在一些实施例中,控制器中枢1303包括,但不局限于,图形存储器控制器中枢(GMCH)(未示出)和输入/输出中枢(IOH)(其可以在分开的芯片上)(未示出),其中GMCH包括存储器和图形控制器并与IOH耦合。系统1300还可以包括耦合到控制器中枢1303的协处理器1302和存储器1304。或者,存储器和GMCH中的一个或两者可以被集成在处理器内(如本文中所描述的),存储器1304和协处理器1302直接耦合到处理器1301以及控制器中枢1303,控制器中枢1303与IOH处于单个芯片中。
附加处理器1302的任选性质用虚线表示在图6中。处理器1301可包括一个或多个处理核。
存储器1304可以是例如动态随机存取存储器(DRAM)、相变存储器(PCM)或这两者的组合。对于至少一些实施例,控制器中枢1303经由诸如前端总线(FSB)之类的多分支总线、诸如快速通道互连(QPI)之类的点对点接口、或者类似的连接1306与处理器1301进行通信。
在一些实施例中,处理器1301执行控制一般类型的数据处理操作的指令。协处理器指令可嵌入在这些指令中。处理器1301将这些协处理器指令识别为应当由附连的协处理器1302执行的类型。因此,处理器1301在协处理器总线或者其他互连上将这些协处理器指令(或者表示协处理器指令的控制信号)发布到协处理器1302。协处理器1302接受并执行所接收的协处理器指令。处理器1301可以包括专用处理器。
本文公开的机制的各实施例可以被实现在硬件、软件、固件或这些实现方法的组合中。本申请的实施例可实现为在可编程系统上执行的计算机程序或程序代码,该可编程系统包括至少一个处理器、存储系统(包括易失性和非易失性存储器和/或存储元件)、至少一个输入设备以及至少一个输出设备。
可将程序代码应用于输入指令,以执行本文描述的各功能并生成输出信息。可以按已知方式将输出信息应用于一个或多个输出设备。为了本申请的目的,处理系统包括具有诸如例如数字信号处理器(DSP)、微控制器、专用集成电路(ASIC)或微处理器之类的处理器的任何系统。
程序代码可以用高级程序化语言或面向对象的编程语言来实现,以便与处理系统通信。在需要时,也可用汇编语言或机器语言来实现程序代码。事实上,本文中描述的机制不限于任何特定编程语言的范围。在任一情形下,该语言可以是编译语言或解释语言。
至少一些实施例的一个或多个方面可以由存储在机器可读介质上的表示性指令来实现,指令表示处理器中的各种逻辑,指令在被机器读取时使得该机器制作用于执行本文所述的技术的逻辑。被称为“IP核”的这些表示可以被存储在有形的机器可读介质上,并被提供给多个客户或生产设施以加载到实际制造该逻辑或处理器的制造机器中。
这样的机器可读存储介质可以包括但不限于通过机器或设备制造或形成的物品的非瞬态的有形安排,其包括存储介质,诸如:硬盘任何其它类型的盘,包括软盘、光盘、紧致盘只读存储器(CD-ROM)、紧致盘可重写(CD-RW)以及磁光盘;半导体器件,例如只读存储器(ROM)、诸如动态随机存取存储器(DRAM)和静态随机存取存储器(SRAM)之类的随机存取存储器(RAM)、可擦除可编程只读存储器(EPROM)、闪存、电可擦除可编程只读存储器(EEPROM);相变存储器(PCM);磁卡或光卡;或适于存储电子指令的任何其它类型的介质。
因此,本申请的各实施例还包括非瞬态的有形机器可读介质,该介质包含指令或包含设计数据,诸如硬件描述语言(HDL),它定义本文中描述的结构、电路、装置、处理器和/或系统特征。这些实施例也被称为程序产品。
本申请可以包括以下公开的各种实施例示例或其组合:
示例1可以包括一种语音活动检测方法,包括:
对当前语音信号帧进行预处理,预判断当前语音信号帧中是否有语音出现或消失;
在预判断当前语音信号帧中有语音的出现或消失的情况下,将当前语音信号帧中的语音采样分解为多个语音采样组,
对于多个语音采样组中的两个语音采样组,计算两个语音采样组中的每个语音采样组的能量质心以获得两个能量质心;和
根据两个能量质心,确定当前语音信号帧中是否有语音出现或消失的情况。
示例2可以包括示例1的主旨,并且可选择地,其中,多个语音采样组的频率各不相同,并且两个语音采样组的频率之差最大。
示例3可以包括示例1-2的主旨,并且可选择地,其中,根据两个能量质心,确定当前语音信号帧中是否有语音出现或消失的情况,还包括:
计算两个能量质心的差异,并将差异与判断阈值比较;
在预判断当前语音信号帧中有语音的出现且差异大于判断阈值的情况下,确定在当前语音信号帧中有语音的出现;和/或,
在预判断当前语音信号帧中有语音的消失且差异大于判断阈值的情况下,确定在当前语音信号帧中有语音的消失。
示例4可以包括示例1-3的主旨,并且可选择地,其中,计算两个能量质心的差异,包括:计算两个能量质心的方差和/或标准差。
示例5可以包括示例1-4的主旨,并且可选择地,其中,将当前语音信号帧中的语音采样分解为多个语音采样组,包括:
通过小波分解方式将当前语音信号帧中的语音采样分解为多个语音采样组。
示例6可以包括示例1-5的主旨,并且可选择地,其中,通过小波分解方式将当前语音信号帧中的语音采样分解为多个语音采样组,包括:
对当前语音信号帧中的语音采样进行小波分解,获得两个中间级语音采样组,对两个中间级语音采样组中的每个中间级语音采样组分别进行小波分解,获得多个语音采样组。
示例7可以包括示例1-6的主旨,并且可选择地,其中,对当前语音信号帧进行预处理,预判断当前语音信号帧中是否有语音出现或消失,包括:
在时域中,计算当前语音信号帧的能量质心或能量质心偏移量,其中,能量质心偏移量为当前语音信号帧的能量质心与参考能量质心的差;
将能量质心或能量质心偏移量与对应的预判断阈值比较,其中,预判断阈值包括预判断语音出现阈值和预判断语音消失阈值;
在能量质心或者能量质心偏移量大于预判断语音出现阈值的情况下,预判断在语音信号帧中有语音的出现;和/或,在能量质心或者能量质心偏移量小于预判断语音消失阈值的情况下,判断在语音信号帧中有语音的消失。
示例8可以包括示例1-7的主旨,并且可选择地,其中,预判断阈值为可调阈值,并通过以下方式进行调节:
利用多个语音采样组计算当前语音信号帧的能量信息熵;
根据能量信息熵调节预判断阈值,其中预判断阈值的绝对值与能量信息熵成反比。
示例9可以包括示例1-8的主旨,并且可选择地,其中,对当前语音信号帧进行预处理,预判断语音信号帧中是否有语音出现或消失,包括:
在时域中,分别计算当前语音信号帧和前一语音信号帧的能量质心或能量质心偏移量,其中,能量质心偏移量为当前语音信号帧或前一语音信号帧的能量质心与参考能量质心的差;
取当前语音信号帧的能量质心与前一语音信号帧的能量质心中绝对值较大的一个,或者取当前语音信号帧的能量质心偏移量与前一语音信号帧的能量质心偏移量中绝对值较大的一个,与预判断阈值比较,用于预判断语音信号帧中是否有语音出现或消失。
示例10可以包括示例1-9的主旨,并且可选择地,其中,参考能量质心位于当前语音信号帧或者前一语音信号帧的1/2帧长度处。
示例11可以包括示例1-10的主旨,并且可选择地,其中,计算两个语音采样组中的每个语音采样组的能量质心以获得两个能量质心,包括:
在时域中,计算两个语音采样组中的每个语音采样组的能量质心以获得两个能量质心。
示例12可以包括示例1-11的主旨,并且可选择地,其中,还包括:
接收语音信号,并将语音信号划分为多个语音信号帧,其中,相邻的两个语音信号帧之间有部分重叠。
示例13可以包括示例1-12的主旨,并且可选择地,其中,相邻的两个语音信号帧之间重叠50%。
示例14可以包括示例1-13的主旨,并且可选择地,其中,将语音信号划分为多个语音信号帧,包括,根据采样率调整语音信号帧的帧长度。
示例15可以包括一种语音活动检测方法,包括:
在时域中,计算当前语音信号帧的能量质心或者能量质心偏移量,其中,能量质心偏移量为语音信号帧的能量质心与参考能量质心的差值;
将能量质心或能量质心偏移量与阈值比较;其中,阈值包括语音出现阈值和/或语音消失阈值;
在能量质心或质心偏移量大于语音出现阈值的情况下,判断在当前语音信号帧中有语音的出现;和/或,
在能量质心或者质心偏移量小于语音消失阈值的情况下,判断在当前语音信号帧中有语音的消失;
其中,语音出现阈值和/或语音消失阈值是可调节的。
示例16可以包括示例15的主旨,并且可选择地,其中,还可以包括:通过以下方式,调节语音出现阈值和/或语音消失阈值:
将当前语音信号帧中的语音采样分解为多个语音采样组,并利用多个语音采样组计算当前语音信号帧的能量信息熵;
根据能量信息熵调节语音出现阈值,其中语音出现阈值的绝对值与能量信息熵成反比;和/或,
根据能量信息熵调节语音消失阈值,其中语音消失阈值的绝对值与能量信息熵成反比。
示例17可以包括示例15-16的主旨,并且可选择地,其中,计算语音信号帧的能量信息熵,包括:
根据以下公式,计算语音信号帧的能量信息熵:
其中:k为当前语音信号帧的序号,m为语音采样组的数量,Ei(k)为第k语音信号帧中第i个语音采样组的能量,E0(k)为第k语音信号帧的能量,Entropy(k)为语音信号帧的能量信息熵。
示例18可以包括示例15-17的主旨,并且可选择地,其中,还包括,对第i个语音采样组的能量Ei进行平滑处理,得到平滑后的第i个语音采用组的能量Pi,并且,计算当前语音信号帧的能量信息熵还包括,根据下列公式,计算的当前语音信号帧的能量信息熵:
其中:k为当前语音信号帧的序号,m为语音采样组的数量,Pi(k)为第k语音信号帧中第i个语音采样组平滑后的能量,Pi(k)=alpha*Pi(k-1)+(1-alpha)*Ei(k),其中,alpha为预设系数,Entropy(k)为语音信号帧的能量信息熵。
示例19可以包括示例15-18的主旨,并且可选择地,其中,将语音信号帧中的语音采样分解为多个语音采样组,包括,通过小波分解方式将语音信号帧中的语音采样分解为多个语音采样组。
示例20可以包括一种语音活动检测方法,该方法包括:
将当前语音信号帧中的语音采样分解为多个语音采样组;
对于多个语音采样组中的两个语音采样组,计算两个语音采样组中的每个语音采样组的能量质心以获得两个能量质心;
根据两个能量质心,确定当前语音信号帧中是否有语音出现或消失的情况。
示例21可以包括示例20的主旨,并且可选择地,其中,多个语音采样组的频率各不相同,并且两个语音采样组的频率之差最大。
示例22可以包括示例20-21的主旨,并且可选择地,其中,根据两个能量质心,确定当前语音信号帧中是否有语音出现或消失的情况,包括:
计算两个能量质心的方差和/或标准差,并将方差和/或标准差与判断阈值比较;
在差异大于判断阈值的情况下,确定当前语音信号帧中有语音出现或消失的情况。
示例23可以包括示例20-22的主旨,并且可选择地,其中,将当前语音信号帧中的语音采样分解为多个语音采样组,包括,通过小波分解方式将当前语音信号帧中的语音采样分解为多个语音采样组。
示例24可以包括一种语音活动检测装置,该语音活动检测装置可以包括:
缓存模块,用于缓存当前语音信号帧;
处理模块,与缓存模块耦合,用于对当前语音信号帧进行预处理,预判断当前语音信号帧中是否有语音出现或消失;在预判断当前语音信号帧中有语音的出现或消失的情况下,将当前语音信号帧中的语音采样分解为多个语音采样组,对于多个语音采样组中的两个语音采样组,计算两个语音采样组中的每个语音采样组的能量质心以获得两个能量质心;和根据两个能量质心,确定当前语音信号帧中是否有语音出现或消失的情况。
示例25可以包括示例24的主旨,并且可选择地,其中,多个语音采样组的频率各不相同,并且两个语音采样组的频率之差最大。
示例26可以包括示例24-25的主旨,并且可选择地,其中,处理模块包括,
质心偏移计算单元,用于在时域中计算当前语音信号帧的能量质心或能量质心偏移量,以用于预判断当前语音信号帧中是否有语音出现或消失,其中,能量质心偏移量为当前语音信号帧的能量质心与参考能量质心的差;
分解单元,用于将当前语音信号帧中的语音采样分解为多个语音采样组;
质心差异计算单元,根据分解单元得到的多个语音采样组中的两个语音采样组,计算两个语音采样组中的每个语音采样组的能量质心以获得两个能量质心,并计算两个能量质心的差异;
决策单元,用于根据质心偏移计算单元和质心差异计算单元的结果,确定语音信号帧中是否有语音出现或消失的情况。
示例27可以包括示例24-26的主旨,并且可选择地,其中,决策单元进一步用于,
将能量质心或能量质心偏移量与对应的预判断阈值比较,其中,预判断阈值包括预判断语音出现阈值和预判断语音消失阈值;
将两个能量质心的差异与判断阈值比较;
在能量质心或者能量质心偏移量大于预判断语音出现阈值且差异大于判断阈值的情况下,确定在当前语音信号帧中有语音的出现,和/或,在能量质心或者能量质心偏移量小于预判断语音消失阈值且差异大于判断阈值的情况下,确定在当前语音信号帧中有语音的消失。
示例28可以包括示例24-27的主旨,并且可选择地,其中,预判断阈值为可调阈值,并通过以下方式进行调节:
利用多个语音采样组计算当前语音信号帧的能量信息熵;
根据能量信息熵调节预判断阈值,其中预判断阈值的绝对值与能量信息熵成反比。
示例29可以包括示例24-28的主旨,并且可选择地,其中,质心偏移计算单元进一步用于,在时域中分别计算当前语音信号帧和前一语音信号帧的能量质心或能量质心偏移量,其中,能量质心偏移量为当前语音信号帧或前一语音信号帧的能量质心与参考能量质心的差;
决策单元进一步用于,取当前语音信号帧的能量质心与前一语音信号帧的能量质心中绝对值较大的一个,或者取当前语音信号帧的能量质心偏移量与前一语音信号帧的能量质心偏移量中绝对值较大的一个,与预判断阈值比较,用于预判断语音信号帧中是否有语音出现或消失。
示例30可以包括示例24-39的主旨,并且可选择地,其中,参考能量质心位于当前语音信号帧或者前一语音信号帧的1/2帧长度处。
示例31可以包括示例24-30的主旨,并且可选择地,其中,计算两个能量质心的差异包括:计算两个能量质心的方差和/或标准差。
示例32可以包括示例24-31的主旨,并且可选择地,其中,分解单元,用于通过小波分解方式将当前语音信号帧中的语音采样分解为多个语音采样组。
示例33可以包括示例24-32的主旨,并且可选择地,其中,分解单元,用于对当前语音信号帧中的语音采样进行小波分解,获得两个中间级语音采样组,对两个中间级语音采样组中的每个中间级语音采样组分别进行小波分解,获得多个语音采样组。
示例34可以包括示例24-33的主旨,并且可选择地,其中,缓存模块进一步用于,
接收语音采样信号,并将语音采样信号划分为多个语音信号帧,其中,相邻的两个语音信号帧之间有部分重叠。
示例35可以包括示例24-34的主旨,并且可选择地,其中,相邻的两个语音信号帧之间重叠50%。
示例36可以包括示例24-35的主旨,并且可选择地,其中,缓存模块进一步用于,根据采样率调整语音信号帧的帧长度。
示例37可以包括一种语音活动检测装置,该语音活动检测装置包括,
缓存模块,用于缓存当前语音信号帧;
处理模块,与缓存模块耦合,用于在时域中,计算当前语音信号帧的能量质心或者能量质心偏移量,其中,能量质心偏移量为语音信号帧的能量质心与参考能量质心的差值;将能量质心或能量质心偏移量与阈值比较;其中,阈值包括语音出现阈值和/或语音消失阈值;在能量质心或质心偏移量大于语音出现阈值的情况下,判断在当前语音信号帧中有语音的出现;和/或,在能量质心或者质心偏移量小于语音消失阈值的情况下,判断在当前语音信号帧中有语音的消失;其中,语音出现阈值和/或语音消失阈值是可调节的。
示例38可以包括示例37的主旨,并且可选择地,其中,处理模块进一步用于,通过以下方式,调节语音出现阈值和/或语音消失阈值:
将当前语音信号帧中的语音采样分解为多个语音采样组,并利用多个语音采样组计算当前语音信号帧的能量信息熵;
根据能量信息熵调节语音出现阈值,其中语音出现阈值的绝对值与能量信息熵成反比;和/或,
根据能量信息熵调节语音消失阈值,其中语音消失阈值的绝对值与能量信息熵成反比。
示例39可以包括示例37-38的主旨,并且可选择地,其中,计算语音信号帧的能量信息熵,包括:
根据以下公式,计算语音信号帧的能量信息熵:
其中:k为当前语音信号帧的序号,m为语音采样组的数量,Ei(k)为第k语音信号帧中第i个语音采样组的能量,E0(k)为第k语音信号帧的能量,Entropy(k)为语音信号帧的能量信息熵。
示例40可以包括示例37-39的主旨,并且可选择地,其中,还包括,对第i个语音采样组的能量Ei进行平滑处理,得到平滑后的第i个语音采用组的能量Pi,并且,计算当前语音信号帧的能量信息熵还包括,根据下列公式,计算的当前语音信号帧的能量信息熵:
其中:k为当前语音信号帧的序号,m为语音采样组的数量,Pi(k)为第k语音信号帧中第i个语音采样组平滑后的能量,Pi(k)=alpha*Pi(k-1)+(1-alpha)*Ei(k),其中,alpha为预设系数,Entropy(k)为语音信号帧的能量信息熵。
示例41可以包括示例37-40的主旨,并且可选择地,其中,将语音信号帧中的语音采样分解为多个语音采样组,包括,通过小波分解方式将语音信号帧中的语音采样分解为多个语音采样组。
示例42可以包括一种语音活动检测装置,该语音活动检测装置包括,
缓存模块,用于缓存当前语音信号帧;
处理模块,与缓存模块耦合,用于将当前语音信号帧中的语音采样分解为多个语音采样组,对于多个语音采样组中的两个语音采样组,计算两个语音采样组中的每个语音采样组的能量质心以获得两个能量质心;和根据两个能量质心,确定当前语音信号帧中是否有语音出现或消失的情况。
示例43可以包括示例42的主旨,并且可选择地,其中,多个语音采样组的频率各不相同,并且两个语音采样组的频率之差最大。
示例44可以包括示例42-43的主旨,并且可选择地,其中,根据两个能量质心,确定当前语音信号帧中是否有语音出现或消失的情况,包括:
计算两个能量质心的方差和/或标准差,并将方差和/或标准差与判断阈值比较;
在差异大于判断阈值的情况下,确定当前语音信号帧中有语音出现或消失的情况。
示例45可以包括示例42-44的主旨,并且可选择地,其中,将当前语音信号帧中的语音采样分解为多个语音采样组,包括,通过小波分解方式将当前语音信号帧中的语音采样分解为多个语音采样组。
示例46可以包括一种系统,该系统包括:
存储器,存储器中存储有指令,和
处理器,用于读取存储器中的指令,以执行示例1-23中任一项描述的方法。
示例47可以包括一种机器可读介质,该机器可读介质中存储有指令,该指令被机器运行时,机器执行示例1-23中任一项描述的方法。
上面结合附图对本申请的实施例做了详细说明,但本申请技术方案的使用不仅仅局限于本专利实施例中提及的各种应用,各种结构和变型都可以参考本申请技术方案轻易地实施,以达到本文中提及的各种有益效果。在本领域普通技术人员所具备的知识范围内,在不脱离本申请宗旨的前提下做出的各种变化,均应归属于本申请专利涵盖范围。
Claims (41)
1.一种语音活动检测方法,其特征在于,包括:
对当前语音信号帧进行处理,判断所述当前语音信号帧中是否有语音出现或消失;其中,对当前语音信号帧进行处理,判断所述当前语音信号帧中是否有语音出现或消失,包括:
在时域中,计算所述当前语音信号帧的能量质心或能量质心偏移量,其中,所述能量质心偏移量为所述当前语音信号帧的能量质心与参考能量质心的差;
基于当前语音信号帧的能量质心或能量质心偏移量,判断所述当前语音信号帧中是否有所述语音的出现或消失;
在判断所述当前语音信号帧中有所述语音的出现或消失的情况下,将所述当前语音信号帧中的语音采样分解为多个语音采样组,其中,所述多个语音采样组的频率各不相同;
对于所述多个语音采样组中的两个语音采样组,计算所述两个语音采样组中的每个语音采样组的能量质心以获得两个能量质心,并且所述两个语音采样组的频率之差最大;和
根据所述两个能量质心,确定所述当前语音信号帧中是否有所述语音出现或消失。
2.根据权利要求1所述的语音活动检测方法,其特征在于,所述根据所述两个能量质心,确定所述当前语音信号帧中是否有所述语音出现或消失的情况,还包括:
计算所述两个能量质心的差异,并将所述差异与判断阈值比较;
在判断所述当前语音信号帧中有所述语音的出现且所述差异大于所述判断阈值的情况下,确定在所述当前语音信号帧中有所述语音的出现;和/或,
在判断所述当前语音信号帧中有所述语音的消失且所述差异大于所述判断阈值的情况下,确定在所述当前语音信号帧中有所述语音的消失。
3.根据权利要求2所述的语音活动检测方法,其特征在于,计算所述两个能量质心的差异,包括:计算所述两个能量质心的方差和/或标准差。
4.根据权利要求1所述的语音活动检测方法,其特征在于,所述将所述当前语音信号帧中的语音采样分解为多个语音采样组,包括:
通过小波分解方式将所述当前语音信号帧中的所述语音采样分解为所述多个语音采样组。
5.根据权利要求4所述的语音活动检测方法,其特征在于,所述通过小波分解方式将所述当前语音信号帧中的所述语音采样分解为多个语音采样组,包括:
对所述当前语音信号帧中的所述语音采样进行小波分解,获得两个中间级语音采样组,对所述两个中间级语音采样组中的每个中间级语音采样组分别进行小波分解,获得所述多个语音采样组。
6.根据权利要求1所述的语音活动检测方法,其特征在于,对当前语音信号帧进行处理,判断所述当前语音信号帧中是否有语音出现或消失,包括:
在时域中,计算所述当前语音信号帧的能量质心或能量质心偏移量,其中,所述能量质心偏移量为所述当前语音信号帧的能量质心与参考能量质心的差;
将所述能量质心或所述能量质心偏移量与对应的判断阈值比较,其中,所述判断阈值包括判断语音出现阈值和判断语音消失阈值;
在所述能量质心或者所述能量质心偏移量大于所述判断语音出现阈值的情况下,判断在所述语音信号帧中有所述语音的出现;和/或,在所述能量质心或者所述能量质心偏移量小于所述判断语音消失阈值的情况下,判断在所述语音信号帧中有所述语音的消失。
7.根据权利要求6所述的语音活动检测方法,其特征在于,所述判断阈值为可调阈值,并通过以下方式进行调节:
利用所述多个语音采样组计算所述当前语音信号帧的能量信息熵;
根据所述能量信息熵调节所述判断阈值,其中所述判断阈值的绝对值与所述能量信息熵成反比。
8.根据权利要求1所述的语音活动检测方法,其特征在于,所述对当前语音信号帧进行处理,判断所述语音信号帧中是否有语音出现或消失,包括:
在时域中,分别计算所述当前语音信号帧和前一语音信号帧的能量质心或能量质心偏移量,其中,所述能量质心偏移量为所述当前语音信号帧或所述前一语音信号帧的所述能量质心与参考能量质心的差;
取所述当前语音信号帧的所述能量质心与所述前一语音信号帧的所述能量质心中绝对值较大的一个,或者取所述当前语音信号帧的所述能量质心偏移量与所述前一语音信号帧的所述能量质心偏移量中绝对值较大的一个,与所述判断阈值比较,用于判断所述语音信号帧中是否有所述语音出现或消失。
9.根据权利要求6-8中任意一项所述的语音活动检测方法,其特征在于,所述参考能量质心位于所述当前语音信号帧或者前一语音信号帧的1/2帧长度处。
10.根据权利要求1所述的语音活动检测方法,其特征在于,所述计算所述两个语音采样组中的每个语音采样组的能量质心以获得两个能量质心,包括:
在时域中,计算所述两个语音采样组中的所述每个语音采样组的所述能量质心以获得所述两个能量质心。
11.根据权利要求1所述的语音活动检测方法,其特征在于,还包括:
接收语音信号,并将所述语音信号划分为多个语音信号帧,其中,相邻的两个语音信号帧之间有部分重叠。
12.根据权利要求11所述的语音活动检测方法,其特征在于,所述相邻的两个语音信号帧之间重叠50%。
13.根据权利要求11或12所述的语音活动检测方法,其特征在于,所述将所述语音信号划分为多个语音信号帧,包括,根据采样率调整所述语音信号帧的帧长度。
14.一种语音活动检测方法,其特征在于,包括:
在时域中,计算当前语音信号帧的能量质心或者能量质心偏移量,其中,所述能量质心偏移量为所述语音信号帧的能量质心与参考能量质心的差值;
将所述能量质心或所述能量质心偏移量与阈值比较;其中,所述阈值包括语音出现阈值和/或语音消失阈值;
在所述能量质心或所述质心偏移量大于所述语音出现阈值的情况下,判断在所述当前语音信号帧中有语音的出现;和/或,
在所述能量质心或者所述质心偏移量小于所述语音消失阈值的情况下,判断在所述当前语音信号帧中有所述语音的消失;
其中,所述语音出现阈值和/或语音消失阈值是可调节的,并且通过以下方式,调节所述语音出现阈值和/或语音消失阈值:
将所述当前语音信号帧中的语音采样分解为多个语音采样组,并利用所述多个语音采样组计算所述当前语音信号帧的能量信息熵;
根据所述能量信息熵调节所述语音出现阈值,其中所述语音出现阈值的绝对值与所述能量信息熵成反比;和/或,
根据所述能量信息熵调节所述语音消失阈值,其中所述语音消失阈值的绝对值与所述能量信息熵成反比。
17.根据权利要求14所述的语音活动检测方法,其特征在于,所述将所述当前语音信号帧中的语音采样分解为多个语音采样组,包括,通过小波分解方式将所述语音信号帧中的语音采样分解为多个语音采样组。
18.一种语音活动检测方法,其特征在于,包括:
将当前语音信号帧中的语音采样分解为多个语音采样组;
对于所述多个语音采样组中的两个语音采样组,计算所述两个语音采样组中的每个语音采样组的能量质心以获得两个能量质心,其中,所述多个语音采样组的频率各不相同,并且所述两个语音采样组的频率之差最大;
根据所述两个能量质心,确定所述当前语音信号帧中是否有语音出现或消失的情况。
19.根据权利要求18所述的语音活动检测方法,其特征在于,所述根据所述两个能量质心,确定所述当前语音信号帧中是否有所述语音出现或消失的情况,包括:
计算所述两个能量质心的方差和/或标准差,并将所述方差和/或标准差与判断阈值比较;
在所述方差和/或标准差大于所述判断阈值的情况下,确定所述当前语音信号帧中有所述语音出现或消失的情况。
20.根据权利要求18所述的语音活动检测方法,其特征在于,所述将当前语音信号帧中的语音采样分解为多个语音采样组,包括,通过小波分解方式将所述当前语音信号帧中的所述语音采样分解为所述多个语音采样组。
21.一种语音活动检测装置,其特征在于,所述语音活动检测装置包括,
缓存模块,用于缓存当前语音信号帧;
处理模块,与所述缓存模块耦合,用于对所述当前语音信号帧进行处理,判断所述当前语音信号帧中是否有语音出现或消失;其中,对当前语音信号帧进行处理,判断所述当前语音信号帧中是否有语音出现或消失,包括:
在时域中,计算所述当前语音信号帧的能量质心或能量质心偏移量,其中,所述能量质心偏移量为所述当前语音信号帧的能量质心与参考能量质心的差;
基于当前语音信号帧的能量质心或能量质心偏移量,判断所述当前语音信号帧中是否有所述语音的出现或消失;
在预判断所述当前语音信号帧中有所述语音的出现或消失的情况下,将所述当前语音信号帧中的语音采样分解为多个语音采样组,其中,所述多个语音采样组的频率各不相同;
对于所述多个语音采样组中的两个语音采样组,计算所述两个语音采样组中的每个语音采样组的能量质心以获得两个能量质心,并且所述两个语音采样组的频率之差最大;和根据所述两个能量质心,确定所述当前语音信号帧中是否有所述语音出现或消失的情况。
22.根据权利要求21所述的语音活动检测装置,其特征在于,所述处理模块包括,
质心偏移计算单元,用于在时域中计算当前语音信号帧的能量质心或能量质心偏移量,以用于预判断所述当前语音信号帧中是否有语音出现或消失,其中,所述能量质心偏移量为所述当前语音信号帧的能量质心与参考能量质心的差;
分解单元,用于将所述当前语音信号帧中的语音采样分解为多个语音采样组;
质心差异计算单元,根据所述分解单元得到的所述多个语音采样组中的两个语音采样组,计算所述两个语音采样组中的每个语音采样组的能量质心以获得两个能量质心,并计算所述两个能量质心的差异;
决策单元,用于根据所述质心偏移计算单元和所述质心差异计算单元的结果,确定所述语音信号帧中是否有所述语音出现或消失的情况。
23.根据权利要求22所述的语音活动检测装置,其特征在于,所述决策单元进一步用于,
将所述能量质心或所述能量质心偏移量与对应的判断阈值比较,其中,所述判断阈值包括判断语音出现阈值和判断语音消失阈值;
将所述两个能量质心的差异与判断阈值比较;
在所述能量质心或者所述能量质心偏移量大于所述判断语音出现阈值且所述差异大于所述判断阈值的情况下,确定在所述当前语音信号帧中有所述语音的出现,和/或,在所述能量质心或者所述能量质心偏移量小于所述判断语音消失阈值且所述差异大于所述判断阈值的情况下,确定在所述当前语音信号帧中有所述语音的消失。
24.根据权利要求23所述的语音活动检测装置,其特征在于,所述判断阈值为可调阈值,并通过以下方式进行调节:
利用所述多个语音采样组计算所述当前语音信号帧的能量信息熵;
根据所述能量信息熵调节所述判断阈值,其中所述判断阈值的绝对值与所述能量信息熵成反比。
25.根据权利要求23所述的语音活动检测装置,其特征在于,
所述质心偏移计算单元进一步用于,在时域中分别计算所述当前语音信号帧和前一语音信号帧的能量质心或能量质心偏移量,其中,所述能量质心偏移量为所述当前语音信号帧或所述前一语音信号帧的所述能量质心与参考能量质心的差;
所述决策单元进一步用于,取所述当前语音信号帧的所述能量质心与所述前一语音信号帧的所述能量质心中绝对值较大的一个,或者取所述当前语音信号帧的所述能量质心偏移量与所述前一语音信号帧的所述能量质心偏移量中绝对值较大的一个,与所述判断阈值比较,用于判断所述语音信号帧中是否有所述语音出现或消失。
26.根据权利要求22所述的语音活动检测装置,其特征在于,所述参考能量质心位于所述当前语音信号帧或者前一语音信号帧的1/2帧长度处。
27.根据权利要求26所述的语音活动检测装置,其特征在于,计算所述两个能量质心的差异包括:计算所述两个能量质心的方差和/或标准差。
28.根据权利要求22所述的语音活动检测装置,其特征在于,所述分解单元,用于通过小波分解方式将所述当前语音信号帧中的所述语音采样分解为所述多个语音采样组。
29.根据权利要求28所述的语音活动检测装置,其特征在于,所述分解单元,用于对所述当前语音信号帧中的所述语音采样进行小波分解,获得两个中间级语音采样组,对所述两个中间级语音采样组中的每个中间级语音采样组分别进行小波分解,获得所述多个语音采样组。
30.根据权利要求21所述的语音活动检测装置,其特征在于,所述缓存模块进一步用于,
接收语音采样信号,并将所述语音采样信号划分为多个语音信号帧,其中,相邻的两个语音信号帧之间有部分重叠。
31.根据权利要求30所述的语音活动检测装置,其特征在于,所述相邻的两个语音信号帧之间重叠50%。
32.根据权利要求30或31所述的语音活动检测装置,其特征在于,所述缓存模块进一步用于,根据采样率调整所述语音信号帧的帧长度。
33.一种语音活动检测装置,其特征在于,所述语音活动检测装置包括,
缓存模块,用于缓存当前语音信号帧;
处理模块,与所述缓存模块耦合,用于在时域中,计算所述当前语音信号帧的能量质心或者能量质心偏移量,其中,所述能量质心偏移量为所述语音信号帧的能量质心与参考能量质心的差值;将所述能量质心或所述能量质心偏移量与阈值比较;其中,所述阈值包括语音出现阈值和/或语音消失阈值;在所述能量质心或所述质心偏移量大于所述语音出现阈值的情况下,判断在所述当前语音信号帧中有语音的出现;和/或,在所述能量质心或者所述质心偏移量小于所述语音消失阈值的情况下,判断在所述当前语音信号帧中有所述语音的消失;其中,所述语音出现阈值和/或语音消失阈值是可调节的,其中,所述处理模块进一步用于,通过以下方式,调节所述语音出现阈值和/或语音消失阈值:
将所述当前语音信号帧中的语音采样分解为多个语音采样组,并利用所述多个语音采样组计算所述当前语音信号帧的能量信息熵;
根据所述能量信息熵调节所述语音出现阈值,其中所述语音出现阈值的绝对值与所述能量信息熵成反比;和/或,
根据所述能量信息熵调节所述语音消失阈值,其中所述语音消失阈值的绝对值与所述能量信息熵成反比。
36.根据权利要求33-35中任意一项所述的语音活动检测装置,其特征在于,所述将所述当前语音信号帧中的语音采样分解为多个语音采样组,包括,通过小波分解方式将所述语音信号帧中的语音采样分解为多个语音采样组。
37.一种语音活动检测装置,其特征在于,所述语音活动检测装置包括,
缓存模块,用于缓存当前语音信号帧;
处理模块,与所述缓存模块耦合,用于将当前语音信号帧中的语音采样分解为多个语音采样组,对于所述多个语音采样组中的两个语音采样组,计算所述两个语音采样组中的每个语音采样组的能量质心以获得两个能量质心,其中,所述多个语音采样组的频率各不相同,并且所述两个语音采样组的频率之差最大;
和根据所述两个能量质心,确定所述当前语音信号帧中是否有语音出现或消失的情况。
38.根据权利要求37所述的语音活动检测装置,其特征在于,根据所述两个能量质心,确定所述当前语音信号帧中是否有所述语音出现或消失的情况,包括:
计算所述两个能量质心的方差和/或标准差,并将所述方差和/或标准差与判断阈值比较;
在所述方差和/或标准差大于所述判断阈值的情况下,确定所述当前语音信号帧中有所述语音出现或消失的情况。
39.根据权利要求37或38所述的语音活动检测装置,其特征在于,所述将当前语音信号帧中的语音采样分解为多个语音采样组,包括,通过小波分解方式将所述当前语音信号帧中的所述语音采样分解为所述多个语音采样组。
40.一种语音活动检测系统,其特征在于,包括:
存储器,所述存储器中存储有指令,和
处理器,用于读取所述存储器中的指令,以执行如权利要求1-20中任一项所述的方法。
41.一种机器可读介质,其特征在于,所述机器可读介质中存储有指令,该指令被机器运行时,所述机器执行如权利要求1-20中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910709899.7A CN110415729B (zh) | 2019-07-30 | 2019-07-30 | 语音活动检测方法、装置、介质和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910709899.7A CN110415729B (zh) | 2019-07-30 | 2019-07-30 | 语音活动检测方法、装置、介质和系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110415729A CN110415729A (zh) | 2019-11-05 |
CN110415729B true CN110415729B (zh) | 2022-05-06 |
Family
ID=68365378
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910709899.7A Active CN110415729B (zh) | 2019-07-30 | 2019-07-30 | 语音活动检测方法、装置、介质和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110415729B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113470621B (zh) * | 2021-08-23 | 2023-10-24 | 杭州网易智企科技有限公司 | 语音检测方法、装置、介质及电子设备 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP0398180A2 (en) * | 1989-05-15 | 1990-11-22 | Alcatel N.V. | Method of and arrangement for distinguishing between voiced and unvoiced speech elements |
CN1262570A (zh) * | 1999-01-22 | 2000-08-09 | 摩托罗拉公司 | 用于对语音说话方式进行断点的通信装置和方法 |
CN102097095A (zh) * | 2010-12-28 | 2011-06-15 | 天津市亚安科技电子有限公司 | 一种语音端点检测方法及装置 |
CN105825871A (zh) * | 2016-03-16 | 2016-08-03 | 大连理工大学 | 一种无前导静音段语音的端点检测方法 |
CN108648765A (zh) * | 2018-04-27 | 2018-10-12 | 海信集团有限公司 | 一种语音异常检测的方法、装置及终端 |
CN110047470A (zh) * | 2019-04-11 | 2019-07-23 | 深圳市壹鸽科技有限公司 | 一种语音端点检测方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9672841B2 (en) * | 2015-06-30 | 2017-06-06 | Zte Corporation | Voice activity detection method and method used for voice activity detection and apparatus thereof |
-
2019
- 2019-07-30 CN CN201910709899.7A patent/CN110415729B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP0398180A2 (en) * | 1989-05-15 | 1990-11-22 | Alcatel N.V. | Method of and arrangement for distinguishing between voiced and unvoiced speech elements |
CN1262570A (zh) * | 1999-01-22 | 2000-08-09 | 摩托罗拉公司 | 用于对语音说话方式进行断点的通信装置和方法 |
CN102097095A (zh) * | 2010-12-28 | 2011-06-15 | 天津市亚安科技电子有限公司 | 一种语音端点检测方法及装置 |
CN105825871A (zh) * | 2016-03-16 | 2016-08-03 | 大连理工大学 | 一种无前导静音段语音的端点检测方法 |
CN108648765A (zh) * | 2018-04-27 | 2018-10-12 | 海信集团有限公司 | 一种语音异常检测的方法、装置及终端 |
CN110047470A (zh) * | 2019-04-11 | 2019-07-23 | 深圳市壹鸽科技有限公司 | 一种语音端点检测方法 |
Also Published As
Publication number | Publication date |
---|---|
CN110415729A (zh) | 2019-11-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Moattar et al. | A simple but efficient real-time voice activity detection algorithm | |
CN109643552B (zh) | 用于可变噪声状况中语音增强的鲁棒噪声估计 | |
Prabhavalkar et al. | Automatic gain control and multi-style training for robust small-footprint keyword spotting with deep neural networks | |
CN109545188A (zh) | 一种实时语音端点检测方法及装置 | |
CN110232933B (zh) | 音频检测方法、装置、存储介质及电子设备 | |
WO2019113130A1 (en) | Voice activity detection systems and methods | |
US20140236582A1 (en) | Low power voice detection | |
CN104637489B (zh) | 声音信号处理的方法和装置 | |
Pang | Spectrum energy based voice activity detection | |
US20140067388A1 (en) | Robust voice activity detection in adverse environments | |
CN110634497A (zh) | 降噪方法、装置、终端设备及存储介质 | |
WO2012158156A1 (en) | Noise supression method and apparatus using multiple feature modeling for speech/noise likelihood | |
CN111540342B (zh) | 一种能量阈值调整方法、装置、设备及介质 | |
CN111091833A (zh) | 一种降低噪声影响的端点检测方法 | |
US20230267947A1 (en) | Noise reduction using machine learning | |
CN110415729B (zh) | 语音活动检测方法、装置、介质和系统 | |
US9002030B2 (en) | System and method for performing voice activity detection | |
US20060178881A1 (en) | Method and apparatus for detecting voice region | |
CN111341351B (zh) | 基于自注意力机制的语音活动检测方法、装置及存储介质 | |
TWI684912B (zh) | 語音喚醒裝置及方法 | |
CN112102818B (zh) | 结合语音活性检测和滑动窗噪声估计的信噪比计算方法 | |
Ravuri et al. | Using spectro-temporal features to improve AFE feature extraction for ASR. | |
WO2021197566A1 (en) | Noise supression for speech enhancement | |
Seyedin et al. | New features using robust MVDR spectrum of filtered autocorrelation sequence for robust speech recognition | |
Tai et al. | Silence energy normalization for robust speech recognition in additive noise environment. |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |