CN110660413B - 语音活动侦测系统 - Google Patents
语音活动侦测系统 Download PDFInfo
- Publication number
- CN110660413B CN110660413B CN201910389235.7A CN201910389235A CN110660413B CN 110660413 B CN110660413 B CN 110660413B CN 201910389235 A CN201910389235 A CN 201910389235A CN 110660413 B CN110660413 B CN 110660413B
- Authority
- CN
- China
- Prior art keywords
- area
- signal
- determination
- function
- voice activity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 145
- 230000000694 effects Effects 0.000 title claims abstract description 74
- 230000006870 function Effects 0.000 claims abstract description 117
- 238000012545 processing Methods 0.000 claims abstract description 28
- 238000010801 machine learning Methods 0.000 claims abstract description 20
- 238000000034 method Methods 0.000 claims description 36
- 238000003860 storage Methods 0.000 claims description 22
- 230000005236 sound signal Effects 0.000 claims description 19
- 238000013528 artificial neural network Methods 0.000 claims description 17
- 238000007477 logistic regression Methods 0.000 claims description 12
- 230000008569 process Effects 0.000 claims description 8
- 230000008859 change Effects 0.000 claims description 7
- 238000001914 filtration Methods 0.000 claims description 4
- 230000037433 frameshift Effects 0.000 claims 1
- 238000005314 correlation function Methods 0.000 abstract description 14
- 238000012549 training Methods 0.000 description 13
- 210000002569 neuron Anatomy 0.000 description 12
- 238000010586 diagram Methods 0.000 description 11
- 230000015654 memory Effects 0.000 description 11
- 238000004891 communication Methods 0.000 description 9
- 230000005540 biological transmission Effects 0.000 description 8
- 238000004458 analytical method Methods 0.000 description 7
- 239000013598 vector Substances 0.000 description 7
- 101000712600 Homo sapiens Thyroid hormone receptor beta Proteins 0.000 description 6
- 102100033451 Thyroid hormone receptor beta Human genes 0.000 description 6
- 230000004913 activation Effects 0.000 description 6
- 230000007246 mechanism Effects 0.000 description 5
- 238000012360 testing method Methods 0.000 description 5
- 230000007774 longterm Effects 0.000 description 4
- 238000012986 modification Methods 0.000 description 4
- 230000004048 modification Effects 0.000 description 4
- 238000005457 optimization Methods 0.000 description 4
- 230000003595 spectral effect Effects 0.000 description 4
- 230000005291 magnetic effect Effects 0.000 description 3
- 230000002093 peripheral effect Effects 0.000 description 3
- 238000007781 pre-processing Methods 0.000 description 3
- 230000001755 vocal effect Effects 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 230000006835 compression Effects 0.000 description 2
- 238000007906 compression Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 206010019133 Hangover Diseases 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 239000006227 byproduct Substances 0.000 description 1
- 210000004027 cell Anatomy 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 239000003989 dielectric material Substances 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 238000013210 evaluation model Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000011478 gradient descent method Methods 0.000 description 1
- 238000003780 insertion Methods 0.000 description 1
- 230000037431 insertion Effects 0.000 description 1
- 238000007620 mathematical function Methods 0.000 description 1
- 230000003954 pattern orientation Effects 0.000 description 1
- 230000002085 persistent effect Effects 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
- 230000002618 waking effect Effects 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/09—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being zero crossing rates
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/21—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R1/00—Details of transducers, loudspeakers or microphones
- H04R1/08—Mouthpieces; Microphones; Attachments therefor
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R3/00—Circuits for transducers, loudspeakers or microphones
- H04R3/005—Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/12—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being prediction coefficients
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Human Computer Interaction (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Otolaryngology (AREA)
- Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)
- Geophysics And Detection Of Objects (AREA)
- Measurement Of Velocity Or Position Using Acoustic Or Ultrasonic Waves (AREA)
Abstract
本发明提供了一种语音活动侦测系统,其包含:输入处理模块,设置以接收声音信号,将声音信号转换成类比信号以及后续的数字信号;基于能量的侦测模块,设置以接收类比/数字信号中的一个并决定语音活动判断;基于面积函数的侦测模块,设置以从数字信号导出面积相关函数并根据面积相关函数利用机器学习方法输出基于面积的判断;以及语音活动侦测判断模块,设置以基于来自于基于能量的侦测模块的语音活动判断以及来自于基于面积函数的侦测模块的基于面积的判断产生最终的语音活动侦测判断。
Description
技术领域
本发明是涉及语音活动侦测(VAD)技术。本发明的实施例涉及低复杂性的语音活动侦测(VAD)装置、系统、以及方法。
背景技术
语音活动侦测(VAD)是一种用于演说过程的技术,在演说过程中,人的语音的出现与否受到侦测。已知技术如下列:
·存储压缩:结合有损或无损压缩,可以离线完成。
·频道频宽缩减:例如,GSM、G.729、组合舒适噪音产生器(comfort noisegenerator,CNG);此任务必须即时完成,其中遗留方案(hangover scheme)至关重要。
·近端语音侦测:作为控制回音消除(AEC)模型训练的手段;这项任务必须即时完成。
近年来,语音活动侦测(VAD)已被用作唤醒触发器,是更复杂的关键词语音侦测(例如,由语音识别供应商所提供的)的前段。该任务必须即时完成,使得进行进一步语音处理的处理器可以及时被激活到高功率模式。
大多数商业上可用的低复杂度语音活动侦测(VAD)装置、系统和方法应用了基于能量的方法来侦测语音活动。在赋予非常少的计算资源的情况下,基于能量的VAD忠实地在大致上安静的或相当嘈杂的环境中侦测语音。然而,这种VAD容易对任何突然的能量变化,包括脚步声、击键、纸张摩擦、椅子吱吱声、勺子在碗或杯子中叮当声等产生反应。由于在可携式设备里的电池的寿命有限,由于误判而导致的频繁唤醒会增加不必要的电能浪费,这对可携式设备是不可接受的。
为了从伴随有突然的能量变化的其他声音区分出语音,本领域技术人员经常应用频率分析。然而,傅里叶转换以及其他类似运算需要大量的计算,这对于一个经常开启的可携式设备而言是不可接受的。零交越率(zero crossing rate)被广泛使用且相对便宜。滤除非常低频的机器噪声可能是有用的,但不包括含有高频率的其他噪声(可能与某些辅音(consonants)同时发生)。另一个突出的特征是可以通过自动相关方法提取的声调。高相关性表明传入的声音可能是元音(vowels)。但是一些非语音声音,例如音调,也具有高相关性。高计算复杂性也阻碍了从低功率消耗应用中提取基于自相关的声调。
因此,需要一种能够降低误判并且能够防止系统被不必要地激活至高功率消耗模式的低复杂度方法。
发明内容
本发明是涉及语音活动侦测(VAD)。本发明的实施例是涉及低复杂度的语音活动侦测(VAD)装置、系统及方法。更精确地,本发明的一些实施例是基于声道面积函数而针对数字取样的声音波形(digitally sampled acoustic waveforms)提取其特征,并在机器学习内利用所提取的特征来达成语音活动侦测。本发明的实施例能够提供低复杂度的语音活动侦测(VAD)系统及方法,以增进VAD应用的效率。
在一些实施例中,为了准备给机器学习使用,音频信号被分为三类:干净的声音、嘈杂的声音(嘈杂环境中的声音)和噪音。然后,从音频信号的音框(frames)或短音段(short segments)提取特征。例如,上述特征可用声道面积函数表示,例如对数面积比(LARs,log area ratios)和/或衍生特征。然后此方法将这些音框分为三类:干净的声音、嘈杂的声音(嘈杂环境中的声音)和噪音。这些音框架(frame)的信息被提供到机器学习过程,例如,神经网络(neural network)或逻辑回归(logistic regression)以训练分类器。发明人已认知到神经网络已成功地运用于图像辨识,且对数面积比是图形取向的特征,其描述了能够用来训练神经网络以学习如何分辨语音及非语音的声道形状。相对于已知技术,本发明的实施例得以提供低复杂度且高效率的语音活动侦测(VAD)系统及方法。传统的语音应用已经使用了基于频谱的特征,例如线谱对(LSP)和梅尔频率倒谱系数(MFCC)及其衍生物。但是,需要两个快速傅里叶转换(FFT)来计算梅尔频率倒谱系数。例如,本发明的一些实施例利用衍生的线性预估系数面积函数(linear predictive coefficients(LPC)-derived area-functions),例如线性预估系数(LPCs),在频率分析中,其相对于傅里叶转换具有较低的复杂度。
在一些实施例中,语音活动侦测(VAD)系统包含了输入处理模块,设置以接收声音信号,将声音信号转换成类比信号,以及后续的数字信号;基于能量的侦测模块(energy-based detection module)设置以接收类比/数字信号中的一个并决定语音活动判断(sound activity decision);基于面积函数的侦测模块(area-function-baseddetection module)设置以从数字信号导出(derive)面积相关函数并根据面积相关函数利用机器学习方法输出基于面积的判断(area-based decision);语音活动侦测判断模块设置以基于来自于基于能量的侦测模块的语音活动判断以及来自于基于面积函数的侦测模块的基于面积的判断产生最终的语音活动侦测判断。
根据本发明的一些实施例,语音活动侦测(VAD)系统包含:麦克风接口电路,其设置以用于耦合麦克风以接收声音信号,并将声音信号转换成类比信号;类比至数字转换器,设置以接收类比信号以产生数字信号;以及信号处理电路,设置以接收数字信号并决定数字信号是否代表人的语音。信号处理电路包含了基于声能的侦测模块(acoustic-energy-based detection module),其设置以接收类比信号或数字信号中的一个,并提供语音活动判断,语音活动判断指示声音信号是否在可听能量范围内。信号处理电路亦包含了基于面积函数的侦测模块,基于面积函数的侦测模块设置以基于面积相关函数从数字信号提取声音信号的特征,并且利用机器学习方法来决定基于面积的判断,基于面积的判断指示了音频信号是否代表了人的语音。机器学习方法包含由多个被标记的面积相关函数所训练的多个系数。信号处理电路亦包含语音活动侦测判断模块,VAD判断模块设置以基于来自于基于能量的侦测模块的语音活动判断以及来自于基于面积函数的侦测模块的基于面积的判断来产生最终的语音活动侦测判断。语音活动侦测(VAD)系统亦可包含资源有限的设备,资源有限的设备设置以接收最终的语音活动侦测判断以改变资源有限的设备的操作模式。
在上述的VAD系统的一些实施例中,面积相关函数能够包含多个对数面积比、一对数面积函数(log area function)、一面积函数、以及一矢状距离函数(sagittal distancefunction)中的一个。在一些实施例中,基于面积函数的侦测模块设置以执行:以预加重因子(pre-emphasis factor)过滤数字信号以得到预加重信号;藉由窗函数(windowfunction)使预加重信号的音框架(frame)加权至窗化信号(windowed signal);使窗化信号转换为多个反射系数(reflection coefficients);使多个反射系数转换为面积相关函数;将面积相关函数提供至已训练的分类器(trained classified)以识别语音的开始;以及给出基于面积的判断。在一些实施例中,已训练的分类器是由神经网络或逻辑回归离线训练。
根据本发明的一些实施例,语音活动侦测(VAD)系统包含输入处理模块,输入处理模块设置以通过麦克风接收声音信号。输入处理模块设置以将声音信号转换成类比信号以及后续的数字信号。VAD系统也能够包含基于能量的侦测模块以及基于面积函数的侦测模块。基于能量的侦测模块设置以接收类比/数字信号中的一个并决定语音活动判断。基于面积函数的侦测模块设置以从数字信号导出(derive)面积相关函数并且根据面积相关函数利用机器学习方法输出基于面积的判断。机器学习方法能够包含由多个被标记的面积相关函数训练的多个系数。VAD系统也能够包含VAD判断模块,VAD判断模块设置以基于来自于基于能量的侦测模块的语音活动判断以及来自于基于面积函数的侦测模块的基于面积的判断产生最终的语音活动侦测判断。最终的语音活动侦测判断能够接着被传送至资源有限的设备以改变该设备的操作模式。
在各种实施例中,语音活动判断能够具有软判断值(soft decision value)或硬判断值(hard decision value)。
根据实施例,基于能量的侦测模块可以是软件模块(software module)以接收数字信号。或者,基于能量的侦测模块可以是硬件区块。例如,基于能量的侦测模块可以是数字硬件区块(digital hardware block)以接收数字信号。在另一示例中,基于能量的侦测模块可以是类比硬件区块(analog hardware block)以接收类比信号。
在各种实施例中,面积相关函数可以是多个对数面积比。或者,面积相关函数可以是对数面积函数、面积函数、以及矢状距离函数中的一个。
在一些实施例中,基于面积函数的侦测模块设置以执行下列步骤:(a)以预加重因子过滤数字信号以得到预加重信号;(b)藉由窗函数(window function)使预加重信号的音框架(frame)加权至窗化信号(windowed signal);(c)使窗化信号转换为多个反射系数(reflection coefficients);(d)使多个反射系数转换为面积相关函数;(e)将面积相关函数提供至已训练的分类器(trained classified)以识别语音的开始;以及(f)给出基于面积的判断。
在各种实施例中,预加重因子的范围可以是0.5至0.99,且音框架的移位范围可以从1毫秒至20毫秒。
在各种实施例中,窗函数可以是Blackman窗、Blackman-Harris窗、Bohman窗、Chebyshev窗、Gaussian窗、Hamming窗、Hanning窗、Kaiser窗、Nuttall窗、Parzen窗、Taylor窗、以及Tukey窗中的一个。
在一些实施例中,已训练的分类器可以藉由神经网络离线训练。在其他实施例中,已训练的分类器可以藉由逻辑回归离线训练。
在各种实施例中,基于面积的判断可以是软判断值。或者,基于面积的判断可以是硬判断值。
在一些实施例中,基于面积函数的侦测模块设置以更进一步产生线性估测误差(linear predictive error)并包含此误差以作为基于面积的判断中的特征。
在一些实施例中,语音活动侦测(VAD)系统也可以包含基于零交越的侦测模块(zero-crossing-based detection module),其设置以基于零交越率(zero crossingrate)产生第二判断,其中VAD判断模块在最终判断过程内(final decision process)包含第二判断。根据实施例,第二判断可以是软判断值,或者第二判断是硬判断值。
在一些实施例中,资源有限的设备可以是低耗装置(low power device),低耗装置的操作模式可以包含闲置模式(idle mode)以及唤醒模式(wake up mode)。在一些实施例中,资源有限的设备可以是语音存储装置(voice storage device),且操作模式可以包含闲置模式和录音模式(recording mode)。在另外的实施例中,资源有限的设备可以是语音传送装置,且操作模式可以包含闲置模式和传送模式。
附图说明
为了更完整理解本揭露,应参考下列的详细描述以及附图,其中:
图1是绘示根据本发明各种实施例的一语音激活系统(voice activated system)的方框图。
图2是绘示根据本发明各种实施例的一语音活动侦测系统的方框图。
图3是绘示根据本发明各种实施例的一基于面积函数的侦测模块的方框图。
图4是绘示根据本发明各种实施例的一神经网络示例的方框图。
图5是绘示根据本发明各种实施例的一逻辑回归方法示例的流程图。
图6是绘示能够根据本发明实现各种实施例的一设备的简易方框图。
附图标记:
100:语音激活系统
110:声波
120:麦克风
130:麦克风接口电路
131:类比信号
140:类比至数字转换器
141:数字信号
150:信号处理电路
151:VAD信号
160:声音激活设备
200:语音活动侦测系统
201:方框
210:输入处理模块
220:基于能量的侦测模块
230:基于面积函数的侦测模块
240:基于零交越的侦测模块
250:VAD判断模块
252:反馈路径
260:最终的语音活动侦测判断
270:资源有限的设备
300:基于面积函数的侦测模块
301:数字信号
310:预分析单元
311:预加重信号
320:窗单元
321:窗化信号
330:线性预估系数单元
340:LPC至RC单元
350:RC至LAR单元
360:对数面积函数单元
370:面积函数/矢状距离函数单元
380:分类单元
400:前馈神经网络
410:输入埠
420:隐藏层
430:输出层
440:输出埠
501:输入预处理阶段
510:数据增强单元
520:特征选择单元
530:训练数据单元
540:测试数据单元
550:模型训练和调整单元
560:评估模型性能单元
570:超参数选择/调整单元
580:峰值优化单元
590:已训练的语音活动侦测模型
600:计算机系统
610:监视器
620:计算机
630:使用者输出设备
640:使用者输入设备
650:通讯接口
660:处理器
670:随机存取存储器
680:磁盘驱动器
690:总线子系统
AF/SDF:面积函数/矢状距离或径函数
LPC ERR:预估误差
Mic:麦克风
LPCs:线性预估系数
RCs:反射系数
LARs:对数面积比
LAF:对数面积函数
W:权重向量
b:偏权因子
具体实施方式
图1是绘示根据本发明各种实施例的一语音激活系统的方框图。如图1所示,语音激活系统100包含了麦克风120、麦克风接口电路130、类比至数字转换器140、信号处理电路150、以及具有两个操作模式的一声音激活设备160。根据本发明的其他实施例,语音激活系统100包含了声音换能器(acoustic transducer)、声音侦测计、类比至数字转换器、以及处理单元。
如图1所示,麦克风120以及麦克风接口电路130设置以捕捉与声波110相关的声能以产生类比信号131。根据本发明的实施例,声波110在能够包含人可听频率范围的频率范围内。可以使用许多不同种类的麦克风,以运用不同的方法来将声波的空气压力变化转换成电信号。电容式麦克风以振动隔板作为电容板。驻极体(electret)麦克风是一种静电电容式麦克风,其使用具有永久嵌入的静电偶极矩的介电材料。麦克风接口电路130可以包含传统的电路元件以和麦克风120一起使用,来捕获与声波110相关的声能来产生类比信号131。
类比至数字转换器140将类比信号131转换成数字信号141。
在图1中,信号处理电路150接收数字信号141以决定数字信号141是否代表人的语音,并提供语音活动侦测(VAD)信号151到声音激活设备160。在发明的实施例中,信号处理电路150可以包含处理器,例如精简指令集计算机(RISC,reduced instruction setcomputer)或数字信号处理器(DSP)。
在一些实施例中,声音激活设备160可以是资源有限的设备,且最终的语音活动侦测判断被传送至资源有限的设备以改变资源有限的设备的操作模式。例如,资源有限的设备可以是低耗装置,且操作模式可以包含闲置模式及唤醒模式。低耗装置可以被设置以维持在低耗能的闲置模式,并且可以当侦测到语音时被激活到唤醒模式。在另一示例中,资源有限的设备可以是语音存储装置,且操作模式可以包含闲置模式以及录音模式。语音存储装置可以被设置以维持在低耗能的闲置模式,并且可以当侦测到语音时被激活以开始录音。在又一示例中,资源有限的设备可以是语音传送装置,且操作模式可以包含闲置模式及传送模式。在这些示例中,语音传送装置可以被设置以维持在低耗能的闲置模式,且可以当侦测到语音时被激活以开始传送。
图2是绘示根据本发明各种实施例的一语音活动侦测系统的方框图。在图2中,语音活动侦测(VAD)系统200可以包含输入处理模块210、基于能量(例如声能)的侦测模块220、基于面积函数的侦测模块230、以及VAD判断模块250。该系统可以更进一步地包含基于零交越的侦测模块240。
输入处理模块210将声音信号转换成类比信号,以及后续的无DC取样的数字信号(DC-free sampled digital signals)。相对于图1,输入处理模块210可以对应麦克风120、麦克风接口电路130、以及类比至数字转换器140。
图2亦在方框201绘示了信号处理电路150的一个示例,其包含了基于能量的侦测模块220、基于面积函数的侦测模块230、可选的基于零交越的侦测模块240、以及VAD判断模块250。
基于能量的侦测模块220持续地估计了无DC信号(DC-free signals)的短期方均根(short-term root-mean-square)以及长期方均根(long-term root-mean-square,RMS_LT)。该基于能量的侦测模块比较了短期方均根以及长期方均根来决定初步的语音活动侦测判断。在一些实施例中,初步的语音活动侦测判断能够指示无DC信号在声频(soundfrequency)范围内,例如,约300Hz至3000Hz。基于能量的侦测模块设置以产生语音活动判断。语音活动判断能够提供硬判断值以及软判断值。例如,硬判断值“0”能够指示出信号并非在声频范围内,且硬判断值“1”能够指示出信号在声频范围。软判断值可以是介于0和1之间的值,并估计该信号在声频范围内的可能性。仅仅作为一示例,可以在4毫秒至64毫秒期间估计信号的短期方均根,且可以在100毫秒至600毫秒期间估计信号的长期方均根。在一些实施例中,两个阈值(THR0以及THR1)可被定义为长期方均根的函数。例如,THR0=a0×RMS_LT+b0以及THR1=a1×RMS_LT+b1,其中a0及a1为比例参数,a0以及a1大于1,b0以及b1是预定的偏移量(offset),且THR1大于等于THR0。当短期方均根超过阈值THR1,该判断为1;当短期方均根低于阈值THR0,该判断为0。若短期方均根介于THR0以及THR1之间,可以将软判断插入(interpolate)在0和1之间。在THR0=THR1的特殊情况下,只允许硬判断值。
根据实施例,基于能量的侦测模块可以是接收数字信号的软件模块。或者,基于能量的侦测模块可以是硬件区块。例如,基于能量的侦测模块可以是接收数字信号的数字硬件区块。在另一示例中,基于能量的侦测模块可以是接收类比信号的类比硬件区块。
基于面积函数的侦测模块230设置以提取音频信号的特征(features),并利用此信息来决定(determine)此音频信号是否代表人的语音。音频信号的特征可以线性预估系数(LPC)、反射系数(RC)以及对数面积比(LAR)来表示。在一些实施例中,基于面积函数的侦测模块230提供了与对数面积比(LAR)相关的信息。线性估计编码(linear predictivecoding)是一种用于音频信号处理以及演说处理的工具,其利用线性预估系数的信息以压缩形式(compressed form)表示演说的数字信号的频谱包络线(spectral envelope)。这是演说分析技术(speech analysis techniques)的一种,为了以低位率编码高品质演说并提供演说参数的准确估计。反射系数以及对数面积比(LAR)是线性预估系数的代表。
在一些实施例中,基于面积函数的侦测模块230设置以提取对数面积比(LARs)和/或相关的值,并利用此信息来决定VAD可控制信号(VAD enable control signal)。在一些实施例中,基于面积函数的侦测模块230首先决定音频信号,然后提取音频信号的线性预估系数,并且将线性预估系数转换成对数面积比(LAR)。
基于零交越的侦测模块240设置以产生基于零交越的判断(zero-crossing-baseddecision),以作为硬判断值或软判断值。例如,基于零交越的侦测模块240能包含计数器以在一时段内追踪信号的符号改变(sign changes)次数。其可以软件模块、数字硬件区块或混合信号硬件区块(mixed-signal hardware block)来实现。
VAD判断模块250设置以接收从基于能量的侦测模块220以及基于面积函数的侦测模块230来的结果来产生最终的语音活动侦测判断。例如,最终的语音活动侦测判断可以指示出所侦测的是人语音或人语音的起始。在一些实施例中,语音活动侦测(VAD)系统也可以包含基于零交越的侦测模块240,基于零交越的侦测模块240设置以根据零交越率产生第二判断。在这样的状况下。VAD判断模块250可以在最终判断过程中包含第二判断。根据实施例,第二判断可以具有软判断值或硬判断值。最终的语音活动侦测判断260可以是VAD判断旗(decision flag)。在一些实施例中,最终的语音活动侦测判断260可以是来自于基于能量的侦测模块220、基于面积函数的侦测模块230以及基于零交越的侦测模块240的中间判断(intermediate decisions)的函数。例如,
d_结果=d_能量×d_面积×d_零交越,
其中“d_结果”是最终判断,“d_能量”是基于能量的判断,“d_面积”是基于面积函数的判断,以及“d_零交越”是基于零交越的判断。若d_结果超过一预定的阈值,最终判断为1(即VAD-开启);否则最终判断为0(即VAD-关闭)。对于硬判断,输出会是0或1;对于软判断,输出的值的范围会在0至1之间。图2中,VAD判断模块可以提供反馈路径252至基于面积函数的侦测以及基于能量的侦测。最终判断可以反馈至这两个侦测模块,以用来调整判断模块内的一些参数和/或阈值。
最终的语音活动侦测判断260(即,最终的语音活动侦测判断信号)可以接着被传送至资源有限的设备270以改变该资源有限的设备的操作模式。在一些实施例中,资源有限的设备可以是低耗装置,且低耗装置的操作模式可以包含闲置模式以及唤醒模式。在一些实施例中,资源有限的设备可以是语音存储装置,且操作模式可以包含闲置模式和录音模式。在其他的实施例中,资源有限的设备可以是语音传送装置,且操作模式可以包含闲置模式以及传送模式。
VAD判断模块250可以给出可VAD的控制信号(VAD enable control signal),即,VAD-ON信号,当确认了语音的开始。可VAD的控制信号(VAD enable control signal)可以用来激活资源有限的设备。资源有限的设备可以是具有两个操作模式的低耗装置:闲置模式以及唤醒模式。在以VAD-ON信号进行触发前,低耗装置在闲置模式下作动以耗损最小电力,但其功能不全。在以VAD-ON判断触发后,低耗装置以唤醒模式作动,其功能全开,但需要更多电力。一旦VAD判断关闭,低耗装置回到闲置模式。
例如,资源有限的设备可以是具有两个操作模式的语音存储装置:闲置模式(VAD-OFF)以及录音模式(VAD-ON)。藉由将基于面积的判断与其他的判断结合,错误的触发次数得以降低,因此,降低整体存储使用量。
作为另一示例,资源有限的设备可以是具有两个操作模式的语音传送装置:闲置模式(VAD-OFF)以及传送模式(VAD-ON)。藉由将基于面积的判断与其他判断结合,错误的触发次数得以降低,因此,降低整体传输频宽。
藉由将基于面积的判断与其他判断结合,像是基于能量的判断以及基于零交越的判断,错误的触发次数得以降低,因此,降低整体电力耗损。
图3是绘示根据本发明各种实施例的一基于面积函数的侦测模块的方框图。如图3所示,基于面积函数的侦测模块300是得以被用作为基于面积函数的侦测模块230的示例模块。在一些实施例中,基于面积函数的侦测模块300可以包含预分析单元(pre-emphasisunit)310以及窗单元(windowing unit)320以预决定(preconditioning)音频信号。基于面积函数的侦测模块300也可以具有线性预估系数单元330、线性预估系数至反射系数单元(LPC-to-RC unit)340以及反射系数至对数面积比单元(RC-to-LAR unit)350以提取音频信号的对数面积比。基于面积函数的侦测模块300也可以具有对数面积函数单元360以及面积函数/矢状距离函数单元370。除此之外,基于面积函数的侦测模块300也可以具有分类单元380。在下述更详细地描述这些单元的功能。
在预分析单元310内,数字信号301以预加重因子p过滤以得到预加重信号311。数字信号301以x[1],x[2],…,x[n-1],x[n]表示。接下来,预加重信号311,xp[n]得以如下来表示:
xp[n]=x[n]-p·x[n-1]
其中预加重因子p=0.5~0.99。在一些实施例中,预加重信号311可以抑制低频信号并加强高频信号。预加重因子p可以根据应用来选择。
窗单元320设置以藉由窗函数w[n]将预加重信号311的音框架加权至窗化信号321。窗函数的示例可以包含Blackman窗、Blackman-Harris窗、Bohman窗、Chebyshev窗、Gaussian窗、Hamming窗、Hanning窗、Kaiser窗、Nuttall窗、Parzen窗、Taylor窗、Tukey窗等,窗化信号321可表示如下:
xw[n]=w[n]xp[n]
根据实施例,窗函数可以根据,例如,Blackman窗、Blackman-Harris窗、Bohman窗、Chebyshev窗、Gaussian窗、Hamming窗、Hanning窗、Kaiser窗、Nuttall窗、Parzen窗、Taylor窗、Tukey窗等来决定。
线性预估系数单元330设置以由窗化信号321提取线性预估系数。在一些实施例中,线性预估系数可以利用例如L-D递归法(Levinson-Durbin recursion)来推导。预估误差(prediction error,LPC_ERR)可以是该过程的副产物(by-product)。
线性预估系数至反射系数单元(LPC-to-RC unit)340设置以利用例如L-D递归法将线性预估系数转换为反射系数(RCs,k(i))。请注意反射系数可在线性预估系数单元内以相同的递归法来得到。
反射系数至对数面积比单元(RC-to-LAR unit)350设置以将反射系数转换为对数面积比(LARs,g(i)),其可表示为:
g(i)=log(1-k(i)/1+k(i))
对数面积函数单元360设置以从对数面积比导出对数面积函数(LAF)。对数面积函数(LAF)可表示为:
面积函数/矢状距离函数单元370设置以计算可以从对数面积函数(LAF)导出的面积函数(AF)。面积函数(AF)可表示为:
AF(i)=log(LAF(i))
面积函数/矢状距离函数单元370也可以被设置以从对数面积比导出矢状距离或径函数(sagittal distance or diameter function(SDF))。矢状距离或径函数(SDF)可表示为:
SDF(i)=log(LAF(i)/2)
分类单元380可以是已离线训练的分类器以基于一或多个面积相关函数(例如,LARs、LAF、AF或SDF)识别语音的开始并给出可VAD的控制信号(或是基于面积的判断)。
在一些实施例中,用来训练分类单元380的方法可以包含收集对数面积比和/或一或多个导出的特征(LAF、AF或SDF)并得到这些特征的一阶微分来作为额外的特征。此方法也可包含将音框架分成三类:干净的声音、嘈杂的声音(嘈杂环境中的声音)和噪音。接着,分类器可以利用机器学习来训练(例如,神经网络、逻辑回归等),将进一步在后面描述。
为了准备机器学习,挑选音频信号来代表三种分类:干净的声音、嘈杂的声音(嘈杂环境中的声音)和噪音。接着,从音框架或短切割(short segment)提取音频信号的特征。例如,这些特征可以对数面积函数和/或一些所导出的其他特征(例如,LAF、AF或SDF)来表示。然后,这个方法将音框架分成三类:干净的声音、嘈杂的声音(嘈杂环境中的声音)和噪音。关于这些音框架的信息被提供到机器学习过程,例如:神经网络或逻辑回归,以训练分类器。
在一些实施例中,可以应用神经网络来执行离线机器学习。图4是绘示示例的双层前馈(two-layer feed-forward)神经网络的方框图,根据本发明的实施例,其也可用来建构基于面积函数的侦测模块。在图4所示的示例中,前馈神经网络400包含输入埠410(inputport 410)、隐藏层420(hidden layer 420)、输出层430(output layer 430)以及输出埠440(output port 440)。在此网络中,信息仅在一方向上往前移动,从输入结点、通过隐藏结点并到达输出结点。在图4中,W代表权重向量(weighting vector),b代表偏权因子(biasfactor)。
在一些实施例中,隐藏层420可以具有sigmoid神经元(neurons),且输出层430可以具有softmax神经元。sigmoid神经元具有由sigmoid函数所定义的输出关系,其为具有S形曲线或sigmoid曲线的数学函数。Sigmoid函数具有所有实数的域,返回值根据应用通常从0到1或者从-1到1单调增加。各种各样的sigmoid函数可以用作人工神经元(artificialneurons)的激活函数,包括逻辑和双曲正切函数。
在输出层430中,softmax神经元具有由softmax函数所定义的输出关系。softmax函数或归一化指数函数[1]:198是逻辑函数的推广,它将任意实数值的K维向量z“压缩”为实数值的K维向量σ(z),其中每个条目都在范围(0,1)中,并且所有条目(entries)加起来为1。softmax函数的输出可用于表示分类分布-即,K个不同可能结果的概率分布。softmax函数通常用于基于神经网络的分类器的最后一层。在图4中,W表示权重向量,b表示偏权因子。
为了实现合理的分类,应在第一隐藏层中分配至少10个神经元。如果使用更多隐藏层,则可以在其他的隐藏层中使用任意数量的神经元。给定更多计算资源,可以分配更多的神经元或层。在其隐藏层中提供足够的神经元,可以提高性能。也可以应用更复杂的网络(例如,卷积神经网络或递归式神经网络)来实现更好的性能。在其隐藏层中给定足够的神经元,它可以任意地对向量进行分类。
图5是绘示根据本发明实施例的基于逻辑回归的示例性基于面积函数的侦测模块的方框图。如图5所示,基于面积函数的侦测模块500包含输入预处理阶段501、数据增强单元510、特征选择单元520、训练数据单元530、测试数据单元540、模型训练和调整单元550、评估模型性能单元560、超参数选择/调整单元570和峰值优化单元580。
图5示出了通过机器学习开发语音活动侦测分类器的信号路径。在数据增强单元510中,当前和过去预测器之间的关系用于将原始特征映射到更适合于此语音侦测问题的维度。特征选择单元520设置以选择在先前单元中找到的最佳特征映射。它为最终建模设置了最佳候选者,并将映射的数据集传递给后续单元。然后将整个数据集拼接成两个子集“训练数据单元”530和“测试数据单元”540,以构建监督学习的交叉验证的机器学习模型。用于测试的数据百分比可在5%-20%之间。模型训练/调整单元550包含逻辑回归分类器,其藉由将特征乘以函数的权重,将它们相加,并将结果通过sigmoid激活函数来执行训练集上的前向传递。评估模型性能单元560设置以藉由计算训练和测试数据集的模型的当前状态的交叉熵误差(cross-entropy error)来获得模型的损失。超参数选择/调整单元570可以包括手工挑选(例如,学习速率、λ值等)和可优化参数。一旦错误传递回该单元,它就通过与错误成比例地调整每个权重的值来对模型执行优化传递。峰值优化单元580在每个时期跟踪误差并计算模型的准确度和召回率。然后,它将结果与容差值进行比较,以决定是否执行优化步骤。在训练过程结束时,产生已训练的语音活动侦测(VAD)模型590。
可以通过执行n阶(例如3阶)多项式特征映射在上述的特征,例如:干净的声音、嘈杂的声音和噪音,来产生最终训练集。其包含了m个(例如91个)特征,这些特征在考虑训练数据中的非线性关系时收敛于更充分的判断边界。逻辑回归算法的概要部分是:
图6是绘示能够根据本发明实现各种实施例的一设备的简易方框图。图6仅是结合本公开的实施例的说明,并不限制权利要求中所述的公开的范围。本领域普通技术人员将认识到其他变型、修改和替代方案。在一个实施例中,计算机系统600通常包括监视器610(或图形人机接口610),计算机620,使用者输出设备630,使用者输入设备640,通讯接口650等。
图6是能够体现本公开的计算机系统的代表。例如,语音激活系统100可以利用类似于图6中所绘示的计算机系统600的系统来实现。信号处理电路150的功能可以由图6中描述的一个或多个处理器来执行。麦克风接口电路130、类比至数字转换器140和语音激活装置160可以是类似于系统600的系统中的外围设备。此外,机器学习系统的离线训练可以在类似于图6所绘示的系统600的系统中执行。
如图6所示,计算机620可以包括通过总线子系统690(bus subsystem 690)与多个外围设备通讯的处理器660。这些外围设备可以包括使用者输出设备630、使用者输入设备640、通讯接口650、存储子系统,例如随机存取存储器(RAM)670和磁盘驱动器(或非易失性存储器)680。
使用者输入设备640可以包括用于向计算机620输入信号的所有可能类型的设备和机构。这些设备和机构可以包括键盘、小键盘、结合到显示器中的触摸屏、音频输入设备,例如语音识别系统、麦克风、和其他类型的输入设备。在各种实施例中,使用者输入设备640通常体现为计算机鼠标、轨迹球、轨迹板、摇杆、无线遥控器、绘图平板、语音命令系统、眼睛追踪系统等。使用者输入设备640通常允许使用者通过诸如点击按钮等的命令选择出现在监视器610上的物件、图标、文本等。
使用者输出设备630包括用于从计算机620输出信息的所有可能类型的设备和机构。这些设备和机构可以包括显示器(例如,监视器610),诸如音频输出设备的非可视显示器等。
通讯接口650提供了至其他通讯网络和设备的接口。通讯接口650可以用作从其他系统接收数据和向其他系统传送数据的接口。通讯接口650的实施例通常包括以太网络卡、数据机(电话,卫星,电缆,ISDN)、(非同步)数字用户线(DSL)单元、FireWire接口、USB接口等。例如,通讯接口650可以耦合到计算机网络、FireWire总线等。在其他实施例中,通讯接口650可以物理地集成在计算机620的主机板上,并且可以是软件程序,例如软DSL等。
在各种实施例中,计算机系统600还可以包括能够通过网络进行通讯的软件,例如HTTP、TCP/IP、RTP/RTSP协议等。在本公开的其他实施例中,也可以使用其他通讯软件和传输协议,例如IPX,UDP等。在一些实施例中,计算机620包括来自Intel的一个或多个Xeon微处理器作为处理器660。此外,在一个实施例中,计算机620包括基于UNIX的操作系统。处理器660还可以包括专用处理器,例如数字信号处理器(DSP)、精简指令集计算机(RISC)等。
RAM 670和磁盘驱动器680是有形存储媒体的示例,其存储诸如本公开的实施例之类的数据,包括可执行计算机编码、人类可读编码等。其他类型的有形存储媒体包括软盘、可移动硬盘、诸如CD-ROM、DVD和条码的光学存储媒体、诸如快闪存储器、只读存储器(ROMS)、电池备援存储器、网络化存储设备等。RAM 670和磁盘驱动器680可以是设置以存储提供本公开的功能的基本程序设计和数据结构。
提供本公开的功能的软件编码模块和指令可以存储在RAM 670和磁盘驱动器680中。这些软件模块可以由处理器660来执行。RAM 670和磁盘驱动器680还可以提供存储库来存储根据本公开所使用的数据。
RAM 670和磁盘驱动器680可以包括多个存储器,多个存储器包括用于在程序执行期间存储指令和数据的主随机存取存储器(RAM)和存储固定非暂态指令的只读存储器(ROM)。RAM 670和磁盘驱动器680可以包括档案储存子系统,其为程序和数据档案提供持久(非易失性)存储。RAM 670和磁盘驱动器680还可以包括可移动存储系统,例如可移动快闪存储器。
总线子系统690提供用于使计算机620的各种元件和子系统按预期彼此通讯的机制。虽然总线子系统690示意性地示为单个总线,但总线子系统的其他实施例可以使用多个总线。
图6是能够体现本公开的计算机系统的代表。对于本领域普通技术人员来说显而易见的是,许多其他硬件和软件配置适用于本公开。例如,计算机可以是桌上型的、可携式、机架式(rack-mounted)或平板式配置。另外,计算机可以是一系列联网计算机。此外,可以考虑使用其他微处理器,例如PentiumTM或ItaniumTM微处理器;来自Advanced MicroDevices,Inc的OpteronTM或AthlonXPTM微处理器等。此外,可以考虑其他类型的操作系统,例如来自Microsoft Corporation的Windows、WindowsXP、WindowsNT等、来自SunMicrosystems的Solaris、LINUX、UNIX等。在其他实施例中,上述技术可以在芯片或辅助处理板上实现。
本公开的各种实施例可以软件或硬件中的逻辑形式或两者的组合来实现。逻辑可以存储在计算机可读或机器可读的非暂态存储媒体中,作为适于指示计算机系统的处理器执行本公开的实施例中公开的一组步骤的一组指令。该逻辑可以形成计算机程序产品的一部分,该计算机程序产品适于指导数据处理设备执行本公开的实施例中公开的一组步骤。基于本文提供的揭示和教示,本领域普通技术人员将理解实现本公开的其他方式和/或方法。
这里描述的数据结构和编码可以部分或完全存储在计算机可读存储媒体和/或硬件模块和/或硬件设备上。计算机可读存储媒体包括但不限于易失性存储器、非易失性存储器、磁性和光学存储设备,例如磁盘驱动器、磁带、CD(光盘)、DVD(数字影音光盘或数字影碟)、现在已知或以后将开发的、能够存储编码和/或数据的其他媒体。这里描述的硬件模块或装置包括但不限于专用集成电路(ASIC)、现场可编程逻辑门阵列(FPGA)、专用或共享处理器、和/或现在已知或以后开发的其他硬件模块或装置。
这里描述的方法和过程可以部分或完全体现为存储在计算机可读存储媒体或设备中的编码和/或数据,从而当计算机系统读取并执行编码和/或数据时,计算机系统执行相关的方法和过程。所述方法和过程还可以部分或完全体现在硬件模块或装置中,使得当激活硬件模块或装置时,它们执行相关联的方法和过程。可以使用编码、数据和硬件模块或装置的组合来体现本文公开的方法和过程。
本文已经描述了某些实施例。然而,对这些实施例的各种修改是可能的,并且本文提出的原理也可以应用于其他实施例。另外,在不脱离权利要求的范畴的情况下,各种元件和/或方法步骤/方法块可以在不同于具体公开的那些的配置中实现。鉴于这些教示,本领域普通技术人员将容易地想到其他实施例和修改。因此,当结合以上说明书和附图阅读时,权利要求旨在涵盖所有这样的实施例和修改。
Claims (26)
1.一种语音活动侦测系统,其特征在于,包含:
一麦克风接口电路,设置以用于耦合一麦克风以接收一声音信号,并将该声音信号转换为一类比信号;
一类比至数字转换器,设置以接收该类比信号,以产生一数字信号;以及
一信号处理电路,设置以接收该数字信号并决定该数字信号是否代表人的语音,其中该信号处理电路包含:
一基于声能的侦测模块,设置以接收该类比信号或该数字信号并且提供一语音活动判断,该语音活动判断指示该声音信号是否在一可听能量范围内;
一基于面积函数的侦测模块,设置以基于面积函数从该数字信号提取该声音信号的特征,并利用一机器学习方法以决定一基于面积的判断,该基于面积的判断指示该声音信号是否代表人的语音,其中该机器学习方法包含由多个被标记的面积函数所训练的多个系数;以及
一语音活动侦测判断模块,根据来自于该基于声能的侦测模块的该语音活动判断以及来自于该基于面积函数的侦测模块的该基于面积的判断,以产生一最终的语音活动侦测判断;以及
一资源有限的设备,设置以接收该最终的语音活动侦测判断以改变该资源有限的设备的一操作模式。
2.如权利要求1所述的语音活动侦测系统,其特征在于,该面积函数包含一对数面积比、一对数面积函数、以及一矢状距离函数中的一个。
3.如权利要求1所述的语音活动侦测系统,其特征在于,该基于面积函数的侦测模块设置以执行:
以一预加重因子过滤该数字信号以得到一预加重信号;
藉由一窗函数将该预加重信号的一音框架加权至一窗化信号;
使该窗化信号转换为多个反射系数;
使该多个反射系数转换为该面积函数;
将该面积函数提供至一已训练的分类器以识别语音的开始;以及
给出该基于面积的判断。
4.如权利要求3所述的语音活动侦测系统,其特征在于,该已训练的分类器由一神经网络或一逻辑回归离线训练。
5.一种语音活动侦测系统,其特征在于,包含:
一输入处理模块,设置以通过一麦克风接收一声音信号,该输入处理模块设置以将该声音信号转换为一类比信号,以及随后的一数字信号;
一基于能量的侦测模块,设置以接收该类比信号或该数字信号,并且决定一语音活动判断;
一基于面积函数的侦测模块,设置以由该数字信号导出一面积函数,并且根据该面积函数利用一机器学习方法输出一基于面积的判断,其中该机器学习方法包含由多个被标记的面积函数训练的多个系数;以及
一语音活动侦测判断模块,设置以基于来自于该基于能量的侦测模块的该语音活动判断以及来自于该基于面积函数的侦测模块的该基于面积的判断产生一最终的语音活动侦测判断,其中该最终的语音活动侦测判断接着被传送至一资源有限的设备以改变该资源有限的设备的一操作模式。
6.如权利要求5所述的语音活动侦测系统,其特征在于,该基于能量的侦测模块是一软件模块以接收该数字信号。
7.如权利要求5所述的语音活动侦测系统,其特征在于,该基于能量的侦测模块为一数字硬件区块以接收该数字信号。
8.如权利要求5所述的语音活动侦测系统,其特征在于,该基于能量的侦测模块为一类比硬件区块以接收该类比信号。
9.如权利要求5所述的语音活动侦测系统,其特征在于,该面积函数包含一对数面积比、一对数面积函数、以及一矢状距离函数中的一个。
10.如权利要求5所述的语音活动侦测系统,其特征在于,该语音活动判断为一软判断值。
11.如权利要求5所述的语音活动侦测系统,其特征在于,该语音活动判断为一硬判断值。
12.如权利要求5所述的语音活动侦测系统,其特征在于,该基于面积函数的侦测模块设置以执行下列步骤:
以一预加重因子过滤该数字信号以得到一预加重信号;
藉由一窗函数将该预加重信号的一音框架加权至一窗化信号;
使该窗化信号转换为多个反射系数;
使该多个反射系数转换为该面积函数;
将该面积函数提供至一已训练的分类器以识别语音的开始;以及
给出该基于面积的判断。
13.如权利要求12所述的语音活动侦测系统,其特征在于,该预加重因子的范围为 0.5至0.99。
14.如权利要求12所述的语音活动侦测系统,其特征在于,该音框架移位的范围从1 毫秒至20毫秒。
15.如权利要求12所述的语音活动侦测系统,其特征在于,该窗函数是Blackman窗、Blackman-Harris窗、Bohman窗、Chebyshev窗、Gaussian窗、Hamming窗、Hanning窗、Kaiser窗、 Nuttall窗、Parzen窗、Taylor窗、以及Tukey窗中的一个。
16.如权利要求12所述的语音活动侦测系统,其特征在于,该已训练的分类器经由一神经网络离线训练。
17.如权利要求12所述的语音活动侦测系统,其特征在于,该已训练的分类器经由一逻辑回归离线训练。
18.如权利要求12所述的语音活动侦测系统,其特征在于,该基于面积的判断为一软判断值。
19.如权利要求12所述的语音活动侦测系统,其特征在于,该基于面积的判断为一 硬判断值。
20.如权利要求12所述的语音活动侦测系统,其特征在于,该基于面积函数的侦测模块设置以进一步产生一线性估测误差,并包含该线性估测误差以作为该基于面积的判断中的一特征。
21.如权利要求5所述的语音活动侦测系统,其特征在于,进一步包含一基于零交越的侦测模块,其设置以基于零交越率产生一第二判断,其中该语音活动侦测判断模块在一最终判断过程内包含该第二判断。
22.如权利要求21所述的语音活动侦测系统,其特征在于,该第二判断为一软判断值。
23.如权利要求21所述的语音活动侦测系统,其特征在于,该第二判断为一硬判断值。
24.如权利要求5所述的语音活动侦测系统,其特征在于,该资源有限的设备是一低耗装置且该操作模式包含一闲置模式以及一唤醒模式。
25.如权利要求5所述的语音活动侦测系统,其特征在于,该资源有限的设备是一语音存储装置,以及该操作模式包含一闲置模式以及一录音模式。
26.如权利要求5所述的语音活动侦测系统,其特征在于,该资源有限的设备是一语音传送装置,且该操作模式包含一闲置模式以及一传送模式。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US16/021,724 | 2018-06-28 | ||
US16/021,724 US10460749B1 (en) | 2018-06-28 | 2018-06-28 | Voice activity detection using vocal tract area information |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110660413A CN110660413A (zh) | 2020-01-07 |
CN110660413B true CN110660413B (zh) | 2022-04-15 |
Family
ID=68315000
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910389235.7A Active CN110660413B (zh) | 2018-06-28 | 2019-05-10 | 语音活动侦测系统 |
Country Status (4)
Country | Link |
---|---|
US (1) | US10460749B1 (zh) |
KR (1) | KR102288928B1 (zh) |
CN (1) | CN110660413B (zh) |
TW (1) | TWI722349B (zh) |
Families Citing this family (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11742879B2 (en) * | 2019-03-13 | 2023-08-29 | Samsung Electronics Co., Ltd. | Machine-learning error-correcting code controller |
US12119840B2 (en) * | 2019-03-13 | 2024-10-15 | Samsung Electronics Co., Ltd. | Machine-learning error-correcting code controller |
US11587552B2 (en) * | 2019-04-30 | 2023-02-21 | Sutherland Global Services Inc. | Real time key conversational metrics prediction and notability |
CN113393865B (zh) * | 2020-03-13 | 2022-06-03 | 阿里巴巴集团控股有限公司 | 功耗控制、模式配置与vad方法、设备及存储介质 |
US11276388B2 (en) * | 2020-03-31 | 2022-03-15 | Nuvoton Technology Corporation | Beamforming system based on delay distribution model using high frequency phase difference |
US11462218B1 (en) * | 2020-04-29 | 2022-10-04 | Amazon Technologies, Inc. | Conserving battery while detecting for human voice |
CN111863036B (zh) * | 2020-07-20 | 2022-03-01 | 北京百度网讯科技有限公司 | 语音检测的方法和装置 |
CN112420051A (zh) * | 2020-11-18 | 2021-02-26 | 青岛海尔科技有限公司 | 设备的确定方法、装置及存储介质 |
CN115472177A (zh) * | 2021-06-11 | 2022-12-13 | 瑞昱半导体股份有限公司 | 用于梅尔频率倒谱系数的实现的优化方法 |
US11908454B2 (en) | 2021-12-01 | 2024-02-20 | International Business Machines Corporation | Integrating text inputs for training and adapting neural network transducer ASR models |
CN115547312B (zh) * | 2022-11-30 | 2023-03-21 | 深圳时识科技有限公司 | 带活动检测的预处理器、芯片和电子设备 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1758678A (zh) * | 2005-10-26 | 2006-04-12 | 熊猫电子集团有限公司 | 移动信息终端的语音识别与语音标签记录和调用方法 |
TW200705387A (en) * | 2005-04-01 | 2007-02-01 | Qualcomm Inc | Systems, methods, and apparatus for highband time warping |
TW200811833A (en) * | 2006-08-24 | 2008-03-01 | Inventec Besta Co Ltd | Detection method for voice activity endpoint |
CN101221762A (zh) * | 2007-12-06 | 2008-07-16 | 上海大学 | 一种mp3压缩域音频分割方法 |
CN103236260A (zh) * | 2013-03-29 | 2013-08-07 | 京东方科技集团股份有限公司 | 语音识别系统 |
CN107564544A (zh) * | 2016-06-30 | 2018-01-09 | 展讯通信(上海)有限公司 | 语音活动侦测方法及装置 |
Family Cites Families (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6003004A (en) * | 1998-01-08 | 1999-12-14 | Advanced Recognition Technologies, Inc. | Speech recognition method and system using compressed speech data |
US6959274B1 (en) * | 1999-09-22 | 2005-10-25 | Mindspeed Technologies, Inc. | Fixed rate speech compression system and method |
CN1617605A (zh) * | 2003-11-12 | 2005-05-18 | 皇家飞利浦电子股份有限公司 | 一种在语音信道传输非语音数据的方法及装置 |
US20080059170A1 (en) * | 2006-08-31 | 2008-03-06 | Sony Ericsson Mobile Communications Ab | System and method for searching based on audio search criteria |
KR100718846B1 (ko) * | 2006-11-29 | 2007-05-16 | 인하대학교 산학협력단 | 음성 검출을 위한 통계 모델을 적응적으로 결정하는 방법 |
DE112014000709B4 (de) * | 2013-02-07 | 2021-12-30 | Apple Inc. | Verfahren und vorrichtung zum betrieb eines sprachtriggers für einen digitalen assistenten |
US9269368B2 (en) * | 2013-03-15 | 2016-02-23 | Broadcom Corporation | Speaker-identification-assisted uplink speech processing systems and methods |
US9953661B2 (en) * | 2014-09-26 | 2018-04-24 | Cirrus Logic Inc. | Neural network voice activity detection employing running range normalization |
WO2016174659A1 (en) * | 2015-04-27 | 2016-11-03 | Snapaid Ltd. | Estimating and using relative head pose and camera field-of-view |
CN106356076B (zh) * | 2016-09-09 | 2019-11-05 | 北京百度网讯科技有限公司 | 基于人工智能的语音活动性检测方法和装置 |
US10650803B2 (en) * | 2017-10-10 | 2020-05-12 | International Business Machines Corporation | Mapping between speech signal and transcript |
-
2018
- 2018-06-28 US US16/021,724 patent/US10460749B1/en active Active
- 2018-11-30 KR KR1020180152961A patent/KR102288928B1/ko active IP Right Grant
- 2018-12-11 TW TW107144627A patent/TWI722349B/zh active
-
2019
- 2019-05-10 CN CN201910389235.7A patent/CN110660413B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TW200705387A (en) * | 2005-04-01 | 2007-02-01 | Qualcomm Inc | Systems, methods, and apparatus for highband time warping |
CN1758678A (zh) * | 2005-10-26 | 2006-04-12 | 熊猫电子集团有限公司 | 移动信息终端的语音识别与语音标签记录和调用方法 |
TW200811833A (en) * | 2006-08-24 | 2008-03-01 | Inventec Besta Co Ltd | Detection method for voice activity endpoint |
CN101221762A (zh) * | 2007-12-06 | 2008-07-16 | 上海大学 | 一种mp3压缩域音频分割方法 |
CN103236260A (zh) * | 2013-03-29 | 2013-08-07 | 京东方科技集团股份有限公司 | 语音识别系统 |
CN107564544A (zh) * | 2016-06-30 | 2018-01-09 | 展讯通信(上海)有限公司 | 语音活动侦测方法及装置 |
Non-Patent Citations (2)
Title |
---|
Comparative Study on Voice Activity Detection Algorithm;Xiaoling Yang et al.;《2010 International Conference on Electrical and Control Engineering》;20101231;全文 * |
应用对数面积比参数做非限定内容的话者辨识;张松滨;《哈尔滨电工学院学报》;19910331;全文 * |
Also Published As
Publication number | Publication date |
---|---|
KR102288928B1 (ko) | 2021-08-11 |
US10460749B1 (en) | 2019-10-29 |
KR20200001960A (ko) | 2020-01-07 |
TWI722349B (zh) | 2021-03-21 |
TW202001874A (zh) | 2020-01-01 |
CN110660413A (zh) | 2020-01-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110660413B (zh) | 语音活动侦测系统 | |
Ahmad et al. | A unique approach in text independent speaker recognition using MFCC feature sets and probabilistic neural network | |
El Choubassi et al. | Arabic speech recognition using recurrent neural networks | |
AU684214B2 (en) | System for recognizing spoken sounds from continuous speech and method of using same | |
WO1996010818A1 (en) | Method and system for recognizing a boundary between sounds in continuous speech | |
Mistry et al. | Overview: Speech recognition technology, mel-frequency cepstral coefficients (mfcc), artificial neural network (ann) | |
Jung et al. | Linear-scale filterbank for deep neural network-based voice activity detection | |
O’Shaughnessy | Recognition and processing of speech signals using neural networks | |
CN117762372A (zh) | 一种多模态人机交互系统 | |
Tan et al. | Digit recognition using neural networks | |
Nedjah et al. | Automatic speech recognition of Portuguese phonemes using neural networks ensemble | |
Amrouche et al. | An efficient speech recognition system in adverse conditions using the nonparametric regression | |
Hanchate et al. | Vocal digit recognition using artificial neural network | |
Tawaqal et al. | Recognizing five major dialects in Indonesia based on MFCC and DRNN | |
O'Shaughnessy | Review of analysis methods for speech applications | |
Aibinu et al. | Evaluating the effect of voice activity detection in isolated Yoruba word recognition system | |
Jain et al. | Investigation Using MLP-SVM-PCA Classifiers on Speech Emotion Recognition | |
Kato et al. | Statistical regression models for noise robust F0 estimation using recurrent deep neural networks | |
Yee et al. | Malay language text-independent speaker verification using NN-MLP classifier with MFCC | |
Thamburaj et al. | Automatic Speech Recognition Based on Improved Deep Learning | |
Wang et al. | Neural RAPT: deep learning-based pitch tracking with prior algorithmic knowledge instillation | |
Lee | Automatic recognition of isolated cantonese syllables using neural networks | |
Peretta | A novel word boundary detector based on the teager energy operator for automatic speech recognition | |
Sherly et al. | ASR Models from Conventional Statistical Models to Transformers and Transfer Learning | |
Saha et al. | An F-ratio based optimization technique for automatic speaker recognition system |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |