CN105830463A - Vad检测设备和操作该vad检测设备的方法 - Google Patents
Vad检测设备和操作该vad检测设备的方法 Download PDFInfo
- Publication number
- CN105830463A CN105830463A CN201480068989.8A CN201480068989A CN105830463A CN 105830463 A CN105830463 A CN 105830463A CN 201480068989 A CN201480068989 A CN 201480068989A CN 105830463 A CN105830463 A CN 105830463A
- Authority
- CN
- China
- Prior art keywords
- microphone
- mike
- signal
- vad
- module
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 55
- 238000001514 detection method Methods 0.000 title claims abstract description 30
- 230000000694 effects Effects 0.000 claims abstract description 36
- 238000012545 processing Methods 0.000 claims abstract description 26
- 230000008569 process Effects 0.000 claims abstract description 9
- 230000005540 biological transmission Effects 0.000 claims description 5
- 238000004458 analytical method Methods 0.000 description 8
- 238000013459 approach Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 5
- ORQBXQOJMQIAOY-UHFFFAOYSA-N nobelium Chemical compound [No] ORQBXQOJMQIAOY-UHFFFAOYSA-N 0.000 description 5
- 230000008859 change Effects 0.000 description 4
- 238000001914 filtration Methods 0.000 description 4
- 230000004044 response Effects 0.000 description 4
- 238000005070 sampling Methods 0.000 description 3
- 238000000605 extraction Methods 0.000 description 2
- 230000005236 sound signal Effects 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- XUIMIQQOPSSXEZ-UHFFFAOYSA-N Silicon Chemical compound [Si] XUIMIQQOPSSXEZ-UHFFFAOYSA-N 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 230000004888 barrier function Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000005611 electricity Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 229910052710 silicon Inorganic materials 0.000 description 1
- 239000010703 silicon Substances 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/02—Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/0204—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/21—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R19/00—Electrostatic transducers
- H04R19/04—Microphones
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R3/00—Circuits for transducers, loudspeakers or microphones
- H04R3/005—Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W4/00—Services specially adapted for wireless communication networks; Facilities therefor
- H04W4/16—Communication-related supplementary services, e.g. call-transfer or call-hold
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L2015/088—Word spotting
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Human Computer Interaction (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Signal Processing (AREA)
- Computational Linguistics (AREA)
- Computer Networks & Wireless Communication (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Health & Medical Sciences (AREA)
- Otolaryngology (AREA)
- Spectroscopy & Molecular Physics (AREA)
- User Interface Of Digital Computer (AREA)
- Telephone Function (AREA)
Abstract
在处理装置处,接收来自第一麦克风的第一信号和来自第二麦克风的第二信号。第一信号指示在第一麦克风处语音信号是否已经被确定,并且第二信号指示在第二麦克风处语音信号是否已经被确定。当所述第一信号指示潜在的语音活动或者所述第二信号指示潜在的语音活动时,所述处理装置被激活以接收数据并且针对触发字所述数据被检查。当发现所述触发字时,信号被发送至应用处理器以进一步处理来自第一麦克风和第二麦克风中的一个或更多个的信息。当没发现触发字时,所述处理装置被重置成停用数据输入,并且允许第一麦克风和第二麦克风进入或维持操作的事件检测模式。
Description
相关申请的交叉引用
本专利根据35U.S.C.§119(e)要求于2013年10月29日提交的题为“VADDetectionApparatusandmethodofoperatingthesame”的美国临时申请No.61/896,723的权益,其内容通过引用整体并入本文。
技术领域
本申请涉及麦克风,并且更具体地涉及与这些麦克风一起使用的语音活动检测(VAD)方法。
背景技术
麦克风被用于获得来自讲话者的语音信号。一旦获得,就可以以许多不同的方式对该信号进行处理。当今的麦克风可以提供各种各样的功能,并且它们可以交互(interfacewith)并利用多种不同的算法。
例如,如在移动系统中所使用的语音触发是一种日益流行的、客户希望使用的特征。例如,用户可能希望对移动装置说出命令并且使该装置响应于该命令作出反应。在这些情况下,数字信号处理(DSP)可以首先检测由麦克风捕获到的音频信号中是否存在语音,然后,接下来,对信号执行分析,以预测在所接收到的音频信号中所说的词是什么。各种语音活动检测(VAD)方法已经被开发出并且已经被部署在诸如便携式电话和个人计算机的各种类型的装置中。
在这些方法的使用中,错误检测、触发字检测、部件数量以及硅面积和电流消耗已经成为关注点,尤其是因为这些方法被部署在诸如便携式电话的电子装置中。先前的方法已经被证明不足以解决这些问题。因此,一些用户已经显露出对于这些先前的方法的不满。
附图说明
为了更完整地理解本公开,应参照下面的详细描述以及附图,其中:
图1包括根据本发明的不同的实施方式的具有使用VAD方法的麦克风的系统的框图;
图2包括根据本发明的不同的实施方式的示出中断序列的状态转换图;
图3包括根据本发明的不同的实施方式的VAD方法的框图;
图4包括根据本发明的不同的实施方式的VAD方法中所使用的分析滤波器组;
图5包括根据本发明的不同的实施方式的分析滤波器组中所使用的高通滤波器和低通滤波器的框图;
图6包括根据本发明的不同的实施方式的分析滤波器组的结果的曲线图;
图7包括根据本发明的不同的实施方式的跟踪器块的框图;
图8包括根据本发明的不同的实施方式的跟踪器块的结果的曲线图;
图9包括根据本发明的不同的实施方式的判定块的框图。
本领域的技术人员将会理解,图中的元件是出于简洁和清楚的目的而被例示出。应进一步理解的是,某些动作和/或步骤可能以特定的发生顺序被描述或描绘,但本领域的技术人员会明白,实际上并不要求这种顺序的特定性。还应理解的是,除非本文已经另行阐述了特定的含义,否则本文所使用的术语和表述具有同关于它们对应的各自的调查和研究领域的该术语和表述相一致的一般的含义。
具体实施方式
本方法提供确定事件或人类语音是否存在的语音活动检测(VAD)方法和装置。本文所描述的方法是有效的、易于实现的、具有较少部件数目、能够在非常低的延迟下检测语音并且减少了错误检测。
应当理解,本文所描述的方法可以使用硬件或软件元件的任何组合来实现。例如,专用集成电路(ASIC)或微处理器可以被用于使用经编程的计算机指令来实现本文所描述的方法。此外,虽然VAD方法可以被布置在麦克风中(如本文所描述的),但是这些功能也可以被布置在其它系统元件中。
在许多这些实施方式中并且在处理装置处,接收来自第一麦克风的第一信号和来自第二麦克风的第二信号。第一信号指示在所述第一麦克风语音信号是否已经被确定,并且第二信号指示在第二麦克风语音信号是否已经被确定。当所述第一信号指示潜在的语音活动或者所述第二信号指示潜在的语音活动时,处理装置被激活以接收数据并且针对触发字该数据被检查。当发现触发字时,信号被发送至应用处理器以进一步处理来自第一麦克风和第二麦克风中的一个或更多个的信息。当没发现触发字时,处理装置被重置成停用数据输入,并且允许第一麦克风和第二麦克风进入或维持操作的事件检测模式。
在其它方面,应用处理器利用语音识别(VR)模块来确定在信息中是否能够识别到其它或进一步的命令。在其它示例中,第一麦克风和第二麦克风传输脉冲密度调制(PDM)数据。
在某些其它方面,第一麦克风包括确定是否已经检测到语音活动的第一语音活动检测(VAD)模块,并且第二麦克风包括确定是否已经检测到语音活动的第二语音活动检测(VAD)模块。在一些示例中,第一VAD和第二VAD模块执行以下步骤:接收来自源的声能量;将声能量滤波到多个滤波带中;获得多个滤波带中的每一个的功率估计;以及基于各个功率估计确定是否检测到语音活动。
在一些示例中,所述滤波利用一个或更多个低通滤波器、高通滤波器以及分频器。在其它示例中,功率估计包括上功率估计和下功率估计。
在一些方面,第一VAD模块或者第二VAD模块执行触发短语(TriggerPhrase)识别。在其它方面,第一VAD模块或者第二VAD模块执行命令识别。
在一些示例中,处理装置通过改变提供到第一麦克风和第二麦克风的时钟的时钟频率来控制第一麦克风和第二麦克风。
在许多这些实施方式中,一种系统,该系统包括具有第一语音活动检测(VAD)模块的第一麦克风和具有第二语音活动检测(VAD)模块的第二麦克风,以及处理装置。该处理装置被通信地连接到第一麦克风和第二麦克风,并且被配置成接收来自第一麦克风的第一信号和来自第二麦克风的第二信号。第一信号指示在第一麦克风语音信号是否已经通过第一VAD模块被确定,并且第二信号指示在第二麦克风语音信号是否已经通过第二VAD模块被确定。所述处理装置被进一步配置成当第一信号指示潜在的语音活动或者第二信号指示潜在的语音活动时,激活并接收来自第一麦克风或第二麦克风的数据,并且随后针对触发字检查所述数据。当发现所述触发字时,信号被发送至应用处理器以进一步处理来自第一麦克风和第二麦克风中的一个或更多个的信息。所述处理装置被进一步配置成当没发现触发字时,向第一麦克风和第二麦克风传输第三信号。该第三信号使得第一麦克风和第二麦克风进入或维持操作的事件检测模式。
在一个方面,第一VAD模块或者第二VAD模块执行触发短语(TriggerPhrase)识别。在另一方面,第一VAD模块或者第二VAD模块执行命令识别。在其它示例中,处理装置通过改变提供到第一麦克风和第二麦克风的时钟的时钟频率来控制第一麦克风和第二麦克风。
在许多这些实施方式中,在微机电系统(MEMS)麦克风中检测语音活动。从源接收到声能量,并且该声能量被滤波到多个滤波带(filterband)中。针对多个滤波带中的每一个获得功率估计。基于各个功率估计,确定是否检测到语音活动。
在一些方面,所述滤波利用一个或更多个低通滤波器、高通滤波器以及分频器。在其它示例中,所述功率估计包括上功率估计和下功率估计。在一些示例中,确定多个滤波带内的上功率估计和下功率估计之间的比率,并且将所选择的比率与预先确定的阈值进行比较。在其它示例中,确定多个滤波带之间的上功率估计和下功率估计之间的比率,并且将所选择的比率与预先确定的阈值进行比较。
现在参照图1,对利用语音活动检测(VAD)方法的系统100进行描述。该系统100包括第一麦克风元件102、第二麦克风元件104、右事件麦克风106、左事件麦克风108、数字信号处理器(DSP)/编解码器110以及应用处理器112。尽管在系统100中示出了两个麦克风,应当明白,可以使用任何数量的麦克风,并且不是所有的麦克风都需要具有VAD,但是至少一个麦克风有。
第一麦克风元件102和第二麦克风元件104是接收声能量并且将该声能量转换成代表声能量的电信号的微机电系统(MEMS)元件。在一个示例中,元件102和104包括MEMS晶片(die)、隔膜以及背板。也可以使用其它组件。
右事件麦克风106和左事件麦克风108接收来自麦克风元件102和104的信号,并且处理这些信号。例如,元件106和108可以包括缓冲器、前置放大器、模数(A-to-D)转换器,以及将从元件102和104接收到的模拟信号转换成数字信号并执行其它处理功能的其它处理元件。这些元件例如可以包括实现这些功能的ASIC。右事件麦克风106和左事件麦克风108还分别包括语音活动检测(VAD)模块103和105,这些可以由执行经编程的计算机指令的ASIC来实现。VAD模块103和105利用本文所描述的方法来确定是否已经检测到语音(或某些其它事件)。该信息被传输到数字信号处理器(DSP)/编解码器110和应用处理器112,以便进一步处理。此外,现为数字信息形式的信号(潜在的语音信息)被发送到数字信号处理器(DSP)/编解码器110和应用处理器112。
数字信号处理器(DSP)/编解码器110接收来自元件106和108的信号(包括VAD模块是否已经检测到语音),并且使用语音识别(VR)触发引擎120查找触发字(例如,“Hello,MyMobile”)。编解码器110还使用中断处理模块122执行中断处理(参见图2)。如果发现触发字,则信号被发送到应用处理器112以进一步处理所接收到的信息。例如,应用处理器112可以利用(例如,被实现为硬件和/或软件的)VR识别模块126来确定在信息中是否能够识别到其它或进一步的命令。
在图1的系统的操作的一个示例中,右事件麦克风106和/或左事件麦克风108将通过开始传输脉冲密度调制(PDM)数据来唤醒数字信号处理器(DSP)/编解码器110和应用处理器112。数字信号处理器(DSP)/编解码器110和应用处理器112的通用输入/输出(I/O)引脚113假定可被配置用于如下面参照图2所描述的中断(或简单的轮询(polling))。模块103和105可以执行不同的识别功能;一个VAD模块可以执行触发关键字识别,并且第二个VAD模块可以执行命令识别。在一个方面,数字信号处理器(DSP)/编解码器110和应用处理器112通过改变时钟124的时钟频率来控制右事件麦克风106和左事件麦克风108。
现在参照图2,对可以被部署在本文所描述的方法中的双向中断系统的一个示例进行描述。在步骤202,麦克风106或108在检测到事件的情况下中断/唤醒数字信号处理器(DSP)/编解码器110。该事件可以是语音(例如,其可以是语音触发字的开始)。在步骤204,数字信号处理器(DSP)/编解码110在不存在触发字的情况下将麦克风置于后事件检测模式。数字信号处理器(DSP)/编解码器110确定何时决定将麦克风改变回事件检测模式。DSP/编解码器110的内部VAD可被用于做出该判定和/或DSP/编解码器110的内部语音触发识别系统。例如,如果字触发识别在大约2或3秒之后未识别出任何触发字,则应决定将其输入/输出引脚再次配置成中断引脚,并且然后将麦克风设置回检测模式(图2中的步骤204),并且然后进入睡眠模式/切断电源。
在另一方法中,麦克风还可以追踪连续语音活动的时间。如果活动未持续超出某一倒计时(例如,5秒),并且麦克风还停留在操作的低功率VAD模式下,即,在该时间段内未进入标准或高性能模式,言下之意是在所检测到的语音活动的时段内未检测到语音触发,则没有进一步的活动并且麦克风可以开始从检测和传输模式至检测模式的改变。一旦检测到没有来自麦克风的传输,DSP/编解码器也可以进入低功率睡眠模式。
现在参照图3,本文所描述的VAD方法可以包括下列三个功能块:分析滤波器组302、功率跟踪器块或模块304、以及判定块或模块306。所述分析滤波器组302将输入信号滤波到五个频谱带中。
所述功率跟踪器块304包括上跟踪器和下跟踪器。针对这些中的每一个以及针对每个带,其获得功率估计。判定块306察看这些功率估计,并且确定是否存在语音或声事件。
可选地,可以通过许多不同的方法来设置阈值,诸如一次性部件(OTP)或者不同类型的有线或无线接口310。可选地,来自判定块306的反馈308可以控制功率跟踪器,该反馈可以是VAD判定。例如,如果存在语音,则(下面所描述的)跟踪器可以被配置成使用另一组攻击/释放常数。本文所描述的功能可以被部署在任意数量的功能块中,并且应当明白,所描述的三个块仅是示例。
现在参照图4、图5和图6,描述了分析滤波器组的一个示例,处理与子带编码系统非常相似,其可以通过小波变换、通过正交镜像滤波器(QMF)或者通过其它类似的方法来实现。在图中,相比于更加传统的子带编码/小波变换方法,高通十分之一抽取级(D)(decimationstage)被省略。该省略的原因是,稍后在信号处理步骤中,获得能量或功率值的均方根(RMS)的估计,并且不希望低通滤波(用于导出RMS的“平均值”)和分析滤波器组的通带之间的频率重叠。该方法将放宽对于“平均值”低通滤波器的滤波器要求。然而,可以引入十分之一抽取级,因为这将会节省计算需求。
现在参照图4,滤波器组包括高通滤波器402(D)、低通滤波器404(H)以及采样分频器406(Fs是特定信道的采样频率)。该设备操作类似于子带编码方法并且如小波变换具有一致的相对带宽。输入信号被分到五个带中。也可以使用其它数量的带。在该示例中,信道5具有4000至8000Hz之间的通带、信道4具有2000至4000Hz之间的通带、信道3具有1000至2000Hz之间的通带、信道2具有500至1000Hz之间的通带且信道1具有0至500Hz之间的通带。
现在参照图5,高通滤波器404(D)和低通滤波器406(H)由两个全通滤波器502(G1)和504(G2)构成,这些滤波器可以是一阶或二阶全通IIR结构。输入信号通过延迟块506。通过改变加法器508和510的符号,生成经低通滤波的样本512和经高通滤波的样本514。将该结构与十分之一抽取结构相结合带来了几个益处,例如,H和D滤波器的阶数被加倍(例如,两倍),并且在系统中,栅极电源(gatespower)的数量被减少。
现在参照图6,示出了针对高通元件和低通元件的响应曲线。第一曲线602示出低通滤波器响应,而第二曲线604示出高通滤波器响应。
现在参照图7和图8,描述了功率跟踪器块或模块700的一个示例。跟踪器700包括绝对值块702、SINC十分之一抽取块704以及上和下跟踪器块706。块702获得信号的绝对值(该值也可以是平方值)。SINC块704是具有N个十分之一抽取因子的一阶SINC,并且其仅累积N个绝对信号值并然后在预先确定的时间(N个采样周期)之后丢弃该数据。可选地,可以使用任何种类的十分之一抽取滤波器。通过由SINC块704执行的整流和平均/十分之一抽取(即,累积和丢弃,如果在块704中使用开方,则此处也可以引入平方根算子)找到短时间RMS估计。针对每个信道(i=1至5)执行上述功能。选择十分之一抽取因子(N个)使得除了DC信道(信道1)(此处采样率为62.5Hz或125Hz),各个短时间RMS估计的采样率是125Hz或250Hz。然后,针对各个信道(i=1至5)的短时间rms(Chrms,i)值被馈送到跟踪器块706的两个跟踪器中。下跟踪器和上跟踪器(即,针对每个信道的一个跟踪器对)被包括在跟踪器块706中。跟踪器块706的操作可以被描述为:
样本索引号是n,Kaui和Krui是针对上跟踪器信道号i的攻击和释放常数(attackandreleaseconstant),Kali和Krli是针对对于信道号i的下跟踪器的攻击和释放常数。该块的输出被馈送到下面参照图9所描述的判定块。
现在参照图8,对跟踪器块的操作进行描述。第一曲线802示出上跟踪器然后遵循功率或RMS的快速变化。第二曲线804示出下跟踪器遵循功率或RMS的较慢变化。第三曲线806表示至跟踪器块的输入信号。
现在参照图9,对判定块900的一个示例进行描述。为了方便读者,在图9中重画了块902(块706和块902是相同的跟踪器块)。判定块使用来自跟踪器的输出、用于确定针对各个信道的上和下跟踪器之间的比率的除法块904、求和块908、比较块910以及符号块912。
构造和配置除法块904的内部操作,使得无需进行实际的除法。下跟踪器值Loweri(n)被乘以Thi(n)(预先确定的阈值,其可以是常数并且与n无关或者根据规则改变)。从Upperi(n)跟踪器值减去该值。然后执行sign(x)函数。
通过上和下跟踪器块902(该块等同于块706)估计上和下跟踪器信号。然后,由除法块904计算出上跟踪器和下跟踪器之间的比率。该比率与标志R-Flagi(n)进行比较。如果比率大于阈值Thi(n),即,如果904中的sign(x)是正的,则设置该标志(flag)。针对每个信道(i=1至5)执行该操作。Thi(n)可以是针对每个信道随时间恒定的,或者遵循其中针对每个样本实例n其实际上变化的规则。
除了针对每个信道i=1至5(或6或7,如果更多的信道从滤波器组可用)的比率计算之外,也可以使用/计算信道之间的比率。针对第i个信道,信道之间的比率被定义为:Ratioi,ch(n)=Upperi=ch(n)/Loweri≠ch(n),i、ch是从1至信道的数量,在该情况下,信道的数量是5。这意味着ratio(n)i,i与上面所计算的比率相同。可以计算总数为25个的比率(如果存在5个滤波带)。再次,将这些比率中的每一个都与阈值Thi, ch(n)进行比较。如果5个信道可用,则存在总数为25个的阈值。再次,该阈值可以是随时间n恒定的,或者针对每个样本实例n改变。在一个实现中,并不是带之间的所有的比率都被使用,而是仅使用子集。
针对所有标志的采样率与针对所有跟踪器中更快的跟踪器的采样率相同。慢跟踪器被重复。语音功率标志V_flag(n)还被估计为由求和块908执行的从500至4000Hz的三个信道的和。如果功率电平(powerlevel)足够低(即,小于Vth(n))则设置该标志,并且这由比较块910和符号块912来确定,该标志仅当麦克风处于安静环境或/和人们远离麦克风说话时才生效。
R_flagi(n)和V_flag(n)被用于决定当前时间步长“n”是否是语音,并且被存储在E_flag(n)中。确定E_flag(n)是否是语音(1)或不是语音(0)的操作可以通过以下程序来描述:
最终的VAD_flag(n)是E_flag(n)的平滑后的版本。其只是针对VAD_NUMBER个采样周期的最短时间/周期使得VAD正判定为真。该平滑可以通过下面的方法来描述。该方法可以被用于确定是否检测到语音事件,除非语音存在于背景中且因此不感兴趣。在这方面,避免了假正(falsepositive)读取。
Hang-on-count表示应用VAD_NUMBER/采样率的次数(time)。此处采样率是最快信道,即,250、125或62.5Hz。应当理解,这些方法检查以查看是否已经设置了4个标志。然而,应当理解,可以检查任何数量的阈值(标志)。
还应当理解,可以制定其它规则,如至少两对相邻的信道(或R_flag)为真或者可能三个这样的对或仅一对。通过由于人类发声系统的声产生能力/局限性而导致人类语音往往在相邻频率信道中相关联的事实来预测这些规则。
本文描述了本发明的优选实施方式,包括用于实施本发明的发明人所知道的最佳的方式。应当理解,所例示的实施方式仅是示例性的,并且不应被视为限制本发明的范围。
Claims (19)
1.一种方法,所述方法包括以下步骤:
在处理装置处,接收来自第一麦克风的第一信号和来自第二麦克风的第二信号,所述第一信号指示在所述第一麦克风处语音信号是否已经被确定,并且所述第二信号指示在所述第二麦克风处语音信号是否已经被确定;
当所述第一信号指示潜在的语音活动或者所述第二信号指示潜在的语音活动时,激活所述处理装置以接收数据并随后针对触发字检查所述数据,并且当发现所述触发字时,发送信号至应用处理器以进一步处理来自所述第一麦克风和所述第二麦克风中的一个或更多个的信息;
当没发现触发字时,将所述处理装置重置成停用数据输入,并且允许所述第一麦克风和所述第二麦克风进入或维持操作的事件检测模式。
2.根据权利要求1所述的方法,所述方法还包括,其中,所述应用处理器利用语音识别(VR)模块来确定在所述信息中是否能够识别到其它或进一步的命令。
3.根据权利要求1所述的方法,其中,所述第一麦克风和所述第二麦克风传输脉冲密度调制(PDM)数据。
4.根据权利要求1所述的方法,其中,所述第一麦克风包括确定是否已经检测到语音活动的第一语音活动检测(VAD)模块,并且所述第二麦克风包括确定是否已经检测到语音活动的第二语音活动检测(VAD)模块。
5.根据权利要求4所述的方法,其中,所述第一VAD模块和所述第二VAD模块执行以下步骤:
接收来自源的声能量;
将所述声能量滤波到多个滤波带中;
针对所述多个滤波带中的每一个获得功率估计;以及
基于各个功率估计,确定是否检测到语音活动。
6.根据权利要求5所述的方法,其中,将所述声能量滤波到所述多个滤波带中的步骤利用一个或更多个低通滤波器、高通滤波器以及分频器。
7.根据权利要求5所述的方法,其中,所述功率估计包括上功率估计和下功率估计。
8.根据权利要求4所述的方法,其中,所述第一VAD模块或者所述第二VAD模块执行触发短语识别。
9.根据权利要求4所述的方法,其中,所述第一VAD模块或者所述第二VAD模块执行命令识别。
10.根据权利要求1所述的方法,其中,所述处理装置通过改变提供到所述第一麦克风和所述第二麦克风的时钟的时钟频率来控制所述第一麦克风和所述第二麦克风。
11.一种系统,所述系统包括:
具有第一语音活动检测(VAD)模块的第一麦克风;
具有第二语音活动检测(VAD)模块的第二麦克风;
通信地连接到所述第一麦克风和所述第二麦克风的处理装置,所述处理装置被配置成接收来自所述第一麦克风的第一信号和来自所述第二麦克风的第二信号,所述第一信号指示通过所述第一VAD模块在所述第一麦克风处语音信号是否已经被确定,并且所述第二信号指示通过所述第二VAD模块在所述第二麦克风处语音信号是否已经被确定,所述处理装置进一步被配置成当所述第一信号指示潜在的语音活动或者所述第二信号指示潜在的语音活动时,激活并接收来自所述第一麦克风或所述第二麦克风的数据,并随后针对触发字检查所述数据,并且当发现所述触发字时,发送信号至应用处理器以进一步处理来自所述第一麦克风和所述第二麦克风中的一个或更多个的信息,所述处理装置进一步被配置成当没发现触发字时,传输第三信号至所述第一麦克风和所述第二麦克风,所述第三信号使得所述第一麦克风和所述第二麦克风进入或维持操作的事件检测模式。
12.根据权利要求11所述的系统,其中,所述第一VAD模块或者所述第二VAD模块执行触发短语识别。
13.根据权利要求11所述的系统,其中,所述第一VAD模块或者所述第二VAD模块执行命令识别。
14.根据权利要求10所述的系统,其中,所述处理装置通过改变提供到所述第一麦克风和所述第二麦克风的时钟的时钟频率来控制所述第一麦克风和所述第二麦克风。
15.一种检测微机电系统(MEMS)麦克风中的语音活动的方法,所述方法包括以下步骤:
接收来自源的声能量;
将所述声能量滤波到多个滤波带中;
针对所述多个滤波带中的每一个获得功率估计;
基于各个功率估计,确定是否检测到语音活动。
16.根据权利要求15所述的方法,其中,将所述声能量滤波到所述多个滤波带中的步骤利用一个或更多个低通滤波器、高通滤波器以及分频器。
17.根据权利要求15所述的方法,其中,所述功率估计包括上功率估计和下功率估计。
18.根据权利要求17所述的方法,其中,确定所述多个滤波带内的所述上功率估计和所述下功率估计之间的比率,并且将所述比率中所选择的比率与预先确定的阈值进行比较。
19.根据权利要求17所述的方法,其中,确定所述多个滤波带之间的所述上功率估计和所述下功率估计之间的比率,并且将所述比率中所选择的比率与预先确定的阈值进行比较。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201361896723P | 2013-10-29 | 2013-10-29 | |
US61/896,723 | 2013-10-29 | ||
PCT/US2014/062861 WO2015066152A1 (en) | 2013-10-29 | 2014-10-29 | Vad detection apparatus and method of operating the same |
Publications (1)
Publication Number | Publication Date |
---|---|
CN105830463A true CN105830463A (zh) | 2016-08-03 |
Family
ID=52996382
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201480068989.8A Pending CN105830463A (zh) | 2013-10-29 | 2014-10-29 | Vad检测设备和操作该vad检测设备的方法 |
Country Status (4)
Country | Link |
---|---|
US (2) | US9147397B2 (zh) |
CN (1) | CN105830463A (zh) |
DE (1) | DE112014004951T5 (zh) |
WO (1) | WO2015066152A1 (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109218879A (zh) * | 2017-07-06 | 2019-01-15 | Gn 奥迪欧有限公司 | 头戴式耳机、用于头戴式耳机的方法以及计算机可读介质 |
CN110390957A (zh) * | 2018-04-19 | 2019-10-29 | 半导体组件工业公司 | 用于语音检测的方法及设备 |
CN110600060A (zh) * | 2019-09-27 | 2019-12-20 | 云知声智能科技股份有限公司 | 一种硬件音频主动探测hvad系统 |
Families Citing this family (26)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20160010606A (ko) | 2013-05-23 | 2016-01-27 | 노우레스 일렉트로닉스, 엘엘시 | Vad 탐지 마이크로폰 및 그 마이크로폰을 동작시키는 방법 |
US9711166B2 (en) | 2013-05-23 | 2017-07-18 | Knowles Electronics, Llc | Decimation synchronization in a microphone |
US10020008B2 (en) | 2013-05-23 | 2018-07-10 | Knowles Electronics, Llc | Microphone and corresponding digital interface |
WO2015048254A1 (en) * | 2013-09-25 | 2015-04-02 | Robert Bosch Gmbh | Speech detection circuit and method |
US9502028B2 (en) | 2013-10-18 | 2016-11-22 | Knowles Electronics, Llc | Acoustic activity detection apparatus and method |
US9147397B2 (en) | 2013-10-29 | 2015-09-29 | Knowles Electronics, Llc | VAD detection apparatus and method of operating the same |
WO2016007528A1 (en) | 2014-07-10 | 2016-01-14 | Analog Devices Global | Low-complexity voice activity detection |
WO2016118480A1 (en) | 2015-01-21 | 2016-07-28 | Knowles Electronics, Llc | Low power voice trigger for acoustic apparatus and method |
US10121472B2 (en) | 2015-02-13 | 2018-11-06 | Knowles Electronics, Llc | Audio buffer catch-up apparatus and method with two microphones |
US9478234B1 (en) | 2015-07-13 | 2016-10-25 | Knowles Electronics, Llc | Microphone apparatus and method with catch-up buffer |
EP3185244B1 (en) * | 2015-12-22 | 2019-02-20 | Nxp B.V. | Voice activation system |
CN105609118B (zh) * | 2015-12-30 | 2020-02-07 | 生迪智慧科技有限公司 | 语音检测方法及装置 |
US10090005B2 (en) * | 2016-03-10 | 2018-10-02 | Aspinity, Inc. | Analog voice activity detection |
US10079027B2 (en) * | 2016-06-03 | 2018-09-18 | Nxp B.V. | Sound signal detector |
KR20180051189A (ko) * | 2016-11-08 | 2018-05-16 | 삼성전자주식회사 | 자동 음성 트리거 방법 및 이를 적용한 음향 분석기 |
US10319375B2 (en) | 2016-12-28 | 2019-06-11 | Amazon Technologies, Inc. | Audio message extraction |
US10311870B2 (en) | 2017-05-10 | 2019-06-04 | Ecobee Inc. | Computerized device with voice command input capability |
KR102371313B1 (ko) * | 2017-05-29 | 2022-03-08 | 삼성전자주식회사 | 사용자 발화를 처리하는 전자 장치 및 그 전자 장치의 제어 방법 |
KR102411766B1 (ko) * | 2017-08-25 | 2022-06-22 | 삼성전자주식회사 | 음성 인식 서비스를 활성화하는 방법 및 이를 구현한 전자 장치 |
US11562135B2 (en) | 2018-10-16 | 2023-01-24 | Oracle International Corporation | Constructing conclusive answers for autonomous agents |
CN109308900B (zh) * | 2018-10-29 | 2022-04-05 | 恒玄科技(上海)股份有限公司 | 耳机装置、语音处理系统和语音处理方法 |
US11637546B2 (en) * | 2018-12-14 | 2023-04-25 | Synaptics Incorporated | Pulse density modulation systems and methods |
WO2020131681A1 (en) * | 2018-12-18 | 2020-06-25 | Knowles Electronics, Llc | Audio level estimator assisted false wake abatement systems and methods |
US11321536B2 (en) * | 2019-02-13 | 2022-05-03 | Oracle International Corporation | Chatbot conducting a virtual social dialogue |
US11335361B2 (en) * | 2020-04-24 | 2022-05-17 | Universal Electronics Inc. | Method and apparatus for providing noise suppression to an intelligent personal assistant |
US11783809B2 (en) * | 2020-10-08 | 2023-10-10 | Qualcomm Incorporated | User voice activity detection using dynamic classifier |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5983186A (en) * | 1995-08-21 | 1999-11-09 | Seiko Epson Corporation | Voice-activated interactive speech recognition device and method |
US20090271190A1 (en) * | 2008-04-25 | 2009-10-29 | Nokia Corporation | Method and Apparatus for Voice Activity Determination |
US20110106533A1 (en) * | 2008-06-30 | 2011-05-05 | Dolby Laboratories Licensing Corporation | Multi-Microphone Voice Activity Detector |
CN102074245A (zh) * | 2011-01-05 | 2011-05-25 | 瑞声声学科技(深圳)有限公司 | 基于双麦克风语音增强装置及语音增强方法 |
Family Cites Families (180)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4052568A (en) * | 1976-04-23 | 1977-10-04 | Communications Satellite Corporation | Digital voice switch |
JP2770656B2 (ja) | 1992-05-11 | 1998-07-02 | ヤマハ株式会社 | 集積回路装置 |
US5577164A (en) * | 1994-01-28 | 1996-11-19 | Canon Kabushiki Kaisha | Incorrect voice command recognition prevention and recovery processing method and apparatus |
US5675808A (en) | 1994-11-02 | 1997-10-07 | Advanced Micro Devices, Inc. | Power control of circuit modules within an integrated circuit |
GB2296170A (en) | 1994-12-16 | 1996-06-19 | Ibm | Audio communication apparatus |
US6070140A (en) * | 1995-06-05 | 2000-05-30 | Tran; Bao Q. | Speech recognizer |
US5822598A (en) | 1996-07-12 | 1998-10-13 | Ast Research, Inc. | Audio activity detection circuit to increase battery life in portable computers |
US6665639B2 (en) | 1996-12-06 | 2003-12-16 | Sensory, Inc. | Speech recognition in consumer electronic products |
DE69831991T2 (de) | 1997-03-25 | 2006-07-27 | Koninklijke Philips Electronics N.V. | Verfahren und Vorrichtung zur Sprachdetektion |
US6778651B1 (en) | 1997-04-03 | 2004-08-17 | Southwestern Bell Telephone Company | Apparatus and method for facilitating service management of communications services in a communications network |
GB2325112B (en) | 1997-05-06 | 2002-07-31 | Ibm | Voice processing system |
GB2325110B (en) | 1997-05-06 | 2002-10-16 | Ibm | Voice processing system |
US6188986B1 (en) * | 1998-01-02 | 2001-02-13 | Vos Systems, Inc. | Voice activated switch method and apparatus |
US6057791A (en) | 1998-02-18 | 2000-05-02 | Oasis Design, Inc. | Apparatus and method for clocking digital and analog circuits on a common substrate to enhance digital operation and reduce analog sampling error |
US6138040A (en) * | 1998-07-31 | 2000-10-24 | Motorola, Inc. | Method for suppressing speaker activation in a portable communication device operated in a speakerphone mode |
AU2408500A (en) * | 1999-01-07 | 2000-07-24 | Tellabs Operations, Inc. | Method and apparatus for adaptively suppressing noise |
US6249757B1 (en) | 1999-02-16 | 2001-06-19 | 3Com Corporation | System for detecting voice activity |
US6397186B1 (en) | 1999-12-22 | 2002-05-28 | Ambush Interactive, Inc. | Hands-free, voice-operated remote control transmitter |
US6564330B1 (en) | 1999-12-23 | 2003-05-13 | Intel Corporation | Wakeup circuit for computer system that enables codec controller to generate system interrupt in response to detection of a wake event by a codec |
JP4574780B2 (ja) | 2000-02-23 | 2010-11-04 | オリンパス株式会社 | 音声記録装置 |
US6529868B1 (en) * | 2000-03-28 | 2003-03-04 | Tellabs Operations, Inc. | Communication system noise cancellation power signal calculation techniques |
US20020116186A1 (en) | 2000-09-09 | 2002-08-22 | Adam Strauss | Voice activity detector for integrated telecommunications processing |
US6640208B1 (en) | 2000-09-12 | 2003-10-28 | Motorola, Inc. | Voiced/unvoiced speech classifier |
US6928076B2 (en) | 2000-09-22 | 2005-08-09 | Intel Corporation | System and method for controlling signal processing in a voice over packet (VoP) environment |
US6832194B1 (en) | 2000-10-26 | 2004-12-14 | Sensory, Incorporated | Audio recognition peripheral system |
US20030004720A1 (en) | 2001-01-30 | 2003-01-02 | Harinath Garudadri | System and method for computing and transmitting parameters in a distributed voice recognition system |
US6934682B2 (en) | 2001-03-01 | 2005-08-23 | International Business Machines Corporation | Processing speech recognition errors in an embedded speech recognition system |
US7941313B2 (en) | 2001-05-17 | 2011-05-10 | Qualcomm Incorporated | System and method for transmitting speech activity information ahead of speech features in a distributed voice recognition system |
US7031916B2 (en) | 2001-06-01 | 2006-04-18 | Texas Instruments Incorporated | Method for converging a G.729 Annex B compliant voice activity detection circuit |
US20020194003A1 (en) | 2001-06-05 | 2002-12-19 | Mozer Todd F. | Client-server security system and method |
DE10160830A1 (de) | 2001-12-11 | 2003-06-26 | Infineon Technologies Ag | Mikromechanische Sensoren und Verfahren zur Herstellung derselben |
US7219062B2 (en) | 2002-01-30 | 2007-05-15 | Koninklijke Philips Electronics N.V. | Speech activity detection using acoustic and facial characteristics in an automatic speech recognition system |
US6756700B2 (en) | 2002-03-13 | 2004-06-29 | Kye Systems Corp. | Sound-activated wake-up device for electronic input devices having a sleep-mode |
US8073157B2 (en) | 2003-08-27 | 2011-12-06 | Sony Computer Entertainment Inc. | Methods and apparatus for targeted sound detection and characterization |
JP2004219728A (ja) | 2003-01-15 | 2004-08-05 | Matsushita Electric Ind Co Ltd | 音声認識装置 |
US6990194B2 (en) * | 2003-05-19 | 2006-01-24 | Acoustic Technology, Inc. | Dynamic balance control for telephone |
US20040234067A1 (en) * | 2003-05-19 | 2004-11-25 | Acoustic Technologies, Inc. | Distributed VAD control system for telephone |
US7720683B1 (en) | 2003-06-13 | 2010-05-18 | Sensory, Inc. | Method and apparatus of specifying and performing speech recognition operations |
US7099821B2 (en) | 2003-09-12 | 2006-08-29 | Softmax, Inc. | Separation of target acoustic signals in a multi-transducer arrangement |
GB2405949A (en) | 2003-09-12 | 2005-03-16 | Canon Kk | Voice activated device with periodicity determination |
US7418392B1 (en) | 2003-09-25 | 2008-08-26 | Sensory, Inc. | System and method for controlling the operation of a device by voice commands |
WO2005009072A2 (en) | 2003-11-24 | 2005-01-27 | Sonion A/S | Microphone comprising integral multi-level quantizer and single-bit conversion means |
DE102004011149B3 (de) | 2004-03-08 | 2005-11-10 | Infineon Technologies Ag | Mikrophon und Verfahren zur Herstellung eines Mikrophons |
EP1728171A2 (en) | 2004-03-26 | 2006-12-06 | Atmel Corporation | Dual-processor complex domain floating-point dsp system on chip |
GB0408856D0 (en) * | 2004-04-21 | 2004-05-26 | Nokia Corp | Signal encoding |
US20060074658A1 (en) | 2004-10-01 | 2006-04-06 | Siemens Information And Communication Mobile, Llc | Systems and methods for hands-free voice-activated devices |
US7268006B2 (en) | 2004-12-30 | 2007-09-11 | E.I. Du Pont De Nemours And Company | Electronic device including a guest material within a layer and a process for forming the same |
US7795695B2 (en) | 2005-01-27 | 2010-09-14 | Analog Devices, Inc. | Integrated microphone |
DE102005008511B4 (de) | 2005-02-24 | 2019-09-12 | Tdk Corporation | MEMS-Mikrofon |
US7825484B2 (en) | 2005-04-25 | 2010-11-02 | Analog Devices, Inc. | Micromachined microphone and multisensor and method for producing same |
US8024195B2 (en) | 2005-06-27 | 2011-09-20 | Sensory, Inc. | Systems and methods of performing speech recognition using historical information |
SG130158A1 (en) | 2005-08-20 | 2007-03-20 | Bse Co Ltd | Silicon based condenser microphone and packaging method for the same |
DE102005053767B4 (de) | 2005-11-10 | 2014-10-30 | Epcos Ag | MEMS-Mikrofon, Verfahren zur Herstellung und Verfahren zum Einbau |
DE102005053765B4 (de) | 2005-11-10 | 2016-04-14 | Epcos Ag | MEMS-Package und Verfahren zur Herstellung |
US7856283B2 (en) | 2005-12-13 | 2010-12-21 | Sigmatel, Inc. | Digital microphone interface, audio codec and methods for use therewith |
JP4816409B2 (ja) | 2006-01-10 | 2011-11-16 | 日産自動車株式会社 | 認識辞書システムおよびその更新方法 |
US7903825B1 (en) | 2006-03-03 | 2011-03-08 | Cirrus Logic, Inc. | Personal audio playback device having gain control responsive to environmental sounds |
GB0605576D0 (en) | 2006-03-20 | 2006-04-26 | Oligon Ltd | MEMS device |
KR100722686B1 (ko) | 2006-05-09 | 2007-05-30 | 주식회사 비에스이 | 부가적인 백 챔버를 갖고 기판에 음향홀이 형성된 실리콘콘덴서 마이크로폰 |
US8849231B1 (en) | 2007-08-08 | 2014-09-30 | Audience, Inc. | System and method for adaptive power control |
US7774202B2 (en) * | 2006-06-12 | 2010-08-10 | Lockheed Martin Corporation | Speech activated control system and related methods |
US7957972B2 (en) | 2006-09-05 | 2011-06-07 | Fortemedia, Inc. | Voice recognition system and method thereof |
EP2082609A2 (en) | 2006-10-11 | 2009-07-29 | Analog Devices, Inc. | Microphone microchip device with differential mode noise suppression |
TW200847827A (en) | 2006-11-30 | 2008-12-01 | Analog Devices Inc | Microphone system with silicon microphone secured to package lid |
TWI327357B (en) | 2007-01-10 | 2010-07-11 | Advanced Semiconductor Eng | Mems microphone package and method thereof |
US7801729B2 (en) | 2007-03-13 | 2010-09-21 | Sensory, Inc. | Using multiple attributes to create a voice search playlist |
GB2447985B (en) | 2007-03-30 | 2011-12-28 | Wolfson Microelectronics Plc | Pattern detection circuitry |
US8645143B2 (en) | 2007-05-01 | 2014-02-04 | Sensory, Inc. | Systems and methods of performing speech recognition using global positioning (GPS) information |
TWI323242B (en) | 2007-05-15 | 2010-04-11 | Ind Tech Res Inst | Package and packageing assembly of microelectromechanical system microphone |
US8321213B2 (en) | 2007-05-25 | 2012-11-27 | Aliphcom, Inc. | Acoustic voice activity detection (AVAD) for electronic systems |
US8503686B2 (en) * | 2007-05-25 | 2013-08-06 | Aliphcom | Vibration sensor and acoustic voice activity detection system (VADS) for use with electronic systems |
WO2009045861A1 (en) | 2007-10-05 | 2009-04-09 | Sensory, Incorporated | Systems and methods of performing speech recognition using gestures |
US8036901B2 (en) | 2007-10-05 | 2011-10-11 | Sensory, Incorporated | Systems and methods of performing speech recognition using sensory inputs of human position |
US8208621B1 (en) | 2007-10-12 | 2012-06-26 | Mediatek Inc. | Systems and methods for acoustic echo cancellation |
US8112280B2 (en) | 2007-11-19 | 2012-02-07 | Sensory, Inc. | Systems and methods of performing speech recognition with barge-in for use in a bluetooth system |
TWM341025U (en) | 2008-01-10 | 2008-09-21 | Lingsen Precision Ind Ltd | Micro electro-mechanical microphone package structure |
US8099289B2 (en) | 2008-02-13 | 2012-01-17 | Sensory, Inc. | Voice interface and search for electronic devices including bluetooth headsets and remote systems |
US7994947B1 (en) | 2008-06-06 | 2011-08-09 | Maxim Integrated Products, Inc. | Method and apparatus for generating a target frequency having an over-sampled data rate using a system clock having a different frequency |
US8171322B2 (en) | 2008-06-06 | 2012-05-01 | Apple Inc. | Portable electronic devices with power management capabilities |
JP4890503B2 (ja) | 2008-06-17 | 2012-03-07 | 旭化成エレクトロニクス株式会社 | デルタシグマ変調器 |
US9378751B2 (en) | 2008-06-19 | 2016-06-28 | Broadcom Corporation | Method and system for digital gain processing in a hardware audio CODEC for audio transmission |
US7619551B1 (en) | 2008-07-29 | 2009-11-17 | Fortemedia, Inc. | Audio codec, digital device and voice processing method |
US8798289B1 (en) | 2008-08-05 | 2014-08-05 | Audience, Inc. | Adaptive power saving for an audio device |
US8193596B2 (en) | 2008-09-03 | 2012-06-05 | Solid State System Co., Ltd. | Micro-electro-mechanical systems (MEMS) package |
US8412866B2 (en) | 2008-11-24 | 2013-04-02 | Via Technologies, Inc. | System and method of dynamically switching queue threshold |
US8351634B2 (en) | 2008-11-26 | 2013-01-08 | Analog Devices, Inc. | Side-ported MEMS microphone assembly |
US8442824B2 (en) | 2008-11-26 | 2013-05-14 | Nuance Communications, Inc. | Device, system, and method of liveness detection utilizing voice biometrics |
US20120010890A1 (en) | 2008-12-30 | 2012-01-12 | Raymond Clement Koverzin | Power-optimized wireless communications device |
US8325951B2 (en) | 2009-01-20 | 2012-12-04 | General Mems Corporation | Miniature MEMS condenser microphone packages and fabrication method thereof |
US8472648B2 (en) | 2009-01-20 | 2013-06-25 | General Mems Corporation | Miniature MEMS condenser microphone package and fabrication method thereof |
CN201438743U (zh) | 2009-05-15 | 2010-04-14 | 瑞声声学科技(常州)有限公司 | 麦克风 |
JP4809454B2 (ja) | 2009-05-17 | 2011-11-09 | 株式会社半導体理工学研究センター | 発話推定による回路起動方法及び回路起動装置 |
US9071214B2 (en) | 2009-06-11 | 2015-06-30 | Invensense, Inc. | Audio signal controller |
CN101651917A (zh) | 2009-06-19 | 2010-02-17 | 瑞声声学科技(深圳)有限公司 | 电容麦克风 |
CN101651913A (zh) | 2009-06-19 | 2010-02-17 | 瑞声声学科技(深圳)有限公司 | 麦克风 |
US8700399B2 (en) | 2009-07-06 | 2014-04-15 | Sensory, Inc. | Systems and methods for hands-free voice control and voice search |
US8737636B2 (en) | 2009-07-10 | 2014-05-27 | Qualcomm Incorporated | Systems, methods, apparatus, and computer-readable media for adaptive active noise cancellation |
CN101959106A (zh) | 2009-07-16 | 2011-01-26 | 鸿富锦精密工业(深圳)有限公司 | 微机电系统麦克风的封装结构及其封装方法 |
US8275148B2 (en) | 2009-07-28 | 2012-09-25 | Fortemedia, Inc. | Audio processing apparatus and method |
US8687823B2 (en) | 2009-09-16 | 2014-04-01 | Knowles Electronics, Llc. | Microphone interface and method of operation |
US8731210B2 (en) | 2009-09-21 | 2014-05-20 | Mediatek Inc. | Audio processing methods and apparatuses utilizing the same |
CN101765047A (zh) | 2009-09-28 | 2010-06-30 | 瑞声声学科技(深圳)有限公司 | 电容麦克风及其制作方法 |
US8626498B2 (en) | 2010-02-24 | 2014-01-07 | Qualcomm Incorporated | Voice activity detection based on plural voice activity detectors |
KR20140026229A (ko) * | 2010-04-22 | 2014-03-05 | 퀄컴 인코포레이티드 | 음성 액티비티 검출 |
US8391105B2 (en) | 2010-05-13 | 2013-03-05 | Maxim Integrated Products, Inc. | Synchronization of a generated clock |
US20120052907A1 (en) | 2010-08-30 | 2012-03-01 | Sensory, Incorporated | Hands-Free, Eyes-Free Mobile Device for In-Car Use |
US8645132B2 (en) | 2011-08-24 | 2014-02-04 | Sensory, Inc. | Truly handsfree speech recognition in high noise environments |
US20130226324A1 (en) | 2010-09-27 | 2013-08-29 | Nokia Corporation | Audio scene apparatuses and methods |
WO2012083552A1 (en) * | 2010-12-24 | 2012-06-28 | Huawei Technologies Co., Ltd. | Method and apparatus for voice activity detection |
US20120250881A1 (en) | 2011-03-29 | 2012-10-04 | Mulligan Daniel P | Microphone biasing |
US20130058506A1 (en) | 2011-07-12 | 2013-03-07 | Steven E. Boor | Microphone Buffer Circuit With Input Filter |
CN110944269A (zh) | 2011-08-18 | 2020-03-31 | 美商楼氏电子有限公司 | 用于mems装置的灵敏度调整装置和方法 |
US8781825B2 (en) | 2011-08-24 | 2014-07-15 | Sensory, Incorporated | Reducing false positives in speech recognition systems |
US9059630B2 (en) | 2011-08-31 | 2015-06-16 | Knowles Electronics, Llc | High voltage multiplier for a microphone and method of manufacture |
US8768707B2 (en) | 2011-09-27 | 2014-07-01 | Sensory Incorporated | Background speech recognition assistant using speaker verification |
US8996381B2 (en) | 2011-09-27 | 2015-03-31 | Sensory, Incorporated | Background speech recognition assistant |
US8452597B2 (en) | 2011-09-30 | 2013-05-28 | Google Inc. | Systems and methods for continual speech recognition and detection in mobile computing devices |
US8666751B2 (en) | 2011-11-17 | 2014-03-04 | Microsoft Corporation | Audio pattern matching for device activation |
US9633654B2 (en) | 2011-12-06 | 2017-04-25 | Intel Corporation | Low power voice detection |
US8825020B2 (en) | 2012-01-12 | 2014-09-02 | Sensory, Incorporated | Information access and device control using mobile phones and audio in the home environment |
CN103209379B (zh) | 2012-01-16 | 2015-09-02 | 上海耐普微电子有限公司 | 一种单线可编程的mems麦克风及其编程方法和系统 |
US9838810B2 (en) | 2012-02-27 | 2017-12-05 | Qualcomm Technologies International, Ltd. | Low power audio detection |
EP2639793B1 (en) * | 2012-03-15 | 2016-04-20 | Samsung Electronics Co., Ltd | Electronic device and method for controlling power using voice recognition |
US20150046157A1 (en) | 2012-03-16 | 2015-02-12 | Nuance Communications, Inc. | User Dedicated Automatic Speech Recognition |
US9479275B2 (en) | 2012-06-01 | 2016-10-25 | Blackberry Limited | Multiformat digital audio interface |
US9142215B2 (en) | 2012-06-15 | 2015-09-22 | Cypress Semiconductor Corporation | Power-efficient voice activation |
US9185501B2 (en) | 2012-06-20 | 2015-11-10 | Broadcom Corporation | Container-located information transfer module |
TWI474317B (zh) | 2012-07-06 | 2015-02-21 | Realtek Semiconductor Corp | 訊號處理裝置以及訊號處理方法 |
WO2014018004A1 (en) | 2012-07-24 | 2014-01-30 | Nuance Communications, Inc. | Feature normalization inputs to front end processing for automatic speech recognition |
US9214911B2 (en) | 2012-08-30 | 2015-12-15 | Infineon Technologies Ag | System and method for adjusting the sensitivity of a capacitive signal source |
US20140122078A1 (en) | 2012-11-01 | 2014-05-01 | 3iLogic-Designs Private Limited | Low Power Mechanism for Keyword Based Hands-Free Wake Up in Always ON-Domain |
US9093069B2 (en) | 2012-11-05 | 2015-07-28 | Nuance Communications, Inc. | Privacy-sensitive speech model creation via aggregation of multiple user models |
WO2014081711A1 (en) | 2012-11-20 | 2014-05-30 | Utility Associates, Inc | System and method for securely distributing legal evidence |
US9704486B2 (en) | 2012-12-11 | 2017-07-11 | Amazon Technologies, Inc. | Speech recognition power management |
WO2014100184A1 (en) | 2012-12-19 | 2014-06-26 | Knowles Electronics, Llc | Apparatus and method for high voltage i/o electro-static discharge protection |
US9653070B2 (en) | 2012-12-31 | 2017-05-16 | Intel Corporation | Flexible architecture for acoustic signal processing engine |
DE112014000440T5 (de) | 2013-01-15 | 2015-10-15 | Knowles Electronics, Llc | Teleskopischer Operationsverstärker mit Anstiegsratensteuerung |
EP2962403A4 (en) | 2013-02-27 | 2016-11-16 | Knowles Electronics Llc | LANGUAGE-CONTROLLED COMMUNICATION CONNECTIONS |
US10395651B2 (en) | 2013-02-28 | 2019-08-27 | Sony Corporation | Device and method for activating with voice input |
US9691382B2 (en) | 2013-03-01 | 2017-06-27 | Mediatek Inc. | Voice control device and method for deciding response of voice control according to recognized speech command and detection output derived from processing sensor data |
US9349386B2 (en) | 2013-03-07 | 2016-05-24 | Analog Device Global | System and method for processor wake-up based on sensor data |
US9542933B2 (en) | 2013-03-08 | 2017-01-10 | Analog Devices Global | Microphone circuit assembly and system with speech recognition |
US9361885B2 (en) * | 2013-03-12 | 2016-06-07 | Nuance Communications, Inc. | Methods and apparatus for detecting a voice command |
US9112984B2 (en) | 2013-03-12 | 2015-08-18 | Nuance Communications, Inc. | Methods and apparatus for detecting a voice command |
US11393461B2 (en) | 2013-03-12 | 2022-07-19 | Cerence Operating Company | Methods and apparatus for detecting a voice command |
US9703350B2 (en) | 2013-03-15 | 2017-07-11 | Maxim Integrated Products, Inc. | Always-on low-power keyword spotting |
US9769576B2 (en) * | 2013-04-09 | 2017-09-19 | Sonova Ag | Method and system for providing hearing assistance to a user |
US10593326B2 (en) | 2013-04-25 | 2020-03-17 | Sensory, Incorporated | System, method, and apparatus for location-based context driven speech recognition |
EP2801974A3 (en) | 2013-05-09 | 2015-02-18 | DSP Group Ltd. | Low power activation of a voice activated device |
US20140343949A1 (en) | 2013-05-17 | 2014-11-20 | Fortemedia, Inc. | Smart microphone device |
US9711166B2 (en) | 2013-05-23 | 2017-07-18 | Knowles Electronics, Llc | Decimation synchronization in a microphone |
US10020008B2 (en) | 2013-05-23 | 2018-07-10 | Knowles Electronics, Llc | Microphone and corresponding digital interface |
US9111548B2 (en) | 2013-05-23 | 2015-08-18 | Knowles Electronics, Llc | Synchronization of buffered data in multiple microphones |
US10028054B2 (en) | 2013-10-21 | 2018-07-17 | Knowles Electronics, Llc | Apparatus and method for frequency detection |
KR20160010606A (ko) | 2013-05-23 | 2016-01-27 | 노우레스 일렉트로닉스, 엘엘시 | Vad 탐지 마이크로폰 및 그 마이크로폰을 동작시키는 방법 |
CN104185099A (zh) | 2013-05-28 | 2014-12-03 | 上海耐普微电子有限公司 | 微机械麦克风及包含所述微机械麦克风的电子设备 |
US20140358552A1 (en) | 2013-05-31 | 2014-12-04 | Cirrus Logic, Inc. | Low-power voice gate for device wake-up |
US9697831B2 (en) | 2013-06-26 | 2017-07-04 | Cirrus Logic, Inc. | Speech recognition |
CN104378723A (zh) | 2013-08-16 | 2015-02-25 | 上海耐普微电子有限公司 | 具有语音唤醒功能的麦克风 |
US9386370B2 (en) | 2013-09-04 | 2016-07-05 | Knowles Electronics, Llc | Slew rate control apparatus for digital microphones |
US9685173B2 (en) | 2013-09-06 | 2017-06-20 | Nuance Communications, Inc. | Method for non-intrusive acoustic parameter estimation |
US9870784B2 (en) | 2013-09-06 | 2018-01-16 | Nuance Communications, Inc. | Method for voicemail quality detection |
CN104700832B (zh) | 2013-12-09 | 2018-05-25 | 联发科技股份有限公司 | 语音关键字检测系统及方法 |
US9848260B2 (en) | 2013-09-24 | 2017-12-19 | Nuance Communications, Inc. | Wearable communication enhancement device |
US9245527B2 (en) | 2013-10-11 | 2016-01-26 | Apple Inc. | Speech recognition wake-up of a handheld portable electronic device |
US9502028B2 (en) | 2013-10-18 | 2016-11-22 | Knowles Electronics, Llc | Acoustic activity detection apparatus and method |
US20150112690A1 (en) | 2013-10-22 | 2015-04-23 | Nvidia Corporation | Low power always-on voice trigger architecture |
US9147397B2 (en) | 2013-10-29 | 2015-09-29 | Knowles Electronics, Llc | VAD detection apparatus and method of operating the same |
US10079019B2 (en) | 2013-11-12 | 2018-09-18 | Apple Inc. | Always-on audio control for mobile device |
EP2876900A1 (en) * | 2013-11-25 | 2015-05-27 | Oticon A/S | Spatial filter bank for hearing system |
US9997172B2 (en) | 2013-12-02 | 2018-06-12 | Nuance Communications, Inc. | Voice activity detection (VAD) for a coded speech bitstream without decoding |
CN104768112A (zh) | 2014-01-03 | 2015-07-08 | 钰太芯微电子科技(上海)有限公司 | 一种新型麦克风结构 |
US20150256916A1 (en) | 2014-03-04 | 2015-09-10 | Knowles Electronics, Llc | Programmable Acoustic Device And Method For Programming The Same |
US9369557B2 (en) | 2014-03-05 | 2016-06-14 | Cirrus Logic, Inc. | Frequency-dependent sidetone calibration |
US20160012007A1 (en) | 2014-03-06 | 2016-01-14 | Knowles Electronics, Llc | Digital Microphone Interface |
US10237412B2 (en) | 2014-04-18 | 2019-03-19 | Nuance Communications, Inc. | System and method for audio conferencing |
US9979769B2 (en) | 2014-04-18 | 2018-05-22 | Nuance Communications, Inc. | System and method for audio conferencing |
US9831844B2 (en) | 2014-09-19 | 2017-11-28 | Knowles Electronics, Llc | Digital microphone with adjustable gain control |
US20160133271A1 (en) | 2014-11-11 | 2016-05-12 | Knowles Electronic, Llc | Microphone With Electronic Noise Filter |
US20160134975A1 (en) | 2014-11-12 | 2016-05-12 | Knowles Electronics, Llc | Microphone With Trimming |
-
2014
- 2014-10-28 US US14/525,413 patent/US9147397B2/en not_active Expired - Fee Related
- 2014-10-29 CN CN201480068989.8A patent/CN105830463A/zh active Pending
- 2014-10-29 DE DE112014004951.4T patent/DE112014004951T5/de not_active Withdrawn
- 2014-10-29 WO PCT/US2014/062861 patent/WO2015066152A1/en active Application Filing
-
2015
- 2015-09-22 US US14/861,113 patent/US9830913B2/en active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5983186A (en) * | 1995-08-21 | 1999-11-09 | Seiko Epson Corporation | Voice-activated interactive speech recognition device and method |
US20090271190A1 (en) * | 2008-04-25 | 2009-10-29 | Nokia Corporation | Method and Apparatus for Voice Activity Determination |
US20110106533A1 (en) * | 2008-06-30 | 2011-05-05 | Dolby Laboratories Licensing Corporation | Multi-Microphone Voice Activity Detector |
CN102074245A (zh) * | 2011-01-05 | 2011-05-25 | 瑞声声学科技(深圳)有限公司 | 基于双麦克风语音增强装置及语音增强方法 |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109218879A (zh) * | 2017-07-06 | 2019-01-15 | Gn 奥迪欧有限公司 | 头戴式耳机、用于头戴式耳机的方法以及计算机可读介质 |
CN109218879B (zh) * | 2017-07-06 | 2021-11-05 | Gn 奥迪欧有限公司 | 头戴式耳机、用于头戴式耳机的方法以及计算机可读介质 |
CN110390957A (zh) * | 2018-04-19 | 2019-10-29 | 半导体组件工业公司 | 用于语音检测的方法及设备 |
CN110600060A (zh) * | 2019-09-27 | 2019-12-20 | 云知声智能科技股份有限公司 | 一种硬件音频主动探测hvad系统 |
CN110600060B (zh) * | 2019-09-27 | 2021-10-22 | 云知声智能科技股份有限公司 | 一种硬件音频主动探测hvad系统 |
Also Published As
Publication number | Publication date |
---|---|
US9830913B2 (en) | 2017-11-28 |
US20150120299A1 (en) | 2015-04-30 |
WO2015066152A1 (en) | 2015-05-07 |
US9147397B2 (en) | 2015-09-29 |
US20160064001A1 (en) | 2016-03-03 |
DE112014004951T5 (de) | 2016-07-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105830463A (zh) | Vad检测设备和操作该vad检测设备的方法 | |
US10964339B2 (en) | Low-complexity voice activity detection | |
US8745250B2 (en) | Multimodal proximity detection | |
Vafeiadis et al. | Audio content analysis for unobtrusive event detection in smart homes | |
Lu et al. | Speakersense: Energy efficient unobtrusive speaker identification on mobile phones | |
US7415416B2 (en) | Voice activated device | |
EP3040991B1 (en) | Voice activation detection method and device | |
KR100930060B1 (ko) | 신호 검출 방법, 장치 및 그 방법을 실행하는 프로그램이기록된 기록매체 | |
KR20150121038A (ko) | 음성 제어식 통신 커넥션 | |
CN103026407A (zh) | 带宽扩展器 | |
CN106033669B (zh) | 语音识别方法及装置 | |
KR101060183B1 (ko) | 임베디드 청각 시스템 및 음성 신호 처리 방법 | |
EP2845190B1 (en) | Processing apparatus, processing method, program, computer readable information recording medium and processing system | |
KR100930061B1 (ko) | 신호 검출 방법 및 장치 | |
CN115699174A (zh) | 上下文感知的基于硬件的语音活动检测 | |
JP2005189518A (ja) | 有音無音判定装置および有音無音判定方法 | |
WO2018001125A1 (zh) | 一种音频识别方法和装置 | |
Valero et al. | Classification of audio scenes using narrow-band autocorrelation features | |
CN106340310A (zh) | 语音检测方法及装置 | |
Amraoui et al. | A Novel Approach on Speaker Gender Identification and Verification Using DWT First Level Energy and Zero Crossing | |
Cui et al. | Evaluation of noise robust features on the Aurora databases. | |
CN110431625B (zh) | 语音检测方法、语音检测装置、语音处理芯片以及电子设备 | |
TW200411629A (en) | Method and system for determining reliable speech recognition coefficients in noisy environment | |
Nishimura et al. | Low cost speech detection using Haar-like filtering for sensornet | |
Sun et al. | A robust feature extraction approach based on an auditory model for classification of speech and expressiveness |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20160803 |