CN103959376B - 低功率语音检测 - Google Patents
低功率语音检测 Download PDFInfo
- Publication number
- CN103959376B CN103959376B CN201180075351.3A CN201180075351A CN103959376B CN 103959376 B CN103959376 B CN 103959376B CN 201180075351 A CN201180075351 A CN 201180075351A CN 103959376 B CN103959376 B CN 103959376B
- Authority
- CN
- China
- Prior art keywords
- voltage
- clock frequency
- audio signal
- fft
- buffer
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000001514 detection method Methods 0.000 title claims description 36
- 230000005236 sound signal Effects 0.000 claims abstract description 70
- 230000002708 enhancing effect Effects 0.000 claims abstract description 30
- 238000000034 method Methods 0.000 claims abstract description 23
- 230000001629 suppression Effects 0.000 claims description 26
- 238000001914 filtration Methods 0.000 claims description 22
- 238000009432 framing Methods 0.000 claims description 7
- 238000003860 storage Methods 0.000 claims description 7
- 230000009466 transformation Effects 0.000 claims description 5
- 238000007781 pre-processing Methods 0.000 claims description 4
- 230000006399 behavior Effects 0.000 claims description 3
- 230000005611 electricity Effects 0.000 claims description 3
- 238000000605 extraction Methods 0.000 claims description 3
- 238000006243 chemical reaction Methods 0.000 claims 2
- 230000003139 buffering effect Effects 0.000 claims 1
- 238000005516 engineering process Methods 0.000 abstract description 13
- 238000010586 diagram Methods 0.000 description 15
- 230000000694 effects Effects 0.000 description 12
- 230000006870 function Effects 0.000 description 8
- 230000004048 modification Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 238000000354 decomposition reaction Methods 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 238000000465 moulding Methods 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 241000406668 Loxodonta cyclotis Species 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 210000001367 artery Anatomy 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000001010 compromised effect Effects 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 239000004020 conductor Substances 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000000151 deposition Methods 0.000 description 1
- 230000005662 electromechanics Effects 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 239000012530 fluid Substances 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000002156 mixing Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000001259 photo etching Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000011664 signaling Effects 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 210000003462 vein Anatomy 0.000 description 1
- 239000011800 void material Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/20—Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L25/84—Detection of presence or absence of voice signals for discriminating voice from noise
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/14—Fourier, Walsh or analogous domain transformations, e.g. Laplace, Hilbert, Karhunen-Loeve, transforms
- G06F17/141—Discrete Fourier transforms
- G06F17/142—Fast Fourier transforms, e.g. using a Cooley-Tukey type algorithm
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F1/00—Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
- G06F1/26—Power supply means, e.g. regulation thereof
- G06F1/32—Means for saving power
- G06F1/3203—Power management, i.e. event-based initiation of a power-saving mode
- G06F1/3234—Power saving characterised by the action undertaken
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/285—Memory allocation or algorithm optimisation to reduce hardware requirements
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L2021/02087—Noise filtering the noise being separate speech, e.g. cocktail party
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L21/0232—Processing in the frequency domain
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Human Computer Interaction (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Signal Processing (AREA)
- Mathematical Optimization (AREA)
- Data Mining & Analysis (AREA)
- Computational Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Mathematical Analysis (AREA)
- Pure & Applied Mathematics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Algebra (AREA)
- Databases & Information Systems (AREA)
- Software Systems (AREA)
- General Engineering & Computer Science (AREA)
- Discrete Mathematics (AREA)
- Quality & Reliability (AREA)
- Telephone Function (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
允许具有最小功耗的语音处理的方法包含以第一时钟频率和第一电压记录时域音频信号,并且以第二时钟频率对时域音频信号执行快速傅里叶变换(FFT)操作来生成频域音频信号。可通过一个或多个滤波和增强技术来增强频域音频信号而获取更佳信噪比。增强的音频信号可用于生成总信号能量并且估计背景噪声能量。决策逻辑可从信号能量和背景噪声来确定人语音的存在或不存在。第一时钟频率可不同于第二时钟频率。
Description
背景
技术领域
实施例通常涉及音频处理。更特别地,实施例涉及语音识别。
讨论
语音命令和连续的言语识别对于移动计算系统而言因为有限的键盘功能性而可能是重要的。然而,持续地监听环境中的潜在语音的功率成本可能太高以使得在系统可以开始监听之前大多数系统要求来自用户的输入。此方式会不便并且会限制许多潜在应用的实用性。
附图说明
通过阅读下文的说明书和所附权利要求,并且通过参考以下的图,本发明的实施例的各种优势将对于本领域的技术人员而变得明显,图中:
图1是图示言语识别系统的实施例的示例的框图;
图2是图示根据实施例的与音频信号有关的示例能量和帧的图表;
图3是表示噪声抑制的示例实施例的框图。
图4是图示与人语音检测操作关联的示例错误接受率和错误拒绝率的图表;
图5是语音活动检测模块的硬件架构实施例的示例;
图6是图示根据实施例的示例512点快速傅里叶变换的框图;
图7是图示根据实施例的快速傅里叶变换模块的示例硬件实现的框图;
图8是图示根据实施例的乘法和滤波模块的示例硬件实现的图;以及
图9是处理音频信号来检测人语音的示例方法的流程图。
具体实施方式
实施例可包括设备,它包含用于在存储器中存储时域中的音频信号的逻辑,其配置为基于第一时钟频率和第一电压来操作,并且基于第二时钟频率和第二电压对时域中的音频信号执行快速傅里叶变换(FFT)操作来生成频域中的音频信号。
实施例可包括计算机实现的方法,其包含以第一时钟频率和第一电压记录时域音频信号。该方法还包含以第二时钟频率对时域音频信号执行快速傅里叶变换(FFT)操作来生成频域音频信号。第一时钟频率可比第二时钟频率快。
实施例可包含计算机可读存储介质,具有一组指令,当处理器执行该组指令时,使计算机:以第一时钟频率和第一电压记录时域音频信号,以及以第二时钟频率对时域音频信号执行快速傅里叶变换(FFT)操作来生成频域音频信号。第一时钟频率可比第二时钟频率快。
转到图1,示出了图示言语识别系统100的实施例的框图。该系统可包含预处理模块101(配置为捕获音频信号)、前端处理模块102(配置为处理音频信号并且检测可包含在音频信号中的任何人语音信息)、以及后端处理模块103(配置为分析人语音信息并且执行与人语音信息关联的操作)。可注意到,音频信号可包含背景噪声和人语音信息。
预处理模块101可包含记录器105(例如,麦克风),它可用于将音频信号捕获为脉冲密度调制(PDM)信息流。PDM流可包含时域中的采用数字格式的音频信号。预处理模块101可包含PDM到脉冲编码调制(PCM)转换器110,它配置为接收PDM信息流并且生成PCM信息流。PCM信息流可被视为PDM信息流的数字表示。PCM信息流包含未编码的或原始信息。对于一些实施例,PCM数据流可以被直接接收。例如,记录器105可包含整合特征以使它生成PCM信息流。
前端处理模块102(也被称作语音活动检测或VAD模块)可包含分帧和加窗模块115,配置为分帧并且加窗从PDM-PCM转换器110接收的PCM信息流。分帧和加窗模块115可基于采样率和帧大小来将PCM信息流分帧并且加窗成多个帧(在图2中图示)。例如,采样率可设置为16kHz,并且帧大小可设置为32ms(毫秒)。取决于实现,可使用不同的采样率和不同的帧大小。对于一些实施例,帧可彼此重叠,并具有非重叠窗口。例如,两个连续帧(每个具有32ms的帧大小)可彼此重叠22ms(具有10ms的非重叠窗口)。使用16kHz采样率和32ms帧大小的示例,每个帧的采样数可以为16×32=512。
FFT模块120可配置为接收PCM信息流的帧并且执行那些帧的从它们的时域表示到频域表示的必要变换。音频信号的频域表示可指示在频率范围上在每个给定频带内的能量或信号电平(在图2中图示)。在FFT模块120执行变换操作之后,噪声估计和抑制模块125可分析频域表示中的每个帧,并且滤出可与人语音信息不在相同频带内的任何噪声信息。对于一些实施例,噪声估计和抑制模块125可实现为可编程带通滤波器。一般而言,人语音可落入近似在20Hz与7KHz之间的频带(本文称作人语音频带)。噪声估计和抑制模块125可配置为检测可落在人语音频带之外的任何能量或信号电平,并且将该能量作为带外能量抑制。
人语音与背景噪声的统计性质之间可能有差别。对于一些实施例,噪声估计和抑制模块125可基于人语音趋于短脉冲后跟着可图示为高幅度能量(其后跟着低幅度能量)的短脉冲的间歇的图案的假定来从背景噪声中辨别人语音。此能量图案不同于与背景噪声关联的能量,其中,能量的平均幅度可趋于从一个时间段到另一时间段保持相对相同或非常缓慢改变。其结果是,有可能保持跟踪并且估计一段时间上的背景噪声。
人语音检测模块130可配置为使用背景噪声估计来确定在人语音频带内是否存在人语音。对于一些实施例,人语音检测模块130可确定在频域表示中的帧内的总能量,比较该总能量与估计的噪声能量,并且确定那个帧内是否存在人语音。例如,当总能量大于背景噪声能量乘以阈值时,可存在人语音信息135。当总能量近似小于或等于背景噪声能量时,可不存在人语音信息135。当不存在人语音信息135时,前端处理模块102的操作可继续到下一帧的噪声估计和抑制(如噪声估计和抑制模块125所执行的)。
后端处理模块103可包含语音处理模块140,其配置为从前端处理模块102接收人语音信息135并且确定可包含在人语音信息135中的命令或指令。语音处理模块140可引起基于所确定的命令或指令来执行操作。
转到图2,图2是图示与音频信号有关的示例能量和帧的图表。图2包含在时间段上可由记录器105(在图1中图示)捕获的音频信号的能量。图2的垂直轴线205可表示能量的幅度,并且水平轴线210可表示时间。对于一些实施例,音频信号可被分成多个重叠的帧,例如诸如帧215、220和225。在此示例中,帧215、220和225中的每个可与32ms的窗口关联并且可彼此偏置10ms的非重叠窗口230。FFT模块120(在图1中图示)可首先处理帧215,帧215可与覆盖从0ms到31ms的时间段的窗口关联。十毫秒以后,FFT模块120可处理第二帧220,第二帧220可与覆盖从10ms到41ms的时间段的窗口关联。然后,十毫秒以后,FFT模块120可处理第三帧225,第三帧225可与覆盖从20ms到51ms的时间段的窗口关联。
使用16kHz的采样率,帧215、220和225中的每个可包含512个样本。取决于所选择的采样率和帧大小,样本数量可改变但通常可以是二的幂的数量。对于一些实施例,可期望FFT模块120(图1)在类似于非重叠窗口的大小的时间段内(例如,10ms)完成对于每个帧的其变换操作(从时域表示变换到频域表示)。在其它实施例中,可期望FFT模块在非重叠窗口的时间的一部分中完成其变换。例如,FFT模块可只需要10ms的10%(或1ms)来完成其处理;FFT模块的操作可由以下公式来表示:
公式1
其中表示音频信号的频域表示,表示音频信号的时域表示,k的范围是从值1到频带的总数量(例如,512),并且t表示时间。公式1的结果可以是512点FFT(基于512个样本示例)。来自FFT操作的结果然后可由噪声估计和抑制模块125(在图1中图示)滤波来移除任何带外噪声。噪声估计和抑制模块125的滤波操作可由以下公式来表示:
公式2
其中表示滤波操作之后的结果,表示滤波函数,表示音频信号的频域表示,并且k的范围是从值1到频带的总数量(例如,512)。可通过将滤波器应用于采用频域表示的来执行滤波操作以移除任何带外噪声。
转到图3,图3示出表示噪声抑制的示例实施例的框图。一旦完成滤波操作,可应用一个或多个噪声抑制操作来移除或抑制可能不是人语音的任何噪声。对于一些实施例,每个噪声抑制操作可与不同的噪声抑制技术关联。可存在着许多不同的技术,这些技术可组合来执行噪声抑制操作。参考图3,已滤波的信息305可被传送到第一噪声抑制模块310。可注意到,已滤波的信息305可作为一系列帧(每个帧具有相同的帧大小)传送到第一噪声抑制模块310。从第一噪声抑制模块310产生的信息可被传送到第二噪声抑制模块315等等,直至可由第N噪声抑制模块320生成增强的音频信号(本文称作增强的音频信息)325。例如,第一噪声抑制模块310可以基于被称作延迟总和波束形成(具有固定的系数)的技术,并且第二噪声抑制模块315可以基于被称作频谱跟踪和子带域维纳滤波的技术。有可能的是,在图3中图示的噪声抑制操作完成之后增强的音频信息325可具有比进来的音频信号更高的信噪比。
增强的音频信息325可包含一系列帧,每个帧具有相同的帧大小。可由图1中图示的人语音检测模块130处理增强的音频信息325来检测人语音的存在。取决于实现,增强的音频信息325的处理可不同。下文是人语音检测模块130可用来处理增强的音频信息325的第一算法的伪代码示例:
任务1:对于增强的音频信息325的每个帧,确定总能量为:
其中“abs”是绝对值函数,“FFT Output”是FFT模块120的结果,并且H是滤波函数。
任务2:对于增强的音频信息325的每个帧,将背景噪声的能量(或噪底能量)估计为:
其中A和B是具有常数值的参数,是当前帧的背景噪声能量,并且是前一帧的背景噪声能量。
任务3:对于增强的音频信息325的每个帧,确定人语音的存在。当人语音存在时,设置,并且当人语音不存在时,设置。该确定可通过比较在第一算法的任务1中确定的总功率与在第一算法的任务2中确定的背景噪声的底能量来执行。
其中Tup和Tdown是具有常数值的参数。
下文是人语音检测模块130可用来处理增强的音频信息325的第二算法的伪代码示例。第二算法可有些类似于第一算法,并具有附加的滤波和轮廓跟踪操作功能。
任务1:对于增强的音频信息325的每个帧,确定总能量为:
其中“abs”是绝对值函数,“FFT Output”是FFT模块120的频域表示结果,并且H是滤波函数。
任务2:对于增强的音频信息325的每个帧,应用中值滤波函数来移除任何高频噪声并且应用轮廓跟踪函数来移除任何噪声的突发脉冲并且确定每个帧的平均能量。
任务3:对于增强的音频信息325的每个帧,确定人语音的存在。当人语音存在时,设置,并且当人语音不存在时,设置。该确定可通过比较在第二算法的任务1中确定的总功率与在第二算法的任务2中确定的轮廓跟踪操作的结果来执行。
其中Tup和Tdown是具有常数值的参数,并且Tup和Tdown的值可取决于实现而不同。
可注意到,第一和第二算法的效率可取决于背景噪声状况。当存在均匀的背景噪声时,第一算法可更好地执行。当背景噪声包含虚高频噪声(其不是人语音的一部分)时,第二算法可更好地执行。
转到图4,图4是图示与人语音检测操作关联的示例错误接受率和错误拒绝率的图表。在处理增强的音频信息325来确定是否存在人语音时,可发生两种潜在类型的误差。第一类型的误差(被称作错误拒绝误差)可与拒绝可能包含人语音的音频信号有关。第二类型的误差(被称作错误接受误差)可与将噪声接受为人语音(当那个噪声可不包含人语音时)有关。对于一些实施例,可使用一个或多个阈值参数来控制错误拒绝率和错误接受率。例如,当阈值参数被设置为低的值时,所有噪声可被接受为人语音;当阈值参数被设置为高的值时,所有噪声被拒绝为不包含人语音。通过编程一个或多个阈值参数,可实现不同的操作点。参考上述的示例第一和第二算法,阈值参数可包含“A”、“B”、“DB”、“Tup”和“Tdown”。
图4示出的示例图表包含表示增强的音频信息325的帧的错误接受率的垂直轴线405和表示其错误接受率的水平轴线410。曲线420可表示与上述第一算法关联的操作点,而曲线425可表示与上述第二算法关联的操作点。曲线420和425上的每个点可因此表示操作点。在此示例中,背景噪声可以是5dB。可注意到,与曲线425关联的错误接受率和错误拒绝率通常低于与第一算法关联的错误接受率和错误拒绝率。这可归因于附加的均值滤波和轮廓跟踪函数操作。
转到图5,图5图示语音活动检测模块的硬件架构实施例。语音活动检测模块500可包含对应于包含在前端处理模块102(在图1中图示)的部件的一些部件。对于一些实施例,图1的分帧和加窗模块115可采用软件实现,并且因此不包含在语音活动检测模块500中。可包含在语音活动检测模块500中的前端处理模块102的部件是FFT模块120、噪声估计和抑制模块125以及人语音检测模块130。
可注意到,在语音活动检测模块500中有两个部分。第一部分包含位于虚线框505内的部件。第二部分包含位于虚线框505外的部件。对于一些实施例,位于虚线框505内的部件可配置为以低电压(低Vcc)操作,并且它们可配置为以慢的时钟频率(被称作时钟1)操作。位于虚线框505外的部件可配置为以高电压(高Vcc)操作,并且它们可配置为以快的时钟频率(例如,16倍时钟频率,被称作时钟16)操作。位于虚线框505内的部件可包含FFT模块525以及乘法和滤波模块520、以及语音活动检测模块550和555。FFT模块525可对应于图1的FFT模块120,乘法和滤波模块520可对应于图1的噪声估计和抑制模块125,并且语音活动检测模块550和555可对应于图1的人语音检测模块130。
与时域表示中的音频信号关联的信息可存储在存储器模块510和515中。在此示例中,每个存储器模块510和515可包含512个线路,其中每个线路是48位。因此,存储器的总大小可以是2×512×48位。当从存储器模块510和515读取信息时,信息可经由复用器511和516而传送到帧缓冲器540并且然后传送到帧缓冲器545。可注意到,帧缓冲器540位于虚线框505外并且帧缓冲器545位于虚线框505内。因此,帧缓冲器540可以以比帧缓冲器545更高的电压和更高的时钟频率(例如,时钟16)操作。
FFT模块525可配置为操作为32点FFT或16点FFT模块,其中FFT模块525的配置可受控于控制模块560。FFT模块525可处理从存储器模块510和515接收的信息来将信息从时域表示变换成频域表示。乘法和滤波模块520可从FFT模块525接收结果并且执行噪声滤波和噪声抑制操作来生成增强的音频信息325(在图3中图示)。然后,可将增强的音频信息325存储在帧缓冲器535中,其中增强的音频信息325可随后由语音活动检测模块550或555来处理。取决于实现,可存在并行操作的多个语音活动模块。语音活动检测模块550和555中的每个可使用不同的算法(例如,上述第一或第二算法)来操作。如提到的,位于虚线框505内的部件可配置为操作在低频(或时钟1)和低电压(低Vcc)。位于虚线框505外的部件可操作在高频(或时钟16)和高电压(或高Vcc)。这可以是重要的,因为它可使位于虚线框505内的部件消耗很少功率。
转到图6,图6是图示512点快速傅里叶变换的框图。图6包含四个平面:X平面610、Y平面620、Z平面630和W平面640。X平面610可具有16行和32列,总共有16×32=512个信息点。X平面610中的信息点可对应于图5中图示的FFT模块525从存储器模块510和515接收的信息。
对于一些实施例,可使用32点FFT操作来变换X平面610中的512个信息点。由于在X平面610中有16行,所以可执行16次32点FFT操作。对X平面610的每行的信息点的每个32点FFT操作的结果图示在Y平面620中的对应行中。例如,对X平面610的第一行(X(0), X(16),..., X(495))中的信息点的32点FFT操作的结果反映在Y平面620的第一行(Y(0), Y(16),..., Y(495))中。
FFT操作可以基于复数,每个复数具有实部和虚部。X平面610中的信息点可包含实信息并且不包含任何虚信息(因为它可表示实际音频输入信号)。X平面610可被称作实平面。然而,Y平面620中的信息点可包含实部和虚部两者。Y平面620可被称作复平面。然后Y平面620中的信息点可乘以一组虚旋转因子625。此旋转因子625可对应于由图5中图示的乘法和滤波模块520执行的乘法操作。对于一些实施例,旋转因子625可包含并行操作的四个复数乘法器。由于在Y平面620中有512个信息点,所以可有128个乘法周期来获取Z平面630的512个信息点。Z平面630可被称作复平面。
对于一些实施例,可使用16点FFT操作来变换Z平面630中的信息点。这可通过将16点FFT操作应用于Z平面630的每列中的信息点(例如,Z(0), Z(1), ..., Z(15))来执行。由于在Z平面630中有32列,所以可执行32次16点FFT操作。对Z平面630的每列的信息点的每个16点FFT操作的结果反映在W平面640的对应列中。例如,对Z平面630的第一列(例如,Z(0),Z(1), ..., Z(15))中的信息点的16点FFT操作的结果反映在W平面640的第一列(W(0), W(32), ..., W(480))中。
转到图7,图7是图示快速傅里叶变换模块的示例硬件实现的框图。FFT模块700可被称作混合FFT模块(因为它可用于执行32点FFT和16点FFT操作两者)。FFT模块700可对应于图5中图示的FFT模块525。图5中图示的512个信息点的分解可适合于音频、语音或言语处理(因为这些应用可适合于连续执行的操作)。例如,512个信息点的分解可包含使用32点FFT操作(16次),接着是512个复数乘法并且最终接着16点FFT操作(32次)。这可慢于X平面610中的所有信息点的512点FFT操作的并行执行。
为了具有以低频(例如,4MHz)的低功率操作,可有必要减少尽可能多的硬件。可注意到,以这样的低频的大部分功率被泄漏,并且因此可通过使用相同的硬件串行执行操作而获取有效功率与泄漏功率之间的正确平衡。对于一些实施例,代替有两个单独的FFT模块(一个用于32点FFT操作,并且另一个用于16点FFT操作),FFT模块700可用于执行32点和16点FFT操作两者。FFT模块700可包含两个16点FFT 710和720。16点FFT 710和720可配置为并行操作。
第一个16点FFT 710可与16点FFT输入705和其信号Y(0)至Y(15)关联,或它可与32点FFT输入715的前16个输入信号X(0)至X(15)关联。第二个16点FFT 720可与32点FFT输入715的接着16个输入信号X(16)至X(31)关联。
FFT模块700内的16点FFT 710和720中的一个可暴露于控制信号725。控制信号725可耦合到复用器730。当控制信号725处于第一设置(例如,0)时,它可使复用器730接受输入信号705并且又使FFT模块700操作为16点FFT模块。当控制信号725处于第二设置(例如,1)时,它可使复用器730接受输入信号715并且又使FFT模块700操作为32点FFT模块。
通过使用FFT模块700代替具有单独的32点FFT模块和16点FFT模块,加法器的总数量可从大约9500减少到大约8300,并且乘法器的总数量可从大约312减少到大约56。这可提供显著的功率和面积节省,以潜在和可接受的等待时间为代价。
转到图8,图8是图示乘法和滤波模块的示例硬件实现的图。乘法和滤波模块800可配置为执行复数乘法操作和滤波操作两者。对于一些实施例,图8的复数乘法操作可用作图6中图示的旋转因子的一部分。对于一些实施例,图8的滤波操作可在FFT操作之后执行。乘法和滤波模块800可对应于图5中图示的乘法和滤波模块520。
乘法和滤波模块800可配置为执行两个复数(a + jb)和(c + jd)的复数乘法。在传统上,这两个复数的乘法如下执行:
其中X和Y是输入信号并且Z是输出信号。为执行以上乘法,使用传统技术可需要四个(4个)乘法器和两个(2个)加法器。可使用并行操作的四个复数乘法器来执行此复数乘法。当使用传统技术来执行以上操作时,以下是硬件有关的信息的一些示例:
对于一些实施例,使用修改的技术,可如下执行相同两个复数的乘法:
为执行以上乘法,可需要三个(3个)乘法器和五个(5个)加法器。可注意到,与传统技术相比,经修改的修改中的乘法器的数量更少但是加法器的数量更多。因为乘法器比加法器在功率、面积等方面更昂贵,所以这是可接受的。当使用经修改的技术来执行以上操作时,以下是硬件有关的信息的一些示例:
(此处单元数量小于传统技术)
参考图8,三个乘法器包含乘法器810、820和850。五个加法器包含加法器860、865、870以及用于输入端处的表达“c - b”和“b + d”的两个加法器。到乘法和滤波模块800的输入信号可被发送到一组复用器802、804、806和808。当这些复用器被设置为一个值(例如,零)时,乘法和滤波模块800可配置为执行复数乘法操作。例如,从第一复用器,短语“c - b”可被传到乘法器810。从第二复用器804,信号“a”可被传到乘法器810,使乘法器810能生成表达“”的结果。从第三复用器806,表达“b + d”可被传到乘法器820。从第四复用器808,信号“a”可被传到乘法器820,使乘法器820能生成表达“”的结果。然后加法器860、865和870可使用来自乘法器810和820的结果来生成Z的作为的最终结果。
当复用器802、804、806和808被设置为另一值(例如,一)时,乘法和滤波模块800可被设置为执行滤波操作。在此情况下,乘法和滤波模块800可配置为对来自FFT操作的表达“”的绝对值的平方执行滤波,其中“”是复数,“abs”是绝对值函数,并且“Coff”是系数。此表达的数学等效是“”。此表达图示在图8的右侧。输入xR和xI图示为到复用器802、804、806和808的输入。然后第一乘法器810可生成“xR2”的结果并且第二乘法器820可生成“xI2”的结果。然后这些结果可用于使用系数848、复用器840和乘法器850来生成表达“”的值。
现在转到图9,图9示出处理音频信号来检测人语音的方法。该方法可对应于图5中示出的硬件架构。该方法可实现为一组逻辑指令,其存储在机器或计算机可读存储介质(例如,RAM、ROM、PROM、闪速存储器等)、可配置逻辑(例如,PLA、FPGA、CPLD)、使用电路技术(例如,ASIC、CMOS或TTL技术)的固定功能性逻辑硬件或任何其组合中。例如,执行在方法中示出的操作的计算机程序代码可以用一个或多个编程语言的任何组合来编写,其包含面向对象的编程语言(例如,C++等)和传统的过程编程语言(例如,“C”编程语言或类似编程语言)。
框905提供将音频信号存储在存储器中。如提到的,音频信号可包含人语音和其它噪声(包含背景噪声)。音频信号可已经由记录器记录并且可在时域存储。存储器可配置为以第一时钟频率(例如,高频)操作。存储器可配置为以第一电压(例如,高Vcc)操作。
框910提供对音频信号执行FFT操作来将它从时域变换到频域。FFT操作可以基于与音频信号关联的帧。如提到的,可使用分帧和加窗操作来确定帧。可由可配置FFT模块(其可配置为操作为不同类型的FFT模块(例如,32点FFT模块或16点FFT模块))来执行FFT操作。可配置FFT模块可以以第二时钟频率(例如,低频)操作。可配置FFT模块还可以以第二电压(例如,低Vcc)操作。
框915提供对来自框910并且基于第二电压的FFT操作的频域结果执行噪声抑制和滤波操作。可使用图8中图示的可配置的乘法和滤波硬件来执行滤波操作。可使用如用图3描述的一个或多个噪声抑制技术来执行噪声抑制操作。框915的噪声抑制和滤波操作可以以第二时钟频率(例如,低频)操作。噪声抑制和滤波操作还可以以第二电压(例如,低Vcc)操作。
框920提供在框915的噪声抑制和滤波操作完成之后执行语音检测。可如图5中描述那样来使用一个或多个语音检测算法。帧中的总能量和背景噪声可用于确定人语音的存在。框920的语音检测操作可以以第二时钟频率(例如,低频)操作。语音检测操作还可以以第二电压(例如,低Vcc)操作。
本发明的实施例可适用于与所有类型的半导体集成电路(“IC”)芯片一起使用。这些IC芯片的示例包含但不限于处理器、控制器、芯片组部件、可编程逻辑阵列(PLA)、存储器芯片、网络芯片、片上系统(SoC)、SSD/NAND控制器ASIC等。此外,在一些图中,信号导体线路用线来表示。一些可以是不同的,来指示更多组成信号路径,具有标号来指示组成信号路径的号码,和/或在一端或多端处具有箭头来指示主要信息流方向。然而,这不应该视为限制的方式。而是,这样的附加细节可结合一个或多个示范性实施例使用以有助于电路的更容易理解。任何所表示的信号线(无论是否有附加的信息)可实际包括一个或多个信号,它们可在多个方向中行进并且可用任何合适类型的信号方案(例如,用差分对、光纤线路和/或单端线路实现的数字或模拟线路)来实现。
可给出示例大小/模型/值/范围,但是本发明的实施例不限于这些。随着制造技术(例如,光刻)随着时间变成熟,预期可制造更小尺寸的装置。此外,为了图示和论述的简单起见,并且为了不混淆本发明的实施例的某些方面,在图中可以或可以不示出到IC芯片和其它部件的熟知电力/接地连接。另外,可以以框图形式示出布置以避免混淆本发明的实施例,但是也鉴于相对于这样的框图布置的实现的细节高度依赖于其内将实现实施例的平台的事实,即,这样的细节应该是在本领域的技术人员所熟知的范围内。其中阐述具体细节(例如,电路)以便描述本发明的示例实施例,对于本领域技术人员应该明显的是可以实践本发明的实施例,而没有这些具体细节或具有这些具体细节的变化。因此描述被视为说明性的而不是限制的。
本文可使用术语“耦合”来指代所讨论的部件之间的任何类型的关系(直接或间接),并且可应用于电、机械、流体、光、电磁、机电或其它连接。此外,本文可使用术语“第一”、“第二”等来仅仅便于论述并且不具有特定时间或先后意义(除非另有指示)。
本领域技术人员将从上文的描述意识到本发明的实施例的广泛技术可以以各种形式实现。因此,虽然已经结合其特定示例来描述本发明的实施例,但是本发明的实施例的真正范围不应该这样受限制,这是因为其它修改将在本领域技术人员研读附图、说明书和下文的权利要求之后而变得明显。
Claims (26)
1.一种用于语音检测的设备,包括:
变换部件,用于以第二时钟频率和第二电压执行第一组快速傅立叶变换FFT操作和第二组FFT操作,以及
逻辑,所述逻辑用于:
在存储器中存储时域音频信号的数字表示,所述存储器配置为基于第一时钟频率和第一电压进行操作,其中所述存储器耦合到第一缓冲器,所述第一缓冲器串联地耦合到第二缓冲器,
经由所述第一缓冲器将所述时域音频信号传送到所述第二缓冲器,其中所述第一缓冲器配置成基于所述第一时钟频率和所述第一电压进行操作,并且其中所述第二缓冲器配置成基于所述第二时钟频率和所述第二电压进行操作,以及
使以所述第二时钟频率和所述第二电压进行操作的所述变换部件对所述时域音频信号执行快速傅立叶变换FFT操作,以便生成频域音频信号,其中所述第一时钟频率将比所述第二时钟频率更快,其中所述变换模块操作以执行所述第一组FFT操作、执行复数乘法操作和执行与所述第一组FFT操作串行的所述第二组FFT操作能够获得有效功率与泄漏功率之间的平衡。
2.如权利要求1所述的设备,其中所述逻辑还用于:
使所述变换部件执行32点FFT操作,
执行复数乘法操作,以及
使所述变换部件执行与所述32点FFT操作串行的16点FFT操作。
3.如权利要求2所述的设备,其中所述第二电压将低于所述第一电压。
4.如权利要求3所述的设备,其中所述逻辑用于:
执行噪声抑制操作,以及
基于所述第二时钟频率和所述第二电压对所述频域音频信号执行滤波操作来生成增强的音频信号。
5.如权利要求4所述的设备,其中所述复数乘法操作和滤波操作使用相同的硬件部件来实现。
6.如权利要求4所述的设备,其中所述逻辑用于基于所述第二时钟频率和所述第二电压对所述增强的音频信号执行人语音检测操作。
7.如权利要求6所述的设备,其中所述逻辑用于确定所述增强的音频信号的帧中的总能量,并且确定所述增强的音频信号的所述帧中的背景噪声。
8.如权利要求7所述的设备,其中所述逻辑用于执行中值滤波操作,并且执行轮廓跟踪操作。
9.如权利要求7所述的设备,其中所述逻辑用于基于所述第一时钟频率和所述第一电压来执行与所检测的人语音关联的命令。
10.一种计算机实现的方法,包括:
以第一模式的第一时钟频率和第一电压在存储器中记录时域音频信号的数字表示,其中所述存储器配置为基于所述第一时钟频率和所述第一电压进行操作,并且其中所述存储器耦合到第一缓冲器,所述第一缓冲器串联地耦合到第二缓冲器,
经由所述第一缓冲器将所述时域音频信号传送到第二缓冲器,以及
以第二模式的第二时钟频率和第二电压使用变换部件对所述时域音频信号的所述数字表示执行快速傅立叶变换FFT操作,以便生成频域音频信号,其中所述第一缓冲器配置成基于所述第一时钟频率和所述第一电压进行操作,其中所述第二缓冲器配置成基于所述第二时钟频率和所述第二电压进行操作,其中所述第一时钟频率比所述第二时钟频率更快,并且其中所述变换模块操作以执行第一组FFT操作、执行复数乘法操作和执行与所述第一组FFT操作串行的第二组FFT操作能够获得有效功率与泄漏功率之间的平衡。
11.如权利要求10所述的方法,其中以所述第二模式的所述第二电压执行所述FFT操作,所述第二电压低于所述第一模式的所述第一电压。
12.如权利要求11所述的方法,还包含:
以所述第二时钟频率和所述第二电压对所述频域音频信号执行噪声抑制操作来生成增强的音频信号。
13.如权利要求12所述的方法,还包含:
以所述第二时钟频率和所述第二电压对所述增强的音频信号执行语音检测操作来检测人语音。
14.如权利要求13所述的方法,其中执行所述人语音检测操作包含:
确定所述增强的音频信号的帧中的总能量;
确定与所述增强的音频信号的所述帧中的背景噪声关联的能量;以及
通过从所述增强的音频信号的所述帧中的所述总能量中减去与所述背景噪声关联的能量来检测所述人语音。
15.如权利要求13所述的方法,还包含:
以所述第一时钟频率和所述第一电压执行与所述人语音关联的命令。
16.如权利要求15所述的方法,其中以所述第一时钟频率和所述第一电压持续地记录所述时域音频信号并且将所述时域音频信号从脉冲密度调制PDM转换成脉冲编码调制PCM。
17.如权利要求16所述的方法,其中串行执行所述FFT操作。
18.一种用于语音检测的设备,包括:
用于以第一模式的第一时钟频率和第一电压将时域音频信号的数字表示记录到存储器的部件,其中所述存储器配置为基于所述第一时钟频率和所述第一电压进行操作,并且其中所述存储器耦合到第一缓冲器,所述第一缓冲器串联地耦合到第二缓冲器,
用于经由所述第一缓冲器将所述时域音频信号传送到第二缓冲器的部件,以及
用于以第二模式的第二时钟频率和第二电压对所述时域音频信号的所述数字表示执行快速傅立叶变换FFT操作以便生成频域音频信号的部件,其中所述第一缓冲器配置成基于所述第一时钟频率和所述第一电压进行操作,其中所述第二缓冲器配置成基于所述第二时钟频率和所述第二电压进行操作,其中所述第一时钟频率比所述第二时钟频率更快,并且其中执行所述FFT操作包括执行第一组FFT操作、执行复数乘法操作和执行与所述第一组FFT操作串行的第二组FFT操作,使得能够获得有效功率与泄漏功率之间的平衡。
19.如权利要求18所述的设备,其中以所述第二模式的所述第二电压执行所述FFT操作,所述第二电压低于所述第一电压。
20.如权利要求19所述的设备,还包括:
用于以所述第二时钟频率和所述第二电压对所述频域音频信号执行噪声抑制操作来生成增强的音频信号的部件;
用于以所述第二时钟频率和所述第二电压对所述增强的音频信号执行语音检测操作来检测人语音的部件;以及
用于以所述第一时钟频率和所述第一电压执行与所述人语音关联的命令的部件。
21.如权利要求20所述的设备,其中所述语音检测操作通过以下操作来执行:确定所述增强的音频信号的帧中的总能量,确定与所述增强的音频信号的所述帧中的背景噪声关联的能量,并且通过从所述增强的音频信号的所述帧中的所述总能量中减去与所述背景噪声关联的能量来检测所述人语音。
22.如权利要求21所述的设备,其中以所述第一时钟频率和所述第一电压持续地记录所述时域音频信号。
23.一种用于语音检测的系统,包括:
预处理模块,配置为将音频信号捕获在存储器中作为脉冲密度调制PDM信息流并且基于第一模式的第一时钟频率和第一电压将所述PDM信息流转换成脉冲编码调制PCM信息流,其中所述存储器配置为基于所述第一时钟频率和所述第一电压进行操作,并且其中所述存储器耦合到第一缓冲器,所述第一缓冲器串联地耦合到第二缓冲器;
前端处理模块,耦合到所述预处理模块并且配置为将所述PCM信息流分帧并且加窗成多个帧;以及
快速傅里叶变换FFT模块,耦合到所述前端处理模块并且配置为经由串联地耦合到所述第二缓冲器的所述第一缓冲器,接收所述PCM信息流的帧,并且基于第二模式的第二时钟频率和第二电压执行所述帧从时域表示到频域表示的变换,其中所述第一缓冲器配置成基于所述第一时钟频率和所述第一电压进行操作,其中所述第二缓冲器配置成基于所述第二时钟频率和所述第二电压进行操作,其中所述第二时钟频率不同于所述第一时钟频率并且所述第二电压不同于所述第一电压,其中所述第一时钟频率将比所述第二时钟频率更快,并且其中所述FFT模块操作以执行第一组FFT操作、执行复数乘法操作和执行与所述第一组FFT操作串行的第二组FFT操作,使得能够获得有效功率与泄漏功率之间的平衡。
24.如权利要求23所述的系统,其中所述第二模式的所述第二电压低于所述第一模式的所述第一电压。
25.如权利要求24所述的系统,还包含:
噪声估计和抑制模块,耦合到所述FFT模块并且配置为在所述频域表示中分析所述帧并且滤出与人语音不在相同频带内的噪声信息;
人语音检测模块,耦合到所述噪声估计和抑制模块并且配置为使用背景噪声估计来基于人语音频带而确定所述帧中是否存在所述人语音:以及
语音处理模块,耦合到所述人语音检测模块并且配置为确定与所述人语音关联的命令并且执行与所述命令关联的操作。
26.一种计算机可读存储介质,其上存储有指令,所述指令在被执行时促使处理器执行如权利要求10至17的任何一项所述的方法。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/US2011/063622 WO2013085499A1 (en) | 2011-12-06 | 2011-12-06 | Low power voice detection |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103959376A CN103959376A (zh) | 2014-07-30 |
CN103959376B true CN103959376B (zh) | 2019-04-23 |
Family
ID=48574714
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201180075351.3A Expired - Fee Related CN103959376B (zh) | 2011-12-06 | 2011-12-06 | 低功率语音检测 |
Country Status (5)
Country | Link |
---|---|
US (1) | US9633654B2 (zh) |
EP (1) | EP2788979A4 (zh) |
CN (1) | CN103959376B (zh) |
TW (1) | TWI489448B (zh) |
WO (1) | WO2013085499A1 (zh) |
Families Citing this family (32)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TWI419280B (zh) * | 2009-01-16 | 2013-12-11 | Univ Nat Taiwan | 防止金屬遷移的電子封裝件 |
EP2788979A4 (en) | 2011-12-06 | 2015-07-22 | Intel Corp | LOW POWER SPEECH RECOGNITION |
US9626963B2 (en) * | 2013-04-30 | 2017-04-18 | Paypal, Inc. | System and method of improving speech recognition using context |
US9711166B2 (en) | 2013-05-23 | 2017-07-18 | Knowles Electronics, Llc | Decimation synchronization in a microphone |
US10020008B2 (en) | 2013-05-23 | 2018-07-10 | Knowles Electronics, Llc | Microphone and corresponding digital interface |
CN105379308B (zh) | 2013-05-23 | 2019-06-25 | 美商楼氏电子有限公司 | 麦克风、麦克风系统及操作麦克风的方法 |
US9502028B2 (en) * | 2013-10-18 | 2016-11-22 | Knowles Electronics, Llc | Acoustic activity detection apparatus and method |
US9147397B2 (en) | 2013-10-29 | 2015-09-29 | Knowles Electronics, Llc | VAD detection apparatus and method of operating the same |
US9406313B2 (en) | 2014-03-21 | 2016-08-02 | Intel Corporation | Adaptive microphone sampling rate techniques |
US10360926B2 (en) * | 2014-07-10 | 2019-07-23 | Analog Devices Global Unlimited Company | Low-complexity voice activity detection |
WO2016118480A1 (en) | 2015-01-21 | 2016-07-28 | Knowles Electronics, Llc | Low power voice trigger for acoustic apparatus and method |
US9653079B2 (en) * | 2015-02-12 | 2017-05-16 | Apple Inc. | Clock switching in always-on component |
US10121472B2 (en) | 2015-02-13 | 2018-11-06 | Knowles Electronics, Llc | Audio buffer catch-up apparatus and method with two microphones |
US9478234B1 (en) | 2015-07-13 | 2016-10-25 | Knowles Electronics, Llc | Microphone apparatus and method with catch-up buffer |
US10048936B2 (en) * | 2015-08-31 | 2018-08-14 | Roku, Inc. | Audio command interface for a multimedia device |
KR20170051856A (ko) * | 2015-11-02 | 2017-05-12 | 주식회사 아이티매직 | 사운드 신호에서 진단 신호를 추출하는 방법 및 진단 장치 |
CN107786931B (zh) * | 2016-08-24 | 2021-03-23 | 中国电信股份有限公司 | 音频检测方法及装置 |
EP3324406A1 (en) | 2016-11-17 | 2018-05-23 | Fraunhofer Gesellschaft zur Förderung der Angewand | Apparatus and method for decomposing an audio signal using a variable threshold |
EP3324407A1 (en) * | 2016-11-17 | 2018-05-23 | Fraunhofer Gesellschaft zur Förderung der Angewand | Apparatus and method for decomposing an audio signal using a ratio as a separation characteristic |
US20180224923A1 (en) * | 2017-02-08 | 2018-08-09 | Intel Corporation | Low power key phrase detection |
US10121494B1 (en) * | 2017-03-30 | 2018-11-06 | Amazon Technologies, Inc. | User presence detection |
US11074906B2 (en) * | 2017-12-07 | 2021-07-27 | Hed Technologies Sarl | Voice aware audio system and method |
IL277606B1 (en) * | 2018-03-29 | 2024-10-01 | 3M Innovative Properties Company | Voice-activated audio coding for headphones using frequency domain representations of microphone signals |
WO2019187841A1 (ja) * | 2018-03-30 | 2019-10-03 | パナソニックIpマネジメント株式会社 | 騒音低減装置 |
CN110580919B (zh) * | 2019-08-19 | 2021-09-28 | 东南大学 | 多噪声场景下语音特征提取方法及可重构语音特征提取装置 |
US12016098B1 (en) | 2019-09-12 | 2024-06-18 | Renesas Electronics America | System and method for user presence detection based on audio events |
CN110556128B (zh) * | 2019-10-15 | 2021-02-09 | 出门问问信息科技有限公司 | 一种语音活动性检测方法、设备及计算机可读存储介质 |
CN111093302B (zh) * | 2019-11-26 | 2023-05-12 | 深圳市奋达科技股份有限公司 | 音箱灯光控制方法和音箱 |
KR20210122348A (ko) * | 2020-03-30 | 2021-10-12 | 삼성전자주식회사 | 음성 인식을 위한 디지털 마이크로폰 인터페이스 회로 및 이를 포함하는 전자 장치 |
CN111508516A (zh) * | 2020-03-31 | 2020-08-07 | 上海交通大学 | 基于信道关联时频掩膜的语音波束形成方法 |
US11646009B1 (en) * | 2020-06-16 | 2023-05-09 | Amazon Technologies, Inc. | Autonomously motile device with noise suppression |
TWI836231B (zh) * | 2021-06-22 | 2024-03-21 | 中國醫藥大學 | 智能醫療語音自動辨識方法及其系統 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101135928A (zh) * | 2006-08-29 | 2008-03-05 | 松下电器产业株式会社 | 处理器系统 |
CN101149928A (zh) * | 2006-09-20 | 2008-03-26 | 富士通株式会社 | 声音信号处理方法、声音信号处理设备及计算机程序 |
CN101223490A (zh) * | 2005-07-14 | 2008-07-16 | Nxp股份有限公司 | 使用历史负载简档来动态调整手持多媒体设备处理器内核的工作频率及可用功率 |
Family Cites Families (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE69228980T2 (de) * | 1991-12-06 | 1999-12-02 | National Semiconductor Corp., Santa Clara | Integriertes Datenverarbeitungssystem mit CPU-Kern und unabhängigem parallelen, digitalen Signalprozessormodul |
US7992067B1 (en) * | 2001-11-09 | 2011-08-02 | Identita Technologies International SRL | Method of improving successful recognition of genuine acoustic authentication devices |
TWI225640B (en) * | 2002-06-28 | 2004-12-21 | Samsung Electronics Co Ltd | Voice recognition device, observation probability calculating device, complex fast fourier transform calculation device and method, cache device, and method of controlling the cache device |
US7356466B2 (en) * | 2002-06-28 | 2008-04-08 | Samsung Electronics Co., Ltd. | Method and apparatus for performing observation probability calculations |
CN102395098B (zh) | 2005-09-13 | 2015-01-28 | 皇家飞利浦电子股份有限公司 | 生成3d声音的方法和设备 |
JP4542978B2 (ja) * | 2005-10-27 | 2010-09-15 | パナソニック株式会社 | 電源電圧制御装置 |
US9097783B2 (en) * | 2006-04-28 | 2015-08-04 | Telecommunication Systems, Inc. | System and method for positioning using hybrid spectral compression and cross correlation signal processing |
JP5228468B2 (ja) * | 2007-12-17 | 2013-07-03 | 富士通セミコンダクター株式会社 | システム装置およびシステム装置の動作方法 |
EP2301028B1 (en) | 2008-07-11 | 2012-12-05 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | An apparatus and a method for calculating a number of spectral envelopes |
US7619551B1 (en) | 2008-07-29 | 2009-11-17 | Fortemedia, Inc. | Audio codec, digital device and voice processing method |
KR101539268B1 (ko) * | 2008-12-22 | 2015-07-24 | 삼성전자주식회사 | 수신기의 잡음 제거 장치 및 방법 |
TWI413112B (zh) | 2010-09-06 | 2013-10-21 | Byd Co Ltd | Method and apparatus for eliminating noise background noise (1) |
TWI413111B (zh) | 2010-09-06 | 2013-10-21 | Byd Co Ltd | Method and apparatus for eliminating noise background noise (2) |
US8806245B2 (en) * | 2010-11-04 | 2014-08-12 | Apple Inc. | Memory read timing margin adjustment for a plurality of memory arrays according to predefined delay tables |
EP2788979A4 (en) | 2011-12-06 | 2015-07-22 | Intel Corp | LOW POWER SPEECH RECOGNITION |
JP6050721B2 (ja) * | 2012-05-25 | 2016-12-21 | 株式会社半導体エネルギー研究所 | 半導体装置 |
-
2011
- 2011-12-06 EP EP11876968.6A patent/EP2788979A4/en not_active Withdrawn
- 2011-12-06 CN CN201180075351.3A patent/CN103959376B/zh not_active Expired - Fee Related
- 2011-12-06 US US13/997,070 patent/US9633654B2/en active Active
- 2011-12-06 WO PCT/US2011/063622 patent/WO2013085499A1/en active Application Filing
-
2012
- 2012-11-29 TW TW101144776A patent/TWI489448B/zh not_active IP Right Cessation
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101223490A (zh) * | 2005-07-14 | 2008-07-16 | Nxp股份有限公司 | 使用历史负载简档来动态调整手持多媒体设备处理器内核的工作频率及可用功率 |
CN101135928A (zh) * | 2006-08-29 | 2008-03-05 | 松下电器产业株式会社 | 处理器系统 |
CN101149928A (zh) * | 2006-09-20 | 2008-03-26 | 富士通株式会社 | 声音信号处理方法、声音信号处理设备及计算机程序 |
Non-Patent Citations (2)
Title |
---|
A Low-Cost Robust Front-end for Embedded ASR System;Lihui Guo et al;《International Symposium on Chinese Spoken Language Processing 2006》;20061216;全文 |
MULTIPLIER-LESS BASED PARALLEL-PIPELINED FFT ARCHITECTURES FOR WIRELESS COMMUNICATION APPLICATIONS;Wei Han et al;《ICASSP 2005》;20051231;摘要、图2 |
Also Published As
Publication number | Publication date |
---|---|
US20140236582A1 (en) | 2014-08-21 |
US9633654B2 (en) | 2017-04-25 |
TW201342362A (zh) | 2013-10-16 |
EP2788979A4 (en) | 2015-07-22 |
WO2013085499A1 (en) | 2013-06-13 |
EP2788979A1 (en) | 2014-10-15 |
CN103959376A (zh) | 2014-07-30 |
TWI489448B (zh) | 2015-06-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103959376B (zh) | 低功率语音检测 | |
CN106486131B (zh) | 一种语音去噪的方法及装置 | |
KR100745976B1 (ko) | 음향 모델을 이용한 음성과 비음성의 구분 방법 및 장치 | |
CN108766454A (zh) | 一种语音噪声抑制方法及装置 | |
TR201810466T4 (tr) | Özellik çıkarımı kullanılarak konuşmanın iyileştirilmesi için bir ses sinyalinin işlenmesine yönelik aparat ve yöntem. | |
Roman et al. | Pitch-based monaural segregation of reverberant speech | |
CN113077806B (zh) | 音频处理方法及装置、模型训练方法及装置、介质和设备 | |
Vanjari et al. | Realization of improvements to compressive sensing based speech enhancement for hearing aid applications | |
CN111883154A (zh) | 回声消除方法及装置、计算机可读的存储介质、电子装置 | |
Xu et al. | U-former: Improving monaural speech enhancement with multi-head self and cross attention | |
CN115223583A (zh) | 一种语音增强方法、装置、设备及介质 | |
CN112397090B (zh) | 一种基于fpga的实时声音分类方法及系统 | |
Yechuri et al. | A nested U-net with efficient channel attention and D3Net for speech enhancement | |
Mahum et al. | EDL-Det: A Robust TTS Synthesis Detector Using VGG19-Based YAMNet and Ensemble Learning Block | |
Li et al. | Robust automatic speech recognition | |
Sivapatham et al. | Performance improvement of monaural speech separation system using image analysis techniques | |
CN111916060A (zh) | 一种基于谱减的深度学习语音端点检测方法和系统 | |
US20220408201A1 (en) | Method and system of audio processing using cochlear-simulating spike data | |
Lopatka et al. | Sperm whale click analysis using a recursive time-variant lattice filter | |
Yan et al. | Background noise cancellation for improved acoustic detection of manatee vocalizations | |
Jelčicová et al. | PeakRNN and StatsRNN: Dynamic pruning in recurrent neural networks | |
CN105513609B (zh) | 一种水声目标信号声纹特征提取装置和方法 | |
Li et al. | Robust unsupervised Tursiops aduncus whistle-event detection using gammatone multi-channel Savitzky–Golay based whistle enhancement | |
CN115985337B (zh) | 一种基于单麦克风的瞬态噪声检测与抑制的方法及装置 | |
Petrick et al. | Robust front end processing for speech recognition in reverberant environments: Utilization of speech characteristics |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20190423 Termination date: 20211206 |