CN106409312B - 音频分类器 - Google Patents
音频分类器 Download PDFInfo
- Publication number
- CN106409312B CN106409312B CN201610601995.6A CN201610601995A CN106409312B CN 106409312 B CN106409312 B CN 106409312B CN 201610601995 A CN201610601995 A CN 201610601995A CN 106409312 B CN106409312 B CN 106409312B
- Authority
- CN
- China
- Prior art keywords
- audio
- processor
- audio signal
- signal
- classifier
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L25/81—Detection of presence or absence of voice signals for discriminating voice from music
Abstract
本发明涉及一种音频分类器,该音频分类器包括:第一处理器,该第一处理器具有硬连线逻辑,该硬连线逻辑被配置成接收音频信号且从该音频信号检测音频活动;以及第二处理器,该第二处理器具有可重新配置的逻辑,该可重新配置的逻辑被配置成响应于该第一处理器检测音频活动而将该音频信号分类为一类型的音频信号。
Description
技术领域
本发明涉及音频分类器和音频分类的领域。具体来说(但不排除其它),本发明涉及包括音频分类器的话音辨识系统。
背景技术
话音控制是用于多种计算装置应用的研究和开发的重要领域,例如用于移动电信装置中的话音辨识功能的实施。早期话音辨识系统尝试通过分析声波包络等等来辨识话音命令。话音辨识的更为新近的发展包括以与人类如何辨识语音类似的方式解译用词和语法的系统。此些话音辨识系统已被证明是用于提供自然语言用户接口的更精确和有效的机制。
许多话音辨识系统中遇到的困难是,话音辨识功能性对于在使用时装置的处理能力和功率消耗有显著需求。这些需求对于其中处理功率和电池容量通常受约束的移动计算装置来说可能成问题。对于一些应用,需要在“始终开启”模式中提供话音辨识以便提供改进的用户体验。然而,与话音辨识系统的需求相关联的问题因持续提供话音辨识功能性而加剧。
用于减少话音辨识系统的处理开销和功率消耗的选择包括实施关键字检测器,其中仅检测到特定关键字时起始话音辨识;或需要用户在交互之前按压按钮。然而,这些解决方案需要用户修改其行为以便起始话音辨识且因此中断了用户体验。
扬声器验证系统遭受与话音辨识系统相同的问题,因为该扬声器验证系统也可需要显著处理能力,这就是为何该扬声器验证系统可主要由应用处理器(applicationprocessor,AP)支持,该应用处理器通常包括在例如使用10到20MHz微控制器以及ARM架构的高端装置中。
发明内容
根据本发明的第一方面,提供一种音频分类器,该音频分类器包括:第一处理器,该第一处理器具有硬连线逻辑,该硬连线逻辑被配置成接收音频信号且从该音频信号检测音频活动;以及
第二处理器,该第二处理器具有可重新配置的逻辑,该可重新配置的逻辑被配置成响应于第一处理器检测音频活动而将该音频信号分类为一类型的音频信号。
本发明使得能够以计算上有效且功率有效的方式分类音频活动。该分类可提供为针对音频辨识系统的触发,代替于例如使用关键字或用户按压按钮,且因此实现激活音频辨识系统的改进的方法。
第二处理器的可重新配置的逻辑可被配置成结合软件或固件执行该分类。第二处理器可具有第一级。第二处理器可具有第二级。第二处理器的第一级可由与第二处理器的第二级分离的处理单元提供。第二处理单元的第一级可被配置成结合同件执行分类。第二处理单元的第二级可被配置成结合软件执行分类。
第二处理器的可重新配置的逻辑可为话音活动检测器。第二处理单元的第二级可为话音活动检测器。第二处理器的可重新配置的逻辑可被配置成将音频分类为语音或非语音。
第一处理器的硬连线逻辑可被配置成将与音频信号相关联的一个或多个量度提供到第二处理器。该量度可包括在一时间间隔内音频信号的平均背景电平。第一处理器的硬连线逻辑可被配置成确定音频信号的能量以便检测音频活动。第一处理器的硬连线逻辑可被配置成对模拟音频信号操作。
第二处理器可包括模/数转换器,该模/数转换器被配置成使模拟音频信号数字化。第二处理器的第一级可包括模/数转换器,该模/数转换器被配置成使模拟音频信号数字化。第二处理器可为混合信号处理器。可重新配置的逻辑可被配置成将经数字化的音频信号分类。
第二处理器的可重新配置的逻辑可被配置成确定音频信号的一个或多个特征,且根据该一个或多个特征将音频信号分类。第二处理器的第二级可被配置成确定音频信号的一个或多个特征,且根据该一个或多个特征将音频信号分类。该一个或多个特征可专门包括:音调功率比;短期能量;波峰因数;以及0交叉速率。
第二处理器的第一级可被配置成将与音频信号相关联的一个或多个量度提供到第二处理器的第二级。该一个或多个量度可包括在一时间间隔内音频信号的平均背景电平。第一处理器可被配置成确定音频信号的能量以便检测音频活动。第一处理器可被配置成对模拟音频信号操作。
还公开一种音频分类器,该音频分类器包括处理器,该处理器具有硬连线逻辑,该硬连线逻辑被配置成接收音频信号和从音频信号检测音频活动。该音频分类器可另外包括本文中所公开的特征中的任一个特征。
根据另外的方面,提供一种音频辨识系统,该音频辨识系统包括:
音频分类器;以及
音频辨识单元,该音频辨识单元被配置成响应于第二处理器将音频分类为特定类型音频信号而从音频信号确定一个或多个音频片段。
音频辨识系统可为话音辨识系统。音频辨识单元可为话音辨识单元,该话音辨识单元被配置成响应于第二处理器将音频信号分类为话音信号而从音频信号确定一个或多个词。音频辨识系统可为音乐辨识系统。音频辨识单元可为音乐辨识单元,该音乐辨识单元被配置成响应于第二处理器将音频信号分类为音乐而从音频信号确定一首音乐的标识。
根据另外的方面,提供一种移动计算装置,该移动计算装置包括话音辨识系统或音频分类器。
附图说明
现将仅借助于实例且参看附图描述本发明的一个或多个实施例,附图中:
图1示出音频分类器的框图;
图2示出音频辨识系统的框图;
图3示出另一音频分类器的框图;
图4示出另外的音频分类器的框图;
图5示出由音频分类器的第二处理器(例如参看图4描述)使用软件执行的过程的框图;
图6a到6d示出音频信号的特征;
图7a和7b示出使用不同特征阈值归类的音频信号;
图8示出音频辨识系统的架构的框图;
图9a和9b示出说明图8的音频辨识系统的性能的图表;以及
图10示出说明图8的音频辨识系统的性能的图表。
具体实施方式
图1示出音频分类器100的示意性表示。音频分类器100包括第一处理器102和第二处理器104。第一处理器具有硬连线逻辑,该硬连线逻辑被配置成接收音频信号106和从音频信号106检测音频活动。硬连线逻辑由特定电路布置提供。第二处理器104具有可重新配置的逻辑,该可重新配置的逻辑被配置成响应于第一处理器检测音频活动而将音频信号的分类提供为一类型的音频信号。该可重新配置的逻辑可基于软件或固件指令设定。第一处理器提供关于有用音频信号是否在低功率消耗的情况下存在的粗略指南。第二处理器确认可以较高功率消耗为代价的音频活动的存在。音频分类器100可因此被认为提供低功率激活编解码器。
音频分类器100可提供为音频辨识系统的前端,例如语音/扬声器辨识、扬声器验证或话音命令,以便通过仅向音频辨识系统馈送有用的音频帧而整体上减少系统的功率消耗。有用的音频帧可由看起来类似语音信号(在话音辨识的情况下)的音频区段提供,且可滤除任何其它种类的信号(包括背景语音信号的背景噪声)。此编解码器实现智能电话、平板计算机或可穿戴设备上的计算和功率有效的“始终开启”收听模式,而不会约束用户通过例如按压按钮与其移动装置交互。
图2示出用于移动计算装置的音频辨识系统250的示意图。音频辨识系统250包括麦克风252、类似于参看图1描述的音频分类器的音频分类器200,和音频辨识单元254。音频辨识单元254被配置成响应于音频分类器200的第二处理器204将音频信号206分类为特定类型的音频信号而从音频信号206确定一个或多个音频片段。
举例来说,音频辨识系统250可提供话音辨识系统。在话音辨识系统中,第二处理器204的可重新配置的逻辑向话音活动检测器提供第二处理器204的可重新配置的逻辑,该可重新配置的逻辑被配置成将音频信号206分类为语音或非语音。音频辨识单元254提供话音辨识单元,该话音辨识单元被配置成响应于第二处理器204将音频信号206分类为话音信号而从音频信号206确定一个或多个词。可替换的是,音频片段可为例如音乐的片段。
音频分类器200可提供为可与语音辨识系统分离的独立单元。由此,音频分类器可与现有语音/扬声器辨识引擎组合以便改进该音频分类器的效率。音频分类器的实施方案不必考虑由语音辨识系统的辨识引擎使用的技术/类型的算法,且因此可具备多种不同类型的音频辨识系统。然而,音频分类器的特定实施方案可适于与特定辨识引擎一起工作以便改进总体性能。举例来说,一些话音辨识系统具有其自身的话音检测器,该话音检测器由辨识引擎驱动以避免遗漏有用语音的一部分。音频分类器可因此基于关于音频辨识引擎的特定实施方案的先验信息来配置,音频分类器希望与该音频辨识引擎一起使用以便利用由辨识引擎计算的信息。举例来说,一些音频辨识引擎可将“辨识待决”信号发送到音频分类器以便迫使该音频分类器将传入信号分类为语音片段。换句话说,此音频辨识引擎驱动音频分类器使得该音频分类器保持活跃且向辨识引擎馈送麦克风信号。
图3示出另一音频分类器300的示意性表示。音频分类器300包括第一处理器302、第二处理器304和麦克风352,该麦克风352用于提供模拟音频信号306a。
该第一处理器类似于先前参看图1和2描述的第一处理器。该第一处理器具有硬连线逻辑,该硬连线逻辑被配置成接收模拟音频信号306a,且通过确定模拟音频信号的能量以便检测用于计算噪声背景形状的长期(大于一秒或几秒)估计值的音频活动来从模拟音频信号306a检测音频活动。
在此实例中的第二处理器304的可重新配置的逻辑具有第一级和第二级。每一级可由不同协处理器提供。第一级被配置成解译固件指令308,且第二级被配置成解译软件310。以此方式,第二处理器304结合固件指令308和软件指令310执行分类。可替换的是,第二处理器可被配置成仅使用软件指令执行该分类。
模/数转换器由作用于固件指令308的第二处理器304提供。可替换的是,模/数转换器可由第一处理器302的硬件提供。模/数转换器被配置成数字化模拟音频信号306a且提供数字音频信号306b。
第二处理器304的可重新配置的逻辑被配置成使用软件指令310确定数字音频信号306b的一个或多个特征,且根据该一个或多个特征将该经数字化的音频信号306b分类。该一个或多个特征可专门包括:音调功率比;短期能量;波峰因数;以及0交叉速率。
因此,所提出的解决方案拆分成两个级:第一级,即模拟处理器302以及第二级,即数字处理器304。第一级在使用时与第二处理器304相比具有较低复杂性和功率消耗。
图4更详细地示出类似于先前参看图3描述的音频分类器的另一音频分类器400的框图。音频分类器400可提供有效的低功率激活编解码器以及模/数(analogue-to-digital,A/D)转换器架构(低电压)和低复杂性话音活动检测器(voice activitydetector,VAD)协处理器。
音频分类器400操作所基于的原理如下:
1.由麦克风452所拾取的模拟音频信号406a由第一处理器402的硬件检测器监视,该硬件检测器以例如16kHz的低取样速率执行包络检测。
2.一旦由第一处理器402检测到音频信号406a中的电平改变,就改变第二处理器404的音频取样速率以递送较高信噪比。使用固件指令操作FIFO缓冲器以缓冲接下来的样本达300ms或200与300ms之间。在此实例中,FIFO缓冲器具有16kHz的取样速率和16位的分辨率,且由在8MHz下操作的数字信号处理器实施。固件前端:
a.在200ms分析窗口内缓冲16kHz音频样本
b.使用包络检测通过以1ms到100ms的范围内的不同时间常数对输入信号的能量滤波来确认分析窗口内信号的能量显著(高于能量阈值)。在分析窗口的周期内将短期与长期估计器之间的差积分以便决定拒绝音频缓冲器还是继续软件VAD及其频谱分析。
c.调整由硬件协处理器或第一处理器402提供的能量检测器的增益和检测阈值412。以此方式,第二处理器404被配置成将与模拟音频信号406a相关联的一个或多个量度412提供到第一处理器402。
3.话音活动检测器由第二处理器404的软件指令410提供以便再处理200ms缓冲器并确认音频活动(例如语音)存在与否。话音活动检测器能够利用由第二处理器404使用固件指令408计算的背景噪声411的估计值。
可基于青少年和成年人对移动装置的典型日常使用实现由音频分类器的一些实施方案提供的效率节省。第一处理器采取音频活动所处的阈值可根据用户的简档或用户的类别来没定,以便改进音频分类器的效率和输出准确性。
图5示出由第二处理器的软件指令提供的实例话音活动检测器(voice activitydetector,VAD)500的框图。下文使用Matlab记法提供VAD 500的实例算法。
VAD 500通过将数字音频信号506b拆分522为32ms的帧(16kHz下)而开始,其中不存在分析窗口且无重叠。
VAD 500从每一帧提取524一个或多个测得的特征。优选地,提取至少3个特征以便提供适当稳健的分类。分类的准确性根据所使用的特征的数目增加。然而,话音活动检测器的计算复杂性也根据所使用的特征的数目增加。
对于每一传入帧,在16ms的子帧上计算三个短期特征。已经发现相对于不同噪声条件特别有利并且还限制软件复杂性的特征为:
1.短期能量:用于语音/安静检测。然而,此特征在有噪声的条件下(尤其在较低信噪比条件下)损失其效率。短期能量是针对信号的每一帧t计算的能量E的简单短时测量值。
其中L为包括样本n的帧大小。此处,为减小复杂性起见,不在麦克风信号x上应用分析窗口,且不存在连续帧之间的重叠。
2.频谱波峰因数是有声/无声/安静检测的良好特征。此特征可在有限频率范围内而非在输入信号的完整频谱上计算。频谱波峰因数可从短时傅里叶变换(STFT)计算,且针对声音的每一短时帧计算。频谱波峰因数是STFT的峰值量值与STFT量值的总和的比率
其中Mt[n]是帧t和频率区间n处傅里叶变换的量值。
3.音调功率比:其已发现是除先前两个特征之外的真正可辨别的特征。通过计算音调分量的功率k与所有分量的总功率n的比率来获得音调功率比。可通过保持STFT的仅频率分量具有高于阈值GT的其平方量值来进行音调分量的功率的估计。
其中V={k,|Mt[k]|2>GT}
且,任选地:
4.0交叉速率:时域音频信号在正与负之间改变的速率。0交叉速率可使用以下公式计算:
通常,尽管频谱波峰因数和音调功率比提供互补信息,但这些特征的计算是基于共同量,且因此可通过利用共同量减少确定两个特征的过程中的计算量。
以上四个特征(短期能量、频谱波峰因数、音调功率比、0交叉比率)的组合已发现对于多种日常活动是有利的,且可提供功率消耗与分类准确性之间的可接受的折衷。下文参看图6a到6d描述组合特征以提供“多边决策”的实例。
图6a到6d示出与在12dB SNR处在购物中心记录的音频信号600相关联的以上特征1到3的实例波谱。
图6a示出音频信号600相对于时间的正规化的振幅。音频信号600具有由安静(非语音)周期604分隔开的语音周期602。
图6b示出音频信号600随着时间而变的短期能量606。图6b中还示出用于分类语音602和非语音604的周期的短期能量阈值608。
图6c示出音频信号600随着时间而变的频谱波峰610。图6c中还示出用于分类语音602和非语音604的周期的阈值水平612。
图6d示出音频信号随着时间而变的音调功率比614。
如从图6b到6d清楚的是,个别地获得的特征中的每一个特征提供音频信号在特定时间包括语音602还是非语音604的合理的估计值。通过组合这些特征,可提供稳健的分类方案。举例来说,如果特征的一个以上特征满足预定阈值,那么软件可将音频帧分类为语音帧。此分类可被称为多边决策。
两组阈值可用于短期能量和音调功率比。该阈值可变化以便相对于LPAM提供的噪声电平估计值和全局可调谐阈值调整VAD的灵敏度。对于每一新的子帧,将短期能量值与全局阈值和噪声电平估计值的总和进行比较。目标是根据背景噪声条件和用户的位置实现算法的自我调整。实际上,麦克风上的语音电平取决于例如用户接近还是远离装置等因素而不同。不同组的阈值之间的切换在短期能量阈值上可见,尤其是在我们查看不存在语音的时间周期时。可替换的是,可使用具有短期特征的固定阈值。
返回到图5,通过将经提取特征524与阈值528比较来作出VAD决策526。使用经提取特征524的阈值528的调适是必需的,以便跟踪声学环境中的时变改变。如果语音周期不当地分类为噪声周期,那么阈值的估计将被破坏。此破坏可影响音频信号506b的后续帧522的分类。在一些应用(例如一些移动应用)中,错分类可能尤其重要,因为通过触发话音辨识应用损耗能量,然而语音元素的遗漏导致话音辨识信息的损失。可根据针对特定应用的要求没定用于各种特征的阈值水平。举例来说,在其中初级目标是最小化功率消耗的应用中,可能优选的是潜在地损失某一有用信号以避免浪费功率和分析安静周期。可替换的是,在其中音频信号中有用信息的损失并不可接受的应用中,可通过分析安静周期来进行折衷。
图7a示出相对于时间的音频信号700,连同已经识别为语音702a的周期的指示,其中该特征的阈值已经设定使得不必要的分析时间最小化,以损耗一些有用语音703为代价。
图7b示出相对于时间的音频信号700,连同已经识别为语音702b的周期的指示,其中该特征的阈值已经设定使得无信息损耗,以分析安静周期704b为代价。
返回到图5,为确保VAD的平稳行为,通过考虑过往决策的历史获得32ms时间帧上的基于帧的决策,且该决策由释放时间控制校正。实际上,对于32ms的每一帧,我们获得来自16ms信号分析的两个决策。块526影响16ms时间帧上的基于帧的决策。此对应于多边决策部分。
VAD校正块530可基于决策历史和释放时间修改音频分类器输出的最后决策。最后10个决策可存储在缓冲器中,这意味着最后160ms用于确认当前帧中的语音存在。一旦已确认当前帧中的语音存在,释放时间就逆向触发以便确保系统将不会抑制有用语音的一部分。
图8示出用于话音辨识系统800的实例架构。话音辨识系统800包括智能音频放大器801和多核心处理器850。智能音频放大器具有低功率音频监视(1ow power audiomonitoring,LPAM)单元802,该低功率音频监视单元802可在硬件和固件中实施且对应于参看先前实例描述的第一处理器和第二处理器的第一级。低功率音频监视单元802从麦克风852接收音频信号806,且将检测到的音频提供到缓冲器804,用于缓冲200ms样本。200ms样本包括检测到的音频/话音活动,且使用例如串行端口接口从缓冲器404传递到多核心处理器850。多核心处理器可具备ARM架构。实例处理器包括Cortex A57。多核心处理器850具有音频集线器852和应用处理器854。音频集线器提供始终开启关键字检测检验,且包括3秒缓冲器。音频集线器850可提供参看先前实例描述的第二处理器的第二级的功能性。由此,在此实例中,第二处理器的第一级由与第二处理器的第二级分离的处理单元提供。应用处理器854可被配置成运行话音或音乐辨识软件。
图9a和9b示出说明图8的音频辨识系统的性能的图表。图9a示出针对包括音频辨识系统的移动装置的实例日常使用案例中的时间分布的饼图。装置花费当天的50%在噪声环境中,当天的33%在安静环境中,以及当天的17%收听话音。图9b示出归于第一处理器的硬连线逻辑(0.14mW的功率消耗)、解译固件指令的第二处理器的第一级(0.85mW的功率消耗)和第二处理器的第二级(1mW或更大的功率消耗)的装置能量消耗的比例。
图10还示出说明各种使用条件中图8的音频辨识系统的性能的图表。针对多种条件提供总功率消耗(以毫瓦计):安静(0.21mW)、办公室(0.46mW)、客厅(0.46mW)、繁忙街道(0.50mW)、体育场(0.67mW)、音乐会(1.00mW)。针对每一条件示出每一过程消耗的总功率消耗的比例。从图10中的水平轴移开,示出功率消耗的块以如下次序布置:第一处理器(硬连线逻辑-HWED)、第二处理器的第一级(固件逻辑-FWED)、第二处理器的第二级(软件逻辑-VAD)和应用处理器上运行的话音辨识软件(AP)。在具有高信噪比的安静条件中,所消耗功率的大部分是由第一处理器消耗,但所消耗功率的总量为低。相比而言,在具有低信噪比的有噪声条件中,所消耗功率的较大比例是由后续级(例如由第二处理器或话音辨识过程提供的功能)消耗,且所消耗功率的总量较大。
话音辨识系统可被配置成提供功能性,例如:
·话音激活,比如‘OK GOOGLETM,
·涵盖两个技术的话音命令
○基于关键字,比如‘CALL HOME’、‘STOP MUSIC’等
○基于自然语言,比如‘CALL MY WIFE’、‘SEND TEXT MESSAGE TO MY WIFE′SMOBILE THAT I WILL BE LATE’
具体来说,话音辨识系统可用于提供:
话音唤醒,始终开启话音触发:麦克风打开且安静地等待检测到关键词(或有用语音)。可使用生物统计验证,可随后执行情绪的检测、语言的检测。所提议的音频前端继续馈送应用处理器上运行的算法直至用户停止说话为止。
音乐传感器,‘始终开启Shazam’:一个麦克风打开,搜索重复频谱和节拍型式。一旦检测到音乐或歌手话音,就启动网络应用以用于媒体相关数据交换(音乐文件、音乐会门票、用户归档等)
元数据促成因素:处理麦克风信号以提取待在与其它传感器的传感器集线器中合并的信息。在此情况下,辨识引擎不仅用于分析语音信号,而且用于分析任何相关环境声音源。在此情况下,可不需要第二处理器的第二级。因此,用于辨识引擎的唤醒信号依赖于例如参看图8描述的低功率音频监视(low power audio monitoring,LPAM)单元,来检测背景噪声的能量变化且将该能量变化报告给应用处理器。由此,可考虑第二处理器的第一级来通过提供能级而分类音频信号。由LPAM滤波的麦克风信号接着可由应用处理器处理以获得声音源方向、房间大小估计量、背景噪声电平,或执行用于上下文感知的音频图案辨识。使用案例实例包括在驱动车辆之后停止引擎,且通知应用处理器来自该应用处理器的周围环境(例如车库、人员密集场所或警报器)的新背景噪声。
Claims (10)
1.一种音频分类器,其特征在于,包括:
第一处理器,所述第一处理器具有硬连线逻辑,所述硬连线逻辑被配置成接收音频信号且从所述音频信号检测音频活动,所述第一处理器为模拟处理器;以及
第二处理器,所述第二处理器为数字处理器并包括模/数转换器,所述模/数转换器被配置成数字化所述模拟音频信号;所述第二处理器具有可重新配置的逻辑,所述可重新配置的逻辑被配置成响应于所述第一处理器检测音频活动而将所述音频信号分类为一类型的音频信号;
所述第二处理器为话音活动检测器,其中所述第二处理器被配置成将所述音频信号分类为语音或非语音;
所述第二处理器被配置成确定所述音频信号的至少三个特征,且根据所述至少三个特征将所述音频信号分类,所述至少三个特征包括:
短期能量;
音调功率比;以及
波峰因数;
所述第二处理器利用共同量来计算所述音调功率比和所述波峰因数。
2.根据权利要求1所述的音频分类器,其特征在于,所述第二处理器被配置成结合软件或固件执行所述分类。
3.根据权利要求1或2所述的音频分类器,其特征在于,所述至少三个特征还包括:
0交叉速率。
4.根据权利要求1或2所述的音频分类器,其特征在于,所述第二处理器被配置成产生与所述音频信号相关联的一个或多个量度。
5.根据权利要求4所述的音频分类器,其特征在于,所述量度包括一时间间隔内所述音频信号的平均背景电平。
6.根据权利要求1或2所述的音频分类器,其特征在于,所述第一处理器被配置成确定所述音频信号的能量以便检测音频活动。
7.根据权利要求1或2所述的音频分类器,其特征在于,所述第一处理器被配置成对模拟音频信号操作。
8.一种音频辨识系统,其特征在于,包括:
在前的任一项权利要求所述的音频分类器;以及
音频辨识单元,所述音频辨识单元被配置成响应于所述第二处理器将所述音频分类为特定类型音频信号而从所述音频信号确定一个或多个音频片段。
9.根据权利要求8所述的音频辨识系统,其特征在于,所述音频辨识系统为话音辨识系统,且所述音频辨识单元为话音辨识单元,所述话音辨识单元被配置成响应于所述第二处理器将所述音频信号分类为话音信号而从所述音频信号确定一个或多个词。
10.一种移动计算装置,其特征在于,包括根据权利要求9所述的话音辨识系统。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP15290195.5 | 2015-07-28 | ||
EP15290195.5A EP3125244B1 (en) | 2015-07-28 | 2015-07-28 | Audio classifier |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106409312A CN106409312A (zh) | 2017-02-15 |
CN106409312B true CN106409312B (zh) | 2021-12-10 |
Family
ID=53887043
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610601995.6A Active CN106409312B (zh) | 2015-07-28 | 2016-07-27 | 音频分类器 |
Country Status (2)
Country | Link |
---|---|
EP (1) | EP3125244B1 (zh) |
CN (1) | CN106409312B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107301858B (zh) * | 2017-05-31 | 2020-09-22 | 华南理工大学 | 基于音频特征空间分层描述的音频分类方法 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5278944A (en) * | 1992-07-15 | 1994-01-11 | Kokusai Electric Co., Ltd. | Speech coding circuit |
CN102446506A (zh) * | 2010-10-11 | 2012-05-09 | 华为技术有限公司 | 音频信号的分类识别方法及装置 |
CN103827963A (zh) * | 2011-09-27 | 2014-05-28 | 感官公司 | 使用说话者检验的背景语音辨识助理 |
US20140297287A1 (en) * | 2013-04-01 | 2014-10-02 | David Edward Newman | Voice-Activated Precision Timing |
US20140343949A1 (en) * | 2013-05-17 | 2014-11-20 | Fortemedia, Inc. | Smart microphone device |
US20150066498A1 (en) * | 2013-08-28 | 2015-03-05 | Texas Instruments Incorporated | Analog to Information Sound Signature Detection |
CN104781875A (zh) * | 2012-11-14 | 2015-07-15 | 高通股份有限公司 | 音频环境分类的系统和方法 |
-
2015
- 2015-07-28 EP EP15290195.5A patent/EP3125244B1/en active Active
-
2016
- 2016-07-27 CN CN201610601995.6A patent/CN106409312B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5278944A (en) * | 1992-07-15 | 1994-01-11 | Kokusai Electric Co., Ltd. | Speech coding circuit |
CN102446506A (zh) * | 2010-10-11 | 2012-05-09 | 华为技术有限公司 | 音频信号的分类识别方法及装置 |
CN103827963A (zh) * | 2011-09-27 | 2014-05-28 | 感官公司 | 使用说话者检验的背景语音辨识助理 |
CN104781875A (zh) * | 2012-11-14 | 2015-07-15 | 高通股份有限公司 | 音频环境分类的系统和方法 |
US20140297287A1 (en) * | 2013-04-01 | 2014-10-02 | David Edward Newman | Voice-Activated Precision Timing |
US20140343949A1 (en) * | 2013-05-17 | 2014-11-20 | Fortemedia, Inc. | Smart microphone device |
US20150066498A1 (en) * | 2013-08-28 | 2015-03-05 | Texas Instruments Incorporated | Analog to Information Sound Signature Detection |
Also Published As
Publication number | Publication date |
---|---|
EP3125244B1 (en) | 2019-11-27 |
EP3125244A1 (en) | 2017-02-01 |
CN106409312A (zh) | 2017-02-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10115399B2 (en) | Audio classifier that includes analog signal voice activity detection and digital signal voice activity detection | |
US10535365B2 (en) | Analog voice activity detection | |
US9721560B2 (en) | Cloud based adaptive learning for distributed sensors | |
US10867611B2 (en) | User programmable voice command recognition based on sparse features | |
US9412373B2 (en) | Adaptive environmental context sample and update for comparing speech recognition | |
US9466288B2 (en) | Comparing differential ZC count to database to detect expected sound | |
US9460720B2 (en) | Powering-up AFE and microcontroller after comparing analog and truncated sounds | |
Lu et al. | Speakersense: Energy efficient unobtrusive speaker identification on mobile phones | |
US10504539B2 (en) | Voice activity detection systems and methods | |
US10403279B2 (en) | Low-power, always-listening, voice command detection and capture | |
TWI474317B (zh) | 訊號處理裝置以及訊號處理方法 | |
US20150063575A1 (en) | Acoustic Sound Signature Detection Based on Sparse Features | |
US9830913B2 (en) | VAD detection apparatus and method of operation the same | |
US9666183B2 (en) | Deep neural net based filter prediction for audio event classification and extraction | |
US20140358552A1 (en) | Low-power voice gate for device wake-up | |
US9959886B2 (en) | Spectral comb voice activity detection | |
CN110232933B (zh) | 音频检测方法、装置、存储介质及电子设备 | |
US20150269954A1 (en) | Adaptive microphone sampling rate techniques | |
WO2014153800A1 (zh) | 语音识别系统 | |
CN105704300A (zh) | 具数字麦克风的声音唤醒侦测装置及相关方法 | |
EP3574499B1 (en) | Methods and apparatus for asr with embedded noise reduction | |
US20220122592A1 (en) | Energy efficient custom deep learning circuits for always-on embedded applications | |
CN112951243A (zh) | 语音唤醒方法、装置、芯片、电子设备及存储介质 | |
US20170213556A1 (en) | Methods And Apparatus For Speech Segmentation Using Multiple Metadata | |
CN106409312B (zh) | 音频分类器 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
TA01 | Transfer of patent application right | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20200317 Address after: Room 2113, 21 / F, Sheung Shui Plaza, 39 long Chen Road, Sheung Shui, Hong Kong, China Applicant after: Top top technology (Hongkong) Co., Ltd. Address before: Holland high tech park, Eindhoven 60 zip code: 5656AG Applicant before: NXP B.V. |
|
GR01 | Patent grant | ||
GR01 | Patent grant |