CN103999517B - 音频特征数据的提取及分析 - Google Patents
音频特征数据的提取及分析 Download PDFInfo
- Publication number
- CN103999517B CN103999517B CN201280052875.5A CN201280052875A CN103999517B CN 103999517 B CN103999517 B CN 103999517B CN 201280052875 A CN201280052875 A CN 201280052875A CN 103999517 B CN103999517 B CN 103999517B
- Authority
- CN
- China
- Prior art keywords
- processor
- mode
- audio data
- codec
- activity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000004458 analytical method Methods 0.000 title claims description 30
- 238000000605 extraction Methods 0.000 title claims description 26
- 238000000034 method Methods 0.000 claims abstract description 88
- 230000000694 effects Effects 0.000 claims description 85
- 238000001514 detection method Methods 0.000 claims description 58
- 238000003860 storage Methods 0.000 claims description 27
- 238000012545 processing Methods 0.000 claims description 22
- 230000004913 activation Effects 0.000 claims description 18
- 230000009466 transformation Effects 0.000 claims description 14
- 230000008859 change Effects 0.000 claims description 12
- 230000006870 function Effects 0.000 claims description 12
- 238000012546 transfer Methods 0.000 claims description 12
- 230000003139 buffering effect Effects 0.000 claims description 8
- 230000004044 response Effects 0.000 claims description 5
- 239000000284 extract Substances 0.000 claims description 4
- 238000001914 filtration Methods 0.000 claims description 4
- 230000001131 transforming effect Effects 0.000 claims description 2
- 230000003111 delayed effect Effects 0.000 claims 1
- 230000014759 maintenance of location Effects 0.000 claims 1
- 238000013459 approach Methods 0.000 abstract description 2
- 238000005516 engineering process Methods 0.000 description 6
- 238000013461 design Methods 0.000 description 5
- 230000008569 process Effects 0.000 description 4
- 241001269238 Data Species 0.000 description 3
- 238000013501 data transformation Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000005070 sampling Methods 0.000 description 3
- 230000001568 sexual effect Effects 0.000 description 3
- 230000007704 transition Effects 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 230000000737 periodic effect Effects 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 230000005236 sound signal Effects 0.000 description 2
- 241000209140 Triticum Species 0.000 description 1
- 235000021307 Triticum Nutrition 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 230000003213 activating effect Effects 0.000 description 1
- 230000000712 assembly Effects 0.000 description 1
- 238000000429 assembly Methods 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 230000005611 electricity Effects 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000001020 rhythmical effect Effects 0.000 description 1
- 238000009987 spinning Methods 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 230000002618 waking effect Effects 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W52/00—Power management, e.g. TPC [Transmission Power Control], power saving or power classes
- H04W52/02—Power saving arrangements
- H04W52/0209—Power saving arrangements in terminal devices
- H04W52/0261—Power saving arrangements in terminal devices managing power supply demand, e.g. depending on battery level
- H04W52/0274—Power saving arrangements in terminal devices managing power supply demand, e.g. depending on battery level by switching on or off the equipment or parts thereof
- H04W52/028—Power saving arrangements in terminal devices managing power supply demand, e.g. depending on battery level by switching on or off the equipment or parts thereof switching on or off only a part of the equipment circuit blocks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/18—Vocoders using multiple modes
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W52/00—Power management, e.g. TPC [Transmission Power Control], power saving or power classes
- H04W52/02—Power saving arrangements
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/005—Correction of errors induced by the transmission channel, if related to the coding algorithm
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/008—Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L2015/088—Word spotting
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D30/00—Reducing energy consumption in communication networks
- Y02D30/70—Reducing energy consumption in communication networks in wireless communication networks
Landscapes
- Engineering & Computer Science (AREA)
- Signal Processing (AREA)
- Computer Networks & Wireless Communication (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Mathematical Physics (AREA)
- Telephone Function (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
- Power Sources (AREA)
Abstract
一种特定方法包含在处理器处从低功率状态转变出。所述方法还包含在从所述低功率状态转变出之后从缓冲器检索音频特征数据。所述音频特征数据指示在所述处理器的所述低功率状态期间接收的音频数据的特征。
Description
相关申请案的交叉参考
本申请案主张来自2011年11月1日申请的第61/554,318号美国临时申请案及2012年5月30日申请的第13/483,732号美国非临时申请案的优先权,所述申请案中的每一者的内容以引用的方式全文并入。
技术领域
本发明大体涉及音频特征数据的提取及分析。
背景技术
技术的进步已产生更小且更强大的计算装置。举例来说,当前存在多种便携式个人计算装置,包含无线计算装置,例如较小、轻重量且易于由用户携带的便携式无线电话、个人数字助理(PDA)及寻呼装置。更具体来说,例如蜂窝式电话及因特网协议(IP)电话的便携式无线电话可经由无线网络传达语音及数据包。此外,许多此类无线电话包含并入其中的其它类型装置。举例来说,无线电话还可包含数字静态相机、数字视频摄像机、数字记录器及音频文件播放器。
由于并入到无线电话中的装置数目增加,无线电话处的电池资源可变得缺乏。为节省电池资源,无线电话可在非活动时段后转变到“闲置”或“睡眠”模式中。无线电话可响应于网络事件(例如,接收电话呼叫)或用户输入(例如,用户按压无线电话的按钮)而转变回到“活动”或“唤醒”模式中。一些装置还可包含响应于音频输入(例如,语音命令)而“唤醒”的能力。然而,为了实施此类功能性,装置的处理器及其它组件可在“一直接通”模式中运行且可持续消耗功率,这可降低装置的整体电池寿命。
发明内容
揭示一种提取及分析音频特征数据的低功率系统及方法。举例来说,本文所揭示的技术可以减少的功率消耗来实现电子装置(例如,无线电话)中的声音感测功能性。电子装置可包含耦合到处理器(例如,音频数字信号处理器(DSP))的低功率译码器/解码器(CODEC)。系统可具有多个操作模式,每一模式对应于CODEC活动性与处理器活动性的不同比率。举例来说,在第一模式中,CODEC可持续操作且处理器可以第一速率工作循环。举例来说,处理器可根据10%工作循环而操作(即,10%的时间活动且90%的时间闲置)。在第二模式中,CODEC也可为具有工作循环的。CODEC可在不同模式中以不同的速率工作循环。在一些模式中,CODEC的活动性可大于或等于处理器的活动性。在其它模式中,例如在处理器具有沉重的计算负荷时,处理器的活动性可大于CODEC的活动性。CODEC可接收音频数据(例如,从装置的麦克风),并从音频数据提取音频特征。处理器可分析音频特征,且可基于分析而执行一或多个动作。举例来说,处理器可基于分析而激活电子装置的一或多个其它组件。
在特定实施例中,一种方法包含在处理器处从低功率状态转变出。所述方法还包含处理器在从所述低功率状态转变出之后从缓冲器检索音频特征数据。所述音频特征数据指示在所述处理器的所述低功率状态期间接收的音频数据的特征。在一些实施例中,在处理器处于低功率状态中时,可能已接收到音频数据,且可能已由耦合到处理器的CODEC提取音频特征数据。
在另一特定实施例中,一种方法包含在CODEC处接收音频数据的帧。所述方法还包含从音频数据的所述帧提取音频特征数据。所述方法进一步包含将所述经提取音频特征数据存储在缓冲器中以在具有工作循环的处理器的活动状态期间可由所述具有工作循环的处理器存取。
在另一特定实施例中,一种设备包含处理器及多个滤波器,所述滤波器经配置以对音频数据的一或多个帧滤波以产生经滤波音频数据的能量(与所述处理器处于低功率状态中或是处于活动状态中无关)。所述设备还包含转换器,其经配置以基于所述经滤波音频数据的所述能量而产生音频特征数据。所述设备进一步包含变换器,其经配置以将变换函数应用于所述音频特征数据以产生经变换数据。所述处理器经配置以在从所述低功率状态转变出到所述活动状态之后对所述经变换数据执行一或多个操作。
在另一特定实施例中,一种设备包含处理器,所述处理器经配置以基于所述处理器的应用程序上下文而在于第一模式中操作与在第二模式中操作之间动态地切换。所述处理器还经配置以在从低功率状态转变出之后从缓冲器检索及处理音频特征数据。所述音频特征数据指示在所述处理器处于所述低功率状态时由CODEC接收的音频数据的特征。在所述第一模式中CODEC活动性与处理器活动性的比率大于在所述第二模式中CODEC活动性与处理器活动性的比率。
在另一特定实施例中,一种非暂时性处理器可读媒体包含在由处理器执行时致使所述处理器在于第一模式中操作与在第二模式中操作之间动态地切换的指令。在所述第一模式中CODEC活动性与处理器活动性的比率大于在所述第二模式中CODEC活动性与处理器活动性的比率。所述指令在执行时还致使处理器在工作循环期间从较低功率状态转变出,以及分析在所述低功率状态期间提取的音频特征数据。所述指令在执行时进一步致使处理器转变回到所述低功率状态中。
所揭示实施例中的至少一者所提供的特定优点包含电子装置通过使用一直接通CODEC(或具有工作循环的CODEC)及具有工作循环的处理器而提取及分析音频特征数据的能力。
举例来说,所述音频特征数据可指示在所述具有工作循环的处理器处于低功率状态时由CODEC接收的音频数据的特性。音频特征数据的提取及分析可以与包含一直接通CODEC及一直接通音频处理器的系统相比而降低的功率消耗来执行。音频特征数据的分析可触发各种操作,例如激活电子装置的触摸屏或其它组件。
在检视整个申请案之后,将明白本发明的其它方面、优点及特征,申请案包含以下部分:附图说明、具体实施方式及权利要求书。
附图说明
图1是用以说明可操作以提取及分析音频特征数据的系统的特定实施例的图;
图2是用以说明可操作以提取及分析音频特征数据的系统的另一特定实施例的图;
图3是用以说明图2的CODEC与图2的处理器之间的划分操作的特定实施例的图;
图4是用以说明在图1的系统或图2的系统处的操作的特定实施例的图;
图5是用以说明在图1的系统或图2的系统处的功率消耗的特定实施例的图;
图6是用以说明在具有工作循环的处理器处对音频特征执行声音辨识的方法的特定实施例的流程图;
图7是用以说明在CODEC处提取音频特征的方法的特定实施例的流程图;
图8是用以说明在处理器处于存储并转发模式中操作与在直接传送模式中操作之间动态切换的方法的特定实施例的流程图;
图9是用以说明通过电子装置的较低功率组件来执行所述电子装置的较高功率组件的交错分级激活的方法的特定实施例的流程图;以及
图10是根据图1-9的系统及方法的可操作以提取及分析音频特征数据的无线装置的框图。
具体实施方式
参考图1,展示并大体用100表示可操作以提取及分析音频特征数据的系统的特定实施例。系统100包含耦合到处理器150的译码器/解码器(CODEC)120。在特定实施例中,处理器150可为数字信号处理器(DSP),例如音频DSP。在一些实施例中,缓冲器140可位于CODEC120与处理器150之间,如图所示。在替代实施例中,缓冲器140可在CODEC120或处理器150内部,如参考图2-3进一步描述。
在特定实施例中,CODEC120可持续操作且接收音频数据110。举例来说,音频数据110可通过耦合到CODEC120的麦克风或其它声音输入装置来产生。音频数据110可为“原始”(即,未处理及/或未压缩)音频数据。CODEC120可经配置以从音频数据110提取音频特征,借此产生音频特征数据130。在特定实施例中,音频特征数据130在大小方面可实质上小于音频数据110。CODEC120可将音频特征数据130存储在缓冲器140(例如,随机存取存储器(RAM)缓冲器)中。在特定实施例中,音频特征数据130可指示音频数据110的特定特性,例如音高、音调、音量及/或节奏特性。CODEC120还可在提取音频特征数据130后丢弃音频数据110。
处理器150可根据工作循环来操作。为了进行说明,如果处理器150根据10%的工作循环来操作,那么处理器150在10%的时间为“活动”的(即,处于高功率状态),且在90%的时间为“闲置”的(即,处于低功率状态)。在特定实施例中,处理器150可响应于可编程时间周期(例如,处理器150的工作循环可为可编程的)的过期而在活动状态与闲置状态之间定期转变。具有工作循环的处理器150因此可消耗比“一直接通”处理器少的功率。
在从低功率状态转变出之后,处理器150可从缓冲器140检索音频特征数据130且分析所检索的音频特征数据130。处理器150可基于分析的结果来执行一或多个操作。举例来说,当将系统100集成到电子装置(例如无线电话)中时,处理器150可基于音频特征数据130的分析而产生激活信号160以激活电子装置的一或多个组件(例如,应用程序处理器或移动站调制解调器(MSM)的一部分,如参考图10进一步描述)。
在操作期间,CODEC120可持续接收音频数据110的帧,并将从音频数据110提取的音频特征数据130存储在缓冲器140中。举例来说,音频数据110的每一帧可为20ms长。在特定实施例中,根据先进先出政策,较新的音频特征数据130可改写缓冲器140中的较旧的音频特征数据130。
应注意,代替如图1中所描绘而持续地操作,CODEC120可代替为具有工作循环的。举例来说,如果CODEC120没有比所希望的节能或为“传统”CODEC,那么CODEC120可为具有工作循环的。一股来说,即使CODEC120为具有工作循环的,CODEC120仍可比处理器150更多活动。因此,系统100可支持多个操作模式。在第一模式中,CODEC120可执行较频繁的音频信号处理且可大概消耗较多功率。在第二模式中,CODEC120可执行较不频繁的音频信号处理且可大概消耗较少功率。处理器150可在第一模式与在第二模式中具有相同工作循环。
将了解,可由双模式(或多模式)系统100支持各种实施方案,每一模式具有不同的CODEC活动性与处理器活动性比率。举例来说,较高的活动性模式可涉及以第一速率(例如,D1)工作循环的持续操作的CODEC120及处理器150,且较低的活动性模式可涉及以大于或等于第一速率的第二速率(例如,D2,D2>=D1)工作循环的CODEC120。作为另一实例,较高的活动性模式可涉及以第一速率(例如,D1)工作循环的CODEC120及以第二速率(例如,D2)工作循环的处理器150,且较低的活动性模式可涉及以第三速率(例如,D3)工作循环的CODEC120及以第二速率(例如,D2)工作循环的处理器150。第一速率可实质上大于第二速率(例如,D1>>D2),且第三速率可大于或等于第二速率(例如,D3>=D2)。选定实施方案还可支持其中CODEC活动性小于或等于处理器活动性的模式,例如在沉重的处理器计算负荷的时段期间。举例来说,第三速率可小于或等于第二速率(例如,D3<=D2)。
取决于CODEC120及处理器150活动的频率,系统100可在存储并转发模式中操作或在直接传送模式中有效工作。在存储并转发模式中,处理器150可在从低功率状态转变出后即腾空缓冲器140。即,处理器150可在处理器150处于低功率模式中的同时检索对应于CODEC120所接收的音频数据110的每个帧(或多个帧)的音频特征数据130。在直接传送模式中,处理器150可检索对应于音频数据110的单个帧(例如,音频数据110的最近接收的帧)的音频特征数据130。在特定实施例中,处理器150可在于存储并转发模式中操作与在直接传送模式中操作之间动态切换,及/或基于处理器150的应用程序上下文在较高活动性模式与较低活动性模式(其中较高活动性模式具有比较低活动性模式高的CODEC活动性与处理器活动性比率)之间切换,如参看图2及4进一步描述。
在检索音频特征数据130之后,处理器150可分析音频特征数据130且可基于分析而产生激活信号160。举例来说,当音频特征数据130的分析识别特定语音输入命令(例如,“唤醒”)时,处理器150可产生激活信号160以激活电子装置的各种组件。
图1的系统100(其包含具有工作循环的处理器)因此可实现以比具有一直接通CODEC及一直接通处理器的系统低的功率来进行音频特征提取及分析。此外,通过缓冲音频数据来代替原始音频数据,图1的系统100可在降低存储器使用量的情况下执行音频分析。
参考图2,展示并大体用200表示可操作以提取及分析音频特征数据的系统的另一特定实施例。系统200可包含耦合到处理器230(例如,图1的处理器150)的CODEC220(例如,图1的CODEC120)。CODEC220还可耦合到声音输入装置,例如说明性麦克风210。
CODEC220可包含模拟/数字转换器(ADC)221,所述ADC221接收来自麦克风210的模拟音频数据212且将所述模拟音频数据212转换为数字音频数据。在其中麦克风210产生数字音频数据的替代实施例中,ADC可不存在。
CODEC220还可包含经配置以从音频数据212提取音频特征226的特征提取器222。在特定实施例中,特征提取器222可包含对音频数据212滤波以产生经滤波音频数据的能量224(例如,梅尔带(mel-band)能量)的多个滤波器223。举例来说,滤波器223可为梅尔带滤波器,其中每一梅尔带滤波器对应于人类感知频率标度的不同部分(例如,倍频程)。为了说明,滤波器223可包含产生对应于22个倍频程的梅尔带能量224的22个梅尔带滤波器。在替代实施例中,特征提取器222可执行基于快速傅立叶变换(FFT)的特征提取。
特征提取器222还可包含对数转换器225。对数转换器225可将对数函数应用于经滤波音频数据的能量224以产生经提取音频特征226。经提取音频特征226可存储在缓冲器(例如,RAM缓冲器)227中。经提取音频特征226可由于紧密设计的音频特征(例如,来自每一20ms帧的22个对数梅尔带能量)而在大小方面实质上小于音频数据212。为了说明,音频数据212可具有16kHz、16位的分辨率。200ms(例如,对应于10个帧)的音频数据212可占据6400字节的空间。然而,10个帧的经提取音频特征226可仅占据220字节的空间(10帧×每帧22特征×每特征1字节)。因此,通过将经提取音频特征226代替原始音频数据212存储在缓冲器227中,缓冲器227可保持地相对小且可消耗相对少的功率。
处理器230可包含状态转变逻辑231。在特定实施例中,状态转变逻辑231可将处理器230转变进入及转变出低功率状态(例如,根据工作循环)。在从低功率状态转变出后,处理器230即可从缓冲器227检索经提取的音频特征226。变换器233可将变换函数应用于经提取音频特征226以产生经变换音频特征数据234。在特定实施例中,变换器233可经配置以应用离散余弦变换(DCT)函数。为了说明,变换经提取音频特征226(其中经提取音频特征226包含对应于每帧22个梅尔带的特征)可通过获取DCT系数的12个元素而产生每帧12个梅尔频率倒频谱系数(MFCC)。
处理器230还可包含经配置以分析经变换音频特征数据234的一或多个声音辨识模块241-245。在特定实施例中,哪些声音辨识模块241-245为活动的可取决于处理器230在哪一模式中操作。为了说明,处理器230处的动态模式切换逻辑232可基于上下文(例如,应用程序上下文)而动态切换处理器230的操作。举例来说,当包含图2的系统200的装置执行应用程序或涉及收听位置、持续音频指纹识别及/或持续关键词检测的其它操作时,逻辑232可致使处理器230在存储并转发模式(例如,其中来自音频数据的多个帧的特征在处理器230活动时经处理)中操作,且模块241-243可为活动的。作为另一实例,当装置执行涉及目标声音检测(例如,特定音乐或话音的检测)及/或新颖性检测时,逻辑232可致使处理器230在存储并转发模式中或在直接传送模式(例如,其中来自音频数据的单个帧的特征在处理器活动时经处理)中操作,且模块244-245可为活动的。在替代实施例中,动态模式切换逻辑232可基于其它因素而切换处理器230的操作,所述其它因素包含(例如)音频数据212及/或音频特征226的特性。
收听位置模块241可将输入声音转换为音频签名。可将所述签名发送到服务器(未图示),且服务器可比较所述签名与从其它装置接收的签名。如果来自不同装置的签名类似,那么服务器可确定不同装置处于相同的声学空间中,其可指示不同装置处于相同的物理位置,收听相同的内容,或具有如由周围声音确定的类似上下文。举例来说,收听位置可用于社交网络服务中以将人分组及/或与一群人共享一项目。
持续音频指纹识别模块242可试图检测预登记(例如,预定)声音快照的存在。与目标声音或环境检测不同,持续音频指纹识别可在存在声音质量失真的情况下强劲地检测感知相同的声音快照,例如与信道降级、均衡、速度改变、数字/模拟或模拟/数字转换等相关的失真。持续音频指纹识别因此可在音乐及广播识别情境下找到应用程序。
持续关键词检测模块243可接收声音输入且可检测预登记(例如,预定)关键词集合的存在。持续关键词检测可在相对低的功率状态中执行,且可基于所检测关键词而激活预定义应用程序。预定关键词集合可通过应用程序处理器而可编程。在特定实施例中,可通过应用程序处理器来下载用于关键词的模型。持续关键词检测因此可在不使用专用语音命令按钮或非语言用户输入的情况下实现语音激活命令。
目标声音检测模块244可检测声音的类型,且可通知对应应用程序以响应所述声音。举例来说,在检测到话音后,目标声音检测可致使语音记录应用程序记录话音。作为另一实例,在检测到音乐后,目标声音检测可致使应用程序识别音乐的属性,例如歌名、艺术家名字及专辑名称。
新颖性检测模块245可检测输入音频中对应于位置改变及/或活动性改变的改变。新颖性检测可结合其它声音辨识操作(例如,收听位置及目标声音检测)来使用以识别位置及声音活动性,且记录用于后续使用及分析的对应时间。当在环境声学中存在显著的改变时,新颖性检测还可用以激活其它声音辨识操作。
在操作期间,CODEC220可持续接收来自麦克风的音频数据212的帧,从音频数据212提取音频特征226,且将音频特征226存储在缓冲器227中。处理器230可根据工作循环而转变进入及转变出低功率状态。在从低功率状态转变出之后,处理器230可检索及变换对应于音频数据212的多个帧(当在存储并转发模式中操作时)或对应于音频数据212的单个帧(当在直接传送模式中操作时)的变换音频特征226。处理器230还可在于较高活动性模式中操作与在较低活动性模式中操作之间转变,如参考图1所描述。当活动时,处理器230可经由声音辨识模块241-245中的一或多者来分析经变换音频特征数据234,且可基于所述分析来确定是否激活应用程序处理器及/或移动站调制解调器(MSM)的组件或其它组件。
在特定实施例中,图2的系统200可提供可服务多个高级应用程序(例如,音乐辨识应用程序、关键词检测应用程序等)的一股收听服务。举例来说,一股收听服务可为高级应用程序提供(例如,经由应用程序编程接口(API)、共享存储器等)处理器230所执行的声音辨识操作的结果。一股收听服务可减少互操作性问题,且可比其中每一高级应用程序具有其自身收听引擎的系统更节省功率。
图2的系统200因此可以减少的功率消耗来实现音频特征提取及分析。举例来说,可将相对低功率操作(例如,模拟数字转换及特征提取)并入到低功率一直接通CODEC(或具有工作循环的CODEC)中,及可将较高功率操作(例如,数据变换及声音辨识)并入到具有工作循环的DSP,且所述较高功率操作可间断地执行。
在特定实施例中,图2的系统200可在电子装置处提供低功率用户接口,所述低功率用户接口包含通过低功率组件激活高功率组件。为了说明,系统200可支持声讯(例如,0-16kHz的取样速率)、信标(例如,16-24kHz的取样速率)及超声波(例如,>24kHz的取样速率)输入。为了支持多个类型的输入,麦克风210可能够接收音频、信标及超声波信号。或者,可将额外麦克风或组件并入到系统200中用于超声波及/或信标检测。用以将声音信号转换为电信号的组件可包含(但不限于)麦克风、压电传感器及超声波换能器。低功率CODEC220可对所接收信号执行粗略检测/分类290。应注意,尽管图2说明粗略检测/分类290被执行于模拟/数字转换器221的输出上,但替代实施例可包含代替对模拟信号执行粗略检测/分类290。取决于粗略检测/分类290的结果,CODEC220可经由激活信号292来激活较高功率处理器230。举例来说,处理器230可在粗略检测/分类290指示已接收到超声波输入的情况下被激活。
应注意,虽然图2说明两级激活等级(即,CODEC220及处理器230),但可实施任何数目个级别。举例来说,在三级等级中,低功率数字/模拟电路可执行粗略检测来确定是否激活较高功率前端处理单元,且前端处理单元可执行精细检测以确定是否激活更高功率主要处理单元,所述更高功率主要处理单元执行最终检测并执行应用程序/用户接口组件。在特定实施例中,可将数字/模拟电路及前端处理单元集成到CODEC220中,且可将主要处理单元集成到处理器230中。为了说明,可将粗略检测/分类块290集成到CODEC220的数字/模拟电路中,且可经由第一激活信号294来选择性地激活CODEC220的前端单元中的精细检测/分类块296。精细检测/分类块296可经由第二激活信号298来激活处理器230处的最终检测/分类块。由较低功率组件进行的较高功率组件的交错分级激活可改进电子装置处的电池寿命。
可在系统200处使用各种检测及分类方法,且一次可使用一个以上方法。在特定实施例中,均方根(RMS)或带功率分类可用以确定所接收信号是否包含在音频、信标及/或超声波范围中的数据。时域方法可包含使用具有信号级检测的滤波器组,其中每一滤波器经设计以提取特定类型的声音,且其中将滤波器输出级别与阈值比较以确定声音是否合格。频域方法可包含执行梅尔间隔倒频谱系数的FFT以导出用以对输入数据分类的频率。声音内容方法可涉及通过使输入信号与已知样式相关来进行样式匹配(例如,以确定输入信号是否从超声波数字触笔接收)。基于模型的方法可包含计算输入信号与预定音乐或话音模型匹配的概率。新颖性检测可涉及检测输入声音特性的改变。当检测到改变时,可通知应用程序以更新上下文信息(例如,装置是室内的还是室外的)。举例来说,当用户从室内环境进到室外环境时,输入声音特性的所得改变可导致用户的移动电话处的应用程序增加电话的振铃音量。
针对图2的系统200及/或其组件的使用情况的实例包含(但不限于):用以控制装置(例如,电视、游戏控制台、计算机及电话)的语音辨识、用于上下文感知的音频辨识、用于数字触笔(例如,用于经由超声波的传输而手写输入到数字装置的超声波数字触笔)的声学及脉冲辨识、超声波手势或邻近检测、使用超声波的装置对装置定位、声学触摸检测、用以识别装置的位置的声音信标、通过音频指纹识别的内容识别、通过声音匹配的对等发现及邻近检测、及通过声音匹配的位置估计。
应注意,虽然图1-2描绘CODEC所执行的特征提取及处理器所执行的数据变换,但这仅用于说明。在替代实施例中,不同功能性可由不同的硬件组件执行。举例来说,参考图3,展示并大体用300表示图2的CODEC220与图2的处理器(例如,DSP)230之间的划分操作的特定实施例。
在第一实施例中,CODEC/DSP边界可位于302。在此第一实施例中,CODEC可包含ADC321,且ADC321的输出可被缓冲。DSP可执行特征提取(例如,经由梅尔带滤波器323及对数转换器325)、数据变换(例如,经由DCT变换器333)、及声音辨识(例如,经由声音辨识模块340)。
在第二实施例中,CODEC/DSP边界可位于304。因此,在此第二实施例中,特征提取可部分由CODEC执行且部分由DSP执行。梅尔带滤波器232的输出可被缓冲。数据变换及声音辨识可由DSP执行。
在第三实施例中,CODEC/DSP边界可位于306。将注意,第三实施例可对应于图1的系统100及图2的系统200。在此第三实施例中,特征提取可完全由CODEC执行,且对数转换器325的输出可被缓冲。数据变换及声音辨识可由DSP执行。
在第四实施例中,CODEC/DSP边界可位于308。在此第四实施例中,特征提取及数据变换两者可由CODEC执行,且DCT变换器333的输出可被缓冲。声音辨识可由DSP执行。
如参考图1-2所描述,所揭示技术可涉及使用一直接通低功率CODEC(或具有工作循环的CODEC)及具有工作循环的处理器,所述具有工作循环的处理器消耗比CODEC在“活动”时多的功率。因此,可需要将相对低功率功能性并入到CODEC中,且在DSP中留下相对高功率功能性。如图3中所示,CODEC/DSP边界及缓冲点可灵活位于多个位置中的任一者中。在特定实施例中,可在电子装置的设计及测试期间且可基于例如电子装置的整体功率消耗及性能的因素来确定CODEC/DSP边界的位置。
参考图4,展示在图1的系统100或图2的系统200处的操作的特定说明且大体上将所述操作标示为400。举例来说,图4比较存储并转发模式与直接传送(例如,实时或接近实时地)模式中的DSP操作。
当DSP在存储并转发模式中操作时,包含多个滤波器(例如,22个梅尔带滤波器)的译码器/解码器可对于所接收音频数据的每一帧提取并累积22个特征/帧(如402处所指示),同时DSP处于低功率状态。当DSP转变出低功率状态时,DSP可检索并分析所累积的特征,如412处所指示。在图4中所说明的特定实施例中,DSP在已由译码器/解码器提取对应于10帧音频数据的音频特征之后转变出低功率状态。因此,在存储并转发模式中,DSP可在转变回到低功率状态之前检索并处理220个音频特征(对应于10帧)。此过程可继续(如由在404处对特征的后续提取所指示),且处理所检索的特征(在414处)。
为避免或减小音频特征损失及缓冲器溢出,当在存储并转发模式中操作时,DSP可根据可编程时间周期转变出低功率状态。所述可编程时间周期可小于或等于基于缓冲器的大小的最大时间周期。因此,在存储并转发模式中,来自由译码器/解码器接收的每一帧的音频特征可最终由DSP加以分析。在特定实施例中,可利用DSP-译码器/解码器握手或另一技术来维持DSP与译码器/解码器之间的同步且减小缓冲器溢出/下溢。
当DSP在直接传送模式中操作时,对应于最近接收的音频帧的音频特征(在406处指示)可经检索且由DSP处理,如在416处所指示。因为存在音频特征到DSP的有效的“直接传送”,因此音频特征可缓冲极短时间量或可根本不缓冲,且可独立于缓冲器的大小而编程DSP的工作循环。因此,在直接传送模式中,DSP可在转变回到低功率状态之前检索并处理22个音频特征(对应于单个音频帧)。此过程可继续,如由在408处的后续提取的特征及418处的所检索特征所指示。因此,在直接传送模式中,可由DSP分析来自由译码器/解码器接收的帧的仅一子集(例如,在图4的实施例中每10帧一个)的音频特征。
应注意,译码器/解码器及DSP可同样支持额外操作模式。通常,译码器/解码器的活动性可大于或等于DSP的活动性。各种操作模式可对应于译码器/解码器活动性与处理器活动性的不同比率。每一操作模式可包含译码器/解码器的工作循环(其中100%对应于一直接通)、DSP的工作循环及/或每次处理器唤醒时分析音频数据的帧的数目的不同设定。可在设计时及/或制造时确定所支持的操作模式的细节。可基于例如应用程序上下文等因素在运行时间确定选择哪一特定操作模式。
参看图5,展示在各种声音感测系统处的功率消耗的特定说明,且其大体标示为500。更明确地说,图5的左手侧说明包含一直接通译码器/解码器及一直接通DSP的系统处的功率消耗,且图5的右手侧说明根据所揭示技术的系统(例如图1的系统100或图2的系统200)处的功率消耗。
左侧的声音感测系统可包含一直接通译码器/解码器502。所述系统还可包含一直接通DSP,其包含一直接通DSP特征提取504及一直接通DSP分析506。因为译码器/解码器及DSP一直接通,因此由所述系统消耗的功率可由相对平坦的曲线表示,如508处所示。
右侧的声音感测系统(例如,图1的系统100或图2的系统200)可包含一直接通低功率译码器/解码器512及514处的译码器/解码器特征提取。所述系统还可包含具有工作循环的DSP。举例来说,在图5的特定实施例中,DSP具有20ms活动时间及200ms闲置时间。因此,尽管在右手侧上的译码器/解码器与具有工作循环的DSP的组合可能在20ms活动时间516、518期间比左手侧上的系统消耗更多功率,但所述组合在具有工作循环的DSP的200ms闲置时间期间可消耗实质上较少的功率。右手侧系统的功率消耗可由曲线518说明。将了解,图5的右手侧上的系统的平均功率消耗(由曲线519说明)可因此实质上小于图5的左手侧上的系统的功率消耗(由曲线508说明)。在一些实施方案中,译码器/解码器512可同样具有工作循环,如参考图1到4所描述。
参考图6,展示在具有工作循环的处理器处对音频特征数据执行声音辨识的方法的特定实施例,且其大体标示为600。在一说明性实施例中,方法600可由图1的处理器150或图2的处理器230执行。
方法600可包含在602处在处理器的工作循环期间转变出处理器处的低功率状态。在特定实施例中,处理器可为具有10%工作循环的数字信号处理器(DSP)。举例来说,在图2中,处理器230可在工作循环期间转变出低功率状态(例如,从闲置转变到活动)。
方法600还可包含从缓冲器检索音频特征数据,其中所述音频特征数据指示在处理器的低功率状态期间接收的音频数据的特征。在604处,当处理器在存储并转发模式中操作时,所述音频特征数据可对应于多个音频帧。或者,在606处,当处理器在直接传送模式中操作时,所述音频特征数据可对应于单个音频帧。举例来说,在图2中,所述处理器可从缓冲器227检索所提取的音频特征226。
方法600可进一步包含在608处变换所检索的音频特征数据以产生经变换的音频特征数据,且在610处对所述经变换的音频特征数据执行一或多个声音辨识操作。在特定实施例中,所述音频特征数据可经由离散余弦变换(DCT)变换器来变换,且所得经变换音频特征数据可包含多个梅尔频率倒频谱系数(MFCC)。举例来说,在图2中,变换器233可变换所检索的音频特征226以产生经变换音频特征数据234,且声音辨识模块241到245中的一或多者可对经变换音频特征数据234执行一或多个声音辨识操作(例如,收听位置、连续音频指纹识别、连续关键字检测、目标声音检测,及/或新颖性检测)。
方法600可包含在于614处转变回到低功率状态之前,在612处基于所述一或多个声音辨识操作的结果确定是否激活应用程序处理器及/或移动台调制解调器的一部分或其它组件。举例来说,在图2中,处理器230可基于由声音辨识模块241到245中的一或多者执行的分析而确定是否在转变回到低功率状态中之前激活应用程序处理器及/或移动台调制解调器的一部分。
在特定实施例中,图6的方法600可经由处理单元(例如中央处理单元(CPU)、数字信号处理器(DSP))或控制器的硬件(例如,现场可编程门阵列(FPGA)装置、专用集成电路(ASIC)等)、经由固件装置或其任何组合来实施。作为一实例,可由执行指令的处理器执行图6方法600,如关于图10所描述。
参考图7,展示在译码器/解码器处提取音频特征数据的方法的特定实施例,且其大体上标示为700。在一说明性实施例中,方法700可由图1的译码器/解码器120或图2的译码器/解码器220执行。
方法700可包含在702处在译码器/解码器处接收音频数据的帧。举例来说,在图2中,译码器/解码器220可接收音频数据212的帧。方法700还可包含在704处从所述帧提取音频特征数据。为进行说明,提取音频特征数据可包含在706处计算经由多个梅尔带滤波器滤波的所述帧的音频数据的能量,且在708处将对数函数应用于所计算的能量。举例来说,在图2中,特征提取器222可使用滤波器223对音频数据212进行滤波以产生经滤波音频数据的能量224,且可使用对数转换器225应用对数函数以产生所提取的音频特征226。
方法700可进一步包含在710处将所提取的音频特征数据存储在可由具有工作循环的处理器在具有工作循环的处理器的活动状态期间存取的缓冲器中,且在712处丢弃所述音频数据帧。举例来说,在图2中,所提取的音频特征226可存储在缓冲器227中,且音频数据212的帧可由译码器/解码器220丢弃。可针对由译码器/解码器在具有工作循环的处理器处于低功率状态中时接收的后续音频帧重复方法700。
在特定实施例中,图7的方法700可经由译码器/解码器的硬件(例如,现场可编程门阵列(FPGA)装置、专用集成电路(ASIC)、控制器,等)、经由固件装置或其任何组合来实施。作为一实例,可由执行指令的译码器/解码器(或其中的处理器)执行图7方法700,如关于图10所描述。
参考图8,展示在处理器处于在存储并转发模式中操作与在直接传送模式中操作之间动态地切换的方法的特定实施例,且大体标示为800。在一说明性实施例中,方法800可由图1的处理器150或图2的处理器230执行。
方法800可包含在处802,在处理器处基于处理器的应用程序上下文于在第一模式中操作与在第二模式中操作之间动态地切换。第一模式中的译码器/解码器活动与处理器活动的比率可大于第二模式中的译码器/解码器活动与处理器活动的比率。举例来说,在图2中,动态模式切换逻辑232可基于处理器230的应用程序上下文在各种模式之间动态地切换处理器230的操作。类似动态模式切换逻辑还可存在于图2的译码器/解码器220中。或者,控制图2的译码器/解码器220及处理器230两者的动态模式切换逻辑可在外部组件中(例如,集成到控制器中)。方法800还可包含在804处在处理器的工作循环期间转变出处理器处的低功率状态。举例来说,在图2中,处理器230可在工作循环期间转变出低功率状态。
方法800可包含在806处分析所检索的音频特征数据,且在808处转变回到低功率状态。举例来说,在图2中,声音辨识模块441到445中的一或多者可在处理器230转变回到低功率状态之前分析所检索的音频特征数据。在特定实施例中,处理器230还可基于所述分析是否是否激活其它系统组件,例如应用程序处理器及/或移动台调制解调器(MSM)的部分。举例来说,处理器230可基于所述分析产生激活信号,如参考图1的激活信号160所描述。
在特定实施例中,图8的方法800可经由处理单元(例如中央处理单元(CPU)、数字信号处理器(DSP))或控制器的硬件(例如,现场可编程门阵列(FPGA)装置、专用集成电路(ASIC)等)、经由固件装置或其任何组合来实施。作为一实例,可由执行指令的处理器执行图8方法800,如关于图10所描述。
参考图9,展示通过电子装置的较低功率组件执行电子装置的较高功率组件的交错分级激活的方法的特定实施例,且其大体标示为900。在一说明性实施例中,方法900可由图2的系统200执行。
方法900可包含在902处在电子装置的第一组件处接收声音数据。所述第一组件可在译码器/解码器的数字/模拟电路处。举例来说,在图2中,粗略检测/分类块290可接收声音数据。方法900还可包含在904处在所述第一组件处对所述声音数据执行至少一个信号检测操作。举例来说,在图2中,粗略检测/分类块290可执行信号检测操作(例如,RMS操作或带功率操作(band-power operation))以确定所述声音数据是否包含音频、信标或超声波数据。
方法900可进一步包含在906处基于所述至少一个信号检测操作的结果选择性地激活电子装置的第二组件。第二组件在活动时可比第一组件在活动时在电子装置处消耗更多功率。在特定实施例中,所述第二组件可处于译码器/解码器的前端单元处。举例来说,在图2中,粗略检测/分类块290可经由第一激活信号294选择性地激活精细检测/分类块296。
方法900可包含在908处,在所述第二组件处执行至少一个第二信号检测操作。方法900可包含基于所述至少一个第二信号检测操作的结果选择性地激活电子装置的第三组件。所述第三组件在活动时可比第二组件在活动时在电子装置处消耗更多功率。在特定实施例中,所述第三组件可并入DSP中。举例来说,在图2中,精细检测/分类块296可经由第二激活信号298选择性地激活处理器230处的最终检测/分类块。
在特定实施例中,图9的方法900可经由处理单元(例如中央处理单元(CPU)、数字信号处理器(DSP))或控制器的硬件(例如,现场可编程门阵列(FPGA)装置、专用集成电路(ASIC)等)、经由固件装置或其任何组合来实施。作为一实例,可由执行指令的处理器执行图9方法900,如关于图10所描述。
参考图10,描绘无线通信装置的特定说明性实施例的框图,且将其大体上标示为1000。装置1000包含两者皆耦合到存储器1032的应用程序处理器1010及数字信号处理器(DSP)1080。在一说明性实施例中,DSP1080可为由图1的处理器150或图2的处理器230。存储器1032可包含可由DSP1010执行以执行本文所揭示的方法及过程(例如图6的方法600及图8的方法800)的指令1060。所述指令还可由译码器/解码器(译码器/解码器)1034执行以执行本文所揭示的方法及过程(例如图7的方法700)。所述指令还可由译码器/解码器1034及DSP1080执行以执行图9的方法900。
图10还展示耦合到应用程序处理器1010及显示器1028的显示器控制器1026。译码器/解码器1034可耦合到DSP1080,如图所示。扬声器1036及麦克风1038可耦合到译码器/解码器1034。举例来说,麦克风1038可为图2的麦克风210。图10还指示无线控制器1040可耦合到处理器1010、1080及无线天线1042。
译码器/解码器1034可包含模拟/数字转换器(ADC)1071、多个滤波器1072,及对数转换器1073。举例来说,ADC1071可为图2的ADC221,滤波器1072可为图2的滤波器223,且对数转换器1073可为图2的对数转换器225。在特定实施例中,译码器/解码器1034还可包含缓冲器1074(例如,如参考图2的缓冲器227所描述)。或者,缓冲器1074可在译码器/解码器1034及DSP1080外部(例如,如参考图1的缓冲器140所描述)。DSP1080可包含变换器1082(例如,图2的变换器233)及经配置以执行一或多个声音辨识操作的一或多个声音辨识模块1083(例如,图2的声音辨识模块241到245)。在特定实施例中,变换器1082及声音辨识模块1083可包含在DSP1080的低功率音频子系统(LPASS)1081中。
在特定实施例中,处理器1010、1080、显示器控制器1026、存储器1032、译码器/解码器1034及无线控制器1040包含在系统级封装或芯片上系统装置(例如,移动台调制解调器(MSM))1022中。在特定实施例中,例如触摸屏及/或小键盘等输入装置1030及电力供应器1044耦合到芯片上系统装置1022。此外,在特定实施例中,如图10中所说明,显示器1028、输入装置1030、扬声器1036、麦克风1038、无线天线1042及电力供应器1044在芯片上系统装置1022外部。然而,显示器1028、输入装置1030、扬声器1036、麦克风1038、无线天线1042及电力供应器1044中的每一者可耦合到芯片上系统装置1022的组件,例如接口或控制器。
结合所描述的实施例,揭示包含用于接收音频数据的一或多个帧的装置的设备。举例来说,所述用于接收的装置可包含图1的译码器/解码器120、图2的麦克风210、图3的麦克风310、图10的麦克风1038、经配置以接收音频数据帧的一或多个装置,或其任何组合。所述设备还可包含用于独立于处理器处于低功率状态还是活动状态而对音频数据的所述一或多个帧进行滤波以产生经滤波音频数据的装置。举例来说,所述用于滤波的装置可包含图1的译码器/解码器120、图2的滤波器223、图3的滤波器323、图10的滤波器1072、经配置以对音频数据帧进行滤波的一或多个装置,或其任何组合。
所述设备可进一步包含用于基于经滤波音频数据的能量产生音频特征数据的装置。举例来说,所述用于产生的装置可包含图2的译码器/解码器120、图2的对数转换器225、图3的对数转换器325、图10的对数转换器1073、经配置以产生音频特征数据的一或多个装置,或其任何组合。所述设备可包含用于变换所述音频特征数据以产生经变换数据的装置。举例来说,所述用于变换的装置可包含图1的处理器150、图2的变换器233、图3的DCT333、图10的变换器1082、经配置以变换音频特征数据的一或多个装置,或其任何组合。
所述设备还可包含用于在处理器从低功率状态转变到活动状态之后对经变换数据执行一或多个操作的装置。举例来说,所述用于执行的装置可包含图1的处理器150、图2的声音辨识模块241到245中的一或多者、图3的声音辨识模块340中的一或多者、图10的声音辨识模块1083中的一或多者、经配置以对经变换数据执行操作的一或多个装置,或其任何组合。所述设备可进一步包含用于缓冲所述用于滤波的装置、所述用于产生的装置及所述用于变换的装置中的至少一者的输出的装置。举例来说,所述用于缓冲的装置可包含图1的缓冲器140、图2的缓冲器227、图3的缓冲点302到308中的一或多者处的缓冲器、图10的缓冲器1074、经配置以缓冲数据的一或多个装置,或其任何组合。
所属领域的技术人员将进一步了解,结合本文所揭示的实施例所描述的各种说明性逻辑块、配置、模块、电路及算法步骤可实施为电子硬件、由例如硬件处理器等处理装置执行的计算机软件或两者的组合。上文已大体在其功能性方面描述各种说明性组件、块、配置、模块、电路和步骤。此功能性是实施为硬件还是可执行软件取决于特定应用及施加于整个系统的设计约束。所属领域的技术人员可针对每一特定应用以不同方式实施所描述的功能性,但此类实施决策不应被解译为引起对本发明的范围的偏离。
结合本文中所揭示的实施例而描述的方法或演算法的步骤可直接体现于硬件、由处理器执行的软件模块或其两者的组合中。软件模块可驻留在非暂时性存储媒体中,例如随机存取存储器(RAM)、磁阻随机存取存储器(MRAM)、自旋力矩转移MRAM(STT-MRAM)、快闪存储器、只读存储器(ROM)、可编程只读存储器(PROM)、可擦除可编程只读存储器(EPROM)、电可擦除可编程只读存储器(EEPROM)、寄存器、硬盘、可移除式磁盘、只读光盘(CD-ROM),或此项技术中已知的任何其它形式的存储媒体。示范性存储媒体耦合到处理器,使得处理器可从存储媒体读取信息和将信息写入到存储媒体。在替代方案中,存储媒体可与处理器成一体式。处理器及存储媒体可驻留在专用集成电路(ASIC)中。ASIC可驻留在计算装置或用户终端中。在替代方案中,处理器与存储媒体可作为离散组件驻留在计算装置或用户终端中。
提供对所揭示实施例的先前描述以使得所属领域的技术人员能够制造或使用所揭示的实施例。所属领域的技术人员将容易了解对这些实施例的各种修改,且可将本文定义的原理应用到其它实施例而不脱离本发明的范围。因此,本发明并不既定限于本文展示的实施例,而应符合与如由所附权利要求书界定的原理和新颖特征一致的可能最宽范围。
Claims (44)
1.一种用于音频特征数据的提取及分析的方法,其包括:
在处理器处于低功率状态中时在活动译码器/解码器CODEC处接收音频数据,所述处理器经配置以第一速率转变进入和转变出所述低功率状态,并在第一模式和第二模式的每一者中操作,在所述第二模式中CODEC活动性与处理器活动性的比率小于在所述第一模式中CODEC活动性与处理器活动性的比率,所述CODEC经配置以在所述第一模式中以第二速率操作,且在所述第二模式中以第三速率操作,所述第二速率和所述第三速率均大于所述第一速率;以及
在所述处理器从所述低功率状态转变出之后,从缓冲器检索对应于多个音频帧的经缓冲音频数据,所述经缓冲音频数据指示音频数据的特征。
2.根据权利要求1所述的方法,其中所述处理器从所述缓冲器检索所述经缓冲音频数据,且所述方法进一步包括响应于在经检索的经缓冲音频数据中检测到关键词而确定激活应用程序处理器。
3.根据权利要求1所述的方法,其进一步包括:
在所述处理器处于所述低功率状态中时将所述经缓冲音频数据存储在所述缓冲器中。
4.根据权利要求1所述的方法,其进一步包括基于所述处理器的应用程序上下文来确定在所述第一模式还是所述第二模式中操作所述处理器。
5.根据权利要求1所述的方法,其中在所述第一模式期间,所述CODEC经配置以在所述处理器以所述第一速率循环时接通。
6.根据权利要求1所述的方法,其中所述第二速率和所述第三速率均对应于所述CODEC的接通情况。
7.根据权利要求1所述的方法,其中在所述处理器处于所述低功率状态中时从所述音频数据提取所述经缓冲音频数据,且其中所述处理器在转变回到所述低功率状态中之前检索及处理所述经缓冲音频数据。
8.根据权利要求1所述的方法,其中所述处理器在转变回到所述低功率状态中之前检索及处理所述经缓冲音频数据。
9.根据权利要求1所述的方法,其中:
所述处理器响应于可编程时间周期的过期而从所述低功率状态转变出;
在存储并转发模式中,所述可编程时间周期小于或等于基于所述缓冲器的大小而确定的最大时间周期;以及
在直接传送模式中,所述可编程时间周期与所述缓冲器的所述大小无关。
10.根据权利要求1所述的方法,其进一步包括在所述处理器处于所述低功率状态中时,由所述CODEC执行以下操作:
经由多个滤波器对所述音频数据滤波;
从所述多个滤波器中的每一者计算经滤波音频数据的能量;
将对数函数应用于经计算能量以产生所述经缓冲音频数据;
将所述经缓冲音频数据存储在所述缓冲器中;以及
丢弃所述音频数据。
11.根据权利要求1所述的方法,其中所述缓冲器在所述CODEC内部。
12.根据权利要求1所述的方法,其中所述缓冲器在所述CODEC外部且在所述处理器外部。
13.根据权利要求1所述的方法,其中:
所述音频数据从麦克风或从所述CODEC处的模拟/数字转换器ADC检索;且
所述处理器基于可编程循环而转变进入及转变出所述低功率状态。
14.根据权利要求1所述的方法,其进一步包括:
变换所述经缓冲音频数据;
对经变换的经缓冲音频数据执行一或多个声音辨识操作;以及
在执行所述一或多个声音辨识操作之后转变回所述低功率状态。
15.根据权利要求14所述的方法,其中变换所述经缓冲音频数据包括产生多个梅尔频率倒频谱系数。
16.根据权利要求14所述的方法,其中所述一或多个声音辨识操作包含关键词检测操作。
17.根据权利要求14所述的方法,其中将所述处理器集成到无线装置中,且所述方法进一步包括基于所述一或多个声音辨识操作的结果而确定是否激活所述无线装置的移动站调制解调器的至少一部分。
18.根据权利要求14所述的方法,其进一步包括响应于在所述经变换的经缓冲音频数据中检测到关键词而将所述一或多个声音辨识操作的结果提供到一或多个应用程序。
19.一种用于音频特征数据的提取及分析的方法,其包括:
在处理器处于第一状态中时在活动译码器/解码器CODEC处接收音频数据的帧,所述处理器经配置以第一速率转变进入和转变出所述第一状态,并在第一模式和第二模式的每一者中操作,在所述第二模式中CODEC活动性与处理器活动性的比率小于在所述第一模式中CODEC活动性与处理器活动性的比率,所述CODEC经配置以在所述第一模式中以第二速率操作,且在所述第二模式中以第三速率操作,所述第二速率和所述第三速率均大于所述第一速率;以及
在所述处理器处于所述第一状态中时,将对应于音频数据的所述帧中的一或多个存储在缓冲器中以在第二状态期间可由所述处理器存取。
20.根据权利要求19所述的方法,其进一步包括将所述CODEC的模拟/数字转换器应用于音频数据的所述帧。
21.根据权利要求19所述的方法,其进一步包括:
经由多个滤波器对音频数据的所述帧滤波;
从所述多个滤波器中的每一者计算经滤波音频数据的能量;以及
将对数函数应用于经计算能量以产生音频特征数据。
22.根据权利要求19所述的方法,其中:
音频数据的所述帧从麦克风或从所述CODEC处的模拟/数字转换器ADC检索;且
所述处理器依据固定循环转变进入及转变出所述第一状态。
23.根据权利要求19所述的方法,其进一步包括:
从对应于音频数据的所述帧的数据中提取音频特征数据;以及
在提取所述音频特征数据之后丢弃音频数据的所述帧。
24.一种用于音频特征数据的提取及分析的设备,其包括:
处理器,其经配置以第一速率转变进入和转变出低功率状态,并在第一模式和第二模式的每一者中操作;
组件,其在所述处理器处于所述低功率状态中时经配置以缓冲音频数据的帧,其中,在所述第一模式中组件活动性与处理器活动性的比率大于在所述第二模式中组件活动性与处理器活动性的比率,所述组件经配置以在所述第一模式中以第二速率操作,且在所述第二模式中以第三速率操作,所述第二速率和所述第三速率均大于所述第一速率;以及
变换器,其经配置以将变换函数应用于所述音频数据以产生经变换数据,
其中,所述处理器经配置以在从所述低功率状态转变出之后对所述经变换数据执行一或多个操作。
25.根据权利要求24所述的设备,其进一步包括:
译码器/解码器CODEC;以及
集成在所述CODEC中的对数转换器和多个滤波器,所述多个滤波器经配置以对音频数据的所述帧中的一或多个滤波以产生经滤波音频数据的能量,所述对数转换器经配置以将对数函数应用于所述经滤波音频数据的所述能量以产生音频特征。
26.根据权利要求24所述的设备,其中所述变换器包括被集成在所述处理器中的离散余弦变换器,且其中所述处理器被集成在无线装置中。
27.根据权利要求24所述的设备,其进一步包括经配置以存储音频数据的经缓冲帧的缓冲器。
28.根据权利要求27所述的设备,其中所述缓冲器包括随机存取存储器RAM,且所述设备进一步包括:
天线;以及
接收器,其耦合到所述天线,且经配置以接收对应于所述音频数据的信号。
29.根据权利要求28所述的设备,其中所述处理器、所述组件、所述变换器、所述缓冲器、所述接收器以及所述天线被集成在移动装置中。
30.一种用于音频特征数据的提取及分析的设备,其包括:
处理器,其经配置以:
以第一速率转变进入和转变出低功率状态;
在第一模式和第二模式的每一者中操作;
在从所述第一模式的所述低功率状态转变出之后从缓冲器检索对应于多个音频帧的经缓冲音频数据,所述经缓冲音频数据指示在所述处理器处于所述低功率状态中时由活动译码器/解码器CODEC接收的音频数据的特征,所述CODEC经配置以在所述第一模式中以第二速率操作,且在所述第二模式中以第三速率操作,所述第二速率和所述第三速率均大于所述第一速率,其中在所述第二模式中CODEC活动性与处理器活动性的比率小于在所述第一模式中CODEC活动性与处理器活动性的比率;以及
分析所述经缓冲音频数据。
31.根据权利要求30所述的设备,其中在所述第一模式期间,所述CODEC经配置以在所述处理器以所述第一速率循环时接通。
32.根据权利要求30所述的设备,其中:
所述处理器经配置以基于所述处理器的应用程序上下文而在所述第一模式和所述第二模式之间切换,所述应用程序上下文与应用程序的执行相关联,且
所述应用程序的执行包含关键词检测。
33.根据权利要求30所述的设备,其进一步包括所述CODEC,其中所述CODEC经配置以从接收的音频数据提取音频特征数据且将经提取音频特征数据存储在所述缓冲器中。
34.根据权利要求30所述的设备,其中所述经缓冲音频数据对应于从麦克风或从所述CODEC处的模拟/数字转换器ADC接收的数据,且其中所述处理器经配置以响应于固定时间周期的过期而从所述低功率状态转变出。
35.一种用于音频特征数据的提取及分析的设备,其包括:
用于接收音频数据的帧的装置,所述用于接收的装置包括;
用于在处理器处于第一状态中时缓冲音频数据的所述帧的装置,其中所述处理器经配置以第一速率转变进入和转变出所述第一状态,并在第一模式和第二模式的每一者中操作,其中,在所述第一模式中所述用于接收的装置的活动性与所述处理器的活动性的比率大于在所述处理器的第二模式中所述用于接收的装置的活动性与所述处理器的活动性的比率,所述用于接收的装置经配置以在所述第一模式中以第二速率操作,且在所述第二模式中以第三速率操作,所述第二速率和所述第三速率均大于所述第一速率;
用于变换所述音频数据以产生经变换数据的装置;以及
用于在所述处理器从所述第一状态转变到第二状态之后对所述经变换数据执行一或多个操作的装置。
36.根据权利要求35所述的设备,其中:
所述用于缓冲的装置经配置以存储以下至少一者的输出:用于滤波的装置、用于产生的装置或用于变换的装置,
所述第一状态是所述处理器的低功率状态,且
所述用于缓冲的装置、所述用于变换的装置和所述用于执行的装置被集成在无线装置中。
37.一种非暂时性处理器可读媒体,其包括在由处理器执行时致使所述处理器进行以下操作的指令:
在于第一模式中操作与于第二模式中操作之间切换,其中在所述第一模式中译码器/解码器CODEC活动性与处理器活动性的比率大于在所述第二模式中CODEC活动性与处理器活动性的比率;
以第一速率转变进入和转变出低功率状态,所述CODEC经配置以在所述第一模式中以第二速率操作,且在所述第二模式中以第三速率操作,所述第二速率和所述第三速率均大于所述第一速率;以及
分析对应于多个音频帧的经缓冲音频数据,在所述CODEC活动且所述处理器处于所述低功率状态中时提取所述经缓冲音频数据。
38.根据权利要求37所述的非暂时性处理器可读媒体,其中所述经缓冲音频数据由所述CODEC在第一时间周期中提取,且其中致使所述处理器在第二时间周期中分析所述经缓冲音频数据。
39.一种用于音频特征数据的提取及分析的方法,其包括
在电子装置的第一组件处接收声音数据,所述第一组件经配置以在第一模式中以第二速率操作,且在第二模式中以第三速率操作,所述第二速率和所述第三速率均大于第一速率;
在所述电子装置的第二组件处于活动状态中时,在所述第二组件处对所述声音数据执行至少一个信号检测操作,所述第二组件经配置以在所述第一模式和所述第二模式的每一者中以所述第一速率转变进入和转变出所述活动状态;以及
基于所述至少一个信号检测操作的结果而选择性地激活所述电子装置处的第三组件,其中:
在所述第一模式中第二组件活动性与第一组件活动性的比率小于在所述第二模式中第二组件活动性与第一组件活动性的比率,且
所述第二组件在处于所述活动状态时经配置从缓冲器检索对应于多个音频帧的经缓冲音频数据。
40.根据权利要求39所述的方法,其中:
所述第一组件包括译码器/解码器CODEC,且
所述至少一个信号检测操作包括粗略信号检测和分类。
41.根据权利要求39所述的方法,其中:
所述至少一个信号检测操作包括粗略信号检测和分类,所述粗略信号检测和分类包括计算所述经缓冲音频数据与音乐或话音模型匹配的概率,
所述第三组件经配置以基于对应于所述音频数据的数据执行精细信号检测和分类,且
所述第二组件在活动时比所述第三组件在活动时在所述电子装置处消耗更少的功率。
42.根据权利要求39所述的方法,其中所述第二组件包括所述电子装置的处理器。
43.根据权利要求39所述的方法,其进一步包括:
在所述第一组件处执行至少一个第二信号检测操作;以及
基于所述至少一个第二信号检测操作的结果而选择性地激活所述电子装置的所述第二组件。
44.根据权利要求39所述的方法,其中所述至少一个信号检测操作包括关键词检测操作。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810674458.3A CN108551686B (zh) | 2011-11-01 | 2012-09-25 | 音频特征数据的提取及分析 |
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201161554318P | 2011-11-01 | 2011-11-01 | |
US61/554,318 | 2011-11-01 | ||
US13/483,732 US9992745B2 (en) | 2011-11-01 | 2012-05-30 | Extraction and analysis of buffered audio data using multiple codec rates each greater than a low-power processor rate |
US13/483,732 | 2012-05-30 | ||
PCT/US2012/057078 WO2013066523A2 (en) | 2011-11-01 | 2012-09-25 | Extraction and analysis of audio feature data |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810674458.3A Division CN108551686B (zh) | 2011-11-01 | 2012-09-25 | 音频特征数据的提取及分析 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103999517A CN103999517A (zh) | 2014-08-20 |
CN103999517B true CN103999517B (zh) | 2018-06-12 |
Family
ID=48173294
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810674458.3A Active CN108551686B (zh) | 2011-11-01 | 2012-09-25 | 音频特征数据的提取及分析 |
CN201280052875.5A Expired - Fee Related CN103999517B (zh) | 2011-11-01 | 2012-09-25 | 音频特征数据的提取及分析 |
Family Applications Before (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810674458.3A Active CN108551686B (zh) | 2011-11-01 | 2012-09-25 | 音频特征数据的提取及分析 |
Country Status (8)
Country | Link |
---|---|
US (1) | US9992745B2 (zh) |
EP (1) | EP2774420A2 (zh) |
JP (1) | JP6076994B2 (zh) |
KR (1) | KR101622493B1 (zh) |
CN (2) | CN108551686B (zh) |
BR (1) | BR112014010032A8 (zh) |
IN (1) | IN2014MN00769A (zh) |
WO (1) | WO2013066523A2 (zh) |
Families Citing this family (42)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101804799B1 (ko) * | 2011-10-25 | 2017-12-06 | 삼성전자주식회사 | 저전력으로 오디오 데이터를 재생하는 장치 및 방법 |
US9564131B2 (en) | 2011-12-07 | 2017-02-07 | Qualcomm Incorporated | Low power integrated circuit to analyze a digitized audio stream |
CN104396275B (zh) * | 2012-03-29 | 2017-09-29 | 海宝拉株式会社 | 使用耳内插入型麦克风的有线无线耳机 |
EP2856698B1 (en) * | 2012-05-30 | 2017-12-06 | Marvell World Trade Ltd. | Network presence offload |
US9256269B2 (en) * | 2013-02-20 | 2016-02-09 | Sony Computer Entertainment Inc. | Speech recognition system for performing analysis to a non-tactile inputs and generating confidence scores and based on the confidence scores transitioning the system from a first power state to a second power state |
US9270801B2 (en) * | 2013-03-15 | 2016-02-23 | Intel Corporation | Low power audio trigger via intermittent sampling |
US9703350B2 (en) * | 2013-03-15 | 2017-07-11 | Maxim Integrated Products, Inc. | Always-on low-power keyword spotting |
US20140337030A1 (en) * | 2013-05-07 | 2014-11-13 | Qualcomm Incorporated | Adaptive audio frame processing for keyword detection |
US9892729B2 (en) * | 2013-05-07 | 2018-02-13 | Qualcomm Incorporated | Method and apparatus for controlling voice activation |
US20140337031A1 (en) * | 2013-05-07 | 2014-11-13 | Qualcomm Incorporated | Method and apparatus for detecting a target keyword |
US20150031416A1 (en) * | 2013-07-23 | 2015-01-29 | Motorola Mobility Llc | Method and Device For Command Phrase Validation |
CN104683933A (zh) | 2013-11-29 | 2015-06-03 | 杜比实验室特许公司 | 音频对象提取 |
WO2015100430A1 (en) | 2013-12-24 | 2015-07-02 | Digimarc Corporation | Methods and system for cue detection from audio input, low-power data processing and related arrangements |
JP6068401B2 (ja) * | 2014-07-30 | 2017-01-25 | ファナック株式会社 | 加工プログラムの読み出し時間に左右されないdnc運転手段を備えた数値制御装置 |
US9549273B2 (en) | 2014-08-28 | 2017-01-17 | Qualcomm Incorporated | Selective enabling of a component by a microphone circuit |
US10342056B2 (en) * | 2014-09-23 | 2019-07-02 | Lg Electronics Inc. | Method and device whereby device-to-device terminal transmits discovery signal in wireless communication system |
WO2016054366A1 (en) * | 2014-10-02 | 2016-04-07 | Knowles Electronics, Llc | Low power acoustic apparatus and method of operation |
US9693375B2 (en) * | 2014-11-24 | 2017-06-27 | Apple Inc. | Point-to-point ad hoc voice communication |
US9652017B2 (en) | 2014-12-17 | 2017-05-16 | Qualcomm Incorporated | System and method of analyzing audio data samples associated with speech recognition |
US10719115B2 (en) * | 2014-12-30 | 2020-07-21 | Avago Technologies International Sales Pte. Limited | Isolated word training and detection using generated phoneme concatenation models of audio inputs |
CN104636474A (zh) * | 2015-02-13 | 2015-05-20 | 王磊 | 构建音频指纹库及检索音频指纹的方法和设备 |
BR112017021673B1 (pt) * | 2015-04-10 | 2023-02-14 | Honor Device Co., Ltd | Método de controle de voz, meio não-transitório legível por computador e terminal |
US11956503B2 (en) * | 2015-10-06 | 2024-04-09 | Comcast Cable Communications, Llc | Controlling a device based on an audio input |
US10057642B2 (en) | 2015-10-06 | 2018-08-21 | Comcast Cable Communications, Llc | Controlling the provision of power to one or more devices |
US9779735B2 (en) * | 2016-02-24 | 2017-10-03 | Google Inc. | Methods and systems for detecting and processing speech signals |
EP4351170A3 (en) | 2016-02-29 | 2024-07-03 | Qualcomm Technologies, Inc. | A piezoelectric mems device for producing a signal indicative of detection of an acoustic stimulus |
CN106910494B (zh) | 2016-06-28 | 2020-11-13 | 创新先进技术有限公司 | 一种音频识别方法和装置 |
CN106782529B (zh) * | 2016-12-23 | 2020-03-10 | 北京云知声信息技术有限公司 | 语音识别的唤醒词选择方法及装置 |
US11024302B2 (en) * | 2017-03-14 | 2021-06-01 | Texas Instruments Incorporated | Quality feedback on user-recorded keywords for automatic speech recognition systems |
CN108563468B (zh) * | 2018-03-30 | 2021-09-21 | 深圳市冠旭电子股份有限公司 | 一种蓝牙音箱数据处理的方法、装置及蓝牙音箱 |
US10321251B1 (en) * | 2018-06-18 | 2019-06-11 | Republic Wireless, Inc. | Techniques of performing microphone switching for a multi-microphone equipped device |
KR20200063984A (ko) * | 2018-11-28 | 2020-06-05 | 삼성전자주식회사 | 음성 인식 장치 및 방법 |
WO2020111676A1 (ko) | 2018-11-28 | 2020-06-04 | 삼성전자 주식회사 | 음성 인식 장치 및 방법 |
CN109814406B (zh) * | 2019-01-24 | 2021-12-24 | 成都戴瑞斯智控科技有限公司 | 一种轨道模型电控仿真系统的数据处理方法及解码器架构 |
EP3939336A4 (en) | 2019-03-14 | 2022-12-07 | Qualcomm Technologies, Inc. | PIEZOELECTRIC MEMS DEVICE WITH ADAPTIVE THRESHOLD FOR DETECTING AN ACOUSTIC STIMULUS |
WO2020186265A1 (en) * | 2019-03-14 | 2020-09-17 | Vesper Technologies Inc. | Microphone having a digital output determined at different power consumption levels |
US11726105B2 (en) | 2019-06-26 | 2023-08-15 | Qualcomm Incorporated | Piezoelectric accelerometer with wake function |
CN113628616A (zh) * | 2020-05-06 | 2021-11-09 | 阿里巴巴集团控股有限公司 | 音频采集设备、无线耳机以及电子设备系统 |
TWI748587B (zh) * | 2020-08-04 | 2021-12-01 | 瑞昱半導體股份有限公司 | 聲音事件偵測系統及方法 |
KR102599480B1 (ko) * | 2021-05-18 | 2023-11-08 | 부산대학교 산학협력단 | 키워드 음성인식을 위한 자동 학습 시스템 및 방법 |
CN115579013B (zh) * | 2022-12-09 | 2023-03-10 | 深圳市锦锐科技股份有限公司 | 一种低功耗音频解码器 |
CN116456441B (zh) * | 2023-06-16 | 2023-10-31 | 荣耀终端有限公司 | 声音处理装置、方法和电子设备 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN201752079U (zh) * | 2010-01-15 | 2011-02-23 | 硕呈科技股份有限公司 | 待命模式的电源变动唤醒装置 |
Family Cites Families (70)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5278944A (en) * | 1992-07-15 | 1994-01-11 | Kokusai Electric Co., Ltd. | Speech coding circuit |
JPH07121195A (ja) | 1993-10-25 | 1995-05-12 | Sony Corp | 音声処理用ディジタルシグナルプロセッサ |
JPH07244494A (ja) | 1994-03-04 | 1995-09-19 | Ricoh Co Ltd | 音声認識装置 |
US6070140A (en) | 1995-06-05 | 2000-05-30 | Tran; Bao Q. | Speech recognizer |
US5721938A (en) | 1995-06-07 | 1998-02-24 | Stuckey; Barbara K. | Method and device for parsing and analyzing natural language sentences and text |
JP3674990B2 (ja) | 1995-08-21 | 2005-07-27 | セイコーエプソン株式会社 | 音声認識対話装置および音声認識対話処理方法 |
JP3726448B2 (ja) | 1997-03-12 | 2005-12-14 | セイコーエプソン株式会社 | 認識対象音声検出方法およびその装置 |
EP0962014B1 (en) | 1997-12-30 | 2003-11-12 | Koninklijke Philips Electronics N.V. | Speech recognition device using a command lexicon |
GB2342828A (en) | 1998-10-13 | 2000-04-19 | Nokia Mobile Phones Ltd | Speech parameter compression; distributed speech recognition |
JP4812941B2 (ja) | 1999-01-06 | 2011-11-09 | コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ | 注目期間を有する音声入力装置 |
US6408272B1 (en) | 1999-04-12 | 2002-06-18 | General Magic, Inc. | Distributed voice user interface |
US6393572B1 (en) * | 1999-04-28 | 2002-05-21 | Philips Electronics North America Corporation | Sleepmode activation in a slave device |
JP2000315097A (ja) | 1999-04-30 | 2000-11-14 | Canon Inc | 電子機器、その制御方法、及び記録媒体 |
US6594630B1 (en) | 1999-11-19 | 2003-07-15 | Voice Signal Technologies, Inc. | Voice-activated control for electrical device |
US8108218B1 (en) | 1999-12-13 | 2012-01-31 | Avaya Inc. | Methods and apparatus for voice recognition for call treatment modification on messaging |
KR100340045B1 (ko) | 1999-12-24 | 2002-06-12 | 오길록 | 저전력 음성 명령어 구동 휴대 정보단말 장치 및 그를 이용한 음성인식 방법 |
KR100447667B1 (ko) | 2000-04-12 | 2004-09-08 | 이경목 | 음성 인식 기능을 갖는 컴퓨터와 학습용 인형들을 이용한 상호 대화 언어 학습 시스템 |
JP2002123283A (ja) | 2000-10-12 | 2002-04-26 | Nissan Motor Co Ltd | 音声認識操作装置 |
US20020077830A1 (en) | 2000-12-19 | 2002-06-20 | Nokia Corporation | Method for activating context sensitive speech recognition in a terminal |
DE60202857T2 (de) | 2001-03-14 | 2006-02-09 | International Business Machines Corp. | Verfahren und prozessorsystem zur audiosignalverarbeitung |
US8266451B2 (en) | 2001-08-31 | 2012-09-11 | Gemalto Sa | Voice activated smart card |
US6987947B2 (en) * | 2001-10-30 | 2006-01-17 | Unwired Technology Llc | Multiple channel wireless communication system |
KR100594140B1 (ko) | 2002-04-13 | 2006-06-28 | 삼성전자주식회사 | 무선통신시스템의 패킷 데이터 서비스 방법 |
TWI225640B (en) | 2002-06-28 | 2004-12-21 | Samsung Electronics Co Ltd | Voice recognition device, observation probability calculating device, complex fast fourier transform calculation device and method, cache device, and method of controlling the cache device |
JP2004226698A (ja) | 2003-01-23 | 2004-08-12 | Yaskawa Electric Corp | 音声認識装置 |
JP2004265217A (ja) | 2003-03-03 | 2004-09-24 | Nec Corp | 音声認識機能を有する移動通信端末とその端末を利用したキーワード検索方法 |
US20060206335A1 (en) | 2003-03-17 | 2006-09-14 | Eric Thelen | Method for remote control of an audio device |
JP2004294946A (ja) | 2003-03-28 | 2004-10-21 | Toshiba Corp | 携帯型電子機器 |
JP4301896B2 (ja) | 2003-08-22 | 2009-07-22 | シャープ株式会社 | 信号分析装置、音声認識装置、プログラム、記録媒体、並びに電子機器 |
TWI222837B (en) | 2003-10-14 | 2004-10-21 | Design Technology Inc G | Audio signal compression processing device to with reduced power consumption |
US20060074658A1 (en) | 2004-10-01 | 2006-04-06 | Siemens Information And Communication Mobile, Llc | Systems and methods for hands-free voice-activated devices |
JP2007219207A (ja) | 2006-02-17 | 2007-08-30 | Fujitsu Ten Ltd | 音声認識装置 |
JP2007255897A (ja) | 2006-03-20 | 2007-10-04 | Clarion Co Ltd | ナビゲーションシステム並びに装置、その制御方法及び制御プログラム |
US20070254680A1 (en) | 2006-05-01 | 2007-11-01 | Shary Nassimi | Wirefree intercom having low power system and process |
KR100744301B1 (ko) | 2006-06-01 | 2007-07-30 | 삼성전자주식회사 | 음성 인식을 이용하여 동작 모드를 전환하는 휴대 단말기및 그 방법 |
US8207936B2 (en) | 2006-06-30 | 2012-06-26 | Sony Ericsson Mobile Communications Ab | Voice remote control |
EP1879000A1 (en) | 2006-07-10 | 2008-01-16 | Harman Becker Automotive Systems GmbH | Transmission of text messages by navigation systems |
DE602006005830D1 (de) | 2006-11-30 | 2009-04-30 | Harman Becker Automotive Sys | Interaktives Spracherkennungssystem |
US9760146B2 (en) | 2007-01-08 | 2017-09-12 | Imagination Technologies Limited | Conditional activation and deactivation of a microprocessor |
US7818176B2 (en) | 2007-02-06 | 2010-10-19 | Voicebox Technologies, Inc. | System and method for selecting and presenting advertisements based on natural language processing of voice-based input |
US8996379B2 (en) | 2007-03-07 | 2015-03-31 | Vlingo Corporation | Speech recognition text entry for software applications |
US7774626B2 (en) | 2007-03-29 | 2010-08-10 | Intel Corporation | Method to control core duty cycles using low power modes |
EP1978765A1 (en) | 2007-04-02 | 2008-10-08 | BRITISH TELECOMMUNICATIONS public limited company | Power management scheme for mobile communication devices |
JP2008309864A (ja) | 2007-06-12 | 2008-12-25 | Fujitsu Ten Ltd | 音声認識装置および音声認識方法 |
US20090055005A1 (en) | 2007-08-23 | 2009-02-26 | Horizon Semiconductors Ltd. | Audio Processor |
US8725520B2 (en) | 2007-09-07 | 2014-05-13 | Qualcomm Incorporated | Power efficient batch-frame audio decoding apparatus, system and method |
US8600740B2 (en) * | 2008-01-28 | 2013-12-03 | Qualcomm Incorporated | Systems, methods and apparatus for context descriptor transmission |
US8050932B2 (en) * | 2008-02-20 | 2011-11-01 | Research In Motion Limited | Apparatus, and associated method, for selecting speech COder operational rates |
KR20090107365A (ko) | 2008-04-08 | 2009-10-13 | 엘지전자 주식회사 | 이동 단말기 및 그 메뉴 제어방법 |
JP5327838B2 (ja) | 2008-04-23 | 2013-10-30 | Necインフロンティア株式会社 | 音声入力分散処理方法及び音声入力分散処理システム |
US8244528B2 (en) | 2008-04-25 | 2012-08-14 | Nokia Corporation | Method and apparatus for voice activity determination |
CA2665055C (en) | 2008-05-23 | 2018-03-06 | Accenture Global Services Gmbh | Treatment processing of a plurality of streaming voice signals for determination of responsive action thereto |
JP2010136292A (ja) * | 2008-12-08 | 2010-06-17 | Toshiba Corp | 画像処理装置 |
US20120010890A1 (en) | 2008-12-30 | 2012-01-12 | Raymond Clement Koverzin | Power-optimized wireless communications device |
JP4809454B2 (ja) | 2009-05-17 | 2011-11-09 | 株式会社半導体理工学研究センター | 発話推定による回路起動方法及び回路起動装置 |
JP2011071937A (ja) | 2009-09-28 | 2011-04-07 | Kyocera Corp | 電子機器 |
US20110099507A1 (en) | 2009-10-28 | 2011-04-28 | Google Inc. | Displaying a collection of interactive elements that trigger actions directed to an item |
US8682667B2 (en) | 2010-02-25 | 2014-03-25 | Apple Inc. | User profiling for selecting user specific voice input processing information |
KR20110110434A (ko) | 2010-04-01 | 2011-10-07 | 삼성전자주식회사 | 저전력 오디오 재생장치 및 방법 |
KR101733205B1 (ko) | 2010-04-05 | 2017-05-08 | 삼성전자주식회사 | 오디오 디코딩 시스템 및 그것의 오디오 디코딩 방법 |
US9112989B2 (en) | 2010-04-08 | 2015-08-18 | Qualcomm Incorporated | System and method of smart audio logging for mobile devices |
US8359020B2 (en) | 2010-08-06 | 2013-01-22 | Google Inc. | Automatically monitoring for voice input based on context |
US8606293B2 (en) | 2010-10-05 | 2013-12-10 | Qualcomm Incorporated | Mobile device location estimation using environmental information |
US9443511B2 (en) | 2011-03-04 | 2016-09-13 | Qualcomm Incorporated | System and method for recognizing environmental sound |
US8798995B1 (en) | 2011-09-23 | 2014-08-05 | Amazon Technologies, Inc. | Key word determinations from voice data |
US8924219B1 (en) | 2011-09-30 | 2014-12-30 | Google Inc. | Multi hotword robust continuous voice command detection in mobile devices |
US9031847B2 (en) | 2011-11-15 | 2015-05-12 | Microsoft Technology Licensing, Llc | Voice-controlled camera operations |
US8666751B2 (en) | 2011-11-17 | 2014-03-04 | Microsoft Corporation | Audio pattern matching for device activation |
US9564131B2 (en) | 2011-12-07 | 2017-02-07 | Qualcomm Incorporated | Low power integrated circuit to analyze a digitized audio stream |
DE102013001219B4 (de) | 2013-01-25 | 2019-08-29 | Inodyn Newmedia Gmbh | Verfahren und System zur Sprachaktivierung eines Software-Agenten aus einem Standby-Modus |
-
2012
- 2012-05-30 US US13/483,732 patent/US9992745B2/en active Active
- 2012-09-25 BR BR112014010032A patent/BR112014010032A8/pt not_active IP Right Cessation
- 2012-09-25 IN IN769MUN2014 patent/IN2014MN00769A/en unknown
- 2012-09-25 JP JP2014538799A patent/JP6076994B2/ja active Active
- 2012-09-25 EP EP12780940.8A patent/EP2774420A2/en not_active Withdrawn
- 2012-09-25 WO PCT/US2012/057078 patent/WO2013066523A2/en active Application Filing
- 2012-09-25 CN CN201810674458.3A patent/CN108551686B/zh active Active
- 2012-09-25 KR KR1020147011118A patent/KR101622493B1/ko active IP Right Grant
- 2012-09-25 CN CN201280052875.5A patent/CN103999517B/zh not_active Expired - Fee Related
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN201752079U (zh) * | 2010-01-15 | 2011-02-23 | 硕呈科技股份有限公司 | 待命模式的电源变动唤醒装置 |
Also Published As
Publication number | Publication date |
---|---|
KR20140082737A (ko) | 2014-07-02 |
EP2774420A2 (en) | 2014-09-10 |
IN2014MN00769A (zh) | 2015-07-03 |
BR112014010032A2 (pt) | 2017-06-13 |
US9992745B2 (en) | 2018-06-05 |
WO2013066523A3 (en) | 2013-07-11 |
BR112014010032A8 (pt) | 2017-06-20 |
JP2015501450A (ja) | 2015-01-15 |
JP6076994B2 (ja) | 2017-02-08 |
CN103999517A (zh) | 2014-08-20 |
WO2013066523A2 (en) | 2013-05-10 |
US20130110521A1 (en) | 2013-05-02 |
CN108551686A (zh) | 2018-09-18 |
CN108551686B (zh) | 2021-06-18 |
KR101622493B1 (ko) | 2016-05-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103999517B (zh) | 音频特征数据的提取及分析 | |
JP2015501450A5 (zh) | ||
CN111210021B (zh) | 一种音频信号处理方法、模型训练方法以及相关装置 | |
US9549273B2 (en) | Selective enabling of a component by a microphone circuit | |
CN105869655B (zh) | 音频装置以及语音检测方法 | |
US11244672B2 (en) | Speech recognition method and apparatus, and storage medium | |
CN109671433B (zh) | 一种关键词的检测方法以及相关装置 | |
US9775113B2 (en) | Voice wakeup detecting device with digital microphone and associated method | |
US9652017B2 (en) | System and method of analyzing audio data samples associated with speech recognition | |
US9779725B2 (en) | Voice wakeup detecting device and method | |
CN104254884B (zh) | 用于分析数字化音频流的低功率集成电路 | |
US9112989B2 (en) | System and method of smart audio logging for mobile devices | |
CN103440862B (zh) | 一种语音与音乐合成的方法、装置以及设备 | |
CN109192210B (zh) | 一种语音识别的方法、唤醒词检测的方法及装置 | |
CN104216677A (zh) | 用于设备唤醒的低功率语音门 | |
KR20160005050A (ko) | 키워드 검출을 위한 적응적 오디오 프레임 프로세싱 | |
CN103095911A (zh) | 一种通过语音唤醒寻找手机的方法及系统 | |
CN110265011B (zh) | 一种电子设备的交互方法及其电子设备 | |
US11264049B2 (en) | Systems and methods for capturing noise for pattern recognition processing | |
CN110223687B (zh) | 指令执行方法、装置、存储介质及电子设备 | |
CN103956164A (zh) | 一种声音唤醒方法及系统 | |
CN108712566A (zh) | 一种语音助手唤醒方法及移动终端 | |
CN111326146A (zh) | 语音唤醒模板的获取方法、装置、电子设备及计算机可读存储介质 | |
CN113889084A (zh) | 音频识别方法、装置、电子设备及存储介质 | |
CN117012202B (zh) | 语音通道识别方法、装置、存储介质及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20180612 Termination date: 20190925 |