CN106030440B - 智能循环音频缓冲器 - Google Patents
智能循环音频缓冲器 Download PDFInfo
- Publication number
- CN106030440B CN106030440B CN201480048338.2A CN201480048338A CN106030440B CN 106030440 B CN106030440 B CN 106030440B CN 201480048338 A CN201480048338 A CN 201480048338A CN 106030440 B CN106030440 B CN 106030440B
- Authority
- CN
- China
- Prior art keywords
- audio
- label
- buffer
- equipment
- detection
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 239000000872 buffer Substances 0.000 title claims abstract description 98
- 238000003860 storage Methods 0.000 claims abstract description 51
- 230000000694 effects Effects 0.000 claims abstract description 50
- 238000012545 processing Methods 0.000 claims abstract description 45
- 125000004122 cyclic group Chemical group 0.000 claims abstract description 31
- 238000001514 detection method Methods 0.000 claims description 48
- 238000000034 method Methods 0.000 claims description 44
- 238000012544 monitoring process Methods 0.000 claims description 22
- 230000015654 memory Effects 0.000 claims description 15
- 230000004044 response Effects 0.000 claims description 13
- 238000003825 pressing Methods 0.000 claims description 12
- 230000004913 activation Effects 0.000 claims description 10
- 230000003139 buffering effect Effects 0.000 claims description 10
- 238000010606 normalization Methods 0.000 claims description 7
- 230000000007 visual effect Effects 0.000 claims description 7
- 230000009467 reduction Effects 0.000 claims description 6
- 230000005540 biological transmission Effects 0.000 abstract 1
- 230000008569 process Effects 0.000 description 28
- 238000005070 sampling Methods 0.000 description 8
- 230000008901 benefit Effects 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 6
- 230000001133 acceleration Effects 0.000 description 5
- 238000010008 shearing Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 238000003909 pattern recognition Methods 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 2
- 239000007853 buffer solution Substances 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000013500 data storage Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000007689 inspection Methods 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 230000005236 sound signal Effects 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 230000001755 vocal effect Effects 0.000 description 2
- 230000003213 activating effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000010267 cellular communication Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000013499 data model Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 230000001934 delay Effects 0.000 description 1
- 230000030808 detection of mechanical stimulus involved in sensory perception of sound Effects 0.000 description 1
- 238000001035 drying Methods 0.000 description 1
- 235000013399 edible fruits Nutrition 0.000 description 1
- 230000005611 electricity Effects 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 230000001815 facial effect Effects 0.000 description 1
- 230000005484 gravity Effects 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 238000003780 insertion Methods 0.000 description 1
- 230000037431 insertion Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000016507 interphase Effects 0.000 description 1
- 210000003127 knee Anatomy 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000004080 punching Methods 0.000 description 1
- APTZNLHMIGJTEW-UHFFFAOYSA-N pyraflufen-ethyl Chemical compound C1=C(Cl)C(OCC(=O)OCC)=CC(C=2C(=C(OC(F)F)N(C)N=2)Cl)=C1F APTZNLHMIGJTEW-UHFFFAOYSA-N 0.000 description 1
- 239000012536 storage buffer Substances 0.000 description 1
- 230000001502 supplementing effect Effects 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
- G06F3/165—Management of the audio stream, e.g. setting of volume, audio stream path
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
- G06F3/167—Audio in a user interface, e.g. using voice commands for navigating, audio feedback
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/55—Rule-based translation
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L1/00—Arrangements for detecting or preventing errors in the information received
- H04L1/12—Arrangements for detecting or preventing errors in the information received by using return channel
- H04L1/16—Arrangements for detecting or preventing errors in the information received by using return channel in which the return channel carries supervisory signals, e.g. repetition request signals
- H04L1/18—Automatic repetition systems, e.g. Van Duuren systems
- H04L1/1867—Arrangements specially adapted for the transmitter end
- H04L1/1874—Buffer management
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- Acoustics & Sound (AREA)
- Computer Networks & Wireless Communication (AREA)
- Artificial Intelligence (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
一种音频缓冲器被用来在预期用户命令捕获音频的情况下捕获音频。可以监测传感器和处理器活动,从而寻找表明所述用户命令可能即将来临的标记。在检测到这样的标记之后,激活循环缓冲器。音频修正可被应用至存储在所述循环缓冲器中的所述音频。在接收到指导所述设备处理或记录音频的所述用户命令之后,在所述命令之前被存储在所述缓冲器中的所述音频的至少一部分与在所述命令之后所接收的音频组合。所述组合音频可随后被处理、传送或存储。
Description
背景技术
许多电子设备可以存储并且处理音频。一些具有按钮和可以用来指示所述设备应该何时存储或处理音频的触敏显示屏。通常为语音识别和数字信号处理提供硬件和软件支持。
附图说明
为了更完整地理解本公开,现在结合附图参考以下描述。
图1示出包括智能缓冲器的设备的操作。
图2为概念性地示出包括智能缓冲器的设备的框图。
图3示出用于包括智能缓冲器的设备的操作的算法的实例。
图4示出可以用来确定是否应该激活智能缓冲器的过程。
图5示出包括存储在缓冲器中的音频和在用户命令存储或处理音频后被接收的音频两者的音频波形。
图6为概念性地示出包括智能缓冲器的设备的另一框图。
图7示出用于包括智能缓冲器的设备的操作的另一算法。
图8示出与智能缓冲器一起使用的计算机网络的实例。
具体实施方式
在电子设备上处理和记录音频需要不同程度的功率消耗。为了最小化由电池供电的设备的消耗,在没有用户命令这样做的情况下,处理或记录可被最小化。遗憾的是,尤其是当音频是语音时,用户开始说话与遵循用户命令开始处理或记录之间可能存在时间偏差,此时间偏差可能导致剪切音频的开头。形成剪切的延时偏差可能是由于用户实际发出信号开始处理或记录的时间,以及由于硬件延迟。此外,人们通常在实际完成命令稍前开始讲话,诸如在他们在完全按下按钮开始记录之前开始讲话的情况。
向设备增添智能音频缓冲器可以通过预期用户命令选择性地捕获音频来消除此剪切。可以监测传感器和处理器活动,从而寻找表明用户命令可能即将来临的标记。在检测这样的标记之后,激活循环缓冲器。可以诸如通过抽取来对存储在循环缓冲器中的音频降低采样,以便降低功率消耗。在接收指导设备处理或记录音频的用户命令之后,音频的在命令之前被存储在缓冲器中的至少一部分与在命令之后所接收的音频组合。随后可处理或存储组合音频,而不剪切用户期望记录的音频的开头。
此外,如果音频被用来流传送语音识别,那么可以通过包括在用户命令之前的短时间音频以便允许信道和/或环境补偿来提高准确度。语音开始之前的短时间静默使音频信道能够被标准化,从而改善语音识别系统从背景和环境噪声中区分出所说的词语的能力。与在整个流被接收之后批量处理音频相比,在音频被接收时对流式音频执行语音识别时这是尤其有优势的,因为批量处理可以采样该批的所有(或大部分)以便在处理之前标准化音频,然而当处理实时流时可能不存在从其来标准化的先前存在的样本。用户语音之前的音频还可用来执行可被应用至用户语音的其他信道/环境适应,诸如调节增益。
通过向音频捕获系统增添循环音频缓冲器,在用户命令的接收之前发生的语音和其他声音可被存储,使得当用户命令信号被接收时,先前音频的样本可被预加到在用户命令的接收之后接收的音频(与其连接在一起)。开始音频处理(以及预加所缓冲的音频)的信号可包括按下按钮,以其他方式与设备物理地交互(例如,通过摇晃所述设备),对设备做手势,向设备发出开始记录/处理音频的口头命令,或通过某个其他命令。信号还可包括不那么明确的指示,诸如用户在没有明确命令设备开始记录/处理的情况下开始说话。
尽管缓冲器可以总是运行,仅在存在用户命令可能被接收的相对高的几率时激活所述缓冲器可能存在功率消耗优势。例如,当首次打开与捕获以及记录或处理音频或语音有关的应用时,或者当设备被拾取时,或者当设备前面存在光强度变化时(指示设备的移动或者设备附近的移动,将其放置在潜在用户附近),用户命令可能即将来临。
常规地,当音频被数字化以用于存储或流传送时,其以至少两倍于可被复制的最高频率的速率“被采样”(根据Nyquist/Shannon定理)。所以,例如,如果你想要以高达20,000周期每秒(人类听觉的正常限制)的频率复制声音,那么可以以至少40,000次每秒取得音频信号的振幅的数字“样本”。每个“样本”是在样本被取得的瞬间的音频波形的振幅大小的数字表示。数字样本可随后用于重新构建原始音频波形的表示。作为参考,用于压缩光盘的音频通常以每秒音频44,100个样本被采样。使用诸如MP3(运动图像专家组MPEG-1音频层III)的格式的所存储音频和流可使用类似的采样速率(增添“有损”压缩技术以便减少数据的总量)。由于重点在捕获人类语音(其通常具有3400周期每秒的上限),电话系统可使用诸如8000个样本每秒的较低采样速率。诸如增量调制的编码技术需要高得多的采样速率(例如,3200万个样本每秒),因为每个样本仅被存储为单个“0”或“1”以表示振幅相对于先前的样本(而不是在样本被取得瞬间时的瞬间振幅的数字表示)是否已增加或减少。然而,还应用降低采样速率降低了可如实地重新产生的最高频率的原理。
为了节约电池功率,在按钮按下之前由缓冲器记录的音频可以以低于随后语音的速率被采样,或者使用诸如抽取的技术被降低采样。抽取仅存储原始音频流的每第N个样本(例如,每10个样本中的1个被存储)。
若干方法可被用来确定所缓冲的音频的多少应该被连接到在用户命令之后接收的音频上。例如,可使用缓冲器音频的设置量的时间,诸如半秒。作为另一实例,可基于确定在较长的时间段(例如,一秒)内发生的“静默”的时段适应性地选择时间量,诸如寻找所缓冲的音频的最近秒内的词语的开始。语音开始之前的环境背景噪声的开启时段也可包括在预加的音频中以便于语音处理。
图1示出用于在预期用户指导设备100捕获音频的情况下智能地缓冲音频的系统。设备100针对表明即将发生的音频捕获活动的标记监测(122)传感器和处理器操作。可被监测的标记的类型的实例包括:记录或处理音频的应用的激活,设备上的入射光强度的变化,运动的视觉检测,接近设备的用户的视觉检测,面部的视觉识别,接近触敏显示屏的手指的检测,设备取向的变化(诸如设备取向相对于特定取向的变化),设备的移动,环境声音的检测,语音的检测,以及特定说话者的检测。除了这样的标记之外,所述设备还可考虑与所捕获音频的利用有关的过去的使用模式,诸如用户的存储历史是否显示在一天的某些时间期间或在某些物理位置使用语音-至-文本口授的模式(例如基于设备可用于确定位置的全球定位和导航服务)。
如果作出捕获音频的命令可能即将来临的确定,那么激活循环缓冲器(124)。循环缓冲器是不断覆写它们自己的内容的先进先出(FIFO)缓冲器。所述缓冲器可以是任意大小,例如像两秒或三秒。
在接收传递用户命令以便处理或记录音频的信号(126)之后,在用户命令之前存储在缓冲器中的最近音频的一部分被预加到在用户命令之后所接收的音频。随后取决于什么类型的应用利用所捕获的音频处理或记录组合音频(128)。
智能缓冲器的控制和操作可被集成到捕获音频的软件应用中,或者可通过诸如操作系统级别库调用的应用编程接口(API)可由应用访问。然而,智能缓冲技术还可被实现为设备而不是应用的功能,其中音频编码器解码器(编解码器)或音频驱动器与缓冲器无缝地交互,使得利用所捕获音频流的应用可能不能被通知所缓冲音频已经被预加到所接收的流上。
图2为概念性地示出有关设备100的操作的某些部件的框图。如所示,设备100包括通信地连接各种部件的数据总线224。除了(或者替代)通过总线224被连接,部件还可被直接连接。设备100内的模块可被实现为硬件、软件或其组合,如下文将进一步论述的。
设备100可包括:控制器/处理器204,其可包括用于处理数据和计算机可读指令的一个或多个中央处理单元(CPU);和存储器206,其用于存储数据和指令。存储器206可包括易失性随机存取存储器(RAM)、非易失性只读存储器(ROM)和/或其他类型的存储器。设备100还可包括用于存储数据和指令的非易失性数据存储部件208。数据存储部件208可包括一个或多个存储类型,诸如磁存储、光存储、固态存储等。设备100还可通过输入/输出设备接口202连接至可移动或外部存储器和/或存储装置(诸如可移动存储卡、存储键驱动器、网络存储装置等)。用于操作设备100及其各种部件的计算机指令可由控制器/处理器204执行并且存储在存储器206、存储装置208、外部设备中或者被存储在包括在下文论述的活动监测模块240中的存储装置248中。可替代地,除了(或替代)软件,可执行指令的一些或所有可被减少到专用硬件或嵌入在固件中。因此,本文公开的系统、过程和算法可在软件、固件和/或硬件的各种组合中实现。
设备100包括输入/输出设备接口202。各种内部和外部输入/输出接口可被包括在设备100中。示例性输入设备包括相机212、按钮214、触摸界面216、麦克风218、无线耳机806以及全球定位(例如,GPS、GLONASS)接收器。除了本地输入设备,其他输入设备可通过数据网络802连接。输出设备包括显示器210和扬声器(未示出),以及通过数据网络802连接的设备。
输入/输出设备接口202还可包括诸如通用串行总线(USB)、火线、Thunderbolt和以太网的外部外围和网络接口,以及诸如射频(RF)和红外收发器、蓝牙、无线局域网(WLAN)(诸如WiFi)的无线接口,以及蜂窝式通信收发器支持协议(诸如长期演进(LTE)、WiMAX、GSM、CDMA等)。网络802可以是互联网和/或私人网络,并且可包括分布式计算环境(下文参考图8进一步论述)。
惯性传感器266中的加速度计可测量设备100沿着轴的加速度。3轴加速度计传感器(常见于许多当前消费者电子设备中)提供沿着相对于设备100的x、y、z轴的加速度。沿着设备的x、y、z轴的加速度取决于所述设备的取向。换句话说,如果设备屏幕面朝上地平坦地置于桌子上,那么从左侧推动所述设备使得它向右移动将产生沿着x-轴的加速度。然而,如果设备被逆时针旋转90度,那么从左至右推动所述设备将产生沿着y-轴的负加速度。惯性传感器266还可包括陀螺仪,所述陀螺仪测量随时间围绕设备的x、y、z轴的旋转的变化。其他传感器也可被利用,诸如用于确定上下的专用重力传感器,以及用来确定相对于行星磁场的取向(例如,罗盘航向)的磁力计。这些传感器可被用来检测设备的移动,所述设备的移动可被用作如下文所描述的即将发生的设备活动的标记。
设备100还可包括用于存储音频数据的循环缓冲器232。如上文在图1的论述中所提及的,缓冲器可以是任意大小,诸如两秒或三秒。循环缓冲器是不断覆写它们自己的内容的先进先出(FIFO)缓冲器。实际上,循环缓冲器可以是存储器206、存储装置208、存储装置248或其他存储器的一部分。由于缓冲器被用于短期存储,可使用诸如RAM的易失性存储器。在一些系统中,就缓冲期间会发生的频繁“写入”而言,与非易失性存储器相比,易失性存储器还可具有较低功率消耗的益处(例如,写入动态RAM比写入闪存存储装置使用的能量更少)。由处理器204执行的软件或固件或专用硬件可循环通过分配到缓冲器的存储器位置,随后以圆形循环写入缓冲器。
设备100还包括活动监测模块240。模块240可包括活动监测器242。返回参考图1,活动监测器242针对即将发生的设备活动的标记监测传感器和处理器204(122)并且激活循环缓冲器(124)。直接或通过中间引擎被监测的传感器包括诸如相机212、按钮214、触摸界面216、麦克风218、外部部件(诸如无线耳机806(其还可包括它自己的“按钮”))、通过网络802连接的远程设备以及惯性传感器266的部件。活动监测器可被实现为,例如,在处理器(例如,处理器204)上实现的软件或固件,或者被实现为诸如在时序逻辑电路中实现的有限状态机器的硬件。将在下文进一步论述活动监测器242的操作。
支持活动监测器242的中间引擎将来自传感器的复杂数据转换成更简单的形式。这些中间引擎的实例可包括语音识别引擎244、说话者识别引擎246以及图像处理引擎250。这些引擎可通过由处理器204执行的代码来实现,或者可通过分布式计算环境中的网络802在远程处理器上实现。
语音识别引擎244可将语音转换成文本,提供诸如“命令”词语的某些词语何时被识别的标记,和/或指示所接收音频包括语音分量。说话者识别引擎246将所接收的音频信号与所存储的声学指纹相比较以便识别何时特定的用户在说话。
语音识别引擎244和说话者识别引擎246可被实现为,例如,被配置来执行语音识别和声学指纹处理两者的分类器系统的一部分。这样的分类器系统可以是,例如,支持向量机(SVM),尽管学习技术的其他机器可用来代替或增强SVM。分类器系统可以利用隐马尔可夫模型(HMM)、高斯混合模型(GMM)、美尔频率倒谱系数(MFCC)等。由语音识别引擎244使用的语音识别技术以及由说话者识别引擎246使用的声学指纹或模型可利用相同或类似的模式识别系统但是利用不同的模型(例如,语音识别可使用音素模型而说话者识别可使用声纹模型),或者可使用完全不同的技术。
如果语音识别引擎244被配置来收听特定的“命令”词语,并且说话者识别引擎246被配置来收听特定的声音,当发现匹配时,分类器系统可向活动监测器242发出信号。此信号可以是,例如,发送至状态机器的信号,可以是通过设备100的操作系统或者通过在控制器/处理器204上运行的应用的API发送至应用编程接口(API)的高级命令,或者可以是通过由输入/输出设备接口202提供的网络连接发送的消息。所述信号可触发控制器/处理器204的预定义的中断。类似地,在控制器/处理器204上执行的代码可周期性地轮询分类器系统以便确定是否已经发现匹配。
图像处理引擎250也可被实现为分类器系统,访问相机212并且执行运动分析和面部检测(或者面部识别)。
由这些引擎使用的模型可被存储在存储装置248中,所述存储装置248可以是专用存储装置或其他存储装置(诸如存储装置208)的一部分。例如,语音识别引擎244可将所接收的音频与存储在存储装置248中的声学、语言以及其他数据模型和信息相比较。存储用于语音识别的模型还可包括将音素的发音与特定的词语和字典或词典匹配的数据,以及描述在特定的上下文中可能一起使用的词语的数据。
说话者识别引擎246可将音频数据与存储在存储装置248中的一个或多个文本独立声纹签名或模型相比较,以便确定说话者是否表示已知的声音。存储在存储装置248中的所识别声音签名可使用训练会话来生成,或者可在用户使用所述设备用于与语音相关的任务时被采用。
由图像处理引擎250执行的面部检测可以是用户专用或者非用户专用的。提供相机功能的设备中越来越多地包括这样的面部检测,并且此功能可以与驻留在设备100上的其他程序共享(对于其他引擎也是成立的)。如果面部识别被用来识别特定的面部,那么面部模型可被生成为设备训练会话的一部分,或者可在例如用户拍摄他们自己的照片时被采用。
此外,活动监测模块240可包括模式识别引擎252,所述模式识别引擎252应用一组动态模型(例如,Bayesian)和滤波器以便识别与音频和语音的记录和处理相关的设备利用的模式。例如,与一天的时间和/或用户利用用于音频和语音的记录和处理的应用的设备位置相关的模式。当由传感器数据和/或其他引擎提供的标记表明即将发生的活动时,模式识别引擎可提供标记基于存储在存储装置248中的过去使用模式预示用户利用设备来记录或处理音频的概率。如果所述概率超过阈值(对于不同的标记此阈值可不同),提供足够的共同性,那么活动监测器242可激活循环缓冲器232。然而,如果所述概率低于阈值,那么活动监测器242可放弃激活。如果所述概率低于阈值但是用户确实激活开始音频的记录或处理,那么模式识别引擎可修改对应存储的模式和/或所述阈值可基于未来的标记被调整成有利于缓冲器激活。
图3示出用于设备100的操作的算法的实例。过程开始于300并且在320监测音频活动。在监测期间,音频数据流310被接收。音频流可以是从(除了其他事物之外例如)麦克风218、耳机806或者通过网络802连接的音频捕获设备捕获的音频。
活动监测器242针对记录或处理音频的用户命令可能即将来临的标记监测活动320。此监测可在连续的循环中执行(322“否”)直到标记被检测为止(322“是”)。
图4为监测活动320的更详细的实例。针对其存在可激活缓冲器的各种标记监测检查。尽管图4示出监测活动320为一系列顺序步骤,所述步骤可以以任意方式布置并且标记(或其他标记)中的任意一个,单独或者与其他标记组合,可导致缓冲器的激活。一个标记是音频捕获或处理应用是否在处理器204上启动(490)。由于应用自身可能或者可能不被配置来与智能缓冲器一起操作,这可包括使后台处理在处理器204上运行,从而监视某些应用的激活和/或监视应用开启通过总线224到达通过I/O设备接口202连接的音频输入设备的通信信道。
另一标记是监视光强度中的变化(491)。此功能通常被内置在电子设备中,所述电子设备具有使用背光的液晶显示器或者使用前光的电子纸显示器,以便调整光的强度。可如何测量环境光强度的实例包括内置在显示器210中的一个或多个光电元件的使用,或者相机212的使用。光强度的变化单独或者与其他标记组合可被用作即将发生的活动的标记。光强度的变化还可被用来激活具有较高水平的功率消耗的其他过程,诸如监测运动或用户的存在(492)或者面部识别(493)。光强度的突然变化本身可被用作标记,因为它可指示用户触及设备,其中所述用户的手导致强度的变化。
另一标记是使用诸如相机212的相机监测运动或用户的存在(492)。图像处理引擎250比较通过相机获取的一系列图像以便确定在所述相机的视野内是否发生运动。这可被执行为独立的过程,或者可响应于光强度的变化(491)被调用以便最小化功率消耗。
另一标记是搜索面部或者头部的所获取的图像(493)。面部识别通常被包括在移动设备(其可用于照相)中,并且图像处理引擎250和面部识别过程(493)可以是由照相软件部件利用的所共享过程。面部识别过程可以是独立的过程,或者可响应于光强度的变化(491)和/或运动的检测(492)被调用以便最小化功率消耗。面部和头部检测可被用于(除了其他事物之外)确定用户靠近他们的头部(例如,他们的头部旁边或者接近他们的嘴部)放置所述设备以便说话。
另一标志是手指何时被检测在显示屏210的界面216的上方(494)。利用电容触摸面板和基于手势的显示界面,可在接触之前检测手指对屏幕的接近度。
另一标记是监测环境声音(495)。环境声音可以是超过除背景噪声之外的音频的阈值量的音频,其从例如麦克风218、耳机806或者通过I/O设备接口202连接的另一音频输入设备接收。环境声音(495)的检测可单独或者与其他标记组合被用作标记,和/或可激活消耗较大功率的其他音频分析过程,诸如处理音频以便检测语音(496)和/或处理音频以便检测特定的说话者(497)。
另一标记是检测语音(496)。此过程可由语音识别引擎244执行,并且所述过程和所述引擎两者可与由所述设备提供的诸如语音-至-文本过程的其他过程共享。如由活动监测模块240执行,为了降低功率消耗,语音的检测(496)可使用语音识别工具的子集,诸如检测一系列音素被检测而不是音素完全转换成词语和句子。此过程(496)可以是独立的,或者响应于环境声音(495)的检测被调用以便最小化功率消耗。
另一标记是特定的说话者是否被识别(497)。声音识别引擎246可将所接收的音频与诸如设备的拥有者的声音签名的所存储的声音签名相比较。此过程(497)可以是独立的,或者可响应于环境声音(495)的检测和/或语音检测(496)被调用以便最小化功率消耗。
另一标记是使用惯性传感器266检测的所述设备的移动(498)。标记可以基于设备运动的任意变化(诸如用户拿起所述设备)或者可以基于处于特定取向(诸如竖直放置)的设备。
如果标记被检测,那么模式识别引擎252可将一个或多个标记的发生和现有情况(例如,时间、位置)以及所述标记的出现之前的活动与音频记录和/或处理之前的用户活动的过去模式相比较。如果模式是类似的(424“是”),超出共同性的阈值,那么所述过程继续。
返回到图3,如果标记被检测,那么循环缓冲器232被激活(340)。紧接着缓冲器的激活,可做出检查以便查看来自用户用来记录或处理音频的命令信号是否已被接收(330)。尽管被示出与用于监测活动(320)的过程串联,活动的监测(320)以及监测是否已经存在用户命令信号连续进行(330);可并行或者以不同的顺序操作。
监测指导设备处理或记录音频的用户命令信号(330)的实例包括物理按钮(例如,按钮214)的按压,通过设备的图形用户界面提供的虚拟按钮的按压,说出的命令词语或者命令手势。
如果信号还没有被接收(330“否”),那么继续缓冲直到用户信号被接收(330“是”)。所缓冲音频的至少一部分随后从缓冲器(350)检索并且预加(360)到在用户命令之后接收的音频上。所组合的音频流随后被记录和/或处理(370),诸如将语音处理成文本。当音频流结束(例如,人停止说话)或者发出它们已经完成的信号(例如,释放按钮214),所述过程重新开始(380“否”)。
图5示出时域音频信号502。线504表示记录或处理的信号被接收(即,330)时的时间点,其中线504的右边的音频样本516为在所述命令之后接收的音频,并且线504左边的音频为被缓冲的音频。最近缓冲的音频的固定部分可被预加(360)(例如,最近的半秒),或者所使用的部分514可通过检测语音或者最近的词语何处开始得以确定。相对于背景环境噪声包络线510确定“静默”。所缓冲的静默的一部分512可以与样本514一起被包括以便于处理(370),这可有益于诸如语音识别的处理的准确性。作为标记的声音的检测(图4中的495)也可相对于此环境包络线510。
图6为示出可包括在设备100中的附加部件的框图。循环缓冲器232被包括在缓冲器模块630中。缓冲器模块630还包括标准化和/或噪声补偿模块634、上/下音频采样器636和抗混淆滤波器638。图7为补充图3示出图6中的附加部件的使用的流程图。
图7中的第一附加特征是计时器,如果指定的时间段耗尽而没有从用户接收到记录或处理所接收音频的指示(330),所述计时器被用来中断循环缓冲器232。当处理开始,缓冲器被初始化(704),并且在表明即将发生的用户命令的标记被接收之后,开始计时728。在达到指定量的时间(744“否”)之前,音频的缓冲继续。如果指定量的时间已经耗尽(744“是”),那么所述过程重新开始。此外,如果设备100上的功率电平较低,那么监测标记320的过程和循环缓冲器的使用可被暂停以便节约功率。
另一附加特征是对所接收的音频的标准化和/或应用噪声补偿(通过634)。当所述过程开始,水平被初始化(704)。修正被应用(732)至所缓冲的音频,并且修正可随时间被持续计算(742)以便进一步调整所述修正,使用比被预加到用户命令后流的更大的所缓冲音频的部分(例如,整个缓冲器)。除了信道标准化和噪声降低之外,被应用至所接收音频的增益可被调整(例如,以便防止音频“剪切”)。信道标准化可包括计算倒频谱(cepstra)(这是用于音频帧的语音识别特征),取随时间段的倒频谱向量的平均值以及确定随时间的倒频谱方差。倒频谱方差和平均值可被用来降低背景噪声的影响以便标准化音频信道。也可应用其他的噪声补偿技术。
在一个方面,设备或音频处理系统可包含超过一个的循环缓冲器。所述缓冲器可具有不同的长度并且用于不同的目的。例如,长的缓冲器可被用来取得由所述设备经受的音频条件的更为延伸的样本,由此导致音频修正(诸如信道标准化等),所述音频修正是基于更长的条件样本。较短的缓冲器可被用来实际存储将被预加到用户语音以用于语音识别处理的音频。在一个方面,较长范围的缓冲器可存储与在对应于较长范围缓冲器的时间帧上的音频性能相关的统计数据。此外,较长范围的缓冲器可执行帧/时基-抽取(其中麦克风在某些间隔期间被关闭/打开但是音频以正常的速率被采样)和/或采样速率抽取。
这个与常规音频水平调整之间的区别是,在用户命令记录或处理音频之前被计算的修正可被应用至在所述命令之后接收的音频,提供所缓冲与现场音频之间的音频质量的连续性,并且从所述流的开始提供修正的水平。
另一附加特征是在缓冲音频时使用抽取。这可通过使用抽取单元636来存储循环缓冲器232中的音频样本中的仅一些来实现。例如,抽取单元636可仅存储缓冲器中的仅每N个音频样本(例如,10个中的1个)。
尽管上文论述的智能缓冲器系统的部件大部分驻留在设备100内,所述部件还可被布置在分布式计算环境中。例如,缓冲器模块630和/或活动监测模块240可被驻留在通过网络802连接的另一设备中。此外,处理(360)的一些或所有可对通过网络802连接至设备100的处理器执行。例如,如在图8中所示,无线设备804、无线耳机806、膝上型计算机808、平板计算机810、终端812、有线耳机814和/或计算机816可获取音频流,包括用户界面,并且包含惯性传感器266,而通过网络802连接的服务器818可执行缓冲器模块630、活动监测模块240和/或数据记录和处理(360)的计算方面。这样的分布式环境允许具有有限计算和存储能力的联网设备从智能缓冲器的优势受益。
图2和图6中的系统可包括用于实现在图1、图3、图4和图7中示出的过程的计算机可读和计算机可执行指令。这样的指令可存储在非易失性计算机可读存储装置208和/或248中。
尽管系统100中可包括图2和图6中的部件,也可包括其他未示出部件。此外,所示出的部件的一些可能不存在于能够采用智能缓冲器系统的总体概念的每个设备中。此外,作为单一部件在设备100中示出的一些部件可在单一设备中多次出现。例如,设备100可包括多个输入/输出设备接口202或多个控制器/处理器204。
可在实现图1、图3、图4和图7中示出的过程的系统中采用多个循环缓冲器232、主动监测模块240以及缓冲器模块630。在这样的多个设备系统中,设备100可包括用于执行这些过程的不同方面的不同部件。多个设备可包括重叠部件。如在图1、图2和图6中示出的设备100是示例性的,并且可以是独立设备或者可以整体或者部分地包括作为更大设备或系统的部件。
本文所公开的概念可被应用在多个不同的设备和计算机系统内,包括例如,数字相机、蜂窝电话、个人数字助理(PDA)、平板计算机、带有头戴式相机和显示器的佩戴式计算机、其他移动设备等。设备100的部件还可以是可提供智能缓冲器能力的其他设备或系统的部件,包括通用计算系统、服务器-客户端计算系统、主机计算系统、电话计算系统、膝上型计算机等。
各种部件可整体或者部分地与设备100一起使用。例如,相机212可包括用于捕获图像的电荷耦合器件(CCD)图像传感器或有源像素传感器(APS)。任意适合的技术的显示器210,诸如液晶显示器、有机发光二极管显示器、电子纸、电致变色显示器、阴极射线管显示器、场致发射显示器、微型投影机或者用于显示图像和/或视频的其他适合的部件。设备210至218可各自被集成在设备100中或者可以是分开的。
本公开的上述方面意为说明性的。它们被选中来解释本公开的原理和应用并且不意图是详尽性的或限制本公开。对所公开方面的许多修改和变化对本领域技术人员可以是明显的。具有计算机、数字成像和/或内容转换领域普通技术的人应该认识到,本文所描述的部件和过程步骤可与其他部件或步骤或者部件或步骤的组合互换,并且仍然实现本公开的益处和优势。此外,本领域的技术人员应明白,可在没有本文所公开的特定细节和步骤的一些或所有的情况下实践本公开。
本公开的方面可被实现为计算机方法、系统,或者被实现为诸如存储器设备或非暂时计算机可读存储介质的制造制品。计算机可读存储介质可通过计算机读取并且可包括用于致使计算机或其他设备执行本公开中描述的过程的指令。计算机可读存储介质可通过易失性计算机存储器、非易失性计算机存储器、硬盘驱动器、固态存储器、闪存驱动器、可移动磁盘和/或其他介质来实现。
如在本公开中所使用的,除非另有明确说明,否则术语“一个(a)”或“一个(one)”可包括一个或多个物品。此外,除非另有明确说明,否则词语“基于”是意指“至少部分地基于”。
条款:
1.一种在电子设备上缓冲音频的方法,其包括:
检测即将发生的设备活动的标记,所述标记包括记录或处理音频的应用的激活、入射光强度的变化、运动的视觉检测、接近所述设备的用户的视觉检测、面部的视觉识别、接近触敏显示屏的手指的检测、所述设备的移动、环境声音的检测、语音的检测或者特定说话者的检测中的一个或多个;
响应于检测到所述标记,激活循环缓冲器;
将所接收音频存储在所述循环缓冲器中;
接收处理或记录音频的指示;
响应于所述指示,将在所述指示之前存储在所述缓冲器中的所述音频的至少一部分与在所述指示之后接收的音频组合;以及
传送或处理所述组合音频。
2.根据条款1所述的方法,其中所述接收的指示是物理按钮的按压、通过图形用户界面提供的虚拟按钮的按压或者命令手势。
3.根据条款1所述的方法,其还包括:
响应于检测到所述标记并且在接收所述指示之前,计算将被应用至所述接收的音频的音频修正;以及
将所述音频修正应用至在所述指示之后接收的音频。
4.根据条款3所述的方法,其中所述音频修正包括信道标准化或噪声降低中的一个或多个。
5.一种计算设备,其包括:
至少一个处理器;
存储器设备,其包括可操作来由所述至少一个处理器执行以执行一组动作、配置所述至少一个处理器来进行以下操作的指令:
检测即将发生的设备活动的标记;
至少部分地基于检测到所述即将发生的设备活动的标记,激活循环缓冲器;
将所接收音频存储在所述循环缓冲器中;
接收处理或记录音频的信号;
将在所述信号的接收之前存储在所述循环缓冲器中的所述音频的至少一部分与在所述信号之后接收的音频组合;以及
传送或处理所述组合音频。
6.根据条款5所述的计算设备,其中所述即将发生的设备活动的标记的所述检测至少部分地基于监测耦接至所述至少一个处理器的传感器。
7.根据条款6所述的计算设备,其中所述标记包括记录或处理音频的应用的激活、入射光强度的变化、运动的视觉检测、接近所述设备的用户的视觉检测、面部的视觉识别、接近触敏显示屏的手指的检测、所述设备的移动、环境声音的检测、语音的检测或者特定说话者的检测中的一个或多个。
8.根据条款5所述的计算设备,其中响应于物理按钮的按压、通过所述设备的图形用户界面提供的虚拟按钮的按压或者手势来生成处理或记录音频的所述信号。
9.根据条款5所述的计算设备,其还包括指令,所述指令配置所述至少一个处理器来:
在处理或记录音频的所述信号的接收之前计算音频修正;以及
将所述音频修正应用至在所述信号之后接收的音频。
10.根据条款9所述的计算设备,其中所述至少一个处理器被配置来:
至少部分地基于存储在第一循环缓冲器中的音频计算所述音频修正;
将所述音频修正应用至存储在第二循环缓冲器中的音频;以及
将存储在所述第二循环缓冲器中的所述音频的一部分与在所述信号之后接收的音频组合。
11.根据条款9所述的计算设备,其中所述音频修正包括信道标准化或噪声降低中的一个或多个。
12.根据条款5所述的计算设备,其还包括指令,所述指令配置所述至少一个处理器来:
至少部分地基于用户历史识别与捕获的音频的利用相关的设备活动的模式;以及
将至少即将发生的设备活动的所检测标记和与所述标记的发生相关的其他数据与所述识别的模式相比较,
其中激活所述循环缓冲器还至少部分地基于所述比较。
13.一种存储用于控制计算设备的处理器可执行指令的非暂时计算机可读存储介质,其包括:
用以检测即将发生的设备活动的标记的程序代码;
用以至少部分地基于检测到所述即将发生的设备活动的标记来激活循环缓冲器的程序代码;
用以将所接收音频存储在所述循环缓冲器中的程序代码;
用以接收处理或记录音频的信号的程序代码;
用以将在所述信号的接收之前存储在所述循环缓冲器中的所述音频的至少一部分与在所述信号之后接收的音频组合的程序代码;以及
用以传送或处理所述组合音频的程序代码。
14.根据条款13所述的非暂时计算机可读存储介质,其中用以检测所述即将发生的设备活动的标记的所述程序代码至少部分地基于监测所述计算设备的传感器。
15.根据条款14所述的非暂时计算机可读存储介质,其中所述标记包括记录或处理音频的应用的激活、入射光强度的变化、运动的视觉检测、接近所述设备的用户的视觉检测、面部的视觉识别、接近触敏显示屏的手指的检测、所述设备的移动、环境声音的检测、语音的检测或者特定说话者的检测中的一个或多个。
16.根据条款13所述的非暂时计算机可读存储介质,其中响应于物理按钮的按压、通过所述计算设备的图形用户界面提供的虚拟按钮的按压或者手势来生成处理或记录音频的所述信号。
17.根据条款13所述的非暂时计算机可读存储介质,其还包括:
用以在处理或记录音频的所述信号的接收之前计算音频修正的程序代码;以及
用以将所述音频修正应用至在所述信号之后接收的音频的程序代码。
18.根据条款17所述的非暂时计算机可读存储介质,其中:
用以计算所述音频修正的所述程序代码至少部分地基于存储在第一循环缓冲器中的音频;
用以应用所述音频修正的所述程序代码包括用以将所述音频修正应用至存储在第二循环缓冲器中的音频的程序代码;以及
用以组合所述音频的一部分的所述程序代码包括用以将存储在所述第二循环缓冲器中的所述音频的一部分与在所述信号之后接收的音频组合的程序代码。
19.根据条款17所述的非暂时计算机可读存储介质,其中所述音频修正包括信道标准化或噪声降低中的一个或多个。
20.根据条款13所述的非暂时计算机可读存储介质,其还包括:
用以至少部分地基于用户历史识别与所捕获的音频的利用相关的设备活动的模式的程序代码;以及
用以将至少即将发生的设备活动的所检测标记和与所述标记的发生相关的其他数据与所述识别的模式相比较的程序代码,
其中用以激活所述循环缓冲器的所述程序代码还至少部分地基于所述比较。
Claims (15)
1.一种在电子设备上缓冲音频的方法,其包括:
检测即将发生的设备活动的标记,所述标记包括记录或处理音频的应用的激活、入射光强度的变化、运动的视觉检测、接近所述设备的用户的视觉检测、面部的视觉识别、接近触敏显示屏的手指的检测、所述设备的移动、环境声音的检测、语音的检测或者特定说话者的检测中的一个或多个;
至少将即将发生的设备活动的标记与对应于设备活动的模式的存储数据进行比较,该设备活动的模式至少部分地基于用户历史;
响应于检测到所述标记并且至少部分地基于所述比较,激活循环缓冲器;
将所接收音频存储在所述循环缓冲器中;
接收处理或记录音频的指示;
响应于所述指示,将在所述指示之前存储在所述缓冲器中的所述音频的至少一部分与在所述指示之后接收的音频组合;以及
传送或处理所述组合音频。
2.根据权利要求1所述的方法,其中所述接收的指示是物理按钮的按压、通过图形用户界面提供的虚拟按钮的按压或者命令手势。
3.根据权利要求1所述的方法,其还包括:
响应于检测到所述标记并且在接收所述指示之前,计算将被应用至所述接收的音频的音频修正;以及
将所述音频修正应用至在所述指示之后接收的音频。
4.根据权利要求3所述的方法,其中所述音频修正包括信道标准化或噪声降低中的一个或多个。
5.一种计算设备,其包括:
至少一个处理器;
存储器设备,其包括可操作来由所述至少一个处理器执行以执行一组动作、配置所述至少一个处理器来进行以下操作的指令:
检测即将发生的设备活动的标记;
至少将即将发生的设备活动的标记与对应于设备活动的模式的存储数据进行比较,该设备活动的模式至少部分地基于用户历史;
至少部分地基于检测到所述即将发生的设备活动的标记以及所述比较,激活循环缓冲器;
将所接收音频存储在所述循环缓冲器中;
接收处理或记录音频的信号;
将在所述信号的接收之前存储在所述循环缓冲器中的所述音频的至少一部分与在所述信号之后接收的音频组合;以及
传送或处理所述组合音频。
6.根据权利要求5所述的计算设备,其中所述即将发生的设备活动的标记的所述检测至少部分地基于监测耦接至所述至少一个处理器的传感器。
7.根据权利要求5所述的计算设备,其还包括指令,所述指令配置所述至少一个处理器来:
在处理或记录音频的所述信号的接收之前计算音频修正;以及
将所述音频修正应用至在所述信号之后接收的音频。
8.根据权利要求7所述的计算设备,其中所述至少一个处理器被配置来:
至少部分地基于存储在第一循环缓冲器中的音频计算所述音频修正;
将所述音频修正应用至存储在第二循环缓冲器中的音频;以及
将存储在所述第二循环缓冲器中的所述音频的一部分与在所述信号之后接收的音频组合。
9.根据权利要求7所述的计算设备,其中所述音频修正包括信道标准化或噪声降低中的一个或多个。
10.一种用于控制计算设备的系统,其包括:
电子数据存储区,其被配置来存储计算机可执行指令;以及
一个或多个处理器,其与所述电子数据存储区通信,所述一个或多个处理器被配置来至少:
检测即将发生的设备活动的标记;
至少将即将发生的设备活动的标记与对应于设备活动的模式的存储数据进行比较,该设备活动的模式至少部分地基于用户历史;
至少部分地基于检测到所述即将发生的设备活动的标记以及所述比较,激活循环缓冲器;
将所接收音频存储在所述循环缓冲器中;
接收处理或记录音频的信号;
将在所述信号的接收之前存储在所述循环缓冲器中的所述音频的至少一部分与在所述信号之后接收的音频组合;以及
传送或处理所述组合音频。
11.根据权利要求10所述的系统,其中所述标记包括记录或处理音频的应用的激活、入射光强度的变化、运动的视觉检测、接近所述设备的用户的视觉检测、面部的视觉识别、接近触敏显示屏的手指的检测、所述设备的移动、环境声音的检测、语音的检测或者特定说话者的检测中的一个或多个。
12.根据权利要求10所述的系统,其中响应于物理按钮的按压、通过所述计算设备的图形用户界面提供的虚拟按钮的按压或者手势来生成处理或记录音频的所述信号。
13.根据权利要求10所述的系统,其中所述一个或多个处理器还被配置来:
在处理或记录音频的所述信号的接收之前计算音频修正;以及
将所述音频修正应用至在所述信号之后接收的音频。
14.根据权利要求13所述的系统,其中所述一个或多个处理器还被配置来:
至少部分地基于存储在第一循环缓冲器中的音频计算所述音频修正;
将所述音频修正应用至存储在第二循环缓冲器中的音频;以及
将存储在所述第二循环缓冲器中的所述音频的一部分与在所述信号之后接收的音频组合。
15.根据权利要求1O所述的系统,其中所述一个或多个处理器还被配置来:
至少部分地基于用户历史识别与捕获的音频的利用相关的设备活动的模式;以及
将至少即将发生的设备活动的所检测标记和与所述标记的发生相关的其他数据与所述识别的模式相比较,
至少部分地基于所述比较激活所述循环缓冲器。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US14/016,403 US9633669B2 (en) | 2013-09-03 | 2013-09-03 | Smart circular audio buffer |
US14/016,403 | 2013-09-03 | ||
PCT/US2014/052925 WO2015034723A1 (en) | 2013-09-03 | 2014-08-27 | Smart circular audio buffer |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106030440A CN106030440A (zh) | 2016-10-12 |
CN106030440B true CN106030440B (zh) | 2019-06-11 |
Family
ID=52584433
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201480048338.2A Active CN106030440B (zh) | 2013-09-03 | 2014-08-27 | 智能循环音频缓冲器 |
Country Status (5)
Country | Link |
---|---|
US (1) | US9633669B2 (zh) |
EP (1) | EP3028111B1 (zh) |
JP (1) | JP6594879B2 (zh) |
CN (1) | CN106030440B (zh) |
WO (1) | WO2015034723A1 (zh) |
Families Citing this family (158)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8677377B2 (en) | 2005-09-08 | 2014-03-18 | Apple Inc. | Method and apparatus for building an intelligent automated assistant |
US9318108B2 (en) | 2010-01-18 | 2016-04-19 | Apple Inc. | Intelligent automated assistant |
US8977255B2 (en) | 2007-04-03 | 2015-03-10 | Apple Inc. | Method and system for operating a multi-function portable electronic device using voice-activation |
US10002189B2 (en) | 2007-12-20 | 2018-06-19 | Apple Inc. | Method and apparatus for searching using an active ontology |
US9330720B2 (en) | 2008-01-03 | 2016-05-03 | Apple Inc. | Methods and apparatus for altering audio output signals |
US8996376B2 (en) | 2008-04-05 | 2015-03-31 | Apple Inc. | Intelligent text-to-speech conversion |
US20100030549A1 (en) | 2008-07-31 | 2010-02-04 | Lee Michael M | Mobile device having human language translation capability with positional feedback |
US8676904B2 (en) | 2008-10-02 | 2014-03-18 | Apple Inc. | Electronic devices with voice command and contextual data processing capabilities |
US10241752B2 (en) | 2011-09-30 | 2019-03-26 | Apple Inc. | Interface for a virtual digital assistant |
US10706373B2 (en) | 2011-06-03 | 2020-07-07 | Apple Inc. | Performing actions associated with task items that represent tasks to perform |
US10276170B2 (en) | 2010-01-18 | 2019-04-30 | Apple Inc. | Intelligent automated assistant |
US8682667B2 (en) | 2010-02-25 | 2014-03-25 | Apple Inc. | User profiling for selecting user specific voice input processing information |
US9262612B2 (en) | 2011-03-21 | 2016-02-16 | Apple Inc. | Device access using voice authentication |
US10057736B2 (en) | 2011-06-03 | 2018-08-21 | Apple Inc. | Active transport based notifications |
US10134385B2 (en) | 2012-03-02 | 2018-11-20 | Apple Inc. | Systems and methods for name pronunciation |
US10417037B2 (en) | 2012-05-15 | 2019-09-17 | Apple Inc. | Systems and methods for integrating third party services with a digital assistant |
US9721563B2 (en) | 2012-06-08 | 2017-08-01 | Apple Inc. | Name recognition system |
CN113470641B (zh) | 2013-02-07 | 2023-12-15 | 苹果公司 | 数字助理的语音触发器 |
US9195432B2 (en) | 2013-02-26 | 2015-11-24 | Sonos, Inc. | Pre-caching of audio content |
US10652394B2 (en) | 2013-03-14 | 2020-05-12 | Apple Inc. | System and method for processing voicemail |
US10748529B1 (en) | 2013-03-15 | 2020-08-18 | Apple Inc. | Voice activated device for use with a voice-based digital assistant |
WO2014197334A2 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for user-specified pronunciation of words for speech synthesis and recognition |
WO2014197335A1 (en) | 2013-06-08 | 2014-12-11 | Apple Inc. | Interpreting and acting upon commands that involve sharing information with remote devices |
KR101772152B1 (ko) | 2013-06-09 | 2017-08-28 | 애플 인크. | 디지털 어시스턴트의 둘 이상의 인스턴스들에 걸친 대화 지속성을 가능하게 하기 위한 디바이스, 방법 및 그래픽 사용자 인터페이스 |
US10176167B2 (en) | 2013-06-09 | 2019-01-08 | Apple Inc. | System and method for inferring user intent from speech inputs |
CN105453026A (zh) | 2013-08-06 | 2016-03-30 | 苹果公司 | 基于来自远程设备的活动自动激活智能响应 |
US20150074524A1 (en) * | 2013-09-10 | 2015-03-12 | Lenovo (Singapore) Pte. Ltd. | Management of virtual assistant action items |
US10296160B2 (en) | 2013-12-06 | 2019-05-21 | Apple Inc. | Method for extracting salient dialog usage from live data |
EP3084760A4 (en) * | 2013-12-20 | 2017-08-16 | Intel Corporation | Transition from low power always listening mode to high power speech recognition mode |
JPWO2015107928A1 (ja) * | 2014-01-17 | 2017-03-23 | ソニー株式会社 | 撮影システム、警告発生装置および方法、撮像装置および方法、並びにプログラム |
US9338514B2 (en) | 2014-03-28 | 2016-05-10 | Sonos, Inc. | Account aware media preferences |
US9524338B2 (en) | 2014-04-28 | 2016-12-20 | Sonos, Inc. | Playback of media content according to media preferences |
US10129599B2 (en) | 2014-04-28 | 2018-11-13 | Sonos, Inc. | Media preference database |
US9478247B2 (en) | 2014-04-28 | 2016-10-25 | Sonos, Inc. | Management of media content playback |
US9430463B2 (en) | 2014-05-30 | 2016-08-30 | Apple Inc. | Exemplar-based natural language processing |
WO2015184186A1 (en) | 2014-05-30 | 2015-12-03 | Apple Inc. | Multi-command single utterance input method |
US10170123B2 (en) | 2014-05-30 | 2019-01-01 | Apple Inc. | Intelligent assistant for home automation |
US9633004B2 (en) | 2014-05-30 | 2017-04-25 | Apple Inc. | Better resolution when referencing to concepts |
US9715875B2 (en) | 2014-05-30 | 2017-07-25 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
US9535986B2 (en) | 2014-06-27 | 2017-01-03 | Sonos, Inc. | Application launch |
US9338493B2 (en) | 2014-06-30 | 2016-05-10 | Apple Inc. | Intelligent automated assistant for TV user interactions |
US9818400B2 (en) | 2014-09-11 | 2017-11-14 | Apple Inc. | Method and apparatus for discovering trending terms in speech requests |
US10127911B2 (en) | 2014-09-30 | 2018-11-13 | Apple Inc. | Speaker identification and unsupervised speaker adaptation techniques |
US9668121B2 (en) | 2014-09-30 | 2017-05-30 | Apple Inc. | Social reminders |
US10074360B2 (en) | 2014-09-30 | 2018-09-11 | Apple Inc. | Providing an indication of the suitability of speech recognition |
US20160224104A1 (en) * | 2015-02-02 | 2016-08-04 | Telenav, Inc. | Electronic system with capture mechanism and method of operation thereof |
US10152299B2 (en) | 2015-03-06 | 2018-12-11 | Apple Inc. | Reducing response latency of intelligent automated assistants |
US9721566B2 (en) | 2015-03-08 | 2017-08-01 | Apple Inc. | Competing devices responding to voice triggers |
US9886953B2 (en) | 2015-03-08 | 2018-02-06 | Apple Inc. | Virtual assistant activation |
US10567477B2 (en) | 2015-03-08 | 2020-02-18 | Apple Inc. | Virtual assistant continuity |
US10460227B2 (en) | 2015-05-15 | 2019-10-29 | Apple Inc. | Virtual assistant in a communication session |
US10083688B2 (en) | 2015-05-27 | 2018-09-25 | Apple Inc. | Device voice control for selecting a displayed affordance |
US10200824B2 (en) | 2015-05-27 | 2019-02-05 | Apple Inc. | Systems and methods for proactively identifying and surfacing relevant content on a touch-sensitive device |
US10452339B2 (en) * | 2015-06-05 | 2019-10-22 | Apple Inc. | Mechanism for retrieval of previously captured audio |
US9578173B2 (en) | 2015-06-05 | 2017-02-21 | Apple Inc. | Virtual assistant aided communication with 3rd party service in a communication session |
US11025565B2 (en) | 2015-06-07 | 2021-06-01 | Apple Inc. | Personalized prediction of responses for instant messaging |
US20160378747A1 (en) | 2015-06-29 | 2016-12-29 | Apple Inc. | Virtual assistant for media playback |
US10671428B2 (en) | 2015-09-08 | 2020-06-02 | Apple Inc. | Distributed personal assistant |
US10740384B2 (en) | 2015-09-08 | 2020-08-11 | Apple Inc. | Intelligent automated assistant for media search and playback |
US10747498B2 (en) | 2015-09-08 | 2020-08-18 | Apple Inc. | Zero latency digital assistant |
US10331312B2 (en) | 2015-09-08 | 2019-06-25 | Apple Inc. | Intelligent automated assistant in a media environment |
US11587559B2 (en) | 2015-09-30 | 2023-02-21 | Apple Inc. | Intelligent device identification |
CN106560766A (zh) * | 2015-10-04 | 2017-04-12 | 义明科技股份有限公司 | 非接触式手势判断方法及其装置 |
US10691473B2 (en) | 2015-11-06 | 2020-06-23 | Apple Inc. | Intelligent automated assistant in a messaging environment |
US10956666B2 (en) | 2015-11-09 | 2021-03-23 | Apple Inc. | Unconventional virtual assistant interactions |
US10769189B2 (en) * | 2015-11-13 | 2020-09-08 | Microsoft Technology Licensing, Llc | Computer speech recognition and semantic understanding from activity patterns |
US10049668B2 (en) | 2015-12-02 | 2018-08-14 | Apple Inc. | Applying neural network language models to weighted finite state transducers for automatic speech recognition |
US10223066B2 (en) | 2015-12-23 | 2019-03-05 | Apple Inc. | Proactive assistance based on dialog communication between devices |
CN106971730A (zh) * | 2016-01-14 | 2017-07-21 | 芋头科技(杭州)有限公司 | 一种基于信道补偿的声纹识别方法 |
US10204637B2 (en) * | 2016-05-21 | 2019-02-12 | Stephen P Forte | Noise reduction methodology for wearable devices employing multitude of sensors |
US11107461B2 (en) * | 2016-06-01 | 2021-08-31 | Massachusetts Institute Of Technology | Low-power automatic speech recognition device |
US11227589B2 (en) | 2016-06-06 | 2022-01-18 | Apple Inc. | Intelligent list reading |
US10049663B2 (en) | 2016-06-08 | 2018-08-14 | Apple, Inc. | Intelligent automated assistant for media exploration |
US10586535B2 (en) | 2016-06-10 | 2020-03-10 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
DK179415B1 (en) | 2016-06-11 | 2018-06-14 | Apple Inc | Intelligent device arbitration and control |
DK201670540A1 (en) | 2016-06-11 | 2018-01-08 | Apple Inc | Application integration with a digital assistant |
US10621992B2 (en) * | 2016-07-22 | 2020-04-14 | Lenovo (Singapore) Pte. Ltd. | Activating voice assistant based on at least one of user proximity and context |
US10474753B2 (en) | 2016-09-07 | 2019-11-12 | Apple Inc. | Language identification using recurrent neural networks |
US10043516B2 (en) | 2016-09-23 | 2018-08-07 | Apple Inc. | Intelligent automated assistant |
US11281993B2 (en) | 2016-12-05 | 2022-03-22 | Apple Inc. | Model and ensemble compression for metric learning |
US10593346B2 (en) | 2016-12-22 | 2020-03-17 | Apple Inc. | Rank-reduced token representation for automatic speech recognition |
US11204787B2 (en) | 2017-01-09 | 2021-12-21 | Apple Inc. | Application integration with a digital assistant |
CN108288470B (zh) * | 2017-01-10 | 2021-12-21 | 富士通株式会社 | 基于声纹的身份验证方法和装置 |
US10417266B2 (en) | 2017-05-09 | 2019-09-17 | Apple Inc. | Context-aware ranking of intelligent response suggestions |
DK201770383A1 (en) | 2017-05-09 | 2018-12-14 | Apple Inc. | USER INTERFACE FOR CORRECTING RECOGNITION ERRORS |
US10395654B2 (en) | 2017-05-11 | 2019-08-27 | Apple Inc. | Text normalization based on a data-driven learning network |
DK180048B1 (en) | 2017-05-11 | 2020-02-04 | Apple Inc. | MAINTAINING THE DATA PROTECTION OF PERSONAL INFORMATION |
DK201770439A1 (en) | 2017-05-11 | 2018-12-13 | Apple Inc. | Offline personal assistant |
US10726832B2 (en) | 2017-05-11 | 2020-07-28 | Apple Inc. | Maintaining privacy of personal information |
DK179496B1 (en) | 2017-05-12 | 2019-01-15 | Apple Inc. | USER-SPECIFIC Acoustic Models |
DK201770429A1 (en) | 2017-05-12 | 2018-12-14 | Apple Inc. | LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT |
US11301477B2 (en) | 2017-05-12 | 2022-04-12 | Apple Inc. | Feedback analysis of a digital assistant |
DK179745B1 (en) | 2017-05-12 | 2019-05-01 | Apple Inc. | SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT |
DK201770431A1 (en) | 2017-05-15 | 2018-12-20 | Apple Inc. | Optimizing dialogue policy decisions for digital assistants using implicit feedback |
DK201770432A1 (en) | 2017-05-15 | 2018-12-21 | Apple Inc. | Hierarchical belief states for digital assistants |
DK201770411A1 (en) | 2017-05-15 | 2018-12-20 | Apple Inc. | MULTI-MODAL INTERFACES |
US10403278B2 (en) | 2017-05-16 | 2019-09-03 | Apple Inc. | Methods and systems for phonetic matching in digital assistant services |
US10311144B2 (en) | 2017-05-16 | 2019-06-04 | Apple Inc. | Emoji word sense disambiguation |
US10303715B2 (en) | 2017-05-16 | 2019-05-28 | Apple Inc. | Intelligent automated assistant for media exploration |
US20180336892A1 (en) | 2017-05-16 | 2018-11-22 | Apple Inc. | Detecting a trigger of a digital assistant |
DK179560B1 (en) | 2017-05-16 | 2019-02-18 | Apple Inc. | FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES |
US10664533B2 (en) | 2017-05-24 | 2020-05-26 | Lenovo (Singapore) Pte. Ltd. | Systems and methods to determine response cue for digital assistant based on context |
US10657328B2 (en) | 2017-06-02 | 2020-05-19 | Apple Inc. | Multi-task recurrent neural network architecture for efficient morphology handling in neural language modeling |
CN107240396B (zh) * | 2017-06-16 | 2023-01-17 | 百度在线网络技术(北京)有限公司 | 说话人自适应方法、装置、设备及存储介质 |
US10445429B2 (en) | 2017-09-21 | 2019-10-15 | Apple Inc. | Natural language understanding using vocabularies with compressed serialized tries |
US10755051B2 (en) | 2017-09-29 | 2020-08-25 | Apple Inc. | Rule-based natural language processing |
EP3698359A1 (en) * | 2017-10-18 | 2020-08-26 | Soapbox Labs Ltd. | Methods and systems for speech detection |
CN107808670B (zh) | 2017-10-25 | 2021-05-14 | 百度在线网络技术(北京)有限公司 | 语音数据处理方法、装置、设备及存储介质 |
GB201801875D0 (en) * | 2017-11-14 | 2018-03-21 | Cirrus Logic Int Semiconductor Ltd | Audio processing |
US10636424B2 (en) | 2017-11-30 | 2020-04-28 | Apple Inc. | Multi-turn canned dialog |
US10922395B2 (en) * | 2018-01-05 | 2021-02-16 | Stmicroelectronics, Inc. | Facial authentication systems and methods utilizing time of flight sensing |
US11397077B2 (en) | 2018-01-05 | 2022-07-26 | Stmicroelectronics, Inc. | Power and security adjustment for face identification with reflectivity detection by a ranging sensor |
US10733982B2 (en) | 2018-01-08 | 2020-08-04 | Apple Inc. | Multi-directional dialog |
US10733375B2 (en) | 2018-01-31 | 2020-08-04 | Apple Inc. | Knowledge-based framework for improving natural language understanding |
US10726829B2 (en) | 2018-02-28 | 2020-07-28 | Cirrus Logic, Inc. | Performing speaker change detection and speaker recognition on a trigger phrase |
US10789959B2 (en) | 2018-03-02 | 2020-09-29 | Apple Inc. | Training speaker recognition models for digital assistants |
US10861462B2 (en) * | 2018-03-12 | 2020-12-08 | Cypress Semiconductor Corporation | Dual pipeline architecture for wakeup phrase detection with speech onset detection |
US10592604B2 (en) | 2018-03-12 | 2020-03-17 | Apple Inc. | Inverse text normalization for automatic speech recognition |
US10818288B2 (en) | 2018-03-26 | 2020-10-27 | Apple Inc. | Natural assistant interaction |
US10909331B2 (en) | 2018-03-30 | 2021-02-02 | Apple Inc. | Implicit identification of translation payload with neural machine translation |
US10928918B2 (en) | 2018-05-07 | 2021-02-23 | Apple Inc. | Raise to speak |
US11145294B2 (en) | 2018-05-07 | 2021-10-12 | Apple Inc. | Intelligent automated assistant for delivering content from user experiences |
US10984780B2 (en) | 2018-05-21 | 2021-04-20 | Apple Inc. | Global semantic word embeddings using bi-directional recurrent neural networks |
US10892996B2 (en) | 2018-06-01 | 2021-01-12 | Apple Inc. | Variable latency device coordination |
DK179822B1 (da) | 2018-06-01 | 2019-07-12 | Apple Inc. | Voice interaction at a primary device to access call functionality of a companion device |
DK180639B1 (en) | 2018-06-01 | 2021-11-04 | Apple Inc | DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT |
US11386266B2 (en) | 2018-06-01 | 2022-07-12 | Apple Inc. | Text correction |
DK201870355A1 (en) | 2018-06-01 | 2019-12-16 | Apple Inc. | VIRTUAL ASSISTANT OPERATION IN MULTI-DEVICE ENVIRONMENTS |
US10496705B1 (en) | 2018-06-03 | 2019-12-03 | Apple Inc. | Accelerated task performance |
US10665222B2 (en) * | 2018-06-28 | 2020-05-26 | Intel Corporation | Method and system of temporal-domain feature extraction for automatic speech recognition |
US11010561B2 (en) | 2018-09-27 | 2021-05-18 | Apple Inc. | Sentiment prediction from textual data |
US10996919B2 (en) * | 2018-09-28 | 2021-05-04 | Microsoft Technology Licensing, Llc | Providing historical captured audio data to applications |
US11170166B2 (en) | 2018-09-28 | 2021-11-09 | Apple Inc. | Neural typographical error modeling via generative adversarial networks |
US11462215B2 (en) | 2018-09-28 | 2022-10-04 | Apple Inc. | Multi-modal inputs for voice commands |
US10839159B2 (en) | 2018-09-28 | 2020-11-17 | Apple Inc. | Named entity normalization in a spoken dialog system |
CN109462796A (zh) * | 2018-10-25 | 2019-03-12 | 歌尔股份有限公司 | 一种音频处理系统及音频设备 |
US11475898B2 (en) | 2018-10-26 | 2022-10-18 | Apple Inc. | Low-latency multi-speaker speech recognition |
US11638059B2 (en) | 2019-01-04 | 2023-04-25 | Apple Inc. | Content playback on multiple devices |
US11348573B2 (en) | 2019-03-18 | 2022-05-31 | Apple Inc. | Multimodality in digital assistant systems |
US11307752B2 (en) | 2019-05-06 | 2022-04-19 | Apple Inc. | User configurable task triggers |
DK201970509A1 (en) | 2019-05-06 | 2021-01-15 | Apple Inc | Spoken notifications |
US11423908B2 (en) | 2019-05-06 | 2022-08-23 | Apple Inc. | Interpreting spoken requests |
US11475884B2 (en) | 2019-05-06 | 2022-10-18 | Apple Inc. | Reducing digital assistant latency when a language is incorrectly determined |
US11140099B2 (en) | 2019-05-21 | 2021-10-05 | Apple Inc. | Providing message response suggestions |
DK201970510A1 (en) | 2019-05-31 | 2021-02-11 | Apple Inc | Voice identification in digital assistant systems |
US11289073B2 (en) | 2019-05-31 | 2022-03-29 | Apple Inc. | Device text to speech |
US11496600B2 (en) | 2019-05-31 | 2022-11-08 | Apple Inc. | Remote execution of machine-learned models |
DK180129B1 (en) | 2019-05-31 | 2020-06-02 | Apple Inc. | USER ACTIVITY SHORTCUT SUGGESTIONS |
US11468890B2 (en) | 2019-06-01 | 2022-10-11 | Apple Inc. | Methods and user interfaces for voice-based control of electronic devices |
US11360641B2 (en) | 2019-06-01 | 2022-06-14 | Apple Inc. | Increasing the relevance of new available information |
CN112216277A (zh) * | 2019-07-12 | 2021-01-12 | Oppo广东移动通信有限公司 | 通过耳机进行语音识别的方法、耳机、语音识别装置 |
WO2021056255A1 (en) | 2019-09-25 | 2021-04-01 | Apple Inc. | Text detection using global geometry estimators |
US11183193B1 (en) | 2020-05-11 | 2021-11-23 | Apple Inc. | Digital assistant hardware abstraction |
US11061543B1 (en) | 2020-05-11 | 2021-07-13 | Apple Inc. | Providing relevant data items based on context |
US11490204B2 (en) | 2020-07-20 | 2022-11-01 | Apple Inc. | Multi-device audio adjustment coordination |
US11438683B2 (en) | 2020-07-21 | 2022-09-06 | Apple Inc. | User identification using headphones |
US11727719B2 (en) | 2020-08-28 | 2023-08-15 | Stmicroelectronics, Inc. | System and method for detecting human presence based on depth sensing and inertial measurement |
US12021806B1 (en) | 2021-09-21 | 2024-06-25 | Apple Inc. | Intelligent message delivery |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6587127B1 (en) * | 1997-11-25 | 2003-07-01 | Motorola, Inc. | Content player method and server with user profile |
JP2003345390A (ja) * | 2002-05-23 | 2003-12-03 | Matsushita Electric Ind Co Ltd | 音声処理装置及びリモートコントローラ装置 |
Family Cites Families (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2829014B2 (ja) | 1989-01-12 | 1998-11-25 | 株式会社東芝 | 音声認識装置及び方法 |
FR2765715B1 (fr) * | 1997-07-04 | 1999-09-17 | Sextant Avionique | Procede de recherche d'un modele de bruit dans des signaux sonores bruites |
US6044434A (en) | 1997-09-24 | 2000-03-28 | Sony Corporation | Circular buffer for processing audio samples |
DE10030369A1 (de) | 2000-06-21 | 2002-01-03 | Volkswagen Ag | Spracherkennungssystem |
JP4577543B2 (ja) * | 2000-11-21 | 2010-11-10 | ソニー株式会社 | モデル適応装置およびモデル適応方法、記録媒体、並びに音声認識装置 |
US20030004729A1 (en) | 2001-06-28 | 2003-01-02 | Allen Karl H. | Handheld device with enhanced speech capability |
JP3940895B2 (ja) * | 2002-02-18 | 2007-07-04 | 日本電気株式会社 | 音声認識装置及び方法 |
US7177608B2 (en) * | 2002-03-11 | 2007-02-13 | Catch A Wave Technologies | Personal spectrum recorder |
US20130138231A1 (en) * | 2011-11-30 | 2013-05-30 | Arbitron, Inc. | Apparatus, system and method for activating functions in processing devices using encoded audio |
JP2005182357A (ja) * | 2003-12-18 | 2005-07-07 | Matsushita Electric Ind Co Ltd | 対話システム |
US7610199B2 (en) | 2004-09-01 | 2009-10-27 | Sri International | Method and apparatus for obtaining complete speech signals for speech recognition applications |
ES2675734T3 (es) * | 2005-04-07 | 2018-07-12 | Orange | Procedimiento de sincronización entre una operación de procesamiento de reconocimiento vocal y una acción de activación de dicho procesamiento |
US7962340B2 (en) | 2005-08-22 | 2011-06-14 | Nuance Communications, Inc. | Methods and apparatus for buffering data for use in accordance with a speech recognition system |
JP4678773B2 (ja) * | 2005-12-05 | 2011-04-27 | Kddi株式会社 | 音声入力評価装置 |
US8886545B2 (en) * | 2007-03-07 | 2014-11-11 | Vlingo Corporation | Dealing with switch latency in speech recognition |
US8111839B2 (en) * | 2007-04-09 | 2012-02-07 | Personics Holdings Inc. | Always on headwear recording system |
JP5034787B2 (ja) * | 2007-08-30 | 2012-09-26 | ソニー株式会社 | 電子機器、電子機器の起動方法およびコンピュータプログラム |
US8706172B2 (en) | 2010-10-26 | 2014-04-22 | Miscrosoft Corporation | Energy efficient continuous sensing for communications devices |
EP2801974A3 (en) | 2013-05-09 | 2015-02-18 | DSP Group Ltd. | Low power activation of a voice activated device |
-
2013
- 2013-09-03 US US14/016,403 patent/US9633669B2/en active Active
-
2014
- 2014-08-27 JP JP2016540281A patent/JP6594879B2/ja active Active
- 2014-08-27 CN CN201480048338.2A patent/CN106030440B/zh active Active
- 2014-08-27 EP EP14842261.1A patent/EP3028111B1/en active Active
- 2014-08-27 WO PCT/US2014/052925 patent/WO2015034723A1/en active Application Filing
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6587127B1 (en) * | 1997-11-25 | 2003-07-01 | Motorola, Inc. | Content player method and server with user profile |
JP2003345390A (ja) * | 2002-05-23 | 2003-12-03 | Matsushita Electric Ind Co Ltd | 音声処理装置及びリモートコントローラ装置 |
Also Published As
Publication number | Publication date |
---|---|
EP3028111A1 (en) | 2016-06-08 |
EP3028111B1 (en) | 2020-03-04 |
US9633669B2 (en) | 2017-04-25 |
JP2016535312A (ja) | 2016-11-10 |
EP3028111A4 (en) | 2017-04-05 |
WO2015034723A1 (en) | 2015-03-12 |
JP6594879B2 (ja) | 2019-10-23 |
US20150066494A1 (en) | 2015-03-05 |
CN106030440A (zh) | 2016-10-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106030440B (zh) | 智能循环音频缓冲器 | |
US9652017B2 (en) | System and method of analyzing audio data samples associated with speech recognition | |
US12094468B2 (en) | Speech detection method, prediction model training method, apparatus, device, and medium | |
US11922935B2 (en) | Voice interaction method and apparatus, terminal, and storage medium | |
US11031005B2 (en) | Continuous topic detection and adaption in audio environments | |
WO2021008538A1 (zh) | 语音交互方法及相关装置 | |
WO2019013849A1 (en) | PROVIDING AMBIENT ASSISTANCE MODE FOR COMPUTER DEVICES | |
US20120265535A1 (en) | Personal voice operated reminder system | |
WO2019206186A1 (zh) | 唇语识别方法及其装置、增强现实设备以及存储介质 | |
EP3866160A1 (en) | Electronic device and control method thereof | |
CN110070863A (zh) | 一种语音控制方法及装置 | |
US11537360B2 (en) | System for processing user utterance and control method of same | |
CN109151186B (zh) | 主题切换方法和装置、电子设备、计算机可读存储介质 | |
US11626104B2 (en) | User speech profile management | |
CN110364156A (zh) | 语音交互方法、系统、终端及可读存储介质 | |
US20200326832A1 (en) | Electronic device and server for processing user utterances | |
CN114242037A (zh) | 一种虚拟人物生成方法及其装置 | |
WO2016206647A1 (zh) | 用于控制机器装置产生动作的系统 | |
JP6798258B2 (ja) | 生成プログラム、生成装置、制御プログラム、制御方法、ロボット装置及び通話システム | |
KR20220111574A (ko) | 전자 장치 및 그 제어 방법 | |
US11997445B2 (en) | Systems and methods for live conversation using hearing devices | |
CN117153166B (zh) | 语音唤醒方法、设备及存储介质 | |
CN115695622A (zh) | 多媒体通信中的通信信息记录生成方法和装置 | |
CN111538470A (zh) | 信息输入方法、装置及终端设备 | |
CN107526951A (zh) | 一种信息发送方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |