CN111247582A - 使用神经网络模型进行选择性唤醒词检测的系统和方法 - Google Patents
使用神经网络模型进行选择性唤醒词检测的系统和方法 Download PDFInfo
- Publication number
- CN111247582A CN111247582A CN201980003798.6A CN201980003798A CN111247582A CN 111247582 A CN111247582 A CN 111247582A CN 201980003798 A CN201980003798 A CN 201980003798A CN 111247582 A CN111247582 A CN 111247582A
- Authority
- CN
- China
- Prior art keywords
- wake word
- wake
- playback
- sound data
- nmd
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 118
- 238000001514 detection method Methods 0.000 title claims description 35
- 238000003062 neural network model Methods 0.000 title claims description 29
- 238000013528 artificial neural network Methods 0.000 claims description 69
- 239000000203 mixture Substances 0.000 claims description 9
- 238000003860 storage Methods 0.000 claims description 4
- 206010033307 Overweight Diseases 0.000 claims 1
- 230000004931 aggregating effect Effects 0.000 claims 1
- 235000020825 overweight Nutrition 0.000 claims 1
- 230000004044 response Effects 0.000 abstract description 26
- 230000008569 process Effects 0.000 description 45
- 238000012545 processing Methods 0.000 description 40
- 239000008186 active pharmaceutical agent Substances 0.000 description 35
- 239000008187 granular material Substances 0.000 description 23
- 230000006835 compression Effects 0.000 description 22
- 238000007906 compression Methods 0.000 description 22
- 230000006870 function Effects 0.000 description 17
- 238000010586 diagram Methods 0.000 description 14
- 239000000872 buffer Substances 0.000 description 13
- 238000013527 convolutional neural network Methods 0.000 description 10
- 230000009471 action Effects 0.000 description 8
- 239000011159 matrix material Substances 0.000 description 8
- 238000004891 communication Methods 0.000 description 7
- 238000013139 quantization Methods 0.000 description 7
- 238000012549 training Methods 0.000 description 7
- 238000005516 engineering process Methods 0.000 description 6
- 238000005457 optimization Methods 0.000 description 6
- 238000004330 variable angle spinning Methods 0.000 description 6
- 238000003491 array Methods 0.000 description 5
- 238000009826 distribution Methods 0.000 description 5
- 230000003993 interaction Effects 0.000 description 5
- 230000000306 recurrent effect Effects 0.000 description 5
- 230000005236 sound signal Effects 0.000 description 4
- 235000019800 disodium phosphate Nutrition 0.000 description 3
- 238000012805 post-processing Methods 0.000 description 3
- 230000009467 reduction Effects 0.000 description 3
- 230000001360 synchronised effect Effects 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000002408 directed self-assembly Methods 0.000 description 2
- 230000007613 environmental effect Effects 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 230000000717 retained effect Effects 0.000 description 2
- 230000003595 spectral effect Effects 0.000 description 2
- 238000011144 upstream manufacturing Methods 0.000 description 2
- 241000238558 Eucarida Species 0.000 description 1
- 230000003213 activating effect Effects 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 230000003321 amplification Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 235000021167 banquet Nutrition 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 235000015116 cappuccino Nutrition 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 229920005994 diacetyl cellulose Polymers 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 235000013305 food Nutrition 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000003199 nucleic acid amplification method Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000013138 pruning Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000005204 segregation Methods 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/30—Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/04—Segmentation; Word boundary detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/14—Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/32—Multiple recognisers used in sequence or in parallel; Score combination systems therefor, e.g. voting systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/26—Recognition of special voice characteristics, e.g. for use in lie detectors; Recognition of animal voices
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L2015/088—Word spotting
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Acoustics & Sound (AREA)
- Human Computer Interaction (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Theoretical Computer Science (AREA)
- Signal Processing (AREA)
- Probability & Statistics with Applications (AREA)
- Biophysics (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Selective Calling Equipment (AREA)
- User Interface Of Digital Computer (AREA)
- Circuit For Audible Band Transducer (AREA)
- Telephonic Communication Services (AREA)
- Feedback Control In General (AREA)
- Radar Systems Or Details Thereof (AREA)
Abstract
用于通过媒体回放系统进行媒体回放的系统和方法包括:通过网络麦克风设备捕获声音数据,以及识别该声音数据中的候选唤醒词。基于对该声音数据中候选唤醒词的识别,系统从多个唤醒词引擎中选择第一唤醒词引擎。通过第一唤醒词引擎,系统分析该声音数据以检测确认的唤醒词,并且响应于检测确认的唤醒词,向一个或多个与语音助手服务相关联的远程计算设备发送该声音数据的语音发声。
Description
相关申请的交叉引用
本申请要求于2018年9月28日提交的美国专利申请No.16/145,275的优先权,其全部内容通过引用并入本文。
技术领域
本技术涉及消费品,并且更具体地,涉及针对语音可控媒体回放系统或其一些方面的方法、系统、产品、特征、服务和其他元素。
背景技术
访问和收听外放设置中的数字音频的选项是有限的,直到2003年SONOS公司申请了其首批专利申请中的一件题为“Method for Synchronizing Audio Playback betweenMultiple Networked Devices(用于在多个联网设备之间同步音频播放的方法)”的专利申请,并在2005年开始出售媒体回放系统。SONOS无线高保真(HiFi)系统使人们可以通过一个或多个联网回放设备体验来自许多源的音乐。通过安装在智能电话、平板计算机或计算机上的软件控制应用,人们能够在具有联网回放设备的任何房间中播放他或她期望的内容。另外,使用控制器,例如,能够将不同的歌曲流传输到具有回放设备的每个房间,能够将房间组合在一起进行同步回放,或者可以在所有房间中同步收听相同的歌曲。
鉴于对数字媒体的兴趣日益增长,仍然需要开发一种消费者易于使用的技术以进一步增强收听体验。
附图说明
参考以下说明书、所附权利要求和附图,可以更好地理解所公开的技术的特征、方面和优点,在附图中:
图1A是具有根据所公开技术的方面配置的媒体回放系统的环境的局部剖视图;
图1B是图1A的媒体回放系统和一个或多个网络的示意图;
图2A是示例回放设备的功能框图;
图2B是图2A的回放设备的示例外壳的立体图;
图3A-3E是示出了根据本公开的方面的示例回放设备配置的图;
图4A是根据本公开的方面的示例控制器设备的功能框图;
图4B和图4C是根据本公开的方面的控制器接口;
图5是根据本公开的方面的示例网络麦克风设备的某些组件的功能框图;
图6A是示例语音输入的图;
图6B是描绘根据本公开的方面的示例声音样本的图;
图7是根据本公开的方面的用于两阶段唤醒词检测的示例方法的流程图;
图8是根据本公开的方面的用于生成关键词发现和选择模型的系统的功能框图;
图9是示出了根据本公开的方面的在压缩之前和压缩之后经由软权重共享的神经网络模型的权重的对数权重分布的图;以及
图10示出了根据本公开的方面的神经网络模型的压缩稀疏行表示的示例。
附图是出于说明示例实施例的目的,但是应当理解的是,本发明不限于附图中所示的布置和手段。在附图中,相同的附图标记标识至少大致相似的元件。为了促进对任何特定元件的讨论,任何参考数字中的一个或多个最高有效位指的是首次引入该元件的附图。例如,首先参照图1A介绍和讨论元件103a。
具体实施方式
I.概述
在“智能”家居中,语音控制可能是有益的,该“智能”家居包括连接到通信网络的智能电器和设备(例如,无线音频回放设备、照明设备和家庭自动化设备(例如,恒温器、门锁等))。在一些实施方式中,网络麦克风设备可以用于控制智能家居设备。
网络麦克风设备(“NMD”)是一种网络计算设备,通常包括麦克风的布置(例如,麦克风阵列),该麦克风的布置被配置为检测NMD环境中存在的声音。检测到的声音可以包括与背景噪声(例如,回放设备输出的音乐或其他环境噪声)混合在一起的人的语音。实际上,NMD通常会过滤检测到的声音,以从人的语音中消除背景噪声,从而促进识别该语音是否包含表示语音控制的语音输入。如果是这样,则NMD可以基于这种语音输入来采取措施。
NMD通常采用唤醒词引擎(通常在NMD上搭载)来识别该NMD检测到的声音是否包含包括特定唤醒词的语音输入。唤醒词引擎可以被配置为使用一种或多种识别算法来识别(即,“发现”)特定唤醒词。该唤醒词识别过程通常被称为“关键词发现”。在实践中,为了帮助促进关键词发现,NMD可以缓冲NMD的麦克风检测到的声音,然后使用唤醒词引擎来处理该缓冲的声音以确定是否存在唤醒词。
当唤醒词引擎在检测到的声音中发现唤醒词时,NMD可以确定发生了唤醒词事件(即,“唤醒词触发”),这表明NMD已检测到包括潜在语音输入的声音。唤醒词事件的发生通常会使NMD执行涉及检测到的声音的附加过程。在一些实施方式中,除其他可能的附加过程之外,这些附加过程可以包括:输出指示已经识别出唤醒词的警报(例如,可听见的铃声和/或光指示器),以及从缓冲器提取检测到的声音数据。提取检测到的声音可以包括:根据特定格式读出并封装检测到的声音的流,并向适当的语音助手服务(VAS)发送该封装的声音数据以用于解释。
继而,与由唤醒词引擎识别的唤醒词相对应的VAS通过通信网络从NMD接收发送的声音数据。传统上,VAS采用远程服务的形式,该远程服务是使用一个或多个配置为处理语音输入的云服务器(例如,AMAZON的ALEXA、APPLE的SIRI、MICROSOFT的CORTANA、GOOGLE的ASSISTANT等)来实施的。在某些情况下,VAS的某些组件和功能可能分布在本地设备和远程设备上。附加地或替代地,VAS可以采用在NMD或包括NMD的媒体回放系统处实现的本地服务的形式,使得语音输入或某些类型的语音输入(例如,基本命令)在本地处理而无需来自远程VAS干预。
在任何情况下,当VAS接收到检测到的声音数据时,该VAS通常会处理该数据,这涉及识别语音输入并确定在该语音输入中捕获的单词的意图。然后,VAS可以根据该确定的意图使用某指令将响应提供回NMD。根据该指令,NMD可以使一个或多个智能设备执行操作。例如,在其他示例中,根据来自VAS的指令,NMD可以使回放设备播放特定歌曲,或者使照明设备打开/关闭。在一些情况下,NMD或具有NMD的媒体系统(例如,配备有NMD的回放设备的媒体回放系统)可以被配置为与多个VAS交互。实际上,NMD可以基于在NMD检测到的声音中识别的特定唤醒词,选择一个VAS而不是另一个。
在一些实施方式中,被配置为网络媒体回放系统的一部分的回放设备可以包括NMD的组件和功能(即,回放设备是“配备有NMD的”)。在这方面,这种回放设备可以包括麦克风,该麦克风被配置为检测存在于该回放设备环境中的声音(例如,人们说话、该回放设备本身或附近的另一回放设备正在输出的音频或其他环境噪声),还可以包括用于缓冲检测到的声音以促进唤醒词识别的组件。
一些配备了NMD的回放设备可以包括内部电源(例如,可充电电池),该内部电源允许该回放设备在未物理连接至墙壁电源插座等的情况下进行操作。就这一点而言,这种回放设备在本文中可以被称为“便携式回放设备”。另一方面,被配置为依赖于来自墙壁电源插座等的电力的回放设备在本文中可以被称为“固定回放设备”,尽管这样的设备实际上可以在家庭或其他环境中移动。在实践中,人们可能经常携带便携式回放设备往返于家庭或其他环境,该环境中保留有一个或多个固定回放设备。
在一些情况下,为NMD或NMD系统(例如,回放设备的媒体回放系统)配置了多个语音服务。可以在设置过程中配置一个或多个服务,并且稍后可以为该系统配置附加语音服务。这样,NMD充当与多个语音服务的接口,也许减轻了从每个语音服务中获取NMD以便与各个语音服务进行交互的需求。此外,NMD可以与家庭中存在的服务特定的NMD协同操作,以处理给定的语音命令。
在为NMD配置两个或多个语音服务的情况下,可以通过说出与特定语音服务相对应的唤醒词来调用该特定语音服务。例如,在查询AMAZON时,用户可以说出唤醒词“Alexa”,然后再说出语音命令。其他示例包括“Ok,Google”(用于查询GOOGLE)和“Hey,Siri”(用于查询APPLE)。
在一些情况下,通用唤醒词可以用于指示向NMD输入的语音。在一些情况下,这是制造商特定的唤醒词,而不是绑定到任何特定语音服务的唤醒词(例如,“Hey,Sonos”,其中,NMD是SONOS回放设备)。给定这样的唤醒词,NMD可以识别特定的语音服务以处理请求。例如,如果在唤醒词之后的语音输入与特定类型的命令(例如,音乐回放)相关,则向与该类型的命令相关联的特定语音服务(例如,具有语音命令功能的流音乐服务)发送该语音输入。
关键词发现可能计算需求和功耗大,因为它涉及连续处理声音数据以检测该声音数据是否包含一个或多个关键词。此外,关键词发现算法可能在回放设备上消耗大量存储空间,从而导致更大的存储空间需求和较慢的关键词发现算法的空中软件更新。解决这些问题的一种方法是采用被设计为计算效率高和/或需要较少存储空间的关键词发现算法。例如,基于算法处理捕获的声音数据的方式,某些关键词发现算法可以固有地比其他算法更有效。此外,例如,还可以通过使用更简单的模型来定义关键词,或通过使用更简单的过滤器来处理捕获的声音数据,使得在比较捕获的声音数据和关键词模型时减少处理操作,从而使特定的关键词发现算法计算效率更高。可以在各种实施例中采用调整关键词发现算法以提高其计算效率的其他示例。然而,计算强度较小的关键词发现算法通常在检测关键词方面也不太准确,并且可能导致较高的假正率和/或假负率。
本文公开了有助于解决这些或其他问题的系统和方法。特别是,为了减少NMD的计算资源使用量、功耗和/或存储空间需求,同时在检测唤醒词时仍保持足够高的精度,NMD执行两个或多个具有不同计算复杂度的关键词发现算法。例如,当侦听一个或多个唤醒词时,NMD使用第一关键词发现算法,该算法使用相对较低的处理功率。与上述讨论一致,第一关键词发现算法可以牺牲精度以利于计算简单和/或减少存储空间需求。为了解决这个问题,响应于使用第一算法检测唤醒词,NMD使用第二关键词发现算法,该算法使用更高的处理功率和/或更大的存储空间,并且比第一算法更准确,以便验证或揭示第一算法检测到的唤醒词的存在。以此方式,代替连续执行计算需求和功耗大的关键词发现算法,NMD仅保守地使用基于初步唤醒词检测的算法,该初步唤醒词检测使用计算需求较少的算法。
附加地或替代地,第一算法可以用于对候选唤醒词的初步检测。基于识别的候选唤醒词,可以从多个可能的唤醒词引擎中选择一个唤醒词引擎。这些唤醒词引擎可以利用计算强度更高并且需要更多功率和存储空间的算法。因此,一旦使用用于初步检测的第一算法检测到合适的候选唤醒词,则仅选择并激活特定的唤醒词引擎可能是有益的。在一些实施例中,用于初步检测的第一算法可以比唤醒词引擎更高效,例如,更小的计算强度。
需求较少的唤醒词检测算法的示例包括神经网络模型,该模型已经被压缩以减少存储空间和功率需求。在一些实施例中,神经网络模型可以是软加权共享神经网络模型,其可以使用压缩稀疏行(CSR)表示或用于实现压缩神经网络模型的其他合适技术来存储权重,如下文更详细地描述。
作为示例,在一些实施例中,NMD通过该NMD的一个或多个麦克风捕获音频内容,并且该NMD使用第一算法来确定捕获的音频内容是否包括多个唤醒词中的特定候选唤醒词,其中,多个唤醒词中的每一个对应于各自的语音服务。响应于确定捕获的声音数据包括特定的候选唤醒词,NMD从多个唤醒词引擎中选择并激活第一唤醒词引擎。选择的唤醒词引擎可以使用第二算法来确认或否定捕获的声音数据中候选唤醒词的存在。在此,第二算法可能比第一算法计算强度更高。在一些实施例中,例如,通过配置不同的算法来检测与不同VAS相关的唤醒字,可以从多个可能的唤醒词检测算法中选择第二算法。
在一些实施例中,如果第二算法确认捕获的声音数据中候选唤醒词的存在,则NMD使对应于特定唤醒词的相应语音服务处理捕获的音频内容。相反,如果第二算法否定捕获的声音数据中候选唤醒词的存在,则NMD停止处理该捕获的声音数据以检测特定的唤醒词。
尽管本文所述的一些实施例可以涉及由给定的行动者(例如,“用户”和/或其他实体)执行的功能,但是应当理解的是,该描述仅出于解释的目的。除非权利要求本身的语言明确要求,否则不应将权利要求解释为要求任何此类示例行动者进行动作。
II.示例操作环境
图1A和1B示出了媒体回放系统100(或“MPS 100”)的示例配置,在媒体回放系统100中可以实现本文公开的一个或多个实施例。首先参考图1A,所示的MPS 100与具有多个房间和空间的示例家居环境(其可以被统称为“家居环境”、“智能家居”或“环境101”)相关联。环境101包括具有多个房间、空间和/或回放区的家庭,包括主浴室101a、主卧室101b(在本文中被称为“尼克的房间”)、第二卧室101c、私室101d、书房101e、客厅101f、餐厅101g、厨房101h和室外阳台101i。尽管下文在家居环境的上下文中描述了某些实施例和示例,但是本文所述的技术可以在其他类型的环境中实现。在一些实施例中,例如,MPS 100可以在一个或多个商业环境(例如,餐厅、购物中心、机场、酒店、零售店或其他商店)、一个或多个交通工具(例如,运动型多功能车、巴士、汽车、轮船、轮船、飞机)、多个环境(例如,家庭和交通工具环境的组合)和/或可能需要多区音频的其他合适环境中实现。
在这些房间和空间中,MPS 100包括一个或多个计算设备。一起参考图1A和1B,这样的计算设备可以包括:回放设备102(分别标识为回放设备102a-102o)、网络麦克风设备103(分别标识为“NMD”103a-102i)以及控制器设备104a和104b(统称为“控制器设备104”)。参照图1B,家居环境可以包括附加和/或其他计算设备,包括本地网络设备,例如,一个或多个智能照明设备108(图1B)、智能恒温器110和本地计算设备105(图1A)。在下文所述的实施例中,各种回放设备102中的一个或多个可以被配置为便携式回放设备,而其他回放设备可以被配置为固定回放设备。例如,耳机102o(图1B)是便携式回放设备,而书架上的回放设备102d可以是固定设备。作为另一示例,阳台上的回放设备102c可以是电池供电的设备,允许其在未插入墙壁插座时被运输到环境101内以及环境101外部的各个区域。
仍参考图1B,MPS 100的各种回放、网络麦克风和控制器设备102-104和/或其他网络设备可以通过点对点连接和/或通过其他连接彼此耦合,该其他连接可以通过包括网络路由器109的LAN 111进行有线和/或无线连接。例如,可以被指定为“左”设备的私室101d(图1A)中的回放设备102j可以与回放设备102a具有点对点连接,该回放设备102a也在私室101d中并且可以被指定为“右”设备。在相关实施例中,左回放设备102j可以通过点对点连接和/或通过经由LAN111的其他连接与其他网络设备(例如,回放设备102b)通信,该其他网络设备可以被指定为“前”设备。
如图1B进一步所示,MPS 100可以通过广域网(“WAN”)107耦合到一个或多个远程计算设备106。在一些实施例中,每个远程计算设备106可以采取一个或多个云服务器的形式。远程计算设备106可以被配置为以各种方式与环境101中的计算设备进行交互。例如,远程计算设备106可以被配置为在家居环境101中促进流传输和/或控制媒体内容(例如,音频)的回放。
在一些实施方式中,各种回放设备、NMD和/或控制器设备102-104可以通信地耦合到与VAS相关联的至少一个远程计算设备和与媒体内容服务(“MCS”)相关联的至少一个远程计算设备。例如,在图1B的所示示例中,远程计算设备106a与VAS 190相关联,并且远程计算设备106b与MCS 192相关联。尽管为了清楚起见在图1B的示例中仅示出了单个VAS 190和单个MCS 192,但是MPS 100可以耦合到多个不同的VAS和/或MCS。在一些实施方式中,VAS可以由AMAZON、GOOGLE、APPLE、MICROSOFT、SONOS或其他语音助手提供商中的一个或多个来操作。在一些实施方式中,MCS可以由SPOTIFY、PANDORA、AMAZON MUSIC或其他媒体内容服务中的一个或多个来操作。
如图1B进一步所示,远程计算设备106还包括远程计算设备106c,该远程计算设备106c被配置为执行某些操作,例如,远程促进媒体回放功能、管理设备和系统状态信息、指导MPS 100的设备与一个或多个VAS和/或MCS之间的通信,以及其他操作。在一个示例中,远程计算设备106c为一个或多个SONOS无线HiFi系统提供云服务器。
在各种实施方式中,一个或多个回放设备102可以采用板载(例如,集成的)网络麦克风设备的形式或包括板载(例如,集成的)网络麦克风设备。例如,回放设备102a-e分别包括或配备有对应的NMD103a-e。除非在说明书中另外指出,否则包括或配备有NMD的回放设备在本文中可以互换地被称为回放设备或NMD。在一些情况下,一个或多个NMD 103可以是独立设备。例如,NMD 103f和103g可以是独立设备。独立NMD可以省略通常包括在回放设备(例如,扬声器或相关电子设备)中的组件和/或功能。例如,在这种情况下,独立NMD可能不会产生音频输出或可能会产生有限的音频输出(例如,相对低质量的音频输出)。
MPS 100的各种回放和网络麦克风设备102和103可以各自与唯一名称相关联,该唯一名称可以例如在设置这些设备中的一个或多个期间由用户分配给各个设备。例如,如图1B的所示示例所示,用户可以将名称“书架”分配给回放设备102d,因为它实际上位于书架上。类似地,可以将名称“岛”分配给NMD 103f,因为它实际上位于厨房101h中的岛台面上(图1A)。可以根据区或房间为一些回放设备分配名称,例如,回放设备102e、102l、102m和102n,它们分别被命名为“卧室”、“餐厅”、“客厅”和“书房”。此外,某些回放设备可以具有功能描述性名称。例如,回放设备102a和102b分别被分配了名称“右”和“前”,因为这两个设备被配置为在私室101d(图1A)的区中媒体回放期间提供特定的音频通道。阳台中的回放设备102c可以命名为便携式设备,因为它是电池供电的和/或易于运输到环境101的不同区域。其他命名约定也是可能的。
如上所述,NMD可以检测和处理来自其周围环境的声音,例如,包括背景噪声的声音,该背景噪声与该NMD附近的人说出的语音混合。例如,当NMD在环境中检测到声音时,该NMD可以处理检测到的声音以确定该声音是否包括语音,该语音包含用于该NMD并最终用于特定VAS的语音输入。例如,NMD可以识别语音是否包括与特定VAS相关联的唤醒词。
在图1B的所示示例中,NMD 103被配置为经由LAN 111和路由器109通过网络与VAS190交互。例如,当NMD在检测到的声音中识别出潜在唤醒词时,可以发起与VAS 190的交互。该识别导致唤醒词事件,这又导致NMD开始向VAS 190发送检测到的声音数据。在一些实施方式中,MPS 100的各种本地网络设备102-105(图1A)和/或远程计算设备106c可以与远程计算设备交换各种反馈、信息、指令和/或相关数据,该远程计算设备与所选择的VAS相关联。这样的交换可以与包含语音输入的发送消息有关或无关。在一些实施例中,一个或多个远程计算设备和媒体回放系统100可以通过如本文所述的通信路径和/或使用如在2017年2月21日提交的美国申请No.15/438,749中所述的元数据交换信道来交换数据,该美国申请题为“Voice Control of a Media Playback System(媒体回放系统的语音控制)”,其全部内容通过引用并入本文。
在接收到声音数据流之后,VAS 190确定来自NMD的流数据中是否存在语音输入,如果存在,则VAS 190还将确定该语音输入中的潜在意图。VAS 190接下来可以将响应发送回MPS 100,这可以包括直接向导致唤醒词事件的NMD发送该响应。该响应通常基于VAS 190确定的存在于语音输入中的意图。作为示例,响应于VAS 190接收到语音提示为“播放披头士乐队的Hey Jude”的语音输入,VAS 190可以确定该语音输入的基本意图是发起回放,并进一步确定该语音输入的意图是播放特定歌曲“Hey Jude”。在这些确定之后,VAS 190可以向特定MCS 192发送命令以检索内容(即,歌曲“Hey Jude”),并且随后,该MCS 192直接向MPS 100提供(例如,流传输)这个内容或间接通过VAS 190提供。在一些实施方式中,VAS190可以向MPS 100发送命令,该命令使MPS 100本身从MCS 192检索内容。
在某些实施方式中,当在由彼此相邻的两个或多个NMD检测到的语音中识别出语音输入时,NMD可以促进彼此之间的仲裁。例如,环境101(图1A)中配备有NMD的回放设备102d与配备有NMD的客厅回放设备102m相对接近,并且设备102d和102m都可以至少有时检测到相同的声音。在这种情况下,这可能需要仲裁,以确定最终由哪个设备负责向远程VAS提供检测到的声音数据。例如,可以在先前引用的美国申请No.15/438,749中找到在NMD之间进行仲裁的示例。
在某些实施方式中,NMD可以被分配给可能不包含NMD的指定的或默认的回放设备,或与该回放设备相关联。例如,可以将厨房101h中的岛NMD 103f(图1A)分配给离该岛NMD 103f相对较近的餐厅回放设备102l。在实践中,响应于远程VAS接收到来自NMD的语音输入以播放音频,NMD可以指示分配的回放设备播放音频,该NMD可能已经响应于用户说出的命令而向该VAS发送语音输入以播放特定的歌曲、专辑、播放列表等。例如,在先前引用的美国专利申请No.15/438,749中可以找到关于将NMD和回放设备分配为指定设备或默认设备的附加细节。
可以在以下部分中找到与示例MPS 100的不同组件以及不同组件可以如何交互以向用户提供媒体体验有关的其他方面。尽管本文的讨论通常可以参考示例MPS 100,但本文所述的技术不限于特别是上述家居环境中的应用。例如,本文所述的技术在其他家居环境配置中可能是有用的,该其他家居环境配置或多或少包括回放、网络麦克风和/或控制器设备102-104中的任何一个。例如,本文的技术可以在具有单个回放设备102和/或单个NMD103的环境中使用。在这种情况的一些示例中,可以省去LAN 111(图1B),并且单个回放设备102和/或单个NMD 103可以直接与远程计算设备106a-d通信。在一些实施例中,电信网络(例如,LTE网络、5G网络等)可以与独立于LAN的各种回放、网络麦克风和/或控制器设备102-104通信。
a.回放和网络麦克风设备示例
图2A是示出了图1A和图1B的MPS 100的回放设备102之一的某些方面的功能框图。如图所示,回放设备102包括各种组件,下文进一步详细讨论每个组件,并且回放设备102的各种组件可以通过系统总线、通信网络或某个其他连接机制可操作地彼此耦合。在图2A的所示示例中,回放设备102可以被称为“配备有NMD”的回放设备,因为它包括支持NMD功能的组件,例如,图1A中所示的NMD103之一。
如图所示,回放设备102包括至少一个处理器212,该处理器212可以是时钟驱动的计算组件,该计算组件被配置为根据存储在存储器213中的指令来处理输入数据。存储器213可以是有形的、非暂时性的计算机可读介质,其被配置为存储可由处理器212执行的指令。例如,存储器213可以是数据存储设备,其可以加载有可由处理器212执行以实现某些功能的软件代码214。
在一个示例中,这些功能可以涉及回放设备102从音频源获取音频数据,该音频源可以是另一回放设备。在另一示例中,该功能可以涉及回放设备102通过至少一个网络接口224向网络上的另一设备发送音频数据、检测到的声音数据(例如,对应于语音输入)和/或其他信息。在又一示例中,该功能可以涉及回放设备102使一个或多个其他回放设备与回放设备102同步地回放音频。在又一示例中,该功能可以涉及回放设备102促进与一个或多个其他回放设备配对或绑定以创建多通道音频环境。许多其他示例功能也是可能的,下面讨论其中一些功能。
如刚刚提到的,某些功能可以涉及回放设备102与一个或多个其他回放设备同步回放音频内容。在同步回放期间,听众可能无法感知同步回放设备在音频内容回放之间的时间延迟差异。通过引用整体并入本文的2004年4月4日提交的题为“System and methodfor synchronizing operations among a plurality of independently clockeddigital data processing devices(用于同步多个独立时钟控制的数字数据处理设备之间操作的系统和方法)”的美国专利No.8,234,395更详细地提供了回放设备之间的音频回放同步的一些示例。
为了促进音频回放,回放设备102包括音频处理组件216,该音频处理组件216通常被配置为在回放设备102呈现音频之前处理该音频。在这方面,音频处理组件216可以包括一个或多个数模转换器(“DAC”)、一个或多个音频预处理组件、一个或多个音频增强组件、一个或多个数字信号处理器(“DSP”)等。在一些实施方式中,一个或多个音频处理组件216可以是处理器212的子组件。在操作中,音频处理组件216接收模拟和/或数字音频,并且处理和/或有意更改音频以产生音频信号进行播放。
然后,可以向一个或多个音频放大器217提供产生的音频信号,以通过可操作地耦合到放大器217的一个或多个扬声器218进行放大和回放。音频放大器217可以包括被配置为将音频信号放大到用于驱动一个或多个扬声器218的级别的组件。
扬声器218中的每一个可以包括单独的传感器(例如,“驱动器”),或者扬声器218可以包括完整的扬声器系统,该扬声器系统包括具有一个或多个驱动器的外壳。扬声器218的特定驱动器可以包括例如重低音扬声器(例如,用于低频)、中音驱动器(例如,用于中频)和/或高音扬声器(例如,用于高频)。在一些情况下,传感器可以由音频放大器217的各个对应的音频放大器驱动。在一些实施方式中,回放设备可以不包括扬声器218,而是可以包括用于将该回放设备连接到外部扬声器的扬声器接口。在某些实施例中,回放设备可以既不包括扬声器218也不包括音频放大器217,而是可以包括用于将该回放设备连接到外部音频放大器或视听接收机的音频接口(未示出)。
除了产生用于由回放设备102回放的音频信号之外,音频处理组件216可以被配置为处理要通过网络接口224向一个或多个其他回放设备发送以进行回放的音频。在示例场景中,如下所述,可以例如通过回放设备102的音频线路输入接口(例如,自动检测3.5mm音频线路输入连接)(未示出)或通过网络接口224从外部源接收要由回放设备102处理和/或回放的音频内容。
如图所示,至少一个网络接口224可以采取一个或多个无线接口225和/或一个或多个有线接口226的形式。无线接口可以为回放设备102提供网络接口功能,以根据通信协议(例如,任何无线标准,包括IEEE 802.11a、802.11b、802.11g、802.11n、802.11ac、802.15、4G移动通信标准等)与其他设备(例如,其他回放设备、NMD和/或控制器设备)无线通信。有线接口可以为回放设备102提供网络接口功能,以根据通信协议(例如,IEEE802.3)通过有线连接与其他设备进行通信。尽管图2A中所示的网络接口224包括有线接口和无线接口,但是在一些实施方式中,回放设备102可以仅包括无线接口或仅包括有线接口。
通常,网络接口224促进回放设备102与数据网络上的一个或多个其他设备之间的数据流。例如,回放设备102可以被配置为通过数据网络从一个或多个其他回放设备、LAN内的网络设备和/或WAN(例如,互联网)上的音频内容源接收音频内容。在一个示例中,回放设备102发送和接收的音频内容和其他信号可以以数字分组数据的形式来发送,该数字分组数据包括基于互联网协议(IP)的源地址和基于IP的目的地地址。在这种情况下,网络接口224可以被配置为解析数字分组数据,使得去往回放设备102的数据被回放设备102正确地接收和处理。
如图2A所示,回放设备102还包括可操作地耦合到一个或多个麦克风222的语音处理组件220。麦克风222被配置为检测回放设备102的环境中的声音(即,声波),然后将其提供给语音处理组件220。更具体地,每个麦克风222被配置为检测声音并将该声音转换成表示检测到的声音的数字或模拟信号,然后这可以使语音处理组件220基于检测到的声音执行各种功能,如下文更详细地描述。在一个实施方式中,麦克风222被布置为麦克风阵列(例如,六个麦克风的阵列)。在一些实施方式中,回放设备102包括多于六个麦克风(例如,八个麦克风或十二个麦克风)或少于六个麦克风(例如,四个麦克风、两个麦克风或单个麦克风)。
在操作中,语音处理组件220通常被配置为检测和处理通过麦克风222接收到的声音,识别检测到的声音中潜在的语音输入,并提取检测到的声音数据以启用VAS(例如,VAS190(图1B))来处理在检测到的声音数据中识别的语音输入。语音处理组件220可以包括一个或多个模数转换器、回声消除器(“AEC”)、空间处理器(例如,一个或多个多通道维纳滤波器、一个或多个其他滤波器和/或一个或多个波束形成器组件)、一个或多个缓冲器(例如,一个或多个循环缓冲器)、一个或多个唤醒词引擎、一个或多个语音提取器和/或一个或多个语音处理组件(例如,被配置为识别与家庭相关联的特定用户或特定用户组的语音的组件)以及其他示例语音处理组件。在示例实施方式中,语音处理组件220可以包括或者采取一个或多个DSP或一个或多个DSP模块的形式。在这方面,某些语音处理组件220可以被配置有特定参数(例如,增益和/或频谱参数),该特定参数可以被修改或被调谐以实现特定功能。在一些实施方式中,一个或多个语音处理组件220可以是处理器212的子组件。
在一些实施方式中,语音处理组件220可以检测并存储用户语音配置文件,该用户语音配置文件可以与MPS 100的用户帐户相关联。例如,语音配置文件可以被存储为和/或与存储在一组命令信息或数据表中的变量进行比较。语音配置文件可以包括用户语音的音调或频率方面和/或用户语音的其他独特方面,例如,先前引用的美国专利申请No.15/438,749中所述的那些。
如图2A进一步所示,回放设备102还包括电源组件227。电源组件227至少包括外部电源接口228,该外部电源接口228可以通过将回放设备102物理地连接至电源插座或某个其他外部电源的电缆等耦合到电源(未示出)。其他电源组件可以包括例如变压器、转换器以及被配置为格式化电源的类似组件。
在一些实施方式中,回放设备102的电源组件227可以附加地包括内部电源229(例如,一个或多个电池),该内部电源229被配置为在未物理连接到外部电源的情况下为回放设备102供电。当配备有内部电源229时,回放设备102可以独立于外部电源进行操作。在一些这样的实施方式中,外部电源接口228可以被配置为促进对内部电源229的充电。如之前所讨论的,包括内部电源的回放设备在本文中可以被称为“便携式回放设备”。另一方面,使用外部电源操作的回放设备在本文中可以被称为“固定回放设备”,尽管这种设备实际上可以在家居或其他环境中移动。
回放设备102还包括用户接口240,该用户接口240可以独立于或与一个或多个控制器设备104所促进的用户交互相结合来促进用户交互。在各种实施例中,用户接口240包括一个或多个物理按钮和/或支持在触敏屏幕和/或表面上提供的图形界面等,以便用户直接提供输入。用户接口240还可以包括灯(例如,LED)和扬声器中的一个或多个,以向用户提供视觉和/或音频反馈。
作为说明性示例,图2B示出了回放设备102的示例性外壳230,在外壳230的顶部234处包括控制区域232形式的用户接口。控制区域232包括用于控制音频回放、音量水平和其他功能的按钮236a-c。控制区域232还包括用于将麦克风222切换到开启状态或关闭状态的按钮236d。
如图2B进一步所示,控制区域232至少部分地由形成在外壳230的顶部234中的孔围绕,麦克风222(在图2B中不可见)通过该孔接收回放设备102的环境中的声音。麦克风222可以沿着顶部234和/或在顶部234或外壳230的其他区域内的各种位置中布置,以便从相对于回放设备102的一个或多个方向检测声音。
举例来说,SONOS公司目前提供(或已经提供)可以实现本文公开的某些实施例的某些回放设备的销售,包括“PLAY:1”、“PLAY:3”、“PLAY:5”、“PLAYBAR”、“CONNECT:AMP”、“PLAYBASE”、“BEAM”、“CONNECT”和“SUB”。任何其他过去、现在和/或将来的回放设备可以附加地或备选地用于实现本文公开的示例实施例的回放设备。此外,应当理解的是,回放设备不限于图2A或图2B所示的示例或SONOS产品供应。例如,回放设备可以包括有线或无线耳机组,或者采取有线或无线耳机组的形式,该耳机组可以通过网络接口等作为媒体回放系统100的一部分进行操作。在另一示例中,回放设备可以包括个人移动媒体回放设备的扩展基座,或与其交互。在又一示例中,回放设备可以是集成到另一个设备或组件,例如,电视、照明器材或在室内或室外使用的一些其他设备。
b.回放设备配置示例
图3A-3E示出了回放设备的示例配置。首先参考图3A,在一些示例实例中,单个回放设备可以属于某个区。例如,阳台上的回放设备102c(图1A)可以属于A区。在以下所述的一些实施方式中,可以将多个回放设备“绑定”以形成“绑定对”,它们一起形成单个区。例如,可以将图3A中名为“床1”的回放设备102f(图1A)绑定到图3A中名为“床2”的回放设备102g(图1A)以形成B区。绑定的回放设备可以具有不同的回放职责(例如,通道职责)。在以下所述的另一实施方式中,多个回放设备可以被合并以形成单个区。例如,可以将名为“书架”的回放设备102d与名为“客厅”的回放设备102m合并以形成单个区C。合并后的回放设备102d和102m可以不具体分配不同的回放职责。即,合并的回放设备102d和102m除了可以同步播放音频内容之外,还可以如未合并时那样各自播放音频内容。
为了控制的目的,MPS 100中的每个区可以被表示为单个用户接口(“UI”)实体。例如,如控制器设备104所显示的,A区可以被提供为名为“便携”的单个实体,B区可以被提供为名为“立体声”的单个实体,以及C区可以被提供为名为“客厅”的单个实体。
在各种实施例中,某个区可以采用属于该区的回放设备之一的名称。例如,C区可以采用客厅设备102m的名称(如图所示)。在另一示例中,C区可以采用书架设备102d的名称。在另一示例中,C区可以采用书架设备102d和客厅设备102m的某种组合的名称。用户可以通过控制器设备104处的输入来选择所选择的名称。在一些实施例中,可以将某个区命名为与属于该区的设备不同的名称。例如,图3A中的B区被命名为“立体声”,但是B区中的所有设备都没有此名称。在一方面,B区是表示名为“立体声”的单个设备的单个UI实体,该单个设备由名为“床1”和“床2”的组成设备组成。在一个实施方式中,床1设备可以是主卧室101h中的回放设备102f(图1A),床2设备也可以是主卧室101h中的回放设备102g(图1A)。
如上所述,绑定的回放设备可以具有不同的回放职责,例如,某些音频通道的回放职责。例如,如图3B所示,床1设备和床2设备102f和102g可以被绑定,以产生或增强音频内容的立体声效果。在该示例中,床1回放设备102f可以被配置为播放左声道音频分量,而床2回放设备102g可以被配置为播放右声道音频分量。在一些实施方式中,这种立体声绑定可以被称为“配对”。
另外,被配置为被绑定的回放设备可以具有附加的和/或不同的各自的扬声器驱动器。如图3C所示,可以将名为“前”的回放设备102b与名为“SUB”的回放设备102k绑定。前设备102b可以呈现中高频范围,而SUB设备102k可以呈现低频,例如,重低音扬声器。当未绑定时,前设备102b可以被配置为呈现整个频率范围。作为另一示例,图3D示出了分别与右回放设备102a和左回放设备102j进一步绑定的前设备102b和SUB设备102k。在一些实施方式中,右设备102a和左设备102j可以形成家庭影院系统的环绕或“卫星”通道。绑定的回放设备102a、102b、102j和102k可以形成单个D区(图3A)。
在一些实施方式中,回放设备也可以被“合并”。与某些绑定的回放设备相比,合并的回放设备可能没有分配回放职责,但可以分别呈现每个相应回放设备能够回放的音频内容的全部范围。然而,合并的设备可以被表示为单个UI实体(即,如上所述的区)。例如,图3E示出了客厅中合并的回放设备102d和102m,这将导致这些设备由C区的单个UI实体表示。在一个实施例中,回放设备102d和102m可以同步地回放音频,在此期间,每一个回放设备均输出每个相应的回放设备102d和102m能够呈现的音频内容的全部范围。
在一些实施例中,独立NMD本身可以在一个区中。例如,来自图1A的NMD 103h被命名为“壁橱”,并形成图3A中的I区。NMD也可以与其他设备绑定或合并,以形成区。例如,可以将名为“岛”的NMD设备103f与回放设备102i厨房绑定,两者一起形成F区,该F区也被命名为“厨房”。例如,在先前引用的美国专利申请No.15/438,749中可以找到关于将NMD和回放设备分配为指定设备或默认设备的附加细节。在一些实施例中,可以不将独立NMD分配给区。
单个、绑定和/或合并的设备的区可以被布置为形成一组同步回放音频的回放设备。这样的一组回放设备可以被称为“组”、“区组”、“同步组”或“回放组”。响应于通过控制器设备104提供的输入,可以动态地对回放设备进行分组和取消分组以形成同步回放音频内容的新的或不同的组。例如,参考图3A,A区可以与B区分在一组,以形成区组,该区组包括两个区的回放设备。作为另一示例,A区可以与一个或多个其他C-I区分在一组。A-I区可以以多种方式进行分组和取消分组。例如,可以将三个、四个、五个或更多个(例如,全部)区A-I分在一组。如先前参考的美国专利No.8,234,395中所述,当被分在一组时,单个和/或绑定的回放设备的区可以彼此同步地回放音频。分组并绑定的设备是便携和固定回放设备之间的关联的示例类型,其可以响应于触发事件而引起,如上文所讨论并且在下文更详细地描述。
在各种实施方式中,可以为环境中的各区分配特定名称,该特定名称可以是区组内的区的默认名称或区组内的区名称的组合,例如,如图3A所示的“餐厅+厨房”。在一些实施例中,还可以将区组命名为由用户选择的唯一名称,例如,如图3A所示的“尼克的房间”。名称“尼克的房间”可以是用户在该区组的先前名称上选择的名称,例如,房间名称“主卧室”。
再次参考图2A,某些数据可以作为一个或多个状态变量被存储在存储器213中,该状态变量被周期性地更新并且用于描述回放区、回放设备和/或与之关联的区组的状态。存储器213还可以包括与媒体回放系统100的其他设备的状态相关联的数据,其可以不时地在设备之间共享,使得一个或多个设备具有与该系统相关联的最新数据。
在一些实施例中,回放设备102的存储器213可以存储与状态相关联的各种变量类型的实例。变量实例可以与对应于类型的标识符(例如,标签)一起存储。例如,某些标识符可以是用于识别区的回放设备的第一类型“a1”、用于识别可以绑定在该区中的回放设备的第二类型“b1”和用于识别该区可能所属的区组的第三类型“c1”。作为相关示例,在图1A中,与阳台相关联的标识符可以指示该阳台是特定区的唯一回放设备,而不是在区组中。与客厅相关联的标识符可以指示该客厅没有与其他区分在一组,而是包括绑定的回放设备102a、102b、102j和102k。与餐厅相关联的标识符可以指示该餐厅是餐厅+厨房组的一部分,并且设备103f和102i被绑定。由于厨房是餐厅+厨房区组的一部分,因此与该厨房关联的标识符可以指示相同或相似的信息。其他示例区变量和标识符如下所述。
在又一示例中,如图3A所示,MPS 100可以包括表示区和区组的其他关联的变量或标识符,例如,与区域相关联的标识符。区域可以涉及区组的集群和/或不在区组内的区的集群。例如,图3A示出了名为“第一区域”的第一区域和名为“第二区域”的第二区域。第一区域包括阳台、私室、餐厅、厨房和浴室的区和区组。第二区域包括浴室、尼克的房间、卧室和客厅的区和区组。在一方面,区域可以用于调用区组和/或区的集群,其共享另一集群的一个或多个区和/或区组。在这方面,这样的区域不同于区组,该区组不与另一区组对区进行共享。用于实现区域的技术的其他示例可以在例如2017年8月21日提交的题为“RoomAssociation Based on Name(基于名称的房间关联)”的美国申请No.15/682,506和2007年9月11日提交的题为“Controlling and manipulating groupings in a multi-zonemedia system(在多区媒体系统中控制和操作分组)”的美国专利No.8,483,853中找到。这些申请中的每一个通过引用整体并入本文。在一些实施例中,MPS 100可以不实现区域,在这种情况下,系统可以不存储与区域相关联的变量。
存储器213还可以被配置为存储其他数据。这样的数据可以属于回放设备102可访问的音频源或该回放设备(或一些其他回放设备)可以与之关联的回放队列。在以下所述的实施例中,存储器213被配置为在处理语音输入时存储用于选择特定VAS的一组命令数据。
在操作过程中,图1A环境中的一个或多个回放区可能每个都在播放不同的音频内容。例如,用户可能正在阳台区烧烤并收听由回放设备102c播放的嘻哈音乐,而另一用户可能正在厨房区中准备食物并收听由回放设备102i播放的古典音乐。在另一示例中,回放区可以与另一回放区同步地播放相同的音频内容。例如,用户可以在书房区,其中,回放设备102n正在播放与阳台区的回放设备102c正在播放的嘻哈音乐相同的音乐。在这种情况下,回放设备102c和102n可以同步地播放嘻哈音乐,使得用户可以在不同回放区之间移动时无缝地(或者至少基本上无缝地)欣赏被外放的音频内容。如先前参考的美国专利No.8,234,395中所述,可以以类似于回放设备之间的同步方式来实现回放区之间的同步。
如上所述,可以动态地修改MPS 100的区配置。因此,MPS 100可以支持多种配置。例如,如果用户将一个或多个回放设备物理地移入或移出某个区,则可以将MPS 100重新配置以适应变化。例如,如果用户将回放设备102c从阳台区物理地移动到书房区,则书房区现在可以包括回放设备102c和102n。在一些情况下,用户可以使用例如控制器设备104之一和/或语音输入来将移动的回放设备102c与书房区配对或分在一组和/或重命名书房区中的播放器。作为另一示例,如果将一个或多个回放设备102移动到家居环境中但还不是回放区的特定空间,则可以将移动的回放设备重命名或与该特定空间的回放区相关联。
此外,MPS 100的不同回放区可以被动态地组合成区组或划分成单独的回放区。例如,餐厅区和厨房区可以被组合成用于宴会的区组,使得回放设备102i和102l可以同步地呈现音频内容。作为另一示例,可以将私室区中的绑定的回放设备分为(i)电视区和(ii)独立的收听区。电视区可以包括前回放设备102b。收听区可以包括右回放设备102a、左回放设备102j和SUB回放设备102k,如上所述,它们可以被分组、配对或合并。以这种方式划分私室区可以允许一个用户在客厅空间的一个区域中的收听区收听音乐,而另一用户在客厅空间的另一区域中观看电视。在相关示例中,用户可以在将私室区划分为电视区和收听区之前,利用NMD 103a或103b(图1B)中的任何一个来控制私室区。一旦划分,可以例如由NMD 103a附近的用户控制收听区,并且可以例如由NMD 103b附近的用户控制电视区。然而,如上所述,任何NMD 103可以被配置为控制MPS 100的各种回放设备和其他设备。
c.控制器设备示例
图4A是示出了图1A的MPS 100的所选控制器设备104中的一个的某些方面的功能框图。这样的控制器设备在本文中也可以被称为“控制设备”或“控制器”。图4A中所示的控制器设备可以包括通常类似于上述网络设备的某些组件的组件,例如,处理器412、存储程序软件414的存储器413、至少一个网络接口424以及一个或多个麦克风422。在一个示例中,控制器设备可以是用于MPS 100的专用控制器。在另一示例中,控制器设备可以是网络设备,例如,iPhoneTM、iPadTM或任何其他智能手机、平板电脑或网络设备(例如,网络计算机(例如,PC或MacTM)),可以在该网络设备上安装媒体回放系统控制器应用软件。
控制器设备104的存储器413可以被配置为存储控制器应用软件和与MPS 100和/或系统100的用户相关联的其他数据。存储器413可以加载有软件414中的指令,该指令可由处理器412执行以实现某些功能,例如,促进MPS 100的用户访问、控制和/或配置。如上所述,控制器设备104被配置为通过网络接口424与其他网络设备通信,该网络接口424可以采取无线接口的形式。
在一个示例中,系统信息(例如,状态变量)可以通过网络接口424在控制器设备104和其他设备之间传送。例如,控制器设备104可以从回放设备、NMD或另一网络设备接收MPS 100中的回放区和区组配置。类似地,控制器设备104可以通过网络接口424向回放设备或另一网络设备发送这样的系统信息。在一些情况下,另一网络设备可以是另一控制器设备。
控制器设备104还可以通过网络接口424向回放设备传送回放设备控制命令,例如,音量控制和音频回放控制。如上所述,也可以由用户使用控制器设备104来执行对MPS100的配置更改。配置更改可以包括:将一个或多个回放设备添加到区/从区中删除;将一个或多个区添加到区组/从区组中删除;形成绑定或合并的播放器;将一个或多个回放设备与绑定或合并的播放器分离等。
如图4A中所示,控制器设备104还包括用户接口440,该用户接口440通常被配置为促进用户对MPS 100的访问和控制。用户接口440可以包括触摸屏显示器或其他物理接口,其被配置为提供各种图形控制器界面,例如,图4B和4C中所示的控制器界面440a和440b。一起参考图4B和图4C,控制器界面440a和440b包括回放控制区域442、回放区区域443、回放状态区域444、回放队列区域446和源区域448。所示的用户接口仅是可以在网络设备(例如,图4A所示的控制器设备)上提供、并且由用户访问以控制媒体回放系统(例如,MPS100)的接口的一个示例。替代地,可以在一个或多个网络设备上实现变化的格式、样式和交互序列的其他用户接口,以提供对媒体回放系统的类似的控制访问。
回放控制区域442(图4B)可以包括可选择图标(例如,通过触摸或通过使用光标),该可选择图标在被选择时使所选择的回放区或区组中的回放设备播放或暂停、快进、快退、跳到下一个、跳到上一个、进入/退出随机播放模式、进入/退出重复模式、进入/退出交叉淡入淡出模式等。回放控制区域442还可以包括可选择图标,该可选择图标在被选择时修改均衡设置和/或回放音量等。
回放区区域443(图4C)可以包括MPS 100内的回放区的表示。如图所示,回放区区域443还可以包括区组的表示,例如,餐厅+厨房区组。在一些实施例中,回放区的图形表示可以是可选择的,以调出附加的可选择图标来管理或配置MPS 100中的回放区,例如,绑定区的创建、区组的创建、区组的分离以及区组的重命名等。
例如,如图所示,可以在回放区的每个图形表示内提供“分组”图标。在特定区的图形表示内提供的“分组”图标可以是可选择的,以调出用于选择要与特定区分在一组的MPS100中的一个或多个其他区的选项。一旦被分组,已经与特定区分在一组的区中的回放设备将被配置为与该特定区中的回放设备同步地播放音频内容。类似地,可以在区组的图形表示内提供“分组”图标。在这种情况下,“分组”图标可以是可选择的,以调出用于取消选择要从区组中移除的该区组中的一个或多个区的选项。通过用户接口对各区进行分组和取消分组的其他交互和实现也是可能的。当回放区或区组配置被修改时,可以动态地更新回放区在回放区区域443(图4C)中的表示。
回放状态区域444(图4B)可以包括在所选择的回放区或区组中当前正在播放、先前播放或被安排为接下来播放的音频内容的图形表示。可以在控制器接口上(例如,在回放区区域443和/或回放状态区域444内)可视地区分所选择的回放区或区组。图形表示可以包括曲目标题、艺术家姓名、专辑名称、专辑年份、曲目长度和/或其他相关信息,当用户通过控制器接口控制MPS 100时,用户了解这些信息可能是有用的。
回放队列区域446可以包括与所选择的回放区或区组相关联的回放队列中的音频内容的图形表示。在一些实施例中,每个回放区或区组可以与回放队列相关联,该回放队列包括与该回放区或区组回放的零个或多个音频项相对应的信息。例如,回放队列中的每个音频项可以包括统一资源标识符(URI)、统一资源定位符(URL)或一些其他标识符,该标识符可以由回放区或区组中的回放设备用于从本地音频内容源或网络音频内容源查找和/或检索音频项,然后可以由回放设备回放该音频项。
在一个示例中,可以将播放列表添加到回放队列,在这种情况下,可以将与播放列表中的每个音频项对应的信息添加到回放队列。在另一示例中,回放队列中的音频项可以被保存为播放列表。在另一示例中,当回放区或区组正在连续播放流式音频内容(例如,互联网收音机,其可以持续播放直到被停止),而不是具有回放持续时间的分立音频项时,回放队列可以为空或被填充但“未在使用中”。在替代实施例中,回放队列可以包括互联网收音机和/或其他流音频内容项,并且当回放区或区组正在播放这些项时处于“使用中”。其他示例也是可能的。
当回放区或区组被“分组”或“取消分组”时,可以清除与受影响的回放区或区组相关联的回放队列,或者重新关联。例如,如果包括第一回放队列的第一回放区与包括第二回放队列的第二回放区被分在一组,则所建立的区组可以具有相关联的回放队列(其最初是空的),其包含来自第一回放队列的音频项(例如,如果第二回放区被添加到第一回放区),或包含来自第二回放队列的音频项(例如,如果第一回放区被添加到第二回放区),或包含来自第一回放队列和第二回放队列二者的音频项的组合。随后,如果所建立的区组被取消分组,则所得到的第一回放区可以与先前的第一回放队列重新关联,或者与新的回放队列相关联,该新的回放队列是空的,或者包含与来自在所建立的区组被取消分组之前所建立的区组相关联的回放队列的音频项。类似地,所得到的第二回放区可以与先前的第二回放队列重新关联,或者与新的回放队列相关联,该新的回放队列是空的,或者包含来自在与所建立的区组被取消分组之前所建立的区组相关联的回放队列的音频项。其他示例也是可能的。
仍然参考图4B和4C,音频内容在回放队列区域446(图4B)中的图形表示可以包括曲目标题、艺术家姓名、曲目长度和/或与回放队列中的音频内容相关联的其他相关信息。在一个示例中,音频内容的图形表示可以是可选择的,以调出附加的可选择图标来管理和/或操纵回放队列和/或回放队列中表示的音频内容。例如,可以将所表示的音频内容从回放队列中移除,将所表示的音频内容移动到回放队列内的不同位置,或者选择所表示的音频内容以立即播放,或者在任何当前播放的音频内容之后进行播放等。与回放区或区组相关联的回放队列可以存储于该回放区或区组中的一个或多个回放设备上的、不在该回放区或区组中的回放设备上的和/或一些其他指定设备上的存储器中。这种播放队列的播放可以涉及一个或多个播放设备可能按顺序或随机顺序回放队列中的媒体项。
源区域448可以包括与对应的VAS相关联的可选择音频内容源和/或可选择语音助手的图形表示。可以选择性地分配VAS。在一些示例中,同一NMD可以调用多个VAS,例如,AMAZON的Alexa、MICROSOFT的Cortana等。在一些实施例中,用户可以将VAS专门分配给一个或多个NMD。例如,用户可以将第一VAS分配给图1A所示的客厅中的NMD 102a和102b中的一个或两个,并将第二VAS分配给厨房中的NMD 103f。其他示例是可能。
d.音频内容源示例
源区域448中的音频源可以是音频内容源,可以通过所选择的回放区或区组从该音频内容源中检索音频内容并播放。区或区组中的一个或多个回放设备可以被配置为从各种可用音频内容源中检索回放音频内容(例如,根据音频内容的对应URI或URL)。在一个示例中,回放设备可以直接从对应的音频内容源(例如,通过线路输入连接)中检索音频内容。在另一示例中,可以在网络上,通过一个或多个其他回放设备或网络设备向回放设备提供音频内容。如下文更详细描述的,在一些实施例中,音频内容可以由一个或多个媒体内容服务提供。
示例音频内容源可以包括:媒体回放系统(例如,图1的MPS 100)中的一个或多个回放设备的存储器、一个或多个网络设备(例如,控制器设备、启用网络的个人计算机或附接网络的储存器(“NAS”))上的本地音乐库、通过互联网(例如,基于云的音乐服务)提供音频内容的流音频服务、或者通过回放设备或网络设备上的线路输入连接连接至媒体回放系统的音频源等。
在一些实施例中,可以从媒体回放系统(例如,图1A的MPS 100)中添加或移除音频内容源。在一个示例中,每当添加、移除或更新一个或多个音频内容源时,可以执行对音频项编索引。对音频项编索引可以包括:扫描由媒体回放系统中的回放设备可访问的网络上共享的所有文件夹/目录中的可识别音频项,并且生成或更新包括元数据(例如,标题、艺术家、专辑、曲目长度等)及其他关联信息(例如,找到的每个可识别音频项的URI或URL)的音频内容数据库。用于管理和维护音频内容源的其他示例也是可能的。
e.网络麦克风设备示例
图5是示出了根据本公开的实施例配置的NMD 503的功能框图。NMD 503包括语音捕获组件(“VCC”)560、多个识别引擎569和至少一个语音提取器572,每个语音提取器572可操作地耦合到VCC560。NMD 503还包括上述麦克风222和至少一个网络接口224,并且还可以包括其他组件,例如,音频放大器、扬声器、用户接口等,为清楚起见该其他组件未在图5中示出。
NMD 503的麦克风222被配置为从NMD 503的环境向VCC 560提供检测到的声音SD。检测到的声音SD可以采用一个或多个模拟或数字信号的形式。在示例实施方式中,检测到的声音SD可以由与馈送到VCC 560的各个通道562相关联的多个信号组成。
每个通道562可以对应于特定的麦克风222。例如,具有六个麦克风的NMD可以具有六个对应的通道。检测到的声音SD的每个通道可以与其他通道具有某些相似性,但在某些方面可能有所不同,这可能是由于给定通道的相应麦克风相对于其他通道的麦克风的位置引起的。例如,检测到的声音SD的一个或多个通道可以具有比其他通道更大的语音与背景噪声的信噪比(“SNR”)。
如图5进一步所示,VCC 560包括AEC 564、空间处理器566和一个或多个缓冲器568。在操作中,AEC 564接收检测到的声音SD并过滤或处理该声音以抑制回声和/或改善检测到的声音SD的质量。然后可以向空间处理器566传递该处理后的声音。
空间处理器566通常被配置为分析检测到的声音SD并识别某些特征,例如,声音的振幅(例如,分贝级)、频谱、方向性等。一方面,如上所述,空间处理器566可以基于检测到的声音SD的组成通道562中的相似性和差异,帮助从潜在的用户语音中过滤或抑制检测到的声音SD中的环境噪声。作为一种可能性,空间处理器566可以监视将语音与其他声音区分开的指标。例如,这种指标可以包括语音带内相对于背景噪声的能量以及该语音带内的熵(频谱结构的一种度量),该语音带内的熵中语音通常比大多数常见背景噪声低。在一些实施方式中,空间处理器566可以被配置为确定语音存在概率,这种功能的示例在2018年5月18日提交的题为“Linear Filtering for Noise-Suppressed Speech Detection(用于噪声抑制的语音检测的线性滤波)”的美国专利申请No.15/984,073中公开,其全部内容通过引用并入本文。
在操作中,一个或多个缓冲器568(其中一个或多个可以是存储器213(图2A)的一部分或与之分离)捕获与检测到的声音SD相对应的数据。更具体地说,一个或多个缓冲器568捕获由上游AEC 564和空间处理器566处理的检测到的声音数据。
通常,检测到的声音数据形成由麦克风222检测到的声音的数字表示(即,声音数据流)SDS。实际上,声音数据流SDS可以采用多种形式。作为一种可能性,声音数据流SDS可以由帧组成,每个帧可以包括一个或多个声音样本。可以从一个或多个缓冲器568流式传输(即,读出)帧,以由下游组件(例如,NMD 503的识别引擎569和语音提取器572)进行进一步处理。
在一些实施方式中,至少一个缓冲器568利用滑动窗口方法来捕获检测到的声音数据,其中,在至少一个缓冲器568中保留给定数量(即,给定窗口)的最新捕获的检测到的声音数据,而当较旧的检测到的声音数据落在窗口之外时,它们将被覆盖。例如,至少一个缓冲器568可以在给定时间临时保留20个声音样本的帧,在到期时间之后丢弃最旧的帧,然后捕获新的帧,将其添加到声音样本的19个先前帧中。
实际上,当声音数据流SDS由帧组成时,这些帧可以采用具有各种特性的各种形式。作为一种可能性,这些帧可以采用具有一定分辨率(例如,16比特分辨率)的音频帧的形式,该分辨率可以基于采样率(例如,44,100Hz)。附加地或替代地,这些帧可以包括与这些帧定义的给定声音样本相对应的信息,例如,元数据,该元数据指示频率响应、功率输入电平、SNR、麦克风通道标识和/或给定声音样本的其他信息,以及其他示例。因此,在一些实施例中,帧可以包括声音的一部分(例如,给定声音样本的一个或多个样本)和关于声音的一部分的元数据。在其他实施例中,帧可以仅包括声音的一部分(例如,给定声音样本的一个或多个样本)或关于声音的一部分的元数据。
在任何情况下,NMD 503的下游组件可以处理声音数据流SDS。例如,识别引擎569可以被配置为将一种或多种识别算法应用于声音数据流SDS(例如,流声音帧),以在检测到的声音SD中发现潜在唤醒词。识别引擎569包括关键词发现器576、第一唤醒词引擎570a、第二唤醒词引擎570b以及可选地如下文关于图7更详细地描述的其他引擎571a。当识别引擎569发现潜在唤醒词时,一个或多个识别引擎569可以向语音提取器572提供“唤醒词事件”(也称为“唤醒词触发”)的指示。
响应于唤醒词事件(例如,响应于来自识别引擎569的指示唤醒词事件的信号),语音提取器572被配置为接收和格式化(例如,封装)声音数据流SDS。例如,语音提取器572将声音数据流SDS的帧封装成消息。语音提取器572通过网络接口218向远程VAS(例如,VAS190(图1B))发送或流式传输可能包含实时或接近实时语音输入的消息MV。
该VAS被配置为处理从NMD 503发送的消息MV中包含的声音数据流SDS。更具体地说,该VAS被配置为基于声音数据流SDS来识别语音输入。参照图6A,语音输入680可以包括唤醒词部分680a和发声部分680b。唤醒词部分680a对应于导致唤醒词事件的检测到的声音。例如,唤醒词部分680a对应于使识别引擎569向语音提取器572提供唤醒词事件的指示的检测到的声音。发声部分680b对应于检测到的声音,该检测到的声音潜在包括跟随唤醒词部分680a的用户请求。
作为说明性示例,图6B示出了示例第一声音样本。在该示例中,声音样本对应于与图6A的发现的唤醒词680a相关联的声音数据流SDS(例如,一个或多个音频帧)。如图所示,示例第一声音样本包括:(i)紧接在说出唤醒词之前在回放设备102i的环境中检测到的声音,该声音可以被称为前滚动部分(在时间t0和t1之间);(ii)在说出唤醒词时在回放设备102i的环境中检测到的声音,该声音可以被称为唤醒计部分(在时间t1和t2之间)和/或(iii)在说出唤醒词之后在回放设备102i的环境中检测到的声音,该声音可以被称为后滚动部分(在时间t2和t3之间)。其他声音样本也是可能的。
通常,VAS可以首先处理声音数据流SDS中的唤醒词部分680a以验证唤醒词的存在。在一些实例中,VAS可以确定唤醒词部分680a包括错误的唤醒词(例如,当单词“Alexa”是目标唤醒词时的单词“Election”)。在这种情况下,VAS可以向NMD 503(图5)发送响应,指示NMD 503停止提取声音数据,这可能导致语音提取器572停止检测到的声音数据向VAS的进一步流传输。一个或多个识别引擎569(例如,关键词检测器576)可以恢复或继续监视声音样本,直到另一潜在唤醒词导致另一唤醒词事件。在一些实施方式中,VAS可以不处理或接收唤醒词部分680a,而是仅处理发声部分680b。
在任何情况下,VAS处理发声部分680b以识别在检测到的声音数据中任何单词的存在并从这些单词确定潜在意图。这些单词可以对应于某个命令和某些关键词684(在图6A中分别标识为第一关键词684a和第二关键词684b)。关键词可以是例如语音输入680中的识别MPS 100中特定设备或分组的词。例如,在所示的示例中,关键词684可以是识别要在其中播放音乐的一个或多个区(例如,客厅和餐厅(图1A))的一个或多个单词。
为了确定单词的意图,VAS通常与VAS(未示出)所关联的一个或多个数据库和/或MPS 100的一个或多个数据库(未示出)进行通信。这样的数据库可以存储多种用户数据、分析、目录和其他信息以用于自然语言处理和/或其他处理。在一些实施方式中,可以基于语音输入处理来更新这样的数据库以用于神经网络的自适应学习和反馈。在某些情况下,发声部分680b可以包括附加信息,例如,检测到的用户说出的单词之间的停顿(例如,非语音的时间段),如图6A所示。该停顿可以在发声部分680b内标定用户说出的单独命令、关键词或其他信息的位置。
基于某些命令标准,VAS可以根据识别语音输入中的一个或多个命令(例如,命令682)来采取动作。命令标准可以基于在语音输入中包含某些关键词以及其他可能性。附加地或替代地,用于命令的命令标准可以涉及与一个或多个特定命令的识别相结合的、对一个或多个控制状态和/或区状态变量的识别。控制状态变量可以包括:例如,识别音量的指示器、与一个或多个设备相关联的队列以及回放状态,例如,设备是否正在播放队列、是否暂停等。区状态变量可以包括:例如,用于识别将哪些区播放器(如果有)分在一组的指示器。
在处理语音输入之后,VAS可以基于其从语音输入确定的意图,向MPS 100发送具有指令的响应以执行一个或多个动作。例如,基于语音输入,VAS可以指导MPS 100在一个或多个回放设备102上发起回放、控制这些设备中的一个或多个(例如,提高/降低音量、分组/取消分组设备等)、打开/关闭某些智能设备以及其他动作。如以上所讨论的,在接收到来自VAS的响应之后,NMD 503的一个或多个识别引擎569可以恢复或继续监视声音数据流SDS,直到发现另一潜在唤醒词为止。
返回参考图5,在多VAS实施方式中,NMD 503可以包括VAS选择器574(以虚线示出),该VAS选择器574通常被配置为:当特定的唤醒词引擎(例如,第一唤醒词引擎570a、第二唤醒词引擎570b或附加唤醒词引擎571)识别给定的唤醒词时,该VAS选择器574指导语音提取器的提取和向适当的VAS发送声音数据流SDS。在这样的实施方式中,NMD 503可以包括多个不同的唤醒词引擎和/或语音提取器,每一个都由特定的VAS支持。与以上讨论类似,每个唤醒词引擎可以被配置为从一个或多个缓冲器568接收声音数据流SDS作为输入,并且应用识别算法为适当的VAS引起唤醒词触发。因此,作为一个示例,第一唤醒词引擎570a可以被配置为识别唤醒词“Alexa”,并且当发现“Alexa”时使NMD 503调用AMAZON VAS。作为另一示例,第二唤醒词引擎570b可以被配置为识别唤醒词“Ok,Google”,并且当发现“Ok,Google”时使NMD 503调用GOOGLE VAS。在单个VAS实施方式中,可以省略VAS选择器574。
在附加的或替代的实施方式中,NMD 503可以包括其他语音输入识别引擎571(以虚线示出),其使NMD 503能够在没有远程VAS的辅助下进行操作。作为示例,这样的引擎可以在检测到的声音中识别某些命令(例如,“播放”、“暂停”、“打开”等)和/或某些关键词或短语,例如,分配给给定回放设备的唯一名称(例如“书架”、“阳台”、“书房”等)。响应于识别这些命令、关键词和/或短语中的一个或多个,NMD 503可以传送使音频处理组件216(图2A)执行一个或多个动作的信号(在图5中未示出)。例如,当用户说“Hey Sonos,停止书房里的音乐”时,NMD 503可以直接或间接地通过MPS100的一个或多个其他设备向书房回放设备102n传送信号,使书房设备102n停止音频回放。减少或消除对来自远程VAS的辅助的需要,可以减少在远程处理语音输入时可能发生的延迟。在某些情况下,所采用的识别算法可以被配置为识别在没有前面的唤醒词的情况下说出的命令。例如,在以上示例中,NMD 503可以采用识别算法,该算法触发事件以停止书房中的音乐,而无需用户先说“Hey Sonos”或另一唤醒词。
III.用于唤醒词的两阶段检测的示例系统和方法
如图5所示,NMD 503的识别引擎569包括在第一唤醒词引擎570a和第二唤醒词引擎570b以及以上讨论的另一其他语音输入识别引擎571上游的关键词发现器576。在操作中,声音数据流SDS从VCC560向关键词发现器576传递。关键词发现器576分析声音数据流SDS,以检测关键词(例如,唤醒词或命令)。如以下更详细地描述的,在一些实施例中,关键词发现器576识别声音数据流SDS中的候选关键词。响应于在声音数据流SDS中发现一个或多个关键词或候选关键词,关键词发现器576还选择适当的输出以提供声音数据流SDS进行附加处理。如图所示,关键词发现器576可以向第一唤醒词引擎570a传递声音数据流SDS,第二唤醒词引擎570b和/或另一引擎571被配置用于本地设备功能。在一些实施例中,基于通过声音数据流SDS中的关键词发现器576发现的关键词来确定输出目的地。
在一些实施例中,关键词发现器576可以对声音数据流SDS执行第一算法,以识别语音输入中的初步或候选唤醒词。与第一唤醒词引擎570a和/或第二唤醒词引擎570b所使用的下游算法相比,第一算法可以具有更小的计算复杂度和/或消耗更少的存储器。在一些示例中,第一算法用于确定语音输入是否包括多个可能的唤醒词中的一个唤醒词,例如“Alexa”、“Ok Google”和“Hey,Siri”。
在一些实施例中,关键词发现器576被配置为向声音数据流SDS中的候选唤醒词分配概率分数或范围。例如,第一种算法可以表示在声音数据流SDS中检测到唤醒词“OK,Google”的概率为80%,在这种情况下,“OK,Google”可以被识别为候选或初步唤醒词。在一些实施例中,识别的候选唤醒词需要某个最小阈值概率分数。例如,以60%或更高的概率识别的唤醒词可以被识别为候选唤醒词,而以小于60%的概率识别的唤醒词不可以被识别为候选唤醒词。特定阈值可以在不同实施例中变化,例如,大于50%、60%、70%、80%或90%的概率。在一些实施例中,在单个声音数据流SDS中,可以为两个不同的唤醒词分别分配概率分数或范围,使得每一个被识别为候选唤醒词。
关键词发现器576采用的第一算法可以包括现在已知或以后开发的各种关键词发现算法,或其变体。在一些实施例中,第一算法使用神经网络来进行关键词发现,例如,深度神经网络(DNN)、卷积神经网络(CNN)或递归神经网络(RNN),以基于大量特定于关键词的训练数据对关键词进行建模。在一些实施例中,关键词发现器576利用的神经网络已经被压缩以实现神经网络的计算复杂度和/或存储空间需求的显著降低。这使神经网络可以本地存储在NMD或回放设备上,而不会消耗过多功率或存储空间。以下参考图8-10描述了有关用于唤醒词检测的神经网络压缩的附加详细信息。
基于通过关键词发现器576对唤醒词的初步检测,可以向适当的唤醒词引擎(例如,第一唤醒词引擎570a或第二唤醒词引擎570b)传递声音数据流SDS,或者可以向配置用于本地设备功能的另一引擎571传递语音输入。在一些实施例中,第一唤醒词引擎570a和第二唤醒词引擎570b可以与不同的语音助手服务相关联。例如,第一唤醒词引擎570a可以与AMAZON语音助手服务相关联,并且第二唤醒词引擎570b可以与GOOGLE语音助手服务相关联。还可以包括这里未示出的其他唤醒词引擎,例如,与APPLE语音服务相关联的第三唤醒词引擎等。这些唤醒词引擎中的每一个可以响应于关键词发现器576的确定被启用(例如,加电)和禁用(例如,断电)。因此,仅当由关键词发现器576选择时,才可以启用和激活特定的唤醒词引擎。
唤醒词引擎570a和570b中的每一个被配置为分析从关键词发现器576接收的声音数据流SDS,以检测确认的唤醒词。确认的唤醒词可以是先前由关键词发现器576识别的相同的唤醒词。在一些实施例中,第一唤醒词引擎570a或第二唤醒词引擎570b(取决于选择哪个)具有更高的精度,因此对检测到的唤醒词具有更高的置信度。第一唤醒词引擎570a和第二唤醒词引擎570b可以使用计算强度更高的算法来检测确认的唤醒词。在一个示例中,关键词发现器576识别候选唤醒词“Alexa”,然后选择与AMAZON语音服务相关联的第一唤醒词引擎570a,以进一步处理语音输入。接下来,第一唤醒词引擎570a分析语音输入以确认或否定在该语音输入中存在唤醒词“Alexa”。如果确认了唤醒词,则NMD 503可以向适当的语音助手服务传递声音数据流SDS的附加数据(例如,图6A的语音发声部分680b),以进行如上所述的进一步处理。如果否定唤醒字,则NMD 503可以不针对该特定声音数据流SDS采取进一步动作,或者NMD 503可以提供警报或指示第一唤醒词引擎570a否定初步唤醒词的其他输出。
如上所述,各种唤醒词引擎570a和570b可以分别与不同的语音服务相关联。这样的唤醒词引擎可以利用不同的算法来识别语音输入中已确认的唤醒词,无论是现在已知的还是后来开发的,或其变体。这种算法的示例包括但不限于:(i)滑动窗口模型,其中,将捕获的音频的滑动时间间隔内的特征与关键词模型进行比较;(ii)垃圾模型,其中,为每个关键词和非关键词构造隐藏马尔可夫模型(HMM),以便使用非关键词模型来帮助从关键词语音中区分非关键词语音;(iii)使用大词汇量连续语音识别(LVCSR),其中,将输入语音解码为可搜索预定义关键词的格;以及(iv)基于大量特定于关键词的训练数据,使用神经网络(例如,深度神经网络(DNN)、卷积神经网络(CNN)或递归神经网络(RNN))对关键词进行建模。
如前所述,在一些实施例中,代替或除了向第一唤醒词引擎570a和/或第二唤醒词引擎570b传递声音数据流SDS之外,关键词检测器576可以向另一引擎571传递声音数据流SDS。如果关键词发现器576在声音数据流SDS中识别出关键词(例如,本地设备命令),则关键词发现器576可以向另一引擎571传递该输入以执行命令。作为一个示例,如果关键词发现器576检测到关键词“调高音量”,则关键词发现器576可以向另一引擎571传递声音数据流SDS。在各种实施例中,另一引擎571可以包括被配置为执行任意数量的不同功能的组件,例如,修改回放音量、轨道控制(暂停、跳过、重复等)、设备分组或取消分组、停用麦克风或任何其他本地设备功能。在一些实施例中,另一引擎571限于在接收到声音数据流SDS的特定NMD上执行功能。在其他实施例中,另一引擎571可以使得在与接收到声音数据流SDS的NMD通信的其他回放设备或NMD上执行功能。
a.唤醒词的两阶段检测示例
如上所述,在一些示例中,NMD被配置为监视和分析接收的音频以确定在该接收的音频中是否存在任何唤醒词。图7示出了用于NMD确定在接收到的音频中是否存在任何唤醒词的方法700的示例实施例。方法700可以通过本文公开和/或所述的任何NMD、或者现在已知或以后开发的任何其他NMD来实现。
方法700的各种实施例包括方框702至718所示的一个或多个操作、功能和动作。尽管顺序地示出了这些方框,但是这些方框也可以并行执行和/或以与本文公开和描述的顺序不同的顺序执行。而且,各个方框可以基于期望的实现方式被组合成更少的方框、被划分成附加的方框和/或被移除。
方法700开始于方框702,其涉及NMD通过一个或多个麦克风捕获检测到的声音数据。捕获的声音数据包括来自NMD环境的声音数据,并且在一些实施例中,包括语音输入,例如,图6A中描绘的语音输入680。
在方框704处,方法700涉及使用第一算法的NMD来识别声音数据中的候选唤醒词。候选唤醒词可以是多个可能唤醒词中的一个,并且在一些情况下,多个唤醒词中的每一个对应于多个语音服务中的相应语音服务。在一些实施例中,这涉及NMD使以上结合图5所述的关键词发现器576利用唤醒词检测算法来检测候选唤醒词。另外,在一些实施例中,该多个唤醒词包括以下一项或多项:(i)对应于AMAZON语音服务的唤醒词“Alexa”;(ii)对应于GOOGLE语音服务的唤醒词“Ok,Google”;或(iii)对应于APPLE语音服务的唤醒词“Hey,Siri”。因此,在一些示例中,使用第一算法执行第一唤醒词检测过程涉及NMD使用第一算法来确定捕获的声音数据是否包括多个唤醒词,例如,“Alexa”、“Ok,Google”和“Hey,Siri”。此外,在一些示例中,NMD并行地使用第一算法来同时确定捕获的声音数据是否包括多个唤醒词。
另外,在一些实施例中,该多个唤醒词包括以下一项或多项:(i)对应于AMAZON语音服务的唤醒词“Alexa”;(ii)对应于GOOGLE语音服务的唤醒词“Ok,Google”;或(iii)对应于APPLE语音服务的唤醒词“Hey,Siri”。因此,在一些示例中,使用第一算法执行第一唤醒词检测过程涉及NMD使用第一算法来确定捕获的声音数据是否包括多个唤醒词,例如,“Alexa”、“Ok,Google”和“Hey,Siri”。此外,在一些实施例中,NMD并行地使用第一算法来同时确定捕获的声音数据是否包括多个唤醒词。
在一些实施例中,识别候选唤醒词包括用一个或多个唤醒词分配概率分数或范围。例如,第一算法可以指示在语音输入中已经检测到唤醒词“Alexa”的概率为70%,在这种情况下,可以将“Alexa”视为候选唤醒词。在一些实施例中,可以为两个不同的唤醒词分别分配概率分数或范围,使得每一个都被识别为候选唤醒词。
如上所述,在方框704中用来识别候选唤醒词的第一算法可以包括现在已知或以后开发的各种关键词发现算法,或其变体。在一些实施例中,第一算法使用神经网络来进行关键词发现,例如,深度神经网络(DNN)、卷积神经网络(CNN)或递归神经网络(RNN),以基于大量特定于关键词的训练数据对关键词进行建模。在一些实施例中,方框704中利用的神经网络已经被压缩以实现神经网络的计算复杂度和/或存储空间需求的显著降低。这使神经网络可以本地存储在NMD或回放设备上,而不会消耗过多功率或存储空间。以下参考图8-10描述了有关用于唤醒词检测的神经网络压缩的附加详细信息。
在框706处,方法700涉及NMD在框704处确定在声音数据中是否已检测到任何候选唤醒词。如果NMD没有将捕获的声音数据中的多个唤醒词中的任何一个识别为候选唤醒词,则方法700返回到方框702,并且NMD继续捕获附加的声音数据并使用第一算法来处理该附加的声音数据以识别该声音数据中的候选唤醒词。替代地,如果NMD确实使用第一算法识别了特定唤醒词,则方法700前进到方框708,在该方框708中NMD尝试确认在捕获的声音数据中是否存在候选唤醒词。
响应于在声音数据中识别候选唤醒词,NMD在方框708中选择并激活第一唤醒词引擎或在方框709中选择并激活第二唤醒词引擎。在一些实施例中,激活第一唤醒词引擎涉及NMD加电(例如,从低功率或无功率状态到高功率状态)或使特定唤醒词引擎组件能够分析捕获的声音数据。
可以基于方框704中在声音数据中检测到的特定候选唤醒词来进行第一唤醒词引擎和第二唤醒词引擎之间的选择。例如,第一唤醒词引擎可以与第一VAS相关联,并且第二唤醒词引擎可以与第二VAS相关联。如果候选唤醒词与第一VAS相关联,则在方框708中选择并激活第一唤醒词引擎。相反,如果候选唤醒词与第二VAS相关联,则在方框709中选择并激活第二唤醒词引擎。
在一个示例中,第一唤醒词引擎被配置为检测唤醒词“Alexa”,使得如果NMD在方框706处确定初步唤醒词检测过程检测到单词“Alexa”作为候选唤醒词,则NMD在方框708处响应性地激活第一唤醒词引擎,并在方框710中确认或否定声音数据中存在候选唤醒词“Alexa”。在相同或另一示例中,第二唤醒词引擎被配置为检测唤醒词“Ok Google”,使得如果NMD在方框706处确定在方框704中识别的初步唤醒词是“Ok Google”,则NMD在方框709处响应地激活第二唤醒词引擎,并在方框711中确认或否定声音数据中“OK Google”的存在。在一些实施例中,方法700涉及使用附加的唤醒词检测模块来执行附加的唤醒词检测过程。例如,在一些实施例中,方法700涉及针对每个唤醒词使用相应的唤醒词检测模块,NMD被配置为检测所述每个唤醒词。
在方框708处,方法700涉及NMD使第一唤醒词引擎分析声音数据,以确认或否定声音数据中候选唤醒词的存在。如果确认,则NMD可以输出确认的唤醒词。确认的唤醒词可以是与先前在方框704中被识别的初步唤醒词相同的唤醒词,除此之外,第一唤醒词引擎可以具有更高的期望精度,并且因此对检测到的唤醒词具有更高的置信度。在一些实施例中,与用于识别候选唤醒词的第一算法相比,第一唤醒词引擎可以使用计算强度更高的算法来检测确认的唤醒词。在一个示例中,在方框704中第一算法识别候选唤醒词“Alexa”,并且在方框708中选择与AMAZON语音服务相关联的唤醒词引擎。然后,在方框710中,AMAZON唤醒词引擎分析声音数据以确认或否定该声音数据中“Alexa”的存在。如果AMAZON唤醒词引擎识别出唤醒词“Alexa”,则将其识别为确认的唤醒词。在另一示例中,在方框704中第一算法识别候选唤醒词“OK Google”,并且在方框708中选择与GOOGLE语音服务相关联的唤醒词引擎。然后,在方框710中,GOOGLE唤醒词引擎分析声音数据以确认或否定该声音数据中“OkGoogle”的存在。
以上所述结合初步唤醒词检测和下游唤醒词引擎的算法可以包括现在已知或以后开发的各种关键词发现算法,或其变体。关键词发现算法的示例包括但不限于:(i)滑动窗口模型,其中,将捕获的音频的滑动时间间隔内的特征与关键词模型进行比较;(ii)垃圾模型,其中,为每个关键词和非关键词构造隐藏马尔可夫模型(HMM),以便使用非关键词模型来帮助从关键词语音中区分非关键词语音;(iii)使用大词汇量连续语音识别(LVCSR),其中,将输入语音解码为可搜索预定义关键词的格;以及(iv)基于大量特定于关键词的训练数据,使用神经网络(例如,深度神经网络(DNN)、卷积神经网络(CNN)或递归神经网络(RNN))对关键词进行建模。关于神经网络的使用的附加细节在下文参考图8-10进行了描述。
在方框712处,方法700涉及确定在捕获的声音数据中是否已经检测到确认的唤醒词。如果在方框710或方框711中已经检测到确认的唤醒词,则方法700前进到方框714。并且,如果在方框710或方框711中未检测到确认的唤醒词(即,在方框710或方框711中否定了初步唤醒词),则方法700前进至方框716。
在方框714处,方法700涉及NMD通过其网络接口使对应于特定唤醒词的相应语音服务来处理捕获的声音数据。在一些实施例中,这首先涉及识别多个语音服务中的哪个语音服务对应于特定的唤醒词,其示例在美国专利申请No.15/229,868中公开,其全部内容通过引用并入本文。
在一些实施例中,使相应的语音服务处理捕获的声音数据涉及:NMD通过网络接口向相应的语音服务的一个或多个服务器传输表示声音数据的数据、以及用于处理表示声音数据的数据的命令或查询。该命令或查询可以使相应的语音服务处理语音命令,并且可以根据相应的语音服务而变化,以使该命令或查询与相应的语音服务(例如,语音服务的API)一致。
如上所述,在一些示例中,捕获的音频包括语音输入680,该语音输入680又包括表示唤醒词680a的第一部分和表示语音发声680b的第二部分,该语音发声680b可以包括一个或多个命令,例如,命令682。在一些情况下,NMD可以仅发送表示至少语音输入的第二部分的数据(例如,表示语音发声680b的部分)。通过排除第一部分,NMD可以减少发送语音输入680所需的带宽,并且避免由于唤醒词680a而可能对语音输入680进行的误处理,以及其他可能的好处。替代地,NMD可以发送表示语音输入680的两个部分或语音输入680的一些其他部分的数据。
在一些实施例中,使相应的语音服务处理捕获的声音数据涉及:NMD查询与相应的语音服务相对应的唤醒词检测算法。如上所述,对语音服务的查询可以涉及在NMD本地或使用网络接口远程调用语音服务的相应API。响应于对相应语音服务的唤醒词检测算法的查询,NMD接收响应,该响应指示在查询中提交的捕获的声音数据是否包括与该语音服务相对应的唤醒词。当特定语音服务的唤醒词检测算法检测到捕获的声音数据包括与该特定语音服务相对应的特定唤醒词时,NMD可以使该特定语音服务进一步处理声音数据,例如,在捕获的声音数据中识别语音命令。
在使相应的语音服务处理捕获的音频之后,NMD接收处理结果。例如,如果检测到的声音数据表示搜索查询,则NMD可以接收搜索结果。作为另一示例,如果检测到的声音数据表示对设备的命令(例如,对回放设备的媒体回放命令),则NMD可以接收该命令以及也许与该命令相关联的附加数据(例如,与该命令相关联的媒体源)。NMD可以基于命令的类型和接收到的结果适当地输出这些结果。
替代地,如果检测到的声音数据包括定向到NMD以外的另一设备的语音命令,则结果可能被定向到该设备而不是NMD。例如,参考图1A,厨房101h中的NMD 103f可以接收语音输入,该语音输入被定向到餐厅101g的回放设备102l(例如,以调整回放设备102l的媒体回放)。在这样的实施例中,尽管NMD 103f促进了语音输入的处理,但是可以向回放设备102l发送处理结果(例如,用于调整媒体回放的命令)。替代地,语音服务可以向NMD 103f发送结果,该NMD103f可以将命令中继到回放设备102l,或者使回放设备102l执行该命令。
在方框716处,方法700,NMD响应于确定捕获的声音数据不包括特定的唤醒词而停止处理该捕获的声音数据以检测确认的唤醒词。在一些实施例中,停止处理捕获的声音数据以检测特定的唤醒词涉及:NMD进一步处理捕获的声音数据以确定该捕获的声音数据是否包括与特定的唤醒词不同的唤醒词。例如,对于多个唤醒词中的每个相应的唤醒词,NMD可以使用一个或多个算法来确定捕获的声音数据是否包括相应的唤醒词。
附加地或替代地,在一些实施例中,停止处理捕获的声音数据以检测特定的唤醒词不涉及NMD停止完全处理该捕获的声音数据。相反,NMD继续通过重复方法700(例如,通过捕获附加声音数据并在该附加的捕获的声音数据上执行第一和第二唤醒词检测过程)来监听唤醒词。
在任何情况下,在方框718处,方法700涉及NMD停用所选择的唤醒词引擎(即,第一和/或第二唤醒词引擎,取决于先前选择并激活了哪个引擎)。因此,在一些示例中,方法700涉及:NMD在方框716处停止处理声音数据之后停用所选择的唤醒词引擎。在其他示例中,方法700涉及:NMD在方框714处使语音服务处理特定唤醒词之后,停用所选择的唤醒词引擎。与以上讨论一致,在一些实施例中,停用所选择的唤醒词引擎涉及NMD断电或禁止唤醒词引擎组件570a和/或570b分析捕获的声音数据。
b.用于唤醒词检测的压缩神经网络示例
图8是系统800的功能框图,该系统800用于生成用于关键词发现和选择的压缩神经网络。如图8所示,向关键词选择和压缩模块804提供预训练神经网络802。预训练神经网络802可以是例如基于大量特定于关键词的训练数据对一个或多个所选关键词建模的神经网络,例如,深度神经网络(DNN)、卷积神经网络(CNN)或递归神经网络(RNN)。关键词选择和压缩模块804可以优化和压缩预训练神经网络,以提供比预训练神经网络输入802执行得更好的压缩神经网络,例如,计算强度较低和/或需要较少的存储空间而不会显著降低关键词检测的精度。
如下文更详细描述的,关键词选择和压缩模块804可以通过将预训练神经网络的权重压缩到K集群(例如,通过在权重上拟合高斯混合模型(GMM))来重新训练和压缩预训练神经网络802。这种技术被称为软加权共享,并且可以导致神经网络的显著压缩。通过将GMM的分量与预训练神经网络的权重拟合在一起,权重倾向于紧密集中在许多集群分量周围,而集群中心会优化自身以使该网络具有较高的预测精度。这导致很高的压缩率,因为神经网络只需要对K集群均值进行编码,而不是对预训练神经网络的所有权重进行编码。另外,可以在GMM中以较高的初始责任将一个集群固定为0,从而允许如下文关于图10所讨论的稀疏表示。
在关键词选择和压缩模块804的初始化模块806处,GMM的分量被初始化。例如,预定数量的非固定分量的平均值可以在预训练神经网络802的权重范围内均匀分布。可以初始化方差,使得每个高斯在其各自的区域中具有显著的概率质量。在一些实施例中,也可以基于预训练通过初始化模块806来初始化神经网络的权重。在一些实施例中,可以用17个分量(24+1)来初始化GMM,并且权重和均值、对数方差和对数混合比例的学习率都可以分别被初始化。
在初始化GMM分量之后,联合优化模块808使用GMM重新训练预训练神经网络模型。联合优化模块808将初始化的GMM拟合在预训练神经网络的权重上,并运行优化算法以聚合GMM集群周围的神经网络的权重。例如,在一些实施例中,可以通过梯度下降来优化以下等式:
其中,w是神经网络模型参数(或权重),μj,σj,πj是GMM的均值、方差和混合权重,X和T是神经网络的声学特征输入和分类目标。损耗分解为神经网络项p(T|X,w)和GMM项使用加权因子τ对它们进行平衡。
在一些示例中,加权因子τ可以被设置为0.005。为鼓励稀疏性并改善下一阶段的压缩,GMM的一个分量可以具有固定的均值μj=0=0和混合权重πj=0=0.999。其余分量被学习。替代地,该阶段也可以训练πj=0,但使用超先验(例如,Beta分布)对其进行限制。在连续迭代之后,函数收敛,使得神经网络的权重在GMM集群的周围紧密聚合。
在联合优化模块808中,梯度下降计算对于选择的学习率和参数可能高度敏感。如果学习率太高,则GMM可能太快坍塌,并且神经网络的权重可能会遗留在任何组件之外,并且无法集群。相反,如果学习率太低,则混合权重将收敛太慢。在一些实施例中,学习率可以被设置为大约5x10-4。在某些实施例中,可以对混合方差应用逆伽马(Inverse-Gamma)超先验,以防止混合分量太快坍塌。
作为关键词选择和压缩模块804的最后阶段,量化模块571进一步压缩该模型。例如,在神经网络已经通过联合优化模块808重新训练之后,可以将每个权重设置为针对其承担最大责任的分量的平均值。该过程被称为量化。然而,在量化之前,可以删除多余的分量。在一个示例中,可以在所有分量之间计算Kullback-Leibler(KL)散度,并且对于KL散度小于阈值的情况,可以将这两个分量合并以形成单个分量。在量化之后,与预训练神经网络802相比,所得的神经网络在权重上的独特值数量明显减少。
然后,关键词选择和压缩模块804的输出可以在被输出为关键词发现器576之前经历后处理812(例如,附加过滤、格式化等)。在一些实施例中,后处理可以包括压缩的稀疏行(CSR)表示,如以下参考图10所述。如以上参考图5和图7所述,关键词发现器576可以用于执行唤醒词检测,例如以对捕获的声音数据执行初步唤醒词检测分析。基于该压缩神经网络的输出,可以例如利用与特定VAS或一组特定唤醒词相关联的唤醒词引擎来执行第二唤醒词检测过程。
有关可共享软加权神经网络、量化、压缩的稀疏行表示以及KL散度的使用的附加详细信息和示例可以参见:Ulrich等人的“Soft Weight-Sharing for Neural NetworkCompression(用于神经网络压缩的软加权共享)”,其可在https://arxiv.org/abs/1702.04008v2上获得;Han等人的“Deep Compression:Compressing Deep NeuralNetworks with Pruning,Trained Quantization and Huffman Coding(深度压缩:通过修剪、训练量化和霍夫曼编码压缩深层神经网络)”,其可在https://arxiv.org/abs/1510.00149v5上获得;以及Han等人的“Learning both Weights and Connections forEfficient Neural Networks(学习高效的神经网络的权重和连接)”,其可在https://arxiv.org/abs/1506.02626v3上获得;其每一个均通过全部引用并入本文。以上引用的论文中公开的任何技术都可以并入上述的关键词选择和压缩模块804和/或后处理812中。
图9说明了通过软加权共享进行压缩之前和之后,神经网络的权重的对数权重分布。图9顶部的直方图示出了预训练神经网络(例如,图8的预训练神经网络802)的权重w的分布。在已经执行了软加权共享再训练之后(例如,如关键词发现器576的压缩神经网络中所反映的),在右侧示出了相同的分布。散点图说明了每个权重值的变化。如图所示,权重被绘制在一起以聚合在离散值周围,与预训练神经网络相比,极大地减少了软加权共享神经网络中权重上不同值的数量。另外,权重的最大集中度为零,从而最小化所得神经网络中非零权重的数量。这允许使用压缩的稀疏行表示(CSR)进行更大的压缩,如下文参考图10所述。通过软加权共享以及CSR(或权重的其他压缩表示)实现的权重上不同值的减少,显著减小神经网络的大小和计算复杂度,而不会使精度实质性下降。
图10说明了神经网络模型的压缩稀疏行(CSR)表示的示例。除了共享权重聚合之外,还可以使用稀疏表示进一步压缩神经网络模型。一个示例是标准CSR表示,其中,矩阵M由三个一维数组表示。特别地,参考图10,矩阵D可以由三个一维数组A、IA和JA表示。数组A是通过获取矩阵D的非零分量(5、8、3和6)获得的。数组IA是从矩阵D的每一行中非零分量的数量递归获得的,其附加的第一值为0。在矩阵D中,每行中非零分量的数量分别为0、2、1和1。递归地将这些值相加可得到0、2(0+2)、3(2+1)和4(3+1)的值,如数组IA所示。最后,从矩阵D中每个非零值的列索引生成数组JA。例如,第一个非零值(5)在列0中,第二个非零值(8)在列1中,第三个非零值(3)在列2中,第四个非零值(6)在列1中。因此,数组JA包括值0、1、2、1。这三个数组可以以压缩格式表示矩阵M,例如,通过减少表示神经网络模型所需存储的值的总数。在图10的示例中,矩阵M具有16个值,而三个数组A、IA和JA具有总共13个值的组合。
这些数组中的每一个都可以被进一步优化。例如,数组IA中的最大数是D中非零元素的总数,因此IA中的数可以以较低的精度存储。可以通过使用密码本量化索引来优化数组A。并且可以用较低的精度索引优化数组JA和/或存储差异。
在评估已经使用CSR技术压缩的神经网络模型时,发明人发现基线神经网络的大小显著减小。在具有八个分量的一个示例中,神经网络的基线总大小为540kB。在压缩的稀疏行表示之后,该大小减小为462.5kB,反映了总压缩率为1.16。在优化了CSR数组之后,该大小进一步减小到174kB,反映了总压缩率为3.1。因此,发现结合数组优化使用CSR表示可以将总大小减少三分之二以上。如上所述,这些和其他压缩技术可用于减小用于检测唤醒词的神经网络模型的大小和/或计算复杂度。
c.使用神经网络在NMD之间进行仲裁的示例
如前所述,在某些实施方式中,当在语音中识别出由位于彼此附近的两个或更多个NMD检测到的语音输入时,NMD可以促进彼此之间的仲裁。例如,彼此靠近放置的两个NMD至少有时可以检测到相同的声音。在这种情况下,这可能需要仲裁,以确定最终由哪个设备负责向远程VAS提供检测到的声音数据。
在一些实施例中,两个或更多NMD中的每一个可以使用上述关键词发现算法中的任何一个(例如,利用关键词发现器576、第一唤醒词引擎570a和/或第二唤醒词引擎570b)来分析检测到的声音数据以识别唤醒词或候选唤醒词。例如,两个NMD可以分别使用基于神经网络的关键词发现器来识别语音输入中的候选唤醒词。在至少一些实施例中,关键词发现器还可以向声音数据流SDS中的候选唤醒词分配概率分数或范围。基于相对概率分数和由每个NMD识别的候选唤醒词,可以选择NMD之一以向远程VAS提供检测到的声音数据。
作为一个示例,第一NMD和第二NMD可以彼此靠近放置,使得它们检测相同的声音。在第一个NMD上操作的关键词发现器可以指示有80%的可能性已在第一NMD的声音数据流SDS中检测到唤醒词“OK,Google”,而在第二个NMD上操作的关键词发现器可以指示有70%的可能性已经在第二NMD的声音数据流SDS中检测到唤醒词“OK,Google”。由于第一NMD具有比第二NMD更高的检测到唤醒词的可能性,因此可以选择第一NMD与远程VAS通信。
结论
以上描述尤其公开了各种示例系统、方法、装置和尤其包括在硬件上执行的固件和/或软件的制品。应当理解的是,这些示例仅是示意性的,而不应当被认为是限制性的。例如,可以想到,这些固件、硬件和/或软件方面或组件中的任意一个或全部可以专门在硬件中实现、专门在软件中实现、专门在固件中实现、或在硬件、软件和/或固件的任意组合中实现。因此,所提供的示例不是实现这些系统、方法、装置和/或制品的唯一方式。
主要在说明性的环境、系统、过程、步骤、逻辑块、处理以及直接或间接地与耦接到网络的数据处理设备的操作相类似的其他象征性表示的方面上,提出本说明书。本领域技术人员通常使用这些处理描述和表示,以向本领域技术人员的其他技术人员传播他们的工作内容。阐述了各种具体细节,以提供本公开的透彻理解。然而,本领域技术人员应理解,不需要特定、具体细节就可以实施本公开。在其他实例中,没有描述熟知的方法、过程、组件和电路,以避免不必要地使实施例的方面模糊不清。因此,本公开的范围由随附权利要求、而不是以上实施例的描述来界定。
当随附权利要求中的任一项权利要求被理解成涵盖纯软件和/或固件实现时,在此明确限定至少一个示例中的至少一个元素以包括存储软件和/或固件的非暂时性有形介质,如存储器、DVD、CD、蓝光等。
例如,根据以下所述的各个方面示出了本技术。为了方便起见,将本技术各方面的各种示例描述为编号示例(1、2、3等)。这些仅作为示例提供,并不限制本技术。请注意,任何从属示例可以以任何组合被组合,并且被放置在相应的独立示例中。可以以类似的方式呈现其他示例。
示例1:一种方法,包括:通过网络麦克风设备捕获声音数据;以及通过所述网络麦克风设备,识别所述声音数据中的候选唤醒词;基于对所述声音数据中候选唤醒词的识别,从多个唤醒词引擎中选择第一唤醒词引擎;利用所述第一唤醒词引擎,分析所述声音数据以检测确认的唤醒词;以及响应于检测确认的唤醒词,向一个或多个与语音助手服务相关联的远程计算设备发送所述声音数据的语音发声。示例2:根据示例1所述的方法,其中,识别候选唤醒词包括确定所述候选唤醒词存在于所述声音数据中的概率。示例3:根据示例1-2中任一项所述的方法,其中,所述第一唤醒词引擎与所述候选唤醒词相关联,并且其中,所述多个唤醒词引擎中的另一个与一个或多个附加唤醒词相关联。示例4:根据示例1-3中任一项所述的方法,其中,识别候选唤醒词包括:将神经网络模型应用于所述声音数据。示例5:根据示例4所述的方法,其中,所述神经网络模型包括压缩神经网络模型。示例6:根据示例4所述的方法,其中,所述神经网络模型包括软加权共享神经网络模型。示例7:根据示例1-6中任一项所述的方法,还包括:在发送附加声音数据之后,通过网络麦克风设备接收与附加声音数据有关的媒体内容的选择。示例8:根据示例1-7中的任一项所述的方法,其中,所述多个唤醒词引擎包括:所述第一唤醒词引擎;以及第二唤醒词引擎的示例,其被配置为执行所述网络麦克风设备的本地功能。
示例9:一种网络麦克风设备,包括:一个或多个处理器;至少一个麦克风;以及一种有形的、非暂时性的计算机可读介质,其存储可由一个或多个处理器执行的指令,以使所述网络麦克风设备执行包括示例1-8中的任一项所述的操作。
示例10:有形的、非暂时性计算机可读介质,其存储可由一个或多个处理器执行的指令,以使网络麦克风设备执行包括示例1-8中的任一项所述的操作。
Claims (21)
1.一种方法,包括:
通过网络麦克风设备捕获声音数据;
通过所述网络麦克风设备,使用关键词发现算法(576)来识别所述声音数据中的候选唤醒词;
基于对所述声音数据中候选唤醒词的识别,从多个唤醒词引擎(570a、570b、571)中选择第一唤醒词引擎(570a、570b、571);
利用所述第一唤醒词引擎(570a、570b、571),分析所述声音数据以确认检测到唤醒词;以及
当所述第一唤醒词引擎(570a、570b、571)确认检测到所述唤醒词时,向一个或多个与语音助手服务相关联的远程计算设备发送所述声音数据的语音发声。
2.根据权利要求1所述的方法,其中,识别所述候选唤醒词包括:确定所述候选唤醒词在所述声音数据中存在的概率。
3.根据权利要求2所述的方法,其中,所述唤醒词引擎(570a、570b、571)被配置为确定所述候选唤醒词在所述声音数据中是否以比所述关键词发现算法(576)更高的精度存在。
4.根据前述权利要求中任一项所述的方法,其中,所述关键词发现算法(576)被配置为识别与多个相应语音助手服务和相应唤醒词引擎相对应的多个唤醒词。
5.根据前述权利要求中任一项所述的方法,其中,相对于所述多个唤醒词引擎(570a、570b、571),所述关键词发现算法(576)至少为以下中的一项:
在计算上不太复杂;以及
消耗更少的存储空间。
6.根据前述权利要求中任一项所述的方法,其中,所述第一唤醒词引擎(570a、570b、571)与所述候选唤醒词相关联,并且其中,所述多个唤醒词引擎(570a、570b、571)中的另一个与一个或多个附加唤醒词相关联。
7.根据前述权利要求中任一项所述的方法,其中,识别所述候选唤醒词包括:将神经网络模型(802)应用于所述声音数据。
8.根据权利要求7所述的方法,其中,所述神经网络模型(802)包括压缩神经网络模型(804)。
9.根据权利要求7或8所述的方法,其中,所述神经网络模型(802、804)被本地存储在NMD上。
10.根据权利要求8或9所述的方法,其中,所述压缩神经网络模型(804)是通过将高斯混合模型拟合到所述神经网络(802)的权重来压缩的。
11.根据权利要求10所述的方法,还包括:通过在所述神经网络(802)的权重范围内分配非固定分量的均值来初始化所述高斯混合模型。
12.根据权利要求11所述的方法,还包括:在所述神经网络模型的权重上拟合所述初始化的高斯混合模型,并且将神经网络的权重聚合在所述高斯混合模型集群周围。
13.根据权利要求12所述的方法,还包括量化所述神经网络模型。
14.根据权利要求8至13中的一项所述的方法,还包括:使用所述神经网络模型的压缩稀疏行表示来压缩所述神经网络模型。
15.根据前述权利要求中任一项所述的方法,其中,选择所述第一唤醒词引擎(570a、570b、571)包括:将所述NMD从低功率或无功率状态加电到高功率状态。
16.根据前述权利要求中任一项所述的方法,还包括:在发送附加声音数据之后,通过所述网络麦克风设备接收与所述附加声音数据有关的媒体内容的选择。
17.根据前述权利要求中任一项所述的方法,其中,所述多个唤醒词引擎包括:
所述第一唤醒词引擎(570a、570b);以及
第二唤醒词引擎(571),被配置为执行所述网络麦克风设备的本地功能。
18.根据前述权利要求中任一项所述的方法,还包括:当所述第一唤醒词引擎(570a、570b、571)未确认检测到所述唤醒词时,停用所述第一唤醒词引擎(570a、570b、571)。
19.根据前述权利要求中任一项所述的方法,还包括:在选择所述第一唤醒词引擎(570a、570b、571)之前,使用各自的检测到的声音数据中的候选唤醒词的关键词发现算法(576),基于所确定的概率,与一个或多个附加NMD对哪个NMD将选择所述唤醒词引擎进行仲裁。
20.一种有形的、非暂时性的计算机可读介质,其存储可由一个或多个处理器执行的指令,以使网络麦克风设备执行前述权利要求中任一项所述的方法。
21.一种网络麦克风设备,包括:
一个或多个处理器;
至少一个麦克风;以及
根据权利要求20所述的有形的、非暂时性的计算机可读介质。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US16/145,275 | 2018-09-28 | ||
US16/145,275 US11100923B2 (en) | 2018-09-28 | 2018-09-28 | Systems and methods for selective wake word detection using neural network models |
PCT/US2019/052841 WO2020068909A1 (en) | 2018-09-28 | 2019-09-25 | Systems and methods for selective wake word detection using neural network models |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111247582A true CN111247582A (zh) | 2020-06-05 |
Family
ID=68165815
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201980003798.6A Pending CN111247582A (zh) | 2018-09-28 | 2019-09-25 | 使用神经网络模型进行选择性唤醒词检测的系统和方法 |
Country Status (7)
Country | Link |
---|---|
US (3) | US11100923B2 (zh) |
EP (2) | EP3655948B1 (zh) |
JP (2) | JP7096353B2 (zh) |
KR (5) | KR102541498B1 (zh) |
CN (1) | CN111247582A (zh) |
AU (2) | AU2019299865B2 (zh) |
WO (1) | WO2020068909A1 (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112291436A (zh) * | 2020-10-23 | 2021-01-29 | 北京蓦然认知科技有限公司 | 一种对主叫用户的调度方法及装置 |
Families Citing this family (79)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9965247B2 (en) | 2016-02-22 | 2018-05-08 | Sonos, Inc. | Voice controlled media playback system based on user profile |
US10264030B2 (en) | 2016-02-22 | 2019-04-16 | Sonos, Inc. | Networked microphone device control |
US9947316B2 (en) | 2016-02-22 | 2018-04-17 | Sonos, Inc. | Voice control of a media playback system |
US9820039B2 (en) | 2016-02-22 | 2017-11-14 | Sonos, Inc. | Default playback devices |
US10095470B2 (en) | 2016-02-22 | 2018-10-09 | Sonos, Inc. | Audio response playback |
US9811314B2 (en) | 2016-02-22 | 2017-11-07 | Sonos, Inc. | Metadata exchange involving a networked playback system and a networked microphone system |
US9978390B2 (en) | 2016-06-09 | 2018-05-22 | Sonos, Inc. | Dynamic player selection for audio signal processing |
US10152969B2 (en) | 2016-07-15 | 2018-12-11 | Sonos, Inc. | Voice detection by multiple devices |
US10134399B2 (en) | 2016-07-15 | 2018-11-20 | Sonos, Inc. | Contextualization of voice inputs |
US10115400B2 (en) | 2016-08-05 | 2018-10-30 | Sonos, Inc. | Multiple voice services |
US9942678B1 (en) | 2016-09-27 | 2018-04-10 | Sonos, Inc. | Audio playback settings for voice interaction |
US9743204B1 (en) | 2016-09-30 | 2017-08-22 | Sonos, Inc. | Multi-orientation playback device microphones |
US10181323B2 (en) | 2016-10-19 | 2019-01-15 | Sonos, Inc. | Arbitration-based voice recognition |
US10475449B2 (en) | 2017-08-07 | 2019-11-12 | Sonos, Inc. | Wake-word detection suppression |
US10048930B1 (en) | 2017-09-08 | 2018-08-14 | Sonos, Inc. | Dynamic computation of system response volume |
US10446165B2 (en) | 2017-09-27 | 2019-10-15 | Sonos, Inc. | Robust short-time fourier transform acoustic echo cancellation during audio playback |
US10621981B2 (en) | 2017-09-28 | 2020-04-14 | Sonos, Inc. | Tone interference cancellation |
US10482868B2 (en) | 2017-09-28 | 2019-11-19 | Sonos, Inc. | Multi-channel acoustic echo cancellation |
US10466962B2 (en) | 2017-09-29 | 2019-11-05 | Sonos, Inc. | Media playback system with voice assistance |
US10880650B2 (en) | 2017-12-10 | 2020-12-29 | Sonos, Inc. | Network microphone devices with automatic do not disturb actuation capabilities |
US10818290B2 (en) | 2017-12-11 | 2020-10-27 | Sonos, Inc. | Home graph |
WO2019152722A1 (en) | 2018-01-31 | 2019-08-08 | Sonos, Inc. | Device designation of playback and network microphone device arrangements |
US11175880B2 (en) | 2018-05-10 | 2021-11-16 | Sonos, Inc. | Systems and methods for voice-assisted media content selection |
US10847178B2 (en) * | 2018-05-18 | 2020-11-24 | Sonos, Inc. | Linear filtering for noise-suppressed speech detection |
US10959029B2 (en) | 2018-05-25 | 2021-03-23 | Sonos, Inc. | Determining and adapting to changes in microphone performance of playback devices |
US10681460B2 (en) | 2018-06-28 | 2020-06-09 | Sonos, Inc. | Systems and methods for associating playback devices with voice assistant services |
US11076035B2 (en) | 2018-08-28 | 2021-07-27 | Sonos, Inc. | Do not disturb feature for audio notifications |
US10461710B1 (en) | 2018-08-28 | 2019-10-29 | Sonos, Inc. | Media playback system with maximum volume setting |
US10587430B1 (en) | 2018-09-14 | 2020-03-10 | Sonos, Inc. | Networked devices, systems, and methods for associating playback devices based on sound codes |
US11024331B2 (en) | 2018-09-21 | 2021-06-01 | Sonos, Inc. | Voice detection optimization using sound metadata |
US10811015B2 (en) | 2018-09-25 | 2020-10-20 | Sonos, Inc. | Voice detection optimization based on selected voice assistant service |
US11100923B2 (en) | 2018-09-28 | 2021-08-24 | Sonos, Inc. | Systems and methods for selective wake word detection using neural network models |
US10692518B2 (en) | 2018-09-29 | 2020-06-23 | Sonos, Inc. | Linear filtering for noise-suppressed speech detection via multiple network microphone devices |
US10971158B1 (en) * | 2018-10-05 | 2021-04-06 | Facebook, Inc. | Designating assistants in multi-assistant environment based on identified wake word received from a user |
US11899519B2 (en) | 2018-10-23 | 2024-02-13 | Sonos, Inc. | Multiple stage network microphone device with reduced power consumption and processing load |
EP3654249A1 (en) * | 2018-11-15 | 2020-05-20 | Snips | Dilated convolutions and gating for efficient keyword spotting |
US11183183B2 (en) | 2018-12-07 | 2021-11-23 | Sonos, Inc. | Systems and methods of operating media playback systems having multiple voice assistant services |
US11132989B2 (en) | 2018-12-13 | 2021-09-28 | Sonos, Inc. | Networked microphone devices, systems, and methods of localized arbitration |
US10602268B1 (en) | 2018-12-20 | 2020-03-24 | Sonos, Inc. | Optimization of network microphone devices using noise classification |
US10839158B2 (en) * | 2019-01-25 | 2020-11-17 | Motorola Mobility Llc | Dynamically loaded phrase spotting audio-front end |
US10867604B2 (en) | 2019-02-08 | 2020-12-15 | Sonos, Inc. | Devices, systems, and methods for distributed voice processing |
US11315556B2 (en) | 2019-02-08 | 2022-04-26 | Sonos, Inc. | Devices, systems, and methods for distributed voice processing by transmitting sound data associated with a wake word to an appropriate device for identification |
US11444845B1 (en) * | 2019-03-05 | 2022-09-13 | Amazon Technologies, Inc. | Processing requests using compressed and complete machine learning models |
EP4224469A3 (en) | 2019-04-01 | 2023-09-06 | Google LLC | Adaptive management of casting requests and/or user inputs at a rechargeable device |
EP3722158A1 (en) * | 2019-04-10 | 2020-10-14 | Volvo Car Corporation | A voice assistant system |
US11120794B2 (en) | 2019-05-03 | 2021-09-14 | Sonos, Inc. | Voice assistant persistence across multiple network microphone devices |
US11200894B2 (en) | 2019-06-12 | 2021-12-14 | Sonos, Inc. | Network microphone device with command keyword eventing |
US10586540B1 (en) | 2019-06-12 | 2020-03-10 | Sonos, Inc. | Network microphone device with command keyword conditioning |
US11361756B2 (en) | 2019-06-12 | 2022-06-14 | Sonos, Inc. | Conditional wake word eventing based on environment |
EP3785396B1 (en) * | 2019-07-17 | 2022-09-21 | Google LLC | Systems and methods to verify trigger keywords in acoustic-based digital assistant applications |
US10871943B1 (en) | 2019-07-31 | 2020-12-22 | Sonos, Inc. | Noise classification for event detection |
US11138969B2 (en) | 2019-07-31 | 2021-10-05 | Sonos, Inc. | Locally distributed keyword detection |
US11138975B2 (en) | 2019-07-31 | 2021-10-05 | Sonos, Inc. | Locally distributed keyword detection |
KR102629796B1 (ko) * | 2019-10-15 | 2024-01-26 | 삼성전자 주식회사 | 음성 인식의 향상을 지원하는 전자 장치 |
US11189286B2 (en) | 2019-10-22 | 2021-11-30 | Sonos, Inc. | VAS toggle based on device orientation |
US11200900B2 (en) | 2019-12-20 | 2021-12-14 | Sonos, Inc. | Offline voice control |
US20210201928A1 (en) * | 2019-12-31 | 2021-07-01 | Knowles Electronics, Llc | Integrated speech enhancement for voice trigger application |
US11562740B2 (en) | 2020-01-07 | 2023-01-24 | Sonos, Inc. | Voice verification for media playback |
US11556307B2 (en) | 2020-01-31 | 2023-01-17 | Sonos, Inc. | Local voice data processing |
US11790902B2 (en) * | 2020-02-04 | 2023-10-17 | Amazon Technologies, Inc. | Speech-processing system |
US11367445B2 (en) * | 2020-02-05 | 2022-06-21 | Citrix Systems, Inc. | Virtualized speech in a distributed network environment |
US11308958B2 (en) | 2020-02-07 | 2022-04-19 | Sonos, Inc. | Localized wakeword verification |
US11482222B2 (en) * | 2020-03-12 | 2022-10-25 | Motorola Solutions, Inc. | Dynamically assigning wake words |
US11308962B2 (en) | 2020-05-20 | 2022-04-19 | Sonos, Inc. | Input detection windowing |
US11727919B2 (en) | 2020-05-20 | 2023-08-15 | Sonos, Inc. | Memory allocation for keyword spotting engines |
US11482224B2 (en) | 2020-05-20 | 2022-10-25 | Sonos, Inc. | Command keywords with input detection windowing |
CN113744732A (zh) * | 2020-05-28 | 2021-12-03 | 阿里巴巴集团控股有限公司 | 设备唤醒相关方法、装置及故事机 |
CN111768783B (zh) | 2020-06-30 | 2024-04-02 | 北京百度网讯科技有限公司 | 语音交互控制方法、装置、电子设备、存储介质和系统 |
US11698771B2 (en) | 2020-08-25 | 2023-07-11 | Sonos, Inc. | Vocal guidance engines for playback devices |
KR20220037819A (ko) * | 2020-09-18 | 2022-03-25 | 엘지전자 주식회사 | 복수의 기동어를 인식하는 인공 지능 장치 및 그 방법 |
US11557292B1 (en) * | 2020-10-21 | 2023-01-17 | Amazon Technologies, Inc. | Speech command verification |
US11164084B1 (en) * | 2020-11-11 | 2021-11-02 | DeepCube LTD. | Cluster-connected neural network |
US11984123B2 (en) | 2020-11-12 | 2024-05-14 | Sonos, Inc. | Network device interaction by range |
WO2022122121A1 (en) * | 2020-12-08 | 2022-06-16 | Huawei Technologies Co., Ltd. | End-to-end streaming acoustic trigger apparatus and method |
CN112712801B (zh) * | 2020-12-14 | 2024-02-02 | 北京有竹居网络技术有限公司 | 一种语音唤醒方法、装置、电子设备及存储介质 |
US11551700B2 (en) | 2021-01-25 | 2023-01-10 | Sonos, Inc. | Systems and methods for power-efficient keyword detection |
US11657818B2 (en) * | 2021-03-10 | 2023-05-23 | GM Global Technology Operations LLC | Multi-assistant control |
US20220399007A1 (en) * | 2021-06-11 | 2022-12-15 | Harman International Industries, Incorporated | System and method for robust wakeword detection in presence of noise in new unseen environments without additional data |
US20230099144A1 (en) * | 2021-09-30 | 2023-03-30 | Sonos, Inc. | Enabling and Disabling Microphones and Voice Assistants |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102999161A (zh) * | 2012-11-13 | 2013-03-27 | 安徽科大讯飞信息科技股份有限公司 | 一种语音唤醒模块的实现方法及应用 |
CN106030699A (zh) * | 2014-10-09 | 2016-10-12 | 谷歌公司 | 多个设备上的热词检测 |
CN107767863A (zh) * | 2016-08-22 | 2018-03-06 | 科大讯飞股份有限公司 | 语音唤醒方法、系统及智能终端 |
CN107832837A (zh) * | 2017-11-28 | 2018-03-23 | 南京大学 | 一种基于压缩感知原理的卷积神经网络压缩方法及解压缩方法 |
CN107919116A (zh) * | 2016-10-11 | 2018-04-17 | 芋头科技(杭州)有限公司 | 一种语音激活检测方法及装置 |
CN108198548A (zh) * | 2018-01-25 | 2018-06-22 | 苏州奇梦者网络科技有限公司 | 一种语音唤醒方法及其系统 |
US20180204569A1 (en) * | 2017-01-17 | 2018-07-19 | Ford Global Technologies, Llc | Voice Assistant Tracking And Activation |
US20180277113A1 (en) * | 2017-03-27 | 2018-09-27 | Sonos, Inc. | Systems and Methods of Multiple Voice Services |
Family Cites Families (1207)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US999715A (en) | 1911-05-31 | 1911-08-01 | Hans Gundersen | Flying-machine. |
US4941187A (en) | 1984-02-03 | 1990-07-10 | Slater Robert W | Intercom apparatus for integrating disparate audio sources for use in light aircraft or similar high noise environments |
US4741038A (en) | 1986-09-26 | 1988-04-26 | American Telephone And Telegraph Company, At&T Bell Laboratories | Sound location arrangement |
JPS63301998A (ja) | 1987-06-02 | 1988-12-08 | 日本電気株式会社 | 音声認識応答装置 |
US4974213A (en) | 1988-12-16 | 1990-11-27 | Siwecki Thomas L | Passive active underwater sound detection apparatus |
US5036538A (en) | 1989-11-22 | 1991-07-30 | Telephonics Corporation | Multi-station voice recognition and processing system |
US5440644A (en) | 1991-01-09 | 1995-08-08 | Square D Company | Audio distribution system having programmable zoning features |
DE69220342T2 (de) | 1991-12-20 | 1997-11-20 | Matsushita Electric Ind Co Ltd | Lautsprecherapparat zur Basswiedergabe |
US6311157B1 (en) | 1992-12-31 | 2001-10-30 | Apple Computer, Inc. | Assigning meanings to utterances in a speech recognition system |
JPH0883091A (ja) | 1994-09-09 | 1996-03-26 | Matsushita Electric Ind Co Ltd | 音声認識装置 |
US5740260A (en) | 1995-05-22 | 1998-04-14 | Presonus L.L.P. | Midi to analog sound processor interface |
US6070140A (en) | 1995-06-05 | 2000-05-30 | Tran; Bao Q. | Speech recognizer |
US5857172A (en) | 1995-07-31 | 1999-01-05 | Microsoft Corporation | Activation control of a speech recognizer through use of a pointing device |
US7174299B2 (en) | 1995-08-18 | 2007-02-06 | Canon Kabushiki Kaisha | Speech recognition system, speech recognition apparatus, and speech recognition method |
FR2739736B1 (fr) | 1995-10-05 | 1997-12-05 | Jean Laroche | Procede de reduction des pre-echos ou post-echos affectant des enregistrements audio |
JP3094900B2 (ja) | 1996-02-20 | 2000-10-03 | ヤマハ株式会社 | ネットワーク機器およびデータ送受信方法 |
US6404811B1 (en) | 1996-05-13 | 2002-06-11 | Tektronix, Inc. | Interactive multimedia system |
JP3679526B2 (ja) | 1996-10-31 | 2005-08-03 | キヤノン株式会社 | 画像共有装置、画面制御方法及びコンピュータ可読メモリ |
US6469633B1 (en) | 1997-01-06 | 2002-10-22 | Openglobe Inc. | Remote control of electronic devices |
US6078886A (en) | 1997-04-14 | 2000-06-20 | At&T Corporation | System and method for providing remote automatic speech recognition services via a packet network |
US6611537B1 (en) | 1997-05-30 | 2003-08-26 | Centillium Communications, Inc. | Synchronous network for digital media streams |
US6408078B1 (en) | 1997-10-30 | 2002-06-18 | Maximilian Hobelsberger | Active reactive acoustical elements |
US6088459A (en) | 1997-10-30 | 2000-07-11 | Hobelsberger; Maximilian Hans | Loudspeaker system with simulated baffle for improved base reproduction |
US6032202A (en) | 1998-01-06 | 2000-02-29 | Sony Corporation Of Japan | Home audio/video network with two level device control |
US20020002039A1 (en) | 1998-06-12 | 2002-01-03 | Safi Qureshey | Network-enabled audio device |
US6301603B1 (en) | 1998-02-17 | 2001-10-09 | Euphonics Incorporated | Scalable audio processing on a heterogeneous processor array |
US6953886B1 (en) | 1998-06-17 | 2005-10-11 | Looney Productions, Llc | Media organizer and entertainment center |
IL127569A0 (en) | 1998-09-16 | 1999-10-28 | Comsense Technologies Ltd | Interactive toys |
US6839410B2 (en) | 1998-09-01 | 2005-01-04 | At&T Corp. | Method and apparatus for setting user communication parameters based on voice identification of users |
JP2002527800A (ja) | 1998-10-02 | 2002-08-27 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 会話ブラウザおよび会話システム |
US20020116196A1 (en) * | 1998-11-12 | 2002-08-22 | Tran Bao Q. | Speech recognizer |
US6243676B1 (en) | 1998-12-23 | 2001-06-05 | Openwave Systems Inc. | Searching and retrieving multimedia information |
US7130616B2 (en) | 2000-04-25 | 2006-10-31 | Simple Devices | System and method for providing content, management, and interactivity for client devices |
US6256554B1 (en) | 1999-04-14 | 2001-07-03 | Dilorenzo Mark | Multi-room entertainment system with in-room media player/dispenser |
US6414251B1 (en) | 1999-04-19 | 2002-07-02 | Breck Colquett | Weighing apparatus and method having automatic tolerance analysis and calibration |
US7657910B1 (en) | 1999-07-26 | 2010-02-02 | E-Cast Inc. | Distributed electronic entertainment method and apparatus |
GB2352933A (en) | 1999-07-31 | 2001-02-07 | Ibm | Speech encoding in a client server system |
US6542868B1 (en) | 1999-09-23 | 2003-04-01 | International Business Machines Corporation | Audio notification management system |
US6937977B2 (en) | 1999-10-05 | 2005-08-30 | Fastmobile, Inc. | Method and apparatus for processing an input speech signal during presentation of an output audio signal |
US6611604B1 (en) | 1999-10-22 | 2003-08-26 | Stillwater Designs & Audio, Inc. | Ultra low frequency transducer and loud speaker comprising same |
US7725307B2 (en) | 1999-11-12 | 2010-05-25 | Phoenix Solutions, Inc. | Query engine for processing voice based queries including semantic decoding |
US6594630B1 (en) | 1999-11-19 | 2003-07-15 | Voice Signal Technologies, Inc. | Voice-activated control for electrical device |
US6522886B1 (en) | 1999-11-22 | 2003-02-18 | Qwest Communications International Inc. | Method and system for simultaneously sharing wireless communications among multiple wireless handsets |
US6219645B1 (en) | 1999-12-02 | 2001-04-17 | Lucent Technologies, Inc. | Enhanced automatic speech recognition using multiple directional microphones |
EP1104968B1 (en) | 1999-12-03 | 2007-02-14 | Telefonaktiebolaget LM Ericsson (publ) | A method of simultaneously playing back audio files in two telephones |
KR20010054622A (ko) | 1999-12-07 | 2001-07-02 | 서평원 | 음성 인식 시스템의 음성 인식률 향상 방법 |
US20010042107A1 (en) | 2000-01-06 | 2001-11-15 | Palm Stephen R. | Networked audio player transport protocol and architecture |
US7661107B1 (en) | 2000-01-18 | 2010-02-09 | Advanced Micro Devices, Inc. | Method and apparatus for dynamic allocation of processing resources |
WO2001053994A2 (en) | 2000-01-24 | 2001-07-26 | Friskit, Inc. | Streaming media search and playback system |
WO2001053963A1 (en) | 2000-01-24 | 2001-07-26 | Zapmedia, Inc. | System and method for the distribution and sharing of media assets between media players devices |
AU2001237673A1 (en) | 2000-02-18 | 2001-08-27 | Bridgeco Ag | Reference time distribution over a network |
JP2001236093A (ja) | 2000-02-24 | 2001-08-31 | Omron Corp | 電子機器制御装置および電子機器 |
US8645137B2 (en) | 2000-03-16 | 2014-02-04 | Apple Inc. | Fast, language-independent method for user authentication by voice |
US6631410B1 (en) | 2000-03-16 | 2003-10-07 | Sharp Laboratories Of America, Inc. | Multimedia wired/wireless content synchronization system and method |
US20020022453A1 (en) | 2000-03-31 | 2002-02-21 | Horia Balog | Dynamic protocol selection and routing of content to mobile devices |
GB2363036B (en) | 2000-05-31 | 2004-05-12 | Nokia Mobile Phones Ltd | Conference call method and apparatus therefor |
US20050164664A1 (en) | 2000-07-21 | 2005-07-28 | Difonzo Daniel F. | Dynamically reconfigurable wireless networks (DRWiN) and methods for operating such networks |
US20040105566A1 (en) | 2000-07-27 | 2004-06-03 | International Business Machines Corporation | Body set type speaker unit |
WO2002023389A1 (en) | 2000-09-15 | 2002-03-21 | Robert Fish | Systems and methods for translating an item of information using a distal computer |
US6934756B2 (en) | 2000-11-01 | 2005-08-23 | International Business Machines Corporation | Conversational networking via transport, coding and control conversational protocols |
US20020054685A1 (en) | 2000-11-09 | 2002-05-09 | Carlos Avendano | System for suppressing acoustic echoes and interferences in multi-channel audio systems |
US20020072816A1 (en) | 2000-12-07 | 2002-06-13 | Yoav Shdema | Audio system |
US7016847B1 (en) | 2000-12-08 | 2006-03-21 | Ben Franklin Patent Holdings L.L.C. | Open architecture for a voice user interface |
US6778869B2 (en) | 2000-12-11 | 2004-08-17 | Sony Corporation | System and method for request, delivery and use of multimedia files for audiovisual entertainment in the home environment |
US7143939B2 (en) | 2000-12-19 | 2006-12-05 | Intel Corporation | Wireless music device and method therefor |
US20020124097A1 (en) | 2000-12-29 | 2002-09-05 | Isely Larson J. | Methods, systems and computer program products for zone based distribution of audio signals |
US7617099B2 (en) | 2001-02-12 | 2009-11-10 | FortMedia Inc. | Noise suppression by two-channel tandem spectrum modification for speech signal in an automobile |
GB2372864B (en) | 2001-02-28 | 2005-09-07 | Vox Generation Ltd | Spoken language interface |
US6885989B2 (en) | 2001-04-02 | 2005-04-26 | International Business Machines Corporation | Method and system for collaborative speech recognition for small-area network |
US6757517B2 (en) | 2001-05-10 | 2004-06-29 | Chin-Chi Chang | Apparatus and method for coordinated music playback in wireless ad-hoc networks |
US7136934B2 (en) | 2001-06-19 | 2006-11-14 | Request, Inc. | Multimedia synchronization method and device |
KR100420069B1 (ko) | 2001-08-23 | 2004-02-25 | 한국과학기술원 | 인지 특성을 반영한 메뉴 설계 및 아이템 제시방법 |
US6892083B2 (en) | 2001-09-05 | 2005-05-10 | Vocera Communications Inc. | Voice-controlled wireless communications system and method |
US7536704B2 (en) | 2001-10-05 | 2009-05-19 | Opentv, Inc. | Method and apparatus automatic pause and resume of playback for a popup on interactive TV |
CA2408045A1 (en) | 2001-10-16 | 2003-04-16 | Audio Products International Corp. | Loudspeaker with large displacement motional feedback |
CA2407123C (en) | 2001-10-16 | 2007-12-18 | Audio Products International Corp. | Low distortion loudspeaker cone suspension |
US7006639B2 (en) | 2001-11-20 | 2006-02-28 | Maximilian Hans Hobelsberger | Active noise-attenuating duct element |
US7103542B2 (en) | 2001-12-14 | 2006-09-05 | Ben Franklin Patent Holding Llc | Automatically improving a voice recognition system |
US7391791B2 (en) | 2001-12-17 | 2008-06-24 | Implicit Networks, Inc. | Method and system for synchronization of content rendering |
DE10163213A1 (de) | 2001-12-21 | 2003-07-10 | Philips Intellectual Property | Verfahren zum Betrieb eines Spracherkennungssystems |
US8103009B2 (en) | 2002-01-25 | 2012-01-24 | Ksc Industries, Inc. | Wired, wireless, infrared, and powerline audio entertainment systems |
US7853341B2 (en) | 2002-01-25 | 2010-12-14 | Ksc Industries, Inc. | Wired, wireless, infrared, and powerline audio entertainment systems |
JP4086280B2 (ja) | 2002-01-29 | 2008-05-14 | 株式会社東芝 | 音声入力システム、音声入力方法及び音声入力プログラム |
AU2003216319A1 (en) | 2002-02-20 | 2003-09-09 | Meshnetworks, Inc. | A system and method for routing 802.11 data traffic across channels to increase ad-hoc network capacity |
JP3715584B2 (ja) | 2002-03-28 | 2005-11-09 | 富士通株式会社 | 機器制御装置および機器制御方法 |
CA2485100C (en) | 2002-05-06 | 2012-10-09 | David Goldberg | Localized audio networks and associated digital accessories |
US7643894B2 (en) | 2002-05-09 | 2010-01-05 | Netstreams Llc | Audio network distribution system |
US6961423B2 (en) | 2002-06-24 | 2005-11-01 | Freescale Semiconductor, Inc. | Method and apparatus for performing adaptive filtering |
JP3815388B2 (ja) | 2002-06-25 | 2006-08-30 | 株式会社デンソー | 音声認識システムおよび端末 |
US8060225B2 (en) | 2002-07-31 | 2011-11-15 | Hewlett-Packard Development Company, L. P. | Digital audio device |
EP1389853B1 (en) | 2002-08-14 | 2006-03-29 | Sony Deutschland GmbH | Bandwidth oriented reconfiguration of wireless ad hoc networks |
JP3910898B2 (ja) | 2002-09-17 | 2007-04-25 | 株式会社東芝 | 指向性設定装置、指向性設定方法及び指向性設定プログラム |
US7228275B1 (en) | 2002-10-21 | 2007-06-05 | Toyota Infotechnology Center Co., Ltd. | Speech recognition system having multiple speech recognizers |
JP2004163590A (ja) | 2002-11-12 | 2004-06-10 | Denso Corp | 再生装置及びプログラム |
KR20040042242A (ko) | 2002-11-13 | 2004-05-20 | 삼성전자주식회사 | 홈서버를 이용하는 홈로봇 및 이를 포함하는 홈네트워크시스템 |
US7295548B2 (en) | 2002-11-27 | 2007-11-13 | Microsoft Corporation | Method and system for disaggregating audio/visual components |
CN100392723C (zh) | 2002-12-11 | 2008-06-04 | 索夫塔马克斯公司 | 在稳定性约束下使用独立分量分析的语音处理系统和方法 |
US7076428B2 (en) | 2002-12-30 | 2006-07-11 | Motorola, Inc. | Method and apparatus for selective distributed speech recognition |
KR100668297B1 (ko) | 2002-12-31 | 2007-01-12 | 삼성전자주식회사 | 음성인식방법 및 장치 |
US6823050B2 (en) | 2003-02-13 | 2004-11-23 | International Business Machines Corporation | System and method for interfacing with a personal telephony recorder |
CA2518121A1 (en) | 2003-03-03 | 2004-09-16 | America Online, Inc. | Source audio identifiers for digital communications |
JP2004347943A (ja) | 2003-05-23 | 2004-12-09 | Clarion Co Ltd | データ処理装置、楽曲再生装置、データ処理装置の制御プログラムおよび楽曲再生装置の制御プログラム |
JP2004354721A (ja) | 2003-05-29 | 2004-12-16 | Shimizu Corp | 音声制御装置、音声制御方法および音声制御プログラム |
US7571014B1 (en) | 2004-04-01 | 2009-08-04 | Sonos, Inc. | Method and apparatus for controlling multimedia players in a multi-zone system |
US8290603B1 (en) | 2004-06-05 | 2012-10-16 | Sonos, Inc. | User interfaces for controlling and manipulating groupings in a multi-zone media system |
US7961892B2 (en) | 2003-07-28 | 2011-06-14 | Texas Instruments Incorporated | Apparatus and method for monitoring speaker cone displacement in an audio speaker |
US10613817B2 (en) | 2003-07-28 | 2020-04-07 | Sonos, Inc. | Method and apparatus for displaying a list of tracks scheduled for playback by a synchrony group |
US8234395B2 (en) | 2003-07-28 | 2012-07-31 | Sonos, Inc. | System and method for synchronizing operations among a plurality of independently clocked digital data processing devices |
US20050031139A1 (en) | 2003-08-07 | 2005-02-10 | Tymphany Corporation | Position detection of an actuator using impedance |
US20060104451A1 (en) | 2003-08-07 | 2006-05-18 | Tymphany Corporation | Audio reproduction system |
US20050031138A1 (en) | 2003-08-07 | 2005-02-10 | Tymphany Corporation | Method of measuring a cant of an actuator |
US20050031132A1 (en) | 2003-08-07 | 2005-02-10 | Tymphany Corporation | Control system |
US20050031140A1 (en) | 2003-08-07 | 2005-02-10 | Tymphany Corporation | Position detection of an actuator using a capacitance measurement |
US20050031133A1 (en) | 2003-08-07 | 2005-02-10 | Tymphany Corporation | Process for position indication |
US20050031131A1 (en) | 2003-08-07 | 2005-02-10 | Tymphany Corporation | Method of modifying dynamics of a system |
US20050031137A1 (en) | 2003-08-07 | 2005-02-10 | Tymphany Corporation | Calibration of an actuator |
US20050031134A1 (en) | 2003-08-07 | 2005-02-10 | Tymphany Corporation | Position detection of an actuator using infrared light |
KR20050023841A (ko) | 2003-09-03 | 2005-03-10 | 삼성전자주식회사 | 비선형 왜곡 저감 방법 및 장치 |
US7099821B2 (en) | 2003-09-12 | 2006-08-29 | Softmax, Inc. | Separation of target acoustic signals in a multi-transducer arrangement |
US20050077843A1 (en) | 2003-10-11 | 2005-04-14 | Ronnie Benditt | Method and apparatus for controlling a performing arts show by an onstage performer |
EP1680942A1 (en) | 2003-10-24 | 2006-07-19 | Koninklijke Philips Electronics N.V. | Adaptive sound reproduction |
DE602004021716D1 (de) | 2003-11-12 | 2009-08-06 | Honda Motor Co Ltd | Spracherkennungssystem |
US7705565B2 (en) | 2003-12-31 | 2010-04-27 | Motorola, Inc. | Method and system for wireless charging |
US7707039B2 (en) | 2004-02-15 | 2010-04-27 | Exbiblio B.V. | Automatic modification of web pages |
JP4269973B2 (ja) | 2004-02-27 | 2009-05-27 | 株式会社デンソー | カーオーディオシステム |
US7483538B2 (en) | 2004-03-02 | 2009-01-27 | Ksc Industries, Inc. | Wireless and wired speaker hub for a home theater system |
US7415117B2 (en) | 2004-03-02 | 2008-08-19 | Microsoft Corporation | System and method for beamforming using a microphone array |
JP4059214B2 (ja) | 2004-03-04 | 2008-03-12 | ソニー株式会社 | 情報再生システムの制御方法、情報再生システム、情報提供装置、および情報提供プログラム |
US10200504B2 (en) | 2007-06-12 | 2019-02-05 | Icontrol Networks, Inc. | Communication protocols over internet protocol (IP) networks |
US7372966B2 (en) | 2004-03-19 | 2008-05-13 | Nokia Corporation | System for limiting loudspeaker displacement |
JP2005284492A (ja) | 2004-03-29 | 2005-10-13 | Mitsubishi Electric Corp | 音声利用操作装置 |
US7630501B2 (en) | 2004-05-14 | 2009-12-08 | Microsoft Corporation | System and method for calibration of an acoustic system |
US7792311B1 (en) | 2004-05-15 | 2010-09-07 | Sonos, Inc., | Method and apparatus for automatically enabling subwoofer channel audio based on detection of subwoofer device |
US7346846B2 (en) | 2004-05-28 | 2008-03-18 | Microsoft Corporation | Strategies for providing just-in-time user assistance |
US7006938B2 (en) | 2004-06-16 | 2006-02-28 | Ami Semiconductor, Inc. | Reactive sensor modules using Pade' Approximant based compensation and providing module-sourced excitation |
US7672845B2 (en) | 2004-06-22 | 2010-03-02 | International Business Machines Corporation | Method and system for keyword detection using voice-recognition |
US20060004834A1 (en) | 2004-06-30 | 2006-01-05 | Nokia Corporation | Dynamic shortcuts |
JP2006092482A (ja) | 2004-09-27 | 2006-04-06 | Yamaha Corp | 音声認識通報装置 |
US7720232B2 (en) | 2004-10-15 | 2010-05-18 | Lifesize Communications, Inc. | Speakerphone |
US8386523B2 (en) | 2004-12-30 | 2013-02-26 | Texas Instruments Incorporated | Random access audio decoder |
TWI272860B (en) | 2005-01-03 | 2007-02-01 | Lite On Technology Corp | Audio receiver and volume reminder method |
US20070189544A1 (en) | 2005-01-15 | 2007-08-16 | Outland Research, Llc | Ambient sound responsive media player |
US8396213B2 (en) | 2005-01-21 | 2013-03-12 | Certicom Corp. | Elliptic curve random number generation |
US20060190968A1 (en) | 2005-01-31 | 2006-08-24 | Searete Llc, A Limited Corporation Of The State Of The State Of Delaware | Sharing between shared audio devices |
EP1715669A1 (en) | 2005-04-19 | 2006-10-25 | Ecole Polytechnique Federale De Lausanne (Epfl) | A method for removing echo in an audio signal |
US8594320B2 (en) | 2005-04-19 | 2013-11-26 | (Epfl) Ecole Polytechnique Federale De Lausanne | Hybrid echo and noise suppression method and device in a multi-channel audio signal |
US7991167B2 (en) | 2005-04-29 | 2011-08-02 | Lifesize Communications, Inc. | Forming beams with nulls directed at noise sources |
US7720684B2 (en) | 2005-04-29 | 2010-05-18 | Nuance Communications, Inc. | Method, apparatus, and computer program product for one-step correction of voice interaction |
US9300790B2 (en) | 2005-06-24 | 2016-03-29 | Securus Technologies, Inc. | Multi-party conversation analyzer and logger |
JP4760160B2 (ja) | 2005-06-29 | 2011-08-31 | ヤマハ株式会社 | 集音装置 |
JP4804052B2 (ja) | 2005-07-08 | 2011-10-26 | アルパイン株式会社 | 音声認識装置、音声認識装置を備えたナビゲーション装置及び音声認識装置の音声認識方法 |
US20070018844A1 (en) | 2005-07-19 | 2007-01-25 | Sehat Sutardja | Two way remote control |
JP4285457B2 (ja) | 2005-07-20 | 2009-06-24 | ソニー株式会社 | 音場測定装置及び音場測定方法 |
WO2007013622A1 (ja) | 2005-07-29 | 2007-02-01 | Matsushita Electric Industrial Co., Ltd. | スピーカ装置 |
CN1909625A (zh) | 2005-08-05 | 2007-02-07 | 鸿富锦精密工业(深圳)有限公司 | 一种自动调整音量的电视装置及控制方法 |
US20090076821A1 (en) | 2005-08-19 | 2009-03-19 | Gracenote, Inc. | Method and apparatus to control operation of a playback device |
US20070060054A1 (en) | 2005-09-15 | 2007-03-15 | Sony Ericsson Mobile Communications Ab | Wireless home communication system method and apparatus |
JP4519041B2 (ja) | 2005-09-20 | 2010-08-04 | ローランド株式会社 | 楽器用スピーカ装置 |
EP1952177A2 (en) | 2005-09-21 | 2008-08-06 | Koninklijke Philips Electronics N.V. | Ultrasound imaging system with voice activated controls usiong remotely positioned microphone |
WO2007051493A1 (en) | 2005-11-07 | 2007-05-10 | Telecom Italia S.P.A. | Method for managing a conference call in a telephone network |
JP4929685B2 (ja) | 2005-11-15 | 2012-05-09 | ヤマハ株式会社 | 遠隔会議装置 |
WO2007058130A1 (ja) | 2005-11-15 | 2007-05-24 | Yamaha Corporation | 遠隔会議装置及び放収音装置 |
US20070140058A1 (en) | 2005-11-21 | 2007-06-21 | Motorola, Inc. | Method and system for correcting transducer non-linearities |
US7600194B2 (en) | 2005-12-02 | 2009-10-06 | Microsoft Corporation | Start menu operation for computer user interface |
JP2007174233A (ja) | 2005-12-21 | 2007-07-05 | Pioneer Electronic Corp | スピーカー装置及び携帯電話機 |
JP4677341B2 (ja) | 2005-12-21 | 2011-04-27 | パイオニア株式会社 | スピーカー装置及び携帯電話機 |
US20160066087A1 (en) | 2006-01-30 | 2016-03-03 | Ludger Solbach | Joint noise suppression and acoustic echo cancellation |
KR100762636B1 (ko) | 2006-02-14 | 2007-10-01 | 삼성전자주식회사 | 네트워크 단말의 음성 검출 제어 시스템 및 방법 |
JP4422692B2 (ja) | 2006-03-03 | 2010-02-24 | 日本電信電話株式会社 | 伝達経路推定方法、残響除去方法、音源分離方法、これらの装置、プログラム、記録媒体 |
WO2007103937A2 (en) | 2006-03-06 | 2007-09-13 | General Innovations, Inc. | Positionally sequenced loudspeaker system |
EP2005319B1 (en) | 2006-04-04 | 2017-01-11 | Johnson Controls Technology Company | System and method for extraction of meta data from a digital media storage device for media selection in a vehicle |
EP1848243B1 (en) | 2006-04-18 | 2009-02-18 | Harman/Becker Automotive Systems GmbH | Multi-channel echo compensation system and method |
KR100786108B1 (ko) | 2006-05-01 | 2007-12-18 | 김준식 | 음파통신 네트워크 |
US9208785B2 (en) | 2006-05-10 | 2015-12-08 | Nuance Communications, Inc. | Synchronizing distributed speech recognition |
ATE436151T1 (de) | 2006-05-10 | 2009-07-15 | Harman Becker Automotive Sys | Kompensation von mehrkanalechos durch dekorrelation |
US8041057B2 (en) | 2006-06-07 | 2011-10-18 | Qualcomm Incorporated | Mixing techniques for mixing audio |
JP4984683B2 (ja) | 2006-06-29 | 2012-07-25 | ヤマハ株式会社 | 放収音装置 |
US8207936B2 (en) | 2006-06-30 | 2012-06-26 | Sony Ericsson Mobile Communications Ab | Voice remote control |
US8189765B2 (en) | 2006-07-06 | 2012-05-29 | Panasonic Corporation | Multichannel echo canceller |
US20080037814A1 (en) | 2006-08-09 | 2008-02-14 | Jeng-Jye Shau | Precision audio speakers |
US8428278B2 (en) | 2006-08-10 | 2013-04-23 | Claudio Lastrucci | Improvements to systems for acoustic diffusion |
US10013381B2 (en) | 2006-08-31 | 2018-07-03 | Bose Corporation | Media playing from a docked handheld media device |
US8483853B1 (en) | 2006-09-12 | 2013-07-09 | Sonos, Inc. | Controlling and manipulating groupings in a multi-zone media system |
US8473618B2 (en) | 2006-09-19 | 2013-06-25 | Motorola Solutions, Inc. | Method and system for processing multiple communication sessions in a communication network |
JP2008079256A (ja) | 2006-09-25 | 2008-04-03 | Toshiba Corp | 音響信号処理装置、音響信号処理方法及びプログラム |
US8073681B2 (en) | 2006-10-16 | 2011-12-06 | Voicebox Technologies, Inc. | System and method for a cooperative conversational voice user interface |
US7747293B2 (en) | 2006-10-17 | 2010-06-29 | Marvell Worl Trade Ltd. | Display control for cellular phone |
JP2010507294A (ja) | 2006-10-17 | 2010-03-04 | アベガ システムズ ピーティーワイ リミテッド | マルチメディアデバイスの統合 |
TWI435591B (zh) | 2006-10-17 | 2014-04-21 | Marvell World Trade Ltd | 用於蜂巢電話之顯示控制 |
US8391501B2 (en) | 2006-12-13 | 2013-03-05 | Motorola Mobility Llc | Method and apparatus for mixing priority and non-priority audio signals |
US9124650B2 (en) | 2006-12-13 | 2015-09-01 | Quickplay Media Inc. | Digital rights management in a mobile environment |
US20080146289A1 (en) | 2006-12-14 | 2008-06-19 | Motorola, Inc. | Automatic audio transducer adjustments based upon orientation of a mobile communication device |
JP2008158868A (ja) | 2006-12-25 | 2008-07-10 | Toyota Motor Corp | 移動体、及びその制御方法 |
US7973857B2 (en) | 2006-12-27 | 2011-07-05 | Nokia Corporation | Teleconference group formation using context information |
US20090013255A1 (en) | 2006-12-30 | 2009-01-08 | Matthew John Yuschik | Method and System for Supporting Graphical User Interfaces |
KR101316750B1 (ko) | 2007-01-23 | 2013-10-08 | 삼성전자주식회사 | 수신된 위치 정보에 따라 오디오 파일을 재생하는 장치 및그 방법 |
TW200833152A (en) | 2007-01-31 | 2008-08-01 | Bluepacket Comm Co Ltd | Multimedia switching system |
WO2008096414A1 (ja) | 2007-02-06 | 2008-08-14 | Pioneer Corporation | コンテンツ取得装置、コンテンツ取得方法、コンテンツ取得プログラムおよび記録媒体 |
US20090228919A1 (en) | 2007-11-16 | 2009-09-10 | Zott Joseph A | Media playlist management and viewing remote control |
US20080208594A1 (en) | 2007-02-27 | 2008-08-28 | Cross Charles W | Effecting Functions On A Multimodal Telephony Device |
JP4728982B2 (ja) | 2007-03-05 | 2011-07-20 | 株式会社東芝 | 利用者と対話する装置、方法およびプログラム |
US8996379B2 (en) | 2007-03-07 | 2015-03-31 | Vlingo Corporation | Speech recognition text entry for software applications |
US8635243B2 (en) | 2007-03-07 | 2014-01-21 | Research In Motion Limited | Sending a communications header with voice recording to send metadata for use in speech recognition, formatting, and search mobile search application |
US8886545B2 (en) | 2007-03-07 | 2014-11-11 | Vlingo Corporation | Dealing with switch latency in speech recognition |
US8019076B1 (en) | 2007-03-14 | 2011-09-13 | Clearone Communications, Inc. | Portable speakerphone device and subsystem utilizing false doubletalk detection |
GB0706074D0 (en) | 2007-03-28 | 2007-05-09 | Skype Ltd | Detection of communication states |
US8977255B2 (en) | 2007-04-03 | 2015-03-10 | Apple Inc. | Method and system for operating a multi-function portable electronic device using voice-activation |
US8983051B2 (en) | 2007-04-03 | 2015-03-17 | William F. Barton | Outgoing call classification and disposition |
US8406439B1 (en) | 2007-04-04 | 2013-03-26 | At&T Intellectual Property I, L.P. | Methods and systems for synthetic audio placement |
US8848879B1 (en) | 2007-05-03 | 2014-09-30 | Avaya Inc. | Customizable notification based on recent communication history |
US8032383B1 (en) | 2007-05-04 | 2011-10-04 | Foneweb, Inc. | Speech controlled services and devices using internet |
US8041565B1 (en) | 2007-05-04 | 2011-10-18 | Foneweb, Inc. | Precision speech to text conversion |
KR100827613B1 (ko) | 2007-05-04 | 2008-05-07 | 삼성전자주식회사 | 휴대용 단말기의 마이크 제어 장치 및 방법 |
US8136040B2 (en) | 2007-05-16 | 2012-03-13 | Apple Inc. | Audio variance for multiple windows |
BRPI0810285A2 (pt) | 2007-05-18 | 2014-12-30 | Shorthand Mobile Inc | "sistema e processo para comunicações aperfeiçoadas via sistemas de comunicação de pequena taxa de dados" |
US20080291916A1 (en) | 2007-05-22 | 2008-11-27 | Bo Xiong | Systems and methods for dynamic quality of service |
EP1998446A1 (en) | 2007-05-31 | 2008-12-03 | Alcatel Lucent | Remote control for devices with connectivity to a service delivery platform |
US8068925B2 (en) | 2007-06-28 | 2011-11-29 | Apple Inc. | Dynamic routing of audio among multiple audio devices |
JP4985151B2 (ja) | 2007-06-29 | 2012-07-25 | ヤマハ株式会社 | コンテンツ配信システム及びセンタ装置 |
JP4916394B2 (ja) | 2007-07-03 | 2012-04-11 | 富士通株式会社 | エコー抑圧装置、エコー抑圧方法及びコンピュータプログラム |
WO2009020617A1 (en) | 2007-08-06 | 2009-02-12 | Orison Corporation | System and method for three-dimensional ultrasound imaging |
US20090046866A1 (en) | 2007-08-15 | 2009-02-19 | Fortemedia, Inc. | Apparatus capable of performing acoustic echo cancellation and a method thereof |
US8073125B2 (en) | 2007-09-25 | 2011-12-06 | Microsoft Corporation | Spatial audio conferencing |
US7844724B2 (en) | 2007-10-24 | 2010-11-30 | Social Communications Company | Automated real-time data stream switching in a shared virtual area communication environment |
US8639214B1 (en) | 2007-10-26 | 2014-01-28 | Iwao Fujisaki | Communication device |
US8013720B2 (en) | 2007-11-02 | 2011-09-06 | Reverse Control, Inc. | Signal apparatus for facilitating safe backup of vehicles |
CN101584225B (zh) | 2007-11-20 | 2013-11-06 | 松下电器产业株式会社 | 扬声器、视频设备、以及便携式信息处理装置 |
US9247346B2 (en) | 2007-12-07 | 2016-01-26 | Northern Illinois Research Foundation | Apparatus, system and method for noise cancellation and communication for incubators and related devices |
US20090153289A1 (en) | 2007-12-12 | 2009-06-18 | Eric James Hope | Handheld electronic devices with bimodal remote control functionality |
US9386154B2 (en) | 2007-12-21 | 2016-07-05 | Nuance Communications, Inc. | System, method and software program for enabling communications between customer service agents and users of communication devices |
US8473081B2 (en) | 2007-12-25 | 2013-06-25 | Personics Holdings, Inc. | Method and system for event reminder using an earpiece |
US8423893B2 (en) | 2008-01-07 | 2013-04-16 | Altec Lansing Australia Pty Limited | User interface for managing the operation of networked media playback devices |
US9992314B2 (en) | 2008-01-24 | 2018-06-05 | Garmin Switzerland Gmbh | Automatic device mode switching |
DE102008039329A1 (de) | 2008-01-25 | 2009-07-30 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Vorrichtung und Verfahren zur Berechnung von Steuerinformationen für ein Echounterdrückungsfilter und Vorrichtung und Verfahren zur Berechnung eines Verzögerungswerts |
DE102008039330A1 (de) | 2008-01-31 | 2009-08-13 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Vorrichtung und Verfahren zum Berechnen von Filterkoeffizienten zur Echounterdrückung |
US8072905B2 (en) | 2008-02-04 | 2011-12-06 | Sony Ericsson Mobile Communications Ab | Intelligent interaction between devices in a local network |
US8213598B2 (en) | 2008-02-26 | 2012-07-03 | Microsoft Corporation | Harmonic distortion residual echo suppression |
US8638908B2 (en) | 2008-02-28 | 2014-01-28 | Computer Products Introductions, Corp | Contextual conversation processing in telecommunication applications |
US8194882B2 (en) | 2008-02-29 | 2012-06-05 | Audience, Inc. | System and method for providing single microphone noise suppression fallback |
US8255224B2 (en) | 2008-03-07 | 2012-08-28 | Google Inc. | Voice recognition grammar selection based on context |
US9113240B2 (en) | 2008-03-18 | 2015-08-18 | Qualcomm Incorporated | Speech enhancement using multiple microphones on multiple devices |
WO2009120301A2 (en) | 2008-03-25 | 2009-10-01 | Square Products Corporation | System and method for simultaneous media presentation |
US20090248397A1 (en) | 2008-03-25 | 2009-10-01 | Microsoft Corporation | Service Initiation Techniques |
US7516068B1 (en) | 2008-04-07 | 2009-04-07 | International Business Machines Corporation | Optimized collection of audio for speech recognition |
CN101562671A (zh) | 2008-04-18 | 2009-10-21 | 鸿富锦精密工业(深圳)有限公司 | 音频设备的音量控制方法及通信装置 |
JP5423670B2 (ja) | 2008-04-30 | 2014-02-19 | 日本電気株式会社 | 音響モデル学習装置および音声認識装置 |
US8589161B2 (en) | 2008-05-27 | 2013-11-19 | Voicebox Technologies, Inc. | System and method for an integrated, multi-modal, multi-device natural language voice services environment |
US8831948B2 (en) | 2008-06-06 | 2014-09-09 | At&T Intellectual Property I, L.P. | System and method for synthetically generated speech describing media content |
US8385557B2 (en) | 2008-06-19 | 2013-02-26 | Microsoft Corporation | Multichannel acoustic echo reduction |
US8325909B2 (en) | 2008-06-25 | 2012-12-04 | Microsoft Corporation | Acoustic echo suppression |
US8693663B2 (en) | 2008-06-27 | 2014-04-08 | Centurylink Intellectual Property Llc | System and method for implementing do-not-disturb during playback of media content |
US8364481B2 (en) | 2008-07-02 | 2013-01-29 | Google Inc. | Speech recognition with parallel recognition tasks |
US8505056B2 (en) | 2008-07-10 | 2013-08-06 | Apple Inc. | Updating properties of remote A/V performance nodes |
EP2146519B1 (en) | 2008-07-16 | 2012-06-06 | Nuance Communications, Inc. | Beamforming pre-processing for speaker localization |
US8781833B2 (en) | 2008-07-17 | 2014-07-15 | Nuance Communications, Inc. | Speech recognition semantic classification training |
US8639830B2 (en) | 2008-07-22 | 2014-01-28 | Control4 Corporation | System and method for streaming audio |
US8325938B2 (en) | 2008-08-12 | 2012-12-04 | Sony Corporation | Handsfree call apparatus, acoustic reproducing apparatus with handsfree call function, and handsfree call method |
JP5206234B2 (ja) | 2008-08-27 | 2013-06-12 | 富士通株式会社 | 雑音抑圧装置、携帯電話機、雑音抑圧方法及びコンピュータプログラム |
US8676586B2 (en) | 2008-09-16 | 2014-03-18 | Nice Systems Ltd | Method and apparatus for interaction or discourse analytics |
KR20100034229A (ko) | 2008-09-23 | 2010-04-01 | 삼성전자주식회사 | 이어폰 회로를 포함하는 휴대 단말기 및 이의 운용방법 |
US8676904B2 (en) | 2008-10-02 | 2014-03-18 | Apple Inc. | Electronic devices with voice command and contextual data processing capabilities |
KR101829865B1 (ko) | 2008-11-10 | 2018-02-20 | 구글 엘엘씨 | 멀티센서 음성 검출 |
US8386261B2 (en) | 2008-11-14 | 2013-02-26 | Vocollect Healthcare Systems, Inc. | Training/coaching system for a voice-enabled work environment |
US8095368B2 (en) | 2008-12-04 | 2012-01-10 | At&T Intellectual Property I, L.P. | System and method for voice authentication over a computer network |
JP5347472B2 (ja) | 2008-12-12 | 2013-11-20 | ヤマハ株式会社 | 遠隔制御装置および遠隔制御システム |
US8548812B2 (en) | 2008-12-22 | 2013-10-01 | Avaya Inc. | Method and system for detecting a relevant utterance in a voice session |
KR101467796B1 (ko) | 2009-01-12 | 2014-12-10 | 엘지전자 주식회사 | 이동단말기 및 그 제어 방법 |
US20100179874A1 (en) | 2009-01-13 | 2010-07-15 | Yahoo! Inc. | Media object metadata engine configured to determine relationships between persons and brands |
US8351617B2 (en) | 2009-01-13 | 2013-01-08 | Fortemedia, Inc. | Method for phase mismatch calibration for an array microphone and phase calibration module for the same |
US20130283166A1 (en) | 2012-04-24 | 2013-10-24 | Social Communications Company | Voice-based virtual area navigation |
US8428758B2 (en) | 2009-02-16 | 2013-04-23 | Apple Inc. | Dynamic audio ducking |
FR2943875A1 (fr) | 2009-03-31 | 2010-10-01 | France Telecom | Procede et dispositif de classification du bruit de fond contenu dans un signal audio. |
KR101064976B1 (ko) | 2009-04-06 | 2011-09-15 | 한국과학기술원 | 음원위치추정시스템 및 이를 구비한 음원에 반응하는 로봇 |
US8243949B2 (en) | 2009-04-14 | 2012-08-14 | Plantronics, Inc. | Network addressible loudspeaker and audio play |
EP2420050B1 (en) | 2009-04-15 | 2013-04-10 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Multichannel echo canceller |
US8483398B2 (en) | 2009-04-30 | 2013-07-09 | Hewlett-Packard Development Company, L.P. | Methods and systems for reducing acoustic echoes in multichannel communication systems by reducing the dimensionality of the space of impulse responses |
JP5550456B2 (ja) | 2009-06-04 | 2014-07-16 | 本田技研工業株式会社 | 残響抑圧装置、及び残響抑圧方法 |
US9858925B2 (en) | 2009-06-05 | 2018-01-02 | Apple Inc. | Using context information to facilitate processing of commands in a virtual assistant |
JP4820434B2 (ja) | 2009-06-08 | 2011-11-24 | レノボ・シンガポール・プライベート・リミテッド | マイクロフォンのミュート・コントロール |
US20100332236A1 (en) | 2009-06-25 | 2010-12-30 | Blueant Wireless Pty Limited | Voice-triggered operation of electronic devices |
US8478982B2 (en) | 2009-08-06 | 2013-07-02 | Broadcom Corporation | Media access control security management in physical layer |
US8625775B2 (en) | 2009-08-06 | 2014-01-07 | Hti Ip, L.L.C. | Method and system for reducing echo and noise in a vehicle passenger compartment environment |
JP5440053B2 (ja) | 2009-09-14 | 2014-03-12 | ソニー株式会社 | 情報処理装置及び情報処理方法、並びにコンピューター・プログラム |
US8753279B2 (en) | 2009-09-17 | 2014-06-17 | Hitachi Medical Corporation | Ultrasound probe and ultrasound imaging device |
US20110091055A1 (en) | 2009-10-19 | 2011-04-21 | Broadcom Corporation | Loudspeaker localization techniques |
US8600073B2 (en) | 2009-11-04 | 2013-12-03 | Cambridge Silicon Radio Limited | Wind noise suppression |
KR101301535B1 (ko) | 2009-12-02 | 2013-09-04 | 한국전자통신연구원 | 하이브리드 번역 장치 및 그 방법 |
US20110145581A1 (en) | 2009-12-14 | 2011-06-16 | Verizon Patent And Licensing, Inc. | Media playback across devices |
JP5641186B2 (ja) | 2010-01-13 | 2014-12-17 | ヤマハ株式会社 | 雑音抑圧装置およびプログラム |
US10553209B2 (en) | 2010-01-18 | 2020-02-04 | Apple Inc. | Systems and methods for hands-free notification summaries |
NO332437B1 (no) | 2010-01-18 | 2012-09-17 | Cisco Systems Int Sarl | Apparat og fremgangsmate for a supprimere et akustisk ekko |
WO2011091402A1 (en) | 2010-01-25 | 2011-07-28 | Justin Mason | Voice electronic listening assistant |
US8718290B2 (en) | 2010-01-26 | 2014-05-06 | Audience, Inc. | Adaptive noise reduction using level cues |
US8713571B2 (en) | 2010-02-17 | 2014-04-29 | Microsoft Corporation | Asynchronous task execution |
US8682667B2 (en) | 2010-02-25 | 2014-03-25 | Apple Inc. | User profiling for selecting user specific voice input processing information |
US9209987B2 (en) | 2010-03-02 | 2015-12-08 | Microsoft Technology Licensing, Llc | Social media playback |
EP2375779A3 (en) | 2010-03-31 | 2012-01-18 | Fraunhofer-Gesellschaft zur Förderung der Angewandten Forschung e.V. | Apparatus and method for measuring a plurality of loudspeakers and microphone array |
US9112989B2 (en) | 2010-04-08 | 2015-08-18 | Qualcomm Incorporated | System and method of smart audio logging for mobile devices |
US9514476B2 (en) | 2010-04-14 | 2016-12-06 | Viacom International Inc. | Systems and methods for discovering artists |
US8538035B2 (en) | 2010-04-29 | 2013-09-17 | Audience, Inc. | Multi-microphone robust noise suppression |
US8437339B2 (en) | 2010-04-28 | 2013-05-07 | Hewlett-Packard Development Company, L.P. | Techniques to provide integrated voice service management |
JP5572445B2 (ja) | 2010-04-30 | 2014-08-13 | 本田技研工業株式会社 | 残響抑圧装置、及び残響抑圧方法 |
WO2011140221A1 (en) | 2010-05-04 | 2011-11-10 | Shazam Entertainment Ltd. | Methods and systems for synchronizing media |
US9307340B2 (en) | 2010-05-06 | 2016-04-05 | Dolby Laboratories Licensing Corporation | Audio system equalization for portable media playback devices |
JP2013530420A (ja) | 2010-05-06 | 2013-07-25 | ドルビー ラボラトリーズ ライセンシング コーポレイション | 可搬型メディア再生装置に関するオーディオ・システム等化処理 |
US9736600B2 (en) | 2010-05-17 | 2017-08-15 | Iii Holdings 4, Llc | Devices and methods for collecting acoustic data |
US20110289506A1 (en) | 2010-05-18 | 2011-11-24 | Google Inc. | Management of computing resources for applications |
US8395653B2 (en) | 2010-05-18 | 2013-03-12 | Polycom, Inc. | Videoconferencing endpoint having multiple voice-tracking cameras |
US9558755B1 (en) | 2010-05-20 | 2017-01-31 | Knowles Electronics, Llc | Noise suppression assisted automatic speech recognition |
US8831761B2 (en) | 2010-06-02 | 2014-09-09 | Sony Corporation | Method for determining a processed audio signal and a handheld device |
JP2011259097A (ja) | 2010-06-07 | 2011-12-22 | Sony Corp | 音声信号処理装置及び音声信号処理方法 |
US8588849B2 (en) | 2010-07-09 | 2013-11-19 | Blackberry Limited | System and method for resuming media |
US8699723B2 (en) | 2010-07-20 | 2014-04-15 | International Business Machines Corporation | Audio device volume manager using measured volume perceived at a first audio device to control volume generation by a second audio device |
US8762144B2 (en) | 2010-07-21 | 2014-06-24 | Samsung Electronics Co., Ltd. | Method and apparatus for voice activity detection |
US9025782B2 (en) | 2010-07-26 | 2015-05-05 | Qualcomm Incorporated | Systems, methods, apparatus, and computer-readable media for multi-microphone location-selective processing |
US9349368B1 (en) | 2010-08-05 | 2016-05-24 | Google Inc. | Generating an audio notification based on detection of a triggering event |
US8359020B2 (en) | 2010-08-06 | 2013-01-22 | Google Inc. | Automatically monitoring for voice input based on context |
US8731939B1 (en) | 2010-08-06 | 2014-05-20 | Google Inc. | Routing queries based on carrier phrase registration |
KR101607419B1 (ko) | 2010-08-27 | 2016-03-29 | 인텔 코포레이션 | 원격 제어 장치 |
US8861756B2 (en) | 2010-09-24 | 2014-10-14 | LI Creative Technologies, Inc. | Microphone array system |
US20120078635A1 (en) | 2010-09-24 | 2012-03-29 | Apple Inc. | Voice control system |
JP5259020B2 (ja) | 2010-10-01 | 2013-08-07 | 三菱電機株式会社 | 音声認識装置 |
US9240111B2 (en) | 2010-10-06 | 2016-01-19 | Microsoft Technology Licensing, Llc | Inferring building metadata from distributed sensors |
CN103222192B (zh) | 2010-10-08 | 2019-05-07 | 日本电气株式会社 | 信号处理设备和信号处理方法 |
KR20140035310A (ko) | 2010-10-22 | 2014-03-21 | 포러스, 인코포레이티드 | 미디어 배포 아키텍처 |
EP2444967A1 (en) | 2010-10-25 | 2012-04-25 | Fraunhofer-Gesellschaft zur Förderung der Angewandten Forschung e.V. | Echo suppression comprising modeling of late reverberation components |
US9552840B2 (en) | 2010-10-25 | 2017-01-24 | Qualcomm Incorporated | Three-dimensional sound capturing and reproducing with multi-microphones |
US9226069B2 (en) | 2010-10-29 | 2015-12-29 | Qualcomm Incorporated | Transitioning multiple microphones from a first mode to a second mode |
EP2456199A3 (en) | 2010-11-22 | 2014-07-16 | DDS Newco Inc. | Method and systems of dynamically managing content for use by a media playback device |
US20120148075A1 (en) | 2010-12-08 | 2012-06-14 | Creative Technology Ltd | Method for optimizing reproduction of audio signals from an apparatus for audio reproduction |
JP6012621B2 (ja) | 2010-12-15 | 2016-10-25 | コーニンクレッカ フィリップス エヌ ヴェKoninklijke Philips N.V. | リモートノイズ検知器を使用したノイズ削減システム |
JP5771002B2 (ja) | 2010-12-22 | 2015-08-26 | 株式会社東芝 | 音声認識装置、音声認識方法および音声認識装置を搭載したテレビ受像機 |
US9241227B2 (en) | 2011-01-06 | 2016-01-19 | Bose Corporation | Transducer with integrated sensor |
JP2012150237A (ja) | 2011-01-18 | 2012-08-09 | Sony Corp | 音信号処理装置、および音信号処理方法、並びにプログラム |
US8929564B2 (en) | 2011-03-03 | 2015-01-06 | Microsoft Corporation | Noise adaptive beamforming for microphone arrays |
CN102123188A (zh) | 2011-03-03 | 2011-07-13 | 曾超宁 | 移动电话耳麦装置 |
KR20120100514A (ko) | 2011-03-04 | 2012-09-12 | 삼성전자주식회사 | 디바이스 그룹핑 방법 및 이를 적용한 서버 |
US8804977B2 (en) | 2011-03-18 | 2014-08-12 | Dolby Laboratories Licensing Corporation | Nonlinear reference signal processing for echo suppression |
US9262612B2 (en) | 2011-03-21 | 2016-02-16 | Apple Inc. | Device access using voice authentication |
US8938312B2 (en) | 2011-04-18 | 2015-01-20 | Sonos, Inc. | Smart line-in processing |
US9493130B2 (en) | 2011-04-22 | 2016-11-15 | Angel A. Penilla | Methods and systems for communicating content to connected vehicle users based detected tone/mood in voice input |
KR20120128542A (ko) | 2011-05-11 | 2012-11-27 | 삼성전자주식회사 | 멀티 채널 에코 제거를 위한 멀티 채널 비-상관 처리 방법 및 장치 |
US9342516B2 (en) | 2011-05-18 | 2016-05-17 | Microsoft Technology Licensing, Llc | Media presentation playback annotation |
US8320577B1 (en) | 2011-05-20 | 2012-11-27 | Google Inc. | Method and apparatus for multi-channel audio processing using single-channel components |
WO2012166811A2 (en) | 2011-05-31 | 2012-12-06 | Google Inc. | Muting participants in a communication session |
US8897465B2 (en) | 2011-06-01 | 2014-11-25 | Robert Bosch Gmbh | Class D micro-speaker |
US8958571B2 (en) | 2011-06-03 | 2015-02-17 | Cirrus Logic, Inc. | MIC covering detection in personal audio devices |
US8738925B1 (en) | 2013-01-07 | 2014-05-27 | Fitbit, Inc. | Wireless portable biometric device syncing |
US9307321B1 (en) | 2011-06-09 | 2016-04-05 | Audience, Inc. | Speaker distortion reduction |
US9226088B2 (en) | 2011-06-11 | 2015-12-29 | Clearone Communications, Inc. | Methods and apparatuses for multiple configurations of beamforming microphone arrays |
WO2012174301A1 (en) | 2011-06-14 | 2012-12-20 | Related Content Database, Inc. | System and method for presenting content with time based metadata |
US8731765B2 (en) | 2011-06-28 | 2014-05-20 | GM Global Technology Operations LLC | Method and apparatus for fault detection in a torque machine of a powertrain system |
US20130018659A1 (en) | 2011-07-12 | 2013-01-17 | Google Inc. | Systems and Methods for Speech Command Processing |
US9042556B2 (en) | 2011-07-19 | 2015-05-26 | Sonos, Inc | Shaping sound responsive to speaker orientation |
US20130024018A1 (en) | 2011-07-22 | 2013-01-24 | Htc Corporation | Multimedia control method and multimedia control system |
JP5289517B2 (ja) | 2011-07-28 | 2013-09-11 | 株式会社半導体理工学研究センター | センサネットワークシステムとその通信方法 |
US9148742B1 (en) | 2011-07-29 | 2015-09-29 | Google Inc. | Proximity detection via audio |
JP5640918B2 (ja) | 2011-08-05 | 2014-12-17 | ブラザー工業株式会社 | サーバ装置、対応付け方法、及び携帯機器用プログラム |
EP2555598A1 (en) | 2011-08-05 | 2013-02-06 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Method and device for generating optical radiation by means of electrically operated pulsed discharges |
EP2557813A2 (en) | 2011-08-08 | 2013-02-13 | Bang & Olufsen A/S | A modular, configurable speaker system and a method of operating it |
KR101252167B1 (ko) | 2011-08-18 | 2013-04-05 | 엘지전자 주식회사 | 가전기기 진단장치 및 그 진단방법 |
US20130211826A1 (en) | 2011-08-22 | 2013-08-15 | Claes-Fredrik Urban Mannby | Audio Signals as Buffered Streams of Audio Signals and Metadata |
US8750677B2 (en) | 2011-08-23 | 2014-06-10 | Microsoft Corporation | Method for transferring media playback from a different device |
US20130073293A1 (en) | 2011-09-20 | 2013-03-21 | Lg Electronics Inc. | Electronic device and method for controlling the same |
US9094539B1 (en) | 2011-09-22 | 2015-07-28 | Amazon Technologies, Inc. | Dynamic device adjustments based on determined user sleep state |
US8768707B2 (en) | 2011-09-27 | 2014-07-01 | Sensory Incorporated | Background speech recognition assistant using speaker verification |
US8996381B2 (en) | 2011-09-27 | 2015-03-31 | Sensory, Incorporated | Background speech recognition assistant |
US8762156B2 (en) | 2011-09-28 | 2014-06-24 | Apple Inc. | Speech recognition repair using contextual information |
US9729631B2 (en) | 2011-09-30 | 2017-08-08 | Apple Inc. | Asynchronous data manipulation |
US8340975B1 (en) | 2011-10-04 | 2012-12-25 | Theodore Alfred Rosenberger | Interactive speech recognition device and system for hands-free building control |
US8971546B2 (en) | 2011-10-14 | 2015-03-03 | Sonos, Inc. | Systems, methods, apparatus, and articles of manufacture to control audio playback devices |
CN103052001B (zh) | 2011-10-17 | 2015-06-24 | 联想(北京)有限公司 | 智能设备及其控制方法 |
GB201118784D0 (en) | 2011-10-31 | 2011-12-14 | Omnifone Ltd | Djml |
GB2496660B (en) | 2011-11-18 | 2014-06-04 | Skype | Processing audio signals |
US8983089B1 (en) | 2011-11-28 | 2015-03-17 | Rawles Llc | Sound source localization using multiple microphone arrays |
CN102567468B (zh) | 2011-12-06 | 2014-06-04 | 上海聚力传媒技术有限公司 | 一种用于对媒体文件的播放音量进行调节的方法与设备 |
GB2497343B (en) | 2011-12-08 | 2014-11-26 | Skype | Processing audio signals |
EP2792152A4 (en) | 2011-12-13 | 2015-07-22 | Intel Corp | NAVIGATING CHANNELS IN MULTIMEDIA DEVICES CONNECTED BY SELECTING KEYWORDS |
US9084058B2 (en) | 2011-12-29 | 2015-07-14 | Sonos, Inc. | Sound field calibration using listener localization |
KR102022318B1 (ko) | 2012-01-11 | 2019-09-18 | 삼성전자 주식회사 | 음성 인식을 사용하여 사용자 기능을 수행하는 방법 및 장치 |
US8825020B2 (en) | 2012-01-12 | 2014-09-02 | Sensory, Incorporated | Information access and device control using mobile phones and audio in the home environment |
US9654817B2 (en) | 2012-01-27 | 2017-05-16 | Avaya Inc. | System and method to synchronize video playback on mobile devices |
US9401058B2 (en) | 2012-01-30 | 2016-07-26 | International Business Machines Corporation | Zone based presence determination via voiceprint location awareness |
WO2013115748A1 (en) | 2012-01-30 | 2013-08-08 | Echostar Ukraine, L.L.C. | Apparatus, systems and methods for adjusting output audio volume based on user location |
US9418658B1 (en) | 2012-02-08 | 2016-08-16 | Amazon Technologies, Inc. | Configuration of voice controlled assistant |
US9173025B2 (en) | 2012-02-08 | 2015-10-27 | Dolby Laboratories Licensing Corporation | Combined suppression of noise, echo, and out-of-location signals |
US9947333B1 (en) | 2012-02-10 | 2018-04-17 | Amazon Technologies, Inc. | Voice interaction architecture with intelligent background noise cancellation |
US8453058B1 (en) | 2012-02-20 | 2013-05-28 | Google Inc. | Crowd-sourced audio shortcuts |
US9065895B2 (en) | 2012-02-22 | 2015-06-23 | Broadcom Corporation | Non-linear echo cancellation |
EP2632141B1 (en) | 2012-02-22 | 2014-10-15 | Dialog Semiconductor B.V. | Postfilter for Spectral Domain Echo Cancellers to handle Non-linear Echo Components |
US9838810B2 (en) | 2012-02-27 | 2017-12-05 | Qualcomm Technologies International, Ltd. | Low power audio detection |
US20130238326A1 (en) | 2012-03-08 | 2013-09-12 | Lg Electronics Inc. | Apparatus and method for multiple device voice control |
US9361878B2 (en) | 2012-03-30 | 2016-06-07 | Michael Boukadakis | Computer-readable medium, system and method of providing domain-specific information |
US9198204B2 (en) | 2012-04-11 | 2015-11-24 | Google Inc. | Apparatus and method for seamless commissioning of wireless devices |
WO2013155619A1 (en) | 2012-04-20 | 2013-10-24 | Sam Pasupalak | Conversational agent |
US9633186B2 (en) | 2012-04-23 | 2017-04-25 | Apple Inc. | Systems and methods for controlling output of content based on human recognition data detection |
US9117449B2 (en) | 2012-04-26 | 2015-08-25 | Nuance Communications, Inc. | Embedded system for construction of small footprint speech recognition with user-definable constraints |
WO2013166080A1 (en) | 2012-04-30 | 2013-11-07 | Creative Technology Ltd | A universal reconfigurable echo cancellation system |
US8886524B1 (en) | 2012-05-01 | 2014-11-11 | Amazon Technologies, Inc. | Signal processing based on audio context |
US11452153B2 (en) | 2012-05-01 | 2022-09-20 | Lisnr, Inc. | Pairing and gateway connection using sonic tones |
US20130294611A1 (en) | 2012-05-04 | 2013-11-07 | Sony Computer Entertainment Inc. | Source separation by independent component analysis in conjuction with optimization of acoustic echo cancellation |
US9584909B2 (en) | 2012-05-10 | 2017-02-28 | Google Inc. | Distributed beamforming based on message passing |
US9768829B2 (en) | 2012-05-11 | 2017-09-19 | Intel Deutschland Gmbh | Methods for processing audio signals and circuit arrangements therefor |
US8908879B2 (en) | 2012-05-23 | 2014-12-09 | Sonos, Inc. | Audio content auditioning |
US9633368B2 (en) | 2012-05-25 | 2017-04-25 | Apple Inc. | Content ranking and serving on a multi-user device or interface |
CN103456332A (zh) | 2012-05-28 | 2013-12-18 | 富泰华工业(深圳)有限公司 | 音频播放装置及音量调节方法 |
US20130324031A1 (en) | 2012-05-31 | 2013-12-05 | Nokia Corporation | Dynamic allocation of audio channel for surround sound systems |
US9060224B1 (en) | 2012-06-01 | 2015-06-16 | Rawles Llc | Voice controlled assistant with coaxial speaker and microphone arrangement |
EP2856690B1 (en) | 2012-06-01 | 2020-12-02 | BlackBerry Limited | Universal synchronization engine based on probabilistic methods for guarantee of lock in multiformat audio systems |
US9997069B2 (en) | 2012-06-05 | 2018-06-12 | Apple Inc. | Context-aware voice guidance |
US9881616B2 (en) | 2012-06-06 | 2018-01-30 | Qualcomm Incorporated | Method and systems having improved speech recognition |
US8903526B2 (en) | 2012-06-06 | 2014-12-02 | Sonos, Inc. | Device playback failure recovery and redistribution |
US9301073B2 (en) | 2012-06-08 | 2016-03-29 | Apple Inc. | Systems and methods for determining the condition of multiple microphones |
US9183845B1 (en) | 2012-06-12 | 2015-11-10 | Amazon Technologies, Inc. | Adjusting audio signals based on a specific frequency range associated with environmental noise characteristics |
US9031255B2 (en) | 2012-06-15 | 2015-05-12 | Sonos, Inc. | Systems, methods, apparatus, and articles of manufacture to provide low-latency audio |
US9142215B2 (en) * | 2012-06-15 | 2015-09-22 | Cypress Semiconductor Corporation | Power-efficient voice activation |
US9674587B2 (en) | 2012-06-26 | 2017-06-06 | Sonos, Inc. | Systems and methods for networked music playback including remote add to queue |
US10354650B2 (en) | 2012-06-26 | 2019-07-16 | Google Llc | Recognizing speech with mixed speech recognition models to generate transcriptions |
US9106192B2 (en) | 2012-06-28 | 2015-08-11 | Sonos, Inc. | System and method for device playback calibration |
US9706323B2 (en) | 2014-09-09 | 2017-07-11 | Sonos, Inc. | Playback device calibration |
US9137564B2 (en) | 2012-06-28 | 2015-09-15 | Sonos, Inc. | Shift to corresponding media in a playback queue |
US9384737B2 (en) | 2012-06-29 | 2016-07-05 | Microsoft Technology Licensing, Llc | Method and device for adjusting sound levels of sources based on sound source priority |
US20140006825A1 (en) | 2012-06-30 | 2014-01-02 | David Shenhav | Systems and methods to wake up a device from a power conservation state |
US9497544B2 (en) | 2012-07-02 | 2016-11-15 | Qualcomm Incorporated | Systems and methods for surround sound echo reduction |
US9615171B1 (en) | 2012-07-02 | 2017-04-04 | Amazon Technologies, Inc. | Transformation inversion to reduce the effect of room acoustics |
US20140003635A1 (en) | 2012-07-02 | 2014-01-02 | Qualcomm Incorporated | Audio signal processing device calibration |
KR101972955B1 (ko) | 2012-07-03 | 2019-04-26 | 삼성전자 주식회사 | 음성을 이용한 사용자 디바이스들 간 서비스 연결 방법 및 장치 |
US9536528B2 (en) | 2012-07-03 | 2017-01-03 | Google Inc. | Determining hotword suitability |
US8972762B2 (en) | 2012-07-11 | 2015-03-03 | Blackberry Limited | Computing devices and methods for resetting inactivity timers on computing devices |
US8983844B1 (en) | 2012-07-31 | 2015-03-17 | Amazon Technologies, Inc. | Transmission of noise parameters for improving automatic speech recognition |
US8831957B2 (en) | 2012-08-01 | 2014-09-09 | Google Inc. | Speech recognition models based on location indicia |
CN107068913B (zh) | 2012-08-03 | 2019-04-30 | 株式会社半导体能源研究所 | 发光元件、发光装置、电子设备以及照明装置 |
US8930005B2 (en) | 2012-08-07 | 2015-01-06 | Sonos, Inc. | Acoustic signatures in a playback system |
EP3462452A1 (en) | 2012-08-24 | 2019-04-03 | Oticon A/s | Noise estimation for use with noise reduction and echo cancellation in personal communication |
US9532153B2 (en) | 2012-08-29 | 2016-12-27 | Bang & Olufsen A/S | Method and a system of providing information to a user |
US9088336B2 (en) | 2012-09-06 | 2015-07-21 | Imagination Technologies Limited | Systems and methods of echo and noise cancellation in voice communication |
US20140075311A1 (en) | 2012-09-11 | 2014-03-13 | Jesse William Boettcher | Methods and apparatus for controlling audio volume on an electronic device |
US20140075306A1 (en) | 2012-09-12 | 2014-03-13 | Randy Rega | Music search and retrieval system |
US8798598B2 (en) | 2012-09-13 | 2014-08-05 | Alain Rossmann | Method and system for screencasting Smartphone video game software to online social networks |
US9532139B1 (en) | 2012-09-14 | 2016-12-27 | Cirrus Logic, Inc. | Dual-microphone frequency amplitude response self-calibration |
US8983383B1 (en) | 2012-09-25 | 2015-03-17 | Rawles Llc | Providing hands-free service to multiple devices |
US9319816B1 (en) | 2012-09-26 | 2016-04-19 | Amazon Technologies, Inc. | Characterizing environment using ultrasound pilot tones |
JP2014071138A (ja) | 2012-09-27 | 2014-04-21 | Xing Inc | カラオケ装置 |
KR102091236B1 (ko) | 2012-09-28 | 2020-03-18 | 삼성전자 주식회사 | 전자기기 및 그 제어방법 |
US8725125B2 (en) | 2012-09-28 | 2014-05-13 | United Video Properties, Inc. | Systems and methods for controlling audio playback on portable devices with vehicle equipment |
WO2014055312A1 (en) | 2012-10-02 | 2014-04-10 | Mh Acoustics, Llc | Earphones having configurable microphone arrays |
US8484025B1 (en) | 2012-10-04 | 2013-07-09 | Google Inc. | Mapping an audio utterance to an action using a classifier |
US9640194B1 (en) | 2012-10-04 | 2017-05-02 | Knowles Electronics, Llc | Noise suppression for speech processing based on machine-learning mask estimation |
CN102902253B (zh) | 2012-10-09 | 2015-07-15 | 鸿富锦精密工业(深圳)有限公司 | 具有语音控制功能的智能开关及智能控制系统 |
US20140108010A1 (en) | 2012-10-11 | 2014-04-17 | Intermec Ip Corp. | Voice-enabled documents for facilitating operational procedures |
US9232310B2 (en) | 2012-10-15 | 2016-01-05 | Nokia Technologies Oy | Methods, apparatuses and computer program products for facilitating directional audio capture with multiple microphones |
EP2906941B1 (en) | 2012-10-15 | 2021-05-26 | Msi Dfat Llc | Direct field acoustic testing in a semi-reverberant enclosure |
DE102012020271A1 (de) | 2012-10-17 | 2014-04-17 | Wolfgang Klippel | Anordnung und Verfahren zur Steuerung von Wandlern |
KR101978688B1 (ko) | 2012-10-22 | 2019-05-15 | 삼성전자주식회사 | 마이크로폰 장치를 갖는 전자 장치 및 그 운용 방법 |
US9319445B2 (en) | 2012-10-22 | 2016-04-19 | Spotify Ab | Systems and methods for pre-fetching media content |
WO2014064324A1 (en) | 2012-10-26 | 2014-05-01 | Nokia Corporation | Multi-device speech recognition |
KR20140054643A (ko) | 2012-10-29 | 2014-05-09 | 삼성전자주식회사 | 음성인식장치 및 음성인식방법 |
US10381002B2 (en) | 2012-10-30 | 2019-08-13 | Google Technology Holdings LLC | Voice control user interface during low-power mode |
US9584642B2 (en) | 2013-03-12 | 2017-02-28 | Google Technology Holdings LLC | Apparatus with adaptive acoustic echo control for speakerphone mode |
US8761349B2 (en) | 2012-10-31 | 2014-06-24 | Citrix Systems, Inc. | Systems and methods of monitoring performance of acoustic echo cancellation |
US9275637B1 (en) * | 2012-11-06 | 2016-03-01 | Amazon Technologies, Inc. | Wake word evaluation |
KR20140060040A (ko) | 2012-11-09 | 2014-05-19 | 삼성전자주식회사 | 디스플레이장치, 음성취득장치 및 그 음성인식방법 |
US9275642B2 (en) | 2012-11-13 | 2016-03-01 | Unified Computer Intelligence Corporation | Voice-operated internet-ready ubiquitous computing device and method thereof |
US9685171B1 (en) | 2012-11-20 | 2017-06-20 | Amazon Technologies, Inc. | Multiple-stage adaptive filtering of audio signals |
US9070367B1 (en) | 2012-11-26 | 2015-06-30 | Amazon Technologies, Inc. | Local speech recognition of frequent utterances |
WO2014142702A1 (en) | 2013-03-15 | 2014-09-18 | Obschestvo S Ogranichennoy Otvetstvennostiyu "Speaktoit" | Selective speech recognition for chat and digital personal assistant systems |
US20140149118A1 (en) | 2012-11-28 | 2014-05-29 | Lg Electronics Inc. | Apparatus and method for driving electric device using speech recognition |
US9154877B2 (en) | 2012-11-28 | 2015-10-06 | Qualcomm Incorporated | Collaborative sound system |
US9203045B2 (en) | 2012-11-29 | 2015-12-01 | Semiconductor Energy Laboratory Co., Ltd. | Light-emitting element, light-emitting device, electronic device, and lighting device |
US9171092B2 (en) | 2012-12-07 | 2015-10-27 | Empire Technology Development Llc | Personal assistant context building |
US20140161263A1 (en) | 2012-12-10 | 2014-06-12 | Microsoft Corporation | Facilitating recognition of real-time content |
US9704486B2 (en) | 2012-12-11 | 2017-07-11 | Amazon Technologies, Inc. | Speech recognition power management |
US9226071B2 (en) | 2012-12-13 | 2015-12-29 | Maxim Integrated Products, Inc. | Direct measurement of an input signal to a loudspeaker to determine and limit a temperature of a voice coil of the loudspeaker |
US9271111B2 (en) | 2012-12-14 | 2016-02-23 | Amazon Technologies, Inc. | Response endpoint selection |
US9300910B2 (en) | 2012-12-14 | 2016-03-29 | Biscotti Inc. | Video mail capture, processing and distribution |
US9607046B2 (en) | 2012-12-14 | 2017-03-28 | Microsoft Technology Licensing, Llc | Probability-based state modification for query dialogues |
EP3691179A1 (en) | 2012-12-18 | 2020-08-05 | Samsung Electronics Co., Ltd. | Method and device for controlling home device remotely in home network system |
US9047857B1 (en) | 2012-12-19 | 2015-06-02 | Rawles Llc | Voice commands for transitioning between device states |
US9098467B1 (en) | 2012-12-19 | 2015-08-04 | Rawles Llc | Accepting voice commands based on user identity |
US20150338917A1 (en) | 2012-12-26 | 2015-11-26 | Sia Technology Ltd. | Device, system, and method of controlling electronic devices via thought |
US9620115B2 (en) | 2013-01-03 | 2017-04-11 | Telenav, Inc. | Content delivery system with barge-in mechanism and method of operation thereof |
KR102051588B1 (ko) | 2013-01-07 | 2019-12-03 | 삼성전자주식회사 | 휴대 단말기의 오디오 컨텐츠 재생 방법 및 그 장치 |
US9318125B2 (en) | 2013-01-15 | 2016-04-19 | Intel Deutschland Gmbh | Noise reduction devices and noise reduction methods |
JP2014137590A (ja) | 2013-01-18 | 2014-07-28 | Yoji Fukinuki | 音楽コンテンツ配信方法 |
US9646605B2 (en) * | 2013-01-22 | 2017-05-09 | Interactive Intelligence Group, Inc. | False alarm reduction in speech recognition systems using contextual information |
DE102013001219B4 (de) | 2013-01-25 | 2019-08-29 | Inodyn Newmedia Gmbh | Verfahren und System zur Sprachaktivierung eines Software-Agenten aus einem Standby-Modus |
US20140215332A1 (en) | 2013-01-31 | 2014-07-31 | Hewlett-Packard Development Company, Lp | Virtual microphone selection corresponding to a set of audio source devices |
DE212014000045U1 (de) | 2013-02-07 | 2015-09-24 | Apple Inc. | Sprach-Trigger für einen digitalen Assistenten |
TWI593294B (zh) | 2013-02-07 | 2017-07-21 | 晨星半導體股份有限公司 | 收音系統與相關方法 |
US9818407B1 (en) | 2013-02-07 | 2017-11-14 | Amazon Technologies, Inc. | Distributed endpointing for speech recognition |
US9300266B2 (en) | 2013-02-12 | 2016-03-29 | Qualcomm Incorporated | Speaker equalization for mobile devices |
US9842489B2 (en) | 2013-02-14 | 2017-12-12 | Google Llc | Waking other devices for additional data |
US9237384B2 (en) | 2013-02-14 | 2016-01-12 | Sonos, Inc. | Automatic configuration of household playback devices |
US9172747B2 (en) | 2013-02-25 | 2015-10-27 | Artificial Solutions Iberia SL | System and methods for virtual assistant networks |
BR112015020150B1 (pt) | 2013-02-26 | 2021-08-17 | Mediatek Inc. | Aparelho para gerar um sinal de fala, e, método para gerar um sinal de fala |
US9195432B2 (en) | 2013-02-26 | 2015-11-24 | Sonos, Inc. | Pre-caching of audio content |
CN104010251B (zh) | 2013-02-27 | 2018-06-19 | 晨星半导体股份有限公司 | 收音系统与相关方法 |
US10395651B2 (en) | 2013-02-28 | 2019-08-27 | Sony Corporation | Device and method for activating with voice input |
US9460715B2 (en) | 2013-03-04 | 2016-10-04 | Amazon Technologies, Inc. | Identification using audio signatures and additional characteristics |
US20140258292A1 (en) | 2013-03-05 | 2014-09-11 | Clip Interactive, Inc. | Apparatus, system, and method for integrating content and content services |
US9349386B2 (en) | 2013-03-07 | 2016-05-24 | Analog Device Global | System and method for processor wake-up based on sensor data |
KR101887983B1 (ko) | 2013-03-07 | 2018-08-14 | 애플 인크. | 룸 및 프로그램 응답 확성기 시스템 |
JP6429465B2 (ja) | 2013-03-07 | 2018-11-28 | 株式会社半導体エネルギー研究所 | 装置及びその作製方法 |
US9161126B2 (en) | 2013-03-08 | 2015-10-13 | Cirrus Logic, Inc. | Systems and methods for protecting a speaker |
CN104053088A (zh) | 2013-03-11 | 2014-09-17 | 联想(北京)有限公司 | 一种麦克风阵列调整方法、麦克风阵列及电子设备 |
WO2014164234A1 (en) | 2013-03-11 | 2014-10-09 | Tiskerling Dynamics Llc | Timbre constancy across a range of directivities for a loudspeaker |
TWI533686B (zh) | 2013-03-11 | 2016-05-11 | 緯創資通股份有限公司 | 虛擬頻道之管理方法、具有虛擬頻道之網路多媒體重現系統和電腦可讀取記錄媒體 |
US11393461B2 (en) | 2013-03-12 | 2022-07-19 | Cerence Operating Company | Methods and apparatus for detecting a voice command |
WO2014165032A1 (en) | 2013-03-12 | 2014-10-09 | Aawtend, Inc. | Integrated sensor-array processor |
CN105009203A (zh) | 2013-03-12 | 2015-10-28 | 纽昂斯通讯公司 | 用于检测语音命令的方法和装置 |
KR20140111859A (ko) | 2013-03-12 | 2014-09-22 | 삼성전자주식회사 | 콘텐트 공유 방법 및 이를 위한 디바이스 |
US9357306B2 (en) | 2013-03-12 | 2016-05-31 | Nokia Technologies Oy | Multichannel audio calibration method and apparatus |
US9361885B2 (en) | 2013-03-12 | 2016-06-07 | Nuance Communications, Inc. | Methods and apparatus for detecting a voice command |
US9173021B2 (en) | 2013-03-12 | 2015-10-27 | Google Technology Holdings LLC | Method and device for adjusting an audio beam orientation based on device location |
US9060052B2 (en) | 2013-03-13 | 2015-06-16 | Accusonus S.A. | Single channel, binaural and multi-channel dereverberation |
KR101571338B1 (ko) | 2013-03-13 | 2015-11-24 | 삼성전자주식회사 | 복수의 재생 장치들이 스트리밍 컨텐트를 동기화하여 재생하는 방법 및 이를 위한 장치 |
US20140274185A1 (en) | 2013-03-14 | 2014-09-18 | Aliphcom | Intelligence device connection for wireless media ecosystem |
CN105144754B (zh) | 2013-03-14 | 2017-03-15 | 苹果公司 | 扬声器与调节由房间中的扬声器发出的声音的方法和设备 |
JP6013951B2 (ja) | 2013-03-14 | 2016-10-25 | 本田技研工業株式会社 | 環境音検索装置、環境音検索方法 |
KR102152754B1 (ko) | 2013-03-14 | 2020-09-07 | 삼성전자주식회사 | 블루루스 디바이스에서 통신 연결 방법 및 그 장치 |
US20140278933A1 (en) | 2013-03-15 | 2014-09-18 | F. Gavin McMillan | Methods and apparatus to measure audience engagement with media |
US9626436B2 (en) | 2013-03-15 | 2017-04-18 | Spotify Ab | Systems, methods, and computer readable medium for generating playlists |
US9854081B2 (en) | 2013-03-15 | 2017-12-26 | Apple Inc. | Volume control for mobile device using a wireless device |
US9201865B2 (en) | 2013-03-15 | 2015-12-01 | Bao Tran | Automated assistance for user request that determines semantics by domain, task, and parameter |
US9888316B2 (en) | 2013-03-21 | 2018-02-06 | Nuance Communications, Inc. | System and method for identifying suboptimal microphone performance |
WO2014157433A1 (en) | 2013-03-26 | 2014-10-02 | Semiconductor Energy Laboratory Co., Ltd. | Light-emitting element, light-emitting device, electronic device, and lighting device |
CA2897539C (en) | 2013-04-04 | 2016-05-17 | James S. RAND | Unified communications system and method |
JP6300589B2 (ja) | 2013-04-04 | 2018-03-28 | 株式会社半導体エネルギー研究所 | 半導体装置の作製方法 |
JP6198432B2 (ja) | 2013-04-09 | 2017-09-20 | 小島プレス工業株式会社 | 音声認識制御装置 |
WO2014172299A1 (en) | 2013-04-15 | 2014-10-23 | Chacha Search, Inc. | Method and system of increasing user interaction |
US9875494B2 (en) | 2013-04-16 | 2018-01-23 | Sri International | Using intents to analyze and personalize a user's dialog experience with a virtual personal assistant |
US9501533B2 (en) | 2013-04-16 | 2016-11-22 | Sonos, Inc. | Private queue for a media playback system |
US9304736B1 (en) | 2013-04-18 | 2016-04-05 | Amazon Technologies, Inc. | Voice controlled assistant with non-verbal code entry |
JP6416752B2 (ja) | 2013-04-19 | 2018-10-31 | パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America | 家電機器の制御方法、家電機器制御システム、及びゲートウェイ |
US9936290B2 (en) | 2013-05-03 | 2018-04-03 | Qualcomm Incorporated | Multi-channel echo cancellation and noise suppression |
US9892729B2 (en) | 2013-05-07 | 2018-02-13 | Qualcomm Incorporated | Method and apparatus for controlling voice activation |
US20140337031A1 (en) * | 2013-05-07 | 2014-11-13 | Qualcomm Incorporated | Method and apparatus for detecting a target keyword |
KR102230139B1 (ko) | 2013-05-17 | 2021-03-18 | 가부시키가이샤 한도오따이 에네루기 켄큐쇼 | 발광 소자, 조명 장치, 발광 장치, 및 전자 기기 |
CN109584868B (zh) | 2013-05-20 | 2022-12-13 | 英特尔公司 | 用于虚拟个人助理系统的自然人-计算机交互 |
US9472201B1 (en) | 2013-05-22 | 2016-10-18 | Google Inc. | Speaker localization by means of tactile input |
US20140358535A1 (en) | 2013-05-28 | 2014-12-04 | Samsung Electronics Co., Ltd. | Method of executing voice recognition of electronic device and electronic device using the same |
US9390708B1 (en) * | 2013-05-28 | 2016-07-12 | Amazon Technologies, Inc. | Low latency and memory efficient keywork spotting |
US9215545B2 (en) | 2013-05-31 | 2015-12-15 | Bose Corporation | Sound stage controller for a near-field speaker-based audio system |
US20140357248A1 (en) | 2013-06-03 | 2014-12-04 | Ford Global Technologies, Llc | Apparatus and System for Interacting with a Vehicle and a Device in a Vehicle |
US9438193B2 (en) | 2013-06-05 | 2016-09-06 | Sonos, Inc. | Satellite volume control |
US20140365225A1 (en) | 2013-06-05 | 2014-12-11 | DSP Group | Ultra-low-power adaptive, user independent, voice triggering schemes |
US9654073B2 (en) | 2013-06-07 | 2017-05-16 | Sonos, Inc. | Group volume control |
WO2014197336A1 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for detecting errors in interactions with a voice-based digital assistant |
WO2014197335A1 (en) | 2013-06-08 | 2014-12-11 | Apple Inc. | Interpreting and acting upon commands that involve sharing information with remote devices |
CN105284168B (zh) | 2013-06-09 | 2019-06-14 | 苹果公司 | 蓝牙警示通知服务 |
US9787273B2 (en) | 2013-06-13 | 2017-10-10 | Google Technology Holdings LLC | Smart volume control of device audio output based on received audio input |
US9641891B2 (en) | 2013-06-17 | 2017-05-02 | Spotify Ab | System and method for determining whether to use cached media |
US8953778B2 (en) | 2013-06-17 | 2015-02-10 | Avaya Inc. | Real-time intelligent mute interactive features |
US9324322B1 (en) | 2013-06-18 | 2016-04-26 | Amazon Technologies, Inc. | Automatic volume attenuation for speech enabled devices |
US9494683B1 (en) | 2013-06-18 | 2016-11-15 | Amazon Technologies, Inc. | Audio-based gesture detection |
US9311298B2 (en) | 2013-06-21 | 2016-04-12 | Microsoft Technology Licensing, Llc | Building conversational understanding systems using a toolset |
US9697831B2 (en) | 2013-06-26 | 2017-07-04 | Cirrus Logic, Inc. | Speech recognition |
US9640179B1 (en) | 2013-06-27 | 2017-05-02 | Amazon Technologies, Inc. | Tailoring beamforming techniques to environments |
US9747899B2 (en) | 2013-06-27 | 2017-08-29 | Amazon Technologies, Inc. | Detecting self-generated wake expressions |
WO2014210429A1 (en) * | 2013-06-28 | 2014-12-31 | Harman International Industries, Inc. | Wireless control of linked devices |
US20150019201A1 (en) | 2013-07-09 | 2015-01-15 | Stanley F. Schoenbach | Real-time interpreting systems and methods |
US9298415B2 (en) | 2013-07-09 | 2016-03-29 | Sonos, Inc. | Systems and methods to provide play/pause content |
US9396727B2 (en) | 2013-07-10 | 2016-07-19 | GM Global Technology Operations LLC | Systems and methods for spoken dialog service arbitration |
US9293480B2 (en) | 2013-07-10 | 2016-03-22 | Semiconductor Energy Laboratory Co., Ltd. | Semiconductor device and display device including the semiconductor device |
US9445209B2 (en) | 2013-07-11 | 2016-09-13 | Intel Corporation | Mechanism and apparatus for seamless voice wake and speaker verification |
DE102014109122A1 (de) | 2013-07-12 | 2015-01-15 | Gm Global Technology Operations, Llc | Systeme und Verfahren für ergebnisbezogene Arbitrierung in Sprachdialogsystemen |
WO2015009748A1 (en) | 2013-07-15 | 2015-01-22 | Dts, Inc. | Spatial calibration of surround sound systems including listener position estimation |
US9445196B2 (en) | 2013-07-24 | 2016-09-13 | Mh Acoustics Llc | Inter-channel coherence reduction for stereophonic and multichannel acoustic echo cancellation |
US9431014B2 (en) | 2013-07-25 | 2016-08-30 | Haier Us Appliance Solutions, Inc. | Intelligent placement of appliance response to voice command |
US9772994B2 (en) | 2013-07-25 | 2017-09-26 | Intel Corporation | Self-learning statistical natural language processing for automatic production of virtual personal assistants |
US9666187B1 (en) | 2013-07-25 | 2017-05-30 | Google Inc. | Model for enabling service providers to address voice-activated commands |
US9418651B2 (en) | 2013-07-31 | 2016-08-16 | Google Technology Holdings LLC | Method and apparatus for mitigating false accepts of trigger phrases |
US10186262B2 (en) | 2013-07-31 | 2019-01-22 | Microsoft Technology Licensing, Llc | System with multiple simultaneous speech recognizers |
US9548047B2 (en) | 2013-07-31 | 2017-01-17 | Google Technology Holdings LLC | Method and apparatus for evaluating trigger phrase enrollment |
WO2015017303A1 (en) | 2013-07-31 | 2015-02-05 | Motorola Mobility Llc | Method and apparatus for adjusting voice recognition processing based on noise characteristics |
DE102013012811B4 (de) | 2013-08-01 | 2024-02-22 | Wolfgang Klippel | Anordnung und Verfahren zur Identifikation und Korrektur der nichtlinearen Eigenschaften elektromagnetischer Wandler |
US9565497B2 (en) | 2013-08-01 | 2017-02-07 | Caavo Inc. | Enhancing audio using a mobile device |
US10873997B2 (en) | 2013-08-01 | 2020-12-22 | Fong-Min Chang | Voice controlled artificial intelligent smart illumination device |
EP3036594B1 (en) | 2013-08-21 | 2021-05-26 | Ademco Inc. | Devices and methods for interacting with an hvac controller |
US9940927B2 (en) | 2013-08-23 | 2018-04-10 | Nuance Communications, Inc. | Multiple pass automatic speech recognition methods and apparatus |
US9190043B2 (en) | 2013-08-27 | 2015-11-17 | Bose Corporation | Assisting conversation in noisy environments |
US9514747B1 (en) | 2013-08-28 | 2016-12-06 | Amazon Technologies, Inc. | Reducing speech recognition latency |
TWI520127B (zh) | 2013-08-28 | 2016-02-01 | 晨星半導體股份有限公司 | 應用於音訊裝置的控制器與相關的操作方法 |
CN103718528B (zh) | 2013-08-30 | 2016-09-28 | 华为技术有限公司 | 一种多终端协同播放多媒体文件的方法和相关装置及系统 |
WO2015037396A1 (ja) | 2013-09-11 | 2015-03-19 | 株式会社デンソー | 音声出力制御装置、プログラムおよび記録媒体 |
US9672812B1 (en) | 2013-09-18 | 2017-06-06 | Amazon Technologies, Inc. | Qualifying trigger expressions in speech-based systems |
US9516081B2 (en) | 2013-09-20 | 2016-12-06 | Amazon Technologies, Inc. | Reduced latency electronic content system |
US9848260B2 (en) | 2013-09-24 | 2017-12-19 | Nuance Communications, Inc. | Wearable communication enhancement device |
US9668052B2 (en) | 2013-09-25 | 2017-05-30 | Google Technology Holdings LLC | Audio routing system for routing audio data to and from a mobile device |
US9355555B2 (en) | 2013-09-27 | 2016-05-31 | Sonos, Inc. | System and method for issuing commands in a media playback system |
US9443527B1 (en) | 2013-09-27 | 2016-09-13 | Amazon Technologies, Inc. | Speech recognition capability generation and control |
US9288596B2 (en) | 2013-09-30 | 2016-03-15 | Sonos, Inc. | Coordinator device for paired or consolidated players |
CN103546616A (zh) | 2013-09-30 | 2014-01-29 | 深圳市同洲电子股份有限公司 | 一种调节音量的方法及装置 |
KR102114219B1 (ko) | 2013-10-10 | 2020-05-25 | 삼성전자주식회사 | 오디오 시스템 및 오디오 출력 방법, 그리고 스피커 장치 |
US9245527B2 (en) | 2013-10-11 | 2016-01-26 | Apple Inc. | Speech recognition wake-up of a handheld portable electronic device |
TWI642170B (zh) | 2013-10-18 | 2018-11-21 | 半導體能源研究所股份有限公司 | 顯示裝置及電子裝置 |
US9300268B2 (en) | 2013-10-18 | 2016-03-29 | Apple Inc. | Content aware audio ducking |
US9633671B2 (en) | 2013-10-18 | 2017-04-25 | Apple Inc. | Voice quality enhancement techniques, speech recognition techniques, and related systems |
US9818061B1 (en) | 2013-10-22 | 2017-11-14 | Lumin, LLC | Collaboration of audio sensors for geo-location and continuous tracking of multiple users in a device-independent artificial intelligence (AI) environment |
WO2015060867A1 (en) | 2013-10-25 | 2015-04-30 | Intel Corporation | Techniques for preventing voice replay attacks |
EP2869599B1 (en) | 2013-11-05 | 2020-10-21 | Oticon A/s | A binaural hearing assistance system comprising a database of head related transfer functions |
JP2015090570A (ja) | 2013-11-06 | 2015-05-11 | ソニー株式会社 | 情報処理装置および制御方法 |
US10311482B2 (en) | 2013-11-11 | 2019-06-04 | At&T Intellectual Property I, Lp | Method and apparatus for adjusting a digital assistant persona |
US8775191B1 (en) | 2013-11-13 | 2014-07-08 | Google Inc. | Efficient utterance-specific endpointer triggering for always-on hotwording |
JP6236303B2 (ja) | 2013-11-26 | 2017-11-22 | 株式会社デンソーアイティーラボラトリ | 制御装置、制御方法およびプログラム |
US9698999B2 (en) | 2013-12-02 | 2017-07-04 | Amazon Technologies, Inc. | Natural language control of secondary device |
US9373321B2 (en) | 2013-12-02 | 2016-06-21 | Cypress Semiconductor Corporation | Generation of wake-up words |
US9704478B1 (en) | 2013-12-02 | 2017-07-11 | Amazon Technologies, Inc. | Audio output masking for improved automatic speech recognition |
CN104143326B (zh) | 2013-12-03 | 2016-11-02 | 腾讯科技(深圳)有限公司 | 一种语音命令识别方法和装置 |
US8719039B1 (en) | 2013-12-05 | 2014-05-06 | Google Inc. | Promoting voice actions to hotwords |
US10720153B2 (en) | 2013-12-13 | 2020-07-21 | Harman International Industries, Incorporated | Name-sensitive listening device |
US10055190B2 (en) | 2013-12-16 | 2018-08-21 | Amazon Technologies, Inc. | Attribute-based audio channel arbitration |
US9378651B2 (en) | 2013-12-17 | 2016-06-28 | Google Inc. | Audio book smart pause |
US9721570B1 (en) | 2013-12-17 | 2017-08-01 | Amazon Technologies, Inc. | Outcome-oriented dialogs on a speech recognition platform |
US10224056B1 (en) | 2013-12-17 | 2019-03-05 | Amazon Technologies, Inc. | Contingent device actions during loss of network connectivity |
GB2523984B (en) | 2013-12-18 | 2017-07-26 | Cirrus Logic Int Semiconductor Ltd | Processing received speech data |
US9899021B1 (en) | 2013-12-20 | 2018-02-20 | Amazon Technologies, Inc. | Stochastic modeling of user interactions with a detection system |
US9099974B2 (en) | 2013-12-20 | 2015-08-04 | Vmware, Inc. | Volume redirection |
US20150179181A1 (en) | 2013-12-20 | 2015-06-25 | Microsoft Corporation | Adapting audio based upon detected environmental accoustics |
WO2015094369A1 (en) | 2013-12-20 | 2015-06-25 | Intel Corporation | Transition from low power always listening mode to high power speech recognition mode |
EP2890160B1 (en) | 2013-12-24 | 2019-08-14 | Nxp B.V. | Loudspeaker controller |
US9301077B2 (en) | 2014-01-02 | 2016-03-29 | Harman International Industries, Incorporated | Context-based audio tuning |
US8938394B1 (en) | 2014-01-09 | 2015-01-20 | Google Inc. | Audio triggers based on context |
US9443516B2 (en) | 2014-01-09 | 2016-09-13 | Honeywell International Inc. | Far-field speech recognition systems and methods |
EP3092824B1 (en) | 2014-01-10 | 2017-11-01 | Dolby Laboratories Licensing Corporation | Calibration of virtual height speakers using programmable portable devices |
US9300647B2 (en) | 2014-01-15 | 2016-03-29 | Sonos, Inc. | Software application and zones |
US9288597B2 (en) | 2014-01-20 | 2016-03-15 | Sony Corporation | Distributed wireless speaker system with automatic configuration determination when new speakers are added |
DE112014006235T5 (de) | 2014-01-22 | 2016-10-13 | Apple Inc. | Koordiniertes Weiterreichen einer Audiodatenübermittlung |
US9356882B2 (en) | 2014-02-04 | 2016-05-31 | Printeron Inc. | Streamlined system for the transmission of network resource data |
US9443876B2 (en) | 2014-02-05 | 2016-09-13 | Semiconductor Energy Laboratory Co., Ltd. | Semiconductor device, display device including the semiconductor device, display module including the display device, and electronic device including the semiconductor device, the display device, and the display module |
US9929368B2 (en) | 2014-02-06 | 2018-03-27 | Semiconductor Energy Laboratory Co., Ltd. | Light-emitting element, lighting device, and electronic appliance |
US9652532B2 (en) | 2014-02-06 | 2017-05-16 | Sr Homedics, Llc | Methods for operating audio speaker systems |
TWI685116B (zh) | 2014-02-07 | 2020-02-11 | 日商半導體能源研究所股份有限公司 | 半導體裝置 |
US9318112B2 (en) | 2014-02-14 | 2016-04-19 | Google Inc. | Recognizing speech in the presence of additional audio |
JP6289936B2 (ja) | 2014-02-26 | 2018-03-07 | 株式会社東芝 | 音源方向推定装置、音源方向推定方法およびプログラム |
FR3018024B1 (fr) | 2014-02-26 | 2016-03-18 | Devialet | Dispositif de commande d'un haut-parleur |
FR3018025B1 (fr) | 2014-02-26 | 2016-03-18 | Devialet | Dispositif de commande d'un haut-parleur |
US9408008B2 (en) | 2014-02-28 | 2016-08-02 | Sonos, Inc. | Playback zone representations |
US10015593B2 (en) | 2014-03-03 | 2018-07-03 | University Of Utah | Digital signal processor for audio extensions and correction of nonlinear distortions in loudspeakers |
EP3739460A1 (en) | 2014-03-03 | 2020-11-18 | Sony Corporation | Information processing apparatus, information processing method, and program |
US9489171B2 (en) | 2014-03-04 | 2016-11-08 | Microsoft Technology Licensing, Llc | Voice-command suggestions based on user identity |
US9679054B2 (en) | 2014-03-05 | 2017-06-13 | Sonos, Inc. | Webpage media playback |
US10599287B2 (en) | 2014-03-11 | 2020-03-24 | Sonos, Inc. | Group volume control |
US9640669B2 (en) | 2014-03-13 | 2017-05-02 | Semiconductor Energy Laboratory Co., Ltd. | Semiconductor device, display device including the semiconductor device, display module including the display device, and electronic appliance including the semiconductor device, the display device, and the display module |
US9264839B2 (en) | 2014-03-17 | 2016-02-16 | Sonos, Inc. | Playback device configuration based on proximity detection |
US9226062B2 (en) | 2014-03-18 | 2015-12-29 | Cisco Technology, Inc. | Techniques to mitigate the effect of blocked sound at microphone arrays in a telepresence device |
US10514747B2 (en) | 2014-03-24 | 2019-12-24 | Silicon Laboratories Inc. | Low-power communication apparatus with wakeup detection and associated methods |
US9654076B2 (en) | 2014-03-25 | 2017-05-16 | Apple Inc. | Metadata for ducking control |
US9648564B1 (en) | 2014-03-26 | 2017-05-09 | Amazon Technologies, Inc. | Wake-up management for mobile devices |
US9431021B1 (en) | 2014-03-27 | 2016-08-30 | Amazon Technologies, Inc. | Device grouping for audio based interactivity |
US9916839B1 (en) | 2014-03-27 | 2018-03-13 | Amazon Technologies, Inc. | Shared audio functionality based on device grouping |
US9547468B2 (en) | 2014-03-31 | 2017-01-17 | Microsoft Technology Licensing, Llc | Client-side personal voice web navigation |
KR102146462B1 (ko) | 2014-03-31 | 2020-08-20 | 삼성전자주식회사 | 음성 인식 시스템 및 방법 |
US8874448B1 (en) | 2014-04-01 | 2014-10-28 | Google Inc. | Attention-based dynamic audio level adjustment |
US9640183B2 (en) | 2014-04-07 | 2017-05-02 | Samsung Electronics Co., Ltd. | Speech recognition using electronic device and server |
US9560437B2 (en) | 2014-04-08 | 2017-01-31 | Doppler Labs, Inc. | Time heuristic audio control |
US9510094B2 (en) | 2014-04-09 | 2016-11-29 | Apple Inc. | Noise estimation in a mobile device using an external acoustic microphone signal |
DE102014005381B3 (de) | 2014-04-11 | 2014-12-11 | Wolfgang Klippel | Anordnung und Verfahren zur Identifikation und Kompensation nichtlinearer Partialschwingungen elektromechanischer Wandler |
US9953632B2 (en) * | 2014-04-17 | 2018-04-24 | Qualcomm Incorporated | Keyword model generation for detecting user-defined keyword |
US20150302856A1 (en) | 2014-04-17 | 2015-10-22 | Qualcomm Incorporated | Method and apparatus for performing function by speech input |
US20150334471A1 (en) | 2014-05-15 | 2015-11-19 | Echostar Technologies L.L.C. | Multiple simultaneous audio video data decoding |
WO2015178950A1 (en) | 2014-05-19 | 2015-11-26 | Tiskerling Dynamics Llc | Directivity optimized sound reproduction |
CN106465458B (zh) | 2014-05-23 | 2019-12-13 | 三星电子株式会社 | 用于提供通知的方法和设备 |
US9860289B2 (en) | 2014-05-23 | 2018-01-02 | Radeeus, Inc. | Multimedia digital content retrieval, matching, and syncing systems and methods of using the same |
US9900723B1 (en) | 2014-05-28 | 2018-02-20 | Apple Inc. | Multi-channel loudspeaker matching using variable directivity |
US9715875B2 (en) | 2014-05-30 | 2017-07-25 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
WO2015184186A1 (en) | 2014-05-30 | 2015-12-03 | Apple Inc. | Multi-command single utterance input method |
TWI682563B (zh) | 2014-05-30 | 2020-01-11 | 日商半導體能源研究所股份有限公司 | 發光元件,發光裝置,電子裝置以及照明裝置 |
US10318016B2 (en) | 2014-06-03 | 2019-06-11 | Harman International Industries, Incorporated | Hands free device with directional interface |
US20150355818A1 (en) | 2014-06-04 | 2015-12-10 | Sonos, Inc. | Continuous Playback Queue |
US9720642B2 (en) | 2014-06-04 | 2017-08-01 | Sonos, Inc. | Prioritizing media content requests |
US10624612B2 (en) | 2014-06-05 | 2020-04-21 | Chikayoshi Sumi | Beamforming method, measurement and imaging instruments, and communication instruments |
US9615170B2 (en) | 2014-06-09 | 2017-04-04 | Harman International Industries, Inc. | Approach for partially preserving music in the presence of intelligible speech |
CN104092936B (zh) | 2014-06-12 | 2017-01-04 | 小米科技有限责任公司 | 自动对焦方法及装置 |
US20150363061A1 (en) | 2014-06-13 | 2015-12-17 | Autonomic Controls, Inc. | System and method for providing related digital content |
US9767159B2 (en) | 2014-06-13 | 2017-09-19 | Google Inc. | Ranking search results |
US9766702B2 (en) | 2014-06-19 | 2017-09-19 | Apple Inc. | User detection by a computing device |
US9520139B2 (en) | 2014-06-19 | 2016-12-13 | Yang Gao | Post tone suppression for speech enhancement |
US9589556B2 (en) | 2014-06-19 | 2017-03-07 | Yang Gao | Energy adjustment of acoustic echo replica signal for speech enhancement |
US20150373100A1 (en) | 2014-06-19 | 2015-12-24 | Pavel KRAVETS | Context sharing between different clients |
US9697828B1 (en) | 2014-06-20 | 2017-07-04 | Amazon Technologies, Inc. | Keyword detection modeling using contextual and environmental information |
US20150371628A1 (en) | 2014-06-23 | 2015-12-24 | Harman International Industries, Inc. | User-adapted speech recognition |
US10152987B2 (en) | 2014-06-23 | 2018-12-11 | Google Llc | Remote invocation of mobile device actions |
US9632748B2 (en) | 2014-06-24 | 2017-04-25 | Google Inc. | Device designation for audio input monitoring |
US9691379B1 (en) | 2014-06-26 | 2017-06-27 | Amazon Technologies, Inc. | Selecting from multiple content sources |
US9368105B1 (en) | 2014-06-26 | 2016-06-14 | Amazon Technologies, Inc. | Preventing false wake word detections with a voice-controlled device |
US9335819B1 (en) | 2014-06-26 | 2016-05-10 | Audible, Inc. | Automatic creation of sleep bookmarks in content items |
US9639854B2 (en) | 2014-06-26 | 2017-05-02 | Nuance Communications, Inc. | Voice-controlled information exchange platform, such as for providing information to supplement advertising |
US9398392B2 (en) | 2014-06-30 | 2016-07-19 | Microsoft Technology Licensing, Llc | Audio calibration and adjustment |
US9338493B2 (en) | 2014-06-30 | 2016-05-10 | Apple Inc. | Intelligent automated assistant for TV user interactions |
US9420331B2 (en) | 2014-07-07 | 2016-08-16 | Google Inc. | Method and system for categorizing detected motion events |
US11330100B2 (en) | 2014-07-09 | 2022-05-10 | Ooma, Inc. | Server based intelligent personal assistant services |
US9374634B2 (en) | 2014-07-10 | 2016-06-21 | Nxp B.V. | System for controlling displacement of a loudspeaker |
US9467737B2 (en) | 2014-07-14 | 2016-10-11 | Sonos, Inc. | Zone group control |
JP2016024212A (ja) | 2014-07-16 | 2016-02-08 | ソニー株式会社 | 情報処理装置、情報処理方法およびプログラム |
US10209947B2 (en) | 2014-07-23 | 2019-02-19 | Sonos, Inc. | Device grouping |
US9671997B2 (en) | 2014-07-23 | 2017-06-06 | Sonos, Inc. | Zone grouping |
US9263042B1 (en) | 2014-07-25 | 2016-02-16 | Google Inc. | Providing pre-computed hotword models |
KR20160017253A (ko) | 2014-08-01 | 2016-02-16 | 삼성전자주식회사 | 디스플레이 구동용 집적 회로 칩 |
US9874997B2 (en) | 2014-08-08 | 2018-01-23 | Sonos, Inc. | Social playback queues |
US9548066B2 (en) | 2014-08-11 | 2017-01-17 | Amazon Technologies, Inc. | Voice application architecture |
US9769552B2 (en) | 2014-08-19 | 2017-09-19 | Apple Inc. | Method and apparatus for estimating talker distance |
US20160055847A1 (en) | 2014-08-19 | 2016-02-25 | Nuance Communications, Inc. | System and method for speech validation |
JP6118838B2 (ja) | 2014-08-21 | 2017-04-19 | 本田技研工業株式会社 | 情報処理装置、情報処理システム、情報処理方法、及び情報処理プログラム |
DE112015003945T5 (de) | 2014-08-28 | 2017-05-11 | Knowles Electronics, Llc | Mehrquellen-Rauschunterdrückung |
KR20160026317A (ko) | 2014-08-29 | 2016-03-09 | 삼성전자주식회사 | 음성 녹음 방법 및 장치 |
US9560050B2 (en) | 2014-09-08 | 2017-01-31 | At&T Intellectual Property I, L.P | System and method to share a resource or a capability of a device |
US9910634B2 (en) | 2014-09-09 | 2018-03-06 | Sonos, Inc. | Microphone calibration |
US9354687B2 (en) | 2014-09-11 | 2016-05-31 | Nuance Communications, Inc. | Methods and apparatus for unsupervised wakeup with time-correlated acoustic events |
US10789041B2 (en) | 2014-09-12 | 2020-09-29 | Apple Inc. | Dynamic thresholds for always listening speech trigger |
US9747011B2 (en) | 2014-09-16 | 2017-08-29 | Google Inc. | Continuation of playback of media content by different output devices |
US9548053B1 (en) | 2014-09-19 | 2017-01-17 | Amazon Technologies, Inc. | Audible command filtering |
US10645130B2 (en) | 2014-09-24 | 2020-05-05 | Sonos, Inc. | Playback updates |
US9641919B1 (en) | 2014-09-30 | 2017-05-02 | Amazon Technologies, Inc. | Audio assemblies for electronic devices |
US9681228B2 (en) | 2014-09-30 | 2017-06-13 | Apple Inc. | Capacitive position sensing for transducers |
GB2525051B (en) | 2014-09-30 | 2016-04-13 | Imagination Tech Ltd | Detection of acoustic echo cancellation |
US10127911B2 (en) | 2014-09-30 | 2018-11-13 | Apple Inc. | Speaker identification and unsupervised speaker adaptation techniques |
JP6624368B2 (ja) | 2014-09-30 | 2019-12-25 | パナソニックIpマネジメント株式会社 | 接客モニタリングシステム及び接客モニタリング方法 |
EP3201913A4 (en) | 2014-10-01 | 2018-06-06 | Xbrain Inc. | Voice and connection platform |
US10817672B2 (en) | 2014-10-01 | 2020-10-27 | Nuance Communications, Inc. | Natural language understanding (NLU) processing based on user-specified interests |
US9812128B2 (en) | 2014-10-09 | 2017-11-07 | Google Inc. | Device leadership negotiation among voice interface devices |
KR102287943B1 (ko) | 2014-10-14 | 2021-08-09 | 삼성전자주식회사 | 전자 기기, 상기 전자 기기의 음량 조절 방법 및 상기 전자 기기의 제어 방법 |
EP3010251B1 (en) | 2014-10-15 | 2019-11-13 | Nxp B.V. | Audio system |
US20160162469A1 (en) | 2014-10-23 | 2016-06-09 | Audience, Inc. | Dynamic Local ASR Vocabulary |
US9743127B2 (en) | 2014-10-30 | 2017-08-22 | Verizon Patent And Licensing Inc. | Media service user interface systems and methods |
US9530408B2 (en) | 2014-10-31 | 2016-12-27 | At&T Intellectual Property I, L.P. | Acoustic environment recognizer for optimal speech processing |
US10368121B2 (en) | 2014-11-07 | 2019-07-30 | Roku, Inc. | System and method for collecting data |
US9699550B2 (en) | 2014-11-12 | 2017-07-04 | Qualcomm Incorporated | Reduced microphone power-up latency |
US20160134982A1 (en) | 2014-11-12 | 2016-05-12 | Harman International Industries, Inc. | System and method for estimating the displacement of a speaker cone |
JP2016095383A (ja) | 2014-11-14 | 2016-05-26 | 株式会社ATR−Trek | 音声認識クライアント装置及びサーバ型音声認識装置 |
US10116748B2 (en) | 2014-11-20 | 2018-10-30 | Microsoft Technology Licensing, Llc | Vehicle-based multi-modal interface |
KR102299330B1 (ko) | 2014-11-26 | 2021-09-08 | 삼성전자주식회사 | 음성 인식 방법 및 그 전자 장치 |
US10431214B2 (en) | 2014-11-26 | 2019-10-01 | Voicebox Technologies Corporation | System and method of determining a domain and/or an action related to a natural language input |
WO2016082046A1 (en) | 2014-11-28 | 2016-06-02 | Audera Acoustics Inc. | High displacement acoustic transducer systems |
US9812126B2 (en) | 2014-11-28 | 2017-11-07 | Microsoft Technology Licensing, Llc | Device arbitration for listening devices |
US10192549B2 (en) | 2014-11-28 | 2019-01-29 | Microsoft Technology Licensing, Llc | Extending digital personal assistant action providers |
US10126406B2 (en) | 2014-12-02 | 2018-11-13 | Qualcomm Incorporated | Method and apparatus for performing ultrasonic presence detection |
CN104538030A (zh) | 2014-12-11 | 2015-04-22 | 科大讯飞股份有限公司 | 一种可以通过语音控制家电的控制系统与方法 |
CN107209549B (zh) | 2014-12-11 | 2020-04-17 | 微软技术许可有限责任公司 | 能够实现可动作的消息传送的虚拟助理系统 |
US9779725B2 (en) | 2014-12-11 | 2017-10-03 | Mediatek Inc. | Voice wakeup detecting device and method |
US9775113B2 (en) | 2014-12-11 | 2017-09-26 | Mediatek Inc. | Voice wakeup detecting device with digital microphone and associated method |
US9813812B2 (en) | 2014-12-12 | 2017-11-07 | Analog Devices Global | Method of controlling diaphragm excursion of electrodynamic loudspeakers |
US9552816B2 (en) | 2014-12-19 | 2017-01-24 | Amazon Technologies, Inc. | Application focus in speech-based systems |
US9560441B1 (en) | 2014-12-24 | 2017-01-31 | Amazon Technologies, Inc. | Determining speaker direction using a spherical microphone array |
CN104575504A (zh) | 2014-12-24 | 2015-04-29 | 上海师范大学 | 采用声纹和语音识别进行个性化电视语音唤醒的方法 |
CN104635539A (zh) | 2014-12-26 | 2015-05-20 | 东莞市掌商信息科技有限公司 | 一种智能硬件远程语音安全控制方法及其系统 |
US10572810B2 (en) | 2015-01-07 | 2020-02-25 | Microsoft Technology Licensing, Llc | Managing user interaction for input understanding determinations |
DE112016000287T5 (de) | 2015-01-07 | 2017-10-05 | Knowles Electronics, Llc | Verwendung von digitalen Mikrofonen zur Niedrigleistung-Schlüsselworterkennung und Rauschunterdrückung |
US9934406B2 (en) | 2015-01-08 | 2018-04-03 | Microsoft Technology Licensing, Llc | Protecting private information in input understanding system |
US9584915B2 (en) | 2015-01-19 | 2017-02-28 | Microsoft Technology Licensing, Llc | Spatial audio with remote speakers |
US20160210110A1 (en) | 2015-01-21 | 2016-07-21 | Ford Global Technologies, Llc | Audio synchronization between vehicles and mobile devices |
US9947313B2 (en) | 2015-01-26 | 2018-04-17 | William Drewes | Method for substantial ongoing cumulative voice recognition error reduction |
KR102351366B1 (ko) | 2015-01-26 | 2022-01-14 | 삼성전자주식회사 | 음성 인식 방법 및 장치 |
CN104572009B (zh) | 2015-01-28 | 2018-01-09 | 合肥联宝信息技术有限公司 | 一种自适应外界环境的音频控制方法及装置 |
US9633661B1 (en) | 2015-02-02 | 2017-04-25 | Amazon Technologies, Inc. | Speech-responsive portable speaker |
GB201501791D0 (en) | 2015-02-03 | 2015-03-18 | Microsoft Technology Licensing Llc | Non-linear echo path detection |
US20160232451A1 (en) | 2015-02-09 | 2016-08-11 | Velocee Ltd. | Systems and methods for managing audio content |
US9521496B2 (en) | 2015-02-12 | 2016-12-13 | Harman International Industries, Inc. | Media content playback system and method |
US10121472B2 (en) | 2015-02-13 | 2018-11-06 | Knowles Electronics, Llc | Audio buffer catch-up apparatus and method with two microphones |
US20160239255A1 (en) | 2015-02-16 | 2016-08-18 | Harman International Industries, Inc. | Mobile interface for loudspeaker optimization |
US20160253050A1 (en) | 2015-02-26 | 2016-09-01 | Fingertips Lab, Inc. | System and method for audio and tactile based browsing |
US20170337921A1 (en) | 2015-02-27 | 2017-11-23 | Sony Corporation | Information processing device, information processing method, and program |
US9721566B2 (en) | 2015-03-08 | 2017-08-01 | Apple Inc. | Competing devices responding to voice triggers |
US10762894B2 (en) | 2015-03-27 | 2020-09-01 | Google Llc | Convolutional neural networks |
US9697826B2 (en) | 2015-03-27 | 2017-07-04 | Google Inc. | Processing multi-channel audio waveforms |
US10192546B1 (en) | 2015-03-30 | 2019-01-29 | Amazon Technologies, Inc. | Pre-wakeword speech processing |
US10034109B2 (en) | 2015-04-09 | 2018-07-24 | Audera Acoustics Inc. | Acoustic transducer systems with position sensing |
US9678707B2 (en) | 2015-04-10 | 2017-06-13 | Sonos, Inc. | Identification of audio content facilitated by playback device |
US10198242B2 (en) | 2015-04-14 | 2019-02-05 | Motorola Solutions, Inc. | Method and apparatus for a volume of a device |
US10079012B2 (en) | 2015-04-21 | 2018-09-18 | Google Llc | Customizing speech-recognition dictionaries in a smart-home environment |
US10178474B2 (en) | 2015-04-21 | 2019-01-08 | Google Llc | Sound signature database for initialization of noise reduction in recordings |
US9472196B1 (en) | 2015-04-22 | 2016-10-18 | Google Inc. | Developer voice actions system |
CN104853405B (zh) | 2015-05-12 | 2018-11-30 | 浙江生辉照明有限公司 | 智能联网方法及智能设备 |
KR102623039B1 (ko) | 2015-05-15 | 2024-01-08 | 가부시키가이샤 한도오따이 에네루기 켄큐쇼 | 발광 소자, 발광 장치, 전자 기기 및 조명 장치 |
EP3096277A1 (en) | 2015-05-19 | 2016-11-23 | ResearchGate GmbH | Enhanced online user-interaction tracking |
US10070237B2 (en) | 2015-05-21 | 2018-09-04 | Analog Devices, Inc. | Optical and capacitive sensing of electroacoustic transducers |
TWI757234B (zh) | 2015-05-21 | 2022-03-11 | 日商半導體能源研究所股份有限公司 | 發光元件、顯示裝置、電子裝置、及照明裝置 |
KR20180011134A (ko) | 2015-05-21 | 2018-01-31 | 가부시키가이샤 한도오따이 에네루기 켄큐쇼 | 발광 소자, 표시 장치, 전자 기기, 및 조명 장치 |
US9837547B2 (en) | 2015-05-22 | 2017-12-05 | Semiconductor Energy Laboratory Co., Ltd. | Semiconductor device comprising oxide conductor and display device including the semiconductor device |
JP2016218852A (ja) | 2015-05-22 | 2016-12-22 | ソニー株式会社 | 情報処理装置および情報処理方法、並びにプログラム |
EP3099047A1 (en) | 2015-05-28 | 2016-11-30 | Nxp B.V. | Echo controller |
US9584935B2 (en) | 2015-05-29 | 2017-02-28 | Sound United, Llc. | Multi-zone media system and method for providing multi-zone media |
US10657949B2 (en) | 2015-05-29 | 2020-05-19 | Sound United, LLC | System and method for integrating a home media system and other home systems |
US9734822B1 (en) | 2015-06-01 | 2017-08-15 | Amazon Technologies, Inc. | Feedback based beamformed signal selection |
US9864571B2 (en) | 2015-06-04 | 2018-01-09 | Sonos, Inc. | Dynamic bonding of playback devices |
US9672821B2 (en) | 2015-06-05 | 2017-06-06 | Apple Inc. | Robust speech recognition in the presence of echo and noise using multiple signals for discrimination |
US9736578B2 (en) | 2015-06-07 | 2017-08-15 | Apple Inc. | Microphone-based orientation sensors and related techniques |
US10249205B2 (en) | 2015-06-08 | 2019-04-02 | Novel Effect, Inc. | System and method for integrating special effects with a text source |
KR102444075B1 (ko) | 2015-06-09 | 2022-09-16 | 삼성전자주식회사 | 전자 장치, 주변 기기 및 그 제어 방법 |
US10248376B2 (en) | 2015-06-11 | 2019-04-02 | Sonos, Inc. | Multiple groupings in a playback system |
US20160373909A1 (en) | 2015-06-17 | 2016-12-22 | Hive Life, LLC | Wireless audio, security communication and home automation |
WO2016203350A1 (en) | 2015-06-17 | 2016-12-22 | Semiconductor Energy Laboratory Co., Ltd. | Iridium complex, light-emitting element, display device, electronic device, and lighting device |
JP6739907B2 (ja) | 2015-06-18 | 2020-08-12 | パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America | 機器特定方法、機器特定装置及びプログラム |
US10025447B1 (en) | 2015-06-19 | 2018-07-17 | Amazon Technologies, Inc. | Multi-device user interface |
KR20170001173A (ko) | 2015-06-25 | 2017-01-04 | 엘지전자 주식회사 | 와치 타입 이동 단말기 및 그의 동작 방법 |
US9554210B1 (en) | 2015-06-25 | 2017-01-24 | Amazon Technologies, Inc. | Multichannel acoustic echo cancellation with unique individual channel estimations |
KR102317526B1 (ko) | 2015-06-25 | 2021-10-26 | 엘지전자 주식회사 | 헤드셋 및 그 제어 방법 |
US9472203B1 (en) | 2015-06-29 | 2016-10-18 | Amazon Technologies, Inc. | Clock synchronization for multichannel system |
US20160378747A1 (en) | 2015-06-29 | 2016-12-29 | Apple Inc. | Virtual assistant for media playback |
JP6602406B2 (ja) | 2015-06-30 | 2019-11-06 | フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン | データベースを生成するための方法および装置 |
KR20240035638A (ko) | 2015-07-08 | 2024-03-15 | 가부시키가이샤 한도오따이 에네루기 켄큐쇼 | 발광 소자, 표시 장치, 전자 장치, 및 조명 장치 |
US10304440B1 (en) | 2015-07-10 | 2019-05-28 | Amazon Technologies, Inc. | Keyword spotting using multi-task configuration |
KR20240047495A (ko) | 2015-07-21 | 2024-04-12 | 가부시키가이샤 한도오따이 에네루기 켄큐쇼 | 발광 소자, 표시 장치, 전자 기기, 및 조명 장치 |
US9686625B2 (en) | 2015-07-21 | 2017-06-20 | Disney Enterprises, Inc. | Systems and methods for delivery of personalized audio |
US9769563B2 (en) | 2015-07-22 | 2017-09-19 | Harman International Industries, Incorporated | Audio enhancement via opportunistic use of microphones |
KR102516496B1 (ko) | 2015-07-23 | 2023-04-04 | 가부시키가이샤 한도오따이 에네루기 켄큐쇼 | 발광 소자, 표시 장치, 전자 기기, 및 조명 장치 |
US20170034263A1 (en) | 2015-07-30 | 2017-02-02 | Amp Me Inc. | Synchronized Playback of Streamed Audio Content by Multiple Internet-Capable Portable Devices |
US10529318B2 (en) | 2015-07-31 | 2020-01-07 | International Business Machines Corporation | Implementing a classification model for recognition processing |
US9691361B2 (en) | 2015-08-03 | 2017-06-27 | International Business Machines Corporation | Adjusting presentation of content on a display |
KR102402512B1 (ko) | 2015-08-04 | 2022-05-27 | 삼성전자주식회사 | 외부장치의 음량을 조정하는 전자장치 및 방법 |
CN105187907A (zh) | 2015-08-05 | 2015-12-23 | 四川长虹电器股份有限公司 | 智能电视音量控制系统及控制方法 |
US9913056B2 (en) | 2015-08-06 | 2018-03-06 | Dolby Laboratories Licensing Corporation | System and method to enhance speakers connected to devices with microphones |
US10333904B2 (en) | 2015-08-08 | 2019-06-25 | Peter J. Tormey | Voice access and control |
KR102386854B1 (ko) | 2015-08-20 | 2022-04-13 | 삼성전자주식회사 | 통합 모델 기반의 음성 인식 장치 및 방법 |
US10270041B2 (en) | 2015-08-28 | 2019-04-23 | Semiconductor Energy Laboratory Co., Ltd. | Light-emitting element, light-emitting device, electronic device, and lighting device |
US20180249267A1 (en) | 2015-08-31 | 2018-08-30 | Apple Inc. | Passive microphone array localizer |
CN106488302B (zh) | 2015-09-02 | 2021-02-23 | 哈曼国际工业有限公司 | 切换音频输出的方法、回放设备及回放系统 |
US10339917B2 (en) | 2015-09-03 | 2019-07-02 | Google Llc | Enhanced speech endpointing |
KR102417682B1 (ko) | 2015-09-09 | 2022-07-07 | 삼성전자주식회사 | 음성 인식을 이용한 닉네임 관리 장치 및 방법 |
KR20170031392A (ko) | 2015-09-11 | 2017-03-21 | 삼성전자주식회사 | 전자 장치, 음향 시스템 및 오디오 출력 방법 |
US10026399B2 (en) | 2015-09-11 | 2018-07-17 | Amazon Technologies, Inc. | Arbitration between voice-enabled devices |
CN105206281B (zh) | 2015-09-14 | 2019-02-15 | 胡旻波 | 基于分布式麦克风阵列网络的语音增强方法 |
KR20170032096A (ko) | 2015-09-14 | 2017-03-22 | 삼성전자주식회사 | 전자장치, 전자장치의 구동방법, 음성인식장치, 음성인식장치의 구동 방법 및 컴퓨터 판독가능 기록매체 |
US10289734B2 (en) | 2015-09-18 | 2019-05-14 | Samsung Electronics Co., Ltd. | Entity-type search system |
US10706873B2 (en) | 2015-09-18 | 2020-07-07 | Sri International | Real-time speaker state analytics platform |
CN105204357B (zh) | 2015-09-18 | 2018-02-06 | 小米科技有限责任公司 | 智能家居设备的情景模式调整方法及装置 |
US9875081B2 (en) | 2015-09-21 | 2018-01-23 | Amazon Technologies, Inc. | Device selection for providing a response |
KR102420450B1 (ko) | 2015-09-23 | 2022-07-14 | 삼성전자주식회사 | 음성인식장치, 음성인식방법 및 컴퓨터 판독가능 기록매체 |
KR102446392B1 (ko) | 2015-09-23 | 2022-09-23 | 삼성전자주식회사 | 음성 인식이 가능한 전자 장치 및 방법 |
US9936156B2 (en) | 2015-09-24 | 2018-04-03 | Samantha WESTERN | Volume adjusting apparatus and method |
US10229700B2 (en) | 2015-09-24 | 2019-03-12 | Google Llc | Voice activity detection |
CN105162886B (zh) | 2015-09-25 | 2019-04-12 | 北京奇艺世纪科技有限公司 | 一种声音控制方法及装置 |
US10186276B2 (en) | 2015-09-25 | 2019-01-22 | Qualcomm Incorporated | Adaptive noise suppression for super wideband music |
JP6536320B2 (ja) | 2015-09-28 | 2019-07-03 | 富士通株式会社 | 音声信号処理装置、音声信号処理方法及びプログラム |
CN107710770B (zh) | 2015-09-28 | 2021-02-09 | 谷歌有限责任公司 | 用于时间同步的多区域媒体流式传输的系统和方法 |
US9996316B2 (en) | 2015-09-28 | 2018-06-12 | Amazon Technologies, Inc. | Mediation of wakeword response for multiple devices |
US10241754B1 (en) | 2015-09-29 | 2019-03-26 | Amazon Technologies, Inc. | Systems and methods for providing supplemental information with a response to a command |
US20170092278A1 (en) | 2015-09-30 | 2017-03-30 | Apple Inc. | Speaker recognition |
CN111341927B (zh) | 2015-09-30 | 2023-06-09 | 株式会社半导体能源研究所 | 发光元件、显示装置、电子设备及照明装置 |
KR20170038681A (ko) | 2015-09-30 | 2017-04-07 | 가부시키가이샤 한도오따이 에네루기 켄큐쇼 | 발광 소자, 표시 장치, 전자 기기, 및 조명 장치 |
US9978366B2 (en) | 2015-10-09 | 2018-05-22 | Xappmedia, Inc. | Event-based speech interactive media player |
KR102429260B1 (ko) | 2015-10-12 | 2022-08-05 | 삼성전자주식회사 | 음성 에이전트 기반의 제어 명령 처리 장치 및 방법과, 에이전트 장치 |
US9754580B2 (en) | 2015-10-12 | 2017-09-05 | Technologies For Voice Interface | System and method for extracting and using prosody features |
WO2017063706A1 (en) | 2015-10-15 | 2017-04-20 | Huawei Technologies Co., Ltd. | A sound processing node of an arrangement of sound processing nodes |
US9928840B2 (en) | 2015-10-16 | 2018-03-27 | Google Llc | Hotword recognition |
US9747926B2 (en) | 2015-10-16 | 2017-08-29 | Google Inc. | Hotword recognition |
CN107016999B (zh) | 2015-10-16 | 2022-06-14 | 谷歌有限责任公司 | 热词识别 |
US10453450B2 (en) | 2015-10-20 | 2019-10-22 | Bragi GmbH | Wearable earpiece voice command control system and method |
KR102444061B1 (ko) | 2015-11-02 | 2022-09-16 | 삼성전자주식회사 | 음성 인식이 가능한 전자 장치 및 방법 |
CN105427861B (zh) | 2015-11-03 | 2019-02-15 | 胡旻波 | 智能家居协同麦克风语音控制的系统及其控制方法 |
US9691378B1 (en) | 2015-11-05 | 2017-06-27 | Amazon Technologies, Inc. | Methods and devices for selectively ignoring captured audio data |
US9653075B1 (en) | 2015-11-06 | 2017-05-16 | Google Inc. | Voice commands across devices |
US10863267B2 (en) | 2015-11-10 | 2020-12-08 | Savant Systems, Inc. | Volume control for audio/video devices |
US9990209B2 (en) | 2015-11-12 | 2018-06-05 | Microsoft Technology Licensing, Llc | Digital assistance device for facilitating multi-stage setup |
US10706852B2 (en) | 2015-11-13 | 2020-07-07 | Microsoft Technology Licensing, Llc | Confidence features for automated speech recognition arbitration |
US10592949B2 (en) | 2015-11-13 | 2020-03-17 | [24]7.ai, Inc. | Method and apparatus for linking customer interactions with customer messaging platforms |
US20170140750A1 (en) | 2015-11-17 | 2017-05-18 | Le Holdings (Beijing) Co., Ltd. | Method and device for speech recognition |
CN105472191B (zh) | 2015-11-18 | 2019-09-20 | 百度在线网络技术(北京)有限公司 | 一种跟踪回声时延的方法和装置 |
US11929088B2 (en) | 2015-11-20 | 2024-03-12 | Synaptics Incorporated | Input/output mode control for audio processing |
JP6570651B2 (ja) | 2015-11-25 | 2019-09-04 | 三菱電機株式会社 | 音声対話装置および音声対話方法 |
US10040423B2 (en) | 2015-11-27 | 2018-08-07 | Bragi GmbH | Vehicle with wearable for identifying one or more vehicle occupants |
US9484030B1 (en) | 2015-12-02 | 2016-11-01 | Amazon Technologies, Inc. | Audio triggered commands |
US9699597B2 (en) | 2015-12-07 | 2017-07-04 | Google Inc. | Wireless signal forwarding |
US9747920B2 (en) | 2015-12-17 | 2017-08-29 | Amazon Technologies, Inc. | Adaptive beamforming to create reference channels |
CN105632486B (zh) | 2015-12-23 | 2019-12-17 | 北京奇虎科技有限公司 | 一种智能硬件的语音唤醒方法和装置 |
US10134388B1 (en) | 2015-12-23 | 2018-11-20 | Amazon Technologies, Inc. | Word generation for speech recognition |
CN105679318A (zh) | 2015-12-23 | 2016-06-15 | 珠海格力电器股份有限公司 | 一种基于语音识别的显示方法、装置、显示系统和空调 |
US10311862B2 (en) | 2015-12-23 | 2019-06-04 | Rovi Guides, Inc. | Systems and methods for conversations with devices about media using interruptions and changes of subjects |
US9826599B2 (en) | 2015-12-28 | 2017-11-21 | Amazon Technologies, Inc. | Voice-controlled light switches |
US10026401B1 (en) | 2015-12-28 | 2018-07-17 | Amazon Technologies, Inc. | Naming devices via voice commands |
US10547942B2 (en) | 2015-12-28 | 2020-01-28 | Samsung Electronics Co., Ltd. | Control of electrodynamic speaker driver using a low-order non-linear model |
US9992642B1 (en) | 2015-12-29 | 2018-06-05 | Amazon Technologies, Inc. | Automated messaging |
US9820036B1 (en) | 2015-12-30 | 2017-11-14 | Amazon Technologies, Inc. | Speech processing of reflected sound |
US9813810B1 (en) | 2016-01-05 | 2017-11-07 | Google Inc. | Multi-microphone neural network for sound recognition |
US10049666B2 (en) | 2016-01-06 | 2018-08-14 | Google Llc | Voice recognition system |
US9743207B1 (en) | 2016-01-18 | 2017-08-22 | Sonos, Inc. | Calibration using multiple recording devices |
KR20170086814A (ko) | 2016-01-19 | 2017-07-27 | 삼성전자주식회사 | 음성 인식 기능을 제공하는 전자 장치 및 그 동작 방법 |
KR102392113B1 (ko) | 2016-01-20 | 2022-04-29 | 삼성전자주식회사 | 전자 장치 및 전자 장치의 음성 명령 처리 방법 |
CN105741838B (zh) | 2016-01-20 | 2019-10-15 | 百度在线网络技术(北京)有限公司 | 语音唤醒方法及装置 |
US9749731B2 (en) | 2016-01-21 | 2017-08-29 | Bose Corporation | Sidetone generation using multiple microphones |
KR20170091913A (ko) | 2016-02-02 | 2017-08-10 | 삼성전자주식회사 | 영상 서비스 제공 방법 및 장치 |
US9653060B1 (en) | 2016-02-09 | 2017-05-16 | Amazon Technologies, Inc. | Hybrid reference signal for acoustic echo cancellation |
US9659555B1 (en) | 2016-02-09 | 2017-05-23 | Amazon Technologies, Inc. | Multichannel acoustic echo cancellation |
US11437020B2 (en) | 2016-02-10 | 2022-09-06 | Cerence Operating Company | Techniques for spatially selective wake-up word recognition and related systems and methods |
US9898250B1 (en) | 2016-02-12 | 2018-02-20 | Amazon Technologies, Inc. | Controlling distributed audio outputs to enable voice output |
US9858927B2 (en) | 2016-02-12 | 2018-01-02 | Amazon Technologies, Inc | Processing spoken commands to control distributed audio outputs |
US9947316B2 (en) | 2016-02-22 | 2018-04-17 | Sonos, Inc. | Voice control of a media playback system |
US10095470B2 (en) | 2016-02-22 | 2018-10-09 | Sonos, Inc. | Audio response playback |
US9965247B2 (en) | 2016-02-22 | 2018-05-08 | Sonos, Inc. | Voice controlled media playback system based on user profile |
US9820039B2 (en) | 2016-02-22 | 2017-11-14 | Sonos, Inc. | Default playback devices |
US9811314B2 (en) | 2016-02-22 | 2017-11-07 | Sonos, Inc. | Metadata exchange involving a networked playback system and a networked microphone system |
US10264030B2 (en) | 2016-02-22 | 2019-04-16 | Sonos, Inc. | Networked microphone device control |
US9779735B2 (en) | 2016-02-24 | 2017-10-03 | Google Inc. | Methods and systems for detecting and processing speech signals |
WO2017147936A1 (zh) | 2016-03-04 | 2017-09-08 | 茹旷 | 智能家居助手 |
US10133612B2 (en) | 2016-03-17 | 2018-11-20 | Nuance Communications, Inc. | Session processing interaction between two or more virtual assistants |
US9769420B1 (en) | 2016-03-18 | 2017-09-19 | Thomas Lawrence Moses | Portable wireless remote monitoring and control systems |
US10373612B2 (en) | 2016-03-21 | 2019-08-06 | Amazon Technologies, Inc. | Anchored speech detection and speech recognition |
US9805714B2 (en) * | 2016-03-22 | 2017-10-31 | Asustek Computer Inc. | Directional keyword verification method applicable to electronic device and electronic device using the same |
US10365887B1 (en) | 2016-03-25 | 2019-07-30 | Amazon Technologies, Inc. | Generating commands based on location and wakeword |
US10332508B1 (en) | 2016-03-31 | 2019-06-25 | Amazon Technologies, Inc. | Confidence checking for speech processing and query answering |
US9952827B2 (en) | 2016-04-13 | 2018-04-24 | Comcast Cable Communications, Llc | Dynamic adjustment of equalization settings of audio components via a sound device profile |
EP3430514B1 (en) | 2016-04-18 | 2019-10-09 | Google LLC | Automated assistant invocation of appropriate agent |
US10318236B1 (en) | 2016-05-05 | 2019-06-11 | Amazon Technologies, Inc. | Refining media playback |
US20170329397A1 (en) | 2016-05-12 | 2017-11-16 | Rovi Guides, Inc. | Systems and methods for navigating a media guidance application using gaze control |
US10447748B2 (en) | 2016-05-12 | 2019-10-15 | Apple Inc. | Sharing media information between applications on client devices |
US10149049B2 (en) | 2016-05-13 | 2018-12-04 | Bose Corporation | Processing speech from distributed microphones |
US20170330565A1 (en) | 2016-05-13 | 2017-11-16 | Bose Corporation | Handling Responses to Speech Processing |
US10187440B2 (en) | 2016-05-27 | 2019-01-22 | Apple Inc. | Personalization of media streams |
US10063965B2 (en) | 2016-06-01 | 2018-08-28 | Google Llc | Sound source estimation using neural networks |
US10079027B2 (en) | 2016-06-03 | 2018-09-18 | Nxp B.V. | Sound signal detector |
US10474419B2 (en) | 2016-06-03 | 2019-11-12 | Crestron Electronics, Inc. | Audio digital signal processor utilizing a hybrid network architecture |
AU2017100581B4 (en) | 2016-06-08 | 2018-02-01 | Apple Inc. | Intelligent automated assistant for media exploration |
US10235124B2 (en) | 2016-06-08 | 2019-03-19 | Google Llc | Audio announcement prioritization system |
US9754605B1 (en) | 2016-06-09 | 2017-09-05 | Amazon Technologies, Inc. | Step-size control for multi-channel acoustic echo canceller |
DK179415B1 (en) | 2016-06-11 | 2018-06-14 | Apple Inc | Intelligent device arbitration and control |
AU2017100486C4 (en) | 2016-06-11 | 2019-09-05 | Apple Inc. | Intelligent device arbitration and control |
DK179034B1 (en) | 2016-06-12 | 2017-09-04 | Apple Inc | Devices, methods, and graphical user interfaces for dynamically adjusting presentation of audio outputs |
US20170364371A1 (en) | 2016-06-15 | 2017-12-21 | Microsoft Technology Licensing, Llc | Context-Dependent Digital Action-Assistance Tool |
US11600269B2 (en) | 2016-06-15 | 2023-03-07 | Cerence Operating Company | Techniques for wake-up word recognition and related systems and methods |
US10212029B2 (en) | 2016-06-15 | 2019-02-19 | Microsoft Technology Licensing, Llc | Service provisioning in cloud computing systems |
KR20170142001A (ko) | 2016-06-16 | 2017-12-27 | 삼성전자주식회사 | 전자 장치, 그의 반향 신호 제거 방법 및 비일시적 컴퓨터 판독가능 기록매체 |
US9749738B1 (en) | 2016-06-20 | 2017-08-29 | Gopro, Inc. | Synthesizing audio corresponding to a virtual microphone location |
US9875740B1 (en) | 2016-06-20 | 2018-01-23 | A9.Com, Inc. | Using voice information to influence importance of search result categories |
ITUA20164622A1 (it) | 2016-06-23 | 2017-12-23 | St Microelectronics Srl | Procedimento di beamforming basato su matrici di microfoni e relativo apparato |
US10091545B1 (en) | 2016-06-27 | 2018-10-02 | Amazon Technologies, Inc. | Methods and systems for detecting audio output of associated device |
US9728188B1 (en) | 2016-06-28 | 2017-08-08 | Amazon Technologies, Inc. | Methods and devices for ignoring similar audio being received by a system |
KR102471499B1 (ko) | 2016-07-05 | 2022-11-28 | 삼성전자주식회사 | 영상처리장치, 영상처리장치의 구동방법 및 컴퓨터 판독가능 기록매체 |
EP3270377B1 (en) | 2016-07-12 | 2020-02-19 | Dolby Laboratories Licensing Corporation | Assessment and adjustment of audio installation |
US20180018965A1 (en) | 2016-07-12 | 2018-01-18 | Bose Corporation | Combining Gesture and Voice User Interfaces |
US10152969B2 (en) | 2016-07-15 | 2018-12-11 | Sonos, Inc. | Voice detection by multiple devices |
US9860670B1 (en) | 2016-07-15 | 2018-01-02 | Sonos, Inc. | Spectral correction using spatial calibration |
US10134399B2 (en) | 2016-07-15 | 2018-11-20 | Sonos, Inc. | Contextualization of voice inputs |
US9979680B2 (en) | 2016-07-21 | 2018-05-22 | Fujitsu Limited | Smart notification scheduling and modality selection |
US10621992B2 (en) | 2016-07-22 | 2020-04-14 | Lenovo (Singapore) Pte. Ltd. | Activating voice assistant based on at least one of user proximity and context |
US20180033429A1 (en) | 2016-07-26 | 2018-02-01 | Ford Global Technologies, Llc | Extendable vehicle system |
CN106028223A (zh) | 2016-07-26 | 2016-10-12 | 广东欧珀移动通信有限公司 | 一种智能音箱的控制方法、装置及智能音箱 |
KR102575634B1 (ko) | 2016-07-26 | 2023-09-06 | 삼성전자주식회사 | 전자 장치 및 전자 장치의 동작 방법 |
US10431211B2 (en) | 2016-07-29 | 2019-10-01 | Qualcomm Incorporated | Directional processing of far-field audio |
US10115400B2 (en) | 2016-08-05 | 2018-10-30 | Sonos, Inc. | Multiple voice services |
US10459684B2 (en) | 2016-08-05 | 2019-10-29 | Sonos, Inc. | Calibration of a playback device based on an estimated frequency response |
US10026403B2 (en) | 2016-08-12 | 2018-07-17 | Paypal, Inc. | Location based voice association system |
US9967382B2 (en) | 2016-08-19 | 2018-05-08 | Amazon Technologies, Inc. | Enabling voice control of telephone device |
US20180053504A1 (en) | 2016-08-19 | 2018-02-22 | Otis Elevator Company | Intention recognition for triggering voice recognition system |
US9691384B1 (en) | 2016-08-19 | 2017-06-27 | Google Inc. | Voice action biasing system |
US9972320B2 (en) | 2016-08-24 | 2018-05-15 | Google Llc | Hotword detection on multiple devices |
US20180061396A1 (en) | 2016-08-24 | 2018-03-01 | Knowles Electronics, Llc | Methods and systems for keyword detection using keyword repetitions |
US10461953B2 (en) | 2016-08-29 | 2019-10-29 | Lutron Technology Company Llc | Load control system having audio control devices |
US10360910B2 (en) | 2016-08-29 | 2019-07-23 | Garmin Switzerland Gmbh | Automatic speech recognition (ASR) utilizing GPS and sensor data |
US10685656B2 (en) | 2016-08-31 | 2020-06-16 | Bose Corporation | Accessing multiple virtual personal assistants (VPA) from a single device |
US10074369B2 (en) | 2016-09-01 | 2018-09-11 | Amazon Technologies, Inc. | Voice-based communications |
US10580404B2 (en) | 2016-09-01 | 2020-03-03 | Amazon Technologies, Inc. | Indicator for voice-based communications |
US10057698B2 (en) | 2016-09-02 | 2018-08-21 | Bose Corporation | Multiple room communication system and method |
CA3155320A1 (en) | 2016-09-06 | 2018-03-15 | Deepmind Technologies Limited | Generating audio using neural networks |
EP3297298B1 (en) | 2016-09-19 | 2020-05-06 | A-Volute | Method for reproducing spatially distributed sounds |
US9972318B1 (en) | 2016-09-21 | 2018-05-15 | Amazon Technologies, Inc. | Interpreting voice commands |
JP6520878B2 (ja) | 2016-09-21 | 2019-05-29 | トヨタ自動車株式会社 | 音声取得システムおよび音声取得方法 |
JP2018055259A (ja) * | 2016-09-27 | 2018-04-05 | キヤノン株式会社 | 情報処理装置、情報処理方法及びプログラム |
US9942678B1 (en) | 2016-09-27 | 2018-04-10 | Sonos, Inc. | Audio playback settings for voice interaction |
US10409548B2 (en) | 2016-09-27 | 2019-09-10 | Grabango Co. | System and method for differentially locating and modifying audio sources |
US9959861B2 (en) * | 2016-09-30 | 2018-05-01 | Robert Bosch Gmbh | System and method for speech recognition |
US9743204B1 (en) | 2016-09-30 | 2017-08-22 | Sonos, Inc. | Multi-orientation playback device microphones |
WO2018067402A1 (en) | 2016-10-03 | 2018-04-12 | Google Inc. | Selection of computational agent for task performance |
US10283138B2 (en) | 2016-10-03 | 2019-05-07 | Google Llc | Noise mitigation for a voice interface device |
JP6683893B2 (ja) | 2016-10-03 | 2020-04-22 | グーグル エルエルシー | デバイストポロジーに基づく音声コマンドの処理 |
US10712997B2 (en) | 2016-10-17 | 2020-07-14 | Sonos, Inc. | Room association based on name |
US10181323B2 (en) | 2016-10-19 | 2019-01-15 | Sonos, Inc. | Arbitration-based voice recognition |
US20180122372A1 (en) | 2016-10-31 | 2018-05-03 | Soundhound, Inc. | Distinguishable open sounds |
US10783883B2 (en) | 2016-11-03 | 2020-09-22 | Google Llc | Focus session at a voice interface device |
KR102241970B1 (ko) | 2016-11-07 | 2021-04-20 | 구글 엘엘씨 | 기록된 미디어 핫워드 트리거 억제 |
US10154496B2 (en) | 2016-11-10 | 2018-12-11 | Futurewei Technologies, Inc. | System and method for beamformed reference signals in three dimensional multiple input multiple output communications systems |
US10382806B2 (en) | 2016-11-14 | 2019-08-13 | DISH Technologies L.L.C. | Apparatus, systems and methods for controlling presentation of content using a multi-media table |
US10170110B2 (en) | 2016-11-17 | 2019-01-01 | Robert Bosch Gmbh | System and method for ranking of hybrid speech recognition results with neural networks |
CN106708403A (zh) | 2016-11-30 | 2017-05-24 | 努比亚技术有限公司 | 输入滑动操作时同步播放提示音的方法及装置 |
US10186265B1 (en) | 2016-12-06 | 2019-01-22 | Amazon Technologies, Inc. | Multi-layer keyword detection to avoid detection of keywords in output audio |
US10079015B1 (en) | 2016-12-06 | 2018-09-18 | Amazon Technologies, Inc. | Multi-layer keyword detection |
US10134396B2 (en) | 2016-12-07 | 2018-11-20 | Google Llc | Preventing of audio attacks |
US10241748B2 (en) | 2016-12-13 | 2019-03-26 | EVA Automation, Inc. | Schedule-based coordination of audio sources |
US11184764B2 (en) | 2016-12-14 | 2021-11-23 | Amzetta Technologies, Llc | Methods and systems of establishing communication between devices |
CN106531165A (zh) | 2016-12-15 | 2017-03-22 | 北京塞宾科技有限公司 | 一种便携式智能家居语音控制系统及控制方法 |
US10339957B1 (en) | 2016-12-20 | 2019-07-02 | Amazon Technologies, Inc. | Ending communications session based on presence data |
US10068573B1 (en) | 2016-12-21 | 2018-09-04 | Amazon Technologies, Inc. | Approaches for voice-activated audio commands |
US10559309B2 (en) | 2016-12-22 | 2020-02-11 | Google Llc | Collaborative voice controlled devices |
WO2018119470A1 (en) | 2016-12-23 | 2018-06-28 | Synaptics Incorporated | Online dereverberation algorithm based on weighted prediction error for noisy time-varying environments |
CN106910500B (zh) | 2016-12-23 | 2020-04-17 | 北京小鸟听听科技有限公司 | 对带麦克风阵列的设备进行语音控制的方法及设备 |
US10546578B2 (en) | 2016-12-26 | 2020-01-28 | Samsung Electronics Co., Ltd. | Method and device for transmitting and receiving audio data |
US10580405B1 (en) | 2016-12-27 | 2020-03-03 | Amazon Technologies, Inc. | Voice control of remote device |
US10276161B2 (en) | 2016-12-27 | 2019-04-30 | Google Llc | Contextual hotwords |
US10593328B1 (en) | 2016-12-27 | 2020-03-17 | Amazon Technologies, Inc. | Voice control of remote device |
US10186266B1 (en) | 2016-12-28 | 2019-01-22 | Amazon Technologies, Inc. | Message playback using a shared device |
US10229680B1 (en) | 2016-12-29 | 2019-03-12 | Amazon Technologies, Inc. | Contextual entity resolution |
US10831366B2 (en) | 2016-12-29 | 2020-11-10 | Google Llc | Modality learning on mobile devices |
US10290302B2 (en) | 2016-12-30 | 2019-05-14 | Google Llc | Compact home assistant with combined acoustic waveguide and heat sink |
US10224031B2 (en) | 2016-12-30 | 2019-03-05 | Google Llc | Generating and transmitting invocation request to appropriate third-party agent |
KR102412202B1 (ko) | 2017-01-03 | 2022-06-27 | 삼성전자주식회사 | 냉장고 및 이의 정보 표시 방법 |
US10248613B2 (en) | 2017-01-10 | 2019-04-02 | Qualcomm Incorporated | Data bus activation in an electronic device |
US10672387B2 (en) | 2017-01-11 | 2020-06-02 | Google Llc | Systems and methods for recognizing user speech |
US10306254B2 (en) | 2017-01-17 | 2019-05-28 | Seiko Epson Corporation | Encoding free view point data in movie data container |
KR20180084392A (ko) | 2017-01-17 | 2018-07-25 | 삼성전자주식회사 | 전자 장치 및 그의 동작 방법 |
KR20180085931A (ko) | 2017-01-20 | 2018-07-30 | 삼성전자주식회사 | 음성 입력 처리 방법 및 이를 지원하는 전자 장치 |
KR102556840B1 (ko) | 2017-01-20 | 2023-07-18 | 삼성전자주식회사 | 전자 장치 및 그의 제어 방법 |
US20180218747A1 (en) | 2017-01-28 | 2018-08-02 | Bose Corporation | Audio Device Filter Modification |
KR20180090586A (ko) | 2017-02-03 | 2018-08-13 | 삼성전자주식회사 | 알림을 제공하는 방법 및 그 전자 장치 |
US10694608B2 (en) | 2017-02-07 | 2020-06-23 | Lutron Technology Company Llc | Audio-based load control system |
US10762891B2 (en) | 2017-02-10 | 2020-09-01 | Synaptics Incorporated | Binary and multi-class classification systems and methods using connectionist temporal classification |
CN108446281B (zh) | 2017-02-13 | 2021-03-12 | 北京嘀嘀无限科技发展有限公司 | 确定用户亲密度的方法、装置及存储介质 |
US20180293221A1 (en) | 2017-02-14 | 2018-10-11 | Microsoft Technology Licensing, Llc | Speech parsing with intelligent assistant |
US11100384B2 (en) | 2017-02-14 | 2021-08-24 | Microsoft Technology Licensing, Llc | Intelligent device user interactions |
US10311876B2 (en) | 2017-02-14 | 2019-06-04 | Google Llc | Server side hotwording |
US10467510B2 (en) | 2017-02-14 | 2019-11-05 | Microsoft Technology Licensing, Llc | Intelligent assistant |
US10431217B2 (en) | 2017-02-15 | 2019-10-01 | Amazon Technologies, Inc. | Audio playback device that dynamically switches between receiving audio data from a soft access point and receiving audio data from a local access point |
US10264358B2 (en) | 2017-02-15 | 2019-04-16 | Amazon Technologies, Inc. | Selection of master device for synchronized audio |
US10839795B2 (en) | 2017-02-15 | 2020-11-17 | Amazon Technologies, Inc. | Implicit target selection for multiple audio playback devices in an environment |
CN106921560B (zh) | 2017-02-28 | 2020-06-02 | 北京小米移动软件有限公司 | 语音通信方法、装置及系统 |
US20180262793A1 (en) | 2017-03-09 | 2018-09-13 | Google Inc. | Reverse Casting from a First Screen Device to a Second Screen Device |
US10089981B1 (en) | 2017-03-09 | 2018-10-02 | Amazon Technologies, Inc. | Messaging account disambiguation |
US10706843B1 (en) | 2017-03-09 | 2020-07-07 | Amazon Technologies, Inc. | Contact resolution for communications systems |
US10540961B2 (en) | 2017-03-13 | 2020-01-21 | Baidu Usa Llc | Convolutional recurrent neural networks for small-footprint keyword spotting |
US10074371B1 (en) | 2017-03-14 | 2018-09-11 | Amazon Technologies, Inc. | Voice control of remote device by disabling wakeword detection |
US10600406B1 (en) | 2017-03-20 | 2020-03-24 | Amazon Technologies, Inc. | Intent re-ranker |
US10499139B2 (en) | 2017-03-20 | 2019-12-03 | Bose Corporation | Audio signal processing for noise reduction |
US10621980B2 (en) | 2017-03-21 | 2020-04-14 | Harman International Industries, Inc. | Execution of voice commands in a multi-device system |
JP6791356B2 (ja) | 2017-03-24 | 2020-11-25 | ヤマハ株式会社 | 音声端末、音声コマンド生成システム、及び音声コマンド生成システムの制御方法 |
US10643609B1 (en) | 2017-03-29 | 2020-05-05 | Amazon Technologies, Inc. | Selecting speech inputs |
CN107135443B (zh) | 2017-03-29 | 2020-06-23 | 联想(北京)有限公司 | 一种信号处理方法及电子设备 |
US10373630B2 (en) | 2017-03-31 | 2019-08-06 | Intel Corporation | Systems and methods for energy efficient and low power distributed automatic speech recognition on wearable devices |
US10825471B2 (en) | 2017-04-05 | 2020-11-03 | Avago Technologies International Sales Pte. Limited | Voice energy detection |
US11188808B2 (en) | 2017-04-11 | 2021-11-30 | Lenovo (Singapore) Pte. Ltd. | Indicating a responding virtual assistant from a plurality of virtual assistants |
US10748531B2 (en) | 2017-04-13 | 2020-08-18 | Harman International Industries, Incorporated | Management layer for multiple intelligent personal assistant services |
CN107122158A (zh) | 2017-04-14 | 2017-09-01 | 北京小米移动软件有限公司 | 播放信息提示音频的方法及装置、电子设备 |
KR102068182B1 (ko) | 2017-04-21 | 2020-01-20 | 엘지전자 주식회사 | 음성 인식 장치, 및 음성 인식 시스템 |
KR102392297B1 (ko) | 2017-04-24 | 2022-05-02 | 엘지전자 주식회사 | 전자기기 |
KR102298947B1 (ko) | 2017-04-28 | 2021-09-08 | 삼성전자주식회사 | 음성 데이터 처리 방법 및 이를 지원하는 전자 장치 |
US10992795B2 (en) | 2017-05-16 | 2021-04-27 | Apple Inc. | Methods and interfaces for home media control |
US10311870B2 (en) | 2017-05-10 | 2019-06-04 | Ecobee Inc. | Computerized device with voice command input capability |
US10013995B1 (en) | 2017-05-10 | 2018-07-03 | Cirrus Logic, Inc. | Combined reference signal for acoustic echo cancellation |
US20180336892A1 (en) | 2017-05-16 | 2018-11-22 | Apple Inc. | Detecting a trigger of a digital assistant |
DK179549B1 (en) | 2017-05-16 | 2019-02-12 | Apple Inc. | FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES |
US10628484B2 (en) | 2017-05-17 | 2020-04-21 | Board Of Trustees Of The University Of Illinois | Vibrational devices as sound sensors |
US10564928B2 (en) | 2017-06-02 | 2020-02-18 | Rovi Guides, Inc. | Systems and methods for generating a volume- based response for multiple voice-operated user devices |
US10403299B2 (en) | 2017-06-02 | 2019-09-03 | Apple Inc. | Multi-channel speech signal enhancement for robust voice trigger detection and automatic speech recognition |
US10531196B2 (en) | 2017-06-02 | 2020-01-07 | Apple Inc. | Spatially ducking audio produced through a beamforming loudspeaker array |
US10522146B1 (en) | 2019-07-09 | 2019-12-31 | Instreamatic, Inc. | Systems and methods for recognizing and performing voice commands during advertisement |
US10395650B2 (en) | 2017-06-05 | 2019-08-27 | Google Llc | Recorded media hotword trigger suppression |
US10410635B2 (en) | 2017-06-09 | 2019-09-10 | Soundhound, Inc. | Dual mode speech recognition |
US10983753B2 (en) | 2017-06-09 | 2021-04-20 | International Business Machines Corporation | Cognitive and interactive sensor based smart home solution |
US10984329B2 (en) | 2017-06-14 | 2021-04-20 | Ademco Inc. | Voice activated virtual assistant with a fused response |
US10028069B1 (en) | 2017-06-22 | 2018-07-17 | Sonos, Inc. | Immersive audio in a media playback system |
US10950228B1 (en) | 2017-06-28 | 2021-03-16 | Amazon Technologies, Inc. | Interactive voice controlled entertainment |
US11189273B2 (en) | 2017-06-29 | 2021-11-30 | Amazon Technologies, Inc. | Hands free always on near field wakeword solution |
EP3646161A1 (en) | 2017-06-30 | 2020-05-06 | Google LLC | Methods, systems, and media for voice-based call operations |
US10687353B2 (en) | 2017-07-10 | 2020-06-16 | Qualcomm Incorporated | Management of conflicting scheduling commands in wireless networks |
US20190013019A1 (en) * | 2017-07-10 | 2019-01-10 | Intel Corporation | Speaker command and key phrase management for muli -virtual assistant systems |
US10310082B2 (en) | 2017-07-27 | 2019-06-04 | Quantenna Communications, Inc. | Acoustic spatial diagnostics for smart home management |
US11205421B2 (en) | 2017-07-28 | 2021-12-21 | Cerence Operating Company | Selection system and method |
US11798544B2 (en) | 2017-08-07 | 2023-10-24 | Polycom, Llc | Replying to a spoken command |
US10475449B2 (en) | 2017-08-07 | 2019-11-12 | Sonos, Inc. | Wake-word detection suppression |
JP6513749B2 (ja) | 2017-08-09 | 2019-05-15 | レノボ・シンガポール・プライベート・リミテッド | 音声アシストシステム、サーバ装置、その音声アシスト方法、及びコンピュータが実行するためのプログラム |
KR102389041B1 (ko) | 2017-08-11 | 2022-04-21 | 엘지전자 주식회사 | 이동단말기 및 머신 러닝을 이용한 이동 단말기의 제어방법 |
US10304475B1 (en) | 2017-08-14 | 2019-05-28 | Amazon Technologies, Inc. | Trigger word based beam selection |
US11062710B2 (en) | 2017-08-28 | 2021-07-13 | Roku, Inc. | Local and cloud speech recognition |
US11062702B2 (en) | 2017-08-28 | 2021-07-13 | Roku, Inc. | Media system with multiple digital assistants |
US20190066710A1 (en) | 2017-08-28 | 2019-02-28 | Apple Inc. | Transparent near-end user control over far-end speech enhancement processing |
US10553235B2 (en) | 2017-08-28 | 2020-02-04 | Apple Inc. | Transparent near-end user control over far-end speech enhancement processing |
US10546583B2 (en) | 2017-08-30 | 2020-01-28 | Amazon Technologies, Inc. | Context-based device arbitration |
US10366699B1 (en) | 2017-08-31 | 2019-07-30 | Amazon Technologies, Inc. | Multi-path calculations for device energy levels |
US10911596B1 (en) | 2017-08-31 | 2021-02-02 | Amazon Technologies, Inc. | Voice user interface for wired communications system |
US10515625B1 (en) | 2017-08-31 | 2019-12-24 | Amazon Technologies, Inc. | Multi-modal natural language processing |
US11361763B1 (en) | 2017-09-01 | 2022-06-14 | Amazon Technologies, Inc. | Detecting system-directed speech |
US10847149B1 (en) | 2017-09-01 | 2020-11-24 | Amazon Technologies, Inc. | Speech-based attention span for voice user interface |
US10482895B2 (en) | 2017-09-01 | 2019-11-19 | Cirrus Logic, Inc. | Acoustic echo cancellation (AEC) rate adaptation |
JP6571144B2 (ja) | 2017-09-08 | 2019-09-04 | シャープ株式会社 | 監視システム、監視機器、サーバ、および監視方法 |
US20190082255A1 (en) | 2017-09-08 | 2019-03-14 | Olympus Corporation | Information acquiring apparatus, information acquiring method, and computer readable recording medium |
US10048930B1 (en) | 2017-09-08 | 2018-08-14 | Sonos, Inc. | Dynamic computation of system response volume |
US10083006B1 (en) | 2017-09-12 | 2018-09-25 | Google Llc | Intercom-style communication using multiple computing devices |
KR102338376B1 (ko) | 2017-09-13 | 2021-12-13 | 삼성전자주식회사 | 디바이스 그룹을 지정하기 위한 전자 장치 및 이의 제어 방법 |
US11314215B2 (en) | 2017-09-15 | 2022-04-26 | Kohler Co. | Apparatus controlling bathroom appliance lighting based on user identity |
US9973849B1 (en) | 2017-09-20 | 2018-05-15 | Amazon Technologies, Inc. | Signal quality beam selection |
US10719507B2 (en) | 2017-09-21 | 2020-07-21 | SayMosaic Inc. | System and method for natural language processing |
US10580411B2 (en) | 2017-09-25 | 2020-03-03 | Cirrus Logic, Inc. | Talker change detection |
US10586534B1 (en) | 2017-09-27 | 2020-03-10 | Amazon Technologies, Inc. | Voice-controlled device control using acoustic echo cancellation statistics |
US10051366B1 (en) | 2017-09-28 | 2018-08-14 | Sonos, Inc. | Three-dimensional beam forming with a microphone array |
US10621981B2 (en) | 2017-09-28 | 2020-04-14 | Sonos, Inc. | Tone interference cancellation |
US11233782B2 (en) | 2017-10-04 | 2022-01-25 | Resilience Magnum IP, LLC | Single node network connectivity for structure automation functionality |
US10897680B2 (en) | 2017-10-04 | 2021-01-19 | Google Llc | Orientation-based device interface |
KR102543693B1 (ko) | 2017-10-17 | 2023-06-16 | 삼성전자주식회사 | 전자 장치 및 그의 동작 방법 |
KR102421255B1 (ko) | 2017-10-17 | 2022-07-18 | 삼성전자주식회사 | 음성 신호를 제어하기 위한 전자 장치 및 방법 |
US10403266B2 (en) * | 2017-10-18 | 2019-09-03 | Intel Corporation | Detecting keywords in audio using a spiking neural network |
CN107808670B (zh) | 2017-10-25 | 2021-05-14 | 百度在线网络技术(北京)有限公司 | 语音数据处理方法、装置、设备及存储介质 |
JP2019086903A (ja) | 2017-11-02 | 2019-06-06 | 東芝映像ソリューション株式会社 | 音声対話端末、および音声対話端末制御方法 |
US20190163153A1 (en) | 2017-11-30 | 2019-05-30 | International Business Machines Corporation | Enforcing dynamic volume thresholds of an entertainment device |
US10445365B2 (en) | 2017-12-04 | 2019-10-15 | Amazon Technologies, Inc. | Streaming radio with personalized content integration |
US10546593B2 (en) | 2017-12-04 | 2020-01-28 | Apple Inc. | Deep learning driven multi-channel filtering for speech enhancement |
US10510340B1 (en) | 2017-12-05 | 2019-12-17 | Amazon Technologies, Inc. | Dynamic wakeword detection |
US10777189B1 (en) | 2017-12-05 | 2020-09-15 | Amazon Technologies, Inc. | Dynamic wakeword detection |
US20190172452A1 (en) | 2017-12-06 | 2019-06-06 | GM Global Technology Operations LLC | External information rendering |
US10958467B2 (en) | 2017-12-06 | 2021-03-23 | Google Llc | Ducking and erasing audio from nearby devices |
CN107919123B (zh) | 2017-12-07 | 2022-06-03 | 北京小米移动软件有限公司 | 多语音助手控制方法、装置及计算机可读存储介质 |
US11182122B2 (en) | 2017-12-08 | 2021-11-23 | Amazon Technologies, Inc. | Voice control of computing devices |
US20190179611A1 (en) | 2017-12-11 | 2019-06-13 | Sonos, Inc. | Systems and Methods of Receiving Voice Input |
US10051600B1 (en) | 2017-12-12 | 2018-08-14 | Amazon Technologies, Inc. | Selective notification delivery based on user presence detections |
US10425247B2 (en) | 2017-12-12 | 2019-09-24 | Rovi Guides, Inc. | Systems and methods for modifying playback of a media asset in response to a verbal command unrelated to playback of the media asset |
US10847137B1 (en) | 2017-12-12 | 2020-11-24 | Amazon Technologies, Inc. | Trigger word detection using neural network waveform processing |
US10374816B1 (en) | 2017-12-13 | 2019-08-06 | Amazon Technologies, Inc. | Network conference management and arbitration via voice-capturing devices |
US10663313B2 (en) | 2017-12-15 | 2020-05-26 | Google Llc | Providing traffic warnings to a user based on return journey |
US10540971B2 (en) | 2017-12-15 | 2020-01-21 | Blue Jeans Network, Inc. | System and methods for in-meeting group assistance using a virtual assistant |
US11409816B2 (en) | 2017-12-19 | 2022-08-09 | Motorola Solutions, Inc. | Methods and systems for determining an action to be taken in response to a user query as a function of pre-query context information |
US11295748B2 (en) | 2017-12-26 | 2022-04-05 | Robert Bosch Gmbh | Speaker identification with ultra-short speech segments for far and near field voice assistance applications |
EP3732626A4 (en) | 2017-12-28 | 2021-09-15 | Syntiant | ALWAYS ACTIVE KEYWORD DETECTOR |
US10614811B2 (en) | 2017-12-29 | 2020-04-07 | Intel Corporation | Hierarchical speech recognition resolution |
WO2019128541A1 (en) | 2017-12-31 | 2019-07-04 | Midea Group Co., Ltd. | Method and system for controlling multiple home devices |
CN111357048A (zh) | 2017-12-31 | 2020-06-30 | 美的集团股份有限公司 | 用于控制家庭助手装置的方法和系统 |
US9972343B1 (en) | 2018-01-08 | 2018-05-15 | Republic Wireless, Inc. | Multi-step validation of wakeup phrase processing |
US10795332B2 (en) | 2018-01-16 | 2020-10-06 | Resilience Magnum IP, LLC | Facilitating automating home control |
US20190237067A1 (en) | 2018-01-31 | 2019-08-01 | Toyota Motor Engineering & Manufacturing North America, Inc. | Multi-channel voice recognition for a vehicle environment |
US10157042B1 (en) | 2018-02-06 | 2018-12-18 | Amazon Technologies, Inc. | Audio output control |
US11024307B2 (en) | 2018-02-08 | 2021-06-01 | Computime Ltd. | Method and apparatus to provide comprehensive smart assistant services |
US11145298B2 (en) | 2018-02-13 | 2021-10-12 | Roku, Inc. | Trigger word detection with multiple digital assistants |
US10425780B1 (en) | 2018-02-22 | 2019-09-24 | Amazon Technologies, Inc. | Outputting notifications using device groups |
US10491962B2 (en) | 2018-03-14 | 2019-11-26 | Rovi Guides, Inc. | Systems and methods for presenting event notifications, based on active applications in a social group, on devices notwithstanding a user instruction to disable event notifications |
US11127405B1 (en) | 2018-03-14 | 2021-09-21 | Amazon Technologies, Inc. | Selective requests for authentication for voice-based launching of applications |
US10749828B2 (en) | 2018-03-14 | 2020-08-18 | Rovi Guides, Inc. | Systems and methods for presenting event notifications, based on trending communications, on devices notwithstanding a user instruction to disable event notifications |
US10438605B1 (en) | 2018-03-19 | 2019-10-08 | Bose Corporation | Echo control in binaural adaptive noise cancellation systems in headsets |
US10685669B1 (en) | 2018-03-20 | 2020-06-16 | Amazon Technologies, Inc. | Device selection from audio data |
US10440440B1 (en) | 2018-03-23 | 2019-10-08 | Rovi Guides, Inc. | Systems and methods for prompting a user to view an important event in a media asset presented on a first device when the user is viewing another media asset presented on a second device |
US10777203B1 (en) | 2018-03-23 | 2020-09-15 | Amazon Technologies, Inc. | Speech interface device with caching component |
US10755706B2 (en) | 2018-03-26 | 2020-08-25 | Midea Group Co., Ltd. | Voice-based user interface with dynamically switchable endpoints |
US10446169B1 (en) | 2018-03-26 | 2019-10-15 | Motorola Mobility Llc | Pre-selectable and dynamic configurable multistage echo control system for large range level of acoustic echo |
US11151991B2 (en) | 2018-03-30 | 2021-10-19 | Verizon Media Inc. | Electronic message transmission |
WO2019195799A1 (en) | 2018-04-05 | 2019-10-10 | Synaptics Incorporated | Context-aware control for smart devices |
WO2019193378A1 (en) | 2018-04-06 | 2019-10-10 | Flex Ltd. | Device and system for accessing multiple virtual assistant services |
US10720166B2 (en) | 2018-04-09 | 2020-07-21 | Synaptics Incorporated | Voice biometrics systems and methods |
US10679629B2 (en) | 2018-04-09 | 2020-06-09 | Amazon Technologies, Inc. | Device arbitration by multiple speech processing systems |
US10928917B2 (en) | 2018-04-12 | 2021-02-23 | International Business Machines Corporation | Multiple user interaction with audio devices using speech and gestures |
CN108520741B (zh) | 2018-04-12 | 2021-05-04 | 科大讯飞股份有限公司 | 一种耳语音恢复方法、装置、设备及可读存储介质 |
US10679615B2 (en) | 2018-04-16 | 2020-06-09 | Google Llc | Adaptive interface in a voice-based networked system |
CN108538305A (zh) | 2018-04-20 | 2018-09-14 | 百度在线网络技术(北京)有限公司 | 语音识别方法、装置、设备及计算机可读存储介质 |
EP3561806B1 (en) | 2018-04-23 | 2020-04-22 | Spotify AB | Activation trigger processing |
US10803864B2 (en) | 2018-05-07 | 2020-10-13 | Spotify Ab | Voice recognition system for use with a personal media streaming appliance |
US11308947B2 (en) | 2018-05-07 | 2022-04-19 | Spotify Ab | Voice recognition system for use with a personal media streaming appliance |
US11175880B2 (en) | 2018-05-10 | 2021-11-16 | Sonos, Inc. | Systems and methods for voice-assisted media content selection |
JP2019204025A (ja) | 2018-05-24 | 2019-11-28 | レノボ・シンガポール・プライベート・リミテッド | 電子機器、制御方法、及びプログラム |
US10959029B2 (en) | 2018-05-25 | 2021-03-23 | Sonos, Inc. | Determining and adapting to changes in microphone performance of playback devices |
US10777195B2 (en) | 2018-05-31 | 2020-09-15 | International Business Machines Corporation | Wake command nullification for digital assistance and voice recognition technologies |
US20190371324A1 (en) | 2018-06-01 | 2019-12-05 | Apple Inc. | Suppression of voice response by device rendering trigger audio |
WO2019235863A1 (en) | 2018-06-05 | 2019-12-12 | Samsung Electronics Co., Ltd. | Methods and systems for passive wakeup of a user interaction device |
US10433058B1 (en) | 2018-06-14 | 2019-10-01 | Sonos, Inc. | Content rules engines for audio playback devices |
US10762896B1 (en) | 2018-06-25 | 2020-09-01 | Amazon Technologies, Inc. | Wakeword detection |
US10681460B2 (en) | 2018-06-28 | 2020-06-09 | Sonos, Inc. | Systems and methods for associating playback devices with voice assistant services |
NL2021308B1 (en) | 2018-07-16 | 2020-01-24 | Hazelebach & Van Der Ven Holding B V | Methods for a voice processing system |
JP7000268B2 (ja) | 2018-07-18 | 2022-01-19 | 株式会社東芝 | 情報処理装置、情報処理方法、およびプログラム |
US11144596B2 (en) | 2018-07-24 | 2021-10-12 | Harman International Industries, Incorporated | Retroactive information searching enabled by neural sensing |
GB2576016B (en) | 2018-08-01 | 2021-06-23 | Arm Ip Ltd | Voice assistant devices |
US10461710B1 (en) | 2018-08-28 | 2019-10-29 | Sonos, Inc. | Media playback system with maximum volume setting |
KR102225984B1 (ko) | 2018-09-03 | 2021-03-10 | 엘지전자 주식회사 | 음성 인식 서비스를 제공하는 서버 |
US10622009B1 (en) | 2018-09-10 | 2020-04-14 | Amazon Technologies, Inc. | Methods for detecting double-talk |
US20200090647A1 (en) | 2018-09-14 | 2020-03-19 | Comcast Cable Communications, Llc | Keyword Detection In The Presence Of Media Output |
US10878811B2 (en) * | 2018-09-14 | 2020-12-29 | Sonos, Inc. | Networked devices, systems, and methods for intelligently deactivating wake-word engines |
US10650807B2 (en) | 2018-09-18 | 2020-05-12 | Intel Corporation | Method and system of neural network keyphrase detection |
US11024331B2 (en) * | 2018-09-21 | 2021-06-01 | Sonos, Inc. | Voice detection optimization using sound metadata |
KR20200034430A (ko) | 2018-09-21 | 2020-03-31 | 삼성전자주식회사 | 전자 장치, 시스템 및 음성 인식 서비스 이용 방법 |
US10861444B2 (en) | 2018-09-24 | 2020-12-08 | Rovi Guides, Inc. | Systems and methods for determining whether to trigger a voice capable device based on speaking cadence |
US10811015B2 (en) | 2018-09-25 | 2020-10-20 | Sonos, Inc. | Voice detection optimization based on selected voice assistant service |
US10950249B2 (en) | 2018-09-25 | 2021-03-16 | Amazon Technologies, Inc. | Audio watermark encoding/decoding |
US11170758B2 (en) | 2018-09-27 | 2021-11-09 | Rovi Guides, Inc. | Systems and methods for providing notifications within a media asset without breaking immersion |
US11100923B2 (en) | 2018-09-28 | 2021-08-24 | Sonos, Inc. | Systems and methods for selective wake word detection using neural network models |
KR102606789B1 (ko) | 2018-10-01 | 2023-11-28 | 삼성전자주식회사 | 복수의 음성 인식 장치들을 제어하는 방법 및 그 방법을 지원하는 전자 장치 |
US10971158B1 (en) | 2018-10-05 | 2021-04-06 | Facebook, Inc. | Designating assistants in multi-assistant environment based on identified wake word received from a user |
US20200110571A1 (en) | 2018-10-05 | 2020-04-09 | Sonos, Inc. | Systems and methods for media content selection |
US10346122B1 (en) | 2018-10-18 | 2019-07-09 | Brent Foster Morgan | Systems and methods for a supplemental display screen |
US11899519B2 (en) | 2018-10-23 | 2024-02-13 | Sonos, Inc. | Multiple stage network microphone device with reduced power consumption and processing load |
US10943599B2 (en) | 2018-10-26 | 2021-03-09 | Spotify Ab | Audio cancellation for voice recognition |
US10388272B1 (en) | 2018-12-04 | 2019-08-20 | Sorenson Ip Holdings, Llc | Training speech recognition systems using word sequences |
US10573312B1 (en) | 2018-12-04 | 2020-02-25 | Sorenson Ip Holdings, Llc | Transcription generation from multiple speech recognition systems |
US11183183B2 (en) | 2018-12-07 | 2021-11-23 | Sonos, Inc. | Systems and methods of operating media playback systems having multiple voice assistant services |
US11132989B2 (en) | 2018-12-13 | 2021-09-28 | Sonos, Inc. | Networked microphone devices, systems, and methods of localized arbitration |
US10602268B1 (en) | 2018-12-20 | 2020-03-24 | Sonos, Inc. | Optimization of network microphone devices using noise classification |
KR102570384B1 (ko) | 2018-12-27 | 2023-08-25 | 삼성전자주식회사 | 가전기기 및 이의 음성 인식 방법 |
US11198446B2 (en) | 2019-01-04 | 2021-12-14 | Faraday & Future Inc. | On-board vehicle query system |
JP2020112692A (ja) | 2019-01-11 | 2020-07-27 | パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America | 方法、制御装置、及びプログラム |
US11349834B2 (en) | 2019-01-30 | 2022-05-31 | Ncr Corporation | Multi-factor secure operation authentication |
US11315556B2 (en) | 2019-02-08 | 2022-04-26 | Sonos, Inc. | Devices, systems, and methods for distributed voice processing by transmitting sound data associated with a wake word to an appropriate device for identification |
US10867604B2 (en) | 2019-02-08 | 2020-12-15 | Sonos, Inc. | Devices, systems, and methods for distributed voice processing |
CN109712626B (zh) | 2019-03-04 | 2021-04-30 | 腾讯科技(深圳)有限公司 | 一种语音数据处理方法及装置 |
US10943598B2 (en) | 2019-03-18 | 2021-03-09 | Rovi Guides, Inc. | Method and apparatus for determining periods of excessive noise for receiving smart speaker voice commands |
US10964314B2 (en) | 2019-03-22 | 2021-03-30 | Cirrus Logic, Inc. | System and method for optimized noise reduction in the presence of speech distortion using adaptive microphone array |
US10984783B2 (en) | 2019-03-27 | 2021-04-20 | Intel Corporation | Spoken keyword detection based utterance-level wake on intent system |
US20200310751A1 (en) | 2019-03-29 | 2020-10-01 | Qualcomm Incorporated | System and method of managing device sound level |
EP3726856B1 (en) | 2019-04-17 | 2022-11-16 | Oticon A/s | A hearing device comprising a keyword detector and an own voice detector |
US11120794B2 (en) * | 2019-05-03 | 2021-09-14 | Sonos, Inc. | Voice assistant persistence across multiple network microphone devices |
US10586540B1 (en) | 2019-06-12 | 2020-03-10 | Sonos, Inc. | Network microphone device with command keyword conditioning |
US11200894B2 (en) | 2019-06-12 | 2021-12-14 | Sonos, Inc. | Network microphone device with command keyword eventing |
US11361756B2 (en) | 2019-06-12 | 2022-06-14 | Sonos, Inc. | Conditional wake word eventing based on environment |
US20200409926A1 (en) | 2019-06-28 | 2020-12-31 | Rovi Guides, Inc. | Automated contact creation based on content communications |
US11138969B2 (en) | 2019-07-31 | 2021-10-05 | Sonos, Inc. | Locally distributed keyword detection |
US11138975B2 (en) | 2019-07-31 | 2021-10-05 | Sonos, Inc. | Locally distributed keyword detection |
US10871943B1 (en) | 2019-07-31 | 2020-12-22 | Sonos, Inc. | Noise classification for event detection |
US11159878B1 (en) | 2019-08-15 | 2021-10-26 | Amazon Technologies, Inc. | Autonomously motile device with beamforming |
JP7191793B2 (ja) | 2019-08-30 | 2022-12-19 | 株式会社東芝 | 信号処理装置、信号処理方法、及びプログラム |
US11172328B2 (en) | 2019-09-27 | 2021-11-09 | Sonos, Inc. | Systems and methods for device localization |
US11189286B2 (en) | 2019-10-22 | 2021-11-30 | Sonos, Inc. | VAS toggle based on device orientation |
KR20210066647A (ko) | 2019-11-28 | 2021-06-07 | 삼성전자주식회사 | 전자 장치 및 이의 제어 방법 |
US20220301561A1 (en) | 2019-12-10 | 2022-09-22 | Rovi Guides, Inc. | Systems and methods for local automated speech-to-text processing |
US11823659B2 (en) | 2019-12-11 | 2023-11-21 | Amazon Technologies, Inc. | Speech recognition through disambiguation feedback |
US11445301B2 (en) | 2020-02-12 | 2022-09-13 | Sonos, Inc. | Portable playback devices with network operation modes |
CN111341306B (zh) | 2020-02-14 | 2022-06-17 | 东南大学 | 基于语音特征复用的关键词唤醒cnn的存储和计算压缩方法 |
US11206052B1 (en) | 2020-06-18 | 2021-12-21 | HAJEN Co., Ltd | Smart speaker |
US20220050585A1 (en) | 2020-08-14 | 2022-02-17 | Apple Inc. | Audio media playback user interface |
-
2018
- 2018-09-28 US US16/145,275 patent/US11100923B2/en active Active
-
2019
- 2019-09-25 AU AU2019299865A patent/AU2019299865B2/en active Active
- 2019-09-25 EP EP19783874.1A patent/EP3655948B1/en active Active
- 2019-09-25 KR KR1020217030939A patent/KR102541498B1/ko active IP Right Grant
- 2019-09-25 KR KR1020237018549A patent/KR102581837B1/ko active IP Right Grant
- 2019-09-25 CN CN201980003798.6A patent/CN111247582A/zh active Pending
- 2019-09-25 KR KR1020207003504A patent/KR102122312B1/ko active IP Right Grant
- 2019-09-25 KR KR1020237031855A patent/KR20230145195A/ko not_active Application Discontinuation
- 2019-09-25 WO PCT/US2019/052841 patent/WO2020068909A1/en unknown
- 2019-09-25 KR KR1020207016077A patent/KR102308525B1/ko active IP Right Grant
- 2019-09-25 JP JP2020550102A patent/JP7096353B2/ja active Active
- 2019-09-25 EP EP22182193.7A patent/EP4099322B1/en active Active
-
2021
- 2021-07-13 US US17/305,698 patent/US11790911B2/en active Active
-
2022
- 2022-06-23 JP JP2022101346A patent/JP7397920B2/ja active Active
-
2023
- 2023-09-01 US US18/459,982 patent/US20230410812A1/en active Pending
- 2023-11-15 AU AU2023266275A patent/AU2023266275A1/en active Pending
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102999161A (zh) * | 2012-11-13 | 2013-03-27 | 安徽科大讯飞信息科技股份有限公司 | 一种语音唤醒模块的实现方法及应用 |
CN106030699A (zh) * | 2014-10-09 | 2016-10-12 | 谷歌公司 | 多个设备上的热词检测 |
CN107767863A (zh) * | 2016-08-22 | 2018-03-06 | 科大讯飞股份有限公司 | 语音唤醒方法、系统及智能终端 |
CN107919116A (zh) * | 2016-10-11 | 2018-04-17 | 芋头科技(杭州)有限公司 | 一种语音激活检测方法及装置 |
US20180204569A1 (en) * | 2017-01-17 | 2018-07-19 | Ford Global Technologies, Llc | Voice Assistant Tracking And Activation |
US20180277113A1 (en) * | 2017-03-27 | 2018-09-27 | Sonos, Inc. | Systems and Methods of Multiple Voice Services |
CN107832837A (zh) * | 2017-11-28 | 2018-03-23 | 南京大学 | 一种基于压缩感知原理的卷积神经网络压缩方法及解压缩方法 |
CN108198548A (zh) * | 2018-01-25 | 2018-06-22 | 苏州奇梦者网络科技有限公司 | 一种语音唤醒方法及其系统 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112291436A (zh) * | 2020-10-23 | 2021-01-29 | 北京蓦然认知科技有限公司 | 一种对主叫用户的调度方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
AU2019299865B2 (en) | 2023-08-17 |
AU2023266275A1 (en) | 2023-12-07 |
AU2019299865A1 (en) | 2020-04-16 |
EP4099322B1 (en) | 2024-03-27 |
EP4099322A1 (en) | 2022-12-07 |
US20230410812A1 (en) | 2023-12-21 |
KR20200037245A (ko) | 2020-04-08 |
US20210343284A1 (en) | 2021-11-04 |
US20200105256A1 (en) | 2020-04-02 |
US11100923B2 (en) | 2021-08-24 |
KR20230085214A (ko) | 2023-06-13 |
KR102308525B1 (ko) | 2021-10-05 |
JP7096353B2 (ja) | 2022-07-05 |
KR102581837B1 (ko) | 2023-09-25 |
JP2022126805A (ja) | 2022-08-30 |
JP2021516790A (ja) | 2021-07-08 |
US11790911B2 (en) | 2023-10-17 |
KR102122312B1 (ko) | 2020-06-12 |
EP3655948A1 (en) | 2020-05-27 |
KR102541498B1 (ko) | 2023-06-13 |
KR20210120138A (ko) | 2021-10-06 |
KR20230145195A (ko) | 2023-10-17 |
WO2020068909A1 (en) | 2020-04-02 |
KR20200067941A (ko) | 2020-06-12 |
EP3655948B1 (en) | 2022-07-06 |
JP7397920B2 (ja) | 2023-12-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
AU2019299865B2 (en) | Systems and methods for selective wake word detection using neural network models | |
US11899519B2 (en) | Multiple stage network microphone device with reduced power consumption and processing load | |
US11817083B2 (en) | Networked microphone devices, systems, and methods of localized arbitration | |
CN114223028A (zh) | 具有命令关键词调节的网络麦克风设备 | |
US11961519B2 (en) | Localized wakeword verification | |
US11915687B1 (en) | Systems and methods for generating labeled data to facilitate configuration of network microphone devices | |
US11769511B2 (en) | Systems and methods for power-efficient keyword detection | |
CA3067776A1 (en) | Systems and methods for selective wake word detection using neural network models | |
US20240105167A1 (en) | Memory allocation for keyword spotting engines | |
WO2022246463A1 (en) | Systems and methods for acoustic echo cancellation for audio playback devices |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20200605 |
|
WD01 | Invention patent application deemed withdrawn after publication |