CN108694938A - 用于在可穿戴设备上进行能量高效且低功率分布式自动语音辨识的系统和方法 - Google Patents
用于在可穿戴设备上进行能量高效且低功率分布式自动语音辨识的系统和方法 Download PDFInfo
- Publication number
- CN108694938A CN108694938A CN201810177382.3A CN201810177382A CN108694938A CN 108694938 A CN108694938 A CN 108694938A CN 201810177382 A CN201810177382 A CN 201810177382A CN 108694938 A CN108694938 A CN 108694938A
- Authority
- CN
- China
- Prior art keywords
- frequency characteristics
- audio frequency
- reduction
- audio
- mfcc
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 81
- 230000009467 reduction Effects 0.000 claims abstract description 58
- 238000012545 processing Methods 0.000 claims abstract description 23
- 230000008569 process Effects 0.000 claims abstract description 21
- 230000005236 sound signal Effects 0.000 claims abstract description 17
- 238000004891 communication Methods 0.000 claims description 50
- 238000003860 storage Methods 0.000 claims description 25
- 238000007906 compression Methods 0.000 claims description 23
- 230000006835 compression Effects 0.000 claims description 21
- 230000000694 effects Effects 0.000 claims description 11
- 239000000284 extract Substances 0.000 claims description 3
- 230000015654 memory Effects 0.000 description 28
- 238000013139 quantization Methods 0.000 description 23
- 238000001514 detection method Methods 0.000 description 22
- 238000011002 quantification Methods 0.000 description 21
- 239000003638 chemical reducing agent Substances 0.000 description 15
- 230000006837 decompression Effects 0.000 description 14
- 230000005540 biological transmission Effects 0.000 description 10
- 238000005516 engineering process Methods 0.000 description 8
- 230000008859 change Effects 0.000 description 7
- 238000001228 spectrum Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 5
- 238000013507 mapping Methods 0.000 description 4
- 238000011084 recovery Methods 0.000 description 4
- 230000001360 synchronised effect Effects 0.000 description 4
- 230000003213 activating effect Effects 0.000 description 3
- 230000003139 buffering effect Effects 0.000 description 3
- 230000001413 cellular effect Effects 0.000 description 3
- 238000012937 correction Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000009826 distribution Methods 0.000 description 3
- 230000004913 activation Effects 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 238000005056 compaction Methods 0.000 description 2
- 238000013144 data compression Methods 0.000 description 2
- 230000007850 degeneration Effects 0.000 description 2
- 230000005611 electricity Effects 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 239000011521 glass Substances 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 230000033001 locomotion Effects 0.000 description 2
- 238000007726 management method Methods 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 238000012856 packing Methods 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 230000001960 triggered effect Effects 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 241001269238 Data Species 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000000903 blocking effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 235000013399 edible fruits Nutrition 0.000 description 1
- 238000005538 encapsulation Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 239000012634 fragment Substances 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000013011 mating Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 238000004806 packaging method and process Methods 0.000 description 1
- 230000002035 prolonged effect Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000004904 shortening Methods 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
- 230000002618 waking effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/30—Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W4/00—Services specially adapted for wireless communication networks; Facilities therefor
- H04W4/80—Services using short range communication, e.g. near-field communication [NFC], radio-frequency identification [RFID] or low energy communication
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/032—Quantisation or dequantisation of spectral components
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L2015/088—Word spotting
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computer Networks & Wireless Communication (AREA)
- Telephone Function (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Mobile Radio Communication Systems (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
公开了用于分布式自动语音辨识的方法、装置、系统和制品。示例装置包括:检测器,用于处理输入音频信号并识别所述输入音频信号中包括待评估声音的部分,所述待评估声音被组织成表示所述声音的多个音频特征。所述示例装置包括:量化器,用于使用量化过程来处理所述音频特征以减少所述音频特征,从而生成缩减的音频特征集以供发射。所述示例装置包括:发射器,用于通过低能量通信信道传输所述缩减的音频特征集以供处理。
Description
技术领域
本公开总体上涉及自动语音辨识,并且更具体地,涉及用于在可穿戴设备上进行能量高效且低功率分布式自动语音辨识的方法和装置。
背景技术
语音辨识需要一组复杂的、处理器密集且功率密集的操作。由于自动语音辨识产生计算和存储器密集的工作负荷,因此将语音辨识集成到资源约束的产品中是不可行的。
附图说明
图1是可穿戴设备情境中的分布式自动语音辨识系统的高级图示。
图2至图3展示了示例量化策略。
图4展示了示出语音、关键短语和/或命令识别的示例语音波形。
图5展示了示出关键短语和命令检测的状态的示例状态图。
图6至图7展示了示例分组化(packetization)技术。
图8展示了作为可穿戴片上系统的图1的可穿戴设备的示例实现方式。
图9至图12展示了表示可以被执行以实现图1至图8的示例系统的示例机器可读指令的流程图。
图13至图14是示例处理器平台的示意图,所述处理器平台可以执行图9至图12的指令以实现图1至图8的示例系统。
具体实施方式
在以下具体实施方式中,参考了构成了本发明的一部分的附图,并且其中,通过举例方式示出可以实践的具体示例。这些示例被足够详细地描述以使本领域技术人员能够实践主题,并且应当理解,在不脱离本公开的主题的范围的情况下可以利用其他示例并且可以做出逻辑、机械、电气和/或其他变化。因此,以下具体实施方式被提供用来描述示例实现方式并且不被认为是对本公开中所描述的主题的范围的限制。来自以下说明的不同方面的某些特征可以被结合以形成以下所讨论的主题的另外的新的方面。
当介绍本公开的各实施例的元件时,冠词“一个(a)”、“一个(an)”、“所述(the)”和“所述(said)”旨在表示存在元件中的一个或多个。术语“包括(comprising)”、“包含(including)”和“具有(having)”旨在是包容性的并且意味着可能存在除了所列出的元件之外的附加元件。
语音辨识技术可用于各种电子设备(比如,助听器、话筒和/或其他可穿戴和/或可听产品)中。具有准确的、能量高效的自动语音辨识(ASR)引擎是在设计支持话音的可穿戴或可听产品时的重要部件。这种可穿戴/可听电子器件可能受限于没有显示器和/或缺乏与设备交互的能力。然而,ASR引擎可以是计算和存储器密集的处理器,从而使其很难本地集成(例如,本地ASR)在资源受约束(例如,小电池、形状因子受限、有限的处理功率和存储器)的可穿戴或可听产品上。因此,某些示例提供了分布式ASR解决方案,其中,在可穿戴设备上完成音频采集,并且通过短程无线或蜂窝连接将原始的/经压缩的音频发送至配套设备或云以供进一步处理。
然而,通过短程无线连接来传输原始音频可能在功耗和带宽使用两方面都是昂贵的。可以对音频进行压缩,但是以ASR检测精度为代价。
在本文中描述的某些示例中,可以利用连接信道上的有限带宽来实现分布式ASR,同时仍然保持ASR检测精度。某些示例在“常通(always-on)”分布式ASR解决方案中降低可穿戴设备上的设备功耗以延长可穿戴设备的电池寿命。使用更高效的音频前端和话音触发器结合降低的带宽需求来控制连接管理以便使用高效量化机制通过连接信道传递音频特征实现了通过高效通信信道将音频特征高效传递至配套设备。在配套设备上运行的ASR引擎可以经由通信信道来接受音频特征作为配套设备处的输入。
代替通过蓝牙连接(低带宽、降低的ASR检测精度)向配套设备发送原始音频样本(较高带宽)或经压缩音频或者向配套设备发送语音/音频特征(较低带宽),某些示例提供了一种使用量化技术利用降低的带宽通过蓝牙低能量(BLE)信道或其他较低能量连接解决方案将音频/语音特征发送至配套设备以维持ASR检测精度的功率高效的方法。相比于之前的解决方案,可以通过基于来自话音活动检测(VAD)和关键短语检测器(KPD)的输入来有效地控制连接信道、重新使用或维持同一构建块、以及使用高效BLE信道来实现更好的能量效率。
图1示出了可穿戴设备情境中的分布式ASR系统100的高级描述。示例系统100包括可穿戴设备110和配套设备120。示例可穿戴设备110包括话筒111、关键短语检测器112、特征提取器113、量化器114、压缩器115和发射器116。示例配套设备120包括接收器122、去量化和解压缩引擎124和ASR引擎126。
运行时,可穿戴设备110从话筒(MIC)111收集音频样本。当识别到与可穿戴设备的操作相关联的某些关键短语时,关键短语检测器112触发对可穿戴设备110的激活以处理所收集的音频样本。例如,某些单词、短语和/或声音可以与可穿戴设备的控制/操作相关联,并且关键短语检测器112监测所收集的音频样本来识别这种单词、短语和/或声音。在检测时,关键短语检测器112可以激活可穿戴设备110以处理所接收的音频样本。关键短语检测器112允许可穿戴设备110为“常通”,同时节省功率直到检测到相关音频样本。在其他示例中,可穿戴设备110在不涉及由检测器112对关键短语等进行识别的情况下处理所接收的音频样本。
可穿戴设备110然后可以可选地使用特征提取器113来从音频样本中提取音频特征。所提取的特征和/或原始音频样本可以由量化器114(也被称为量化引擎114)进行量化和/或由压缩器115(也被称为压缩引擎115)进行压缩以便由发射器116通过短程无线通信信道130(例如,Wi-Fi、BLE、蓝牙等)发射到配套设备120。配套设备120(例如,蜂窝电话、网关设备和/或其他硬件处理设备)在接收器122处接收音频信息(例如,特征和/或原始音频样本),并且去量化和解压缩引擎124对所接收的音频信息进行解压缩和去量化(例如,解除映射)以供由ASR引擎126进行处理。
如图1的示例中所示出的,特征提取和量化(例如,映射、舍入和/或截断音频样本值)结合蓝牙低能量(BLE)和/或其他低能量个人局域网通信技术来执行。传统上,使用蓝牙和所提取的特征的解决方案必须在比特率与精度之间折衷。然而,某些示例不依赖于话音活动检测(VAD)和关键短语检测器112,以便降低功耗。相反,在某些示例中,BLE和/或其他低能量个人局域网通信与对原始音频样本的压缩一起使用。使用压缩和解压缩的优点是压缩/解压缩允许可穿戴设备及其音频数据传输与任何ASR引擎一起使用。然而,这种解决方案可能由于在可穿戴设备110上的压缩而增大功耗(例如,几十兆赫(MHz)等)。
如图1的示例系统100中所示出的,关键短语检测器112和特征提取器113被配置成减少计算、存储器和带宽资源以降低整体系统功耗。例如,可以使用梅尔频率倒谱系数(MFCC)来表示语音和/或其他音频特征。MFCC可以表示用于集中发射和处理以促进由ASR引擎126从音频样本进行的自动语音辨识的所提取音频特征。
在声音处理中,梅尔频率倒谱(MFC)是声音的短期功率谱的基于频率的非线性梅尔级别上的对数功率谱的线性余弦变换的表示。MFCC是共同组成MFC的系数。可以从音频样本的一种类型的倒谱表示中推导出MFCC。倒谱(频谱(spectrum)的前四个字母的倒序)是信号的估计频谱的对数的傅里叶逆变换(IFT)的结果。梅尔频率倒谱(MFC)是频带在梅尔级别上是等距的倒谱,这比正常倒谱中使用的线性间隔的频带更接近人类听觉系统的响应。例如,频带的经调整的间距或扭曲可以允许在音频压缩中更好的表示声音。
可以通过对音频样本或信号进行傅里叶变换来确定MFCC。所产生的频谱具有相关联的功率,所述功率然后可以使用三角重叠窗口将所述功率映射到梅尔级别上。然后,可以确定每个梅尔频率处的功率的对数,并且可以对每个梅尔对数功率进行离散余弦变换,就像该组梅尔对数功率是信号一样。可以从所产生的频率的频谱的振幅中提取MFCC。
使用MFCC可以简化关键短语检测器112的操作并且向ASR引擎126提供容易处理的数据封装体。例如,由关键短语检测器112和/或特征提取器113产生的MFCC可以由ASR引擎126用来重建(多个)音频样本以供由ASR引擎126进行处理。例如,ASR引擎126可以在两种模式下操作——较低规模处理模式(例如,13个MFCC等)和较高规模处理模式(例如,23个MFCC等)。压缩器115以及去量化和解压缩引擎124处理压缩/解压缩以使得ASR引擎126可以在没有压缩/解压缩开销的情况下处理音频数据。例如,ASR引擎126可以被配置、改进、优化等以用于进行MFCC处理(例如,通过硬件加速和/或指令扩展等)从而利用改进的速度和精度以及降低的功耗。在某些示例中,压缩器115和解压缩引擎124可以根据音频样本大小和功率操作条件等被可选地激活/去激活。在其他示例中,可以不包括压缩器115和解压缩。相反,在一些示例中,由量化器114进行的音频样本数据的量化可能足够用于通信信道130上的BLE发射以便由引擎124进行去量化并由ASR引擎126进行处理。某些示例提供了量化技术,所述量化技术可以减少所发射的MFCC值,从而导致经由BLE的低带宽使用,而不会损害ASR检测精度。降低BLE上的带宽使用也可以显著降低可穿戴设备110和/或配套设备120的功耗。
某些示例提供了用于音频数据传输的经改进量化技术。可以使用以下示例来解释示例量化技术。假设每个MFCC 2字节并且基于音频帧的每10毫秒(ms)来计算MFCC,在ASR引擎126中使用23个MFCC涉及大约每秒4.6千字节(KBPS)的带宽。例如,使用矢量量化,所涉及的带宽可以降低到4.6KBPS的一半或更低(例如,大约2.3KBPS)。例如,矢量和/或其他类似量化引入了一些计算复杂性以及ASR检测精度的退化,但是节省了带宽和功耗。
矢量量化(也被称为块量化或模式匹配量化)基于原型矢量的分布来对概率密度函数进行建模。矢量量化可以用于数据压缩并且通过将一组点(矢量)分成具有大约与其接近的相同数量的点的组。每一组由其中心或图心点表示。矢量量化可以用于识别数据密度,所述数据密度可以用于数据压缩、有损数据校正、密度估计等。
如图2的表中所示出的,在某些示例中,MFCC从23个系数减少到13个系数。在其他示例中,如图3的表中所示出的,MFCC的位宽从16位减少到8位。
图2的示例示出了针对不同信噪比(SNR)240当使用23个MFCC 220时以及当使用13个MFCC 230时的句子错误率(SER)210。如图2的表中所示出的,MFCC规模从23个系数220减少到13个系数230可能根据词汇量导致SER的5%到10%的退化。
图3的示例示出了针对具有特定SNR 340的多个测试组330中的每个组的多个MFCC量化320中的每个量化的SER 310。如图3的示例中所示出的,MFCC量化320包括无量化(例如,16位MFCC)322、根据第一方法324的8位MFCC量化以及根据第二方法326的8位量化。
第一方法324被称为A律技术或算法。A律方法324是实现跨具有有限动态范围的信道进行压缩和解压缩(或压缩和扩张,因此压扩)的压扩算法。使用A律方法324,模拟信号(比如,音频样本和/或从音频样本中提取的特征)可以被修改用于数字化或经由通信信道130上的BLE进行通信。在A律方法324中,压缩参数A(例如,A=87.6,A=255等)用于根据以下方程对输入信号进行编码:
其中,sgn(x)提取实数x的符号。通过所述函数的反函数提供了根据A律方法324的扩展:
使用2的压缩比,可以使用A律方法324以非常低的计算成本在没有明显的精度损失的情况下将MFCC从16位整数特征映射到8位特征值。
第二方法326从MFCC值截断或丢弃位。例如,第二方法326可以包括丢弃MFCC的7个最低有效位和最高有效位以便将MFCC从16位值减小到8位值。第二方法326使用极低的计算功率,只有最小的精度损失。
如图3的示例表中所示出的,使用8位MFCC的方法1 324和方法2 326两者产生等于针对多个测试组330和SNR 340的16位无量化值322的可接受容差或在所述可接受容差内的SER 310。
因此,如图2至图3的示例中所示出的,可以减少MFCC的数量(图2)和/或可以减少每个MFCC的位数(图3)以便减少用于可穿戴设备110与配套设备120之间经由通信信道130的数据传输的计算时间、功耗和带宽。例如,功率可以降低大约一半,因为MFCC的数量减少和/或大小减小减少了待传输的数据量。因此,发射器116可以在不使用时被关闭,关键短语检测器112和/或在音频未被检测到和/或处理时未使用的其他系统100的部件也可以关闭。因此,可穿戴设备110和配套设备120中的一者或两者可以根据包括话音活动检测模式、活动模式、睡眠模式等的一个或多个模式进行操作。
在某些示例中,系统100(和/或可穿戴设备110)可以相对于高功率模式在低功率模式下操作。在高功率模式(例如,高电量电池等)下,可穿戴设备110可以传输23个MFCC。然而,当可穿戴设备110转变到低功率模式(例如,低电量电池等)时,仅13个MFCC由可穿戴设备110传输至配套设备120。
某些示例减小或最小化可穿戴设备110上的计算负荷以及通信信道130工作用于降低功耗的持续时间。这种示例涉及对可穿戴设备110上的计算资源和连接资源的仔细管理。例如,话音活动检测(VAD)和关键短语检测(KPD)可以连同MFCC计算一起用于管理可穿戴设备110上的资源使用情况。
在关键短语启动的命令/控制场景期间发生多个事件。关键短语检测器112可以使可穿戴设备110在检测到话音活动时以及在用户说出关键短语时能够工作。对设备110的选择性或经触发的启用允许设备110作为非常低功率一直监听的解决方案而操作。在某些示例中,关键短语之后是将在基于关键短语而激活可穿戴设备110之后检测和解释的命令短语(和/或待检测的其他短语)。
如图4的示例波形400中所展示的,语音的部分可以包括例如语音开始402、检测到语音404、关键短语检测406、检测到关键短语408、语音结束410和语音已结束412。语音开始402是语音的实际开始。检测到语音404是例如由于话筒111和/或关键短语检测器112的处理时延或延迟而在由可穿戴设备110检测到语音时的时间戳。关键短语检测406是例如当分数将所收集的样本与已知/所记录的音频签名或越过阈值的样本相匹配、相关或以其他方式关联时(例如,指示所收集的音频样本包括或以其他方式与关键短语相对应等)。检测到关键短语408是例如在由关键短语检测器112进行的处理时延之后报告检测到音频样本中的关键短语414的时间点。语音结束410是所收集的语音的实际结束,并且语音已结束412是检测到语音结束的时间戳。
如图4的示例中所示出的,语音400可以包括命令416以及关键短语414。关键短语414可以触发关键短语检测器112和/或特征提取器113来处理关键短语414之后的音频以便识别命令416。例如,在已经生成、传输和处理音频特征(例如,MFCC等)之后,可以处理所识别的命令146以供执行。
例如,使用关键短语检测来触发对可穿戴设备110的剩余部分的激活可以节省可穿戴设备110处的功率、减少可穿戴设备110的部件的计算、并且减少通信信道130用于将MFCC传输至配套设备120而活跃的持续时间。例如,由于MFCC是用于KPD和MFCC流送的常见构建块,所以每个MFCC的计算的减少和/或大小的减小(例如,通过MFCC大小减小、可重构处理器上的指令扩展等)提供了可穿戴设备110的效率、时效性以及功耗的益处。
图5展示了可穿戴设备110的状态和状态转变500的示例图。如图5的示例中所示出的,可穿戴设备110的关键短语检测器112在用于计算和连接管理的关键短语检测阶段和命令短语检测阶段期间通过至少五个状态来操作。状态包括例如空闲502、语音504、检测506、命令语音508和命令无语音510。
例如,当可穿戴设备110上电时,设备110在“空闲(IDLE)”状态502中的“一直监听”模式下操作并且侦听语音。当检测到语音(例如,经由话筒111和关键短语检测器112)时,状态从“空闲”502变化成“语音(SPEECH)”504。当在“语音”状态504下时,可穿戴设备110解析音频数据分组(packet)并且使用关键短语检测器112检查是否说出了关键字。当检测到关键字时,状态变化成“检测(DETECTION)”506。关键字之后可以是如“我的下一次会议是什么时间”等命令短语。如果在某个时间段(例如,如由用户配置的几毫秒)内检测到命令短语,则状态变化成“命令语音(COMMAND SPEECH)”508。如果存在长时间的静默,则状态变化成“命令无语音(COMMAND NO SPEECH)”510并且最终返回到空闲状态502。当可穿戴设备110在空闲状态502下时,在没有数据流的情况下经由通信信道130建立与配套设备120的BLE连接。在可穿戴设备110状态变化成“检测”506时开始流送MFCC系数并且继续直到状态变成“命令无语音”510。
在某些示例中,在检测状态506之前建立与配套设备120的BLE连接通信信道130(并且准备好流送),因为建立连接花费较长时间,并且如果仅在检测到检测状态506之后建立连接信道130,则经由信道130的连接可能丢失分组。然而,例如,对MFCC和/或其他音频特征的流送在检测状态506之后开始并且在状态变成“命令无语音”510时停止。因此,可以降低或最小化来自BLE流送的功耗。
在已经由关键短语检测器112识别关键短语之后,特征提取器113处理语音和/或其他声音的音频帧(例如,包括和/或跟随所识别的关键短语或其部分)以便提取用于分组化和通过BLE通信信道130传递的特征。在某些示例中,特征描述符分组中的多个字节(例如,23个MFCC等)与BLE分组大小(例如,20字节等)不匹配,MFCC数据被分组化和分段用于通信信道130的BLE发射。
例如,MFCC组(例如,23字节等)将经由BLE通信信道130被流送至配套设备120以便由ASR引擎226以减小的或最小化的延迟以及减小的或最小化的损失和/或损坏来处理。例如,表示命令和/或关键短语等的MFCC被生成并传输至配套设备120以供进一步处理。由量化器114和/或压缩器115进行的分组化用于与连接事件的有效载荷的20字节的BLE限制进行匹配。可以采用一种或多种分组化技术。示例分组化技术涉及向某些MFCC组添加头部。
例如,可以向每4个MFCC组添加8字节头部。8字节头部包括帧起始(SOF)、序列号和填充字节。使用这种分组化,经由BLE通过通信信道130均匀地传输100字节的组作为5个分组。使用此分组化方案减少或最小化到每个第四MFCC组的分组丢失/损坏/恢复的计算。然而,损坏可以使所有4个MFCC组无效。
在另一个示例中,向每个MFCC组添加2字节的头部。2字节头部包括SOF和序列号。使用此方案减少或最小化延迟,因为BLE分组在MFCC分组到达时被发送。此分组化方案改善了丢失恢复(例如,来自每个分组的头部),但是更加计算密集且功率密集。
图6至图7展示了上述8字节和2字节头部技术的示例分组化细节。如图6的示例中所示出的,分组610(例如,进程间通信(IPC)和/或其他数据分组等)可以以每10ms 23个分组的大块传输,每40ms总共92字节。然而,使用8字节头部对准技术620,每8ms可以传输20个BLE数据分组。例如,分组被分解成8字节头部,之后是4组MFCC分组,每40ms总共8个头部分组字节和92个MFCC分组字节通过通信信道130从可穿戴设备110传输至配套设备120。例如,示例8字节头部可以包括帧起始、序列号、校验和以及可能填充等以用于同步和纠错。
如图7的示例中所示出的,IPC分组710可以以每10ms 23个字节的组传输,每40ms总共92个字节。然而,使用2字节头部对准技术720,每8ms可以传输20个BLE数据分组。例如,分组被分解成2字节头部,之后是23字节BLE MFCC分组,每40ms总共8个头部分组字节和92个MFCC分组字节通过通信信道130从可穿戴设备110传输至配套设备120。例如,示例2字节头部可以包括帧起始、序列号、校验和以及可能填充等以用于同步和纠错。
根据环境条件、场景等,可以采用这些方法中的任何方法。另外,可以改变BLE配置以使得可以控制对MFCC分组的缓冲。在一些配置中,可以在一个连接间隔中发送一个或多个分组以便优化和/或以其他方式改善带宽和功耗。因此,相比于现有解决方案,可以实现电池能量效率以便通过基于来自话音活动的输入有效地控制连接信道而实现针对可穿戴设备的分布式ASR解决方案。
因此,例如,MFCC可以与VAD一起使用以便触发关键短语检测和封装/分组化从而经由BLE通信信道130从可穿戴设备110发射到配套设备120。在某些示例中,图1的可穿戴设备110可以被实现为图8中所示出的可穿戴片上系统(SoC)110。在图8的示例中,将来自数字话筒(DMIC)111的(多个)话音输入提供给话音唤醒(WoV)电路802。WoV电路802包括话音活动检测器(VAD)804。VAD 804基于来自DMIC 111的所接收音频输入来激活WoV电路802。VAD804根据(多个)音频输入触发由MFCC发生器806生成MFCC。MFCC被提供至关键短语检测器(KPD)112,所述关键短语检测器向MFCC发生器806提供反馈。MFCC还被路由至缩放和/或压缩引擎115。缩放和/或压缩引擎115处理MFCC以便将其准备好用于发射(例如,使用对准方案,比如,每四个23字节MFCC系数组8字节头部、每个MFCC系数组2字节头部等)。发射器BLE驱动器116通过BLE通信信道130将数据分组流传输至配套设备120。例如,A律和/或位截断可以用于将MFCC缩短为8位值以便与8字节和/或2字节头部捆绑。
因此,某些示例通过将语音辨识和/或附加音频特征处理从可穿戴设备110卸载到配套设备120来提供改善的音频样本分析和通信,而同时通过技术上改善的BLE、量化和压缩策略来节省可穿戴设备110处的功率并减少对通信信道130的使用。某些示例通过对语音特征数据的智能传输和处理来促进改善的数据递送和语音辨识响应。某些示例促进将更好的使用体验递送至示例平台100的用户。
尽管图1至图8中展示了系统100、可穿戴设备110、话筒111、关键短语检测器112、特征提取器113、量化器114、压缩器115、发射器116、配套设备120、接收器122、去量化和解压缩引擎124、ASR引擎126、通信信道130、WoV 802、VAD 804、MFCC发生器806等的示例实现方式,但是图1至图8中所展示的元件、过程和/或设备中的一个或多个可以被组合、分离、重新安排、省略、消除和/或以任何其他方式实现。进一步地,示例可穿戴设备110、话筒111、关键短语检测器112、特征提取器113、量化器114、压缩器115、发射器116、配套设备120、接收器122、去量化和解压缩引擎124、ASR引擎126、通信信道130、WoV 802、VAD 804、MFCC发生器806和/或更一般地图1至图8的示例系统100可以由硬件、软件、固件和/或硬件、软件和/或固件的任何组合来实现。因此,例如,示例穿戴设备110、话筒111、关键短语检测器112、特征提取器113、量化器114、压缩器115、发射器116、配套设备120、接收器122、去量化和解压缩引擎124、ASR引擎126、通信信道130、WoV 802、VAD 804、MFCC发生器806和/或更一般地图1至图8的示例系统100可以由一个或多个模拟或数字电路、逻辑电路、(多个)可编程处理器、(多个)专用集成电路(ASIC)、(多个)可编程逻辑设备(PLD)和/或(多个)现场可编程逻辑设备(FPLD)来实现。当阅读本专利的装置或系统权利要求中的任何一项以覆盖仅软件和/或固件实现方式时,示例穿戴设备110、话筒111、关键短语检测器112、特征提取器113、量化器114、压缩器115、发射器116、配套设备120、接收器122、去量化和解压缩引擎124、ASR引擎126、通信信道130、WoV 802、VAD 804、MFCC发生器806和/或更一般地图1至图8的示例系统100中的至少一者在此被明确地定义以包括存储软件和/或固件的有形计算机可读存储设备或存储磁盘,比如存储器(例如,只读存储器(ROM)、硬盘驱动器、闪存、其他易失性和/或非易失性存储器等)、数字通用光盘(DVD)、致密盘(CD)、蓝光磁盘等。更进一步地,图1至图8的示例系统可以包括一个或多个元件、过程和/或设备(除了在图1至图8中所展示的那些之外或代替那些)、和/或可以包括多于所展示的元素、过程和设备中的任何一项或其全部。
图9至图12中示出了表示用于实现图1至图8的系统100的示例机器可读指令的流程图。在这些示例中,机器可读指令包括用于由处理器(比如在以下结合图13、图14讨论的示例处理器平台1300、1400中所示出的处理器1312、1412)执行的程序。程序可以被实施在存储在有形计算机可读存储介质(比如,CD-ROM、软盘、硬盘驱动器、DVD、蓝光磁盘、或与处理器1312、1412相关联的存储器)上的软件中,但是整个程序和/或其部分可替代地可由除了处理器1312、1412之外的设备执行和/或实施在固件或专用硬件中。进一步地,尽管参考在图9至图12中所展示的流程图对示例程序进行了描述,但是可以可替代地使用实现示例系统100的许多其他方法。例如,可以改变框的执行顺序和/或可以改变、消除或组合所描述的框中的一些。
如以上所提及的,可以使用存储在有形计算机可读存储介质(比如信息可被存储在其中持续任何时长(例如,持续延长时间段、永久地、短暂片刻、暂时地缓冲、和/或高速缓存信息)的硬盘驱动器、闪存、ROM、CD、DVD、高速缓存、随机存取存储器(RAM)和/或任何其他存储设备或存储盘)上的经编码的指令(例如,计算机和/或机器可读指令)来实现图9至图12的示例过程。如本文中所使用的,术语有形计算机可读存储介质被明确地定义为包括任何类型的计算机可读存储设备和/或存储盘并且不包括传播信号并且不包括传输介质。如本文中所使用的,术语“有形计算机可读存储介质”和“有形机器可读存储介质”可互换使用。另外地或可替代地,可以使用存储在非暂态计算机和/或机器可读介质(比如信息可被存储在其中持续任何时长(例如,持续延长时间段、永久地、短暂片刻、暂时地缓冲、和/或高速缓存信息)的硬盘驱动器、闪存、只读存储器、致密盘、数字通用盘、高速缓存、随机存取存储器和/或任何其他存储设备或存储盘)上的经编码的指令(例如,计算机和/或机器可读指令)来实现图9至图12的示例过程。如本文中所使用的,术语非暂态计算机可读介质被明确地定义为包括任何类型的计算机可读存储设备和/或存储盘并且不包括传播信号并且不包括传输介质。如本文中所使用的,当短语“至少”被用作权利要求前序部分中的过渡术语时,其与术语“包括”是开放式一样的方式是开放式的。
图9的程序900开始于框902。在框902处,在可穿戴设备110的范围内检测到声音。例如,话筒111检测到可穿戴设备110的范围内的话音。使用话音活动检测,关键短语检测器112和/或VAD 804可以激活或“唤醒”可穿戴设备110电路系统以便对所检测的音频样本进行语音处理。
在框904处,识别关键短语。例如,关键短语检测器112在所检测的音频样本中寻找语音的开始并且处理所述声音以便识别用于指示声音中的关键短语的存在的声波特性(例如,指示相对于背景噪声形成短语的字母、单词等的所识别的声音等)。在一些示例中,VAD804检测语音活动,并且MFCC发生器806生成来自所检测音频样本的MFCC并且向关键短语检测器112提供MFCC以便识别关键短语。例如,关键短语可以包括用于记录、转录、发送等的口头短语和/或用于执行的命令。例如,关键短语可以包括四到五个音节的单词组,比如,“你好计算机(Hello Computer)”、“你好设备(Hello Device)”等。在某些示例中,其他音频/唤醒事件可以包括用于触发警告、警报和/或可穿戴设备110和/或配套设备120处的其他通知(比如,玻璃打碎、婴儿哭泣、电视打开、家电运行等)的声音。
在框906处,语音信息被处理以供发射。例如,MFCC和/或与同(多个)所识别的关键短语相关联的音频帧(例如,由特征提取器113从跟随关键短语识别的(多个)音频帧中所识别的等)相关联的(多个)其他音频特征被处理(例如,量化)以为发射做准备,比如通过减少用于发射的MFCC的数量(例如,从23到13等)、通过执行A律函数来减少每个MFCC中的位数(例如,以便使用方程1至2将每个MFCC从16位映射到8位等)、和/或通过截断每个MFCC以丢弃位来减少每个MFCC中的位数(例如,丢弃每个MFCC中的7个最低有效位和最高有效位等)等。因此,例如,与跟随所识别的关键短语的(多个)音频帧中的命令相对应的(多个)音频特征可以被处理并缩减以供发射。所产生的MFCC和/或音频帧的其他音频特征信息也可以由压缩器115进行压缩,比如使用矢量压缩、统计压缩等。
例如,一旦识别了关键短语中的全部或部分,跟随关键短语的语音和/或其他音频就可以被分段成音频帧(例如,5ms、10ms、20ms的组等),并且针对每个帧提取音频特征(例如,MFCC等)。因此,例如,音频帧可以被处理以识别和提取MFCC和组并且针对处理语音的每个片段来处理MFCC。
在框908处,经由通信信道130将语音信息从可穿戴设备110传输至配套设备120。例如,发射器116通过BLE和/或其他低能量无线通信信道130将数据分组发送至配套设备120。可以使用周期性头部字节(例如,每4个MFCC组8字节头部、每个MFCC组2字节头部等)来对准数据分组以便根据通信连接事件的有效载荷的20字节的BLE限制来减少延迟以及丢失/损坏。
在框910处,由配套设备处理所接收的分组以便提取语音信息。例如,所接收的MFCC和/或其他音频特征数据分组可以被解量化、解压缩和/或以其他方式进行处理以便提取MFCC信息。在某些示例中,丢失的分组可以基于周围的分组信息来重建。例如,假设已经将分组1、2、3、4和5从边缘可穿戴设备110传输至配套设备120。分组2和4丢失或损坏。例如,可以从相邻分组值中内插分组MFCC和/或其他音频特征值,从而使得可以根据相邻分组1和3创建分组2,并且可以根据相邻分组3和5创建分组4。因此,使用分组序列号,如果相邻分组信息可用,则可以在没有可感知的质量退化的情况下恢复分组。
在框912处,所提取的语音信息被处理以供语音辨识从而确定相关联的(多个)单词/(多个)短语。例如,MFCC和/或其他音频特征被ASR引擎126处理以识别与语音信息的MFCC相关联的(多个)单词和/或(多个)短语。在某些示例中,(多个)单词和/或(多个)短语与人类语音相对应。在其他示例中,除了(多个)单词和/或(多个)短语之外的(多个)音频事件与诸如玻璃打碎、婴儿哭泣、电视打开、家电运行、门铃响等声音相对应。在某些示例中,通过重新使用从可穿戴设备110到配套设备120的MFCC,可以减少资源使用(例如,固件存储器、功耗、处理等),并且可以提高语音辨识精度。
在框914中,执行与(多个)单词/(多个)短语/(多个)声音相关联的动作。例如,如果所识别的(多个)单词和/或(多个)短语包括命令,则所述命令可以由配套设备120和/或可穿戴设备110来执行。例如,所识别的文本也可以被存储和/或输入到另一个程序中。在某些示例中,可以基于所识别的单词/短语的内容而将反馈从配套设备120提供给可穿戴设备110。例如,配套设备120可以基于所接收语音信息的质量而将反馈提供给可穿戴设备110以便修改设置、量化方法、压缩技术等。例如,可穿戴设备110和/或配套设备120可以包括基于经处理的语音信息进行更新以忽略背景噪声等的模型(例如,机器学习模型)。例如,反馈可以被提供为音频、文本和/或其他数据反馈。
因此,某些示例为涉及电池操作和低功率分布设备的可穿戴和物联网应用提供SoC。某些示例实现对音频事件、话音控制、远程控制、紧急援助等的活动跟踪。在某些示例中,系统100的音频处理可以结合运动传感器来将声音与运动等相关联。
图10的示例中示出了与识别(多个)关键短语(框904)相关联的附加细节。在框1002处,所检测的音频触发关键短语检测器112来处理传入音频样本。例如,关键短语检测器112可以处于断电、低功率或睡眠模式等中直到所检测的音频触发检测器112和/或其他WoV 802部件“醒来”。
在框1004处,基于声音波形的签名或特性而检测关键短语。例如,如果越过频率或持续时间阈值,则关键短语检测器112将声音识别为关键短语。
在框1006处,记下到关键短语的结束点。例如,如果声音衰减到低于阈值或在一定时间段上没有检测到声音,则关键短语检测器112确定短语是完整的并且终止与关键短语相关联的样本。
在框1008处,超时被评估。例如,关键短语检测器112包括用于等待检测附加声音的某个时间段。如果在所述时间段内检测到另外的声音,则控制恢复到框1004来检测下一个关键短语。如果在所述时间段内没有检测到另外的声音(例如,没有声音登记在某个噪声阈值之上等),则在框1010处,将(多个)关键短语提供给待准备并分组化用于发射的量化器114和/或压缩器115(例如,框906)。
图11的示例中示出了与处理用于发射的语音信息(框906)相关联的附加细节。在框1102处,音频帧(例如,包括和/或跟随(多个)关键短语的音频帧等)被处理以识别每个关键短语(例如,关键短语、跟随关键短语的命令、另一个音频事件等)中和/或跟随所述关键短语的音频特征(例如,MFCC等)。例如,特征提取器113从(多个)关键短语中提取MFCC和/或其他音频特征信息。在某些示例中,碎片或部分关键短语触发对语音信息的处理。在某些示例中,整个关键短语被识别用于触发对语音信息的处理。
在框1104处,音频特征(例如,MFCC等)针对每个关键短语成组并且经处理以便为发射作准备。例如,关键短语可以包括与关键短语和/或关键短语之后的音频帧(例如,命令、音频事件等)的声音相关联的23个MFCC。例如,在表示关键短语时,23个MFCC可以成组以供发射。
在框1106处,量化技术被确定以应用于音频特征(例如,MFCC等)集。例如,可穿戴设备110可以具有用于处理音频特征(例如,MFCC等)集以便进行到配套设备120的数据传输的预配置和/或硬编码的量化技术。在其他示例中,可穿戴设备110的量化器114可以基于资源可用性和/或其他操作条件(例如,带宽、功率、数据量等)来选择(例如,动态地选择)量化策略。例如,量化器114可以判定音频特征(例如,MFCC等)的数量的减少和/或音频特征位大小的减小是否适用于待传输的音频特征集。
如果量化是待传输的集合中的音频特征的数量的减少,则在框1108处,音频特征(例如,MFCC等)集根据与音频特征集大小相关联的参数而减少。例如,23个MFCC的集合可以减少到13个MFCC以发射至配套设备120进行语音辨识和进一步处理。
如果量化是每个音频特征中的位的组合,则在框1110处,音频特征集中的音频特征(例如,MFCC等)被缩减,比如使用方程1至2的A律函数来将每个音频特征中的位数从16位减少到8位等。如果量化是截断或丢弃每个音频特征中的位,则在框1112处,音频特征集中的音频特征被截断,比如通过丢弃每个音频特征中的7个最低有效位和最高有效位等。
在框1114处,所缩减的音频特征(例如,MFCC等)集被提供用于发射。在某些示例中,如果带宽和/或功率限制等指示发送少于原始音频特征(例如,MFCC等)数据分组的信息,则可以由压缩器115应用压缩(例如,矢量压缩、统计压缩等)。在框1114处,如果仍要处理附加的音频特征集,则控制恢复到框1106。否则,控制返回至框908。
图12的示例中示出了与将语音信息从可穿戴设备110传输至配套设备120(框908)相关联的附加细节。在框1202处,经处理的音频特征(例如,MFCC等)集准备用于分组化。例如,MFCC被组织成多个字节以供发射。例如,MFCC被组织成分组以便适应每20ms 20个分组的BLE限制从而通过低功率通信信道130进行发射。
在框1204处,确定分组化技术。例如,分组化技术可以被预配置和/或硬编码到发射器116中。在其他示例中,可以基于资源可用性和/或其他操作条件(例如,带宽、功率、数据量等)来动态地确定分组化技术。例如,可以使用周期性头部字节(例如,每4个MFCC组8字节头部、每个MFCC组2字节头部等)来对准MFCC数据分组以便根据通信连接事件的有效载荷的20字节的BLE限制来减少延迟以及丢失/损坏。
如果单个头部将与一组音频特征(例如,MFCC等)分组一起传输,则在框1206处,音频特征分组被组织成包括头部分组,之后是一组音频特征分组。例如,8字节头部分组将通过BLE通信信道130传输,之后是4个MFCC分组。使用此方案,8字节的头部和23字节的4个MFCC分组各自通过BLE通信信道130传输为形成100字节集的5个分组。例如,使用此方案减少对每第四个MFCC集的分组丢失、损坏和/或恢复的计算,但是损坏可以使与特定头部相关联的所有四个MFCC组无效。
如果头部将与每个音频特征(例如,MFCC等)数据分组的头部一起传输,则在框1208处,音频特征分组被组织成包括在每个音频特征分组之前传输的头部。例如,2字节头部将通过LBE通信信道130传输,之后是23字节的MFCC分组。使用此方案,2字节的头部和23字节的MFCC分组通过BLE通信信道130传输。使用此方案通过在MFCC分组到达发射器116处以供发射时发送BLE分组来减少延迟。另外,例如,对分组丢失、损坏和/或恢复的计算被限制到单个MFCC分组,但是处理是更加计算密集和功率密集的。
在框1210处,头部和音频特征(例如,MFCC等)数据分组根据指定的安排经由通信信道130传输至配套设备。如果仍要传输附加分组,则控制返回至框1202。可替代地或另外地,控制恢复到框910。
图13是能够执行图9至图12中的指令以实现图1至图8中的可穿戴设备110和(多个)相关联系统的示例处理器平台1300的框图。处理器平台1300可以是例如服务器、个人计算机、移动设备(例如,手机、智能电话、平板计算机(比如iPadTM))、个人数字助理(PDA)、互联网设施、DVD播放器、CD播放器、数字视频记录器、蓝光播放器、游戏控制台、个人视频记录器、机顶盒或任何其他类型的计算设备。
所展示的示例的处理器平台1300包括处理器1312。所展示的示例的处理器1312是硬件。例如,处理器1312可由来自任何所期望的家族或制造商的一个或多个集成电路、逻辑电路、微处理器或控制器来实现。在所展示的示例中,处理器1312被结构化成包括示例可穿戴设备110,所述示例可穿戴设备包括示例关键短语检测器112、特征提取器113、量化器114、压缩器115、发射器116等。
所展示的示例的处理器1312包括本地存储器1313(例如,高速缓存)。所展示的示例的处理器1312经由总线1318与包括易失性存储器1314和非易失性存储器1316的主存储器通信。易失性存储器1314可以由同步动态随机存取存储器(SDRAM)、动态随机存取存储器(DRAM)、RAMBUS动态随机存取存储器(RDRAM)、3D XPoint(比如Intel OptaneTM、MicronQuantXTM等)和/或任何其他类型的随机存取存储器设备来实现。非易失性存储器1316可以由闪存和/或任何其他期望类型的存储器设备实现。由存储器控制器来控制对主存储器1314、1316的访问。
所展示的示例的处理器平台1300还包括接口电路1320。接口电路1320可以由任何类型的接口标准(比如以太网接口、通用串行总线(USB)和/或外围部件互连(PCI)快速接口)来实现。
在所展示的示例中,一个或多个输入设备1322连接至接口电路1320。(多个)输入设备1322准许用户将数据和命令输入到处理器1312中。(多个)输入设备1322可由例如音频传感器、话筒、键盘、按钮、鼠标、触摸屏、轨迹板、轨迹球、隔离点和/或话音辨识系统实现。
一个或多个输出设备1324也连接至所展示的示例的接口电路1320。输出设备1324可以例如由显示设备(例如,发光二极管(LED)、有机发光二极管(OLED)、液晶显示器、阴极射线管显示器(CRT)、触摸屏、触觉输出设备)来实现。所展示的示例的接口电路1320因此通常包括图形驱动卡、图形驱动芯片或图形驱动处理器。
所展示的示例的接口电路1320还包括通信设备(比如,发射器、接收器、收发器、调制解调器和/或网络接口卡)以便经由网络1326(例如,以太网连接、数字用户线(DSL)、电话线、同轴电缆、蜂窝电话系统等)促进与外部机器(例如,任何种类的计算设备)的数据交换。
所展示的示例的处理器平台1300还包括用于存储软件和/或数据的一个或多个大容量存储设备1328。这种大容量存储设备1328的示例包括软盘驱动器、硬盘驱动器、致密盘驱动器、蓝光盘驱动器、RAID系统和数字多功能盘(DVD)驱动器。
图9至图12的经编码指令1332可以存储在大容量存储设备1328中、易失性存储器1314中、非易失性存储器1316中、和/或可移除有形计算机可读存储介质(比如CD或DVD)上。
图14是能够执行图9至图12中的指令以实现图1至图8中的配套设备120和(多个)相关联系统的示例处理器平台1400的框图。处理器平台1400可以是例如服务器、个人计算机、移动设备(例如,手机、智能电话、平板计算机(比如iPadTM))、个人数字助理(PDA)、互联网设施、DVD播放器、CD播放器、数字视频记录器、蓝光播放器、游戏控制台、个人视频记录器、机顶盒或任何其他类型的计算设备。
所展示的示例的处理器平台1400包括处理器1412。所展示的示例的处理器1412是硬件。例如,处理器1412可由来自任何所期望的家族或制造商的一个或多个集成电路、逻辑电路、微处理器或控制器来实现。在所展示的示例中,处理器1412被结构化成包括示例配套设备120,所述示例配套设备包括示例接收器122、去量化/解压缩引擎124、ASR引擎126等。
所展示的示例的处理器1412包括本地存储器1413(例如,高速缓存)。所展示的示例的处理器1412经由总线1418与包括易失性存储器1414和非易失性存储器1416的主存储器通信。易失性存储器1414可以由同步动态随机存取存储器(SDRAM)、动态随机存取存储器(DRAM)、RAMBUS动态随机存取存储器(RDRAM)、3D XPoint(比如Intel OptaneTM、MicronQuantXTM等)和/或任何其他类型的随机存取存储器设备来实现。非易失性存储器1416可以由闪存和/或任何其他期望类型的存储器设备实现。由存储器控制器来控制对主存储器1414、1416的访问。
所展示的示例的处理器平台1400还包括接口电路1420。接口电路1420可以由任何类型的接口标准(比如以太网接口、通用串行总线(USB)和/或外围部件互连(PCI)快速接口)来实现。
在所展示的示例中,一个或多个输入设备1422连接至接口电路1420。(多个)输入设备1422准许用户将数据和命令输入到处理器1412中。(多个)输入设备1422可由例如音频传感器、话筒、键盘、按钮、鼠标、触摸屏、轨迹板、轨迹球、隔离点和/或话音辨识系统实现。
一个或多个输出设备1424也连接至所展示的示例的接口电路1420。输出设备1424可以例如由显示设备(例如,发光二极管(LED)、有机发光二极管(OLED)、液晶显示器、阴极射线管显示器(CRT)、触摸屏、触觉输出设备)来实现。所展示的示例的接口电路1420因此通常包括图形驱动卡、图形驱动芯片或图形驱动处理器。
所展示的示例的接口电路1420还包括通信设备(比如,发射器、接收器、收发器、调制解调器和/或网络接口卡)以便经由网络1426(例如,以太网连接、数字用户线(DSL)、电话线、同轴电缆、蜂窝电话系统等)促进与外部机器(例如,任何种类的计算设备)的数据交换。
所展示的示例的处理器平台1400还包括用于存储软件和/或数据的一个或多个大容量存储设备1428。这种大容量存储设备1428的示例包括软盘驱动器、硬盘驱动器、致密盘驱动器、蓝光盘驱动器、RAID系统和数字多功能盘(DVD)驱动器。
图9至图12的经编码指令1432可以存储在大容量存储设备1428中、易失性存储器1414中、非易失性存储器1416中、和/或可移除有形计算机可读存储介质(比如CD或DVD)上。
根据前述内容,将理解的是,以上所公开的方法、装置和制品促进经由无线连接通过在可穿戴设备与配套设备之间分布的系统对声音的监测、处理、发射和分析。某些示例使用BLE和/或精益低功率可穿戴设备与可以处理对可穿戴设备的处理的配套设备之间的低能量无线通信来降低功率。某些示例在维持数据质量的同时根据实现通过低功率连接进行发射来减少和封装音频数据,从而实现准确的语音辨识和处理。
示例1是一种装置,包括:检测器,用于处理输入音频信号并识别所述输入音频信号中包括待评估声音的部分,所述待评估声音被组织成表示所述声音的多个音频特征。如示例1所述的装置还包括:量化器,用于使用量化过程来处理所述音频特征以减少所述音频特征,从而生成缩减的音频特征集以供发射。如示例1所述的装置包括:发射器,用于通过低能量通信信道传输所述缩减的音频特征集以供处理。
示例2包括如示例1所述的主题,其中,所述低能量通信信道包括蓝牙低能量通信信道。
示例3包括如示例1所述的主题,其中,所述待评估声音包括语音。
示例4包括如示例1所述的主题,其中,所述音频特征包括梅尔频率倒谱系数(MFCC)。
示例5包括如示例1所述的主题,其中,所述量化过程包括音频特征数量的减少。
示例6包括如示例5所述的主题,其中,所述音频特征数量的减少包括:从待传输的23个音频特征减少到13个音频特征。
示例7包括如示例1所述的主题,其中,所述量化过程包括所述音频特征中的每一个的位大小的减小。
示例8包括如示例7所述的主题,其中,所述位大小的减小是通过根据压缩参数应用A律算法来对每个音频特征的位进行编码而获得的。
示例9包括如示例7所述的主题,其中,所述位大小的减小是通过丢弃每个音频特征的一个或多个位来获得的。
示例10包括如示例9所述的主题,其中,丢弃每个音频特征的一个或多个位包括:丢弃每个音频特征的7个最低有效位和一个最高有效位。
示例11包括如示例1所述的主题,其中,所述装置包括可穿戴设备。
示例12包括如示例1所述的主题,进一步包括:特征提取器,用于从所述由关键短语检测器识别的所述声音中提取所述音频特征。
示例13包括如示例1所述的主题,进一步包括:压缩器,用于压缩所述缩减的音频特征集以供由所述发射器进行发射。
示例14包括如示例1所述的主题,进一步包括:话筒,用于检测所述输入音频信号。
示例15包括如示例1所述的主题,进一步包括:话音激活检测器,用于在检测到所述输入音频信号时激活所述关键短语检测器、所述量化器和所述发射器。
示例16包括如示例1所述的主题,进一步:配套设备,包括用于处理从所述发射器接收的所述缩减的音频特征集。
示例17包括如示例16所述的主题,其中,所述配套设备包括去量化引擎和自动语音辨识引擎,所述去量化引擎和自动语音辨识引擎用于处理所述缩减的音频特征集以提取和评估与所述缩减的音频特征集相关联的所述声音。
示例18包括如示例16所述的主题,其中,所述配套设备包括蜂窝电话或网关设备中的至少一个。
示例19是一种方法,包括:处理输入音频信号以识别所述输入音频信号中包括待评估声音的部分;将所述待评估声音组织成表示所述声音的多个音频特征;使用量化过程来处理所述音频特征以减少所述音频特征,从而生成缩减的音频特征集以供发射;以及通过低能量通信信道传输所述缩减的音频特征集以供处理。
示例20包括如示例19所述的主题,其中,所述低能量通信信道包括蓝牙低能量通信信道。
示例21包括如示例19所述的主题,其中,所述音频特征包括梅尔频率倒谱系数(MFCC)。
示例22包括如示例19所述的主题,其中,所述待评估声音包括语音。
示例23包括如示例19所述的主题,其中,所述量化过程包括音频特征数量的减少。
示例24包括如示例23所述的主题,其中,所述音频特征数量的减少包括:从待传输的23个音频特征减少到13个音频特征。
示例25包括如示例19所述的主题,其中,所述量化过程包括所述音频特征中的每一个的位大小的减小。
示例26包括如示例25所述的主题,其中,所述位大小的减小是通过根据压缩参数应用A律算法来对每个音频特征的位进行编码而获得的。
示例27包括如示例25所述的主题,其中,所述位大小的减小是通过丢弃每个音频特征的一个或多个位来获得的。
示例28包括如示例27所述的主题,其中,丢弃每个音频特征的一个或多个位包括:丢弃每个音频特征的7个最低有效位和一个最高有效位。
示例29包括如示例19所述的主题,进一步包括从所述待评估声音中提取所述音频特征。
示例30包括如示例19所述的主题,进一步包括压缩所述缩减的音频特征集以供发射。
示例31包括如示例19所述的主题,进一步包括在检测到所述输入音频信号时激活处理器来处理所述输入音频信号。
示例32包括如示例19所述的主题,进一步包括使用配套设备来处理所述缩减的音频特征集以提取和评估与所述缩减的音频特征集相关联的所述声音。
示例33是一种有形计算机可读存储介质,包括计算机可读指令,所述计算机可读指令当被执行时使处理器至少实现一种方法。示例方法包括:处理输入音频信号以识别所述输入音频信号中包括待评估声音的部分;将所述待评估声音组织成表示所述声音的多个音频特征;使用量化过程来处理所述音频特征以减少所述音频特征,从而生成缩减的音频特征集以供发射;以及通过低能量通信信道传输所述缩减的音频特征集以供处理。
示例34包括如示例33所述的主题,其中,所述低能量通信信道包括蓝牙低能量通信信道。
示例35包括如示例33所述的主题,其中,所述音频特征包括梅尔频率倒谱系数(MFCC)。
示例36包括如示例33所述的主题,其中,所述待评估声音包括语音。
示例37包括如示例33所述的主题,其中,所述量化过程包括音频特征数量的减少。
示例38包括如示例37所述的主题,其中,所述音频特征数量的减少包括:从待传输的23个音频特征减少到13个音频特征。
示例39包括如示例33所述的主题,其中,所述量化过程包括所述音频特征中的每一个的位大小的减小。
示例40包括如示例39所述的主题,其中,所述位大小的减小是通过根据压缩参数应用A律算法来对每个音频特征的位进行编码而获得的。
示例41包括如示例39所述的主题,其中,所述位大小的减小是通过丢弃每个音频特征的一个或多个位来获得的。
示例42包括如示例41所述的主题,其中,丢弃每个音频特征的一个或多个位包括:丢弃每个音频特征的7个最低有效位和一个最高有效位。
示例43包括如示例33所述的主题,其中,所述方法进一步包括从所述待评估声音中提取所述音频特征。
示例44包括如示例33所述的主题,其中,所述方法进一步包括压缩所述缩减的音频特征集以供发射。
示例45包括如示例33所述的主题,其中,所述方法进一步包括在检测到所述输入音频信号时激活所述处理器来处理所述输入音频信号。
示例46包括如示例33所述的主题,其中,所述方法进一步包括使用配套设备来处理所述缩减的音频特征集以提取和评估与所述缩减的音频特征集相关联的所述声音。
示例47是一种装置,包括:接收器,用于从可穿戴设备接收包括关于表示声音的缩减的音频特征集的信息的数据分组。所述示例装置包括:去量化引擎,用于处理所述数据分组以便检索所述缩减的音频特征集。所述示例装置包括:自动语音辨识引擎,用于评估所述缩减的音频特征集以便识别所述声音。
示例48包括如示例47所述的主题,其中,所述音频特征包括梅尔频率倒谱系数(MFCC)。
示例49包括如示例47所述的主题,其中,所述声音包括语音。
示例50包括如示例47所述的主题,其中,所述去量化引擎包括解压缩器,所述解压缩器用于解压缩所述数据分组以检索所述缩减的音频特征集的。
示例51包括如示例47所述的主题,其中,所述去量化引擎或所述自动语音辨识引擎中的至少一个用于向所述可穿戴设备提供反馈。
示例52包括如示例51所述的主题,其中,所述反馈包括文本反馈或音频反馈中的至少一者。
示例53包括如示例51所述的主题,其中,所述去量化引擎用于使用来自相邻所接收的分组信息的插值重建损坏的音频特征分组或丢失的音频分组中的至少一者。
虽然本文中已经公开了某些示例方法、装置和制品,但是本专利的覆盖范围不限于此。相反,本专利覆盖完全落入本专利的权利要求书的范围内的所有方法、装置和制品。
Claims (24)
1.一种装置,包括:
检测器,用于处理输入音频信号并识别所述输入音频信号中包括待评估声音的部分,所述待评估声音被组织成表示所述声音的多个音频特征;
量化器,用于使用量化过程来处理所述音频特征以减少所述音频特征,从而生成缩减的音频特征集以供发射;以及
发射器,用于通过低能量通信信道发射所述缩减的音频特征集以供处理。
2.如权利要求1所述的装置,其中,所述低能量通信信道包括蓝牙低能量通信信道。
3.如权利要求1所述的装置,其中,所述音频特征包括梅尔频率倒谱系数(MFCC)。
4.如权利要求1所述的装置,其中,所述量化过程包括音频特征数量的减少。
5.如权利要求4所述的装置,其中,所述音频特征数量的减少包括:从待发射的23个音频特征减少到13个音频特征。
6.如权利要求1所述的装置,其中,所述量化过程包括所述音频特征中的每一个的位大小的减小。
7.如权利要求6所述的装置,其中,所述位大小的减小是通过根据压缩参数应用A律算法来对每个音频特征的位进行编码而获得的。
8.如权利要求6所述的装置,其中,所述位大小的减小是通过丢弃每个音频特征的一个或多个位来获得的。
9.如权利要求8所述的装置,其中,丢弃每个音频特征的一个或多个位包括:丢弃每个音频特征的7个最低有效位和一个最高有效位。
10.如权利要求1所述的装置,其中,所述装置包括可穿戴设备。
11.如权利要求1所述的装置,进一步包括:特征提取器,用于从由关键短语检测器识别的所述声音中提取所述音频特征。
12.如权利要求1所述的装置,进一步包括:话音激活检测器,用于在检测到所述输入音频信号时激活所述关键短语检测器、所述量化器和所述发射器。
13.如权利要求1所述的装置,进一步包括:配套设备,用于处理从所述发射器接收的所述缩减的音频特征集。
14.一种方法,包括:
处理输入音频信号以识别所述输入音频信号中包括待评估声音的部分;
将所述待评估声音组织成表示所述声音的多个音频特征;
使用量化过程来处理所述音频特征以减少所述音频特征,从而生成缩减的音频特征集以供发射;以及
通过低能量通信信道发射所述缩减的音频特征集以供处理。
15.如权利要求14所述的方法,其中,所述低能量通信信道包括蓝牙低能量通信信道。
16.如权利要求14所述的方法,其中,所述音频特征包括梅尔频率倒谱系数(MFCC)。
17.如权利要求14所述的方法,其中,所述量化过程包括音频特征数量的减少。
18.如权利要求17所述的方法,其中,所述音频特征数量的减少包括:从待发射的23个音频特征减少到13个音频特征。
19.如权利要求14所述的方法,其中,所述量化过程包括所述音频特征中的每一个的位大小的减小。
20.如权利要求19所述的方法,其中,所述位大小的减小是通过根据压缩参数应用A律算法来对每个音频特征的位进行编码而获得的。
21.如权利要求19所述的方法,其中,所述减小位大小是通过丢弃每个音频特征的一个或多个位来获得的。
22.如权利要求21所述的方法,其中,丢弃每个音频特征的一个或多个位包括:丢弃每个音频特征的7个最低有效位和一个最高有效位。
23.如权利要求14所述的方法,进一步包括:使用配套设备来处理所述缩减的音频特征集以便提取和评估与所述缩减的音频特征集相关联的所述声音。
24.一种有形机器可读存储介质,具有存储在其上的指令,所述指令当被执行时使机器执行如权利要求14-24中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210008713.7A CN114333781A (zh) | 2017-03-31 | 2018-02-28 | 用于在可穿戴设备上进行能量高效且低功率分布式自动语音辨识的系统和方法 |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US15/475,329 | 2017-03-31 | ||
US15/475,329 US10373630B2 (en) | 2017-03-31 | 2017-03-31 | Systems and methods for energy efficient and low power distributed automatic speech recognition on wearable devices |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210008713.7A Division CN114333781A (zh) | 2017-03-31 | 2018-02-28 | 用于在可穿戴设备上进行能量高效且低功率分布式自动语音辨识的系统和方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN108694938A true CN108694938A (zh) | 2018-10-23 |
Family
ID=63525267
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810177382.3A Pending CN108694938A (zh) | 2017-03-31 | 2018-02-28 | 用于在可穿戴设备上进行能量高效且低功率分布式自动语音辨识的系统和方法 |
CN202210008713.7A Pending CN114333781A (zh) | 2017-03-31 | 2018-02-28 | 用于在可穿戴设备上进行能量高效且低功率分布式自动语音辨识的系统和方法 |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210008713.7A Pending CN114333781A (zh) | 2017-03-31 | 2018-02-28 | 用于在可穿戴设备上进行能量高效且低功率分布式自动语音辨识的系统和方法 |
Country Status (3)
Country | Link |
---|---|
US (2) | US10373630B2 (zh) |
CN (2) | CN108694938A (zh) |
DE (2) | DE102018204860A1 (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112908353A (zh) * | 2021-02-03 | 2021-06-04 | 天津大学 | 用于助听器的边缘计算与云计算相结合的语音增强方法 |
Families Citing this family (76)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9965247B2 (en) | 2016-02-22 | 2018-05-08 | Sonos, Inc. | Voice controlled media playback system based on user profile |
US9947316B2 (en) | 2016-02-22 | 2018-04-17 | Sonos, Inc. | Voice control of a media playback system |
US10743101B2 (en) | 2016-02-22 | 2020-08-11 | Sonos, Inc. | Content mixing |
US10264030B2 (en) | 2016-02-22 | 2019-04-16 | Sonos, Inc. | Networked microphone device control |
US10095470B2 (en) | 2016-02-22 | 2018-10-09 | Sonos, Inc. | Audio response playback |
US10509626B2 (en) | 2016-02-22 | 2019-12-17 | Sonos, Inc | Handling of loss of pairing between networked devices |
US10249325B2 (en) * | 2016-03-31 | 2019-04-02 | OmniSpeech LLC | Pitch detection algorithm based on PWVT of Teager Energy Operator |
US9978390B2 (en) | 2016-06-09 | 2018-05-22 | Sonos, Inc. | Dynamic player selection for audio signal processing |
US10134399B2 (en) | 2016-07-15 | 2018-11-20 | Sonos, Inc. | Contextualization of voice inputs |
US10115400B2 (en) | 2016-08-05 | 2018-10-30 | Sonos, Inc. | Multiple voice services |
US9942678B1 (en) | 2016-09-27 | 2018-04-10 | Sonos, Inc. | Audio playback settings for voice interaction |
US10181323B2 (en) | 2016-10-19 | 2019-01-15 | Sonos, Inc. | Arbitration-based voice recognition |
US10373630B2 (en) | 2017-03-31 | 2019-08-06 | Intel Corporation | Systems and methods for energy efficient and low power distributed automatic speech recognition on wearable devices |
TWI655624B (zh) * | 2017-08-03 | 2019-04-01 | 晨星半導體股份有限公司 | 聲控裝置及相關的聲音訊號處理方法 |
US10475449B2 (en) | 2017-08-07 | 2019-11-12 | Sonos, Inc. | Wake-word detection suppression |
WO2019031870A1 (ko) * | 2017-08-09 | 2019-02-14 | 엘지전자 주식회사 | 블루투스 저전력 에너지 기술을 이용하여 음성 인식 서비스를 호출하기 위한 방법 및 장치 |
US10048930B1 (en) | 2017-09-08 | 2018-08-14 | Sonos, Inc. | Dynamic computation of system response volume |
US10531157B1 (en) * | 2017-09-21 | 2020-01-07 | Amazon Technologies, Inc. | Presentation and management of audio and visual content across devices |
US10446165B2 (en) | 2017-09-27 | 2019-10-15 | Sonos, Inc. | Robust short-time fourier transform acoustic echo cancellation during audio playback |
US10051366B1 (en) | 2017-09-28 | 2018-08-14 | Sonos, Inc. | Three-dimensional beam forming with a microphone array |
US10482868B2 (en) | 2017-09-28 | 2019-11-19 | Sonos, Inc. | Multi-channel acoustic echo cancellation |
US10621981B2 (en) | 2017-09-28 | 2020-04-14 | Sonos, Inc. | Tone interference cancellation |
US10466962B2 (en) | 2017-09-29 | 2019-11-05 | Sonos, Inc. | Media playback system with voice assistance |
US11343614B2 (en) | 2018-01-31 | 2022-05-24 | Sonos, Inc. | Device designation of playback and network microphone device arrangements |
US10600408B1 (en) * | 2018-03-23 | 2020-03-24 | Amazon Technologies, Inc. | Content output management based on speech quality |
US11175880B2 (en) | 2018-05-10 | 2021-11-16 | Sonos, Inc. | Systems and methods for voice-assisted media content selection |
US10959029B2 (en) | 2018-05-25 | 2021-03-23 | Sonos, Inc. | Determining and adapting to changes in microphone performance of playback devices |
US10681460B2 (en) | 2018-06-28 | 2020-06-09 | Sonos, Inc. | Systems and methods for associating playback devices with voice assistant services |
US11076035B2 (en) | 2018-08-28 | 2021-07-27 | Sonos, Inc. | Do not disturb feature for audio notifications |
US10461710B1 (en) | 2018-08-28 | 2019-10-29 | Sonos, Inc. | Media playback system with maximum volume setting |
US10587430B1 (en) | 2018-09-14 | 2020-03-10 | Sonos, Inc. | Networked devices, systems, and methods for associating playback devices based on sound codes |
JP2020047062A (ja) * | 2018-09-20 | 2020-03-26 | Dynabook株式会社 | 電子機器および制御方法 |
JP2020047061A (ja) * | 2018-09-20 | 2020-03-26 | Dynabook株式会社 | 電子機器および制御方法 |
US11024331B2 (en) | 2018-09-21 | 2021-06-01 | Sonos, Inc. | Voice detection optimization using sound metadata |
US11100923B2 (en) | 2018-09-28 | 2021-08-24 | Sonos, Inc. | Systems and methods for selective wake word detection using neural network models |
US10692518B2 (en) | 2018-09-29 | 2020-06-23 | Sonos, Inc. | Linear filtering for noise-suppressed speech detection via multiple network microphone devices |
US11899519B2 (en) | 2018-10-23 | 2024-02-13 | Sonos, Inc. | Multiple stage network microphone device with reduced power consumption and processing load |
EP3654249A1 (en) | 2018-11-15 | 2020-05-20 | Snips | Dilated convolutions and gating for efficient keyword spotting |
US11183183B2 (en) | 2018-12-07 | 2021-11-23 | Sonos, Inc. | Systems and methods of operating media playback systems having multiple voice assistant services |
US11132989B2 (en) | 2018-12-13 | 2021-09-28 | Sonos, Inc. | Networked microphone devices, systems, and methods of localized arbitration |
US10602268B1 (en) | 2018-12-20 | 2020-03-24 | Sonos, Inc. | Optimization of network microphone devices using noise classification |
TWI713016B (zh) * | 2019-01-03 | 2020-12-11 | 瑞昱半導體股份有限公司 | 語音偵測處理系統與語音偵測方法 |
US10867604B2 (en) | 2019-02-08 | 2020-12-15 | Sonos, Inc. | Devices, systems, and methods for distributed voice processing |
US11315556B2 (en) | 2019-02-08 | 2022-04-26 | Sonos, Inc. | Devices, systems, and methods for distributed voice processing by transmitting sound data associated with a wake word to an appropriate device for identification |
EP3709194A1 (en) | 2019-03-15 | 2020-09-16 | Spotify AB | Ensemble-based data comparison |
DE102019111247A1 (de) * | 2019-04-30 | 2020-11-05 | Bayerische Motoren Werke Aktiengesellschaft | Vorrichtung zur Kommunikation mit einer weiteren Vorrichtung |
US11120794B2 (en) | 2019-05-03 | 2021-09-14 | Sonos, Inc. | Voice assistant persistence across multiple network microphone devices |
US11200894B2 (en) | 2019-06-12 | 2021-12-14 | Sonos, Inc. | Network microphone device with command keyword eventing |
US10586540B1 (en) | 2019-06-12 | 2020-03-10 | Sonos, Inc. | Network microphone device with command keyword conditioning |
US11361756B2 (en) | 2019-06-12 | 2022-06-14 | Sonos, Inc. | Conditional wake word eventing based on environment |
CN110349566B (zh) * | 2019-07-11 | 2020-11-24 | 龙马智芯(珠海横琴)科技有限公司 | 语音唤醒方法、电子设备及存储介质 |
US10871943B1 (en) | 2019-07-31 | 2020-12-22 | Sonos, Inc. | Noise classification for event detection |
US11138975B2 (en) | 2019-07-31 | 2021-10-05 | Sonos, Inc. | Locally distributed keyword detection |
US11138969B2 (en) | 2019-07-31 | 2021-10-05 | Sonos, Inc. | Locally distributed keyword detection |
US11094319B2 (en) | 2019-08-30 | 2021-08-17 | Spotify Ab | Systems and methods for generating a cleaned version of ambient sound |
WO2021051403A1 (zh) * | 2019-09-20 | 2021-03-25 | 深圳市汇顶科技股份有限公司 | 一种语音控制方法、装置、芯片、耳机及系统 |
US11189286B2 (en) | 2019-10-22 | 2021-11-30 | Sonos, Inc. | VAS toggle based on device orientation |
US12125482B2 (en) * | 2019-11-22 | 2024-10-22 | Intel Corporation | Adaptively recognizing speech using key phrases |
US11200900B2 (en) | 2019-12-20 | 2021-12-14 | Sonos, Inc. | Offline voice control |
US11562740B2 (en) | 2020-01-07 | 2023-01-24 | Sonos, Inc. | Voice verification for media playback |
US11556307B2 (en) | 2020-01-31 | 2023-01-17 | Sonos, Inc. | Local voice data processing |
US11308958B2 (en) | 2020-02-07 | 2022-04-19 | Sonos, Inc. | Localized wakeword verification |
US11308959B2 (en) | 2020-02-11 | 2022-04-19 | Spotify Ab | Dynamic adjustment of wake word acceptance tolerance thresholds in voice-controlled devices |
US11328722B2 (en) * | 2020-02-11 | 2022-05-10 | Spotify Ab | Systems and methods for generating a singular voice audio stream |
US11482224B2 (en) | 2020-05-20 | 2022-10-25 | Sonos, Inc. | Command keywords with input detection windowing |
US11727919B2 (en) | 2020-05-20 | 2023-08-15 | Sonos, Inc. | Memory allocation for keyword spotting engines |
US11308962B2 (en) * | 2020-05-20 | 2022-04-19 | Sonos, Inc. | Input detection windowing |
CN111724780B (zh) | 2020-06-12 | 2023-06-30 | 北京小米松果电子有限公司 | 设备的唤醒方法及装置、电子设备、存储介质 |
TWI747392B (zh) | 2020-07-22 | 2021-11-21 | 國立雲林科技大學 | 嬰兒哭聲辨識修正方法及其系統 |
US11698771B2 (en) | 2020-08-25 | 2023-07-11 | Sonos, Inc. | Vocal guidance engines for playback devices |
CN114641823A (zh) * | 2020-10-13 | 2022-06-17 | 谷歌有限责任公司 | 使用可穿戴设备的分布式声音识别 |
US12062361B2 (en) * | 2020-11-02 | 2024-08-13 | Aondevices, Inc. | Wake word method to prolong the conversational state between human and a machine in edge devices |
US11984123B2 (en) | 2020-11-12 | 2024-05-14 | Sonos, Inc. | Network device interaction by range |
US20210168578A1 (en) * | 2020-12-23 | 2021-06-03 | Intel Corporation | Apparatus, system and method of communicating audio traffic over a bluetooth link |
WO2023113877A1 (en) * | 2021-12-13 | 2023-06-22 | Google Llc | Selecting between multiple automated assistants based on invocation properties |
US11770268B2 (en) * | 2022-02-14 | 2023-09-26 | Intel Corporation | Enhanced notifications for online collaboration applications |
Citations (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
BE829537A (fr) * | 1974-05-27 | 1975-09-15 | Procede et dispositif de transmission de signaux avec modulation par impulsions codees et avec reduction de redondance | |
JPH06204952A (ja) * | 1992-09-21 | 1994-07-22 | Internatl Business Mach Corp <Ibm> | 電話回線利用の音声認識システムを訓練する方法 |
CA2218605A1 (en) * | 1997-10-20 | 1999-04-20 | Northern Telecom Limited | Method and apparatus for data compression and decompression in speech recognition |
JP2000308167A (ja) * | 1999-04-20 | 2000-11-02 | Mitsubishi Electric Corp | 音声符号化装置 |
WO2002062120A2 (en) * | 2001-02-02 | 2002-08-15 | Motorola, Inc. | Method and apparatus for speech reconstruction in a distributed speech recognition system |
CA2427339A1 (en) * | 2000-10-31 | 2002-10-17 | Qualcomm Incorporated | System and method for improving voice recognition in noisy environments and frequency mismatch conditions |
CN1451155A (zh) * | 1999-09-22 | 2003-10-22 | 科恩格森特系统股份有限公司 | 多模式语音编码器 |
US20070143105A1 (en) * | 2005-12-16 | 2007-06-21 | Keith Braho | Wireless headset and method for robust voice data communication |
US20080175148A1 (en) * | 2007-01-18 | 2008-07-24 | Todd Marc A C | System and method for selective packet discard for the transport of multiple transportation streams of streaming media in packet-based networks |
US20100174539A1 (en) * | 2009-01-06 | 2010-07-08 | Qualcomm Incorporated | Method and apparatus for vector quantization codebook search |
EP2261898A1 (en) * | 2009-06-04 | 2010-12-15 | APT Licensing Limited | Audio codec with improved synchronisation |
CN102111314A (zh) * | 2010-12-30 | 2011-06-29 | 广州市聚晖电子科技有限公司 | 一种基于蓝牙传输的智能家居语音控制系统及方法 |
CN102748011A (zh) * | 2012-07-05 | 2012-10-24 | 北京众博达石油科技有限公司 | 一种应用于工业监控设备的音频监控终端及音频处理方法 |
CN102820032A (zh) * | 2012-08-15 | 2012-12-12 | 歌尔声学股份有限公司 | 一种语音识别系统和方法 |
CN105765650A (zh) * | 2013-09-27 | 2016-07-13 | 亚马逊技术公司 | 带有多向解码的语音辨识器 |
CN106531175A (zh) * | 2016-11-13 | 2017-03-22 | 南京汉隆科技有限公司 | 一种网络话机柔和噪声产生的方法 |
Family Cites Families (27)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
ES201108A1 (es) | 1950-12-23 | 1952-02-16 | Simmersbach Edmund | UN PROCEDIMIENTO DE OBTENCIoN DE SUSTANCIAS ACTIVAS ACUOSOLUBLES DE UTILIDAD TERAPÉUTICA |
US9076448B2 (en) | 1999-11-12 | 2015-07-07 | Nuance Communications, Inc. | Distributed real time speech recognition system |
US6760699B1 (en) * | 2000-04-24 | 2004-07-06 | Lucent Technologies Inc. | Soft feature decoding in a distributed automatic speech recognition system for use over wireless channels |
US6934756B2 (en) | 2000-11-01 | 2005-08-23 | International Business Machines Corporation | Conversational networking via transport, coding and control conversational protocols |
US9342829B2 (en) | 2002-10-01 | 2016-05-17 | Andrew H B Zhou | Systems and methods for mobile application, wearable application, transactional messaging, calling, digital multimedia capture and payment transactions |
US9158116B1 (en) | 2014-04-25 | 2015-10-13 | Osterhout Group, Inc. | Temple and ear horn assembly for headworn computer |
US20100106269A1 (en) * | 2008-09-26 | 2010-04-29 | Qualcomm Incorporated | Method and apparatus for signal processing using transform-domain log-companding |
JP4809454B2 (ja) * | 2009-05-17 | 2011-11-09 | 株式会社半導体理工学研究センター | 発話推定による回路起動方法及び回路起動装置 |
US20130176626A1 (en) | 2012-01-05 | 2013-07-11 | Google Inc. | Wearable device assembly with input and output structures |
US9529197B2 (en) | 2012-03-21 | 2016-12-27 | Google Inc. | Wearable device with input and output structures |
US8824606B2 (en) * | 2012-01-30 | 2014-09-02 | Qualcomm Incorporated | Multiple correlators for communication device detection |
US20130258271A1 (en) | 2012-03-28 | 2013-10-03 | Google Inc. | Sliding Frame |
US9128283B1 (en) | 2012-05-17 | 2015-09-08 | Google Inc. | Dynamically adjustable frame |
US8990076B1 (en) | 2012-09-10 | 2015-03-24 | Amazon Technologies, Inc. | Front-end difference coding for distributed speech recognition |
US9818407B1 (en) * | 2013-02-07 | 2017-11-14 | Amazon Technologies, Inc. | Distributed endpointing for speech recognition |
US20140253867A1 (en) | 2013-03-05 | 2014-09-11 | Tao Jiang | Pair of Projector Glasses |
US9542933B2 (en) * | 2013-03-08 | 2017-01-10 | Analog Devices Global | Microphone circuit assembly and system with speech recognition |
US10420072B2 (en) * | 2013-03-14 | 2019-09-17 | Everactive, Inc. | Methods and apparatus for low power wireless communication |
WO2015005927A1 (en) * | 2013-07-11 | 2015-01-15 | Intel Corporation | Device wake and speaker verification using the same audio input |
US9245527B2 (en) * | 2013-10-11 | 2016-01-26 | Apple Inc. | Speech recognition wake-up of a handheld portable electronic device |
US8768712B1 (en) * | 2013-12-04 | 2014-07-01 | Google Inc. | Initiating actions based on partial hotwords |
US9858922B2 (en) * | 2014-06-23 | 2018-01-02 | Google Inc. | Caching speech recognition scores |
KR20160049759A (ko) * | 2014-10-28 | 2016-05-10 | 삼성전자주식회사 | 주변 기기 탐색 방법 및 그 전자 장치 |
US9875081B2 (en) * | 2015-09-21 | 2018-01-23 | Amazon Technologies, Inc. | Device selection for providing a response |
US10264358B2 (en) * | 2017-02-15 | 2019-04-16 | Amazon Technologies, Inc. | Selection of master device for synchronized audio |
US10096319B1 (en) * | 2017-03-13 | 2018-10-09 | Amazon Technologies, Inc. | Voice-based determination of physical and emotional characteristics of users |
US10373630B2 (en) * | 2017-03-31 | 2019-08-06 | Intel Corporation | Systems and methods for energy efficient and low power distributed automatic speech recognition on wearable devices |
-
2017
- 2017-03-31 US US15/475,329 patent/US10373630B2/en active Active
-
2018
- 2018-02-28 CN CN201810177382.3A patent/CN108694938A/zh active Pending
- 2018-02-28 CN CN202210008713.7A patent/CN114333781A/zh active Pending
- 2018-03-29 DE DE102018204860.6A patent/DE102018204860A1/de active Pending
- 2018-03-29 DE DE102018010463.0A patent/DE102018010463B3/de active Active
-
2019
- 2019-08-05 US US16/531,500 patent/US11308978B2/en active Active
Patent Citations (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
BE829537A (fr) * | 1974-05-27 | 1975-09-15 | Procede et dispositif de transmission de signaux avec modulation par impulsions codees et avec reduction de redondance | |
JPH06204952A (ja) * | 1992-09-21 | 1994-07-22 | Internatl Business Mach Corp <Ibm> | 電話回線利用の音声認識システムを訓練する方法 |
CA2218605A1 (en) * | 1997-10-20 | 1999-04-20 | Northern Telecom Limited | Method and apparatus for data compression and decompression in speech recognition |
JP2000308167A (ja) * | 1999-04-20 | 2000-11-02 | Mitsubishi Electric Corp | 音声符号化装置 |
CN1451155A (zh) * | 1999-09-22 | 2003-10-22 | 科恩格森特系统股份有限公司 | 多模式语音编码器 |
CA2427339A1 (en) * | 2000-10-31 | 2002-10-17 | Qualcomm Incorporated | System and method for improving voice recognition in noisy environments and frequency mismatch conditions |
WO2002062120A2 (en) * | 2001-02-02 | 2002-08-15 | Motorola, Inc. | Method and apparatus for speech reconstruction in a distributed speech recognition system |
CN1552059A (zh) * | 2001-02-02 | 2004-12-01 | Ħ��������˾ | 分布式语音识别系统中语音识别的方法和设备 |
US20070143105A1 (en) * | 2005-12-16 | 2007-06-21 | Keith Braho | Wireless headset and method for robust voice data communication |
US20080175148A1 (en) * | 2007-01-18 | 2008-07-24 | Todd Marc A C | System and method for selective packet discard for the transport of multiple transportation streams of streaming media in packet-based networks |
US20100174539A1 (en) * | 2009-01-06 | 2010-07-08 | Qualcomm Incorporated | Method and apparatus for vector quantization codebook search |
EP2261898A1 (en) * | 2009-06-04 | 2010-12-15 | APT Licensing Limited | Audio codec with improved synchronisation |
CN102111314A (zh) * | 2010-12-30 | 2011-06-29 | 广州市聚晖电子科技有限公司 | 一种基于蓝牙传输的智能家居语音控制系统及方法 |
CN102748011A (zh) * | 2012-07-05 | 2012-10-24 | 北京众博达石油科技有限公司 | 一种应用于工业监控设备的音频监控终端及音频处理方法 |
CN102820032A (zh) * | 2012-08-15 | 2012-12-12 | 歌尔声学股份有限公司 | 一种语音识别系统和方法 |
CN105765650A (zh) * | 2013-09-27 | 2016-07-13 | 亚马逊技术公司 | 带有多向解码的语音辨识器 |
CN106531175A (zh) * | 2016-11-13 | 2017-03-22 | 南京汉隆科技有限公司 | 一种网络话机柔和噪声产生的方法 |
Non-Patent Citations (2)
Title |
---|
王涌;贾立新;何剑春;: "基于静音识别的改进型ADDPCM语音压缩算法的研究", 浙江工业大学学报, no. 06 * |
陈永真;庄奕琪;曾志斌;: "基于语音识别技术和蓝牙技术的数字化家庭综合设计", 世界电子元器件, no. 11 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112908353A (zh) * | 2021-02-03 | 2021-06-04 | 天津大学 | 用于助听器的边缘计算与云计算相结合的语音增强方法 |
Also Published As
Publication number | Publication date |
---|---|
US10373630B2 (en) | 2019-08-06 |
CN114333781A (zh) | 2022-04-12 |
DE102018204860A1 (de) | 2018-10-04 |
US20190355379A1 (en) | 2019-11-21 |
US20180286414A1 (en) | 2018-10-04 |
US11308978B2 (en) | 2022-04-19 |
DE102018010463B3 (de) | 2023-03-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108694938A (zh) | 用于在可穿戴设备上进行能量高效且低功率分布式自动语音辨识的系统和方法 | |
CN104254884B (zh) | 用于分析数字化音频流的低功率集成电路 | |
JP6502512B2 (ja) | 動的パスワード音声に基づいた自己学習機能を有する身分認証システム及び方法 | |
US10297258B2 (en) | Microphone unit comprising integrated speech analysis | |
CN105009204B (zh) | 语音识别功率管理 | |
CN104052846B (zh) | 游戏应用中的语音通信方法及系统 | |
WO2023222088A1 (zh) | 语音识别与分类方法和装置 | |
CN110265040A (zh) | 声纹模型的训练方法、装置、存储介质及电子设备 | |
CN110570840B (zh) | 一种基于人工智能的智能设备唤醒方法和装置 | |
CN105489221A (zh) | 一种语音识别方法及装置 | |
CN104766608A (zh) | 一种语音控制方法及装置 | |
CN111683317B (zh) | 一种应用于耳机的提示方法、装置、终端及存储介质 | |
CN110097895B (zh) | 一种纯音乐检测方法、装置及存储介质 | |
US20210210109A1 (en) | Adaptive decoder for highly compressed grapheme model | |
CN106374991A (zh) | 一种利用北斗卫星进行数据传输的方法、装置及系统 | |
CN107274882A (zh) | 数据传输方法及装置 | |
CN112748899A (zh) | 一种数据处理方法和相关设备 | |
CN111522592A (zh) | 一种基于人工智能的智能终端唤醒方法和装置 | |
CN114360510A (zh) | 一种语音识别方法和相关装置 | |
CN109684501B (zh) | 歌词信息生成方法及其装置 | |
CN116597828B (zh) | 模型确定方法、模型应用方法和相关装置 | |
CN112329457B (zh) | 输入语音的识别方法及相关设备 | |
CN117731288A (zh) | 一种ai心理咨询方法和系统 | |
CN114550694A (zh) | 设备的语音测试方法、装置、存储介质及计算机设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |