HK40112939A

HK40112939A - 无声语音检测

Info

Publication number: HK40112939A
Application number: HK62024100993.0A
Authority: HK
Inventors: 阿维亚德·梅泽尔斯; 阿维·巴里亚; 乔拉·科恩布劳; 约纳坦·韦克斯勒
Original assignee: 库伊有限公司
Priority date: 2021-08-04
Filing date: 2022-05-16
Publication date: 2025-01-28

Description

无声语音检测

相关申请的交叉引用

本申请要求于2021年8月4日提交的美国临时专利申请63/229,091的利益，该美国临时专利申请通过引用并入本文。

发明领域

本发明总体上涉及生理感测，尤其涉及用于感测人类语音的方法和装置。

背景

说话的过程会激活胸部、颈部和面部的神经和肌肉。因此，例如，肌电图(EMG)已被用于捕获肌肉脉冲以用于语音感测。

二次散斑图案已被用于监测人体上的皮肤的运动。二次散斑通常出现在激光束从粗糙表面(例如皮肤)的漫反射中。通过跟踪由人类皮肤在被激光束照射时进行的反射产生的二次散斑的时间和振幅变化，研究人员测量了血压(blood pulse pressure)和其他生命体征。例如，美国专利10,398,314描述了一种使用图像数据监测对象身体的状况的方法，该图像数据指示由身体产生的散斑图案序列。

概述

下面描述的本发明的实施例提供了用于感测人类语音的新方法和设备。

根据本发明的实施例，还提供了一种感测设备，该感测设备包括支架和光学感测头，支架被配置为适配该设备的用户的耳朵，光学感测头由支架保持在靠近用户面部的位置，并且被配置为感测从面部反射的光并响应于检测到的光而输出信号。处理电路被配置为处理该信号以生成语音输出。

在一个实施例中，支架包括耳夹。可替代地，支架包括眼镜框架。在公开的实施例中，光学感测头被配置为感测从用户的脸颊反射的光。

在一些实施例中，光学感测头包括发射器和感测器阵列，发射器被配置为将相干光引导到面部，感测器阵列被配置为感测由于相干光从面部的反射而产生的二次散斑图案。在公开的实施例中，发射器被配置为将相干光的多个光束引导到面部上的不同的相应位置，并且感测器阵列被配置为感测从这些位置反射的二次散斑图案。附加地或可替代地，由光束照射并由感测器阵列感测的位置在至少1cm²的区域上延伸。此外，附加地或可替代地，光学感测头包括多个发射器，该多个发射器被配置为产生覆盖面部的不同的、相应区域的相应光束组，并且处理电路被配置为选择和致动发射器的子集，而不致动所有发射器。

在公开的实施例中，处理电路被配置为检测感测到的二次散斑图案的变化，并响应于检测到的变化来生成语音输出。

可替代地或附加地，处理电路被配置为以第一帧速率操作感测器阵列，响应于当以第一帧速率操作时的信号来感测面部的运动，并且响应于感测到的运动将帧速率增加到大于第一帧速率的第二帧速率，以生成语音输出。

在所公开的实施例中，处理电路被配置为响应于由于在用户不发出任何声音的情况下用户的皮肤表面的运动导致的、由光学感测头输出的信号的变化，生成语音输出。

通常，光学感测头由支架保持在距离用户的皮肤表面至少5mm的位置。

在一个实施例中，该设备包括一个或更多个电极，该一个或更多个电极被配置为接触用户的皮肤表面，其中处理电路被配置为响应于由一个或更多个电极感测到的电活动以及由光学感测头输出的信号来生成语音输出。

附加地或可替代地，该设备包括麦克风，该麦克风被配置为感测用户发出的声音。在一个实施例中，处理电路被配置为将光学感测头输出的信号与麦克风感测到的声音进行比较，以便校准光学感测头。附加地或可替代地，处理电路被配置为响应于对用户发出的声音的感测来改变设备的操作状态。

在一些实施例中，该设备包括通信接口，其中处理电路被配置为对信号进行编码，以便通过通信接口传输到处理设备，该处理设备处理经编码的信号以生成语音输出。在公开的实施例中，通信接口包括无线接口。

附加地或可替代地，该设备包括用户控件，该用户控件连接到支架并被配置为感测用户做出的手势，其中处理电路被配置为响应于感测到的手势来改变设备的操作状态。

此外，附加地或可替代地，该设备包括扬声器，该扬声器被配置为适配在用户的耳朵内，其中处理电路被配置为合成对应于语音输出的音频信号，以用于由扬声器回放。

根据本发明的实施例，还提供了一种感测方法，该方法包括响应于人类对象说(articulate)单词但该对象不将单词发声出来，并且在不接触该对象的面部上的皮肤的情况下，感测该皮肤的运动。响应于感测到的运动，生成包括被说出的单词的语音输出。

在一些实施例中，感测该运动包括感测从对象的面部反射的光。在公开的实施例中，感测该光包括将相干光引导到皮肤，并感测由于相干光从皮肤的反射而产生的二次散斑图案。在一个实施例中，引导相干光包括将相干光的多个光束引导到面部上的不同的相应位置，并使用感测器阵列感测从每个位置反射的二次散斑图案。

在公开的实施例中，生成语音输出包括合成对应于语音输出的音频信号。可替代地或附加地，生成语音输出包括转录由对象说出的单词。

根据本发明的实施例的以下详细描述并结合附图，本发明将得到更充分的理解，在附图中：

附图简述

图1是根据本发明的实施例的用于语音感测的系统的示意性形象化图示；

图2是根据本发明的实施例的光学感测头的示意性剖视图；

图3是根据本发明的另一实施例的语音感测设备的示意性形象化图示；

图4是示意性地示出根据本发明的实施例的用于语音感测的系统的功能部件的框图；和

图5是示意性地示出根据本发明的实施例的语音感测方法的流程图。

具体实施方式

人们几乎随时随地通过他们的移动电话进行交流。移动电话在公共场所的广泛使用带来了不和谐的噪音，并经常引起隐私问题，因为对话很容易被路人听到。同时，当电话对话中的一方处于嘈杂的位置时，另一方或多方可能由于背景噪音而难以理解他们所听到的内容。文本交流为这些问题提供了一个解决方案，但是移动电话的文本输入很慢，并且干扰了用户查看他们要去哪里的能力。

本文描述的本发明的实施例使用无声语音来解决这些问题，使得用户能够说出单词和句子，而无需实际上将单词发声出来或根本无需发出任何声音。正常的发声过程使用多群肌肉和神经，从胸部和腹部开始，通过喉咙，并向上通过口腔和面部。为了说出给定的音素，运动神经元激活面部、喉部和口腔中的肌肉群，为推动气流流出肺部做准备，并且这些肌肉在说话过程中继续运动，以创造单词和句子。如果没有这种气流，嘴就不会发出声音。当没有来自肺部的气流，而面部、喉部和口腔中的肌肉继续说出想要的声音时，则会出现无声语音。

无声语音可能是由于神经疾病和肌肉疾病引起的；但它也可能是有意发生的，例如当我们说单词但不希望被别人听到时。即使当我们在不张嘴的情况下把口语单词概念化时，这种说也会发生。由此产生的我们面部肌肉的激活引起了皮肤表面的细微运动。发明人已经发现，通过适当地感测和解码这些运动，有可能可靠地重建由用户说出的单词的实际序列。

因此，本文描述的本发明的实施例感测对象面部上的皮肤和皮下神经及肌肉的细微运动，并且使用感测到的运动来生成包括被说出的单词的语音输出，该细微运动响应于由对象在发声或不发声的情况下说出的单词而发生。这些实施例提供了用于在不接触皮肤的情况下(例如通过感测从对象的面部反射的光)感测这些细微运动的方法和设备。因此，它们使用户能够以其他方基本上察觉不到的方式无声地与其他人交流或记录他们自己的想法。根据这些实施例的设备和方法也对环境噪声不敏感，并且可以基本上在任何环境中使用，而不需要用户将他们的视线和注意力从他们的周围事物上转移开。

本发明的一些实施例提供了具有普通消费品形式的感测设备，例如夹式头戴式耳机(headphone)或眼镜。在这些实施例中，光学感测头通过适配在用户的耳朵内或耳朵之上的支架被保持在靠近用户面部的位置。例如通过将相干光引导到面部的区域(例如脸颊)，光学感测头感测从面部反射的光，并且感测由于相干光从面部的反射而产生的二次散斑图案的变化。该设备中的处理电路处理光学感测头由于反射光而输出的信号，以生成相应的语音输出。

可替代地，本发明的原理可以在没有耳夹或其他支架的情况下实现。例如，在替代实施例中，包括相干光源和传感器的无声语音感测模块可以集成到诸如智能手机之类的移动通信设备中。当用户将移动通信设备保持在靠近用户面部的合适位置时，该集成感测模块感测无声语音。

在本说明书和权利要求中使用的术语“光”是指红外、可见光和紫外范围中的任何或所有范围的电磁辐射。

图1是根据本发明的实施例的用于语音感测的系统18的示意性形象化图示。系统18基于感测设备20，其中耳夹22形式的支架适配在该设备的用户24的耳朵之上。附接到耳夹22的耳机26适配到用户的耳朵内。光学感测头28通过臂30连接到耳夹22，因此保持在靠近用户面部的位置。在图示的实施例中，设备20具有夹式头戴式耳机的形式和外观，其中光学感测头代替麦克风(或除了麦克风之外还有光学感测头)。

光学感测头28将一束或更多束相干光导向用户24面部上的不同的相应位置，从而产生在面部的区域34上(且具体是在用户的脸颊上)延伸的光斑(spot)32的阵列。在本实施例中，光学感测头28根本不接触用户的皮肤，而是保持在距离皮肤表面的一定距离处。通常，该距离至少为5mm，并且它甚至可以更大，例如距离皮肤表面至少1cm或者甚至2cm或者更大。为了能够感测面部肌肉的不同部分的运动，由光斑32覆盖并由光学感测头28感测的区域34通常具有至少1cm²的范围；并且更大的区域(例如至少2cm²或者甚至大于4cm²)可以是有利的。

光学感测头28感测从面部上的光斑32反射的相干光，并响应于检测到的光输出信号。具体地，光学感测头28感测由于相干光从其视场内的每个光斑32的反射而产生的二次散斑图案。为了覆盖足够大的区域34，该视场通常具有宽的角范围，通常具有至少60°、或者可能是70°、或者甚至90°或者更多的角宽度。在该视场内，设备20可以感测和处理由于所有光斑32或仅光斑32的某个子集的二次散斑图案而产生的信号。例如，设备20可以选择光斑的子集，该子集被发现在用户24的皮肤表面的相关运动方面给出最大量的有用且可靠的信息。下面参照图2描述光学感测头28的结构和操作的细节。

在系统18内，处理电路处理由光学感测头28输出的信号以生成语音输出。如先前所述，即使用户22没有将语音发声出来或说出任何其他声音，处理电路也能够感测用户22的皮肤的运动并生成语音输出。语音输出可以采取合成的音频信号或文本转录或两者兼有的形式。合成的音频信号可以经由耳机26中的扬声器回放(并且在给予用户22关于语音输出的反馈时有用)。附加地或替代地，合成的音频信号可以通过网络传输，例如经由与移动通信设备(例如智能手机36)的通信链路传输。

系统18中的处理电路的功能可以完全在设备20内执行，或者它们可以替代地在设备20和外部处理器之间分配，该外部处理器例如为运行合适的应用软件的智能手机36中的处理器。例如，设备20内的处理电路可以对由光学感测头28输出的信号进行数字化和编码，并通过通信链路将编码信号传输到智能手机36。该通信链路可以是有线或无线的，例如使用智能手机提供的蓝牙^TM无线接口。智能手机36中的处理器处理编码信号，以便生成语音输出。智能手机36还可以通过诸如互联网之类的数据网络来访问服务器38，以便例如上传数据和下载软件更新。下文参照图4描述处理电路的设计和操作的细节。

在图示的实施例中，设备20还包括例如按钮(push-button)传感器或接近传感器形式的用户控件35，该用户控件35连接到耳夹22。用户控件35感测由用户执行的手势，例如在用户控件35上按压或以其他方式使用户的手指或手靠近用户控件。响应于适当的用户手势，处理电路改变设备20的操作状态。例如，用户24可以以这种方式将设备20从空闲模式切换到活动模式，并因此发信号指示(signal)设备应该开始感测和生成语音输出。这种切换在设备20中节省电池功率方面是有用的。可替代地或附加地，可以应用其他方法来控制设备20的操作状态并减少不必要的功耗，例如如下文参考图5所述。

图2是设备20的光学感测头28的示意性剖视图，示出了根据本发明的实施例的光学感测头的部件和功能细节。光学感测头28包括发射器模块40和接收器模块48，以及可选的麦克风54。

发射器模块40包括光源，例如红外激光二极管42，该光源发射相干辐射的输入光束。分束元件44，例如达曼光栅或另一种合适类型的衍射光学元件(DOE)，将输入光束分成多个输出光束46，这些输出光束46在区域34上延伸的位置矩阵处形成相应的光斑32。在一个实施例中(未在图中示出)，发射器模块40包括多个激光二极管或其他发射器，它们产生输出光束46的相应组，这些组覆盖用户面部的区域34内的不同的相应子区域。在这种情况下，设备20中的处理电路可以仅选择和致动发射器的子集，而不致动所有发射器。例如，为了降低设备20的功耗，处理电路可以仅致动一个发射器或由两个或更多个发射器组成的子集，该一个发射器或该子集照射用户面部上的区域，该区域已被发现给出用于生成期望语音输出的最有用信息。

接收器模块48包括光学传感器的阵列52，例如CMOS图像传感器，其中物镜50用于将区域34成像到阵列52上。由于光学感测头28的尺寸小以及其靠近皮肤表面，如上所述，接收器模块48具有足够宽的视场，并且以远离法线的高角度观察许多光斑32。由于皮肤表面粗糙，也可以以这些高角度检测到光斑32处的二次散斑图案。

麦克风54感测用户24发出的声音，使得用户22能够在需要时将设备20用作传统头戴式耳机。附加地或可替代地，麦克风54可以与设备20的无声语音感测能力结合使用。例如，麦克风54可以在校准过程中使用，在校准过程中，当用户22说出某些音素或单词时，光学感测头28感测皮肤的运动。然后，处理电路可以将光学感测头28输出的信号与麦克风54感测到的声音进行比较，以便校准光学感测头。该校准可以包括提示用户22移动光学感测头28的位置，以便将光学部件对准在相对于用户脸颊的期望位置。

在另一实施例中，由麦克风54输出的音频信号可用于改变设备20的操作状态。例如，仅当麦克风54没有检测到用户24对单词的发声时，处理电路才可以生成语音输出。由光学感测头28和麦克风54提供的光学感测和声学感测的组合的其他应用，对于本领域技术人员在阅读本说明书之后将是显而易见的，并且被认为在本发明的范围内。

图3是根据本发明的另一实施例的语音感测设备60的示意性形象化图示。在该实施例中，耳夹22与眼镜框架62集成或以其他方式附接到眼镜框架62。鼻电极64和颞电极66附接到框架62并接触用户的皮肤表面。电极64和66接收体表肌电图(sEMG)信号，该信号提供关于用户的面部肌肉激活的附加信息。设备60中的处理电路使用由电极64和66感测到的电活动以及来自光学感测头28的输出信号来生成从设备60输出的语音。

附加地或可替代地，设备60包括一个或更多个附加的光学感测头68，其类似于光学感测头28，用于感测在用户面部的其他区域中的皮肤运动。这些附加的光学感测头可以与光学感测头28一起使用或代替光学感测头28使用。

图4是示意性地示出根据本发明的实施例的用于语音感测的系统18的功能部件的框图。图示的系统围绕图1所示的部件而构建，包括感测设备20、智能手机36和服务器38。可替代地，图4所示和下面描述的功能可以在该系统的部件之间不同地实现和分配。例如，归属于智能手机36的一些或所有处理能力可以在感测设备中实现；或者设备20的感测能力可以在智能手机36中实现。

在图示的示例中，如上所述，感测设备20包括发射器模块40、接收器模块48、扬声器26、麦克风54和用户控件(UI)35。为了完整起见，感测设备20在图4中被示出为也包括其它传感器71，例如电极和/或环境传感器；但是如前所述，感测设备20能够仅基于由发射器和接收器模块进行的非接触式测量来操作。

感测设备20包括编码器70和控制器75形式的处理电路。编码器70包括硬件处理逻辑和/或数字信号处理器，硬件处理逻辑可以是硬连线的或可编程的，数字信号处理器提取来自接收器模块48的输出信号的特征并对其进行编码。感测设备20经由诸如蓝牙接口之类的通信接口72将编码信号传输到智能手机36中的相应通信接口77。电池74向感测设备20的部件提供操作电力。

控制器75包括可编程的微控制器，例如，该微控制器基于从用户控件35、接收器模块48和智能手机36(经由通信接口72)接收的输入来设置感测设备20的操作状态和操作参数。下面参照图5描述此功能的一些方面。在替代实施例中，控制器75包括更强大的微处理器和/或处理阵列，其独立于智能手机36，在感测设备内本地处理来自接收器模块48的输出信号的特征并生成语音输出。

然而，在本实施例中，来自感测设备20的经编码的输出信号被接收到智能手机36的存储器78中，并由在智能手机36中的处理器上运行的语音生成应用80处理。语音生成应用80将输出信号中的特征转换成文本和/或音频输出信号形式的单词序列。通信接口77将音频输出信号传递回感测设备20的扬声器26，以便回放给用户。来自语音生成应用80的文本和/或音频输出也被输入到其他应用84，例如话音和/或文本通信应用以及记录应用。通信应用例如经由数据通信接口86通过蜂窝或Wi-Fi网络进行通信。

编码器70和语音生成应用80的操作由本地训练接口82控制。例如，接口82可以向编码器70指示从由接收器模块48输出的信号中提取哪些时间特征和频谱特征，并且可以向语音生成应用80提供神经网络的系数，神经网络将这些特征转换成单词。在本示例中，语音生成应用80实现推断网络，该推断网络查找与从感测设备20接收的经编码的信号特征相对应的、具有最高概率的单词序列。本地训练接口82从服务器38接收推断网络的系数，服务器38也可以周期性地更新系数。

为了生成本地训练指令82，服务器38使用数据存储库88，该数据存储库88包含来自训练数据90的集合中的散斑图像和相应的基准真值(ground truth)口语单词。存储库88还接收在现场从感测设备20收集到的训练数据。例如，训练数据可以包括当用户说某些声音和单词(可能包括无声语音和有声语音)时从感测设备20收集到的信号。一般训练数据90与从每个感测设备20的用户接收的个人训练数据的这种组合使得服务器38能够针对每个用户导出最佳的推断网络系数。

服务器38应用图像分析工具94来从存储库88中的散斑图像中提取特征。这些图像特征与相应的单词字典104和语言模型100一起作为训练数据被输入到神经网络96，语言模型100定义了训练数据中使用的特定语言的语音学结构(phonetic structure)和句法规则。神经网络96生成用于推断网络102的最佳系数，推断网络102将从散斑测量值的相应序列中提取出的特征集的输入序列转换成相应的音素，并最终转换成单词的输出序列。网络架构和训练过程的进一步细节在上述的临时专利申请中进行了描述。服务器38将推断网络102的系数下载到智能手机36，以在语音生成应用80中使用。

图5是示意性地示出根据本发明的实施例的用于语音感测的方法的流程图。为了方便和清楚起见，参照如图1和图4所示且上面描述的系统18的元件来描述该方法。可替代地，该方法的原理可以在其他系统配置中应用，例如使用感测设备60(图3)或集成在移动通信设备中的感测设备的系统配置。

在空闲步骤110，只要用户24不说话，感测设备20就在低功率空闲模式下操作，以便节省电池74中的电力。在这种模式下，控制器75以低帧速率(例如20帧/秒)驱动接收器模块48中的传感器的阵列52。发射器模块40也可以以降低的输出功率来操作。在运动检测步骤112，当接收器模块48以这种低帧速率操作时，控制器75处理阵列52输出的图像，以便检测指示语音的面部运动。在活动捕获步骤114，当检测到这种运动时，控制器75指示接收机模块48以及感测设备20的其他部件将帧速率增加到例如100-200帧/秒的范围，以便能够检测到由于无声语音而发生的二次散斑图案的变化。可替代地或附加地，控制器75可以响应于其他输入，例如用户控件35的致动或从智能手机36接收的指令，来增加帧速率并给感测设备20的其他部件通电。

由接收器模块48捕获的图像通常包含所投射的激光光斑32的矩阵，如图1所示。在光斑检测116，编码器70检测图像中的光斑的位置。编码器可以从所有光斑中提取特征；但是为了节省功率和处理资源，希望编码器选择光斑的子集。例如，本地训练接口82可以指示哪个光斑子集包含关于用户语音的最大量的信息，并且编码器70可以选择该子集中的光斑。在裁剪步骤118，编码器70从每个图像裁剪出小窗口，其中每个这样的窗口包含所选择的光斑之一。

在特征提取步骤120，编码器70从每个选择的光斑中提取散斑运动的特征。例如，编码器70可以基于相应窗口中的像素的平均强度来估计每个散斑中的总能量，并且可以测量每个散斑的能量随着时间推移的变化。附加地或可替代地，编码器70可以提取所选择的光斑子集中的散斑的其他时间特征和/或频谱特征。编码器70将这些特征传送到语音生成应用80(运行在智能手机36上)，在特征输入步骤122，语音生成应用80将特征值的向量输入到从服务器38下载的推断网络102。

在语音输出步骤124，基于随着时间的推移而输入到推断网络的特征向量序列，语音生成应用80输出单词的流，这些单词被拼接在一起成为句子。如先前所述，语音输出被用于合成音频信号，用于经由扬声器26回放。在后处理步骤126，在智能手机36上运行的其他应用84对语音和/或音频信号进行后处理，以记录相应的文本和/或通过网络传输语音或文本数据。

应当理解，上述实施例是通过示例的方式引用的，并且本发明不限于已经在上文具体示出和描述的内容。更确切地说，本发明的范围包括上文所描述的各种特征的组合和子组合，以及本领域技术人员在阅读前述描述后会想到的并且在现有技术中未被公开的这些特征的变型和修改。

Claims

1.一种感测设备，包括：

支架，所述支架被配置为适配所述设备的用户的耳朵；

光学感测头，所述光学感测头由所述支架保持在靠近用户的面部的位置，并且被配置为感测从所述面部反射的光并响应于检测到的光而输出信号；和

处理电路，所述处理电路被配置为处理所述信号以生成语音输出。

2.根据权利要求1所述的设备，其中，所述支架包括耳夹。

3.根据权利要求1所述的设备，其中，所述支架包括眼镜框架。

4.根据权利要求1所述的设备，其中，所述光学感测头被配置为感测从用户的脸颊反射的光。

5.根据权利要求1所述的设备，其中，所述光学感测头包括发射器和感测器阵列，所述发射器被配置为将相干光引导到所述面部，所述感测器阵列被配置为感测由于所述相干光从所述面部的反射而产生的二次散斑图案。

6.根据权利要求5所述的设备，其中，所述发射器被配置为将所述相干光的多个光束引导到所述面部上的不同的相应位置，并且所述感测器阵列被配置为感测从所述位置反射的二次散斑图案。

7.根据权利要求6所述的设备，其中，由所述光束照射并由所述感测器阵列感测的所述位置在具有至少60°角宽度的视场上延伸。

8.根据权利要求6所述的设备，其中，由所述光束照射并由所述感测器阵列感测的所述位置在至少1cm²的区域上延伸。

9.根据权利要求6所述的设备，其中，所述光学感测头包括多个发射器，所述多个发射器被配置为产生所述光束的相应组，所述光束的相应组覆盖所述面部的不同的相应区域，并且其中，所述处理电路被配置为选择和致动所述发射器的子集，而不致动所有发射器。

10.根据权利要求5所述的设备，其中，所述处理电路被配置为检测感测到的二次散斑图案的变化，并响应于检测到的变化来生成所述语音输出。

11.根据权利要求5所述的设备，其中，所述处理电路被配置为以第一帧速率操作所述感测器阵列，响应于当以所述第一帧速率操作时的所述信号来感测所述面部的运动，并且响应于感测到的运动来将帧速率增加到大于所述第一帧速率的第二帧速率，以生成所述语音输出。

12.根据权利要求1-11所述的设备，其中，所述处理电路被配置为响应于由于在用户不发出任何声音的情况下用户的皮肤表面的运动导致的、由所述光学感测头输出的所述信号的变化，生成所述语音输出。

13.根据权利要求1-11所述的设备，其中，所述光学感测头由所述支架保持在距离用户的皮肤表面至少5mm的位置。

14.根据权利要求1-11所述的设备，并且包括一个或更多个电极，所述一个或更多个电极被配置为接触用户的皮肤表面，其中，所述处理电路被配置为响应于由所述一个或更多个电极感测到的电活动以及由所述光学感测头输出的所述信号来生成所述语音输出。

15.根据权利要求1-11所述的设备，并且包括麦克风，所述麦克风被配置为感测用户发出的声音。

16.根据权利要求16所述的设备，其中，所述处理电路被配置为将所述光学感测头输出的所述信号与所述麦克风感测到的声音进行比较，以便校准所述光学感测头。

17.根据权利要求16所述的设备，其中，所述处理电路被配置为响应于对用户发出的声音的感测来改变所述设备的操作状态。

18.根据权利要求1-11所述的设备，并且包括通信接口，其中，所述处理电路被配置为对所述信号进行编码，以便通过所述通信接口传输到处理设备，所述处理设备处理经编码的信号以生成所述语音输出。

19.根据权利要求17所述的设备，其中，所述通信接口包括无线接口。

20.根据权利要求1-11所述的设备，并且包括用户控件，所述用户控件连接到所述支架并被配置为感测用户做出的手势，其中，所述处理电路被配置为响应于感测到的手势来改变所述设备的操作状态。

21.根据权利要求1-11所述的设备，并且包括扬声器，所述扬声器被配置为适配在用户的耳朵内，其中，所述处理电路被配置为合成对应于所述语音输出的音频信号，以用于由所述扬声器回放。

22.一种感测方法，包括：

响应于人类对象说单词但所述对象不将所述单词发声出来，并且在不接触所述对象的面部上的皮肤的情况下，感测所述皮肤的运动；和

响应于感测到的运动，生成语音输出，所述语音输出包括被说出的单词。

23.根据权利要求23所述的方法，其中，感测所述运动包括感测从所述对象的面部反射的光。

24.根据权利要求24所述的方法，其中，感测所述光包括将相干光引导到所述皮肤并感测由于所述相干光从所述皮肤的反射而产生的二次散斑图案。

25.根据权利要求25所述的方法，其中，引导所述相干光包括将所述相干光的多个光束引导到所述面部上的不同的相应位置，并使用感测器阵列感测从每个位置反射的二次散斑图案。

26.根据权利要求26所述的方法，其中，由所述光束照射并由所述感测器阵列感测的所述位置在具有至少60°角宽度的视场上延伸。

27.根据权利要求26所述的方法，其中，由所述光束照射并由所述感测器阵列感测的所述位置在所述对象的脸颊上的至少1cm²的区域上延伸。

28.根据权利要求25所述的方法，其中，生成所述语音输出包括检测感测到的二次散斑图案的变化，并响应于检测到的变化来生成所述语音输出。

29.根据权利要求23-29中任一项所述的方法，其中，生成所述语音输出包括合成对应于所述语音输出的音频信号。

30.根据权利要求23-29中任一项所述的方法，其中，生成所述语音输出包括转录由所述对象说出的单词。