CN115699175A

CN115699175A - 具有用户自己的语音记录的可穿戴音频设备

Info

Publication number: CN115699175A
Application number: CN202180037539.2A
Authority: CN
Inventors: F·拉贝格; K·P·安努奇托
Original assignee: Bose Corp
Current assignee: Bose Corp
Priority date: 2020-05-08
Filing date: 2021-04-26
Publication date: 2023-02-03
Also published as: WO2021225811A1; EP4147235A1; US20210350821A1; US11521643B2

Abstract

各种具体实施包括可穿戴音频设备，该可穿戴音频设备被配置为记录用户的语音，而不记录其他环境声学信号，诸如附近其他人的谈话。在一些特定方面，一种可穿戴音频设备包括：框架，该框架用于接触用户的头部；电声换能器，该电声换能器位于该框架内并且被配置为输出音频信号；至少一个麦克风；语音活动检测(VAD)加速度计；以及控制器，该控制器与该电声换能器、该至少一个麦克风和该VAD加速度计耦接并且在第一模式下被配置为：检测该用户正在讲话；以及响应于检测到该用户正在讲话，仅使用来自该VAD加速度计的信号来记录该用户的语音。

Description

具有用户自己的语音记录的可穿戴音频设备

优先权声明

本申请要求于2020年5月8日提交的美国专利申请第16/869,759号的优先权，该美国专利申请据此全文以引用方式并入。

技术领域

本公开整体涉及可穿戴音频设备。更具体地，本公开涉及被配置为增强用户自己的语音记录的可穿戴音频设备。

背景技术

存在用户可能希望记录他或她自己的语音的各种场景。例如，用户可能希望制作口头待办事项列表，记录她的一天或她生活中的时刻，或有时分析她的言语模式或语音音调。鉴于诸如智能设备和可穿戴音频设备等常用设备包括麦克风，用户可依赖于这些设备来执行自己的语音记录似乎是合乎逻辑的。然而，常规的智能设备(例如，智能电话、智能手表)和可穿戴音频设备(例如，耳机、听筒等)可能无法有效地将用户自己的语音与环境声学信号隔离开来。

发明内容

下文提及的所有示例和特征均可以任何技术上可能的方式组合。

各种具体实施包括可穿戴音频设备。可穿戴音频设备被配置为记录用户的语音，而不记录其他环境声学信号，诸如附近其他人的谈话。

在一些特定方面，一种可穿戴音频设备包括：框架，该框架用于接触用户的头部；电声换能器，该电声换能器位于框架内并且被配置为输出音频信号；至少一个麦克风；语音活动检测(VAD)加速度计；以及控制器，该控制器与电声换能器、至少一个麦克风和VAD加速度计耦接并且在第一模式下被配置为：检测用户正在讲话；以及响应于检测到用户正在讲话，仅使用来自VAD加速度计的信号来记录用户的语音。

在附加特定方面，一种计算机实现的方法包括：在具有以下部件的可穿戴音频设备处：框架，该框架用于接触用户的头部；电声换能器，该电声换能器位于框架内并且被配置为输出音频信号；至少一个麦克风；以及语音活动检测(VAD)加速度计；在第一模式下：检测用户正在讲话；以及响应于检测到用户正在讲话，仅使用来自VAD加速度计的信号来记录用户的语音。

在另外的特定方面，一种可穿戴音频设备包括：框架，该框架用于接触用户的头部；电声换能器，该电声换能器位于框架内并且被配置为输出音频信号；至少一个麦克风；语音活动检测(VAD)设备；以及控制器，该控制器与电声换能器、至少一个麦克风和VAD设备耦接并且在第一模式下被配置为：检测用户正在讲话；以及响应于检测到用户正在讲话，仅使用来自VAD设备的信号来记录用户的语音，其中VAD设备包括以下项中的至少一项：基于光的传感器、密封的卷轴式麦克风或反馈麦克风。

具体实施可包括以下特征中的一个特征、或它们的任何组合。

在某些方面，VAD加速度计在记录期间保持与用户的头部接触，或者在记录的至少一部分期间与用户的头部分开。

在特定情况下，在第二模式下，控制器被配置为将来自至少一个麦克风的音频拾取的方向性调节为以下项中的至少一项：验证用户正在讲话或提高记录的质量。

在一些具体实施中，可穿戴音频设备还包括用于在启动记录之前验证用户正在讲话的附加VAD系统。

在某些情况下，控制器被进一步配置为响应于检测到仅用户正在讲话，与和可穿戴音频设备连接的智能设备通信，以启动在可穿戴音频设备上的至少一个麦克风或智能设备上的麦克风阵列处检测到的用户语音中的命令的自然语言处理(NLP)。

在一些方面，在检测到仅用户正在讲话之后，执行NLP而不需要唤醒词。

在特定具体实施中，控制器被进一步配置为：请求来自用户的反馈以验证用户正在讲话；基于接收到的对反馈请求的响应来训练逻辑引擎以识别用户正在讲话；以及在训练之后，运行逻辑引擎以检测用户讲话的未来实例，以便仅使用VAD加速度计来实现记录。

在某些方面，可穿戴音频设备还包括用于存储来自用户的预定量的语音记录的存储器。

在一些情况下，用户语音的记录能够经由处理器访问以执行以下项中的至少一项：a)针对言语模式或语音音调中的至少一者来分析语音记录；b)响应于来自用户的请求来回放语音记录；或者c)基于语音记录来执行虚拟个人助理(VPA)命令。

在特定方面，在第二模式下，控制器激活至少一个麦克风以记录所有可检测的环境音频。

在某些具体实施中，控制器被配置为响应于用户命令从第一模式切换到第二模式。

在一些方面，可穿戴音频设备还包括与控制器耦接的数字信号处理器(DSP)，其中控制器被进一步配置为激活DSP以在记录期间增强用户的记录语音。

在特定情况下，控制器被进一步配置为通过以下项中的至少一项来启动记录的回放：a)加速记录的回放；b)仅回放记录的选定部分；或者c)调节记录的一个或多个选定部分的回放速度。

在某些具体实施中，VAD加速度计包括骨传导拾取换能器。

在一些方面，控制器被进一步配置为通过以下方式使用VAD加速度计和至少一个麦克风来实现电视或流媒体节目的画外音记录：使用至少一个麦克风来指纹识别与电视或流媒体节目相关联的音频输出，同时使用来自VAD加速度计的信号来记录用户的语音；将指纹识别的音频输出与用户的记录语音进行编译；以及提供编译的指纹识别音频输出和用户的记录语音，用于随后与电视或流媒体节目同步回放。

本公开中所述的两个或更多个特征，包括本发明内容部分中所述的那些，可组合以形成在本文未具体描述的具体实施。

一个或多个具体实施的细节在附图和以下描述中论述。其他特征、对象和有益效果在说明书、附图和权利要求书中将是显而易见的。

附图说明

图1是根据各种具体实施的示例性音频设备的透视图。

图2是根据各种具体实施的另一个示例性音频设备的透视图。

图3是示出根据各种具体实施的音频设备中的电子器件和与电子器件通信的智能设备的系统图。

图4是示出根据各种具体实施的由控制器执行的过程的流程图。

需注意，各种具体实施的附图未必按比例绘制。附图仅旨在示出本公开的典型方面，因此不应视为限制具体实施的范围。在附图中，类似的编号表示附图之间类似的元件。

具体实施方式

本公开至少部分地基于以下认知：可穿戴音频设备可被配置为私下记录用户自己的语音。例如，根据具体实施所公开的可穿戴音频设备可向用户提供记录用户自己的语音同时排除诸如其他附近用户的语音的环境声学信号的能力。在特定情况下，可穿戴音频设备利用诸如语音活动检测(VAD)加速度计的VAD设备来专门记录用户的语音。

出于说明的目的，附图中通常标记的部件被认为是基本上等同的部件，并且为了清楚起见，省略了对那些部件的冗余讨论。根据各种具体实施描述的数值范围和值仅仅是此类范围和值的示例，并且不旨在限制那些具体实施。在一些情况下，术语“大约”用于修饰数值，并且在这些情况下，可以指数值+/-误差(诸如测量误差)的幅度。

本文中所公开的方面和具体实施可适用于各种形状因素的各种各样的可穿戴音频设备，诸如头戴式设备(例如，头戴式耳机、耳机、听筒、眼镜、头盔、帽子、面罩)、颈戴式扬声器、肩戴式扬声器、体戴式扬声器(例如，手表)等。所公开的一些特定方面可适用于个人(可穿戴)音频设备，诸如头戴式音频设备，包括耳机、听筒、头盔、帽子、面罩、眼镜等。应当指出的是，尽管主要用于声学输出音频的目的的音频设备的特定具体实施以一定程度的细节呈现，但特定具体实施的此类呈现旨在通过提供示例来促进理解，并且不应被视为限制所公开内容的范围或权利要求书涵盖的范围。

本文所公开的各方面和具体实施可适用于支持或不支持双向通信的可穿戴音频设备并且适用于支持或不支持主动降噪(ANR)的个人音频设备。对于确实支持双向通信或ANR的可穿戴音频设备，本文公开和要求保护的内容旨在适用于包含一个或多个麦克风的扬声器系统，该一个或多个麦克风被设置在使用时保持在耳朵外部的可穿戴音频设备的一部分上(例如，前馈麦克风)、被设置在使用时被插入到耳朵的一部分中的部分上(例如，反馈麦克风)或者被设置在此类部分中的两者上。对于本领域的技术人员而言，本文公开和要求保护的内容所适用的可穿戴音频设备的又一些其他具体实施将是显而易见的。

本文公开的可穿戴音频设备可包括未明确描述的附加特征和能力。这些可穿戴音频设备可包括附加硬件部件，诸如一个或多个相机、位置跟踪设备、麦克风等，并且可以能够进行语音识别、视觉识别和其他智能设备功能。本文所包括的对可穿戴音频设备的描述并非旨在排除此类设备中的这些附加功能。

图1是根据各种具体实施的可穿戴音频设备10的示意图。在该示例具体实施中，可穿戴音频设备10是一副音频眼镜20。如图所示，可穿戴音频设备10可包括具有第一区部(例如，镜片区部)40和从第一区部40延伸的至少一个附加区部(例如，臂区部)50的框架30。在该示例中，与常规眼镜一样，第一(或镜片)区部40和附加区部(臂)50被设计用于搁置在用户的头部上。在该示例中，镜片区部40可包括：一组镜片60，其可包括处方镜片、非处方镜片和/或滤光镜片；以及用于搁置在用户的鼻部上的桥接件70(其可包括衬垫)。臂50可包括用于搁置在用户的相应耳部上的轮廓80。

根据特定具体实施，电子器件90和用于控制可穿戴音频设备10的其他部件包含在框架30内(或基本上包含在框架内，从而部件可延伸超过框架的边界)。在一些情况下，单独或重复的各组电子器件90包含在框架的部分中，例如框架30中的相应臂50中的每个臂中。然而，本文所述的某些部件也能够以单数形式存在。

图2描绘耳机210形式的另一示例可穿戴音频设备10。在一些情况下，耳机210包括贴耳式耳机或耳罩式耳机210。耳机210可包括具有第一区部(例如，头带)230和从第一区部230延伸的至少一个附加区部(例如，耳罩)240的框架220。在各种具体实施中，头带230包括头部衬垫250。根据特定具体实施，电子器件90和用于控制可穿戴音频设备10的其他部件存储在一个或两个耳罩240内。应当理解，图2所示的耳机210仅仅是一个示例性形状因素，并且入耳式耳机(也称为听筒或耳塞)头盔、面罩等可包括能够执行本文所述功能的电子器件90。

图3示出了包含在框架30(图1)和/或框架220(图2)内的电子器件90的示意图。应当理解，电子器件90中的部件中的一个或多个部件可被实现为硬件和/或软件，并且此类部件可通过任何常规方式(例如，硬连线和/或无线连接)来连接。还应当理解，被描述为连接或耦接到可穿戴音频设备10或根据具体实施公开的其他系统中的另一个部件的任何部件可使用任何常规的硬接线连接和/或附加通信协议进行通信。在各种特定具体实施中，可穿戴音频设备10中单独容收容的部件被配置为使用一个或多个常规无线收发器进行通信。

如图3所示，至少部分地包含在框架20(图1)或框架210(图2)内的电子器件90可包括换能器310(例如，电声换能器)、至少一个麦克风(例如，单个麦克风或麦克风的阵列)320和语音活动检测(VAD)设备330。换能器310、麦克风320和电源330中的每一者与控制器340连接，该控制器被配置为根据本文所述的各种具体实施来执行控制功能。控制器340可经由任何常规的无线和/或硬连线连接与电子器件90中的其他部件耦接，该无线和/或硬连线连接允许控制器340向那些部件发送信号或从那些部件接收信号并控制那些部件的操作。

电子器件90可包括本文未具体示出的其他部件，诸如一个或多个电源、存储器和/或处理器、运动/移动检测部件(例如，惯性测量单元，陀螺仪/磁力计等)、被配置为与经由一个或多个无线网络(例如，本地WiFi网络、蓝牙连接或射频(RF)连接)连接的一个或多个其他电子设备通信的通信部件(例如，无线收发器(WT))，以及放大和信号处理部件。应当理解，这些部件或这些部件的功能等同物可与控制器340连接或形成其一部分。在附加任选具体实施中，电子器件90可包括与控制器340耦接的接口350，用于启用功能，诸如音频选择、对音频设备上电或进行语音控制功能。在某些情况下，接口350包括按钮、可压缩接口和/或电容式触摸界面。电子器件90的各种附加功能描述于以引用的方式全文并入本文的美国专利申请第10,353,221号中。

在一些具体实施中，电子器件90中的一个或多个部件或由此类部件执行的功能在智能设备360上定位或执行，诸如智能电话、智能手表、平板计算机、膝上型计算机或其他计算设备。在各种具体实施中，可使用智能设备360处的一个或多个控制电路和/或芯片来执行控制器340的一个或多个功能。在特定情况下，控制器340的动作经由一个或多个控制器340作为软件功能来执行。在一些情况下，智能设备360包括用于与控制器340交互的接口350，然而，在其他情况下，可穿戴音频设备10和智能设备350两者具有单独的接口350。在某些情况下，智能设备360包括至少一个处理器370(例如，一个或多个处理器，其可包括数字信号处理器)和存储器380。在一些情况下，智能设备360还包括附加VAD系统390，该附加VAD系统可包括一个或多个麦克风，用于检测例如来自可穿戴音频设备10的用户和/或另一用户的语音活动。在某些情况下，如本文所述，附加VAD系统390可用于验证用户正在讲话，并且可与电子器件90处的VAD设备330结合使用。

在特定具体实施中，控制器340被配置为以一种或多种模式操作。图4是示出在第一模式下由控制器340执行的示例性过程的流程图。在一些情况下，在第一模式下，控制器340被配置为执行以下过程：

A)检测(可穿戴音频设备10的)用户正在讲话；以及

B)响应于检测到用户正在讲话，仅使用来自位于可穿戴音频设备10上的VAD设备330的信号来记录用户的语音。

即，在第一模式下，控制器340被配置为具体地记录用户语音信号，而不捕获来自诸如其他用户(的语音)的环境声源的信号。如本文所述，可穿戴音频设备10通过使用VAD设备330(图3)来实现该记录，该VAD设备被定位成记录指示用户语音的信号而不记录环境声学信号。在特定情况下，控制器340仅使用来自VAD设备330的信号来启动记录，使得由麦克风320或附加环境声学信号检测设备检测到的信号被排除(例如，使用基于逻辑的VAD部件)。

在各种附加具体实施中，控制器340被配置为通过训练(例如，使用机器学习或诸如人造神经网络的其他人造智能部件)来提高检测用户正在讲话的能力。作为任选的具体实施，这些附加过程在图4中以虚线示出。在这些情况下，在控制器340检测到用户正在讲话之后(上面的过程A)，控制器340被配置为：

C)请求来自用户的反馈以验证用户正在讲话。在一些情况下，控制器340经由一个或多个接口350来请求用户反馈，例如经由音频、触觉和/或基于手势的接口来请求和/或响应。

D)训练逻辑引擎以基于接收到的对反馈请求的响应来识别用户正在讲话。在一些情况下，逻辑引擎包含在控制器340中，或者在可穿戴音频设备10处或者在智能设备360处。在其他具体实施中，逻辑引擎在智能设备360处或在基于云的平台中执行，并且可包括机器学习部件。

E)在训练之后，运行逻辑引擎以检测用户讲话的未来实例，以便仅使用VAD设备330来实现记录。在这些过程中，控制器340包括或访问经训练的逻辑引擎以检测用户正在讲话。该过程在图4中被示出为改进过程A，检测用户正在讲话。

在某些具体实施中，VAD设备330包括VAD加速度计。在特定情况下，VAD加速度计被定位在框架(例如，框架20(图1)或框架210(图2))上，使得其在可穿戴音频设备10被用户穿戴时保持与该用户的头部接触。即，在特定情况下，VAD加速度计被定位在框架的一部分上，使得其在可穿戴音频设备10的使用期间接触用户的头部。然而，在其他情况下，VAD加速度计并不总是接触用户的头部，使得其在使用可穿戴音频设备10的至少一些部分期间与用户的头部物理地分开。在各种特定具体实施中，VAD加速度计包括骨传导拾取换能器，该骨传导拾取换能器被配置为检测经由用户的骨结构传导的振动。

虽然在一些情况下将VAD设备330描述为包括VAD加速度计，但在其他情况下，VAD设备330可包括一个或多个附加或另选的语音活动检测部件，包括例如基于光的传感器、密封的卷轴式麦克风和/或反馈麦克风。在一些示例中，基于光的传感器可包括红外(IR)和/或激光传感器，它们被配置为检测用户嘴部的移动。在这些情况下，基于光的传感器可定位在框架(例如，框架20(图1)或框架210(图2))上以例如将光引导到用户的嘴部区域，从而检测用户嘴部的移动。VAD设备330可附加地或另选地包括密封的麦克风，其被封装以防止检测到外部声学信号。在这些情况下，密封的卷轴式麦克风可以是麦克风320(图3)中的一个或多个麦克风，或者可以是专用作可穿戴音频设备10上的VAD设备330的单独麦克风。在特定示例中，密封的卷轴式麦克风包括除了朝向用户(例如朝向用户嘴部的位置)的一侧之外基本上被包围的麦克风。在一些情况下，密封的卷轴式麦克风位于隔音外壳中，该隔音外壳限定了麦克风后面的密封的卷轴。在又一些另外的具体实施中，VAD设备330可包括反馈麦克风，该反馈麦克风位于可穿戴音频设备10的前腔中，例如，位于靠近用户嘴部的框架(例如，框架20(图1)或框架210(图2))的一部分中。在某些情况下，反馈麦克风包括麦克风320(图3)中的一个或多个麦克风，或者是专用作VAD设备330的单独麦克风。在一些情况下，反馈麦克风也位于隔音外壳中，例如类似于密封的卷轴式麦克风。

描述了其中VAD设备330是包括骨传导拾取换能器的VAD加速度计的特定具体实施。然而，应当理解，不管VAD设备330的具体形式如何，控制器340都被配置为隔离来自VAD设备330的信号以记录用户自己的声音而不捕获环境声学信号。

如本文所指出的，在附加的具体实施中，控制器340被配置为在一种或多种附加模式下操作。例如，在另一种模式下，控制器340被配置为调节来自麦克风320的音频拾取的方向性。在一些情况下，控制器340被配置为调节来自麦克风320的音频拾取的方向性，以验证用户正在讲话并且/或者提高记录的质量。例如，响应于检测到用户正在讲话(例如，从VAD设备330接收指示用户正在讲话的信号并且/或者从VAD系统390(图3)接收指示用户正在讲话的信号)，控制器340被配置为调节麦克风320的方向性。可通过修改由一个或多个麦克风320检测到的信号上的增益，以及执行波束形成处理以相对于其他方向增强来自一个或多个方向的信号(例如，在除了指向接近用户嘴部的方向之外的方向上创建空值)，来调节麦克风方向性。用于调节麦克风方向性的其他方法也是可能的。

在某些具体实施中，响应于基于来自VAD设备330的信号检测到用户正在讲话，控制器340例如通过将麦克风320指向用户的嘴部并且对接收到的信号执行分析(例如，语音识别)来调节麦克风320处的麦克风方向性以验证用户正在讲话。在一些情况下，控制器340仅被配置为响应于例如使用来自经由麦克风320接收的信号的确认来验证用户正在讲话而记录来自VAD设备330的信号。在其他具体实施中，响应于基于来自VAD设备330的信号检测到用户正在讲话，控制器340调节麦克风320处的麦克风方向性以提高来自VAD设备330的记录的质量。在这些情况下，控制器340被配置为识别除用户的语音之外的信号的频率(例如，低频声音或高频声音，诸如电器嗡嗡声、在附近行驶的机动车辆或背景音乐)，并且对来自VAD设备330的信号执行信号处理以从记录中排除那些频率(或频率范围)。这种信号处理和波束形成技术的示例更详细地描述于美国专利第10,311,889号中，该专利全文以引用方式并入。

在特定情况下，控制器340被配置为在从VAD设备330启动记录之前使用附加VAD系统390来验证用户正在讲话。在这些情况下，控制器340可利用来自VAD系统390的信号来验证用户正在讲话。在VAD系统390包括一个或多个麦克风的情况下，可以与验证用户正在通过麦克风320(本文所述)的定向调节讲话相似的方式来使用那些麦克风执行该过程。在这些情况下，控制器340被配置为不记录来自VAD设备330的信号，除非VAD系统390例如通过验证由VAD系统390检测到的信号包括用户语音信号来验证用户正在讲话。

在各种具体实施中，控制器340还被配置为使用如由麦克风320检测到的语音信号来选择性地实现音频设备10处的语音控制。例如，在一些情况下，控制器340被配置为响应于检测到仅用户正在讲话而与智能设备360通信，以启动在麦克风320处和/或智能设备360处的VAD系统390中的麦克风处检测到的用户语音中的命令的自然语言处理(NLP)。在这些情况下，控制器340被配置为检测仅用户正在讲话，并且作为响应，将检测到的语音信号数据发送到智能设备360以进行处理(例如，经由诸如NLP处理器的一个或多个处理器)。在某些情况下，在检测到仅用户正在讲话之后，执行NLP而不需要唤醒词。即，控制器340可被配置为根据来自用户的命令启动NLP，而不需要唤醒词(例如，“嘿，Bose”(Hey,Bose)或“Bose，请播放艺术家X的音乐”(Bose,please play music by ArtistX))。在这些具体实施中，控制器340使得用户能够对可穿戴音频设备10和/或智能设备360的一个或多个功能进行语音控制，而不需要唤醒词。

根据具体实施，控制器340被配置为自动地在模式之间切换(例如，响应于检测到音频设备10处的状况，诸如检测到用户正在讲话，或者检测到附近的用户正在讲话)，或者响应于用户命令。在特定情况下，控制器340使得用户能够例如经由接口350使用用户命令来在模式之间切换。在这些情况下，用户可在记录在VAD设备330处检测到的所有信号，到在VAD设备330处不记录任何信号(或禁用VAD设备330)之间切换。在又一些其他情况下，控制器340使得用户能够切换到激活麦克风320以记录所有可检测的环境音频的全记录模式。在一些示例中，用户向接口350提供命令(例如，诸如触觉接口命令、语音命令或手势命令的用户接口命令)，并且控制器340(响应于检测到该命令)通过激活麦克风320并且启动在麦克风320处接收到的所有信号的记录来切换到全记录模式。在特定情况下，除了来自VAD设备330的信号之外，还可记录这些麦克风信号。

在某些具体实施中，存储器380被配置为存储来自用户的预定量的语音记录。虽然存储器360被示出为位于图3中的智能设备380处，但存储器380的一个或多个部分可位于可穿戴音频设备10处和/或基于云的系统(例如，具有存储器的云服务器)中。在一些情况下，用户语音的记录是能够访问的(例如，经由处理器370或可穿戴音频设备10和/或智能设备360处的另一个处理器)以：i)针对言语模式或语音音调中的至少一者来分析语音记录；ii)响应于来自用户的请求来回放语音记录；以及/或者iii)基于语音记录来执行虚拟个人助理(VPA)命令。在一些情况下，针对言语模式和/或语音音调来分析用户的语音记录，例如，诸如脏话、占位符项(例如，“呃”(uh)、“嗯”(um)、“好的”(okay))的词使用频率、言语节奏、咳嗽、打喷嚏、呼吸(例如，大声呼吸)、打嗝等。在某些具体实施中，控制器340使得用户能够选择如何分析语音记录。例如，控制器340可被配置为使得用户能够选择用于语音记录的一个或多个分析模式，例如，一个或多个特定言语模式或嗓音音调分析。在特定情况下，用户可选择分析用户的语音记录以使用占位符项(例如，“嗯”或“呃”)或节奏(例如，延长的停顿或快速过句)。

在又一些另外的具体实施中，控制器340被配置为例如在记录期间增强或以其他方式调节用户的记录语音。例如，控制器340可与一个或多个数字信号处理器(DSP)耦接，诸如包括在智能设备360上的处理器370中或包括在电子器件90中的附加DSP电路中的那些DSP。控制器340可被配置为激活DSP以在记录期间增强用户的记录语音。在一些特定情况下，控制器340被配置为增加来自VAD设备330的信号的信噪比(SNR)以增强用户的记录语音。在某些情况下，控制器340滤除在VAD设备330处检测到的已知或可能与噪声或用户语音以外的声音相关联的频率(或范围)。例如，控制器340可被配置为滤除能够由VAD设备330检测到的低水平振动和/或高频声音，以便增强SNR。在特定示例中，控制器340使用高通滤波来去除例如来自机械系统或风的低频噪声。在其他特定示例中，控制器340使用低通或带通滤波来去除其他噪声源。在另外的示例中，控制器340将一个或多个滤波器模型应用于检测到的噪声，诸如使用机器学习开发的滤波器模型。

在某些附加具体实施中，控制器340被配置为检索用户的记录音频(语音)，例如用于回放。在一些情况下，控制器340被配置为在可穿戴音频设备10处(例如，在换能器310处)、在智能设备360处(例如，在一个或多个换能器处)和/或在另一个回放设备处启动(用户语音的)记录的回放。在特定情况下，控制器340被配置为在换能器310处启动用户语音的记录的回放。在某些情况下，控制器340被配置为通过以下方式来启动记录的回放：a)加速记录的回放；b)仅回放记录的选定部分；以及/或者c)调节记录的一个或多个选定部分的回放速度。例如，用户可能希望加速记录的回放，以便在更短的时间内听到更大量的用户语音记录。在其他情况下，用户可能希望仅回放用户语音记录的选定部分，例如，在一天中的某个时间发生的特定对话、口头日记/日志条目、在一天中的特定时间或在特定位置(例如，与位置数据相关)出现时设置的口头注解或提醒。在又一些其他情况下，用户可能希望调节记录的一个或多个选定部分的回放速度，例如，加速或减速一天中的某个时间处或与其他用户的特定对话期间的回放。

在又一些另外的具体实施中，控制器340被配置为实现一个或多个画外音功能。在一些示例中，控制器340被配置为使得用户能够记录、重放和/或共享解说或其他画外音内容。例如，在一个过程中，用户可能期望保存和重放和/或共享电视或流媒体节目例如节目、电影、广播体育赛事等的一段的解说。在这些示例中，电视或流媒体节目包括音频输出。在该示例中，穿戴音频设备10的用户开始观看电视或流媒体节目并且致动控制器340(例如，经由接口命令)以开始记录解说或其他画外音内容。响应于用于记录解说或画外音内容的命令，控制器340被配置为根据本文所述的各种方法(例如，使用VAD设备330)来记录用户自己的语音。另外，在解说或画外音记录过程期间，控制器340被配置为对来自电视或流媒体节目的音频执行指纹识别，例如，作为电视、个人计算机/膝上型计算机、智能设备或其他流媒体或广播设备处的输出。在这些情况下，控制器340被配置为记录来自电视或流媒体节目音频的定时相关数据(或“指纹识别”)，该定时相关数据使得解说或画外音记录能够与不同用户对电视或流媒体节目的单独广播或回放同步。使用常规的指纹识别，控制器340被配置为记录用户自己的语音(例如，解说)，而不记录来自电视或流媒体节目的音频。这在来自电视或流媒体节目的音频受制于某些知识产权(例如版权)的情况下可能是有利的。用户可使用本文所述的任何接口命令来暂停或结束记录(例如，画外音记录)。

在记录用户的画外音内容之后，该内容可被保存或以其他方式作为一个或多个数据文件被传输(例如，经由所执行的软件应用程序或以其他方式能够经由控制器340访问)，并且可用于随后的回放。在一些情况下，控制器340将画外音内容数据上载到数据库或诸如基于云的平台的其他可访问平台。在这些情况下，记录用户或不同用户可访问先前记录的画外音内容。例如，具有音频设备(例如，音频设备10)的第二用户可提供在控制器340处检测到的用于访问画外音内容的接口命令。在这些情况下，控制器340可向用户提供画外音内容可用于一个或多个电视或流媒体节目的通知或其他指示符。在任何情况下，当控制器340激活时，用户可启动电视或流媒体节目的回放(例如，经由电视接口、流媒体服务、点播服务等)。音频设备10处的麦克风被配置为检测与电视或流媒体节目相关联的音频回放，并且使用指纹识别数据使来自第一用户的画外音内容与电视或流媒体节目的回放同步。在这些情况下，控制器340被配置为将来自第一用户的画外音内容与电视或流媒体节目的音频回放混合，以便在换能器310处输出。

如本文所指出的，与用于记录用户语音的常规系统和方法相比，所公开的各种具体实施使得能够在可穿戴音频设备中进行私人用户自己的语音记录。在各种具体实施中，可穿戴音频设备和相关方法允许用户最小化或消除接口交互并且仍然记录用户的语音，例如用于随后的回放。用户可从自己的语音记录中体验到诸多好处，而没有在该记录中检测到其他用户的语音所产生的负面影响。另外，这些可穿戴音频设备可使得能够例如经由向一个或多个所连接设备(诸如智能设备或具有附加处理能力的基于云的设备)的传输来进行关于用户的语音记录的分析和反馈。

在另外的具体实施中，音频设备10使得两个或更多个用户能够使用控制器340的功能进行无线通信。具体地，控制器340可实现各自穿戴音频设备10的两个或更多个用户之间的直接通信。这些具体实施可具有多种应用。例如，这些具体实施在需要持续的低延迟通信的环境中可能是有利的，例如在嘈杂的工厂或分散的工作环境中。这些具体实施在互联网或其他内部网络连接不可靠的环境中可能也是有利的，诸如在远程环境中(例如，海上或离网环境，如石油钻井平台)。这些具体实施在相对安静的环境中可能也是有利的，在该环境中用户可能希望以更柔和或更安静的语音彼此讲话。在诸如音乐会、夜总会或体育赛事的更嘈杂环境中，这些具体实施可使得音频设备10的用户能够在不需要显著提高自己语音的情况下进行通信。甚至更进一步，这些具体实施可帮助听力差的用户与其他人通信，例如，在音频设备10的用户与在嘈杂环境或具有变化的声学特性的环境中穿戴音频设备10的一个或多个其他用户通信的情况下(例如，使用音频设备10和/或智能设备360中的部件)。

然而，与常规配置相比，根据各种具体实施公开的音频设备10能够隔离用户自己的语音，例如，用于传输到其他用户。例如，在某些常规配置中，彼此接近的设备将不仅检测第一用户的语音(例如，穿戴第一设备的用户在讲话时)，而且还将检测第二用户的语音(例如，穿戴第二设备的不同用户在讲话时)。在这个意义上，当依靠检测到的语音信号的传输来进行通信时，第二用户可能不仅听到第一用户的语音，而且听到如第一设备检测到并且在设备之间传输之后回放的该用户自己的语音(例如回声)。这种回声现象可能令人厌烦并且阻碍通信。相比之下，控制器340被配置为仅使用来自VAD设备330(和/或VAD系统390，在适用的情况下)的信号来传输来自穿戴音频设备10的用户的语音拾取，从而避免或显著地减少在另一设备处对用户自己的语音的拾取(例如，回声)。当两个以上的人使用音频设备10讲话时，例如在较大型的会话、工作环境、体育赛事、协调的团体任务或使命等中，这些具体实施的益处可进一步凸显出来。

在这些情况中的某些情况下，控制器340还被编程为检测音频设备10的用户何时在彼此的界定接近度内。可根据多种已知技术来执行接近度检测，包括例如通过通信协议(例如，蓝牙或BLE)、公共网络或蜂窝连接、定位信息(例如，GPS数据)等进行的设备检测。在一些情况下，在一个或多个操作模式下对运行控制器340的设备10进行配置，以与也运行控制器340的其他设备10共享位置信息。接近度检测的其他方面描述于美国专利申请第16/267,643号(基于位置的个人音频(Location-BasedPersonal Audio)，提交于2019年2月5日)中，该美国专利申请全文以引用方式并入。在某些情况下，当音频设备10彼此靠近但仍传输VAD检测到的音频时，可能的是，用户可能既听到用户自己的语音(在讲话时)又听到在第二音频设备10处检测到的用户的言语的任何部分。在这些情况下，控制器340被配置为基于音频设备10之间的接近度来改变所传输的音频的音量，例如，在控制器340接收到设备10越来越近的指示符时降低所传输的音频的音量，并且响应于设备10越来越远的指示符来增加音量。在某些情况下，控制器340还被配置为检测从另一音频设备10接收的语音信号是否由于接近而也是可检测的(例如，经由麦克风320处的拾取)。即，第一音频设备10处的控制器340被配置为何时在接近第一用户的环境中也可检测到第二用户的语音(作为基于VAD的信号从第二音频设备10传输)，并且调节第一音频设备10处的输出。在一些情况下，控制器340基于噪声消除是否在第一音频设备10处被激活来修改这些设置，例如，当控制器340检测到噪声消除被激活或被设置为消除显著的噪声时，控制器340允许对来自第二用户的音频设备10的VAD检测到的信号进行播放而无需修改。在其他情况下，当控制器340检测到噪声消除未被激活或被设置为低水平的消除时，控制器340停止对VAD检测到的信号的播放，以避免干扰第一用户听到的露天语音信号。在任何情况下，相对于常规系统和方法，控制器340的这些动态调节显著地改善了用户体验。

本文所述的功能或其部分，以及其各种修改(下文称为“功能”)可至少部分地经由计算机程序产品实现，例如在信息载体中有形实施的计算机程序，诸如一个或多个非暂态机器可读介质，用于执行，或控制一个或多个数据处理装置，例如可编程处理器、计算机、多个计算机和/或可编程逻辑部件的操作。

计算机程序可以任何形式的编程语言被写入，包括编译或解释语言，并且它可以任何形式部署，包括作为独立程序或作为模块、部件、子例程或适于用在计算环境中的其他单元。计算机程序可被部署在一个计算机上或在一个站点或多个站点分布以及通过网络互联的多个计算机上执行。

与实现全部或部分功能相关联的动作可由执行一个或多个计算机程序的一个或多个可编程处理器执行，以执行校准过程的功能。功能的全部或部分可被实现为专用目的逻辑电路，例如FPGA和/或ASIC(专用集成电路)。适用于执行计算机程序的处理器例如包括通用微处理器和专用微处理器两者，以及任何类型的数字计算机的任何一个或多个处理器。一般来讲，处理器将接收来自只读存储器或随机存取存储器或两者的指令和数据。计算机的部件包括用于执行指令的处理器和用于存储指令和数据的一个或多个存储器设备。

另外，可由一个或多个联网计算设备执行与实现本文所述的全部或部分功能相关联的动作。联网计算设备可通过网络例如一个或多个有线和/或无线网络诸如局域网(LAN)、广域网(WAN)、个人局域网(PAN)、互联网连接设备和/或网络和/或基于云的计算(例如，基于云的服务器)来连接。

在各种具体实施中，被描述为“耦接”的电子部件可以经由常规的硬连线和/或无线装置链接，使得这些电子部件可以彼此传送数据。另外，给定部件内的子部件可被认为是经由常规路径链接的，这可能不一定被示出。

相对于本文所指出的值所使用的术语“大约”可针对绝对值的标称变化(例如，百分之几或更小)进行分配。

已描述了多个具体实施。然而，应当理解，在不脱离本文所述发明构思的范围的情况下，可进行附加修改，并且因此，其他具体实施在以下权利要求书的范围内。

Claims

1.一种可穿戴音频设备，包括：

框架，所述框架用于接触用户的头部；

电声换能器，所述电声换能器位于所述框架内并且被配置为输出音频信号；

至少一个麦克风；

语音活动检测VAD加速度计；和

控制器，所述控制器与所述电声换能器、所述至少一个麦克风和所述VAD加速度计耦接并且被配置为在第一模式下：

检测所述用户正在讲话；以及

响应于检测到所述用户正在讲话，仅使用来自所述VAD加速度计的信号来记录所述用户的语音。

2.根据权利要求1所述的可穿戴音频设备，其中所述VAD加速度计在所述记录期间保持与所述用户的所述头部接触，或者在所述记录的至少一部分期间与所述用户的所述头部分开。

3.根据权利要求1所述的可穿戴音频设备，其中在第二模式下，所述控制器被配置为将来自所述至少一个麦克风的音频拾取的方向性调节为以下项中的至少一项：验证所述用户正在讲话或提高所述记录的质量。

4.根据权利要求1所述的可穿戴音频设备，还包括用于在启动所述记录之前验证所述用户正在讲话的附加VAD系统。

5.根据权利要求1所述的可穿戴音频设备，其中所述控制器被进一步配置为响应于检测到仅所述用户正在讲话，与和所述可穿戴音频设备连接的智能设备通信，以启动在所述可穿戴音频设备上的所述至少一个麦克风或所述智能设备上的麦克风阵列处检测到的所述用户的所述语音中的命令的自然语言处理(NLP)。

6.根据权利要求5所述的可穿戴音频设备，其中在检测到仅所述用户正在讲话之后，执行所述NLP而不需要唤醒词。

7.根据权利要求1所述的可穿戴音频设备，其中所述控制器被进一步配置为：

请求来自所述用户的反馈以验证所述用户正在讲话；

基于接收到的对所述反馈请求的响应来训练逻辑引擎以识别所述用户正在讲话；以及

在所述训练之后，运行所述逻辑引擎以检测所述用户讲话的未来实例，以便仅使用所述VAD加速度计来实现记录。

8.根据权利要求1所述的可穿戴音频设备，还包括用于存储来自所述用户的预定量的语音记录的存储器。

9.根据权利要求8所述的可穿戴音频设备，其中所述用户的所述语音的所述记录能够经由处理器访问以执行以下项中的至少一项：

a)针对言语模式或语音音调中的至少一者来分析语音记录；b)响应于来自所述用户的请求来回放所述语音记录；或者

c)基于所述语音记录来执行虚拟个人助理(VPA)命令。

10.根据权利要求1所述的可穿戴音频设备，其中在第二模式下，所述控制器激活所述至少一个麦克风以记录所有可检测的环境音频，其中所述控制器被配置为响应于用户命令从所述第一模式切换到所述第二模式。

11.根据权利要求1所述的可穿戴音频设备，其中所述控制器被进一步配置为通过以下方式使用所述VAD加速度计和所述至少一个麦克风来实现电视或流媒体节目的画外音记录：

使用所述至少一个麦克风来指纹识别与所述电视或流媒体节目相关联的音频输出，同时使用来自所述VAD加速度计的所述信号来记录所述用户的所述语音；

将所述指纹识别的音频输出与所述用户的所记录的语音进行编译；以及

提供所编译的指纹识别音频输出和所述用户的所记录的语音，用于随后与所述电视或流媒体节目同步回放。

12.根据权利要求1所述的可穿戴音频设备，还包括与所述控制器耦接的数字信号处理器(DSP)，其中所述控制器被进一步配置为激活所述DSP以在所述记录期间增强所述用户的所记录的语音。

13.根据权利要求1所述的可穿戴音频设备，其中所述控制器被进一步配置为通过以下项中的至少一项来启动所述记录的回放：

a)加速所述记录的回放；

b)仅回放所述记录的选定部分；或者

c)调节所述记录的一个或多个选定部分的回放速度。

14.一种计算机实现的方法，包括：

在包括以下部件的可穿戴音频设备处：框架，所述框架用于接触用户的头部；电声换能器，所述电声换能器位于所述框架内并且被配置为输出音频信号；至少一个麦克风；以及语音活动检测VAD加速度计；

在第一模式下：

检测所述用户正在讲话；以及

15.根据权利要求14所述的方法，还包括，在第二模式下：将来自所述至少一个麦克风的音频拾取的方向性调节为以下项中的至少一项：验证所述用户正在讲话或提高所述记录的质量。

16.根据权利要求14所述的方法，还包括在启动所述记录之前使用来自附加VAD系统的输入信号验证所述用户正在讲话。

17.根据权利要求14所述的方法，其中响应于检测到仅所述用户正在讲话，与和所述可穿戴音频设备连接的智能设备通信，以启动在所述可穿戴音频设备上的所述至少一个麦克风或所述智能设备上的麦克风阵列处检测到的所述用户的所述语音中的命令的自然语言处理NLP，其中在检测到仅所述用户正在讲话之后，执行所述NLP而不需要唤醒词。

18.根据权利要求14所述的方法，还包括：

请求来自所述用户的反馈以验证所述用户正在讲话；

基于接收到的对反馈请求的响应来训练逻辑引擎以识别所述用户正在讲话；以及

19.根据权利要求14所述的方法，其中来自所述用户的预定量的所述语音记录被存储在存储器处，并且其中所述用户的所述语音的所述记录能够经由处理器访问以执行以下项中的至少一项：

c)基于所述语音记录来执行虚拟个人助理(VPA)命令。

20.根据权利要求14所述的方法，其中所述方法还包括：在第二模式下，激活所述至少一个麦克风以记录所有可检测的环境音频，其中响应于用户命令来执行从所述第一模式到所述第二模式的切换。