CN113949966A - 噪声消除音频设备的中断 - Google Patents

噪声消除音频设备的中断 Download PDF

Info

Publication number
CN113949966A
CN113949966A CN202110812663.3A CN202110812663A CN113949966A CN 113949966 A CN113949966 A CN 113949966A CN 202110812663 A CN202110812663 A CN 202110812663A CN 113949966 A CN113949966 A CN 113949966A
Authority
CN
China
Prior art keywords
person
user
peripheral device
mode
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110812663.3A
Other languages
English (en)
Inventor
B·P·帕奎尔
A·M·林达尔
A·E·克里格尔
柳基善
S·S·拉纳德
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Apple Inc
Original Assignee
Apple Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Apple Inc filed Critical Apple Inc
Publication of CN113949966A publication Critical patent/CN113949966A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10KSOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
    • G10K11/00Methods or devices for transmitting, conducting or directing sound in general; Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
    • G10K11/16Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
    • G10K11/175Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound
    • G10K11/178Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound by electro-acoustically regenerating the original acoustic waves in anti-phase
    • G10K11/1783Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound by electro-acoustically regenerating the original acoustic waves in anti-phase handling or detecting of non-standard events or conditions, e.g. changing operating modes under specific operating conditions
    • G10K11/17837Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound by electro-acoustically regenerating the original acoustic waves in anti-phase handling or detecting of non-standard events or conditions, e.g. changing operating modes under specific operating conditions by retaining part of the ambient acoustic environment, e.g. speech or alarm signals that the user needs to hear
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/02Circuits for transducers, loudspeakers or microphones for preventing acoustic reaction, i.e. acoustic oscillatory feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10KSOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
    • G10K11/00Methods or devices for transmitting, conducting or directing sound in general; Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
    • G10K11/16Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
    • G10K11/175Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound
    • G10K11/178Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound by electro-acoustically regenerating the original acoustic waves in anti-phase
    • G10K11/1787General system configurations
    • G10K11/17885General system configurations additionally using a desired external signal, e.g. pass-through audio such as music or speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/04Circuits for transducers, loudspeakers or microphones for correcting frequency response
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10KSOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
    • G10K2210/00Details of active noise control [ANC] covered by G10K11/178 but not provided for in any of its subgroups
    • G10K2210/10Applications
    • G10K2210/108Communication systems, e.g. where useful sound is kept and noise is cancelled
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10KSOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
    • G10K2210/00Details of active noise control [ANC] covered by G10K11/178 but not provided for in any of its subgroups
    • G10K2210/30Means
    • G10K2210/301Computational
    • G10K2210/3038Neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting

Abstract

本发明题为“噪声消除音频设备的中断。”本主题技术的具体实施提供了用于确定是否中断正在噪声消除操作模式下操作的音频设备的用户的系统和方法。例如,用户可能期望被在相关联电子设备处被标识为中断授权联系人的一个或多个预先指定的联系人中断或被向该用户说出指定关键字的人中断。

Description

噪声消除音频设备的中断
技术领域
本说明书整体涉及媒体输出设备,并且更具体地,涉及例如用于中断噪声消除音频设备的操作。
背景技术
音频设备诸如耳机和耳塞可包括噪声消除特征,其中音频设备检测并消除在音频设备外部生成的声音。以此方式,可就由音频设备生成的音频内容而言向音频设备的佩戴者提供降噪环境和/或增强收听环境。音频设备的这些噪声消除特征防止用户听到不期望的外部噪声,但是它们也会防止佩戴者听到佩戴者可能期望听到的外部声音。
附图说明
本主题技术的一些特征在所附权利要求书中被示出。然而,出于解释的目的,在以下附图中阐述了本主题技术的若干实施方案。
图1示出了根据一个或多个具体实施的包括可实现本主题系统的各种电子设备的示例性系统架构。
图2示出了根据本主题技术的具体实施的包括接收外部语音输入的媒体输出设备的环境的示例。
图3示出了示出根据本主题技术的具体实施的媒体输出设备与另一个电子设备通信的示意图。
图4示出了根据本主题技术的一个或多个具体实施的能够确定外部声源的位置信息的音频设备。
图5示出了根据本主题技术的具体实施的存储联系人的电子设备的示意图,这些联系人包括被指定为中断授权联系人的联系人。
图6示出了根据本主题技术的具体实施的用于使用声学模型来标识指定关键字的示意性流程图。
图7示出了根据本主题技术的具体实施的用于训练声学模型以识别潜在中断授权联系人的示意性流程图。
图8示出了根据本主题技术的具体实施的用于使用声学模型确定外部语音输入是否对应于潜在中断授权联系人的示意性流程图。
图9示出了根据本主题技术的具体实施的用于训练声学模型以识别中断授权联系人的示意性流程图。
图10示出了根据本主题技术的具体实施的用于使用实现为语音识别模型的声学模型确定外部语音输入是否对应于中断授权联系人的示意性流程图。
图11示出了根据本主题技术的具体实施的用于训练实现为语音识别模型的声学模型的示意性流程图。
图12示出了用于操作具有噪声消除操作模式的媒体输出设备的示例性过程的流程图。
图13示出了用于训练用于具有噪声消除操作模式的媒体输出设备的声学模型的示例性过程的流程图。
图14示出了可用于实现本主题技术的一个或多个具体实施的电子系统。
具体实施方式
下面示出的具体实施方式旨在作为本主题技术的各种配置的描述并且不旨在表示本主题技术可被实践的唯一配置。附图被并入本文并且构成具体实施方式的一部分。具体实施方式包括具体的细节旨在提供对本主题技术的透彻理解。然而,本主题技术不限于本文阐述的具体细节,而是可以采用一个或多个其他具体实施来实践。在一个或多个具体实施中,以框图形式示出了结构和部件,以便避免使本主题技术的概念模糊。
本文所述的主题技术的具体实施提供了用于响应于来自外部语音的音频中断而将音频设备诸如耳机或耳塞从噪声消除操作模式(例如,其中基于在麦克风处接收的声音生成噪声消除内容,以消除所接收的声音,并且由此减少或防止所接收的声音到达音频设备的用户/佩戴者的耳朵)切换到另一种操作模式(例如,透声操作模式,其中将在音频设备外部生成的噪声和/或声音传递到用户/佩戴者的耳朵)的自动触发器。
外部语音可以是已在与音频设备和用户相关联的另一个设备(例如,音频设备的同一用户的电话、平板电脑或其他设备)处被标识为中断授权联系人的已知联系人的语音。在一个或多个具体实施中,中断授权联系人可不是耳机或相关联设备的授权用户。
与用于基于声音结束噪声消除操作模式的现有系统和方法相比,所公开的系统和方法单独地和/或以各种组合提供:(i)将用户的一个设备(例如,用户的电话/平板电脑/等)处的一个或多个联系人标识为同一用户的外围设备(例如,音频设备或另一个媒体输出设备)的中断授权联系人;(ii)在音频设备处对语音执行至少第一水平的标识(例如,标识用户的口头名字,或将联系人标识为若干中断授权联系人中的一个中断授权联系人)(例如,使用机器学习(ML)模型);(iii)在相关联设备处对语音执行第二水平的标识(例如,标识为特定中断授权联系人)(例如,使用相关联设备处的更准确的模型);以及(iv)使用音频设备处的已在用户的另一个设备(例如,用户的电话或用户的并且与电话同步的另一个设备)处训练的模型来标识中断授权联系人。
本主题公开的附加方面包括:联机创建中断授权联系人(例如,当用户正佩戴着耳机并且已切换到透过模式时;或使用在与联系人的电话呼叫期间接收的语音信息,如果提供语音信息的人已同意);和/或使用耳机、语音、对应于语音的人的设备等的附加特征来避免误报(例如,使用针对所标识的联系人的新近度或频率启发,和/或诸如使用如由耳机采集的音量信息或到达时间差信息确定的语音的接近度或位置)。
图1示出了根据一个或多个具体实施的包括可实现本主题系统的各种电子设备的示例性系统架构100。然而,并非所有所描绘的部件均可在所有具体实施中使用,并且一个或多个具体实施可包括与图中所示的那些相比附加的或不同的部件。可进行这些部件的布置和类型的变化,而不脱离本文所列出的权利要求的实质或范围。可提供附加的部件、不同的部件或更少的部件。
系统架构100包括通过网络106(例如,局域网或广域网)通信地耦接的媒体输出设备150、电子设备104(例如手持式电子设备,诸如智能电话或平板电脑)、电子设备110、电子设备115和服务器120。出于解释的目的,系统架构100在图1中被示出为包括媒体输出设备150、电子设备104、电子设备110、电子设备115和服务器120;然而,系统架构100可包括任何数量的电子和/或音频设备和任何数量的服务器或包括多个服务器的数据中心。
媒体输出设备150可被实现为被配置为由用户佩戴的音频设备(当用户佩戴音频设备时,用户也称为佩戴者),诸如智能扬声器、耳机(例如,安装在通过头带耦接在一起的扬声器外壳中的一对扬声器)或耳塞(例如,各自具有设置在适形于用户的耳朵的一部分的外壳中的扬声器的一对耳塞中的耳塞),或可被实现为能够输出音频、视频和/或其他类型的媒体(例如,并且被配置为由用户佩戴)的任何其他设备。每个媒体输出设备150可包括被配置为将声音投射到用户101的耳朵中的一个或多个扬声器,诸如扬声器151,以及被配置为接收外部噪声输入和/或外部语音输入的一个或多个麦克风,诸如麦克风152。在一个或多个具体实施中,媒体输出设备150可包括用于向用户显示视频或其他媒体的显示部件。尽管在图1中不可见(参见例如图2),但每个媒体输出可包括用于从电子设备104、电子设备110、电子设备115和/或服务器120中的一者或多者接收音频内容和/或对其进行处理的处理电路(例如,包括存储器和/或一个或多个处理器)和通信电路(例如,一个或多个天线等)。媒体输出设备或另一个设备的处理电路可操作扬声器151以生成声音。存储器可存储用于在媒体输出设备处于噪声消除操作模式时确定何时外部语音被授权中断用户101的一个或多个机器学习模型。
媒体输出设备可包括用于(例如,直接地或经由网络106)与电子设备104、电子设备110、电子设备115和/或服务器120通信的通信电路,该通信电路包括例如一个或多个无线接口,诸如WLAN无线电设备、蜂窝无线电设备、蓝牙无线电设备、Zigbee无线电设备、近场通信(NFC)无线电设备和/或其他无线电设备。电子设备104、电子设备110、电子设备115和/或服务器120可包括用于(例如,直接地或经由网络106)与媒体输出设备150和/或与电子设备104、电子设备110、电子设备115和/或服务器120中的其他设备通信的通信电路,该通信电路包括例如一个或多个无线接口,诸如WLAN无线电设备、蜂窝无线电设备、蓝牙无线电设备、Zigbee无线电设备、近场通信(NFC)无线电设备和/或其他无线电设备。
在一个或多个具体实施中,媒体输出设备150还可包括一个或多个机器学习模型,该一个或多个机器学习模型被训练以识别用户101的语音、来自用户101的语音的各种口头命令中的任何口头命令、和/或各种标准化声音诸如警车或救护车警笛或者烟雾或火灾警报中的任何标准化声音。然而,识别用户自己的语音和/或标准化声音的操作不同于识别中断授权用户的操作,具体地是因为可供用于训练模型的相对较少量的时间和/或数据(例如,与用户自己的语音的可用性相比),和/或因为各自对于用户来说可能知道或可能不知道的其他人的广泛多种语音。
媒体输出设备150可通信地耦接到基础设备,诸如电子设备104、电子设备110和/或电子设备115。一般来讲,与媒体输出设备150相比,此类基础设备可包括更多计算资源和/或可用功率。在一个示例中,媒体输出设备150可在各种模式下操作。例如,媒体输出设备150可在无噪声消除内容的情况下播放音频内容(例如,来自电子设备104)(例如,以在音频内容播放的同时允许和/或增强外部声音以便传递到用户)的第一操作模式(例如,透过操作模式)下或在媒体输出设备结合噪声消除内容播放音频内容的第二操作模式(例如,噪声消除操作模式)下操作。媒体输出设备150的存储器可存储用于在媒体输出设备处于噪声消除操作模式时确定何时外部语音被授权中断用户101的一个或多个机器学习模型(在本文中称为声学模型)。
媒体输出设备150还可包括用于接收用户输入的一个或多个传感器,诸如触摸传感器和/或力传感器。例如,媒体输出设备150的用户/佩戴者可短暂地轻击触摸传感器或夹捏力传感器以控制正在播放的音频内容、控制回放的音量、和/或在透过操作模式和噪声消除操作模式之间来回切换。在一个或多个具体实施中,用户可在媒体输出设备在噪声消除操作模式下操作时按住力传感器,以暂时切换到透过操作模式,直到释放力传感器为止。
电子设备104可以是例如智能电话、便携式计算设备诸如膝上型计算机、外围设备(例如,数字相机、耳机、另一个音频设备或另一个媒体输出设备)、平板设备、可佩戴设备(诸如智能手表、智能腕带等),包括例如用于向媒体输出设备150提供音频内容的处理电路和/或通信电路的任何其他适当的设备。在图1中,通过举例的方式,电子设备104被描绘为具有触摸屏的移动智能电话设备。在一个或多个具体实施中,电子设备104和/或媒体输出设备150可以是和/或可包括下文相对于下文相对于图14讨论的电子系统讨论的电子设备的全部或部分。
电子设备115可以是例如台式计算机、便携式计算设备诸如膝上型计算机、智能电话、外围设备(例如,数字相机、耳机、另一个音频设备或另一个媒体输出设备)、平板设备、可佩戴设备(诸如手表、腕带等)。在图1中,通过举例的方式,电子设备115被描绘为台式计算机。电子设备115可以是和/或可包括下文相对于图14讨论的电子系统的全部或部分。
服务器120可形成计算机网络或服务器组130的全部或部分,诸如在云计算或数据中心实施中。例如,服务器120存储数据和软件,并且包括用于渲染和生成计算机生成的现实环境的内容诸如图形、图像、视频、音频和多媒体文件的具体硬件(例如,处理器、图形处理器和其他专用或定制处理器)。在一个具体实施中,服务器120可用作云存储服务器。
图2示出了其中用户101佩戴着媒体输出设备150的环境。媒体输出设备150可正在诸如在噪声消除操作模式下使用扬声器151播放来自电子设备104的音频内容,在噪声消除操作模式下,媒体输出设备150结合使用利用麦克风152捕获的外部噪声输入生成的噪声消除内容播放音频内容。
在图2的示例中,来自媒体输出设备150的用户101之外的人202(例如,说话者)的语音输入200由媒体输出设备150的麦克风152接收(例如,当人202在媒体输出设备处于噪声消除操作模式时向用户101说话时)。如下文进一步详细讨论的,媒体输出设备150和/或电子设备104可基于语音输入200来确定人202是否被授权中断用户101(例如,通过致使媒体输出设备150从噪声消除操作模式切换到透过操作模式来中断媒体输出设备150的噪声消除操作模式)。
如图2所示,人202可任选地具有与用户的设备104交换通信206的电子设备204。例如,通信206可包括两个设备之间的接近度信息(例如,基于设备之间的NFC和/或无线通信)、联系人信息、语音配置文件信息、对同意访问和/或生成语音配置文件信息的请求、消息传递通信、语音呼叫通信和/或其他通信。在一个或多个具体实施中,通信206可用于另外验证人202是否被授权中断用户101(例如,中断媒体输出设备150的噪声消除操作模式)。
图3是示出电子设备104和/或媒体输出设备150可用来确定人202是否是用户101的可致使媒体输出设备150从噪声消除操作模式切换到透过操作模式以中断用户的中断授权联系人的各种信息和/或操作的示意图。
如图3所示,第一用户(例如,用户101)的设备(例如,电子设备104)可包括存储多个联系人的安全存储器300,该多个联系人包括在设备处被指定为外围设备诸如媒体输出设备150的中断授权联系人302的联系人。如图3所示,电子设备还可包括可向媒体输出设备150提供音频内容的一个或多个处理器301。音频内容可由媒体输出设备150在媒体输出设备150的第一操作模式下播放,或可由媒体输出设备150在外围设备的第二操作模式下结合噪声消除内容播放。噪声消除内容可由媒体输出设备150基于在媒体输出设备150的麦克风152处接收的噪声输入来生成,如图3所示。
如图3所示,媒体输出设备150可包括扬声器151、麦克风152、安全存储器305和处理电路306。处理电路可在第一操作模式下操作扬声器151以播放从第一用户的第一设备接收的音频内容,和/或在第二操作模式(例如,噪声消除操作模式)下操作扬声器151以结合使用麦克风152(例如,基于噪声输入以及使用处理电路306)生成的噪声消除内容播放音频内容。
在一个或多个具体实施中,在外围设备在第二操作模式下操作期间,电子设备104可从媒体输出设备150接收与由媒体输出设备150从第一用户(例如,用户101)之外的人(例如,人202)接收的语音输入(例如,图3所示的外部语音输入)相关联的信息。该信息可包括语音数据诸如外部语音输入本身,(例如,通过处理电路306)从外部语音输入提取的语音配置文件,和/或人是潜在中断授权用户的指示(例如,基于来自存储在媒体输出设备150处的安全存储器305中的声学模型308的输出,该输出指示外部语音输入很可能属于中断授权联系人302中的一个联系人)。
预期在电子设备104处对语音配置文件、语音数据或任何其他数据的接收将仅在接收到其他人的同意之后发生,如适用法律所指定。例如,其他人将接收到指示他们可选择是否“选择加入”向另一个设备发送语音数据的消息。
例如,处理电路306可执行外围设备处的声学模型308中的一个或多个声学模型(例如,在操作309中),以确定语音输入是否对应于潜在用户授权联系人。电子设备104可至少部分地基于从外围设备接收的信息(例如,使用存储在电子设备104的安全存储器300中的一个或多个声学模型304)来确定人(例如,在媒体输出设备150处被标识为潜在中断授权联系人的人)是否是中断授权联系人302中的一个中断授权联系人(例如,在操作310中)。应当理解,联系人信息、语音配置文件信息和/或声学模型诸如声学模型304和308可通过以下方式存储在安全存储器300或304中:以加密形式将联系人信息、语音配置文件信息和/或声学模型存储在设备的主(例如,未加密)存储器中,以及将用于解密所加密的联系人信息、语音配置文件和/或声学模型的密钥存储在设备的安全存储器300或304中。以此方式,一个或两个设备处的存储器的安全元件可设置有少量片上存储器。应当理解,所接收的语音数据应不超过确定人是否是中断授权联系人302中的一个中断授权联系人所需的语音数据。
如果确定人是中断授权联系人302中的一个中断授权联系人,则电子设备104可向媒体输出设备150传输从第二操作模式切换到第一操作模式指令(例如,图3的示例中的切换信号)。如果(例如,在操作310中)确定人202不是中断授权联系人302中的一个中断授权联系人,则电子设备104可向媒体输出设备150传输继续在第二操作模式下操作的指令。
在一个或多个具体实施中,中断授权联系人302不是设备或外围设备的授权用户。在一个或多个具体实施中,确定人202是中断授权联系人中的一个中断授权联系人并不使人202能够访问电子设备104或媒体输出设备150处或来自电子设备或媒体输出设备的任何内容。
在一个或多个具体实施中,媒体输出设备150处的声学模型308是第一声学模型,并且电子设备104的一个或多个处理器301被配置为通过以下方式来确定人202是否是中断授权联系人302中的一个中断授权联系人:利用设备处的第二声学模型(例如,声学模型304中的一个声学模型)确定从语音输入提取的语音配置文件是否对应于与中断授权联系人302相关联的一个或多个语音配置文件。在一个或多个具体实施中,中断授权联系人302的语音配置文件可已在电子设备104处从第二设备(诸如人202的电子设备204)或从远程服务器(诸如服务器120)接收。
在一个或多个具体实施中,电子设备104处的声学模型304和媒体输出设备150处的声学模型308在电子设备104处被训练。例如,声学模型304中的一个或多个声学模型和/或声学模型308中的一个或多个声学模型可在电子设备104处使用一个或多个语音配置文件进行训练。在一个或多个具体实施中,媒体输出设备150处的声学模型308中的一个或多个声学模型可已在电子设备104处使用训练语音输入进行训练,该训练语音输入包括指定关键字,诸如第一用户的姓名的至少一部分。例如,基于用户101用他们自己的语音陈述他们自己的姓名的训练操作,可训练声学模型308中的一个或多个声学模型以在通过不同语音说出时识别用户101的姓名。
如图3所示,电子设备104还可接收附加信息,诸如来自人202的电子设备204的信息。例如,附加信息可包括电子设备204的接近度信息、人202(例如,电子设备204的用户)的联系人信息和/或来自电子设备204的其他信息。在一个或多个具体实施中,电子设备104的一个或多个处理器可部分地基于附加信息(例如,基于设备和人202的第二电子设备204之间的通信)来确定从语音输入提取的语音配置文件是否对应于与中断授权联系人302相关联的一个或多个语音配置文件。
在一个或多个具体实施中,电子设备104可使用存储在安全存储器300中的其他信息来确定和/或验证从语音输入提取的语音配置文件是否对应于与中断授权联系人302相关联的一个或多个语音配置文件。例如,一个或多个处理器301可部分地(例如,通过对确定进行加权或对确定进行单独验证)基于存储在设备处的多个联系人的新近度信息(例如,交换去往或来自人202的上次呼叫或上次消息的新近度)或频率信息(例如,交换去往或来自人202的呼叫和/或消息的频率)来确定从语音输入提取的语音配置文件是否对应于与中断授权联系人相关联的一个或多个语音配置文件。
在一个或多个具体实施中,当在第二操作模式下操作扬声器151时,媒体输出设备150可利用麦克风152从第一用户(例如,用户101)之外的人(例如,人202)接收语音输入。媒体输出设备150(例如,处理电路306)可至少部分地使用存储在媒体输出设备150处的安全存储器305中的声学模型308来确定人是否已在电子设备104处被指定为中断授权联系人302。如果确定人202是中断授权联系人302,则媒体输出设备150可将扬声器151的操作切换到第一(例如,透过)操作模式,和/或在确定人202不是中断授权联系人302,则继续在第二操作模式(例如,噪声消除操作模式)下操作扬声器151。
在一个或多个具体实施中,媒体输出设备150处的声学模型308包括第一声学模型,并且媒体输出设备150的处理电路306通过以下方式来至少部分地使用外围设备处的声学模型308确定人202是否已在电子设备104处被指定为中断授权联系人302:使用声学模型308中的第一声学模型确定人202是潜在中断授权联系人(例如,在操作309中)。响应于确定人是潜在中断授权联系人,媒体输出设备150的处理电路306接着可向电子设备104提供与语音输入相关联的信息(例如,如图3所示的语音数据)。媒体输出设备150的处理电路306接着可从电子设备104并且响应于提供信息接收将扬声器151的操作切换到第一操作模式的指令(例如,如图3所示的切换信号)。
在一个或多个具体实施中,来自电子设备104的指令(例如,切换信号)是基于在电子设备104处与语音输入相关联的信息和与在电子设备104处的安全存储器300中被标识为被中断授权的至少一个联系人相关联的至少一个语音配置文件的比较,并且基于在电子设备104处基于该比较人202是否是中断授权联系人302的确定。
在一个或多个具体实施中,在电子设备104处与语音输入相关联的信息和电子设备104可访问的至少一个语音配置文件的比较是基于电子设备104处的第二声学模型(例如,声学模型304中的一个声学模型)的输出。该比较可响应于与语音输入相关联的信息(例如,语音数据)而执行。第二声学模型可已在电子设备104处使用至少一个语音配置文件(例如,基于来自人202的同意而结合人202的联系人信息存储在安全存储器300中和/或可由电子设备104从服务器120访问的人202的语音配置文件)进行训练。
在一个或多个具体实施中,处理电路306通过以下方式来使用第一声学模型(例如,声学模型308中的一个声学模型)确定人202是潜在中断授权联系人(例如,在操作309中):使用第一声学模型确定语音输入包括第一用户的姓名的至少一部分(例如,当人202说出用户101的姓名、由此指示他们熟悉用户101时)。在一个或多个具体实施中,处理电路306通过以下方式来使用第一声学模型确定人是潜在中断授权联系人(例如,在操作309中):使用第一声学模型确定语音输入对应于一组中断授权联系人中的一个联系人(例如,使用声学模型308中的已使用一组中断授权联系人的语音配置文件训练的低准确度声学模型)。
在一个或多个具体实施中,处理电路306部分地使用媒体输出设备150处的声学模型308并且部分地基于从第一设备(例如,电子设备104)接收的信息来确定人202是否已在电子设备104处被指定为中断授权联系人302。来自电子设备104的信息可部分地基于存储在第一设备处的联系人的新近度信息或频率信息。
在一个或多个具体实施中,处理电路306部分地使用媒体输出设备150处的声学模型308并且部分地基于从第一设备接收的信息来确定人202是否已在电子设备104处被指定为中断授权联系人302。该信息可部分地基于第一设备和第二设备诸如人202的电子设备204之间的通信(例如,基于与电子设备204的通信的接近度信息和/或联系人信息)。
声学模型304和/或308各自被实现为机器学习模型,这些机器学习模型被训练以基于来自媒体输出设备150和电子设备104的用户之外的人的外部语音输入来标识以下中的和或全部:(i)外部语音输入中的指定关键字,(ii)对应于外部语音输入的潜在中断授权联系人,和/或(iii)中断授权联系人,如本文所述。
在一个或多个具体实施中,处理电路306至少部分地使用媒体输出设备150处的声学模型308来使用声学模型308和与所接收的语音输入相关联的附加信息确定人202是否已在第一设备处被指定为中断授权联系人302。例如,附加信息可包括与语音输入相关联的位置信息,该位置信息已使用麦克风152和第一用户的附加媒体输出设备(例如,一对耳塞中的另一个耳塞)的附加麦克风152确定,该附加外围设备还包括附加扬声器151。
图4示出了其中两个媒体输出设备150(例如,一对耳塞)分开距离400(例如,用户的头部的宽度)的示例,该距离可以是已知的或估计的。如图所示,两个媒体输出设备150可确定外部语音输入的源402(例如,对应于人202的位置)相对于媒体输出设备的位置的距离404(例如,接近度信息,诸如距离)和/或角位置406(例如,方向信息)。例如,处理电路306可在以下情况时提高人202中断用户的能力:确定人202位于用户101附近(例如,在小于距离阈值诸如一米的距离处,以避免在人202在远处或者在谈话但却是与另一个人谈话时中断用户),和/或在用户101后面的角位置406处(例如,以在人202不在用户的视觉视野中时帮助用户意识到他们的环境)。
图5示出了电子设备104可指定和/或存储中断授权联系人302的方式的各个方面。如图5所示,用户诸如用户101的设备诸如电子设备104可包括存储器505(例如,包括安全存储器300)和一个或多个处理器(例如,包括如图3所示的一个或多个处理器302)。在一个或多个具体实施中,一个或多个处理器可将具有一个或多个相应语音配置文件(VP)的一个或多个中断授权联系人302存储在设备处的存储器505中。存储器505可存储联系人列表500,该联系人列表包括不是中断授权联系人的联系人502,以及已被指定为中断授权联系人302的联系人(例如,响应于来自电子设备104的用户101的请求以及通过存储那些中断授权联系人302的中断授权联系人指示符(IAC)而被指定)。如图5所示,联系人列表500中的联系人502和中断授权联系人302可包括那些联系人的附加信息,诸如每个联系人的姓名和/或标识符(ID),诸如该联系人的电话号码或电子邮件地址。
如本文所述,电子设备104可向用户101的媒体输出设备150提供音频内容,媒体输出设备150被配置为在第一操作模式下播放音频内容,并且在第二操作模式下结合使用麦克风152生成的噪声消除内容播放音频内容。当用户101的媒体输出设备150在第二操作模式下操作时,电子设备104可从媒体输出设备150接收与在媒体输出设备150处从用户101之外的人(例如,人202)接收的语音输入(例如,图3的外部语音输入)相关联的信息。电子设备104可通过向(例如,使用模型训练引擎506)使用一个或多个相应语音配置文件(VP)训练的声学模型304提供与语音输入相关联的信息来确定人202是否是一个或多个中断授权联系人302中的一个中断授权联系人。如果确定人202是一个或多个中断授权联系人302中的一个中断授权联系人,则电子设备104可指示媒体输出设备150从第二操作模式切换到第一操作模式。
如图5所示,电子设备104的一个或多个处理器301可将联系人的完整列表(例如,联系人列表500)存储在存储器505中。电子设备104接着可接收将完整联系人列表中的联系人中的一个或多个联系人指定为媒体输出设备150的一个或多个中断授权联系人302的用户请求(例如,在图5的示例中,将联系人M标识为中断授权联系人的请求)。电子设备104接着可通过响应于用户请求将联系人中的一个或多个联系人指定为一个或多个中断授权联系人302(例如,通过存储中断授权联系人指示符(IAC))来将一个或多个中断授权联系人302存储在存储器505中。
如图5所示,在一个或多个具体实施中,电子设备104的一个或多个处理器301可从远程服务器诸如服务器120或从一个或多个中断授权联系人的一个或多个相应设备(例如,从人202的电子设备204,诸如从图5的示例中的联系人M的设备)获得对一个或多个中断授权联系人302的一个或多个相应语音配置文件(VP)的访问权。例如,电子设备104可响应于来自一个或多个相应设备中的至少一个相应设备的共享一个或多个相应语音配置文件中的至少一个相应语音配置文件的请求(例如,基于来自联系人M的与电子设备104共享他们自己的语音配置文件VP的请求)而从远程服务器诸如服务器120或从一个或多个中断授权联系人的一个或多个相应设备(例如,从人202的电子设备204,诸如从图5的示例中的联系人M的设备)获得对一个或多个中断授权联系人的一个或多个相应语音配置文件(VP)的访问权。
如图5所示,在一个或多个具体实施中,电子设备104的一个或多个处理器301还可或另选地通过从一个或多个联系人中的至少一个联系人获得语音样本(例如,图5的示例中的联系人M语音样本)来生成一个或多个相应语音配置文件(VP)中的至少一个相应语音配置文件。例如,电子设备104可向人202传输对同意在设备上获得语音样本的请求,从人202接收对在设备上获得语音样本的同意,并且响应于从人202接收到对获得语音样本的同意而使用电子设备104的麦克风或媒体输出设备150的麦克风152来获得语音样本。
在一个或多个具体实施中,电子设备104可响应于请求从第二操作模式临时切换到第一操作模式的到媒体输出设备150的用户输入而使用设备的麦克风或媒体输出设备150的麦克风152来获得语音样本。例如,如果用户101想要在用户搭乘飞机时且在空中乘务员同意的情况下将空中乘务员的语音识别为中断授权用户的语音,并且即使空中乘务员不是用户的联系人,那么媒体输出设备150(和/或电子设备104)可获得空中乘务员的语音配置文件(例如,在空中乘务员正在向用户说话或做出飞行通知时向媒体输出设备的力传感器施加力输入以临时切换到透过模式时)并且(例如,使用特征提取引擎504)生成并临时存储空中乘务员的语音配置文件VP。在此类情况下,预期除语音样本和一个或多个所生成的语音配置文件之外,电子设备将不收集和存储与第三方(例如,空中乘务员)相关的其他可标识信息。此外,电子设备将在预先确定的时间段之后删除语音样本和一个或多个生成的语音配置文件。例如,可在生成语音配置文件之后立即删除语音样本。又如,可在确定事件结束(例如,用户已经下飞机)之后删除语音配置文件。
在一个或多个具体实施中,在从另一个人接收到对通过设备和人的第二设备之间的语音呼叫或视频呼叫提供语音样本的同意之后,电子设备104可获得语音样本。此外,如上所述,除非从另一个人获得同意,否则电子设备将在预先确定的时间段之后删除语音样本和一个或多个所生成的语音配置文件。
如图5所示,在一个或多个具体实施中,电子设备104接着可使用相应一个或多个语音配置文件(VP)来训练一个或多个声学模型304和/或308,以标识一个或多个中断授权联系人302中的一个中断授权联系人。
在一些示例中,设备诸如电子设备104包括一个或多个处理器,该一个或多个处理器被配置为接收将语音配置文件指定为与设备相关联的媒体输出设备(例如,媒体输出设备150)的中断授权语音配置文件的请求(例如,来自设备的用户诸如用户101的用户请求)。设备可向第二设备(例如,除设备的用户之外的用户诸如人202的设备204)提供对语音配置文件的请求。响应于对语音配置文件的请求并且响应于来自对应于语音配置文件的人(例如,人202)的同意,设备可从第二设备接收语音配置文件。设备可(例如,使用模型训练引擎506)使用语音配置文件训练声学模型,以响应于外部语音输入确定是否中断从媒体输出设备输出的媒体内容(例如,当媒体输出设备正在噪声消除操作模式下操作时)。在一个或多个具体实施中,设备可结合针对人存储在设备处的联系人将语音配置文件安全地存储在设备处。在一个或多个具体实施中,设备可在媒体输出设备处向媒体输出设备(例如,用于标识中断授权语音配置文件和/或中断授权联系人)提供受训练的声学模型。在一个或多个具体实施中,设备可从媒体输出设备接收与外部语音输入相关联的语音信息(例如,外部语音输入或从外部语音输入提取的语音配置文件)。设备可执行受训练的声学模型以响应于语音信息确定是否中断从媒体输出设备输出的媒体内容。设备可基于该确定向媒体输出设备提供指令。
在一些示例中,设备诸如电子设备204可从第二设备(例如,从电子设备104)接收对设备的用户的语音配置文件的请求,以用于将语音配置文件指定为与第二设备相关联的媒体输出设备(例如,媒体输出设备150)的中断授权语音配置文件。在一个或多个具体实施中,设备(例如,电子设备204)可向用户提供对同意与第二设备共享语音配置文件的请求。设备可从用户接收同意,并且响应于接收到该同意而向第二设备提供语音配置文件。在这些示例中,第二设备(例如,电子设备104)可(例如,使用模型训练引擎506)使用语音配置文件来训练声学模型,以响应于到媒体输出设备的外部语音输入确定是否中断从媒体输出设备输出的媒体内容。设备(例如,电子设备204)可在从第二设备(例如,电子设备104)接收到请求之前存储语音配置文件,或可响应于该请求和接收到同意而生成语音配置文件。例如,在向第二设备(例如,在该示例中为电子设备104)提供语音配置文件之前,设备(例如,在该示例中为电子设备204)可从用户获得样本语音输入;并且从样本语音输入生成语音配置文件。
图6和图7、图8和图9以及图10和图11分别示出了驻留在媒体输出设备150和/或媒体输出设备的相关联电子设备(例如,智能电话、平板电脑、膝上型电脑、台式计算机、智能手表等)处的各种声学模型可如何包括用于进行以下事项的声学模型:检测外部语音输入中的指定关键字(例如,媒体输出设备和相关联电子设备的用户/佩戴者/所有者的姓名或其变体诸如昵称);检测外部语音输入的说话者是否是潜在中断授权联系人(例如,说话者是否是一组中断授权联系人中的任何中断授权联系人);和/或确定外部语音输入是否对应于特定中断授权用户。
在图6的示例中,可在媒体输出设备处接收外部语音输入。外部语音输入可包括由人202向佩戴媒体输出设备150的用户101说出的一个或多个字。在各种具体实施中,媒体输出设备150或相关联电子设备诸如电子设备104可包括受训练的声学模型,其被实现为受训练的用户特定的关键字模型600。如图所示,用户特定的关键字模型600可被训练以输出外部语音输入是否包括指定关键字的置信度(例如,置信度分数、置信度百分比或另一个置信度值)或其他指示符。在一个或多个具体实施中,指定关键字可包括用户101的名字和/或姓氏、用户的名字或姓氏的变体(例如,截词或修正)、用户101的昵称,和/或与媒体输出设备150和电子设备110的用户101相关联的任何其他指定关键字。如图6所示,在各种具体实施中,用户特定的关键字模型600可被训练以基于外部语音输入本身或基于由特征提取引擎504从外部语音输入提取的外部语音输入特征来识别指定关键字。
图7示出了根据一个或多个具体实施的用于训练用户特定的关键字模型600以识别指定关键字(例如,用户的姓名或其变体)的训练操作。如图7所示,可用说出指定关键字的用户自己的语音训练用户特定的关键字模型600(例如,在使用电子设备104进行的针对用户和媒体输出设备150的登记操作期间)。在该示例中,可向经历训练的用户特定的关键字模型600T提供指定关键字输入样本(例如,说出他们自己的姓名的用户的音频样本、他们自己的姓名的一个或多个变体诸如昵称,和/或用户想要指定为媒体输出设备150的噪声消除操作模式的中断的触发器的任何其他指定关键字)作为输入训练数据。如图所示,经历训练的用户特定的关键字模型600T还可或另选地接收由特征提取引擎504从指定关键字自输入样本提取的关键字特征作为输入训练数据。如图7的示例所示,在训练期间,用户特定的关键字模型600T可输出外部语音输入包括指定关键字的置信度,并且使用代价函数将该置信度与已知置信度(例如,1%或100%的置信水平)进行比较以生成用于训练用户特定的关键字模型600的参数(例如,权重)的反馈。
在一个或多个具体实施中,用户特定的关键字模型600可在媒体输出设备150处实现,以用于触发噪声消除操作模式的中断,或用于发起电子设备104对外部语音输入是否对应于中断授权联系人的进一步确定。例如,在一些具体实施中,说出用户101的姓名的人202可足以指示可触发中断。在其他具体实施中,人202说出用户101的姓名可以是用于确定是否中断用户的进一步操作的初始触发器。在一个或多个具体实施中,可在电子设备104处(或在用户101的另一个电子设备处)训练用户特定的关键字模型600,然后将该用户特定的关键字模型部署到媒体输出设备150。
在图8的示例中,可在媒体输出设备150处接收外部语音输入,诸如包括由人202向佩戴媒体输出设备的用户101说出的一个或多个字的语音输入。在各种具体实施中,媒体输出设备150或相关联电子设备诸如电子设备104可包括受训练的声学模型700,该受训练的声学模型已被训练以确定外部语音输入是否对应于潜在中断授权联系人。例如,为了利用媒体输出设备150的相对低功率和/或低存储器计算资源,媒体输出设备可设置有相对小(例如,低准确度)的机器学习模型,该机器学习模型能够基于外部语音输入确定外部语音输入对应于电子设备104处的任何(例如,一组中的任一个)中断授权联系人的置信度。在一个或多个具体实施中,由声学模型700(例如,基于外部语音输入对应于潜在中断授权联系人的高于阈值的置信度)作出的外部语音输入对应于电子设备104处的任何中断授权联系人的确定可致使媒体输出设备150触发噪声消除操作模式的中断,或请求电子设备104(例如,使用在电子设备处部署的更准确的声学模型)作出外部语音输入是否对应于中断授权联系人的确定。如图8所示,在各种具体实施中,声学模型700可被训练以基于外部语音输入本身或基于由特征提取引擎504从外部语音输入提取的外部语音配置文件来识别潜在中断授权联系人。
图9示出了根据一个或多个具体实施的声学模型700识别潜在中断授权联系人的训练操作。如图9所示,可向经历训练的声学模型700T提供(例如,到媒体输出设备150的麦克风或电子设备104的麦克风的)可信语音的样本输入和/或使用特征提取引擎504从可信语音样本提取的可信语音配置文件。如图9所指示,还可或另选地向经历训练的声学模型700T提供从可信用户的设备(例如,从电子设备204或媒体输出设备150的用户期望指定为中断授权联系人的人202)或从远程服务器诸如服务器120接收的可信语音配置文件(例如,响应于从可信人接收到对获得可信语音配置文件的同意)。图9的可信语音配置文件可对应于例如上文结合图5所述的语音配置文件(VP)。
如图9的示例所示,在训练期间,声学模型700T可输出外部语音输入对应于任何中断授权联系人的置信度,并且使用代价函数将该置信度与已知置信度(例如,1%或100%的置信水平)进行比较以生成用于训练声学模型700的参数(例如,权重)的反馈。在图8和图9的示例中,声学模型700可设置有足够数量的层、节点和/或对应参数(例如,权重和/或偏置)以使得能够识别出一组中断授权联系人中的一个中断授权联系人提供了外部语音输入,但没有足够数量的层、节点和/或对应参数(例如,权重和/或偏置)以使得能够识别出该组中断授权联系人中的哪个中断授权联系人提供了外部语音输入。声学模型700可被训练以基于外部语音输入的语音配置文件识别潜在中断授权联系人,而不管在外部语音输入中说出什么字(例如,无需识别任何关键字)。
在一个或多个具体实施中,声学模型700可在媒体输出设备150处实现,以用于触发噪声消除操作模式的中断,或用于发起电子设备104对外部语音输入是否对应于中断授权联系人的进一步确定。在一个或多个具体实施中,可在电子设备104处(或在用户101的另一个电子设备处)训练声学模型700,然后将该声学模型部署到媒体输出设备150。
图10示出了其中(例如,在媒体输出设备150处或在电子设备104处)提供被实现为语音识别模型800的声学模型以用于识别中断授权联系人的示例。如图10所示,可从媒体输出设备150和电子设备104的用户之外的人接收外部语音输入。如图所示,可将外部语音输入直接提供给被实现为语音识别模型800的声学模型,或可使用特征提取引擎504从外部语音输入提取外部语音配置文件并将该外部语音配置文件提供给语音识别模型800。在图10的示例中,语音识别模型800输出外部语音输入和/或外部语音配置文件对应于用户的一个或多个联系人(例如,联系人1至联系人N)中的每个联系人的可能性(例如,百分比可能性或其他可能性或置信度统计)。在一个或多个具体实施中,可将具有最高可能性的联系人标识为对应于外部语音输入的联系人。在一个或多个具体实施中,接着可确定所标识的联系人是否在电子设备104处被指定为中断授权联系人。然而,还应当理解,语音识别模型800可输出单个所标识的联系人的联系人标识符或外部语音输入是否对应于中断授权联系人的确定,而不输出标识哪个联系人的信息。
如图10所示,在一个或多个具体实施中,语音识别模型800还可接收附加信息作为输入,诸如来自近侧设备检测引擎802的近侧设备列表。在一个或多个具体实施中,近侧设备列表可基于用户的电子设备104和一个或多个附近设备之间的通信来获得,并且用于确认已经由语音识别模型800标识的联系人的存在,或在模型内用于增强近侧设备的用户被检测为中断授权联系人的可能性。在一个或多个具体实施中,语音识别模型800可由电子设备104基于来自媒体输出设备150的请求来执行,该请求包括与外部语音输入相关联的信息(例如,语音输入本身,或从语音输入提取的外部语音配置文件)。
图11示出了根据一个或多个具体实施的实现为语音识别模型800的声学模型识别中断授权联系人的训练操作。如图11所示,可向经历训练的语音识别模型800T提供(例如,到媒体输出设备150的麦克风或电子设备104的麦克风的)可信语音的样本输入和/或使用特征提取引擎504从该样本输入提取的可信语音配置文件。如图所示,还可或另选地从可信用户的设备(例如,从媒体输出设备150的用户期望指定为中断授权联系人的人202的电子设备204)或从远程服务器诸如服务器120接收可信语音配置文件(例如,响应于从可信人接收到对获得可信语音配置文件的同意)。图11的可信语音配置文件可对应于例如上文结合图5所述的语音配置文件(VP)。
如图11的示例所示,在训练期间,经历训练的语音识别模型800T可输出外部语音输入对应于若干联系人中的每个联系人或者每个或若干中断授权联系人的置信度,并且使用代价函数将所得的所标识的联系人与已知联系人标识符(例如,针对其获得可信语音输入样本的联系人的标识符)进行比较以生成用于训练语音识别模型800的参数(例如,权重)的反馈。在图10和图11的示例中,语音识别模型800可设置有足够数量的层、节点和/或对应参数(例如,权重和/或偏置)以使得能够识别出单独中断授权联系人302和/或一组中断授权联系人302中的哪个中断授权联系人提供了外部语音输入。如图10和图11所指示,语音识别模型800可基于外部语音输入的语音配置文件识别中断授权联系人,而不管在外部语音输入中说出什么字(例如,无需识别任何关键字)。
在各种具体实施中,图6、图8和图10的声学模型中的任何声学模型可被实现为图3的声学模型304和308中的任何声学模型。
图12示出了根据本主题技术的具体实施的操作具有噪声消除操作模式的音频设备的示例性过程1200的流程图。出于解释的目的,本文主要参考图1至图5的媒体输出设备150和电子设备104来描述过程1200。然而,过程1200不限于图1至图5的媒体输出设备150和电子设备104,并且过程1200的一个或多个框(或操作)可由其他合适设备(包括电子设备110、电子设备115和/或服务器120)的一个或多个其他部件来执行。进一步出于解释的目的,过程1200的一些框在本文中被描述为顺序地或线性地发生。然而,过程1200的多个框可并行地发生。此外,过程1200的框不必按所示顺序执行,并且/或者过程1200的一个或多个框不必执行和/或可由其他操作替代。
如图12所示,在框1202处,在第一用户诸如用户101的外围设备诸如媒体输出设备150(例如,音频设备)的噪声消除操作模式下操作外围设备的扬声器诸如扬声器151以结合使用外围设备的麦克风诸如麦克风152生成的噪声消除内容播放从第一用户的第一设备(例如,电子设备104)接收的音频内容。
在框1204处,当在噪声消除操作模式下操作扬声器时,外围设备(例如,媒体输出设备150)利用外围设备的麦克风152从第一用户之外的人(例如,人202)接收语音输入。
在框1206处,外围设备至少部分地通过以下方式来确定是否将外围设备的操作从噪声消除操作模式切换到外围设备的另一种操作模式:使用存储在外围设备处的安全存储器(例如,安全存储器305)中的声学模型(例如,声学模型308中的一个声学模型)确定所接收的语音输入中是否包括指定关键字。在另一种操作模式下,扬声器被操作以在无噪声消除内容的情况下播放来自第一设备的音频内容。在一个或多个具体实施中,指定关键字包括第一用户的姓名的至少一部分或其变体。
在一个或多个具体实施中,声学模型(例如,声学模型308中的一个声学模型)已经用第一设备(例如,电子设备104)训练,以基于包括指定关键字并且由第一用户(例如,通过用户101在第一用户对电子设备104的发起或登记会话期间说出他们自己的姓名和/或其变体)提供的训练语音输入来确定从第一用户之外的人接收的语音输入中是否包括指定关键字。
在一个或多个具体实施中,外围设备还可从第一用户的第二设备(例如,电子设备110或电子设备115)接收附加音频内容。外围设备可在噪声消除操作模式下操作扬声器151以结合使用麦克风152生成的附加噪声消除内容播放来自第一用户的第二设备的附加音频内容。当在噪声消除操作模式下操作扬声器151以结合使用麦克风152生成的附加噪声消除内容播放附加音频内容时,外围设备(例如,媒体输出设备150)可利用麦克风从第一用户之外的人(例如,人202或另一个人)接收附加语音输入。
在一个或多个具体实施中,外围设备接着可至少部分地通过以下方式来确定是否将外围设备的操作从噪声消除操作模式切换到另一种操作模式:使用声学模型(例如,声学模型308中的一个声学模型)确定所接收的附加语音输入中是否包括指定关键字(例如,人是否说出了用户101的姓名或用户101的昵称)。在一个或多个具体实施中,外围设备接着可至少部分地通过以下方式来确定是否将外围设备的操作从噪声消除操作模式切换到另一种操作模式:确定附加语音输入是否对应于存储在第一设备(例如,电子设备104)处的中断授权联系人302。
在一个或多个具体实施中,外围设备还可确定在外围设备处所接收的语音输入中是否包括指定关键字,然后向第一设备并且响应于外围设备对指定关键字的标识请求(例如,由电子设备104)对人是否是存储在第一设备处的一个或多个中断授权联系人302中的一个中断授权联系人的确定。
在一个或多个具体实施中,外围设备(例如,媒体输出设备150)可包括接触或触摸传感器,该接触或触摸传感器可用于在操作扬声器或麦克风之前确定外围设备是否与第一用户身体的一部分接触(例如,耳塞是否佩戴到用户的耳朵中)。
图13示出了根据本主题技术的具体实施的用于训练声学模型的示例性过程1300的流程图。出于解释的目的,本文主要参考图1至图5的媒体输出设备150和电子设备104来描述过程1300。然而,过程1300不限于图1至图5的媒体输出设备150和电子设备104,并且过程1300的一个或多个框(或操作)可由其他合适设备(包括电子设备110、电子设备115和/或服务器120)的一个或多个其他部件来执行。进一步出于解释的目的,过程1300的一些框在本文中被描述为顺序地或线性地发生。然而,过程1300的多个框可并行地发生。此外,过程1300的框不必按所示顺序执行,和/或过程1300的一个或多个框不必执行和/或可由其他操作替代。
如图13所示,在框1302处,第一用户诸如用户101的第一设备诸如电子设备104可向第一用户的外围设备(例如,媒体输出设备150)提供音频内容(例如,音乐、有声读物内容、播客内容、视频音轨内容等),该外围设备具有用于结合使用外围设备的麦克风152生成的噪声消除内容播放音频内容的噪声消除操作模式。
在框1304处,电子设备104还可在提供音频内容之前(例如,利用图5的模型训练引擎506)训练声学模型(例如,声学模型308中的一个或多个声学模型),以基于包括指定关键字并且由第一用户(例如,通过用户101在第一用户对电子设备104的发起或登记会话期间说出他们自己的姓名和/或其变体)提供的训练语音输入来确定从第一用户之外的人接收的语音输入中是否包括指定关键字。
在框1306处,电子设备104可向外围设备提供受训练的声学模型308,以允许外围设备至少部分地通过以下方式来确定是否将外围设备从噪声消除操作模式切换到另一种操作模式:确定当外围设备在噪声消除操作模式下操作时利用外围设备的麦克风152从第一用户之外的人(例如,人202)接收的语音输入中是否包括指定关键字。在另一种操作模式下,外围设备在无噪声消除内容的情况下播放来自第一设备的音频内容。在一个或多个具体实施中,指定关键字包括第一用户的姓名的至少一部分。
在一个或多个具体实施中,电子设备104还可从外围设备接收与语音输入相关联的信息(例如,语音数据,如图3的示例中)。电子设备104还可至少部分地通过以下方式来确定是否指示外围设备将外围设备从噪声消除操作模式切换到另一种操作模式:确定语音输入是否对应于存储在电子设备处的中断授权联系人302。在一个或多个具体实施中,利用第一设备确定是否指示外围设备切换可包括:响应于外围设备对指定关键字的标识而利用第一设备确定是否指示外围设备进行切换。
如上所述,本发明技术的一个方面是收集和使用具体和合法来源的数据以用于训练和/或操作机器学习模型。本公开设想,在一些实例中,该所采集的数据可包括唯一地识别或可用于识别具体人员的个人信息数据。此类个人信息数据可包括语音样本、语音配置文件、人口统计数据、基于位置的数据、在线标识符、电话号码、电子邮件地址、家庭地址、与用户的健康或健身级别相关的生物计量数据或记录(例如,生命特征测量、药物信息、锻炼信息)、出生日期或任何其他个人信息。
本公开认识到在本发明技术中使用此类个人信息数据可用于使用户受益。例如,个人信息数据可用于标识语音和/或标识中断授权联系人。
本公开设想负责收集、分析、公开、传输、存储或其他使用此类个人信息数据的实体将遵守既定的隐私政策和/或隐私实践。具体地,将期望此类实体实现和一贯地应用一般公认为满足或超过维护用户隐私的行业或政府所要求的隐私实践。关于使用个人数据的此类信息应当被突出地并能够被用户方便地访问,并应当随数据的收集和/或使用变化而被更新。用户的个人信息应被收集仅用于合法使用。另外,此类收集/共享应仅发生在接收到用户同意或在适用法律中所规定的其他合法根据之后。此外,此类实体应考虑采取任何必要步骤,保卫和保障对此类个人信息数据的访问,并确保有权访问个人信息数据的其他人遵守其隐私政策和流程。另外,这种实体可使其本身经受第三方评估以证明其遵守广泛接受的隐私政策和实践。此外,应针对被收集和/或访问的特定类型的个人信息数据调整政策和实践,并使其适用于适用法律和标准,包括可用于施加较高标准的辖区专有的具体考虑因素。例如,在美国,对某些健康数据的收集或获取可能受联邦和/或州法律的管辖,诸如健康保险流通和责任法案(HIPAA);而其他国家的健康数据可能受到其他法规和政策的约束并应相应处理。
不管前述情况如何,本公开还预期用户选择性地阻止使用或访问个人信息数据的实施方案。即本公开预期可提供硬件元件和/或软件元件,以防止或阻止对此类个人信息数据的访问。例如,在标识语音和/或标识中断授权联系人的情况下,本发明技术可被配置为在注册服务期间或随后的任何时间允许用户选择“选择加入”或“选择退出”参与对个人信息数据的收集和/或共享。除了提供“选择加入”和“选择退出”选项外,本公开设想提供与访问或使用个人信息相关的通知。例如,可在下载应用时向用户通知其个人信息数据将被访问,然后就在个人信息数据被应用访问之前再次提醒用户。
此外,本公开的目的是应管理和处理个人信息数据以最小化无意或未经授权访问或使用的风险。一旦不再需要数据,通过限制数据收集和删除数据可最小化风险。此外,并且当适用时,包括在某些健康相关应用程序中,数据去标识可用于保护用户的隐私。可在适当时通过移除标识符、控制所存储数据的量或特异性(例如,在城市级别而不是在地址级别或在对于面部识别而言不充分的级别收集位置数据)、控制数据如何被存储(例如,在用户间汇集数据)和/或其他方法诸如差异化隐私来促进去标识。
因此,虽然本公开广泛地覆盖了使用个人信息数据来实现一个或多个各种所公开的实施方案,但本公开还预期各种实施方案也可在无需访问此类个人信息数据的情况下被实现。即,本发明技术的各种实施方案不会由于缺少此类个人信息数据的全部或一部分而无法正常进行。
图14示出了可用于实现本主题技术的一个或多个具体实施的电子系统1400。电子系统1400可以是如图1所示的媒体输出设备150、电子设备104、电子设备110、电子设备115和/或服务器120并且/或者可以是其一部分。电子系统1400可包括各种类型的计算机可读介质以及用于各种其他类型的计算机可读介质的接口。电子系统1400包括总线1408、一个或多个处理单元1412、系统存储器1404(和/或缓冲器)、ROM 1410、永久性存储设备1402、输入设备接口1414、输出设备接口1406以及一个或多个网络接口1416,或者其子集及变型形式。
总线1408总体表示通信地连接电子系统1400的许多内部设备的所有系统、外围设备以及芯片组总线。在一个或多个具体实施中,总线1408将一个或多个处理单元1412与ROM1410、系统存储器1404和永久性存储设备1402通信地连接。一个或多个处理单元1412从这些各种存储器单元检索要执行的指令和要处理的数据,以便执行本主题公开的过程。在不同的具体实施中,一个或多个处理单元1412可以是单个处理器或多核处理器。
ROM 1410存储一个或多个处理单元1412以及电子系统1400的其他模块需要的静态数据和指令。另一方面,永久性存储设备1402可以是读写存储器设备。永久性存储设备1402可以是即使在电子系统1400关闭时也存储指令和数据的非易失性存储器单元。在一个或多个具体实施中,海量存储设备(诸如磁盘或光盘及其对应盘驱动器)可用作永久性存储设备1402。
在一个或多个具体实施中,可移除存储设备(诸如软盘、闪存驱动器及其对应盘驱动器)可用作永久性存储设备1402。与永久性存储设备1402一样,系统存储器1404可以是读写存储器设备。然而,与永久性存储设备1402不同,系统存储器1404可以是易失性读写存储器,诸如随机存取存储器。系统存储器1404可存储一个或多个处理单元1412在运行时可能需要的指令和数据中的任何指令和数据。在一个或多个具体实施中,本主题公开的过程存储在系统存储器1404、永久性存储设备1402和/或ROM 1410(它们各自被实现为非暂态计算机可读介质)中。一个或多个处理单元1412从这些各种存储器单元检索要执行的指令和要处理的数据,以便执行一个或多个具体实施的过程。
总线1408还连接到输入设备接口1414和输出设备接口1406。输入设备接口1414使得用户能够向电子系统1400传送信息以及选择命令。可与输入设备接口1414一起使用的输入设备可包括例如字母数字混合键盘和指向设备(也称为“光标控制设备”)。输出设备接口1406可使得例如能够显示电子系统1400所生成的图像。可与输出设备接口1406一起使用的输出设备可包括例如打印机和显示设备,诸如液晶显示器(LCD)、发光二极管(LED)显示器、有机发光二极管(OLED)显示器、柔性显示器、平板显示器、固态显示器、投影仪或用于输出信息的任何其他设备。一个或多个具体实施可包括既充当输入设备又充当输出设备的设备,诸如触摸屏。在这些具体实施中,提供给用户的反馈可以是任何形式的感官反馈,诸如视觉反馈、听觉反馈或触觉反馈;并且可以任何形式接收来自用户的输入,包括声学、语音或触觉输入。
最后,如图14所示,总线1408还通过一个或多个网络接口1416将电子系统1400耦接到一个或多个网络和/或耦接到一个或多个网络节点,诸如图1所示的电子设备110。以此方式,电子系统1400可以是计算机网络(诸如LAN、广域网(“WAN”)或内联网)的一部分,或者可以是网络之网(诸如互联网)的一部分。电子系统1400的任何或所有部件可与本主题公开一起使用。
上述这些功能可在计算机软件、固件或硬件中实现。该技术可使用一个或多个计算机程序产品实现。可编程处理器和计算机可包括在移动设备中或封装为移动设备。该过程和逻辑流程可由一个或多个可编程处理器和一个或多个可编程逻辑电路执行。通用和专用计算设备以及存储设备可通过通信网络互连。
一些具体实施包括将计算机程序指令存储在机器可读或计算机可读介质(也称为计算机可读存储介质、机器可读介质或机器可读存储介质)中的电子部件,诸如微处理器、存储装置以及存储器。此类计算机可读介质的一些示例包括RAM、ROM、只读光盘(CD-ROM)、可刻录光盘(CD-R)、可重写光盘(CD-RW)、只读数字通用光盘(例如,DVD-ROM、双层DVD-ROM)、各种可刻录/可重写DVD(例如,DVD-RAM、DVD-RW、DVD+RW等)、闪存存储器(例如,SD卡,mini-SD卡、micro-SD卡等)、磁性和/或固态硬盘驱动器、只读和可刻录
Figure BDA0003168995940000261
盘、超密度光盘、任何其他光学或磁性介质以及软盘。计算机可读介质可存储计算机程序,该计算机程序可由至少一个处理单元执行并且包括用于执行各种操作的指令集。计算机程序或者计算机代码的示例包括机器代码,诸如由编译器所产生的机器代码,以及包括可由计算机、电子部件或微处理器使用解译器来执行的更高级别代码的文件。
虽然上述论述主要涉及执行软件的微处理器或多核处理器,但一些具体实施由一个或多个集成电路诸如专用集成电路(ASIC)或现场可编程门阵列(FPGA)执行。在一些具体实施中,此类集成电路执行存储在电路自身上的指令。
如本说明书以及本专利申请的任何权利要求所用,术语“计算机”、“服务器”、“处理器”及“存储器”均是指电子或其它技术设备。这些术语排除人或者人的群组。出于本说明书的目的,术语显示或正在显示意指在电子设备上显示。如本说明书以及本专利申请的任何权利要求所使用的,术语“计算机可读介质”以及“计算机可读媒介”完全限于以可由计算机读取的形式存储信息的可触摸的有形物体。这些术语不包括任何无线信号、有线下载信号以及任何其他短暂信号。
为了提供与用户的交互,本说明书中所述的主题的具体实施可在具有用于向用户显示信息的显示设备以及用户可用来向计算机提供输入的键盘和指向设备的计算机上实现,显示设备为例如CRT(阴极射线管)或LCD(液晶显示器)监视器,指向设备为例如鼠标或轨迹球。其他种类的设备也可用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的感官反馈,例如视觉反馈、听觉反馈或触觉反馈;并且可以任何形式接收来自用户的输入,包括声学、语音或触觉输入。此外,计算机可通过向用户所使用的设备发送文档以及从其接收文档来与用户进行交互;例如,通过响应于从用户客户端设备上的web浏览器接收的请求而将网页发送到该web浏览器。
本说明书中所述的主题的实施方案可在计算系统中实现,该计算系统包括后端部件,例如作为数据服务器,或者包括中间件部件,例如应用服务器,或者包括前端部件,例如具有图形用户界面或Web浏览器的客户端计算机,用户可通过该图形用户界面或Web浏览器与本说明书中所述的主题的具体实施进行交互,或者包括一个或多个此类后端部件、中间件部件或前端部件的任何组合。系统的部件可通过任何形式或介质的数字数据通信例如通信网络来互连。通信网络的示例包括局域网(“LAN”)和广域网(“WAN”)、互联网络(例如,互联网)和对等网络(例如,自组织对等网络)。
计算系统可包括客户端和服务器。客户端和服务器一般是相互远离的,并且可通过通信网络进行交互。客户端和服务器的关系借助于在相应计算机上运行并且彼此具有客户端-服务器关系的计算机程序而产生。在某些具体实施中,服务器将数据(例如,HTML页面)传输到客户端设备(例如,为了向与该客户端设备交互的用户显示数据以及从与该客户端设备交互的用户接收用户输入)。在服务器处可以从客户端设备接收客户端设备处生成的数据(例如,用户交互的结果)。
根据本公开的方面,提供了一种第一用户的设备,该设备包括:安全存储器,该安全存储器存储多个联系人,该多个联系人包括在该设备处被指定为外围设备的中断授权联系人的联系人;以及一个或多个处理器,该一个或多个处理器被配置为:向该外围设备提供音频内容,在该外围设备的第一操作模式下,该音频内容将由该外围设备播放,或者在该外围设备的第二操作模式下,该音频内容将由该外围设备结合噪声消除内容播放;从该外围设备接收与由该外围设备在该外围设备在该第二操作模式下操作期间从该第一用户之外的人接收的语音输入相关联的信息;至少部分地基于从该外围设备接收的该信息来确定该人是否是这些中断授权联系人中的一个中断授权联系人;如果确定该人是这些中断授权联系人中的一个中断授权联系人,则向该外围设备传输从该第二操作模式切换到该第一操作模式的指令;并且如果确定该人不是这些中断授权联系人中的一个中断授权联系人,则向该外围设备传输继续在该第二操作模式下操作的指令。
根据本公开的方面,提供了第一用户的外围设备,该外围设备包括:扬声器;麦克风;以及处理电路,该处理电路被配置为:在第一操作模式操作该扬声器以播放从该第一用户的第一设备接收的音频内容;在第二操作模式下操作该扬声器以结合使用该麦克风生成的噪声消除内容播放该音频内容;并且当在该第二操作模式下操作该扬声器时:利用该麦克风从该第一用户之外的人接收语音输入;至少部分地使用存储在该外围设备处的安全存储器中的声学模型来确定该人是否已在该第一设备处被指定为中断授权联系人;如果确定该人是该中断授权联系人,则将该扬声器的操作切换到该第一操作模式;并且如果确定该人不是该中断授权联系人,则继续在该第二操作模式下操作该扬声器。
根据本公开的方面,提供了第一用户的设备,该设备包括:安全存储器;以及一个或多个处理器,该一个或多个处理器被配置为:将具有一个或多个相应语音配置文件的一个或多个中断授权联系人存储在该设备处的该安全存储器中;向该第一用户的音频设备提供音频内容,其中该音频设备被配置为在第一操作模式下播放该音频内容,并且在第二操作模式下结合使用麦克风生成的噪声消除内容播放该音频内容;当该第一用户的该音频设备在该第二操作模式下操作时,从该音频设备接收与在该音频设备处从该第一用户之外的人接收的语音输入相关联的信息;通过向使用该一个或多个相应语音配置文件训练的声学模型提供与该语音输入相关联的该信息,确定该人是否是该一个或多个中断授权联系人中的一个中断授权联系人;并且如果确定该人是该一个或多个中断授权联系人中的一个中断授权联系人,则指示该音频设备从该第二操作模式切换到该第一操作模式。
根据本公开的方面,提供了一种方法,该方法包括:在第一用户的外围设备的噪声消除操作模式下操作该外围设备的扬声器,以结合使用该外围设备的麦克风生成的噪声消除内容播放从该第一用户的第一设备接收的音频内容;以及当在该噪声消除操作模式下操作该扬声器时:利用该外围设备的麦克风从该第一用户之外的人接收语音输入;至少部分地通过使用存储在该外围设备的安全存储器中的声学模型确定所接收的语音输入中是否包括指定关键字来确定是否将该外围设备的操作从该噪声消除操作模式切换到该外围设备的另一种操作模式,其中在该另一种操作模式下,该扬声器被操作以在无该噪声消除内容的情况下播放来自该第一设备的该音频内容。
根据本公开的方面,提供了一种方法,该方法包括:向第一用户的外围设备提供来自该第一用户的第一设备的音频内容,该外围设备具有用于结合使用该外围设备的麦克风生成的噪声消除内容播放该音频内容的噪声消除操作模式;以及在提供该音频内容之前,利用该第一设备:训练声学模型以基于包括指定关键字并且由该第一用户提供的训练语音输入来确定从该第一用户之外的人接收的语音输入中是否包括该指定关键字;以及向该外围设备提供该受训练的声学模型,以允许该外围设备至少部分地通过确定在该外围设备在该噪声消除操作模式下操作时利用该外围设备的该麦克风从该第一用户之外的人接收的语音输入中是否包括该指定关键字来确定是否从该噪声消除操作模式切换到该外围设备的另一种操作模式,其中在该另一种操作模式下,该外围设备在无该噪声消除内容的情况下播放来自该第一设备的该音频内容。
根据本公开的方面,提供了一种半导体设备,该半导体设备包括处理电路(例如,处理器、集成电路、芯片组、其他处理部件和/或它们的组合),该处理电路被配置为:将具有一个或多个相应语音配置文件的一个或多个中断授权联系人存储在第一用户的设备处的安全存储器中;向该第一用户的音频设备提供音频内容,其中该音频设备被配置为在第一操作模式下播放该音频内容,并且在第二操作模式下结合使用麦克风生成的噪声消除内容播放该音频内容;当该第一用户的该音频设备在该第二操作模式下操作时,从该音频设备接收与在该音频设备处从该第一用户之外的人接收的语音输入相关联的信息;通过向使用该一个或多个相应语音配置文件训练的声学模型提供与该语音输入相关联的该信息,确定该人是否是该一个或多个中断授权联系人中的一个中断授权联系人;并且如果确定该人是该一个或多个中断授权联系人中的一个中断授权联系人,则指示该音频设备从该第二操作模式切换到该第一操作模式。
根据本公开的方面,提供了一种半导体设备,该半导体设备包括处理电路,该处理电路被配置为:在第一操作模式下操作第一用户的媒体输出设备的扬声器以播放从该第一用户的第一设备接收的音频内容;在第二操作模式下操作该扬声器以结合使用该媒体输出设备的麦克风生成的噪声消除内容播放该音频内容;并且当在该第二操作模式下操作该扬声器时:利用该麦克风从该第一用户之外的人接收语音输入;至少部分地使用存储在该媒体输出设备处的安全存储器中的声学模型来确定该人是否已在该第一设备处被指定为中断授权联系人;如果确定该人是该中断授权联系人,则将该扬声器的操作切换到该第一操作模式;并且如果确定该人不是该中断授权联系人,则继续在该第二操作模式下操作该扬声器。
根据本公开的方面,提供了一种设备,该设备包括:存储器;以及一个或多个处理器,该一个或多个处理器被配置为:接收将语音配置文件指定为与该设备相关联的媒体输出设备的中断授权语音配置文件的请求;向第二设备提供对该语音配置文件的请求;响应于对该语音配置文件的该请求并且响应于来自对应于该语音配置文件的人的同意,从该第二设备接收该语音配置文件;并且使用该语音配置文件训练声学模型以响应于外部语音输入确定是否中断从该媒体输出设备输出的媒体内容。
根据本公开的方面,提供了一种设备,该设备包括:存储器;以及一个或多个处理器,该一个或多个处理器被配置为:从第二设备接收对该设备的用户的语音配置文件的请求,以用于将该语音配置文件指定为与该第二设备相关联的媒体输出设备的中断授权语音配置文件;向该用户提供对同意与该第二设备共享该语音配置文件的请求;接收来自该用户的该同意;并且响应于接收到该同意而向该第二设备提供该语音配置文件。该第二设备被配置为使用该语音配置文件训练声学模型以响应于到该媒体输出设备的外部语音输入确定是否中断从该媒体输出设备输出的媒体内容。
本领域的技术人员将会认识到,本文所述的各种例示性的框、模块、元件、部件、方法和算法可被实现为电子硬件、计算机软件或两者的组合。为了说明硬件和软件的这种可互换性,上文已经一般性地按照功能性对各种例示性的框、模块、元件、部件、方法和算法进行了描述。此类功能性是被实现为硬件还是软件取决于具体应用以及对整个系统施加的设计约束。所述功能可针对每个特定应用以不同方式实现。各种部件和框可被不同地布置(例如,以不同的顺序排列,或以不同的方式划分),而不脱离本主题技术的范围。
应当理解,本发明所公开的过程中的步骤的特定顺序或分级结构为示例性方法的例示。基于设计优选要求,应当理解,过程中的步骤的特定顺序或者分级结构可被重新布置。该步骤中的一些步骤可被同时执行。所附方法权利要求呈现样本次序中的各种步骤的元素,并且不意味着限于所呈现的特定顺序或分级结构。
先前的描述被提供以使得本领域的技术人员能够实践本文所述的各个方面。先前描述提供了本主题技术的各种示例,并且本主题技术不限于这些示例。这些方面的各种修改对本领域的技术人员而言是显而易见的,并且本文所限定的通用原则可应用于其他方面。因此,本权利要求书并非旨在受限于本文所示的各个方面,而是旨在使得全部范围与语言权利要求书一致,其中提及单数形式的要素并非旨在意味着“仅仅一个”,而是指“一个或多个”,除非被具体指出。除非另外特别说明,否则术语“一些”是指一个或多个。男性的代名词(例如,他的)包括女性和中性(例如,她的和它的),并且反之亦然。标题和副标题(如果有的话)仅用于方便,并不限制本文所述的本发明。
如本文所用,术语网站可包括网站的任何方面,包括一个或多个网页、用于托管或存储网络相关内容的一个或多个服务器等。因此,术语网站可与术语网页和服务器互换使用。谓词字词“被配置为”、“能够操作以”以及“被编程以”并不意味着对某一主题进行任何特定的有形或无形的修改而是旨在可互换使用。例如,部件或被配置为监视和控制操作的处理器也可能意味着处理器被编程以监视和控制操作或者处理器能够操作以监视和控制操作。同样,被配置为执行代码的处理器可解释为被编程以执行代码或能够操作以执行代码的处理器。
如本文所用,术语自动可包括由计算机或机器的执行而无需用户干预;例如,通过响应于计算机或机器或其他启动机构的谓词动作的指令。字词“示例”在本文用于意指“用作示例或者例示”。本文作为“示例”所述的任何方面或者设计不一定被理解为比其他方面或者设计优选或者有利。
短语诸如“方面”不意味此方面对本主题技术是必需的或者此方面应用于本主题技术的所有配置。与一个方面相关的公开可应用于所有配置,或者一个或多个配置。一个方面可提供一个或多个示例。短语诸如方面可指一个或多个方面,反之亦然。短语诸如“实施方案”不意味此实施方案对本主题技术是必需的或者此实施方案应用于本主题技术的所有配置。与一个实施方案相关的公开可应用于所有实施方案,或者一个或多个实施方案。一个实施方案可提供一个或多个示例。短语诸如“实施方案”可指一个或多个实施方案,反之亦然。短语诸如“配置”不意味此配置是本主题技术必需的或者此配置应用于本主题技术的所有配置。与配置相关的公开可应用于所有配置或者一个或多个配置。配置可提供一个或多个示例。短语诸如“配置”可指一个或多个配置,反之亦然。

Claims (20)

1.一种第一用户的设备,所述设备包括:
安全存储器,所述安全存储器存储多个联系人,所述多个联系人包括在所述设备处被指定为外围设备的中断授权联系人的联系人;以及
一个或多个处理器,所述一个或多个处理器被配置为:
向所述外围设备提供音频内容,在所述外围设备的第一操作模式下,所述音频内容将由所述外围设备播放,或者在所述外围设备的第二操作模式下,所述音频内容将由所述外围设备结合噪声消除内容播放;
从所述外围设备接收与在所述外围设备在所述第二操作模式下操作期间由所述外围设备从所述第一用户之外的人接收的语音输入相关联的信息;
至少部分地基于从所述外围设备接收的所述信息来确定所述人是否是所述中断授权联系人中的一个中断授权联系人;
如果确定所述人是所述中断授权联系人中的一个中断授权联系人,则向所述外围设备传输从所述第二操作模式切换到所述第一操作模式的指令;以及
如果确定所述人不是中断授权联系人中的一个中断授权联系人,则向所述外围设备传输继续在所述第二操作模式下操作的指令。
2.根据权利要求1所述的设备,其中,所述中断授权联系人不是所述设备或所述外围设备的授权用户并且其中确定所述人是所述中断授权联系人中的一个中断授权联系人并不使所述人能够访问所述设备或所述外围设备处或来自所述设备或所述外围设备的任何内容。
3.根据权利要求1所述的设备,其中,与所述语音输入相关联的所述信息包括所述语音输入或由所述外围设备从所述语音输入提取的语音配置文件。
4.根据权利要求3所述的设备,其中,与所述语音输入相关联的所述信息包括所述语音配置文件并且还包括来自存储在所述外围设备处的安全存储器中的声学模型的所述人是潜在中断授权联系人的指示。
5.根据权利要求4所述的设备,其中,所述外围设备处的所述声学模型是第一声学模型,并且其中所述一个或多个处理器被配置为通过以下方式来确定所述人是否是所述中断授权联系人中的一个中断授权联系人:
利用所述设备处的第二声学模型确定从所述语音输入提取的所述语音配置文件是否对应于与所述中断授权联系人相关联的一个或多个语音配置文件。
6.根据权利要求5所述的设备,其中,所述一个或多个语音配置文件已在所述设备处从所述人的第二设备或从远程服务器接收。
7.根据权利要求5所述的设备,其中,所述第一声学模型和所述第二声学模型各自已在所述设备处进行训练。
8.根据权利要求7所述的设备,其中,所述第二声学模型已在所述设备处使用所述一个或多个语音配置文件进行训练。
9.根据权利要求8所述的设备,其中,所述第一声学模型已在所述设备处使用包括所述第一用户的姓名的至少一部分的训练语音输入进行训练。
10.根据权利要求5所述的设备,其中,所述一个或多个处理器被配置为部分地基于存储在所述设备处的所述多个联系人的新近度信息,存储在所述设备处的所述多个联系人的频率信息或所述设备和所述人的第二设备之间的通信来确定从所述语音输入提取的所述语音配置文件是否对应于与所述中断授权联系人相关联的一个或多个语音配置文件。
11.一种第一用户的外围设备,所述外围设备包括:
扬声器;
麦克风;以及
处理电路,所述处理电路被配置为:
在第一操作模式下操作所述扬声器以播放从所述第一用户的第一设备接收的音频内容;
在第二操作模式下操作所述扬声器以结合使用所述麦克风生成的噪声消除内容播放所述音频内容;以及
当在所述第二操作模式下操作所述扬声器时:
利用所述麦克风从所述第一用户之外的人接收语音输入;
至少部分地使用存储在所述外围设备处的安全存储器中的声学模型来确定所述人是否已在所述第一设备处被指定为中断授权联系人;
如果确定所述人是所述中断授权联系人,则将所述扬声器的操作切换到所述第一操作模式;以及
如果确定所述人不是所述中断授权联系人,则继续在所述第二操作模式下操作所述扬声器。
12.根据权利要求11所述的外围设备,其中,所述外围设备处的所述声学模型已在所述第一设备处进行训练。
13.根据权利要求12所述的外围设备,其中,所述外围设备处的所述声学模型是第一声学模型,并且其中所述外围设备的所述处理电路被配置为通过以下方式至少部分地使用所述外围设备处的所述声学模型来确定所述人是否已在所述第一设备处被指定为所述中断授权联系人:
使用所述第一声学模型确定所述人是潜在中断授权联系人;
响应于确定所述人是所述潜在中断授权联系人而向所述第一设备提供与所述语音输入相关联的信息;以及
响应于提供所述信息而从所述第一设备接收将所述扬声器的操作切换到所述第一操作模式的指令。
14.根据权利要求13所述的外围设备,其中,来自所述第一设备的所述指令是基于:
在所述第一设备处与所述语音输入相关联的所述信息和与在所述第一设备处的安全存储器中被标识为被中断授权的至少一个联系人相关联的至少一个语音配置文件的比较;以及
在所述第一设备处基于所述比较对所述人是否是所述中断授权联系人的确定。
15.根据权利要求14所述的外围设备,其中,所述至少一个语音配置文件已在所述第一设备处从所述人的第二设备或从远程服务器接收。
16.根据权利要求14所述的外围设备,其中,在所述第一设备处与所述语音输入相关联的所述信息和至少一个语音配置文件的所述比较是基于:
所述第一设备处的第二声学模型响应于与所述语音输入相关联的所述信息的输出,所述第二声学模型已在所述第一设备处使用所述至少一个语音配置文件进行训练。
17.根据权利要求13所述的外围设备,其中,所述处理电路被配置为通过以下方式来使用所述第一声学模型确定所述人是所述潜在中断授权联系人:使用所述第一声学模型确定所述语音输入包括所述第一用户的姓名的至少一部分。
18.根据权利要求13所述的外围设备,其中,所述处理电路被配置为通过以下方式来使用所述第一声学模型确定所述人是潜在中断授权联系人:使用所述第一声学模型确定所述语音输入对应于一组中断授权联系人。
19.根据权利要求12所述的外围设备,其中,所述外围设备的所述处理电路被配置为至少部分地使用所述外围设备处的所述声学模型来使用所述声学模型并使用与所接收的语音输入相关联的位置信息确定所述人是否已在所述第一设备处被指定为所述中断授权联系人所述位置信息包括接近度信息和方向信息中的至少一者并且已使用所述麦克风以及所述第一用户的附加外围设备的附加麦克风确定,所述附加外围设备还包括附加扬声器。
20.一种半导体设备,所述半导体设备包括处理电路,所述处理电路被配置为:
在第一操作模式下操作第一用户的媒体输出设备的扬声器以播放从所述第一用户的第一设备接收的音频内容;
在第二操作模式下操作所述扬声器以结合使用所述媒体输出设备的麦克风生成的噪声消除内容播放所述音频内容;以及
当在所述第二操作模式下操作所述扬声器时:
利用所述麦克风从所述第一用户之外的人接收语音输入;
至少部分地使用存储在所述媒体输出设备处的安全存储器中的声学模型来确定所述人是否已在所述第一设备处被指定为中断授权联系人;
如果确定所述人是所述中断授权联系人,则将所述扬声器的操作切换到所述第一操作模式;以及
如果确定所述人不是所述中断授权联系人,则继续在所述第二操作模式下操作所述扬声器。
CN202110812663.3A 2020-07-17 2021-07-19 噪声消除音频设备的中断 Pending CN113949966A (zh)

Applications Claiming Priority (6)

Application Number Priority Date Filing Date Title
US202063053459P 2020-07-17 2020-07-17
US63/053,459 2020-07-17
US202063055269P 2020-07-22 2020-07-22
US63/055,269 2020-07-22
US17/378,634 US20220020387A1 (en) 2020-07-17 2021-07-16 Interrupt for noise-cancelling audio devices
US17/378,634 2021-07-16

Publications (1)

Publication Number Publication Date
CN113949966A true CN113949966A (zh) 2022-01-18

Family

ID=79021321

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110812663.3A Pending CN113949966A (zh) 2020-07-17 2021-07-19 噪声消除音频设备的中断

Country Status (3)

Country Link
US (1) US20220020387A1 (zh)
CN (1) CN113949966A (zh)
DE (1) DE102021207673A1 (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP4207805A4 (en) * 2021-02-23 2024-04-03 Samsung Electronics Co Ltd ELECTRONIC DEVICE AND CONTROL METHOD THEREFOR

Citations (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070154046A1 (en) * 2005-12-29 2007-07-05 Steven Mishan Noise reducing headphones with sound conditioning
US20080130908A1 (en) * 2006-12-05 2008-06-05 Searete Llc, A Limited Liability Corporation Of The State Of Delaware Selective audio/sound aspects
WO2011161487A1 (en) * 2010-06-21 2011-12-29 Nokia Corporation Apparatus, method and computer program for adjustable noise cancellation
GB201312395D0 (en) * 2013-07-10 2013-08-21 Wolfson Ltd Sensor input recognition
US20130293723A1 (en) * 2012-05-04 2013-11-07 Sony Computer Entertainment Europe Limited Audio system
CN103888267A (zh) * 2014-04-17 2014-06-25 娄长剑 基于音频接口的网上银行数据加密、认证方法和装置
US20140314242A1 (en) * 2013-04-19 2014-10-23 Plantronics, Inc. Ambient Sound Enablement for Headsets
GB201421652D0 (en) * 2013-12-17 2015-01-21 Csr Technology Inc User designed active noise cancellation (anc) controller for headphones
US20160064008A1 (en) * 2014-08-26 2016-03-03 ClearOne Inc. Systems and methods for noise reduction using speech recognition and speech synthesis
GB201614496D0 (en) * 2013-06-26 2016-10-12 Cirrus Logic Int Semiconductor Ltd Speech recognition
CN106937194A (zh) * 2015-12-30 2017-07-07 Gn奥迪欧有限公司 具有听通模式的头戴式耳机及其操作方法
US20170345408A1 (en) * 2016-05-27 2017-11-30 Em-Tech. Co., Ltd. Active Noise Reduction Headset Device with Hearing Aid Features
CN107430858A (zh) * 2015-03-20 2017-12-01 微软技术许可有限责任公司 传送标识当前说话者的元数据
US20180014107A1 (en) * 2016-07-06 2018-01-11 Bragi GmbH Selective Sound Field Environment Processing System and Method
US10129633B1 (en) * 2017-10-13 2018-11-13 Bose Corporation Automated awareness for ANR systems
CN108989931A (zh) * 2018-06-19 2018-12-11 美特科技(苏州)有限公司 听力保护耳机及其听力保护方法、计算机程序存储介质
US20190028803A1 (en) * 2014-12-05 2019-01-24 Stages Llc Active noise control and customized audio system
CN109951765A (zh) * 2017-12-21 2019-06-28 思睿逻辑国际半导体有限公司 安全音频输出
CN110191397A (zh) * 2019-06-28 2019-08-30 歌尔科技有限公司 一种降噪方法及蓝牙耳机
CN110832484A (zh) * 2017-07-07 2020-02-21 思睿逻辑国际半导体有限公司 用于音频回放的方法、装置和系统
US20200184057A1 (en) * 2017-05-19 2020-06-11 Plantronics, Inc. Headset for Acoustic Authentication of a User

Patent Citations (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070154046A1 (en) * 2005-12-29 2007-07-05 Steven Mishan Noise reducing headphones with sound conditioning
US20080130908A1 (en) * 2006-12-05 2008-06-05 Searete Llc, A Limited Liability Corporation Of The State Of Delaware Selective audio/sound aspects
WO2011161487A1 (en) * 2010-06-21 2011-12-29 Nokia Corporation Apparatus, method and computer program for adjustable noise cancellation
US20130293723A1 (en) * 2012-05-04 2013-11-07 Sony Computer Entertainment Europe Limited Audio system
US20140314242A1 (en) * 2013-04-19 2014-10-23 Plantronics, Inc. Ambient Sound Enablement for Headsets
GB201614496D0 (en) * 2013-06-26 2016-10-12 Cirrus Logic Int Semiconductor Ltd Speech recognition
GB201312395D0 (en) * 2013-07-10 2013-08-21 Wolfson Ltd Sensor input recognition
GB201421652D0 (en) * 2013-12-17 2015-01-21 Csr Technology Inc User designed active noise cancellation (anc) controller for headphones
CN103888267A (zh) * 2014-04-17 2014-06-25 娄长剑 基于音频接口的网上银行数据加密、认证方法和装置
US20160064008A1 (en) * 2014-08-26 2016-03-03 ClearOne Inc. Systems and methods for noise reduction using speech recognition and speech synthesis
US20190028803A1 (en) * 2014-12-05 2019-01-24 Stages Llc Active noise control and customized audio system
CN107430858A (zh) * 2015-03-20 2017-12-01 微软技术许可有限责任公司 传送标识当前说话者的元数据
CN106937194A (zh) * 2015-12-30 2017-07-07 Gn奥迪欧有限公司 具有听通模式的头戴式耳机及其操作方法
US20170345408A1 (en) * 2016-05-27 2017-11-30 Em-Tech. Co., Ltd. Active Noise Reduction Headset Device with Hearing Aid Features
US20180014107A1 (en) * 2016-07-06 2018-01-11 Bragi GmbH Selective Sound Field Environment Processing System and Method
US20200184057A1 (en) * 2017-05-19 2020-06-11 Plantronics, Inc. Headset for Acoustic Authentication of a User
CN110832484A (zh) * 2017-07-07 2020-02-21 思睿逻辑国际半导体有限公司 用于音频回放的方法、装置和系统
US10129633B1 (en) * 2017-10-13 2018-11-13 Bose Corporation Automated awareness for ANR systems
CN109951765A (zh) * 2017-12-21 2019-06-28 思睿逻辑国际半导体有限公司 安全音频输出
CN108989931A (zh) * 2018-06-19 2018-12-11 美特科技(苏州)有限公司 听力保护耳机及其听力保护方法、计算机程序存储介质
CN110191397A (zh) * 2019-06-28 2019-08-30 歌尔科技有限公司 一种降噪方法及蓝牙耳机

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
TERUMI UMEMATSU: "Sudden-noise suppression with strike-portion detection based on phase linearity for speech recognition", 《2016 ASIA-PACIFIC SIGNAL AND INFORMATION PROCESSING ASSOCIATION ANNUAL SUMMIT AND CONFERENCE (APSIPA)》 *
张帅: "一种大耳罩有源降噪耳机的设计与实现", 《中国优秀硕士学位论文全文数据库-信息科技辑》 *
郭永亮: "嵌入式语音指令处理与识别方法的研究", 《中国优秀硕士学位论文全文数据库-信息科技辑》 *

Also Published As

Publication number Publication date
DE102021207673A1 (de) 2022-01-20
US20220020387A1 (en) 2022-01-20

Similar Documents

Publication Publication Date Title
US11736880B2 (en) Switching binaural sound
KR101726945B1 (ko) 수동 시작/종료 포인팅 및 트리거 구문들에 대한 필요성의 저감
KR102379068B1 (ko) 커뮤니케이션 방법 및 그를 위한 전자 장치
EP2961195B1 (en) Do-not-disturb system and apparatus
CN111819560A (zh) 通过与始终侦听辅助设备解耦的安全附件的信息安全性/私密性
US20190333361A1 (en) Environment-aware monitoring systems, methods, and computer program products for immersive environments
US11227617B2 (en) Noise-dependent audio signal selection system
US20220020387A1 (en) Interrupt for noise-cancelling audio devices
US20230035128A1 (en) Concurrent streaming of content to multiple devices
US11810588B2 (en) Audio source separation for audio devices
US11935557B2 (en) Techniques for detecting and processing domain-specific terminology
US11922948B2 (en) Multi-mode voice triggering for audio devices
US11044545B1 (en) Headphones restricted to use with a particular controlled-environment facility resident communication and/or media device
EP4109916A2 (en) Synchronized playback of media content
JP2019028923A (ja) 通知システム

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination