CN116918301A - 基于动态分类器的设备操作 - Google Patents
基于动态分类器的设备操作 Download PDFInfo
- Publication number
- CN116918301A CN116918301A CN202280018879.5A CN202280018879A CN116918301A CN 116918301 A CN116918301 A CN 116918301A CN 202280018879 A CN202280018879 A CN 202280018879A CN 116918301 A CN116918301 A CN 116918301A
- Authority
- CN
- China
- Prior art keywords
- dynamic classifier
- audio data
- data samples
- classification output
- processor
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 claims description 181
- 230000004044 response Effects 0.000 claims description 90
- 230000008569 process Effects 0.000 claims description 38
- 238000001514 detection method Methods 0.000 claims description 33
- 230000003190 augmentative effect Effects 0.000 claims description 14
- 230000007704 transition Effects 0.000 claims description 10
- 238000012545 processing Methods 0.000 description 112
- 238000010586 diagram Methods 0.000 description 34
- 239000013598 vector Substances 0.000 description 33
- 230000005236 sound signal Effects 0.000 description 18
- 230000004913 activation Effects 0.000 description 17
- 230000001815 facial effect Effects 0.000 description 16
- 230000000007 visual effect Effects 0.000 description 11
- 210000004027 cell Anatomy 0.000 description 10
- 230000006870 function Effects 0.000 description 8
- 230000007246 mechanism Effects 0.000 description 8
- 238000012795 verification Methods 0.000 description 7
- 238000013475 authorization Methods 0.000 description 6
- 230000000694 effects Effects 0.000 description 6
- 230000007613 environmental effect Effects 0.000 description 6
- 238000012880 independent component analysis Methods 0.000 description 5
- 238000013507 mapping Methods 0.000 description 5
- 238000000513 principal component analysis Methods 0.000 description 5
- 230000036962 time dependent Effects 0.000 description 5
- 230000003213 activating effect Effects 0.000 description 4
- 230000003044 adaptive effect Effects 0.000 description 4
- 230000008901 benefit Effects 0.000 description 4
- 238000013139 quantization Methods 0.000 description 4
- 238000011524 similarity measure Methods 0.000 description 4
- 238000000638 solvent extraction Methods 0.000 description 4
- 230000001755 vocal effect Effects 0.000 description 4
- 230000005540 biological transmission Effects 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 230000001976 improved effect Effects 0.000 description 3
- 210000002569 neuron Anatomy 0.000 description 3
- 230000009467 reduction Effects 0.000 description 3
- 238000012549 training Methods 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 230000008878 coupling Effects 0.000 description 2
- 238000010168 coupling process Methods 0.000 description 2
- 238000005859 coupling reaction Methods 0.000 description 2
- 230000001934 delay Effects 0.000 description 2
- 201000010099 disease Diseases 0.000 description 2
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 2
- 230000002708 enhancing effect Effects 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 210000001508 eye Anatomy 0.000 description 2
- 230000000977 initiatory effect Effects 0.000 description 2
- 230000001242 postsynaptic effect Effects 0.000 description 2
- 230000035945 sensitivity Effects 0.000 description 2
- 238000001228 spectrum Methods 0.000 description 2
- 230000001629 suppression Effects 0.000 description 2
- 230000001131 transforming effect Effects 0.000 description 2
- 238000010521 absorption reaction Methods 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 235000019800 disodium phosphate Nutrition 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 210000000887 face Anatomy 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 208000016354 hearing loss disease Diseases 0.000 description 1
- 230000001939 inductive effect Effects 0.000 description 1
- 238000003780 insertion Methods 0.000 description 1
- 230000037431 insertion Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 210000000554 iris Anatomy 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 230000003518 presynaptic effect Effects 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 238000005204 segregation Methods 0.000 description 1
- 230000008054 signal transmission Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/22—Interactive procedures; Man-machine interfaces
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/08—Network architectures or network communication protocols for network security for authentication of entities
- H04L63/0861—Network architectures or network communication protocols for network security for authentication of entities using biometrical features, e.g. fingerprint, retina-scan
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/30—Authentication, i.e. establishing the identity or authorisation of security principals
- G06F21/31—User authentication
- G06F21/32—User authentication using biometric data, e.g. fingerprints, iris scans or voiceprints
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W12/00—Security arrangements; Authentication; Protecting privacy or anonymity
- H04W12/06—Authentication
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W12/00—Security arrangements; Authentication; Protecting privacy or anonymity
- H04W12/30—Security of mobile devices; Security of mobile applications
- H04W12/33—Security of mobile devices; Security of mobile applications using wearable devices, e.g. using a smartwatch or smart-glasses
Landscapes
- Engineering & Computer Science (AREA)
- Computer Security & Cryptography (AREA)
- Signal Processing (AREA)
- Computer Networks & Wireless Communication (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Computer Hardware Design (AREA)
- Multimedia (AREA)
- General Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Collating Specific Patterns (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Computational Linguistics (AREA)
- Stereophonic System (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
一种设备包含一个或多个处理器,所述一个或多个处理器被配置以接收音频数据样本且将所述音频数据样本提供到动态分类器。动态分类器被配置以生成与音频数据样本相对应的分类输出。所述一个或多个处理器进一步被配置以基于所述分类输出选择性地访问特定设备。
Description
相关申请的交叉引用
本申请要求于2021年3月9日提交的共同拥有的美国非临时专利申请号17/196,563的优先权权益,其内容通过引用整体明确地并入本文。
技术领域
本公开总体上涉及基于对输入数据进行分类的设备的操作。
背景技术
技术的进步已经导致更小和更强大的计算设备。举例来说,当前存在多种便携式个人计算设备,包含无线电话,例如移动及智能电话、平板及膝上型计算机,其体积小、重量轻且易于由用户携带。这些设备可以通过无线网络传送语音和数据分组。此外,许多此类设备并入额外功能性,例如数字静态相机、数字摄像机、数字记录器及音频文件播放器。此外,这样的设备可以处理可执行指令,包括可以用于访问互联网的软件应用,诸如web浏览器应用。因此,这些设备可以包括显著的计算能力。
这样的计算设备通常包含从一个或多个麦克风接收音频信号的功能。举例来说,音频信号可表示由麦克风捕获的用户语音、由麦克风捕获的外部声音或其组合。电子设备可包含用于处理来自麦克风的音频信号以检测是否存在语音的一个机构,用于处理音频信号以确定是否在音频信号中检测到关键字(例如,“嘿,助理”)的第二机构,以及用于确定说出关键字的人是否被授权执行关键字之后的命令的第三机构。例如,如果音频信号对应于语音“嘿,助理,打开灯”,则电子设备可以将音频信号中的语音特性与存储的用户信息进行比较,以确定是否识别出命令的说话者,并且如果是,则确定说话者是否被授权打开灯。
传统上,支持语音命令的设备以“始终开启”模式操作以改善用户体验。为了减少总功率使用,可以顺序地执行上述音频处理机制。举例来说,可连续地执行语音检测,可仅在检测到语音的情况下执行关键字检测,且可仅在检测到关键字的情况下执行认证和授权。然而,虽然在语音相对不频繁的时段期间减少总功耗,但是这样的方法通常在处理语音命令时引入附加的复杂性、资源要求和延迟。
另外,传统的说话者认证系统通常需要相对繁琐的注册过程来使设备学习识别用户,诸如通过要求用户提供多个语音样本,从这多个语音样本中提取特征语音数据并由电子设备存储以与稍后接收的语音样本进行比较。这样的系统通常相对容易受到用户语音的变化的影响,例如由于疾病、障碍物(例如,面具或围巾)、环境变化或其他因素,这可能导致用户的认证失败并阻止电子设备执行用户的命令。提高说话者认证系统的鲁棒性以适应用户语音的变化也倾向于增加这种系统的功耗、处理资源要求和复杂性。
发明内容
根据本发明的一个实施方案,一种设备包含被配置以接收音频数据样本且将所述音频数据样本提供到动态分类器的一个或多个处理器。动态分类器被配置以生成与音频数据样本相对应的分类输出。所述一个或多个处理器进一步被配置以基于所述分类输出选择性地访问特定设备。
根据本发明的另一实施方案,一种方法包含在一个或多个处理器处接收音频数据样本。该方法包括在处理器处将音频数据样本提供给动态分类器以生成对应于音频数据样本的分类输出。该方法还包括基于分类输出选择性地访问特定设备。
根据本公开的另一实施方式,一种非暂时性计算机可读介质包括指令,所述指令在由一个或多个处理器执行时使得所述一个或多个处理器接收音频数据样本并将所述音频数据样本提供给动态分类器。动态分类器被配置以生成与音频数据样本相对应的分类输出。所述指令还可执行以致使所述一个或多个处理器基于所述分类输出选择性地访问特定设备。
根据本发明的另一实施方案,一种装置包含用于接收音频数据样本的部件。该装置包含用于基于所述音频数据样本产生特征数据的部件。所述装置还包含用于将所述音频数据样本提供到动态分类器的部件,所述动态分类器被配置以产生对应于所述音频数据样本的分类输出。所述装置进一步包含用于基于所述分类输出选择性地访问特定设备的部件。
在审阅整个申请之后,本公开的其他方面、优点和特征将变得显而易见,包括以下部分:附图说明、具体实施方式和权利要求。
附图说明
图1是根据本公开的一些实例的其中使用动态分类器控制各种设备操作的系统的特定说明性方面的框图。
图2是根据本公开的一些示例的使用动态分类器来控制设备操作的说明性方面的图。
图3是根据本公开的一些实例的可操作以使用动态分类器激活一个或多个设备组件的系统的说明性方面的框图。
图4是根据本公开的一些示例的图1的系统的组件的操作的说明性方面的示图。
图5是根据本公开的一些示例的其中使用动态分类器来控制各种设备操作的系统的特定说明性方面的图。
图6是根据本公开的一些实例的可操作以使用动态分类器来控制处理器激活的系统的特定说明性方面的框图。
图7是根据本公开的一些示例的可操作以使用动态分类器来控制对设备的访问的系统的特定说明性方面的框图。
图8是根据本公开的一些实例的可操作以使用动态分类器来控制关键字检测的激活的系统的特定说明性方面的框图。
图9是根据本公开的一些实例的其中使用动态分类器控制各种设备操作的系统的特定说明性方面的框图。
图10是根据本公开的一些实例的其中使用动态分类器控制各种设备操作的系统的特定说明性方面的框图。
图11是根据本公开的一些实例的其中使用动态分类器控制各种设备操作的系统的特定说明性方面的框图。
图12是根据本公开的一些实例的其中使用动态分类器控制各种设备操作的系统的特定说明性方面的框图。
图13是根据本公开的一些实例的其中使用动态分类器控制各种设备操作的系统的特定说明性方面的框图。
图14示出了根据本公开的一些示例的包括特征提取器和动态分类器的集成电路的示例。
图15为根据本发明的一些实例的包含特征提取器及动态分类器的移动设备的图。
图16是根据本公开的一些示例的包括特征提取器和动态分类器的头戴设备的图。
图17是根据本公开的一些示例的包括特征提取器和动态分类器的可穿戴电子设备的图。
图18是根据本公开的一些示例的包括特征提取器和动态分类器的话音控制扬声器系统的图。
图19是根据本公开的一些示例的包括特征提取器和动态分类器的相机的图。
图20是根据本公开的一些示例的包括特征提取器和动态分类器的头戴设备(诸如虚拟现实或增强现实头戴设备)的图。
图21是根据本公开的一些示例的包括特征提取器和动态分类器的车辆的第一示例的图。
图22是根据本公开的一些示例的包括特征提取器和动态分类器的车辆的第二示例的图。
图23是根据本公开的一些实例的可由图1的设备执行的使用动态分类器操作设备的方法的特定实施方案的图。
图24是根据本公开的一些实例的使用动态分类器操作设备的方法的另一特定实施方案的图。
图25是根据本公开的一些实例的使用动态分类器操作设备的方法的另一特定实施方案的图。
图26是根据本公开的一些实例的使用动态分类器操作设备的方法的另一特定实施方案的图。
图27是根据本公开的一些实例的使用动态分类器操作设备的方法的另一特定实施方案的图。
图28是根据本公开的一些实例的使用动态分类器操作设备的方法的另一特定实施方案的图。
图29是根据本公开的一些实例的使用动态分类器操作设备的方法的另一特定实施方案的图。
图30是根据本公开的一些实例的使用动态分类器操作设备的方法的另一特定实施方案的图。
图31是根据本公开的一些实例的可操作以基于动态分类器执行操作的设备的特定说明性实例的框图。
具体实施方式
常规地,计算设备包含各种机制以处理来自一个或多个麦克风的音频信号以检测是否存在语音,确定是否在音频信号中检测到关键字(例如,“嘿,助理”),且确定说出关键字的人是否被授权执行关键字之后的命令。尽管可以顺序地执行上述音频处理机制以减少与始终开启操作相关联的功耗,但是这样的方法通常在处理语音命令时引入附加的复杂性、资源要求和延迟。另外,传统的说话者认证系统通常需要相对繁琐的注册过程来使设备学习识别用户,诸如通过要求用户提供多个语音样本,特征语音数据从多个语音样本中提取并由电子设备存储以与稍后接收的语音样本进行比较。这样的系统通常相对容易受到用户语音的变化的影响,例如由于疾病、障碍物、环境变化或其他因素,这可能导致用户的认证失败并阻止电子设备执行用户的命令。提高说话者认证系统的鲁棒性以适应用户语音的变化也倾向于增加这种系统的功耗、处理资源要求和复杂性。
公开了使用动态分类器的设备操作的系统和方法。举例来说,音频信号可经由一个或多个麦克风接收且在设备处处理以提取对应于音频信号的频域特征集。动态分类器处理所提取的频域特征集并生成指示特征集的分类的输出,以便基于将语音分类为对应于先前分类的用户的语音来生成音频数据中的语音源的指示。动态分类器可以执行特征数据的自适应聚类和特征数据空间的两个最有区别的分类之间的决策边界的调整,以区分对应于不同用户的特征集。在说明性示例中,使用自组织映射来实现动态分类器。
这种动态分类器使得能够使用提取的特征集进行区分,以主动响应和适应各种条件,例如:高度非静止情况下的环境条件;不匹配的麦克风;诸如由于障碍、年龄或其他因素引起的用户语音的变化;跨频谱的麦克风的本底噪声、偏置和灵敏度;或其组合。在一些实施方式中,动态分类器实现自适应特征映射,该自适应特征映射能够响应于这样的变化并且减少或最小化所使用的阈值参数的数量以及注册设备的用户所需的训练和校准的量。在一些实施方式中,动态分类器使得能够在各种用户的语音之间、在先前分类的用户的语音和未分类的用户的语音之间、在语音和非语音音频之间或其组合之间进行有效区分,与提供相当准确度的常规系统相比,在变化的条件下具有高准确度并且具有相对低的功耗。
由这种动态分类器生成的分类输出可以用于基于用户的语音来认证用户并确定与认证用户相关联的访问许可。例如,分类输出到特定用户的映射使得能够确定访问许可以授权访问设备的操作或组件、一个或多个远程设备或在这样的远程设备处的操作、或其组合。在一些示例中,分类输出用于确定是否激活设备的一个或多个其他部件,诸如将关键字检测器或话音命令处理操作(例如,自动语音识别(ASR)系统)从低功率状态转换到活动状态。在一些示例中,可以省略关键字处理,并且可以替代地响应于在设备的始终开启阶段的动态分类器的分类输出指示接收到的音频是来自设备的授权用户的语音而激活语音命令处理。动态分类器使得用户能够在运行中被分类和注册,从而减少或消除对用户提供如常规语音识别系统可能需要的各种预定语音样本的要求。
根据各个方面,代替对应于用户的语音的音频数据或除了对应于用户的语音的音频数据之外,这种动态分类器用于对经由各种模态接收的输入数据进行分类,诸如由相机捕获的图像数据、指纹数据或其他生物特征数据。因此,可以执行多模态认证并将其用于控制设备的操作、对设备或其他设备的一个或多个部件或操作的访问、或其组合。
下面参考附图描述本公开的特定方面。在说明书中,共同的特征由共同的附图标记表示。如本文所使用的,各种术语仅用于描述特定实施方式的目的,并不旨在限制实施方式。例如,单数形式“一”、“一个”和“该”旨在也包括复数形式,除非上下文另有明确说明。此外,本文描述的一些特征在一些实施方式中是单数的,并且在其他实施方式中是复数的。为了说明,图1描绘了包括一个或多个处理器(图1的“处理器”190)的设备102,这指示在一些实施方式中,设备102包括单个处理器190,并且在其他实施方式中,设备102包括多个处理器190。为了便于在本文中参考,这些特征通常被引入为“一个或多个”特征,并且随后以单数形式提及,除非描述了与多个特征相关的方面。
还可以理解,术语“包含(comprise)”、“包含(comprises)”和“包含(comprising)”可以与“包括(include)”、“包括(includes)”或“包括(including)”互换使用。另外,应当理解,术语“其中”可以与“其中”互换使用。如本文所使用的,“示例性”可以指示示例、实现方式和/或方面,并且不应被解释为限制或指示偏好或优选实现方式。如本文所使用的,用于修饰元件(诸如结构、组件、操作等)的序数术语(例如,“第一”、“第二”、“第三”等)本身并不指示该元件相对于另一元件的任何优先级或顺序,而是仅将该元件与具有相同名称的另一元件区分开(但是使用序数术语)。如本文所使用的,术语“集合”是指特定元件中的一个或多个,并且术语“多个”是指特定元件中的多个(例如,两个或更多个)。
如本文所使用的,“耦合”可以包括“通信耦合”、“电耦合”或“物理耦合”,并且还可以(或替代地)包括其任何组合。两个设备(或组件)可以经由一个或多个其他设备、组件、导线、总线、网络(例如,有线网络、无线网络或其组合)等直接或间接地耦合(例如,通信耦合、电耦合或物理耦合)。作为说明性的非限制性示例,电耦合的两个设备(或组件)可以包括在相同的设备中或不同的设备中,并且可以经由电子器件、一个或多个连接器或电感耦合来连接。在一些实施方案中,通信地耦合(例如电通信)的两个设备(或组件)可经由一个或多个导线、总线、网络等直接或间接地发送和接收信号(例如,数字信号或模拟信号)。如本文所使用的,“直接耦合”可以包括在没有中间组件的情况下耦合(例如,通信耦合、电耦合或物理耦合)的两个设备。
在本发明中,例如“确定”、“计算”、“估计”、“移位”、“调整”等术语可用于描述如何执行一个或多个操作。应当注意,这些术语不应被解释为限制性的,并且可以利用其他技术来执行类似的操作。另外,如本文中所提及,“产生”、“计算”、“估计”、“使用”、“选择”、“访问”及“确定”可互换地使用。举例来说,“产生”、“计算”、“估计”或“确定”参数(或信号)可指主动地产生、估计、计算或确定参数(或信号)或可指使用、选择或访问例如由另一组件或设备已产生的参数(或信号)。
参看图1,揭示被配置以使用动态分类器执行设备操作的系统的特定说明性方面且通常将其指定为100。系统100包含耦合到一个或多个麦克风110、一个或多个其它传感器180及第二设备160的设备102。设备102被配置以基于使用动态分类器140处理由麦克风110捕获为音频数据的语音来执行各种操作。如本文中所使用,“语音”指示与并非源自人的声音(例如,“其它音频活动”)相比的人(例如,设备的用户)的语音或话语178。
设备102包含第一输入接口114、第二输入接口184、耦合到存储器192的一个或多个处理器190及调制解调器170。第一输入接口114耦合到处理器190且被配置以耦合到麦克风110。第一输入接口114被配置以从麦克风110接收麦克风输出112且将麦克风输出112提供到处理器190作为一个或多个音频数据样本116。
第二输入接口184耦合到处理器190并且被配置以耦合到传感器180。第二输入接口184被配置以从传感器180接收传感器输出182,并将传感器输出182作为一个或多个数据样本186提供给处理器190。
处理器190耦合到调制解调器170并且包括特征提取器130和动态分类器140。处理器190被配置以接收对应于麦克风输出112的音频数据样本116和对应于传感器输出122的数据样本186。处理器190被配置以在特征提取器130处处理音频数据样本116以生成特征数据132。
在一些实施方式中,处理器190被配置以在生成特征数据132之前处理音频数据样本116和数据样本186。在示例中,处理器190被配置以对音频数据样本116执行回波消除、噪声抑制或两者。在一些实施方案中,处理器190被配置以在产生特征数据132之前将音频数据样本116变换(例如,傅里叶变换)到变换域。
处理器190被配置以基于音频数据样本116生成特征数据132。例如,特征数据可以对应于可能对特定人唯一并且与人的声道的形状相关联的因子,诸如音调和线性预测编码(LPC)系数。根据一些方面,特征数据132包含与语音相关联的音调数据134和共振峰数据135。在一些实施方式中,特征数据132包括附加的或替代的特征类型,诸如其中动态分类器140被配置以执行短语相关分类的实施方式,并且其中特征数据132还包括持续时间数据136和短语特定的音节提示137。
处理器190被配置以在动态分类器140处处理特征数据132。动态分类器140被配置以基于语音特性在多个用户之间进行区分以生成分类输出142。在一些实施方式中,动态分类器140被配置以基于音频数据样本116中表示的声音是否源自已经经由聚类在动态分类器140中区分的多个语音源(例如,用户)中的一个来自适应地聚类特征数据132的集合(例如,样本)。为了说明,动态分类器140基于特征数据132与动态分类器140中的节点值的相似性来自适应地聚类特征数据132的集合,其中各个聚类对应于相应的用户。举例来说,动态分类器140可被配置以接收特征数据132的样本序列且在含有音高值、共振峰值、一个或多个其它特征值或其组合的特征空间中自适应地聚类所述样本。
动态分类器140还可以被配置以调整特征空间的区别分类之间的决策边界,以区分对应于不同用户的语音的特征数据集(例如,区分用户176的话语178和另一用户的话语)。为了说明,动态分类器140可以被配置以将传入特征数据分类为多个分类中的一个(例如,当动态分类器140被配置以在仅两个用户之间进行区分时,分类0或分类1),其中两个分类中的一个对应于第一用户,并且两个分类中的另一个对应于第二用户。在此类实施方案中,分类输出142可包含具有以下两个值中的一者的单个位或旗标(flag):用以指示特征数据132对应于两个分类中的一者的第一值(例如,“0”);或第二值(例如,“1”)以指示特征数据132对应于两个分类中的另一个。然而,在其他实施方式中,动态分类器140不限于在两个用户之间进行区分。例如,处理器190可以被配置以对动态分类器140可区分的用户的数量实施一上限,诸如参考图2进一步描述的。
在一些实施方式中,动态分类器140执行聚类和矢量量化。例如,聚类包括减少(例如,最小化)聚类内平方和,定义为 其中Ci表示聚类i,pi表示分配给聚类i的权重,xj表示特征空间中的节点j,并且μi表示聚类i的质心。聚类权重pi可以是概率性的,诸如先验聚类分布;可能性,诸如分配给每个聚类的可能性的置信度度量;或者由将对不同聚类实施某种形式的非均匀偏置的任何其他因素确定。向量量化包含通过将输入向量量化成量化权重向量来减小(例如,最小化)误差,由以下定义:
其中wi表示量化权重向量i。
在一些实施方式中,动态分类器140被配置以执行竞争学习,其中量化单元竞争以吸收特征数据132的新样本。然后在新样本的方向上调整获胜单元。例如,每个单元的权重向量可以被初始化以用于分离或随机地初始化。作为非限制性示例,对于接收到的特征数据的每个新样本,诸如基于欧几里得距离或内积相似性来确定哪个权重向量最接近新样本。然后可以在新样本的方向上移动最接近新样本的权重向量(“获胜者”或最佳匹配单元)。例如,在Hebbian学习中,获胜者加强其与输入的相关性,诸如通过与两个节点的输入的乘积成比例地调整两个节点之间的权重。
在一些实施方式中,动态分类器140包括突触前片中的局部聚类,其连接到突触后片中的局部聚类,并且通过Hebbian学习来增强相邻神经元之间的互连,以加强相关刺激之间的连接。动态分类器140可以包括Kohonen自组织映射,其中输入连接到突触后片或映射中的每个神经元。学习使得映射被定位在响应于输入空间(例如,特征数据空间)的不同区域的不同吸收场中。
在特定实施方案中,动态分类器140包含自组织映射148。自组织映射148可通过初始化权重向量且接着针对每一输入t(例如,特征数据132的每一所接收集合)根据确定获胜单元(或单元或神经元)来操作,以将获胜者v(t)找到为具有到输入x(t)的最小距离(例如欧几里得距离)的单元。获胜单元及其相邻单元的权重被更新,例如根据Δwi(t)=α(t)l(v,i,t)[x(t)-wv(t)],其中Δwi(t)表示单元i的变化,α(t)表示学习参数,以及l(v,i,t)表示围绕获胜单元的邻域函数,诸如高斯径向基函数。在一些实施方式中,内积或另一度量可以用作相似性度量而不是欧几里得距离。
在一些实施方式中,动态分类器140包括Kohonen自组织映射的变型以适应语音样本序列,诸如参考图4进一步描述的。在示例中,动态分类器140可以实现时间序列处理,诸如根据时间Kohonen映射,其中具有时间常数建模衰减(“D”)的激活函数被定义用于每个单元并被更新为 并且获胜单元是具有最大活动的单元。作为另一示例,动态分类器140可以实现递归网络,诸如根据递归自组织映射,该递归自组织映射使用差向量y而不是平方范数:yi(t,γ)=(1-γ)yi(t-1,γ)+γ(x(t)-wi(t)),其中,γ表示具有0和1之间的值的遗忘因子,获胜单元被确定为具有最小差向量/> 的单元,并且权重被更新为Δwi(t)=α(t)l(v,i,t)[x(t)-yP(t,γ)]。
在一些实施方式中,处理器190被配置以基于特征数据132更新动态分类器140的聚类操作144并且更新动态分类器140的分类标准146。例如,如上所述,处理器190被配置以基于音频数据样本116的传入样本,使动态分类器140适应与特定用户的语音输入相关联的变化,为未分类的用户添加分类,或两者,使得动态分类器140能够基于用户176的变化条件、环境、其他条件(例如,麦克风放置或调整)、新遇到的用户的语音或其任何组合来调整操作。
尽管动态分类器140被示出为包括自组织映射148,但是在其他实施方式中,动态分类器140可以结合一种或多种其他技术来生成分类输出142,以代替自组织映射148或除了自组织映射148之外。作为非限制性示例,动态分类器140可以包括具有无监督配置的受限玻尔兹曼机、无监督自动编码器、Hopfield网络的在线变型、在线聚类或其组合。语音特征空间的每个分区可以被输入到另一个映射以创建认证状态。作为另一非限制性示例,动态分类器140可以被配置以执行主成分分析(例如,将一组正交方向向量顺序地拟合到特征空间中的特征向量样本,其中每个方向向量被选择为最大化投影到特征空间中的方向向量上的特征向量样本的方差)。作为另一非限制性示例,动态分类器140可以被配置以执行独立分量分析(例如,在假设子分量是统计上彼此独立的非高斯信号的情况下,确定特征空间中的特征向量样本的一组相加子分量)。在一些实施方式中,可以通过训练生成对抗网络(GAN)的鉴别器和生成器来(例如,离线)执行类的注册。
处理器190被配置以至少部分地基于分类输出142来确定认证150。在动态分类器140被配置以区分四个分类的说明性示例中,分类输出142可以指示特征数据132被分类为四个分类中的一个(例如,分类“0”、分类“1”、分类“2”或分类“3”),但是可以不指示哪个分类对应于哪个特定用户,或者哪些许可与每个分类相关联。例如,基于动态分类器140如何被初始化以及已经用于更新动态分类器140的特征数据,在一些情况下,具有值“0”的分类输出142指示第一用户具有第一许可,而在其他情况下,具有值“0”的分类输出指示第二用户具有第二许可。
在一些实施方式中,处理器190访问存储在存储器192中的表194以确定认证150。表194将动态分类器140的分类输出与已经由动态分类器140分类的多个用户中的特定用户相关联。为了说明,表194包括将第一分类154(例如,具有值“0”的分类输出142)与第一组许可155、第一用户156和第一标识数据(ID数据1)157相关联的第一数据(例如,表194的第一行)。表194还包括将第二分类164(例如,具有值“1”的分类输出142)与第二组许可165、第二用户166和第二标识数据(ID数据2)167相关联的第二数据(例如,表194的第二行)。
为了说明,处理器190可以被配置以在注册操作期间填充表194,其中用户提供语音样本(例如,经由麦克风110)、用户数据(例如,用户的姓名、登录标识符或其他识别信息)和用户识别数据120。在示例中,相机196被配置以捕获说话用户的图像并将与图像相对应的数据作为用户识别数据120发送到处理器190。在一些实施方式中,用户识别数据120包括由一个或多个传感器180捕获的一个或多个其他识别数据集,诸如由传感器180中包括的生物识别传感器捕获的指纹数据或其他生物识别数据、经由传感器180中的一个或多个输入的数字密码作为手势、键盘输入或触摸屏输入或其组合。在注册期间,可以调整动态分类器140以为新注册的用户添加分类并生成与新用户相关联的分类输出142,并且处理器190可以用指示新分类、新用户、新标识数据和与用户相关联的许可的新行来填充表194。尽管出于说明的目的,表194被示出为包括仅与类(例如,两行)相关联的数据,但是应当理解,表194被配置以存储与动态分类器140所支持的尽可能多的类相关联的数据。
根据一些方面,执行用户的注册以填充表194。在一些实施方式中,表194在注册操作期间被填充,并且一旦被填充,就被“固定”(例如,防止进一步改变)以防止添加附加用户。可替代地,在一些实施方式中,基于引导表的填充的高级特征来初始化表194,诸如要执行注册操作的用户输入命令。一旦满足标准,诸如已经经过特定时间段,已经在表194中输入阈值数量的条目(例如,动态分类器140已经被配置以对阈值数量的用户进行分类),或者已经接收到用户输入以结束注册,作为说明性的非限制性示例,在一些使用情况下,表194可以被最终确定和固定,或者在其他使用情况下可以保持对未来更改开放。在一些实施方式中,可以基于表194的内容来维护开放话语认证集(例如,当从未认证用户检测到语音时可以扩展的一组可变且可调整的认证用户)或封闭讲述认证集(例如,基于用户总数约束或仅限于特定用户的一组认证用户)。
在说明性实施方案中,表194中的一些条目保持固定,而允许将其它条目添加到表194或从表194移除。例如,在设备102与共享资源(例如,乘车车辆)一起操作的实施方式中,资源的一个或多个所有者或主要运营商在表194中保持固定并且不会从表194中驱逐,而资源的其他用户(例如,乘车乘客)可以在遇到时添加到表194,或者基于一个或多个移除标准从表194中移除。作为说明性的非限制性示例,移除标准可以包括自上次识别出用户的语音以来的持续时间超过阈值,表194达到表大小阈值并且要添加新用户,或者接收到用户命令以清除非固定条目的表194,例如在共乘车(rideshare)会话结束之后。
认证150指示哪个用户(例如,第一用户156或第二用户166)被映射到分类输出142。根据一些方面,分类输出142可以指示特征数据132不映射到分类中的任何分类(例如,特征数据132在阈值置信水平内不匹配集群中的任何集群),并且因此认证150指示说话的人未被认证。例如,在一些实施方式中,分类输出142被表示为“独热(one-hot)”编码数据,其包括对应于匹配类的特定字段中的“1”值和不对应于匹配类的每个字段中的“0”值。独热编码数据可包含“无分类”字段,其中“1”值指示特征数据132不映射到阈值置信度水平内的分类中的任一者。在其他实施方式中,分类输出142的每个字段具有表示特征数据132与对应分类匹配的置信水平的值,其中具有最大值的字段指示匹配分类。如果没有值超过阈值置信水平,则可以确定特征数据132不映射到任何分类。
根据一些方面,分类输出142具有整数表示、位向量表示(例如,独热表示或编码二进制表示)、二叉树或图形表示、或一个或多个其他表示,诸如一个或多个散列、二叉树、图形或阵列。整数表示使得能够使用O(N)阶存储资源来存储具有N个元素(例如,N个类,其中N是正整数)的数据,而编码的二进制位向量使得能够使用O(logN)阶存储资源来存储数据。分类输出142的特定表示的使用可以基于用例来选择,诸如针对存储器占用、查找复杂度或类的插入或移除的复杂度来选择。
在一些实施方式中,处理器190还被配置以至少部分地基于分类输出142来确定一个或多个许可151。例如,处理器190从表194检索第一组许可155或第二组许可165,以确定对应于分类输出142的许可151。作为说明性的非限制性示例,许可151可以指示用户是否被授权在一个或多个特定设备(诸如设备102、第二设备160、一个或多个其他设备或其组合)处访问或执行一个或多个操作。
在一些实施方式中,处理器190被配置以基于指示对话音命令处理操作152的访问的许可151来选择性地发起话音命令处理操作152。在说明性实例中,话音命令处理操作152包含语音激活操作,例如关键字或关键短语检测、自然语言处理、一个或多个其它操作或其任何组合。在一些实施方式中,处理器190被配置以生成唤醒信号或中断中的至少一个以发起话音命令处理操作152,如参考图3进一步详细描述的。与其中为用户存储脉冲编码调制(PCM)或音频数据样本并与接收到的音频样本进行比较以认证用户和/或处理对应于音频数据样本116的PCM数据以检查关键字的存在的常规系统相比,动态分类器140的分类输出142可以替代地用于唤醒或启动话音命令处理操作152或设备102的一个或多个其他组件。
调制解调器170耦合到处理器190,并且被配置以实现与第二设备160的通信,诸如经由无线传输。在一些示例中,调制解调器170被配置以响应于指示对第二设备160的访问的许可151而将话音命令处理操作152的输出发送到第二设备160。在一些示例中,调制解调器170被配置以响应于基于动态分类器140确定音频数据样本116对应于授权用户而将音频数据样本116发送到第二设备160。举例来说,在设备102对应于无线地耦合到第二设备160(例如,到移动电话或计算机的BLUETOOTHTM连接)的头戴设备设备的实施方案中,设备102可以将音频数据样本116发送到第二设备160以在第二设备160的语音激活系统162处执行话音命令处理操作152。在该示例中,设备102卸载要使用第二设备160的更大处理资源和功率资源执行的计算上更昂贵的处理(例如,话音命令处理操作152)。在其他示例中,设备102被配置以执行话音命令处理操作152,并且调制解调器170被配置以响应于指示对第二设备160的访问的许可151而向第二设备160发送话音命令处理操作152的输出(例如,指令)。
在一些实施方式中,设备102对应于一种或多种类型的设备或被包括在一种或多种类型的设备中。在说明性示例中,处理器190集成在头戴设备设备中,诸如参考图16进一步描述的。在其他示例中,处理器190集成在如参考图15所描述的移动电话或平板计算机设备、如参考图17所描述的可穿戴电子设备、如参考图18所描述的话音控制扬声器系统、如参考图19所描述的相机设备、或如参考图20所描述的虚拟现实头戴设备、混合现实头戴设备或增强现实头戴设备中的至少一个中。在另一说明性示例中,处理器190集成到车辆中,诸如参考图21和图22进一步描述的。
在操作期间,麦克风110被配置以捕获用户176的话语178。音频数据样本116在处理器190处被处理,诸如通过执行回波消除、噪声抑制、频域变换等。所得到的音频数据在特征提取器130处被处理以生成特征数据132。特征数据132被输入到动态分类器140以生成分类输出142,分类输出142由处理器190解释(例如,结合表194处的查找操作),以生成认证150,认证150可以指示用户176是否被认证(例如,由动态分类器140匹配到现有分类)并获得许可151。
在一些实施方式中,传感器180被配置以捕获一个或多个其他方面,诸如经由相机196捕获的用户176的图像。数据样本186在处理器190处被处理,诸如通过执行图像滤波、频域变换等。可在特征提取器130(或另一特征提取器)处处理所得数据以产生对应于数据样本186的特征数据132的额外分量。特征数据132(例如,包括音频特征和图像特征的合并数据,诸如参考图9进一步描述的)被输入到动态分类器140以生成分类输出142,分类输出142用于确定认证150并获得许可151。在一些实施方式中,不是在单个动态分类器处使用合并的音频和图像数据,而是设备102包括多个动态分类器,诸如用于音频数据的第一动态分类器和用于图像数据或其他数据类型的第二动态分类器,诸如参考图10进一步描述的。其中设备102包含多个分类器的另一实施方案针对分类的第一集合使用第一动态分类器(例如,以将音频数据分类为噪声或语音)且针对分类的第二集合使用第二动态分类器(例如,以将音频数据分类为经分类用户的语音或非经分类用户的语音),例如进一步参考图11所描述。在另一示例中,设备102可以包括多个动态分类器,其中每个动态分类器用作一组多个设备中的对应设备的认证网络,诸如参考图13进一步描述的。在使用多个动态分类器的任何上述示例中,动态分类器的分层配置可以用于多阶段认证,诸如在一个阶段中对音频数据进行分类并且在另一个阶段中对图像数据进行分类,在一个阶段中对第一音频特征进行分类并且在另一个阶段中对第二音频特征进行分类(例如,如参考图11所描述的),以提供用于额外的安全层或用于内容或服务的多级控制的多阶段认证,作为说明性的非限制性示例。
在一些实施方式中,认证150用于确定是否在设备102处发起话音命令处理操作152。举例来说,设备102可处理来自任何经认证用户的语音以确定语音是否对应于或包含语音命令。可替代地或另外地,认证150可以用于确定是否发起到第二设备160的输出信号175(例如,音频数据样本116)的生成,以用于在语音激活系统162处进一步处理。
另外,结合生成分类输出142,基于特征数据132,诸如通过将获胜单元及其邻居的权重调整为更类似于特征数据132、更新聚类操作144、分类标准146或其组合,更新动态分类器140。以这种方式,动态分类器140自动适应用户语音的变化、环境的变化、设备102或麦克风110的特性的变化、新用户的添加或其组合。
因此,系统100通过使用动态分类器140来以相对低的复杂度、低功耗和高精度在用户之间进行区分,从而改进了用户认证。自动适应用户和环境变化通过减少或消除由用户执行的校准并增强用户的体验来提供改进的益处。
尽管麦克风110和传感器180被图示为耦合到设备102,但在其他实现中,麦克风110或传感器180中的一者或两者可被集成在设备102中。在一些实现中,传感器180被省略,并且基于音频数据样本116而不使用来自其他传感器的数据样本186来执行认证。
尽管表194被描述为存储类数据、许可数据、用户数据和标识数据,但是在其他实现方式中,类数据、许可数据、用户数据、标识数据或其任何组合使用除表之外的数据结构(例如,作为非限制性示例,链表、数组或关系数据库)来存储。在一些实施方式中,省略许可数据、用户数据和标识数据中的一个或多个。例如,可以基于分类输出142并且在不识别任何特定用户的情况下激活话音命令处理操作152或设备102的其他部件或功能。在说明性实施方式中,表194被省略,并且分类输出142用作认证150和许可151。
尽管设备102被描述为使用认证150和许可151来确定是否执行话音命令处理操作,但是在其他实施方式中,认证150和许可151用于选择性地锁定、解锁或以其他方式提供对与设备102、设备160或其组合相关联的功能的访问。例如,作为说明性的非限制性示例,认证150和许可151可以用于授予或阻止对内容(例如,作为非限制性示例,私人数据和诸如联系人、消息传送或银行业务之类的应用,或媒体内容的回放)的访问,激活或去激活设备102或设备160的一个或多个组件,锁定或解锁服务(例如,支付服务、流媒体服务等),允许进入虚拟现实或增强现实实现方式中的虚拟环境,或者使得能够访问虚拟助理。因此,动态分类器140的使用使得能够以多种方式授权或拒绝对各种组件和功能的访问,与控制对这些组件和功能的访问的常规技术相比,这些组件和功能以无监督的方式更新并且使用有效的架构。
尽管出于解释的目的,各种系统在本公开中被示出为包括具有动态分类器并且耦合到一个或多个附加设备(例如,第二设备160)的第一设备(例如,设备102),但是应当理解,除非另有明确说明,否则这样的附加设备是可选的,并且不应被解释为所需的组件或限制。为了说明,根据一些实施方式,设备102使用动态分类器140的分类输出142来控制设备102的操作、组件、访问或功能的其他方面,而不耦合到设备160或任何其他外部设备或与设备160或任何其他外部设备通信。
图2是可以由图1的设备102(例如,处理器190)执行的与认证相关联的操作200的说明性方面的图。对输入202执行特征提取204以生成特征数据206。在示例中,输入202对应于音频数据样本116,特征提取204由特征提取器130执行,并且特征数据206对应于特征数据132。
动态分类器208对特征数据206进行操作以生成分类输出210。在示例中,动态分类器208对应于动态分类器140,并且被配置以基于具有用于分类输出210中的用户分类的高度动态决策边界的特征数据206来执行无监督实时聚类。例如,动态分类器208可以将特征空间划分成多个分类,一个分类与其语音已经经由自适应聚类和决策边界适配被分类的每个用户相关联。分类输出210可以包括例如哪个分类与特征数据206相关联的数字或位旗标指示符。在示例中,分类输出210对应于分类输出142。
认证关联操作212基于分类输出210和验证输入216生成认证指示符218。验证输入216可以提供将分类输出210的每个分类与特定用户相关联的信息。例如,可以基于至少一个先前验证标准214来生成验证输入216,该至少一个先前验证标准214使得认证关联操作能够将分类输出210标记到特定用户,诸如将用户的图像与存储的用户图像(例如,与存储在表194中的第一识别数据157或第二识别数据167相比较的由相机196捕获的图像)进行比较,以将分类输出210映射到特定用户。例如,认证关联可以确定分类输出210值“1”对应于第一用户156并且分类输出210值“2”对应于第二用户166,或两者,并且因此处理器190可以相应地填充或更新表194。
认证关联操作212导致生成认证指示符218(例如,认证150)。控制/访问规范操作220响应于认证指示符218以选择性地生成到一个或多个设备或系统224的信号222。例如,可以基于与分类输出210相关联的特定许可来生成信号222。在一些实施方式中,当分类输出210指示特征数据206不对应于任何分类的用户时,信号222可以指示默认授权或许可,或者如果没有向未认证用户提供访问,则可以不生成信号222。信号222可以包含检测到的关键字、语音命令、输入音频数据、一个或多个其它数据集或其任何组合。一个或多个设备或系统224可为包含动态分类器的同一设备内的组件(例如,设备102的组件,例如关键字检测器或自动语音识别(ASR)引擎),或可在设备(例如,第二设备160)外部。
诸如参考图1的动态分类器140和图2的动态分类器208所描述的动态分类使得能够使用所提取的特征数据进行区分,以主动响应和适应各种条件,诸如:高度非静止情况下的环境条件;用户语音特性随时间的变化;以及麦克风在频谱上的本底噪声、偏置和灵敏度。动态分类实现了能够响应于这种变化的自适应特征映射。因此,与常规系统相比,可以减少要由用户提供以被准确认证的语音样本的数量。
图3是根据本公开的一些示例的可操作以基于动态分类器来控制设备操作的系统300的说明性方面的框图,其中处理器190包括始终开启功率域303和第二功率域305,诸如按需功率域。在一些实施方式中,示出为话音命令处理系统320的多级系统的第一级340和缓冲器360被配置以以始终开启模式操作,并且多级系统(例如,话音命令处理系统320)的第二阶段350被配置以以按需模式操作。
始终开启电源域303包括缓冲器360、特征提取器130和动态分类器140。缓冲器360被配置以存储音频数据样本116和数据样本186,以可访问以供话音命令处理系统320的部件处理。
第二电力域305包含话音命令处理系统320的第二阶段350中的话音命令处理单元370,并且还包含激活电路330。在一些实施方式中,话音命令处理单元370被配置以执行图1的话音命令处理操作152。
话音命令处理系统320的第一阶段340被配置以基于动态分类器140的分类输出来激活第二阶段350。在示例中,话音命令处理系统320的第一级340被配置以响应于动态分类器140的分类输出指示音频数据样本116、数据样本186或两者对应于授权用户,生成唤醒信号322或中断324中的至少一个,以在话音命令处理单元370处发起话音命令处理操作152。在示例中,唤醒信号322被配置以将第二功率域305从低功率模式332转换到活动模式334以激活话音命令处理单元370。在一些实现中,唤醒信号322、中断324或两者对应于图2的信号222。
例如,激活电路330可以包括或耦合到功率管理电路、时钟电路、头开关或脚踏开关电路、缓冲器控制电路或其任何组合。激活电路系统330可被配置成发起第二阶段350的通电,诸如通过选择性地施加或升高第二阶段350的电源、第二功率域305的电源、或这两者的电源的电压。作为另一示例,激活电路系统330可被配置成选择性地门控或非门控到第二阶段350的时钟信号,诸如以在不移除电源的情况下阻止或启用电路操作。
由话音命令处理系统320的第二阶段350生成的话音命令输出352被提供给应用354。应用354可以被配置以基于检测到的语音命令来执行一个或多个操作。为了说明,作为说明性的非限制性示例,应用354可以对应于语音接口应用、集成辅助应用、车辆导航和娱乐应用或家庭自动化系统。
通过基于在话音命令处理系统320的第一阶段340中的动态分类器140处处理音频数据样本的结果选择性地激活第二阶段350,可以减少与用户认证、语音命令处理或两者相关联的总功耗。
图4是根据本公开的一些示例的图1的系统的组件的操作的说明性方面的示图。特征提取器130被配置以接收音频数据样本序列410,例如音频数据样本116的连续捕获帧序列,其说明为第一帧(F1)412、第二帧(F2)414及包含第N帧(FN)416(其中N是大于2的整数)的一个或多个额外帧。特征提取器130被配置以输出特征数据集合的序列420,所述特征数据集合包含第一集合422、第二集合424和包含第N集合426的一个或多个额外集合。
动态分类器140被配置以接收特征数据的集合的序列420,并且至少部分地基于序列420中的特征数据的先前集合(例如,第一集合422)来自适应地聚类序列420的每个集合(例如,第二集合424)。作为说明性的非限制性示例,动态分类器140可以被实现为时间Kohonen映射或递归自组织映射。
在操作期间,特征提取器130处理第一帧412以生成特征数据的第一集合422,并且动态分类器140处理特征数据的第一集合422以生成分类输出的序列430的第一分类输出(C1)432。特征提取器130处理第二帧414以生成特征数据的第二集合424,并且动态分类器140处理特征数据的第二集合424以基于特征数据的第二集合424并且至少部分地基于特征数据的第一集合422来生成第二分类输出(C2)434。这样的处理继续,包括特征提取器130处理第N帧416以生成第N特征数据集合426,并且动态分类器140处理第N特征数据集合426以生成第N分类输出(CN)436。第N分类输出436基于第N特征数据集合426并且至少部分地基于序列420的先前特征数据集合中的一个或多个。
通过基于特征数据的一个或多个先前集合进行动态分类,可针对可跨越音频数据的多个帧的语音信号改进动态分类器140的分类准确度。
图5描绘了根据本公开的一些示例的可以由设备102的处理器190执行的操作的实现500。用户176可以经由注册操作502注册为新用户。在动态分类器140处接收和处理(例如,经由麦克风110、输入接口114和特征提取器130)并处理用户176的语音(例如,话语178)。基于动态分类器140处的处理结果,注册操作502确定是否将用户176注册为新用户。
在一些实施方式中,注册操作502包括至少部分地基于对应于新用户176的语音(例如,话语178)的特征向量与动态分类器140的现有节点之间的相似性度量544来确定是否更新动态分类器140以将用户176注册为新用户。例如,如果相似性度量544指示对应于语音(例如,话语178)的特征向量不满足相似性阈值,则确定将用户176注册为新用户。可替代地或另外地,在一些实施方式中,注册操作502包括至少部分地基于第一表现度量546与第二表现度量548的比较来确定是否更新动态分类器140以将用户176注册为新用户。第一表现度量546对应于动态分类器140的表现,而不将用户176注册为新用户(例如,通过将用户176匹配到现有课程),并且如果动态分类器140要被更新为包括用户176作为新用户,则第二表现度量548对应于动态分类器140的表现。在说明性示例中,第一性能度量546和第二性能度量548对应于熵度量。
响应于确定将用户176注册为新用户,结合添加到分类器操作510将特征数据132提供给动态分类器140。动态分类器140处理特征数据132以将特征数据132与新分类506相关联,并且生成与新分类506相关联的分类输出508。执行更新表操作512以将分类输出508与对应于用户176的附加数据相关联,诸如通过将分类输出508(例如,分类指示符)、与用户176相关联的一组许可、用户176的指示以及对应于用户176的标识数据(诸如图像数据504)存储为表194中的新行。
在一些实施方式中,注册操作502对动态分类器140可区分的用户540的数量实施一个上限524。在一些实施方式中,当添加用户176使得用户540的数量超过上限524时,现有用户被移除。例如,可以基于特定用户与设备102交互的频率、自从特定用户与设备102的最近交互以来已经经过了多少时间、与移除其他用户相关联的性能度量相比的与移除特定用户相关联的一个或多个性能度量、或其组合来选择要移除的特定用户。
在一些实施方式中,处理器190可以被配置以至少部分地基于将对应于动态分类器140而不移除特定用户的表现度量与对应于动态分类器140被更新以移除特定用户的另一表现度量进行比较来确定是否更新动态分类器140以移除多个用户540中的特定用户。
图6描绘了根据本公开的一些示例的系统600的实现。系统600包括设备602,设备602包括第一处理器690和第二处理器680。第一处理器690包含动态分类器640且耦合到第二处理器680。在一些实施方案中,第一处理器690及第二处理器680对应于图1的处理器190,且动态分类器640对应于动态分类器140。
第一处理器690被配置以接收一个或多个音频数据样本616(例如图1的音频数据样本116),且将音频数据样本616提供到动态分类器640。第一处理器690被配置以产生对应于所接收音频数据样本616的特征数据632,例如音调数据及共振峰数据。为了说明,第一处理器690可包含特征提取器,例如图1的特征提取器130,或动态分类器640可被配置以在音频数据样本616的处理期间提取特征数据632。动态分类器640被配置以生成对应于音频数据样本616的分类输出642。
第二处理器680被配置以响应于分类输出642满足唤醒标准610而转换到活动状态。例如,第二处理器680可以包括响应于来自第一处理器690的唤醒信号或中断的激活电路,诸如参考图3的话音命令处理单元370所描述的。在一些实施方式中,动态分类器640被配置以区分多个音频源,诸如区分语音(例如,用户的话语)和非语音音频,并且唤醒标准610包括对应于检测到的语音的分类输出642。在一些具体实施中,唤醒标准610包括对应于与授权用户相关联的分类的分类输出642。
在一些实施方式中,唤醒标准610独立于接收到的音频数据样本616中关键字的存在。举例来说,第二处理器680可响应于分类输出642指示音频数据样本616对应于语音或授权用户的语音而转变到活动状态,而不对音频数据样本616执行关键字检测。
省略关键字检测作为用于激活第二处理器680的标准使得能够降低与在第一处理器690中执行关键字检测相关联的功耗和复杂度,同时可以通过使用唤醒标准610来减少或消除第二处理器680的虚假激活(例如,当分类输出642指示检测到语音或检测到来自授权用户的语音时)。因此,与传统的始终开启唤醒音频处理系统相比,使用动态分类器640来处理音频数据样本616可以降低第一处理器690中的复杂度、处理资源和功耗,并且可以提高性能。
图7描绘了根据本公开的一些示例的系统700的实现。系统700包括耦合到设备760的设备702。设备702包含一个或多个处理器790,其包含动态分类器740且耦合到存储器792。在一些实施方案中,一个或多个处理器790对应于图1的一个或多个处理器190,存储器792对应于存储器192,动态分类器740对应于动态分类器140,且设备760对应于设备160。存储器792包含将动态分类器740的分类输出关联到与设备760相关联的一个或多个访问许可的表794,例如图1的表194。
处理器790被配置以接收一个或多个音频数据样本716(例如图1的音频数据样本116),且将音频数据样本716提供到动态分类器740。处理器790可被配置以产生对应于所接收音频数据样本716的特征数据。为了说明,处理器790可包含特征提取器,例如图1的特征提取器130,或动态分类器740可被配置以在音频数据样本716的处理期间提取特征数据。动态分类器740被配置以产生对应于音频数据样本716的分类输出742。
处理器790被配置以基于分类输出742选择性地访问设备760。在一些实施方式中,选择性地访问设备760包括响应于对应于被授权访问设备760的分类的分类输出742而发送第一信号(“解锁信号”)710以解锁对设备760的访问。在一些实施方式中,选择性地访问设备760包括响应于分类输出742对应于未被授权访问设备760的分类而发送第二信号(“锁定信号”)712以锁定对设备760的访问。在一些实施方式中,选择性地访问设备760包括响应于与被授权访问设备760的分类相对应的分类输出742,向设备760发送指示与音频数据样本716相关联的语音命令的数据(“语音命令数据”)714。
在一些实施方案中,设备760经由总线或其它有线连接耦合到处理器790。在其它实施方案中,系统700还包含耦合到处理器790的调制解调器,且处理器790经由经由调制解调器将信号无线发射到设备760而选择性地访问设备760。为了说明,处理器790可经由调制解调器将解锁信号710、锁定信号712、语音命令数据714或其组合发射到设备760。
在一些实施方式中,动态分类器740被配置以至少部分地基于语音特性在多个用户之间进行区分,以生成分类输出742。在一些示例中,动态分类器740被配置以区分源自与设备702相距阈值距离720内的源的语音和源自与设备702相距阈值距离720之外的源的语音。处理器790可被配置以基于源超出距设备702的阈值距离720而拒绝对设备760的访问。例如,阈值距离720可以被设置为适当的距离,以防止附近的人(例如,与设备702的直接用户相反)的语音激活设备760,或者通过在另一个人紧邻设备702的用户时防止设备760被访问来增强设备760的安全性、设备760的用户的安全性或两者。
在一些实施方案中,处理器790被配置以基于在检测到来自经授权访问设备760的第一人的语音的阈值持续时间722内检测到来自第二人的语音而拒绝对设备760的访问。例如,当在检测到授权用户的语音的指定时间窗口内检测到另一个人的语音时,可以通过防止或限制设备760的操作来增强设备760的安全性、设备760的授权用户的安全性(例如,当尝试访问银行账户时)或两者。
图8描绘了根据本公开的一些示例的系统800的实现。系统800包括设备802,设备802包括一个或多个处理器890。一个或多个处理器890包括动态分类器840。在一些实施方案中,一个或多个处理器890对应于图1的一个或多个处理器190,且动态分类器840对应于动态分类器140。在一些实施方式中,一个或多个处理器890包括包含动态分类器840的第一处理器810和包含关键字检测器814的第二处理器812。
处理器890被配置以接收与音频数据相关联的一个或多个音频数据样本816,例如图1的音频数据样本116,且将音频数据样本816提供到动态分类器840。为了说明,处理器890可包含特征提取器,例如图1的特征提取器130,或动态分类器840可被配置以在音频数据样本816的处理期间提取特征数据。动态分类器840被配置以生成对应于音频数据样本816的分类输出842。
关键字检测器814被配置以基于分类输出842对音频数据样本816执行关键字检测并生成关键字检测器结果820。在一些实施方式中,动态分类器840被配置以至少部分地基于语音特征在多个用户之间进行区分以生成分类输出842,并且关键字检测器814保持不活动(例如,处于低功率状态),除非分类输出842对应于与授权用户相关联的分类。
在一些实施方案中,第二处理器812被配置以响应于分类输出842指示语音而从低功率状态转变到活动状态。例如,第二处理器812可以包括响应于来自第一处理器810的唤醒信号或中断的激活电路,诸如参考图3的话音命令处理单元370所描述的。在一些实施方案中,动态分类器840被配置以区分多个音频源,例如区分语音(例如,用户的话语)与非语音音频,且第一处理器810响应于对应于检测到的语音的分类输出842而将唤醒信号或中断发送到第二处理器812。在一些实施方案中,动态分类器840被配置以至少部分地基于语音特性在多个用户之间进行区分以产生分类输出842,且第一处理器810响应于分类输出842对应于与授权用户相关联的分类而将唤醒信号或中断发送到第二处理器812。
因此,与在始终开启处理阶段中执行关键字检测的传统处理系统相比,使用动态分类器840来处理音频数据样本816可以降低复杂度、处理资源和功耗。
图9描绘了根据本公开的一些示例的系统900的实现。系统900包括耦合到设备960的设备902。设备902包含一个或多个处理器990,其包含动态分类器940。在一些实施方案中,一个或多个处理器990对应于图1的一个或多个处理器190,动态分类器940对应于动态分类器140,且设备960对应于设备160。
处理器990被配置以接收与多模态输入相关联的一个或多个数据样本,其说明为一个或多个音频数据样本916、一个或多个图像数据样本950和一个或多个指纹数据样本952。在实施方案中,音频数据样本916对应于图1的音频数据样本116,且图像数据样本950和指纹数据样本952对应于图1的数据样本186。
处理器990被配置以将与多模态输入相关联的数据样本提供给动态分类器940。在一些实施方案中,处理器990被配置以产生对应于所接收数据样本的特征数据932。为了说明,第一处理器690可包含一个或多个特征提取器,例如图1的特征提取器130,以确定音频数据样本916(例如,音调和共振峰)、图像数据样本950(例如,关键点检测、特定身体部位(例如面部、眼睛、虹膜等)的检测)和指纹数据样本952(例如,指纹特征)中的每一者中的特征,或动态分类器940可被配置以在数据样本的处理期间提取特征数据932。动态分类器940被配置以产生对应于数据样本的分类输出942且响应于分类输出942而选择性地授权对设备960的访问。
在一些实施方式中,动态分类器940被配置以至少部分地基于面部特性在多个用户之间进行区分,以生成分类输出942。在一些实施方式中,动态分类器940被配置以至少部分地基于语音特性在多个用户之间进行区分,以生成分类输出942。在一些实施方案中,动态分类器940被配置以至少部分地基于指纹特性在多个用户之间进行区分以产生分类输出942。
在一些实施方式中,一个或多个数据样本包括合并数据样本918。合并数据样本918被配置以表示音频数据样本916、图像数据样本950和指纹数据样本952中的至少两者。动态分类器940可以被配置以基于合并数据样本918在多个用户之间进行区分以生成分类输出942。
通过基于多模态数据样本生成分类输出942,设备902可基于各种标准或标准组合来认证用户。例如,基于访问设备960所需的许可级别,设备902可能需要基于输入模式中的任何一种(例如,音频、视觉或指纹)、输入模式中的任何两种或输入模式中的所有三种的认证。作为另一示例,多个输入模式的使用使得设备902能够在不能使用输入模式中的单个输入模式用阈值置信度来认证用户时在认证用户时建立阈值置信度。例如,当设备902对应于安全系统并且设备960对应于门的锁定机构时,在夜间雷暴期间尝试解锁门的用户可能无法通过语音(由于风和雨噪声)、通过面部识别(由于低光照和模糊的雨或雾)或通过指纹(由于用户手指上、指纹传感器上或两者上的水分)来认证,但是可以基于使用所有三种输入模式的数据样本的组合来认证。
尽管使用三种输入模式(图像、音频和指纹)说明设备902,但在其它实施方案中,可使用少于三种输入模式或多于三种输入模式。可替代地或另外地,图像、音频或指纹输入模式中的一个或多个可以由一个或多个其他输入模式代替。
图10描绘了根据本公开的一些示例的系统1000的实现。系统1000包含设备1002,设备1002包含耦合到设备1060的一个或多个处理器1090。处理器1090包括动态分类器1092,动态分类器1092包括第一动态分类器1040和第二动态分类器1044。在一些实施方案中,处理器1090对应于图1的处理器190,动态分类器1040、1044中的一或两者对应于动态分类器140,且设备1060对应于设备160。
处理器1090被配置以接收与多模态输入相关联的一个或多个数据样本,并将一个或多个数据样本提供给动态分类器1092。举例来说,处理器1090基于由麦克风1010捕获的音频数据接收一个或多个音频数据样本1016,且基于由另一传感器设备捕获的数据接收一个或多个非音频数据样本1086,例如来自由相机1096捕获的图像数据的图像数据样本。在一些实施方案中,相机1096、麦克风1010或两者集成在设备1002中。在其它实施方案中,相机1096、麦克风1010或两者是耦合到设备1002的外部组件。麦克风1010可对应于图1的麦克风110,且相机1096可对应于图1的相机196。
第一动态分类器1040被配置以接收音频数据样本1016并处理音频数据样本1016以生成第一分类输出1042。第一动态分类器1040被配置以基于多个用户的语音特性来区分与多个用户相关联的分类,以生成第一分类输出1042。第一分类输出1042指示与音频数据样本1016相关联的特定分类的数字标识符1020。例如,如果用户1076的语音被第一动态分类器1040分类为分类“2”,则数字标识符1020对应于“2”。
第二动态分类器1044被配置以接收非音频数据样本1086并处理非音频数据样本1086以生成第二分类输出1046。第二分类输出1046指示与非音频数据样本1086相关联的特定分类的数字标识符1022。例如,如果用户1076的图像被第二动态分类器1044分类为分类“2”,则数字标识符1022对应于“2”。
如图所示,第二动态分类器1044被配置以基于图像数据中的数字标识符1022的视觉指示1094来生成第二分类输出1046。在说明性示例中,图像数据中的数字标识符1022的视觉指示1094包括用户之一的伸出手指的计数(例如,用户1076的手的两个伸出手指)。
处理器1090被配置以响应于第一分类输出1042和第二分类输出1046中的至少一个而选择性地授权对设备1060的访问。例如,可以基于响应于用户1076的语音的数字标识符1020、基于响应于用户1076的视觉指示1094的数字标识符1022或两者来确定用户1076的认证1050。基于与认证1050相关联的一个或多个访问授权1052选择性地提供对设备1060的访问。
在一些实施方式中,显示设备1062耦合到处理器1090,并且处理器1090被配置以经由显示设备1062启动数字标识符1020的显示。为了说明,在用户1076被注册(例如,映射到第一动态分类器1040中的特定集群)时,可以经由显示设备向用户1076提供数字标识符1020。在与设备1002的后续交互中,代替提供语音或者除了提供语音之外,用户1076可以提供视觉指示1094。结果,动态分类器1092可以基于用户1076的语音、基于视觉指示1094或其组合来确定认证1050。
图11描绘了根据本公开的一些示例的系统1100的实现。系统1100包含设备1102,设备1102包含一个或多个处理器1190且耦合到设备1160。处理器1190包括动态分类器1192,动态分类器1192包括第一动态分类器1140和第二动态分类器1144。在一些实施方案中,处理器1190对应于图1的处理器190,动态分类器1140、1144中的一或两者对应于动态分类器140,且设备1160对应于设备160。
处理器1190被配置以接收对应于声学环境的音频数据样本1116。举例来说,音频数据样本1116可经由集成在设备1102中或耦合到设备1102的一个或多个麦克风接收。处理器1190被配置以将音频数据样本1116提供到动态分类器1192。
动态分类器1192被配置以从由动态分类器1192识别的多个分类中对音频数据样本1116进行分类。在示例中,多个分类包括对应于一个或多个先前分类的用户的一个或多个用户分类1124、对应于来自除了一个或多个先前分类的用户之外的某人的语音的非用户语音分类1126、以及对应于非语音音频的噪声分类1122。
如图所示,第一动态分类器1140被配置以通过将音频数据样本1116分类为语音分类1120或噪声分类1122以生成第一分类输出1142来区分语音和非语音音频。例如,第一分类输出1142可以具有指示音频数据样本1116被分类为语音的第一值或指示音频数据样本1116被分类为噪声的第二值。第二动态分类器1144被配置以区分多个分类,包括对应于一个或多个先前分类的用户的一个或多个用户分类1124和对应于除来自一个或多个先前分类的用户的语音之外的音频的默认分类(“非用户语音分类”)1126,以生成第二分类输出1146。例如,第二分类输出1146可以具有指示用户分类1124中的特定一个的多个值中的一个或指示非用户语音分类1126的另一个值。
在一些实施方案中,处理器被配置以首先在第一动态分类器1140处处理音频数据样本,且响应于第一动态分类器1140将音频数据样本分类为语音分类1120而将音频数据样本1116提供到第二动态分类器1144。在这样的实施方式中,动态分类器1192作为分层分类器操作,其中根动态分类器(例如,第一动态分类器1140)的输出确定下一分类阶段(例如,响应于第一分类输出1142指示语音分类1120而激活第二动态分类器1144)。
处理器1190被配置以响应于动态分类器1192的分类输出(例如,响应于第一分类输出1142和第二分类输出1146中的至少一个)而选择性地授权对设备1160的访问。例如,可以基于音频数据样本1116是对应于特定的先前分类的用户的语音、未分类的人的语音还是非语音音频来确定用户的认证1150。基于与认证1150相关联的一个或多个访问授权1152选择性地提供对设备1160的访问。
在一些实施方案中,处理器1190进一步被配置以响应于第一分类输出1142指示音频数据样本1116对应于噪声,识别与音频数据样本1116相关联的上下文。举例来说,音频数据样本1116由情境确定引擎1170处理,情境确定引擎1170被配置以基于音频数据样本1116的声学特性确定与声学环境相关联的情境,例如设备1102是否在车辆、封闭区域、用户房屋的特定房间、办公室、大厅、电梯、户外等中。
在一些实施方式中,处理器1190还被配置以响应于第一分类输出1142指示音频数据样本1116对应于噪声,处理对应于音频数据样本1116的音频数据以至少部分地去除音频数据的噪声分量。举例来说,降噪引擎1172可处理音频数据样本1116以确定背景音频信号(例如,参考信号),所述背景音频信号可用于例如经由消除或其它降噪技术来减少所接收音频数据的语音部分的噪声分量。
尽管动态分类器1192被示出为包括生成相应分类输出1142、1146的两个分类器1140、1144,但是在其他实施方式中,动态分类器1192包括单个分类器,该单个分类器被配置以将音频数据样本1116分类为噪声分类1122、非用户语音分类1126或单个分类输出中的用户分类1124中的所识别的一个。在其它实施方案中,动态分类器1192可省略第二动态分类器1144,且可被配置以将音频数据样本1116分类为语音分类1120及噪声分类1122中的一者,而无需进一步区分各种用户分类1124与非用户语音分类1126。
图12描绘了根据本公开的一些示例的系统1200的实现。系统1200包含一个或多个处理器1290,其包含动态分类器1240且耦合到设备1260。在一些实施方案中,一个或多个处理器1290对应于图1的一个或多个处理器190,动态分类器1240对应于动态分类器140,且设备1260对应于设备160。
处理器1290被配置以从图像数据接收图像数据样本1286。处理器1290被配置以将图像数据样本1286提供到动态分类器1240。举例来说,可经由被配置以捕获图像数据且耦合到处理器1290的相机1296接收图像数据样本1286。相机1296可以集成在设备1202中或耦合到设备1202。替代地,可从存储设备或经由无线发射(例如,从远程相机)检索图像数据样本1286。
动态分类器1240被配置以至少部分地基于面部特性1206在多个人之间进行区分,以产生对应于图像数据样本1286的分类输出1242。举例来说,动态分类器1240可被配置以处理图像数据样本1286以基于面部特性1206确定图像数据样本1286是否包含第一用户1276、第二用户1277或第一用户1276和第二用户1277两者。尽管示出了两个用户,但是动态分类器1240可以被配置以基于面部特性1206在三个用户、四个用户或任何其他数量的用户之间进行区分。
动态分类器1240被配置以生成分类输出1242,分类输出1242指示对应于在图像数据样本1286中检测到的用户的一个或多个分类。处理器1290被配置以响应于分类输出1242而选择性地授权对设备1260的访问。举例来说,可基于分类输出1242确定用户1276的验证1250,且基于与验证1250相关联的一个或多个访问授权1252选择性地提供对设备1260的访问。
在一些实施方案中,动态分类器1240被配置以基于图像数据样本1286指示多个人的检测,且处理器1290经进一步配置以响应于动态分类器1240指示多个人的检测而拒绝对设备1260的访问。例如,当设备1202对应于安全系统并且设备1260对应于门的锁定机构时,尝试经由面部识别解锁门的第一用户1276可能由于检测到第二人(例如,第二用户1277)接近第一用户1276而被拒绝进入。在一些实施方式中,处理器1290可以拒绝对设备1260的访问,除非在图像数据样本1286中检测到的所有人被动态分类器1240确定为先前分类的用户,并且处理器1290确定每个检测到的用户具有访问设备1260的适当授权(例如,作为说明性的非限制性示例,解锁门并允许进入建筑物或车辆)。
图13描绘了根据本公开的一些示例的系统1300的实现。系统1300包含设备1302,设备1302包含耦合到存储器1392的一个或多个处理器1390。处理器1390包括第一动态分类器1340和第二动态分类器1344。处理器1390耦合到包括第一设备1360和第二设备1362的多个设备。在一些实现中,处理器1390对应于图1的处理器190,存储器1392对应于存储器192,动态分类器1340、1344中的一个或两个对应于动态分类器140,并且设备1360、1362中的一个或两个对应于设备160。
动态分类器1340、1344中的每一个对应于用于多个设备1360、1362中的相应设备的认证网络。在示例中,第一动态分类器1340对应于用于第一设备1360的认证网络,并且第二动态分类器1344对应于用于第二设备1362的认证网络。为了说明,第一动态分类器1340可以被配置以区分先前关于访问第一设备1360以生成第一分类输出1342而被分类的第一用户集合,并且第二动态分类器1344可以被配置以区分先前关于访问第二设备1362以生成第二分类输出1346而被分类的第二用户集合,第二用户集合可以与第一用户集合匹配或者可以与第一用户集合不同。第一动态分类器1340及第二动态分类器1344可被配置以处理音频数据样本、图像数据样本、一个或多个其它类型的数据(例如,指纹数据)或其任何组合。
处理器1390被配置以基于分类输出1342、1346中的一个或多个来确定认证1350,并且基于认证1350来确定一个或多个访问许可1352。在示例中,处理器1390被配置以访问存储器1392处的表1394,表1394将动态分类器1340、1344的分类输出关联到与设备1360、1362中的特定设备相关联的一个或多个访问许可。在特定实施方案中,表1394对应于图1的表194。
在一些实现中,一个或多个访问许可1352中的至少一个是时间相关的。例如,设备1360、1362中的一个或两个可以对应于家庭娱乐系统(例如,电视、立体声系统、游戏控制台等)的组件,并且表1394可以基于一天中的时间指示一个或多个用户的访问许可。为了说明,设备1302可以在用于家庭自动化系统的控制器中实现,其中允许家庭中的儿童在指定的时间窗口期间或在指定的持续时间内或在两者内访问设备1360、1362,而成人可以不受限制地访问设备1360、1362。
在一些实现中,处理器1390被配置以同时向动态分类器1340、1344中的每一个提供接收到的数据样本,以并行地生成分类输出1342、1346。在其它实施方案中,处理器1390被配置以基于访问特定设备1360或1362的用户指示来选择特定动态分类器1340或1344。为了说明,可以处理音频数据样本以生成设备指示1312,诸如处理访问第二设备1362的口头请求的自动语音识别引擎的输出,并且作为响应,处理器1390生成指示用作第二设备1362的认证网络的第二动态分类器1344的分类器选择1310。
在一些实现中,第一动态分类器1340被配置成输出指示接收到的数据样本是否对应于被授权访问第一设备1360的分类(例如,特定用户)的第一位旗标(例如,“0”或“1”值),并且第二动态分类器1344被配置成生成指示接收到的数据样本是否对应于被授权访问第二设备1362的分类的第二位旗标。在一些实现中,第一动态分类器1340被配置成输出第一位向量(例如,一系列“0”或“1”值),其中每个位对应于针对第一设备1360处的特定操作的相应访问/控制许可。如果第一位向量的位中的任一者具有“1”值(指示接收到的数据样本对应于被准许在第一设备1360处执行至少一个操作的分类),则设备1302将第一位向量发送给第一设备1360,并且第一设备1360基于由第一位向量指示的准许来启用(例如,解锁)恰适的命令线。类似地,第二动态分类器1344被配置以产生对应于针对第二设备1362处的操作的访问/控制许可的第二位向量,设备1302将非零位向量发送到第二设备1362,且第二设备1362基于由第二位向量指示的许可启用(例如,解锁)适当命令线。在这样的实施方式中,作为分类输出1342和1346输出的相应位旗标或位向量可以直接用作认证1350和访问许可1352两者,并且因此可以绕过或省略表1394。
图14将设备102的实现1400描绘为包括一个或多个处理器190的集成电路1402。集成电路1402还包括音频输入1404,诸如一个或多个总线接口,以使得音频数据样本116能够被接收以用于处理。集成电路1402还包括信号输出1406(诸如总线接口),以使得能够发送输出信号(诸如认证1150)。集成电路1402使得能够将基于动态分类器的认证实现为系统中的组件,该系统包括麦克风,诸如图15所示的移动电话或平板电脑、图16所示的头戴设备、图17所示的可穿戴电子设备、图18所示的话音控制扬声器系统、图19所示的相机、图20所示的虚拟现实头戴设备、混合现实头戴设备或增强现实头戴设备、或图21或图22所示的车辆。
作为说明性的非限制性示例,图15描绘了设备102是移动设备1502(诸如电话或平板电脑)的实现1500。移动设备1502包括麦克风110和显示屏1504。处理器190的组件(包括特征提取器130和动态分类器140)集成在移动设备1502中,并且使用虚线示出以指示移动设备1502的用户通常不可见的内部组件。在特定实例中,特征提取器130和动态分类器140操作以执行用户认证,所述用户认证接着用于选择性地实现在移动设备1502处执行一个或多个操作,例如启动图形用户接口或以其它方式在显示屏1504处显示与用户的语音相关联的其它信息(例如,经由集成的“智能助理”应用程序)。
图16描绘了设备102是头戴设备设备1602的实现1600。头戴设备设备1602包含经定位以主要捕获用户的语音的麦克风110。处理器190的组件(包括特征提取器130和动态分类器140)集成在头戴设备设备1602中。在特定实例中,特征提取器130及动态分类器140操作以执行用户验证,其可致使头戴设备设备1602在头戴设备设备1602处执行一个或多个操作,以将对应于用户语音的音频数据发射到第二设备(未展示)(例如图1的第二设备160)以用于进一步处理,或其组合。
图17描绘了设备102是可穿戴电子设备1702(被示出为“智能手表”)的实现1700,特征提取器130、动态分类器140和麦克风110被集成到可穿戴电子设备1702中。在特定示例中,特征提取器130和动态分类器140操作以执行用户认证,这可以使得能够在可穿戴电子设备1702处执行一个或多个操作,诸如启动图形用户界面或以其他方式在可穿戴电子设备1702的显示屏1704处显示与用户的语音相关联的其他信息。为了说明,可穿戴电子设备1702可包含被配置以基于由可穿戴电子设备1702检测到的用户语音显示通知的显示屏1704。在特定示例中,可穿戴电子设备1702包括响应于检测到用户语音活动而提供触觉通知(例如,振动)的触觉设备。例如,触觉通知可以使用户查看可穿戴电子设备1702以看到指示检测到用户说出的关键字的所显示的通知。因此,可穿戴电子设备1702可以警告具有听力损伤的用户或佩戴头戴设备的用户检测到用户的语音活动。
图18是设备102是无线扬声器和语音激活设备1802的实现1800。无线扬声器和语音激活设备1802可以具有无线网络连接性并且被配置以执行辅助操作。包括特征提取器130和动态分类器140的处理器190、麦克风110或其组合被包括在无线扬声器和语音激活设备1802中。无线扬声器和语音激活设备1802还包括扬声器1804。在操作期间,响应于经由特征提取器130和动态分类器140的操作接收到被识别为认证用户的语音的口头命令,无线扬声器和语音激活设备1802可以执行辅助操作,诸如经由集成辅助应用的执行。辅助操作可以包括调节温度、播放音乐、打开灯等。例如,响应于在关键字或关键短语(例如,“你好助理”)之后接收到命令来执行助理操作。
图19描绘了设备102是对应于相机设备1902的便携式电子设备的实现1900。特征提取器130和动态分类器140、麦克风110或其组合被包括在相机设备1902中。在操作期间,作为说明性示例,响应于经由特征提取器130和动态分类器140的操作接收到被识别为用户语音的口头命令,相机设备1902可以响应于口头用户命令而执行操作,诸如以调整图像或视频捕获设置、图像或视频回放设置、或者图像或视频捕获指令。
图20描绘了实施方式2000,其中设备102包括对应于扩展现实(“XR”)头戴设备2002的便携式电子设备,诸如虚拟现实(“VR”)、增强现实(“AR”)或混合现实(“MR”)头戴设备设备。特征提取器130、动态分类器140、麦克风110或其组合集成到头戴设备2002中。在特定方面中,头戴设备2002包含经定位以主要捕获用户的语音的麦克风110。可以基于从麦克风110接收的音频信号来执行用户认证。视觉接口设备位于用户眼睛的前方,以使得能够在佩戴头戴设备2002时向用户显示增强现实或虚拟现实图像或场景。在特定示例中,视觉接口设备被配置以基于在音频信号中检测到的语音来显示指示用户认证的通知。
图21描绘了实现2100,其中设备102对应于交通工具2102或集成在交通工具2102内,交通工具2102被图示为有人驾驶或无人驾驶的空中设备(例如,包裹递送无人机)。特征提取器130、动态分类器140、麦克风110或其组合集成到车辆2102中。可以基于从车辆2102的麦克风110接收的音频信号来执行用户语音活动检测,诸如用于来自车辆2102的授权用户的递送指令。
图22描绘另一实施方案2200,其中设备102对应于车辆2202(例如,自动驾驶汽车)或集成在车辆2202内。车辆2202包括处理器190,处理器190包括特征提取器130和动态分类器140。车辆2202还包括多个麦克风110。麦克风110被定位成捕获车辆2202的乘员和操作者的话语。可以基于从麦克风110接收的音频信号来执行用户语音活动检测。在一些实施方式中,可以基于从内部麦克风(例如,麦克风110)接收的音频信号来执行用户认证,诸如针对来自授权乘客的语音命令。例如,认证可用于确定是否执行来自车辆2202的操作者的语音命令(例如,来自父母以将音量设置为5或设置自动驾驶车辆的目的地)并且忽略来自未被授权执行语音命令的另一乘客的语音命令(例如,来自孩子的语音命令以将音量设置为10或改变目的地)。在一些实施方式中,可以基于从外部麦克风(诸如车辆外部的授权用户)接收的音频信号来执行用户认证。在特定实现中,响应于经由特征提取器130和动态分类器140的操作接收到被识别为授权用户的语音的口头命令,基于在语音命令中检测到的一个或多个关键字(例如,“解锁”、“启动引擎”、“播放音乐”、“显示天气预报”或另一语音命令)来发起车辆2202的一个或多个操作,诸如通过经由显示器2220或一个或多个扬声器(例如,扬声器2210)提供反馈或信息。
参照图23,示出了基于动态分类器的设备操作的方法2300的特定实现。在特定方面中,方法2300的一个或多个操作由图1的特征提取器130、动态分类器140、处理器190、设备102、系统100或其组合中的至少一者执行。
方法2300包含在2302处在一个或多个处理器处接收音频数据样本。例如,图1的特征提取器130接收与麦克风110的输出相对应的音频数据样本116,如参考图1所描述的。
方法2300包含在2304处,在一个或多个处理器处基于音频数据样本产生特征数据。例如,图1的特征提取器130基于音频数据样本116生成特征数据132,如参考图1所描述的。
方法2300包括在2306处在一个或多个处理器处在被配置以在多个用户之间进行区分的动态分类器处处理特征数据以生成分类输出。例如,图1的动态分类器140处理特征数据132以生成分类输出142,如参考图1所描述的。
方法2300包含在2308处,在一个或多个处理器处至少部分地基于分类输出确定认证。例如,图1的处理器190至少部分地基于分类输出142来确定认证150,如参考图1所描述的。
与常规用户认证技术相比,方法2300通过使用动态分类器以相对低的复杂度、低功耗和高准确度基于用户语音样本在用户之间进行区分来改进用户认证的性能。自动适应用户和环境变化通过减少或消除用户要执行的使用多个语音样本的广泛训练并因此增强用户的体验来提供改进的益处。
图23的方法2300可由现场可编程门阵列(FPGA)设备、专用集成电路(ASIC)、处理单元(例如中央处理单元(CPU))、数字信号处理器(DSP)、控制器、另一硬件设备、固件设备或其任何组合实施。作为示例,图23的方法2300可以由执行指令的处理器来执行,诸如参考图31所描述的。
参考图24,示出了基于动态分类器的设备操作的方法2400的特定实现。在特定方面中,方法2400的一个或多个操作由图1的特征提取器130、动态分类器140、处理器190、设备102、系统100、图6的第一处理器690、第二处理器680、动态分类器640、设备602、系统600或其组合中的至少一者执行。
方法2400包含在2402处在第一处理器处接收音频数据样本。例如,图1的特征提取器130接收与麦克风110的输出相对应的音频数据样本116,如参考图1所描述的。作为另一实例,第一处理器690接收音频数据样本616,如参考图6所描述。
方法2400包含在2404处在第一处理器处将音频数据样本提供到动态分类器,动态分类器被配置以产生对应于音频数据样本的分类输出。例如,图1的动态分类器140接收并处理音频数据样本116的特征数据132表示以生成分类输出142,如参考图1所描述的。作为另一实例,如参考图6所描述,第一处理器690将音频数据样本616(或表示音频数据样本616的特征数据632)提供到图6的动态分类器640,且动态分类器640产生分类输出642。
方法2400包括在2406处响应于分类输出满足唤醒标准而将第二处理器转换到活动状态。例如,如参考图6所述,响应于分类输出642满足唤醒标准610,第二处理器680转换到活动状态。
与常规用户认证技术相比,方法2400通过使用动态分类器以相对低的复杂度、低功耗和高准确度基于用户语音样本在用户之间进行区分来改进用户认证的性能。与其中第二处理器保持在始终开启状态的系统相比,基于分类输出激活第二处理器使得能够降低与第二处理器相关联的功耗。
图24的方法2400可由现场可编程门阵列(FPGA)设备、专用集成电路(ASIC)、处理单元(例如中央处理单元(CPU))、数字信号处理器(DSP)、控制器、另一硬件设备、固件设备或其任何组合实施。作为示例,图24的方法2400可以由执行指令的处理器来执行,诸如参照图31所描述的。
参照图25,示出了基于动态分类器的设备操作的方法2500的特定实现。在特定方面中,方法2500的一个或多个操作由图1的特征提取器130、动态分类器140、处理器190、设备102、系统100、图7的处理器790、存储器792、设备702、系统700或其组合中的至少一者执行。
方法2500包含在2502处在处理器处接收音频数据样本。例如,如参考图1所描述的,图1的处理器190的特征提取器130接收与麦克风110的输出相对应的音频数据样本116。作为另一实例,如参考图7所描述,处理器790接收音频数据样本716。
方法2500包含在2504处在处理器处将音频数据样本提供到动态分类器,动态分类器被配置以产生对应于音频数据样本的分类输出。例如,如参考图1所述,图1的特征提取器130基于音频数据样本116生成特征数据132,并将表示音频数据样本116的特征数据132提供给动态分类器140,并且动态分类器140生成分类输出142。作为另一实例,如参考图7所描述,处理器790将音频数据样本716(或音频数据样本716的特征数据表示)提供到动态分类器740,且动态分类器740产生分类输出742。
方法2500包含在2506处基于分类输出选择性地访问特定设备。例如,如参考图1所描述的,设备102可以响应于分类输出142对应于与一个或多个许可151相关联的认证150而选择性地访问设备160。作为另一实例,如参考图7所描述,处理器790基于分类输出742选择性地访问设备760,例如通过发送解锁信号710、发送锁定信号712、发送语音命令数据714或其组合。
因此,与传统的用户认证技术相比,方法2500使用动态分类器以相对低的复杂度、低功耗和高精度来认证用户以选择性地访问特定设备。
图25的方法2500可由现场可编程门阵列(FPGA)设备、专用集成电路(ASIC)、处理单元(例如中央处理单元(CPU))、数字信号处理器(DSP)、控制器、另一硬件设备、固件设备或其任何组合实施。作为示例,图25的方法2500可以由执行指令的处理器来执行,诸如参照图31所描述的。
参考图26,示出了基于动态分类器的设备操作的方法2600的特定实现。在特定方面中,方法2600的一个或多个操作由图1的特征提取器130、动态分类器140、处理器190、设备102、系统100、图8的第一处理器810、第二处理器812、关键字检测器814、处理器890、设备802、系统800中的至少一者或其组合执行。
方法2600包含在2602处在第一处理器处接收与音频数据相关联的音频数据样本。例如,图1的特征提取器130接收与麦克风110的输出相对应的音频数据样本116,如参考图1所描述的。作为另一实例,第一处理器890接收音频数据样本816,如参考图8所描述。
方法2600包含在2604处在第一处理器处将音频数据样本提供到动态分类器,动态分类器被配置以产生对应于音频数据样本的分类输出。例如,如参考图1所述,图1的特征提取器130基于音频数据样本116生成特征数据132,并将表示音频数据样本116的特征数据132提供给动态分类器140,并且动态分类器140生成分类输出142。作为另一实例,如参考图8所描述,处理器890(例如,第一处理器810)将音频数据样本816(或音频数据样本816的特征数据表示)提供到动态分类器840,且动态分类器840产生分类输出842。
方法2600包含在2606处,在第二处理器处处理音频数据以基于分类输出执行关键字检测。例如,图1的话音命令处理操作152可以基于响应于分类输出142而生成的认证150来执行关键字检测,如参考图1所描述。作为另一实例,如参考图8所描述,处理器890(例如,第二处理器812)基于分类输出842在关键字检测器814处处理音频数据样本816。
与常规用户认证技术相比,方法2600通过使用动态分类器140以相对低的复杂度、低功耗和高准确度基于用户语音样本在用户之间进行区分来改善设备的性能。与对所有接收到的音频数据执行关键字检测的系统相比,基于分类输出842执行关键字检测降低了功耗。
图26的方法2600可由现场可编程门阵列(FPGA)设备、专用集成电路(ASIC)、处理单元(例如,中央处理单元(CPU))、数字信号处理器(DSP)、控制器、另一硬件设备、固件设备或其任何组合实施。作为示例,图26的方法2600可以由执行诸如参考图31描述的指令的处理器来执行。
参考图27,示出了基于动态分类器的设备操作的方法2700的特定实现。在特定方面中,方法2700的一个或多个操作由图1的特征提取器130、动态分类器140、处理器190、设备102、系统100、图9的处理器990、设备902、系统900或其组合中的至少一者执行。
方法2700包括在2702处,在处理器处接收与多模态输入相关联的一个或多个数据样本。举例来说,图1的处理器190接收对应于麦克风110的输出的音频数据样本116及对应于一个或多个传感器180的数据样本186,例如来自相机196的图像数据,如参考图1所描述。作为另一实例,处理器990例如经由合并数据样本918接收音频数据样本916、图像数据样本950和指纹数据样本952,如参看图9所描述。
方法2700包括在2704处,在处理器处将一个或多个数据样本提供给动态分类器,动态分类器被配置以生成对应于一个或多个数据样本的分类输出。例如,如参考图1所描述的,图1的特征提取器130基于音频数据样本116和数据样本186生成特征数据132,并将表示数据样本的特征数据132提供给动态分类器140,并且动态分类器140生成分类输出142。作为另一示例,如参考图9所描述的,处理器990将合并数据样本918(或表示合并样本918的特征数据932)提供给动态分类器940,并且动态分类器940生成分类输出942。
方法2700包含在2706处响应于分类输出而选择性地授权对特定设备的访问。例如,如参考图1所描述的,设备102可以响应于分类输出142对应于与一个或多个许可141相关联的认证150而授权对设备160的访问。作为另一实例,如参看图9所描述,处理器990基于分类输出942选择性地授权对设备960的访问。
通过基于多模态数据样本生成分类输出,方法2700使得能够基于各种标准或标准的组合来认证用户和访问特定设备。例如,基于访问特定设备所需的许可级别,认证基于多种输入模式(例如,音频、视觉或指纹)的任何组合。作为另一示例,当不能使用输入模式中的单个输入模式以阈值置信度认证用户时,多个输入模式的使用使得能够在认证用户时建立阈值置信度。
图27的方法2700可由现场可编程门阵列(FPGA)设备、专用集成电路(ASIC)、处理单元(例如中央处理单元(CPU))、数字信号处理器(DSP)、控制器、另一硬件设备、固件设备或其任何组合实施。作为示例,图27的方法2700可以由执行诸如参考图31描述的指令的处理器来执行。
参考图28,示出了基于动态分类器的设备操作的方法2800的特定实现。在特定方面中,方法2800的一个或多个操作由以下各项中的至少一者执行:图1的特征提取器130、动态分类器140、处理器190、设备102、系统100、图10的动态分类器1092、第一动态分类器1040、第二动态分类器1044、处理器1090、设备1002、系统1000,或其组合。
方法2800包括在2802处,在处理器处接收与多模态输入相关联的一个或多个数据样本。举例来说,图1的处理器190接收对应于麦克风110的输出的音频数据样本116及对应于一个或多个传感器180的数据样本186,例如来自相机196的图像数据,如参考图1所描述。作为另一实例,处理器1090接收基于由麦克风101捕获的音频数据的音频数据样本1016和基于由相机1096捕获的图像数据的非音频数据样本1086,如参考图10所描述。
方法2800包括将一个或多个数据样本提供给动态分类器,动态分类器包括第一动态分类器和第二动态分类器,第一动态分类器被配置以接收音频数据样本并基于多个用户的语音特性在与多个用户相关联的分类之间进行区分以生成第一分类输出,第一分类输出指示与音频数据样本相关联的特定分类的数字标识符,并且第二动态分类器被配置以接收非音频数据样本并生成第二分类输出。在2804处,第二分类输出指示与非音频数据样本相关联的特定分类的数字标识符。举例来说,如参考图10所描述,处理器1090将音频数据样本1016(或音频数据样本1016的特征数据表示)及非音频样本1086(或非音频数据样本1086的特征数据表示)提供到动态分类器1092。第一动态分类器1040生成指示数字标识符1020的第一分类输出1042,第二动态分类器1044生成指示数字标识符1022的第二分类输出1046,或其组合。
方法2800包含在2806处响应于第一分类输出和第二分类输出中的至少一个而选择性地授权对特定设备的访问。举例来说,如参看图10所描述,处理器1090基于响应于第一分类输出1042、第二分类输出1046或其组合而产生的认证1050和访问授权1052而选择性地授权对设备1060的访问。
通过基于对应于多模态输入的数据样本生成分类输出,方法2700使得能够基于各种标准或标准的组合来认证用户和访问特定设备。例如,对特定设备的访问可以基于音频数据、其中用户可视地指示用户的分类数字标识符的图像数据、或其组合。当用户不能或选择不使用输入模式中的一个进行认证时,使用多个输入模式实现用户的认证。
图28的方法2800可由现场可编程门阵列(FPGA)设备、专用集成电路(ASIC)、处理单元(例如中央处理单元(CPU))、数字信号处理器(DSP)、控制器、另一硬件设备、固件设备或其任何组合实施。作为示例,图28的方法2800可以由执行指令的处理器来执行,诸如参照图31所描述的。
参看图29,展示基于动态分类器的设备操作的方法2900的特定实施方案。在特定方面中,方法2900的一个或多个操作由图1的特征提取器130、动态分类器140、处理器190、设备102、系统100、图11的动态分类器1192、第一动态分类器1140、第二动态分类器1144、处理器1190、设备1102、系统1100或其组合中的至少一者执行。
方法2900包含在2902处在处理器处接收对应于声学环境的音频数据样本。例如,图1的特征提取器130接收与麦克风110的输出相对应的音频数据样本116,如参考图1所描述的。作为另一实例,处理器1190接收对应于设备1102的声学环境的音频数据样本1116,如参看图11所描述。
方法2900包含在2904处在处理器处将音频数据样本提供到动态分类器,所述动态分类器被配置以区分语音与噪声以产生对应于音频数据样本的分类输出。例如,如参考图11所述,处理器1190将音频数据样本1116(或音频数据样本1116的特征数据表示)提供给动态分类器1192,并且动态分类器1192生成对应于语音分类1120或噪声分类1122的第一分类输出1142、对应于用户分类1124或非用户语音分类1126之一的第二分类输出1146或其组合。
方法2900包含在2906处响应于分类输出而选择性地授权对特定设备的访问。例如,如参考图1所描述的,设备102可以响应于分类输出142对应于与一个或多个许可141相关联的认证150而授权对设备160的访问。作为另一实例,如参看图11所描述,处理器1190基于对应于认证1150的访问授权1152选择性地授权对设备1160的访问,所述访问授权是基于对应于语音分类1120或噪声分类1122的第一分类输出1142、对应于用户分类1124或非用户语音分类1126中的一者的第二分类输出1146或其组合。
方法2900使得能够基于具有相对低复杂度、低功耗和高准确度的音频数据样本来区分用户语音和除用户语音之外的音频。另外,方法2900还可以实现在先前分类的用户的语音以及来自未分类的用户的语音之间的区分。可以处理非语音音频以确定上下文,用于降噪或其组合。
图29的方法2900可由现场可编程门阵列(FPGA)设备、专用集成电路(ASIC)、处理单元(例如中央处理单元(CPU))、数字信号处理器(DSP)、控制器、另一硬件设备、固件设备或其任何组合实施。作为示例,图29的方法2900可以由执行诸如参考图31描述的指令的处理器来执行。
参考图30,示出了基于动态分类器的设备操作的方法3000的特定实现。在特定方面中,方法3000的一个或多个操作由图1的特征提取器130、动态分类器140、处理器190、设备102、系统100、图12的动态分类器1240、处理器1290、设备1202、系统1200或其组合中的至少一者执行。
方法3000包括在3002处,在处理器处接收来自图像数据的图像数据样本。举例来说,图1的特征提取器130接收数据样本186(例如,基于对应于相机196的输出的图像数据),如参考图1所描述。作为另一实例,处理器1290基于由相机1296捕获的图像数据接收图像数据样本1286,如参考图12所描述。
方法3000包含在3004处在处理器处将图像数据样本提供到动态分类器,动态分类器被配置以至少部分地基于面部特性在多个人之间进行区分以产生对应于图像数据样本的分类输出。举例来说,如参考图12所描述,处理器1290将图像数据样本1286(或图像数据样本1286的特征数据表示)提供到动态分类器1240,且动态分类器1240至少部分地基于面部特性1206而产生分类输出1242。
方法3000包含在3006处响应于分类输出而选择性地授权对特定设备的访问。举例来说,图12的处理器1290至少部分地基于分类输出1242确定访问设备1260的认证1250和相关联访问授权1252,如参考图12所描述。
与使用基于面部识别的认证技术的常规系统相比,方法3000通过使用动态分类器以相对低的复杂度、低功耗和高精度基于面部特征在用户之间进行区分来改善用户认证的性能。
图30的方法3000可由现场可编程门阵列(FPGA)设备、专用集成电路(ASIC)、处理单元(例如中央处理单元(CPU))、数字信号处理器(DSP)、控制器、另一硬件设备、固件设备或其任何组合实施。作为示例,图30的方法3000可以由执行指令的处理器来执行,诸如参考图31所描述的。
参看图31,描绘设备的特定说明性实施方案的框图且通常将其指定为3100。在各种实施方案中,设备3100可具有比图31中所说明的组件更多或更少的组件。在说明性实施方案中,设备3100可对应于设备102。在说明性实现方式中,设备3100可以执行参考图1-30描述的一个或多个操作。
在特定实现中,设备3100包括处理器3106(例如,中央处理单元(CPU))。设备3100可以包括一个或多个附加处理器3110(例如,一个或多个DSP)。在特定方面,图1的处理器190对应于处理器3106、处理器3110或其组合。处理器3110可包含语音及音乐译码器-解码器(CODEC)3108,其包含语音译码器(“声码器”)编码器3136、声码器解码器3138、特征提取器130、动态分类器140或其组合。
设备3100可包含存储器3186及CODEC 3134。存储器3186可包含指令3156,所述指令3156可由一个或多个额外处理器3110(或处理器3106)执行以实施参考特征提取器130、动态分类器140或两者所描述的功能性。设备3100可以包括经由收发机3150耦合到天线3152的调制解调器170。
设备3100可以包括耦合到显示控制器3126的显示器3128。扬声器3192、麦克风110和传感器180可耦合到CODEC 3134。编解码器3134可包含数/模转换器(DAC)3102、模/数转换器(ADC)3104或两者。在特定实施方案中,CODEC 3134可从麦克风110及传感器180接收模拟信号,使用模/数转换器3104将模拟信号转换成数字信号,且将数字信号提供到语音及音乐codec 3108。语音及音乐编码解码器3108可处理数字信号,且数字信号可进一步由特征提取器130及动态分类器140处理。在特定实施方案中,语音及音乐编解码器3108可将数字信号提供到编解码器3134。编解码器3134可使用数模转换器3102将数字信号转换为模拟信号,且可将模拟信号提供到扬声器3192。
在特定实施方案中,设备3100可包含于系统级封装或芯片上系统设备3122中。在特定实施方案中,存储器3186、处理器3106、处理器3110、显示控制器3126、CODEC 3134及调制解调器170包含于系统级封装或芯片上系统设备3122中。在特定实现中,输入设备3130和电源3144耦合到片上系统设备3122。此外,在特定实施方案中,如图31中所说明,显示器3128、输入设备3130、扬声器3192、麦克风110、传感器180、天线3152及电源3144在芯片上系统设备3122外部。在特定实施方案中,显示器3128、输入设备3130、扬声器3192、麦克风110、传感器180、天线3152和电源3144中的每一者可耦合到芯片上系统设备3122的组件,例如接口(例如,第一输入接口114或第二输入接口184)或控制器。
设备3100可以包括智能扬声器、扬声器杆、移动通信设备、智能电话、蜂窝电话、膝上型计算机、计算机、平板电脑、个人数字助理、显示设备、电视、游戏控制台、音乐播放器、收音机、数字视频播放器、数字视频盘(DVD)播放器、调谐器、相机、导航设备、车辆、头戴设备、增强现实头戴设备、虚拟现实头戴设备、飞行器、家庭自动化系统、语音激活设备、无线扬声器和语音激活设备、便携式电子设备、汽车、车辆、计算设备、通信设备、物联网(IoT)设备、虚拟现实(VR)设备、基站、移动设备或其任何组合。
结合所描述的实施方案,第一装置包含用于接收音频数据样本的部件。举例来说,用于接收音频数据样本的部件可包含设备102、输入接口114、处理器190、特征提取器130、动态分类器140、被配置以接收音频数据样本的一个或多个其它电路或组件,或其任何组合。
第一装置包含用于基于音频数据样本产生特征数据的部件。举例来说,用于基于音频数据样本产生特征数据的部件可包含处理器190、特征提取器130、动态分类器140、被配置以基于音频数据样本产生特征数据的一个或多个其它电路或组件,或其任何组合。
第一装置包含用于在被配置以在多个用户之间进行区分的动态分类器处处理特征数据以产生分类输出的部件。举例来说,用于处理特征数据的部件可包含处理器190、动态分类器140、被配置以处理特征数据以产生分类输出的一个或多个其它电路或组件,或其任何组合。
第一装置包含用于至少部分地基于分类输出进行认证的部件。举例来说,用于认证的部件可包含处理器190、设备102、被配置以至少部分地基于分类输出进行认证的一个或多个其它电路或组件,或其任何组合。
结合所描述的实施方案,第二装置包含用于接收音频数据样本的部件。举例来说,用于接收音频数据样本的部件可包含设备602、处理器690、动态分类器640、被配置以接收音频数据样本的一个或多个其它电路或组件,或其任何组合。
所述第二装置包含用于将所述音频数据样本提供到动态分类器的部件,所述动态分类器被配置以产生对应于所述音频数据样本的分类输出。举例来说,用于将音频数据样本提供到动态分类器的部件可包含设备602、处理器690、动态分类器640、被配置以将音频数据样本提供到动态分类器的一个或多个其它电路或组件,或其任何组合。
第二装置包括用于响应于分类输出满足唤醒标准而将第二处理器转换到活动状态的部件。例如,用于将第二处理器转换到活动状态的部件可以包括设备602、处理器690、动态分类器640、激活电路330、被配置以响应于分类输出满足唤醒标准而将第二处理器转换到活动状态的一个或多个其他电路或组件、或其任何组合。
结合所描述的实施方案,第三装置包含用于接收音频数据样本的部件。举例来说,用于接收音频数据样本的部件可包含设备702、处理器790、动态分类器740、被配置以接收音频数据样本的一个或多个其它电路或组件,或其任何组合。
所述第三装置包含用于将所述音频数据样本提供到动态分类器的部件,所述动态分类器被配置以产生对应于所述音频数据样本的分类输出。举例来说,用于将音频数据样本提供到动态分类器的部件可包含设备702、处理器790、动态分类器740、被配置以将音频数据样本提供到动态分类器的一个或多个其它电路或组件,或其任何组合。
第三装置包含用于基于分类输出选择性地访问特定设备的部件。举例来说,用于基于分类输出选择性地访问特定设备的部件可包含设备702、处理器790、动态分类器740、调制解调器170、被配置以基于分类输出选择性地访问特定设备的一个或多个其它电路或组件,或其任何组合。
结合所描述的实施方案,第四装置包含用于接收与音频数据相关联的音频数据样本的部件。举例来说,用于接收音频数据样本的部件可包含设备802、处理器890、第一处理器810、第二处理器812、动态分类器840、被配置以接收音频数据样本的一个或多个其它电路或组件,或其任何组合。
所述第四装置包含用于将所述音频数据样本提供到动态分类器的部件,所述动态分类器被配置以产生对应于所述音频数据样本的分类输出。举例来说,用于将音频数据样本提供到动态分类器的部件可包含设备802、处理器890、第一处理器810、动态分类器840、被配置以将音频数据样本提供到动态分类器的一个或多个其它电路或组件,或其任何组合。
第四装置包含用于处理音频数据以基于分类输出执行关键字检测的部件。举例来说,用于处理音频数据以基于分类输出执行关键字检测的部件可以包含设备802、处理器890、第二处理器812、关键字检测器814、被配置以处理音频数据以基于分类输出执行关键字检测的一个或多个其它电路或组件,或其任何组合。
结合所描述的实施方式,第五装置包括用于接收与多模态输入相关联的一个或多个数据样本的部件。举例来说,用于接收一个或多个数据样本的部件可包含设备902、处理器990、动态分类器940、被配置以接收一个或多个数据样本的一个或多个其它电路或组件,或其任何组合。
所述第五装置包括用于将所述一个或多个数据样本提供给动态分类器的部件,所述动态分类器被配置以生成与所述一个或多个数据样本相对应的分类输出。举例来说,用于将一个或多个数据样本提供到动态分类器的部件可包含设备902、处理器990、动态分类器940、被配置以将一个或多个数据样本提供到动态分类器的一个或多个其它电路或组件,或其任何组合。
第五装置包含用于响应于分类输出而选择性地授权对特定设备进行访问的部件。举例来说,用于响应于分类输出而选择性地授权对特定设备进行访问的部件可包含设备902、处理器990、被配置以响应于分类输出而选择性地授权对特定设备进行访问的一个或多个其它电路或组件,或其任何组合。
结合所描述的实施方式,第六装置包括用于接收与多模态输入相关联的一个或多个数据样本的部件。举例来说,用于接收一个或多个数据样本的部件可包含设备1002、处理器1090、动态分类器1092、第一动态分类器1040、第二动态分类器1044、被配置以接收一个或多个数据样本的一个或多个其它电路或组件,或其任何组合。
所述第六装置包括:用于将所述一个或多个数据样本提供给动态分类器的部件。动态分类器包括第一动态分类器和第二动态分类器。第一动态分类器被配置以接收音频数据样本,并且基于多个用户的语音特性在与多个用户相关联的分类之间进行区分,以生成第一分类输出。第一分类输出指示与音频数据样本相关联的特定分类的数字标识符。第二动态分类器被配置以接收非音频数据样本并生成第二分类输出。第二分类输出指示与非音频数据样本相关联的特定分类的数字标识符。举例来说,用于将一个或多个数据样本提供到动态分类器的部件可包含设备1002、处理器1090、第一动态分类器1040、第二动态分类器1044、被配置以将一个或多个数据样本提供到动态分类器的一个或多个其它电路或组件,或其任何组合。
第六装置包含用于响应于第一分类输出和第二分类输出中的至少一个而选择性地授权对特定设备进行访问的部件。举例来说,用于响应于第一分类输出和第二分类输出中的至少一个而选择性地授权对特定设备进行访问的部件可包含设备1002、处理器1090、被配置以响应于第一分类输出和第二分类输出中的至少一个而选择性地授权对特定设备进行访问的一个或多个其它电路或组件,或其任何组合。
结合所描述的实施方案,第七装置包含用于接收对应于声学环境的音频数据样本的部件。举例来说,用于接收对应于声学环境的音频数据样本的部件可包含设备1102、处理器1190、动态分类器1192、第一动态分类器1140、第二动态分类器1144、被配置以接收对应于声学环境的音频数据样本的一个或多个其它电路或组件,或其任何组合。
第七装置包含用于将音频数据样本提供到动态分类器的部件,动态分类器被配置以区分语音与噪声以产生对应于音频数据样本的分类输出。举例来说,用于将音频数据样本提供到动态分类器的部件可包含设备1102、处理器1190、第一动态分类器1140、被配置以将音频数据样本提供到动态分类器的一个或多个其它电路或组件,或其任何组合。
第七装置包含用于响应于分类输出而选择性地授权对特定设备进行访问的部件。举例来说,用于响应于分类输出而选择性地授权对特定设备进行访问的部件可包含设备1102、处理器1190、被配置以响应于分类输出而选择性地授权对特定设备进行访问的一个或多个其它电路或组件,或其任何组合。
结合所描述的实施方案,第八装置包含用于从图像数据接收图像数据样本的部件。举例来说,用于从图像数据接收图像数据样本的部件可包含设备1202、处理器1290、动态分类器1240、被配置以从图像数据接收图像数据样本的一个或多个其它电路或组件,或其任何组合。
所述第八装置包含用于将所述图像数据样本提供到动态分类器的部件,所述动态分类器被配置以至少部分地基于面部特性在多个人之间进行区分以产生对应于所述图像数据样本的分类输出。举例来说,用于将图像数据样本提供到动态分类器的部件可包含设备1202、处理器1290、动态分类器1240、被配置以将图像数据样本提供到动态分类器的一个或多个其它电路或组件,或其任何组合。
第八装置包含用于响应于分类输出而选择性地授权对特定设备进行访问的部件。举例来说,用于响应于分类输出而选择性地授权对特定设备进行访问的部件可包含设备1202、处理器1290、动态分类器1240、被配置以响应于分类输出而选择性地授权对特定设备进行访问的一个或多个其它电路或组件,或其任何组合。
在一些实现中,非暂时性计算机可读介质(例如,计算机可读存储设备,诸如存储器3186)包括指令(例如,指令3156),这些指令在由一个或多个处理器(例如,一个或多个处理器3110或处理器3106)执行时使得该一个或多个处理器执行对应于以下各项的操作:图23的方法2300、图24的方法2400、图25的方法2500、图26的方法2600、图27的方法2700、图28的方法2800、图29的方法2900、图30的方法3000或其任何组合。
下面在一组相互关联的条款中描述本公开的特定方面:
根据条款1一种设备包括:第一处理器,被配置以:接收音频数据样本;以及将所述音频数据样本提供给动态分类器,所述动态分类器被配置以生成与所述音频数据样本相对应的分类输出;以及第二处理器,其被配置以响应于所述分类输出满足唤醒标准而转换到活动状态。
条款2包括如条款1所述的设备,其中,所述音频数据样本对应于特征数据,并且其中,所述第一处理器还被配置以基于所接收的音频数据来生成所述特征数据。
条款3包括如条款2所述的设备,其中,所述特征数据包括音调数据和共振峰数据。
条款4包括如条款1至3中任一项所述的设备,其中,所述唤醒标准与所接收的音频数据中关键字的存在无关。
条款5包括如条款1至4中任一项所述的设备,其中动态分类器被配置以区分多个音频源,并且其中唤醒标准包括对应于检测到的语音的分类输出。
条款6包括如条款1至4中任一项所述的设备,其中唤醒标准包括对应于与授权用户相关联的分类的分类输出。
根据条款7一种方法包括:在第一处理器处接收音频数据样本;在所述第一处理器处将所述音频数据样本提供给动态分类器,所述动态分类器被配置以生成与所述音频数据样本相对应的分类输出;以及响应于所述分类输出满足唤醒标准,将第二处理器转换到活动状态。
根据条款8一种非暂时性计算机可读介质包括指令,所述指令在由一个或多个处理器执行时使得所述一个或多个处理器:在第一处理器处接收音频数据样本;在所述第一处理器处将所述音频数据样本提供给动态分类器,所述动态分类器被配置以生成与所述音频数据样本相对应的分类输出;以及响应于分类输出满足唤醒标准而将第二处理器转换到活动状态。
根据条款9一种装置包括:用于接收音频数据样本的部件;用于将所述音频数据样本提供给动态分类器的部件,所述动态分类器被配置以生成与所述音频数据样本相对应的分类输出;以及用于响应于所述分类输出满足唤醒标准而将第二处理器转换到活动状态的部件。
根据条款10一种设备包括:处理器,其被配置以:接收音频数据样本;将所述音频数据样本提供给动态分类器,所述动态分类器被配置以生成与所述音频数据样本相对应的分类输出;以及基于分类输出选择性地访问特定设备。
条款11包括如条款10所述的设备,其中选择性地访问所述特定设备包括响应于所述分类输出对应于被授权访问所述特定设备的分类而发送第一信号以解锁对所述特定设备的访问。
条款12包括如条款10所述的设备,其中选择性地访问所述特定设备包括响应于所述分类输出对应于未被授权访问所述特定设备的分类而发送第二信号以锁定对所述特定设备的访问。
条款13包括如条款10或条款11所述的设备,其中选择性地访问所述特定设备包括响应于与被授权访问所述特定设备的类相对应的所述分类输出,向所述特定设备发送指示与所述音频数据样本相关联的语音命令的数据。
条款14包括如条款10至13中任一项所述的设备,进一步包括耦合到所述处理器的所述特定设备。
条款15包括如条款10至14中任一项所述的设备,还包括耦合到处理器的调制解调器,并且其中选择性地访问特定设备包括经由调制解调器向特定设备无线传输信号。
条款16包括如条款10至15中任一项所述的设备,其中,所述动态分类器被配置成至少部分地基于语音特性来在多个用户之间进行区分以生成所述分类输出。
条款17包括如条款10至16中任一项所述的设备,其中,所述动态分类器还被配置以区分源自距所述设备阈值距离内的源的语音和源自距所述设备超过所述阈值距离的源的语音,并且其中,所述处理器还被配置以基于所述源超过所述阈值距离来拒绝对所述特定设备的访问。
条款18包括如条款10至17中任一项所述的设备,其中处理器还被配置以基于在检测到来自被授权访问特定设备的第一人的语音的阈值持续时间内检测到来自第二人的语音来拒绝对特定设备的访问。
条款19包括如条款10至18中任一项所述的设备,进一步包括耦合至所述处理器的存储器,所述存储器包括将所述动态分类器的分类输出与关联于所述特定设备的一个或多个访问许可相关联的表。
条款20包括如条款10至19中任一项所述的设备,其中,是否访问所述特定设备的确定独立于与所述音频数据样本相关联的所接收的音频数据中的关键字的存在。
根据条款21一种方法包括:在处理器处接收音频数据样本;在所述处理器处将所述音频数据样本提供给动态分类器,所述动态分类器被配置以生成与所述音频数据样本相对应的分类输出;以及基于分类输出选择性地访问特定设备。
根据条款22一种非暂时性计算机可读介质包括指令,所述指令在由一个或多个处理器执行时使得所述一个或多个处理器:接收音频数据样本;将所述音频数据样本提供给动态分类器,所述动态分类器被配置以生成与所述音频数据样本相对应的分类输出;以及基于分类输出选择性地访问特定设备。
根据条款23一种设备包括:用于接收音频数据样本的部件;用于将所述音频数据样本提供给动态分类器的部件,所述动态分类器被配置以生成与所述音频数据样本相对应的分类输出;以及用于基于分类输出选择性地访问特定设备的部件。
根据条款24一种设备包括:一个或多个处理器,其被配置以:接收与音频数据相关联的音频数据样本;将所述音频数据样本提供给动态分类器,所述动态分类器被配置以生成与所述音频数据样本相对应的分类输出;以及处理音频数据以基于分类输出执行关键字检测。
条款25包括如条款24所述的设备,其中,所述一个或多个处理器包括:包括所述动态分类器的第一处理器;以及第二处理器,其被配置以执行关键字检测,其中基于指示语音的分类输出激活第二处理器。
条款26包括如条款25所述的设备,其中所述动态分类器被配置成至少部分地基于语音特性在多个用户之间进行区分以生成所述分类输出,并且其中所述第二处理器被配置成响应于所述分类输出指示授权用户而执行所述关键字检测。
根据条款27一种方法包括:在第一处理器处接收与音频数据相关联的音频数据样本;在所述第一处理器处将所述音频数据样本提供给动态分类器,所述动态分类器被配置以生成与所述音频数据样本相对应的分类输出;以及在第二处理器处处理音频数据以基于分类输出执行关键字检测。
根据条款28一种非暂时性计算机可读介质包括指令,所述指令在由一个或多个处理器执行时使得所述一个或多个处理器:接收与音频数据相关联的音频数据样本;将所述音频数据样本提供给动态分类器,所述动态分类器被配置以生成与所述音频数据样本相对应的分类输出;以及处理音频数据以基于分类输出执行关键字检测。
根据条款29一种装置包括:用于接收与音频数据相关联的音频数据样本的部件;用于将所述音频数据样本提供给动态分类器的部件,所述动态分类器被配置以生成与所述音频数据样本相对应的分类输出;以及用于处理音频数据以基于分类输出执行关键字检测的部件。
根据条款30一种设备包括:一个或多个处理器,被配置以:接收与多模态输入相关联的一个或多个数据样本;将所述一个或多个数据样本提供给动态分类器,所述动态分类器被配置以生成与所述一个或多个数据样本相对应的分类输出;以及响应于所述分类输出选择性地授权对特定设备的访问。
条款31包括如条款30所述的设备,其中所述一个或多个数据样本包括图像数据样本,并且其中所述动态分类器被配置以至少部分地基于面部特性在多个用户之间进行区分以生成所述分类输出。
条款32包括如条款30或条款31所述的设备,其中所述一个或多个数据样本包括音频数据样本,并且其中所述动态分类器被配置以至少部分地基于语音特性在多个用户之间进行区分以生成所述分类输出。
条款33包括如条款30至32中任一项所述的设备,其中,所述一个或多个数据样本包括指纹数据样本,并且其中,所述动态分类器被配置以至少部分地基于指纹特性在多个用户之间进行区分以生成所述分类输出。
条款34包括如条款30至33中任一项所述的设备,其中,所述一个或多个数据样本包括被配置以表示音频数据样本、图像数据样本和指纹数据样本中的至少两个的合并数据样本,并且其中,所述动态分类器被配置以基于所述合并数据样本在多个用户之间进行区分以生成所述分类输出。
根据条款35一种方法包括:在处理器处接收与多模态输入相关联的一个或多个数据样本;在所述处理器处将所述一个或多个数据样本提供给动态分类器,所述动态分类器被配置以生成与所述一个或多个数据样本相对应的分类输出;以及响应于所述分类输出选择性地授权对特定设备的访问。
根据条款36一种非暂时性计算机可读介质包括指令,所述指令在由一个或多个处理器执行时使得所述一个或多个处理器:接收与多模态输入相关联的一个或多个数据样本;将所述一个或多个数据样本提供给动态分类器,所述动态分类器被配置以生成与所述一个或多个数据样本相对应的分类输出;以及响应于所述分类输出选择性地授权对特定设备的访问。
根据条款37一种设备包括:用于接收与多模态输入相关联的一个或多个数据样本的设备;用于将所述一个或多个数据样本提供给动态分类器的单元,所述动态分类器被配置以生成与所述一个或多个数据样本相对应的分类输出;以及用于响应于所述分类输出而选择性地授权对特定设备的访问的设备。
根据条款38一种设备包括:一个或多个处理器,被配置以:接收与多模态输入相关联的一个或多个数据样本;将所述一个或多个数据样本提供给动态分类器,所述动态分类器包括:第一动态分类器,其被配置以:接收音频数据样本;以及基于多个用户的语音特征来区分与多个用户相关联的分类以生成第一分类输出,第一分类输出指示与音频数据样本相关联的特定分类的数字标识符;以及第二动态分类器,其被配置以:接收非音频数据样本;以及生成第二分类输出,所述第二分类输出指示与所述非音频数据样本相关联的特定分类的数字标识符;以及响应于所述第一分类输出和所述第二分类输出中的至少一个而选择性地授权对特定设备的访问。
条款39包括如条款38所述的设备,还包括耦合到所述一个或多个处理器的相机,其中所述一个或多个数据样本包括来自由所述相机捕获的图像数据的图像数据样本,并且其中所述第二动态分类器被配置以基于所述图像数据中的所述数字标识符的视觉指示来生成所述第二分类输出。
条款40包括如条款39所述的设备,其中图像数据中的数字标识符的视觉指示包括用户之一的扩展数字的计数。
条款41包括如条款38至40中任一项所述的设备,还包括耦合到一个或多个处理器的显示设备,其中一个或多个处理器被配置以经由显示设备发起数字标识符的显示。
根据条款42一种方法包括:在处理器处接收与多模态输入相关联的一个或多个数据样本;将所述一个或多个数据样本提供给动态分类器,所述动态分类器包括:第一动态分类器,其被配置以:接收音频数据样本;以及基于多个用户的语音特征来区分与多个用户相关联的分类以生成第一分类输出,第一分类输出指示与音频数据样本相关联的特定分类的数字标识符;以及第二动态分类器,其被配置以:接收非音频数据样本;以及生成第二分类输出,所述第二分类输出指示与所述非音频数据样本相关联的特定分类的数字标识符;以及响应于所述第一分类输出和所述第二分类输出中的至少一个而选择性地授权对特定设备的访问。
根据条款43一种非暂时性计算机可读介质包括指令,所述指令在由一个或多个处理器执行时使得所述一个或多个处理器:接收与多模态输入相关联的一个或多个数据样本;将所述一个或多个数据样本提供给动态分类器,所述动态分类器包括:第一动态分类器,其被配置以:接收音频数据样本;以及基于多个用户的语音特征来区分与多个用户相关联的分类以生成第一分类输出,第一分类输出指示与音频数据样本相关联的特定分类的数字标识符;以及第二动态分类器,其被配置以:接收非音频数据样本;以及生成第二分类输出,所述第二分类输出指示与所述非音频数据样本相关联的特定分类的数字标识符;以及响应于所述第一分类输出和所述第二分类输出中的至少一个而选择性地授权对特定设备的访问。
根据条款44一种装置包括:用于接收与多模态输入相关联的一个或多个数据样本的部件;用于将所述一个或多个数据样本提供给动态分类器的部件,所述动态分类器包括:第一动态分类器,其被配置以:接收音频数据样本;以及基于多个用户的语音特征来区分与多个用户相关联的分类以生成第一分类输出,第一分类输出指示与音频数据样本相关联的特定分类的数字标识符;以及第二动态分类器,其被配置以:接收非音频数据样本;以及生成第二分类输出,所述第二分类输出指示与所述非音频数据样本相关联的特定分类的数字标识符;以及用于响应于所述第一分类输出和所述第二分类输出中的至少一者而选择性地授权对特定设备的访问的部件。
根据条款45一种设备包括:一个或多个处理器,其被配置以:接收对应于声学环境的音频数据样本;将所述音频数据样本提供给动态分类器,所述动态分类器被配置以区分语音和噪声以生成与所述音频数据样本相对应的分类输出;以及响应于所述分类输出选择性地授权对特定设备的访问。
条款46包括如条款45所述的设备,其中所述动态分类器被配置以从由所述动态分类器识别的多个分类中对所述音频数据样本进行分类,所述多个分类包括:对应于一个或多个先前分类的用户的一个或多个用户分类;非用户语音分类,所述非用户语音分类对应于来自除所述一个或多个先前分类的用户之外的某人的语音;以及对应于非语音音频的噪声分类。
条款47包括如条款45或条款46所述的设备,还包括第二动态分类器,所述第二动态分类器被配置以在多个分类之间进行区分,所述多个分类包括:对应于一个或多个先前分类的用户的一个或多个用户分类;以及与来自所述一个或多个先前分类的用户的语音之外的音频相对应的默认分类。
条款48包括如条款47所述的设备,其中所述一个或多个处理器还被配置以响应于所述第二动态分类器将所述音频数据样本分类为所述默认分类而将所述音频数据样本提供给所述动态分类器。
条款49包括如条款45至48中任一项所述的设备,其中,所述一个或多个处理器还被配置以:响应于所述分类输出指示所述音频数据样本对应于噪声,识别与所述音频数据样本相关联的上下文。
条款50包括如条款45至49中任一项所述的设备,其中,所述一个或多个处理器还被配置成:响应于所述分类输出指示所述音频数据样本对应于噪声,处理对应于所述音频数据样本的音频数据以至少部分地去除所述音频数据的噪声分量。
根据条款51一种方法包括:在处理器处接收对应于声学环境的音频数据样本;在所述处理器处将所述音频数据样本提供给动态分类器,所述动态分类器被配置以区分语音和噪声以生成与所述音频数据样本相对应的分类输出;以及响应于所述分类输出选择性地授权对特定设备的访问。
根据条款52一种非暂时性计算机可读介质包括指令,所述指令在由一个或多个处理器执行时使得所述一个或多个处理器:接收对应于声学环境的音频数据样本;将所述音频数据样本提供给动态分类器,所述动态分类器被配置以区分语音和噪声以生成与所述音频数据样本相对应的分类输出;以及响应于所述分类输出选择性地授权对特定设备的访问。
根据条款53一种设备包含:用于接收对应于声学环境的音频数据样本的设备;用于将所述音频数据样本提供给动态分类器的部件,所述动态分类器被配置以区分语音和噪声以生成对应于所述音频数据样本的分类输出;以及用于响应于所述分类输出而选择性地授权对特定设备的访问的设备。
根据条款54一种设备包括:一个或多个处理器,其被配置以:从图像数据接收图像数据样本;将所述图像数据样本提供给动态分类器,所述动态分类器被配置以至少部分地基于面部特性在多个人之间进行区分,以生成对应于所述图像数据样本的分类输出;以及响应于所述分类输出选择性地授权对特定设备的访问。
条款55包括如条款54所述的设备,还包括相机,所述相机耦合到所述一个或多个处理器并且被配置以捕获所述图像数据。
条款56包括如条款54或条款55所述的设备,其中,所述动态分类器还被配置以基于所述图像数据样本来指示对多个人的检测,并且其中,所述一个或多个处理器还被配置以响应于动态分类器指示对多个人的检测而拒绝对所述特定设备的访问。
根据条款57一种方法包括:在处理器处接收来自图像数据的图像数据样本;在所述处理器处将所述图像数据样本提供到动态分类器,所述动态分类器被配置以至少部分地基于面部特性在多个人之间进行区分,以产生对应于所述图像数据样本的分类输出;以及响应于所述分类输出选择性地授权对特定设备的访问。
根据条款58一种非暂时性计算机可读介质包括指令,所述指令在由一个或多个处理器执行时使得所述一个或多个处理器:从图像数据接收图像数据样本;将所述图像数据样本提供给动态分类器,所述动态分类器被配置以至少部分地基于面部特性在多个人之间进行区分,以生成对应于所述图像数据样本的分类输出;以及响应于所述分类输出选择性地授权对特定设备的访问。
根据条款59一种装置包括:用于从图像数据接收图像数据样本的部件;用于将所述图像数据样本提供到动态分类器的不健康,所述动态分类器被配置以至少部分地基于面部特性在多个人之间进行区分以产生对应于所述图像数据样本的分类输出;以及用于响应于所述分类输出而选择性地授权对特定设备的访问的部件。
根据条款60一种设备包括:一个或多个处理器,其被配置以:接收音频数据样本;基于所述音频数据样本生成特征数据;在动态分类器处处理所述特征数据以生成分类输出,所述动态分类器被配置以基于语音特性在多个用户之间进行区分;以及至少部分地基于分类输出来确定认证。
条款61包括如条款60所述的设备,还包括麦克风,所述麦克风耦合到所述一个或多个处理器并且被配置以捕获音频数据以生成所述音频数据样本。
条款62包括如条款60或条款61所述的设备,其中所述特征数据包括与语音相关联的音调数据和共振峰数据。
条63包括如条款62所述的设备,其中动态分类器被配置以执行短语相关的分类,并且其中特征数据还包括持续时间数据和短语特定的音节提示。
条款64包括如条款60至63中任一项所述的设备,其中,所述一个或多个处理器还被配置以在生成所述特征数据之前将所述音频数据样本变换到变换域。
条款65包括如条款60至64中任一项所述的设备,还包括耦合到一个或多个处理器的存储器,该存储器包括将动态分类器的分类输出与多个用户中的特定用户相关联的表。
条款66包含如条款65所述的设备,其中所述一个或多个处理器进一步被配置以在注册操作期间填充所述表。
条款67包括如条款65或条款66所述的设备,其中所述一个或多个处理器还被配置以至少部分地基于用户标识数据来填充所述表。
条款68包括如条款67所述的设备,还包括耦合到所述一个或多个处理器的相机,所述相机被配置以捕获说话用户的图像并将与所述图像相对应的数据作为所述用户识别数据发送到所述一个或多个处理器。
条款69包括如条款60至68中任一项所述的设备,还包括耦合到一个或多个处理器的存储器,该存储器包括将动态分类器的分类输出关联到与特定设备相关联的一个或多个访问许可的表。
条款70包括如条款69所述的设备,其中,所述一个或多个处理器还被配置以从多个动态分类器中选择所述动态分类器,所述多个动态分类器中的每一个动态分类器对应于用于多个设备中的相应设备的认证网络,并且其中,所述动态分类器是基于访问所述特定设备的用户指示来选择的。
条款71包括如条款69或条款70所述的设备,其中,所述一个或多个访问许可中的至少一个访问许可是时间相关的。
条款72包括如条款60至71中任一项所述的设备,其中,所述动态分类器被配置成用于基于所述特征数据与所述动态分类器中的节点值的相似性来自适应地聚类特征数据集,并且其中,各个聚类对应于所述多个用户中的相应用户。
条款73包括如条款60至72中任一项所述的设备,其中所述一个或多个处理器还被配置以基于所述特征数据来更新所述动态分类器的聚类操作,以使所述动态分类器适应与特定用户的语音输入相关联的变化、为未分类的用户添加分类、或两者。
条款74包括如条款60至73中任一项所述的设备,其中,所述一个或多个处理器还被配置以更新所述动态分类器的分类决策标准。
条款75包括如条款60至74中任一项所述的设备,其中,所述动态分类器包括自组织映射。
条款76包括如条款60至74中任一项所述的设备,其中动态分类器被配置以根据受限玻尔兹曼机执行主分量分析、独立分量分析或语音特征空间的无监督划分中的至少一个。
条款77包括如条款60至76中任一项所述的设备,其中,所述一个或多个处理器还被配置以对所述动态分类器可区分的用户的数量实施一上限。
条款78包括如条款60至77中任一项所述的设备,其中,所述一个或多个处理器还被配置以至少部分地基于与新用户的语音相对应的特征向量与所述动态分类器的现有节点之间的相似性度量来更新所述动态分类器以注册所述新用户。
条款79包括如条款60至78中任一项所述的设备,其中,所述一个或多个处理器还被配置以与第二表现度量相比,至少部分地基于第一表现度量来确定是否更新所述动态分类器以注册新用户,所述第一表现度量对应于所述动态分类器而不注册所述新用户,所述第二表现度量对应于所述动态分类器被更新以包括所述新用户。
条款80包括如条款79所述的设备,其中,所述第一性能度量和所述第二性能度量对应于熵度量。
条款81包括如条款60至80中任一项所述的设备,其中,所述一个或多个处理器还被配置以:与第二表现度量相比,至少部分地基于第一表现度量来确定是否更新所述动态分类器以移除所述多个用户中的特定用户,所述第一表现度量对应于所述动态分类器而不移除所述特定用户,所述第二表现度量对应于所述动态分类器被更新以移除所述特定用户。
条款82包括如条款60至81中任一项所述的设备,其中,所述动态分类器还被配置以接收特征数据集的序列,并且至少部分地基于所述序列中的先前特征数据集来自适应地聚类所述序列中的每个特征数据集。
条款83包括如条款60至82中任一项所述的设备,其中,所述一个或多个处理器还被配置以至少部分地基于所述分类输出来确定一个或多个许可。
条款84包括如条款83所述的设备,其中所述一个或多个处理器被配置成基于指示对话音命令处理操作的访问的所述一个或多个许可来选择性地发起所述话音命令处理操作。
条款85包括如条款84所述的设备,其中所述一个或多个处理器被配置以生成唤醒信号或中断中的至少一个以发起所述话音命令处理操作。
条款86包括如条款83至85中任一项所述的设备,还包括耦合到所述一个或多个处理器的调制解调器,所述调制解调器被配置以响应于指示对第二设备的访问的所述一个或多个许可而向所述第二设备发送话音命令处理操作的输出。
条款87包括如条款60至86中任一项所述的设备,其中一个或多个处理器集成在移动电话、平板计算机设备、可穿戴电子设备、相机设备、虚拟现实头戴设备或增强现实头戴设备中的至少一个中。
条款88包括如条款60至86中任一项所述的设备,其中,所述一个或多个处理器被集成到车辆中,所述车辆还包括耦合到所述一个或多个处理器的麦克风,并且其中,所述麦克风被定位成捕获所述车辆的操作者的话语作为语音输入以用于基于所述动态分类器进行认证。
根据条款89一种方法包括:在一个或多个处理器处接收音频数据样本;在所述一个或多个处理器处基于所述音频数据样本生成特征数据;在所述一个或多个处理器处,在被配置以在多个用户之间进行区分的动态分类器处处理所述特征数据以生成分类输出;以及在所述一个或多个处理器处至少部分地基于所述分类输出来确定认证。
条款90包括如条款89所述的方法,其中基于在麦克风处捕获的音频数据生成所述音频数据样本。
条款91包括如条款89或条款90所述的方法,其中所述特征数据包括与语音相关联的音调数据和共振峰数据。
条款92包括如条款89至91中任一项所述的方法,其中,动态分类器执行短语相关的分类,并且其中,特征数据还包括持续时间数据和短语特定的音节提示。
条款93包括如条款89至92中任一项所述的方法,还包括在生成特征数据之前将音频数据样本变换到变换域。
条款94包括如条款89至93中任一项所述的方法,其中,确定所述认证包括访问将所述动态分类器的分类输出与所述多个用户中的特定用户相关联的表。
条款95包括如条款94所述的方法,还包括在注册操作期间填充表。
条款96包括如条款94或条款95所述的方法,还包括至少部分地基于用户标识数据来填充所述表。
条款97包括如条款96所述的方法,还包括从相机接收与说话用户的捕获图像相对应的数据作为所述用户标识数据。
条款98包括如条款89至97中任一项所述的方法,还包括访问将所述动态分类器的分类输出与关联于特定设备的一个或多个访问许可相关联的表。
条款99包括如条款89至98中任一项所述的方法,进一步包括:从多个动态分类器中选择所述动态分类器,所述多个动态分类器中的每一个动态分类器对应于用于多个设备中的相应设备的认证网络,并且其中,所述动态分类器是基于访问所述特定设备的用户指示来选择的。
条款100包括如条款98所述的方法,其中所述一个或多个访问许可中的至少一个是时间相关的。
条款101包括如条款89至100中任一项所述的方法,其中,所述动态分类器被配置成用于基于所述特征数据与所述动态分类器中的节点值的相似性来自适应地聚类特征数据集,并且其中,各个聚类对应于所述多个用户中的相应用户。
条款102包括如条款89至101中任一项所述的方法,还包括基于所述特征数据更新所述动态分类器的聚类操作,以使所述动态分类器适应与特定用户的语音输入相关联的变化、为未分类的用户添加分类、或两者。
条款103包括如条款89至102中任一项所述的方法,还包括更新动态分类器的分类决策标准。
条款104包括如条款89至103中任一项所述的方法,其中,所述动态分类器包括自组织映射。
条款105包括如条款89至103中任一项所述的方法,其中动态分类器被配置以根据受限玻尔兹曼机执行主分量分析、独立分量分析或语音特征空间的无监督划分中的至少一个。
条款106包括如条款89至105中任一项所述的方法,进一步包括对所述动态分类器可区分的用户的数量实施一上限。
条款107包括如条款89至106中任一项所述的方法,还包括至少部分地基于与新用户的语音相对应的特征向量与所述动态分类器的现有节点之间的相似性度量来更新所述动态分类器以注册所述新用户。
条款108包括如条款89至107中任一项所述的方法,还包括与第二表现度量相比,至少部分地基于第一表现度量来确定是否更新所述动态分类器以注册新用户,所述第一表现度量对应于所述动态分类器而不注册所述新用户,所述第二表现度量对应于所述动态分类器被更新以包括所述新用户。
条款109包括如条款108所述的方法,其中,所述第一性能度量和所述第二性能度量对应于熵度量。
条款110包括如条款89至109中任一项所述的方法,还包括与第二表现度量相比,至少部分地基于第一表现度量来确定是否更新所述动态分类器以移除所述多个用户中的特定用户,所述第一表现度量对应于所述动态分类器而不移除所述特定用户,所述第二表现度量对应于所述动态分类器被更新以移除所述特定用户。
条款111包括如条款89至110中任一项所述的方法,其中,所述动态分类器还被配置成接收特征数据集的序列,并且至少部分地基于所述序列中的先前特征数据集来自适应地聚类所述序列中的每个特征数据集。
条款112包括如条款89至111中任一项所述的方法,还包括至少部分地基于所述分类输出来确定一个或多个许可。
条款113包括如条款112所述的方法,还包括基于指示对话音命令处理操作的访问的所述一个或多个许可来选择性地发起所述话音命令处理操作。
条款114包括如条款113所述的方法,还包括生成唤醒信号或中断中的至少一者以发起所述话音命令处理操作。
条款115包括如条款112至114中任一项所述的方法,还包括响应于指示对第二设备的访问的所述一个或多个许可,将话音命令处理操作的输出发送到所述第二设备。
条款116包括如条款89至115中任一项所述的方法,其中一个或多个处理器集成在移动电话、平板计算机设备、可穿戴电子设备、相机设备、虚拟现实头戴设备或增强现实头戴设备中的至少一个中。
条款117包括如条款89至115中任一项所述的方法,其中,所述一个或多个处理器被集成到车辆中,并且其中,所述车辆的操作者的话语由所述车辆的麦克风捕获作为用于基于所述动态分类器进行认证的语音输入。
根据条款118一种非暂时性计算机可读介质包括指令,所述指令在由一个或多个处理器执行时使得所述一个或多个处理器:接收音频数据样本;基于所述音频数据样本生成特征数据;在动态分类器处处理所述特征数据以生成分类输出,所述动态分类器被配置以在多个用户之间进行区分;以及至少部分地基于分类输出来确定认证。
条款119包括如条款118所述的非暂时性计算机可读介质,其中所述音频数据样本是基于在麦克风处捕获的音频数据生成的。
条款120包括如条款118或条款119所述的非暂时性计算机可读介质,其中所述特征数据包括与语音相关联的音调数据和共振峰数据。
条款121包括如条款118至120中任一项的非暂时性计算机可读介质,其中动态分类器执行短语相关的分类,并且其中特征数据还包括持续时间数据和短语特定的音节线索。
条款122包括如条款118至122中任一项所述的非暂时性计算机可读介质,其中,所述指令可执行以进一步使所述一个或多个处理器在生成所述特征数据之前将所述音频数据样本变换到变换域。
条款123包括如条款118至122中任一项所述的非暂时性计算机可读介质,其中,确定所述认证包括访问将所述动态分类器的分类输出与所述多个用户中的特定用户相关联的表。
条款124包括如条款123所述的非暂时性计算机可读介质,其中指令可执行以进一步使一个或多个处理器在注册操作期间填充表。
条款125包括如条款123或条款124所述的非暂时性计算机可读介质,其中所述指令可执行以进一步使所述一个或多个处理器至少部分地基于用户识别数据来填充所述表。
条款126包括如条款125所述的非暂时性计算机可读介质,其中指令可执行以进一步使一个或多个处理器从相机接收与说话用户的捕获图像相对应的数据作为用户识别数据。
条款127包括如条款118至126中任一项所述的非暂时性计算机可读介质,其中,所述指令可执行以进一步使所述一个或多个处理器访问将所述动态分类器的分类输出与关联于特定设备的一个或多个访问许可相关联的表。
条款128包括如条款127所述的非暂时性计算机可读介质,其中所述指令可执行以进一步使所述一个或多个处理器从多个动态分类器中选择所述动态分类器,所述多个动态分类器中的每一个对应于用于多个设备中的相应设备的认证网络,并且其中所述动态分类器是基于访问所述特定设备的用户指示来选择的。
条款129包括如条款127或条款128所述的非暂时性计算机可读介质,其中所述一个或多个访问许可中的至少一个是时间相关的。
条款130包括如条款118至129中任一项所述的非暂时性计算机可读介质,其中动态分类器被配置以基于特征数据与动态分类器中的节点值的相似性来自适应地聚类特征数据集,并且其中各个聚类对应于多个用户中的相应用户。
条款131包括如条款118至130中任一项所述的非暂时性计算机可读介质,其中所述指令可执行以进一步使所述一个或多个处理器基于所述特征数据更新所述动态分类器的聚类操作,以使所述动态分类器适应与特定用户的语音输入相关联的变化、为未分类的用户添加分类、或两者。
条款132包括如条款118至131中任一项所述的非暂时性计算机可读介质,其中指令可执行以进一步使一个或多个处理器更新动态分类器的分类决策标准。
条款133包括如条款118至132中任一项所述的非暂时性计算机可读介质,其中,所述动态分类器包括自组织映射。
条款134包括如条款118至132中任一项所述的非暂时性计算机可读介质,其中,所述动态分类器被配置以根据受限玻尔兹曼机执行主分量分析、独立分量分析或语音特征空间的无监督划分中的至少一个。
条款135包括如条款118至134中任一项所述的非暂时性计算机可读介质,其中,所述指令可执行以进一步使所述一个或多个处理器对可由所述动态分类器区分的用户的数量实施一上限。
条款136包括如条款118至135中任一项所述的非暂时性计算机可读介质,其中指令可执行以进一步使一个或多个处理器至少部分地基于对应于新用户的语音的特征向量与动态分类器的现有节点之间的相似性度量来更新动态分类器以注册新用户。
条款137包括如条款118至136中任一项所述的非暂时性计算机可读介质,其中指令可执行以进一步使一个或多个处理器与第二表现度量相比,至少部分地基于第一表现度量来确定是否更新动态分类器以注册新用户,第一表现度量对应于动态分类器而不注册新用户,第二表现度量对应于动态分类器被更新以包括新用户。
条款138包括如条款137所述的非暂时性计算机可读介质,其中,所述第一性能度量和所述第二性能度量对应于熵度量。
条款139包括如条款137或条款138所述的非暂时性计算机可读介质,其中所述指令可执行以进一步使所述一个或多个处理器:与第二表现度量相比,至少部分地基于第一表现度量来确定是否更新所述动态分类器以移除所述多个用户中的特定用户,所述第一表现度量对应于所述动态分类器而不移除所述特定用户,所述第二表现度量对应于被更新以移除所述特定用户的所述动态分类器。
条款140包括如条款118至139中任一项所述的非暂时性计算机可读介质,其中所述动态分类器还被配置以接收特征数据集的序列,并且至少部分地基于所述序列中的先前特征数据集来自适应地聚类所述序列中的每个特征数据集。
条款141包括如条款118至140中任一项所述的非暂时性计算机可读介质,其中,所述指令可执行以进一步使所述一个或多个处理器至少部分地基于所述分类输出来确定一个或多个许可。
条款142包括如条款141所述的非暂时性计算机可读介质,其中所述指令可执行以进一步使所述一个或多个处理器基于指示对话音命令处理操作的访问的所述一个或多个许可来选择性地发起所述话音命令处理操作。
条款143包括如条款142所述的非暂时性计算机可读介质,其中指令可执行以进一步使一个或多个处理器生成唤醒信号或中断中的至少一个以发起话音命令处理操作。
条款144包括如条款141至143中任一项所述的非暂时性计算机可读介质,其中,所述指令可执行以进一步使所述一个或多个处理器响应于指示对第二设备的访问的所述一个或多个许可而向所述第二设备发送话音命令处理操作的输出。
条款145包括如条款118至144中任一项所述的非暂时性计算机可读介质,其中一个或多个处理器集成在移动电话、平板计算机设备、可穿戴电子设备、相机设备、虚拟现实头戴设备或增强现实头戴设备中的至少一个中。
条款146包括如条款118至145中任一项所述的非暂时性计算机可读介质,其中,所述一个或多个处理器集成到车辆中,并且其中,所述车辆的操作者的话语由所述车辆的麦克风捕获作为语音输入,以用于基于所述动态分类器进行认证。
根据条款147一种装置包括:用于接收音频数据样本的部件;用于基于所述音频数据样本生成特征数据的部件;用于在动态分类器处处理所述特征数据以生成分类输出的部件,所述动态分类器被配置以在多个用户之间进行区分;以及用于至少部分地基于分类输出进行认证的部件。
条款148包括如条款147所述的装置,其中所述音频数据样本是基于在麦克风处捕获的音频数据生成的。
条款149包括如条款147或条款148所述的装置,其中所述特征数据包括与语音相关联的音调数据和共振峰数据。
条款150包括如条款147至149中任一项所述的装置,其中动态分类器执行短语相关的分类,并且其中特征数据还包括持续时间数据和短语特定的音节提示。
条款151包括如条款147至150中任一项所述的装置,进一步包括用于在生成所述特征数据之前将所述音频数据样本变换到变换域的部件。
条款152包括如条款147至151中任一项所述的装置,其中,确定所述认证包括访问将所述动态分类器的分类输出与所述多个用户中的特定用户相关联的表。
条款153包括如条款152所述的装置,还包括用于在注册操作期间填充表的部件。
条款154包括如条款152或条款153所述的装置,还包括用于至少部分地基于用户标识数据来填充所述表的部件。
条款155包括如条款154所述的装置,还包括用于从相机接收与说话用户的捕获图像相对应的数据作为所述用户标识数据的部件。
条款156包括如条款147至155中任一项所述的装置,还包括用于访问将动态分类器的分类输出与关联于特定设备的一个或多个访问许可相关联的表的部件。
条款157包括如条款147至156中任一项所述的装置,进一步包括用于从多个动态分类器中选择所述动态分类器的部件,所述多个动态分类器中的每一个动态分类器对应于用于多个设备中的相应设备的认证网络,并且其中,所述动态分类器是基于访问所述特定设备的用户指示来选择的。
条款158包括如条款156或条款157所述的装置,其中,所述一个或多个访问许可中的至少一个访问许可是时间相关的。
条款159包括如条款147至158中任一项所述的装置,其中动态分类器被配置以基于特征数据与动态分类器中的节点值的相似性来自适应地聚类特征数据集,并且其中各个聚类对应于多个用户中的相应用户。
条款160包括如条款147至159中任一项所述的装置,还包括用于基于所述特征数据来更新所述动态分类器的聚类操作以使所述动态分类器适应与特定用户的语音输入相关联的变化、为未分类的用户添加分类、或两者的部件。
条款161包括如条款147至160中任一项所述的装置,进一步包括用于更新所述动态分类器的分类决策标准的部件。
条款162包括如条款147至161中任一项所述的装置,其中,所述动态分类器包括自组织映射。
条款163包括如条款147至161中任一项所述的装置,其中动态分类器被配置以根据受限玻尔兹曼机执行主分量分析、独立分量分析或语音特征空间的无监督划分中的至少一个。
条款164包括如条款147至163中任一项所述的装置,进一步包括用于对所述动态分类器可区分的用户的数量实施一上限的部件。
条款165包括如条款147至164中任一项所述的装置,进一步包括用于至少部分地基于与新用户的语音相对应的特征向量与所述动态分类器的现有节点之间的相似性度量来更新所述动态分类器以注册所述新用户的部件。
条款166包括如条款147至165中任一项所述的装置,还包括用于与第二表现度量相比至少部分地基于第一表现度量来确定是否更新所述动态分类器以注册新用户的部件,所述第一表现度量对应于所述动态分类器而不注册所述新用户,所述第二表现度量对应于所述动态分类器被更新以包括所述新用户。
条款167包括如条款166所述的装置,其中,所述第一性能度量和所述第二性能度量对应于熵度量。
条款168包括如条款147至167中任一项所述的装置,还包括用于至少部分地基于与第二表现度量相比的第一表现度量来确定是否更新动态分类器以移除多个用户中的特定用户的部件,第一表现度量对应于动态分类器而不移除特定用户,第二表现度量对应于动态分类器被更新以移除特定用户。
条款169包括如条款147至168中任一项所述的装置,其中动态分类器还被配置以接收特征数据集的序列,并且至少部分地基于序列中的先前特征数据集来自适应地聚类序列中的每个特征数据集。
条款170包括如条款147至169中任一项所述的装置,进一步包括用于至少部分地基于所述分类输出来确定一个或多个许可的部件。
条款171包括如条款170所述的装置,还包括用于基于指示对话音命令处理操作的访问的所述一个或多个许可来选择性地发起所述话音命令处理操作的部件。
条款172包括如条款171所述的装置,还包括用于生成唤醒信号或中断中的至少一者以发起所述话音命令处理操作的部件。
条款173包括如条款170至172中任一项所述的装置,进一步包括用于响应于指示对第二设备的访问的所述一个或多个许可而向所述第二设备传送话音命令处理操作的输出的部件。
条款174包括如条款147至173中任一项所述的装置,其中,用于在所述动态分类器处处理所述特征数据的设备被集成在移动电话、平板计算机设备、可穿戴电子设备、相机设备、虚拟现实头戴设备或增强现实头戴设备中的至少一个中。
条款175包括如条款147至173中任一项所述的装置,其中,用于在所述动态分类器处处理所述特征数据的所述设备被集成到车辆中,并且其中,所述车辆的操作者的话语由所述车辆的麦克风捕获作为语音输入以用于基于所述动态分类器进行认证。
根据条款176一种设备包括:一个或多个处理器,被配置以:接收音频数据样本;将所述音频数据样本提供给动态分类器,所述动态分类器被配置以生成与所述音频数据样本相对应的分类输出;以及基于分类输出选择性地访问特定设备。
条款177包括如条款176所述的设备,其中选择性地访问所述特定设备包括响应于所述分类输出对应于被授权访问所述特定设备的分类而发送第一信号以解锁对所述特定设备的访问。
条款178包括如条款176或177所述的设备,其中选择性地访问所述特定设备包括响应于所述分类输出对应于未被授权访问所述特定设备的分类而发送第二信号以锁定对所述特定设备的访问。
条款179包括如条款176至178中任一项所述的设备,其中选择性地访问所述特定设备包括响应于对应于被授权访问所述特定设备的类的所述分类输出,向所述特定设备发送指示与所述音频数据样本相关联的语音命令的数据。
条款180包括如条款176至179中任一项所述的设备,还包括耦合到处理器的特定设备。
条款181包括如条款176至179中任一项所述的设备,还包括耦合到处理器的调制解调器,并且其中选择性地访问特定设备包括经由调制解调器向特定设备无线传输信号。
条款182包括如条款176至181中任一项所述的设备,其中所述动态分类器被配置以至少部分地基于语音特性在多个用户之间进行区分以生成所述分类输出。
条款183包括如条款176至182中任一项所述的设备,其中所述动态分类器还被配置以区分源自距所述设备阈值距离内的源的语音和源自距所述设备超过所述阈值距离的所述源的语音,并且其中所述处理器还被配置以基于所述源超过所述阈值距离而拒绝对所述特定设备的访问。
条款184包括如条款176至183中任一项所述的设备,其中处理器还被配置以基于在检测到来自被授权访问特定设备的第一人的语音的阈值持续时间内检测到来自第二人的语音来拒绝对特定设备的访问。
条款185包括如条款176至184中任一项所述的设备,还包括耦合到处理器的存储器,该存储器包括将动态分类器的分类输出和与特定设备相关联的一个或多个访问许可相关联的表。
条款186包括如条款176至185中任一项所述的设备,其中,是否访问所述特定设备的确定独立于与所述音频数据样本相关联的所接收的音频数据中关键字的存在。
条款187包括如条款176至186中任一项所述的设备,其中所述一个或多个处理器集成在移动电话、平板计算机设备、可穿戴电子设备、相机设备、虚拟现实头戴设备或增强现实头戴设备中的至少一个中。
条款188包括如条款176至187中任一项所述的设备,其中,所述一个或多个处理器集成到车辆中,所述车辆还包括耦合到所述一个或多个处理器的麦克风,并且其中,所述麦克风被定位成捕获所述车辆的操作者的话语作为语音输入以用于基于所述动态分类器进行认证。
条款189包括如条款176至188中任一项所述的设备,其中,所述一个或多个处理器包括:第一处理器,被配置以将所述音频数据样本提供给所述动态分类器;以及第二处理器,其被配置以响应于所述分类输出满足唤醒标准而转换到活动状态。
条款190包括如条款176至189中任一项所述的设备,其中,一个或多个处理器被配置以处理音频数据以基于分类输出执行关键字检测。
条款191包括如条款176至190中任一项所述的设备,其中所述一个或多个处理器还被配置以向所述动态分类器提供一个或多个非音频数据样本,并且其中所述动态分类器被配置以进一步基于所述一个或多个非音频数据样本来生成所述分类输出。
条款192包括如条款191所述的设备,还包括相机,所述相机耦合到所述一个或多个处理器并且被配置以捕获说话用户的图像,并且其中所述一个或多个非音频数据样本对应于所述图像。
条款193包括如条款191或条款192所述的设备,其中动态分类器包括:第一动态分类器,其被配置以处理音频数据样本;以及第二动态分类器,其被配置以处理所述非音频数据样本。
条款194包括如条款176至193中任一项所述的设备,其中所述动态分类器被配置以区分语音和噪声以生成对应于所述音频数据样本的分类输出。
条款195包括如条款176至194中任一项所述的设备,还包括麦克风,所述麦克风耦合到所述一个或多个处理器并且被配置以捕获音频数据以生成所述音频数据样本。
条款196包括如条款176至195中任一项所述的设备,其中所述一个或多个处理器还被配置以从多个动态分类器中选择所述动态分类器,所述多个动态分类器中的每一个对应于用于多个设备中的相应设备的认证网络,并且其中所述动态分类器是基于访问所述特定设备的用户指示来选择的。
根据条款197一种方法包括:在处理器处接收音频数据样本;在所述处理器处将所述音频数据样本提供给动态分类器,以生成与所述音频数据样本相对应的分类输出;以及基于分类输出选择性地访问特定设备。
条款198包括如条款197所述的方法,其中选择性地访问所述特定设备包括响应于所述分类输出对应于被授权访问所述特定设备的分类而发送第一信号以解锁对所述特定设备的访问。
条款199包括如条款197所述的方法,其中选择性地访问所述特定设备包括响应于所述分类输出对应于未被授权访问所述特定设备的分类而发送第二信号以锁定对所述特定设备的访问。
条款200包括如条款197所述的方法,其中选择性地访问所述特定设备包括响应于对应于被授权访问所述特定设备的类的所述分类输出,向所述特定设备发送指示与所述音频数据样本相关联的语音命令的数据。
条款201包括如条款197至200中任一项所述的方法,其中动态分类器至少部分地基于语音特性在多个用户之间进行区分以生成分类输出。
根据条款202一种非暂时性计算机可读介质包括指令,当由一个或多个处理器执行时,所述指令使得所述一个或多个处理器:接收音频数据样本;将所述音频数据样本提供给动态分类器,所述动态分类器被配置以生成与所述音频数据样本相对应的分类输出;以及基于分类输出选择性地访问特定设备。
条款203包括如条款202所述的非暂时性计算机可读介质,其中所述动态分类器被配置以至少部分地基于语音特性在多个用户之间进行区分以生成所述分类输出。
根据条款204一种装置包括:用于接收音频数据样本的部件;用于将所述音频数据样本提供给动态分类器的部件,所述动态分类器被配置以生成与所述音频数据样本相对应的分类输出;以及用于基于分类输出选择性地访问特定设备的部件。
条款205包括如条款204所述的装置,其中动态分类器被配置以至少部分地基于语音特性在多个用户之间进行区分以生成分类输出。
所属领域的技术人员将进一步了解,结合本文中所揭示的实施方案描述的各种说明性逻辑块、配置、模块、电路和算法步骤可实施为电子硬件、由处理器执行的计算机软件或两者的组合。各种说明性组件、块、配置、模块、电路和步骤已在上文大体上就其功能性进行了描述。这样的功能被实现为硬件还是处理器可执行指令取决于特定应用和施加在整个系统上的设计约束。所属领域的技术人员可针对每一特定应用以不同方式实施所描述的功能性,此类实施决策不应被解释为导致脱离本发明的范围。
结合本文中所揭示的实施方案描述的方法或算法的步骤可直接体现于硬件中、由处理器执行的软件模块中或两者的组合中。软件模块可驻留在随机访问存储器(RAM)、闪存、只读存储器(ROM)、可编程只读存储器(PROM)、可擦除可编程只读存储器(EPROM)、电可擦除可编程只读存储器(EEPROM)、寄存器、硬盘、可移动盘、压缩盘只读存储器(CD-ROM)、或本领域中已知的任何其他形式的非暂时性存储介质中。示例性存储介质耦合到处理器,使得处理器可以从存储介质读取信息和向存储介质写入信息。在替代方案中,存储介质可以集成到处理器。处理器和存储介质可以驻留在专用集成电路(ASIC)中。ASIC可以驻留在计算设备或用户终端中。在替代方案中,处理器和存储媒体可作为离散组件驻存于计算设备或用户终端中。
提供对所公开的方面的先前描述是为了使得本领域技术人员能够制作或使用所公开的方面。对于本领域技术人员来说,对这些方面的各种修改将是显而易见的,并且在不脱离本公开内容的范围的情况下,本文定义的原理可以应用于其它方面。因此,本发明并不希望限于本文中所展示的方面,而应符合与如由所附权利要求书界定的原理及新颖特征一致的可能的最广泛范围。
Claims (30)
1.一种设备,包括:
一个或多个处理器,其被配置以:
接收音频数据样本;
将所述音频数据样本提供给动态分类器,所述动态分类器被配置以生成与所述音频数据样本相对应的分类输出;以及
基于所述分类输出选择性地访问特定设备。
2.根据权利要求1所述的设备,其中选择性地访问所述特定设备包含响应于所述分类输出对应于被授权访问所述特定设备的分类而发送第一信号以解锁对所述特定设备的访问。
3.根据权利要求1所述的设备,其中选择性地访问所述特定设备包含响应于所述分类输出对应于未被授权访问所述特定设备的分类而发送第二信号以锁定对所述特定设备的访问。
4.根据权利要求1所述的设备,其中选择性地访问所述特定设备包括:响应于所述分类输出对应于被授权访问所述特定设备的分类,向所述特定设备发送指示与所述音频数据样本相关联的语音命令的数据。
5.根据权利要求1所述的设备,还包括耦合到所述处理器的所述特定设备。
6.根据权利要求1所述的设备,其进一步包含耦合到所述处理器的调制解调器,且其中选择性地访问所述特定设备包含经由所述调制解调器将信号无线发射到所述特定设备。
7.根据权利要求1所述的设备,其中所述动态分类器被配置以至少部分地基于语音特性在多个用户之间进行区分以生成所述分类输出。
8.根据权利要求1所述的设备,其中,所述动态分类器还被配置以区分源自距所述设备阈值距离内的源的语音和源自距所述设备超过所述阈值距离的所述源的语音,并且其中,所述处理器还被配置以基于所述源超过所述阈值距离来拒绝对所述特定设备的访问。
9.根据权利要求1所述的设备,其中所述处理器还被配置以基于在检测到来自被授权访问所述特定设备的第一人的语音的阈值持续时间内检测到来自第二人的语音来拒绝对所述特定设备的访问。
10.根据权利要求1所述的设备,还包括耦合到所述处理器的存储器,所述存储器包括将所述动态分类器的分类输出关联到与所述特定设备相关联的一个或多个访问许可的表。
11.根据权利要求1所述的设备,其中,对是否访问所述特定设备的确定独立于与所述音频数据样本相关联的所接收的音频数据中的关键字的存在。
12.根据权利要求1所述的设备,其中所述一个或多个处理器集成在移动电话、平板计算机设备、可穿戴电子设备、相机设备、虚拟现实头戴设备或增强现实头戴设备中的至少一者中。
13.根据权利要求1所述的设备,其中所述一个或多个处理器被集成到车辆中,所述车辆还包括耦合到所述一个或多个处理器的麦克风,并且其中所述麦克风被定位成捕获所述车辆的操作者的话语作为语音输入以用于基于所述动态分类器进行认证。
14.根据权利要求1所述的设备,其中所述一个或多个处理器包含:
第一处理器,其被配置以将所述音频数据样本提供到所述动态分类器;以及
第二处理器,所述第二处理器被配置以响应于所述分类输出满足唤醒标准而转换到活动状态。
15.根据权利要求1所述的设备,其中,所述一个或多个处理器被配置成处理所述音频数据以基于所述分类输出执行关键字检测。
16.根据权利要求1所述的设备,其中所述一个或多个处理器进一步被配置以将一个或多个非音频数据样本提供到所述动态分类器,且其中所述动态分类器被配置以进一步基于所述一个或多个非音频数据样本产生所述分类输出。
17.根据权利要求16所述的设备,其进一步包括相机,所述相机耦合到所述一个或多个处理器且被配置以捕获说话用户的图像,且其中所述一个或多个非音频数据样本对应于所述图像。
18.根据权利要求16所述的设备,其中所述动态分类器包含:
第一动态分类器,所述第一动态分类器被配置以处理所述音频数据样本;以及
第二动态分类器,其被配置以处理所述非音频数据样本。
19.根据权利要求1所述的设备,其中所述动态分类器被配置以区分语音和噪声以生成与所述音频数据样本相对应的分类输出。
20.根据权利要求1所述的设备,其进一步包括麦克风,所述麦克风耦合到所述一个或多个处理器且被配置以捕获音频数据以产生所述音频数据样本。
21.根据权利要求1所述的设备,其中,所述一个或多个处理器还被配置以从多个动态分类器中选择所述动态分类器,所述多个动态分类器中的每一个动态分类器对应于用于多个设备中的相应设备的认证网络,并且其中,所述动态分类器是基于访问所述特定设备的用户指示来选择的。
22.一种方法,包括:
在处理器处,接收音频数据样本;
在所述处理器处,将所述音频数据样本提供给动态分类器,以生成与所述音频数据样本相对应的分类输出;以及
基于所述分类输出选择性地访问特定设备。
23.根据权利要求22所述的方法,其中选择性地访问所述特定设备包含响应于所述分类输出对应于被授权访问所述特定设备的分类而发送第一信号以解锁对所述特定设备的访问。
24.根据权利要求22所述的方法,其中选择性地访问所述特定设备包含响应于所述分类输出对应于未被授权访问所述特定设备的分类而发送第二信号以锁定对所述特定设备的访问。
25.根据权利要求22所述的方法,其中,选择性地访问所述特定设备包括:响应于所述分类输出对应于被授权访问所述特定设备的分类,向所述特定设备发送指示与所述音频数据样本相关联的语音命令的数据。
26.根据权利要求22所述的方法,其中,所述动态分类器至少部分地基于语音特性在多个用户之间进行区分以生成所述分类输出。
27.一种包括指令的非暂时性计算机可读介质,所述指令在由一个或多个处理器执行时使所述一个或多个处理器:
接收音频数据样本;
将所述音频数据样本提供给动态分类器,所述动态分类器被配置以生成与所述音频数据样本相对应的分类输出;以及
基于所述分类输出选择性地访问特定设备。
28.根据权利要求27所述的非暂时性计算机可读介质,其中所述动态分类器被配置以至少部分地基于语音特性在多个用户之间进行区分以生成所述分类输出。
29.一种装置,包括:
用于接收音频数据样本的部件;
用于将所述音频数据样本提供给动态分类器的部件,所述动态分类器被配置以生成与所述音频数据样本相对应的分类输出;以及
用于基于所述分类输出选择性地访问特定设备的部件。
30.根据权利要求29所述的装置,其中所述动态分类器被配置以至少部分地基于语音特性在多个用户之间进行区分以生成所述分类输出。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US17/196,563 US11776550B2 (en) | 2021-03-09 | 2021-03-09 | Device operation based on dynamic classifier |
US17/196,563 | 2021-03-09 | ||
PCT/US2022/070558 WO2022192825A1 (en) | 2021-03-09 | 2022-02-08 | Device operation based on dynamic classifier |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116918301A true CN116918301A (zh) | 2023-10-20 |
Family
ID=80683005
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202280018879.5A Pending CN116918301A (zh) | 2021-03-09 | 2022-02-08 | 基于动态分类器的设备操作 |
Country Status (6)
Country | Link |
---|---|
US (1) | US11776550B2 (zh) |
EP (1) | EP4305807A1 (zh) |
KR (1) | KR20230153385A (zh) |
CN (1) | CN116918301A (zh) |
BR (1) | BR112023017511A2 (zh) |
WO (1) | WO2022192825A1 (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11776550B2 (en) * | 2021-03-09 | 2023-10-03 | Qualcomm Incorporated | Device operation based on dynamic classifier |
US11904909B2 (en) * | 2021-06-25 | 2024-02-20 | Gm Cruise Holdings Llc | Enabling ride sharing during pandemics |
US20230035531A1 (en) * | 2021-07-27 | 2023-02-02 | Qualcomm Incorporated | Audio event data processing |
Family Cites Families (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3745403B2 (ja) * | 1994-04-12 | 2006-02-15 | ゼロックス コーポレイション | オーディオデータセグメントのクラスタリング方法 |
US9262612B2 (en) * | 2011-03-21 | 2016-02-16 | Apple Inc. | Device access using voice authentication |
US20170011406A1 (en) * | 2015-02-10 | 2017-01-12 | NXT-ID, Inc. | Sound-Directed or Behavior-Directed Method and System for Authenticating a User and Executing a Transaction |
EP3257043B1 (en) * | 2015-02-11 | 2018-12-12 | Bang & Olufsen A/S | Speaker recognition in multimedia system |
US10476872B2 (en) * | 2015-02-20 | 2019-11-12 | Sri International | Joint speaker authentication and key phrase identification |
JP2016206428A (ja) * | 2015-04-23 | 2016-12-08 | 京セラ株式会社 | 電子機器および声紋認証方法 |
US20180018973A1 (en) * | 2016-07-15 | 2018-01-18 | Google Inc. | Speaker verification |
US10775986B2 (en) * | 2017-03-24 | 2020-09-15 | Apple Inc. | Ergonomic adjustments |
KR102411766B1 (ko) * | 2017-08-25 | 2022-06-22 | 삼성전자주식회사 | 음성 인식 서비스를 활성화하는 방법 및 이를 구현한 전자 장치 |
US10733990B2 (en) * | 2017-10-18 | 2020-08-04 | Motorola Mobility Llc | Preventing initiation of a voice recognition session |
US11475898B2 (en) * | 2018-10-26 | 2022-10-18 | Apple Inc. | Low-latency multi-speaker speech recognition |
US11464055B2 (en) * | 2019-09-04 | 2022-10-04 | Sonos, Inc. | Systems and methods for configuring a media player device on a local network using a graphical user interface |
US11363416B2 (en) * | 2019-10-04 | 2022-06-14 | Samsung Electronics Co., Ltd. | System and method for WiFi-based indoor localization via unsupervised domain adaptation |
US11350151B2 (en) * | 2020-09-24 | 2022-05-31 | ONQ Solutions, Inc. | Methods, systems and devices that enable a user of a mobile phone to select what content is displayed on a screen of a consumer electronic device on display |
US11783809B2 (en) * | 2020-10-08 | 2023-10-10 | Qualcomm Incorporated | User voice activity detection using dynamic classifier |
US11677735B2 (en) * | 2020-12-18 | 2023-06-13 | Shopify Inc. | Hidden line property of online content to inhibit bot activity |
US11776550B2 (en) * | 2021-03-09 | 2023-10-03 | Qualcomm Incorporated | Device operation based on dynamic classifier |
-
2021
- 2021-03-09 US US17/196,563 patent/US11776550B2/en active Active
-
2022
- 2022-02-08 EP EP22708714.5A patent/EP4305807A1/en active Pending
- 2022-02-08 BR BR112023017511A patent/BR112023017511A2/pt unknown
- 2022-02-08 WO PCT/US2022/070558 patent/WO2022192825A1/en active Application Filing
- 2022-02-08 CN CN202280018879.5A patent/CN116918301A/zh active Pending
- 2022-02-08 KR KR1020237029810A patent/KR20230153385A/ko unknown
Also Published As
Publication number | Publication date |
---|---|
BR112023017511A2 (pt) | 2023-10-10 |
US20220292134A1 (en) | 2022-09-15 |
EP4305807A1 (en) | 2024-01-17 |
US11776550B2 (en) | 2023-10-03 |
KR20230153385A (ko) | 2023-11-06 |
WO2022192825A1 (en) | 2022-09-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111699528B (zh) | 电子装置及执行电子装置的功能的方法 | |
US11776550B2 (en) | Device operation based on dynamic classifier | |
US10468032B2 (en) | Method and system of speaker recognition using context aware confidence modeling | |
EP3047622B1 (en) | Method and apparatus for controlling access to applications | |
US10013985B2 (en) | Systems and methods for audio command recognition with speaker authentication | |
US9652915B2 (en) | System and method having biometric identification intrusion and access control | |
JP6977004B2 (ja) | 車載装置、発声を処理する方法およびプログラム | |
US20140200890A1 (en) | Methods, systems, and circuits for speaker dependent voice recognition with a single lexicon | |
WO2021135685A1 (zh) | 身份认证的方法以及装置 | |
CN109997185A (zh) | 用于电子设备中的生物测定认证的方法和装置 | |
US9530417B2 (en) | Methods, systems, and circuits for text independent speaker recognition with automatic learning features | |
US11664033B2 (en) | Electronic apparatus and controlling method thereof | |
US10916249B2 (en) | Method of processing a speech signal for speaker recognition and electronic apparatus implementing same | |
US11514900B1 (en) | Wakeword detection | |
US11626104B2 (en) | User speech profile management | |
CN116153311A (zh) | 一种音频处理方法、装置、车辆及计算机可读存储介质 | |
US11783809B2 (en) | User voice activity detection using dynamic classifier | |
US11776534B1 (en) | Natural language understanding intent adjustment | |
US11531736B1 (en) | User authentication as a service | |
KR20210155321A (ko) | 전자 장치 및 그 제어 방법 | |
Sinha et al. | Speech recognition |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |