CN110603584A - 设备上的多用户认证 - Google Patents

设备上的多用户认证 Download PDF

Info

Publication number
CN110603584A
CN110603584A CN201880016413.5A CN201880016413A CN110603584A CN 110603584 A CN110603584 A CN 110603584A CN 201880016413 A CN201880016413 A CN 201880016413A CN 110603584 A CN110603584 A CN 110603584A
Authority
CN
China
Prior art keywords
user
speech
query
known user
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201880016413.5A
Other languages
English (en)
Inventor
M.奥克坦
T.P.乔戈卡
F.赫延迪
P-s.查奥
I.L.莫瑞诺
S.拉贾德雅克沙
A.H.格林施泰因
D.M.卡萨多
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Google LLC
Original Assignee
Google LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Google LLC filed Critical Google LLC
Priority to CN202311334380.8A priority Critical patent/CN117577099A/zh
Publication of CN110603584A publication Critical patent/CN110603584A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/63Querying
    • G06F16/635Filtering based on additional data, e.g. user or group profiles
    • G06F16/636Filtering based on additional data, e.g. user or group profiles by using biological or physiological data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/30Authentication, i.e. establishing the identity or authorisation of security principals
    • G06F21/31User authentication
    • G06F21/32User authentication using biometric data, e.g. fingerprints, iris scans or voiceprints
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/065Adaptation
    • G10L15/07Adaptation to the speaker
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/06Decision making techniques; Pattern matching strategies
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/22Interactive procedures; Man-machine interfaces
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Acoustics & Sound (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Security & Cryptography (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Hardware Design (AREA)
  • Software Systems (AREA)
  • Game Theory and Decision Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Business, Economics & Management (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Physiology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)

Abstract

在一些实施方式中,对应于设备的已知用户的认证令牌存储在设备上。接收来自发言者的言语。言语分类为由已知用户的具体已知用户讲出。使用具体已知用户的认证令牌提供包括言语的表示和具体已知用户作为发言者的指示的查询。

Description

设备上的多用户认证
相关申请的交叉引用
本申请要求在2017年4月20日提交并且标题为“设备上的多用户认证”的美国临时专利申请No.62/488,000和在2017年10月3日提交并且标题为“设备上的多用户认证”的美国临时专利申请No.62/567,372的权益,其通过引用并入本文。
技术领域
本说明书一般地涉及自然语言处理。
背景技术
语音使能的设备可以提供针对来自用户的讲出的言语的可听的回答。这样的设备通常是用于所谓的数字助理软件或“数字助理”或“虚拟助理”的前端。这样的设备本身通常提供有限量的语音辨识功能性,并且与服务器或其它设备通信用于附加的资源。此外,这样的设备通常从服务器或其它设备(例如,响应于声音进入的查询或言语)接收转换为用户可听的合成语音的数据。例如,用户可以说“今天会下雨吗?”并且语音使能的设备可以可听地响应,“整天都会是晴天。”用户可以提供有关用户的个人信息的言语。例如,用户可以询问系统“我的日程表上有什么”,并且设备可以用在与设备相关联的日程表上的约会来响应。然而,常见的语音使能的设备不足以在各种用户之间区分,尤其当与对特定用户的个人信息的安全访问有关时,同时仍然准许由例如访客用户对语音使能的设备的一般使用。
发明内容
语音使能的设备可以由多个不同的用户使用。例如,放置在厨房案台上的语音使能的设备可以由约翰和简·多伊在家中使用。语音使能的设备的用户可以询问与用户的个人信息相关的问题。例如,约翰和简·多伊可以单独地询问语音使能的设备对于他们各自的日期安排什么。除约翰和简·多伊之外的用户(即“访客”)也可以询问语音使能的设备与用户的个人信息无关的问题。例如,访客用户可以询问语音使能的设备当前时间是什么。
为了处理来自多个不同用户的言语,语音使能的设备可以尝试将言语的发言者识别为特定用户,并且如果成功,则向服务器提供具有与所识别的特定用户对应的指示的查询,并且如果不成功,则向服务器提供不具有与所识别的特定用户对应的指示的查询。例如,语音使能的设备可以基于将言语辨识为与来自“约翰·多伊”的预先建立的语音模式匹配来将言语辨识为由“约翰·多伊”讲出,并且作为响应,向服务器提供包括言语的音频表示和言语由“约翰·多伊”讲出的指示两者的查询。
该组合准许虚拟助理软件访问约翰·多伊的个人信息以提供针对查询的响应。也可以发生查询重写以有助于该访问(例如,将初始查询“当天的日程上有什么”写为“[所识别的用户]的[日期]的日程上有什么”。同时,系统被配置为通过向服务器仅提供言语(该言语和一个或多个可能的发言者的识别(identification,“id”),但不具有已识别发言者的确认)、或者提供言语和某个其它指示(诸如设备id),准许由当事人(parties)而非以其它方式辨识的人员(例如,访客用户)来处理查询。
服务器可以使用特定用户的指示、或不具有这样的指示,来生成针对查询的响应。例如,服务器可以基于接收到由约翰·多伊讲出言语的指示来确定其具有用于响应于查询而提供适当的个人信息的权限。在针对今天的日程上有什么的示例请求中,这意味着服务器可以向用于发声的语音使能的设备提供约翰·多伊的约会的列表或摘要。在服务器确定查询不指示特定用户的识别但是查询正在寻求个人信息时,服务器可以指示不能够提供回答,因为用户对于语音使能的设备不是已知的。在又另一示例中,服务器可以确定即使与言语对应的查询(例如,“现在是什么时间”)不指示特定用户,查询与个人信息无关并且可以向语音使能的设备提供回复(例如,“现在是上午11点”)。
在用户提供查询时,语音使能的设备可以适应用户的声音的辨识。例如,为了辨识用户,语音使能的设备可以使用用户在注册过程期间讲话的样本和用户提供查询的近期样本的组合。语音使能的设备可以在设备确定相应用户讲出查询之后从查询生成相应用户的新的样本,并且然后使用该新的样本并且停止使用较旧的样本用于以后的辨识。附加地或替代地,可以在由特定用户使用的多个不同的语音使能的设备之间共享样本,使得当特定用户正在提供查询时,设备中的每一个类似地辨识。
在一些方面,本说明书中描述的主题可以体现在方法中,该方法可以包括以下动作:存储与设备的已知用户对应的认证令牌,接收来自发言者的言语,将言语分类为由已知用户中的特定已知用户讲出、并且使用特定已知用户的认证令牌来提供包括言语的表示和作为发言者的特定已知用户的指示的查询。
在一些方面,使用特定已知用户的认证令牌来提供包括言语的表示和作为发言者的特定已知用户的指示的查询包括提供包括认证令牌和指示言语被分类为由特定已知用户讲出的标记的查询。在某些方面,使用特定已知用户的认证令牌来提供包括言语的表示和作为发言者的特定已知用户的指示的查询包括提供包括特定已知用户的认证令牌的查询,其中在查询中包括特定已知用户的认证令牌指示言语被分类为由特定已知用户讲出。在一些实施方式中,存储与设备的已知用户对应的认证令牌包括存储设备的已知用户中的每一个的认证令牌,其中认证令牌中的每一个与已知用户中的相应一个对应。在一些方面,存储与设备的已知用户对应的认证令牌是作为用户注册为语音使能的设备的已知用户的响应。
在某些方面,将言语分类为由已知用户的特定已知用户讲出包括确定言语与对应于特定已知用户的语音匹配。在一些实施方式中,确定言语与对应于特定已知用户的语音匹配包括:确定言语包括预定短语,并且响应于确定言语包括预定短语,确定预定短语的言语与由特定已知用户的预定短语的先前言语匹配。在一些方面,将言语分类为由已知用户中的特定已知用户讲出包括确定对应于发言者的视觉信息与对应于特定已知用户的视觉信息匹配。
在某些方面,确定对应于发言者的视觉信息与对应于特定已知用户的视觉信息匹配包括:接收描述发言者的指纹、视网膜扫描、面部、或姿势中的一个或多个的发言者信息,并且确定发言者信息与对应于特定已知用户的视觉信息匹配。在一些方面,提供包括言语的表示和作为发言者的特定已知用户的指示的查询包括向服务器提供查询。在一些实施方式中,操作包括从服务器接收针对查询的响应并且向发言者提供响应。
在一些方面,本说明书中描述的主题可以体现在方法中,方法可以包括以下动作:存储与设备的已知用户对应的认证令牌,从发言者接收言语,将言语分类为不由已知用户中的任一者讲出、并且提供包括言语的表示并且不指示言语被分类为由已知用户中的特定已知用户讲出的查询。在某些方面,提供包括言语的表示并且不指示言语被分类为由已知用户中的特定已知用户讲出的查询包括提供包括认证令牌并且没有指示言语被分类为由已知用户中的特定已知用户讲出的标记的查询。在一些实施方式中,提供包括言语的表示并且不指示言语被分类为由已知用户中的特定已知用户讲出的查询包括提供不包括已知用户中的任一者的认证令牌的查询。
在一些方面,本说明书中描述的主题可以体现在方法中,方法可以包括以下动作:确定查询是否指示特定已知用户作为发言者,响应于确定查询是否指示特定已知用户作为发言者而确定查询不是来自已知用户,响应于确定查询不是来自已知用户而确定查询是否是非个人的,并且响应于确定查询是非个人的,尝试提供针对查询的响应。在某些方面,确定查询是否指示特定已知用户作为发言者包括:确定查询是否包括指示言语被分类为由特定已知用户讲出的标记。在一些实施方式中,确定查询是否指示特定已知用户作为发言者包括确定查询是否包括特定已知用户的授权令牌。在一些方面,响应于确定查询不是来自已知用户而确定查询是否是非个人的包括:响应于确定查询不是来自已知用户,确定针对查询的回答是否取决于个人信息。
在一些方面,本说明书中描述的主题可以体现在方法中,方法可以包括以下动作:至少基于特定用户讲出热词的样本的第一集合确定言语包括特定用户讲出热词,响应于至少基于特定用户讲出热词的样本的第一集合确定言语包括特定用户讲出热词来将言语的至少一部分存储为新的样本,获得特定用户讲出言语的样本的第二集合(其中样本的第二集合包括新的样本并且少于样本的第一集合中的所有样本)、并且至少基于用户讲出热词的样本的第二集合来确定第二言语包括特定用户讲出热词。
在某些方面,获得特定用户讲出言语的样本的第二集合(其中样本的第二集合包括新的样本并且少于样本的第一集合中的所有样本)包括选择预定数量的近期存储的样本作为样本的第二集合。在一些方面,获得特定用户讲出言语的样本的第二集合(其中样本的第二集合包括新样本并且少于样本的第一集合中的所有样本)包括选择预定数量的最近存储的样本和参考样本的集合两者以一起组合为样本的第二集合。在一些实施方式中,参考样本包括来自特定用户的注册过程的样本,并且最近存储的样本包括来自由特定用户讲出的查询的样本。
在某些方面,动作包括响应于获得样本的第二集合来删除在样本的第一集合中但不在样本的第二集合中的样本。在一些方面,至少基于特定用户讲出热词的样本的第一集合来确定言语包括特定用户讲出热词包括:使用样本的第一集合生成热词检测模型,向热词检测模型输入言语,并且确定热词检测模型已经将言语分类为包括特定用户讲出热词。在一些实施方式中,至少基于用户讲出热词的样本的第二集合来确定第二言语包括特定用户讲出热词包括使用样本的第二集合生成第二热词检测模型,将第二言语输入到第二热词检测模型,并且确定第二热词检测模型已经将第二言语分类为包括特定用户讲出热词。
在某些方面,动作包括从服务器接收第二新样本并且至少基于样本的第三集合确定第三言语包括特定用户讲出热词,样本的第三集合包括来自服务器的第二新样本并且少于样本的第二集合中的所有样本。在一些方面,动作包括:从服务器接收样本的第三集合中的样本的指示,确定样本的第三集合中不是本地存储的样本,向服务器提供针对样本的第三集合中不是本地存储的样本的请求,并且响应于该请求从服务器接收不是本地存储的样本。
在一些实施方式中,动作包括:向声音使能的设备提供样本的第一集合以使声音使能的设备能够检测出特定用户是否说出热词,其中至少基于特定用户讲出热词的样本的第一集合来确定言语包括特定用户讲出热词包括接收声音使能的设备检测出特定用户说出热词的指示。在某些方面,动作包括:使用样本的第一集合生成热词检测模型,并且向声音使能的设备提供热词检测模型以使声音使能的设备能够检测特定用户是否说出热词,其中至少基于讲出热词的特定用户的样本的第一集合来确定言语包括特定用户讲出热词包括接收声音使能的设备检测出特定用户说出热词的指示。
在一些实施方式中,动作包括:从声音使能的设备接收针对用于检测特定用户是否说出热词的样本的当前集合的请求,确定样本的当前集合中不是由声音使能的设备本地存储的样本,并且向声音使能的设备提供样本的当前集合中不是由声音使能的设备本地存储的样本和样本的当前集合中的样本的指示。
这一点和其它方面的其它实施方式包括对应的系统、装置、和计算机程序,其被配置为执行在计算机存储设备上编码的方法的动作。一个或多个计算机的系统能够凭借在系统上安装在操作中导致系统执行动作的软件、固件、硬件、或它们的组合来如此配置。一个或多个计算机程序能够凭借具有当由数据处理装置施行时引起装置执行动作的指令来如此配置。
可以实施本说明书中描述的主题的特定实施例,以便实现以下优点中的一个或多个。例如,通过使语音使能的设备向服务器提供包括言语的发言者的认证令牌的查询,系统可以使语音使能的设备能够由多个不同的用户共享并且提供针对言语的发言者的个性化的响应。在另一示例中,通过具有包括在语音使能的设备上存储的用于用户的多个或所有授权令牌并且指示哪个授权令牌对应于发言者、或是否没有授权令牌对应于发言者的查询,系统可以使服务能够在共享的语音使能的设备的用户之间共享。例如,如果处理查询的服务器接收到具有包括被准许使用音乐流服务的特定用户的认证令牌的令牌池的查询,则即使查询不指示特定用户讲出言语,服务器仍然可以响应于给出了存在特定用户的认证令牌的查询而准许使用音乐流服务。因此,系统可以保护针对特定用户的个人信息的访问,同时仍然准许由例如访客用户对语音使能的设备的一般使用。系统可以因此解决与数据安全性相关联的问题。系统可以附加地或替代地解决与在由多个不同用户使用的设备上如何提供个性化的用户交互相关联的问题。
在另一示例中,通过使系统基于用户讲出言语的新的样本来获得样本的不同集合,系统可以确保即使当由语音使能的设备接收到的音频中声音、口音、环境、或其它因素改变时当特定已知用户讲出言语时检测中的准确性。在又另一示例中,通过使系统在多个不同的语音使能的设备之间发送样本,系统可以使用户能够通过不必讲出来为语音使能的设备中的每一个提供参考样本而节省时间,并且也可以确保语音使能的设备中的每一个类似地检测已知用户讲出热词。因此,可以保存用户在第一注册之后通过讲话而提供参考样本所需要的处理。例如,系统可以确保如果特定言语被辨识为在已知用户的一个语音使能的设备上讲出,则该已知用户的所有语音使能的设备将类似地将该特定言语辨识为由该已知用户讲出。因此,可以增加针对已知用户的一致性和可预测性。
在附图和以下描述中阐述了本说明书中描述的主题的一个或多个实施方式的细节。从描述、附图、和权利要求,主题的其它特征、方面、和潜在优点将变得显而易见。
附图说明
图1A-图1C是示出与语音使能的设备的示例交互的框图。
图2是示出用于处理来自已知用户的言语的过程的示例的流程图。
图3是示出用于处理来自访客用户的言语的过程的示例的流程图。
图4是示出用于处理来自语音使能的设备的查询的过程的示例的流程图。
图5是示出用于处理来自语音使能的设备的查询的过程的另一示例的流程图。
图6是示出更新用于发言者识别的样本集合的示例的框图。
图7是示出用于更新用于发言者识别的样本集合的过程的示例的流程图。
图8是计算设备的示例的图。
各个附图中的相同的参考标号和名称指示相同的元件。
具体实施方式
图1A-图1C是示出系统100中的不同示例交互的框图。系统100包括语音使能的设备125和服务器155。语音使能的设备125和服务器155可以一起工作以提供针对由用户110发出的言语120的响应。例如,语音使能的设备125可以基于由接近语音使能的设备125的用户讲出的言语向服务器提供查询。服务器155可以然后向语音使能的设备125提供针对言语的响应。
在一些实施方式中,语音使能的设备125可以响应于检测到言语包括用户讲出以发起来自系统100的响应的预定短语(也称为热词)而向服务器155提供查询。例如,热词可以是“OK计算机”或其它一些短语。
为了处理来自多个用户的言语,语音使能的设备125可以将言语分类为由特定已知用户讲出,并且向服务器提供指示被分类为讲出言语的特定已知用户的查询。已知用户可以是注册为系统100的用户的用户,并且访客用户可以是未注册为系统100的用户的用户。例如,“爸爸”可以注册为语音使能的设备125的已知用户,并且语音使能的设备125可以以后对言语是否由已知用户“爸爸”讲出进行分类。服务器155可以使用查询中特定已知用户的指示、或查询中不使用这样的指示,以生成针对查询的响应。
例如,图1A示出了由已知用户“爸爸”讲出的言语“OK计算机,我的日程表上有什么”。语音使能的设备125向服务器155提供查询,其中该查询包括言语的表示和言语被分类为了由已知用户“爸爸”讲出的指示。服务器155基于已知用户“爸爸”的指示生成响应“爸爸,你今天下午1点和约翰有一个会议”。
在另一示例中,图1B示出了由访客用户讲出的言语“OK计算机,我的日程表上有什么”。语音使能的设备125向服务器155提供查询,其中查询包括言语的表示并且不包括言语被分类为了由语音使能的设备125的任何已知用户讲出的指示。服务器155然后基于不存在言语被分类为了由语音使能的设备125的任何已知用户讲出的指示而生成响应“我不具有对于你的日程表的访问,但是你知道今天是全国冰淇淋日吗”。
在又另一实施例中,图1C示出了由访客用户讲出的言语“OK计算机,现在是什么时间”。语音使能的设备125向服务器155提供查询,其中查询包括言语的表示并且不包括言语被分类为由语音使能的设备125的任何已知用户讲出的指示。服务器155基于确定虽然没有已知用户被指示为讲出但是查询与个人信息无关,然后生成响应“现在是上午11点”并且将其向语音使能的设备125提供。
更详细地,语音使能的设备125可以包括一个或多个麦克风和一个或多个扬声器。语音使能的设备125可以使用一个或多个麦克风接收言语,并且通过一个或多个扬声器输出针对言语的可听的响应。
语音使能的设备125可以存储与相应已知用户对应的认证令牌。例如,语音使能的设备可以存储第一已知用户“妈妈”的第一认证令牌132、第二已知用户“爸爸”的第二认证令牌134、第三已知用户“马特”的第三认证令牌136、和第四已知用户“凯特”的第四认证令牌138。
用户的认证令牌可以是服务为用作系统100中的用户的账户的登录的数据结构。例如,包括已知用户“爸爸”的认证令牌134并且指示“爸爸”被分类为发言者的查询可以使得能够访问帐户“爸爸”中的信息。认证令牌可以指示可以响应于言语而执行的动作。例如,因为已知用户“爸爸”的帐户可以具有用于从“提供者X”播放音乐的授权,所以包括“爸爸”的授权令牌134的用于从“提供者X”播放音乐的查询可以导致从“提供者X”播放音乐。在另一示例中,不包括具有被授权为从“提供者X”播放音乐的帐户的任何已知用户(不仅仅是当前发言者)的授权令牌的用于从“提供者X”播放音乐的查询可能不能导致乐播放音乐。
在一些实施方式中,语音使能的设备125可以响应于用户注册为语音使能的设备的已知用户而存储已知用户的认证令牌。例如,用户“妈妈”、“爸爸”、“马特”、和“凯特”可以明确地注册为语音使能的设备125的已知用户。在注册过程中,语音使能的设备125可以从服务器155接收已知用户的认证令牌。例如,当“爸爸”注册为语音使能的设备125的已知用户时,服务器155可以向语音使能的设备125提供“爸爸”的认证令牌134。在注册过程中,语音使能的设备125也可以存储能够用于将发言者识别为已知用户的上下文信息。例如,当“爸爸”注册为语音使能的设备125的已知用户时,语音使能的设备125可以请求“爸爸”多次讲出热词,然后本地地存储与热词的言语对应的发言者识别特征。
在一些实施方式中,用户可以通过移动计算设备上的伴随应用注册为已知用户,其中移动计算设备经由本地无线连接与语音使能的设备125通信。例如,用户可以通过智能电话上的伴随应用登录该用户的帐户,然后在伴随应用中指示该用户想要注册为语音使能的设备125的已知用户,然后将热词多次说到移动计算设备中。伴随应用可以然后基于用户说出热词而引起针对用户的认证以连同发言者识别特征存储在语音使能的设备125上。
在一些实施方式中,语音使能的设备125可以基于在查询中包括关于特定已知用户的认证令牌的标记,在查询中包括该特定已知用户的指示。例如,语音使能的设备125可以在查询中包括在语音使能的设备125上存储的所有认证令牌(本文称为“池”),并且仅针对语音使能的设备125分类为由与认证令牌对应的所识别的已知用户讲出的言语的该认证令牌设置标记。
在这样的实施方式中,认证令牌的池可以由服务器155使用以处理其中回答不取决于已知用户的个人信息的查询。例如,查询可以是“播放来自X服务的音乐”,并且服务器155可以检查查询中的认证令牌以尝试从池识别与确实具有用于“播放来自X服务的音乐”的权利的已知用户相关联认证令牌。如果服务器155识别出具有用于“播放来自X服务的音乐”的权利的至少一个认证令牌,则服务器155可以播放来自“X服务”的音乐。在该示例中,将所有认证令牌作为池包括在查询中可以准许语音使能的设备125的任何用户(包括访客用户)使语音使能的设备125可以播放来自“X服务”的音乐。
在一些实施方式中,语音使能的设备125可以通过在查询中包括特定已知用户的认证令牌(即,不包括标记)来在查询中包括特定已知用户的指示。例如,在一些实施方式中,当语音使能的设备125将言语分类为由对应于认证令牌的已知用户讲出时,语音使能的设备125仅在查询中包括认证令牌。在这样的实施方式中,当存在来自不与已知用户对应的访客用户的言语时,语音使能的设备125将言语分类为不由已知用户中的任一者讲出并且向服务器155提供不包括任何认证令牌的查询。
在一些实施方式中,语音使能的设备125可以存储指示语音使能的设备125可以具有的权利的设备认证令牌,并且在向服务器155的查询中包括该设备认证令牌。例如,如果语音使能的设备125存储被授权为播放来自“提供者X”的音乐的已知用户的认证令牌,则语音使能的设备125可以存储指示语音使能的设备125被授权为播放来自“提供者X”的音乐的设备认证令牌并且在所有查询中包括该设备认证令牌,使得所有用户能够播放来自“提供者X”的音乐(即,不需要具体的用户令牌)。在另一示例中,如果语音使能的设备125不存储被授权为播放来自“提供者X”的音乐的已知用户的认证令牌,则语音使能的设备125可以存储不指示语音使能的设备125被授权为播放来自“提供者X”的音乐的设备认证令牌。
在一些实施方式中,语音使能的设备125可以基于上下文信息将言语分类为由特定用户讲出。上下文信息可以包括音频、视觉、或其它信息中的一个或多个。关于音频信息,语音使能的设备125可以基于已知用户的一个或多个言语的发言者识别特征(例如,能够共同形成特征向量的梅尔频率倒谱系数(mel-frequency cepstral coefficient,MFCC)特征)来对言语进行分类。例如,语音使能的设备125可以存储针对已知用户中的每一个讲出“OK计算机”的发言者识别特征。响应于当前接收到的言语中的发言者识别特征充分地匹配存储的已知用户“爸爸”讲出“OK计算机”的发言者识别特征,语音使能的设备125可以将言语分类为由已知用户“爸爸”讲出。
在另一示例中,语音使能的设备125可以基于言语的整个音频来对言语进行分类。例如,语音使能的设备125可以确定整个接收到的言语中的语音是否与对应于已知用户“爸爸”的语音匹配。
关于视觉信息,语音使能的设备125可以接收发言者的至少一部分的一个或多个图像并且基于该一个或多个图像尝试辨识发言者。例如,语音使能的设备125可以包括照相机并且确定照相机的视野内的发言者具有语音使能的设备125将其分类为与对应于已知用户“爸爸”的面部匹配的面部。在其它示例中,语音使能的设备125可以尝试匹配发言者的指纹、视网膜扫描、面部辨识、姿势、另一设备的共存、或来自另一设备或软件的元件的身份的确认中的一个或多个。
服务器155可以从语音使能的设备125接收查询并且向语音使能的设备125提供针对查询的响应。例如,服务器155可以接收查询“OK计算机,我的日程表上有什么”,并且作为响应,提供响应“爸爸,你今天下午1点和约翰有一个会议”。如图1A-图1C和随附的描述中所示,服务器155可以基于确定查询是否包括已知用户的指示和查询是否包括与个人信息有关的问题来提供针对查询的响应。
更详细地,服务器155可以初始地确定查询是否指示言语由语音使能的设备125分类为由已知用户讲出。例如,当查询包括在语音使能的设备125上存储的所有认证令牌的池时,服务器155可以确定查询包括具有“爸爸”的认证令牌的值为“真”的标记“最佳发言者”。在另一示例中,当查询仅包括被分类为讲出言语的已知用户的认证令牌时,服务器155可以确定查询包括“爸爸”的认证令牌。
如果服务器155确定查询指示言语由语音使能的设备125分类为由已知用户讲出,则服务器155然后可以处理与已知用户有关的查询。例如,对于包括言语“OK计算机,我的日程表上有什么”的音频表示并且指示已知用户“爸爸”的查询,服务器155可以从音频表示生成“OK计算机,我的日程表上有什么”的转录,基于该转录访问已知用户“爸爸”的日程表,基于访问日程表生成响应“爸爸,你今天下午1点和约翰有一个会议”,并且向语音使能的设备125提供该响应。可选地,服务器155(或与其相关联的模块)可以使用已知的发言者识别和/或音频表示来重写转录。例如,知道发言者是“爸爸”,服务器155可以将查询从“OK计算机,我的日程表上有什么”重写为“OK计算机,[爸爸]的日程表上有什么”。
如果服务器155确定查询不指示言语由语音使能的设备125分类为由已知用户讲出,则服务器155可以确定查询是否与个人信息有关。例如,服务器155可以确定包括言语“OK计算机,我的日程表上有什么”的音频表示的查询与个人信息相关,因为针对该问题的回答取决于针对用户的个人信息(例如,回答该查询将要求访问安全的用户帐户)。在另一示例中,服务器155可以确定包括言语“OK计算机,现在是什么时间?”的音频表示的查询与个人信息无关,因为针对该问题的回答不取决于针对用户的个人信息。
如果服务器155确定查询不指示言语由语音使能的设备125分类为由已知用户讲出并且确定查询与个人信息有关,则服务器155可以确定不提供对于该查询的回答(并且可选地提供可以纠正不能辨识的附加信息、对话、或指导)。例如,如图1B中所示,对于由访客用户讲出的言语“OK计算机,我的日程表上有什么”,服务器155提供响应“我不具有对于你的日程表的访问,但是你知道今天是全国冰淇淋日吗”。(或者替代地,“我不具有对于你的日程表的访问,但是如果你愿意,我可以指导你通过注册过程。”)
如果服务器155确定查询不指示言语由语音使能的设备125分类为由已知用户讲出并且确定查询与个人信息无关,则服务器155可以确定提供对于该查询的回答。例如,如在图1C中所示,对于由访客用户讲出的言语“OK计算机,现在是什么时间”,服务器155提供响应“现在是上午11点”。
可以使用系统100的不同配置,其中可以组合、进一步分离、分布、或互换语音使能的设备125和服务器155的功能性。例如,并非在查询中包括言语的音频表示用于服务器155转录,语音使能的设备125可以转录言语并且在向服务器155的查询中包括该转录。
图2是示出用于处理来自已知用户的言语的过程200的示例的流程图。过程200的操作可以由诸如图1A-图1C的系统100的一个或多个计算系统执行。
过程200包括存储与设备的已知用户对应的认证令牌(205)。例如,语音使能的设备125可以分别接收并且存储已知用户“妈妈”、“爸爸”、“马特”、和“凯特”的认证令牌132、134、136、138。认证令牌中的每一个可以对应于已知用户中的相应一个。例如,第一认证令牌132可以对应于第一已知用户“妈妈”,第二认证令牌134可以对应于第二已知用户“爸爸”,第三认证令牌136可以对应于第三已知用户“马特”,并且第四认证令牌138可以对应于第四已知用户“凯特”。
语音使能的设备125可以响应于用户注册为语音使能的设备的已知用户而存储认证令牌。例如,在服务器155接收“妈妈”将使用语音使能的设备125的指示之后,响应于语音使能的设备125从服务器155接收“妈妈”的认证令牌,可以由语音使能的设备125存储该认证令牌。
过程200包括从发言者接收言语(210)。例如,语音使能的设备125可以通过语音使能的设备125的麦克风从已知用户“爸爸”接收言语“OK计算机,我的日程表上有什么”。
过程200包括将言语分类为由已知用户中的特定已知用户讲出(215)。例如,语音使能的设备125可以将言语分类为由已知用户“爸爸”讲出。在一些实施方式中,将言语分类为由已知用户中的特定已知用户讲出包括确定言语与对应于特定已知用户的语音匹配。例如,语音使能的设备125可以确定言语的发言者识别特征与先前针对“爸爸”存储的发言者识别特征匹配。
在一些实施方式中,确定言语与对应于特定已知用户的语音匹配包括确定言语包括预定短语,并且响应于确定预定短语的言语,确定预定短语的言语与由特定已知用户的预定短语的在先言语匹配。例如,语音使能的设备125可以确定言语包括热词“OK计算机”,并且作为响应,确定在言语中的“OK计算机”的发言者识别特征是否与先前存储的说出“OK,计算机”的“爸爸”的发言者识别特征匹配。
在一些实施方式中,将言语分类为由已知用户中的特定已知用户讲出包括确定对应于发言者的视觉信息与对应于特定已知用户的视觉信息匹配。例如,语音使能的设备125可以包括照相机,使用照相机捕获发言者的图像,并且确定发言者的指纹、视网膜扫描、面部、或姿势中的一个或多个是否与“爸爸”的对应视觉信息匹配。
过程200包括提供查询,该查询包括言语的表示和作为发言者的特定已知用户的指示(220)。例如,语音使能的设备125可以向服务器155提供查询,该查询包括“OK计算机”的音频表示和“爸爸”是发言者的指示。
在一些实施方式中,提供包括言语的表示和作为发言者的特定已知用户的指示的查询包括提供包括认证令牌和指示言语被分类为由特定已知用户讲出的标记的查询。例如,语音使能的设备125可以向服务器155提供包括在语音使能的设备125上存储的所有认证令牌和针对“爸爸”的认证令牌的标记“最佳发言者”为“真”的指示的查询。
在一些实施方式中,提供包括言语的表示和作为发言者的特定已知用户的指示的查询包括提供包括仅特定已知用户的认证令牌的查询,其中在查询中包括特定已知用户的认证令牌指示该言语被分类为由该特定已知用户讲出。例如,语音使能的设备125可以向服务器155提供包括“爸爸”的单个认证令牌的查询。
图3是示出用于处理来自访客用户的言语的过程300的示例的流程图。过程300的操作可以由诸如图1A-图1C的系统100的一个或多个计算系统执行。
过程300包括存储与设备的已知用户对应的认证令牌(305)。例如,语音使能的设备125可以接收并且存储已知用户“妈妈”、“爸爸”、“马特”、和“凯特”的认证令牌。
过程300包括从发言者接收言语(310)。例如,语音使能的设备125可以通过语音使能的设备125的麦克风从已知用户“爸爸”接收言语“OK计算机,我的日程表上有什么”。
过程300包括将言语分类为不由已知用户中的任一者讲出(315)。例如,语音使能的设备125可以将言语分类为不由“妈妈”、“爸爸”、“马特”、或“凯特”讲出。
过程300包括提供包括言语的表示并且不指示作为发言者的特定已知用户的查询(320)。例如,语音使能的设备125可以向服务器155提供包括“OK计算机”的音频表示并且不指示“妈妈”、“爸爸”、“马特”、或“凯特”作为发言者的查询。在一些实施方式中,提供包括言语的表示并且不指示言语被分类为由已知用户中的特定已知用户讲出的查询包括提供查询,该查询包括认证令牌的池并且没有指示言语被分类为由已知用户中的特定已知用户讲出的标记。例如,语音使能的设备125可以向服务器155提供查询,该查询包括在语音使能的设备125上存储的所有认证令牌和针对已知用户的所有认证令牌的所有标记“最佳发言者”为“假”的指示。
在一些实施方式中,提供包括言语的表示并且不指示言语被分类为由已知用户中的特定已知用户讲出的查询包括提供不包括已知用户中的任一者的认证令牌的查询。例如,语音使能的设备125可以向服务器155提供不包括“妈妈”、“爸爸”、“马特”、或“凯特”的认证令牌的查询。实际上,在这样的情况下,根据一些实施例,语音使能的设备125可以向服务器155提供言语的表示而根本不提供令牌。根据其它实施例,可以向服务器155提供除了用户认证令牌之外的令牌(诸如设备认证令牌)与言语的表示。
图4是示出用于处理来自语音使能的设备的言语的过程400的示例的流程图。过程400的操作可以由诸如图1A-图1C的系统100的一个或多个计算系统执行。
过程400包括确定查询是否指示特定已知用户作为发言者(405)。例如,服务器155可以确定查询指示已知用户“爸爸”是用于查询的发言者。在一些实施方式中,确定查询是否指示特定已知用户作为发言者包括确定查询是否包括指示言语被分类为由特定已知用户讲出的标记。例如,服务器155可以确定已知用户“爸爸”的授权令牌的标记“最佳发言者”是否被设置为“真”。在一些实施方式中,确定查询是否指示特定已知用户作为发言者包括确定查询是否包括已知用户的授权令牌。例如,服务器155可以确定查询包括已知用户“爸爸”的授权令牌。
过程400包括响应于确定查询是否指示特定已知用户作为发言者,确定查询不是来自已知用户(410)。例如,服务器155可以确定因为没有特定已知用户是查询的发言者,所以该查询来自访客用户。
过程400包括响应于确定查询不是来自已知用户,确定查询是否是非个人的(415)。例如,响应于确定查询不是来自已知用户,服务器155可以确定针对言语“OK计算机,我日程表上有什么”的查询是个人的。在另一示例中,响应于确定查询不是来自已知用户,服务器155可以确定针对言语“OK计算机,什么时间”的查询是非个人的。在一些实施方式中,确定查询是否是非个人的包括确定针对查询的回答是否取决于个人信息(例如,要求访问安全用户帐户)。例如,服务器155可以确定针对“我的日程表上有什么”的查询是个人的,因为回答取决于用户是谁以及对于该用户的个人信息的访问两者。在另一示例中,可以确定查询“现在是什么时间”是非个人的,因为回答不取决于用户是谁。
过程400包括响应于确定查询是非个人的,尝试提供针对该查询的响应(420)。例如,响应于确定查询“现在是什么时间”是非个人的,服务器155可以尝试确定当前时间并且向语音使能的设备125提供响应“现在是上午11点”。
图5是示出用于处理来自语音使能的设备的言语的过程500的示例的流程图。过程500的操作可以由诸如图1A-图1C的系统100的一个或多个计算系统执行。
过程500包括接收查询(510)。例如,服务器155可以接收查询,该查询包括(i)言语“OK计算机,我的日程表上有什么”的表示,(ii)已知用户的认证令牌的池,和(iii)已知用户“爸爸”讲出了该言语的指示。
过程500包括确定查询是否要求个人数据(512)。例如,服务器155可以确定“我的日程表上有什么”需要发言者的个人数据。
如果过程500确定查询不需要个人数据,则过程500包括确定查询是否包括已知用户的指示(514)。例如,服务器155可以确定标记“最佳发言者”针对“爸爸”的任何认证令牌被设置为真。
如果过程500确定查询包括已知用户的指示,则过程500使用所指示的已知用户的认证令牌来登录或执行另一凭证动作(516),检索数据(518),并且服务于声音使能的设备(520)。例如,服务器155使用“爸爸”的认证令牌登录到帐户“爸爸”中,检索“爸爸”的日程表,并且基于检索到的日程表利用“爸爸”的约会的摘要向语音使能的设备125提供响应。
返回到514,如果过程500替代地确定查询不包括已知用户的指示,则过程包括提供“无访问”消息(522)。例如,服务器155可以向语音使能的设备125提供响应“我不具有对于你的日程表的访问”。在提供“无访问”消息之后,过程500可以包括在注册时可选地提供辅助(524)。例如,服务器155可以向语音使能的设备125提供响应“如果你愿意,我可以指导你通过注册过程”的。
返回到512,如果过程500替代地确定查询不要求个人数据,则过程确定查询是否要求任何其它注册(526)。例如,服务器155可以确定处理用于访问基于订阅的音频服务的查询需要具有订阅的已知用户的注册。
如果过程500确定查询确实需要其它注册,则过程500确定查询是否包括池中的至少一个已知用户(528)。例如,服务器155可以确定池中没有已知用户具有针对音频服务的订阅。如果过程500确定池不包括至少一个已知用户,则过程包括提供“无访问”消息(522)并且在注册时可选地提供辅助(524)。
返回到528,如果过程500确定查询包括池中的至少一个已知用户,则过程500包括施行查询(530)并且服务于声音使能的设备(532)。例如,服务器155访问订阅音频服务,并且使用针对订阅音频服务的访问来向语音使能的设备125提供响应。
返回到526,如果过程500确定查询不需要任何其它注册,则过程500包括施行查询(530)并且服务于声音使能的设备(532)。例如,服务器155确定查询“现在是什么时间”不需要其它注册,并且提供指示时间的响应。
虽然在过程500中首先示出了确定查询是否需要个人数据(512),但是过程500可以是不同的。例如,过程500可以替代地首先确定查询是否包括已知用户的指示(514),并且如果指示无已知用户,则确定查询是否需要个人数据(512)。
图6是示出更新用于发言者识别的样本的集合的系统600的示例的框图。系统600包括热词检测器610、样本选择器620、参考样本数据储存器630、和近期样本数据储存器640。在一些实施方式中,热词检测器610可以在语音使能的设备(诸如针对系统100描述的语音使能的设备125)上实施,并且样本选择器620、参考样本数据储存器630、和近期样本数据储存器640可以在服务器(诸如针对系统100描述的服务器155)上实施。例如,语音使能的设备125可以包括热词检测器610,并且语音使能的设备125可以使用热词检测器610来确定特定已知用户是否已经讲出了热词。在另一示例中,热词检测器610和样本选择器620两者可以定位在语音使能的设备125上。
在用于改进在特定已知用户的注册之后说出热词的特定已知用户的以后检测的一些实施方式中,系统100可以在用户以后当提供查询时说出热词时存储附加的发言者识别特征。例如,已知用户“爸爸”可以在初始注册期间三次说出“OK计算机”,并且语音使能的设备125可以存储该三次的发言者识别特征。以后在注册之后,当已知用户“爸爸”通过说出“OK计算机”来提供查询时,语音使能的设备125可以存储附加的发言者识别特征用于针对该查询说出“OK计算机”的使用。继续该示例,语音使能的设备125可以然后当已知用户“爸爸”以后说出“OK计算机”时使用发言者识别特征的所有四个集合来确定。
虽然这里一般地描述了发言者识别特征的使用,但是可以类似地使用音频记录。例如,语音使能的设备125可以存储与已知用户“爸爸”说出“OK计算机”对应的四个音频记录,然后使用该四个音频记录来生成能够以后用于检测已知用户“爸爸”说出热词的热词检测模型。甚至可以基于从该四个音频记录提取的发言者识别特征来生成热词检测模型。因此,本文对存储并且使用发言者识别特征来检测已知用户讲出热词的系统100的描述可以类似地应用于存储并且使用音频记录来检测已知用户讲出热词,反之亦然。
允许系统100使用附加的发言者识别特征可以使系统100当发言者出说热词时能够更准确地检测,因为系统100可以收集已知用户说出热词的更多样本。附加地或替代地,使用用户在注册之后说出热词的附加的发言者识别特征可以确保系统100可以适应在用户如何说出热词中的改变。例如,用户对热词发音的声音或方式可能随时间缓慢地改变。
在一些实施方式中,系统100可以使用来自已知用户说出热词的有限次数的发言者识别特征。例如,语音使能的设备125可以仅使用音频记录中的多达八个、十个、十五个、或某个其它预定数量的音频记录以及对应的发言者识别特征。语音使能的设备125可以总是使用来自在注册期间已知用户讲出热词的发言者识别特征,并且对于预定数量的音频记录的剩余音频记录,使用用户说出热词用于查询的最近的音频记录。例如,因为语音使能的设备125可以仅使用总共八个音频记录用于检测,所以使用在注册期间已知用户说出热词的音频记录中的所有三个并且使用已知用户讲出热词的最近五次的音频记录。
然而,因为多个用户可以使用语音使能的设备125,所以如果系统100能够以高置信度确定已知用户讲出了热词,则系统100可以确定仅使用发言者识别特征用于讲出热词的已知用户的以后检测。例如,语音使能的设备125可以确定,对于特定言语“OK计算机,播放音乐”,不是完全地像预期特定已知用户如何说出热词那样讲出“OK计算机”。作为响应,语音使能的设备125可以确定反映特定已知用户多可能讲出该言语的置信度分数,对于播放特定已知用户喜欢的音乐足够高但是对于语音使能的设备125将其用于由已知用户讲出热词的以后检测不足够高。
对于用户决定用于以后检测的发言者识别特征,语音使能的设备125可以当获得了发言者识别特征或音频记录时用指示对发言者识别特征或音频记录进行标记。例如,语音使能的设备125可以用时间戳对音频记录进行标记,并且使用时间戳来确定哪些音频记录是用于检测的最近音频记录。
热词检测器610可以确定并且指示是否可能由特定用户讲出热词。例如,热词检测器610可以接收已知用户“爸爸”说出“OK计算机,我的日程表上有什么”的音频表示,确定已知用户“爸爸”可能讲出了热词“OK计算机”,并且作为响应,向样本选择器620提供指示“爸爸”和音频表示。
如以上关于语音使能的设备125所描述的,热词检测器610可以使用样本的集合(例如,发言者识别特征或音频记录中的一个或多个)来检测特定已知用户是否讲出了热词。例如,热词检测器610可以是使用参考样本A-C和近期样本E-I训练以辨识已知用户“爸爸”讲出“OK计算机”的神经网络模型。参考样本可以是在注册过程期间从已知用户获得的样本,并且近期样本可以是从查询获得的样本。
样本选择器620可以获得音频表示和该音频表示与可能讲出热词的已知用户对应的指示,并且作为响应,将音频表示的一部分存储为新的近期样本并且从存储的样本当中获得样本的另一集合。例如,样本选择器620可以获得“OK计算机,我的日程表上有什么”的音频表示,从与“OK计算机”对应的部分生成样本作为近期样本J,然后选择样本的新的集合,该新的集合包括参考样本A-C和近期样本F-J,在该新的集合中不包括近期样本E。
样本选择器620可以从参考样本数据储存器630中的参考样本和近期样本数据储存器640中的近期样本获得样本的另一集合。例如,样本选择器620可以从参考样本数据储存器630获得参考样本A-C,从近期样本数据储存器640获得近期样本E-J,然后选择参考样本A-C和近期样本F-J。
类似于针对服务器155如上所描述的,样本选择器620可以基于样本的近期程度来选择要在样本的集合中使用的样本。在一些实施方式中,为了减少检测由已知用户讲出的热词所需的数据传递、存储、和处理的量,热词检测器610可以仅使用有限数量的样本用于检测。例如,热词检测器610可以仅使用八个样本用于检测。然而,考虑到在已知用户讲出热词的方式中的改变,例如用户生病、用户在更喧闹的环境中、用户的口音已经改变,样本选择器620可以选择最近获得的样本。另外,因为参考样本可以被认为具有已知用户讲出用于提供查询的热词的最准确表示,所以样本选择器可以选择参考样本的预定数量(例如,三个或所有)、和最近获得的近期样本的预定数量。
在一些实施方式中,样本选择器620可以通过利用何时生成样本的指示(例如,时间戳)来标记每个样本何时生成来确定最近获得的近期样本,并且将近期样本连同指示存储在近期样本数据储存器640中。
如图6中所示,在样本选择器620从“OK计算机,我的日程表上有什么”生成近期样本J之后,样本选择器620可以通过从参考样本数据储存器630获得参考样本A-C,从近期样本数据储存器640获得近期样本E-I,选择所有参考样本,基于确定近期样本F-J是近期样本E-J中的五个最近地生成的近期样本选择近期样本F-J,来获得包括参考样本A-C和近期样本F-J的集合。
在一些实施方式中,热词检测器610可以附加地或替代地提供已知用户讲出了热词的置信度的指示,并且样本选择器可以在确定是否要在检测中使用样本的集合的近期样本时考虑该置信度。例如,因为样本选择器620可以使用95%的置信度阈值,所以如果热词检测器610指示已知用户以小于95%的任何置信度在音频表示中讲出热词,则可以不从音频表示生成新样本。
样本选择器620可以附加地或替代地确定音频表示来自哪种类型的设备,利用该类型的指示标记近期样本,然后当生成样本的新的集合时考虑类型。例如,样本选择器620可以确定台式语音使能的设备正在请求样本的最当前集合,并且作为响应,仅从被标记为来自台式语音使能的设备的近期样本当中选择近期样本。在另一示例中,样本选择器620可以确定电视型语音使能的设备正在请求样本的最当前集合,并且作为响应,确定并且选择来自电视型语音使能的设备的两个最近样本和来自尚未选择的近期样本当中的三个最近样本。
附加地或替代地,当热词检测器在语音使能的设备上实施并且样本选择器620在服务器上实施时,服务器可以基于样本的集合生成用于检测的模型,然后向语音使能的设备发送该模型而不向语音使能的设备提供这些样本本身。例如,服务器155可以获得包括参考样本A-C和近期样本F-J的样本的集合,使用样本的集合训练热词检测模型,然后向语音使能的设备125发送训练后的热词检测模型。
在一些实施方式中,如果系统100已经存储特定已知用户讲出热词的发言者识别特征,则系统100可以使语音使能的设备125能够在不需要说出热词的情况下获得该特定已知用户讲出热词的发言者识别特征。例如,在用户提供帐户的登录信息以使用语音使能的设备125之后的初始注册期间,语音使能的设备125可以确定服务器155具有所存储的用户在关于另一语音使能的设备的先前注册期间三次说出“OK计算机”的音频记录,并且作为响应,从服务器155请求针对先前注册的音频记录,而不是当注册时提示特定已知用户三次说出“OK计算机”。
通过使用所存储的发言者识别特征,系统100可以使用户在不需要多次讲出热词用于关于附加的语音使能的设备的注册的情况下,能够快速地开始使用该附加的语音使能的设备。对于后续设备,系统100可以替代地使用来自注册第一语音使能的设备时所存储的用户说出“OK计算机”的先前音频记录的发言者识别特征。附加地,因为各种语音使能的设备均可以使用相同的发言者识别特征,所以系统100可以确保当用户说热词时各种设备在检测中是一致并且统一的。
在特定示例中,用户可以通过智能手机上的伴随应用注册以使用语音使能的设备125,指示用户想要注册为语音使能的设备125的已知用户,提供用户在伴随应用中的帐户的登录凭证,并且伴随应用可以请求服务器155确定用户的帐户是否具有所存储的用户说出热词“OK计算机”的音频记录。服务器155可以利用存在所存储的音频记录的指示(例如布尔“真”)进行响应,并且伴随应用可以作为响应而跳过要求用户多次说出热词的屏幕,并且替代地向语音使能的设备125传送用于从服务器155请求音频记录的指令。作为响应,服务器155然后可以向语音使能的设备125发送音频记录。
在一些实施方式中,类似于语音使能的设备125可以如何使用来自已知用户说出热词的附加的发言者识别特征作为查询的一部分用于由已知用户讲出的热词的以后检测,系统100中的语音使能的设备可以彼此共享这种附加的发言者识别特征,使得所有语音使能的设备可以改进已知用户说出热词的检测。例如,用户“爸爸”可以向语音使能的设备125说“OK计算机,我当天的约会是什么”,语音使能的设备125可以生成向第二语音使能的设备提供以用于检测用户“爸爸”以后说出“OK计算机”的音频记录。
在一些实施方式中,语音使能的设备可以通过服务器155共享附加的发言者识别特征。例如,每当语音使能的设备125确定针对热词的言语的置信度分数满足预定的置信度分数阈值时,语音使能的设备125可以向服务器155提供已知用户说出热词的发言者识别特征或音频记录以及在语音使能的设备125上存储的特定已知用户的令牌。服务器155可以识别对应的已知用户帐户并且基于包括令牌认证应该为该已知用户帐户存储音频记录,然后将发言者识别特征或音频记录存储在服务器155上并且向已知用户已经注册为使用的所有其它语音使能的设备提供发言者识别特征或音频记录。其它语音使能的设备然后可以使用发言者识别特征或音频记录,用于已知用户讲出热词的以后检测。
在一些实施方式中,服务器155可以响应于来自语音使能的设备的请求或在没有接收到来自语音使能的设备的请求的情况下,提供附加的发言者识别特征或音频记录。例如,每当语音使能的设备125通电或在预定间隔(例如,每小时、每天、每周等)处,语音使能的设备125可以向服务器155提供要求对于用于检测的音频记录的任何更新的请求。在另一示例中,每当服务器155存储特定已知用户说出热词的新的音频记录时,服务器155可以推送标记有特定已知用户的指示的附加音频记录。
在一些实施方式中,系统100可以向语音使能的设备传送发言者识别特征或音频记录的整个集合。例如,服务器155可以接收针对用于检测已知用户说出“OK计算机”的音频记录的请求,并且作为响应,提供来自已知用户的注册的三个音频记录和已知用户说出“OK计算机”作为查询的一部分的五个最近音频记录。
在一些实施方式中,系统100可以通过避免发送语音使能的设备已经存储的发言者识别特征或音频记录来尝试减少带宽使用。例如,服务器155可以从特定语音使能的设备接收针对音频记录的当前集合的请求,并且传送用于八个音频记录中的每一个的标识符,例如唯一的字母数字文本。该特定语音使能的设备然后可以将那些标识符与语音使能的设备已经存储的音频记录的标识符进行比较,并且仅请求语音使能的设备尚未存储的那些标识符的音频记录。服务器155然后可以提供由语音使能的设备通过标识符请求的那些音频记录,语音使能的设备然后可以使用音频记录的这一集合用于已知用户说出热词的以后检测。
附加地或替代地,系统100可以跟踪每个语音使能的设备已经存储了哪些音频记录,使得语音使能的设备不需要请求特定识别特征或音频记录。例如,服务器155可以从特定语音使能的设备接收针对音频记录的当前集合的请求,确定特定语音使能的设备包括要使用的八个音频记录的集合中的所有但有两个新的音频记录,并且,作为响应,向语音使能的设备提供针对八个音频记录以及两个新的音频记录的标识符的集合。语音使能的设备然后可以删除具有与标识符的集合中的任何标识符不匹配的标识符的任何存储的音频记录,并且使用具有与集合对应的标识符的音频记录用于热词的以后检测。
在一些实施方式中,用于言语的置信度分数可以仅仅基于发言者识别特征或音频记录。例如,语音使能的设备125可以获得用于当前言语的发言者识别特征,将该发言者识别特征与所存储的发言者识别特征进行比较,并且直接地从该比较生成置信度分数。
替代地,用于言语的置信度分数可以基于其它因素。例如,语音使能的设备125可以确定是否刚刚接收到另一查询并且获取先前置信度分数和当前言语的初始置信度分数的平均值。在另一示例中,语音使能的设备125可以确定用户近期为已知用户提供了密码,并且作为响应,生成言语的与将从发言者识别特征或音频记录单独生成相比的更高置信度分数。
在一些实施方式中,系统100可以基于特定语音使能的设备的特性确定特定语音使能的设备要使用的音频记录的特定集合。例如,服务器155可以仅使用具有非常高置信度的音频记录用于语音使能的设备,语音使能的设备是可以在公共场所中携带并且暴露于来自讲出热词的许多不同人员的言语的移动计算设备。在另一示例中,服务器155可以仅将由台式语音使能的设备生成的音频记录用于台式语音使能的设备。在此示例中,服务器155可以用指示什么类型的设备生成了音频记录的信息来标记音频记录,使得服务器155能够以后基于设备类型确定要用于语音使能的设备的音频记录。
虽然以上图6的描述描述了针对已知用户“爸爸”的样本,但是热词检测器610和样本选择器620可以类似地将样本用于多个其它已知用户。热词检测器610可以获得样本的不同集合,其中每个集合包括用于特定已知用户的样本,然后使用集合来确定已知用户是否在言语中讲出热词。例如,热词检测器610可以接收言语,并且并行地使用利用已知用户“爸爸”的样本集合训练的第一热词检测器模型,并且使用利用已知用户“妈妈”的样本集合训练的第二热词检测器模型,确定第二热词检测器模型的输出指示以97%置信度已知用户“妈妈”讲出热词“OK计算机”,第二热词检测器模型的输出指示以8%置信度已知用户“爸爸”讲出热词,并且响应于确定97%置信度大于95%的预定阈值并且大于8%置信度,确定言语包括已知用户“妈妈”讲出热词。
图7是示出用于更新用于发言者识别的样本的集合的过程700的示例的流程图。过程200的操作可以由诸如图6的热词检测器610和样本选择器620的一个或多个计算系统执行。
过程700包括至少基于特定用户讲出热词的样本的第一集合确定言语包括特定用户讲出热词(705)。例如,热词检测器610可以使用参考样本A-C和近期样本E-I的集合来检测言语包括已知用户“爸爸”讲出热词“OK计算机”。
在一些实施方式中,至少基于特定用户讲出热词的样本的第一集合确定言语包括特定用户讲出热词可以包括:使用样本的第一集合生成热词检测模型,向热词检测模型输入言语,并且确定热词检测模型已经将言语分类为包括特定用户讲出热词。例如,热词检测器610可以使用样本的第一集合生成热词检测模型,将言语输入到热词检测模型中,然后使用来自热词检测模型的输出作为热词检测器的输出。
过程700包括:响应于至少基于讲出热词的特定用户的样本的第一集合来确定言语包括特定用户讲出热词,将言语的至少一部分存储为新的样本(710)。例如,响应于从热词检测器610接收到已知用户“爸爸”已经在言语中讲出热词的指示,样本选择器620可以将与“OK计算机”对应的言语的一部分存储为已知用户“爸爸”的新的近期样本J。
过程700包括获得特定用户讲出言语的样本的第二集合,其中样本的第二集合包括新的样本并且少于样本的第一集合中的所有样本(715)。例如,样本选择器620可以获得包括参考样本A-C和近期样本F-J的样本的第二集合,而不包括近期样本E。
在一些实施方式中,获得特定用户讲出言语的样本的第二集合(其中样本的第二集合包括新的样本并且少于样本的第一集合中的所有样本)可以包括选择预定数量的近期存储的样本作为样本的第二集合。例如,样本选择器620可以选择最近存储的近期样本中的三个、五个、八个、或某个其它预定数量。在一些实施方式中,获得讲出言语的特定用户的样本的第二集合(其中样本的第二集合包括新的样本并且少于样本的第一集合中的所有样本)可以包括选择预定数量的最近存储的样本和参考样本的集合两者以一起组合为样本的第二集合。例如,样本选择器620可以选择最近地存储的近期样本中的三个、五个、八个、或某个其它数量,并且选择参考样本中的一个、两个、三个、所有、或某个其它数量。
过程700包括至少基于用户讲出热词的样本的第二集合确定第二言语包括特定用户讲出热词(720)。例如,热词检测器610可以使用参考样本A-C和近期样本F-J的集合,而没有近期样本E,以检测言语包括已知用户“爸爸”讲出热词“OK计算机”。
在一些实施方式中,过程700包括响应于获得样本的第二集合,删除在样本的第一集合中但是不在样本的第二集合中的样本。例如,在样本选择器620选择不具有近期样本E的第二集合之后,样本选择器620可以确定没有用于热词检测的当前集合包括近期样本E,并且作为响应,指示近期样本数据储存器640删除近期样本E。
在一些实施方式中,过程700包括从服务器接收第二新样本并且至少基于样本的第三集合来确定第三言语包括特定用户讲出热词,第三集合包括来自服务器的第二新样本并且少于样本的第二集合中的所有样本。例如,热词检测器610可以接收近期样本K,然后基于参考样本A-C和近期样本G-K来确定另一言语包括已知用户“爸爸”说出“OK计算机”。
在一些实施方式中,过程700包括从服务器接收样本的第三集合中的样本的指示,确定样本的第三集合中不是本地存储的样本,向服务器提供针对样本的第三集合中不是本地存储的样本的请求,并且从服务器接收响应于该请求的不是本地存储的样本。例如,热词检测器610或语音使能的设备125可以从服务器155请求样本的当前集合,作为响应,接收用于热词检测器610或语音使能的设备125的样本的当前集合包括参考样本A-C和近期样本G-K的指示,确定参考样本A-C和近期样本G-J当前已经本地存储但是近期样本K当前未本地存储,向服务器155提供针对近期样本K的请求,并且接收响应于该请求的近期样本K。
在一些实施方式中,过程700包括向声音使能的设备提供样本的第一集合以使声音使能的设备能够检测出特定用户是否说出热词,其中至少基于特定用户讲出热词的样本的第一集合来确定言语包括特定用户讲出热词包括接收声音使能的设备检测到特定用户说出热词的指示。例如,服务器155可以基于从语音使能的设备125接收到音频表示和被标记为发言者的已知用户“爸爸”的令牌来确定言语包括已知用户“爸爸”讲出热词“OK计算机”。
在一些实施方式中,过程700包括使用样本的第一集合生成热词检测模型,并且向声音使能的设备提供该热词检测模型以使声音使能的设备能够检测出特定用户是否说出热词,其中至少基于特定用户讲出热词的样本的第一集合确定言语包括特定用户讲出热词包括接收声音使能的设备检测到特定用户说出热词的指示。例如,服务器155可以基于样本的集合生成热词检测模型,并且然后向语音使能的设备125提供该热词检测模型。
在一些实施方式中,过程700包括从声音使能的设备接收针对样本的当前集合的请求,用于检测特定用户是否说出热词,确定样本的当前集合中不是由声音使能的设备本地存储的样本,并且向声音使能的设备提供样本的当前集合中不是由声音使能的设备本地存储的样本和样本的当前集合中的样本的指示。例如,服务器155可以从语音使能的设备125接收针对样本的当前集合的请求,确定服务器155先前向语音使能的设备125提供哪些样本,然后向语音使能的设备125提供样本的当前集合中的样本的指示以及服务器155确定服务器155尚未向语音使能的设备125提供的样本。
在一些实施方式中,系统600可以使用户能够请求提供新的参考样本。例如,系统600可以从用户接收用于重置为用户存储的样本的请求。系统600可以通过由用户使用的智能电话上的伴随应用接收用于重置样本的请求,响应于该请求,系统600可以删除为用户存储的所有参考样本并且请求用户多次说出热词并且从言语生成新的参考样本。系统600然后可以生成样本的第三集合,第三集合包括所有新的参考样本和预定数量的最近存储的近期样本。在另一示例中,系统600可以通过由用户使用的智能电话上的伴随应用接收用于重置样本的请求,响应于该请求,系统600可以删除为用户存储的参考样本和近期样本两者中的所有样本并且请求用户多次说出热词并且从言语生成新的参考样本。系统600然后可以生成样本的第三集合,第三集合仅包括新的参考样本。
图8示出了能够用于实施这里描述的技术的计算设备800和移动计算设备850的示例。计算设备800旨在表示数字计算机的各种形式,诸如膝上型计算机、台式机、工作站、个人数字助理、服务器、刀片服务器、大型机、和其它适当的计算机。移动计算设备850旨在表示移动设备的各种形式,诸如个人数字助理、蜂窝电话、智能电话、和其它类似的计算设备。这里示出的组件、它们的连接和关系、以及它们的功能,仅仅是示例,并且不意味着限制。
计算设备800包括处理器802、存储器804、存储设备806、连接到存储器804的高速接口808和多个高速扩展端口810、以及连接到低速扩展端口814和存储设备806的低速接口812。处理器802、存储器804、存储设备806、高速接口808、高速扩展端口810、和低速接口812中的每一个使用各种总线互连,并且可以在公共主板上或以适当的其它方式安装。处理器802能够处理用于在计算设备800内施行的指令,包括存储在存储器804中或存储设备806上用于在外部输入/输出设备(诸如耦合到高速接口808的显示器816)上显示图形用户界面(graphical user interface,GUI)的图形信息的指令。在其它实施方式中,可以适当地使用多个处理器和/或多个总线以及多个存储器和存储器的类型。而且,可以连接多个计算设备,每个设备提供必要操作的部分(例如,作为服务器库、刀片服务器组、或多处理器系统)。
存储器804存储计算设备800内的信息。在一些实施方式中,存储器804是(多个)易失性存储器单元。在一些实施方式中,存储器804是(多个)非易失性存储器单元或单元。存储器804也可以是计算机可读介质的另一形式,诸如磁盘或光盘。
存储设备806能够为计算设备800提供大容量存储。在一些实施方式中,存储设备806可以是或包含计算机可读介质,诸如软盘设备、硬盘设备、光盘设备、或磁带设备、闪存存储器或其它类似的固态存储设备、或设备的阵列,包括存储区域网络中的设备或其它配置。指令能够存储在信息载体中。当指令由一个或多个处理设备(例如,处理器802)施行时,执行一个或多个方法,诸如以上描述的那些方法。指令也能够由一个或多个存储设备存储,诸如计算机或机器可读介质(例如,存储器804、存储设备806、或处理器802上的存储器)。
高速接口808管理用于计算设备800的带宽密集型操作,而低速接口812管理较低的带宽密集型操作。这样的功能分配仅是示例。在一些实施方式中,高速接口808耦合到存储器804、显示器816(例如,通过图形处理器或加速器),并且耦合到高速扩展端口810,高速扩展端口810可以接受各种扩展卡(未示出)。在实施方式中,低速接口812耦合到存储设备806和低速扩展端口814。可以包括各种通信端口(例如,USB、蓝牙、以太网、无线以太网)的低速扩展端口814可以例如通过网络适配器耦合到一个或多个输入/输出设备,诸如键盘、指点设备、扫描仪、或诸如交换机或路由器的网络设备。
如图中所示,计算设备800可以以数个不同形式实施。例如,它可以实施为标准服务器820,或者在一组这样的服务器中多次实施。另外,它可以在诸如膝上型计算机822的个人计算机中实施。它也可以实施为机架服务器系统824的一部分。替代地,来自计算设备800的组件可以与移动设备(未示出)(诸如移动计算设备850)中的其它组件组合。这样的设备中的每一个可以包含计算设备800和移动计算设备850中的一个或多个,并且整个系统可以由彼此通信的多个计算设备组成。
移动计算设备850包括处理器852、存储器864、和诸如显示器854、通信接口866、和收发器868的输入/输出设备、以及其它组件。移动计算设备850也可以提供有存储设备,诸如微型驱动器或其它设备,以提供附加的存储。处理器852、存储器864、显示器854、通信接口866、和收发器868中的每一个使用各种总线互连,并且若干组件可以安装在公共主板上或以适当的其它方式安装。
处理器852能够施行移动计算设备850内的指令,包括存储在存储器864中的指令。处理器852可以实施为包括分离的和多个模拟和数字处理器的芯片的芯片集。处理器852可以提供例如用于移动计算设备850的其它组件的协调,诸如用户界面的控制、由移动计算设备850运行的应用、和通过移动计算设备850的无线通信。
处理器852可以通过耦合到显示器854的显示器接口856和控制接口858与用户通信。显示器854可以是例如TFT(Thin-Film-Transistor Liquid Crystal Display,薄膜-晶体管液晶显示器)显示器或OLED(Organic Light Emitting Diode,有机发光二极管)显示器、或其它适当的显示器技术。显示器接口856可以包括用于驱动显示器854以向用户呈现图形和其它信息的适当电路。控制接口858可以从用户接收命令并且将它们转换用于提交给处理器852。此外,外部接口862可以提供与处理器852的通信,以便使能移动计算设备850与其它设备的近区域通信。外部接口862可以提供例如用于一些实施方式中的有线通信,或者用于其它实施方式中的无线通信,并且也可以使用多个接口。
存储器864存储移动计算设备850内的信息。存储器864能够实施为计算机可读介质或媒介、(多个)易失性存储器单元、或(多个)非易失性存储器单元中的一个或多个。也可以提供扩展存储器874并且将其通过扩展接口872连接到移动计算设备850,扩展接口872可以包括例如SIMM(Single In Line Memory Module,单直插存储器模块)卡接口。扩展存储器874可以为移动计算设备850提供额外的存储空间,或者也可以存储移动计算设备850的应用或其它信息。特别地,扩展存储器874可以包括用于实行或补充上述过程的指令,并且也可以包括安全信息。因此,例如,扩展存储器874可以被提供为移动计算设备850的安全性模块,并且可以被编程有准许移动计算设备850的安全使用的指令。此外,可以经由SIMM卡提供安全应用以及附加信息,诸如以不可黑客的方式在SIMM卡上放置识别信息。
如下所述,存储器可以包括例如闪存存储器和/或NVRAM存储器(non-volatilerandomaccess memory,非易失性随机存取存储器)。在一些实施方式中,指令存储在信息载体中,指令当由一个或多个处理设备(例如,处理器852)施行时,执行一个或多个方法,诸如以上描述的那些方法。指令也能够由一个或多个存储设备存储,诸如一个或多个计算机或机器可读介质(例如,存储器864、扩展存储器874、或处理器852上的存储器)。在一些实施方式中,能够在传播信号中接收指令,例如,在收发器868或外部接口862之上。
移动计算设备850可以通过通信接口866无线地通信,通信接口866可以在必要处包括数字信号处理电路。通信接口866可以提供在各种模式或协议下的通信,诸如GSM语音呼叫(Global System for Mobile communication,全球移动通信系统)、SMS(ShortMessage Service,短消息服务)、EMS(Enhanced Messaging Service,增强消息服务)、或MMS消息(Multimedia Messaging Service,多媒体消息服务)、CDMA(code divisionmultiple access,码分多址)、TDMA(time division multiple access,时分多址)、PDC(Personal Digital Cellular,个人数字蜂窝)、WCDMA(Wideband Code DivisionMultiple Access,宽带码分多址)、CDMA2000(Code Division Multiple Access,码分多址)、或GPRS(General Packet Radio Service,通用分组无线服务)等。这样的通信可以例如通过使用射频的收发器868发生。另外,可以发生短距离通信,诸如使用蓝牙、WiFi、或其它这样的收发器(未示出)。另外,GPS(Global Positioning System,全球定位系统)接收器模块870可以向移动计算设备850提供附加的导航和位置相关的无线数据,该数据可以由在移动计算设备850上运行的应用适当地使用。
移动计算设备850也可以使用音频编解码器860可听地通信,音频编解码器860可以从用户接收讲出的信息并且将其转换为可用的数字信息。音频编解码器860同样可以为用户生成可听的声音,诸如通过例如在移动计算设备850的听筒中的扬声器。这样的声音可以包括来自语音电话呼叫的声音,可以包括记录的声音(例如,语音消息、音乐文件等),并且也可以包括由在移动计算设备850上操作的应用生成的声音。
如图中所示,移动计算设备850可以以若干不同形式实施。例如,它可以实施为蜂窝电话880。它也可以实施为智能电话882、个人数字助理、或其它类似移动设备的一部分。
本说明书中描述的主题、功能性操作、和过程的实施例能够在数字电子电路中、在有形体现的计算机软件或固件中、在计算机硬件中实施,包括本说明书中公开的结构及其结构上的等同物、或它们中的一种或多种的组合。本说明书中描述的主题的实施例能够实施为一个或多个计算机程序,即,在有形的非易失性程序载体上编码用于由数据处理装置的施行或用于控制数据处理装置的操作的计算机程序指令的一个或多个模块。替代地或另外地,程序指令能够在人工生成的传播信号上编码,例如,被生成以编码用于向合适的接收器装置发送用于由数据处理装置施行的信息的机器生成的电、光、或电磁信号。计算机存储介质可以是机器可读存储设备、机器可读存储基板、随机或串行存取存储器设备、或它们中的一个或多个的组合。
术语“数据处理装置”涵盖用于处理数据的装置、设备、和机器的所有类型,例如包括可编程处理器、计算机、或多个处理器或计算机。装置能够包括专用逻辑电路,例如FPGA(field programmable gate array,现场可编程门阵列)或ASIC(application specificintegrated circuit,专用集成电路)。除了硬件之外,装置也能够包括为讨论的计算机程序创建施行环境的代码,例如,构成处理器固件、协议栈、数据库管理系统、操作系统、或它们中的一个或多个的组合的代码。
计算机程序(也可以称为或描述为程序、软件、软件应用、模块、软件模块、脚本、或代码)能够以任何形式的编程语言编写,包括编译语音或者解释语言、或者声明性语音或过程性语言,并且它能够以任何形式部署,包括作为独立程序或作为模块、组件、子例程、或适合用于在计算环境中使用的其它单元。计算机程序可以但是不需要对应于文件系统中的文件。程序能够在保存其它程序或数据的文件的部分中存储(例如,在标记语言文档中存储的一个或多个脚本),在专用于讨论的程序的单个文件中存储,或在多个协调文件(例如,存储一个或多个模块、子程序、或代码的部分的文件)中存储。可以部署计算机程序以在一个计算机上施行或在位于一个站点处或跨越多个站点分布并且通过通信网络互连的多个计算机上施行。
本说明书中描述的过程和逻辑流程能够由施行一个或多个计算机程序以执行功能的一个或多个可编程计算机通过对输入数据进行操作并且生成输出来执行。过程和逻辑流程也可以由专用逻辑电路执行,并且装置也可以被实施为专用逻辑电路,例如FPGA(现场可编程门阵列)或ASIC(专用集成电路)。
适合于施行计算机程序的计算机包括,例如可以基于通用或专用微处理器或两者、或任何其它种类的中央处理单元。一般地,中央处理单元将从只读存储器或随机存取存储器或两者接收指令和数据。计算机的必要元件是用于执行或施行指令的中央处理单元和用于存储指令和数据的一个或多个存储器设备。一般地,计算机也将包括用于存储数据的一个或多个大容量存储设备,或可操作地耦合以从用于存储数据的一个或多个大容量存储设备接收数据或将数据传递到用于存储数据的一个或多个大容量存储设备,大容量存储设备例如磁盘、磁光盘、或光盘。然而,计算机不需要具有这样的设备。此外,计算机能够嵌入在另一设备中,例如移动电话、个人数字助理(personal digital assistant,PDA)、移动音频或视频播放器、游戏控制台、全球定位系统(GPS)接收器、或便携式存储设备(例如,通用串行总线(USB)闪存驱动器),仅举几例。
适用于存储计算机程序指令和数据的计算机可读介质包括非易失性存储器、介质和存储器设备的所有形式,例如包括半导体存储器设备,例如EPROM(ElectricallyProgrammable Read-Only-Memory,电可编程只读存储器)、EEPROM(ElectricallyErasable Programmable Read-Only Memory,电可擦除可编程只读存储器)、和闪存存储器设备;磁盘,例如内部硬盘或可移动磁盘;磁光盘;以及CD-ROM(Compact Disc Read-OnlyMemory,光盘只读存储器)和DVD-ROM(Digital Video Disk-Read Only Memory,数字视频盘只读存储器)磁盘。处理器和存储器可以由专用逻辑电路补充或并入专用逻辑电路中。
为了提供与用户的交互,本说明书中描述的主题的实施例能够在计算机上实施,计算机具有用于向用户显示信息的显示设备(例如CRT(cathode ray tube,阴极射线管)或LCD(liquid crystal display,液晶显示器)监视器)以及通过其用户能够向计算机提供输入的键盘和指点设备(例如,鼠标或轨迹球)。其它类型的设备也能够用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的感觉反馈,例如视觉反馈、听觉反馈、或触觉反馈;并且能够以任何形式接收来自用户的输入,包括声学、语音、或触觉输入。另外,计算机能够通过向由用户使用的设备传送文档并且从由用户使用的设备接收文档来与用户交互;例如,通过响应于从网页浏览器接收到的请求将网页页面传送到用户的客户端设备上的网页浏览器。
本说明书中描述的主题的实施例能够在计算系统中实施,计算系统包括后端组件(例如作为数据服务器)、或包括中间件组件(例如应用服务器)、或包括前端组件(例如具有通过其用户能够与本说明书中描述的主题的实施方式交互的图形用户界面或网页浏览器的客户端计算机)、或一个或多个这样的后端、中间件、或前端组件的任何组合。系统的组件可以通过数字数据通信的任何形式或介质互连,例如通信网络。通信网络的示例包括局域网(local area network,“LAN”)和广域网(wide area network,“WAN”),例如互联网。
计算系统可以包括客户端和服务器。客户端和服务器一般彼此远离,并且典型地通过通信网络交互。客户端和服务器的关系借助于在相应计算机上运行并且彼此具有客户端-服务器关系的计算机程序而产生。
虽然本说明书包含许多具体的实施方式细节,但是这些不应该被解释为对可以要求保护的范围的限制,而是作为可以具体于特定实施例的特征的描述。在本说明书中在单独的实施例的上下文中描述的某些特征也能够在单个实施例中以组合实施。相反,在单个实施例的上下文中描述的各种特征也能够单独地或以任何合适的子组合在多个实施例中实施。此外,尽管以上特征可以描述为以某些组合起作用并且甚至最初如此要求保护,但是来自所要求保护的组合中的一个或多个特征能够在某些情况下从组合去除,并且所要求保护的组合可以指向子组合或子组合的变体。
类似地,虽然以特定次序在附图中描绘了操作,但是这不应该被理解为要求以所示的特定次序或以顺序次序执行这样的操作,或者执行所有示出的操作,以达到可期望的结果。在某些情形下,多任务和并行处理可以是有利的。此外,上述实施例中的各种系统组件的分离不应该被理解为在所有实施例中要求这样的分离,并且应该理解,所描述的程序组件和系统通常可以一起集成在在单个软件产品中或打包到多种软件产品中。
已经描述了主题的特定实施例。其它实施例在以下权利要求的范围内。例如,权利要求中记载的动作能够以不同的次序执行并且仍然达到可期望的结果。作为一个示例,附图中描绘的过程不是必然要求所示的特定次序、或顺序次序,来达到可期望的结果。在某些实施方式中,多任务和并行处理可以是有利的。可以从所描述的过程提供其它步骤,或者可以消除步骤。相应地,其它实施方式在以下权利要求的范围内。

Claims (13)

1.一种由数据处理装置执行的方法,所述方法包括:
存储与设备的已知用户对应的认证令牌;
接收来自发言者的言语;
将所述言语分类为由所述已知用户中的特定已知用户讲出;并且
使用所述特定已知用户的认证令牌来提供包括所述言语的表示和作为发言者的所述特定已知用户的指示的查询。
2.根据权利要求1所述的方法,其中,使用所述特定已知用户的认证令牌来提供包括所述言语的表示和作为发言者的所述特定已知用户的指示的查询包括:
提供包括认证令牌和指示所述言语被分类为由所述特定已知用户讲出的标记的查询。
3.根据权利要求1所述的方法,其中,使用所述特定已知用户的认证令牌来提供包括所述言语的表示和作为发言者的所述特定已知用户的指示的查询包括:
提供包括所述特定已知用户的认证令牌的查询,其中在查询中包括所述特定已知用户的认证令牌指示所述言语被分类为由所述特定已知用户讲出。
4.根据任一前述权利要求所述的方法,其中,存储与设备的已知用户对应的认证令牌包括:
存储设备的已知用户中的每一个的认证令牌,其中认证令牌中的每一个与已知用户中的相应一个对应。
5.根据任一前述权利要求所述的方法,其中,存储与设备的已知用户对应的认证令牌是作为用户注册为语音使能的设备的已知用户的响应。
6.根据任一前述权利要求所述的方法,其中,将言语分类为由所述已知用户中的特定已知用户讲出包括:
确定所述言语与对应于所述特定已知用户的语音匹配。
7.根据权利要求6所述的方法,其中,确定所述言语与对应于所述特定已知用户的语音匹配包括:
确定所述言语包括预定短语;并且
响应于确定所述言语包括所述预定短语,确定所述预定短语的言语与由所述特定已知用户的所述预定短语的先前言语匹配。
8.根据任一前述权利要求所述的方法,其中,将言语分类为由所述已知用户中的特定已知用户讲出包括:
确定对应于发言者的视觉信息与对应于所述特定已知用户的视觉信息匹配。
9.根据权利要求8所述的方法,其中,确定对应于发言者的视觉信息与对应于所述特定已知用户的视觉信息匹配包括:
接收描述发言者的指纹、视网膜扫描、面部、或姿势中的一个或多个的发言者信息;并且
确定所述发言者信息与对应于所述特定已知用户的视觉信息匹配。
10.根据任一前述权利要求所述的方法,其中,提供包括言语的表示和作为发言者的所述特定已知用户的指示的查询包括:
向服务器提供查询。
11.根据任一前述权利要求所述的方法,包括:
从服务器接收针对查询的响应;并且
向发言者提供响应。
12.一种系统,包括:
一个或多个计算机;和
存储指令的一个或多个存储设备,所述指令当由所述一个或多个计算机施行时,可操作以使得所述一个或多个计算机执行包括根据任一前述权利要求所述的方法的操作。
13.一种存储由一个或多个计算机可施行的指令的计算机可读介质,指令在这样的施行时,使得所述一个或多个计算机执行包括根据权利要求1至11中的任一项所述的方法的操作。
CN201880016413.5A 2017-04-20 2018-04-18 设备上的多用户认证 Pending CN110603584A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311334380.8A CN117577099A (zh) 2017-04-20 2018-04-18 设备上的多用户认证的方法、系统和介质

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201762488000P 2017-04-20 2017-04-20
US62/488,000 2017-04-20
US201762567372P 2017-10-03 2017-10-03
US62/567,372 2017-10-03
PCT/US2018/028149 WO2018195185A1 (en) 2017-04-20 2018-04-18 Multi-user authentication on a device

Related Child Applications (1)

Application Number Title Priority Date Filing Date
CN202311334380.8A Division CN117577099A (zh) 2017-04-20 2018-04-18 设备上的多用户认证的方法、系统和介质

Publications (1)

Publication Number Publication Date
CN110603584A true CN110603584A (zh) 2019-12-20

Family

ID=62116989

Family Applications (2)

Application Number Title Priority Date Filing Date
CN201880016413.5A Pending CN110603584A (zh) 2017-04-20 2018-04-18 设备上的多用户认证
CN202311334380.8A Pending CN117577099A (zh) 2017-04-20 2018-04-18 设备上的多用户认证的方法、系统和介质

Family Applications After (1)

Application Number Title Priority Date Filing Date
CN202311334380.8A Pending CN117577099A (zh) 2017-04-20 2018-04-18 设备上的多用户认证的方法、系统和介质

Country Status (5)

Country Link
US (7) US10497364B2 (zh)
EP (3) EP4293661A3 (zh)
KR (4) KR102458805B1 (zh)
CN (2) CN110603584A (zh)
WO (1) WO2018195185A1 (zh)

Families Citing this family (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
BR112015018905B1 (pt) 2013-02-07 2022-02-22 Apple Inc Método de operação de recurso de ativação por voz, mídia de armazenamento legível por computador e dispositivo eletrônico
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
CN110603584A (zh) 2017-04-20 2019-12-20 谷歌有限责任公司 设备上的多用户认证
DK201770427A1 (en) 2017-05-12 2018-12-20 Apple Inc. LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT
DK179496B1 (en) * 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
US10979423B1 (en) * 2017-10-31 2021-04-13 Wells Fargo Bank, N.A. Bi-directional voice authentication
US10928918B2 (en) 2018-05-07 2021-02-23 Apple Inc. Raise to speak
WO2020017165A1 (ja) * 2018-07-20 2020-01-23 ソニー株式会社 情報処理装置、情報処理システム、および情報処理方法、並びにプログラム
WO2020162930A1 (en) * 2019-02-06 2020-08-13 Google Llc Voice query qos based on client-computed content metadata
US11132992B2 (en) * 2019-05-05 2021-09-28 Microsoft Technology Licensing, Llc On-device custom wake word detection
US11222622B2 (en) 2019-05-05 2022-01-11 Microsoft Technology Licensing, Llc Wake word selection assistance architectures and methods
US11468890B2 (en) 2019-06-01 2022-10-11 Apple Inc. Methods and user interfaces for voice-based control of electronic devices
US11074432B2 (en) * 2019-08-22 2021-07-27 Nice Ltd. Systems and methods for retrieving and presenting information using augmented reality
WO2021066685A1 (en) * 2019-09-30 2021-04-08 Telefonaktiebolaget Lm Ericsson (Publ) Server node, digital assistant and methods in a communications network for handling access control
US11061543B1 (en) 2020-05-11 2021-07-13 Apple Inc. Providing relevant data items based on context
WO2021251953A1 (en) * 2020-06-09 2021-12-16 Google Llc Generation of interactive audio tracks from visual content
US11490204B2 (en) 2020-07-20 2022-11-01 Apple Inc. Multi-device audio adjustment coordination
US20220083634A1 (en) * 2020-09-11 2022-03-17 Cisco Technology, Inc. Single input voice authentication
US11620990B2 (en) 2020-12-11 2023-04-04 Google Llc Adapting automated speech recognition parameters based on hotword properties
US11568878B2 (en) * 2021-04-16 2023-01-31 Google Llc Voice shortcut detection with speaker verification
US20230196033A1 (en) * 2021-12-20 2023-06-22 Rovi Guides, Inc. Methods and systems for responding to a natural language query
WO2024068032A1 (en) * 2022-09-29 2024-04-04 Verisure Sàrl Security installations and methods

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101233559A (zh) * 2005-06-27 2008-07-30 微软公司 用于不同语言的说话者之间的增强的交互和理解的上下文敏感通信和翻译方法
CN104428770A (zh) * 2012-07-15 2015-03-18 微软公司 使用自然动作输入的上下文查询调节
CN104854654A (zh) * 2012-10-18 2015-08-19 谷歌公司 用于使用搜索查询信息的言语识别处理的方法和系统
CN105453080A (zh) * 2013-08-30 2016-03-30 英特尔公司 用于虚拟个人助理的可扩展上下文感知的自然语言交互
US20160174074A1 (en) * 2014-12-11 2016-06-16 Samsung Electronics Co., Ltd. Method for providing personal assistant service and electronic device thereof
US20170025124A1 (en) * 2014-10-09 2017-01-26 Google Inc. Device Leadership Negotiation Among Voice Interface Devices

Family Cites Families (148)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4363102A (en) 1981-03-27 1982-12-07 Bell Telephone Laboratories, Incorporated Speaker identification system using word recognition templates
JPS59180599A (ja) 1983-03-31 1984-10-13 日本電気ホームエレクトロニクス株式会社 車載用音声認識制御装置
US5659665A (en) 1994-12-08 1997-08-19 Lucent Technologies Inc. Method and apparatus for including speech recognition capabilities in a computer system
JP3522421B2 (ja) 1995-10-31 2004-04-26 株式会社リコー 話者認識システムおよび話者認識方法
US5895448A (en) 1996-02-29 1999-04-20 Nynex Science And Technology, Inc. Methods and apparatus for generating and using speaker independent garbage models for speaker dependent speech recognition purpose
EP0954854A4 (en) 1996-11-22 2000-07-19 T Netix Inc PARTIAL VALUE-BASED SPEAKER VERIFICATION BY UNIFYING DIFFERENT CLASSIFIERS USING CHANNEL, ASSOCIATION, MODEL AND THRESHOLD ADAPTATION
US6023676A (en) 1996-12-12 2000-02-08 Dspc Israel, Ltd. Keyword recognition system and method
JP2991144B2 (ja) 1997-01-29 1999-12-20 日本電気株式会社 話者認識装置
SE511418C2 (sv) 1997-03-13 1999-09-27 Telia Ab Metod för talarverifiering/identifiering via modellering av typiska icke-typiska egenskaper.
US8209184B1 (en) 1997-04-14 2012-06-26 At&T Intellectual Property Ii, L.P. System and method of providing generated speech via a network
US6076055A (en) 1997-05-27 2000-06-13 Ameritech Speaker verification method
US5897616A (en) 1997-06-11 1999-04-27 International Business Machines Corporation Apparatus and methods for speaker verification/identification/classification employing non-acoustic and/or acoustic models and databases
JPH1152976A (ja) 1997-07-29 1999-02-26 Nec Home Electron Ltd 音声認識装置
US5913196A (en) 1997-11-17 1999-06-15 Talmor; Rita System and method for establishing identity of a speaker
JP3524370B2 (ja) 1998-02-19 2004-05-10 富士通テン株式会社 音声起動システム
JP2000075954A (ja) 1998-09-02 2000-03-14 Sony Corp 電子機器制御装置
US6141644A (en) 1998-09-04 2000-10-31 Matsushita Electric Industrial Co., Ltd. Speaker verification and speaker identification based on eigenvoices
US6744860B1 (en) 1998-12-31 2004-06-01 Bell Atlantic Network Services Methods and apparatus for initiating a voice-dialing operation
US6671672B1 (en) 1999-03-30 2003-12-30 Nuance Communications Voice authentication system having cognitive recall mechanism for password verification
US6408272B1 (en) 1999-04-12 2002-06-18 General Magic, Inc. Distributed voice user interface
JP3357629B2 (ja) 1999-04-26 2002-12-16 旭化成株式会社 設備制御システム
US8645137B2 (en) 2000-03-16 2014-02-04 Apple Inc. Fast, language-independent method for user authentication by voice
DE10015960C2 (de) 2000-03-30 2003-01-16 Micronas Munich Gmbh Spracherkennungsverfahren und Spracherkennungsvorrichtung
US6567775B1 (en) 2000-04-26 2003-05-20 International Business Machines Corporation Fusion of audio and video based speaker identification for multimedia information access
US6826159B1 (en) 2000-05-24 2004-11-30 Cisco Technology, Inc. System and method for providing speaker identification in a conference call
EP1168736A1 (en) 2000-06-30 2002-01-02 Alcatel Telecommunication system and method with a speech recognizer
US7016833B2 (en) 2000-11-21 2006-03-21 The Regents Of The University Of California Speaker verification system using acoustic data and non-acoustic data
US6973426B1 (en) 2000-12-29 2005-12-06 Cisco Technology, Inc. Method and apparatus for performing speaker verification based on speaker independent recognition of commands
US20020143540A1 (en) * 2001-03-28 2002-10-03 Narendranath Malayath Voice recognition system using implicit speaker adaptation
US20020194003A1 (en) 2001-06-05 2002-12-19 Mozer Todd F. Client-server security system and method
US6701293B2 (en) 2001-06-13 2004-03-02 Intel Corporation Combining N-best lists from multiple speech recognizers
JP4224250B2 (ja) 2002-04-17 2009-02-12 パイオニア株式会社 音声認識装置、音声認識方法および音声認識プログラム
JP2003345391A (ja) 2002-05-23 2003-12-03 Denso Corp 端末、音声認識サーバ、音声認識システムおよびコンピュータプログラム
US20030231746A1 (en) 2002-06-14 2003-12-18 Hunter Karla Rae Teleconference speaker identification
US7224981B2 (en) 2002-06-20 2007-05-29 Intel Corporation Speech recognition of mobile devices
TW200409525A (en) 2002-11-26 2004-06-01 Lite On Technology Corp Voice identification method for cellular phone and cellular phone with voiceprint password
US7457745B2 (en) 2002-12-03 2008-11-25 Hrl Laboratories, Llc Method and apparatus for fast on-line automatic speaker/environment adaptation for speech/speaker recognition in the presence of changing environments
EP1429314A1 (en) 2002-12-13 2004-06-16 Sony International (Europe) GmbH Correction of energy as input feature for speech processing
US7266189B1 (en) 2003-01-27 2007-09-04 Cisco Technology, Inc. Who said that? teleconference speaker identification apparatus and method
US7533023B2 (en) 2003-02-12 2009-05-12 Panasonic Corporation Intermediary speech processor in network environments transforming customized speech parameters
US7222072B2 (en) 2003-02-13 2007-05-22 Sbc Properties, L.P. Bio-phonetic multi-phrase speaker identity verification
US8290603B1 (en) 2004-06-05 2012-10-16 Sonos, Inc. User interfaces for controlling and manipulating groupings in a multi-zone media system
US7571014B1 (en) 2004-04-01 2009-08-04 Sonos, Inc. Method and apparatus for controlling multimedia players in a multi-zone system
US20070198262A1 (en) 2003-08-20 2007-08-23 Mindlin Bernardo G Topological voiceprints for speaker identification
EP1511277A1 (en) 2003-08-29 2005-03-02 Swisscom AG Method for answering an incoming event with a phone device, and adapted phone device
US7305078B2 (en) 2003-12-18 2007-12-04 Electronic Data Systems Corporation Speaker identification during telephone conferencing
US20050165607A1 (en) 2004-01-22 2005-07-28 At&T Corp. System and method to disambiguate and clarify user intention in a spoken dialog system
US8214447B2 (en) 2004-06-08 2012-07-03 Bose Corporation Managing an audio network
US7720012B1 (en) 2004-07-09 2010-05-18 Arrowhead Center, Inc. Speaker identification in the presence of packet losses
US8412521B2 (en) 2004-08-20 2013-04-02 Multimodal Technologies, Llc Discriminative training of document transcription system
US8521529B2 (en) 2004-10-18 2013-08-27 Creative Technology Ltd Method for segmenting audio signals
KR100679043B1 (ko) 2005-02-15 2007-02-05 삼성전자주식회사 음성 대화 인터페이스 장치 및 방법
US7226189B2 (en) 2005-04-15 2007-06-05 Taiwan Oasis Technology Co., Ltd. Light emitting diode illumination apparatus
US8041570B2 (en) 2005-05-31 2011-10-18 Robert Bosch Corporation Dialogue management using scripts
US7603275B2 (en) 2005-10-31 2009-10-13 Hitachi, Ltd. System, method and computer program product for verifying an identity using voiced to unvoiced classifiers
CA2536976A1 (en) 2006-02-20 2007-08-20 Diaphonics, Inc. Method and apparatus for detecting speaker change in a voice transaction
JP2006227634A (ja) 2006-03-29 2006-08-31 Seiko Epson Corp 音声認識を用いた機器制御方法および音声認識を用いた機器制御システムならびに音声認識を用いた機器制御プログラムを記録した記録媒体
US8595007B2 (en) 2006-06-15 2013-11-26 NITV Federal Services, LLC Voice print recognition software system for voice identification and matching
CN1996847B (zh) 2006-12-27 2010-05-19 中国科学院上海技术物理研究所 基于协作网格的图像及多媒体数据通信与存储系统
US8099288B2 (en) 2007-02-12 2012-01-17 Microsoft Corp. Text-dependent speaker verification
US20110060587A1 (en) 2007-03-07 2011-03-10 Phillips Michael S Command and control utilizing ancillary information in a mobile voice-to-speech application
US8838457B2 (en) 2007-03-07 2014-09-16 Vlingo Corporation Using results of unstructured language model based speech recognition to control a system-level function of a mobile communications facility
US8352264B2 (en) 2008-03-19 2013-01-08 Canyon IP Holdings, LLC Corrective feedback loop for automated speech recognition
US8503686B2 (en) 2007-05-25 2013-08-06 Aliphcom Vibration sensor and acoustic voice activity detection system (VADS) for use with electronic systems
US8385233B2 (en) 2007-06-12 2013-02-26 Microsoft Corporation Active speaker identification
GB2450886B (en) 2007-07-10 2009-12-16 Motorola Inc Voice activity detector and a method of operation
JP2009104020A (ja) 2007-10-25 2009-05-14 Panasonic Electric Works Co Ltd 音声認識装置
GB2458461A (en) 2008-03-17 2009-09-23 Kai Yu Spoken language learning system
US8504365B2 (en) 2008-04-11 2013-08-06 At&T Intellectual Property I, L.P. System and method for detecting synthetic speaker verification
US8145482B2 (en) 2008-05-25 2012-03-27 Ezra Daya Enhancing analysis of test key phrases from acoustic sources with key phrase training models
KR101056511B1 (ko) 2008-05-28 2011-08-11 (주)파워보이스 실시간 호출명령어 인식을 이용한 잡음환경에서의음성구간검출과 연속음성인식 시스템
US8676586B2 (en) 2008-09-16 2014-03-18 Nice Systems Ltd Method and apparatus for interaction or discourse analytics
US8676904B2 (en) 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
US9922640B2 (en) 2008-10-17 2018-03-20 Ashwin P Rao System and method for multimodal utterance detection
KR101519104B1 (ko) 2008-10-30 2015-05-11 삼성전자 주식회사 목적음 검출 장치 및 방법
US8893243B2 (en) * 2008-11-10 2014-11-18 Sms Passcode A/S Method and system protecting against identity theft or replication abuse
US8326637B2 (en) 2009-02-20 2012-12-04 Voicebox Technologies, Inc. System and method for processing multi-modal device interactions in a natural language voice services environment
US8209174B2 (en) 2009-04-17 2012-06-26 Saudi Arabian Oil Company Speaker verification system
US9858925B2 (en) 2009-06-05 2018-01-02 Apple Inc. Using context information to facilitate processing of commands in a virtual assistant
CN101923853B (zh) 2009-06-12 2013-01-23 华为技术有限公司 说话人识别方法、设备和系统
US8311838B2 (en) 2010-01-13 2012-11-13 Apple Inc. Devices and methods for identifying a prompt corresponding to a voice input in a sequence of prompts
US8626511B2 (en) 2010-01-22 2014-01-07 Google Inc. Multi-dimensional disambiguation of voice commands
US8543402B1 (en) 2010-04-30 2013-09-24 The Intellisis Corporation Speaker segmentation in noisy conversational speech
US8306814B2 (en) 2010-05-11 2012-11-06 Nice-Systems Ltd. Method for speaker source classification
KR101672212B1 (ko) 2010-06-15 2016-11-04 엘지전자 주식회사 휴대 단말기 및 그 동작 방법
US8782404B2 (en) * 2010-09-07 2014-07-15 Nicholas L. Lamb System and method of providing trusted, secure, and verifiable operating environment
US8719018B2 (en) 2010-10-25 2014-05-06 Lockheed Martin Corporation Biometric speaker identification
US8874773B2 (en) 2010-11-30 2014-10-28 Gary W. Grube Obtaining group and individual emergency preparedness communication information
WO2012083552A1 (en) 2010-12-24 2012-06-28 Huawei Technologies Co., Ltd. Method and apparatus for voice activity detection
US8978100B2 (en) * 2011-03-14 2015-03-10 Verizon Patent And Licensing Inc. Policy-based authentication
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US8282404B1 (en) * 2011-06-24 2012-10-09 Hon Hai Precision Ind. Co., Ltd. Card connector
US9159324B2 (en) 2011-07-01 2015-10-13 Qualcomm Incorporated Identifying people that are proximate to a mobile device user via social graphs, speech models, and user context
US20130024196A1 (en) 2011-07-21 2013-01-24 Nuance Communications, Inc. Systems and methods for using a mobile device to deliver speech with speaker identification
US8660847B2 (en) 2011-09-02 2014-02-25 Microsoft Corporation Integrated local and cloud based speech recognition
US8340975B1 (en) 2011-10-04 2012-12-25 Theodore Alfred Rosenberger Interactive speech recognition device and system for hands-free building control
US9031847B2 (en) 2011-11-15 2015-05-12 Microsoft Technology Licensing, Llc Voice-controlled camera operations
EP2783365B1 (en) 2011-11-21 2018-02-21 Robert Bosch GmbH Method and system for adapting grammars in hybrid speech recognition engines for enhancing local speech recognition performance
US8893244B2 (en) * 2011-11-30 2014-11-18 Verizon Patent And Licensing Inc. Application-based credential management for multifactor authentication
US8825020B2 (en) 2012-01-12 2014-09-02 Sensory, Incorporated Information access and device control using mobile phones and audio in the home environment
US20130262873A1 (en) 2012-03-30 2013-10-03 Cgi Federal Inc. Method and system for authenticating remote users
KR20130133629A (ko) 2012-05-29 2013-12-09 삼성전자주식회사 전자장치에서 음성명령을 실행시키기 위한 장치 및 방법
US20140006825A1 (en) 2012-06-30 2014-01-02 David Shenhav Systems and methods to wake up a device from a power conservation state
US9536528B2 (en) 2012-07-03 2017-01-03 Google Inc. Determining hotword suitability
JP6131537B2 (ja) 2012-07-04 2017-05-24 セイコーエプソン株式会社 音声認識システム、音声認識プログラム、記録媒体及び音声認識方法
TWI474317B (zh) 2012-07-06 2015-02-21 Realtek Semiconductor Corp 訊號處理裝置以及訊號處理方法
US9058806B2 (en) 2012-09-10 2015-06-16 Cisco Technology, Inc. Speaker segmentation and recognition based on list of speakers
US8983836B2 (en) 2012-09-26 2015-03-17 International Business Machines Corporation Captioning using socially derived acoustic profiles
US20150228274A1 (en) 2012-10-26 2015-08-13 Nokia Technologies Oy Multi-Device Speech Recognition
US8996372B1 (en) 2012-10-30 2015-03-31 Amazon Technologies, Inc. Using adaptation data with cloud-based speech recognition
JP2014092777A (ja) 2012-11-06 2014-05-19 Magic Hand:Kk モバイル通信機器の音声による起動
US9104891B2 (en) * 2012-12-03 2015-08-11 Imation Corp. Recovering from unexpected flash drive removal
US9704486B2 (en) 2012-12-11 2017-07-11 Amazon Technologies, Inc. Speech recognition power management
US9147054B1 (en) * 2012-12-19 2015-09-29 Amazon Technolgies, Inc. Dialogue-driven user security levels
US9349386B2 (en) 2013-03-07 2016-05-24 Analog Device Global System and method for processor wake-up based on sensor data
US9361885B2 (en) 2013-03-12 2016-06-07 Nuance Communications, Inc. Methods and apparatus for detecting a voice command
US9312826B2 (en) 2013-03-13 2016-04-12 Kopin Corporation Apparatuses and methods for acoustic channel auto-balancing during multi-channel signal extraction
US9396320B2 (en) * 2013-03-22 2016-07-19 Nok Nok Labs, Inc. System and method for non-intrusive, privacy-preserving authentication
US8768687B1 (en) 2013-04-29 2014-07-01 Google Inc. Machine translation of indirect speech
US9058805B2 (en) 2013-05-13 2015-06-16 Google Inc. Multiple recognizer speech recognition
WO2015025330A1 (en) 2013-08-21 2015-02-26 Kale Aaditya Kishore A system to enable user to interact with an electronic processing device using voice of the user
MY179900A (en) 2013-08-29 2020-11-19 Panasonic Ip Corp America Speech recognition method and speech recognition apparatus
US9343068B2 (en) 2013-09-16 2016-05-17 Qualcomm Incorporated Method and apparatus for controlling access to applications having different security levels
US8775191B1 (en) 2013-11-13 2014-07-08 Google Inc. Efficient utterance-specific endpointer triggering for always-on hotwording
US9373321B2 (en) 2013-12-02 2016-06-21 Cypress Semiconductor Corporation Generation of wake-up words
US8938394B1 (en) 2014-01-09 2015-01-20 Google Inc. Audio triggers based on context
JP6482175B2 (ja) * 2014-01-27 2019-03-13 株式会社ミマキエンジニアリング インクジェット印刷方法
US9286892B2 (en) * 2014-04-01 2016-03-15 Google Inc. Language modeling in speech recognition
US9384738B2 (en) 2014-06-24 2016-07-05 Google Inc. Dynamic threshold for speaker verification
US9639854B2 (en) 2014-06-26 2017-05-02 Nuance Communications, Inc. Voice-controlled information exchange platform, such as for providing information to supplement advertising
US9257120B1 (en) * 2014-07-18 2016-02-09 Google Inc. Speaker verification using co-location information
US9263042B1 (en) * 2014-07-25 2016-02-16 Google Inc. Providing pre-computed hotword models
US9318107B1 (en) 2014-10-09 2016-04-19 Google Inc. Hotword detection on multiple devices
US9424841B2 (en) 2014-10-09 2016-08-23 Google Inc. Hotword detection on multiple devices
US9418656B2 (en) * 2014-10-29 2016-08-16 Google Inc. Multi-stage hotword detection
US9812126B2 (en) 2014-11-28 2017-11-07 Microsoft Technology Licensing, Llc Device arbitration for listening devices
JP6754184B2 (ja) 2014-12-26 2020-09-09 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America 音声認識装置及び音声認識方法
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US9881613B2 (en) * 2015-06-29 2018-01-30 Google Llc Privacy-preserving training corpus selection
US10438593B2 (en) * 2015-07-22 2019-10-08 Google Llc Individualized hotword detection models
US9978374B2 (en) * 2015-09-04 2018-05-22 Google Llc Neural networks for speaker verification
US9928840B2 (en) * 2015-10-16 2018-03-27 Google Llc Hotword recognition
US9747926B2 (en) * 2015-10-16 2017-08-29 Google Inc. Hotword recognition
JP6433933B2 (ja) * 2016-03-14 2018-12-05 東芝メモリ株式会社 半導体記憶装置及びメモリシステム
US9972320B2 (en) * 2016-08-24 2018-05-15 Google Llc Hotword detection on multiple devices
US10091195B2 (en) * 2016-12-31 2018-10-02 Nok Nok Labs, Inc. System and method for bootstrapping a user binding
US10237070B2 (en) * 2016-12-31 2019-03-19 Nok Nok Labs, Inc. System and method for sharing keys across authenticators
CN110603584A (zh) 2017-04-20 2019-12-20 谷歌有限责任公司 设备上的多用户认证

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101233559A (zh) * 2005-06-27 2008-07-30 微软公司 用于不同语言的说话者之间的增强的交互和理解的上下文敏感通信和翻译方法
CN104428770A (zh) * 2012-07-15 2015-03-18 微软公司 使用自然动作输入的上下文查询调节
CN104854654A (zh) * 2012-10-18 2015-08-19 谷歌公司 用于使用搜索查询信息的言语识别处理的方法和系统
CN105453080A (zh) * 2013-08-30 2016-03-30 英特尔公司 用于虚拟个人助理的可扩展上下文感知的自然语言交互
US20170025124A1 (en) * 2014-10-09 2017-01-26 Google Inc. Device Leadership Negotiation Among Voice Interface Devices
US20160174074A1 (en) * 2014-12-11 2016-06-16 Samsung Electronics Co., Ltd. Method for providing personal assistant service and electronic device thereof

Also Published As

Publication number Publication date
EP3485492A1 (en) 2019-05-22
US20230335116A1 (en) 2023-10-19
KR102622356B1 (ko) 2024-01-08
US11721326B2 (en) 2023-08-08
CN117577099A (zh) 2024-02-20
US20200082812A1 (en) 2020-03-12
US20200118550A1 (en) 2020-04-16
US20180308491A1 (en) 2018-10-25
US11087743B2 (en) 2021-08-10
KR20240008405A (ko) 2024-01-18
US20180308472A1 (en) 2018-10-25
EP3485492B1 (en) 2021-04-07
KR20220148319A (ko) 2022-11-04
US20220148577A1 (en) 2022-05-12
KR102458805B1 (ko) 2022-10-25
KR102321396B1 (ko) 2021-11-03
KR20190113927A (ko) 2019-10-08
US10497364B2 (en) 2019-12-03
US10522137B2 (en) 2019-12-31
EP4293661A2 (en) 2023-12-20
KR20210134821A (ko) 2021-11-10
US11727918B2 (en) 2023-08-15
WO2018195185A1 (en) 2018-10-25
US20210343276A1 (en) 2021-11-04
EP3905241A1 (en) 2021-11-03
EP4293661A3 (en) 2024-02-21
US11238848B2 (en) 2022-02-01

Similar Documents

Publication Publication Date Title
US11727918B2 (en) Multi-user authentication on a device
JP6630765B2 (ja) 個別化されたホットワード検出モデル
CN108228699B (zh) 协作性语音控制装置
US10147429B2 (en) Speaker verification using co-location information
US10412206B1 (en) Communications for multi-mode device
US20150127345A1 (en) Name Based Initiation of Speech Recognition
JP7358407B2 (ja) コンピューティングデバイスとの継続的な会話の検出
US11676608B2 (en) Speaker verification using co-location information

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination