CN107491282A - 使用情境信号安全执行语音动作 - Google Patents

使用情境信号安全执行语音动作 Download PDF

Info

Publication number
CN107491282A
CN107491282A CN201611242633.9A CN201611242633A CN107491282A CN 107491282 A CN107491282 A CN 107491282A CN 201611242633 A CN201611242633 A CN 201611242633A CN 107491282 A CN107491282 A CN 107491282A
Authority
CN
China
Prior art keywords
speech
speech action
speaker
service provider
action
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201611242633.9A
Other languages
English (en)
Other versions
CN107491282B (zh
Inventor
巴纳比·约翰·詹姆斯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Google LLC
Original Assignee
Google LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Google LLC filed Critical Google LLC
Priority to CN202011174886.3A priority Critical patent/CN112562689B/zh
Publication of CN107491282A publication Critical patent/CN107491282A/zh
Application granted granted Critical
Publication of CN107491282B publication Critical patent/CN107491282B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W12/00Security arrangements; Authentication; Protecting privacy or anonymity
    • H04W12/06Authentication
    • H04W12/065Continuous authentication
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/30Authentication, i.e. establishing the identity or authorisation of security principals
    • G06F21/31User authentication
    • G06F21/32User authentication using biometric data, e.g. fingerprints, iris scans or voiceprints
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/30Authentication, i.e. establishing the identity or authorisation of security principals
    • G06F21/31User authentication
    • G06F21/34User authentication involving the use of external additional devices, e.g. dongles or smart cards
    • G06F21/35User authentication involving the use of external additional devices, e.g. dongles or smart cards communicating wirelessly
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/08Network architectures or network communication protocols for network security for authentication of entities
    • H04L63/0861Network architectures or network communication protocols for network security for authentication of entities using biometrical features, e.g. fingerprint, retina-scan
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W12/00Security arrangements; Authentication; Protecting privacy or anonymity
    • H04W12/06Authentication
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W12/00Security arrangements; Authentication; Protecting privacy or anonymity
    • H04W12/30Security of mobile devices; Security of mobile applications
    • GPHYSICS
    • G07CHECKING-DEVICES
    • G07CTIME OR ATTENDANCE REGISTERS; REGISTERING OR INDICATING THE WORKING OF MACHINES; GENERATING RANDOM NUMBERS; VOTING OR LOTTERY APPARATUS; ARRANGEMENTS, SYSTEMS OR APPARATUS FOR CHECKING NOT PROVIDED FOR ELSEWHERE
    • G07C9/00Individual registration on entry or exit
    • G07C9/30Individual registration on entry or exit not involving the use of a pass
    • G07C9/32Individual registration on entry or exit not involving the use of a pass in combination with an identity check
    • G07C9/37Individual registration on entry or exit not involving the use of a pass in combination with an identity check using biometric data, e.g. fingerprints, iris scans or voice recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W12/00Security arrangements; Authentication; Protecting privacy or anonymity
    • H04W12/30Security of mobile devices; Security of mobile applications
    • H04W12/33Security of mobile devices; Security of mobile applications using wearable devices, e.g. using a smartwatch or smart-glasses
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W12/00Security arrangements; Authentication; Protecting privacy or anonymity
    • H04W12/60Context-dependent security
    • H04W12/63Location-dependent; Proximity-dependent
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W12/00Security arrangements; Authentication; Protecting privacy or anonymity
    • H04W12/60Context-dependent security
    • H04W12/65Environment-dependent, e.g. using captured environmental data

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Hardware Design (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Telephonic Communication Services (AREA)

Abstract

使用情境信号安全执行语音动作。在某些实施方式中,获取(i)表示说话者说出的语音命令的音频数据和(ii)指示所述语音命令由所述说话者说出的说话者标识结果;至少根据所述音频数据的转录文选择语音动作。从多个不同的服务提供商选择对应于所选择语音动作的服务提供商。标识所选择服务提供商用来执行所选择语音动作的鉴权的一个或多个输入数据类型。向所述服务提供商提供(i)执行所选择语音动作的请求和(ii)对应于所标识的一个或多个输入数据类型的一个或多个数值。

Description

使用情境信号安全执行语音动作
技术领域
本说明书描述了与语音动作有关的技术。
背景技术
声控装置可以响应于语音来执行语音动作。例如,一个人可以说“计算机,呼叫1-888-888-8888”,并且其移动计算装置可以呼叫号码1-888-888-8888,而无需来自这个人的进一步输入。
发明内容
语音动作通常是要使用户能够方便地执行动作。例如,用户可以在烹饪的同时简单地说“计算机,设置一个一分钟的计时器”来创建一个一分钟的计时器,而不是与装置物理交互。然而,某些语音命令请求可能会造成严重影响的语音动作。例如,执行语音动作可能会解除家庭安全系统、以大货币成本订购物品或者极大地改变家中温度设置。另外,执行语音动作的装置可以由多人访问。例如,执行语音动作的装置可以在厨房操作台上并且可以接收来自在该装置附近的任何人的语音。因此,在执行语音动作时施加安全限制可能很重要。例如,可能需要系统响应于业主说“计算机,解除安全系统”来解除安全系统,并且不响应客人或者入侵者所说“计算机,解除安全系统”来接触安全系统。
因此,为了安全地执行语音动作,系统可以从其语音标识说话者并且使用附加情境信号(contextual signal)来对该说话者进行鉴权。情境信号可以包括,例如,用户的移动计算装置在家中的指示、用户的移动计算装置自最后解锁以来一直在人身上的指示、或者一些其它信号。例如,系统可以接收发声“计算机,解除安全系统”,将说话者的声音标识为业主的语音,并且作为响应,进一步地确定业主的移动计算装置是否在家中。可以基于成功的语音标识和计算装置的物理存在来执行解除安全系统的命令。相比之下,系统可以配置为:如果所需的情境因素不存在,例如,如果语音标识失败或者如果业主的计算装置不在家中,那么命令将因为不符合安全要求而被禁止。这样,系统可以通过防止未获授权的人执行语音动作(诸如解除房屋的安全系统)来提高执行语音动作的安全性。
在一般方面的一种方法,该方法可以是一种计算机实现的方法,其包括:获取(i)表示说话者说出的语音命令的音频数据和(ii)指示该语音命令由该说话者说出的说话者标识结果,至少根据音频数据的转录文(transcription)选择语音动作,从多个不同的服务提供商选择对应于所选择语音动作的服务提供商,标识所选择服务提供商用来执行所选择语音动作的鉴权的一个或多个输入数据类型,以及向服务提供商提供(i)执行所选择语音动作的请求和(ii)对应于所标识的一个或多个输入数据类型的一个或多个数值。如上所述,“语音动作”(或语音发起动作)是由用户的语音命令(如语音发声)发起的。
该方面和其它方面的其它实施方式包括:编码在计算机存储装置上的配置为执行方法的动作的对应的系统、设备、和计算机程序。一个或多个计算机的系统可以借由软件、固件、硬件、或者其组合来如此配置,该软件、固件、硬件、或者其组合安装在该系统上,在运行时,使该系统执行动作。一个或多个计算机程序可以借由指令来如此配置,该指令在由数据处理设备执行时使该设备执行动作。在另一个方面中,一种存储计算机程序的计算机存储介质,该计算机存储介质可以是非暂时性计算机存储介质,该程序包括指令,该指令在由一个或多个计算机执行时使该一个或多个计算机执行操作,该操作包括:获取(i)表示说话者说出的语音命令的音频数据和(ii)指示该语音命令由该说话者说出的说话者标识结果;至少根据音频数据的转录文选择语音动作;从多个不同的服务提供商选择对应于所选择语音动作的服务提供商;标识所选择服务提供商用来执行所选择语音动作的鉴权的一个或多个输入数据类型;以及向服务提供商提供(i)执行所选择语音动作的请求和(ii)对应于所标识的一个或多个输入数据类型的一个或多个数值。
实施方式可以包括以下特征中的一个或多个特征。例如,在某些方面中,获取(i)表示说话者说出的语音命令的音频数据和(ii)指示该语音命令由该说话者说出的说话者标识结果可以包括:获取表示说话者说出的语音命令的音频数据,获取说话者的声纹(voiceprint),确定说话者的声纹与表示说话者说出的语音命令的音频数据匹配;以及响应于确定说话者的声纹与表示说话者说出的语音命令的音频数据匹配,生成指示该语音命令由该说话者说出的说话者标识结果。
在某些方面中,至少根据音频数据的转录文选择语音动作包括:获取一组语音动作,其中,每个语音动作标识对应于该语音动作的一个或多个词项,确定在转录文中的一个或多个词项与对应于语音动作的一个或多个词项匹配,以及响应于确定在转录文中的一个或多个词项与对应于语音动作的一个或多个词项匹配,从该一组语音动作选择语音动作。
在某些实施方式中,从多个不同的服务提供商选择对应于所选择语音动作的服务提供商包括:获取语音动作到多个服务提供商的映射,其中,针对每个语音动作,映射描述了可以执行该语音动作的服务提供商,确定语音动作的映射指示服务提供商可以执行所选择语音动作,以及响应于确定语音动作的映射指示服务提供商可以执行所选择语音动作,选择服务提供商。
在某些方面中,标识所选择服务提供商用来执行所选择语音动作的鉴权的一个或多个输入数据类型包括:向所选择服务提供商提供对所选择服务提供商用来执行所选择语音动作的鉴权的一个或多个输入数据类型的标识的请求,从所选择服务提供商接收对标识的请求的响应,以及根据对标识的请求的响应,标识所选择服务提供商用来执行所选择语音动作的鉴权的一个或多个输入数据类型。
在某些方面中,动作包括:使用自动语音识别器生成音频数据的转录文。在某些实施方式中,动作包括:从服务提供商接收所选择语音动作已被执行的指示。在某些方面中,动作包括:从服务提供商接收需要附加鉴权来执行所选择语音动作的指示,以及响应于从服务提供商接收到需要附加鉴权来执行所选择语音动作的指示,提供对附加鉴权的请求。在某些方面中,标识所选择服务提供商用来执行所选择语音动作的鉴权的一个或多个输入数据类型包括:标识所选择服务提供商使用以下输入数据类型中的一个或多个:指示说话者的移动计算装置自最后解锁以来是否一直在身上的输入数据类型、指示说话者的移动计算装置是否与特定装置进行近距离通信的输入数据类型、指示说话者的移动计算装置是否在特定地理区域内的输入数据类型、或者指示说话者的人脸是否在装置的视野中的输入数据类型。
在某些方面中,在向服务提供商提供(i)执行所选择语音动作的请求和(ii)对应于所标识的一个或多个输入数据类型的一个或多个数值之前,可能存在该一个或多个数值是否满足对服务提供商的一个或多个已知的最低要求的初步确定。如果该确定是肯定的,则将请求发送至服务提供商,但是如果该确定是否定的,则不将请求发送至服务提供商。
在附图和以下描述中陈述了本说明书中所描述的主题的一个或多个实施例的细节。其它潜在特征、方面和优点将通过描述、附图及权利要求书变得显而易见。应理解,各方面和实现可以组合,并且在一个方面或者一种实现的背景下描述的特征可以在其它方面或者实现的背景下实施。
附图说明
图1是示出了与用于安全地执行语音动作的系统的示例交互的框图。
图2是用于安全地执行语音动作的示例系统的框图。
图3是用于安全地执行语音动作的示例语音动作服务器的框图。
图4是示出了与用于安全地执行语音动作的过程的示例的流程图。
图5是计算装置的示例的示意图。
在各个附图中的相同的参考数字和标志指示相同的元件。
具体实施方式
图1是示出了与用于安全地执行语音动作的系统的示例交互100的框图。交互100是在用户110与系统120之间。在该示例中,系统120包括电视机,该电视机包括可以收听来自用户110的语音的麦克风和可以将合成语音输出至用户110的扬声器。在其它示例中,系统120可以包括可以执行语音动作的附加的或者替代的装置。如在该示例中所示出的,系统120根据语音命令的性质和语音命令的情境来强制对语音命令的不同级别的安全要求,并且还把语音标识用作是否执行语音动作的判定的部分。
如图所示,用户110最初说“改变温度至70度”。系统120接收来自用户110的发声(utterance),确定当前温度为69度,并且作为响应,确定把温度改变为70度是不需要任何鉴权的小变化。系统120然后将家里的温度设置改变为70度,并且输出合成语音:“已经把温度从68度改变为70度”。
继续该示例,用户110稍后说“改变温度至80度”。系统120接收来自用户110的发声,确定当前温度为70度,并且作为响应,确定把温度改变为80度是需要低级别鉴权的大变化。系统120然后通过把所存储的“John Doe”的声纹与该发声匹配,把说话者标识为“JohnDoe”,并且确定利用“John Doe”注册的移动计算装置是在家中。因为系统120确定语音标识和/或移动计算装置的物理存在性满足该“低”级别鉴权要求,所以系统120把家里的温度设置改变为80度,并且输出合成语音“已经把温度从70度改变为80度”。所存储的声纹可以指示用户的语音的声音,包括:音高、速度、音调、发音、口音、抑扬、或者其它方面中的一个或者多个。
用户110稍后说“解除安全系统”。系统120接收来自用户110的发声,确定解除安全系统需要高级别的鉴权,与图2所示的其它命令相比较,该高级别鉴权具有更高的安全要求。为了确定是否执行命令,系统120通过将所存储的“John Doe”的声纹与发声匹配来将说话者标识为“John Doe”,确定用“John Doe”注册的移动计算装置在家里,并且确定用“JohnDoe”注册的移动计算装置自最后解锁以来一直在人身上。系统120确定这些因素都满足该“高”级别鉴权,并且作为响应,解除安全系统并且输出合成语音“安全系统已解除”。
一般而言,装置可以通过使用一个或者多个传感器来确定该装置自解锁以来是否一直由用户戴着。例如,装置可以包括电容式传感器、电阻式传感器、光学传感器、温度传感器、压力传感器、EKG传感器、或者用于检测用户的身体的存在和/或特性的其它传感器。传感器可以按照一定的间隔(例如,每100毫秒、每秒、或者每10秒等)生成数据,并且数据可以指示装置是否与用户的身体接触或者在用户的身体的预定距离内。作为一个示例,手表可以包括面向穿戴者的手腕或者与穿戴者的手腕接触的传感器。传感器可以基于检测电容来检测与用户的皮肤的接触或者不接触。另外,或者作为替代,传感器可以测量在面向用户手腕的手表的背面检测到的光,例如,以表明手表的背面被盖住,或者测量对来自装置的将光引导至用户手腕的LED的光反射或者吸收。可以随着时间追踪来自传感器的数据,并且将该数据与预定阈值和范围进行比较,以确定手表自解锁以来是否一直被戴着。可以使用相似的技术来检测项链、帽子、戒指和其它可穿戴装置在一段时间内是否一直被戴着。
图2是用于安全地执行语音动作的示例系统200的框图。在某些实施方式中,系统200可以是图1所示的系统120。用于安全地执行语音动作的示例系统200可以包括本地装置210、语音动作服务器220、移动计算装置230、和服务提供商240A、240B、240C(统称为240)。
本地装置210可以是包括在说出语音命令的用户的可听见的听力范围内的麦克风的装置。例如,本地装置210可以是支持语音动作的电视机、工作台面家庭语音自动化装置、或者具有语音自动化功能的家庭安全系统。语音命令可以指触发系统200尝试执行语音动作的语音。例如,请求解除安全系统的语音动作的语音命令可以包括“解除安全系统”、“关闭安全系统”、或者“使安全系统进入解除状态”。语音动作可以指由语音触发的动作。例如,解除安全系统的语音动作可以指由语音触发的解除安全系统的动作。
本地装置210可以接收来自用户的发声并且将表示该发声的音频数据提供至语音动作服务器220。音频数据可以包括表示该发声的Mel频率倒谱系数(MFCC)。例如,本地装置210可以使用麦克风来检测包括用户正在说出“解除安全系统”的声音,并且作为响应,将表示该发声的音频数据提供至语音动作服务器220。本地装置210可以另外或者替代地接收来自语音动作服务器220的信息,以提供至用户。例如,本地装置210可以接收合成语音“安全系统已解除”的音频数据,并且然后通过扬声器将该合成语音输出至用户。
语音动作服务器220可以从本地装置210接收表示发声的音频数据,从所接收到的数据提取发声,并且确定是否执行对应于该发声的语音动作。例如,语音动作服务器220可以接收表示发声“解除安全系统”的音频数据,并且确定要执行解除家庭安全系统的语音动作。语音动作服务器220也利于与服务器提供商240的通信,并且利于收集允许服务提供商240确定是否已经满足对语音动作的安全要求的情境信息。例如,语音动作服务器220可以接收来自本地装置210的情境信息,并且将该信息传递至服务提供商240。当需要来自用户的附加信息时,或者当发生错误时,可以通过语音动作服务器220在用户与服务提供商240之间传输信息。
在确定执行语音动作时,语音动作服务器220可以选择服务提供商来执行语音动作。服务提供商240中的每一个可以与其处理的特定动作或者特定类型的动作相关联,并且语音动作服务器220可以将每个请求路由至适当的服务提供商240。例如,在确定执行解除家庭安全系统的语音动作时,语音动作服务器220可选择可与家庭安全系统相关联的服务提供商A 240A。在另一示例中,响应于确定要执行预订餐厅的语音动作,语音动作服务器220可以选择可以与餐厅预订管理应用或者网站相关联的服务提供商B 240B。
语音动作服务器220可以标识所选择的服务提供商用来执行鉴权的输入数据类型和这些数据类型的值。不同的服务提供商240可以使用不同类型的输入数据来确定是否已经满足适当的应用或者安全要求。相似地,单个服务提供商所支持的不同的语音动作可能需要不同类型的输入数据。语音动作服务器220可以使每个语音动作请求格式化以包括评估对被请求的特定语音动作的安全要求和对语音动作请求所要发送的特定服务提供商的安全要求所需的数据。例如,语音动作服务器220可以确定服务提供商A 240A使用语音匹配置信度的数据类型、对应于用户的移动计算装置的地理位置的数据类型、和对应于用户的自最后解锁以来一直在人身上的移动计算装置的状态的数据类型。然后,语音动作服务器220确定这些数据类型的值,例如,指示存在90%的语音匹配置信度、用户的移动计算装置在特定地理区域内、并且用户的移动计算装置自最后解锁以来一直在人身上的数据。在另一示例中,语音动作服务器220可以确定服务提供商B 240B使用语音匹配置信度和关于移动计算装置自最后解锁以来一直在人身上的状态,并且然后确定指示存在80%的语音匹配置信度并且用户的移动计算装置自最后解锁以来一直在人身上的值。
输入数据类型可表示可用来对用户进行鉴权的情境信号,而无需要求用户提供明确的鉴权信息。输入数据类型可以包括以下输入数据类型中的一个或多个:指示说话者的移动计算装置自最后解锁以来是否一直在身上的输入数据类型、指示说话者的移动计算装置是否与特定装置进行近距离(short-range)通信的输入数据类型、指示说话者的移动计算装置是否在特定地理区域内的输入数据类型、或者指示说话者的人脸是否在装置的视野中的输入数据类型。
例如,为了进行鉴权,在不要求用户提供附加语音的情况下,可以基于使用表示语音命令的音频数据来确定语音匹配置信度的值。在另一示例中,在不让用户提供附加信息的情况下,可以基于确定从表示语音命令的音频数据标识出的用户的移动计算装置是否在地理区域内,来确定用户的移动计算装置处于物理上很近的地方的值。在又一示例中,语音动作服务器220可以接收来自在本地装置210的视野内的联网摄像头的说话者的图像,并且针对指示说话者的人脸是否经过联网摄像头验证的输入数据类型,确定指示说话者的人脸是否经过验证的值。
语音动作服务器220可以基于用户的移动计算装置230来确定标识出的输入数据类型的值。例如,语音动作服务器220可以确定用户的移动计算装置230在家里,例如,装置230的位置恰与用户指定为用户的家的位置一致,或者计算装置230与已知位于用户的家中的装置210进行近距离通信。语音动作服务器220然后可以确定指示用户的移动计算装置230在家中的值,并且在服务提供商配置为接收该类型的数据时,将该值提供至服务提供商。
在某些实施方式中,语音动作服务器220可以从音频数据确定用户的身份,标识用户的移动计算装置230,确定移动计算装置的状态,并且然后从移动计算装置的状态确定所标识的输入数据类型的值。例如,语音动作服务器220可以基于在与所存储的“John Doe”的声纹匹配的语音命令中的语音来确定语音命令来自“John Doe”,确定针对“John Doe”使用的移动计算装置230所存储的装置标识符,向对应于装置标识符的装置230请求信息,接收来自装置230的所请求的信息,并且通过使用来自装置230的信息来生成值。在另一示例中,语音动作服务器220可以基于在与所存储的“John Doe”的声纹匹配的语音命令中的语音来确定语音命令来自“John Doe”,确定针对“John Doe”所使用的移动计算装置230所存储的装置标识符,标识已经由对应于装置标识符的语音动作服务器220存储的信息,并且通过使用标识出的已经存储的信息来生成值。
来自装置230的信息可以包括以下中的一个或者多个:基于在装置230中的GPS传感器的装置230的位置、与装置230进行近距离无线通信的其它装置、装置230自从最后解锁以来是否一直在人身上、装置230的当前视野的图像或者一些其它信息。
在另一示例中,语音动作服务器220可以基于在与所存储的“John Doe”的声纹匹配的语音命令中的语音来确定语音命令来自“John Doe”,确定针对“John Doe”所使用的移动计算装置230所存储的装置标识符,向另外装置请求关于对应于装置标识符的装置230的信息,接收来自该另外装置的所请求的信息,并且通过使用来自该另外装置的信息来生成数值。来自装置230的信息可以包括以下中的一个或者多个:该另外装置与装置230进行近距离无线通信或者通过该另外装置在地理区域内检测到装置230的指示。
在某些实施方式中,语音动作服务器220附加或者替代地接收来自本地装置210的可用于生成输入数据类型的值的信息。本地装置210可提供具有表示语音命令的发声的音频数据的信息,或者响应于语音动作服务器220向本地装置210请求信息而提供该信息。
语音动作服务器220可以向所选择的服务提供商提供执行语音动作的请求以及所选择的服务提供商用来执行鉴权的所标识的输入数据类型的值。例如,语音动作服务器220可以向服务提供商A 240A提供解除安全系统的请求以及指示(i)存在用户是“John Doe”的80%的语音匹配置信度和(ii)“John Doe”的移动计算装置在特定地理区域内并且自最后解锁以来一直在人身上的值。
由于服务提供商可具有语音动作服务器220可能不具有的用于确定适当级别的鉴权的附加信息或者规则,所以语音动作服务器220可以向所选择的服务提供商提供所标识的输入数据类型的值。例如,改变家中温度的鉴权级别可以取决于变化量,例如,小变化可能不需要鉴权或者需要很少的鉴权,但是可能导致大量费用的大变化可能需要越来越高的鉴权,并且语音动作服务器220可能不知道家中的当前温度设置,而服务提供商知道。因此,这种布置可以实现供服务提供商确定鉴权规则的灵活性,并且可以通过对提供至语音动作服务器220的信息进行限制来实现安全性。此外,在该实施方式中,不需要说话者提供明确的鉴权信息(诸如,提供鉴权PIN代码),从而使该方法对于说话者而言较为方便。
响应于将请求和值提供至所选择的服务提供商,语音动作服务器220可以接收执行了所选择的语音动作的指示。例如,语音动作服务器220可以接收来自服务提供商A 430A的完成指示。响应于执行了所选择的语音动作的指示,语音动作服务器220可以将执行了语音动作的指示提供至本地装置210。
另外或者可替代地,响应于将请求和值提供至所选择的服务提供商,语音动作服务器220可以接收需要附加鉴权来执行所选择的语音动作的指示。例如,语音动作服务器220可以从服务提供商A 430A接收服务提供商A 430A所需的附加鉴权的指示。
响应于需要附加鉴权的指示,语音动作服务器220可以将因为需要附加鉴权而未执行语音动作的指示提供至本地装置210。在某些实施方式中,来自所选择的服务提供商的指示可以指示所需附加鉴权的输入数据类型,并且语音动作服务器220可以把请求提供至本地装置210,以供用户提供附加鉴权所需的输入数据类型的信息。在某些实施方式中,附加鉴权可以包括请求,该请求可以是明确的鉴权代码、密码、附加语音验证短语、或者用于同意在将来使用附加类型的情境信息来进行鉴权。
在某些实施方式中,语音动作服务器220可以附加地或者替代地执行某些鉴权。例如,语音动作服务器220可以获取对特定服务提供商或者由特定服务提供商执行的特定语音动作的最低鉴权要求,并且可以做出是否满足这些最低鉴权要求的判定。在该示例中,如果不满足最低要求,则语音动作服务器220可以不将请求发送至所选择的服务提供商,而是向用户指示附加鉴权信息是必需的。这通过消除在建议用户附加鉴权信息是必需的之前因为语音动作服务器把请求发送至所选择的服务提供商并且从服务提供商接收其尚未接受该请求的通知而造成的延迟,来减少对用户进行鉴权所需的时间。
服务提供商240可以包括以下实体中的一个或者多个:装置如恒温器或者家庭安全系统、应用如日历应用或者语音拨号应用、或者网站如网上银行或者网上购物网站、或者注册来执行某些动作或者某些类型的动作的其它实体。如上所述,服务提供商240可以具有对语音动作服务器220不可用的信息,并且可以基于来自服务器的用于鉴权的信息并且通过对语音动作服务器220不可用但是对服务提供商240可用的信息,来评估是否可以执行语音动作。
在某些实施方式中,说话者的声纹可能不可用,并且系统200可以使用输入数据类型而不是基于语音验证的数据类型来进行鉴权。例如,系统200可以仅仅使用人脸识别,而不是人脸识别和语音验证。
在某些实施方式中,移动计算装置230可以执行语音验证。例如,移动计算装置230和本地装置210均检测到相同的发声。在该示例中,移动计算装置230标识说话者并且确定语音匹配置信度,并且然后向语音动作服务器220提供该标识和语音匹配置信度。语音动作服务器220然后使用来自移动计算装置230的标识和语音匹配置信度,而不是去标识说话者并且确定语音匹配置信度。在另一示例中,移动计算装置230标识说话者并且确定语音匹配置信度,并且然后向本地装置210提供该标识和语音匹配置信度,以连同表示语音命令的音频数据一起提供至语音动作服务器220。在又一示例中,本地装置210将表示语音命令的音频数据提供至移动计算装置230,以标识说话者并且确定语音匹配置信度,并且移动计算装置230然后把说话者的标识和语音匹配置信度提供至本地装置210以提供至语音动作服务器220,或者直接提供至语音动作服务器220。
在本地装置210、语音动作服务器220、移动计算装置230和装置提供商240A、240B、240C(统称为240)的功能可以组合在一起、进一步分离、分布或者互换的情况下,可以使用系统200的不同配置。可以将系统200实施在单个装置中或者分布到多个装置。
可以通过在系统200中的各个装置中的任何一个装置来执行说话者验证。例如,本地装置210可以标识命令的说话者,语音动作服务器220可以标识命令的说话者,或者两者均可以单独地或者协作地执行说话者标识。可以通过使用其自己的命令的语音、通过使用刚好在命令之前说出的热门词或者关注词、或者通过使用在命令之前或者在命令之后的其它语音,来确定说话者的身份。
图3是用于安全地执行语音动作的示例语音动作服务器300的框图。在某些实施方式中,服务器300可以是图2所示的语音动作服务器220。在其它实施方式中,服务器300可以是另一语音动作服务器。
语音动作服务器300可以包括对话管理器310、自动语音识别器320、提供商选择引擎330、语音动作数据库332、说话者标识器340、说话者声纹数据库342、输入数据值确定器350、和提供商接口360。
对话管理器310可以管理与用户的对话。例如,对话管理器310可以接收表示用户的语音的音频数据,并且响应于来自用户的语音来提供合成语音。对话管理器310可以接收来自本地装置的音频数据并且将该音频数据提供至自动语音识别器320和说话者标识器340。例如,对话管理器310可以接收表示“改变温度至80度”的音频数据,并且将把音频数据提供至自动语音识别器320和说话者标识器340。对话管理器310可以接收来自提供商接口360的是否执行了语音命令的指示,并且然后将该提示提供至本地装置。例如,对话管理器310可以接收执行了改变温度的语音命令以把温度从70度改变为80度的指示,并且作为响应,生成合成语音“温度已经从70度变为80度”。
自动语音识别器320可以接收表示语音命令的音频数据,并且生成音频数据的转录文(transcription)。例如,自动语音识别器320可以接收表示语音命令“改变温度至80度”的音频数据,并且作为响应,生成“改变温度至80度”的转录文。自动语音识别器320可以把转录文提供至提供商选择引擎330。例如,自动语音识别器320可以把转录文“改变温度至80度”提供至提供商选择引擎330。
提供商选择引擎330可以接收转录文并且基于该转录文来选择语音动作。例如,提供商选择引擎330可以接收转录文“改变温度至80度”,并且作为响应,基于转录文来选择语音动作“改变温度”。
在选择语音动作时,提供商选择引擎330可以对指示来自语音动作数据库332的一组语音动作的数据进行评估,其中,每个语音动作标识对应于该语音动作的一个或者多个词项。例如,语音动作数据库332可以指示一组语音动作,该一组语音动作包括:与词项“改变温度”、“温度改变”、“设置温度”、或者其它词项相关联的语音动作“改变温度”所指示的另一语音动作可以是与词项“解除安全系统”、“未设置安全系统”、“把安全系统设置为解除”、或者其它词项相关联的动作“解除安全系统”。提供商选择引擎330可以确定在转录文中的一个或者多个词项与对应于语音动作的一个或者多个词项匹配。例如,提供商选择引擎330可以确定转录文“改变温度至80度”包括词项“改变温度”。响应于确定在转录文中的一个或多个词项与对应于语音动作的一个或多个词项匹配,提供商选择引擎330可以从该一组语音动作选择语音动作。例如,响应于确定转录文“改变温度至80度”包括词项“改变温度”,提供商选择引擎330可以选择语音动作“改变温度”。
提供商选择引擎330可以将所选择的语音动作的指示提供至提供商接口360。例如,提供商选择引擎330向提供商接口360提供选择了语音动作“改变温度”的指示。
说话者标识器340可以获取表示说话者说出的语音命令的音频数据和指示语音命令由说话者说出的说话者标识结果。例如,说话者标识器340可以获取表示由“John Doe”说出的语音命令“改变温度至80度”的音频数据,并且生成指示语音命令由“John Doe”说出的说话者标识结果。
说话者标识器340可以把表示语音命令的音频数据或者语音命令前置的热门词与用户的声纹匹配,来生成说话者标识结果。例如,基于确定语音命令的音频数据与所存储的“John Doe”的声纹匹配,说话者标识器340可以生成指示“John Doe”说出语音命令的说话者标识结果。说话者标识器340可以从存储在说话者声纹数据库342中的一组声纹获取用户的声纹。
在某些实施方式中,说话者标识器340可以确定表示在用户的声纹与表示语音命令的音频数据之间的匹配度的匹配置信度,并且将匹配置信度包括在说话者标识结果中。例如,说话者标识器340可以确定80%的匹配置信度,并且将80%的匹配置信度的指示包括在说话者标识结果中。
在某些实施方式中,说话者标识器340可以仅仅用说话者标识结果来标识单个用户。例如,说话者标识器340可以确定具有指示最高匹配度的匹配置信度的用户,并且用说话者标识结果和该说话者的匹配置信度来标识该用户。在其它实施方式中,说话者标识器340可以在说话者标识结果中标识多个用户。例如,说话者标识器340可以标识具有满足匹配置信度阈值(例如,50%、60%、75%)的匹配置信度或者一些其它匹配置信度的用户,并且用说话者标识结果和其对应的匹配置信度来标识这些用户。在另一示例中,说话者标识器340可以标识具有指示二、三或者一些其它数字的最高匹配度的匹配置信度的用户,并且用说话者标识结果和其对应的匹配置信度来标识这些用户。说话者标识器340可以将说话者标识结果提供至输入数据值确定器350。
在某些实施方式中,代替说话者标识器340或者除了说话者标识器340之外,本地装置(诸如在用户的家或者工作地点中的装置)可以执行说话者验证。例如,本地装置可以存储源于用户在注册时提供的语音样本的信息,这允许本地装置确定说话者的语音是否与在注册期间观察到的特性匹配。本地装置可以向服务器300提供说话者验证置信度分值和/或说话者是否可能是授权用户的分类结果。除了说话者验证信息之外,本地装置可以提供各种其它情境信息。通常,本地装置可以提供尽可能多的可用情境信息,并且自动与语音命令一起提供情境信息。服务器300然后确定需要哪一种信息并且哪一种格式是适当的,以在语音动作请求中传递至服务提供商。
输入数据值确定器350可以基于所标识的用户来确定服务提供商所使用的输入数据类型的值。例如,输入数据值确定器350可以确定在说出语音命令时标识的用户的移动计算装置是否在用户家中的二进制值。输入数据类型可以包括以下中的一个或者多个:基于装置230中的GPS传感器用户的移动计算装置是否处于可信区域中、用户的移动计算装置是否与可信装置进行无线通信、装置230自最后解锁以来是否一直被戴在人身上、在装置230的当前视野中的用户是否与所存储的用户的人脸匹配、或者一些其它输入值数据类型。可信区域可以是用户已经指定用户想要提供语音命令的区域。可信装置可以是用户已经指定的在用户的移动计算装置与可信装置进行通信时用户想要提供命令的装置。
与语音动作服务器220的上述方式相似,输入数据值确定器350可以标识由所标识的用户使用的移动计算装置的所存储的装置标识符,向所标识的移动计算装置请求信息,接收来自所标识的移动计算装置的所请求的信息,并且然后基于该信息生成输入数据类型的值。如上所述,输入数据值确定器350可以替代地标识由所标识的用户使用的移动计算装置的所存储的装置标识符,向其它装置请求关于所标识的移动计算装置的信息,接收来自该其它装置的所请求的信息,并且然后基于该信息生成输入数据类型的值。
输入数据值确定器350可以将确定的数据类型提供至提供商接口360。例如,输入数据值确定器350可以向提供商接口360提供如下指示:用户的移动计算装置不在可信区域中并且用户的移动计算装置自最后解锁以来一直在人身上。
提供商接口360可以接收来自提供商选择引擎330的所选服务提供商和所选语音动作的指示,并且可以接收来自输入数据值确定器350的输入数据类型的值,并且作为响应,把执行所选语音动作的请求提供至所选服务提供商,并且提供输入数据类型的一个或者多个值。例如,提供商接口360可以接收用于供热、通风与空气调节(HVAC)控制的所选服务提供商的指示、和改变温度的所选语音动作的指示、以及输入数据类型的值,该输入数据类型的值指示(i)存在用户是“John Doe”的80%的语音匹配置信度、(ii)“John Doe”的移动计算装置在特定的地理区域内、以及(iii)移动计算装置自最后解锁以来一直在人身上。利用这种信息,提供商接口360向所选服务提供商提供改变温度的所选语音动作的指示,并且提供指示以下的值:(i)存在用户是“John Doe”的80%的语音匹配置信度、以及(ii)“John Doe”的移动计算装置在特定的地理区域内。当所选服务提供商可能不使用该输入数据类型时,提供商接口360可以省略提供指示移动计算装置自最后解锁以来一直在人身上的值。
基于确定所选服务提供商用来对所选语音动作进行鉴权的输入数据类型的子集,提供商接口360可以提供对应于所标识的一个或者多个输入数据类型的一个或者多个值。例如,基于确定:针对改变温度的所选语音动作,用于HVAC控制的所选服务提供商使用这些输入数据类型来进行鉴权,提供商接口360可以提供指示语音匹配置信度和该匹配用户的移动计算装置是否在特定地理区域内的值。根据选择哪一个提供商来处理语音动作请求,可以提供不同的情境信息。在另一示例中,如果HVAC控制系统使用与移动计算装置有关的状态信息,则提供商接口360还可以提供指示移动计算装置自最后解锁以来是否一直在人身上的值。在又一示例中,基于确定:针对改变温度的所选语音动作,用于HVAC控制的另一个不同的所选服务提供商使用这些输入数据类型来进行鉴权,提供商接口360可以提供指示语音匹配置信度的输入数据类型和在移动计算装置的摄像头的当前视野中的人脸与语音匹配用户匹配的值。
提供商接口360可以接收来自服务提供商的指示是否执行了语音动作或者是否需要附加信息进行鉴权的响应。例如,提供商接口360可以接收来自用于HVAC控制的所选服务提供商的完成了改变温度的语音动作的指示。在另一示例中,提供商接口360可以接收来自用于HVAC控制的所选服务提供商的尚未完成改变温度的语音动作并且需要特定附加类型的鉴权信息的指示。如上所述,提供商接口360可以把指示提供至对话管理器310,并且对话管理器310可以将该指示提供至用户。
在对话管理器310、自动语音识别器320、提供商选择引擎330、语音动作数据库332、语音标识符340、说话者声纹数据库342、输入数据值确定器350、和提供商接口360的功能可以组合在一起、进一步分开、分布或者互换的情况下,可以使用服务器300的不同配置。例如,提供商接口360可以执行输入数据值确定器350的功能,以仅仅确定所选服务提供商用来对选择语音动作进行鉴权的输入数据类型的值。可以将系统200实施在单个装置中或者分布到多个装置。
图4是示出了与用于安全地执行语音动作的过程的示例的流程图。过程400的操作可以通过一个或者多个计算系统(诸如图3的服务器300)来执行。
接收表示语音命令的音频数据和说话者标识(410)。例如,对话管理器310可以接收表示“Jane Doe”说出“解除安全系统”的音频数据。接收音频数据和说话者标识可以包括:获取表示说话者说出的语音命令的音频数据,获取说话者的声纹,确定说话者的声纹与表示说话者说出的语音命令的音频数据匹配,以及响应于确定说话者的声纹与表示说话者说出的语音命令的音频数据匹配,生成指示语音命令由说话者说出的说话者标识结果。
可以选择语音动作(420)。例如,自动语音识别器320可以生成转录文“解除安全系统”并且将该转录文提供至提供商选择引擎330,该提供商选择引擎330可以确定这些词项和与词项“解除安全系统”相关联的解除安全系统的语音动作匹配。选择语音动作可以包括:获取一组语音动作,其中,每个语音动作标识对应于该语音动作的一个或多个词项,确定在转录文中的一个或多个词项与对应于语音动作的一个或多个词项匹配,以及响应于确定在转录文中的一个或多个词项与对应于语音动作的一个或多个词项匹配,从该一组语音动作选择语音动作。
可以选择对应于语音动作的服务提供商(430)。例如,提供商选择引擎330可以确定家庭安全系统的服务提供商可以执行解除安全系统的语音动作,并且作为响应,选择家庭安全系统的服务提供商。选择对应于语音动作的服务提供商包括:获取语音动作到多个服务提供商的映射,其中,对每个语音动作,映射描述了可以执行该语音动作的服务提供商,确定语音动作的该映射指示服务提供商可以执行所选择的语音动作,以及响应于确定语音动作的映射指示服务提供商可以执行所选择语音动作,选择服务提供商。
可以标识所选服务提供商用来执行鉴权的输入数据类型(440)。例如,提供商接口360可以标识家庭安全系统的所选服务提供商使用语音匹配置信度的输入数据类型并且用户的移动计算装置是否连接至家中的Wi-Fi网络以对解除安全系统的语音动作进行鉴权。标识输入数据类型可以包括:向所选服务提供商提供对所选服务提供商用来执行所选语音动作的鉴权的一个或者多个输入数据类型的标识的请求,从所选服务提供商接收对标识的请求的响应,以及根据对标识的请求的响应,标识所选服务提供商用来执行所选语音动作的鉴权的一个或者多个输入数据类型。
可以提供执行所选语音动作的请求和对应于所标识输入数据类型的一个或者多个值(450)。例如,提供商接口360可以向家庭安全系统的所选服务提供商提供如下指示:所选语音动作是解除家庭安全系统和针对“Jane Doe”的90%的语音匹配的值,并且Jane Doe的移动计算装置连接至家庭的Wi-Fi网络。
图5示出了可以用于实施此处所描述的技术的计算装置500和移动计算装置550的示例。计算装置可以例如包含或者实施图3的语音动作服务器。计算装置500旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作站、个人数字助理、服务器、刀片服务器、主机和其它适当的计算机。移动计算装置550旨在表示各种形式的移动装置,诸如,个人数字助理、蜂窝电话、智能电话和其它相似的计算装置。此处所示的组件、它们的连接和关系以及它们的功能仅仅意谓示例性的,而并不意谓限制性的。
计算装置500包括处理器502、存储器504、存储装置506、连接至存储器504和多个高速扩展端口510的高速接口508、以及连接至低速扩展端口514和存储装置506的低速接口512。处理器502、存储器504、存储装置506、高速接口508、高速扩展端口510和低速接口512中的每一个通过使用各种总线互相连接,并且在适当的时候,可以安装在公共主板上或者以其它方式安装。处理器502可以处理在计算装置500内执行的指令,包括存储在存储器504中或者在存储装置506上的针对在外部输入/输出装置上的图形用户界面(GUI)(诸如,耦合至高速接口508的显示器516)显示图形信息。在其它实施方式中,在适当的时候,可以使用多个处理器和/或多个总线连同多个存储器和多种类型的存储器。同样,多个计算装置可以与必要操作的每个装置提供部分(例如,服务器银行、一组刀片服务器或者多处理器系统)连接。
存储器504将信息存储在计算装置500内。在某些实施方式中,存储器504是易失性存储单元(多个)。在某些实施方式中,存储器504是非易失性存储单元。存储器504也可以是另一种形式的计算机可读介质,诸如,磁盘或者光盘。
存储装置506能够为计算装置500提供海量存储。在某些实施方式中,存储装置506可以是或者包含计算机可读介质,诸如,软盘装置、硬盘装置、光盘装置或者磁带装置、闪存或者其它相似的固态存储装置、或者装置阵列,包括在存储区域网络或者其它配置中的装置。指令可以存储在信息载体中。指令在由一个或者多个处理装置(例如,处理器502)执行时执行一种或者多种方法,诸如,上述方法。指令也可以由一个或者多个存储装置(诸如,计算机可读介质或者机器可读介质(例如,存储器504、存储装置506、或者在处理器502上的存储器))存储。
高速接口508管理计算装置500的带宽密集型操作,然而低速接口512管理较低带宽密集型操作。这种功能分配仅仅是示例性的。在某些实施方式中,高速接口508耦合至存储器504和显示器516(例如,通过图形处理器或者加速器),并且耦合至可以接受各种扩展卡(未示出)的高速扩展端口510。在该实施方式中,低速接口512耦合至存储装置506和低速扩展端口514。可以包括各种通信端口(例如,USB、蓝牙、以太网、无线以太网)的低速扩展端口514可以例如通过网络适配器耦合至一个或者多个输入/输出装置,诸如,键盘、指向装置、扫描器或者组网装置,诸如,交换机或者路由器。
计算装置500可以按照多种不同形式来实施,如图所示。例如,计算装置可以被实施为标准服务器520,或者可以多次被实施为一组这种服务器。另外,可以用个人计算机(诸如膝上型计算机522)来实施计算装置。计算装置也可以实施为机架式服务器系统524的部分。可替代地,可以将计算装置500的组件与在移动计算装置(未示出)(诸如移动计算装置550)中的其它组件结合在一起。这种装置中的每一个可以包含计算装置500和移动计算装置550中的一个或者多个,并且整个系统可以由彼此通信的多个计算装置构成。
移动计算装置550包括处理器552、存储器564、诸如显示器554等输入/输出装置、通信接口566、收发器568等。移动计算装置550也可以提供有提供附加存储的存储装置(诸如,微驱动器或者其它装置)。处理器552、存储器564、显示器554、通信接口566和收发器568中的每一个通过使用各种总线来互相连接,并且在适当的时候,组件中的几个可以安装在公共主板上或者以其它方式来安装。
处理器552可以执行在移动计算装置550内的指令,包括存储在存储器564中的指令。处理器552可以实施为包括分开的和多个模拟与数字处理器的芯片的芯片组。处理器552可以例如针对移动计算装置550的其它组件的协调(诸如,用户界面的控制)提供由移动计算装置550运行的应用和由移动计算装置550进行的无线通信。
处理器552可以通过耦合至显示器554的控制接口558和显示接口556与用户通信。显示器554可以是,例如,TFT(薄膜晶体管液晶显示器)显示器或者OLED(有机电致发光二极管)显示器,或者其它适当的显示技术。显示接口556可以包括用于驱动显示器554向用户呈现图形和其它信息的适当的电路系统。控制接口558可以接收来自用户的命令并且对它们进行转换以提交给处理器552。另外,外部接口562可以提供与处理器552的通信,以使移动计算装置550能够与其它装置进行近场通信。外部接口562可以在一些实施方式中提供,例如,有线通信,或者在其它实施方式中提供无线通信,并且也可以使用多个接口。
存储器564将信息存储在计算装置550内。存储器564可以实施为计算机可读介质或者媒体、易失性存储单元(多个)、或者非易失性存储单元(多个)中的一个或者多个。扩展存储器574也可以被提供,并且通过扩展接口572连接至移动计算装置550,该扩展接口572可以包括,例如,SIMM(单列直插存储器模块)卡接口。扩展存储器574可以为移动计算装置550提供额外存储空间,或者也存储移动计算装置550的应用或者其它信息。具体地,扩展存储器574可以包括执行或者补充上述过程的指令,并且也可以包括安全信息。由此,例如,扩展存储器574也可以提供为移动计算装置550的安全模块,并且可以利用允许安全使用移动计算装置550的指令来编程。另外,可以经由SIMM卡提供安全应用连同附加信息(诸如,以非可控制方式将标识信息放置在SIMM卡上)。
存储器可以包括,例如,闪存和/或NVRAM存储器(非易失性随机存取存储器),如下面所讨论的。在某些实施方式中,指令存储在信息载体中,其中,该指令在由一个或者多个处理装置(例如,处理器552)执行时执行一个或者多个方法(诸如上述方法)。指令也可以由一个或者多个存储装置(诸如计算机可读介质或者机器可读介质(例如,存储器564、扩展存储器574、或者在处理器552上的存储器))存储。在某些实施方式中,可以在传播信号中接收指令,例如,通过收发器568或者外部接口562。
移动计算装置550可以通过通信接口566进行无线通信,必要时,该通信接口566可以包括数字信号处理电路系统。通信接口566可以提供在各种模式或者协议(诸如,GSM语音呼叫(移动通信的全球系统)、SMS(短消息服务)、EMS(增强消息服务)、或者MMS消息(多媒体消息服务)、CDMA(码分多址)、TDMA(时分多址)、PDC(个人数字蜂窝系统)、WCDMA(宽带码分多址)、CDMA 2000或者GPRS(通用分组无线业务)等)下的通信。这种通信可以例如通过使用射频的收发器568发生。另外,近距离通信可以发送,诸如,通过使用蓝牙、WiFi、或者其它这种收发器(未示出)。另外,GPS(全球定位系统)接收器模块570可以将附加导航和位置相关无线数据发送至移动计算装置550,在适当的时候,该移动计算装置550可以由在移动计算装置450上运行的应用使用。
移动计算装置550也可以通过使用音频编解码器560来进行可听见的通信,该音频编解码器560可以接收来自用户的所说出信息,并且将其转换为可用数字信息。音频编解码器560同样可以,例如,在移动计算装置550的耳机中,生成用户可听见的声音,诸如,通过说话者。这种声音可以包括来自语音电话呼叫的声音,可以包括录制声音(例如,语音信息、音乐文件等),并且还可以包括由在移动计算装置550上运行的应用生成的声音。
移动计算装置550可以按照多种不同的形式来实施,如图所示。例如,移动计算装置可以实施为蜂窝电话580。移动计算装置也可以实施为智能电话582、个人数字助理、或者其它相似的移动装置的部分。

Claims (19)

1.一种用于安全执行语音动作的方法,所述方法包括:
获取(i)表示说话者说出的语音命令的音频数据和(ii)指示所述语音命令由所述说话者说出的说话者标识结果;
至少根据所述音频数据的转录文选择语音动作;
从多个服务提供商选择对应于所选择语音动作的服务提供商;
标识所选择服务提供商用来执行所选择语音动作的鉴权的一个或多个输入数据类型;以及
向所选择服务提供商提供(i)执行所选择语音动作的请求和(ii)对应于所标识的一个或多个输入数据类型的一个或多个数值。
2.根据权利要求1所述的方法,其中,获取(i)表示说话者说出的语音命令的音频数据和(ii)指示所述语音命令由所述说话者说出的说话者标识结果包括:
获取表示所述说话者说出的所述语音命令的所述音频数据;
获取所述说话者的声纹;
确定所述说话者的所述声纹与表示所述说话者说出的所述语音命令的所述音频数据匹配;以及
响应于确定所述说话者的所述声纹与表示所述说话者说出的所述语音命令的所述音频数据匹配,生成指示所述语音命令由所述说话者说出的所述说话者标识结果。
3.根据权利要求1所述的方法,其中,至少根据所述音频数据的转录文选择语音动作包括:
确定在所述转录文中的一个或多个词项与一组语音动作中的特定语音动作所标识的一个或多个词项匹配,该一组语音动作中的每个语音动作标识对应于该语音动作的一个或多个词项;以及
响应于确定在所述转录文中的所述一个或多个词项与所述特定语音动作所标识的一个或多个词项匹配,从所述一组语音动作选择所述特定语音动作。
4.根据权利要求1所述的方法,其中,从多个服务提供商选择对应于所选择语音动作的服务提供商包括:
根据语音动作到所述多个服务提供商的映射,确定所述多个服务提供商的特定服务提供商可执行所选择语音动作,其中对每个语音动作所述映射描述了可执行该语音动作的服务提供商;以及
响应于确定所述特定服务提供商可执行所选择的语音动作,选择所述特定服务提供商。
5.根据权利要求1所述的方法,其包括:
使用自动语音识别器生成所述音频数据的所述转录文。
6.根据权利要求1所述的方法,其包括:
从所述服务提供商接收需要附加鉴权来执行所选择语音动作的指示;以及
响应于接收所述指示,提供对附加鉴权的请求。
7.根据权利要求1所述的方法,其包括:
从所选择服务提供商接收所选择语音动作已被执行的指示。
8.根据权利要求1-7中任一项所述的方法,其中,标识所选择服务提供商用来执行所选择语音动作的鉴权的一个或多个输入数据类型包括:
向所选择服务提供商提供对所选择服务提供商用来执行所选择语音动作的鉴权的一个或多个输入数据类型的标识的请求;
从所选择服务提供商接收对所述标识的所述请求的响应;以及
根据对所述标识的所述请求的响应,标识所选择服务提供商用来执行所选择语音动作的鉴权的一个或多个输入数据类型。
9.根据权利要求1-7中任一项所述的方法,其中,标识所选择服务提供商用来执行所选择语音动作的鉴权的一个或多个输入数据类型包括:
标识所选择服务提供商使用以下输入数据类型中的一个或多个:指示所述说话者的移动计算装置自最后解锁以来是否一直在身上的输入数据类型、指示说话者的移动计算装置是否与特定装置进行近距离通信的输入数据类型、指示说话者的移动计算装置是否在特定地理区域内的输入数据类型、和指示说话者的人脸是否在装置的视野中的输入数据类型。
10.一种安全执行语音动作的系统,其包括:
一个或多个计算机和一个或多个存储装置,所述一个或多个存储装置存储指令,所述指令在由所述一个或多个计算机执行时使所述一个或多个计算机进行以下操作:
获取(i)表示说话者说出的语音命令的音频数据和(ii)指示所述语音命令由所述说话者说出的说话者标识结果;
至少根据所述音频数据的转录文选择语音动作;
从多个服务提供商选择对应于所选择语音动作的服务提供商;
标识所选择服务提供商用来执行所选择语音动作的鉴权的一个或多个输入数据类型;以及
向所选择服务提供商提供(i)执行所选择语音动作的请求和(ii)对应于所标识的一个或多个输入数据类型的一个或多个数值。
11.根据权利要求10所述的系统,其中,获取(i)表示说话者说出的语音命令的音频数据和(ii)指示所述语音命令由所述说话者说出的说话者标识结果包括:
获取表示所述说话者说出的所述语音命令的所述音频数据;
获取所述说话者的声纹;
确定所述说话者的所述声纹与表示所述说话者说出的所述语音命令的所述音频数据匹配;以及
响应于确定所述说话者的所述声纹与表示所述说话者说出的所述语音命令的所述音频数据匹配,生成指示所述语音命令由所述说话者说出的所述说话者标识结果。
12.根据权利要求10所述的系统,其中,至少根据所述音频数据的转录文选择语音动作包括:
确定在所述转录文中的一个或多个词项与一组语音动作中的特定语音动作所标识的一个或多个词项匹配,该一组语音动作中的每个语音动作标识对应于该语音动作的一个或多个词项;以及
响应于确定在所述转录文中的所述一个或多个词项与所述特定语音动作所标识的一个或多个词项匹配,从所述一组语音动作选择所述特定语音动作。
13.根据权利要求10所述的系统,其中,从多个不同的服务提供商选择对应于所选择语音动作的服务提供商包括:
根据语音动作到所述多个服务提供商的映射,确定所述多个服务提供商的特定服务提供商可执行所选择语音动作,其中对每个语音动作所述映射描述了可执行该语音动作的服务提供商;以及
响应于确定语音动作的所述映射指示所述特定服务提供商可执行选择的语音动作,选择所述特定服务提供商。
14.根据权利要求10所述的系统,所述操作包括:
使用自动语音识别器生成所述音频数据的所述转录文。
15.根据权利要求10所述的系统,所述操作包括:
从所述服务提供商接收需要附加鉴权来执行所选择语音动作的指示;以及
响应于接收所述指示,提供对附加鉴权的请求。
16.根据权利要求10所述的系统,所述操作包括:
从所选择服务提供商接收所选择语音动作已被执行的指示。
17.根据权利要求10至16中任一项所述的系统,其中,标识所选择服务提供商用来执行所选择语音动作的鉴权的一个或多个输入数据类型包括:
向所选择服务提供商提供对所选择服务提供商用来执行所选择语音动作的鉴权的一个或多个输入数据类型的标识的请求;
从所选择服务提供商接收对所述标识的所述请求的响应;以及
根据对所述标识的所述请求的响应,标识所选择服务提供商用来执行所选择语音动作的鉴权的一个或多个输入数据类型。
18.根据权利要求10至16中任一项所述的系统,其中,标识所选择服务提供商用来执行所选择语音动作的鉴权的一个或多个输入数据类型包括:
标识所选择服务提供商使用以下输入数据类型中的一个或多个:指示所述说话者的移动计算装置自最后解锁以来是否一直在身上的输入数据类型、指示说话者的移动计算装置是否与特定装置进行近距离通信的输入数据类型、指示说话者的移动计算装置是否在特定地理区域内的输入数据类型、和指示说话者的人脸是否在装置的视野中的输入数据类型。
19.一种存储计算机程序的计算机存储介质,所述程序包括指令,所述指令在由一个或多个计算机执行时使所述一个或多个计算机执行包括根据权利要求1至9中任一项所述的方法的操作。
CN201611242633.9A 2016-06-10 2016-12-29 使用情境信号安全执行语音动作 Active CN107491282B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011174886.3A CN112562689B (zh) 2016-06-10 2016-12-29 使用情境信号安全执行语音动作

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US15/178,895 US10127926B2 (en) 2016-06-10 2016-06-10 Securely executing voice actions with speaker identification and authentication input types
US15/178,895 2016-06-10

Related Child Applications (1)

Application Number Title Priority Date Filing Date
CN202011174886.3A Division CN112562689B (zh) 2016-06-10 2016-12-29 使用情境信号安全执行语音动作

Publications (2)

Publication Number Publication Date
CN107491282A true CN107491282A (zh) 2017-12-19
CN107491282B CN107491282B (zh) 2020-11-06

Family

ID=57543236

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611242633.9A Active CN107491282B (zh) 2016-06-10 2016-12-29 使用情境信号安全执行语音动作

Country Status (5)

Country Link
US (4) US10127926B2 (zh)
EP (2) EP3469587B1 (zh)
CN (1) CN107491282B (zh)
DE (2) DE102016125494B4 (zh)
WO (1) WO2017213689A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110349310A (zh) * 2019-07-03 2019-10-18 源创客控股集团有限公司 一种用于园区企业的定制提醒云平台服务系统

Families Citing this family (121)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US8676904B2 (en) 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
US10706373B2 (en) 2011-06-03 2020-07-07 Apple Inc. Performing actions associated with task items that represent tasks to perform
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US10417037B2 (en) 2012-05-15 2019-09-17 Apple Inc. Systems and methods for integrating third party services with a digital assistant
KR20150104615A (ko) 2013-02-07 2015-09-15 애플 인크. 디지털 어시스턴트를 위한 음성 트리거
US10652394B2 (en) 2013-03-14 2020-05-12 Apple Inc. System and method for processing voicemail
US10748529B1 (en) 2013-03-15 2020-08-18 Apple Inc. Voice activated device for use with a voice-based digital assistant
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
EP3008641A1 (en) 2013-06-09 2016-04-20 Apple Inc. Device, method, and graphical user interface for enabling conversation persistence across two or more instances of a digital assistant
CN105453026A (zh) 2013-08-06 2016-03-30 苹果公司 基于来自远程设备的活动自动激活智能响应
US10296160B2 (en) 2013-12-06 2019-05-21 Apple Inc. Method for extracting salient dialog usage from live data
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
TWI566107B (zh) 2014-05-30 2017-01-11 蘋果公司 用於處理多部分語音命令之方法、非暫時性電腦可讀儲存媒體及電子裝置
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US10152299B2 (en) 2015-03-06 2018-12-11 Apple Inc. Reducing response latency of intelligent automated assistants
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US10460227B2 (en) 2015-05-15 2019-10-29 Apple Inc. Virtual assistant in a communication session
US10200824B2 (en) 2015-05-27 2019-02-05 Apple Inc. Systems and methods for proactively identifying and surfacing relevant content on a touch-sensitive device
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US20160378747A1 (en) 2015-06-29 2016-12-29 Apple Inc. Virtual assistant for media playback
US10331312B2 (en) 2015-09-08 2019-06-25 Apple Inc. Intelligent automated assistant in a media environment
US10740384B2 (en) 2015-09-08 2020-08-11 Apple Inc. Intelligent automated assistant for media search and playback
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10956666B2 (en) 2015-11-09 2021-03-23 Apple Inc. Unconventional virtual assistant interactions
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US11227589B2 (en) 2016-06-06 2022-01-18 Apple Inc. Intelligent list reading
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US10127926B2 (en) 2016-06-10 2018-11-13 Google Llc Securely executing voice actions with speaker identification and authentication input types
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
US10771969B2 (en) * 2016-07-11 2020-09-08 T-Mobile Usa, Inc. Voice control and telecommunications service integration
WO2018013366A1 (en) * 2016-07-12 2018-01-18 Proteq Technologies Llc Intelligent software agent
US10474753B2 (en) 2016-09-07 2019-11-12 Apple Inc. Language identification using recurrent neural networks
US10555172B2 (en) 2016-09-07 2020-02-04 T-Mobile Usa, Inc. Untrusted device access to services over a cellular network
US10347245B2 (en) * 2016-12-23 2019-07-09 Soundhound, Inc. Natural language grammar enablement by speech characterization
US11204787B2 (en) 2017-01-09 2021-12-21 Apple Inc. Application integration with a digital assistant
DK201770383A1 (en) 2017-05-09 2018-12-14 Apple Inc. USER INTERFACE FOR CORRECTING RECOGNITION ERRORS
US10395654B2 (en) 2017-05-11 2019-08-27 Apple Inc. Text normalization based on a data-driven learning network
DK180048B1 (en) 2017-05-11 2020-02-04 Apple Inc. MAINTAINING THE DATA PROTECTION OF PERSONAL INFORMATION
US10726832B2 (en) 2017-05-11 2020-07-28 Apple Inc. Maintaining privacy of personal information
US11301477B2 (en) 2017-05-12 2022-04-12 Apple Inc. Feedback analysis of a digital assistant
DK201770429A1 (en) 2017-05-12 2018-12-14 Apple Inc. LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK201770411A1 (en) 2017-05-15 2018-12-20 Apple Inc. MULTI-MODAL INTERFACES
US20180336892A1 (en) 2017-05-16 2018-11-22 Apple Inc. Detecting a trigger of a digital assistant
US20180336275A1 (en) 2017-05-16 2018-11-22 Apple Inc. Intelligent automated assistant for media exploration
EP3459076B1 (en) * 2017-05-16 2020-07-22 Apple Inc. Far-field extension for digital assistant services
DK179560B1 (en) 2017-05-16 2019-02-18 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
US10311144B2 (en) 2017-05-16 2019-06-04 Apple Inc. Emoji word sense disambiguation
US11264020B2 (en) * 2017-07-05 2022-03-01 Johnson Controls Tyco IP Holdings LLP Systems and methods for conversational interaction with a building automation system
US11120803B2 (en) * 2017-07-05 2021-09-14 Johnson Controls Tyco IP Holdings LLP Building automation system with NLP service abstraction
US11567726B2 (en) * 2017-07-21 2023-01-31 Google Llc Methods, systems, and media for providing information relating to detected events
KR101995443B1 (ko) * 2017-07-26 2019-07-02 네이버 주식회사 화자 검증 방법 및 음성인식 시스템
KR102002903B1 (ko) * 2017-07-26 2019-07-23 네이버 주식회사 화자 인증 방법 및 음성인식 시스템
JP7123540B2 (ja) * 2017-09-25 2022-08-23 キヤノン株式会社 音声情報による入力を受け付ける情報処理端末、方法、その情報処理端末を含むシステム
JP7013193B2 (ja) * 2017-10-10 2022-01-31 キヤノン株式会社 システム、システムの制御方法、音声操作装置、音声操作装置の制御方法、およびプログラム
US11133000B2 (en) * 2017-10-13 2021-09-28 Johnson Controls Tyco IP Holdings LLP Systems and methods for voice control of BMS devices
DE102017128651A1 (de) * 2017-12-02 2019-06-06 Tobias Rückert Dialogsystem und Verfahren zur Umsetzung von Anweisungen eines Nutzers
KR102513297B1 (ko) * 2018-02-09 2023-03-24 삼성전자주식회사 전자 장치 및 전자 장치의 기능 실행 방법
US10592604B2 (en) 2018-03-12 2020-03-17 Apple Inc. Inverse text normalization for automatic speech recognition
US10877637B1 (en) 2018-03-14 2020-12-29 Amazon Technologies, Inc. Voice-based device operation mode management
US10885910B1 (en) 2018-03-14 2021-01-05 Amazon Technologies, Inc. Voice-forward graphical user interface mode management
US11127405B1 (en) * 2018-03-14 2021-09-21 Amazon Technologies, Inc. Selective requests for authentication for voice-based launching of applications
WO2019177298A1 (en) * 2018-03-15 2019-09-19 Samsung Electronics Co., Ltd. Method and apparatus for managing user authentication in a blockchain network
US10818288B2 (en) 2018-03-26 2020-10-27 Apple Inc. Natural assistant interaction
US11145294B2 (en) 2018-05-07 2021-10-12 Apple Inc. Intelligent automated assistant for delivering content from user experiences
US10928918B2 (en) 2018-05-07 2021-02-23 Apple Inc. Raise to speak
DK179822B1 (da) 2018-06-01 2019-07-12 Apple Inc. Voice interaction at a primary device to access call functionality of a companion device
DK180639B1 (en) 2018-06-01 2021-11-04 Apple Inc DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT
US10892996B2 (en) 2018-06-01 2021-01-12 Apple Inc. Variable latency device coordination
CN109087639B (zh) * 2018-08-02 2021-01-15 泰康保险集团股份有限公司 用于语音识别的方法、装置、电子设备及计算机可读介质
KR102574903B1 (ko) * 2018-08-08 2023-09-05 삼성전자주식회사 개인화된 장치 연결을 지원하는 전자 장치 및 그 방법
US11010561B2 (en) 2018-09-27 2021-05-18 Apple Inc. Sentiment prediction from textual data
US10839159B2 (en) 2018-09-28 2020-11-17 Apple Inc. Named entity normalization in a spoken dialog system
US11462215B2 (en) 2018-09-28 2022-10-04 Apple Inc. Multi-modal inputs for voice commands
US11170166B2 (en) 2018-09-28 2021-11-09 Apple Inc. Neural typographical error modeling via generative adversarial networks
US11475898B2 (en) 2018-10-26 2022-10-18 Apple Inc. Low-latency multi-speaker speech recognition
US11638059B2 (en) 2019-01-04 2023-04-25 Apple Inc. Content playback on multiple devices
US11264035B2 (en) 2019-01-05 2022-03-01 Starkey Laboratories, Inc. Audio signal processing for automatic transcription using ear-wearable device
US11264029B2 (en) * 2019-01-05 2022-03-01 Starkey Laboratories, Inc. Local artificial intelligence assistant system with ear-wearable device
KR20200092742A (ko) 2019-01-25 2020-08-04 삼성전자주식회사 보이스 어시스턴트 서비스를 제공하는 시스템 및 방법
US11348573B2 (en) 2019-03-18 2022-05-31 Apple Inc. Multimodality in digital assistant systems
US11948582B2 (en) * 2019-03-25 2024-04-02 Omilia Natural Language Solutions Ltd. Systems and methods for speaker verification
US11423908B2 (en) 2019-05-06 2022-08-23 Apple Inc. Interpreting spoken requests
DK201970509A1 (en) 2019-05-06 2021-01-15 Apple Inc Spoken notifications
US11307752B2 (en) 2019-05-06 2022-04-19 Apple Inc. User configurable task triggers
US11475884B2 (en) 2019-05-06 2022-10-18 Apple Inc. Reducing digital assistant latency when a language is incorrectly determined
US11140099B2 (en) 2019-05-21 2021-10-05 Apple Inc. Providing message response suggestions
US11289073B2 (en) 2019-05-31 2022-03-29 Apple Inc. Device text to speech
US11496600B2 (en) 2019-05-31 2022-11-08 Apple Inc. Remote execution of machine-learned models
DK201970510A1 (en) 2019-05-31 2021-02-11 Apple Inc Voice identification in digital assistant systems
DK180129B1 (en) 2019-05-31 2020-06-02 Apple Inc. USER ACTIVITY SHORTCUT SUGGESTIONS
US11227599B2 (en) 2019-06-01 2022-01-18 Apple Inc. Methods and user interfaces for voice-based control of electronic devices
US11360641B2 (en) 2019-06-01 2022-06-14 Apple Inc. Increasing the relevance of new available information
WO2021056255A1 (en) 2019-09-25 2021-04-01 Apple Inc. Text detection using global geometry estimators
US11862168B1 (en) * 2020-03-30 2024-01-02 Amazon Technologies, Inc. Speaker disambiguation and transcription from multiple audio feeds
US11061543B1 (en) 2020-05-11 2021-07-13 Apple Inc. Providing relevant data items based on context
US11810578B2 (en) 2020-05-11 2023-11-07 Apple Inc. Device arbitration for digital assistant-based intercom systems
US11043220B1 (en) 2020-05-11 2021-06-22 Apple Inc. Digital assistant hardware abstraction
US11755276B2 (en) 2020-05-12 2023-09-12 Apple Inc. Reducing description length based on confidence
US11490204B2 (en) 2020-07-20 2022-11-01 Apple Inc. Multi-device audio adjustment coordination
US11438683B2 (en) 2020-07-21 2022-09-06 Apple Inc. User identification using headphones
US11978449B2 (en) 2021-03-02 2024-05-07 Samsung Electronics Co., Ltd. Electronic device for processing user utterance and operation method therefor
US20220317968A1 (en) * 2021-04-02 2022-10-06 Comcast Cable Communications, Llc Voice command processing using user interface context
US11942090B2 (en) * 2021-06-04 2024-03-26 Apple Inc. Accessory device based authentication for digital assistant requests
US11881218B2 (en) * 2021-07-12 2024-01-23 Bank Of America Corporation Protection against voice misappropriation in a voice interaction system
US12021806B1 (en) 2021-09-21 2024-06-25 Apple Inc. Intelligent message delivery
EP4231177A1 (de) * 2022-02-16 2023-08-23 Deutsche Telekom AG Schützendes betriebsverfahren für ein sprachgesteuertes endgerät

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1324175A (zh) * 2000-05-11 2001-11-28 松下电工株式会社 用于操作家用电器的话音控制系统
US6757718B1 (en) * 1999-01-05 2004-06-29 Sri International Mobile navigation of network-based electronic information using spoken input
US8543834B1 (en) * 2012-09-10 2013-09-24 Google Inc. Voice authentication and command
US20140330560A1 (en) * 2013-05-06 2014-11-06 Honeywell International Inc. User authentication of voice controlled devices
US20150121464A1 (en) * 2013-10-29 2015-04-30 Mapquest, Inc. Systems and methods for geolocation-based authentication and authorization
US20150302856A1 (en) * 2014-04-17 2015-10-22 Qualcomm Incorporated Method and apparatus for performing function by speech input
US20160021105A1 (en) * 2014-07-15 2016-01-21 Sensory, Incorporated Secure Voice Query Processing

Family Cites Families (59)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5940799A (en) * 1997-09-15 1999-08-17 Motorola, Inc. System and method for securing speech transactions
US6434520B1 (en) * 1999-04-16 2002-08-13 International Business Machines Corporation System and method for indexing and querying audio archives
US8648692B2 (en) * 1999-07-23 2014-02-11 Seong Sang Investments Llc Accessing an automobile with a transponder
US6496107B1 (en) 1999-07-23 2002-12-17 Richard B. Himmelstein Voice-controlled vehicle control system
US6640098B1 (en) * 2000-02-14 2003-10-28 Action Engine Corporation System for obtaining service-related information for local interactive wireless devices
US6498970B2 (en) * 2001-04-17 2002-12-24 Koninklijke Phillips Electronics N.V. Automatic access to an automobile via biometrics
US20040010698A1 (en) * 2002-05-30 2004-01-15 Rolfe Andrew R. Digital certificate system incorporating voice biometric processing
US7299177B2 (en) * 2003-05-30 2007-11-20 American Express Travel Related Services Company, Inc. Speaker recognition in a multi-speaker environment and comparison of several voice prints to many
US7084734B2 (en) * 2003-08-07 2006-08-01 Georgia Tech Research Corporation Secure authentication of a user to a system and secure operation thereafter
US7378939B2 (en) * 2004-03-30 2008-05-27 Sengupta Uttam K Method and apparatus for providing proximity based authentication, security, and notification in a wireless system
US7698566B1 (en) * 2004-07-12 2010-04-13 Sprint Spectrum L.P. Location-based voice-print authentication method and system
US20080010678A1 (en) * 2004-09-17 2008-01-10 Jeff Burdette Authentication Proxy
US7536304B2 (en) * 2005-05-27 2009-05-19 Porticus, Inc. Method and system for bio-metric voice print authentication
US8451823B2 (en) * 2005-12-13 2013-05-28 Nuance Communications, Inc. Distributed off-line voice services
US20070143825A1 (en) * 2005-12-21 2007-06-21 Goffin Glen P Apparatus and method of tiered authentication
US7620386B2 (en) * 2006-06-08 2009-11-17 At&T Intellectual Property I, Lp Establishing a collaborative domain among communication terminals responsive to authentication
US9247056B2 (en) * 2007-02-28 2016-01-26 International Business Machines Corporation Identifying contact center agents based upon biometric characteristics of an agent's speech
US8032383B1 (en) * 2007-05-04 2011-10-04 Foneweb, Inc. Speech controlled services and devices using internet
US8010369B2 (en) * 2007-10-30 2011-08-30 At&T Intellectual Property I, L.P. System and method for controlling devices that are connected to a network
KR101659649B1 (ko) * 2011-02-22 2016-09-23 디아트로 랩스, 인크. 구조화된 통신을 이용하기 위한 관측 플랫폼
US9787655B2 (en) * 2011-12-09 2017-10-10 Airwatch Llc Controlling access to resources on a network
US8363086B1 (en) * 2012-02-06 2013-01-29 Google Inc. Initiating communications using short-range wireless communications
KR101971697B1 (ko) * 2012-02-24 2019-04-23 삼성전자주식회사 사용자 디바이스에서 복합 생체인식 정보를 이용한 사용자 인증 방법 및 장치
US20150241962A1 (en) 2012-10-22 2015-08-27 Vid Scale, Inc. User presence detection in mobile devices
US9646610B2 (en) * 2012-10-30 2017-05-09 Motorola Solutions, Inc. Method and apparatus for activating a particular wireless communication device to accept speech and/or voice commands using identification data consisting of speech, voice, image recognition
US9837078B2 (en) * 2012-11-09 2017-12-05 Mattersight Corporation Methods and apparatus for identifying fraudulent callers
KR102091003B1 (ko) * 2012-12-10 2020-03-19 삼성전자 주식회사 음성인식 기술을 이용한 상황 인식 서비스 제공 방법 및 장치
US9460715B2 (en) * 2013-03-04 2016-10-04 Amazon Technologies, Inc. Identification using audio signatures and additional characteristics
US9940616B1 (en) * 2013-03-14 2018-04-10 Square, Inc. Verifying proximity during payment transactions
US9485607B2 (en) * 2013-05-14 2016-11-01 Nokia Technologies Oy Enhancing the security of short-range communication in connection with an access control device
US20140359736A1 (en) * 2013-05-31 2014-12-04 Deviceauthority, Inc. Dynamic voiceprint authentication
US9754258B2 (en) * 2013-06-17 2017-09-05 Visa International Service Association Speech transaction processing
US9558749B1 (en) * 2013-08-01 2017-01-31 Amazon Technologies, Inc. Automatic speaker identification using speech recognition features
JP6522503B2 (ja) * 2013-08-29 2019-05-29 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America 機器制御方法、表示制御方法及び購入決済方法
US9343068B2 (en) 2013-09-16 2016-05-17 Qualcomm Incorporated Method and apparatus for controlling access to applications having different security levels
US9350717B1 (en) * 2013-09-23 2016-05-24 Amazon Technologies, Inc. Location service for user authentication
US20150113364A1 (en) * 2013-10-21 2015-04-23 Tata Consultancy Services Limited System and method for generating an audio-animated document
WO2015083012A1 (en) * 2013-12-05 2015-06-11 Sony Corporation Pairing consumer electronic devices using a cross-body communications protocol
US20150181430A1 (en) * 2013-12-19 2015-06-25 Kwan Ho Lee Systems and methods for communication using a body area network
JP6063859B2 (ja) * 2013-12-24 2017-01-18 株式会社日立製作所 携帯鍵装置及び装置制御方法
US9449165B2 (en) * 2014-02-06 2016-09-20 Untethered Labs, Inc. System and method for wireless proximity-based access to a computing device
US20160070580A1 (en) * 2014-09-09 2016-03-10 Microsoft Technology Licensing, Llc Digital personal assistant remote invocation
US9473878B2 (en) * 2014-12-25 2016-10-18 Intel Corporation Apparatus, method and system of managing a wearable device ensemble
US11132694B2 (en) * 2014-12-31 2021-09-28 Paypal, Inc. Authentication of mobile device for secure transaction
US10384291B2 (en) * 2015-01-30 2019-08-20 Lincoln Global, Inc. Weld ending process and system
US20160282934A1 (en) * 2015-03-25 2016-09-29 Motorola Mobility Llc Presence detection for gesture recognition and iris authentication
US9912657B2 (en) * 2015-06-02 2018-03-06 Dipankar Dasgupta Adaptive multi-factor authentication system
US10333904B2 (en) * 2015-08-08 2019-06-25 Peter J. Tormey Voice access and control
US10362480B2 (en) * 2015-08-12 2019-07-23 Luis M. Ortiz Systems, methods and apparatuses for enabling wearable device user access to secured electronics systems
US10360560B2 (en) * 2015-09-01 2019-07-23 Bank Of America Corporation System for authenticating a wearable device for transaction queuing
US9866555B2 (en) * 2015-09-17 2018-01-09 Intel Corporation Maintaining user authentications with common trusted devices
US9942763B2 (en) * 2015-11-19 2018-04-10 Beijing Nanbao Technology Co., Ltd. Method and apparatus of triggering applications in a wireless environment
CA2951529A1 (en) * 2015-12-11 2017-06-11 Capital One Services, Llc Systems and methods for voice-controlled account servicing
US9922648B2 (en) * 2016-03-01 2018-03-20 Google Llc Developer voice actions system
US20170289172A1 (en) * 2016-03-29 2017-10-05 Zeta (Better World Technology Pvt. Ltd.) Request authentication from message content
US10200364B1 (en) * 2016-04-01 2019-02-05 Wells Fargo Bank, N.A. Enhanced secure authentication
US20170316258A1 (en) * 2016-04-29 2017-11-02 International Business Machines Corporation Augmenting gesture based security technology for improved differentiation
US10127926B2 (en) * 2016-06-10 2018-11-13 Google Llc Securely executing voice actions with speaker identification and authentication input types
US9691384B1 (en) * 2016-08-19 2017-06-27 Google Inc. Voice action biasing system

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6757718B1 (en) * 1999-01-05 2004-06-29 Sri International Mobile navigation of network-based electronic information using spoken input
CN1324175A (zh) * 2000-05-11 2001-11-28 松下电工株式会社 用于操作家用电器的话音控制系统
US8543834B1 (en) * 2012-09-10 2013-09-24 Google Inc. Voice authentication and command
US20140330560A1 (en) * 2013-05-06 2014-11-06 Honeywell International Inc. User authentication of voice controlled devices
US20150121464A1 (en) * 2013-10-29 2015-04-30 Mapquest, Inc. Systems and methods for geolocation-based authentication and authorization
US20150302856A1 (en) * 2014-04-17 2015-10-22 Qualcomm Incorporated Method and apparatus for performing function by speech input
US20160021105A1 (en) * 2014-07-15 2016-01-21 Sensory, Incorporated Secure Voice Query Processing

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110349310A (zh) * 2019-07-03 2019-10-18 源创客控股集团有限公司 一种用于园区企业的定制提醒云平台服务系统

Also Published As

Publication number Publication date
US20200413259A1 (en) 2020-12-31
EP3469587A1 (en) 2019-04-17
US10770093B2 (en) 2020-09-08
US20190156856A1 (en) 2019-05-23
EP3469587B1 (en) 2019-08-21
DE102016125494B4 (de) 2024-04-18
US11665543B2 (en) 2023-05-30
DE102016125494A1 (de) 2017-12-14
US10127926B2 (en) 2018-11-13
EP3671734A1 (en) 2020-06-24
US20230269586A1 (en) 2023-08-24
CN107491282B (zh) 2020-11-06
DE202016008226U1 (de) 2017-05-04
EP3671734B1 (en) 2024-05-15
CN112562689A (zh) 2021-03-26
US20170358317A1 (en) 2017-12-14
WO2017213689A1 (en) 2017-12-14

Similar Documents

Publication Publication Date Title
CN107491282A (zh) 使用情境信号安全执行语音动作
US11721326B2 (en) Multi-user authentication on a device
US10672402B2 (en) Speech with context authenticator
CN110140168A (zh) 上下文热词
CN107430858B (zh) 传送标识当前说话者的元数据
EP4064276A1 (en) Method and device for speech recognition, terminal and storage medium
KR20180074210A (ko) 전자 장치 및 전자 장치의 음성 인식 방법
US8938388B2 (en) Maintaining and supplying speech models
CN106062868A (zh) 提供预先计算的热词模型
CN109102802A (zh) 用于处理用户话语的系统
CN110020009A (zh) 在线问答方法、装置及系统
US20220068272A1 (en) Context-based dynamic tolerance of virtual assistant
CN110400563A (zh) 车载语音指令识别方法、装置、计算机设备及存储介质
CN105917405B (zh) 外源性大词汇量模型到基于规则的语音识别的合并
US11102309B2 (en) Pairing a voice-enabled device with a display device
JP2022087815A (ja) 相互接続された音声検証システムの使用を通して相互運用性を達成するためのシステム、方法、およびプログラム
CN112017663B (zh) 一种语音泛化方法、装置及计算机存储介质
KR20190127372A (ko) 전자 장치 및 전자 장치의 기능 실행 방법
CN110462662B (zh) 使用话语进行支付的设备和方法
CN108989542A (zh) 基于情境确定动作的系统和方法、用于执行基于情境确定的动作的车辆
US11749272B2 (en) Voice-based time-sensitive task processing over a high generation cellular network
CN104995933B (zh) 移动终端及其控制方法
EP3502938B1 (en) A conversational registration method for client devices
CN112562689B (zh) 使用情境信号安全执行语音动作
CN108564374A (zh) 支付认证方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information
CB02 Change of applicant information

Address after: American California

Applicant after: Google limited liability company

Address before: American California

Applicant before: Google Inc.

GR01 Patent grant
GR01 Patent grant