CN116848582A - 依赖说话者的后续动作和热词 - Google Patents
依赖说话者的后续动作和热词 Download PDFInfo
- Publication number
- CN116848582A CN116848582A CN202180093505.5A CN202180093505A CN116848582A CN 116848582 A CN116848582 A CN 116848582A CN 202180093505 A CN202180093505 A CN 202180093505A CN 116848582 A CN116848582 A CN 116848582A
- Authority
- CN
- China
- Prior art keywords
- hotwords
- user
- speaker
- utterance
- audio data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000009471 action Effects 0.000 title claims abstract description 91
- 230000001419 dependent effect Effects 0.000 title claims description 33
- 230000007774 longterm Effects 0.000 claims abstract description 108
- 238000000034 method Methods 0.000 claims abstract description 107
- 238000012795 verification Methods 0.000 claims abstract description 39
- 230000003213 activating effect Effects 0.000 claims abstract description 31
- 239000013598 vector Substances 0.000 claims description 224
- 238000012545 processing Methods 0.000 claims description 62
- 230000015654 memory Effects 0.000 claims description 38
- 238000004891 communication Methods 0.000 claims description 4
- 230000000875 corresponding effect Effects 0.000 description 98
- 230000008569 process Effects 0.000 description 52
- 244000215188 Acacia nilotica Species 0.000 description 33
- 235000006509 Acacia nilotica Nutrition 0.000 description 33
- 235000006491 Acacia senegal Nutrition 0.000 description 33
- 230000001276 controlling effect Effects 0.000 description 27
- 230000004044 response Effects 0.000 description 11
- 230000004913 activation Effects 0.000 description 8
- 238000004590 computer program Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 4
- 230000003993 interaction Effects 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 4
- 238000013475 authorization Methods 0.000 description 2
- 230000006855 networking Effects 0.000 description 2
- 238000003062 neural network model Methods 0.000 description 2
- 241000124815 Barbus barbus Species 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000010411 cooking Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000000977 initiatory effect Effects 0.000 description 1
- 230000009191 jumping Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 239000011435 rock Substances 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000013518 transcription Methods 0.000 description 1
- 230000035897 transcription Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/065—Adaptation
- G10L15/07—Adaptation to the speaker
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
- G06F3/167—Audio in a user interface, e.g. using voice commands for navigating, audio feedback
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/06—Decision making techniques; Pattern matching strategies
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/22—Interactive procedures; Man-machine interfaces
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L2015/088—Word spotting
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/226—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
- G10L2015/228—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Business, Economics & Management (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Game Theory and Decision Science (AREA)
- Theoretical Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
一种方法(500)包括接收音频数据(402),所述音频数据(402)与用户(102)说出的话语(106)对应,所述话语(106)包括用于数字助手(105)执行长期操作的指令(118);激活一个或多个热词(112)的集合,所述一个或多个热词(112)的集合与用于控制所述长期操作的各自的动作相关联;并且将所述激活的一个或多个热词的集合仅与所述用户相关联。当所述数字助手执行所述长期操作时,所述方法包括接收与附加话语对应的附加音频数据,标识来自所述激活的热词集合中的所述热词的一个,并且对所述附加音频数据执行说话者验证(400)。所述方法进一步包括:当与所述激活的一个或多个热词的集合相关联的同一所述用户说出所述附加话语时,执行与识别的所述热词中的一个相关联的所述各自的动作以用于控制所述长期操作。
Description
技术领域
本公开涉及依赖说话者的后续动作和热词。
背景技术
语音启用环境允许用户仅响亮说出查询或指令,并且数字助手将对查询进行字段和应答和/或执行指令。语音启用环境(例如,家庭、工作场所、学校等)可以使用分布在各种房间和/或环境区域中的连接的麦克风设备的网络来实现。通过这种麦克风网络,用户能够从环境中的任何地方口头查询数字助手,而不需要在他/她之前或甚至附近具有计算机或其它设备。例如,在厨房烹饪时,用户可能要求数字助手“请将计时器设置为20分钟”,并且作为响应,数字助手将确认计时器已被设置(例如,以合成声音输出的形式),然后一旦计时器在20分钟之后流逝,就警告(例如,以来自声学扬声器的警报或其它可听警报的形式)用户。通常,在给定环境中有许多用户查询/指令数字助手执行各种动作。这些用户可以向数字助手注册声音简档,从而可以识别用户以为每个用户提供更个人化的体验。例如,数字助手的多个不同用户中的一个可以说出指令“请播放我的音乐播放列表”,并且作为响应,数字助手可以通过将声音特征与该用户的声音简档进行匹配来识别该特定用户,然后通过声学扬声器来流送该特定用户的音乐播放列表。
发明内容
本公开的一个方面提供了一种用于激活依赖于说话者的热词的方法。该方法包括在数据处理硬件处接收音频数据,该音频数据与用户说出的话语对应,并且由与用户相关联的助手启用设备捕获。话语包括指令,指令用于数字助手执行长期操作。在接收到与话语对应的音频数据之后,该方法包括:由数据处理硬件激活一个或多个热词的集合,每个热词与用于控制长期操作的各自的动作相关联;以及由数据处理硬件将激活的一个或多个热词的集合仅与说出话语的用户相关联。当数字助手执行长期操作时,该方法进一步包括:在数据处理硬件处接收附加音频数据,该音频数据与由助手启用设备捕获的附加话语对应;由数据处理硬件在附加音频数据中标识来自激活的一个或多个热词的集合中热词的一个;以及由数据处理硬件对附加音频数据执行说话者验证,以确定附加话语是否由与激活的一个或多个热词的集合相关联的同一用户说出。该方法进一步包括由数据处理硬件执行各自的动作以控制长期操作,各自的动作与与标识的激活的一个或多个热词的集合中的热词的一个相关联。
本公开的实现可以包括以下可选特征中的一个或多个。在一些实施方式,激活一个或多个热词的集合包括对于激活的一个或多个热词的集合中的每个对应的热词,激活各自的热词模型以在与用户相关联的助手启用设备上运行。在这些实施方式中,在附加音频数据中,标识来自激活的一个或多个热词的集合中的一个包括,使用为对应的热词中的一个激活的各自的热词模型,检测附加音频数据中的热词中的一个,而不对附加音频数据执行语音识别。检测在附加音频数据中的热词中的一个可以包括:提取附加音频数据的音频特征;使用为对应的热词中的一个激活的各自的热词模型,通过处理所提取的音频特征生成热词置信度得分;当热词置信度得分满足热词置信度阈值时,确定附加话语的附加音频数据包括对应的热词中的一个。
在一些实施例中,激活一个或多个热词的集合包括在助手启用设备上执行语音识别器。语音识别器偏向于识别激活的一个或多个热词的集合中的一个或多个热词。在这些实施例中,在附加音频数据中,标识来自激活的一个或多个热词的集合中热词的一个包括,使用在助手启用设备上实施的语音识别器来识别附加音频数据中的热词中的一个。
在一些实施方式,在接收到与用户说出的话语对应的音频数据之后,该方法还包括由数据处理硬件对音频数据执行说话者标识以标识说出话语的用户。说话者标识包括从与用户说出的话语对应的音频数据中提取表示用户说出的话语的特征的第一说话者辨别向量,并且确定提取的说话者辨别向量是否匹配任何登记的说话者向量,登记的说话者向量存储在助手启用设备上。每个登记的说话者向量与助手启用设备的不同的各自的登记的用户相关联。当第一说话者辨别向量匹配登记的说话者向量中的一个时,该方法包括将说出话语的用户标识为各自的登记的用户,各自的登记的用户与提取的说话者辨别向量的登记的说话者向量中的一个相关联。在这些实施方式中,由用户说出的话语还包括在用于使数字助手执行长期操作的指令之前的热门词;第一说话者辨别向量包括从具有热门词的音频数据的部分提取的文本依赖的说话者辨别向量;以及每个登记的说话者向量包括从说出热门词的各自的登记的用户的一个或多个音频样本中提取的文本依赖的登记的说话者向量。在另外的实施方式中,对附加音频数据执行说话者验证包括:从热词中的一个附加话语对应的附加音频数据中提取表示附加话语的特征的第二说话者辨别向量,以及确定提取的第二说话者辨别向量是否匹配用于识别为说出话语的用户的各自的登记的用户的参考说话者向量。这里,当提取的第二说话者辨别向量与参考说话者向量匹配时,该方法包括确定附加话语是由与激活的一个或多个热词的集合相关联的同一用户说出的。在这些实施方式中,参考说话者向量可以包括与各自的登记的用户相关联的登记的说话者向量。另外地或可选地,参考说话者向量包括从说出标识的热词中的一个的各自的登记的用户的一个或多个音频样本中提取的文本依赖说话者向量。
在一些实施例中,当第一说话者辨别向量与任何登记的说话者向量不匹配时,将说出话语的用户标识为助手启用设备的来宾用户,以及对附加音频数据执行说话者验证包括从附加音频数据中提取表示附加说话的特征的第二说话者辨别向量,以及确定第二说话者辨别向量是否与表示特征的第一说话者辨别向量匹配。在这些实施例中,该方法包括:当提取的第一说话者辨别向量和第二说话者辨别向量匹配时,确定附加话语是由与激活的一个或多个热词的集合相关联的同一用户说出的。在另外的实施方式中,当与激活的一个或多个热词的集合相关联的用户不同的用户说出另外的话语时,该方法包括通过数据处理硬件禁止各自的动作的执行,各自的动作的执行与用于控制长期操作的被识别热词中的一个相关联。
在一些实施例中,当附加话语由与激活的激活的一个或多个热词的集合相关联的用户不同的用户说出时,该方法包括由数据处理硬件提示与激活的激活的一个或多个热词的集合相关联的用户授权执行与标识的热词中的一个相关联的各自的动作以控制长期操作。该方法还包括在数据处理硬件处接收来自授权执行各自的动作的用户的回执,并且由数据处理硬件执行与标识的热词中的一个相关联的用于控制长期操作各自的动作。提示用户可以包括,标识说出附加话语的不同用户。在一些实施方式,该方法还包括:由数据处理硬件确定数字助手何时停止执行长期操作,以及由数据处理硬件去停用一个或多个热词的集合。
本公开的另一方面提供了一种用于激活依赖于说话者的热词的系统。该系统包括数据处理硬件和与数据处理硬件通信的存储器硬件。存储器硬件存储指令,指令在数据处理硬件上执行时使数据处理硬件执行操作,操作包括接收音频数据,该音频数据与用户说出的话语对应,并且由与用户相关联的助手启用设备捕获。话语包括指令,指令用于数字助手执行长期操作。在接收到与话语对应的音频数据之后,操作包括激活一个或多个热词的集合,每个热词与用于控制长期操作的各自的动作相关联;以及将激活的一个或多个热词的集合仅与说出话语的用户相关联。当数字助手执行长期操作时,该方法进一步包括:在数据处理硬件处接收附加音频数据,该音频数据与由助手启用设备捕获的附加话语对应;在附加音频数据中标识来自激活的一个或多个热词的集合中热词的一个;以及对附加音频数据执行说话者验证,以确定附加话语是否由与激活的一个或多个热词的集合相关联的同一用户说出。该方法进一步包括执行各自的动作以控制长期操作,各自的动作与与标识的激活的一个或多个热词的集合中的热词的一个相关联。
本公开的实现可以包括以下可选特征中的一个或多个。在一些实施方式,激活一个或多个热词的集合包括对于激活的一个或多个热词的集合中的每个对应的热词,激活各自的热词模型以在与用户相关联的助手启用设备上运行。在这些实施方式中,在附加音频数据中,标识来自激活的一个或多个热词集合中的一个包括,使用为对应的热词中的一个激活的各自的热词模型,检测附加音频数据中的热词中的一个,而不对附加音频数据执行语音识别。检测在附加音频数据中的热词中的一个可以包括:提取附加音频数据的音频特征;使用为对应的热词中的一个激活的各自的热词模型,通过处理所提取的音频特征生成热词置信度得分;当热词置信度得分满足热词置信度阈值时,确定附加话语的附加音频数据包括对应的热词中的一个。
在一些实施例中,激活一个或多个热词的集合包括在助手启用设备上执行语音识别器。语音识别器偏向于识别激活的一个或多个热词的集合中的一个或多个热词。在这些实施例中,在附加音频数据中,标识来自激活的一个或多个热词集合中热词中一个包括,使用在助手启用设备上实施的语音识别器来识别附加音频数据中的热词中的一个。
在一些实施方式,操作还包括,在接收到与用户说出的话语对应的音频数据之后,该方法还包括对音频数据执行说话者标识以标识说出话语的用户。说话者标识包括从与用户说出的话语对应的音频数据中提取表示用户说出的话语的特征的第一说话者辨别向量,并且确定提取的说话者辨别向量是否匹配任何登记的说话者向量,登记的说话者向量存储在助手启用设备上。每个登记的说话者向量与助手启用设备的不同的各自的登记的用户相关联。当第一说话者辨别向量匹配登记的说话者向量中的一个时,该方法包括将说出话语的用户标识为各自的登记的用户,各自的登记的用户与提取的说话者辨别向量的登记的说话者向量中的一个相关联。在这些实施方式中,由用户说出的话语还包括在用于使数字助手执行长期操作的指令之前的热门词;第一说话者辨别向量包括从具有热门词的音频数据的部分提取的文本依赖的说话者辨别向量;以及每个登记的说话者向量包括从说出热门词的各自的登记的用户的一个或多个音频样本中提取的文本依赖的登记的说话者向量。在另外的实施方式中,对附加音频数据执行说话者验证包括:从热词中的一个附加话语对应的附加音频数据中提取表示附加话语的特征的第二说话者辨别向量,以及确定提取的第二说话者辨别向量是否匹配用于识别为说出话语的用户的各自的登记的用户的参考说话者向量。这里,当提取的第二说话者辨别向量与参考说话者向量匹配时,该方法包括确定附加话语是由与激活的一个或多个热词的集合相关联的同一用户说出的。在这些实施方式中,参考说话者向量可以包括与各自的登记的用户相关联的登记的说话者向量。另外地或可选地,参考说话者向量包括从说出标识的热词中的一个的各自的登记的用户的一个或多个音频样本中提取的文本依赖说话者向量。
在一些实施例中,当第一说话者辨别向量与任何登记的说话者向量不匹配时,将说出话语的用户标识为助手启用设备的来宾用户,以及对附加音频数据执行说话者验证包括从附加音频数据中提取表示附加说话的特征的第二说话者辨别向量,以及确定第二说话者辨别向量是否与表示特征的第一说话者辨别向量匹配。在这些实施例中,该方法包括:当提取的第一说话者辨别向量和第二说话者辨别向量匹配时,确定附加话语是由与激活的一个或多个热词的集合相关联的同一用户说出的。在另外的实施方式中,当与激活的一个或多个热词的集合相关联的用户不同的用户说出另外的话语时,该方法包括通过数据处理硬件禁止各自的动作的执行,各自的动作的执行与用于控制长期操作的被识别热词中的一个相关联。
在一些实施例中,当附加话语由与激活的激活的一个或多个热词的集合相关联的用户不同的用户说出时,该方法包括提示与激活的激活的一个或多个热词的集合相关联的用户授权执行与标识的热词中的一个相关联的各自的动作以控制长期操作。该方法还包括在数据处理硬件处接收来自授权执行各自的动作的用户的回执,并且执行与标识的热词中的一个相关联的用于控制长期操作各自的动作。提示用户可以包括,标识说出附加话语的不同用户。在一些实施方式,该方法还包括:确定数字助手何时停止执行长期操作,以及去停用一个或多个热词的集合。
本公开的一个或多个实现的细节在附图和以下说明中阐述。其它方面的特征和优点在说明书和附图以及权利要求书中显而易见的。
附图说明
图1A-1C是包括用户的示例性系统的示意图,用户使用依赖于说话者的热词来控制长期操作。
图2是存储登记的用户数据的示例。
图3是在用户设备的屏幕上呈现的示例GUI。
图4A是说话者标识过程的示意图。
图4B是说话者验证过程的示意图。
图5是用于激活依赖于说话者的热词的方法的操作的示例性布置的流程图。
图6是可用于实现本文所述的系统和方法的示例性计算设备的示意图。
各种附图中的类似参考符号表示类似元件。
具体实施方式
用户与助手启用设备交互的方式被设计成主要借助于声音输入,如果不是专门的话。因此,启用助手设备必须有一些方法来识别周围环境中的任何给定话语是针对设备的,而不是针对环境中的个人或来自非人类来源(例如,电视或音乐播放器)。实现这一点的一种方式是使用热门词,通过在环境中的用户之间达成协议,将其保留为预先确定的词,以引起设备的注意。在示例环境中,用于调用助手注意力的热门词是单词“好的电脑”。因此,每当单词“好的电脑”被说出时,它被麦克风拾取,被传送到热门词检测器,热门词检测器执行语音理解技术以确定热门词是否被说出,并且如果是的话,等待随后的指令或查询。因此,针对助手启用设备的话语采用一般形式【热门词】【查询】,其中在该示例中的“热门词”是“好的电脑”,并且“查询”可以是任何问题、命令、声明或其他可以被系统语音识别、解析并采取行动的请求,可以单独使用,也可以通过网络与服务器一起使用。
在用户向诸如移动电话或智能扬声器的助手启用设备提供几个基于热门词的指令的情况下,用户与电话或扬声器的交互可能变得困难。用户可以说出“好的电脑,播放我的热门词播放列表”。电话或扬声器可以开始播放播放列表上的第一首歌曲。用户可能希望前进到下一首歌曲并说出好的电脑,下一个”。为了前进到另一首歌曲,用户可以再次说话,“接下来是计算机”。为了减轻在说出指令之前保持重复热门词的需要,可以将助手启用设备配置为识别/检测热短语或热词的狭窄集合,以直接触发对应的动作。在该示例中,热词“下一个”用作热门词和指令的双重目的,使得用户可以简单地说出“下一个”以调用助手启用设备来触发各自的动作的执行,而不是说出“下一个”。
激活的热词的集合用于控制长期的操作。如这里所使用的,长期操作是指数字助手在延长的持续时间内执行的应用程序或事件,以及可以在应用程序或事件进行中由用户控制的应用程序或事件。例如,当数字助手将定时器设置为30分钟时,定时器是从设置定时器的时间直到定时器结束为止的长期操作,或者在定时器结束之后确认所产生的警报。在这种情况下,诸如“停止定时器”的热词可以是激活,以允许用户通过简单地说出“停止定时器”来停止定时器,而不首先说出热词。同样,指示数字助手播放来自流音乐服务的音乐的指令是长期操作,而数字助手通过回放设备从流音乐服务流音乐。在这种情况下,激活的热词的集合可以是“暂停”、“暂停音乐”、“音量增大”、“音量减小”、“下一个”、“向前”等,用于控制数字助手正在通过回放设备流动的音乐的回放。长期操作可以包括多步对话查询,诸如“预订餐馆”,其中根据多步对话的给定阶段,不同组的热词将是激活。例如,数字助手105可以提示用户从餐馆列表中进行选择,由此激活热词的集合,每个热词包括用于从列表中选择餐馆的对应的标识符(例如,在列表中的餐馆名称或号码),并且完成为该餐馆预订的动作。
热词的一个挑战是限制同时激活单词/短语的数量,使得质量和效率不会降低。例如,指示何时辅助使能设备不正确地检测/识别激活词中的一个的错误肯定的数目大大增加了同时激活热词的数目。此外,播放指令发起长期操作的用户不能阻止他人说出用于控制长期操作的激活的热词。
本文的实施方式旨在激活与执行中的长期操作相关联的一个或多个热词的集合,热词依赖于对数字助手发出话语指令以执行长期操作的用户。也就是说,激活的热词与用户在用于控制长期操作的初始指令之后说出的高可能性相关联。这样,当数字助手执行用户指令的长期操作时,只有用户有授权说出任何激活热词以触发用于控制长期操作的各自的动作。也就是说,如果用户以外的人说出热词中的一个,则将禁止用于控制长期操作的各自的动作的执行,或者要求用户许可。换句话说,在流音频中捕获的热词的任何处理都限于用户的声音,该语音说出用于数字助手执行长期操作的初始指令。热词检测器和说话者标识可以在助手启用设备上运行,并且消耗低功率。
通过将激活热词与特定用户的声音相关联,使得热词依赖于说话者,在检测到热词时触发各自的动作的准确性被提高,因为只允许特定用户说出热词。此外,由于助手启用设备的唤醒并潜在地连接到服务器的次数减少,以及减少了错误肯定的次数,处理成本也得到了改善。此外,用户对数字助手的体验提高了,因为除非提供用户的明确许可,否则用户启动长期操作的执行的指令不能被其他人覆盖。
图1A和1B示出了示例性系统100、系统100a、系统100b,用于激活与用于控制长期操作的各自的动作相关联的热词,并将热词112与用户102相关联,用户102说出用于控制长期操作的初始指令。简而言之,并且如下面更详细描述的,助手启用设备104开始响应于由用户102说出的话语106“好的电脑,播放音乐”来播放音乐122。当助手启用设备104执行音乐122的长期操作作为来自扬声器18的回放音频时,助手启用设备104能够检测/识别由用户102说出的“下一个”的激活的热词112作为控制长期操作的动作,例如前进到与音乐122相关联的播放列表中的下一首歌曲的指令。
系统100a、系统100b包括执行数字助手105的助手启用设备(AED)104,用户102可以通过语音与数字助手105交互。在示例中,AED 104对应于智能扬声器。然而,AED 104可以包括其它计算设备,例如但不限于智能电话、平板电脑、智能显示器、桌面/膝上型电脑、智能手表、智能设备、耳机或车辆信息娱乐设备。AED 104包括数据处理硬件10和存储指令的存储器硬件12,指令在数据处理硬件10上执行时使数据处理硬件10执行操作。AED 104包括一个或多个麦克风16的阵列,麦克风16被配置成捕获声音,例如指向AED 104的说话。AED104还可以包括音频输出设备(例如,扬声器)18,或者与音频输出设备(例如,扬声器)18通信,音频输出设备18可以从数字助手105输出诸如音乐122的音频和/或合成语音。
图1A示出了用户102说出在AED 104附近的话语106“好的电脑,播放”。AED 104的麦克风16接收话语106并处理对应于话语106的音频数据402。音频数据402的初始处理可以包括对音频数据402进行滤波以及将音频数据402从模拟信号转换为数字信号。当AED 104处理音频数据402时,AED可将音频数据402存储在存储器硬件12的缓冲器中以用于附加处理。利用缓冲器中的音频数据402、音频数据AED 104可以使用热门词检测器108来检测音频数据402是否包括热门词。热门词检测器108被配置为识别包括在音频数据402中的热门词,而不对音频数据402执行语音识别。
在一些实施方式,热门词检测器108被配置为标识在话语106的初始部分中的热门词。在该示例中,如果热门词检测器108检测到音频数据402中作为热门词110的特征的声学特征,则热门词检测器108可以确定话语106“好的电脑,播放音乐”包括热门词110“好的电脑”。声学特征可以是梅尔频率(mel-frequency)倒谱系数(MFCC),它们是话语106的短期功率谱的表示,或者可以是话语106的梅尔标尺(mel-scale)滤波器组能量。例如,热门词检测器108可以基于从音频数据402生成MFCC并分类MFCC具有类似于存储在热门词检测器108的热门词模型中的热门词“好的电脑”特征的MFCC的MFCC,来检测话语106“好的电脑,播放音乐”包括热门词110“好的电脑”。作为另一个例子,热门词检测器108可以基于从音频数据402生成梅尔标尺滤波器组能量并分类梅尔标尺滤波器组能量包括梅尔标尺滤波器组能量来检测话语106“好的电脑,播放音乐”包括热门词110“好的电脑”,梅尔标尺滤波器组能量类似于作为热门词“好的”的特征的梅尔标尺滤波器组能量。如存储在热门词检测器108的热门词模型中的“计算机”。
当热门词检测器108确定对应于话语106的音频数据402包括热门词110时,AED104可以触发唤醒过程以启动对对应于话语106的音频数据402的语音识别。例如,在AED104上运行的语音识别器116可以对与话语106对应的音频数据402执行语音识别或语义解释。语音识别器116可以对音频数据402中在热区110之后的部分执行语音识别。在该示例中,语音识别器116可以识别指令118中的单词“播放音乐”。
在一些实施方式,语音识别器116位于除AED 104之外的服务器120上,或者代替AED 104。当热门词检测器108响应于检测到话语106中的热门词110而触发AED 104唤醒时,AED 104可以经由网络132将对应于话语106的音频数据402发送到服务器120。AED 104可以发送音频数据402的包括热门词110的部分,以便服务器120确认热门词110的存在。或者,AED 104可以仅将与热门词110之后的话语106的部分对应的音频数据402的部分传输到服务器120。服务器120执行语音识别器116以执行语音识别,并将音频数据402的转录返回给AED 104。接着,AED 104识别话语106中的单词,并且AED 104执行语义解释并识别任何语音指令。AED 104(和/或服务器120)可以标识用于数字助手105执行“播放音乐”的长期操作的指令。在所示的示例中,数字助手105开始执行播放音乐122作为来自AED 104的扬声器18的回放音频的长期操作。数字助手105可以从流服务(未示出)流送音乐122,或者数字助手105可以指示AED 104播放存储在AED 104上的音乐。
AED 104(和/或服务器120)可以包括操作标识符124和热词选择器126。操作标识符124可以被配置为标识数字助手105当前执行的一个或多个长期操作。对于数字助手105当前执行的每个长期操作,热词选择器126可以选择对应的一个或多个热词112的集合,每个热词112与用于控制长期操作的各自的动作相关联。在一些实施例中,热词选择器126访问将标识的长期操作与对应的一个或多个热词112的集合相关联的注册表或表(例如,存储在存储器硬件12上),对应的一个或多个热词112的集合与长期操作高度相关联。例如,如果长期操作对应于设置的定时器功能,则可由热词选择器126相关联激活的一个或多个热词112的集合包括用于指示数字助手105停止定时器的热词112“停止定时器”。类似地,对于“呼叫【联系人姓名】”的长期操作,关联的热词112的集合包括用于结束进行中的呼叫的“挂机”和/或“结束呼叫”热词112。在所示的示例中,对于播放音乐122的长期操作,可供热词选择器126激活的一个或多个热词112的相关联的集合包括热词112“下一个”、“暂停”、“向前”、“音量增大”和“音量减小”,每个热词与用于控制来自AED 104的扬声器18的音乐122的回放的各自的动作相关联。因此,热词选择器126激活这些热词112,同时数字助手105执行长期操作,并且一旦长期操作结束,就可以去激活这些热词112。类似地,不同的热词112可以根据进行中的长期操作的状态来激活/去激活。例如,如果用户说“暂停”以暂停音乐122的回放,则热词选择器126可以激活的热词112以“播放”来恢复音乐122的回放。在一些配置中,代替访问注册表,热词选择器126检查与长期操作的应用程序(例如,在AED 104的前景或背景中运行的音乐应用程序)相关联的代码,以识别应用程序的开发者希望用户102能够讲话以与应用程序和每个热词112的各自的动作交互的任何热词112。注册表中的热词112还可以涉及用户102(或典型用户)倾向于在给定查询(例如,好的电脑,下一个曲目(track)”)之后说出的后续查询。
在一些实现方式中,在激活与长期操作相关的一个或多个热词112的集合之后,在AED 104(或服务器120)上执行的关联器160将激活的一个或多个热词112的集合仅与用户102相关联,用户102仅用指令118来话语106,以便数字助手105执行长期操作。即,关联器160将激活的热词112的集合配置为依赖于提供初始指令118以启动长期操作的特定用户102的说出的声音。如将变得显而易见的,通过根据特定用户102的说出的声音来依赖激活的热词112的集合、AED 104(例如,经由数字助手105)将仅在特定用户102说出激活的热词时执行与激活的热词112中的一个激活热词相关联的各自的动作,从而在不同的说话者说出的热词112时禁止各自的动作的性能(或至少需要来自特定用户102的许可)。
为了使关联器160仅将激活的一个或多个热词112的集合与话语106发起指令118的用户102相关联,关联器160必须首先解析话语106的用户102的身份。在某些情况下,用户102被识别为被授权访问或控制AED 104和数字助手105的各种功能的AED 104的登记的用户200。AED 104可以具有多个不同的登记的用户200,每个登记的用户200具有指示关于AED104的功能的特定许可或权限的登记的用户的帐户。例如,AED 104可以在诸如具有多个家庭成员的家庭之类的多用户环境中操作,从而每个家庭成员对应于具有访问不同的对应的资源集合的权限的登记的用户200。为了说明,父亲说话的指令“播放我的音乐播放列表”将导致数字助手105从与父亲相关联的摇滚音乐播放列表流式传输音乐,这与由家庭的另一个登记的用户200(例如,其播放列表包括流行音乐的青少年)创建并与其相关联的不同音乐播放列表相反。
图2示出了存储针对AED 104的多个登记的用户200a-n中的每一个的登记的用户数据/信息的示例数据存储。这里,AED 104的每个登记的用户200可以进行话语出声音登记过程,以从登记的用户200说出的多个登记短语的音频采样中获得对应的登记的说话者向量154。例如,说话者辨别模型410(图4A和4B)可以从每个登记的用户200说出的登记短语的音频采样中生成一个或多个登记的说话者向量154,音频采样可以被组合(例如,平均或以其他方式累积)以形成对应的登记的说话者向量154。一个或多个登记的用户200可以使用AED 104来进行声音登记过程,其中麦克风16捕获这些用户说出登记话语的音频样本,并且说话者辨别模型410从那里生成对应的登记的说话者向量154。模型410可以在AED 104,服务器120或其组合上执行。另外,一个或多个登记的用户200可以通过向AED 104的现有用户帐户提供授权和认证凭证来向AED 104登记。这里,现有用户帐户可以存储从具有也链接到用户帐户的另一设备的先前声音登记过程获得的登记的说话者向量154。
在一些实施例中,登记的用户200的登记的说话者向量154包括文本依赖的登记的说话者向量。例如,可以从对应的登记的用户200的一个或多个音频采样中提取文本依赖的登记的说话者向量,音频采样说出预定的项,诸如用于调用AED 104以从睡眠状态唤醒的热门词110(例如,“好的计算机”)。在其它示例中,登记的用户200的登记的说话者向量154是从具有不同词语/单词和不同长度的对应的登记的用户200的说话短语的一个或多个音频样本获得的独立于文本的。在这些实施例中,可以随时间从用户102与AED 104或链接到同一帐户的其它设备进行语音交互而获得的音频采样中获得与文本无关的登记的说话者向量。
图2还示出了AED 104(和/或服务器120),其可选地存储一个或多个其他的文本依赖的说话者向量158,每个都是从对应的登记的用户200的一个或多个音频采样中提取的,该登记的用户200说出了特定的词语或短语。例如,登记的用户200a可以包括用于一个或多个热词112中的每一个的对应的文本依赖说话者向量158,当热词112被激活时,可以被说出以使得AED 104执行用于控制长期操作的各自的动作或者执行一些其它指令。因此,对应的登记的用户200的文本依赖说话者向量158表示说出特定热词112的对应的登记的用户200的语音特征。下面参考图4B更详细地描述,为与特定热词112相关联的各个登记的用户200存储的文本依赖说话者向量158可以用于验证说出特定热词112的各个登记的用户200,以指令AED 104执行用于控制长期操作的动作。
参照图4A,在一些实施例中,关联器160通过执行说话者标识过程400a来解析话语106的用户102的身份。说话者标识过程400a可以在AED 104的数据处理硬件12上执行。过程400a还可以在服务器120上执行。说话者标识过程400a通过首先从与用户102说出的话语106对应的音频数据402中提取表示话语106的特征的第一说话者辨别向量411来识别说出的话语106的用户102。这里,说话者标识过程400a可以执行说话者辨别模型410,该模型被配置为接收音频数据402作为输入,并生成第一说话者辨别向量411作为输出。说话者辨别模型410可以是在机器或人类监督下训练以输出说话者辨别向量411的神经网络模型。由说话者辨别模型410输出的说话者辨别向量411可以包括N维向量,该N维向量具有对应于与用户102相关联的话语106的语音特征的值。在一些实例中,说话者辨别向量411是d向量。在一些实施例中,第一说话者辨别向量411包括一组说话者辨别向量,每个都与也被授权说出激活的热词的集合的不同用户相关联。例如,除了话语106的用户102之外,其他授权用户可以包括当用户话语106说出长期操作时出现的其他个人和/或用户102添加/指定为授权的个人。
一旦从模型410输出第一说话者辨别向量411,说话者标识过程400a确定所提取的说话者辨别向量411是否与针对AED 104的登记的用户200a-n(图2)而存储在AED 104(例如,在存储器硬件12中)上的登记的说话者向量154中的任何一个相匹配。如上参考图2,说话者识别模型410可以在声音登记过程期间为登记的用户200生成登记的说话者向量154。每个登记的说话者向量154可以用作与表示各自的登记的用户200的声音特征的声纹或唯一标识符对应的参考向量。
在一些实施方式中,说话者标识过程400a使用比较器420,比较器420将第一说话者辨别向量411与与AED 104的每个登记的用户200a-n相关联的对应的登记的说话者向量154进行比较。这里,比较器420可以为每个比较生成一个得分,该得分指示话语106对应于各自的登记的用户200的身份的可能性,并且当该得分满足阈值时,该身份被接受。当得分不满足阈值时,比较器可以拒绝身份。在一些实施方式,比较器420计算第一说话者辨别向量411和每个登记的说话者向量154之间的对应的余弦距离,并且当对应的余弦距离满足余弦距离阈值时,确定第一说话者辨别向量411与登记的说话者向量154中的一个相匹配。
在一些实施例中,第一说话者辨别向量411是从包括热门词110的音频数据的一部分中提取的依赖于文本的说话者辨别向量,并且每个登记的说话者向量154也依赖于同一的热门词110。使用文本依赖的说话者向量可以提高确定第一说话者辨别向量411是否与任何登记的说话者向量154匹配的精确度。在其它示例中,第一说话者辨别向量411是从包括热门词110和指令118两者的整个音频数据或从包括指令118的音频数据的部分提取的与文本无关的说话者辨别向量。
当说话者标识过程400a确定第一说话者辨别向量411与所登记的说话者向量154中的一个匹配时,过程400a将话语106的用户102识别为与所登记的说话者向量154中与所提取的说话者辨别向量411匹配的一个相关联的各自的登记的用户200。在所示的示例中,比较器420基于第一说话者辨别向量411和与第一登记的用户200a相关联的登记的说话者向量154之间的满足余弦距离阈值的对应的余弦距离来确定匹配。在一些情况下,比较器420将用户102识别为与登记的说话者向量154相关联的对应的第一登记的用户200a,登记的说话者向量154具有与第一说话者辨别向量411最短的对应的余弦距离,只要该最短的对应的余弦距离也满足余弦距离阈值。
相反,当说话者标识过程400a确定第一说话者辨别向量411与任何登记的说话者向量154不匹配时,过程400a可以将说话106的用户102标识为AED 104的来宾用户。因此,关联器160可以将激活的一个或多个热词112的集合与来宾用户相关联,并且使用第一说话者辨别向量411作为表示来宾用户的声音的语音特征的参考说话者向量。在一些情况下,来宾用户可以向AED 104登记,并且AED 104可以存储第一说话者辨别向量411作为新登记的用户的对应的登记的说话者向量154。
在图1A所示的示例中,关联器160将激活的一个或多个热词112的集合与名为巴布尔(Barb)的第一登记的用户200a关联。在一些实施例中,AED 104通知与激活的一个或多个热词112的集合相关联的标识的用户102(例如,巴布尔)热词112是激活,并且用户102可以说出任何热词112以指示AED 104执行用于控制长期操作的各自的动作。例如,数字助手105可以生成合成语音123,用于来自AED 104的扬声器18的可听输出,其声明“巴布尔,你可以说音乐回放控制而无需说“好的电脑”。在另外的示例中,数字助手105可以向用户设备50(例如,智能电话)提供通知,该用户设备50被链接回标识的用户的用户帐户,以向标识的用户102(例如,巴布尔)通知当前哪些是激活用于控制长期操作的热词112。
在用户设备50上执行的图形用户界面(GUI)300(图3)可以显示激活的热词112和用于控制长期操作的相关的各自的动作。每个热词本身可以用作标识各自的动作的描述符。图3提供了显示在用户设备50的屏幕上的示例GUI 300,以通知用户102哪些热词112是激活,以便用户102说出控制长期操作的操作,以及哪些热词113是不激活,从而当用户102说出时不可用于控制长期操作的操作。具体而言,GUI 300使激活的热词112“下一个”、“暂停”、“向前”、“音量增大”和“音量减小”以及停用热词113“播放”。如果用户102要暂停音乐的回放,则“播放”的热词可以变成激活的热词112,而“暂停”的热词可以变成停用热词113。每个热词112与用于控制来自AED 104的扬声器18的音乐122的回放的各自的动作相关联。
另外,GUI 300可以呈现用于显示长期操作的标识符(例如,“播放曲目1”)、当前执行长期操作的AED 104(例如,智能扬声器)的标识符和/或启动长期操作的激活用户102(例如,巴布尔)的身份。在一些实施方式,激活(active)用户102的身份包括激活用户102的图像304。因此,通过识别激活用户102和激活的热词112、GUI 300将激活用户102显示为长期操作的“控制器”,该控制器可以说出在GUI 300中显示的激活的热词112中的任何一个以执行用于控制长期操作的各自的动作。如上所述,激活的热词112的集合取决于巴布尔102的说出的声音,因为巴布尔102播下了初始指令118“播放音乐”,以启动长期操作。通过根据巴布尔102的说出的声音,AED 104(例如,经由数字助手105)将仅在巴布尔102说出的激活的热词112时执行与激活的热词112中的一个相关联的各自的动作,并且在不同的说话者说出的激活的热词112时将禁止各自的动作的性能(或至少需要来自巴布尔102的许可)。
用户设备50还可以呈现用于在GUI 300中显示的图形元素302,用于执行与各个激活的热词112相关联的各个动作,以从AED 104的扬声器18回放音乐122。在所示的示例中,图形元素302与用于播放音乐122的长期操作的回放控制相关联,回放控制在被选择时使设备50执行对应的动作。例如,图形元素302可以包括回放控制,用于执行与热词112“下一个”相关联的动作,执行与热词112“暂停”相关联的动作,执行与热词112“上一个”相关联的动作,执行与热词112“上一个”相关联的动作,以及执行与热词112“下一个”相关联的动作。GUI 300可以经由触摸、语音、手势、凝视和/或输入设备(例如鼠标或样式表)中的任何一个接收用户输入指示,以控制来自AED 104的扬声器18的音乐122的回放。例如,用户102可以提供指示选择“下一个”控件的用户输入指示(例如,通过触摸GUI 300中普遍表示“下一个”的图形按钮),以使AED 104执行前进到与音乐122相关联的播放列表中的下一首歌曲的动作。
返回参考图1A和1B,由热词选择器126激活的热词112的集合使得AED 104为激活的一个或多个热词112的集合中的每个对应的热词112激活对应的热词模型114以运行AED104。这里,热词模型114可以存储在AED 104的存储器硬件12上或服务器120上。如果存储在服务器上,则AED 104可以请求服务器120检索对应的热词112的热词模型114,并提供检索到的热词模型114,使得AED 104可以激活热词模型114。如下面将更详细描述的,在AED 104上运行的激活热词模型114可以检测AED 104所捕获的流音频中的对应的激活的热词112的话语146,而不对所捕获的音频执行语音识别。此外,单个热词模型114能够检测流音频中的所有激活的热词112。因此,热词模型114可以检测一组激活热词,并且不同的热词模型114可以检测一组不同的激活热词。
在另外的实施方式中,由热词选择器126激活的热词112的集合使得AED 104在低功率和低保真状态下在AED 104上执行语音识别器116。这里,语音识别器116被约束或偏置为仅识别当在由AED 104捕获的话语中说话时激活的一个或多个热词112。由于语音识别器116仅识别有限数量的项/短语,因此语音识别器116的参数数量可以大大减少,从而减少了识别语音中的激活热词所需的存储器需求和计算数量。因此,语音识别器116的低功率和低保真特性可以适于在数字信号处理器(DSP)上执行。在这些实施方式中,在AED 104上执行的语音识别器116可以识别由AED 104捕获的流音频中的激活的热词112的话语146,以代替使用热词模型114。
参照图1B,当数字助手105执行播放音乐122的长期操作时,用户102说出话语146,该话语146包括来自激活的一个或多个热词112的集合的热词112中的一个。在所示的例子中,用户102说出激活的热词112“下一个”。在不对所捕获的音频执行语音识别的情况下,AED 104可以应用为激活的一个或多个热词112的集合激活的热词模型114来识别话语146是否包括任何激活的热词112。激活的热词112可以是“下一个”、“暂停”、“向前”、“音量增大”和“音量减小”。AED 104将对应于话语146的音频数据与对应于激活的热词112“下一个”、“暂停”、“向前”、“音量增大”和“音量减小”的激活的热词模型114进行比较,并且确定为热词112激活的热词模型114“下一个”检测话语146中的热词112“下一个”,而不对音频数据执行语音识别。基于识别对应于前进到下一首歌曲的指令的“下一首”热词112、AED 104对对应于话语146的音频数据执行说话者验证过程400b,以确定话语146是否由与激活的一个或多个热词112的集合相关联的同一用户102说出。如果对应于话语146的音频数据的话语验证过程400b指示话语146由与激活的激活的一个或多个热词112的集合相关联的同一用户102说出,则AED 104可以继续执行与识别的热词112相关联的各自的动作,以控制长期操作。相反,如果对应于话语146的音频数据的话语验证过程400b指示话语146不是由与激活的一个或多个热词112的集合相关联的同一用户102话语,则当热词112由不同的说话者话语时,AED 104可以禁止各自的动作的执行(或至少需要来自特定用户102的许可(例如,在图1C中))。
在一些实施方式中,AED 104识别不在激活的一个或多个热词112的集合中但其模型仍存储在热词模型114中的热词112。在这种情况下,AED 104可以向用户设备50提供指示,以在GUI 300中显示热词不在激活的一个或多个热词112的集合中(例如,不活动)。例如,当音乐122正在播放时,用户102可以说出“播放”。AED 104可以识别热词112“播放”。因为热词112“播放”不在激活的一个或多个热词112的合中,所以AED 104不执行动作。然而,用户设备50可以在GUI 300中显示热词“播放”是不激活热词113的指示,并且指示激活的热词112是“下一个”、“暂停”、“向前”、“音量增大”和“音量减小”。
通过提取与话语146相关联的音频数据的音频特征,热词模型114可以检测到相关联的话语146包括来自激活的一个或多个热词112的集合中热词112的一个。每个激活的热词模型114都可以通过处理提取的音频特征并且将对应的得分热词置信度得分与热词置信度阈值进行比较来生成对应的得分热词置信度得分。例如,热词模型114可以共同地为每个激活的热词112“播放”、“下一个”、“暂停”、“向前”、“音量增大”和“音量减小”生成对应的得分热词置信度得分。在一些实施方式,语音识别器116为与话语146相关联的经处理的音频数据的每一部分生成得分热词置信度得分。如果热词置信度得分满足阈值,则热词模型114确定对应于话语146的音频数据包括激活的一个或多个热词112的集合中的热词112。例如,如果由热词模型114(或语音识别器116)生成的得分热词置信度得分是0.9,并且热词置信度阈值是0.8,则AED 104确定与话语146对应的音频数据包括热词112。
在一些实施方式,如果热词置信度得分在阈值以下的范围内,则数字助手105可以生成用于来自AED 104的扬声器18的可听输出的合成语音123,其请求用户102确认或重复热词112。在这些实施方式中,如果用户102确认用户102话语热词112,则AED可以使用音频数据来更新各自的热词模型114。
参照图4B,响应于识别出与附加话语146对应的附加音频数据402包括来自激活的热词112的集合的热词112中的一个,关联器160通过执行说话者验证过程400b来解析话语146的用户102的身份。说话者验证过程400b可以在AED 104的数据处理硬件12上执行。过程400b也可以在服务器120上执行,而不是在AED 104上执行,或者与AED 104上执行相结合。说话者验证过程400b通过首先从与用户102说出的话语146对应的音频数据402中提取表示话语146的特征的第二说话者辨别向量412来识别说出的话语146的用户102。这里,说话者验证过程400b可以执行说话者辨别模型410,该模型被配置为接收音频数据402作为输入,并生成第二说话者辨别向量412作为输出。如以上在图4A中所讨论的,说话者辨别模型410可以是在机器或人类监督下训练以输出说话者辨别向量412的神经网络模型。由说话者辨别模型410输出的第二说话者辨别向量412可以包括N维向量,其具有对应于与用户102相关联的话语146的语音特征的值。在一些实施例中,说话者辨别向量412是d向量。
一旦第二说话者辨别向量412从说话者辨别器模型410输出,说话者验证过程400b就确定所提取的说话者辨别向量412是否匹配与存储在AED 104(例如,在存储器硬件12中)上的第一登记的用户200a相关联的参考说话者向量155。与第一登记的用户200a相关联的参考说话者向量155可以包括与第一登记的用户200a相关联的对应的登记的说话者向量154。在其它示例中,参考说话者向量155包括从各自的登记的用户200a的一个或多个音频采样中提取的文本依赖说话者向量158,音频采样说出在对应于话语146的附加音频数据402中标识的激活的热词112。
如上参考图2所述,说话者识别模型410可以在声音登记过程期间为登记的用户200生成登记的说话者向量154。每个登记的说话者向量154可以用作与表示各自的登记的用户200的声音特征的声纹或唯一标识符对应的参考向量。另外,在登记期间,登记的用户200a可以训练一个或多个热词112中的每一个的依赖于文本的说话者向量158,该向量158在激活时可以被说成使AED 104执行用于控制长期操作的各自的动作或者执行一些其它指令。例如,登记的用户200a的文本依赖说话者向量158表示登记的用户200a的语音特性,说出对应的“播放”、“暂停”、“下一个”、“向前”、“音量增大”和“音量减小”的热词112。
在一些实施方式,说话者验证过程400b使用比较器420,比较器420将第二说话者辨别向量412与与登记的用户200的第一登记的用户200a相关联的参考说话者向量155进行比较。这里,比较器420可以生成用于比较的得分,该得分指示话语146对应于第一登记的用户200a的身份的可能性,并且当该得分满足阈值时,该身份被接受。当得分不满足阈值时,比较器420可以拒绝身份。在一些实施方式,比较器420计算第二说话者辨别向量412和与第一登记的用户200a相关联的参考说话者向量155之间的对应的余弦距离,并且当对应的余弦距离满足余弦距离阈值时,确定第二说话者辨别向量与参考说话者向量155相匹配。
当说话者验证过程400b确定第二说话者辨别向量412匹配与第一登记的用户200a相关联的参考说话者向量155时,过程400b将话语146的用户102识别为与参考说话者向量155相关联的第一登记的用户200a。在所示的示例中,比较器420基于第二说话者辨别向量412和与第一登记的用户200a相关联的参考说话者向量155之间满足余弦距离阈值的对应的余弦距离来确定匹配。在一些情况下,比较器420将用户102识别为与参考说话者向量155相关联的对应的第一登记的用户200a,参考说话者向量155具有与第二说话者辨别向量412最短的对应的余弦距离,只要该最短的对应的余弦距离也满足余弦距离阈值。
参考上面的图4A,在一些实施方式,说话者标识过程400a确定第一说话者辨别向量411与任何登记的说话者向量154不匹配,并且将说话106的用户102识别为AED 104的来宾用户,并且将激活的一个或多个热词112的集合与用户102相关联。因此,说话者验证过程400b可以首先确定说话者标识过程400a是否将话语106的用户102识别为登记的用户200或来宾用户。当用户102是来宾用户时,比较器420将第二说话者辨别向量412与在说话者标识过程400a期间获得的第一说话者辨别向量411进行比较。这里,第一说话者辨别向量411表示由来宾用户102说出的话语106的特征,并且因此被用作参考向量以验证话语146是否由来宾用户102或另一用户说出。这里,比较器420可以生成用于比较的得分,该得分指示话语146对应于来宾用户102的身份的可能性,并且当该得分满足阈值时,该身份被接受。当得分不满足阈值时,比较器420可以拒绝话语146的来宾用户的身份。在一些实施方式,比较器420计算第一说话者辨别向量411和第二说话者辨别向量412之间的对应的余弦距离,并且当对应的余弦距离满足余弦距离阈值时,确定第一说话者辨别向量411与第二说话者辨别向量412相匹配。
回到图1B,当说话者验证过程400b验证话语146的说话者时,AED 104(例如,经由数字助手105)将仅继续执行前进到与激活的热词112“下一个”相关联的下一个歌曲/曲目的各自的动作。换句话说,在对应于附加话语146的附加音频402中检测到单词112“下一个”之后,AED必须在执行与检测到的热词112“下一个”相关联的各自的动作之前,验证附加话语146是由与激活的一个或多个热词的集合相关联的同一用户102说出的,其中“下一个”是前进到与音乐122相关联的播放列表中的下一首歌曲。如果说话者验证过程400b不能验证说话者106的同一说话者说出了附加话语146,则当不同的说话者说出了热词112“下一个”时,AED将禁止各自的动作的性能(或至少需要来自用户102的许可)。
现在参考图1C,另一个示例性系统100c示出了另一个用户103说出话语147,该话语147包括在数字助手105执行播放音乐122的长期操作时来自激活的一个或多个热词112的集合的激活的热词112“停止”。在不对与话语147对应的音频数据执行语音识别的情况下,AED 104可以将音频数据与为激活的一个或多个热词112的集合激活的热词模型114进行比较,以识别话语147是否包括任何激活的热词112。激活的热词112可以包括“播放”、“下一个”、“停止”、“后退”、“音量上升”和“音量下降”。在所示的例子中,AED 104确定为热词112激活的热词模型114“停止”检测话语147中的热词112“停止”,而不对音频数据402执行语音识别。基于识别热词112“停止”,AED 104对与话语147对应的音频数据执行说话者验证过程400b,以确定话语147是否由与激活的一个或多个热词112的集合相关联的同一用户102(例如,巴布尔)说出。
在所示的例子中,对与话语147对应的音频数据402执行说话者验证过程400b指示话语147没有被巴布尔102说出。例如,图4B的说话者验证过程400b的辨别说话者向量模型410可以生成表示话语147的特征的第二说话者辨别向量412,并且比较器420可以确定第二说话者辨别向量412不匹配与第一登记的用户200a(例如,巴布尔)相关联的参考说话者向量155。因此,说话者验证过程400b确定与激活的一个或多个热词112的集合相关联的用户102(例如,巴布尔)不同的用户103说话147。在一些实现方式中,AED 104禁止与识别的热词112相关联的各自的动作的执行“停止”,以用于在不同用户103说话时控制播放音乐122的长期操作。在其它实施方式中,响应于验证过程400b确定话语147是由除巴布尔102之外的某人说出的,AED 104向巴布尔102请求许可以执行与标识的热词112“停止”相关联的各自的动作。在一个示例中,数字助手105通过生成用于来自AED 104的扬声器18的可听输出的合成语音123来从巴布尔102请求许可,该语音123提示巴布尔102授权或拒绝执行与热词112相关联的各自的动作“停止”。例如,数字助手105可以为来自AED 104的扬声器18的可听输出生成合成语音123,其询问“巴布尔,采取停止播放歌曲的动作请求,你接受吗?”作为响应,巴布尔112说出包括回执119的话语148。用户102的回执119可以是“是”以授权各自的动作的执行,或者是“否”以拒绝各自的动作的执行。
在所示的示例中,巴布尔102说出回执119“是”,其对应于授权执行与热词112“停止”相关联的各自的动作。在一些实施方式,AED 104还对与话语148对应的音频数据执行说话者验证过程400b,以验证回执119是由与激活的一个或多个热词112的集合相关联的授权用户102(例如,巴布尔)说出的。基于从巴布尔102接收到授权执行各自的动作“停止”的回执119“是”,以及对与话语148对应的音频数据执行的指示话语148由巴布尔102说出的说话者验证过程400b,AED 104可以继续执行与不同用户103说出的识别的热词“停止”112相关联的各自的动作,以控制长期操作。相反,当对应于话语148的音频数据执行的说话者验证过程400b指示话语148未被巴布尔102说出时,或者当巴布尔102说出的回执119改为“否”时,AED 104可以禁止各自的动作的执行“停止”,使得来自AED 104的音乐播放122继续而不停止。
附加地或替代地,数字助手105可以向链接到巴布尔102的用户帐户的用户设备50提供通知,该通知提示巴布尔102授权或拒绝执行与热词112相关联的各自的动作“停止”。例如,显示在用户设备50上的GUI 300可以呈现该提示作为通知,以允许巴布尔102授权或拒绝执行与热词112相关联的各自的动作“停止”。在一个示例中,GUI 300呈现巴布尔102可选择的图形元素/按钮,以授权或拒绝各自的动作的执行。例如,巴布尔102可以提供用户输入指示,该用户输入指示以指示选择回执119“是”的图形元素/按钮(例如,通过触摸GUI300中“是”的图形元素),该用户输入指示对应于授权执行与热词112“停止”相关联的各自的动作。响应于接收到指示由巴布尔102选择用于回执119“是”的图形元素/按钮的用户输入指示,AED 104可以继续执行与由不同用户103说出的用于控制长期操作的识别的热词“停止”112相关联的各自的动作。相反,巴布尔102可以提供用户输入指示,该用户输入指示以指示选择用于回执119“否”的图形元素/按钮(例如,通过在GUI 300中触摸用于“否”的图形元素),以拒绝与热词112“停止”相关联的各自的动作的执行,从而使得AED 104禁止各自的动作的执行。
在一些实施方式,识别哪个用户102,用户103说出的话语147可以帮助巴布尔102确定是授权还是拒绝该动作(例如,当一个或多个用户102存在于具有巴布尔102的房间中时)。继续图1C中所示的示例,提示巴布尔102授权或拒绝执行与热词112“停止”相关联的各自的动作进一步包括识别话语147的不同用户103。这里,当AED 104对与话语147对应的音频数据402执行说话者验证过程400b时,说话者验证过程400b可以将用户103标识为第二登记的用户200b(例如,Ed)。例如,过程400b可以确定表示由用户103说出的话语147的特征的说话者辨别向量412与针对第二登记的用户200b存储在AED 104上的对应的登记的说话者向量154相匹配。因此,当用户103被识别为登记的用户200中的一个时,数字助手105可以类似地生成用于来自AED 104的扬声器18的可听输出的合成语音123,其提示用户102“巴布尔,你是否授权Ed的请求停止音乐?是否授权Ed控制音乐回放设置?”作为响应,巴布尔102说出包括回执119“是”的话语148。在一些实施方式,巴布尔102授权Ed 103的请求停止播放音乐122,但是拒绝Ed 103对长期操作的将来控制。巴布尔102还可以具有授权Ed 102在预定时间段(例如,一小时、一天等)内控制长期操作的能力。
图5是用于与长期操作相关联的激活的一个或多个热词112的集合的方法500的操作的示例性布置的流程图。在操作510,方法500包括在数据处理硬件10处接收与用户102说出的并且由与用户102相关联的助手启用设备(AED)104捕获的话语106对应的音频数据402。话语106包括用于数字助手105执行长期操作的指令。长期操作可以包括将定时器设置为指定的时间量,或者从流服务播放音乐。AED 104可以通过执行说话者标识过程400a来标识话语106的用户102。
在操作520处,方法500包括,在接收到与话语106对应的音频数据402之后,由数据处理硬件10激活一个或多个热词112的集合,并由数据处理硬件10将激活的一个或多个热词112的集合仅与话语106的用户102相关联。一个或多个热词112的集合中的每个热词112与用于控制长期操作的各自的动作相关联。例如,用于播放音乐122作为来自AED 104的扬声器18的回放音频的长期操作的各自的动作可以包括回复到播放列表中的前一首歌曲、播放音乐播放列表、暂停音乐播放列表、跳到播放列表中的下一首歌曲以及调整扬声器18的音量级中的一个或多个。
在操作530处,方法500还包括,当数字助手105执行长期操作时,在数据处理硬件10处接收与AED 104捕获的附加话语146对应的附加音频数据402。AED 104由数据处理硬件10在附加音频数据402中从激活的一个或多个热词112的集合中识别一个热词112。AED 104可以标识来自激活的一个或多个热词112的集合的热词112中的一个在附加音频数据402中,而不对所捕获的音频执行语音识别。例如,AED 104可以将对应于话语106的音频数据402与对应于激活的一个或多个热词112的集合的激活的热词模型114进行比较。
在操作540处,方法500还包括由数据处理硬件10对附加音频数据402执行说话者验证400b,以确定附加话语146是否由与激活的一个或多个热词112的集合相关联的同一用户102说出。当附加话语146由与激活的一个或多个热词112的集合相关联的同一用户102说出时,方法500包括由数据处理硬件10执行与识别出的一个热词112相关联的各自的动作,用于控制长期操作。当说话者验证400指示附加话语146未被与激活的一个或多个热词112的集合相关联的同一用户102说出时,AED 104可以禁止各自的动作的执行。
图6是可用于实现本文档中描述的系统和方法的示例计算设备600的示意图。计算设备600旨在表示各种形式的数字计算机,例如膝上型计算机,台式计算机,工作站,个人数字助手,服务器,刀片服务器,大型机和其它适当的计算机。这里所示的组件,它们的连接和关系以及它们的功能仅仅是示例性的,而不是要限制在本文件中描述和/或要求保护的本发明的实现。
计算设备600包括处理器610、存储器620、存储设备630、连接到存储器620和高速扩展端口650的高速接口/控制器640,以及连接到低速总线670和存储设备630的低速接口/控制器660。组件610、组件620、组件630、组件640、组件650和组件660中的每一个使用各种总线互连,并且可以适当地安装在公共母板上或以其它方式安装。处理器610可以处理用于在计算设备600内执行的指令,包括存储在存储器620中或存储设备630上的指令,以在外部输入/输出设备(例如耦合到高速接口640的显示器680)上显示图形用户界面(GUI)的图形信息。在其它实施方式中,可以适当地使用多个处理器和/或多个总线以及多个存储器和存储器类型。此外,可以连接多个计算设备600,其中每个设备提供必要操作的部分(例如,作为服务器库,一组刀片服务器,或多处理器系统)。
存储器620在计算设备600内非瞬时地存储信息。存储器620可以是计算机可读介质,易失性存储器单元或非易失性存储器单元。非暂时性存储器620可以是用于临时或永久地存储由计算设备600使用的程序(例如,指令序列)或数据(例如,程序状态信息)的物理设备。非易失性存储器的实例包括(但不限于)快闪存储器和只读存储器(ROM)/可编程只读存储器(PROM)/可擦除可编程只读存储器(EPROM)/电可擦除可编程只读存储器(EEPROM)(例如,通常用于固件,例如引导程序)。易失性存储器的示例包括但不限于随机存取存储器(RAM),动态随机存取存储器(DRAM),静态随机存取存储器(SRAM),相变存储器(PCM)以及磁盘或磁带。
存储设备630能够为计算设备600提供大容量存储。在一些实施方式,存储设备630是计算机可读介质。在各种不同的实施方式中,存储设备630可以是软盘设备、硬盘设备、光盘设备、或磁带设备、闪存或其它类似的固态存储器设备,或设备阵列,包括存储区域网络中的设备或其它配置。在另外的实施方式中,计算机程序产品被有形地包含在信息载体中。计算机程序产品包含指令,指令在被执行时执行一个或多个方法,例如上述的那些方法。信息载体是计算机或机器可读介质,例如存储器620、存储设备630或处理器610上的存储器。
高速控制器640管理计算设备600的带宽密集操作,而低速控制器660管理较低的带宽密集操作。这种职责的分配仅是示例性的。在一些实施方式,高速控制器640耦合到存储器620,显示器680(例如,通过图形处理器或加速器)以及高速扩展端口650,高速扩展端口650可以接受各种扩展卡(未示出)。在一些实施方式,低速控制器660耦合到存储设备630和低速扩展端口690。可以包括各种通信端口(例如,USB、蓝牙、以太网、无线以太网)的低速扩展端口690可以例如通过网络适配器耦合到一个或多个输入/输出设备,例如键盘、定点设备、扫描仪,或联网设备,例如交换机或路由器。
计算设备600可以以多种不同的形式实现,如图所示。例如,它可以被实现为标准服务器600a或者在一组这样的服务器600a中多次实现为膝上型计算机600b,或者实现为机架服务器系统600c的一部分。
在此描述的系统和技术的各种实现可以在数字电子和/或光学电路,集成电路,专门设计的ASIC(专用集成电路),计算机硬件,固件,软件和/或其组合中实现。这些各种实现可以包括在可编程系统上可执行和/或可解释的一个或多个计算机程序中的实现,可编程系统包括至少一个可编程处理器,可编程处理器可以是专用的或通用的,被耦合以从存储系统,至少一个输入设备和至少一个输出设备接收数据和指令,以及向存储系统,至少一个输入设备和至少一个输出设备发送数据和指令。
软件应用(即,软件资源)可以指使计算设备执行任务的计算机软件。在一些实例中,软件应用程序可被称为“应用程序”、“应用程序”或“程序”。示例应用包括但不限于系统诊断应用、系统管理应用、系统维护应用、字处理应用、电子表格应用、消息传递应用、媒体流应用、社交网络应用和游戏应用。
这些计算机程序(也称为程序,软件,软件应用或代码)包括用于可编程处理器的机器指令,并且可以用高级过程和/或面向对象的编程语言和/或用汇编/机器语言来实现。如本文所用,术语“机器可读介质”和“计算机可读介质”是指用于向可编程处理器提供机器指令和/或数据的任何计算机程序产品,非暂时性计算机可读介质,设备和/或设备(例如,磁盘、光盘、存储器、可编程逻辑设备(PLD)),包括接收机器指令作为机器可读信号的机器可读介质。术语“机器可读信号”是指用于向可编程处理器提供机器指令和/或数据的任何信号。
本说明书中描述的过程和逻辑流程可以由一个或多个可编程处理器(也称为数据处理硬件)执行,执行一个或多个计算机程序以通过对输入数据进行操作并生成输出来执行功能。过程和逻辑流程也可以由专用逻辑电路执行,例如FPGA(现场可编程门阵列)或ASIC(专用集成电路)。例如,适于执行计算机程序的处理器包括通用和专用微处理器,以及任何类型的数字计算机的任何一个或多个处理器。通常,处理器将从只读存储器或随机存取存储器或两者接收指令和数据。计算机的基本元件是用于执行指令的处理器和用于存储指令和数据的一个或多个存储器设备。通常,计算机还将包括或被可操作地耦合以从一个或多个大容量存储设备接收数据或向一个或多个大容量存储设备传送数据,大容量存储设备用于存储数据,例如磁盘、磁光盘或光盘。然而,计算机不必具有这样的设备。适于存储计算机程序指令和数据的计算机可读介质包括所有形式的非易失性存储器,介质和存储器设备,包括例如半导体存储器设备,例如EPROM、EEPROM和闪存设备、磁盘,例如内部硬盘或可移动磁盘、磁光盘、CDROM和DVD-ROM盘。处理器和存储器可以由专用逻辑电路补充或结合在专用逻辑电路中。
为了提供与用户的交互,本公开的一个或多个方面可以在具有显示设备的计算机上实现,显示设备例如CRT(阴极射线管),LCD(液晶显示器)监视器,或者用于向用户显示信息的触摸屏,并且可选地还具有键盘和定点设备,例如鼠标或轨迹球,通过定点设备用户可以向计算机提供输入。也可以使用其他类型的设备来提供与用户的交互;例如,提供给用户的反馈可以是任何形式的感觉反馈,例如视觉反馈、听觉反馈或触觉反馈;并且可以以任何形式接收来自用户的输入,包括声音、语音或触觉输入。此外,计算机可以通过向用户使用的设备发送文档和从用户使用的设备接收文档来与用户交互;例如,通过响应于从web浏览器接收的请求向用户的客户端设备上的web浏览器发送网页。
已经描述了多种实现方式。然而,应当理解,在不脱离本公开的精神和范围的情况下,可以进行各种修改。因此,其它实施方式也在所附权利要求的范围内。
Claims (28)
1.一种用于激活依赖于说话者的热词(112)的方法(500),其特征在于,所述方法(500)包括:
在数据处理硬件(10)处接收音频数据(402),所述音频数据(402)与用户说出的话语对应,并且由与所述用户相关联的助手启用设备(104)捕获,所述话语包括指令(118),所述指令(118)用于数字助手(105)执行长期操作;
在接收到与所述话语对应的所述音频数据(402)后:
由所述数据处理硬件(10)激活一个或多个热词(112)的集合,每个热词(112)与用于控制所述长期操作的各自的动作相关联;以及
由所述数据处理硬件(10)将激活的一个或多个热词(112)的集合仅与说出所述话语的所述用户相关联;以及
当所述数字助手(105)执行所述长期操作时:
在所述数据处理硬件(10)处接收附加音频数据(402),所述附加音频数据(402)与由所述助手启用设备(104)捕获的附加话语对应;
由所述数据处理硬件(10)在所述附加音频数据(402)中标识来自所述激活的一个或多个热词(112)的集合中所述热词(112)的一个;
由所述数据处理硬件(10)对所述附加音频数据(402)执行说话者验证,以确定所述附加话语是否由与所述激活的一个或多个热词(112)的集合相关联的同一所述用户(102)说出;以及
当与所述激活的一个或多个热词(112)的集合相关联的同一所述用户(102)说出所述附加话语时,由所述数据处理硬件(10)执行所述各自的动作以控制所述长期操作,所述各自的动作与标识的所述热词(112)中的一个相关联。
2.根据权利要求1所述的方法(500),其特征在于:
激活所述一个或多个热词(112)的集合包括对于所述激活的一个或多个热词(112)的集合中的每个对应的热词(112),激活各自的热词模型(114)以在与所述用户相关联的所述助手启用设备(104)上运行;以及
在所述附加音频数据(402)中,标识来自所述激活的一个或多个热词(112)的集合的所述热词(112)中的一个包括,使用为对应的所述热词(112)中的一个激活的所述各自的热词模型(114),检测在所述附加音频数据(402)中的所述热词(112)中的一个,而不对所述附加音频数据(402)执行语音识别。
3.根据权利要求2所述的方法(500),其特征在于,检测在所述附加音频数据(402)中的所述热词(112)中的一个包括:
提取所述附加音频数据(402)的音频特征;
使用为对应的所述热词(112)中的一个激活的所述各自的热词模型(114),通过处理提取的所述音频特征生成热词置信度得分;以及
当所述热词置信度得分满足热词置信度阈值时,确定对应的所述附加话语的所述附加音频数据(402)包括所述对应的热词(112)中的一个。
4.根据权利要求1-3中任一项所述的方法(500),其特征在于:
激活所述一个或多个热词(112)的集合包括在所述助手启用设备(104)上执行语音识别器(116),所述语音识别器(116)偏向于识别所述激活的一个或多个热词(112)的集合中的所述一个或多个热词(112);以及
在所述附加音频数据(402)中,标识来自所述激活的一个或多个热词(112)的集合中所述热词(112)的一个包括,使用在所述助手启用设备(104)上实施的所述语音识别器(116)识别所述附加音频数据(402)中的所述热词(112)中的一个。
5.根据权利要求1-4中任一项所述的方法(500),其特征在于,进一步包括:在接收到与所述用户说出的话语对应的所述音频数据(402)之后,由所述数据处理硬件(10)对所述音频数据(402)执行说话者标识以通过以下来标识说出所述话语的所述用户:
从与所述用户说出的所述话语对应的所述音频数据(402)中提取第一说话者辨别向量(411),所述第一说话者辨别向量(411)表示所述用户说出的所述话语的特征;
确定提取的所述说话者辨别向量是否匹配任何登记的说话者向量(154),所述登记的说话者向量(154)存储在所述助手启用设备(104)上,每个登记的说话者向量(154)与所述助手启用设备(104)的不同的各自的登记的用户(200)相关联;以及
当所述第一说话者辨别向量(411)匹配所述登记的说话者向量(154)中的一个时,将说出所述话语的所述用户标识为所述各自的登记的用户(200),所述各自的登记的用户(200)与提取的所述说话者辨别向量匹配的所述登记的说话者向量(154)中的一个相关联。
6.根据权利要求5所述的方法(500),其特征在于:
所述用户说出的所述话语还包括在用于使所述数字助手(105)执行所述长期操作的指令(118)之前的热门词(110);
所述第一说话者辨别向量(411)包括从具有所述热门词(110)的所述音频数据(402)的部分提取的文本依赖的说话者辨别向量;以及
每个登记的说话者向量(154)包括从说出所述热门词(110)的各自的所述登记的用户(200)的一个或多个音频采样中提取的文本依赖的登记的说话者向量(154)。
7.根据权利要求5或6所述的方法(500),其特征在于,对所述附加音频数据(402)执行所述说话者验证包括:
从与所述热词(112)中的一个所述附加话语对应的所述附加音频数据(402)中提取表示所述附加话语的特征的第二说话者辨别向量;
确定提取的所述第二说话者辨别向量是否匹配用于识别为说出所述话语的所述用户的所述各自的登记的用户(200)的参考说话者向量(155);以及
当提取的所述第二说话者辨别向量与所述参考说话者向量匹配(155)时,确定所述附加话语是由与所述激活的一个或多个热词的集合相关联的同一所述用户(102)说出的(112)。
8.根据权利要求7所述的方法(500),其特征在于,所述参考说话者向量(155)包括所述登记的说话者向量(154),所述登记的说话者向量(154)与各自的登记的用户(200)相关联。
9.根据权利要求7所述的方法(500),其特征在于,所述参考说话者向量(155)包括从说出标识的所述热词(112)中的一个的所述各自的登记的用户(200)的一个或多个音频样本中提取的文本依赖说话者向量(158)。
10.根据权利要求5-9中任一项所述的方法(500),其特征在于:
当所述第一说话者辨别向量(411)与所述登记的说话者向量(154)中的任何一个不匹配时,将说出所述话语的所述用户标识为所述助手启用设备(104)的来宾用户(102);以及
对所述附加音频数据(402)执行所述说话者验证包括:
从所述附加音频数据(402)中提取表示所述附加话语的特征的第二说话者辨别向量(412);
确定所述第二说话者辨别向量(412)是否与表示所述特征的所述第一说话者辨别向量(411)匹配;以及
当提取的所述第一说话者辨别向量和所述第二说话者辨别向量匹配时,确定所述附加话语是由与所述激活的一个或多个热词(112)的集合相关联的同一所述用户(102)说出的。
11.根据权利要求1-10中任一项所述的方法(500),其特征在于,进一步包括,当所述附加话语由与所述激活的一个或多个热词(112)的集合相关联的所述用户不同的用户(103)说出时,由所述数据处理硬件(10)禁止所述各自的动作的执行,所述各自的动作的执行与用于控制所述长期操作的被识别所述热词(112)中的一个相关联。
12.根据权利要求1-11中任一项所述的方法(500),其特征在于,进一步包括,当所述附加话语由与所述激活的一个或多个热词(112)的集合相关联的所述用户不同的用户(103)说出时:
由所述数据处理硬件(10)提示与所述激活的一个或多个热词(112)的集合相关联的所述用户授权执行与标识的所述热词(112)中的一个相关联的所述各自的动作以控制所述长期操作;
在所述数据处理硬件(10)处接收来自授权执行所述各自的动作的所述用户的回执(119);以及
由所述数据处理硬件(10)执行与标识的所述热词(112)中的一个相关联的用于控制长期操作的所述各自的动作。
13.如权利要求12所述的方法(500),其特征在于,提示所述用户包括,标识说出所述附加话语的所述不同用户(103)。
14.根据权利要求1-13中任一项所述的方法(500),其特征在于,进一步包括:
由所述数据处理硬件(10)确定所述数字助手(105)何时停止执行所述长期操作;以及
由所述数据处理硬件(10)停用所述一个或多个热词(112)的集合。
15.一种系统(100),其特征在于,包括:
数据处理硬件(10);以及
存储器硬件(12),所述存储器硬件(12)与所述数据处理硬件(10)通信,所述存储器硬件存储指令,所述指令在所述数据处理硬件(10)上执行时使所述数据处理硬件(10)执行的操作包括:
接收音频数据(402),所述音频数据(402)与用户说出的话语对应,并且由与所述用户相关联的助手启用设备(104)捕获,所述话语包括指令(118),所述指令(118)用于数字助手(105)执行长期操作;
在接收到与所述话语对应的所述音频数据(402)后:
激活一个或多个热词(112)的集合,每个热词(112)与用于控制所述长期操作的各自的动作相关联;以及
将激活的一个或多个热词(112)的集合仅与说出所述话语的所述用户相关联;以及
当所述数字助手(105)执行所述长期操作时:
接收附加音频数据(402),所述附加音频数据(402)与由所述助手启用设备(104)捕获的附加话语对应;
在所述附加音频数据(402)中标识来自所述激活的一个或多个热词(112)的集合中所述热词(112)的一个;
对所述附加音频数据(402)执行说话者验证,以确定所述附加话语是否由与所述激活的一个或多个热词(112)的集合相关联的同一所述用户(102)说出;以及
当与所述激活的一个或多个热词(112)的集合相关联的同一所述用户(102)说出所述附加话语时,执行所述各自的动作以控制所述长期操作,所述各自的动作与标识的所述热词(112)中的一个相关联。
16.根据权利要求15所述的系统(100),其特征在于:
激活所述一个或多个热词(112)的集合包括对于所述激活的一个或多个热词(112)的集合中的每个对应的热词(112),激活各自的热词模型(114)以在与所述用户相关联的所述助手启用设备(104)上运行;以及
在所述附加音频数据(402)中,标识来自所述激活的一个或多个热词(112)的集合的所述热词(112)中的一个包括,使用为对应的所述热词(112)中的一个激活的所述各自的热词模型(114),检测在所述附加音频数据(402)中的所述热词(112)中的一个,而不对所述附加音频数据(402)执行语音识别。
17.根据权利要求16或17所述的系统(100),其特征在于,检测所述附加音频数据(402)中的所述热词(112)中的一个包括:
提取所述附加音频数据(402)的音频特征;
使用为对应的所述热词(112)中的一个激活的所述各自的热词模型(114),通过处理提取的所述音频特征生成热词置信度得分;以及
当所述得分热词置信度得分满足热词置信度阈值时,确定对应的所述附加话语的所述附加音频数据(402)包括所述对应的热词(112)中的一个。
18.根据权利要求15-17中任一项所述的系统(100),其特征在于:
激活所述一个或多个热词(112)的集合包括在所述助手启用设备(104)上执行语音识别器(116),所述语音识别器(116)偏向于识别所述激活的一个或多个热词(112)的集合中的所述一个或多个热词(112);以及
在所述附加音频数据(402)中,标识来自所述激活的一个或多个热词(112)的集合中所述热词(112)的一个包括,使用在所述助手启用设备(104)上实施的所述语音识别器(116)识别所述附加音频数据(402)中的所述热词(112)中的一个。
19.根据权利要求15-18中任一项所述的系统(100),其特征在于,所述操作进一步包括:在接收到与所述用户说出的话语对应的所述音频数据(402)之后,对所述音频数据(402)执行说话者标识以通过以下来标识说出所述话语的所述用户:
从与所述用户说出的所述话语对应的所述音频数据(402)中提取第一说话者辨别向量(411),所述第一说话者辨别向量(411)表示所述用户说出的所述话语的特征;
确定提取的所述说话者辨别向量是否匹配任何登记的说话者向量(154),所述登记的说话者向量(154)存储在所述助手启用设备(104)上,每个登记的说话者向量(154)与所述助手启用设备(104)的不同的各自的登记的用户(200)相关联;以及
当所述第一说话者辨别向量(411)匹配所述登记的说话者向量(154)中的一个时,将说出所述话语的所述用户标识为所述各自的登记的用户(200),所述各自的登记的用户(200)与提取的所述说话者辨别向量匹配的所述登记的说话者向量(154)中的一个相关联。
20.根据权利要求19所述的系统(100),其特征在于:
所述用户说出的所述话语还包括在用于使所述数字助手(105)执行所述长期操作的指令(118)之前的热门词(110);
所述第一说话者辨别向量(411)包括从具有所述热门词(110)的所述音频数据(402)的部分提取的文本依赖的说话者辨别向量;以及
每个登记的说话者向量(154)包括从说出所述热门词(110)的各自的所述登记的用户(200)的一个或多个音频采样中提取的文本依赖的登记的说话者向量(154)。
21.根据权利要求19或20所述的系统(100),其特征在于,对所述附加音频数据(402)执行所述说话者验证包括:
从与所述热词(112)中的一个所述附加话语对应的所述附加音频数据(402)中提取表示所述附加话语的特征的第二说话者辨别向量;
确定提取的所述第二说话者辨别向量是否匹配用于识别为说出所述话语的所述用户的所述各自的登记的用户(200)的参考说话者向量(155);以及
当提取的所述第二说话者辨别向量与所述参考说话者向量匹配(155)时,确定所述附加话语是由与所述激活的一个或多个热词的集合相关联的同一所述用户(102)说出的(112)。
22.如权利要求21所述的系统(100),其特征在于,所述参考说话者向量(155)包括所述登记的说话者向量(154),所述登记的说话者向量(154)与各自的登记的用户(200)相关联。
23.如权利要求21所述的系统(100),其特征在于,所述参考说话者向量(155)包括从说出标识的所述热词(112)中的一个的所述各自的登记的用户(200)的一个或多个音频样本中提取的文本依赖说话者向量(158)。
24.根据权利要求19-23中任一项所述的系统(100),其特征在于:
当所述第一说话者辨别向量(411)与所述登记的说话者向量(154)中的任何一个不匹配时,将说出所述话语的所述用户标识为所述助手启用设备(104)的来宾用户(102);以及
对所述附加音频数据(402)执行所述说话者验证包括:
从所述附加音频数据(402)中提取表示所述附加话语的特征的第二说话者辨别向量(412);
确定所述第二说话者辨别向量(412)是否与表示所述特征的所述第一说话者辨别向量(411)匹配;以及
当提取的所述第一说话者辨别向量和所述第二说话者辨别向量匹配时,确定所述附加话语是由与所述激活的一个或多个热词(112)的集合相关联的同一所述用户(102)说出的。
25.根据权利要求15-24中任一项所述的系统(100),其特征在于,所述操作进一步包括,当所述附加话语由与所述激活的一个或多个热词(112)的集合相关联的所述用户不同的用户(103)说出时,禁止所述各自的动作的执行,所述各自的动作的执行与用于控制所述长期操作的被识别所述热词(112)中的一个相关联。
26.如权利要求15-25中任一项所述的系统(100),其特征在于,所述操作进一步包括,当所述附加话语由与所述激活的一个或多个热词(112)的集合相关联的所述用户不同的用户(103)说出时:
提示与所述激活的一个或多个热词(112)的集合相关联的所述用户授权执行与标识的所述热词(112)中的一个相关联的所述各自的动作以控制所述长期操作;
接收来自授权执行所述各自的动作的所述用户的回执(119);以及
执行与标识的所述热词(112)中的一个相关联的用于控制长期操作的所述各自的动作。
27.如权利要求26所述的系统(100),其特征在于,提示所述用户包括,标识说出所述附加话语的所述不同用户(103)。
28.根据权利要求15-27中任一项所述的系统(100),其特征在于,所述操作进一步包括:
确定所述数字助手(105)何时停止执行所述长期操作;以及
停用所述一个或多个热词(112)的集合。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US17/117,799 US11557278B2 (en) | 2020-12-10 | 2020-12-10 | Speaker dependent follow up actions and warm words |
US17/117,799 | 2020-12-10 | ||
PCT/US2021/059693 WO2022125279A1 (en) | 2020-12-10 | 2021-11-17 | Speaker dependent follow up actions and warm words |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116848582A true CN116848582A (zh) | 2023-10-03 |
Family
ID=78918666
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202180093505.5A Pending CN116848582A (zh) | 2020-12-10 | 2021-11-17 | 依赖说话者的后续动作和热词 |
Country Status (6)
Country | Link |
---|---|
US (1) | US11557278B2 (zh) |
EP (1) | EP4248440A1 (zh) |
JP (1) | JP2023552855A (zh) |
KR (1) | KR20230118643A (zh) |
CN (1) | CN116848582A (zh) |
WO (1) | WO2022125279A1 (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20240119088A1 (en) * | 2022-10-06 | 2024-04-11 | Google Llc | Handling Contradictory Queries on a Shared Device |
US20240161741A1 (en) * | 2022-11-14 | 2024-05-16 | Google Llc | Short-Lived Repeat Voice Commands |
US20240161740A1 (en) * | 2022-11-14 | 2024-05-16 | Google Llc | Multi-Assistant Warm Words |
US20240169995A1 (en) * | 2022-11-17 | 2024-05-23 | Google Llc | Multi-User Warm Words |
Family Cites Families (34)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8121895B2 (en) * | 2005-07-21 | 2012-02-21 | Adknowledge, Inc. | Method and system for delivering electronic communications |
US8386251B2 (en) * | 2009-06-08 | 2013-02-26 | Microsoft Corporation | Progressive application of knowledge sources in multistage speech recognition |
DE102009051508B4 (de) * | 2009-10-30 | 2020-12-03 | Continental Automotive Gmbh | Vorrichtung, System und Verfahren zur Sprachdialogaktivierung und -führung |
US9576572B2 (en) * | 2012-06-18 | 2017-02-21 | Telefonaktiebolaget Lm Ericsson (Publ) | Methods and nodes for enabling and producing input to an application |
CN103064530B (zh) * | 2012-12-31 | 2017-03-08 | 华为技术有限公司 | 输入处理方法和装置 |
US20140343949A1 (en) * | 2013-05-17 | 2014-11-20 | Fortemedia, Inc. | Smart microphone device |
WO2015008162A2 (en) * | 2013-07-15 | 2015-01-22 | Vocavu Solutions Ltd. | Systems and methods for textual content creation from sources of audio that contain speech |
US8719039B1 (en) * | 2013-12-05 | 2014-05-06 | Google Inc. | Promoting voice actions to hotwords |
US9959863B2 (en) * | 2014-09-08 | 2018-05-01 | Qualcomm Incorporated | Keyword detection using speaker-independent keyword models for user-designated keywords |
US9940929B2 (en) * | 2015-12-09 | 2018-04-10 | Lenovo (Singapore) Pte. Ltd. | Extending the period of voice recognition |
US10365887B1 (en) * | 2016-03-25 | 2019-07-30 | Amazon Technologies, Inc. | Generating commands based on location and wakeword |
US10242673B2 (en) * | 2016-12-07 | 2019-03-26 | Google Llc | Preventing of audio attacks using an input and an output hotword detection model |
US10276161B2 (en) * | 2016-12-27 | 2019-04-30 | Google Llc | Contextual hotwords |
DE112018002857T5 (de) * | 2017-12-26 | 2020-02-27 | Robert Bosch Gmbh | Sprecheridentifikation mit ultrakurzen Sprachsegmenten für Fern- und Nahfeld-Sprachunterstützungsanwendungen |
US10580414B2 (en) * | 2018-05-07 | 2020-03-03 | Microsoft Technology Licensing, Llc | Speaker recognition/location using neural network |
KR102498811B1 (ko) * | 2018-08-21 | 2023-02-10 | 구글 엘엘씨 | 자동화된 어시스턴트를 호출하기 위한 다이내믹 및/또는 컨텍스트 특정 핫워드 |
JP7322076B2 (ja) * | 2018-08-21 | 2023-08-07 | グーグル エルエルシー | 自動アシスタントを起動させるための動的および/またはコンテキスト固有のホットワード |
US10978059B2 (en) * | 2018-09-25 | 2021-04-13 | Google Llc | Speaker diarization using speaker embedding(s) and trained generative model |
US11217254B2 (en) * | 2018-12-24 | 2022-01-04 | Google Llc | Targeted voice separation by speaker conditioned on spectrogram masking |
US11349834B2 (en) * | 2019-01-30 | 2022-05-31 | Ncr Corporation | Multi-factor secure operation authentication |
US10897508B2 (en) * | 2019-03-08 | 2021-01-19 | International Business Machines Corporation | Personal call center assistant |
US20200312315A1 (en) * | 2019-03-28 | 2020-10-01 | Apple Inc. | Acoustic environment aware stream selection for multi-stream speech recognition |
EP3726856B1 (en) * | 2019-04-17 | 2022-11-16 | Oticon A/s | A hearing device comprising a keyword detector and an own voice detector |
US11232800B2 (en) * | 2019-04-23 | 2022-01-25 | Google Llc | Personalized talking detector for electronic device |
EP3888084A4 (en) * | 2019-05-16 | 2022-01-05 | Samsung Electronics Co., Ltd. | METHOD AND DEVICE FOR PROVIDING A VOICE RECOGNITION SERVICE |
US11189279B2 (en) * | 2019-05-22 | 2021-11-30 | Microsoft Technology Licensing, Llc | Activation management for multiple voice assistants |
US12001754B2 (en) * | 2019-11-21 | 2024-06-04 | Motorola Mobility Llc | Context based media selection based on preferences setting for active consumer(s) |
US11295741B2 (en) * | 2019-12-05 | 2022-04-05 | Soundhound, Inc. | Dynamic wakewords for speech-enabled devices |
US11341954B2 (en) * | 2019-12-17 | 2022-05-24 | Google Llc | Training keyword spotters |
KR20210079060A (ko) * | 2019-12-19 | 2021-06-29 | 엘지전자 주식회사 | 화자 음성 위조 검사 방법 및 장치 |
US11328733B2 (en) * | 2020-09-24 | 2022-05-10 | Synaptics Incorporated | Generalized negative log-likelihood loss for speaker verification |
US20220165275A1 (en) * | 2020-10-01 | 2022-05-26 | Pindrop Security, Inc. | Enrollment and authentication over a phone call in call centers |
US11830486B2 (en) * | 2020-10-13 | 2023-11-28 | Google Llc | Detecting near matches to a hotword or phrase |
US11468900B2 (en) * | 2020-10-15 | 2022-10-11 | Google Llc | Speaker identification accuracy |
-
2020
- 2020-12-10 US US17/117,799 patent/US11557278B2/en active Active
-
2021
- 2021-11-17 CN CN202180093505.5A patent/CN116848582A/zh active Pending
- 2021-11-17 EP EP21827453.8A patent/EP4248440A1/en active Pending
- 2021-11-17 KR KR1020237023351A patent/KR20230118643A/ko unknown
- 2021-11-17 JP JP2023535766A patent/JP2023552855A/ja active Pending
- 2021-11-17 WO PCT/US2021/059693 patent/WO2022125279A1/en active Application Filing
Also Published As
Publication number | Publication date |
---|---|
KR20230118643A (ko) | 2023-08-11 |
WO2022125279A1 (en) | 2022-06-16 |
US11557278B2 (en) | 2023-01-17 |
EP4248440A1 (en) | 2023-09-27 |
US20220189465A1 (en) | 2022-06-16 |
JP2023552855A (ja) | 2023-12-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11600265B2 (en) | Systems and methods for determining whether to trigger a voice capable device based on speaking cadence | |
US11557278B2 (en) | Speaker dependent follow up actions and warm words | |
KR102293063B1 (ko) | 사용자 정의 가능한 웨이크업 음성 명령 | |
CN111566729B (zh) | 用于远场和近场声音辅助应用的利用超短语音分段进行的说话者标识 | |
US10255922B1 (en) | Speaker identification using a text-independent model and a text-dependent model | |
US9368105B1 (en) | Preventing false wake word detections with a voice-controlled device | |
KR20180050365A (ko) | 화자 검증 | |
US11170787B2 (en) | Voice-based authentication | |
US11665013B1 (en) | Output device selection | |
EP4295517A2 (en) | Hybrid multilingual text-dependent and text-independent speaker verification | |
CN117321678A (zh) | 用于说话者标识的注意力评分功能 | |
US20240184867A1 (en) | Adaptive Guest Mode for Portable Speakers | |
US20240169995A1 (en) | Multi-User Warm Words | |
US20240161741A1 (en) | Short-Lived Repeat Voice Commands | |
US20240119944A1 (en) | Voice Query Handling in an Environment with Multiple Users | |
US20240119088A1 (en) | Handling Contradictory Queries on a Shared Device | |
US11776534B1 (en) | Natural language understanding intent adjustment | |
KR20240096889A (ko) | 자동화 어시스턴트 디바이스 사이의 웜 워드 중재 | |
CN118339609A (zh) | 自动化助理装置之间的暖词仲裁 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |