CN115699165A - 自动热词阈值调谐 - Google Patents
自动热词阈值调谐 Download PDFInfo
- Publication number
- CN115699165A CN115699165A CN202180040933.1A CN202180040933A CN115699165A CN 115699165 A CN115699165 A CN 115699165A CN 202180040933 A CN202180040933 A CN 202180040933A CN 115699165 A CN115699165 A CN 115699165A
- Authority
- CN
- China
- Prior art keywords
- hotword
- level
- detector
- audio
- detection threshold
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 claims abstract description 173
- 238000000034 method Methods 0.000 claims abstract description 110
- 238000012545 processing Methods 0.000 claims abstract description 91
- 230000008569 process Effects 0.000 claims description 47
- 230000015654 memory Effects 0.000 claims description 36
- 238000004891 communication Methods 0.000 claims description 11
- 230000003247 decreasing effect Effects 0.000 claims description 8
- 230000000977 initiatory effect Effects 0.000 claims description 6
- 238000010586 diagram Methods 0.000 description 14
- 238000013528 artificial neural network Methods 0.000 description 9
- 238000004590 computer program Methods 0.000 description 8
- 230000004044 response Effects 0.000 description 6
- 230000006870 function Effects 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 4
- 238000013518 transcription Methods 0.000 description 3
- 230000035897 transcription Effects 0.000 description 3
- 230000003993 interaction Effects 0.000 description 2
- 230000006855 networking Effects 0.000 description 2
- 230000035945 sensitivity Effects 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 239000003795 chemical substances by application Substances 0.000 description 1
- 230000001143 conditioned effect Effects 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000001629 suppression Effects 0.000 description 1
- 230000026676 system process Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/065—Adaptation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/30—Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L2015/088—Word spotting
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
- Telephonic Communication Services (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
一种用于自动热词阈值调谐的方法(600)包括:从执行被配置为在流音频(118)中检测热词的第一级热词检测器(120)的用户设备(102)接收表征热词的音频数据(136)。该方法包括使用第二级热词检测器(140)处理音频数据以确定第二级热词检测器是否检测到热词。当没有检测到热词时,该方法包括在第一级热词检测器处标识错误接受实例(210)。该方法包括确定错误接受率(230)是否满足基于在错误接受时间段内的错误接受实例的数目的错误接受率阈值(240)。当错误接受率满足错误接受率阈值时,该方法包括调整第一级热词检测器的热词检测阈值。
Description
技术领域
本公开涉及自动热词阈值调谐。
背景技术
语音启用的环境(例如,家庭、工作场所、学校、汽车等)允许用户向基于计算机的系统大声讲出查询或命令,该基于计算机的系统回应并回答查询和/或基于命令执行功能。语音启用的环境能够使用分布在环境的各个房间或区域的连接的麦克风设备的网络来实现。这些设备可以使用热词来帮助鉴别给定话语何时针对系统,而不是针对存在于环境中的另一个人的话语。因此,设备可以在睡眠状态或休眠状态下操作并且只有当检测到的话语包括热词时才唤醒。通常,用于检测流音频中的热词的系统生成指示热词存在于流音频中的概率的概率分值。当概率分值满足预定阈值时,设备发起唤醒过程。
发明内容
本公开的一个方面提供了一种用于自动热词阈值调谐的方法。该方法包括:在数据处理硬件处,从执行第一级热词检测器的用户设备接收表征由第一级热词检测器在由用户设备捕获的流音频中检测到的热词的音频数据。第一级热词检测器被配置为生成指示由用户设备捕获的流音频的音频特征中的热词的存在的概率分值,并且当概率分值满足第一级热词检测器的热词检测阈值时,在流音频中检测到热词。
该方法还包括,由数据处理硬件使用第二级热词检测器处理音频数据,以确定第二级热词检测器是否在音频数据中检测到热词。当第二级热词检测器在音频数据中没有检测到热词时,该方法包括由数据处理硬件在第一级热词检测器处标识指示第一级热词检测器在流音频中不正确地检测到热词的错误接受实例。
该方法还包括由数据处理硬件确定与用户设备的第一级热词检测器相关联的错误接受率是否满足错误接受率阈值。错误接受率基于在错误接受时间段内在第一级热词检测器处标识的错误接受实例的数目。当与第一级热词检测器相关联的错误接受率满足错误接受率阈值时,该方法包括由数据处理硬件调整第一级热词检测器的热词检测阈值。
本公开的实施方式可以包括以下可选特征中的一个或多个。在一些实施方式中,该方法进一步包括,当第二级热词检测器在音频数据中没有检测到热词时,由数据处理硬件抑制用户设备上的用于处理热词和/或在流音频中跟随热词的一个或多个其它词项的唤醒过程。在一些示例中,该方法进一步包括,当第二级热词检测器在音频数据中检测到热词时,由数据处理硬件确定是否从用户设备接收到表征在流音频中跟随热词的口头查询的后续音频数据。当没有从用户设备接收到表征口头查询的后续音频数据时,该方法可以包括:由数据处理硬件在第一级热词检测器处标识指示第一级热词检测器在流音频中不正确地检测到热词的错误接受实例。
可选地,该方法进一步包括,当从用户设备接收到表征口头查询的后续音频时,由数据处理硬件处理口头查询。用户设备可以被配置为当第一级热词检测器在流音频中检测到热词时,发起唤醒过程以处理热词和/或在流音频中跟随热词的一个或多个其它词项。在一些示例中,调整第一级热词检测器的热词检测阈值包括增加热词检测阈值的值。
该方法可以进一步包括,当接收表征第一级热词检测器在流音频中检测到的热词的音频数据时,在数据处理硬件处从用户设备接收指示第一级热词检测器在生成未能通过阈值余量满足热词检测阈值的先前概率分值之后的阈值时间段内在流音频中检测到热词的近未命中指示。先前概率分值指示由用户设备捕获的流音频的先前音频特征中的热词的存在。
当第二级热词检测器在音频数据中检测到热词时,该方法可以包括:由数据处理硬件基于近未命中指示在第一级热词检测器处标识指示第一级热词检测器未能在流音频的先前音频特征中初始地检测到热词的错误拒绝实例,并且由数据处理硬件确定与用户设备的第一级热词检测器相关联的错误拒绝率是否满足错误拒绝率阈值。错误拒绝率基于在错误拒绝时间段内在第一级热词检测器处标识的错误拒绝实例的数目。当与第一级热词检测器相关联的错误拒绝率满足错误拒绝率阈值时,该方法可以包括由数据处理硬件调整第一级热词检测器的热词检测阈值。在一些示例中,调整热词检测阈值包括降低第一级热词检测器的热词检测阈值。
本公开的另一方面提供了另一种用于提供自动热词阈值调谐的方法。该方法包括在用户设备的数据处理硬件处接收由与数据处理硬件通信的一个或多个麦克风捕获的流音频。该方法还包括:由数据处理硬件使用第一级热词检测器生成指示流音频的音频特征中的热词的存在的概率分值。该方法包括由数据处理硬件确定概率分值是否满足热词检测阈值。
当概率分值满足热词检测阈值时,该方法包括由数据处理硬件在流音频中检测到热词,并且由数据处理硬件向执行第二级热词检测器的远程计算设备传送表征使用第一级热词检测器在流音频中检测到的热词的音频数据。远程计算设备被配置为确定第二级热词检测器是否在音频数据中检测到热词,并且当第二级热词检测器在音频数据中没有检测到热词时,在第一级热词检测器处标识指示第一级热词检测器在流音频中不正确地检测到热词的错误接受实例。当基于在错误接受时间段内在第一级热词检测器处标识的错误接受实例的数目的错误接受率满足错误接受率阈值时,该方法包括由数据处理硬件调整第一级热词检测器的热词检测阈值。
该方面可以包括以下可选特征中的一个或多个。调整第一级热词检测器的热词检测阈值可以包括增加热词检测阈值的值。在一些示例中,当概率分值满足热词检测阈值时,该方法包括由数据处理硬件在用户设备上发起唤醒过程,以用于处理热词和/或在流音频中跟随热词的一个或多个其它词项。当第二级热词检测器在音频数据中没有检测到热词时,该方法可以包括由数据处理硬件抑制用户设备上的唤醒过程。
在一些示例中,该方法进一步包括,当概率分值满足热词检测阈值时,由数据处理硬件确定未能通过阈值余量满足热词检测阈值的先前概率分值在检测流音频中的热词之前的阈值时间段内由第一级热词检测器生成的近未命中指示。该方法还可以包括由数据处理硬件向远程计算设备传送近未命中指示。
远程计算设备可以被配置为当第二级热词检测器在音频数据中检测到热词时,基于近未命中指示在第一级热词检测器处标识错误拒绝实例。错误拒绝实例指示第一级热词检测器未能在流音频的先前音频特征中初始地检测到热词。当基于在错误拒绝时间段内在第一级热词检测器处标识的错误拒绝实例的数目的错误拒绝率满足错误拒绝阈值时,该方法在一些实施方式中包括由数据处理硬件调整第一级热词检测器的热词检测阈值。可选地,调整热词检测阈值包括降低热词检测阈值的值。
本公开的另一方面提供一种用于提供自动热词阈值调谐的系统。该系统包括数据处理硬件和与该数据处理硬件通信的存储器硬件。该存储器硬件存储指令,这些指令当在数据处理硬件上运行时使数据处理硬件执行操作。操作包括从执行第一级热词检测器的用户设备接收表征由第一级热词检测器在由用户设备捕获的流音频中检测到的热词的音频数据。第一级热词检测器被配置为生成指示由用户设备捕获的流音频的音频特征中的热词的存在的概率分值,并且当概率分值满足第一级热词检测器的热词检测阈值时,在流音频中检测到热词。
操作还包括使用第二级热词检测器处理音频数据,以确定第二级热词检测器是否在音频数据中检测到热词。当第二级热词检测器在音频数据中没有检测到热词时,该操作包括在第一级热词检测器处标识指示第一级热词检测器在流音频中不正确地检测到热词的错误接受实例。
操作还包括确定与用户设备的第一级热词检测器相关联的错误接受率是否满足错误接受率阈值。错误接受率基于在错误接受时间段内在第一级热词检测器处标识的错误接受实例的数目。当与第一级热词检测器相关联的错误接受率满足错误接受率阈值时,操作包括调整第一级热词检测器的热词检测阈值。
本公开的实施方式可以包括以下可选特征中的一个或多个。在一些实施方式中,操作进一步包括,当第二级热词检测器在音频数据中没有检测到热词时,抑制用户设备上的唤醒过程,以用于处理热词和/或在流音频中跟随热词的一个或多个其它词项。在一些示例中,操作进一步包括,当第二级热词检测器在音频数据中检测到热词时,确定是否从用户设备接收到表征在流音频中跟随热词的口头查询的后续音频数据。当没有从用户设备接收到表征口头查询的后续音频数据时,该操作可以包括在第一级热词检测器处标识指示第一级热词检测器在流音频中不正确地检测到热词的错误接受实例。
可选地,操作进一步包括,当从用户设备接收到表征口头查询的后续音频时,处理口头查询。用户设备可以被配置为当第一级热词检测器在流音频中检测到热词时,发起唤醒过程以处理热词和/或在流音频中跟随热词的一个或多个其它词项。在一些示例中,调整第一级热词检测器的热词检测阈值包括增加热词检测阈值的值。
该操作可以进一步包括,当接收表征第一级热词检测器在流音频中检测到的热词的音频数据时,从用户设备接收指示第一级热词检测器在生成未能通过阈值余量满足热词检测阈值的先前概率分值之后的阈值时间段内在流音频中检测到热词的近未命中指示。先前概率分值指示由用户设备捕获的流音频的先前音频特征中的热词的存在。
当第二级热词检测器在音频数据中检测到热词时,操作可以包括基于近未命中指示在第一级热词检测器处标识指示第一级热词检测器未能在流音频的先前音频特征中初始地检测到热词的错误拒绝实例,并且确定与用户设备的第一级热词检测器相关联的错误拒绝率是否满足错误拒绝率阈值。错误拒绝率基于在错误拒绝时间段内在第一级热词检测器处标识的错误拒绝实例的数目。当与第一级热词检测器相关联的错误拒绝率满足错误拒绝率阈值时,操作可以包括调整第一级热词检测器的热词检测阈值。在一些示例中,调整热词检测阈值包括降低第一级热词检测器的热词检测阈值。
本公开的另一方面提供了另一种用于提供自动热词阈值调谐的系统。该系统包括用户设备的数据处理硬件和与数据处理硬件通信的存储器硬件。存储器硬件存储指令,这些指令当在数据处理硬件上执行时使得数据处理硬件执行操作。该操作包括接收由与数据处理硬件通信的一个或多个麦克风捕获的流音频。该操作还包括使用第一级热词检测器生成指示流音频的音频特征中的热词的存在的概率分值。该操作包括确定概率分值是否满足热词检测阈值。
当概率分值满足热词检测阈值时,操作包括在流音频中检测到热词,并且向执行第二级热词检测器的远程计算设备传送表征使用第一级热词检测器在流音频中检测到的热词的音频数据。远程计算设备被配置为确定第二级热词检测器是否在音频数据中检测到热词,并且当第二级热词检测器在音频数据中没有检测到热词时,在第一级热词检测器处标识指示第一级热词检测器在流音频中不正确地检测到热词的错误接受实例。
当基于在错误接受时间段内在第一级热词检测器处标识的错误接受实例的数目的错误接受率满足错误接受率阈值时,操作包括调整第一级热词检测器的热词检测阈值。
该方面可以包括以下可选特征中的一个或多个。调整第一级热词检测器的热词检测阈值可以包括增加热词检测阈值的值。在一些示例中,当概率分值满足热词检测阈值时,操作包括在用户设备上发起唤醒过程,以用于处理热词和/或在流音频中跟随热词的一个或多个其它词项。当第二级热词检测器在音频数据中没有检测到热词时,操作可以包括抑制用户设备上的唤醒过程。
在一些示例中,操作进一步包括,当概率分值满足热词检测阈值时,确定未能通过阈值余量满足热词检测阈值的先前概率分值在检测流音频中的热词之前的阈值时间段内由第一级热词检测器生成的近未命中指示。操作还可以包括向远程计算设备传送近未命中指示。
远程计算设备可以被配置为当第二级热词检测器在音频数据中检测到热词时,基于近未命中指示在第一级热词检测器处标识错误拒绝实例。错误拒绝实例指示第一级热词检测器未能在流音频的先前音频特征中初始地检测到热词。当基于在错误拒绝时间段内在第一级热词检测器处标识的错误拒绝实例的数目的错误拒绝率满足错误拒绝阈值时,操作在一些实施方式中包括调整第一级热词检测器的热词检测阈值。可选地,调整热词检测阈值包括降低热词检测阈值的值。
本公开的一个或多个实施方式的细节在下面的附图和描述中阐述。根据说明书和附图,并且根据权利要求书,其他方面、特征和优点将是显而易见的。
附图说明
图1是提供自动热词阈值调谐的示例系统的示意图。
图2是热词检测阈值调整器的示例性部件的示意图。
图3是热词检测阈值调整器递增错误接受计数的示意图。
图4是示例错误接受实例的示意图。
图5A和5B是示例错误拒绝实例的示意图。
图6是用于提供自动热词阈值调谐的方法的操作的示例布置的流程图。
图7是用于提供自动阈值调谐的方法的操作的另一示例布置的流程图。
图8是可以被用于实现本文中所描述的系统和方法的示例计算设备的示意图。
在各个附图中相同的附图标记表示相同的元件。
具体实施方式
话音启用的设备(例如,运行话音助理的用户设备)允许用户大声讲出查询或命令并且回应并回答查询和/或基于命令执行功能。通过使用“热词”(也称为“关键词”、“注意词”、“唤醒短语/词”、“触发短语”或“话音动作发起命令”),其中为了引起话音启用的设备注意而讲出的预定词项/短语通过协议被保留,话音启用的设备能够鉴别针对系统(即,用于发起唤醒过程以用于处理在话语中跟随热词的一个或多个词项)的话语和针对环境中的个人的话语。通常,话音启用的设备在睡眠状态下操作以保存电力并且不处理输入音频数据,除非该输入音频数据遵循讲出的热词。例如,当在睡眠状态下时,话音启用的设备经由一个或多个麦克风捕获输入音频并且使用被训练的热词检测器来在输入音频中检测热词的存在。当在输入音频中检测到热词时,话音启用的设备发起唤醒过程以用于处理热词和/或在输入音频中跟随热词的任何其它词项。
热词检测类似于大海捞针,因为热词检测器必须连续地收听流音频,并且当在流音频中检测到热词的存在时正确地且立即触发,同时忽略流音频的大部分。热词检测器通常采用神经网络来解决在连续音频流中检测热词的存在的复杂性。通常,神经网络基于接收到的流音频来生成指示流音频中的热词的存在的概率分值。热词检测器确定概率分值是否满足检测阈值。当概率分值满足检测阈值时,热词检测器确定热词存在于流音频中。热词检测器然后可以发起设备的唤醒过程。
热词检测阈值传统上被设置在平衡错误接受率和错误拒绝率的预定值。当热词检测器检测到热词(即,概率分值满足热词检测阈值)时,发生错误接受,然而,流音频实际上不包括热词。尽管错误接受,热词检测器将在话音启用的设备上发起唤醒过程,即使用户不打算调用该设备。另一方面,当流音频包括热词但是热词检测器确定热词不存在于流音频中(即,概率分值未能满足热词检测阈值)时发生错误拒绝。热词检测器的错误拒绝对于用户来说是令人厌烦的,因为用户必须随后尝试通过再次说出热词,通常大声地和/或需要用户走得更靠近设备,来调用话音启用的设备以确保说出的热词不会再次被错误拒绝。因此,由于各种各样的设备、环境和用户,热词检测阈值的选择是非常困难的。传统上,检测阈值不是为每个单独的设备定制的。然而,每个设备可能经历显著不同的声学环境。例如,与在安静办公室中具有相同的热词检测阈值的相同设备相比,在电视附近的设备经常经历相当多的错误接受。另外地,每个用户可以具有对错误拒绝和错误接受的显著不同的容限。即,虽然一个用户可以容忍中等数目的错误接受,但是另一个用户可能不容忍相同数目的错误接受。
本文中的实施方式针对一种热词检测阈值调整器系统,该系统动态地调整执行第一级热词检测器的用户设备的热词检测阈值,以单独地定制到环境的热词检测器。如本文中所使用的,术语“热词检测阈值”指的是流音频必须满足以便热词检测器确定/检测到在流音频的音频特征中存在预定热词的值或概率分值,并且因此触发用户设备上的唤醒过程。用户设备的第一级热词检测器基于指示流音频的音频特征中的热词的存在的第一概率分值来检测流音频中的热词。这里,第一概率分值满足与第一级热词检测器相关联的热词检测阈值,以使得用户设备将表征由第一级热词检测器检测到的热词的音频数据传送到远程第二级热词检测器以用于验证。例如,用户设备经由互联网将音频数据传送到执行第二级热词检测器的服务器。第二级热词检测器可以利用与由在用户设备上运行的第一级热词检测器利用的热词检测模型相比更准确地用于检测音频中的热词的存在的热词检测模型。第二级热词检测器处理音频数据以确定第二级热词检测器是否检测到热词。当第二级热词检测器未检测到热词时,系统在第一级热词指示符处标识指示第一级热词检测器不正确地检测到热词的错误接受实例。该系统确定与第一级热词检测器相关联的错误接受率是否满足错误接受率阈值,并且相应地调整第一级热词检测器的热词检测阈值。例如,系统可以增加热词检测阈值的值,以便降低第一级热词检测器的灵敏度,从而减少/消除将来错误接受实例的发生。
因此,本文中描述的系统包括级联热词检测技术,其使用多个模型来提高准确度并且验证和/或确认热词检测。系统为每个设备单独地确定错误接受实例和错误拒绝实例的比率,并且基于相应设备的错误接受率和错误拒绝率相应地定制热词检测阈值。
参考图1,在一些实施方式中,示例系统100包括一个或多个用户设备102,每个用户设备102与相应的用户10相关联并且经由网络104与远程系统110通信。每个用户设备102可以对应于计算设备,诸如移动电话、计算机、智能扬声器、智能电器、智能耳机、可佩戴件等,并且配备有数据处理硬件103和存储器硬件105。用户设备102包括用于捕获来自相应用户10的话语的一个或多个麦克风106或与之通信。远程系统110可以是单个计算机、多个计算机或具有可伸缩/弹性计算资源112(例如,数据处理硬件)和/或存储资源114(例如,存储器硬件)的分布式系统(例如,云环境)。在一些实施方式中,用户设备102经由网络104从远程系统110接收经训练的神经网络130(例如,记忆的神经网络),并且执行经训练的神经网络130以检测流音频118中的热词。经训练的神经网络130驻留在用户设备102的第一级热词检测器120(也称为热词器)中,该热词检测器120被配置为检测流音频118中的热词的存在而不对流音频118执行语义分析或语音识别处理。
在所示的示例中,当用户10说出由用户设备102捕获作为流音频118的包括热词(例如,“Hey Google(嘿,谷歌)”)的话语119时,在用户设备102上执行的第一级热词检测器120被配置为检测话语119中的热词的存在,以在用户设备102上发起用于处理热词和/或在话语119中跟随热词的一个或多个其它词项(例如,查询或命令)的唤醒过程。即,用户设备102可以被配置为当第一级热词检测器120检测到流音频118中的热词时发起唤醒过程以处理热词和/或流音频118中跟随该热词的一个或多个其它词项。
第一级热词检测器120(例如,从神经网络130)生成指示在由用户设备102捕获的流音频118的音频特征中的热词的存在的概率分值132。当概率分值132满足第一级热词检测器120的热词检测阈值134时,第一级热词检测器120检测流音频118中的热词。当概率分值132满足热词检测阈值134时,第一级热词检测器120将表示流音频118的音频数据136传送到在远程系统110上执行的第二级热词检测器140。在一些示例中,音频数据136是流音频118的直接表示,而在其它示例中,音频数据136表示在由第一级热词检测器120处理之后的流音频118(例如,用于标识和/或隔离流音频118的特定音频特性或将流音频118转换为适于由第二级热词检测器140传输和/或处理的格式)。例如,音频数据136可以从流音频118中被去除(chomp)以包括相关段,该相关段包括与如由第一级热词检测器120检测到的热词相关联的音频特征。
与第一级热词检测器120类似,第二级热词检测器140被配置为检测音频数据136中的热词的存在。第二级热词检测器140与第一级热词检测器120不同。例如,第二级热词检测器140包括不同的神经网络,其潜在地比第一级热词检测器120的神经网络130在计算上更密集。第二级热词检测器140可以提供比第一级热词检测器120更高的准确度,这由用户设备102的资源限制。
第二级热词检测器140处理音频数据136以确定热词是否存在于音频数据136中。第二级热词检测器140可以类似于第一级热词检测器120生成概率分值以与热词检测阈值进行比较,或者第二级热词检测器140可以利用完全不同的方法来确定热词的存在。当第二级热词检测器140在音频数据136中未检测到热词时,热词检测阈值调整器200、200a-b(图2)在第一级热词检测器120处标识指示第一级热词检测器120在流音频118中不正确地检测到热词的错误接受实例210。
现在参考图2,热词检测阈值调整器200维持错误接受计数220。热词检测阈值调整器200响应于标识错误接受实例210而递增错误接受计数220。基于错误接受计数220,热词检测阈值调整器确定当前错误接受率230。错误接受率230表示由热词检测阈值调整器200在错误接受时间段内标识的错误接受实例210的数目。例如,错误接受时间段可以是1小时,或4小时,或24小时等。错误接受计数220可以仅包括最近错误接受时间段内的错误接受实例210的数目。因此,错误接受率230指示第一级热词检测器120错误地确定热词存在于流音频118中的频率。
热词检测阈值调整器200可以确定错误接受率230是否满足错误接受率阈值240。例如,当错误接受时间段是1小时并且错误接受率阈值240是每小时三个时,当热词检测阈值调整器200在最近1小时内标识出三个或更多个错误接受实例210时,错误接受率230满足错误接受率阈值240。
回到图1,当与第一级热词检测器120相关联的错误接受率230满足错误接受率阈值240时,热词检测阈值调整器200调整第一级热词检测器120的热词检测阈值134。在一些实施方式中,热词检测阈值调整器200在远程系统110(即,热词检测阈值调整器200a)上执行,并且将热词检测阈值调谐指令150传送到第一级热词检测器120。当由用户设备102接收到调谐指令150时,该调谐指令150使得用户设备102调整第一级热词检测器120的热词检测阈值134。在其它实施方式中,热词检测阈值调整器200在用户设备102(即,热词检测阈值调整器200b)上执行,并且从在远程系统110上执行的第二级热词检测器140接收错误接受实例210的指示142。这里,用户设备102维持错误接受计数220并且确定当前错误接受率230。热词检测阈值调整器200b向第一级热词检测器120提供热词检测阈值调谐指令150,以基于错误接受率阈值240和当前错误接受率230来调整热词检测阈值134。
在一些实施方式中,当错误接受率230超过错误接受率阈值240时,热词检测阈值调整器200增加热词检测阈值134的值。即,检测流音频118中的热词的存在所需的概率分值132增加,从而使得错误接受实例210不太可能。在一些示例中,热词检测阈值调整器200基于所调整的热词检测阈值134来调整或改变错误接受率阈值240。在一些配置中,用户设备102的用户10可以设置和/或调整错误接受率阈值240。
在一些示例中,当第二级热词检测器140在音频数据136中没有检测到热词时,远程服务器110抑制用户设备102上的唤醒过程。唤醒过程允许用户设备102处理热词和/或在流音频118中跟随热词的一个或多个其它词项(例如,查询或命令)。在一些实施方式中,远程系统110通过向用户设备102发送使得用户设备102抑制唤醒过程的抑制指令162来抑制唤醒过程。在其它实施方式中,远程系统110通过向用户设备102发送第二级热词检测器140未能确认热词存在于音频数据136中的指示164从而使得用户设备102抑制唤醒过程(即,保持或返回休眠状态),来抑制唤醒过程。在其它实施方式中,远程系统110通过在接收到音频数据136之后不响应用户设备102(例如,通过关闭网络连接)来抑制唤醒过程。缺少来自远程系统110的响应可以使得用户设备102抑制唤醒过程。即,在一些示例中,用户设备102仅在从第二级热词检测器140接收到热词存在于流音频118中的确认时才发起唤醒过程。用户设备102可以独立地抑制唤醒过程。例如,当跟随热词的查询或命令为空时,用户设备102可以自动地抑制唤醒过程(即,跟随热词的流音频118未能包括指向用户设备102的命令或查询)。在该实例中,用户设备102可以检测到错误接受实例210,并且通知热词检测阈值调整器递增错误接受计数220。
现在参考图3,在一些示例中,当第二级热词检测器140在音频数据136中检测到热词时,远程系统110确定是否从用户设备102接收到表征流音频118中跟随热词的口头查询的后续音频数据136。当没有从用户设备102接收到表征口头查询的后续音频数据136时,热词检测阈值调整器200在第一级热词检测器120处标识指示第一级热词检测器120在流音频118中不正确地检测到热词的错误接受实例210。即,在一些实施方式中,热词检测阈值调整器200基于在检测到的热词之后的后续音频数据136中缺少查询或命令来标识错误接受实例210。例如,当不打算触发唤醒过程的音频(例如,诸如来自电视的环境中的环境噪声)无意地或不希望地触发热词检测时,缺少任何后续查询或命令(其将在有意的唤醒命令期间发生)允许热词检测阈值调整器200标识错误接受实例210。
在一些示例中,当从用户设备102接收表征口头查询的后续音频数据136时(即,在第一级热词检测器120和第二级热词检测器140都检测到流音频118中的热词的存在之后),远程系统处理口头查询。在这些示例中,处理查询可以包括将音频数据136传递到语音识别系统以用于转录口头查询。远程系统110可以使用该转录来执行自然语言理解和/或向搜索引擎和/或其他应用提供该转录以用于处理该查询。
在一些实施方式中,远程系统110不包括第二级热词检测器140,而是执行查询/命令处理器430(图4),该查询/命令处理器430被配置为对音频数据136执行语音识别,以确认第一级热词检测器120是否正确地检测到流音频118中的热词的存在。即,在一些实施方式中,第一级热词检测器120在检测到流音频118中的热词的存在之后,将音频数据136传送到远程服务器以处理来自用户10的后续查询。在这种情况下,当处理器430未能识别所接收的音频数据136中的热词时以及当处理器430确定从用户设备102接收到的后续音频数据136为空(即,当后续音频数据136未能包括查询或命令时的实例)时,热词检测阈值调整器200可以标识错误接受实例210。这里,任一种情况都导致热词检测阈值调整器200递增错误接受计数220。
现在参考图4,示意图400描绘了电视410发射包括话语“Hey you all(嘿,大家好)!”的回放音频420。由于话语“Hey you all”和热词“Hey Google”之间的语音相似性,第一级热词检测器120确定满足热词检测阈值的概率分值132,并且由此检测表示来自电视410的回放音频420a的流音频118中的热词的存在。如上所述,第二级热词检测器140可以确认/验证第一级热词检测器120是否正确地检测到热词。当第二级热词检测器140未能检测到热词时,第二级热词检测器140可以通知热词检测阈值调整器200,从而导致调整器200标识错误接受实例210并且递增错误接受率230。另一方面,第二级热词检测器140也可以错误地检测话语“Hey you all”中的热词,并且将对应的音频传递到查询处理器430。这里,查询处理器430可以对音频数据执行语音识别,并且确定热词检测器120、140中的每一个错误地检测到热词。另外地或替代地,处理器430可以确定在错误地检测到热词之后没有接收到包含查询或命令的后续音频数据136。在这些场景的任一个中,查询处理器430可以通知热词检测阈值调整器200标识错误接受实例210。
返回参考图1和2,在一些实施方式中,热词检测阈值调整器200标识指示当第一级热词检测器120在存在热词的情况下未能检测到在流音频118中的热词的存在时的实例的错误拒绝实例250。作为响应,热词检测阈值调整器200递增错误拒绝计数260并且确定当前错误拒绝率270。当错误拒绝率270满足错误拒绝阈值280时,热词检测阈值调整器200调整热词检测阈值134。这里,调整器200向第一级热词检测器120提供热词检测阈值调谐指令150,以降低热词检测阈值,从而增加第一级热词检测器120的灵敏度,以用于检测流音频118中的热词。
热词检测阈值调整器200可以响应于接收到指示第一级热词检测器120在生成先前概率分值之后的阈值时间段内检测到流音频中的热词的近未命中指示510来标识错误拒绝实例250,该先前概率分值未能通过阈值余量来满足热词检测阈值。例如,在用户设备102上运行的第一级热词检测器120可能未能检测到用户说出的第一话语中的热词。这里,第一级热词检测器120可以确定未能满足设置为0.75的热词检测阈值的等于0.7的概率分值。可以将近未命中阈值设置为小于热词检测阈值的值(0.65),使得近未命中阈值(0.65)与热词检测阈值(0.75)之间的值的范围对应于“阈值余量”。例如,可以将近未命中阈值设置为0.65,使得与大于或等于0.65的近未命中阈值但小于0.75的热词检测阈值的概率分值相关联的任何流音频118未能通过阈值余量满足热词检测阈值。继续该示例,在用户10调用用户设备102的后续尝试中,第一级热词检测器120在用户10在阈值时间段(例如,5秒)内说出的第二话语中正确地检测热词。以由第一级热词检测器120确定与第一话语相关联的概率分值未能通过阈值余量满足热词检测阈值并且随后在阈值时间段内检测到第二话语中的热词为条件,热词检测阈值调整器200可以接收近未命中指示510并且在确认第二级热词检测器140也检测到第二话语中的热词的存在时标识错误拒绝实例250。值得注意的是,虽然更准确的第二级热词检测器140可以可能地已经检测到第一话语中的热词的存在,但是第一级热词检测器120从不向第二级热词检测器140传送对应的音频数据136,因为第一级热词检测器120生成与第一话语相关联的概率分值,该概率分值未能满足热词检测阈值。热词检测阈值调整器200可以确定错误拒绝率270(基于错误拒绝计数260)是否满足错误拒绝阈值280,并且当满足时,调整第一级热词检测器120的热词检测阈值134。在一些示例中,第一级热词检测器120向热词检测阈值调整器200提供近未命中指示510,并且热词检测阈值调整器200仅在接收到第二级热词检测器140检测到音频数据136中的热词的确认时才标识错误拒绝实例550。
现在参考图5A,作为用作错误拒绝实例250的代理的近未命中的图示,示意图500a描绘了用户10说出在用户设备102(未示出)上的第一级热词检测器120处接收到的第一话语119a(“Hey Google”)。这里,第一级热词检测器120生成概率分值132,该概率分值132未能满足热词检测阈值134但是确实满足近未命中阈值520。例如,当热词检测阈值134是0.75并且近未命中阈值520是0.65(即,小于但通常接近热词检测阈值134)时,由于概率分值满足近未命中阈值520,0.70的概率分值(或在0.65和0.75之间的某一其它值)可能未能通过阈值余量满足热词检测阈值134。
在接收到第一话语119a之后的阈值时间段(例如,5秒,10秒,30秒等)内,图5B的示意图500b描绘了用户10在调用用户设备唤醒的另一尝试中发出/说出第二话语119b(“HEYGOOGLE”)。该话语119b可以被更强制性地和/或以更多的通知而说出(因为用户设备102未能针对先前话语119a发起唤醒过程)。在这种情况下,第一级热词检测器120和第二级热词检测器140两者都确定与第二话语119b相关联的流音频118中的热词的存在。尽管第一级热词检测器120计算未能满足热词检测阈值134的第一话语119a的概率分值132,但是热词检测阈值调整器200接收近未命中指示符510,因为第一话语的概率分值132满足近未命中阈值520,并且第二话语119b在阈值时间段内,从而通过代理指示第一级热词检测器120错误地错过流音频118中的热词。一旦第二级热词检测器140确认热词存在于第二话语119b中,热词检测阈值调整器200就可以标识错误拒绝实例250并且递增错误拒绝计数260。热词检测阈值调整器200可以响应于错误拒绝率270满足错误拒绝阈值280而降低第一级热词检测器120的热词检测阈值134。
在一些示例中,热词检测阈值调整器200可以基于表示热词使用、错误接受计数220和错误拒绝计数260的组合值通过对该组合值应用预定阈值来调整第一级热词检测器120的热词检测阈值134。例如,组合值是错误接受与错误拒绝的比率(即,因为错误接受计数220和错误拒绝计数260通常是反向相关的)。在其它示例中,热词检测阈值调整器200基于从执行第一级热词检测器120的其它用户设备102收集的信息来调整第一级热词检测器120的热词检测阈值134。在这些示例中,远程系统110估计来自大量用户设备102的热词使用、错误接受计数220(或错误接受率230)和错误拒绝计数260(或错误接受率270)的多变量分布,并且标识该分布中的异常值以触发由异常值的热词检测阈值调整器200进行的阈值调谐。即,具有充分偏离一般群体的错误接受计数220或错误拒绝计数260的设备可以是阈值调谐的候选。
图6是用于自动热词阈值调谐的方法600的操作的示例性布置的流程图。方法600包括,在操作602,在数据处理硬件112处,从执行第一级热词检测器120的用户设备102接收表征由第一级热词检测器120在由用户设备102捕获的流音频118中检测到的热词的音频数据136。第一级热词检测器120被配置为生成指示由用户设备102捕获的流音频118的音频特征中的热词的存在的概率分值132,并且当概率分值132满足第一级热词检测器120的热词检测阈值134时,检测流音频118中的热词。
在操作604,方法600包括由数据处理硬件112使用第二级热词检测器140来处理音频数据136,以确定第二级热词检测器140是否在音频数据136中检测到热词。当第二级热词检测器140在音频数据136中没有检测到热词时,方法600包括,在操作606,由数据处理硬件112在第一级热词检测器120处标识指示第一级热词检测器120在流音频118中不正确地检测到热词的错误接受实例210。
在操作608,方法600包括由数据处理硬件112确定与用户设备102的第一级热词检测器120相关联的错误接受率230是否满足错误接受率阈值240。错误接受率230基于在错误接受时间段内在第一级热词检测器120处标识的错误接受实例210的数目。当与第一级热词检测器120相关联的错误接受率230满足错误接受率阈值240时,在操作610,方法600通过数据处理硬件112调整第一级热词检测器120的热词检测阈值134。
图7是用于自动热词阈值调谐的方法700的操作的另一示例性布置的流程图。方法700包括,在操作702,在用户设备102的数据处理硬件103处接收由与数据处理硬件103通信的一个或多个麦克风106捕获的流音频118。在操作704,方法700包括由数据处理硬件103使用第一级热词检测器120生成指示流音频118的音频特征中的热词的存在的概率分值132。
在操作706,方法700包括由数据处理硬件103确定概率分值132是否满足热词检测阈值134。当概率分值132满足热词检测阈值134时,方法700包括:在操作708,由数据处理硬件103检测流音频118中的热词,以及在操作710,由数据处理硬件103向执行第二级热词检测器140的远程计算设备110传送表征使用第一级热词检测器120在流音频118中检测到的热词的音频数据136。
远程计算设备110被配置为在操作712确定第二级热词检测器140是否在音频数据136中检测到热词。远程计算设备被配置为,在操作714,当第二级热词检测器140在音频数据136中没有检测到热词时,在第一级热词检测器120处标识指示第一级热词检测器120在流音频118中不正确地检测到热词的错误接受实例210。当基于在错误接受时间段内在第一级热词检测器120处标识的错误接受实例210的数目的错误接受率230满足错误接受率阈值240时,方法700包括,在操作716,由数据处理硬件103调整第一级热词检测器120的热词检测阈值134。
图8是可以被用于实现本文档中描述的系统和方法的示例计算设备800的示意图。计算设备800旨在表示各种形式的数字计算机,诸如膝上型计算机、台式机、工作站、个人数字助理、服务器、刀片服务器、大型机和其他适当的计算机。这里示出的组件、它们的连接和关系及其功能意在为仅是示例性的,而不意在限制本文档中描述和/或要求保护的发明的实施方式。
计算设备800包括处理器810、存储器820、存储设备830、连接到存储器820和高速扩展端口850的高速接口/控制器840、以及连接到低速总线870和存储设备830的低速接口/控制器860。组件810、820、830、840、850和860中的每一个使用各种总线来互连,并且可以被安装在公共主板上或者酌情以其他方式安装。处理器810能够处理用于在计算设备800内运行的指令,包括存储在存储器820中或在存储设备830上以在诸如被耦合到高速接口840的显示器880的外部输入/输出设备上显示用于图形用户界面(GUI)的图形信息的指令。在其他实施方式中,可以酌情使用多个处理器和/或多条总线以及多个存储器和多种类型的存储器。另外,多个计算设备800可以被连接,其中每个设备提供必要操作的部分(例如,作为服务器库、刀片服务器组或多处理器系统)。
存储器820在计算设备800内非暂时性地存储信息。存储器820可以是计算机可读介质、(一个或多个)易失性存储器单元或(一个或多个)非易失性存储器单元。非暂时性存储器820可以是用于在临时或永久基础上存储程序(例如,指令序列)或数据(例如,程序状态信息)以供由计算设备800使用的物理设备。非易失性存储器的示例包括但不限于闪速存储器和只读存储器(ROM)/可编程只读存储器(PROM)/可擦除可编程只读存储器(EPROM)/电可擦除可编程只读存储器(EEPROM)(例如,通常用于固件,诸如引导程序)。易失性存储器的示例包括但不限于随机存取存储器(RAM)、动态随机存取存储器(DRAM)、静态随机存取存储器(SRAM)、相变存储器(PCM)以及磁盘或磁带。
存储设备830能够为计算设备800提供大容量存储。在一些实施方式中,存储设备830是计算机可读介质。在各种不同的实施方式中,存储设备830可以是软盘设备、硬盘设备、光盘设备或磁带设备、闪速存储器或其他类似的固态存储器设备或设备的阵列,包括存储区域网络或其他配置中的设备。在附加实施方式中,计算机程序产品被有形地体现在信息载体中。计算机程序产品包含指令,这些指令当被运行时,执行一种或多种方法,诸如上述方法。信息载体是计算机或机器可读介质,诸如存储器820、存储设备830或处理器810上的存储器。
高速控制器840管理计算设备800的带宽密集型操作,而低速控制器860管理较低带宽密集型操作。职责的这种分配仅是示例性的。在一些实施方式中,高速控制器840被耦合到存储器820、显示器880(例如,通过图形处理器或加速器),并且被耦合到可以接受各种扩展卡(未示出)的高速扩展端口850。在一些实施方式中,低速控制器860被耦合到存储设备830和低速扩展端口890。可以包括各种通信端口(例如,USB、蓝牙、以太网、无线以太网)的低速扩展端口890可以例如通过网络适配器被耦合到一个或多个输入/输出设备,诸如键盘、指点设备、扫描仪或诸如交换机或路由器的联网设备。
如图所示,可以以许多不同形式实现计算设备800。例如,它可以被实现为标准服务器800a或者多次实现在此类服务器800a的组中,作为膝上型计算机800b,或作为机架服务器系统800c的一部分。
能够在数字电子和/或光学电路系统、集成电路系统、专门地设计的ASIC(专用集成电路)、计算机硬件、固件、软件和/或其组合中实现本文中描述的系统和技术的各种实施方式。这些各种实施方式能够包括在包括至少一个可编程处理器的可编程系统上可运行和/或可解释的一个或多个计算机程序中的实施方式,该至少一个可编程处理器可以是专用的或通用的,被耦合以从存储系统、至少一个输入设备和至少一个输出设备接收数据和指令,并且向存储系统、至少一个输入设备和至少一个输出设备传送数据和指令。
软件应用(即,软件资源)可以指使得计算设备执行任务的计算机软件。在一些示例中,软件应用可被称为“应用”、“app”或“程序”。示例应用包括但不限于系统诊断应用、系统管理应用、系统维护应用、文字处理应用、电子表格应用,消息传递应用、媒体流应用,社交网络应用和游戏应用。
这些计算机程序(也称为程序、软件、软件应用或代码)包括用于可编程处理器的机器指令,并且能够用高级过程和/或面向对象编程语言和/或用汇编/机器语言实现。如本文中所使用的,术语“机器可读介质”和“计算机可读介质”是指用于向可编程处理器提供机器指令和/或数据的任何计算机程序产品、非暂时性计算机可读介质、装置和/或设备(例如,磁盘、光盘、存储器、可编程逻辑器件(PLD)),包括接收机器指令作为机器可读信号的机器可读介质。术语“机器可读信号”是指用于向可编程处理器提供机器指令和/或数据的任何信号。
本说明书中描述的过程和逻辑流程能够通过一个或多个可编程处理器,也称为数据处理硬件,运行一个或多个计算机程序以通过对输入数据操作并且生成输出来执行功能而执行。过程和逻辑流程还能够由专用逻辑电路系统,例如,FPGA(现场可编程门阵列)或ASIC(专用集成电路)执行。作为示例,适合于运行计算机程序的处理器包括通用和专用微处理器两者,以及任何种类的数字计算机的任何一个或多个处理器。通常,处理器将从只读存储器或随机存取存储器或两者接收指令和数据。计算机的必要元件是用于执行指令的处理器以及用于存储指令和数据的一个或多个存储器设备。通常,计算机还将包括或被操作地耦合以从用于存储数据的一个或多个大容量存储设备(例如,磁盘、磁光盘或光盘)接收数据或者向该一个或多个大容量存储设备传递数据,或者两者。然而,计算机不必具有此类设备。适合于存储计算机程序指令和数据的计算机可读介质包括所有形式的非易失性存储器、介质和存储器设备,作为示例包括半导体存储器设备,例如,EPROM、EEPROM和闪速存储器设备;磁盘,例如,内部硬盘或可移动盘;磁光盘;以及CD ROM和DVD-ROM盘。处理器和存储器能够由专用逻辑电路系统补充,或者并入在专用逻辑电路系统中。
为了提供与用户的交互,能够在计算机上实现本公开的一个或多个方面,该计算机具有用于向用户显示信息的显示设备,例如,CRT(阴极射线管)、LCD(液晶显示器)监视器或触摸屏幕,并且可选地包括用户能够通过其向计算机提供输入的键盘和指点设备,例如,鼠标或轨迹球。其他种类的设备也能够被用于提供与用户的交互;例如,提供给用户的反馈能够是任何形式的感觉反馈,例如,视觉反馈、听觉反馈或触觉反馈;并且能够以任何形式接收来自用户的输入,包括声学、语音或触觉输入。另外,计算机能够通过向由用户使用的设备发送文档并且从由用户使用的设备接收文档来与用户交互;例如,通过响应于从web浏览器接收到的请求而向用户的客户端设备上的web浏览器发送web页面。
已经描述了许多实施方式。然而,应理解,可以在不脱离本公开的精神和范围的情况下做出各种修改。因此,其他实施方式在以下权利要求的范围内。
Claims (26)
1.一种计算机实现的方法(600),当在数据处理硬件(810)上执行时,使得所述数据处理硬件(810)执行包括以下的操作:
从执行第一级热词检测器(120)的用户设备(102)接收表征由所述第一级热词检测器(120)在由所述用户设备(102)捕获的流音频(118)中检测到的热词的音频数据(136),所述第一级热词检测器(120)被配置为:
生成指示由所述用户设备(102)捕获的所述流音频(118)的音频特征中的热词的存在的概率分值(132);以及
当所述概率分值(132)满足所述第一级热词检测器(120)的热词检测阈值(134)时,在所述流音频(118)中检测到所述热词;
使用第二级热词检测器(140)处理所述音频数据(136),以确定所述第二级热词检测器(140)是否在所述音频数据(136)中检测到所述热词;
当所述第二级热词检测器(140)在所述音频数据(136)中没有检测到所述热词时,在所述第一级热词检测器(120)处标识指示所述第一级热词检测器(120)在所述流音频(118)中不正确地检测到热词的错误接受实例(210);
确定与所述用户设备(102)的所述第一级热词检测器(120)相关联的错误接受率(230)是否满足错误接受率阈值(240),所述错误接受率(230)基于在错误接受时间段内在所述第一级热词检测器(120)处标识的错误接受实例(210)的数目;以及
当与所述第一级热词检测器(120)相关联的所述错误接受率(230)满足所述错误接受率阈值(240)时,调整所述第一级热词检测器(120)的所述热词检测阈值(134)。
2.根据权利要求1所述的方法(600),其中,所述操作进一步包括:当所述第二级热词检测器(140)在所述音频数据(136)中没有检测到所述热词时,抑制在所述用户设备(102)上的用于处理所述热词和/或在所述流音频(118)中跟随所述热词的一个或多个其它词项的唤醒过程。
3.根据权利要求1或2所述的方法(600),其中,所述操作进一步包括,当所述第二级热词检测器(140)在所述音频数据(136)中检测到所述热词时:
确定是否从所述用户设备(102)接收到表征在所述流音频(118)中跟随所述热词的口头查询的后续音频数据(136);以及
当没有从所述用户设备(102)接收到表征所述口头查询的后续音频数据(136)时,在所述第一级热词检测器(120)处标识指示所述第一级热词检测器(120)在所述流音频(118)中不正确地检测到所述热词的错误接受实例(210)。
4.根据权利要求3所述的方法(600),其中,所述操作还包括,当从所述用户设备(102)接收到表征所述口头查询的后续音频时,处理所述口头查询。
5.根据权利要求1-4中的任一项所述的方法(600),其中,所述用户设备(102)被配置为当所述第一级热词检测器(120)在所述流音频(118)中检测到所述热词时,发起唤醒过程以处理所述热词和/或在所述流音频(118)中跟随所述热词的一个或多个其它词项。
6.根据权利要求1-5中的任一项所述的方法(600),其中,调整所述第一级热词检测器(120)的所述热词检测阈值(134)包括增加所述热词检测阈值(134)的值。
7.根据权利要求1-6中的任一项所述的方法(600),其中,所述操作进一步包括,当接收表征所述第一级热词检测器(120)在所述流音频(118)中检测到的所述热词的所述音频数据(136)时:
从所述用户设备(102)接收指示所述第一级热词检测器(120)在生成未能通过阈值余量满足所述热词检测阈值(134)的先前概率分值(132)之后的阈值时间段内在所述流音频(118)中检测到所述热词的近未命中指示,所述先前概率分值(132)指示由所述用户设备(102)捕获的流音频(118)的先前音频特征中的热词的存在;
当所述第二级热词检测器(140)在所述音频数据(136)中检测到所述热词时,基于所述近未命中指示,在所述第一级热词检测器(120)处标识指示所述第一级热词检测器(120)未能在所述流音频(118)的所述先前音频特征中初始地检测到所述热词的错误拒绝实例(250);
确定与所述用户设备(102)的所述第一级热词检测器(120)相关联的错误拒绝率(270)是否满足错误拒绝率阈值(280),所述错误拒绝率(270)基于在错误拒绝时间段内在所述第一级热词检测器(120)处标识的错误拒绝实例(250)的数目;以及
当与所述第一级热词检测器(120)相关联的所述错误拒绝率(270)满足所述错误拒绝率阈值(280)时,调整所述第一级热词检测器(120)的所述热词检测阈值(134)。
8.根据权利要求7所述的方法(600),其中,调整所述热词检测阈值(134)包括降低所述第一级热词检测器(120)的所述热词检测阈值(134)。
9.一种计算机实现的方法(700),所述方法当在用户设备(102)的数据处理硬件(103)上执行时,使得所述数据处理硬件(103)执行包括以下的操作:
接收由与所述数据处理硬件通信的一个或多个麦克风(106)捕获的流音频(118);
使用第一级热词检测器(120)生成指示所述流音频(118)的音频特征中的热词的存在的概率分值(132);
确定所述概率分值(132)是否满足热词检测阈值(134);
当所述概率分值(132)满足所述热词检测阈值(134)时:
在所述流音频(118)中检测所述热词;以及
向执行第二级热词检测器(140)的远程计算设备(110)传送表征使用所述第一级热词检测器(120)在所述流音频(118)中检测到的所述热词的音频数据(136),所述远程计算设备(110)被配置为:
确定所述第二级热词检测器(140)是否在所述音频数据(136)中检测到所述热词;以及
当所述第二级热词检测器(140)在所述音频数据(136)中没有检测到所述热词时,在所述第一级热词检测器(120)处标识指示所述第一级热词检测器(120)在所述流音频(118)中不正确地检测到所述热词的错误接受实例(210);以及
当基于在错误接受时间段内在所述第一级热词检测器(120)处标识的错误接受实例(210)的数目的错误接受率(230)满足错误接受率阈值(240)时,调整所述第一级热词检测器(120)的所述热词检测阈值(134)。
10.根据权利要求9所述的方法(700),其中,调整所述第一级热词检测器(120)的所述热词检测阈值(134)包括增加所述热词检测阈值(134)的值。
11.根据权利要求9或10所述的方法(700),其中,所述操作进一步包括:
当所述概率分值(132)满足所述热词检测阈值(134)时,在所述用户设备(102)上发起唤醒过程,以用于处理所述热词和/或在所述流音频(118)中跟随所述热词的一个或多个其它词项;以及
当所述第二级热词检测器(140)在所述音频数据(136)中没有检测到所述热词时,抑制所述用户设备(102)上的所述唤醒过程。
12.根据权利要求9-11中的任一项所述的方法(700),其中,所述操作进一步包括,当所述概率分值(132)满足所述热词检测阈值(134)时:
确定指示未能通过阈值余量满足所述热词检测阈值(134)的先前概率分值(132)在检测所述流音频(118)中的热词之前的阈值时间段内由所述第一级热词检测器(120)生成的近未命中指示;
向所述远程计算设备(110)传送所述近未命中指示,所述远程计算设备(110)被配置为当所述第二级热词检测器(140)在所述音频数据(136)中检测到所述热词时,基于所述近未命中指示在所述第一级热词检测器(120)处标识的错误拒绝实例(250),所述错误拒绝实例(250)指示所述第一级热词检测器(120)未能在所述流音频(118)的先前音频特征中初始地检测到所述热词;以及
当基于在错误拒绝时间段内在所述第一级热词检测器(120)处标识的错误拒绝实例(250)的数目的错误拒绝率(270)满足错误拒绝阈值(280)时,调整所述第一级热词检测器(120)的所述热词检测阈值(134)。
13.根据权利要求12所述的方法(700),其中,调整所述热词检测阈值(134)包括降低所述热词检测阈值(134)的值。
14.一种系统(800),包括:
数据处理硬件(810);以及
与所述数据处理硬件(810)通信的存储器硬件(820),所述存储器硬件(820)存储指令,所述指令在所述数据处理硬件(810)上执行时使得所述数据处理硬件(810)执行包括以下的操作:
从执行第一级热词检测器(120)的用户设备(102)接收表征由所述第一级热词检测器(120)在由所述用户设备(102)捕获的流音频(118)中检测到的热词的音频数据(136),所述第一级热词检测器(120)被配置为:
生成指示由所述用户设备(102)捕获的所述流音频(118)的音频特征中的热词的存在的概率分值(132);以及
当所述概率分值(132)满足所述第一级热词检测器(120)的热词检测阈值(134)时,在所述流音频(118)中检测到所述热词;
使用第二级热词检测器(140)处理所述音频数据(136),以确定所述第二级热词检测器(140)是否在所述音频数据(136)中检测到所述热词;
当所述第二级热词检测器(140)在所述音频数据(136)中没有检测到所述热词时,在所述第一级热词检测器(120)处标识指示所述第一级热词检测器(120)在所述流音频(118)中不正确地检测到热词的错误接受实例(210);
确定与所述用户设备(102)的所述第一级热词检测器(120)相关联的错误接受率(230)是否满足错误接受率阈值(240),所述错误接受率(230)基于在错误接受时间段内在所述第一级热词检测器(120)处标识的错误接受实例(210)的数目;以及
当与所述第一级热词检测器(120)相关联的所述错误接受率(230)满足所述错误接受率阈值(240)时,调整所述第一级热词检测器(120)的所述热词检测阈值(134)。
15.根据权利要求14所述的系统(800),其中,所述操作进一步包括:当所述第二级热词检测器(140)在所述音频数据(136)中没有检测到所述热词时,抑制在所述用户设备(102)上的用于处理所述热词和/或在所述流音频(118)中跟随所述热词的一个或多个其它词项的唤醒过程。
16.根据权利要求14或15所述的系统(800),其中,所述操作进一步包括,当所述第二级热词检测器(140)在所述音频数据(136)中检测到所述热词时:
确定是否从所述用户设备(102)接收到表征在所述流音频(118)中跟随所述热词的口头查询的后续音频数据(136);以及
当没有从所述用户设备(102)接收到表征所述口头查询的后续音频数据(136)时,在所述第一级热词检测器(120)处标识指示所述第一级热词检测器(120)在所述流音频(118)中不正确地检测到热词的错误接受实例(210)。
17.根据权利要求16所述的系统(800),其中,所述操作进一步包括,当从所述用户设备(102)接收到表征所述口头查询的后续音频时,处理所述口头查询。
18.根据权利要求14-17中的任一项所述的系统(800),其中,所述用户设备(102)被配置为当所述第一级热词检测器(120)在所述流音频(118)中检测到所述热词时,发起唤醒过程以处理所述热词和/或在所述流音频(118)中跟随所述热词的一个或多个其它词项。
19.根据权利要求14-18中的任一项所述的系统(800),其中,调整所述第一级热词检测器(120)的所述热词检测阈值(134)包括增加所述热词检测阈值(134)的值。
20.根据权利要求14-19中的任一项所述的系统(800),其中,所述操作进一步包括,当接收表征由所述第一级热词检测器(120)在所述流音频(118)中检测到的所述热词的所述音频数据(136)时:
从所述用户设备(102)接收指示所述第一级热词检测器(120)在生成未能通过阈值余量满足所述热词检测阈值(134)的先前概率分值(132)之后的阈值时间段内在所述流音频(118)中检测到所述热词的近未命中指示,所述先前概率分值(132)指示由所述用户设备(102)捕获的流音频(118)的先前音频特征中的热词的存在;
当所述第二级热词检测器(140)在所述音频数据(136)中检测到所述热词时,基于所述近未命中指示,在所述第一级热词检测器(120)处标识指示所述第一级热词检测器(120)未能在所述流音频(118)的所述先前音频特征中初始地检测到所述热词的错误拒绝实例(250);
确定与所述用户设备(102)的所述第一级热词检测器(120)相关联的错误拒绝率(270)是否满足错误拒绝率阈值(280),所述错误拒绝率(270)基于在错误拒绝时间段内在所述第一级热词检测器(120)处标识的错误拒绝实例(250)的数目;以及
当与所述第一级热词检测器(120)相关联的所述错误拒绝率(270)满足所述错误拒绝率阈值(280)时,调整所述第一级热词检测器(120)的所述热词检测阈值(134)。
21.根据权利要求20所述的系统(800),其中,调整所述热词检测阈值(134)包括降低所述第一级热词检测器(120)的所述热词检测阈值(134)。
22.一种系统(100),包括:
用户设备(102)的数据处理硬件(103);以及
与所述数据处理硬件(103)通信的存储器硬件(105),所述存储器硬件(105)存储指令,所述指令当在所述数据处理硬件(103)上执行时使得所述数据处理硬件(103)执行包括以下的操作:
接收由与所述数据处理硬件通信的一个或多个麦克风(106)捕获的流音频(118);
使用第一级热词检测器(120)生成指示所述流音频(118)的音频特征中的热词的存在的概率分值(132);
确定所述概率分值(132)是否满足热词检测阈值(134);
当所述概率分值(132)满足所述热词检测阈值(134)时:
检测所述流音频(118)中的所述热词;以及
向执行第二级热词检测器(140)的远程计算设备(110)传送表征使用所述第一级热词检测器(120)在所述流音频(118)中检测到的所述热词的音频数据(136),所述远程计算设备(110)被配置为:
确定所述第二级热词检测器(140)是否在所述音频数据(136)中检测到所述热词;以及
当所述第二级热词检测器(140)在所述音频数据(136)中没有检测到所述热词时,在所述第一级热词检测器(120)处标识指示所述第一级热词检测器(120)在所述流音频(118)中不正确地检测到所述热词的错误接受实例(210);以及
当基于在错误接受时间段内在所述第一级热词检测器(120)处标识的错误接受实例(210)的数目的错误接受率(230)满足错误接受率阈值(240)时,调整所述第一级热词检测器(120)的所述热词检测阈值(134)。
23.根据权利要求22所述的系统(100),其中,调整所述第一级热词检测器(120)的所述热词检测阈值(134)包括增加所述热词检测阈值(134)的值。
24.根据权利要求22或23所述的系统(100),其中,所述操作进一步包括:
当所述概率分值(132)满足所述热词检测阈值(134)时,在所述用户设备(102)上发起唤醒过程,以用于处理所述热词和/或在所述流音频(118)中跟随所述热词的一个或多个其它词项;以及
当所述第二级热词检测器(140)在所述音频数据(136)中没有检测到所述热词时,抑制所述用户设备(102)上的所述唤醒过程。
25.根据权利要求22-24中的任一项所述的系统(100),其中,所述操作进一步包括,当所述概率分值(132)满足所述热词检测阈值(134)时:
确定指示未能通过阈值余量满足所述热词检测阈值(134)的先前概率分值(132)在检测所述流音频(118)中的所述热词之前的阈值时间段内由所述第一级热词检测器(120)生成的近未命中指示;
向所述远程计算设备(110)传送所述近未命中指示,所述远程计算设备(110)被配置为当所述第二级热词检测器(140)在所述音频数据(136)中检测到所述热词时,基于所述近未命中指示在所述第一级热词检测器(120)处标识错误拒绝实例(250),所述错误拒绝实例(250)指示所述第一级热词检测器(120)未能在所述流音频(118)的先前音频特征中初始地检测到所述热词;以及
当基于在错误拒绝时间段内在所述第一级热词检测器(120)处标识的错误拒绝实例(250)的数目的错误拒绝率(270)满足错误拒绝阈值(280)时,调整所述第一级热词检测器(120)的所述热词检测阈值(134)。
26.根据权利要求25所述的系统(100),其中,调整所述热词检测阈值(134)包括降低所述热词检测阈值(134)的值。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US16/898,278 US11610578B2 (en) | 2020-06-10 | 2020-06-10 | Automatic hotword threshold tuning |
US16/898,278 | 2020-06-10 | ||
PCT/US2021/022443 WO2021252040A1 (en) | 2020-06-10 | 2021-03-15 | Automatic hotword threshold tuning |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115699165A true CN115699165A (zh) | 2023-02-03 |
Family
ID=75478163
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202180040933.1A Pending CN115699165A (zh) | 2020-06-10 | 2021-03-15 | 自动热词阈值调谐 |
Country Status (6)
Country | Link |
---|---|
US (2) | US11610578B2 (zh) |
EP (1) | EP4165627A1 (zh) |
JP (1) | JP7516571B2 (zh) |
KR (1) | KR20230020523A (zh) |
CN (1) | CN115699165A (zh) |
WO (1) | WO2021252040A1 (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20200141860A (ko) * | 2019-06-11 | 2020-12-21 | 삼성전자주식회사 | 전자 장치 및 그 제어 방법 |
US11721338B2 (en) * | 2020-08-26 | 2023-08-08 | International Business Machines Corporation | Context-based dynamic tolerance of virtual assistant |
US11749267B2 (en) * | 2020-11-20 | 2023-09-05 | Google Llc | Adapting hotword recognition based on personalized negatives |
US20220284883A1 (en) * | 2021-03-05 | 2022-09-08 | Comcast Cable Communications, Llc | Keyword Detection |
US11783850B1 (en) * | 2021-03-30 | 2023-10-10 | Amazon Technologies, Inc. | Acoustic event detection |
Family Cites Families (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9818407B1 (en) | 2013-02-07 | 2017-11-14 | Amazon Technologies, Inc. | Distributed endpointing for speech recognition |
US9240182B2 (en) | 2013-09-17 | 2016-01-19 | Qualcomm Incorporated | Method and apparatus for adjusting detection threshold for activating voice assistant function |
US20160055847A1 (en) | 2014-08-19 | 2016-02-25 | Nuance Communications, Inc. | System and method for speech validation |
US10789041B2 (en) | 2014-09-12 | 2020-09-29 | Apple Inc. | Dynamic thresholds for always listening speech trigger |
US10079015B1 (en) * | 2016-12-06 | 2018-09-18 | Amazon Technologies, Inc. | Multi-layer keyword detection |
US10311876B2 (en) * | 2017-02-14 | 2019-06-04 | Google Llc | Server side hotwording |
US10872599B1 (en) | 2018-06-28 | 2020-12-22 | Amazon Technologies, Inc. | Wakeword training |
US10878811B2 (en) | 2018-09-14 | 2020-12-29 | Sonos, Inc. | Networked devices, systems, and methods for intelligently deactivating wake-word engines |
US11232788B2 (en) | 2018-12-10 | 2022-01-25 | Amazon Technologies, Inc. | Wakeword detection |
US11205420B1 (en) * | 2019-06-10 | 2021-12-21 | Amazon Technologies, Inc. | Speech processing using a recurrent neural network |
US11355102B1 (en) * | 2019-12-12 | 2022-06-07 | Amazon Technologies, Inc. | Wakeword detection |
-
2020
- 2020-06-10 US US16/898,278 patent/US11610578B2/en active Active
-
2021
- 2021-03-15 JP JP2022576157A patent/JP7516571B2/ja active Active
- 2021-03-15 EP EP21718272.4A patent/EP4165627A1/en active Pending
- 2021-03-15 CN CN202180040933.1A patent/CN115699165A/zh active Pending
- 2021-03-15 KR KR1020237000508A patent/KR20230020523A/ko active Search and Examination
- 2021-03-15 WO PCT/US2021/022443 patent/WO2021252040A1/en unknown
-
2023
- 2023-03-10 US US18/181,895 patent/US20230206908A1/en active Pending
Also Published As
Publication number | Publication date |
---|---|
US11610578B2 (en) | 2023-03-21 |
KR20230020523A (ko) | 2023-02-10 |
US20210390948A1 (en) | 2021-12-16 |
US20230206908A1 (en) | 2023-06-29 |
EP4165627A1 (en) | 2023-04-19 |
WO2021252040A1 (en) | 2021-12-16 |
JP7516571B2 (ja) | 2024-07-16 |
JP2023531398A (ja) | 2023-07-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7516571B2 (ja) | ホットワードしきい値自動チューニング | |
US11749267B2 (en) | Adapting hotword recognition based on personalized negatives | |
US11756572B2 (en) | Self-supervised speech representations for fake audio detection | |
US11790888B2 (en) | Multi channel voice activity detection | |
CN113412516A (zh) | 基于客户端计算的内容元数据的话音查询QoS | |
US20240331683A1 (en) | Hotwording by Degree | |
US12080276B2 (en) | Adapting automated speech recognition parameters based on hotword properties | |
US20230113883A1 (en) | Digital Signal Processor-Based Continued Conversation | |
US20240127808A1 (en) | Automated assistant that utilizes radar data to determine user presence and virtually segment an environment | |
US20240013782A1 (en) | History-Based ASR Mistake Corrections | |
JP2024538771A (ja) | デジタル信号プロセッサベースの継続的な会話 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |