CN112581982A

CN112581982A - 询问结束检测

Info

Publication number: CN112581982A
Application number: CN202011326900.7A
Authority: CN
Inventors: G.西姆科; M.C.帕拉达圣马丁; S.M.香农
Original assignee: Google LLC
Current assignee: Google LLC
Priority date: 2017-06-06
Filing date: 2018-06-06
Publication date: 2021-03-30
Also published as: US11551709B2; WO2018226779A1; EP4083998A1; US10593352B2; CN110520925B; US20180350395A1; EP3577645B1; CN110520925A; US20200168242A1; EP3577645A1

Abstract

公开了用于检测询问结束的包括编码在计算机存储介质上的计算机程序的方法、系统和装置。公开了一种方法，包括：在数据处理硬件处，接收与用户说出的话语相对应的音频数据；由所述数据处理硬件从所述音频数据中检测所述话语的声学语音特性，所检测到的声学语音特性包括音调和语音速率；由所述数据处理硬件使用询问结束模型基于所述话语的声学语音特性来确定所述话语的置信度分数，所述置信度分数指示所述话语是完整话语的可能性，并且所述询问结束模型包括具有一个或多个长短期记忆(LSTM)层的递归神经网络；由所述数据处理硬件确定所述话语的置信度分数是否满足置信度分数阈值；以及当话语的置信度分数满足置信度分数阈值时：由数据处理硬件确定话语是可能完整的；以及由数据处理硬件指令停用正在检测话语的麦克风。

Description

询问结束检测

本申请是国际申请日为2018年6月6日、中国申请号为201880021601.7、发明名称为“询问结束检测”的发明专利申请的分案申请。

相关申请的交叉引用

本申请要求2017年6月6日提交的美国临时申请第62/515,771号的权益，通过引用将其合并。

技术领域

本公开涉及自然语言处理。

背景技术

自然语言处理涉及计算机和人类自然语言之间的交互。具体地，自然语言处理集中于如何对计算机编程来处理不同数量的自然语言数据。自然语言处理可以包括语音识别、自然语言理解和自然语言生成。

发明内容

自然语言处理系统通常使用结束指示器(endpointer)来确定用户何时开始和完成说话。一旦被划定，代表用户语音的音频的部分被传输到系统的另一组件以用于进一步处理，或者其他组件可以被激活或通电以用于额外处理。一些传统的结束指示器在确定话语何时开始或结束时评估单词之间的停顿的持续时间。例如，如果用户说“what is<长停顿>for dinner(正餐吃什么)”，则传统的结束指示器可能在长停顿处分割话音输入，并且可能指令自然语言处理系统尝试处理不完整的短语“what is(是什么)”，而不是完整的短语“what is for dinner(正餐吃什么)”。如果结束指示器为话音输入指定了不正确的开始或结束点，则使用自然语言处理系统来处理话音输入的结果可能不准确或不理想。指示结束(endpoint)不准确的话语可能导致系统不必要地激活系统的另一组件来进一步处理音频数据。这种不必要的激活可能会浪费计算资源和/或电池电量，因为用户可能最终重复相同的话语，希望系统适当地划定用户的语音并激活适当的组件或执行适当的额外处理。

一些自然语言处理系统可以包括语音解码器。语音解码器可以被配置为使用语言模型来处理与用户话语相对应的音频数据，以生成音频数据的转录，并确定用户何时很可能完成说话。远程服务器可以实施语音解码器，该语音解码器可能需要在用户说话时接收话语的设备通过网络传输音频数据的部分，并且该接收设备使用麦克风检测话语。

网络速度可以决定(dictate)接收设备能够通过网络向远程服务器传输音频数据的方式。快速网络允许接收设备以大约每100毫秒一个分组的频率来传输小分组的音频数据，每个小分组可以包括大约100毫秒的音频数据。慢速网络可能会阻止接收设备以相似的频率传输音频数据。当通过慢速网络传输音频数据时，接收设备可以以大约每800毫秒一个分组的频率来传输较大分组音频数据，每个较大分组可以包括800毫秒的音频数据。

在语音解码器接收较大分组的音频的情况下，语音解码器的效率可能会降低。在这种情况下，语音解码器可能无法及时确定用户是否很可能已经完成说话。在这样做时，检测话语的设备的麦克风可能保持打开，并且检测对于该设备来说不意图接收的声音。话语所指定的动作的执行也可能被延迟。如果用户说给妈妈打电话，那么电话发起呼叫可能会有延迟，因为语音解码器在确定用户何时很可能停止说话时很慢，这导致电话在执行话语所指定的动作时很慢。电话还可能检测额外音频，这可能导致电话或服务器执行的动作不同于用户意图的动作，这可能导致在解释和作用于检测到的额外音频时计算资源的浪费。

为了纠正上述识别的问题，自然语言处理系统可以包括询问结束(end of query)检测器，其使用机器学习和神经网络来快速确定用户是否很可能已经停止说话。询问结束检测器可以应用被配置为确定接收的音频数据是很可能对应于完整话语还是不完整话语的模型。可以使用包括完整话语和不完整话语的标记的训练数据来训练该模型。该模型可以使用包括音调、响度、语调、锐度、清晰度、粗糙度、不稳定性和语音速率在内的各种声学语音特性来确定用户是否很可能已经完成说话。在使用语音来确定用户是否很可能已经完成说话时，该模型还可以考虑在停顿期间可能出现的其他声学提示(acoustic cue)。

询问结束检测器能够比语音解码器更快地确定所接收的音频数据是很可能对应于完整话语还是不完整话语，特别是当远程服务器以慢频率接收大分组的音频数据时。因此，远程服务器在确定用户何时很可能已经完成说话时可以不延迟，并且可以传输停用麦克风的指令，而无需等待语音解码器确定用户很可能已经完成说话。因此，可以节省计算资源和功率。

根据本申请中描述的主题的创新方面，一种用于检测询问结束的方法包括以下动作：接收与用户说出的话语相对应的音频数据；将询问结束模型应用于音频数据，该询问结束模型(i)被配置为确定反映话语是完整话语的可能性(likelihood)的置信度分数以及(ii)使用来自完整话语和来自不完整话语的音频数据被训练；基于应用询问结束模型来确定反映话语是完整话语的可能性的置信度分数，该询问结束模型(i)被配置为确定反映话语是完整话语的可能性的置信度分数以及(ii)使用来自完整话语和来自不完整话语的音频数据被训练；将反映话语是完整话语的可能性的置信度分数与置信度分数阈值进行比较；基于将反映话语是完整话语的可能性的置信度分数与置信度分数阈值进行比较，确定话语是很可能完整的还是很可能不完整的；以及基于确定话语是很可能完整的还是很可能不完整的，提供用于输出的指令以(i)将接收话语的麦克风保持在活跃状态或者(ii)停用接收话语的麦克风。

根据本申请中描述的主题的另一创新方面，一种方法包括：在数据处理硬件处，接收与用户说出的话语相对应的音频数据；由所述数据处理硬件从所述音频数据中检测所述话语的声学语音特性，所检测到的声学语音特性包括音调和语音速率；由所述数据处理硬件使用询问结束模型基于所述话语的声学语音特性来确定所述话语的置信度分数，所述置信度分数指示所述话语是完整话语的可能性，并且所述询问结束模型包括具有一个或多个长短期记忆(LSTM)层的递归神经网络；由所述数据处理硬件确定所述话语的置信度分数是否满足置信度分数阈值；以及当话语的置信度分数满足置信度分数阈值时：由数据处理硬件确定话语是可能完整的；以及由数据处理硬件指令停用正在检测话语的麦克风。

根据本申请中描述的主题的另一创新方面，一种系统包括：数据处理硬件；和与数据处理硬件通信并存储指令的存储器硬件，所述指令在于数据处理硬件上执行时使数据处理硬件执行操作，所述操作包括：接收与用户说出的话语相对应的音频数据；从所述音频数据中检测所述话语的声学语音特性，所检测到的声学语音特性包括音调和语音速率；使用询问结束模型基于所述话语的声学语音特性来确定所述话语的置信度分数，所述置信度分数指示所述话语是完整话语的可能性，并且所述询问结束模型包括具有一个或多个长短期记忆(LSTM)层的递归神经网络；确定所述话语的置信度分数是否满足置信度分数阈值；以及当话语的置信度分数满足置信度分数阈值时：确定话语是可能完整的；以及指令停用正在检测话语的麦克风。

这些和其他实施方式可以每者可选地包括以下特征的一个或多个。动作还包括，基于将反映话语是完整话语的可能性的置信度分数与置信度分数阈值进行比较，确定置信度分数满足置信度分数阈值。确定话语是很可能完整的还是很可能不完整的动作包括，基于确定置信度分数满足置信度分数阈值而确定话语是很可能完整的。提供用于输出的指令以(i)将接收话语的麦克风保持在活跃状态或者(ii)停用接收话语的麦克风的动作包括，提供用于输出的指令以停用接收话语的麦克风。动作还包括生成音频数据的转录，并提供转录用于输出。动作还包括从用户接收确认用户完成说话的数据；以及基于接收到确认用户完成说话的数据，更新询问结束模型。

动作还包括，基于将反映话语是完整话语的可能性的置信度分数与置信度分数阈值进行比较，确定置信度分数不满足置信度分数阈值。确定话语是很可能完整的还是很可能不完整的动作包括，基于确定置信度分数不满足置信度分数阈值而确定话语是很可能不完整的。提供用于输出的指令以(i)将接收话语的麦克风保持在活跃状态或者(ii)停用接收话语的麦克风的动作包括，提供用于输出的指令以将麦克风保持在活跃状态。动作还包括接收多个完整话语和多个不完整话语的音频数据；以及使用机器学习、使用多个完整话语和多个不完整话语的音频数据来训练询问结束模型。询问结束模型被配置为基于话语的声学语音特性来确定反映话语是完整话语的可能性的置信度分数，声学语音特性包括音调、响度、语调、锐度、清晰度、粗糙度、不稳定性和语音速率。

动作还包括确定语音解码器还没有确定话语是很可能完整的还是很可能不完整的，语音解码器被配置为生成音频数据的转录并且被配置为确定话语是很可能完整的还是很可能不完整的。确定话语是很可能完整的还是很可能不完整的动作仅基于将反映话语是完整话语的可能性的置信度分数与置信度分数阈值进行比较。语音解码器使用语言模型来确定话语是很可能完整的还是很可能不完整的。动作还包括确定语音解码器已经确定话语是很可能完整的还是很可能不完整的，语音解码器被配置为生成音频数据的转录并且被配置为确定话语是很可能完整的还是很可能不完整的。确定话语是很可能完整的还是很可能不完整的动作基于(i)将反映话语是完整话语的可能性的置信度分数与置信度分数阈值进行比较以及(ii)语音解码器确定话语是很可能完整的还是很可能不完整的。

该方面的其他实施方式包括相应的系统、装置和计算机程序，这些系统、装置和计算机程序包括可以记录在一个或多个计算机存储设备上的指令，每者被配置成执行这些方法的操作。

本申请中描述的主题可以具有以下优点的一个或多个。

用户可以使用计算设备的话音输入能力，并且以用户舒适的速度说话。这可以增加计算设备对用户的效用，特别是对于具有语音失序或障碍的用户。可以在话语的意图结束处被指示结束，导致更准确或期望的自然语言处理输出，以及自然语言处理系统的更快处理。这可以减少计算资源的使用，并且可以节省功率。此外，在更合适的点关闭麦克风可以进一步减少计算资源的使用和节省功率，因为麦克风不需要被激活，并且可以避免在基于麦克风检测到的额外音频解释和执行任务中使用计算资源。

本说明书中描述的主题内容的一个或多个实施方式的细节在附图和以下描述中阐述。从描述、附图和权利要求书中，主题内容的其他特征、方面和优点将变得显而易见。

附图说明

图1和图2示出了用于检测话语结束(end of an utterance)的示例系统。

图3示出了用于训练话语结束检测器的示例系统。

图4示出了用于检测询问结束模型的示例过程。

图5示出了显示出示例的基于LSTM的分类器的计算和条件独立性结构的有向图形模型。

图6示出了针对单个话语的经训练的话音活动分类器和询问结束分类器的示例后验(posterior)。

图7示出了计算设备和移动计算设备的示例。

在附图中，相同的参考数字始终代表相应的部分。

具体实施方式

图1示出了用于检测话语结束的示例系统100。简而言之，并且如下文更详细描述的，用户102说出话语104。计算设备106的麦克风检测话语104。当用户102说话时，计算设备106将话语104的音频数据108的部分传输到服务器110。当服务器110接收到音频数据108的部分时，服务器110处理音频数据108的部分，并确定用户102何时可能完成说话。服务器110向计算设备106传输指令112，以停用计算设备106的麦克风。

在阶段A，并且在时间0，用户102开始说出话语104。例如，用户可以通过说“what(什么)”来开始话语104。计算设备106通过麦克风检测话语104。计算设备106可以是能够检测声音的任何类型的计算设备。例如，计算设备106可以是电话、平板电脑、智能手表、智能扬声器、膝上型计算机、台式计算机或任何其他类似类型的计算设备。

当用户102开始说话时，计算设备106接收并处理话语104。计算设备106对麦克风检测到的音频进行采样，并使用模数转换器将模拟信号转换成数字信号。计算设备106可以将数字化的音频存储在缓冲器中，以供计算设备106进一步处理或将数字化的音频传输到服务器106。

在图1所示的示例中，计算设备106和服务器110通过快速网络114进行通信。与如果计算设备106和服务器110通过较慢的网络进行通信的情况相比，快速网络114允许计算设备106以更高的频率传输音频数据108的较小部分。下面将在图2中描述具有较慢网络的示例。

在阶段B，计算设备106开始向服务器110传输音频数据108的部分。例如，在等于200毫秒的时间，计算设备106传输音频数据108的部分116。部分116可以对应于音频数据108的前100毫秒或“what(什么)”的初始部分。因为网络114足够快，所以计算设备106可以继续以短间隔传输音频数据108的额外部分。例如，在阶段C，并且在等于300毫秒的时间，计算设备106传输音频数据108的部分118。音频数据108的部分118可以对应于音频数据108的第二个100毫秒或“what(什么)”的剩余部分。在阶段D，并且在等于400毫秒的时间，计算设备106将音频数据108的部分120传输到服务器110。音频数据108的部分120可以对应于音频数据108的第三个100毫秒或“what(什么)”和“is(是)”之间的沉默时段。

服务器110接收音频数据108的部分116、118和120，并使用语音解码器122和询问结束检测器124来处理它们。语音解码器122可以被配置为识别包括在音频数据108的部分中的不同音素。音频数据108的部分116、118和120可能不对应于话语104的不同音素。例如，音频数据108的部分116可以包括“wh”音和“a”音的一些。音频数据108的部分118可以包括“a”音的剩余部分和“t”音。语音解码器122处理部分116和118，并识别“wh”音、“a”音和“t”音的音素。语音解码器122可以处理部分120并识别沉默音素。在一些实施方式中，服务器的不同处理引擎基于音频数据108的部分116、118和120来识别音素，并将音素和定时数据提供给语音解码器122。定时数据可以包括用户102用来说出每个音素的时间量。在一些实施方式中，计算设备106识别音素，并且部分116、118和120中的每一个对应于不同的音素。在这种情况下，部分116、118和120中的每一个可以包括指定用户102用于说出每个音素的时间量的定时数据。

语音解码器122处理音频数据108的音素，并生成音频数据108的转录(transcription)128。在一些实施方式中，语音解码器122使用语言模型126来生成转录128。语音解码器122还可以使用语言模型126来确定用户102何时停止说话。例如，通过将语言模型126应用于音频数据108的初始音素，语音解码器122可以确定用户在“what is”之后很可能还没有完成说话，因为“what is”可能是不完整的话语。

当语音解码器122接收音频数据108的部分116、118和120时，语音解码器122处理部分116、118和120。语音解码器122在接收音频数据108的与“California(加利福尼亚)”相对应的部分时可以确定用户102可能说了“what is”。

询问结束检测器124也接收音频数据108的部分116、118和120，并将它们应用于经训练的询问结束模型130。当服务器110接收音频数据108的部分116、118和120时，询问结束检测器124处理这些部分。询问结束检测器124生成置信度分数，置信度分数反映用户102已经完成说话(即话语是完整的)的可能性。换句话说，置信度分数反映话语104是完整的概率。询问结束检测器124将置信度分数与阈值分数进行比较。如果置信度分数满足阈值，那么询问结束检测器124确定用户102很可能已经完成说话，并且话语很可能是完整的。

作为示例，询问结束检测器124处理音频数据108的部分116、118和120，这些部分对应于用户102说“what”、接着是“what”和“is”之间的沉默。询问结束检测器124接收第一部分116，并使用经训练的询问结束模型130来处理部分116。询问结束检测器124生成置信度分数0.01，并将该置信度分数与置信度阈值0.8进行比较。询问结束检测器124确定在部分116之后，话语很可能是不完整的，并且用户102还没有完成说话。

询问结束检测器124接收部分118，并使用经训练的询问结束模型130来处理部分118。询问结束检测器124生成置信度分数0.01，并将该置信度分数与置信度阈值0.8进行比较。询问结束检测器124确定在部分116和118之后，话语很可能是不完整的，并且用户102还没有完成说话。

询问结束检测器124接收部分120，并使用经训练的询问结束模型130来处理部分120。询问结束检测器124生成置信度分数0.2，并将该置信度分数与置信度阈值0.8进行比较。询问结束检测器124确定在部分116、118和120之后，话语很可能是不完整的，并且用户102还没有完成说话。在此实例中，置信度分数可能更高，因为部分120包括沉默。

在阶段E，并且在等于1500毫秒的时间，用户完成说出话语104。此时，用户102可能还没有向计算设备106提供用户102已经完成说话的任何指示。因此，服务器110没有来自用户102的任何信息指示用户102已经完成说话。计算设备106的麦克风保持活跃，并且可以接收和处理任何额外的声音。

在用户完成说话后不久，计算设备106向服务器110传输包括用户的语音的音频数据108的最后部分。在包括用户的语音的音频数据108的最后部分之后，计算设备106传输指示沉默的音频数据的部分，类似于部分120。当服务器110继续接收音频数据的部分时，语音解码器122和询问结束检测器124继续处理音频数据的部分。语音解码器122分析音素，并使用语言模型来生成转录128，并确定用户何时可能已经完成说话。询问结束检测器124将经训练的询问结束模型130应用于音频数据的部分，以确定用户何时可能已经完成说话。

在阶段F，并且在等于1600毫秒的时间，语音解码器122确定用户102可能已经完成说话。语音解码器122生成转录128，以及输出132用于计算设备106在等于1800毫秒的时间对用户的话语104指示结束(endpoint)。语音解码器122可以被配置为向用户102很可能已经完成说话的点增加300毫秒，以防用户102实际上还没有完成说话。如果用户102再次开始说话，那么语音解码器122分析音频数据部分的过程继续。

在阶段G，并且在等于1600毫秒的时间，询问结束检测器124确定用户102很可能已经完成说话。询问结束检测器124生成输出134用于计算设备106在等于1800毫秒的时间对用户的话语104指示结束。询问结束检测器124可以被配置为向用户102很可能已经完成说话的点增加300毫秒，以防用户102实际上还没有完成说话。如果用户102再次开始说话，那么询问结束检测器124分析音频数据部分的过程继续。

因为网络114是快速网络，所以语音解码器122和询问结束检测器124几乎同时确定用户很可能已经完成说话，以及应该在等于1800毫秒的时间对话语104指示结束。通过对话语104指示结束，服务器110确定用户很可能完成说话的时间点。服务器不会在结束点之后将额外音频作为用户语音进行处理。

在阶段H，服务器110向计算设备106传输指令112，以在等于1800毫秒的时间停用麦克风。计算设备106接收指令112，并在所指令的时间停用麦克风。

在阶段I，服务器110输出话语104的转录128。在一些实施方式中，服务器110可以将转录128传输到计算设备106。在这种情况下，计算设备106可以在计算设备106的显示器上显示转录128。在一些实施方式中，服务器110可以基于转录128执行动作，诸如发起电话呼叫、发送消息、打开应用、发起搜索询问或任何其他类似动作。

图2示出了用于检测话语结束的示例系统200。简而言之，并且如下文更详细描述的，用户202说出话语204。计算设备206的麦克风检测话语204。当用户202说话时，由于连接计算设备206和服务器210的慢速网络214，计算设备206不能连续地传输音频数据208的小部分。而是，计算设备206以不那么频繁的间隔来传输音频数据208的较大分组216和220。当服务器210接收音频数据208的分组216和220时，服务器210处理音频数据208的分组216和220，并确定用户202何时很可能完成说话。服务器210向计算设备206传输指令212，以停用计算设备206的麦克风。

在阶段A，并且在时间0，用户202开始说出话语204。例如，用户可以通过说“what(什么)”来开始话语204。计算设备206通过麦克风检测话语204。计算设备206可以类似于计算设备106，并且可以是能够检测声音的任何类型的计算设备。例如，计算设备206可以是电话、平板电脑、智能手表、智能扬声器、膝上型计算机、台式计算机或任何其他类似类型的计算设备。

当用户202开始说话时，计算设备206接收并处理话语204。计算设备206对麦克风检测到的音频进行采样，并使用模数转换器将模拟信号转换成数字信号。计算设备206可以将数字化的音频存储在缓冲器中，以供计算设备206进一步处理或将数字化的音频传输到服务器206。

在图2所示的示例中，计算设备206和服务器210通过慢速网络214进行通信。慢速网络214阻止了计算设备206以类似于图1中计算设备106传输部分116、118和120的频率的频率来传输音频数据208的部分。相反，计算设备206只能够以比图1中更低的频率向服务器210传输较大的分组216和220。

在阶段B，计算设备206向服务器传输音频数据208的第一分组216。例如，在等于800毫秒的时间，计算设备206传输音频数据208的分组216。分组216可以对应于音频数据208的前800毫秒或词语“what is the weather.(天气怎么样。)”因为网络214太慢，所以计算设备206在阶段D之前不能传输任何额外的音频分组。

在计算设备206将音频数据208的下一分组220发送到服务器210之前，在阶段C(例如，等于1500毫秒的时间)，用户202完成说话。类似于图1中的示例，用户202可能没有向计算设备206提供用户202已经完成说话的任何指示。因此，服务器210没有来自用户202的任何信息指示用户202已经完成说话。计算设备206的麦克风保持活跃，并且可以接收和处理任何额外的声音。

在阶段D，计算设备206向服务器210发送音频数据208的下一分组220。例如，音频数据208的分组220可以包括分组216之后的音频数据208的接下来的800毫秒。分组220可以对应于词语“in California(在加利福尼亚)”以及接着大约100毫秒的沉默。在用户202在等于1000毫秒的时间完成说话的情况下，分组220可以包括额外的沉默(例如，600毫秒)。

服务器210接收音频数据的分组216，并使用语音解码器222和询问结束检测器224来处理它们。语音解码器可以被配置为识别包括在音频数据208的部分中的不同音素。在分组216包括与“what is the weather(天气怎么样)”相对应的音频数据的示例中，语音解码器222处理分组216并识别相应的音素。语音解码器222使用语言模型226来生成分组216的可能转录。语音解码器处理较大的分组216而不是图1中的音频数据的较小部分可能没有那么高效。这种较慢的处理可能使得语音解码器222使用更多的时间来生成转录，并确定用户202何时可能已经完成说话。

询问结束检测器224接收音频数据208的分组216，并将音频数据应用于经训练的询问结束模型230。询问结束检测器224生成反映用户202已经完成说话的可能性的置信度分数。换句话说，置信度分数反映与分组216相对应的话语是完整的概率。询问结束检测器224将置信度分数与阈值分数进行比较。如果置信度分数满足阈值，则询问结束检测器224确定用户202很可能已经完成说话。

作为示例，询问结束检测器224处理音频数据208的分组216，分组216可能对应于用户202说“what is the weather(天气怎么样)”。分组216可以包括一些额外的沉默或者可以不包括“weather(天气)”所有的语音。询问结束检测器224使用经训练的询问结束模型230来处理分组216。询问结束检测器224生成置信度分数0.4，并将该置信度分数与置信度阈值0.8进行比较。询问结束检测器224确定在部分216之后，话语很可能是不完整的，并且用户202还没有完成说话。

不像语音解码器222，询问结束检测器224能够快速处理分组216，即使分组216包括比图1中的部分116、118和120更多的音频数据。因此，询问结束检测器224能够比语音解码器222更快地确定与分组216相对应的话语是否很可能是完整的。

在阶段E，询问结束检测器224通过将经训练的询问结束模型230应用于分组220和分组216来处理分组220。因为询问结束检测器224执行的处理很快，所以询问结束检测器224能够快速计算置信度分数，该置信度分数反映与分组216和220相对应的话语是完整的可能性。在该示例中，询问结束检测器224可以计算出置信度分数为0.9。询问结束检测器224将该置信度分数与置信度阈值0.8进行比较，并确定话语很可能是完整的。在等于1700毫秒的时间，询问结束检测器224输出指令以在等于1800毫秒的时间对话语204指示结束。

在阶段G，语音解码器222处理音频数据208的分组220。如上所述，语音解码器222可能不能以与图1所示的音频数据108的较小部分相同的速度来处理大分组220。语音解码器222使用语言模型226来处理分组220和分组216。语音解码器222不能如询问结束检测器224那样快地确定与分组216和220相对应的话语是否很可能是完整的。例如，在等于1750毫秒的时间，输出232没有指示话语208是否很可能是完整的。在服务器210接收大分组的音频数据的情况下(这可能是由慢速网络连接引起的)，询问结束检测器224能够比语音解码器222更快地输出话语结束决定。

为了维护用户体验并防止计算设备206的麦克风保持活跃长于必要的时间，在阶段F，服务器210可以传输指令212，以供计算设备206在等于1800毫秒的时间关闭麦克风。这可以通过防止检测和实现额外检测到的音频来避免不必要的计算资源的使用并维护用户体验。即使使用较慢的网络214，计算设备206也能够接收关于停用麦克风的及时的指令212，并且响应于指令212停用麦克风。

语音解码器222继续处理音频数据208的分组216和222。语音解码器222将语言模型226应用于分组216和222，并生成转录228。在阶段H，服务器210输出话语204的转录228。在一些实施方式中，服务器210可以将转录228传输到计算设备206。在这种情况下，计算设备202可以在计算设备202的显示器上显示转录228。在一些实施方式中，服务器210可以基于转录228执行动作，诸如发起电话呼叫、发送消息、打开应用、发起搜索询问或任何其他类似动作。

图3示出了用于训练询问结束模型302的示例系统300。简而言之，并且如下文更详细描述的，系统300使用标记的指示结束训练数据304来训练询问结束模型302。经训练的询问结束模型302能够确定话语是否很可能是完整的。询问结束模型302可以类似于图1的询问结束模型130和图2的询问结束模型230。

系统300包括标记的指示结束训练数据304。标记的指示结束训练数据304包括多个音频样本，该多个音频样本包括完整话语和不完整话语两者。每个音频样本都包括标签，该标签指示该音频样本是完整的还是不完整的。例如，标记的指示结束训练数据304包括与话语“what is the score…of the game(游戏的……分数是多少)”相对应的音频数据306。音频数据306包括指示音频数据306表示完整话语的标签308。标记的指示结束训练数据304包括与话语“call mom(给妈妈打电话)”相对应的音频数据310。音频数据310包括指示音频数据310表示完整话语的标签312。标记的指示结束训练数据304包括与话语“ordera(订购)”相对应的音频数据314。音频数据314包括指示音频数据314表示不完整话语的标签316。

在一些实施方式中，标记的指示结束训练数据304可以特定于用户、用户类型、环境、特定设备或任何其他类型的变量。例如，标记的指示结束训练数据304可以仅包括来自图1中用户102的音频样本。作为另一示例，标记的指示结束训练数据304可以仅包括在特定设备上收集的音频样本，诸如特定型号的电话。作为另一示例，标记的指示结束训练数据304可以仅包括来自说话时正在开车的用户的音频样本。

系统300包括询问结束模型训练器318。询问结束模型训练器318使用机器学习来训练询问结束模型302。询问结束模型302可以是由结束模型训练器训练的神经网络。在一些实施方式中，神经网络是递归神经网络或卷积神经网络。神经网络可以具有特定数量的隐藏层，或者是基于LSTM(long short-term memory，长短期记忆)的单向网络。

经训练的询问结束模型302包括置信度分数生成器320，置信度分数生成器320生成置信度分数，置信度分数指示接收的音频数据对应于完整话语的可能性。经训练的询问结束模型302将生成的置信度分数与存储在置信度分数阈值322中的置信度分数阈值进行比较。

经训练的询问结束模型302被配置为生成用于接收的音频数据样本和用于音频数据样本的每个后续部分的置信度分数。后续生成的置信度分数不仅基于音频数据样本的初始部分，还基于音频数据样本的每个后续部分。遵循图1的示例，经训练的询问结束模型302可以基于音频数据108的部分116生成置信度分数。经训练的询问结束模型302可以接收音频数据108的部分118，并基于部分116和118两者生成另一置信度分数。一旦接收到音频数据108的部分120，经训练的询问结束模型302可以基于部分116、118和120生成另一置信度分数。换句话说，经训练的询问结束模型302使用针对特定话语接收的所有数据来确定该话语是否很可能是完整的。

在一些实施方式中，询问结束模型302可以考虑各种音频语音特性来确定置信度分数。例如，询问结束模型302可以使用音调、响度、语调、锐度、清晰度、粗糙度、不稳定性和语音速率或这些特征的任意组合。与仅考虑在用户话语之后是否检测到固定间隔的沉默的传统方法相比，使用这些特性可以提供改进的询问结束模型。在用户说话缓慢的情况下，询问结束模型302可能生成较低的置信度分数。例如，如果用户说出“what is the weather(天气怎么样)”，并拉长“weather(天气)”的发音以指示用户没有完成说话，那么询问结束模型302可以使用该语音特性以及其他语音特性来生成置信度分数。例如，这可以提高模型对于有语音障碍的用户的效用。询问结束模型302所使用的音频语音特性可以取决于标记的指示结束训练数据304。

在一些实施方式中，置信度分数阈值322可以包括针对不同环境条件的不同置信度分数阈值。例如，针对道路噪声(例如，在车内驾驶)、背景谈话(例如，酒吧或餐馆)或最小背景噪声(例如，办公室环境)，置信度分数阈值322可以不同。

在一些实施方式中，系统300接收额外的标记的指示结束训练数据304。额外的标记的指示结束训练数据304可以来自用户反馈。例如，在计算设备停用麦克风并处理用户的询问之前用户可以指示用户没有完成说话。作为另一示例，用户可以指示计算设备捕获了整个用户的话语。用户反馈音频样本可以被添加到标记的指示结束训练数据304中用于询问结束模型训练器318更新经训练的询问结束模型302。在图3所示的示例中，用户确认用户说“what is the weather in California(加利福尼亚的天气怎么样)”。系统300可以将相应的音频数据324和完整标签326添加到标记的指示结束训练数据304。

图4示出了用于检测话语结束的示例过程400。通常，过程400接收用户说出的话语的音频数据。过程400确定用户很可能已经完成说话的点，并停用麦克风。过程400将被描述为由包括一个或多个计算机的计算机系统执行，例如，如图1中所示的系统100或如图2中所示的系统200。

系统接收与用户说出的话语相对应的音频数据(410)。例如，用户可以对着移动电话的麦克风说话，并开始说：“Order a large cheese pizza.(订购大芝士披萨。)”移动电话可以开始生成与话语相对应的音频数据，并在移动电话接收话语时传输音频数据的部分。音频数据部分的传输的大小和频率可以与移动电话和系统之间的网络连接速度相关。较慢的网络连接可能会导致移动电话比较快的网络连接更不频繁地传输音频数据的较大部分。

系统将使用来自完整话语和不完整话语的音频数据训练的询问结束模型应用于音频数据(420)。例如，系统接收与“order a large cheese pizza.(订购大芝士披萨。)”相对应的音频数据的部分。当系统接收到音频数据的初始部分时，系统将询问结束模型应用于音频数据的初始部分。系统继续将询问结束模型应用于音频数据的后续部分。在一些实施方式中，系统接收包括多个完整话语和多个不完整话语的音频数据样本。系统使用机器学习、使用多个完整话语和多个不完整话语的音频数据来训练询问结束模型。这种训练可以在接收用户话语的音频数据之前进行。询问结束模型可以基于神经网络，并且被配置为通过分析声学语音特性(诸如音调、响度、语调、锐度、清晰度、粗糙度、不稳定性和语音速率)来确定话语是否很可能是完整的。询问结束模型使用的声学语音特性可以取决于用于训练询问结束模型的音频样本。

系统基于应用使用来自完整话语和来自不完整话语的音频数据训练的询问结束模型，确定反映话语是完整话语的可能性的置信度分数(430)。例如，系统基于与“order alarge cheese pizza.(订购大芝士披萨。)”相对应的音频数据的初始部分生成置信度分数，也称为后验(posterior)。当系统接收音频数据的后续部分时，系统将初始和后续部分应用于询问结束模型，并生成置信度分数。例如，在接收到与“order a(订购)”相对应的音频数据之后，置信度分数可以是0.1。在接收到与“large cheese pizza(大芝士披萨)”相对应的音频数据后，置信度分数可以是0.9。

系统将反映话语是完整话语的可能性的置信度分数与置信度分数阈值进行比较(440)。例如，系统将置信度分数0.1与置信度分数阈值0.8进行比较，或者将置信度分数0.9与置信度分数阈值0.8进行比较。置信度分数阈值可以取决于用户说话的环境而变化。例如，诸如移动的汽车的嘈杂环境可能比诸如办公室的安静环境具有更低的置信度分数阈值。

系统基于将反映话语是完整话语的可能性的置信度分数与置信度分数阈值进行比较，确定话语很可能是完整的还是很可能是不完整的(450)。例如，置信度分数0.1可以指示话语很可能是不完整的，而置信度分数0.9可以指示话语很可能是完整的。当置信度分数低于置信度分数阈值时，系统可以指令移动电话将麦克风维持在活跃状态，以确保额外的语音被检测。如果置信度分数等于或大于置信度分数阈值，则系统可以指令移动电话停用麦克风，以确保额外的音频不被检测。在一些实施方式中，移动电话可以在没有停用麦克风的指令的情况下保持麦克风打开。

系统可以生成音频数据的转录。例如，系统可以生成文本“order a large cheesepizza.(订购大芝士披萨。)”系统可以将转录输出到移动电话或另外的计算设备。系统可以基于转录执行动作。例如，系统可以为用户订购大芝士比萨。

在一些实施方式中，系统可以从用户接收转录是正确的从而话语的指示结束是正确的确认。例如，系统可以指令移动电话显示对订购大芝士比萨的确认。如果用户确认订购，那么系统可以使用相应话语的音频数据，将音频数据标记为完整的，并更新询问结束模型。如果移动电话呈现的选项没有包括用户所说的全部内容，那么用户取消该选项并重复话语。例如，用户可以说“Text mom,I’ll be home soon.(给妈妈发短信，我很快就到家了。)”如果系统在“home(家)”之后在“soon(很快)”之前停用麦克风，并呈现选项以发短信“I’ll be home(我将到家)”，那么用户可以取消该选项。系统可以使用与“text mom,I’llbe home(给妈妈发短信，我会回家)”相对应的音频数据来将音频数据标记为不完整，并更新询问结束模型。通过这种动态更新，可以提供询问结束模型的改进的学习过程。

在一些实施方式中，系统包括语音解码器，语音解码器被配置为生成音频数据的转录，并确定用户何时很可能已经完成说话。语音解码器或系统的另一部分可以将接收的音频数据转换成音素。语音解码器可以使用语言模型来生成音频数据的转录，并确定用户何时很可能已经完成说话。

在语音解码器和询问结束模型几乎同时确定用户是否很可能已经完成说话的情况下，系统可以使用这两个确定来生成关闭麦克风的指令。如果语音解码器和询问结束模型的指示结束确定不匹配，那么系统可以选择超过相应阈值更大数量或更大相对数量的决定。

在询问结束模型在语音解码器之前确定用户很可能已经完成说话的情况下，系统可以基于询问结束模型确定生成关闭麦克风的指令。当移动电话和系统之间的网络连接较慢时，可能出现这种情况。

在一些实施方式中，系统可以确定系统和客户端设备之间的网络连接速度。系统可以使用网络速度作为确定是否基于语音解码器或询问结束模型来对话语指示结束的因素。如果网络速度是例如每秒100千比特，那么一旦询问结束模型生成指示结束决定，系统就可以对话语指示结束。如果网络速度是例如每秒50兆比特，那么系统可以等待语音解码器生成指示结束决定。在一些实施方式中，系统可以在询问模型生成指示结束决定之后、在对话语指示结束之前等待最大时间量。例如，最大时间量可以是10毫秒。系统可以确定最大时间量，使得当语音解码器可能被延迟时，用户体验在慢速网络连接期间保持相同。

更详细地，在一些流式语音识别应用(诸如话音搜索)中，快速且准确地确定用户何时已经完成说他们的询问是有帮助的。在一些实施方式中，每当被训练为将每个帧分类为语音或沉默的话音活动检测器(voice activity detector，VAD)检测到固定间隔的沉默时，语音识别应用可以声明询问结束。沉默检测和询问结束检测被认为是不同的任务，并且在VAD训练期间使用的标准可能不是最佳的。在一些实施方式中，沉默检测方法可能忽略潜在的声学提示，诸如填充音(filler sound)和过往说话速率，其可以指示给定的停顿是暂时的还是询问最终的(query-final)。本公开提出了一种修改，以使沉默检测VAD训练标准与询问结束检测更密切相关。单向长短期记忆架构允许系统记忆过往声学事件，并且训练标准激励系统学习使用与预测未来用户意图相关的任何声学提示。如下所述，这种方法改善了话音搜索的询问结束检测在给定准确度下的延迟。

在诸如话音搜索和对话系统的一些流式语音识别应用中，快速且准确地确定系统用户何时完成说话很可能是有帮助的。该任务由指示结束器(endpointer)执行，其可以被称为麦克风关闭器(microphone closer)或询问结束检测器。麦克风关闭器或询问结束检测器识别用户何时很可能完成说话，并在那点停用麦克风。系统接收音频流并做出一系列二进制决定：等待进一步的语音，或者停止收听并提交到目前为止接收到的音频以供后续处理。这些麦克风关闭或停止决定中的每一个都是不可撤销的，并且仅基于目前为止接收到的音频。在一些实施方式中，可能希望具有小的延迟并且不切断(cut-off)用户，其中延迟被定义为用户完成说话和系统关闭麦克风之间的时间，切断用户被定义为系统在用户完成说话之前关闭麦克风。这两个目标之间可能存在着天然的紧张关系(tension)。麦克风关闭器性能会强烈影响用户对系统的感知。例如，麦克风关闭器性能对于对话系统中的自然话轮转换(turn-taking)至关重要，用户满意度低归咎于糟糕的麦克风关闭器性能。更长的延迟还会增加计算设备用在操作麦克风和解释不相关的背景音频中的电量，例如，这会影响电池寿命。

话音活动检测(VAD)，有时也称为指示结束，可以是将每帧音频分类为语音或沉默(非语音)的任务。在当做出所有决定时所有音频都对系统可用的离线设置中，VAD和麦克风关闭实际上可能是同一任务，因为最后一段语音的结束就是用户询问的结束。然而，在每个帧的分类仅基于先前音频的在线或流式设置中，麦克风关闭可能更困难：VAD系统仅需要检测任何当前沉默，而麦克风关闭器可以预测是否会有后续语音。

麦克风关闭的一种方法是，一旦VAD系统观察到语音之后固定间隔的沉默，就声明询问结束(end-of-query，EOQ)。在一些实施方式中，VAD系统是通过对来自概率话音活动分类器的后验设置阈值来获得的。人类收听者似乎很可能使用额外的声学提示(诸如填充音、说话节奏或基频)来知悉：人类说话者是否意图在给定的停顿之后继续说话。基于VAD的麦克风关闭器忽略这些询问结束声学提示。

在一些实施方式中，系统可以使用概率询问结束分类器作为麦克风关闭的基础。分类器被训练来预测用户在给定时间是否已经完成说话，并且使用单向LSTM的单向架构来允许通过过往声学事件来告知其预测。LSTM和修改的损失函数是互补的，这种组合提供了自动学习诸如填充音和过往说话速率的提示的潜力，这些提示可能暂时与它们对EOQ预测最有用的帧分离，并且很难用更简单的模型来理解(pick up on)。

在一些实施方式中，系统可以通过提高话音活动检测器的准确性、提高对当前沉默的持续时间的估计、或者超越基于VAD的麦克风关闭并考虑询问结束(有时称为话语结束)的各种尝试来提高麦克风关闭器性能。在一些实施方式中，执行询问结束检测的系统可以受益于所使用的EOQ信息声学和解码器特征。系统可以通过使用诸如LSTM的顺序模型(sequential model)从现有声学特征中提取更好的EOQ相关信息。

以下内容包括对训练话音活动分类器并将其用于麦克风关闭、训练询问结束分类器并将其用于麦克风关闭的描述，以及与评估麦克风关闭器相关的度量的讨论。

基于话音活动(VAD型)分类器的麦克风关闭。

在一些实施方式中，系统可以基于训练在线或流式概率话音活动分类器来执行麦克风关闭。给定声学特征向量序列和模型参数λ，在训练期间使用的条件概率模型P(y|x,λ)指定语音/沉默标签的序列y＝[y_t](t＝1到T)的概率。在一些实施方式中，在不同时间的标签y1、y2……是条件独立的，尽管这可能不是真的。概率P(y_t|x,λ)，通常称为“后验”，由以声学特征向量序列作为输入的神经网络的输出给出。系统使用包括一个或多个长短期记忆(LSTM)层的递归架构来记忆与预测当前帧是语音还是沉默相关的过往声学信息。递归层是单向的，以允许整个系统以流式方式运行。最后一层是2级softmax层，它输出按帧顺序的(framewise)语音和沉默后验。图5中示出了显示模型结构的有向图形模型。在图5中，给定其父节点，实心节点是确定性的，而圆形节点是随机的，并且观察到的节点是阴影的。在图5中，xt是声学特征向量，yt是二进制标签。对于一些话音活动分类器，yt是语音或沉默，而对于所提出的询问结束分类器，yt是询问不完整(query-not-complete)或询问完整(query-complete)。概率模型可以使用最大可能性(即交叉熵)来训练。用于训练的参考语音/沉默标签序列可以通过强制对齐人类参考转录本(transcript)、将所有非沉默音素标记为语音来获得。具体来说，系统可以使用1作为语音标签，0作为沉默。

为了使用经训练的概率话音活动分类器用于麦克风关闭，将按帧顺序的后验与阈值进行比较，以获得硬语音/沉默决定，并且一旦系统观察到一些语音之后是固定时间间隔的沉默，麦克风就被关闭。

上述训练过程可以激励系统检测将现在的语音与现在的沉默区分开的声学提示，但是可能会忽略可能有助于预测当前沉默之后是否将会有后续语音的提示。因此，上述方法可能导致当话语实际上是不完整时被认为是完整的。

基于询问结束(EOQ)分类器的麦克风关闭

在本文描述的询问结束模型的一些实施方式中，系统可以基于训练概率询问结束分类器来执行麦克风关闭，以直接预测用户在给定时间是否已经完成说话。

概率模型P(y|x,λ)可以具有上述相同的结构，但是在训练期间使用不同的标签；标签现在是询问不完整(标签1)或询问完整(标签0)。训练期间使用的参考标签序列可以由1序列和后面的0序列组成，其中第一个0出现在理想的麦克风关闭的时间，此时用户刚刚完成说话。这些VAD型和EOQ型标签序列的示例如表1所示。

表1：VAD型(沉默为0，语音为1)和EOQ型(询问完整为0，询问不完整为1)指标(target)之间的差异的示例，该指标在具有10帧的话语的分类器训练期间使用，其中用户在第8帧完成说话。

为了使用经训练的概率询问结束分类器用于麦克风关闭，将按帧顺序的后验与阈值进行比较，以获得硬询问结束决定，并且一旦系统第一次输出询问完整标签0，麦克风就被关闭。硬阈值(hard thresholding)是一种启发式过程，并且在一些实施方式中，就“最大化效用”而言可能是次优的。硬阈值也可以提供简单有效的方法，从而减少所使用的计算资源。

训练数据的这种变化可以激励系统检测有助于指示用户是否意图说出更多语音的任何声学提示。例如，如果用户在略长的停顿期间说“um(嗯)”，那么询问结束分类器有能力(由于LSTM)和倾向(由于修改的损失函数)来记忆该声学事件并降低在随后的沉默帧中询问完整的概率。

样本话语的后验或概率如图6所示。可以看出，在非初始沉默的时段期间，询问结束分类器对“询问完整”(例如，话语完整的可能性)的信念(belief)增加，但是速率可能不是线性的：例如，在所示的第一次停顿中，系统对于话语结束是相对不确定的，并且后验增长缓慢。训练标准的不同还可以从以下事实中看出：话音活动(或VAD)分类器以相同的方式对待话语的开始和结束附近的沉默，而询问结束分类器则非常不同地对待它们。

麦克风关闭器度量

在一些实施方式中，系统可以使用一组4个度量来洞察麦克风关闭器性能。度量总结在表2中。误字率(word error rate)可能是语音识别准确性的主要度量。它受到麦克风关闭器影响，因为切断通常会切断许多单词。EP cutoff(切断)是用户被切断的话语比例，例如，系统在用户完成说出他们的询问之前关闭麦克风。这可能是有用的测量量，因为被切断是负面的用户体验，并且在诸如话音搜索的应用中，被切断可能要求重复整个询问。WER和EP cutoff一起衡量麦克风关闭器的准确性。EP50是所有或几乎所有话语的中值(median)延迟。这可以提供使用系统时典型的用户体验的概念。EP90是所有话语的第90％延迟。这种尾部延迟提供了当系统关闭麦克风缓慢时用户体验有多糟糕的概念。EP50和EP90一起衡量麦克风关闭器的速度。对于EP cutoff、EP50和EP90，参考转录本的强制对齐用于确定用户何时完成说话。

表2：用于评估麦克风关闭器性能的度量。

在WER为11.7的优选操作点附近，VAD型分类器具有4.9％的EP cutoff、460ms的EP50和940ms的EP90。EOQ分类器(WER为11.7)具有5.1％的EP cutoff、350ms的EP50和820ms的EP90。与VAD型分类器相比，EOQ系统将典型延迟减少110ms、尾部延迟减少120ms。

在一些实施方式中，用于评估话音活动检测器的度量，诸如误报率(false alarmrate)和误拒绝率(false reject rate)或精确度和撤回，对于评估如本文所述的麦克风关闭器的性能可能不是非常有用。

图7示出可用于实施本文描述的技术的计算设备700和移动计算设备750的示例。计算设备700旨在代表各种形式的数字计算机，诸如膝上型计算机、台式计算机、工作站、个人数字助理、服务器、刀片服务器、大型机和其他合适的计算机。移动计算设备750旨在代表各种形式的移动设备，诸如个人数字助理、蜂窝电话、智能电话和其他类似的计算设备。本文示出的组件、它们的连接和关系以及它们的功能仅意在作为示例，而不是意在限制。

计算设备700包括处理器702、存储器704、存储设备706、连接到存储器704和多个高速扩展端口710的高速接口708、以及连接到低速扩展端口714和存储设备706的低速接口712。处理器702、存储器704、存储设备706、高速接口708、高速扩展端口710和低速接口712中的每一个使用各种总线互连，并且可以安装在公共主板上或者视情况以其他方式安装。处理器702可以处理用于在计算设备700内执行的指令，包括存储在存储器704中或存储设备706上的指令，以在外部输入/输出设备(诸如耦合到高速接口708的显示器716)上显示GUI的图形信息。在其他实施方式中，可以视情况使用多个处理器和/或多个总线，以及多个存储器和多种类型的存储器。此外，可以连接多个计算设备，每个设备提供必要操作的一部分(例如，作为服务器组、一组刀片服务器或多处理器系统)。

存储器704在计算设备700内存储信息。在一些实施方式中，存储器704是一个或多个易失性存储单元。在一些实施方式中，存储器704是一个或多个非易失性存储单元。存储器704也可以是另一形式的计算机可读介质，诸如磁盘或光盘。

存储设备706能够为计算设备700提供大容量存储。在一些实施方式中，存储设备706可以是或包含计算机可读介质，诸如软盘设备、硬盘设备、光盘设备或磁带设备、闪存或其他类似的固态存储设备，或者设备阵列，包括存储区域网络中的设备或其他配置。指令可以存储在信息载体中。当由一个或多个处理设备(例如，处理器702)运行时，指令执行一个或多个方法，诸如上述那些方法。指令也可以由一个或多个存储设备存储，诸如计算机可读或机器可读介质(例如，存储器704、存储设备706或处理器702上的存储器)。

高速接口708管理计算设备700的带宽密集型(bandwidth-intensive)操作，而低速接口712管理较低带宽密集型操作。这种功能分配仅是示例。在一些实施方式中，高速接口708耦合到存储器704、显示器716(例如，通过图形处理器或加速器)、以及可以接受各种扩展卡的高速扩展端口710。在该实施方式中，低速接口712耦合到存储设备706和低速扩展端口714。可以包括各种通信端口(例如，USB、蓝牙、以太网、无线以太网)的低速扩展端口714可以例如通过网络适配器耦合到一个或多个输入/输出设备，诸如键盘、定点设备、扫描仪或诸如交换机或路由器的网络设备。

如图所示，计算设备700可以以多种不同的形式实施。例如，它可以实施为标准服务器720，或者一组这样的服务器中的多次(multiple times)。此外，它可以在诸如膝上型计算机722的个人计算机中实施。它也可以被实施为机架式服务器系统724的一部分。可替换地，来自计算设备700的组件可以与诸如移动计算设备750的移动设备中的其他组件相结合。每个这样的设备可以包含计算设备700和移动计算设备750中的一个或多个，并且整个系统可以由彼此通信的多个计算设备组成。

移动计算设备750包括处理器752、存储器764、诸如显示器754的输入/输出设备、通信接口766和收发器768以及其他组件。移动计算设备750还可以配备存储设备，诸如微驱动器或其他设备，以提供额外的存储。处理器752、存储器764、显示器754、通信接口766和收发器768中的每一个使用各种总线互连，并且几个组件可以安装在公共主板上或者视情况以其他方式安装。

处理器752可以运行移动计算设备750内的指令，包括存储在存储器764中的指令。处理器752可以实施为芯片的芯片组，其包括独立的多个模拟和数字处理器。处理器752可以提供例如移动计算设备750的其他组件的协调，诸如用户接口的控制、移动计算设备750运行的应用以及移动计算设备750的无线通信。

处理器752可以通过耦合到显示器754的控制接口758和显示接口756与用户通信。显示器754可以是例如TFT(Thin-Film-Transistor Liquid Crystal Display，薄膜晶体管液晶显示器)显示器或OLED(Organic Light Emitting Diode，有机发光二极管)显示器，或其他合适的显示技术。显示接口756可以包括用于驱动显示器754向用户呈现图形和其他信息的适当电路。控制接口758可以从用户接收命令，并转换它们以提交给处理器752。此外，外部接口762可以提供与处理器752的通信，从而使得移动计算设备750能够与其他设备进行近场通信。外部接口762可以例如在一些实施方式中用于有线通信，或者在其他实施方式中用于无线通信，并且也可以使用多个接口。

存储器764存储移动计算设备750之内的信息。存储器764可以实施为计算机可读介质、一个或多个易失性存储单元、一个或多个非易失性存储单元中的一个或多个。还可以提供扩展存储器774，并通过扩展接口772连接到移动计算设备750，扩展接口772可以包括例如SIMM(Single In Line Memory Module，单列直插存储器模块)卡接口。扩展存储器774可以为移动计算设备750提供额外的存储空间，或者也可以为移动计算设备750存储应用或其他信息。具体地，扩展存储器774可以包括执行或补充上述过程的指令，并且还可以包括安全信息。因此，例如，扩展存储器774可以被提供为移动计算设备750的安全模块，并且可以用允许安全使用移动计算设备750的指令来编程。此外，可以经由SIMM卡提供安全应用以及额外信息，诸如以不可破解的方式在SIMM卡上放置识别信息。

如下所述，存储器可以包括例如闪存和/或NVRAM存储器(非易失性随机存取存储器)。在一些实施方式中，指令存储在信息载体中。当由一个或多个处理设备(例如，处理器752)运行时，指令执行一个或多个方法，诸如上述那些方法。指令也可以由一个或多个存储设备存储，诸如一个或多个计算机可读或机器可读介质(例如，存储器764、扩展存储器774或处理器752上的存储器)。在一些实施方式中，指令可以例如通过收发器768或外部接口762以传播信号的形式被接收。

移动计算设备750可以通过通信接口766进行无线通信，通信接口766在必要时可以包括数字信号处理电路。通信接口766可以提供各种模式或协议下的通信，诸如GSM话音呼叫(全球移动通信系统)、SMS(短消息服务)、EMS(增强消息服务)或MMS消息(多媒体消息服务)、CDMA(码分多址)、TDMA(时分多址)、PDC(个人数字蜂窝)、WCDMA(宽带码分多址)、CDMA2000或GPRS(通用分组无线服务)以及其它。这种通信可以例如通过使用射频的收发器768进行。此外，可以进行短距离通信，诸如使用蓝牙、Wi-Fi或其他这样的收发器。此外，GPS(全球定位系统)接收器模块770可以向移动计算设备750提供额外的导航和位置相关的无线数据，这些数据视情况可以被移动计算设备750上运行的应用使用。

移动计算设备750还可以使用音频编解码器760进行可听通信，音频编解码器760可以从用户接收口头信息并将其转换成可用的数字信息。音频编解码器760同样可以诸如通过扬声器为用户生成可听声音，例如在移动计算设备750的听筒(handset)中。这种声音可以包括来自话音电话呼叫的声音，可以包括记录的声音(例如，话音消息、音乐文件等)，并且还可以包括由在移动计算设备750上操作的应用所生成的声音。

如图所示，移动计算设备750可以以多种不同的形式实施。例如，它可以被实施为蜂窝电话780。它也可以被实施为智能电话782、个人数字助理或其他类似移动设备的一部分。

本文描述的系统和技术的各种实施方式可以在数字电子电路、集成电路、专门设计的ASIC(专用集成电路)、计算机硬件、固件、软件和/或其组合中实施。这些不同的实施方式可以包括在可编程系统上可运行和/或可解释的一个或多个计算机程序中的实施方式，可编程系统包括至少一个可编程处理器，可编程处理器可以是专用的或通用的，耦合成从存储系统、至少一个输入设备和至少一个输出设备接收数据和指令，以及向存储系统、至少一个输入设备和至少一个输出设备发送数据和指令。

这些计算机程序(也称为程序、软件、软件应用或代码)包括用于可编程处理器的机器指令，并且可以用高级面向过程的和/或面向对象的编程语言和/或汇编/机器语言来实施。如本文所使用的，术语机器可读介质和计算机可读介质是指用于向可编程处理器提供机器指令和/或数据的任何计算机程序产品、装置和/或设备(例如，磁盘、光盘、存储器、可编程逻辑器件(PLD))，包括接收机器指令作为机器可读信号的机器可读介质。术语机器可读信号是指用于向可编程处理器提供机器指令和/或数据的任何信号。

为了提供与用户的交互，本文描述的系统和技术可以在计算机上实施，该计算机具有用于向用户显示信息的显示设备(例如，CRT(阴极射线管)或LCD(液晶显示器)监视器)以及用户可以通过其向计算机提供输入的键盘和定点设备(例如，鼠标或轨迹球)。也可以使用其他类型的设备来提供与用户的交互；例如，提供给用户的反馈可以是任何形式的感觉反馈(例如，视觉反馈、听觉反馈或触觉反馈)；并且可以以任何形式接收来自用户的输入，包括声音、语音或触觉输入。

本文描述的系统和技术可以在计算系统中实施，该计算系统包括后端组件(例如，作为数据服务器)，或者包括中间件组件(例如，应用服务器)，或者包括前端组件(例如，具有图形用户界面或网络浏览器的客户端计算机，用户可以通过其与本文描述的系统和技术的实施方式进行交互)，或者这种后端组件、中间件组件或前端组件的任意组合。系统的组件可以通过任何形式或介质的数字数据通信(例如，通信网络)互连。通信网络的示例包括局域网(LAN)、广域网(WAN)和互联网。

计算系统可以包括客户端和服务器。客户端和服务器通常彼此远离，并且通常通过通信网络进行交互。客户端和服务器的关系是由于在各自的计算机上运行、并且彼此之间具有客户端-服务器关系的计算机程序产生的。

尽管上面已经详细描述了一些实施方式，但是其他修改也是可能的。例如，虽然客户端应用被描述为访问(多个)代理，但是在其他实施方式中，(多个)代理可以被由一个或多个处理器所实施的其他应用来采用，诸如在一个或多个服务器上运行的应用。此外，图中描绘的逻辑流程不要求所示的特定的次序或顺序的次序来实现期望的结果。此外，可以提供其它动作，或可以从所描述的流程中消除动作，并且可以向所描述的系统添加或从所描述的系统中移除其他组件。因此，其他实施方式现也在权利要求的范围内。

Claims

1.一种方法，包括：

在数据处理硬件处，接收与用户说出的话语相对应的音频数据；

由所述数据处理硬件从所述音频数据中检测所述话语的声学语音特性，所检测到的声学语音特性包括音调和语音速率；

由所述数据处理硬件使用询问结束模型基于所述话语的声学语音特性来确定所述话语的置信度分数，所述置信度分数指示所述话语是完整话语的可能性，并且所述询问结束模型包括具有一个或多个长短期记忆(LSTM)层的递归神经网络；

由所述数据处理硬件确定所述话语的置信度分数是否满足置信度分数阈值；以及

当话语的置信度分数满足置信度分数阈值时：

由数据处理硬件确定话语是可能完整的；以及

由数据处理硬件指令停用正在检测话语的麦克风。

2.根据权利要求1所述的方法，还包括：当所述话语的置信度分数不满足所述置信度分数阈值时：

由数据处理硬件确定话语可能不完整；以及

由数据处理硬件指令正在检测话语的麦克风保持在活跃状态。

3.根据权利要求1所述的方法，其中，在多个训练话语上训练所述询问结束模型，所述多个训练话语中的每个训练话语包括一系列基于时间的二进制标签，每个标签指示相应的训练话语是完整还是不完整的话语。

4.根据权利要求3所述的方法，其中，进一步在与所述多个训练话语中的每个训练话语相关联的声学语音特性上训练所述询问结束模型。

5.根据权利要求4所述的方法，其中与每个训练话语相关联的声学语音特性包括音调、响度、语调、锐度、清晰度、粗糙度、不稳定性和语音速率。

6.根据权利要求1所述的方法，其中：

从音频数据中检测话语的声学语音特性包括：从音频数据的多个部分中的每一个中检测话语的相应声学语音特性；

使用所述询问结束模型基于话语的声学语音特性来确定话语的置信度分数包括针对音频数据的多个部分中的每一个，基于从音频数据的每个先前部分中检测到的话语的相应声学语音特性来确定话语的相应置信度分数；以及

确定话语的置信度分数是否满足置信度分数阈值包括：针对音频数据的多个部分中的每一个，确定话语的相应置信度分数是否满足置信度阈值。

7.根据权利要求1所述的方法，还包括：当所述话语的置信度分数满足所述置信度分数阈值时：

由数据处理硬件确定配置为生成音频数据的转录并确定话语是可能完整还是可能不完整的语音解码器还没有确定话语是可能完整的还是可能不完整的，

其中，仅基于确定所述话语的置信度分数满足所述置信度分数阈值来确定所述话语是可能完整的。

8.根据权利要求7所述的方法，其中，所述语音解码器使用语言模型来确定所述话语是可能完整的还是可能不完整的。

9.根据权利要求1所述的方法，还包括：当所述话语的置信度分数满足所述置信度分数阈值时：

由数据处理硬件确定配置为生成音频数据的转录并确定话语是可能完整的还是可能不完整的语音解码器已经确定了话语是可能完整的还是可能不完整的，

其中确定话语是可能完整的是基于：

确定所述话语的置信度分数满足置信度分数阈值；以及

语音解码器确定话语是可能完整的还是可能不完整的。

10.根据权利要求1所述的方法，其中，接收与所述话语相对应的音频数据包括：从与所述用户相关联并且经由网络与所述数据处理硬件通信的用户设备接收音频数据，所述用户设备包括正在检测话语的麦克风。

11.一种系统，包括：

数据处理硬件；和

与数据处理硬件通信并存储指令的存储器硬件，所述指令在于数据处理硬件上执行时使数据处理硬件执行操作，所述操作包括：

接收与用户说出的话语相对应的音频数据；

从所述音频数据中检测所述话语的声学语音特性，所检测到的声学语音特性包括音调和语音速率；

使用询问结束模型基于所述话语的声学语音特性来确定所述话语的置信度分数，所述置信度分数指示所述话语是完整话语的可能性，并且所述询问结束模型包括具有一个或多个长短期记忆(LSTM)层的递归神经网络；

确定所述话语的置信度分数是否满足置信度分数阈值；以及

当话语的置信度分数满足置信度分数阈值时：

确定话语是可能完整的；以及

指令停用正在检测话语的麦克风。

12.根据权利要求11所述的方法，其中，所述操作还包括：当所述话语的置信度分数不满足所述置信度分数阈值时：

确定话语可能不完整；以及

指令正在检测话语的麦克风保持在活跃状态。

13.根据权利要求11所述的系统，其中，在多个训练话语上训练所述询问结束模型，所述多个训练话语中的每个训练话语包括一系列基于时间的二进制标签，每个标签指示相应的训练话语是完整还是不完整的话语。

14.根据权利要求13所述的系统，其中，进一步在与所述多个训练话语中的每个训练话语相关联的声学语音特性上训练所述询问结束模型。

15.根据权利要求14所述的系统，其中，与每个训练话语相关联的声学语音特性包括音调、响度、语调、锐度、清晰度、粗糙度、不稳定性和语音速率。

16.根据权利要求11所述的系统，其中：

17.根据权利要求1所述的系统，其中，所述操作还包括：当所述话语的置信度分数满足所述置信度分数阈值时：

确定配置为生成音频数据的转录并确定话语是可能完整还是可能不完整的语音解码器还没有确定话语是可能完整的还是可能不完整的，

18.根据权利要求17所述的系统，其中，所述语音解码器使用语言模型来确定所述话语是可能完整的还是可能不完整的。

19.根据权利要求11所述的系统，其中，所述操作还包括：当所述话语的置信度分数满足所述置信度分数阈值时：

确定配置为生成音频数据的转录并确定话语是可能完整的还是可能不完整的语音解码器已经确定了话语是可能完整的还是可能不完整的，

其中确定话语是否是可能完整的是基于：

确定所述话语的置信度分数满足置信度分数阈值；以及

语音解码器确定话语是可能完整的还是可能不完整的。

20.根据权利要求11所述的系统，其中，接收与所述话语相对应的音频数据包括：从与所述用户相关联并且经由网络与所述数据处理硬件通信的用户设备接收音频数据，所述用户设备包括在检测话语的麦克风。