CN110431626B

CN110431626B - 使用成对比较进行重复语音查询中的超发音检测以改进语音识别

Info

Publication number: CN110431626B
Application number: CN201880015606.9A
Authority: CN
Inventors: R·古鲁纳特库尔卡尼; A·M·扈利; Z·A·阿瓦卜; N·阿龙; I·齐图尼
Original assignee: Microsoft Technology Licensing LLC
Current assignee: Microsoft Technology Licensing LLC
Priority date: 2017-03-03
Filing date: 2018-02-27
Publication date: 2023-08-25
Anticipated expiration: 2038-02-27
Also published as: US10354642B2; US10847147B2; CN110431626A; EP3590112A1; US20180254035A1; CN117174115A; WO2018160505A1; US20190279612A1

Abstract

自动语音识别系统可以受益于用户语音中的提示，比如超发声。传统方法通常尝试定义和检测超发声的绝对状态，但这是非常困难的，尤其是对于短语音查询。本公开内容提供了一种使用成对比较和在真实世界语音识别系统上进行超发声检测的方法。所公开的方法使用从一对重复的用户话音中提取的增量特征。由所公开的系统和方法提供的改进包括：通过使用超发声信息作为第二遍N最佳假设重新评分设置中的特征，来改善词错误率。

Description

使用成对比较进行重复语音查询中的超发音检测以改进语音识别

技术领域

概括地说，本申请的示例性实施例涉及音频信号处理，具体地说，本申请的示例性实施例涉及使用成对比较进行重复语音查询中存在的超发音检测以改进语音识别。

背景技术

已经在音频信号处理领域中的超发音(hyperarticulation)检测方面取得了进展。通常，超发音是说话者强调口语句子中的特定音节、词、和/或短语的事件。超发音可以表示对特定活动的挫败感，或者它可以是帮助听者辨别口语句子中的音节、词、和/或短语的手段。

随着进行自动语音识别(ASR)的应用程序的数量的增加，理解说话者语音中的元信息而不仅仅是说出的词语是非常重要的。通常，元信息可以包括说话者说话的音量、说出的词语的节奏(cadence)、对特定词语和/或短语的强调(例如，超发音)、音调的变化、语音的韵律(prosody)、以及其它这样的元信息。

ASR的典型应用是支持语音的个人助理。支持语音的个人助理可以是软件实现的并且被配置为在操作系统的上下文中执行。支持语音的个人助理可以执行与操作系统内的应用程序或者与操作系统本身有关的各种任务，例如网页搜索、命令和控制、导航和其它这样的任务。此外，可以在从移动电话到桌面型计算机的不同类型的设备上，实现支持语音的个人助理。

在使用支持语音的个人助理时，用户可能会表现出查询重构(reformulation)的行为。当用户对个人助理显示的结果不满意时，他们倾向于重复或解释他们的查询以获得更好的结果。可能有多种原因导致重构。当用户重构查询时，他或她可能会进行对来自初始查询的一个或多个词和/或短语的超发声。超发声检测是一项具有挑战性的任务，这是因为用户的正常说话风格在他或她呈现初始查询之前通常是未知的；因此不知道用户正常的说话风格使得难以区分用户的正常说话风格和用户的超发声。

附图说明

附图中的各个附图仅示出了本文提出的发明构思的示例性实施例，并且不应被视为限制其保护范围。

图1是根据示例性实施例，示出用于执行超发声检测的系统的架构图，该系统具有被配置为通过网络来交换数据的客户端-服务器架构。

图2是根据示例性实施例的图1中的服务器的框图，该服务器被配置为执行超发声检测和分类。

图3A到图3B是根据示例性实施例，来自图1的客户端设备获取的查询的话音对示例的语谱图的图像。

图4根据示例性实施例，描绘了用于示出在图1的客户端设备和超发声检测服务器的各个组件组之间的交互的架构图。

图5A到图5C根据示例性实施例，示出了用于检测经由图1的客户端设备获得的一对语音话音中的超发声的方法。

图6是计算机系统的示例形式的机器的图形表示，其中在该计算机系统内，可以执行用于使机器执行本文所讨论的方法中的任何一种或多种方法的一组指令。

具体实施方式

本公开内容的各方面涉及用于使用成对比较来检测重复语音查询中的超发声的系统和方法。当前解决该问题的方法对单个话音进行分类，而不管先前的任何查询，这导致较差的分类性能。所公开的系统和方法通过聚焦在预定时间帧内连续说出并具有确定的词汇重叠的一对用户语音查询，来解决超发声检测的问题。

用户语音查询的成对比较具有许多的技术优势。在第一实例中，成对比较有助于收集参考标签以用于训练目的。人工判断者更容易进行比较性标注，而不是在主观问题上给出绝对标签。成对比较还有助于创建非说话者特定的模型，这是因为每个用户都具有他或她自己的强调或表达语音的方式。由于用户可以采用不同的语音方法，因此使用非说话者特定的模型在技术上是有益的，这是因为它允许所公开的系统和方法以类似的方式来处理每个用户的语音查询。

在各个实施例中，所公开的系统和方法从两个重复的语音查询中提取比较特征，来帮助识别用户语音中的发声的变化。已经进行了关于人机交互中重复语音的声学信号变化的先前研究。这些研究表明，在频率、持续时间和响度方面都有变化。在语音识别中执行的一些先前工作通过以下方式来收集数据：人工模拟语音识别错误，并要求用户重复他们的话音，直到他们做对为止。这些研究表明，当系统出错时，清晰语音适应的可能性明显更高。

在一个实施例中，本公开内容提供了一种系统，该系统包括存储计算机可执行指令的计算机可读介质、以及执行计算机可执行指令的一个或多个硬件处理器，其配置该系统执行包括以下的多个操作：接收包括至少一个词的第一音频短语，接收包括至少一个词的第二音频短语，从第一音频短语中提取第一多个音频特征，以及从第二音频短语中提取第二多个音频特征。所述多个操作还包括：接收与第二音频短语相对应的多个假设和第一多个排名，每个排名与对应的假设相关联，比较第一多个音频特征和第二多个音频特征以确定第二音频短语是否是超发声的，基于确定第二音频短语是超发声的，对所接收的多个假设进行重新排名以确定第二多个排名，并从所述多个假设中选择假设，其中从第一多个排名中选定的排名与从第二多个排名中选择的排名不同。

本文所公开的实施例尝试准确地预测超发声并且使用它来改善用户使用语音识别系统的体验。该技术途径的方法包括使用真实数据进行工作和分析，其中用户与真实语音识别系统进行交互。本文所公开的实施例使用详细特征，其具有由同一用户在两个话音之间对齐的词段的成对比较。虽然在语音识别中存在一些先前的努力，但是本公开内容涉及在真实用户会话和话音重构的背景下的超发声检测的问题。

现在将详细地参考用于实现本发明主题的特定示例性实施例。为了提供对本发明主题的透彻理解，在附图中示出了这些特定实施例的举例，并且在以下描述中阐述了具体细节。应当理解的是，这些实施例并不是要将权利要求的保护范围限制于所示出的实施例。相反，它们旨在涵盖可以包括在本公开内容的保护范围内的这些替代、修改和等同物。

除非另外明确说明，否则组件和功能是可选的，可以进行组合或细分，操作可以按顺序变化或者进行组合或细分。在以下的描述中，为了便于解释起见，阐述了许多具体细节以提供对示例性实施例的透彻理解。但是，对于本领域普通技术人员来说显而易见的是，可以在没有这些具体细节的情况下实践本发明主题。

图1是根据示例性实施例，示出客户端设备104与超发声检测服务器106通信的架构图102。为了避免用不必要的细节模糊本发明的主题，图1中省略了与传达对本发明主题的理解没有密切关系的各种功能部件(例如，模块和引擎)。但是，技术人员应当容易认识到，客户端设备104和/或超发声检测服务器106可以支持各种其它的功能组件，以有助于实现本文未具体描述的其它功能。

虽然将客户端设备104和超发声检测服务器106布置为客户端-服务器体系结构，但是所公开的主题当然并不限于这样的体系结构，同样可以在诸如事件驱动、分布式或对等架构系统之类的其它体系结构中找到应用。此外，超发声检测服务器106的各个功能组件可以实现为不一定具有联网能力的独立系统或软件程序。此外，应当理解的是，虽然以单数意义讨论了超发声检测服务器106的各种功能组件，但是各种功能组件中的一个或多个也可以采用多个实例。

客户端设备104可以包括但不限于：移动电话、桌面型计算机、膝上型计算机、便携式数字助理(PDA)、智能电话、平板设备、超级书、上网本、笔记本电脑、多处理器系统、基于微处理器或可编程消费者电子系统、或者用户108能够使用的任何其它通信设备。在一些实施例中，客户端设备104可以包括显示模块(没有示出)以显示信息(例如，以用户界面的形式)。在另外的实施例中，客户端设备104可以包括触摸屏、加速度计、陀螺仪、相机、麦克风、全球定位系统(GPS)设备等等中的一个或多个。

客户端设备104可以包括一个或多个应用程序(也称为“app(应用)”)，其例如但不限于：操作系统、网络浏览器、消息传送应用程序、电子邮件(email)应用程序、以及被配置为提供针对各种查询和/或命令的响应的软件实现的个人数字助理。个人数字助理还可以被配置为与客户端设备104正在执行的各种应用程序进行交互。个人数字助理还被配置为从用户108接收一个或多个查询和/或命令，并响应于所接收的一个或多个查询和/或命令来执行一个或多个动作。例如，个人数字助理可以显示接收的一个或多个查询和/或命令未被理解的消息或者输出类似的音频消息。用户108可以经由使用基于硬件或软件的键盘的文本、经由使用麦克风或其它适当的音频输入设备的语音或其组合，来提供查询和/或命令。在查询和/或命令是口头的情况下，个人助理还被配置为将口头查询和/或命令传送到超发声检测服务器106以确定该口头查询和/或命令是否超发声，如果是，则提供对基于超发声的查询和/或命令的响应。个人数字助理还可以被配置为基于是否理解所提供的查询和/或命令来执行动作。在该方面，在个人数字助理不理解所提供的查询和/或命令的情况下，个人数字助理可以输出所提供的查询和/或命令未被理解的消息。例如，在口头传达查询和/或命令的情况下，个人数字助理可以在客户端设备104的显示器上将该消息显示为文本。

在一个实施例中，客户端设备104经由网络110与超发声检测服务器106进行通信。网络110可以包括ad hoc网络、内联网、外联网、虚拟专用网络(VPN)、局域网(LAN)、无线LAN(WLAN)、WAN、无线WAN(WWAN)、城域网(MAN)、互联网的一部分、公共交换电话网(PSTN)的一部分、蜂窝电话网络、无线网络、网络、WiMax网络、另一种类型的网络、或者两个或更多这样的网络的组合。

超发声检测服务器106被配置为接收一个或多个用户查询和/或命令、以及与所提供的用户查询和/或命令有关的元数据信息，并提供表示所提供的一个或多个用户查询和/或命令的一个或多个假设。超发声检测服务器106还被配置为在提供一个或多个用户查询和/或命令时，确定用户108是否正在使用超发声，并且根据是否检测到超发声来选择响应。

在一个实施例中，超发声检测服务器106和客户端设备104经由应用程序接口(API)进行通信，其中该API为客户端设备104提供用于向超发声检测服务器发送个人数字助理数据(例如，语音数据)的功能和服务。此外，客户端设备104可以配置有本地和/或专用API，该API指示其注册以接收特定用户查询或命令事件。

虽然将客户端设备104和超发声检测服务器106示出为图1中的单独实体，但超发声检测服务器106也可以在客户端设备104上实例化(反之亦然)。在将超发声检测服务器106实例化为客户端设备104上的后台服务的情况下，超发声检测服务器106向客户端设备104的操作系统注册以从其它应用程序和/或客户端设备104模块接收数据。

在确定用户108是否在传送一个或多个查询和/或命令时使用超发声时，超发声检测服务器106通信地耦合到未标注的音频数据库116和已标注的音频数据库118。未标注的音频数据库116包括从用户108获得的用户数据和/或信息，其旨在用作由超发声检测服务器106实例化的监督机器学习算法的训练数据。类似地，已标注的音频数据库118包括标注的音频数据，其中标注的音频数据与不同程度和/或类型的超发声有关。

为了从未标注的音频数据获得标注的音频数据，超发声检测服务器106可以使用众包工具将未标注的音频数据分发给一个或多个人工操作员118，以指示在未标注的音频数据中是否存在超发声。超发声检测服务器106可以经由网络112与一个或多个人工操作员118进行通信，网络112可以包括ad hoc网络、内联网、外联网、VPN、LAN、WLAN、WAN、无线WANWWAN、MAN、互联网的一部分、PSTN的一部分、蜂窝电话网络、无线网络、网络、WiMax网络、另一种类型的网络、或者两个或更多这样的网络的组合。超发声检测服务器106可以使用的众包工具的一个例子是Amazon Mechanical/>其可通过互联网获得并且可访问。

从在一个或多个移动和桌面设备上实现的一个或多个语音识别系统中采样音频数据(例如，来自一个或多个客户端设备104)，然后由人工操作员118根据寻求共识的严格指导进行标注。在收集音频数据采样时，可以向音频数据提供者(例如，用户)呈现参与或退出音频数据收集过程的机会。另外，超发声检测服务器106对音频数据采样进行匿名化，使得不与采样的音频数据一起收集个体的识别信息。因此，所提供的采样音频数据仅包括由用户授权收集的语音查询的音频数据。使用该匿名化过程，当用户自然地与个人数字助理进行交互时，从用户会话中收集近似大约5000个语音查询对。语音查询对可以包括第一音频查询和/或命令以及第二音频查询和/或命令，其中第二音频查询和/或命令类似于第一查询和/或命令。

为了确定给定的一组语音查询是否涉及超发声，应用以下条件来增加超发声信号的覆盖范围。在一个实施例中，这些条件可以排除不是直接重复或重大重构的查询对。这些条件可以包括但不限于：

(1)两个查询之间的时间差小于预定的阈值时间量(例如，小于或等于两分钟)；

(2)这两个查询在语音上相似。所公开的实施例可以使用一种或多种方式来识别两个查询在发音上是否相似：

(a)变音位编辑距离<2：在将查询文本转换为变音位之后，测量Levenshtein编辑距离；

(b)发音编辑距离<2：PD＝latticeDist(L1，L2)是发音格子L1和L2之间的距离。L_i＝g2p(query_i)，其中query_i是词序列，L_i是发音格子。在一个实施例中，g2p()函数是加权的有限状态转换机，其接受字符(字母)序列并产生音素的加权格子。通过此格子的路径是输入字母序列的可能发音。可以在(字母序列，音素序列)对上训练函数g2p()；

以及

(c)第二查询的1个最佳识别结果是第一查询识别的N个最佳假设中的候选者之一。

使用该公式，未标注的音频数据包括各种查询对，而不识别该查询对的第二查询是否表现出超发声。为了获得标注的音频数据，向一个或多个人工操作员118呈现跟着有问题的每个查询对的音频。如上所述，呈现给一个或多个人工操作员118的音频不包括可个体识别的信息，也不是与获得的音频一起收集的这种信息。

要求人工操作员118回答两个查询是否都试图实现相同的任务。对此进行要求以确保第二查询是第一查询的第二次尝试。然后，要求一个或多个人工操作员118将他们在第二查询中听到的内容与他们在第一查询中听到的内容进行比较。要求一个或多个人工操作员118与第二查询相比较地在第一查询的任何部分中寻找超发声的声学线索(反之亦然)，或者是否没有区别。这样做是为了确保双向性(bidirectionality)，例如第一查询与第二查询相比，第二查询与第一查询相比，并且避免使人工操作员118对任何一个特定方向有偏差。这是通过一个简单的三选题来完成的。

在评估每个查询对时，使用预定数量的人工操作员118(例如，三到五个人工操作员118)来判断给定的查询对。尝试达到预定数量的人工操作员118(例如，至少三名判断者)的共识。在预定数量的人工操作员118未达到共识中的情况下，在训练机器学习算法所使用的超发声模型时不考虑该给定的查询对。

在一个实施例中，计算注释器间一致性的kappa值，如Joseph L Fleiss在1971年Psychological公报、vol.76、no.5、pp.378发表的“Measuring nominal scale agreementamong many raters”(“Fleiss”)中所公开的。在经验性实验中，当人工操作员118检查第二查询是否与第一查询相关时，Fleiss的kappa获得0.82的值。在某些方面，这是由于对相关查询的有偏差的数据选择。然而，判断在第二查询中是否观察到超发声是不容易的，并且人工操作员118具有0.38的低kappa值。为了克服低kappa值，使用已达到预定数量的人工操作员118的共识(例如，至少三个人工操作员118)的数据来训练所公开的语言模型(例如，超发声模型)。

然后，超发声检测服务器106使用标注的音频数据来确定在查询对的第二查询中是否存在超发声。使用另一个或类似配置的监督机器学习算法，超发声检测服务器106还可以确定所提供的查询和/或命令的候选假设。虽然与本公开内容没有密切关系，但是本领域普通技术人员应当理解，可以类似地确定候选假设(例如，通过标注的和/或未标注的用户数据和监督的机器学习算法)。然后，将表示用户查询和/或命令的估计以及是否存在超发声的确定结果传送到客户端设备104。如下面参考图2所讨论的，客户端设备104和/或超发声检测服务器106可以使用是否存在超发声的确定结果来参与该估计的其它处理，以选择、确定、和/或生成所提供的用户查询和/或命令的更好表示。然后，客户端设备104可以基于由超发声检测服务器106传送的候选假设，经由个人数字助理来执行一个或多个操作。操作的示例包括但不限于：拨打电话、在互联网上搜索内容、执行与文件系统或操作系统相关的任务、或者其它此类操作或其组合。

图2是根据示例性实施例，被配置为执行超发声检测和分类的图1中的超发声检测服务器106的框图。在一个实施例中，情绪确定服务器106包括一个或多个处理器204、一个或多个通信接口202和机器可读存储器206。

超发声检测服务器106的各个功能组件可以位于单个计算机上，或者它们可以以各种布置分布在多个计算机上。此外，超发声检测服务器106的各个组件可以访问一个或多个数据库，超发声检测服务器106的各个组件中的每一个可以彼此进行通信。此外，虽然以单数意义讨论了图2的组件，但应当理解，在其它实施例中，可以采用这些组件的多个实例。

所述一个或多个处理器204可以是任何类型的商用处理器，例如可从英特尔公司、Advanced Micro Devices、德州仪器获得的处理器或者其它此类处理器。此外，所述一个或多个处理器204可以是处理器的任何组合，例如被布置为执行分布式计算的处理器。在一个实施例中，将所述一个或多个处理器204实现为硬件处理器。在另一个实施例中，将所述一个或多个处理器204实现为软件处理器。

所述一个或多个通信接口202可以被配置为与客户端设备104、未标注的音频数据库114和/或已标注的音频数据库116发送和/或接收通信。在该方面，所述一个或多个通信接口202可以是有线接口，例如以太网接口、无线接口(例如，802.11g/n接口)、或者有线和无线接口的组合。

机器可读存储器206包括用于实现超发声检测服务器106的特征的各种模块208和数据210。机器可读存储器206包括被配置为临时地或永久地存储指令和数据的一个或多个设备，其可以包括但不限于：随机存取存储器(RAM)、只读存储器(ROM)、缓冲存储器、闪存、光学介质、磁介质、高速缓冲存储器、其它类型的存储设备(例如，可擦除可编程只读存储器(EEPROM))和/或其任何适当的组合。术语“机器可读存储器”应当被视为包括能够存储模块208和数据210的单个介质或多个介质(例如，集中式或分布式数据库、或相关联的高速缓存和服务器)。因此，机器可读存储器206可以实现为单个存储装置或设备，或者替代地和/或另外地，实现为包括多个存储装置或设备的“基于云的”存储系统或存储网络。

模块208可以包括一个或多个应用程序和/或模块212-222。如相关计算机和与互联网相关领域的普通技术人员所理解的，组件212-222中的每一个(例如，模块、引擎和/或应用程序)可以表示一组可执行的软件指令和用于执行这些指令的相应硬件(例如，存储器和处理器)。在一个实施例中，模块208包括语音查询处理模块212、特征提取模块214、超发声分类器216、模型构建模块218、第一遍解码模块220和第二遍重新评分模块222。在一个实施例中，以计算机编程和/或脚本语言来编写模块208。这些语言的例子包括但不限于：C、C++、C#、Java、JavaScript、Perl、Python、Ruby或者任何其它现在已知或以后开发的计算机编程和/或脚本语言。

模块208可以与存储在机器可读存储器206中的数据210(例如，一个或多个语音查询224、一个或多个超发声条件226、一个或多个语音查询特征228、语音识别模型230、第一组候选假设232、超发声模型234和第二组候选假设236)进行交互。下面讨论各种模块308和数据310。

语音查询处理模块212被配置为处理由客户端设备104向超发声检测服务器106传送的查询和/或命令。语音查询处理模块212可以公开应用程序接口(API)，客户端设备104访问该API以向超发声检测服务器106提供一个或多个查询和/或命令。此外，语音查询处理模块212在处理所接收的语音查询和/或命令时，实例化和/或执行一个或多个其它模块(例如，模块214-222)。语音查询处理模块212还可以将接收的语音查询和/或命令存储为语音查询224。如上所述，语音查询可以包括由客户端设备104传送的一对语音查询。另外地和/或替代地，语音查询224包括单独存储的语音查询，然后超发声检测服务器106确定是否将单独存储的语音查询组合成对。

在确定是否要针对超发声来进一步分析一个或多个查询和/或命令时，语音查询处理模块212可以确定语音查询224中的一个或多个是否满足一个或多个超发声条件226。如上面所解释的，所述一个或多个超发声条件226可以包括：一个或多个语音查询224满足预定的阈值时间差并且一个或多个语音查询224在发音上相似。如先前所解释的，确定一个或多个语音查询224是否在发音上相似可以包括：计算变音位编辑距离、发音编辑距离，以及确定被分析的该对中的第二查询是否是针对该对中的第一查询的N-最佳假设中的候选之一。

当满足超发声条件226并且超发声检测服务器106确定要针对超发声来分析成对的查询和/或命令集合时，可以从该成对集合的每个查询和/或命令中提取一个或多个特征。因此，超发声检测服务器106包括特征提取模块214，其从每个接收到的查询和/或命令中提取一个或多个语音查询特征228。另外地和/或替代地，特征提取模块214可以在应用超发声条件226之前，针对每个接收到的语音查询224执行特征提取。特征提取模块214的技术益处是帮助识别从第一话音到给定语音查询和/或命令的下一个话音的发声变化。

在一个实施例中，并且对于每个话音，特征提取模块214从表1中描述的接收语音查询224中提取特征。一个提取的语音查询特征包括给定语音查询的语音基础的频率(F₀)。特征提取模块214可以使用David Talkin在1995年Speech coding and synthesis的vol.495、pp.518发表的“A robust algorithm for pitch tracking(rapt)”中公开的实现，来获得语音查询224的每个F₀的最小值和最大值。F₀值的范围可以是50-500Hz。特征提取模块214还可以确定每个语音查询的响度值，其可以是从log-Mel特征导出的能量估计。可以针对步长为10毫秒的100毫秒的帧，进一步计算这些特征。然后，可以在一个或多个词段上，对这些特征进行平均，并且可以为相应的特征保留每个段的平均值。使用音频到语音识别假设的强制对齐技术来计算时间分段信息。将每个词段的持续时间添加到段级特征中，以使每个段总共17个特征。

表1为每个语音段计算的特征

在一个实施例中，超发声检测服务器106在针对两个话音的假设中，基于来自词段的词汇和时间信息，使用动态编程来对齐查询对的段。这有助于逐字(例如，逐段)地比较发声差异。对于每个对齐的段，超发声检测服务器106计算预先计算的段级平均特征的增量以及对齐的段的持续时间之间的增量。此外，然后将这些增量组合为给定话音对的正值和负值。在这些组和整体集合中，选择一个或多个特定值，其包括但不限于最小值、最大值、平均值和所有增量的一个或多个比率。在该上下文中，比率是正值或负值的数量与对齐段的全部数量之比。表2总结了这些功能特征。

表2为每个话音计算的功能声学特征

然后，将特征提取模块214确定的特征存储为语音查询特征228。

模型构建模块218被配置为构建超发声检测服务器106在制定表示一个或多个语音查询224的初始估计(例如，假设)、以及用于确定查询语音查询对的第二语音包括超发声的概率时使用的一个或多个模型。在一个实施例中，将语音识别模型230和/或超发声模型234实现为监督机器学习算法，其中使用标注的音频数据来开发语音识别模型230和超发声模型234。对语音识别模型230进行训练以制定用户查询的第一组候选假设232(例如，第一组估计)。超发声模型234被配置为确定查询对的第二查询包括超发声的概率。如下面所讨论的，然后将超发声模型234输出的这些超发声特征与标准响应确定特征进行集成以形成第二组候选假设236。可以由语音识别模型230和/或超发声模型234实现的机器学习算法的例子包括但不限于：支持向量机(SVM)、贝叶斯分类器(naive或其它分类器)、k最近邻分类器、或者任何其它此类有监督机器学习实现或其组合。在Prakash等人2016年于Neu-IR’16SIGIR Workshop on Neural Information Retrieval发表的“Emulation HumanConversations using Convolutional Neural Network-based IR”(“Prakash”)中，讨论了可以实现的基于机器学习的模型的一个例子。如先前所解释的，模型构建模块218可以被配置为使用存储在未标注的音频数据库114和/或已标注的音频数据库116中的一个或多个语音查询和/或成对语音查询，通过一个或多个人工操作员118来训练语音识别模型230和/或超发声模型234。

超发声检测服务器可以在训练语音识别模型230和/或超发声模型234时，利用预定数量的话音对(例如，第一语音查询和第二语音查询)。在一个实施例中，使用3000个带注释的话音对进行训练，并且使用660个话音对进行测试。此外，可以对一个或多个负面示例进行下采样，以在训练和测试数据中具有平衡的先验。

在训练模型230、234时，可以使用一种或多种分类技术，例如梯度提升决策树二进制分类。在一些实现中，决策树可以用作分类器，这是因为决策树可以更容易可视化并且集成到实际解决方案中。可以针对每个特征组来单独优化一个或多个参数，然后通过改变树和迭代的数量来一起优化所有特征。在一个实施例中，使用具有100个树和100次迭代的决策树。

表3显示了上面所讨论的不同特征组以及其组合的结果。在准确性、正精度、正回调、负精度、负回调和曲线下面积方面，对性能进行测量。在特征组中，结果显示最高准确性和正精度来自持续时间要素。这个结果的一个理论是，用户倾向于将词拉长以作为强调它们的一种方式。

表3在准确性、精度、回调和曲线下面积(AUC)方面的超发声结果

在一个实施例中，对特征组进行组合以获得67.5％准确性的性能。虽然可以由他们自己来使用韵律和谱特征，但是将它们添加到持续时间会导致性能提高。改进的性能表明：当在超发声的持续时间特征中没有足够的证据时，谱和韵律特征可能如何影响整体性能。如表3中所示，持续时间特征在负回调方面呈现出最佳性能。

为了制定初始估计集合(例如，候选假设)，超发声检测服务器106包括第一遍解码模块220。第一遍解码模块220被配置为使用第一语音查询作为输入来调用语音识别模型230，以确定针对第一语音查询的一组潜在假设。这些估计可以包括对用户108想要的语音查询的尝试解释。此外，超发声检测服务器106可以被配置为制定表示所提供的用户查询和/或命令的预定数量的候选假设(例如，N最佳列表，其中N大于或等于1)。可以通过语音识别模型230来计算每个估计的得分，然后可以根据所确定的得分对估计进行排序。在该上下文中，得分可以表示该估计最佳地表示或最准确地反映所提供的用户查询和/或命令中的词和/或短语的概率。然后，可以将排名最高的估计(例如，1最佳候选假设)传送到客户端设备104。

然后，用户108可以重复用户查询和/或命令，如果满足一个或多个超发声条件226，则其表示成对话音的第二查询和/或命令，其中将第一查询选择为这种成对话音的第一查询。

图3A到图3B是来自查询“can you connect me with Mazilla？”的话音对示例的语谱图302-304的图像。语谱图302-304是使用Paul boersma等人在2002年Glotinternational的vol.5、no.9/10、pp.341-345发表的“Praat,a system for doingphonetics by computer”所公开的Praat来创建的。首先参见

图3A，顶部306示出了用于具有各种词分段308-320的第一话音的语谱图302。第一话音已经由第一遍解码模块220处理，第一遍解码模块220选择了具有词分段“can”、“you”、“connect”、“me”、“with”、“my”和“zillah”的候选假设。图3A还示出了顶部306中的音调频率轮廓，其示出为水平延伸通过图3A的不连续但弯曲的线。在图3A所示的话音中，用户意图将分段“my”和“zillah”作为单个分段“Mazilla”。然后，超发声检测服务器106可以将该候选假设传送给客户端设备104。

图4B是语谱图304的图像，其中用户已经为查询提供了第二话音“can youconnect me with Mazilla？”。语谱图304示出了第二话音包括词分段324-346。利用语谱图304，很明显说话者对超发声检测服务器106针对第一话音所提出的识别和假设不满意。利用第二话音，说话者重复相同的查询，但是已经超发声说出了联系人姓名“Mazilla”，其被错误地识别为“my zillah”。在该特定词的分段(例如，词分段344和346)的持续时间以及音调频率中明显存在超发声，其在第二话音中分别比在第一话音中更长和更高。此外，在第二话音中，说话者似乎暂停了一小段时间，然后才超发声说出联系人姓名，如就在超发声位置(其与“my”词段344相关联)之前的另外静音段所示出的。强制对齐分段在第一话音中产生九个分段，并且在第二话音中产生十个分段。这些词段以直接的方式彼此对齐，并且在对齐的分段上计算功能特征。无论对齐的分段是静音对静音(silence-to-silence)还是静音对词(silence-to-word)对齐，都会丢弃在其中具有SIL(静音)的对齐分段。

在检查顶部特征时，发现顶部特征主要是持续时间特征，稍后补充了韵律和谱特征。结果发现，最大和最小功能特征也相对于其它功能特征具有强调作用。这表明用户通常强调话音的单个部分或一部而不是所有的话音。该部分话音主要包含请求的要点或者最难识别的词；例如，图3A到图3B中的联系人姓名“Mazilla”。

在关注于超发声分类质量的内在评估的实施例中，一个或多个实施例还可以采用外在评估来示出超发声检测任务在整体上改善语音识别中的有用性。在一些实施例中，第一遍解码模块220和第二遍重新评分模块222使用如在以下的文献中所述的一个或多个其它信号对候选假设232中的一个或多个进行重新评分和重新排序：Milad Shokouhi、UmutOzertem和Nick Craswell在2016年International World Wide Web ConferencesSteering Committee的Proceedings of the 25th International Conference的pp.1215-1224发表的“Did you say u2 or youtube？:Inferring implicit transcriptsfrom voice search logs”。

在一个实施例中，第二遍重新评分模块222使用每个假设的词错误率(WER)作为排名目标，来重新评分和重新排序最初的N个最佳候选假设232。第二遍重新评分模块222可以实现为LambdaMART，其在Qiang Wu等人于2010年Information Retrieval、vol.13、no.3、pp.254-270的“Adapting boosting for information retrieval measures”中进行了公开。如本领域普通技术人员将理解的，LambdaMART模型是基于梯度增强决策树，并且被认为是用于学习监督的排名器的最强模型之一。

为了设置LambdaMART的参数，通过预定数量的树、每棵树预定数量的叶子、学习速率和每个叶子的最小实例数来执行参数扫描。本领域普通技术人员应当理解并明白如何优化LambdaMART模型，例如Tomas Tunys于2015年1月23日在捷克技术大学发表的“LambdaMART Demystified”中所公开的模型。

第二遍重新评分模块222的特征空间包含来自第一遍解码器的声学和语言模型等分、以及通过诸如大规模网络查询以及Web文档的标题、正文和锚文本之类的若干其它语料库计算的语言模型得分。这些语言模型可能比单个机器的内存或固态驱动器更大，并且可以保存在分布式键值存储设备中。因此，这些其它模型可以表示比第一遍中使用的语言模型更强大的模型。在替代的实施例中，可以在用户的设备上的客户端或其它计算平台上实现这些语言模型。

超发声分类器216被配置为使用经训练的超发声模型234，确定一个或多个超发声特征238和这些特征的对应概率值。超发声特征238包括给定查询包括超发声的超发声概率、以及该查询是否被检测为具有超发声的二元指示。将这些特征传送到第二遍重新评分模块222，第二遍重新评分模块222使用这些其它特征来重新评分候选假设232以获得经重新评分的候选假设236。

在一个实施例中，对于给定数据集合中的每个话音，在同一会话中提取先前的话音(如果存在的话)。如果给定的话音在预定时间帧(例如，5分钟)内没有先前的话音，则第二遍重新评分模块222将超发声特征视为丢失。然后，该话音对通过超发声分类器216以使用顶部假设获得超发声分类器概率和超发声标签，并将它们复制用于N最佳列表。在一个实施例中，具有所有特征组的分类器的版本可以为超发声检测任务提供准确性方面的最大增益。另外地和/或替代地，用作采样标准的距离度量也可以输入到特征空间中。表4描述了通过重新排序/重新评分方法考虑的一个或多个特征。列为“NbestCandidateEqualsPrevQuery”的特征从N个最佳候选级别的先前查询中捕获信息。

表4用于重新评分/重新排名的其它功能

图4根据示例性实施例，描绘了用于示出客户端设备104的各个组件组402-410与超发声检测服务器106之间的交互的架构图。组402-410示出了客户端设备104中的各种组件与超发声检测服务器106进行交互的方式。

图4还示出了各个组402-410消耗和产生的输入和输出。图4还包括个人数字助理412，个人数字助理412将其输出传送到客户端设备104。如上面所解释的，个人数字助理412可以执行客户端设备104的一个或多个任务和/或操作。

图5A到图5C根据示例性实施例，示出了用于检测经由图1的客户端设备获得的一对语音话音中的超发声的方法502。方法502可以由客户端设备104和/或超发声检测服务器106的一个或多个组件来实现，并且通过参考其进行讨论。

最初，参考图5A，超发声检测服务器106接收第一语音查询(操作504)。如上面参考图1所解释的，超发声检测服务器106可以从客户端设备104接收第一语音查询。

然后，超发声检测服务器106对第一语音查询执行语音识别。在一个实施例中，这包括：调用第一遍解码模块220来解码第一语音查询(操作506)。参考图2，第一遍解码模块220可以利用语音识别模型230然后生成所接收的第一语音查询的N最佳候选假设列表(操作508)。在一个实施例中，将该N最佳候选假设列表存储为候选假设232。然后，超发声检测服务器106可以将排名最高的候选假设传送到客户端设备104(操作510)。客户端设备104可以经由个人数字助理，向用户传送不理解第一语音查询的消息。在客户端设备104不理解第一语音查询的情况下，用户可以提供或者被提示提供第二语音查询。因此，超发声检测服务器106然后接收第二语音查询(例如，经由客户端设备104)。

参考图5B，超发声检测服务器106然后可以评估一个或多个超发声条件226，以确定所接收的第二语音查询是否可能是第一语音查询的超发声版本(操作514)。然后，超发声检测服务器106确定是否满足超发声条件(操作516)。在否定地做出该确定的情况下(例如，操作516的“否”分支)，方法502返回到操作504，其指示第二语音查询可能不是第一语音查询的超发声版本。替代地，在该确定是肯定的(例如，操作516的“是”分支)的情况下，方法502转到操作518。

在操作518处，第一遍解码模块220处理所接收的第二语音查询。然后，第一遍解码模块220根据第二接收的语音查询，生成N最佳候选假设列表。参考图5C，超发声分类器216然后对候选假设中的一个或多个进行分类以获得各种超发声特征238(操作522)。使用超发声特征以及一个或多个提取的语音查询特征228，第二遍重新评分模块222对一个或多个N最佳候选假设进行重新评分以获得第二组候选假设236(操作524)。然后，对第二组候选假设进行重新排序以获得可能表示第二接收的语音查询的排名最高的候选假设(操作526)。然后，可以将最高重新排名的候选假设传送到客户端设备(操作528)，其中在客户端设备处，可以将其显示给用户108或者由客户端设备104使用以执行与所接收的第二语音查询相关联的特定任务或操作。

在实验环境中，进行一次或多次第二遍重新评分实验并获得各种结果。用于这些实验的数据是对于来自具有语音功能的个人助理的随机采样的真实用户数据的人工转录。如上所述，这种转录不包括可单独识别的数据，也不包括关于特定用户的任何个人信息。排名器的训练集合大小为70000，并且使用的测试集合为4000个话音。表4中提到的其它特征组的覆盖率为54％，这是该数据集合中具有同一会话中的先前音频查询的话音数量。

将改进测量为相对于预先重新评分WER的百分比词错误率降低(WERR)。表5中描述了添加不同特征组的结果。在标准特征集合上，在添加由分类器给出的超发声概率和标签之后，注意到了改进。在表5的下面三行中，人们会注意到，通过将采样标准添加为特征而获得额外的改进。这表明：重新评分分类器获知在适合给定采样标准的情况下，HAClassiferProbability更可靠。在表5的最后一行中，将注意到，通过添加N个最佳候选级别特征Nbest-NbestCandidateEqualsPrevQuery获得了显著的改进，其本质上捕获该查询是否与先前的识别结果非常相似，并且直观地允许排名器在存在超发声的情况下减少这些候选的权重。

功能集合	WERR(％)
		标准特征	9.82
+超发声分类器输出	10.33
		+查询相似性功能	10.53
+NbestCandidateEqualsPrevQuery	10.77

表5第二遍重新评分实验结果。WERR是与预重新评分WER相比的相对WER降低。

在观察时，注意到如果数据集合仅包括具有同一会话中的先前音频查询的那些情况，则获得具有所有特征的11.43％的WERR。数据集合的剩余部分(不具有同一会话中的先前音频查询)具有10.14％的WERR。这些差异表明，所公开的系统和方法提供了相对于先前实现方式的技术益处和改进，其中先前的实现方式在确定与音频查询相关联的任务时不使用先前的音频查询。这些技术优势进一步转化为对其它技术领域(例如，人/机接口)的改进。

用此方式，本公开内容描述了超发声检测如何提供改善自动语音识别的有用信号(特别是通过第二遍重新评分)。本文公开的结果表明，对齐和计算用于韵律、谱和持续时间特征的分段增量有助于超发声检测任务。使用超发声以及一个或多个辅助特征，导致对真实用户数据的语音识别重新评分实验中进一步降低词错误率。

模块、组件和逻辑

本文将某些实施例描述为包括逻辑或多个组件、模块或机制。模块可以构成软件模块(例如，在机器可读介质上实现的代码)或硬件模块。“硬件模块”是能够执行某些操作的有形单元，并且可以以某种物理方式来配置或布置。在各种示例性实施例中，一个或多个计算机系统(例如，独立计算机系统、客户端计算机系统或服务器计算机系统)或计算机系统的一个或多个硬件模块(例如，一个处理器或一组处理器)可以由软件(例如，应用程序或应用程序部分)配置为用于执行如本文所描述的某些操作的硬件模块。

在一些实施例中，可以机械地、电子地或者利用其任何适当组合来实现硬件模块。例如，硬件模块可以包括被永久配置为执行某些操作的专用电路或逻辑。例如，硬件模块可以是专用处理器，例如现场可编程门阵列(FPGA)或专用集成电路(ASIC)。硬件模块还可以包括由软件临时配置以执行某些操作的可编程逻辑或电路。例如，硬件模块可以包括由通用处理器或其它可编程处理器执行的软件。一旦通过这样的软件进行配置，硬件模块就成为特定的机器(或机器的特定组件)，其被独特地定制以执行配置的功能，而不再是通用处理器。应当理解，在专用和永久配置的电路中或者在临时配置的电路(例如，通过软件配置)中机械地实现硬件模块的决定，可以由成本和时间考虑来驱动。

因此，短语“硬件模块”应当被理解为涵盖有形实体，即，进行物理构造、永久配置(例如，硬连线)或临时配置(例如，编程)以便以某种方式操作或执行本文所描述的某些操作的实体。如本文所使用的，“硬件实现的模块”指代硬件模块。考虑对硬件模块进行临时配置(例如，编程)的实施例，不需要在任何一个时刻配置或实例化每个硬件模块。例如，当硬件模块包括通过软件配置以成为专用处理器的通用处理器时，可以在不同时间分别将通用处理器配置为不同的专用处理器(例如，包括不同的硬件模块)。软件相应地配置特定的一个或多个处理器，例如，在一个时刻构成特定的硬件模块，并在不同的时刻构成不同的硬件模块。

硬件模块可以向其它硬件模块提供信息并从其接收信息。因此，可以将所描述的硬件模块视作为通信地耦合。在同时存在多个硬件模块的情况下，可以通过硬件模块中的两个或更多之间或之中的信号传输(例如，通过适当的电路和总线)来实现通信。在不同时间配置或实例化多个硬件模块的实施例中，可以例如通过信息在多个硬件模块可访问的存储器结构中的存储和检索，来实现这些硬件模块之间的通信。例如，一个硬件模块可以执行操作，并将该操作的输出存储在与其通信耦合的存储器设备中。然后，另外的硬件模块可以稍后访问存储器设备以检索和处理所存储的输出。硬件模块还可以发起与输入设备或输出设备的通信，并且可以在资源(例如，信息集合)上操作。

本文所描述的示例方法的各种操作可以至少部分地由被临时配置(例如，通过软件)或永久配置为执行相关操作的一个或多个处理器来执行。无论是临时配置还是永久配置，这些处理器都可以构成用于执行本文所描述的一个或多个操作或功能的处理器实现的模块。如本文所使用的，“处理器实现的模块”指的是使用一个或多个处理器实现的硬件模块。

类似地，本文所描述的方法可以至少部分地由处理器实现，其中特定的一个或多个处理器是硬件的示例。例如，一个方法的至少一些操作可以由一个或多个处理器或处理器实现的模块来执行。此外，一个或多个处理器还可以操作以支持在“云计算环境”中执行相关的操作或者操作成“软件作为服务”(SaaS)。例如，操作中的至少一些可以由一组计算机(作为包括处理器的机器的示例)来执行，其中这些操作可通过网络(例如，互联网)和通过一个或多个适当的接口(例如，应用程序接口(API))来访问。

可以将某些操作的执行分布在处理器之中，不仅驻留在单个机器中，而是部署在多个机器上。在一些示例性实施例中，处理器或处理器实现的模块可以位于单个地理位置中(例如，位于家庭环境、办公室环境或服务器群内)。在其它示例性实施例中，处理器或处理器实现的模块可以分布在多个地理位置上。

示例性机器结构和机器可读介质

图6是根据一些示例性实施例，能够从机器可读介质(例如，机器可读存储介质)读取指令并执行本文所讨论的方法中的任何一种或多种的机器600的组件的框图。具体而言，图6示出了具有计算机系统的示例形式的机器600的图形表示，其中在该计算机系统中，可以执行用于使机器600执行本文所讨论的方法中的任何一种或多种的指令616(例如，软件、程序、应用程序、小应用程序、app或其它可执行代码)。例如，指令616可以使机器600执行5A-5C中所示的方法602。另外地或替代地，指令616可以实现图2中所示的模块208里的一个或多个。指令616将通用的、未编程的机器转换成被编程为以所描述的方式执行所描述和示出的功能的特定机器。在替代的实施例中，机器600操作成独立设备，或者可以耦合(例如，联网)到其它机器。在网络化部署中，机器600可以以服务器-客户端网络环境中的服务器机器或客户端机器的能力运行，或者作为对等(或分布式)网络环境中的对等机器进行运行。机器600可以包括但不限于：服务器计算机、客户端计算机、个人计算机(PC)、平板计算机、膝上型计算机、上网本、机顶盒(STB)、个人数字助理(PDA)、娱乐媒体系统、蜂窝电话、智能电话、移动设备、可穿戴设备(例如，智能手表)、智能家居设备(例如，智能家庭)、其它智能设备、网络设备、网络路由器、网络交换机、网络桥接器、或者能够顺序地或以其它方式执行指令616的任何机器，其中指令616指定要由机器600采取的动作。此外，虽然仅示出了单个机器600，但术语“机器”还应被视为包括机器600的集合，这些机器600单独地或共同地执行指令616以执行本文所讨论的方法中的任何一种或多种。

机器600可以包括被配置为例如经由总线602彼此通信的处理器610、存储器/存储设备630和I/O组件650。在示例性实施例中，处理器610(例如，中央处理单元(CPU)、精简指令集计算(RISC)处理器、复杂指令集计算(CISC)处理器、图形处理单元(GPU)、数字信号处理器(DSP)、专用集成电路(ASIC)、射频集成电路(RFIC)、另一种处理器或者其任何适当组合)可以包括例如能够执行指令616的处理器612和处理器614。术语处理器旨在包括具有能够同时地执行指令616的两个或更多独立处理器(有时称为“核心”)的多核处理器。虽然图6示出了多个处理器610，但是机器600可以包括具有单个核心的单个处理器、具有多个核心(例如，多核进程)的单个处理器、具有单个核心的多个处理器、具有多个核心的多个处理器或者其任何组合。

存储器/存储设备630可以包括存储器632(例如，主存储器或其它存储器存储设备)和存储单元636，这二者都可以由处理器610访问(例如，通过总线602访问)。存储单元636和存储器632存储用于体现本文所描述的方法或功能中的任何一个或多个的指令616。指令616还可以在机器执行期间，完全地或部分地驻留在存储器632内、驻留在存储单元636内、驻留在处理器610中的至少一个内(例如，驻留在处理器的高速缓冲存储器内)、或者驻留在其任何适当组合内。因此，存储器632、存储单元636和处理器610的存储器是机器可读介质的例子。

如本文所使用的，“机器可读介质”表示能够临时地或永久地存储指令和数据的设备，其可以包括但不限于：随机存取存储器(RAM)、只读存储器(ROM)、缓冲存储器、闪存、光介质、磁介质、高速缓冲存储器、其它类型的存储器(例如，可擦除可编程只读存储器(EEPROM)和/或其任何适当的组合)。应当认为术语“机器可读介质”包括能够存储指令616的单个介质或多个介质(例如，集中式或分布式数据库、或者相关联的高速缓存和服务器)。还应当认为术语“机器可读介质”包括能够存储指令(例如，指令616)以供机器(例如，机器600)执行，使得当该指令在被机器600的一个或多个处理器(例如，处理器610)执行时，使机器600执行本文所描述的方法中的任何一个或多个的任何介质或多个介质的组合。因此，“机器可读介质”指的是单个存储装置或设备、以及包括多个存储装置或设备的“基于云的”存储系统或存储网络。术语“机器可读介质”不包括信号本身。

I/O组件650可以包括各种各样的组件以接收输入、提供输出、产生输出、发送信息、交换信息、捕获测量等等。包括在特定机器中的特定I/O组件650将取决于机器的类型。例如，诸如移动电话之类的便携式机器可能包括触摸输入设备或其它这样的输入装置，而无头端服务器机器可能不包括这样的触摸输入设备。应当理解的是，I/O组件650可以包括图6中没有示出的许多其它组件。根据功能对I/O组件650进行分组以仅用于简化以下讨论，并且该分组方式决不是限制性的。在各种示例实施例中，I/O组件650可以包括输出组件652和输入组件654。输出组件652可以包括可视组件(例如，诸如等离子显示面板(PDP)、发光二极管(LED)显示器、液晶显示器(LCD)、投影仪或阴极射线管(CRT)之类的显示器)、声学组件(例如，扬声器)、触觉组件(例如，振动电机、电阻装置)、其它信号发生器等等。输入组件654可以包括字母数字输入组件(例如，键盘，配置为接收字母数字输入的触摸屏、光学键盘、或其它字母数字输入组件)、基于点的输入组件(例如，鼠标、触摸板、轨迹球、操纵杆、运动传感器或其它指向仪器)、触觉输入组件(例如，物理按钮、提供触摸或触摸手势的位置和/或力量的触摸屏、或其它触觉输入组件)、音频输入组件(例如，麦克风)等等。

在另外的示例性实施例中，I/O组件650可以包括生物测定组件656、运动组件658、环境组件660或位置组件662等等各种其它组件。例如，生物测定组件656可以包括用于检测表达(例如，手部表达、面部表情、声音表达、身体姿势或眼睛跟踪)、测量生物信号(例如，血压、心率、体温、汗水或脑电波)、识别人(例如，语音识别、视网膜识别、面部识别、指纹识别或基于脑电图的识别)的组件等等。运动组件658可以包括加速度传感器组件(例如，加速度计)、重力传感器组件、旋转传感器组件(例如，陀螺仪)等等。环境组件660可以包括例如照明传感器组件(例如，光度计)、温度传感器组件(例如，一个或多个检测环境温度的温度计)、湿度传感器组件、压力传感器组件(例如，气压计)、声学传感器组件(例如，一个或多个检测背景噪声的麦克风)、接近度传感器组件(例如，检测附近物体的红外传感器)、气体传感器(例如，检测危险气体浓度以确保安全或测量大气中的污染物的气体检测传感器)、或者可以提供与周围物理环境相对应的指示、测量值或信号的其它组件。位置组件662可以包括位置传感器组件(例如，全球定位系统(GPS)接收器组件)、高度传感器组件(例如，检测可以用于导出高度的空气压力的高度计或气压计)、方向传感器组件(例如，磁力计)等等。

可以使用各种技术来实现通信。I/O组件650可以包括通信组件664，其可操作以分别经由耦合682和耦合672将机器600耦合到网络680或设备670。例如，通信组件664可以包括网络接口组件或者与网络680接口的其它适当的设备。在另外的例子中，通信组件664可以包括有线通信组件、无线通信组件、蜂窝通信组件、近场通信(NFC)组件、组件(例如，低功耗/>)、/>组件、以及用于通过其它模式来提供通信的其它通信组件。设备670可以是另一个机器或者各种外围设备中的任何一种(例如，经由通用串行总线(USB)耦合的外围设备)。

此外，通信组件664可以检测标识符或者包括可操作以检测标识符的组件。例如，通信组件664可以包括射频识别(RFID)标签读取器组件、NFC智能标签检测组件、光学读取器组件(例如，用于检测诸如通用产品码(UPC)条形码之类的一维条形码、诸如快速响应(QR)码、Aztec码、数据矩阵、Dataglyph、MaxiCode、PDF417、Ultra Code、UCC RSS-2D条形码之类的多维条形码和其它光学码的光学传感器)、或声学检测组件(例如，用于识别标注的音频信号的麦克风)。另外，可以经由通信组件664导出各种信息，例如，经由互联网协议(IP)地理定位的位置、经由信号三角测量的位置、经由检测可以指示特定位置的NFC信标信号的位置等等。

传输介质

在各种示例性实施例中，网络680的一个或多个部分可以是ad hoc网络、内联网、外联网、虚拟专用网(VPN)、局域网(LAN)、无线LAN(WLAN)、广域网(WAN)、无线WAN(WWAN)、城域网(MAN)、互联网、互联网的一部分、公共交换电话网(PSTN)的一部分、普通老式电话服务(POTS)网络、蜂窝电话网络、无线网络、网络、其它类型的网络、或者两个或更多这样的网络的组合。例如，网络680或网络680的一部分可以包括无线网络或蜂窝网络，耦合682可以是码分多址(CDMA)连接、全球移动通信系统(GSM)连接、或者其它类型的蜂窝或无线耦合。在该例子中，耦合682可以实现各种类型的数据传输技术中的任何一种，例如单载波无线电传输技术(1xRTT)、演进数据优化(EVDO)技术、通用分组无线服务(GPRS)技术、增强数据速率GSM演进(EDGE)技术、包括3G、第四代无线(4G)网络的第三代合作伙伴计划(3GPP)、通用移动通信系统(UMTS)、高速分组接入(HSPA)、全球微波接入互操作性(WiMAX)、长期演进(LTE)标准、由各种标准制定组织定义的其它标准、其它远程协议、或者其它数据传输技术。

可以经由网络接口设备(例如，通信组件664中包括的网络接口组件)使用传输介质并且利用许多公知的传输协议中的任何一种(例如，超文本传输协议(HTTP))，在网络680上发送或接收指令616。类似地，可以使用传输介质，经由与设备670的耦合672(例如，对等耦合)来发送或接收指令616。应当认为术语“传输介质”包括能够存储、编码或携带用于由机器600执行的指令616的任何无形介质，并且包括数字或模拟通信信号或其它无形介质以促进这种软件的通信。

语言

贯穿本说明书，多个实例可以实现被描述为单个实例的组件、操作或结构。虽然将一个或多个方法的各个操作示出并描述为单独的操作，但是可以同时地执行这些单独操作中的一个或多个，并且不需要以所示的顺序来执行这些操作。在示例性配置中作为单独组件呈现的结构和功能可以实现为组合结构或组件。类似地，作为单个组件呈现的结构和功能可以实现为单独的组件。这些和其它之间的边界、修改、增加和改进都落入本文主题的保护范围内。

虽然已经参考特定的示例性实施例描述了本发明主题的概述，但是在不脱离本公开内容的实施例的更广泛范围的情况下，可以对这些实施例进行各种修改和改变。本发明主题的这些实施例可以在本文通过术语“发明”来单独地或共同地指代，仅仅为了方便起见而引用术语“发明”，其并不旨在将本申请的保护范围自愿地限制于任何单个公开内容或发明构思(如果事实上披露了一个以上的话)。

以足够的细节描述了本文所示出的实施例，以使本领域普通技术人员能够实践所公开的教导内容。可以使用其它实施例以及从中导出的其它内容，使得可以在不脱离本公开内容的范围的情况下进行结构和逻辑替换和改变。因此，具体实施方式不应被视为具有限制性意义，各个实施例的范围仅由所附权利要求以及这些权利要求所赋予的等同物的全部范围来限定。

如本文所使用的，可以以包含性或排他性的意义来解释术语“或”。此外，可以为本文中描述为单个实例的资源、操作或结构提供多个实例。另外，各种资源、操作、模块、引擎和数据存储之间的边界在某种程度上是任意的，并且在特定说明性配置的上下文中示出了特定的操作。可以设想其它功能分配，并且可以落入本公开内容的各种实施例的范围内。通常，在示例性配置中呈现为单独资源的结构和功能，可以实现为组合结构或资源。类似地，作为单个资源呈现的结构和功能可以实现为单独的资源。这些和其它变型、修改、增加和改进都落入如附图所表示的本公开内容的实施例的保护范围内。因此，说明书和附图应当被视为说明性的而非限制性的。

Claims

1.一种用于检测重复语音查询中的超发声的系统，所述系统包括：

存储计算机可执行指令的机器可读存储器；以及

与所述机器可读存储器通信的一个或多个硬件处理器，其执行所述计算机可执行指令，将所述系统配置为：

接收包括至少一个词的第一音频话音；

接收包括至少一个词的第二音频话音；

基于所述第一音频话音与所述第二音频话音的比较，确定所述第二音频话音是否可能包括超发声；

响应于确定所述第二音频话音可能包括超发声，确定多个超发声特征，至少一个超发声特征包括所述第二音频话音的一部分包括超发声的概率；

确定与所述第二音频话音相对应的第一多个候选假设；

基于所确定的多个超发声特征来确定所述候选假设中的每个候选假设的得分，其中每个候选假设与对应于所确定的得分的排名相关联；以及

基于与所选择的假设相关联的所述排名，从所述第一多个候选假设中选择假设。

2.根据权利要求1所述的系统，其中，进一步确定所述第二音频话音包括超发声，其中在从接收到所述第一音频话音的时间起的预定时间间隔内接收到所述第二音频话音。

3.根据权利要求1所述的系统，其中，所述第一音频话音与所述第二音频话音的所述比较包括：确定所述第一音频话音与所述第二音频话音之间的发音相似性。

4.根据权利要求1所述的系统，其中，所述系统还被配置为：

确定与所述第一音频话音相对应的第二多个候选假设；以及

所述第一音频话音与所述第二音频话音的所述比较包括：确定来自所述第一多个候选假设的假设是否被包括在所述第二多个候选假设中。

5.根据权利要求1所述的系统，其中，所述第一多个候选假设中的每个候选假设的所述得分还是基于所述第一音频话音与所述第二音频话音之间的变音位相似性以及所述第一音频话音与所述第二音频话音之间的发音相似性。

6.根据权利要求1所述的系统，其中：

所述第一音频话音包括第一多个词段；

所述第二音频话音包括第二多个词段；以及

所述系统还被配置为将所述第一多个词段与所述第二多个词段进行对齐。

7.根据权利要求1所述的系统，其中：

所述第一音频话音包括第一多个词段；

所述第二音频话音包括第二多个词段；以及

所述系统还被配置为确定所述第二音频话音可能包括超发声，其中所述第二多个词段中的至少一个词段的持续时间长于所述第一多个词段的对应词段。

8.一种用于检测重复语音查询中的超发声的系统，所述系统包括：

存储计算机可执行指令的机器可读存储器；以及

接收包括至少一个词的第一音频话音；

确定针对所接收的第一音频话音的第一候选假设；

响应于所接收的第一候选假设而输出消息；

接收包括至少一个词的第二音频话音；

确定与所述第二音频话音相对应的第一多个候选假设；

基于与所选择的假设相关联的所述排名，从所述第一多个候选假设中选择假设；以及

基于所选择的假设来执行操作。