CN114586094A

CN114586094A - 具有关键词适配的可定制关键词定位系统

Info

Publication number: CN114586094A
Application number: CN202080071838.3A
Authority: CN
Inventors: L.考希克; Z.葛
Original assignee: Sony Interactive Entertainment Inc
Current assignee: Sony Interactive Entertainment Inc
Priority date: 2019-08-29
Filing date: 2020-08-26
Publication date: 2022-06-03
Also published as: WO2021041517A1; US11217245B2; JP7288143B2; EP4022602A4; US20220130384A1; US20210065699A1; JP2022545557A; EP4022602A1; US11790912B2

Abstract

用户(202)可以指定针对数字助理(12)的唤醒词以触发数字助理对该唤醒词响应，其中该用户提供(204)该唤醒词的一个或多个初始发音。该唤醒词可以是唯一的，或者至少不是由所述数字助理的装置制造商或开发商事先确定的。然后可以用将来可能提供的唤醒词的其他潜在发音来扩充(214)该关键词的一个或多个初始发音，并且可以对那些其他潜在发音向下修剪(214)到阈值数量的其他潜在发音。然后可以使用该唤醒词的一个或多个初始发音的一个或多个记录来训练(218)音素识别器模型，以更好地识别所述用户或另一个人使用所述初始发音或其他潜在发音说出的所述唤醒词的未来实例。

Description

具有关键词适配的可定制关键词定位系统

技术领域

本申请总体上涉及技术上创新的非常规解决方案，这些解决方案必须源于计算机技术并产生具体的技术改进。特别地，本申请涉及使用神经网络和其他技术来识别唤醒词或其他关键词以触发数字助理响应，其中关键词不是预定的。

背景技术

唤醒词检测通常用于触发在装置处执行的数字助理以开始收听由人类口头提供且助理可能响应的任务或信息请求。助理可以包含在机器人、智能手机、智能扬声器等中，并且可以是例如亚马逊的

或苹果的

然而，当前技术的局限性在于，典型地单一、预定义和通用的唤醒词(通常是给予助理的名字本身)缺乏个性化。该限制旨在使唤醒词的“关键词定位”在尝试检测实时语音中的唤醒词时尽可能准确，因为当前用于关键词定位的方法通常需要训练用于对从说出预定唤醒词的众多说话者的数千个训练样本进行关键词定位的神经网络，以将助理识别唤醒词的准确性提高到足够的水平。当前对于前述计算机相关技术问题没有妥善的解决方案。

发明内容

本申请认识到，在个性化机器人、通信对话代理和其他类型的数字助理呈指数增长的世界中，需要一种技术解决方案，其能够帮助用户为助理分配他们自己的唤醒词名字(或更一般地，关键词)，并使用该名字来激活助理并与之对话。本申请还认识到不同的用户可能在不同的时间与相同的装置/数字助理互动，并且可能希望各自给相同的助理不同的唤醒词或名字。

基于前述，本申请进一步认识到可定制唤醒词/关键词定位可以在众多应用程序中实现和使用，而无需在说出关键词的不同人的成千上万个训练样本上训练神经网络。

因此，在与本发明原理一致的非限制性示例中，“可定制关键词定位”可以被认为是一种可训练的关键词定位方法，其具有通过在装置本地处无需服务器的帮助离线地注册特定的新关键词/唤醒词来添加新关键词/唤醒词的能力。助理然后可以开始再次无需服务器的帮助在连续实时和“离线”语音中检测新添加的关键词/唤醒词，以验证关键词已经被说出(但是在一些实施方案中服务器可以用于此类目的)。包含助理的系统/装置甚至可以在注册过程期间适用于说话者，以通过短期关键词适配的过程使系统更熟悉说话者的声音。这种关键词适配也可以在较短期和较长期使用说话者与助理的对话随时间的推移而执行，以改进系统检测说话者唤醒词的准确性。

更详细地，在示例实施方案中，可以检测人说出的音素，并且系统可以使用音素-关键词解码器来解码经由音素说出的关键词以检测关键词。为实现这一点，可以通过首先选择足够的数据集用于训练和评估模型并将其应用于关键词来开发音素识别器模型。例如，可以使用TIMIT语料库，因为其具有足够的带注释音素边界来训练高效的音素识别器模型，但是应理解可以使用多个其他语料库。根据本发明原理，可以使用基于循环神经网络的方法来训练音素识别器模型，并且在一些示例中，具体地可以使用基于联结主义时序分类(CTC)的翘曲方法。

然后使用该音素识别器模型，可以在上述关键词适配之前发生发音扩充和修剪，以从音素序列中准确地解码可能的关键词。为了做到这一点，可以训练具有音素识别器模型的系统以从音素序列中近似地检测字素。在非限制性示例中，音素可以是语音系统的表示由用户发出的单个声音的一个或多个单元(例如，“Charlie”中的“ch”)，并且字素可以是书写系统的表示单独音素的一个或多个单元。因此，例如，给定特定音素序列，可以导出最可能的一个或多个字素序列表征。然后可以确定每个字素序列的许多音素变体，其中使用sequitur工具借助于词汇表/词典(例如，大约80,000个)生成字素序列的前N个音素变体(例如，N＝5)，为关键词生成可能有意义的音素序列，从而模仿用于说出关键词的音素序列的可能变体，因为用户可能不会每次都说出完全相同的同一关键词。图14中示出了这种情况的示例，其中单个字素1400(C H A R L I E)被馈送到sequitur G2P工具1402中以呈现多个音素1404(CH AA R L IY、CH AA R L AY、SH AA R L IY等)。然后可以进行修剪以减少音素序列的可能变体数量，从而减少处理时间，同时仍然保持最准确的变体。

然后音素序列可以变成输入并且字素序列可以变成深度学习模型训练的输出，其中可以在适配期间使用序列到序列训练来训练可以建立音素识别器的模型。一旦该模型被训练，它就可以使用音素识别器模型生成的音素，并将其传递给序列到序列P2G模型，以便在用户实时说出关键词时对其进行后续解码。图15中示出了这一点的概述，其中语音1500被馈送到关键词解码器1504的音素识别器模型1502以最终解码由用户在注册关键词后说出的关键词。

此外，根据本发明原理，系统可以以两种模式检测关键词/唤醒词：孤立关键词模式，其中说出了关键词但没有周围语音伴随以帮助识别应该触发系统；以及在其他预注册的词周围说出关键词以帮助识别应该触发系统的模式。但是为了协助任一模式，应理解，系统可以在其可定制关键词定位系统(CKWS)架构中结合关键词适配技术。这可能涉及系统调查以尝试通过使用短期和长期说话者特征来改进关键词识别准确性。

因此，在一个方面，一种用于识别语音中的关键词的方法包括：检测语音中的第一音素；将第一音素转换为第一字素；将来自词典的第二字素添加到第一字素以呈现扩充字素集；将扩充字素集转换为第二音素集；修剪第二音素集以呈现输出音素；以及至少部分地基于输出音素识别关键词。所述方法可以使用适用于生成语音的人类的至少一个神经网络来执行，并且语音中的关键词可以由用户指示并且不可以在语音中被指示之前被预定。

在非限制性示例中，词典可以包括基本词和翻译词。每个基本词可以与“K”个音素映射相关，并且每个翻译词可以与“N”个音素映射相关。每个基本词也可以与“M”个翻译词相关联。“K”、“N”和“M”可以是整数，并且至少“K”可以大于1。

在一些实施方式中，所述方法可以包括指示用户按大于1的预定次数说出关键词，并且还向用户指示关键词应该包含至少三个音素。

同样在一些实现方式中，修剪第二音素集可以包括从第二音素集中去除重复的音素序列。修剪第二音素集还可以包括如果特定音素序列短于阈值序列长度，则从第二音素集中消除音素序列。更进一步地，修剪第二音素集可以包括如果第二音素集中的第一音素序列与由第一音素建立的第二音素序列不相似，则从第二音素集中消除音素序列。可以使用基于Jaro Winkler归一化距离和基于Demerau Levenshtein归一化距离的融合距离度量来测量相似性，诸如等式

其中α是加权参数，其中dl是Demerau Levenshtein归一化距离，并且其中jw是Jaro Winkler归一化距离。

此外，在一些示例中，修剪第二音素集可以包括基于正样本和负样本的样本匹配来进行修剪，其中来自第二音素集的音素序列如果仅与负样本匹配则可以被消除。如果匹配样本的加权平均值大于阈值，则可以不从第二音素集中消除来自第二音素集的与正样本和负样本匹配的音素序列。

在一些示例中，可以使用音素识别器模型来执行检测，并且所述方法还可以包括在修剪之后，基于指示第一音素的一个或多个记录来训练音素识别器模型。在这些示例中，输出音素可以为第一输出音素，音素识别器模型可以为第一音素识别器模型，并且该训练可以从第一音素识别器模型呈现出第二音素识别器模型。然后，所述方法可以包括：在训练之后使用第二音素识别器模型来呈现第二输出音素，然后，或者将第二输出音素添加到第一输出音素以尝试基于第一和第二输出音素两者来识别关键词，或者用第二输出音素替换第一输出音素以尝试基于第二输出音素而不是第一输出音素来识别关键词。

在另一方面，一种用于识别语音中的关键词的方法包括：基于在第一实例中说出的关键词检测语音中的第一音素序列；使用第一音素序列来识别第一字素序列；以及基于第一字素序列从词典中识别至少第二和第三字素序列。所述方法还包括将第二字素序列转换为至少第二和第三音素序列并将第三字素序列转换为至少第四和第五音素序列。所述方法然后还包括使用第二、第三、第四和第五音素序列中的至少一者识别在第二实例中再次说出的关键词，其中第二实例发生在第一实例之后。

而且，在一些示例实现方式中，所述方法可以包括消除第二音素序列并且使用第三、第四和第五音素序列中的至少一者但不使用第二音素序列来识别在第二实例中再次说出的关键词。

此外，在一些示例中，可以使用第一音素识别器模型来检测第一音素序列，并且可以将语音中的第一音素序列存储为一个或多个记录。在这些示例中，所述方法可以包括使用一个或多个记录来使第一音素识别器模型适用于提供语音的人。一个或多个记录可以用于训练人的第一音素识别器模型以呈现第二音素识别器模型，其中第二音素识别器模型可以用于识别在第二实例中说出的关键词。

在又一方面，一种设备包括至少一个处理器和不是瞬时信号的至少一个计算机存储设备。计算机存储设备包括能够由至少一个处理器执行的指令，以使用第一音素识别器模型基于说出唤醒词的人的记录至少部分地通过将从记录导出的第一音素序列添加到第一音素识别器模型可访问的词典中来向数字助理注册唤醒词。该指令还能够执行以使用说出唤醒词的人的记录训练第一音素识别器模型以呈现第二音素识别器模型。然后该指令能够执行以用第二音素识别器模型替换第一音素识别器模型，基于记录但使用第二音素识别器模型向数字助理再次注册唤醒词，并且通过添加使用第二音素识别器模型从记录导出的第二音素序列来更新词典。

在一些示例中，记录可以是第一记录，人可以是第一人，并且唤醒词可以是第一唤醒词。在这些示例中，指令还能够执行以使用第二音素识别器模型基于第二人说出第二唤醒词的第二记录至少部分地通过将第三音素序列添加到词典中来向数字助理注册第二唤醒词。第三音素序列可以从第二记录导出，其中第二记录可能不同于第一记录，第二人可能不同于第一人，并且第二唤醒词可能不同于第一唤醒词同样在这些示例中，指令还能够执行以使用第二记录来训练第二音素识别器模型以呈现第三音素识别器模型，用第三音素识别器模型替换第二音素识别器模型，基于第二记录但使用第三音素识别器模型向数字助理再次注册第二唤醒词，并且通过添加使用第三音素识别器模型从第二记录导出的第四音素序列来更新词典。

参考附图可最好地理解本申请的关于其结构和操作两者的细节，在附图中，相同的附图标记指代相同的部分，并且在附图中：

附图说明

图1是与本发明原理一致的示例装置网络的框图，其中每个装置可以包含如本文所述的关键词识别器系统；

图2和图3示出了根据本发明原理的关键词定位系统的架构；

图4示出了根据本发明原理的用于离线P2G模型训练的示例输入/输出音素和字素对；

图5图示了根据本发明原理的在语音词典扩充的第一步期间采取的动作；

图6图示了根据本发明原理的在语音词典扩充的第二步期间采取的动作；

图7示出了根据本发明原理的各种单词/名字的G2P和P2G变体文件的示例；

图8和图9示出了根据本发明原理的基于P2G、G2P映射在发音扩充和修剪期间采取的动作的示例流程图；

图10图示了根据本发明原理的在发音修剪期间的样本匹配；

图11示出了根据本发明原理的音素识别器模型的关键词适配的示例流程图；

图12示出了根据本发明原理的音素识别器模型的示例架构；

图13示出了根据本发明原理的示例总体逻辑的流程图；

图14示出了根据本发明原理的使用sequitur工具生成字素序列的音素变体的示例流程图；并且

图15是根据本发明原理的指示用于解码关键词的项目的示例概述流程图。

具体实施方式

本公开总体上涉及计算机生态系统，所述计算机生态系统包括消费性电子(CE)装置网络的各方面，诸如但不限于分布式计算机游戏网络、增强现实(AR)网络、虚拟现实(VR)网络、视频广播、内容递送网络、虚拟机以及人工神经网络和机器学习应用。本文的系统可包括服务器和客户端部件，所述服务器和客户端部件通过网络连接使得可在客户端与服务器部件之间交换数据。客户端部件可以包括一个或多个计算装置，所述一个或多个计算装置包括游戏控制台(诸如Sony

或由

或

或其他制造商制造的游戏控制台)、虚拟现实(VR)头戴式耳机、增强现实(AR)头戴式耳机、游戏控制器、便携式电视(例如，智能电视、支持互联网的电视)、便携式计算机(诸如膝上型计算机和平板计算机)、以及包括智能电话和下面讨论的另外示例的其他移动装置。这些客户端装置可以多种操作环境操作。例如，一些客户端计算机可以采用，例如，

操作系统、来自

的操作系统、或

操作系统、或由

或

生产的操作系统。这些操作环境可以用于执行一个或多个浏览程序，诸如由

或

或

制造的浏览器或可访问由下面讨论的互联网服务器托管的网站的其他浏览器程序。此外，根据本原理的操作环境可以用于执行根据本原理的一个或多个计算机游戏程序。

服务器和/或网关可包括执行指令的一个或多个处理器，所述指令将服务器配置为通过诸如互联网的网络接收和发射数据。或者，客户端和服务器可通过本地内联网或虚拟专用网络连接。服务器或控制器可由游戏控制台(诸如Sony

个人计算机等)示例化。

可通过网络在客户端与服务器之间交换信息。为此并且为了安全起见，服务器和/或客户端可包括防火墙、负载平衡器、临时存储装置和代理，以及用于可靠性和安全性的其他网络基础架构。一个或多个服务器可以形成一种设备，所述设备实现根据本原理向网络用户提供诸如在线社交网站或视频游戏网站的安全社区以进行通信的方法。

如本文所使用，指令是指用于在系统中处理信息的计算机实现的步骤。指令可以在软件、固件或硬件中实现，并且包括由系统部件执行的任何类型的编程步骤。

处理器可以是任何常规通用单芯片或多芯片处理器，其可借助于各种线(诸如地址线、数据线和控制线)以及寄存器和移位寄存器来执行逻辑。

通过本文的流程图和用户界面描述的软件模块可包括各种子例程、程序等。在不限制本公开的情况下，陈述为由特定模块执行的逻辑可被再分配到其他软件模块和/或一起组合在单个模块中和/或使得在可共享库中可用。

本文所述的本发明原理可实现为硬件、软件、固件或其组合；因此，说明性部件、框、模块、电路和步骤依据其功能性加以阐述。

下文所述的功能和方法当在软件中实现时可以诸如但不限于Java、C#或C++的适当语言编写，并且可存储在计算机可读存储介质上或通过计算机可读存储介质传输，诸如随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、光盘只读存储器(CD-ROM)或其他光盘存储装置(诸如数字通用光盘(DVD))、磁盘存储装置或包括可移除拇指驱动器的其他磁存储装置等。连接可建立计算机可读介质。此类连接可包括(例如)硬连线缆线，包括光纤和同轴线以及数字用户线(DSL)和双绞线。此类连接可包括无线通信连接，包括红外线和无线电。

在一个实施方案中所包括的部件可按照任何适当的组合用于其他实施方案中。例如，本文描述且/或在图中描绘的各种部件中的任一者可进行组合、互换或从其他实施方案排除。

“具有A、B和C中的至少一者的系统”(同样地，“具有A、B或C中的至少一者的系统”和“具有A、B、C中的至少一者的系统”)包括以下系统：仅具有A；仅具有B；仅具有C；同时具有A和B；同时具有A和C；同时具有B和C；和/或同时具有A、B和C等。

现在具体地参考图1，示出了示例系统10，该系统可包括根据本发明原理的上文所提及且下文进一步描述的示例装置中的一者或多者。系统10中包括的示例装置中的第一者是诸如音频视频装置(AVD)12的消费性电子(CE)装置，诸如但不限于带有TV调谐器(等效地，控制TV的机顶盒)的支持互联网的TV。然而，AVD 12替代地可以是器具或家用物品，例如，计算机化的支持互联网的冰箱、洗涤器或干燥器。替代地，AVD 12还可以是计算机化的互联网使能(“智能”)电话、平板计算机、笔记本计算机、增强现实(AR)头戴式耳机、虚拟现实(VR)头戴式耳机、互联网使能或“智能”眼镜、另一个类型的可佩戴的计算机化装置，诸如例如计算机化的互联网使能手表、计算机化的互联网使能手镯、其他计算机化的互联网使能装置、计算机化的互联网使能音乐播放器、计算机化的互联网使能头戴式电话、计算机化的互联网使能可植入装置(诸如可植入皮肤装置)等。无论如何，应理解，AVD 12被配置为采取本发明的原理(例如，与其他CE装置通信以采取本发明的原理，执行本文描述的逻辑，以及执行本文描述的任何其他功能和/或操作)。

因此，为了实施此类原理，AVD 12可由图1所示的部件中的一些或全部建立。例如，AVD 12可包括一个或多个显示器14，所述一个或多个显示器14可由高清晰度或超高清晰度(“4K”)或更高的平面屏幕实现，并且可以是支持触摸的，以用于通过显示器上的触摸来接收用户输入信号。AVD 12可包括：一个或多个扬声器16，其用于根据本原理输出音频；以及至少一个另外的输入装置18(诸如例如音频接收器/传声器)，其用于例如向AVD 12输入可听命令以控制AVD 12。示例AVD 12还可以包括一个或多个网络接口20，用于在一个或多个处理器24(例如，中央处理器)的控制下在至少一个网络22(诸如互联网、广域网、局域网等)上通信。还可以包括图形处理器24A。因此，接口20可以是但不限于Wi-Fi收发器，所述Wi-Fi收发器是无线计算机网络接口的示例，诸如但不限于网状网络收发器。应理解，处理器24控制AVD 12来实施本发明原理，包括本文所述的AVD 12的其他元件，诸如例如控制显示器14来在显示器上呈现图像和从显示器接收输入。此外，应注意，网络接口20可以是(例如)有线或无线调制解调器或路由器或其他适当接口(诸如无线电话收发器，或如上所提及的Wi-Fi收发器等)。

除前述内容之外，AVD 12还可包括一个或多个输入端口26，诸如用于物理地连接(例如，使用有线连接)至另一个CE装置的高清晰度多媒体接口(HDMI)端口或USB端口和/或用于将耳机连接至AVD 12以用于通过耳机将来自AVD 12的音频呈现给用户的耳机端口。例如，输入端口26可经由电线或无线地连接至音频视频内容的有线或卫星源26a。因此，源26a可以是例如单独的或集成的机顶盒或卫星接收器。或者，源26a可以是包含诸如计算机游戏软件和数据库的内容的游戏控制台或盘播放器。当被实现为游戏控制台时，源26a可以包括下面关于CE装置44描述的部件中的一些或全部，并且可以实现本文所描述的逻辑中的一些或全部。

AVD 12还可包括不是瞬时信号的一个或多个计算机存储器28，诸如基于磁盘的存储装置或固态存储装置，所述一个或多个计算机存储器28在一些情况下在AVD的机壳中体现为独立装置，或者体现为AVD的机壳内部或外部的用于回放AV节目的个人视频记录装置(PVR)或视频磁盘播放器，或者体现为可移除存储器介质。此外在一些实施方案中，AVD 12可包括位置或地点接收器(诸如但不限于手机接收器、GPS接收器和/或高度计30)，所述位置或地点接收器被配置为例如从至少一个卫星或手机塔接收地理位置信息并且向处理器24提供所述信息和/或结合处理器24确定AVD 12被设置处于的高度。然而，应理解，根据本原理，可以使用除手机接收器、GPS接收器和/或高度计之外的另一个合适的位置接收器，例如，以在所有的三个维度内确定AVD 12的地点。

继续对AVD 12的描述，在一些实施方案中，AVD 12可以包括一个或多个相机32，所述一个或多个相机32可以是例如热成像相机、诸如网络摄像机的数码相机、红外(IR)相机和/或集成到AVD 12中并且可由处理器24控制以根据本原理收集图片/图像和/或视频的相机。

AVD 12上还可包括蓝牙收发器34和其他近场通信(NFC)元件36，其用于分别使用蓝牙和/或NFC技术与其他装置进行通信。示例性NFC元件可以是射频识别(RFID)元件。还可以使用

更进一步地，AVD 12可包括向处理器24提供输入的一个或多个辅助传感器37(例如，运动传感器，诸如加速计、陀螺仪、回转计或磁传感器、红外线(IR)传感器、光学传感器、速度和/或节奏传感器、手势传感器(例如，用于感测手势命令)等)。AVD 12可包括无线TV广播端口38，以用于接收向处理器24提供输入的OTA TV广播。除前述内容之外，应注意，AVD12还可包括红外(IR)发射器和/或IR接收器和/或IR收发器42，诸如IR数据关联(IRDA)装置。可提供电池(未示出)以用于为AVD 12供电。

仍参考图1，除AVD 12之外，系统10还可包括一个或多个其他CE装置类型。在一个示例中，第一CE装置44可以用于经由直接发送到AVD 12和/或经由下面描述的服务器的命令向AVD 12发送计算机游戏音频和视频，而第二CE装置46可以包括与第一CE装置44类似的部件。在示出的示例中，第二CE装置46可以被配置为如图所示的由玩家47佩戴的VR头戴式耳机，或者由玩家47操纵的具有一个或多个操纵杆、一个或多个按钮等的手持游戏控制器。在示出的示例中，仅示出了两个CE装置44、46，应理解，可以使用更少或更多的装置。

在示出的示例中，所有三个装置12、44、46可以是娱乐网络的成员，例如，在家庭/住宅中或者分布在若干地点上。因此，除非另外明确声明，否则本原理不限于由虚线48所示的特定地点。

示例非限制性第一CE装置44可由上述装置中的任一个来建立，例如，便携式无线膝上型计算机或笔记本计算机、视频游戏控制台或视频游戏控制器，并且因此可以具有下面描述的一个或多个部件。第一CE装置44可以是用于诸如向AVD 12发出AV播放和暂停命令的遥控器(RC)，或者它可以是更复杂的装置，诸如平板计算机、经由有线或无线链路与AVD12通信的游戏控制器、个人计算机、无线电话等。

因此，第一CE装置44可以包括一个或多个显示器50，所述一个或多个显示器50可以是触摸使能的，用于经由(一个或多个)显示器50上的触摸来接收用户输入信号。另外地或替代地，(一个或多个)显示器50可以是被配置用于呈现AR和/或VR图像的至少部分透明的显示器，诸如AR头戴式耳机显示器或“智能”眼镜显示器或“抬头”显示器、以及VR头戴式耳机显示器或者其他显示器。

第一CE装置44还可以包括用于根据本原理输出音频的一个或多个扬声器52，以及用于例如向第一CE装置44输入可听命令以控制装置44的至少一个另外的输入装置54，诸如例如音频接收器/麦克风。示例性第一CE装置44还可包括一个或多个网络接口56，其用于在一个或多个CE装置处理器58的控制下通过网络22进行通信。还可以包括图形处理器58A。因此，接口56可以是但不限于Wi-Fi收发器，所述Wi-Fi收发器是无线计算机网络接口的示例，包括网状网络接口。应理解，处理器58控制第一CE装置44来实施本原理，包括本文所述的第一CE装置44的其他元件，诸如例如控制显示器50来在显示器上呈现图像和从显示器接收输入。此外，应注意，网络接口56可以是例如有线或无线调制解调器或路由器，或者其他合适的接口，诸如例如无线电话收发器，或者如上所述的无线网络收发器等。

除前述内容之外，第一CE装置44还可包括用于物理地连接(例如，使用有线连接)到另一个CE装置的一个或多个输入端口60(诸如例如HDMI端口或USB端口)和/或用于将耳机连接到第一CE装置44以用于通过耳机将来自第一CE装置44的音频呈现给用户的耳机端口。第一CE装置44还可包括一个或多个有形计算机可读存储介质62，诸如基于磁盘的存储装置或固态存储装置。此外在一些实施方案中，第一CE装置44可以包括位置或定位接收器诸如但不限于手机和/或GPS接收器和/或高度计64，其被配置为例如使用三角测量从至少一个卫星和/或手机塔接收地理位置信息并且向CE装置处理器58提供所述信息和/或结合CE装置处理器58确定第一CE装置44被设置处于的高度。然而，应理解，根据本发明原理，可以使用除了手机和/或GPS接收器和/或高度计之外的另一个合适的位置接收器，以例如确定第一CE装置44在例如所有三个维度上的定位。

继续第一CE装置44的描述，在一些实施方案中，根据本发明原理，第一CE装置44可包括一个或多个相机66，所述一个或多个相机66可以是例如热成像相机、数字相机(诸如网络摄像头)和/或集成到第一CE装置44中并且可由CE装置处理器58控制来收集图片/图像和/或视频的相机。在第一CE装置44上还可包括蓝牙收发器68和其他近场通信(NFC)元件70，以用于分别使用蓝牙和/或NFC技术与其他装置进行通信。示例性NFC元件可以是射频识别(RFID)元件。

此外，第一CE装置44可包括向CE装置处理器58提供输入的一个或多个辅助传感器72(例如，运动传感器，诸如加速度计、陀螺仪、计程器或磁传感器、红外线(IR)传感器、光学传感器、速度和/或节奏传感器、手势传感器(例如，用于感测手势命令)等)。第一CE装置44可包括向CE装置处理器58提供输入的其他传感器，诸如一个或多个气候传感器74(例如，气压计、湿度传感器、风传感器、光传感器、温度传感器等)和/或一个或多个生物识别传感器76。除前述内容之外，应注意，在一些实施方案中，第一CE装置44还可包括红外(IR)发射器和/或IR接收器和/或IR收发器78，诸如IR数据关联(IRDA)装置。可以提供电池(未示出)来为第一CE装置44供电，和/或CE装置44可以经由有线连接到壁装插座来供电。CE装置44可通过上述通信模式和有关部件中的任一者与AVD 12进行通信。

第二CE装置46可包括针对CE装置44示出的部件中的一些或全部。一个或两个CE装置可由一个或多个电池和/或壁装插座连接件供电。

现在参考前面提到的至少一个服务器80，其包括至少一个服务器处理器82、至少一个有形的计算机可读存储介质84(诸如基于磁盘的存储装置或固态存储装置)、以及至少一个网络接口86，所述网络接口86在服务器处理器82的控制下，允许在网络22上与图1的其他装置通信，并且实际上可以根据本原理便于服务器和客户端装置之间的通信。应注意，网络接口86可以是例如有线或无线调制解调器或路由器、Wi-Fi收发器或其他适当接口(诸如例如无线电话收发器)。

因此，在一些实施方案中，服务器80可以是互联网服务器或整个服务器“场”，并且可以包括并且执行“云”功能，使得系统10的装置可在例如网络游戏应用的示例实施方案中经由服务器80访问“云”环境。或者，服务器80可由与图1中示出的其他装置在同一房间或附近的一个或多个游戏控制台或其他计算机来实现。

除上文已经提到的内容之外，下文所述的逻辑块、模块和电路可用通用处理器、数字信号处理器(DSP)、现场可编程门阵列(FPGA)或被设计来执行本文所述功能的其他可编程逻辑装置(诸如专用集成电路(ASIC)、离散门或晶体管逻辑、离散硬件部件或它们的任何组合)来实现或执行。处理器可由控制器或状态机或计算装置的组合实现。因此，本文的方法可以被实现为由处理器、适当配置的专用集成电路(ASIC)或现场可编程门阵列(FPGA)模块、或者本领域技术人员将理解的任何其他方便的方式执行的软件指令。在被采用的情况下，软件指令可以体现在非暂时性装置(诸如硬盘驱动器、CD ROM或快闪驱动器)中。软件代码指令还可以在互联网上下载。

如本文所理解的，机器学习可以是串行化的过程，其涉及识别、获取和准备原始数据集、特征工程和生成提取、转换并且加载(ETL)作业，所述作业将原始数据转换成机器学习模型的特征，并且设计并编码机器学习模型。可以在计算密集型任务中“训练”这些模型。甚至可以评估这些模型的性能和延迟。

在继续描述其他附图之前，根据本发明原理应理解，本申请设想了两个阶段。具体地，本申请设想了注册阶段/过程和检测阶段/过程两者。在注册阶段，系统可以(例如，经由扬声器在听觉上或经由显示器在视觉上)提示用户提供其希望用于触发助理的关键词(例如，具体地，名字)的音频样本并进行响应以侦听来自用户的后续命令。用户提供的名字甚至不需要是预先存在的专有名字，甚至不需要是用户语言(或就此而言任何语言)中的现有单词。

此外，系统的提示可以指示用户不仅说出用户期望的名字以供系统可访问的传声器进行检测，而且按大于1的阈值次数来说出期望的名字，诸如五次。提示还可以指示用户使用大于特定长度的关键词/名字，诸如至少三个音节或字母的名字(因此可以指示至少三个音素)，因为少于三个音素的名字可能影响将来检测名字的准确性，因为它可能导致名字的错误检测，而实际上用户可能没有尝试触发系统。

此外，当用户具有可能不利地影响名字的清晰发音的身体状况(诸如感冒或喉咙痛)时，提示还可以指示用户不通过说出预定次数的名字来进行注册。

假设用户没有出现影响用户期望名字的发音的身体状况，那么用户可以在系统指示时按预定次数说出名字。然后，系统可以基于经由传声器对语音的检测来记录名字的每种发音。然后系统可以通过使用记录的语音波形来注册名字/关键词以完成注册阶段而无需用户的进一步输入。

此外，应理解，在注册期间，简单的一致性测量可用于消除异常值，诸如来自用户说出期望名字的实例的发音的声音，这些实例与可能也在同一注册期间记录的用户说出期望名字的其他实例明显不同。此外，只有长于某个最小音素长度并且与其他登记样本(用户说出名字的其他实例)一致的发音才可被视为有效。

简而言之，第二阶段(解码阶段)涉及随后实时检测用户说出的名字。这有时可能被称为“解码”，并且可以触发助理“监听”来自用户的后续命令或请求以进行遵守。第二阶段使用在第一阶段期间训练的、并最初使用序列到序列模型(例如，使用联结主义时序分类训练)和TIMIT语料库(和/或多个其他语料库)建立的音素识别器模型来检测来自输入语音的音素。在第二阶段，所检测到的音素可以通过音素级别的唯一关键词解码器(例如，使用音素序列相似性测量的关键词匹配器)以检测说出的关键词。

现参考图2和图3，其示出了根据本发明原理的关键词定位系统的架构。图2示出了在一些方面，形式比图3更简单的架构。

首先从图2开始，其示出了注册阶段200和检测/解码阶段210两者。用户202说出用户期望的名字“Tom”三次204，然后系统206检测到所述名字以呈现语音波形208。如图所示，在注册阶段，用户202说出的名字“Tom”被输入到音素识别器人工智能模型212中，所述音素识别器人工智能模型212输出指示从用户语音识别的音素的音素序列，并将输出提供给发音扩充和修剪模型214以用于扩充和修剪相关的音素序列，其在检测阶段210可识别为指示名字“Tom”。发音扩充和修剪将在下面进一步讨论。仍然参考图2，发音扩充和修剪模型214然后可以基于扩充和修剪来调整关键词词典216，其中词典216的基础版本由系统开发人员预先选择并且包含各种字素条目和针对每个字素条目的一个或多个对应语音变体。

此后，可执行关键词适配218，其中可以使用基于联结主义时序分类(CTC)的翘曲和用户语音204作为训练数据来训练音素识别器模型212，以使音素识别器模型212适用于用户语音。然后，音素识别器模型212可以被适配的音素识别器模型220替换，以便在检测阶段210当名字被说出并用作流式音频时对名字进行后续解码(但是在一些实施方案中，音素识别器模型212也可以用于在检测阶段进行解码)。关键词适配可以包括针对说话者的语音特征改变一个或多个音素识别器模型以便改进该说话者的关键词检测。因此，关键词适配模型220可用于改进关键词检测的识别准确性，如图2和图3所示，并且在检测阶段210，每次系统正确地识别“Tom”时可发生进一步的适配，使得当用户触发助理时可随时间的推移发生额外的训练。

更详细地描述如图2所示的检测阶段210，在检测阶段210，用户202因此可以再次说出用户提供给系统的名字作为唤醒关键词，这可以触发系统以音频短语222进行响应，指示其已被触发并且正在等待用户进一步输入要执行的任务或命令。如图2的检测阶段210所示，适配的音素识别器220可用于使用关键词匹配器/解码模块224识别用户202说出短语“Tom”，以将从短语“Tom”检测到的音素匹配到词典216中的条目从而呈现解码的关键词226并触发系统。关键词匹配器/解码模块224的匹配可以通过以下方式完成：使用流式自适应匹配；和/或使用距离度量来评估词典216中存储的关键词音素序列与针对用户202说出的短语“Tom”从适配的音素识别器220输出的流式传输的音素之间的距离，以确定词典216中的任何条目是否将输出匹配到阈值距离内。

图3特别地示出了如何也使用间歇性关键词注册。但是在详细描述图3之前，应理解间歇性注册可以允许用户在稍后时间注册新的关键词发音。如果他/她对来自先前注册的唤醒响应不满意，则可能会发生这种情况，如果系统“过于敏感”并且当用户实际上没有说出其先前给予系统的名字时由误报触发，或者如果系统在用户说出关键词时实际上没有响应并唤醒，则用户可能会意识到这一点。

用户可以在他/她期望的任何时候再次选择注册模式以进行间歇性注册(例如，通过基于对在显示器上呈现的选择器的输入以再次启动注册等在成功触发系统时提供声音命令)。附加地或替代地，如果系统确定用户的声音已经改变(例如，由于不再像可能已经执行初始注册时那样感冒或喉咙痛)，则系统本身可以触发间歇性注册。如果系统确定用户已经在彼此的阈值时间内都按大于1的阈值次数问出相同问题，则系统本身也可以触发间歇性注册，其中即使在达到阈值次数之前或之后才触发唤醒，也会在每次提供问题时由系统识别问题。无论如何，这个新的注册阶段可能与初始注册一样发生，这可能需要用户按有效的阈值次数再次说出优选关键词。

此外，应理解，在间歇性注册期间，甚至可以允许用户提供不同的名字或发音作为系统唤醒的关键词，并且在注册了这个不同的名字之后，其可以用于触发系统唤醒，除了仍可以用于触发系统唤醒的先前提供的名字外。然而，应进一步理解，在间歇性注册期间，用户可以提供与在初始注册期间提供的相同唤醒词名字的附加样本。

此外，在一些实现方式中，不同的用户可以进行不同的注册(其中一个可能是间歇性的)，以便不同的用户可以分配不同的名字作为相应的唤醒词，所述唤醒词可以各自触发相同的助理/系统，而不管哪个用户(甚至另一个人)随后可能会说出任何注册的名字从而触发系统。因此，可以将多个不同的名字/关键词分配给数字助理，用于触发数字助理以基于口头命令采取行动。

同样在间歇性注册期间，可以向用户提供保留先前注册实例(并将新注册的发音附加到发音词典中)或者验证、检查和/或删除特定不想要的先前注册实例的选项。这可以通过系统与用户之间的语音往来、经由在显示器上呈现的图形用户界面(GUI)等来完成。例如，在间歇性注册中的注册验证期间，用户可以简单地说出他/她的关键词若干次，并且系统可能会向他/她显示与来自先前注册的记录(例如，波形文件)的任何识别的匹配。然后，用户可以从先前注册中删除被返回为与注册验证开始时提供的发音不匹配的任何注册实例。

现具体地描述图3中所示的内容，在间歇性注册300期间，用户可以按阈值次数说出期望的名字/关键词，并以此作为输入302。然后，先前可能已经或可能未适用于一个或多个用户的音素识别器模型304可以使用该输入来呈现指定为P_reg的发音输出306(例如，“CHAH LIY”)。然后，可以将输出306作为输入提供给发音扩充和修剪模型308，以呈现可能大于1的发音输出P_aug的扩充集310。然后，可以将发音输出306和扩充集310都输入到词典312中。

然后，可发生关键词适配314，其中可以重新训练音素识别器模型304以呈现适配的音素识别器模型316，所述适配的音素识别器模型316可以代替音素识别器模型304并在检测阶段318使用。同样在适配314期间，相同的输入302可用于再次呈现发音输出，但改为使用模型316，然后该输出可作为输入提供给发音扩充和修剪模型308以呈现发音输出的另一扩充集。然后可以在检测阶段318使用这些发音输出，以给定基于来自用户的输入320的来自适配的音素识别器模型316的输出发音P_test，确定输出发音P_test的发音相似性测量322以确定其是否至少与这些发音输出的阈值量T相似。如图所示，如果相似性测量大于或等于阈值T，则可以检测/识别324关键词，或者如果相似性测量小于阈值T，则不检测/识别326关键词。

现更详细地描述发音扩充，特别是描述语音词典扩充作为发音扩充的一个方面，参考图4。并且重申，应注意系统可以是基于音素识别的。因此，音素识别器模型可以使用用户的输入语音来检测音素序列(其可能是语音词汇表示的构建块)。为了让系统识别用户语音中是否存在关键词，可以使用音素到字素模型。

应理解，音素指示非常基本的信息，系统可以被配置为通过使用神经机器翻译(NMT)训练神经网络模型来预测所说关键词的诸多可能不同的发音，所述神经网络模型可以学习生成一些或所有可能的字素组合以用于语音输入。在本文中，这被称为音素到字素(P2G)模型开发。

为了开发P2G模型，可以使用一种或多种神经翻译技术。如图4的示例所示，对于给定的单词，可能存在表示所述单词的各种可能发音方式的各种有意义的语音表征。这本身可能并不总是一对一映射。但是对于在图4中作为输入400列出的给定音素序列，系统可以将一个或多个对应的近似/最近的字素序列识别为输出402以建立一对一的输入/输出对，如图所示。

也如图4所示，可以使用这些输入/输出对来发生神经机器翻译训练404以开发P2G模型406。模型可能已由系统开发人员构建，以将音素和字素对作为输入和目标序列。这个开发的音素到字素模型可以学习如何为给定的音素序列生成字素序列。该模型可以无需服务器的帮助在包含系统的装置处进行离线训练。

从图4继续并根据本发明原理帮助读者理解，P2G系统可以采用一个音素序列并基于该音素序列生成一个翻译的字素序列。G2P系统可以被认为是P2G系统的逆系统，并且可以使用来自文本到语音领域的一个或多个系统。G2P系统可以采用一个字素序列(或单词，在一些实施方案中)并为给定的字素序列(或单词)生成N种可能的语音发音变体。这种G2P系统可用于生成如图4所示的输入-输出对以构建P2G模型/系统406。

此外，本文使用的phnseq_{_phnrec}可以是音素识别器模型通过馈入语音信号而生成的音素序列。本文所用的grapheme_{_raw}可以建立从phnseq_{_phnrec}导出的原始字素序列(或单词)。phnseq_{_g2p}可以是G2P系统将字素序列作为输入时生成的音素序列。grapheme_{_trans}可以是音素序列的翻译的字素序列。

应进一步理解，如果字素序列(grapheme_{_raw})通过G2P系统得到音素序列(phnseq_{_g2p})，并且然后该音素序列通过P2G系统，可能会获得可与原始字素序列(grapheme_{_raw})匹配或不匹配的翻译的字素序列(grapheme_{_trans})。这是因为，正如本申请所承认的，此类翻译并不总是绝对的或完美的。

考虑到前述内容，现在参考图5。在第一步，可以例如由系统开发人员收集字素(grapheme_{_raw})和/或单词和专有名字的相对较大的列表或词典500。例如，词典500可以由十三万九千个字素建立。然后该词典500可以通过G2P系统502以生成语音序列变体(phnseq_{_g2p})504，在示例实施方案中其可以被限制为词典500中每字素/单词最多五个语音变体。然而，在其他示例中可以使用非五个的另一阈值数量的变体，但是在任何情况下，阈值数量的变体都可以用于减少变体以放宽对系统的处理限制并允许其高效地操作。图5中也示出了来自词典的示例名字/字素506，以及每个名字/字素506的语音变体508。

然后在如图6所示的第二步，获得的每个音素序列变体504可以通过P2G系统600以针对通过P2G系统600的每个音素序列变体504生成最近的翻译字素序列/表征变体602。因此，从图6也可以理解，示例语音序列变体604可以映射到一个或多个示例翻译字素序列/表征变体606。

在第三步，可以生成步骤一和二的组合表征，如图7所示。在图7所示的示例中，文件可以以统一的表示方式包含所有字素/单词的G2P和P2G变体。因此，组合表征可以包括grapheme_{_raw}条目的第一列700、Phnseq_{_g2p}条目的第二列702和grapheme_{_trans}条目的第三列704，其中每一行的条目映射到同一行的其他列中的条目。

此后，在第四步，假定这些步骤的目的之一可能是在注册期间找到所说单词的最合适的语音替代以便改进检测准确性，则可以执行P2G映射器开发。由于原始字素到翻译字素的潜在非一对一映射，听起来相似但不同的单词/grapheme_{_raw}可能被翻译成一些相同的grapheme_{_trans}。例如，像[“S H E L L E Y”，“S H E L L Y”]这样的字素可能会被翻译成“SH E L L Y”。因此，“Shelley”的音素序列变体之一可能与已翻译成“Shelly”的相同。为了对这种发音相似的字素(或单词)进行集中表征，可以在该第四步构建词典，其作为返回值给出给定翻译grapheme_{_trans}的所有发音相似的grapheme_{_raw}概率。例如，“S H E L L Y”：[“S H E L L E Y”，“S H E L L Y”]，以及“P O R T A”：[“P U E R T O”，“P O R T A”，“PO R T O”]。

因此，通过上述步骤并且给定翻译字素序列，可以确定发音相似的字素(或单词)grapheme_{_raw}，从而可以确定与那些字素(或单词)相关联的所有语音变体。因此，可以建立具有所有grapheme_{_raw}到语音变体和grapheme_{_trans}到相似grapheme_{_raw}的集中式词典。在一些示例中，该集中式词典可以被称为双向P2G、G2P映射词典。

仍描述发音扩充，但现在具体地参考根据上述公开的使用P2G、G2P映射的发音扩充，应理解，在注册阶段，系统可以从用户(如上所述)接收到关键词的五种口头发音。然而，在理解这可能是用户选定关键词相对于例如可能已经使用预定义关键词(例如，由装置制造商预定义)对来自很多人的成百上千个样本进行训练的典型语音到文本模型的有所受限的表征时，如果在检测阶段仅使用来自用户的这五个样本来识别用户再次说出的关键词，则可能会出现诸如反复多次无法识别用户关键词的问题。并且由于用户选定关键词可能是新颖的或独特的，数千个样本可能无法像开发人员或制造商预定义的关键词那样可用，因此本申请认识到生成用户对关键词发音的许多可能“有意义的变体”的优势，以便帮助系统更好地建模和检测用户的优选关键词。

因此，参考图8以帮助理解在“更高级别”上扩充语音变体。如图8所示，来自用户的五种注册发音800可以被提供给音素识别器模型802以输出五个相应音素序列804。然后将这些序列804提供给P2G翻译模型806以供系统在菱形808处确定来自P2G翻译模型806的任何字素翻译是否至少在诸如百分之八十的阈值相似度水平(例如，如果用户说出的实际关键词是唯一的、虚构的单词，但仍与词典中的条目相似)内对应于关键词词典中的预定字素/名字/单词。如果没有字素翻译对应于关键词词典中的预定字素/名字/单词，则在检测阶段期间，仅五种注册发音的语音序列804可用于关键词定位。但是假设至少一个字素翻译对应于关键词词典中的预定名字或其他单词，可以访问如本文所述的双向P2G、G2P映射词典810以确定在菱形812处是否存在任何替代发音，并且响应于在菱形812处的肯定确定，在步骤814处，可以用替代发音来扩充关键词词典以建立注册的关键词语音词典816。从那里，可以从注册的关键词语音词典816中去除重复的语音序列，以呈现可以在解码阶段使用的最终注册的关键词语音词典818。

图9也说明了这一点。针对用户的五个音频样本的Phnseq_{_phnrec}900(在图9中指定为P_r)可以作为输入提供给P2G模型902以输出grapheme_{_trans}输出904(在图9中指定为W_r)。然后可以将W_r作为输入提供给字素扩充部件/机制906，所述字素扩充部件/机制906使用P2G、G2P词典来呈现基于grapheme_{_trans}输入904的grapheme_{_raw}输出908。在一些示例中，部件/机制906可以由神经网络模型、文本文件和/或算法组成。

在图9中将grapheme_{_raw}输出908列为W₁到W_m，然后将其作为输入提供给语音序列扩充模型910以使用P2G、G2P词典生成语音序列phnseq_{_g2p} 912，其中多个相应语音序列phnseq_{_g2p}对应于一个grapheme_{_raw}(例如，P₁₁-P_1n1对应于W₁，并且P₂₁-P_2n2对应于W₂)。之后，语音序列phnseq_{_g2p}可以经历将在下文进一步描述的修剪过程914，最后呈现出最终的扩充语音序列(P₁-P_n)916，然后将其添加到关键词语音词典。

因此，为了实现改进的关键词覆盖率，可以使用经训练的P2G模型来用更多语音变体扩充注册的序列。现在可以理解，该过程可用于生成语音变体以在用于检测阶段的关键词/唤醒词词典中具有注册关键词的“最”适合的音素序列表征。应进一步理解，本发明原理可以扩展到各种语言和平台，并有助于降低计算复杂性以及改进检测精确性。

现在详细描述如本文所引用的发音修剪，可存在至少三种类型的修剪。任选地，以下描述的三种类型可以按照下面阐述的顺序具体执行。但首先，应理解，发音扩充的原因之一是覆盖相同关键词的合理差异，因为在检测阶段，与注册时的发音相比，相同的关键词可能“听起来”略有不同，因为说话者的身体状况(例如，喉咙痛)、频道差异、用户只是说出的关键词与注册期间略有不同等。应进一步理解，发音修剪的原因之一是保留“好的”扩充发音以改进检测准确性并删除“坏的”扩充发音以减少助理系统的误报/误激活。

对于上述三种类型修剪中的两种，可以认为它们是基于规则的发音修剪，其可被统一认为是修剪的一“部分”。在任何情况下，属于基于规则的发音修剪的第一种类型的修剪消除了比所需或最小音素长度短的扩充发音。属于基于规则的发音修剪的第二种类型的修剪消除了与导出各种扩充发音P_a的原始解码发音P_r相比不够相似的扩充发音。

第一种类型的修剪只涉及识别比所需或最小阈值音素长度(例如，由系统开发人员设置)短的扩充发音。它们可能会被消除，因此不会添加到关键词词典。因此，通过这种类型的修剪，可能会过滤掉太短的扩充发音。

第二种类型的修剪涉及测量P_r与P_a之间的相似性。可以使用基于Jaro Winkler归一化距离和基于平均的Demerau Levenshtein归一化距离的融合距离度量。融合距离度量方程可以是

其中α是加权参数，其中dl是Demerau Levenshtein归一化距离，并且其中jw是Jaro Winkler归一化距离。因此，通过这种类型的修剪，如果所得的融合距离大于阈值距离(例如，由系统开发人员确定的)，那么与原始解码发音太“远”(不够相似)的扩充发音可能会被过滤掉。

第三种类型的修剪可以被认为是基于样本的发音修剪。在这里，发音修剪可以基于使用正样本和负样本以比基于规则的修剪“更深入”。它涉及准备正数据样本集(基于关键词本身)和负数据样本集(非关键词)，以获得与匹配发音相关联的样本匹配分数。

正样本可以通过用户在注册阶段的第一部分期间记录并使用音素识别器模型解码的关键词记录(例如，波形文件)来建立，而负样本可以从离线收集并由系统开发人员确定的单词数据库的子集中选择。任选地，这些负样本与关键词相比可能听起来差异很大，使得它们不会被视为正样本，但与关键词仍然没有太大差异，使得它们在发音空间中位于关键词的附近并且容易引起混淆。可以通过发音距离测量来提取负数据样本集。

样本匹配因此可以理解为获得与样本P₀的解码发音最相似的发音P_a*的过程。相似度/距离测量可以是Dist(P_a*,P₀)＝min(P_a,P₀)，其中P_a可以是来自P₀的各种扩充发音。

基于正/负样本解码的发音修剪过程如图10所示。如图所示，如果基于规则的修剪之后的扩充发音1000(由具有较小半径的圆圈指定)由于与一个或多个负样本的解码发音最相似而与负样本1004匹配，则该发音可被标记以供删除并被最终删除。如果扩充发音1000由于与一个或多个正样本的解码发音最相似而与正样本1006匹配，则可保留该发音并最终将其添加到关键词词典。而且，为了清楚起见，应注意，在基于规则的修剪之前的扩充发音1002由具有较大半径的圆圈指定，如图10所示，并且原始解码发音P₀ 1008通常显示在这些重叠圆圈1000、1002的中心。

然而也应注意，在一些场景下，同一扩充发音可能与多个样本匹配，其中一些可能是正样本而一些可能是负样本。在这种情况下，可以使用相同扩充发音的匹配样本的加权平均分数，并且如果匹配的正/负样本的加权平均值大于加权平均阈值，则可以保留扩充发音。

例如，如果匹配为负样本，则权重可能为负，如果匹配为正样本，则权重可能为正，但在使用用于确定距离的距离度量时可能会有意忽略样本权重是正还是负。然后可以使用距离来确定权重大小，例如，距离越小，权重越大，反之亦然。因此，可以理解，如果与距离足够近的负样本发生匹配，那么结果可能是相对较大的“负”权重，但如果加权平均值仍然大于阈值，则可能仍然保留扩充发音。

现在将描述关键词适配，其中包含助理的系统可以适用于用户在注册阶段提供期望关键词的发音，以使系统更熟悉用户的声音。具体地，可执行关键词适配以使用基于联结主义时序分类(CTC)的翘曲和用户新注册的关键词记录作为训练数据来训练通用音素识别器模型(可能最初在注册阶段使用)以使音素识别器模型专门适用于用户的语音，以进一步改进准确的关键词定位/解码，并且因此改进用户体验和与助理/系统的交互。

图11示出了根据本发明原理的在注册阶段的关键词适配过程。在非限制性实施方案中，关键词适配可以涉及五个步骤。首先，可以如上所述执行从输入关键词记录1102到发音词典1104的“常规”注册1100，就如同没有关键词适配一样。这可能涉及使用原始或通用音素识别器模型1106来呈现被指定为P_reg(例如，“CH AH L IY”)的发音输出1107。然后可以将输出1107作为输入提供给发音扩充和修剪模型1108，以呈现可能大于1的发音输出P_aug的扩充集1109。发音输出1107和扩充集1109均可被输入到词典1104中。

其次，可以在训练/重新训练阶段1110使用关键词-发音对作为训练样本来重新训练/适配音素识别器模型。此外，应理解，在发音扩充和修剪1108之后，一些记录可能具有与其相关联的多个发音，在这种情况下，记录可以被复制/重新用于在发音扩充和修剪之后为每个发音创建不同的记录-发音对。

第三，在训练/重新训练之后，关键词适配的音素识别器模型1116可以替代原始音素识别器模型1106，大体上如箭头1112所示。

第四，可以在重新注册阶段1114重新注册关键词发音，因为系统可能经历相同的注册阶段，包括音素识别1118以及发音扩充和发音修剪1120，但是使用更新的、关键词适配的音素识别器1116。

第五，可以如框1124所指定的那样更新关键词发音词典1104，因为可以用基于以上段落中的步骤四生成的新发音词典1122来替换被扩充的先前发音词典1104。然后可以删除先前的发音词典1104，或者如果新的发音词典1122被最终证明没有用(例如，如果它是基于在用户喉咙痛或具有影响言语的其他疾病时用户的音频样本生成的)则可以将其作为备份保留在系统可访问的历史/存储中，以便以后可以再次使用。然而，在其他示例中，新词典1122(或至少词典1122的新条目)可以被附加到在关键词适配之前被扩充的先前关键词发音词典1104。

此外，应理解，在一些示例中，在一个或多个用户可能将多个关键词/名字分配给单个助理/系统的示例中，可以重复以上步骤以进行关键词适配。因此，可以使用分配给助理的关键词中的一个关键词的记录(来自同一人和/或不同人的记录)来执行根据以上步骤的关键词适配，然后可以使用分配给助理的关键词中的一个不同关键词的记录再次修改经修改的模型。对于对应于分配给助理的一个不同关键词的每个记录集，甚至对于同一关键词，如果用户如上所述进行间歇性注册以提供用户先前已经提供的关键词的新记录集，则可以继续根据这些步骤进行适配。这可以帮助系统识别说出助理/系统的任何注册关键词的任何人。

图12示出了由根据本发明原理进行操作以接收语音序列1200作为输入并输出一个或多个音素概率1202作为输出的循环神经网络(RNN)建立的示例音素识别器模型架构。如图所示，输入1200可以被传递到输入层，然后通过多个长短期记忆(“LSTM”)和批量归一化(“批量规范”)隐藏层1204，以及一个或多个全连接和校正线性单元(ReLU)层1206和一个或多个全连接和softmax函数层1208，从而最终通过输出层提供输出1202。

从图12继续，应理解，根据本发明原理也可以使用另一个特征。具体地，在解码阶段，也可以针对可能伴随或围绕用户指定的且可能唯一的关键词的单词使用预注册的关键词定位。上下文相关的预注册关键词的单独词典可用于此类目的，以进一步增强系统区分用户实际尝试触发系统以唤醒和用户不打算这样做的误报的能力。因此，例如，如果系统在一定概率内识别出已提供的用户的唯一关键词，但该概率未达到仅基于唯一关键词唤醒/激活助理的概率阈值，则系统可以考虑周围的预注册的关键词，以确定它们是否包含信息请求或命令或系统可执行的其他项目，或者毋宁说它们是否仅包含不打算输入到系统中的语音。例如，“Tom，打开电视”可以是前者的示例(其中“Tom”是用户期望的唤醒关键词)，而“Tom，我最喜欢的颜色是绿色”可以是后者的示例。因此，第一个短语可能会触发系统唤醒/激活，而第二个短语可能不会。

现在描述图13，其示出了能够由数字助理系统根据本文阐述的原理执行的示例整体逻辑的流程图。从框1300开始，系统可以提示用户按预定次数说出期望的关键词/唤醒词，并且甚至可以提示关键词应该至少具有最小长度。在框1302处，装置可以检测并记录用户语音中指示用户的非预定关键词的第一音素。此后，在框1304处，系统可以将第一音素转换为第一字素，并且然后在框1306处，使用第一字素添加来自字素词典的第二字素以呈现扩充字素集。

然后，该逻辑可以从框1306进行到框1308，在框1308处，系统可以将扩充字素集转换为第二音素集。此后，在框1310处，系统可以通过消除例如重复的音素序列、短于阈值的音素序列、不够相似的音素序列和/或已经与负样本匹配的音素序列来修剪第二音素集以呈现输出音素。同样在框1310处，可以将输出音素添加到发音词典。

该逻辑可以继续从框1310进行到框1312，在框1312处系统可以使用基于联结主义时序分类(CTC)的翘曲基于记录(同样来自框1302)训练音素识别器模型(在框1302处用于检测音素)，以呈现经训练的音素识别器模型，所述经训练的音素识别器模型可替换初始音素识别器模型(在框1302处使用)以重新注册用户的关键词。该逻辑然后可以移动到框1314，在框1314处系统可以在重新注册期间基于来自经训练的音素识别器模型的输出将额外的输出音素添加到发音词典。

该逻辑可以继续从框1314进行到框1316，在框1316处，在检测阶段期间，系统可以使用来自经训练的音素识别器模型的输出并使用带有添加的发音的发音词典来识别用户或另一个人说出的关键词。然后，如果需要，该逻辑可以移动到框1318，在框1318处，系统可以例如在间歇性注册期间针对不同的关键词或相同的关键词重复步骤1300至1314。

将了解，虽然已经参考一些示例实施方案描述了本发明原理，但是这些实施方案并不意图是限制性的，并且可使用各种替代布置来实现本文所要求保护的主题。

Claims

1.一种用于识别语音中的关键词的方法，其包括：

检测所述语音中的第一音素；

将所述第一音素转换为第一字素；

将来自词典的第二字素添加到所述第一字素以呈现扩充字素集；

将所述扩充字素集转换为第二音素集；

修剪所述第二音素集以呈现输出音素；以及

至少部分地基于所述输出音素识别所述关键词。

2.如权利要求1所述的方法，其包括使用适用于生成所述语音的人类的至少一个神经网络来执行所述方法。

3.如权利要求1所述的方法，其中所述词典包括：基本词，每个基本词与“K”个音素映射相关；翻译词，每个翻译词与“N”个音素映射相关；并且每个基本词与“M”个翻译词相关，其中“K”、“N”和“M”为整数且至少“K”大于1。

4.如权利要求1所述的方法，其中所述语音中的所述关键词由用户指示，所述关键词不是在所述语音中被指示之前预定的。

5.如权利要求1所述的方法，其包括：

指示用户按大于1的预定次数说出所述关键词，并向所述用户指示所述关键词应该至少包含三个音素。

6.如权利要求1所述的方法，其中修剪所述第二音素集包括从所述第二音素集中去除重复的音素序列。

7.如权利要求1所述的方法，其中修剪所述第二音素集包括如果特定音素序列短于阈值序列长度，则从所述第二音素集中消除音素序列。

8.如权利要求1所述的方法，其中修剪所述第二音素集包括如果所述第二音素集中的第一音素序列与由所述第一音素建立的第二音素序列不相似，则从所述第二音素集中消除音素序列。

9.如权利要求8所述的方法，其中使用基于Jaro Winkler归一化距离和基于DemerauLevenshtein归一化距离的融合距离度量来测量相似性。

10.如权利要求9所述的方法，其中所述融合距离度量是使用等式

来确定的，其中α是加权参数，其中dl是Demerau Levenshtein归一化距离，并且其中jw是JaroWinkler归一化距离。

11.如权利要求1所述的方法，其中修剪所述第二音素集包括基于正样本和负样本的样本匹配来进行修剪，其中来自所述第二音素集的音素序列如果仅与负样本匹配则被消除。

12.如权利要求11所述的方法，其中如果匹配样本的加权平均值大于阈值则不从所述第二音素集中消除来自所述第二音素集的与正样本和负样本匹配的音素序列。

13.如权利要求1所述的方法，其中使用音素识别器模型执行所述检测，并且其中所述方法包括：

在所述修剪之后，基于指示所述第一音素的一个或多个记录来训练所述音素识别器模型。

14.如权利要求13所述的方法，其中所述输出音素为第一输出音素，其中所述音素识别器模型为第一音素识别器模型，其中所述训练从所述第一音素识别器模型呈现第二音素识别器模型，并且其中所述方法包括：

在所述训练之后，使用所述第二音素识别器模型来呈现第二输出音素；以及

或者将所述第二输出音素添加到所述第一输出音素以尝试基于所述第一和第二输出音素两者来识别所述关键词，或者用所述第二输出音素替换所述第一输出音素以尝试基于所述第二输出音素而不是所述第一输出音素来识别所述关键词。

15.一种用于识别语音中的关键词的方法，其包括：

基于在第一实例中说出的所述关键词检测所述语音中的第一音素序列；

使用所述第一音素序列识别第一字素序列；

基于所述第一字素序列从词典中识别至少第二和第三字素序列；

将所述第二字素序列转换为至少第二和第三音素序列并将所述第三字素序列转换为至少第四和第五音素序列；以及

使用所述第二、第三、第四和第五音素序列中的至少一者识别在第二实例中再次说出的所述关键词，所述第二实例发生在所述第一实例之后。

16.如权利要求15所述的方法，其还包括：

消除所述第二音素序列；以及

使用所述第三、第四和第五音素序列中的至少一者但不使用所述第二音素序列来识别在所述第二实例中再次说出的所述关键词。

17.如权利要求15所述的方法，其中所述第一音素序列是使用第一音素识别器模型检测的，其中所述语音中的所述第一音素序列被存储为一个或多个记录，并且其中所述方法包括：

使用所述一个或多个记录使所述第一音素识别器模型适用于提供所述语音的人。

18.如权利要求17所述的方法，其中所述一个或多个记录用于使所述第一音素识别器模型适用于所述人以呈现第二音素识别器模型，所述第二音素识别器模型用于识别在所述第二实例中说出的所述关键词。

19.一种设备，其包括：

至少一个处理器；以及

至少一个计算机存储设备，所述至少一个计算机存储设备不是瞬时信号并且包括指令，所述指令能够由所述至少一个处理器执行以：

使用第一音素识别器模型，基于人说出唤醒词的记录，至少部分地通过将第一音素序列添加到所述第一音素识别器模型可访问的词典中，来向数字助理注册所述唤醒词，所述第一音素序列是从所述记录导出的；

使用所述人说出所述唤醒词的所述记录训练所述第一音素识别器模型以呈现第二音素识别器模型；

用所述第二音素识别器模型替换所述第一音素识别器模型；

基于所述记录但使用所述第二音素识别器模型向所述数字助理再次注册所述唤醒词；以及

通过将使用所述第二音素识别器模型从所述记录导出的第二音素序列添加到所述词典中来更新所述词典。

20.如权利要求19所述的设备，其中所述记录是第一记录，其中所述人是第一人，其中所述唤醒词是第一唤醒词，并且其中所述指令能够执行以：

使用所述第二音素识别器模型，基于第二人说出第二唤醒词的第二记录，至少部分地通过将第三音素序列添加到所述词典中，向所述数字助理注册所述第二唤醒词，所述第三音素序列是从所述第二记录导出的，所述第二记录不同于所述第一记录，所述第二人不同于所述第一人，所述第二唤醒词不同于所述第一唤醒词；

使用所述第二记录训练所述第二音素识别器模型以呈现第三音素识别器模型；

用所述第三音素识别器模型替换所述第二音素识别器模型；

基于所述第二记录但使用所述第三音素识别器模型向所述数字助理再次注册所述第二唤醒词；以及

通过将使用所述第三音素识别器模型从所述第二记录导出的第四音素序列添加到所述词典中来更新所述词典。