CN113450783A

CN113450783A - 用于渐进式自然语言理解的系统和方法

Info

Publication number: CN113450783A
Application number: CN202110098326.2A
Authority: CN
Inventors: K·N·库马尔; J·R·肯尼迪; S·D·隆巴尔多; P·G·希瓦库玛
Original assignee: Disney Enterprises Inc
Current assignee: Disney Enterprises Inc
Priority date: 2020-03-25
Filing date: 2021-01-25
Publication date: 2021-09-28
Anticipated expiration: 2041-01-25
Also published as: US11195533B2; EP3886088B1; US20210304773A1; CN113450783B; EP3886088A1

Abstract

用于渐进式自然语言理解的系统，包括媒体模块、存储软件代码的存储器，以及通信地连接至该媒体模块的硬件处理器。该硬件处理器被配置为执行该软件代码以接收包括第一话语的音频流，并基于该第一话语的第一部分和第二部分，产生第一渐进式语音识别输出和第二渐进式语音识别输出。此外，该硬件处理器被配置为执行软件代码，以在产生该第二渐进式语音识别输出之前，基于该第一渐进式语音识别输出，确定该第一话语的第一意图。该硬件处理器还被配置为，执行软件代码，以基于所确定的第一意图来获取第一资源，并将该第一资源合并至将由媒体模块播放的媒体内容中。

Description

用于渐进式自然语言理解的系统和方法

背景技术

口语理解(Spoken Language Understanding，SLU)通常包括后接自然语言理解(Natural Language Understanding，NLU)模块的自动语音识别(Automatic SpeechRecognition，ASR)。这两个模块以阻塞顺序的方式处理信号，即NLU通常必须等待ASR完成对话语的处理。在实时应用场景中，ASR接收连续语音信号流并输出相应的文字转录。由于计算的复杂性和存储器的限制，大多数ASR通常采用分块的处理方式，并以分段的方式处理语音。此步骤通常称为端点指定(end-pointing)，并且通常是根据与间歇时间间隔单位(inter-pausal units，IPU)的持续时间有关的不同启发式方法确定的，目的是最大程度地减少说话过程中的干扰。最后，ASR输出与每个语音段相对应的文字转录。因此，在ASR的输出上运行的任何NLU应用都需要至少等到端点指定为止，这在根本上会导致延迟瓶颈，并可能使口头互动变得不自然。

发明内容

提供了用于渐进式自然语言理解(incremental natural languageunderstanding)的系统和方法，这些系统和方法如在附图中的至少一个中所示的那样和/或结合附图中的至少一个所描述的那样，并且如在权利要求书中更完整地阐述的那样。

附图说明

图1示出了根据一种实施方式的示例性系统的示意图，该示例性系统被配置为基于对渐进式自然语言的理解，将资源合并至媒体内容中；

图2示出了根据一种实施方式的示例性系统的更详细的示意图，该示例性系统被配置为基于对渐进式自然语言的理解，将资源合并至媒体内容中；以及

图3是流程图，该流程图展示了根据一种实施方式的一种供系统使用的示例性方法，以基于渐进式自然语言理解将资源合并至媒体内容中。

具体实施方式

以下描述包含与本公开中的实施方式有关的特定信息。本领域的技术人员应当认识到，本公开可能以与本文具体讨论的方式不同的方式来实施。本申请中的附图及其附带的详细描述仅针对示例性实施方式。除非另有说明，否则附图中相同或对应的元素可能由相同或对应的附图标记表示。此外，本申请中的附图和图示通常不按比例绘制，并且不旨在对应于实际相对尺寸。

图1示出了根据一种实施方式的示例性系统的示图，该示例性系统被配置为基于渐进式自然语言理解将资源合并至媒体内容中。如图1所示，示例性系统100包括服务器102，该服务器具有硬件处理器104和系统存储器106，该系统存储器106实施为存储渐进式自然语言理解(incremental natural language understanding，NLU)软件代码108的非临时性存储装置。另外，系统100包括客户端装置112，具有麦克风140、摄像机142和媒体模块144。图1中还示出了网络110、媒体内容数据库116、资源数据库118以及用户114。

客户端装置112被配置为产生包括话语的音频流。在一种实施方式中，用户114可能通过说出话语来与客户端装置112交互，并且麦克风140可能产生包括话语的音频流。应当注意的是，麦克风140可能通过多个麦克风(例如麦克风阵列)而不是单个麦克风来实施。在另一实施方式中，媒体模块144可能基于将由媒体模块144播放的媒体内容的音频轨道，来产生包括话语的音频流。在不同的实施方式中，客户端装置112可能是智能电话、智能手表、平板计算机、膝上型计算机、个人计算机、智能TV、家庭娱乐系统或游戏控制台，在此仅举出一些例子。在一中实施方式中，客户端装置112可能是服装面具中的语音调制器。作为另一示例，客户端装置112可能采用主题公园中的自助服务终端的形式。

客户端装置112还可能被配置为产生视频数据。用户114可能通过凝视和手势与客户端装置112交互，并且摄像机142可能产生包括凝视和手势的视频数据。应当注意，摄像机142可能通过多个摄像机而不是单个摄像机来实施。在另一实施方式中，媒体模块144可能基于将由媒体模块144播放的媒体内容的视频轨道，来产生包括凝视或手势的视频数据。

如下面进一步描述的那样，客户端装置112的媒体模块144被配置为播放媒体内容。在一种实施方式中，可能经由网络110，接收来自媒体内容数据库116的、将由媒体模块144播放的媒体内容。在另一实施方式中，例如，可能通过媒体模块144或客户端装置112，基于分别从麦克风140和/或摄像机142接收的音频数据或视频数据，来产生将由媒体模块144播放的媒体内容。尽管图1中的客户端装置112被示出为包括麦克风140、摄像机142和媒体模块144，但是应当注意的是，麦克风140、摄像机142和媒体模块144中的任何一个均可能彼此分离，例如作为独立的装置，可通信地彼此连接和/或连接至网络110。

根据图1所示的示例性实施方式，服务器102、客户端装置112、媒体内容数据库116和资源数据库118经由网络110通信地连接。网络110使得能够在服务器102、客户端装置112、媒体内容数据库116和资源数据库118之间进行数据通信。例如，网络110可能对应于分组交换网络，诸如因特网。替代地，网络110可能对应于广域网(WAN)、局域网(LAN)、或者包括在另一种类型的专用网路或受限分配网络中。网络110可能是无线网络、有线网络，或其组合。服务器102、客户端装置112、媒体内容数据库116和资源数据库118可能各自包括能够进行数据的发送和接收的无线收发器或有线收发器。

媒体内容数据库116提供将由媒体模块144播放的媒体内容。媒体内容可能包括电影内容、电视节目内容或视频点播(VOD)，例如，包括具有嵌入的音频、字幕、时间码以及其他辅助数据(例如评分和/或父母指南)的超高清(Ultra HD)基带视频、HD基带视频或标清(SD)基带视频。在一些实施方式中，媒体内容可能包括多个音轨，并且可能利用例如辅助音频编程(SAP)和/或描述性视频服务(DVS)。应当注意的是，尽管图1将媒体内容数据库116描绘为独立组件，但是在其他实施方式中，媒体内容数据库116可能被包括在一个或多个计算平台中。例如，媒体内容数据库116可能被包括在媒体内容分发平台中，或者可能驻留在服务器102的存储器106中或客户端装置112中。

服务器102的硬件处理器104被配置为执行渐进式NLU软件代码108，以经由网络110从客户端装置112接收包括话语的音频流。硬件处理器104还可能被配置为执行渐进式NLU软件代码108，以经由网络110从客户端装置112接收包括凝视和手势的视频数据。如将在下面更详细地描述的那样，硬件处理器104可能进一步被配置为执行渐进式NLU软件代码108，以基于话语的多个部分，产生渐进式语音识别输出，并基于视频数据的多个部分，产生渐进式凝视识别输出或渐进式手势识别输出。

硬件处理器104可能是用于服务器102的中央处理单元(CPU)，例如，在其中，硬件处理器104运行服务器102的操作系统并执行渐进式NLU软件代码108。硬件处理器104也可能是图形处理单元(GPU)或专用集成电路(ASIC)。存储器106可能采取任何计算机可读非暂时性存储介质的形式。如本申请中所使用的那样，“计算机可读非暂时性存储介质”的表述指的是任何介质，除了向计算平台的硬件处理器(例如服务器102的硬件处理器104)提供指令的载波或其他暂时性信号外。因此，计算机可读非暂时性介质可能对应于各种类型的介质，例如，易失性介质和非易失性介质。易失性介质可能包括动态存储器，例如动态随机存取存储器(动态RAM)，而非易失性存储器可能包括光学存储装置、磁性存储装置或静电存储装置。计算机可读非暂时性介质的常见形式包括，例如，RAM、可编程只读存储器(PROM)、可擦除PROM(EPROM)和闪存。

应当注意的是，尽管图1将渐进式NLU软件代码108描绘为定位在存储器106中，但是该表示仅用于帮助概念的清晰化。更一般地，服务器102可能包括一个或多个计算平台，诸如计算机服务器，这些计算机服务器例如可能位于同一地点，或者可能形成交互式链接的、分布式系统，例如基于云的系统。因而，硬件处理器104和存储器106可能对应于系统100内的分布式处理器和存储器资源。因此，应当理解的是，渐进式NLU软件代码108可能被远程地存储在系统100的分布式存储器资源内。

如下面将更详细描述的那样，硬件处理器104被配置为执行渐进式NLU软件代码108以获取资源，例如音频、视频和其他资源。硬件处理器104还被配置为执行渐进式NLU软件代码108，以将资源合并至将由媒体模块144播放的媒体内容中。在一种实施方式中，服务器102可能经由网络110从资源数据库118获取将被合并至媒体内容中的资源。应当注意的是，尽管图1将资源数据库118描绘为独立组件，但是在其他实施方式中，资源数据库118可能被包括在一个或多个计算平台中。例如，资源数据库118可能驻留在服务器102的存储器106中或客户端装置112中。

图2示出了根据一种实现方式的示例性系统的更详细的示图，该示例性系统被配置为基于对渐进式自然语言的理解，将资源合并至媒体内容中。根据本示例性实施方式，系统200包括渐进式NLU软件代码208、客户端装置212和资源数据库218。渐进式NLU软件代码208包括用于信号处理220、意图确定222、实体识别228、资源获取234、合并指令236和实体音频提取238的多个模块。信号处理220包括用于自动语音识别(ASR)230、凝视/手势识别232、话语结束224和说话者确定226的多个模块。客户端装置212包括麦克风240、摄相机242和媒体模块244。媒体模块244包括媒体内容246、资源合并248、显示器250和扬声器252。资源数据库218包括资源上的语音254、角色表达264和ASR模型266。资源上的语音254包括替换音频文件256、实体音频258、语音调制260和流行短语262。

图2中的系统200、渐进式NLU软件代码208、客户端装置212、资源数据库218、麦克风240、摄像机242和媒体模块244大体上分别对应于图1中的系统100、渐进式NLU软件代码108、客户端装置112、资源数据库118、麦克风140、摄像机142和媒体模块144，并且那些对应的特征可能共享本发明归属于任一相应特征的任何特征。因此，尽管未在图1中明确示出，但是像图2中的渐进式NLU软件代码208那样，图1中的渐进式NLU软件代码108可包括对应于信号处理220、意图确定222、实体识别228、资源获取234、合并指令236以及实体音频提取238的特征。

将结合图1和图2，参考图3进一步描述系统100/200的功能。图3示出了根据一种实施方式的流程图370，该流程图370呈现了示例性的方法，该方法由系统使用，以基于对自然自然语言的理解，将资源合并至媒体内容中。关于图3中概述的方法，应当注意的是，为了避免使本申请中的发明性特征的讨论模糊，在流程图370中省略了某些细节和特征。

流程图370始于动作372：接收包括第一话语的音频流。该音频流可能由渐进式NLU软件代码108/208，通过网络110从客户端装置112/212接收。该话语可能是任何形式的语音。例如，该话语可能是包括多个词的句子。作为另一个示例，该话语可能是两个或更多个实体之间的对话。作为又一个示例，该话语可能是包括多个诗词的诗歌。应当注意的是，该音频流可能包括多个话语。如上文所描述的那样，该音频流可能通过多种方式产生。在一种实施方式中，用户114可能通过说出话语来与客户端装置112/212交互，并且麦克风140/240可能产生包括话语的音频流。在另一实施方式中，媒体模块144/244可能基于将由媒体模块144/244播放的媒体内容246的音频轨道，来产生包括话语的音频流。

渐进式NLU软件代码108/208也可能通过网络110从客户端装置112/212接收视频数据。如上文所描述的那样，该视频数据可能通过多种方式产生。在一种实施方式中，用户114可能通过凝视和手势与客户端装置112/212交互，并且摄像机142/242可能产生包括凝视和手势的视频数据。摄像机142/242可能包括一个或多个静态摄像机，例如单镜头摄像机，和/或被配置为依次捕获多个视频帧的一个或多个视频摄像机。摄像机142/242可能是包括互补金属氧化物半导体(CMOS)图像传感器或电荷耦合器件(CCD)图像传感器的数字摄像机。摄像机142/242还可能包括红外摄像机。在另一实施方式中，媒体模块144/244可能基于将由媒体模块144/244播放的媒体内容246的视频轨道，来产生包括凝视或手势的视频数据。

流程图370在动作374处继续：基于第一话语的第一部分产生第一渐进式语音识别输出。可能通过ASR 230处理从客户端装置112/212接收到的音频流，来产生该第一渐进式语音识别输出。在多种实施方式中，ASR 230可能过滤背景噪声，归一化音量并且将音频流分解成经识别的音素。ASR 230还可能使用这些音素来执行统计概率分析，以推断出整个词。在话语是句子的情况下，该话语的第一部分可能是例如句子中的第一词，并且第一渐进式语音识别输出可能是与该句子的第一词相对应的文字转录。在另一个实施方式中，第一渐进式语音识别输出可能基于句子中的第一组词。更一般地，第一渐进式语音识别输出可能基于比整个话语短的任何部分。如本文中所使用的那样，术语“第一渐进式语音识别输出”和“第二渐进式语音识别输出”相对于彼此被定义，并且指一个输出在另一个输出的产生之前。这些术语在绝对时间意义上不要求输出必须是由ASR 230产生的第一个输出。例如，“第一渐进式语音识别输出”在技术上可能是由ASR 230产生的第四个渐进式语音识别输出，而“第二渐进式语音识别输出”在技术上可能是由ASR 230产生的第七个渐进式语音识别输出。

渐进式NLU软件代码108/208还可能基于视频数据的第一部分，产生第一渐进式凝视识别输出或第一渐进式手势识别输出。可能通过凝视/手势识别232处理来自客户端装置112/212的视频数据，来产生第一渐进式凝视识别输出和/或第一渐进式手势识别输出。例如，凝视/手势识别232可能利用瞳孔中心角膜反射方法将眼睛凝视识别为第一渐进式凝视识别输出。作为另一示例，凝视/手势识别232可能将预设手势或预设身体姿势识别为第一渐进式手势识别输出。凝视/手势识别232也可能使凝视和手势信息相关。例如，凝视/手势识别232可能使用相应的头部位置来提高所识别的眼睛凝视的准确性。如本文中所使用的那样，如上文所描述的术语“第一渐进式凝视/手势识别输出”和“第二渐进式凝视/手势识别输出”是相对性的术语，并且不赋予绝对时间要求。

流程图370在动作376处继续：基于第一话语的第二部分产生第二渐进式语音识别输出。尽管使用的是第一话语的第二部分，ASR 230仍可能以类似于在动作374中产生第一渐进式语音识别输出的方式，在动作376中产生第二渐进式语音识别输出。例如，在话语是句子的情况下，该话语的第二部分可能是句子中的第二词，第二渐进式语音识别输出可能是与该句子的第二词相对应的文字转录。在其他示例中，如上文所描述的那样，第二渐进式语音识别输出可能对应于句子的另一个词，因为术语“第一”和“第二”是相对性的术语，而不赋予绝对时间要求。有利的是，渐进式NLU软件代码108/208的ASR 230会在收到话语的一部分后立即开始产生渐进式语音识别输出，而不是等到收到话语的全部后才开始。如下文进一步描述的那样，硬件处理器104可以在ASR 230产生第二渐进式语音识别输出之前，执行渐进式NLU软件代码108/208以执行各种动作。如同样在下文描述的那样，硬件处理器104可以部分地基于第二渐进式语音识别输出，来执行渐进式NLU软件代码108/208以更新动作。尽管使用的是来自客户端装置112/212的视频数据的更后的部分，凝视/手势识别232也可能以类似于第一渐进式凝视识别输出和/或第一渐进式手势识别输出的产生方式，来产生第二渐进式凝视识别输出和/或第二渐进式手势识别输出。

流程图370在动作378处继续：在产生第二渐进式语音识别输出之前，基于第一渐进式语音识别输出确定第一话语的第一意图。意图确定222可能确定第一话语的第一意图。在一个实施方式中，意图确定222确定，第一话语的第一意图包括模仿角色。例如，第一渐进式语音识别输出可能是与特定电影角色或卡通角色相关联的流行短语中的词。基于识别出的词，意图确定222可能确定第一话语的第一意图可能是要模仿那个特定的电影角色或卡通角色，或者将流行语补充完整。意图确定222可能利用概率模型来确定第一意图。意图确定222可能针对数种可能的意图被训练，并且可能基于针对几种可能的意图中的每一个的第一渐进式语音识别输出，来产生置信度分数。意图确定222可能将第一话语的第一意图确定为例如对应于最高置信度得分的意图。在一个实施方式中，意图确定222可能基于第一渐进式语音识别输出，来确定第一话语的多个意图。例如，意图确定222可能确定第一话语具有与两个最高置信度得分相对应的两个意图。作为另一示例，意图确定222可能确定第一话语的第一意图对应于最高置信度得分，并且第一话语的后续意图对应于超过阈值的置信度得分。如本文所使用的那样，术语“第一意图”是指与第一渐进式语音识别输出相对应的意图。在绝对时间的意义上，该术语不要求意图是由意图确定222所确定的第一个意图。例如，“第一意图”在技术上可能是由意图确定222确定的第四个意图。

在一个实施方式中，意图确定222确定第一话语的第一意图包括预设词。例如，第一渐进式语音识别输出可能是与特定预设词相关联的词或通常在特定预设词之前的词。基于识别出的词，意图确定222可能确定第一话语的第一意图包括那个特定的预设词。预设词可能是意图确定222进行训练的任何词。在一个实施方式中，预设词可以是禁止词，例如诅咒语。在确定第一话语的第一意图包括禁止词时，意图确定222可能评估第一话语中的禁止词的起点，并且还可能评估该第一话语中的禁止词的持续时间。在该实施方式中，意图确定222基于第一渐进式语音识别输出，来评估在第一话语中出现禁止词之前，禁止词的起点和持续时间。评估第一话语中的禁止词的起点或持续时间可以包括，确定在第一话语的第一部分和禁止词之间的居间词，和/或基于第一渐进式语音识别输出来确定语速。尽管上述示例涉及预设词，但是应当注意的是，意图确定222可能确定，第一话语的第一意图包括预设短语。

在一个实施方式中，意图确定222确定第一话语的第一意图包括演唱歌曲。例如，第一渐进式语音识别输出可能是歌曲的歌词。在一个实施方式中，意图确定222确定第一话语的第一意图包括个人介绍。例如，第一渐进式语音识别输出可能是与介绍其名称的用户114相关联的词或通常在其前面的词。在多个实施方式中，意图确定222确定第一话语的第一意图包括，为媒体模块144/244播放的媒体内容146/246启用字幕、外语音频轨道或其他辅助特征。在一个实施方式中，意图确定222确定第一话语的第一意图包括在客户端装置112/212上启用外语模式。

在产生第二渐进式凝视识别输出或第二渐进式手势识别输出之前，意图确定222可能进一步基于第一渐进式凝视识别输出或第一渐进式手势识别输出来，确定第一话语的第一意图。例如，意图确定222可能基于在说出第一话语的第一部分的同时，用户114的视线是否被引导向客户端装置112/212的摄像机142/242，而从多个可能的意图中确定第一意图。作为另一示例，意图确定222可能基于用户114在说第一话语的第一部分时，是做出预设手势还是预设身体姿势，来从多个可能意图中确定第一意图。

意图确定222可能进一步基于对应于第一渐进式语音识别输出的被确定的第一说话者，来确定第一话语的第一意图。信号处理220的说话者确定226可能确定对应于第一渐进式语音识别输出的第一说话者。例如，说话者确定226可能通过将第一渐进式语音识别输出的独特语音模式，与存储在存储器106中的用户114的独特语音模式相关联，来确定用户114对应于第一渐进式语音识别输出。替代地，在用户114是新用户的情况下，说话者确定226可能在存储器106中为用户114创建新的简档，其包括第一渐进式语音识别输出的唯一语音模式。说话者确定226还可能使用凝视/手势识别232的面部识别来确定第一说话者。例如，通过将来自输出凝视/手势识别232的面部识别的时间戳与用于第一渐进式语音识别输出的时间戳相关联，说话者确定226可能确定用户114对应于第一渐进式语音识别输出。然后，意图确定222可能利用说话者确定226的输出。例如，意图确定222可能基于用户114或另一说话者是否对应于第一渐进式语音识别输出，来从数个可能的意图中确定第一意图。

实体识别228可能识别音频流中的实体以保存音频数据，例如发音和语调。实体识别228可能从存储在存储器106中的预设实体的列表中识别实体。替代地，实体识别228可能利用意图确定222和/或ASR 230的输出来识别实体。例如，第一渐进式语音识别输出可能包括用户114正在介绍他们的名字。在意图确定222确定第一话语的第一意图包括个人介绍，并且ASR 230输出不包括字典词的文字转录，或为该文字转录分配高错误值的情况下，实体识别228可能识别该文字转录包括名字。在确定第一渐进式语音识别输出包括名字之后，实体识别228可能指示实体音频提取238从第一话语的第一部分中，提取与所识别的名字相对应的音频部分。例如，第一话语的第一部分可能由渐进式NLU软件代码108/208临时存储，并且实体音频提取238可能从第一话语的第一部分，提取包括音素或对应于识别出的名字的其他音频数据的音频部分，用于永久存储。实体音频提取238然后可能指示渐进式NLU软件代码108/208将提取的音频部分存储在例如资源数据库118/218中。尽管上述示例涉及名字识别，但是由实体识别228识别并由实体音频提取238提取的实体，可以是用于保留音频数据的任何词或短语，例如头衔、专有名词、感叹词或有两种不同的发音的常用词。

流程图370在动作380处继续：基于确定出的第一意图获取第一资源。资源获取234可能通过网络110从资源数据库118/218中获取第一资源。资源获取234可能制定资源获取请求，然后可能指示渐进式NLU软件代码108/208例如使用无线发射机将资源获取请求发送至资源数据库118/218。资源数据库118/218可能基于获取请求，在存储在其中的资源中识别第一资源，并且可能将该第一资源发送至渐进式NLU软件代码108/208。如本文所使用的那样，术语“第一资源”是指与第一意图相对应的资源。在绝对时间意义上，该术语不要求资源是资源获取234所获取的第一个资源。例如，“第一资源”在技术上可能是由资源获取234所获取的第四个资源。

在所确定的第一话语的第一意图包括禁止词的情况下，由资源获取234所获取的第一资源可能是替换音频文件256中的一个。替换音频文件256可能包括高音调的哔哔声，例如通常用于删节电视或无线电广播中的禁止词的那些。在其他实施方式中，替换音频文件256可能包括任何类型的音频信号。在一种实施方式中，所获取的替换音频文件的持续时间大约是如意图确定222所评估的禁止词的持续时间。例如，资源获取234可能在发送至资源数据库118/218的资源获取请求中包括禁止词的评估持续时间，并且资源数据库118/218可能被配置为，确定具有与禁止词的评估持续时间最接近地匹配的持续时间的替换音频文件。

在所确定的第一话语的第一意图包括用户的名字的发音的情况下，例如在个性化消息中，则由资源获取234所获取的第一资源可能是与该特定用户相对应的实体音频258中的一个。例如，所获取的实体音频可能是包括由实体音频提取238提取的用户114的名字的正确发音的音频部分。在确定的第一话语的第一意图是要模仿特定的电影角色或卡通角色的情况下，由资源获取234所获取的第一资源可能是与那个特定的电影角色或卡通角色相对应的语音调制260中的一个。语音调制260可以包括用于音调变化、失真和滤波音频数据的指令。例如，语音调制260可以包括用于将音频数据转换为类似于特定电影角色或卡通角色的独特语音模式的指令。在确定的第一话语的第一意图是要将特定电影角色或卡通角色的流行语补充完整的情况下，由资源获取234所获取的第一资源可能是与该特定电影角色或卡通角色相对应的流行语262中的一个。

资源上的语音254可以包括图2中未示出的其他资源。例如，在确定的第一话语的第一意图是要演唱歌曲的情况下，由资源获取234所获取的第一资源可能是特定歌曲，或者是省略特定歌曲的音频歌词的器乐伴奏。应当注意的是，尽管在本实施方式中，替换音频文件256、语音调制260、实体音频258和流行短语262被描述为资源上的语音254，但是在不同实施方式中，资源数据库218中的资源可能采取任何形式，包括文本、视频、或能够合并至媒体内容246中以由媒体模块144/244播放的任何资源，如下文进一步所描述的那样。例如，在所确定的第一话语的第一意图包括，在客户端装置112/212上启用外语模式的情况下，由资源获取234所获取的第一资源可能是字幕或外语音频轨道。作为另一示例，在所确定的第一话语的第一意图包括与虚拟角色(例如在显示器250上显示的虚拟角色)进行交互的情况下，由资源获取234所获取的第一资源可能是角色表达264中的一个。角色表达264可能是执行各种动作(例如皱眉或跳跃)的虚拟角色的视频，或2D或3D模型动画。在一个实施方式中，资源获取234可能基于所确定的第一意图来获取多个资源。

渐进式NLU软件代码108/208还可能基于所确定的第一意图来获取资源，其中这些资源不是专门用于合并至将由媒体模块144/244播放的媒体内容246中。例如，在所确定的第一话语的第一意图包括在客户端装置112/212上启用外语模式的情况下，由资源获取234所获取的第一资源可能是ASR模型266中的一个。ASR 230可能采用获取的ASR模型，以不同的方式处理来自客户端装置112/212的音频流。例如，可以采用不同的ASR模型266来产生对应于特定外语模式的针对语言、方言或口音的渐进式语音识别输出。作为另一示例，为了避免将产生的渐进式语音识别输出偏向普通词或期望词，例如在官方或预设词典中识别的词，其中所确定的第一话语的第一意图包括个人介绍的情况下，ASR 230可能采用获取的ASR模型以消除或减轻随后产生的渐进式语音识别输出对普通词或期望词的偏向，以使得实体识别228可以更容易地从随后产生的渐进式语音识别输出中识别实体或名字。除了用于合并至将由媒体模块144/244播放的媒体内容246中的资源之外，渐进式NLU软件代码108/208还可能获取ASR模型266中的一个，例如外语字幕、音轨、流行短语，歌曲文件等。应当注意的是，尽管图2将资源描绘为驻留在资源数据库218中，但是在一些实施方式中，资源可能驻留在服务器102的存储器106中。

流程图370在动作382处继续：将第一资源合并至将由媒体模块播放的媒体内容中。第一资源可能被合并至将在媒体模块144/244上播放的媒体内容246中。媒体模块144/244可能是在客户端装置112/212上运行的应用。媒体模块144/244包括媒体内容246、资源合并248、显示器250和扬声器252。渐进式NLU软件代码108/208的合并指令236，可能向媒体模块144/244的资源合并248提供关于如何将第一资源合并至媒体内容246中的指令。合并指令236还可能将第一资源提供至媒体模块144/244。在一个实施方式中，合并指令236将指令作为元数据与第一资源一起提供。媒体模块144/244的资源合并248解析这些指令，并将第一资源合并在媒体内容246中。如下文进一步描述的那样，将第一资源合并至媒体内容246中可能需要用第一资源替换媒体内容246的其中一部分、与媒体内容246一起播放第一资源或其他合并方式。

如上文所描述的那样，媒体内容246可能是电影内容、电视节目内容或VOD，例如，包括具有嵌入的音频、字幕、时间码以及其他辅助数据(例如评分和/或父母指南)的超高清(Ultra HD)基带视频、HD基带视频或标准清晰度(SD)基带视频。在一些实施方式中，媒体内容246可能包括多个音频轨道，并且可能利用例如辅助音频编程(SAP)和/或描述性视频服务(DVS)。媒体内容246可能是直播视频。媒体内容246也可能包括2D或3D模型动画。还应注意的是，尽管图2将媒体内容246描绘为驻留在媒体模块144/244上，但在某些实施方式中，媒体内容246可能驻留在媒体内容数据库116(图1中所示)或存储器106中。在这些实施方式中，媒体内容246可能从媒体内容数据库116或从服务器102的存储器106(图1所示)被传输至媒体模块144/244。在另一实施方式中，媒体内容可能由媒体模块144/244本身产生。

媒体模块244可以使用显示器250和/或扬声器252来播放媒体内容246和第一资源。显示器250可能被实施为液晶显示器(LCD)、发光二极管(LED)显示器、有机发光二极管(OLED)显示器或执行信号到光的物理转换的任何其他合适的显示屏。扬声器252可能被实施为微电子机械系统(MEMS)扬声器、扬声器阵列或执行信号到声音的物理转换的任何其他合适的扬声器。应当注意的是，尽管图2将媒体模块244描绘为包括单个显示器250和单个扬声器252，但是该表示也仅被提供帮助概念的清晰。更一般地，媒体模块244可能包括一个或多个显示器和/或扬声器，它们可能位于同一地点，或者可能交互地链接分布。

在一个实施方式中，媒体内容246是由媒体模块144/244(例如，分别基于从麦克风140/240和/或摄像机142/242接收的音频数据或视频数据)产生的同时由媒体模块144/244播放的直播广播。客户端装置112/212可能将包括该直播广播的第一话语的音频流发送至服务器102。在渐进式NLU软件代码108/208确定第一话语的第一意图包括禁止词的情况下，该禁止词可能被从资源数据库118/218获取的替换音频文件256中的一个来替换。例如，如上文所描述的那样，意图确定222可能评估直播广播中的禁止词的起点。然后，合并指令236和资源合并248可以在评估的起点用替换音频文件替换包括禁止词的直播广播的音频部分。因此，系统100/200可能删节直播广播，而不引入时间延迟，并且不需要事先了解直播的内容。

在一个实施方式中，客户端装置112/212是语音调制器，并且媒体内容246是由媒体模块144/244产生的同时，被媒体模块144/244的扬声器252播放的音频流，例如，基于从麦克风140/240接收的数据而产生的音频流。客户端装置112/212可能将包括第一话语的音频流发送至服务器102。在渐进式NLU软件代码108/208确定第一话语的第一意图是要模仿特定的电影角色或卡通角色的情况下，合并指令236和资源合并248可能将从资源数据库118/218获取的、对应于该特定的电影角色或卡通角色的语音调制260中的一个，应用到由媒体模块144/244的扬声器252正在播放的音频流，该音频流被转换具有该特定电影角色或卡通角色的独特语音模式。因此，系统100/200可能仅在接收音频流的第一部分之后实现该音频流的后续部分的语音调制。在一个实施方式中，媒体模块144/244可能在正在产生音频流的麦克风140/240与正在播放音频流的媒体模块的扬声器252之间引入延迟，以将语音调制260中的一个回溯地应用于该音频流的第一部分，渐进式NLU软件代码108/208用于确定第一意图并获取语音调制260中的相应一个。

在一个实施方式中，由媒体模块144/244播放的媒体内容246是针对用户114的个性化消息。在渐进式NLU软件代码108/208确定第一话语的第一意图包括利用用户114的名字的情况下，合并指令236和资源合并248可能将从资源数据库118/218获取的、对应于用户114的实体音频258中的一个，合并至该个性化消息中。在一个实施方式中，将由实体音频提取238提取的、包括用户114的识别出的名字的发音的音频部分，合并至该个性化消息中。在另一实施方式中，例如，通过显示器250将包括用户114的名字的拼写的文本合并至该个性化消息中。

媒体模块144/244播放的媒体内容246也可能通过合并对应于已识别实体(名字除外)的音频部分来个性化。例如，由媒体模块144/244播放的媒体内容246可能是音频百科全书或交互式搜索引擎。在渐进式NLU软件代码108/208确定第一话语的第一意图包括学习或讨论胡桃(pecan)的情况下，合并指令236和资源合并248可能合并从资源数据库118/218中获取的实体音频258中的一个，使得由实体音频提取238提取的、包括用户对词“pecan”的特定发音的音频部分(例如，“pee-can”对比“puh-can”)被合并至百科全书词条或搜索结果中。出于同样的原因，任何播放词“加勒比海(Caribbean)”的音频的媒体内容246都可能包含在第一个音节上带有重音的实体音频258中的一个(例如，“KAR-i-bee-in)或包含在第二个音节上有重音的实体音频258中的一个(例如，“ka-RIB-ee-in)，取决于由实体音频提取238所提取的音频部分。

在一个实施方式中，由媒体模块144/244播放的媒体内容246是提示用户114说流行语的交互式游戏。在所确定的第一话语的第一意图是特定电影角色或卡通角色的流行短语的情况下，合并指令236和资源合并248可能将从资源数据库118/218中获取的、对应于该特定的电影角色或卡通角色的流行短语262中的一个，合并至该交互式游戏中。例如，当用户114开始说出该流行短语的第一词时，媒体模块144/244可能在显示器250上显示获取的流行短语。作为另一个示例，媒体模块144/244可能使用扬声器252播放该流行短语。

在类似的实施方式中，由媒体模块144/244播放的媒体内容246是交互式外语教育程序，其提示用户114说出外语句子。在用户114用外语正确发音该句子的第一词的情况下，渐进式NLU软件代码108/208可能确定第一话语的第一意图是将该句子补充完整，并且可能将适当的资源合并至该外语教育程序中。例如，当用户114说出第一词时，媒体模块244可能在显示器250上显示外语句子的一个或多个余下的词。作为另一示例，媒体模块144/244可能使用扬声器252播放外语句子的一个或多个余下的词，从而用户114可能一起讲话。

在一个实施方式中，由媒体模块144/244播放的媒体内容246是卡拉OK应用。在用户114唱出歌曲的第一歌词的情况下，渐进式NLU软件代码108/208可能确定第一话语的第一意图是演唱特定歌曲。合并指令236和资源合并248可能合并对应于该特定歌曲的适当资源，这些资源从资源数据库118/218中获取至该卡拉OK应用中。例如，当用户114开始唱出第一歌词时，媒体模块244可能使用扬声器252来播放特定歌曲，或者播放省略该特定歌曲的音频歌词的乐器伴奏。作为另一个示例，媒体模块144/244在显示器250上显示特定歌曲的余下的歌词。

在一个实施方式中，媒体模块144/244播放的媒体内容246是电影。用户114可能开始对麦克风140/240说出话语，命令客户端装置112/212启用外语模式。当渐进式NLU软件代码108/208确定第一话语的第一意图包括启用外语模式时，合并指令236和资源合并248可能将从资源数据库118/218获取的、对应于该外语模式的字幕或外语音频轨道，通过显示器250或扬声器252合并至该电影中。因此，系统100/200实现了用于媒体模块144/244的预测语音激活控制。

在一个实施方式中，由媒体模块144/244播放的媒体内容246是显示虚拟角色的交互式故事。在所确定的第一话语的第一意图包括描述发生在虚拟角色上的事件的情况下，合并指令236和资源合并248可能将从资源数据库118/218获取的、对应于该事件的角色表达264中的一个合并至该虚拟角色中。例如，媒体模块144/244可能在显示器250上显示虚拟角色的2D或3D模型动画，该虚拟角色执行新的动作，例如皱着眉头或跳跃。作为另一个示例，媒体模块144/244可能以在显示器250上显示与该事件相对应的新的虚拟角色。

有利的是，渐进式NLU软件代码108/208一旦识别出话语的第一部分就开始处理，而不是等到识别出话语的全部之后才开始处理。因此，渐进式NLU软件代码108/208可能以减少的延迟来确定意图、获取资源以及将资源合并至媒体内容246中。

如以上关于动作376所描述的那样，渐进式NLU软件代码108/208可能通过以与第一渐进式语音识别输出相似的方式，基于第一话语的第二部分产生第二渐进式语音识别输出，来继续渐进式处理。在产生第二渐进式语音识别输出之后，意图确定222可能基于第一渐进式语音识别输出和第二渐进式语音识别输出两者，来更新第一意图。例如，在用户114开始唱出由两首歌曲共有的第一歌词并且意图确定222确定出第一意图包括演唱第一歌曲的情况下，在用户114唱出特定于第二歌曲的第二歌词之后，意图确定222可能更新第一意图以包括演唱第二歌曲。在该示例中，资源获取234可能基于所更新的第一意图，从资源数据库118/218中获取第二资源，并且合并指令236和资源合并248可能将该第二资源合并至正在由媒体模块144/244播放的媒体内容246中。以类似的方式，意图确定222可能使用第二渐进式凝视识别输出或第二渐进式姿势识别输出，来更新第一话语的第一意图。

然而，在用户114开始唱出由两首歌曲共有的第一歌词并且意图确定222确定出第一意图包括演唱第一歌曲的情况下，在用户114唱出特定于第一歌曲的第二歌词之后，意图确定222可能通过向第一歌曲分配更高的置信分数来更新第一意图。在该示例中，资源获取234不需要从资源数据库118/218获取第二资源。在多个实施方式中，系统100/200可以请求并从用户114接收，基于第一渐进式语音识别输出确定的、有关第一意图的准确性的确认。例如，麦克风140/240、摄像机142/242或显示器250上的触摸屏可以从用户114接收指示确认的输入。

信号处理220的说话者确定226可能以与上述相似的方式，确定对应于第二渐进式语音识别输出的说话者。例如，说话者确定226可能确定用户114对应于第二渐进式语音识别输出。在另一个示例中，说话者确定226可能确定，第二说话者(与对应于第一渐进式语音识别输出的用户114不同)对应于第一话语的第二渐进式语音识别输出。换句话说，系统100/200可以渐进式地确定话语中的说话者是否已经改变。意图确定222可能基于所确定的第二说话者来确定第一话语的第二意图。意图确定222可能跟踪第一意图和第二意图两者，例如，其中话语是对话并且每个讲话者具有相应的意图。意图确定222可能以类似于第一意图的方式来更新第二意图。资源获取234可能基于第二意图从资源数据库118/218中获取第二资源，并且合并指令236和资源合并248可能将第二资源而不是第一资源合并至正在由媒体模块144/244播放的媒体内容246中，或将第一资源和第二资源均合并至正在由媒体模块144/244播放的媒体内容246中。

信号处理220的话语结束224可能确定话语的一部分是话语的结束。例如，通过分析来自ASR 230和/或凝视/手势识别232的输出，话语结束224可能确定第一话语的第二部分是第一话语的结束。当确定或更新意图时，意图确定22可能利用来自话语结束224的输出。例如，在意图确定222基于第一渐进式语音识别输出和第二渐进式语音识别输出，来更新第一意图的情况下，在话语结束224确定第一言语的第二部分是第一言语的结束之后，意图确定可能基于经确定的第一话语的结束，更新所更新的第一意图。

因此，本申请公开了用于渐进式自然语言理解的系统的多个实施方式，以及由这种系统使用的方法。从以上描述可以明显看出，在不脱离这些概念的范围的情况下，可以使用各种技术来实施本申请中描述的概念。此外，尽管已经具体参考某些实施方式描述了这些概念，但是本领域普通技术人员将认识到，可以在不脱离那些概念的范围的情况下，在形式和细节上进行变型。因而，所描述的实施方式在所有方面都应被认为是说明性的而非限制性的。还应当理解，本申请不限于本文描述的特定实施方式，并且在不脱离本公开的范围的情况下，许多重新布置、变型和替换均是可能的。

Claims

1.一种系统，包括：

媒体模块，被配置成播放媒体内容；

存储软件代码的存储器；

通信地连接至所述媒体模块的硬件处理器，所述硬件处理器被配置为执行所述软件代码以执行以下步骤：

接收包括第一话语的音频流；

基于所述第一话语的第一部分，产生第一渐进式语音识别输出；

基于所述第一话语的第二部分，产生第二渐进式语音识别输出；

在产生所述第二渐进式语音识别输出之前，基于所述第一渐进式语音识别输出确定所述第一话语的第一意图；

基于所确定的第一意图获取第一资源；并

将所述第一资源合并至将由媒体模块播放的媒体内容中。

2.根据权利要求1所述的系统，其中：

所确定的第一话语的第一意图包括预设词；

所述第一资源包括替换音频文件；并且

将所述第一资源合并至所述媒体内容中包括，用所述替换音频文件替换包括所述预设词的媒体内容的音频部分。

3.根据权利要求2所述的系统，其中，基于所确定的第一意图获取第一资源包括：

评估所述第一话语中所述预设词的持续时间；并

确定所述替换音频文件的持续时间近似于所述预设词的持续时间。

4.根据权利要求2所述的系统，其中：

所述硬件处理器还被配置为评估第一话语中的预设词的起点，并在评估的所述起点处用替换音频文件替换包括所述预设词的媒体内容的音频部分。

5.根据权利要求1所述的系统，其中，所述硬件处理器还被配置为：

识别所述音频流中的实体；

从所述音频流中提取对应于识别出的所述实体的音频部分；并

将所述音频部分存储在资源数据库中；

其中，将所述第一资源合并至媒体内容中包括，将对应于识别出的所述实体的音频部分合并至所述媒体内容中。

6.根据权利要求1所述的系统，其中，所述硬件处理器还被配置为：

确定对应于所述第一渐进式语音识别输出的第一说话者，其中确定第一话语的所述第一意图还基于所确定的第一说话者；

确定对应于第二渐进式语音识别输出的第二说话者；并

基于所确定的第二说话者确定所述第一话语的第二意图。

7.根据权利要求1所述的系统，其中，所述硬件处理器还被配置为，在产生所述第二渐进式语音识别输出之后，基于所述第一渐进式语音识别输出和所述第二渐进式语音识别输出，更新第一话语的所述第一意图。

8.根据权利要求7所述的系统，其中，所述硬件处理器还被配置为：

确定第一话语的所述第二部分包括所述第一话语的结束；并

根据第一话语的所述结束更新所更新的第一意图。

9.根据权利要求7所述的系统，其中，所述硬件处理器还被配置为：

基于所更新的第一意图获取第二资源；并

将所述第二资源合并至将要被媒体模块播放的媒体内容中。

10.根据权利要求1所述的系统，其中，所述硬件处理器还被配置为：

接收视频数据；

基于所述视频数据的其中一部分，产生渐进式凝视识别输出或渐进式手势识别输出；并

进一步基于所述渐进式凝视识别输出或所述渐进式手势识别输出，确定第一话语的所述第一意图。

11.一种由系统使用的方法，所述系统包括配置成播放媒体内容的媒体模块、存储软件代码的存储器以及通信地连接至所述媒体模块的硬件处理器，所述方法包括：

使用所述硬件处理器接收包括第一话语的音频流；

使用所述硬件处理器，基于所述第一话语的第一部分产生第一渐进式语音识别输出；

使用所述硬件处理器，基于所述第一话语的第二部分产生第二渐进式语音识别输出；

在产生所述第二渐进式语音识别输出之前，使用所述硬件处理器，基于所述第一渐进式语音识别输出确定所述第一话语的第一意图；

使用所述硬件处理器，基于所确定的第一意图获取第一资源；并

使用所述硬件处理器，将所述第一资源合并至将要被所述媒体模块播放的媒体内容中。

12.根据权利要求11所述的方法，其中：

所确定的第一话语的第一意图包括说出预设词；

所述第一资源包括替换音频文件；并且

将所述第一资源合并至媒体内容中包括，用所述替换音频文件替换包括所述预设词的媒体内容的音频部分。

13.根据权利要求12所述的方法，其中，基于所确定的第一意图获取所述第一资源包括：

使用所述硬件处理器评估第一话语中所述预设词的持续时间；并

使用所述硬件处理器确定所述替换音频文件的持续时间近似于所述预设词的持续时间。

14.根据权利要求12所述的方法，还包括：

使用所述硬件处理器评估第一话语中所述预设词的起点；并

使用硬件处理器，在评估的所述起点处用所述替换音频文件替换包括所述预设词的媒体内容的音频部分。

15.根据权利要求11所述的方法，还包括：

使用所述硬件处理器识别所述音频流中的实体；

使用所述硬件处理器从所述音频流中提取对应于识别出的实体的音频部分；并

使用所述硬件处理器将所述音频部分存储在资源数据库中；

其中，将所述第一资源合并至所述媒体内容中包括，将对应于识别出的实体的音频部分合并至所述媒体内容中。

16.根据权利要求11所述的方法，还包括：

使用所述硬件处理器确定对应于所述第一渐进式语音识别输出的第一说话者，其中，确定第一话语的第一意图还基于所确定的第一说话者；

使用所述硬件处理器确定对应于所述第二渐进式语音识别输出的第二说话者；并

使用所述硬件处理器基于所确定的第二说话者确定所述第一话语的第二意图。

17.根据权利要求11所述的方法，还包括在产生所述第二渐进式语音识别输出之后，使用所述硬件处理器，基于所述第一渐进式语音识别输出和所述第二渐进式语音识别输出，更新第一话语的所述第一意图。

18.根据权利要求17所述的方法，还包括：

使用所述硬件处理器，确定第一话语的所述第二部分包括所述第一话语的结束；并

使用所述硬件处理器，基于第一话语的所述结束更新所更新的第一意图。

19.根据权利要求17所述的方法，还包括：

使用所述硬件处理器，基于所更新的第一意图获取第二资源；并

使用所述硬件处理器将所述第二资源合并至将要被媒体模块播放的媒体内容中。

20.根据权利要求11所述的方法，还包括：

使用所述硬件处理器接收视频数据；

使用所述硬件处理器，基于所述视频数据的其中一部分产生渐进式凝视识别输出或渐进式手势识别输出；并

使用所述硬件处理器，进一步基于所述渐进式凝视识别输出或所述渐进式手势识别输出，确定第一话语的所述第一意图。