CN116635931A

CN116635931A - 用于对音频查询进行解码的方法和系统

Info

Publication number: CN116635931A
Application number: CN202180085648.1A
Authority: CN
Inventors: 安库尔·库马尔; 沙特鲁汉·辛格; 阿曼·马甘; 阿舒托什·古普塔; 萨钦·辛格
Original assignee: Samsung Electronics Co Ltd
Current assignee: Samsung Electronics Co Ltd
Priority date: 2020-12-18
Filing date: 2021-12-17
Publication date: 2023-08-22
Also published as: EP4200841A1; EP4200841A4; WO2022131851A1; US20220223143A1

Abstract

一种用于对音频查询进行解码的方法可以包括：响应于从用户接收音频查询，从音频查询中提取一个或多个声学特征；基于一个或多个声学特征，确定通用单词和领域特定单词；以及基于通用单词、领域特定单词和一个或多个声学特征对音频查询进行解码，以识别与音频查询相关联的至少一个单词。

Description

用于对音频查询进行解码的方法和系统

技术领域

本公开涉及自动语音识别，具体涉及用于对音频查询进行解码的系统和方法。

背景技术

随着虚拟助理被部署到多个设备，传统的基于语音的虚拟助理已经变得无处不在。自动语音识别(Automatic Speech Recognition，ASR)支持这些虚拟助手，其中自然语言理解(natural-language understanding，NLU)组件利用ASR输出来处理用户查询。因此，ASR系统的准确度在基于语音的虚拟助理的成功中变得至关重要。此外，对如语音打字的用例的需求也越来越多，其中所涉及的时延应该尽可能低，并且，对不同的可用用户上下文信息的需求也越来越多，以提高语音识别的准确度，如说话者口音、性别、年龄等。

以“用户查询类型”的形式(称为领域(domain))合并外部信息也导致了ASR的显著改进。领域可以是音乐、联系人或类似的信息，这些信息通常存在于用户设备上，或者可以从查询本身中识别，以便偏向ASR输出。传统上，领域特定的外部信息以领域特定的统计语言模型(language model，LM)的形式使用。使用处理文本输入的多类别分类器从ASR输出(其不涉及任何领域LM)中获得领域类别。这是ASR系统的第一遍次(first-pass)解码过程。在进一步的遍次中使用领域LM来改善(refine)ASR输出，这导致改进的ASR假设。

发明内容

技术问题

传统的实施例具有许多问题：a)ASR解码的第一遍次之后的多个遍次增加了整个过程的时延，从而使其难以在诸如语音打字的场景中使用；b)在第一遍次ASR解码中不使用领域LM使得第一遍次以及(多个)后续遍次的输出不是最优的；c)领域分类也不是最优的，因为它利用了可能包含错误的第一遍次ASR输出。

因此，需要一种克服上述技术缺点的解决方案。

问题的解决方案

根据本公开的一个方面，一种用于对音频查询进行解码的方法可以包括：响应于从用户接收音频查询，从音频查询中提取一个或多个声学特征；基于一个或多个声学特征来确定通用单词(word)和领域特定单词；以及基于通用单词、领域特定单词和一个或多个声学特征对音频查询进行解码，以识别与音频查询相关联的至少一个单词。

该方法还可以包括：处理至少一个单词以执行与音频查询相关联的操作。

该方法还可以包括：将音频查询转换成一个或多个片段，以将音频查询表示为每个片段一个或多个数字；通过组合一个或多个片段来生成文本领域(textual domain)中的一个或多个概要向量，其中，一个或多个概要向量是音频查询的数字表示；从一个或多个概要向量中确定与音频查询相关联的音频向量；以及基于与音频查询相关联的音频向量，识别与音频查询相关联的一个或多个领域类别。

通用单词和领域特定单词可以被并行地确定。

对音频查询进行解码可以包括：接收与自动语音识别(ASR)解码器相关联的最后预测单词、通用单词和领域特定单词；选择一个或多个概要向量，该一个或多个概要向量包括最后预测单词之后的单词的音频向量；以及基于最后预测单词、通用单词、领域特定单词和与音频向量相关联的一个或多个概要向量，预测与音频查询相关联的至少一个单词。

该方法还可以包括：从多个单词中识别具有高于其他单词的概率值的概率值的至少一个单词，其中，概率值基于与通用语言模型、领域特定语言模型和执行音频查询的解码的自动语音识别(ASR)解码器相关联的权重值确定。

该方法还可以包括：基于一个或多个领域特定语言模型中的每个领域特定语言模型与一个或多个领域类别中的每个领域类别相关的概率来选择一个或多个领域特定语言模型，其中，确定领域特定单词可以包括：使用所选择的一个或多个领域特定语言模型来确定领域特定单词。

根据本公开的另一方面，一种用于对音频查询进行解码的电子设备可以包括：存储器，存储一个或多个指令；以及至少一个处理器，被配置为执行一个或多个指令以：响应于从用户接收音频查询，从音频查询中提取一个或多个声学特征；基于一个或多个声学特征，确定通用单词和领域特定单词；以及基于通用单词、领域特定单词和一个或多个声学特征对音频查询进行解码，以识别与音频查询相关联的至少一个单词。

该至少一个处理器还可以被配置为：处理至少一个单词以执行与音频查询相关联的操作。

该至少一个处理器还可以被配置为：将音频查询转换成一个或多个片段，以将音频查询表示为每个片段一个或多个数字；通过经由多个长短期记忆(Long Short-TermMemory，LSTM)架构组合一个或多个片段来生成文本领域中的一个或多个概要向量，其中，一个或多个概要向量是音频查询的数字表示；从一个或多个概要向量中确定与音频查询相关联的音频向量；以及基于与音频查询相关联的音频向量来识别与音频查询相关联的一个或多个领域类别。

该至少一个处理器还可以被配置为：并行地确定通用单词和领域特定单词。

该至少一个处理器还可以被配置为：接收与自动语音识别(ASR)解码器相关联的最后预测单词、通用单词和领域特定单词；选择一个或多个概要向量，该一个或多个概要向量包括最后预测单词之后的单词的音频向量；以及基于最后预测单词、通用单词、领域特定单词和与音频向量相关联的一个或多个概要向量，预测与音频查询相关联的至少一个单词。

该至少一个处理器还可以被配置为：从多个单词中识别具有高于其他单词的概率值的概率值的至少一个单词，其中，该概率值基于与通用语言模型、领域特定语言模型和自动语音识别(ASR)解码器相关联的权重值确定。

该至少一个处理器还可以被配置为：基于一个或多个领域特定语言模型中的每个领域特定语言模型与一个或多个领域类别中的每个领域类别相关的概率来选择一个或多个领域特定语言模型；以及使用所选择的一个或多个领域特定语言模型来确定领域特定单词。

根据本公开的另一方面，一种存储程序的非暂时性计算机可读存储介质可由至少一个处理器执行以执行处理音频信号的方法，该方法包括：响应于从用户接收音频查询，从音频查询中提取一个或多个声学特征；基于一个或多个声学特征来确定通用单词和领域特定单词；以及基于通用单词、领域特定单词和一个或多个声学特征对音频查询进行解码，以识别与音频查询相关联的至少一个单词。

该方法还可以包括：将音频查询转换成一个或多个片段，以将音频查询表示为每个片段一个或多个数字；通过组合一个或多个片段来生成文本领域中的一个或多个概要向量，其中，一个或多个概要向量是音频查询的数字表示；从一个或多个概要向量中确定与音频查询相关联的音频向量；以及基于与音频查询相关联的音频向量来识别与音频查询相关联的一个或多个领域类别。

该方法还可以包括：接收与自动语音识别(ASR)解码器相关联的最后预测单词、通用单词和领域特定单词；选择一个或多个概要向量，该一个或多个概要向量包括最后预测单词之后的单词的音频向量；以及基于最后预测单词、通用单词、领域特定单词和与音频向量相关联的一个或多个概要向量，预测与音频查询相关联的至少一个单词。

发明的有益效果

所提出的方法通过向ASR系统添加神经领域分类器模块来解决技术问题。该模块直接对声学信号进行处理，以识别领域类别，而不是将ASR文本输出用于该过程。领域分类器模块的输出启用领域LM选择模块，领域LM选择模块然后与ASR解码过程一起使用，以将外部领域信息合并到第一遍次本身中。

附图说明

通过参考附图描述某些示例实施例，上述方面和/或其他方面将变得更加明显，其中：

图1示出了根据本公开实施例的包括用于对音频查询进行解码的系统的环境；

图2示出了根据本公开实施例的用于对音频查询进行解码的系统的示意框图；

图3示出了描绘根据本公开实施例的用于对音频查询进行解码的过程的操作流程图；

图4示出了描绘根据本公开实施例的用于融合语言模型与ASR解码器的过程的操作流程图；

图5示出了描绘根据本公开实施例的用于根据一个或多个声学特征对音频查询进行解码的过程的操作流程图；

图6示出了描绘根据本公开实施例的利用领域识别的单遍次ASR解码的用例图；

图7A示出了描绘根据本公开实施例的用于根据编码器特征进行领域分类的过程的用例图；以及

图7B示出了描绘根据本公开实施例的模型参数的值的图形表示；

图8示出了描绘根据本公开实施例的用于在嘈杂环境中对一个或多个领域特定语言模型进行分类的过程的用例图；

图9示出了描绘根据本公开实施例的单遍次解码中用户的一个或多个口音的鲁棒性的用例图；

图10示出了描绘根据本公开实施例的用于消除音频查询中的噪声的过程的用例图；

图11示出了描绘根据本公开实施例的通过使用两个领域类别的环境分析的用例图；

图12示出了描绘根据本公开实施例的在单遍次中利用领域语言模型的准确度提高的用例图；以及

图13示出了描绘根据本公开实施例的用于对音频查询进行解码的方法的示意框图。

具体实施方式

下面参照附图更详细地描述本公开的实施例。

在下面的描述中，即使在不同的附图中，相同的附图标记也用于相同的元素。描述中定义的内容(诸如详细的构造和元素)被提供来帮助全面理解示例实施例。然而，显而易见的是，示例实施例可以在没有那些具体定义的内容的情况下实践。同样，没有详细描述众所周知的功能或结构，因为它们将会用不必要的细节模糊描述。

诸如“至少一个”的表述当在元素列表之前时修饰整个元素列表，而不修饰列表的单个元素。例如，表述“a、b和c中的至少一个”应该被理解为仅包括a、仅包括b、仅包括c、包括a和b两者、包括a和c两者、包括b和c两者、包括a、b和c、或者前述示例的任何变体。

虽然诸如“第一”、“第二”等的术语可以用于描述各种元素，但是这些元素不一定限于上述术语。上述术语可以仅用于将一个元素与另一元素区分开。

在整个说明书中对“一个方面”、“另一方面”或类似语言的引用意味着结合该实施例而描述的特定的特征、结构或特性被包括在本发明的至少一个实施例中。因此，在整个说明书中的短语“在实施例中”、“在另一实施例中”和类似语言的出现可以但不一定都是指同一实施例。

术语“包括”、“包含”或其任何其他变体旨在涵盖非排他性的包含，使得包括一系列步骤的过程或方法不仅包括那些步骤，还可以包括未明确列出的或这种过程或方法所固有的其他步骤。类似地，以“包括”开头的一个或多个设备或子系统或元素或结构或组件，在没有更多约束的情况下，并不排除其他设备或其他子系统或其他元素或其他结构或其他组件或附加设备或附加子系统或附加元素或附加结构或附加组件的存在。

除非另有定义，否则本文使用的所有技术术语和科学术语具有与本发明所属领域的普通技术人员通常理解的相同的含义。本文提供的系统、方法和示例仅是说明性的，而不是限制性的。

图1示出了根据本公开实施例的包括用于对音频查询进行解码的系统102的环境100。在实施例中，音频可以由系统102在单遍次中基于自动语音识别(ASR)技术解码。系统102可以包括使用神经网络模型的一个或多个处理器。在实施例中，在对音频查询进行解码后，系统102可以在处理从音频查询中解码的至少一个单词后执行与音频查询相关的操作。在实施例中，该处理可以基于自然语言理解(NLU)技术。在实施例中，系统102可以被配置为从用户接收音频查询。

根据本公开的实施例，系统102可以被配置为响应于接收到音频查询而提取与音频查询相关联的一个或多个声学特征。响应于从音频查询中提取一个或多个声学特征，系统102可以从音频查询中确定通用单词。在实施例中，通用单词可以基于从音频查询中提取的一个或多个声学特征来确定。

系统102可以被配置为从音频查询中确定领域特定单词。在实施例中，领域特定单词可以基于一个或多个声学特征来确定。在实施例中，领域特定单词还可以基于在系统102内识别的一个或多个领域类别。

术语“领域特定单词”可以指主要在一个知识域(或领域)内使用而不在其他域使用的单词。领域特定单词可能被相应领域(例如，医学)的人理解，且可能不被外行人理解。知识域或知识领域的示例可以包括音乐、历史、化学、数学、文学、医学等等。术语“通用单词”可以指被不具有领域知识的外行人所使用和理解的词。

在实施例中，并行地确定通用单词和领域特定单词。

在确定领域特定单词后，系统102可以对音频查询进行解码。在实施例中，可以基于通用单词、领域特定单词以及与音频查询相关的一个或多个声学特征对音频查询进行解码。在实施例中，对音频查询进行解码可以导致生成与音频查询相关联的至少一个单词。

图2示出了根据本公开实施例的用于对音频查询进行解码的系统102的示意框图200。在实施例中，系统102可以被配置为对音频查询进行解码，以用于生成与音频查询相关联的至少一个单词。此外，系统102可以被配置为处理至少一个单词，以确定与音频查询相关的要执行的动作。在实施例中，系统102可以被配置为在识别一个或多个领域类别后对音频查询进行解码。在实施例中，系统102可以被配置为以单遍次ASR技术对音频查询进行解码，并且基于NLU技术来处理至少一个单词。在实施例中，系统102可以作为语音助理(VoiceAssistant，VA)来操作。在实施例中，系统102可以被合并到VA中。

系统102可以包括处理器202、存储器204、数据206、(多个)模块208、(多个)资源210、显示器212、ASR编码器214、通用语言模型216、转换引擎218、多个长短期记忆(LSTM)架构220、确定引擎222、识别引擎224、一个或多个领域特定语言模型226、ASR解码器228和NLU引擎230。在实施例中，处理器202、存储器204、数据206、(多个)模块208、(多个)资源210、显示器212、ASR编码器214、通用语言模型216、转换引擎218、多个LSTM架构220、确定引擎222、识别引擎224、一个或多个领域特定语言模型226、ASR解码器228和NLU引擎230可以可通信地彼此耦合。

系统102可以被理解为硬件、软件、基于逻辑的程序、可配置硬件等中的一个或多个。在示例中，处理器202可以是单个处理单元或多个单元，所有这些单元都可以包括多个计算单元。处理器202可以被实施为一个或多个微处理器、微计算机、微控制器、数字信号处理器、中央处理单元、处理器核、多核处理器、多处理器、状态机、逻辑电路、专用集成电路、现场可编程门阵列和/或基于操作指令操纵信号的任何设备。除了其他能力之外，处理器202还可以被配置为获取和/或执行存储在存储器204中的计算机可读指令和/或数据206。

在示例中，存储器204可以包括本领域已知的任何非暂时性计算机可读介质，包括例如：易失性存储器，诸如静态随机存取存储器(static random access memory，SRAM)和/或动态随机存取存储器(dynamic random access memory，DRAM)；和/或非易失性存储器，诸如只读存储器(read-only memory，ROM)、可擦除可编程ROM(erasable programmableROM，EPROM)、闪存、硬盘、光盘和/或磁带。存储器204可以包括数据206。

除此之外，数据206用作储存库，以用于存储由处理器202、存储器204、(多个)模块208、(多个)资源210、显示器212、ASR编码器214、通用语言模型216、转换引擎218、多个LSTM架构220、确定引擎222、识别引擎224、一个或多个领域特定语言模型226、ASR解码器228和NLU引擎230中的一个或多个处理、接收和生成的数据。

除此之外，(多个)模块208可以包括执行特定任务或实施数据类型的例程、程序、对象、组件、数据结构等。(多个)模块208也可以被实施为(多个)信号处理器、(多个)状态机、逻辑电路和/或基于操作指令操纵信号的任何其他设备或组件。

此外，(多个)模块208可以用硬件、由至少一个处理单元(例如，处理器202)执行的指令、或其组合来实施。处理单元可以是执行指令以使得通用处理器执行操作的通用处理器，或者处理单元可以专用于执行所需的功能。在本公开的另一方面，(多个)模块208可以是，该机器可读指令(软件)当由处理器/处理单元执行时，该机器可读指令可以执行任何所描述的功能。

在一些示例实施例中，(多个)模块208可以是机器可读指令(软件)，该机器可读指令(软件)当由处理器/处理单元执行时执行任何所描述的功能。

(多个)资源210可以是提供固有的能力和/或有助于系统102的性能的系统102的物理和/或虚拟组件。(多个)资源210的示例可以包括但不限于存储器(例如，存储器204)、电源单元(例如，电池)、显示器(显示器212)等。除了处理器202和存储器204之外，(多个)资源210还可以包括电源单元/电池单元、网络单元等。

显示器212可以在系统102上显示各种类型的信息(例如，媒体内容、多媒体数据、文本数据等)。显示器212可以包括但不限于液晶显示器(liquid crystal display，LCD)、发光二极管(light-emitting diode，LED)显示器、有机LED(organic LED，OLED)显示器、等离子体单元显示器、电子墨水阵列显示器、电子纸显示器、柔性LCD、柔性电致变色显示器和/或柔性电润湿显示器。

ASR编码器214可以被配置为从用户接收音频查询。响应于接收到音频查询，ASR编码器214可以被配置为从音频查询中提取与音频查询相关的一个或多个声学特征。一个或多个声学特征的示例包括但不限于音调、频率、振幅、波长。在实施例中，ASR编码器214可以被配置为通过基于梅尔频率倒谱系数(Mel Frequency Cepstral Coefficient，MFCC)技术来提取与音频查询相关的一个或多个声学特征。

在提取一个或多个声学特征之后，通用语言模型216可以被配置为确定与音频查询相关的通用单词。在实施例中，通用单词可以基于从音频查询中提取的一个或多个声学特征来确定。

转换引擎218可以被配置为将音频查询转换成一个或多个片段。在实施例中，音频查询可以被转换成一个或多个片段，以用于将音频查询表示为每个片段一个或多个数字。

多个LSTM架构220可以被配置为生成音频查询的数字表示。在实施例中，生成数字表示可以基于处理一个或多个片段。在实施例中，处理一个或多个片段可以包括组合一个或多个片段。基于组合一个或多个片段，多个LSTM架构220可以被配置为生成文本领域中的一个或多个高维度概要向量。在实施例中，一个或多个高维度概要向量可以被视为音频查询的数字表示。在实施例中，一个或多个高维度概要向量和一个或多个片段可以是与音频查询相关的一个或多个声学特征。在实施例中，多个LSTM 220可以被配置为应用于与一个或多个片段中的每个片段相关的数字表示。

在实施例中，在生成一个或多个高维度概要向量后，确定引擎222可以确定与音频查询相关的音频向量。在实施例中，确定引擎222可以被配置为从一个或多个高维度概要向量中确定音频向量。在实施例中，音频向量可以与一个或多个领域类别相关。

响应于由确定引擎222确定音频向量，识别引擎224可以识别与音频查询相关的一个或多个领域类别。在实施例中，识别一个或多个领域类别可以基于从与音频查询相关联的音频向量中提取相关信息。

在识别一个或多个领域类别后，识别引擎224可以被配置为选择一个或多个领域特定语言模型226以用于生成领域特定单词。在实施例中，可以基于由识别引擎224识别的一个或多个领域类别来选择一个领域特定语言模型。在实施例中，可以基于一个或多个领域特定语言模型中的每个领域特定语言模型属于一个或多个领域类别中的每个领域类别的概率来选择一个或多个领域特定语言模型226。

在被识别引擎224选择后，一个或多个领域特定语言模型226可以生成领域特定单词。在实施例中，领域特定单词可以基于由ASR编码器214提取的一个或多个声学特征来生成。

在生成域特定单词后，ASR解码器228可以对音频查询进行解码。在实施例中，ASR解码器228可以被配置为基于通用单词和领域特定单词和一个或多个声学特征对音频查询进行解码。在实施例中，对音频查询进行解码可以导致生成与音频查询相关的至少一个单词。

音频查询可以由ASR解码器228基于与ASR解码器228相关联的最后预测单词、通用单词和领域特定单词来解码。响应于接收到与ASR解码器228相关联的最后预测单词、通用单词和领域特定单词，ASR解码器228可以被配置为选择一个或多个高维度概要向量，一个或多个高维度概要向量包括最后预测单词之后的单词的音频向量。

ASR解码器228可以被配置为预测与音频查询相关联的至少一个单词。在实施例中，该至少一个单词可以基于最后预测单词、通用单词、领域特定单词以及与音频向量相关联的一个或多个高维度概要向量。在实施例中，该至少一个单词可以基于更高的概率值而在一个或多个单词当中选择。在实施例中，概率值可以基于与通用语言模型、领域特定语言模型和ASR解码器相关联的权重值。

响应于由ASR解码器228生成至少一个单词，NLU引擎230可以处理该至少一个单词。在实施例中，NLU引擎230可以被配置为处理该至少一个单词，以用于确定针对在ASR编码器214处接收的音频查询要执行的操作。

图3是示出根据本公开实施例的用于对音频查询进行解码的方法300的流程图。在实施例中，音频查询可以由如图1和图2所示的系统102解码。在实施例中，在对音频查询进行解码后，系统102可以执行操作以执行音频查询。在实施例中，执行音频查询可以基于处理从音频查询中解码的至少一个单词。在实施例中，处理至少一个单词可以基于NLU技术。此外，对音频查询进行解码以生成至少一个单词可以基于单遍次ASR技术。在实施例中，可以在如图2所示的ASR编码器214处从用户接收音频查询。

方法300可以包括从音频查询中提取与音频查询相关的一个或多个声学特征的操作302。在实施例中，系统102可以在接收到音频查询后提取一个或多个声学特征。在实施例中，一个或多个声学特征可以由ASR编码器214提取。

方法300可以包括确定与音频查询相关的通用单词的操作304。在实施例中，可以基于从音频查询中提取的一个或多个声学特征来确定通用单词。在实施例中，通用单词可以由如图2所示的通用语言模型216提取。

方法300可以包括将音频查询转换成一个或多个片段的操作306。在实施例中，音频查询可以被转换成一个或多个片段，以用于将音频查询表示为每个片段一个或多个数字。在实施例中，音频查询可以由如图2所示的转换引擎218转换成一个或多个片段。在实施例中，一个或多个片段中的每个片段可以是10ms。在示例性实施例中，音频查询可以被表示为每个片段40个数字。在实施例中，可以基于梅尔频率倒谱系数(MFCC)技术来执行转换。

方法300可以包括生成音频查询的数字表示的操作308。在实施例中，生成数字表示可以基于处理一个或多个片段。在实施例中，处理一个或多个片段可以包括组合一个或多个片段。在实施例中，数字表示可以由如图2所示的多个LSTM架构220生成。此外，该过程可以包括基于组合一个或多个片段来生成文本领域中的一个或多个高维度概要向量。

在实施例中，一个或多个高维度概要向量可以被视为音频查询的数字表示。在实施例中，多个LSTM 220可以是神经网络的一部分，使得数字表示的生成可以基于系统102所采用的神经网络。在实施例中，一个或多个高维度概要向量当中的每个高维度概要向量可以由2048个维度和与音频查询相关的一个或多个片段中的至少一个片段的文本概要组成。在实施例中，一个或多个高维度概要向量和一个或多个片段可以是与音频查询相关的一个或多个声学特征。在实施例中，多个LSTM 220可以被配置为应用于与一个或多个片段中的每个片段相关的数字表示。

在实施例中，方法300可以包括确定与音频查询相关的音频向量的操作310。在实施例中，音频向量可以由如图2所示的确定引擎222确定。在实施例中，音频向量可以从一个或多个高维度概要向量中确定。在实施例中，音频向量可以对应于一个或多个高维度概要向量的平均值，或者可以基于一个或多个高维度概要向量的平均值来获得，以便生成与音频查询相关的概要。在实施例中，音频向量可以与一个或多个领域类别相关。

方法300可以包括识别与音频查询相关的一个或多个领域类别的操作312。在实施例中，识别一个或多个领域类别可以基于从与音频查询相关联的音频向量中提取相关信息。在实施例中，一个或多个领域类别可以作为数据206被存储在存储器204中，如图2所示。在实施例中，一个或多个领域类别可以由如图2所示的识别引擎224确定。

方法300可以包括选择一个或多个领域特定语言模型226的操作314。在实施例中，可以从存储器204中选择一个或多个领域特定语言模型226以用于生成领域特定单词。在实施例中，可以基于由识别引擎224识别的一个或多个领域类别来选择一个领域特定语言模型226。在实施例中，可以基于一个或多个领域特定语言模型中的每个领域特定语言模型与一个或多个领域类别中的每个领域类别相关的概率来选择一个或多个领域特定语言模型226。在实施例中，一个或多个领域特定模型可以由识别引擎224选择。

方法300可以包括生成与音频查询相关的领域特定单词的操作316。在实施例中，领域特定单词可以基于由ASR编码器214从音频查询中提取的一个或多个声学特征来生成。在实施例中，领域特定单词可以由一个或多个领域特定语言模型226生成。

方法300可以包括对音频查询进行解码的操作318。在实施例中，音频查询可以由如图2所示的ASR解码器228解码。在实施例中，音频查询可以由ASR解码器228基于通用单词、领域特定单词和一个或多个声学特征来解码。在实施例中，对音频查询进行解码可以导致生成与音频查询相关的至少一个单词。音频查询可以由ASR解码器228基于与ASR解码器228相关联的最后预测单词、通用单词和领域特定单词来解码。

方法300可以包括选择一个或多个高维度概要向量的操作320，一个或多个高维度概要向量包括最后预测单词之后的单词的音频向量。在实施例中，一个或多个高维度概要向量可以由ASR解码器228选择。在实施例中，可以基于由ASR解码器228确定一个或多个高维度概要向量包括与最后预测单词之后的单词相关联的概要，来选择一个或多个高维度概要向量。

方法300可以包括预测与音频查询相关联的至少一个单词的操作322。在实施例中，预测可以由ASR解码器228执行。在实施例中，至少一个单词可以基于最后预测单词、通用单词、领域特定单词和与音频向量相关联的一个或多个高维度概要向量来获取。

在实施例中，至少一个单词可以在一个或多个单词当中基于更高的概率值来选择。在实施例中，概率值可以基于与通用语言模型、领域特定语言模型和ASR解码器228相关联的权重值。在实施例中，由ASR解码器228预测至少一个单词可以基于深度学习技术。在实施例中，至少一个单词可以基于递归神经网络(Recurrent Neural Network，RNN)技术来预测，使得ASR解码器228可以基于RNN。

方法300可以包括处理至少一个单词的操作324。在实施例中，至少一个单词可以由如图2所示的NLU引擎230处理。在实施例中，NLU引擎230可以确定针对在ASR编码器214处接收的音频查询要执行的操作。

图4示出了描绘根据本公开实施例的用于融合语言模型与ASR解码器214的过程的操作流程图400。在实施例中，语言模型可以包括通用语言模型216和一个或多个领域特定语言模型226。在实施例中，通用语言模型216和一个或多个领域特定语言模型226和ASR解码器228的融合可以导致基于由ASR编码器214接收的音频查询来生成至少一个单词。

在实施例中，ASR解码器228可以被配置为选择一个或多个高维度概要向量。在实施例中，可以基于由ASR解码器228确定一个或多个高维度概要向量包括与最后预测单词之后的单词相关联的概要，来选择一个或多个高维度概要向量。在实施例中，ASR解码器228可以被配置为获取用于生成至少一个单词的最后预测单词。此外，可以从通用语言模型216和一个或多个领域特定语言模型226接收通用单词和领域特定单词。

继续前进，融合可以包括基于更高的概率值从一个或多个单词中确定至少一个单词。在实施例中，概率值可以基于与通用语言模型216、领域特定语言模型226和ASR解码器228相关联的权重值。在实施例中，由识别引擎224识别的音频查询的一个或多个领域类别可以用于选择要用于融合的一个或多个领域特定语言模型226。

在实施例中，至少一个单词可以由ASR解码器228基于深度学习技术来预测。在实施例中，至少一个单词可以基于递归神经网络(RNN)技术来预测，使得ASR解码器228可以基于RNN。

图5示出了描绘根据本公开实施例的用于根据一个或多个声学特征对音频查询进行解码的过程的操作流程图500。在实施例中，解码可以由如图2所示的系统102执行。在实施例中，ASR编码器214可以包括堆叠LSTM架构、金字塔LSTM(pyramidal LSTM，pLSTM)架构、双LSTM架构和嵌入层。此外，识别引擎224可以包括注意力层，注意力层之后是正向馈送网络(Feed Forward Network，FFN)和用于领域分类的softmax。

在实施例中，FFN可以在固定大小的潜在空间中提供概要向量的非线性投影。在实施例中，概率分布的argmax可以是音频查询的预测类别。

此外，softmax可以被配置为计算音频查询属于一个或多个领域类别中的每个领域类别的概率P(d)。在实施例中，FFN可以从与音频查询相关联的上下文向量中提取相关信息。继续前进，注意力层可以被配置为计算一个或多个高维度概要向量的加权和，以获取音频查询的概要。

P(d)＝Softmax(ff)

FF(c)＝ff＝ReLu(W_fc+b_f)

e_i＝V^Ttanh(W_eh_i+b_e

在实施例中，P(d)可以指softmax函数。softmax函数可以返回每个类别的概率。FF(c)可以指正向馈送层。这个层可以帮助学习数据中的非线性关系。V^T、W_e、b_e可以指为对准模型而学习的权重矩阵。

在实施例中，α_i可以将注意力权重归一化在0和1之间。e_i可以计算编码器输出h_i的贡献。在实施例中，h_i可以是包含关于音频查询的几个时间步骤的信息的编码器隐藏状态。

图6示出了描绘根据本公开实施例的利用领域识别的单遍次ASR解码的用例图600。

在步骤602，从用户接收命令“嗨，播放平克·弗洛伊德”。在实施例中，与命令相关联的音频特征可以通过编码器网络传递。

此外，在步骤604，注意力计算隐藏状态的加权和，以获得完整输入音频的概要向量。概要向量是基于权重的编码器的隐藏状态的加权和。在示例性实施例中，与其他隐藏状态相比，与“播放”、“平克”和“弗洛伊德”相对应的隐藏状态可能更突出。每个编码器隐藏状态h_i包含关于音频的几个时间步骤的信息。在概要向量的计算中，携带更多的用于领域识别的信息的隐藏状态被赋予更大的权重。在示例性实施例中，与“播放”、“平克”和“弗洛伊德”相关联的“h_i”可以包括分数0.25、0.15和0.20。

在步骤606，为了更好的推广，FFN在固定大小的潜在空间中提供概要向量的非线性投影。非线性投影可以由softmax层用来计算多个领域的概率分数。

图7A示出了描绘根据本公开实施例的根据编码器特征进行领域分类的过程的用例图700a。在实施例中，该过程可以包括与初始训练阶段相关的正向传递和与训练后阶段相关的后向传递。在实施例中，在正向传递中，输入数据在正向方向上被馈送(步骤702a)到网络，并且通过比较网络输出值和预期输出值来计算损失。在实施例中，可以通过在每个正向传递之后比较模型预测值和预期值来计算损失(例如，交叉熵损失)。在实施例中，网络可以是FFN。在示例性实施例中，在初始训练步骤中，网络可能错误地将最高领域分数分配给天气，而正确的预期领域是音乐。

在实施例中，训练数据可以包括每个领域的多个话语。在示例性实施例中，音乐领域可以包括诸如代有一个或多个歌曲名称和专辑名称的“播放{歌曲}{专辑}”的话语。在训练阶段期间，网络可以学习为关键词的音频时间步骤分配更多的权重。此外，概要向量可以充当关键字的代表，而不是同等地代表所有音频部分。

在实施例中，参数V和W_e可以通过训练过程以及与正向馈送层相关的参数来学习。

e_i＝V^Ttanh(W_eh_i+b_e)

将能量项归一化以从每个编码器输出h_i获得分数/贡献α_i。

e_i是与每个编码器输出h_i相关联的能量项，所计算的e_i值取决于在某个训练阶段的参数V和W_e的值。α_i值可以直接取决于e_i值，并且间接取决于在特定训练阶段的V和W_e值。

在训练开始时，包括V和W_e的模型参数可以被随机初始化。该模型可以被配置为基于初始训练阶段中随机分配的值来确定正向传递预测。

在后向传递中，可以基于在步骤702a计算的损失来更新(步骤704a)模型参数。在多次训练步骤之后，网络可以学习以更高的准确度来预测领域。在后向传递中，每个模型参数(诸如“w”)可以基于以下等式来更新：

w_new＝w_old-lr(δ(J(w)))

J(w)＝Loss。

δ(J(w))＝(δL/δw)：损失相对于参数w的导数。

lr：学习率参数。

在每次后向传递中，可以基于梯度的符号和值来调整“w”。

图7B示出了描绘根据本公开实施例的模型参数的值的图形表示700。在实施例中，在模型训练的收敛后，模型参数可以处于最优值，以最小化总体损失。在实施例中，模型可以是一个或多个领域特定语言模型。

图8示出了描绘根据本公开实施例的用于在嘈杂环境中对一个或多个领域特定语言模型进行分类的过程的用例图800。在实施例中，一个或多个领域特定语言模型可以由如图1所示的系统102分类。在实施例中，在接收到音频查询后，音频查询中的一个或多个语音特性和一个或多个环境声音可以用于基于单遍次解码来识别一个或多个领域特定语言模型。在实施例中，音频查询可以是“嗨，预订优步”。

在实施例中，可以基于编码器输出和一个或多个领域类别来接收最终输出。在实施例中，编码器输出可以由如图2所示的ASR编码器214生成。

图9示出了描绘根据本公开实施例的单遍次解码中用户的一个或多个口音的鲁棒性的用例图900。在实施例中，直接从编码器输出中为在多口音数据上训练的模型识别一个或多个领域特定语言模型可以不包括在从用户接收的音频查询的解码阶段期间引入的一个或多个错误。在实施例中，可以基于编码器输出和一个或多个领域类别来接收最终输出。在实施例中，编码器输出可以由如图2所示的ASR编码器214生成。在实施例中，音频查询可以是“嗨，请播放平克·弗洛伊德？”。

在实施例中，除了剩余的编码器输出之外，从音频查询中识别的一个或多个领域特定语言模型可以向与缺失的音频块和弱音频块中的一个或多个块相对应的编码器输出分配权重。

图10示出了描绘根据本公开实施例的用于消除音频查询中的噪声的过程的用例图1000。在实施例中，编码器输出由如图2所示的ASR记录器214根据音频查询生成。此外，可以通过与噪声相关联的领域类别来识别噪声。在实施例中，在确定噪声未被识别的情况下，一个或多个领域特定语言模型可以被确定来生成最终输出。在实施例中，在确定噪声被识别的情况下，一个或多个领域特定语言模型可以不被确定来生成最终输出。

图11示出了描绘根据本公开实施例的通过使用两个领域类别(例如，第一类别指示噪声水平，并且第二类别指示娱乐内容范畴)进行环境分析的用例图1100。在实施例中，编码器输出由如图2所示的ASR记录器214根据音频查询生成。此外，基于编码器输出，可以识别两个领域类别，以进一步分析与发出音频查询的用户相关联的环境。

图12示出了描绘根据本公开实施例的在单遍次中利用领域语言模型的准确度提高的用例图1200。在实施例中，编码器输出由如图2所示的ASR记录器214根据音频查询生成。在实施例中，第一遍次中领域语言模型的存在可以防止通用语言模型将假设偏向不可恢复的形式。领域语言模型可以包括与音乐领域相对应的第一领域语言模型、与IoT领域相对应的第二领域语言模型和与兴趣点(point of interes，PoI)领域相对应的第三领域语言模型。

此外，在实施例中，领域检测可以不取决于中间文本假设。训练中的增强方法可以增加对嘈杂场景的鲁棒性。

图13是示出用于描绘根据本公开实施例的对音频查询进行解码的方法1300的流程图。图6所示的方法600可以由系统102使用其组件来实施，如上所述。在实施例中，图13所示的方法1300可以由ASR编码器214、通用语言模型216、转换引擎218、多个LSTM架构220、确定引擎222、识别引擎224、一个或多个领域特定语言模型226、ASR解码器228和NLU引擎230来执行。此外，为了简洁起见，在图1至图12的描述中详细解释的本公开的细节在图13的描述中没有详细解释。

根据本公开的实施例，方法1300包括由自动语音识别(ASR)编码器响应于接收到音频查询而提取与音频查询相关联的一个或多个声学特征的操作1302。

方法1300可以包括由通用语言模型基于一个或多个声学特征来确定通用单词的操作1304。

此外，方法1300包括由一个或多个领域特定语言模型基于一个或多个声学特征来确定领域特定单词的操作1306，其中，在识别与一个或多个领域特定语言模型相关联的一个或多个领域类别后选择一个或多个领域特定语言模型。

此外，方法1300包括由ASR解码器基于通用单词、领域特定单词和一个或多个声学特征对音频查询进行解码以导致生成与音频查询相关联的至少一个单词的操作1308。

虽然不限于此，但是示例实施例可以体现为计算机可读记录介质上的计算机可读代码。计算机可读记录介质是能够存储数据的任何数据存储设备，该数据然后能够被计算机系统读取。计算机可读记录介质的示例包括只读存储器(ROM)、随机存取存储器(random-access memory，RAM)、CD-ROM、磁带、软盘和光学数据存储设备。计算机可读记录介质也可以分布在网络耦合的计算机系统上，使得以分布式方式存储和执行计算机可读代码。此外，示例实施例可以被写为计算机程序，该程序通过诸如载波的计算机可读传输介质而发送，并且在执行该程序的通用或专用数字计算机中被接收和实施。此外，应该理解，在示例实施例中，如上所述的装置和设备的一个或多个单元可以包括电路、处理器、微处理器等，并且可以执行存储在计算机可读介质中的计算机程序。

前述示例性实施例仅仅是示例性的，而不应被解释为限制性的。本教导可以容易地应用于其他类型的装置。此外，示例性实施例的描述旨在说明，而不是限制权利要求的范围，并且许多替换、修改和变化对于本领域技术人员来说是显而易见的。

Claims

1.一种用于对音频查询进行解码的方法，所述方法包括：

响应于从用户接收音频查询，从所述音频查询中提取一个或多个声学特征；

基于所述一个或多个声学特征，确定通用单词和领域特定单词；以及

基于所述通用单词、所述领域特定单词和所述一个或多个声学特征对所述音频查询进行解码，以识别与所述音频查询相关联的至少一个单词。

2.根据权利要求1所述的方法，还包括：

处理所述至少一个单词以执行与所述音频查询相关联的操作。

3.根据权利要求1所述的方法，还包括：

将所述音频查询转换成一个或多个片段，以将所述音频查询表示为每个片段一个或多个数字；

通过组合所述一个或多个片段来生成文本领域中的一个或多个概要向量，其中，所述一个或多个概要向量是所述音频查询的数字表示；

从所述一个或多个概要向量中确定与所述音频查询相关联的音频向量；以及

基于与所述音频查询相关联的音频向量，识别与所述音频查询相关联的一个或多个领域类别。

4.根据权利要求1所述的方法，其中，所述通用单词和所述领域特定单词被并行地确定。

5.根据权利要求1所述的方法，其中，对所述音频查询进行解码包括：

接收与自动语音识别ASR解码器相关联的最后预测单词、所述通用单词和所述领域特定单词；

选择一个或多个概要向量，所述一个或多个概要向量包括所述最后预测单词之后的单词的音频向量；以及

基于所述最后预测单词、所述通用单词、所述领域特定单词和与所述音频向量相关联的一个或多个概要向量，预测与所述音频查询相关联的至少一个单词。

6.根据权利要求1所述的方法，还包括：

从多个单词中识别具有高于其他单词的概率值的概率值的至少一个单词，其中，所述概率值基于与通用语言模型、领域特定语言模型和执行所述音频查询的解码的自动语音识别ASR解码器相关联的权重值被确定。

7.根据权利要求1所述的方法，还包括：

基于所述一个或多个领域特定语言模型中的每个领域特定语言模型与所述一个或多个领域类别中的每个领域类别相关的概率来选择一个或多个领域特定语言模型，

其中，确定所述领域特定单词包括：

使用所选择的一个或多个领域特定语言模型来确定所述领域特定单词。

8.一种用于对音频查询进行解码的电子设备，所述电子设备包括：

存储器，其存储一个或多个指令；以及

至少一个处理器，被配置为执行所述一个或多个指令以：

响应于从用户接收所述音频查询，从所述音频查询中提取一个或多个声学特征；

9.根据权利要求8所述的电子设备，其中，所述至少一个处理器还被配置为执行所述一个或多个指令以：

10.根据权利要求8所述的电子设备，其中，所述至少一个处理器还被配置为执行所述一个或多个指令以：

通过经由多个长短期记忆LSTM架构组合所述一个或多个片段来生成文本领域中的一个或多个概要向量，其中，所述一个或多个概要向量是所述音频查询的数字表示；

11.根据权利要求8所述的电子设备，其中，所述至少一个处理器还被配置为执行所述一个或多个指令以：

并行地确定所述通用单词和所述领域特定单词。

12.根据权利要求8所述的电子设备，其中，所述至少一个处理器还被配置为执行所述一个或多个指令以：

13.根据权利要求8所述的电子设备，其中，所述至少一个处理器还被配置为执行所述一个或多个指令以：

从多个单词中识别具有高于其他单词的概率值的概率值的至少一个单词，其中，所述概率值基于与通用语言模型、领域特定语言模型和自动语音识别ASR解码器相关联的权重值确定。

14.根据权利要求8所述的电子设备，其中，所述至少一个处理器还被配置为执行所述一个或多个指令以：

基于一个或多个领域特定语言模型中的每个领域特定语言模型与一个或多个领域类别中的每个领域类别相关的概率，选择所述一个或多个领域特定语言模型；以及

15.一种存储程序的非暂时性计算机可读存储介质，所述程序可由至少一个处理器执行以执行用于对音频查询进行解码的方法，所述方法包括：