CN116416993A

CN116416993A - 一种语音识别的方法和装置

Info

Publication number: CN116416993A
Application number: CN202111659241.3A
Authority: CN
Inventors: 姚淅峰; 陈开济
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2021-12-30
Filing date: 2021-12-30
Publication date: 2023-07-11
Also published as: WO2023124849A1

Abstract

本申请实施例提供了一种语音识别的方法和装置，该语音识别的方法包括：获取第一语音文本；获取与第一语音文本匹配的模态信息；结合第一语音文本和该模态信息进行多模态语义理解，输出意图和槽位。本申请提供的语音识别的方法，可以准确识别用户的意图，有助于提升人机交互的效率，提升用户体验。

Description

一种语音识别的方法和装置

技术领域

本申请实施例涉及电子设备领域，更具体地，涉及一种语音识别的方法和装置。

背景技术

人机交互应用目前广泛应用于手机、平板电脑、智能音箱等等电子设备中，为用户提供了智能化的人机交互方式。在人机交互的过程中，电子设备需要准确识别出用户的意图，进而为用户提供智能化的服务。但是由于自然语言的复杂性，电子设备可能错误理解用户想要表达的语义，导致人机对话效率降低，影响用户体验。

发明内容

本申请实施例提供一种语音识别的方法，可以结合语音文本和多模态信息准确地理解用户的意图。

第一方面，提供了一种语音识别的方法，包括：获取第一语音文本；根据所述第一语音文本，获取与所述第一语音文本匹配的第一模态信息，所述第一模态信息所指示的模态为多个预设模态中的第一模态；根据所述第一语音文本和所述第一模态信息，确定当所述第一语音文本匹配所述第一模态时所述第一语音文本所指示的第一意图和第一槽位。

当第一语音文本匹配所述第一模态时，该第一语音文本指示第一意图。当第一语音文本指示第一意图时，该第一语音文本匹配所述第一模态。

在本申请中，与语音文本匹配的第一模态信息为多个预设模态中的一个或多个模态的模态信息。模态信息包括模态数据，或者对模态数据进行编码处理得到的模态特征编码。

根据该方案，可以结合语音文本以及与语音文本匹配的模态信息进行多模态语义理解，可以准确地理解用户的意图，提搞人机对话效率，提升用户体验。

结合第一方面，在一种可能的实现方式中，所述根据所述第一语音文本，获取与所述第一语音文本匹配的第一模态信息，包括：根据所述第一语音文本，获取多模态选取向量，所述多模态选取向量指示所述第一语音文本与所述多个预设模态中每个模态的相关的概率；根据所述多模态选取向量，获取所述第一模态信息。

在本申请实施例中，可以根据语音文本与每个预设模态相关的概率获取与语音文本匹配的模态信息。这样，在后续的多模态语义理解时，能够结合该模态信息理解语音文本所指示的意图，提高语义理解的准确性，提高人机对话效率，提升用户体验。

结合第一方面，在一种可能的实现方式中，根据第一语音文本，获取多模态选取向量，包括：确定所述第一语音文本所属的第一语境类别；根据所述第一语境类别，获取多模态选取向量，所述多模态选取向量用于指示所述第一语境类别与所述多个预设模态中每个模态的相关的概率。

在本申请实施例中，可以预设多个语境类别，多个内容不同的语音文本可以属于同一语境类别，属于同一语境类别的语音文本在语义上相似。示例性的，“今天温度太高了”和“太热了”都可以表示热的语义，如果不考虑其他因素，二者都可以属于热的语境类别。

根据该方案，划分语音文本的语境类别，再根据语音文本所属的语境类别获取多模态选取向量，进而可以获取与语音文本匹配的模态信息。这样，当确定与语音文本匹配的模态信息时，只需要确定语音文本所属的语境类别，即可以选取与语音文本相关的模态，进而获取与语音文本匹配的模态信息。从而可以减少获取与语音文本匹配的模态信息所花费的时间，提高人机对话效率。

结合第一方面，在一种可能的实现方式中，据所述第一语境类别，获取多模态选取向量，包括：根据所述第一语境类别和第一映射矩阵，获取所述多模态选取向量，所述第一映射矩阵指示多个语境类别和多个多模态选取向量，每个所述多模态选取向量指示一个或多个模态，所述多个语境类别和所述多个多模态选取向量一一对应。

该第一映射矩阵可以是预设的。在该第一映射矩阵中，可以预设多个语境类别和多个多模态选取向量，每个的预设语境类对应一个多模态选取向量，该多模态选取向量指示多个预设模态中的一个或多个模态。也就是说，在该第一映射矩阵中，建立语境类别和多模态选取向量之间的映射关系，或者建立语境类别和预设模态之间的映射关系。

这样，当确定第一语音文本所属的语境类别后，根据该第一映射矩阵即能够获取该语音文本所属的语境类别对应的多模态选取向量或模态，进而获取与语音文本匹配的模态信息。减少获取与语音文本匹配的模态信息所花费的时间，提高人机交互效率。

可选地，根据该第一语境类别和第一映射矩阵，获取与该语音文本匹配的模态信息。

应理解，第一映射矩阵中可以包括多个预设模态的模态信息。例如，获取到每个预设模态的模态信息后将其存储在第一映射矩阵中。

这样，当确定语音文本所属的语境类别后，可以从第一映射矩阵中获取与语音文本匹配的模态信息。提高获取与语音文本匹配的模态信息的效率，减少语音识别所花费的时间。

结合第一方面，在一种可能的实现方式中，所述方法还包括：获取所述多个预设模态的模态信息。

这样，提前获取每个预设模态的模态信息，避免在人机交互过程中获取模态信息，可以提高人机交互效率，提升用户体验。

可选地，在确定多模态选取向量或者与语音文本相关的模态后，仅获取该相关的模态的模态信息。

这样，可以在人机交互过程中，针对性的获取与语音文本匹配的模态信息，节省资源和电量。

可选地，周期性地获取多个预设模态中每个预设模态的模态信息。

根据该方案，可以保证在人机交互过程中的模态信息为最新的模态信息，从而有助于提升理解语音文本所指示的意图的准确性，提高人机交互效率，提升用户体验。

结合第一方面，在一种可能的实现方式中，所述方法还包括：根据所述多模态选取向量和所述多个预设模态的模态信息，获取所述第一模态信息。

这样，根据提前获取的多个预设模态的模态信息以及多模态选取向量，可以从该多个预设模态的模态信息中集中获取与语音文本匹配的模态信息，避免在人机交互过程中通过分散的传感器等方式获取模态信息，可以提高人机交互效率，提升用户体验。

结合第一方面，在一种可能的实现方式中，所述确定第一语音文本所属的第一语境类别，包括：根据所述第一语音文本和/或所述第一语音文本的上下文信息，确定所述第一语音文本所属的第一语境类别。

当结合上下文信息确定第一语音文本所属的语境类别时，有助于确定语音文本真实的语境类别。当语音文本不能明确指示当前的语境类别，而上下文信息可以指示当前的语境类别时，可以有助于确定语音文本的语境类别。进而选取正确的模态信息进行多模态语义理解，确定该语音文本指示的意图，减少语义识别错误，减少人机交互的频次，提高人机交互效率，提升用户体验。

结合第一方面，在一种可能的实现方式中，所述根据所述第一语音文本和/或所述第一语音文本的上下文信息，确定所述第一语音文本所属的第一语境类别，包括：获取所述第一语音文本和/或所述第一语音文本的上下文信息的文本特征编码；根据所述文本特征编码和第一分类层，确定第一语音文本所属的第一语境类别，所述第一分类层用于将所述第一语音文本映射到多个预设语境类别中的一个语境类别。

这样，结合第一语音文本和/或上下文信息可以更准确的确定第一语音文本所属的语境类别，进而获取正确的模态信息进行多模态语义理解，确定用户的意图。减少人机交互的频次，提高人机交互效率，提升用户体验。

结合第一方面，在一种可能的实现方式中，所述第一模态信息包括第一模态特征编码，所述根据所述第一语音文本和所述第一模态信息，确定当所述第一语音文本匹配所述第一模态信息时所述第一语音文本所指示的第一意图和第一槽位，包括：根据所述文本特征编码、所述第一模态特征编码和第二分类层，确定在所述第一模态下的第一语音文本所指示的第一意图和所述第一槽位，所述第二分类层用于将所述第一语音文本映射到多个预设意图中的一个意图。

这样，结合语音文本的文本特征编码、与语音文本匹配的模态信息可以准确地确定语音文本所指示的意图。减少人机交互的频次，提高人机交互效率，提升用户体验。

结合第一方面，在一种可能的实现方式中，所述方法还包括：执行与所述第一意图相关的操作。

在本申请中,在确定用户的意图之后,可以执行与所述意图相关的操作。例如，用户的意图为“开启自适应巡航”，则执行与开启自适应巡航相关的操作，包括询问并获取用户的车速设定、跟车距离设定以填充“开启自适应巡航”对应的槽位，或者以当前车速和默认的跟车距离直接开启自适应巡航。这样，可以为用户提供智能化的服务，满足用户的需求，提升用户体验。

结合第一方面，在一种可能的实现方式中，所述根据所述第一语音文本，获取多模态选取向量，包括：根据所述第一语音文本和第三分类层，获取所述多模态选取向量，所述第三分类层用于确定所述第一语音文本与多个预设模态中每个模态的相关的概率。

在本申请中，通过训练第三分类层学习与语音文本匹配的模态，当输入新的语音文本时，能够根据该语音文本的内容或特征，自动的建立语音文本与模态之间的映射关系，确定该语音文本与每个预设模态相关的概率，使用多模态选取向量表示该概率。这样，可以在非常大的数据集上提供准确的分析，并且减少由人带来的影响。并且可以不用预设映射矩阵，减少获取与语音文本匹配的模态信息的步骤，提高人机交互效率。

可选地，通过大量带有一个或多个模态标签的语音文本训练第三分类层学习与语音文本匹配的模态。

可选地，根据所述第一语音文本、第一语音文本的上下文信息和第三分类层，获取所述多模态选取向量，所述第三分类层用于确定所述第一语音文本与多个预设模态中每个模态的相关的概率。

这样，第三分类层可以根据语音文本和上下文信息的全部特征准确地选取与语音文本相关的模态，获取与语音文本匹配的模态信息，并结合该模态信息、上下文信息理解该语音文本所指示的意图，可以提高语义理解的准确性，提高人机对话效率，提升用户体验。

结合第一方面，在一种可能的实现方式中，所述方法还包括：获取第二语音文本，所述第二语音文本与所述第一语音文本的内容相同；获取与所述第二语音文本匹配的第二模态信息，所述第二模态信息所指示的模态为多个预设模态中的第二模态，所述第二模态和所述第一模态不同；根据所述第二语音文本和所述第二模态信息，确定当所述第二语音文本匹配所述第二模态信息时所述第二语音文本所指示的第二意图和第二槽位，所述第二意图和所述第一意图不同，和/或所述第二槽位和所述第一槽位不同。

第二方面，提供了一种语音识别的装置，包括：

获取单元，用于获取第一语音文本；

处理单元，用于：根据所述第一语音文本，获取与所述第一语音文本匹配的第一模态信息，所述第一模态信息所指示的模态为多个预设模态中的第一模态；根据所述第一语音文本和所述第一模态信息，确定当所述第一语音文本匹配所述第一模态时所述第一语音文本所指示的第一意图和第一槽位。

本申请实施例提供的语音识别装置，可以结合语音文本以及与语音文本匹配的模态信息，进行多模态语义理解，进而准确地确定语音文本所指示的意图，有利于提升人机交互效率和用户体验。

结合第二方面，在一种可能的实现方式中，所述处理单元具体用于，根据所述第一语音文本，获取多模态选取向量，所述多模态选取向量指示所述第一语音文本与所述多个预设模态中每个模态相关的概率；根据所述多模态选取向量，获取所述第一模态信息。

结合第二方面，在一种可能的实现方式中，所述处理单元具体用于，确定所述第一语音文本所属的第一语境类别；根据所述第一语境类别，获取多模态选取向量，所述多模态选取向量用于指示所述第一语境类别与所述多个预设模态中每个模态的相关的概率。

结合第二方面，在一种可能的实现方式中，所述处理单元具体用于，根据所述第一语境类别和第一映射矩阵，获取所述多模态选取向量，所述第一映射矩阵指示多个语境类别和多个多模态选取向量，每个所述多模态选取向量指示一个或多个模态，所述多个语境类别和所述多个多模态选取向量一一对应。

结合第二方面，在一种可能的实现方式中，所述处理单元具体用于，根据所述第一语境类别和第一映射矩阵，获取所述多模态选取向量，所述第一映射矩阵指示多个语境类别和多个多模态选取向量，每个所述多模态选取向量指示一个或多个模态，所述多个语境类别和所述多个多模态选取向量一一对应。结合第二方面，在一种可能的实现方式中，所述处理单元还用于获取所述多个预设模态的模态信息。

结合第二方面，在一种可能的实现方式中，所述处理单元具体用于，根据所述多模态选取向量和所述多个预设模态的模态信息，获取所述第一模态信息。

结合第二方面，在一种可能的实现方式中，所述处理单元具体用于，根据所述第一语音文本和/或所述第一语音文本的上下文信息，确定所述第一语音文本所属的第一语境类别。

结合第二方面，在一种可能的实现方式中，所述处理单元具体用于，获取所述第一语音文本和/或所述第一语音文本的上下文信息的文本特征编码；根据所述文本特征编码和第一分类层，确定第一语音文本所属的第一语境类别，所述第一分类层用于将所述第一语音文本映射到多个预设语境类别中的一个语境类别。

结合第二方面，在一种可能的实现方式中，所述处理单元具体用于，根据所述文本特征编码、所述第一模态特征编码和第二分类层，确定在所述第一模态下的第一语音文本所指示的第一意图和所述第一槽位，所述第二分类层用于将所述第一语音文本映射到多个预设意图中的一个意图。

结合第二方面，在一种可能的实现方式中，所述处理单元还用于执行与所述第一意图相关的操作。

结合第二方面，在一种可能的实现方式中，所述处理单元还用于，根据所述第一语音文本和第三分类层，获取所述多模态选取向量，所述第三分类层用于确定所述第一语音文本与多个预设模态中每个模态的相关的概率。

结合第二方面，在一种可能的实现方式中，所述处理单元还用于，获取第二语音文本，所述第二语音文本与所述第一语音文本的内容相同；获取与所述第二语音文本匹配的第二模态信息，所述第二模态信息所指示的模态为多个预设模态中的第二模态，所述第二模态和所述第一模态不同；根据所述第二语音文本和所述第二模态信息，确定当所述第二语音文本匹配所述第二模态信息时所述第二语音文本所指示的第二意图和第二槽位，所述第二意图和所述第一意图不同，和/或所述第二槽位和所述第一槽位不同。

第三方面，提供了一种语音识别装置，包括：存储器，用于存储计算机程序；处理器，用于执行所述存储器中存储的计算机程序，以使得所述装置执行上述第一方面中任意一种可能的实现方式中的语音识别方法。

结合第三方面，在一种可能的实现方式中，所述语音识别装置为电子设备。

第四方面，提供了一种计算机可读存储介质，其特征在于，存储有计算机可执行指令，当所述计算机可执行指令在计算机上运行时，使得所述计算机执行第一方面中任意一种可能的实现方式中语音识别的方法。

第五方面，提供了一种计算机程序产品，所述计算机程序产品包括：计算机程序代码，当所述计算机程序代码在计算机上运行时，使得计算机执行上述第一方面中任一种可能实现方式中的语音识别的方法。

第六方面，提供一种芯片系统，包括至少一个处理器，当程序指令在所述至少一个处理器中执行时，使得所述至少一个处理器执行上述第一方面中任一种可能实现方式中的语音识别的方法。

附图说明

图1是是本申请实施例提供的一种电子设备的硬件结构示意图。

图2是本申请实施例提供的一种电子设备的软件结构示意图。

图3是本申请实施例提供的一种人机交互流程的示意性流程图

图4是本申请实施例提供的一种语音识别的方法的示意图。

图5是本申请实施例提供的另一种语音识别的方法的示意图。

图6是本申请实施例提供的一种语音识别的方法的示意性流程图。

图7是本申请实施例提供的另一种语音识别的方法的示意性流程图。

图8是本申请实施例提供的语音识别装置的示意性框图。

图9是本申请实施例提供的语音识别装置的硬件结构示意图。

具体实施方式

以下实施例中所使用的术语只是为了描述特定实施例的目的，而并非旨在作为对本申请的限制。如在本申请的说明书和所附权利要求书中所使用的那样，单数表达形式“一个”、“一种”、“所述”、“上述”、“该”和“这一”旨在也包括例如“一个或多个”这种表达形式，除非其上下文中明确地有相反指示。还应当理解，在本申请以下各实施例中，“至少一个”、“一个或多个”是指一个、两个或两个以上。术语“和/或”，用于描述关联对象的关联关系，表示可以存在三种关系；例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B的情况，其中A、B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。

在本说明书中描述的参考“一个实施例”或“一些实施例”等意味着在本申请的一个或多个实施例中包括结合该实施例描述的特定特征、结构或特点。由此，在本说明书中的不同之处出现的语句“在一个实施例中”、“在一些实施例中”、“在其他一些实施例中”、“在另外一些实施例中”等不是必然都参考相同的实施例，而是意味着“一个或多个但不是所有的实施例”，除非是以其他方式另外特别强调。术语“包括”、“包含”、“具有”及它们的变形都意味着“包括但不限于”，除非是以其他方式另外特别强调。

以下介绍电子设备、用于这样的电子设备的用户界面、和用于使用这样的电子设备的实施例。在一些实施例中，电子设备可以是还包含其它功能诸如个人数字助理和/或音乐播放器功能的便携式电子设备，诸如手机、平板电脑、具备无线通讯功能的可穿戴电子设备(如智能手表)等。便携式电子设备的示例性实施例包括但不限于搭载

或者其它操作系统的便携式电子设备。上述便携式电子设备也可以是其它便携式电子设备，诸如膝上型计算机(Laptop)等。还应当理解的是，在其他一些实施例中，上述电子设备也可以不是便携式电子设备，而是台式计算机。

示例性的，图1示出了电子设备100的结构示意图。电子设备100可以包括处理器110、外部存储器接口120、内部存储器121、通用串行总线(universal serial bus，USB)接口130、充电管理模块140、电源管理模块141、电池142、天线1、天线2、移动通信模块150、无线通信模块160、音频模块170、扬声器170A、受话器170B、麦克风170C、耳机接口170D、传感器模块180、指南针190、马达191、指示器192、摄像头193、显示屏194以及用户标识模块(subscriber identification module，SIM)卡接口195等。

可以理解的是，本申请实施例示意的结构并不构成对电子设备100的具体限定。在本申请另一些实施例中，电子设备100可以包括比图示更多或更少的部件，或者组合某些部件，或者拆分某些部件，或者不同的部件布置。图示的部件可以以硬件，软件或软件和硬件的组合实现。

处理器110可以包括一个或多个处理单元，例如：处理器110可以包括应用处理器(application processor，AP)，调制解调处理器，图形处理器(graphics processingunit，GPU)，图像信号处理器(image signal processor，ISP)，控制器，视频编解码器，数字信号处理器(digital signal processor，DSP)，基带处理器，和/或神经网络处理器(neural-network processing unit，NPU)等。其中，不同的处理单元可以是独立的部件，也可以集成在一个或多个处理器中。在一些实施例中，电子设备101也可以包括一个或多个处理器110。其中，控制器可以根据指令操作码和时序信号，产生操作控制信号，完成取指令和执行指令的控制。在其他一些实施例中，处理器110中还可以设置存储器，用于存储指令和数据。示例性地，处理器110中的存储器可以为高速缓冲存储器。该存储器可以保存处理器110刚用过或循环使用的指令或数据。如果处理器110需要再次使用该指令或数据，可从所述存储器中直接调用。这样就避免了重复存取，减少了处理器110的等待时间，因而提高了电子设备101处理数据或执行指令的效率。

在一些实施例中，处理器110可以包括一个或多个接口。接口可以包括集成电路间(inter-integrated circuit，I2C)接口、集成电路间音频(inter-integrated circuitsound，I2S)接口、脉冲编码调制(pulse code modulation，PCM)接口、通用异步收发传输器(universal asynchronous receiver/transmitter，UART)接口、移动产业处理器接口(mobile industry processor interface，MIPI)、用输入输出(general-purpose input/output，GPIO)接口、SIM卡接口和/或USB接口等。其中，USB接口130是符合USB标准规范的接口，具体可以是Mini USB接口、Micro USB接口、USB Type C接口等。USB接口130可以用于连接充电器为电子设备101充电，也可以用于电子设备101与外围设备之间传输数据。该USB接口130也可以用于连接耳机，通过耳机播放音频。

可以理解的是，本申请实施例示意的各模块间的接口连接关系，只是示意性说明，并不构成对电子设备100的结构限定。在本申请另一些实施例中，电子设备100也可以采用上述实施例中不同的接口连接方式，或多种接口连接方式的组合。

充电管理模块140用于从充电器接收充电输入。其中，充电器可以是无线充电器，也可以是有线充电器。在一些有线充电的实施例中，充电管理模块140可以通过USB接口130接收有线充电器的充电输入。在一些无线充电的实施例中，充电管理模块140可以通过电子设备100的无线充电线圈接收无线充电输入。充电管理模块140为电池142充电的同时，还可以通过电源管理模块141为电子设备供电。

电源管理模块141用于连接电池142，充电管理模块140与处理器110。电源管理模块141接收电池142和/或充电管理模块140的输入，为处理器110、内部存储器121、外部存储器、显示屏194、摄像头193和无线通信模块160等供电。电源管理模块141还可以用于监测电池容量、电池循环次数、电池健康状态(漏电，阻抗)等参数。在其他一些实施例中，电源管理模块141也可以设置于处理器110中。在另一些实施例中，电源管理模块141和充电管理模块140也可以设置于同一个器件中。

电子设备100的无线通信功能可以通过天线1、天线2、移动通信模块150、无线通信模块160、调制解调处理器以及基带处理器等实现。

天线1和天线2用于发射和接收电磁波信号。电子设备100中的每个天线可用于覆盖单个或多个通信频带。不同的天线还可以复用，以提高天线的利用率。例如：可以将天线1复用为无线局域网的分集天线。在另外一些实施例中，天线可以和调谐开关结合使用。

移动通信模块150可以提供应用在电子设备100上的包括2G/3G/4G/5G等无线通信的解决方案。移动通信模块150可以包括至少一个滤波器，开关，功率放大器，低噪声放大器(low noise amplifier，LNA)等。移动通信模块150可以由天线1接收电磁波，并对接收的电磁波进行滤波，放大等处理，传送至调制解调处理器进行解调。移动通信模块150还可以对经调制解调处理器调制后的信号放大，经天线1转为电磁波辐射出去。在一些实施例中，移动通信模块150的至少部分功能模块可以被设置于处理器110中。在一些实施例中，移动通信模块150的至少部分功能模块可以与处理器110的至少部分模块被设置在同一个器件中。

无线通信模块160可以提供应用在电子设备100上的包括无线局域网(wirelesslocal area networks，WLAN)(如无线保真(wireless fidelity，Wi-Fi)网络)、蓝牙(bluetooth，BT)，全球导航卫星系统(global navigation satellite system，GNSS)、调频(frequency modulation，FM)、近距离无线通信技术(near field communication，NFC)、红外技术(infrared，IR)等无线通信的解决方案。无线通信模块160可以是集成至少一个通信处理模块的一个或多个器件。无线通信模块160经由天线2接收电磁波，将电磁波信号调频以及滤波处理，将处理后的信号发送到处理器110。无线通信模块160还可以从处理器110接收待发送的信号，对其进行调频，放大，经天线2转为电磁波辐射出去。

电子设备100通过GPU，显示屏194，以及应用处理器等实现显示功能。GPU为图像处理的微处理器，连接显示屏194和应用处理器。GPU用于执行数学和几何计算，用于图形渲染。处理器110可包括一个或多个GPU，其执行程序指令以生成或改变显示信息。

显示屏194用于显示图像、视频等。显示屏194包括显示面板。显示面板可以采用液晶显示屏(liquid crystal display，LCD)、有机发光二极管(organic light-emittingdiode，OLED)、有源矩阵有机发光二极体或主动矩阵有机发光二极体(active-matrixorganic light emitting diode，AMOLED)、柔性发光二极管(flex light-emittingdiode，FLED)、Miniled、MicroLed、Micro-oLed、量子点发光二极管(quantum dot lightemitting diodes，QLED)等。在一些实施例中，电子设备100可以包括1个或多个显示屏194。

在本申请的一些实施例中，当显示面板采用OLED、AMOLED、FLED等材料时，上述图1中的显示屏194可以被弯折。这里，上述显示屏194可以被弯折是指显示屏可以在任意部位被弯折到任意角度，并可以在该角度保持，例如，显示屏194可以从中部左右对折。也可以从中部上下对折。

电子设备100的显示屏194可以是一种柔性屏，目前，柔性屏以其独特的特性和巨大的潜力而备受关注。柔性屏相对于传统屏幕而言，具有柔韧性强和可弯曲的特点，可以给用户提供基于可弯折特性的新交互方式，可以满足用户对于电子设备的更多需求。对于配置有可折叠显示屏的电子设备而言，电子设备上的可折叠显示屏可以随时在折叠形态下的小屏和展开形态下大屏之间切换。因此，用户在配置有可折叠显示屏的电子设备上使用分屏功能，也越来越频繁。

电子设备100可以通过ISP、摄像头193、视频编解码器、GPU、显示屏194以及应用处理器等实现拍摄功能。

ISP用于处理摄像头193反馈的数据。例如，拍照时，打开快门，光线通过镜头被传递到摄像头感光元件上，光信号转换为电信号，摄像头感光元件将所述电信号传递给ISP处理，转化为肉眼可见的图像。ISP还可以对图像的噪点、亮度、肤色进行算法优化。ISP还可以对拍摄场景的曝光、色温等参数优化。在一些实施例中，ISP可以设置在摄像头193中。

摄像头193用于捕获静态图像或视频。物体通过镜头生成光学图像投射到感光元件。感光元件可以是电荷耦合器件(charge coupled device，CCD)或互补金属氧化物半导体(complementary metal-oxide-semiconductor，CMOS)光电晶体管。感光元件把光信号转换成电信号，之后将电信号传递给ISP转换成数字图像信号。ISP将数字图像信号输出到DSP加工处理。DSP将数字图像信号转换成标准的RGB，YUV等格式的图像信号。在一些实施例中，电子设备100可以包括1个或多个摄像头193。

数字信号处理器用于处理数字信号，除了可以处理数字图像信号，还可以处理其他数字信号。例如，当电子设备100在频点选择时，数字信号处理器用于对频点能量进行傅里叶变换等。

视频编解码器用于对数字视频压缩或解压缩。电子设备100可以支持一种或多种视频编解码器。这样，电子设备100可以播放或录制多种编码格式的视频，例如：动态图像专家组(moving picture experts group，MPEG)1、MPEG2、MPEG3、MPEG4等。

NPU为神经网络(neural-network，NN)计算处理器，通过借鉴生物神经网络结构，例如借鉴人脑神经元之间传递模式，对输入信息快速处理，还可以不断的自学习。通过NPU可以实现电子设备100的智能认知等应用，例如：图像识别、人脸识别、语音识别、文本理解等。

外部存储器接口120可以用于连接外部存储卡，例如Micro SD卡，实现扩展电子设备100的存储能力。外部存储卡通过外部存储器接口120与处理器110通信，实现数据存储功能。例如将音乐，视频等文件保存在外部存储卡中。

内部存储器121可以用于存储一个或多个计算机程序，该一个或多个计算机程序包括指令。处理器110可以通过运行存储在内部存储器121的上述指令，从而使得电子设备101执行本申请一些实施例中所提供的支付方法，以及各种应用以及数据处理等。内部存储器121可以包括存储程序区和存储数据区。其中，存储程序区可存储操作系统；该存储程序区还可以存储一个或多个应用(比如图库、联系人等)等。存储数据区可存储电子设备101使用过程中所创建的数据(比如照片，联系人等)等。此外，内部存储器121可以包括高速随机存取存储器，还可以包括非易失性存储器，例如一个或多个磁盘存储部件，闪存部件，通用闪存存储器(universal flash storage，UFS)等。在一些实施例中，处理器110可以通过运行存储在内部存储器121的指令，和/或存储在设置于处理器110中的存储器的指令，来使得电子设备101执行本申请实施例中所提供的支付方法，以及其他应用及数据处理。电子设备100可以通过音频模块170、扬声器170A、受话器170B、麦克风170C、耳机接口170D、以及应用处理器等实现音频功能。例如音乐播放、录音等。

传感器模块180可以包括压力传感器180A、陀螺仪传感器180B、气压传感器180C、磁传感器180D、加速度传感器180E、距离传感器180F、接近光传感器180G、指纹传感器180H、温度传感器180J、触摸传感器180K、环境光传感器180L、骨传导传感器180M等。

其中，压力传感器180A用于感受压力信号，可以将压力信号转换成电信号。在一些实施例中，压力传感器180A可以设置于显示屏194。压力传感器180A的种类很多，如电阻式压力传感器，电感式压力传感器，电容式压力传感器等。电容式压力传感器可以是包括至少两个具有导电材料的平行板。当有力作用于压力传感器180A，电极之间的电容改变。电子设备100根据电容的变化确定压力的强度。当有触摸操作作用于显示屏194，电子设备100根据压力传感器180A检测所述触摸操作强度。电子设备100也可以根据压力传感器180A的检测信号计算触摸的位置。在一些实施例中，作用于相同触摸位置，但不同触摸操作强度的触摸操作，可以对应不同的操作指令。例如：当有触摸操作强度小于第一压力阈值的触摸操作作用于短消息应用图标时，执行查看短消息的指令。当有触摸操作强度大于或等于第一压力阈值的触摸操作作用于短消息应用图标时，执行新建短消息的指令。

陀螺仪传感器180B可以用于确定电子设备100的运动姿态。在一些实施例中，可以通过陀螺仪传感器180B确定电子设备100围绕三个轴(即X、Y和Z轴)的角速度。陀螺仪传感器180B可以用于拍摄防抖。示例性的，当按下快门，陀螺仪传感器180B检测电子设备100抖动的角度，根据角度计算出镜头模组需要补偿的距离，让镜头通过反向运动抵消电子设备100的抖动，实现防抖。陀螺仪传感器180B还可以用于导航，体感游戏场景。

加速度传感器180E可检测电子设备100在各个方向上(一般为三轴)加速度的大小。当电子设备100静止时可检测出重力的大小及方向。还可以用于识别电子设备姿态，应用于横竖屏切换，计步器等应用。

环境光传感器180L用于感知环境光亮度。电子设备100可以根据感知的环境光亮度自适应调节显示屏194亮度。环境光传感器180L也可用于拍照时自动调节白平衡。环境光传感器180L还可以与接近光传感器180G配合，检测电子设备100是否在口袋里，以防误触。

指纹传感器180H用于采集指纹。电子设备100可以利用采集的指纹特性实现指纹解锁，访问应用锁，指纹拍照，指纹接听来电等。

温度传感器180J用于检测温度。在一些实施例中，电子设备100利用温度传感器180J检测的温度，执行温度处理策略。例如，当温度传感器180J上报的温度超过阈值，电子设备100执行降低位于温度传感器180J附近的处理器的性能，以便降低功耗实施热保护。在另一些实施例中，当温度低于另一阈值时，电子设备100对电池142加热，以避免低温导致电子设备100异常关机。在其他一些实施例中，当温度低于又一阈值时，电子设备100对电池142的输出电压执行升压，以避免低温导致的异常关机。

触摸传感器180K，也称“触控面板”。触摸传感器180K可以设置于显示屏194，由触摸传感器180K与显示屏194组成触摸屏，也称“触控屏”。触摸传感器180K用于检测作用于其上或附近的触摸操作。触摸传感器可以将检测到的触摸操作传递给应用处理器，以确定触摸事件类型。可以通过显示屏194提供与触摸操作相关的视觉输出。在另一些实施例中，触摸传感器180K也可以设置于电子设备100的表面，与显示屏194所处的位置不同。

图2是本申请实施例的电子设备100的软件结构框图。分层架构将软件分成若干个层，每一层都有清晰的角色和分工。层与层之间通过软件接口通信。在一些实施例中，将Android系统分为四层，从上至下分别为应用程序层，应用程序框架层，安卓运行时(Android runtime)和系统库，以及内核层。应用程序层可以包括一系列应用程序包。

如图2所示，应用程序包可以包括相机、图库、日历、通话、地图、导航、WLAN、蓝牙、音乐、视频、短信息、语音助手等应用程序。

应用程序框架层为应用程序层的应用程序提供应用编程接口(applicationprogramming interface，API)和编程框架，应用程序框架层包括一些预先定义的函数。

如图2所示，应用程序框架层可以包括窗口管理器、内容提供器、视图系统、电话管理器、资源管理器、通知管理器等。

窗口管理器用于管理窗口程序，窗口管理器可以获取显示屏大小，判断是否有状态栏、锁定屏幕、截取屏幕等。

内容提供器用来存放和获取数据，并使这些数据可以被应用程序访问。所述数据可以包括视频、图像、音频、拨打和接听的电话、浏览历史和书签、电话簿等。

视图系统包括可视控件，例如显示文字的控件，显示图片的控件等。视图系统可用于构建应用程序。显示界面可以由一个或多个视图组成的。例如，包括短信通知图标的显示界面，可以包括显示文字的视图以及显示图片的视图。

电话管理器用于提供电子设备100的通信功能。例如通话状态的管理(包括接通，挂断等)。

资源管理器为应用程序提供各种资源，比如本地化字符串、图标、图片、布局文件、视频文件等等。

通知管理器使应用程序可以在状态栏中显示通知信息，可以用于传达告知类型的消息，可以短暂停留后自动消失，无需用户交互。比如通知管理器被用于告知下载完成，消息提醒等。通知管理器还可以是以图表或者滚动条文本形式出现在系统顶部状态栏的通知，例如后台运行的应用程序的通知，还可以是以对话窗口形式出现在屏幕上的通知。例如在状态栏提示文本信息、发出提示音、电子设备振动、指示灯闪烁等。

系统库可以包括多个功能模块。例如：表面管理器(surface manager)、媒体库(media libraries)、三维图形处理库(例如：OpenGL ES)、2D图形引擎(例如：SGL)等。

表面管理器用于对显示子系统进行管理，并且为多个应用程序提供了2D和3D图层的融合。

媒体库支持多种常用的音频、视频格式回放和录制以及静态图像文件等。媒体库可以支持多种音视频编码格式，例如:MPEG4、H.264、MP3、AAC、AMR、JPG和PNG等。

三维图形处理库用于实现三维图形绘图、图像渲染、合成和图层处理等。

2D图形引擎是2D绘图的绘图引擎。

内核层是硬件和软件之间的层。内核层至少包含显示驱动、摄像头驱动、音频驱动、传感器驱动。

应用程序包中的语音助手应用是人机交互应用的一种，语音助手应用也可以称为语音助手应用或智慧助手应用等。

人机交互应用也可称为人机交互机器人、人机对话机器人或聊天机器人(ChatBOT)等，人机交互应用目前广泛应用于手机、平板电脑、智能音箱等多类电子设备，为用户提供了智能化的语音交互方式。目前，用户在车内可以通过语音进行人机交互，不仅能够通过语音控制导航、音乐等车机软件，还能够控制车内硬件，如车窗、空调等。

图3示出了一种人机交互流程的示意性流程图。如图3所示，人机交互的全流程可以通过语音识别(automatic speech recognition，ASR)模块、语义理解(naturallanguage understanding，NLU)模块、对话管理(dialogue manager，DM)模块、对话生成(natural languagegeneration，NLG)模块和语音播报(text to speech，TTS)模块等实现。ASR模块的主要作用是将用户语音识别为语音文本；NLU模块的主要功能是根据语音文本理解用户的意图(intent)，进行槽位(slot)解析；DM模块可以基于NLU输出的意图和槽位，选择下一步需要进行的动作，例如继续询问用户、执行用户指令或推荐用户其他指令等；NLG模块的主要作用是生成对话；TTS模块的主要作用是向用户播报对话。

下面对人机交互流程中几个重要的概念进行详细介绍。

NLU模块的主要用于转换语音文本到机器能理解的结构化信息，在对话系统中理解语音文本意味着将语音文本转换为可执行的意图和槽位，意图和槽位会被用于通过合适的应用完成用户诉求。典型实现方式为通过分类模型将语音文本分类为系统支持的意图，再使用序列标注模型标注文本中的槽位，结合两者结果输出意图和槽位的理解结果供后续模块使用。

示例性的，用户表达：帮我订一张明天上午10点从北京去上海的机票。从这句话中，NLU模块可以解析得出表1所示的内容。

表1

上述示例中提到了2个概念，分别是意图和槽位，下面对这两个概念进行详细解释。

意图

意图可以理解成是一个意图分类，先确定用户表达的这句话是哪个意图分类，进而由这个类型对应的程序做专门的解析。在一种实现方式中，“这个类型对应的程序”可以是机器人(Bot)，比如用户说：“给我放一首快乐的歌吧”，NLU模块判断用户的意图分类是音乐，因此召唤出音乐机器人(Bot)给用户推荐一首歌播放，用户听着觉得不对的时候，说：“换一首”，还是这个音乐机器人继续为用户服务，直到用户表达别的问题，意图已经不是音乐的时候，再切换成别的机器人为用户服务。

槽位

每个意图都可以预设一个或多个槽位，例如上述示例中，“订机票”这个意图下定义了三个槽位，分别是“起飞时间”，“起始地”和“目的地”。如果要全面考虑用户订机票需要输入的内容，我们肯定能想到更多，比如旅客人数、航空公司、起飞机场、降落机场等，对于语音交互的设计者来说，设计的起点就是定义槽位。

当通过语义理解确定了用户意图之后，可以将语音文本中的槽位信息提取出来，进行槽位填充。槽位信息可以理解为与槽位相关的信息。例如上述“订机票”例子中的，“起飞时间”，“起始地”和“目的地”分别对应的槽位信息分别是“明天上午10点”、“北京”和“上海”。

在一些场景中，用户的语音文本给出的槽位信息是有缺失的。

示例性的，用户表达的是“帮我订一张明天上午10点的机票”，此时通过语义理解可以确定用户的意图为“订机票”，该意图相关的槽位为“起飞时间”，“起始地”和“目的地”。而用户的表达的语句中只有“起飞时间”的槽位信息，“起始地”和“目的地”的槽位信息缺失。此时，NLU模态输出的意图为“订机票”，槽位为“起始地＝空”、“起飞时间＝明天上午10点”和“目的地＝空”。

此时，DM模块可以控制NLG模块生成向用户询问缺失的槽位信息的对话。

示例性的，用户：我想订机票。

BOT：请问目的地是哪里？

用户：上海。

BOT：请问您想订什么时间起飞的航班？

当用户将“订机票”这一意图中所有的槽位信息都补充完整后，DM模块可以控制命令执行模块去执行“订机票”这一操作。示例性的，命令执行模块可以打开订机票App，并显示上午10点(或者，上午10点左右)从北京到上海的航班信息。

应理解，NLU模块输出的槽位可以是已经填充完整的，也可以是缺失槽位信息的。在本申请实施例中，统一称为槽位。

在语音识别技术充分发展的基础上，我们能准确地识别用户的语音以及将其转换为语音文本。然而，电子设备可能会错误地理解用户的意图，也就是说，在对用户语音文本进行语义理解时出错。这会导致生成错误的指令，并执行不符合用户意图的操作。很大程度上降低了人机对话效率以及用户体验。

对语音文本的语义理解出错可能是因为没有考虑用户在人机对话时的语境，即使是文字内容相同的两个语音文本在不同的语境下可能有不同的语义，因此电子设备可能错误理解用户的意图。

在本申请实施例中，为了能够提升电子设备对用户意图理解的准确性，引入基于多模态信息的语义理解。

模态可以有非常广泛的定义，每一种信息的来源或者形式，都可以称为一种模态。例如，人有触觉，听觉，视觉，嗅觉；信息的媒介，有语音、视频、文字等；多种多样的传感器，如雷达、红外、加速度计等。以上的每一种都可以称为一种模态。

模态信息是指该模态的具体数据，模态信息也可以有其他表现形式，例如，对模态数据进行编码处理得到的模态特征编码。

示例性的，在车辆行驶场景中，车辆行驶速度(例如，30km/h)、空调温度状态(例如，30℃)、音乐播放状态(例如，正在播放或未播放)、导航音量大小和音乐音量大小都可以视为模态信息。

图4示出了本申请实施例提供的一种语音识别的方法的示意图。如图4所示，该方法包括210至240，下面进行详细介绍。

210，将用户的语音文本输入到文本编码模型中，得到文本特征编码。

在本申请实施例中，语音文本可以是单词、短语或者语句，这里的单词、短语或者语句可以是汉字形式、英文形式或其他语言形式。

具体地，将语音文本输入文本编码模型，得到语音文本的文本特征编码。文本编码模型例如可以是基于变换器的双向编码器表示(bidirectional encoder representationfrom transformers，BERT)模型或者长短期记忆(long-short term memory，LSTM)模型。

以BERT模型作为示例进行说明，BERT模型可以通过大量的文本数据的学习怎么用特征编码表示语音文本。当将新的语音文本输入到BERT模型中时，BERT模型可以输出语音文本的文本特征编码，该文本特征编码能够表示语音文本的语义。

本申请中的文本特征编码可以是一种词向量。词向量，是指语音文本所映射成的数值向量，词向量可以包括来自语音文本的全部特征和语义。以词向量表示语音文本，可以更方便电子设备进行处理，同时，也更容易计算两个文本之间的相似度。通常，如果两个文本的词向量相似，则这两个文本的语义也相似。

可选地，文本特征编码也可以是语境特征编码。通过文本编码模型对语音文本中能够体现语音文本语境的特征项进行编码，得到语境特征编码。

在本申请中，文本编码模型可以提取语音文本的特征信息。用于表示文本的基本单位通常称为文本的特征或特征项。通常，特征项需满足：

(1)特征项要能够确实标识文本内容；

(2)特征项具有将目标文本与其他文本相区分的能力；

(3)特征项的个数不能太多；

(4)特征项分离要比较容易实现。可以采用字、词或短语作为表示文本的特征项。

应理解，文本特征编码是全部的语音文本映射得到到的词向量，语境特征编码是语音文本的特征项映射得到的词向量。

可选地，将用户的语音文本和该语音文本的上下文信息输入到文本编码模型中，得到文本特征编码。

应理解，该文本特征编码结合了语音文本和上下文信息的特征信息，该文本特征编码能够指示语音文本和上下文信息。

在一些实施例中，当用户初次进行人机交互时，用户的语音文本没有上下文信息，语音文本不包括上下文信息。

可选地，在210之前还包括，获取用户的语音文本或文字。

在本申请实施例中，人机交互应用可以接收用户输入的语音或文字。如果通过语音交互接收到用户的语音，那么将会通过前处理模块(例如ASR模块)将用户的语音转换为文字内容；如果通过文字交互接收到用户的文字，例如通过拼音、手写等方式直接输入的文字，那么不需要该转换过程。

应理解，语音文本为转换为文字内容的用户的语音，或者用户输入的文字。

人机交互应用有多种方式接收用户输入的语音或文字。

示例性的，当电子设备检测到用户在电子设备的桌面点击人机交互应用(例如，语音助手)的图标后，打开人机交互应用，接收用户输入的语音或文字。

示例性的，当电子设备检测到用户点击电子设备的特定实体按键后，打开人机交互应用，接收用户输入的语音或文字。

示例性的，当电子设备检测到用户的唤醒词(例如，小华小华)，打开人机交互应用，接收用户输入的语音或文字。

示例性的，当电子设备检测到用户设置的或者系统预设的免唤醒词(例如，打开空调)，将该免唤醒词作为用户输入的语音或文字。

具体的，当电子设备检测到用户的上述操作后，应用程序层的人机交互应用会向框架层的系统服务模块发送该人机交互应用对应的标号和该人机交互应用对应的进程名称，系统服务模块可以通过该标号和进程名称确定启动哪些硬件和软件，从而接收用户输入的语音或文字。

可选地，在210之前，获取语音文本的上下文信息。

在本申请中，电子设备可以记录每次人机交互过程中用户的语音文本，当用户再次进行人机交互时，获取已经记录的用户的语音文本作为当前用户的语音文本的上下文信息。

220，根据语音文本所属的第一语境类别和语境-多模态映射矩阵，确定多模态选取向量。

在220中，首先确定语音文本所属的第一语境类别。

参考图4，将语音文本的文本特征编码输入到第一分类层中，确定语音文本所属的第一语境类别。

分类层也可以称为分类函数、分类器。第一分类层可以按照预先指定的标准，根据语音文本的内容或特征，将语音文本自动的映射到某一语境类别下。

可选地，第一分类层可以为一种机器学习模型。通过大量的标注了语境类别语音文本样本对其进行训练。训练完成后，当输入新的语音文本时，可以自动将语音文本映射到某一语境下。

语境类别可以是开发人员预设的。在本申请中，对所有可能的语音文本预设多种不同的语境类别，属于同一语境类别的语音文本的文本特征编码或语境特征编码的语义相似、数值向量相似。

示例性的，语境类别可以包括：(1)用户感受类，例如，冷、热、吵等。示例性的，语音文本为“太热了”，该语音文本属于热语境。(2)单设备类，例如，语音文本为“空调温度”，则该语音文本只与空调的温度调节相关，属于空调温度调节语境。例如，语音文本为“座椅通风”，则该语音文本只与座椅通风的调节相关，属于座椅通风调节语境。(3)无模态类，如果语音文本不能分类到任意一个语境类别中，该语音文本就属于无模态类。例如，语音文本“今天天气怎么样”的语境类别为无模态类。

属于同一语境类别的语音文本可以有多种不同的表达方式。

应理解，一种语境类别可以对应多个语音文本，每个语音文本只属于一种语境类别，不同的语音文本可以属于同一语境类别，也可能属于不同的语境类别。

示例性的，语音文本“太热了”、“今天气温太高了”或者“我都快被融化了”的特征信息相似，都可以归为热语境。示例性的，当语音文本为“太热了”时，属于用户感受类中的热语境，当语音文本为“太吵了”时，属于用户感受类中的吵语境。

在本申请实施例中，还可以预设多个模态。在一些实施例中，电子设备可以为车辆，在车辆内的语音识别相对更多地应用于与车辆状态、驾驶状态、车内娱乐、车内通话等相关的模态。在另一些实施例中，电子设备可以为音箱，音箱的语音识别相对更多地应用于与家居电器控制、娱乐喜好匹配、音视频通话等相关的模态。

在220中，语境-多模态映射矩阵可以是预设的，在该语境-多模态映射矩阵中，建立多个预设的语境类别和多个预设模态之间的映射关系，每个语境类别对应一个或多个模态。可选地，使用多个多模态选取向量表示每个语境类别和模态之间的映射关系，每个多模态选取向量与每个语境类别一一对应，每个多模态选取向量指示一个或多个模态。

示例性的，参考表2所示的语境-多模态映射矩阵，该语境-多模态映射矩阵包括4种语境类别，分别是热(hotness)语境、冷(coldness)语境、吵(noise)语境、无模态(no_multimodal)语境，以及9种模态，分别是空调温度状态(air_conditioner_temperature_state)、空调风量状态(air_conditioner_wind_state)、座椅加热状态(seat_heater_temperature_state)、座椅通风状态(seat_heater_wind_state)、音量状态(voice_volume_state)、窗户状态(window_state)、车速状态(car_move_state)、环境温度状态(outer_temperature_state)、内外温差状态(temperature_difference_state)。在语境-多模态映射矩阵中，与语境相关的模态标“1”，不相关的标“0”。示例性的，当语境类别为热语境时，其对应的模态分别为空调温度状态、座椅加热状态、座椅通风状态、窗户状态、环境温度状态、内外温差状态。

表2

应理解，上述语境-多模态映射矩阵仅作为一种示例，不应对本申请构成任何限定。

根据语音文本所属的第一语境类别和语境-多模态映射矩阵，可以确定第一语境类别对应的多模态选取向量或者确定第一语境类别对应的一个或多个模态。

示例性的，当语音文本的语境类别为热语境时，根据上述语境-多模态映射矩阵可以确定其对应的多模态选取向量为(1，0，1，1，0，1，0，1，1)。该多模态选取向量指示以下模态：空调温度状态、座椅加热状态、座椅通风状态、窗户状态、环境温度状态、内外温差状态。该多模态选取向量可以理解为与空调温度状态、座椅加热状态、座椅通风状态、窗户状态、环境温度状态、内外温差状态相关的概率为1，与空调风量状态、音量状态、车速状态相关的概率为0。

可选地，根据语音文本所属的第一语境类别和语境-多模态映射矩阵，可以确定第一语境类别对应的模态的标识。

可选地，在220之前，获取每个预设模态的模态信息，在语境-多模态映射矩阵中建立多个语境类别与每个预设模态的模态信息之间的映射关系。

应理解，该模态信息包括模态数据或者对模态数据进行编码处理得到的模态特征编码。

模态数据可以理解为模态的原始数据，例如，空调的模态(例如，制冷、制热)、空调设定的温度(25℃)、车辆行驶速度(40km/h)等。模态特征编码为经过编码处理得到的模态特征编码。

这样，根据语音文本所属的第一语境类别和语境-多模态映射矩阵，可以确定与语音文本匹配的模态信息。

可选地，除了通过220所示的方式选取模态，还可以通过将预设的模态与语音文本的特征编码进行匹配，选取匹配度高或相似度高的模态作为与语音文本匹配的模态。进而确定多模态选取向量。

230，获取与语音文本匹配的模态信息。

在220中，已经根据语音文本所属的第一语境类别和语境-多模态映射矩阵，得到了多模态选取向量或者选取了与该语音文本匹配的模态。

在230中，根据该多模态选取向量获取与语音文本匹配的模态信息。

在一种可能的实现方式中，电子设备在230之前获取每个预设模态的模态数据，并对该模态数据进行编码处理，得到每个预设模态的模态特征编码。然后获取多模态选取向量所指示的模态的模态特征编码。

多模态特征编码是将多模态选取向量所指示的多个与语音文本匹配的模态特征编码融合在一起形成的。融合模态特征编码的方式可以是将该多个模态特征编码进行相加或拼接。

示例性的，电子设备在230之前获取用户画像(user profile，UP)数据、情景感知(context awareness，CA)数据、手机状态数据等模态数据，对其进行编码处理，分别得到UP特征编码、CA特征编码、手机状态特征编码等模态特征编码。多模态选取向量指示与用户的语音文本匹配的模态为用户画像和情景感知模态，那么可以获取UP数据和CA数据，或者获取UP模态特征编码和CA模态特征编码作为语音文本匹配的模态信息。手机状态数据或手机状态特征编码不是语音文本匹配的模态信息。

可选地，融合多个与语音文本匹配的模态特征编码也可以在240中的特征融合中进行。

应理解，多模态特征编码可以是模态信息的一种表现形式。

获取预设模态的模态数据可以通过多种方式实现，例如，在车辆行驶场景中，电子设备可以为车辆，可以通过雷达获取车辆周围的环境信息、可以通过温度传感器获取环境温度数据等。例如，在日常生活场景中，电子设备可以为手机，可以通过手机GPS获取位置信息、可以通过温度传感器获取手机温度、获取手机电量，或者，还可以获取用户在人机交互前，在浏览网页或者打游戏(获取该游戏相关的信息)。例如，获取情景感知数据时，电子设备能够通过传感器及其相关技术“感知”到当前的情景，示例性的，运动场景、走路场景、居家场景等。

应理解，在不同的时刻，模态数据可以是变化的，例如，座椅加热档位是可以调节的。在进行人机交互时的模态数据可以体现当前人机对话的语境。

可选地，周期性地获取每个预设模态的模态数据，并对这些模态数据进行编码处理，得到模态特征编码。

可选地，电子设备存储并实时更新每个预设模态的模态数据或模态特征编码。

这样，电子设备可以提前获取每个预设模态的模态信息，在人机交互过程中，可以减少获取与语音文本匹配的模态信息所花费的时间，提高人机交互效率，提升用户体验。

可选地，获取每个预设模态的模态数据，并对多模态选取向量所指示的模态的模态数据进行编码处理，得到模态特征编码。

在另一种可能的实现方式中，电子设备可以仅获取多模态选取向量所指示的模态的模态数据，再对该模态数据进行编码处理，得到模态特征编码。此时，这些模态特征编码为语音文本匹配的模态特征编码。

这样，电子设备可以获取与语音文本匹配的模态信息，而不获取与语音文本不匹配的模态信息，可以减少人机交互的电量或资源消耗。

下面介绍对模态数据的编码处理过程。

在本申请中，根据模态数据的类型，可以选择不同的编码方式，例如用户画像类型的模态数据选择多层感知器(multilayer perceptron，MLP)编码，图像类型的模态数据选择卷积神经网络(convolutional neural network，CNN)编码等。

以用户画像类型的模态数据进行说明。

用户画像类型的模态数据，可以是用户的行为特征、用户的自然属性等，例如用户的行为特征可以是爱看电影、爱听音乐、习惯关窗行驶等，例如用户的自然属性可以是姓名、性别、年龄、星座、身高、职业、学历等。多层感知机也叫做深度神经网络(deep neuralnetworks，DNN)，可以通过用户平时人机交互的数据样本的特征进行组合，形成更抽象的高层的属性或特征。这些特征也是通过向量数据的形式呈现的。

当结合用户画像类型的模态信息对语音文本进行语义理解，可以更准确地该用户的语音文本所表达的意图，从而满足用户的需求。

240，结合多模态特征编码和文本特征编码进行多模态语义理解，输出意图和槽位。

将多模态特征编码和文本特征编码进行特征融合，然后将融合后的特征编码输入到第二分类层中，输出意图和槽位。

第二分类层可以按照预先指定的标准，根据语音文本和与语音文本匹配的模态信息的内容或特征，将语音文本自动的映射到某一意图下。应理解，250输出的槽位可以是填充了槽位信息的，也可以是没有填充槽位信息的。当语音文本包括槽位相关的信息时，多模态语义理解可以识别该槽位相关的信息并对槽位进行填充。

在本申请中可以预设多个意图，例如，在车辆行驶场景中，包括车载娱乐系统控制，例如音乐、音量；导航控制；驾驶辅助功能控制，例如空调调节、天窗调节、座椅调节等；电话通讯控制，例如打电话、发短信、读短信、读微信等。

并且每个意图对应多个槽位，该每个意图对应的多个槽位可以是预先定义好的，例如，用户的语音文本为“导航去最近的加油站”，用户的意图为“导航控制”，该意图对应的槽位有“起始地”和“目的地”。其中，槽位“起始地”可以默认为当前位置，槽位“目的地”为“最近的加油站”，可以通过搜索获取“最近的加油站”的地址，并且进行槽位填充。

第二分类层可以可以结合语音文本和语音文本匹配的模态信息进行多模态语义理解，确定该语音文本所指示的意图属于多个预设意图中的哪一个。

在本申请实施例中，当语音文本结合不同的模态信息进行多模态语义理解时，输出的意图和槽位可能是不一样的。

示例性的，参考表3，当用户的语音文本为“太热了”，用户的语义是表达自己的感受很热，但是用户的意图可以是关闭座椅加热，也可以是打开空调制冷，或者也可以是打开座椅通风。在传统的人机交互应用中，不能够获取与语音文本匹配的多模态信息，可能导致错误识别用户的意图，或者需要通过多轮次的人机交互确定用户的意图，人机交互效率较低。如果结合与语音文匹配的的多模态信息，例如，空调未开启、环境温度33℃、座椅通风已开启、窗户关闭等，那么就可以识别出用户的意图为打开空调制冷。

在一些场景中，与语音文本匹配的模态信息为：座椅加热开启、座椅加热档位3、环境温度为10℃，那么就可以识别出用户的意图为关闭座椅加热或者调低座椅加热的档位。

表3

当然，表3中没有显示出全部与语音文本匹配的多模态信息，例如多模态信息还可以包括车窗开启状态、内外温差、环境温度、座椅通风状态等。

示例性的，参考表4，用户的语音文本为“播放《十面埋伏》”，当模态信息中用户习惯为偏好歌曲时，会播放音乐《十面埋伏》，当模态信息中用户习惯为偏好影视时，会播放视频《十面埋伏》。

表4

如果识别到语音文本“播放十面埋伏”是副驾输入的，那么与该语音文本匹配的模态信息中可以不包括用户画像模态相关的信息，此时，可以通过询问的方式确定用户的意图。

在一些场景中，如果不结合与语音文本匹配的多模态信息识别用户的意图和填充槽位，可能会造成意图识别错误和询问错误。例如，如果用户的表述为“太热了”，此时空调制冷是开启状态，但是空调制冷的温度为30℃，传统的语音助手不获取与语音文本匹配的多模态信息，可能会识别出用户的意图为开启空调制冷，然后询问用户是否开启空调制冷，此时就会产生无效的人机对话。

图5示出了本申请实施例提供的另一种语音识别的方法的示意性图。图5所示实施例包括310至340。下面进行详细介绍。

310，将用户的语音文本输入到文本编码模型中，得到文本特征编码。

步骤310与图3中的步骤210相同，具体可参考步骤210的相关描述。

还应理解，文本特征编码或语境特征编码是经过处理的语音文本，属于语音文本的一种表现形式。

320，根据文本特征编码和第三分类层，获取多模态选取向量。

具体的，可以先通过大量的训练样本数据集训练第三分类层，最终训练完成的第三分类层可以预测新输入的语音文本与每个预设模态的相关性。，再通过激活函数sigmoid计算该语音文本与每个预设模态相关的概率，获取多模态选取向量。该多模态选取向量指示语音文本与每个预设模态相关的概率。

训练样本数据集可以是大量的标注了多个模态标签的文本特征编码，示例性的，语音文本“太吵了”的文本特征编码对应窗口状态、音量状态等多个模态标签。语音文本“外面什么响声”的文本特征编码对应窗口状态、行驶速度等多个模态标签。通过类似的大量的的训练样本数据，训练第三分类层学习预测语音文本对应的模态标签的能力。

激活函数sigmoid的定义域能够取任何范围或预设范围内的实数，而返回0到1的范围内的输出值。在本申请实施例中，该输出值表示该语音文本与每个预设模态相关的概率大小。示例性的，多模态选取向量为(0.98，0.02，0.99)，预设模态的向量表示为(模态a，模态b，模态c)，则该多模态选取概率向量表示该语境类别下与模态a的相关的概率为0.98，与模态b的相关的概率为0.02，与模态c的相关的概率为0.99。

应理解，当结合语音文本和上下文信息获取文本特征编码时，该文本特征编码包括了语音文本和上下文信息的特征。该多模态选取想来那个指示语音文本和上下文信息与每个预设模态相关的概率。

可选地，第三分类层可以包括文本编码模型。这样，可以通过大量标注多个模态标签的语音文本对第三分类层进行训练。从而输入新的语音文本时，可以预测与语音文本相关的模态，进而获取与语音文本匹配的模态信息。

可选地，第三分类层可以包括激活函数sigmoid，当输入新的语音文本时，可以直接输出多模态选取向量，该多模态选取向量用于指示多个预设模态中每个模态与语音文本相关的概率。

330，获取与语音文本匹配的模态信息。

330与图4中的230相同，具体可参考230的相关描述。

应理解，当结合语音文本和上下文信息获取文本特征编码时，与语音文本匹配的模态信息可以是与语音文本和上下文信息匹配的模态信息。

可选地，通过多模态选取向量与存储模态信息的向量相乘获取与语音文本匹配的模态信息。

示例性的，该语音文本对应的多模态选取向量为(0.98，0.02，0.99)，各个模态的模态特征编码以(模态特征编码a，模态特征编码b，模态特征编码c)的向量存储，通过矩阵相乘，可以得到(0.98×模态特征编码a，0.02×模态特征编码b，0.99×模态特征编码c)。然后再对这些模态特征编码进行融合，可以得到与语音文本匹配的多模态特征编码。

可选地，多模态选取向量可以表示为仅包括“0”或“1”的向量，当语音文本与预设模态相关的概率大于预设的阈值时，该语音文本与该预设模态相关，即在多模态选取向量中该预设模态对应的元素为“1”。当语音文本与预设模态相关的概率大于预设的阈值时，该语音文本与该预设模态不相关，即在多模态选取向量中该预设模态对应的元素为“0”。

440，结合多模态特征编码和文本特征编码进行多模态语义理解。

440与图3中的340相同，具体可参考340的相关描述。

图6示出了本申请实施例提供的另一种语音识别的方法的示意性流程图。如图6所示，该方法400包括步骤S410至步骤S440。下面对各个步骤进行详细解释。

S410，根据用户的语音文本和上下文信息，确定语音文本所属的第一语境类别。

具体的，将语音文本和上下文信息合并输入文本编码模型，例如，BERT模型或LSTM模型，对其进行文本编码，得到文本特征编码。然后将该文本特征编码输入到第一分类层，确定语音文本所属的第一语境类别。

可选地，提取语音文本和上下文信息中的特征信息，对其进行编码，得到文本语境特征编码。

可选地，根据用户的语音文本，确定语音文本所属的第一语境类别。

当结合上下文信息确定第一语音文本所属的语境类别时，有助于确定语音文本真实的语境类别。进而选取正确的模态信息进行多模态语义理解，确定该语音文本指示的意图，减少语义识别错误，减少人机交互的频次，提高人机交互效率，提升用户体验。

当语音文本不能明确指示当前的语境类别，而上下文信息可以指示当前的语境类别时，可以有助于确定语音文本的语境类别。进而选取正确的模态信息进行多模态语义理解，确定该语音文本指示的意图，减少语义识别错误，减少人机交互的频次，提高人机交互效率，提升用户体验。

示例性的，人机交互过程如下所示：

用户：“讲个冷笑话吧”。

BOT：“自从我患上了选择困难症，就再也没有玩过简单模式”。

用户：“好冷哦”。

此时，如果仅根据语音文本“好冷哦”确定文本编码特征，就会导致语音文本归属到“冷”的语境类别。而如果根据用户输入的“讲个冷笑话吧”和“好冷哦”，确定文本编码特征，就可以识别出“好冷哦”不是表示用户的体温感受很冷，而是说这个笑话很冷，因此上述语音文本“好冷哦”应归属到无模态类的语境类别。

示例性的，人机交互过程如下所示：

用户：“空调温度是多少”。

BOT：“空调温度当前是16℃”。

用户：“有点冷”。

此时，如果仅根据语音文本“好冷哦”确定文本编码特征，就会导致语音文本归属到“冷”的语境类别。而如果根据用户输入的“空调温度是多少”和“有点冷”，确定文本编码特征，就可以识别出“有点冷”不是表示天气很冷，而是说这个空调温度有点低，因此上述语音文本“有点冷”应归属到单设备类中的空调温度相关的语境类别。当语音文本属于不同的语境类别时，与语音文本匹配的模态可能不同，在进行多模态语义理解时，识别出的意图可能会有很大差别。

在一些场景中，语音文本不能明确指示当前的语境类别，而上下文信息中包括体现语境类别的特征。示例性的，

用户：“座椅加热档位是多少”。

BOT：“座椅加热3档”。

用户：“调低档位”。

此时，语音文本不能明确指示当前的语境类别，但是上下文信息可以指示该语音文本的语境类别为单设备类中的座椅加热调节语境。

S420，根据语音文本所属的第二语境类别和第一映射矩阵，获取与语音文本匹配的模态信息。

在一些实施例中，第一映射矩阵预设多个语境类别和多个多模态选取向量，每个多模态选取向量与每个语境类别一一对应，每个多模态选取向量指示一个或多个模态。根据语音文本所属的第以语境类别和第一映射矩阵，从第一映射矩阵中确定与第一语境类别对应的多模态选取向量。进而获取该多模态选取向量所指示的模态的模态信息。

可选地，在步骤420之前，获取第一映射矩阵中每个预设模态的模态信息。

应理解，模态信息可以是模态数据，也可以是模态数据经过编码处理得到的模态特征编码。

还应理解，当获取的模态信息为模态数据时，需要对每个模态数据进行编码处理，确定每个模态数据的模态特征编码。当获取的模态信息为模态特征编码时，则可以选择性地跳过编码步骤。

在本申请实施例中，当结合不同的上下文信息确定语音文本所属的语境类别时，该语音文本所属的语境类别可能不同。

在一些场景中，结合语音文本和对话上下文能更准确的确定语境类别，从而可以获取正确的多模态信息。

示例性的，人机交互过程如下所示：

用户Q1：“刚打完篮球回来”。

BOT：“……”

用户Q2：“好热啊”。

如果仅根据当前语音文本“好热啊”，就会将该语境归类为热语境，选取环境温度状态、内外温差状态、空调温度状态、窗户状态等模态信息。

如果根据当前语音文本“好热啊”和对话上下文信息“刚打完篮球回来”，该语境归类为运动产生的热语境，与某些模态(例如，座椅加热状态)无关，只会选取窗户状态、空调温度状态、环境温度状态等模态信息。

示例性的，人机交互过程如下所示：

用户Q1：“车外面发生了什么”。

BOT：“……”

用户Q2：“好吵啊”。

如果仅根据当前语音文本“好吵啊”，就会将该语境归类为吵语境，选取空调风量状态、窗户状态、音量状态等模态信息。

如果根据当前语音文本“好吵啊”和对话上下文信息“外面发生了什么”，该语境归类为车外吵闹的语境，与车内的模态(例如，空调风量状态)无关。

在另外一些实施例中，不需要对语音文本进行语境类别的划分，也可以获取语音文本相关的模态的模态信息。

例如，通过大量的样本数据集，训练第三分类层学习语音文本或语音文本的文本特征编码与每个预设模态之间的映射关系。当获取到新的语音文本时，能够预测该语音文本相关的模态，进而获取与语音文本匹配的模态信息。这里的语音文本可以包括上下文信息。

S430，结合语音文本、上下文信息和与语音文本匹配的模态信息进行多模态语义理解，输出意图和槽位。

具体地，根据语音文本、上下文信息和与语音文本匹配的模态信息进行多模态语义理解，输出意图和槽位。

在一些场景下，用户通过多轮次的语音交互表达自己的意图，计算机仅依靠当前的语音文本和多模态信息不能准确识别出用户的意图，结合对话上下文信息可以补全意图相关的信息。

示例性的，人机交互过程如下所示：

用户：“北京天气怎么样”。

BOT：“已为您播报北京的天气”。

用户：“那有什么吃的”。

在该人机交互过程中，用户先问北京天气怎么样，然后询问“那有什么吃的”，这里的“那”指代的是北京，该语音文本所指示的意图为“查询北京的美食”，此时就可以为用户搜索北京的美食，并播报给用户。

可选地，在步骤340中，也可以结合语音文本和与语音文本匹配的模态信息进行多模态语义理解，输出意图和槽位。

图7示出了本申请实施例提供的另一种语音识别的方法的示意性流程图。如图7所示，该方法500包括步骤S510至步骤S530。下面对各个步骤进行详细解释。

S510，获取第一语音文本。

应理解，第一语音文本可以是识别用户的语音得到的语音文本，也可以是接收用户输入的文字得到的文本。第一语音文本例如可以是图4中210所示的语音文本。

S520，根据所述第一语音文本，获取与所述第一语音文本匹配的第一模态信息，所述第一模态信息所指示的模态为多个预设模态中的第一模态。

例如，预设模态可以是表2所示语境-多模态映射矩阵中的全部9种模态。例如，当语音文本为“太冷了”时，第一模态可以是表2所示语境-多模态映射矩阵中冷语境对应的模态：空调温度状态、座椅加热状态、座椅通风状态、窗户状态、环境温度状态、内外温差状态。第一模态信息可以是上述第一模态对应的模态信息。

应理解，第一模态信息为多个预设模态中的一个或多个模态的模态信息。

还应理解，模态信息可以有多种表现形式。在一些实施例中，模态信息可以是模态数据，例如，环境温度状态的模态数据为30℃。在另一些实施例中，模态信息也可以是模态信息对应的模态特征编码，即对模态数据进行编码处理，将模态数据转换为电子设备可处理的模态特征编码。模态信息还可以以多模态特征编码的表现形式呈现，也就是将多个模态信息的模态特征编码融合在一起形成的多模态特征编码。

在本申请实施例中，在不同的场景中可以预设不同的模态。例如，在车辆行驶场景中，可以预设与车辆状态、驾驶状态、车内娱乐、车内通话等相关的模态。例如，在居家场景中，可以预设家居电器控制、娱乐喜好匹配、音视频通话等相关的模态。

可选地，通过将每个预设的模态与第一语音文本进行匹配，选取匹配度高或相似度高的模态作为与第一语音文本匹配的模态。

在一些实施例中，根据所述第一语音文本，获取多模态选取向量，所述多模态选取向量指示所述第一语音文本与所述多个预设模态中每个模态的相关的概率；根据所述多模态选取向量，获取所述第一模态信息。

多模态选取向量指示所述第一语音文本与所述多个预设模态中每个模态相关的该率。例如，假设预设三个模态，以向量表示为(模态a，模态b，模态c)，第一语音文本与每个预设模态可以相关，也可以不相关。当第一语音文本与模态a相关，与模态b和模态c不相时，则该多模态选取向量为(1，0，0)，例如图4所示实施例中的多模态选取向量。

又例如，假设预设三个模态，以向量表示为(模态a，模态b，模态c)假设与模态a相关的概率为0.98，与模态b相关的概率为0.02，与模态c相关的概率为0.99，则该多模态选取向量为(0.98，0.02，0.99)，例如图5所示实施例中的多模态选取向量。

在一些实施例中，确定所述第一语音文本所属的第一语境类别；根据所述第一语境类别，获取多模态选取向量，所述多模态选取向量用于指示所述第一语境类别与所述多个预设模态中每个模态的相关的概率。

在本申请中，可以预设多个不同的语境类别，属于同一语境类别的文本都具有相似的特征。在确定第一语音文本属于哪一个语境类别时，可以将第一语音文本与该多个预设的语境类别进行匹配，进而确定第一语音文本所属的第一语境类别。然后根据第一语境类别与多个预设模态的匹配度，获取与第一语境类别匹配的模态，进而获取与第一语境类别匹配的模态信息。

在一些实施例中，根据所述第一语境类别和第一映射矩阵，获取所述多模态选取向量，所述第一映射矩阵指示多个语境类别和多个多模态选取向量，每个所述多模态选取向量指示一个或多个模态，所述多个语境类别和所述多个多模态选取向量一一对应。

例如，第一映射矩阵可以是表2所示的语境-多模态映射矩阵。

应理解，在第一映射矩阵中可以建立多个预设的语境类别和多个多模态选取向量的映射关系，每个预设的语境类别对应一个多模态选取向量。每个多模态选取向量可以指示一个或多个模态。这样，可以建立起语境类别和模态之间的映射关系。

通过先确定第一语音文本所属的语境类别，再根据语境类别与预设模态之间的映射关系，可以确定与第一语音文本匹配的模态，进而获取与第一文匹配的模态信息。

在一些实施例中，获取所述多个预设模态的模态信息。

例如，通过温度传感器获取环境温度数据等。

在一些实施例中，根据所述多模态选取向量和所述多个预设模态的模态信息，获取所述第一模态信息。

例如，可以是将多模态选取向量与该多个预设模态的模态信息进行矩阵相乘。

在一些实施例中，根据所述第一语音文本和/或所述第一语音文本的上下文信息，确定所述第一语音文本所属的第一语境类别。

在一些实施例中，获取所述第一语音文本和/或所述第一语音文本的上下文信息的文本特征编码；根据所述文本特征编码和第一分类层，确定第一语音文本所属的第一语境类别，所述第一分类层用于将所述第一语音文本映射到多个预设语境类别中的一个语境类别。

例如，文本特征编码可以是图4和图5中210输出的文本特征编码。第一分类层可以是图4中220所示的第一分类层。多个预设语境类别可以是表2所示语境-多模态映射矩阵中的语境类别。

在一些实施例中，电子设备可以执行与所述第一意图相关的操作。

例如，当第一意图为“订机票”，该与第一意图相关的操作可以是命令执行模块执行订机票的操作。也可以是询问用户更多的与“订机票”相关的槽位信息。

在一些实施例中，根据所述第一语音文本和第三分类层，获取所述多模态选取向量，所述第三分类层用于确定所述第一语音文本与多个预设模态中每个模态的相关的概率。

例如，第三分类层可以是图5中220中的第三分类层。该多模态选取向量可以是图5中的多模态选取向量。

应理解，第三分类层可以包括文本编码模型或激活函数sigmoid。

在一些实施例中，获取第二语音文本，所述第二语音文本与所述第一语音文本的内容相同；获取与所述第二语音文本匹配的第二模态信息，所述第二模态信息所指示的模态为多个预设模态中的第二模态，所述第二模态和所述第一模态不同；根据所述第二语音文本和所述第二模态信息，确定当所述第二语音文本匹配所述第二模态信息时所述第二语音文本所指示的第二意图和第二槽位，所述第二意图和所述第一意图不同，和/或所述第二槽位和所述第一槽位不同。

例如，第二语音文本和第一语音文本可以是表3中的“太热了”，第一模态信息可以是表3中的“环境状态：行驶中，温度33℃、设备状态：空调未开启”，第二模态信息可以是表3中的“环境状态：行驶中，温度10℃、设备状态：座椅加热开启”，第一意图可以是表3中的“打开空调制冷模式”，第二意图可以是标3中的“关闭座椅加热模式”。第一槽位和第二槽位分别是“打开空调制冷模式”和“打开座椅加热模式”对应的槽位。例如，“打开空调制冷模式”的槽位可以是“空调温度＝20℃”、“空调风量＝3档”

S530，根据所述第一语音文本和所述第一模态信息，确定当所述第一语音文本匹配所述第一模态信息时所述第一语音文本所指示的第一意图和第一槽位。

应理解，本申请实施例中可以预设多种不同的意图，每种意图对应不同的槽位。当意图确定后，其槽位也是确定的。例如，第一意图和第一槽位可以是“订机票”的例子中的意图和槽位，也可以是表4所示语音文本对应的意图。

在一些实施例中，所述第一模态信息包括第一模态特征编码，根据所述文本特征编码、所述第一模态特征编码和第二分类层，确定在所述第一模态下的第一语音文本所指示的第一意图和所述第一槽位，所述第二分类层用于将所述第一语音文本映射到多个预设意图中的一个意图。

例如，第一模态特征编码可以是图4或图5中的多模态特征编码。第二分类层可以是图4或图5中的第二分类层。

上文结合图1至图7详细的描述了本申请实施例的方法实施例，下面结合图8，详细描述本申请实施例的装置实施例。应理解，方法实施例的描述与装置实施例的描述相互对应，因此，未详细描述的部分可以参见前面方法实施例。

可选地，本申请提供的语音识别装置可以为一种电子设备。

可以理解的是，电子设备为了实现上述功能，其包含了执行各个功能相应的硬件和/或软件模块。结合本文中所公开的实施例描述的各示例的算法步骤，本申请能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行，取决于技术方案的特定应用和设计约束条件。本领域技术人员可以结合实施例对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

本实施例可以根据上述方法示例对电子设备进行功能模块的划分，例如，可以对应各个功能划分各个功能模块，也可以将两个或两个以上的功能集成在一个处理模块中。上述集成的模块可以采用硬件的形式实现。需要说明的是，本实施例中对模块的划分是示意性的，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。

在采用对应各个功能划分各个功能模块的情况下，图8示出了上述实施例中涉及的语音识别装置600的一种可能的组成示意图，如图8所示，该语音识别装置600可以包括：获取单元610、处理单元620。

获取单元610，用于获取第一语音文本；

处理单元620，用于：

根据所述第一语音文本，获取与所述第一语音文本匹配的第一模态信息，所述第一模态信息所指示的模态为多个预设模态中的第一模态；

根据所述第一语音文本和所述第一模态信息，确定当所述第一语音文本匹配所述第一模态信息时所述第一语音文本所指示的第一意图和第一槽位。

本申请实施例提供的语音识别装置600，可以结合第一语音文本以及与第一语音文本匹配的模态信息，进行多模态语义理解，进而准确地确定第一语音文本所指示的意图，有利于提升人机交互效率和用户体验。

可选地，所述处理单元620具体用于，根据所述第一语音文本，获取多模态选取向量，所述多模态选取向量指示所述第一语音文本与所述多个预设模态中每个模态的相关的概率；根据所述多模态选取向量，获取所述第一模态信息。

可选地，所述处理单元620具体用于，确定所述第一语音文本所属的第一语境类别；

根据所述第一语境类别，获取多模态选取向量，所述多模态选取向量用于指示所述第一语境类别与所述多个预设模态中每个模态的相关的概率。

可选地，所述处理单元620具体用于，根据所述第一语境类别和第一映射矩阵，获取所述多模态选取向量，所述第一映射矩阵指示多个语境类别和多个多模态选取向量，每个所述多模态选取向量指示一个或多个模态，所述多个语境类别和所述多个多模态选取向量一一对应。

可选地，所述处理单元620还用于，获取所述多个预设模态的模态信息。

可选地，所述处理单元620还用于，根据所述多模态选取向量和所述多个预设模态的模态信息，获取所述第一模态信息。

可选地，所述处理单元620具体用于，根据所述第一语音文本和/或所述第一语音文本的上下文信息，确定所述第一语音文本所属的第一语境类别。

可选地，所述处理单元620具体用于，获取所述第一语音文本和/或所述第一语音文本的上下文信息的文本特征编码；根据所述文本特征编码和第一分类层，确定第一语音文本所属的第一语境类别，所述第一分类层用于将所述第一语音文本映射到多个预设语境类别中的一个语境类别。

可选地，所述第一模态信息包括第一模态特征编码，所述处理单元620具体用于，根据所述文本特征编码、所述第一模态特征编码和第二分类层，确定在所述第一模态下的第一语音文本所指示的第一意图和所述第一槽位，所述第二分类层用于将所述第一语音文本映射到多个预设意图中的一个意图。

可选地，该处理单元620还用于，执行与所述第一意图相关的操作。

可选地，所述处理单元620具体用于，根据所述第一语音文本和第三分类层，获取所述多模态选取向量，所述第三分类层用于确定所述第一语音文本与多个预设模态中每个模态的相关的概率。

可选地，所述处理单元620具体用于，获取第二语音文本，所述第二语音文本与所述第一语音文本的内容相同；获取与所述第二语音文本匹配的第二模态信息，所述第二模态信息所指示的模态为多个预设模态中的第二模态，所述第二模态和所述第一模态不同；根据所述第二语音文本和所述第二模态信息，确定当所述第二语音文本匹配所述第二模态信息时所述第二语音文本所指示的第二意图和第二槽位，所述第二意图和所述第一意图不同，和/或所述第二槽位和所述第一槽位不同。

图9是本申请实施例提供的语音识别装置的硬件结构示意图。图9所示的语音识别装置700(该装置700具体可以是一种电子设备)包括存储器710、处理器720、通信接口730以及总线740。其中，存储器710、处理器720、通信接口730通过总线740实现彼此之间的通信连接。

存储器710可以是ROM，静态存储设备，动态存储设备或者RAM。存储器710可以存储程序，当存储器710中存储的程序被处理器720执行时，处理器720用于执行本申请实施例的语音识别方法的各个步骤。

处理器720可以采用通用的CPU，微处理器，ASIC，GPU或者一个或多个集成电路，用于执行相关程序，以实现本申请实施例的语音识别装置中的单元所需执行的功能，或者执行本申请方法实施例的语音识别方法。

处理器720还可以是一种集成电路芯片，具有信号的处理能力。在实现过程中，本申请的语音识别的方法的各个步骤可以通过处理器720中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器720还可以是通用处理器、DSP、ASIC、FPGA或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器710，处理器720读取存储器710中的信息，结合其硬件完成本申请实施例的语音识别装置中包括的单元所需执行的功能，或者执行本申请方法实施例的语音识别的方法。

通信接口730使用例如但不限于收发器一类的收发装置，来实现装置700与其他设备或通信网络之间的通信。例如，可以通过通信接口730获取描述文件或者描述文件对应的第一路径集合。

总线740可包括在装置700各个部件(例如，存储器710、处理器720、通信接口730)之间传送信息的通路。

应注意，尽管图9所示的装置700仅仅示出了存储器、处理器、通信接口，但是在具体实现过程中，本领域的技术人员应当理解，装置700还包括实现正常运行所必须的其他器件。同时，根据具体需要，本领域的技术人员应当理解，装置700还可包括实现其他附加功能的硬件器件。此外，本领域的技术人员应当理解，装置700也可仅仅包括实现本申请实施例所必须的器件，而不必包括图9中所示的全部器件。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种语音识别的方法，其特征在于，包括：

获取第一语音文本；

2.根据权利要求1所述的方法，其特征在于，所述根据所述第一语音文本，获取与所述第一语音文本匹配的第一模态信息，包括：

根据所述第一语音文本，获取多模态选取向量，所述多模态选取向量指示所述第一语音文本与所述多个预设模态中每个模态的相关的概率；

根据所述多模态选取向量，获取所述第一模态信息。

3.根据权利要求2所述的方法，其特征在于，根据第一语音文本，获取多模态选取向量，包括：

确定所述第一语音文本所属的第一语境类别；

4.根据权利要求3所述的方法，其特征在于，根据所述第一语境类别，获取多模态选取向量，包括：

根据所述第一语境类别和第一映射矩阵，获取所述多模态选取向量，所述第一映射矩阵指示多个语境类别和多个多模态选取向量，每个所述多模态选取向量指示一个或多个模态，所述多个语境类别和所述多个多模态选取向量一一对应。

5.根据权利要求2至4任一项所述的方法，其特征在于，所述方法还包括：

获取所述多个预设模态的模态信息。

6.根据权利要求5所述的方法，其特征在于，所述方法还包括，根据所述多模态选取向量和所述多个预设模态的模态信息，获取所述第一模态信息。

7.根据权利要求3至6任一项所述的方法，其特征在于，所述确定第一语音文本所属的第一语境类别，包括：

根据所述第一语音文本和/或所述第一语音文本的上下文信息，确定所述第一语音文本所属的第一语境类别。

8.根据权利要求7所述的方法，其特征在于，所述根据所述第一语音文本和/或所述第一语音文本的上下文信息，确定所述第一语音文本所属的第一语境类别，包括：

获取所述第一语音文本和/或所述第一语音文本的上下文信息的文本特征编码；

根据所述文本特征编码和第一分类层，确定第一语音文本所属的第一语境类别，所述第一分类层用于将所述第一语音文本映射到多个预设语境类别中的一个语境类别。

9.根据权利要求8所述的方法，其特征在于，所述第一模态信息包括第一模态特征编码，

所述根据所述第一语音文本和所述第一模态信息，确定当所述第一语音文本匹配所述第一模态信息时所述第一语音文本所指示的第一意图和第一槽位，包括：

根据所述文本特征编码、所述第一模态特征编码和第二分类层，确定在所述第一模态下的第一语音文本所指示的第一意图和所述第一槽位，所述第二分类层用于将所述第一语音文本映射到多个预设意图中的一个意图。

10.根据权利要求1所述的方法，其特征在于，所述方法还包括：

执行与所述第一意图相关的操作。

11.根据权利要求2所述的方法，其特征在于，所述根据所述第一语音文本，获取多模态选取向量，包括：

根据所述第一语音文本和第三分类层，获取所述多模态选取向量，所述第三分类层用于确定所述第一语音文本与多个预设模态中每个模态的相关的概率。

12.根据权利要求1至11任一项所述的方法，其特征在于，所述方法还包括：

获取第二语音文本，所述第二语音文本与所述第一语音文本的内容相同；

获取与所述第二语音文本匹配的第二模态信息，所述第二模态信息所指示的模态为多个预设模态中的第二模态，所述第二模态和所述第一模态不同；

根据所述第二语音文本和所述第二模态信息，确定当所述第二语音文本匹配所述第二模态信息时所述第二语音文本所指示的第二意图和第二槽位，所述第二意图和所述第一意图不同，和/或所述第二槽位和所述第一槽位不同。

13.一种语音识别的装置，其特征在于，包括：

获取单元，用于获取第一语音文本；

处理单元，用于：

14.根据权利要求13所述的装置，其特征在于，所述处理单元具体用于：

根据所述多模态选取向量，获取所述第一模态信息。

15.根据权利要求14所述的装置，其特征在于，所述处理单元具体用于：

确定所述第一语音文本所属的第一语境类别；

根据所述第一语境类别，获取多模态选取向量，所述多模态选取向量指示所述第一语境类别与所述多个预设模态中每个模态的相关的概率。

16.根据权利要求15所述的装置，其特征在于，所述处理单元具体用于：

17.根据权利要求14至16任一项所述的装置，其特征在于，所述处理单元还用于获取所述多个预设模态的模态信息。

18.根据权利要求17所述的装置，其特征在于，所述处理单元具体用于：

根据所述多模态选取向量和所述多个预设模态的模态信息，获取所述第一模态信息。

19.根据权利要求15至18任一项所述的装置，其特征在于，所述处理单元具体用于：

20.根据权利要求19所述的装置，其特征在于，所述处理单元具体用于：

21.根据权利要求20所述的装置，其特征在于，所述第一模态信息包括第一模态特征编码，

所述处理单元具体用于：

根据所述文本特征编码、所述第一模态特征编码和第二分类层，确定在所述第一模态下的第一语音文本所指示的意图和所述意图对应的槽位，所述第二分类层用于将所述第一语音文本映射到多个预设意图中的一个意图。

22.根据权利要求13所述的装置，其特征在于，所述处理单元还用于执行与所述第一意图相关的操作。

23.根据权利要求14所述的装置，其特征在于，所述处理单元具体用于，根据所述第一语音文本和第三分类层，获取所述多模态选取向量，所述第三分类层用于确定所述第一语音文本与多个预设模态中每个模态的相关的概率。

24.根据权利要求13至23任一项所述的装置，其特征在于，所述处理单元还用于：

25.一种语音识别装置，其特征在于，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述存储器中存储的计算机程序，以使得所述装置执行如权利要求1至12中任一项所述的方法。

26.一种计算机可读介质，所述计算机可读介质存储有程序代码，当所述程序代码在计算机上运行时，使得计算机执行如权利要求1至12中任一项所述的语音识别的方法。

27.一种计算机程序产品，其特征在于，所述计算机程序产品包括：计算机程序代码，当所述计算机程序产品在计算机上运行时，使得所述计算机执行如权利要求1至12中任一项所述的语音识别的方法。