CN115662397B

CN115662397B - 语音信号的处理方法、装置、电子设备及存储介质

Info

Publication number: CN115662397B
Application number: CN202211699692.4A
Authority: CN
Inventors: 杨松; 刘兵; 王潇; 钱胜; 吴震; 王海峰; 贾磊
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2022-12-29
Filing date: 2022-12-29
Publication date: 2023-04-18
Anticipated expiration: 2042-12-29
Also published as: CN115662397A

Abstract

本公开提供了一种语音信号的处理方法、装置、电子设备及存储介质，涉及人工智能技术领域，尤其涉及自然语言处理、深度学习以及人机交互技术领域。具体实施为：基于声学模型确定语音信号的声学模型得分；基于语言模型确定语音信号的语言模型得分，并确定语言模型针对语音信号的隐层数据；基于声学模型得分和语言模型得分，确定语音信号的语音识别结果；复用隐层数据，执行目标操作；目标操作包括以下中的至少一种：确定语音识别结果的完整度、对语音识别结果进行语义解析。本公开通过对隐层数据的复用，减少了重复计算，节约了资源，提高了交互效率。

Description

语音信号的处理方法、装置、电子设备及存储介质

技术领域

本公开涉及人工智能技术领域，尤其涉及自然语言处理、深度学习以及人机交互技术领域。

背景技术

随着人工智能和人机交互的不断发展，用户对于语音交互功能的要求越来越高。例如，期望采用语音识别系统得到更准确的识别效果、能够灵活理解用户的意图，并期望具有更快的响应速度等。为满足用户需求，实现相关功能的语音识别系统对算力和服务器资源的消耗也随之增大。

发明内容

本公开提供了一种语音信号的处理方法、装置、电子设备及存储介质。

根据本公开的一方面，提供了一种语音信号的处理方法，包括：

基于声学模型确定语音信号的声学模型得分；

基于语言模型确定语音信号的语言模型得分，并确定语言模型针对语音信号的隐层数据；

基于声学模型得分和语言模型得分，确定语音信号的语音识别结果；

复用隐层数据，执行目标操作；目标操作包括以下中的至少一种：确定语音识别结果的完整度、对语音识别结果进行语义解析。

根据本公开的另一方面，提供了一种语音信号的处理装置，包括：

声学模型得分模块，用于基于声学模型确定语音信号的声学模型得分；

语言模型得分模块，用于基于语言模型确定语音信号的语言模型得分，并确定语言模型针对语音信号的隐层数据；

识别模块，用于基于声学模型得分和语言模型得分，确定语音信号的语音识别结果；

复用模块，用于复用隐层数据，执行目标操作；目标操作包括以下中的至少一种：确定语音识别结果的完整度、对语音识别结果进行语义解析。

根据本公开的另一方面，提供了一种电子设备，包括：

至少一个处理器；以及，

与该至少一个处理器通信连接的存储器；其中，

该存储器存储有可被该至少一个处理器执行的指令，该指令被该至少一个处理器执行，以使该至少一个处理器能够执行本公开中任一语音信号的处理方法。

根据本公开的另一方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，该计算机指令用于使该计算机执行本公开中任一语音信号的处理方法。

根据本公开的另一方面，提供了一种计算机程序产品，包括计算机程序，该计算机程序在被处理器执行时实现本公开中任一语音信号的处理方法。

本公开通过对隐层数据的复用，减少了重复计算，节约了资源。还使得语言模型和复用隐层数据的模型间采用同样的特征进行处理，能够克服共用隐层数据的不同模型间特征不对齐的情况。进而，可以准确的理解用户意图，提高交互的准确性。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

在附图中，除非另外规定，否则贯穿多个附图相同的附图标记表示相同或相似的部件或元素。这些附图不一定是按照比例绘制的。应该理解，这些附图仅描绘了根据本申请公开的一些实施方式，而不应将其视为是对本申请范围的限制。

图1是根据本公开一实施例提供的语音识别系统的框架示意图；

图2是根据本公开一实施例提供的一种语音信号处理方法的流程示意图；

图3是根据本公开一实施例提供的语言模型的关键部分的结构示意图；

图4是根据本公开一实施例提供的切分出完整子句的方法的流程示意图；

图5是根据本公开一实施例提供的音节标注结果的示意图；

图6是根据本公开又一实施例提供的对语音识别结果进行标注的方法的流程示意图；

图7是根据本公开一实施例提供的切分模型的结构示意图；

图8是根据本公开一实施例提供的语义解析方法的流程示意图；

图9是根据本公开一实施例提供的语义解析模型的结构示意图；

图10是根据本公开一实施例提供的确定置信度的方法的流程示意图；

图11是根据本公开一实施例提供的声学模型的示意图；

图12是根据本公开一实施例提供的置信度确定模型的结构示意图；

图13是根据本公开又一实施例提供的语音识别系统的结构示意图；

图14是根据本公开一实施例的语音信号处理装置的结构示意图；

图15是用来实现本公开实施例的语音信号处理方法的电子设备的框图。

具体实施方式

有关本申请的详细说明和技术内容，配合图式说明如下，然而所附图式仅提供参考与说明用，非用以限制本申请。

随着人工智能技术的发展，越来越多的人工智能产品进入了人们的生活中，例如智能家居、智能音箱、智能机器人等。用户只需要对着这些智能设备说出自己的意图，智能设备就会给出相应的回应。例如用户说“打开电视”，智能电视就会自动打开。

用户与智能设备的交互是基于语音识别系统实现的。如图1所示，为该系统的框架示意图。该系统主要由声学模型、语言模型、完整度判定模型、语义解析模型和置信度确定模型组成。其中，声学模型和语言模型对用户发出的语音信号进行语音识别，得到语音识别结果；语义解析模型再对语音识别结果进行语义解析，智能设备基于语义解析结果确定响应内容，并完成与用户间的交互。在这个过程中，为了能够准确地理解用户意图，如图1所示，还包括在语义解析前采用完整度判定模型对语音识别结果进行完整度的判定。在判断语音识别结果完整的情况下，采用语义解析模型进行语义解析。在获得语义解析结果后，如图1所示，采用置信度确定模型得到语义解析结果的置信度，根据置信度情况确定是否完成响应。

由图1可知，语音识别系统中包括多个神经网络模型。各模型独占资源的情况下，对设备性能要求较高。由此，语音识别系统的整个处理过程，将由服务端来完成，或者，部分资源消耗少的操作在客户端完成，主要的部分仍由服务端完成。

有鉴于此，本公开实施例提出了一种语音信号的处理方法，以期望能够降低语音识别系统对资源的占用和消耗。如图2所示，该方法包括：

S201、基于声学模型确定语音信号的声学模型得分。

在一些实施例中，语音信号输入至声学模型后，声学模型将每帧语音信号转化为特征向量，再基于特征向量计算各音素的概率。将每一帧的概率相乘，得到声学模型得分。例如，语音信号为“打开”，在声学模型中计算得到第一个音素为d的概率为p1、第二个因素为a的概率为p2、第三个音素为k的概率为p3、第四个音素为a的概率为p4，第五个音素为i的概率为p5，则“da kai ”的声学模型得分P如公式1所示，为：

（公式1）

S202、基于语言模型确定语音信号的语言模型得分，并确定语言模型针对语音信号的隐层数据。

隐层数据，即语言模型对语音信号提取的高层次特征，该特征具有较强的表达能力，能够准确地描述语音信号。

S203、基于声学模型得分和语言模型得分，确定语音信号的语音识别结果。

实施时，通过解码搜索的方式处理声学模型得分和语言模型得分，进而得到语音识别结果。

S204、复用隐层数据，执行目标操作。目标操作包括以下中的至少一种：确定语音识别结果的完整度、对语音识别结果进行语义解析。

综上，通过对语言模型中隐层数据的复用，语义解析模型和完整度判定模型中，至少一个模型可以不必单独地再次对语音信号进行特征提取，从而将语言模型和复用隐层数据的模型构建成不可分割的模型，可实现端到端的训练，提高模型训练的效率。而且，复用隐层数据的模型，可以减少重复的计算，减少独占资源，达到节约资源的效果。此外，不同模型独立提取语音信号的特征，导致不同模型对同一语音信号的特征有差异，导致不同模型采用不同的特征分别进行处理，最终会降低人机交互的准确性。而通过复用隐层数据，则可以使得不同模型间采用同样的特征进行处理，能够克服共用隐层数据的不同模型间特征不对齐的情况。进而，可以准确地理解用户意图，提高交互的准确性。

本公开实施例中，完整度判定模型可以复用隐层数据，语义解析模型也可以复用隐层数据。除此之外，声学模型提取的特征也能够被后续的置信度确定模型所复用。由此，得到语音识别结果的模型（包括声学模型、语言模型），及其下游的模型（包括完整度判定模型、语义解析模型、置信度确定模型）能够串联成不可分割的模型，使得完整度判定模型、语义解析模型、置信度确定模型不再独占资源，可减少资源消耗。经过复用隐层数据和声学模型提取的特征，可实现对整个语音识别系统的端到端训练。语音识别系统对资源的性能要求降低，进而可将语音识别系统部署到终端侧实现，由此还能够避免网络通信质量带来的交互延迟的问题，提高人机交互的速度。

为便于理解，下面对本公开实施例所涉及的主要方面进行说明。

一、获取语言模型的隐层数据

在一些实施例中，将语音信号输入至语言模型后，语言模型将一个句子的概率拆解成其中每个词的概率之积。在传统的语言模型中，这种积的计算为链式法则。在本公开实施例中，使用的语言模型可以为NNLM（Neural Network Language Model，神经网络语言模型）。以语音信号为“打开电视”为例计算NNLM模型计算语言模型得分。计算得“打”的概率为p21，“开”的概率为p22，“电”的概率为p23，“视”的概率为p24。则NNLM语言模型针对输入的“打开电视”这一语音信号的语言模型得分P’如公式2所示为：

(公式2)

NNLM模型包括输入层、隐层、输出层。其中，输入层可以将语音信号转化为词向量，输出层可以输出语言模型得分。而处在输入层与输出层间的隐层可以为一个全连接层，在隐层进行了如下公式3所示的计算：

（公式3）

在公式3中，tanh为隐层的计算方式，H为神经网络连接权重，d为偏置，x为输入层得到的词向量，Z为输出。在输入层中得到的词向量维度为V*y，其中，V为词库中单词的数量，y为词向量的维度，此时H和Z均为（V*y，h）的矩阵，其中h为隐层中神经元的数量。隐层的输出Z中包含大量的信息，可被其他模型所复用。本公开实施例中隐层数据即隐层输出的Z。

在本公开实施例所使用的语言模型中，包括m个串联的lstm（long short-termmemory，长短期记忆网络），用于提取各音节的特征。m为正整数。隐层数据则为m个长短期记忆网络中指定位置的长短期记忆网络的输出特征。

如图3所示，为本公开实施例所使用的语言模型的关键部分结构示意图。语音信号输入语言模型后，在经过一个全连接层后，会经过4个长短期记忆网络（图中的lstm），经过归一层后，得到语言模型得分。如图3所示，在语言模型中，指定第3个长短期记忆网络为指定位置，则第3个长短期记忆网络输出的特征为隐层数据。

使用指定位置的长短期记忆网络的输出特征作为隐层数据，可以使得隐层数据具有更强的特征表现能力，后续通过复用更加具有表现能力的隐层数据，不仅能够节约资源，还能够提高人机交互的准确性。

二、完整度判定模型（后文亦称之为切分模型）

本公开实施例中，完整度判定模型可以对整个语音识别结果是否完整进行判断。例如，“关闭车窗打开空调”这一整个语音识别结果是完整的，而“关闭车窗打开”这一整个语音识别结果是不完整的。

但是，当语音信号中包括多个指令，例如“关闭车窗打开空调”是两个指令，语音识别系统对整个语音识别结果进行语义解析的时候可能无法准确识别出各个指令，并导致最终无法响应。

为了使得语音识别系统能够准确灵活地响应语音信号，本公开实施例中完整度判定模型不局限于对整个语音识别结果是否完整进行判定。而是，将包含多个指令的语音识别结果切分为不同指令，以便于完整地响应每个指令。

为达到该目的，本公开实施例中，将完整度判定模型重新定义为切分模型。

实施时，可理解为语音识别结果中包括一个或多个子句。将语音识别结果输入至切分模型中，切分模型将复用隐层数据，确定语音识别结果的完整度。整个完整度判断的过程可实现为对每个子句的完整度的识别，以此从整个语音识别结果中切分出各个完整的子句。可实施为如图4所示的切分出完整子句的方法流程，包括：

S301、从隐层数据中获取语音识别结果中各音节的隐层信息。

隐层数据中涵盖的是整个语音识别结果的特征，其中语音识别结果中每个音节的特征（即音节的隐层信息）都包含在内，且是相互独立的。因此，可从语音识别结果的隐层数据中提取出各个音节的隐层信息。

S302、基于各音节的隐层信息，从目标类别集合中筛选出各音节匹配的类别，并将各音节标注为匹配的类别。目标类别集合包括：子句的开始音节、子句的中间音节和子句的结束音节。

在一些实施例中，使用BME（beginmiddleend，开始中间结束）进行各音节的标注，其中B为子句的开始音节，M为子句的中间音节，E为子句的结束音节。例如，如图5所示，针对“打开电视”这一语音识别结果，其中每个字符可依序标注为“BMME”。

S303、在得到同一子句的开始音节和结束音节的情况下，确定从语音识别结果中识别到完整的子句。

例如，对上文中的“打开电视”，具有开始音节“打”和结束音节“视”，则将“打开电视”确定为完整子句。

由此，通过复用隐层数据，可节约算力和服务器资源。在此基础上，使用标注的方法确定每个音节的类别，在得到同一子句的开始音节和结束音节的情况下，确定切分出完整的子句，进而可以将包含多个子句的语音识别结果切分为不同子句。无需等待整个语音识别结果的处理结果，可实时切分出各个完整子句，进而可以提高对每个指令的完整性判断的速度；同时，通过切分出子句，可以为实时地对每个子句进行语义解析提供了可能，进而提高了交互的速度，也能够针对每个子句分别得到响应结果。

例如，如果语音识别结果为包含多个子句的复合句，切分模型将会依据标注结果将其切分为多个子句。仍如图5所示，语音识别结果为“打开电视关闭空调”，使用BME方法对其标注得到的结果为“BMMEBMME”，切分模型会将其切分为“打开电视”和“关闭空调”两个子句。后续，语义解析模型可针对每个子句单独进行语义解析，提高对语音信号理解的准确性。用户不必每次仅发一个指令，可连续发送多个指令。由此，能够提高语音识别系统对用户意图理解的灵活性。

为了能够准确地切分出不同子句，执行步骤S302时，可基于如图6所示的方法对语音识别结果进行标注：

S401、针对当前音节，获取当前音节的前n音节，n为正整数。

S402、对当前音节的隐层信息和前n音节的隐层信息进行特征提取，得到中间特征。

S403、基于中间特征和前n音节的标注结果对当前音节进行分类处理，得到当前音节属于目标类别集合中各类别的概率。

S404、选择概率最大值对应的类别作为当前音节匹配的类别。

例如，使用BME方法对“打开电视”进行标注时，“打”标注为B的概率为0.8，标注为M的概率为0.15，标注为E的概率为0.05，则会将B作为“打”的类别进行标注。

可以理解的是，概率最大值应大于指定阈值，才能保证标注的类别是可信的。也即，在概率最大值大于指定阈值的情况下，完成对相应音节的标注。

结合前n个音节，对当前音节的类别进行标注，能够结合上下文理解当前音节，提高标注的准确性。其中，获得每个音节属于目标类别集合的概率，选择概率最大值对应的类别作为当前音节匹配的类别，可以进一步提高标注的准确性，进而能够准确地将完整的子句切分出来。准确地切分完整子句，对后续的流程提供数据基础，最终提高交互的速度的准确性。

在实施时，采用前n音节对当前音节进行标注的同时，还可以对前n音节重新标注，以提高每个音节标注的准确性。如图6所示，具体可实施为：

S405、基于中间特征和前n音节的标注结果，对前n音节进行分类处理，得到前n音节的属于目标类别集合中各类别的概率。

S406、基于前n音节属于目标类别集合中各类别的概率最大值，更新前n类别的标注结果。

仍以标注“打开电视”为例，首先采用默认音节作为第一个音节“打”的前一音节，默认音节和“打”拼接在一起，对“打”进行标注。假设“打”标注为B、M、E的概率分别为0.8、0.15、0.05，选择将“打”标注为B。而后，基于“打开”对“开”进行标注时，同时再次对“打”进行标注，相当于采用了“打”之前的音节和之后的音节对“打”的标注结果进行调整，可提升“打”标注为B的概率，同时降低“打”标注为M和E的概率。以此类推每个音节都能够提高标注的准确性。

使用当前音节对当前音节之前的音节进行标注，可以降低因错误分类导致的标注错误的可能，提高标注的准确性，进而提高切分子句的准确性。在此基础上，语音识别系统，能够基于准确切分出的子句，灵活地理解用户意图，提高语音识别系统语音交互的准确性和灵活性。

为便于理解，下面将以n取1为例，介绍切分模型对音节进行标注的流程。如图7所示，为本公开实施例中切分模型的结构示意图。切分模型包括两个预测网络（即图7中的第一预测网络和第二预测网络），可同时对两个音节分别进行标注。在切分模型中包含两种输入，分别为语音识别结果和语言模型的隐层数据。假设输入至切分模型的语音识别结果为“打开电视”，并对“打”进行标注时，采用默认数据对“打”的隐层信息进行补充，并输入至切分模型中的特征提取网络进行特征提取，得到中间特征。切分模型的特征提取网络包括一个全连接层和三层长短期记忆网络，在最后一个长短期记忆网络中完成对中间特征的提取。在得到中间特征后，将中间特征和前一音节的标注结果（可配置第一个音节的前一音节的标注结果为默认值，如0表示是补充的音节）输入至第一预测网络完成对“打”的标注，通过第二预测网络完成对上一音节的标注。对“开”进行标注时，将“开”的前一音节“打”的隐层信息一同输入到切分模型中的特征提取网络中，得到中间特征，而后将中间特征输入到第一预测网络完成对“开”的标注，并将中间特征和对“打”的标注一起输入第二预测网络，完成对“打”的标注的修正。如图7所示，第一预测网络和第二预测网络的结构相同，包括：全连接层和分类层。也即图7中第一预测网络包括全连接层1和分类层1，第二预测网络包括全连接层2和分类层2。

基于类似的处理方式，完成对最后一个音节“视”的标注，实现将“视”标注为句子的结束音节后，从语音信号中的识别出子句“打开电视”的开始音节“打”和子句的结束音节“视”，判定其为完整子句，将其输入语义解析模型中。

以此类推，在n大于1的情况下，图7所示的切分模型中，在特征提取网络的基础上，可以具有n个预测网络，以便于每个预测网络负责对相应音节的标注。

三、语义解析模型

在确定语音识别结果的完整度后，语义解析模型会复用隐层数据，对语音识别结果进行语义解析。

当完整性判断模型对整个语音识别结果进行判定时，语义解析模型会解析整个语音识别结果。

当然，在另一种实施方式中，当采用切分模型确定每个子句的完整性，并切分出各个子句的情况下，语义解析模型则会对每个子句进行解析。如图8所示为对完整子句进行语义解析的流程示意图，具体可实施为：

S501、每当识别到完整子句的情况下，从隐层数据中获取完整子句的隐层信息。

在一些实施例中，当切分模型标注出一个句子的结束音节时，可及时告知语音识别系统进行下一步语义解析的操作，从而可以提高对语义解析的速度，最终提高语音识别系统整体的响应速度。

继续采用前面的例子，使用BME方法对“打开电视关闭空调”这句话进行标注时，对“视”字的标注为E，无需等待“关闭空调”的处理结果，即可提前对“打开电视”这个子句进行语义解析，并获取对应的响应信息以便于交互时使用。

S502、对完整子句的隐层信息进行语义解析，得到完整子句的语义解析结果。

综上可知，复用隐层数据，可以降低对算力和服务器资源的消耗；在子句完整时，不必等待整个语音识别结果的完整性判断结果，即可提前进行语义解析，从而可提高人机交互的响应速度。

在一些实施例中，可基于完整子句的隐层信息，解析完整子句所属的领域、意图以及槽位信息，得到完整子句的语义解析结果。以“查询北京明天天气”这句话为例，领域为天气，意图为查询天气；槽位分为两种：时间槽位和位置槽位，时间槽位为明天，位置槽位为北京，以此获得完整子句的语义解析结果。并可以进一步获取到北京明天的天气用于人机交互。

复用隐层信息，可以降低对算力和服务器资源的消耗，并能够准确确定子句的领域、意图以及槽位信息。在此基础上得到语义解析结果，可以提高语义解析的速度和准确性，进而可准确地响应用户的语音信号，提高交互的速度和准确性。

可以理解的是，本公开实施例在得到完整子句的语义解析结果后，针对每个完整子句，基于语义解析结果，确定出该完整子句的响应信息。

以“关闭车窗打开空调”为例，由切分模型可得到“关闭车窗”是一个完整子句，“打开空调”是另一个完整子句。在分别对每个完整子句进行语义解析后，得到需要做出“将车窗关闭”和“将空调打开”两个动作来响应语音信号。当语音信号的置信度满足响应条件后，执行上述两个动作。

综上，本公开实施例对多个子句均可分别进行语义解析，以此实现对复合子句的响应。由于能够满足连续多个指令的需求，能够提高语音识别系统交互的准确性和灵活性。

如图9所示，为语义解析模型的结构示意图。在语义解析模型中有两个编码器：领域&意图编码器和槽位编码器。领域&意图编码器可以得到完整子句所属的领域以及意图，槽位编码器可以得到完整子句的槽位信息，包括槽位类型和槽位索引。例如输入的完整子句为“查询北京明天天气”，则领域&意图编码器输出领域为天气，意图为查询天气；槽位编码器输出时间槽位为明天，位置槽位为北京。

四、置信度确定模型

如前文所阐述的，本公开实施例还提供置信度确定模型，用于确定语义解析结果的置信度，如图10所示，确定置信度的方法包括：

S601、获取声学模型针对语音信号提取的声学特征。

在一些实施例中，为了置信度判断的准确性，选择相对具有较强特征表达能力的声学特征。例如通过SMLTA（Streaming Multi-Layer Truncated Attention，流式多级的截断注意力）模型得到的smlta_c（声学特征），即声学模型的隐含特征。该模型基于历史信息抽象的流式截断conformer（卷积增强的注意力机制）建模技术，相比于一般声学模型的声学特征，其具有更优异的语音处理能力，能够得到更强的特征表达能力。

如图11所示，为本公开实施例所使用的声学模型即SMLTA模型的结构示意图。将语音信号输入SMLTA模型进行编码解码，除了在声学模型的声学解码器中得到声学模型得分，还将在声学模型的声学解码器中得到smlta_c特征用来确定语义解析结果的置信度。

S602、将至少包含声学特征和语音识别结果在内的多模态特征，输入置信度确定模型，得到语音识别结果中每个音节的置信度、以及语音识别结果的置信度。

获得语音识别结果的置信度，可以确定语音信号的语音识别结果和语义解析结果是否可信。由此，能够为是否采用响应信息进行人机交互提供判断依据，从而减少对无效语音信号的响应。本公开实施例中通过复用声学特征，也可降低置信度的判定对算力和服务器资源的消耗，避免置信度确定模型独占资源。

在一些实施例中，如图12所示为置信度确定模型的结构示意图，置信度确定模型可包括编码器、音节置信度解码器、整体置信度解码器。实施时，可以基于置信度确定模型的编码器对多模态特征中的声学特征进行编码，得到编码特征；基于音节置信度解码器对多模态特征中除声学特征之外的特征、以及编码特征进行解码处理，得到每个音节的置信度以及音节置信度解码器提取的音节特征；将音节置信度解码器提取的音节特征以及编码特征输入整体置信度解码器，得到语音识别结果的置信度。

先确定每个音节的置信度，再将每个音节的特征作为输入，与编码特征一起，确定语音识别结果的置信度，可以提高语音识别结果的置信度的准确性，进而提高人机交互的准确性。

在一些实施例中，为了提高置信度判断的准确性，用于确定置信度的多模态特征还包括以下中的至少一种：声学模型的前L条文本路径各自的得分、语音信号的上下文会话信息、语音识别结果的语义解析结果等。其中，声学模型的前L条文本路径可理解为声学模型得分最高的L种结果，L为正整数。

实施时，可如图12所示，对声学特征进行编码，得到编码特征，编码特征共享给音节置信度解码器和整体置信度解码器。音节置信度解码器采用多模态特征中的其他特征确定各音节的置信度，该音节置信度解码器中间可包括多个神经网络层，指定神经网络层（图中未示出）输出的特征可以为音节的特征，共享给整体置信度解码器进行解码，得到语音识别结果的置信度。

一些可能的实施方式中，音节置信度解码器的多个神经网络层中，中间的神经网络层可以为全连接层，全连接层输出的特征可交由至少一组由自注意力机制和交叉注意力机制的模块进行处理，以便于确定各音节置信度。

使用多种特征判断置信度，可以提高置信度的准确性；同时，上述多种特征均可在前面的环节中获得，从而通过复用已经得到的特征，可进一步降低对算力和服务器资源的消耗。

五、语音信号的响应信息

为便于确定是否响应语音信号，本公开实施例中设置响应条件。

在确定置信度的情况下，将每个音节的置信度和语音识别结果的置信度与响应条件进行匹配操作。实施时，可根据实际情况确定响应条件。例如响应条件为每个音节的置信度大于第一置信度阈值；或者，响应条件为语音识别结果的置信度大于第二置信度阈值；亦或者，响应条件为音节的置信度大于第一置信度阈值且语音识别结果的置信度大于第二置信度阈值。其中，第一置信度阈值和第二置信度阈值可基于模型训练结果和实际需求设置。

在与响应条件匹配的情况下，基于语音识别结果的语义解析结果，响应语音信号中的每个子句。

在响应条件不匹配的情况下，将不响应语音信号，同时，可向用户提示无法准确识别语音信号的信息。

在满足响应条件的情况下响应语音信号，可减少对无效语音信号请求的响应，提高响应语音信号的准确性，降低因对无效语音信号的响应造成的资源浪费。

综上，本公开还提供了语音识别系统，如图13所示，该系统包括声学模型、语言模型、切分模型、语义解析模型和置信度确定模型。

处理流程如图13所示，语音信号输入该系统后，先由声学模型和语言模型对其进行识别，采用解码搜索方法对声学模型和语言模型的输出进行解码处理，得到语音识别结果，同时获取到声学模型对语音信号进行处理所得的声学特征以及语言模型的隐层数据。

如图13所示，在该系统中，对多个模型的参数以及输出结果进行复用，例如切分模型复用了语音识别结果和语言模型的隐层数据；语义解析模型共享了语音识别结果和语言模型的隐层数据以及切分模型的切分结果；置信度确定模型共享了声学模型的声学特征和声学模型得分、语音识别结果以及语义解析模型的语义解析结果等。通过复用，无需对语音信号进行重复计算，从而达到节省算力和内存的目的。由此，可实现端到端的建模，避免了模型参数计算时不一致的问题。同时，节省了算力后，可降低对云端和网络的依赖，使整个系统可以在嵌入式设备上使用，提高了可移动性。由此，整个语音识别系统，可以快速、准确、灵活地理解用户意图并进行响应。

基于相同的技术构思，本公开实施例还提供了一种语音信号的处理装置，如图14所示，该装置包括：

声学模型得分模块1401，用于基于声学模型确定语音信号的声学模型得分；

语言模型得分模块1402，用于基于语言模型确定语音信号的语言模型得分，并确定语言模型针对语音信号的隐层数据；

识别模块1403，用于基于声学模型得分和语言模型得分，确定语音信号的语音识别结果；

复用模块1404，用于复用隐层数据，执行目标操作；目标操作包括以下中的至少一种：确定语音识别结果的完整度、对语音识别结果进行语义解析。

在一些实施例中，在复用隐层数据，确定语音识别结果的完整度的情况下，复用模块1404，包括：

获取子模块，用于从隐层数据中获取语音识别结果中各音节的隐层信息；

标注子模块，用于基于各音节的隐层信息，从目标类别集合中筛选出各音节匹配的类别，并将各音节标注为匹配的类别；目标类别集合包括：子句的开始音节、子句的中间音节和子句的结束音节；

完整子句确定子模块，用于在得到同一子句的开始音节和结束音节的情况下，确定从语音识别结果中识别到完整的子句。

在一些实施例中，标注子模块，用于：

针对当前音节，获取当前音节的前n音节，n为正整数；

对当前音节的隐层信息和前n音节的隐层信息进行特征提取，得到中间特征；

基于中间特征和前n音节的标注结果对当前音节进行分类处理，得到当前音节属于目标类别集合中各类别的概率；

选择概率最大值对应的类别作为当前音节匹配的类别。

在一些实施例中，复用模块1404，还用于：

每当识别到完整子句的情况下，从隐层数据中获取完整子句的隐层信息；

对完整子句的隐层信息进行语义解析，得到完整子句的语义解析结果。

在一些实施例中，该装置还包括：

响应确定模块，用于针对每个完整子句，基于完整子句的语义解析结果，确定完整子句的响应信息。

在一些实施例中，该装置还包括：

声学特征获取模块，用于获取声学模型针对所语音信号提取的声学特征；

置信度确定模块，用于将至少包含声学特征和语音识别结果在内的多模态特征，输入置信度确定模型，得到语音识别结果中每个音节的置信度、以及语音识别结果的置信度。

在一些实施例中，该装置还包括：

响应匹配模块，用于将每个音节的置信度和语音识别结果的置信度与响应条件进行匹配操作；

响应模块，用于在与响应条件匹配的情况下，基于语音识别结果的语义解析结果，响应语音信号中的每个子句。

在一些实施例中，多模态特征还包括：

声学模型的前L条文本路径各自的得分、语音信号的上下文会话信息、语音识别结果的语义解析结果；其中L为正整数。

在一些实施例中语言模型包括m个串联的长短期记忆网络，长短期记忆网络用于提取各音节的特征，m为正整数；

隐层数据为m个长短期记忆网络中指定位置的长短期记忆网络的输出特征。

在一些实施例中，该装置还包括：

分类模块，用于基于中间特征和前n音节的标注结果，对前n音节进行分类处理，得到前n音节的属于目标类别集合中各类别的概率；

更新模块，用于基于前n音节属于目标类别集合中各类别的概率最大值，更新前n音节的标注结果。

在一些实施例中，复用模块1404具体用于：

基于完整子句的隐层信息，解析完整子句所属的领域、意图以及槽位信息，得到完整子句的语义解析结果。

在一些实施例中，置信度确定模块，用于：

基于置信度确定模型的编码器对多模态特征中的声学特征进行编码，得到编码特征；

基于音节置信度解码器对多模态特征中除声学特征之外的特征、以及编码特征进行解码处理，得到每个音节的置信度以及音节置信度解码器提取的音节特征；

将音节置信度解码器提取的音节特征以及编码特征输入整体置信度解码器，得到语音识别结果的置信度。

本公开实施例的装置的各模块、子模块的具体功能和示例的描述，可以参见上述方法实施例中对应步骤的相关描述，在此不再赘述。

本公开的技术方案中，所涉及的用户个人信息的获取，存储和应用等，均符合相关法律法规的规定，且不违背公序良俗。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

图15示出了可以用来实施本公开的实施例的示例电子设备1500的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字助理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图15所示，设备1500包括计算单元1501，其可以根据存储在只读存储器（ROM）1502中的计算机程序或者从存储单元1508加载到随机存取存储器（RAM）1503中的计算机程序，来执行各种适当的动作和处理。在RAM 1503中，还可存储设备1500操作所需的各种程序和数据。计算单元1501、ROM 1502以及RAM 1503通过总线1504彼此相连。输入/输出（I/O）接口1505也连接至总线1504。

设备1500中的多个部件连接至I/O接口1505，包括：输入单元1506，例如键盘、鼠标等；输出单元1507，例如各种类型的显示器、扬声器等；存储单元1508，例如磁盘、光盘等；以及通信单元1509，例如网卡、调制解调器、无线通信收发机等。通信单元1509允许设备1500通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元1501可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元1501的一些示例包括但不限于中央处理单元（CPU）、图形处理单元（GPU）、各种专用的人工智能（AI）计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器（DSP）、以及任何适当的处理器、控制器、微控制器等。计算单元1501执行上文所描述的各个方法和处理，例如语音信号的处理方法。例如，在一些实施例中，语音信号的处理方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元1508。在一些实施例中，计算机程序的部分或者全部可以经由ROM 1502和/或通信单元1509而被载入和/或安装到设备1500上。当计算机程序加载到RAM 1503并由计算单元1501执行时，可以执行上文描述的语音信号的处理方法的一个或多个步骤。备选地，在其他实施例中，计算单元1501可以通过其他任何适当的方式（例如，借助于固件）而被配置为执行语音信号的处理方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、现场可编程门阵列（FPGA）、专用集成电路（ASIC）、专用标准产品（ASSP）、芯片上系统的系统（SOC）、复杂可编程逻辑设备（CPLD）、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器（RAM）、只读存储器（ROM）、可擦除可编程只读存储器（EPROM或快闪存储器）、光纤、便捷式紧凑盘只读存储器（CD-ROM）、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置（例如，CRT（阴极射线管）或者LCD（液晶显示器）监视器）；以及键盘和指向装置（例如，鼠标或者轨迹球），用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈（例如，视觉反馈、听觉反馈、或者触觉反馈）；并且可以用任何形式（包括声输入、语音输入、或者触觉输入）来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统（例如，作为数据服务器）、或者包括中间件部件的计算系统（例如，应用服务器）、或者包括前端部件的计算系统（例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互）、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信（例如，通信网络）来将系统的部件相互连接。通信网络的示例包括：局域网（LAN）、广域网（WAN）和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，也可以为分布式系统的服务器，或者是结合了区块链的服务器。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种语音信号的处理方法，包括：

基于声学模型确定语音信号的声学模型得分；

将所述语音信号输入语言模型中，基于语言模型确定所述语音信号的语言模型得分，并确定所述语言模型针对所述语音信号的隐层数据；所述语言模型包括输入层、隐层、输出层；其中，所述输入层用于将所述语音信号转化为词向量，所述输出层用于输出所述语言模型得分，所述隐层数据为所述隐层的输出；

基于所述声学模型得分和所述语言模型得分，确定所述语音信号的语音识别结果；

复用所述隐层数据，执行目标操作；所述目标操作包括以下中的至少一种：确定所述语音识别结果的完整度、对所述语音识别结果进行语义解析。

2.根据权利要求1所述的方法，其中，复用所述隐层数据，确定所述语音识别结果的完整度，包括：

从所述隐层数据中获取所述语音识别结果中各音节的隐层信息；

基于各音节的隐层信息，从目标类别集合中筛选出各音节匹配的类别，并将各音节标注为匹配的类别；所述目标类别集合包括：子句的开始音节、子句的中间音节和子句的结束音节；

在得到同一子句的开始音节和结束音节的情况下，确定从所述语音识别结果中识别到完整的子句。

3.根据权利要求2所述的方法，其中，基于各音节的隐层信息，从目标类别集合中筛选出各音节匹配的类别，包括：

针对当前音节，获取所述当前音节的前n音节，n为正整数；

对所述当前音节的隐层信息和所述前n音节的隐层信息进行特征提取，得到中间特征；

基于所述中间特征和所述前n音节的标注结果对所述当前音节进行分类处理，得到所述当前音节属于目标类别集合中各类别的概率；

选择概率最大值对应的类别作为所述当前音节匹配的类别。

4.根据权利要求2所述的方法，其中，复用所述隐层数据，对所述语音识别结果进行语义解析，包括：

每当识别到完整子句的情况下，从所述隐层数据中获取所述完整子句的隐层信息；

对所述完整子句的隐层信息进行语义解析，得到所述完整子句的语义解析结果。

5.根据权利要求4所述的方法，还包括：

针对每个完整子句，基于所述完整子句的语义解析结果，确定所述完整子句的响应信息。

6.根据权利要求1-5中任一项所述的方法，还包括：

获取所述声学模型针对所述语音信号提取的声学特征；

将至少包含所述声学特征和所述语音识别结果在内的多模态特征，输入置信度确定模型，得到所述语音识别结果中每个音节的置信度、以及所述语音识别结果的置信度。

7.根据权利要求6所述的方法，还包括：

将每个音节的置信度和所述语音识别结果的置信度与响应条件进行匹配操作；

在与所述响应条件匹配的情况下，基于所述语音识别结果的语义解析结果，响应所述语音信号中的每个子句。

8.根据权利要求6所述的方法，所述多模态特征还包括：

所述声学模型的前L条文本路径各自的得分、所述语音信号的上下文会话信息、所述语音识别结果的语义解析结果；其中L为正整数。

9.根据权利要求1所述的方法，其中，所述语言模型包括m个串联的长短期记忆网络，所述长短期记忆网络用于提取各音节的特征，m为正整数；

所述隐层数据为所述m个串联的长短期记忆网络中指定位置的长短期记忆网络的输出特征。

10.根据权利要求3所述的方法，还包括：

基于所述中间特征和所述前n音节的标注结果，对所述前n音节进行分类处理，得到所述前n音节的属于所述目标类别集合中各类别的概率；

基于所述前n音节属于所述目标类别集合中各类别的概率最大值，更新所述前n音节的标注结果。

11.根据权利要求4所述的方法，其中，对所述完整子句的隐层信息进行语义解析，得到所述完整子句的语义解析结果，包括：

基于所述完整子句的隐层信息，解析所述完整子句所属的领域、意图以及槽位信息，得到所述完整子句的语义解析结果。

12.根据权利要求6所述的方法，其中，将至少包含所述声学特征和所述语音识别结果在内的多模态特征，输入置信度确定模型，得到所述语音识别结果中每个音节的置信度、以及所述语音识别结果的置信度，包括：

基于所述置信度确定模型的编码器对所述多模态特征中的声学特征进行编码，得到编码特征；

基于音节置信度解码器对所述多模态特征中除所述声学特征之外的特征、以及所述编码特征进行解码处理，得到每个音节的置信度以及所述音节置信度解码器提取的音节特征；

将所述音节置信度解码器提取的音节特征以及所述编码特征输入整体置信度解码器，得到所述语音识别结果的置信度。

13.一种语音信号的处理装置，包括：

语言模型得分模块，用于将所述语音信号输入语言模型中，基于语言模型确定所述语音信号的语言模型得分，并确定所述语言模型针对所述语音信号的隐层数据；所述语言模型包括输入层、隐层、输出层；其中，所述输入层用于将所述语音信号转化为词向量，所述输出层用于输出所述语言模型得分，所述隐层数据为所述隐层的输出；

识别模块，用于基于所述声学模型得分和所述语言模型得分，确定所述语音信号的语音识别结果；

复用模块，用于复用所述隐层数据，执行目标操作；所述目标操作包括以下中的至少一种：确定所述语音识别结果的完整度、对所述语音识别结果进行语义解析。

14.根据权利要求13所述的装置，其中，在复用所述隐层数据，确定所述语音识别结果的完整度的情况下，所述复用模块，包括：

获取子模块，用于从所述隐层数据中获取所述语音识别结果中各音节的隐层信息；

标注子模块，用于基于各音节的隐层信息，从目标类别集合中筛选出各音节匹配的类别，并将各音节标注为匹配的类别；所述目标类别集合包括：子句的开始音节、子句的中间音节和子句的结束音节；

完整子句确定子模块，用于在得到同一子句的开始音节和结束音节的情况下，确定从所述语音识别结果中识别到完整的子句。

15.根据权利要求14所述的装置，其中，所述标注子模块，用于：

针对当前音节，获取所述当前音节的前n音节，n为正整数；

选择概率最大值对应的类别作为所述当前音节匹配的类别。

16.根据权利要求14所述的装置，其中，所述复用模块，还用于：

17.根据权利要求16所述的装置，还包括：

响应确定模块，用于针对每个完整子句，基于所述完整子句的语义解析结果，确定所述完整子句的响应信息。

18.根据权利要求13-17中任一项所述的装置，还包括：

声学特征获取模块，用于获取所述声学模型针对所述语音信号提取的声学特征；

置信度确定模块，用于将至少包含所述声学特征和所述语音识别结果在内的多模态特征，输入置信度确定模型，得到所述语音识别结果中每个音节的置信度、以及所述语音识别结果的置信度。

19.根据权利要求18所述的装置，还包括：

响应匹配模块，用于将每个音节的置信度和所述语音识别结果的置信度与响应条件进行匹配操作；

响应模块，用于在与所述响应条件匹配的情况下，基于所述语音识别结果的语义解析结果，响应所述语音信号中的每个子句。

20.根据权利要求18所述的装置，所述多模态特征还包括：

21.根据权利要求13所述的装置，其中，所述语言模型包括m个串联的长短期记忆网络，所述长短期记忆网络用于提取各音节的特征，m为正整数；

22.根据权利要求15所述的装置，还包括：

分类模块，用于基于所述中间特征和所述前n音节的标注结果，对所述前n音节进行分类处理，得到所述前n音节的属于所述目标类别集合中各类别的概率；

更新模块，用于基于所述前n音节属于所述目标类别集合中各类别的概率最大值，更新所述前n音节的标注结果。

23.根据权利要求16所述的装置，其中，所述复用模块，具体用于：

24.根据权利要求18所述的装置，其中，所述置信度确定模块，用于：

25.一种电子设备，包括：

至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-12中任一项所述的方法。

26.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行权利要求1-12中任一项所述的方法。