CN113112993A

CN113112993A - 一种音频信息处理方法、装置、电子设备以及存储介质

Info

Publication number: CN113112993A
Application number: CN202010026971.9A
Authority: CN
Inventors: 张仕良; 雷鸣
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2020-01-10
Filing date: 2020-01-10
Publication date: 2021-07-13
Anticipated expiration: 2040-01-10
Also published as: CN113112993B; EP4089671A1; WO2021139772A1; EP4089671A4; US20230047378A1

Abstract

本申请提供了一种音频信息处理方法、装置、电子设备以及存储介质。本申请提供的音频信息处理方法，包括：获得音频信息对应的第一音频特征；根据所述第一音频特征中指定时刻的音频特征和与所述指定时刻的音频特征相邻的音频特征，对所述指定时刻的音频特征进行编码，获得所述音频信息对应的第二音频特征；获得所述音频信息对应的已解码文本信息；根据所述第二音频特征和所述已解码文本信息，获得所述音频信息对应的文本信息。本申请提供的音频信息处理方法，在获得第二音频特征以及根据第二音频特征和已解码文本信息获得音频信息对应的文本信息的过程中，需要的参数较少，从而降低了音频信息处理过程中的计算复杂度，提高了音频信息处理的效率。

Description

一种音频信息处理方法、装置、电子设备以及存储介质

技术领域

本申请涉及计算机技术领域，具体涉及一种音频信息处理方法、装置、电子设备以及存储介质。

背景技术

随着计算机技术和物联网技术的发展，越来越多的智能设备开始支持人机语音交互。在人机语音交互过程中，智能设备需要采集与用户指令相关的语音信息，并进一步根据用户指令做出相应的反馈，从而实现人机语音交互。在用户与智能设备进行人机语音交互过程中，智能设备如何识别用户指令相关的语音信息成为完成人机语音交互的关键。传统的语音识别方法一般基于ASR(Automatic Speech Recognition，自动语音识别技术)的语音识别技术，传统的语音识别方法训练流程繁琐，需要引入很多人为设定的先验知识，此外，传统的语音识别方法还需要单独训练声学模型和语言模型，没法获得联合优化带来的收益。

近年来端到端的语音识别方法在语音识别领域得到了越来越多的关注。端到端的语音识别方法将传统语音识别方法中的声学模型和语言模型统一为一体，能够直接根据音频信息，得到音频信息对应的文本信息，从而简化了语音识别的过程。现有的端到端语音识别方法主要基于RNN(Recurrent Neural Network，循环神经网络)或者CNN(ConvolutionalNeural Networks，卷积神经网络)的神经网络。但是，基于RNN或者CNN的端到端语音识别方法往往会存在由计算复杂度高而导致语音识别效率低的问题。

发明内容

本申请提供一种音频信息处理方法、装置、电子设备和存储介质，以降低音频信息处理过程中的计算复杂度，提高音频信息处理的效率。

本申请提供一种音频信息处理方法，包括：

获得音频信息对应的第一音频特征；

根据所述第一音频特征中指定时刻的音频特征和与所述指定时刻的音频特征相邻的音频特征，对所述指定时刻的音频特征进行编码，获得所述音频信息对应的第二音频特征；

获得所述音频信息对应的已解码文本信息；

根据所述第二音频特征和所述已解码文本信息，获得所述音频信息对应的文本信息。

可选的，所述根据所述第一音频特征中指定时刻的音频特征和与所述指定时刻的音频特征相邻的音频特征，对所述指定时刻的音频特征进行编码，包括：

在与所述指定时刻的音频特征相邻的音频特征中选择多个目标时刻的音频特征；

根据所述指定时刻的音频特征和多个所述目标时刻的音频特征，对所述指定时刻的音频特征进行编码。

可选的，所述根据所述指定时刻的音频特征和多个所述目标时刻的音频特征，对所述指定时刻的音频特征进行编码，包括：

根据所述指定时刻的音频特征和多个所述目标时刻的音频特征，对所述指定时刻的音频特征进行第一次编码，获得所述第一音频特征对应的第一编码音频特征；

根据所述指定时刻的音频特征对应的第一编码音频特征和多个所述目标时刻的音频特征对应的第一编码音频特征，对所述指定时刻的音频特征进行第二次编码，获得所述第一音频特征对应的第二编码音频特征，依次执行上述步骤，直至所述编码次数到达指定编码次数，完成对所述指定时刻的音频特征的编码；

将所述第一音频特征对应的最终编码音频特征作为所述第二音频特征。

可选的，所述根据所述指定时刻的音频特征和多个所述目标时刻的音频特征，对所述指定时刻的音频特征进行第一次编码，获得所述第一音频特征对应的第一编码音频特征，包括：根据所述指定时刻的线性音频特征、所述指定时刻的非线性音频特征、多个所述目标时刻的线性音频特征以及多个所述目标时刻的非线性音频特征进行第一次编码，获得所述第一音频特征对应的第一编码音频特征。

可选的，所述根据所述指定时刻的音频特征对应的第一编码音频特征和多个所述目标时刻的音频特征对应的第一编码音频特征，对所述指定时刻的音频特征进行第二次编码，获得所述第一音频特征对应的第二编码音频特征，包括：根据所述指定时刻的音频特征对应的第一编码线性音频特征、所述指定时刻的音频特征对应的第一编码非线性音频特征、多个所述目标时刻的音频特征对应的第一编码线性音频特征以及多个所述目标时刻的音频特征对应的第一编码非线性音频特征进行第二次编码，获得所述第一音频特征对应的第二编码音频特征。

可选的，还包括：

对所述第一音频特征对应的第一编码音频特征进行线性变换，获得所述第一音频特征对应的第一编码线性音频特征；

对所述第一音频特征对应的第一编码线性音频特征进行线性整流，获得所述第一音频特征对应的第一编码非线性音频特征。

可选的，所述在与所述指定时刻的音频特征相邻的音频特征中选择多个目标时刻的音频特征，包括：

确定与所述指定时刻的音频特征相邻的音频特征的范围；

根据与所述指定时刻的音频特征相邻的音频特征的范围，在与所述指定时刻的音频特征相邻的音频特征中选择多个目标时刻的音频特征。

可选的，所述确定与所述指定时刻的音频特征相邻的音频特征的范围，包括：确定在所述指定时刻的音频特征之前、与所述指定时刻的音频特征相邻的音频特征的第一范围，并确定在所述指定时刻的音频特征之后、与所述指定时刻的音频特征相邻的音频特征的第二范围；

所述根据与所述指定时刻的音频特征相邻的音频特征的范围，在与所述指定时刻的音频特征相邻的音频特征中选择多个目标时刻的音频特征，包括：根据所述第一范围和所述第二范围，在与所述指定时刻的音频特征相邻的音频特征中选择多个目标时刻的音频特征。

可选的，所述根据所述第一范围和所述第二范围，在与所述指定时刻的音频特征相邻的音频特征中选择多个目标时刻的音频特征，包括：

确定步幅因子，所述步幅因子为用于指示在与所述指定时刻的音频特征相邻的音频特征中选择多个目标时刻的音频特征时的取值时间间隔；

根据所述步幅因子、根据所述第一范围以及所述第二范围，在与所述指定时刻的音频特征相邻的音频特征中选择多个目标时刻的音频特征。

可选的，所述根据所述步幅因子、根据所述第一范围以及所述第二范围，在与所述指定时刻的音频特征相邻的音频特征中选择多个目标时刻的音频特征，包括：根据第一步幅因子和所述第一范围，在与所述指定时刻的音频特征相邻的音频特征中选择多个目标时刻的音频特征。

可选的，所述根据所述步幅因子、根据所述第一范围以及所述第二范围，在与所述指定时刻的音频特征相邻的音频特征中选择多个目标时刻的音频特征，包括：根据第二步幅因子和所述第二范围，在与所述指定时刻的音频特征相邻的音频特征中选择多个目标时刻的音频特征。

可选的，所述根据所述第二音频特征和所述已解码文本信息，获得所述音频信息对应的文本信息，包括：根据所述第二音频特征和所述已解码文本信息，对所述第二音频信息对应的待解码音频信息进行解码，获得所述音频信息对应的文本信息。

可选的，所述根据所述第二音频特征和所述已解码文本信息，对所述第二音频信息对应的待解码音频信息进行解码，获得所述音频信息对应的文本信息，包括：

获得所述第二音频特征对应的第一待解码音频信息；

根据所述第二音频特征和所述已解码文本信息，对所述第一待解码音频信息进行解码，获得第一解码文本信息；

获得所述第二音频特征对应的第二待解码音频信息；

更新所述第一解码文本信息为所述已解码信息；

根据所述第二音频特征和所述已解码文本信息，对所述第二待解码音频信息进行解码，获得第二解码文本信息，依次执行上述步骤，直至对所述第二音频信息对应的全部待解码音频信息进行解码，获得所述音频信息对应的文本信息。

可选的，所述已解码信息包括：用于指示对所述第二音频信息对应的待解码音频信息进行解码的指示信息。

可选的，所述根据所述第二音频特征和所述已解码文本信息，对所述第一待解码音频信息进行解码，获得第一解码文本信息，包括：

根据所述第二音频特征和所述已解码文本信息，对所述第一待解码音频信息进行解码，获得所述第一待解码音频信息对应的文本信息；

根据所述第一待解码音频信息对应的文本信息和所述已解码文本信息，获得第一解码文本信息。

可选的，所述根据所述第二音频特征和所述已解码文本信息，对所述第一待解码音频信息进行解码，获得所述第一待解码音频信息对应的文本信息，包括：

根据所述第二音频特征和所述已解码文本信息，获得所述第一待解码音频信息对应的文本单位的预测值；

获得所述文本单位的概率分布；

获得概率值最大的文本单位，作为所述第一待解码音频信息对应的文本信息。可选的，所述获得音频信息对应的第一音频特征，包括：

获得所述音频信息；

对所述音频信息进行特征提取，获得所述第一音频特征。

可选的，所述对所述音频信息进行特征提取，获得所述第一音频特征，包括：对所述音频信息进行特征提取，获得所述音频信息对应的第一音频特征序列。

可选的，还包括：输出所述音频信息对应的文本信息。

本申请另一方面，还提供一种音频信息处理装置，包括：

第一音频特征获得单元，用于获得音频信息对应的第一音频特征；

第二音频特征获得单元，用于根据所述第一音频特征中指定时刻的音频特征和与所述指定时刻的音频特征相邻的音频特征，对所述指定时刻的音频特征进行编码，获得所述音频信息对应的第二音频特征；

已解码文本信息获得单元，用于获得所述音频信息对应的已解码文本信息；

文本信息获得单元，用于根据所述第二音频特征和所述已解码文本信息，获得所述音频信息对应的文本信息。

本申请另一方面，还提供一种电子设备，包括：

处理器；

存储器，用于存储音频信息处理方法的程序，该设备通电并通过所述处理器运行所述音频信息处理方法的程序后，执行下述步骤：

获得音频信息对应的第一音频特征；

获得所述音频信息对应的已解码文本信息；

本申请另一方面，还提供一种存储设备，存储有音频信息处理方法的程序，该程序被处理器运行，执行下述步骤：

获得音频信息对应的第一音频特征；

获得所述音频信息对应的已解码文本信息；

本申请另一方面，还提供一种智能音箱，包括：音频采集设备和音频识别设备，其中，所述音频识别设备包括：音频特征提取模块、音频特征编码模块、已解码文本存储模块以及音频特征编码模块；所述音频采集设备，用于获得音频信息

所述音频特征提取模块，用于获得所述音频信息对应的第一音频特征；

所述音频特征编码模块，用于根据所述第一音频特征中指定时刻的音频特征和与所述指定时刻的音频特征相邻的音频特征，对所述指定时刻的音频特征进行编码，获得所述音频信息对应的第二音频特征；

所述已解码文本存储模块，用于获得所述音频信息对应的已解码文本信息；

所述音频特征编码模块，用于根据所述第二音频特征和所述已解码文本信息，获得所述音频信息对应的文本信息。

本申请另一方面，还提供一种车载智能语音交互装置，包括：音频采集设备、音频识别设备和执行设备，其中，所述音频识别设备包括：音频特征提取模块、音频特征编码模块、已解码文本存储模块以及音频特征编码模块；

所述音频采集设备，用于获得音频信息；

所述音频特征编码模块，用于根据所述第二音频特征和所述已解码文本信息，获得所述音频信息对应的文本信息；

所述执行设备，用于根据所述音频信息对应的文本信息执行相应指令。

本申请另一方面，还提供一种音频信息处理系统，包括：客户端、服务端；

所述客户端，用于获得音频信息；将所述音频信息发送给所述服务端；

所述服务端，用于获得音频信息对应的第一音频特征；根据所述第一音频特征中指定时刻的音频特征和与所述指定时刻的音频特征相邻的音频特征，对所述指定时刻的音频特征进行编码，获得所述音频信息对应的第二音频特征；获得所述音频信息对应的已解码文本信息；根据所述第二音频特征和所述已解码文本信息，获得所述音频信息对应的文本信息；将所述音频信息对应的文本信息提供给所述客户端。

与现有技术相比，本申请具有以下优点：

本申请提供的音频信息处理方法，首先，获得音频信息对应的第一音频特征；其次，根据第一音频特征中指定时刻的音频特征和与指定时刻的音频特征相邻的音频特征，对指定时刻的音频特征进行编码，获得音频信息对应的第二音频特征；再次，获得音频信息对应的已解码文本信息；最后，根据第二音频特征和已解码文本信息，获得音频信息对应的文本信息。本申请提供的音频信息处理方法，能够根据第一音频特征中指定时刻的音频特征和第一音频特征中与指定时刻的音频特征相邻的音频特征，对第一音频特征中指定时刻的音频特征进行编码，获得音频信息对应的第二音频特征，并进一步根据第二音频特征和已解码文本信息来获得音频信息对应的文本信息，本申请提供的音频信息处理方法，在获得第二音频特征以及根据第二音频特征和已解码文本信息获得音频信息对应的文本信息的过程中，需要使用到的参数较少，从而降低了音频信息处理过程中的计算复杂度，提高了音频信息处理的效率。

附图说明

图1为本申请提供的音频信息处理方法的第一应用场景实施例的示意图。

图2为本申请提供的音频信息处理方法的第二应用场景实施例的示意图。

图3为本申请第一实施例中提供的一种音频信息处理方法的流程图。

图4为本申请第一实施中提供的一种对指定时刻的音频特征进行编码的方法的流程图。

图5为本申请第一实施中提供的一种选择多个目标时刻的音频特征的方法的流程图。

图6为本申请第一实施例中提供的一种获得音频信息对应的文本信息的方法的流程图。

图7为本申请第二实施例中提供的一种音频信息处理装置的示意图。

图8为本申请实施例中提供的一种电子设备的示意图。

具体实施方式

在下面的描述中阐述了很多具体细节以便于充分理解本发明。但是本发明能够以很多不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本发明内涵的情况下做类似推广，因此本发明不受下面公开的具体实施的限制。

为了更清楚地展示本申请提供的音频信息处理方法，先介绍一下本申请提供的音频信息处理方法的应用场景。本申请提供的音频信息处理方法可以应用于机器翻译场景，如图1所示，其为本申请提供的音频信息处理方法的第一应用场景实施例的示意图。本申请第一场景实施例中具体以将本申请提供的音频信息处理方法应用于同声翻译耳机的应用场景为例，对本申请提供的音频信息处理方法进行详细说明。在将本申请提供的音频信息处理方法应用于同声翻译耳机时，音频信息为用户的语音信息。

当用户使用同声翻译耳机进行对话时，同声翻译耳机会通过自带的声音采集设备采集目标用户的语音信息，在采集到目标用户的语音信息后，同声翻译耳机会先识别该语音对应的语种，并进一步判断该语音的语种是否为用户预设的待翻译语种，若是，则同声翻译耳机会对用户的语音信息进行处理，识别并翻译该语音信息。

同声翻译耳机识别目标用户的语音信息的具体过程如下：首先，对语音信息进行降噪处理，并在降噪处理后，进一步对该语音信息进行声学特征提取，获得语音信息对应的第一语音特征。其中，第一语音特征具体为语音特征序列，即，该语音信息在N个语音帧的语音特征，语音特征包括语音的音素特征、语音的频谱特征等。其次，同声翻译耳机的编码单元会根据第一语音特征中指定时刻的语音特征和与指定时刻的语音特征相邻的语音特征，对指定时刻的语音特征进行编码，获得语音信息对应的第二语音特征。本申请场景实施例中，指定时刻为根据预先设定的编码次数和音频长度确定的，具体的，根据音频长度和预设的编码次数，求出编码的时间间隔，在选定一个时刻作为起始时刻，根据起始时刻、编码次数、时间间隔即可获得每一指定时刻。再次，同声翻译耳机的解码单元会获得第二语音特征以及语音信息对应的已解码文本信息作为解码语音信息中为解码语音信息的输出。其中，已解码信息可以为用于指示对第二语音信息对应的待解码语音信息进行解码的指示信息。最后，同声翻译耳机的解码单元会根据第二语音特征和已解码文本信息，获得语音信息对应的文本信息。

需要说明的是，同声翻译耳机的编码单元根据第一语音特征中指定时刻的语音特征和与指定时刻的语音特征相邻的语音特征，对指定时刻的语音特征进行编码，获得语音信息对应的第二语音特征的具体过程为：首先，在与指定时刻的语音特征相邻的语音特征中选择多个目标时刻的语音特征。其次，根据指定时刻的语音特征和多个目标时刻的语音特征，对指定时刻的语音特征进行第一次编码，获得第一语音特征对应的第一编码语音特征；根据指定时刻的语音特征对应的第一编码语音特征和多个目标时刻的语音特征对应的第一编码语音特征，获得第一语音特征对应的第二编码语音特征，依次执行上述步骤，直至编码次数到达指定编码次数，完成对指定时刻的语音特征的编码；将第一语音特征对应的最终编码语音特征作为第二语音特征。

在对指定时刻的语音特征进行第一次编码，获得第一语音特征对应的第一编码语音特征的具体过程是：根据对指定时刻的线性语音特征、指定时刻的非线性语音特征、多个目标时刻的线性语音特征以及多个目标时刻的非线性语音特征进行第一次编码，获得第一语音特征对应的第一编码语音特征。

在对指定时刻的语音特征进行第N次编码，获得第一语音特征对应的第N编码语音特征的具体过程是：根据指定时刻的语音特征对应的第N-1编码线性语音特征、指定时刻的语音特征对应的第N-1编码非线性语音特征、多个目标时刻的语音特征对应的第N-1编码线性语音特征以及多个目标时刻的语音特征对应的第N-1编码非线性语音特征进行第N次编码，获得第一语音特征对应的第N编码语音特征。其中，N为预先设置好的编码次数。

需要说明的是，根据第二语音特征和已解码文本信息，获得语音信息对应的文本信息的具体过程为：同声翻译耳机的解码单元在获得第二语音特征信息和已解码文本信息后，会获得第二语音特征对应的第一待解码语音信息；根据第二语音特征和已解码文本信息，对第一待解码语音信息进行解码，获得第一解码文本信息；获得第二语音特征对应的第二待解码语音信息；更新第一解码文本信息为已解码信息；根据第二语音特征和已解码文本信息，对第二待解码语音信息进行解码，获得第二解码文本信息，依次执行上述步骤，直至对第二语音信息对应的全部待解码语音信息进行解码，获得语音信息对应的文本信息。其中，根据第二语音特征和已解码文本信息，对第一待解码语音信息进行解码，获得第一解码文本信息时，需要首先，根据第二语音特征和已解码文本信息，获得第一待解码语音信息对应的文本单位的预测值；然后，获得文本单位的概率分布；最后，获得概率值最大的文本单位，作为第一待解码语音信息对应的文本信息。

在获得语音信息对应的文本信息后，同声翻译的解码单元会将该语音信息对应的文本信息提供给同声翻译的翻译模块单元，由于翻译模块单元针对语音信息对应的文本信息进行翻译，将语音信息对应的文本信息翻译为预设育种的文本信息，并将文本信息转化为预设语种的语音信息并输出。

本申请提供的音频信息处理方法可以应用于语音转换为文字场景，如图2所示，其为本申请提供的音频信息处理方法的第二应用场景实施例的示意图。本申请第二场景实施例中具体以将本申请提供的音频信息处理方法应用于社交软件中将语音转换为文字的应用场景为例，对本申请提供的音频信息处理方法进行详细说明。本申请第二应用场景实施例中，音频信息为语音信息。

社交软件在将接受到的语音信息转换成文字信息时，会先将语音信息发送至语音识别系统，通过该语音识别系统对语音信息进行语音识别。具体的，该语音识别系统包括语音特征提取模块201、编码模块202、解码模块203。通过语音识别系统对语音信息进行识别的过程如下：

首先，由语音特征提取模块201对语音信息进行特征提取，获得语音信息对应的第一语音特征，并进一步将第一语音特征提供给编码模块202。

其次，编码模块202获得第一语音特征后，通过依次通过该编码模块202中的线性投影层202-1对第一语音特征进行线性变换，获得第一语音特征的线性语音特征，通过线性整流层202-2对第一语音特征的线性语音特征进行线性整流，获得第一语音特征的非线性语音特征。

再次，通过编码模块202中的N层编码层202-3根据第一语音特征中指定时刻的语音特征和与指定时刻的语音特征相邻的语音特征，对指定时刻的语音特征进行编码，获得语音信息对应的第二语音特征。

最后，由解码模块203获得语音信息对应的已解码文本信息和第二语音特征，并根据第二语音特征和已解码文本信息，获得语音信息对应的文本信息。

需要说明的是，上述两个应用场景仅仅是本申请提供的音频信息处理方法的应用场景的两个实施例，提供这两个应用场景实施例的目的是便于理解本申请提供的音频信息处理方法，而并非用于限定本申请提供的音频信息处理方法。本申请第一实施例提供一种在手持设备上展示电子阅读对象的内容的方法，以下结合图1至图6进行说明。

请参照图3，其为本申请第一实施例中提供的一种音频信息处理方法的流程图。

在步骤S301中，获得音频信息对应的第一音频特征。

音频特征包括音频的音素特征、音频的频谱特征等。本申请第一实施例中的音频信息一般为人发出的语音信息、音频设备发出的语音信息，如：歌声等。

获得音频信息对应的第一音频特征的具体步骤为：获得音频信息；对音频信息进行特征提取，获得第一音频特征。其中，对音频信息进行特征提取，获得第一音频特征，包括：对音频信息进行特征提取，获得音频信息对应的第一音频特征序列。即，获得音频信息在N个语音帧的音频特征。

在步骤S302中，根据第一音频特征中指定时刻的音频特征和与指定时刻的音频特征相邻的音频特征，对指定时刻的音频特征进行编码，获得音频信息对应的第二音频特征。

本申请第一实施例中，对指定时刻的音频特征进行编码的过程为将指定时刻的音频特征和与指定时刻的音频特征相邻的音频特征输入到编码器中进行线性和非线性变换，从而对第一音频特征进行特征属性降维，获得新的音频特征的表达，本申请第一实施例中，第二音频特征信息是对第一音频特征进行编码后获得音频特征信息。

根据第一音频特征中指定时刻的音频特征和与指定时刻的音频特征相邻的音频特征，对指定时刻的音频特征进行编码的过程为：在与指定时刻的音频特征相邻的音频特征中选择多个目标时刻的音频特征；根据指定时刻的音频特征和多个目标时刻的音频特征，对指定时刻的音频特征进行编码。其中，根据指定时刻的音频特征和多个目标时刻的音频特征，对指定时刻的音频特征进行编码的过程请参照图4，其为本申请第一实施中提供的一种对指定时刻的音频特征进行编码的方法的流程图。

在步骤S401中，根据指定时刻的音频特征和多个目标时刻的音频特征，对指定时刻的音频特征进行第一次编码，获得第一音频特征对应的第一编码音频特征。

根据指定时刻的音频特征和多个目标时刻的音频特征，对指定时刻的音频特征进行第一次编码，获得第一音频特征对应的第一编码音频特征，包括：根据指定时刻的线性音频特征、指定时刻的非线性音频特征、多个目标时刻的线性音频特征以及多个目标时刻的非线性音频特征进行第一次编码，获得第一音频特征对应的第一编码音频特征。

在步骤S402中，根据指定时刻的音频特征对应的第一编码音频特征和多个目标时刻的音频特征对应的第一编码音频特征，对指定时刻的音频特征进行第二次编码，获得第一音频特征对应的第二编码音频特征，依次执行上述步骤，直至编码次数到达指定编码次数，完成对指定时刻的音频特征的编码。

编码次数和音频长度有关，在本申请第一实施例中，在获得音频信息对应的第一音频特征时，通常每10ms提取一帧音频信息的音频特征，如：6s的音频信息，就能够提取出600帧的音频特征，从而获得音频信息对应的第一音频特征。在获得音频信息对应的第一音频特征后，由于音频信息对应的第一音频特征中的600帧的音频特征是不相邻帧的音频特征，在获得音频信息对应的第二音频特征时，会对第一音频特征中的600帧的音频特征进行相邻帧拼接处理和采样处理，如果采样率为6，那么600帧音频特征会进一步会转化成100帧拼接的音频特征。在将600帧音频特征转化成100帧拼接的音频特征时，会对任一指定时刻的音频特征进行编码，编码次数也为100。

本申请第一实施例中在对指定时刻的音频特征进行第二-N次编码时的过程类似，所以，本申请第一实施例中仅对指定时刻的音频特征进行第二次编码时的过程进行详细地说明。根据指定时刻的音频特征对应的第一编码音频特征和多个目标时刻的音频特征对应的第一编码音频特征，对指定时刻的音频特征进行第二次编码，获得第一音频特征对应的第二编码音频特征，包括：根据指定时刻的音频特征对应的第一编码线性音频特征、指定时刻的音频特征对应的第一编码非线性音频特征、多个目标时刻的音频特征对应的第一编码线性音频特征以及多个目标时刻的音频特征对应的第一编码非线性音频特征进行第二次编码，获得第一音频特征对应的第二编码音频特征。

由于在每次编码过程都需要用到线性音频特征和非线性音频特征，在本申请第一实施例中具体以对指定时刻的音频特征进行第二次编码进行说明，在对指定时刻的音频特征进行第二次编码之前还需要对第一音频特征对应的第一编码音频特征进行线性变换，获得第一音频特征对应的第一编码线性音频特征；对第一音频特征对应的第一编码线性音频特征进行线性整流，获得第一音频特征对应的第一编码非线性音频特征。

本申请第一实施例中对线性音频特征进行线性整流获得非线性音频特征时，一般是通过ReLU函数(Rectified Linear Unit，线性整流函数)来实现。

在执行步骤S302过程中，需要在与指定时刻的音频特征相邻的音频特征中选择多个目标时刻的音频特征，本申请第一实施例中在与指定时刻的音频特征相邻的音频特征中选择多个目标时刻的音频特征的步骤请参照图5，其为本申请第一实施中提供的一种选择多个目标时刻的音频特征的方法的流程图。

在步骤S501中，确定与指定时刻的音频特征相邻的音频特征的范围。

确定与指定时刻的音频特征相邻的音频特征的范围，包括：确定在指定时刻的音频特征之前、与指定时刻的音频特征相邻的音频特征的第一范围，并确定在指定时刻的音频特征之后、与指定时刻的音频特征相邻的音频特征的第二范围。

在步骤S502中，根据与指定时刻的音频特征相邻的音频特征的范围，在与指定时刻的音频特征相邻的音频特征中选择多个目标时刻的音频特征。

根据与指定时刻的音频特征相邻的音频特征的范围，在与指定时刻的音频特征相邻的音频特征中选择多个目标时刻的音频特征，包括：根据第一范围和第二范围，在与指定时刻的音频特征相邻的音频特征中选择多个目标时刻的音频特征。具体的，在根据第一范围和第二范围，在与指定时刻的音频特征相邻的音频特征中选择多个目标时刻的音频特征时，需要首先，确定步幅因子，步幅因子为用于指示在与指定时刻的音频特征相邻的音频特征中选择多个目标时刻的音频特征时的取值时间间隔；然后，再根据步幅因子、根据第一范围以及第二范围，在与指定时刻的音频特征相邻的音频特征中选择多个目标时刻的音频特征。

需要说明的是，根据步幅因子、根据第一范围以及第二范围，在与指定时刻的音频特征相邻的音频特征中选择多个目标时刻的音频特征，包括：根据第一步幅因子和第一范围，在与指定时刻的音频特征相邻的音频特征中选择多个目标时刻的音频特征。

需要说明的是，根据步幅因子、根据第一范围以及第二范围，在与指定时刻的音频特征相邻的音频特征中选择多个目标时刻的音频特征，包括：根据第二步幅因子和第二范围，在与指定时刻的音频特征相邻的音频特征中选择多个目标时刻的音频特征。

在步骤S403中，将第一音频特征对应的最终编码音频特征作为第二音频特征。

在获得第二音频特征，需要进一步根据第二特征来获得音频信息对应的文本信息。

在步骤S303中，获得音频信息对应的已解码文本信息。

本申请第一实施例中，已解码文本信息可以为在当前时刻之前已经获得的音频信息对应的文本信息，当前时刻之前未获得的音频信息对应的文本信息时，已解码文本信息也可以为用于指示对第二音频信息对应的待解码音频信息进行解码的指示信息。

在步骤S304中，根据第二音频特征和已解码文本信息，获得音频信息对应的文本信息。

根据第二音频特征和已解码文本信息，获得音频信息对应的文本信息具体包括：根据第二音频特征和已解码文本信息，对第二音频信息对应的待解码音频信息进行解码，获得音频信息对应的文本信息，具体过程请参照图6，其为本申请第一实施例中提供的一种获得音频信息对应的文本信息的方法的流程图。

在步骤S601中，获得第二音频特征对应的第一待解码音频信息。

本申请第一实施例中，解码过程是将前一时刻的解码结果和编码器的编码表达输入到一个解码器中，得到相对应的解码输出的过程。

在步骤S602中，根据第二音频特征和已解码文本信息，对第一待解码音频信息进行解码，获得第一解码文本信息。

根据第二音频特征和已解码文本信息，对第一待解码音频信息进行解码，获得第一解码文本信息的具体过程为：

首先，根据第二音频特征和已解码文本信息，对第一待解码音频信息进行解码，获得第一待解码音频信息对应的文本信息。

然后，根据第一待解码音频信息对应的文本信息和已解码文本信息，获得第一解码文本信息。即，根据第二音频特征和已解码文本信息，获得第一待解码音频信息对应的文本单位的预测值；获得文本单位的概率分布；获得概率值最大的文本单位，作为第一待解码音频信息对应的文本信息。

在步骤S603中，更新第一解码文本信息为已解码信息。

在步骤S604中，根据第二音频特征和已解码文本信息，对第二待解码音频信息进行解码，获得第二解码文本信息，依次执行上述步骤，直至对第二音频信息对应的全部待解码音频信息进行解码，获得音频信息对应的文本信息。

对本申请对第二-M待解码音频信息进行解码的过程，请参照在步骤S602中对第一待解码音频信息进行解码的过程。

本申请第一实施例中提供的音频信息处理方法还包括：输出音频信息对应的文本信息。

第二实施例

与本申请第一实施例提供的一种音频信息处理方法相对应的，本申请第二实施例提供了一种音频信息处理装置。由于装置实施例基本相似于方法第一实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。下述描述的装置实施例仅仅示意性的。

如图7所示，其为本申请第二实施例中提供的一种音频信息处理装置的示意图。

该音频信息处理装置包括：

第一音频特征获得单元701，用于获得音频信息对应的第一音频特征；

第二音频特征获得单元702，用于根据所述第一音频特征中指定时刻的音频特征和与所述指定时刻的音频特征相邻的音频特征，对所述指定时刻的音频特征进行编码，获得所述音频信息对应的第二音频特征；

已解码文本信息获得单元703，用于获得所述音频信息对应的已解码文本信息；

文本信息获得单元704，用于根据所述第二音频特征和所述已解码文本信息，获得所述音频信息对应的文本信息。

可选的，所述第二音频特征获得单元702，具体用于在与所述指定时刻的音频特征相邻的音频特征中选择多个目标时刻的音频特征；根据所述指定时刻的音频特征和多个所述目标时刻的音频特征，对所述指定时刻的音频特征进行编码。可选的，所述根据所述指定时刻的音频特征和多个所述目标时刻的音频特征，对所述指定时刻的音频特征进行编码，包括：

可选的，还包括：

确定与所述指定时刻的音频特征相邻的音频特征的范围；

可选的，所述文本信息获得单元704，具体用于根据所述第二音频特征和所述已解码文本信息，对所述第二音频信息对应的待解码音频信息进行解码，获得所述音频信息对应的文本信息。

获得所述第二音频特征对应的第一待解码音频信息；

获得所述第二音频特征对应的第二待解码音频信息；

更新所述第一解码文本信息为所述已解码信息；

获得所述文本单位的概率分布；

获得概率值最大的文本单位，作为所述第一待解码音频信息对应的文本信息。可选的，所述第一音频特征获得单元701，具体用于获得所述音频信息；对所述音频信息进行特征提取，获得所述第一音频特征。

可选的，所述音频信息处理装置还包括：文本信息输出单元，用于输出所述音频信息对应的文本信息。

本申请第二实施例中提供的音频信息处理装置，首先，获得音频信息对应的第一音频特征；其次，根据第一音频特征中指定时刻的音频特征和与指定时刻的音频特征相邻的音频特征，对指定时刻的音频特征进行编码，获得音频信息对应的第二音频特征；再次，获得音频信息对应的已解码文本信息；最后，根据第二音频特征和已解码文本信息，获得音频信息对应的文本信息。本申请提供的音频信息处理装置，能够根据第一音频特征中指定时刻的音频特征和第一音频特征中与指定时刻的音频特征相邻的音频特征，对第一音频特征中指定时刻的音频特征进行编码，获得音频信息对应的第二音频特征，并进一步根据第二音频特征和已解码文本信息来获得音频信息对应的文本信息，本申请提供的音频信息处理装置，在获得第二音频特征以及根据第二音频特征和已解码文本信息获得音频信息对应的文本信息的过程中，需要使用到的参数较少，从而降低了音频信息处理过程中的计算复杂度，提高了音频信息处理的效率。

第三实施例

与本申请第一实施例提供的音频信息处理方法相对应的，本申请第三实施例中提供一种电子设备。

如图8所示，图8为本申请实施例中提供的一种电子设备的示意图。所述电子设备包括：

处理器801；以及

存储器802，用于存储计算机程序，该设备通电并通过所述处理器运行该计算机程序后，执行本申请第一实施中所述的音频信息处理方法。

本申请第三实施例中提供的电子设备，首先，获得音频信息对应的第一音频特征；其次，根据第一音频特征中指定时刻的音频特征和与指定时刻的音频特征相邻的音频特征，对指定时刻的音频特征进行编码，获得音频信息对应的第二音频特征；再次，获得音频信息对应的已解码文本信息；最后，根据第二音频特征和已解码文本信息，获得音频信息对应的文本信息。本申请提供的音频信息处理电子设备，能够根据第一音频特征中指定时刻的音频特征和第一音频特征中与指定时刻的音频特征相邻的音频特征，对第一音频特征中指定时刻的音频特征进行编码，获得音频信息对应的第二音频特征，并进一步根据第二音频特征和已解码文本信息来获得音频信息对应的文本信息，本申请提供的音频信息处理电子设备，在获得第二音频特征以及根据第二音频特征和已解码文本信息获得音频信息对应的文本信息的过程中，需要使用到的参数较少，从而降低了音频信息处理过程中的计算复杂度，提高了音频信息处理的效率。

需要说明的是，对于本申请第三实施例提供的电子设备执行的音频信息处理方法的详细描述可以参考对本申请第一实施例的相关描述，这里不再赘述。

第四实施例

与本申请第一实施例提供的音频信息处理方法相对应的，本申请第四实施例提供一种存储介质，该存储介质存储有计算机程序，该计算机程序被处理器运行，执行本申请第一实施中所述的音频信息处理方法。

本申请第四实施例中提供的存储介质，首先，获得音频信息对应的第一音频特征；其次，根据第一音频特征中指定时刻的音频特征和与指定时刻的音频特征相邻的音频特征，对指定时刻的音频特征进行编码，获得音频信息对应的第二音频特征；再次，获得音频信息对应的已解码文本信息；最后，根据第二音频特征和已解码文本信息，获得音频信息对应的文本信息。本申请提供的音频信息处理存储介质，能够根据第一音频特征中指定时刻的音频特征和第一音频特征中与指定时刻的音频特征相邻的音频特征，对第一音频特征中指定时刻的音频特征进行编码，获得音频信息对应的第二音频特征，并进一步根据第二音频特征和已解码文本信息来获得音频信息对应的文本信息，本申请提供的音频信息处理存储介质，在获得第二音频特征以及根据第二音频特征和已解码文本信息获得音频信息对应的文本信息的过程中，需要使用到的参数较少，从而降低了音频信息处理过程中的计算复杂度，提高了音频信息处理的效率。

需要说明的是，对于本申请第四实施例提供的存储介质的详细描述可以参考对本申请第一实施例的相关描述，这里不再赘述。

第五实施例

在上述第一实施例中，提供了一种音频信号处理方法，与之相对应的，本申请第五实施例提供了一种智能音箱。

本申请第五实施例中提供的智能音箱，包括：音频采集设备和音频识别设备，其中，所述音频识别设备包括：音频特征提取模块、音频特征编码模块、已解码文本存储模块以及音频特征编码模块；所述音频采集设备，用于获得音频信息

第六实施例

在上述第一实施例中，提供了一种音频信号处理方法，与之相对应的，本申请第六实施例提供了一种车载智能语音交互装置。

本申请第六实施例中提供的车载智能语音交互装置，包括：音频采集设备、音频识别设备和执行设备，其中，所述音频识别设备包括：音频特征提取模块、音频特征编码模块、已解码文本存储模块以及音频特征编码模块；

所述音频采集设备，用于获得音频信息；

第七实施例

在上述第一实施例中，提供了一种音频信号处理方法，与之相对应的，本申请第七实施例提供了一种音频信息处理系统。

本申请第七实施例中提供的音频信息处理系统，包括：客户端、服务端；

本申请虽然以较佳实施例公开如上，但其并不是用来限定本申请，任何本领域技术人员在不脱离本申请的精神和范围内，都可以做出可能的变动和修改，因此本申请的保护范围应当以本申请权利要求所界定的范围为准。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flashRAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、信息结构、程序的模块或其他信息。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储介质或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括非暂存电脑可读媒体(transitorymedia)，如调制的信息信号和载波。

本领域技术人员应明白，本申请的实施例可提供为方法、系统或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

Claims

1.一种音频信息处理方法，其特征在于，包括：

获得音频信息对应的第一音频特征；

获得所述音频信息对应的已解码文本信息；

2.根据权利要求1所述的音频信息处理方法，其特征在于，所述根据所述第一音频特征中指定时刻的音频特征和与所述指定时刻的音频特征相邻的音频特征，对所述指定时刻的音频特征进行编码，包括：

3.根据权利要求2所述的音频信息处理方法，其特征在于，所述根据所述指定时刻的音频特征和多个所述目标时刻的音频特征，对所述指定时刻的音频特征进行编码，包括：

4.根据权利要求3所述的音频信息处理方法，其特征在于，所述根据所述指定时刻的音频特征和多个所述目标时刻的音频特征，对所述指定时刻的音频特征进行第一次编码，获得所述第一音频特征对应的第一编码音频特征，包括：根据所述指定时刻的线性音频特征、所述指定时刻的非线性音频特征、多个所述目标时刻的线性音频特征以及多个所述目标时刻的非线性音频特征进行第一次编码，获得所述第一音频特征对应的第一编码音频特征。

5.根据权利要求3所述的音频信息处理方法，其特征在于，所述根据所述指定时刻的音频特征对应的第一编码音频特征和多个所述目标时刻的音频特征对应的第一编码音频特征，对所述指定时刻的音频特征进行第二次编码，获得所述第一音频特征对应的第二编码音频特征，包括：根据所述指定时刻的音频特征对应的第一编码线性音频特征、所述指定时刻的音频特征对应的第一编码非线性音频特征、多个所述目标时刻的音频特征对应的第一编码线性音频特征以及多个所述目标时刻的音频特征对应的第一编码非线性音频特征进行第二次编码，获得所述第一音频特征对应的第二编码音频特征。

6.根据权利要求5所述的音频信息处理方法，其特征在于，还包括：

7.根据权利要求2所述的音频信息处理方法，其特征在于，所述在与所述指定时刻的音频特征相邻的音频特征中选择多个目标时刻的音频特征，包括：

确定与所述指定时刻的音频特征相邻的音频特征的范围；

8.根据权利要求7所述的音频信息处理方法，其特征在于，所述确定与所述指定时刻的音频特征相邻的音频特征的范围，包括：确定在所述指定时刻的音频特征之前、与所述指定时刻的音频特征相邻的音频特征的第一范围，并确定在所述指定时刻的音频特征之后、与所述指定时刻的音频特征相邻的音频特征的第二范围；

9.根据权利要求8所述的音频信息处理方法，其特征在于，所述根据所述第一范围和所述第二范围，在与所述指定时刻的音频特征相邻的音频特征中选择多个目标时刻的音频特征，包括：

10.根据权利要求9所述的音频信息处理方法，其特征在于，所述根据所述步幅因子、根据所述第一范围以及所述第二范围，在与所述指定时刻的音频特征相邻的音频特征中选择多个目标时刻的音频特征，包括：根据第一步幅因子和所述第一范围，在与所述指定时刻的音频特征相邻的音频特征中选择多个目标时刻的音频特征。

11.根据权利要求9所述的音频信息处理方法，其特征在于，所述根据所述步幅因子、根据所述第一范围以及所述第二范围，在与所述指定时刻的音频特征相邻的音频特征中选择多个目标时刻的音频特征，包括：根据第二步幅因子和所述第二范围，在与所述指定时刻的音频特征相邻的音频特征中选择多个目标时刻的音频特征。

12.根据权利要求1所述的音频信息处理方法，其特征在于，所述根据所述第二音频特征和所述已解码文本信息，获得所述音频信息对应的文本信息，包括：根据所述第二音频特征和所述已解码文本信息，对所述第二音频信息对应的待解码音频信息进行解码，获得所述音频信息对应的文本信息。

13.根据权利要求12所述的音频信息处理方法，其特征在于，所述根据所述第二音频特征和所述已解码文本信息，对所述第二音频信息对应的待解码音频信息进行解码，获得所述音频信息对应的文本信息，包括：

获得所述第二音频特征对应的第一待解码音频信息；

获得所述第二音频特征对应的第二待解码音频信息；

更新所述第一解码文本信息为所述已解码信息；

14.根据权利要求13所述的音频信息处理方法，其特征在于，所述已解码信息包括：用于指示对所述第二音频信息对应的待解码音频信息进行解码的指示信息。

15.根据权利要求13所述的音频信息处理方法，其特征在于，所述根据所述第二音频特征和所述已解码文本信息，对所述第一待解码音频信息进行解码，获得第一解码文本信息，包括：

16.根据权利要求15所述的音频信息处理方法，其特征在于，所述根据所述第二音频特征和所述已解码文本信息，对所述第一待解码音频信息进行解码，获得所述第一待解码音频信息对应的文本信息，包括：

获得所述文本单位的概率分布；

获得概率值最大的文本单位，作为所述第一待解码音频信息对应的文本信息。

17.根据权利要求1所述的音频信息处理方法，其特征在于，所述获得音频信息对应的第一音频特征，包括：

获得所述音频信息；

对所述音频信息进行特征提取，获得所述第一音频特征。

18.根据权利要求17所述的音频信息处理方法，其特征在于，所述对所述音频信息进行特征提取，获得所述第一音频特征，包括：对所述音频信息进行特征提取，获得所述音频信息对应的第一音频特征序列。

19.根据权利要求1所述的音频信息处理方法，其特征在于，还包括：输出所述音频信息对应的文本信息。

20.一种音频信息处理装置，其特征在于，包括：

21.一种电子设备，其特征在于，包括：

处理器；

获得音频信息对应的第一音频特征；

获得所述音频信息对应的已解码文本信息；

22.一种存储设备，其特征在于，存储有音频信息处理方法的程序，该程序被处理器运行，执行下述步骤：

获得音频信息对应的第一音频特征；

获得所述音频信息对应的已解码文本信息；

23.一种智能音箱，其特征在于，包括：音频采集设备和音频识别设备，其中，所述音频识别设备包括：音频特征提取模块、音频特征编码模块、已解码文本存储模块以及音频特征编码模块；所述音频采集设备，用于获得音频信息

24.一种车载智能语音交互装置，其特征在于，包括：音频采集设备、音频识别设备和执行设备，其中，所述音频识别设备包括：音频特征提取模块、音频特征编码模块、已解码文本存储模块以及音频特征编码模块；

所述音频采集设备，用于获得音频信息；

25.一种音频信息处理系统，其特征在于，包括：客户端、服务端；