CN113990334A

CN113990334A - 用于语音编码的蓝牙音频的传送方法、系统和电子设备

Info

Publication number: CN113990334A
Application number: CN202111259309.9A
Authority: CN
Inventors: 江正红; 罗修樟; 江建方
Original assignee: Shenzhen Meien Microelectronics Co ltd
Current assignee: Shenzhen Meien Microelectronics Co ltd
Priority date: 2021-10-28
Filing date: 2021-10-28
Publication date: 2022-01-28

Abstract

本申请公开了一种用于语音编码的蓝牙音频的传送方法、系统和电子设备，其通过使用作为基于语义理解模型的预测编码模型的编码器‑掩码器结构，可以通过对发送端的语音数字信号进行编码来得到接收端的语音数字信号，从而通过编码器‑解码器模型来并入通信环境因素，另外，利用上述编码器‑掩码器结构中的语义理解模型的用于掩码预测的变换器机制，可以基于语音数字信号的整体对语音数字信号的模型进行标注，从而体现出音频的模式。这样在编码时，除了考虑到音频模式外，还结合了通信环境的表征，以提高编码的精度。

Description

用于语音编码的蓝牙音频的传送方法、系统和电子设备

技术领域

本申请涉及语音编码的领域，且更为具体地，涉及一种用于语音编码的蓝牙音频的传送方法、用于语音编码的蓝牙音频的传送系统和电子设备。

背景技术

语音编码就是对模拟的语音信号进行编码，将模拟信号转化成数字信号，从而降低传输码率并进行数字传输。常用的语音编码是波形编码，其将时域的模拟话音的波形信号经过取样、量化、编码而形成的数字话音信号。但这种编码方式没有考虑音频信号的具体音频模式。例如，在对激昂的音乐模式进行编码以及缓和情绪下的音乐模式等进行编码时，需要基于音频数据的音频模式来进行自适应地编码。否则就会使得编码的准确度降低，从而影响音频传输的质量。

并且，在通过蓝牙进行音频传递时，还需要考虑到通信环境，尤其是通信距离和环境噪声。否则就会使得音频的传输质量受损，同时还可能会导致最终的传输音频错误。

因此，期望一种用于语音编码的蓝牙音频的传送方案。

发明内容

为了解决上述技术问题，提出了本申请。本申请的实施例提供了一种用于语音编码的蓝牙音频的传送方法、系统和电子设备，其通过使用作为基于语义理解模型的预测编码模型的编码器-掩码器结构，可以通过对发送端的语音数字信号进行编码来得到接收端的语音数字信号，从而通过编码器-解码器模型来并入通信环境因素，另外，利用上述编码器-掩码器结构中的语义理解模型的用于掩码预测的变换器机制，可以基于语音数字信号的整体对语音数字信号的模型进行标注，从而体现出音频的模式。这样在编码时，除了考虑到音频模式外，还结合了通信环境的表征，以提高编码的精度。

根据本申请的一个方面，提供了一种用于语音编码的蓝牙音频的传送方法，其包括：

训练阶段，包括：

获取训练数据集，所述训练数据集包括发送端发送的语音信号和真实的接收端接收到的语音信号；

将所述训练数据集中的所述发送端发送的语音信号通过作为预测编码模型的语义理解模型以获得多个语音特征向量，其中，所述多个语义特征向量中每个语音特征向量对应于所述发送端发送的语音信号中的一段语音信号；

将所述多个语音特征向量输入由多个全连接层组成的解码器模型以从所述多个语音特征向量组成的语音特征向量序列中恢复出解码语音信号；

通过最小化所述解码语音信号和所述真实的接收端接收到的语音信号之间的差异来训练所述预测编码模型和所述解码器模型；

将所述多个语音特征向量分别通过所述预测编码模型的转换器以获得多个编码的语音特征向量；

基于所述转换器的内在结构，计算所述多个编码的语音特征向量中每个编码的语音特征向量的掩码转换值以获得由多个掩码转换值组成的分类特征向量，其中，所述掩码转换值基于所述多个编码的语音特征向量中两个编码的语音特征向量之间的距离和所述多个编码的语音特征向量中各个编码的语音特征向量是否被编码的表征值计算而得；

将所述分类特征向量通过多标签分类器来标注所述分类特征向量的类别，其中，所述分类特征向量的类别用于表示所述多个编码的语音特征向量作为整体的类别；以及

基于所述分类特征向量的类别与真实类别之间的交叉熵损失函数值来训练所述预测编码模型的转换器和所述多标签分类器；以及

推断阶段，包括：

获取发送端发送的语音信号；

将所述发送端发送的语音信号输入经训练阶段训练完成的所述预测编码模型和所述多标签分类器以获得多个语音特征向量和所述发送端发送的语音信号对应的类别；以及

将所述多个语音特征向量和所述发送端发送的语音信号对应的类别发送至接收端。

根据本申请的另一方面，提供了一种用于语音编码的蓝牙音频的传送系统，其包括：

训练模块，包括：

训练数据集获取单元，用于获取训练数据集，所述训练数据集包括发送端发送的语音信号和真实的接收端接收到的语音信号；

编码单元，用于将所述训练数据集获取单元获得的所述训练数据集中的所述发送端发送的语音信号通过作为预测编码模型的语义理解模型以获得多个语音特征向量，其中，所述多个语义特征向量中每个语音特征向量对应于所述发送端发送的语音信号中的一段语音信号；

解码单元，用于将所述编码单元获得的所述多个语音特征向量输入由多个全连接层组成的解码器模型以从所述编码单元获得的所述多个语音特征向量组成的语音特征向量序列中恢复出解码语音信号；

差异训练单元，用于通过最小化所述解码单元获得的所述解码语音信号和所述训练数据集获取单元获得的所述真实的接收端接收到的语音信号之间的差异来训练所述预测编码模型和所述解码器模型；

转换器处理单元，用于将所述编码单元获得的所述多个语音特征向量分别通过所述差异训练单元获得的所述预测编码模型的转换器以获得多个编码的语音特征向量；

掩码单元，用于基于所述转换器的内在结构，计算所述转换器处理单元获得的所述多个编码的语音特征向量中每个编码的语音特征向量的掩码转换值以获得由多个掩码转换值组成的分类特征向量，其中，所述掩码转换值基于所述多个编码的语音特征向量中两个编码的语音特征向量之间的距离和所述多个编码的语音特征向量中各个编码的语音特征向量是否被编码的表征值计算而得；

分类单元，用于将所述掩码单元获得的所述分类特征向量通过多标签分类器来标注所述分类特征向量的类别，其中，所述分类特征向量的类别用于表示所述多个编码的语音特征向量作为整体的类别；以及

交叉熵损失函数值训练单元，用于基于所述分类单元获得的所述分类特征向量的类别与真实类别之间的交叉熵损失函数值来训练所述预测编码模型的转换器和所述多标签分类器；以及

推断模块，包括：

语音信号获取单元，用于获取发送端发送的语音信号；以及

特征向量与类别生成单元，用于将所述语音信号获取单元获得的所述发送端发送的语音信号输入经训练阶段训练完成的所述预测编码模型和所述多标签分类器以获得多个语音特征向量和所述发送端发送的语音信号对应的类别；

发送单元，用于将所述特征向量与类别生成单元获得的所述多个语音特征向量和所述特征向量与类别生成单元获得的所述发送端发送的语音信号对应的类别发送至接收端。

根据本申请的又一方面，提供了一种电子设备，包括：处理器；以及，存储器，在所述存储器中存储有计算机程序指令，所述计算机程序指令在被所述处理器运行时使得所述处理器执行如上所述的用于语音编码的蓝牙音频的传送方法。

根据本申请的再又一方面，提供了一种计算机可读介质，其上存储有计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行如上所述的用于语音编码的蓝牙音频的传送方法。

根据本申请提供的用于语音编码的蓝牙音频的传送方法、用于语音编码的蓝牙音频的传送系统和电子设备，其通过使用作为基于语义理解模型的预测编码模型的编码器-掩码器结构，可以通过对发送端的语音数字信号进行编码来得到接收端的语音数字信号，从而通过编码器-解码器模型来并入通信环境因素，另外，利用上述编码器-掩码器结构中的语义理解模型的用于掩码预测的变换器机制，可以基于语音数字信号的整体对语音数字信号的模型进行标注，从而体现出音频的模式。这样在编码时，除了考虑到音频模式外，还结合了通信环境的表征，以提高编码的精度。

附图说明

通过结合附图对本申请实施例进行更详细的描述，本申请的上述以及其他目的、特征和优势将变得更加明显。附图用来提供对本申请实施例的进一步理解，并且构成说明书的一部分，与本申请实施例一起用于解释本申请，并不构成对本申请的限制。在附图中，相同的参考标号通常代表相同部件或步骤。

图1为根据本申请实施例的用于语音编码的蓝牙音频的传送方法的场景示意图。

图2A为根据本申请实施例的用于语音编码的蓝牙音频的传送方法中训练阶段的流程图。

图2B为根据本申请实施例的用于语音编码的蓝牙音频的传送方法中推断阶段的流程图。

图3A为根据本申请实施例的用于语音编码的蓝牙音频的传送方法中训练阶段的架构示意图。

图3B为根据本申请实施例的用于语音编码的蓝牙音频的传送方法中推断阶段的架构示意图。

图4为根据本申请实施例的用于语音编码的蓝牙音频的传送系统的框图。

图5为根据本申请实施例的电子设备的框图。

具体实施方式

下面，将参考附图详细地描述根据本申请的示例实施例。显然，所描述的实施例仅仅是本申请的一部分实施例，而不是本申请的全部实施例，应理解，本申请不受这里描述的示例实施例的限制。

场景概述

如前所述，语音编码就是对模拟的语音信号进行编码，将模拟信号转化成数字信号，从而降低传输码率并进行数字传输。常用的语音编码是波形编码，其将时域的模拟话音的波形信号经过取样、量化、编码而形成的数字话音信号。但这种编码方式没有考虑音频信号的具体音频模式。例如，在对激昂的音乐模式进行编码以及缓和情绪下的音乐模式等进行编码时，需要基于音频数据的音频模式来进行自适应地编码。否则就会使得编码的准确度降低，从而影响音频传输的质量。

并且，在通过蓝牙进行音频传递时，还需要考虑到通信环境，尤其是通信距离和环境噪声。否则就会使得音频的传输质量受损，同时还可能会导致最终的传输音频错误。因此，期望一种用于语音编码的蓝牙音频的传送方案。

基于此，在本申请的技术方案中，采用基于深度神经网络的编码器-解码器模型来对数字化的语音信号进行再编码。也就是，首先使用例如Bert模型的语义理解模型作为预测编码模型，从训练集中的发送端发送的数字化的语音信号获得多个语音特征向量，其中多个语音特征向量中的每个语音特征向量对应于一段语音信号，比如一个词的语音信号。然后，通过由多个全连接层构成的解码器模型从所述多个语音特征向量序列恢复数字化的语音信号，并通过最小化恢复出的语音信号与训练集中的真实的接收端接收到的语音信号的差异来训练预测编码模型和解码器模型，从而获得能够基于音频的通信环境进行特征编码的编码器模型。

进一步地，为了能够在编码的语音中体现出关于音频的模式，就需要对如上所述的多个语音特征向量作为整体来进行标签标注。因此，基于比如Bert模型的语义理解模型中包含的用于掩码预测的变换器(transformer)可以针对多个语音特征向量上下文关系来进行标注，这也符合实际情况，因为语音的模式，例如情绪模式是需要将整句话或者整段话作为整体来表现的，而不是通过单个词来表现。因此，基于转换器的内在结构计算每个语音特征向量的掩码转换值，例如，多个语音特征向量记为v_i(i＝1,…,n)，则有：

其中v_j是多个特征向量序列中v_i以外的特征向量，∑_{j＝1,…,n,j≠i}(·)表示对所有特征向量v_j求和，

表示v_i与v_j之间的距离，且R表示v_i在预测编码过程中是否被掩码，其可以根据情况取绝对值相等的正负值。

这样，在得到每个语音特征向量的掩码转换值之后，将掩码转换值构成为分类向量，并通过多标签分类器来标注多个语音特征向量作为整体的类别。

基于此，本申请提出了一种用于语音编码的蓝牙音频的传送方法，其包括：训练阶段和推断阶段。其中，训练阶段包括步骤：获取训练数据集，所述训练数据集包括发送端发送的语音信号和真实的接收端接收到的语音信号；将所述训练数据集中的所述发送端发送的语音信号通过作为预测编码模型的语义理解模型以获得多个语音特征向量，其中，所述多个语义特征向量中每个语音特征向量对应于所述发送端发送的语音信号中的一段语音信号；将所述多个语音特征向量输入由多个全连接层组成的解码器模型以从所述多个语音特征向量组成的语音特征向量序列中恢复出解码语音信号；通过最小化所述解码语音信号和所述真实的接收端接收到的语音信号之间的差异来训练所述预测编码模型和所述解码器模型；将所述多个语音特征向量分别通过所述预测编码模型的转换器以获得多个编码的语音特征向量；基于所述转换器的内在结构，计算所述多个编码的语音特征向量中每个编码的语音特征向量的掩码转换值以获得由多个掩码转换值组成的分类特征向量，其中，所述掩码转换值基于所述多个编码的语音特征向量中两个编码的语音特征向量之间的距离和所述多个编码的语音特征向量中各个编码的语音特征向量是否被编码的表征值计算而得；将所述分类特征向量通过多标签分类器来标注所述分类特征向量的类别，其中，所述分类特征向量的类别用于表示所述多个编码的语音特征向量作为整体的类别；以及，基于所述分类特征向量的类别与真实类别之间的交叉熵损失函数值来训练所述预测编码模型的转换器和所述多标签分类器。其中，推断阶段包括步骤：获取发送端发送的语音信号；将所述发送端发送的语音信号输入经训练阶段训练完成的所述预测编码模型和所述多标签分类器以获得多个语音特征向量和所述发送端发送的语音信号对应的类别；以及，将所述多个语音特征向量和所述发送端发送的语音信号对应的类别发送至接收端。

图1图示了根据本申请实施例的用于语音编码的蓝牙音频的传送方法的场景示意图。如图1所示，在该应用场景的训练阶段中，首先，从一个终端设备(例如，如图1中所示意的T1)的发送端(例如，如图1中所示意的P1)和另一个终端设备(例如，如图1中所示意的T2)的接收端(例如，如图1中所示意的P2)获取训练数据集，其中，所述训练数据集包括发送端发送的语音信号和真实的接收端接收到的语音信号；然后，将所述训练数据集输入至部署有用于语音编码的蓝牙音频的传送算法的服务器(例如，如图1中所示意的S)中，其中，所述服务器能够用于语音编码的蓝牙音频的传送算法以所述训练数据集对用于语音编码的蓝牙音频的传送的所述预测编码模型的转换器和所述多标签分类器进行训练。

在训练完成后，在推断阶段中，首先，从终端设备(例如，如图1中所示意的T)的发送端(例如，如图1中所示意的P)获取发送的语音信号；然后，将获取的所述发送的语音信号输入至部署有用于语音编码的蓝牙音频的传送算法的服务器(例如，如图1中所示意的S)中，其中，所述服务器能够以用于语音编码的蓝牙音频的传送算法对所述发送的语音信号进行处理，以生成多个语音特征向量和所述发送端发送的语音信号对应的类别。进而，再将所述多个语音特征向量和所述发送端发送的语音信号对应的类别发送至接收端。

在该应用场景中，所述终端设备包括但不局限于智能手机、平板、蓝牙音响、智能手环、运动蓝牙耳机等。

在介绍了本申请的基本原理之后，下面将参考附图来具体介绍本申请的各种非限制性实施例。

示例性方法

图2A图示了根据本申请实施例的用于语音编码的蓝牙音频的传送方法中训练阶段的流程图。如图2A所示，根据本申请实施例的用于语音编码的蓝牙音频的传送方法，包括：训练阶段，包括步骤：S110，获取训练数据集，所述训练数据集包括发送端发送的语音信号和真实的接收端接收到的语音信号；S120，将所述训练数据集中的所述发送端发送的语音信号通过作为预测编码模型的语义理解模型以获得多个语音特征向量，其中，所述多个语义特征向量中每个语音特征向量对应于所述发送端发送的语音信号中的一段语音信号；S130，将所述多个语音特征向量输入由多个全连接层组成的解码器模型以从所述多个语音特征向量组成的语音特征向量序列中恢复出解码语音信号；S140，通过最小化所述解码语音信号和所述真实的接收端接收到的语音信号之间的差异来训练所述预测编码模型和所述解码器模型；S150，将所述多个语音特征向量分别通过所述预测编码模型的转换器以获得多个编码的语音特征向量；S160，基于所述转换器的内在结构，计算所述多个编码的语音特征向量中每个编码的语音特征向量的掩码转换值以获得由多个掩码转换值组成的分类特征向量，其中，所述掩码转换值基于所述多个编码的语音特征向量中两个编码的语音特征向量之间的距离和所述多个编码的语音特征向量中各个编码的语音特征向量是否被编码的表征值计算而得；S170，将所述分类特征向量通过多标签分类器来标注所述分类特征向量的类别，其中，所述分类特征向量的类别用于表示所述多个编码的语音特征向量作为整体的类别；以及，S180，基于所述分类特征向量的类别与真实类别之间的交叉熵损失函数值来训练所述预测编码模型的转换器和所述多标签分类器。

图2B图示了根据本申请实施例的用于语音编码的蓝牙音频的传送方法中推断阶段的流程图。如图2B所示，根据本申请实施例的用于语音编码的蓝牙音频的传送方法，还包括：推断阶段，包括步骤：S210，获取发送端发送的语音信号；S220，将所述发送端发送的语音信号输入经训练阶段训练完成的所述预测编码模型和所述多标签分类器以获得多个语音特征向量和所述发送端发送的语音信号对应的类别；以及，S230，将所述多个语音特征向量和所述发送端发送的语音信号对应的类别发送至接收端。

图3A图示了根据本申请实施例的用于语音编码的蓝牙音频的传送方法中训练阶段的架构示意图。如图3A所示，在训练阶段中，在该网络架构中，首先，将获取的所述训练数据集(例如，如图3A中所示意的IN)中的所述发送端发送的语音信号(例如，如图3A中所示意的IN1)通过作为预测编码模型的语义理解模型(例如，如图3A中所示意的SUM)以获得多个语音特征向量(例如，如图3A中所示意的VF1)；接着，将所述多个语音特征向量输入由多个全连接层组成的解码器模型(例如，如图3A中所示意的D)以从所述多个语音特征向量组成的语音特征向量序列中恢复出解码语音信号(例如，如图3A中所示意的OUT)；然后，通过最小化所述解码语音信号和所述真实的接收端接收到的语音信号(例如，如图3A中所示意的IN2)之间的差异来训练所述预测编码模型和所述解码器模型；接着，将所述多个语音特征向量分别通过所述预测编码模型的转换器(例如，如图3A中所示意的C)以获得多个编码的语音特征向量(例如，如图3A中所示意的VF2)；然后，基于所述转换器的内在结构，计算所述多个编码的语音特征向量中每个编码的语音特征向量的掩码转换值以获得由多个掩码转换值组成的分类特征向量(例如，如图3A中所示意的VFC)；接着，将所述分类特征向量通过多标签分类器(例如，如图3A中所示意的圈S)来标注所述分类特征向量的类别；以及，最后，基于所述分类特征向量的类别与真实类别之间的交叉熵损失函数值来训练所述预测编码模型的转换器和所述多标签分类器。

图3B图示了根据本申请实施例的用于语音编码的蓝牙音频的传送方法中推断阶段的架构示意图。如图3B所示，在推断阶段中，在该网络结构中，首先，将获取的所述发送端发送的语音信号(例如，如图3B中所示意的IN3)输入经训练阶段训练完成的所述预测编码模型(例如，如图3B中所示意的CO)和所述多标签分类器(例如，如图3B中所示意的圈S)以获得多个语音特征向量(例如，如图3B中所示意的VF3)和所述发送端发送的语音信号对应的类别(例如，如图3B中所示意的CA)；然后，将所述多个语音特征向量和所述发送端发送的语音信号对应的类别发送至接收端。

更具体地，在训练阶段中，在步骤S110中，获取训练数据集，所述训练数据集包括发送端发送的语音信号和真实的接收端接收到的语音信号。如前所述，在对蓝牙音频进行语音编码时，需要考虑音频的模式，例如情绪模式和音频的通信环境，从而在编码后的语音中能够体现出关于音频的模式和通信环境的信息。因此，在本申请的技术方案中，使用作为基于语义理解模型的预测编码模型的编码器-掩码器结构对所述发送端的语音数字信号进行编码并以所述接收端的语音数字信号作为真实值进行训练，而在此首先就需要获取训练数据集，其中，所述训练数据集包括发送端发送的语音信号和真实的接收端接收到的语音信号。

具体地，在本申请实施例中，可以从一个终端设备的发送端来获取所述发送端发送的语音信号，以及从另一个终端设备的接收端获取真实的接收端接收到的语音信号。值得一提的是，这里，所述终端设备包括但不局限于智能手机、平板、蓝牙音响、智能手环、运动蓝牙耳机等。

更具体地，在训练阶段中，在步骤S120中，将所述训练数据集中的所述发送端发送的语音信号通过作为预测编码模型的语义理解模型以获得多个语音特征向量，其中，所述多个语义特征向量中每个语音特征向量对应于所述发送端发送的语音信号中的一段语音信号。应可以理解，在本申请的技术方案中，采用基于深度神经网络的编码器-解码器模型来对所述数字化的语音信号进行再编码。也就是，首先使用例如Bert模型的语义理解模型作为预测编码模型，从所述训练集中的发送端发送的数字化的语音信号获得多个语音特征向量，其中所述多个语音特征向量中的每个语音特征向量对应于一段语音信号，比如一个词的语音信号。

具体地，在本申请实施例中，将所述训练数据集中的所述发送端发送的语音信号通过作为预测编码模型的语义理解模型以获得多个语音特征向量的过程，包括：首先，将所述发送端发送的语音信号通过模数转化器以将所述发送端发送的语音信号转化为数字信号，以便于后续计算机对其进行处理。也就是，对获得的所述发送端发送的语音信号进行模数转换，以把模拟信号转换为数字信号，具体地，其包括两个步骤：采样和量化，即以一定的采样率和采样位数把声音连续波形转换为离散的数据点。

接着，使用声谱分析器对数字化的所述发送端发送的语音信号进行音谱分析，以将所述数字化的所述发送端发送的语音信号切分为多个子语音信号。应可以理解，声音是模拟信号，声音的时域波形只代表声压随时间变化的关系，不能很好的代表声音的特征，因此，在本申请的技术方案中，必须将声音波形进行音频分析以将其转换为声学特征向量。也就是，在一个具体示例中，首先，对数字化的所述发送端发送的语音信号进行离散傅里叶变换以把获得的数字化的所述发送端发送的语音信号的时域特征转化到音谱频域中。应可以理解，所述离散傅里叶变换能够从一个离散信号中提取离散频段频谱的信息。然后，对经离散傅里叶变换后的数字化的所述发送端发送的语音信号进行Mel滤波。应可以理解，人耳听觉对不同频带的敏感度是不同的，人耳对高频不如低频敏感，这一分界线大约是1000Hz，因此，在提取声音特征时模拟人耳听觉这一性质可以提高识别性能。值得一提的是，这里，频率(单位Hz)和Mel刻度之间的对应关系在1000Hz以下是线性的，在1000Hz以上是对数的，其计算公式如下：Mel(f)＝1127ln(1+f/700)。最后，对经Mel滤波后的所述发送端发送的语音信号进行切分以获得所述多个子语音信号。

然后，使用参数变换器分别对所述多个子语音信号进行处理以获得所述多个子语音向量。最后，将所述多个子语音向量通过所述语义理解模型以获得所述多个语音特征向量。值得一提的是，这里，所述多个语音特征向量中的每个语音特征向量对应于一段语音信号，比如一个词的语音信号。

更具体地，在训练阶段中，在步骤S130和步骤S140中，将所述多个语音特征向量输入由多个全连接层组成的解码器模型以从所述多个语音特征向量组成的语音特征向量序列中恢复出解码语音信号，并通过最小化所述解码语音信号和所述真实的接收端接收到的语音信号之间的差异来训练所述预测编码模型和所述解码器模型。也就是，首先，将所述多个语义特征向量组成语义特征向量序列，以便于后续对其进行处理；然后，将所述语义特征向量序列通过由多个全连接层构成的解码器模型从所述多个语音特征向量序列恢复数字化的语音信号；最后，通过最小化恢复出的所述解码语音信号与所述训练集中的真实的接收端接收到的语音信号的差异来训练所述预测编码模型和所述解码器模型，从而获得能够基于音频的通信环境进行特征编码的编码器模型。在一个具体示例中，可以计算所述解码语音信号和所述真实的接收端接收到的语音信号之间的交叉熵损失函数值来作为两者之间的差异。应可以理解，所述交叉熵损失函数值表示所述解码语音信号和所述真实的接收端接收到的语音信号之间的一致性程度。

更具体地，在训练阶段中，在步骤S150和步骤S160中，将所述多个语音特征向量分别通过所述预测编码模型的转换器以获得多个编码的语音特征向量，并基于所述转换器的内在结构，计算所述多个编码的语音特征向量中每个编码的语音特征向量的掩码转换值以获得由多个掩码转换值组成的分类特征向量。应可以理解，为了能够在所述编码的语音中体现出关于音频的模式，就需要对所述多个语音特征向量作为整体来进行标签标注。并且在实际的情景中，所述语音的模式，例如情绪模式是需要将整句话或者整段话作为整体来表现的，而不是通过单个词来表现。因此，在本申请的技术方案中，采用基于例如Bert模型的语义理解模型中包含的用于掩码预测的变换器对所述多个语音特征向量上下文关系来进行标注。在此之前，也就是，首先需要将所述多个语音特征向量分别通过所述预测编码模型的转换器以获得多个编码的语音特征向量。然后，基于所述转换器的内在结构，计算所述多个编码的语音特征向量中每个编码的语音特征向量的掩码转换值以获得由多个掩码转换值组成的分类特征向量。在一个具体示例中，所述掩码转换值基于所述多个编码的语音特征向量中两个编码的语音特征向量之间的距离和所述多个编码的语音特征向量中各个编码的语音特征向量是否被编码的表征值计算而得。

具体地，在本申请实施例中，基于所述转换器的内在结构，计算所述多个编码的语音特征向量中每个编码的语音特征向量的掩码转换值以获得由多个掩码转换值组成的分类特征向量的过程，包括：基于所述转换器的内在结构，以如下公式计算所述多个编码的语音特征向量中每个编码的语音特征向量的掩码转换值以获得由多个掩码转换值组成的分类特征向量；

所述公式为：

其中v_j是所述多个编码的语音特征向量中除v_i以外的编码的语音特征向量，∑_{j＝1,…,n,j≠i}(·)表示对所有的编码的语音特征向量v_j求和，

更具体地，在训练阶段中，在步骤S170和步骤S180中，将所述分类特征向量通过多标签分类器来标注所述分类特征向量的类别，其中，所述分类特征向量的类别用于表示所述多个编码的语音特征向量作为整体的类别，并基于所述分类特征向量的类别与真实类别之间的交叉熵损失函数值来训练所述预测编码模型的转换器和所述多标签分类器。也就是，在一个具体示例中，首先，将所述分类特征向量输入所述多标签分类器的Softmax分类函数以获得所述分类特征向量分别归属于各个类别的概率值，值得一提的是，这里，所述分类特征向量的类别用于表示所述多个编码的语音特征向量作为整体的类别。然后，将所述概率值中最大者对应的类别确定为所述分类特征向量所属的类别。最后，再基于所述分类特征向量的类别与真实类别之间的交叉熵损失函数值来训练所述预测编码模型的转换器和所述多标签分类器，应可以理解，所述交叉熵损失函数值表示所述分类特征向量的类别与所述真实类别之间的一致性程度。

在训练完成后，进入推断阶段。也就是，在使用用于语音编码的蓝牙音频的传送算法来训练所述预测编码模型的转换器和所述多标签分类器后，将训练完成的所述预测编码模型的转换器和所述多标签分类器用于实际的推断场景中。

更具体地，在推断阶段中，在步骤S210、步骤S220和步骤S230中，获取发送端发送的语音信号，并将所述发送端发送的语音信号输入经训练阶段训练完成的所述预测编码模型和所述多标签分类器以获得多个语音特征向量和所述发送端发送的语音信号对应的类别，再将所述多个语音特征向量和所述发送端发送的语音信号对应的类别发送至接收端。也就是，在一个具体示例中，首先，可以从终端设备中获取发送端发送的语音信号，值得一提的是，这里所述终端设备包括但不局限于智能手机、平板、蓝牙音响以及智能手环等。然后，再将所述发送端发送的语音信号通过经训练阶段训练完成的所述预测编码模型和所述多标签分类器进行处理，以生成所述多个语音特征向量和所述发送端发送的语音信号对应的类别。最后，再将得到的所述多个语音特征向量和所述发送端发送的语音信号对应的类别发送至接收端。

综上，基于本申请实施例的用于语音编码的蓝牙音频的传送方法被阐明，其通过使用作为基于语义理解模型的预测编码模型的编码器-掩码器结构，可以通过对发送端的语音数字信号进行编码来得到接收端的语音数字信号，从而通过编码器-解码器模型来并入通信环境因素，另外，利用上述编码器-掩码器结构中的语义理解模型的用于掩码预测的变换器机制，可以基于语音数字信号的整体对语音数字信号的模型进行标注，从而体现出音频的模式。这样在编码时，除了考虑到音频模式外，还结合了通信环境的表征，以提高编码的精度。

示例性系统

图4图示了根据本申请实施例的用于语音编码的蓝牙音频的传送系统的框图。如图4所示，根据本申请实施例的用于语音编码的蓝牙音频的传送系统400，包括：训练模块410和推断模块420。

如图4所示，所述训练模块410，包括：训练数据集获取单元411，用于获取训练数据集，所述训练数据集包括发送端发送的语音信号和真实的接收端接收到的语音信号；编码单元412，用于将所述训练数据集获取单元411获得的所述训练数据集中的所述发送端发送的语音信号通过作为预测编码模型的语义理解模型以获得多个语音特征向量，其中，所述多个语义特征向量中每个语音特征向量对应于所述发送端发送的语音信号中的一段语音信号；解码单元413，用于将所述编码单元412获得的所述多个语音特征向量输入由多个全连接层组成的解码器模型以从所述编码单元412获得的所述多个语音特征向量组成的语音特征向量序列中恢复出解码语音信号；差异训练单元414，用于通过最小化所述解码单元413获得的所述解码语音信号和所述训练数据集获取单元411获得的所述真实的接收端接收到的语音信号之间的差异来训练所述预测编码模型和所述解码器模型；转换器处理单元415，用于将所述编码单元412获得的所述多个语音特征向量分别通过所述差异训练单元414获得的所述预测编码模型的转换器以获得多个编码的语音特征向量；掩码单元416，用于基于所述转换器的内在结构，计算所述转换器处理单元415获得的所述多个编码的语音特征向量中每个编码的语音特征向量的掩码转换值以获得由多个掩码转换值组成的分类特征向量，其中，所述掩码转换值基于所述多个编码的语音特征向量中两个编码的语音特征向量之间的距离和所述多个编码的语音特征向量中各个编码的语音特征向量是否被编码的表征值计算而得；分类单元417，用于将所述掩码单元416获得的所述分类特征向量通过多标签分类器来标注所述分类特征向量的类别，其中，所述分类特征向量的类别用于表示所述多个编码的语音特征向量作为整体的类别；以及，交叉熵损失函数值训练单元418，用于基于所述分类单元417获得的所述分类特征向量的类别与真实类别之间的交叉熵损失函数值来训练所述预测编码模型的转换器和所述多标签分类器。

如图4所示，所述推断模块420，包括：语音信号获取单元421，用于获取发送端发送的语音信号；特征向量与类别生成单元422，用于将所述语音信号获取单元421获得的所述发送端发送的语音信号输入经训练阶段训练完成的所述预测编码模型和所述多标签分类器以获得多个语音特征向量和所述发送端发送的语音信号对应的类别；以及，发送单元423，用于将所述特征向量与类别生成单元422获得的所述多个语音特征向量和所述特征向量与类别生成单元获得的所述发送端发送的语音信号对应的类别发送至接收端。

在一个示例中，在上述用于语音编码的蓝牙音频的传送系统400中，所述编码单元412，包括：转化子单元，用于将所述发送端发送的语音信号通过模数转化器以将所述发送端发送的语音信号转化为数字信号；音谱分析子单元，用于使用声谱分析器对数字化的所述转化子单元获得的所述发送端发送的语音信号进行音谱分析，以将所述数字化的所述发送端发送的语音信号切分为多个子语音信号；参数变换器处理子单元，用于使用参数变换器分别对所述音谱分析子单元获得的所述多个子语音信号进行处理以获得所述多个子语音向量；以及，语义理解模型处理子单元，用于将所述参数变换器处理子单元获得的所述多个子语音向量通过所述语义理解模型以获得所述多个语音特征向量。

在一个示例中，在上述用于语音编码的蓝牙音频的传送系统400中，所述音谱分析子单元，进一步用于：对数字化的所述发送端发送的语音信号进行离散傅里叶变换；对经离散傅里叶变换后的数字化的所述发送端发送的语音信号进行Mel滤波；以及，对经Mel滤波后的所述发送端发送的语音信号进行切分以获得所述多个子语音信号。

在一个示例中，在上述用于语音编码的蓝牙音频的传送系统400中，所述差异训练单元414，进一步用于：计算所述解码语音信号和所述真实的接收端接收到的语音信号之间的交叉熵损失函数值作为两者之间的差异。

在一个示例中，在上述用于语音编码的蓝牙音频的传送系统400中，所述掩码单元416，进一步用于：基于所述转换器的内在结构，以如下公式计算所述多个编码的语音特征向量中每个编码的语音特征向量的掩码转换值以获得由多个掩码转换值组成的分类特征向量；所述公式为：

表示v_i与v_j之间的距离，且R表示v_i在预测编码过程中是否被掩码。

在一个示例中，在上述用于语音编码的蓝牙音频的传送系统400中，所述分类单元417，进一步用于：将所述分类特征向量输入所述多标签分类器的Softmax分类函数以获得所述分类特征向量分别归属于各个类别的概率值；以及，将所述概率值中最大者对应的类别确定为所述分类特征向量所属的类别。

这里，本领域技术人员可以理解，上述用于语音编码的蓝牙音频的传送系统400中的各个单元和模块的具体功能和操作已经在上面参考图1到图3B的用于语音编码的蓝牙音频的传送方法的描述中得到了详细介绍，并因此，将省略其重复描述。

如上所述，根据本申请实施例的用于语音编码的蓝牙音频的传送系统400可以实现在各种终端设备中，例如用于语音编码的蓝牙音频的传送算法的服务器等。在一个示例中，根据本申请实施例的用于语音编码的蓝牙音频的传送系统400可以作为一个软件模块和/或硬件模块而集成到终端设备中。例如，该用于语音编码的蓝牙音频的传送系统400可以是该终端设备的操作系统中的一个软件模块，或者可以是针对于该终端设备所开发的一个应用程序；当然，该用于语音编码的蓝牙音频的传送系统400同样可以是该终端设备的众多硬件模块之一。

替换地，在另一示例中，该用于语音编码的蓝牙音频的传送系统400与该终端设备也可以是分立的设备，并且该用于语音编码的蓝牙音频的传送系统400可以通过有线和/或无线网络连接到该终端设备，并且按照约定的数据格式来传输交互信息。

示例性电子设备

下面，参考图5来描述根据本申请实施例的电子设备。如图5所示，电子设备包括10包括一个或多个处理器11和存储器12。所述处理器11可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元，并且可以控制电子设备10中的其他组件以执行期望的功能。

存储器12可以包括一个或多个计算机程序产品，所述计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令，处理器11可以运行所述程序指令，以实现上文所述的本申请的各个实施例的用于语音编码的蓝牙音频的传送方法的功能以及/或者其他期望的功能。在所述计算机可读存储介质中还可以存储诸如语音特征向量、分类特征向量等各种内容。

在一个示例中，电子设备10还可以包括：输入系统13和输出系统14，这些组件通过总线系统和/或其他形式的连接机构(未示出)互连。

该输入系统13可以包括例如键盘、鼠标等等。

该输出系统14可以向外部输出各种信息，包括语音特征向量、语音信号对应的类别等。该输出系统14可以包括例如显示器、扬声器、打印机、以及通信网络及其所连接的远程输出设备等等。

当然，为了简化，图5中仅示出了该电子设备10中与本申请有关的组件中的一些，省略了诸如总线、输入/输出接口等等的组件。除此之外，根据具体应用情况，电子设备10还可以包括任何其他适当的组件。

示例性计算机程序产品和计算机可读存储介质

除了上述方法和设备以外，本申请的实施例还可以是计算机程序产品，其包括计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本申请各种实施例的用于语音编码的蓝牙音频的传送方法中的功能中的步骤。

所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本申请实施例操作的程序代码，所述程序设计语言包括面向对象的程序设计语言，诸如Java、C++等，还包括常规的过程式程序设计语言，诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。

此外，本申请的实施例还可以是计算机可读存储介质，其上存储有计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的用于语音编码的蓝牙音频的传送方法中的步骤。

所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、系统或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

以上结合具体实施例描述了本申请的基本原理，但是，需要指出的是，在本申请中提及的优点、优势、效果等仅是示例而非限制，不能认为这些优点、优势、效果等是本申请的各个实施例必须具备的。另外，上述公开的具体细节仅是为了示例的作用和便于理解的作用，而非限制，上述细节并不限制本申请为必须采用上述具体的细节来实现。

本申请中涉及的器件、系统、设备、系统的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的，可以按任意方式连接、布置、配置这些器件、系统、设备、系统。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇，指“包括但不限于”，且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”，且可与其互换使用，除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”，且可与其互换使用。

还需要指出的是，在本申请的系统、设备和方法中，各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本申请的等效方案。

提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本申请。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的，并且在此定义的一般原理可以应用于其他方面而不脱离本申请的范围。因此，本申请不意图被限制到在此示出的方面，而是按照与在此公开的原理和新颖的特征一致的最宽范围。

为了例示和描述的目的已经给出了以上描述。此外，此描述不意图将本申请的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例，但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。

Claims

1.一种用于语音编码的蓝牙音频的传送方法，其特征在于，包括：

训练阶段，包括：

推断阶段，包括：

获取发送端发送的语音信号；

2.根据权利要求1所述的用于语音编码的蓝牙音频的传送方法，其中，将所述训练数据集中的所述发送端发送的语音信号通过作为预测编码模型的语义理解模型以获得多个语音特征向量，包括：

将所述发送端发送的语音信号通过模数转化器以将所述发送端发送的语音信号转化为数字信号；

使用声谱分析器对数字化的所述发送端发送的语音信号进行音谱分析，以将所述数字化的所述发送端发送的语音信号切分为多个子语音信号；以及

使用参数变换器分别对所述多个子语音信号进行处理以获得所述多个子语音向量；以及

将所述多个子语音向量通过所述语义理解模型以获得所述多个语音特征向量。

3.根据权利要求2所述的用于语音编码的蓝牙音频的传送方法，其中，使用声谱分析器对数字化的所述发送端发送的语音信号进行音谱分析，以将所述数字化的所述发送端发送的语音信号切分为多个子语音信号，包括：

对数字化的所述发送端发送的语音信号进行离散傅里叶变换；以及

对经离散傅里叶变换后的数字化的所述发送端发送的语音信号进行Mel滤波；以及

对经Mel滤波后的所述发送端发送的语音信号进行切分以获得所述多个子语音信号。

4.根据权利要求1所述的用于语音编码的蓝牙音频的传送方法，其中，通过最小化所述解码语音信号和所述真实的接收端接收到的语音信号之间的差异来训练所述预测编码模型和所述解码器模型，包括：

计算所述解码语音信号和所述真实的接收端接收到的语音信号之间的交叉熵损失函数值作为两者之间的差异。

5.根据权利要求1所述的用于语音编码的蓝牙音频的传送方法，其中，基于所述转换器的内在结构，计算所述多个编码的语音特征向量中每个编码的语音特征向量的掩码转换值以获得由多个掩码转换值组成的分类特征向量，包括：

基于所述转换器的内在结构，以如下公式计算所述多个编码的语音特征向量中每个编码的语音特征向量的掩码转换值以获得由多个掩码转换值组成的分类特征向量；

所述公式为：

6.根据权利要求1所述的用于语音编码的蓝牙音频的传送方法，其中，将所述分类特征向量通过多标签分类器来标注所述分类特征向量的类别，包括：

将所述分类特征向量输入所述多标签分类器的Softmax分类函数以获得所述分类特征向量分别归属于各个类别的概率值；以及

将所述概率值中最大者对应的类别确定为所述分类特征向量所属的类别。

7.一种用于语音编码的蓝牙音频的传送系统，其特征在于，包括：

训练模块，包括：

推断模块，包括：

语音信号获取单元，用于获取发送端发送的语音信号；以及

8.根据权利要求7所述的用于语音编码的蓝牙音频的传送系统，其中，所述编码单元，包括：

转化子单元，用于将所述发送端发送的语音信号通过模数转化器以将所述发送端发送的语音信号转化为数字信号；

音谱分析子单元，用于使用声谱分析器对数字化的所述转化子单元获得的所述发送端发送的语音信号进行音谱分析，以将所述数字化的所述发送端发送的语音信号切分为多个子语音信号；以及

参数变换器处理子单元，用于使用参数变换器分别对所述音谱分析子单元获得的所述多个子语音信号进行处理以获得所述多个子语音向量；以及

语义理解模型处理子单元，用于将所述参数变换器处理子单元获得的所述多个子语音向量通过所述语义理解模型以获得所述多个语音特征向量。

9.根据权利要求7所述的用于语音编码的蓝牙音频的传送系统，其中，所述掩码单元，进一步用于：

所述公式为：

10.一种电子设备，包括：

处理器；以及

存储器，在所述存储器中存储有计算机程序指令，所述计算机程序指令在被所述处理器运行时使得所述处理器执行如权利要求1-6中任一项所述的用于语音编码的蓝牙音频的传送方法。