CN117198272B

CN117198272B - 一种语音处理方法、装置、电子设备及存储介质

Info

Publication number: CN117198272B
Application number: CN202311468400.0A
Authority: CN
Inventors: 殷赵慧; 胡新辉; 徐欣康
Original assignee: Zhejiang Tonghuashun Intelligent Technology Co Ltd
Current assignee: Zhejiang Tonghuashun Intelligent Technology Co Ltd
Priority date: 2023-11-07
Filing date: 2023-11-07
Publication date: 2024-01-30
Anticipated expiration: 2043-11-07
Also published as: CN117198272A

Abstract

本申请提供了一种语音处理方法、装置、电子设备及存储介质，涉及数据处理及深度学习领域，该方法包括：对获取的待测语音进行特征提取，得到第一语音特征数据；基于第一语音特征数据通过多头自注意力机制确定第二语音特征数据；对第二语音特征数据进行预测，得到待测语音的说话人数量；基于第二语音特征数据和说话人数量确定每个说话人的第三语音特征数据；基于说话人的第三语音特征数据确定说话人在待测语音中的目标语音。解决现有方法无法有效结合语音中的上下文信息，导致分离出的每个说话人的语音的准确率不足的问题。

Description

一种语音处理方法、装置、电子设备及存储介质

技术领域

本申请涉及数据处理及深度学习领域，尤其涉及一种语音处理方法、装置、电子设备及存储介质。

背景技术

对语音进行处理包括从包含至少两个说话人的语音中，将每个说话人的语音给分离出来。目前可以通过基于循环RNN网络（循环神经网络）的语音分离模型或MULCAT模型（一种语音分离模型）对语音进行分离，但这两种模型均无法有效结合上下文信息，因此，分离出的每个说话人的语音的准确率不足。

发明内容

本申请提供了一种语音处理方法、装置、电子设备及存储介质。

根据本申请的第一方面，提供了一种语音处理方法，所述方法包括：

对获取的待测语音进行特征提取，得到第一语音特征数据；

基于所述第一语音特征数据通过多头自注意力机制确定第二语音特征数据；

对所述第二语音特征数据进行预测，得到所述待测语音的说话人数量；

基于所述第二语音特征数据和说话人数量确定每个说话人的第三语音特征数据；

基于所述说话人的第三语音特征数据确定所述说话人在所述待测语音中的目标语音。

其中，所述基于所述第一语音特征数据通过多头自注意力机制确定第二语音特征数据，包括：

基于所述第一语音特征数据确定多个第一子语音特征数据；

基于所述第一子语音特征数据确定候选第二语音特征数据；

利用多头自注意力机制对所述候选第二语音特征数据进行预设次数的处理，得到所述第二语音特征数据。

其中，所述利用多头自注意力机制对所述候选第二语音特征数据进行预设次数的处理，包括：

基于所述候选第二语音特征数据确定多个块内语音特征数据，并基于所述多个块内语音特征数据通过多头自注意力机制确定相应的多个加权后的块内语音特征数据；

对所述多个加权后的块内语音特征数据的维度进行转换，得到多个块间语音特征数据，并基于所述转换得到的多个块间语音特征数据通过多头自注意力机制确定相应的多个加权后的块间语音特征数据；

若所述处理未达到预设次数，则对所述多个加权后的块间语音特征数据的维度进行转换，得到多个块内语音特征数据并重新进行处理；

若所述处理达到预设次数，则基于所述多个加权后的块间语音特征数据确定第二语音特征数据。

其中，所述基于所述第一语音特征数据确定多个第一子语音特征数据，包括：

利用滑动窗口对所述第一语音特征数据进行切割，得到多个第一子语音特征数据，所述滑动窗口的长与所述第一语音特征数据相同，所述滑动窗口的宽小于所述第一语音特征数据。

其中，所述基于所述第二语音特征数据和说话人数量确定每个说话人的第三语音特征数据，包括：

基于所述说话人数量对第二语音特征数据进行升维，得到第四语音特征数据；

将所述第四语音特征数据展平，得到第五语音特征数据；

基于所述说话人数量对所述第五语音特征数据进行切割，得到所述说话人的第三语音特征数据。

其中，所述基于所述说话人的第三语音特征数据确定所述说话人在所述待测语音中的目标语音，包括：

对所述说话人的第三语音特征数据进行解码，得到所述说话人在所述待测语音中的目标语音。

根据本申请的第二方面，提供了一种语音处理装置，所述装置包括：

处理模块，用于对获取的待测语音进行特征提取，得到第一语音特征数据；

计算模块，用于基于所述第一语音特征数据通过多头自注意力机制确定第二语音特征数据；

所述计算模块，还用于对所述第二语音特征数据进行预测，得到所述待测语音的说话人数量；

所述计算模块，还用于基于所述第二语音特征数据和说话人数量确定每个说话人的第三语音特征数据；

转换模块，用于基于所述说话人的第三语音特征数据确定所述说话人在所述待测语音中的目标语音。

其中，所述计算模块，还用于基于所述第一语音特征数据确定多个第一子语音特征数据；

所述计算模块，还用于基于所述第一子语音特征数据确定候选第二语音特征数据；

所述计算模块，还用于利用多头自注意力机制对所述候选第二语音特征数据进行预设次数的处理，得到所述第二语音特征数据。

根据本申请的第三方面，提供了一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本申请所述的方法。

根据本申请的第四方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，所述计算机指令用于使所述计算机执行本申请所述的方法。

应当理解，本部分所描述的内容并非旨在标识本申请的实施例的关键或重要特征，也不用于限制本申请的范围。本申请的其它特征将通过以下的说明书而变得容易理解。

附图说明

通过参考附图阅读下文的详细描述，本申请示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中，以示例性而非限制性的方式示出了本申请的若干实施方式，其中：

在附图中，相同或对应的标号表示相同或对应的部分。

图1示出了根据本申请的一个实施例的语音处理方法的流程图；

图2示出了根据本申请的另一个实施例的语音处理方法的流程图；

图3示出了根据本申请的一个实施例的确定候选第二语音特征数据的示意图；

图4示出了根据本申请的另一个实施例的语音处理方法的流程图；

图5示出了根据本申请的一个实施例的确定块内语音特征数据的示意图；

图6示出了根据本申请的一个实施例的确定块间语音特征数据的示意图；

图7示出了根据本申请的另一个实施例的语音处理方法的流程图；

图8示出了根据本申请的一个实施例的语音分离模型的结构示意图；

图9示出了根据本申请的一个实施例的语音处理装置的结构示意图；

图10示出了根据本申请的一个实施例的一种电子设备的组成结构示意图。

具体实施方式

为使本申请的目的、特征、优点能够更加的明显和易懂，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而非全部实施例。基于本申请中的实施例，本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

为了提高对语音进行分离的效率，并且提高分离出的每个说话人语音的准确率，本申请一实施例提供了一种语音处理方法，如图1所示，该方法包括：

步骤101，对获取的待测语音进行特征提取，得到第一语音特征数据。

可以将需要处理的语音直接作为待测语音进行特征提取。也可以将需要处理的语音/>进行切割，然后将切割后的语音片段作为待测语音/>进行特征提取。

对待测语音进行特征提取后，得到第一语音特征数据/>。

其中，为卷积处理，对待测语音/>进行卷积处理，并经过非线性激活函数处理后，提取出的第一语音特征数据/>。

步骤102，基于所述第一语音特征数据通过多头自注意力机制确定第二语音特征数据。

在本实施例中，可以利用Sepformer网络通过多头自注意力机制确定第一语音特征数据相应的第二语音特征数据/>。

Sepformer网络（一种语音分离模型）中包含多个Sepformer层，每个Sepformer层包括一个Intra-Transformer模块（一种神经网络架构）和Inter-Transformer模块（一种神经网络架构）。Intra-Transformer模块可以捕获特征数据块内的时间依赖关系，并对特征数据进行加权处理。Inter-Transformer模块可以捕获特征数据块间的时间依赖关系，并对特征数据进行加权处理。Intra-Transformer模块和Inter-Transformer模块可以有效结合特征数据的上下文信息，提高确定出的第二语音特征数据的准确率，进而提高最终分离出的说话人语音的准确率。

步骤103，对所述第二语音特征数据进行预测，得到所述待测语音的说话人数量。

在本实施例中，可以利用计数头神经网络（Count-Head）对第二语音特征数据进行说话人数量预测，得到待测语音的说话人数量/>。

计数头神经网络是一种分类神经网络，先对第二语音特征数据进行线性变换，然后进行全局平均池化，最后利用激活函数和前馈网络进行非线性映射，得到待测语音的说话人数量/>。

其中，表示通过计数头神经网络的处理。

步骤104，基于所述第二语音特征数据和说话人数量确定每个说话人的第三语音特征数据。

在本实施例中，可以利用多解码器头（Multi-Decoder Head）基于说话人数量从第二语音特征数据/>中提取出每个说话人的第三语音特征数据/>。

步骤105，基于所述说话人的第三语音特征数据确定所述说话人在所述待测语音中的目标语音。

在本实施例中，可以利用解码器将说话人的第三语音特征数据转换为目标语音。

其中，为卷积处理，对第三语音特征数据/>进行卷积处理，并经过非线性激活函数处理后，得到转换后的目标语音/>。

需要指出的是，若待测语音是将需要处理的语音/>进行切割后得到的语音片段，则多个语音片段处理后可得到同一个说话人的多个目标语音/>，将同一个说话人的多个目标语音/>进行拼接，即可得到该说话人在需要处理的语音/>中的语音部分。

在上述的方案中，基于第一语音特征数据通过多头自注意力机制确定第二语音特征数据，能够捕获特征数据块内和块间的时间依赖关系，并对特征数据进行加权处理。使得能够有效结合特征数据的上下文信息，提高确定出的第二语音特征数据的准确率，进而提高最终分离出的说话人语音的准确率。

在本申请一示例中还提供了一种语音处理方法，如图2所示，所述基于所述第一语音特征数据通过多头自注意力机制确定第二语音特征数据，包括：

步骤201，基于所述第一语音特征数据确定多个第一子语音特征数据。

在本实施例中，为了减少计算的数据量，可以对第一语音特征数据进行进一步切割，得到多个第一子语音特征数据。

例如，第一语音特征数据为大小为/>的二维矩阵，将第一语音特征数据/>进行切割，得到/>个第一子语音特征数据/>，第一子语音特征数据/>为大小为/>的二维矩阵，其中/>。

步骤202，基于所述第一子语音特征数据确定候选第二语音特征数据。

如图3所示，将切割后得到的个第一子语音特征数据/>进行高度上的叠加，得到候选第二语音特征数据/>，候选第二语音特征数据/>为大小为/>的三维矩阵。

步骤203，利用多头自注意力机制对所述候选第二语音特征数据进行预设次数的处理，得到所述第二语音特征数据。

利用Sepformer网络中的预设数量个Sepformer层对候选第二语音特征数据进行预设次数的处理，得到第二语音特征数据。

目前对语音进行处理的方法中，无法对多个特征数据进行并行化处理，导致对语音进行处理的效率较低。

而在上述的方案中，利用多头自注意力机制可以对候选第二语音特征数据中的多个块内信息和多个块间信息进行并行化处理，显著提高了对语音进行处理的效率。且对第一语音特征数据进行切割，减少了后续计算的数据量，进一步提高了对语音进行处理的效率。

在本申请一示例中还提供了一种语音处理方法，如图4所示，所述利用多头自注意力机制对所述候选第二语音特征数据进行预设次数的处理，包括：

步骤301，基于所述候选第二语音特征数据确定多个块内语音特征数据，并基于所述多个块内语音特征数据通过多头自注意力机制确定相应的多个加权后的块内语音特征数据。

如图5所示，将大小为的候选第二语音特征数据按照虚线进行切割（即对三维矩阵的高进行切割），得到/>个块内语音特征数据，块内语音特征数据为大小为/>的二维矩阵。

确定多个块内语音特征数据后，对基于多个块内语音特征数据通过多头自注意力机制确定相应的多个加权后的块内语音特征数据。

步骤302，对所述多个加权后的块内语音特征数据的维度进行转换，得到多个块间语音特征数据，并基于所述转换得到的多个块间语音特征数据通过多头自注意力机制确定相应的多个加权后的块间语音特征数据。

将多个加权后的块内语音特征数据进行高度上的叠加，重新得到一个大小为的三维矩阵，再如图6所示，将大小为/>的三维矩阵按照虚线进行切割（即对三维矩阵的长进行切割），得到/>个块间语音特征数据，块间语音特征数据为大小为/>的二维矩阵。

确定多个块间语音特征数据后，对基于多个块间语音特征数据通过多头自注意力机制确定相应的多个加权后的块间语音特征数据。

步骤303，若所述处理未达到预设次数，则对所述多个加权后的块间语音特征数据的维度进行转换，得到多个块内语音特征数据并重新进行处理。

如果处理（即基于多个块内语音特征数据通过多头自注意力机制确定相应的多个加权后的块内语音特征数据，对多个加权后的块内语音特征数据的维度进行转换，得到多个块间语音特征数据，并基于转换得到的多个块间语音特征数据通过多头自注意力机制确定相应的多个加权后的块间语音特征数据）未达到预设次数，则将多个加权后的块间语音特征数据转换为多个块内语音特征数据，继续进行上述的处理。

步骤304，若所述处理达到预设次数，则基于所述多个加权后的块间语音特征数据确定第二语音特征数据。

如果处理达到预设次数，则将多个加权后的块间语音特征数据进行高度上的叠加，得到一个大小为的三维矩阵，即第二语音特征数据。

在本实施例中，预设次数实质是指Sepformer网络中设置的Sepformer层的数量，设置有多少层Sepformer层，即对候选第二语音特征数据进行多少次处理。例如，Sepformer网络中设置有5层Sepformer层，即对候选第二语音特征数据进行5次处理。

在本申请一示例中还提供了一种语音处理方法，所述基于所述第一语音特征数据确定多个第一子语音特征数据，包括：

例如，某个第一语音特征数据为48大小的二维矩阵，第一语音特征数据为，滑动窗口选择4/>2大小，重叠度设置为50%，则切割后得到7个第一子语音特征数据，分别为/>、/>、/>、/>、/>、/>和/>。

在上述的方案中，利用长与第一语音特征数据数据相同的滑动窗口，能够对第一语音特征数据在同一维度上进行切割，使得后续对第一子语音特征数据提取的块内信息和块间信息更加准确，进而提高最终分离出的说话人语音的准确率。

在本申请一示例中还提供了一种语音处理方法，如图7所示，所述基于所述第二语音特征数据和说话人数量确定每个说话人的第三语音特征数据，包括：

步骤401，基于所述说话人数量对第二语音特征数据进行升维，得到第四语音特征数据。

在多解码器头中，先通过PReLU（一种激活函数）对第二语音特征数据进行激活，再通过卷积层对第二语音特征数据/>进行升维，得到第四语音特征数据/>。

例如，第二语音特征数据为大小为/>的三维矩阵，将说话人数量/>和第二语音特征数据/>输入多解码器头中进行升维，输出第四语音特征数据/>，第四语音特征数据/>为大小为/>的四维矩阵。

步骤402，将所述第四语音特征数据展平，得到第五语音特征数据。

例如，第四语音特征数据为大小为/>的四维矩阵，对第四语音特征数据/>进行高度上的切割，切割后进行拼接，得到第五语音特征数据/>，第五语音特征数据/>为大小为/>的三维矩阵。

步骤403，基于所述说话人数量对所述第五语音特征数据进行切割，得到所述说话人的第三语音特征数据。

将说话人数量和第五语音特征数据/>输入全连接层，输出每个说话人的第三语音特征数据/>。

例如，第五语音特征数据为大小为/>的三维矩阵，基于说话人数量/>对第五语音特征数据/>进行切割，得到每个说话人的第三语音特征数据/>，即/>个大小为/>的二维矩阵。

在本申请一示例中还提供了一种语音处理方法，所述基于所述说话人的第三语音特征数据确定所述说话人在所述待测语音中的目标语音，包括：

在本申请一示例中还提供了一种Multi-DecoderSepFormer模型（一种语音分离模型），基于该模型实现语音处理方法，如图8所示，包括：

获取需要处理的语音，需要处理的语音/>进行切割，得到多个待测语音/>，/>的大小为/>，/>表征待测语音/>的长度，即采样点数量。

将待测语音输入卷积层，对待测语音/>进行特征提取，输出第一语音特征数据/>，第一语音特征数据/>为大小为/>的二维矩阵。

对第一语音特征数据进行切割，得到/>个第一子语音特征数据/>，第一子语音特征数据/>为大小为/>的二维矩阵，其中/>。

将个第一子语音特征数据/>进行高度上的叠加，得到候选第二语音特征数据/>，为大小为/>的三维矩阵。

将候选第二语音特征数据输入Sepformer网络，经过Sepformer网络中N个Sepformer层的处理后，输出第二语音特征数据/>，第二语音特征数据/>为大小为的三维矩阵。

将第二语音特征数据输入计数头神经网络中进行说话人数量预测，输出说话人数量J。

将第二语音特征数据和说话人数量J输入多解码器头中，基于说话人数量J对第二语音特征数据/>进行升维，输出第四语音特征数据/>，第四语音特征数据/>为大小为/>的四维矩阵。

将第四语音特征数据展平，得到第五语音特征数据/>，第五语音特征数据/>为大小为/>的三维矩阵。

将说话人数量J和第五语音特征数据输入全连接层，输出每个说话人的第三语音特征数据/>，即J个大小为/>的第三语音特征数据/>。

将每个说话人的第三语音特征数据和第一语音特征数据/>输入解码器，输出每个说话人在待测语音/>中的语音/>。

基于每个说话人在每个待测语音中的语音，按照每个待测语音/>在语音/>中的时间顺序进行合并，得到每个说话人在语音/>中的语音。

在上述的方案中，基于Multi-DecoderSepFormer模型对语音进行处理，Sepformer网络可以捕获特征数据块内和块间的时间依赖关系，并对特征数据进行加权处理，能够有效结合特征数据的上下文信息，提高确定出的第二语音特征数据的准确率，进而提高最终分离出的说话人语音的准确率。且Multi-DecoderSepFormer模型结合了Multi-Decoder机制与Sepformer模型，可以进行端到端的训练和测试，在训练和测试中均只需通过模型一次，显著降低了训练和测试的时间成本。

为了实现上述的语音处理方法，如图9所示，本申请一示例还提供了一种语音处理装置，包括：

处理模块10，用于对获取的待测语音进行特征提取，得到第一语音特征数据；

计算模块20，用于基于所述第一语音特征数据通过多头自注意力机制确定第二语音特征数据；

所述计算模块20，还用于对所述第二语音特征数据进行预测，得到所述待测语音的说话人数量；

所述计算模块20，还用于基于所述第二语音特征数据和说话人数量确定每个说话人的第三语音特征数据；

转换模块30，用于基于所述说话人的第三语音特征数据确定所述说话人在所述待测语音中的目标语音。

其中，所述计算模块20，还用于基于所述第一语音特征数据确定多个第一子语音特征数据；

所述计算模块20，还用于基于所述第一子语音特征数据确定候选第二语音特征数据；

所述计算模块20，还用于利用多头自注意力机制对所述候选第二语音特征数据进行预设次数的处理，得到所述第二语音特征数据。

其中，所述计算模块20，还用于基于所述候选第二语音特征数据确定多个块内语音特征数据，并基于所述多个块内语音特征数据通过多头自注意力机制确定相应的多个加权后的块内语音特征数据；

所述计算模块20，还用于对所述多个加权后的块内语音特征数据的维度进行转换，得到多个块间语音特征数据，并基于所述转换得到的多个块间语音特征数据通过多头自注意力机制确定相应的多个加权后的块间语音特征数据；

所述计算模块20，还用于若所述处理未达到预设次数，则对所述多个加权后的块间语音特征数据的维度进行转换，得到多个块内语音特征数据并重新进行处理；

所述计算模块20，还用于若所述处理达到预设次数，则基于所述多个加权后的块间语音特征数据确定第二语音特征数据。

其中，所述计算模块20，还用于利用滑动窗口对所述第一语音特征数据进行切割，得到多个第一子语音特征数据，所述滑动窗口的长与所述第一语音特征数据相同，所述滑动窗口的宽小于所述第一语音特征数据。

其中，所述计算模块20，还用于基于所述说话人数量对第二语音特征数据进行升维，得到第四语音特征数据；

所述计算模块20，还用于将所述第四语音特征数据展平，得到第五语音特征数据；

所述计算模块20，还用于基于所述说话人数量对所述第五语音特征数据进行切割，得到所述说话人的第三语音特征数据。

其中，所述转换模块30，还用于对所述说话人的第三语音特征数据进行解码，得到所述说话人在所述待测语音中的目标语音。

根据本申请的实施例，本申请还提供了一种电子设备和一种可读存储介质。

图10示出了可以用来实施本申请的实施例的示例电子设备500的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本申请的实现。

如图10所示，设备500包括计算单元501，其可以根据存储在只读存储器（ROM）502中的计算机程序或者从存储单元508加载到随机访问存储器（RAM）503中的计算机程序，来执行各种适当的动作和处理。在RAM 503中，还可存储设备500操作所需的各种程序和数据。计算单元501、ROM 502以及RAM 503通过总线504彼此相连。输入/输出（I/O）接口505也连接至总线504。

设备500中的多个部件连接至I/O接口505，包括：输入单元506，例如键盘、鼠标等；输出单元507，例如各种类型的显示器、扬声器等；存储单元508，例如磁盘、光盘等；以及通信单元509，例如网卡、调制解调器、无线通信收发机等。通信单元509允许设备500通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元501可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元501的一些示例包括但不限于中央处理单元（CPU）、图形处理单元（GPU）、各种专用的人工智能（AI）计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器（DSP）、以及任何适当的处理器、控制器、微控制器等。计算单元501执行上文所描述的各个方法和处理，例如语音处理方法。例如，在一些实施例中，语音处理方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元508。在一些实施例中，计算机程序的部分或者全部可以经由ROM 502和/或通信单元509而被载入和/或安装到设备500上。当计算机程序加载到RAM 503并由计算单元501执行时，可以执行上文描述的语音处理方法的一个或多个步骤。备选地，在其他实施例中，计算单元501可以通过其他任何适当的方式（例如，借助于固件）而被配置为执行语音处理方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列（FPGA）、专用集成电路（ASIC）、专用标准产品（ASSP）、片上集成系统（SOC）、复杂可编程逻辑设备（CPLD）、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本申请的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本申请的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器（RAM）、只读存储器（ROM）、可擦除可编程只读存储器（EPROM或快闪存储器）、光纤、便捷式紧凑盘只读存储器（CD-ROM）、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置（例如，CRT（阴极射线管）或者LCD（液晶显示器）监视器）；以及键盘和指向装置（例如，鼠标或者轨迹球），用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈（例如，视觉反馈、听觉反馈、或者触觉反馈）；并且可以用任何形式（包括声输入、语音输入或者、触觉输入）来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统（例如，作为数据服务器）、或者包括中间件部件的计算系统（例如，应用服务器）、或者包括前端部件的计算系统（例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互）、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信（例如，通信网络）来将系统的部件相互连接。通信网络的示例包括：局域网（LAN）、广域网（WAN）和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，也可以为分布式系统的服务器，或者是结合了区块链的服务器。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本申请公开的技术方案所期望的结果，本文在此不进行限制。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或隐含地包括至少一个该特征。在本申请的描述中，“多个”的含义是两个或两个以上，除非另有明确具体的限定。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种语音处理方法，所述方法包括：

对获取的待测语音进行特征提取，得到第一语音特征数据；

基于所述第一语音特征数据确定多个第一子语音特征数据；

基于所述第一子语音特征数据确定候选第二语音特征数据；

若处理未达到预设次数，则对所述多个加权后的块间语音特征数据的维度进行转换，得到多个块内语音特征数据并重新进行处理；

若处理达到预设次数，则基于所述多个加权后的块间语音特征数据确定第二语音特征数据；

2.根据权利要求1所述的方法，所述基于所述第一语音特征数据确定多个第一子语音特征数据，包括：

3.根据权利要求1所述的方法，所述基于所述第二语音特征数据和说话人数量确定每个说话人的第三语音特征数据，包括：

将所述第四语音特征数据展平，得到第五语音特征数据；

4.根据权利要求1所述的方法，所述基于所述说话人的第三语音特征数据确定所述说话人在所述待测语音中的目标语音，包括：

5.一种语音处理装置，所述装置包括：

计算模块，还用于基于所述第一语音特征数据确定多个第一子语音特征数据；

所述计算模块，还用于基于所述候选第二语音特征数据确定多个块内语音特征数据，并基于所述多个块内语音特征数据通过多头自注意力机制确定相应的多个加权后的块内语音特征数据；

所述计算模块，还用于对所述多个加权后的块内语音特征数据的维度进行转换，得到多个块间语音特征数据，并基于所述转换得到的多个块间语音特征数据通过多头自注意力机制确定相应的多个加权后的块间语音特征数据；

所述计算模块，还用于若处理未达到预设次数，则对所述多个加权后的块间语音特征数据的维度进行转换，得到多个块内语音特征数据并重新进行处理；

所述计算模块，还用于若处理达到预设次数，则基于所述多个加权后的块间语音特征数据确定第二语音特征数据；

6.一种电子设备，包括：

处理器、用于存储所述处理器可执行指令的存储器；

所述处理器，用于从所述存储器中读取所述可执行指令，并执行所述指令以实现权利要求1-4任一项所述的语音处理方法。

7.一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序用于执行权利要求1-4任一项所述的语音处理方法。