CN115440198A

CN115440198A - 混合音频信号的转换方法、装置、计算机设备和存储介质

Info

Publication number: CN115440198A
Application number: CN202211388921.0A
Authority: CN
Inventors: 黄文琦; 林全郴; 梁凌宇; 郭尧; 陈彬; 林克全; 林志达; 陈英达
Original assignee: Southern Power Grid Digital Grid Research Institute Co Ltd
Current assignee: Southern Power Grid Digital Grid Research Institute Co Ltd
Priority date: 2022-11-08
Filing date: 2022-11-08
Publication date: 2022-12-06
Anticipated expiration: 2042-11-08
Also published as: CN115440198B

Abstract

本申请涉及一种混合音频信号的转换方法、装置、计算机设备和存储介质。所述方法包括：获取多人会话场景下的混合音频信号，将所述混合音频信号输入预设的转换模型中，获取所述混合音频信号对应的转换文本，其中，所述转换文本包括多个按照时序排列的单人音频信号对应的单位转换文本。采用本方法能够提高混合音频信号的转换效率。

Description

混合音频信号的转换方法、装置、计算机设备和存储介质

技术领域

本申请涉及语音识别技术领域，特别是涉及一种混合音频信号的转换方法、装置、计算机设备和存储介质。

背景技术

随着移动互联网时代的发展，产生了越来越多不同种类的音频数据，例如，多人会话的混合音频数据等。如何在这些音频数据中获取感兴趣的信息成为了目前的研究热点，通常，获取音频数据中的感兴趣信息需要先将音频数据转换成文本数据。

传统技术中，将多人会话的混合音频数据转换为文本数据主要是通过识别混合音频数据中单人的语音信号，再分别对单人的语音信号进行转换，得到单人语音信号对应的转换文本数据，进而对单人语音信号对应的转换文本数据进行排序，得到混合音频数据对应的转换文本。

然而，传统方法存在对混合音频数据的转换效率较低的问题。

发明内容

基于此，有必要针对上述技术问题，提供一种能够提高对混合音频数据的转换效率的混合音频信号的转换方法、装置、计算机设备和存储介质。

第一方面，本申请提供了一种混合音频信号的转换方法。所述方法包括：

获取多人会话场景下的混合音频信号；

将所述混合音频信号输入预设的转换模型中，获取所述混合音频信号对应的转换文本；其中，所述转换文本包括多个按照时序排列的单人音频信号对应的单位转换文本。

在其中一个实施例中，所述转换模型包括编码器子网络、注意力机制子网络和解码器子网络，所述将所述混合音频信号输入预设的转换模型中，获取所述混合音频信号对应的转换文本，包括：

将所述混合音频信号输入所述编码器子网络，获取所述混合音频信号中各单人音频信号的特征信息；

将各所述特征信息输入所述注意力机制子网络，获取各所述单人音频信号对应的识别权重；

将各所述特征信息和各所述识别权重输入所述解码器子网络，得到转换文本。

在其中一个实施例中，所述获取多人会话场景下的混合音频信号，包括：

获取所述多人会话场景下的初始混合音频信号；

对所述初始混合音频信号中的声纹信息进行识别，剔除掉目标声纹信息，得到所述混合音频信号；所述目标声纹信息包括空白声纹信息和噪音声纹信息。

在其中一个实施例中，所述转换模型的训练过程包括：

将多人会话场景下的样本混合音频信号输入预设的初始转换模型中，得到所述样本混合音频信号对应的样本转换文本；

根据所述样本转换文本和金标准转换文本，得到所述初始转换模型的损失函数的值；

根据所述损失函数的值对所述初始转换模型进行训练，得到所述转换模型。

在其中一个实施例中，所述金标准转换文本的获取过程包括：

对所述样本混合音频信号的声纹进行识别，获取所述样本混合音频信号中多个单人样本音频信号；

对于各所述单人样本音频信号，将所述单人样本音频信号输入预设的神经网络模型中，获取所述单人样本音频信号对应的单位样本转换文本；所述神经网络模型用于将单人音频信号转换为对应的单位转换文本；

按照各所述单人样本音频信号的生成时间，对各所述单人样本音频信号对应的单位样本转换文本进行拼接处理，得到所述金标准转换文本。

在其中一个实施例中，所述按照各所述单人样本音频信号的生成时间，对各所述单人样本音频信号对应的单位样本转换文本进行拼接处理，得到所述金标准转换文本，包括：

按照各所述单人样本音频信号的生成时间，对各所述单人样本音频信号对应的单位样本转换文本进行排序，得到排序后的单位样本转换文本；

在所述排序后的单位样本转换文本的初始字符和结尾字符中分别插入开始符号和结束符号，得到处理后的单位样本转换文本；

根据所述处理后的单位样本转换文本的初始符号和结束符号，对所述处理后的单位样本转换文本进行首尾拼接，得到所述金标准转换文本。

在其中一个实施例中，所述按照各所述单人样本音频信号的生成时间，对各所述单人样本音频信号对应的单位样本转换文本进行排序，得到排序后的单位样本转换文本，包括：

按照各所述单人样本音频信号的生成时间，对各所述单人样本音频信号对应的单位样本转换文本进行顺序排序，得到排序后的单位样本转换文本；

或者，

按照各所述单人样本音频信号的生成时间，对各所述单人样本音频信号对应的单位样本转换文本进行倒序排序，得到排序后的单位样本转换文本。

第二方面，本申请还提供了一种混合音频信号的转换装置。所述装置包括：

第一获取模块，用于获取多人会话场景下的混合音频信号；

第二获取模块，用于将所述混合音频信号输入预设的转换模型中，获取所述混合音频信号对应的转换文本；其中，所述转换文本包括多个按照时序排列的单人音频信号对应的单位转换文本。

第三方面，本申请还提供了一种计算机设备。所述计算机设备包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现上述第一方面所述的方法。

第四方面，本申请还提供了一种计算机可读存储介质。所述计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述第一方面所述的方法。

第五方面，本申请还提供了一种计算机程序产品。所述计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现上述第一方面所述的方法。

上述混合音频信号的转换方法、装置、计算机设备和存储介质，通过获取多人会话场景下的混合音频信号，将混合音频信号输入预设的转换模型中，从而可以根据混合音频信号和转换模型快速的获取混合音频信号对应的转换文本，这样通过转换模型就能够直接将获取的混合音频信号转换成文本数据，相比于传统技术，减少了将混合音频信号进行音频分离处理的步骤，提高了获取混合音频信号的转换文本效率；另外，由于获取的转换文本中包括的是多个按照时序排列的单人音频信号对应的单位转换文本，通过该时序排列关系能够表征各单人音频信号对应的单位转换文本之间的连贯性和依赖性，使得转换文本更加容易理解，避免了因转换文本的可读性较低而引起的转换不准确和重复转换的问题，从而提高了混合音频信号的转换效率和转换的准确度。

附图说明

图1为一个实施例中混合音频信号的转换方法的应用环境图；

图2为一个实施例中混合音频信号的转换方法的第一流程示意图；

图3为一个实施例中混合音频信号的转换方法的第二流程示意图；

图4为一个实施例中混合音频信号的转换方法的第三流程示意图；

图5为一个实施例中混合音频信号的转换方法的第四流程示意图；

图6为一个实施例中混合音频信号的转换方法的第五流程示意图；

图7为一个实施例中混合音频信号的转换方法的第六流程示意图；

图8为一个实施例中混合音频信号的转换装置的结构框图；

图9为另一个实施例中混合音频信号的转换装置的结构框图；

图10为另一个实施例中混合音频信号的转换方法的应用环境图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

通常，识别音频信号的方法是将音频信号转换成文本数据，从文本数据中获取音频信号中包含的感兴趣的信息，目前将多人说话的混合音频信号转换成文本数据的方法是先将混合音频信号进行语音分离处理为单人音频信号，再对单人音频信号进行语音转换处理，然而上述方法的转换效率较低，不能适用于海量的音频信号识别处理。因此，本申请提出了一种能够提高混合音频信号的转换效率的混合音频信号的转换方法。

本申请实施例提供的混合音频信号的转换方法，可以应用于如图1所示的应用环境中。其中，音频采集设备102通过网络与服务器104进行通信。数据存储系统可以存储服务器104需要处理的数据。数据存储系统可以集成在服务器104上，也可以放在云上或其他网络服务器上。其中，音频采集设备102可以但不限于是各种笔记本电脑、智能手机、平板电脑、话筒、录音笔等。服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

在一个实施例中，如图2所示，提供了一种混合音频信号的转换方法，以该方法应用于图1中的服务器为例进行说明，包括以下步骤：

S201，获取多人会话场景下的混合音频信号。

其中，多人会话场景为包括两个及两个以上说话人进行日常对话或者会议的场景，在上述场景下产生的音频信号为混合音频信号，示例性地，可以将在多人会话场景下包含有两个不同说话声音的音频信号确定为混合音频信号，也可以将包含有三个不同说话声音的音频信号确定为混合音频信号。

可选的，可以将通过手机录音得到的包含多人讲话的声音片段作为混合音频信号，或者，也可以将通过音频采集设备采集到的包含多人讲话的声音片段作为混合音频信号。可选的，在本实施例中，可以实时的获取混合音频信号，也可以从预先录制的音频信号中，获取一段时长内的混合音频信号。

S202，将混合音频信号输入预设的转换模型中，获取混合音频信号对应的转换文本；其中，转换文本包括多个按照时序排列的单人音频信号对应的单位转换文本。

其中，转换文本可以包括多个按照时序倒序排列的单位转换文本，也可以包括多个按照时序顺序排列的单位转换文本。可选的，预设的转换模型可以为反向传播（BackPropagation，BP）神经网络模型，也可以为卷积神经网络（Convolutional NeuralNetwork，CNN）模型，本实施例在此不做限制。

可选的，在本实施例中，可以将获取的混合音频信号输入至转换模型中，通过转换模型识别出混合音频信号中不同说话人的多个单人音频信号，并对多个单人音频信号进行音频信号的转换处理，得到对应的多个单位转换文本，按照各单位转换文本对应的音频信号的生成时间进行排序，获取混合音频信号对应的转换文本。作为另一种可选的实施方式，也可以是将获取的混合音频信号输入预设的转换模型，通过转换模型对混合音频信号进行时序特征的提取，进而按照提取的时序特征，将混合音频信号中的各单人音频信号转换为对应的单位转换文本，得到混合音频信号的转换文本。

上述混合音频信号的转换方法中，通过获取多人会话场景下的混合音频信号，将混合音频信号输入预设的转换模型中，从而可以根据混合音频信号和转换模型快速的获取混合音频信号对应的转换文本，这样通过转换模型就能够直接将获取的混合音频信号转换成文本数据，相比于传统技术，减少了将混合音频信号进行音频分离处理的步骤，提高了获取混合音频信号的转换文本效率；另外，由于获取的转换文本中包括的是多个按照时序排列的单人音频信号对应的单位转换文本，通过该时序排列关系能够表征各单人音频信号对应的单位转换文本之间的连贯性和依赖性，使得转换文本更加容易理解，避免了因转换文本的可读性较低而引起的混合音频信号转换不准确和重复转换的问题，从而提高了混合音频信号的转换效率和转换的准确度。

在上述将获取的混合音频信号输入预设的转换模型中，获取混合音频信号对应的转换文本的场景中，在一个实施例中，上述转换模型包括编码器子网络、注意力机制子网络和解码器子网络，如图3所示，上述S202，包括：

S301，将混合音频信号输入编码器子网络，获取混合音频信号中各单人音频信号的特征信息。

其中，编码器子网络为神经网络中用于特征提取和数据降维的子网络，在本实施例中，可以将获取的混合音频信号输入至编码器子网络，利用编码器子网络提取混合音频信号中的特征信息，从而获取混合音频信号中各单人音频信号的特征信息，例如，该特征信息可以包括各单人音频信号的时序特征和音频特征等等。

下边进一步地对各单人音频信号的特征信息加以说明，可以理解的是，音频信号一般被认为是短时平稳的信号，可选的，在本实施例中，单人音频信号的特征信息可以为音频信号的短时平均幅度，也可以为音频信号的共振峰频率，也可以为音频信号的短时过零率，例如，说话的声音可以分为轻音和浊音，轻音的短时平均幅度小，短时过零率高，浊音的短时平均幅度大，短时过零率低；音频信号的特征信息也可以为对应的生成时间，例如，第一个连续音频信号对应的生成时间是第0.01秒，第二个连续音频信号对应的生成时间是第15秒。

S302，将各特征信息输入注意力机制子网络，获取各单人音频信号对应的识别权重。

其中，注意力机制子网络为神经网络中对不同特征信息分配权重的子网络，在本实施例中，可以根据各单人音频信号的特征信息对各单人音频信号分配不同的权重，示例性的，可以对于音频信号的短时平均幅度强的分配较高的识别权重，或者，也可以对于音频信号的短时过零率低的分配较高的识别权重。

S303，将各特征信息和各识别权重输入解码器子网络，得到转换文本。

其中，解码器子网络为神经网络中根据提取的特征信息和分配的权重输出结果的子网络，在本实施例中，对于混合音频信号，可以根据提取的各单人音频信号的特征信息，以及根据特征信息分配的对应的识别权重，得到各单人音频信号对应的单位转换文本，进而根据各单位转换文本按照时间排序，得到混合音频信号对应的转换文本。进一步地，作为一种可选的实施方式，还可以将上述得到的转换文本显示在显示屏中，以直观地显示混合音频信号对应的文本信息。

本实施例中，通过将混合音频信号输入编码器子网络，能够获取混合音频信号中各单人音频信号的特征信息，从而将各特征信息输入注意力机制子网络，能够获取各单人音频信号对应的识别权重，进而将各特征信息和各识别权重输入解码器子网络，能够得到混合音频信号对应的转换文本，提高了获取的混合音频信号对应的转换文本的准确度。

在上述获取混合音频信号的场景中，由于混合音频信号中可能存在无人说话的音频片段或者噪音片段，需要对获取的初始混合音频信号进行预处理。在一个实施例中，如图4所示，上述S201，包括：

S401，获取多人会话场景下的初始混合音频信号。

可选的，在本实施例中，可以从手机中获取多人会话时的初始混合音频信号，或者，也可以从音频采集设备中获取多人会话的初始混合音频信号。可选的，在本实施例中，可以是服务器向采集初始混合音频信号的设备发送获取指令，以使该设备将采集的初始混合音频信号发送给服务器，也可以是采集初始混合音频信号的设备实时地将采集到的初始混合音频信号自主地发送给服务器。

S402，对初始混合音频信号中的声纹信息进行识别，剔除掉目标声纹信息，得到混合音频信号，目标声纹信息包括空白声纹信息和噪音声纹信息。

其中，声纹信息指的是携带言语信息的声波频谱，由于说话时发声器官的尺寸和形态的不同，不同用户的声纹信息的图谱也不相同。本实施例中，目标声纹信息为混合音频信号对应的声纹信息中需要剔除掉的声纹信息，即目标声纹信息可以包括空白声纹信息和噪音声纹信息等。可选的，在本实施例中，可以将无人说话的音频片段对应的声纹信息作为目标声纹信息中的空白声纹信息，也可以将噪音片段对应的声纹信息作为目标声纹信息中的噪音声纹信息。

在本实施例中，根据上述目标声纹信息对获取的初始混合音频信的声纹信息进行筛选处理，将符合空白声纹信息或者噪音声纹信息的声纹信息剔除，将筛选后的声纹信息对应的初始混合音频信号作为上述混合音频信号。

本实施例中，通过获取多人会话场景下的初始混合音频信号，然后对初始混合音频信号中的声纹信息进行识别，剔除掉目标声纹信息，能够剔除掉获取的初始混合音频信号中的无人说话的音频片段和噪音片段对应的声纹信息，减少了得到的混合音频信号中的干扰音频信号，从而可以提高获取混合音频信号对应的转换文本的效率和准确度。

在上述将获取的混合音频信号输入预设的转换模型中，获取混合音频信号对应的转换文本的场景中，需要先对初始的转换模型进行训练，在一个实施例中，如图5所示，上述转换模型的训练过程包括：

S501，将多人会话场景下的样本混合音频信号输入预设的初始转换模型中，得到样本混合音频信号对应的样本转换文本。

可选的，样本混合音频信号可以是通过手机录音得到的包含多人讲话的声音片段，或者，也可以是通过音频采集设备采集到的包含多人讲话的声音片段。

可选的，初始转换模型可以包括初始编码器子网络、初始注意力机制子网络和初始解码器子网络，在本实施例中，将获取的样本混合音频信号输入预设的初始转换模型中，经过初始编码器子网络、初始注意力机制子网络和初始解码器子网络的处理，得到初始转换模型的输出结果，将输出结果作为样本转换文本。

S502，根据样本转换文本和金标准转换文本，得到初始转换模型的损失函数的值。

其中，金标准转换文本为混合音频信号的标准转换文本。可选的，在本实施例中，可以将得到的样本转换文本与金标准转换文本进行比较，根据比较结果确定初始转换模型的损失函数的值，可选的，损失函数可以是均方误差函数，也可以是交叉熵误差函数。

S503，根据损失函数的值对初始转换模型进行训练，得到转换模型。

可选的，在本实施例中，可以根据损失函数的值，计算初始转化模型中每个参数的梯度，根据计算结果对初始转换模型的参数进行更新，进而根据更新后的初始转换模型获取样本混合音频信号的样本转换文本，直到损失函数的值达到稳定值或者最小值，并将损失函数达到稳定值或者最小值对应的初始转换模型作为转换模型。

本实施例中，通过将多人会话场景下的样本混合音频信号输入预设的初始转换模型中，能够得到样本混合音频信号对应的样本转换文本，从而可以根据样本转换文本和金标准转换文本，得到初始转换模型的损失函数的值，进而可以根据损失函数的值对初始转换模型进行训练，得到转换模型，使得能够根据样本混合音频信号和对应的样本转换文本对初始转换模型训练，得到精度更高的转换模型，从而提高获取的混合音频信号的转换文本的准确度。

在上述对初始的转换模型进行训练的场景中，需要先获取金标准转换文本，在一个实施例中，如图6所示，上述金标准转换文本的获取过程包括：

S601，对样本混合音频信号的声纹进行识别，获取样本混合音频信号中多个单人样本音频信号。

可选的，在本实施中，可以通过人工标注的方法或者自动化标注的方法，对样本混合音频信号中不同说话人的音频信号对应的声纹信息进行标注，获取样本混合音频信号中带有标注信息的多个单人样本音频信号。

上述标注信息可以包括不同说话人的说话时间，示例性的，若说话人A只有一个语音片段，则样本混合音频信号中包含一个带有说话人A的说话时间的音频信号；若说话人B有两个语音片段，则样本混合音频信号中包含两个带有说话人B的说话时间的音频信号。

S602，对于各单人样本音频信号，将单人样本音频信号输入预设的神经网络模型中，获取单人样本音频信号对应的单位样本转换文本；神经网络模型用于将单人音频信号转换为对应的单位转换文本。

其中，预设的神经网络模型可以为反向传播（Back Propagation，BP）神经网络模型，也可以为卷积神经网络（Convolutional Neural Network，CNN）模型，本实施例在此不做限制。可选的，在本实施例中，可以将带有标注信息的各单人样本音频信号分别输入预设的神经网络模型中，通过该神经网络模型将各单人样本音频信号转换为对应的单位样本转换文本，得到多个带有标注信息的单位转换文本。

S603，按照各单人样本音频信号的生成时间，对各单人样本音频信号对应的单位样本转换文本进行拼接处理，得到金标准转换文本。

在本实施例中，通过预设的神经网络模型将各样本单人音频信号转换成对应的各样本单位转换文本后，可以根据各单人样本音频信号的标注信息，获取每个说话人的各个音频信号的生成时间，根据生成时间将对应的各样本单位转换文本进行拼接处理，从而得到拼接处理后的样本转换文本，将拼接后的样本转换文本作为金标准转换文本。

本实施例中，通过对样本混合音频信号的声纹进行识别，获取样本混合音频信号中多个单人样本音频信号，进一步的对于各单人样本音频信号，将单人样本音频信号输入预设的用于将单人音频信号转换为对应的单位转换文本的神经网络模型中，能够获取各单人样本音频信号对应的各单位样本转换文本，从而按照各单人样本音频信号的生成时间，对各单人样本音频信号对应的单位样本转换文本进行拼接处理，能够得到金标准转换文本，由于是通过样本混合音频信号得到的多个单人样本音频信号，从而得到的多个对应的单位转换文本，进而将多个单位转换文本拼接得到的金标准转换文本，保证了金标准转换文本的正确性和准确度，进一步的，利用得到的金标准转换文本对初始转换模型训练，提高了转换模型的精度和输出的转换文本准确度。

在上述按照各单人样本音频信号的生成时间，对各单人样本音频信号对应的单位样本转换文本进行拼接处理，得到金标准转换文本的场景中，需要根据生成时间各单人样本音频信号进行排序。在一个实施例中，如图7所示，上述S603，包括：

S701，按照各单人样本音频信号的生成时间，对各单人样本音频信号对应的单位样本转换文本进行排序，得到排序后的单位样本转换文本。

可选的，可以按照各单人样本音频信号的生成时间，对各单人样本音频信号对应的单位样本转换文本进行顺序排序，得到排序后的单位样本转换文本；或者，也可以按照各单人样本音频信号的生成时间，对各单人样本音频信号对应的单位样本转换文本进行倒序排序，得到排序后的单位样本转换文本。

S702，在排序后的单位样本转换文本的初始字符和结尾字符中分别插入开始符号和结束符号，得到处理后的单位样本转换文本。

在本实施例中，可以在上述得到的排序后的各单位样本转换文本的初始字符处插入开始符号，以及在结尾字符处插入结束符号。

示例性的，可以在第一个单位样本转换文本的初始字符处插入开始符号，可以在第一个单位样本转换文本的结尾字符处插入结束符号，可以在第二个单位样本转换文本的开始字符处插入开始符号，在第二个单位样本转换文本的结尾字符处插入结束符号，得到处理后的单位样本转换文本。需要说明的是，最后一个单位样本转换文本的结尾字符插入的结束符号与其他的结束符号不相同，例如，其他结束符号为逗号，最后一个单位样本转换文本的结尾字符插入的结束符号为句号。

S703，根据处理后的单位样本转换文本的初始符号和结束符号，对处理后的单位样本转换文本进行首尾拼接，得到金标准转换文本。

在本实施例中，根据插入的初始符号和结束符号对上述处理之后的单位样本文本进行首尾拼接处理时，可以将前一个结尾符号与后一个开始符号依次拼接，得到拼接处理后的样本转换文本，将拼接处理后的样本转换文本作为金标准转换文本。例如，处理后的第一个单位样本转换文本为“\xxxxx；”处理后的第二个单位样本转换文本为“\aaaaaa；”，处理后的最后一个单位样本转换文本为“\bbbbbb。”，则对处理后的单位样本转换文本进行首尾拼接得到的标准转换文本可以为“\xxxxx；\aaaaaa；\bbbbbb。”。

本实施例中，通过按照各单人样本音频信号的生成时间，对各单人样本音频信号对应的单位样本转换文本进行排序，得到了排序后的单位样本转换文本，进一步的，在排序后的单位样本转换文本的初始字符和结尾字符中分别插入开始符号和结束符号，得到了处理后的单位样本转换文本，使得可以根据处理后的单位样本转换文本的初始符号和结束符号，将处理后的单位样本转换文本进行首尾拼接处理，从而得到金标准转换文本，保证了各单位样本转换文本之间的连贯性和正确性，进而提高了得到的金标准转换文本的准确度。

下面结合一个具体的实施例，介绍混合音频信号的转换方法，包括如下步骤：

S1，获取样本混合音频信号。

S2，对获取的样本混合音频信号的声纹进行识别，获取样本混合音频信号中的多个单人样本音频信号。

S3，将各单人样本音频信号输入预设的神经网络模型中，得到多个对应的单位样本转换文本。

S4，根据各单人样本音频信号的生成时间，将单位样本转换文本进行排序，得到排序后的单位样本转换文本。

S5，在上述S4得到的排序后的单位样本转换文本的初始字符和结尾字符中分别插入开始符号和结束符号，得到处理后的单位样本转换文本。

S6，将上述S5得到的处理后的单位样本转换文本进行首尾拼接，得到拼接后的单位样本转换文本，将拼接后的单位样本转换文本作为金标准转换文本。

S7，将获取的样本混合音频信号输入预设的初始转换模型中，得到样本混合音频信号对应的样本转换文本。

S8，根据样本转换文本和金标准转换文本，得到初始转换模型的损失函数的值。

S9，根据损失函数的值对初始转换模型进行训练，得到训练好的转换模型。

S10，在实际对混合音频信号进行转换的场景中，将混合音频信号输入至训练好的转换模型中的编码器子网络中，获取混合音频信号中各单人音频信号的特征信息。

S11，将各特征信息输入训练好的转换模型中的注意力机制子网络，获取各单人音频信号对应的识别权重。

S12，将各特征信息和各识别权重输入训练好的转换模型中的解码器子网络，得到混合音频信号对应的转换文本。

应该理解的是，虽然如上所述的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，如上所述的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

基于同样的发明构思，本申请实施例还提供了一种用于实现上述所涉及的混合音频信号的转换方法的混合音频信号的转换装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似，故下面所提供的一个或多个混合音频信号的转换装置实施例中的具体限定可以参见上文中对于混合音频信号的转换方法的限定，在此不再赘述。

在一个实施例中，如图8所示，提供了一种混合音频信号的转换装置，包括：第一获取模块11和第二获取模块12，其中：

第一获取模块11，用于获取多人会话场景下的混合音频信号。

第二获取模块12，用于将所述混合音频信号输入预设的转换模型中，获取所述混合音频信号对应的转换文本；其中，所述转换文本包括多个按照时序排列的单人音频信号对应的单位转换文本。

本实施例提供的混合音频信号的转换装置，可以执行上述方法实施例，其实现原理和技术效果类似，在此不再赘述。

在一个实施例中，如图9所示，所述转换模型包括编码器子网络、注意力机制子网络和解码器子网络，上述第二获取模块12，包括：第一获取单元121、第二获取单元122和第三获取单元123，其中：

第一获取单元121，用于将所述混合音频信号输入所述编码器子网络，获取所述混合音频信号中各单人音频信号的特征信息。

第二获取单元122，用于将各所述特征信息输入所述注意力机制子网络，获取各所述单人音频信号对应的识别权重。

第三获取单元123，用于将各所述特征信息和各所述识别权重输入所述解码器子网络，得到转换文本。

在一个实施例中，请继续参照图9，上述第一获取模块11，包括：第四获取单元111和第五获取单元112，其中：

第四获取单元111，用于获取所述多人会话场景下的初始混合音频信号。

第五获取单元112，用于对所述初始混合音频信号中的声纹信息进行识别，剔除掉目标声纹信息，得到所述混合音频信号；所述目标声纹信息包括空白声纹信息和噪音声纹信息。

在一个实施例中，请继续参照图9，上述装置还包括：第三获取模块13、第四获取模块14和第五获取模块15，其中：

第三获取模块13，用于将多人会话场景下的样本混合音频信号输入预设的初始转换模型中，得到样本混合音频信号对应的样本转换文本。

第四获取模块14，用于根据样本转换文本和金标准转换文本，得到初始转换模型的损失函数的值。

第五获取模块15，用于根据损失函数的值对初始转换模型进行训练，得到转换模型。

在一个实施例中，请继续参照图9，上述装置还包括：第六获取模块16、第七获取模块17和第八获取模块18，其中：

第六获取模块16，用于对样本混合音频信号的声纹进行识别，获取样本混合音频信号中多个单人样本音频信号。

第七获取模块17，用于对于各单人样本音频信号，将单人样本音频信号输入预设的神经网络模型中，获取单人样本音频信号对应的单位样本转换文本；神经网络模型用于将单人音频信号转换为对应的单位转换文本。

第八获取模块18，用于按照各单人样本音频信号的生成时间，对各单人样本音频信号对应的单位样本转换文本进行拼接处理，得到金标准转换文本。

在一个实施例中，请继续参照图9，上述第八获取模块18，包括：第六获取单元181，第七获取单元182和第八获取单元183，其中：

第六获取单元181，用于按照各单人样本音频信号的生成时间，对各单人样本音频信号对应的单位样本转换文本进行排序，得到排序后的单位样本转换文本。

第七获取单元182，用于在排序后的单位样本转换文本的初始字符和结尾字符中分别插入开始符号和结束符号，得到处理后的单位样本转换文本.

第八获取单元183，用于根据处理后的单位样本转换文本的初始符号和结束符号，对处理后的单位样本转换文本进行首尾拼接，得到金标准转换文本。

在一个实施例中，请继续参照图9，上述第六获取单元181，具体用于：

按照各单人样本音频信号的生成时间，对各单人样本音频信号对应的单位样本转换文本进行顺序排序，得到排序后的单位样本转换文本；或者，按照各单人样本音频信号的生成时间，对各单人样本音频信号对应的单位样本转换文本进行倒序排序，得到排序后的单位样本转换文本。

上述混合音频信号的转换装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图10所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储混合音频数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种混合音频信号的转换方法。

本领域技术人员可以理解，图10中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现以下步骤：

获取多人会话场景下的混合音频信号；

将混合音频信号输入预设的转换模型中，获取混合音频信号对应的转换文本；其中，转换文本包括多个按照时序排列的单人音频信号对应的单位转换文本。

在一个实施例中，转换模型包括编码器子网络、注意力机制子网络和解码器子网络，处理器执行计算机程序时还实现以下步骤：

将混合音频信号输入编码器子网络，获取混合音频信号中各单人音频信号的特征信息；

将各特征信息输入注意力机制子网络，获取各单人音频信号对应的识别权重；

将各特征信息和各识别权重输入解码器子网络，得到转换文本。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：

获取多人会话场景下的初始混合音频信号；

对初始混合音频信号中的声纹信息进行识别，剔除掉目标声纹信息，得到混合音频信号；目标声纹信息包括空白声纹信息和噪音声纹信息。

将多人会话场景下的样本混合音频信号输入预设的初始转换模型中，得到样本混合音频信号对应的样本转换文本；

根据样本转换文本和金标准转换文本，得到初始转换模型的损失函数的值；

根据损失函数的值对初始转换模型进行训练，得到转换模型。

对样本混合音频信号的声纹进行识别，获取样本混合音频信号中多个单人样本音频信号；

对于各单人样本音频信号，将单人样本音频信号输入预设的神经网络模型中，获取单人样本音频信号对应的单位样本转换文本；神经网络模型用于将单人音频信号转换为对应的转换文本；

按照各单人样本音频信号的生成时间，对各单人样本音频信号对应的单位样本转换文本进行拼接处理，得到金标准转换文本。

按照各单人样本音频信号的生成时间，对各单人样本音频信号对应的单位样本转换文本进行排序，得到排序后的单位样本转换文本；

在排序后的单位样本转换文本的初始字符和结尾字符中分别插入开始符号和结束符号，得到处理后的单位样本转换文本；

根据处理后的单位样本转换文本的初始符号和结束符号，对处理后的单位样本转换文本进行首尾拼接，得到金标准转换文本。

按照各单人样本音频信号的生成时间，对各单人样本音频信号对应的单位样本转换文本进行顺序排序，得到排序后的单位样本转换文本；

或者，

按照各单人样本音频信号的生成时间，对各单人样本音频信号对应的单位样本转换文本进行倒序排序，得到排序后的单位样本转换文本。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：

获取多人会话场景下的混合音频信号；

在一个实施例中，转换模型包括编码器子网络、注意力机制子网络和解码器子网络，计算机程序被处理器执行时还实现以下步骤：

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：

获取多人会话场景下的初始混合音频信号；

或者，

在一个实施例中，提供了一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现以下步骤：

获取多人会话场景下的混合音频信号；

获取多人会话场景下的初始混合音频信号；

或者，

需要说明的是，本申请所涉及的用户信息（包括但不限于用户设备信息、用户个人信息等）和数据（包括但不限于用于分析的数据、存储的数据、展示的数据等），均为经用户授权或者经过各方充分授权的信息和数据。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器（Read-OnlyMemory，ROM）、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器（ReRAM）、磁变存储器（Magnetoresistive Random Access Memory，MRAM）、铁电存储器（Ferroelectric Random Access Memory，FRAM）、相变存储器（Phase Change Memory，PCM）、石墨烯存储器等。易失性存储器可包括随机存取存储器（Random Access Memory，RAM）或外部高速缓冲存储器等。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器（Static Random Access Memory，SRAM）或动态随机存取存储器（Dynamic RandomAccess Memory，DRAM）等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等，不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等，不限于此。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请的保护范围应以所附权利要求为准。

Claims

1.一种混合音频信号的转换方法，其特征在于，所述方法包括：

获取多人会话场景下的混合音频信号；

2.根据权利要求1所述的方法，其特征在于，所述转换模型包括编码器子网络、注意力机制子网络和解码器子网络，所述将所述混合音频信号输入预设的转换模型中，获取所述混合音频信号对应的转换文本，包括：

3.根据权利要求1或2所述的方法，其特征在于，所述获取多人会话场景下的混合音频信号，包括：

获取所述多人会话场景下的初始混合音频信号；

4.根据权利要求1或2所述的方法，其特征在于，所述转换模型的训练过程包括：

5.根据权利要求4所述的方法，其特征在于，所述金标准转换文本的获取过程包括：

6.根据权利要求5所述的方法，其特征在于，所述按照各所述单人样本音频信号的生成时间，对各所述单人样本音频信号对应的单位样本转换文本进行拼接处理，得到所述金标准转换文本，包括：

7.根据权利要求6所述的方法，其特征在于，所述按照各所述单人样本音频信号的生成时间，对各所述单人样本音频信号对应的单位样本转换文本进行排序，得到排序后的单位样本转换文本，包括：

或者，

8.一种混合音频信号的转换装置，其特征在于，所述装置包括：

第一获取模块，用于获取多人会话场景下的混合音频信号；

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。