CN112562649B

CN112562649B - 一种音频处理的方法、装置、可读存储介质和电子设备

Info

Publication number: CN112562649B
Application number: CN202011435851.0A
Authority: CN
Inventors: 徐培来; 陈昌儒
Original assignee: Beijing Dami Technology Co Ltd
Current assignee: Beijing Dami Technology Co Ltd
Priority date: 2020-12-07
Filing date: 2020-12-07
Publication date: 2024-01-30
Anticipated expiration: 2040-12-07
Also published as: CN112562649A

Abstract

本发明实施例公开了一种音频处理的方法、装置、可读存储介质和电子设备。本发明实施例通过获取设定时长的第一音频；将所述第一音频输入到预先训练的音频检测模型，确定所述第一音频中的包括的至少一种语音类型，并确定所述至少一种语音类型中至少一种候选语音类型，其中，所述语音类型包括目标语音、非目标语音、干扰语音或背景噪声中的至少一项；在所述第一音频中通过预先训练的音频处理模型分离所述候选语音类型对应的至少一个音频流；根据所述至少一个音频流确定第二音频。通过上述方法，可以将目标语音对应的音频流从第一音频中分离出来，消除了非目标语音、干扰语音或背景噪声对目标语音的干扰。

Description

一种音频处理的方法、装置、可读存储介质和电子设备

技术领域

本发明涉及音频处理领域，具体涉及一种音频处理的方法、装置、可读存储介质和电子设备。

背景技术

随着直播行业的兴起，各行各业都采用直播的方式对自身进行介绍，让用户对其有更深入的了解，或者，通过直播的方式进行新闻的即时传播等等，直播越来越深入到人们生活中的方方面面。在直播场景中会存在各种各样的噪声，对主要的说话人(也可以称为主播)的声音进行干扰，影响直播的效果。

现有技术中，为了消除直播场景中的噪声干扰，可以通过对直播间的声场进行设计，降低噪声，但是对直播间的声场设计花费成本较大，且无法将非目标语音消除；还可以通过麦克风阵列降噪，但麦克风阵列也很难把非目标语音消除，且当声源距离过近时，麦克风阵列很难进行声源分离。

综上所述，如何较好的消除非目标语音，是目前需要解决的问题。

发明内容

有鉴于此，本发明实施例提供了一种音频处理的方法、装置、可读存储介质和电子设备，消除了非目标语音和干扰语音，降低了非目标语音和干扰语音对目标语音的影响。

第一方面，本发明实施例提供了一种音频处理的方法，该方法包括：获取设定时长的第一音频；将所述第一音频输入到预先训练的音频检测模型，确定所述第一音频中的包括的至少一种语音类型，并确定所述至少一种语音类型中至少一种候选语音类型，其中，所述语音类型包括目标语音、非目标语音、干扰语音或背景噪声中的至少一项；在所述第一音频中通过预先训练的音频处理模型分离所述候选语音类型对应的至少一个音频流；根据所述至少一个音频流确定第二音频。

优选地，如权利要求1所述的方法，其特征在于，响应于所述音频流为N个，N为大于或等于2的正整数，所述根据所述至少一个音频流确定第二音频，具体包括：

根据所述N个音频流进行确定所述第二音频。

优选地，所述音频检测模型为声纹识别模型、语音活动检测模型以及语音事件检测模型的融合识别模型。

优选地，所述确定所述至少一种语音类型中至少一种候选语音类型，具体包括：

根据预先训练的分发模型，在所述至少一种语音类型中确定至少一种候选语音类型。

根据预先设定的规则，在所述至少一种语音类型中确定至少一种候选语音类型。

优选地，响应于所述候选语音类型为目标语音和背景噪音，所述根据所述N个音频流进行确定所述第二音频，具体包括：

将所述目标语音和背景噪音进行合成，生成所述第二音频。

优选地，所述音频处理模型为神经网络模型，用于对所述第一音频进行分流。

优选地，所述在所述第一音频中通过预先训练的音频处理模型分离所述候选语音类型对应的至少一个音频流，具体包括：

将所述音频检测模型中通过声纹识别模型生成的目标语音保存到特定说话人模型中，其中，所述特定说话人模型中还预先保存了多种非目标语音和干扰语音；

将所述特定说话人模型、所述第一音频以及所述候选语音类型输入到音频处理模型中，对第一音频进行分流，确定的所述候选语音类型对应的至少一个音频流。

优选地，所述目标语音为目标人或目标物体发出的声音，所述非目标语音为非目标人或非目标物体发出的声音，所述干扰语音为动物叫声，所述背景噪声为平稳噪声。

第二方面，本发明实施例提供了一种音频处理的装置，该装置包括：

获取单元，用于获取设定时长的第一音频；

确定单元，用于将所述第一音频输入到预先训练的音频检测模型，确定所述第一音频中的包括的至少一种语音类型，并确定所述至少一种语音类型中至少一种候选语音类型，其中，所述语音类型包括目标语音、非目标语音、干扰语音或背景噪声中的至少一项；

处理单元，用于在所述第一音频中通过预先训练的音频处理模型分离所述候选语音类型对应的至少一个音频流；

生成单元，用于根据所述至少一个音频流确定第二音频。

优选地，所述生成单元具体用于：

根据所述N个音频流进行确定所述第二音频。

所述确定单元具体用于：

所述确定单元具体还用于：

优选地，所述生成单元具体用于：

将所述目标语音和背景噪音进行合成，生成所述第二音频。

优选地，所述处理单元具体用于：将所述音频检测模型中通过声纹识别模型生成的目标语音保存到特定说话人模型中，其中，所述特定说话人模型中还预先保存了多种非目标语音和干扰语音；

第三方面，本发明实施例提供了一种计算机可读存储介质，其上存储计算机程序指令，所述计算机程序指令在被处理器执行时实现如第一方面或第一方面任一种可能中任一项所述的方法。

第四方面，本发明实施例提供了一种电子设备，包括存储器和处理器，所述存储器用于存储一条或多条计算机程序指令，其中，所述一条或多条计算机程序指令被所述处理器执行以实现如第一方面或第一方面任一种可能中任一项所述的方法。

本发明实施例通过获取设定时长的第一音频；将所述第一音频输入到预先训练的音频检测模型，确定所述第一音频中的包括的至少一种语音类型，并确定所述至少一种语音类型中至少一种候选语音类型，其中，所述语音类型包括目标语音、非目标语音、干扰语音或背景噪声中的至少一项；在所述第一音频中通过预先训练的音频处理模型分离所述候选语音类型对应的至少一个音频流；根据所述至少一个音频流确定第二音频。通过上述方法，可以将目标语音对应的音频流从第一音频中分离出来，消除了非目标语音、干扰语音或背景噪声对目标语音的干扰。

附图说明

通过以下参照附图对本发明实施例的描述，本发明的上述以及其它目的、特征和优点将更为清楚，在附图中：

图1是本发明实施例的一种音频处理的方法流程图；

图2是本发明实施例的一种音频处理的方法流程图；

图3是本发明实施例的一种处理流程示意图；

图4是本发明实施例的一种音频处理的方法流程图；

图5是本发明实施例的一种音频处理的装置示意图；

图6是本发明实施例的电子设备的示意图。

具体实施方式

以下基于实施例对本发明公开进行描述，但是本发明公开并不仅仅限于这些实施例。在下文对本发明公开的细节描述中，详尽描述了一些特定的细节部分。对本领域技术人员来说没有这些细节部分的描述也可以完全理解本发明公开。为了避免混淆本发明公开的实质，公知的方法、过程、流程、元件和电路并没有详细叙述。

此外，本领域普通技术人员应当理解，在此提供的附图都是为了说明的目的，并且附图不一定是按比例绘制的。

除非上下文明确要求，否则整个申请文件中的“包括”、“包含”等类似词语应当解释为包含的含义而不是排他或穷举的含义；也就是说，是“包括但不限于”的含义。

在本发明公开的描述中，需要理解的是，术语“第一”、“第二”等仅用于描述目的，而不能理解为指示或暗示相对重要性。此外，在本发明公开的描述中，除非另有说明，“多个”的含义是两个或两个以上。

通常现有技术中，为了消除直播场景中的噪声干扰，可以通过对直播间的声场进行设计，其中，所述声场是指媒质中有声波存在的区域，对直播间的声场进行设计也就是对直播间中的硬件设备进行设计，降低噪声，但是对直播间的声场设计花费成本较大，且无法将非目标语音消除，例如，目标语音为目标人的人声，但是在直播间中可能存在其他人员，其他人员的人声属于非目标语音，但是无法将其消除；现有技术中处理对声场进行设计外，还可以通过麦克风阵列(Microphone Array)降噪，所述麦克风阵列，指的是麦克风的排列；由一定数目的声学传感器组成，用来对声场的空间特性进行采样并处理的系统，但麦克风阵列也很难把非目标语音消除，且当声源距离过近时，麦克风阵列很难进行声源分离。因此，采用技术的方法无法完全消除非目标语音，对目标语音造成的干扰较大。

在一种可能的实现方式中，所述非目标语音还可以称为非目标声音，目标语音还可以称为目标声音，本发明实施例对其不做限定。

本发明实施中，需要将音频中的非目标语音消除掉的情况不仅仅为直播场景，还包括网络教学、网络会议、影视音频处理等场景。

本发明实施例中，为了消除非目标语音、干扰语音以及背景噪声等对目标语音的影响，可将音频输入到预先训练的音频检测模型，确定所述第一音频中的包括的至少一种语音类型，并确定所述至少一种语音类型中至少一种候选语音类型，然后在所述第一音频中通过预先训练的音频处理模型分离所述候选语音类型对应的至少一个音频流；最后根据所述至少一个音频流确定第二音频。通过上述方法，当所述候选语音类型为目标语音时，就可以将目标语音从第一音频中分离出来，获取到无干扰的目标语音。

图1是本发明实施例的一种音频处理的方法流程图。如图1所示，具体包括如下步骤：

步骤S100、获取设定时长的第一音频。

在一种可能的实现方式中，获取音频的服务器在接收音频时是分段接收的，假设，每段音频为500ms(毫秒)，从0秒开始，到时长为500ms(毫秒)，第一段音频上传服务器，服务器中的音频检测模型在此时未对音频进行处理，当服务器接收到16段时长为500ms的音频后，累计到时长为8s的第一音频之后，再进行处理；所述第一音频可以即时更新，假设在接收到8s的第一音频之后的时刻又接收到新的500ms的音频，可以将8s的第一音频中最开始接收到的500ms的音频删除，然后在所述8s的第一音频最后加入新接收到的500ms的音频，对所述8s的第一音频进行更新；本发明实施例中，对所述第一音频的时长不做限定，只要在使用过程中时长的长度可以实现对第一音频进行分析处理即可。

步骤S101、将所述第一音频输入到预先训练的音频检测模型，确定所述第一音频中的包括的至少一种语音类型，并确定所述至少一种语音类型中至少一种候选语音类型，其中，所述语音类型包括目标语音、非目标语音、干扰语音或背景噪声中的至少一项。

在一种可能的实现方式中，所述目标语音为目标人或目标物体发出的声音，所述非目标语音为非目标人或非目标物体发出的声音，所述干扰语音为动物叫声，所述背景噪声为平稳噪声。

在一种可能的实现方式中，所述音频检测模型为声纹识别模型、语音活动检测(Voice Activity Detection，VAD)模型以及语音事件检测模型的融合识别模型，通过所述音频检测模型可以确定出语音类型、语音时长等信息。其中，所述声纹识别模型可以基于深度神经网络(Deep Neural Networks，DNN)训练的，也可以是基于长短期记忆网络(LongShort-Term Memory，LSTM)训练的，其中，所述DNN神经网络为有很多隐藏层的神经网络，也可以称为多层感知机，从DNN按不同层的位置划分可以分为三类，输入层，隐藏层和输出层；所述长短期记忆网络LSTM是递归神经网络的一种，适合于处理和预测时间序列中间隔和延迟相对较长的重要事件，LSTM是解决循环神经网络RNN结构中存在的梯度消失问题而提出的；所述声纹识别模型用于生成离散的发音者特征，即目标语音的特征。

在一种可能的实现方式中，所述语音事件检测模型可以基于深度神经网络DNN训练，还可以通过其他方式训练，本发明实施例对其不做限定。所述语音活动检测VAD模型可以基于传统的能量、过零率确定，或者基于深度神经网络DNN训练，还可以通过其他方式训练，本发明实施例对其不做限定。假设，在线教育网络直播教学场景中所述语音活动检测VAD模型可以根据学生或者老师在语音交互中的时长、语速、内容等方面共同确定所要跟踪的目标说话人，所述目标说话人的声音即目标语音。

在一种可能的实现方式中，通过音频检测模型确定出所述第一音频中包括目标语音、非目标语音、干扰语音或背景噪声等多种语音类型，但非目标语音、干扰语音或背景噪声等语音类型可能对目标语音造成干扰，在后续处理中不需要上述语音类型；例如，在线教育网络直播教学场景中，将非目标说话人对应的非目标语音，以及动物叫声、闹钟对应的干扰语音都是不需要的语音类型，因此，需要在所述至少一种语音类型中确定至少一种候选语音类型，所述候选语音类型及需要从第一音频中分离出来的语音类型。

在一种可能的实现方式中，确定所述至少一种语音类型中至少一种候选语音类型，具体包括以下两种方式：

方式一、

在一种可能的实现方式中，所述分发模型可以为xgboost模型。

具体的，在不同的场景下，需要确定的候选语音类型是不同的，针对每个场景，可以预先训练不同的xgboost模型，所述xgboost模型适用于语音类型较多的场景；假设，语音类型有15个，而需要确定的候选语音类型为2个，且候选语音类型不固定，通过预先训练的xgboost模型在所述15个语音类型中确定出2个候选语音类型；在实际使用中，语音类型的数量和候选语音类型的数据根据实际情况确定，本发明实施例对其不做限定。

方式二、

在一种可能的实现方式中，所述预先设定的规则还可以称为专家策略。

具体的，在不同的场景下，需要确定的候选语音类型是不同的，针对每个场景，可以预先设定规则从多种语音类型中确定出候选语音类型，通过预先设定规则在多种语音类型中确定出候选语音类型适用于语音类型较少，且候选语音类型相对固定的场景；假设，针对在线教育网络直播教学场景中，获取到的一段音频中的语音类型有5个，通过预先设定规则从5个语音类型中确定目标语音和背景噪声2个候选语音类型，或者，通过预先设定规则从5个语音类型中确定目标语音1个候选语音类型；在实际使用中，语音类型的数量和候选语音类型的数据根据实际情况确定，本发明实施例对其不做限定。

步骤S102、在所述第一音频中通过预先训练的音频处理模型分离所述候选语音类型对应的至少一个音频流。

具体的，所述音频处理模型为神经网络模型，用于对所述第一音频进行分流。其中，所述神经网络模型可以为一个带有LSTM层的卷积神经网络，所述通过预先训练的音频处理模型分离所述候选语音类型对应的至少一个音频流的具体处理方法，如图2所示，包括如下步骤：

步骤S200、将所述音频检测模型中通过声纹识别模型生成的目标语音保存到特定说话人模型中，其中，所述特定说话人模型中还预先保存了多种非目标语音和干扰语音。

具体的，所述特定说话人模型即目标语音对应的模型，还可以称为目标人模型，或d-vector模型；所述特定说话人模型中还预先保存了多种猫狗叫声、闹钟声、油烟机声等特定场景的常见声音，其中，所保存的常见声音的种类根据不同的场景确定，由于在d-vector模型中保存了猫狗叫声、闹钟声、油烟机声等非目标语音、干扰语音或背景噪声，因此，也可以将猫狗叫声、闹钟声、油烟机声从第一音频中分离出来。

步骤S201、将所述特定说话人模型、所述第一音频以及所述候选语音类型输入到音频处理模型中，对第一音频进行分流，确定的所述候选语音类型对应的至少一个音频流。

具体的，在保存完所述目标语音之后，将特定说话人模型作为其中一个输入、与所述第一音频以及所述候选语音类型共同输入到音频处理模型中，所述候选语音类型即需要分离的语音类型，通过所述音频处理模型从所述第一音频中分离所述候选语音类型对应的音频流。

本发明实施例中，通过图3所示的处理流程示意图，对上述步骤S200至步骤S201进行详细说明，其中，音频检测模型中的声纹识别模型(LSTM)300多目标语音的声纹进行识别，将识别出的目标语音的声纹保存到特定说话人模型301中，其中，所述特定说话人模型301中还保存了多种猫狗叫声、闹钟声、油烟机声等特定场景的常见声音；将所述特定说话人模型301作为输入，输入到音频处理模型302中，其中，所述音频处理模型302包括LSTM层3021和卷积神经网络CNN3022，其中所述音频处理模型302还包括其他输入，具体为第一音频以及所述候选语音类型，通过所述音频处理模型302对所述第一音频进行候选语音类型分离。

步骤S103、根据所述至少一个音频流确定第二音频。

在一种可能的实现方式中，响应于所述音频流为N个，N为大于或等于2的正整数，所述根据所述至少一个音频流确定第二音频，具体包括：根据所述N个音频流进行确定所述第二音频。

在一种可能的实现方式中，响应于所述候选语音类型为目标语音和背景噪音，所述根据所述N个音频流进行确定所述第二音频，具体包括：将所述目标语音和背景噪音进行合成，生成所述第二音频。

下面通过一个具体实施例，对本发明实施例的一种音频处理的方法进行详细说明，具体如图4所示，包括如下步骤：

步骤S400、获取设定时长的第一音频。

步骤S401、将所述第一音频输入到预先训练的音频检测模型，确定所述第一音频中的包括的四种语音类型。

具体的，所述四种语音类型包括目标语音、非目标语音、干扰语音或背景噪声。

步骤S402、在所述四种语音类型中两种候选语音类型。

其中，所述候选语音类型包括目标语音和背景噪声。

步骤S403、在所述第一音频中通过预先训练的音频处理模型分离所述目标语音和背景噪声分别对应的音频流。

步骤S404、根据所述目标语音和背景噪声分别对应的音频流确定第二音频。

图5是本发明实施例的一种音频处理的装置示意图。如图5所示，本实施例的装置包括获取单元501、确定单元502、处理单元503和生成单元504。

其中，获取单元501，用于获取设定时长的第一音频；确定单元502，用于将所述第一音频输入到预先训练的音频检测模型，确定所述第一音频中的包括的至少一种语音类型，并确定所述至少一种语音类型中至少一种候选语音类型，其中，所述语音类型包括目标语音、非目标语音、干扰语音或背景噪声中的至少一项；处理单元503，用于在所述第一音频中通过预先训练的音频处理模型分离所述候选语音类型对应的至少一个音频流；生成单元504，用于根据所述至少一个音频流确定第二音频。

本发明实施例中，可以将目标语音对应的音频流从第一音频中分离出来，消除了非目标语音、干扰语音或背景噪声对目标语音的干扰。

进一步地，所述生成单元具体用于：

根据所述N个音频流进行确定所述第二音频。

本发明实施例中，将需要的N个候选语音类型对应的N个音频流合成为第二音频，可以获得无干扰的第二音频。

进一步地，所述音频检测模型为声纹识别模型、语音活动检测模型以及语音事件检测模型的融合识别模型。

本发明实施例中，通过声纹识别模型、语音活动检测模型以及语音事件检测模型进行融合生成的音频检测模型的准确率较高。

进一步地，所述确定单元具体用于：根据预先训练的分发模型，在所述至少一种语音类型中确定至少一种候选语音类型。

本发明实施例中，通过所述预先训练的分发模型，可以在至少一种语音类型中准确的确定出至少一种候选语音类型。

进一步地，所述确定单元具体还用于：根据预先设定的规则，在所述至少一种语音类型中确定至少一种候选语音类型。

本发明实施例中，通过所述预先设定的规则，可以在至少一种语音类型中准确的确定出至少一种候选语音类型。

进一步地，所述生成单元具体用于：

将所述目标语音和背景噪音进行合成，生成所述第二音频。

本发明实施例中，所述目标语音和背景噪音进行合成，即保证了没有干扰，并且有背景噪音的加入，使合成后的第二音频的听觉感受更加真实和舒适。

进一步地，所述音频处理模型为神经网络模型，用于对所述第一音频进行分流。

本发明实施例中，通过所述神经网络模型可以提高对第一音频进行分流的准确性。

进一步地，所述处理单元具体用于：将所述音频检测模型中通过声纹识别模型生成的目标语音保存到特定说话人模型中，其中，所述特定说话人模型中还预先保存了多种非目标语音和干扰语音；将所述特定说话人模型、所述第一音频以及所述候选语音类型输入到音频处理模型中，对第一音频进行分流，确定的所述候选语音类型对应的至少一个音频流。

本发明实施例中，通过上述方法，可以准确的分离出第一音频中候选语音类型对应的音频流。

进一步地，所述目标语音为目标人或目标物体发出的声音，所述非目标语音为非目标人或非目标物体发出的声音，所述干扰语音为动物叫声，所述背景噪声为平稳噪声。

图6是本发明实施例的电子设备的示意图。图6所示的电子设备为通用音频处理装置，其包括通用的计算机硬件结构，其至少包括处理器61和存储器62。处理器61和存储器62通过总线63连接。存储器62适于存储处理器61可执行的指令或程序。处理器61可以是独立的微处理器，也可以是一个或者多个微处理器集合。由此，处理器61通过执行存储器62所存储的指令，从而执行如上所述的本发明实施例的方法流程实现对于数据的处理和对于其它装置的控制。总线63将上述多个组件连接在一起，同时将上述组件连接到显示控制器64和显示装置以及输入/输出(I/O)装置65。输入/输出(I/O)装置65可以是鼠标、键盘、调制解调器、网络接口、触控输入装置、体感输入装置、打印机以及本领域公知的其他装置。典型地，输入/输出装置65通过输入/输出(I/O)控制器66与系统相连。

其中，存储器62存储的指令被至少一个处理器61执行以实现：获取设定时长的第一音频；将所述第一音频输入到预先训练的音频检测模型，确定所述第一音频中的包括的至少一种语音类型，并确定所述至少一种语音类型中至少一种候选语音类型，其中，所述语音类型包括目标语音、非目标语音、干扰语音或背景噪声中的至少一项；在所述第一音频中通过预先训练的音频处理模型分离所述候选语音类型对应的至少一个音频流；根据所述至少一个音频流确定第二音频。

如本领域技术人员将意识到的，本发明实施例的各个方面可以被实现为系统、方法或计算机程序产品。因此，本发明实施例的各个方面可以采取如下形式：完全硬件实施方式、完全软件实施方式(包括固件、常驻软件、微代码等)或者在本文中通常可以都称为“电路”、“模块”或“系统”的将软件方面与硬件方面相结合的实施方式。此外，本发明实施例的各个方面可以采取如下形式：在一个或多个计算机可读介质中实现的计算机程序产品，计算机可读介质具有在其上实现的计算机可读程序代码。

可以利用一个或多个计算机可读介质的任意组合。计算机可读介质可以是计算机可读信号介质或计算机可读存储介质。计算机可读存储介质可以是如(但不限于)电子的、磁的、光学的、电磁的、红外的或半导体系统、设备或装置，或者前述的任意适当的组合。计算机可读存储介质的更具体的示例(非穷尽列举)将包括以下各项：具有一根或多根电线的电气连接、便携式计算机软盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或闪速存储器)、光纤、便携式光盘只读存储器(CD-ROM)、光存储装置、磁存储装置或前述的任意适当的组合。在本发明实施例的上下文中，计算机可读存储介质可以为能够包含或存储由指令执行系统、设备或装置使用的程序或结合指令执行系统、设备或装置使用的程序的任意有形介质。

计算机可读信号介质可以包括传播的数据信号，所述传播的数据信号具有在其中如在基带中或作为载波的一部分实现的计算机可读程序代码。这样的传播的信号可以采用多种形式中的任何形式，包括但不限于：电磁的、光学的或其任何适当的组合。计算机可读信号介质可以是以下任意计算机可读介质：不是计算机可读存储介质，并且可以对由指令执行系统、设备或装置使用的或结合指令执行系统、设备或装置使用的程序进行通信、传播或传输。

可以使用包括但不限于无线、有线、光纤电缆、RF等或前述的任意适当组合的任意合适的介质来传送实现在计算机可读介质上的程序代码。

用于执行针对本发明实施例各方面的操作的计算机程序代码可以以一种或多种编程语言的任意组合来编写，所述编程语言包括：面向对象的编程语言如Java、Smalltalk、C++等；以及常规过程编程语言如“C”编程语言或类似的编程语言。程序代码可以作为独立软件包完全地在用户计算机上、部分地在用户计算机上执行；部分地在用户计算机上且部分地在远程计算机上执行；或者完全地在远程计算机或服务器上执行。在后一种情况下，可以将远程计算机通过包括局域网(LAN)或广域网(WAN)的任意类型的网络连接至用户计算机，或者可以与外部计算机进行连接(例如通过使用因特网服务供应商的因特网)。

上述根据本发明实施例的方法、设备(系统)和计算机程序产品的流程图图例和/或框图描述了本发明实施例的各个方面。将要理解的是，流程图图例和/或框图的每个块以及流程图图例和/或框图中的块的组合可以由计算机程序指令来实现。这些计算机程序指令可以被提供至通用计算机、专用计算机或其它可编程音频处理设备的处理器，以产生机器，使得(经由计算机或其它可编程音频处理设备的处理器执行的)指令创建用于实现流程图和/或框图块或块中指定的功能/动作的装置。

还可以将这些计算机程序指令存储在可以指导计算机、其它可编程音频处理设备或其它装置以特定方式运行的计算机可读介质中，使得在计算机可读介质中存储的指令产生包括实现在流程图和/或框图块或块中指定的功能/动作的指令的制品。

计算机程序指令还可以被加载至计算机、其它可编程音频处理设备或其它装置上，以使在计算机、其它可编程设备或其它装置上执行一系列可操作步骤来产生计算机实现的过程，使得在计算机或其它可编程设备上执行的指令提供用于实现在流程图和/或框图块或块中指定的功能/动作的过程。

以上所述仅为本发明的优选实施例，并不用于限制本发明，对于本领域技术人员而言，本发明可以有各种改动和变化。凡在本发明的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种音频处理的方法，其特征在于，该方法包括：

获取设定时长的第一音频；

将所述第一音频输入到预先训练的音频检测模型，确定所述第一音频中的包括的至少一种语音类型，并确定所述至少一种语音类型中至少一种候选语音类型，其中，所述语音类型包括目标语音、非目标语音、干扰语音或背景噪声中的至少一项；

在所述第一音频中通过预先训练的音频处理模型分离所述候选语音类型对应的至少一个音频流；

根据所述至少一个音频流确定第二音频；

其中，所述在所述第一音频中通过预先训练的音频处理模型分离所述候选语音类型对应的至少一个音频流，具体包括：

2.如权利要求1所述的方法，其特征在于，响应于所述音频流为N个，N为大于或等于2的正整数，所述根据所述至少一个音频流确定第二音频，具体包括：

根据所述N个音频流进行确定所述第二音频。

3.如权利要求1所述的方法，其特征在于，所述音频检测模型为声纹识别模型、语音活动检测模型以及语音事件检测模型的融合识别模型。

4.如权利要求1所述的方法，其特征在于，所述确定所述至少一种语音类型中至少一种候选语音类型，具体包括：

5.如权利要求1所述的方法，其特征在于，所述确定所述至少一种语音类型中至少一种候选语音类型，具体包括：

6.如权利要求2所述的方法，其特征在于，响应于所述候选语音类型为目标语音和背景噪音，所述根据所述N个音频流进行确定所述第二音频，具体包括：

将所述目标语音和背景噪音进行合成，生成所述第二音频。

7.如权利要求1所述的方法，其特征在于，所述音频处理模型为神经网络模型，用于对所述第一音频进行分流。

8.如权利要求1所述的方法，其特征在于，所述目标语音为目标人或目标物体发出的声音，所述非目标语音为非目标人或非目标物体发出的声音，所述干扰语音为动物叫声，所述背景噪声为平稳噪声。

9.一种音频处理的装置，其特征在于，该装置包括：

获取单元，用于获取设定时长的第一音频；

生成单元，用于根据所述至少一个音频流确定第二音频；

其中，所述处理单元具体用于：

10.一种计算机可读存储介质，其上存储计算机程序指令，其特征在于，所述计算机程序指令在被处理器执行时实现如权利要求1-8中任一项所述的方法。

11.一种电子设备，包括存储器和处理器，其特征在于，所述存储器用于存储一条或多条计算机程序指令，其中，所述一条或多条计算机程序指令被所述处理器执行以实现如权利要求1-8任一项所述的方法。