CN110660403B

CN110660403B - 一种音频数据处理方法、装置、设备及可读存储介质

Info

Publication number: CN110660403B
Application number: CN201810690071.7A
Authority: CN
Inventors: 文仕学; 潘逸倩
Original assignee: Beijing Sogou Technology Development Co Ltd
Current assignee: Beijing Sogou Technology Development Co Ltd
Priority date: 2018-06-28
Filing date: 2018-06-28
Publication date: 2024-03-08
Anticipated expiration: 2038-06-28
Also published as: CN110660403A

Abstract

本发明实施例提供了一种音频数据的处理方法、装置、设备及可读存储介质，该方法包括：获取音频输入设备采集到的音频数据，其中，所述音频数据为所述音频输入设备在封闭音频输入场景中采集到的时域数据；检测所述音频数据是否包含有混响干扰数据；若所述音频数据包含有混响干扰数据，则采用语音解混响模型在时域上消除所述音频数据中含有的混响干扰数据，得到目标音频数据。本申请实施例直接在时域上消除音频数据中的混响干扰数据，以避免将音频数据变换到频域进行解混响导致解混后的语音质量受限的问题，提高语音解混响的鲁棒性。

Description

一种音频数据处理方法、装置、设备及可读存储介质

技术领域

本发明涉及音频技术领域，特别是涉及一种音频数据的处理方法、一种音频数据的处理装置、一种设备和一种可读存储介质。

背景技术

随着科学技术的快速发展，诸如麦克风、录音笔、手机等设备越来越普及，给人们的生活、学习、工作带来了极大的便利。

这些设备通常需要对收集到的音频数据进行处理，如基于收集到的音频数据进行语音增强、语音解混响处理等，以去除该音频数据中携带的诸如环境噪声数据、混响干扰数据等干扰数据。其中，混响干扰数据是指：声波在室内传输时，被诸如墙壁天花板、地板等障碍物反射回来的若干个声波混合在一起对应的干扰数据。

发明内容

本发明实施例所要解决的技术问题是提供一种音频数据的处理方法，以提升语音解混响的鲁棒性。

相应的，本发明实施例还提供了一种音频数据的处理装置、一种设备以及一种可读存储介质，用以保证上述方法的实现及应用。

为了解决上述问题，本发明实施例公开了一种音频数据的处理方法包括：获取音频输入设备采集到的音频数据，其中，所述音频数据为所述音频输入设备在封闭音频输入场景中采集到的时域数据；检测所述音频数据是否包含有混响干扰数据；若所述音频数据包含有混响干扰数据，则采用语音解混响模型在时域上消除所述音频数据中含有的混响干扰数据，得到目标音频数据。

可选地，所述采用语音解混响模型在时域上消除所述音频数据中含有的混响干扰数据，得到目标音频数据，包括：

将所述音频数据传输给语音解混响模型；

采用所述语音解混响模型中的生成器，对所述音频数据中的混响干扰数据进行消除，得到解混响音频数据；

采用所述语音解混响模型中的辨别器，判断解混响音频数据是否含有残留混响数据；

若所述解混响音频数据含有残留混响数据，则采用所述生成器对所述解混响音频数据中的残留混响数据进行消除；否则，将所述解混响音频数据确定为目标音频数据。

可选地，还包括：基于所述目标音频数据执行相应的业务操作，生成对应的业务处理结果。其中，所述基于所述目标音频数据执行相应的业务操作，生成对应的业务处理结果，包括：对所述目标音频数据进行封装，生成音频数据包，以及，采用所述音频数据包执行发送操作，生成音频发送结果；和/或，采用所述目标音频数据执行语音识别操作，生成文本数据，以及，对所述文本数据进行展示。

可选地，还包括：获取待处理的音频时域数据；对所述音频时域数据进行加混响，生成所述音频时域数据对应的带混响音频数据；采用所述带混响音频数据和所述音频时域数据进行模型训练，生成语音解混响模型。

可选地，采用所述带混响音频数据和所述音频时域数据进行模型训练，生成语音解混响模型，包括：针对所述带混响音频数据，获取网络模型参数；依据所述网络模型参数对所述带混响音频数据进行映射处理，得到音频映射数据；将所述音频映射数据与音频时域数据进行比较，得到所述音频映射数据对应的映射误差；若所述映射误差超出预设的误差范围，则基于所述映射误差调整所述网络模型参数，基于调整后的网络模型参数重新对所述带混响音频数据进行映射处理，直到映射处理后得到的音频映射数据对应的映射误差在所述误差范围内；当所述映射误差在所述误差范围内时，基于所述音频映射数据与所述带混响音频数据之间的映射关系，生成语音解混响模型。

本发明实施例还公开了一种音频数据的处理装置，包括：

音频数据获取模块，用于获取音频输入设备采集到的音频数据，其中，所述音频数据为所述音频输入设备在封闭音频输入场景中采集到的时域数据；

音频数据检测模块，用于检测所述音频数据是否包含有混响干扰数据；

混响干扰数据消除模块，用于在所述音频数据包含有混响干扰数据时，采用语音解混响模型在时域上消除所述音频数据中含有的混响干扰数据，得到目标音频数据。

可选地，所述混响干扰数据消除模块包括：

音频数据传输子模块，用于将所述音频数据传输给语音解混响模型；

混响干扰数据消除子模块，用于采用所述语音解混响模型中的生成器，对所述音频数据中的混响干扰数据进行消除，得到解混响音频数据；

判别子模块，用于采用所述语音解混响模型中的辨别器，判断解混响音频数据是否含有残留混响数据；若所述解混响音频数据含有残留混响数据，则触发所述混响干扰数据消除子模块采用所述生成器对所述解混响音频数据中的残留混响数据进行消除；否则，将所述解混响音频数据确定为目标音频数据。

可选地，还包括：业务操作执行模块，用于基于所述目标音频数据执行相应的业务操作，生成对应的业务处理结果。该业务操作执行模块可以包括语音识别子模块和/或音频数据发送子模块。其中，语音识别子模块，可以用于采用所述目标音频数据执行语音识别操作，生成文本数据，以及对所述文本数据进行展示。音频数据发送子模块，可以用于对所述目标音频数据进行封装，生成音频数据包，以及，采用所述音频数据包执行发送操作，生成音频发送结果。

可选地，还包括：音频时域数据获取模块，用于获取待处理的音频时域数据；带混响音频数据生成模块，用于对所述音频时域数据进行加混响，生成所述音频时域数据对应的带混响音频数据；语音解混响模型生成模块，用于采用所述带混响音频数据和所述音频时域数据进行模型训练，生成语音解混响模型。

可选地，所述语音解混响模型生成模块包括：

网络模型参数获取子模块，用于针对所述带混响音频数据，获取网络模型参数；

映射处理子模块，用于依据所述网络模型参数对所述带混响音频数据进行映射处理，得到音频映射数据；

比较子模块，用于将所述音频映射数据与音频时域数据进行比较，得到所述音频映射数据对应的映射误差；

网络模型参数调整子模块，用于在所述映射误差超出预设的误差范围时，基于所述映射误差调整所述网络模型参数，以及触发所述映射处理子模块基于调整后的网络模型参数重新对所述带混响音频数据进行映射处理，直到映射处理后得到的音频映射数据对应的映射误差在所述误差范围内；

语音解混响模型生成子模块，用于当所述映射误差在所述误差范围内时，基于所述音频映射数据与所述带混响音频数据之间的映射关系，生成语音解混响模型。

本发明实施例还公开了一种设备，包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：获取音频输入设备采集到的音频数据，其中，所述音频数据为所述音频输入设备在封闭音频输入场景中采集到的时域数据；检测所述音频数据是否包含有混响干扰数据；若所述音频数据包含有混响干扰数据，则采用语音解混响模型在时域上消除所述音频数据中含有的混响干扰数据，得到目标音频数据。

将所述音频数据传输给语音解混响模型；

可选地，所述由一个或者一个以上处理器执行所述一个或者一个以上程序包含还用于进行以下操作的指令：基于所述目标音频数据执行相应的业务操作，生成对应的业务处理结果。其中，所述基于所述目标音频数据执行相应的业务操作，生成对应的业务处理结果，包括：对所述目标音频数据进行封装，生成音频数据包，以及，采用所述音频数据包执行发送操作，生成音频发送结果；和/或，采用所述目标音频数据执行语音识别操作，生成文本数据，以及，对所述文本数据进行展示。

可选地，所述由一个或者一个以上处理器执行所述一个或者一个以上程序包含还用于进行以下操作的指令：获取待处理的音频时域数据；对所述音频时域数据进行加混响，生成所述音频时域数据对应的带混响音频数据；采用所述带混响音频数据和所述音频时域数据进行模型训练，生成语音解混响模型。

本发明实施例还公开了一种可读存储介质，当所述存储介质中的指令由设备的处理器执行时，使得设备能够执行本发明实施例中的一个或多个所述的音频数据的处理方法。

本发明实施例包括以下优点：

本发明实施例在获取到音频输入设备采集到的音频数据后，可以检测该音频数据是否含有混响干扰数据，以在检测到该音频数据含有混响音频数据时，采用语音解混响模型消除该音频数据中的混响干扰数据，即直接在时域上消除音频数据中的混响干扰数据，以避免将音频数据变换到频域进行解混响导致解混后的语音质量受限的问题，提高语音解混响的鲁棒性。

此外，本发明实施例可以基于消除混响干扰数据后得到的目标音频数据执行相应的业务操作，从而能够避免混响干扰数据对业务操作的影响，保证业务操作的正常执行，以及保证业务处理结果的正确性，进而提高业务处理效率。

附图说明

图1是本发明的一种音频数据的处理方法实施例的步骤流程图；

图2是本发明一个可选实施例的一种音频数据的处理方法的步骤流程图；

图3是本发明一个示例中的采用预先训练的语音解混响模型消除混响干扰数据的示意图；

图4本发明的一种音频数据的处理方法可选实施例的步骤流程图；

图5是本发明的一种音频数据的处理装置实施例的结构框图；

图6是根据一示例性实施例示出的一种用于音频数据的处理的设备的结构框图；

图7是本发明实施例中一种设备的结构示意图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

当使用设备在诸如会议室、教室等封闭环境中收集音频数据时，需要使用语音解混响技术对收集到的音频数据进行解混响处理，以去除该音频数据中的混合干扰数据，得到解混后的目标音频数据，以便后续可以基于语音质量高的目标音频数据进行业处理，进而提高业务处理效率和业务处理的精确度。例如，在使用解混后的目标音频数据进行语音通讯时，可以避免传输收集到的音频数据携带的混响干扰数据导致语音传输开销大的问题，减少语音传输的开销，以及能够避免混合干扰数据导致通讯语音质量差的问题，提高通讯语音质量；又如在使用解混后的目标音频数据进行语音识别时，可以避免混合干扰数据对语音识别处理的影响，提高语音识别正确率以及语音识别效率，等等。

但是，现有的语音解混响技术通常是将收集到的音频数据从时域变换到频域后，再使用深度学习方法去除音频数据中的混响干扰数据，然后将处理后得到的音频数据从频域变换回时域，存在相位信息丢失的问题，导致解混后的语音质量受到限制。

本发明实施例的核心构思之一在于，针对已有的语音解混技术存在相位丢失等技术问题，提出了一种新的音频数据处理方法，以直接在时域上消除音频数据中的混响干扰数据，避免将音频数据变换到频域进行处理所导致的相位信息丢失问题，保证解混后的语音质量，提高了语音解混响的鲁棒性。

参照图1，示出了本发明的一种音频数据的处理方法实施例的步骤流程图，具体可以包括如下步骤：

步骤102，获取音频输入设备采集到的音频数据，其中，所述音频数据为所述音频输入设备在封闭音频输入场景中采集到的时域数据。

本发明实施例中，在音频输入设备在诸如教室、会议时等封闭音频输入场景中采集到输入音频对应的音频数据后，可以获取该音频输入设备采集到的音频数据，以基于音频输入设备采集到的音频数据进行业务处理，满足各种与音频数据相关的业务需求。其中，音频输入设备包括具有音频数据采集功能的电子设备，如录音笔、录音机、手机、麦克风等，本发明实施例对此不作限制。

需要说明的是，音频输入设备采集到的音频数据可以包括输入到音频输入设备的各种音频对应的时域数据，如可以包括用户语音数据、环境噪声数据，混响干扰数据等。其中，用户语音数据可以用于表征用户讲话对应的语音，环境噪声数据可以用于表征环境噪声。

步骤104，检测音频数据是否包含有混响干扰数据。

本发明实施例在获取到的音频数据后，可以检测该音频数据是否包含有混响干扰数据，以确定是否需要将该音频数据输入到预先训练的语音解混响模型进行混响干扰数据的消除。具体的，若检测到当前获取到的音频数据含有混响干扰数据，则可以确定该音频数据为含有混响干扰数据的带混响音频数据，然后执行步骤106，以采用该语音解混响模型消除该音频数据中所含有的混响干扰数据。若检测到的当前获取到的音频数据不包含干扰混响干扰数据，如在音频输入设备采集到的音频数据为干净音频的时域数据时，则可以将当前获取到的音频数据作为目标音频数据，以基于音频数据执行相应的业务操作等等。

步骤106，若所述音频数据包含有混响干扰数据，则采用语音解混响模型在时域上消除所述音频数据中含有的混响干扰数据，得到目标音频数据。

具体的，在检测到当前获取到的音频数据含有混响干扰数据后，可将该音频数据输入到预先训练好的语音解混响模型，以通过该语音解混响模型在时域上对该音频数据所含有的混响干扰数据进行消除，得到目标音频数据，以便后续可以基于该目标音频数据执行相应的业务操作，避免混响干扰数据对业务操作的影响。

综上，本发明实施例在获取到音频输入设备采集到的音频数据后，可以检测该音频数据是否含有混响干扰数据，以在检测到该音频数据含有混响音频数据时，采用语音解混响模型消除该音频数据中的混响干扰数据，即直接在时域上消除音频数据中的混响干扰数据，以避免将音频数据变换到频域进行解混响导致解混后的语音质量受限的问题，提高语音解混响的鲁棒性。

可选地，本发明实施例在得到目标音频数据后，还可以采用该目标音频数据执行相应的业务操作，以完成业务处理，生成对应的业务处理结果。因此，在本发明的一个可选实施例中，该音频数据的处理方法还可以包括：基于所述目标音频数据执行相应的业务操作，生成对应的业务处理结果。例如，在语音识别过程中，可以依据语音识别需求，采用得到的目标音频数据执行语音识别操作，以识别出该目标音频数据对应的文本数据，随后可基于识别到文本数据生成语音识别结果，完成语音识别任务。又如，在语音通话过程中，可以基于得到的目标音频数据执行语音发送操作，以将该目标音频数据所表征的音频发送给对端设备，随后可生成该语音发送操作对应的音频发送结果，进而可以基于该音频发送结果确定是否成功完成目标音频数据的发送。其中，对端设备可以用于播放目标音频数据对应的音频。具体的，对端设备在接收到的目标音频数据后，可以依据接收到目标音频数据进行音频播放，使得用户可以通过对端设备可以听到该目标音频数据对应的音频，亦即，用户可以通过对端设备听到输入到音频输入设备的音频，达到语音通话的目的。可见，本发明实施例可以基于消除混响干扰数据后得到的目标音频数据执行相应的业务操作，从而能够避免混响干扰数据对业务操作的影响，保证业务操作的正常执行，以及保证业务处理结果的正确性，进而提高业务处理效率。

在具体实现中，可以预先获取待处理的音频时域数据进行模型训练，训练出一个基于端到端(End to end)的语音解混响模型，以采用训练出的语音解混响模型在时域上去除音频输入设备采集到的音频数据中所携带的混响数据，得到目标音频数据，避免对采集到的音频数据进行频域变换的麻烦，以及无需对得到的目标音频数据进行时域逆变换，提高音频数据的处理效率，进而可以提高业务处理效率。

需要说明的是，基于端到端的语音解混响模型可以具有监督学习功能，可使用诸如后向传播算法等算法，在时域上自动学习到带混响音频数据与不含有混响干扰数据的音频时域数据之间的映射关系，如可是卷积神经网络(Convolutional Neural Network，CNN)、生成对抗网络(Generative Adversarial Net，GAN)模型等，本发明实施例对此不作限制。

在本发明一个可选实施例中，如图2所示，该音频数据的处理方法还可以包括如下步骤：

步骤202，获取待处理的音频时域数据。

本发明实施例中，可以在语音解混响模型的训练阶段，获取待处理的音频时域数据，作为语音解混响模型的训练数据，以采用音频时域数据在时域上进行模型训练。其中，音频时域数据可以是指干净音频的时域数据，具体可以包括采集到的干净音频数据和/或预先合成的干净音频时域数据，如可以是使用音频输入设备采集到的不含有混响干扰数据的音频数据，又如可以是使用文本信息合成的时域上的干净音频数据等，本发明实施例对此不作限制。

步骤204，对所述音频时域数据进行加混响，生成所述音频时域数据对应的带混响音频数据。

具体的，在获取待处理的音频时域数据后，可以对获取到的音频时域数据进行加混响，如针对该音频时域数据获取冲击响应数据，并可将音频时域数据与获取到的冲击响应数据进行卷积，生成该音频时域数据对应的带混响音频数据。该带混响音频数据用于表征加混响后的音频噪，即携带有音频时域数据对应的混响干扰数据。其中，冲击响应数据与封闭音频输入环境相关，可以用于对音频时域数据进行混响，具体可以包括与封闭语音输入环境相关的各种卷积计算数据，如可以封闭房间的长、宽、高、该封闭房间产生混响对应的混响时间等，本发明实施例对此不作限制。

步骤206，采用带混响音频数据和音频时域数据进行模型训练，生成语音解混响模型。

具体的，在生成所述音频时域数据对应的带混响音频数据后，可以将该带混响音频数据输入到预先设定的基于端到端的神经网络中，以采用该神经网络中的网络模型参数在时域上对带混响音频数据进行映射处理，得到映射处理后的音频映射数据；随后，可以将该音频映射数据与音频时域数据进行比较，以判断出该音频映射数据是否含有混响干扰数据。若音频映射数据含有混响干扰数据，则调整网络模型参数，以及依据调整后的网络模型参数重新对带混响音频数据进行映射处理，直到映射处理后的音频映射数据不含有混响干扰数据。若音频映射数据不含有混响干扰数据，则可以基于当前的网络模型参数，确定出该音频映射数据与带混响语音数据之间的映射关系，以基于该带混响音频数据之间的映射关系构建语音解混响模型。其中，构建的语音解混响模型可以包括：卷积神经网络模型或生成对抗网络模型等。

本发明实施例一个可选实施例中，采用所述带混响音频数据和所述音频时域数据进行模型训练，生成语音解混响模型，具体可以包括：针对所述带混响音频数据，获取网络模型参数；依据所述网络模型参数对所述带混响音频数据进行映射处理，得到音频映射数据；将所述音频映射数据与音频时域数据进行比较，得到所述音频映射数据对应的映射误差；若所述映射误差超出预设的误差范围，则基于所述映射误差调整所述网络模型参数，基于调整后的网络模型参数重新对所述带混响音频数据进行映射处理，直到映射处理后得到的音频映射数据对应的映射误差在所述误差范围内；当所述映射误差在所述误差范围内时，基于所述音频映射数据与所述带混响音频数据之间的映射关系，生成语音解混响模型。

具体而言，本发明实施例在模型训练时，可以针对生成的带混响音频数据获取预先设置的网络模型参数，然后可以采用获取到的网络模型参数对带混响音频数据进行映射处理，以消除该带混响音频数据中的混响干扰数据，得到音频映射数据。随后，可以将得到音频映射数据与获取到的音频时域数据进行比较，以确定音频映射数据是否与音频时域数据相同。若音频映射数据与音频时域数据相同，则可以确定音频映射数据不含有带混响音频数据中所携带的混响干扰数据，进而可以音频映射数据与带混响音频数据之间的映射关系生成对应的语音解混响模型。若音频映射数据与音频时域数据不相同，则采用音频映射数据与音频时域数据进行计算，得到该音频映射数据对应的映射误差，随后可以通过判断该映射误差是否超出预设的误差范围，以确定是否需要调整网络模型参数。

具体的，若映射误差超出预设的误差范围，则可以基于该映射误差对当前的网络模型参数进行调整，并采用调整后的网络模型参数重新对所述带混响音频数据进行映射处理，直到映射处理后得到的音频映射数据对应的映射误差在所述误差范围内。例如，在映射误差超出预设的误差范围时，可使用梯度下降法调整网络模型参数，随后可采用调整后的网络模型参数重新对带混响音频数据进行映射处理，使得音频映射数据对应的映射误差越来越小，直到音频映射数据对应的映射误差在预设的误差范围内。当音频映射数据对应的映射误差在所述误差范围内时，可以将音频映射数据作为不含有混响干扰数据的音频时域数据，以及可以基于该音频映射数据与含有混响干扰数据的带混响数据之间的映射关系生成语音解混响模型。其中，误差范围可以根据语音解混响的质量要求进行设置，本发明实施例对此不作限制。

在具体实现中，本发明实施例中的音频数据的处理方法可以包括语音解混响模型的训练阶段和语音解混响模型的应用阶段。在训练阶段，可以对获取到的音频时域数据进行加混响，生成该音频时域数据对应的带混响音频数据，然后可以将带混响音频数据和音频时域数据作为训练数据，以在时域上训练出混响音频数据和音频时域数据直接的映射关系，从而可以基于训练出的映射关系生成语音解混响模型的，以便后续在应用阶段可以通过该语音解混响模型，直接在时域上消除音频数据中的混响干扰数据，保证解混响的语音质量，提高语音解混响的鲁棒性。其中，基于端到端的语音解混响模型可以基于训练到的带混响音频数据与音频时域数据之间的映射关系，自动去除带混响音频数据中的混响干扰数据，得到去除混响干扰数据后的目标音频数据。

作为本发明的一个示例，如图3所示，在语音解混响模型的训练阶段，可以对获取到的待训练的音频时域数据进行加混响，如针对该音频时域数据获取到的冲击响应数据，以及将音频时域数据与冲击响应数据进行卷积，形成带混响音频数据，随后，可将含有混响干扰数据的混响音频数据输入到预先设置的基于端到端的神经网络中进行模型训练，如在预先设置的基于端到端的神经网络中，采用该神经网络中的网络模型参数、带混响音频数据以及音频时域数据进行训练，以训练出语音解混响模型。从而，在语音解混响模型的应用阶段，可以将音频输入设备采集到的音频数据X[t]，如音频输入设备在封闭语音场景中采集到的含有混响干扰音频数据的音频数据，传输到该语音解混响模型中，以采用该语音解混响模型消除音频数据中所含有的混响干扰数据，得到去除混响干扰数据后的目标音频数据Y[t]。可见，本示例在语音解混响模型的训练阶段，在获取到的音频时域数据和生成该音频时域数据对应的带混响音频数据后，可以直接采用该音频时域数据和生成的带混响音频数据进行模型训练，不需对将该带混响音频数据变换成频域数据，从而使得训练出的语音解混响模型可以直接在时域上去除音频数据中的混响干扰数据，保证了解混后得到的目标音频数据对应的语音质量，提高语音解混响的鲁棒性。

在本发明的一个可选时候例中，上述采用语音解混响模型在时域上消除所述音频数据中含有的混响干扰数据，得到目标音频数据，具体可以包括：将所述音频数据传输给语音解混响模型；采用所述语音解混响模型，对所述音频数据中的混响干扰数据进行消除，得到目标音频数据。具体而言，在语音解混响模型的应用阶段，本发明实施例在检测到音频数据为含有混响干扰数据的带混响音频数据时，可以将该音频数据传输到预先训练好的语音解混响模型中，以采用语音解混响模型，对该音频数据中的混响干扰数据进行消除，得到消除混响干扰数据后的目标语音数据，避免混响干扰数据的影响。

参照图4，示出了本发明的一种音频数据的处理方法可选实施例的步骤流程图，具体可以包括如下步骤：

步骤402，获取音频输入设备采集到的音频数据。

其中，所述音频数据为所述音频输入设备在封闭音频输入场景中采集到的。

步骤404，检测所述音频数据是否包含有混响干扰数据。

在具体实现中，可以通过检测获取到的音频数据是否包含有混响干扰数据，以确定当前获取到的音频数据是否是带混响音频数据。当获取到的音频数据包含有混响干扰数据时，即在获取到的音频数据为含有混响干扰数据的带混响音频数据时，可以执行步骤406。当获取到的音频数据不包含有混响干扰数据时，可以将当前获取到的音频数据作为目标音频数据，然后跳转到步骤408执行。

可选地，在获取到的音频数据不包含有混响干扰数据时，也可以对该音频数据进行加混响，如将该音频数据与获取到的冲击响应数据进行卷积，生成该音频数据对应的带混响音频数据，以采用该带混响音频数据对语音解混响模型进行更新，本发明实施例对此不作限制。

步骤406，采用语音解混响模型时域上消除所述音频数据中含有的混响干扰数据，得到目标音频数据。

本发明实施例中，可以将含有混响干扰数据的音频数据传输给语音解混响模型，从而可以在语音解混响模型中对音频数据中的混响干扰数据进行消除，以消除该音频数据的混响干扰数据，得到解混响音频数据。该解混响音频数据可以用于表征对音频数据中的混响干扰数据进行消除后得到的音频数据，具体可以包括需要保留的目标音频数据和/或需要去除的残留混响数据等；其中，残留混响数据可以包括残留在解混响音频数据中的混响干扰数据。随后，可以通过判断解混响音频数据是否含有残留混响数据，以确定是否需要采用语音解混响模型对消除该解混响音频数据中的残留混响数据进行。具体的，在解混响音频数据含有残留混响数据时，可以继续采用语音解混响模型，对解混响音频数据中的残留混响数据进行消除，直到解混响音频数据不含有残留混响数据。在解混响音频数据不含有残留混响数据时，可以将该解混响音频数据确定为目标音频数据，然后执行408。

作为本发明的一个示例，在语音解混响模型为GAN模型时，可以包含两个子模型，其中一个子模型可以是生成式模型(Generative Model)，另一个子模型可以是判别式模型(Discriminative Model)。这两个模型可以像左右手互相博弈，即两个模型可以互相博弈，互相进步。具体的，生成式模型可以作为生成器(Generator，G)，其主要任务可以是学习从带混响音频数据到不含有混响干扰数据的音频时域数据之间的映射关系，从而可以生成与训练集相关的新样本，如可以利用带混响音频数据生成解混响音频数据，又如可以利用不含有混响干扰数据的音频时域数据生成所述音频时域数据对应的带混响音频数据等。判别式模型(Discriminative Model)可以作为辨别器(Discriminator,D)，可以用于判断生成器生成的音频数据是否是符合预设的输出要求，如判断解混响音频数是否含有残留混响数据，来确定生成器生成的解混响音频数是否符合预设的输出要求，以将符合输出要求的解混响音频数据确定为目标音频数据等。需要说明的是，生成器可以通过与辨别器的对抗训练,学习到带混响音频数据与不含有混响干扰数据的音频时域数据之间的映射关系。

在本示例中，生成器可以将接收到的带混响音频数据的分布特征映射到预先训练得到的或者预先定义的不含有混响干扰数据的音频时域数据的分布特征，从而生成解混响音频数据。辨别器可以判断解混响音频数据是否含有混响干扰数据，并且可在判断出解混响音频数据不含有混响干扰数据时，将该解混响音频数据确定为目标音频数据。

在本发明的一个可选实施例中，语音解混响模型可以包含有生成器和辨别器，上述采用所述语音解混响模型在时域上消除所述音频数据中含有的混响干扰数据，得到目标音频数据，具体可以包括：将所述音频数据传输给语音解混响模型；采用所述语音解混响模型中的生成器，对所述音频数据中的混响干扰数据进行消除，得到解混响音频数据；采用所述语音解混响模型中的辨别器，判断解混响音频数据是否含有残留混响数据；若所述解混响音频数据含有残留混响数据，则采用所述生成器对所述解混响音频数据中的残留混响数据进行消除；否则，将所述解混响音频数据确定为目标音频数据。

例如，结合上述示例，在训练阶段中，可以将音频时域数据对应的带混响音频数据传输到生成器中，以通过该生成器对带混响音频数据进行映射处理，去除带混响音频数据中的混响干扰数据，生成对应的音频映射数据；并且可以将获取到的音频时域数据输入到辨别器中，使得辨别器可以基于该音频时域数据判断音频映射数据是否能够作为解混响后的目标音频数据。其中，带混响音频数据可以包括需要保留的音频时域数据和需要消除的混响干扰数据等。若生成器当前生成的解混响数据可以目标音频数据作为目标音频数据，则可以基于当前生成的音频映射数据与带混响音频数据之间的映射关系，确定出生成器的网络模型参数，使得生成器在应用阶段可以依据该网络模型参数消除音频输入设备采集到的音频数据中的混响干扰数据。

具体的，在应用阶段，可以将含有混响干扰数据的音频数据输入到生成器，如在检测到当前获取到的音频数据含有混响干扰数据时，将该音频数据输入到语音解混响模型的生成器，以通过生成器在时域上消除该音频数据中的混响干扰数据，生成解混响音频数据；随后，可以将该解混响音频数据传输给辨别器，以通过辨别器判断解混响音频数据是否含有残留混响数据。辨别器在判断出解混响音频数据含有残留混响数据后，可以将该解混响音频数据反馈给生成器，以触发生成器消除该解混响音频数据中的残留混响数据；以及，在判断出解混响音频数据不含有残留混响数据后，可以将该解混响音频数据作为目标音频数据，并且可以对目标音频数据进行输出，随后执行步骤408。

步骤408，基于所述目标音频数据执行相应的业务操作，生成对应的业务处理结果。

具体而言，本发明实施例可以应用在语音通话场景，如在用户使用诸如手机、平板电脑等音频输入设备进行视频通话的过程中，在获取到音频输入设备采集到的音频数据后，可以应用本发明实施例消除该音频数据中的混响干扰数据，保证视频通话过程中的语音质量。可选地，上述基于所述目标音频数据执行相应的业务操作，生成对应的业务处理结果，具体可以包括：对所述目标音频数据进行封装，生成音频数据包；采用所述音频数据包执行发送操作，生成音频发送结果。具体的，本发明实施例在语音解混响模型输出目标音频数据后，可以按照预先设置的通讯协议对该目标音频数据进行封装，生成对应的音频数据包，然后可以通过有线和/或无线的方式，对音频数据包执行相应的发送操作，以将音频数据包发送给目标设备，生成对应的音频发送结果，如在完成音频数据包后生成音频数据包对应的发送成功结果；又如在音频数据包发送失败时，生成该音频数据包对应的发送失败结果等等。目标设备在接收到成功发送的音频数据包后，可以依据该音频数据包进行音频播放，使得用户可以听到目标音频数据对应的音频。

当然，本发明实施例还可以应用在其他场景中，如可以应用在视频会议场景中，也可以应用在语音识别场景中等等，本发明实施例对此不作限制。

在本发明的一个实施例中，基于所述目标音频数据执行相应的业务操作，生成对应的业务处理结果，具体可以包括：采用所述目标音频数据执行语音识别操作，生成文本数据，以及，对所述文本数据进行展示。具体的，本发明实施例在依据目标音频数据执行语音识别操作后，可以将生成的文本数据作为业务处理结果，然后对该文本数据进行展示，使得用户可以通过展示的文本数据获知业务处理结果，提高用户体验。可见，本发明实施例可以应用在语音识别场景中，即可以采用去除混响干扰数据后得到的目标音频数据执行语音识别操作，从而可避免混响干扰数据对语音识别操作的影响，降低语音识别错误率，进而可以提高语音识别的正确率和语音识别效率。

需要说明的是，对于方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明实施例并不受所描述的动作顺序的限制，因为依据本发明实施例，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作并不一定是本发明实施例所必须的。

参照图5，示出了本发明的一种音频数据的处理装置实施例的结构框图，具体可以包括如下模块：

音频数据获取模块510，用于获取音频输入设备采集到的音频数据，其中，所述音频数据为所述音频输入设备在封闭音频输入场景中采集到的时域数据；

音频数据检测模块520，用于检测所述音频数据是否包含有混响干扰数据；

混响干扰数据消除模块530，用于在所述音频数据包含有混响干扰数据时，采用语音解混响模型在时域上消除所述音频数据中含有的混响干扰数据，得到目标音频数据。

在本发明的一个可选实施例中，所述混响干扰数据消除模块530可以包括如下子模块：

在本发明的一个可选实施例中，上述音频数据的处理装置还可以包括：业务操作执行模块，用于基于所述目标音频数据执行相应的业务操作，生成对应的业务处理结果。

可选的，所述业务操作执行模块可以包括语音识别子模块和/或音频数据发送子模块。其中，语音识别子模块，可以用于采用所述目标音频数据执行语音识别操作，生成文本数据，以及对所述文本数据进行展示。音频数据发送子模块，可以用于对所述目标音频数据进行封装，生成音频数据包，以及，采用所述音频数据包执行发送操作，生成音频发送结果。

在本发明的一个可选实施例中，音频数据的处理装置还可以包括如下模块：

音频时域数据获取模块，用于获取待处理的音频时域数据；

带混响音频数据生成模块，用于对所述音频时域数据进行加混响，生成所述音频时域数据对应的带混响音频数据；

语音解混响模型生成模块，用于采用所述带混响音频数据和所述音频时域数据进行模型训练，生成语音解混响模型。

可选的，生成的语音解混响模型可以包括：卷积神经网络模型或生成对抗网络模型。

在本发明的一个可选实施例中，所述语音解混响模型生成模块可以包括如下子模块：

对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

图6是根据一示例性实施例示出的一种用于音频数据的处理的设备600的结构框图。例如，设备600可以是移动电话，计算机，数字广播终端，消息收发设备，游戏控制台，平板设备，医疗设备，健身设备，个人数字助理、服务器等。

参照图6，设备600可以包括以下一个或多个组件：处理组件602，存储器604，电源组件606，多媒体组件608，音频组件610，输入/输出(I/O)的接口612，传感器组件614，以及通信组件616。

处理组件602通常控制设备600的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理组件602可以包括一个或多个处理器620来执行指令，以完成上述的方法的全部或部分步骤。此外，处理组件602可以包括一个或多个模块，便于处理组件602和其他组件之间的交互。例如，处理组件602可以包括多媒体模块，以方便多媒体组件608和处理组件602之间的交互。

存储器604被配置为存储各种类型的数据以支持在设备600的操作。这些数据的示例包括用于在设备600上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。存储器604可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

电源组件606为设备600的各种组件提供电力。电源组件606可以包括电源管理系统，一个或多个电源，及其他与为设备600生成、管理和分配电力相关联的组件。

多媒体组件608包括在所述设备600和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件608包括一个前置摄像头和/或后置摄像头。当设备600处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。

音频组件610被配置为输出和/或输入音频信号。例如，音频组件610包括一个麦克风(MIC)，当设备600处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器604或经由通信组件616发送。在一些实施例中，音频组件610还包括一个扬声器，用于输出音频信号。

I/O接口612为处理组件602和外围接口模块之间提供接口，上述外围接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件614包括一个或多个传感器，用于为设备600提供各个方面的状态评估。例如，传感器组件614可以检测到设备600的打开/关闭状态，组件的相对定位，例如所述组件为设备600的显示器和小键盘，传感器组件614还可以检测设备600或设备600一个组件的位置改变，用户与设备600接触的存在或不存在，设备600方位或加速/减速和设备600的温度变化。传感器组件614可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件614还可以包括光传感器，如CMOS或CCD图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件614还可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器或温度传感器。

通信组件616被配置为便于设备600和其他设备之间有线或无线方式的通信。设备600可以接入基于通信标准的无线网络，如WiFi，2G或3G，或它们的组合。在一个示例性实施例中，通信组件616经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，所述通信组件616还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

在示例性实施例中，设备600可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述方法。

在示例性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括指令的存储器604，上述指令可由设备600的处理器620执行以完成上述方法。例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

一种非临时性计算机可读存储介质，当所述存储介质中的指令由终端的处理器执行时，使得终端能够执行一种音频数据的处理方法，所述方法包括：获取音频输入设备采集到的音频数据，其中，所述音频数据为所述音频输入设备在封闭音频输入场景中采集到的时域数据；检测所述音频数据是否包含有混响干扰数据；若所述音频数据包含有混响干扰数据，则采用语音解混响模型在时域上消除所述音频数据中含有的混响干扰数据，得到目标音频数据。

图7是本发明实施例中一种设备的结构示意图。该设备700可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上中央处理器(central processing units，CPU)722(例如，一个或一个以上处理器)和存储器732，一个或一个以上存储应用程序742或数据744的存储介质730(例如一个或一个以上海量存储设备)。其中，存储器732和存储介质730可以是短暂存储或持久存储。存储在存储介质730的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对设备中的一系列指令操作。更进一步地，中央处理器722可以设置为与存储介质730通信，在设备700上执行存储介质730中的一系列指令操作。

设备700还可以包括一个或一个以上电源726，一个或一个以上有线或无线网络接口750，一个或一个以上输入输出接口758，一个或一个以上键盘756，和/或，一个或一个以上操作系统741，例如Windows ServerTM，Mac OS XTM，UnixTM,LinuxTM，FreeBSDTM等等。

在示例性实施例中，设备经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：获取音频输入设备采集到的音频数据，其中，所述音频数据为所述音频输入设备在封闭音频输入场景中采集到的时域数据；检测所述音频数据是否包含有混响干扰数据；若所述音频数据包含有混响干扰数据，则采用语音解混响模型在时域上消除所述音频数据中含有的混响干扰数据，得到目标音频数据。

将所述音频数据传输给语音解混响模型；

可选地，由一个或者一个以上处理器执行所述一个或者一个以上程序包含还用于进行以下操作的指令：基于所述目标音频数据执行相应的业务操作，生成对应的业务处理结果。其中，所述基于所述目标音频数据执行相应的业务操作，生成对应的业务处理结果，包括：对所述目标音频数据进行封装，生成音频数据包，以及，采用所述音频数据包执行发送操作，生成音频发送结果；和/或，采用所述目标音频数据执行语音识别操作，生成文本数据，以及，对所述文本数据进行展示。

可选地，由一个或者一个以上处理器执行所述一个或者一个以上程序包含还用于进行以下操作的指令：获取待处理的音频时域数据；对所述音频时域数据进行加混响，生成所述音频时域数据对应的带混响音频数据；采用所述带混响音频数据和所述音频时域数据进行模型训练，生成语音解混响模型。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

本领域内的技术人员应明白，本发明实施例的实施例可提供为方法、装置、或计算机程序产品。因此，本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明实施例是参照根据本发明实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上，使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明实施例的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。

以上对本发明所提供的一种音频数据的处理方法和装置、一种设备，以及一种可读存储介质，进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种音频数据的处理方法，其特征在于，包括：

获取音频输入设备采集到的音频数据，其中，所述音频数据为所述音频输入设备在封闭音频输入场景中采集到的时域数据；

检测所述音频数据是否包含有混响干扰数据；

若所述音频数据包含有混响干扰数据，将所述音频数据传输给语音解混响模型；所述语音解混响模型为GAN模型，生成式模型作为生成器，判别式模型作为辨别器；

2.根据权利要求1所述的方法，其特征在于，还包括：

基于所述目标音频数据执行相应的业务操作，生成对应的业务处理结果；

其中，所述基于所述目标音频数据执行相应的业务操作，生成对应的业务处理结果，包括：对所述目标音频数据进行封装，生成音频数据包，以及，采用所述音频数据包执行发送操作，生成音频发送结果；和/或，

采用所述目标音频数据执行语音识别操作，生成文本数据，以及，对所述文本数据进行展示。

3.根据权利要求1所述的方法，其特征在于，还包括：

获取待处理的音频时域数据；

对所述音频时域数据进行加混响，生成所述音频时域数据对应的带混响音频数据；

采用所述带混响音频数据和所述音频时域数据进行模型训练，生成语音解混响模型。

4.根据权利要求3所述的方法，其特征在于，采用所述带混响音频数据和所述音频时域数据进行模型训练，生成语音解混响模型，包括：

针对所述带混响音频数据，获取网络模型参数；

依据所述网络模型参数对所述带混响音频数据进行映射处理，得到音频映射数据；

将所述音频映射数据与音频时域数据进行比较，得到所述音频映射数据对应的映射误差；

若所述映射误差超出预设的误差范围，则基于所述映射误差调整所述网络模型参数，基于调整后的网络模型参数重新对所述带混响音频数据进行映射处理，直到映射处理后得到的音频映射数据对应的映射误差在所述误差范围内；

当所述映射误差在所述误差范围内时，基于所述音频映射数据与所述带混响音频数据之间的映射关系，生成语音解混响模型。

5.一种音频数据的处理装置，其特征在于，包括：

音频数据传输子模块，用于在所述音频数据包含有混响干扰数据时，将所述音频数据传输给语音解混响模型；所述语音解混响模型为GAN模型，生成式模型作为生成器，判别式模型作为辨别器；

6.根据权利要求5所述的装置，其特征在于，还包括：

业务操作执行模块，用于基于所述目标音频数据执行相应的业务操作，生成对应的业务处理结果；

该业务操作执行模块包括语音识别子模块和/或音频数据发送子模块；

其中，所述语音识别子模块，用于采用所述目标音频数据执行语音识别操作，生成文本数据，以及对所述文本数据进行展示；

所述音频数据发送子模块，用于对所述目标音频数据进行封装，生成音频数据包，以及，采用所述音频数据包执行发送操作，生成音频发送结果。

7.根据权利要求5所述的装置，其特征在于，还包括：

音频时域数据获取模块，用于获取待处理的音频时域数据；

8.根据权利要求7所述的装置，其特征在于，还包括：

9.一种设备，其特征在于，包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：

检测所述音频数据是否包含有混响干扰数据；

10.根据权利要求9所述的设备，其特征在于，还包括：

11.根据权利要求9所述的设备，其特征在于，还包括：

获取待处理的音频时域数据；

12.根据权利要求11所述的设备，其特征在于，采用所述带混响音频数据和所述音频时域数据进行模型训练，生成语音解混响模型，包括：

针对所述带混响音频数据，获取网络模型参数；

13.一种可读存储介质，其特征在于，当所述存储介质中的指令由设备的处理器执行时，使得设备能够执行如方法权利要求1-4中的一个或多个所述的音频数据的处理方法。