CN107481728B

CN107481728B - 背景声消除方法、装置及终端设备

Info

Publication number: CN107481728B
Application number: CN201710910834.XA
Authority: CN
Inventors: 张雪薇; 李先刚
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2017-09-29
Filing date: 2017-09-29
Publication date: 2020-12-11
Anticipated expiration: 2037-09-29
Also published as: US20190103124A1; US10381017B2; CN107481728A

Abstract

本发明提出一种背景声消除方法、装置及终端设备，其中，该方法包括：获取初始音频数据集；对所述初始音频数据集进行背景声融合处理，以获取训练样本数据；利用所述训练样本数据及所述初始音频数据集，对神经网络进行训练，生成用于消除背景声的初始神经网络模型；利用所述用于消除背景声的初始神经网络模型，对待处理音频数据进行背景声消除处理。由此，实现了利用神经网络模型对待处理音频数据进行背景声消除，提高了通话质量，且当用户处于不同的场景时，无需单独训练生成神经网络模型，实现方式简便，成本低，改善了用户体验。

Description

背景声消除方法、装置及终端设备

技术领域

本发明涉及计算机技术领域，尤其涉及一种背景声消除方法、装置及终端设备。

背景技术

通常，在人与人之间通过手机、对讲机等电子通信装置通信或人机交互时，交互双方常常处于一些嘈杂的背景环境下。这时，接收方用户获取的声音不仅包括发送方用户的说话声音，还包括发送方用户周围的其它声音，比如他人说话音、脚步声、物品碰撞声、音乐以及交通工具发出的声音等。这些除了交互双方的说话声音之外的背景声，会影响交互双方的通话质量，消除背景声是改善通话质量的方法之一。

现有技术，可以通过回声消除器(Acoustic Echo Chancellor，简称AEC)消除背景声，但是每当发送方处于不同的场景时，AEC都需要单独学习一次，这种背景声消除方式复杂，成本高，用户体验差。

发明内容

本发明旨在至少在一定程度上解决相关技术中的技术问题之一。

为此，本发明提出一种背景声消除方法，实现了利用神经网络模型对待处理音频数据进行背景声消除，提高了通话质量，且当用户处于不同的场景时，无需单独训练生成神经网络模型，实现方式简便，成本低，改善了用户体验。

本发明还提出一种背景声消除装置。

本发明还提出一种终端设备。

本发明还提出一种计算机可读存储介质。

本发明第一方面实施例提出了一种背景声消除方法，包括：获取初始音频数据集；对所述初始音频数据集进行背景声融合处理，以获取训练样本数据；利用所述训练样本数据及所述初始音频数据集，对神经网络进行训练，生成用于消除背景声的初始神经网络模型；利用所述用于消除背景声的初始神经网络模型，对待处理音频数据进行背景声消除处理。

本发明实施例的背景声消除方法，在获取初始音频数据集后，首先对初始音频数据集进行背景声融合处理，以获取训练样本数据，然后利用训练样本数据及初始音频数据集，对神经网络进行训练，生成用于消除背景声的初始神经网络模型，最后利用用于消除背景声的初始神经网络模型，对待处理音频数据进行背景声消除处理。由此，实现了利用神经网络模型对待处理音频数据进行背景声消除，提高了通话质量，且当用户处于不同的场景时，无需单独训练生成神经网络模型，实现方式简便，成本低，改善了用户体验。

本发明第二方面实施例提出了一种背景声消除装置，包括：获取模块，用于获取初始音频数据集；第一处理模块，用于对所述初始音频数据集进行背景声融合处理，以获取训练样本数据；第一训练模块，用于利用所述训练样本数据及所述初始音频数据集，对神经网络进行训练，生成用于消除背景声的初始神经网络模型；第二处理模块，用于利用所述用于消除背景声的初始神经网络模型，对待处理音频数据进行背景声消除处理。

本发明实施例的背景声消除装置，在获取初始音频数据集后，首先对初始音频数据集进行背景声融合处理，以获取训练样本数据，然后利用训练样本数据及初始音频数据集，对神经网络进行训练，生成用于消除背景声的初始神经网络模型，最后利用用于消除背景声的初始神经网络模型，对待处理音频数据进行背景声消除处理。由此，实现了利用神经网络模型对待处理音频数据进行背景声消除，提高了通话质量，且当用户处于不同的场景时，无需单独训练生成神经网络模型，实现方式简便，成本低，改善了用户体验。

本发明第三方面实施例提出了一种终端设备，包括：

存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如第一方面所述的背景声消除方法。

本发明第四方面实施例提出了一种计算机可读存储介质，其上存储有计算机程序，当所述程序被处理器执行时实现如第一方面所述的背景声消除方法。

附图说明

本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1是本发明一个实施例的背景声消除方法的流程图；

图2是本发明另一个实施例的背景声消除方法的流程图；

图3是本发明一个实施例的背景声消除装置的结构示意图；

图4是本发明另一个实施例的背景声消除装置的结构示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。

具体的，本发明各实施例针对现有技术中，可以通过AEC消除背景声，但是每当发送方处于不同的场景时，AEC都需要单独学习一次，这种背景声消除方式复杂，成本高，用户体验差的问题，提出一种背景声消除方法。

本发明实施例提供的背景声消除方法，在获取初始音频数据集后，首先对初始音频数据集进行背景声融合处理，以获取训练样本数据，然后利用训练样本数据及初始音频数据集，对神经网络进行训练，生成用于消除背景声的初始神经网络模型，最后利用用于消除背景声的初始神经网络模型，对待处理音频数据进行背景声消除处理。由此，实现了利用神经网络模型对待处理音频数据进行背景声消除，提高了通话质量，且当用户处于不同的场景时，无需单独训练生成神经网络模型，实现方式简便，成本低，改善了用户体验。

图1是本发明一个实施例的背景声消除方法的流程图。

如图1所示，该背景声消除方法包括：

步骤101，获取初始音频数据集。

其中，本发明实施例提供的背景声消除方法的执行主体，为本发明实施例提供的背景声消除装置，该装置可以被配置在任何终端设备中，以对待处理音频数据进行背景声消除处理。

其中，初始音频数据集为不包含背景声的音频数据集。

步骤102，对初始音频数据集进行背景声融合处理，以获取训练样本数据。

其中，背景声可以包括用户说话声、脚步声、物品碰撞声、音乐以及交通工具发出的声音等。

具体的，通过将初始音频数据集和背景声进行融合处理，即可获取包含初始音频数据集和背景声的训练样本数据。

步骤103，利用训练样本数据及初始音频数据集，对神经网络进行训练，生成用于消除背景声的初始神经网络模型。

其中，神经网络，可以是循环神经网络、卷积神经网络、深度神经网络等任意类型的神经网络。相应的，初始神经网络模型可以是循环神经网络模型、卷积神经网络模型、深度神经网络模型等任意类型的神经网络模型。

需要说明的是，对初始音频数据集进行背景声融合处理时，背景声的种类越多，且训练样本数据及初始音频数据集中包括的音频数据个数越多，利用其对神经网络进行训练，生成的用于消除背景声的初始神经网络模型的性能越好。因此，在本发明实施例中，可以利用大量的背景声与初始音频数据进行融合处理得到训练样本数据，并利用大量的训练样本数据及初始音频数据集，对神经网络进行训练。

具体实现时，可以通过以下方式，对神经网络进行训练，生成用于消除背景声的初始神经网络模型。

步骤103a，利用神经网络，对第一训练样本数据进行编码处理，确定与第一训练样本数据对应的向量矩阵。

其中，第一训练样本数据为对第一初始音频数据进行背景声融合处理后，获取的训练样本数据。类似的，第二训练样本数据为对第二初始音频数据进行背景声融合处理后，获取的训练样本数据。其中，第一初始音频数据、第二初始音频数据为初始音频数据集中的任意音频数据。

步骤103b，对向量矩阵进行解码处理，输出第一音频数据。

步骤103c，根据第一音频数据与第一初始音频数据的差异，对神经网络的权重系数进行修订，确定第一修订模型。

可以理解的是，利用神经网络，对第一训练样本数据进行编码处理，是指利用神经网络，对第一训练样本数据对应的特征向量进行处理。

具体实现时，可以预先设置神经网络的权重系数，则将第一训练样本数据对应的特征向量，输入神经网络后，通过对第一训练样本数据的编码处理，及对生成的向量矩阵的解码处理，可以生成相应的第一音频数据。

通过将第一音频数据和第一初始音频数据进行比较，即可根据第一音频数据与第一初始音频数据的差异，确定第一修正系数，从而对预设的权重系数进行修订，确定第一修订模型。

之后，再将第二训练样本数据对应的特征向量，输入神经网络，通过对第二训练样本数据的编码处理，及对生成的向量矩阵的解码处理，可以生成相应的第二音频数据。

通过将第二音频数据和第二初始音频数据进行比较，即可根据第二音频数据与第二初始音频数据的差异，确定第二修正系数，从而对修订后的权重系数继续进行修订，确定第二修订模型。

重复上述过程，通过利用大量的训练样本数据及初始音频数据集，对神经网络进行多次修订后，即可确定最终的权重系数，生成用于消除背景声的初始神经网络模型。

步骤104，利用用于消除背景声的初始神经网络模型，对待处理音频数据进行背景声消除处理。

具体的，待处理音频数据包含背景音频数据和不包含背景声的待识别音频数据，将待处理音频数据输入用于消除背景声的初始神经网络模型后，即可得到不包含背景声的待识别音频数据。

需要说明的是，利用初始神经网络模型，对待处理音频数据进行背景声消除处理后，得到的可以是待识别音频数据的任意形式，比如可以是待识别音频数据对应的特征向量。

即，步骤104可以包括：

对待处理音频数据进行背景声消除处理，以确定与待识别音频数据对应的特征向量。

也即是说，可以先获取待处理音频数据对应的特征向量，然后将待处理音频数据对应的特征向量输入到初始神经网络模型，以获取待识别音频数据对应的特征向量。

其中，特征向量，可以是梅尔频率倒谱系数、线性预测系数等。

通过上述分析可知，可以利用训练的用于消除背景声的初始神经网络模型，对待处理音频数据进行背景声消除处理，生成不包含背景声的待识别音频数据。在一种可能的实现形式中，还可以对待识别音频数据进行语音识别，下面结合图2，本发明实施例提供的背景声消除方法进行进一步说明。

图2是本发明另一个实施例的背景声消除方法的流程图。

如图2所示，该方法包括：

步骤201，获取初始音频数据集。

步骤202，对初始音频数据集进行背景声融合处理，以获取训练样本数据。

步骤203，利用训练样本数据及初始音频数据集，对神经网络进行训练，生成用于消除背景声的初始神经网络模型。

步骤204，利用用于消除背景声的初始神经网络模型，对待处理音频数据进行背景声消除处理，以获取与待识别音频数据对应的特征向量。

其中，上述步骤201-204的具体实现过程及原理，可以参照上述实施例的详细描述，此处不再赘述。

需要说明的是，为了提高初始神经网络模型的质量，在本发明实施例中，生成用于消除背景声的初始神经网络模型后，还可以对初始神经网络模型继续训练，以提高初始神经网络模型的性能。

即，在步骤203之后，还可以包括：

对初始神经网络模型进行更新训练，生成更新的初始神经网络模型。

具体的，在初始神经网络模型的运用过程中，可以根据与之前训练初始神经网络模型时所使用的训练样本数据不同的训练样本数据，对初始神经网络模型继续训练，以对初始神经网络模型进行更新，生成更新后的初始神经网络模型。

步骤205，将待识别音频数据对应的特征向量输入到预设的声学模型中，生成每一帧数据的最大后验概率。

其中，声学模型可以为神经网络等任意模型。具体的，可以为深度神经网络、循环神经网络、卷积神经网络等。

具体的，通过将待识别音频数据对应的特征向量输入到预设的声学模型中进行计算，即可获取每一帧数据的最大后验概率。具体的实现方式，可以为现有的任意生成每一帧数据的最大后验概率的方式，此处不作限制。

步骤206，对待识别音频数据全部帧对应的后验概率序列，进行解码处理，确定待识别音频数据对应的识别文本。

具体的，对待识别音频数据全部帧对应的后验概率序列进行解码处理，为通过设计算法得到最优词串，以确定待识别音频数据对应的识别文本。其中，设计算法可以为Viterbi算法等，此处不作限制。

需要说明的是，在本发明实施例中，为了提高语音识别的应用效果，在对待识别音频数据全部帧对应的后验概率序列进行解码处理之前，还可以对每一帧数据的最大后验概率进行压缩平滑处理，使得处理后的每一帧数据的最大后验概率分布更平滑，并且其波动范围小于处理前的每一帧数据的最大后验概率的波动范围。

具体的，压缩平滑处理可以通过多种方法进行。

比如，可以通过函数变换的方式进行。例如，通过满足一定特性的函数，以每一帧数据的最大后验概率为参数进行变换，得到每一帧数据处理后的最大后验概率。

或者，还可以通过图像处理的方式达到对每一帧数据的最大后验概率进行压缩平滑处理的目的。例如，将各帧数据的最大后验概率绘制在笛卡尔坐标系中，形成散点图、折线图或曲线图等，然后对其进行图像处理，获得分布的更加光滑且波动范围小于处理前波动范围的分布图，并根据其获得各帧数据的最大后验概率。

上述进行压缩平滑处理的示例仅为示意性说明，不能作为对本申请技术方案的限制，本领域技术人员在此基础上，可以根据需要采用任意方式进行压缩平滑处理，此处对此不作限定。

本发明实施例的背景声消除方法，首先获取初始音频数据集，然后对初始音频数据集进行背景声融合处理，以获取训练样本数据，再利用训练样本数据及初始音频数据集，对神经网络进行训练，生成用于消除背景声的初始神经网络模型，再利用用于消除背景声的初始神经网络模型，对待处理音频数据进行背景声消除处理，以获取与待识别音频数据对应的特征向量，接着将待识别音频数据对应的特征向量输入到预设的声学模型中，生成每一帧数据的最大后验概率，最后对待识别音频数据全部帧对应的后验概率序列，进行解码处理，确定待识别音频数据对应的识别文本。由此，实现了利用神经网络模型对待处理音频数据进行背景声消除，及对背景声消除后的音频数据的语音识别，提高了通话质量，且当用户处于不同的场景时，无需单独训练生成神经网络模型，实现方式简便，成本低，改善了用户体验。

图3是本发明一个实施例的背景声消除装置的结构示意图。

如图3所示，该背景声消除装置包括：

获取模块31，用于获取初始音频数据集；

第一处理模块32，用于对初始音频数据集进行背景声融合处理，以获取训练样本数据；

第一训练模块33，用于利用训练样本数据及初始音频数据集，对神经网络进行训练，生成用于消除背景声的初始神经网络模型；

第二处理模块34，用于利用用于消除背景声的初始神经网络模型，对待处理音频数据进行背景声消除处理。

具体的，本发明实施例提供的背景声消除装置，可以执行本发明实施例提供的背景声消除方法，该装置可以被配置在任何终端设备中，以对待处理音频数据进行背景声消除处理。

在本申请实施例一种可能的实现形式中，上述待处理音频数据包括背景音频数据和待识别音频数据，上述第二处理模块34，具体用于：

对待处理音频数据进行背景声消除处理，以获取与待识别音频数据对应的特征向量。

需要说明的是，前述对背景声消除方法实施例的解释说明也适用于该实施例的背景声消除装置，此处不再赘述。

图4是本发明另一个实施例的背景声消除装置的结构示意图。

如图4所示，在图3的基础上，该背景声消除装置，还包括：

生成模块41，用于将待识别音频数据对应的特征向量输入到预设的声学模型中，生成每一帧数据的最大后验概率；

第三处理模块42，用于对待识别音频数据全部帧对应的后验概率序列，进行解码处理，确定待识别音频数据对应的识别文本。

第二训练模块43，用于对初始神经网络模型进行更新训练，生成更新的初始神经网络模型。

本发明实施例的背景声消除装置，首先获取初始音频数据集，然后对初始音频数据集进行背景声融合处理，以获取训练样本数据，再利用训练样本数据及初始音频数据集，对神经网络进行训练，生成用于消除背景声的初始神经网络模型，再利用用于消除背景声的初始神经网络模型，对待处理音频数据进行背景声消除处理，以获取与待识别音频数据对应的特征向量，接着将待识别音频数据对应的特征向量输入到预设的声学模型中，生成每一帧数据的最大后验概率，最后对待识别音频数据全部帧对应的后验概率序列，进行解码处理，确定待识别音频数据对应的识别文本。由此，实现了利用神经网络模型对待处理音频数据进行背景声消除，及对背景声消除后的音频数据的语音识别，提高了通话质量，且当用户处于不同的场景时，无需单独训练生成神经网络模型，实现方式简便，成本低，改善了用户体验。

为达上述目的，本发明第三方面实施例提出了一种终端设备，包括：

存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，当上述处理器执行所述程序时实现如前述实施例中的背景声消除方法。

为达上述目的，本发明第四方面实施例提出了一种计算机可读存储介质，其上存储有计算机程序，当该程序被处理器执行时实现如前述实施例中的背景声消除方法。

为达上述目的，本发明第五方面实施例提出了一种计算机程序产品，当所述计算机程序产品中的指令处理器执行时，执行如前述实施例中的背景声消除方法。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本发明的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本发明的实施例所属技术领域的技术人员所理解。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式光盘只读存储器(CDROM)。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本发明各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器，磁盘或光盘等。尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种背景声消除方法，其特征在于，包括：

获取初始音频数据集；

对所述初始音频数据集进行背景声融合处理，以获取训练样本数据；

利用所述训练样本数据及所述初始音频数据集，对神经网络进行训练，生成用于消除背景声的初始神经网络模型；

利用所述用于消除背景声的初始神经网络模型，对待处理音频数据进行背景声消除处理；

其中，所述利用所述训练样本数据及所述初始音频数据集，对神经网络进行训练，生成用于消除背景声的初始神经网络模型，包括：

预先设置神经网络的权重系数；

将第一训练样本数据对应的特征向量输入神经网络进行编码处理，确定与所述第一训练样本数据对应的向量矩阵，其中，所述第一训练样本数据为对所述初始音频数据集中的第一初始音频数据进行背景声融合处理后，获取的训练样本数据；

对所述向量矩阵进行解码处理，输出第一音频数据；

根据所述第一音频数据与所述第一初始音频数据的差异，确定第一修正系数，以对所述神经网络的权重系数进行修订；

重复利用训练样本数据及初始音频数据集对所述神经网络进行多次修订后，确定最终的所述权重系数，生成用于消除背景声的初始神经网络模型。

2.如权利要求1所述的方法，其特征在于，所述待处理音频数据包括背景音频数据和待识别音频数据，所述对待处理音频数据进行背景声消除处理，包括：

对所述待处理音频数据进行背景声消除处理，以获取与所述待识别音频数据对应的特征向量。

3.如权利要求2所述的方法，其特征在于，所述获取与所述待识别音频数据对应的特征向量之后，还包括：

将所述待识别音频数据对应的特征向量输入到预设的声学模型中，生成每一帧数据的最大后验概率；

对所述待识别音频数据全部帧对应的后验概率序列，进行解码处理，确定所述待识别音频数据对应的识别文本。

4.如权利要求2或3任一所述的方法，其特征在于，所述生成用于消除背景声的初始神经网络模型之后，还包括：

对所述初始神经网络模型进行更新训练，生成更新的初始神经网络模型。

5.一种背景声消除装置，其特征在于，包括：

获取模块，用于获取初始音频数据集；

第一处理模块，用于对所述初始音频数据集进行背景声融合处理，以获取训练样本数据；

第一训练模块，用于利用所述训练样本数据及所述初始音频数据集，对神经网络进行训练，生成用于消除背景声的初始神经网络模型；

第二处理模块，用于利用所述用于消除背景声的初始神经网络模型，对待处理音频数据进行背景声消除处理；

所述第一训练模块，具体用于：

预先设置神经网络的权重系数；

对所述向量矩阵进行解码处理，输出第一音频数据；

6.如权利要求5所述的装置，其特征在于，所述待处理音频数据包括背景音频数据和待识别音频数据，所述第二处理模块，具体用于：

7.如权利要求6所述的装置，其特征在于，还包括：

生成模块，用于将所述待识别音频数据对应的特征向量输入到预设的声学模型中，生成每一帧数据的最大后验概率；

第三处理模块，用于对所述待识别音频数据全部帧对应的后验概率序列，进行解码处理，确定所述待识别音频数据对应的识别文本。

8.如权利要求6或7任一所述的装置，其特征在于，还包括：

第二训练模块，用于对所述初始神经网络模型进行更新训练，生成更新的初始神经网络模型。

9.一种终端设备，包括：

存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1-4中任一所述的背景声消除方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现如权利要求1-4中任一所述的背景声消除方法。