CN108429994B

CN108429994B - 音频识别、回声消除方法、装置及设备

Info

Publication number: CN108429994B
Application number: CN201710081881.8A
Authority: CN
Inventors: 薛少飞; 田彪
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2017-02-15
Filing date: 2017-02-15
Publication date: 2020-10-09
Anticipated expiration: 2037-02-15
Also published as: CN108429994A

Abstract

本申请提供一种音频识别、回声消除方法、装置及设备，所述回声消除方法包括：获取音箱数据和麦克风数据；若所述音箱数据不为空时，将所述音箱数据和所述麦克风数据输入预先生成的种类判断模型，根据判断结果确定所述麦克风数据的种类；在种类为非双讲型时，调整滤波器系数；在种类为双讲型时，固定滤波器系数，并对所述麦克风数据进行回声消除；其中，所述种类判断模型以音箱样本数据、麦克风样本数据作为分类器的输入参数，并以麦克风样本数据的种类作为分类器的分类目标训练生成，所述麦克风样本数据基于音箱样本数据生成。应用本申请方案可以提高判断麦克风数据的种类准确性，进而提高回声消噪效果。

Description

音频识别、回声消除方法、装置及设备

技术领域

本申请涉及语音交互技术领域，尤其涉及音频识别、回声消除方法、装置及设备。

背景技术

在电话会议系统、车载系统、IP电话等语音交互系统中，经常会出现扬声器播放的声音经过多种路径传播后被麦克风拾取，并传回到系统形成回声现象。以即时通讯为例进行说明，在进行双方或多方的实时语音交流时，通常采用外置音箱放音，当甲方说话后，通过乙方的音箱放音，声音经过信道传播后连同乙方的话音被乙方的麦克风采集并回传给甲方，从而导致甲方能听到自己的声音。如果不对回音进行处理，将会影响通话质量和用户体验，严重时还会形成震荡，产生啸叫。

为了避免回声带来的不利影响，可以采用回声消除器(Acoustic EchoCanceller，AEC)将本地音箱播放出来的声音从麦克风采集的麦克风数据中消除，使得麦克风录制的声音只有本地用户说话的声音。通常采用自适应滤波器模拟回声路径，并将估计的回声数据从麦克风拾取的麦克风数据中消除。自适应滤波器是以输入数据和输出数据的统计特性的估计为依据，采取特定算法自动地调整滤波器系数，使其达到最佳滤波特性的一种算法。其中，输入数据为音箱播报的音箱数据，可以称为参考信号；输出数据为由音箱数据产生的回音数据，可以称为期望信号。

自适应滤波器收敛阶段，回音数据是由音箱数据产生的回音数据，回音数据中不能有用户说话的语音数据，在没有语音数据的阶段中，自适应滤波器的滤波器系数不断迭代收敛，而一旦有用户语音进入，则需要固定滤波器系数，以便利用自适应滤波器进行回声消除。基于此，准确判断麦克风数据的种类，是合理调整滤波器系数的关键。输入数据中包括麦克风数据和音箱数据，麦克风数据基于音箱数据生成。先判断音箱数据是否为空，如果音箱数据为空，则不进行双讲判断和AEC处理，如果音箱数据不为空，则判断麦克风数据的种类为双讲型还是非双讲型。当麦克风数据的种类为双讲型时，固定滤波器系数并对麦克风数据进行回声消除；当麦克风数据的种类为非双讲型时，对滤波器系数进行调整。双讲型数据是同时基于音箱数据和语音数据生成的数据，非双讲型数据是没有同时包括音箱数据和语音数据的数据。

现有技术中，在确定是否调整滤波器系数之前，往往基于能量阈值的方式判断麦克风采集的麦克风数据的种类，在存在风噪等噪声的复杂环境下，仅通过阈值的方式判断种类是否为双讲型或非双讲型，判断准确性差，从而导致回声消噪效果差。

发明内容

本申请提供音频识别、回声消除方法、装置及设备，以解决现有技术种类判断不准确的问题。

根据本申请实施例的第一方面，提供一种回声消除方法，所述方法包括：

获取音箱数据和麦克风数据；

若所述音箱数据不为空时，将所述音箱数据和所述麦克风数据输入预先生成的种类判断模型，根据判断结果确定所述麦克风数据的种类；

在种类为非双讲型时，调整滤波器系数；在种类为双讲型时，固定滤波器系数，并对所述麦克风数据进行回声消除；

其中，所述种类判断模型以音箱样本数据、麦克风样本数据作为分类器的输入参数，并以麦克风样本数据的种类作为分类器的分类目标训练生成，所述麦克风样本数据基于音箱样本数据生成。

根据本申请实施例的第二方面，提供一种音频识别方法，所述方法包括：

获取音箱数据和麦克风数据；

将所述音箱数据和所述麦克风数据输入预先生成的种类判断模型，根据判断结果确定所述麦克风数据的种类，所述种类包括双讲型和非双讲型；所述种类判断模型以音箱样本数据、麦克风样本数据作为分类器的输入参数，并以麦克风样本数据的种类作为分类器的分类目标训练生成，所述麦克风样本数据基于音箱样本数据生成。

根据本申请实施例的第三方面，提供一种回声消除装置，所述装置包括：

数据获取模块，用于获取音箱数据和麦克风数据；

种类判断模块，用于在所述音箱数据不为空时，将所述音箱数据和所述麦克风数据输入预先生成的种类判断模型，根据判断结果确定所述麦克风数据的种类；

回声消除模块，用于在种类为非双讲型时，调整滤波器系数；在种类为双讲型时，固定滤波器系数，并对所述麦克风数据进行回声消除；

根据本申请实施例的第四方面，提供一种音频识别装置，所述装置包括：

数据获取模块，用于获取音箱数据和麦克风数据；

种类判断模块，用于将所述音箱数据和所述麦克风数据输入预先生成的种类判断模型，根据判断结果确定所述麦克风数据的种类，所述种类包括双讲型和非双讲型；所述种类判断模型以音箱样本数据、麦克风样本数据作为分类器的输入参数，并以麦克风样本数据的种类作为分类器的分类目标训练生成，所述麦克风样本数据基于音箱样本数据生成。

根据本申请实施例的第五方面，提供一种电子设备，包括：

处理器；用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为：

获取音箱数据和麦克风数据；

根据本申请实施例的第六方面，提供一种电子设备，包括：

处理器；用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为：

获取音箱数据和麦克风数据；

应用本申请实施例音频识别、回声消除方法、装置及设备时，由于种类判断模型是以不同的输入参数以及分类目标训练生成的模型，因此，在获取到音箱数据和麦克风数据时，可以将音箱数据和麦克风数据输入预先生成的类型判断模块中，并根据判断结果确定麦克风数据的种类，又由于麦克风数据的种类包括双讲型和非双讲型，因此可以准确的判断出麦克风数据属于双讲型数据，还是非双讲型数据。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本申请。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本申请的实施例，并与说明书一起用于解释本申请的原理。

图1为回声消除系统的结构示意图。

图2A为本申请根据一示例性实施例示出的一种构建种类判断模型的流程图。

图2B为本申请根据一示例性实施例示出的一种种类判断模型的拓扑结构示意图。

图2C为本申请根据一示例性实施例示出的另一种种类判断模型的拓扑结构示意图。

图2D为本申请根据一示例性实施例示出的另一种种类判断模型的拓扑结构示意图。

图3为本申请音频识别方法的一个实施例流程图。

图4A为本申请回音消除方法的一个实施例流程图。

图4B为本申请根据一示例性实施例示出的一种回声消除系统的结构示意图。

图4C为本申请根据一示例性实施例示出的另一种回声消除系统的结构示意图。

图5为本申请回声消除装置所在电子设备的一种硬件结构图。

图6为本申请回声消除装置的一个实施例框图。

图7为本申请回声消除装置的另一个实施例框图。

图8为本申请音频识别装置的一个实施例框图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。

在本申请使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本申请。在本申请和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本申请可能采用术语第一、第二、第三等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本申请范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

在电话会议系统、车载系统、IP电话等语音交互系统中，经常会出现扬声器播放的声音经过多种路径传播后被麦克风拾取，并传回到系统形成回声现象。通常采用自适应滤波的方法进行回声消除。在自适应滤波器收敛阶段，期望信号(麦克风数据)是完全由参考信号(音箱数据)产生的回音，不能有用户语音，此阶段滤波器系数不断迭代收敛，而一旦有用户语音进入，则需要固定滤波器系数，以便利用自适应滤波器进行回声消除。因此，准确判断麦克风数据是双讲型数据还是包含有音箱数据的非双讲型数据，是合理调整滤波器系数的关键。

如图1所示，图1为回声消除系统的结构示意图。在该示意图中，输入数据包括麦克风数据(Mic)和音箱数据(Ref)。音箱数据是语音交互系统中音箱播放的数据，可以称为参考信号。麦克风数据是语音交互系统中麦克风采集的数据。由于语音交互系统的音箱和麦克风在同一个场景下，因此，当音箱数据不为空时，麦克风采集的声音中包括有音箱播放的声音。参考信号检测模块先检测音箱数据是否为空，如果音箱数据为空，表示没有音箱数据，则不启用判断模块，且AEC不对麦克风数据进行处理，直接将麦克风数据交由后处理模块进行处理。如果音箱数据不为空，表示存在音箱数据，则启用判断模块，判断模块根据麦克风数据和音箱数据判断麦克风数据的种类，若麦克风数据为双讲型数据，表示麦克风数据是同时基于音箱数据和语音数据生成的数据(即麦克风采集的声音既包括用户说话声，还包括音箱播放音箱数据的声音)，则AEC固定滤波器系数以对麦克风数据进行回声消除处理；若麦克风数据为非双讲型数据，由于音箱数据不为空，则表示麦克风数据是包含有音箱数据的非双讲型数据(即包含有音箱数据但不包含有语音数据的数据)，对滤波器系数进行调整。

相关技术中，判断模块基于能量阈值的方式判断麦克风采集的麦克风数据的种类，在存在噪声的复杂环境下，仅通过阈值的方式判断种类是否为双讲型或非双讲型，判断准确性差，从而导致回声消噪效果差。

为了避免麦克风数据种类判断不准确的缺陷，本申请提供一种种类判断模型，以下通过种类判断模型的构建阶段以及利用种类判断模型进行种类判断的应用阶段两个阶段对本申请实施例的方案进行说明。在一个例子中，构建阶段和应用阶段可以由同一个电子设备执行。在另一个例子中，由于构建阶段需要消耗时间进行训练，因此可以由一个或一组电子设备预先构建种类判断模型，其他电子设备共享该种类判断模型，以便后续直接使用已构建的种类判断模型进行种类判断，避免每个电子设备都进行模型构建导致的资源浪费。

本申请先介绍种类判断模型的预构建阶段。如图2A所示，图2A为本申请根据一示例性实施例示出的一种构建种类判断模型的流程图，构建种类判断模型包括以下步骤201和步骤202：

在步骤201中，获取音箱样本数据、麦克风样本数据以及所述麦克风样本数据的种类。

在步骤202中，以音箱样本数据、麦克风样本数据作为分类器的输入参数，并以麦克风样本数据的种类作为分类器的分类目标，训练生成种类判断模型。

其中，分类目标是分类器的期望输出。每次作为输入参数的一组训练数据中(每组训练数据包括麦克风样本数据和音箱样本数据)，麦克风样本数据基于该音箱样本数据生成。作为分类目标的麦克风样本数据的种类是作为输入参数的麦克风样本数据对应的种类。在一个例子中，可以将样本集合中每次需要输入的样本数据划分为一组，称为一个样本子集，或者一组训练数据。例如，样本子集包括：音箱样本数据、基于该音箱样本数据生成的麦克风样本数据、以及该麦克风样本数据的种类。基于此，每次训练时，根据训练方法的不同取其中一个样本子集或多个样本子集进行训练。

因为种类判断模型中输入数据为麦克风数据和音箱数据，期望种类判断模型输出的数据是麦克风数据的种类，因此，以音箱样本数据、麦克风样本数据作为分类器的输入参数，并以麦克风样本数据的种类作为分类器的分类目标，可以训练生成种类判断模型。

接下来介绍如何获取音箱样本数据、麦克风样本数据以及所述麦克风样本数据的种类。

关于音箱样本数据，由于音箱样本数据是音箱播放的数据，因此可以直接从音箱中获取。

关于麦克风样本数据，麦克风样本数据通过麦克风采集、且基于音箱样本数据生成。所谓基于音箱数据生成，是指当音箱样本数据不为空时，音箱播放音箱样本数据时麦克风采集的数据。由图1可知，由于参考信号检测模块先检测音箱数据是否为空，不为空的情况下才启用判断模块，因此输入判断模块的麦克风数据往往可以分为两类数据，一类是双讲型数据，一类是包含有音箱数据的非双讲型数据。

基于此，麦克风样本数据中可以包括双讲型数据和包含有音箱样本数据的非双讲型数据。双讲型数据是同时基于音箱样本数据和语音样本数据生成的数据，例如，可以包括由音箱样本数据和用户说话产生的麦克风数据，还可以包括由音箱样本数据、用户说话和环境噪音产生的麦克风数据。包含有音箱样本数据的非双讲型数据是指包含有音箱样本数据、且不包含用户说话的数据，包含有音箱样本数据的非双讲型数据还可以称为单讲数据。单讲数据属于非双讲数据。例如，单讲数据可以包括仅由音箱样本数据产生的麦克风数据，还可以包括由音箱样本数据和环境噪音产生的麦克风数据。

在一个可选的实现方式中，为了增加种类判断模型可能遇到的各种类数据，使种类判断模型能覆盖到各种可能的数据，不会由于某些种类数据的缺失导致种类判断模型无法进行判断，本实施例的麦克风样本数据还包括不含音箱样本数据的非双讲型数据，例如，仅由用户说话产生的麦克风数据，仅由环境噪音产生的麦克风数据，由用户说话和环境噪音产生的麦克风数据等。

由上述实施例可见，麦克风样本数据既包括双讲型数据，又包括所有可能出现类型的非双讲型数据，从而可以增强训练获得的种类判断模型的判断能力。

针对不同种类的麦克风样本数据，在一个可选的实现方式中，可以采用实录的方式，即利用麦克风采集各种目标环境下的声音，从而产生相应的麦克风样本数据。例如，为了采集双讲型数据，可以制造具有用户说话声和音箱播放声音的目标环境，并利用麦克风采集该目标环境下的数据，获得麦克风样本数据。为了采集某种非双讲型数据，可以制造具有音箱播放声音、且不具有用户说话声的目标环境，并利用麦克风采集该目标环境下的数据，获得麦克风样本数据等。

然而，由于直接利用麦克风采集真实环境下的声音，需要制造不同且量大的真实环境，效率低且耗费人力物力，为了避免这种缺陷，在一个可选的实现方式中，提供一种高效的方式获取麦克风样本数据。该实施例通过麦克风录制音箱播放音箱样本数据的声音，获得回音样本数据；通过麦克风录制用户说话的声音，获得语音样本数据；通过麦克风录制不同环境下的环境噪声，获得环境噪声样本数据。

所述麦克风样本数据基于麦克风采集的回音样本数据、语音样本数据、环境噪声样本数据中一种或多种数据生成。

单独的回音样本数据、单独的语音样本数据、单独的环境噪声样本数据，可以作为非双讲型麦克风样本数据。

将回音样本数据、语音样本数据、环境噪声样本数据进行叠加组合时，可以生成非双讲型麦克风样本数据和双讲型麦克风样本数据。

在一个例子中，双讲型的麦克风样本数据由回音样本数据、语音样本数据和环境噪声样本数据以不同的信噪比进行线性叠加生成。

在一个例子中，非双讲型的麦克风样本数据由回音样本数据和环境噪声样本数据线性叠加生成，还可以由语音样本数据和环境噪声样本数据线性叠加生成。

在叠加数据的过程中，所叠加的语音样本数据与回音样本数据由麦克风在同一个场景下录制生成，目的是为了模拟在该场景下麦克风采集的既包括用户说话又包括音箱播音的声音数据。数据与环境噪声样本数据线性叠加可以模拟多种环境下的录制数据，从而避免制造不同真实环境导致效率低且人力物力浪费的缺陷。

关于回音样本数据，在一个例子中，所述回音样本数据可以由麦克风直接录制音箱播放音箱样本数据获得。该实施例采用实录的方式获得回音样本数据。在另一个例子中，可以采用模拟录制的方式获得回音样本数据。由于音箱样本数据很容易获取得到，则所述回音样本数据可以由冲激响应与音箱样本数据卷积处理生成，从而提高获得回音样本数据的效率。

其中，系统在单位冲激函数激励下引起的零状态响应被称之为该系统的“冲激响应”。本实施例所指冲激响应是反演麦克风设备在目标场景下的冲激响应，所述冲激响应包括环境冲激响应和麦克风信道冲激响应。通过冲击响应可以模拟目标场景下的传输信道以及麦克风信道，从而将音箱样本数据模拟为目标场景下录制的回音样本数据。目标场景是指语音交互系统可能出现的场景，例如，目标场景可以包括在室内以某指定距离进行传输、在车内以某指定距离进行传输等场景。

关于环境冲激响应，针对不同的目标场景，环境冲激响应不同。如果目标场景是房间，则环境冲激响应即为房间冲激响应，如果目标场景是车内，则环境冲激响应即为车内冲激响应。

冲激响应可以采用现有技术中获取冲激响应的方式进行获取，在此不再赘述。

由上述实施例可见，通过将冲激响应与音箱样本数据进行卷积处理生成回音样本数据，从而模拟出不同目标场景下录制的回音样本数据，提高获得回音样本数据的效率。

关于语音样本数据，在一个例子中，所述语音样本数据可以由麦克风直接录制用户说话声音获得。该实施例采用实录的方式获得语音样本数据。在另一个例子中，可以采用模拟录制的方式获得目标场景下的语音样本数据。具体的，所述语音样本数据可以由冲激响应与近讲语音数据卷积处理生成。

其中，所述冲激响应是反演麦克风设备在目标场景下的冲激响应，所述冲激响应包括环境冲激响应和麦克风信道冲激响应，所述近讲语音数据是近距离采集用户说话声的语音数据。

由上述实施例可见，通过将冲激响应与近讲语音数据进行卷积处理生成语音样本数据，从而模拟出不同目标场景下录制的语音样本数据，提高获得语音样本数据的效率。

关于环境噪声样本数据，一般采用麦克风实际录制的方式获得。环境噪声可以包括风噪、车噪等噪音。

上述训练数据生成后，可以进行模型训练。本实施例可以利用分类器算法训练生成种类判断模型。分类器算法是数据挖据的一种非常重要的方法，分类是在已有数据的基础上学会一个分类函数或构建一个分类模型。分类方法可以包括决策树算法、逻辑回归算法、朴素贝叶斯算法等。

在一个优选的实现方式中，所述分类器为神经网络。人工神经网络(ArtificialNeural Network，简称ANN)，亦称为神经网络(Neural Network，ANN)，是由大量处理单元(神经元Neurons)广泛互联而成的网络。神经网络在外界输入样本的刺激下不断改变网络的连接权值，以使网络的输出不断的接近期望的输出。训练的本质是对各连接权值的动态调整。神经网络可以包括CNN(卷积神经网络)、RNN(循环神经网络)、DNN(深度神经网络)等。循环神经网络(RNN)与传统深度神经网络(DNN)的主要区别是：循环神经网络具有记忆性，通过将以前的输入历史和当前输入映射到当前的输出，以获取对序列数据建模的能力。Long-Short Term Memory(LSTM)是一种被广泛应用的循环神经网络结构，典型的LSTM节点结构与一般DNN或simple RNN采用简单的激活函数节点不同，LSTM由3个gate：input gate、forget gate、output gate和一个cell组成，输入、输出节点以及cell同各个门之间都存在连接；input gate、forget gate同cell之间也存在连接，cell内部还有自连接。这样通过控制不同门的状态，可以实现更好的长短时信息保存和误差传播，LSTM可以像DNN一样逐层堆积成为Deep LSTM。

在一个可选的实现方式中，所述神经网络的输入参数还包括AEC数据，所述AEC数据是上一次输入神经网络的音箱样本数据和麦克风样本数据经过AEC处理后获得的数据。

本实施例中，直接将音箱样本数据(Ref′)、麦克风样本数据(Mic′)、AEC数据(可以称为Speech After AEC′，或After AEC′)的特征拼接作为神经网络的输入参数。将双讲型/非双讲型的二分类判断作为神经网络的输出。

其中，神经网络的隐藏层可以采用DNN、CNN等网络。作为一种优选方式，神经网络的隐藏层采用LSTM网络，由于LSTM可以通过控制不同门的状态，实现更好的长短时信息保存和误差传播，从而可以训练出效果更好的种类判断模型。

隐藏层的层数基于样本数据的数据量确定。如果样本数据的数据量多，则神经网络可以渲染的更深，隐藏层的层数需求越大；如果样本数据的数据量少，则神经网络不能渲染的很深，隐藏层的层数需求越少。另外，层数越多，节点数越多，计算越耗时，所以隐藏层的层数还基于系统性能确定。作为一种优选方式，隐藏层的层数范围为1到4层。采用这个范围的隐藏层层数，既考虑了样本数据量，又考虑了系统性能。

在模型训练阶段，将麦克风样本数据和音箱样本数据延迟一个单位时刻，并与AEC处理后的数据进行拼接，一起输入到神经网络用于训练。其中，输入神经网络的数据都是神经网络能处理的音频特征数据。单位时刻的长度取决于AEC系统的耗时。延迟一个单位时刻的目的，是为了将上一次(t-1时刻)输入神经网络的音箱样本数据和麦克风样本数据经过AEC处理后获得的AEC数据作为本时刻(t时刻)的输入参数之一。

如图2B所示，图2B为本申请根据一示例性实施例示出的一种种类判断模型的拓扑结构示意图。在该示意图中，将t-1时刻的音箱样本数据和麦克风样本数据输入到现有的AEC中进行处理，获得t-1时刻的AEC数据，然后将t时刻的音箱样本数据和麦克风样本数据、以及t-1时刻的AEC数据作为神经网络的输入参数输入神经网络。图2B中隐藏层采用LSTM网络，且隐藏层的层数为2层。

在另一个可选的实现方式中，所述神经网络的输入参数还包括深瓶颈特征，所述深瓶颈特征是对AEC数据进行静音/非静音判断时，提取的用于表征AEC数据的特征数据；所述AEC数据是上一次输入神经网络的音箱样本数据和麦克风样本数据经过AEC处理后获得的数据。在回声消除系统中，通常采用VAD模块(Voice Activity Detection,语音活动检测)对AEC处理获得的AEC数据进行静音/非静音判断。在VAD模块对AEC数据进行静音/非静音判断时，可以提取用于表征AEC数据的特征数据，即VAD模型中的bottleneck(深瓶颈特征)，并将该深瓶颈特征作为下一时刻的输入参数。

具体的，将t-1时刻输入神经网络的音箱样本数据和麦克风样本数据经过AEC处理，获得t-1时刻的AEC数据，利用VAD模块对t-1时刻的AEC数据进行静音/非静音判断时，提取用于表征t-1时刻的AEC数据的深瓶颈特征，并将该深瓶颈特征作为t时刻的输入参数之一，与t时刻的音箱样本数据和麦克风样本数据一同输入神经网络。

如图2C所示，图2C为本申请根据一示例性实施例示出的另一种种类判断模型的拓扑结构示意图。在该示意图中，将t-1时刻的音箱样本数据和麦克风样本数据输入到现有的AEC中进行处理，获得t-1时刻的AEC数据，然后利用VAD模块对t-1时刻的AEC数据进行静音/非静音判断。VAD模块可以采用LSTM网络、DNN网络等实现。AEC的消噪效果越好，VAD的判断就越容易。利用VAD模块对t-1时刻的AEC数据进行静音/非静音判断时，提取用于表征t-1时刻的AEC数据的深瓶颈特征，并将该深瓶颈特征作为t时刻的输入参数之一，与t时刻的音箱样本数据(Ref′)和麦克风样本数据(Mic′)一同输入神经网络。

由上述实施例可见，本实施例获取用于表征AEC数据的深瓶颈特征，并将该深瓶颈特征作为神经网络的输入参数之一。由于深瓶颈特征是更能体现AEC数据的特征，因此，将深瓶颈特征作为输入参数比直接将AEC数据作为输入参数，更具有稳定性和鲁棒性。

在另一个可选的实现方式中，所述种类判断模型的生成步骤包括：

以音箱样本数据、麦克风样本数据作为神经网络的输入参数，并以AEC数据作为神经网络的回归学习目标，预先训练生成降噪网络，所述AEC数据是将输入神经网络的音箱样本数据和麦克风样本数据进行AEC处理后获得的数据；

将音箱样本数据和麦克风样本数据输入所述降噪网络，将所述降噪网络的输出结果作为用于分类的神经网络的输入参数，并以所述麦克风样本数据的种类作为用于分类的神经网络的分类目标，联合训练降噪网络和用于分类的神经网络，生成种类判断模型。

本实施例将模型训练分为两个操作执行，先以音箱样本数据、麦克风样本数据作为神经网络的输入参数，并以AEC数据作为神经网络的回归学习目标，预先训练生成降噪网络，用于模拟原始AEC的功能。由于是离线训练，所以输入和输出可以使用相同时刻的数据。降噪网络训练完成后，可以在降噪网络的基础上增加数层神经网络，增加的神经网络可以看作是用于分类的神经网络(又可以称为分类网络)。降噪网络是逻辑回归，加上上面的分类网络即可构成分类器。将音箱样本数据和麦克风样本数据输入降噪网络，将降噪网络的输出结果作为用于分类的神经网络的输入参数，并以麦克风样本数据的种类作为用于分类的神经网络的分类目标，联合训练降噪网络和用于分类的神经网络，生成种类判断模型。所谓联合训练，即在调整权值时，既调整用于分类的神经网络的权值，又调整降噪网络的权值。

由于神经网络的训练是非局部最优的求解过程，受初始化的影响较大，因此通过生成降噪网络，将降噪网络的输出作为用于分类的神经网络的输入，可以使后续联合训练中有更好的初始化，从而可以更容易训练、且训练获得更好的种类判断模型。

如图2D所示，图2D为本申请根据一示例性实施例示出的另一种种类判断模型的拓扑结构示意图。在该示意图中，先利用大量的音箱样本数据和麦克风样本数据训练生成降噪网络。训练降噪网络的过程中，输入和输出可以使用相同时刻的数据。例如，以t时刻的音箱样本数据、t时刻的麦克风样本数据作为神经网络的输入参数，并以t时刻的AEC数据(Speech After AEC)作为神经网络的回归学习目标进行训练。其中，t时刻的AEC数据是将t时刻的麦克风样本数据和音箱样本数据输入到现有的AEC中进行处理后获得的数据。在获得降噪网络后，将t时刻的音箱样本数据和麦克风样本数据输入该降噪网络，将降噪网络的输出结果(AEC′数据)作为用于分类的神经网络的输入参数，并以t时刻麦克风样本数据的种类作为用于分类的神经网络的分类目标，联合训练降噪网络和用于分类的神经网络，最后生成种类判断模型。

本申请列举了三种训练种类判断模型的方式，可以理解的是，还可以采用其他方式进行训练，只要以音箱样本数据、麦克风样本数据作为分类器的输入参数，并以麦克风样本数据的种类作为分类器的分类目标进行训练即可，在此不再一一赘述。

进一步的，由于神经网络模型的计算复杂度高，训练非常耗时，因此可以使用图形处理器(Graphics Processing Unit，GPU)加速模型训练。

由于准确判断麦克风数据的种类，是合理调整滤波器系数的关键，因此在训练获得种类判断模型后，可以将种类判断模型加入回声消除系统中，从而为回声消除系统提供滤波器系数是否调整的依据。

接下来，本申请介绍种类判断模型的应用阶段。作为其中一种应用，如图3所示，图3为本申请音频识别方法的一个实施例流程图，该方法包括以下步骤301至步骤302：

在步骤301中，获取音箱数据和麦克风数据。

在步骤302中，将所述音箱数据和所述麦克风数据输入预先生成的种类判断模型，根据判断结果确定所述麦克风数据的种类。

本申请方案可以应用在需要进行麦克风数据的种类判断的设备中。例如，可以应用在语音交互系统的判断模块中。语音交互系统可以包括电话系统、车载系统等需要进行语音交互的系统。语音交互系统中的判断模块是用于判断麦克风数据的种类的模块。

其中，音箱数据和麦克风数据可以是同一时间获取的两类数据。音箱数据可以是语音交互系统中音箱播放的数据，麦克风数据可以是语音交互系统中麦克风采集的数据。例如，音箱播放数据时，同时从音箱和麦克风中采集音箱数据和麦克风数据。

关于麦克风数据的种类，种类可以包括双讲型和非双讲型。双讲型数据是同时基于音箱数据和语音数据生成的数据。例如，可以是仅基于音箱数据和语音数据生成的数据，也可以是基于音箱数据、语音数据和环境噪声生成的数据。非双讲型数据是没有同时包括音箱数据和语音数据的数据。例如，可以是仅基于音箱数据生成的数据，也可以是仅基于音箱数据和环境噪声数据生成的数据，也可以是仅基于语音数据生成的数据，也可以是仅基于噪声数据生成的数据，还可以是基于语音数据和环境噪声数据生成的数据。

关于种类判断模型，种类判断模型是预先利用分类器训练生成的用于判断麦克风数据的种类的模型。以音箱样本数据、麦克风样本数据作为分类器的输入参数，并以麦克风样本数据的种类作为分类器的分类目标，训练生成种类判断模型。具体的，可以采用上文描述的方式获得种类判断模型。

由上述实施例可见，由于种类判断模型是以不同的输入参数以及分类目标训练生成的模型，因此，在获取到音箱数据和麦克风数据时，可以将音箱数据和麦克风数据输入预先生成的类型判断模块中，并根据判断结果确定麦克风数据的种类，又由于麦克风数据的种类包括双讲型和非双讲型，因此可以准确的判断出麦克风数据属于双讲型数据，还是非双讲型数据，提高种类判断的准确性。

进一步的，本申请还提供一种回声消除方法，如图4A所示，图4A为本申请回音消除方法的一个实施例流程图，该方法可以应用在语音交互系统中，包括以下步骤401至步骤404：

在步骤401中，获取音箱数据和麦克风数据。

其中，音箱数据和麦克风数据是同一时间获取的两类数据。音箱数据是语音交互系统中音响播放的数据，麦克风数据是语音交互系统中麦克风采集的数据。

在步骤402中，若所述音箱数据不为空时，将所述音箱数据和所述麦克风数据输入预先生成的种类判断模型，根据判断结果确定所述麦克风数据的种类。

在将音箱数据和麦克风数据输入种类判断模型之前，可以对音箱数据进行检测。检测音箱数据是否为空，若音箱数据为空，表示没有音箱数据输入，则不进行种类判断和回声消除处理。若音箱数据不为空，则表示存在音箱数据输入，则将音箱数据和麦克风数据输入种类判断模型，并进行相应处理。

其中，种类判断模型以音箱样本数据、麦克风样本数据作为分类器的输入参数，并以麦克风样本数据的种类作为分类器的分类目标训练生成，所述麦克风样本数据基于音箱样本数据生成。

在步骤403中，在种类为非双讲型时，调整滤波器系数。

在步骤404中，在种类为双讲型时，固定滤波器系数，并对所述麦克风数据进行回声消除。

本实施例中，可以采用自适应滤波器模拟回声路径，并将估计回声数据从麦克风拾取的麦克风数据中消除。自适应滤波器是以输入和输出信号的统计特性的估计为依据，采取特定算法自动地调整滤波器系数，使其达到最佳滤波特性的一种算法。自适应滤波器可以是连续域的或是离散域的。离散域自适应滤波器由一组抽头延迟线、可变加权系数和自动调整系数的机构组成。自适应滤波器对输入信号序列x(n)的每一个样值，按特定的算法，更新、调整加权系数，使输出信号序列y(n)与期望输出信号序列d(n)相比较的均方误差为最小，即输出信号序列y(n)逼近期望信号序列d(n)。

以最小均方误差为准则设计的自适应滤波器的系数可以由维纳-霍甫夫方程解得。另外，还有另一种算法能实时求解自适应滤波器系数，其结果接近维纳－霍甫夫方程近似解。这种算法称为最小均方算法或简称LMS法。这一算法利用最陡下降法，由均方误差的梯度估计从现时刻滤波器系数向量迭代计算下一个时刻的系数向量：

其中，k_s为一负数，他的取值决定算法的收敛性，

为均方误差梯度估计；

需要求解的回音路径函数F即是一个自适应滤波器W(n)收敛的过程。所加输入信号x(n)是音箱数据(参考信号fe)，期望信号是回音信号echo，自适应滤波器收敛后的W(n)就是回音路径函数F。

由于回音路径可能是变化的，一旦出现变化，自适应滤波器学习需重新开始，即W(n)需要一个新的收敛过程，已逼近新的回音路径函数F。

因此，本实施例通过种类判断模型判断麦克风样本数据的种类，从而决定自适应滤波器是否需要重新开始学习。具体的，当种类为非双讲型时，自适应滤波器需不断迭代收敛，实现滤波器系数的调整；当种类为双讲型时，固定滤波器系数，将音箱数据通过函数W(n)，可以获得估计的回音信号，然后将估计的回音信号从麦克风数据中消除，从而得到实际需要发送的语音信号，完成回声消除任务。

由上述实施例可见，由于种类判断模型是以不同的输入参数以及分类目标训练生成的模型，因此，在确定音箱数据不为空时，可以将音箱数据和麦克风数据输入预先生成的类型判断模块中，并根据判断结果确定麦克风数据的种类，又由于麦克风数据的种类包括双讲型和非双讲型，因此可以准确的判断出麦克风数据属于双讲型数据，还是非双讲型数据。在种类为双讲型时，固定滤波器系数，并对麦克风数据进行回声消除。在种类为非双讲型时，由于音箱数据不为空，且麦克风数据基于音箱数据生成，因此麦克风数据属于包含有音箱数据的非双讲型数据，又可以称为单讲数据，则可以调整滤波器系数，实现追踪变化的回音路径，从而使回声消除时消除的效果更好，得到更优质的语音数据。

在一个可选的实现方式中，如果训练种类判断模型时，所述神经网络的输入参数包括AEC数据，则所述种类判断模型的输入参数还包括新AEC数据，所述新AEC数据是上一次输入种类判断模型的音箱数据和麦克风数据经过AEC处理后获得的数据。

可以理解的是，该实现方式中提及的新AEC数据也是一种AEC数据，为了区分训练种类判断模型时所输入的AEC数据，将实际应用过程中输入的AEC数据命名为新AEC数据。

如图4B所示，图4B为本申请根据一示例性实施例示出的一种回声消除系统的结构示意图。在该示意图中，输入系统的数据包括麦克风数据(Mic)和音箱数据(Ref)。音箱数据是音箱播放的数据，可以称为参考信号。麦克风数据基于音箱数据生成。

参考信号检测模块先检测音箱数据是否为空，如果音箱数据为空，表示没有音箱数据，则不启用判断模块中的种类判断模型，且AEC不对麦克风数据进行处理，直接将麦克风数据交由后处理模块进行处理。后处理模块可以包括噪音消除模块等。如果音箱数据不为空，表示存在音箱数据，则启用判断模块中的种类判断模型。

其中，种类判断模型的输入数据包括麦克风数据、音箱数据和新AEC数据。新AEC数据是上一次输入种类判断模型的音箱数据和麦克风数据经过AEC模块处理后获得的数据。种类判断模型根据麦克风数据和音箱数据、以及新AEC数据判断麦克风数据的种类，若麦克风数据为双讲型数据，表示麦克风数据是同时基于音箱数据和语音数据生成的数据，则AEC模块固定滤波器系数以对麦克风数据进行回声消除处理；若麦克风数据为非双讲型数据，表示麦克风数据是包含有音箱数据的非双讲型数据(即包含有音箱数据但不包含有语音数据的数据)，则对滤波器系数进行调整。

在一个可选的实现方式中，如果训练种类判断模型时，所述神经网络的输入参数包括深瓶颈特征，则所述种类判断模型的输入数据还包括新深瓶颈特征，所述新深瓶颈特征是对新AEC数据进行静音/非静音判断时，提取的用于表征新AEC数据的特征数据；所述新AEC数据是上一次输入种类判断模型的音箱数据和麦克风数据经过AEC处理后获得的数据。

如图4C所示，图4C为本申请根据一示例性实施例示出的另一种回声消除系统的结构示意图。在该示意图中，输入系统的数据包括麦克风数据(Mic)和音箱数据(Ref)。参考信号检测模块先检测音箱数据是否为空，如果音箱数据为空，则不启用判断模块，且AEC不对麦克风数据进行处理，直接将麦克风数据交由后处理模块进行处理。后处理模块可以包括噪音消除模块等。如果音箱数据不为空，则启用判断模块中的种类判断模型。

其中，种类判断模型的输入数据包括麦克风数据、音箱数据和新深瓶颈特征。所述新深瓶颈特征是对新AEC数据进行静音/非静音判断时，提取的用于表征新AEC数据的特征数据；所述新AEC数据是上一次输入种类判断模型的音箱数据和麦克风数据经过AEC处理后获得的数据。本实施中可以采用VAD模块对AEC数据进行静音/非静音判断。种类判断模型根据麦克风数据和音箱数据、以及新深瓶颈特征(新bottleneck)判断麦克风数据的种类，若麦克风数据为双讲型数据，表示麦克风数据是同时基于音箱数据和语音数据生成的数据，则固定滤波器系数以对麦克风数据进行回声消除处理；若麦克风数据为非双讲型数据，表示麦克风数据是包含有音箱数据的非双讲型数据，则对滤波器系数进行调整。

以上实施方式中的各种技术特征可以任意进行组合，只要特征之间的组合不存在冲突或矛盾，但是限于篇幅，未进行一一描述，因此上述实施方式中的各种技术特征的任意进行组合也属于本说明书公开的范围。

与本申请音频识别、回声消除方法的实施例相对应，本申请还提供了音频识别、回声消除装置及设备、可读介质的实施例。

本申请提供一个或多个机器可读介质，其上存储有指令，当由一个或多个处理器执行时，使得终端设备执行如上所述的音频识别方法或回声消除方法。

本申请回声消除装置可以应用在电子设备上。装置实施例可以通过软件实现，也可以通过硬件或者软硬件结合的方式实现。以软件实现为例，作为一个逻辑意义上的装置，是通过其所在电子设备的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。从硬件层面而言，如图5所示，为本申请回声消除装置531所在电子设备的一种硬件结构图，除了图5所示的处理器510、内存530、网络接口540、以及非易失性存储器520之外，实施例中装置所在的电子设备通常根据该设备的实际功能，还可以包括其他硬件，对此不再赘述。

参见图6，为本申请回声消除装置的一个实施例框图：

该装置包括：数据获取模块610、种类判断模块620和回声消除模块630。

其中，数据获取模块610，用于获取音箱数据和麦克风数据。

种类判断模块620，用于在所述音箱数据不为空时，将所述音箱数据和所述麦克风数据输入预先生成的种类判断模型，根据判断结果确定所述麦克风数据的种类。

回声消除模块630，用于在种类为非双讲型时，调整滤波器系数；在种类为双讲型时，固定滤波器系数，并对所述麦克风数据进行回声消除。

在一个可选的实现方式中，所述分类器为神经网络。

在一个可选的实现方式中，所述神经网络的输入参数还包括AEC数据，所述AEC数据是上一次输入神经网络的音箱样本数据和麦克风样本数据经过AEC处理后获得的数据；

所述种类判断模型的输入参数还包括新AEC数据，所述新AEC数据是上一次输入种类判断模型的音箱数据和麦克风数据经过AEC处理后获得的数据。

可见，种类判断模块的输入参数包括有音箱数据、麦克风数据和AEC数据。

在一个可选的实现方式中，所述神经网络的隐藏层采用LSTM网络，隐藏层的层数范围为1到4层。

在一个可选的实现方式中，所述神经网络的输入参数还包括深瓶颈特征，所述深瓶颈特征是对AEC数据进行静音/非静音判断时，提取的用于表征AEC数据的特征数据；所述AEC数据是上一次输入神经网络的音箱样本数据和麦克风样本数据经过AEC处理后获得的数据；

所述种类判断模型的输入数据还包括新深瓶颈特征，所述新深瓶颈特征是对新AEC数据进行静音/非静音判断时，提取的用于表征新AEC数据的特征数据；所述新AEC数据是上一次输入种类判断模型的音箱数据和麦克风数据经过AEC处理后获得的数据。

在一个可选的实现方式中，所述种类判断模块620用于(图6未示出)：

在一个可选的实现方式中，所述麦克风样本数据基于麦克风采集的回音样本数据、语音样本数据、环境噪声样本数据中至少一种数据生成，所述语音样本数据与所述回音样本数据由麦克风在同一个场景下录制生成；

双讲型的麦克风样本数据由回音样本数据、语音样本数据和环境噪声样本数据以不同的信噪比进行线性叠加生成。

在一个可选的实现方式中，所述回音样本数据由麦克风直接录制音箱播放音箱样本数据获得；

或，所述回音样本数据由冲激响应与音箱样本数据卷积处理生成，所述冲激响应是反演麦克风设备在目标场景下的冲激响应，所述冲激响应包括环境冲激响应和麦克风信道冲激响应。

在一个可选的实现方式中，所述语音样本数据由冲激响应与近讲语音数据卷积处理生成，所述冲激响应是反演麦克风设备在目标场景下的冲激响应，所述冲激响应包括环境冲激响应和麦克风信道冲激响应，所述近讲语音数据是近距离采集用户说话声的语音数据。

参见图7，为本申请回声消除装置的另一个实施例框图，该实施例在前述图6所示实施例的基础上，还包括数据检测模块640，该数据检测模块640用于：对所述音箱数据进行检测。其中，数据检测模块640判断出音箱数据为空时，不启用种类判断模块720和回声消除模块730。数据检测模块640判断出音箱数据不为空时，启用种类判断模块720和回声消除模块730。

参见图8，为本申请音频识别装置的一个实施例框图：

该装置包括：数据获取模块810和种类判断模块820。

其中，数据获取模块810，用于获取音箱数据和麦克风数据；

种类判断模块820，用于将所述音箱数据和所述麦克风数据输入预先生成的种类判断模型，根据判断结果确定所述麦克风数据的种类。

其中，所述种类包括双讲型和非双讲型；所述种类判断模型以音箱样本数据、麦克风样本数据作为分类器的输入参数，并以麦克风样本数据的种类作为分类器的分类目标训练生成，所述麦克风样本数据基于音箱样本数据生成。

基于此，本申请还提供一种电子设备，包括：

处理器；用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为：

获取音箱数据和麦克风数据；

基于此，本申请还提供一种电子设备，包括：

处理器；用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为：

获取音箱数据和麦克风数据；

上述装置中各个模块的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程，在此不再赘述。

对于装置实施例而言，由于其基本对应于方法实施例，所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理模块，即可以位于一个地方，或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本申请方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

本领域技术人员在考虑说明书及实践这里申请的发明后，将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未申请的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本申请的真正范围和精神由下面的权利要求指出。

应当理解的是，本申请并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求来限制。

Claims

1.一种回声消除方法，其特征在于，所述方法包括：

获取音箱数据和麦克风数据；

其中，所述种类判断模型的生成步骤包括：

2.根据权利要求1所述的方法，其特征在于，所述神经网络的输入参数还包括AEC数据，所述AEC数据是上一次输入神经网络的音箱样本数据和麦克风样本数据经过AEC处理后获得的数据；

3.根据权利要求1所述的方法，其特征在于，所述神经网络的输入参数还包括深瓶颈特征，所述深瓶颈特征是对AEC数据进行静音/非静音判断时，提取的用于表征AEC数据的特征数据；所述AEC数据是上一次输入神经网络的音箱样本数据和麦克风样本数据经过AEC处理后获得的数据；

4.根据权利要求1所述的方法，其特征在于，

所述麦克风样本数据基于麦克风采集的回音样本数据、语音样本数据、环境噪声样本数据中至少一种数据生成，所述语音样本数据与所述回音样本数据由麦克风在同一个场景下录制生成；

5.根据权利要求4所述的方法，其特征在于，

所述回音样本数据由麦克风直接录制音箱播放音箱样本数据获得；

6.根据权利要求4所述的方法，其特征在于，

所述语音样本数据由冲激响应与近讲语音数据卷积处理生成，所述冲激响应是反演麦克风设备在目标场景下的冲激响应，所述冲激响应包括环境冲激响应和麦克风信道冲激响应，所述近讲语音数据是近距离采集用户说话声的语音数据。

7.一种音频识别方法，其特征在于，所述方法包括：

获取音箱数据和麦克风数据；

将所述音箱数据和所述麦克风数据输入预先生成的种类判断模型，根据判断结果确定所述麦克风数据的种类，所述种类包括双讲型和非双讲型；所述种类判断模型以音箱样本数据、麦克风样本数据作为分类器的输入参数，并以麦克风样本数据的种类作为分类器的分类目标训练生成，所述麦克风样本数据基于音箱样本数据生成；

其中，所述种类判断模型的生成步骤包括：

8.一种回声消除装置，其特征在于，所述装置包括：

数据获取模块，用于获取音箱数据和麦克风数据；

其中，所述种类判断模型的生成方式包括：以音箱样本数据、麦克风样本数据作为神经网络的输入参数，并以AEC数据作为神经网络的回归学习目标，预先训练生成降噪网络，所述AEC数据是将输入神经网络的音箱样本数据和麦克风样本数据进行AEC处理后获得的数据；

9.根据权利要求8所述的装置，其特征在于，所述神经网络的输入参数还包括AEC数据，所述AEC数据是上一次输入神经网络的音箱样本数据和麦克风样本数据经过AEC处理后获得的数据；

10.根据权利要求8所述的装置，其特征在于，所述神经网络的输入参数还包括深瓶颈特征，所述深瓶颈特征是对AEC数据进行静音/非静音判断时，提取的用于表征AEC数据的特征数据；所述AEC数据是上一次输入神经网络的音箱样本数据和麦克风样本数据经过AEC处理后获得的数据；

11.根据权利要求8所述的装置，其特征在于，

12.根据权利要求11所述的装置，其特征在于，

13.根据权利要求11所述的装置，其特征在于，

14.一种音频识别装置，其特征在于，所述装置包括：

数据获取模块，用于获取音箱数据和麦克风数据；

种类判断模块，用于将所述音箱数据和所述麦克风数据输入预先生成的种类判断模型，根据判断结果确定所述麦克风数据的种类，所述种类包括双讲型和非双讲型；

15.一种电子设备，其特征在于，包括：

处理器；用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为：

获取音箱数据和麦克风数据；

16.一种电子设备，其特征在于，包括：

处理器；用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为：

获取音箱数据和麦克风数据；

将所述音箱数据和所述麦克风数据输入预先生成的种类判断模型，根据判断结果确定所述麦克风数据的种类，所述种类包括双讲型和非双讲型；