CN106920545A

CN106920545A - 基于人工智能的语音特征提取方法和装置

Info

Publication number: CN106920545A
Application number: CN201710168998.XA
Authority: CN
Inventors: 李超; 李先刚
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2017-03-21
Filing date: 2017-03-21
Publication date: 2017-07-04
Anticipated expiration: 2037-03-21
Also published as: US10380995B2; CN106920545B; US20180277096A1

Abstract

本发明提出一种基于人工智能的语音特征提取方法和装置，其中，方法包括：通过对待识别语音进行频谱分析，得到待识别语音的语谱图之后，利用输出门卷积神经网络对语谱图进行特征提取，得到语音特征。由于语谱图能够对待识别语音以图像的方式进行描述，而输出门卷积神经网络又是一种对图像进行处理的有效方式，因此，采用这种方式所提取出的语音特征能够对语音的特性进行准确描述。当根据所提取出的语音特征在进行语音识别时，能够解决现有技术中由于缺乏对语音特征进行有效提取所导致的语音识别准确度不高的技术问题。

Description

基于人工智能的语音特征提取方法和装置

技术领域

本发明涉及语音识别技术领域，尤其涉及一种基于人工智能的语音特征提取方法和装置。

背景技术

人工智能(Artificial Intelligence)，英文缩写为AI。它是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。人工智能是计算机科学的一个分支，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器，该领域的研究包括机器人、语音识别、图像识别、自然语言处理和专家系统等。其中，人工智能最重要的方面就是语音识别技术。

在现有的语音识别技术中，可以将一段语音输入语音识别网络，从而实现对语音的识别，或者语音的分类。但是，由于在现有技术中，语音识别网络中往往没有专门的语音特征提取的层(layers)，而是采用全连接层(full contect layer)起到类似提取语音特征的作用。由于语音特征是描述语音特性的重要方式，因此，在现有技术中缺乏对语音特征进行有效提取的现状下，现有技术中的语音识别准确度不高。

发明内容

本发明旨在至少在一定程度上解决相关技术中的技术问题之一。

为此，本发明的第一个目的在于提出一种基于人工智能的语音特征提取方法，以实现对语音特征的提取，解决现有技术中由于缺乏对语音特征进行有效提取所导致的语音识别准确度不高的技术问题。

本发明的第二个目的在于提出一种基于人工智能的语音特征提取装置。

本发明的第三个目的在于提出又一种基于人工智能的语音特征提取装置。

本发明的第四个目的在于提出一种非临时性计算机可读存储介质。

本发明的第五个目的在于提出一种计算机程序产品。

为达上述目的，本发明第一方面实施例提出了一种基于人工智能的语音特征提取方法，所述语音特征用于进行语音识别，所述方法包括以下步骤：

对待识别语音进行频谱分析，得到所述待识别语音的语谱图；

利用输出门卷积神经网络对所述语谱图进行特征提取，得到语音特征。

其中，所述输出门卷积神经网络包括多个卷积层，每一个卷积层后连接一个对应的池化层；每一个卷积层包括至少两层，前层的输出作为后层的输入，每一层包括第一通道和第二通道，所述第一通道和所述第二通道分别采用不同的非线性激活函数。

本发明实施例提出的基于人工智能的语音特征提取方法，通过对待识别语音进行频谱分析，得到待识别语音的语谱图之后，利用输出门卷积神经网络对语谱图进行特征提取，得到语音特征。由于语谱图能够对待识别语音以图像的方式进行描述，而输出门卷积神经网络又是一种对图像进行处理的有效方式，因此，采用这种方式所提取出的语音特征能够对语音的特性进行准确描述。当根据所提取出的语音特征在进行语音识别时，能够解决现有技术中由于缺乏对语音特征进行有效提取所导致的语音识别准确度不高的技术问题。

为达上述目的，本发明第二方面实施例提出了一种基于人工智能的语音特征提取的装置，所述语音特征用于进行语音的识别，所述装置包括：

分析模块，用于对待识别语音进行频谱分析，得到所述待识别语音的语谱图；

特征提取模块，用于利用输出门卷积神经网络对所述语谱图进行特征提取，得到语音特征。

本发明实施例提出的基于人工智能的语音特征提取装置，分析模块用于对待识别语音进行频谱分析，得到所述待识别语音的语谱图，特征提取模块，用于利用输出门卷积神经网络对所述语谱图进行特征提取，得到语音特征。由于语谱图能够对待识别语音以图像的方式进行描述，而输出门卷积神经网络又是一种对图像进行处理的有效方式，因此，采用这种方式所提取出的语音特征能够对语音的特性进行准确描述。当根据所提取出的语音特征在进行语音识别时，能够解决现有技术中由于缺乏对语音特征进行有效提取所导致的语音识别准确度不高的技术问题。

为达上述目的，本发明第三方面实施例提出了一种基于人工智能的语音特征提取方法的装置，包括存储器，处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时，实现第一方面所述的方法。

为达上述目的，本发明第四方面实施例提出了一种非临时性可读计算机存储介质，其上存储有计算机程序，该程序被处理器执行时，实现第一方面所述的方法。

为达上述目的，本发明第五方面实施例提出了一种计算机程序产品，当所述程序产品中的指令被处理器执行时，执行第一方面所述的方法。

本发明附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为本发明实施例提供的一种基于人工智能的语音提取方法的流程示意图；

图2为语谱图的示意图；

图3为本发明实施例提供的另一种基于人工智能的语音提取方法的结构示意；

图4为输出门卷积神经网络的配置示意图；

图5为输出门卷积神经网络的卷积层conv64block的结构示意图；

图6为输出门卷积神经网络的卷积层conv128block的结构示意图；

图7为输出门卷积神经网络的卷积层conv256block的结构示意图；

图8为输出门卷积神经网络的卷积层conv512block的结构示意图；

图9为输出门卷积神经网络的结构示意图；

图10为本发明实施例提供的一种基于人工智能的语音提取方法的装置的结构示意图；以及

图11为本发明实施例提供的另一种基于人工智能的语音提取方法的装置的结构示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。

下面参考附图描述本发明实施例的基于人工智能的语音特征提取方法和装置。

图1为本发明实施例提供的一种基于人工智能的语音特征提取方法的流程示意图。

如图1所示，该基于人工智能的语音特征提取方法包括以下步骤：

步骤101，对待识别语音进行频谱分析，得到待识别语音的语谱图。

具体地，针对待识别语音中的各音频帧进行傅里叶变换，得到各音频帧的频谱值；进而，根据各音频帧的频谱值，生成语谱图；其中，语谱图的横坐标是音频帧对应的时间，语谱图的纵坐标是音频帧所含的频率分量，语谱图的坐标点值是音频帧对应的频谱值，即能量。

进一步，对待识别语音进行傅里叶变换之前，首先需要根据预设的采样周期，对待识别语音进行采样，得到各音频帧，然后利用包含预设个数滤波器的滤波器组，针对每一音频帧进行滤波，得到音频帧所含的各频谱分量。

例如，可以利用40维的滤波器组，每10ms对要提供的音频帧进行滤波，从而得到一个40维的向量，向量中每一个元素对应一个频谱分量，从而在根据频谱分量进行傅里叶变换后，对于一段连续的语音，可以绘制前述的语谱图，图2为语谱图的示意图，如图2所示的语谱图，语谱图的横坐标是音频帧对应的时间，语谱图的纵坐标是音频帧所含的频率分量，语谱图的坐标点值是音频帧对应的频谱值。

步骤102，利用输出门卷积神经网络对语谱图进行特征提取，得到语音特征。

具体地，通过前述语谱图绘制的过程，将一段待识别的语音描述为一幅图像，本步骤中，通过输出门卷积神经网络对语谱图进行特征提取，将所提取出的特征作为语音特征。

为清楚说明本实施例，本实施例中将对所采用的输出门卷积神经网络进行简要的介绍。

输出门卷积神经网络包括多个卷积层，每一个卷积层后连接一个对应的池化层，这里池化层的作用在于，在时域和/或频域进行降采样。输出门卷积神经网络中各卷积层均由有向无环图(Database Availability Group，DAG)组成，每一个卷积层至少包括两层，前层的输出作为后层的输入，每一层包括第一通道和第二通道，第一通道和第二通道分别采用不同的非线性激活函数，第一通道的非线性激活函数为双曲函数tanh，第二通道的非线性激活函数为S型函数sigmoid，所有的卷积层都设有非线性激活函数，卷积层的卷积核具有相同大小，同时，后一层卷积层中滤波器的个数为前一层卷积层中滤波器的整数倍。

需要注意的是，各池化层在时域上的总降采样率应当小于在频域上的总降采样率，也就是说，各池化层在时域上的总采样率应当大于在频域上的总采样率。

这是由于在绘制语谱图的过程中，已经对语音在时域上进行了降采样，即前述的以预设采样周期采样得到各音频帧的过程，因此，在输出门卷积神经网络进行降采样时，采样周期将进一步加大。为了使得在绘制语谱图和输出门卷积神经网络提取特征的这两个过程中，时域与频域的采样率是适应的，各池化层在时域上的总降采样率应当小于在频域上的总降采样率。

为了获得更好的语音识别效果，时域上的总降采样率应当是根据对该待识别语音进行语音分类时的粒度确定的。若时域最终的总降采样率和进行语音分类时的粒度不匹配，则会出现语音识别效果较差的情况。具体来说，语音识别中通常采用10ms为帧移，也就是采样周期是10ms，因此，经过池化层在时域的降采样之后，采样周期会变大。语音分类时的粒度为音素时，各池化层总计1/4的时域降采样率是合适的，语音分类时的粒度为字时，各池化层总计1/8的时域降采样率是合适的。

本实施例中，通过对待识别语音进行频谱分析，得到待识别语音的语谱图之后，利用输出门卷积神经网络对语谱图进行特征提取，得到语音特征。由于语谱图能够对待识别语音以图像的方式进行描述，而输出门卷积神经网络又是一种对图像进行处理的有效方式，因此，采用这种方式所提取出的语音特征能够对语音的特性进行准确描述。当根据所提取出的语音特征在进行语音识别时，能够解决现有技术中由于缺乏对语音特征进行有效提取所导致的语音识别准确度不高的技术问题。

为清楚说明上一实施例，本发明提出了另一种基于人工智能的语音特征提取方法，图3为本发明实施例提出的另一种基于人工智能的语音特征提取方法的结构示意图，如图3所示，该基于人工智能的语音特征提取方法包括以下步骤：

步骤201，建立输出门卷积神经网络。

具体地，输出门卷积神经网络包括多个卷积层和池化层，每一个卷积层后连接一个对应的池化层。为了清楚的说明输出门卷积神经网络的结构，本实施例提供了一种可能的实现方式，图4为输出门神经网络的配置图示意图，如图4所示，配置如下：

卷积层“conv64block”，

池化层“pool2d_2X2”，

卷积层“conv128block”，

池化层“pool2d_2X2”，

卷积层“conv256block”，

池化层“pool2d_2X1”，

卷积层“conv512block”，

池化层“pool2d_2X1”

输出门卷积神经网络包括4个卷积层，每一个卷积层后紧邻一个池化层。输出门卷积神经网络的卷积层的结构即为输出门的算法特征，为进一步清楚的说明输出门的算法特征，对该卷积层的结构做进一步解释，作为一种可能的实现方式，图5至图8为输出门卷积神经网络的卷积层的结构示意图。

在图5至图8中，“copy”是把输入复制为若干份，“copy”后面的1、2、3和4代表该卷积层的输入，“multi”是将输入乘在一起，“conv2d”表示卷积层，“conv2d”后面的64、128、256和512表示滤波器的个数，3X3表示滤波器卷积核的大小，“-”后面的数字1、2、3或4，代表序号，用以对相同的部分加以区分，例如，tanh-1和tanh-2代表相同的激活函数，只是用不同的编号加以区分。

具体地，在输出门卷积神经网络中，首先是卷积层conv64block，本层由卷积有向无环图(Database Availability Group，DAG)组成,图5为输出门卷积神经网络的卷积层conv64block的结构示意图。

如图5所示，卷积层conv64block，包括两层，C01层和C02层，CO1层的输出做为后层CO2层的输入，每一层包括第一通道和第二通道，每一通道中都设有非线性激活函数。

具体地，CO1层中，第一通道和第二通道分别包括64个滤波器，每一个滤波器的卷积核大小均是3X3，第一通道的非线性激活函数为双曲函数tanh，第二通道的非线性激活函数为S型函数sigmoid，将第一通道和第二通道的输出相乘在一起，作为第一层C01层的输出，该输出即为第二层CO2层的输入。C02层的结构和C01层的结构相同，此处不做赘述，从而由C01层和C02层构成了图4中的卷积层conv64block。

进而是池化层pool2d_2X2，通过池化层进行降采样，具体地，本层在时域和频域均以采样率1/2进行降采样。

接下来是卷积层conv128block，本层由一个卷积有向无环图(DAG)组成,图6为输出门卷积神经网络的卷积层conv128block的结构示意图。

如图6所示，卷积层conv128block，包括两层，C03层和C04层，CO3层的输出做为后层CO4层的输入，每一层包括第一通道和第二通道，每一通道中都设有非线性激活函数。

具体地，CO3层中，第一通道和第二通道分别包括128个滤波器，每一个滤波器的卷积核大小均是3X3，第一通道的非线性激活函数为双曲函数tanh，第二通道的非线性激活函数为S型函数sigmoid，将第一通道和第二通道的输出相乘在一起，作为第一层C03层的输出，该输出即为第二层CO4层的输入。C04层的结构和C03层的结构相同，此处不做赘述，从而由C03层和C04层构成了图4中的卷积层conv128block。

接下来是卷积层conv256block，本层由一个卷积有向无环图(DAG)组成,图7为输出门卷积神经网络的卷积层conv256block的结构示意图。

如图7所示，卷积层conv256block，包括两层，C05层和C06层，CO5层的输出做为后层CO6层的输入，每一层包括第一通道和第二通道，每一通道中都设有非线性激活函数。

具体地，CO5层中，第一通道和第二通道分别包括256个滤波器，每一个滤波器的卷积核大小均是3X3，第一通道的非线性激活函数为双曲函数tanh，第二通道的非线性激活函数为S型函数sigmoid，将第一通道和第二通道的输出相乘在一起，作为C05层的输出，该输出即为CO6层的输入。C06层的结构和C05层的结构相同，此处不做赘述，从而由C05层和C06层构成了图4中的卷积层conv256block。

进而是池化层pool2d_2X2，通过池化层进行降采样，具体地，本层仅在频域以采样率1/2进行降采样。

接下来是卷积层conv512block，本层由一个卷积有向无环图(DAG)组成,图8为输出门卷积神经网络的卷积层conv512block的结构示意图。

如图8所示，卷积层conv512block，包括两层，C07层和C08层，CO7层的输出做为后层CO8层的输入，每一层包括第一通道和第二通道，每一通道中都设有非线性激活函数。

具体地，CO7层中，第一通道和第二通道分别包括512个滤波器，每一个滤波器的卷积核大小均是3X3，第一通道的非线性激活函数为双曲函数tanh，第二通道的非线性激活函数为S型函数sigmoid，将第一通道和第二通道的输出相乘在一起，作为C07层的输出，该输出即为CO8层的输入。C08层的结构和C07层的结构相同，此处不做赘述，从而由C07层和C08层构成了图4中的卷积层conv512block。

为了更清楚的说明输出门卷积神经网络的结构，本实施例提供了一种可能的实现方式，图9为输出门卷积神经网络的结构示意图。

如图9所示的输出门卷积神经网络中，使用了4次池化层用来降采样，但是在时域上降采样的次数通常比频域上少，具体在图9中，在时域上降采样2次，总采样率为1/4；而在频域上降采样了4次，总采样率为1/16。可见，时域的总采样率大于频域的总采样率，也就是说，时域的总降采样率低于频域的总降采样率。另外，如图9所示的输出门卷积神经网络中，使用了4次卷积层，每个卷积层包含两层，前层的输出作为后层的输入，每一层含有两个通道，每个通道设有不同的非线性激活函数。

步骤202，对经过设置的输出门卷积神经网络进行训练。

步骤203，将待识别语音的语谱图输入该输出门卷积神经网络进行测试，得到语音特征。

具体地，首先需要绘制待识别语音的语谱图。以预设采样周期，对待识别语音进行采样，得到各音频帧，然后利用包含预设个数滤波器的滤波器组，针对每一音频帧进行滤波，得到所述音频帧所含的各频谱分量。针对各音频帧，根据所含的各频谱分量进行傅里叶变换，得到所述音频帧的频谱值；进而，根据各音频帧的频谱值，生成语谱图；其中，语谱图的横坐标为所述音频帧所对应的时间，所述语谱图的纵坐标为所述音频帧所含的频率分量，所述语谱图的坐标点值为所述频谱值，也就是能量。进而，将语谱图输入该输出门卷积神经网络，从而得到语音特征。

步骤204，将语音特征输入声学模型进行语音分类处理。

具体地，这里的声学模型可以是以音素为建模单元的声学模型，也可以是以字为建模单元的声学模型，本实施例中对此不作限定，但是需要注意的是，输出门卷积神经网络在时域上的总采样率是根据该声学模型进行语音分类时的粒度确定的，这里的粒度包括：字和音素。

例如：当该声学模型进行语音分类时的粒度为音素时，输出门卷积神经网络在时域上的总采样率为1/4；当该声学模型进行语音分类时的粒度为字时，输出门卷积神经网络在时域上的总采样率为1/8。

为了实现上述实施例，本发明还提出一种基于人工智能的语音特征提取装置。

图10为本发明实施例提供的一种基于人工智能的语音特征提取装置的结构示意图。

如图10所示，该基于人工智能的语音特征提取装置包括：分析模块10和特征提取模块20。

分析模块10，用于对待识别语音进行频谱分析，得到所述待识别语音的语谱图。

特征提取模块20，用于利用输出门卷积神经网络对所述语谱图进行特征提取，得到语音特征。

进一步地，在本发明实施例的一种可能的实现方式中，输出门卷积神经网络包括多个卷积层，每一个卷积层后连接一个对应的池化层。卷积层包括至少两层，前层的输出作为后层的输入，每一层包括第一通道和第二通道，第一通道和第二通道分别采用不同的非线性激活函数，其中，第一通道的非线性激活函数为双曲函数tanh，第二通道的非线性激活函数为S型函数sigmoid。池化层用于在时域和/或频域进行降采样，各池化层在时域上的总降采样率小于在频域上的总降采样率。并且，在时域上的总降采样率是根据对所述待识别语音进行语音分类时的粒度确定的。

进一步，输出门卷积神经网络中，后一层卷积层中过滤器的个数为前一层卷积层中过滤器的整数倍，且输出门卷积神经网络中各卷积层的卷积核具有相同大小。

可见，通过对待识别语音进行频谱分析，得到待识别语音的语谱图之后，利用输出门卷积神经网络对语谱图进行特征提取，得到语音特征。由于语谱图能够对待识别语音以图像的方式进行描述，而输出门卷积神经网络又是一种对图像进行处理的有效方式，因此，采用这种方式所提取出的语音特征能够对语音的特性进行准确描述。当根据所提取出的语音特征在进行语音识别时，能够解决现有技术中由于缺乏对语音特征进行有效提取所导致的语音识别准确度不高的技术问题。

需要说明的是，前述对方法实施例的解释说明也适用于该实施例的装置，此处不再赘述。

基于上述实施例，本发明实施例还提供了一种基于人工智能的语音特征提取装置的可能的实现方式，图11为本发明实施例提供的另一种基于人工智能的语音特征提取装置的结构示意图，如图11所示，在上一实施例的基础上，分析模块10，包括：采样单元11、变换单元12和生成单元13。

采样单元11，用于以预设采样周期，对所述待识别语音进行采样，得到各音频帧，针对每一音频帧进行滤波，得到所述音频帧所含的各频谱分量。

变换单元12，用于针对所述待识别语音中的各音频帧进行傅里叶变换，得到所述音频帧的频谱值。

生成单元13，用于根据各音频帧的频谱值，生成所述语谱图。

其中，所述语谱图的横坐标为所述音频帧所对应的时间，所述语谱图的纵坐标为所述音频帧所含的频率分量，所述语谱图的坐标点值为所述频谱值。

进一步，基于人工智能的语音特征提取装置还包括：训练测试模块30和分类模块40。

训练测试模块30，用于对输出门卷积神经网络进行训练和测试。

分类模块40，用于将提取到的语音特征输入声学模型进行语音分类处理。

本发明实施例中，通过对待识别语音进行频谱分析，得到待识别语音的语谱图之后，利用输出门卷积神经网络对语谱图进行特征提取，得到语音特征。由于语谱图能够对待识别语音以图像的方式进行描述，而输出门卷积神经网络又是一种对图像进行处理的有效方式，因此，采用这种方式所提取出的语音特征能够对语音的特性进行准确描述。当根据所提取出的语音特征在进行语音识别时，能够解决现有技术中由于缺乏对语音特征进行有效提取所导致的语音识别准确度不高的技术问题。

为了实现上述实施例，本发明还提出另一种基于人工智能的语音特征提取装置，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时，实现前述实施例中的基于人工智能的语音特征提取方法。

为了实现上述实施例，本发明还提出一种非临时性计算机可读存储介质，当所述存储介质中的指令由处理器执行时，能够执行前述实施例中的基于人工智能的语音特征提取方法。

为了实现上述实施例，本发明还提出一种计算机程序产品，当所述计算机程序产品中的指令由处理器执行时，执行前述实施例中的基于人工智能的语音特征提取方法。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本发明的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本发明的实施例所属技术领域的技术人员所理解。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式光盘只读存储器(CDROM)。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。如，如果用硬件来实现和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本发明各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器，磁盘或光盘等。尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种基于人工智能的语音特征提取方法，其特征在于，所述语音特征用于进行语音识别，所述方法包括以下步骤：

利用输出门卷积神经网络对所述语谱图进行特征提取，得到语音特征；

2.根据权利要求1所述的基于人工智能的语音特征提取方法，其特征在于，所述第一通道的非线性激活函数为双曲函数tanh，所述第二通道的非线性激活函数为S型函数sigmoid。

3.根据权利要求1所述的基于人工智能的语音特征提取方法，其特征在于，所述对待识别语音进行频谱分析，得到所述待识别语音的语谱图，包括：

针对所述待识别语音中的各音频帧进行傅里叶变换，得到所述音频帧的频谱值；

根据各音频帧的频谱值，生成所述语谱图；其中，所述语谱图的横坐标为所述音频帧所对应的时间，所述语谱图的纵坐标为所述音频帧所含的频率分量，所述语谱图的坐标点值为所述频谱值。

4.根据权利要求3所述的基于人工智能的语音特征提取方法，其特征在于，所述针对所述待识别语音中的各音频帧进行傅里叶变换，得到所述音频帧的频谱值之前，还包括：

以预设采样周期，对所述待识别语音进行采样，得到各音频帧；

针对每一音频帧进行滤波，得到所述音频帧所含的各频谱分量。

5.根据权利要求1所述的基于人工智能的语音特征提取方法，其特征在于，所述池化层用于在时域和/或频域进行降采样；

各池化层在时域上的总降采样率小于在频域上的总降采样率。

6.根据权利要求5所述的基于人工智能的语音特征提取方法，其特征在于，在时域上的总降采样率是根据对所述待识别语音进行语音分类时的粒度确定的。

7.根据权利要求1所述的基于人工智能的语音特征提取方法，其特征在于，所述输出门卷积神经网络中，后一卷积层中过滤器的个数为前一卷积层中过滤器的整数倍；所述输出门卷积神经网络中各卷积层的卷积核具有相同大小。

8.根据权利要求1-7任一项所述的基于人工智能的语音特征提取方法，其特征在于，所述利用输出门卷积神经网络对所述语谱图进行特征提取之前，还包括：

对所述输出门卷积神经网络进行训练和测试。

9.根据权利要求1-7任一项所述的基于人工智能的语音特征提取方法，其特征在于，所述利用输出门卷积神经网络对所述语谱图进行特征提取之后，还包括：

将提取到的语音特征输入声学模型进行语音分类处理。

10.一种基于人工智能的语音特征提取装置，其特征在于，所述语音特征用于进行语音识别，所述装置包括：

特征提取模块，用于利用输出门卷积神经网络对所述语谱图进行特征提取，得到语音特征；

11.根据权利要求10所述的基于人工智能的语音特征提取装置，其特征在于，所述第一通道的非线性激活函数为双曲函数tanh，所述第二通道的非线性激活函数为S型函数sigmoid。

12.根据权利要求10所述的基于人工智能的语音特征提取装置，其特征在于，所述分析模块，包括：

变换单元，用于针对所述待识别语音中的各音频帧进行傅里叶变换，得到所述音频帧的频谱值；

生成单元，用于根据各音频帧的频谱值，生成所述语谱图；其中，所述语谱图的横坐标为所述音频帧所对应的时间，所述语谱图的纵坐标为所述音频帧所含的频率分量，所述语谱图的坐标点值为所述频谱值。

13.根据权利要求12所述的基于人工智能的语音特征提取装置，其特征在于，所述分析模块，还包括：

采样单元，用于以预设采样周期，对所述待识别语音进行采样，得到各音频帧；针对每一音频帧进行滤波，得到所述音频帧所含的各频谱分量。

14.根据权利要求10所述的基于人工智能的语音特征提取装置，其特征在于，所述池化层用于在时域和/或频域进行降采样；

15.根据权利要求14所述的基于人工智能的语音特征提取装置，其特征在于，在时域上的总降采样率是根据对所述待识别语音进行语音分类时的粒度确定的。

16.根据权利要求10所述的基于人工智能的语音特征提取装置，其特征在于，所述输出门卷积神经网络中，后一卷积层中过滤器的个数为前一卷积层中过滤器的整数倍；所述输出门卷积神经网络中各卷积层的卷积核具有相同大小。

17.根据权利要求10-16任一项所述的基于人工智能的语音特征提取装置，其特征在于，所述装置，还包括：

训练测试模块，用于对所述输出门卷积神经网络进行训练和测试。

18.根据权利要求10-16任一项所述的基于人工智能的语音特征提取装置，其特征在于，所述装置，还包括：

分类模块，用于将提取到的语音特征输入声学模型进行语音分类处理。

19.一种基于人工智能的语音特征提取装置，其特征在于，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时，实现如权利要求1-9中任一所述的基于人工智能的语音特征提取方法。

20.一种非临时性计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-9中任一所述的基于人工智能的语音特征提取方法。