CN106782501A

CN106782501A - 基于人工智能的语音特征提取方法和装置

Info

Publication number: CN106782501A
Application number: CN201611238959.4A
Authority: CN
Inventors: 李超; 李先刚
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2016-12-28
Filing date: 2016-12-28
Publication date: 2017-05-31
Anticipated expiration: 2036-12-28
Also published as: CN106782501B

Abstract

本发明提出一种基于人工智能的语音特征提取方法和装置，其中，方法包括：通过对待识别语音进行频谱分析，得到待识别语音的语谱图之后，利用VGG卷积神经网络对语谱图进行特征提取，得到语音特征。由于语谱图能够对待识别语音以图像的方式进行描述，而VGG卷积神经网络又是一种对图像进行处理的有效方式，因此，采用这种方式所提取出的语音特征能够对语音的特性进行准确描述。当根据所提取出的语音特征在进行语音识别时，能够解决现有技术中由于缺乏对语音特征进行有效提取所导致的语音识别准确度不高的技术问题。

Description

基于人工智能的语音特征提取方法和装置

技术领域

本发明涉及语音识别技术领域，尤其涉及一种基于人工智能的语音特征提取方法和装置。

背景技术

人工智能(Artificial Intelligence)，英文缩写为AI。它是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。人工智能是计算机科学的一个分支，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器，该领域的研究包括机器人、语音识别、图像识别、自然语言处理和专家系统等。其中，人工智能最重要的方面就是语音识别技术。

在现有的语音识别技术中，可以将一段语音输入语音识别网络，从而实现对语音的识别，或者语音的分类。但是，由于在现有技术中，语音识别网络中往往没有专门的语音特征提取的层(layers)，而是采用全连接层(full contect layer)起到类似提取语音特征的作用。由于语音特征是描述语音特性的重要方式，因此，在现有技术中缺乏对语音特征进行有效提取的现状下，现有技术中的语音识别准确度不高。

发明内容

本发明旨在至少在一定程度上解决相关技术中的技术问题之一。

为此，本发明的第一个目的在于提出一种基于人工智能的语音特征提取方法，以实现对语音特征的提取，解决现有技术中由于缺乏对语音特征进行有效提取所导致的语音识别准确度不高的技术问题。

本发明的第二个目的在于提出一种基于人工智能的语音特征提取装置。

本发明的第三个目的在于提出又一种基于人工智能的语音特征提取装置。

本发明的第四个目的在于提出一种非临时性计算机可读存储介质。

本发明的第五个目的在于提出一种计算机程序产品。

为达上述目的，本发明第一方面实施例提出了一种基于人工智能的语音特征提取方法，所述语音特征用于进行语音识别，所述方法包括以下步骤：

对待识别语音进行频谱分析，得到所述待识别语音的语谱图；

利用VGG卷积神经网络对所述语谱图进行特征提取，得到语音特征。

本发明实施例的基于人工智能的语音特征提取方法，通过对待识别语音进行频谱分析，得到待识别语音的语谱图之后，利用VGG卷积神经网络对语谱图进行特征提取，得到语音特征。由于语谱图能够对待识别语音以图像的方式进行描述，而VGG卷积神经网络又是一种对图像进行处理的有效方式，因此，采用这种方式所提取出的语音特征能够对语音的特性进行准确描述。当根据所提取出的语音特征在进行语音识别时，能够解决现有技术中由于缺乏对语音特征进行有效提取所导致的语音识别准确度不高的技术问题。

为达上述目的，本发明第二方面实施例提出了一种基于人工智能的语音特征提取装置，所述语音特征用于进行语音识别，所述装置包括：

分析模块，用于对待识别语音进行频谱分析，得到所述待识别语音的语谱图；

提取模块，用于利用VGG卷积神经网络对所述语谱图进行特征提取，得到语音特征。

本发明实施例的基于人工智能的语音特征提取装置，通过对待识别语音进行频谱分析，得到待识别语音的语谱图之后，利用VGG卷积神经网络对语谱图进行特征提取，得到语音特征。由于语谱图能够对待识别语音以图像的方式进行描述，而VGG卷积神经网络又是一种对图像进行处理的有效方式，因此，采用这种方式所提取出的语音特征能够对语音的特性进行准确描述。当根据所提取出的语音特征在进行语音识别时，能够解决现有技术中由于缺乏对语音特征进行有效提取所导致的语音识别准确度不高的技术问题。

为达上述目的，本发明第三方面实施例提出了一种基于人工智能的语音特征提取装置，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时，实现第一方面所述的方法。

为了实现上述目的，本发明第四方面实施例提出了一种非临时性计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现第一方面所述的方法。

为了实现上述目的，本发明第五方面实施例提出了一种计算机程序产品，当所述计算机程序产品中的指令处理器执行时，执行第一方面所述的方法。

本发明附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为本发明实施例所提供的一种基于人工智能的语音特征提取方法的流程示意图；

图2为语谱图的示意图；

图3为本发明实施例提供的另一种基于人工智能的语音特征提取方法的结构示意图；

图4为VGG卷积神经网络的配置示意图；

图5为VGG卷积神经网络的结构示意图；

图6为本发明实施例提供的一种基于人工智能的语音特征提取装置的结构示意图；以及

图7为本发明实施例提供的另一种基于人工智能的语音特征提取装置的结构示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。

下面参考附图描述本发明实施例的基于人工智能的语音特征提取方法和装置。

图1为本发明实施例所提供的一种基于人工智能的语音特征提取方法的流程示意图。如图1所示，该基于人工智能的语音特征提取方法包括以下步骤：

步骤101，对待识别语音进行频谱分析，得到待识别语音的语谱图。

具体地，针对所述待识别语音中的各音频帧进行傅里叶变换，得到所述音频帧的频谱值；进而，根据各音频帧的频谱值，生成语谱图；其中，语谱图的横坐标为所述音频帧所对应的时间，所述语谱图的纵坐标为所述音频帧所含的频率分量，所述语谱图的坐标点值为所述频谱值，也就是能量。

进一步，针对待识别语音中的各音频帧进行傅里叶变换，得到所述音频帧的频谱值之前，首先需要以预设采样周期，对待识别语音进行采样，得到各音频帧，然后利用包含预设个数滤波器的滤波器组，针对每一音频帧进行滤波，得到所述音频帧所含的各频谱分量。

例如：可以采用40维的滤波器组，每隔10ms对所提取的一个音频帧进行滤波，从而得到一个40维的向量，向量中每一个元素对应一个频谱分量。从而在根据频谱分量进行傅里叶变换之后，对于一段连续的语音，可以绘制前述的语谱图，图2为语谱图的示意图，如图2所示的语谱图，横坐标为音频帧所对应的时间，语谱图的纵坐标为音频帧所含的频率分量，语谱图的坐标点值为频谱值。

步骤102，利用VGG卷积神经网络对所述语谱图进行特征提取，得到语音特征。

具体地，通过前述绘制语谱图的过程，将一段语音描述为一幅图像。本步骤中，可以利用视觉几何组(Visual Geometry Group，VGG)卷积神经网络对该语谱图进行特征提取，将所提取出的特征作为语音特征。

为了清楚说明本实施例，本实施例中将对所采用的VGG卷积神经网络进行简要介绍。

VGG卷积神经网络包括多个卷积层，每一个卷积层后连接一个对应的池化层，这里池化层的作用在于，在时域和/或频域进行降采样。VGG卷积神经网络中各卷积层的卷积核具有相同大小，同时，后一层卷积层中过滤器的个数为前一层卷积层中过滤器的整数倍。

需要注意的是，各池化层在时域上的总降采样率应当小于在频域上的总降采样率，也就是说，各池化层在时域上的总采样率应当大于在频域上的总采样率。

这是由于在绘制语谱图的过程中，已经对语音在时域上进行了降采样，即前述的以预设采样周期采样得到各音频帧的过程，因此，在VGG卷积神经网络进行降采样时，采样周期将进一步加大。为了使得在绘制语谱图和VGG卷积神经网络提取特征的这两个过程中，时域与频域的采样率是适应的，各池化层在时域上的总降采样率应当小于在频域上的总降采样率。

为了获得更好的语音识别效果，时域上的总降采样率应当是根据对该待识别语音进行语音分类时的粒度确定的。若时域最终的总降采样率和进行语音分类时的粒度不匹配，则会出现语音识别效果较差的情况。具体来说，语音识别中通常采用10ms为帧移，也就是采样周期是10ms，因此，经过池化层在时域的降采样之后，采样周期会变大。语音分类时的粒度为音素时，各池化层总计1/4的时域降采样率是合适的，语音分类时的粒度为字时，各池化层总计1/8的时域降采样率是合适的。

本实施例中，通过对待识别语音进行频谱分析，得到待识别语音的语谱图之后，利用VGG卷积神经网络对语谱图进行特征提取，得到语音特征。由于语谱图能够对待识别语音以图像的方式进行描述，而VGG卷积神经网络又是一种对图像进行处理的有效方式，因此，采用这种方式所提取出的语音特征能够对语音的特性进行准确描述。当根据所提取出的语音特征在进行语音识别时，能够解决现有技术中由于缺乏对语音特征进行有效提取所导致的语音识别准确度不高的技术问题。

为了清楚说明上一实施例，本实施例提供了另一种基于人工智能的语音特征提取方法，图3为本发明实施例提供的另一种基于人工智能的语音特征提取方法的结构示意图，如图3所示，该语音特征提取方法可以包括以下步骤：

步骤201，建立VGG卷积神经网络，并对所建立的VGG卷积神经网络进行设置。

具体地，VGG卷积神经网络包括多个卷积层和池化层。为了清楚说明VGG卷积神经网络的结构，本实施例提供了一种可能的实现方式，图4为VGG卷积神经网络的配置示意图，如图4所示，通过进行如下配置：

“conv64block”，

“pool2d_2X2”，

“conv128block”，

“pool2d_2X2”，

“conv256block”，

“pool2d_2X1”，

“conv512block”，

“pool2d_2X1”

VGG卷积神经网络包括4个卷积层，每一个卷积层后紧接一个池化层。

具体地，在VGG卷积神经网络中，首先是卷积层conv64block，本层包括M个通道，针对每一个通道，包括64个过滤器，每一个过滤器的卷积核的大小均为3X3，从而构成了图4中的卷积层conv64block。

进而是池化层pool2d_2X2，通过池化层进行降采样，具体地，本层在时域和频域均以采样率1/2进行降采样。

接下来是卷积层conv128block，本层包括N个通道，针对每一个通道，包括128个过滤器，每一个过滤器的卷积核的大小均为3X3，从而构成了图4中的卷积层conv128block。

进而，还是池化层pool2d_2X2，通过池化层进行降采样，本层在时域和频域均以采样率1/2进行降采样。

接下来是卷积层conv256block，本层包括K个通道，针对每一个通道，包括256个过滤器，每一个过滤器的卷积核的大小均为3X3，从而构成了图4中的卷积层conv256block。

进而，是池化层pool2d_2X1，通过池化层进行降采样，本层仅在频域以采样率1/2进行降采样。

接下来是卷积层conv512block，本层包括L个通道，针对每一个通道，包括512个过滤器，每一个过滤器的卷积核的大小均为3X3，从而构成了图4中的卷积层conv512block。

最后是池化层pool2d_2X1，通过池化层进行降采样，本层仅在频域以采样率1/2进行降采样。

这里的前述的参数M,N,K,L是可以进行人为设置的，当M取值为2，N取值为3，K取值为3且L取值为2时，VGG卷积神经网络的结构如图5所示。

在图5中“conv2d”表示卷积层，“conv2d”后面的64、128、256或者512用于表示过滤器的个数。“pool2d”表示池化层，“pool2d”后面的“2X2”表示以1/2采样率对时域和频域进行降采样，“2X1”表示以1/2采样率对频域进行降采样。“-”后面的0、1或2表示序号，用以对相同结构的池化层或相同结构的卷积层进行区分。

在如图5所示的VGG卷积神经网络中，使用了4次池化层用来降采样，但是在时域上降采样的次数通常比频域上少，具体在图5中，在时域上降采样2次，总采样率为1/4；而在频域上降采样了4次，总采样率为1/16。可见，时域的总采样率大于频域的总采样率，也就是说，时域的总降采样率低于频域的总降采样率。另外，如图5所示的VGG卷积神经网络中，使用了4次卷积层，每一卷积层中，均使用了3x3的较小卷积核，在整个模型具有相同感受野的前提下，这种设计可以获得更深的层数。

步骤202，对经过设置的VGG卷积神经网络进行训练。

步骤203，将待识别语音的语谱图输入该VGG卷积神经网络进行测试，得到语音特征。

具体地，首先需要绘制待识别语音的语谱图。以预设采样周期，对待识别语音进行采样，得到各音频帧，然后利用包含预设个数滤波器的滤波器组，针对每一音频帧进行滤波，得到所述音频帧所含的各频谱分量。针对各音频帧，根据所含的各频谱分量进行傅里叶变换，得到所述音频帧的频谱值；进而，根据各音频帧的频谱值，生成语谱图；其中，语谱图的横坐标为所述音频帧所对应的时间，所述语谱图的纵坐标为所述音频帧所含的频率分量，所述语谱图的坐标点值为所述频谱值，也就是能量。进而，将语谱图输入该VGG卷积神经网络，从而得到语音特征。

步骤204，将语音特征输入声学模型进行语音分类处理。

具体地，这里的声学模型可以是以音素为建模单元的声学模型，也可以是以字为建模单元的声学模型，本实施例中对此不作限定，但是需要注意的是，VGG卷积神经网络在时域上的总采样率是根据该声学模型进行语音分类时的粒度确定的，这里的粒度包括：字和音素。

例如：当该声学模型进行语音分类时的粒度为音素时，VGG卷积神经网络在时域上的总采样率为1/4；当该声学模型进行语音分类时的粒度为字时，VGG卷积神经网络在时域上的总采样率为1/8。

为了实现上述实施例，本发明还提出一种基于人工智能的语音特征提取装置。

图6为本发明实施例提供的一种基于人工智能的语音特征提取装置的结构示意图。

如图6所示，该基于人工智能的语音特征提取装置包括：分析模块61和提取模块62。

分析模块61，用于对待识别语音进行频谱分析，得到所述待识别语音的语谱图。

提取模块62，用于利用VGG卷积神经网络对所述语谱图进行特征提取，得到语音特征。

进一步地，在本发明实施例的一种可能的实现方式中，VGG卷积神经网络包括多个卷积层，每一个卷积层后连接一个对应的池化层；所述池化层用于在时域和/或频域进行降采样；各池化层在时域上的总降采样率小于在频域上的总降采样率。并且，在时域上的总降采样率是根据对所述待识别语音进行语音分类时的粒度确定的。

进一步，VGG卷积神经网络中，后一层卷积层中过滤器的个数为前一层卷积层中过滤器的整数倍，且VGG卷积神经网络中各卷积层的卷积核具有相同大小。

可见，通过对待识别语音进行频谱分析，得到待识别语音的语谱图之后，利用VGG卷积神经网络对语谱图进行特征提取，得到语音特征。由于语谱图能够对待识别语音以图像的方式进行描述，而VGG卷积神经网络又是一种对图像进行处理的有效方式，因此，采用这种方式所提取出的语音特征能够对语音的特性进行准确描述。当根据所提取出的语音特征在进行语音识别时，能够解决现有技术中由于缺乏对语音特征进行有效提取所导致的语音识别准确度不高的技术问题。

需要说明的是，前述对方法实施例的解释说明也适用于该实施例的装置，此处不再赘述。

基于上述实施例，本发明实施例还提供了一种基于人工智能的语音特征提取装置的可能的实现方式，图7为本发明实施例提供的另一种基于人工智能的语音特征提取装置的结构示意图，如图7所示，在上一实施例的基础上，分析模块61，包括：采样单元611、滤波单元612、变换单元613和生成单元614。

采样单元611，用于以预设采样周期，对所述待识别语音进行采样，得到各音频帧。

滤波单元612，用于利用包含预设个数滤波器的滤波器组，针对每一音频帧进行滤波，得到所述音频帧所含的各频谱分量。

变换单元613，用于针对所述待识别语音中的各音频帧进行傅里叶变换，得到所述音频帧的频谱值。

生成单元614，用于根据各音频帧的频谱值，生成所述语谱图。

其中，所述语谱图的横坐标为所述音频帧所对应的时间，所述语谱图的纵坐标为所述音频帧所含的频率分量，所述语谱图的坐标点值为所述频谱值。

进一步，基于人工智能的语音特征提取装置还包括：设置模块63和训练模块64和分类模块65。

设置模块63，用于预先对所述VGG卷积神经网络中各卷积层的通道数进行设置。

训练模块64，用于对经过设置的VGG卷积神经网络进行训练。

分类模块65，用于将提取到的语音特征输入声学模型进行语音分类处理。

本发明实施例中，通过对待识别语音进行频谱分析，得到待识别语音的语谱图之后，利用VGG卷积神经网络对语谱图进行特征提取，得到语音特征。由于语谱图能够对待识别语音以图像的方式进行描述，而VGG卷积神经网络又是一种对图像进行处理的有效方式，因此，采用这种方式所提取出的语音特征能够对语音的特性进行准确描述。当根据所提取出的语音特征在进行语音识别时，能够解决现有技术中由于缺乏对语音特征进行有效提取所导致的语音识别准确度不高的技术问题。

为了实现上述实施例，本发明还提出另一种基于人工智能的语音特征提取装置，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时，实现前述实施例中的基于人工智能的语音特征提取方法。

为了实现上述实施例，本发明还提出一种非临时性计算机可读存储介质，当所述存储介质中的指令由处理器被执行时，使得处理器能够执行前述实施例中的基于人工智能的语音特征提取方法。

为了实现上述实施例，本发明还提出一种计算机程序产品，当所述计算机程序产品中的指令处理器执行时，执行前述实施例中的基于人工智能的语音特征提取方法。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本发明的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本发明的实施例所属技术领域的技术人员所理解。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式光盘只读存储器(CDROM)。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。如，如果用硬件来实现和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本发明各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器，磁盘或光盘等。尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种基于人工智能的语音特征提取方法，其特征在于，所述语音特征用于进行语音识别，所述方法包括以下步骤：

2.根据权利要求1所述的基于人工智能的语音特征提取方法，其特征在于，所述对待识别语音进行频谱分析，得到所述待识别语音的语谱图，包括：

针对所述待识别语音中的各音频帧进行傅里叶变换，得到所述音频帧的频谱值；

根据各音频帧的频谱值，生成所述语谱图；其中，所述语谱图的横坐标为所述音频帧所对应的时间，所述语谱图的纵坐标为所述音频帧所含的频率分量，所述语谱图的坐标点值为所述频谱值。

3.根据权利要求2所述的基于人工智能的语音特征提取方法，其特征在于，所述针对所述待识别语音中的各音频帧进行傅里叶变换，得到所述音频帧的频谱值之前，还包括：

以预设采样周期，对所述待识别语音进行采样，得到各音频帧；

利用包含预设个数滤波器的滤波器组，针对每一音频帧进行滤波，得到所述音频帧所含的各频谱分量。

4.根据权利要求1所述的基于人工智能的语音特征提取方法，其特征在于，所述VGG卷积神经网络包括多个卷积层，每一个卷积层后连接一个对应的池化层；所述池化层用于在时域和/或频域进行降采样；

各池化层在时域上的总降采样率小于在频域上的总降采样率。

5.根据权利要求4所述的基于人工智能的语音特征提取方法，其特征在于，在时域上的总降采样率是根据对所述待识别语音进行语音分类时的粒度确定的。

6.根据权利要求4所述的基于人工智能的语音特征提取方法，其特征在于，所述VGG卷积神经网络中，后一层卷积层中过滤器的个数为前一层卷积层中过滤器的整数倍。

7.根据权利要求4所述的基于人工智能的语音特征提取方法，其特征在于，所述VGG卷积神经网络中各卷积层的卷积核具有相同大小。

8.根据权利要求1-7任一项所述的基于人工智能的语音特征提取方法，其特征在于，所述利用VGG卷积神经网络对所述语谱图进行特征提取之前，还包括：

预先对所述VGG卷积神经网络中各卷积层的通道数进行设置；

对经过设置的VGG卷积神经网络进行训练。

9.根据权利要求1-7任一项所述的基于人工智能的语音特征提取方法，其特征在于，所述利用VGG卷积神经网络对所述语谱图进行特征提取，得到语音特征之后，还包括：

将提取到的语音特征输入声学模型进行语音分类处理。

10.一种基于人工智能的语音特征提取装置，其特征在于，所述语音特征用于进行语音识别，所述装置包括：

11.根据权利要求10所述的基于人工智能的语音特征提取装置，其特征在于，所述分析模块，包括：

变换单元，用于针对所述待识别语音中的各音频帧进行傅里叶变换，得到所述音频帧的频谱值；

生成单元，用于根据各音频帧的频谱值，生成所述语谱图；其中，所述语谱图的横坐标为所述音频帧所对应的时间，所述语谱图的纵坐标为所述音频帧所含的频率分量，所述语谱图的坐标点值为所述频谱值。

12.根据权利要求11所述的基于人工智能的语音特征提取装置，其特征在于，所述分析模块，还包括：

采样单元，用于以预设采样周期，对所述待识别语音进行采样，得到各音频帧；

滤波单元，用于利用包含预设个数滤波器的滤波器组，针对每一音频帧进行滤波，得到所述音频帧所含的各频谱分量。

13.根据权利要求10所述的基于人工智能的语音特征提取装置，其特征在于，所述VGG卷积神经网络包括多个卷积层，每一个卷积层后连接一个对应的池化层；所述池化层用于在时域和/或频域进行降采样；

14.根据权利要求13所述的基于人工智能的语音特征提取装置，其特征在于，在时域上的总降采样率是根据对所述待识别语音进行语音分类时的粒度确定的。

15.根据权利要求13所述的基于人工智能的语音特征提取装置，其特征在于，所述VGG卷积神经网络中，后一层卷积层中过滤器的个数为前一层卷积层中过滤器的整数倍。

16.根据权利要求13所述的基于人工智能的语音特征提取装置，其特征在于，所述VGG卷积神经网络中各卷积层的卷积核具有相同大小。

17.根据权利要求10-16任一项所述的基于人工智能的语音特征提取装置，其特征在于，所述装置，还包括：

设置模块，用于预先对所述VGG卷积神经网络中各卷积层的通道数进行设置；

训练模块，用于对经过设置的VGG卷积神经网络进行训练。

18.根据权利要求10-16任一项所述的基于人工智能的语音特征提取装置，其特征在于，所述装置，还包括：

分类模块，用于将提取到的语音特征输入声学模型进行语音分类处理。

19.一种基于人工智能的语音特征提取装置，其特征在于，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时，实现如权利要求1-9中任一所述的方法。

20.一种非临时性计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-9中任一所述的方法。