CN106710589B

CN106710589B - 基于人工智能的语音特征提取方法及装置

Info

Publication number: CN106710589B
Application number: CN201611239071.2A
Authority: CN
Inventors: 李超; 李先刚
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2016-12-28
Filing date: 2016-12-28
Publication date: 2019-07-30
Anticipated expiration: 2036-12-28
Also published as: US20180182377A1; US10621971B2; CN106710589A

Abstract

本发明提出一种基于人工智能的语音特征提取方法及装置，其中，方法包括：对待识别语音进行频谱分析，得到待识别语音的语谱图，利用图像识别算法中的Inception卷积结构，对语谱图进行特征提取，得到待识别语音的语音特征。本发明中，通过对待识别语音进行频谱分析，将连续的待识别语音转换成语谱图进行表示，由于Inception卷积结构为可以精准识别图像特征的有效的图像识别方式，利用Inception卷积结构对语谱图进行识别，提取出待识别语音较为准确的语音特征，进而可以提高语音识别的准确率。

Description

基于人工智能的语音特征提取方法及装置

技术领域

本发明涉及信息处理技术领域，尤其涉及一种基于人工智能的语音特征提取方法及装置。

背景技术

人工智能(Artificial Intelligence)，英文缩写为AI。它是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。人工智能是计算机科学的一个分支，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器，该领域的研究包括机器人、语音识别、图像识别、自然语言处理和专家系统等。其中，人工智能最重要的方面就是语音识别技术。

随着语音搜索业务的不断普及，越来越多的人开始使用自己的语音来搜索所需要的信息，语音搜索的比例逐年提高。在基于语音搜索的过程，首先需要对语音进行识别，然后基于识别结果进行搜索。目前，多采用神经网络对语音进行识别。

但是，现有基于声学模型的语音识别中，在声学模型中并没有设置专门的特征提取层(layers)，而是使用全连接(Full Connect，简称FC)层进行语音的特征提取，导致现有的语音识别的准确率较差。

发明内容

本发明旨在至少在一定程度上解决相关技术中的技术问题之一。

为此，本发明的第一个目的在于提出一种基于人工智能的语音特征提取方法，用于解决现有基于神经网络的语音识别中，由于没有设置专门的特征提取层，而是使用FC层进行语音特征的提取，导致现有的语音识别的准确率较差的问题。

本发明的第二个目的在于提出一种基于人工智能的语音特征提取装置。

本发明的第三个目的在于提出另一种基于人工智能的语音特征提取装置。

本发明的第四个目的在于提出一种非临时性计算机可读存储介质。

本发明的第五个目的在于提出一种计算机程序产品。

为达上述目的，本发明第一方面实施例提出了一种基于人工智能的语音特征提取方法，包括：

对待识别语音进行频谱分析，得到所述待识别语音的语谱图；

利用图像识别算法中的Inception卷积结构，对所述语谱图进行特征提取，得到所述待识别语音的语音特征。

本发明实施例的基于人工智能的语音特征提取方法，通过对待识别语音进行频谱分析，将连续的待识别语音转换成语谱图进行表示，由于Inception卷积结构为可以精准识别图像特征的有效的图像识别方式，进而利用Inception卷积结构对语谱图进行识别，提取出待识别语音较为准确的语音特征，进而可以提高语音识别的准确率。由于Inception卷积结构可以提取语音特征，从而可以在声学模型中可以将Inception卷积结构作为单独的语音特征提取层使用，进而克服现有技术中由于声学模型中并没有设置专门的特征提取层，使得语音识别准确率较差的问题。

为达上述目的，本发明第二方面实施例提出了一种基于人工智能的语音特征提取装置，包括：

语谱图获取模块，用于对待识别语音进行频谱分析，得到所述待识别语音的语谱图；

特征提取模块，用于利用图像识别算法中的Inception卷积结构，对所述语谱图进行特征提取，得到所述待识别语音的语音特征。

本发明实施例的基于人工智能的语音特征提取装置，通过对待识别语音进行频谱分析，将连续的待识别语音转换成语谱图进行表示，由于Inception卷积结构为可以精准识别图像特征的有效的图像识别方式，进而利用Inception卷积结构对语谱图进行识别，提取出待识别语音较为准确的语音特征，进而可以提高语音识别的准确率。由于Inception卷积结构可以提取语音特征，从而可以在声学模型中可以将Inception卷积结构作为单独的语音特征提取层使用，进而克服现有技术中由于声学模型中并没有设置专门的特征提取层，使得语音识别准确率较差的问题。

为达上述目的，本发明第三方面实施例提出了另一种基于人工智能的语音特征提取装置，包括：处理器；用于存储所述处理器可执行指令的存储器；其中，所述处理器被配置为：对待识别语音进行频谱分析，得到所述待识别语音的语谱图，利用图像识别算法中的Inception卷积结构，对所述语谱图进行特征提取，得到所述待识别语音的语音特征。

为了实现上述目的，本发明第四方面实施例提出了一种非临时性计算机可读存储介质，当所述存储介质中的指令由服务器端的处理器被执行时，使得服务器端能够执行一种基于人工智能的语音特征提取方法，所述方法包括：

为了实现上述目的，本发明第五方面实施例提出了一种计算机程序产品，当所述计算机程序产品中的指令处理器执行时，执行一种基于人工智能的语音特征提取方法，所述方法包括：

本发明附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为本发明实施例提供的一种基于人工智能的语音特征提取方法的流程示意图；

图2为本发明实施例提供的待识别语音的语谱图；

图3为本发明实施例提供的另一种基于人工智能的语音特征提取方法的流程示意图；

图4为本发明实施例提供的第一个卷积模块的结构示意图；

图5为本发明实施例提供的第二个卷积模块的结构示意图；

图6为本发明实施例提供的第三个卷积模块的结构示意图；

图7为本发明实施例提供的第四个卷积模块的结构示意图；

图8为本发明实施例提供的一种Inception卷积结构的应用示意图；

图9为本发明实施例提供的一种基于人工智能的语音特征提取装置的结构示意图；

图10为本发明实施例提供的另一种基于人工智能的语音特征提取装置的结构示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。

下面参考附图描述本发明实施例的基于人工智能的语音特征提取方法及装置。

图1为本发明实施例提供的一种基于人工智能的语音特征提取方法的流程示意图。该基于人工智能的语音特征提取方法包括以下步骤：

S101、对待识别语音进行频谱分析，得到待识别语音的语谱图。

具体地，按照预设的周期对待识别语音进行采样，得到该待识别语音的各语音帧。本实施例中，预先设置有滤波器组，每个滤波器组中预设个数的滤波器，为不同的滤波器设置不同的滤波频率。进一步地，利用包括预设个数的滤波器的滤波器组，对每个语音帧进行滤波，由于滤波器组中每个滤波器的滤波不同，经过滤波器组对语音帧进行滤波后，可以得到每个语音帧所包括的各频谱分量。

进一步地，在获取到每个语音帧的各频谱分量后，针对每个语音帧进行快速傅里叶变换，得到各语音帧的频谱值，通过该频谱值可以表征出该语音帧的短时平均能量。然后利用得到的各语音帧的频谱值生成待识别语音的语谱图。其中，待识别语音的语谱图的横坐标为语音帧所对应的时间，语谱图的纵坐标为语音帧所含的频率分量，语谱图的坐标点值为频谱值。

例如，可以预设10ms作为一个采样的周期，每10ms形成一个语音帧。设置一个包括40个滤波器的滤波器组，通过滤波器组每个10ms的语音帧进行滤波，得到每个语音帧的filter bank特征。由于滤波器组包括40个滤波器，则经过滤波器组后每个语音帧可以提取出一个40个filter-bank特征，那么一段连续的待识别语音就可以根据提取到的40个filter-bank特征，形成一个2纬的图像格式，即形成一张待识别语音的语谱图，如图2所示。

S102、利用图像识别算法中的Inception卷积结构，对所述语谱图进行特征提取，得到所述待识别语音的语音特征。

本实施例中，为了能够提高语音识别的准确性，可以在声学识别模型中可以增加一个图像识别算法中的Inception卷积结构，利用该Inception卷积结构对待识别语音的语谱图进行识别，以得到待识别语音的语音特征。具体地，Inception卷积结构中包括多个卷积模块，每个卷积模块中包括多个卷积层和一个池化层。其中，池化层用于在时域和/或频域进行降采样。由于生成语谱图时按照预设的周期对待识别语音进行采样，也就是说，在形成语谱图时已经在时域对待识别语音进行了一次降采样，本实施例中，各池化层在时域上的总降采样率小于在频域上的总降采样率。

在时域上的总降采样率是根据对待识别语音进行语音分类时的粒度确定的。例如，语音分类时的粒度可以音素粒度和字粒度等。不同的分类粒度在Inception卷积结构中设置的总降采样率不同。例如，以音素为粒度时，Inception卷积结构中时域的总降采样率优选为1/4。而以字为粒度时，Inception卷积结构中时域的总降采样率优选为1/8。

进一步地，Inception卷积结构中，后一个卷积模块中过滤器的个数为前一个卷积模块中过滤器的整数倍。例如，Inception卷积结构中包括4个卷积模块，则第2个卷积模块中滤波器的个数为第1个卷积模块中滤波器的整数倍，第3个卷积模块的滤波器的个数为第2个卷积模块中滤波器的整数倍，第4个卷积模块的滤波器的个数为第3个卷积模块中滤波器的整数倍。例如，当第1个卷积模块中滤波器的个数为64时，则第2个卷积模块中滤波器的个数为128。以此类推，第3个卷积模块中滤波器的个数为256，第4个卷积模块中滤波器的个数为512。

进一步地，当为每个卷积模块确定出滤波器的个数后，可以按照每个卷积模块中设置的滤波器的个数，构建该卷积模块的卷积有向无环(Directed Acyclic Graph，简称DAG)图，然后按照构建的DAG图连接每个卷积模块所包括的各层。

将Inception卷积结构中每个卷积模块中各层按照DAG图连接后，可以依次对卷积模型进行连接，利用连接完成的Inception卷积结构对语谱图进行语音特征提取。

本实施例提供的基于人工智能的语音特征提取方法，通过对待识别语音进行频谱分析，得到待识别语音的语谱图，利用图像识别算法中的Inception卷积结构，对语谱图进行特征提取，得到待识别语音的语音特征。本实施例中，通过对待识别语音进行频谱分析，将连续的待识别语音转换成语谱图进行表示，由于Inception卷积结构为可以精准识别图像特征的有效的图像识别方式，进而利用Inception卷积结构对语谱图进行识别，提取出待识别语音较为准确的语音特征，进而可以提高语音识别的准确率。由于Inception卷积结构可以提取语音特征，从而可以在声学模型中可以将Inception卷积结构作为单独的语音特征提取层使用，进而克服现有技术中由于声学模型中并没有设置专门的特征提取层，使得语音识别准确率较差的问题。

图3为本发明实施例提供的另一种基于人工智能的语音特征提取方法的流程示意图。该另一种基于人工智能的语音特征提取方法包括以下步骤：

S201、预先对Inception卷积结构所包括的卷积模块进行设置。

本实施例中，预先设置一个Inception卷积结构，该Inception卷积结构可以包括多个卷积模块，每个卷积模块包括一个分路层、多个卷积核不同的卷积层、一个池化层和一个特征拼接层。预先可以为每个卷积模块设置不同个数的滤波器，以及每个卷积模块所包括的每个卷积层的卷积核、池化层的尺寸和卷积步长进行设置。

其中，池化层用于在语谱图在时域和/或频域进行降采样。由于生成语谱图时按照预设的周期对待识别语音进行采样，也就是说，在形成语谱图时已经在时域对待识别语音进行了一次降采样，本实施例中，各池化层在时域上的总降采样率小于在频域上的总降采样率。

优选地，Inception卷积结构包括4个卷积模块。第一个卷积模块和第二个卷积模块中均包括：一个分路层、4个卷积核为1*1的卷积层、1个卷积核为3*3的卷积层和1个卷积核为5*1的卷积层和1个卷积核为1*5的卷积层、池化层和特征拼接层，其中，1个卷积核为5*1的卷积层和1个卷积核为1*5的卷积层构成一个卷积核5*5的卷积层，池化层的尺度为2*2，卷积步长为1。

第三个卷积模块和第四个卷积模块中均包括：一个分路层、4个卷积核为1*1的卷积层、1个卷积核为3*3的卷积层和1个卷积核为7*1的卷积层和1个卷积核为1*7的卷积层、池化层和特征拼接层，其中，所述1个卷积核为7*1的卷积层和1个卷积核为1*7的卷积层构成一个卷积核7*7的卷积层，所述池化层的尺度(scale)为2*2，卷积步长(stride)为1*1。

将第一个卷积模块中滤波器的个数设置成64，将第二个卷积模块中滤波器的个数设置成128，将第三个卷积模块中滤波器的个数设置成256，将第四个卷积模块中滤波器的个数设置成512。

进一步地，为每个卷积模块中池化层在时域以及频域的降采样率进行设置。第一个卷积模块中的池化层在时域和频域上都做1/2的降采样。第二个卷积模块中的池化层在时域和频域上都做1/2的降采样。第三个卷积模块中的池化层频域上都做1/2的降采样。第四个卷积模块中的池化层在频域上做1/2的降采样。本实施例中，各池化层在时域上的总降采样率小于在频域上的总降采样率。

S202、对经过设置的Inception卷积结构进行训练。

经过上述设置后，可以采用大量的样本语谱图对设置的Inception卷积结构进行训练，以得到一个稳定的Inception卷积结构。

图4为本发明实施例提供的第一个卷积模块的结构示意图。图4中，第一个卷积模块包括1个分路层、4个卷积核为1*1的滤波器个数为16的卷积层，图4中分别标记为conv16_1×1_1、conv16_1×1_2、conv16_1×1_3，conv16_1×1_4；1个卷积核为3*3的滤波器个数为16的卷积层，图4中标记为conv16_3×3；1个卷积核为5*1和卷积核为1*5的滤波器个数为16的卷积层，图4中分别标记为conv16_5×1、conv16_1×5；其中，该1个卷积核为5*1滤波器个数为16的卷积层和卷积核为1*5的滤波器个数为16的卷积层，就可以构成1个5*5的滤波器个数为16的卷积层。进一步地，第一个卷积模块还包括1个池化层和1个特征拼接层。其中，该池化层的尺寸为2*2，卷积步长为1*1,图4中标记为pooling_2×2_1×1。第一个卷积模块中的池化层在时域和频域上都做1/2的降采样。

分路层将接收到的输入分路成4路。图4中，第1路经过1个卷积核为1*1的卷积层，然后经过卷积核为3*3的卷积层，输入到特征拼接层；第2路经过1个卷积核为1*1的卷积层，然后经过卷积核为5*1的卷积层，再经过一个1*5的卷积层，输入到特征拼接层；第3路经过1个卷积核为1*1的卷积层，输入到特征拼接层；第4路经过1个池化层，再经过1个卷积核为1*1的卷积层，输入到特征拼接。

图5为本发明实施例提供的第二个卷积模块的结构示意图。图5中，第二个卷积模块包括1个分路层、4个卷积核为1*1的滤波器个数为32的卷积层、图5中分别标记为conv32_1×1_1、conv32_1×1_2、conv32_1×1_3，conv32_1×1_4；1个卷积核为3*3的滤波器个数为32的卷积层，图5中标记为conv32_3×3；1个卷积核为5*1和卷积核为1*5的滤波器为32的卷积层，图5中分别标记为conv32_5×1、conv32_1×5；其中，该1个卷积核为5*1滤波器个数为32的卷积层和卷积核为1*5的滤波器个数为32的卷积层，就可以构成1个5*5的滤波器个数为32的卷积层。进一步地，第二个卷积模块还包括1个池化层和1个特征拼接层。其中，该池化层的尺寸为2*2，卷积步长为1*1,图5中标记为pooling_2×2_1×1。第二个卷积模块中的池化层在时域和频域上都做1/2的降采样。

分路层将接收到的输入分路成4路。图5中，第1路经过1个卷积核为1*1的卷积层，然后经过卷积核为3*3的卷积层，输入到特征拼接层；第2路经过1个卷积核为1*1的卷积层，然后经过卷积核为5*1的卷积层，再经过一个1*5的卷积层，输入到特征拼接层；第3路经过1个卷积核为1*1的卷积层，输入到特征拼接层；第4路经过1个池化层，再经过1个卷积核为1*1的卷积层，输入到特征拼接层。

图6为本发明实施例提供的第三个卷积模块的结构示意图。图6中，第三个卷积模块包括1个分路层、4个卷积核为1*1的滤波器个数为64的卷积层，图6中分别标记为conv64_1×1_1、conv64_1×1_2、conv64_1×1_3，conv64_1×1_4；1个卷积核为3*3的滤波器个数为64的卷积层，图6中标记为conv64_3×3；1个卷积核为7*1和卷积核为1*7的滤波器个数为64的卷积层，图6中分别标记为conv64_7×1、conv64_1×7；其中，该1个卷积核为7*1滤波器个数为64的卷积层和卷积核为1*7的滤波器个数为64的卷积层，就可以构成1个7*7的滤波器个数为64的卷积层。进一步地，第三个卷积模块还包括1个池化层和1个特征拼接层。其中，该池化层的尺寸为2*2，卷积步长为1*1，图6中标记为pooling_2×2_1×1。第三个卷积模块中的池化层只在频域上做1/2的降采样。

分路层将接收到的输入分路成4路。图6中，第1路经过1个卷积核为1*1的卷积层，然后经过卷积核为3*3的卷积层，输入到特征拼接层；第2路经过1个卷积核为1*1的卷积层，然后经过卷积核为7*1的卷积层，再经过一个1*7的卷积层，输入到特征拼接层；第3路经过1个卷积核为1*1的卷积层，输入到特征拼接层；第4路经过1个池化层，再经过1个卷积核为1*1的卷积层，输入到特征拼接层。

图7为本发明实施例提供的第四个卷积模块的结构示意图。图7中，第四个卷积模块包括1个分路层、4个卷积核为1*1的滤波器个数为128的卷积层，图7中分别标记为conv128_1×1_1、conv128_1×1_2、conv128_1×1_3，conv128_1×1_4；1个卷积核为3*3的滤波器个数为128的卷积层，图7中标记为conv128_3×3；1个卷积核为7*1和卷积核为1*7的滤波器个数为128的卷积层，图7中分别标记为conv128_7×1、conv128_1×7；其中，该1个卷积核为7*1滤波器个数为128的卷积层和卷积核为1*7的滤波器个数为128的卷积层，就可以构成1个7*7的滤波器个数为128的卷积层。进一步地，第四个卷积模块还包括1个池化层和1个特征拼接层。其中，该池化层的尺寸为2*2，卷积步长为1*1，图7中标记为pooling_2×2_1×1。第四个卷积模块中的池化层只在频域上做1/2的降采样。

分路层将接收到的输入分路成4路。图7中，第1路经过1个卷积核为1*1的卷积层，然后经过卷积核为3*3的卷积层，输入到特征拼接层，第2路经过1个卷积核为1*1的卷积层，然后经过卷积核为7*1的卷积层，再经过一个1*7的卷积层，输入到特征拼接层；第3路经过1个卷积核为1*1的卷积层，输入到特征拼接层；第4路经过1个池化层，再经过1个卷积核为1*1的卷积层，输入到特征拼接层。

可选地，第三个卷积模块卷积核为7*1和卷积核为1*7的滤波器个数为64的卷积层，以及第四个卷积模块中卷积核为7*1和卷积核为1*7的滤波器个数为128的卷积层，可以将卷积核设置为5*1和1*5。上述对Inception卷积结构中各预先设置的参数不能作为限制本发明的条件。

进一步地，第一个卷积模块的特征拼接层的输出输入到第二个卷积模块的分路层，第二卷积模块的特征拼接层的输出输入到第三个卷积模块的分路层，第三卷积模块的特征拼接层的输出输入到第四个卷积模块的分路层。

S203、对待识别语音进行频谱分析，得到待识别语音的语谱图。

关于语谱图的获取过程，可参见上述实施例中相关内容的记载，此处不再赘述。

S204、利用Inception卷积结构对语谱图进行特征提取，得到待识别语音的语音特征。

在获取到待识别语音的语谱图后，将该语谱图输入到Inception卷积结构，该Inception卷积结构可以对语谱图进行识别，从该语谱图中提取待识别语音的语音特征。

S205、将提取到的语音特征输入全连接层进行语音分类处理。

在提取出语音特征后，可以将语音特征输入到下一层即FC层，通过该FC层对语音特征进行非线性映射，对待识别语音进行分类处理，识别出待识别语音对应的类型。

图8为本发明实施例提供的一种Inception卷积结构的应用示意图。如图8所示，输入层将语谱图输入到第一个卷积模块的分路层，经过卷积层处理后进入特征拼接层，第一个卷积特征模块中的特征拼接层的输出输入到第二个卷积模块的分路层，以此类推第二卷积模块的特征拼接层的输出输入到第三个卷积模块的分路层，第三卷积模块的特征拼接层的输出输入到第四个卷积模块的分路层。第四个卷积模块的特征拼接层的输出输入到全连接层进行语音分类处理，然后经过输出层最后输出待识别语音对应的类型。

本实施例提供的Inception卷积结构中使用了4次池化层(pooling)进行降采样，但是在时域上降采样的次数通常比频域上少，例如，第一个卷积模块和第二个卷积模块在时域上分别降了1次，将时域将为采样周期的1/4。例如，语音识别中通常采用10ms为帧移，即采样周期是10ms，因此，经过时域的降采样之后，采样周期变大到40ms。而在频域上降了4次，频率将为采样频率的1/16。在时域上的总降采样率是根据对所述待识别语音进行语音分类时的粒度确定的，例如以音素为建模单元的声学模型中，总共1/4的时域降采样是合适的，在以字为建模单元的模型中，1/8是合适的。

图9为本发明实施例提供的一种基于人工智能的语音特征提取装置的结构示意图。该基于人工智能的语音特征提取装置包括：语谱图获取模块11和特征提取模块12。

其中，语谱图获取模块11，用于对待识别语音进行频谱分析，得到所述待识别语音的语谱图。

特征提取模块12，用于利用图像识别算法中的Inception卷积结构，对所述语谱图进行特征提取，得到所述待识别语音的语音特征。

进一步地，语谱图获取模块11，具体用于对所述待识别语音所包括的各语音帧进行快速傅里叶变换，得到各语音帧的频谱值，利用各语音帧的频谱值，生成所述待识别语音的所述语谱图；所述语谱图的横坐标为所述语音帧所对应的时间，所述语谱图的纵坐标为所述语音帧所含的频率分量，所述语谱图的坐标点值为所述频谱值。

进一步地，所述基于人工智能的语音特征提取装置还包括：采样模块13。

采样模块13，用于按照预设的周期对所述待识别语音进行采样，得到各语音帧，利用包括预设个数的滤波器的滤波器组，对每个语音帧进行滤波，得到每个语音帧所包括的各频谱分量。

进一步地，Inception卷积结构包括多个卷积模块，每个卷积模块包括一个分路层、多个卷积层、一个池化层和特征拼接层；所述池化层用于在时域和/或频域进行降采样；各池化层在时域上的总降采样率小于在频域上的总降采样率。

进一步地，在时域上的总降采样率是根据对所述待识别语音进行语音分类时的粒度确定的。

进一步地，所述Inception卷积结构中，后一个卷积模块中过滤器的个数为前一个卷积模块中过滤器的整数倍。

进一步地，所述Inception卷积结构包括4个卷积模块，其中，所述第一个卷积模块和第二个卷积模块中均包括：一个分路层、4个卷积核为1*1的卷积层、1个卷积核为3*3的卷积层和1个卷积核为5*1的卷积层和1个卷积核为1*5的卷积层、所述池化层和所述特征拼接层，其中，所述1个卷积核为5*1的卷积层和1个卷积核为1*5的卷积层构成一个卷积核5*5的卷积层，所述池化层的尺度为2*2，卷积步长为1*1；

所述第三个卷积模块和第四个卷积模块中均包括：一个所述分路层、4个卷积核为1*1的卷积层、1个卷积核为3*3的卷积层和1个卷积核为7*1的卷积层和1个卷积核为1*7的卷积层、所述池化层和所述特征拼接层，其中，所述1个卷积核为7*1的卷积层和1个卷积核为1*7的卷积层构成一个卷积核7*7的卷积层，所述池化层的尺度为2*2，卷积步长为1*1。

进一步地，所述基于人工智能的语音特征提取装置还包括：预设模块14和训练模块15。

预设模块14，用于预先对所述Inception卷积结构中所包括的各卷积模块进行设置。

训练模块15，用于对经过设置的Inception卷积结构进行训练。

进一步地，所述基于人工智能的语音特征提取装置还包括：分类处理模块16。

分类处理模块16，用于将提取到的语音特征输入全连接层进行语音分类处理。

本实施例中，通过对待识别语音进行频谱分析，将连续的待识别语音转换成语谱图进行表示，由于Inception卷积结构为可以精准识别图像特征的有效的图像识别方式，进而利用Inception卷积结构对语谱图进行识别，提取出待识别语音较为准确的语音特征，进而可以提高语音识别的准确率。由于Inception卷积结构可以提取语音特征，从而可以在声学模型中可以将Inception卷积结构作为单独的语音特征提取层使用，进而克服现有技术中由于声学模型中并没有设置专门的特征提取层，使得语音识别准确率较差的问题。

图10为本发明实施例提供的另一种基于人工智能的语音特征提取装置的结构示意图。该基于人工智能的语音特征提取装置包括：

通信接口21、存储器22、处理器23及存储在存储器22上并可在处理器22上运行的计算机程序。

处理器23执行所述程序时实现如权利要求1-9中任一所述的基于人工智能的语音特征提取方法。

通信接口21，用于存储器22和处理器23之间的通信。

存储器22，用于存放可在处理器23上运行的计算机程序。

存储器22可能包含高速RAM存储器，也可能还包括非易失性存储器(non-volatilememory)，例如至少一个磁盘存储器。

处理器23，用于执行所述程序时实现上述实施例所述的基于人工智能的语音特征提取方法。

如果通信接口21、存储器22和处理器23独立实现，则通信接口21、存储器22和处理器23可以通过总线相互连接并完成相互间的通信。所述总线可以是工业标准体系结构(Industry Standard Architecture，简称为ISA)总线、外部设备互连(PeripheralComponent，简称为PCI)总线或扩展工业标准体系结构(Extended Industry StandardArchitecture，简称为EISA)总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示，图5中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

可选的，在具体实现上，如果通信接口21、存储器22和处理器23集成在一块芯片上实现，则通信接口21、存储器22和处理器23可以通过内部接口完成相互间的通信。

处理器23可能是一个中央处理器(Central Processing Unit，简称为CPU)，或者是特定集成电路(Application Specific Integrated Circuit，简称为ASIC)，或者是被配置成实施本发明实施例的一个或多个集成电路。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本发明的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本发明的实施例所属技术领域的技术人员所理解。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式光盘只读存储器(CDROM)。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。如，如果用硬件来实现和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本发明各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器，磁盘或光盘等。尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种基于人工智能的语音特征提取方法，其特征在于，所述语音特征用于进行语音识别，包括：

利用图像识别算法中的Inception卷积结构，对所述语谱图进行特征提取，得到所述待识别语音的语音特征；

其中，所述Inception卷积结构包括多个卷积模块，每个卷积模块包括一个分路层、多个卷积层、一个池化层和特征拼接层；所述池化层用于在时域和/或频域进行降采样；各池化层在时域上的总降采样率小于在频域上的总降采样率，其中，在形成所述语谱图时在时域已对所述待识别语音进行了一次降采样；

其中，所述Inception卷积结构包括4个卷积模块，其中，所述第一个卷积模块和第二个卷积模块中均包括：一个分路层、4个卷积核为1*1的卷积层、1个卷积核为3*3的卷积层和1个卷积核为5*1的卷积层和1个卷积核为1*5的卷积层、所述池化层和所述特征拼接层，其中，所述1个卷积核为5*1的卷积层和1个卷积核为1*5的卷积层构成一个卷积核5*5的卷积层，所述池化层的尺度为2*2，卷积步长为1*1；

2.根据权利要求1所述的基于人工智能的语音特征提取方法，其特征在于，所述对待识别语音进行频谱分析，得到所述待识别语音的语谱图，包括：

对所述待识别语音所包括的各语音帧进行快速傅里叶变换，得到各语音帧的频谱值；

利用各语音帧的频谱值，生成所述待识别语音的所述语谱图；所述语谱图的横坐标为所述语音帧所对应的时间，所述语谱图的纵坐标为所述语音帧所含的频率分量，所述语谱图的坐标点值为所述频谱值。

3.根据权利要求1所述的基于人工智能的语音特征提取方法，其特征在于，在时域上的总降采样率是根据对所述待识别语音进行语音分类时的粒度确定的。

4.根据权利要求1所述的基于人工智能的语音特征提取方法，其特征在于，所述Inception卷积结构中，后一个卷积模块中过滤器的个数为前一个卷积模块中过滤器的整数倍。

5.根据权利要求1-4任一项所述的基于人工智能的语音特征提取方法，其特征在于，所述利用图像识别算法中的Inception卷积结构，对所述语谱图进行特征提取之前，还包括：

预先对所述Inception卷积结构中所包括的各卷积模块进行设置；

对经过设置的Inception卷积结构进行训练。

6.根据权利要求1-4任一项所述的基于人工智能的语音特征提取方法，其特征在于，所述利用图像识别算法中的Inception卷积结构，对所述语谱图进行特征提取，得到所述待识别语音的语音特征之后，还包括：

将提取到的语音特征输入全连接层进行语音分类处理。

7.一种基于人工智能的语音特征提取装置，其特征在于，包括：

特征提取模块，用于利用图像识别算法中的Inception卷积结构，对所述语谱图进行特征提取，得到所述待识别语音的语音特征；

8.根据权利要求7所述的基于人工智能的语音特征提取装置，其特征在于，所述语谱图获取模块，具体用于对所述待识别语音所包括的各语音帧进行快速傅里叶变换，得到各语音帧的频谱值，利用各语音帧的频谱值，生成所述待识别语音的所述语谱图；所述语谱图的横坐标为所述语音帧所对应的时间，所述语谱图的纵坐标为所述语音帧所含的频率分量，所述语谱图的坐标点值为所述频谱值。

9.根据权利要求7所述的基于人工智能的语音特征提取装置，其特征在于，在时域上的总降采样率是根据对所述待识别语音进行语音分类时的粒度确定的。

10.根据权利要求7所述的基于人工智能的语音特征提取方法，其特征在于，所述Inception卷积结构中，后一个卷积模块中过滤器的个数为前一个卷积模块中过滤器的整数倍。

11.根据权利要求7-10任一项所述的基于人工智能的语音特征提取装置，其特征在于，还包括：

预设模块，用于预先对所述Inception卷积结构中所包括的各卷积模块进行设置；

训练模块，用于对经过设置的Inception卷积结构进行训练。

12.根据权利要求7-10任一项所述的基于人工智能的语音特征提取装置，其特征在于，还包括：

分类处理模块，用于将提取到的语音特征输入全连接层进行语音分类处理。

13.一种基于人工智能的语音特征提取装置，其特征在于，存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1-6中任一所述的基于人工智能的语音特征提取方法。

14.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-6中任一所述的基于人工智能的语音特征提取方法。