CN106887225B - 基于卷积神经网络的声学特征提取方法、装置和终端设备 - Google Patents

基于卷积神经网络的声学特征提取方法、装置和终端设备 Download PDF

Info

Publication number
CN106887225B
CN106887225B CN201710172622.6A CN201710172622A CN106887225B CN 106887225 B CN106887225 B CN 106887225B CN 201710172622 A CN201710172622 A CN 201710172622A CN 106887225 B CN106887225 B CN 106887225B
Authority
CN
China
Prior art keywords
neural network
convolutional neural
spectrogram
channel filter
module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710172622.6A
Other languages
English (en)
Other versions
CN106887225A (zh
Inventor
李超
李先刚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201710172622.6A priority Critical patent/CN106887225B/zh
Publication of CN106887225A publication Critical patent/CN106887225A/zh
Priority to US15/914,066 priority patent/US10621972B2/en
Application granted granted Critical
Publication of CN106887225B publication Critical patent/CN106887225B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Signal Processing (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Image Analysis (AREA)
  • Complex Calculations (AREA)

Abstract

本申请提出一种基于卷积神经网络的声学特征提取方法、装置和终端设备,该基于卷积神经网络的声学特征提取方法,包括:将待识别的语音排列成预定纬数的语谱图;通过卷积神经网络对所述预定纬数的语谱图进行识别,获得所述待识别的语音中的声学特征。本申请可以实现通过卷积神经网络提取语音中的声学特征,可以更好地表征语音中的声学特性,提高语音识别的准确率。

Description

基于卷积神经网络的声学特征提取方法、装置和终端设备
技术领域
本申请涉及语音识别技术领域,尤其涉及一种基于卷积神经网络的声学特征提取方法、装置和终端设备。
背景技术
随着语音搜索业务的不断普及,越来越多的用户开始使用语音来搜索所需要的信息,语音搜索的比例逐年提高。为了提高语音识别的准确率,各种深度学习的方法被引入到语音识别领域,语音识别的准确率也逐步攀升。
现有技术中,主要是利用局部权值共享(Local Weight Share;以下简称:LWS)的卷积层来进行声学特征的提取,但是这种方式不能很好地表征语音中的声学特性,进而导致语音识别的准确率较低。
发明内容
本申请的目的旨在至少在一定程度上解决相关技术中的技术问题之一。
为此,本申请的第一个目的在于提出一种基于卷积神经网络的声学特征提取方法。该方法通过卷积神经网络提取语音中的声学特征,从而可以更好地表征语音中的声学特性,提高语音识别的准确率。
本申请的第二个目的在于提出一种基于卷积神经网络的声学特征提取装置。
本申请的第三个目的在于提出一种终端设备。
本申请的第四个目的在于提出一种包含计算机可执行指令的存储介质。
为了实现上述目的,本申请第一方面实施例的基于卷积神经网络的声学特征提取方法,包括:将待识别的语音排列成预定纬数的语谱图;通过卷积神经网络对所述预定纬数的语谱图进行识别,获得所述待识别的语音中的声学特征。
本申请实施例的基于卷积神经网络的声学特征提取方法中,将待识别的语音排列成预定纬数的语谱图,然后通过卷积神经网络对上述预定纬数的语谱图进行识别,获得上述待识别的语音中的声学特征,从而可以实现通过卷积神经网络提取语音中的声学特征,可以更好地表征语音中的声学特性,提高语音识别的准确率。
为了实现上述目的,本申请第二方面实施例的基于卷积神经网络的声学特征提取装置,包括:生成模块,用于将待识别的语音排列成预定纬数的语谱图;识别模块,用于通过卷积神经网络对所述生成模块生成的预定纬数的语谱图进行识别,获得所述待识别的语音中的声学特征。
本申请实施例的基于卷积神经网络的声学特征提取装置中,生成模块将待识别的语音排列成预定纬数的语谱图,然后识别模块通过卷积神经网络对上述预定纬数的语谱图进行识别,获得上述待识别的语音中的声学特征,从而可以实现通过卷积神经网络提取语音中的声学特征,可以更好地表征语音中的声学特性,提高语音识别的准确率。
为了实现上述目的,本申请第三方面实施例的终端设备,包括:一个或多个处理器;存储装置,用于存储一个或多个程序;当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如上所述的方法。
为了实现上述目的,本申请第四方面实施例的包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时用于执行如上所述的方法。
本申请附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本申请的实践了解到。
附图说明
本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为本申请基于卷积神经网络的声学特征提取方法一个实施例的流程图;
图2为本申请基于卷积神经网络的声学特征提取方法中语谱图一个实施例的示意图;
图3为本申请基于卷积神经网络的声学特征提取方法另一个实施例的流程图;
图4为本申请基于卷积神经网络的声学特征提取方法再一个实施例的流程图;
图5为本申请基于卷积神经网络的声学特征提取方法中残差网络结构的模型的配置一个实施例的示意图;
图6为本申请基于卷积神经网络的声学特征提取方法中64通道的滤波器模块一个实施例的示意图;
图7为本申请基于卷积神经网络的声学特征提取方法中128通道的滤波器模块一个实施例的示意图;
图8为本申请基于卷积神经网络的声学特征提取方法中256通道的滤波器模块一个实施例的示意图;
图9为本申请基于卷积神经网络的声学特征提取方法中512通道的滤波器模块一个实施例的示意图;
图10为本申请基于卷积神经网络的声学特征提取方法再一个实施例的流程图;
图11为本申请基于卷积神经网络的声学特征提取方法再一个实施例的流程图;
图12为本申请基于卷积神经网络的声学特征提取方法中跳跃链接结构的模型的配置一个实施例的示意图;
图13为本申请基于卷积神经网络的声学特征提取方法中64通道的滤波器模块另一个实施例的示意图;
图14为本申请基于卷积神经网络的声学特征提取方法中128通道的滤波器模块另一个实施例的示意图;
图15为本申请基于卷积神经网络的声学特征提取方法中256通道的滤波器模块另一个实施例的示意图;
图16为本申请基于卷积神经网络的声学特征提取方法中512通道的滤波器模块另一个实施例的示意图;
图17为本申请基于卷积神经网络的声学特征提取装置一个实施例的结构示意图;
图18为本申请基于卷积神经网络的声学特征提取装置另一个实施例的结构示意图;
图19为本申请终端设备一个实施例的结构示意图。
具体实施方式
下面详细描述本申请的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本申请,而不能理解为对本申请的限制。相反,本申请的实施例包括落入所附加权利要求书的精神和内涵范围内的所有变化、修改和等同物。
图1为本申请基于卷积神经网络的声学特征提取方法一个实施例的流程图,如图1所示,上述基于卷积神经网络的声学特征提取方法可以包括:
步骤101,将待识别的语音排列成预定纬数的语谱图。
具体地,可以每隔预定的时间间隔从上述待识别的语音中提取预定纬度的特征向量,以将上述待识别的语音排列成预定纬数的语谱图。
其中,上述预定纬数、预定纬度和预定的时间间隔可以在具体实现时根据实现需求和/或系统性能等自行设定,本实施例对上述预定纬数、预定纬度和预定的时间间隔的大小不作限定。
举例来说,为了能够使用2纬的卷积操作,首先要将待识别的语音排列成2纬的图像格式,以语音识别中常用的40纬度滤波器组(filter bank)特征为例,每10ms提取一个40纬度的特征向量,那么待识别的语音就可以排列成一张语谱图,如图2所示,图2为本申请基于卷积神经网络的声学特征提取方法中语谱图一个实施例的示意图,图2中,横轴表示时间,纵轴表示频点。
本例中,上述预定纬数为2纬,预定纬度为40纬度,预定的时间间隔为10ms。
步骤102,通过卷积神经网络对上述预定纬数的语谱图进行识别,获得上述待识别的语音中的声学特征。
上述基于卷积神经网络的声学特征提取方法中,将待识别的语音排列成预定纬数的语谱图,然后通过卷积神经网络对上述预定纬数的语谱图进行识别,获得上述待识别的语音中的声学特征,从而可以实现通过卷积神经网络提取语音中的声学特征,可以更好地表征语音中的声学特性,提高语音识别的准确率。
图3为本申请基于卷积神经网络的声学特征提取方法另一个实施例的流程图,如图3所示,本申请图1所示实施例中,步骤102可以为:
步骤301,通过卷积神经网络的残差网络结构对上述预定纬数的语谱图进行识别,获得上述待识别的语音中的声学特征。
图4为本申请基于卷积神经网络的声学特征提取方法再一个实施例的流程图,如图4所示,本申请图3所示实施例中,步骤301之前,还可以包括:
步骤401,配置卷积神经网络的残差网络结构的模型。
本实施例中,上述卷积神经网络的残差网络结构的模型的配置可以如图5所示,图5为本申请基于卷积神经网络的声学特征提取方法中残差网络结构的模型的配置一个实施例的示意图。
具体地,对于由1个64通道的滤波器组(filters=64)的卷积有向无环图(Directed Acycline Graph;以下简称:DAG)组成的64通道的滤波器模块(conv64block),由池化层(pooling)在时域和频域上均做降采样(downsample);
对于由1个128通道的滤波器组(filters=128)的卷积DAG组成的128通道的滤波器模块(conv128block),由池化层在时域和频域上均做降采样;
对于由1个256通道的滤波器组(filters=256)的卷积DAG组成的256通道的滤波器模块(conv256block),由池化层在频域上做降采样;
对于由1个512通道的滤波器组(filters=512)的卷积DAG组成的512通道的滤波器模块(conv512block),由池化层在频域上做降采样。
本实施例中,池化层在时域上做的降采样为1/2的降采样,池化层在频域上做的降采样也为1/2的降采样。
图6为本申请基于卷积神经网络的声学特征提取方法中64通道的滤波器模块一个实施例的示意图,图6中,copy表示把输入复制成若干份,sum表示将输入加在一起。
Conv2d64_1×1是kernalsize=1×1,filters=64的卷积层,Conv2d64_3×3是kernalsize=3×3,filters=64的卷积层。其中,kernalsize为卷积核,filters为滤波器组。
图7为本申请基于卷积神经网络的声学特征提取方法中128通道的滤波器模块一个实施例的示意图,图7中,copy表示把输入复制成若干份,sum表示将输入加在一起。
Conv128_1×1是kernalsize=1×1,filters=128的卷积层,Conv128_3×3是kernalsize=3×3,filters=128的卷积层。
图8为本申请基于卷积神经网络的声学特征提取方法中256通道的滤波器模块一个实施例的示意图,图8中,copy表示把输入复制成若干份,sum表示将输入加在一起。
Conv256_1×1是kernalsize=1×1,filters=256的卷积层,Conv256_3×3是kernalsize=3×3,filters=256的卷积层。
图9为本申请基于卷积神经网络的声学特征提取方法中512通道的滤波器模块一个实施例的示意图,图9中,copy表示把输入复制成若干份,sum表示将输入加在一起。
Conv512_1×1是kernalsize=1x1,filters=512的卷积层,Conv512_3×3是kernalsize=3×3,filters=512的卷积层。
图10为本申请基于卷积神经网络的声学特征提取方法再一个实施例的流程图,如图10所示,本申请图1所示实施例中,步骤102可以为:
步骤1001,通过卷积神经网络的跳跃链接结构对上述预定纬数的语谱图进行识别,获得上述待识别的语音中的声学特征。
图11为本申请基于卷积神经网络的声学特征提取方法再一个实施例的流程图,如图11所示,本申请图10所示实施例中,步骤1001之前,还可以包括:
步骤1101,配置卷积神经网络的跳跃链接结构的模型。
本实施例中,上述卷积神经网络的跳跃链接结构的模型的配置可以如图12所示,图12为本申请基于卷积神经网络的声学特征提取方法中跳跃链接结构的模型的配置一个实施例的示意图。
具体地,对于由1个64通道的滤波器组(filters=64)的卷积有向无环图(Directed Acycline Graph;以下简称:DAG)组成的64通道的滤波器模块(conv64block),由池化层(pooling)在时域和频域上均做降采样(downsample);
对于由1个128通道的滤波器组(filters=128)的卷积DAG组成的128通道的滤波器模块(conv128block),由池化层在时域和频域上均做降采样;
对于由1个256通道的滤波器组(filters=256)的卷积DAG组成的256通道的滤波器模块(conv256block),由池化层在频域上做降采样;
对于由1个512通道的滤波器组(filters=512)的卷积DAG组成的512通道的滤波器模块(conv512block),由池化层在频域上做降采样。
本实施例中,池化层在时域上做的降采样为1/2的降采样,池化层在频域上做的降采样也为1/2的降采样。
图13为本申请基于卷积神经网络的声学特征提取方法中64通道的滤波器模块另一个实施例的示意图,图13中,copysplitter表示把输入复制成若干份,concat表示将输入拼接在一起。Conv2d64是kernalsize=3×3,filters=64的卷积层。其中,kernalsize为卷积核,filters为滤波器组。
图14为本申请基于卷积神经网络的声学特征提取方法中128通道的滤波器模块另一个实施例的示意图,图14中,copysplitter表示把输入复制成若干份,concat表示将输入拼接在一起。Conv128_1×1是kernalsize=1×1,filters=128的卷积层,Conv128_3×3是kernalsize=3×3,filters=128的卷积层。
图15为本申请基于卷积神经网络的声学特征提取方法中256通道的滤波器模块另一个实施例的示意图,图15中,copysplitter表示把输入复制成若干份,concat表示将输入拼接在一起。Conv256_1×1是kernalsize=1×1,filters=256的卷积层,Conv256_3×3是kernalsize=3×3,filters=256的卷积层。
图16为本申请基于卷积神经网络的声学特征提取方法中512通道的滤波器模块另一个实施例的示意图,图16中,copysplitter表示把输入复制成若干份,concat表示将输入拼接在一起。Conv512_1×1是kernalsize=1×1,filters=512的卷积层,Conv512_3×3是kernalsize=3×3,filters=512的卷积层。
需要说明的是,本申请中,在池化(pooling)层,inception结构中使用了4次pooling来做降采样,但是在时域上降采样的次数比频域上少,例如本申请实施例中,在时域上降了2次,总共1/4;而在频域上降了4次,总共1/16。之所以这么设置是因为,语音识别中通常采用10ms为帧移,(也就是采样周期是10ms),因此,经过时域的降采样之后,采样周期会变大,举例来说,在本申请提供的结构中会变大到40ms。因此,降采样的次数与语音模型最后分类的粒度相关,举例来说,在以音素为建模单元的声学模型中,总共1/4的时域降采样是合适的,在以字为建模单元的模型中,总共1/8的时域降采样是合适的。
本申请提供的基于卷积神经网络的声学特征提取方法可以实现通过卷积神经网络提取语音中的声学特征,可以更好地表征语音中的声学特性,提高语音识别的准确率。
图17为本申请基于卷积神经网络的声学特征提取装置一个实施例的结构示意图,本实施例中的基于卷积神经网络的声学特征提取装置可以作为终端设备,或者终端设备的一部分实现本申请提供的基于卷积神经网络的声学特征提取方法。
其中,上述终端设备可以为客户端设备,也可以为服务端设备,上述客户端设备可以为智能手机或平板电脑等智能终端设备,上述服务端设备可以为语音识别服务器或搜索引擎等,本实施例对上述终端设备的形态不作限定。
如图17所示,上述基于卷积神经网络的声学特征提取装置可以包括:生成模块1701和识别模块1702;
其中,生成模块1701,用于将待识别的语音排列成预定纬数的语谱图;本实施例中,生成模块1701,具体用于每隔预定的时间间隔从上述待识别的语音中提取预定纬度的特征向量,以将上述待识别的语音排列成预定纬数的语谱图。
其中,上述预定纬数、预定纬度和预定的时间间隔可以在具体实现时根据实现需求和/或系统性能等自行设定,本实施例对上述预定纬数、预定纬度和预定的时间间隔的大小不作限定。
举例来说,为了能够使用2纬的卷积操作,首先要将待识别的语音排列成2纬的图像格式,以语音识别中常用的40纬度滤波器组(filter bank)特征为例,每10ms提取一个40纬度的特征向量,那么待识别的语音就可以排列成一张语谱图,如图2所示,图2中,横轴表示时间,纵轴表示频点。
本例中,上述预定纬数为2纬,预定纬度为40纬度,预定的时间间隔为10ms。
识别模块1702,用于通过卷积神经网络对生成模块1701生成的预定纬数的语谱图进行识别,获得上述待识别的语音中的声学特征。
上述基于卷积神经网络的声学特征提取装置中,生成模块1701将待识别的语音排列成预定纬数的语谱图,然后识别模块1702通过卷积神经网络对上述预定纬数的语谱图进行识别,获得上述待识别的语音中的声学特征,从而可以实现通过卷积神经网络提取语音中的声学特征,可以更好地表征语音中的声学特性,提高语音识别的准确率。
图18为本申请基于卷积神经网络的声学特征提取装置另一个实施例的结构示意图,本实施例的一种实现方式中,识别模块1702,具体用于通过卷积神经网络的残差网络结构对上述预定纬数的语谱图进行识别。
如图18所示,上述基于卷积神经网络的声学特征提取装置还可以包括:配置模块1703;
其中,配置模块1703,用于在识别模块1702对上述预定纬数的语谱图进行识别之前,配置上述卷积神经网络的残差网络结构的模型。
本实施例中,上述卷积神经网络的残差网络结构的模型的配置可以如图5所示。
具体地,配置模块1703,具体用于对于由1个64通道的滤波器组(filters=64)的卷积DAG组成的64通道的滤波器模块(conv64block),由池化层(pooling)在时域和频域上均做降采样(downsample);对于由1个128通道的滤波器组(filters=128)的卷积DAG组成的128通道的滤波器模块(conv128block),由池化层在时域和频域上均做降采样;对于由1个256通道的滤波器组(filters=256)的卷积DAG组成的256通道的滤波器模块(conv256block),由池化层在频域上做降采样;对于由1个512通道的滤波器组(filters=512)的卷积DAG组成的512通道的滤波器模块(conv512block),由池化层在频域上做降采样。
本实施例中,池化层在时域上做的降采样为1/2的降采样,池化层在频域上做的降采样也为1/2的降采样。
本实施例中,64通道的滤波器模块一个实施例的示意图可以如图6所示,图6中,copy表示把输入复制成若干份,sum表示将输入加在一起。
Conv2d64_1×1是kernalsize=1×1,filters=64的卷积层,Conv2d64_3×3是kernalsize=3×3,filters=64的卷积层。其中,kernalsize为卷积核,filters为滤波器组。
本实施例中,128通道的滤波器模块一个实施例的示意图可以如图7所示,图7中,copy表示把输入复制成若干份,sum表示将输入加在一起。
Conv128_1×1是kernalsize=1×1,filters=128的卷积层,Conv128_3×3是kernalsize=3×3,filters=128的卷积层。
本实施例中,256通道的滤波器模块一个实施例的示意图可以如图8所示,图8中,copy表示把输入复制成若干份,sum表示将输入加在一起。
Conv256_1×1是kernalsize=1×1,filters=256的卷积层,Conv256_3×3是kernalsize=3×3,filters=256的卷积层。
本实施例中,512通道的滤波器模块一个实施例的示意图可以如图9所示,图9中,copy表示把输入复制成若干份,sum表示将输入加在一起。
Conv512_1×1是kernalsize=1x1,filters=512的卷积层,Conv512_3×3是kernalsize=3×3,filters=512的卷积层。
本实施例的另一种实现方式中,识别模块1702,具体用于通过卷积神经网络的跳跃链接结构对上述预定纬数的语谱图进行识别。
进一步地,上述基于卷积神经网络的声学特征提取装置还可以包括:配置模块1703;
其中,配置模块1703,用于在识别模块1702对上述预定纬数的语谱图进行识别之前,配置上述卷积神经网络的跳跃链接结构的模型。
本实施例中,上述卷积神经网络的跳跃链接结构的模型的配置可以如图12所示。
具体地,配置模块1703,具体用于对于由1个64通道的滤波器组(filters=64)的卷积DAG组成的64通道的滤波器模块(conv64block),由池化层(pooling)在时域和频域上均做降采样(downsample);对于由1个128通道的滤波器组(filters=128)的卷积DAG组成的128通道的滤波器模块(conv128block),由池化层在时域和频域上均做降采样;对于由1个256通道的滤波器组(filters=256)的卷积DAG组成的256通道的滤波器模块(conv256block),由池化层在频域上做降采样;对于由1个512通道的滤波器组(filters=512)的卷积DAG组成的512通道的滤波器模块(conv512block),由池化层在频域上做降采样。
本实施例中,池化层在时域上做的降采样为1/2的降采样,池化层在频域上做的降采样也为1/2的降采样。
本实施例中,64通道的滤波器模块另一个实施例的示意图可以如图13所示,图13中,copysplitter表示把输入复制成若干份,concat表示将输入拼接在一起。Conv2d64是kernalsize=3×3,filters=64的卷积层。其中,kernalsize为卷积核,filters为滤波器组。
本实施例中,128通道的滤波器模块另一个实施例的示意图可以如图14所示,图14中,copysplitter表示把输入复制成若干份,concat表示将输入拼接在一起。Conv128_1×1是kernalsize=1×1,filters=128的卷积层,Conv128_3×3是kernalsize=3×3,filters=128的卷积层。
本实施例中,256通道的滤波器模块另一个实施例的示意图可以如图15所示,图15中,copysplitter表示把输入复制成若干份,concat表示将输入拼接在一起。Conv256_1×1是kernalsize=1×1,filters=256的卷积层,Conv256_3×3是kernalsize=3×3,filters=256的卷积层。
本实施例中,512通道的滤波器模块另一个实施例的示意图可以如图16所示,图16中,copysplitter表示把输入复制成若干份,concat表示将输入拼接在一起。Conv512_1×1是kernalsize=1×1,filters=512的卷积层,Conv512_3×3是kernalsize=3×3,filters=512的卷积层。
需要说明的是,本申请中,在池化(pooling)层,inception结构中使用了4次pooling来做降采样,但是在时域上降采样的次数比频域上少,例如本申请实施例中,在时域上降了2次,总共1/4;而在频域上降了4次,总共1/16。之所以这么设置是因为,语音识别中通常采用10ms为帧移,(也就是采样周期是10ms),因此,经过时域的降采样之后,采样周期会变大,举例来说,在本申请提供的结构中会变大到40ms。因此,降采样的次数与语音模型最后分类的粒度相关,举例来说,在以音素为建模单元的声学模型中,总共1/4的时域降采样是合适的,在以字为建模单元的模型中,总共1/8的时域降采样是合适的。
本申请提供的基于卷积神经网络的声学特征提取装置可以实现通过卷积神经网络提取语音中的声学特征,可以更好地表征语音中的声学特性,提高语音识别的准确率。
图19为本申请终端设备一个实施例的结构示意图,本实施例中的终端设备可以实现本申请提供的基于卷积神经网络的声学特征提取方法。
其中,上述终端设备可以为客户端设备,也可以为服务端设备,上述客户端设备可以为智能手机或平板电脑等智能终端设备,上述服务端设备可以为语音识别服务器或搜索引擎等,本实施例对上述终端设备的形态不作限定。
上述终端设备可以包括:一个或多个处理器;存储装置,用于存储一个或多个程序;当上述一个或多个程序被上述一个或多个处理器执行时,使得上述一个或多个处理器实现本申请提供的基于卷积神经网络的声学特征提取方法。
图19示出了适于用来实现本申请实施方式的示例性终端设备12的框图。图19显示的终端设备12仅仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。
如图19所示,终端设备12以通用计算设备的形式表现。终端设备12的组件可以包括但不限于:一个或者多个处理器或者处理单元16,系统存储器28,连接不同系统组件(包括系统存储器28和处理单元16)的总线18。
总线18表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,外围总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(Industry StandardArchitecture;以下简称:ISA)总线,微通道体系结构(Micro Channel Architecture;以下简称:MAC)总线,增强型ISA总线、视频电子标准协会(Video Electronics StandardsAssociation;以下简称:VESA)局域总线以及外围组件互连(Peripheral ComponentInterconnection;以下简称:PCI)总线。
终端设备12典型地包括多种计算机系统可读介质。这些介质可以是任何能够被终端设备12访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
系统存储器28可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器(Random Access Memory;以下简称:RAM)30和/或高速缓存存储器32。终端设备12可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例,存储系统34可以用于读写不可移动的、非易失性磁介质(图19未显示,通常称为“硬盘驱动器”)。尽管图19中未示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如:光盘只读存储器(Compact Disc Read OnlyMemory;以下简称:CD-ROM)、数字多功能只读光盘(Digital Video Disc Read OnlyMemory;以下简称:DVD-ROM)或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线18相连。存储器28可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本申请各实施例的功能。
具有一组(至少一个)程序模块42的程序/实用工具40,可以存储在例如存储器28中,这样的程序模块42包括——但不限于——操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本申请所描述的实施例中的功能和/或方法。
终端设备12也可以与一个或多个外部设备14(例如键盘、指向设备、显示器24等)通信,还可与一个或者多个使得用户能与该终端设备12交互的设备通信,和/或与使得该终端设备12能与一个或多个其它计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口22进行。并且,终端设备12还可以通过网络适配器20与一个或者多个网络(例如局域网(Local Area Network;以下简称:LAN),广域网(Wide Area Network;以下简称:WAN)和/或公共网络,例如因特网)通信。如图19所示,网络适配器20通过总线18与终端设备12的其它模块通信。应当明白,尽管图19中未示出,可以结合终端设备12使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
处理单元16通过运行存储在系统存储器28中的程序,从而执行各种功能应用以及数据处理,例如实现本申请提供的基于卷积神经网络的声学特征提取方法。
本申请还提供一种包含计算机可执行指令的存储介质,上述计算机可执行指令在由计算机处理器执行时用于执行本申请提供的基于卷积神经网络的声学特征提取方法。
上述包含计算机可执行指令的存储介质可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(Read Only Memory;以下简称:ROM)、可擦式可编程只读存储器(ErasableProgrammable Read Only Memory;以下简称:EPROM)或闪存、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括——但不限于——电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括——但不限于——无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本申请操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LocalArea Network;以下简称:LAN)或广域网(Wide Area Network;以下简称:WAN)连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
需要说明的是,在本申请的描述中,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性。此外,在本申请的描述中,除非另有说明,“多个”的含义是两个或两个以上。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本申请的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本申请的实施例所属技术领域的技术人员所理解。
应当理解,本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(Programmable Gate Array;以下简称:PGA),现场可编程门阵列(Field ProgrammableGate Array;以下简称:FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,本申请各个实施例中的各功能模块可以集成在一个处理模块中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
上述提到的存储介质可以是只读存储器,磁盘或光盘等。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
尽管上面已经示出和描述了本申请的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本申请的限制,本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (6)

1.一种基于卷积神经网络的声学特征提取方法,其特征在于,包括:
将待识别的语音排列成预定纬数的语谱图;
通过卷积神经网络对所述预定纬数的语谱图进行识别,获得所述待识别的语音中的声学特征;
其中,所述通过卷积神经网络对所述预定纬数的语谱图进行识别包括:
通过卷积神经网络的残差网络结构或跳跃链接结构对所述预定纬数的语谱图进行识别;
所述通过卷积神经网络的残差网络结构或跳跃链接结构对所述预定纬数的语谱图进行识别之前,还包括:配置所述卷积神经网络的残差网络结构的模型或跳跃链接结构的模型;
所述配置所述卷积神经网络的残差网络结构的模型或跳跃链接结构的模型包括:
对于由1个64通道的滤波器组的卷积有向无环图组成的64通道的滤波器模块,由池化层在时域和频域上均做降采样;
对于由1个128通道的滤波器组的卷积有向无环图组成的128通道的滤波器模块,由池化层在时域和频域上均做降采样;
对于由1个256通道的滤波器组的卷积有向无环图组成的256通道的滤波器模块,由池化层在频域上做降采样;
对于由1个512通道的滤波器组的卷积有向无环图组成的512通道的滤波器模块,由池化层在频域上做降采样。
2.根据权利要求1所述的方法,其特征在于,所述将待识别的语音排列成预定纬数的语谱图包括:
每隔预定的时间间隔从所述待识别的语音中提取预定纬度的特征向量,以将所述待识别的语音排列成预定纬数的语谱图。
3.一种基于卷积神经网络的声学特征提取装置,其特征在于,包括:
生成模块,用于将待识别的语音排列成预定纬数的语谱图;
识别模块,用于通过卷积神经网络对所述生成模块生成的预定纬数的语谱图进行识别,获得所述待识别的语音中的声学特征;
其中,所述识别模块,具体用于通过卷积神经网络的残差网络结构或跳跃链接结构对所述预定纬数的语谱图进行识别;
所述装置还包括:
配置模块,用于在所述识别模块对所述预定纬数的语谱图进行识别之前,配置所述卷积神经网络的残差网络结构的模型或跳跃链接结构的模型;
所述配置模块,具体用于对于由1个64通道的滤波器组的卷积有向无环图组成的64通道的滤波器模块,由池化层在时域和频域上均做降采样;对于由1个128通道的滤波器组的卷积有向无环图组成的128通道的滤波器模块,由池化层在时域和频域上均做降采样;对于由1个256通道的滤波器组的卷积有向无环图组成的256通道的滤波器模块,由池化层在频域上做降采样;对于由1个512通道的滤波器组的卷积有向无环图组成的512通道的滤波器模块,由池化层在频域上做降采样。
4.根据权利要求3所述的装置,其特征在于,
所述生成模块,具体用于每隔预定的时间间隔从所述待识别的语音中提取预定纬度的特征向量,以将所述待识别的语音排列成预定纬数的语谱图。
5.一种终端设备,其特征在于,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如权利要求1-2中任一所述的方法。
6.一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时用于执行如权利要求1-2中任一所述的方法。
CN201710172622.6A 2017-03-21 2017-03-21 基于卷积神经网络的声学特征提取方法、装置和终端设备 Active CN106887225B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201710172622.6A CN106887225B (zh) 2017-03-21 2017-03-21 基于卷积神经网络的声学特征提取方法、装置和终端设备
US15/914,066 US10621972B2 (en) 2017-03-21 2018-03-07 Method and device extracting acoustic feature based on convolution neural network and terminal device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710172622.6A CN106887225B (zh) 2017-03-21 2017-03-21 基于卷积神经网络的声学特征提取方法、装置和终端设备

Publications (2)

Publication Number Publication Date
CN106887225A CN106887225A (zh) 2017-06-23
CN106887225B true CN106887225B (zh) 2020-04-07

Family

ID=59182593

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710172622.6A Active CN106887225B (zh) 2017-03-21 2017-03-21 基于卷积神经网络的声学特征提取方法、装置和终端设备

Country Status (2)

Country Link
US (1) US10621972B2 (zh)
CN (1) CN106887225B (zh)

Families Citing this family (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107221326B (zh) * 2017-05-16 2021-05-28 百度在线网络技术(北京)有限公司 基于人工智能的语音唤醒方法、装置和计算机设备
CN107689223A (zh) * 2017-08-30 2018-02-13 北京嘉楠捷思信息技术有限公司 一种音频识别方法及装置
CN107818779A (zh) * 2017-09-15 2018-03-20 北京理工大学 一种婴幼儿啼哭声检测方法、装置、设备及介质
CN107609646B (zh) * 2017-10-12 2021-01-29 苏州浪潮智能科技有限公司 一种残差网络实现方法、系统、设备及计算机存储介质
CN109725936B (zh) 2017-10-30 2022-08-26 上海寒武纪信息科技有限公司 扩展计算指令的实现方法以及相关产品
CN107798381B (zh) * 2017-11-13 2021-11-30 河海大学 一种基于卷积神经网络的图像识别方法
CN108281138B (zh) * 2017-12-18 2020-03-31 百度在线网络技术(北京)有限公司 年龄判别模型训练及智能语音交互方法、设备及存储介质
CN108172213B (zh) * 2017-12-26 2022-09-30 北京百度网讯科技有限公司 娇喘音频识别方法、装置、设备及计算机可读介质
CN110503968B (zh) * 2018-05-18 2024-06-04 北京搜狗科技发展有限公司 一种音频处理方法、装置、设备及可读存储介质
US11227626B1 (en) * 2018-05-21 2022-01-18 Snap Inc. Audio response messages
US20210098001A1 (en) 2018-09-13 2021-04-01 Shanghai Cambricon Information Technology Co., Ltd. Information processing method and terminal device
CN109448707A (zh) * 2018-12-18 2019-03-08 北京嘉楠捷思信息技术有限公司 一种语音识别方法及装置、设备、介质
CN110047490A (zh) * 2019-03-12 2019-07-23 平安科技(深圳)有限公司 声纹识别方法、装置、设备以及计算机可读存储介质
CN110120227B (zh) * 2019-04-26 2021-03-19 天津大学 一种深度堆叠残差网络的语音分离方法
CN110728991B (zh) * 2019-09-06 2022-03-01 南京工程学院 一种改进的录音设备识别算法
CN111326178A (zh) * 2020-02-27 2020-06-23 长沙理工大学 基于卷积神经网络的多模态语音情感识别系统及方法
CN112992119B (zh) * 2021-01-14 2024-05-03 安徽大学 基于深度神经网络的口音分类方法及其模型
CN112562657A (zh) * 2021-02-23 2021-03-26 成都启英泰伦科技有限公司 一种基于深度神经网络的个性语言离线学习方法
CN113793602B (zh) * 2021-08-24 2022-05-10 北京数美时代科技有限公司 一种未成年人的音频识别方法和系统
CN116712056B (zh) * 2023-08-07 2023-11-03 合肥工业大学 心电图数据的特征图像生成与识别方法、设备及存储介质
CN117576467B (zh) * 2023-11-22 2024-04-26 安徽大学 一种融合频率域和空间域信息的农作物病害图像识别方法

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10783900B2 (en) * 2014-10-03 2020-09-22 Google Llc Convolutional, long short-term memory, fully connected deep neural networks
CN106128465A (zh) * 2016-06-23 2016-11-16 成都启英泰伦科技有限公司 一种声纹识别系统及方法
CN106710589B (zh) * 2016-12-28 2019-07-30 百度在线网络技术(北京)有限公司 基于人工智能的语音特征提取方法及装置
US20180197098A1 (en) * 2017-01-10 2018-07-12 Facebook, Inc. Systems and methods for captioning content
EP3573520A4 (en) * 2017-01-27 2020-11-04 Arterys Inc. AUTOMATED SEGMENTATION USING FULLY CONVOLUTIVE NETWORKS
JP6888312B2 (ja) * 2017-02-02 2021-06-16 沖電気工業株式会社 情報処理装置、情報処理方法、およびプログラム
US10440180B1 (en) * 2017-02-27 2019-10-08 United Services Automobile Association (Usaa) Learning based metric determination for service sessions
US10475465B2 (en) * 2017-07-03 2019-11-12 Yissum Research Development Company, of The Hebrew University of Jerusalem Ltd. Method and system for enhancing a speech signal of a human speaker in a video using visual information

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Deep Residual Learning for Image Recognition;Kaiming He 等;《arXiv:1512.03385v1 [cs.CV] 10 Dec 2015》;20151210 *
基于深层神经网络的音频特征提取及场景识别研究;王乃峰;《中国优秀硕士学位论文全文数据库(信息科技辑)》;20160215 *

Also Published As

Publication number Publication date
US10621972B2 (en) 2020-04-14
US20180277097A1 (en) 2018-09-27
CN106887225A (zh) 2017-06-23

Similar Documents

Publication Publication Date Title
CN106887225B (zh) 基于卷积神经网络的声学特征提取方法、装置和终端设备
US10943582B2 (en) Method and apparatus of training acoustic feature extracting model, device and computer storage medium
US10867618B2 (en) Speech noise reduction method and device based on artificial intelligence and computer device
US10522136B2 (en) Method and device for training acoustic model, computer device and storage medium
CN107808098B (zh) 一种模型安全检测方法、装置以及电子设备
CN107481717B (zh) 一种声学模型训练方法及系统
CN110197658B (zh) 语音处理方法、装置以及电子设备
CN108492818B (zh) 文本到语音的转换方法、装置和计算机设备
CN112927674B (zh) 语音风格的迁移方法、装置、可读介质和电子设备
CN108335694A (zh) 远场环境噪声处理方法、装置、设备和存储介质
CN110136715A (zh) 语音识别方法和装置
CN117337467A (zh) 经由迭代说话者嵌入的端到端说话者分离
CN114898177B (zh) 缺陷图像生成方法、模型训练方法、设备、介质及产品
CN111312223A (zh) 语音分割模型的训练方法、装置和电子设备
CN113963715A (zh) 语音信号的分离方法、装置、电子设备及存储介质
CN111312224B (zh) 语音分割模型的训练方法、装置和电子设备
CN114694637A (zh) 混合语音识别方法、装置、电子设备及存储介质
CN111128131B (zh) 语音识别方法、装置、电子设备及计算机可读存储介质
CN109766089B (zh) 基于动图的代码生成方法、装置、电子设备及存储介质
CN116705034A (zh) 声纹特征提取方法、说话人识别方法、模型训练方法及装置
CN113569581B (zh) 意图识别方法、装置、设备及存储介质
CN111460214B (zh) 分类模型训练方法、音频分类方法、装置、介质及设备
CN111899747B (zh) 用于合成音频的方法和装置
CN114170997A (zh) 发音技巧检测方法、装置、存储介质及电子设备
CN112951274A (zh) 语音相似度确定方法及设备、程序产品

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant