CN110148400A

CN110148400A - 发音类型的识别方法、模型的训练方法、装置及设备

Info

Publication number: CN110148400A
Application number: CN201810790666.XA
Authority: CN
Inventors: 余亭浩
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2018-07-18
Filing date: 2018-07-18
Publication date: 2019-08-20
Anticipated expiration: 2038-07-18
Also published as: CN110148400B

Abstract

本申请实施例公开了一种发音类型的识别方法、模型的训练方法、装置及设备。所述方法包括：获取待识别音频数据；生成待识别音频数据的频谱图；根据待识别音频数据的频谱图，生成至少一个预测样本；其中，每一个预测样本包括从待识别音频数据的频谱图中提取的n个频谱图片段，n为正整数；调用完成训练的神经网络模型对预测样本进行处理，得到待识别音频数据的发音类型。本申请实施例通过生成音频数据的频谱图，从而将音频识别问题转换为图像识别问题，并采用深度学习技术，通过模型得到待识别音频数据的发音类型，方案具有较高的鲁棒性，从而提高了对发音类型进行识别的准确度。

Description

发音类型的识别方法、模型的训练方法、装置及设备

技术领域

本申请实施例涉及音频识别技术领域，特别涉及一种发音类型的识别方法、发音类型识别模型的训练方法、装置、设备及存储介质。

背景技术

随着短视频应用的兴起，短视频中音频内容的发音类型也是多种多样。有些短视频中音频内容的发音类型是普通话，也有些短视频中音频内容的发音类型并非是普通话，如各地方言或者外语。

对于音频内容的发音类型并非是普通话的短视频而言，其并不适合推荐给所有用户。为提升用户体验，需要对短视频中音频内容的发音类型进行识别，以进行个性化推荐。例如，将发音类型为粤语的短视频推荐给广东地区用户，将发音类型为上海话的短视频推荐给上海地区用户，等等。

在相关技术中，采用下述方式识别短视频中音频内容的发音类型：预先人工制定需要提取的声学特征，如MFCC(Mel-Frequency Cepstral Coefficients，梅尔频率倒谱系数)、SDC(Shifted Delta Cepstra，移位差分倒谱特征)等声学特征；然后提取待识别短视频的音频数据，进一步提取该音频数据的上述声学特征；之后，通过分类模型或者GMM(Gaussian Mixed Model，高斯混合模型)，基于上述声学特征来确定待识别短视频中音频内容的发音类型。

上述相关技术对发音类型的识别，依赖于声学特征，而这些声学特征对于各类噪声信息的干扰不具备鲁棒性。而在现实场景中，音频内容因为环境因素、说话人特征、背景音等，会呈现多种多样的特点，因此采用相关技术提供的方案，对发音类型进行识别的准确度并不高，无法很好地应对复杂多样的现实场景。

发明内容

本申请实施例提供了一种发音类型的识别方法、发音类型识别模型的训练方法、装置、设备及存储介质，可用于解决相关技术对发音类型进行识别的准确度不高的问题。技术方案如下：

一方面，本申请实施例提供一种发音类型的识别方法，所述方法包括：

获取待识别音频数据；

生成所述待识别音频数据的频谱图；

根据所述待识别音频数据的频谱图，生成至少一个预测样本；其中，每一个预测样本包括从所述待识别音频数据的频谱图中提取的n个频谱图片段，所述n为正整数；

调用完成训练的神经网络模型对所述预测样本进行处理，得到所述待识别音频数据的发音类型。

另一方面，本申请实施例提供一种发音类型识别模型的训练方法，所述方法包括：

获取训练音频数据，所述训练音频数据是指用于生成训练样本的音频数据；

生成所述训练音频数据的频谱图；

根据所述训练音频数据的频谱图，生成至少一个所述训练样本；其中，每一个训练样本包括：从所述训练音频数据的频谱图中提取的n个频谱图片段，以及所述训练样本的标签，所述训练样本的标签用于指示所述训练样本的真实发音类型，所述n为正整数；

采用所述训练样本对用于识别发音类型的神经网络模型进行训练，得到完成训练的所述神经网络模型。

再一方面，本申请实施例提供一种发音类型的识别装置，所述装置包括：

待识别数据获取模块，用于获取待识别音频数据；

频谱图生成模块，用于生成所述待识别音频数据的频谱图；

预测样本生成模块，用于根据所述待识别音频数据的频谱图，生成至少一个预测样本；其中，每一个预测样本包括从所述待识别音频数据的频谱图中提取的n个频谱图片段，所述n为正整数；

模型预测模块，用于调用完成训练的神经网络模型对所述预测样本进行处理，得到所述待识别音频数据的发音类型。

再一方面，本申请实施例提供一种发音类型识别模型的训练装置，所述装置包括：

训练数据获取模块，用于获取训练音频数据，所述训练音频数据是指用于生成训练样本的音频数据；

频谱图生成模块，用于生成所述训练音频数据的频谱图；

训练样本生成模块，用于根据所述训练音频数据的频谱图，生成至少一个所述训练样本；其中，每一个训练样本包括：从所述训练音频数据的频谱图中提取的n个频谱图片段，以及所述训练样本的标签，所述训练样本的标签用于指示所述训练样本的真实发音类型，所述n为正整数；

模型训练模块，用于采用所述训练样本对用于识别发音类型的神经网络模型进行训练，得到完成训练的所述神经网络模型。

还一方面，本申请实施例提供一种计算机设备，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现上述方面所述的发音类型的识别方法，或者实现上述方面所述的发音类型识别模型的训练方法。

又一方面，本申请实施例提供一种计算机可读存储介质，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现上述方面所述的发音类型的识别方法，或者实现上述方面所述的发音类型识别模型的训练方法。

又一方面，本申请实施例提供一种计算机程序产品，当该计算机程序产品被执行时，其用于执行上述方面所述的发音类型的识别方法，或者实现上述方面所述的发音类型识别模型的训练方法。

在本申请实施例提供的技术方案中，通过生成音频数据的频谱图，从而将音频识别问题转换为图像识别问题，并且，采用深度学习技术，对训练样本进行学习生成用于识别发音类型的神经网络模型，后续便可采用该神经网络模型识别待识别音频数据的发音类型，整个过程无需人工制定所要提取的特征，即便是复杂多样的现实场景下的各类干扰，也能够在模型训练阶段进行学习，因此本申请实施例提供的技术方案具有较高的鲁棒性，从而提高了对发音类型进行识别的准确度。

附图说明

图1是本申请一个实施例提供的实施环境的示意图；

图2是本申请一个实施例提供的发音类型的识别方法的流程图；

图3示例性示出了若干个频谱图片段的示意图；

图4示例性示出了一种CRNN模型的架构图；

图5示例性示出了确定待识别视频数据中音频内容的发音类型的流程图；

图6示例性示出了给待识别视频数据添加标签的示意图；

图7是本申请一个实施例提供的发音类型识别模型的训练方法的流程图；

图8示例性示出了一种CRNN模型的架构图；

图9示例性示出了发音类型识别模型的训练过程的示意图；

图10是本申请一个实施例提供的发音类型的识别装置的框图；

图11是本申请一个实施例提供的发音类型识别模型的训练装置的框图；

图12是本申请一个实施例提供的计算机设备的结构框图。

具体实施方式

下面将结合附图对本申请实施方式作进一步地详细描述。

本申请实施例提供的技术方案，主要涉及如下两部分内容：第一，发音类型识别模型(也即用于识别发音的神经网络模型)的训练过程，该过程可以称为模型训练过程；第二，采用完成训练的发音类型识别模型对待识别音频数据的发音类型的识别过程，该过程可以称为模型使用过程。在一个示例中，请参考图1，其示例性示出了一种实施环境的示意图。该实施环境可以包括：PC(personal computer，个人计算机)10和服务器20。其中，PC 10用于执行模型训练过程，得到完成训练的发音类型识别模型。该完成训练的发音类型识别模型可以被提供给服务器20。服务器20用于执行模型使用过程。有关模型训练过程和模型使用过程的具体流程，可参见下文方法实施例中的介绍说明。

另外，本申请实施例提供的发音类型识别模型，可用于识别音频数据的发音类型，如歌曲、录音等音频数据；也可以用于识别视频数据中的音频内容的发音类型，如短视频、中长视频等视频数据。

在本申请实施例提供的技术方案中，发音类型是指声音所属的语言类型。发音类型的种类划分可以根据实际需求预先设定。

在一个示例中，发音类型包括如下两种：1、普遍易懂中文发音；2、普遍不易懂发音。其中，普遍易懂中文发音是指容易听懂的中文发音，包括普通话以及与普通话接近的地方方言，如四川话、东北话、天津话、唐山话等。普遍不易懂发音是指不容易听懂的发音，包括除普遍易懂中文发音以外的其它发音，包括与普通话差异较大的地方方言，如粤语、闽南语、温州话、上海话、维语等，以及包括除中国以外的其它国家的语言，如英语、韩语、日语、俄语、德语、法语、葡萄牙语、西班牙语等。

当然，上述仅示例性示出了一种发音类型的种类划分方式。在其它示例性，发音类型也可以分为汉语、英语、韩语、日语、俄语、德语、法语、葡萄牙语、西班牙语等不同种类；或者，发音类型还可以分为普通话、与普通话接近的地方方言、与普通话差异较大的地方方言、除中国以外的其它国家的语言等不同种类。发音类型的种类划分可以根据实际需求预先设定，本申请实施例对此不作具体限定。

请参考图2，其示出了本申请一个实施例提供的发音类型的识别方法的流程图。该方法可应用于图1所示实施环境的服务器20中。该方法可以包括如下几个步骤：

步骤201，获取待识别音频数据。

待识别音频数据是指有待识别其发音类型的音频数据。

可选地，待识别音频数据是从待识别视频数据中提取得到的。服务器可以获取待识别视频数据，提取待识别视频数据中的音频信息，得到待识别音频数据。在本申请实施例中，对于从视频数据中提取音频数据的方式不作限定，例如可以采用音频提取工具(如FFmpeg)从视频数据中提取音频数据。

步骤202，生成待识别音频数据的频谱图。

服务器可以采用频谱图生成工具(如sox)，生成待识别音频数据的频谱图。至此，便将一段音频数据转换为了一幅图像。可选地，频谱图采用灰度图表示。频谱图的长度由待识别音频数据的时长决定，频谱图的宽度为预设值。例如，每秒音频数据在频谱图的长度上对应50个像素，最高频率限定为10kHz，频谱图的宽度设定为129像素。当然，上述对频谱图的相关参数的设定仅是示例性和解释性的，其可根据实际需求预先设定，本申请实施例对此不作限定。

步骤203，根据待识别音频数据的频谱图，生成至少一个预测样本。

每一个预测样本包括从待识别音频数据的频谱图中提取的n个频谱图片段，n为正整数。可选地，上述n个频谱图片段中，各个频谱图片段的长度相同，且宽度也相同。

在一些实施例中，服务器可以对待识别音频数据的频谱图进行切分，得到若干个长度为预设长度且宽度为预设宽度的频谱图片段。上述预设长度和预设宽度的取值可以预先设定，例如预设长度为500像素，预设宽度为129像素。每一个频谱图片段仍然是一张图像。

示例性地，如图3所示，其示出了若干个频谱图片段的示意图。各个频谱图片段具有相同的图像尺寸，且每一个频谱图片段中记录有一段目标时长的音频数据的频谱信息。

另外，上述预测样本中包含的频谱图片段的数量，与模型训练过程中训练样本所包含的频谱图片段的数量相同，均为n。在一种可能的实施方式中，n为1。在另一种可能的实施方式中，n为预设常数，且该预设常数为大于1的整数。

服务器将待识别音频数据的频谱图切分为若干个频谱图片段之后，对于从中选取频谱图片段生成预测样本时的选取规则，本申请实施例对此不作限定。例如可以随机选取n个频谱图片段，生成一个预测样本。另外，服务器可以生成一个预测样本，也可以生成多个预测样本。当服务器生成多个预测样本时，任意两个预测样本中，包含至少一个不相同的频谱图片段。

步骤204，调用完成训练的神经网络模型对预测样本进行处理，得到待识别音频数据的发音类型。

本申请实施例中的神经网络模型可以称为发音类型识别模型，其用于对待识别音频数据的发音类型进行识别。

在一个示例中，上述神经网络模型为CRNN(Convolutional Recurrent NeuralNetwork，卷积循环神经网络)模型。CRNN模型是CNN(Convolutional Neural Network，卷积神经网络)和RNN(Recurrent Neural Network，循环神经网络)的组合。

可选地，如图4所示，该CRNN模型包括：输入层、CNN层、池化层、堆叠层、切片层、RNN层、全连接层和输出层。其中：输入层用于输入预测样本所包含的n个频谱图片段；CNN层用于将n个频谱图片段转化为特征图；池化层用于对特征图进行池化处理，得到多个池化处理后的特征图；堆叠层用于对多个池化处理后的特征图进行堆叠处理，得到堆叠处理后的特征图；切片层用于对堆叠处理后的特征图进行切片处理，得到特征向量序列，该特征向量序列包括在时间维度上切分的多个特征向量；RNN层用于记忆上述多个特征向量在时间维度上的关系，得到输出向量；全连接层用于根据输出向量得到预测样本在多种不同的发音类型中的概率分布；输出层用于输出上述概率分布。有关CRNN模型各层的详细说明，可参见下文关于模型训练过程的实施例，本实施例对此不作赘述。

在一个示例中，当预测样本的数量为1个时，服务器通过上述神经网络模型获取预测样本在多种不同的发音类型中的概率分布之后，将概率最大的发音类型，确定为待识别音频数据的发音类型。例如，预先设定发音类型包括如下两种：1、普遍易懂中文发音；2、普遍不易懂发音。预测样本在上述两种发音类型中的概率分布分别为a和b。则，当a＞b时，服务器确定待识别音频数据的发音类型为普遍易懂中文发音；当a＜b时，服务器确定待识别音频数据的发音类型为普遍不易懂发音。

在另一个示例中，当预测样本的数量为k个，且k为大于1的整数时，上述步骤204可以包括如下几个子步骤：

1、调用完成训练的神经网络模型，分别对k个预测样本中的每一个预测样本进行处理，得到每一个预测样本在多种不同的发音类型中的概率分布；

2、根据k个预测样本中的每一个预测样本在多种不同的发音类型中的概率分布，得到k个预测样本在多种不同的发音类型中的平均概率分布；

3、将平均概率最大的发音类型，确定为待识别音频数据的发音类型。

例如，预先设定发音类型包括如下两种：1、普遍易懂中文发音；2、普遍不易懂发音。假设预测样本的数量为3个，分别记为第一预测样本、第二预测样本和第三预测样本。其中，第一预测样本在上述两种发音类型中的概率分布分别为a1和b1，第二预测样本在上述两种发音类型中的概率分布分别为a2和b2，第三预测样本在上述两种发音类型中的概率分布分别为a3和b3，则这3个预测样本在上述两种发音类型中的平均概率分布分别为a0和b0，其中，a0＝(a1+a2+a3)/3，b0＝(b1+b2+b3)/3。当a0＞b0时，服务器确定待识别音频数据的发音类型为普遍易懂中文发音；当a0＜b0时，服务器确定待识别音频数据的发音类型为普遍不易懂发音。

在实际应用中，预测样本的数量可以在权衡计算复杂度和识别准确度两方面因素之后进行设定。通过综合多个预测样本对应的预测结果，最终确定待识别音频数据的发音类型，有助于提升最终的识别准确度。

综上所述，本申请实施例提供的技术方案中，通过生成音频数据的频谱图，从而将音频识别问题转换为图像识别问题，并且，采用深度学习技术，通过用于识别发音类型的神经网络模型得到待识别音频数据的发音类型，整个过程无需人工制定所要提取的特征，即便是复杂多样的现实场景下的各类干扰，也能够在模型训练阶段进行学习，因此本申请实施例提供的技术方案具有较高的鲁棒性，从而提高了对发音类型进行识别的准确度。

在上述图2实施例中，对模型使用过程进行了介绍说明。结合参考图5，以确定待识别视频数据中的音频内容的发音类型为例，其示出了相应的流程示意图。在获取待识别视频数据之后，提取待识别视频数据中的音频信息，得到待识别音频数据；之后，生成待识别音频数据的频谱图；然后，对待识别音频数据的频谱图进行切分，得到若干个频谱图片段，选取频谱图片段构建预测样本；最后，调用完成训练的CRNN模型对所述预测样本进行处理，得到待识别视频数据中的音频内容的发音类型。

可选地，服务器识别出待识别视频数据中的音频内容的发音类型之后，可以给待识别视频数据打上标签，该标签用于指示该待识别视频数据中的音频内容的发音类型。示例性地，如图6所示，待识别视频数据的标签包括是否为中文发音的标签60，当该是否为中文发音的标签60被记为“是”时，表明该待识别视频数据中的音频内容是普遍易懂中文发音，当该是否为中文发音的标签60被记为“否”时，表明该待识别视频数据中的音频内容是普遍不易懂发音。

在短视频应用中，每日新增的短视频数量可能达到几十万甚至数百万。在应用本申请实施例提供的技术方案之前，判断短视频中音频内容的发音类型，需要由人工收听判断，效率较低，这不仅影响短视频推荐的及时性，而且消耗大量的人力成本。在应用本申请实施例提供的技术方案之后，能够有效解决因人工识别效率低所导致的推荐不及时的问题，提升了短视频推荐的及时性，并且自动识别的准确度也高于人工识别的准确度。相关实验数据如下表-1所示：

表-1

从上述表-1中可以看出，人工识别的总体准确度为97.3％，采用本申请技术方案进行发音类型识别的总体准确度为99.4％，高于人工识别的总体准确度。

请参考图7，其示出了本申请一个实施例提供的发音类型识别模型的训练方法的流程图。该方法可应用于图1所示实施环境的PC 10中。该方法可以包括如下几个步骤：

步骤701，获取训练音频数据。

训练音频数据是指用于生成训练样本的音频数据。

可选地，训练音频数据是从训练视频数据中提取得到的，训练视频数据是指用于生成训练样本的视频数据。PC可以获取训练视频数据，提取训练视频数据中的音频信息，得到训练音频数据。在本申请实施例中，对于从视频数据中提取音频数据的方式不作限定，例如可以采用音频提取工具(如FFmpeg)从视频数据中提取音频数据。

可选地，考虑到在实际应用场景中，视频数据的音频内容中除了包含人说话的声音以外，还可能包含背景音、环境噪声等，因此PC在提取训练视频数据中的音频信息之后，可以在音频信息中混入噪音信息，生成训练音频数据。其中，噪音信息可以包括背景音乐、噪声等声音信息。通过上述方式，可以起到增强训练样本的目的。

在本申请实施例中，对训练视频数据或训练音频数据的获取渠道不作限定，包括但不限于：历史审核确定其发音类型的视频数据或音频数据、从网络抓取的各地电视台节目的视频数据或音频数据、从网络抓取的不同语言的电影电视节目的视频数据或音频数据。PC获取到上述训练视频数据或训练音频数据之后，可以按照发音类型进行分类存储。另外，可以对获取的训练视频数据或训练音频数据进行数据清洗，以剔除掉一些质量较差的数据，如剔除掉质量较差的来源的数据、剔除掉损坏或者过短的数据等，本申请实施例对此不作限定。

需要说明的一点是，在模型训练过程中，需要大量的训练样本，因此需要获取较多数量的训练音频数据。对于每一段训练音频数据的处理，均可采用本实施例提供的方法流程。

步骤702，生成训练音频数据的频谱图。

服务器可以采用频谱图生成工具(如sox)，生成训练音频数据的频谱图。至此，便将一段音频数据转换为了一幅图像。可选地，频谱图采用灰度图表示。频谱图的长度由训练音频数据的时长决定，频谱图的宽度为预设值。例如，每秒音频数据在频谱图的长度上对应50个像素，最高频率限定为10kHz，频谱图的宽度设定为129像素。当然，上述对频谱图的相关参数的设定仅是示例性和解释性的，其可根据实际需求预先设定，本申请实施例对此不作限定。

步骤703，根据训练音频数据的频谱图，生成至少一个训练样本。

每一个训练样本包括：从训练音频数据的频谱图中提取的n个频谱图片段，以及训练样本的标签，训练样本的标签用于指示训练样本的真实发音类型，n为正整数。可选地，上述n个频谱图片段中，各个频谱图片段的长度相同，且宽度也相同。

在一些实施例中，服务器可以对训练音频数据的频谱图进行切分，得到若干个长度为预设长度且宽度为预设宽度的频谱图片段。上述预设长度和预设宽度的取值可以预先设定，例如预设长度为500像素，预设宽度为129像素。每一个频谱图片段仍然是一张图像。有关频谱图片段的图示可参见图3。

PC将训练音频数据的频谱图切分为若干个频谱图片段之后，对于从中选取频谱图片段生成训练样本时的选取规则，本申请实施例对此不作限定。例如可以随机选取n个频谱图片段，生成一个训练样本。另外，任意两个训练样本中，包含至少一个不相同的频谱图片段。

另外，每一个训练样本中包含的频谱图片段的数量相同，均为n。在一种可能的实施方式中，n为1。在另一种可能的实施方式中，n为预设常数，且该预设常数为大于1的整数。需要说明的是，不论从何种渠道获取的训练音频数据，其标签均是对应该训练音频数据中的整个音频内容的，一个训练音频数据的标签，仅能够代表该训练音频数据中的主体音频内容的真实发音类型，但该训练音频数据中，可能并不是所有的片段的发音类型均一致，会存在噪声、背景音乐、静音或者其它特殊片段。如果每一个训练样本中仅包含一个频谱图片段，训练样本的标签的准确度不够高，从而影响到最终训练得到的发音类型识别模型的识别准确度。而当每一个训练样本中包含多个频谱图片段时，可以更大概率地保证训练样本中的主体音频内容与其标签是匹配的，从而提高最终训练得到的发音类型识别模型的识别准确度，且能够扩充训练样本的数量。

可选地，在训练样本的数量不够充足的情况下，可以按较小长度切割频谱图片段，或者使频谱图片段之间有部分的交叉重叠区域，以扩充训练样本的数量。

步骤704，采用训练样本对用于识别发音类型的神经网络模型进行训练，得到完成训练的神经网络模型。

在模型训练过程中，可以不断修正神经网络模型的各层权重，以得到准确度符合预设要求的发音类型识别模型。可选地，根据训练样本的真实发音类型和采用该神经网络模型得到的预测发音类型，计算该神经网络模型的损失函数值，当损失函数值符合预设条件时，说明该神经网络模型的准确度已经达到设定要求，即可停止训练。

在一个示例中，上述神经网络模型为CRNN模型，如图4或图8所示，该CRNN模型可以包括：输入层、CNN层、池化层、堆叠层、切片层、RNN层、全连接层和输出层。其中：

1、输入层用于输入训练样本所包含的n个频谱图片段；

当训练样本中包含多个频谱图片段时，将该多个频谱图片段叠加后输入至输入层。

2、CNN层用于将n个频谱图片段转化为特征图；

CNN是一种深度前馈人工神经网络，在图像识别中具有较好的性能表现。CNN层可以包括卷积层(convolutional layer)和池化层(pooling layer)。卷积层用于从输入的目标图像中自动抽取特征，得到特征图(feature map)。池化层用于对特征图进行池化处理，以减少特征图中的特征数量。池化处理包括最大池化、平均池化、随机池化等方式，其可根据实际需求选择合适的方式。

其中，CNN层可以根据业务需求，在权衡模型训练的时间代价和识别效果之后，选择不同复杂程度的网络架构。示例性地，CNN层的网络架构包括但不限于以下任意一种：VGG19、ResNet50、InceptionV3、Xception、InceptionResNetV2等。

3、池化层用于对特征图进行池化处理，得到多个池化处理后的特征图；

池化层将CNN层输出的多个特征图进行池化处理，池化处理后的特征图的宽度为1，形成c个t*1的池化处理后的特征图，其中c代表池化处理后的特征图的个数，t代表池化处理后的特征图的长度，c为大于1的整数。

4、堆叠层用于对多个池化处理后的特征图进行堆叠处理，得到堆叠处理后的特征图；

5、切片层用于对堆叠处理后的特征图进行切片处理，得到特征向量序列，该特征向量序列包括在时间维度上切分的多个特征向量；

特征向量序列中包括t个c维的特征向量，这些特征向量按照时间顺序，依次输入至RNN层进行学习。

6、RNN层用于记忆上述多个特征向量在时间维度上的关系，得到输出向量；

RNN是一种用于处理序列数据的神经网络。示例性地，RNN层的网络架构包括但不限于以下任意一种：LSTM(Long Short-Term Memory，长短期记忆)网络、BiLSTM网络等。

7、全连接层用于根据输出向量得到训练样本在多种不同的发音类型中的概率分布；

8、输出层用于输出上述概率分布。

另外，在CRNN模型构建完成之后，可以有如下两种训练策略。如果训练样本的数量有限，可以先训练CNN部分，待CNN部分训练完成之后，以该训练完成的CNN部分作为后续RNN部分的特征提取器，继续训练RNN部分；如果训练样本的数量充足，则可以直接训练整个模型。此外，在模型训练过程中，优化器的选用包括但不限于SGD(stochastic gradientdescent，随机梯度下降)、RMSprop、Adam等优化算法，本申请实施例对此不作限定。

可选地，在模型训练过程中，还可以将传统的声学特征(如MFCC、SDC等)融合进来，以进一步提升模型的准确度。

综上所述，本申请实施例提供的技术方案中，通过生成音频数据的频谱图，从而将音频识别问题转换为图像识别问题，并且，采用深度学习技术，对训练样本进行学习生成用于识别发音类型的神经网络模型，后续便可采用该神经网络模型识别待识别音频数据的发音类型，整个过程无需人工制定所要提取的特征，即便是复杂多样的现实场景下的各类干扰，也能够在模型训练阶段进行学习，因此本申请实施例提供的技术方案具有较高的鲁棒性，从而提高了对发音类型进行识别的准确度。

另外，当每一个训练样本中包含多个频谱图片段时，可以更大概率地保证训练样本中的主体音频内容与其标签是匹配的，从而提高最终训练得到的发音类型识别模型的识别准确度，且能够扩充训练样本的数量。

在上述图7实施例中，对模型训练过程进行了介绍说明。结合参考图9，以训练用于识别视频数据中的音频内容的发音类型的模型为例，其示出了相应的流程示意图。在训练数据获取阶段，可以从多个渠道获取训练视频数据。每一个训练视频数据具有对应的标签，用于指示该训练视频数据中音频内容的真实发音类型。在训练数据预处理阶段，包括对训练视频数据进行数据清洗，剔除掉一些质量较差的数据，而后提取训练视频数据中的音频信息，得到训练音频数据，之后生成训练音频数据的频谱图，对训练音频数据的频谱图进行切分，得到若干个频谱图片段，选取频谱图片段构建训练样本。在模型训练阶段，采用训练样本对CRNN模型进行训练，得到识别准确度符合要求的CRNN模型。

下述为本申请装置实施例，可以用于执行本申请方法实施例。对于本申请装置实施例中未披露的细节，请参照本申请方法实施例。

请参考图10，其示出了本申请一个实施例提供的发音类型的识别装置的框图。该装置具有实现上述发音类型的识别方法的功能，所述功能可以由硬件实现，也可以由硬件执行相应的软件实现。该装置1000可以包括：待识别数据获取模块1010、频谱图生成模块1020、预测样本生成模块1030和模型预测模块1040。

待识别数据获取模块1010，用于获取待识别音频数据。

频谱图生成模块1020，用于生成所述待识别音频数据的频谱图。

预测样本生成模块1030，用于根据所述待识别音频数据的频谱图，生成至少一个预测样本；其中，每一个预测样本包括从所述待识别音频数据的频谱图中提取的n个频谱图片段，所述n为正整数。

模型预测模块1040，用于调用完成训练的神经网络模型对所述预测样本进行处理，得到所述待识别音频数据的发音类型。

在基于图10实施例提供的一个可选实施例中，所述n为预设常数，且所述预设常数为大于1的整数。

在基于图10实施例或者上述可选实施例提供的另一个可选实施例中，所述神经网络模型为CRNN模型。

在基于图10实施例或者上述可选实施例提供的另一个可选实施例中，所述预测样本的数量为k个，所述k为大于1的整数。相应地，所述模型预测模块1040，用于：调用所述完成训练的神经网络模型，分别对所述k个预测样本中的每一个预测样本进行处理，得到每一个预测样本在多种不同的发音类型中的概率分布；根据所述k个预测样本中的每一个预测样本在多种不同的发音类型中的概率分布，得到所述k个预测样本在所述多种不同的发音类型中的平均概率分布；将平均概率最大的发音类型，确定为所述待识别音频数据的发音类型。

在基于图10实施例或者上述可选实施例提供的另一个可选实施例中，所述待识别数据获取模块1010，用于：获取待识别视频数据；提取所述待识别视频数据中的音频信息，得到所述待识别音频数据。

请参考图11，其示出了本申请一个实施例提供的发音类型识别模型的训练装置的框图。该装置具有实现上述发音类型识别模型的训练方法的功能，所述功能可以由硬件实现，也可以由硬件执行相应的软件实现。该装置1100可以包括：训练数据获取模块1110、频谱图生成模块1120、训练样本生成模块1130和模型训练模块1140。

训练数据获取模块1110，用于获取训练音频数据，所述训练音频数据是指用于生成训练样本的音频数据。

频谱图生成模块1120，用于生成所述训练音频数据的频谱图。

训练样本生成模块1130，用于根据所述训练音频数据的频谱图，生成至少一个所述训练样本；其中，每一个训练样本包括：从所述训练音频数据的频谱图中提取的n个频谱图片段，以及所述训练样本的标签，所述训练样本的标签用于指示所述训练样本的真实发音类型，所述n为正整数。

模型训练模块1140，用于采用所述训练样本对用于识别发音类型的神经网络模型进行训练，得到完成训练的所述神经网络模型。

在基于图11实施例提供的一个可选实施例中，所述n为预设常数，且所述预设常数为大于1的整数。

在基于图11实施例或者上述可选实施例提供的另一个可选实施例中，所述神经网络模型为CRNN模型。

在基于图11实施例或者上述可选实施例提供的另一个可选实施例中，所述训练数据获取模块1110，用于：获取训练视频数据，所述训练视频数据是指用于生成所述训练样本的视频数据；提取所述训练视频数据中的音频信息，得到所述训练音频数据。

可选地，所述提取所述训练视频数据中的音频信息，得到所述训练音频数据，包括：提取所述训练视频数据中的音频信息；在所述音频信息中混入噪音信息，生成所述训练音频数据。

需要说明的是，上述实施例提供的装置，在实现其功能时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的装置与方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

请参考图12，其示出了本申请一个实施例提供的计算机设备的结构框图。该计算机设备可用于实施上述实施例中提供的发音类型的识别方法，或者也可用于实施上述实施例中提供的发音类型识别模型的训练方法。该计算机设备可以是PC或者服务器，或者其它具备数据处理和存储能力的设备。具体来讲：

所述计算机设备1200包括中央处理单元(CPU)1201、包括随机存取存储器(RAM)1202和只读存储器(ROM)1203的系统存储器1204，以及连接系统存储器1204和中央处理单元1201的系统总线1205。所述计算机设备1200还包括帮助计算机内的各个器件之间传输信息的基本输入/输出系统(I/O系统)1206，和用于存储操作系统1213、应用程序1214和其他程序模块1215的大容量存储设备1207。

所述基本输入/输出系统1206包括有用于显示信息的显示器1208和用于用户输入信息的诸如鼠标、键盘之类的输入设备1209。其中所述显示器1208和输入设备1209都通过连接到系统总线1205的输入输出控制器1210连接到中央处理单元1201。所述基本输入/输出系统1206还可以包括输入输出控制器1210以用于接收和处理来自键盘、鼠标、或电子触控笔等多个其他设备的输入。类似地，输入输出控制器1210还提供输出到显示屏、打印机或其他类型的输出设备。

所述大容量存储设备1207通过连接到系统总线1205的大容量存储控制器(未示出)连接到中央处理单元1201。所述大容量存储设备1207及其相关联的计算机可读介质为计算机设备1200提供非易失性存储。也就是说，所述大容量存储设备1207可以包括诸如硬盘或者CD-ROM驱动器之类的计算机可读介质(未示出)。

不失一般性，所述计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括RAM、ROM、EPROM、EEPROM、闪存或其他固态存储其技术，CD-ROM、DVD或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然，本领域技术人员可知所述计算机存储介质不局限于上述几种。上述的系统存储器1204和大容量存储设备1207可以统称为存储器。

根据本申请的各种实施例，所述计算机设备1200还可以通过诸如因特网等网络连接到网络上的远程计算机运行。也即计算机设备1200可以通过连接在所述系统总线1205上的网络接口单元1211连接到网络1212，或者说，也可以使用网络接口单元1211来连接到其他类型的网络或远程计算机系统(未示出)。

所述存储器还包括一个或者一个以上的程序，所述一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行。上述一个或者一个以上程序包含用于执行上述发音类型的识别方法的指令，或者包含用于执行上述发音类型识别模型的训练方法的指令。

在示例中实施例中，还提供了一种计算机设备，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集。所述至少一条指令、至少一段程序、代码集或指令集经配置以由一个或者一个以上处理器执行，以实现上述发音类型的识别方法，或者实现上述发音类型识别模型的训练方法。

在示例性实施例中，还提供了一种计算机可读存储介质，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或所述指令集在被计算机设备的处理器执行时实现上述发音类型的识别方法，或者实现上述发音类型识别模型的训练方法。

可选地，上述计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

在示例性实施例中，还提供了一种计算机程序产品，当该计算机程序产品被执行时，其用于实现上述发音类型的识别方法，或者实现上述发音类型识别模型的训练方法。

应当理解的是，在本文中提及的“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。

以上所述仅为本申请的示例性实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种发音类型的识别方法，其特征在于，所述方法包括：

获取待识别音频数据；

生成所述待识别音频数据的频谱图；

2.根据权利要求1所述的方法，其特征在于，所述n为预设常数，且所述预设常数为大于1的整数。

3.根据权利要求1所述的方法，其特征在于，所述神经网络模型为卷积循环神经网络CRNN模型，所述CRNN模型包括：输入层、卷积神经网络CNN层、池化层、堆叠层、切片层、循环神经网络RNN层、全连接层和输出层；其中：

所述输入层用于输入所述预测样本所包含的n个频谱图片段；

所述CNN层用于将所述n个频谱图片段转化为特征图；

所述池化层用于对所述特征图进行池化处理，得到多个池化处理后的特征图；

所述堆叠层用于对所述多个池化处理后的特征图进行堆叠处理，得到堆叠处理后的特征图；

所述切片层用于对所述堆叠处理后的特征图进行切片处理，得到特征向量序列，所述特征向量序列包括在时间维度上切分的多个特征向量；

所述RNN层用于记忆所述多个特征向量在时间维度上的关系，得到输出向量；

所述全连接层用于根据所述输出向量得到所述预测样本在多种不同的发音类型中的概率分布；

所述输出层用于输出所述概率分布。

4.根据权利要求1至3任一项所述的方法，其特征在于，所述预测样本的数量为k个，所述k为大于1的整数；

所述调用完成训练的神经网络模型对所述预测样本进行处理，得到所述待识别音频数据的发音类型，包括：

调用所述完成训练的神经网络模型，分别对所述k个预测样本中的每一个预测样本进行处理，得到每一个预测样本在多种不同的发音类型中的概率分布；

根据所述k个预测样本中的每一个预测样本在多种不同的发音类型中的概率分布，得到所述k个预测样本在所述多种不同的发音类型中的平均概率分布；

将平均概率最大的发音类型，确定为所述待识别音频数据的发音类型。

5.根据权利要求1至3任一项所述的方法，其特征在于，所述获取待识别音频数据，包括：

获取待识别视频数据；

提取所述待识别视频数据中的音频信息，得到所述待识别音频数据。

6.一种发音类型识别模型的训练方法，其特征在于，所述方法包括：

生成所述训练音频数据的频谱图；

7.根据权利要求6所述的方法，特征在于，所述n为预设常数，且所述预设常数为大于1的整数。

8.根据权利要求6所述的方法，其特征在于，所述神经网络模型为卷积循环神经网络CRNN模型，所述CRNN模型包括：输入层、卷积神经网络CNN层、池化层、堆叠层、切片层、循环神经网络RNN层、全连接层和输出层；其中：

所述输入层用于输入所述训练样本所包含的n个频谱图片段；

所述CNN层用于将所述n个频谱图片段转化为特征图；

所述全连接层用于根据所述输出向量得到所述训练样本在多种不同的发音类型中的概率分布；

所述输出层用于输出所述概率分布。

9.根据权利要求6至8任一项所述的方法，其特征在于，所述获取训练音频数据，包括：

获取训练视频数据，所述训练视频数据是指用于生成所述训练样本的视频数据；

提取所述训练视频数据中的音频信息，得到所述训练音频数据。

10.根据权利要求9所述的方法，其特征在于，所述提取所述训练视频数据中的音频信息，得到所述训练音频数据，包括：

提取所述训练视频数据中的音频信息；

在所述音频信息中混入噪音信息，生成所述训练音频数据。

11.一种发音类型的识别装置，其特征在于，所述装置包括：

待识别数据获取模块，用于获取待识别音频数据；

频谱图生成模块，用于生成所述待识别音频数据的频谱图；

12.一种发音类型识别模型的训练装置，其特征在于，所述装置包括：

频谱图生成模块，用于生成所述训练音频数据的频谱图；

13.一种计算机设备，其特征在于，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如权利要求1至5任一项所述的方法，或者实现如权利要求6至10任一项所述的方法。

14.一种计算机可读存储介质，其特征在于，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如权利要求1至5任一项所述的方法，或者实现如权利要求6至10任一项所述的方法。