CN111402920A

CN111402920A - 娇喘音频的识别方法及装置、终端、存储介质

Info

Publication number: CN111402920A
Application number: CN202010163085.0A
Authority: CN
Inventors: 郦柏金; 陈万源
Original assignee: Tongdun Holdings Co Ltd
Current assignee: Tongdun Holdings Co Ltd
Priority date: 2020-03-10
Filing date: 2020-03-10
Publication date: 2020-07-10
Anticipated expiration: 2040-03-10
Also published as: CN111402920B

Abstract

本发明公开一种娇喘音频的识别方法及装置、终端、存储介质，其中方法主要包括：提取样本集中样本音频的原始特征数据，并对原始特征数据进行深度特征提取得到深度特征数据；针对深度特征数据，采用双向lstm及attention的结构进行分类模型的训练；采用训练得到的分类模型预测待识别音频中存在娇喘音的概率以及娇喘音的存在位置。采用本发明，可以提高娇喘音识别的准召率，进而提高人工审核的效果减少人力成本。

Description

娇喘音频的识别方法及装置、终端、存储介质

技术领域

本发明涉及音频识别技术领域，尤其涉及一种娇喘音频的识别方法及装置、终端、存储介质。

背景技术

随着互联网行业的快速发展，目前互联网上充斥着各类形式载体的内容(如文本、图片、音频、视频等)，每天通过互联网上传的内容超过15亿条。

在每天上传到互联网上的内容中，音视频占据的比重越来越高。由于，时间分段和场景化生活导致用户对音视频需求更为旺盛。在生活节奏越来越快，场景变化越来越频繁的情况下，用户对文本的吸收越来越缺乏耐心，对碎片化时间的利用需求越来越多，而音视频的接受门槛更低，知识密度更高，信息也更多元，因此对音视频的需求量更大，占比更高。

在音视频市场迅速发展的同时，音视频类内容会存在各种各样的垃圾信息。其中垃圾信息中的垃圾语音又可以分为有语义的垃圾语音和无语义的垃圾语音。有语义的垃圾语音可以通过语音识别技术，将语音转换为文本，再通过文本分类模型来检测，而无语义的垃圾语音，主要包括娇喘，呻吟，枪声等暴恐语音，由于其特殊性，目前大都是靠人工抽检的方式来完成审核。但是基于人工审核的方式，很容易造成漏检，且人工成本太大。

发明内容

本发明实施例提供一种娇喘音频的识别方法及装置、终端、存储介质，可以提高娇喘音识别的准召率，进而提高人工审核的效果减少人力成本。

本发明实施例第一方面提供了一种娇喘音频的识别方法，可包括：

提取样本集中样本音频的原始特征数据，并对所述原始特征数据进行深度特征提取得到深度特征数据；

针对所述深度特征数据，采用双向lstm及attention的结构进行分类模型的训练；

采用训练得到的分类模型预测待识别音频中存在娇喘音的概率以及娇喘音的存在位置。

进一步的，上述方法还包括：

对所采集的样本集中的原始样本音频进行预处理，所述预处理包括音频裁剪、预标记以及数据增强中的一个或多个。

进一步的，对所集样的样本音频进行预处理，包括：

统计娇喘音在所采集的原始样本音频中的时间分布，根据统计的时间分布确定一有效裁剪时长，根据所述有效裁剪时长将所述样本集中的所有样原始本音频裁剪为时间长度统一的多段样本音频；

对所述样本集中裁剪后的样本音频进行娇喘音的预标记；

随机选取预标记后的样本音频，对其做数据增强处理，所述数据增强处理包括更换声道、变换播放速度、增加高斯白噪声、音频移动中的一个或多个。

进一步的，提取样本集中样本音频的原始特征数据，并对所述原始特征数据进行深度特征提取得到深度特征数据，包括：

提取样本集中样本音频的梅尔谱图作为原始特征数据；

基于迁移学习的方式，提取所述原始特征数据对应的深度特征数据。

进一步的，提取样本集中样本音频的梅尔谱图作为原始特征数据，包括：

采用固定的帧长、固定的帧移以及周期性的Hann窗对样本音频进行分帧，对每一帧音频做短时傅里叶变换，利用信号幅值计算每帧的声谱图；

将所述声谱图映射到96阶的mel滤波器组中计算mel声谱，得到N*96*64 维的向量，N为样本音频的时长。

进一步的，基于迁移学习的方式，提取所述原始特征数据对应的深度特征数据，包括：

基于audioset数据集提取每段音频的梅尔谱图对应的语谱图特征；

采用预训练模型VGG网络将音频分类转化为图像分类，通过VGG网络的倒数第二层全连接层将N*96*64维的向量转化为N*128维的向量。

进一步的，针对所述深度特征数据，采用双向lstm及attention的结构进行分类模型的训练，包括：

针对输入双向lstm层的深度特征数据，将前向的lstm张量和后向的lstm张量拼接，并将拼接后的张量输入attention层进行高层张量表示；

将高层张量表示依次经过average pooling层、dropout层和softmax层训练得到分类模型。

进一步的，采用训练得到的分类模型预测待识别音频中存在娇喘音的概率以及娇喘音的存在位置，包括：

将待识别音频按照所述有效裁剪时长裁剪为长度统一的多段音频；

将裁剪后的待识别音频按照与所述样本音频一致的特征提取方式进行特征提取；

将特征提取后的待识别音频输入分类模型得到每段音频中存在娇喘音的概率值；

记录预测为娇喘音的音频片段及其位置，返回记录结果。

本发明实施例第二方面提供了一种娇喘音频的识别装置，可包括：

特征提取模块，用于提取样本集中样本音频的原始特征数据，并对所述原始特征数据进行深度特征提取得到深度特征数据；

模型训练模块，用于针对所述深度特征数据，采用双向lstm及attention的结构进行分类模型的训练；

概率预测模块，用于采用训练得到的分类模型预测待识别音频中存在娇喘音的概率。

进一步的，装置还包括：

样本预处理模块，用于对所采集的样本集中的原始样本音频进行预处理，所述预处理包括音频裁剪、预标记以及数据增强中的一个或多个。

进一步的，样本预处理模块包括：

样本裁剪单元，用于统计娇喘音在所采集的原始样本音频中的时间分布，根据统计的时间分布确定一有效裁剪时长，根据所述有效裁剪时长将所述样本集中的所有样原始本音频裁剪为时间长度统一的多段样本音频；

预标记单元，用于对所述样本集中裁剪后的样本音频进行娇喘音的预标记；

数据增强单元，用于随机选取预标记后的样本音频，对其做数据增强处理，所述数据增强处理包括更换声道、变换播放速度、增加高斯白噪声、音频移动中的一个或多个。

进一步的，特征提取模块包括：

原始特征提取单元，用于提取样本集中样本音频的梅尔谱图作为原始特征数据；

深度特征提取单元，用于基于迁移学习的方式，提取所述原始特征数据对应的深度特征数据。

进一步的，原始特征提取单元包括：

声谱图计算子单元，用于采用固定的帧长、固定的帧移以及周期性的Hann 窗对样本音频进行分帧，对每一帧音频做短时傅里叶变换，利用信号幅值计算每帧的声谱图；

声谱图映射子单元，用于将所述声谱图映射到96阶的mel滤波器组中计算 mel声谱，得到N*96*64维的向量，N为样本音频的时长。

进一步的，深度特征提取单元包括：

语谱图特征提取子单元，用于基于audioset数据集提取每段音频的梅尔谱图对应的语谱图特征；

向量转化子单元，用于采用预训练模型VGG网络将音频分类转化为图像分类，通过VGG网络的倒数第二层全连接层将N*96*64维的向量转化为N*128 维的向量。

进一步的，模型训练模块包括：

lstm层处理单元，用于针对输入双向lstm层的深度特征数据，将前向的lstm 张量和后向的lstm张量拼接，并将拼接后的张量输入attention层进行高层张量表示；

模型训练单元，用于将高层张量表示依次经过average pooling层、dropout 层和softmax层训练得到分类模型。

进一步的，概率预测模块包括：

待识别音频裁剪单元，用于将待识别音频按照所述有效裁剪时长裁剪为长度统一的多段音频；

特征提取单元，用于将裁剪后的待识别音频按照与所述样本音频一致的特征提取方式进行特征提取；

概率预测单元，用于将特征提取后的待识别音频输入分类模型得到每段音频中存在娇喘音的概率值；

结果记录单元，用于记录预测为娇喘音的音频片段及其位置，返回记录结果。

本发明实施例第三方面提供了一种计算机存储介质，所述计算机存储介质存储有多条指令，所述指令适于由处理器加载并执行以下步骤：

本发明实施例第四方面提供了一种终端，可包括：处理器和存储器；其中，所述存储器存储有计算机程序，所述计算机程序适于由所述处理器加载并执行以下步骤：

本发明的有益效果：通过对样本进行深层次的特征提取，能够利用其它已标注的数据学习到更高层次的特征表示，减少了样本的数量同时提高了模型的准召率；通过双向lstm加Attention的分类器结构，既学习了到音频中的时序特征，又增强了模型的性能，进一步提高了娇喘音频识别的准召率；通过分段检测精准的识别出了长音频中娇喘概率较大的音频片段，方便了人工二次审核，大大提高了人工审核的效果减少了人力成本。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种娇喘音频的识别方法的流程示意图；

图2是本发明实施例提供的另一种娇喘音频的识别方法的流程示意图；

图3a和图3b是本发明实施例提供的娇喘音及非娇喘音的梅尔谱图；

图4是本发明实施例提供的VGG网络结构示意图；

图5是本发明实施例提供的基于双向lstm及attention结构的分类模型的结构图；

图6是本发明实施例提供的特征提取的流程示意图；

图7是本发明实施例提供的另一种娇喘音频的识别方法的流程示意图；

图8是本发明实施例提供的一种娇喘音频的识别装置的结构示意图；

图9是本发明实施例提供的特征提取模块的结构示意图；

图10是本发明实施例提供的原始特征提取单元的结构示意图；

图11是本发明实施例提供的深度特征提取单元的结构示意图；

图12是本发明实施例提供的模型训练模块的结构示意图；

图13是本发明实施例提供的概率预测模块的结构示意图；

图14是本发明实施例提供的样本预处理模块的结构示意图；

图15是本发明实施例提供的一种终端的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明的说明书和权利要求书及上述附图中的术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其他步骤或单元。

此外，术语“安装”、“设置”、“设有”、“连接”、“相连”、“套接”应做广义理解。例如，可以是固定连接，可拆卸连接，或整体式构造；可以是机械连接，或电连接；可以是直接相连，或者是通过中间媒介间接相连，又或者是两个装置、元件或组成部分之间内部的连通。对于本领域普通技术人员而言，可以根据具体情况理解上述术语在本发明中的具体含义。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

本发明实施例涉及的终端可以是大型计算机、PC机、平板电脑、掌上电脑以及移动互联网设备(MID)等其他具备数据处理能力的终端设备。

如图1所示，在本申请的第一个实施例中，娇喘音频的识别方法至少包括以下步骤：

S101，提取样本集中样本音频的原始特征数据，并对原始特征数据进行深度特征提取得到深度特征数据。

需要说明的是，装置可以直接获取预先采集好的样本集也可以重新采集样本集，样本集中的原始样本数据可以来源于音频直播场景下产生的音频数据，如线上狼人杀app等，还有一部分是色情影片中获取的娇喘音频，还有一些是通过自己合成的娇喘音频数据，如色情影片的娇喘，叠加音乐背景产生的娇喘音频等。可以理解的是，在直播场景中的娇喘音频，存在差异性较大且变化快的特点，这部分音频如果没有经过审核直接在网络中流传，对网络环境是一个较大的挑战。

在一种优选的实现方式中，可以对样本集中的原始样本音频进行预处理，例如音频裁剪、预标记以及数据增强等。具体实现中，可以通过统计娇喘音在音频中的时间分布，根据统计的时间分布确定一个有效裁剪时长即能够完全表现一段娇喘的最短时间，例如可以是5s左右；进一步的，再根据该有效裁剪时长将样本集中的所有样原始本音频裁剪为时间长度统一的多段样本音频，即将所有音频裁剪至5s。可选的，还可以对裁剪后的各段样本音频进行娇喘音的预标记。特别的，分类模型的训练需要大量的样本，而仅仅依靠标记数据样本量不足，在此需要对预标记完的数据做一次数据增强，装置可以随机对每一个音频做更换声道、变换播放速度、增加高斯白噪声、音频移动等操作，扩充训练样本数据集。

针对预处理后的样本音频，装置可以提取样本的原始特征数据，例如提取梅尔谱图或者声谱图或者梅尔倒谱系数等作为原始特征数据。特别的，由于梅尔谱图包含丰富的语义信息，本申请选取梅尔谱图作为样本音频的原始特征数据。进一步的，装置可以基于迁移学习的方式，对原始特征数据进行更深层次的特征提取，例如采用预训练模型VGG网络进行深度特征提取。

S102，针对深度特征数据，采用双向lstm及attention的结构进行分类模型的训练。

具体实现中，装置可以针对输入双向lstm层的深度特征数据，将前向的lstm 张量和后向的lstm张量拼接，并将拼接后的张量输入attention层进行高层张量表示，进而将高层张量表示依次经过average pooling层、dropout层和softmax 层训练得到分类模型。

在可选实施例中，还可以采用svm等机器学习模型以及cnn等其他深度学习模型替代本申请的双向lstm加Attention的结构进行模型训练。

S103，采用训练得到的分类模型预测待识别音频中存在娇喘音的概率以及娇喘音的存在位置。

需要说明的是，在娇喘音识别前，需要对待识别音频进行预处理，具体包括音频裁剪和特征提取。其中，音频裁剪的时长需要与样本预处理时的有效裁剪时长一致，例如将待识别音频分割成5秒一段，对裁剪后的音频的特征提取过程与样本的特征提取过程一致，即提取待识别音频的梅尔谱图后，再基于VGG 网络进行深度特征提取。

进一步的，对待识别音频进行预处理后，再输入上述分类模型，可以得到每段音频的概率值，如果预测为娇喘音，则记录此音频片段的起始位置及概率值，并返回给用户。通过5秒每帧检测的方式，提高了娇喘音频的检测精度。以返回音频片段位置以及娇喘概率值的方式返回给用户，提高了人工审核的效果减少了人力成本。

在本发明实施例中，通过对样本进行深层次的特征提取，能够利用其它已标注的数据学习到更高层次的特征表示，减少了样本的数量同时提高了模型的准召率；通过双向lstm加Attention的分类器结构，既学习了到音频中的时序特征，又增强了模型的性能，进一步提高了娇喘音频识别的准召率；通过分段检测精准的识别出了长音频中娇喘概率较大的音频片段，方便了人工二次审核，大大提高了人工审核的效果减少了人力成本。

如图2所示，在本申请的第二个实施例中，娇喘音频的识别方法至少包括以下步骤：

S201，对所采集的样本集中的原始样本音频进行预处理。

S202，提取样本集中样本音频的梅尔谱图作为原始特征数据。

具体实现中，装置可以采用固定的帧长、固定的帧移以及周期性的Hann窗对样本音频进行分帧(例如采用25ms的帧长和10ms的帧移)，之后对每一帧做短时傅里叶变换，然后利用信号幅值计算声谱图。通过将声谱映射到64阶mel 滤波器组中计算mel声谱。特别的，可以通过计算log(mel-spectrum+0.01)，得到稳定的mel声谱，其中0.01的偏置是为了避免对0取对数。例如，通过计算将0.96秒的音频提取为96x64的向量表示，5秒的音频可以表示为5x96x64 的向量。

S203，基于迁移学习的方式，提取所述原始特征数据对应的深度特征数据。

需要说明的是，由图3a与图3b所示的娇喘音频及正常音频的梅尔谱图可知，两种不同类型的音频在梅尔谱图上有很大的差异。因此，在提取出原始特征数据即梅尔谱图之后，可以通过迁移学习的方式，更深层次的提取出音频的特征表示。

具体的实现方式为，利用谷歌开源的audioset数据集提取出每段音频的语谱图特征，再经过如图4所示的预训练模型VGG网络进行分类，进一步抽取出更深层次的特征表示，将音频分类问题转换为图像分类问题。其中，预训练模型可以通过训练获得，也可以通过开源下载获取。进一步的，通过获取网络的倒数第二层全连接层，得到更进一步的向量表示，将5秒的音频的向量表示5x96x64 转换为5x128的向量。

S204，针对深度特征数据，采用双向lstm及attention的结构进行分类模型的训练。

具体实现中，基于双向lstm及attention结构的分类模型如图5所示，在特征提取后经过双向的lstm层(包含128个隐藏单元)，将前向和后向张量拼接成一个256维的张量，通过attention层进一步提取出更高层的张量表示即将拼接得到的256维的张量转换为128维的向量。进一步的，将高层张量输入到 average pooling层进行张量的降维，为降低模型的复杂度提高模型泛化能力，可以再经过dropout层，之后经过一个全连接层，最后接一个softmax层做一个二分类。可以理解的是，通过前向和后向反馈计算，训练得到了最佳的模型表示。

S205，采用训练得到的分类模型预测待识别音频中存在娇喘音的概率以及娇喘音的存在位置。

如图6所示，在本申请的第三个实施例中，特征提取的过程至少包括以下步骤：

S301，采用固定的帧长、固定的帧移以及周期性的Hann窗对样本音频进行分帧，对每一帧音频做短时傅里叶变换，利用信号幅值计算每帧的声谱图。

在一种优选的实现方式中，固定的帧长可以是25ms，固定的帧移可以是 10ms。

S302，将声谱图映射到96阶的mel滤波器组中计算mel声谱，得到N*96*64 维的向量。

需要说明的是，N*96*64维的向量为样本音频的原始特征数据，其中的N 为每段音频的时长，即样本预处理时的有效裁剪时长，在本申请中为5，即每5 秒的样本音频的原始特征数据为5*96*64。

S303，基于audioset数据集提取每段音频的梅尔谱图对应的语谱图特征。

需要说明的是，audioset为谷歌开源的数据集，包含了632类的音频类别以及2084320条人工标记的每段10秒长度的声音剪辑片段。

S304，采用预训练模型VGG网络将音频分类转化为图像分类，通过VGG 网络的倒数第二层全连接层将N*96*64维的向量转化为N*128维的向量。

需要说明的是，通过迁移学习的方式，VGG网络更深层次的提取出音频特征，有效的减少了分类所需的预标记数据，减少了模型准备前的人力成本。

如图7所示，在本申请的第四个实施例中，待识别音频的识别过程至少包括以下步骤：

S401，将待识别音频按照有效裁剪时长裁剪为长度统一的多段音频。

S402，将裁剪后的待识别音频按照与样本音频一致的特征提取方式进行特征提取。

S403，将特征提取后的待识别音频输入分类模型得到每段音频中存在娇喘音的概率值。

S404，记录预测为娇喘音的音频片段及其位置，返回记录结果。

需要说明的是，通过采用分帧的方式检测(在本申请中为5秒一帧)，准确记录识别为娇喘的帧，返回娇喘音频的位置，能够更高的召回娇喘音频。精准的识别出长音频中娇喘概率较大的音频片段，方便二次审核。

下面将结合附图8-附图14，对本发明实施例提供的娇喘音频的识别装置进行详细介绍。需要说明的是，附图8-14附图所示的娇喘音频的识别装置，用于执行本发明图1-图7所示实施例的方法，为了便于说明，仅示出了与本发明实施例相关的部分，具体技术细节未揭示的，请参照本发明图1-图7所示的实施例。

请参见图8，为本发明实施例提供了一种娇喘音频的识别装置的结构示意图。如图8所示，本发明实施例的所述娇喘音频的识别装置1可以包括：特征提取模块11、模型训练模块12、概率预测模块13和样本预处理模块14。其中，特征提取模块11如图9所示，包括原始特征提取单元111和深度特征提取单元112；原始特征提取单元111如图10所示，包括声谱图计算子单元1111和声谱图映射子单元1112；深度特征提取单元112如图11所示，包括语谱图特征提取子单元 1121和向量转化子单元1122；模型训练模块12如图12所示，包括lstm层处理单元121和模型训练单元122；概率预测模块13如图13所示，包括待识别音频裁剪单元131、特征提取单元132、概率预测单元133和结果记录单元134；样本预处理模块14如图14所示，包括样本裁剪单元141、预标记单元142和数据增强单元143。

样本预处理模块14，用于对所采集的样本集中的原始样本音频进行预处理，预处理包括音频裁剪、预标记以及数据增强中的一个或多个。

在可选实施例中，样本预处理模块14包括以下单元：

样本裁剪单元141，用于统计娇喘音在所采集的原始样本音频中的时间分布，根据统计的时间分布确定一有效裁剪时长，根据有效裁剪时长将样本集中的所有样原始本音频裁剪为时间长度统一的多段样本音频。

预标记单元142，用于对样本集中裁剪后的样本音频进行娇喘音的预标记。

数据增强单元143，用于随机选取预标记后的样本音频，对其做数据增强处理，数据增强处理包括更换声道、变换播放速度、增加高斯白噪声、音频移动中的一个或多个。

特征提取模块11，用于提取样本集中样本音频的原始特征数据，并对原始特征数据进行深度特征提取得到深度特征数据。

在可选实施例中，特征提取模块11包括以下单元：

原始特征提取单元111，用于提取样本集中样本音频的梅尔谱图作为原始特征数据。

深度特征提取单元112，用于基于迁移学习的方式，提取原始特征数据对应的深度特征数据。

在可选实施例中，原始特征提取单元111包括以下子单元：

声谱图计算子单元1111，用于采用固定的帧长、固定的帧移以及周期性的 Hann窗对样本音频进行分帧，对每一帧音频做短时傅里叶变换，利用信号幅值计算每帧的声谱图。

声谱图映射子单元1112，用于将声谱图映射到96阶的mel滤波器组中计算 mel声谱，得到N*96*64维的向量，N为样本音频的时长。

在可选实施例中，深度特征提取单元112包括以下子单元：

语谱图特征提取子单元1121，用于基于audioset数据集提取每段音频的梅尔谱图对应的语谱图特征。

向量转化子单元1122，用于采用预训练模型VGG网络将音频分类转化为图像分类，通过VGG网络的倒数第二层全连接层将N*96*64维的向量转化为 N*128维的向量。

模型训练模块12，用于针对深度特征数据，采用双向lstm及attention的结构进行分类模型的训练。

在可选实施例中，模型训练模块12包括以下单元：

lstm层处理单元121，用于针对输入双向lstm层的深度特征数据，将前向的lstm张量和后向的lstm张量拼接，并将拼接后的张量输入attention层进行高层张量表示。

模型训练单元122，用于将高层张量表示依次经过average pooling层、dropout层和softmax层训练得到分类模型。

概率预测模块13，用于采用训练得到的分类模型预测待识别音频中存在娇喘音的概率。

在可选实施例中，概率预测模块13包括以下单元：

待识别音频裁剪单元131，用于将待识别音频按照有效裁剪时长裁剪为长度统一的多段音频。

特征提取单元132，用于将裁剪后的待识别音频按照与样本音频一致的特征提取方式进行特征提取。

概率预测单元133，用于将特征提取后的待识别音频输入分类模型得到每段音频中存在娇喘音的概率值。

结果记录单元134，用于记录预测为娇喘音的音频片段及其位置，返回记录结果。

需要说明的是，上述系统中各模块、单元及子单元的详细执行过程可以参见上述方法实施例中的描述，处不再赘述。

本发明实施例还提供了一种计算机存储介质，所述计算机存储介质可以存储有多条指令，所述指令适于由处理器加载并执行如上述图1-图7所示实施例的方法步骤，具体执行过程可以参见图1-图7所示实施例的具体说明，在此不进行赘述。

请参见图15，为本发明实施例提供了一种终端的结构示意图。如图15所示，所述终端1000可以包括：至少一个处理器1001，例如CPU，至少一个网络接口1004，用户接口1003，存储器1005，至少一个通信总线1002。其中，通信总线1002用于实现这些组件之间的连接通信。其中，用户接口1003可以包括显示屏(Display)、键盘(Keyboard)，可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口 (如WI-FI接口)。存储器1005可以是高速RAM存储器，也可以是非不稳定的存储器(non-volatile memory)，例如至少一个磁盘存储器。存储器1005可选的还可以是至少一个位于远离前述处理器1001的存储装置。如图15所示，作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及娇喘音频的识别应用程序。

在图15所示的终端1000中，用户接口1003主要用于为用户提供输入的接口，获取用户输入的数据；网络接口1004用于与用户终端进行数据通信；而处理器1001可以用于调用存储器1005中存储的娇喘音频的识别应用程序，并具体执行以下操作：

提取样本集中样本音频的原始特征数据，并对原始特征数据进行深度特征提取得到深度特征数据；

针对深度特征数据，采用双向lstm及attention的结构进行分类模型的训练；

在一些实施例中，处理器1001，还用于执行以下操作：

对所采集的样本集中的原始样本音频进行预处理，预处理包括音频裁剪、预标记以及数据增强中的一个或多个。

在一些实施例中，处理器1001在执行对所集样的样本音频进行预处理时，具体执行以下操作：

统计娇喘音在所采集的原始样本音频中的时间分布，根据统计的时间分布确定一有效裁剪时长，根据有效裁剪时长将样本集中的所有样原始本音频裁剪为时间长度统一的多段样本音频；

对样本集中裁剪后的样本音频进行娇喘音的预标记；

随机选取预标记后的样本音频，对其做数据增强处理，数据增强处理包括更换声道、变换播放速度、增加高斯白噪声、音频移动中的一个或多个。

在一些实施例中，处理器1001在提取样本集中样本音频的原始特征数据，并对原始特征数据进行深度特征提取得到深度特征数据时，具体执行以下操作：

提取样本集中样本音频的梅尔谱图作为原始特征数据；

基于迁移学习的方式，提取原始特征数据对应的深度特征数据。

在一些实施例中，处理器1001在提取样本集中样本音频的梅尔谱图作为原始特征数据时，具体执行以下操作：

将声谱图映射到96阶的mel滤波器组中计算mel声谱，得到N*96*64维的向量，N为样本音频的时长。

在一些实施例中，处理器1001在基于迁移学习的方式，提取原始特征数据对应的深度特征数据时，具体执行以下操作：

在一些实施例中，处理器1001在针对深度特征数据，采用双向lstm及 attention的结构进行分类模型的训练时，具体执行以下操作：

在一些实施例中，处理器1001在采用训练得到的分类模型预测待识别音频中存在娇喘音的概率以及娇喘音的存在位置时，具体执行以下操作：

将待识别音频按照有效裁剪时长裁剪为长度统一的多段音频；

将裁剪后的待识别音频按照与样本音频一致的特征提取方式进行特征提取；

记录预测为娇喘音的音频片段及其位置，返回记录结果。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(Random AccessMemory，RAM)等。

以上所揭露的仅为本发明较佳实施例而已，当然不能以此来限定本发明之权利范围，因此依本发明权利要求所作的等同变化，仍属本发明所涵盖的范围。

Claims

1.一种娇喘音频的识别方法，其特征在于，包括：

2.根据权利要求1所述的识别方法，其特征在于，所述方法还包括：

3.根据权利要求2所述的识别方法，其特征在于，所述对所集样的样本音频进行预处理，包括：

对所述样本集中裁剪后的样本音频进行娇喘音的预标记；

4.根据权利要求1所述的识别方法，其特征在于，所述提取样本集中样本音频的原始特征数据，并对所述原始特征数据进行深度特征提取得到深度特征数据，包括：

提取样本集中样本音频的梅尔谱图作为原始特征数据；

5.根据权利要求4所述的识别方法，其特征在于，所述提取样本集中样本音频的梅尔谱图作为原始特征数据，包括：

将所述声谱图映射到96阶的mel滤波器组中计算mel声谱，得到N*96*64维的向量，N为样本音频的时长。

6.根据权利要求5所述的识别方法，其特征在于，所述基于迁移学习的方式，提取所述原始特征数据对应的深度特征数据，包括：

7.根据权利要求1所述的识别方法，其特征在于，所述针对所述深度特征数据，采用双向lstm及attention的结构进行分类模型的训练，包括：

8.根据权利要求3所述的识别方法，其特征在于，所述采用训练得到的分类模型预测待识别音频中存在娇喘音的概率以及娇喘音的存在位置，包括：

记录预测为娇喘音的音频片段及其位置，返回记录结果。

9.一种娇喘音频的识别装置，其特征在于，包括：

10.一种终端，其特征在于，包括：处理器和存储器；其中，所述存储器存储有计算机程序，所述计算机程序适于由所述处理器加载并执行以下步骤：