CN109431507A

CN109431507A - 基于深度学习的咳嗽疾病识别方法及装置

Info

Publication number: CN109431507A
Application number: CN201811261389.XA
Authority: CN
Inventors: 彭话易; 蔡元哲; 黄章成; 王健宗; 肖京
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2018-10-26
Filing date: 2018-10-26
Publication date: 2019-03-08

Abstract

本公开涉及人工智能技术领域，揭示了一种基于深度学习的咳嗽疾病识别方法及装置，包括：对咳嗽音频进行预处理得到若干咳嗽音频帧序列；从若干咳嗽音频帧序列中提取得到所述咳嗽音频的声音特征；通过咳嗽疾病识别模型对所述咳嗽音频的声音特征进行分类预测，得到所述咳嗽音频对应的咳嗽疾病标签；根据所述咳嗽疾病标签输出所述咳嗽音频对应的咳嗽疾病识别结果。采用深度学习的方法，利用咳嗽疾病识别模型自动根据咳嗽音频进行咳嗽疾病的识别，不需要根据人的经验来进行识别咳嗽疾病，方便快捷。

Description

基于深度学习的咳嗽疾病识别方法及装置

技术领域

本公开涉及人工智能技术领域，特别涉及一种基于深度学习的咳嗽疾病识别方法及装置。

背景技术

咳嗽是一种呼吸道常见症状，是由气管、支气管黏膜或胸膜受炎症、异物、物理或化学性刺激引起。咳嗽是多种咳嗽疾病的生理表征，不同的咳嗽疾病所表现出的咳嗽的特点也不相同。在医学上，经验丰富的医生可以根据病人的咳嗽声的特点进行咳嗽疾病的判断，常见的咳嗽疾病及其特点包括：

1)纯干咳或纯湿咳——鼻后滴漏综合症。

2)干咳并以喘息声结束——哮喘。

3)哮吼性咳嗽音调高——急性喉炎。

4)具有卡哒声的咳嗽——慢性阻塞性肺病。

5)干咳无力但急促——肺炎。

6)干咳并具有痉挛性——百日咳。

7)单声咳嗽——上呼吸道发炎

由于通过咳嗽音频判断咳嗽疾病需要一定的经验积累，一般只有经验丰富的医生可以判断，没有经验的人一般无法根据咳嗽音频判断咳嗽疾病。

因此需要一种不依赖人的经验就可以根据咳嗽音频判断咳嗽疾病的方法。

发明内容

为了提供一种不依赖经验人的经验就可以根据咳嗽音频判断咳嗽疾病的方法，本公开提供了一种基于深度学习的咳嗽疾病识别方法及装置。

一种基于深度学习的咳嗽疾病识别方法，包括：

对咳嗽音频进行预处理得到若干咳嗽音频帧序列；

从若干咳嗽音频帧序列中提取得到所述咳嗽音频的声音特征；

通过咳嗽疾病识别模型对所述咳嗽音频的声音特征进行分类预测，得到所述咳嗽音频对应的咳嗽疾病标签；

根据所述咳嗽疾病标签输出所述咳嗽音频对应的咳嗽疾病识别结果。

一种基于深度学习的咳嗽疾病识别装置，包括：

预处理模块，被配置为执行：对咳嗽音频进行预处理得到若干咳嗽音频帧序列；

声音特征提取模块，被配置为执行：从若干咳嗽音频帧序列中提取得到所述咳嗽音频的声音特征；

分类预测模块，被配置为执行：通过咳嗽疾病识别模型对所述咳嗽音频的声音特征进行分类预测，得到所述咳嗽音频对应的咳嗽疾病标签；

输出模块，被配置为执行：根据所述咳嗽疾病标签输出所述咳嗽音频对应的咳嗽疾病识别结果。

在一实施例中，所述装置还包括：

检测模块，被配置为执行：对所述咳嗽音频进行合格性检测；

告警模块，被配置为执行：如果判断所述咳嗽音频不合格，则生成告警信息以提示用户重新上传咳嗽音频。

在一实施例中，所述预处理模块包括：

短时傅里叶变换单元，被配置为执行：对所述咳嗽音频进行短时傅里叶变换，得到所述咳嗽音频对应的声谱图；

分段单元，被配置为执行：按照指定长度对所述声谱图进行分段，得到所述若干咳嗽音频帧序列。

在一实施例中，所述声音特征提取模块包括：

离散功率谱计算单元，被配置为执行：计算每一帧咳嗽音频帧序列的离散功率谱；

梅尔频谱获取单元，被配置为执行：将所述离散功率谱通过梅尔滤波器滤波得到所述每一帧咳嗽音频帧序列的梅尔频谱；

梅尔频率倒谱系数获取单元，被配置为执行：对所述梅尔频谱进行对数变换和离散余弦变换得到所述每一帧咳嗽音频帧序列的梅尔频率倒谱系数；

声音特征构建单元，被配置为执行：由若干帧咳嗽音频帧序列的梅尔频率倒谱系数形成所述咳嗽音频的声音特征。

在一实施例中，所述咳嗽疾病识别模型包括特征向量构建层、全连接层和分类层，所述分类预测模块包括：

局部特征向量构建单元，被配置为执行：将所述咳嗽音频的声音特征输入所述特征向量构建层，构建得到所述咳嗽音频的局部特征向量；

全连接单元，被配置为执行：通过所述全连接层对所述咳嗽音频的局部特征向量进行全连接，得到所述咳嗽音频的全局特征向量；

预测单元，被配置为执行：将所述全局特征向量输入到所述分类层，预测得到所述咳嗽音频对应的咳嗽疾病标签。

在一实施例中，所述预测单元包括：

概率预测单元，被配置为执行：将所述全局特征向量输入到所述分类层，预测得到所述全局特征向量对应为每一咳嗽疾病标签的概率；

遍历单元，被配置为执行：遍历所述每一咳嗽疾病标签的概率，以概率最大值对应的咳嗽疾病标签作为所述咳嗽音频对应的咳嗽疾病标签。

在一实施例中，所述装置还包括：

采集模块，被配置为执行：采集若干咳嗽病人的咳嗽音频，得到若干样本咳嗽音频；

标注模块，被配置为执行：根据所述咳嗽病人所患咳嗽疾病对相应的样本咳嗽音频进行咳嗽疾病标注，生成所述样本咳嗽音频所对应的咳嗽疾病标签；

训练模块，被配置为执行：根据若干所述样本咳嗽音频及对应的咳嗽疾病标签对循环神经网络模型进行模型训练；

咳嗽疾病识别模型获得模块，被配置为执行：当所述循环神经网络模型收敛，以收敛的循环神经网络模型作为所述咳嗽疾病识别模型。

一种基于深度学习的咳嗽疾病识别装置，包括：

处理器；及

存储器，所述存储器上存储有计算机可读指令，所述计算机可读指令被所述处理器执行时实现如上所述的咳嗽疾病识别方法。

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如上所述的咳嗽疾病识别方法。

在上述技术方案中，采用深度学习的方法，利用咳嗽疾病识别模型自动根据咳嗽音频识别出咳嗽疾病，方便快捷，不需要人的经验即可实现咳嗽疾病的判断。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并于说明书一起用于解释本发明的原理。

图1是根据本公开所涉及的实施环境的示意图；

图2是根据一示例性实施例示出的服务器的框图；

图3是根据一示例性实施例示出的基于深度学习的咳嗽疾病识别方法的流程图；

图4是根据另一示例性实施例示出的基于深度学习的咳嗽疾病识别方法的流程图；

图5是根据图1所示实施例的步骤S110一示例性流程图；

图6是根据图1所示实施例的步骤S130的一示例性流程图；

图7是根据图1所示实施例的步骤S150的一示例性流程图；

图8是根据图7所示实施例的步骤S153的一示例性流程图；

图9是根据图1所示实施例的步骤S150之前步骤的一示例性流程图；

图10是本公开所涉及的咳嗽疾病识别模型的一示例性示意图；

图11是循环神经元的计算示意图；

图12是根据一示例性实施例示出的基于深度学习的咳嗽疾病识别装置的框图。

具体实施方式

这里将详细地对示例性实施例执行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。

图1为一种基于深度学习的咳嗽疾病识别方法所涉及的实施环境的示意图。该实施环境包括采集咳嗽音频的音频采集设备100以及对咳嗽音频进行咳嗽疾病识别的服务器200。

其中，音频采集设备100可以是独立的音频采集器，例如麦克风，还可以是具有音频采集功能的电子设备，例如，智能手机、平板电脑、笔记本电脑、摄像机等，在此并不进行限定。

音频采集设备100与服务器200之间预先建立了无线或者有线的网络连接，进而通过网络连接实现音频采集设备100与服务器200之间的数据传输，例如，数据是所采集的咳嗽音频。

基于服务器200与音频采集设备100之间的交互，服务器200便可获取到咳嗽音频，进而利用此咳嗽音频自动进行咳嗽疾病识别。由此避免通过经验丰富的医生来根据咳嗽音频判断咳嗽疾病，方便快捷。

应当说明的是，本发明咳嗽疾病的识别方法，不限于在服务器200中部署相应的处理逻辑，其也可以是部署于其它机器中的处理逻辑。例如，在具备计算能力的终端设备中部署对咳嗽音频进行咳嗽疾病识别的处理逻辑等。

图2是根据一示例性实施例示出的一种服务器的硬件结构框图。具有此硬件结构的服务器可用于咳嗽疾病识别而部署在图1所示的实施环境中。

需要说明的是，该服务器只是一个适配于本发明的示例，不能认为是提供了对本发明的使用范围的任何限制。该服务器也不能解释为需要依赖于或者必须具有图2中示出的示例性的服务器200中的一个或者多个组件。

该服务器的硬件结构可因配置或者性能的不同而产生较大的差异，如图2所示，服务器200包括：电源210、接口230、至少一存储器250、以及至少一中央处理器(CPU,CentralProcessing Units)270。

其中，电源210用于为服务器200上的各硬件设备提供工作电压。

接口230包括至少一有线或无线网络接口231、至少一串并转换接口233、至少一输入输出接口235以及至少一USB接口237等，用于与外部设备通信。

存储器250作为资源存储的载体，可以是只读存储器、随机存储器、磁盘或者光盘等，其上所存储的资源包括操作系统251、应用程序253及数据255等，存储方式可以是短暂存储或者永久存储。其中，操作系统251用于管理与控制服务器200上的各硬件设备以及应用程序253，以实现中央处理器270对海量数据255的计算与处理，其可以是WindowsServerTM、Mac OS XTM、UnixTM、LinuxTM、FreeBSDTM等。应用程序253是基于操作系统251之上完成至少一项特定工作的计算机程序，其可以包括至少一模块(图2中未示出)，每个模块都可以分别包含有对服务器200的一系列计算机可读指令。数据255可以是存储于磁盘中的图像、音频等等。

中央处理器270可以包括一个或多个以上的处理器，并设置为通过总线与存储器250通信，用于运算与处理存储器250中的海量数据255。

如上面所详细描述的，适用本发明的服务器200将通过中央处理器270读取存储器250中存储的一系列计算机可读指令的形式来完成咳嗽疾病识别方法。

此外，通过硬件电路或者硬件电路结合软件也能同样实现本发明，因此，实现本发明并不限于任何特定硬件电路、软件以及两者的组合。

图3是根据一示例性实施例示出的一种基于深度学习的咳嗽疾病识别方法的流程图。该基于深度学习的咳嗽疾病识别方法可以用于图1所示实施环境的服务器200。如图3所示，该基于深度学习的咳嗽疾病识别方法，可以包括以下步骤：

步骤S110，对咳嗽音频进行预处理得到若干咳嗽音频帧序列。

咳嗽音频可以通过音频采集设备采集得到，然后将采集到的咳嗽音频上传到服务器中进行处理。

在一种实施例中，如图5所示，步骤S110进一步可以包括：

步骤S111，对咳嗽音频进行短时傅里叶变换，得到咳嗽音频对应的声谱图。

短时傅里叶变换(STFT，short-time Fourier transform)是通过一个时频局部化的窗函数，假定在该窗函数所包含的一个短时间间隔内咳嗽音频是平稳的，然后移动窗函数，使咳嗽音频在不同的有限时间宽度内是平稳信号，从而计算出咳嗽音频在各个不同时刻的功率谱。最后把每一时刻的功率谱沿时间维度堆叠起来，得到类似于一幅图的二维信号形式，即得到咳嗽音频对应的声谱图。

步骤S113，按照指定长度对声谱图进行分段，得到若干咳嗽音频帧序列。

其中指定长度是指用户所希望每一帧咳嗽音频帧序列所对应的时间。指定长度可以根据实际的应用场景进行自定义设定。通过指定长度对声谱图进行分段，进而得到若干咳嗽音频帧序列。

在一具体实施例中，比如以咳嗽音频为35s，按照指定长度为4毫秒进行声谱图的分段，可以得到8750帧咳嗽音频帧序列，其中每一帧含有64个频率分量。

进一步的，在步骤S111之前，还包括：对咳嗽音频进行去噪处理。去噪处理即除去咳嗽音频中的无关音频，例如静音、背景噪音，从而可以避免咳嗽音频中的无效音频对咳嗽疾病识别结果的影响，提高咳嗽音频识别的精度和准确度。

步骤S130，从若干咳嗽音频帧序列中提取得到咳嗽音频的声音特征。

咳嗽音频的声音特征是用于表征咳嗽音频特点的音频特征。不同咳嗽疾病所对应的咳嗽音频在时域和频域上所表现出的音频特征有所不同，例如咳嗽音频的音调、咳嗽时长、响度、梅尔频率、梅尔频率倒谱系数(MFCC)、线性预测系数(LPC)、线性预测倒谱系数(LPCC)等。

针对咳嗽音频中的每一帧咳嗽音频帧序列均进行声音特征的提取，所有咳嗽音频帧序列所对应的声音特征的组合即构成了该咳嗽音频的声音特征。

值得说明的是，以上所列举的音频特征仅仅是示例性的音频特征，不能认为是对本公开的限制，具体在实际应用中可以提取以上所列举的音频特征中的一种或者多种作为对应的声音特征，甚至提取以上所列举中的音频特征与其他未列举的音频特征进行组合作为对应的声音特征。

步骤S150，通过咳嗽疾病识别模型对咳嗽音频的声音特征进行分类预测，得到咳嗽音频对应的咳嗽疾病标签。

咳嗽疾病识别模型是利用深度神经网络所构建的用于咳嗽疾病识别的模型，其中包含若干层网络层，每层网络层由若干个神经元构成。在一实施例中，通过循环神经网络来构建咳嗽疾病识别模型，当然其他可以用于咳嗽疾病识别神经网络也适用于本发明。

咳嗽疾病标签用于反映咳嗽音频发声者所患的咳嗽疾病类型。比如反映发生者患具体咳嗽疾病的“鼻后滴漏综合症”、“哮喘”等咳嗽疾病标签。在具体应用中，可以将各个咳嗽疾病标签进行编码，比如，用数字0表示鼻后滴漏综合症，用数字1表示哮喘等，从而可以根据所输出的数字来相对应的确定咳嗽疾病标签。

在一示例性实施例中，咳嗽疾病识别模型包括特征向量构建层、全连接层和分类层，如图7所示，步骤S150包括：

步骤S151，将咳嗽音频的声音特征输入特征向量构建层，构建得到咳嗽音频的局部特征向量。

步骤S152，通过全连接层对咳嗽音频的局部特征向量进行全连接，得到所述咳嗽音频的全局特征向量。

步骤S153，将全局特征向量输入到分类层，预测得到咳嗽音频对应的咳嗽疾病标签。

其中所构建的咳嗽音频的局部特征向量是基于步骤S130所提取得到的声音特征。用向量或者矩阵的形式表示所提取的声音特征，并将该向量或矩阵进行变换处理得到局部特征向量。

其中步骤S130中提取了每一帧咳嗽音频帧序列的声音特征，根据每一帧咳嗽音频帧序列对应的声音特征所构建的向量即为该咳嗽音频的局部特征向量。

在步骤S152中，根据步骤S151所构建的局部特征向量按照每一咳嗽音频帧序列在咳嗽音频中的顺序进行全连接，得到咳嗽音频的全局特征向量。最后在分类层根据所得到的全局特征向量进行分类预测，得到咳嗽音频对应的咳嗽疾病标签。

在一示例性实施例中，如图8所示，步骤S153包括：

步骤S153-1，将全局特征向量输入到分类层，预测得到全局特征向量对应为每一咳嗽疾病标签的概率。

步骤S153-2，遍历每一咳嗽疾病标签的概率，以概率最大值对应的咳嗽疾病标签作为咳嗽音频对应的咳嗽疾病标签。

在一具体实施例中，针对咳嗽疾病识别模型设定了8个咳嗽疾病标签，分别为：“鼻后滴漏综合症”、“哮喘”、“急性喉炎”、“慢性阻塞性肺病”、“肺炎”、“百日咳”、“上呼吸道发炎”、“其他”咳嗽疾病标签。对得到的全局特征向量，在分类层进行该全局特征向量对应与每一个咳嗽疾病标签概率的预测。比如预测得到“鼻后滴漏综合症”咳嗽疾病标签的概率为P1，“哮喘”咳嗽疾病标签的概率为P2，“急性喉炎”咳嗽疾病标签的概率为P3，“慢性阻塞性肺病”咳嗽疾病标签的概率为P4，“肺炎”咳嗽疾病标签的概率为P5，“百日咳”咳嗽疾病标签的概率为P6，“上呼吸道发炎”咳嗽疾病标签的概率为P7，“其他”咳嗽疾病标签的概率为P8。

然后针对所得到的各个咳嗽疾病标签的概率，遍历每一咳嗽疾病标签的概率，若“肺炎”咳嗽疾病标签所对应的概率最大，将将“肺炎”这一咳嗽疾病标签作为咳嗽音频对应的咳嗽疾病标签。

在一具体实施例中，采用循环神经网络(RNN)模型来对咳嗽音频进行咳嗽疾病标签的分类预测。该模型的结构可以如图10所示。其中，循环神经网络模型包括：特征向量构建层、全连接层和分类层，其中特征向量构建层包括编码器层和解码器层。

咳嗽音频帧序列输入到循环神经网络模型后，依次经过编码器层、解码器层、全连接层和分类层，随后输出咳嗽疾病标签。

其中，编码器层和解码器层用于通过编码、压缩、降维、解码等运算构建每一咳嗽音频帧序列的局部特征向量。具体的，编码器层由3层组成的，包括分别有128个循环神经元和64个循环神经元的2个双向循环层，以及有32个循环神经元的单向层，经过128个神经元层会得到一个具有128个维度的输出，经过64个神经元层会得到一个具有64个维度的输出，然后经过32个循环神经元的层会得到一个具有32个维度的输出。编码器层所输出的32个维度的输出作为解码器层的输入。

其中双向的循环神经元是为了让神经元在计算的时候不仅利用序列中的历史信息，也能够利用其未来的信息。

在编码器层采用循环神经元进行向量的构建和变换，循环神经元的计算是与时间相关的，循环神经元的计算示意图如图11所示，输入的信息进入循环神经元之后，会与之前的隐藏信息(s_t-1)通过线性变化和激活函数一起得到s_t，计算过程如下：

s_t＝tanh(Ux_t+Ws_t-1)；

s_t通过循环神经元的计算后输出o_t，o_t作为下一层的输入。

解码器层由一个单独的循环层构成，它具有64个长短时记忆(LSTM)神经元，64个长短时记忆单元对输入的32个维度的输出进行线性变换和激活，得到每个语音帧序列所对应的只有一个维度的局部特征向量。

由于咳嗽音频是与时间相关的，所以采用循环神经网络(例如在编码器的前两层设置双向循环层、)充分利用了咳嗽音频帧序列间的时间信息，从而可以保证咳嗽疾病识别的精度，提高识别准确度。

进一步的，解码器层的LSTM神经元结合了注意力机制，注意力机制是指解码器在输出解码结果的时候，还会输出一个注意力范围，标识接下来的解码要重点关注序列中的哪些部分，然后根据这些部分进行输出。因为在一个时间序列中，某个时刻的状态可能受某些时刻的状态影响更大，因此注意力机制是让解码器层的神经元在解码计算某个时刻的状态时，对不同时刻的隐含层变量加权平均。通过结合注意力机制是该LSTM神经元主要灌入输入信息的显著部分，进而提高后续分类预测的准确度。

全连接层具有256个使用ReLU激活函数的神经元，将解码器层输出的局部特征向量进行整合和变换，得到针对该咳嗽音频的全局特征向量。

最后的分类层使用softmax分类器，对输入的全局特征向量进行预测分类，得到咳嗽疾病分类标签。

通过在神经网络针对性的设置不同的神经元，保证了咳嗽疾病识别模型的分类预测精度。

步骤S170，根据咳嗽疾病标签输出咳嗽音频对应的咳嗽疾病识别结果。

例如若预测得到的咳嗽疾病标签为“肺炎”咳嗽疾病标签，那么将“肺炎”作为该咳嗽音频对应的咳嗽疾病识别结果，其中输出的咳嗽疾病识别结果可以是在交互界面上通过文本信息告知用户识别结果，例如输出“识别结果：肺炎”等类似的信息，从而让用户得知所识别出的咳嗽疾病的结果。

通过咳嗽疾病识别模型自动根据咳嗽音频进行咳嗽疾病的识别，不需要人的经验即可实现根据咳嗽音频识别咳嗽疾病，方便快捷，可以用于日常咳嗽疾病的识别或者医院等人的咳嗽疾病识别。

在一示例性实施例中，如图4所示，该方法还包括：

步骤S010，对咳嗽音频进行合格性检测。

步骤S020，若不合格，则生成告警信息以提示用户重新上传咳嗽音频。

若步骤S010检测咳嗽音频合格，则执行步骤S110。

其中合格性检测可以是针对咳嗽音频的时长以及音量、音质等，在此不进行限定。例如，如果预定输入的咳嗽音频需要超过25s，当用户上传的咳嗽音频的时长为15s，则将用户发送告警信息，例如“音频时长过短，请重新上传”等类似信息，以提示用户重新上传咳嗽音频。对于检测合格的咳嗽音频，继续执行步骤S110及其后续的步骤。

如上所述，所提取的声音特征可以针对某一音频特征，在一示例性实施例中，以梅尔频率倒谱系数作为声音特征，如图6所示，梅尔频率倒谱系数的提取可以包括如下步骤：

步骤S131，计算每一帧咳嗽音频帧序列的离散功率谱。

其中，提取每一帧咳嗽音频帧序列的离散功率谱是通过将时域的音频帧序列转化为频域信号后，计算得到具体频率下的功率谱，即为离散功率谱。

步骤S132，将离散功率谱通过梅尔滤波器滤波得到每一帧咳嗽音频帧序列的梅尔频谱。

梅尔滤波器由M个三角滤波器组成，其中M一般为22至26个，每个三角滤波器进行将离散功率谱与三角滤波器的中心频率进行乘积运算，每个离散功率谱会对应得到M个参数，将每个离散功率谱对应的M个参数组合起来即构成了每一帧咳嗽音频帧序列的梅尔频谱。

步骤S133，对梅尔频谱进行对数变换和离散余弦变换得到每一帧咳嗽音频帧序列的梅尔频率倒谱系数。

步骤S134，由若干帧咳嗽音频帧序列的梅尔频率倒谱系数形成咳嗽音频的声音特征。

在一示例性实施例中，咳嗽疾病识别模型在用于咳嗽疾病的分类预测前，还需要对咳嗽疾病识别模型进行训练，如图9所示，步骤S150之前还包括：

步骤S001，采集若干咳嗽病人的咳嗽音频，得到若干样本咳嗽音频。

具体的，可以通过在咳嗽病人的家中根据房屋大小部署2-4个麦克风进行录音，得到若干样本咳嗽音频。

步骤S002，根据咳嗽病人所患咳嗽疾病对相应的样本咳嗽音频进行咳嗽疾病标注，生成样本咳嗽音频所对应的咳嗽疾病标签。

其中咳嗽病人是指发出咳嗽音频的人，发出咳嗽音频可以是因为具体患有咳嗽疾病而发出咳嗽音频，也可以是由于物理环境中的刺激所发出咳嗽音频。

根据咳嗽病人所患的咳嗽病进行样本咳嗽音频的咳嗽疾病标注，例如通过Audacity声音编辑器在电脑上进行标注(例如“鼻后滴漏综合症”、“哮喘”、“急性喉炎”、“慢性阻塞性肺病”、“肺炎”、“百日咳”、“上呼吸道发炎”、“其他”)，其中，“其他”是对于咳嗽病人患以上前7中咳嗽疾病外的咳嗽疾病所对应的标注，包括由于外界刺激所引起的咳嗽进行的标注。将标注的结果作为样本咳嗽音频所对应的咳嗽疾病标签。

步骤S003，根据若干样本咳嗽音频及对应的咳嗽疾病标签对循环神经网络模型进行模型训练。

步骤S004，当循环神经网络模型收敛，以收敛的循环神经网络模型作为咳嗽疾病识别模型。

在根据样本咳嗽音频及其对应的咳嗽疾病标签对循环神经网络模型进行训练的过程中，通过将样本咳嗽音频输入到循环神经网络模型计算输出一个针对该样本咳嗽音频的输出咳嗽疾病标签，如果该咳嗽疾病标签与该样本咳嗽音频标注的咳嗽疾病标签不一致，则调节循环神经网络模型的模型参数，直至两个咳嗽疾病标签相同。然后在通过下一个样本咳嗽音频进行该循环神经网络模型的训练。用所采集的样本咳嗽音频及其对应的咳嗽疾病标签训练后，得到一组该循环神经网络模型的模型参数，而且循环神经网络模型对咳嗽音频的分类预测的准确度达到设定值，即认为该循环神经网络模型收敛，将该收敛的循环神经网络模型作为咳嗽疾病识别模型。

下述为本公开装置实施例，可以用于执行本公开上述服务器200执行的咳嗽疾病识别方法实施例。对于本公开装置实施例中未披露的细节，请参照本公开基于深度学习的咳嗽疾病识别方法实施例。

图12是根据一示例性实施例示出的一种基于深度学习的咳嗽疾病识别装置的框图，该装置可以用于图1所示实施环境的服务器200中，执行以上方法实施例的全部或者部分步骤。如图12所示，包括：

预处理模块110，被配置为执行：对咳嗽音频进行预处理得到若干咳嗽音频帧序列。

声音特征提取模块130，该模块与预处理模块110连接，被配置为执行：从若干咳嗽音频帧序列中提取得到咳嗽音频的声音特征。

分类预测模块150，该模块与声音特征提取模块130连接，被配置为执行：通过咳嗽疾病识别模型对咳嗽音频的声音特征进行分类预测，得到咳嗽音频对应的咳嗽疾病标签。

输出模块170，该模块与分类预测模块150连接，被配置为执行：根据咳嗽疾病标签输出咳嗽音频对应的咳嗽疾病识别结果。

采用深度学习的方法，利用咳嗽疾病识别模型可以自动根据咳嗽音频识别咳嗽疾病，方便快捷，无需人的经验积累即可实现咳嗽疾病的识别。而且通过进行咳嗽疾病识别模型的充分训练，可以保证咳嗽疾病识别的准确度，提高识别精度。

在一实施例中，该装置还包括：

检测模块，被配置为执行：对咳嗽音频进行合格性检测。

告警模块，该模块与检测模块连接，被配置为执行：如果判断咳嗽音频不合格，则生成告警信息以提示用户重新上传咳嗽音频。其中预处理模块110还与检测模块相连，从而在检测模块检测咳嗽音频合格时，预处理模块110执行相应动作。

在一实施例中，预处理模块进一步包括：

短时傅里叶变换单元，被配置为执行：对咳嗽音频进行短时傅里叶变换，得到咳嗽音频对应的声谱图。

分段单元，该单元与短时傅里叶变换单元连接，被配置为执行：按照指定长度对声谱图进行分段，得到若干咳嗽音频帧序列。

在一实施例中，声音特征提取模块包括：

离散功率谱计算单元，被配置为执行：计算每一帧咳嗽音频帧序列的离散功率谱。

梅尔频谱获取单元，被配置为执行：将离散功率谱通过梅尔滤波器滤波得到每一帧咳嗽音频帧序列的梅尔频谱。

梅尔频率倒谱系数获取单元，被配置为执行：对梅尔频谱进行对数变换和离散余弦变换得到每一帧咳嗽音频帧序列的梅尔频率倒谱系数；

声音特征构建单元，被配置为执行：由若干帧咳嗽音频帧序列的梅尔频率倒谱系数形成咳嗽音频的声音特征。

在一实施例中，咳嗽疾病识别模型包括特征向量构建层、全连接层和分类层，分类预测模块进一步包括：

局部特征向量构建单元，被配置为执行：将咳嗽音频的声音特征输入特征向量构建层，构建得到咳嗽音频的局部特征向量。

全连接单元，被配置为执行：通过全连接层对咳嗽音频的局部特征向量进行全连接，得到咳嗽音频的全局特征向量。

预测单元，被配置为执行：将全局特征向量输入到分类层，预测得到咳嗽音频对应的咳嗽疾病标签。

在一实施例中，预测单元进一步包括：

概率预测单元，被配置为执行：将全局特征向量输入到分类层，预测得到全局特征向量对应为每一咳嗽疾病标签的概率。

遍历单元，被配置为执行：遍历每一咳嗽疾病标签的概率，以概率最大值对应的咳嗽疾病标签作为咳嗽音频对应的咳嗽疾病标签。

在一实施例中，咳嗽疾病识别装置还包括：

采集模块，被配置为执行：采集若干咳嗽病人的咳嗽音频，得到若干样本咳嗽音频。

标注模块，被配置为执行：根据咳嗽病人所患咳嗽疾病对相应的样本咳嗽音频进行咳嗽疾病标注，生成样本咳嗽音频所对应的咳嗽疾病标签。

训练模块，被配置为执行：根据若干样本咳嗽音频及对应的咳嗽疾病标签对循环神经网络模型进行模型训练。

咳嗽疾病识别模型获得模块，被配置为执行：当循环神经网络模型收敛，以收敛的循环神经网络模型作为咳嗽疾病识别模型。

上述装置中各个模块以及单元的功能和作用的实现过程具体详见上述基于深度学习的咳嗽疾病识别方法中对应步骤的实现过程，在此不再赘述。

以上所涉及的模块和单元也可以是功能模块，用于执行上述咳嗽疾病识别方法中的对应步骤。可以理解，这些模块可以通过硬件、软件、或二者结合来实现。当以硬件方式实现时，这些模块可以实施为一个或多个硬件模块，例如一个或多个专用集成电路。当以软件方式实现时，这些模块可以实施为在一个或多个处理器上执行的一个或多个计算机程序，例如图2的处理器270所执行的存储在存储器250中的程序。

可选的，本公开还提供一种基于深度学习的咳嗽疾病识别装置，该装置可以用于图1所示实施环境的服务器200中，执行以上本公开方法实施例的全部或者部分步骤。基于深度学习的咳嗽疾病识别装置包括：

处理器；及

存储器，存储器上存储有计算机可读指令，计算机可读指令被处理器执行时实现如上的咳嗽疾病识别方法。

该实施例中的装置的处理器执行操作的具体方式已经在有关该基于深度学习的咳嗽疾病识别方法的实施例中执行了详细描述，此处将不做详细阐述说明。

在示例性实施例中，还提供了一种计算机可读存储介质，例如可以为包括指令的临时性和非临时性计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现如上的基于深度学习的咳嗽疾病识别方法。

应当理解的是，本发明并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围执行各种修改和改变。本发明的范围仅由所附的权利要求来限制。

Claims

1.一种基于深度学习的咳嗽疾病识别方法，其特征在于，包括：

对咳嗽音频进行预处理得到若干咳嗽音频帧序列；

2.根据权利要求1所述的方法，其特征在于，所述对咳嗽音频进行预处理得到若干咳嗽音频帧序列之前，所述方法还包括：

对所述咳嗽音频进行合格性检测；

若不合格，则生成告警信息以提示用户重新上传咳嗽音频；若合格，则执行对咳嗽音频进行预处理得到若干咳嗽音频帧序列的步骤。

3.根据权利要求1所述的方法，其特征在于，所述对咳嗽音频进行预处理得到若干咳嗽音频帧序列，包括：

对所述咳嗽音频进行短时傅里叶变换，得到所述咳嗽音频对应的声谱图；

按照指定长度对所述声谱图进行分段，得到所述若干咳嗽音频帧序列。

4.根据权利要求1所述的方法，其特征在于，所述从若干咳嗽音频帧序列中提取得到所述咳嗽音频的声音特征，包括：

计算每一帧咳嗽音频帧序列的离散功率谱；

将所述离散功率谱通过梅尔滤波器滤波得到所述每一帧咳嗽音频帧序列的梅尔频谱；

对所述梅尔频谱进行对数变换和离散余弦变换得到所述每一帧咳嗽音频帧序列的梅尔频率倒谱系数；

由若干帧咳嗽音频帧序列的梅尔频率倒谱系数形成所述咳嗽音频的声音特征。

5.根据权利要求1所述的方法，其特征在于，所述咳嗽疾病识别模型包括特征向量构建层、全连接层和分类层，所述通过咳嗽疾病识别模型对所述咳嗽音频的声音特征进行分类预测，得到所述咳嗽音频对应的咳嗽疾病标签，包括：

将所述咳嗽音频的声音特征输入所述特征向量构建层，构建得到所述咳嗽音频的局部特征向量；

通过所述全连接层对所述咳嗽音频的局部特征向量进行全连接，得到所述咳嗽音频的全局特征向量；

将所述全局特征向量输入到所述分类层，预测得到所述咳嗽音频对应的咳嗽疾病标签。

6.根据权利要求5所述的方法，其特征在于，所述将所述全局特征向量输入到所述分类层，预测得到所述咳嗽音频对应的咳嗽疾病标签，包括：

将所述全局特征向量输入到所述分类层，预测得到所述全局特征向量对应为每一咳嗽疾病标签的概率；

遍历所述每一咳嗽疾病标签的概率，以概率最大值对应的咳嗽疾病标签作为所述咳嗽音频对应的咳嗽疾病标签。

7.根据权利要求1所述的方法，其特征在于，所述通过咳嗽疾病识别模型对所述咳嗽音频的声音特征进行分类预测，得到所述若干咳嗽音频帧序列对应的咳嗽疾病标签之前，所述方法还包括：

采集若干咳嗽病人的咳嗽音频，得到若干样本咳嗽音频；

根据所述咳嗽病人所患咳嗽疾病对相应的样本咳嗽音频进行咳嗽疾病标注，生成所述样本咳嗽音频所对应的咳嗽疾病标签；

根据若干所述样本咳嗽音频及对应的咳嗽疾病标签对循环神经网络模型进行模型训练；

当所述循环神经网络模型收敛，以收敛的循环神经网络模型作为所述咳嗽疾病识别模型。

8.一种基于深度学习的咳嗽疾病识别装置，其特征在于，包括：

9.一种基于深度学习的咳嗽疾病识别装置，其特征在于，包括：

处理器；及

存储器，所述存储器上存储有计算机可读指令，所述计算机可读指令被所述处理器执行时实现如权利要求1至7中任一项所述的方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述的方法。