CN113409825A - 健康智能检测方法、装置、电子设备及可读存储介质 - Google Patents

健康智能检测方法、装置、电子设备及可读存储介质 Download PDF

Info

Publication number
CN113409825A
CN113409825A CN202110954853.9A CN202110954853A CN113409825A CN 113409825 A CN113409825 A CN 113409825A CN 202110954853 A CN202110954853 A CN 202110954853A CN 113409825 A CN113409825 A CN 113409825A
Authority
CN
China
Prior art keywords
detection
audio
training
signal
health
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110954853.9A
Other languages
English (en)
Inventor
穆海东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Yulong Biomedical Development Co ltd
Original Assignee
Nanjing Yulong Biomedical Development Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Yulong Biomedical Development Co ltd filed Critical Nanjing Yulong Biomedical Development Co ltd
Priority to CN202110954853.9A priority Critical patent/CN113409825A/zh
Publication of CN113409825A publication Critical patent/CN113409825A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/66Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for extracting parameters related to health condition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks

Abstract

本申请公开了一种健康智能检测方法、装置、电子设备及可读存储介质,其方法包括获取音频信号,并对所述音频信号进行预处理,得到检测信号;将所述检测信号转化为矩阵数字矩阵;将得到的矩阵数字矩阵作为检测样本,输入健康智能检测模型中,以获取检测结果;其中,所述健康智能检测模型是采用迁移学习和卷积神经网络对训练样本进行训练得到的。本申请由于卷积神经网络各组件或部分组件基于迁移学习进行了重新训练,显著提升了对人们健康检测的准确度;且本申请中的健康智能检测模型为分类模型,计算量小,可将其部署于人们的移动终端中,使用方便,极大程度上提升了用户的使用感受。

Description

健康智能检测方法、装置、电子设备及可读存储介质
技术领域
本申请涉及人工智能技术领域,具体涉及一种健康智能检测方法、装置、电子设备及可读存储介质。
背景技术
随着人们生活水平的提高,人们对自身的身体健康状态越来越关注,随着疫情的爆发和蔓延,人工智能能够利用数据源的信息做出更好的决策,在各个领域的应用比较广泛,使人们的生活更加便捷,随着人工智能技术的不断发展,在医学方面也出现较多的应用。
在对健康检测方面,有一些技术,如中国专利CN 111629663 A,公开了一种用疾病特征分析咳嗽声音以诊断呼吸系统疾病的方法,由于其采用单一的神经网络进行训练,且其模型为逻辑回归模型,存在着检测精度低、计算量大、针对性差的问题。
基于此,亟待一种精确度高、计算量小、对用户友好的健康智能检测方法。
发明内容
本申请实施例提供了一种健康智能检测方法、装置、电子设备及可读存储介质,以克服或者至少部分克服现有技术的不足。
第一方面,提供了一种健康智能检测方法,包括:
获取音频信号,并对所述音频信号进行预处理,得到检测信号;
将所述检测信号转化为矩阵数字矩阵;
将得到的矩阵数字矩阵作为检测样本,输入健康智能检测模型中,以获取检测结果;其中,所述健康智能检测模型是采用迁移学习和卷积神经网络对训练样本进行训练得到的。
可选的,在上述方法中,所述音频信号为咳嗽声;
所述获取音频信号,并对所述音频信号进行预处理,得到检测信号包括:
通过检测终端的音频采集设备获取时长为3-30s的咳嗽声音信号;
对所述咳嗽声音信号进行杂音清理,以删除其中无效、不相关、损坏或不完整的信号,将清理后的咳嗽声音信号作为检测信号。
可选的,在上述方法中,所述将所述检测音频信号转化为数字矩阵包括:
将所述检测音频信号进行分帧和移帧,得到多帧检测信号;
通过傅里叶变换,确定各帧检测信号的功率谱和周期图;
对各帧检测信号的功率谱和周期图进行梅尔滤波变换,得到各帧检测信号的梅尔频谱能量;
对各帧检测信号的梅尔频谱能量进行离散余弦变换,得到数字矩阵。
可选的,在上述方法中,所述数字矩阵的形状是根据选择的参数确定的,选择的参数至少包括采样频率、跟踪持续时间和系数数目。
可选的,在上述方法中,所述健康智能检测模型是采用下述方法训练得到的:采集获取训练音频样本和测试音频样本,所述训练音频样本包括人类语音音频、情感语音音频和训练用咳嗽音频,所述测试音频样本为测试用咳嗽音频;
依次对所述人类语音音频、情感语音音频、训练用咳嗽音频和测试用咳嗽音频进行训练,并调整所述健康智能检测模型的参数,以得到最终的健康智能检测模型。
可选的,在上述方法中,所述健康智能检测模型的结构是多个不同的卷积神经网络连接在一起形成的。且各卷积神经网络都是通过迁移学习改进的。
可选的,在上述方法中,所述健康智能检测模型的各卷积神经网络的全连接层和卷积层的数量和参数是基于迁移学习进行训练确定的。
第二方面,提供了一种健康智能检测装置,该装置包括:
获取单元,用于获取音频信号,并对所述音频信号进行预处理,得到检测音频信号;
信号处理单元,用于将所述检测音频信号转化为数字矩阵;
检测单元,用于将得到的数字矩阵作为检测样本,输入健康智能检测模型中,以获取检测结果;其中,所述健康智能检测模型是采用迁移学习和卷积神经网络对训练样本进行训练得到的。
第三方面,本申请实施例还提供了一种电子设备,包括:处理器;以及被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器执行上述任一的方法。
第四方面,本申请实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质存储一个或多个程序,所述一个或多个程序当被包括多个应用程序的电子设备执行时,使得所述电子设备执行上述任一的方法。
本申请实施例采用的上述至少一个技术方案能够达到以下有益效果:
本申请通过将迁移学习和卷积神经网络相结合的方式,通过训练得到了健康智能检测模型,该健康智能检测模型可以通过测试人们的音频信号,确定人们是否处于健康状态。相对于现有技术,由于卷积神经网络各组件或部分组件基于迁移学习进行了重新训练,显著提升了对人们健康检测的准确度;且本申请中的健康智能检测模型为分类模型,计算量小,可将其部署于人们的移动终端中,使用方便,极大程度上提升了用户的使用感受。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1示出根据本申请的一个实施例的健康智能检测方法的流程示意图;
图2示出根据本申请的一个实施例的健康智能检测装置的结构示意图;
图3示出了根据本申请的一个实施例的MVT数据交互的示意图;
图4为本申请实施例中一种电子设备的结构示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
以下结合附图,详细说明本申请各实施例提供的技术方案。
随着新型冠状病毒肺炎(Covid-19,简称新冠)的爆发和蔓延,使得人们就医非常不方便,尤其一些疫情较严重的地区,人们得病后很难及时就医,为了满足人们急切想了解自己病情的需求,本申请提供了一种健康检测方法,该方法利用迁移学习和卷积神经网络对训练样本进行训练得到的健康智能检测模型,通过人们的音频声音,即可确定人们是否处于健康状态,尤其是对是否患有新冠的诊断准确率非常高。
图1示出根据本申请的一个实施例的健康智能检测方法的流程示意图,从图1可以看出,该方法至少包括步骤S110~步骤S130:
步骤S110:获取音频信号,并对所述音频信号进行预处理,得到检测信号。
本申请是基于机器学习的方法,对用户的健康状态进行检测,首先,获取用户的音频信号。
音频信号可以但不限于通过智能终端收集用户咳嗽时或呼吸时的声音信号。如以16000Hz采集智能终端的麦克的音频信号,得到音频信号的时间序列,以16000Hz、以16位表示一个采集点信号大小、单声道为例,音频信号为(2, 4, 100, 120, 140, 60, -60, -130, …), 每个点的间隔时间=1/16000秒。
为了提高检测精度,可以对音频信号做一些简单的预处理,如降噪等,在本申请的一些实施例中,可以对所述咳嗽声音信号进行杂音清理,以删除其中无效、不相关、损坏或不完整的信号,并将清理后的咳嗽声音信号作为检测信号。预处理的手段可参考现有技术,本申请不作限制。
步骤S120:将所述检测信号转化为数字矩阵。
在得到检测信号后,不能直接将其作为健康智能检测模型的输入数据,而是需要将其转化为数字矩阵,将数字矩阵作为健康智能检测模型的输入数据。
在本申请的一些实施例中,具体的转化过程可参考下述方法:将所述检测音频信号进行分帧和移帧,得到多帧检测信号;通过傅里叶变换,确定各帧检测信号的功率谱和周期图;对各帧检测信号的功率谱和周期图进行梅尔滤波变换,得到各帧检测信号的梅尔频谱能量;对各帧检测信号的梅尔频谱能量进行离散余弦变换,得到数字矩阵。
将时间序列按照一定的规律取出一组数据,这一组数据就叫做一帧数据,如每次取出512个数据,这叫做一帧数据,这个过程即为分帧,每次取出的数据的数量可根据计算量设置,通常为512或1024。具体在一帧数据中,取出的是音频信号的那些频点的数据,这与频点分辨率有关,如以频点分辨率为16000,每次取出512个数据为例,由于16000/512=31.25Hz,即在0-8000Hz频域中,只能获得31.25 * N的频点的信息,N = 1-256的整数。
在本申请的一些实施例中,分帧(短帧,如 20-40毫秒的帧),能够以最大限度地减少来自傅里叶变换(FFT)或离散傅里叶变换(DFT)的频谱泄漏。第一个关键参数是帧长,即单个帧的取样点总数(例如,16kHz信号每秒有16,000取样点,25毫秒的帧为每秒400取样点)。
在本申请的一些实施例中,为了提高检测精度,在分帧的过程中,每次取值并不是从前一帧数据的尾部开始,而是从前一帧数据的中间位置开始,在本实施例中,第二帧是从第一帧的中间位置开始的,即257个频点开始,取512个频点对应的幅值。为了方便处理,为每帧音频信号设置帧号,顺序递增。
在本申请中,帧移,通常比帧长(例如10毫秒)短,允许与帧重叠。最终为每个帧提取MFCC系数。符号:s_i(n)其中n是从1到F,其中F为总帧长,i在帧总数范围内。
组成一帧音频信号中的各频点对应的幅值进行傅里叶变换,并根据时间的先后顺序组合,就组成了一帧音频信号的功率谱。即每一帧的功率谱可以使用一维数组来表示(a1, a2, a3, …, a256),分别对应31.25Hz,62.5Hz,93.75Hz,…, 8000Hz的幅值。
傅里叶变换或离散傅里叶变换,将原始信号从时域(time domain)转换为频域(frequency domain)。这会生成每个帧的"功率谱(power spectra)"和"周期图(periodogram of power spectra)"(频率为X轴)。使用每个帧的DFT(离散傅里叶变换,discrete Fourier transform),其中包含参数:N确定长加窗的取样点(例如,汉宁窗(Hanning window)),K是DFT的长度。也就是说,DFT的输出以其输入k(频率轴):它是输入频率的范围,从1到K。最后,由功率谱估计调整每个S_i(k)。
每个帧的DFT:
Figure 57308DEST_PATH_IMAGE001
每个s_i的周期图估计:
Figure 302345DEST_PATH_IMAGE002
然后,将梅尔滤波器应用于功率谱,其指定数量为滤波器(通常为 26-40)。每个滤波器都是一个代表特定能量水平的矢量(这相当于频率范围的某些部分为非零)。将每个滤波器与功率谱相乘,然后添加所有系数,可为每个滤波器产生滤波器能量。正数值与负数值表示光谱能量的浓度(在低或高频率内)。数学上:每个滤波器表示为带有K条目的矢量,其中K表示DFT的长度(输入频率的范围)。它是非零在总频率范围的特定部分,这代表了能量水平。主要参数包括:滤波器的X数(通常为26-40),选择上限/下限频率(例如"下限频率"300Hz,"上限频率"8000Hz;这受音频取样频率的限制)。
以所有X滤波器能量的对数为例,这会导致X对数滤波器能量。
以X对数滤波器能量的DCT(离散余弦变换,discrete cosine transform)为例,这会导致X倒谱系数。由此产生的X倒谱系数是MFCC(梅尔频率倒谱系数, Mel FrequencyCepstrum Coefficients)。
步骤S130:将得到的矩阵数字矩阵作为检测样本,输入健康智能检测模型中,以获取检测结果;其中,所述健康智能检测模型是采用迁移学习和卷积神经网络对训练样本进行训练得到的。
最后,将得到的矩阵数字矩阵作为检测样本,输入健康智能检测模型中,以获取检测结果,需要说明的,本申请中的健康智能检测模型为分类模型,通常为二分类模型,给出的结果可以是是否确诊,如对新型冠状病毒肺炎的诊断结果为健康或危险区。
在本申请中,健康智能检测模型是采用迁移学习和卷积神经网络对训练样本进行训练得到的。相对于现有技术中,单纯采用卷积神经网络对训练样本进行训练得到的测试模型,检测的精确度有显著的提高。
本申请的健康智能检测模型是基于卷积神经网络 (convolutional neuralnetwork, CNN)算法组件(包括backpropagation, max pooling, ReLU rectified linearactivation),和迁移学习的设计概念。CNN算法是分类算法,而不是与回归算法。CNN通过检测数据的宏观级特征(类似于图像分类)执行特征提取,并且不限于音频信号的特定物理区域。CNN的结构:CNN 由不同类型的层(layer)组成:1.卷积层(convolutional layers) ,2.池化层(pooling layers) ,3.全连接层(fully connected layers, dense layers) ,4.dropout层。除了层类型外,最重要的参数是激活函数(activation function)。此激活函数控制学习过程的行为。激活函数示例包括:ReLU, Softmax, tanH, Sigmoid functions。其中,CNN的各层的的作用如下所述:
1. 卷积层主要用于输入数据中的特征提取,输入数据和特定尺寸M´M的滤波器之间执行卷积运算,向量点积在滤波器和输入图像的某些部分之间拍摄。
2. 池化层旨在缩小卷积运算过的特征(convolved feature)的大小并减少计算复杂性(computational complexity),池化层的类型包括: Max Pooling, AveragePooling, Sum Pooling。
3. 全连接层(fully connected layers (FCL),或dense layers),FCL 用于连接两个不同层之间的神经元,这就是分类过程发生的地方。
4. Dropout层,为了防止过拟合(overfitting),是神经元在训练过程中下降的地方。
关于训练和迁移学习框架的注意事项:神经网络训练框架是将测试数据和训练数据分开,指定 X(输入类)和 Y(输出类),在训练数据上运行神经网络以形成参数值,并评估测试数据的准确性。迁移学习是一个一般设计原则,而不是一个特定的算法。它不适用于每一层,但是指在任何整个神经网络设计中删除和添加层,并选择删除和重新训练哪些层的原则。
从图1所示的方法可以看出,本申请通过将迁移学习和卷积神经网络相结合的方式,通过训练得到了健康智能检测模型,该健康智能检测模型可以通过测试人们的音频信号,确定人们是否处于健康状态。相对于现有技术,由于卷积神经网络各组件或部分组件基于迁移学习进行了重新训练,显著提升了对人们健康检测的准确度;且本申请中的健康智能检测模型为分类模型,计算量小,可将其部署于人们的移动终端中,使用方便,极大程度上提升了用户的使用感受。
在本申请的一些实施例中,在上述方法中,所述音频信号为咳嗽声;所述获取音频信号,并对所述音频信号进行预处理,得到检测信号包括:通过检测终端的音频采集设备获取时长为3-30s的咳嗽声音信号。
在本申请的一些实施例中,本申请可以通过人们的咳嗽声,能够确诊出用户是否感染新冠,因此,在种情况下,采集的音频信号为用户的咳嗽声,通常通过检测终端的音频采集设备获取时长为3-30s的咳嗽声音信号即可。
在本申请的一些实施例中,对于健康智能检测模型的训练主要作出了下述三方面的改进:第一,训练设计:训练数据的正确顺序和数据的正确选择;第二,多个神经网络的连结;以及第三,针对健康智能检测模型的MFCC参数优化的参数的新选择。
对于上述第一项,在本申请的一些实施例中,在上述方法中,所述健康智能检测模型是采用下述方法训练得到的:采集获取训练音频样本和测试音频样本,所述训练音频样本包括人类语音音频、情感语音音频和训练用咳嗽音频,所述测试音频样本为测试用咳嗽音频;依次对所述人类语音音频、情感语音音频、训练用咳嗽音频和测试用咳嗽音频进行训练,并调整所述健康智能检测模型的参数,以得到最终的健康智能检测模型。
使用重复迁移学习重新设计现有的 CNN (Resnet-50),首先对人类语音音频进行训练,然后对情感语音进行训练,最后对疾病咳嗽音频进行训练。这种训练订购的新设计提高了精度,减少了"假阴"。其主要原因是,如果没有迁移学习,用于训练的唯一数据将包括数千个阴性结果,但只有几百个阳性结果,这不足以从阳性数据中提取全部信息。通过迁移学习,人们根据新的诊断音频数据重新训练现有的(已训练有素的)神经网络。这个现有的神经网络已经有了特征提取的“基础”,因为它的参数已经使用现有的音频或图像数据进行了训练(例如,对不同乐器的声音进行分类)。如果已经训练好的神经网络使用与疾病音频相似的音频数据(识别相似的宏观特征)进行第二次训练,这会增加从阳性病例中提取的信息水平,并提高检测阳性的准确性。对于迁移学习,重要的是准确选择最接近疾病诊断的正确类型的音频数据,以便可以应用迁移学习,并可以使用疾病诊断的音频对其进行重新训练。
对于上述第二项,在本申请的一些实施例中,在上述方法中,所述健康智能检测模型的结构是多个不同的卷积神经网络连接在一起形成的。且各卷积神经网络都是通过迁移学习改进的;所述健康智能检测模型的各卷积神经网络的全连接层和卷积层的数量和参数是基于迁移学习进行训练确定的。
神经网络层的新设计,汇集在一起的多个神经网络张量(Global AveragePooling 2D layer),每个组件神经网络都可以使用重复迁移学习。需要注意的是:神经网络的连在一起不同于迁移学习,连在一起包括一个额外的层,从多个神经网络输入数据。例如,一种设计是将 3 个不同的神经网络连在一起,每个网络都是通过迁移学习改进的CNN。
对于上述第二项,在本申请的一些实施例中,在上述方法中,所述数字矩阵的形状是根据选择的参数确定的,选择的参数至少包括采样频率(sampling rate)、跟踪持续时间(the track duration for each mfccs matrix)和系数数目(n_mfccs)。
选择数字参数(参数包括:dense 和 convolutional 层的数量,和在迁移学习中选择特定的神经网络层来替换和重新训练),并在 MFCC 信号处理阶段(包括n_mfccs,sampling rate, and the track duration for each mfccs matrix)选择参数,以便相互优化,并优化以提高精度。其意义在于指导参数选择的设计原则。例如,如果疾病与声音区域无关,但影响整个人体(如呼吸速度),那么我们避免使用过滤特定声音区域的算法(如VAD 和腹腔均值正常化)。这也影响参数的选择,如:sr (取样频率,sampling rate) ,滤波器(filterbanks)的数量,和DCT算法。例如,DCT 步骤不能丢弃系数(这与ASR(automaticspeech recognition,自动语音识别)不同,其中保留DCT系数较低的12-13个,其余的丢弃)。另一方面,如果疾病与声带的特定区域有关(每个区域对应于能量水平),则可以有丢弃系数的规则。每一个新的设计规则最终都会针对每一种疾病进行测试,但这些设计规则的存在能够发现更多的参数选择和使用它们的复杂条件。
关于上述,本申请使用的主要参数包括:sr (取样频率,sampling rate),n_mfccs(number of coefficients),n_fft,hop_length,所有这些都是计算 MFCC 步骤中必不可少的。(例如,frame rate = sr / hop-length。)还有可以插入的次要参数,例如 DCT 类型(类型 1、2、3),但不太强调。对于 Covid-19,我们更改的参数主要是 sr 和 n_mfccs,但我们保留了一系列可能的参数选择,并针对每种疾病进行测试。参数不是随机选择的,而是必须遵循上述设计原则(例如将参数与:疾病的结构特征、生理特征和机器学习算法的特征进行匹配)。
此外,数据输入和输出格式:选择的 MFCC 参数:对于每个.wav文件(44.1 kHz),根据参数生成 mfccs 矩阵。参数包括:samplerate=default, n_mfccs=40是要返回的MFCC 数量,由此产生的mfccs矩阵是具有形状(n_mfccs, T)的numpy.ndarray。T是trackduration in frames。对于Covid-19咳嗽音频,我们将mfccs矩阵切成形状(n_mfccs,100),其中track duration被切割为 100 frames(100/44.1 = 2.27 秒)。每个输出的MFCC矩阵的格式是Python张量(tensor)。
本申请的实现可使用任意的编程语言,如 Python、C++。技术内容仅取决于基本算法和参数,而不依赖于特定的编程语言。不同的代码可以构建非常相同的算法步骤,如 FFT和深度学习。原则上,算法步骤可以使用 Python、C++、Java 和其他用于机器学习和信号处理的编程语言(哈斯克尔、斯卡拉、F#、LISP、FORTRAN)实施。技术任务不依赖于编程语言的类型:函数式编程(object-oriented)、面向对象编程(functional)、命令式编程(imperative)、或其他类型。
数据输入和输出格式(神经网络训练):每个 mfccs 矩阵从40´100转换为4000´1,并转换为单个CSV文件,其中每行为单个音频文件,每行有 4000 列。然后,对于神经网络训练,每个音频文件被重新塑造回 40X100。
在本申请的一些实施例中,发明人最初收集的新型冠状病毒肺炎(Covid-19)咳嗽声音数据集总共包括 3172 个声音文件,其中 3091 个用于训练集,81 个用于测试集。在没有迁移学习(Transfer Learning)对健康智能检测模型重新训练,仅有一个非常基本的卷积神经网络(Convolutional Neural Networks, CNN)与修正线性单元(RectifiedLinear Unit, ReLU)的情况下,测试的准确率仅为0.6。在此基础上,发明人将迁移学习引入了健康智能检测模型,能够接近0.97的验证率,超过0.9的特异性和灵敏度。此外,总体设计在条件变化方面更加坚固。在现有技术中,也存在使用一些技术,可以达到本申请类似的精度水平,如Laguarta, Hueto, Subirana (2020)等,但其模型设计均非常复杂,理论能力低于本申请。
图2示出根据本申请的一个实施例的健康智能检测装置的结构示意图;从图2可以看出,该装置200包括:
获取单元210,用于获取音频信号,并对所述音频信号进行预处理,得到检测音频信号。
信号处理单元220,用于将所述检测音频信号转化为数字矩阵。
检测单元230,用于将得到的数字矩阵作为检测样本,输入健康智能检测模型中,以获取检测结果;其中,所述健康智能检测模型是采用迁移学习和卷积神经网络对训练样本进行训练得到的。
在本申请的一些实施例中,在上述装置中,所述音频信号为咳嗽声;获取单元210,用于通过检测终端的音频采集设备获取时长为3-30s的咳嗽声音信号;对所述咳嗽声音信号进行杂音清理,以删除其中无效、不相关、损坏或不完整的信号,将清理后的咳嗽声音信号作为检测信号。
在本申请的一些实施例中,在上述装置中,信号处理单元220,用于将所述检测音频信号进行分帧和移帧,得到多帧检测信号;通过傅里叶变换,确定各帧检测信号的功率谱和周期图;对各帧检测信号的功率谱和周期图进行梅尔滤波变换,得到各帧检测信号的梅尔频谱能量;对各帧检测信号的梅尔频谱能量进行离散余弦变换,得到数字矩阵。
在本申请的一些实施例中,在上述装置中,所述数字矩阵的形状是根据选择的参数确定的,选择的参数至少包括采样频率、跟踪持续时间和系数数目。
在本申请的一些实施例中,在上述装置中,所述健康智能检测模型是采用下述方法训练得到的:采集获取训练音频样本和测试音频样本,所述训练音频样本包括人类语音音频、情感语音音频和训练用咳嗽音频,所述测试音频样本为测试用咳嗽音频;
依次对所述人类语音音频、情感语音音频、训练用咳嗽音频和测试用咳嗽音频进行训练,并调整所述健康智能检测模型的参数,以得到最终的健康智能检测模型。
在本申请的一些实施例中,在上述装置中,所述健康智能检测模型的结构是多个不同的卷积神经网络连接在一起形成的。且各卷积神经网络都是通过迁移学习改进的。
在本申请的一些实施例中,在上述装置中,所述健康智能检测模型的各卷积神经网络的全连接层和卷积层的数量和参数是基于迁移学习进行训练确定的。
能够理解,上述对健康智能检测装置,能够实现前述实施例中提供的健康智能检测方法的各个步骤,关于健康智能检测方法的相关阐释均适用于健康智能检测装置,此处不再赘述。
软件和硬件实现:后端网络版本。一种类型的实现运行在多个计算设备的网络上,而不是在单个计算设备上。对于此版本,有三个主要软件模块和一个硬件模块:
软件模块1:算法的主要代码。这指的是主要的算法步骤:数据清洗、信号处理和深度学习。无论该代码是在单个设备上还是在网络上实现,此代码都是一样的。
软件模块 2:前端客户端软件代码,将在本地计算设备中运行。前端包括用于用户界面(UI)的软件和信号记录功能。这需要在中央代码顶部附加一些代码,并使用现有技术。界面可在多个编程语言上实现。
前端与后端处理。主要有三个版本:(1)在前端完全运行所有算法,(2)仅在前端客户端记录信号,发送到文件服务器并在后端网络中运行算法,(3)在本地设备中运行算法的一部分(如信号处理),在后端网络中运行算法的另一部分(如深度学习)。三个版本中的每一个都不会改变模块 1 中的算法处理步骤。
软件模块 3:用于后端(网络)实施和处理的软件内容。这包括:接口(API)架构代码,以及整个"框架"的其他组件,包括用于构建、测试和管理后端软件的软件。
开发Web应用程序接口、用于前端和后端处理组件之间的通信,有许多设计架构。架构包括MVC(模型-视图-控制器,model-view-controller)或MVT(模型-视图-模板,model-view-template)。MVT 架构就是一个例子,它包括客户端组件(如Web浏览器)、服务器端组件(视图、模型、数据库)和用于通信的请求和响应类(request and responseobjects)(如HTTP response)。此架构可以使用不同类型的编程语言(如Java和Python)实现。除了算法步骤的"主代码"之外,开发此后端架构还需要额外的代码。它还需要对基本算法代码进行一些转换,以便与后端接口的其他组件进行通信。可参考图3,图3示出了根据本申请的一个实施例的MVT架构的数据交互的示意图。
后端框架的其他组件包括:网络硬件使用的操作系统、软件库、用于测试接口的软件、云管理软件、数据库管理软件、优化代码(并行处理)等。这包括与后端网络最终执行技术任务相关的所有可能的软件组件。
硬件模块:网络硬件。这包括网络中的计算设备集,如图形处理器(GPU)集群和中央处理器(CPU)集群。如果技术在网络上部分实施或完成,则可能没有存储数据的单个设备,但需要多个设备,并且有多个设备执行CPU或GPU处理。算法任务是相同的,无论哪个特定的硬件实现它,但速度受到影响。
软件和硬件实现:单个设备版本。
图4是本申请的一个实施例电子设备的结构示意图。请参考图4,在硬件层面,该电子设备包括处理器,可选地还包括内部总线、网络接口、存储器。其中,存储器可能包含内存,例如高速随机存取存储器(Random-Access Memory,RAM),也可能还包括非易失性存储器(non-volatile memory),例如至少1个磁盘存储器等。当然,该电子设备还可能包括其他业务所需要的硬件。
处理器、网络接口和存储器可以通过内部总线相互连接,该内部总线可以是ISA(Industry Standard Architecture,工业标准体系结构)总线、PCI(PeripheralComponent Interconnect,外设部件互连标准)总线或EISA(Extended Industry StandardArchitecture,扩展工业标准结构)总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示,图4中仅用一个双向箭头表示,但并不表示仅有一根总线或一种类型的总线。
存储器,用于存放程序。具体地,程序可以包括程序代码,所述程序代码包括计算机操作指令。存储器可以包括内存和非易失性存储器,并向处理器提供指令和数据。
处理器从非易失性存储器中读取对应的计算机程序到内存中然后运行,在逻辑层面上形成健康智能检测装置。处理器,执行存储器所存放的程序,并具体用于执行以下操作:
获取音频信号,并对所述音频信号进行预处理,得到检测音频信号。
将所述检测音频信号转化为数字矩阵。
将得到的数字矩阵作为检测样本,输入健康智能检测模型中,以获取检测结果;其中,所述健康智能检测模型是采用迁移学习和卷积神经网络对训练样本进行训练得到的。
上述如本申请图2所示实施例揭示的健康智能检测装置执行的方法可以应用于处理器中,或者由处理器实现。处理器可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(Network Processor,NP)等;还可以是数字信号处理器(Digital SignalProcessor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器,处理器读取存储器中的信息,结合其硬件完成上述方法的步骤。
该电子设备还可执行图2中健康智能检测装置执行的方法,并实现健康智能检测装置在图2所示实施例的功能,本申请实施例在此不再赘述。
本申请实施例还提出了一种计算机可读存储介质,该计算机可读存储介质存储一个或多个程序,该一个或多个程序包括指令,该指令当被包括多个应用程序的电子设备执行时,能够使该电子设备执行图2所示实施例中健康智能检测装置执行的方法,并具体用于执行:
获取音频信号,并对所述音频信号进行预处理,得到检测音频信号。
将所述检测音频信号转化为数字矩阵。
将得到的数字矩阵作为检测样本,输入健康智能检测模型中,以获取检测结果;其中,所述健康智能检测模型是采用迁移学习和卷积神经网络对训练样本进行训练得到的。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器 (CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器 (RAM) 和/或非易失性内存等形式,如只读存储器 (ROM) 或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存 (PRAM)、静态随机存取存储器 (SRAM)、动态随机存取存储器 (DRAM)、其他类型的随机存取存储器 (RAM)、只读存储器 (ROM)、电可擦除可编程只读存储器 (EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘 (DVD) 或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体 (transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
以上所述仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。

Claims (8)

1.一种健康智能检测方法,其特征在于,所述方法包括:
获取音频信号,并对所述音频信号进行预处理,得到检测信号;
将所述检测信号转化为数字矩阵;
将得到的数字矩阵作为检测样本,输入健康智能检测模型中,以获取检测结果;其中,所述健康智能检测模型是采用迁移学习和卷积神经网络对训练样本进行训练得到的;
其中,所述将所述检测音频信号转化为数字矩阵包括:
将所述检测音频信号进行分帧和移帧,得到多帧检测信号;
通过傅里叶变换,确定各帧检测信号的功率谱和周期图;
对各帧检测信号的功率谱和周期图进行梅尔滤波变换,得到各帧检测信号的梅尔频谱能量;
对各帧检测信号的梅尔频谱能量进行离散余弦变换,得到数字矩阵;
所述健康智能检测模型是采用下述方法训练得到的:采集获取训练音频样本和测试音频样本,所述训练音频样本包括人类语音音频、情感语音音频和训练用咳嗽音频,所述测试音频样本为测试用咳嗽音频;
依次对所述人类语音音频、情感语音音频、训练用咳嗽音频和测试用咳嗽音频进行训练,并调整所述健康智能检测模型的参数,以得到最终的健康智能检测模型。
2.根据权利要求1所述的方法,其特征在于,所述音频信号为咳嗽声;
所述获取音频信号,并对所述音频信号进行预处理,得到检测信号包括:
通过检测终端的音频采集设备获取时长为3-30s的咳嗽声音信号;
对所述咳嗽声音信号进行杂音清理,以删除其中无效、不相关、损坏或不完整的信号,将清理后的咳嗽声音信号作为检测信号。
3.根据权利要求1所述的方法,其特征在于,所述数字矩阵的形状是根据选择的参数确定的,选择的参数至少包括采样频率、跟踪持续时间和系数数目。
4.根据权利要求1所述的方法,其特征在于,所述健康智能检测模型的结构是多个不同的卷积神经网络连接在一起形成的;且各卷积神经网络都是通过迁移学习改进的。
5.根据权利要求4所述的方法,其特征在于,所述健康智能检测模型的各卷积神经网络的全连接层和卷积层的数量和参数是基于迁移学习进行训练确定的。
6.一种健康智能检测装置,其特征在于,该装置包括:
获取单元,用于获取音频信号,并对所述音频信号进行预处理,得到检测音频信号;
信号处理单元,用于将所述检测音频信号转化为数字矩阵;
检测单元,用于将得到的数字矩阵作为检测样本,输入健康智能检测模型中,以获取检测结果;其中,所述健康智能检测模型是采用迁移学习和卷积神经网络对训练样本进行训练得到的;
其中,信号处理单元,具体用于将所述检测音频信号进行分帧和移帧,得到多帧检测信号;
通过傅里叶变换,确定各帧检测信号的功率谱和周期图;
对各帧检测信号的功率谱和周期图进行梅尔滤波变换,得到各帧检测信号的梅尔频谱能量;
对各帧检测信号的梅尔频谱能量进行离散余弦变换,得到数字矩阵;
所述健康智能检测模型是采用下述方法训练得到的:采集获取训练音频样本和测试音频样本,所述训练音频样本包括人类语音音频、情感语音音频和训练用咳嗽音频,所述测试音频样本为测试用咳嗽音频;
依次对所述人类语音音频、情感语音音频、训练用咳嗽音频和测试用咳嗽音频进行训练,并调整所述健康智能检测模型的参数,以得到最终的健康智能检测模型。
7.一种电子设备,包括:处理器;以及
被安排成存储计算机可执行指令的存储器,其特征在于,所述可执行指令在被执行时使所述处理器执行所述权利要求1~5所述方法。
8.一种计算机可读存储介质,所述计算机可读存储介质存储一个或多个程序,其特征在于,所述一个或多个程序当被包括多个应用程序的电子设备执行时,使得所述电子设备执行所述权利要求1~5所述方法。
CN202110954853.9A 2021-08-19 2021-08-19 健康智能检测方法、装置、电子设备及可读存储介质 Pending CN113409825A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110954853.9A CN113409825A (zh) 2021-08-19 2021-08-19 健康智能检测方法、装置、电子设备及可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110954853.9A CN113409825A (zh) 2021-08-19 2021-08-19 健康智能检测方法、装置、电子设备及可读存储介质

Publications (1)

Publication Number Publication Date
CN113409825A true CN113409825A (zh) 2021-09-17

Family

ID=77688933

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110954853.9A Pending CN113409825A (zh) 2021-08-19 2021-08-19 健康智能检测方法、装置、电子设备及可读存储介质

Country Status (1)

Country Link
CN (1) CN113409825A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114756211A (zh) * 2022-05-13 2022-07-15 北京百度网讯科技有限公司 模型训练方法、装置、电子设备和存储介质
CN114984509A (zh) * 2022-07-22 2022-09-02 杭州亚辰电子科技有限公司 一种数字阻力器健身系统及系统数据处理方法

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101944359A (zh) * 2010-07-23 2011-01-12 杭州网豆数字技术有限公司 一种面向特定人群的语音识别方法
CN110114834A (zh) * 2016-11-23 2019-08-09 通用电气公司 用于医疗程序的深度学习医疗系统和方法
CN110946554A (zh) * 2019-11-27 2020-04-03 深圳和而泰家居在线网络科技有限公司 咳嗽类型识别方法、装置及系统
CN111524537A (zh) * 2020-03-24 2020-08-11 苏州数言信息技术有限公司 针对实时语音流的咳嗽及打喷嚏识别方法
CN112786189A (zh) * 2021-01-05 2021-05-11 重庆邮电大学 一种基于深度学习的新冠肺炎智能诊断系统
CN112818892A (zh) * 2021-02-10 2021-05-18 杭州医典智能科技有限公司 基于时间卷积神经网络的多模态抑郁症检测方法及系统
CN112951267A (zh) * 2021-02-23 2021-06-11 恒大新能源汽车投资控股集团有限公司 一种乘车人健康监测方法和车载终端
CN113096691A (zh) * 2021-03-22 2021-07-09 深圳市安保科技有限公司 检测方法、装置、设备和计算机存储介质

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101944359A (zh) * 2010-07-23 2011-01-12 杭州网豆数字技术有限公司 一种面向特定人群的语音识别方法
CN110114834A (zh) * 2016-11-23 2019-08-09 通用电气公司 用于医疗程序的深度学习医疗系统和方法
CN110946554A (zh) * 2019-11-27 2020-04-03 深圳和而泰家居在线网络科技有限公司 咳嗽类型识别方法、装置及系统
CN111524537A (zh) * 2020-03-24 2020-08-11 苏州数言信息技术有限公司 针对实时语音流的咳嗽及打喷嚏识别方法
CN112786189A (zh) * 2021-01-05 2021-05-11 重庆邮电大学 一种基于深度学习的新冠肺炎智能诊断系统
CN112818892A (zh) * 2021-02-10 2021-05-18 杭州医典智能科技有限公司 基于时间卷积神经网络的多模态抑郁症检测方法及系统
CN112951267A (zh) * 2021-02-23 2021-06-11 恒大新能源汽车投资控股集团有限公司 一种乘车人健康监测方法和车载终端
CN113096691A (zh) * 2021-03-22 2021-07-09 深圳市安保科技有限公司 检测方法、装置、设备和计算机存储介质

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
唐思源等: ""基于迁移学习和三维卷积神经网络检测肺结节"", 《中国医学影像技术》 *
孙芳芳等: ""基于迁移学习的超声图像甲状腺结节定位方法"", 《生物医学工程研究》 *
杨沐泓等: ""深度迁移学习下的新冠肺炎影像自动诊断系统研究"", 《电子世界》 *
胡满满等: ""基于动态采样和迁移学习的疾病预测模型"", 《计算机学报》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114756211A (zh) * 2022-05-13 2022-07-15 北京百度网讯科技有限公司 模型训练方法、装置、电子设备和存储介质
CN114756211B (zh) * 2022-05-13 2022-12-16 北京百度网讯科技有限公司 模型训练方法、装置、电子设备和存储介质
CN114984509A (zh) * 2022-07-22 2022-09-02 杭州亚辰电子科技有限公司 一种数字阻力器健身系统及系统数据处理方法

Similar Documents

Publication Publication Date Title
Despotovic et al. Detection of COVID-19 from voice, cough and breathing patterns: Dataset and preliminary results
Rosales-Pérez et al. Classifying infant cry patterns by the Genetic Selection of a Fuzzy Model
Fujimura et al. Classification of voice disorders using a one-dimensional convolutional neural network
CN113409825A (zh) 健康智能检测方法、装置、电子设备及可读存储介质
Cohen et al. Baby cry detection: deep learning and classical approaches
WO2019232867A1 (zh) 语音区分方法、装置、计算机设备及存储介质
Deb et al. Detection of common cold from speech signals using deep neural network
Kulkarni et al. Child cry classification-an analysis of features and models
Tawfik et al. Multi-features extraction for automating COVID-19 detection from cough sound using deep neural networks
Mang et al. Cochleogram-based adventitious sounds classification using convolutional neural networks
CN111370120A (zh) 一种基于心音信号的心脏舒张功能障碍的检测方法
Sharan Cough sound detection from raw waveform using SincNet and bidirectional GRU
Celik et al. Proposing a new approach based on convolutional neural networks and random forest for the diagnosis of Parkinson's disease from speech signals
CN112466284B (zh) 一种口罩语音鉴别方法
CN111938691B (zh) 一种基础心音识别方法及设备
CN111863035A (zh) 一种用于心音数据识别的方法、系统与设备
Rituerto-González et al. End-to-end recurrent denoising autoencoder embeddings for speaker identification
Boualoulou et al. CNN and LSTM for the classification of parkinson's disease based on the GTCC and MFCC
Vaishnavi et al. Neonatal cry signal prediction and classification via dense convolution neural network
CN113724731A (zh) 利用音频判别模型进行音频判别的方法和装置
CN115206347A (zh) 肠鸣音的识别方法、装置、存储介质及计算机设备
Fernandes et al. Voice pathologies: The most comum features and classification tools
Arora et al. A fusion framework based on cepstral domain features from phonocardiogram to predict heart health status
Vishniakou et al. Voice Detection Using Convolutional Neural Network
Kumar et al. Parkinson’s Speech Detection Using YAMNet

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination