CN107910020A - 鼾声检测方法、装置、设备及存储介质 - Google Patents

鼾声检测方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN107910020A
CN107910020A CN201710997581.4A CN201710997581A CN107910020A CN 107910020 A CN107910020 A CN 107910020A CN 201710997581 A CN201710997581 A CN 201710997581A CN 107910020 A CN107910020 A CN 107910020A
Authority
CN
China
Prior art keywords
audio data
matrix
target
mfcc
sound
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710997581.4A
Other languages
English (en)
Other versions
CN107910020B (zh
Inventor
冯澍婷
刘洪涛
王伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen H&T Intelligent Control Co Ltd
Original Assignee
Shenzhen H&T Intelligent Control Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen H&T Intelligent Control Co Ltd filed Critical Shenzhen H&T Intelligent Control Co Ltd
Priority to CN201710997581.4A priority Critical patent/CN107910020B/zh
Publication of CN107910020A publication Critical patent/CN107910020A/zh
Application granted granted Critical
Publication of CN107910020B publication Critical patent/CN107910020B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/66Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for extracting parameters related to health condition

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Epidemiology (AREA)
  • General Health & Medical Sciences (AREA)
  • Public Health (AREA)
  • Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)
  • Auxiliary Devices For Music (AREA)

Abstract

本发明实施例公开了一种鼾声检测方法、装置、设备及存储介质。该鼾声检测方法包括:获取与目标音频数据对应的目标矩阵,并将所述目标矩阵输入目标深度神经网络DNN模型中,获得判别结果;所述目标矩阵基于所述目标音频数据的梅尔频率倒频系数MFCC获取;在所述目标音频数据的周期满足预设周期,且所述判别结果符合预设结果的情况下,确定所述目标音频数据为鼾声。采用本发明实施例,可用于更加简单,准确地实现鼾声检测,提高装置的效率。

Description

鼾声检测方法、装置、设备及存储介质
技术领域
本发明涉及音频信号处理技术领域,尤其涉及一种鼾声检测方法、装置、设备及存储介质。
背景技术
打鼾是人们在日常生活中经常会遇到的一种睡眠障碍,患者熟睡后鼾声响度增大超过60dB以上,妨碍正常呼吸时的气体交换,称鼾症,5%的鼾症患者兼有睡眠期间不同程度憋气现象,称阻塞性睡眠呼吸暂停综合征(obstructive sleep apnea-hypopneasyndrome,OSAHS)。打鼾者的气道通常比正常人狭窄,白天清醒时咽喉部肌肉代偿性收缩使气道保持开放,不发生堵塞;但夜间睡眠时神经兴奋性下降,肌肉松弛,咽部组织堵塞,使上气道塌陷,当气流通过狭窄部位时,产生涡流并引起振动,从而出现鼾声。大多数人认为打鼾不会对健康造成影响,然而长期打鼾或是打鼾严重的人往往都伴有睡眠呼吸暂停综合征:在睡眠的全过程中出现呼吸暂停,血中氧气减少,形成一个短时间的缺氧状态。打鼾者血液和大脑长期供氧不足时,可能会诱发一些慢性疾病例如:高血压、心肌梗死、心绞痛及脑血管意外等,严重时如果夜间呼吸暂停时间超过120秒可能会导致猝死。
目前诊断和评估鼾声主要是使用多导睡眠仪(Polysomnography,PSG),通过记录睡眠过程中的脑波、肌电图、心电图、口鼻腔气流、胸部腹部呼吸运动、声音等多种信号,综合分析被测者的睡眠状况和鼾症的严重程度。但是它要求在专业场所由专业人员进行操作,监控过程采取捆扎等方式附着于监控对象面部、鼻腔及胸腹部,对监控对象干扰大,且监控成本高。另一种适用于家庭治疗的装置,利用鼾声的周期性和呼吸运动的关系,但是对于复杂环境下的时有时无的鼾声判断准确度低下。
因此,如何使得鼾声检测变得方便简单,且准确性高变得尤其重要。
发明内容
本发明实施例所要解决的技术问题在于,提供一种鼾声检测方法、装置、设备及存储介质;用于更加简单,准确地实现鼾声检测,提高装置的效率。
第一方面,本发明实施例提供了一种鼾声检测方法,包括:
获取与目标音频数据对应的目标矩阵,并将所述目标矩阵输入目标深度神经网络DNN模型中,获得判别结果;所述目标矩阵基于所述目标音频数据的梅尔频率倒频系数MFCC获取;
在所述目标音频数据的周期满足预设周期,且所述判别结果符合预设结果的情况下,确定所述目标音频数据为鼾声。
在一个可选的实现方式中,所述获取与目标音频数据对应的目标矩阵之前,所述方法还包括:
获取原始音频数据后,确定所述目标音频数据,所述目标音频数据为与所述原始音频数据对应的有效音频数据。
在一个可选的实现方式中,所述确定所述目标音频数据包括:
利用语音端点检测方法VAD检测所述原始音频数据中的有效音频数据,得到所述目标音频数据。
在一个可选的实现方式中,所述获取与目标音频数据对应的目标矩阵包括:
计算所述目标音频数据的MFCC,得到X*Y系数矩阵,其中,X为目标音频数据的帧数,Y为MFCC系数长度;
将所述X*Y系数矩阵中各信号帧的MFCC依次首尾相连得到长度为X*Y的第一一维矩阵;
按预设步长从所述第一一维矩阵头部到所述第一一维矩阵尾部对所述第一一维矩阵进行分割,获得包括一组长度均为预设长度的第二一维矩阵的目标矩阵,每个所述第二一维矩阵具有相同的标签,所述预设步长为每帧MFCC长度的整数倍,所述预设长度为所述每帧MFCC长度的整数倍。
在一个可选的实现方式中,所述目标音频数据的周期满足预设周期包括:
所述目标音频数据的时域周期满足预设时域周期,和/或,所述目标音频数据的频域周期满足预设频域周期。
在一个可选的实现方式中,所述目标音频数据的持续时间大于预设时间。
在一个可选的实现方式中,所述目标矩阵携带有目标权重,在所述目标矩阵的数量为M时,所述M为大于1的整数,所述目标矩阵离所述目标音频数据的时域中心的距离越近,所述目标权重越高;
所述将所述目标矩阵输入目标深度神经网络DNN模型中,获得判别结果包括:
将所述目标矩阵输入所述目标DNN模型,得到M个预测结果,依据所述M个预测结果以及所述目标权重确定所述判别结果。
在一个可选的实现方式中,所述将所述目标矩阵输入目标深度神经网络DNN模型中之前,所述方法还包括:
获取所述目标DNN模型。
在一个可选的实现方式中,所述获取所述目标DNN模型包括:
获取音频数据样本;
计算所述音频数据样本的MFCC,得到N*L系数矩阵,其中,N为所述音频数据样本的帧数,L为MFCC系数长度;
将所述N*L系数矩阵中各信号帧的MFCC依次首尾相连得到长度为N*L的第三一维矩阵;
按预设步长从所述第三一维矩阵头部到所述第三一维矩阵尾部对所述第三一维矩阵进行分割,获得包括一组长度均为预设长度的第四一维矩阵的训练矩阵,每个所述第四一维矩阵具有相同的标签,所述预设步长为每帧MFCC长度的整数倍,所述预设长度为所述每帧MFCC长度的整数倍;
利用所述训练矩阵训练DNN模型,得到所述目标DNN模型。
第二方面,本发明实施例提供了一种鼾声检测装置,包括:
第一获取单元,用于获取与目标音频数据对应的目标矩阵,所述目标矩阵基于所述目标音频数据的梅尔频率倒频系数MFCC获取;
输入获得单元,用于将所述目标矩阵输入目标深度神经网络DNN模型中,获得判别结果;
确定单元,用于在所述目标音频数据的周期满足预设周期,且所述判别结果符合预设结果的情况下,确定所述目标音频数据为鼾声。
在一个可选的实现方式中,所述第一获取单元,还用于获取原始音频数据;
所述确定单元,还用于确定所述目标音频数据,所述目标音频数据为与所述原始音频数据对应的有效音频数据。
在一个可选的实现方式中,所述确定单元,具体用于利用语音端点检测方法VAD检测所述原始音频数据中的有效音频数据,得到所述目标音频数据。
在一个可选的实现方式中,所述第一获取单元包括:
第一计算子单元,用于计算所述目标音频数据的MFCC,得到X*Y系数矩阵,其中,X为目标音频数据的帧数,Y为MFCC系数长度;
第一处理子单元,用于将所述X*Y系数矩阵中各信号帧的MFCC依次首尾相连得到长度为X*Y的第一一维矩阵;
第一分割子单元,用于按预设步长从所述第一一维矩阵头部到所述第一一维矩阵尾部对所述第一一维矩阵进行分割,获得包括一组长度均为预设长度的第二一维矩阵的目标矩阵,每个所述第二一维矩阵具有相同的标签,所述预设步长为每帧MFCC长度的整数倍,所述预设长度为所述每帧MFCC长度的整数倍。
在一个可选的实现方式中,所述目标音频数据的周期满足预设周期包括:
所述目标音频数据的时域周期满足预设时域周期,和/或,所述目标音频数据的频域周期满足预设频域周期。
在一个可选的实现方式中,所述目标音频数据的持续时间大于预设时间。
在一个可选的实现方式中,所述目标矩阵携带有目标权重,在所述目标矩阵的数量为M时,所述M为大于1的整数,所述目标矩阵离所述目标音频数据的时域中心的距离越近,所述目标权重越高;
所述输入获得单元,具体用于将所述目标矩阵输入所述目标DNN模型,得到M个预测结果,依据所述M个预测结果以及所述目标权重确定所述判别结果。
在一个可选的实现方式中,所述装置还包括:
第二获取单元,用于获取所述目标DNN模型。
在一个可选的实现方式中,所述第二获取单元包括:
获取子单元,用于获取音频数据样本;
第二计算子单元,用于计算所述音频数据样本的MFCC,得到N*L系数矩阵,其中,N为所述音频数据样本的帧数,L为MFCC系数长度;
第二处理子单元,用于将所述N*L系数矩阵中各信号帧的MFCC依次首尾相连得到长度为N*L的第三一维矩阵;
第二分割子单元,用于按预设步长从所述第三一维矩阵头部到所述第三一维矩阵尾部对所述第三一维矩阵进行分割,获得包括一组长度均为预设长度的第四一维矩阵的训练矩阵,每个所述第四一维矩阵具有相同的标签,所述预设步长为每帧MFCC长度的整数倍,所述预设长度为所述每帧MFCC长度的整数倍;
训练子单元,用于利用所述训练矩阵训练DNN模型,得到所述目标DNN模型。
第三方面,本发明实施例提供了一种鼾声检测设备,包括处理器、输入设备、输出设备和存储器,其中:所述处理器、所述输入设备、所述输出设备和所述存储器相互连接,所述存储器用于存储计算机程序,所述计算机程序包括程序指令,所述处理器被配置用于调用所述程序指令,执行如第一方面或第一方面的任意一种可能实现方式所描述的方法。
第四方面,本发明实施例提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被鼾声检测装置的处理器执行时,使所述处理器执行上述第一方面或者第一方面的任意一种可能实现方式所描述的方法。
第五方面,本发明实施例提供一种包含程序指令的计算机程序产品,当其在计算机上运行时,使所述计算机执行上述第一方面或任意一种可能的实现方式所描述的方法。
实施本发明实施例,将获取的与目标音频数据对应的目标矩阵输入至目标深度神经网络(Deep Neural Network,DNN)模型中,获得判别结果,从而在该目标音频数据的周期满足预设周期,且该判别结果符合预设结果时,确定该目标音频数据为鼾声,方便快捷地、准确地实现鼾声检测,提高鼾声检测装置的效率。
附图说明
为了更清楚地说明本发明实施例或背景技术中的技术方案,下面将对本发明实施例或背景技术中所需要使用的附图进行说明。
图1是本发明实施例提供的一种鼾声检测方法的流程示意图;
图2是本发明实施例提供的一种f(m)与m的关系示意图;
图3是本发明实施例提供的一种时域鼾声信号示意图;
图4A是本发明实施例提供的一种鼾声信号功率谱示意图;
图4B是本发明实施例提供的一种获取目标矩阵的方法示意图;
图5是本发明实施例提供的一种1min鼾声信号能量曲线示意图;
图6是本发明实施例提供的另一种鼾声检测方法的流程示意图;
图7A是本发明实施例提供的一种DNN模型的结构示意图;
图7B是本发明实施例提供的一种RBM和DBN的结构示意图;
图8是本发明实施例提供的一种鼾声检测装置的结构示意图;
图9是本发明实施例提供的一种第一获取单元的结构示意图;
图10是本发明实施例提供的另一种鼾声检测装置的结构示意图;
图11是本发明实施例提供的一种第二获取单元的结构示意图;
图12是本发明实施例提供的又一种鼾声检测装置的结构示意图。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步地详细描述,显然,所描述的实施例仅仅是本发明一部份实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。需要说明的是,结合附图所阐述的详细描述旨在作为对各种配置的描述,而不旨在表示其中可以实践本文所描述的概念的唯一配置。本文中所记载的装置实施例和方法实施例将在下面的详细描述中进行描述,并在附图中通过各种框、模块、单元、组件、电路、步骤、过程、算法等等(统称为“要素”)来予以示出。这些要素可以使用电子硬件、计算机软件或者其任意组合来实现。至于这些要素是实现为硬件还是软件,取决于特定应用和施加在整体系统上的设计约束。本发明的说明书和权利要求书以及说明书附图中的术语如果使用“第一”、“第二”等描述,该种描述是用于区别不同对象,而不是用于描述特定顺序。
应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。还应当理解,在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。还应当进一步理解,在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
需要说明的是,在没有明示的特别说明的情况下,本发明各实施例中的各项技术特征可视为能够进行相互组合或者结合,只要该种组合或者结合不是因为技术的原因而无法实施。为了较为充分的说明本发明,一些示例性的,可选的,或者优选的特征在本发明各实施例中与其他技术特征结合在一起进行描述,但这种结合不是必须的,而应该理解该示例性的,可选的,或者优选的特征与其他的技术特征都是彼此可分离的或者独立的,只要该种可分离或者独立不是因为技术的原因而无法实施。方法实施例中的技术特征的一些功能性描述可以理解为执行该功能、方法或者步骤,装置实施例中的技术特征的一些功能性描述可以理解为使用该种装置来执行该功能、方法或者步骤。
请参见图1,图1是本发明实施例提供的一种鼾声检测方法的流程示意图,该鼾声检测方法可应用于鼾声检测装置,该鼾声检测装置可以包括:移动手机、平板电脑、个人数字助理(Personal Digital Assistant,PDA)、移动互联网设备(Mobile Internet Device,MID)、智能穿戴设备(如智能手表、智能手环)等各种装置,也可以为专业的声音检测设备等,本发明实施例不作限定。如图1所示,该鼾声检测方法可包括:
101、获取与目标音频数据对应的目标矩阵,并将上述目标矩阵输入目标深度神经网络DNN模型中,获得判别结果;
其中,上述目标矩阵基于上述目标音频数据的梅尔频率倒频系数MFCC获取;即该目标矩阵可以为与目标频域数据的梅尔频率倒频系数(Mel-frequency cepstralcoefficients,MFCC)对应的矩阵;具体地,上述目标矩阵为对上述目标音频数据的MFCC经过归一化处理后,从归一化处理后的MFCC中截取出的有效矩阵;上述目标DNN模型可以为预先预置或训练好的基于目标矩阵对鼾声信号进行识别的模型。本发明实施例中,目标音频数据可以为鼾声信号。
其中,梅尔频率是基于人耳听觉特性提出来的,它与频率Hz成非线性对应关系。MFCC则是利用它们之间的这种关系,计算得到的Hz频谱特征,用于语音数据特征提取和降低运算维度。例如:对于一帧有512维(采样点)数据,经过MFCC后可以提取出最重要的40维(一般而言)数据同时也达到了降维的目的。步骤可包括:
1)预加重
预加重的目的是提升高频部分,使信号的频谱变得平坦,保持在低频到高频的整个频带中,能用同样的信噪比求频谱。同时,也是为了消除发声过程中声带和嘴唇的效应,来补偿语音信号受到发音系统所抑制的高频部分,也为了突出高频的共振峰。其实现方法通常是将经采样后的语音信号s(n)通过一个一阶有限长单位冲激响应(Finite ImpulseResponse,FIR)高通数字滤波器来进行预加重。其传递函数为:
H(z)=1-a·z-1
其中,z表示输入信号,时域表示即为鼾声样本信号s(n),a表示预加重系数,一般取0.9~1.0中的常数。
2)分帧
将鼾声样本信号s(n)中每N个采样点集合成一个观测单位,称为帧。N的值可以取256或512,涵盖的时间约为20~30ms左右。为了避免相邻两帧的变化过大,因此会让两相邻帧之间有一段重叠区域,此重叠区域包含了M个取样点,通常M的值约为N的1/2或1/3。通常语音识别所采用语音信号的采样频率为8KHz或16KHz,以8KHz来说,若帧长度N为256个采样点,则对应的时间长度是256/8000×1000=32ms。
3)加窗
将每一帧乘以汉明窗,以增加帧左端和右端的连续性。假设分帧后的信号为S(n),n=0,1…,N-1,N为帧的大小,那么乘上汉明窗后:S′(n)=S(n)×W(n),其中
其中,L表示窗长。
4)快速傅里叶变换(Fast Fourier Transformation,FFT)
由于信号在时域上的变换通常很难看出信号的特性,所以通常将它转换为频域上的能量分布来观察,不同的能量分布,就能代表不同语音的特性。所以在乘上汉明窗后,每帧还必须再经过快速傅里叶变换以得到在频谱上的能量分布。对分帧加窗后的各帧信号进行快速傅里叶变换得到各帧的频谱。并对语音信号的频谱取模平方得到语音信号的功率谱。
5)三角带通滤波器
将能量谱通过一组Mel尺度的三角形滤波器组,定义一个有M个滤波器的滤波器组(滤波器的个数和临界带的个数相近),采用的滤波器为三角滤波器,中心频率为f(m),m=1,2,...,M。M通常取22-26。各(m)之间的间隔随着m值的减小而缩小,随着m值的增大而增宽,如图2所示。
其中,三角滤波器的频率响应定义为:
其中,
6)离散余弦变换(Discrete Cosine Transform,DCT)
计算每个滤波器组输出的对数能量为:
对对数能量s(m)经DCT得到MFCC系数:
经过上述步骤可得到MFCC,从而可得到X*Y的系数矩阵,其中,X为目标音频数据的帧数,Y为MFCC系数长度。
由于MFCC系数矩阵维度较高,且鼾声信号长度不一致导致矩阵行数X不同,MFCC矩阵无法作为目标DNN模型的直接输入。所以需要对MFCC矩阵进行进一步处理以输入目标DNN模型中,本发明实施例通过分析鼾声信号的特点,从目标音频数据的MFCC中提取出能表征鼾声信号的特点的特征向量,以将该目标矩阵输入目标DNN模型后能实现对目标音频数据的有效识别。
因此,为了进一步提取出鼾声信号有效特征,需要对MFCC系数矩阵进行处理。本发明通过分析鼾声信号的时域、频域特性,提出了固定长度的特征截取方法,具体步骤如下:
1)MFCC特征归一化处理
本发明可采用了线性归一化处理方式来得到第一矩阵,即将鼾声的MFCC系数矩阵归一化至0~1范围内,这样MFCC特征数值都处在相同的动态范围内,可以适应目标DNN模型,作为目标DNN可接受的矩阵进行输入,提高鼾声检测的效果。
2)鼾声信号分析与MFCC特征长度截取决策
参见图3和图4A,图3是本发明实施例提供的一种时域鼾声信号示意图,图4A是本发明实施例提供的一种鼾声信号功率谱示意图。如图3所示,其中横线代表时间(s),纵轴代表信号幅度,以及如图4A所示,其中横轴代表频率(HZ),纵轴代表能量频率(db/HZ),从图中可看出,约75%分布在1200Hz以下,在频域上具有特定的频率宽度和共振峰等特性,各频带能量在整段信号中均匀分布。因此,为保证目标矩阵可涵盖鼾声信号的主要信息,在确定目标矩阵时,应尽可能保留鼾声能量更加平稳的中间段信号特征。也就是说,在目标矩阵中应当尽可能多的涵盖鼾声信号(即目标音频数据)的主要信息,保证从MFCC系数矩阵中提取的特征参数是有用信息,而不是冗余信息。
因此,本发明实施例中,可以在鼾声信号的MFCC系数矩阵中,选择固定帧数的鼾声信号的特征参数,作为目标DNN模型的输入,鉴于鼾声信号的主要特性信息基本集中在鼾声信号的中间段部分,该固定帧数的鼾声信号应尽量包含各个鼾声信号的中间段部分。为了充分利用数据,MFCC系数矩阵中剩余的特征数据也可以作为目标DNN模型的输入,可以根据该固定帧数对MFCC系数矩阵进行分割,然后将分割后的数据一起作为目标DNN模型的输入。也就是说,该目标矩阵中包含目标音频数据的时域有效特征和频域有效特征。
因此,可以从X*Y系数矩阵的信号中间段(如时域中心)截取n帧MFCC矩阵,从而得到n*Y目标矩阵,其中n的选择与采样率和帧长有关,可选地,n帧MFCC矩阵对应的信号时长可在0.2~0.4s范围内。
可选地,上述获取与上述目标音频数据对应的目标矩阵可包括如下实现方式:
计算上述目标音频数据的MFCC,得到X*Y系数矩阵,其中,X为目标音频数据的帧数,Y为MFCC系数长度;
将上述X*Y系数矩阵中各信号帧的MFCC依次首尾相连得到长度为X*Y的第一一维矩阵;
按预设步长从上述第一一维矩阵头部到上述第一一维矩阵尾部对上述第一一维矩阵进行分割,获得包括一组长度均为预设长度的第二一维矩阵的目标矩阵,每个上述第二一维矩阵具有相同的标签,上述预设步长为每帧MFCC长度的整数倍,上述预设长度为上述每帧MFCC长度的整数倍。
对于上述实现方式,即将X*Y系数矩阵的帧与帧之间串联起来形成一个一维矩阵,即第一一维矩阵,该第一一维矩阵的长度即为X*Y。以预设长度n为基本单元,以预设步长d从第一一维矩阵首部移动到尾部,形成一组标签相同的数据Xi,i=1,2,...,m,则m可表示经过分割处理后每个鼾声信号所包含的子目标矩阵的数量,且m的大小与d以及n有关。举例来说,如图4B所示,图4B是本发明实施例提供的一种获取目标矩阵的方法示意图,其中,预设步长为d,预设长度为n,以预设长度n为基本单元,以预设步长d从第一一维矩阵首部移动到尾部,形成目标矩阵Xi,i=1,2,...,m。
其中,鉴于鼾声信号的主要特性信息基本集中在鼾声信号的中间段部分,因此预设长度中应尽量包含鼾声信号的中间段部分,也就是说,该预设长度中至少应该包含鼾声信号的主要特征信息。因此,本发明实施例中,预设长度和预设步长的取值应该以鼾声信号的时域特征信息和频域特征信息为依据进行取值。
实施本实施例,通过将鼾声信号的MFCC系数矩阵分割成多个固定长度的子目标矩阵,使该子目标矩阵适应了深度神经网络输入数据一致的要求,可以直接作为深度神经网络的输入。而且,将多个子目标矩阵中的各个子目标矩阵设置成相同的标签,即用一组子目标矩阵来表达鼾声信号,增加了鼾声信号样本的数量,避免了提取鼾声信息的损失。将目标音频数据处理为目标DNN模型可接受的形式,从而进行输入,提高鼾声检测的效率。本发明实施例提供方法在识别鼾声时,在不增加计算量的基础上,鼾声信号的识别率可达到95%以上。
可选地,上述获取与目标音频数据对应的目标矩阵之前,上述方法还包括:
获取原始音频数据后,确定上述目标音频数据,上述目标音频数据为与上述原始音频数据对应的有效音频数据;
本实施例中,原始音频数据可为鼾声。其中,鼾声检测装置中可以包括传声器,从而利用该传声器获取原始音频数据。本实施例还可以通过外接传声器的方式,来获取原始音频数据等。还可以通过外接的音频采集设备来获取原始音频数据。可以理解的是,本发明实施例对于获取该原始音频数据的方法不作限定。
本实施例中,确定目标音频数据,可以通过相关检测方法提取原始音频数据中的有效音频数据,也就是说,通过相关检测方法提取原始音频数据中的有效信号。
可选地,本实施例提供了一种确定目标音频数据的方法,所述确定目标音频数据包括:
利用语音端点检测方法VAD检测上述原始音频数据中的有效音频数据,得到上述目标音频数据。
语音端点检测(Voice Activity Detection,VAD)又称语音活动检测,是指在噪声环境中检测语音的存在与否,通常用于语音编码、语音增强等语音处理系统中,起到降低语音编码速率、节省通信带宽、减少装置能耗、提高识别率等作用。
如可以利用双门限检测法、基于自相关极大值的检测法或者基于小波变换的检测法等等来提取有效音频数据,可以理解的是,本实施例对于具体的实现方式不作限定。
实施本实施例,可以提取出有效音频数据,提高鼾声检测装置检测鼾声的效率,避免其他信号的干扰。
103、在上述目标音频数据的周期满足预设周期,且上述判别结果符合预设结果的情况下,确定上述目标音频数据为鼾声。
本实施例中,如目标音频数据与目标DNN模型能够匹配成功,则可认为判别结果符合预设结果,可以理解的是,判别结果可依据目标DNN模型的设置而定,如获得的判别结果可为“是”,又或者为其他提示信息等等,本实施例对于判别结果的具体实现方式不作限定。
可选地,上述在上述目标音频数据的周期满足预设周期,且上述判别结果符合预设结果的情况下,上述方法还包括:
保存上述原始音频数据和/或保存上述目标音频数据。
实施本实施例,通过保存原始音频数据和/或目标音频数据,还可以方便统计用户的鼾声记录,如用户每小时打鼾次数又或者鼾声分贝等信息,以便于为用户的身体健康状况提供对比依据。
可选地,本发明实施例还提供了一种获得判别结果的方法,上述目标矩阵携带有目标权重,在上述目标矩阵的数量为M时,上述M为大于1的整数;
上述将上述目标矩阵输入目标深度神经网络DNN模型,获得判别结果包括:
将上述目标矩阵输入上述目标DNN模型,得到M个预测结果,依据上述M个预测结果以及上述目标权重确定上述判别结果。
如目标矩阵为Xi,i=1,2,...,M,则可以根据Xi与信号中心(如时域信号中心)的偏移距离,为每个目标矩阵分配不同的权重,其中,距离信号中心越远,权重越低。
本实施例中,当鼾声信号输入目标DNN模型时,模型会输出是否为鼾声的预测结果,由于鼾声信号经过一系列的处理(如归一化处理以及截取处理),得到了M个目标矩阵,所以DNN模型会输出M个预测结果,代表了信号是否为鼾声的可能;同时采用投票表决器,可根据M个目标矩阵的权重,对M个预测结果“是鼾声”与“非鼾声”进行投票,取票数多的结果为最终结果。
实施本实施例,可进一步提高鼾声检测的准确性,提高鼾声检测的效率。
具体地,上述目标音频数据的持续时间大于预设时间。
针对某一种鼾声来说,每次鼾声发生的时间间隔大体相等,振幅基本一致,与人体呼吸节奏密切相关,因此鼾声周期基本与呼吸率保持一致,也就是说,当1min的音频信号中出现周期在10~60次/分范围内的声音时,可初步判定为鼾声信号,如图5所示,图5是本发明实施例提供的一种1min鼾声信号能量曲线示意图,其中,横轴代表时间(s),纵轴代表能量曲线幅度。因此,本实施例中,预设时间可为1分钟。可以理解的是,上述音频信号可理解为本实施例中的目标音频数据。
具体地,上述目标音频数据的周期满足预设周期包括:
上述目标音频数据的时域周期满足预设时域周期,和/或,上述目标音频数据的频域周期满足预设频域周期。
具体地,可通过如下步骤来确定目标音频数据的周期是否满足预设周期。
1)求出1min音频信号(即鼾声)的能量曲线:如对音频信号求绝对值,求每0.05s音频信号的能量和,得到采样率为20Hz音频能量曲线,并采用平滑滤波器滤除能量曲线中的毛刺等局部噪声。
2)时域方法求音频信号的时域周期:在1)中求得的能量曲线上搜索信号波峰,设置波峰间距阈值与幅度阈值,排除部分不满足条件的波峰,计算波峰间距,该波峰间距即为时域周期,当1min内的波峰间距有一定周期性时,判断该时域周期是否在鼾声周期范围内;当1min内波峰间距没有周期性时,认为此段音频信号为噪声。
3)频域方法求音频信号的频域周期:对音频能量曲线做傅里叶变换,求得其频谱,根据共振峰信息和基频信息,并在共振峰信息和基频信息满足鼾声信号的特征时判断该音频信号为鼾声;否则,认为此段音频信号为噪声。
可以理解的是,上述步骤2)和步骤3)在具体实现中,可以同时执行,提高鼾声检测装置检测鼾声的准确率;也可以单独执行,降低算法运算量,减少鼾声检测装置的运行内存。
本实施例中,DNN模型结合周期检测识别鼾声的方法可以显著提高鼾声识别准确率,通过简单的鼾声检测装置就可检测睡眠,降低产品制造成本,提高用户体验。同时,也能尽可能地排除其他噪声信号干扰,实现鼾声检测的正确性。
实施本发明实施例,可方便快捷地、准确地实现鼾声检测,提高鼾声检测装置的效率。
可以理解的是,在图1所描述的方法的基础上,在将目标音频数据输入目标DNN模型之前,还可以获取上述目标DNN模型。该目标DNN模型可以为经过训练的DNN模型,该目标DNN模型可以预先存储于鼾声检测装置中,又或者是在实施图1所描述的方法之前经过该鼾声检测装置训练的等等。其中,训练目标DNN模型的方法可以如图6所描述的方法,也可以为其他方法等等,本发明实施例不作唯一性限定。。更进一步地,若由于场景变换或其它原因导致目标DNN模型用于识别鼾声时准确率不合格,可重新配置或训练该目标DNN模型。
请参见图6,图6是本发明实施例提供的另一种鼾声检测方法的流程示意图,该鼾声检测方法可应用于鼾声检测装置,如图6所示,该鼾声检测方法可包括:
601、获取音频数据样本;
本实施例中,音频数据样本可以为原始音频数据样本经过VAD方法之后所得到的音频数据样本。一般地,音频数据样本可以为不同性别的人的鼾声样本,也可以为不同年龄的人的鼾声样本等等,可以理解的是,本发明实施例对于音频数据样本的数量不作限定。
602、计算上述音频数据样本的MFCC,得到N*L系数矩阵,其中,N为上述音频数据样本的帧数,L为MFCC系数长度;
603、将上述N*L系数矩阵中各信号帧的MFCC依次首尾相连得到长度为N*L的第三一维矩阵;
604、按预设步长从上述第三一维矩阵头部到上述第三一维矩阵尾部对上述第三一维矩阵进行分割,获得包括一组长度均为预设长度的第四一维矩阵的训练矩阵后,利用上述训练矩阵训练DNN模型,得到上述目标DNN模型;
其中,每个上述第四一维矩阵具有相同的标签,上述预设步长为每帧MFCC长度的整数倍,上述预设长度为上述每帧MFCC长度的整数倍。
可以理解的是,在训练目标DNN模型的过程中,所获得的训练矩阵的方法可以参考图1所描述的获得目标矩阵的方法,具体地,上述第三一维矩阵的获取方法可以参考第一一维矩阵的获取方法,第四一维矩阵的获取方法可以参考第二一维矩阵的获取方法等等,这里不再赘述。
本实施例中计算音频数据样本的MFCC的方法可以参考前述实施例中的方法,如通过预加重、分帧、加窗、FFT、三角带通滤波器和DCT步骤来获取音频数据样本的MFCC系数以及得到N*L系数矩阵,其中,具体步骤可以参考前述实施例,这里不再赘述。音频数据样本如鼾声信号样本MFCC系数计算完毕后,得到一个N*L的系数矩阵,其中N为鼾声信号帧数,L为MFCC系数长度。由于MFCC系数矩阵维度较高,且鼾声信号长度不一致导致矩阵行数N不同,因此为了进一步提取出鼾声信号有效特征,本发明如前述实施例描述的获取目标矩阵的方法来获取训练矩阵,以使得鼾声的MFCC系数矩阵归一化至0~1范围内,以及MFCC特征数值都处在相同的动态范围内。本发明实施例通过分析音频数据样本(鼾声信号样本)的特点,从音频数据样本的MFCC中提取出能表征鼾声信号的特点的矩阵,能够有效训练出目标DNN模型。可以理解的是,本实施例中,N*L系数矩阵可以与上述X*Y系数矩阵相同,也可以不同,在具体实现中,依据具体情况而定,本实施例不作唯一性限定。
DNN是对浅层神经网络进行拓展,在功能上利用了多层神经网络的表达能力对非线性、高维数据的处理有非常好的特征提取、学习以及泛化能力。作为经典的深度学习方法,DNN可以包含较多的隐藏层,逐层抽象,逐层迭代的方式更好地学习各种复杂数据的结构和分布。请参见图7A,图7A是本发明实施例提供的一种DNN模型的结构示意图,其中,第一层是输入层,中间的是隐藏层,最后一层是输出层(图7A只示出了三层隐藏层,实际上会包括更多的隐藏层),其层与层之间是全连接的,即第Q层的任意一个神经元一定与第Q+1层的任意一个神经元相连。每条建立在神经元之间的连接都有一个线性权重,每层的每个神经元都有一个偏置(输入层除外)。第l-1层的第k个神经元到第l层的第j个神经元的线性权重定义为wl jk,其中,上标l代表线性权重所在的层数,而下标对应的是输出的第l层索引j和输入的第l-1层索引k,例如,第二层的第4个神经元到第三层的第2个神经元的线性权重定义为w3 24。第l层的第i个神经元对应的偏置为bl i,其中,上标l代表所在的层数,下标i代表偏置所在的神经元的索引,例如,第二层的第三个神经元对应的偏置定义为b2 3
可以随机初始化选择一系列wl jk和bl i,利用前向传播算法,将鼾声信号的特征参数作为输入层的数据,然后用输入层计算出第一个隐藏层,再用第一个隐藏层计算出第二个隐藏层,依次类推,直到输出层。然后再利用反向传播算法,对wl jk和bl i进行微调,获得最终基于深度神经网络的鼾声信号模型。
也可以先通过基于深度置信网络(Deep Belief Network,DBN)算法获得各个初始参数wl jk和bl i,然后再利用梯度下降和反向传播算法,对wl jk和bl i进行微调,获得最终wl jk和bl i的取值。
DBN是一种深度学习模型,用非监督的方式对模型逐层做预处理,这种非监督的预处理方式就是受限玻尔兹曼机(Restricted Boltzmann machine,RBM)。如图7B(b)所示,DBN是由一系列RBM堆叠而成的。如图7B(a)所示,RBM是双层结构,v表示可见层,h表示隐藏层,可见层和隐藏层之间的连接是无方向性(值可以从可见层->隐含层或隐含层->可见层任意传输)且全连接的。其中,可见层v和隐藏层h之间通过线性权重连接,可见层的第i个神经元和隐藏层的第j个神经元的线性权重定义为wij,可见层的第i个神经元对应的偏置为bi,隐藏层的第j个神经元对应的偏置为aj,下标i和j代表神经元的索引。
RBM通过对比散度算法进行一步吉布斯(Gibbs)采样,优化权重wij、bi和aj,就可以得到输入音频数据样本(即鼾声信号)v的另一种状态表达h,RBM的输出h1可以作为下一个RBM的输入,用同一种方式继续优化得到隐藏状态h2,以此类推,多层的DBN模型可以通过逐层预处理的方式对权重wij、bi和aj进行初始化,每一层的特征都是第一层数据v的一种表达方式,经过这种非监督的预处理后,获得各项初始参数。
区别于随机初始化的神经网络,经过无监督预处理后进行监督学习,DNN有明显优于普通神经网络的性能,另一方面深层的结构也让模型更具有表达能力,数据的内在关系,隐藏的特征等等都可以通过这种多层结构逐渐抽象出来。
鼾声信号DNN模型建立的重点在于根据信号MFCC特征训练DNN模型进行有效优化,提高鼾声信号DNN模型的泛化能力和鲁棒性。鼾声信号DNN网络深度取决于输入特征,在保证鼾声识别率的前提下,应尽量减小网络深度降低运算量。DNN模型在训练之前需要用无监督的DBN进行预处理,并将DBN预处理后权值的结果赋给DNN对应的权值作为初始值。DNN模型的训练参数比如学习率,动量,样本批次等,随着迭代次数的增加逐渐减小;经过鼾声信号特征多次迭代和优化后,DNN模型参数逐渐趋于稳定,训练结束后,鼾声信号的DNN模型建立完毕。
具体地,利用所述第三矩阵调整DNN模型,得到所述目标DNN模型可以包括以下步骤:第一步,训练DBN模型,进行无监督预处理,第二步进行有监督处理,微调模型。
1)训练DBN
DBN由一系列RBM堆叠而成的,RBM的训练是DBN的重点。
RBM是一种能量模型,整个RBM的能量表示如下式(1)所示:
其中v表示可见层数据,即求得的第三矩阵;E表示RBM模型的总能量,h表示隐藏层数据,θ表示模型参数,m表示可见层神经元数量,n表示隐藏层神经元数量,b表示可见层偏置,a表示隐藏层偏置。
首先,RBM模型根据可见层数据和隐藏层数据的条件概率进行采样,对于伯努利-伯努利RBM模型,条件概率公式分别为公式(2)和公式(3)
其中,σ表示激活函数sigmod函数,σ(x)=(1+e-x)-1
根据以上公式利用对比散度算法对RBM进行Gibbs采样,得到v和h联合分布的样本,然后通过最大化观测样本的似然对数函数(4)优化参数
Δwij≈<vihj>0-<vihj>1 (5)
优化参数的方案采用一步对比散度算法,采用平均场逼近的方式直接生成采样样本,利用公式(5)多次迭代优化DBN参数,最终获得各神经元之间的权重、以及神经元的偏置等各项初始参数。其中,N代表RBM模型可见层神经元的数量,亦即RBM模型输入数据的维度。。
2)DNN整体优化
DBN的优化过程完成后,此过程得到的权值w可作为DNN的初始值进行初始化,最后一层softmax采用随机的初始化方式,然后,DNN采用有监督的梯度下降算法对模型进行微调。
利用有监督的方式,通过最小化代价函数(6)的方式优化参数(7)微调整个DNN网络模型。
其中,J表示代价函数,hW,(x)表示DNN网络的输出,y表示输入数据对应的label。
公式(7)中α表示学习率,取0.5~0.01。
在计算网络各个节点偏导数过程中采用反向传导算法完成公式(8),δ表示灵敏度。当l表示输出层时,当l表示其他层时其中表示激活函数。
然后通过多次迭代,更新公式(7),逐层优化整个DNN网络,得到训练好的鼾声信号DNN模型即目标DNN模型。
通过基于DBN的非监督学习和监督学习方法的结合,相对于随机初始化的深度神经网络,经过无监督预处理后进行监督学习,获得的目标DNN模型有明显优于普通深度神经网络的性能。以音频数据样本的MFCC作为DNN模型的输入进行建模获得基于DNN的鼾声模型,再利用该鼾声模型对鼾声进行识别,有效提高了鼾声的识别率。
605、获取原始音频数据后,确定目标音频数据,上述目标音频数据为与上述原始音频数据对应的有效音频数据;
606、获取与上述目标音频数据对应的目标矩阵,并将上述目标矩阵输入目标DNN模型中,获得判别结果;
所述目标矩阵为对所述目标音频数据的梅尔频率倒频系数MFCC经过归一化处理后,从归一化处理后的MFCC中截取出的有效矩阵。
607、在上述目标音频数据的周期满足预设周期,且上述判别结果符合预设结果的情况下,确定上述目标音频数据为鼾声。
可以理解的是,步骤605-步骤607的具体实现方式可以参考图1所描述的方法,这里不一一赘述。
本发明用DNN模型结合周期检测用于鼾声的识别。目前,检测鼾声的家用设备大多是基于简单的语音参数,比如过零率、能量谱、功率谱等。部分医用设备采用了复杂模型。相比较而言,基于简单参数的算法准确度低,难以满足需求;而复杂模型复杂度高,运算量大、成本较高,难以在家用设备上实现。因此,通过实施本发明实施例,将DNN模型结合周期检测应用到鼾声检测装置中如家居或便携设备,不仅方便快捷,而且可以更准确地实现鼾声检测,为用户的疾病诊断提供有益信息。
上述详细阐述了本发明实施例的方法,下面提供了本发明实施例的装置。
请参见图8,图8是本发明实施例提供的一种鼾声检测装置的结构示意图,该鼾声检测装置可用于执行本发明实施例提供的鼾声检测方法,如图8所示,该鼾声检测装置可包括:
第一获取单元801,用于获取与目标音频数据对应的目标矩阵,上述目标矩阵为基于上述目标音频数据的梅尔频率倒频系数MFCC获取;
输入获得单元802,用于将上述目标矩阵输入目标深度神经网络DNN模型中,获得判别结果;
确定单元803,用于在上述目标音频数据的周期满足预设周期,且上述判别结果符合预设结果的情况下,确定上述目标音频数据为鼾声。
实施本发明实施例,可方便快捷地、准确地实现鼾声检测,提高鼾声检测装置的效率。
可选地,第一获取单元801,还用于获取原始音频数据;
上述确定单元803,还用于确定上述目标音频数据,上述目标音频数据为与上述原始音频数据对应的有效音频数据。
具体地,上述确定单元803,具体用于利用语音端点检测方法VAD检测上述原始音频数据中的有效音频数据,得到上述目标音频数据。
实施本实施例,可以提高鼾声识别率,排除其他干扰。
可选地,上述装置还包括:
保存单元,用于在上述目标音频数据的周期满足预设周期,且上述判别结果符合预设结果的情况下,保存上述原始音频数据和/或上述目标音频数据。
具体地,如图9所示,上述第一获取单元801包括:
第一计算子单元8011,用于计算上述目标音频数据的MFCC,得到X*Y系数矩阵,其中,X为目标音频数据的帧数,Y为MFCC系数长度;
第一处理子单元8012,用于将上述X*Y系数矩阵中各信号帧的MFCC依次首尾相连得到长度为X*Y的第一一维矩阵;
第一分割子单元8013,用于按预设步长从上述第一一维矩阵头部到上述第一一维矩阵尾部对上述第一一维矩阵进行分割,获得包括一组长度均为预设长度的第二一维矩阵的目标矩阵,每个上述第二一维矩阵具有相同的标签,上述预设步长为每帧MFCC长度的整数倍,上述预设长度为上述每帧MFCC长度的整数倍。
实施本实施例,不仅可以避免损失鼾声信号,而且还可以提高鼾声识别的准确率,提高鼾声检测装置的效率。
具体地,上述目标音频数据的周期满足预设周期包括:
上述目标音频数据的时域周期满足预设时域周期,和/或,上述目标音频数据的频域周期满足预设频域周期。
具体地,上述目标音频数据的持续时间大于预设时间。
具体地,上述目标矩阵携带有目标权重,在上述目标矩阵的数量为M时,上述M为大于1的整数,上述目标矩阵离上述目标音频数据的时域中心的距离越近,上述目标权重越高;
上述输入获得单元802,具体用于将上述目标矩阵输入上述目标DNN模型,得到M个预测结果,依据上述M个预测结果以及上述目标权重确定上述判别结果。
可选地,如图10所示,上述鼾声检测装置还包括:
第二获取单元804,用于获取上述目标DNN模型。
具体地,如图11所示,上述第二获取单元804包括:
获取子单元8041,用于获取音频数据样本;
第二计算子单元8042,用于计算上述音频数据样本的MFCC,得到N*L系数矩阵,其中,N为上述音频数据样本的帧数,L为MFCC系数长度;
第二处理子单元8043,用于将上述N*L系数矩阵中各信号帧的MFCC依次首尾相连得到长度为N*L的第三一维矩阵;
第二分割子单元8044,用于按预设步长从上述第三一维矩阵头部到上述第三一维矩阵尾部对上述第三一维矩阵进行分割,获得包括一组长度均为预设长度的第四一维矩阵的训练矩阵,每个上述第四一维矩阵具有相同的标签,上述预设步长为每帧MFCC长度的整数倍,上述预设长度为上述每帧MFCC长度的整数倍;
训练子单元8045,用于利用上述训练矩阵训练DNN模型,得到上述目标DNN模型。
实施本实施例,将DNN模型结合周期检测应用到鼾声检测装置中如家居或便携设备,不仅方便快捷,而且可以更准确地实现鼾声检测,为用户的疾病诊断提供有益信息。
需要说明的是,各个单元的实现还可以对应参照图1和图6所示的方法实施例的相应描述。
参见图12,图12是本发明另一实施例提供的一种鼾声检测设备的结构示意图。如图12所示的本实施例中的鼾声检测设备可以包括:一个或多个处理器1201;一个或多个输入设备1202,一个或多个输出设备1203和存储器1204。上述处理器1201、输入设备1202、输出设备1203和存储器1204通过总线1205连接。存储器1202用于存储指令,处理器1201用于执行存储器1202存储的指令。其中,处理器1201用于:
获取与目标音频数据对应的目标矩阵,并将上述目标矩阵输入目标深度神经网络DNN模型中,获得判别结果;上述目标矩阵基于上述目标音频数据的梅尔频率倒频系数MFCC获取;
在上述目标音频数据的周期满足预设周期,且上述判别结果符合预设结果的情况下,确定上述目标音频数据为鼾声。
应当理解,在本发明实施例中,所称处理器1201可以是中央处理单元(CentralProcessing Unit,CPU),该处理器还可以是其他通用处理器、数字信号处理器(DigitalSignal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
输入设备1202可以包括触控板、麦克风等,如可通过该输入设备获取原始音频数据等。
输出设备1203可以包括显示器(LCD等)、扬声器等,如可通过该输出设备输出判别结果等等。
该存储器1204可以包括只读存储器和随机存取存储器,并向处理器1201提供指令和数据。存储器1204的一部分还可以包括非易失性随机存取存储器。例如,存储器1204还可以存储设备类型的信息。
具体实现中,本发明实施例中所描述的处理器1201、输入设备1202、输出设备1203可执行本发明实施例提供的鼾声检测方法的第一实施例和第二实施例中所描述的实现方式,也可执行本发明实施例所描述的鼾声检测装置的实现方式,在此不再赘述。
在本发明的另一实施例中提供一种计算机可读存储介质,上述计算机可读存储介质存储有计算机程序,上述计算机程序被处理器执行时实现:
获取与目标音频数据对应的目标矩阵,并将上述目标矩阵输入目标深度神经网络DNN模型中,获得判别结果;上述目标矩阵基于上述目标音频数据的梅尔频率倒频系数MFCC获取;
在上述目标音频数据的周期满足预设周期,且上述判别结果符合预设结果的情况下,确定上述目标音频数据为鼾声。
上述计算机可读存储介质可以是前述任一实施例上述的鼾声检测设备的内部存储单元,例如鼾声检测设备的硬盘或内存。上述计算机可读存储介质也可以是上述鼾声检测设备的外部存储设备,例如上述鼾声检测设备上配备的插接式硬盘,智能存储卡(SmartMedia Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,上述计算机可读存储介质还可以既包括上述鼾声检测设备的内部存储单元也包括外部存储设备。上述计算机可读存储介质用于存储上述计算机程序以及上述鼾声检测设备所需的其他程序和数据。上述计算机可读存储介质还可以用于暂时地存储已经输出或者将要输出的数据。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,该流程可以由计算机程序来指令相关的硬件完成,该程序可存储于计算机可读取存储介质中,该程序在执行时,可包括如上述各方法实施例的流程。而前述的存储介质包括:ROM或随机存储记忆体RAM、磁碟或者光盘等各种可存储程序代码的介质。

Claims (14)

1.一种鼾声检测方法,其特征在于,包括:
获取与目标音频数据对应的目标矩阵,并将所述目标矩阵输入目标深度神经网络DNN模型中,获得判别结果;所述目标矩阵基于所述目标音频数据的梅尔频率倒频系数MFCC获取;
在所述目标音频数据的周期满足预设周期,且所述判别结果符合预设结果的情况下,确定所述目标音频数据为鼾声。
2.根据权利要求1所述的方法,其特征在于,所述获取与目标音频数据对应的目标矩阵包括:
计算所述目标音频数据的MFCC,得到X*Y系数矩阵,其中,X为目标音频数据的帧数,Y为MFCC系数长度;
将所述X*Y系数矩阵中各信号帧的MFCC依次首尾相连得到长度为X*Y的第一一维矩阵;
按预设步长从所述第一一维矩阵头部到所述第一一维矩阵尾部对所述第一一维矩阵进行分割,获得包括一组长度均为预设长度的第二一维矩阵的目标矩阵,每个所述第二一维矩阵具有相同的标签,所述预设步长为每帧MFCC长度的整数倍,所述预设长度为所述每帧MFCC长度的整数倍。
3.根据权利要求1或2所述的方法,其特征在于,所述目标音频数据的周期满足预设周期包括:
所述目标音频数据的时域周期满足预设时域周期,和/或,所述目标音频数据的频域周期满足预设频域周期。
4.根据权利要求3所述的方法,其特征在于,所述目标矩阵携带有目标权重,在所述目标矩阵的数量为M时,所述目标矩阵离所述目标音频数据的时域中心的距离越近,所述目标权重越高,所述M为大于1的整数;
所述将所述目标矩阵输入目标深度神经网络DNN模型中,获得判别结果包括:
将所述目标矩阵输入所述目标DNN模型,得到M个预测结果,依据所述M个预测结果以及所述目标权重确定所述判别结果。
5.根据权利要求1所述的方法,其特征在于,所述将所述目标矩阵输入目标深度神经网络DNN模型中之前,所述方法还包括:
获取所述目标DNN模型。
6.根据权利要求5所述的方法,其特征在于,所述获取所述目标DNN模型包括:
获取音频数据样本;
计算所述音频数据样本的MFCC,得到N*L系数矩阵,其中,N为所述音频数据样本的帧数,L为MFCC系数长度;
将所述N*L系数矩阵中各信号帧的MFCC依次首尾相连得到长度为N*L的第三一维矩阵;
按预设步长从所述第三一维矩阵头部到所述第三一维矩阵尾部对所述第三一维矩阵进行分割,获得包括一组长度均为预设长度的第四一维矩阵的训练矩阵,每个所述第四一维矩阵具有相同的标签,所述预设步长为每帧MFCC长度的整数倍,所述预设长度为所述每帧MFCC长度的整数倍;
利用所述训练矩阵训练DNN模型,得到所述目标DNN模型。
7.一种鼾声检测装置,其特征在于,包括:
第一获取单元,用于获取与目标音频数据对应的目标矩阵,所述目标矩阵为基于所述目标音频数据的梅尔频率倒频系数MFCC获取;
输入获得单元,用于将所述目标矩阵输入目标深度神经网络DNN模型中,获得判别结果;
确定单元,用于在所述目标音频数据的周期满足预设周期,且所述判别结果符合预设结果的情况下,确定所述目标音频数据为鼾声。
8.根据权利要求7所述的装置,其特征在于,所述第一获取单元包括:
第一计算子单元,用于计算所述目标音频数据的MFCC,得到X*Y系数矩阵,其中,X为目标音频数据的帧数,Y为MFCC系数长度;
第一处理子单元,将所述X*Y系数矩阵中各信号帧的MFCC依次首尾相连得到长度为X*Y的第一一维矩阵;
第一分割子单元,用于按预设步长从所述第一一维矩阵头部到所述第一一维矩阵尾部对所述第一一维矩阵进行分割,获得包括一组长度均为预设长度的第二一维矩阵的目标矩阵,每个所述第二一维矩阵具有相同的标签,所述预设步长为每帧MFCC长度的整数倍,所述预设长度为所述每帧MFCC长度的整数倍。
9.根据权利要求7或8所述的装置,其特征在于,所述目标音频数据的周期满足预设周期包括:
所述目标音频数据的时域周期满足预设时域周期,和/或,所述目标音频数据的频域周期满足预设频域周期。
10.根据权利要求9所述的装置,其特征在于,所述目标矩阵携带有目标权重,在所述目标矩阵的数量为M时,所述M为大于1的整数,所述目标矩阵离所述目标音频数据的时域中心的距离越近,所述目标权重越高;
所述输入获得单元,具体用于将所述目标矩阵输入所述目标DNN模型,得到M个预测结果,依据所述M个预测结果以及所述目标权重确定所述判别结果。
11.根据权利要求7所述的装置,其特征在于,所述装置还包括:
第二获取单元,用于获取所述目标DNN模型。
12.根据权利要求11所述的装置,其特征在于,所述第二获取单元包括:
获取子单元,用于获取音频数据样本;
第二计算子单元,用于计算所述音频数据样本的MFCC,得到N*L系数矩阵,其中,N为所述音频数据样本的帧数,L为MFCC系数长度;
第二处理子单元,用于将所述N*L系数矩阵中各信号帧的MFCC依次首尾相连得到长度为N*L的第三一维矩阵;
第二分割子单元,用于按预设步长从所述第三一维矩阵头部到所述第三一维矩阵尾部对所述第三一维矩阵进行分割,获得包括一组长度均为预设长度的第四一维矩阵的训练矩阵,每个所述第四一维矩阵具有相同的标签,所述预设步长为每帧MFCC长度的整数倍,所述预设长度为所述每帧MFCC长度的整数倍;
训练子单元,用于利用所述训练矩阵训练DNN模型,得到所述目标DNN模型。
13.一种鼾声检测设备,其特征在于,包括处理器、输入设备、输出设备和存储器,其中:
所述处理器、所述输入设备、所述输出设备和所述存储器相互连接,所述存储器用于存储计算机程序,所述计算机程序包括程序指令,所述处理器被配置用于调用所述程序指令,执行如权利要求1至6任意一项所述的方法。
14.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行时,使所述处理器执行如权利要求1至6任意一项所述的方法。
CN201710997581.4A 2017-10-24 2017-10-24 鼾声检测方法、装置、设备及存储介质 Active CN107910020B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710997581.4A CN107910020B (zh) 2017-10-24 2017-10-24 鼾声检测方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710997581.4A CN107910020B (zh) 2017-10-24 2017-10-24 鼾声检测方法、装置、设备及存储介质

Publications (2)

Publication Number Publication Date
CN107910020A true CN107910020A (zh) 2018-04-13
CN107910020B CN107910020B (zh) 2020-04-14

Family

ID=61840756

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710997581.4A Active CN107910020B (zh) 2017-10-24 2017-10-24 鼾声检测方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN107910020B (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109357749A (zh) * 2018-09-04 2019-02-19 南京理工大学 一种基于dnn算法的电力设备音频信号分析方法
WO2019079972A1 (zh) * 2017-10-24 2019-05-02 深圳和而泰智能控制股份有限公司 特定声音识别方法、设备和存储介质
CN109766843A (zh) * 2019-01-14 2019-05-17 河海大学常州校区 基于改进的受限玻尔兹曼机的肌电信号特征提取方法
CN110010155A (zh) * 2019-04-11 2019-07-12 中国一拖集团有限公司 基于卷积神经网络和mfcc的颤振识别方法和系统
CN110222577A (zh) * 2019-05-08 2019-09-10 平安科技(深圳)有限公司 一种目标监控方法、装置、计算机设备及存储介质
CN110928889A (zh) * 2019-10-23 2020-03-27 深圳市华讯方舟太赫兹科技有限公司 训练模型更新方法、设备以及计算机存储介质
CN111128202A (zh) * 2019-12-10 2020-05-08 龙马智芯(珠海横琴)科技有限公司 声音的处理方法和装置
CN111312293A (zh) * 2020-02-17 2020-06-19 杭州电子科技大学 一种基于深度学习对呼吸暂停症患者的识别方法及系统
CN111916104A (zh) * 2020-07-20 2020-11-10 湖北美和易思教育科技有限公司 一种人工智能物联网宿舍管理系统及方法
CN113053409A (zh) * 2021-03-12 2021-06-29 科大讯飞股份有限公司 音频测评方法及装置
WO2023284813A1 (zh) * 2021-07-15 2023-01-19 麒盛科技股份有限公司 一种基于深度学习算法的鼾声监测方法与系统以及相应的电动床控制方法和系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN201398964Y (zh) * 2009-05-13 2010-02-10 深圳和而泰智能控制股份有限公司 一种家用健康检测装置
CN102789779A (zh) * 2012-07-12 2012-11-21 广东外语外贸大学 一种语音识别系统及其识别方法
CN103251388A (zh) * 2013-04-25 2013-08-21 北京大学深圳研究生院 基于智能手机平台的打鼾监测和防治方法及系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN201398964Y (zh) * 2009-05-13 2010-02-10 深圳和而泰智能控制股份有限公司 一种家用健康检测装置
CN102789779A (zh) * 2012-07-12 2012-11-21 广东外语外贸大学 一种语音识别系统及其识别方法
CN103251388A (zh) * 2013-04-25 2013-08-21 北京大学深圳研究生院 基于智能手机平台的打鼾监测和防治方法及系统

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
亲楚雄等: "低资源语音识别中融合多流特征的卷积神经网络声学建模方法", 《计算机应用》 *
孟泽民等: "基于神经网络的家用型睡眠呼吸暂停综合症监测系统", 《计算机应用》 *
彭好等: "阻塞性睡眠呼吸暂停低通气综合征和单纯鼾症患者鼾声声压级参数分析", 《山东大学耳鼻喉眼学报》 *

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019079972A1 (zh) * 2017-10-24 2019-05-02 深圳和而泰智能控制股份有限公司 特定声音识别方法、设备和存储介质
CN109357749A (zh) * 2018-09-04 2019-02-19 南京理工大学 一种基于dnn算法的电力设备音频信号分析方法
CN109766843A (zh) * 2019-01-14 2019-05-17 河海大学常州校区 基于改进的受限玻尔兹曼机的肌电信号特征提取方法
CN110010155A (zh) * 2019-04-11 2019-07-12 中国一拖集团有限公司 基于卷积神经网络和mfcc的颤振识别方法和系统
CN110222577A (zh) * 2019-05-08 2019-09-10 平安科技(深圳)有限公司 一种目标监控方法、装置、计算机设备及存储介质
CN110928889A (zh) * 2019-10-23 2020-03-27 深圳市华讯方舟太赫兹科技有限公司 训练模型更新方法、设备以及计算机存储介质
CN111128202A (zh) * 2019-12-10 2020-05-08 龙马智芯(珠海横琴)科技有限公司 声音的处理方法和装置
CN111128202B (zh) * 2019-12-10 2022-09-30 龙马智芯(珠海横琴)科技有限公司 声音的处理方法和装置
CN111312293A (zh) * 2020-02-17 2020-06-19 杭州电子科技大学 一种基于深度学习对呼吸暂停症患者的识别方法及系统
CN111916104A (zh) * 2020-07-20 2020-11-10 湖北美和易思教育科技有限公司 一种人工智能物联网宿舍管理系统及方法
CN111916104B (zh) * 2020-07-20 2022-09-13 武汉美和易思数字科技有限公司 一种人工智能物联网宿舍管理系统及方法
CN113053409A (zh) * 2021-03-12 2021-06-29 科大讯飞股份有限公司 音频测评方法及装置
CN113053409B (zh) * 2021-03-12 2024-04-12 科大讯飞股份有限公司 音频测评方法及装置
WO2023284813A1 (zh) * 2021-07-15 2023-01-19 麒盛科技股份有限公司 一种基于深度学习算法的鼾声监测方法与系统以及相应的电动床控制方法和系统

Also Published As

Publication number Publication date
CN107910020B (zh) 2020-04-14

Similar Documents

Publication Publication Date Title
CN107910020A (zh) 鼾声检测方法、装置、设备及存储介质
US11322155B2 (en) Method and apparatus for establishing voiceprint model, computer device, and storage medium
CN107898432A (zh) 鼾声检测方法、装置、设备及介质
CN103251388B (zh) 基于智能手机平台的打鼾监测方法和监测及防治系统
CN110473554B (zh) 音频校验方法、装置、存储介质及电子设备
WO2019023879A1 (zh) 咳嗽声音识别方法、设备和存储介质
CN111640439A (zh) 一种基于深度学习的呼吸音分类方法
Cheng et al. Automated sleep apnea detection in snoring signal using long short-term memory neural networks
Yusnita et al. Automatic gender recognition using linear prediction coefficients and artificial neural network on speech signal
CN107280674A (zh) 基于音频录取设备的呼吸模式判决方法
Shen et al. Detection of snore from OSAHS patients based on deep learning
Sharma Disease detection using analysis of voice parameters
Nwe et al. An Integrated Solution for Snoring Sound Classification Using Bhattacharyya Distance Based GMM Supervectors with SVM, Feature Selection with Random Forest and Spectrogram with CNN.
Shetty et al. Classification of healthy and pathological voices using MFCC and ANN
CN115486865A (zh) 一种基于卷积循环神经网络的心音分类方法
Popadina et al. Voice analysis framework for asthma-COVID-19 early diagnosis and prediction: AI-based mobile cloud computing application
CN113974607A (zh) 一种基于脉冲神经网络的睡眠鼾声检测系统
Luo et al. Design of embedded real-time system for snoring and OSA detection based on machine learning
Tiwari et al. Deep lung auscultation using acoustic biomarkers for abnormal respiratory sound event detection
Abushakra et al. Efficient frequency-based classification of respiratory movements
Hu et al. Auditory receptive field net based automatic snore detection for wearable devices
Vaishnavi et al. Neonatal cry signal prediction and classification via dense convolution neural network
Albornoz et al. Snore recognition using a reduced set of spectral features
Zhou et al. A heart sound diagnosis processing unit based on LSTM neural network
Liu et al. Snoring detection method in sleep based on MBAM-ResNet

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant