CN109767784A

CN109767784A - 鼾声识别的方法及装置、存储介质和处理器

Info

Publication number: CN109767784A
Application number: CN201910103058.1A
Authority: CN
Inventors: 聂镭; 沙露露; 聂颖; 郑权; 张峰
Original assignee: Dragon Horse Zhixin (zhuhai Hengqin) Technology Co Ltd
Current assignee: Dragon Horse Zhixin (zhuhai Hengqin) Technology Co Ltd
Priority date: 2019-01-31
Filing date: 2019-01-31
Publication date: 2019-05-17
Anticipated expiration: 2039-01-31
Also published as: CN109767784B

Abstract

本申请公开了一种鼾声识别的方法及装置、存储介质和处理器。该方法包括：获取目标音频数据的语谱图，其中，目标音频数据为人睡觉过程中采集到的音频数据；确定语谱图中目标能量范围内的第一能量占比；基于第一能量占比，识别目标音频数据中是否存在鼾声。通过本申请，解决了相关技术中在提升识别鼾声的准确率的情况下所需成本较高的技术问题。

Description

鼾声识别的方法及装置、存储介质和处理器

技术领域

本申请涉及信息处理技术领域，具体而言，涉及一种鼾声识别的方法及装置、存储介质和处理器。

背景技术

打鼾是一种非常普遍的现象，大约有20％-40％的人群患有打鼾症状。打鼾不仅困扰患者，影响同伴，还会对患者健康造成威胁。阻塞性睡眠呼吸暂停综合征就是一种伴有打鼾的呼吸疾病，会导致患者白天嗜睡和疲劳，也是心血管疾病的一个诱因。

目前市面上很多识别患者打鼾的产品仅仅是在睡觉的环境下设定一个阈值，当检测的声音信号大于该阈值时，识别为鼾声，然而该方法会将很多背景噪音误判为鼾声。针对此种情况，相关技术中采用自适应类无监督鼾声检测算法从声音中提取到某些特征，利用这些特征对鼾声进行识别，例如MEL频率倒谱系数特征，共振峰特征等，这类算法在区分鼾声和背景噪声时，准确率却较低。另外，一些有监督的鼾声识别方法采用神经网络或者模型类的方法对鼾声进行识别，该类方法准确率相对较高，但是需要大量训练样本，且硬件化的成本较高。

针对相关技术中在提升识别鼾声的准确率的情况下所需成本较高的技术问题，目前尚未提出有效的解决方案。

发明内容

本申请提供一种鼾声识别的方法及装置、存储介质和处理器，以解决相关技术中在提升识别鼾声的准确率的情况下所需成本较高的技术问题。

根据本申请的一个方面，提供了一种鼾声识别的方法。该方法包括：获取目标音频数据的语谱图，其中，所述目标音频数据为人睡觉过程中采集到的音频数据；确定所述语谱图中目标频率范围内的第一能量占比；基于所述第一能量占比，识别所述目标音频数据中是否存在鼾声。

进一步地，基于所述第一能量占比，识别所述目标音频数据中是否存在鼾声包括：若所述第一能量占比大于等于第一预设能量占比，则识别出所述目标音频数据中存在鼾声。

进一步地，若所述第一能量占比小于所述第一预设能量占比，所述方法还包括：对所述目标音频数据的语谱图按照预设周期进行划分；计算划分后的每个周期的所述语谱图中所述目标频率范围内的第二能量占比；若存在所述第二能量占比大于等于第二预设能量占比，则识别出所述目标音频数据中存在鼾声。

进一步地，若所述第二能量占比小于所述第二预设能量占比，所述方法还包括：确定所述语谱图中每一帧数据的能量分布；基于所述语谱图中频率的能量分布确定各个能量分布的持续时间；基于各个能量分布的持续时间确定所述目标音频数据中是否存在鼾声。

进一步地，基于各个能量分布的持续时间确定所述目标音频数据中是否存在鼾声包括：对所述目标音频数据中每一帧不同频率下的分量进行累加，得到多维数据；根据累加后的值确定阈值，将所述多维数据中的数据大于等于所述阈值的用1表示，将所述多维数据中的数据小于所述阈值的用0表示，得到指示矩阵；对所述指示矩阵中1和0的区间进行合并处理，得到处理后的矩阵；基于所述处理后的矩阵，识别所述目标音频数据中是否存在鼾声。

进一步地，基于处理后的矩阵，识别所述目标音频数据中是否存在鼾声包括：统计所述处理后的矩阵中值为1的区间长度并记录最大长度；根据所述最大长度的取值计算出声音的持续时间；基于所述声音的持续时间识别所述目标音频数据中是否存在鼾声。

进一步地，所述方法还包括：在基于所述声音的持续时间识别所述目标音频数据中是否存在鼾声之后，将所述目标音频数据输入至高斯模型，其中，所述高斯模型是预先以目标对象的目标声音训练生成的模型；基于所述高斯模型反馈的结果，识别所述目标音频数据中是否存在鼾声；或者，在获取目标音频数据的语谱图之前，所述方法还包括：将所述目标音频数据输入至所述高斯模型；基于所述高斯模型反馈的结果，识别所述目标音频数据中是否存在鼾声。

进一步地，获取声音数据的语谱图包括：对原始音频进行重采样；对通过重采样之后的音频采进行加窗分帧；对分帧后的每帧音频进行短时傅里叶变换，得到所述语谱图。

根据本申请的一个方面，提供了一种鼾声识别的装置，包括：获取单元，用于获取目标音频数据的语谱图，其中，所述目标音频数据为人睡觉过程中采集到的音频数据；确定单元，用于确定所述语谱图中目标能量范围内的第一能量占比；识别单元，用于基于所述第一能量占比，识别所述目标音频数据中是否存在鼾声。

根据本申请的一个方面，提供了一种处理器，所述处理器用于运行程序，其中，所述程序运行时执行上述任意一项所述的鼾声识别的方法。

通过本申请，采用以下步骤：获取目标音频数据的语谱图，其中，目标音频数据为人睡觉过程中采集到的音频数据；确定语谱图中目标能量范围内的第一能量占比；基于第一能量占比，识别目标音频数据中是否存在鼾声，解决了相关技术中在提升识别鼾声的准确率的情况下所需成本较高的技术问题。通过基于目标能量范围内的第一能量占比，识别目标音频数据中是否存在鼾声，在提升识别鼾声的准确率的情况下降低了算法对硬件性能的要求，从而降低了所需硬件的成本，进而达到了在识别鼾声的准确率的情况下，降低了成本的效果。

附图说明

构成本申请的一部分的附图用来提供对本申请的进一步理解，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1是根据本申请实施例提供的鼾声识别的方法的流程图；以及

图2是根据本申请实施例提供的鼾声识别的装置的示意图。

具体实施方式

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分的实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

需要说明的是，本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

根据本申请的实施例，提供了一种鼾声识别的方法。

图1是根据本申请实施例的鼾声识别的方法的流程图。如图1所示，该方法包括以下步骤：

步骤S101，获取目标音频数据的语谱图，其中，目标音频数据为人睡觉过程中采集到的音频数据。

打鼾的场景一般是人在睡觉的过程中，环境中的背景噪音有可能是空调声，风扇声，电视声，电器运作发生的声音以及少量人说话的声音。因此针对这种情景设定对鼾声进行检测，获取人睡觉过程中采集到的音频数据的语谱图。在实际应用过程中，获取目标音频数据的方式，可以是通过声音传感器实时地检测到用户睡觉过程的音频数据，如通过专门设置的麦克风检测，也可以是通过手机、平板或者其它具有检测声音功能的设备。

例如，对原始音频数据(可以下载，也可以录制)进行重采样到16KHz，采样频率一般有8KHz，16KHz，48KHz，为了方便统一处理，因而将数据重采样到16kHz，本申请实施例中对鼾声语音长度不做具体限制。考虑到鼾声音频周期在2s-5s范围内，选取的音频长度应在10s以上。在实际应用过程中，获取原始音频数据的方式，还可以是通过声音传感器实时地检测到人睡觉过程的音频数据，如通过专门设置的麦克风检测，也可以是通过手机、平板或者其它具有检测声音功能的设备。对重采样之后的音频数据进行加窗分帧，以一段纯净的鼾声为例，假设时长约为12s，采样频率为16KHz，总共192000(12*16K)个采样点，对本段语音进行加窗分帧，窗函数选择汉明窗，帧长为128个＝0987654样点(8ms)，帧重复率为50％，即64个采样点，窗长与帧长一致，则经过加窗分帧之后得到2999帧(fix(192000-128/64)+1，fix表示取整)，对每一帧进行STFT变换(短时傅里叶变换)，得到语谱图。

可选地，在本申请实施例提供的鼾声识别的方法中，获取声音数据的语谱图包括：对原始音频进行重采样；对通过重采样之后的音频采进行加窗分帧；对分帧后的每帧音频进行短时傅里叶变换，得到语谱图。

步骤S102，确定语谱图中目标能量范围内的第一能量占比。

例如，目标能量范围内为0-2KHz范围内的能量，确定语谱图中0-2KHz范围内的能量占比，作为上述的第一能量占比。

步骤S103，基于第一能量占比，识别目标音频数据中是否存在鼾声。

可选地，在本申请实施例提供的鼾声识别的方法中，基于第一能量占比，识别目标音频数据中是否存在鼾声包括：若第一能量占比大于等于第一预设能量占比，则识别出目标音频数据中存在鼾声。

在检测鼾声时，最容易被误判成鼾声的其他声音就是人说话声和背景噪音。以本例中的数据为例，16KHz的采样率，128个采样点为一帧，进行STFT后横轴得到65个频率bin(128/2+1)，横轴的维度表示时间(以帧划分)，共2999维。语谱图表示将8KHz均分为65份，则0-2KHz的总能量可以用1-16个频率bin的总能量来表示，本组数据中，纯净鼾声0-2KHz的能量占比达到0.95以上，而在一般情况下，人说话的声音和背景噪音0-2KHz的能量占比仅占到0.2-0.5不等。由此，可以根据能量占比将鼾声检测出来。

本申请实施例提供的鼾声识别的方法，通过获取目标音频数据的语谱图，其中，目标音频数据为人睡觉过程中采集到的音频数据；确定语谱图中目标能量范围内的第一能量占比；基于第一能量占比，识别目标音频数据中是否存在鼾声，解决了相关技术中在提升识别鼾声的准确率的情况下所需成本较高的技术问题。通过基于目标能量范围内的第一能量占比，识别目标音频数据中是否存在鼾声，在提升识别鼾声的准确率的情况下降低了算法对硬件性能的要求，从而降低了所需硬件的成本，进而达到了在识别鼾声的准确率的情况下，降低了成本的效果。

可选地，在本申请实施例提供的鼾声识别的方法中，若第一能量占比小于第一预设能量占比，该方法还包括：对目标音频数据的语谱图按照预设周期进行划分；计算划分后的每个周期的语谱图中目标频率范围内的第二能量占比；若存在第二能量占比大于等于第二预设能量占比，则识别出目标音频数据中存在鼾声。

在上述方案中，若接收到鼾声部分时段上混有背景噪音，很难直接将鼾声检测出来，然而鼾声具有一定的周期性，从鼾声周期在2s-5s范围内，且前三个周期的噪音遍布于整个频带，而后两个周期的频谱受噪音影响较小，因此可以根据以下步骤对本种情况下的鼾声进行检测：(1)对鼾声周期进行检测并进行划分，例如可以将鼾声周期划分为5段。(2)对每段的鼾声进行计算0-2KHz的能量(对应上述的预设频率范围)占总频带能量的百分比。(3)逐段进行判断，若存在某一段0-2KHz能量占比在0.9(对应上述的第二预设能量占比)以上，则判断该段音频数据存在鼾声。

可选地，在本申请实施例提供的鼾声识别的方法中，若第二能量占比小于第二预设能量占比，该方法还包括：确定语谱图中每一帧数据的能量分布；基于语谱图中频率的能量分布确定各个能量分布的持续时间；基于各个能量分布的持续时间确定目标音频数据中是否存在鼾声。

在上述方案中，若整段鼾声音频中均混有背景噪音，则可以通过以下步骤对鼾声进行检测。利用周期性对音频进行区分：纵向计算能量分布，计算每一帧中的能量占比，能量分布具有周期性，且集中分布在0s-2s，4s-6s，8s-10s。通常，鼾声的周期大部分在2s-5s内，因此通过周期的长短能将一部分非鼾声进行过滤，从而基于各个能量分布的持续时间既可确定目标音频数据中是否存在鼾声。

可选地，在本申请实施例提供的鼾声识别的方法中，基于各个能量分布的持续时间确定目标音频数据中是否存在鼾声包括：对目标音频数据中每一帧不同频率下的分量进行累加，得到多维数据；根据累加后的值确定阈值，将多维数据中的数据大于等于阈值的用1表示，将多维数据中的数据小于阈值的用0表示，得到指示矩阵；对指示矩阵中1和0的区间进行合并处理，得到处理后的矩阵；基于处理后的矩阵，识别目标音频数据中是否存在鼾声。在本申请实施例提供的鼾声识别的方法中，基于处理后的矩阵，识别目标音频数据中是否存在鼾声包括：统计处理后的矩阵中值为1的区间长度并记录最大长度；根据最大长度的取值计算出声音的持续时间；基于声音的持续时间识别目标音频数据中是否存在鼾声。

利用信号的持续时间对音频进行分析，具体实施步骤可以如下：

(a)纵向计算能量分布，对每一帧不同频率下的分量进行累加，例如，STFT变化之后为65*2999维数据的进行累加得到1*2999维的数据。

(b)根据该段数据内的平均值来确定阈值，大于阈值的用1来表示，小于阈值的用0表示，可以得到指示矩阵P。假设经过累加得到的矩阵为[0.01，0.005，0.02，0.01，0.001，0.02，0.03，0.02，0.001，0.02，0.001，0.02，0.02，0.0105]，计算出的均值为0.0135，假设阈值为均值，则计算出来的P＝[0，0，1，0，0，1，1，1，0，1，0，1，1，1]。P仅仅是起到了指示矩阵的作用“1”代表信号存在，“0”代表信号不存在，由于“0”和“1”代表原始信号的值，一方面也能起到对基底噪声进行过滤的作用。

(c)对P中1和0的区间进行合并处理，例如假设得到指示矩阵P＝[0，0，1，0，0，1，1，1，0，1，0，1，1，1]，则合并处理之后的P＝[0，0，0，0，0，1，1，1，1，1，1，1，1，1]。考虑到声音信号具有波动性，假设一段时间内存在鼾声，难以保证鼾声信号的每个点都大于阈值，尤其是在背景噪音存在的情况，因此通过合并处理能够对信号中出现波动进行一定的平滑和覆盖。

(d)对合并处理之后的P计算值为1的区间长度并将最大值记做max_len。例如对于指示矩阵P＝[0，0，1，1，1，0，0，0，1，1，0，0，1，1，1，1，0，0，0]，值为1的区间长度分别为2，3，4，则max_len＝4。

(e)根据max_len的取值计算出声音持续的时间内，进而判断目标音频数据中是否为鼾声。假设计算得到的max_len＝801，则对于音频参数，通过计算对应的时间T＝(128+64*800)/16000＝3.208s，一般的情况下，鼾声的周期在2s-5s内，鼾声的持续时间在0.5s-4s内不等，因此可以判断该段音频包括鼾声。

若计算出的持续时长太短，不满足要求，故判断为不是鼾声。若计算出的持续时长太长，不满足要求，故判断为不是鼾声，若持续时长满足条件，故可以判断为是鼾声。

为了进一步地识别鼾声的正确率，降低了误识别鼾声，在本申请实施例提供的鼾声识别的方法中，该方法还包括：在基于声音的持续时间识别目标音频数据中是否存在鼾声之后，将目标音频数据输入至高斯模型，其中，高斯模型是预先以目标对象的目标声音训练生成的模型；基于高斯模型反馈的结果，识别目标音频数据中是否存在鼾声；或者，在获取目标音频数据的语谱图之前，该方法还包括：将目标音频数据输入至高斯模型；基于高斯模型反馈的结果，识别目标音频数据中是否存在鼾声。

例如，目标对象的目标声音可以为鼾声和小孩子的哭声，将鼾声和小孩子的哭声作为训练集分别训练出对应的高斯模型。将目标音频数据输入至高斯模型进行处理，识别目标音频数据中是否存在鼾声，或者，在获取目标音频数据的语谱图之前，将目标音频数据输入至高斯模型进行处理，再将经高斯模型处理后的声音按上述实施例中的方案进行处理。通过上述两种方式任意其中一种方式，就可以识别出声音是否为鼾声，从而排除了小孩子哭声的干扰，提高了识别的正确率，降低了误识别。特别地，当发现与小孩哭声一样的其它能量占比、周期性、持续时间都满足条件的其它非鼾声时，只需要特别训练对应的高斯模型，就可以排除该非鼾声对整个识别系统的干扰，提高识别率。

本申请实施例提供的方案考虑了鼾声识别在真实场景应用中存在的问题，利用了鼾声语谱图能量主要分布在0-2KHz内的特点以及鼾声的周期性和时长分布范围来对鼾声进行检测，提高了在背景噪音存在的情况下鼾声识别的准确率。从而降低了算法的复杂度，降低算法对硬件性能的要求，从而降低产品硬件化的生产的成本。

需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

本申请实施例还提供了一种鼾声识别的装置，需要说明的是，本申请实施例的鼾声识别的装置可以用于执行本申请实施例所提供的用于鼾声识别的方法。以下对本申请实施例提供的鼾声识别的装置进行介绍。

图2是根据本申请实施例的鼾声识别的装置的示意图。如图2所示，该装置包括：获取单元201、第一确定单元202和第一识别单元203。

具体地，获取单元201，用于获取目标音频数据的语谱图，其中，目标音频数据为人睡觉过程中采集到的音频数据；

第一确定单元202，用于确定语谱图中目标能量范围内的第一能量占比；

第一识别单元203，用于基于第一能量占比，识别目标音频数据中是否存在鼾声。

本申请实施例提供的鼾声识别的装置，通过获取单元201获取目标音频数据的语谱图，其中，目标音频数据为人睡觉过程中采集到的音频数据；第一确定单元202确定语谱图中目标能量范围内的第一能量占比；第一识别单元203基于第一能量占比，识别目标音频数据中是否存在鼾声，解决了相关技术中在提升识别鼾声的准确率的情况下所需成本较高的技术问题。通过基于目标能量范围内的能量占比，识别目标音频数据中是否存在鼾声，在提升识别鼾声的准确率的情况下降低了算法对硬件性能的要求，从而降低了所需硬件的成本，进而达到了在识别鼾声的准确率的情况下，降低了成本的效果。

可选地，在本申请实施例提供的鼾声识别的装置中，识别单元203包括：识别模块，用于在第一能量占比大于等于第一预设能量占比的情况下，则识别出目标音频数据中存在鼾声。

可选地，在本申请实施例提供的鼾声识别的装置中，该装置还包括：划分单元，用于在所述第一能量占比小于所述第一预设能量占比的情况下，对对所述目标音频数据的语谱图按照预设周期进行划分；计算单元，用于计算划分后的每个周期的所述语谱图中所述目标频率范围内的第二能量占比；第三识别单元，用于在存在所述第二能量占比大于等于第二预设能量占比的情况下，则识别出所述目标音频数据中存在鼾声。

可选地，在本申请实施例提供的鼾声识别的装置中，该装置还包括：第一确定单元，用于在不存在所述第二能量占比大于等于第二预设能量占比的情况下，确定语谱图中每一帧数据的能量分布；第二确定单元，用于基于语谱图中频率的能量分布确定各个能量分布的持续时间；第三确定单元，用于基于各个能量分布的持续时间确定目标音频数据中是否存在鼾声。

可选地，在本申请实施例提供的鼾声识别的装置中，第三确定单元包括：计算模块，用于对目标音频数据中每一帧不同频率下的分量进行累加，得到多维数据；确定模块，用于根据累加后的值确定阈值，将多维数据中的数据大于等于阈值的用1表示，将多维数据中的数据小于阈值的用0表示，得到指示矩阵；第一处理模块，用于对指示矩阵中1和0的区间进行合并处理，得到处理后的矩阵；识别模块，用于基于处理后的矩阵，识别目标音频数据中是否存在鼾声。

可选地，在本申请实施例提供的鼾声识别的装置中，识别模块包括：统计子模块，用于统计处理后的矩阵中值为1的区间长度并记录最大长度；计算子模块，用于根据最大长度的取值计算出声音的持续时间；识别子模块，用于基于声音的持续时间识别目标音频数据中是否存在鼾声。

可选地，在本申请实施例提供的鼾声识别的装置中，该装置还包括：第一处理单元，用于在基于声音的持续时间识别目标音频数据中是否存在鼾声之后，将目标音频数据输入至高斯模型，其中，高斯模型是预先以目标对象的目标声音训练生成的模型；第四识别单元，用于基于高斯模型反馈的结果，识别目标音频数据中是否存在鼾声；或者，该装置还包括：第二处理单元，用于在获取目标音频数据的语谱图之前，将目标音频数据输入至高斯模型；第五识别单元，用于基于高斯模型反馈的结果，识别目标音频数据中是否存在鼾声。

可选地，在本申请实施例提供的鼾声识别的装置中，获取单元201包括：采样模块，用于对原始音频进行重采样；第二处理模块，用于对通过重采样之后的音频采进行加窗分帧；转换模块，用于对分帧后的每帧音频进行短时傅里叶变换，得到语谱图。

所述鼾声识别的装置包括处理器和存储器，上述获取单元201、确定单元202和第一识别单元203等均作为程序单元存储在存储器中，由处理器执行存储在存储器中的上述程序单元来实现相应的功能。

处理器中包含内核，由内核去存储器中调取相应的程序单元。内核可以设置一个或以上，通过调整内核参数来识别鼾声。

存储器可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)，存储器包括至少一个存储芯片。

本发明实施例提供了一种存储介质，其上存储有程序，该程序被处理器执行时实现所述鼾声识别的方法。

本发明实施例提供了一种处理器，所述处理器用于运行程序，其中，所述程序运行时执行所述鼾声识别的方法。

本发明实施例提供了一种设备，设备包括处理器、存储器及存储在存储器上并可在处理器上运行的程序，处理器执行程序时实现以下步骤：获取目标音频数据的语谱图，其中，目标音频数据为人睡觉过程中采集到的音频数据；确定语谱图中目标频率范围内的第一能量占比；基于第一能量占比，识别目标音频数据中是否存在鼾声。

处理器执行程序时还可以实现以下步骤：基于第一能量占比，识别目标音频数据中是否存在鼾声包括：若第一能量占比大于等于第一预设能量占比，则识别出目标音频数据中存在鼾声。

处理器执行程序时还可以实现以下步骤：若第一能量占比小于第一预设能量占比，该方法还包括：对目标音频数据的语谱图按照预设周期进行划分；计算划分后的每个周期的语谱图中目标频率范围内的第二能量占比；若存在第二能量占比大于等于第二预设能量占比，则识别出目标音频数据中存在鼾声。

处理器执行程序时还可以实现以下步骤：若第二能量占比小于第二预设能量占比，该方法还包括：确定语谱图中每一帧数据的能量分布；基于语谱图中频率的能量分布确定各个能量分布的持续时间；基于各个能量分布的持续时间确定目标音频数据中是否存在鼾声。

处理器执行程序时还可以实现以下步骤：基于各个能量分布的持续时间确定目标音频数据中是否存在鼾声包括：对目标音频数据中每一帧不同频率下的分量进行累加，得到多维数据；根据累加后的值确定阈值，将多维数据中的数据大于等于阈值的用1表示，将多维数据中的数据小于阈值的用0表示，得到指示矩阵；对指示矩阵中1和0的区间进行合并处理，得到处理后的矩阵；基于处理后的矩阵，识别目标音频数据中是否存在鼾声。

处理器执行程序时还可以实现以下步骤：基于处理后的矩阵，识别目标音频数据中是否存在鼾声包括：统计处理后的矩阵中值为1的区间长度并记录最大长度；根据最大长度的取值计算出声音的持续时间；基于声音的持续时间识别目标音频数据中是否存在鼾声。

处理器执行程序时还可以实现以下步骤：该方法还包括：在基于声音的持续时间识别目标音频数据中是否存在鼾声之后，将目标音频数据输入至高斯模型，其中，高斯模型是预先以目标对象的目标声音训练生成的模型；基于高斯模型反馈的结果，识别目标音频数据中是否存在鼾声；或者，在获取目标音频数据的语谱图之前，该方法还包括：将目标音频数据输入至高斯模型；基于高斯模型反馈的结果，识别目标音频数据中是否存在鼾声。

处理器执行程序时还可以实现以下步骤：获取声音数据的语谱图包括：对原始音频进行重采样；对通过重采样之后的音频采进行加窗分帧；对分帧后的每帧音频进行短时傅里叶变换，得到语谱图。本文中的设备可以是服务器、PC、PAD、手机等。

本申请还提供了一种计算机程序产品，当在数据处理设备上执行时，适于执行初始化有如下方法步骤的程序：获取目标音频数据的语谱图，其中，目标音频数据为人睡觉过程中采集到的音频数据；确定语谱图中目标频率范围内的第一能量占比；基于第一能量占比，识别目标音频数据中是否存在鼾声。

当在数据处理设备上执行时，适于执行初始化还可以有如下方法步骤的程序：基于第一能量占比，识别目标音频数据中是否存在鼾声包括：若第一能量占比大于等于第一预设能量占比，则识别出目标音频数据中存在鼾声。

当在数据处理设备上执行时，适于执行初始化还可以有如下方法步骤的程序：若第一能量占比小于第一预设能量占比，该方法还包括：对目标音频数据的语谱图按照预设周期进行划分；计算划分后的每个周期的语谱图中目标频率范围内的第二能量占比；若存在第二能量占比大于等于第二预设能量占比，则识别出目标音频数据中存在鼾声。

当在数据处理设备上执行时，适于执行初始化还可以有如下方法步骤的程序：若第二能量占比小于第二预设能量占比，该方法还包括：确定语谱图中每一帧数据的能量分布；基于语谱图中频率的能量分布确定各个能量分布的持续时间；基于各个能量分布的持续时间确定目标音频数据中是否存在鼾声。

当在数据处理设备上执行时，适于执行初始化还可以有如下方法步骤的程序：基于各个能量分布的持续时间确定目标音频数据中是否存在鼾声包括：对目标音频数据中每一帧不同频率下的分量进行累加，得到多维数据；根据累加后的值确定阈值，将多维数据中的数据大于等于阈值的用1表示，将多维数据中的数据小于阈值的用0表示，得到指示矩阵；对指示矩阵中1和0的区间进行合并处理，得到处理后的矩阵；基于处理后的矩阵，识别目标音频数据中是否存在鼾声。

当在数据处理设备上执行时，适于执行初始化还可以有如下方法步骤的程序：基于处理后的矩阵，识别目标音频数据中是否存在鼾声包括：统计处理后的矩阵中值为1的区间长度并记录最大长度；根据最大长度的取值计算出声音的持续时间；基于声音的持续时间识别目标音频数据中是否存在鼾声。

当在数据处理设备上执行时，适于执行初始化还可以有如下方法步骤的程序：该方法还包括：在基于声音的持续时间识别目标音频数据中是否存在鼾声之后，将目标音频数据输入至高斯模型，其中，高斯模型是预先以目标对象的目标声音训练生成的模型；基于高斯模型反馈的结果，识别目标音频数据中是否存在鼾声；或者，在获取目标音频数据的语谱图之前，该方法还包括：将目标音频数据输入至高斯模型；基于高斯模型反馈的结果，识别目标音频数据中是否存在鼾声。

当在数据处理设备上执行时，适于执行初始化还可以有如下方法步骤的程序：获取声音数据的语谱图包括：对原始音频进行重采样；对通过重采样之后的音频采进行加窗分帧；对分帧后的每帧音频进行短时傅里叶变换，得到语谱图。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

存储器可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。存储器是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。

本领域技术人员应明白，本申请的实施例可提供为方法、系统或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

以上仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种鼾声识别的方法，其特征在于，包括：

获取目标音频数据的语谱图，其中，所述目标音频数据为人睡觉过程中采集到的音频数据；

确定所述语谱图中目标频率范围内的第一能量占比；

基于所述第一能量占比，识别所述目标音频数据中是否存在鼾声。

2.根据权利要求1所述的方法，其特征在于，基于所述第一能量占比，识别所述目标音频数据中是否存在鼾声包括：

若所述第一能量占比大于等于第一预设能量占比，则识别出所述目标音频数据中存在鼾声。

3.根据权利要求2所述的方法，其特征在于，若所述第一能量占比小于所述第一预设能量占比，所述方法还包括：

对所述目标音频数据的语谱图按照预设周期进行划分；

计算划分后的每个周期的所述语谱图中所述目标频率范围内的第二能量占比；

若存在所述第二能量占比大于等于第二预设能量占比，则识别出所述目标音频数据中存在鼾声。

4.根据权利要求3所述的方法，其特征在于，若所述第二能量占比小于所述第二预设能量占比，所述方法还包括：

确定所述语谱图中每一帧数据的能量分布；

基于所述语谱图中频率的能量分布确定各个能量分布的持续时间；

基于各个能量分布的持续时间确定所述目标音频数据中是否存在鼾声。

5.根据权利要求4所述的方法，其特征在于，基于各个能量分布的持续时间确定所述目标音频数据中是否存在鼾声包括：

对所述目标音频数据中每一帧不同频率下的分量进行累加，得到多维数据；

根据累加后的值确定阈值，将所述多维数据中的数据大于等于所述阈值的用1表示，将所述多维数据中的数据小于所述阈值的用0表示，得到指示矩阵；

对所述指示矩阵中1和0的区间进行合并处理，得到处理后的矩阵；

基于所述处理后的矩阵，识别所述目标音频数据中是否存在鼾声。

6.根据权利要求5所述的方法，其特征在于，基于处理后的矩阵，识别所述目标音频数据中是否存在鼾声包括：

统计所述处理后的矩阵中值为1的区间长度并记录最大长度；

根据所述最大长度的取值计算出声音的持续时间；

基于所述声音的持续时间识别所述目标音频数据中是否存在鼾声。

7.根据权利要求6所述的方法，其特征在于，所述方法还包括：

在基于所述声音的持续时间识别所述目标音频数据中是否存在鼾声之后，将所述目标音频数据输入至高斯模型，其中，所述高斯模型是预先以目标对象的目标声音训练生成的模型；

基于所述高斯模型反馈的结果，识别所述目标音频数据中是否存在鼾声；

或者，在获取目标音频数据的语谱图之前，所述方法还包括：

将所述目标音频数据输入至所述高斯模型；

基于所述高斯模型反馈的结果，识别所述目标音频数据中是否存在鼾声。

8.根据权利要求1所述的方法，其特征在于，获取声音数据的语谱图包括：

对原始音频进行重采样；

对通过重采样之后的音频采进行加窗分帧；

对分帧后的每帧音频进行短时傅里叶变换，得到所述语谱图。

9.一种鼾声识别的装置，其特征在于，包括：

获取单元，用于获取目标音频数据的语谱图，其中，所述目标音频数据为人睡觉过程中采集到的音频数据；

确定单元，用于确定所述语谱图中目标能量范围内的第一能量占比；

识别单元，用于基于所述第一能量占比，识别所述目标音频数据中是否存在鼾声。

10.一种处理器，其特征在于，所述处理器用于运行程序，其中，所述程序运行时执行权利要求1至8中任意一项所述的鼾声识别的方法。