CN110349587B

CN110349587B - 一种两人场景下目标个体打呼区分方法

Info

Publication number: CN110349587B
Application number: CN201910628651.8A
Authority: CN
Inventors: 常相茂; 彭程
Original assignee: Nanjing University of Aeronautics and Astronautics
Current assignee: Nanjing University of Aeronautics and Astronautics
Priority date: 2019-07-12
Filing date: 2019-07-12
Publication date: 2022-03-25
Anticipated expiration: 2039-07-12
Also published as: CN110349587A

Abstract

本发明属于机器学习以及睡眠监测领域，涉及一种两人场景下目标个体打呼区分方法，区分方法分三步：（1）目标采样：负责对目标个体在单人场景下的打呼音频进行采样并提取特征存储。（2）两人场景下采样：负责对两人场景下的打呼音频进行采样并提取特征存储。（3）目标个体识别：根据目标个体单人场景下打呼采样特征将两人场景下两个人的打呼区分开来并加以识别。本发明可以在保证高精确识别打呼的前提下区分不同个体，特别适用于两人场景下的睡眠监测系统。

Description

一种两人场景下目标个体打呼区分方法

技术领域

本发明属于睡眠监测技术领域，具体涉及一种两人场景下目标个体打呼区分方法，主要用于解决如何在两人场景下将监测目标个体和干扰个体区分的问题。

背景技术

由于传统的医用多导睡眠监测仪价格昂贵、使用成本高并且需要专业医护人员监护，基于移动设备的睡眠质量监测正越来越受到医学界的关注。打呼声音识别是睡眠监测的重要内容之一，传统的打呼识别方法包括使用麦克风采集音频进行识别或者使用传感器与身体接触达到识别呼吸的目的，通过音频的时域或者频域特征识别分析，这种方式需要用户在单人场景下睡眠或者佩戴一些穿戴式设备，但这显然不能满足两人睡眠场景以及反感穿戴式设备的用户群体需求。因此，需要设计一种基于非穿戴式移动设备的打呼识别方法，在保障不影响用户的睡眠质量以及体验的前提下，准确识别两人场景下目标用户的打呼音频。

发明内容

本发明针对现有技术中的不足，提供一种两人场景下目标个体打呼区分方法。

为实现上述目的，本发明采用以下技术方案：

一种两人场景下目标个体打呼区分方法，其特征在于，包括如下步骤：

S1单人场景下采样：负责单独采集目标个体打呼音频并提取相关特征，通过使用移动设备采集目标个体单独睡眠时的打呼音频，提取频域特征并存储用于目标个体识别；

S2两人场景下采样：负责采集目标个体和干扰个体两人打呼音频并提取相关特征，通过使用移动设备采集两人场景下睡眠时的打呼音频，提取频域特征并存储用于目标个体识别；

S3目标个体识别：负责将两人场景下目标个体的打呼音频识别出来，通过将单人场景下以及两人场景下采样的频域特征混合，对混合频域特征进行降维并聚类，对单人场景下目标个体的聚类结果和两人场景下的聚类结果进行对比分析，将目标个体打呼音频识别出来。

为优化上述技术方案，采取的具体措施还包括：

进一步地，步骤S1的处理流程如下：

S1.1对于目标个体单人睡眠下的情景，使用移动设备采集目标个体睡眠时的打呼音频；

S1.2将采集后的打呼音频划分帧；

S1.3对每个帧计算12维梅尔频率倒谱系数以及12维线性预测倒谱系数作为频域特征；

S1.4将频域特征存储用于目标个体标记。

进一步地，步骤S2的处理流程如下：

S2.1对于目标个体以及干扰个体两人睡眠下的情景，使用移动设备采集两人睡眠时的打呼音频；

S2.2将采集后的打呼音频划分帧；

S2.3对每个帧计算12维梅尔频率倒谱系数以及12维线性预测倒谱系数作为频域特征；

S2.4将频域特征存储用于提取目标个体打呼音频。

进一步地，步骤S3的处理流程如下：

S3.1将单人场景下以及两人场景下采样的频域特征混合，使用主成分提取法降维到两维空间中；

S3.2计算聚类数目分别为1，2，3时所对应的AIC值：

AIC＝(2K-L)/n

其中，K是高斯混合模型参数的数量，L是对数似然值，n是打呼帧数目，AIC值最小的聚类数目是最佳聚类数目；

S3.3根据最佳聚类数目用高斯混合模型进行聚类；

S3.4通过对聚类结果进行对比分析识别目标个体打呼音频。

进一步地，步骤S3.4的处理流程如下：

1)若最佳聚类数目为1，则代表两人场景下仅有目标个体一人打呼，两人场景下识别出的打呼帧均为目标个体打呼；

2)若最佳聚类数目为2，则观察两人场景下采样是否在同一聚类中心，若在同一聚类中心，则代表两人场景下目标个体没有打呼，两人场景下识别出的打呼帧均为干扰个体打呼；

3)若最佳聚类数目为2，则观察两人场景下采样是否在同一聚类中心，若不在同一聚类中心，则代表两人场景下目标个体有打呼且两人打呼没有重叠部分，两人场景下，与单人场景采样所在聚类中心相同的聚类中心为目标个体打呼帧；

4)若最佳聚类数目为3，则代表两人场景下目标个体和干扰个体打呼有重叠部分，单人场景下采样所在聚类中心为两人场景下目标个体单独打呼帧，计算目标个体单独打呼聚类中心A与其余两个聚类中心B、C的欧式距离：

其中d₁₂、d₁₃分别代表A与B、C之间的欧式距离，μ₁、μ₂、μ₃分别代表A、B、C中的样本值在特征空间里的坐标；距离A较远的聚类中心为干扰个体单独打呼帧，距离A较近的聚类中心为目标个体与干扰个体打呼重叠帧。

进一步地，所述移动设备为麦克风。

本发明的有益效果是：构建了一种两人场景下的打呼区分模型，用于识别目标个体的打呼音频。它将目标个体在单人场景下打呼的频域特征为标记，在两人场景下也能准确区分目标个体打呼音频，并且不需要传感器接触身体，解决了两人场景下目标个体以及干扰个体的区分问题，拓宽了睡眠监测的使用场景，对于识别出的打呼音频，可以用于目标个体的睡眠质量监测以及睡眠障碍诊断。

附图说明

图1为两人场景下的目标个体打呼区分方法的流程框架图。

图2a～2d为最佳聚类数目分别为1、2、3、4时一次聚类中目标个体的区分示意图，其中·代表两人场景下采样，×代表单人场景下采样。

具体实施方式

现在结合附图对本发明作进一步详细的说明。

如图1所示的目标个体打呼区分方法的主要思想为：分为三个步骤对两人场景下的目标个体打呼进行区分：单人场景采样、两人场景采样和目标个体区分。前两层负责为目标个体采样作为标记以及提供二人场景下的打呼特征，最后达到识别出两人场景下目标个体打呼的目的。

单人场景下采样主要负责采集目标个体打呼频域特征用做标记来用于两人场景下目标个体的识别，通过手机麦克风采集目标个体单独睡眠时打呼音频，提取这些音频的频域特征。

两人场景下采样负责提取两人打呼音频的频域特征，通过手机麦克风采集目标个体以及干扰个体睡眠时打呼音频，提取这些音频的频域特征。

目标个体识别负责提取出目标个体打呼音频部分，在对单人场景以及两人场景下采样频域特征混合降维后，计算AIC确定最佳聚类数目，根据高斯混合模型(GMM)聚类结果以及单人场景采样标记区分两人场景的不同打呼情况。

单人场景下采样的具体步骤是：使用移动设备放于目标个体1.5米范围内采集目标睡眠时音频，将采集后的打呼音频划分帧，计算打呼帧的12维梅尔频率倒谱系数(MFCC)以及12维线性预测倒谱系数(LPCC)作为频域特征，将频域特征存储用于目标个体标记。

两人场景下采样的具体步骤是：使用移动设备放于目标个体以及干扰个体1.5米范围内采集目标睡眠时音频，将采集后的打呼音频划分帧，计算打呼帧的12维梅尔频率倒谱系数(MFCC)以及12维线性预测倒谱系数(LPCC)作为频域特征，将频域特征存储用于目标个体标记。

目标个体识别的具体步骤是：将单人场景下以及两人场景下采样频域特征混合，使用主成分提取法降维到两维空间中。计算聚类数目分别为1，2，3时所对应的AIC值：

AIC＝(2K-L)/n

其中，K是GMM模型参数数量，n是观测值数目即打呼帧数目，L是对数似然值，AIC值最小的数目是最佳聚类数目。根据最佳聚类数目输出GMM聚类结果，分析聚类结果以及单人场景下目标个体采样标记识别目标个体打呼音频。

图2a～2d展示了一次聚类中目标个体的区分方法，两人场景下不同的打呼情况分析如下：

1)若最佳聚类数目为1，则代表两人场景下仅有目标个体一人打呼，两人场景下识别出打呼帧均为目标个体打呼，如图2a所示。

2)若最佳聚类数目为2，则观察两人场景下采样是否在同一聚类中心，若在同一聚类中心，则代表两人场景下目标个体没有打呼，两人场景下识别出打呼帧均为干扰个体打呼，如图2b所示。

3)若最佳聚类数目为2，则观察两人场景下采样是否在同一聚类中心，若不在同一聚类中心，则代表两人场景下目标个体有打呼且两人打呼没有重叠部分，两人场景下，与单人场景采样所在聚类中心相近的聚类中心为目标个体打呼帧。如图2c所示，聚类中心有两个，黑色×为单人场景下采样，其他两种·为两人场景下采样，其中一种·的聚类中心与单人场景下采样的聚类中心相同，则该·以及×所在聚类中心为目标个体打呼帧。

4)若最佳聚类数目为3，则单人场景下采样所在聚类中心为两人场景下目标个体单独打呼帧，计算目标个体单独打呼聚类中心A与其余两类B、C的欧式距离：

其中d₁₂、d₁₃分别代表A与B、C之间的欧式距离，μ₁、μ₂、μ₃分别代表A、B、C中的样本值在特征空间里的坐标。距离较远的聚类中心为干扰个体单独打呼帧，距离较近的聚类中心为目标个体与干扰个体打呼重叠帧。

通过以上四种情况分析，可以得出目标个体在两人场景下的打呼音频部分。

需要注意的是，发明中所引用的如“上”、“下”、“左”、“右”、“前”、“后”等的用语，亦仅为便于叙述的明了，而非用以限定本发明可实施的范围，其相对关系的改变或调整，在无实质变更技术内容下，当亦视为本发明可实施的范畴。

以上仅是本发明的优选实施方式，本发明的保护范围并不仅局限于上述实施例，凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理前提下的若干改进和润饰，应视为本发明的保护范围。

Claims

1.一种两人场景下目标个体打呼区分方法，其特征在于，包括如下步骤：

S3目标个体识别：负责将两人场景下目标个体的打呼音频识别出来，通过将单人场景下以及两人场景下采样的频域特征混合，对混合频域特征进行降维并聚类，对单人场景下目标个体的聚类结果和两人场景下的聚类结果进行对比分析，将目标个体打呼音频识别出来；步骤S3的处理流程如下：

S3.2计算聚类数目分别为1，2，3时所对应的AIC值：

AIC＝(2K-2L)/n

S3.3根据最佳聚类数目用高斯混合模型进行聚类；

S3.4通过对聚类结果进行对比分析识别目标个体打呼音频。

2.如权利要求1所述的一种两人场景下目标个体打呼区分方法，其特征在于：步骤S1的处理流程如下：

S1.2将采集后的打呼音频划分帧；

S1.4将频域特征存储用于目标个体标记。

3.如权利要求1所述的一种两人场景下目标个体打呼区分方法，其特征在于：步骤S2的处理流程如下：

S2.2将采集后的打呼音频划分帧；

S2.4将频域特征存储用于提取目标个体打呼音频。

4.如权利要求1所述的一种两人场景下目标个体打呼区分方法，其特征在于：步骤S3.4的处理流程如下：

5.如权利要求1所述的一种两人场景下目标个体打呼区分方法，其特征在于：所述移动设备为麦克风。