CN110349587B - 一种两人场景下目标个体打呼区分方法 - Google Patents

一种两人场景下目标个体打呼区分方法 Download PDF

Info

Publication number
CN110349587B
CN110349587B CN201910628651.8A CN201910628651A CN110349587B CN 110349587 B CN110349587 B CN 110349587B CN 201910628651 A CN201910628651 A CN 201910628651A CN 110349587 B CN110349587 B CN 110349587B
Authority
CN
China
Prior art keywords
target individual
person scene
calling
scene
clustering
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910628651.8A
Other languages
English (en)
Other versions
CN110349587A (zh
Inventor
常相茂
彭程
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Aeronautics and Astronautics
Original Assignee
Nanjing University of Aeronautics and Astronautics
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Aeronautics and Astronautics filed Critical Nanjing University of Aeronautics and Astronautics
Priority to CN201910628651.8A priority Critical patent/CN110349587B/zh
Publication of CN110349587A publication Critical patent/CN110349587A/zh
Application granted granted Critical
Publication of CN110349587B publication Critical patent/CN110349587B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/06Decision making techniques; Pattern matching strategies
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/26Recognition of special voice characteristics, e.g. for use in lie detectors; Recognition of animal voices
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/66Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for extracting parameters related to health condition

Abstract

本发明属于机器学习以及睡眠监测领域,涉及一种两人场景下目标个体打呼区分方法,区分方法分三步:(1)目标采样:负责对目标个体在单人场景下的打呼音频进行采样并提取特征存储。(2)两人场景下采样:负责对两人场景下的打呼音频进行采样并提取特征存储。(3)目标个体识别:根据目标个体单人场景下打呼采样特征将两人场景下两个人的打呼区分开来并加以识别。本发明可以在保证高精确识别打呼的前提下区分不同个体,特别适用于两人场景下的睡眠监测系统。

Description

一种两人场景下目标个体打呼区分方法
技术领域
本发明属于睡眠监测技术领域,具体涉及一种两人场景下目标个体打呼区分方法,主要用于解决如何在两人场景下将监测目标个体和干扰个体区分的问题。
背景技术
由于传统的医用多导睡眠监测仪价格昂贵、使用成本高并且需要专业医护人员监护,基于移动设备的睡眠质量监测正越来越受到医学界的关注。打呼声音识别是睡眠监测的重要内容之一,传统的打呼识别方法包括使用麦克风采集音频进行识别或者使用传感器与身体接触达到识别呼吸的目的,通过音频的时域或者频域特征识别分析,这种方式需要用户在单人场景下睡眠或者佩戴一些穿戴式设备,但这显然不能满足两人睡眠场景以及反感穿戴式设备的用户群体需求。因此,需要设计一种基于非穿戴式移动设备的打呼识别方法,在保障不影响用户的睡眠质量以及体验的前提下,准确识别两人场景下目标用户的打呼音频。
发明内容
本发明针对现有技术中的不足,提供一种两人场景下目标个体打呼区分方法。
为实现上述目的,本发明采用以下技术方案:
一种两人场景下目标个体打呼区分方法,其特征在于,包括如下步骤:
S1单人场景下采样:负责单独采集目标个体打呼音频并提取相关特征,通过使用移动设备采集目标个体单独睡眠时的打呼音频,提取频域特征并存储用于目标个体识别;
S2两人场景下采样:负责采集目标个体和干扰个体两人打呼音频并提取相关特征,通过使用移动设备采集两人场景下睡眠时的打呼音频,提取频域特征并存储用于目标个体识别;
S3目标个体识别:负责将两人场景下目标个体的打呼音频识别出来,通过将单人场景下以及两人场景下采样的频域特征混合,对混合频域特征进行降维并聚类,对单人场景下目标个体的聚类结果和两人场景下的聚类结果进行对比分析,将目标个体打呼音频识别出来。
为优化上述技术方案,采取的具体措施还包括:
进一步地,步骤S1的处理流程如下:
S1.1对于目标个体单人睡眠下的情景,使用移动设备采集目标个体睡眠时的打呼音频;
S1.2将采集后的打呼音频划分帧;
S1.3对每个帧计算12维梅尔频率倒谱系数以及12维线性预测倒谱系数作为频域特征;
S1.4将频域特征存储用于目标个体标记。
进一步地,步骤S2的处理流程如下:
S2.1对于目标个体以及干扰个体两人睡眠下的情景,使用移动设备采集两人睡眠时的打呼音频;
S2.2将采集后的打呼音频划分帧;
S2.3对每个帧计算12维梅尔频率倒谱系数以及12维线性预测倒谱系数作为频域特征;
S2.4将频域特征存储用于提取目标个体打呼音频。
进一步地,步骤S3的处理流程如下:
S3.1将单人场景下以及两人场景下采样的频域特征混合,使用主成分提取法降维到两维空间中;
S3.2计算聚类数目分别为1,2,3时所对应的AIC值:
AIC=(2K-L)/n
其中,K是高斯混合模型参数的数量,L是对数似然值,n是打呼帧数目,AIC值最小的聚类数目是最佳聚类数目;
S3.3根据最佳聚类数目用高斯混合模型进行聚类;
S3.4通过对聚类结果进行对比分析识别目标个体打呼音频。
进一步地,步骤S3.4的处理流程如下:
1)若最佳聚类数目为1,则代表两人场景下仅有目标个体一人打呼,两人场景下识别出的打呼帧均为目标个体打呼;
2)若最佳聚类数目为2,则观察两人场景下采样是否在同一聚类中心,若在同一聚类中心,则代表两人场景下目标个体没有打呼,两人场景下识别出的打呼帧均为干扰个体打呼;
3)若最佳聚类数目为2,则观察两人场景下采样是否在同一聚类中心,若不在同一聚类中心,则代表两人场景下目标个体有打呼且两人打呼没有重叠部分,两人场景下,与单人场景采样所在聚类中心相同的聚类中心为目标个体打呼帧;
4)若最佳聚类数目为3,则代表两人场景下目标个体和干扰个体打呼有重叠部分,单人场景下采样所在聚类中心为两人场景下目标个体单独打呼帧,计算目标个体单独打呼聚类中心A与其余两个聚类中心B、C的欧式距离:
Figure GDA0003507338640000021
Figure GDA0003507338640000031
其中d12、d13分别代表A与B、C之间的欧式距离,μ1、μ2、μ3分别代表A、B、C中的样本值在特征空间里的坐标;距离A较远的聚类中心为干扰个体单独打呼帧,距离A较近的聚类中心为目标个体与干扰个体打呼重叠帧。
进一步地,所述移动设备为麦克风。
本发明的有益效果是:构建了一种两人场景下的打呼区分模型,用于识别目标个体的打呼音频。它将目标个体在单人场景下打呼的频域特征为标记,在两人场景下也能准确区分目标个体打呼音频,并且不需要传感器接触身体,解决了两人场景下目标个体以及干扰个体的区分问题,拓宽了睡眠监测的使用场景,对于识别出的打呼音频,可以用于目标个体的睡眠质量监测以及睡眠障碍诊断。
附图说明
图1为两人场景下的目标个体打呼区分方法的流程框架图。
图2a~2d为最佳聚类数目分别为1、2、3、4时一次聚类中目标个体的区分示意图,其中·代表两人场景下采样,×代表单人场景下采样。
具体实施方式
现在结合附图对本发明作进一步详细的说明。
如图1所示的目标个体打呼区分方法的主要思想为:分为三个步骤对两人场景下的目标个体打呼进行区分:单人场景采样、两人场景采样和目标个体区分。前两层负责为目标个体采样作为标记以及提供二人场景下的打呼特征,最后达到识别出两人场景下目标个体打呼的目的。
单人场景下采样主要负责采集目标个体打呼频域特征用做标记来用于两人场景下目标个体的识别,通过手机麦克风采集目标个体单独睡眠时打呼音频,提取这些音频的频域特征。
两人场景下采样负责提取两人打呼音频的频域特征,通过手机麦克风采集目标个体以及干扰个体睡眠时打呼音频,提取这些音频的频域特征。
目标个体识别负责提取出目标个体打呼音频部分,在对单人场景以及两人场景下采样频域特征混合降维后,计算AIC确定最佳聚类数目,根据高斯混合模型(GMM)聚类结果以及单人场景采样标记区分两人场景的不同打呼情况。
单人场景下采样的具体步骤是:使用移动设备放于目标个体1.5米范围内采集目标睡眠时音频,将采集后的打呼音频划分帧,计算打呼帧的12维梅尔频率倒谱系数(MFCC)以及12维线性预测倒谱系数(LPCC)作为频域特征,将频域特征存储用于目标个体标记。
两人场景下采样的具体步骤是:使用移动设备放于目标个体以及干扰个体1.5米范围内采集目标睡眠时音频,将采集后的打呼音频划分帧,计算打呼帧的12维梅尔频率倒谱系数(MFCC)以及12维线性预测倒谱系数(LPCC)作为频域特征,将频域特征存储用于目标个体标记。
目标个体识别的具体步骤是:将单人场景下以及两人场景下采样频域特征混合,使用主成分提取法降维到两维空间中。计算聚类数目分别为1,2,3时所对应的AIC值:
AIC=(2K-L)/n
其中,K是GMM模型参数数量,n是观测值数目即打呼帧数目,L是对数似然值,AIC值最小的数目是最佳聚类数目。根据最佳聚类数目输出GMM聚类结果,分析聚类结果以及单人场景下目标个体采样标记识别目标个体打呼音频。
图2a~2d展示了一次聚类中目标个体的区分方法,两人场景下不同的打呼情况分析如下:
1)若最佳聚类数目为1,则代表两人场景下仅有目标个体一人打呼,两人场景下识别出打呼帧均为目标个体打呼,如图2a所示。
2)若最佳聚类数目为2,则观察两人场景下采样是否在同一聚类中心,若在同一聚类中心,则代表两人场景下目标个体没有打呼,两人场景下识别出打呼帧均为干扰个体打呼,如图2b所示。
3)若最佳聚类数目为2,则观察两人场景下采样是否在同一聚类中心,若不在同一聚类中心,则代表两人场景下目标个体有打呼且两人打呼没有重叠部分,两人场景下,与单人场景采样所在聚类中心相近的聚类中心为目标个体打呼帧。如图2c所示,聚类中心有两个,黑色×为单人场景下采样,其他两种·为两人场景下采样,其中一种·的聚类中心与单人场景下采样的聚类中心相同,则该·以及×所在聚类中心为目标个体打呼帧。
4)若最佳聚类数目为3,则单人场景下采样所在聚类中心为两人场景下目标个体单独打呼帧,计算目标个体单独打呼聚类中心A与其余两类B、C的欧式距离:
Figure GDA0003507338640000041
Figure GDA0003507338640000042
其中d12、d13分别代表A与B、C之间的欧式距离,μ1、μ2、μ3分别代表A、B、C中的样本值在特征空间里的坐标。距离较远的聚类中心为干扰个体单独打呼帧,距离较近的聚类中心为目标个体与干扰个体打呼重叠帧。
通过以上四种情况分析,可以得出目标个体在两人场景下的打呼音频部分。
需要注意的是,发明中所引用的如“上”、“下”、“左”、“右”、“前”、“后”等的用语,亦仅为便于叙述的明了,而非用以限定本发明可实施的范围,其相对关系的改变或调整,在无实质变更技术内容下,当亦视为本发明可实施的范畴。
以上仅是本发明的优选实施方式,本发明的保护范围并不仅局限于上述实施例,凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理前提下的若干改进和润饰,应视为本发明的保护范围。

Claims (5)

1.一种两人场景下目标个体打呼区分方法,其特征在于,包括如下步骤:
S1单人场景下采样:负责单独采集目标个体打呼音频并提取相关特征,通过使用移动设备采集目标个体单独睡眠时的打呼音频,提取频域特征并存储用于目标个体识别;
S2两人场景下采样:负责采集目标个体和干扰个体两人打呼音频并提取相关特征,通过使用移动设备采集两人场景下睡眠时的打呼音频,提取频域特征并存储用于目标个体识别;
S3目标个体识别:负责将两人场景下目标个体的打呼音频识别出来,通过将单人场景下以及两人场景下采样的频域特征混合,对混合频域特征进行降维并聚类,对单人场景下目标个体的聚类结果和两人场景下的聚类结果进行对比分析,将目标个体打呼音频识别出来;步骤S3的处理流程如下:
S3.1将单人场景下以及两人场景下采样的频域特征混合,使用主成分提取法降维到两维空间中;
S3.2计算聚类数目分别为1,2,3时所对应的AIC值:
AIC=(2K-2L)/n
其中,K是高斯混合模型参数的数量,L是对数似然值,n是打呼帧数目,AIC值最小的聚类数目是最佳聚类数目;
S3.3根据最佳聚类数目用高斯混合模型进行聚类;
S3.4通过对聚类结果进行对比分析识别目标个体打呼音频。
2.如权利要求1所述的一种两人场景下目标个体打呼区分方法,其特征在于:步骤S1的处理流程如下:
S1.1对于目标个体单人睡眠下的情景,使用移动设备采集目标个体睡眠时的打呼音频;
S1.2将采集后的打呼音频划分帧;
S1.3对每个帧计算12维梅尔频率倒谱系数以及12维线性预测倒谱系数作为频域特征;
S1.4将频域特征存储用于目标个体标记。
3.如权利要求1所述的一种两人场景下目标个体打呼区分方法,其特征在于:步骤S2的处理流程如下:
S2.1对于目标个体以及干扰个体两人睡眠下的情景,使用移动设备采集两人睡眠时的打呼音频;
S2.2将采集后的打呼音频划分帧;
S2.3对每个帧计算12维梅尔频率倒谱系数以及12维线性预测倒谱系数作为频域特征;
S2.4将频域特征存储用于提取目标个体打呼音频。
4.如权利要求1所述的一种两人场景下目标个体打呼区分方法,其特征在于:步骤S3.4的处理流程如下:
1)若最佳聚类数目为1,则代表两人场景下仅有目标个体一人打呼,两人场景下识别出的打呼帧均为目标个体打呼;
2)若最佳聚类数目为2,则观察两人场景下采样是否在同一聚类中心,若在同一聚类中心,则代表两人场景下目标个体没有打呼,两人场景下识别出的打呼帧均为干扰个体打呼;
3)若最佳聚类数目为2,则观察两人场景下采样是否在同一聚类中心,若不在同一聚类中心,则代表两人场景下目标个体有打呼且两人打呼没有重叠部分,两人场景下,与单人场景采样所在聚类中心相同的聚类中心为目标个体打呼帧;
4)若最佳聚类数目为3,则代表两人场景下目标个体和干扰个体打呼有重叠部分,单人场景下采样所在聚类中心为两人场景下目标个体单独打呼帧,计算目标个体单独打呼聚类中心A与其余两个聚类中心B、C的欧式距离:
Figure FDA0003179065560000021
Figure FDA0003179065560000022
其中d12、d13分别代表A与B、C之间的欧式距离,μ1、μ2、μ3分别代表A、B、C中的样本值在特征空间里的坐标;距离A较远的聚类中心为干扰个体单独打呼帧,距离A较近的聚类中心为目标个体与干扰个体打呼重叠帧。
5.如权利要求1所述的一种两人场景下目标个体打呼区分方法,其特征在于:所述移动设备为麦克风。
CN201910628651.8A 2019-07-12 2019-07-12 一种两人场景下目标个体打呼区分方法 Active CN110349587B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910628651.8A CN110349587B (zh) 2019-07-12 2019-07-12 一种两人场景下目标个体打呼区分方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910628651.8A CN110349587B (zh) 2019-07-12 2019-07-12 一种两人场景下目标个体打呼区分方法

Publications (2)

Publication Number Publication Date
CN110349587A CN110349587A (zh) 2019-10-18
CN110349587B true CN110349587B (zh) 2022-03-25

Family

ID=68175971

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910628651.8A Active CN110349587B (zh) 2019-07-12 2019-07-12 一种两人场景下目标个体打呼区分方法

Country Status (1)

Country Link
CN (1) CN110349587B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP4296868A1 (en) 2022-06-22 2023-12-27 Sleep Cycle AB Method for snore attribution

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20100006935U (ko) * 2008-12-29 2010-07-08 김정훈 코골기 소음 상쇄장치
CN104688229A (zh) * 2015-01-28 2015-06-10 中国人民解放军理工大学 一种基于鼾声信号的睡眠呼吸监测方法
CN108474841A (zh) * 2015-04-20 2018-08-31 瑞思迈传感器技术有限公司 由特征信号对人类的检测和识别

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10846599B2 (en) * 2013-10-22 2020-11-24 Lumin, LLC Collaboration of audio sensors for geo-location and continuous tracking of health conditions for users in a device-independent artificial intelligence (AI) environment

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20100006935U (ko) * 2008-12-29 2010-07-08 김정훈 코골기 소음 상쇄장치
CN104688229A (zh) * 2015-01-28 2015-06-10 中国人民解放军理工大学 一种基于鼾声信号的睡眠呼吸监测方法
CN108474841A (zh) * 2015-04-20 2018-08-31 瑞思迈传感器技术有限公司 由特征信号对人类的检测和识别

Also Published As

Publication number Publication date
CN110349587A (zh) 2019-10-18

Similar Documents

Publication Publication Date Title
CN108648748B (zh) 医院噪声环境下的声学事件检测方法
CN108174046A (zh) 一种用于呼叫中心的人员监控系统及方法
US20190238956A1 (en) Call classification through analysis of dtmf events
CN104103272B (zh) 语音识别方法、装置和蓝牙耳机
CN110222719B (zh) 一种基于多帧音视频融合网络的人物识别方法及系统
CN106255116A (zh) 一种骚扰号码的识别方法
CN106504744A (zh) 一种语音处理方法及装置
EP3772016B1 (en) Method and apparatus for entering human face information into database
CN104781862B (zh) 实时交通检测
WO2016115835A1 (zh) 人体特征数据的处理方法及装置
CN109256139A (zh) 一种基于Triplet-Loss的说话人识别方法
CN104410973B (zh) 一种播放录音的诈骗电话识别方法和系统
WO2016126147A1 (ko) 코골이 검출 장치 및 방법
CN110349587B (zh) 一种两人场景下目标个体打呼区分方法
CN108175436A (zh) 一种肠鸣音智能自动识别方法
CN114155879B (zh) 一种利用时频融合补偿异常感知及稳定性的异音检测方法
CN108446690A (zh) 一种基于多视角动态特征的人脸活体检测方法
CN112395461A (zh) 一种基于大数据分析的商务会议智能管理系统
CN110648667A (zh) 多人场景人声匹配方法
Nemati et al. Coughbuddy: Multi-modal cough event detection using earbuds platform
CN109829691B (zh) 基于位置和深度学习多重生物特征的c/s打卡方法和装置
CN103927518B (zh) 一种用于人脸分析系统的人脸特征提取方法
CN105405447B (zh) 一种送话呼吸噪声屏蔽方法
CN112686214A (zh) 一种基于Retinaface算法的人脸口罩检测系统和方法
CN112566017A (zh) 基于智能耳机的乘坐地铁提醒方法、设备及可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant