CN110223715A - 一种基于声音事件检测的独居老人家中活动估计方法 - Google Patents
一种基于声音事件检测的独居老人家中活动估计方法 Download PDFInfo
- Publication number
- CN110223715A CN110223715A CN201910374190.6A CN201910374190A CN110223715A CN 110223715 A CN110223715 A CN 110223715A CN 201910374190 A CN201910374190 A CN 201910374190A CN 110223715 A CN110223715 A CN 110223715A
- Authority
- CN
- China
- Prior art keywords
- layer
- frequency
- follows
- audio data
- meier
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000000694 effects Effects 0.000 title claims abstract description 40
- 238000000034 method Methods 0.000 title claims abstract description 35
- 238000001514 detection method Methods 0.000 title claims abstract description 16
- 238000001228 spectrum Methods 0.000 claims abstract description 59
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 57
- 239000000284 extract Substances 0.000 claims abstract description 9
- 230000008569 process Effects 0.000 claims abstract description 9
- 238000009432 framing Methods 0.000 claims abstract description 7
- 238000012549 training Methods 0.000 claims abstract description 4
- 230000006870 function Effects 0.000 claims description 55
- 108091006146 Channels Proteins 0.000 claims description 35
- 239000011248 coating agent Substances 0.000 claims description 30
- 238000000576 coating method Methods 0.000 claims description 30
- 238000010606 normalization Methods 0.000 claims description 26
- 238000006243 chemical reaction Methods 0.000 claims description 21
- 238000005457 optimization Methods 0.000 claims description 13
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 claims description 10
- 239000000203 mixture Substances 0.000 claims description 9
- 230000003595 spectral effect Effects 0.000 claims description 9
- 238000001914 filtration Methods 0.000 claims description 8
- 101710148027 Ribulose bisphosphate carboxylase/oxygenase activase 1, chloroplastic Proteins 0.000 claims description 6
- 101710201629 Ribulose bisphosphate carboxylase/oxygenase activase 2, chloroplastic Proteins 0.000 claims description 6
- 239000011159 matrix material Substances 0.000 claims description 6
- 230000017105 transposition Effects 0.000 claims description 6
- 238000000605 extraction Methods 0.000 claims description 5
- 230000005540 biological transmission Effects 0.000 claims description 3
- 238000000354 decomposition reaction Methods 0.000 claims description 3
- 238000013139 quantization Methods 0.000 claims description 3
- 238000005070 sampling Methods 0.000 claims description 3
- 238000013480 data collection Methods 0.000 claims description 2
- 238000013501 data transformation Methods 0.000 claims 1
- 230000009466 transformation Effects 0.000 description 6
- 238000011176 pooling Methods 0.000 description 4
- 206010011469 Crying Diseases 0.000 description 2
- 241000638935 Senecio crassissimus Species 0.000 description 2
- 230000004913 activation Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 239000000428 dust Substances 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 208000012661 Dyskinesia Diseases 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000002035 prolonged effect Effects 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 230000002463 transducing effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G08—SIGNALLING
- G08B—SIGNALLING OR CALLING SYSTEMS; ORDER TELEGRAPHS; ALARM SYSTEMS
- G08B21/00—Alarms responsive to a single specified undesired or abnormal condition and not otherwise provided for
- G08B21/02—Alarms for ensuring the safety of persons
- G08B21/04—Alarms for ensuring the safety of persons responsive to non-activity, e.g. of elderly persons
- G08B21/0438—Sensor means for detecting
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/66—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for extracting parameters related to health condition
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Signal Processing (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Multimedia (AREA)
- Evolutionary Biology (AREA)
- Acoustics & Sound (AREA)
- Human Computer Interaction (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Biophysics (AREA)
- Gerontology & Geriatric Medicine (AREA)
- Business, Economics & Management (AREA)
- Emergency Management (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- Epidemiology (AREA)
- Public Health (AREA)
- Complex Calculations (AREA)
Abstract
本发明公开了一种基于声音事件检测的独居老人家中活动估计方法,包括下列步骤:首先,在室内放置一个拾音器阵列进行多通道音频数据的采集并对音频数据进行预处理,包括分帧与加窗;接着,从每个通道的音频数据提取对数梅尔频谱特征,从所有通道的音频数据提取DOA空间谱特征,并将对数梅尔频谱特征和DOA空间谱特征进行拼接;然后,将上述拼接的特征输入卷积神经网络进行特征变换;最后,将变换后的特征输入到卷积神经网络分类器,估计活动类型。本发明从多通道音频数据提取谱特征及其变换特征,可以增加训练数据的多样性,有效提高卷积神经网络分类器的泛化能力,在估计老人家中活动时,可获得更高准确率。
Description
技术领域
本发明涉及音频信号处理和深度学习技术,具体涉及一种基于声音事件检测的独居老人家中活动估计方法。
背景技术
随着医疗条件的不断改善,人类的平均寿命大大延长,且全世界的生育率在不断下降,老年人在当今社会所占的比例将越来越大。目前大部分老人都不与子女共同居住,独居老人越来越多。因此,对独居老人的监护需求变得十分迫切。
目前,对老人的家中活动估计方法主要包括:基于图像的视频分析方法和基于穿戴设备的传感信号分析方法。这些方法存在以下不足:第一,摄像头存在死角,不能监测老人活动的所有范围;第二,摄像头一般不会监测卫生间、卧室等涉及隐私的位置,而这些地方是老人经常出现摔倒等异常活动的场所;第三,老人可能不喜欢或经常忘记佩戴传感器等穿戴设备,可穿戴设备在一定程度上会影响其日常活动。
发明内容
为了弥补上述方法的不足,本发明公开了一种基于声音事件检测的独居老人家中活动估计方法。本发明的方法采用拾音器阵列采集多通道数据,即采集独居老人家中的多类声音事件(例如摔倒声、自来水声、吸尘器声、碗筷声、谈话声、电视播放声、大声呼救声、痛苦呻吟声等),再从声音事件音频数据中提取频谱特征及空间谱特征并对上述特征进行拼接与变换,变换后的特征输入卷积神经网络分类器进行声音事件类型的判决,从而估计独居老人家中活动类型(例如摔倒、洗碗、看电视、呼救、正常谈话等)。本发明的方法具有检测范围广、覆盖率高、不需穿戴任何设备、不存在隐私泄露等优点,从多通道音频数据提取特征并进行深层变换与融合,分类器泛化能力强,估计准确率高。
本发明的技术目的可通过以下技术方案实现:
一种基于声音事件检测的独居老人家中活动估计方法,所述的活动估计方法包括以下步骤:
S1、多通道音频数据采集:在房屋室内放置拾音器阵列,采集多通道音频数据,包括多类声音事件;
S2、音频数据预处理:对采集到的各通道音频数据进行分帧和加窗处理;
S3、频谱特征提取:从预处理后的各通道音频数据提取对数梅尔频谱特征(LogMel Spectrum);
S4、空间谱特征提取:从预处理后的所有通道音频数据提取DOA(Direction OfArrival)空间谱特征;
S5、特征拼接:将上述对数梅尔频谱特征和DOA空间谱特征拼接成一个特征矩阵;
S6、特征变换:将上述拼接后的特征输入卷积神经网络,得到变换后的特征;
S7、老人家中活动估计:将上述变换后的特征输入卷积神经网络分类器,辨识音频数据样本中的声音事件,从而估计该样本所对应的老人家中活动类型。
进一步地,所述的步骤S1、多通道音频数据采集过程如下:
S1.1、拾音器放置:将拾音器阵列放置在房屋室内的中心位置,设拾音器阵列包含C个拾音器,按顺时针顺序将拾音器从0到C-1进行编号并将第0号拾音器作为基准拾音器,则第t号拾音器与基准拾音器之间的角度为:
S1.2、音频数据采集的参数设置:将音频数据的采样频率设为44.1KHz,量化位数设为16位。
进一步地,所述的步骤S2、音频数据预处理如下:
S2.1、分帧:将每个通道的音频数据切分成固定长度的音频帧,对于某通道音频数据x(n),0≤n≤L-1,其中L为音频数据的采样点总数,则第i帧音频xi(n)为:
xi(n)=x(i×S:i×S+N-1),0≤i≤M-1,0≤n≤N-1,
其中,M为总帧数,N为帧长,S为帧移,ceil(﹒)为向上取整函数;
S2.2、加窗:将每帧音频与汉明窗(Hamming Window)相乘实现加窗操作,汉明窗函数定义为:
其中N为帧长。
进一步地,所述的步骤S3、频谱特征提取如下:
S3.1、将预处理后的各帧音频分别进行离散傅立叶变换得到其线性频谱,离散傅立叶变换定义为:
其中,Xi(k)为第i帧音频的线性频谱,M为总帧数,N为帧长;
S3.2、构建梅尔三角滤波器组,过程如下:
S3.2.1、滤波的最低、最高频率分别为FL、FH,根据梅尔频率与线性频率的转换关系式可得在梅尔频率尺度下的最低频率ML和最高频率MH,该转换关系式为:
其中,Mel(f)为转换后的梅尔频率,f为线性频率;
S3.2.2、梅尔三角滤波器组由一定数量的梅尔滤波器组成,滤波器个数为E,每个梅尔滤波器的幅度特性为三角形,下限频率为fl(m)、中心频率为fc(m)、上限频率为fh(m),其中0≤m≤E-1,将区间[ML,MH]等分为E+2个频段,得到序列m(n),0≤n≤E+1,再通过线性频率与梅尔频率的转换关系式,得到序列h(n),0≤n≤E+1,该转换关系式为:
其中,T(mel)为转换后的线性频率,mel为梅尔频率;
S3.2.3、h(n)中每相邻的三个点为一个梅尔滤波器的下限频率、中心频率和上限频率,第m个梅尔滤波器的三个频率与h(n)的对应关系为:
再将上述频率用以下公式转换到离散索引坐标上,得到fl(m)、fc(m)、fh(m):
其中,d(f)为转换后的离散结果,f为输入频率,N为帧长,fs为采样频率,floor(﹒)为向下取整函数,则第m个梅尔滤波器的传递函数为:
其中k为线性频率;
S3.3、用构建好的梅尔三角滤波器组对线性频谱Xi(k)进行滤波,第m个梅尔滤波器与第i帧线性频谱的滤波表达式为:
S3.4、对滤波后的结果取对数,得到对数梅尔频谱特征,第i帧音频的对数梅尔频谱特征为:
FMi(m)=lnFi(m),0≤m≤E-1,0≤i≤M-1。
进一步地,所述的步骤S4、空间谱特征提取如下:
S4.1、第t个通道的每帧音频记为un(t),0≤t≤C-1,0≤n≤N-1,定义第n个采样点每个通道音频数据组成的向量为:
则每帧音频的协方差函数定义为:
其中表示Un的共轭转置;
S4.2、对进行特征值分解,可解得特征值对角矩阵:
Λ=diag(λ0,λ1,……,λC-1),
和特征向量矩阵:
V=[v0,v1,……,vC-1],
其中v0,v1,……,vC-1按从大到小的顺序排列;
S4.3、对特征值进行统计,将特征值λ0,λ1,……,λC-1分成两组,一组为D个大数值,另一组为C-D=K个小数值;
S4.4、取V的后K列构成噪声子空间VK:
VK=[vD,vD+1,……,vC-1];
S4.5、计算空间谱,在区间[-π,π]按的分辨率采样,得到序列θ(s),0≤s≤(E×C-1),定义方向向量:
对第s个角度θ(s)的DOA空间谱估计值为:
其中aH[θ(s)]表示a[θ(s)]的共轭转置;
S4.6、对每帧中的所有采样点重复以上操作,每一帧可得长度为(E×C)的DOA空间谱估计序列MUS(d),0≤d≤(E×C-1);
S4.7、对所有帧重复以上操作,将每一帧得到的DOA空间谱估计序列MUS(d),0≤d≤(E×C-1)作为列向量MUSi,0≤i≤M-1,按时间顺序组成(E×C)行M列的特征矩阵。
进一步地,所述的步骤S5、特征拼接如下:
S5.1、将每个通道的对数梅尔频谱特征拼接起来,构成一个(E×C)行M列的特征矩阵,其中M为各通道音频的帧数,E为梅尔滤波器个数,C为通道个数;
S5.2、将上述拼接后的对数梅尔频谱特征与DOA空间谱特征拼接起来,构成一个(E×C)行2M列的特征矩阵。
进一步地,所述的步骤S6、特征变换如下:
S6.1、构建用于特征变换的卷积神经网络CNNF,该卷积神经网络CNNF包括依次连接的层,结构为按以下序号顺序连接:
①批量标准化层(Batch Normalization)BN-1,
②ReLU函数激活层(ReLU Activation)RA-1,
③卷积层Conv-1,
④批量标准化层BN-2,
⑤ReLU函数激活层RA-2,
⑥卷积层Conv-2,
⑦最大池化层(Max Pooling)MP,
其中,第②、⑤层用于输入数据,第①、④层用于防止过拟合,第③、⑥层对数据进行变换,第⑦层对数据进行降采样;
S6.2、对构建好的用于特征变换的卷积神经网络CNNF进行训练:首先在CNNF的基础上再添加两层:
⑧1024单元的全连接层FC,
⑨Softmax函数激活层SF,
然后对所有层的参数进行随机初始化;接着使用Adam优化算法对网络进行训练,迭代次数为30次,学习率为1×10-4,目标损失函数为交叉熵函数(Cross Entropy):
其中K为估计的老人家中活动类型个数,yi为第i类活动标签,pi为网络对第i类活动的识别概率,Adam优化算法的具体步骤详见参考文献:Diederik Kingma,JimmyBa.Adam:A Method for Stochastic Optimization.In The 3rd InternationalConference for Learning Representations(ICLR),2015;
S6.3、将拼接好的特征矩阵输入已训练好的CNNF,得到变换后的特征。
进一步地,所述的步骤S7、老人家中活动估计如下:
S7.1、构建卷积神经网络分类器CNNC;
S7.2、对构建好的卷积神经网络分类器CNNC进行训练,使用Adam优化算法对整个网络进行训练优化以获得训练好的网络模型,目标损失函数同样为交叉熵函数;
S7.3、将变换后的特征输入已训练好的CNNC进行判决,估计老人的活动类型。
进一步地,所述的步骤S7.1如下:
S7.1.1、定义特定卷积层ConvSE(a,b,o,p,q)为:由三条路径的卷积层组成,第一条路径是卷积核大小a×a、核数量o的卷积层Conva_o,第二条路径是卷积核大小a×a、核数量p的卷积层Conva_p连接上一层卷积核大小b×b、核数量q的卷积层Convb_q,第三条路径是卷积核大小a×a、核数量q的卷积层Conva_q连接上一层卷积核大小b×b、核数量p的卷积层Convb_p再连接上一层卷积核大小b×b、核数量o的卷积层Convb_o,最后将三条路径的卷积结果按通道顺序进行拼接;
S7.1.2、通过多层多路径卷积层构建卷积神经网络分类器CNNC,逐层通道递增,能够逐渐学习特征的深层表达,该分类器包括依次连接的层,结构为按以下序号顺序连接:
①批量标准化层BN-1;
②ReLU函数激活层RA-1;
③特定卷积层ConvSE-1;
④批量标准化层BN-2;
⑤ReLU函数激活层RA-2;
⑥最大池化层MP-1;
⑦特定卷积层ConvSE-2;
⑧批量标准化层BN-3;
⑨ReLU函数激活层RA-3;
⑩最大池化层MP-2;
特定卷积层ConvSE-3;
批量标准化层BN-4;
ReLU函数激活层RA-4;
最大池化层MP-3;
特定卷积层ConvSE-4;
批量标准化层BN-5;
ReLU函数激活层RA-5;
特定卷积层ConvSE-5;
全局平均池化层(Global Average Pooling)GAP;
1024单元的全连接层FC-1;
批量标准化层BN-6;
ReLU函数激活层RA-6;
K单元的全连接层FC-2,其中K为估计的老人家中活动类型个数;
Softmax函数激活层SF。
与现有的技术方法相比,本发明具有以下优点:
1、在室内的中心位置布置拾音器阵列可以完全覆盖老人活动范围。
2、拾音器的覆盖范围广且不涉及隐私问题。
3、不需要穿戴任何可穿戴设备,不影响老人的正常生活,具有便利性。
4、具有鲁棒性强、识别准确率高、泛化性能好等优点。
附图说明
为更清楚地说明本发明实施例的具体技术方案,下面对该实施例所使用的附图进行简单地介绍,显而易见,以下附图展示的仅是本发明所有实施例的一部分,而非所有实施例,因此本发明的保护范围不限于此。本领域普通技术人员在没有做出创造性劳动前提下还可以根据这些附图获得其他相关的附图。
图1为本发明实施例的声音事件检测方法的概要流程图;
图2为本发明实施例的用于特征变换处理的卷积神经网络的结构示意图;
图3为本发明实施例的卷积神经网络分类器结构中的特定卷积层的结构示意说明图;
图4为本发明实施例的卷积神经网络分类器的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合实施例和附图,对本发明中的技术实现方案进行更加清楚、完整地解释,需要注意的是,在此所描述的实施例仅是本发明的所有实施例的一部分,而非所有实施例,因此本发明的保护范围不限于此。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例
如附图1所示,本发明的实施例的具体实现步骤为:
S1、多通道音频数据采集:在独居老人的房屋室内放置拾音器阵列,采集多通道音频数据,包括多类声音事件,例如摔倒声、自来水声、电视播放声、吸尘器声、碗筷声,在本实施例中,该步骤具体包括以下步骤:
S1.1、拾音器放置:将拾音器阵列放置在独居老人的房屋室内的中心位置,设拾音器阵列包含C个拾音器,按顺时针顺序将拾音器从0到C-1进行编号并将第0号拾音器作为基准拾音器,则第t号拾音器与基准拾音器之间的角度为:
本实施例中C=8;
S1.2、音频数据采集的参数设置:音频数据的采样频率为44.1KHz,量化位数为16位。
S2、音频数据预处理:对采集到的各通道音频数据进行分帧和加窗处理,在本实施例中,该步骤具体包括以下步骤:
S2.1、分帧:将每个通道的音频数据切分成固定长度的音频帧。对于某通道音频数据x(n),0≤n≤L-1,其中L为音频数据的采样点总数,则第i帧音频xi(n)为:
xi(n)=x(i×S:i×S+N-1),0≤i≤M-1,0≤n≤N-1,
其中,M为总帧数,N为帧长,S为帧移,ceil(﹒)为向上取整函数,本实施例中取L=441344,N=2048,S=1024,M=430;
S2.2、加窗:将每帧音频与汉明窗(Hamming Window)相乘实现加窗操作,汉明窗函数定义为:
其中N为帧长,本实施例中取N=2048。
S3、频谱特征提取:从预处理后的各通道音频数据提取对数梅尔频谱特征(LogMel Spectrum),在本实施例中,该步骤具体包括以下步骤:
S3.1、将预处理后的各帧音频分别进行离散傅立叶变换得到其线性频谱,离散傅立叶变换定义为:
其中,Xi(k)为第i帧音频的线性频谱,M为总帧数,N为帧长,本实施例中取N=2048,M=430;
S3.2、构建梅尔三角滤波器组,过程如下:
S3.2.1、滤波的最低、最高频率分别为FL、FH,根据梅尔频率与线性频率的转换关系式可得在梅尔频率尺度下的最低频率ML和最高频率MH,该转换关系式为:
其中,Mel(f)为转换后的梅尔频率,f为线性频率,本实施例中取FL=0,最高频率FH取22050;
S3.2.2、梅尔三角滤波器组由一定数量的梅尔滤波器组成,滤波器个数为E,每个梅尔滤波器的幅度特性为三角形,下限频率为fl(m)、中心频率为fc(m)、上限频率为fh(m),其中0≤m≤E-1,将区间[ML,MH]等分为E+2个频段,得到序列m(n),0≤n≤E+1,再通过线性频率与梅尔频率的转换关系式,得到序列h(n),0≤n≤E+1,该转换关系式为:
其中,T(mel)为转换后的线性频率,mel为梅尔频率,本实施例中取E=128;
S3.2.3、h(n)中每相邻的三个点为一个梅尔滤波器的下限频率、中心频率和上限频率,第m个梅尔滤波器的三个频率与h(n)的对应关系为:
再将上述频率用以下公式转换到离散索引坐标上,得到fl(m)、fc(m)、fh(m):
其中,d(f)为转换后的离散结果,f为输入频率,N为帧长,fs为采样频率,floor(﹒)为向下取整函数,则第m个梅尔滤波器的传递函数为:
其中k为线性频率,本实施例中取N=2048,fs=44100Hz;
S3.3、用构建好的梅尔三角滤波器组对线性频谱Xi(k)进行滤波,第m个梅尔滤波器与第i帧线性频谱的滤波表达式为:
S3.4、对滤波后的结果取对数,得到对数梅尔频谱特征,第i帧音频的对数梅尔频谱特征为:
FMi(m)=lnFi(m),0≤m≤E-1,0≤i≤M-1。
S4、空间谱特征提取:从预处理后的所有通道音频数据提取DOA(Direction OfArrival)空间谱特征,在本实施例中,该步骤具体包括以下步骤:
S4.1、第t个通道的每帧音频记为un(t),0≤t≤C-1,0≤n≤N-1,定义第n个采样点每个通道音频数据组成的向量为:
则每帧音频的协方差函数定义为:
其中表示Un的共轭转置,本实施例中取C=8,N=2048;
S4.2、对进行特征值分解,可解得特征值对角矩阵:
Λ=diag(λ0,λ1,……,λC-1),
和特征向量矩阵:
V=[v0,v1,……,vC-1],
其中v0,v1,……,vC-1按从大到小的顺序排列;
S4.3、对特征值进行统计,将特征值λ0,λ1,……,λC-1分成两组,一组为D个大数值,另一组为C-D=K个小数值,本实施例中C=8;
S4.4、取V的后K列构成噪声子空间VK:
VK=[vD,vD+1,……,vC-1];
S4.5、计算空间谱,在区间[-π,π]按的分辨率采样,得到序列θ(s),0≤s≤(E×C-1),定义方向向量:
对第s个角度θ(s)的DOA空间谱估计值为:
其中aH[θ(s)]表示a[θ(s)]的共轭转置,本实施例中取C=8,E=128;
S4.6、对每帧中的所有采样点重复以上操作,每一帧可得长度为(E×C)的DOA空间谱估计序列MUS(d),0≤d≤(E×C-1),本实施例中C=8,E=128;
S4.7、对所有帧重复以上操作,将每一帧得到的DOA空间谱估计序列MUS(d),0≤d≤(E×C-1)作为列向量MUSi,0≤i≤M-1,按时间顺序组成(E×C)行M列的特征矩阵,本实施例中为1024行430列。
S5、特征拼接:将上述对数梅尔频谱特征和DOA空间谱特征拼接成一个特征矩阵,在本实施例中,该步骤具体包括以下步骤:
S5.1、将每个通道的对数梅尔频谱特征拼接起来,构成一个(E×C)行M列的特征矩阵,其中M为各通道音频的帧数,E为梅尔滤波器个数,C为通道个数,本实施例中取C=8,E=128,M=430;
S5.2、将上述拼接后的对数梅尔频谱特征与DOA空间谱特征拼接起来,构成一个(E×C)行2M列的特征矩阵,本实施例中为1024行860列。
S6、特征变换:将上述拼接后的特征输入卷积神经网络,得到变换后的特征,在本实施例中,该步骤具体包括以下步骤:
S6.1、构建用于特征变换的卷积神经网络CNNF,如附图2所示,该卷积神经网络CNNF包括依次连接的层,结构为按以下序号顺序连接:
①批量标准化层(Batch Normalization)BN-1,
②ReLU函数激活层(ReLU Activation)RA-1,
③卷积层Conv-1,本实施例中卷积核大小3×3,核数量32,步长1×1,
④批量标准化层BN-2,
⑤ReLU函数激活层RA-2,
⑥卷积层Conv-2,本实施例中卷积核大小3×3,核数量64,步长1×1,
⑦最大池化层(Max Pooling)MP,本实施例中池化窗口大小2×2,步长2×2,
其中,第②、⑤层用于输入数据,第①、④层用于防止过拟合,第③、⑥层对数据进行变换,第⑦层对数据进行降采样;
S6.2、对构建好的用于特征变换的卷积神经网络CNNF进行训练:首先在CNNF的基础上再添加两层:
⑧1024单元的全连接层FC,
⑨Softmax函数激活层SF;
然后对所有层的参数进行随机初始化;接着使用Adam优化算法对网络进行训练,迭代次数为30次,学习率为1×10-4,本实施例中训练参数分别为α=0.001,β1=0.9,β2=0.999,∈=10-8,目标损失函数为交叉熵函数(Cross Entropy):
其中K为估计的老人家中活动类型个数,yi为第i类活动标签,pi为网络对第i类活动的识别概率,Adam优化算法的具体步骤详见参考文献:Diederik Kingma,JimmyBa.Adam:A Method for Stochastic Optimization.In The 3rd InternationalConference for Learning Representations(ICLR),2015;
S6.3、将拼接好的特征矩阵输入已训练好的CNNF,得到变换后的特征。
S7、老人家中活动估计:将上述变换后的特征输入卷积神经网络分类器,辨识音频数据样本中的声音事件,从而估计该样本所对应的老人家中活动类型,在本实施例中,该步骤具体包括以下步骤:
S7.1、构建卷积神经网络分类器CNNC,更进一步地,本步骤具体包括以下步骤:
S7.1.1、在本实施例中,定义特定卷积层ConvSE(o,p,q)为:如附图3所示,由三条路径的卷积层组成,第一条路径是卷积核大小1×1、核数量o的卷积层Conv1_o,第二条路径是卷积核大小1×1、核数量p的卷积层Conv1_p连接上一层卷积核大小3×3、核数量q的卷积层Conv3_q,第三条路径是卷积核大小1×1、核数量q的卷积层Conv1_q连接上一层卷积核大小3×3、核数量p的卷积层Conv3_p再连接上一层卷积核大小3×3、核数量o的卷积层Conv3_o,最后将三条路径的卷积结果按通道顺序进行拼接,在本实施例中每个卷积层的步长均取为1×1;
S7.1.2、所构建的卷积神经网络分类器CNNC主要由多层多路径卷积层构成,逐层通道递增,能够逐渐学习特征的深层表达,在本实施例中,如附图4所示,该分类器包括依次连接的层,结构为按以下序号顺序连接:
①批量标准化层BN-1;
②ReLU函数激活层RA-1;
③特定卷积层Conv(64,96,128);
④批量标准化层BN-2;
⑤ReLU函数激活层RA-2;
⑥池化窗2×2且步长2×2的最大池化层MP-1;
⑦特定卷积层Conv(80,120,160);
⑧批量标准化层BN-3;
⑨ReLU函数激活层RA-3;
⑩池化窗2×2且步长2×2的最大池化层MP-2;
特定卷积层Conv(96,144,192);
批量标准化层BN-4;
ReLU函数激活层RA-4;
池化窗2×2且步长2×2的最大池化层MP-3;
特定卷积层Conv(112,168,224);
批量标准化层BN-5;
ReLU函数激活层RA-5;
特定卷积层Conv(128,192,256);
全局平均池化层(Global Average Pooling)GAP;
1024单元的全连接层FC-1;
批量标准化层BN-6;
ReLU函数激活层RA-6;
K单元的全连接层FC-2,其中K为估计的老人家中活动类型个数,本实施例中取K=10;
Softmax函数激活层SF;
S7.2、对构建好的卷积神经网络分类器CNNC进行训练,使用Adam优化算法对整个网络进行训练优化以获得训练好的网络模型,本实施例中训练参数分别为α=0.001,β1=0.9,β2=0.999,∈=10-8,目标损失函数同样为交叉熵函数;
S7.3、将变换后的特征输入已训练好的CNNC进行判决,估计老人的活动类型,本实施例中取活动类型总量K=8,包括看电视、洗碗、做饭、睡觉、摔倒、大声呼救、正常谈话、吸尘扫地。
显而易见,上述的实施例仅为本发明的一种较优的实施例,本发明的保护范围和实施方式并不受以上实施例所限制。本领域普通技术人员在未背离本发明的精神和范围下所作的任何改变、改进或替换等,均包含在本发明的保护范围之内。
Claims (9)
1.一种基于声音事件检测的独居老人家中活动估计方法,其特征在于,所述的活动估计方法包括以下步骤:
S1、多通道音频数据采集:在房屋室内放置拾音器阵列,采集多通道音频数据,包括多类声音事件;
S2、音频数据预处理:对采集到的各通道音频数据进行分帧和加窗处理;
S3、频谱特征提取:从预处理后的各通道音频数据提取对数梅尔频谱特征;
S4、空间谱特征提取:从预处理后的所有通道音频数据提取DOA空间谱特征;
S5、特征拼接:将上述对数梅尔频谱特征和DOA空间谱特征拼接成一个特征矩阵;
S6、特征变换:将上述拼接后的特征输入卷积神经网络,得到变换后的特征;
S7、老人家中活动估计:将上述变换后的特征输入卷积神经网络分类器,辨识音频数据样本中的声音事件,从而估计该样本所对应的老人家中活动类型。
2.根据权利要求1所述的一种基于声音事件检测的独居老人家中活动估计方法,其特征在于,所述的步骤S1、多通道音频数据采集过程如下:
S1.1、拾音器放置:将拾音器阵列放置在房屋室内的中心位置,设拾音器阵列包含C个拾音器,按顺时针顺序将拾音器从0到C-1进行编号并将第0号拾音器作为基准拾音器,则第t号拾音器与基准拾音器之间的角度为:
S1.2、音频数据采集的参数设置:将音频数据的采样频率设为44.1KHz,量化位数设为16位。
3.根据权利要求1所述的一种基于声音事件检测的独居老人家中活动估计方法,其特征在于,所述的步骤S2、音频数据预处理如下:
S2.1、分帧:将每个通道的音频数据切分成固定长度的音频帧,对于某通道音频数据x(n),0≤n≤L-1,其中L为音频数据的采样点总数,则第i帧音频xi(n)为:
xi(n)=x(i×S:i×S+N-1),0≤i≤M-1,0≤n≤N-1,
其中,M为总帧数,N为帧长,S为帧移,ceil(﹒)为向上取整函数;
S2.2、加窗:将每帧音频与汉明窗相乘实现加窗操作,汉明窗函数定义为:
其中N为帧长。
4.根据权利要求1所述的一种基于声音事件检测的独居老人家中活动估计方法,其特征在于,所述的步骤S3、频谱特征提取如下:
S3.1、将预处理后的各帧音频分别进行离散傅立叶变换得到其线性频谱,离散傅立叶变换定义为:
其中,Xi(k)为第i帧音频的线性频谱,M为总帧数,N为帧长;
S3.2、构建梅尔三角滤波器组,过程如下:
S3.2.1、滤波的最低、最高频率分别为FL、FH,根据梅尔频率与线性频率的转换关系式可得在梅尔频率尺度下的最低频率ML和最高频率MH,该转换关系式为:
其中,Mel(f)为转换后的梅尔频率,f为线性频率;
S3.2.2、梅尔三角滤波器组由一定数量的梅尔滤波器组成,滤波器个数为E,每个梅尔滤波器的幅度特性为三角形,下限频率为fl(m)、中心频率为fc(m)、上限频率为fh(m),其中0≤m≤E-1,将区间[ML,MH]等分为E+2个频段,得到序列m(n),0≤n≤E+1,再通过线性频率与梅尔频率的转换关系式,得到序列h(n),0≤n≤E+1,该转换关系式为:
其中,T(mel)为转换后的线性频率,mel为梅尔频率;
S3.2.3、h(n)中每相邻的三个点为一个梅尔滤波器的下限频率、中心频率和上限频率,第m个梅尔滤波器的三个频率与h(n)的对应关系为:
再将上述频率用以下公式转换到离散索引坐标上,得到fl(m)、fc(m)、fh(m):
其中,d(f)为转换后的离散结果,f为输入频率,N为帧长,fs为采样频率,floor(﹒)为向下取整函数,则第m个梅尔滤波器的传递函数为:
其中k为线性频率;
S3.3、用构建好的梅尔三角滤波器组对线性频谱Xi(k)进行滤波,第m个梅尔滤波器与第i帧线性频谱的滤波表达式为:
S3.4、对滤波后的结果取对数,得到对数梅尔频谱特征,第i帧音频的对数梅尔频谱特征为:
FMi(m)=lnFi(m),0≤m≤E-1,0≤i≤M-1。
5.根据权利要求1所述的一种基于声音事件检测的独居老人家中活动估计方法,其特征在于,所述的步骤S4、空间谱特征提取如下:
S4.1、第t个通道的每帧音频记为un(t),0≤t≤C-1,0≤n≤N-1,定义第n个采样点每个通道音频数据组成的向量为:
则每帧音频的协方差函数定义为:
其中表示Un的共轭转置;
S4.2、对进行特征值分解,可解得特征值对角矩阵:
Λ=diag(λ0,λ1,……,λC-1),
和特征向量矩阵:
V=[v0,v1,……,vC-1],
其中v0,v1,……,vC-1按从大到小的顺序排列;
S4.3、对特征值进行统计,将特征值λ0,λ1,……,λC-1分成两组,一组为D个大数值,另一组为C-D=K个小数值;
S4.4、取V的后K列构成噪声子空间VK:
VK=[vD,vD+1,……,vC-1];
S4.5、计算空间谱,在区间[-π,π]按的分辨率采样,得到序列θ(s),0≤s≤(E×C-1),定义方向向量:
对第s个角度θ(s)的DOA空间谱估计值为:
其中aH[θ(s)]表示a[θ(s)]的共轭转置;
S4.6、对每帧中的所有采样点重复以上操作,每一帧可得长度为(E×C)的DOA空间谱估计序列MUS(d),0≤d≤(E×C-1);
S4.7、对所有帧重复以上操作,将每一帧得到的DOA空间谱估计序列MUS(d),0≤d≤(E×C-1)作为列向量MUSi,0≤i≤M-1,按时间顺序组成(E×C)行M列的特征矩阵。
6.根据权利要求1所述的一种基于声音事件检测的独居老人家中活动估计方法,其特征在于,所述的步骤S5、特征拼接如下:
S5.1、将每个通道的对数梅尔频谱特征拼接起来,构成一个(E×C)行M列的特征矩阵,其中M为各通道音频的帧数,E为梅尔滤波器个数,C为通道个数;
S5.2、将上述拼接后的对数梅尔频谱特征与DOA空间谱特征拼接起来,构成一个(E×C)行2M列的特征矩阵。
7.根据权利要求1所述的一种基于声音事件检测的独居老人家中活动估计方法,其特征在于,所述的步骤S6、特征变换如下:
S6.1、构建用于特征变换的卷积神经网络CNNF,该卷积神经网络CNNF包括依次连接的层,结构为按以下序号顺序连接:
①批量标准化层BN-1,
②ReLU函数激活层RA-1,
③卷积层Conv-1,
④批量标准化层BN-2,
⑤ReLU函数激活层RA-2,
⑥卷积层Conv-2,
⑦最大池化层MP,
其中,第②、⑤层用于输入数据,第①、④层用于防止过拟合,第③、⑥层用于进行数据变换,第⑦层用于进行数据降采样;
S6.2、对构建好的用于特征变换的卷积神经网络CNNF进行训练:首先在CNNF的基础上再添加两层:
⑧1024单元的全连接层FC,
⑨Softmax函数激活层SF,
然后对所有层的参数进行随机初始化;接着使用Adam优化算法对网络进行训练,迭代次数为30次,学习率为1×10-4,目标损失函数为交叉熵函数:
其中K为估计的老人家中活动类型个数,yi为第i类活动标签,pi为网络对第i类活动的识别概率;
S6.3、将拼接好的特征矩阵输入已训练好的卷积神经网络CNNF,得到变换后的特征。
8.根据权利要求1所述的一种基于声音事件检测的独居老人家中活动估计方法,其特征在于,所述的步骤S7、老人家中活动估计如下:
S7.1、构建卷积神经网络分类器CNNC;
S7.2、对构建好的卷积神经网络分类器CNNC进行训练,使用Adam优化算法对整个网络进行训练优化以获得训练好的网络模型,目标损失函数同样为交叉熵函数;
S7.3、将变换后的特征输入已训练好的CNNC进行判决,估计老人的活动类型。
9.根据权利要求8所述的一种基于声音事件检测的独居老人家中活动估计方法,其特征在于,所述的步骤S7.1如下:
S7.1.1、定义特定卷积层ConvSE(a,b,o,p,q)为:由三条路径的卷积层组成,第一条路径是卷积核大小a×a、核数量o的卷积层Conva_o,第二条路径是卷积核大小a×a、核数量p的卷积层Conva_p连接上一层卷积核大小b×b、核数量q的卷积层Convb_q,第三条路径是卷积核大小a×a、核数量q的卷积层Conva_q连接上一层卷积核大小b×b、核数量p的卷积层Convb_p再连接上一层卷积核大小b×b、核数量o的卷积层Convb_o,最后将三条路径的卷积结果按通道顺序进行拼接;
S7.1.2、通过多层多路径卷积层构建卷积神经网络分类器CNNC,该分类器包括依次连接的层,结构为按以下序号顺序连接:
①批量标准化层BN-1;
②ReLU函数激活层RA-1;
③特定卷积层ConvSE-1;
④批量标准化层BN-2;
⑤ReLU函数激活层RA-2;
⑥最大池化层MP-1;
⑦特定卷积层ConvSE-2;
⑧批量标准化层BN-3;
⑨ReLU函数激活层RA-3;
⑩0最大池化层MP-2;
特定卷积层ConvSE-3;
批量标准化层BN-4;
ReLU函数激活层RA-4;
最大池化层MP-3;
特定卷积层ConvSE-4;
批量标准化层BN-5;
ReLU函数激活层RA-5;
特定卷积层ConvSE-5;
全局平均池化层GAP;
1024单元的全连接层FC-1;
批量标准化层BN-6;
ReLU函数激活层RA-6;
K单元的全连接层FC-2,其中K为估计的老人家中活动类型个数;
Softmax函数激活层SF。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910374190.6A CN110223715B (zh) | 2019-05-07 | 2019-05-07 | 一种基于声音事件检测的独居老人家中活动估计方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910374190.6A CN110223715B (zh) | 2019-05-07 | 2019-05-07 | 一种基于声音事件检测的独居老人家中活动估计方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110223715A true CN110223715A (zh) | 2019-09-10 |
CN110223715B CN110223715B (zh) | 2021-05-25 |
Family
ID=67820565
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910374190.6A Active CN110223715B (zh) | 2019-05-07 | 2019-05-07 | 一种基于声音事件检测的独居老人家中活动估计方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110223715B (zh) |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110796027A (zh) * | 2019-10-10 | 2020-02-14 | 天津大学 | 一种基于紧密卷积的神经网络模型的声音场景识别方法 |
CN110827804A (zh) * | 2019-11-14 | 2020-02-21 | 福州大学 | 一种音频帧序列到事件标签序列的声音事件标注方法 |
CN111599376A (zh) * | 2020-06-01 | 2020-08-28 | 华南理工大学 | 一种基于空洞卷积循环神经网络的声音事件检测方法 |
CN111899760A (zh) * | 2020-07-17 | 2020-11-06 | 北京达佳互联信息技术有限公司 | 音频事件的检测方法、装置、电子设备及存储介质 |
CN111933188A (zh) * | 2020-09-14 | 2020-11-13 | 电子科技大学 | 一种基于卷积神经网络的声音事件检测方法 |
CN111986699A (zh) * | 2020-08-17 | 2020-11-24 | 西安电子科技大学 | 基于全卷积网络的声音事件检测方法 |
CN112818892A (zh) * | 2021-02-10 | 2021-05-18 | 杭州医典智能科技有限公司 | 基于时间卷积神经网络的多模态抑郁症检测方法及系统 |
CN113421585A (zh) * | 2021-05-10 | 2021-09-21 | 云境商务智能研究院南京有限公司 | 一种音频指纹库生成方法及装置 |
CN113421590A (zh) * | 2021-06-30 | 2021-09-21 | 平安科技(深圳)有限公司 | 异常行为检测方法、装置、设备及存储介质 |
CN113450536A (zh) * | 2021-06-17 | 2021-09-28 | 桂林航天工业学院 | 一种独居老人安全监测系统 |
CN113990303A (zh) * | 2021-10-08 | 2022-01-28 | 华南理工大学 | 基于多分辨率空洞深度可分卷积网络的环境声音辨识方法 |
CN116740846A (zh) * | 2023-08-02 | 2023-09-12 | 深圳零和壹物联科技有限公司 | 一种rfid智能顶装式门禁终端控制方法 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102799899A (zh) * | 2012-06-29 | 2012-11-28 | 北京理工大学 | 基于svm和gmm的特定音频事件分层泛化识别方法 |
CN103971702A (zh) * | 2013-08-01 | 2014-08-06 | 哈尔滨理工大学 | 声音监控方法、装置及系统 |
CN104094613A (zh) * | 2011-12-02 | 2014-10-08 | 弗劳恩霍弗促进应用研究注册公司 | 用于依据空间功率密度定位麦克风的装置和方法 |
US20150380013A1 (en) * | 2014-06-30 | 2015-12-31 | Rajeev Conrad Nongpiur | Learning algorithm to detect human presence in indoor environments from acoustic signals |
US20160216357A1 (en) * | 2015-01-23 | 2016-07-28 | The Boeing Company | Method and Apparatus for Determining the Direction of Arrival of a Sonic Boom |
CN107483879A (zh) * | 2016-06-08 | 2017-12-15 | 中兴通讯股份有限公司 | 视频标记方法、装置及视频监控方法和系统 |
CN107610721A (zh) * | 2017-10-13 | 2018-01-19 | 北京奇虎科技有限公司 | 多媒体信息检测方法及装置 |
CN107808658A (zh) * | 2016-09-06 | 2018-03-16 | 深圳声联网科技有限公司 | 基于家居环境下实时的婴儿音频系列行为检测方法 |
CN108182949A (zh) * | 2017-12-11 | 2018-06-19 | 华南理工大学 | 一种基于深度变换特征的高速公路异常音频事件分类方法 |
-
2019
- 2019-05-07 CN CN201910374190.6A patent/CN110223715B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104094613A (zh) * | 2011-12-02 | 2014-10-08 | 弗劳恩霍弗促进应用研究注册公司 | 用于依据空间功率密度定位麦克风的装置和方法 |
CN102799899A (zh) * | 2012-06-29 | 2012-11-28 | 北京理工大学 | 基于svm和gmm的特定音频事件分层泛化识别方法 |
CN103971702A (zh) * | 2013-08-01 | 2014-08-06 | 哈尔滨理工大学 | 声音监控方法、装置及系统 |
US20150380013A1 (en) * | 2014-06-30 | 2015-12-31 | Rajeev Conrad Nongpiur | Learning algorithm to detect human presence in indoor environments from acoustic signals |
US20180336917A1 (en) * | 2014-06-30 | 2018-11-22 | Rajeev Conrad Nongpiur | Learning algorithm to detect human presence in indoor environments from acoustic signals |
US20160216357A1 (en) * | 2015-01-23 | 2016-07-28 | The Boeing Company | Method and Apparatus for Determining the Direction of Arrival of a Sonic Boom |
CN107483879A (zh) * | 2016-06-08 | 2017-12-15 | 中兴通讯股份有限公司 | 视频标记方法、装置及视频监控方法和系统 |
CN107808658A (zh) * | 2016-09-06 | 2018-03-16 | 深圳声联网科技有限公司 | 基于家居环境下实时的婴儿音频系列行为检测方法 |
CN107610721A (zh) * | 2017-10-13 | 2018-01-19 | 北京奇虎科技有限公司 | 多媒体信息检测方法及装置 |
CN108182949A (zh) * | 2017-12-11 | 2018-06-19 | 华南理工大学 | 一种基于深度变换特征的高速公路异常音频事件分类方法 |
Non-Patent Citations (5)
Title |
---|
GREEN M C 等: "Murphy D. Acoustic scene classification using spatial features", 《IEEE PROCEEDINGS OF THE DETECTION AND CLASSIFICATION OF ACOUSTIC SCENES AND EVENTS (DCASE2017)》 * |
GRZESZICK R 等: "Bag-of-features methods for acoustic event detection and classification", 《IEEE/ACM TRANSACTIONS ON AUDIO, SPEECH, AND LANGUAGE PROCESSING》 * |
WANG C H 等: "Sound event detection from real-life audio by training a long short-term memory network with mono and stereo features", 《IEEE PROCEEDINGS OF THE DETECTION AND CLASSIFICATION OF ACOUSTIC SCENES AND EVENTS (DCASE2017)》 * |
秦亚楠: "真实场景下的异常音频监控方法及系统", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
谢智鹏: "声音事件识别中的有效特征提取方法研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
Cited By (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110796027A (zh) * | 2019-10-10 | 2020-02-14 | 天津大学 | 一种基于紧密卷积的神经网络模型的声音场景识别方法 |
CN110796027B (zh) * | 2019-10-10 | 2023-10-17 | 天津大学 | 一种基于紧密卷积的神经网络模型的声音场景识别方法 |
CN110827804A (zh) * | 2019-11-14 | 2020-02-21 | 福州大学 | 一种音频帧序列到事件标签序列的声音事件标注方法 |
CN111599376B (zh) * | 2020-06-01 | 2023-02-14 | 华南理工大学 | 一种基于空洞卷积循环神经网络的声音事件检测方法 |
CN111599376A (zh) * | 2020-06-01 | 2020-08-28 | 华南理工大学 | 一种基于空洞卷积循环神经网络的声音事件检测方法 |
CN111899760A (zh) * | 2020-07-17 | 2020-11-06 | 北京达佳互联信息技术有限公司 | 音频事件的检测方法、装置、电子设备及存储介质 |
CN111899760B (zh) * | 2020-07-17 | 2024-05-07 | 北京达佳互联信息技术有限公司 | 音频事件的检测方法、装置、电子设备及存储介质 |
CN111986699A (zh) * | 2020-08-17 | 2020-11-24 | 西安电子科技大学 | 基于全卷积网络的声音事件检测方法 |
CN111986699B (zh) * | 2020-08-17 | 2023-07-04 | 西安电子科技大学 | 基于全卷积网络的声音事件检测方法 |
CN111933188A (zh) * | 2020-09-14 | 2020-11-13 | 电子科技大学 | 一种基于卷积神经网络的声音事件检测方法 |
CN112818892A (zh) * | 2021-02-10 | 2021-05-18 | 杭州医典智能科技有限公司 | 基于时间卷积神经网络的多模态抑郁症检测方法及系统 |
CN113421585A (zh) * | 2021-05-10 | 2021-09-21 | 云境商务智能研究院南京有限公司 | 一种音频指纹库生成方法及装置 |
CN113450536A (zh) * | 2021-06-17 | 2021-09-28 | 桂林航天工业学院 | 一种独居老人安全监测系统 |
CN113421590A (zh) * | 2021-06-30 | 2021-09-21 | 平安科技(深圳)有限公司 | 异常行为检测方法、装置、设备及存储介质 |
CN113421590B (zh) * | 2021-06-30 | 2024-02-06 | 平安科技(深圳)有限公司 | 异常行为检测方法、装置、设备及存储介质 |
CN113990303A (zh) * | 2021-10-08 | 2022-01-28 | 华南理工大学 | 基于多分辨率空洞深度可分卷积网络的环境声音辨识方法 |
CN113990303B (zh) * | 2021-10-08 | 2024-04-12 | 华南理工大学 | 基于多分辨率空洞深度可分卷积网络的环境声音辨识方法 |
CN116740846A (zh) * | 2023-08-02 | 2023-09-12 | 深圳零和壹物联科技有限公司 | 一种rfid智能顶装式门禁终端控制方法 |
CN116740846B (zh) * | 2023-08-02 | 2024-08-27 | 深圳零和壹物联科技有限公司 | 一种rfid智能顶装式门禁终端控制方法 |
Also Published As
Publication number | Publication date |
---|---|
CN110223715B (zh) | 2021-05-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110223715A (zh) | 一种基于声音事件检测的独居老人家中活动估计方法 | |
CN104970789B (zh) | 心电图分类方法及系统 | |
Gochoo et al. | Device-free non-privacy invasive classification of elderly travel patterns in a smart house using PIR sensors and DCNN | |
CN110570613A (zh) | 基于分布式光纤系统的围栏振动入侵定位和模式识别方法 | |
CN107749143A (zh) | 一种基于WiFi信号的穿墙室内人员跌倒探测系统及方法 | |
US9811739B2 (en) | Surveillance system and surveillance method | |
Huang et al. | CrowdQuake: A networked system of low-cost sensors for earthquake detection via deep learning | |
CN110730473B (zh) | 面向WiFi活动识别的信号特征提取方法 | |
CN112587153A (zh) | 一种基于vPPG信号的端到端的非接触房颤自动检测系统和方法 | |
CN113609976A (zh) | 一种基于WiFi设备的方向敏感多手势识别系统及方法 | |
CN113453180B (zh) | 一种人体摔倒智能检测方法、系统、信息数据处理终端 | |
Sun et al. | Coughloc: Location-aware indoor acoustic sensing for non-intrusive cough detection | |
CN113674768A (zh) | 基于声学的呼救检测方法、装置、设备及存储介质 | |
CN112257615A (zh) | 一种基于聚类的顾客数量统计方法 | |
WO2022254347A1 (en) | Target monitoring and alert system and method | |
CN113743374B (zh) | 一种基于信道状态信息呼吸感知的人员身份识别方法 | |
CN110650244A (zh) | 一种基于sta/lta+dtw的智能手机地震异常事件检测方法及智能手机 | |
CN113990303A (zh) | 基于多分辨率空洞深度可分卷积网络的环境声音辨识方法 | |
CN109330612A (zh) | 智能监仓感知装置及包括它的监管场所的管控系统 | |
CN112380903A (zh) | 一种基于WiFi-CSI信号增强的人体活动识别方法 | |
CN116540178A (zh) | 一种音视频融合的噪声源定位方法及系统 | |
CN115982620A (zh) | 基于多类三维特征与Transformer的毫米波雷达人体跌倒行为识别方法及系统 | |
CN114114382B (zh) | 用于地震预报的监测数据处理方法、地震预报方法和系统 | |
CN115204240A (zh) | 基于毫米波雷达和fpga的跌倒检测方法及装置 | |
CN116840835A (zh) | 一种基于毫米波雷达的跌倒检测方法、系统及设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |