CN114582355A - 基于音视频融合的婴儿哭泣检测方法及装置 - Google Patents
基于音视频融合的婴儿哭泣检测方法及装置 Download PDFInfo
- Publication number
- CN114582355A CN114582355A CN202111422641.2A CN202111422641A CN114582355A CN 114582355 A CN114582355 A CN 114582355A CN 202111422641 A CN202111422641 A CN 202111422641A CN 114582355 A CN114582355 A CN 114582355A
- Authority
- CN
- China
- Prior art keywords
- audio
- crying
- video
- feature
- voice
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 206010011469 Crying Diseases 0.000 title claims abstract description 108
- 238000001514 detection method Methods 0.000 title claims abstract description 52
- 230000004927 fusion Effects 0.000 title claims abstract description 47
- 230000000007 visual effect Effects 0.000 claims abstract description 46
- 238000000034 method Methods 0.000 claims abstract description 39
- 238000013528 artificial neural network Methods 0.000 claims abstract description 23
- 238000010586 diagram Methods 0.000 claims abstract description 20
- 238000001228 spectrum Methods 0.000 claims abstract description 14
- 238000012549 training Methods 0.000 claims description 18
- 238000005070 sampling Methods 0.000 claims description 14
- 238000000605 extraction Methods 0.000 claims description 13
- 238000010606 normalization Methods 0.000 claims description 12
- 230000008569 process Effects 0.000 claims description 9
- 238000011176 pooling Methods 0.000 claims description 6
- 238000007781 pre-processing Methods 0.000 claims description 4
- 238000012545 processing Methods 0.000 claims description 4
- 238000004590 computer program Methods 0.000 claims description 3
- 239000000203 mixture Substances 0.000 claims description 3
- 238000004422 calculation algorithm Methods 0.000 description 28
- 230000006870 function Effects 0.000 description 15
- 238000013461 design Methods 0.000 description 6
- 230000000694 effects Effects 0.000 description 6
- 238000007500 overflow downdraw method Methods 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 238000013527 convolutional neural network Methods 0.000 description 3
- 239000000284 extract Substances 0.000 description 3
- 230000005236 sound signal Effects 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 210000000056 organ Anatomy 0.000 description 2
- 238000013139 quantization Methods 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 230000001755 vocal effect Effects 0.000 description 2
- 206010000117 Abnormal behaviour Diseases 0.000 description 1
- 238000012952 Resampling Methods 0.000 description 1
- 230000002238 attenuated effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000004140 cleaning Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000037433 frameshift Effects 0.000 description 1
- 238000009432 framing Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 210000003041 ligament Anatomy 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000010827 pathological analysis Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/26—Recognition of special voice characteristics, e.g. for use in lie detectors; Recognition of animal voices
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/02—Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/04—Training, enrolment or model building
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/18—Artificial neural networks; Connectionist approaches
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/57—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for processing of video signals
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Human Computer Interaction (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及基于音视频融合的婴儿哭泣检测方法及装置。本发明所述的基于音视频融合的婴儿哭泣检测方法包括:获取待检测的音视频文件,将所述音视频文件进行拆分,得到音频数据和视频数据;提取所述音频数据的梅尔频谱图,使用ResNet神经网络提取所述梅尔频谱图的抽象特征,得到语音特征;提取所述视频数据中连续帧的灰度图像,使用3DCNN网络提取所述灰度图像的抽象特征,得到视觉特征;融合所述语音特征和所述视觉特征,得到混合特征;将所述混合特征输入训练好的ResNet残差网络,得到哭泣检测结果。本发明所述的基于音视频融合的婴儿哭泣检测方法及装置,将语音和视觉信息结合起来进行婴儿哭声的自动识别,提高了婴儿哭声检测的准确度。
Description
技术领域
本发明涉及计算机图像语音处理领域,特别是涉及一种基于音视频融合的婴儿哭泣检测 方法及装置。
背景技术
哭声的自动检测在婴儿监测方面发挥着重要的作用。例如,婴儿哭泣检测能够减少父母 的护理时间和家庭负担。在医院,高精度的哭声检测减轻了医院员工的工作量,并有助于提 高哭声病理学诊断。
在以前的研究中,研究人员发现早期的婴儿声音具有相同的声音特征,但由于生活环境 的影响,这些特征会随着时间而消失。基于这一发现,很多人致力于婴儿哭声的音频特征分 析和检测算法的设计。大多数的婴儿哭声检测工作都使用频域的特征作为输入,如MFCC和 LFCC。这些特征在声音识别中是非常有效的。至于识别方法,卷积神经网络(CNN)和KNN 等机器学习算法占据了主流趋势。然而以前的哭声检测算法受限于数据,仅使用音频难以识 别复杂环境下婴儿哭声。现有的婴儿啼哭识别算法忽略了视觉方面的信息,导致识别精度不 高。
发明内容
基于此,本发明的目的在于,提供一种基于音视频融合的婴儿哭泣检测方法及装置,将 语音和视觉信息结合起来进行婴儿哭声的自动识别,提高了婴儿哭声检测的准确度。
第一方面,本发明提供基于音视频融合的婴儿哭泣检测方法,该方法包括以下步骤:
获取待检测的音视频文件,将所述音视频文件进行拆分,得到音频数据和视频数据;
提取所述音频数据的梅尔频谱图,使用ResNet神经网络提取所述梅尔频谱图的抽象特征, 得到语音特征;
提取所述视频数据中连续帧的灰度图像,使用3DCNN网络提取所述灰度图像的抽象特 征,得到视觉特征;
融合所述语音特征和所述视觉特征,得到混合特征;
将所述混合特征输入训练好的ResNet残差网络,得到哭泣检测结果。
进一步地,融合所述语音特征和所述视觉特征,得到混合特征,包括:
采用以下公式融合所述语音特征和所述视觉特征,得到混合特征:
其中,x代表语音特征,y代表视觉特征,Z代表混合特征。
进一步地,使用ResNet神经网络提取所述梅尔频谱图的抽象特征,得到语音特征,包括:
将提取的所述梅尔频谱图转换成220*13维度,输入到ResNet神经网络中,使得所述 ResNet神经网络通过卷积池化操作对所述梅尔频谱图进行抽象高维度特征提取;
截取ResNet神经网络的最后一层1024*1维度的数据,得到所述语音特征。
进一步地,提取所述音频数据的梅尔频谱图之前,还包括:
对所述语音数据进行采样、归一化、预加重和窗口化操作的预处理,得到预处理后的波 形图。
进一步地,将所述混合特征输入训练好的ResNet残差网络,得到哭泣检测结果,包括:
将所述混合特征输入训练好的ResNet残差网络;
所述ResNet残差网络对所述混合特征进行卷积和池化操作,得到为哭泣的概率和不为哭 泣的概率;
根据所述为哭泣的概率和所述不为哭泣的概率,得到哭泣检测结果。
进一步地,所述ResNet神经网络的训练过程包括:
获取音视频数据集,所述音视频数据集包括多个音视频文件样本,每个所述样本包括音 频样本和视频样本;
设置每个所述样本对应的任务标签,其中,所述任务标签包括:语音哭泣标签、视觉哭 泣标签、一致性标签和音视频哭泣标签;
将所述设置有任务标签的音视频数据集输入ResNet残差网络进行训练,得到训练好的 ResNet残差网络。
进一步地,将所述音视频文件进行拆分之前,还包括:
对所述音视频文件进行数据归一化处理。
第二方面,本发明还提供基于音视频融合的婴儿哭泣检测装置,包括:
音视频文件拆分模块,用于获取待检测的音视频文件,将所述音视频文件进行拆分,得 到音频数据和视频数据;
语音特征提取模块,用于提取所述音频数据的梅尔频谱图,使用ResNet神经网络提取所 述梅尔频谱图的抽象特征,得到语音特征;
视觉特征提取模块,用于提取所述视频数据中连续帧的灰度图像,使用3DCNN网络提 取所述灰度图像的抽象特征,得到视觉特征;
特征融合模块,用于融合所述语音特征和所述视觉特征,得到混合特征;
哭泣检测模块,用于将所述混合特征输入训练好的ResNet残差网络,得到哭泣检测结果。
第三方面,本发明提供一种智能设备,包括:
至少一个存储器以及至少一个处理器;
所述存储器,用于存储一个或多个程序;
当所述一个或多个程序被所述至少一个处理器执行,使得所述至少一个处理器实现如本 发明第一方面所述的任意基于音视频融合的婴儿哭泣检测方法的步骤。
第四方面,本发明提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算 机程序,所述计算机程序被处理器执行时实现如本发明第一方面所述的任意基于音视频融合 的婴儿哭泣检测方法的步骤。
本发明提供的基于音视频融合的婴儿哭泣检测方法及装置,使用自制的音视频数据集来 识别复杂环境中的婴儿哭声,该数据集比实验室环境中收集的数据集有更好的实用价值;将 语音和视觉信息结合起来进行婴儿哭声的自动识别,提高了婴儿哭声检测的准确度;通过设 置多任务辅助判断,让算法能够在训练出来后关注到复杂样本的分类,从而提升模型的精度。
为了更好地理解和实施,下面结合附图详细说明本发明。
附图说明
图1为本发明提供的基于音视频融合的婴儿哭泣检测方法的流程示意图;
图2为一个实施例中原始音频波形图与梅尔频谱图的对比示意图;
图3为本发明使用的3DCNN网络结构示意图;
图4为本发明的算法架构示意图;
图5为一个实施例中使用的复杂样本示意图;
图6本发明提供的基于音视频融合的婴儿哭泣检测装置的结构示意图;
图7为本发明提供的一种智能设备的结构示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施例方式作 进一步地详细描述。
应当明确,所描述的实施例仅仅是本申请实施例一部分实施例,而不是全部的实施例。 基于本申请实施例中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的 所有其它实施例,都属于本申请实施例保护的范围。
在本申请实施例使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本申请实 施例。在本申请实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该” 也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和 /或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。 以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它 们仅是如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。在本 申请的描述中,需要理解的是,术语“第一”、“第二”、“第三”等仅用于区别类似的对 象,而不必用于描述特定的顺序或先后次序,也不能理解为指示或暗示相对重要性。对于本 领域的普通技术人员而言,可以根据具体情况理解上述术语在本申请中的具体含义。
此外,在本申请的描述中,除非另有说明,“多个”是指两个或两个以上。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在 A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或” 的关系。
在一个具体的实施例中,如图1所示,本发明提供的基于音视频融合的婴儿哭泣检测方 法包括以下步骤:
S01:获取待检测的音视频文件,将所述音视频文件进行拆分,得到音频数据和视频数据。
优选的,在拆分之前,先对音视频文件进行归一化处理。在一个具体的实施例中,统一 设置数据的格式为音频帧率30帧/秒、像素1080pix、音频采样率22.5KHZ、单通道。通过上 述的归一化参数,可以将任意的输入设置成标准格式。
S02:提取所述音频数据的梅尔频谱图,使用ResNet神经网络提取所述梅尔频谱图的抽 象特征,得到语音特征。
婴儿哭声在基频和声音周期方面与其他哭声有很大不同。因此,对婴儿哭声和成人声音 进行预处理之后,最终的波形和梅尔谱图如图2所示,左边为波形图,右边为梅尔频谱图。 可以看出婴儿哭泣在平铺图上有着明显的周期性,因此,本方法提取频谱图,进行下一步的 语音特征提取。
优选的,使用傅里叶变换的方法,将原始的音频信号波形图,转换成频率维度的频谱图。 在一个具体的实施例中,使用librosa库提取音频数据的的梅尔频谱图,其底层原理采用短时 傅里叶变换。
在另一个优选的实施例中,在提取梅尔频谱图之前,还包括对音频数据进行预处理,包 括采样、归一化、预加重和窗口化等操作,以便进一步提高音频特征提取的质量。
采样:声音信号的采样频率、声道、量化单位决定数据的大小和质量,本发明将正负样 本音频数据统一参数:转换成wav格式后以单通道、8000采样率、16bit量化单位进行重采 样。
归一化:原始的音频数字数据进行归一化处理可以避免数据溢出等异常行为。常用的归 一化方法有最值和零均值。零均值归一化能够将样本数据分配为均值μ为0、方差σ为1的 数据。最值归一化将data在min-max之间映射,通过系数调整到-1到1之间。如公式1所示, 式中min代表x的最小值,max代表x最大值。由于最值归一化可以将数据等比例的缩放, 保留数据的变化规律,且-1到1能体现声音的高低分布,因此选用最值方法进行归一化处理。
预加重:受人的发声器官影响,气流经过韧带之后高频信号进行会大幅度衰减,高频的 辨识度会降低。需要对信号进行预加重,获得更真实的频域信息。具体方法将语音信号通过 传递函数为公式2所示的一阶高通滤波器降低信号高频的损失。(α取值0.95)
H(z)=1-αz-1 (2)
其中,H(z)代表预加重之后的输出,a代表加重的权重,Z代表输入语音。通过公式2的滤波器, 可以看出对输入进行倒数计算,高频部分会被增强到更接近1,低频部分会被削弱。
该传递函数带入到实际的时间段中进行计算,设n时刻的采样值是x(n),经过预加重后的 采样值y(n)为:
y(n)=x(n)-ax(n-1) (3)
其中,y(n)代表输出,a代表权重,x(n)代表当前时间片段的输入,x(n-1)代表上一时 间片段的输入。
分帧加窗:声音是非平稳的信号,但人类发声器官在短时间内震动非常缓慢,一般认为 在30毫秒以内声音信号近似不变。分析短时间平稳的音频可以更好的获取声音的特征,因此 语音信号需要分割成帧进行分析。分帧的实现方法如式4,采用可移动的窗口函数和语音信 号进行加权运算。
Sw(n)=S(n)W(n) (4)
公式4中S(n)为原始语音信号,W(n)为窗口函数,不同的窗口函数会产生不同信号输出。 本发明选用的窗函数为汉明窗(见公式5),窗口函数中n代表第n个采样点,L为语音帧内 的采样点数量,为了保持声音的稳定过渡,每个声音帧与之前声音帧需要具有一定的重复性, 本文将L设置成30ms之间的采样点个数,帧移动为L的0.5倍。该窗口函数边缘两端平滑趋 近于0,能够体现声音的中间部分,而两端削弱的数据通过重叠帧移可以再现到中间部分。
经过以上采样、归一化、预加重和窗口化操作,得到了更为干净的语音输入。
提取梅尔频谱图作为基础特征之后,采用ResNet网络提取高维度的声音抽象特征。在一 个优选的实施例中,使用ResNet神经网络提取所述梅尔频谱图的抽象特征,得到语音特征, 包括:
将提取的所述梅尔频谱图转换成220*13维度,输入到ResNet神经网络中,使得所述 ResNet神经网络通过卷积池化操作对所述梅尔频谱图进行抽象高维度特征提取。
截取ResNet神经网络的最后一层1024*1维度的数据,得到所述语音特征。
S03:提取所述视频数据中连续帧的灰度图像,使用3DCNN网络提取所述灰度图像的抽 象特征,得到视觉特征。
优选的,先将所述视频数据的画面进行灰度化处理,之后提取所述视频数据中连续帧的 灰度图像。在一个示例性的例子中,视频帧率是30/秒,则每秒提取1、5、10、15、20、25、 30这七帧的灰度图像。
优选的,如图3所示,本发明使用的3DCNN网络架构包括:两层3D卷积层,两层子采样层,一层全连接层(FC);网络的输入是七个64*64*1像素的帧。网络结构选择3*3*3和 5*5*3规格的3D卷积核。此外,网络结构直接影响到特征层的性能。因此,本发明将特征层 的输出维度修改到一个更容易接受的水平。在一个优选的实施例中,1024维的全连接层被用来作为视觉特征。
S04:融合所述语音特征和所述视觉特征,得到混合特征。
在特征融合阶段,如果忽略了模式之间的联系,可能会丢失基本信息。与其他融合方法 相比,合理的音视频融合方法能够通过捕捉不同模式之间的相应信息来提高识别能力。然而, 以前的特征层融合方法只是探索网络结构的优势。本发明根据婴儿哭声数据集的特点,提出 了一个多任务融合网络,能够更合理地提取特征和融合信息。
如前所述,ResNet神经网络的最后1024维全连接层被用作语音特征,3DCNN网络的最 后1024维全连接层被用作视觉特征,使用矩阵点积融合方式进行特征融合。
具体的,采用以下公式融合所述语音特征和所述视觉特征,得到混合特征:
其中,x代表语音特征,y代表视觉特征,Z代表混合特征。
S05:将所述混合特征输入训练好的ResNet残差网络,得到哭泣检测结果。
优选的,包括以下子步骤:
S051:将所述混合特征输入训练好的ResNet残差网络;
S052:所述ResNet残差网络对所述混合特征进行卷积和池化操作,得到为哭泣的概率和 不为哭泣的概率;
S053:根据所述为哭泣的概率和所述不为哭泣的概率,得到哭泣检测结果。
具体的,对比输出的为哭泣概率和不为哭泣概率,取较大的一方作为本次数据的最终预 测结果。
本发明提供的一种基于音视频融合的婴儿哭泣检测方法,将语音和视觉信息结合起来进 行婴儿哭声的自动识别,提高了婴儿哭声检测的准确度。
由于缺乏高质量的数据集,之前的方法未能利用视觉信息,因此在一个优选的实施例中, 本发明使用了自制的包含音视频信息的婴儿哭泣数据集,并进行数据清洗。在清洗完成之后 的数据集上进行算法设计和部署测试。
如图4所示,本发明的前期算法设计包括:使用三维卷积网络架构(3DCNN)从视频信 号中提取视觉特征,并通过残差网络(ResNet)提取语音特征。这些网络的输出被融合到残 差连接层中进行分类。
与以往注重网络结构的融合算法不同,本发明根据婴儿哭声和其他声音的区别来选择了 合适的视觉和听觉特征。此外,一些数据样本在识别上具有挑战性:一些样本的视觉和听觉 语义是不一致的。例如在图5中四个样本,图中第一行的视频中婴儿从图像中看起来比较痛 苦,但实际上并没有哭泣;第二行的成人在刻意模仿婴儿哭泣,但实际不是婴儿在哭泣;第 三行的婴儿从画面上来看并没有在哭泣,但是从语音上有哭泣的声音,这是因为有手机在播 放婴儿的哭泣,因此也不存在婴儿在哭泣;第四行婴儿是真正在哭泣。可以看出来,如果只 通过单个视觉维度或者音频维度做出判断,是很容易误判前面三行的复杂数据。
多任务学习能够通过损失函数约束训练方向,从而更好的区分上述的复杂环境下的样本。 因此发明使用的算法借鉴多任务学习的思想来提高识别精度。在算法中设置了四个任务(图 4中任务1234):
任务1:只通过语音判断是否样本中存在哭泣;
任务2:只通过视觉判断是否样本中存在哭泣;
任务3:判断画面和声音反映的信息是否一致;
任务4:结合语音和视觉整体判断婴儿是否在哭泣。
这四个任务在训练之前提前设置好对应的标签,采用深度学习算法去训练,从而拟合标 签。因此每个样本都有四个标签:语音哭泣标签、视觉哭泣标签、一致性标签和音视频哭泣 标签。这样设置后,图5的第一行样本的标签就是0、1、1、0(代表无语音哭泣现象、有视 觉哭泣现象、语音和视觉的信息不一致、整体音视频数据无哭泣)。通过这样设置之后,1、 2、3这三个任务会更好的辅助任务4的训练,帮助算法识别复杂的数据样本。但是在最终在 实际部署时,只关注任务4的结果。
为了得到精度更好的训练结果,本发明还提供一个自制的音视频数据集来识别复杂环境 中的婴儿哭声,该数据集比实验室环境中收集的数据集有更好的实用价值。在此数据集上分 析了哭声特征后选择了适当的输入,并提出了一种多任务的音视频融合识别方法用来检测婴 幼儿哭泣。
此外,只考虑网络结构并不能带来明显的精度提升,而通过设置多任务按照之前的相关 研究证明其会有不错的效果。本算法设计时候在ResNet和3DCNN子网中加入单一模式的识 别任务1、2使单模态分类效果显著提升。在融合层中插入判断音频和视觉是否一致的判断任 务3可以防止融合特征冲突,保证融合效果。在添加三个辅助任务后,网络的总损失函数可 以写成如下:
Loss=Lclassification+λ1Lcorrespondence+λ2Laudioclassfication+λ3Lvideoclassfication
其中,L和Loss代表损失函数值,其下标代表具体某一个任务的损失,λ代表权重,代 表数据预测值,y代表数据的真实值。公式7中第一行是整个算法的目标函数,在训练阶段 该函数的值越小,代表整体算法的效果越好。第二行到第五行是第一行中四个小的 L的具体计算过程。Lclassification是关注整体数据是否存在哭泣。correspondence是关注语音和画面反应的信息是否一致。audioclassfication只是从语音对数据进行判断是否存在哭泣。 videoclassfication只从视觉维度来判断数据是否存在一致性。这四个L会在初始化阶段就设 置一个权重λ代表不同任务所占有的权重大小。而具体每一个任务中代表数据预测值,y代 表数据的真实值,第二行到第四行的公式是每个任务计算信息熵的标准方程,其目的是计算 预测值和真实值之间的差距,差距越小,整体值越小,代表loss越小。而每个任务的loss相 加之和最小(第一行公式)是算法设计和训练的最终目标。而且correspondence、 audioclassfication、videoclassfication这三个损失函数代表的分类任务设置,是为了能够更好 辅助任务4(classification)提升结果。如图复杂哭泣测试样本所示,如果没有correspondence、 audioclassfication、videoclassfication这三个辅助任务,判断classification的精度会大幅度下降, 图5中的复杂样本前三个都会进行错误的预测,而三个辅助任务可以帮助任务4更好的区分, 正确识别出图5中的复杂样本。
基于上述的前期算法设计,在一个优选的实施例中,本发明所使用的的ResNet神经网络 的训练过程包括:
S001:获取音视频数据集,所述音视频数据集包括多个音视频文件样本,每个所述样本 包括音频样本和视频样本。
S002:设置每个所述样本对应的任务标签,其中,所述任务标签包括:语音哭泣标签、 视觉哭泣标签、一致性标签和音视频哭泣标签。
S003:将所述设置有任务标签的音视频数据集输入ResNet残差网络进行训练,得到训练 好的ResNet残差网络。
部署阶段没有多任务存在,只有一个任务4的标签输出,但是在训练过程中设置了多任 务去辅助提升部署阶段标签的识别精度。在训练过程中每个样本有四个标签,分别对应四个 任务,有一些复杂样本的标签中会出现任务3(一致性判断)是1的状态,大部分数据都是 语音和视频语义一致,也就是一致性标签为0,代表大部分样本中画面没有哭泣时候语音也 不会有哭泣,画面有哭泣时候语音也有哭泣。通过设置的损失函数,在训练过程中会对这种 不一致的数据进行格外的识别,如果在识别过程中这样的数据识别错了,其loss会增加很多, 而整体的训练目标是为了让loss变小,因此对于这个一致性样本会优先识别,不然loss会一 直下降不了。通过这样的手段,让算法能够在训练出来后关注到复杂样本的分类,从而提升 模型的精度。
与前述的基于音视频融合的婴儿哭泣检测方法对应,本发明还提供基于音视频融合的婴 儿哭泣检测装置,如图6所示,该装置400包括:
音视频文件拆分模块401,用于获取待检测的音视频文件,将所述音视频文件进行拆分, 得到音频数据和视频数据;
语音特征提取模块402,用于提取所述音频数据的梅尔频谱图,使用ResNet神经网络提 取所述梅尔频谱图的抽象特征,得到语音特征;
视觉特征提取模块403,用于提取所述视频数据中连续帧的灰度图像,使用3DCNN网络 提取所述灰度图像的抽象特征,得到视觉特征;
特征融合模块404,用于融合所述语音特征和所述视觉特征,得到混合特征;
哭泣检测模块405,用于将所述混合特征输入训练好的ResNet残差网络,得到哭泣检测 结果。
在其他实施例中,本发明还提供一种智能设备,如图7所示,包括:
至少一个存储器以及至少一个处理器;
所述存储器920,用于存储一个或多个程序;
当所述一个或多个程序被所述至少一个处理器910执行,使得所述至少一个处理器实现 如前所述的任意基于音视频融合的婴儿哭泣检测方法的步骤。
在其他实施例中,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质存 储有计算机程序,所述计算机程序被处理器执行时实现如前所述的任意基于音视频融合的婴 儿哭泣检测方法的步骤。
与现有技术相比,本发明提供的一种基于音视频融合的婴儿哭泣检测方法及装置,加入 视觉特征辅助判断婴儿是否在哭泣,提高了识别的精度和准确率。本发明提供的基于音视频 融合的婴儿哭泣检测方法及装置,使用自制的音视频数据集来识别复杂环境中的婴儿哭声, 该数据集比实验室环境中收集的数据集有更好的实用价值;将语音和视觉信息结合起来进行 婴儿哭声的自动识别,提高了婴儿哭声检测的准确度;通过设置多任务辅助判断,让算法能 够在训练出来后关注到复杂样本的分类,从而提升模型的精度。
在验证模型效果的过程中,对比了若干个相关算法,主要分为两种对比,一种是和之前 的婴儿哭泣算法进行对比,另外一种是对比单任务的融合算法。实验结果如下表:
表1算法效果对比图
方法 | 准确率 |
SVM | 0.84 |
CNN | 0.85 |
RE-SNet | 0.86 |
3DCNN | 0.84 |
ResNt+3DCNN+residual connection(单任务) | 0.91 |
ResNet+3DCNN+residual connection(多任务) | 0.94 |
可见,本发明提供的基于音视频融合的婴儿哭泣检测方法有明显的改进,F1分数为94%, 高于不使用多任务实验方法3%。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因 此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不 脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。
Claims (10)
1.基于音视频融合的婴儿哭泣检测方法,其特征在于,包括以下步骤:
获取待检测的音视频文件,将所述音视频文件进行拆分,得到音频数据和视频数据;
提取所述音频数据的梅尔频谱图,使用ResNet神经网络提取所述梅尔频谱图的抽象特征,得到语音特征;
提取所述视频数据中连续帧的灰度图像,使用3DCNN网络提取所述灰度图像的抽象特征,得到视觉特征;
融合所述语音特征和所述视觉特征,得到混合特征;
将所述混合特征输入训练好的ResNet残差网络,得到哭泣检测结果。
3.根据权利要求1所述的基于音视频融合的婴儿哭泣检测方法,其特征在于,使用ResNet神经网络提取所述梅尔频谱图的抽象特征,得到语音特征,包括:
将提取的所述梅尔频谱图转换成220*13维度,输入到ResNet神经网络中,使得所述ResNet神经网络通过卷积池化操作对所述梅尔频谱图进行抽象高维度特征提取;
截取ResNet神经网络的最后一层1024*1维度的数据,得到所述语音特征。
4.根据权利要求1所述的基于音视频融合的婴儿哭泣检测方法,其特征在于,提取所述音频数据的梅尔频谱图之前,还包括:
对所述语音数据进行采样、归一化、预加重和窗口化操作的预处理,得到预处理后的波形图。
5.根据权利要求1所述的基于音视频融合的婴儿哭泣检测方法,其特征在于,将所述混合特征输入训练好的ResNet残差网络,得到哭泣检测结果,包括:
将所述混合特征输入训练好的ResNet残差网络;
所述ResNet残差网络对所述混合特征进行卷积和池化操作,得到为哭泣的概率和不为哭泣的概率;
根据所述为哭泣的概率和所述不为哭泣的概率,得到哭泣检测结果。
6.根据权利要求5所述的基于音视频融合的婴儿哭泣检测方法,其特征在于,所述ResNet神经网络的训练过程包括:
获取音视频数据集,所述音视频数据集包括多个音视频文件样本,每个所述样本包括音频样本和视频样本;
设置每个所述样本对应的任务标签,其中,所述任务标签包括:语音哭泣标签、视觉哭泣标签、一致性标签和音视频哭泣标签;
将所述设置有任务标签的音视频数据集输入ResNet残差网络进行训练,得到训练好的ResNet残差网络。
7.根据权利要求1所述的基于音视频融合的婴儿哭泣检测方法,其特征在于,将所述音视频文件进行拆分之前,还包括:
对所述音视频文件进行数据归一化处理。
8.基于音视频融合的婴儿哭泣检测装置,其特征在于,包括:
音视频文件拆分模块,用于获取待检测的音视频文件,将所述音视频文件进行拆分,得到音频数据和视频数据;
语音特征提取模块,用于提取所述音频数据的梅尔频谱图,使用ResNet神经网络提取所述梅尔频谱图的抽象特征,得到语音特征;
视觉特征提取模块,用于提取所述视频数据中连续帧的灰度图像,使用3DCNN网络提取所述灰度图像的抽象特征,得到视觉特征;
特征融合模块,用于融合所述语音特征和所述视觉特征,得到混合特征;
哭泣检测模块,用于将所述混合特征输入训练好的ResNet残差网络,得到哭泣检测结果。
9.一种智能设备,其特征在于,包括:
至少一个存储器以及至少一个处理器;
所述存储器,用于存储一个或多个程序;
当所述一个或多个程序被所述至少一个处理器执行,使得所述至少一个处理器实现如权利要求1-7任一所述的基于音视频融合的婴儿哭泣检测方法的步骤。
10.一种计算机可读存储介质,其特征在于:
所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1-7任一所述的基于音视频融合的婴儿哭泣检测方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111422641.2A CN114582355B (zh) | 2021-11-26 | 2021-11-26 | 基于音视频融合的婴儿哭泣检测方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111422641.2A CN114582355B (zh) | 2021-11-26 | 2021-11-26 | 基于音视频融合的婴儿哭泣检测方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114582355A true CN114582355A (zh) | 2022-06-03 |
CN114582355B CN114582355B (zh) | 2024-07-12 |
Family
ID=81767983
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111422641.2A Active CN114582355B (zh) | 2021-11-26 | 2021-11-26 | 基于音视频融合的婴儿哭泣检测方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114582355B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115862682A (zh) * | 2023-01-03 | 2023-03-28 | 杭州觅睿科技股份有限公司 | 声音检测方法及相关设备 |
CN116386671A (zh) * | 2023-03-16 | 2023-07-04 | 宁波星巡智能科技有限公司 | 婴幼儿哭声类别识别方法、装置、设备及存储介质 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106682616A (zh) * | 2016-12-28 | 2017-05-17 | 南京邮电大学 | 基于双通道特征深度学习的新生儿疼痛表情识别方法 |
CN107886953A (zh) * | 2017-11-27 | 2018-04-06 | 四川长虹电器股份有限公司 | 一种基于表情和语音识别的婴儿哭声翻译系统 |
CN109509484A (zh) * | 2018-12-25 | 2019-03-22 | 科大讯飞股份有限公司 | 一种婴儿啼哭原因的预测方法及装置 |
US20190130720A1 (en) * | 2017-10-27 | 2019-05-02 | Benjamin Lui | Systems and methods for a machine learning baby monitor |
CN110751188A (zh) * | 2019-09-26 | 2020-02-04 | 华南师范大学 | 基于多标记学习的用户标签预测方法、系统及存储介质 |
CN111276159A (zh) * | 2018-12-05 | 2020-06-12 | 阿里健康信息技术有限公司 | 一种婴儿发音分析方法及服务器 |
CN112967733A (zh) * | 2021-02-26 | 2021-06-15 | 武汉星巡智能科技有限公司 | 智能识别婴儿哭声类别的方法及装置 |
CN113035241A (zh) * | 2021-02-26 | 2021-06-25 | 武汉星巡智能科技有限公司 | 多特征融合识别婴儿哭声类别的方法、装置及设备 |
-
2021
- 2021-11-26 CN CN202111422641.2A patent/CN114582355B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106682616A (zh) * | 2016-12-28 | 2017-05-17 | 南京邮电大学 | 基于双通道特征深度学习的新生儿疼痛表情识别方法 |
US20190130720A1 (en) * | 2017-10-27 | 2019-05-02 | Benjamin Lui | Systems and methods for a machine learning baby monitor |
CN107886953A (zh) * | 2017-11-27 | 2018-04-06 | 四川长虹电器股份有限公司 | 一种基于表情和语音识别的婴儿哭声翻译系统 |
CN111276159A (zh) * | 2018-12-05 | 2020-06-12 | 阿里健康信息技术有限公司 | 一种婴儿发音分析方法及服务器 |
CN109509484A (zh) * | 2018-12-25 | 2019-03-22 | 科大讯飞股份有限公司 | 一种婴儿啼哭原因的预测方法及装置 |
CN110751188A (zh) * | 2019-09-26 | 2020-02-04 | 华南师范大学 | 基于多标记学习的用户标签预测方法、系统及存储介质 |
CN112967733A (zh) * | 2021-02-26 | 2021-06-15 | 武汉星巡智能科技有限公司 | 智能识别婴儿哭声类别的方法及装置 |
CN113035241A (zh) * | 2021-02-26 | 2021-06-25 | 武汉星巡智能科技有限公司 | 多特征融合识别婴儿哭声类别的方法、装置及设备 |
Non-Patent Citations (2)
Title |
---|
GARVIT JOSHI,ET AL.: "Prediction of Probability of Crying of a Child and System Formation for Cry Detection and Financial Viability of the System", 《2017 INTERNATIONAL CONFERENCE ON VISION, IMAGE AND SIGNAL PROCESSING (ICVISP)》, 24 September 2017 (2017-09-24) * |
陈燕斌: "基于机器学习的婴儿语音检测算法研究", 《中国优秀硕士学位论文(信息科技辑)》, no. 2, 15 December 2019 (2019-12-15) * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115862682A (zh) * | 2023-01-03 | 2023-03-28 | 杭州觅睿科技股份有限公司 | 声音检测方法及相关设备 |
CN115862682B (zh) * | 2023-01-03 | 2023-06-20 | 杭州觅睿科技股份有限公司 | 声音检测方法及相关设备 |
CN116386671A (zh) * | 2023-03-16 | 2023-07-04 | 宁波星巡智能科技有限公司 | 婴幼儿哭声类别识别方法、装置、设备及存储介质 |
CN116386671B (zh) * | 2023-03-16 | 2024-05-07 | 宁波星巡智能科技有限公司 | 婴幼儿哭声类别识别方法、装置、设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN114582355B (zh) | 2024-07-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111461176A (zh) | 基于归一化互信息的多模态融合方法、装置、介质及设备 | |
CN110782872A (zh) | 基于深度卷积循环神经网络的语种识别方法及装置 | |
Zhou et al. | A compact representation of visual speech data using latent variables | |
US7373301B2 (en) | Method for detecting emotions from speech using speaker identification | |
US10157619B2 (en) | Method and device for searching according to speech based on artificial intelligence | |
EP0549265A2 (en) | Neural network-based speech token recognition system and method | |
CN105575388A (zh) | 情感语音处理 | |
Sahoo et al. | Emotion recognition from audio-visual data using rule based decision level fusion | |
CN114582355A (zh) | 基于音视频融合的婴儿哭泣检测方法及装置 | |
CN111326143B (zh) | 语音处理方法、装置、设备及存储介质 | |
CN110807585A (zh) | 一种学员课堂学习状态在线评估方法及系统 | |
CN111326139B (zh) | 一种语种识别方法、装置、设备及存储介质 | |
CN111554279A (zh) | 一种基于Kinect的多模态人机交互系统 | |
Gogate et al. | Av speech enhancement challenge using a real noisy corpus | |
Poorjam et al. | Quality control of voice recordings in remote Parkinson’s disease monitoring using the infinite hidden Markov model | |
Lavechin et al. | Statistical learning models of early phonetic acquisition struggle with child-centered audio data | |
Kamble et al. | Emotion recognition for instantaneous Marathi spoken words | |
CN114822557A (zh) | 课堂中不同声音的区分方法、装置、设备以及存储介质 | |
CN115145402A (zh) | 具有网络交互功能的智能玩具系统及控制方法 | |
CN114492579A (zh) | 情绪识别方法、摄像装置、情绪识别装置及存储装置 | |
CN115687910A (zh) | 一种数据处理方法、装置、计算机设备以及可读存储介质 | |
CN114494930A (zh) | 语音与图像同步性衡量模型的训练方法及装置 | |
CN114664325A (zh) | 一种异常声音识别方法、系统、终端设备及计算机可读存储介质 | |
Yin et al. | Investigating speech features and automatic measurement of cognitive load | |
Ankışhan | A new approach for the acoustic analysis of the speech pathology |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant |