CN111785300B - 一种基于深度神经网络的哭声检测方法和系统 - Google Patents
一种基于深度神经网络的哭声检测方法和系统 Download PDFInfo
- Publication number
- CN111785300B CN111785300B CN202010535453.XA CN202010535453A CN111785300B CN 111785300 B CN111785300 B CN 111785300B CN 202010535453 A CN202010535453 A CN 202010535453A CN 111785300 B CN111785300 B CN 111785300B
- Authority
- CN
- China
- Prior art keywords
- data
- crying
- sound data
- neural network
- deep neural
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 206010011469 Crying Diseases 0.000 title claims abstract description 98
- 238000001514 detection method Methods 0.000 title claims abstract description 33
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 23
- 238000003062 neural network model Methods 0.000 claims abstract description 31
- 230000005236 sound signal Effects 0.000 claims description 26
- 238000000034 method Methods 0.000 claims description 22
- 238000001228 spectrum Methods 0.000 claims description 17
- 238000012549 training Methods 0.000 claims description 14
- 238000000605 extraction Methods 0.000 claims description 12
- 238000002156 mixing Methods 0.000 claims description 6
- 239000002131 composite material Substances 0.000 claims description 4
- 238000009432 framing Methods 0.000 claims description 3
- 238000005070 sampling Methods 0.000 description 6
- 238000013527 convolutional neural network Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 2
- 230000000977 initiatory effect Effects 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000011897 real-time detection Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 206010039740 Screaming Diseases 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000003780 insertion Methods 0.000 description 1
- 230000037431 insertion Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 239000007788 liquid Substances 0.000 description 1
- 230000000873 masking effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/63—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Signal Processing (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Theoretical Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Computing Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Psychiatry (AREA)
- Molecular Biology (AREA)
- Child & Adolescent Psychology (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Hospice & Palliative Care (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Emergency Alarm Devices (AREA)
Abstract
本发明公开了一种基于深度神经网络的哭声检测方法和系统,属于声音检测系统;通过实时获取待检测环境的声音数据,再将声音数据输入到经过合成数据训练的深度神经网络模型中得到输出结果,最后根据输出结果得到是否检测到哭声的结论。实时的获取声音数据进行检测,能够及时发出警告;同时将获取的声音数据通过经过合成数据训练的深度神经网络模型,能够在不同的场景中检测到哭声,同时也能够将易混淆的声音区分出来。大大提高了检测的准确率。
Description
技术领域
本发明涉及声音检测领域,特别地,涉及一种基于深度神经网络的哭声检测方法和系统。
背景技术
婴幼儿是祖国的希望,但是保姆虐婴,幼师打骂儿童事件屡见不鲜,从而引起父母深深的担忧。所以实时检测婴幼儿哭声事件,并能及时反馈给父母或者报警系统,显得尤为重要。目前婴幼儿哭声检测技术,大多是对于家居环境下的婴儿进行哭声检测,卧室、家居环境一般较安静,底噪比较低。而对于环境比较复杂的非家居环境比如幼儿园、公园等,这些检测的准确率会明显降低,容易出现误报、漏报现象。同时对于一些易混淆的声音,与哭声类似,容易误检测成哭声,如喵喵叫、笑声)、叽叽喳喳谈话声、吱吱叫、尖声喊叫等。
发明内容
为了克服现有技术的不足,本发明提供一种基于深度神经网络的、能够在环境比较复杂的场景应用且能够区分易混淆声音的哭声检测方法和系统。
本发明解决其技术问题所采用的技术方案是:
一方面,
一种基于深度神经网络的哭声检测方法,包括以下步骤:
获取待检测环境的声音数据;
将所述声音数据输入到经过合成数据训练的深度神经网络模型中得到输出结果;
根据所述输出结果得到是否检测到哭声的结论。
进一步地,所述获取待检测环境的声音数据包括:
采用拾音器对待检测环境进行录音获得音频信号;
对所述音频信号进行音频特征提取和数据增强得到声音数据。
进一步地,所述经过合成数据训练的深度神经网络模型为采用纯净哭声数据、场景声音数据和易混声音数据合成的数据集训练得到的深度神经网络模型。
进一步地,所述深度神经网络模型的训练步骤为:
获取合成的数据集,所述数据集包括合成的音频信号;
根据所述合成的音频信号进行音频特征提取并进行数据增强得到深度神经网络的输入;
根据所述输入对深度神经网络模型进行训练。
进一步地,所述进行音频特征提取包括:
将音频信号进行预加重、分帧和加窗以及通过快速傅里叶变换得到频谱;
将所述频谱通过mel滤波器得到mel频谱;
对所述mel频谱取对数得到对数mel频谱特征。
进一步地,所述数据增强的方法包括:mixup、缩放和遮盖,所述数据增强用于消除模型的过拟合现象。
进一步地,所述获取合成的数据集包括:
分别获取纯净哭声数据、易混声音数据以及场景声音数据;
对所述纯净哭声数据、易混声音数据以及场景声音数据使用基于svm的半监督分类进行注释,并标注开始时间和结束时间形成样本标签;
将所述开始时间和所述结束时间内的纯净哭声数据的音频片段与易混声音数据以及场景声音数据进行混合,形成混合样本以及混合样本标签,即合成的数据集。
进一步地,所述输出结果为预设帧数内的音频信号是哭声的概率。
进一步地,根据所述输出结果得到是否检测到哭声的结论包括:
将所述概率与预设概率值进行比较;
若所述概率不小于所述预设概率值,则得出检测到哭声的结论;若所述概率小于所述预设概率值,则得出未检测到哭声的结论。
另一方面,
一种基于深度神经网络的哭声检测系统,包括:
数据获取模块,获取待检测环境的声音数据;
模型输出模块,用于将所述声音数据输入到经过合成数据训练的深度神经网络模型中得到输出结果;
结论获取模块,用于根据所述输出结果得到是否检测到哭声的结论。
本申请采用以上技术方案,至少具备以下有益效果:
本发明技术方案公开了一种基于深度神经网络的哭声检测方法和系统,通过实时获取待检测环境的声音数据,再将声音数据输入到经过合成数据训练的深度神经网络模型中得到输出结果,最后根据输出结果得到是否检测到哭声的结论。实时的获取声音数据进行检测,能够及时发出警告;同时将获取的声音数据通过经过合成数据训练的深度神经网络模型,能够在不同的场景中检测到哭声,同时也能够将易混淆的声音区分出来。大大提高了检测的准确率。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的一种基于深度神经网络的哭声检测方法的流程图;
图2是本发明实施例提供的另一种基于深度神经网络的哭声检测方法的流程图;
图3是本发明实施例提供的一种基于深度神经网络的哭声检测系统的结构图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面结合附图和实施例对本发明的技术方案进行详细的描述说明。显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所得到的所有其它实施方式,都属于本申请所保护的范围。
参照图1,本发明实施例提供了一种基于深度神经网络的哭声检测方法,包括以下步骤:
实时获取待检测环境的声音数据;
将声音数据输入到经过合成数据训练的深度神经网络模型中得到输出结果;
根据输出结果得到是否检测到哭声的结论。
本发明实施例提供的一种基于深度神经网络的哭声检测方法,通过实时获取待检测环境的声音数据,再将声音数据输入到经过合成数据训练的深度神经网络模型中得到输出结果,最后根据输出结果得到是否检测到哭声的结论。实时的获取声音数据进行检测,能够及时发出警告;同时将获取的声音数据通过经过合成数据训练的深度神经网络模型,能够在不同的场景中检测到哭声,同时也能够将易混淆的声音区分出来。大大提高了检测的准确率。
作为对上述实施例的进一步改进说明,本发明实施例提供了另一种基于深度神经网络的哭声检测方法,如图2所示,包括训练部分和预测部分,其中预测部分包括以下步骤:
实时获取待检测环境的声音数据;
具体的,采用拾音器对待检测环境进行录音获得音频信号;一些可选实施例中,拾音器包括但不限于:手机麦克风或者需要做哭声检测的产品麦克风。
对音频信号进行音频特征提取和数据增强得到声音数据。音频特征提取和数据增强详见下文。
将声音数据输入到经过合成数据训练的深度神经网络模型中得到输出结果;
其中,经过合成数据训练的深度神经网络模型为采用纯净哭声数据、场景声音数据和易混声音数据合成的数据集训练得到的深度神经网络模型。
进一步地,输出结果为预设帧数内的音频信号是哭声的概率。优选地,将提取得到的音频特征输入到训练好的神经网络模型,从而得到预测结果,该结果是299帧(3.5s)音频信号是哭声的概率p,0<=p<=1。这样避免了只考虑单帧而引起的预测结果不稳定的问题。
根据输出结果得到是否检测到哭声的结论。
由于在实时检测中,得到的结论只能是检测到哭声和没有检测到哭声两种情况,而根据深度神经网络模型得到的概率只是一个数值,因此必须根据这个概率得到其是否检测到哭声的结论。
示例性的,实时预测时,可以设置预测频率即每隔多久输出一次预测结果。当采集音频长度小于299帧时,会进行数据填充操作,输出预测结果。当超过299帧时,会根据设置的预测频率,输出当前时刻前299帧的预测结果。优选地,本发明实施例中预测频率为0.5s。
得到每299帧的状态预测概率为0~1的概率值,而最终需要的结果是有婴幼儿哭声或正常的判断结果。因此需要选择合适的阈值,将概率p转化为二值化的判断结果。
可选地,将概率与预设概率值进行比较;
若概率不小于预设概率值,输出值为1,得出检测到哭声的结论;若概率小于预设概率值,输出值为0,得出未检测到哭声的结论。
其中,训练部分主要为度神经网络模型的训练步骤,包括:
获取合成的数据集,数据集包括合成的音频信号;
一些可选实施例中,获取合成的数据集包括:
分别获取纯净哭声数据、易混声音数据以及场景声音数据;具体地,纯净的哭声数据包括日常安静环境录制以及网络收集,采样频率一般为44.1kHz;场景声音数据选择了一些典型的发生场景,如校园、教室、小型室内、办公室、公园、广场、商场、图书馆等等,数据获取方式同样包含自行录制和网络搜集。
对纯净哭声数据、易混声音数据以及场景声音数据使用基于svm的半监督分类进行注释,并标注开始时间和结束时间形成样本标签;一些可选实施例中,进一步地,对于收集的音频进行人工确认标注,确认标签。
将开始时间和结束时间内的纯净哭声数据的音频片段与易混声音数据以及场景声音数据进行混合,形成混合样本以及混合样本标签,即合成的数据集。
具体地,将哭声和易混声音数据与不同场景声音数据进行混合。具体操作为将纯净哭声数据和易混声音数据样本,根据标注的开始和结束时间,截取出相应的音频片段,然后与场景声音数据进行混合,形成新的混合样本和样本标签。控制合成样本的参数包括:样本与背景的信噪比(可选地,信噪比为-6dB/0dB/6dB中的任意一个),音频片段插入位置与长度(示例性的,位置随机,长度不超过3s),生成合成样本的个数与标签(示例性的,合成哭声样本10000个,非哭声样本20000个。哭声合成样本标签为“哭声”,易混声音数据合成样本和场景音频的标签为“正常”),合成音频的采样率和长度(示例性的,采样率为44.1KHz,合成音频长度是4s,其中插入音频最长为3s,背景音频长度为4s)。
根据合成的音频信号进行音频特征提取并进行数据增强得到深度神经网络的输入;作为本发明实施例中一种优选的实现方式,模型网络结构采用inception模块,该模块同一层级有多个尺寸的卷积核,从而拓宽网络的宽度,充分利用图像的信息。并且使用尺寸为1的卷积核,使得模型参数大大降低。训练损失函数为二分类交叉熵,采用adam优化器进行梯度下降运算。最终哭声检测模型测试集准确率为99%以上,实时预测时误报很少,而且预测概率值稳定在1左右。
根据输入对深度神经网络模型进行训练。对深度神经网络模型进行训练为本领域常用技术手段,在此不再详述。
需要说明的是,在训练部分和预测部分都包括的进行音频特征提取和数据增强,其中,音频特征提取包括:
将音频信号进行预加重、分帧和加窗以及通过快速傅里叶变换得到频谱;
将频谱通过mel滤波器得到mel频谱;
对mel频谱取对数得到对数mel频谱特征。
具体地,参数设置一般为:采样率44.1kHz,窗长2048个采样点,窗移512个采样点,选用汉明(hamming)窗,从而降低fft时矩形窗的频谱泄露,帧数是299,mel滤波器个数为128。为了匹配神经网络模型,本发明实施例将音频三个相同的对数mel频谱特征进行拼接,得到音频特征的维度为(128,299,3)。
一些可选实施例中,数据增强的方法包括但不限于:mixup、缩放和遮盖,数据增强用于消除模型的过拟合现象。
本发明实施例提供的另一种基于深度神经网络的哭声检测方法,采用哭声事件和易混事件与背景声混合的方式,形成鲁棒性更好的数据集,并训练得到能够适用于多种场景的卷积神经网络模型。该模型可以实时的对各种场景的哭声事件进行检测,而且更充分的利用了音频信号的信息,从而具有更强的鲁棒性和更高的准确率。相比于只针对特定环境分析、基音频率分析、svm分类等方法,本发明具有更广泛的适用性,而且实时性好,精度高。本方法通过纯净的哭声事件和哭声相似事件与多种生活场景数据混合方式得到数据集、训练深度卷积神经网络,对生活中的哭声事件进行检测。相对于已有方案有两方面优点:一是选用的数据集鲁棒性强,训练的模型适用于多数场景而且误报率低;二是建立inception模块的卷积神经网络,模型参数少,精度高,方便应用到所需设备上。哭声检测模型在测试集上的准确率为99%以上,实时预测时误报很少,而且预测概率值很稳定,接近1。
一个实施例中,如图3所示,本发明还提供了一种基于深度神经网络的哭声检测系统300,包括:
数据获取模块301,用于实时获取待检测环境的声音数据;
一些实施例中,数据获取模块采用拾音器对待检测环境进行录音获得音频信号;对音频信号进行音频特征提取和数据增强得到声音数据。
模型输出模块302,用于将声音数据输入到经过合成数据训练的深度神经网络模型中得到输出结果;经过合成数据训练的深度神经网络模型为采用纯净哭声数据、场景声音数据和易混声音数据合成的数据集训练得到的深度神经网络模型。
结论获取模块303,用于根据输出结果得到是否检测到哭声的结论。其中,输出结果为预设帧数内的音频信号是哭声的概率。
具体地,结论获取模块用于将概率与预设概率值进行比较;
若概率不小于预设概率值,则得出检测到哭声的结论;若概率小于预设概率值,则得出未检测到哭声的结论。
本发明实施例提供的一种基于深度神经网络的哭声检测系统,数据获取模块实时获取待检测环境的声音数据;模型输出模块将声音数据输入到经过合成数据训练的深度神经网络模型中得到输出结果;结论获取模块根据输出结果得到是否检测到哭声的结论。通过适用于多种场景的卷积神经网络模型,可以实时的对各种场景的哭声进行检测,而且更充分的利用了音频信号的信息,从而具有更强的鲁棒性和更高的准确率。
可以理解的是,上述各实施例中相同或相似部分可以相互参考,在一些实施例中未详细说明的内容可以参见其他实施例中相同或相似的内容。
需要说明的是,在本申请的描述中,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性。此外,在本申请的描述中,除非另有说明,“多个”的含义是指至少两个。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本申请的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本申请的实施例所属技术领域的技术人员所理解。
应当理解,本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本申请各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
上述提到的存储介质可以是只读存储器,磁盘或光盘等。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
尽管上面已经示出和描述了本申请的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本申请的限制,本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。
Claims (7)
1.一种基于深度神经网络的哭声检测方法,其特征在于,包括以下步骤:
实时获取待检测环境的声音数据;
将所述声音数据输入到经过合成数据训练的深度神经网络模型中得到输出结果;
根据所述输出结果得到是否检测到哭声的结论;
其中,所述经过合成数据训练的深度神经网络模型为采用纯净哭声数据、场景声音数据和易混声音数据合成的数据集训练得到的深度神经网络模型;
所述深度神经网络模型的训练步骤包括:
获取合成的数据集,所述数据集包括合成的音频信号;
根据所述合成的音频信号进行音频特征提取并进行数据增强得到深度神经网络的输入;
根据所述输入对深度神经网络模型进行训练;
所述获取合成的数据集包括:
分别获取纯净哭声数据、易混声音数据以及场景声音数据;
对所述纯净哭声数据、易混声音数据以及场景声音数据使用基于svm的半监督分类进行注释,并标注开始时间和结束时间形成样本标签;
将所述开始时间和所述结束时间内的纯净哭声数据的音频片段与易混声音数据以及场景声音数据进行混合,形成混合样本以及混合样本标签,即合成的数据集;具体地,将纯净哭声数据和易混声音数据样本,根据标注的开始和结束时间,截取出相应的音频片段,然后与场景声音数据进行混合,形成新的混合样本和样本标签;所述新的混合样本包括哭声样本和非哭声样本,所述哭声样本的的标签为哭声;非哭声样本的标签为正常。
2.根据权利要求1所述的方法,其特征在于:所述实时获取待检测环境的声音数据包括:
采用拾音器对待检测环境进行录音获得音频信号;
对所述音频信号进行音频特征提取和数据增强得到声音数据。
3.根据权利要求1所述的方法,其特征在于:所述进行音频特征提取包括:
将音频信号进行预加重、分帧和加窗以及通过快速傅里叶变换得到频谱;
将所述频谱通过mel滤波器得到mel频谱;
对所述mel频谱取对数得到对数mel频谱特征。
4.根据权利要求1所述的方法,其特征在于:所述数据增强的方法包括:mixup、缩放和遮盖,所述数据增强用于消除模型的过拟合现象。
5.根据权利要求1所述的方法,其特征在于:所述输出结果为预设帧数内的音频信号是哭声的概率。
6.根据权利要求5所述的方法,其特征在于:根据所述输出结果得到是否检测到哭声的结论包括:
将所述概率与预设概率值进行比较;
若所述概率不小于所述预设概率值,则得出检测到哭声的结论;若所述概率小于所述预设概率值,则得出未检测到哭声的结论。
7.一种基于深度神经网络的哭声检测系统,其特征在于,包括:
数据获取模块,用于实时获取待检测环境的声音数据;
模型输出模块,用于将所述声音数据输入到经过合成数据训练的深度神经网络模型中得到输出结果;其中,所述经过合成数据训练的深度神经网络模型为采用纯净哭声数据、场景声音数据和易混声音数据合成的数据集训练得到的深度神经网络模型;
结论获取模块,用于根据所述输出结果得到是否检测到哭声的结论;
所述深度神经网络模型的训练步骤包括:
获取合成的数据集,所述数据集包括合成的音频信号;
根据所述合成的音频信号进行音频特征提取并进行数据增强得到深度神经网络的输入;
根据所述输入对深度神经网络模型进行训练;
所述获取合成的数据集包括:
分别获取纯净哭声数据、易混声音数据以及场景声音数据;
对所述纯净哭声数据、易混声音数据以及场景声音数据使用基于svm的半监督分类进行注释,并标注开始时间和结束时间形成样本标签;
将所述开始时间和所述结束时间内的纯净哭声数据的音频片段与易混声音数据以及场景声音数据进行混合,形成混合样本以及混合样本标签,即合成的数据集;具体地,将纯净哭声数据和易混声音数据样本,根据标注的开始和结束时间,截取出相应的音频片段,然后与场景声音数据进行混合,形成新的混合样本和样本标签;所述新的混合样本包括哭声样本和非哭声样本,所述哭声样本的的标签为哭声;非哭声样本的标签为正常。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010535453.XA CN111785300B (zh) | 2020-06-12 | 2020-06-12 | 一种基于深度神经网络的哭声检测方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010535453.XA CN111785300B (zh) | 2020-06-12 | 2020-06-12 | 一种基于深度神经网络的哭声检测方法和系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111785300A CN111785300A (zh) | 2020-10-16 |
CN111785300B true CN111785300B (zh) | 2021-05-25 |
Family
ID=72756262
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010535453.XA Active CN111785300B (zh) | 2020-06-12 | 2020-06-12 | 一种基于深度神经网络的哭声检测方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111785300B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117935843B (zh) * | 2024-03-22 | 2024-07-23 | 浙江芯劢微电子股份有限公司 | 一种低资源场景下的哭声检测方法、系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103280220A (zh) * | 2013-04-25 | 2013-09-04 | 北京大学深圳研究生院 | 一种实时的婴儿啼哭声识别方法 |
CN107808658A (zh) * | 2016-09-06 | 2018-03-16 | 深圳声联网科技有限公司 | 基于家居环境下实时的婴儿音频系列行为检测方法 |
CN110070893A (zh) * | 2019-03-25 | 2019-07-30 | 成都品果科技有限公司 | 一种利用婴儿哭声进行情感分析的系统、方法和装置 |
CN110085216A (zh) * | 2018-01-23 | 2019-08-02 | 中国科学院声学研究所 | 一种婴儿哭声检测方法及装置 |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6234060B2 (ja) * | 2013-05-09 | 2017-11-22 | インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation | ターゲットドメインの学習用音声データの生成方法、生成装置、および生成プログラム |
KR102332729B1 (ko) * | 2014-07-28 | 2021-11-30 | 삼성전자주식회사 | 발음 유사도를 기반으로 한 음성 인식 방법 및 장치, 음성 인식 엔진 생성 방법 및 장치 |
US9965685B2 (en) * | 2015-06-12 | 2018-05-08 | Google Llc | Method and system for detecting an audio event for smart home devices |
KR102413067B1 (ko) * | 2015-07-28 | 2022-06-24 | 삼성전자주식회사 | 문법 모델을 갱신하고, 문법 모델에 기초하여 음성 인식을 수행하는 방법 및 디바이스 |
KR102578147B1 (ko) * | 2017-02-14 | 2023-09-13 | 아브네라 코포레이션 | 통신 어셈블리에서의 사용자 음성 액티비티 검출을 위한 방법, 그것의 통신 어셈블리 |
CN110097872B (zh) * | 2019-04-30 | 2021-07-30 | 维沃移动通信有限公司 | 一种音频处理方法及电子设备 |
CN110176248B (zh) * | 2019-05-23 | 2020-12-22 | 广西交科集团有限公司 | 道路声音识别方法、系统、计算机设备及可读存储介质 |
CN111210811B (zh) * | 2019-12-31 | 2022-10-04 | 深圳市瑞讯云技术有限公司 | 一种基音混合方法及装置 |
-
2020
- 2020-06-12 CN CN202010535453.XA patent/CN111785300B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103280220A (zh) * | 2013-04-25 | 2013-09-04 | 北京大学深圳研究生院 | 一种实时的婴儿啼哭声识别方法 |
CN107808658A (zh) * | 2016-09-06 | 2018-03-16 | 深圳声联网科技有限公司 | 基于家居环境下实时的婴儿音频系列行为检测方法 |
CN110085216A (zh) * | 2018-01-23 | 2019-08-02 | 中国科学院声学研究所 | 一种婴儿哭声检测方法及装置 |
CN110070893A (zh) * | 2019-03-25 | 2019-07-30 | 成都品果科技有限公司 | 一种利用婴儿哭声进行情感分析的系统、方法和装置 |
Also Published As
Publication number | Publication date |
---|---|
CN111785300A (zh) | 2020-10-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20200227049A1 (en) | Method, apparatus and device for waking up voice interaction device, and storage medium | |
US8971549B2 (en) | Audio signal processing apparatus, audio signal processing method, and program | |
US8195038B2 (en) | Brief and high-interest video summary generation | |
US7796860B2 (en) | Method and system for playing back videos at speeds adapted to content | |
US8200061B2 (en) | Signal processing apparatus and method thereof | |
EP1081960A1 (en) | Signal processing method and video/voice processing device | |
CN108962284A (zh) | 一种语音录制方法及装置 | |
CN106653059A (zh) | 婴儿啼哭原因的自动识别方法及其系统 | |
CN113114986B (zh) | 基于画面和声音同步的预警方法及相关设备 | |
CN111785300B (zh) | 一种基于深度神经网络的哭声检测方法和系统 | |
JP5723446B2 (ja) | 興味区間特定装置、興味区間特定方法、興味区間特定プログラム、及び、興味区間特定集積回路 | |
KR20160107734A (ko) | 동영상의 시간정보를 이용한 유해 동영상 분류방법 및 장치 | |
CN112381054A (zh) | 摄像机的工作状态检测方法及相关设备、系统 | |
CN108093356B (zh) | 一种啸叫检测方法及装置 | |
KR101369270B1 (ko) | 멀티 채널 분석을 이용한 비디오 스트림 분석 방법 | |
CN111767083B (zh) | 误唤醒音频数据的收集方法、播放设备、电子设备、介质 | |
CN114092726A (zh) | 人脸比对阈值调节方法、装置和人脸识别设备及系统 | |
Divakaran et al. | A video-browsing-enhanced personal video recorder | |
CN112309419B (zh) | 多路音频的降噪、输出方法及其系统 | |
US20230326211A1 (en) | System and method for artificial intelligence-based media matching for automating downstream media workflows | |
Otsuka et al. | A video browsing enabled personal video recorder | |
CN118737172A (zh) | 基于拾音环境因素采集的音频数据增强方法、装置及介质 | |
CN105513103A (zh) | 制作有声图片的方法及装置 | |
CN113949766A (zh) | 一种移动端录屏处理方法及装置 | |
AU2002301619B2 (en) | Audio Segmentation with the Bayesian Information Criterion |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |