CN114863950A

CN114863950A - 一种基于异常检测的婴儿哭声检测、网络建立方法和系统

Info

Publication number: CN114863950A
Application number: CN202210794920.XA
Authority: CN
Inventors: 谭卫军
Original assignee: Shenzhen Shenmu Information Technology Co ltd
Current assignee: Shenzhen Shenmu Information Technology Co ltd
Priority date: 2022-07-07
Filing date: 2022-07-07
Publication date: 2022-08-05
Anticipated expiration: 2042-07-07
Also published as: CN114863950B

Abstract

本申请公开了一种基于异常检测的婴儿哭声检测、网络建立方法和系统，检测方法包括建立婴儿哭声检测系统，将待检测声音文件输入婴儿哭声检测系统进行检测，婴儿哭声检测系统对待检测声音文件按单位时长进行切割，得到若干个待检测声音帧，对各声音帧进行预处理，得到各帧频谱二维图像，将各帧频谱二维图像输入训练好的特征提取骨干网络提取特征，再由训练好的特征优化分类网络进行运算，得到各声音帧包含哭声的概率，根据概率判断有无异常，基于检测方法，构建婴儿哭声检测系统，建立系统中各网络结构并训练，本申请的婴儿哭声检测系统，结构简单，检测速度快，准确率高。

Description

一种基于异常检测的婴儿哭声检测、网络建立方法和系统

技术领域

本发明涉及声音检测技术领域，尤其是涉及一种基于异常检测的婴儿哭声检测、网络建立方法和系统。

背景技术

婴儿检测是婴儿家庭的一种重要事项，目前婴儿检测的方法包括视频检测、哭声检测、呼吸检测。视频检测能够看到婴儿的现状，人们不可能时时看着视频。呼吸检测能够监测有潜在问题的婴儿，当出现问题时，及时提供看护。

哭声检测，当婴儿发出哭声时，给看护者发送报警信息，提醒父母看护婴儿。现有技术甚至可以根据婴儿哭声判断是什么原因导致婴儿啼哭，从而有针对性地提供婴儿看护方式。

婴儿视频检测是视频监控技术的一种重要应用。这个应用不但可以减轻父母的负担，而且可以保护婴儿的安全。一个例子是呼吸检测，可以监测有潜在问题的婴儿，当出现问题时，及时提供看护。

目前的哭声检测方法，大多基于传统的机器学习方法，比如在各种物理特性（均值、方差、周期，过零数）上的SVM方法。但这种方法通常性能较差，泛化能力较差。最近几年出现了用CNN进行分类的方法，总体上存在 CNN网络结构不够高效、CNN网络训练还不够精确的问题。

因此，如何准备大量的训练数据、设计高效的CNN网络，是目前亟待解决的问题。

发明内容

本发明的目的是提供一种一种基于异常检测的婴儿哭声检测、网络建立方法和系统，获取哭声信号和正常声音信号，对声音进行预处理；设置特征提取骨干网络结构，对特征提取骨干网络进行训练，固化参数；设置特征优化分类网络，进行训练，固化参数，基于固化参数后的特征提取骨干网络、特征优化分类网络，建立婴儿哭声检测系统，基于婴儿哭声检测系统进行声音检测，得到是否有哭声的检测结果，使用弱监督学习的方法，降低训练数据，使得区分哭声和非哭声更加容易。

第一方面，本发明的上述发明目的通过以下技术方案得以实现：

一种基于异常检测的婴儿哭声检测方法，包括建立婴儿哭声检测系统，将待检测声音文件输入婴儿哭声检测系统进行检测，婴儿哭声检测系统对待检测声音文件按单位时长进行切割，得到若干个待检测声音帧，对各声音帧进行预处理，得到各帧频谱二维图像，将各帧频谱二维图像输入训练好的特征提取骨干网络提取特征，再由训练好的特征优化分类网络进行运算，得到各声音帧包含哭声的概率，若概率大于设定阈值，则说明有哭声，若概率小于设定阈值，则说明无哭声。

第二方面，本发明的上述发明目的通过以下技术方案得以实现：

一种用于婴儿哭声检测的特征提取骨干网络建立方法，包括获取哭声频谱二维图像和正常声音频谱二维图像，设置特征提取骨干网络结构，用频谱二维图像对特征提取骨干网络进行训练，固定特征提取骨干网络参数，得到固定参数的特征提取骨干网络。

本发明进一步设置为：从哭声信号中截取单位长度的若干哭声段，分别进行频谱分析，得到若干哭声频谱二维图像并标记；从正常声音信号中截取单位长度的若干正常声音段，分别进行频谱分析，得到若干正常声音频谱二维图像并标记。

本发明进一步设置为：设置特征提取骨干网络结构包括N层，每层设置输入通道数、输出通道数、核大小、步长，最顶层采用二维卷积层，中间层采用M层BlazeBlock结构、Q层全连接层，Q个全连接层分别与一个BlazeBlock结构连接，最后一层采用全连接层，将频谱二维图像输入最顶层，经过各层级联运算，并将各全连接层级联，从最后一层全连接层输出一个二分类结果，提取到声音特征，其中M、N、Q是正整数，且Q是小于M的正整数，M是小于N的正整数。

本发明进一步设置为：中间层采用16层BlazeBlock结构，最顶层的输出送入第一层BlazeBlock，各层BlazeBlock结构级联，其中一层BlazeBlock的输出，在级联到下一层BlazeBlock时也输入第一全连接层，最后一层BlazeBlock的输出输入第二全连接层，将第一个全连接层的输入、第二个全连接层的输入，进行flat展开后，再进行级联，得到一个K维的信号，将K维的信号输入最后一层全连接层，产生最后的二分类结果。

第三方面，本发明的上述发明目的通过以下技术方案得以实现：

一种用于婴儿哭声检测的特征优化分类网络建立方法，设置特征优化分类网络包括特征优化子网络和分类子网络，采用包含哭声和不包含哭声的音频文件，输入训练好的特征提取骨干网提取正样本特征，采用不包含哭声的音频文件，输入训练好的特征提取骨干网提取负样本特征，采用多实例学习方法，用正负样本特征对特征优化分类网络进行训练，固定特征优化分类网络参数。

本发明进一步设置为：将特征提取骨干网输出的正负样本CNN特征，输入特征优化子网络进行特征优化，得到精细化特征，对精细化特征进行筛选，输入分类子网络进行分类，经过特征排序损失函数和分类损失计算，固化特征优化分类网络参数，完成训练。

本发明进一步设置为：将至少一个正样本第一特征，组成正样本包，送入特征优化和和分类子网络，得到多个第一分类分数，取最大值作为第一分数；将至少一个负样本第二特征，组成负样本包，送入特征优化和分类子网络，得到多个第二分类分数，取最大值作为第二分数；对第一分数、第二分数进行排序损失函数和分类损失计算，固化特征优化分类网络参数。

本发明进一步设置为：将所有特征按时间均分为设定数量的段，若特征数量少于设定数量，采用插值方法增加到设定数量；若特征数量大于设定数量，则缩减至设定数量。

本发明进一步设置为：排序损失函数如下式所示：

（1）；

式中，下标ａ表示正样本，即哭声样本，下标ｎ表示负样本，即正常声音样本；函数ｆ是段或实例的分类分数；

是正样本包，

是负样本包；

表示正样本包中的第i个实例，

表示负样本包中的第i 个实例；

所在的两项是正则（regularization）项。

本发明进一步设置为：采用CNN特征的幅值，进行多实例学习，从第一特征包中选择多个幅值最大或次大的CNN特征，作为第一特征幅值，从第二特征包中选择多个幅值最大或次大的CNN特征，作为第二幅值，将第一幅值、第二幅值输入分类子网络进行排序损失函数计算，采用反向传播方法，使函数输出值最小化。

第四方面，本发明的上述发明目的通过以下技术方案得以实现：

一种基于异常检测的婴儿哭声检测系统，包括声音进行预处理体系、特征提取骨干网络、特征优化分类网络；声音进行预处理体系用于对待检测声音按单位时长进行切割，对切割后的各声音帧进行频谱处理，得到各帧频谱二维图像；特征提取骨干网络用于对各帧频谱二维图像进行特征提取，将提取到的特征送入特征优化分类网络进行运算，得到各帧声音异常的概率，根据概率判断各帧是否有哭声。

第五方面，本发明的上述发明目的通过以下技术方案得以实现：

一种基于异常检测的婴儿哭声检测系统终端，包括存储器、处理器、以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现本申请所述方法。

与现有技术相比，本申请的有益技术效果为：

1.本申请通过建立特征提取骨干网络并训练，在降低训练数据的情况下，采用强标签数据，获得音频文件的CNN特征；

2.进一步地，本申请通过建立特征优化分类网络，将提取的CNN特征进行优化、分类，采用用于异常检测的多实例学习（MIL)方法，使用只需要音频文件级别的标签，不需要时间轴上的标签的弱标签数据，快速高效完成训练。

3.进一步地，本申请通过训练好的特征提取骨干网络、特征优化分类网络，输入音频文件或信号，输出单位时间是否是哭声的分数，使得区分哭声和非哭声更加容易；

4.进一步地，本申请基于小尺寸的频谱二维图像进行训练分析，减小运算量，提高分析精度。

附图说明

图1是本申请的一个具体实施例的声音梅尔频谱示意图；

图2是本申请的BlazeBlock结构示意图；

图3本申请的一个具体实施例的建立婴儿哭声检测系统的结构示意图；

图4是本申请的一个具体实施例的特征提取骨干网络结构示意图；

图5是本申请的一个具体实施例的婴儿哭声检测系统结构示意图。

具体实施方式

以下结合附图对本发明作进一步详细说明。

具体实施例一

本申请的一种用于婴儿哭声检测的特征提取骨干网建立方法，包括获取哭声信号与正常声音信号，分别从中切割出单位长度的声音数据，声音数据进行频谱分析，得到频谱二维图像，将哭声信号对应的哭声频谱二维图像预备为正样本，将正常声音信号对应的正常声音频谱二维图像预备为负样本，设置特征提取骨干网结构，用正负样本对特征提取骨干网进行训练，固定特征提取骨干网参数，用于婴儿哭声的特征提取。

从哭声信号中切割出单位长度的哭声数据，对哭声数据进行频谱分析，得到哭声频谱，将哭声频谱收集为第一样本集，从正常声音信号中切割出单位长度的正常声音数据，对正常声音数据进行频谱分析，得到正常声音频谱，将正常声音频谱收集为第二样本集。

音频文件已经按有哭声/没有哭声分割好，相当于知道哭声的位置，因此，用于骨干网络的数据是强监督学习标签。

在本申请的一个具体实施例中，把声音信号切割成以秒为单位长度的帧声音数据，对帧声音数据进行频谱分析，得到频谱二维图像，并打标为哭声数据或正常声音数据。

频谱包括对数域上的梅尔频谱（log-mel-spectrogram)或者变体，且对梅尔频谱图不进行调整大小（Resize）操作，以免影响性能，如图1所示。

在本申请的一个具体实施例中，调整梅尔频谱参数，使得每1秒的音频产生的梅尔频谱二维图像的尺寸为64*64，以适应本申请的超小网络。

设置特征提取骨干网络，考虑到嵌入式系统的实际情况，如内存小、运行速度慢，需要减小图像尺寸，以便于异常检测能够应用到嵌入式系统，采用BlazeNet基础网络的特征提取部分，减小输入参数，修改层函数，增加全连接层，经过简化与改进，得到二分类输出结果。

设置特征提取骨干网络层数量为N，每层设置输入通道数、输出通道数、核大小、步长，最顶层采用二维卷积层，中间层采用M个BlazeBlock结构、Q个全连接层，最后一层采用全连接层，将频谱二维图像输入最顶层，经过各层级联运算，其中一个BlazeBlock结构的输出在级联同时输入一个全连接层， Q个全连接层对应连接Q个BlazeBlock结构的输出。

BlazeBlock内部结构，如图2所示，包括卷积核5*5深度可分离卷积层（DW conv）、卷积核1*1卷积层（conv）；右侧分支是可选项（Optional），当步长为2时，先最大池化（max-pooling）, 然后做填充（Channel Pad）,输出和左侧一路输出相加；当步长为1时，左侧分支的输出和输入信号相加，作为最终输出，即y=f(x)+x，其中f()对应左侧分支两层卷积层的函数。将Q个全连接层输入展开再级联，得到一个K维的信号，将K维的信号输入最后一层全连接层，产生最后的二分类结果，提取到声音特征，其中M、N、Q是正整数，且Q是小于M的正整数，M是小于N的正整数。

在本申请的一个具体实施例中，如图3所示，特征提取骨干网包括一个二维卷积层Conv2D，其输入通道为3，输出通道为24，核大小为5，步长为2。

中间有16个BlazeBlock层，各层参数分别为:

BlazeBlock-1(24,24,3,1)层,输入通道为24，输出通道为24，核大小为3，步长为1。

BlazeBlock-2(24,28,3,1)层,输入通道为24，输出通道为28，核大小为3，步长为1。

BlazeBlock-3(28,32,3,2)层,输入通道为28，输出通道为32，核大小为3，步长为2。

BlazeBlock-4(32,36,3,1)层,输入通道为32，输出通道为36，核大小为3，步长为1。

BlazeBlock-5(36,42,3,1)层,输入通道为36，输出通道为42，核大小为3，步长为1。

BlazeBlock-6(42,48,3,2)层,输入通道为42，输出通道为48，核大小为3，步长为2。

BlazeBlock-17(48,56,3,1)层,输入通道为48，输出通道为56，核大小为3，步长为1。

BlazeBlock-8(56,64,3,1)层,输入通道为56，输出通道为64，核大小为3，步长为1。

BlazeBlock-9(64,72,3,1)层,输入通道为64，输出通道为72，核大小为3，步长为1。

BlazeBlock-10(72,80,3,1)层,输入通道为72，输出通道为80，核大小为3，步长为1。

BlazeBlock-11(80,88,3,1)层,输入通道为80，输出通道为88，核大小为3，步长为1。

BlazeBlock-12(88,96,3,2)层,输入通道为88，输出通道为96，核大小为3，步长为2。

BlazeBlock-13(96,96,3,1)层,输入通道为96，输出通道为96，核大小为3，步长为1。

BlazeBlock-14(96,96,3,1)层,输入通道为96，输出通道为96，核大小为3，步长为1。

BlazeBlock-15(96,96,3,1)层,输入通道为96，输出通道为96，核大小为3，步长为1。

BlazeBlock-16(96,96,3,1)层,输入通道为96，输出通道为96，核大小为3，步长为1。

前面M层的输出通道数大于输入通道数，且上一层的输出通道数与下一层的输入通道数相同，用于级联。最后几层的输入通道与输出通道数相同。

最后一层全连接层FC(224,2)，输入通道为224，输出通道为2。

将标记好的频谱二维图像输入二维卷积层Conv2D，其输出送到BlazeBlock-1，BlazeBlock-1的输出送到BlazeBlock-2，如此级联到BlazeBlock-16，在级联到BlazeBlock-11时，BlazeBlock-11的输出同时输入到第一个全连接层FC1，第一个全连接层FC1的输入通道是88，输出通道是2。BlazeBlock-16的输出送到第二个全连接层FC2，第二个全连接层FC2的输入通道是96，输出通道是6。

将第一个全连接层FC1的输入、第二个全连接层FC2的输入，进行flat展开后，再进行级联cat(FC1, FC2)，得到一个224维的信号，将224维的信号输入最后一层全连接层FC(224,2)，产生最后的二分类结果,作为特征提取网络，特征从最后一个全连接层提取，其维度为224。

在本申请的一个具体实施例中，中间层采用Mobilenet网络，或ShuffleNet网络，或SqueezeNet网络。

用打标后的第一样本频谱、第二样本频谱训练特征提取骨干网，固定网络参数，得到用于婴儿哭声检测的特征提取骨干网。

具体实施例二

本申请的一种用于婴儿哭声检测的特征优化分类网络建立方法，基于特征提取骨干网的输出，采用多实例（MIL， multiple instance learning）学习方法，对特征优化分类网络进行训练，固定特征优化分类网络参数。

特征优化分类网络包括特征优化子网络和分类子网络，将特征提取骨干网输出的CNN特征，输入特征优化子网络进行特征优化，得到精细化特征，对精细化特征进行筛选，输入分类子网络进行分类，经过特征排序损失函数和分类损失计算，完成对特征优化分类网络的训练。

采用包含有哭声的音频文件，输入训练好的特征提取骨干网络，进行特征提取，得到正样本的第三样本集，采用不包含哭声的音频文件，输入训练好的特征提取骨干网络，进行特征提取，得到负样本的第四样本集。因为不用知道哭声在文件中的具体位置，属于弱监督数据。

将第三样本集中的多个第一CNN特征，组成第一特征包，为正样本包，送入特征优化子网络和分类子网络，得到多个第一分类分数，取最大值作为第一分数。同样地，将第四样本集中的多个第二CNN特征，组成第二特征包，为负样本包，送入特征优化子网络和分类子网络，得到多个第二分类分数，取最大值作为第二分数。按照异常检测的原理，期望第一分数与第二分数的差异尽量最大化，差异越大，表示特征的区分能力越大。

将所有第一CNN特征按时间均分为第一设定数量的段，若第一CNN特征数量少于第一设定数量，采用插值方法进行，若第一CNN特征数量大于第一设定数量，则缩减为第一设定数量的段特征。

同样地，将所有第二CNN特征按时间均分为第二设定数量的段，若第二CNN特征数量少于第二设定数量，采用插值方法进行，若第二CNN特征数量大于第二设定数量，则缩减为第二设定数量的段特征。

在本申请的一个具体实施例中，第一CNN特征是224维度的，把音频文件产生的所有第一CNN特征按时间均分为32段，若音频输出只有2个特征，采用插值方法，则每个特征各重复16次，形成32个特征段；若音频输出有64个特征，则每2个特征取均值，得到32个特征段，依此类推。

将第一分数、第二分数输入排序损失函数（Ranking loss）计算，采用反向传播（back propagation）方法，使排序损失函数输出值最小化。

排序损失函数如下式所示：

（1）；

式中，下标ａ表示正样本，即哭声样本，下标ｎ表示负样本，即正常声音样本。函数ｆ是帧的分类分数。

是正样本包，

是负样本包。

表示正样本包中的第i个实例，

表示负样本包中的第i 个实例。

所在的两项是正则（regularization）项，

所在项叫做平滑项，表示当异常事件--婴儿哭声--发生时，不同段的分类分数应该比较接近，这一项的权重是

。

所在项叫做稀疏项，表示在整个音频文件中，哭声只发生在少数地方，它的权重是

，根据使用的音频训练文件中婴儿哭声的分布规律来决定是否使用稀疏项。

在本申请的一个具体实施例中，采用CNN特征的幅值，进行多实例学习，从第一特征包中选择多个幅值最大或次大的CNN特征，作为第一幅值，从第二特征包中选择多个幅值最大或次大的CNN特征，作为第二幅值，将第一幅值、第二幅值输入定义在CNN特征幅度上的排序损失函数（Ranking loss）计算，采用反向传播（back propagation）方法，使函数输出值最小化。

经过训练后，固定特征优化分类网络参数，得到训练好的特征优化分类网络。

具体实施例三

本申请的一种基于异常检测的婴儿哭声检测方法，包括建立婴儿哭声检测系统，基于婴儿哭声检测系统进行声音检测，得到是否有哭声的检测结果。

建立婴儿哭声检测系统，包括声音预处理体系、特征提取骨干网络、特征优化分类网络；获取哭声信号和正常声音信号，采用声音预处理体系对声音进行预处理，得到频谱二维图像；特征提取骨干网络用于对频谱二维图像进行特征提取，将提取到的特征送入特征优化分类网络进行运算，得到声音异常的概率，并根据概率判断是否有异常。

采用具体实施例一的方法，建立特征提取骨干网，采用具体实施例二的方法，建立特征优化分类网络。

本申请的一种基于异常检测的婴儿哭声检测系统，包括声音预处理体系、参数固化后的特征提取骨干网络、参数固化后的特征优化分类网络。

采用一种基于异常检测的婴儿哭声检测系统对待检测音频文件进行检测，将待检测音频文件输入检测系统，检测系统对待检测音频文件按单位长度进行切割，得到若干个音频帧，对各音频帧分别进行预处理，得到若干个待检测声音频谱二维图像，将待检测声音频谱二维图像，输入到参数固化后的特征提取骨干网络，得到CNN特征，再将CNN特征输入参数固化后的特征特征优化子网络（Feature Refinement network）进行计算，再送入参数固化后的分类子网络，得到每个帧的分类分数，用于表示该帧被判断为异常的概率，数值在0-1之间。

将概率数值与设定阈值进行比较，若大于设定阈值，表示有哭声，若小于等于设定阈值，表示无哭声。

根据各帧实例在时间上的顺序，判断哭声发生在音频文件中的具体位置。

具体地，设定数量为32。

具体实施例四

本发明一实施例提供的一种基于异常检测的婴儿哭声检测系统终端设备，该实施例的终端设备包括：处理器、存储器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，例如建立特征提取骨干网络、建立特征优化分类网络、程序，所述处理器执行所述计算机程序时实现本申请所述检测方法。

或者，所述处理器执行所述计算机程序时实现上述各装置实施例中各模块/单元的功能，例如：计算特征模块、判别模块。

示例性的，所述计算机程序可以被分割成一个或多个模块/单元，所述一个或多个模块/单元被存储在所述存储器中，并由所述处理器执行，以完成本发明。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段，该指令段用于描述所述计算机程序在所述基于异常检测的婴儿哭声检测系统终端设备中的执行过程。例如，所述计算机程序可以被分割成多个模块，各模块具体功能如下：

1.声音预处理模块，用于对声音进行预处理；

2. 特征提取模块，用于提取声音特征；

3.检测模块，用于进行是否有哭声检测。

所述基于异常检测的婴儿哭声检测系统终端设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述基于异常检测的婴儿哭声检测系统终端设备可包括，但不仅限于，处理器、存储器。本领域技术人员可以理解，所述上述示例仅仅是所述基于异常检测的婴儿哭声检测系统终端设备的示例，并不构成对所述基于异常检测的婴儿哭声检测系统终端设备的限定，可以包括比图示更多或更少的部件，或组合某些部件，或不同的部件，例如所述基于异常检测的婴儿哭声检测系统终端设备还可以包括输入输出设备、网络接入设备、总线等。

所述处理器可以是中央处理单元(Central Processing Unit，CPU),还可以是其他通用处理器、数据信号处理器(Digital Signal Processor，DSP) 、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等，所述处理器是所述一种基于异常检测的婴儿哭声检测系统终端设备的控制中心，利用各种接口和线路连接整个所述一种基于异常检测的婴儿哭声检测系统终端设备的各个部分。

所述存储器可用于存储所述计算机程序和/或模块，所述处理器通过运行或执行存储在所述存储器内的计算机程序和/或模块，以及调用存储在存储器内的数据，实现所述一种基于异常检测的婴儿哭声检测系统终端设备的各种功能。所述存储器可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器可以包括高速随机存取存储器，还可以包括非易失性存储器，例如硬盘、内存、插接式硬盘，智能存储卡(Smart Media Card ,SMC)，安全数字(SecureDigital,SD)卡，闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

具体实施例五

所述一种基于异常检测的婴儿哭声检测系统终端设备集成的模块/单元，如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，Random Access Memory)、电载波信号、电信信号以及软件分发介质等。

本具体实施方式的实施例均为本发明的较佳实施例，并非依此限制本发明的保护范围，故：凡依本发明的结构、形状、原理所做的等效变化，均应涵盖于本发明的保护范围之内。

Claims

1.一种基于异常检测的婴儿哭声检测方法，其特征在于，包括建立婴儿哭声检测系统，将待检测声音文件输入婴儿哭声检测系统进行检测，婴儿哭声检测系统对待检测声音文件按单位时长进行切割，得到若干个待检测声音帧，对各声音帧进行预处理，得到各帧频谱二维图像，将各帧频谱二维图像输入训练好的特征提取骨干网络提取特征，再由训练好的特征优化分类网络进行运算，得到各声音帧包含哭声的概率，若概率大于设定阈值，则说明有哭声，若概率小于设定阈值，则说明无哭声。

2.一种用于婴儿哭声检测的特征提取骨干网络建立方法，其特征在于，包括获取哭声频谱二维图像和正常声音频谱二维图像，设置特征提取骨干网络结构，用频谱二维图像对特征提取骨干网络进行训练，固定特征提取骨干网络参数，得到固定参数的特征提取骨干网络。

3.根据权利要求2所述用于婴儿哭声检测的特征提取骨干网络建立方法，其特征在于，从哭声信号中截取单位长度的若干哭声段，分别进行频谱分析，得到若干哭声频谱二维图像并标记；从正常声音信号中截取单位长度的若干正常声音段，分别进行频谱分析，得到若干正常声音频谱二维图像并标记；

设置特征提取骨干网络结构包括N层，每层设置输入通道数、输出通道数、核大小、步长，最顶层采用二维卷积层，中间层采用M层BlazeBlock结构、Q层全连接层，Q个全连接层分别与一个BlazeBlock结构连接，最后一层采用全连接层，将频谱二维图像输入最顶层，经过各层级联运算，并将各全连接层级联，得到一个K维的信号，将K维的信号输入最后一层全连接层，从最后一层全连接层输出一个二分类结果，提取到声音特征，其中M、N、Q是正整数，且Q是小于M的正整数，M是小于N的正整数。

4.一种用于婴儿哭声检测的特征优化分类网络建立方法，其特征在于，设置特征优化分类网络包括特征优化子网络和分类子网络，采用包含哭声和不包含哭声的音频文件，输入训练好的特征提取骨干网提取正样本特征，采用不包含哭声的音频文件，输入训练好的特征提取骨干网提取负样本特征，采用多实例学习方法，用正负样本特征对特征优化分类网络进行训练，固定特征优化分类网络参数。

5.根据权利要求4所述用于婴儿哭声检测的特征优化分类网络建立方法，其特征在于，将特征提取骨干网输出的正负样本CNN特征，输入特征优化子网络进行特征优化，得到精细化特征，对精细化特征进行筛选，输入分类子网络进行分类，经过特征排序损失函数和分类损失计算，固化特征优化分类网络参数，完成训练。

6.根据权利要求4所述用于婴儿哭声检测的特征优化分类网络建立方法，其特征在于，将至少一个正样本第一特征，组成正样本包，送入特征优化和分类子网络，得到多个第一分类分数，取最大值作为第一分数；将至少一个负样本第二特征，组成负样本包，送入特征优化和分类子网络，得到多个第二分类分数，取最大值作为第二分数；对第一分数、第二分数进行排序损失函数和分类损失计算，固化特征优化分类网络参数。

7.根据权利要求6所述用于婴儿哭声检测的特征优化分类网络建立方法，其特征在于，将所有特征按时间均分为设定数量的段，若特征数量少于设定数量，采用插值方法增加到设定数量；若特征数量大于设定数量，则缩减至设定数量。

8.根据权利要求4所述用于婴儿哭声检测的特征优化分类网络建立方法，其特征在于，排序损失函数如下式所示：

（1）；

是正样本包，

是负样本包；

表示正样本包中的第i个实例，

表示负样本包中的第i 个实例；

所在的两项是正则（regularization）项；

采用CNN特征的幅值，进行多实例学习，从第一特征包中选择多个幅值最大或次大的CNN特征，作为第一特征幅值，从第二特征包中选择多个幅值最大或次大的CNN特征，作为第二幅值，将第一幅值、第二幅值输入分类子网络进行排序损失函数计算，采用反向传播方法，使函数输出值最小化。

9.一种基于异常检测的婴儿哭声检测系统，其特征在于，包括声音进行预处理体系、特征提取骨干网络、特征优化分类网络；声音进行预处理体系用于对待检测声音按单位时长进行切割，对切割后的各声音帧进行频谱处理，得到各帧频谱二维图像；特征提取骨干网络用于对各帧频谱二维图像进行特征提取，将提取到的特征送入特征优化分类网络进行运算，得到各帧声音异常的概率，根据概率判断各帧是否有哭声。

10.一种基于异常检测的婴儿哭声检测系统终端，包括存储器、处理器、以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于：所述处理器执行所述计算机程序时实现如权利要求1- 8任一所述方法。