CN111354375A

CN111354375A - 一种哭声分类方法、装置、服务器和可读存储介质

Info

Publication number: CN111354375A
Application number: CN202010116578.9A
Authority: CN
Inventors: 周建超; 余洪
Original assignee: China Mobile Communications Group Co Ltd; MIGU Culture Technology Co Ltd
Current assignee: China Mobile Communications Group Co Ltd; MIGU Culture Technology Co Ltd
Priority date: 2020-02-25
Filing date: 2020-02-25
Publication date: 2020-06-30

Abstract

本发明实施例涉及音频检测领域，公开了一种哭声分类方法、装置、服务器和可读存储介质。本发明中，哭声分类方法，包括：获取训练数据集，数据集包括多个音频训练信号，每个音频训练信号对应有分类标签；提取各音频训练信号的梅尔域倒谱系数MFCC特征，基于音频训练信号的MFCC特征，训练获得用于确定音频训练信号是否为哭声的第一模型；提取各音频训练信号的对数梅尔频谱Logmel特征，基于Logmel特征，训练获得用于对哭声分类的第二模型；利用第一模型判断采集到的音频信号是否为哭声；响应于判定为哭声，利用第二模型对采集到的音频信号分类。本申请提供一种新的哭声分类方法，自动对哭声进行分类，且准确率高。

Description

一种哭声分类方法、装置、服务器和可读存储介质

技术领域

本发明实施例涉及音频检测领域，特别涉及哭声分类方法、装置、服务器和可读存储介质。

背景技术

婴幼儿因为不擅长语言表达，所以通常使用哭声反映自己悲哀病痛，哭声也是婴幼儿提出各种要求和意愿的表达形式，充满着丰富的感情色彩。父母可以通过察颜辨声来熟悉和了解孩子的这种奇特的语言，根据婴幼儿哭声的高低、强弱、面部表情及手舞足蹈的程度来综合判断，细心观察，正确地理解和寻找啼哭声中所表达的真正含义和原因。而年轻父母由于经验不足等原因，往往无法较好地识别哭声的含义，需要借助用于哭声分类的电子设备等进行自动地识别。

现有的儿童哭声分类方法，主要是将采集到的音频信号进行傅里叶变换(FFT)后统计基频频率和能量波形，凭借基频和波形来对哭声进行分类，将基频频率和能量最大值大于阈值的哭声判断为疼痛类哭声；将基频频率最大值小于阈值且波形平稳的哭声判断为饥饿类哭声；波形平稳且每帧能量低于饥饿类哭声的声音判断为困乏类哭声。

本申请的发明人发现现有技术中至少存在如下问题：阈值的划分是分类效果好坏的关键，但是并不存在一种科学的阈值划分方法，阈值划分主要靠经验和小范围的实验，阈值设定并不客观。同样地，波形平稳度也存在较强的主观性。另外，受音色、音量、音调等因素的影响，不同儿童在不同情况下的哭声千差万别，小范围的实验统计在大数据上可能并不适用，仅仅通过设置阈值和观察波形平稳度的方法，并不能够客观地对大数据进行哭声识别。该因此，方法过于简单，主观性较强，广泛使用时准确率不高。

发明内容

本发明实施方式的目的在于提供一种哭声分类方法、装置、服务器和可读存储介质，使得提供一种新的哭声分类方法，自动对哭声进行分类，且准确率高。

为解决上述技术问题，本发明的实施方式提供了一种哭声分类方法，包括：获取训练数据集，数据集包括多个音频训练信号，每个所述音频训练信号对应有分类标签；提取各所述音频训练信号的梅尔域倒谱系数MFCC特征，基于音频训练信号的MFCC特征，训练获得用于确定音频训练信号是否为哭声的第一模型；提取各所述音频训练信号的对数梅尔频谱Logmel特征，基于Logmel特征，训练获得用于对哭声分类的第二模型；利用所述第一模型判断采集到的音频信号是否为哭声；响应于判定为哭声，利用所述第二模型对采集到的音频信号分类。

本发明的实施方式还提供了一种哭声分类装置，包括：获取模块，用于获取训练数据集，数据集包括多个音频训练信号，每个所述音频训练信号对应有分类标签；第一提取模块，用于提取各所述音频训练信号的梅尔域倒谱系数MFCC特征，基于音频训练信号的MFCC特征，训练获得用于确定音频训练信号是否为哭声的第一模型；第二提取模块，用于提取各所述音频训练信号的对数梅尔频谱Logmel特征，基于Logmel特征，训练获得用于对哭声分类的第二模型；第一处理模块，用于利用所述第一模型判断采集到的音频信号是否为哭声；第二处理模块，用于响应于判定为哭声，利用所述第二模型对采集到的音频信号分类。

本发明的实施方式还提供了一种电子设备，包括：至少一个处理器；以及，与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如上述的哭声分类方法。

本发明的实施方式还提供了一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时实现上述的哭声分类方法。

本发明实施方式相对于现有技术而言，主要区别及其效果在于：利用多个音频训练信号，分别提取梅尔域倒谱系数MFCC特征和对数梅尔频谱Logmel特征，利用MFCC特征训练出用于确定音频信号是否为哭声的第一模型，利用Logmel特征训练出用于对哭声分类的第二模型。利用不同的音频特征对应训练不同作用的模型，对采集的音频信号先识别是否为哭声，再进一步对是哭声的信号分类，使得模型在分类判断中更有针对性，从而使得分类结果更为准确。

作为进一步改进，所述获取训练数据集包括：将所述音频训练信号处理为声谱图；所述提取各所述音频训练信号的MFCC特征，具体为：从所述音频训练信号的声谱图提取所述MFCC特征；所述提取各所述音频训练信号的Logmel特征，具体为：从所述音频训练信号的声谱图提取所述Logmel特征。上述方案明确MFCC特征和Logmel特征从音频信号的声谱图中提取，使得音频数据处理更为简便准确。

作为进一步改进，所述将各所述音频训练信号处理为声谱图，包括：对所述音频训练信号进行分帧、加窗和傅里叶变换，获得所述声谱图。上述方案明确声谱图的处理过程。

作为进一步改进，所述第一模型为支持向量机SVM模型，所述第二模型为四分类深度神经网络DNN模型。由于SVM模型为二值分类模型，所以采用SVM模型对于判断是否为哭声，有较好的判断效果，同时采用四分类DNN模型利于对数据进行多项分类，分类结果准确。

作为进一步改进，所述利用所述第二模型对采集到的音频信号分类之后，包括：将所采集到的音频信号作为训练数据，训练并更新所述第一模型和/或所述第二模型。上述方案明确利用后续采集到的音频信号继续训练兵更新第一模型和/或第二模型，不断提升第一模型和第二模型的准确度。

作为进一步改进，所述分类标签包括：不是哭声、疼痛类哭声、困乏类哭声、饥饿类哭声和其他类哭声。上述方案明确哭声的多种分类。

作为进一步改进，所述音频训练信号的时长的区间为[1s,5s]。限定音频训练信号的时长有利于获取到更为准确的音频数据特征。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

一个或多个实施例通过与之对应的附图中的图片进行示例性说明，这些示例性说明并不构成对实施例的限定，附图中具有相同参考数字标号的元件表示为类似的元件，除非有特别申明，附图中的图不构成比例限制。

图1是根据本发明第一实施方式中的哭声分类方法的流程图；

图2是根据本发明第二实施方式中的哭声分类方法的流程图；

图3是根据本发明第三实施方式中的哭声分类装置的示意图；

图4是根据本发明第四实施方式中的电子设备的示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合附图对本发明的各实施方式进行详细的阐述。然而，本领域的普通技术人员可以理解，在本发明各实施方式中，为了使读者更好地理解本申请而提出了许多技术细节。但是，即使没有这些技术细节和基于以下各实施方式的种种变化和修改，也可以实现本申请所要求保护的技术方案。以下各个实施例的划分是为了描述方便，不应对本发明的具体实现方式构成任何限定，各个实施例在不矛盾的前提下可以相互结合相互引用。

本发明的第一实施方式涉及一种哭声分类方法。可以应用于对儿童哭声的分类，其流程如图1所示，具体如下：

步骤101，获取训练数据集。

具体的说，数据集包括多个音频训练信号，每个音频训练信号对应有分类标签。下面借助符号进行详细说明：数据集包含M个音频训练信号，每个音频训练信号用Audio_i(i＝1,…,M)表示，Audio_i的时长不定。同时数据集包含M个分类标签，每个分类标签用Label_i(i＝1,…,M)表示。Audio_i与Label_i是一一对应的。分类标签可以包括：不是哭声、疼痛类哭声、困乏类哭声、饥饿类哭声和其他类哭声。实际应用中，Label_i可以用整数表示不同的分类，如0、1、2、3、4共5种取值情况，分别表示Audio_i不是哭声，Audio_i是疼痛类哭声、Audio_i是饥饿类哭声、Audio_i是困乏类哭声、Audio_i是其他类哭声。

数据集质量的高低对分类效果好坏有影响，因此可以尽可能地采集高质量数据集。如，采集的Audio信号要尽可能清晰，信号时长不宜过短，也不宜过长，时长位于[1s,5s]的区间更佳。又如，为了保证分类质量，Label标签可以找专业人士进行标注，例如保姆、全职妈妈等对儿童哭声较为敏感和熟悉的人。最后，数据集分布尽量要均衡，Label的0、1、2、3、4的5类数据的比例可以为4:1:1:1:1。

步骤102，提取各音频训练信号的MFCC特征，基于音频训练信号的MFCC特征，训练获得用于确定音频训练信号是否为哭声的第一模型。

具体的说，梅尔频率倒谱系数(Mel Frequency Cepstrum Coefficient，MFCC)特征，根据人耳听觉机理设计，描述了人耳频率的非线性特性，有较好的鲁棒性，在有噪音时仍然具有较好的识别性能。

更具体的说，第一模型可以为SVM模型，支持向量机(Support Vector Machine，简称SVM)是一类按监督学习(supervised learning)方式对数据进行二元分类的广义线性分类器(generalized linear classifier)，本实施方式具体可以采用二分类SVM模型。

在一个例子中，本步骤可以先将音频训练信号处理为声谱图，再从音频训练信号的声谱图提取MFCC特征，之后基于音频训练信号的MFCC特征，训练获得用于确定音频训练信号是否为哭声的SVM模型，具体过程如下：

(1)对每个音频音频训练信号Audio_i(i＝1,…,M)进行分帧、加窗和傅里叶变换，得到每个音频训练信号的声谱图。

(2)对每个音频训练信号的声谱图提取MFCC特征向量，做法是先对声谱图中的每一帧提取MFCC特征，再对所有帧的MFCC特征求均值，最终每个音频训练信号Audio_i都得到一个特征向量MFCC_i(i＝1,…,M)。

(3)对数据集的分类标签做处理，Label_i为1-4的作为正类，Labeli为0的作为负类。

(4)使用M个MFCC特征和M个分类标签，将五类分类标签分为正类或者负类，训练二分类的SVM模型，训练完毕的SVM模型可用来判断输入信号是否为儿童哭声。

步骤103，提取各音频训练信号的Logmel特征，基于Logmel特征，训练获得用于对哭声分类的第二模型。

具体的说，第二模型可以是DNN(Deep Neural Networks，深度神经网络)模型，DNN模拟了人类大脑的生理结构和认知过程，比很多传统的机器学习模型有着更好的分类效果。本方案中输入给DNN模型的特征是Logmel(对数梅尔频谱)特征，它是提取MFCC特征过程的中间产物，比MFCC特征更原始，在DNN模型上比MFCC特征的表现更好。

更具体的说，本实施方式中的分类标签包括四类：疼痛类哭声、困乏类哭声、饥饿类哭声和其他类哭声，对应地，可以采用四分类DNN模型。

在一个例子中，本步骤可以先将音频训练信号处理为声谱图，再从音频训练信号的声谱图提取Logmel特征，之后基于Logmel特征，训练获得用于对哭声分类的DNN模型，具体过程如下：

(1)以前述的五类分类标签为例，将数据集中Label为0的数据去除，只保留Label为1-4的训练数据，假定过滤后的数据共有N条。

(2)对每个音频训练信号Audio_i(i＝1,…,N)进行分帧、加窗和傅里叶变换，得到每个音频训练信号的声谱图。

(3)对每个音频训练信号的声谱图提取Logmel特征。做法是先对声谱图中的每一帧提取Logmel特征，再对所有帧的Logmel特征求均值。最终每个音频训练信号Audio_i都得到一个特征向量Logmel_i(i＝1,…,N)。

(4)使用N个Logmel特征和N个标签训练DNN模型，训练完毕的DNN模型可用来判断一段哭声信号属于哪种哭声类别(如，疼痛类、饥饿类、困乏类、其他类)。

可见，上述步骤102和步骤103分别训练出SVM模型和DNN模型，用于后续的分类判断。

还需要说明的是，上述步骤102和步骤103中在提取音频特征时，每提取一种音频特征时，先将音频训练信号处理为声谱图，实际应用中，也可以在步骤101获取训练数据集时，先将音频训练信号处理为声谱图备用，当提取音频特征时，直接调用声谱图进行特征提取，在此不再赘述。

步骤104，利用第一模型判断采集到的音频信号是否为哭声。

具体的说，本实施方式中利用步骤102中训练获得的SVM模型判断采集到的音频信号是否为哭声。更具体的说，本实施方式中采集到的音频信号可以来自用户终端，用户在需要对声音进行分类时，采集一段音频信号，终端获得该音频信号后，将其输入SVM模型。

还需要说明的是，采集到音频信号后，可以先对音频信号进行分帧、加窗做傅里叶变换，得到音频信号的声谱图，再对每帧提取MFCC特征向量，将所有的MFCC特征求均值后得到对应该音频信号的最终的MFCC特征向量。

步骤105，响应于判定为哭声，利用第二模型对采集到的音频信号分类。

具体说明步骤104至步骤105中对输入音频信号的分类过程：

(1)将MFCC特征输入给训练好的SVM模型，判断该音频音频训练信号是否包含儿童的哭声。

(2)如果SVM的判断结果为不包含儿童哭声，则输出结果，分类结束。如果SVM判断该信号包含儿童哭声，则做进一步判断。

(3)对输入信号的声谱图每一帧提取Logmel特征，将所有帧的Logmel特征求均值得到最终的Logmel特征向量。

(4)将Logmel特征向量输入给训练好的DNN模型，判断该哭声信号的详细类别(疼痛类、饥饿类、困乏类、其他类)，最后输出判断结果。

综上，本实施方式中利用多个音频训练信号，分别提取梅尔域倒谱系数MFCC特征和对数梅尔频谱Logmel特征，利用MFCC特征训练出用于确定音频信号是否为哭声的第一模型，利用Logmel特征训练出用于对哭声分类的第二模型。利用不同的音频特征对应训练不同作用的模型，对采集的音频信号先识别是否为哭声，再进一步对是哭声的信号分类，使得模型在分类判断中更有针对性，从而使得分类结果更为准确。

值得一提的是，上述哭声分类方法可以应用于用户的手机、PAD等电子设备，供用户需要时采集音频进行哭声判断并分类，还可以应用于服务器，利用用户的移动终端作为音频采集设备，采集到的音频信号上传至服务器，由服务器进行分类判断，其具体实现方式多种多样，在此不再一一列举。

本发明的第二实施方式涉及一种哭声分类方法。第二实施方式是在第一实施方式的基础上做了进一步改进，主要改进之处在于：在本发明第二实施方式中，对获得的SVM模型和DNN模型可以进一步调优，使得用于分类的SVM模型和DNN模型可以与时俱进，参数越来越准确。

本实施方式中的哭声分类方法的流程图如图2所示，具体包括：

步骤201至步骤205与第一实施方式中的步骤101至步骤105相类似，在此不再赘述。

步骤206，将所采集到的音频信号作为训练数据，训练并更新第一模型和第二模型。

具体的说，初始训练数据集的规模无需特别庞大，数据也可能出错，因此即使模型训练完成后，可以继续将用于判断的新采集到的音频信号作为训练数据，继续训练第一模型和第二模型，新采集到的音频信号在获得分类结果后，可以直接以分类结果作为对应的分类标签，也可以由用户确定分类标签。不断训练后得到的第一模型和第二模型的判断结果将越来越准确。

可见，本实施方式明确利用后续采集到的音频信号继续训练并更新第一模型和第二模型，不断提升第一模型和第二模型的准确度。值得一提的是，虽然本实施方式中为训练并更新第一模型和第二模型，实际应用中，也可以根据需要仅选择训练并更新其中一个模型，可以加快更新速度。

上面各种方法的步骤划分，只是为了描述清楚，实现时可以合并为一个步骤或者对某些步骤进行拆分，分解为多个步骤，只要包括相同的逻辑关系，都在本专利的保护范围内；对算法中或者流程中添加无关紧要的修改或者引入无关紧要的设计，但不改变其算法和流程的核心设计都在该专利的保护范围内。

本发明第三实施方式涉及一种哭声分类装置，如图3所示，包括：

获取模块，用于获取训练数据集，数据集包括多个音频训练信号，每个音频训练信号对应有分类标签。

第一提取模块，用于提取各音频训练信号的梅尔域倒谱系数MFCC特征，基于音频训练信号的MFCC特征，训练获得用于确定音频训练信号是否为哭声的第一模型。

第二提取模块，用于提取各音频训练信号的对数梅尔频谱Logmel特征，基于Logmel特征，训练获得用于对哭声分类的第二模型。

第一处理模块，用于利用第一模型判断采集到的音频信号是否为哭声。

第二处理模块，用于响应于判定为哭声，利用第二模型对采集到的音频信号分类。

不难发现，本实施方式为与第一实施方式相对应的系统实施例，本实施方式可与第一实施方式互相配合实施。第一实施方式中提到的相关技术细节在本实施方式中依然有效，为了减少重复，这里不再赘述。相应地，本实施方式中提到的相关技术细节也可应用在第一实施方式中。

值得一提的是，本实施方式中所涉及到的各模块均为逻辑模块，在实际应用中，一个逻辑单元可以是一个物理单元，也可以是一个物理单元的一部分，还可以以多个物理单元的组合实现。此外，为了突出本发明的创新部分，本实施方式中并没有将与解决本发明所提出的技术问题关系不太密切的单元引入，但这并不表明本实施方式中不存在其它的单元。

本发明第四实施方式涉及一种电子设备，如图4所示，包括：

至少一个处理器；以及，与至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够执行如上述第一实施方式或第二实施方式中提到的哭声分类方法。

其中，存储器和处理器采用总线方式连接，总线可以包括任意数量的互联的总线和桥，总线将一个或多个处理器和存储器的各种电路连接在一起。总线还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路连接在一起，这些都是本领域所公知的，因此，本文不再对其进行进一步描述。总线接口在总线和收发机之间提供接口。收发机可以是一个元件，也可以是多个元件，比如多个接收器和发送器，提供用于在传输介质上与各种其他装置通信的单元。经处理器处理的数据通过天线在无线介质上进行传输，进一步，天线还接收数据并将数据传送给处理器。

处理器负责管理总线和通常的处理，还可以提供各种功能，包括定时，外围接口，电压调节、电源管理以及其他控制功能。而存储器可以被用于存储处理器在执行操作时所使用的数据。

本发明第五实施方式涉及一种计算机可读存储介质，存储有计算机程序。计算机程序被处理器执行时实现上述方法实施例。

即，本领域技术人员可以理解，实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序存储在一个存储介质中，包括若干指令用以使得一个设备(可以是单片机，芯片等)或处理器(processor)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

本领域的普通技术人员可以理解，上述各实施方式是实现本发明的具体实施例，而在实际应用中，可以在形式上和细节上对其作各种改变，而不偏离本发明的精神和范围。

Claims

1.一种哭声分类方法，其特征在于，包括：

获取训练数据集，数据集包括多个音频训练信号，每个所述音频训练信号对应有分类标签；

提取各所述音频训练信号的梅尔域倒谱系数MFCC特征，基于音频训练信号的MFCC特征，训练获得用于确定音频训练信号是否为哭声的第一模型；

提取各所述音频训练信号的对数梅尔频谱Logmel特征，基于Logmel特征，训练获得用于对哭声分类的第二模型；

利用所述第一模型判断采集到的音频信号是否为哭声；

响应于判定为哭声，利用所述第二模型对采集到的音频信号分类。

2.根据权利要求1所述的哭声分类方法，其特征在于，

所述提取各所述音频训练信号的MFCC特征，包括：将所述音频训练信号处理为声谱图；从所述音频训练信号的声谱图提取所述MFCC特征；

所述提取各所述音频训练信号的Logmel特征，包括：将所述音频训练信号处理为声谱图；从所述音频训练信号的声谱图提取所述Logmel特征。

3.根据权利要求2所述的哭声分类方法，其特征在于，所述将各所述音频训练信号处理为声谱图，包括：

对所述音频训练信号进行分帧、加窗和傅里叶变换，获得所述声谱图。

4.根据权利要求1所述的哭声分类方法，其特征在于，所述第一模型为支持向量机SVM模型，所述第二模型为四分类深度神经网络DNN模型。

5.根据权利要求1所述的哭声分类方法，其特征在于，所述利用所述第二模型对采集到的音频信号分类之后，包括：

将所采集到的音频信号作为训练数据，训练并更新所述第一模型和/或所述第二模型。

6.根据权利要求1所述的哭声分类方法，其特征在于，所述分类标签包括：不是哭声、疼痛类哭声、困乏类哭声、饥饿类哭声和其他类哭声。

7.根据权利要求1所述的哭声分类方法，其特征在于，所述音频训练信号的时长区间为[1s,5s]。

8.一种哭声分类装置，其特征在于，包括：

获取模块，用于获取训练数据集，数据集包括多个音频训练信号，每个所述音频训练信号对应有分类标签；

第一提取模块，用于提取各所述音频训练信号的梅尔域倒谱系数MFCC特征，基于音频训练信号的MFCC特征，训练获得用于确定音频训练信号是否为哭声的第一模型；

第二提取模块，用于提取各所述音频训练信号的对数梅尔频谱Logmel特征，基于Logmel特征，训练获得用于对哭声分类的第二模型；

第一处理模块，用于利用所述第一模型判断采集到的音频信号是否为哭声；

第二处理模块，用于响应于判定为哭声，利用所述第二模型对采集到的音频信号分类。

9.一种电子设备，其特征在于，包括：

至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如权利要求1至7中任一所述的哭声分类方法。

10.一种计算机可读存储介质，存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一所述的哭声分类方法。