CN106653001B

CN106653001B - 婴儿哭声的辩识方法及其系统

Info

Publication number: CN106653001B
Application number: CN201611018516.4A
Authority: CN
Inventors: 沈晓明
Original assignee: 沈晓明
Current assignee: XinHua Hospital Affiliated To Shanghai JiaoTong University School of Medicine
Priority date: 2016-11-17
Filing date: 2016-11-17
Publication date: 2020-03-27
Anticipated expiration: 2036-11-17
Also published as: CN106653001A

Abstract

本发明涉及婴儿哭声的分析，公开了一种婴儿哭声的辩识方法及其系统。本发明中，通过从训练数据中提取特征参数向量，并进行主成分分析得到并选出多个主成分，依据待辨别数据在各主成分特征向量上的投影分值来确定婴儿啼哭原因的概率分布，可以以较少的训练计算量，较为准确地得到一段婴儿啼哭音频在多个啼哭原因上的概率分布，容错性较好。

Description

婴儿哭声的辩识方法及其系统

技术领域

本发明涉及婴儿哭声的分析，特别涉及婴儿啼哭原因的辩识技术。

背景技术

啼哭是婴儿的第一种发音方式，也是小婴儿与外界沟通的唯一方式。有经验的妈妈和医生能够通过婴儿哭声了解婴儿的情绪、需求和健康。由于现代社会出生率的下降，很多妈妈只有一个孩子，缺少相关的经验，急需技术手段来帮助年轻的妈妈们通过哭声来了解婴儿的需求。

201310347807.8的中国发明专利提出了一种基于深层神经网络的婴儿啼哭声辩识方法方法，该方法包括以下步骤：采集训练用婴儿啼哭声数据；对所述训练用婴儿啼哭声数据进行分类标注；提取每一个分类标注的训练用婴儿啼哭声数据中每段音频的梅尔域倒谱系数以生成训练用数据文件；根据所述训练用数据文件并采用逐层预训练的方式得到深层神经网络中每一层的初始权值；根据深层神经网络中所有层的初始权值并采用BP算法获取所述深层神经网络的哭声模型；采集待辩识的婴儿啼哭声数据，提取待辩识的婴儿啼哭声数据中每段音频的梅尔域倒谱系数；根据待辩识的婴儿啼哭声数据中每段音频的梅尔域倒谱系数和所述哭声模型进行哭声辩识。

本发明的发明人发现，上述专利中技术方案的主要的问题在于，只能给出一个啼哭原因，实际使用时，因为录音设备的性能参差不齐，录音者操作能力参差不齐，环境噪声的影响等原因，导致这个啼哭原因的准确性往往远不如宣称的那么高。而没有经验的年轻妈妈在婴儿啼哭时本就比较慌乱，如果尝试解决这个原因之后婴儿还在继续啼哭，会更为慌乱，不知所措。此外，深层神经网络的训练计算量很大，训练的时间比较长，对训练用的计算机设备的要求比较高。

发明内容

本发明的目的在于提供一种婴儿哭声的辩识方法及其系统，以较少的训练计算量，较为准确地得到一段婴儿啼哭音频在多个啼哭原因上的概率分布。

为解决上述技术问题，本发明的实施方式公开了一种婴儿哭声的辩识方法，包括以下步骤：

a获取婴儿哭声音频的多段训练数据，每个训练数据对应一个已知啼哭原因；

b对每一段训练数据进行特征提取，得到每一段训练数据的特征参数向量；

c对所述多段训练数据的特征参数向量进行主成分分析，得到多个主成分；

d计算每一种啼哭原因对应的训练数据在各主成分上投影分值的均值和方差，根据该方差在所述多个主成分中选择P个主成分，P为大于1的整数；

e获取婴儿哭声音频的待辩识数据，并在所述P个主成分上计算该待辩识数据的投影分值；

f根据该待辩识数据的投影分值和所述均值和方差计算该待辩识数据对应于各个原因的概率。

在一实施方式中，所述步骤c包括以下子步骤：

所述多段训练数据包括N个哭声信号样本，对该N个哭声信号样本分别提取K个特征参数，其中，第n个哭声信号提取出的K个特征参数记为特征参数向量s_n＝[s_n1,s_n2,…,s_nK]^T；

对所述N个哭声信号样本，计算所述K个特征参数所对应的协方差矩阵，记为C，其中，C为K乘K的矩阵；

对所述协方差阵进行特征值分解，得到K个特征值和相应于该K个特征值的特征向量。

在一实施方式中，所述步骤d包括以下子步骤：

对所述协方差矩阵C进行特征值分解，把特征值按从大到小进行排列，得到{λ₁,λ₂,…,λ_K}，从中取特征值最大的Q个特征值及其对应的特征向量，构成一个Q维的特征子空间，其中Q的值取

的解，g为0.9至0.99之间的一个预设置；

在这Q个主成分中，取其中的第k个主成分，该主成分的特征值记为λ_k，λ_k对应的特征向量记为u_k，计算第n个哭声信号的特征参数向量s_n在第k个特征向量上的投影分值；

求N个哭声信号中属于第j类哭声原因的哭声信号，记为N_j，的K个特征参数向量在第k个特征向量上投影分值的均值

和方差σ_jk

然后计算

其中

上述各式中，J表示哭声原因的总类型个数，X_k表示哭声信号的特征参数向量在第k个主成分的投影分值的分离度，而Y_k表示哭声信号的特征参数向量在第k个主成分的投影分值的集中度，L_k代表各个主成分在对哭声原因的辨别能力，L_k越大意味着其辨别能力越强；

按顺序对Q个主成分进行排列，选取L_k值最大的P个主成分用于后续的哭声原因辨识，其中P取Q和M中较小的值，而

h为取值在2％-0.5％之间的一个预设值。

在一实施方式中，所述步骤f中，通过以下方式计算

第j种原因的概率

在一实施方式中，还包括以下步骤：

对选定的一组训练数据执行所述步骤a、b、c和d，得到P个主成分；

根据所得的P个主成分，对该组训练数据中的每一个训练数据，分别执行所述步骤e和f以得到该训练数据对应于各个原因的概率，并计算该训练数据所对应的概率最大原因，并将该概率最大原因与该训练数据所对应的已知啼哭原因进行比较；

将概率最大原因与已知啼哭原因不相同的训练数据从所述选定的一组训练数据中剔除，将剩余的训练数据作为新选定的一组训练数据再次执行上述各步骤，如此循环直至满足预定的退出条件。

在一实施方式中，在所述步骤f之后还包括以下步骤：

在移动终端上显示概率最大的至少两个原因。

在一实施方式中，所述啼哭原因包括以下原因中的任意两种或更多种：

饥饿，想睡觉，不适，尿布湿。

在一实施方式中，所述特征提取的步骤中提取的特征包括以下特征的任意两种或更多种：

平均哭声持续时间、哭声持续时间方差、平均哭声能量、哭声能量方差、基音频率、基音频率的平均值、基音频率的最大值、基音频率的最小值、基音频率的动态范围、基音频率的平均变化率、第一共振峰频率、第一共振峰频率平均变化率、第一共振峰频率平均值、第一共振峰频率的最大值、第一共振峰频率的最小值、第一共振峰频率的动态范围、第二共振峰频率、第二共振峰频率平均变化率、第二共振峰频率平均值、第二共振峰频率的最大值、第二共振峰频率的最小值、第二共振峰频率的动态范围、Mel频率倒谱参数、翻转的Mel频率倒谱参数。

在一实施方式中，在所述步骤b之前，还包括以下步骤：

对所述训练数据中的哭声信号进行降噪，检测并剔取噪声大于预定门限的数据段。

在一实施方式中，在所述步骤c之前还包括以下步骤：

对所述特征参数向量中的各特征参数进行归一化处理。

在一实施方式中，所述步骤c之前包括以下步骤：

根据年龄段对所述多段训练数据进行分组，得到分别对应于多个年龄段的多组训练数据；

在所述步骤c中包括以下步骤：

对每一组训练数据分别进行主成分分析，每一个年龄段分别得到对应的多个主成分；

在所述“在所述P个主成分上计算该待辩识数据的投影分值”的步骤中包括以下子步骤：

判断该待辩识数据属于哪一个年龄段，在该年龄段对应的P个主成分上计算该待辩识数据的投影分值。

本申请还公开了一种婴儿哭声的辩识系统，包括：

训练数据获取单元，用于获取婴儿哭声音频的多段训练数据，每个训练数据对应一个已知啼哭原因；

特征提取单元，用于对每一段训练数据进行特征提取，得到每一段训练数据的特征参数向量；

主成分分析单元，用于对所述多段训练数据的特征参数向量进行主成分分析，得到多个主成分；

主成分选择单元，用于计算每一种啼哭原因对应的训练数据在各主成分上投影分值的均值和方差，根据该方差在所述多个主成分中选择P个主成分，P为大于1的整数；

待辩识数据获取单元，用于获取婴儿哭声音频的待辩识数据；

投影计算单元，用于在所述P个主成分上计算该待辩识数据的投影分值；

原因辩识单元，用于根据该待辩识数据的投影分值和所述均值和方差计算该待辩识数据对应于各个原因的概率。

在一实施方式中，还包括预处理单元，用于对所述训练数据获取单元获取的训练数据中的哭声信号进行降噪，检测并剔取噪声大于预定门限的数据段，将保留下的各数据段输出给所述特征提取单元。

在一实施方式中，还包括归一化单元，用于对所述特征提取单元输出的特征参数向量中的各特征参数进行归一化处理，将处理结果输出给所述主成分分析单元。

本发明实施方式与现有技术相比，至少具有以下区别和效果：

通过从训练数据中提取特征参数向量以及特征参数向量的协方差矩阵，并进行主成分分析得到并选出多个主成分，依据待辩识数据的特征参数向量在各主成分上的投影分值来确定婴儿啼哭原因的概率分布，可以较为准确地得到婴儿啼哭原因的概率分布，容错性较好，使缺少育儿经验的父母较为准确地知道啼哭的可能原因，从而能够从最大可能性开始逐一排除引起啼哭的诱因。

进一步地，在一些不利环境下(如噪声较大的环境)，自动判断的准确性会有一定的下降，因为在终端屏幕上显示有多种啼哭原因，所以有较好的容错性，不会因为终端偶而的误判而使缺少育儿经验的父母失去方向。

进一步地，通过降噪和剔取噪声大于预定门限的哭声数据段，可以有效提高主成分分析的准确性。

进一步地，根据年龄段对训练数据进行分组，以组为单位进行训练和啼哭原因辩识，可以有效地提高啼哭原因辩识的准确度。

附图说明

图1是本发明第一实施方式一种婴儿哭声的辩识方法中训练流程示意图；

图2是本发明第一实施方式一种婴儿哭声的辩识方法中啼哭原因辩识流程示意图；

图3是本发明中婴儿哭声的辩识方法的一个优选例的原理示意图；

图4是本发明第三实施方式中一种婴儿哭声的辨识系统的结构示意图；

图5是本发明一个优选例中用于婴儿哭声原因辨识的智能手机应用软件系统模块示意图。

具体实施方式

在以下的叙述中，为了使读者更好地理解本发明而提出了许多技术细节。但是，本领域的普通技术人员可以理解，即使没有这些技术细节和基于以下各实施方式的种种变化和修改，也可以实现本发明各权利要求所要求保护的技术方案。

特别要说明的是，本发明所称各种啼哭原因都是指可能性，尤其是“病理”啼哭原因并非指确认为患病，更不是指确定为患有某一种疾病，只是说明患病的可能性较大，建议到医院检查，以免因为婴儿家长没有育儿经验而耽误病情。

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明的实施方式作进一步地详细描述。

本发明第一实施方式涉及一种婴儿哭声的辩识方法。该方法包括训练和辩识两个流程。图1是训练流程的示意图，即根据训练数据训练出P个主成分。图2是辩识流程的示意图，即根据训练得到的P个主成分对待辩识数据进行啼哭原因辩识。

如图1所示，在步骤101中，获取婴儿哭声音频的多段训练数据，每个训练数据对应一个已知啼哭原因。啼哭原因包括以下原因中的任意两种或更多种：病理，饥饿，想睡觉，不适，肚子胀气，想打隔，疼痛，害怕，烦躁，尿布湿。可以理解，本发明的技术方案中啼哭原因并不限于这些。

此后进入步骤102，对训练数据进行分组。分组的方式有多种，例如，

在一个实施例中，根据年龄段对多段训练数据进行分组，得到分别对应于多个年龄段的多组训练数据。根据年龄段对训练数据进行分组，以组为单位进行训练和啼哭原因辩识，可以有效地提高啼哭原因辩识的准确度。

在一个实施例中，以性别和年龄段对训练数据进行分组，在辩识啼哭原因时按不同的性别和年龄段进行辩识。

在一个实施例中，以性别、种族和年龄段对训练数据进行分组，在辩识啼哭原因时按不同的性别、种族和年龄段进行辩识。

在另一个实施方式中，也可不对训练数据进行分组，或者说，将所有的训练数据作为一组。

步骤102之后的各步骤，包括步骤103－107，都是在训练数据分组的基础上进行的，即对每一组训练数据分别执行步骤103－107。

此后进入步骤103，对声音信号进行预处理。优选地预处理包括对训练数据中的哭声信号进行降噪，检测并剔除噪声大于预定门限的数据段。剔除的方式有多种，例如，

在一个实施例中，如果一个训练数据中存在噪声大于预定门限的情况，可以剔除这个训练数据，从而保证每一个训练数据内部是连续录音的。

在一个实施例中，如果一个训练数据中存在噪声大于预定门限的情况，可以只剔除这个训练数据中噪声大于预定门限的那个时段中的音频数据，保留其它的部分。

通过降噪和剔取噪声大于预定门限的数据段，可以有效提高主成分分析的准确性。

在另一个实施方式中，对训练数据也可以不进行包括降噪在内的预处理。

此后进入步骤104，对每一段训练数据进行特征提取，得到每一段训练数据的特征参数向量。其中，要提取的特征有多个，是预先选取好的。特征参数向量即由各预先选取好特征按预定顺序组成的向量。例如，要选择的特征为4个：F0，F1，F2，Mel频率倒谱参数，则特征参数向量为<F0，F1，F2，Mel频率倒谱参数>。

步骤104中可提取的特征包括以下特征的任意两种或更多种：

平均哭声持续时间、哭声持续时间方差、平均哭声能量、哭声能量方差、基音频率、基音频率的平均值、基音频率的最大值、基音频率的最小值、基音频率的动态范围、基音频率的平均变化率、第一共振峰频率、第一共振峰频率平均变化率、第一共振峰频率平均值、第一共振峰频率的最大值、第一共振峰频率的最小值、第一共振峰频率的动态范围、第二共振峰频率、第二共振峰频率平均变化率、第二共振峰频率平均值、第二共振峰频率的最大值、第二共振峰频率的最小值、第二共振峰频率的动态范围、Mel频率倒谱参数、翻转的Mel频率倒谱参数。可以理解，本发明的其它实施方式中，可提取的特征可以并不限于这些。

此后进入步骤105，对特征参数向量中的各特征参数进行归一化处理。

在另一实施方式中，也可以不对特征参数向量中的各特征参数进行归一化处理。

此后进入步骤106，对每一组训练数据分别进行主成分分析，每一组训练数据得到对应的多个主成分。例如，如果步骤102中是以年龄段为依据进行分组的，则每一个年龄段分别得到对应的多个主成分。

设一组训练数据中包括N个哭声信号样本，对该N个哭声信号样本分别提取K个特征参数，其中，第n个哭声信号提取出的K个特征参数记为特征参数向量s_n＝[s_n1,s_n2,…,s_nK]^T；

对N个哭声信号样本，计算K个特征参数所对应的协方差矩阵，记为C，其中，C为K乘K的矩阵；

对协方差阵进行特征值分解，得到K个特征值和相应于该K个特征值的特征向量。

可以理解，在本发明的其它实施方式中还可以使用其它的主成分选择方法。

此后进入步骤107，计算每一种啼哭原因对应的训练数据在各主成分上投影分值的均值和方差，根据该方差在多个主成分中选择P个主成分，P为大于1的整数。一种优选的实现方式如下：

对协方差矩阵C进行特征值分解，把特征值按从大到小进行排列，得到{λ₁,λ₂,…,λ_K}，从中取特征值最大的Q个特征值及其对应的特征向量，构成一个Q维的特征子空间，其中Q的值取

的解，g为0.9至0.99之间的一个预设置；

求N个哭声信号中属于第j类哭声原因的哭声信号(记为N_j)的特征参数向量在第k个特征向量上投影分值的均值

和方差σ_jk

然后计算

其中

上述各式中，J表示哭声原因的总类型个数，X_k表示哭声原因在第k个主成分分值的分离度，而Y_k表示哭声原因在第k个主成分的集中度，L_k代表各个主成分在对哭声原因的辨别能力，L_k越大意味着其辨别能力越强；

h为取值在2％-0.5％之间的一个预设值。

在本发明的其它实施方式中，还可以使用其它的概率计算方法。

至此训练流程结束。

下面结合图2详细说明辩识流程。

在步骤201中，获取婴儿哭声音频的待辩识数据。一个优选的方式是利用智能手机的录音功能实时录取婴儿哭声音频。当然也可以使用其它的设备录音，如录音笔，录音机，平板电脑等等。

此后进入步骤202，在P个主成分上计算该待辩识数据的投影分值。

如果训练数据是分组的，则需要判断该待辩识数据属于哪一个组，以便选择与该组对应的P个主成分计算该待辩识数据的投影分值。例如，判断该待辩识数据属于哪一个年龄段，在该年龄段对应的P个主成分上计算该待辩识数据的投影分值。

此后进入步骤203，根据该待辩识数据的投影分值和均值和方差计算该待辩识数据对应于各个原因的概率。

其中P_j是该待辩识数据对应于第j种原因的概率。

此后进入步骤204，在移动终端上显示概率最大的至少两个原因。在一些不利环境下(如噪声较大的环境)，只为示一种原因的自动判断的准确性会有一定的下降，因为在终端屏幕上显示有多种啼哭原因，所以有较好的容错性，不会因为终端偶而的误判而使缺少育儿经验的父母失去方向。具体有多种实现的方式，例如：

在一个实施例中，系统中共设置有6种原因，在移动终端上显示概率最大的3个原因及其概率。

在一个实施例中，系统中共设置在8种原因，在移动终端上显示概率大于10％的所有原因及其概率。

在一个实施例中，系统中共设置在5种原因，在移动终端上显示所有原因的概率。

通过从训练数据中提取特征参数向量，并进行主成分分析得到并选出多个主成分分特征向量，依据待辩识数据在各主成分上的投影分值来确定婴儿啼哭原因的概率分布，可以较为准确地得到婴儿啼哭原因的概率分布，容错性较好，使缺少育儿经验的父母较为准确地知道啼哭的可能原因，从而能够从最大可能性开始逐一排除引起啼哭的诱因。

本发明第二实施方式涉及一种婴儿哭声的辩识方法，第二实施方式是第一实施方式方式的改进，主要改进之处在于，采用了循环更新的方法获得用于辨识的主成分。本发明的发明人发现，部分训练数据可能受特殊的背景噪声等因素影响，导致所得到的用于辨识的主成分的有效性减弱，而采用循环更新用于辨识的主成分的方法则可有效解决这个问题。

具体的实现方法如下。

对选定的一组训练数据执行步骤101至107，得到P个主成分；

根据所得的P个主成分，对选定的一组训练数据中的每一个训练数据，分别执行步骤201至203，即将每一个训练数据分别作为步骤201中的待辩识数据，以得到该训练数据对应于各个原因的概率，并计算该训练数据所对应的概率最大的原因，并将该概率最大的原因与该训练数据所对应的已知啼哭原因进行比较，如果两者不同，则将该训练数据从该组训练数据中剔除。

将该组训练数据以上述方法处理一遍后，将剩余的训练数据作为新选定的一组训练数据再次执行上述各步骤，如此循环直至满足预定的退出条件。

退出条件可以有多种，例如，在某次循环后，如果没有一个训练数据被剔除则退出循环，又如，如果达到预定的循环次数则退出循环，再如，在某次循环后，被剔除的训练数据的数量与剩余的训练数据的数量之比值小于预定的门限，等等。

下面通过一个优选例来进一步说明本发明技术方案的实现方式。

图3为该优选例的原理示意图。

如图3所示，其中步骤301至304为训练过程，步骤305至309为辩识过程。

在训练过程中，训练数据库中的训练数据先在步骤301中进行数据归类及预处理，此后进入步骤302进行特征参数提取，此后进入步骤303分亚组进行主成分分析，此后进入步骤304确定用于辨识的主成分及其参数。

在辩识过程中，待辨识哭声数据在步骤305中发据亚组标记挑选相应主成分，所选挑选出的主成分被用于步骤308和309的计算。待辨识哭声数据在步骤306中进行数据归类及预处理，此后在步骤307中进行特征参数提取，此后进入步骤308计算待辨识特征参数在主成分上的投影，此后进入步骤309计算综合概率，输出辨识结果。

下面对图3中涉及的各项具体内容进行详细说明。

(1)训练数据库，该训练数据库为包含一组一岁以下的婴儿哭声信号及对应的婴儿年龄性别等标记数据。每名婴儿的数据至少包括由饥饿、疼痛、便溺、困倦这四种原因引起的哭声(这四种原因之外的归为其他原因)，以及这些哭声数据的标记信息，从而对该数据库中的任意一段哭声信号，其所对应的哭泣原因都是明确的。除哭声数据和哭声原因标记信息外，还包括哭泣的具体时间、所处场景(环境温度、湿度等信息)等可选标记信息。

(2)归类及预处理(步骤301和306)：对哭声信号进行降噪，抑制背景噪声；采用自动检测算法，剔除噪声特别大的数据段，从而提高进入后续特征提取的哭声信号的信噪比。对婴儿的数据按年龄和性别进行亚组划分：出生后1-15天组，15-30天组；31-60天；61-120天组，121-180天组，大于180天组；以上按年龄分组还进一步划分为男婴组和女婴组。后续的主成分分析分别针对每个亚组单独进行。

(3)特征参数提取(步骤302和307)：对每一段婴儿哭声数据进行特征提取，提取的具体特征包括(但不限于)：平均哭声持续时间、哭声持续时间方差、平均哭声能量、哭声能量方差、基音频率(F0)、F0的平均值、F0的最大值、F0的最小值、F0的动态范围(即F0的最大值与最小值之差)、F0的平均变化率、第一共振峰频率(F1)、F1平均变化率、F1平均值、F1的最大值、F1的最小值、F1的动态范围(即F1的最大值与最小值之差)、第二共振峰频率(F2)、F2平均变化率、F2平均值、F2的最大值、F2的最小值、F2的动态范围(即F2的最大值与最小值之差)、Mel频率倒谱参数(MFCC)、翻转的Mel频率倒谱参数(IMFCC)。这些特征参数大部分是在本技术领域的现有文献中经常出现的标准定义。下面对本发明专门定义的参数做进一步说明。婴儿哭泣的时候声音会表现出不同的断续特征。一长段哭声会包含多段连续哭声，这里的平均哭声持续时间定义为各段连续哭声时长的均值。对应地，哭声持续时间方差定义为各段连续哭声时长的方差，平均哭声能量定义为各段连续哭声能量的均值，哭声能量方差定义为各段连续哭声能量的方差。

(4)参数归一化处理：由于各特征参数的单位和大小各不相同，所以在进行后续的主成分分析之前需对步骤302或步骤307中得到的特征参数进行进行归一化处理，从而使得各个特征参数在变换后都被归一化成均值为0方差为1的参数。以第k个参数为例，计算各个哭声信号的第k个参数，从而得到第k个参数的一个序列，计算这个序列的均值和方差，然后把这个序列减去均值后再除以方差，即得到一个归一化的第k个参数的序列；这里计算得到的均值和方差这也在“待辨识哭声数据”的“特征参数提取”步骤被调用，用于“待辨识哭声数据”的特征参数的归一化处理。

(5)主成分分析(步骤303)：下述主成分分析过程是针对各特定年龄阶段的单一性别的一组婴儿的训练组哭声信号进行的。设该组数据中总共有N个哭声信号样本，对第n个哭声信号按照步骤302中的方法提取出K个特征参数(记为s_n＝[s_n1,s_n2,…,s_nK]^T)；然后对这N个样本，计算这K个特征参数所对应的协方差矩阵(记为C，为K乘K的矩阵)，然后对协方差阵进行特征值分解得到K个特征值及其相应的特征向量。

(6)确定用于辨识的主成分及其参数(步骤304)：对协方差矩阵C进行特征值分解，把特征值按从大到小进行排列，{λ₁,λ₂,…,λ_K}，取Q个特征值及其对应的特征向量(也就是取特征值最大的Q个主成分)构成一个Q维的特征子空间，其中Q的值取

的解。进一步，在这Q个主成分中，取其中的第k个主成分(特征值记为λ_k，其对应的特征向量记为u_k)，计算第n个哭声信号的特征参数向量s_n在第k个特征向量上的投影分值(即u_k·s_n)，进一步求N个哭声信号中属于第j类哭声原因的哭声信号(记为N_j)在第k个特征向量上投影分值的均值

和方差σ_jk。然后计算

其中

上述各式中，J表示哭声原因的总类型个数，X_k表示哭声声信号的特征参数向量在第k个主成分的投影分值的分离度，而Y_k表示哭声信号的特征参数向量在第k个主成分的集中度。L_k代表各个主成分在对哭声原因的辨别能力，L_k越大意味着其辨别能力越强。按顺序对Q个主成分进行排列，选取L_k值最大的P个主成分用于后续的哭声原因辨识，其中P取Q和M中较小的值，而

步骤304中，取了能量占到98％的那些大的主成分组合纳入后续的分析。这是因为，本发明的发明人发现，对于特征值过小的那些特征，在进行特征值分解的计算时，这些主成分的稳定性存在问题。只有特征值比较大的那些主成分，其特征向量在计算时具有较好的稳定性。这个处理方法是本发明的创新之一。

(7)循环更新用于辨识的主成分：步骤304“确定用于辨识的主成分及其参数”对单个亚组的所有数据进行主成分分析，得到用于辨识的主成分及相应参数。本发明的发明人发现，部分训练数据可能受特殊的背景噪声等因素影响，导致所得到的用于辨识的主成分的有效性减弱，本发明特别提出循环更新用于辨识的主成分的方法。

在第一轮循环中，取训练数据集N个哭声信号中的第n个哭声信号s_n，调用“参数归一化处理”步骤得到的哭声信号s_n的归一化的特征参数向量s_n，然后调用步骤304“确定用于辨识的主成分及其参数”中得到的的用于该组的辨识的P个“主成分”及相应参数，计算待辩识的哭声的特征参数向量在所选取的各个主成分方向u_k上的投影分值Z_nk＝u_k·s_n。然后计算综合概率

求解

所得的j值即表示辨别出来的哭声信号s_n所属的哭声原因。把辨识出来的哭声原因和数据库中s_n所标记的哭声原因进行比较，如果两者相同，则表示对s_n的辨识正确，如果不同，则表示对s_n的辨识错误。对训练数据集中的N个哭声数据按哭声信号s_n类似的流程进行辨识，统计第一轮循环得到辨识的总正确率(辨识正确的哭声数除以总哭声数N)，记为A₁。对于第二轮循环，把第一轮中辨识错误的那些训练数据从训练组中剔除，用剩下的数据作为新的训练数据集，然后按照第一轮的步骤进行，得到第二轮循环的辨识总正确率A₂；如此循环下去，得到第i轮循环的辨识总正确率A_i。考察A_i的变化，在A_i不再明显上升或者到达第一个最大值时停止循环，取此次循环的主成分及相应参数作为后续步骤的辨识系统的参数，用于对待辨识哭声信号进行辨识。本步骤“循环更新用于辨识的主成分”是优选方案，并非必须的，在图3上没有直接体现，在作用上可以视作替代步骤302至304，都是输出用于辨识的主成分及其参数。

(8)计算待辨识特证参数向量在主成分上的投影分值(步骤308)：对于待识别的哭声信号，先经过步骤306“数据归类及预处理”和步骤307“特征参数提取”，调用上述“循环更新用于辨识的主成分”中获得的辨识系统的参数(即主成分及均值μ_jk和方差σ_jk)，对待辨识的哭声信号的特征参数进行归一化处理得到归一化的特征参数向量s，然后调用步骤“循环更新用于辨识的主成分”中所选取的P个主成分的参数，计算待识别的哭声的特征参数向量在所选取的各个主成分方向u_k上的投影分值Z_k＝u_k·s。

(9)计算综合概率(步骤309)：对于步骤“循环更新用于辨识的主成分”中选取的P个主成分，计算综合概率

求解

所得的j值即表示待识别哭声信号所属的哭声原因。此外，对J个哭声原因类别分别计算得到J个P_j值，把其值按照大小从大小进行排列，则在这个排列顺序中，对应的P_j值表示了“待辨识哭声信号”所属哭泣原因的可能性的大小。鉴于婴儿哭泣的原因可能是综合了多个因素，这里得到各个原因可能性的大小，可一并显示出来供用户参考。

本发明的各方法实施方式均可以以软件、硬件、固件等方式实现。不管本发明是以软件、硬件、还是固件方式实现，指令代码都可以存储在任何类型的计算机可访问的存储器中(例如永久的或者可修改的，易失性的或者非易失性的，固态的或者非固态的，固定的或者可更换的介质等等)。同样，存储器可以例如是可编程阵列逻辑(Programmable ArrayLogic，简称“PAL”)、随机存取存储器(Random Access Memory，简称“RAM”)、可编程只读存储器(Programmable Read Only Memory，简称“PROM”)、只读存储器(Read-Only Memory，简称“ROM”)、电可擦除可编程只读存储器(Electrically Erasable Programmable ROM，简称“EEPROM”)、磁盘、光盘、数字通用光盘(Digital Versatile Disc，简称“DVD”)等等。

本发明第三实施方式涉及一种婴儿哭声的辨识系统。图4是该婴儿哭声的辨识系统的结构示意图。该婴儿哭声的辨识系统包括：

训练数据获取单元，用于获取婴儿哭声音频的多段训练数据，每个训练数据对应一个已知的啼哭原因。

预处理单元，用于对训练数据获取单元获取的训练数据中的哭声信号进行降噪，检测并剔取噪声大于预定门限的数据段，将保留下的各数据段输出给特征提取单元。

特征提取单元，用于对每一段训练数据进行特征参数提取，得到每一段训练数据的特征参数向量。

归一化单元，用于对特征提取单元输出的特征参数向量中的各特征参数进行归一化处理，将处理结果输出给主成分分析单元。

主成分分析单元，用于对多段训练数据的特征参数向量进行主成分分析，得到多个主成分。

主成分选择单元，用于计算每一种啼哭原因对应的训练数据在各主成分上投影分值的均值和方差，根据该方差在多个主成分中选择P个主成分，P为大于1的整数。

待辨识数据获取单元，用于获取婴儿哭声音频的待辨识数据。

投影计算单元，用于在P个主成分上计算该待辨识数据的投影分值。

原因辨识单元，用于根据该待辨识数据的投影分值和均值和方差计算该待辨识数据对应于各个原因的概率。

第一和第二实施方式是与本实施方式相对应的方法实施方式，本实施方式可与第一和第二实施方式互相配合实施。第一和第二实施方式中提到的相关技术细节在本实施方式中依然有效，为了减少重复，这里不再赘述。相应地，本实施方式中提到的相关技术细节也可应用在第一和第二实施方式中。

需要说明的是，本发明各设备实施方式中提到的各单元都是逻辑单元，在物理上，一个逻辑单元可以是一个物理单元，也可以是一个物理单元的一部分，还可以以多个物理单元的组合实现，这些逻辑单元本身的物理实现方式并不是最重要的，这些逻辑单元所实现的功能的组合才是解决本发明所提出的技术问题的关键。此外，为了突出本发明的创新部分，本发明上述各设备实施方式并没有将与解决本发明所提出的技术问题关系不太密切的单元引入，这并不表明上述设备实施方式并不存在其它的单元。

本发明还基于上述婴儿哭声原因辨识的技术方案，实现了一套婴儿哭声原因辨识的智能手机应用软件系统。该系统通过客户端和服务器联合工作的方式，让婴儿哭声信号远程实时传到服务器，在服务器上完成原因辨识并即时还回辨识结果到用户手机的客户端，完成哭声原因的实时显示。该系统还通过哭声数据积累和用户对辨识结果的反馈，不断对辨识模型进行更新，从而实现基于大数据的婴儿哭声意图辨识，获得更好的辨识效果。该系统包括客户端软件系统和服务器软件系统，总的模块图如图5。其中，客户端软件系统将包括“客户端用户模块”、“数据传输模块”、“辨识结果显示模块”和“用户反馈模块”；服务器软件系统包括“数据传输模块”、“数据分析和辨识模块”、“数据库管理模块”、“数据库”、“基于主成分分析的辨识训练模块”和“系统和用户管理模块”。各个模块的实现和功能说明如下：

客户端用户模块：该模块包括用户登录、用户信息输入、哭声录音及传输、哭声原因辨识结果显示等子模块。

数据传输模块：该模块通过网络实现无线传输用户客户端模块所录制的婴儿哭声数据及其他婴儿相关信息到服务器。从客户端传输到服务器的数据被组织和存储，加入原有的数据库。该模块还实现把辨识结果传输到用户手机客户端。客户端和服务器端各有一个数据传输模块，两者相互配合完成数据传输。

数据分析和辨识模块：该模块采用上述第一实施方式中的步骤202和203中描述的方法得到用于辨识的主成分及其参数，用于计算待辨识婴儿哭声的特征参数向量在各选取的主成分方向上的投影分值及综合概率，得到辨识结果，并把辨识结果输入到“辨识结果显示”模块。

辨识结果显示模块：该模块显示“数据分析和辨识模块”得到的辨识结果，同时显示该次哭泣的各种可能原因的概率。本发明中把哭声原因归为五类，即饥饿、疼痛、便溺、困倦、其他。计算出待辨识哭声对于五种哭声原因的P_j值，然后作换算：

在本发明的显示模块提供两种显示形式供用户选择，即柱状图显示模式和饼图显示模式，以R_j值显示哭声属于第j类原因的可能性大小。需要说明的是，这里定义的R_j值是为了方便图形显示辨识结果，只表示该哭声原因属于第j类的可性的相对大小，能表明属于各类原因的排序，并不表示属于各类的可能性的严格比例。

用户反馈模块：用户对婴儿哭泣进行查看和处理后，或能确认婴儿哭泣的原因。“用户反馈模块”提供用户对客户端显示出来的辨识结果进行反馈的界面，让用户反馈哭泣的真实原因。如用户有反馈，则把该反馈结果通过“数据库管理模块”把哭声原因标记到对应的哭声信号。这一得到原因确认的哭声信号将被纳入后续用于更新辨识模型的训练数据库。

数据管理模块：该模块实现对数据的管理，实现对各个用户的数据管理和对后续用于辨识器训练更新的训练数据库的管理。

数据库模块：此模块实现所有用户数据及哭声信号的的存数和组织。

基于主成分分析的辨识训练模块：该模块主要调用有哭声原因标记的哭声信号进行主成分分析，得到辨识系统的各个参数，供“数据分析和辨识模块”调用，实现婴儿哭声原因辨识。具体实现方法参见上述第一实施方式的步骤102至107。随着更多数据的累积，该模块定期根据新的训练数据集进行训练，更新用于哭声原因辨识的主成分及相关参数。

系统和用户管理模块：该模块实现对服务器系统的运行状态的监控和管理，并用于管理用户信息。

需要说明的是，在本专利的权利要求书和说明书中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。本专利的权利要求书和说明书中，如果提到根据某要素执行某行为，则是指至少根据该要素执行该行为的意思，其中包括了两种情况：仅根据该要素执行该行为、和根据该要素和其它要素执行该行为。

虽然通过参照本发明的某些优选实施方式，已经对本发明进行了图示和描述，但本领域的普通技术人员应该明白，可以在形式上和细节上对其作各种改变，而不偏离本发明的精神和范围。