CN103280220A

CN103280220A - 一种实时的婴儿啼哭声识别方法

Info

Publication number: CN103280220A
Application number: CN2013101484229A
Authority: CN
Inventors: 刘宏; 李晓飞; 付卓
Original assignee: Peking University Shenzhen Graduate School
Current assignee: Peking University Shenzhen Graduate School
Priority date: 2013-04-25
Filing date: 2013-04-25
Publication date: 2013-09-04
Anticipated expiration: 2033-04-25
Also published as: CN103280220B

Abstract

本发明涉及一种实时的婴儿啼哭声识别方法，其步骤包括：1）录制婴儿啼哭声信号并建立声音库，进行预处理；2）当啼哭声开始时，采集得到婴儿啼哭声后采样得到实时数字信号，并在固定时间窗内对实时数字信号中的完整语音段依次进行分帧、加窗处理后提取得到实时特征向量序列；3）将实时特征向量序列与该GMM模板进行匹配，得到似然度最大的类，将最大的类作为识别结果，并对当前识别结果进行投票；4）当啼哭声结束后，根据投票结果判断婴儿啼哭声类别，完成识别，进行婴儿状况处理。本发明能够实时快速地判别婴儿啼哭声属于饥饿型、困倦型、尿湿型和疼痛型中的哪种类型，辅助护理人员及时反应、识别性能高。

Description

一种实时的婴儿啼哭声识别方法

技术领域

本发明涉及一种应用在家庭智能监护领域的音频处理技术，特别是婴儿啼哭声分析与识别方法。属于信息技术领域。

背景技术

利用计算机来进行人类语音识别是近几年在人工智能领域中非常热门的研究方向之一，首先利用语音采集工具进行语音采集，然后对所采集语音信号进行智能的分析处理，并给出反馈。婴儿啼哭是婴儿与外界交互的重要方式，相当于成年人的语音，婴儿啼哭声会因为其意图的差异而有所不同。将婴儿的哭声作为一种特殊的语音信号进行分析处理，并将不同的哭声进行准确的分类进而对其情感进行识别，可以有效地辅助护理人员对婴儿进行恰当的护理。

基本上，婴儿啼哭自动分类过程是一个模式分类的问题。类似于自动语音识别，其主要的两大步骤分别是：语音信号处理和模式分类。首先通过麦克风接收原始的新生儿哭声信号，并进行模数转换，把模拟声音信号转换成数字信号。在信号处理阶段，首先对原始信号进行预处理：降噪和滤波，信号预加重，分帧并加窗，对于每帧信号提取特征时域的特征和频域特征组成特征向量，由多帧特征向量组成特征向量序列。特征向量序列可以有效表征声音信号。模式分类阶段，通过与分类器中的先验知识进行比对从而得出分类结果。现有的婴儿啼哭声分类方法包括以下步骤：

1、语音录入，预滤波、模数变换。先把录入的模拟声音信号进行预滤波，高通滤波抑制50HZ电源噪声信号；低通滤波滤除声音信号中频率分量超过采样频率一半的部分，防止混叠干扰。对模拟声音信号进行采样和量化得到数字信号。

2、预加重。信号通过高频加重滤波器冲激响应H(z)=1-0.95z^-1，以补偿嘴唇辐射带来的高频衰减。

3、分帧、加窗。由于语音信号的慢时变性，整体非平稳，局部平稳，一般认为语音信号在10-30ms内是平稳的，可以把声音信号按照20ms的长度进行分帧。分帧函数为：

x_k(n)=w(n)s(Nk+n) n=0,1...N-1;k=0,1...L-1 （1）

其中N为帧长，L为帧数。w(n)为窗函数，它的选择（形状和长度）对短时分析参数的特性影响很大，常用的窗函数包括矩形窗、汉宁窗和汉明窗等。一般选用汉明窗，可以很好地反应语音信号的特性变化，汉明窗表达式为：

4、特征提取。每帧信号可以提取特征以表征本帧信号的时域和频谱特性，现有用于婴儿啼哭声识别的特征包括啼哭的节拍、停顿及呼气持续时间、基音频率、共振峰结构、梅尔频率倒谱系数（MFCC）、线性预测系数（LPC）等。

5、分类。在分类算法方面，由于婴儿的啼哭声跟成人的语音的发声原理是相同的，所以通常是采用类似于语音识别的算法。现有的啼哭声分类识别方法主要包括三类：人工神经网络方法、隐马尔可夫模型（HMM)方法，贝叶斯分类算法。

现有的方法一般采用类似于语音识别方法的特征和分类器，没有考虑到某些婴儿啼哭声独有的特性。与正常的语音信号不同，婴儿啼哭声并没有严格的起始截止点，其信号内容也没有严格的时序性。现有的方法一般从啼哭声信号中截取一段进行识别（如啼哭声起始1秒等），作为识别结果，不符合婴儿啼哭声持续时间较长的性质，并且不能反映长时的时域特性，如信号持续时间、信号幅度起伏、节拍等，影响了识别性能。

发明内容

本发明考虑婴儿啼哭的特性，选取合适的婴儿啼哭声类别，采用有效的特征参数。本发明考虑啼哭声通常持续时间较长的特点，对啼哭声进行实时的处理与识别。通过实时地检测婴儿啼哭声，并对一个较短的时间窗内的哭声信号进行识别，给出当前时间窗的识别结果，然后综合当前时间之前的所有时间段的识别结果，通过投票机制，给出当前时间总体识别结果。一方面，可以保证啼哭声实时识别，在啼哭开始较短的时间内给出识别结果，辅助护理人员及时采取有效的措施；另一方面，通过利用多个时间窗的数据，直至识别结果收敛，保证识别结果的有效。本发明针对一个婴儿啼哭声系统一般只面临一个婴儿的实际情况，对分类器模板进行无监督的更新，以使其更能反映该婴儿的声音特性，提高识别性能。

本发明为一种实时的婴儿啼哭声识别方法，具体内容为:

1）录制婴儿啼哭声信号并建立声音库，进行预处理；

1-1）根据设定的哭声类别将录制得到的婴儿啼哭声信号转化为数字信号后分类录入声音库中得到多个完整的语音段；

1-2）在固定时间窗内对所述语音段依次进行分帧、加窗处理后提取得到模板特征向量序列；

1-3）根据所述特征向量序列采用期望最大化EM算法训练啼哭声的混合高斯模型GMM模板，将所述GMM模板储存入库；

2）当啼哭声开始时，采集得到婴儿啼哭声后采样得到实时数字信号，并在固定时间窗内对所述实时数字信号中的完整语音段依次进行分帧、加窗处理后提取得到实时特征向量序列；

3）将所述实时特征向量序列与该GMM模板进行匹配，得到似然度最大的类，将所述最大的类作为识别结果，并对当前识别结果进行投票；

4）当啼哭声结束后，根据投票结果判断婴儿啼哭声类别，完成识别。

更进一步，根据不同声音频谱提取的设定哭声类别分为饥饿型、困倦型、尿湿型和疼痛型四种及含义模糊的模糊类哭声。

更进一步，所述特征向量提取特征选择以下一种或多种：啼哭节拍、停顿及呼气持续时间、基音频率、共振峰结构、梅尔频率倒谱系数MFCC、线性预测系数LPC。

更进一步，所述实时特征向量序列根据梅尔频率倒谱系数MFCC特征提取2种时域特征，若当前帧x_k(n)属于第m个主波，

1）该帧啼哭节拍为：

{Tempo}_{k} = \frac{1}{{End}_{m} - {End}_{m - 1}}

2）该帧主波能量梯度为：

Grad_k=Energy_m-Energy_m-1

所述特征向量的总维数为15。

更进一步，所述分帧信号x_k(n)经过加窗分帧后得到，所述分帧信号x_k(n)的能量为

定义一次明显的啼哭声为一个主波，第m个主波设为C_m，第m个主波C_m，则，

起始帧为：

Start_m={k|E_k≥TH&E_k-1<TH}

终止帧为：

End_m={k|E_k≥TH&E_k+1<TH}

主波能量为：

{Energy}_{m} = \frac{1}{{End}_{m} - {Start}_{m} + 1} Σ_{{k = Start}_{m}}^{{End}_{m}} E_{k}

其中，E_k-1为第k-1帧的能量，TH为判断主波的能量阈值。

更进一步，所述特征向量序列对于GMM的似然度为：

p (x) = Σ_{k = 1}^{K} ω_{k} N (x / μ_{k}, Σ_{k})

其中，K为GMM中高斯成分的个数，k为高斯成分的计数，x为当前特征向量，ω_k为高斯分量的权重，μ_k为高斯分量的均值和Σ_k为高斯分量的方差，N(·)表示高斯分布概率密度函数。

更进一步，将所述特征向量序列对于GMM的似然度最大的结果作为最匹配结果r，将当前识别结果的投票数加1按照如下公式对识别结果进行投票，所述投票的初始值为0：

{Vote}_{i} = \{\begin{matrix} {Vote}_{i} + 1 & if & r = i \\ {Vote}_{i} \end{matrix}

其中，i为四种哭声类型的序号，i=1,2,3,4，Vote_i为第i类哭声的得票数，投票票数最多总体识别结果：

R = \underset{i}{\arg \max} {Vote}_{i} .

更进一步，当啼哭声结束时，总体识别结果按照如下公式进行判断：

其中，W为时间窗的个数，即总票数，R表示总体识别结果得票数最多的类，如果最大票数小于w/2，则判定该段啼哭声属于模糊类。

更进一步，若最终啼哭声被识别为非模糊类时，就投票结果作为最终识别结果的时间窗信号，采用最大后验概率MAP方法进行GMM模板高斯均值更新：

MAP ({\hat{μ}}_{k}) : {\hat{μ}}_{k} = \frac{τ_{k} μ_{k} + Σ_{t = 1}^{T} c_{kt} o_{t}}{τ_{k} + Σ_{t = 1}^{T} c_{kt}},

其中表示对于当前自适应数据第k个高斯分量所占的比重，o_t为自适应数据，参数τ_k控制着自适应对先验信息μ_k的依赖程度。

更进一步，所述加窗、分帧处理中，分帧函数为：

x_k(n)=w(n)s(Nk+n) n=0,1...N-1;k=0,1...L-1

其中N为帧长，L为帧数，w(n)为窗函数，所述w(n)为汉明窗：

本发明的技术效果：

本发明通过对婴儿啼哭声信号进行实时的识别，并以投票方式给出总体识别结果，可以实时快速地判别婴儿啼哭声属于饥饿型、困倦型、尿湿型和疼痛型中的哪种类型，辅助护理人员及时反应。根据婴儿啼哭声的特点提取了合适的特征，根据多个时间窗的综合判断，可以取得较好的识别性能。基于时间窗的模板无监督更新，使模板更能反映特定婴儿的声音特性，随着针对某个婴儿的啼哭声识别系统的应用时间和次数的积累，该系统针对该婴儿的识别性能会逐步提高。

附图说明

图1是本发识别方法流程示意图。

图2a-图2b是本发明一实施例中识别过程中啼哭声示意图，其中，图2a是时间窗内“饥饿型”信号采样图，图2b是时间窗内投票结果示意图。

具体实施方法

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，可以理解的是，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

首先定义哭声类别，即哭声识别空间。由于婴儿啼哭声的类别定义主观性较大，并且也实际存在一些含义模糊的婴儿啼哭声，因此本发明定义的婴儿啼哭声类别包括4个定义明确、特性明显的哭声：饥饿型、困倦型、尿湿型和疼痛型，分类如下：

饥饿型哭声先短促哭一声，然后停顿一下，再短促哭一声，再停顿，由弱变强，再由强变弱，声音响亮。

困倦型哭声每个声音拉得很长，哭声很强烈。

尿湿型哭声突然发声，不会很大声，节奏较缓慢，哭过几声后无人应答便慢慢停止哭闹。

疼痛型哭声是刺耳的尖叫，伴随着短促的呼吸暂停，然后又会紧跟着另外一阵刺耳的尖叫。不同的啼哭声具有不同声音频谱，并在时域上表现迥异，可以通过提取这种差异性辨别婴儿啼哭声。

另外定义一个模糊类，不属于上述四种类型的，或者含义模糊的哭声被识别为模糊类，需要护理人员鉴别。共5类哭声。

由于与正常的语音信号不同，婴儿啼哭声并没有严格的起始截止点，其信号内容也没有严格的时序性。本发明采用混合高斯模型（GMM，《语音信号处理》第2版，赵力编著，机械工业出版社，228-230页）对于啼哭声信号特征向量序列进行建模。首先分别训练4类啼哭声饥饿型GMM、困倦型GMM、尿湿型GMM和疼痛型GMM。每种啼哭声采用多段完整的啼哭声信号基于期望最大化（EM）算法（《语音信号处理》第2版，赵力编著，机械工业出版社，228-230页）进行训练。

识别阶段，考虑啼哭声通常持续时间较长的特点，通过实时录入啼哭声信号，对一个较短的时间窗内（当前t秒）的哭声信号进行识别，给出当前时间窗的识别结果，然后综合当前时间之前的所有时间段的识别结果，通过投票机制，给出当前时间总体识别结果。对当前一个时间窗具体算法如下：

1）对当前时间窗内哭声信号进行分帧、加窗处理；

2）提取特征向量序列；

3）识别的似然度定义为，即用得到的特征向量序列分别与4类已训练好的啼哭声GMM模板进行匹配，特征向量对于GMM的似然度为：

p (x) = Σ_{k = 1}^{K} ω_{k} N (x / μ_{k}, Σ_{k}) - - - (3)

其中，K为GMM中高斯成分的个数，k为高斯成分的计数，x为当前特征向量，ω_k为高斯分量的权重，μ_k为高斯分量的均值和Σ_k为高斯分量的方差，N(·)表示高斯分布概率密度函数。最匹配（似然度最大）的类为识别结果r；

4）对识别结果进行投票，

{Vote}_{i} = \{\begin{matrix} {Vote}_{i} + 1 & if & r = i \\ {Vote}_{i} \end{matrix} - - - (4)

即当前识别结果的投票数加1，其中，i为四种哭声类型的序号，i=1,2,3,4，Vote_i为第i类哭声的得票数。

5）当前时刻总体识别结果，

R = \underset{i}{\arg \max} {Vote}_{i} . - - - (5)

即票数最多的类为总体识别结果。

当啼哭声结束时，

其中W为时间窗的个数，即总票数，R表示总体识别结果得票数最多的类。当啼哭声结束时必须要求总体识别结果的得票数过半，否则判定该信号为模糊类。

本发明针对一个婴儿啼哭声系统一般只面临一个婴儿的实际情况，对分类器模板进行无监督的更新，以使其更能反映该婴儿的声音特性，若最终啼哭声被识别为非模糊类时，利用投票结果为最终识别结果的时间窗信号，采用最大后验概率（MAP）方法（李虎生，杨明杰，刘润生.汉语数码语音识别自适应算法。电路与系统学报，1999，4（2）：1-6）进行GMM模板高斯均值更新：

MAP ({\hat{μ}}_{k}) : {\hat{μ}}_{k} = \frac{τ_{k} μ_{k} + Σ_{t = 1}^{T} c_{kt} o_{t}}{τ_{k} + Σ_{t = 1}^{T} c_{kt}} - - - (7)

其中

c_{kt} = \frac{ω_{k} N (o_{t} / μ_{k}, Σ_{k})}{\underset{k}{Σ} ω_{k} N (o_{t} / μ_{k}, Σ_{k})} - - - (8)

表示对于当前自适应数据，第k个高斯分量所占的比重，o_t为自适应数据，参数τ_k控制着自适应对先验信息μ_k的依赖程度。只利用了投票结果为最终识别结果的时间窗信号进行更新，保证了更新后的模板更符合特定婴儿的啼哭声特点，避免了无监督更新可能会导致的模板恶化。

训练时要用多个婴儿的数据进行，训练出初始模板，所述训练中多段完整的啼哭声信号，是指不同婴儿或者同一婴儿不同发声的同一类别多段啼哭声，完整的啼哭声包括从啼哭开始至啼哭结束的连续不间断声音信号。训练阶段，是在安静环境下录制的，或者选取没有噪声干扰的婴儿哭声。

上述过程中时间窗为等时长的，投票的初始值为0。

上述过程中模板更新采用与模板训练相同的特征向量序列。

所述提取特征向量具体描述为：

经过加窗分帧后，可得分帧信号x_k(n)，在本发明中定义该帧的能量为

定义一次明显的啼哭声为一个主波，第m个主波设为C_m，每个主波包括起始点，终止点和能量3个参数。第m个主波C_m起始帧为：

Start_m={k|E_k≥TH&E_k-1<TH} （9）

其中，E_k-1为第k-1帧的能量。终止帧为

End_m={k|E_k≥TH&E_k+1<TH} （10）

本发明中定义能量为

{Energy}_{m} = \frac{1}{{End}_{m} - {Start}_{m} + 1} Σ_{{k = Start}_{m}}^{{End}_{m}} E_{k} - - - (11)

TH为判断主波的能量阈值。每帧信号都属于一个主波（静音帧属于该帧之后的第一个主波）。

本发明选取12维梅尔频率倒谱系数MFCC特征（《语音信号处理》第2版，赵力编著，机械工业出版社，51-53页），另定义3种时域特征：

1）信号总持续时间。不同的啼哭声的持续时间不同，例如尿湿型啼哭声，婴儿在啼哭几声后如果无人应答会慢慢停止哭闹。训练阶段每帧特征的持续时间采用该段完整信号的总长度；识别阶段每帧特征的持续时间采用啼哭声开始至当前时间窗的时间。

2）啼哭节拍。如饥饿型啼哭声较急促，节拍较快；困倦型啼哭声每个声音拉得很长，节拍较慢；尿湿型啼哭声突然发声，节奏较慢；疼痛性短促尖锐，节拍较快。

若当前帧x_k(n)属于第m个主波，则该帧啼哭节拍定义为：

{Tempo}_{k} = \frac{1}{{End}_{m} - {End}_{m - 1}} - - - (12)

即节拍为当前帧所在主波持续帧数的倒数。

3）主波能量梯度。反应了啼哭声信号幅度的变化。如烦躁型哭声忽大忽小。若当前帧xk(n)属于第m个主波，则其主波能量梯度定义为：

Grad_k=Energy_m-Energy_m-1 （13）

特征向量的总维数为15。

图1显示了本发明的识别方法流程图，包括训练部分和识别部分。

一种实时的婴儿啼哭声识别方法，其步骤包括：

1）录制婴儿啼哭声信号并建立声音库，进行预处理；

所述预处理为：

4）当啼哭声结束后，根据投票结果判断婴儿啼哭声类别，完成识别，进行婴儿状况处理。

本发明的4种婴儿啼哭声模板训练过程如下：

1、录制婴儿啼哭声声音库并标定。每种哭声类型录制20个婴儿，每个婴儿同一哭声类

型录制2段；

2、预滤波，高通滤波抑制50HZ电源噪声信号；低通滤波滤除声音信号中频率分量超过采样频率一半的部分；模数变换，采样频率为11025HZ，位数为16bit；

3、对于每个完整的语音段，分帧、加窗。帧长为256采样点，帧移为128采样点。窗函数选取汉明窗；

4、特征提取。提取12维MFCC特征及3维时域特征，共15维；

5、分别利用40个特征向量序列，基于期望最大化（EM）算法训练4种啼哭声的GMM模板λ_l,l=1,2,3,4，模板采用8高斯混合模型。

本发明的婴儿啼哭声识别实现过程如下：

1、图2a显示了本发明实时识别一段“饥饿型”啼哭声的实例，利用麦克风采集婴儿啼哭声，采集3秒信号作为当前时间窗，采用固定时长的时间窗，时间窗记数为w=w+1;

2、进行预滤波；模数变换，采样频率为11025HZ，位数为16bit；

3、分帧、加窗。帧长为256采样点，帧移为256采样点。窗函数选取汉明窗，两秒信号的帧数为87；

4、特征提取。提取12维MFCC特征及3维时域特征，共15维。其中信号总持续时间采用啼哭声开始至当前时间窗的总时间，随着时间的推移，该特征会越来越精确；

5、模板匹配。当前时间窗的特征向量序列与4种啼哭声的模板进行匹配。特征矢量序列为X_k,k=1,…,87，4个模板为λ_l,l=1,2,3,4。则匹配似然度为：

P_{l} = Π_{k = 1}^{87} Σ_{mix = 1}^{8} ω_{mix} N (X_{k} / μ_{mix}, Σ_{mix}), l = 1,2,3,4 - - - (14)

其中，μ_mix高斯分量最小均值Σ_mix，高斯分量最小方差，ω_mix高斯分量最小权重；N(·)表示高斯分布概率密度函数；

6、投票，当前时间窗识别结果的票数加1，当前时间窗识别结果为：

记录该时间窗结果r_w=r，投票Vote_r=Vote_r+1；

7、当前时间窗总体识别结果：

如图2b所示的投票结果；

8、若啼哭声信号未结束，回到步骤1；若啼哭声信号结束，判断整段啼哭声是否为模糊类，如果最大票数小于w/2，则判定该段啼哭声属于模糊类，反之，则对集合{w|r_w=R}中的时间窗信号利用该段啼哭声总持续时间修正原特征，根据公式（7）进行模板高斯均值更新。

上述实例只是本发明的举例，尽管为说明目的公开了本发明的实例，但是本领域的技术人员可以理解：在不脱离本发明及所附的权利要求的精神和范围内，各种替换、变化和修改都是可能的。因此，本发明不应局限于该实例的内容。

Claims

1.一种实时的婴儿啼哭声识别方法，其步骤包括：

1）录制婴儿啼哭声信号并建立声音库，进行预处理；

2.如权利要求1所述的实时的婴儿啼哭声识别方法，其特征在于，根据不同声音频谱提取的设定哭声类别分为饥饿型、困倦型、尿湿型和疼痛型四种及含义模糊的模糊类哭声。

3.如权利要求1所述的实时的婴儿啼哭声识别方法，其特征在于，所述特征向量提取特征选择以下一种或多种：啼哭节拍、停顿及呼气持续时间、基音频率、共振峰结构、梅尔频率倒谱系数MFCC、线性预测系数LPC。

4.如权利要求3所述的实时的婴儿啼哭声识别方法，其特征在于，所述实时特征向量序列根据梅尔频率倒谱系数MFCC特征提取2种时域特征，若当前帧x_k(n)属于第m个主波，

1）该帧啼哭节拍为：

{Tempo}_{k} = \frac{1}{{End}_{m} - {End}_{m - 1}}

2）该帧主波能量梯度为：

Grad_k=Energy_m-Energy_m-1

所述特征向量的总维数为15。

5.如权利要求1或4所述的实时的婴儿啼哭声识别方法，其特征在于，所述分帧信号x_k(n)经过加窗分帧后得到，所述分帧信号x_k(n)的能量为

起始帧为：

Start_m={k|E_k≥TH&E_k-1<TH}

终止帧为：

End_m={k|E_k≥TH&E_k+1<TH}

主波能量为：

{Energy}_{m} = \frac{1}{{End}_{m} - {Start}_{m} + 1} Σ_{{k = Start}_{m}}^{{End}_{m}} E_{k}

其中，E_k-1为第k-1帧的能量，TH为判断主波的能量阈值。

6.如权利要求1所述的实时的婴儿啼哭声识别方法，其特征在于，所述特征向量序列对于GMM的似然度为：

p (x) = Σ_{k = 1}^{K} ω_{k} N (x / μ_{k}, Σ_{k})

7.如权利要求6所述的实时的婴儿啼哭声识别方法，其特征在于，将所述特征向量序列对于GMM的似然度最大的结果作为最匹配结果r，将当前识别结果的投票数加1按照如下公式对识别结果进行投票，所述投票的初始值为0：

{Vote}_{i} = \{\begin{matrix} {Vote}_{i} + 1 & if & r = i \\ {Vote}_{i} \end{matrix}

R = \underset{i}{\arg \max} {Vote}_{i} .

8.如权利要求7所述的实时的婴儿啼哭声识别方法，其特征在于，当啼哭声结束时，总体识别结果按照如下公式进行判断：

9.如权利要求8所述的实时的婴儿啼哭声识别方法，其特征在于，若最终啼哭声被识别为非模糊类时，就投票结果作为最终识别结果的时间窗信号，采用最大后验概率MAP方法进行GMM模板高斯均值更新：

MAP ({\hat{μ}}_{k}) : {\hat{μ}}_{k} = \frac{τ_{k} μ_{k} + Σ_{t = 1}^{T} c_{kt} o_{t}}{τ_{k} + Σ_{t = 1}^{T} c_{kt}},

其中

表示对于当前自适应数据第k个高斯分量所占的比重，o_t为自适应数据，参数τ_k控制着自适应对先验信息μ_k的依赖程度。

10.如权利要求1所述的实时的婴儿啼哭声识别方法，其特征在于，所述加窗、分帧处理中，分帧函数为：

x_k(n)=w(n)s(Nk+n) n=0,1...N-1;k=0,1...L-1

其中N为帧长，L为帧数，w(n)为窗函数，所述w(n)为汉明窗：0≤n≤N-1。