CN107808658A

CN107808658A - 基于家居环境下实时的婴儿音频系列行为检测方法

Info

Publication number: CN107808658A
Application number: CN201610802864.4A
Authority: CN
Inventors: 何娅玲; 何宇新
Original assignee: Shenzhen Sound Network Technology Co Ltd
Current assignee: Shenzhen Sound Network Technology Co Ltd
Priority date: 2016-09-06
Filing date: 2016-09-06
Publication date: 2018-03-16

Abstract

本发明提出了一种基于家居环境下实时的婴儿音频系列行为检测方法。首先建立语料库，通过各种渠道收集多种婴儿行为的音频数据以及背景声音，其中背景声音包括婴儿其他声音、大人说话声以及家居环境下的各种声音。提取与婴儿行为相关的语音特征，包括音调相关的特征、梅尔频率倒谱系数和短时能量参数，用矢量量化的技术方法训练得到每种声音的模型参数。最后，在家居环境下，通过基于段的接受拒绝策略完成实时环境下的婴儿音频系列行为检测。实验结果表明，家居环境下的婴儿哭声检测识别率可以达到89％，笑声检测识别率可以达到85％。

Description

基于家居环境下实时的婴儿音频系列行为检测方法

【技术领域】

本发明涉及一种语音识别技术，尤其涉及一种家居环境下实时的婴儿音频系列行为检测方法，属于语音信号处理领域。

【背景技术】

刚出生的婴儿在不会说话的情况下，哭声、笑声等一系列的咿咿呀呀声音是与外界交流的唯一方式，可以传达出需求和不适，从而引起父母或保姆的注意来满足其需求或缓解不适。婴儿各种声音同样也包含了身体和生理上的各种不同的信息，如健康状况、个性、性别、情绪等等。

过去的三十年里，国外的研究学者也提出了一系列分析婴儿声音特征的技术方法，满足不同的应用和目的。如识别新生儿潜在的神经错乱或病理状态，区分正常的和听力受损的婴儿，增强社交机器人的行为以满足儿童教育的需要等。然而这些方法都往往是针对婴儿某一种声音采取的应对策略，不能涵盖婴儿的各种行为。而在现实生活中，往往会出现婴儿被父母丢在车里，或夜里睡觉时、家里大人在做饭等父母不在婴儿身边的时候发生突发事件。因此婴儿音频行为的检测在婴儿护理中有至关重要的作用，对于婴儿的健康成长有很大的帮助。对于这方面的研究，国内外的一些技术是直接通过声音频率来判断的，没有应用模式识别的技术，因此识别率会比较低，而且有很大一部分的误识，应用效果并不是很好。

【发明内容】

本发明的目的是针对家居环境下实时的婴儿音频系列行为检测，提出一种基于矢量量化技术的家居环境下实时的婴儿音频系列行为检测方法。

本发明的技术方案为：一种基于矢量量化技术的家居环境下实时的婴儿音频系列行为检测方法，其特征在于：针对家居环境的条件下，通过收集足够的婴儿多种行为的音频数据及家居背景声作为训练语音数据，分帧加窗后提取每一帧数据的音调相关的特征、梅尔频率倒谱系数和短时能量参数等一系列与婴儿音频系列行为相关的语音特征矢量，对每一类婴儿行为定义多个聚类中心，通过迭代计算该类语音的帧特征数据与聚类中心的距离，逐步优化得到最终的中心矢量集，对实际家居环境下婴儿声音进行识别时，同样提取对应的帧特征数据并计算与每一类中心矢量的距离，距离最小的即判为该类，再根据一段时间内的识别结果按设定的阈值接受或拒绝识别结果；在婴儿行为检测过程中，使用矢量量化的技术方法，以及基于段的统计判别策略得到最终的识别结果。

基于矢量量化技术方法的婴儿音频行为检测步骤具体如下：

步骤I，初始化：对于每一类婴儿音频事件数据，给定码书中码本个数M，随机选取M个帧特征矢量作为初始码本构成初始码书B_m(0)＝{B_1，B₂，...，B_M}，给定失真阈值ε＞0，最大迭代次数L，取迭代次数n＝0。

步骤II，计算平均失真：按给定的码书求出平均失真最小条件下的所有区域边界S_m，即用训练序列X_k∈S_m，使得d(X_k，B_m)＜d(X_k，B)，(B∈B_M)，从而得出区域边界然后对于K个帧特征矢量，计算这个边界下训练序列的平均失真：

其中，计算距离的方法d采用的是欧氏距离的失真测度。

步骤III，计算相对失真：计算前后两次迭代结果的相对失真：

若D＜ε，则B_M为最佳码书，迭代结束，否则继续进行下一步。

步骤IV，更新码书：计算每个类别中M个区域的形心，并用这M个形心构成n+1次迭代的新码书

其中J为每个区域的训练序列个数。

步骤V，以n+1代替n，重复以上步骤II-IV，直到满足D＜ε，或迭代次数n＝L，则迭代结束，将所求得码书作为最终码书。对于N类婴儿事件，就要求得N个码书(B¹，B²，...，B^N)。

步骤VI，识别过程：以上步骤都是矢量量化的训练过程，当要识别未知分类的一帧特征矢量X时，计算X到N个码书的失真距离：

计算得到D₁，D₂，...，D_N，其中最小的所对应的i就是识别的结果。

由于真实环境下的婴儿行为属于不可控行为，因此往往待检测的行为中会夹杂有一种或多种其他行为，这就会导致识别结果受到很大的干扰，使误识率有所增大。因此，作为对本发明的进一步改进，提出了基于段的统计判别策略，具体步骤如下：

步骤I：设定实时状态下，执行判断策略的基准时间段长度T₁＜T₂＜T₃＜T₄＜T₅，以及接受域的阈值P₁＞P₂＞P₃＞P₄＞P₅。

步骤II：家居环境下，对录音设备获取的婴儿声音进行实时判断时，先提取每一帧的语音特征矢量，通过矢量量化的技术判断该帧的类别归属i(1≤i≤N)，并开始计时t，时间段索引m＝0。

步骤III：当满足t＝T_m时，统计T_m时间里每一帧的识别结果，并计算每一类的概率{p₁，p₂，...，p_N}，若满足：

max_1≤i≤Np_i＞P_m (5)

则将该T_m时间段归为一段，并将该段的婴儿语音判定为第i类事件。

步骤IV：若不满足阈值判断条件，则用m+1代替m，继续执行步骤III，直到满足max_1≤i≤Np_i＞P_m。若m＞5仍未满足阈值条件，则判为拒识别。

【有益效果】

与现有技术相比，本发明提供的基于矢量量化技术的家居环境下实时的婴儿音频系列行为检测方法，优点和效果在于：

(1)与其他判断婴儿行为的策略不同，本发明不是直接通过频率等直接特征判断，而是通过提取婴儿行为相关的语音特征，通过矢量量化的技术训练得到每种行为类型的模型，通过模式识别的方法在很大程度上增加了识别率，降低了误识率。

(2)本发明所提出的基于段的统计判断策略特别适合于实时状态下对婴儿行为进行判断，有效降低了偶然事件对识别结果的影响，进一步降低了误识率，提高了系统的性能。

【附图说明】

图1为本发明所提出的基于矢量量化技术的家居环境下实时的婴儿音频系列行为检测方法的示意图；

图2为本发明实施例中只按帧识别和按段识别的测试结果对比图。

【具体实施方式】

下面结合附图和实施例，对本发明所述的技术方案做进一步阐述。

婴儿音频行为检测在婴儿护理工作中有至关重要的作用，并对儿童的健康成长有很大的帮助。但是目前国内外对于这方面的研究大多都是针对某一种行为的，应用过于单一，或者是检测方法不够智能，导致很难获得令人满意的识别效果。针对这种情况，本发明提出了一种基于矢量量化技术的家居环境下实时的婴儿音频系列行为检测方法。首先，对训练语音提取与婴儿行为相关的帧语音特征；然后，训练得到每一种行为的语音模型；最后，当实际环境下对待识别语音进行分类时，通过训练所得模型判断每一帧的类别并做记录统计，当满足设定时间时实施基于段的统计判断策略，得到最终的识别结果。

基于矢量量化技术的家居环境下实时的婴儿音频系列行为检测方法，包括如下步骤：

(1)对训练语音进行预加重、分帧、加窗，对每一帧提取与婴儿行为相关的语音特征，如基频、MFCC、短时能量等。

(2)初始化矢量量化参数，设定每个码本中码书个数，最大迭代次数，失真判断阈值，选择初始码书。

(3)根据给定的码书计算最佳的区域边界，计算平均失真。

(4)比较前后两次的平均失真，并计算相对失真，检验是否小于设定的失真阈值，若满足则迭代停止。

(5)按照新的区域边界，更新码书为各自区域的形心，按最新的码本继续迭代计算。

(6)若不满足最大迭代次数，则重复步骤(3)-(5)，直到相对失真小于设定阈值或达到最大迭代次数，则停止迭代，所得码本即为最终矢量模型。

(7)实时对婴儿语音进行判断时，先对每一帧提取相同的语音参数，计算该特征矢量与每个码本间的失真距离，选择最小的为分类结果。

(8)连续检测满足设定的时间时，统计该时间段内的识别结果以及每个种类所占比例，若最大的比例超过设定阈值，则将其判定为该段的种类。

图1给出了本发明所提出的基于矢量量化技术的家居环境下实时的婴儿音频系列行为检测方法的示意图。

性能评价：

本发明选择婴儿哭声、笑声和背景的三分类实施例对婴儿音频系列行为检测效果进行了评价。本实施例选择帧长为25ms，帧移10ms，其中训练数据哭声有706230帧，笑声有184897帧，背景声有3362079帧。测试数据哭声有672206帧，笑声有49755帧，背景声有265910帧。矢量量化选取哭声每个码本的码书个数为128，笑声每个码本的码书个数为64，背景声每个码本的码书个数为1024，最大迭代次数为100，失真判断阈值为001。本实施例在基于段的统计判断策略中，判断时长分别为T₁＝1s，T₂＝2s，T₃＝3s，T₄＝4s，T₅＝5s，判断阈值分别为P₁＝0.6，P₂＝0.40，P₃＝0.30，P₄＝0.3，P₅＝0.25，对比了基于段的测试结果以及直接由帧来判断的检测结果。

本实施例选择召回率来对婴儿音频行为检测的效果进行评价，即系统接收的真实样例数目与系统应该接受的真实样例数目的比值。

图2给出了本发明所提出的方法中只按帧识别和按段识别的比较实验结果。从图中可以看出，哭声和笑声按帧识别的召回率均要比按段识别的召回率低，按段识别的召回率都能达到85％以上，证明了本发明所提出的按段识别方法的有效性。

以上结合附图对本发明的具体实施方式作了说明，但这些说明不能被理解为限制了本发明的范围，本发明的保护范围由随附的权利要求书限定，任何在本发明权利要求基础上的改动都是本发明的保护范围。

Claims

1.一种基于家居环境下实时的婴儿音频系列行为检测方法，其特征在于：针对家居环境的条件下，通过收集足够的婴儿多种行为的音频数据及家居背景声作为训练语音数据，分帧加窗后提取每一帧数据的音调相关的特征、梅尔频率倒谱系数和短时能量参数等一系列与婴儿音频系列行为相关的语音特征矢量，对每一类婴儿行为定义多个聚类中心，通过迭代计算该类语音的帧特征数据与聚类中心的距离，逐步优化得到最终的中心矢量集，对实际家居环境下婴儿声音进行识别时，同样提取对应的帧特征数据并计算与每一类中心矢量的距离，距离最小的即判为该类，再根据一段时间内的识别结果按设定的阈值接受或拒绝识别结果；在婴儿行为检测过程中，使用矢量量化的技术方法，以及基于段的统计判别策略得到最终的识别结果。

2.根据权利要求1所述的基于家居环境下实时的婴儿音频系列行为检测方法，其特征在于，所述的矢量量化技术方法的步骤具体如下：

步骤I，初始化：对于每一类婴儿音频事件数据，给定码书中码本个数M，随机选取M个帧特征矢量作为初始码本构成初始码书D_M(0)＝{D₁，D₂，...，D_M}，给定失真阈值ε＞0，最大迭代次数L，取迭代次数n＝0。

步骤II，计算平均失真：按给定的码书求出平均失真最小条件下的所有区域边界s_m，即用训练序列x_k s_m，使得特征矢量，计算这个边界下训练序列的平均失真：

<mrow> <msubsup> <mi>D</mi> <mi>m</mi> <mrow> <mo>(</mo> <mi>n</mi> <mo>)</mo> </mrow> </msubsup> <mo>=</mo> <mfrac> <mn>1</mn> <mi>K</mi> </mfrac> <msubsup> <mi>&Sigma;</mi> <mrow> <mi>k</mi> <mo>=</mo> <mn>0</mn> </mrow> <mrow> <mi>K</mi> <mo>-</mo> <mn>1</mn> </mrow> </msubsup> <msub> <mi>min</mi> <mrow> <mi>B</mi> <mo>&Element;</mo> <msub> <mi>B</mi> <mi>M</mi> </msub> </mrow> </msub> <mi>d</mi> <mrow> <mo>(</mo> <msub> <mi>X</mi> <mi>k</mi> </msub> <mo>,</mo> <mi>B</mi> <mo>)</mo> </mrow> <mo>,</mo> <mo>(</mo> <mrow> <mi>m</mi> <mo>=</mo> <mn>1</mn> <mo>,</mo> <mn>2</mn> <mo>,</mo> <mn>...</mn> <mo>,</mo> <mi>M</mi> </mrow> <mo>)</mo> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>1</mn> <mo>)</mo> </mrow> </mrow>

其中，计算距离的方法d采用的是欧氏距离的失真测度。

若D＜ε，则D_M为最佳码书，迭代结束，否则继续进行下一步。

<mrow> <msubsup> <mi>B</mi> <mi>m</mi> <mrow> <mo>(</mo> <mi>n</mi> <mo>+</mo> <mn>1</mn> <mo>)</mo> </mrow> </msubsup> <mo>-</mo> <mfrac> <mn>1</mn> <mi>J</mi> </mfrac> <msub> <mi>&Sigma;</mi> <mrow> <mi>X</mi> <mo>&Element;</mo> <msubsup> <mi>S</mi> <mi>m</mi> <mrow> <mo>(</mo> <mi>n</mi> <mo>)</mo> </mrow> </msubsup> </mrow> </msub> <mi>X</mi> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>3</mn> <mo>)</mo> </mrow> </mrow>

其中J为每个区域的训练序列个数。

3.根据权利要求1所述的基于矢量量化技术的家居环境下实时的婴儿音频系列行为检测方法，其特征在于，所述的基于段的统计判别策略的具体步骤如下：

max_1≤i≤Np₁＞P_m (5)