CN105139869B

CN105139869B - 一种基于区间差分特征的婴儿啼哭检测方法

Info

Publication number: CN105139869B
Application number: CN201510452435.4A
Authority: CN
Inventors: 张卡; 尼秀明; 何佳; 赵章伦
Original assignee: ANHUI QINGXIN INTERNET INFORMATION TECHNOLOGY Co Ltd
Current assignee: ANHUI QINGXIN INTERNET INFORMATION TECHNOLOGY Co Ltd
Priority date: 2015-07-27
Filing date: 2015-07-27
Publication date: 2018-11-30
Anticipated expiration: 2035-07-27
Also published as: CN105139869A

Abstract

本发明提供一种基于区间差分特征的婴儿啼哭检测方法，包括：采集音频波形数据；获取音频能量特征；判断是否属于可疑婴儿啼哭音频，若是则去除背景干扰音频；检测候选婴儿啼哭音频位置区间；获得任意一个音频位置区间的统计特征；判断是否属于婴儿啼哭音频，若是则发出报警信号。本发明采用粗检测和精检测相结合的逻辑结构，系统整体速度更快；采用自适应的机器视觉学习算法获取最优的训练样本特征，检测结果更加准确，误检和漏检更少；较少受外部环境音频的影响。

Description

一种基于区间差分特征的婴儿啼哭检测方法

技术领域

本发明涉及音频处理技术领域，具体是一种基于区间差分特征的婴儿啼哭检测方法。

背景技术

啼哭是婴儿的本能反应，尤其是对于小于两周岁的婴儿，由于他们还不具备语言表达能力，啼哭是他们表达感情、对外界刺激做出反应的最重要方式，因此，当婴儿啼哭时，看护人需要及时地去照看。然而，在现实环境中，看护人不可能每时每刻都在看护，尤其是在婴儿睡着时，往往会从事一些其他的工作，如做家务、看电视等，如果此时婴儿发生了啼哭，看护人尤其是老年人，往往会听不见，不能及时地进行照看，可能会导致婴儿受到一些意想不到的伤害，给整个家庭带来悲伤。

目前，已有一些用于婴儿啼哭检测的技术，如“一种能识别婴儿哭声的婴儿监护器及婴儿哭声识别方法”(中国专利申请号：CN201310440063)，“利用婴儿哭声频率的婴儿监视系统及其方法”(中国专利申请号：CN200410020849)等，这类技术的主要原理是基于婴儿啼哭时的音量较高和音频频率较大的特点，通过统计一段时间内的外部音频的特征，判断婴儿是否处于啼哭状态。该类技术在理想环境下是可以达到检测效果的，然而，其缺点也很多，如误检侧严重，该类技术只是被动地接受外部音频，判断准则简单，易受到外部音频干扰，如手机铃声、电视音频、大人咳嗽等，同样，该类技术会存在漏检。

发明内容

本发明的目的在于提供一种检测结果更加准确的基于区间差分特征的婴儿啼哭检测方法。

本发明的技术方案为：

一种基于区间差分特征的婴儿啼哭检测方法，包括以下顺序的步骤：

(1)采集一段音频波形数据；

(2)对采集的一段音频波形数据，统计其中波形幅度大于一定数值的音频波形数据所占的时间比例，作为该段音频波形数据的音频能量特征；

(3)判断所述音频能量特征是否大于一定阈值，若是，则执行步骤(4)，若否，则返回步骤(1)；

(4)去除该段音频波形数据的背景干扰音频；

(5)基于预先训练的婴儿啼哭音频分类器，确定该段音频波形数据上的候选婴儿啼哭音频位置区间；

(6)按照以下公式，获得该段音频波形数据上任意一个音频位置区间的统计特征：

T＝λ*max{|t_a-t_b|，|t_c-t_d|}

其中，N表示某个音频位置区间被检测为婴儿啼哭音频的累计数目，[t_a，t_b)、[t_c，t_d)表示该音频位置区间内的候选婴儿啼哭音频位置区间，λ表示常数且有0.25≤λ≤0.4，max{}函数的功能是选择最大的数据元素；

(7)若该段音频波形数据上某个音频位置区间的统计特征大于预定数值，则执行步骤(8)，若该段音频波形数据上任意一个音频位置区间的统计特征均不大于预定数值，则返回步骤(1)；

(8)发出报警信号。

所述的基于区间差分特征的婴儿啼哭检测方法，步骤(4)，包括：

a、按照以下公式，去除该段音频波形数据的背景音频：

其中，s(t)表示该段音频波形数据上t时刻的波形幅度，表示该段音频波形数据的平均波形幅度。

b、去除干扰噪声，即去除该段音频波形数据上的孤立区间，所述孤立区间由以下公式定义：

其中，[a，b)表示该段音频波形数据上的孤立区间，s(t)表示该段音频波形数据上t时刻的波形幅度，T₀表示时间间距阈值。

所述的基于区间差分特征的婴儿啼哭检测方法，步骤(5)，包括：

a、在当前尺度下的音频波形数据上，按照训练正样本的时长进行遍历，遍历的步长为μ秒，对于每一个遍历位置区间，基于婴儿啼哭音频分类器，判断当前遍历位置区间内的音频波形数据是否属于婴儿啼哭音频，若是，则将当前遍历位置区间标记为候选婴儿啼哭音频位置区间；

b、按照一定的缩放因子，对当前尺度下的音频波形数据进行水平方向的缩放处理，按照以下公式，计算缩放后的音频波形数据上t时刻的波形幅度：

其中，s(t)表示缩放后的音频波形数据上t时刻的波形幅度，t₁表示距离t时刻最近的前一个已知波形幅度s(t₁)对应的时刻，t₂表示距离t时刻最近的后一个已知波形幅度s(t₂)对应的时刻；

c、将缩放后的音频波形数据作为新的当前尺度下的音频波形数据，返回步骤a；

d、获得每一个尺度下音频波形数据上的候选婴儿啼哭音频位置区间，并按照以下公式，将所有候选婴儿啼哭音频位置区间变换到原始尺度空间上：

其中，[tm₁，tm₂)表示某个尺度空间上的候选婴儿啼哭音频位置区间，s表示该尺度空间的缩放因子，[tn₁，tn₂)表示原始尺度空间上的候选婴儿啼哭音频位置区间。

所述的基于区间差分特征的婴儿啼哭检测方法，步骤(5)中，所述婴儿啼哭音频分类器的获取，包括：

a、收集各种婴儿啼哭的音频波形数据作为训练正样本，所述训练正样本的时长为τ秒；

b、收集除婴儿啼哭声之外的其他音频波形数据作为训练负样本，所述训练负样本的时长也为τ秒；

c、分别去除训练正样本、训练负样本的背景干扰音频；

d、按照以下公式，分别获取训练正样本、训练负样本的区间差分特征集：

其中，s(t)表示一段音频波形数据上t时刻的波形幅度，t₁、t₂、t₃、t₄依次是该段音频波形数据上的不同时刻位置，且它们之间的时间间距是相等的；

e、基于adaboost学习算法进行样本训练，获取婴儿啼哭音频分类器文件。

所述的基于区间差分特征的婴儿啼哭检测方法，步骤(8)，包括：语音报警或者向指定手机号码发送报警短信。

由上述技术方案可知，本发明采用粗检测和精检测相结合的逻辑结构，系统整体速度更快；采用自适应的机器视觉学习算法获取最优的训练样本特征，检测结果更加准确，误检和漏检更少；较少受外部环境音频的影响。

附图说明

图1是本发明训练步骤的逻辑流程图；

图2是本发明检测步骤的逻辑流程图；

图3是婴儿啼哭音频波形图；

图4是非婴儿啼哭音频波形图。

具体实施方式

下面结合附图和具体实施例进一步说明本发明。

一种基于区间差分特征的婴儿啼哭检测方法，包括训练步骤和检测步骤，具体如下：

训练步骤的功能是获取婴儿啼哭音频分类器，主要是以音频的波形数据为学习样本，基于adaboost学习算法自适应地选择最优特征进行训练，获取相应的分类器学习文件，如图1所示，包括以下步骤：

T1、收集训练正样本，主要是各种婴儿啼哭的音频波形数据，包括不同年龄段、不同情况的婴儿啼哭音频波形数据，每一段波形数据的时长为15秒，如图3所示。

T2、收集训练负样本，主要是除婴儿啼哭声之外的所有可能的音频波形数据，每一段波形数据的时长与正样本一样，如图4所示。

T3、去除背景干扰音频，主要做法是基于检测步骤中的步骤S5来完成。

T4、按照公式(1)和(2)，分别获取训练正样本、负样本的区间差分特征集：

sum(i，j)＝Σ_i≤t＜js(t) (2)

其中，s(t)表示一段音频波形数据上t时刻的波形幅度，t₁、t₂、t₃、t₄依次是该段音频波形数据上的不同时刻位置，且它们之间的时间间距是相等的。

T5、基于adaboost学习算法进行样本训练，获取婴儿啼哭音频分类器文件，有关adaboost算法参见文献：A Decision-Theoretic Generalization of OnLine Learningand an Application to Boosting，Yoav Freund，Robert E.Schapire，Journal ofComputer and System Sciences55,119-139(1997)。

检测步骤的功能是实时检测外部音频环境中是否出现婴儿的啼哭音频，如果出现了婴儿的啼哭音频，则报警提醒看护人及时照看，如图2所示，具体包括以下步骤：

S1、初始化系统参数，主要是加载系统需要的参数文件，主要是训练步骤中获得的婴儿啼哭音频分类器文件。

S2、采集音频波形数据，主要是通过麦克风接收并保存外部环境中的一段音频波形数据。

S3、获取音频能量特征，主要是统计一段音频波形数据中，出现大于一定波形幅度的音频波形数据的时间比例。

S4、判断是否属于可疑婴儿啼哭音频，主要是判断步骤S3中获得的音频能量特征是否大于一定阈值，如果大于，则说明属于可疑的婴儿啼哭音频，进入步骤S5，进一步精确分析，否则，返回步骤S2，等待下一次可疑婴儿啼哭音频的出现。

S5、去除背景干扰音频，主要步骤如下：

S51、按照公式(3)，去除背景音频：

其中，s(t)表示一段音频波形数据上t时刻的波形幅度，表示该段音频波形数据的平均波形幅度。

S52、去除干扰噪声，主要是去除音频波形数据上的孤立区间，孤立区间[a，b)由公式(4)定义：

其中，s(t)表示一段音频波形数据上t时刻的波形幅度，T₀表示时间间距阈值。

S6、检测婴儿啼哭音频的位置区间，具体步骤如下；

S61、在当前尺度的音频波形数据上，按照训练正样本的时长进行遍历(即遍历位置区间的时长与训练正样本的时长一致)，遍历的步长为0.2秒，对于每一个遍历位置区间，基于婴儿啼哭音频分类器，判断当前遍历位置区间的音频波形数据是否属于婴儿啼哭音频，若是，则将当前遍历位置区间标记为候选婴儿啼哭音频位置区间。

S62、按照一定的缩放因子，对当前尺度的音频波形数据进行水平方向的缩放处理(水平方向为时间方向、竖直方向为波形幅度方向)，并将缩放后的音频波形数据作为当前尺度的音频波形数据，缩放后的音频波形数据上t时刻的波形幅度基于公式(5)完成：

其中，s(t)表示缩放后的音频波形数据上t时刻的波形幅度，s(t₁)、s(t₂)表示缩放后的音频波形数据上的已知波形幅度，t₁表示距离t时刻最近的前一个已知波形幅度的时刻，t₂表示距离t时刻最近的后一个已知波形幅度的时刻。

S63、重复执行步骤S61和S62，获得每一个尺度下音频波形数据上的候选婴儿啼哭音频位置区间，并按照公式(6)将候选婴儿啼哭音频位置区间变换到原始尺度空间上：

S7、获得原始尺度空间上任意一个音频位置区间的统计特征，具体方法：按照公式(7)和公式(8)，统计任意一个音频位置区间被检测为婴儿啼哭音频的累计数目N：

T＝0.35*max{|t_a-t_b|，|t_c-t_d|} (8)

其中，[t_a，t_b)、[t_c，t_d)表示音频位置区间内的候选婴儿啼哭音频位置区间，max{}函数的功能是选择最大的数据元素。

S8、判断是否属于婴儿啼哭音频，如果步骤S7获得的任意一个音频位置区间的统计特征大于3，即可认为当前外部音频属于婴儿啼哭音频，此时进入步骤S9，报警提醒看护人，否则，说明本段音频波形数据不存在婴儿啼哭声，返回步骤S2。

S9、报警步骤，该步骤的功能是：当婴儿处于啼哭状态时，该步骤进行语音报警或者向指定号码发送短信，提醒看护人及时照看婴儿。

以上所述实施方式仅仅是对本发明的优选实施方式进行描述，并非对本发明的范围进行限定，在不脱离本发明设计精神的前提下，本领域普通技术人员对本发明的技术方案作出的各种变形和改进，均应落入本发明的权利要求书确定的保护范围内。

Claims

1.一种基于区间差分特征的婴儿啼哭检测方法，其特征在于，包括以下顺序的步骤：

(1)采集一段音频波形数据；

(4)去除该段音频波形数据的背景干扰音频；

T＝λ*max{|t_a-t_b|,|t_c-t_d|}

其中，N表示某个音频位置区间被检测为婴儿啼哭音频的累计数目，[t_a,t_b)、[t_c,t_d)表示该音频位置区间内的候选婴儿啼哭音频位置区间，λ表示常数且有0.25≤λ≤0.4，max{}函数的功能是选择最大的数据元素；

(8)发出报警信号；

步骤(5)中，所述婴儿啼哭音频分类器的获取，包括：

c、分别去除训练正样本、训练负样本的背景干扰音频；

其中，F表示训练正样本、训练负样本的区间差分特征集的元素，s(t)表示一段音频波形数据上t时刻的波形幅度，t₁、t₂、t₃、t₄依次是该段音频波形数据上的不同时刻位置，且它们之间的时间间距是相等的；

2.根据权利要求1所述的基于区间差分特征的婴儿啼哭检测方法，其特征在于，步骤(4)，包括：

a、按照以下公式，去除该段音频波形数据的背景音频：

其中，s(t)表示该段音频波形数据上t时刻的波形幅度，表示该段音频波形数据的平均波形幅度；

其中，[a,b)表示该段音频波形数据上的孤立区间，s(t)表示该段音频波形数据上t时刻的波形幅度，T₀表示时间间距阈值。

3.根据权利要求1所述的基于区间差分特征的婴儿啼哭检测方法，其特征在于，步骤(5)，包括：

其中，[tm₁,tm₂)表示某个尺度空间上的候选婴儿啼哭音频位置区间，s表示该尺度空间的缩放因子，[tn₁,tn₂)表示原始尺度空间上的候选婴儿啼哭音频位置区间。

4.根据权利要求1所述的基于区间差分特征的婴儿啼哭检测方法，其特征在于，步骤(8)，包括：语音报警或者向指定手机号码发送报警短信。