CN102750964A

CN102750964A - 基于表情的背景音乐控制方法及装置

Info

Publication number: CN102750964A
Application number: CN2012102685057A
Authority: CN
Inventors: 郭雷; 陈智慧; 赵天云
Original assignee: Northwestern Polytechnical University
Current assignee: Northwestern Polytechnical University
Priority date: 2012-07-30
Filing date: 2012-07-30
Publication date: 2012-10-24
Anticipated expiration: 2032-07-30
Also published as: CN102750964B

Abstract

本发明公开了一种基于表情的背景音乐控制方法及装置，由电源单元、图像采集单元、主处理器(DSP)、存储单元及背景音乐调节单元组成；所述主处理器（DSP）分别与图像采集单元、存储单元及背景音乐调节单元相连接；所述电源单元连接于图像采集单元、主处理器(DSP)、存储单元以及背景音乐调节单元；本发明可通过表情识别技术来识别用户的面部表情及心情，并根据用户的心情来调整背景音乐模式，达到一种家居与用户互动的效果，从而让家居更加人性化，提升了用户的体验。该系统操作简便使用方便，具有很强的实用性。

Description

基于表情的背景音乐控制方法及装置

技术领域

本发明涉及视频图像处理和控制技术领域，尤其是一种基于表情的背景音乐控制方法及装置。

背景技术

当前，现代家居为了营造舒适，温馨的居室环境氛围，背景音乐成为家居中很重要的部分，所以现代家居安装了背景音乐控制系统，背景音乐控制系统可以有效遮蔽环境噪音，创造轻松舒适的环境。但是目前家庭背景音乐控制系统只能通过手动来调节音量，选择曲目，不能根据人的心情自动调节音量，选择曲目，改变音效，无法和人的心情相匹配，缺乏人性化。

发明内容

为了解决上述存在的问题，本发明的目的在于提供一种能根据人的心情自动调节音效、选择曲目的基于表情的背景音乐控制方法及装置。

一种基于表情的背景音乐控制方法，其特征在于步骤如下：

步骤1：将采集的人脸24位真彩色图像进行灰度化处理，灰度化算法采用加权平均值法：f(i,j)＝0.30R(i,j)+0.59G(i,j)+0.11B(i,j)；式中：f(i,j)为转换后的灰度图像在(i,j)处的灰度值，R(i,j)为原图像在(i,j)处的R分量灰度值，G(i,j)为原图像在(i,j)处的G分量灰度值，B(i,j)为原图像在(i,j)处的B分量灰度值；

步骤2：利用积分图像算法提取灰度化处理后图像的Haar特征，将提取的图像Haar特征通过级联分类器来检测图像中的人脸区域；所述级联分类器是利用样本图像的人脸Haar特征，采用AdaBoost分类算法进行分类器训练后得到的；

步骤3：设人脸区域的高度为h，宽度为w，取左上角点为原点，取两眼窗的起始坐标为：左眼

右眼

两眼窗的大小为

步骤4：对两眼窗内区域的图像做直方图分析，留取灰度最低的5％像素，其余部分灰度值置为255，然后将窗内图像作水平投影，得到一条一维曲线；一维曲线上出现的两个波谷自上而下分别代表眉毛区域和眼睛区域，眼睛区域波谷的谷点位置作为眼睛的纵坐标；所述窗内图像水平投影函数为：

式中I(x,y)为在(x,y)点的灰度值，N为投影像素点数；

步骤5：将眉毛区域的灰度值置为255，然后将两眼窗内图像做垂直投影，得到一条一维曲线，曲线左右波峰的峰点位置作为左右眼睛的横坐标；所述垂直投影函数为：

式中I(x,y)为在(x,y)点的灰度值，N为投影像素点数；

步骤6：连接步骤4和步骤5得到的两眼坐标，以两眼坐标的连线中点作为坐标原点，建立人脸图像坐标系，旋转人脸图像使双眼为水平位置；

步骤7：根据人脸的面部比例特征确定嘴巴的位置并取嘴巴窗，嘴巴窗的起始坐标为

窗的大小为将嘴巴窗内图像做水平投影，取投影所得的曲线的最小值作为嘴巴在垂直方向上的坐标；设两眼之间距离为k，两眼中心到嘴巴的距离为g，以两眼距离中心为中心，左右取

向上取

往下取得到一个切割后的人脸图像；

步骤8：将人脸图像放缩到100×100像素，得到人脸图像的二维矩阵M[k][g]，其中k=100,g=100；对二维矩阵灰度归一化处理，得到具有相同的均值和方差的人脸图像；所述灰度归一化处理公式：

式中μ₀和σ₀是变换后图像的均值和标准差，

和

是变换前图像的均值和标准差；

步骤9：取像素点数宽为P，长为L的采样窗，滑动步长为4×4,从左到右,从上向下在步骤8处理后的人脸图像上滑动,获取采样图像块，然后，对于每个图像块采用8点的二维离散余弦变换公式进行变换，

C (u, v) = a (u) a (v) Σ_{x = 0}^{M - 1} Σ_{y = 0}^{N - 1} f (x, y) \cos (\frac{(2 x + 1) uπ}{2 M}) \cos (\frac{(2 y + 1) vπ}{2 N})

式中

M＝N＝8，

a (u) = \{\begin{matrix} \sqrt{1 / M}, u = 0 \\ \sqrt{2 / M}, u = 1,2, . . . M - 1 \end{matrix},

a (v) = \{\begin{matrix} \sqrt{1 / N}, v = 0 \\ \sqrt{2 / N}, v = 1,2, . . . N - 1 \end{matrix}

得到二维离散余弦变换系数C(u,v)取变换系数的低频部分4×4系数作为嵌入式隐马尔可夫模型的观察向量序列；所述P×L为16×16；

步骤13：使用前向-后向算法Forward-Backward Algorithm，将步骤9中得到的观察向量序列分别与训练完成的“快乐”“正常”“难过”三种表情的嵌入式隐马尔可夫模型观察向量序列的似然概率值，选择似然概率值最高的模型作为采集图像中人脸的表情信息所属类别；

所述训练“快乐”“正常”“难过”三种表情的嵌入式隐马尔可夫模型的步骤：

“快乐”的嵌入式隐马尔可夫模型训练：选择“快乐”表情的样本图像，其中“快乐”表情指6种基本表情中惊奇和高兴的表情；取超级状态的个数为5，分别是额头、眼睛、鼻子、嘴和下巴五大部分；将超级状态中嵌入状态的个数定义为{3,5,3,5,3}，训练“快乐”表情的嵌入式隐马尔可夫模型；

“难过”的嵌入式隐马尔可夫模型训练：选择“难过”表情的样本图像，其中“难过”表情指6种基本表情中愤怒和悲伤的表情；取超级状态的个数为5，分别是额头、眼睛、鼻子、嘴和下巴五大部分；将超级状态中嵌入状态的个数定义为{3,5,3,5,3}，训练“难过”表情的嵌入式隐马尔可夫模型；

“正常”的嵌入式隐马尔可夫模型训练：选择“正常”表情的样本图像，其中“正常”表情指不包括在“快乐”和“难过”表情中的其他表情；取超级状态的个数为5，分别是额头、眼睛、鼻子、嘴和下巴五大部分；将超级状态中嵌入状态的个数定义为{3,5,3,5,3}，训练“正常”表情的嵌入式隐马尔可夫模型；

所述三种表情的样本图像选自卡内基梅隆大学的Cohn-Kanade表情数据库；

步骤14：当识别的表情信息所属类别为“快乐”时，将背景音乐提高音量5分贝，加大重低音3分贝，提高高音3分贝，开启环绕声；

当识别的表情信息所属类别为“正常”时，将背景音乐降低音量至45分贝，降低重低音至30分贝，降低高音至25分贝，开启环绕声；

当识别的表情信息所属类别为“难过”时，将背景音乐降低音量5分贝，关闭重低音，降低高音至20分贝，关闭环绕声。

一种实现所述基于表情的背景音乐控制方法的装置，其特征在于包括电源单元、图像采集单元、主处理器DSP、存储单元、功率放大器、音效处理器、MP3解码器和微控制单元MCU；主处理器DSP分别与图像采集单元、存储单元和微控制单元MCU，微控制单元MCU顺序联接MP3解码器、音效处理器和功率放大器；微控制单元MCU还直接音效处理器联接；电源单元与上述各个单元联接并提供工作电源。

所述图像采集单元采用CMOS图像传感器。

所述主处理器DSP与微控制单元MCU之间采用RS-485总线进行连接，采用9600bps的波特率传输数据。

本发明操作简单使用方便，无需繁琐的操作。可通过对人脸表情的探测，来自动调整家居中背景音乐的音乐模式，从而实现背景音乐控制系统的人性化互动。具有可扩展性，可通过RS-485总线控制多个背景音乐调节单元。具有很强的实用性。

附图说明

图1为本发明的系统硬件结构图。

具体实施方式

结合图1所示，本发明一种基于表情的背景音乐控制装置，由电源单元、图像采集单元、主处理器(DSP)、存储单元及背景音乐调节单元组成。所述主处理器（DSP）分别与图像采集单元、存储单元及背景音乐调节单元相连接；所述电源单元连接于图像采集单元、主处理器(DSP)、存储单元以及背景音乐调节单元；

主处理器（DSP）与背景音乐调节单元之间采用RS-485总线进行连接；

主处理器（DSP）采用TI公司的TMS320DM6467T芯片;

图像采集单元采用CMOS图像传感器；

存储单元由存储器件与芯片组成，包括同步动态随机存储器与闪存芯片；其中，同步动态随机存储器用于临时图像数据的存储，闪存芯片用于程序的存储；背景音乐调节单元由背景音乐控制器件与芯片组成，包括微控制单元（MCU）、MP3解码器、音效处理器、功率放大器及音箱；

控制过程如下：

图像采集单元对人脸进行图像采集，将采集到的24位真彩色图像按照一定的图像格式进行编码，并将编码后的图像存储于SDRAM存储器上。首先主处理器(DSP)依据系统程序对采集图像进行灰度化处理，灰度化算法采用加权平均值法，公式如下：

f(i,j)＝0.30R(i,j)+0.59G(i,j)+0.11B(i,j)

式中f(i,j)为转换后的灰度图像在(i,j)处的灰度值，R(i,j)为原图像在(i,j)处的R分量灰度值，G(i,j)为原图像在(i,j)处的G分量灰度值，B(i,j)为原图像在(i,j)处的B分量灰度值

利用积分图像算法提取灰度化处理后图像的Haar特征，将提取的图像Haar特征通过级联分类器来检测图像中的人脸区域。该级联分类器是利用样本图像的人脸Haar特征，采用AdaBoost分类算法，进行分类器训练，而后组合几个简单的分类器所得到的。

在检测出人脸区域后，根据人脸面部比例特征粗略地估计出人眼的大致区域，将人眼的大致区域框出来，称之为取窗；设人脸图像的高度为h，宽度为u，取左上角点为原点，在实验中我们取两眼窗的起始坐标为：左眼

右眼

窗的大小为然后根据人脸瞳孔和眉毛在窗内最黑的特点，对窗内区域的图像做直方图分析，取出灰度最低的那一部分我们取最低的5％像素，其余部分灰度置为255。经过这一步阈值分割后.可以将眼睛和眉毛明显地分割出来。然后，将窗内图像作水平投影，投影函数为：

pv (y) = Σ_{x = 1}^{N} I (x, y)

式中I(x,y)为在(x,y)点的灰度值，N为投影像素点数。

得到一条一维曲线。曲线上有明显的两个波谷，分别代表眉毛区域和眼睛区域。可以通过一维信号处理的方法得到眼睛的纵坐标。然后，将眉毛区域的灰度值置为255.去除眉毛。再做垂直投影曲线，投影函数为：

pv (x) = Σ_{y = 1}^{N} I (x, y)

式中I(x,y)为在(x,y)点的灰度值，N为投影像素点数。

确定眼睛的横坐标。

对图像进行旋转校正：人眼位置确定后，计算出两眼连线的中心点。以该点为坐标原点。建立人脸图像坐标系，旋转人脸图像，使双眼保持水平，端正人脸图像。

对图像进行尺度归一化处理：得到两眼中心距离信息后，再确定嘴巴的位置。求出两眼中心到嘴巴的垂直距离，利用这两个距离信息从人脸图像坐标系中把人脸的主要部分切割出来.并尺度归一化到同一大小。根据人脸的面部比例特征，先大致确定嘴巴的位置。从人脸图像中取嘴巴窗，窗的起始坐标为

窗的大小为

对窗内区域做水平投影，取所得曲线的最小值作为嘴巴在垂直方向上的坐标。设两眼之间距离为w，两眼中心到嘴巴的距离为h。以两眼距离中心为中心，左右取

向上取往下取

切割出人脸的主要部分，将切割好的人脸图像放缩到同一大小，本系统中，取100×100像素。

对图像进行灰度归一化处理：将人脸图像看作一个二维矩阵M[w][h].图像大小为w×h。该图像的均值为：

图像的方差为：

{\overset{&OverBar;}{σ}}^{2} = \frac{1}{w \cdot h} Σ_{i = 0}^{w - 1} Σ_{j = 0}^{h - 1} {(M [i] [j] - \overset{&OverBar;}{μ})}^{2}

利用以下公式对人脸图像做灰度归一化：

式中μ₀，σ₀是变换后图像的均值和方差。将图像灰度均值和方差变换到事先设定的值，通过该方法.归一化后的人脸图像具有相同的均值和方差。

对归一化处理后的人脸图像采用二维离散余弦变换(2D-Discrete CosineTransform，2D-DCT)提取人脸表情频域特征，取变换后的左上角低频系数组成观察向量。

采用遍历方法,在经过归一化处理后的人脸图像平面上用一个像素点数宽为P，长为L的采样窗,从左到右,从上向下滑动,来获取采样图像块，每个图像块利用如下的二维离散余弦变换(2D-Discrete Cosine Transform，2D-DCT)公式进行变换。

C (u, v) = a (u) a (v) Σ_{x = 0}^{M - 1} Σ_{y = 0}^{N - 1} f (x, y) \cos (\frac{(2 x + 1) uπ}{2 M}) \cos (\frac{(2 y + 1) vπ}{2 N})

(u＝0,1,2,...,M-1;v＝0,1,2,...,N-1)

式中C(u,v)为二维离散余弦变换(2D-Discrete Cosine Transform，2D-DCT)的结果，即二维离散余弦变换(2D-Discrete Cosine Transform，2D-DCT)系数。其中a(u)和a(v)分别定义如下：

a (u) = \{\begin{matrix} \sqrt{1 / M}, u = 0 \\ \sqrt{2 / M}, u = 1,2, . . . M - 1 \end{matrix}

a (v) = \{\begin{matrix} \sqrt{1 / N}, v = 0 \\ \sqrt{2 / N}, v = 1,2, . . . N - 1 \end{matrix}

取P×L为16×16的采样窗,滑动步长为4×4,取M＝N＝8，即采用8点的二维离散余弦变换(2D-Discrete Cosine Transform，2D-DCT)，取变换系数的低频部分4×4系数作为嵌入式隐马尔可夫模型(EHMM)的观察向量。

利用二维离散余弦变换(2D-Discrete Cosine Transform，2D-DCT)提取出相应的观察向量后.分别与三种表情的嵌入式隐马尔可夫模型(EHMM)计算产生该观察向量的似然概率，选择概率最高的模型.以此来识别采集图像中人脸的表情信息。得到表情识别结果信息后，主处理器（DSP）将表情识别结果信号通过RS-485总线，以9600bps的速率传送到背景音乐调节单元的微控制单元（MCU）中,微控制单元（MCU）根据接收到的表情识别结果信号调用相应的程序模块，调节MP3解码器和音效处理器，得到需要的音乐效果。

本系统为三种表情建立了嵌入式隐马尔可夫模型(EHMM)，三种表情分别是：“快乐”，“正常”和“难过”。其中“快乐”包括中的惊奇和高兴的基本表情。“难过”包括愤怒和悲伤基本表情。“正常”指不在6种基本表情定义内的其他表情。

当识别到的人脸表情是“快乐”时，微控制单元（MCU）调用执行高兴程序模块，增强音乐模式；当识别到的人脸表情是“正常”时，微控制单元（MCU）调用执行平和程序模块，控制音乐模式为中间值；当识别到的表情为“难过”时，微控制单元（MCU）调用执行沮丧程序模块，减弱音乐模式。

所述高兴程序模块为：将背景音乐提高音量5分贝，加大重低音3分贝，提高高音3分贝，开启环绕声；

所述平和程序模块为：将背景音乐降低音量至45分贝，降低重低音至30分贝，降低高音至25分贝，开启环绕声；

所述沮丧程序模块为：将背景音乐降低音量5分贝，关闭重低音，降低高音至20分贝，关闭环绕声。

本发明中增强音乐模式包括但不限于：播放高兴类型的音乐列表、提高音量的大小，加大重低音、提升高音、开启环绕声。音乐模式为中间值包括但不限于：播放平和类型的音乐列表、降低音量大小至较为合适的中间值、降低重低音为较为合适的中间值、降低高音质至为合适的中间值、开启环绕声。减弱音乐模式包括但不限于：播放悲伤类型的音乐列表、降低音量大小至比较小的值、降低高音至比较小的值、关闭环绕声。

Claims

1.一种基于表情的背景音乐控制方法，其特征在于步骤如下：

右眼

两眼窗的大小为

式中I(x,y)为在(x,y)点的灰度值，N为投影像素点数；

式中I(x,y)为在(x,y)点的灰度值，N为投影像素点数；

向上取

往下取得到一个切割后的人脸图像；

步骤8：将人脸图像放缩到100×100像素，得到人脸图像的二维矩阵M[k][g]，其中k=100,g=100；对二维矩阵灰度归一化处理，得到具有相同的均值和方差的人脸图像；所述灰度归一化处理公式：式中

μ₀和σ₀是变换后图像的均值和标准差，

和

是变换前图像的均值和标准差；

C (u, v) = a (u) a (v) Σ_{x = 0}^{M - 1} Σ_{y = 0}^{N - 1} f (x, y) \cos (\frac{(2 x + 1) uπ}{2 M}) \cos (\frac{(2 y + 1) vπ}{2 N})

式中

M＝N＝8，

a (u) = \{\begin{matrix} \sqrt{1 / M}, u = 0 \\ \sqrt{2 / M}, u = 1,2, . . . M - 1 \end{matrix},

a (v) = \{\begin{matrix} \sqrt{1 / N}, v = 0 \\ \sqrt{2 / N}, v = 1,2, . . . N - 1 \end{matrix}

2.一种实现权利要求1所述基于表情的背景音乐控制方法的装置，其特征在于包括电源单元、图像采集单元、主处理器DSP、存储单元、功率放大器、音效处理器、MP3解码器和微控制单元MCU；主处理器DSP分别与图像采集单元、存储单元和微控制单元MCU，微控制单元MCU顺序联接MP3解码器、音效处理器和功率放大器；微控制单元MCU还直接音效处理器联接；电源单元与上述各个单元联接并提供工作电源。

3.根据权利要求2所述的装置，其特征在于：所述图像采集单元采用CMOS图像传感器。

4.据权利要求2所述的装置，其特征在于：所述主处理器DSP与微控制单元MCU之间采用RS-485总线进行连接，采用9600bps的波特率传输数据。