CN103413113A - 一种服务机器人智能情感交互的方法 - Google Patents

一种服务机器人智能情感交互的方法 Download PDF

Info

Publication number
CN103413113A
CN103413113A CN2013100132294A CN201310013229A CN103413113A CN 103413113 A CN103413113 A CN 103413113A CN 2013100132294 A CN2013100132294 A CN 2013100132294A CN 201310013229 A CN201310013229 A CN 201310013229A CN 103413113 A CN103413113 A CN 103413113A
Authority
CN
China
Prior art keywords
emotional
robot
emotion
module
recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2013100132294A
Other languages
English (en)
Inventor
李昕
李翔
张德兴
屈燕琴
胡晨
徐昱琳
陈万米
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Shanghai for Science and Technology
Original Assignee
University of Shanghai for Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Shanghai for Science and Technology filed Critical University of Shanghai for Science and Technology
Priority to CN2013100132294A priority Critical patent/CN103413113A/zh
Publication of CN103413113A publication Critical patent/CN103413113A/zh
Pending legal-status Critical Current

Links

Images

Abstract

本发明设计了一种服务机器人智能情感交互的方法。它包括以下步骤:利用情感输入模块实现信号的输入,情感输入模块包括双目视觉装置,麦克风装置;引入优先级判断设置实现视觉、语音等输入信号的融合处理;情感识别模块提取特征离线训练得到模板库,利用模板库实现在线识别;机器人情感表达模块进行情感表达,情感表达模块包括机器人发声系统和机器人运动模块。本发明将生命科学与计算机科学紧密结合,实现智能服务机器人情感交互,使得机器人具备一定的情感交互能力,有利于建立一种更加和谐的人机交互环境,实现真正意义上的人工智能。

Description

一种服务机器人智能情感交互的方法
技术领域
   本发明属于模式识别与人工智能领域,具体涉及的一种服务机器人智能情感交互的方法。 
背景技术
在人机交互系统中,计算机(或机器人)如能具有识别人类情感的能力,那么它将会有更大的自主性和目的性,从而主动地、创造性地完成任务。同时,通过情感记忆,计算机(或机器人)能够及时总结经验教训,逐步具备自主学习的能力,有利于建立一种更加和谐的人机交互环境,实现真正意义上的人工智能。目前,情感识别领域研究比较多的是语音和图像的情感识别。 
发明内容
本发明的目的在于针对智能语音情感识别方法,以及人机交互的需要,提供了一种服务机器人智能情感交互的方法。本发明所设计的智能情感机器人并不仅仅是情感交互机器人,还能同时完成用户发布的任务。由用户输入任务信息,经过优先级判别,从而实现多种类型的任务。 
为达上述目的,本发明的构思和原理是:
本发明的服务机器人智能情感交互的方法,其实验平台包括双目图像采集模块,语音识别模块,RFID接收模块,底轮运动模块,以及仿人机械臂控制模块。
机器人在情感输入时通过双目图像采集模块进行人脸检测,实现三维人脸识别,判别用户情感状态;在情感识别时通过语音识别模块与人进行语音交互,识别及分析发出的命令;在情感表达时融合RFID接收模块与双目摄像头采集模块的信息,并根据所感知的周围环境进行自主避障,并完成控制指令。 
    本发明所涉及的服务机器人智能情感交互的方法,包括以下功能: 
(1)人脸检测与智能人脸识别模块。机器人可以检测出视野范围内的人脸,并对检测出的人脸进行智能识别,判定用户的情感状态。
(2)智能语音交互模块。通过语音模块,机器人可以识别及分析环境中的语音信息,与人类进行语音交流,并且能够按照命令人发出的语音命令实施相应的动作。 
本发明涉及到的人脸检测与识别部分分别采用了肤色检测、深度处理方法及PCA(主成分分析)法,其具体算法如下: 
Figure DEST_PATH_RE-DEST_PATH_IMAGE002
Figure DEST_PATH_RE-DEST_PATH_IMAGE004
                              (1)
                              (2)
 
Figure DEST_PATH_RE-DEST_PATH_IMAGE008
                                  (3)
对于人脸检测,主要步骤如下:
(1)基于Adaboost方法得出可能的人脸区域.
(2)在此人脸区域图像中,通过RGB肤色模型(1)-(3)检测出肤色部分.
(3)针对每一个肤色像素得出其距双目的距离值和所有肤色像素区域距相机的平均距离,计算欧氏距离;
对于人脸识别,主要是PCA方法。其主要步骤如下:
(1)建立训练库,库中的脸部图像要满足对于特定人进行识别的需求。
(2)计算特征脸向量及其特征脸空间,将待识别的脸部样本图片放入特征脸空间,计算出其坐标系数; 
(3)比较待测样本与训练库中坐标系数的不同,计算出样本脸与训练集中人脸的欧式距离,得出识别结果。
本发明涉及到的智能语音情感交互部分,如图5其具体算法步骤如下: 
1.采集用户情感语音。通过机器人外接麦克风来接收。
2.预处理。包括加窗,分帧,预加重。 
3.语音增强和去噪及端点检测。 
针对高斯噪声和非高斯噪声,设计出两种不同的抗噪声语音端点检测方法。在高斯噪声环境中,利用基于信息熵和谱减法的端点检测的方法,即改进的自适应子带频谱熵语音端点检测算法(IABSE)。在非高斯噪声环境中,应用基于信息熵和独立分量分析的端点检测ICASE。 
(1)一种改进自适应子带谱熵法。步骤如下: 
①开始阶段无音片段的选取,用于语音背景噪声的估计。
在开始阶段,取前5帧作为无音片段进行处理。 
用下列公式进行语音端点检测的阈值
Figure DEST_PATH_RE-DEST_PATH_IMAGE010
设定 
Figure DEST_PATH_RE-DEST_PATH_IMAGE012
                                               
Figure DEST_PATH_RE-DEST_PATH_IMAGE014
                                     
                                                
上式中的是一常数,经验获取,数值1.25。
②进行降噪处理。 
由于无音片段通常含有多帧数据,所以对无音片段的每一帧数据计算256点FFT,然后计算多帧的平均值,计算出该无音片段的平均功率谱。计算出当前帧语音信号的频谱值,再做256点IFFT,就得到了当前帧降噪后的语音信号
Figure DEST_PATH_RE-DEST_PATH_IMAGE022
。 
③用自适应子带谱熵端点检测方法进行语音端点检测。 
④通过加权对无音片段进行更新。 
当数据已经取完时,就结束语音端点检测,否则继续进行操作。如果步骤③表明当前帧仍处于有音片段,就取出下一帧数据,然后转入步骤 ②执行。如果步骤③表明当前帧仍是处于无音片段,就取当前帧的数据,并将它们与上一次用到的无音片段的数据作加权平均,取出下一帧数据,然后转入步骤 ②执行。 
(2)基于信息熵和独立分量分析的端点检测步骤: 
①对含噪语音先进行
Figure DEST_PATH_RE-DEST_PATH_IMAGE024
增强,ICA的关键是建立一个能够度量分离结果的独立性的目标函数及其优化算法。
②将增强后的语音信号分成相邻有重叠的语音段,进行FFT变换;计算每一帧语音的谱熵; 
③对每帧语音的谱熵进行归一化得到谱熵集
Figure DEST_PATH_RE-DEST_PATH_IMAGE026
,其中
Figure DEST_PATH_RE-DEST_PATH_IMAGE028
为分析语音的总帧数,门限设定为:
      
Figure DEST_PATH_RE-DEST_PATH_IMAGE030
Figure DEST_PATH_RE-DEST_PATH_IMAGE032
Figure DEST_PATH_RE-DEST_PATH_IMAGE034
Figure DEST_PATH_RE-DEST_PATH_IMAGE036
Figure DEST_PATH_RE-255978DEST_PATH_IMAGE034
>0                    
根据门限
Figure DEST_PATH_RE-173118DEST_PATH_IMAGE030
,当谱熵大于
Figure DEST_PATH_RE-952855DEST_PATH_IMAGE030
时为语音帧;小于
Figure DEST_PATH_RE-285748DEST_PATH_IMAGE030
为非语音帧。
4.语音情感特征提取 
(1)能量特征:
用短时平均幅度函数表示
Figure DEST_PATH_RE-DEST_PATH_IMAGE038
Figure DEST_PATH_RE-DEST_PATH_IMAGE040
                                         
可先将语音信号分帧,再对每一帧运用上述公式求值,就可以得到各帧的短时能量序列。将所有帧的能量值求和,除以分帧的总数量,就可以计算出整个语音段的平均短时能量。并把每一帧的特征值作为HMM的输入。
(2)短时过零率,表示一帧语音中语音信号波形穿过零电平的次数。语音信号的短时过零率为: 
Figure DEST_PATH_RE-DEST_PATH_IMAGE042
         
(3)基音频率(pitch)特征
使用基于短时自相关函数来估计基音周期。语音信号
Figure DEST_PATH_RE-DEST_PATH_IMAGE044
经窗长为N的窗口截取为一段加窗语音信号后,定义自相关函数(ACF)
Figure DEST_PATH_RE-DEST_PATH_IMAGE048
(即语音
Figure DEST_PATH_RE-975486DEST_PATH_IMAGE044
的短时自相关函数)为:
Figure DEST_PATH_RE-DEST_PATH_IMAGE050
                                      
Figure DEST_PATH_RE-797949DEST_PATH_IMAGE048
不为零的范围为
Figure DEST_PATH_RE-DEST_PATH_IMAGE052
,且为偶数。
为了减少共振峰的影响,采用是中心削波法。它采用如下式的中心削波函数进行处理: 
                   
(4)共振峰特征提取
本发明采取线性预测(LPC)方法来提取每帧语音的共振峰特征参数。语音信号共振峰的几何LPC分析方法的一个主要特点在于能够由预测系数构成的多项式中精确地估计共振峰参数。下面就来介绍一下本文求取共振峰特征的步骤:
Figure DEST_PATH_RE-2665DEST_PATH_IMAGE028
个语音信号
Figure DEST_PATH_RE-DEST_PATH_IMAGE056
的p阶线性预测值为:
Figure DEST_PATH_RE-DEST_PATH_IMAGE058
                                            
式中p是预测阶数,
Figure DEST_PATH_RE-DEST_PATH_IMAGE060
是预测系数。如果预测误差用
Figure DEST_PATH_RE-DEST_PATH_IMAGE062
表示,则
Figure DEST_PATH_RE-DEST_PATH_IMAGE064
,由上式可以得到:
Figure DEST_PATH_RE-DEST_PATH_IMAGE066
                           
式中,
Figure DEST_PATH_RE-DEST_PATH_IMAGE068
。在均方误差最小准则下,线性系数
Figure DEST_PATH_RE-14615DEST_PATH_IMAGE060
的选择应使预测误差的均方值
Figure DEST_PATH_RE-DEST_PATH_IMAGE070
最小,令
Figure DEST_PATH_RE-DEST_PATH_IMAGE072
可推得:
Figure DEST_PATH_RE-DEST_PATH_IMAGE074
                            
由上式可得p个方程,写成矩阵形式为:
Figure DEST_PATH_RE-DEST_PATH_IMAGE076
         
由这p个方程,可以求出p个预测系数
Figure DEST_PATH_RE-618247DEST_PATH_IMAGE060
。通过LPC分析,由若干帧语音可以得到若干组LPC参数,每组参数形成一个特征的矢量,即LPC特征矢量。
然后用得到的预测系数估计声道的功率谱,语音信号的传输函数在时域上表示全极点模型时有: 
                                  
又由:
                                  
由上两式得
Figure DEST_PATH_RE-DEST_PATH_IMAGE082
,输入信号
Figure DEST_PATH_RE-DEST_PATH_IMAGE084
与误差信号成正比,比例系数即为全极点模型的增益G。上式表明
Figure DEST_PATH_RE-486977DEST_PATH_IMAGE086
的总能量与
Figure DEST_PATH_RE-DEST_PATH_IMAGE088
的总能量相等,即
Figure DEST_PATH_RE-DEST_PATH_IMAGE090
,设
Figure DEST_PATH_RE-178989DEST_PATH_IMAGE084
为单位输入脉冲时,由于在n=0时
Figure DEST_PATH_RE-916001DEST_PATH_IMAGE084
为1,在其他时刻为0,所以的总能量为
Figure DEST_PATH_RE-DEST_PATH_IMAGE092
,从而计算出
Figure DEST_PATH_RE-DEST_PATH_IMAGE094
,声道的功率传输函数可以表示为:
                                 
在实际使用中,我们先用
Figure DEST_PATH_RE-744597DEST_PATH_IMAGE060
来表示功率传输函数,经过FFT变换得到功率谱。即:
Figure DEST_PATH_RE-DEST_PATH_IMAGE098
       
通过FFT运算可顺序求得实数部分
Figure DEST_PATH_RE-DEST_PATH_IMAGE100
和虚数部分
Figure DEST_PATH_RE-DEST_PATH_IMAGE102
。所以频谱
Figure DEST_PATH_RE-DEST_PATH_IMAGE104
为:
Figure DEST_PATH_RE-DEST_PATH_IMAGE106
             
因为功率谱具有对称形状,只要计算到
Figure DEST_PATH_RE-DEST_PATH_IMAGE108
的一半功率谱就可以了。通过求全极点模型的根,得到频谱峰值的频率,再求出作为根的极点,从而
Figure DEST_PATH_RE-DEST_PATH_IMAGE114
                                        
其中
Figure DEST_PATH_RE-DEST_PATH_IMAGE118
。如果根为复数,即,则有
Figure DEST_PATH_RE-DEST_PATH_IMAGE122
                 
由此式可以求出对应于根
Figure DEST_PATH_RE-734025DEST_PATH_IMAGE112
的中心频率
Figure DEST_PATH_RE-DEST_PATH_IMAGE124
,公式为:
Figure DEST_PATH_RE-DEST_PATH_IMAGE126
                                
利用上面的算法,我们可以提取出语音信号的共振峰,共振峰放映了人的声道的变化情况,当震动的频率和声道的固有平率相同,就会发生共振,共振峰就是反映这一声道特性的特征,不同的情感,声道的长短是不一样的,共振峰也就不一样,这样通过共振峰,也能反映出各种情感的特点。
(5)Mel倒谱系数 
Mel频率倒谱系数将人耳的听觉感知特性和语音信号的产生机制有效地结合,MFCC参数首先在频域将频率轴变换为Mel频率刻度,再变换到倒谱域得到倒谱系数。
计算过程如下: 
①将信号进行分帧和加汉明窗处理,然后进行短时傅里叶变换得到其频谱;
②求它的频谱幅度的平方,即能量谱,并用一组三角形滤波器在频域对能量谱进行带通滤波。这组带通滤波器的中心频率是按Mel频率刻度均匀排列的,间隔150Mel,带宽300Mel,每个滤波器的三角形的两个底点的频率分别等于相邻的两个滤波器的中心频率。设滤波器数为M,滤波后得到的输出为:
Figure DEST_PATH_RE-DEST_PATH_IMAGE128
③将滤波器组的输出取对数,然后对它做反离散余弦变换即得到MFCC。由于对称性,此变换式可简化为下式: 
Figure DEST_PATH_RE-DEST_PATH_IMAGE130
              
MFCC系数的个数L一般取12-16。应注意的是,通常状况下,零阶倒谱系数并不加以利用,因为它是反映频谱能量的。本文的滤波器组中滤波器的个数取为24个,所覆盖的最高频率为13.5KHz,选取了12维MFCC参数作为特征矢量。
假设
Figure DEST_PATH_RE-DEST_PATH_IMAGE132
为计算得到的一句情感语音的MFCC系数,那么它的一阶差分和二阶差分的计算公式如下: 
                 
        
本文中用到的Mel倒谱系数,就是用这样的方法求得的,在试验中按帧求取每一帧的Mel倒谱系数,我们取12阶Mel倒谱系数,作为情感识别的特征。
5.HMM情感识别 
在本文中我们所用到的分类器就是HMM(Hidden Markov Model)模型,本文主要研究的是四种情感状态的识别,高兴、悲伤、愤怒、平静。使用的情感语音试验数据为包含了这四种情感状态的情感语音库。
对于本文所研究的基于HMM模型的语音情感识别,每个情感语句可以由一系列观察矢量
Figure DEST_PATH_RE-DEST_PATH_IMAGE138
来表示,定义为: 
Figure DEST_PATH_RE-DEST_PATH_IMAGE140
                                          
其中
Figure DEST_PATH_RE-DEST_PATH_IMAGE142
为语音在
Figure DEST_PATH_RE-DEST_PATH_IMAGE144
时刻的观察矢量,即
Figure DEST_PATH_RE-822198DEST_PATH_IMAGE144
时刻的情感特征矢量。设
Figure DEST_PATH_RE-DEST_PATH_IMAGE146
为第种情感,则语音情感识别问题可以等效于计算
Figure DEST_PATH_RE-DEST_PATH_IMAGE150
                                     
Figure DEST_PATH_RE-DEST_PATH_IMAGE152
可以通过贝叶斯法则求得
Figure DEST_PATH_RE-DEST_PATH_IMAGE154
                              
从上式我们可以看到,对于给定的先验概率,识别结果由
Figure DEST_PATH_RE-DEST_PATH_IMAGE158
决定。在基于HMM模型的语音情感识别中,假设与每种情感相关的语音观察矢量序列由一个有限状态的HMM模型M产生,则其经历的状态序列X与所产生观察矢量序列O的联合概率可以表示为:
Figure DEST_PATH_RE-DEST_PATH_IMAGE160
      
其中
Figure DEST_PATH_RE-DEST_PATH_IMAGE162
为状态转移概率,
Figure DEST_PATH_RE-DEST_PATH_IMAGE164
为观察矢量的概率输出。
Figure DEST_PATH_RE-DEST_PATH_IMAGE166
可以用下式计算:
Figure DEST_PATH_RE-DEST_PATH_IMAGE168
                    
或:
                    
对于每种情感
Figure DEST_PATH_RE-151155DEST_PATH_IMAGE146
,可以训练得到一组HMM的模型
Figure DEST_PATH_RE-DEST_PATH_IMAGE172
,假设
                                  
因此可以通过计算
Figure DEST_PATH_RE-DEST_PATH_IMAGE176
来得到
Figure DEST_PATH_RE-DEST_PATH_IMAGE178
  
根据上述发明构思和原理,本发明采用下述技术方案:
一种服务机器人智能情感交互的方法,其特征在于具体操作步骤如下:
(1)情感输入:利用情感输入模块双目视觉装置和麦克风装置实现情感的输入;
(2)优先级判断融合:引入优先级判断设置实现视觉和语音输入情感的融合处理;
(3)情感识别:利用情感识别模块实现在线识别,情感识别模块提取特征离线训练得到模板库,利用模板库实现在线识别人脸表情和语音情感;
(4)情感表达:利用机器人情感表达模块机器人发声系统和机器人运动模块进行情感表达。
所述步骤(1)中情感输入模块双目视觉装置和麦克风装置:双目视觉装置安装在机器人的头部,其头部可以上下左右转动;麦克风装置通过usb接口与机器人主机连接通信。 
所述步骤(2)中视觉和语音输入情感的融合处理方法是:如果用户选择的是单一输入方式,则进入下一步情感识别;否则进入优先级判断模块进行情感融合,之后再进行情感识别,情感融合主要利用优先级判断模块完成;融合的是2种方式的情感输入:分别为机器人双目视觉系统捕捉的人脸表情,机器人语音系统录制的语音情感,设置语音情感优先级高于人脸表情。 
所述步骤(3)中情感识别方法是:语音情感识别部分采取梅尔倒谱系数MFCC、基频、过零率和共振峰参数及其衍生参数作为识别特征,利用马尔科夫模型HMM进行训练,离线训练得到模板库。利用模板库中训练数据进行模版匹配实现情感识别;人脸表情情感识别部分通过主分量分析算法提取人脸图像的主分量,用欧氏距离对比训练人脸库中人脸和双目摄取到人脸的主分量,以距离最小者作为识别结果。 
所述步骤(4)中情感表达模块机器人发声系统和机器人运动模块:机器人发声系统为文本到语音TTS系统的转换;机器人运动模块包含头部、机械臂、底轮;两只机械臂分别安装在机器人两侧,机械臂可实现抓取、跳舞和双臂协调动作;底轮的运动模式采用双轮差动方式,并在底部安装有两个色标传感器;在表达情感时,语音系统可为每种情感状态设置文本,在显示器上显示识别结果与应对结果,同时,机器人运动表达情感,不同的运动表示不同的情感:点头表示高兴,摇头表示悲伤,往复运动表示愤怒。 
  
本发明与现有技术相比较,具有如下显而易见的突出实质性特点和显著性进步:
本发明利用情感输入模块双目视觉和麦克风装置实现信号的输入;引入优先级判断设置实现视觉和语音输入信号的融合处理;利用情感识别模块实现在线识别;利用机器人情感表达模块进行情感表达;本发明将生命科学与计算机科学紧密结合,实现智能服务机器人情感交互,使得机器人具备一定的情感交互能力,有利于建立一种更加和谐的人机交互环境,实现真正意义上的人工智能。
附图说明
图1服务机器人智能情感交互的方法的操作程序框图 
图2为本发明的系统结构框图;
图3为机器人外观视图;
图4(a)为本发明实施例的实验结果图;
图4(b)为本发明实施例的实验结果图。
图5情感识别系统流程图 
具体实施方式
下面结合附图说明对本发明的优选实施例做详细描述。 
实例一: 
参见图1,本服务机器人智能情感交互的方法,其特征在于具体操作步骤如下:
(1)情感输入:利用情感输入模块双目视觉装置和麦克风装置实现情感的输入;
(2)优先级判断融合:引入优先级判断设置实现视觉和语音输入情感的融合处理;
(3)情感识别:利用情感识别模块实现在线识别,情感识别模块提取特征离线训练得到模板库,利用模板库实现在线识别人脸表情和语音情感;
(4)情感表达:利用机器人情感表达模块机器人发声系统和机器人运动模块进行情感表达。
实例二: 
    本实施例与实施例一基本相同,特别之处是:所述步骤(1)中情感输入模块双目视觉装置和麦克风装置:双目视觉装置安装在机器人的头部,其头部可以上下左右转动;麦克风装置通过usb接口与机器人主机连接通信。
如图2所示,本实施例,由双目图像采集模块,语音识别模块,机器人发声系统和机器人运动模块组成。 
如图3所示,本实例的实验平台机器人拥有双目视觉摄像头,3个前部超声波传感器,2个侧部超声波传感器,7个底盘避障传感器,2个扬声器,2个机械臂,1块触摸屏,用户可通过人机界面的按钮完成机器人的控制。用户可以外接麦克风,直接和机器人进行对话,对话内容用户可以自己设计。此外,还可以通过遥控器,完成对机器人的运动、信息和娱乐等功能选取。 
实例三: 
    本实施例与实施例二基本相同,特别之处是:所述步骤(2)所述步骤(2)中视觉和语音输入情感的融合处理方法是:如果用户选择的是单一输入方式,则进入下一步情感识别;否则进入优先级判断模块进行情感融合,之后再进行情感识别,情感融合主要利用优先级判断模块完成;融合的是2种方式的情感输入:分别为机器人双目视觉系统捕捉的人脸表情,机器人语音系统录制的语音情感,设置语音情感优先级高于人脸表情。所述步骤(3)中情感识别方法是:语音情感识别部分采取梅尔倒谱系数MFCC、基频、过零率和共振峰参数及其衍生参数作为识别特征,利用马尔科夫模型HMM进行训练,离线训练得到模板库。利用模板库中训练数据进行模版匹配实现情感识别;人脸表情情感识别部分通过主分量分析算法提取人脸图像的主分量,用欧氏距离对比训练人脸库中人脸和双目摄取到人脸的主分量,以距离最小者作为识别结果。
如图5所示,本服务机器人智能情感交互的方法,针对目前没有公开的汉语情感语音库的情况,建立一个包括高兴、悲伤、愤怒、平静四种情感的小型汉语情感语音模版库。模板库的建立主要包括以下步骤: 
(1)首先针对一种情感语音如高兴,利用麦克风进行输入并将输入语音信号进行语音增强和去噪等预处理并进行端点检测;
(2)对步骤(1)得到的信号提取包括梅尔倒谱系数MFCC、基频、过零率、能量、语速、共振峰等参数及其衍生参数作为特征参数。
(3)对步骤(2)提取的特征参数利用马尔科夫模型(HMM)进行离线训练,训练得到高兴的情感语音的模板库。 
(4)重复步骤(1)(2)(3)分别建立悲伤、愤怒、平静等其他三种情感的模板库。 
实施例四: 
本实施例与实施例三基本相同,特别之处是:所述步骤(4)中情感表达模块机器人发声系统和机器人运动模块:机器人发声系统为文本到语音TTS系统的转换;机器人运动模块包含头部、机械臂、底轮;两只机械臂分别安装在机器人两侧,机械臂可实现抓取、跳舞和双臂协调动作;底轮的运动模式采用双轮差动方式,并在底部安装有两个色标传感器;在表达情感时,语音系统可为每种情感状态设置文本,在显示器上显示识别结果与应对结果,同时,机器人运动表达情感,不同的运动表示不同的情感:点头表示高兴,摇头表示悲伤,往复运动表示愤怒。
  
本实施例在以本发明技术方案为前提下进行实施,给出了详细的实施方式和具体的操作过程,但本发明的保护范围不限于上述的实施例。

Claims (5)

1.一种服务机器人智能情感交互的方法,其特征在于具体操作步骤如下:
(1)情感输入:利用情感输入模块双目视觉装置和麦克风装置实现情感的输入;
(2)优先级判断融合:引入优先级判断设置实现视觉和语音输入情感的融合处理;
(3)情感识别:利用情感识别模块实现在线识别,情感识别模块提取特征离线训练得到模板库,利用模板库实现在线识别人脸表情和语音情感;
(4)情感表达:利用机器人情感表达模块机器人发声系统和机器人运动模块进行情感表达。
2.根据权利要求1所述的服务机器人智能情感交互的方法,其特征在于:所述步骤(1)中情感输入模块双目视觉装置和麦克风装置:双目视觉装置安装在机器人的头部,其头部可以上下左右转动;麦克风装置通过usb接口与机器人主机连接通信。
3.根据权利要求1所述的服务机器人智能情感交互的方法,其特征在于:所述步骤(2)中视觉和语音输入情感的融合处理方法是:如果用户选择的是单一输入方式,则进入下一步情感识别;否则进入优先级判断模块进行情感融合,之后再进行情感识别,情感融合主要利用优先级判断模块完成;融合的是2种方式的情感输入:分别为机器人双目视觉系统捕捉的人脸表情,机器人语音系统录制的语音情感,设置语音情感优先级高于人脸表情。
4.根据权利要求1所述的服务机器人智能情感交互的方法,其特征在于:所述步骤(3)中情感识别方法是:语音情感识别部分采取梅尔倒谱系数MFCC、基频、过零率和共振峰参数及其衍生参数作为识别特征,利用马尔科夫模型HMM进行训练,离线训练得到模板库。利用模板库中训练数据进行模版匹配实现情感识别;人脸表情情感识别部分通过主分量分析算法提取人脸图像的主分量,用欧氏距离对比训练人脸库中人脸和双目摄取到人脸的主分量,以距离最小者作为识别结果。
5.根据权利要求1所述的服务机器人智能情感交互的方法,其特征在于:所述步骤(4)中情感表达模块机器人发声系统和机器人运动模块:机器人发声系统为文本到语音TTS系统的转换;机器人运动模块包含头部、机械臂、底轮;两只机械臂分别安装在机器人两侧,机械臂可实现抓取、跳舞和双臂协调动作;底轮的运动模式采用双轮差动方式,并在底部安装有两个色标传感器;在表达情感时,语音系统可为每种情感状态设置文本,在显示器上显示识别结果与应对结果,同时,机器人运动表达情感,不同的运动表示不同的情感:点头表示高兴,摇头表示悲伤,往复运动表示愤怒。
CN2013100132294A 2013-01-15 2013-01-15 一种服务机器人智能情感交互的方法 Pending CN103413113A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2013100132294A CN103413113A (zh) 2013-01-15 2013-01-15 一种服务机器人智能情感交互的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2013100132294A CN103413113A (zh) 2013-01-15 2013-01-15 一种服务机器人智能情感交互的方法

Publications (1)

Publication Number Publication Date
CN103413113A true CN103413113A (zh) 2013-11-27

Family

ID=49606122

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2013100132294A Pending CN103413113A (zh) 2013-01-15 2013-01-15 一种服务机器人智能情感交互的方法

Country Status (1)

Country Link
CN (1) CN103413113A (zh)

Cited By (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104102346A (zh) * 2014-07-01 2014-10-15 华中科技大学 一种家用信息采集和用户情感识别设备及其工作方法
CN104493827A (zh) * 2014-11-17 2015-04-08 福建省泉州市第七中学 智能认知机器人及其认知系统
CN104754110A (zh) * 2013-12-31 2015-07-01 广州华久信息科技有限公司 一种基于机器语音对话的情感发泄方法及手机
CN104835507A (zh) * 2015-03-30 2015-08-12 渤海大学 一种串并结合的多模式情感信息融合与识别方法
CN105206271A (zh) * 2015-08-25 2015-12-30 北京宇音天下科技有限公司 智能设备的语音唤醒方法及实现所述方法的系统
WO2016091110A1 (zh) * 2014-12-09 2016-06-16 阿里巴巴集团控股有限公司 语音信息处理方法及装置
CN105718921A (zh) * 2016-02-29 2016-06-29 深圳前海勇艺达机器人有限公司 一种可实现机器人智能情感记录的方法
CN105797375A (zh) * 2014-12-31 2016-07-27 深圳市亿思达科技集团有限公司 一种跟随用户脸部表情改变角色模型表情的方法和终端
CN105843118A (zh) * 2016-03-25 2016-08-10 北京光年无限科技有限公司 一种机器人交互方法及机器人系统
CN105912530A (zh) * 2016-04-26 2016-08-31 北京光年无限科技有限公司 面向智能机器人的信息处理方法及系统
CN106371583A (zh) * 2016-08-19 2017-02-01 北京智能管家科技有限公司 一种智能设备的控制方法及装置
CN106598948A (zh) * 2016-12-19 2017-04-26 杭州语忆科技有限公司 基于长短期记忆神经网络结合自动编码器的情绪识别方法
CN107009362A (zh) * 2017-05-26 2017-08-04 深圳市阿西莫夫科技有限公司 机器人控制方法和装置
CN107066956A (zh) * 2017-03-24 2017-08-18 北京科技大学 一种基于体域网的多源情感识别机器人
WO2017166994A1 (zh) * 2016-03-31 2017-10-05 深圳光启合众科技有限公司 基于云端的设备及其操作方法
CN107291654A (zh) * 2016-03-31 2017-10-24 深圳光启合众科技有限公司 机器人的智能决策系统和方法
CN107590503A (zh) * 2016-07-07 2018-01-16 深圳狗尾草智能科技有限公司 一种机器人情感数据更新方法及系统
CN108115695A (zh) * 2016-11-28 2018-06-05 沈阳新松机器人自动化股份有限公司 一种情感色彩表达系统及机器人
CN108858219A (zh) * 2018-07-04 2018-11-23 梧州井儿铺贸易有限公司 一种交互效果良好的机器人
CN109278051A (zh) * 2018-08-09 2019-01-29 北京光年无限科技有限公司 基于智能机器人的交互方法及系统
CN110049155A (zh) * 2019-03-29 2019-07-23 中至数据集团股份有限公司 图像显示方法、系统、可读存储介质及手机壳
CN110799993A (zh) * 2017-06-12 2020-02-14 Aka智能株式会社 确定计算机的情感的方法
CN110895658A (zh) * 2018-09-13 2020-03-20 珠海格力电器股份有限公司 信息处理方法及装置、机器人
CN111027215A (zh) * 2019-12-11 2020-04-17 中国人民解放军陆军工程大学 针对虚拟人的性格训练系统及其方法
CN111113418A (zh) * 2019-12-25 2020-05-08 深圳市优必选科技股份有限公司 机器人的舞蹈控制方法及装置
CN111798874A (zh) * 2020-06-24 2020-10-20 西北师范大学 一种语音情绪识别方法及系统
CN112309423A (zh) * 2020-11-04 2021-02-02 北京理工大学 驾驶环境下基于智能手机音频感知的呼吸道症状检测方法
CN112557510A (zh) * 2020-12-11 2021-03-26 广西交科集团有限公司 混凝土路面脱空智能检测装置及其检测方法
CN113319869A (zh) * 2021-06-25 2021-08-31 重庆理工大学 具有情感交互功能的迎宾机器人系统
US11279041B2 (en) * 2018-10-12 2022-03-22 Dream Face Technologies, Inc. Socially assistive robot

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101187990A (zh) * 2007-12-14 2008-05-28 华南理工大学 一种会话机器人系统
CN101618280A (zh) * 2009-06-30 2010-01-06 哈尔滨工业大学 具有人机交互功能的仿人头像机器人装置及行为控制方法
CN102323817A (zh) * 2011-06-07 2012-01-18 上海大学 一种服务机器人控制平台系统及其多模式智能交互与智能行为的实现方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101187990A (zh) * 2007-12-14 2008-05-28 华南理工大学 一种会话机器人系统
CN101618280A (zh) * 2009-06-30 2010-01-06 哈尔滨工业大学 具有人机交互功能的仿人头像机器人装置及行为控制方法
CN102323817A (zh) * 2011-06-07 2012-01-18 上海大学 一种服务机器人控制平台系统及其多模式智能交互与智能行为的实现方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
付洪保: "基于视觉听觉交叉模式的机器人感知技术的研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (37)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104754110A (zh) * 2013-12-31 2015-07-01 广州华久信息科技有限公司 一种基于机器语音对话的情感发泄方法及手机
CN104102346A (zh) * 2014-07-01 2014-10-15 华中科技大学 一种家用信息采集和用户情感识别设备及其工作方法
CN104493827A (zh) * 2014-11-17 2015-04-08 福建省泉州市第七中学 智能认知机器人及其认知系统
US10708423B2 (en) 2014-12-09 2020-07-07 Alibaba Group Holding Limited Method and apparatus for processing voice information to determine emotion based on volume and pacing of the voice
WO2016091110A1 (zh) * 2014-12-09 2016-06-16 阿里巴巴集团控股有限公司 语音信息处理方法及装置
CN105797375A (zh) * 2014-12-31 2016-07-27 深圳市亿思达科技集团有限公司 一种跟随用户脸部表情改变角色模型表情的方法和终端
CN104835507A (zh) * 2015-03-30 2015-08-12 渤海大学 一种串并结合的多模式情感信息融合与识别方法
CN104835507B (zh) * 2015-03-30 2018-01-16 渤海大学 一种串并结合的多模式情感信息融合与识别方法
CN105206271A (zh) * 2015-08-25 2015-12-30 北京宇音天下科技有限公司 智能设备的语音唤醒方法及实现所述方法的系统
CN105718921A (zh) * 2016-02-29 2016-06-29 深圳前海勇艺达机器人有限公司 一种可实现机器人智能情感记录的方法
CN105843118A (zh) * 2016-03-25 2016-08-10 北京光年无限科技有限公司 一种机器人交互方法及机器人系统
CN105843118B (zh) * 2016-03-25 2018-07-27 北京光年无限科技有限公司 一种机器人交互方法及机器人系统
WO2017166994A1 (zh) * 2016-03-31 2017-10-05 深圳光启合众科技有限公司 基于云端的设备及其操作方法
CN107291654A (zh) * 2016-03-31 2017-10-24 深圳光启合众科技有限公司 机器人的智能决策系统和方法
CN105912530A (zh) * 2016-04-26 2016-08-31 北京光年无限科技有限公司 面向智能机器人的信息处理方法及系统
CN107590503A (zh) * 2016-07-07 2018-01-16 深圳狗尾草智能科技有限公司 一种机器人情感数据更新方法及系统
CN106371583A (zh) * 2016-08-19 2017-02-01 北京智能管家科技有限公司 一种智能设备的控制方法及装置
CN108115695A (zh) * 2016-11-28 2018-06-05 沈阳新松机器人自动化股份有限公司 一种情感色彩表达系统及机器人
CN106598948B (zh) * 2016-12-19 2019-05-03 杭州语忆科技有限公司 基于长短期记忆神经网络结合自动编码器的情绪识别方法
CN106598948A (zh) * 2016-12-19 2017-04-26 杭州语忆科技有限公司 基于长短期记忆神经网络结合自动编码器的情绪识别方法
CN107066956A (zh) * 2017-03-24 2017-08-18 北京科技大学 一种基于体域网的多源情感识别机器人
CN107066956B (zh) * 2017-03-24 2020-06-19 北京科技大学 一种基于体域网的多源情感识别机器人
CN107009362A (zh) * 2017-05-26 2017-08-04 深圳市阿西莫夫科技有限公司 机器人控制方法和装置
CN110799993A (zh) * 2017-06-12 2020-02-14 Aka智能株式会社 确定计算机的情感的方法
CN110799993B (zh) * 2017-06-12 2023-08-15 Aka人工智能株式会社 确定计算机的情感的方法
CN108858219A (zh) * 2018-07-04 2018-11-23 梧州井儿铺贸易有限公司 一种交互效果良好的机器人
CN109278051A (zh) * 2018-08-09 2019-01-29 北京光年无限科技有限公司 基于智能机器人的交互方法及系统
CN110895658A (zh) * 2018-09-13 2020-03-20 珠海格力电器股份有限公司 信息处理方法及装置、机器人
US11279041B2 (en) * 2018-10-12 2022-03-22 Dream Face Technologies, Inc. Socially assistive robot
CN110049155A (zh) * 2019-03-29 2019-07-23 中至数据集团股份有限公司 图像显示方法、系统、可读存储介质及手机壳
CN111027215A (zh) * 2019-12-11 2020-04-17 中国人民解放军陆军工程大学 针对虚拟人的性格训练系统及其方法
CN111027215B (zh) * 2019-12-11 2024-02-20 中国人民解放军陆军工程大学 针对虚拟人的性格训练系统及其方法
CN111113418A (zh) * 2019-12-25 2020-05-08 深圳市优必选科技股份有限公司 机器人的舞蹈控制方法及装置
CN111798874A (zh) * 2020-06-24 2020-10-20 西北师范大学 一种语音情绪识别方法及系统
CN112309423A (zh) * 2020-11-04 2021-02-02 北京理工大学 驾驶环境下基于智能手机音频感知的呼吸道症状检测方法
CN112557510A (zh) * 2020-12-11 2021-03-26 广西交科集团有限公司 混凝土路面脱空智能检测装置及其检测方法
CN113319869A (zh) * 2021-06-25 2021-08-31 重庆理工大学 具有情感交互功能的迎宾机器人系统

Similar Documents

Publication Publication Date Title
CN103413113A (zh) 一种服务机器人智能情感交互的方法
EP1667108B1 (en) Speech synthesis system, speech synthesis method, and program product
CN105976809B (zh) 基于语音和面部表情的双模态情感融合的识别方法及系统
Luettin et al. Speechreading using probabilistic models
US9020822B2 (en) Emotion recognition using auditory attention cues extracted from users voice
Wöllmer et al. LSTM-modeling of continuous emotions in an audiovisual affect recognition framework
CN107972028B (zh) 人机交互方法、装置及电子设备
CN112581979B (zh) 一种基于语谱图的语音情绪识别方法
CN113158727A (zh) 一种基于视频和语音信息的双模态融合情绪识别方法
CN110534133A (zh) 一种语音情感识别系统及语音情感识别方法
Liu et al. Audio-visual keyword spotting based on adaptive decision fusion under noisy conditions for human-robot interaction
Sun et al. A novel convolutional neural network voiceprint recognition method based on improved pooling method and dropout idea
KR101208678B1 (ko) 다중 생체정보를 이용하는 점진적 개인인증 시스템 및 방법
Kamble et al. Emotion recognition for instantaneous Marathi spoken words
Le Cornu et al. Voicing classification of visual speech using convolutional neural networks
Luettin et al. Learning to recognise talking faces
Zheng et al. Review of lip-reading recognition
Mini et al. Feature vector selection of fusion of MFCC and SMRT coefficients for SVM classifier based speech recognition system
RU2737231C1 (ru) Способ многомодального бесконтактного управления мобильным информационным роботом
Choudhury et al. Review of Various Machine Learning and Deep Learning Techniques for Audio Visual Automatic Speech Recognition
Monica et al. Recognition of medicine using cnn for visually impaired
Dennis et al. Generalized Hough transform for speech pattern classification
Sushma et al. Emotion analysis using signal and image processing approach by implementing deep neural network
Nishimura et al. Low cost speech detection using Haar-like filtering for sensornet
Dhakal Novel Architectures for Human Voice and Environmental Sound Recognitionusing Machine Learning Algorithms

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20131127

WD01 Invention patent application deemed withdrawn after publication