CN100511141C

CN100511141C - 基于仿生代理的多模交互界面描述方法

Info

Publication number: CN100511141C
Application number: CNB2007101764116A
Authority: CN
Inventors: 毛峡; 李峥; 薛雨丽
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2007-10-26
Filing date: 2007-10-26
Publication date: 2009-07-08
Anticipated expiration: 2027-10-26
Also published as: CN101174218A

Abstract

本发明一种基于仿生代理的多模交互界面描述方法，其中多模交互标记语言对多模交互系统的描述方法如下：(1)定义多模交互标记语言标签；(2)编写多模交互标记语言代码；(3)对所编写的多模交互标记语言代码进行有效性验证；(4)对经过有效性验证的代码进行解析，将多模交互标记语言代码按照规则转换为Vbscript代码；(5)将转换的Vbscript代码嵌入相应的网页背景中，调用控件模块的相关函数实现交互。其中仿生代理感知模块表情识别控件的实现步骤如下：(1)实现人脸检测器；(2)实现专门表情分类器；(3)最终表情分类器选取各专门表情分类器的最高分，判定表情。该描述方法具有简单易用、可扩展性强的特点，能够使普通用户轻松的开发出基于网页的仿生代理多模交互界面。

Description

基于仿生代理的多模交互界面描述方法

(一)技术领域：

本发明涉及一种基于仿生代理的多模交互界面描述方法，尤其是多模交互标记语言(Multi-model Interaction Markup Language)和仿生代理感知模块的设计实现，属于信息技术领域。

(二)背景技术：

人机交互已从语言命令阶段(CUI)、图像用户界面(GUI)交互阶段发展到自然和谐的感性用户界面(PUI)交互阶段。多模界面是感性用户界面研究的崭新领域。在多模界面中，用户可以使用自然的交互方式，如语音、手势、眼神和表情等与计算机交互进行协同工作。然而计算机没有脸和身体，无法运用上述的交互方式。因此具有多模表现能力的仿生代理受到了越来越多研究者的关注。利用具有语言会话等多种表现能力的交互式仿生代理的多模表现成为一种有效的人机交互方法。情感在人类决策、感知、学习以及其它一些类似的行为中发挥着重要作用，越来越多的研究者意识到要想真正实现人与仿生代理之间的和谐感性交互，就要将情感因素融入其中。情感能够提供仿生代理所需的自主性，并且是智能的最终来源，也就是说仿生代理应该具有像人类一样识别情感和表达情感的能力。这种基于仿生代理的多模界面很难编码，因为要描述仿生代理的动作、语音、情感表达以及情感识别能力是相当复杂的。为了解决这个问题，国外的一些大学和研究机构开发了用于描述仿生代理行为的语言。但现存的描述语言只能简单的描述仿生代理的动作、语音和情感表达能力，并不能描述情感识别能力。也就是说，现存的语言只能控制仿生代理的被动表现，即根据预先设定的内容进行动作、语音和情感的表达，而没有实现对用户情感的主动感知。因此，设计一种基于仿生代理的多模交互界面描述语言，实现对仿生代理感知能力的描述对情感化人机交互的发展具有重要意义。

(三)发明内容：

本发明的目的是：①针对目前国内在仿生代理描述语言领域的空白及目前国外的仿生代理描述语言只能描述仿生代理的动作、语音和情感表达能力，设计开发了一种基于可扩展标记语言(Extensible Markup Language)的能够描述仿生代理感知能力的多模交互标记语言(Multi-model Interaction Markup Language)，真正实现了仿生代理与用户的情感交互。通过多模交互界面生成软件屏蔽了底层代码，能够使普通用户(非专业程序员)轻松的开发出基于网页的仿生代理多模交互界面。②设计开发表情识别控件用于感知模块，使多模交互标记语言能够方便的调用该控件实现仿生代理的感知能力。

本发明一种基于仿生代理的多模交互界面描述方法(图1所示为多模交互标记语言所描述的交互系统框图，通过视频、音频和文本输入实现仿生代理对用户的情感感知，同时仿生代理可通过动作、表情和语音来表达情感)；包括多模交互标记语言及仿生代理感知模块的设计实现，其中：

该多模交互标记语言是：基于可扩展标记语言(Extensible Markup Language)设计了多模交互标记语言(Multi-model Interaction Markup Language)，定义其元素和属性，用户可以通过元素的组合实现对仿生代理动作、语音、情感表达和情感识别能力的控制。

该仿生代理感知模块是：针对该多模交互语言用于描述基于网页的多模交互界面的特点，设计了表情识别ActiveX控件用于感知模块，该表情识别控件通过摄像头实时捕捉人脸图像，通过专门表情分类器对人脸图像分类进行判决，给出最终表情类型。本控件能够以较高的识别率实现对高兴、生气和惊讶三种基本表情的识别。

本发明一种基于仿生代理的多模交互界面描述方法，其中关于使用多模交互标记语言实现对基于网页的仿生代理多模交互系统的描述，其步骤如下：

步骤1：多模交互标记语言标签(包括元素和属性)定义；

步骤2：根据所定义的元素及属性编写多模交互标记语言代码；

步骤3：对所编写的多模交互标记语言代码进行有效性验证；

步骤4：对经过有效性验证的代码进行解析，将多模交互标记语言代码按照规则转换为Vbscript代码；

步骤5：将Vbscript代码嵌入相应的网页背景中，调用仿生代理模块及感知模块的相关函数实现交互。

本发明一种基于仿生代理的多模交互界面描述方法，其中关于仿生代理感知模块表情识别控件的实现，其步骤如下：

步骤1：采用维奥拉(Viola)提出的积分图像和AdaBoost算法相结合的方法，实现人脸检测器；

步骤2：设选定的3种单一表情高兴、生气和惊讶为e₁，e₂，e₃，平静表情为e₀，对于每种选定的单一表情e_i，以该类表情样本为正例样本，其它各类表情样本及平静样本为反例样本，基于人脸检测器的改进方法训练专门表情分类器h_ei；人脸检测器和专门表情分类器是两种不同的算法，人脸检测器的输出为0或1，0代表非人脸，1代表人脸；专门表情分类器通过下述式(1)将输出改为[0，1]区间的实数，

h_{e} (x) = \frac{Σ_{t = 1}^{T} α_{t} h_{t} (x)}{Σ_{t = 1}^{T} α_{t}} - - - (1)

式中h_e为专门表情分类器，T为循环次数，h_t为每轮选取的误差最小的弱分类器，

α_{t} = \log \frac{1 - ϵ_{t}}{ϵ_{t}},

其中ε_t为h_t的判别误差；

步骤3：最终表情分类器H从各专门表情分类器h_ei的得分中选取最高分，若最高分超过设定的阈值，则判决为获得最高分的专门表情分类器对应的表情，否则判定为平静表情。

最终表情分类器H的表达式如式(2)，最终表情分类器H从3个专门表情分类器h_ei的得分中选取最高分，若最高分超过设定的阈值θ，则判决为获得最高分的专门表情分类器对应的表情，否则判定为平静表情e₀，通过调整阈值θ，可获得较高的识别率。

H (x) = \{\begin{matrix} \arg \max_{i} h_{ei} (x) & if \max_{i} h_{ei} (x) &GreaterEqual; θ \\ e_{0} & otherwise \end{matrix} - - - (2)

式中H为最终表情分类器，h_ei为单一表情e_i的专门表情分类器，e₀为平静表情，θ为设定的阈值，i∈{1，2，3}。

为了方便实现基于仿生代理的多模交互界面描述，根据上述描述方法开发了多模交互界面生成软件，流程框图如图2所示。该软件通过编译系统实现对多模交互标记语言的解析转换，编译系统主要由有效性验证模块、代码解析模块和代码转换模块组成。其中有效性验证模块调用DTD(Document Type Definition)验证用户所编写的多模交互标记语言代码的有效性；代码解析模块通过调用MSXML.DLL中的XML简单接口SAX(Simple APIs for XML)实现对多模交互标记语言代码的解析；代码转换模块将经过解析的代码转换为VbScript代码嵌入到相应的背景网页中。控件模块主要由仿生代理模块和情感识别模块组成。其中仿生代理模块使用了微软公司提供的MsAgent ActiveX控件，而情感识别模块目前主要由表情识别控件组成。

本发明一种基于仿生代理的多模交互界面描述方法，其优点和积极效果在于：

1.该仿生代理多模交互标记语言不仅实现了对多模交互界面中仿生代理动作、语音和情感表达能力的描述，而且实现了对仿生代理感知能力的描述。可以使仿生代理根据用户表情做出恰当的反应，实现主动交互；

2.该仿生代理多模交互标记语言基于可扩展标记语言(Extensible Markup Language)设计，元素及属性简单易记，通过多模交互界面生成软件屏蔽了底层代码，能够使普通用户轻松开发出基于网页的仿生代理多模交互界面；

3.仿生代理感知模块具有很强的扩展性，可以加入语音情感识别控件和文本情感提取控件等，只要根据所开发的控件加入相应的元素及转换法则即可实现扩展，因此可以实现多通道的情感交互。如图3中的备用框所示。

(四)附图说明：

图1多模交互系统框图。

图2多模交互界面生成软件流程框图。

图3多模交互标记语言元素框架。

图4多模交互标记语言感知模块DTD定义。

图5感知模块人脸表情分类器判决。

图6多模交互标记语言示例。

图7多模交互标记语言描述效果1。

图8多模交互标记语言描述效果2。

图3中所列元素及其描述内容说明如下：

(五)具体实施方式：

本发明一种基于仿生代理的多模交互界面描述方法，包括多模交互标记语言及感知模块的设计实现；其中：

一、关于使用多模交互标记语言实现对多模交互系统的描述，其步骤如下：

步骤1：多模交互标记语言元素及属性定义，包括对国外现存的标记语言中相关元素及属性的继承以及感知模块中元素及属性的定义，图3左边白色方框部分为继承自多模表现标记语言(Multi-model Presentation Markup Language)中的元素(DTD定义等详细说明请参考文献：Prendinger H，Descamps S，Ishizuka M，MPML：A Markup Language for Controlling theBehavior of Life-like Characters，Journal of Visual Languages and Computing，Vol.15，No.2，2004.183-203)，其通过调用仿生代理模块中的函数实现了对仿生代理动作、语音及情感表达的控制。右边perception方框及所包含部分为本发明设计实现的感知模块，实现了对仿生代理情感识别能力的描述。图4所示为该部分的DTD定义。<perception>为感知模块的根元素；<emotionrecognition>为情感识别模块的根元素；<face>用来调用表情识别控件，此元素的align属性确定控件在背景网页中的位置；<recognize>元素将比较表情识别控件所返回的结果与其属性result的值，根据不同的结果执行不同的操作；<speech>与<text>为定义的备用元素，用来实现情感语音识别控件与文本情感提取控件的扩展。

步骤3：对所编写的多模交互标记语言代码进行有效性验证；

步骤4：对经过有效性验证的代码进行解析转换。采用微软MSXML.DLL动态链接库中提供的XML简单接口SAX(Simple APIsfor XML)实现对多模交互标记语言代码的解析，同时按照规则实现多模交互标记语言代码到Vbscript代码的转换；

步骤5：将转换的Vbscript代码嵌入相应的网页背景中，调用仿生代理模块及感知模块的相关函数实现交互。

二、关于仿生代理感知模块表情识别控件的实现方法；其步骤如下：

步骤1：采用Viola提出的积分图像和AdaBoost算法相结合的方法(P.Viola，M.Jones.Rapid Object Detection using a Boosted Cascade of Simple Features[A].Proceedings of IEEEConference on Computer Vision and Pattern Recognition(电气和电子工程师协会2001年计算机视觉和模式识别会议)[C].2001.511-518)，实现人脸检测器；

h_{e} (x) = \frac{Σ_{t = 1}^{T} α_{t} h_{t} (x)}{Σ_{t = 1}^{T} α_{t}} - - - (1)

α_{t} = \log \frac{1 - ϵ_{t}}{ϵ_{t}},

其中ε_t为h_t的判别误差；

最终表情分类器H的表达式如式(2)，最终表情分类器H从3个专门表情分类器h_ei的得分中选取最高分，若最高分超过设定的阈值θ，则判决为获得最高分的专门表情分类器对应的表情，否则判定为平静表情e₀，如图5所示，通过调整阈值θ，可获得较高的识别率。

H (x) = \{\begin{matrix} \arg \max_{i} h_{ei} (x) & if \max_{i} h_{ei} (x) &GreaterEqual; θ \\ e_{0} & otherwise \end{matrix} - - - (2)

图6所示为利用多模交互标记语言开发的基于仿生代理的网上购物推荐系统的代码片段。图7和图8所示为该代码片段经过多模交互界面生成软件生成的效果。图6中第4行表示使用仿生代理genie；第7行表示背景网页为main.html；第8-11行仿生代理要求用户以语音或点击图标的方式选择所感兴趣的商品种类(图7所示)；12-17行表示仿生代理接收用户的语音指令，当听到单词“wine”时就跳转到页面wine.html；第19行表示背景网页为wine.html；20-22行表示仿生代理将向用户推荐商品；24-40行表示调用表情识别控件判断用户对商品是否满意，其中27-31行表示当表情识别控件返回高兴的结果时仿生代理认为用户对所介绍的商品满意，并引导用户定购该商品(图8所示)，32-36行表示表情识别控件返回生气的结果时则向用户介绍另外一种商品。

Claims

1、一种基于仿生代理的多模交互界面描述方法，其特征在于：该方法包括多模交互标记语言及仿生代理感知模块两部分；其中：

(1)多模交互标记语言：多模交互标记语言对多模交互系统的描述，其步骤如下：

步骤1：多模交互标记语言元素及属性的定义；

步骤3：对所编写的多模交互标记语言代码进行有效性验证；

步骤5：将转换的Vbscript代码嵌入相应的网页背景中，调用仿生代理模块及感知模块的相关函数实现交互，仿生代理模块实现仿生代理的动作、表情和语音表达，感知模块实现对用户状态的识别，仿生代理模块可根据不同的识别结果做出相应的动作及表情；

其中，该仿生代理模块实现仿生代理的动作、表情和语音表达，感知模块实现对用户状态的识别，该仿生代理模块可根据不同的识别结果做出相应的动作及表情；

(2)仿生代理感知模块：仿生代理感知模块表情识别控件的实现，其步骤如下：

步骤1：采用维奥拉提出的积分图像和AdaBoost算法相结合的方法，实现人脸检测器；

步骤2：设选定的3种单一表情高兴、生气和惊讶为e₁，e₂，e₃，平静表情为e₀，对于每种选定的单一表情e_i，以该类表情样本为正例样本，其它各类表情样本及平静样本为反例样本，基于人脸检测器的改进方法训练专门表情分类器h_ei；人脸检测器和专门表情分类器是两种不同的算法，人脸检测器的输出为0或1，0代表非人脸，1代表人脸；专门表情分类器通过下述式①将输出改为[0，1]区间的实数，

h_{e} (x) = \frac{Σ_{t = 1}^{T} α_{t} h_{t} (x)}{Σ_{t = 1}^{T} α_{t}}

①

α_{t} = \log \frac{1 - ϵ_{t}}{ϵ_{t}},

其中ε_t为h_t的判别误差；

步骤3：最终表情分类器H从各专门表情分类器h_ei的得分中选取最高分，若最高分超过设定的阈值，则判决为获得最高分的专门表情分类器对应的表情，否则判定为平静表情；

最终表情分类器H的表达式如式②，最终表情分类器H从3个专门表情分类器h_ei的得分中选取最高分，若最高分超过设定的阈值θ，则判决为获得最高分的专门表情分类器对应的表情，否则判定为平静表情e₀，通过调整阈值θ，可获得较高的识别率；

H (x) = \{\begin{matrix} \arg \max_{i} h_{ei} (x) & if \max_{i} h_{ei} (x) &GreaterEqual; θ \\ e_{0} & otherwise \end{matrix}

②