CN100511141C - 基于仿生代理的多模交互界面描述方法 - Google Patents
基于仿生代理的多模交互界面描述方法 Download PDFInfo
- Publication number
- CN100511141C CN100511141C CNB2007101764116A CN200710176411A CN100511141C CN 100511141 C CN100511141 C CN 100511141C CN B2007101764116 A CNB2007101764116 A CN B2007101764116A CN 200710176411 A CN200710176411 A CN 200710176411A CN 100511141 C CN100511141 C CN 100511141C
- Authority
- CN
- China
- Prior art keywords
- expression
- bionic
- module
- proxy
- classification device
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- User Interface Of Digital Computer (AREA)
Abstract
本发明一种基于仿生代理的多模交互界面描述方法,其中多模交互标记语言对多模交互系统的描述方法如下:(1)定义多模交互标记语言标签;(2)编写多模交互标记语言代码;(3)对所编写的多模交互标记语言代码进行有效性验证;(4)对经过有效性验证的代码进行解析,将多模交互标记语言代码按照规则转换为Vbscript代码;(5)将转换的Vbscript代码嵌入相应的网页背景中,调用控件模块的相关函数实现交互。其中仿生代理感知模块表情识别控件的实现步骤如下:(1)实现人脸检测器;(2)实现专门表情分类器;(3)最终表情分类器选取各专门表情分类器的最高分,判定表情。该描述方法具有简单易用、可扩展性强的特点,能够使普通用户轻松的开发出基于网页的仿生代理多模交互界面。
Description
(一)技术领域:
本发明涉及一种基于仿生代理的多模交互界面描述方法,尤其是多模交互标记语言(Multi-model Interaction Markup Language)和仿生代理感知模块的设计实现,属于信息技术领域。
(二)背景技术:
人机交互已从语言命令阶段(CUI)、图像用户界面(GUI)交互阶段发展到自然和谐的感性用户界面(PUI)交互阶段。多模界面是感性用户界面研究的崭新领域。在多模界面中,用户可以使用自然的交互方式,如语音、手势、眼神和表情等与计算机交互进行协同工作。然而计算机没有脸和身体,无法运用上述的交互方式。因此具有多模表现能力的仿生代理受到了越来越多研究者的关注。利用具有语言会话等多种表现能力的交互式仿生代理的多模表现成为一种有效的人机交互方法。情感在人类决策、感知、学习以及其它一些类似的行为中发挥着重要作用,越来越多的研究者意识到要想真正实现人与仿生代理之间的和谐感性交互,就要将情感因素融入其中。情感能够提供仿生代理所需的自主性,并且是智能的最终来源,也就是说仿生代理应该具有像人类一样识别情感和表达情感的能力。这种基于仿生代理的多模界面很难编码,因为要描述仿生代理的动作、语音、情感表达以及情感识别能力是相当复杂的。为了解决这个问题,国外的一些大学和研究机构开发了用于描述仿生代理行为的语言。但现存的描述语言只能简单的描述仿生代理的动作、语音和情感表达能力,并不能描述情感识别能力。也就是说,现存的语言只能控制仿生代理的被动表现,即根据预先设定的内容进行动作、语音和情感的表达,而没有实现对用户情感的主动感知。因此,设计一种基于仿生代理的多模交互界面描述语言,实现对仿生代理感知能力的描述对情感化人机交互的发展具有重要意义。
(三)发明内容:
本发明的目的是:①针对目前国内在仿生代理描述语言领域的空白及目前国外的仿生代理描述语言只能描述仿生代理的动作、语音和情感表达能力,设计开发了一种基于可扩展标记语言(Extensible Markup Language)的能够描述仿生代理感知能力的多模交互标记语言(Multi-model Interaction Markup Language),真正实现了仿生代理与用户的情感交互。通过多模交互界面生成软件屏蔽了底层代码,能够使普通用户(非专业程序员)轻松的开发出基于网页的仿生代理多模交互界面。②设计开发表情识别控件用于感知模块,使多模交互标记语言能够方便的调用该控件实现仿生代理的感知能力。
本发明一种基于仿生代理的多模交互界面描述方法(图1所示为多模交互标记语言所描述的交互系统框图,通过视频、音频和文本输入实现仿生代理对用户的情感感知,同时仿生代理可通过动作、表情和语音来表达情感);包括多模交互标记语言及仿生代理感知模块的设计实现,其中:
该多模交互标记语言是:基于可扩展标记语言(Extensible Markup Language)设计了多模交互标记语言(Multi-model Interaction Markup Language),定义其元素和属性,用户可以通过元素的组合实现对仿生代理动作、语音、情感表达和情感识别能力的控制。
该仿生代理感知模块是:针对该多模交互语言用于描述基于网页的多模交互界面的特点,设计了表情识别ActiveX控件用于感知模块,该表情识别控件通过摄像头实时捕捉人脸图像,通过专门表情分类器对人脸图像分类进行判决,给出最终表情类型。本控件能够以较高的识别率实现对高兴、生气和惊讶三种基本表情的识别。
本发明一种基于仿生代理的多模交互界面描述方法,其中关于使用多模交互标记语言实现对基于网页的仿生代理多模交互系统的描述,其步骤如下:
步骤1:多模交互标记语言标签(包括元素和属性)定义;
步骤2:根据所定义的元素及属性编写多模交互标记语言代码;
步骤3:对所编写的多模交互标记语言代码进行有效性验证;
步骤4:对经过有效性验证的代码进行解析,将多模交互标记语言代码按照规则转换为Vbscript代码;
步骤5:将Vbscript代码嵌入相应的网页背景中,调用仿生代理模块及感知模块的相关函数实现交互。
本发明一种基于仿生代理的多模交互界面描述方法,其中关于仿生代理感知模块表情识别控件的实现,其步骤如下:
步骤1:采用维奥拉(Viola)提出的积分图像和AdaBoost算法相结合的方法,实现人脸检测器;
步骤2:设选定的3种单一表情高兴、生气和惊讶为e1,e2,e3,平静表情为e0,对于每种选定的单一表情ei,以该类表情样本为正例样本,其它各类表情样本及平静样本为反例样本,基于人脸检测器的改进方法训练专门表情分类器hei;人脸检测器和专门表情分类器是两种不同的算法,人脸检测器的输出为0或1,0代表非人脸,1代表人脸;专门表情分类器通过下述式(1)将输出改为[0,1]区间的实数,
式中he为专门表情分类器,T为循环次数,ht为每轮选取的误差最小的弱分类器, 其中εt为ht的判别误差;
步骤3:最终表情分类器H从各专门表情分类器hei的得分中选取最高分,若最高分超过设定的阈值,则判决为获得最高分的专门表情分类器对应的表情,否则判定为平静表情。
最终表情分类器H的表达式如式(2),最终表情分类器H从3个专门表情分类器hei的得分中选取最高分,若最高分超过设定的阈值θ,则判决为获得最高分的专门表情分类器对应的表情,否则判定为平静表情e0,通过调整阈值θ,可获得较高的识别率。
式中H为最终表情分类器,hei为单一表情ei的专门表情分类器,e0为平静表情,θ为设定的阈值,i∈{1,2,3}。
为了方便实现基于仿生代理的多模交互界面描述,根据上述描述方法开发了多模交互界面生成软件,流程框图如图2所示。该软件通过编译系统实现对多模交互标记语言的解析转换,编译系统主要由有效性验证模块、代码解析模块和代码转换模块组成。其中有效性验证模块调用DTD(Document Type Definition)验证用户所编写的多模交互标记语言代码的有效性;代码解析模块通过调用MSXML.DLL中的XML简单接口SAX(Simple APIs for XML)实现对多模交互标记语言代码的解析;代码转换模块将经过解析的代码转换为VbScript代码嵌入到相应的背景网页中。控件模块主要由仿生代理模块和情感识别模块组成。其中仿生代理模块使用了微软公司提供的MsAgent ActiveX控件,而情感识别模块目前主要由表情识别控件组成。
本发明一种基于仿生代理的多模交互界面描述方法,其优点和积极效果在于:
1.该仿生代理多模交互标记语言不仅实现了对多模交互界面中仿生代理动作、语音和情感表达能力的描述,而且实现了对仿生代理感知能力的描述。可以使仿生代理根据用户表情做出恰当的反应,实现主动交互;
2.该仿生代理多模交互标记语言基于可扩展标记语言(Extensible Markup Language)设计,元素及属性简单易记,通过多模交互界面生成软件屏蔽了底层代码,能够使普通用户轻松开发出基于网页的仿生代理多模交互界面;
3.仿生代理感知模块具有很强的扩展性,可以加入语音情感识别控件和文本情感提取控件等,只要根据所开发的控件加入相应的元素及转换法则即可实现扩展,因此可以实现多通道的情感交互。如图3中的备用框所示。
(四)附图说明:
图1多模交互系统框图。
图2多模交互界面生成软件流程框图。
图3多模交互标记语言元素框架。
图4多模交互标记语言感知模块DTD定义。
图5感知模块人脸表情分类器判决。
图6多模交互标记语言示例。
图7多模交互标记语言描述效果1。
图8多模交互标记语言描述效果2。
图3中所列元素及其描述内容说明如下:
(五)具体实施方式:
本发明一种基于仿生代理的多模交互界面描述方法,包括多模交互标记语言及感知模块的设计实现;其中:
一、关于使用多模交互标记语言实现对多模交互系统的描述,其步骤如下:
步骤1:多模交互标记语言元素及属性定义,包括对国外现存的标记语言中相关元素及属性的继承以及感知模块中元素及属性的定义,图3左边白色方框部分为继承自多模表现标记语言(Multi-model Presentation Markup Language)中的元素(DTD定义等详细说明请参考文献:Prendinger H,Descamps S,Ishizuka M,MPML:A Markup Language for Controlling theBehavior of Life-like Characters,Journal of Visual Languages and Computing,Vol.15,No.2,2004.183-203),其通过调用仿生代理模块中的函数实现了对仿生代理动作、语音及情感表达的控制。右边perception方框及所包含部分为本发明设计实现的感知模块,实现了对仿生代理情感识别能力的描述。图4所示为该部分的DTD定义。<perception>为感知模块的根元素;<emotionrecognition>为情感识别模块的根元素;<face>用来调用表情识别控件,此元素的align属性确定控件在背景网页中的位置;<recognize>元素将比较表情识别控件所返回的结果与其属性result的值,根据不同的结果执行不同的操作;<speech>与<text>为定义的备用元素,用来实现情感语音识别控件与文本情感提取控件的扩展。
步骤2:根据所定义的元素及属性编写多模交互标记语言代码;
步骤3:对所编写的多模交互标记语言代码进行有效性验证;
步骤4:对经过有效性验证的代码进行解析转换。采用微软MSXML.DLL动态链接库中提供的XML简单接口SAX(Simple APIsfor XML)实现对多模交互标记语言代码的解析,同时按照规则实现多模交互标记语言代码到Vbscript代码的转换;
步骤5:将转换的Vbscript代码嵌入相应的网页背景中,调用仿生代理模块及感知模块的相关函数实现交互。
二、关于仿生代理感知模块表情识别控件的实现方法;其步骤如下:
步骤1:采用Viola提出的积分图像和AdaBoost算法相结合的方法(P.Viola,M.Jones.Rapid Object Detection using a Boosted Cascade of Simple Features[A].Proceedings of IEEEConference on Computer Vision and Pattern Recognition(电气和电子工程师协会2001年计算机视觉和模式识别会议)[C].2001.511-518),实现人脸检测器;
步骤2:设选定的3种单一表情高兴、生气和惊讶为e1,e2,e3,平静表情为e0,对于每种选定的单一表情ei,以该类表情样本为正例样本,其它各类表情样本及平静样本为反例样本,基于人脸检测器的改进方法训练专门表情分类器hei;人脸检测器和专门表情分类器是两种不同的算法,人脸检测器的输出为0或1,0代表非人脸,1代表人脸;专门表情分类器通过下述式(1)将输出改为[0,1]区间的实数,
式中he为专门表情分类器,T为循环次数,ht为每轮选取的误差最小的弱分类器, 其中εt为ht的判别误差;
步骤3:最终表情分类器H从各专门表情分类器hei的得分中选取最高分,若最高分超过设定的阈值,则判决为获得最高分的专门表情分类器对应的表情,否则判定为平静表情。
最终表情分类器H的表达式如式(2),最终表情分类器H从3个专门表情分类器hei的得分中选取最高分,若最高分超过设定的阈值θ,则判决为获得最高分的专门表情分类器对应的表情,否则判定为平静表情e0,如图5所示,通过调整阈值θ,可获得较高的识别率。
式中H为最终表情分类器,hei为单一表情ei的专门表情分类器,e0为平静表情,θ为设定的阈值,i∈{1,2,3}。
图6所示为利用多模交互标记语言开发的基于仿生代理的网上购物推荐系统的代码片段。图7和图8所示为该代码片段经过多模交互界面生成软件生成的效果。图6中第4行表示使用仿生代理genie;第7行表示背景网页为main.html;第8-11行仿生代理要求用户以语音或点击图标的方式选择所感兴趣的商品种类(图7所示);12-17行表示仿生代理接收用户的语音指令,当听到单词“wine”时就跳转到页面wine.html;第19行表示背景网页为wine.html;20-22行表示仿生代理将向用户推荐商品;24-40行表示调用表情识别控件判断用户对商品是否满意,其中27-31行表示当表情识别控件返回高兴的结果时仿生代理认为用户对所介绍的商品满意,并引导用户定购该商品(图8所示),32-36行表示表情识别控件返回生气的结果时则向用户介绍另外一种商品。
Claims (1)
1、一种基于仿生代理的多模交互界面描述方法,其特征在于:该方法包括多模交互标记语言及仿生代理感知模块两部分;其中:
(1)多模交互标记语言:多模交互标记语言对多模交互系统的描述,其步骤如下:
步骤1:多模交互标记语言元素及属性的定义;
步骤2:根据所定义的元素及属性编写多模交互标记语言代码;
步骤3:对所编写的多模交互标记语言代码进行有效性验证;
步骤4:对经过有效性验证的代码进行解析,将多模交互标记语言代码按照规则转换为Vbscript代码;
步骤5:将转换的Vbscript代码嵌入相应的网页背景中,调用仿生代理模块及感知模块的相关函数实现交互,仿生代理模块实现仿生代理的动作、表情和语音表达,感知模块实现对用户状态的识别,仿生代理模块可根据不同的识别结果做出相应的动作及表情;
其中,该仿生代理模块实现仿生代理的动作、表情和语音表达,感知模块实现对用户状态的识别,该仿生代理模块可根据不同的识别结果做出相应的动作及表情;
(2)仿生代理感知模块:仿生代理感知模块表情识别控件的实现,其步骤如下:
步骤1:采用维奥拉提出的积分图像和AdaBoost算法相结合的方法,实现人脸检测器;
步骤2:设选定的3种单一表情高兴、生气和惊讶为e1,e2,e3,平静表情为e0,对于每种选定的单一表情ei,以该类表情样本为正例样本,其它各类表情样本及平静样本为反例样本,基于人脸检测器的改进方法训练专门表情分类器hei;人脸检测器和专门表情分类器是两种不同的算法,人脸检测器的输出为0或1,0代表非人脸,1代表人脸;专门表情分类器通过下述式①将输出改为[0,1]区间的实数,
式中he为专门表情分类器,T为循环次数,ht为每轮选取的误差最小的弱分类器, 其中εt为ht的判别误差;
步骤3:最终表情分类器H从各专门表情分类器hei的得分中选取最高分,若最高分超过设定的阈值,则判决为获得最高分的专门表情分类器对应的表情,否则判定为平静表情;
最终表情分类器H的表达式如式②,最终表情分类器H从3个专门表情分类器hei的得分中选取最高分,若最高分超过设定的阈值θ,则判决为获得最高分的专门表情分类器对应的表情,否则判定为平静表情e0,通过调整阈值θ,可获得较高的识别率;
式中H为最终表情分类器,hei为单一表情ei的专门表情分类器,e0为平静表情,θ为设定的阈值,i∈{1,2,3}。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CNB2007101764116A CN100511141C (zh) | 2007-10-26 | 2007-10-26 | 基于仿生代理的多模交互界面描述方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CNB2007101764116A CN100511141C (zh) | 2007-10-26 | 2007-10-26 | 基于仿生代理的多模交互界面描述方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN101174218A CN101174218A (zh) | 2008-05-07 |
CN100511141C true CN100511141C (zh) | 2009-07-08 |
Family
ID=39422745
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CNB2007101764116A Expired - Fee Related CN100511141C (zh) | 2007-10-26 | 2007-10-26 | 基于仿生代理的多模交互界面描述方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN100511141C (zh) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102221881A (zh) * | 2011-05-20 | 2011-10-19 | 北京航空航天大学 | 基于仿生代理与视线追踪兴趣区域分析的人机交互方法 |
CN103105998B (zh) * | 2012-01-19 | 2015-08-19 | 河南工业大学 | 一种人机交互方法及系统 |
CN106886909A (zh) * | 2015-12-15 | 2017-06-23 | 中国电信股份有限公司 | 用于商品选购的方法和系统 |
CN106131675A (zh) * | 2016-07-19 | 2016-11-16 | 乐视控股(北京)有限公司 | 一种商品推荐方法、装置及系统 |
CN107357416A (zh) * | 2016-12-30 | 2017-11-17 | 长春市睿鑫博冠科技发展有限公司 | 一种人机交互装置及交互方法 |
CN106557745A (zh) * | 2016-11-11 | 2017-04-05 | 吴怀宇 | 基于最大类间方差及伽马变换的人体眼球检测方法及系统 |
-
2007
- 2007-10-26 CN CNB2007101764116A patent/CN100511141C/zh not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
CN101174218A (zh) | 2008-05-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Bird et al. | Chatbot Interaction with Artificial Intelligence: human data augmentation with T5 and language transformer ensemble for text classification | |
CN100511141C (zh) | 基于仿生代理的多模交互界面描述方法 | |
Zhang et al. | Dimensionality reduction-based spoken emotion recognition | |
Gan et al. | DHF-Net: A hierarchical feature interactive fusion network for dialogue emotion recognition | |
Safwat et al. | A brief state of the art of CNLs for ontology authoring | |
Lai et al. | Multimodal sentiment analysis with asymmetric window multi-attentions | |
Dey et al. | Emotion extraction from real time chat messenger | |
Rashid et al. | Text to speech conversion in Punjabi language using nourish forwarding algorithm | |
Jing et al. | A deep interpretable representation learning method for speech emotion recognition | |
CN113918710A (zh) | 文本数据处理方法、装置、电子设备和可读存储介质 | |
CN112257432A (zh) | 一种自适应意图识别方法、装置及电子设备 | |
Abbas et al. | Towards an Arabic Sign Language (ArSL) corpus for deaf drivers | |
Li | Research and implementation of emotional classification of traditional folk songs based on joint time-frequency analysis | |
Li et al. | An attention-based, context-aware multimodal fusion method for sarcasm detection using inter-modality inconsistency | |
Pillai et al. | Machine Learning and Deep Learning in Natural Language Processing | |
Arora et al. | Universlu: Universal spoken language understanding for diverse classification and sequence generation tasks with a single network | |
Afzal et al. | A Comprehensive Survey on Affective Computing; Challenges, Trends, Applications, and Future Directions | |
Vinothkumar et al. | Recent Advancements in Artificial Intelligence Technology: Trends and Implications | |
Takeishi et al. | Wakavt: A sequential variational transformer for waka generation | |
Xie et al. | ReCoMIF: Reading comprehension based multi-source information fusion network for Chinese spoken language understanding | |
Ngo et al. | Identifying user intents in Vietnamese spoken language commands and its application in smart mobile voice interaction | |
Beskow et al. | A model for multimodal dialogue system output applied to an animated talking head | |
Panda et al. | A pronunciation rule-based speech synthesis technique for Odia numerals | |
Raynal et al. | CYNTHIA: An HTML browser for visually handicapped people | |
EP4303716A1 (en) | Method for generating data input, data input system and computer program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
C17 | Cessation of patent right | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20090708 Termination date: 20101026 |