CN101674363A

CN101674363A - 移动设备及通话方法

Info

Publication number: CN101674363A
Application number: CN200910177789A
Authority: CN
Inventors: 刘冬梅
Original assignee: ZTE Corp
Current assignee: ZTE Corp
Priority date: 2009-09-23
Filing date: 2009-09-23
Publication date: 2010-03-17

Abstract

本发明公开了一种移动设备及通话方法，上述移动设备包括：图像获取模块，用于获取用户的人脸图像；表情获取模块，用于从图像获取模块获取的人脸图像中提取用户的表情信息；表情语音查询模块，用于通过将表情信息与表情语音数据库进行匹配，以查找到对应的语音，其中，表情语音数据库用于存储表情与语音的对应关系；语音模块，用于播放表情语音查询模块查找到的语音。本发明使具有语言障碍的人能够实现与正常人进行简单的会话交流，使交流变得更方便、快捷。

Description

移动设备及通话方法

技术领域

本发明涉及通信领域，具体而言，涉及一种移动设备及通话方法。

背景技术

随着通信技术的发展，移动设备(例如，手机)已经成为人们日常工作和生活中必不可少的工具，借助于移动设备，人们无论何时何地都可以方便快捷的找到对方。

随着移动设备的普及，移动设备的输入方法也得到了快速的发展，从最初的键盘输入到触摸屏输入，再到目前的语音输入，方式更加多样化。然而，虽然移动设备的发展日新月异，功能也越来越强大，但是目前大部分移动设备都是为普通人设计的，对于一些无法用语言来表达自己感情的人来说，移动设备无疑只是一个玩具，无法从中享受到任何便利，同时也限制了移动设备的使用范围。这样特殊的人群需要得到人们更多的关注，同时也希望能够与他人进行更多的交流，在发生困难需要寻求帮助时可以更快的得到其他人的帮助。

现有技术中，并未提供无法用语言表达情感的人群所能够使用的移动设备，因此，提供一种无法用语言表达情感的特殊人群能够使用的移动设备是非常必要的。

发明内容

针对相关技术中未提供无法用语言表达情感的人群所能够使用的移动设备的问题而提出本发明，为此，本发明的主要目的在于提供一种移动设备及通话方法，以解决上述问题至少之一。

为了实现上述目的，根据本发明的一个方面，提供了一种移动设备。

根据本发明的移动设备包括：图像获取模块，用于获取用户的人脸图像；表情获取模块，用于从图像获取模块获取的人脸图像中提取用户的表情信息；表情语音查询模块，用于通过将表情信息与表情语音数据库进行匹配，以查找到对应的语音，其中，表情语音数据库用于存储表情与语音的对应关系；语音模块，用于播放表情语音查询模块查找到的语音。

优选地，表情获取模块还用于从人脸图像中提取人脸特征信息，在人脸特征信息与用户特征信息库不匹配的情况下，确定用户是首次通话，其中，用户特征信息库存储有使用过移动设备的用户的人脸特征信息；表情获取模块还用于在表情获取模块确定用户是首次通话的情况下，通过对用户的表情进行采集，将用户的专用的表情与语音的对应关系加入表情语音数据库。

优选地，表情获取模块还用于使用自动跟踪器对用户的预定脸部特征进行跟踪，提取表情的运动特征，并识别表情信息。

优选地，图像获取模块包括：摄像头，用于获取用户的人脸图像；判断子模块，用于验证人脸图像是否为有效的人脸图像；控制子模块，用于在判断子模块验证结果为否的情况下，根据人脸的所在位置及运动状态调整摄像头位置后，控制摄像头再次获取用户的人脸图像直至其为有效的人脸图像。

优选地，表情语音查询模块还用于将查找到的语音组合为语句。

优选地，表情语音数据库存储在本地或者存储在远程服务器上。

优选地，在表情语音数据库存储在远程服务器上的情况下，表情语音查询模块还用于：将用户的表情信息传输至远程服务器进行与表情语音数据库的匹配，接收查找到的语音后将语音传输至语音模块进行播放。

为了实现上述目的，根据本发明的另一个方面，提供了一种通话方法。

根据本发明的通话方法包括：获取用户的人脸图像，并从人脸图像中提取用户的表情信息；通过将表情信息与表情语音数据库进行匹配，查找到对应的语音并播放，其中，表情语音数据库用于存储表情与语音的对应关系。

优选地，获取用户的人脸图像之后，上述方法还包括：从人脸图像中提取人脸特征信息，在人脸特征信息与用户特征信息库不匹配的情况下，确定用户是首次通话，其中，用户特征信息库存储有使用过移动设备的用户的人脸特征信息；在确定用户是首次通话的情况下，通过对用户的表情进行采集，将用户的专用的表情与语音的对应关系加入表情语音数据库。

优选地，提取用户的表情信息包括：使用自动跟踪器对预定脸部特征进行跟踪，提取表情的运动特征，并识别表情信息。

通过本发明，采用对用户的人脸图像进行获取并提取出表情信息，根据表情信息查找对应的语音并播放该语音的方法，解决了相关技术中未提供无法用语言表达情感的人群所能够使用的移动设备的问题，使具有语言障碍的人能够实现与正常人进行简单的会话交流，本发明使交流变得更方便、快捷。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是根据本发明实施例的移动设备的结构框图；

图2是根据本发明实施例的图像获取模块的详细结构框图；

图3是根据本发明实例1的移动设备的组成结构框图；

图4是根据本发明实例1的人脸跟踪识别模块的结构框图；

图5是根据本发明实施例的通话方法的流程图；

图6是根据本发明实例1的图像获取模块的工作流程图；

图7是根据本发明实例4的通话方法的详细流程图。

具体实施方式

功能概述

考虑到现有技术中存在的问题，本发明实施例提供了一种移动设备及通话方法，该方案的处理原则为：从人脸图像中提取人脸特征信息，在人脸特征信息与用户特征信息库不匹配的情况下，确定用户是首次通话，其中，用户特征信息库存储有使用过移动设备的用户的人脸特征信息；在确定用户是首次通话的情况下，通过对用户的表情进行采集，将用户的专用的表情与语音的对应关系加入表情语音数据库。该方案能够使具有语言障碍的人能够实现与正常人进行简单的会话交流，本发明使交流变得更方便、快捷。

下文中将参考附图并结合实施例来详细说明本发明。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

装置实施例

根据本发明实施例，提供了一种移动设备，图1是根据本发明实施例的移动设备的结构框图，如图1所示，该移动设备包括：

图像获取模块12，用于获取用户的人脸图像。

表情获取模块14，连接于图像获取模块12，用于从图像获取模块12获取的人脸图像中提取用户的表情信息。表情获取模块14还可以用于从人脸图像中提取人脸特征信息，在人脸特征信息与用户特征信息库不匹配的情况下，确定用户是首次通话，其中，用户特征信息库存储有使用过移动设备的用户的人脸特征信息，并且，在表情获取模块14确定用户是首次通话的情况下，通过对用户的表情进行采集，将用户的专用的表情与语音的对应关系加入表情语音数据库。优选地，表情获取模块14还可以用于使用自动跟踪器对用户的预定脸部特征进行跟踪，提取表情的运动特征，并识别表情信息。

表情语音查询模块16，连接于表情获取模块14，用于通过将表情信息与表情语音数据库进行匹配，以查找到对应的语音，其中，表情语音数据库用于存储表情与语音的对应关系，其可以存储在本地，也可以存储在远程服务器上，在表情语音数据库存储在远程服务器上的情况下，表情语音查询模块16还用于将用户的表情信息传输至远程服务器进行与表情语音数据库的匹配，接收查找到的语音后将语音传输至语音模块18进行播放。优选地，表情语音查询模块还可以用于将查找到的语音组合为语句。

语音模块18，连接于表情语音查询模块16，用于播放表情语音查询模块查找到的语音。

图2是根据本发明实施例的图像获取模块的详细结构框图，如图2所示，图像获取模块12包括：摄像头22，用于获取用户的人脸图像；判断子模块24，连接于摄像头22，用于验证人脸图像是否为有效的人脸图像；控制子模块26，连接于摄像头22和判断子模块24，用于在判断子模块24验证结果为否的情况下，根据人脸的所在位置及运动状态调整摄像头22位置后，控制摄像头22再次获取用户的人脸图像直至其为有效的人脸图像。

下面将结合实例对本发明实施例的实现过程进行详细描述。

实例1

以下对本发明实施例提供的移动设备进行详细介绍。图3是根据本发明实例1的移动设备的组成结构框图。该实例中的移动设备包括图像获取模块1、人脸跟踪和识别模块2、人脸表情识别模块3、中央控制模块4、表情语音存储模块5和语音模块6。其中，人脸跟踪和识别模块2以及人脸表情识别模块3从功能上来说对应于上述表情获取模块14，中央控制模块4用于对各模块的触发流程进行控制，表情语音存储模块5对应于上述表情语音数据库及表情语音查询模块16，下面对以上模块的功能进行详细说明。

图像获取模块1，主要用于获取人脸图像，为实现获取人脸图像的目的，需要相应的摄像头装置，包括摄像头、驱动装置、识别模块和控制模块，其中，识别模块分别与摄像头以及相应的控制模块相连接，用于接收并识别摄像头捕捉到的图像信息，并将识别后的图像信息传送给控制模块，控制模块与摄像头的驱动装置连接，根据识别模块的图像信息，向驱动装置输出控制指令，通过摄像头的驱动装置来调整摄像头以便更好的获得图像。

人脸跟踪和识别模块2，包括人脸跟踪子模块和人脸识别子模块，人脸跟踪子模块用于在视频中实时地、连续地估计人脸的位置和方向，人脸识别子模块用于将检测到的人脸图像的特征信息与已知人脸的特征信息(对应于上述用户特征信息库中的特征信息)进行比较，从而判断待识别人脸是否为一个已知人脸。对于本实例中的移动设备，只要用户使用该移动设备进行过一次“通话”，通过人脸识别程序模块(即，人脸识别子模块)能快速地识别出用户，识别出人脸后进一步对表情进行识别判断。

图4是根据本发明实例1的人脸跟踪和识别模块的结构框图，人脸跟踪识别模块2主要用于实现以下2个过程：对人脸特征进行提取，并将提取到的特征与特征模板进行匹配，以下进行详细说明：

特征提取的过程具体包括：从获取的人脸图像信息检测定位人脸部分，并在对人脸姿态进行校正后进行特征信息的提取。人脸特征提取过程可以由人脸检测或人脸跟踪子模块、人脸特征定位与校正子模块、人脸特征提取子模块来实现。其中，人脸检测或人脸跟踪子模块用于在动态的场景与复杂的背景中捕捉人脸并分离出人脸，并对被检测到的人脸进行动态目标跟踪；人脸特征定位与校正子模块用于利用关键部位对人脸进行几何校正；人脸特征提取子模块用于对检测校正后的人脸计算提取脸部的本质特征。实现特征提取的各子模块的集合与图像获取模块相连，用于从摄像头获取的理想的人脸信息中提取出特征模板信息。

特征匹配的过程具体包括：将待识别的人脸特征信息与人脸特征数据库(即，用户特征数据库)中所存入的特征信息进行匹配，计算匹配可信度，并判决最佳匹配对象。上述过程通过特征匹配子模块来实现，其中，特征匹配子模块用于对比特征提取子模块提取到的人脸图像特征信息与人脸特征模板数据库(即，用户特征数据库)中保存的已知模板是否匹配。

人脸表情识别模块3，面部表情是被广泛公认的情感表达形式之一，它是人际交往中信息传达、情感交流不可缺少的手段，也是了解他人主观心理状态的客观指标。人脸的表情识别模块3一般包括人脸表情的特征提取子模块以及人脸表情识别子模块，通过表情提取能够体现人脸运动的关键特征点，一方面这些特征点反映了人脸的轮廓特征，另一方面通过对其运动的跟踪可以取得人脸的变化过程。人脸表情的特征提取子模块用于对人脸的表情特征进行提取，可以使用自动跟踪器对预定脸部特征，例如，眉毛、眼睛、鼻子、嘴巴等处的特征点进行实时跟踪，提取表情运动特征。人脸表情识别子模块用于对人脸表情进行识别，表情识别可以采用多种方法，可以使用基于神经网络的方法，采用多状态成分模型对人脸各部分(眼睛、下巴、脸颊、皱纹、嘴巴、眉毛等等)进行跟踪和建模，将跟踪得到的结果进行详细的参数描述，构造一个三层神经网络，将相应的特征参数作为输入识别人脸表情；也可以采用基于模板的方法，根据图像中表情的变化构造时空域模板，对各种表情的标准模板与待识别表情进行最近邻法分类，可以首先定义一套运动参数，将表情的识别分为两个阶段，先进行基于距离的分类，取其中三个距离最近的候选表情，然后根据在表情特征提取阶段获得的信息作进一步比较；或者，还可以采用控制理论的方法提取图像序列中人脸的时空域运动能量表达，通过跟踪不同的基本表情的运动过程，建立表情的时空域运动模板，由两个人的时空运动模板取平均得到特定表情的运动能量模板，在识别时，通过计算测量样本运动能量与标准模板之间的欧式距离进行分类，获得识别结果。需要说明的是，可以根据实际情况灵活配置表情识别方法，本发明实施例对此不作限定。

中央控制模块4，人脸跟踪和识别模块2、人脸表情识别模块3及表情语音存储模块5均与中央控制模块4相连。中央控制模块将识别的人脸与存储器数据库(即，表情语音数据库)中的人脸进行匹配，在非首次使用时可以更快速进入到下一个模块，同时中央控制模块将识别的表情与存储器数据库中的表情语音进行匹配，形成会话词句。

表情语音存储模块5，该模块主要用于实现表情与语音的相互转换，将人的表情信息转换成语音信号，让人通过听觉来获得信息，同一表情可以对应不同的语音，以便和不同国家的人进行沟通交流。这是很庞大的一个数据库，建立表情语音数据库以及保证每一条对应关系的正确性是一个长期的过程，该数据库的建立应该独立于程序设计。如何快速保存、建立索引以及提高数据检索的速度需要持续的研究。在使用的过程中，如果数据库在移动设备所占存储空间太大，可以考虑将该数据库设置在远程服务器上，远程服务器与移动终端之间利用无线收发装置(例如，天线等)进行通信，利用移动终端与远程服务器之间存在的无线数据收发的通道，用户可以将识别到的表情特征，即表情信息传输到远端服务器后在服务器端上利用其上的数据库完成相应的匹配，然后将结果，即对应的语音返回移动终端。

语音模块6，生成连贯的语音通过音频通道进行发送。

实例2

该在实例中，详细描述了语音表情数据库的建立及存取访问过程。

1.建立语音表情数据库

语音表情数据库是由系统开发者事先采集大量的人脸表情进行训练，得到表情模型并存储在存储单元中的，可以提前建立一套标准的表情语音数据对应表。针对不同的用户，还可以在用户首次通话的过程中对该人脸进行采集。在采集阶段，提取用户脸部的特征量与标准模块人脸特征量进行比较，在存储单元建立人脸模型，并建立一套该用户的基本表情语音数据表。这样对于一直使用该移动设备的用户来说，只需要首次使用时建立该数据库，以后再次使用时就不需要引入繁琐的采集过程，方便了用户的使用。

2.对表情数据数据库中的数据进行存取访问

该过程可以通过直接存储访问控制装置来实现，直接存储访问控制装置收到存取访问请求后，向中央控制模块请求总线控制权，中央控制器发送控制信息给直接存储访问控制装置，启动相应功能并将相关信息通过系统总线发给直接存储访问控制装置，同时将总线控制权交予直接存储访问控制装置。中央控制模块包括请求处理单元，用于响应及处理其他模块发送的直接存储器请求，并向控制逻辑单元发送请求；控制逻辑单元用于接收请求处理单元送入的信息，并输出控制信号到总线接口、请求处理单元及数据、地址和控制寄存器单元；数据、地址和控制寄存器单元，用于保存从总线接口获取的相关信息，并将所保存的信息发送到总线接口；总线接口用于负责向系统总线收发信息，直接存储访问控制模块可以与存储器集成在同一芯片上。

方法实施例

根据本发明的实施例，提供了一种通话方法，图5是根据本发明实施例的通话方法的流程图，如图5所示，该方法包括如下的步骤S502至步骤S508：

步骤S502，获取用户的人脸图像。

步骤S504，从人脸图像中提取人脸特征信息，在人脸特征信息与用户特征信息库不匹配的情况下，确定用户是首次通话，其中，用户特征信息库存储有使用过移动设备的用户的人脸特征信息；在确定用户是首次通话的情况下，通过对用户的表情进行采集，将用户的专用的表情与语音的对应关系加入表情语音数据库。

步骤S506，从人脸图像中提取用户的表情信息，具体地，该过程可以使用自动跟踪器对预定脸部特征进行跟踪，提取表情的运动特征，并识别表情信息。

步骤S508，通过将表情信息与表情语音数据库进行匹配，查找到对应的语音并播放，其中，表情语音数据库用于存储表情与语音的对应关系。

下面将结合实例对本发明实施例的实现过程进行详细描述。

实例3

在该实例中，对图像获取模块的工作过程进行详细描述，图6是根据本发明实例1的图像获取模块的工作流程图，图像获取模块将摄像头采集到的人脸图像信息，通过识别模块进行运算处理，判断人脸所在位置以及运动状态并向控制模块传送相应的信息，控制模块再对上述信息进行运算处理，输出对驱动装置中的控制指令，根据控制模块的指令带动摄像头进行自动旋转以调整人脸在摄像头视频窗口的位置，从而可以获得更好的人脸信息。

具体而言，图像获取模块的工作过程包括以下步骤：

步骤601，启动摄像头。

步骤602，将摄像头采集到的图像信息传送到识别模块。

步骤603，识别模块对采集到的图像信息进行分析处理，验证人脸图像信息的有效性，如果识别模块判断摄像头没有采集到有效的人脸图像信息，通过分析运算验证人脸所在的位置以及运动状态，将相应信息输出到控制模块，并进入步骤604，否则，图像获取模块的功能结束，进入人脸跟踪和识别模块进行后续处理。

步骤604，由控制模块根据上述信息运算出相应的指令，使驱动装置驱动摄像头进行旋转，从而将人脸调整到摄像头的视频窗口，并进入步骤602继续采集图像。

实例4

以下结合实例1中的对各模块的介绍，对本发明实施例提供的方法进行详细描述。图7是根据本发明实例4的通话方法的详细流程图。当需要使用无声通话时，用户可以通过按下移动设备中特定的按键进入无声通话模式，其具体步骤如下：

步骤701，触发图像获取单元1，进行人脸图像获取，即，移动设备根据用户操作进入到人脸采集功能。

步骤702，经由人脸跟踪和识别模块2对人脸图像进行跟踪和识别，将跟踪识别出的人脸在人脸表情语音数据库或用户特征信息库中进行搜索，若无该人脸，进入步骤703，否则，进入步骤704。

该过程具体包括以下步骤：

(1)中央控制模块开启人脸跟踪识别模块对人脸图像进行跟踪和识别；

(2)将识别的人脸送入中央控制模块，中央控制模块将其在人脸表情语音数据库或用户特征信息库中进行匹配判断处理，其中，已使用过该移动设备的用户的特征信息可以存储在表情语音数据库中，也可以独立存储于其他数据库，例如，用户特征信息库中，图7中画出的是用户的特征信息存储在表情语音数据库中的情况；

(3)如果匹配成功则继续执行下一个表情识别模块，即，执行步骤704；若未匹配成功，执行步骤703。

步骤703，该用户首次使用该移动设备，此时根据数据库中已经存在的一套标准人脸表情语音的对应关系进行新的数据更新存储，即，建立一套针对该用户的基本表情语音数据库。具体地，移动设备通过采集过程在存储器(表情语音数据库)中建立更新的表情语音数据库。

步骤704，由人脸表情模块3识别出相应的表情送至中央控制模块4。

步骤705，中央控制模块4将识别的表情与存储器数据库，即表情语音数据库中的表情和语音进行匹配，检索到相似度大于一定阈值的表情所对应的语音，形成会话词句。

步骤706，将形成的会话词句通过语音模块6生成连贯的语音，经由音频通道发送给对方。

在该实例中，将图像获取模块所获取的人脸图像由人脸跟踪与识别模块进行跟踪与识别，由人脸表情识别模块识别出表情，然后经由表情语音查询模块将相对应的表情转换为语音信号，然后通过表情语音查询模块来形成会话词句，再通过语音模块生成连贯语音，通过音频通道发送至对方进行交流。

本发明实施例提供的方案引入了人脸表情识别、表情语音数据库，使具有语言障碍的人能够与正常人进行简单的会话交流，使交流变得更方便、快捷。一方面保证了具有语言障碍的人使用移动设备进行通信，使具有语言障碍的用户就能随时随地的与正常人进行简单沟通，遇到困难能及时得到帮助；另一方面使正常人更好的了解语言障碍者的需求。而且，本发明实施例提供的表情识别模块可以直接集成在移动设备中，只要该移动设备能够正常通话并具有标准的语音表情数据库就可以正常使用，不需要对现有的构架进行改变，具有工业实用性。

需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

显然，本领域的技术人员应该明白，上述的本发明的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明不限制于任何特定的硬件和软件结合。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种移动设备，其特征在于，包括：

图像获取模块，用于获取用户的人脸图像；

表情获取模块，用于从所述图像获取模块获取的所述人脸图像中提取所述用户的表情信息；

表情语音查询模块，用于通过将所述表情信息与表情语音数据库进行匹配，以查找到对应的语音，其中，所述表情语音数据库用于存储表情与语音的对应关系；

语音模块，用于播放所述表情语音查询模块查找到的语音。

2.根据权利要求1所述的移动设备，其特征在于，

所述表情获取模块还用于从所述人脸图像中提取人脸特征信息，在所述人脸特征信息与用户特征信息库不匹配的情况下，确定所述用户是首次通话，其中，所述用户特征信息库存储有使用过所述移动设备的用户的人脸特征信息；

所述表情获取模块还用于在所述表情获取模块确定所述用户是首次通话的情况下，通过对所述用户的表情进行采集，将所述用户的专用的表情与语音的对应关系加入所述表情语音数据库。

3.根据权利要求1所述的移动设备，其特征在于，所述表情获取模块还用于使用自动跟踪器对所述用户的预定脸部特征进行跟踪，提取表情的运动特征，并识别所述表情信息。

4.根据权利要求1所述的移动设备，其特征在于，所述图像获取模块包括：

摄像头，用于获取所述用户的人脸图像；

判断子模块，用于验证所述人脸图像是否为有效的人脸图像；

控制子模块，用于在所述判断子模块验证结果为否的情况下，根据人脸的所在位置及运动状态调整所述摄像头位置后，控制所述摄像头再次获取所述用户的人脸图像直至其为有效的人脸图像。

5.根据权利要求1至4中任一项所述的移动设备，其特征在于，所述表情语音查询模块还用于将查找到的所述语音组合为语句。

6.根据权利要求1至4中任一项所述的移动设备，其特征在于，所述表情语音数据库存储在本地或者存储在远程服务器上。

7.根据权利要求6所述的移动设备，其特征在于，在所述表情语音数据库存储在所述远程服务器上的情况下，所述表情语音查询模块还用于：将所述用户的表情信息传输至所述远程服务器进行与所述表情语音数据库的匹配，接收查找到的语音后将所述语音传输至所述语音模块进行播放。

8.一种通话方法，其特征在于，包括：

获取用户的人脸图像，并从所述人脸图像中提取所述用户的表情信息；

通过将所述表情信息与表情语音数据库进行匹配，查找到对应的语音并播放，其中，所述表情语音数据库用于存储表情与语音的对应关系。

9.根据权利要求8所述的方法，其特征在于，获取用户的人脸图像之后，所述方法还包括：

从所述人脸图像中提取人脸特征信息，在所述人脸特征信息与用户特征信息库不匹配的情况下，确定所述用户是首次通话，其中，所述用户特征信息库存储有使用过所述移动设备的用户的人脸特征信息；

在确定所述用户是首次通话的情况下，通过对所述用户的表情进行采集，将所述用户的专用的表情与语音的对应关系加入所述表情语音数据库。

10.根据权利要求8所述的方法，其特征在于，提取所述用户的所述表情信息包括：

使用自动跟踪器对预定脸部特征进行跟踪，提取表情的运动特征，并识别所述表情信息。