CN101187990A

CN101187990A - 一种会话机器人系统

Info

Publication number: CN101187990A
Application number: CNA2007100325111A
Authority: CN
Inventors: 肖南峰
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2007-12-14
Filing date: 2007-12-14
Publication date: 2008-05-28

Abstract

本发明公开了一种会话机器人系统，其摄像头所捕获的人脸图像由人脸跟踪与识别模块进行跟踪与识别，并由人脸表情识别模块识别出表情，语音信号经由语音拾取模块和语音识别模块后识别出语义，所述机器人系统根据人脸的表情和/或语音来了解人的需求，然后通过知识查询模块来形成会话语句，再通过语音生成模块生成语音与人进行交流。该会话机器人系统具有语音识别和理解能力，能够听懂用户的指令，可以应用于学校、家庭、宾馆、公司、机场、车站、码头、会议等地进行教育、聊天、会话、咨询等；此外，它还可以为用户提供宣传介绍、来访接待、办事查询、文秘服务、外语翻译等。

Description

一种会话机器人系统

技术领域

本发明涉及仿人机器人领域，特别涉及一种会话机器人系统。

背景技术

在很多公众场合，设置了一些用于信息查询的终端。其一般是由触摸屏和电脑一起构成。由用户通过触摸来进行查询或者用鼠标、键盘来进行查询，不能直接通过会话来进行信息查询。

发明内容

本发明的目的是提供一种会话机器人系统，可以实现人与机器人系统的直接对话，可应用于公众场合用于咨询。

本发明的会话机器人系统，包括摄像头及其驱动模块、人脸跟踪和识别模块、人脸表情识别模块、语音拾取模块、语音识别模块、知识查询模块、语音生成模块；摄像头所捕获的人脸图像由人脸跟踪与识别模块进行跟踪与识别，并由人脸表情识别模块识别出表情，语音信号经由语音拾取模块和语音识别模块后识别出语义，所述机器人系统根据人脸的表情和/或语音来了解人的需求，然后通过知识查询模块来形成会话语句，再通过语音生成模块生成语音与人进行交流。

上述会话机器人系统还包括3D虚拟人模拟模块，所述3D虚拟人模拟模块在机器人系统生成语音的同时模拟出人的表情及口型。

上述会话机器人系统还包括手势识别模块和手势生成模块，可以方便与聋哑人进行交流。

与现有技术相比，本发明具有以下有益效果：所述会话机器人系统具有很强的视、听、说、记忆功能。只要用户和它对过一次话，它就能记住用户的声音，见过一次面便能认识用户。它可以24小时昼夜地进行简单的对话和服务。所述会话机器人系统具有语音识别和理解能力，它能够听懂用户的指令，具有较强的聊天功能，并且它具有一定的情感。机器人系统掌握了多种不同国家的语言，既可以是导游，又是翻译，并且能够办理各种业务，例如接待报案，查询资料等。

附图说明

图1是会话机器人系统的组成框图；

图2是人脸表情识别模块的示意图；

图3是人脸追踪流程图；

图4是人脸追踪算法框图；

图5是人脸识别过程图；

图6是人脸图像的带循环植物示例((a)图像I，(b)图像I的一棵带循环植物)；

图7是链的示例(a)循环链，(b)δ-链)；

图8是搜索链遇到一个开始点的情况((a)带循环植物i，(b)正在搜索的链(c)修改后的带循环植物i)；

图9是带循环植物不能顺利生成的示例；

图10是一个值域块由另外4个值域块决定；

图11是定义域块中值域块位置的划分；

图12是基于象素的8种旋转变换；

图13是基于块的8种旋转变换；

图14是有限环上点p的a和b因子计算；

图15是语义知识的三元组表示法的示意图；

图16是语义网络图；

图17是基于模式匹配的语音识别的原理方框图；

图18是语音合成模块框架图；

图19是手势识别模块框架图。

具体实施方式

硬件设计

会话机器人系统由1台高性能PC机、2个CCD摄像头、5个直流伺服电机、1块高速双通道图像输入板和1块数据采集卡、1个麦克风、2个扬声器等组成，2个CCD摄像头共有5个自由度，可模仿人的两个眼睛上、下、左、右运动，也可像人的脖子一样作旋转运动，追踪和识别人脸。

摄像头驱动模块

当用户走入2个摄像头的摄像区域时，通过摄像头驱动模块始终把用户分别定位在2个摄像头的取像中心，就像人的一双眼睛。

人脸跟踪和识别模块

人脸跟踪是指在视频流中实时地、连续地估计人脸的位置和方向，主要用于需要连续探测和识别人脸的场所，人脸识别指将检测到的人脸图像的特征信息，与已知人脸的特征信息进行比较，从而判断待识别人脸是否为一个已知人脸的过程，其目的是检验输入图像中的个体的身份。

用户与机器人系统交流过程中，机器人系统会自动地保留与用户的对话记录和用户照片，随着交流次数的增多，机器人系统会逐渐地熟悉用户。通过人脸识别程序模块，就能快速地认出用户，得到用户的信息，就像见到熟悉的朋友一样，识别出人脸后，进一步对表情进行识别，对用户的情感进行分析。人脸跟踪和识别功能模块还能用于公司前台人员的接待和监控，家庭防盗等。

人脸的跟踪

会话机器人系统跟踪人脸的过程如图3所示，人脸的跟踪功能作为较低层的功能主要为目标识别等高层功能服务，这要求跟踪能够快速地完成。本实施例采用以基于颜色的CamShift跟踪算法(Continuously Adaptive Mean Shift)为基础，结合特征点跟踪的方法，对运动目标进行主动跟踪，跟踪算法如图4所示。

(1)基于颜色的CamShift跟踪算法

CamShift可以基于任何从测量集得到有效的概率分布对目标进行跟踪。一般的方法是使用直方图反投影(back project)生成2D的颜色概率分布图。对于人脸以及别的具有特定颜色的目标，颜色对旋转、平移等目标运动相对不太敏感，所以颜色概率分布是一个合适的选择。

①颜色概率分布图

为了最大程度地减少光照变化对跟踪稳定性的影响，首先将图像从RGB色彩空间转换到HSV色彩空间(H表示色调，S代表饱和度，V是亮度)，然后只选择在色调H分量中进行处理。在初始化时，假设图像序列的某幅图像仅包含所要跟踪的目标(若还包含别的目标或背景，需先确定图像的感兴趣区域，使此区域仅包含目标或目标某部分)，对此图像统计H分量的直方图和进行线性变换，将每个箱格对应的值转换到[0，255]的范围。然后对序列后面的图像都在H分量里，将上面得到的直方图当作查找表，计算反投影图。对原始图像的每个像素，以像素值为索引查找对应的颜色直方图箱格，再将直方图的值作为与原图像对应位置的反投影图的像素值。这样，在根据目标得到直方图分布的条件下，反投影图每个像素的值相当于原图像相应位置像素属于目标的概率。目标或与目标有类似颜色的区域，将具有最大的概率值。所以，反投影图实际上就是颜色的概率分布。

②CamShift跟踪算法

首先，产生要跟踪目标的颜色直方图模式，如人脸跟踪中的人脸肤色。之后，对序列的每一帧，原始图像通过上述方法转换成二维的颜色概率分布图。CamShift算法对颜色概率图进行处理，找到在当前帧中指定颜色的目标的中心和大小。同时，当前目标的大小和位置信息用于设置下一帧的搜索窗口的大小和位置。重复上述过程，就可以实现连续地跟踪。具体算法如下：

1、设置图像的感兴趣区域(即包含目标的区域)，用于计算概率分布；

2、选择用于二维Mean SNft的搜索窗口的初始位置，即要跟踪的目标位置；

3、在中心位于Mean Shift搜索窗口、面积稍大于搜索窗口大小的2D区域中，计算颜色概率分布；

4、通过迭代Mean SNft算法，计算概率图的质心，直到收敛或达到一定迭代次数。对于离散2D图像概率分布，搜索窗口内的均值位置(质心)通过下列公式计算。下式中P(x，y)是概率分布图在(x，y)处的像素值，x和y在搜索窗口范围内取值；

(a)零阶矩：

M_{00} = \underset{x}{Σ} \underset{y}{Σ} P (x, y) - - - (1)

(b)x和y的一阶矩：

M_{10} = \underset{x}{Σ} \underset{y}{Σ} xP (x, y),

M_{01} = \underset{x}{Σ} \underset{y}{Σ} yP (x, y) - - - (2)

(c)均值搜索窗口的质心：

x_{c} = \frac{M_{10}}{M_{00}},

y_{c} = \frac{M_{01}}{M_{00}} - - - (3)

5、对于序列下一帧图像(若是没有下一帧图像的话，则结束跟踪过程)，根据步骤4的结果，将搜索窗口中心置于均值位置，并且将窗口大小设置为零阶矩M₀₀(目标大小或面积)的函数，可以根据具体的目标进行调整。2D颜色概率分布图的最大像素值是255，令

s = 2 \sqrt{M_{00} / 256} \cdot

对于人脸跟踪而言，因为人脸近似于椭圆形，则搜索窗口的宽度可以设为2s，高度设为2.4s。为了计算窗口中心，s取接近计算结果的最大奇数。然后再转到步骤3。

通过计算二阶矩，可以得到被跟踪目标的方向以及离质心的长度和宽度：

M_{20} = \underset{x}{Σ} \underset{y}{Σ} x^{2} P (x, y),

M_{02} = \underset{x}{Σ} \underset{y}{Σ} y^{2} P (x, y),

M_{11} = \underset{x}{Σ} \underset{y}{Σ} xyP (x, y) - - - (4)

令

a = \frac{M_{20}}{M_{00}} {- x}_{c}^{2},

b = 2 (\frac{M_{11}}{M_{00}} - x_{c} y_{c}),

c = \frac{M_{02}}{M_{00}} - {y_{c}}^{2},

则方向角为

θ = \frac{1}{2} \arctan (\frac{b}{a - c}) - - - (5)

距离质心的长度l和宽度w分别为

l = \sqrt{\frac{(a + c) + \sqrt{b^{2} + {(a - c)}^{2}}}{2}},

w = \sqrt{\frac{(a + c) + \sqrt{b^{2} + {(a - c)}^{2}}}{2}} - - - (6)

(2)基于特征点的跟踪

①特征点的选择

在基于特征点的跟踪中，特征点选择是非常重要的一步。好的特征点可以提高跟踪算法的鲁棒性，使跟踪算法更好地工作。本实施例采用Shi-Tomasi提出的特征点选取方法，这种方法可以在图像中选取容易跟踪的角点。

设矩阵

G = \underset{W}{Σ} [\begin{matrix} I_{x}^{2} & I_{x} I_{y} \\ I_{x} I_{y} & I_{y}^{2} \end{matrix}],

其中

\frac{&PartialD; I}{&PartialD; x} = I_{x},

\frac{&PartialD; I}{&PartialD; y} = I_{y}

分别是图像灰度值I(x，y)对x和y的偏微分，W是以特征点(x，y)为中心的小图像窗口，大小一般为3×3。λ₁和λ₂是矩阵G的特征值，λ是预先确定的阈值。若λ₁和λ₂的最小值min(λ₁，λ₂)＞λ，即可以认为此特征点适合用于跟踪。同时，可以通过设置特征点之间的最小距离来控制特征点的分布。

错误！未找到引用源。特征点跟踪算法

特征点跟踪采用Bouguet提出的算法，这种方法在Lucas和Kanade提出的迭代式光流算法基础上，结合对图像金字塔的多分辨率表示由粗到精地进行处理，实现鲁棒的特征跟踪。

设I和J是两幅连续的二维灰度图像，I(x，y)和J(x，y)分布表示这两幅图像的灰度值。令u＝[u_x u_y]^T是图像I上的一个特征点，特征点跟踪的目的是在图像J上找到一个位于v＝u+d＝[u_x+d_xu_y+d_y]^T的点，认为I(u)和J(v)是相似的。偏移向量d＝[d_x d_y]^T是在点u处的图像速度，也就是光流场。由于孔径问题，特征点的相似度需要在大小为(2w_x+1)×(2w_y+1)的图像邻域(也称为积分窗口)内进行计算。这样，d是使下面的相似度函数ε取得最小值的向量，即

ϵ (d) = ϵ (d_{x} d_{y}) = Σ_{x = u_{x} - w_{x}}^{u_{x} + w_{x}} Σ_{y = u_{y} - w_{y}}^{u_{y} + w_{y}} {(I (x, y) - J (x + d_{x}, y + d_{y}))}^{2} - - - (7)

典型地，w_x和w_y可取值为2，3，4，5，6，7个像素。在本实施例中，w_x和w_y均取值为5。Lucas-Kanade算法通过离散空间灰度微分计算偏移向量d。根据(7)式，假设向量d足够小，J(x+d_x，y+d_y)用一阶泰勒展开式取代，则有

\frac{&PartialD; ϵ (d)}{&PartialD; d} \approx - 2 Σ_{x = u_{x} - w_{x}}^{u_{x} + w_{x}} Σ_{y = u_{y} - w_{y}}^{u_{y} + w_{y}} (I (x, y) - J (x, y) - [\frac{&PartialD; J}{&PartialD; x} \frac{&PartialD; J}{&PartialD; y}] d) \cdot [\frac{&PartialD; J}{&PartialD; x} \frac{&PartialD; J}{&PartialD; y}] - - - (8)

可通过迭代的方式求解得到d。这种方式可以得到较高的精确度，但受到位移向量不能太大的限制。

使用分层处理的图像金字塔，可以在一定程度上突破这种限制。对图像金字塔的各层都执行迭代式的Lucas-Kanade算法。首先从最高层(分辨率最低)开始进行处理，然后将结果当作反馈传播到下一层，依此类推，一直到原始图像(金字塔0层)得到最后的结果。采用图像金字塔的处理方式后，使Lucas-Kanade算法也能使用在像素运动位移较大的情况，同时保持较高的精确度。

在人脸识别中，由于特征点的跟踪需通过计算光流场，同时对多个特征点进行匹配，计算量相对基于颜色的跟踪算法更大，并且对于人脸的检测也采用了肤色模型，所以在对人脸进行跟踪时，决定以颜色跟踪为主，在判断颜色跟踪失败时，再启用特征点跟踪，直到颜色跟踪恢复正常。

人脸识别

如图5所示，人脸识别过程包括如下步骤：

(1)训练数据库。1)计算各人脸图像的分形编码；2)获得带循环植物；3)计算图像上每块的a和b因子，组成特征向量。向量的每个分量是a和b因子的二元组；

上述步骤(1)所述计算各人脸图像的分形编码、获得带循环植物、计算图像上每块的a和b因子、组成特征向量包含如下步骤：

1)分形编码与编码图像的图形表示。它的基本思想是将输入图像I分割为不重叠的值域块(R_Size×R_Size)和可重叠的定义域块(D_Size×D_Size)。对于图像I中的每个值域块R_i，搜索所有的定义域块，得到与之最匹配的块D_j及相应的联合仿射变换W(sh(iso()))，使D_j通过W可以重建R_i(或者至少得到R_i的一个近似)。变换过程可以表示为iso：D_j→D_j，sh：D_j×D_j...→R_i，且W：R→R。也即R_i＝W(sh(iso(D_j))，式中iso(D_j)表示D_j在8个方向上进行旋转变换，sh()表示几何压缩变换，将D_j的尺寸压缩到与R_i相同。W()表示灰度变换，寻找合适的对比度因子a和亮度平移因子b。计算图像I分形代码的过程就是求每个R_i-D_j对变换信息5元组＜R_i的位置、D_j的位置、W、sh、iso＞的过程。

2)编码图像的图形表示-带循环植物

在分形编码过程中没有空间上压缩(即R_Size＝D_Size)的特殊情况下，编码图像I可以表示为一系列不重叠的带循环植物(circular plant)集合，如图6所示。带循环植物是由尾端的闭环(称为有限环，limit cycle)和由有限环生出的分枝(嫩枝2)组成。植物上的节点1是图像I上的像素点q，每个像素点属于且仅属于一棵带循环植物；点q到点p之间的边表示从q点推出p点的仿射变换W，本实施例忽略了压缩和旋转变换。在这种情况下解码过程是否收敛取决于有限环是否收敛。若收敛，通过计算有限环上像素点的最终收敛吸引子就可以计算植物上所有点的吸引子。只需要2次迭代即可达到使用常规方法迭代n次解码时的效果。图像不同时，n的取值也不同，一般不低于10次。

3)没有空间上压缩时带循环植物的计算

假定输入是编码图像I，输出为图像I的带循环植物，则没有空间上压缩时带循环植物的计算方法如下：

步骤一：任取一像素点x∈图像I，将其标识为开始点，计算从x开始的δ-链，如图7所示。δ-链的计算通过寻找x的前点y来实现，y在与包含x的值域块相对应的定义域块中。找到y将其标上带循环植物的标志(带循环植物一)加入链中。接着继续寻找y的前点，重复这一过程，直到到达点x或某点z(z为已经搜索过的链中某一点)。如果到达点x，说明该链是循环链，如图6所示。取消点x的开始点标志，从点x开始重新遍历该链以获得有限环；如果到达点z，说明点z是δ-链的一个分枝点，此时从点z开始重新搜索该链，以找出有限环；

步骤二：取未标志过的一点p∈图像I，将其标识为开始点计算链，直到下面任一种情况满足为止。(1)该链成为一条δ-链。这种情况下，链属于一棵新的带循环植物，用新的植物标志标识链上的每一点。当然也要像步骤一中描述的那样，找出它的有限环；(2)在该链的搜索过程中，碰到一个已经标识过的点，但该点不是开始点。这种情况下，该链是一条分枝或嫩枝。用碰到点的带循环植物标志标识该链上的每一点；(3)在该链的搜索过程中，碰到一个开始点。这种情况下，该链是包含碰到点的分枝的一部分。取消碰到点的开始点标志(此时，该链的开始点成为碰到点所属带循环植物上一条分枝的开始点)，并用碰到点的带循环植物标志标识该链上的每一点，如图8所示；

步骤三：重复步骤二，直到编码图像I中所有的点都被标志过为止。

4)改进的带循环植物及其计算

当下述充分条件满足时，值域块可以代替单个像素作为基元，成为带循环植物中的点：(1)R_Size＝D_Size；(2)定义域块划分不重叠，定义域池＝值域池；(3)计算分形代码的过程中，将对比度因子控制在(0，1)之间。条件(1)保证了没有空间上的压缩。条件(2)保证了带循环植物上的点都是已定义的值域块。当像素点作为基元时，在带循环植物中表录“边”的仿射变换是从一个像素到另一个像素，即仿射变换的值域和定义域相同。同理，当块作为基元时，也应保证仿射变换的两端取值范围相同。如图9所示，定义域块重叠划分。取未标志过的点R_i，将其标识为开始点，找到与R_i匹配的定义域块D_j。D_j所在位置对应值域块R_m，R_m也是一个没有被标识过的点，将它加入链中，继续寻找它的前点得到D_n。但是D_n所处位置没有定义的值域块与之对应，后续操作无法进行，不能生成带循环植物。条件(3)保证了解码迭代收敛。当某个值域块R_i与定义域池中所有定义域块进行灰度变换得到的对比度因子都不在(0，1)之间时，默认取其相邻前一值域块R_i-1对应的D_j作为R_i的匹配块。

5)有空间上压缩时带循环植物计算

当下述充分条件满足时，值域块可以代替单个像素作为基元，成为带循环植物中的点：(1)g×R_Size×R_Size＝D_Size×D_Size，其中g为倍数(只讨论g＝4)；(2)定义域块划分重叠，在水平或垂直方向上重叠相邻块的一半，即重叠部分为值域块大小；(3)计算分形代码的过程中，将对比度因子控制在(0，1)之间。条件(1)保证了有空间上的压缩。此时与R_i匹配的D_j将是R_i的4倍大小，即R_i将由对应D_j所处位置的4个值域块共同决定，如图6所示。条件(2)保证了带循环植物上的点都是已定义的值域块。显然，当定义域块按照这种方式重叠划分时，与每个定义域块所处位置相对应的4个块，都是已定义的值域块，如图10所示。条件(3)保证了解码迭代收敛。当某个值域块R_i与定义域池中所有定义域块进行灰度变换得到的对比度因子都不在(0，1)之中时，默认取其相邻前一值域块R_i-1对应的D_j作为R_i的匹配块。

在有空间上压缩的情况下，一个值域块由另外4个值域块决定。若直接用其生成带循环植物，它将与带循环植物的结构要求相矛盾。为了解决这个问题，把与一个定义域块所处位置对应的4个值域块分别划分到I、II、III和IV位置上，如图11所示。在生成带循环植物时，对于D_j→R_i，每次只取D_j中一个位置上的块作为R_i对应。这样对于一幅输入图像的分形代码，将有4组带循环植物与之对应。

这样做的理论依据在于：(1)在没有空间上压缩的情况下，图像I的分形代码迭代解码的过程，可以容易地模型化为一个线性系统X^(k)＝A·X^(k-1)+B，式中图像I∈R^M×N矢量化为向量X，X^(k)是第k次迭代得到的图像，X^(k-1)为第k-1次迭代得到的图像，矩阵A∈R^MN×MN的每行只有一个非零元素，B∈R^MN×1是向量。(2)式表明在第k次迭代时，R_i中一个像素X的灰度值由第k-1次迭代后D_j中对应像素的灰度值决定。D_j是与R_i匹配的定义域块；(2)式在有空间上压缩的情况下(g＝4)，R_i中的一个像素由对应D_j中的g个像素决定，(2)式所述的线性系统改为

X^{(k)} = \frac{1}{g} A \cdot X^{(k - 1)} + B,

式中矩阵A的每行有g个非零元素。

矩阵A可以被分解为g个有相同维数的矩阵A_i，i＝1，2，...，g，使得A_i中的每一行只包含一个非零元素，且

Σ_{i = 1}^{g} A_{i} = A \cdot

对应定义域块所处位置4个值域块的仿射变换因子，由于来自同一定义域块对值域块的映射，4个值应是相同的。将A中每行的4个元素按照I、II、III、IV四个位置进行划分，得到A_i，i＝I、II、III、IV。显然，这是满足上述要求的一种划分，每个A_i的维数相同。

6)旋转变换的加入

以块为基元，在有空间上压缩的情况下，为了将旋转变换加入到带循环植物的生成过程中，首先需要解决下面两个问题：(1)以定义域块所处位置对应的值域块，在该定义域块经过8种旋转变换后，值域块中对应的像素会否改变？即原来在x值域块中的像素是否会旋转到y值域块中？值域块内容不变，保证压缩变换的正确进行；(2)值域块内的像素位置是否会改变？值域块内像素位置不变，保证该值域块不会成为图像中未定义的块。

图12给出了一个4×4的定义域块8种旋转变换时的情形。红色方框表示以该定义域块所处位置对应的一个2×2的值域块。1、2、3和4是值域块中像素的编号。对于上述两个问题，从图中容易看出经过旋转，值域块中的像素不会改变，但是像素位置却发生了变换。像素位置变换后得到的新块，在原图像的分形代码中找不到对应，这使得带循环植物无法正常生成。为了解决这个问题，本实施例引入“块旋转变换”，旋转变换把块作为基元，每次旋转只改变块的位置，而块内像素位置保持不变，如图13所示。

(2)训练输入的测试图像I。计算I的分形编码；获得I的带循环植物；计算I的特征向量X_I；

上述步骤(2)所述计算I的分形编码、获得I的带循环植物、计算I的特征向量X_I包含如下步骤：

1)一般情况下带循环植物的计算。在分形编码的计算过程中，有空间上压缩和旋转变换的一般情况下，带循环植物的生成过程如下：

输入为编码图像I；输出是图像I的循环植物。读入图像I的分形代码fractalCode；获得与R_i匹配的定义域块D_j位置序号DNo，计算D_j所处位置对应的4个值域块序号；获得D_j的旋转方向代码rotateType，计算旋转后D_j中I、II、III、IV四个位置处的值域块序号；将其存储于位置数组posArray[i][]中；使用没有空间上压缩时带循环植物的计算方法计算i位置处的带循环植物；存储i位置处的带循环植物；

2)带循环植物上每点a和b因子的计算

假定输入为编码图像I的一棵带循环植物，输出为a和b因子经过计算后的带循环植物。则带循环植物上每点a和b因子的计算步骤如下：

步骤1：计算有限环上各点最终收敛的a和b因子。通过计算从该点开始到该点结束(一次循环)，得到仿射变换序列，如图14所示。经过一次循环迭代W₁0W₂0W₃，点p的参数a＝a₁a₂a₃，因子b＝a₃a₂b₁+a₃b₂+b₃；

步骤2：计算分枝上各点最终收敛的a和b因子。由于分枝点位于有限环上，此时分枝点最终收敛的a和b因子已知。通过计算从分枝点开始到分枝上各点结束的仿射变换序列，可得到分枝上各点最终收敛的a和b因子；

步骤3：计算嫩枝上各点最终收敛的a和b因子。按照带循环植物生成的顺序，先有分枝再有嫩枝和嫩枝上的嫩枝等。按照该顺序计算，在碰到一条没有计算过的嫩枝时，该嫩枝上的嫩枝点一定已经计算过。所以，通过计算从嫩枝点开始到嫩枝上各点结束的仿射变换序列，即可得到嫩枝上各点最终收敛的a和b因子。在有空间上压缩的情况下，图像上一个块的最终收敛a和b因子由其对应的I、II、III和IV四个位置处的带循环植物共同决定，此时取平均值作为最终结果。例如，块R_i在4个位置的带循环植物中，最终收敛的a和b因子分别为(a_I，b₁)、(a_II，b_II)、(a_III，b_III)和(a_IV，b_IV)，则a_i＝(a_I+a_II+a_III+a_IV)/4，b_i＝(b_I+b_II+b_III+b_IV)/4。

带循环植物描述的是植物上点与点之间的内在联系和点内的本质特征。它为每个点提供了两个重要的特征参数a和b因子。设a_i、b_i为点i的a和b因子，则a_i和b_i因子可以通过从有限环开始到达点i结束的一系列仿射变换得到。通过下式，可以决定点i的最终收敛吸引子：x_i＝b_i/(1-a_i)，式中x_i为点i的吸引子。在下面的人脸识别方法中，本实施例使用每个块的a和b因子，作为识别比较的基础。

(3)识别人脸。计算X_I与数据库中所有特征向量间的距离，取最小者作为识别的结果。

上述步骤(3)所述计算X_I与数据库中所有特征向量间的距离，取最小者作为识别结果的流程如图5所示，包含如下步骤：根据欧式距离和分形收敛的概念，定义以下3种距离度量，以便比较块与块之间的相似性。设(a₁，b₁)、(a₂，b₂)分别为块B₁、B₂的a和b因子，它们之间的相似度d定义为：d＝a·d₁+β·d₂+γ·d₃，a+β+γ＝1；式中

d_{1} = \sqrt{{(a_{1} - a_{2})}^{2} + {(b_{1} - b_{2})}^{2}},

d₂＝|A₁-A₂|，d₃＝|(a₁A₂+b₁)-(a₂A₁+b₂)|，A₁＝b₁/(1-a₁)，A₂＝b₂/(1-a₂)。

人脸表情识别模块

传统的人与计算机交互，主要通过屏幕，键盘和鼠标进行，计算机只是机械和重复地执行指令，无法理解人的真实想法。如果缺乏情感理解和表达能力，就很难指望计算机具有类似人一样的智能，也很难期望人机交互做到真正的和谐与自然。由于人类之间的沟通与交流是自然而富有感情的，因此在人机交互的过程中，人们也很自然地期望计算机具有情感能力。

人类的情感既有明显的表达方式，如面部表情，声音语调，肢体动作和姿势；也有一些不明显的表达方式，如心率，体温，呼吸，血压等。用装备有摄像头，麦克风，生物传感器和模式识别工具的计算机，可以获取人类的情感外在表征后，通过建立情感模型来推断人的情感状况。

面部表情是最广泛公认的情感调整形式之一，它是人际交往中信息传达、情感交流不可缺少的手段，也是了解他人主观心理状态的客观指标。人脸是人们在交谈时眼睛所逗留的地方，借助面部表情，才能“察言观色”，在别人的举手投足间洞悉他的内心感受，进行更加有效地交流。

图2是人脸表情识别模块的示意图，主要包括人脸检测(定位)和人脸表情的特征提取及人脸表情识别(分类)，其中各个模块所采用的方法如下。

(1)静态图像人脸表情的特征提取。基于静态图像人脸表情特征提取的方法通常情况下可以分为三类：全局方法、局部解析方法及混合方法。

①全局方法主要通过对人脸整体特征的处理获得人脸表情特征之表征，即图像作为一个整体进行处理后得到特征向量或者特征图像，然后用PCA或多层神经网络获取低维表达方式。

②局部解析方法就是提取置于人脸某些特征部位(前额、嘴巴、眉毛等)窗口内的人脸表情特征。然后进行PCA处理，达到低维数据表达人脸的目的。通过局部解析，一些人脸表情的细节(皱纹等)可以根据高梯度变化部分来提取。

③混合方法是一种是基于特征的方法，通过局部特征的提取构成全局特征，从而提取表情变化向量。该类方法的一个重要特点是通过对特征点的定位获得整体人脸模型，比较典型的方法有点分布模型(Point Distribution Model，PDM)、主动形状模型(Active Shape Model，ASM)、主动外观模型(Active AppearanceModel，AAM)、弹性图匹配等，由于其灵活性，混合方法是目前应用最多的一类方法。

(2)视频序列中人脸表情的特征提取。视频序列中进行人脸表情特征提取总体而言可以分为三种方式：全局方法，局部解析方法和混合方法。其中前二者是底层特征提取，第三者属于高层特征提取。

①全局方法首先对视频序列中的整幅图像进行处理，通过降维等方法获取人脸表情特征。另外一种全局方法则通过计算图像序列中的梯度场或方向场，提取边界特征，采用边界特征的变化作为人脸表情的运动特征完成表情特征的提取。利用一个边界检测滤波器进行方向检测，检测结果采用一个高斯滤波器进行数据压缩，建立人脸的四向(上下左右)特征场，用四向特征场表征人脸表情。

②局部解析方法通过观测人脸中几个局部区域沿时间轴的变化来提取表情运动特征。运动模型(Motion Model)方法，将人脸分割为眼睛、嘴巴和眉毛等5个区域进行运动特征提取。

③混合方法主要是通过对人脸特征点或者Marker的跟踪取得人脸运动数据，为了能够有效地跟踪人脸的运动，特征点或者Marker通常需要标在运动比较明显的地方，有时也可以通过PCA对大量标注的跟踪点进行降维操作取得最能够体现人脸运动的关键特征点。一方面这些关键特征点反映了人脸的轮廓特征，另一方面通过对其运动的跟踪，还可以取得人脸轮廓的变化过程。定义人脸运动的参数，主要分为两类，一类是FACS(FacialAction Coding System，人脸动作编码系统)参数集合，采用了一个自动跟踪器对眉毛、眼睛、鼻子、嘴巴等处的特征点实时跟踪，提取表情运动特征。采用了特征点跟踪与局部皱纹检测相结合的方法判断人脸动作的FACS参数，尝试给出表情的强度。另一类是MPEG-4中的FAP(Facial Animation Parameters，人脸动画参数)参数集合，利用特征点跟踪获取FAP参数，作为人脸表情运动特征。

表情识别

(1)静态图像的表情识别。基于静态图像的表情识别方法只采用了空间信息，因此多采用一些较适于做空域数据处理的识别模型。

①以人工神经网络作为核心的识别算法。有些直接将图像中的某些部分作为输入，应用神经网络进行分类。例如，首先将一幅人脸表情图像分为8×10区域块，用这些区域块的光流变化对整幅图像进行编码，最后采用一个离散Hopfield神经网络对编码进行分类，实现人脸表情的识别。

②SVM也是对静态人脸表情图像进行识别的模型之一。SVM首先通过用内积函数定义的非线性变换将输入空间变换到一个高维空间，在这个空间中求(广义)最优分类面。SVM分类函数形式上类似于一个神经网络，输出的是中间节点的线性组合，每个中间节点对应一个支持向量。

③奇异值分解(Singular Value Decomposition，SVD)也是基于静态图像进行表情识别的方法之一，首先对图像中的人脸采用可变形模型分割出特征人脸，同时建立表情、身份和人脸特征的三阶张量空间表示，然后将表情图像进行HOSVD(HigherOrder SVD，更高阶SVD)分解，提取表情子空间。

(2)视频序列中的人脸表情识别

①基于神经网络方法。Y Tian采用多状态成分模型对人脸各部分(眼睛，下巴，脸颊，皱纹)进行跟踪和建模，并将跟踪得到的结果进行详细的参数描述，构造了一个三层神经网络(含有一个隐层)，用15个特征参数作为输入识别上半部分人脸AU。不仅进行了单个AU的识别，而且还尝试识别了多个AU组合，取得了很高的识别率。

②基于模板的方法。主要分为两种模板，一种是用典型表情作为标准模板，另外一种是根据图像中表情的变化构造时空域模板。采用各种表情的标准模板与待识别表情之间进行最近邻法分类(KNN)。可以首先定义了一套动作参数(AP)，将表情的识别分为两个阶段，先进行基于距离的分类，取其中三个距离最近的候选表情，然后根据在表情特征提取阶段获得的AU，作进一步比较。采用一种控制理论的方法提取图像序列中人脸的时空域运动能量表达，通过跟踪六种不同的基本表情运动过程，建立表情的时空域运动模板，由两个人的时空运动模板取平均得到特定表情的运动能量模板，在识别时，通过计算测试样本的运动能量与标准模板之间的欧氏距离进行分类，获得识别结果。

③基于规则的方法。通过图像运动的局部参数化模型求得刚性运动和非刚性运动参数，通过这些参数构成中间层断言来表示人脸运动特征，每一个中间层断言都是表征为决策规则形式，规则左边是运动参数与特定临界值的比较，右边则是归纳的断言，临界值取决于图像中人脸的大小。

语音拾取模块

通过麦克风拾取语音信号并转换成数字信号后进行语音识别。

语音识别模块

语音识别是计算机通过识别把语音信号转变为相应文本的技术，属于多维模式识别和智能计算机接口的范畴。语音识别的研究目标是让计算机“听懂”人类口述的语言。听懂是不仅将口述语言逐词逐句地转换为相应的书面语言，而且能对口述语言中所包含的要求或询问做出正确的响应。

目前，大多数语音识别系统都采用了模式匹配的原理。根据这个原理，未知语音的模式要与已知语音的参考模式逐一进行比较，最佳匹配的参考模式被作为识别结果。

图17中，待识别语音经过话筒变换成图中语音信号后加在识别系统输入端，先经过预处理。预处理包括语音信号采样、反混叠带通滤波器、去除个体发音差异的设备、环境引起的噪声影响等，涉及到语音识别基元的选取和端点检测问题，有时还包括模数转换器。特征提取部分用于提取语音中反映本质特征的声学参数，常用的特征有短时平均能量或幅度、短时平均过零率、短时自相关函数、线性预测系数、清音/浊音标志、基音频率、短时傅立叶变换、倒谱、共振峰等。训练在识别之前进行，是通过让讲话者多次重复语音，从原始语音样本中去除冗余信息，保留关键数据，再按规则对数据加以聚类，形成模式库。模式匹配是整个语音识别系统的核心，是根据一定的准则以及专家知识，计算机输入特征与库存模式之间的相似度，判断出输入语音的语意信息。

模型训练是指按照一定准则，从大量已知模式中提取表示该模式特征的模型参数。模式匹配是指根据一定准则，使未知模式与模型库中某一模型获得最佳匹配。语音技术所应用中主流的模型训练和模式匹配技术有以下几种：

(1)动态时间规整匹配(Dynamic Time Warping，DTW)算法：时间规整即时间校正，是把一个单词内的时变特征变为一致的过程。在规整过程中，未知单词的时间轴要不均匀地扭曲或变折，以便使其特征与模型特征对比，是一个最为小巧的语音识别算法，其系统开销小，识别速度快，在对付小词汇量的语音命令控制系统中效率较高，但是，如果系统稍微复杂一些，这种算法就显得力不从心。

(2)隐马尔克夫模型(Hidden Markov Model，HMM)：采用语言信号时变特征的参数表示法，由相互关联的两个随机过共同描述信号的统计特性。采用HMM这种技术，要以一个具有有限不同状态的系统作为语音生成模型，每个状态皆可产生有限个输出，直到整个单词输出完毕，状态之间的转移是随机的，每个状态下的输出也是随机的，由于允许随机转移和随机输出，所以HMM能适应发音的各种微妙变化。HMM方法很好地解决了分类以及训练上的困难，维特比(Viterbi)搜索语音识别算法解决了时间轴的规一化问题。HMM是把未知量均匀地伸长或缩短，直到它与参考模式的长度一致时为止，这是一种非常有力的措施，对提高系统的识别精度极为有效。

(3)人工神经网络(Artificial Neural Net ANN)：神经网络的概念也已经被应用于语音识别中，其中最有效的一种方法是使用多层神经网络，多层神经网络不仅输入节点、输出节点，而且有一层或多层隐节点。利用神经网络的记忆功能和快速响应特性，将语音信号提取出来的特征值输入到神经网络中进行长时间训练，得到节点间连接权值。自组织神经网络能完成对输入样本的分类和聚类功能，但在其输出层并不能直观表现出来，需要对其进行模式标识。对于只对某类样本产生响应的神经元，直接将其标识为与该类输入样本所对应的模式类；对于边界神经元则采用上述边界神经元的处理方法标识；对于未对任何输入类产生响应的神经元，直接屏蔽。这样，当新的样本输入时，就能够直观的从输出层读出输入样本属于哪个模式类。

自然语言理解

自然语言是人类日常所用的语言，是人类在其社会生活中发展出来的用来互相交际的声音符号系统，如：汉语、英语、日语等。自然语言是个十分复杂的符号系统，符号的形式和其所表达的意义由社会所约定，而且随着社会的发展而不断变化发展。

自然语言理解作为语言信息处理技术的一个高层次的重要方向，一直是人工智能界所关注的核心课题之一。从微观上看，自然语言理解是自然语言系统到计算机的系统内部表示之间的映射；从宏观上看，它是指计算机能够依照某些的规则来执行人类所期望的某些语言功能。

中文分词

在汉语的书写表达中，字词之间是连着的，各个词语在句子中没有显式的标记。理解汉语的首要任务就是把连续的汉字串分割成词的序列，即中文分词。中文分词可分为以下三种形式：

(1)机械分词。机械分词是基于字符串匹配原理，需要分词词典作为分词的依据，词典的结构以及词典中词的个数直接影响分词的准确度和效率。按照扫描方向可分为正向扫描，反向扫描和双向扫描；按匹配原则可分为最大匹配法和最小匹配法。机械分词算法简单，对词典建立索引，能有效地提高分词速度，但这种分词方法并不能很好地消除歧义，还需和其它方法结合一起，进一步提高分词精度。

(2)统计分词。统计分词是以概率论为理论基础的，将汉语文本中汉字串的出现抽象为一随机过程，其中，随机过程中的参数可以通过大规模的汉语语料库来训练得出。待分词的字串C＝c₁c₂...c_n，输出的词串W＝w₁w₂...w_n，其中m≤n。对于一个特定的C会有多个W对应，统计分词的任务就是在这些W中找出概率最大的一个，即求W，使P(W|C)的值最大。根据贝叶斯公式可以得到P(W|C)＝P(C|W)*P(W)/P(C)，其中P(C)是固定值，从词串恢复到汉字串的概率P(C|W)＝1。由此求解问题可以变换为：在全切分所得的所有结果中求出某个W，使得P(W)为最大。N-gram模型是最基本的统计语言模型，用常用的二元模表示P(W)，即P(W)＝P(w₁)*P(w₂|w₁)*...*P(w_m|w_m-1)。

(3)知识分词。知识分词也称为规则分词，它不仅仅是使用词典的匹配，还运用语法、句法和语义方面的知识进一步分词处理。知识分词需要设计一个语法语义知识库，通过库中所定义的规则来分词处理。汉语的词法句法规则复杂，建立一个适用的知识库难度大，花时间长，因此知识分词至今难以适用于大规模真实文本处理，有待进一步研究。

语义知识的表示

知识是人们在改造客观世界的过程中积累起来的经验及其总结升华的产物。知识是一切智能行为的基础，是人工智能的重要研究内容。要使计算机具有智能，就必须使它具有知识。适当选择和正确使用知识表示方法可以极大地提高人工智能问题求解的效率。从计算机角度看，自然语言中的词和句子只是保存在内存中孤立的符号串常量，没特殊的意义。如果按照某种规则或结构组织这些字符串，转换成便于计算机程序处理的结构，那么计算机程序经过搜索、关联、判断、推理、替代等处理后，再以自然语言表达方式输出，可以认为计算机具备一定的智能性。

(1)逻辑表示法。使用逻辑法表示知识，需将以自然语言描述的知识，通过引入谓词、函数来加以形式描述，获得有关逻辑公式，进而以机器内部代码表示。其中项是描述世界中的物体的常量，包括抽象事物；谓词是描述关系和属性的常量；关系逻辑运算有合取(∧)、析取(∨)、否定(～)、条件(→)、双条件()；量词有全称量词()和存在量词()。采用归结或其它方法进行推理。

(2)产生式表示法。产生式表示法容易描述事实、规则以及它们的不确定性度量。产生式系统由知识库和推理机两部分组成，其中知识库由规则库和数据库组成。

规则库是产生式规则的集合，数据库是事实的集合。规则库是以某个领域知识的存储器，规则是用产生式表示，包含着从初始态到最终解决状态的转换规则。数据库存放输入的事实、外部数据库输入的事实以及中间结果。推理机是控制程序，包含推理方式和控制策略。其推理方式包含三种：正向推理，反向推理和双向推理。

产生式表示形式固定，形式简单，规则键相互较为独立，而且知识库和推理规则相分离，能够独立地的修改知识库，由此产生式表示常用于专家系统建造时所采用。

(3)语义网络表示法。一个语义网络是以有向图的三元组(结点A，弧，标注R，结点B)连结而成，如图15所示。结点表示概念、事物、事件、情况等；弧是有方向的有标注的，方向表示主次，结点A为主，结点B为次，而标注R表示结点A的属性或结点A和结点B之间的关系。

其语义网络如图4所示。语义网络能够表示事物之间的继承、补充、变异、细化等关系，而且直观易懂，很容易用于推理，得到广泛应用。

(4)框架表示法。框架理论的基本观点是人脑以存储大量的典型情景，当人面临新的情景时，就从记忆中选择一个称作框架的基本知识结构，这个框架是以前记忆的一个知识空框，而具体的内容以新的情景而改变，对这空框的细节加工修改和补充，形成对新情景的认识又记忆于人脑中。框架是由若干个结点和关系(统称为槽)构成的网络，表示某一类情景的结构化的一种数据结构。框架由框架名和一些槽组成，每个槽有一些值，槽的值可以是逻辑的、数字的，可以是程序、条件、默认值或是子框架。

框架表示法适应性强、概括性高、结构化良好、推理方式灵活、又能把陈述性知识与过程性知识相结合，但是不易表达过程性知识，所以在具体的系统中，它往往要和其它方法配合使用。

知识库的建立

人工智能问题的求解是以知识为基础的，知识库规模大小一定程度上反映计算机的智能水平，但是人类的知识浩如烟海，表达形式各异，在现在的计算机技术限制下，不能够把这些知识用规则形式全部表达出来。

文字聊天模块的知识库可以分为：词典库、规则库、语义知识库和常识库。

词典库主要用于分词，包含有词，词义，词性，以及词频等信息，同时也可以根据词典库里面的词义来动态生成一些基本的语义知识。

规则库保存中文句子的语法规则，用规则判断句子是否符合语法，也可以根据规则来构造简单的句子，规则可以动态增加。

语义知识库中记录的语义知识主要就是语义关系知识，本质上就是词语之间的巨大的关系网，通过这些关系网可以对词语进行替换，推导出深层次的语义。

常识库可以是人们日常所用的知识，也可以是特殊领域的专业知识，内容最为广泛，其形式可以是文字，图片，声音，视频等。需要花费大量的人力物力去获取、建立常识库以及保证每一条常识的正确性，由此常识库的建立是一个长期的过程。常识库的建立应该独立于程序设计，只要建立相关领域的常识库，就能将聊天、教育和咨询机器人应用于该领域。由于常识库数据量巨大，如何快速保存，建立索引，提高数据检索的速度需要进一步研究。

知识库的建立主要有手工建立，计算机程序自动建立和人机结合建立方式。一些基础库，如词典库，规则库通过手工来建立，也可到互联网上获取、改进已有的知识库资源。而那些常识库，可以先通过计算机从互联网直接获取，再经过人工检查、修改，按照一定格式保存到数据库中。

语音合成模块

语音合成模块的框架图如图18所示。语音合成是将以文本形式或者其它形式存在的信息转换成语音信号，让人通过听觉来获得信息。文语转换系统(Text-To-Speech System，TTS System)，它是一种以文字串为输入的语音合成系统。其输入的是通常的文本字串，系统中的文本分析器首先根据发音字典，将输入的文字串分解为带有属性标记的词及其读音符号，再根据语义规则和语音规则，为每一个词、每一个音节确定重音等级和语句结构及语调，以及各种停顿等。这样文字串就转变为符号代码串。根据前面分析的结果，生成目标语音的韵律特征，合成出输出语音。

基于对合成单元的处理方式的不同，合成算法可以分为三类：①发音参数合成(ArticulatoryParameter Synthesis)②参数分析合成(Parametric Analysis Synthesis)；③波形编码合成(WaveformCoding Synthesis)。其中，前两种方法基本上都是建立在Fant所建立的语音产生的声源-滤波器模型的基础上，分别用不同的物理或数学模型代表语音产生的声源、声道滤波、辐射三个部分。后一种方法本质上属于基于语言学规则的统计模型。

(1)发音参数合成。语音合成的研究始于发音参数合成。该方法是对发音生理机制进行分析，用仪器记录发音器官在发不同语音单元时的各种生理参数，从中归纳出控制合成模型所需的参数系列。本质上讲，这是一种最能反映语音合成本质的系统，但由于对人类发音器官的生理和物理机制以及控制发音器官运动的神经系统并没有完全透彻了解，所以基于发音参数的合成系统仍然处于摸索阶段。

(2)参数分析合成。参数分析合成是对合成单元(多以音节、半音节或音素)的自然语音按一定的方法进行分析，得到该单元的特征参数并存储起来，成为音库；合成时，调用相应合成单元的特征参数并根据一定的规则进行变换后送入合成器，得到合成语音的输出。该类方法由于其灵活有效在无限词汇的合成系统中得到了广泛的应用。

(3)波形编码合成。基于大语料库的波形编码合成方法正得到越来越多的关注。合成语句的语音单元从一个预先录制的、经过编码压缩的语音数据库中挑选出来。只要语音数据库足够大，包括了各种可能语境下的所有语音单元，理论上就有可能通过高效的搜索算法拼接出任何高自然度的语句。由于合成的语音基元都是来自自然的原始发音，合成语句的清晰度和自然度都将会非常高。但该方法的缺点就是语料库过于庞大，因此语音库的构建耗时费力不灵活，且所占存储空间过大，韵律调整的程度极其有限。最优合成单元的选择需要高效率算法才能使系统很流利。

Microsoft Speech SDK的使用

微软Speech SDK 5.1全面支持中文语音应用程序的开发，SDK里提供了语音识别和合成引擎相关组件、应用程序层接口、详细的技术资料和帮助文档。它采用COM标准开发，底层协议都以COM组件的形式完全独立于应用程序层，为应用程序设计人员屏蔽掉复杂的语音技术，充分体现了COM的优点，即语音相关的一系列工作由COM组件完成：语音识别由识别引擎(Recognition Engine)管理，语音合成由语音合成引擎(Synthesis Engine)负责；程序员只需专注于自己的应用，调用相关的语音应用程序接口(SAPI)来实现语音功能。

语音识别的功能由一系列的COM接口协调完成，语音识别的主要接口：

(1)IspRecognizer接口：用于创建语音识别引擎的实例，在创建时通过参数选择引擎的种类。识别引擎有两种：独占(InProc Recognizer)的引擎和共享(Shared Recognizer)的引擎。独占的引擎对象只能由创建的应用程序使用，而共享的引擎可以供多个应用程序共同使用。

(2)IspRecoContext接口：主要用于接受和发送与语音识别消息相关的事件消息，装载和卸载识别语法资源。

(3)IspRecoGrammar接口：通过这个接口，应用程序可以载入、激活语法规则，而语法规则里则定义着期望识别的单词、短语和句子。通常有两种语法规则：听写语法(Dictation Grammar)和命令控制语法(Command and Control Grammar)。

(4)IspPhrase接口：用于获取识别的结果，包括识别的文字、识别了哪一条语法规则等。

语音识别的功能由上面的COM接口共同完成，而且遵守特定的工作程序。概括地说，语音识别的工作原理遵循COM组件的工作原理和一般Windows应用程序的工作原理(消息驱动机制)，具体如下：首先初始化COM；接着要实例化各个语音接口(以特定的顺序)，设置识别语法、识别消息，使识别引擎处于工作状态；当有语法规则被识别后，语音接口向应用程序发出语音识别消息；在识别消息响应函数里，通过IspPhrase接口获取识别的结果；应用程序退出时，卸载COM。

3D虚拟人模拟模块

虚拟人是人在计算机生成空间(虚拟环境)中的几何特性与行为特性的表示，用于与机器人交流时，看到的不再是冷冰冰的对话框界面，而是模拟出来的3D虚拟人形象。3D虚拟人会笑，会生气，表达各种情感，做出普通人的一系列动作，让用户感觉就像跟一个真实的人再聊天。

三维虚拟人合成的可以分为两大类：虚拟人的几何表示方法和虚拟人的运动控制方法。

虚拟人的几何表示

虚拟人的几何表示方法主要研究虚拟人在计算机生成空间中的几何表示，其目的是在计算机生成空间中创建虚拟人的计算图形模型，表示虚拟人在虚拟环境中所占据的几何空间。虚拟人的几何表示必须满足三维虚拟人在外观与行为特性等方面的逼真性要求。包括人体和人体附属物建模方法。人体的几何表示方法是动作控制的基础，并在一定程度上影响了动作控制的手段。目前两个重要的国际标准MPEG-4和VRML2.0都开始支持虚拟人的几何表示。

MPEG-4描述虚拟人的几何模型由一系列的节点组成(nodes)，其顶层节点bodyNode至少包括两个子节点：表示人体运动的参数和表示人体模型定义的参数。人体运动参数包含296个描述虚拟人骨架拓扑结构的参数，这些参数可以应用于MPEG-4兼容的虚拟人体，并生成相同的虚拟人的运动。

VRML中有一个专门的子标准描述虚拟人的模型一H-Anim，它完全遵循VRML的语法，由于VRML(Virtual Reality Modeling Language)被广泛地应用于Internet上创建虚拟的三维空间，所以H-Anim标准正在成为虚拟人网络数据交换最流行的标准。本实施例采用H-Anim标准。

H-Anim(Humanoid Animation Specification)标准是为在线虚拟环境中的虚拟人表示而制定的，标准兼顾了兼容性、适应性和简洁性。H-Anim标准中利用VRML97中的Prototype支持，定义了五种自定义节点以描述虚拟人模型，分别是Humanoid，Joint，Segment，Site和Displaces，其中Joint节点用以构成虚拟人的骨架结构，是虚拟人姿态控制直接操作的对象，用来描述人体骨架的连接性结构-关节。H-Anim标准把整个人体分成1个人体重心、77个关节和47个骨骼段(Segment)，这些元素组成一个完整的虚拟人模型。虚拟人的骨骼段之间由关节相联，人体重心、每个骨骼段以及关节的运动影响与它相联的其他节点的状态。

H-Anim标准的层次结构(Hierarchy)是由嵌套的Joint节点来实现的。以脊柱末端的骸骨关节作为整个骨架结构的根，并由此分别向上、下遍历整个骨架结构，按照遇到各关节的顺序，将所有关节组织成树形的继承结构。树的根节点Root对应整个人体，其他节点对应人体模型的各个关节点。整个人体的运动可以看成是由平移和旋转组成的，即根节点的平移和旋转以及树上各节点围绕父节点的旋转。根节点的平移决定人体模型的位置，旋转决定人体模型的方向，其他各节点的旋转是在以父节点为坐标原点的局部坐标系下的旋转来决定人体模型的运动姿态。据此，本文采用两类坐标系描述人体各肢体的运动：固定在人体根节点处的固定坐标系和附在各关节点处的运动坐标系，后者是随肢体运动而运动的局部坐标系。

每一个Joint节点均是排在其后的Joint节点的父节点，例如：肩关节的节点(R_shoulder)定义中，又包含有肘关节(R_elbow)、前臂节点(R_wrist)作为它的子节点，而在肘节点中又有挠腕关节作为它的子节点等，这样就形成了人体模型的骨架。由于在VRML97中，空间变换是随着对场景树的遍历而累积的，因而在树形的骨架结构中，较靠近树根的Joint节点的旋转变换，会引起其子Joint节点的位置变化，从而很好地模拟了人体骨架的运动特点。

虚拟人的运动控制

虚拟人除了几何属性外，还要有逼真的行为特性。虚拟人的行为特性需要满足物理学的规律，既是一种物质的运动，同时也是人的一种智能活动，反映了人的智能思维。

运动控制技术可以分为两类：底层控制技术和高层控制技术。底层控制技术一般直接指定动作参数，如关节旋转角度和坐标即平时所说的运动控制(Motion Control)。高层控制技术是在底层控制技术的基础上，通过建立行为计算模型和算法控制虚拟人的动作，从而为动画设计师提供在行为层次上控制虚拟人运动的手段，称为行为控制(Behavior Control)。比如，可以通过控制行走的速度和

方向生成虚拟人行走动画。

(1)底层的运动控制模型

①参数关键帧技术(Parametric key frame technology)：关键帧技术是动画控制的传统方法，在早期的Walt Disney的制作室，熟练的动画师设计卡通片中的关键画面，就是所谓的关键帧，然后由一般的动画师完成中间帧的绘制。在计算机动画中，中间帧的生成由计算机来完成，插值法代替了设计中间帧的动画师的工作。在虚拟人动作控制中，关键帧和中间帧都是对人体姿态进行控制，一般采用人体姿态的状态值进行描述，如人体关节角度。为了与传统关键帧方法进行区别，称这种方法为参数关键帧。这种方法非常的直观，不需要太多的专业知识，可以控制人体动作的每个细节。但要求使用者具有丰富的人体动画制作经验和关键帧生成技巧，能够自如地控制虚拟人模型的上百个自由度。

②过程动画(Procedural Methods)：对于一些周期性的人体运动，如走、跑等，可以建立经验公式，通过设置人体的运动特征仁速度、方向等)来控制人体运动。因为这种方法在建模时已经根据真实人体运动提取了特征，所以仿真出的人体运动具有很好的真实感；而且可以通过简单的参数设置，得到一系列相似的运动效果；并且这种方法很适合作为行为建模技术的底层运动实现手段。参数关键帧技术实现虚拟人复杂动作控制非常繁复，而过程动画又不能适用于所有类型的人体运动，因此，人们开发了一些基于物理的运动仿真技术。

③正向和逆向运动学(Forward and inverse kinematics)：正向运动学把末端效应器仁如手或脚)作为时间的函数，关于固定参考坐标系，求解末端效应器的位置。逆向运动学方法在一定程度上减轻了正向运动学方法的烦琐工作，用户通过指定末端关节的位置，计算机自动计算出各中间关节的位置。

④动力学(Dynamics)：动力学方法则是根据人体各关节所受的力与力矩，计算出人体各关节的加速度和速度，最后确定人体运动过程中的各种姿态。与关键帧方法和运动学方法相比，使用动力学方法生成的运动符合物理规律，具有物理逼真性.但该方法要求运动控制人员确定人体各关节所受的力与力矩，通常比较困难。

⑤运动捕捉(Motion Capture)：这种技术使用传感器记录真实人体在三维空间中的活动，然后计算机根据所纪录的数据驱动屏幕上的虚拟人。其最大优点是能够捕捉到人类真实运动的数据，效果非常逼真。这种方法的缺点有：被记录的人体与虚拟人的模型可能存在尺寸上的不匹配；真实人体的动作受传感器的限制；传感器与关节间相对位置的变化。这些因素都会导致记录数据的误差，使虚拟人的动作失真。并且由于捕捉设备的限制，有些运动无法捕获。

(2)高层的行为控制模型

底层的运动控制模型的各种方法可以生成简单的行为，若是要求虚拟人的运动可以根据环境的变化而做出适当的智能处理，就需要一种为人的智能行为建模的方法。在虚拟人领域，很多学者从虚拟人技术的应用角度，提出了对虚拟人行为模型的要求：

①自治性：行为模型应该使虚拟人自主对环境变化做出反应，并且可以依据自身状态和感知到的信息自主做出决策。

②多样的行为效果：虚拟人的行为模型应该对同一种行为产生不同的效果，例如：每个人走路“或多或少”有些不同，及是同一个人重复走一段路也会由于自身状态和环境变化，使行走轨迹“或多或少”有些差异。

③个性：虚拟人的行为模型应该加入个性参数，不仅是单个虚拟人，而且可以应用于群体行为模拟。

④交流功能：虚拟人能够自主与人交流。

⑤学习功能：虚拟人能够不断积累知识，适应复杂的环境。

⑥并行行为：由于虚拟人有多个效应器，可以在同一时间完成多个行为。

知识查询模块

基于自然语言的知识查询是指用户用自然语言在检索系统中对查询目标进行描述，系统从查询文本中自动提取查询条件、查询目标的关键特征等，按一定的规则和算法在数据库中查找满足条件的记录作为查询结果反馈给用户。知识查询需要预先设定一个或者多个特定知识库，如：特定专业课程，产品使用说明，企业的规章制度等。和聊天功能模块不同的是，知识查询擅长于知识问答，而且答案要尽可能准确，对于不能回答的问题，就回答“不知道”，而不是故意转移话题。

知识查询对输入的句子预处理与聊天功能模块是相同的，也需要先进行分词、语法语义分析。为了能对用户的提问做出正确地回答，首先需要知道用户是针对什么进行提问，也就是问题的类型是什么，同时还要明确最终给出的答案应该满足哪些要求。

问题类型的分析

疑问词是确定问题类型及答案要求的主要依据，因此在确定问题类型时，首先要找出问句中的疑问词，根据疑问词分析可能的答案类型。但是各疑问词的辨别能力并不相同：由疑问词“哪里”可知是对“地点”进行提问，它是“专用疑问词”，但如果句中出现“什么”，就不能仅靠疑问词来判断类型，因为很多类型的问题都有这种“通用疑问词”，必须借助于问句中的另一个词(称为“问题焦点”或“疑问修饰词”)才能进行正确的判断。所谓“问题焦点”，就是问题中说明问题主要内容的一个名词或名词性短语，而问题的主要内容就是本实施例想要找到的答案需要满足的条件。那么如何来确定“问题焦点”呢？一般情况下，问题中的第一个名词或名词短语是问题焦点的可能性很大。问答系统的问句一般是由一句话构成，首先取出该句中所有的名词，然后根据疑问词与句中名词的位置信息进行判定，通过对大量问题的观察和统计，可以归纳出含有通用疑问词时问题类型的判断规则如下：

(1)如果疑问词后紧跟着名词或名词短语，则可以将该名词或名词短语看作是问题焦点；

(2)如果疑问词处于句子的末尾，则与该疑问词距离最近的名词或名词短语可看作是问题焦点；

(3)如果疑问词后为动词(如“是、为”等)，则句子中最后出现的名词或名词短语可以看作是问题焦点。

表1是问题类型及答案要求的对应关系。

表1

问题类型	相关的疑问词举例	答案要求
问题类型	相关的疑问词举例	答案要求	询问时间	什么时候，何年，何时	回答事件信息
询问地点	哪里，哪个国家	回答地点信息	询问时间	什么时候，何年，何时	回答事件信息
询问地点	哪里，哪个国家	回答地点信息	询问人物	哪位，谁	回答人物描述信息
询问原因	为什么，为何	必须含原因信息	询问人物	哪位，谁	回答人物描述信息
询问原因	为什么，为何	必须含原因信息	询问数量	多少，几	必须含数量信息
询问一般名词	什么+一般名词	对该名词的描述	询问数量	多少，几	必须含数量信息
询问一般名词	什么+一般名词	对该名词的描述	询问状态	多+形容词	对状态的描述
询问动作	如何/怎样+动词	对动作的描述	询问状态	多+形容词	对状态的描述
询问动作	如何/怎样+动词	对动作的描述	询问定义、事件	怎么回事	必须为摘要形式
询问是否	是不是，是否	回答是或者不是	询问定义、事件	怎么回事	必须为摘要形式

手势识别模块

手语是一种聋人使用的人体运动语言，是由手形、手臂动作辅之以表情、唇动以及其它体势来表达思想的，由符号构成的比较稳定的表达系统，是一种靠动作/视觉交际的特殊语言。健全人(这里特指具有口语能力和听力正常者)与聋人之间的交流除了用口语(小部分受过训练的聋人可以通过口语进行表达)之外，主要通过口语和手语来进行交流。然而，绝大多数健全人看不懂手语，而大部分聋人听不见口语，这使得聋人与听力健全人之间的交流非常困难。手语识别的目标就是通过计算机提供一种有效的、准确的机制将手语翻译成文本或语音使聋人和健全人之间的交流变得更方便、快捷。

手势识别系统可以分为基于视觉(图像)的识别系统和基于佩戴式设备的识别系统。基于视觉的手势识别是利用摄像机作为手语感知输入设备采集手势信息，并进行识别。这种方法价格便宜、设备便于安装，还可兼顾完成对其它所需视频信息的采集，所以非常适用于在智能建筑中普及应用。从识别方法上看，目前手势识别系统主要采用的是隐马尔科夫模型(Hidden Markov Model，简称HMM)、人工神经网络(Artificial Neural Networks，简称ANN)及模板匹配等方法。模板匹配主要用于少量孤立手势的识别。在手势识别中主流的方法是隐马尔科夫模型。图19是手势识别模块框架图。

手势分割

手势分割(Gesture Segmentation)是基于计算机视觉的，是指如何把手势从手图像中分离出来。在复杂背景情况下，手势分割困难重重，还没有成熟的理论作为指导，现有的算法计算度高，效果也不理想。主要有以下几种：①增加限制的方法，如使用黑色和白色的墙壁，深色的服装等简化背景，或者要求人手戴特殊的手套等强调前景，来简化手区域与背景区域的划分。②大容量手势形状数据库方法，如密西根州立大学计算机系的CuiYuntao建立了一个数据库，其中有各种手势类在各个时刻不同位置不同比例的手型图像，作为基于模板匹配识别方法的模板。③立体视觉的方法，如纽约哥伦比亚大学计算机系的Gluckman利用两个不在同一平面镜子的反射图像，计算物体与摄像机之间的距离，根据距离信息分割出人手。

手势建模

手势模型对于手势识别系统至关重要，特别是对确定识别范围起关键性作用。模型的选取根本上取决于具体应用，如果要实现自然的人机交互，那么必须建立一个精细有效的手势模型，使得识别系统能够对用户所做的绝大多数手势做出正确的反应。目前，几乎所有的手势建模方法都可以归结为两大类：基于表观的手势建模和基于3D模型的手势建模。基于表观的手势建模又可分为基于2D灰度图像本身、基于手(臂)的可变形2D模板、基于图像属性和基于图像运动4种。

手势分析

手势分析阶段的任务就是估计选定的手势模型的参数。一般由特征检测和参数估计组成。在特征检测过程中，首先必须定位做手势的主体(人手)。定位技术有：①基于颜色定位：利用限制性背景或者颜色手套。②基于运动的定位：这种定位技术通常跟某些假设一起使用。例如假设通常情况下只有一个人在做手势，并且手势者相对于背景的运动量很小。③基于多模式定位：例如利用运动和颜色信息的融合定位人手，优点是能克服单个线索定位的局限。

不同建模方式参数估计方法不同：基于灰度图像本身的表观模型在最简单的情况下，可以选择模型视图序列作为参数，也可以使用序列里各帧图像关于平均图像的特征分解表示；基于可变形2D模板表观模型的典型参数是模板节点的均值和它们的方差。通过在练集上进行主成分分析(PrimaryComponent Analysis，PCA)可得到模型参数；基于图像属性表观模型的常用参数是手形几何矩，Zemike矩、朝向直方图等。这些图像特征参数易于估计，但是它们对图像中其他非手物体非常敏感；基于运动图像表观模型的参数包括平移运动参数，旋转运动参数，以及图像变形参数等。例如Becker基于宽基线立体视觉跟踪人手及头部运动，然后把人手在3D空间的平移运动速度作为模型参数。

手势识别算法

(1)基于人工神经网络的手势识别。神经网络方法具有分类特性及抗干扰性，具有自组织和自学习能力，具有分布性特点，能有效抗噪声和处理不完整的模式以及具有模式推广能力。然而由于其处理时间序列的能力不强，目前广泛用于静态手势的识别。著名的Fels的GloveTalk系统采用神经网络方法作为识别技术。

(2)基于HMM的手势识别。对于分析区间内的手势信号，通常采取HMM方法进行模型化。一般拓扑结构下的HMM具有非常强的描述手势信号的时空变化能力，在动态手势识别领域一直占有主导地址，如卡内基，梅隆大学的美国手语识别系统及台湾大学的台湾手语识别系统等均采用HMM作为系统的识别技术；然而正是由于HMM拓扑结构的一般性，导致这种模型在分析手语信号时过于复杂，使得HMM训练和识别计算量过大，尤其是在连续的HMM中，由于需要计算大量的状态概率密度，需要估计的参数个数较多，使得训练及识别的速度相对较慢，因而以往手语识别系统所采用的HMM一般为离散HMM。

(3)基于几何特征的手势识别。基于几何特征的手势识别技术是利用手势的边缘特征和手势区域特征作为识别特征，具体实现则有各种不同的做法，如利用Hausdorff距离模板匹配的思想，在距离变换空间内就可以实现基于单目视觉的中国手语字母的手势识别。

Claims

1.一种会话机器人系统，其特征在于包括摄像头及其驱动模块、人脸跟踪和识别模块、人脸表情识别模块、语音拾取模块、语音识别模块、知识查询模块、语音生成模块；摄像头所捕获的人脸图像由人脸跟踪与识别模块进行跟踪与识别，并由人脸表情识别模块识别出表情，语音信号经由语音拾取模块和语音识别模块后识别出语义，所述机器人系统根据人脸的表情和/或语音来了解人的需求，然后通过知识查询模块来形成会话语句，再通过语音生成模块生成语音与人进行交流。

2.根据权利要求1所述的会话机器人系统，其特征在于还包括3D虚拟人模拟模块，所述3D虚拟人模拟模块在机器人系统生成语音的同时模拟出人的表情及口型。

3.根据权利要求1所述的会话机器人系统，其特征在于还包括手势识别模块。

4.根据权利要求3所述的会话机器人系统，其特征在于还包括手势生成模块。

5.根据权利要求1或4所述的会话机器人系统，其特征在于所述摄像头的个数为2个。

6.根据权利要求5所述的会话机器人系统，其特征在于所述摄像头共有5个自由度。