CN101539994B

CN101539994B - 一种手语语音互译系统及手语语音互译方法

Info

Publication number: CN101539994B
Application number: CN2009100220706A
Authority: CN
Inventors: 冯祖仁; 郭文涛; 郑珂; 张翔; 常洪浩
Original assignee: Xian Jiaotong University
Current assignee: Xian Jiaotong University
Priority date: 2009-04-16
Filing date: 2009-04-16
Publication date: 2012-07-04
Anticipated expiration: 2029-04-16
Also published as: CN101539994A

Abstract

本发明公开了一种手语语音互译系统，手势图像采集模块101采集手势的视频数据输入图像预处理模块102进行图像预处理，采用图像特征提取模块103对经图像预处理后的视频数据进行图像特征提取后输出56维特征向量，利用56维特征向量构建手语模型104，连续动态手语识别模块105识别手语模型104，输出识别结果，识别结果经中文发声模块106转化为中文语音；声音信号采集装置采集的声音信号输入Microsoft Speech SDK 5.1的语音识别编程接口转换为文字输出；通过三维建模软件建立三维模型和三维动画；利用Panda插件将三维模型和三维动画信息导出成.x格式文件；利用DirectX 3D加载.x格式的三维模型和动画输出手语动画。

Description

一种手语语音互译系统及手语语音互译方法

技术领域：

本发明属于图像模式识别的应用领域，特别涉及一种图像处理和特征提取的图像和语音相互转化的方法的应用。

背景技术：

手语语音互译系统(Sign Language & Speech Intertranslating System)的研究不仅有助于改善和提高聋哑人的生活学习和工作条件，为他们提供更好的服务，同时也可以应用于计算机辅助哑语教学、电视节目双语播放、虚拟人的研究、电影制作中的特技处理、动画的制作、医疗研究、游戏娱乐等诸多方面。

从手语输入设备来看，手语识别系统主要分为基于数据手套的识别系统和基于视觉(图像)的手语识别系统。

基于视觉的手语识别系统是利用摄像机采集手语信息，并进行识别，该方法的优点是输入设备比较便宜，使用方便。基于数据手套的手语识别系统，是利用数据手套和位置跟踪测量手语在空间运动的轨迹和时序信息，这种方法识别率比较高，缺点是打手语的人要穿戴复杂的数据手套和位置跟踪器，并且输入设备比较昂贵。

目前主要手语图像识别方法有：模板匹配方法、神经网络方法及隐马尔可夫模型(HMM)。模板匹配主要用于少量孤立手语的识别，该方法计算简单、速度快。神经网络方法具有分类特性及抗干扰性，然而由于其处理时间序列的能力不强，目前广泛用于静态手语的识别。HMM是众所周知并广泛使用的建模方法，一般拓扑结构下的HMM具有非常强的描述手语信号的时空变化能力，在动态手语识别领域一直占有主导地址。基于HMM的识别算法里，每种手语有一个HMM。可观察符号对应着模型参数空间里的向量(点)，例如几何矩向量，Zernike矩，特征图像系数向量，或者3D空间的运动速度等等。基于HMM识别技术的优点包括提供了时间尺度不变性，保持了概率框架、以及具有自动分割和分类能力。

一个基于视觉的手语识别系统一般由以下几部分构成。首先，通过一个或多个摄像机获取视频数据流，接着，系统根据手语输入的交互模型检测数据流里是否有手语出现，如果有，则把该手语从视频信号中切分出来，然后，选择手语模型104进行手语分析，分析过程包括特征检测和模型参数估计。在识别阶段，根据模型参数对手语进行分类并根据需要生成手语描述，最后，系统根据生成的描述去驱动具体应用。

国外对手势识别的研究已有很长的历史，1991年富士通实验室完成了对46个手势符号的识别工作；J.Oavis和M.Shah将戴上指尖具有高亮标记的视觉手套的手势作为系统的输入，可识别7种手势；Starner等在对美国手势中带有词性的40个词汇随机组成的短句子识别率达到99.2％；k.Grobel和M.Assam从视频录像中提取特征，采用HMM技术识别262个孤立词，正确率为91.3％；Vogler与Metaxas将两种方法结合用于美国手势识别，交互采用一个位置跟踪器及三个互相垂直的摄像机作为手势输入设备，完成了53个孤立词的识别，识别率为89.9％。

我国的高文、吴江琴等人给出了ANN与HMM的混合方法作为手势的训练识别方法，以增加识别方法的分类特性和减少模型的估计参数的个数，将ANN一HMM混合方法应用于有18个传感器的CyberGlove型号数据手套的中国手势识别系统中，孤立词识别率为90％，简单语句级识别率为92％。

发明内容：

本发明的目的在于克服上述现有技术的缺点，提供一种手语语音互译系统，该系统作为正常人和聋哑人进行正常交流的平台，基于视觉的手语识别子系统1用来把聋哑人的手语转换成声音信号；语音识别模块201用于把正常人的声音信号转换成手语，便于聋哑人的识别。

本发明的目的是通过以下技术方案来解决的：

一种手语语音互译系统，该系统由基于视觉的手语识别子系统1、语音翻译子系统2构成2。

所述基于视觉的手语识别子系统1由手势图像采集模块101、图像预处理模块102、图像特征提取模块103、手语模型104、连续动态手语识别模块105、中文发声模块106组成；手势图像采集模块101采集手势的视频数据输入图像预处理模块102进行图像预处理，采用图像特征提取模块103对经图像预处理后的视频数据进行图像特征提取后输出56维特征向量，利用56维特征向量构建手语模型104，连续动态手语识别模块105识别手语模型104，输出识别结果，识别结果经中文发声模块106转化为中文语音。

所述手势图像采集模块101为利用BaslerA311fc的SDK开发的基于1394总线的BaslerA311fc工业摄像头的视频采集程序模块。

所述图像预处理模块102对输入图像进行了平滑预处理和自适应阈值的二值化预处理；其中平滑预处理是对噪声图像使用中值滤波法，自适应阈值的二值化预处理是指根据图像处理的目标要求，把多灰度级的图像变成只有两个灰度级的图像，设图像f(x，y)的灰度值范围在[a，b]，二值化阈值设为T(a≤T≤b)，则二值化处理的公式为：

g(x，y)是二值图像，通常我们用1来表示对象物，用0来表示背景区域。

5、一种手语语音互译系统，其特征在于：所述图像特征提取模块103基于手语图像的边界特征和手运动轨迹特征，把两只手的面积大小、两只手和脸的相对坐标、归一化的傅立叶描述子作为特征向量，选取每一帧视频图像的双手轮廓的边缘特征和双手与人脸的距离以及双手的横纵坐标作为输入，形成56维特征向量，56维特征向量经预处理后，形成HMM的观察序列。

所述手语模型104采用HMM刻画动态手语。

所述连续动态手语识别模块105使用Forward-backward算法遍历所有HMM，求出输入序列对每个HMM模型的出现概率，然后选出概率最大的HMM作为识别结果。

所述语音翻译子系统2由语音识别模块201和手语动画模块202组成，语音识别模块201输出的信号经手语动画模块202处理后输出手语图像。

所述语音识别模块201由声音信号采集装置和语音识别编程接口组成，声音信号采集装置采集的声音信号输入Microsoft Speech SDK 5.1的语音识别编程接口转换为文字输出；通过三维建模软件建立三维模型和三维动画；利用Panda插件将三维模型和三维动画信息导出成.x格式文件；利用DirectX 3D加载.x格式的三维模型和动画输出手语动画。

一种手语语音互译系统的手语语音互译方法，按照以下步骤：手势图像采集模块101采集手势的视频数据输入图像预处理模块102进行图像预处理，采用图像特征提取模块103对经图像预处理后的视频数据进行图像特征提取后输出56维特征向量，利用56维特征向量构建手语模型104，连续动态手语识别模块105识别手语模型104，输出识别结果，识别结果经中文发声模块106转化为中文语音；声音信号采集装置采集的声音信号输入Microsoft Speech SDK 5.1的语音识别编程接口转换为文字输出；通过三维建模软件建立三维模型和三维动画；利用Panda插件将三维模型和三维动画信息导出成.x格式文件；利用DirectX 3D加载.x格式的三维模型和动画输出手语动画。

本发明所采取的方法使用方便，识别率高，使用的设备经济便宜，特备适用于在正常人和聋哑人的交流中大范围的推广。

附图说明：

图1为本发明的手语语音互译系统示意图；

图2为本发明的基于视觉的手语识别子系统示意图；

图3为本发明语音翻译子系统示意图；

图4为本发明的特征向量的提取过程示意图；

图5为本发明特征提取处理效果图；

图6为本发明多线程优化前程序各子函数时间性能分析图；

图7为本发明的多线程优化后各子函数时间性能分析图

具体实施方式：

下面结合附图对本发明做进一步详细描述：

参见图1、2、3、4、5、6，根据正常人和聋哑人双向交互的要求，本发明把整个系统系统分为基于视觉的手语识别、语音翻译两个子系统来实现。

一种手语语音互译系统，该系统由基于视觉的手语识别子系统1、语音翻译子系统2构成。

所述手语模型104采用HMM刻画动态手语。

采集图像信息：本发明采用了基于1394总线的BaslerA311fc工业摄像头。由于一般的图形库例如OPenCV没有相应的视频采集代码，本发明以Visual Stdio6.0为平台，利用BaslerA311fc的SDK开发了基于1394总线的BaslerA311fc工业摄像头的视频采集程序模块。该模块能够采用了多线程技术，能够满足实时的要求

图像预处理：图像预处理的目的是去除图像中的噪声，加强图像中的有用信息，并对由输入方式或其他原因造成的退化现象进行复原。本发明对输入图像进行了平滑、自适应阈值的二值化预处理。对图像进行平滑处理，这可在空域或频域中进行，在平滑噪声时应尽量不损害图像中边沿和各种细节。本发明采用的平滑技术是对噪声图像使用中值滤波法，是一种非线形的图像平滑方法，它对一个滑动窗口的诸像素灰度排序，用中值代替窗口中心像素原来的灰度值(若窗口中有偶数个像素，则取两个中间值的平均)。中值滤波有以下优点：一、降低噪声的效果比较明显；二、在灰度值变化较小的情况下可以得到很好的平滑处理；三、降低了图像边界部分的模糊程度。而且可以多个像素并行处理，因此可实现实时或准实时处理。对图像进行二值化是指根据图像处理的目标要求，需要把多灰度级的图像变成只有两个灰度级的图像。设图像f(x，y)的灰度值范围在[a，b]，二值化阈值设为T(a≤T≤b)，则二值化处理的一般式为：

g(x，y)是二值图像，通常我们用1来表示对象物(白色区域)，用0来表示背景区域(白色区域)。

预处理和图像特征提取：在模式识别中，如何提取特征是相当重要的。本发明采用的特征提取方法主要建立在手语图像的边界特征和手运动轨迹特征上：把两只手的面积大小、两只手和脸的相对坐标、归一化的傅立叶描述子作为特征向量。其中两只手和脸的相对坐标、两只手的面积和分别描述了两只手的(x，y，z)。采用手和脸的相对坐标就可以防止手语识别中因为人跟摄像头的位置不同造成误差。手的面积简单的增加了一些三维信息可以解决手语中一些手垂直于胸前运动的手语识别率低的问题，使识别准确率有所提高。归一化的傅立叶描述子可以很清楚的描述手形特征。经过尝试，本系统选取每一帧视频图像的双手轮廓的边缘特征和双手与人脸的距离以及双手的横纵坐标作为输入，形成56维特征向量。其中前五十项是双手轮廓的归一化傅立叶描述子、两项是归一化的手与脸轮廓的距离、后四项是左右双手的横纵坐标。归一化的傅立叶描述子基本上每一项都是小于1的，但是左右手和脸的相对横坐标的绝对值基本上都是0到320之间(单位是像素)，相对纵坐标是绝对值是0-480，手的面积一般情况下都是30000-600000之间。为了能够用这些特征全面准确的描述出每一帧手信息，我们必须对特征向量进行预处理。后面的矢量量化采用了基于欧氏距离的LBG聚类算法，所以必须让后面的6项和前面的傅立叶描述子值大小不要相差太大，否则聚类就会严重失衡。因此在实验的过程中，采取给左右手的横坐标值除以320，坐标除以480，面积除以60000，这样特征向量的值就不会相差特别大。基于视觉的手语识别系统中识别部分主要方法是HMM，为了能够产生观察序列并压缩数据，采用了矢量量化来解决这一问题。矢量量化是指将若干个标量数据组构成一个矢量，然后在矢量空间给以整体量化，从而压缩了数据而不损失多少信息。本发明采用的是基于欧氏距离的方法。首先，通过采集大量的样本特征向量(3000组)进行聚类形成码本；这样，识别时每一帧图像的特征向量经过解码都被量化成为了一个一维的观察值，多个观察值就形成了刻画动态手语的观察值序列，这样的观察值序列就是HMM的输入。主要的处理过程如下图所示：

手语模型104构建：本系统采用隐马尔可夫模型(Hidden Markov Model，简称HMM)来刻画动态手语。HMM是一个双重随机过程，是由马尔可夫链演变而来的，包括马尔可夫链和一般随机过程两个组成部分。其中马尔可夫链描述状态的转移，用转移概率描述；一般随机过程描述状态与观察序列间的关系，用观察值概率描述。对于HMM，其的状态转换过程是不可观察的，因而称之为“隐”马尔可夫模型。首先需要确定每个模型的状态个数。不同长度的手语适用的状态个数也是不同的，长的手语产生的观察序列长，需要更多的状态个数才能得到更准确的刻画，而短的手语状态个数也应当相应的少，这样，长度不同的手语区分度也更大。状态结点的个数决定了模型中所记录的特征帧的数目。由于构成各个词的基本手势数不同，各词的模型也应包括不同数目的状态结点，因此有必要根据数据的变化情况将训练数据分成若干个基本手势段，使得同一个基本手势的数据尽量分在同一段内，这里的分割目的是使同一段内的数据的均方差尽量小，本发明采用动态规划的递推的分割算法，其基本思想如下：给定观察序列O＝O₁O₂...O_T，给定段数K，为了使各段内的均方差最小，定义如下变量：

Cov(k，O(t))：第t帧是第k段的分界终点时，前k段各段内的最小的均方差之和；

B(k，O(t))：当第t帧是第k段的分界终点时，前一段的分界点；

D(O(j)，O(t))：从第j帧到第t帧的数据的均方差；

由此易得如下递推式：

Cov (k, O (t)) = \min_{1 \leq j \leq t - 1} {Cov (k - 1, O (j)) + D (O (j + 1)), O (t))}, k = 1,2, . . ., K

B (k, O (t)) = \underset{1 \leq j \leq t - 1}{\arg \min} {Cov (k - 1, O (j)) + D (O (j + 1)), O (t))}, k = 1,2, . . ., K

在算出整个观察序列O₁O₂...O_T所分各段的最小均方差之和以后，再根据B(k，O(t))回溯出各段分界点。

根据这些关系可以导出下列分个算法

1.计算：

Cov(1，O(t))＝D(O(1)，O(t))，t＝1，2，...，T

2.对t＝2，3，...，T，根据式2-7、2-8可由Cov(k，O(t-1))求Cov(k，O(t))，并求出B(k，O(t))；

3.由k＝K出发进行逆推运算，求出各段分割点S(k)：S(K)＝T

S(k)＝B(k+1，O(S(k+1)))，k＝(K-1)，(K-2)，...，1

在此基础上，可将给定数据依次分为1段，2段，......，直至各段均方差都小于给定阈值，或分为最大段数停止。最后所分得的各段的均方差即为HMM的参数B的初值。对于隐马尔科夫模型的参数选择和优化问题，目前使用较广的处理方法是Baum-Welch估计算法。该算法是一种迭代算法，初始时刻由用户给出各参数的经验估计值，通过不断迭代，使个参数逐渐趋向更为合理的较优值。如果模型比较复杂无法给出经验估计值，则可以把初始值设为随机数，这样可以使得模型训练更具有一般性。经Baum-Welch算法训练结束后，记录该词所对应模型的状态结点数。在进行识别时，根据各个模型的状态数来判定该模型的终结点。由于状态结点数是由基本手势数决定的，经过训练后，状态结点能更好地表示词中所包含的手势的变化。

其次进行模型训练。HMM的训练就是不断调整内部参数λ＝(A，B，π)的值，进而使得所得给定模型参数情况下输出序列O＝O₁O₂...O_T的出现概率P(O|λ)最大。本发明的训练算法采用的是Baum-Welch迭代算法使得P(O|λ)的值趋向最大。在训练的过程中每个模型需要一定数量的样本进行数次迭代训练，以使得模型参数收敛到使得P(O|λ)最大的值。多个样本的训练通过参数重估公式解决，训练的准则采取最大似然(ML)准则。为了体现一般性，模型参数的初始值采用随机数生成。本发明中的每个手语都做了5个样本，第一次训练的模型初始值随机生成，然后把第一次训练得到的HMM作为下次训练的初始值，往下依次迭代，更新模型参数。经过三到四次迭代后HMM的模型已经基本区域收敛，再继续迭代对模型的改进的效果也不再明显。

动态识别：连续的动态手语识别就是找出对输入的观察序列的匹配概率最大的模型，这是一个搜索问题，搜索空间是由所有训练好的HMM。本发明采用Forward-backward算法来进行。Forward-backward算法用来计算给定模型参数情况下输出序列O＝O₁O₂...O_T的出现概率P(O|λ)。使用Forward-backward算法动态识别的过程就是遍历所有HMM，求出输入序列对每个HMM模型的出现概率P(O|λ)，然后选出概率最大的HMM作为最佳匹配模型，这个模型即为识别结果。考虑到本系统不需要输出模型的最优相关序列，而且Forward-backward算法得到的概率更能体现观察序列和模型的匹配度。

语音翻译：语音翻译模块的功能是将正常人的口语转换成三维虚拟人的手语，以便聋哑人可以通过三维虚拟人的手语动画来理解正常人的口语。

具体方案通过以下步骤实现：

1)正常人的口语经过语音识别模块201，转变成文字。

2)文字通过语法分析，转变成基本的手语单词。

3)利用三维虚拟人将手语单词按照手语语序以动画的形式表现出来。

这里主要涉及两个模块的实现一是语音识别模块201，另一个是手语动画模块202，下面介绍两大模块的实现。

语音识别模块201的实现

语音识别模块201的实现主要借助于Microsoft Speech SDK 5.1的语音识别编程接口。

手语动画的实现

我们选择DirectX 3D为我们的动画编程工具。

DirectX是微软公司开发的运行于计算机平台的多媒体控制处理引擎。对于程序员来说，DirectX 3D是一套非常优秀的高性能三维图形程序可编程接口，它对三维图形程序的开发提供了全方位的支持。

在实际的三维图形程序中，需要构建的三维模型一般来说都是很复杂的，比如一架飞机的模型，一辆坦克的模型等。利用程序代码构建这样的三维模型是非常困难的。因此，通常情况下三维图形开发接口需要与其它功能强大的三维建模软件结合起来。先利用三维建模软件(如3DS Max，Maya等)制作出复杂物体的模型，保存到相应的模型文件中，然后三维图形开发接口再将保存到文件中的模型加载到程序中进行显示。.x文件就是这样一种模型文件。

为了能够实现手语动画，本发明采用以下几个步骤：

1)利用三维建模软件(本发明选用3DS Max)开发三维模型和三维动画。

2)利用Panda插件将三维模型和三维动画信息导出成.x格式文件。

3)利用DirectX 3D编写函数，以加载.x格式的三维模型和动画。

系统测试

多线程优化：本系统的实验硬件平台是基于英特尔酷睿双核处理器的嵌入式开发平台，运行多线程程序可以比单线程程序速度更快、更有效率。由于识别的流程多、计算量大，需要的计算时间也较长，为了保证系统的实时性，本发明在程序中使用了OpenMP多线程技术和英特尔公司的多线程开发工具套件。

优化前用Intel Thread Profiler分析HMM迭代训练的程序，得到的各个子函数时间性能如图3所示。在图中可以看到程序中的BaumWelch()，ComputeXi()，ForwardWithScale()和BackwardWithScale()等几个子函数时间性能较差。针对这几个较差的子函数，本发明利用OpenMP技术对这几个函数进行了多线程化处理。用IntelThread Checker检查OpenMP的使用没有错误后，再次运行Intel Thread Profiler分析程序的各个子函数的时间性能，得到的结果如图4示。可以看到经过OpenMP优化后部分子函数的运行时间大大缩短，时间性能提升显著，特别是函数BaumWelch()和BackwardWithScale()。

手语识别测试：采用摄像头采集视频数据，采样速率15帧/秒，视频格式为640×480像素。在此条件下，系统可以实时的进行连续动态手语识别。本发明选取30个动态中国手语词汇建立了模型。

为了减少图像处理需要的时间，保证系统的实时性，本发明对实验环境进行了一些简单化处理，如打手语者要求穿黑色的衣服、戴白手套，打手语者身后的背景也要求是黑色的。由于打手语者的双手与脸的轮廓的距离是输入特征向量的一部分，所以测试开始时需要先进行人脸检测，记录人脸轮廓的中心坐。

在确定最终模型后，本发明对所有手语词汇进行了实时测试，每个手语词汇测试50次。总体的识别成功率达到了90％以上。各个词汇的识别正确率如下表：

手语识别测试结果

词汇

北京

到

来自

上午

四川

西安

指导

中国

加油

奥运会

正确率

98％

88％

90％

96％

82％

92％

96％

90％

84％

98％

词汇

报纸

参观

参加

大家好

大学

道路

地震

欢迎

交通

老师

正确率

90％

96％

92％

96％

86％

90％

100％

94％

100％

词汇

你们

上班

停止

同学

我们

谢谢

学校

椅子

桌子

上海

正确率

78％

90％

92％

94％

84％

92％

84％

96％

语音识别模块201的测试：用普通麦克风采集语音信号，在周围无明显噪音的情况下测试以下词汇，每个词汇测试50次，得到语音识别的准确率如下表所示：

语音识别测试结果

词汇

北京

到

来自

上午

四川

西安

指导

中国

加油

奥运会

正确率

98％

82％

96％

94％

98％

90％

100％

96％

100％

词汇

报纸

参观

参加

大家好

大学

道路

地震

欢迎

交通

老师

正确率

90％

92％

98％

96％

88％

94％

96％

词汇

你们

上班

停止

同学

我们

谢谢

学校

椅子

桌子

上海

正确率

96％

90％

94％

96％

98％

90％

84％

96％

以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明，不能认定本发明的具体实施方式仅限于此，对于本发明所属技术领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干简单的推演或替换，都应当视为属于本发明由所提交的权利要求书确定专利保护范围。

Claims

1.一种手语语音互译系统，其特征在于：

该系统由基于视觉的手语识别子系统(1)、语音翻译子系统(2)构成；

所述基于视觉的手语识别子系统(1)由手势图像采集模块(101)、图像预处理模块(102)、图像特征提取模块(103)、手语模型(104)、连续动态手语识别模块(105)、中文发声模块(106)组成；手势图像采集模块(101)采集手势的视频数据输入图像预处理模块(102)进行图像预处理，采用图像特征提取模块(103)对经图像预处理后的视频数据进行图像特征提取后输出56维特征向量，利用56维特征向量构建手语模型(104)，连续动态手语识别模块(105)识别手语模型(104)，输出识别结果，识别结果经中文发声模块(106)转化为中文语音；

所述语音翻译子系统(2)由语音识别模块(201)和手语动画模块(202)组成，语音识别模块(201)输出的信号经手语动画模块(202)处理后输出手语图像；所述手语模型(104)采用隐马尔可夫模型HMM刻画动态手语；

所述语音识别模块(201)由声音信号采集装置和语音识别编程接口组成，声音信号采集装置采集的声音信号输入Microsoft Speech SDK 5.1的语音识别编程接口转换为文字输出；通过三维建模软件将文字转换为三维模型和三维动画；利用Panda插件将三维模型和三维动画信息导出成.x格式文件；利用DirectX 3D加载.x格式的三维模型和动画输出手语图像。

2.根据权利要求1所述的一种手语语音互译系统，其特征在于：所述手势图像采集模块(101)为利用BaslerA311fc的SDK开发的基于1394总线的BaslerA311fc工业摄像头的视频采集程序模块。

3.根据权利要求1所述的一种手语语音互译系统，其特征在于：所述图像预处理模块(102)对输入图像进行了平滑预处理和自适应阈值的二值化预处理；其中平滑预处理是对噪声图像使用中值滤波法，自适应阈值的二值化预处理是指根据图像处理的目标要求，把多灰度级的图像变成只有两个灰度级的图像，设图像f(x，y)的灰度值范围在[a，b]，二值化阈值设为T，a≤T≤b，则二值化处理的公式为：

g(x，y)是二值图像，用1来表示对象物，用0来表示背景区域。

4.根据权利要求1所述的一种手语语音互译系统，其特征在于：所述图像特征提取模块(103)基于手语图像的边界特征和手运动轨迹特征，把两只手的面积大小、两只手和脸的相对坐标、归一化的傅立叶描述子作为特征向量，选取每一帧视频图像的双手轮廓的边缘特征和双手与人脸的距离以及双手的横纵坐标作为输入，形成56维特征向量，56维特征向量经预处理后，形成隐马尔可夫模型HMM的观察序列。

5.根据权利要求1所述的一种手语语音互译系统，其特征在于：所述连续动态手语识别模块(105)使用Forward-backward算法遍历所有HMM，求出输入序列对每个隐马尔可夫模型HMM的出现概率，然后选出概率最大的隐马尔可夫模型HMM作为识别结果。

6.基于权利要求1所述的一种手语语音互译系统的手语语音互译方法，其特征在于，按照以下步骤：手势图像采集模块(101)采集手势的视频数据输入图像预处理模块(102)进行图像预处理，采用图像特征提取模块(103)对经图像预处理后的视频数据进行图像特征提取后输出56维特征向量，利用56维特征向量构建手语模型(104)，连续动态手语识别模块(105)识别手语模型(104)，输出识别结果，识别结果经中文发声模块(106)转化为中文语音；声音信号采集装置采集的声音信号输入Microsoft Speech SDK 5.1的语音识别编程接口转换为文字输出；通过三维建模软件建立三维模型和三维动画；利用Panda插件将三维模型和三维动画信息导出成.x格式文件；利用DirectX 3D加载.x格式的三维模型和动画输出手语动画；所述手语模型(104)采用隐马尔可夫模型HMM刻画动态手语。