CN101794528B

CN101794528B - 一种手语语音双向翻译系统

Info

Publication number: CN101794528B
Application number: CN2010101390124A
Authority: CN
Inventors: 时广轶; 舒长青; 金玉丰; 邹月娴; 贾松涛
Original assignee: PEKING UNIVERSITY SCHOOL OF SOFTWARE AND MICROELECTRONICS AT WUXI
Current assignee: Jacal Electronic (Wuxi) Co., Ltd.
Priority date: 2010-04-02
Filing date: 2010-04-02
Publication date: 2012-03-14
Anticipated expiration: 2030-04-02
Also published as: CN101794528A

Abstract

本发明涉及基于传感技术和模式识别技术的肢体动作识别技术以及语音识别技术，属于传感技术和惯性信号处理、语音处理技术领域，特指一种手语语音双向翻译系统，其以微惯导传感器网络和手语动作分类器为核心，通过安装在聋哑人手指、手臂以及头部的传感器，检测聋哑人做出的手语动作，并正确识别，然后将其代表的含义通过语音和发声系统连贯的表达出来，以达到让正常人“看懂”手语的效果；同时，正常人的语言可以被翻译成特定的连贯的手语动作，并以动画或视频的形式显示出来，以达到聋哑人间接“听到”正常人说话的效果。该系统有效解决了聋哑人与正常人双向交流的障碍，且廉价便携，有着巨大的社会效益和经济效益。

Description

一种手语语音双向翻译系统

技术领域

本发明涉及基于传感技术和模式识别技术的肢体动作识别技术以及语音识别技术，尤指一种以微惯导传感器网络和手语动作分类器为核心的手语语音双向翻译系统，能对手语动作进行语音表达，也能将语音信息翻译成手语动作加以显示，属于传感技术和微惯导信号处理、语音处理技术领域。

背景技术

手语动作的模式识别是手语翻译系统中的重要环节，现在用得较多的手语翻译系统的模式识别都是基于视觉识别的。这种识别方式主要是用多个相机同时从各个视角拍下手语动作，然后进行图像帧的底层特征提取，接着进行帧间的特征联系，最终识别出手语动作。但这种基于视觉的手语动作的模式识别是有缺陷的，其比较明显的有两点：1，对于复杂的手语动作，用图像进行处理和识别难以精确；2，用图像进行处理和识别很容易受环境的影响，比如在光线很暗的情况下就很受影响。

随着现代技术的不断发展，微机电系统以其体积小、重量轻、功耗低、成本低、可靠性高等优点，在军用市场和民用市场均得到了广泛的应用。特别是惯性传感器，已经在航空航天、汽车、电子设备保护、娱乐等领域取得了非常引人注目的应用，开创了微型汽车安全气囊传感器等新的产业。随着技术的发展和深入，继承多种惯性微机电系统传感器是目前的研究热点，在生物医学、环境监控、消费电子等领域有着十分广阔的应用前景。特别值得一提的是现在微机电系统研究和发展的一个重要方向，也即微型惯性测量组合(uIMU)，它在生物医学、工业自动化、智能建筑、航空航天、环境监控、消费电子等领域前景巨大。

微惯导是微惯导测量组合的简称，它由一定数量的三维加速度计和三维陀螺仪组成，它的测量原理是经典力学中的牛顿运动定律，它通过三维加速度计和三维陀螺仪测量车辆、飞机、导弹、舰艇、人造卫星等物体的质心运动和姿态运动，从而对物体进行控制和导航。基于MEMS三维加速度计和三维陀螺仪的微惯性测量系统具有体积小、重量轻、可靠性高、易集成、能大批量生产、价格低廉等优点，从而在军用、民用领域有广阔的应用前景。

基于微惯导技术的这些卓越的特性，能否将其结合到图像识别技术用于对人体动作的翻译，以及如何结合，为本领域技术人员开拓了一条崭新的思路。

同时，为了解决聋哑人与正常人交流的障碍，仅仅能够将聋哑人的手语翻译出来是不够的，为了使聋哑人能够明白正常人的意图，还需要能够将正常人的语音信息翻译成对应的手语动作并显示给聋哑人的装置。

发明内容

本发明旨在公开一种手语语音双向翻译系统，既可将手语翻译成对应的语音信息，又可将语音翻译成对应的手语并显示，该系统包括：基于微惯导传感的手语动作捕捉系统、微惯导信号处理与分析系统、一训练完成的手语动作特征分类器、用来训练手语动作分类器的手语动作特征数据库、语音文字数据库、视频/动画数据库、语音信号采集系统、语音分析系统、发声系统和显示系统；其中：所述手语动作捕捉系统与所述微惯导信号处理与分析系统通信连接，所述手语动作分类器分别与所述手语动作特征数据库、微惯导信号处理与分析系统、语音文字数据库、视频/动画数据库、显示系统通信连接，所述语音文字数据库还与所述语音分析系统和视频/动画数据库通信连接，所述语音信号采集系统和发声系统分别与所述语音分析系统通信连接；

优选地，所述手语动作捕捉系统包括主控单元、信号滤波和放大单元、AD转换单元以及发送单元，还包括若干个微惯导传感节点，每一个传感节点包含三维加速度传感器和三维陀螺仪；

优选地，所述手语动作捕捉系统还需要进行以下操作步骤：

1)建立微惯导器件失配误差模拟模型；

2)高性能6维自由度的uIMU手语动作传感子系统设计；

3)建立手语动作误差模型；

优选地，所述微惯导信号处理与分析系统接收手语动作捕捉系统传送来的微惯导数字信号，采用特定的滤波算法对这些信号进行运算和分析，并采用特定的特征提取方法和最优搜索法、次优搜索法、模拟退火法、遗传算法，根据可分离性判据来选择可分性最大的特征组；

优选地，所述特定的滤波算法为基于矢量的Kalman滤波法，所述特定的特征提取方法基于主成分分析法(PCA)或者频域分析方法快速傅里叶变换(FFT)和离散余弦变换(DCT)；

优选地，所述手语动作特征数据库包含多个常用的手语动作，每条手语动作包含多个不同样本的手语动作特征信息，且信息量可扩充；采集不同身高，不同体型，不同年龄，不同性别，不同动作习惯的多组同一手语动作样本，使用BP神经网络算法或SVM算法或隐式马尔科夫模型(HMM)训练生成手语动作特征分类器，使经这些样本训练而成的分类器拥有较高的动作识别率；

优选地，所述手语动作分类器采用“一对一”或者“一对多”的分类策略；

优选地，所述发声系统由立体声或者单声道扬声器及其配套的驱动系统组成；所述显示系统由独立显示系统或由基于WIFI、ZIGBEE、BLUETOOTH技术实现与翻译系统通信的手机来实现；

本发明还公开了一种采用上述手语语音双向翻译系统将手语翻译成语音的方法，具体包括以下步骤：

(1)微惯导传感器节点，负责采集手语动作中人体相应点位的三维加速度和三维角速度信息，其具有基本的信号处理功能和无线/有线发送功能；

(2)由多个节点组成的微惯导传感器网络构成的基于微惯导的手语动作捕捉系统，负责实时同步采集各个节点的数据，并将其发送到微惯导信号处理和分析系统；

(3)微惯导信号处理和分析系统通过有线或无线的方式实时接收来自“手语动作捕捉系统”产生的多通道同步数据，并把接收到的数据进行平滑和滤波处理，去掉影响判断的噪声和干扰信号，然后以特定的算法进行特征提取，得到实时的手语动作特征信息；

(4)手语动作特征数据库包括500个或以上手语动作的500个不同样本的特征信息，即每个手语动作所对应的三维加速度和三维角速度，动作持续时间等信息；采用手语动作特征数据库结合特定算法训练出用于动作识别的手语动作分类器；

(5)手语动作分类器接收来自微惯导信号处理和分析系统提供的实时手语动作特征信息，并对其进行动作识别，得到手语动作相应的含义，将从手语动作翻译得来的分离词语整合成类自然语言，并能通过查询语音数据库实时输出语音信号，驱动发声系统发声，完成手语向语音的翻译。

(1)由麦克风或麦克风阵列组成的语音信号采集系统，将把说话者的声音实时记录下来，并进行一系列处理后传递给基于模式识别的语音分析系统；

(2)该语音分析系统通过模式识别的方法和相关联的语音文字数据库来进行语义的准确分析，并形成可供转换成手语动作的分离词语；

(3)手语动作分类器与视频/动画数据库，语音和文字数据库相关联，根据分离出的词语实时查询包含对应手语动作的视频/动画，并将资料实时提供给显示系统，完成语音向手语的翻译。

附图说明

图1：本发明的手语语音双向翻译系统架构图；

图2：动作识别流程图；

图3：分类器训练流程图；

符号说明

0 手语动作特征数据库

1 手语动作捕捉系统

2 微惯导信号处理与分析系统

3 手语动作分类器

4 语音信号采集系统

5 语音分析系统

6 语音文字数据库

7 发声系统

8 显示系统

9 动画/视频库

具体实施方式

下面，结合附图，详细说明本发明的手语语音双向翻译系统的系统组成，以及系统构建方法。

本发明的手语语音双向翻译系统，包括一套基于微惯导传感的手语动作捕捉系统1、一套微惯导信号处理与分析系统2、一个训练完成的手语动作特征分类器3和一套用来训练手语动作分类器3的手语动作特征数据库0，同时整合了语音文字数据库6、视频/动画数据库9、语音信号采集系统4和语音分析系统5，还整合了发声系统7和显示系统8，共同组成完整的手语语音双向翻译系统。

其具体连接关系如图1所示：手语动作捕捉系统1与微惯导信号处理与分析系统2通信连接，手语动作分类器3分别与手语动作特征数据库0、微惯导信号处理与分析系统2、语音文字数据库6、视频/动画数据库9、显示系统8通信连接，语音文字数据库6还与语音分析系统5和视频/动画数据库9通信连接，语音信号采集系统4和发声系统7分别与语音分析系统5通信连接。

本文所述的通信连接是指，通信主体之间可以采用有线或者无线的方式进行数据传输。

下面对其中的几个主要部分作详细描述：

一.手语动作捕捉系统

基于微惯导传感的手语动作捕捉系统1主要包括主控单元(例如微处理器DSP)、信号滤波和放大单元、AD转换单元以及发送单元，还包括若干个微惯导传感节点，每一个传感节点包含三维加速度传感器和三维陀螺仪，节点覆盖范围包含双手，双臂和头部，节点数目任意可调，以能够准确探测出每个手语动作为宜，优选在10～30之间；各微惯导传感器测量范围是，加速度范围：-5G-+5G，角速度范围：-300度/s-+300度/s；节点与系统间的实时通信采用无线或有线方式进行；传感器信息采集速率在100Hz以上，可满足对手语动作状态的实时捕捉。

在使用该系统时，还需要进行以下操作步骤：

(1)建立微惯导器件失配误差模拟模型

深入分析微惯导传感器漂移和原始误差，失配误差的产生机制，以及它们对微惯导系统性能的影响，进行仿真模拟，建立其失配误差模型，对各种误差进行精确补偿。

(2)高性能6维自由度的uIMU手语动作传感子系统设计

在有限体积内集成三维加速度与三维角速度传感单元，并集成多传感器数据的采集和模数转换电路、具有准确时钟系统的微控制器时序电路、微系统数据存储电路、微系统电源系统电路、无线传输电路和DSP控制单元。通过完善的电路板级电磁兼容设计，信号完整性设计等消除高频噪声、热噪声、串扰、时钟抖动等误差，提高微型惯性测量单元性能。

(3)建立手语动作误差模型

结合手语动作的规律和时频特性，消除由于人体协同运动(血压、心跳、肌肉和皮肤抖动等)造成的测量误差，完成微惯导传感系统的初始对准和标定；实现鲁棒自适应卡尔曼滤波器的手语动作姿态的准确测量；并利用先进数字信号处理算法的鲁棒自适应实时测量误差补偿、干扰信号抑制技术，以提高整个系统的性能。

二.微惯导信号处理与分析系统

微惯导信号处理与分析系统2接收手语动作捕捉系统传送来的多路采集的6维8bit微惯导数字信号，采用基于矢量的Kalman滤波器对这些信号进行运算和分析；采用基于主成分分析法(PCA)或者基于频域分析方法(FFT/DCT)的特征提取方法；采用最优搜索法、次优搜索法、模拟退火法和遗传算法，根据可分离性判据来选择可分性最大的特征组。

(1)建立高维多节点运动状态特征矢量并构造相应的运动状态空间。通过对高维空间位姿点运动轨迹的行为分析和运动状态中各参量的约束关系，实现手语动作的特征提取。

离散系统的Kalman滤波最早由Rudolph E.Kalman提出，并将其用于处理非平稳时变信号以便在信号处理过程中实现时变估计。工程技术人员通过使用状态空间方法提供的一套实现最小均方误差的Kalman滤波方法，较好的解决了某些维纳滤波无法解决的工程问题。Kalman滤波解决问题的主要特点是：

由于采用了递归技术，因此无需考虑多个过去的输入信号，而在每次递归运算时，只考虑前一个输入信号就可以了。因此，便于用计算机实时处理信号。

在考虑某些问题时，可以用矢量形式表示随机过程多个有关参量。

随机线性离散系统的Kalman滤波基本方程：

设随机线性离散系统的方程(不考虑控制作用)为

X_k＝Φ_k，k-1X_k-1+Γ_k.k-1W_k-1

Z_k＝H_kX_k+V_k

式中X_k是系统的n维状态向量，Z_k是系统的m维观测序列，W_k是p维系统过程噪声序列，V_k是m维观测噪声序列，Φ_k，k-1是系统的n×n维状态转移矩阵，Γ_k.k-1是n×p维噪声输入矩阵，H_k是m×n维观测矩阵。

关于系统过程噪声和观测噪声的统计特性，我们假定如下

E[W_k]＝0，E[V_k]＝0，

E [W_{k} V_{j}^{T}] = 0,

E [W_{k} W_{j}^{T}] = Q_{k} δ_{kj},

E [V_{k} V_{j}^{T}] = R_{k} δ_{kj}

其中Q_k是系统过程噪声W_k的p×p维对称非负定方差矩阵，R_k是系统观测噪声V_k的m×m维对称正定方差阵，而δ_kj是Kronecker-δ函数。

下面直接给出随机线性离散系统基本Kalman滤波方程。

状态一步预测

{\hat{X}}_{k, k - 1} = Φ_{k, k - 1} {\hat{X}}_{k - 1}

状态估计

{\hat{X}}_{k} = {\hat{X}}_{k, k - 1} + K_{k} [Z_{k} - H_{k} {\hat{X}}_{k, k - 1}]

滤波增益矩阵

K_{k} = P_{k . k - 1} H_{k}^{T} {[H_{k} P_{k, k - 1} H_{k}^{T} + R_{k}]}^{- 1},

或

K_{k} = P_{k} H_{k}^{T} R_{k}^{- 1}

一步预测误差方差阵

P_{k . k - 1} = Φ_{k, k - 1} P_{k - 1} Φ_{k, k - 1}^{T} + Γ_{k . k - 1} Q_{k - 1} Γ_{k, k - 1}^{T}

估计误差方差阵

P_{k} = [I - K_{k} H_{k}] P_{k . k - 1} {[I - K_{k} H_{k}]}^{T} + K_{k} R_{k} K_{k}^{T},

或P_k＝[I-K_kH_k]p_k.k-1，或

P_{k}^{- 1} = P_{k, k - 1}^{- 1} + H_{k}^{T} R_{k}^{- 1} H_{k}

上述式即为随机线性离散系统Kalman滤波基本方差。只要给定初值

和P₀，根据k时刻的观测值Z_k，就可以递推计算得k时刻的状态估计

(k＝1，2，…)。

(2)以PCA法说明本发明的手语动作特征提取过程，该法是一种典型的代数特征提取方法，它是对K-L变换后的特征空间进行选择，将K-L变换后的特征值从大到小排列，挑选出相对大的特征值所对应的特征向量，构成一个K-L变换特征空间的子空间，来进行特征提取。K-L变换是信息特征压缩的一种最优正交变换，其实质是建立一个新的特征空间，将数据沿其特征矢量用对齐的方式来旋转变换，这个变换接触了原有数据向量的各个分量之间的相关性，从而有可能去掉那些带有较少信息的坐标系以达到降低特征空间维度的目的。经过以上K-L变换的得到的特征是原手语动作特征向量的正交分解，不损失任何信息。在这个互相正交，可测量的特征空间中进行手语动作的特征提取，可以有效的利用动作之间的差异，提取有效信息。

(3)采用快速傅里叶变换FFT和离散余弦变换DCT进行频域特征提取，其算法公式为统一标准，此处不予敖述。因为人体动作为低频动作，提取特征一般为低频域内特征，一般取前10阶到前15阶作为特征输入。

三.手语动作特征数据库

该数据库0包含多个(例如500条或以上)常用的手语动作，每条手语动作包含多个(例如500个)不同样本的手语动作特征信息，并且信息量可扩充；采集不同身高，不同体型，不同年龄，不同性别，不同动作习惯的多组(例如500组)同一手语动作样本，使用BP神经网络算法或SVM算法训练生成“手语动作分类器”，使经这些样本训练而成的分类器拥有较高的动作识别率；可以生成基于BP神经网络的分类器，基于支持向量机的SVM分类器等；数据库的训练过程是采用MATLAB软件在计算机平台上实现，并且采用离线训练模式。

使用SVM算法训练分类器的基本思想是：对于一定数目的手语动作特征信息样本矢量，将其通过非线性变换映射到另一个高维空间Z中，在变换后的空间里，寻找一个最优的分界面(超平面)，使其推广能力最好。具体来说，给定训练样本(X₁，Y₁)，(X₂，Y₂)，...(X_L，Y_L)，其中Y∈{-1，1}，找到一个非线性变换Z＝θ(X)，使X成为线性可分，则可以找到权向量W和参数B，满足

W^TZ_i+B＞＝1，Y_i＝1；

和W^TZ_i+B＜＝-1，Y_i＝-1；

即：Yi(W^TZ_i+B)＞＝0，i＝1，2，...，L

设最优分界面H的方程，则两类中靠近H的点之间距离P可求出，求导使P值最小化。那么得到一个Z空间的二次规划问题，求解该问题，得到分界面H的参数W^T ₀和B₀，即分界面H为已知，对该分界面求反变换，得到一个X空间的分类函数F，这就是分类器。其中分类器的参数可以随着训练样本的增加，而逐渐调整到理想值。

四.可训练的手语动作分类器

(1)采用支持向量机的方法完成对手语数据库的训练

手语动作分类器3对微惯导信号处理与分析系统2输出的手语动作特征信息进行分类和识别，分类策略采用“一对一”或者“一对多”。若X为特征信息变量，A，B，C分别指某个动作分类，则“一对一”是指：若X不属于A，则X属于B。“一对多”是指若X不属于A，则X属于B或者C，或者其他类别。采用后一种策略，更容易得到好的识别效果。

假设识别样本有C类，记为S₁，S₂，...，S_C.设计C个SVM分类器F_i(i＝1，2，...，C)，每一个F_i用其中的一类样本S_i作为正样本训练，而其他样本S_j(j不等于i)作为负样本训练。对于正负样本，系统输出为+1，-1.测试阶段，将每个测试样本输入到C个分类器里，如果只有一个F_i输出是+1，则该样本判别为第i类。若有P(P＞1)个分类器输出是+1，则再利用最近邻分类技术，即计算测试样本和这P个分类器所代表的训练样本之间的距离，将测试样本判别为最小值对应的那个类别。如果所有分类器输出为-1，则将测试样本判定为新样本。

(2)采用隐式马尔科夫模型对数据库进行训练

隐式马尔可夫模型(HMM)是一种用参数表示的用于描述随机过程统计特性的概率模型[1]。它由两部分组成：一部分是隐含的马尔可夫链称为隐含层；另一部分是实际的观测量称为观测层。HMM是一个统计模型，它用来描述一个含有隐含未知参数的马尔可夫过程。其难点是从可观察的参数中确定该过程的隐含参数。然后利用这些参数来作进一步的分析，例如模式识别。

在正常的马尔可夫模型中，状态对于观察者来说是直接可见的。这样状态变迁概率便是全部的参数。而在隐马尔可夫模型中，状态并不是直接可见的，但受状态影响的某些变量则是可见的。每一个状态在可能输出的符号上都有一概率分布。因此输出符号的序列能够透露出状态序列的一些信息。

隐马尔可夫模型可以有以下描述：

1.N，模型状态数码，一般情况下，状态具有遍历性，即一个状态可由其他任何一个状态到达。模型的状态记为S＝{S₁，S₂，......，S_N}。

2.M个状态可观察的离散符号数，对过程的物理输出进行矢量量化编码，符号数就是码数大小。符号记为V＝{V₁，V₂，......，V_M}。

3.A_N×N，状态转移概率矩阵。描述了HMM模型中各个状态之间的转移概率。其中

A_ij＝P(at+1＝S_j|qt＝S_i)，1≤i，j≤N.(1)

式(1)表示在t时刻、状态为Si的条件下，在t+1时刻状态是Sj的概率。

4.B_N×N，观测符号概率分布矩阵。其中

B_j(k)＝P[V_k(t)|qt＝S_j]；1≤j≤N，1≤k≤M.

表示在t时刻、状态是S_j条件下，观察符号为V_k(t)的概率。

5.π_j＝P[q1＝S_j]；1≤j≤N.

表示在出示t＝1时刻状态为S_j的概率。

该分类器识别过程在便携式系统的DSP单元中进行，能够实时的对传来的特征信息进行分类识别，系统时延在0.1秒以下，动作识别正确率在80％以上；由于系统需要对识别出的动作信息进行翻译，转化成语音，通过发声系统输出，所以分类器还需要与语音库相关联，以便实时查询。

五.其它部分

语音信号采集系统和语音分析系统用于采集语音信息并进行初步分析，这在现有技术中十分常见，如麦克风等，在此不再赘述。

发声系统由立体声或者单声道扬声器及其配套的驱动系统组成，负责把语音系统传入的语音信号实时转换为人耳可以听到的声音信号。

显示系统可由独立LCD或OLED显示系统，也可由基于WIFI，ZIGBEE或BLUETOOTH技术实现与翻译系统通信的手机(PDA，UMPC)来显示。该系统负责把查询到的手语动作三维动画或者真人视频实时显示出来。

语音文字数据库和动画/视频库是建立语音、图像以及文字之间联系的数据库。

下面示例说明本发明的硬件构成：

微惯导传感器节点：

三维加速度传感器，三维陀螺仪(北京大学微电子学院研制)，信号滤波和放大模块，ADC，无线(蓝牙)或有线(串口或并口)传送模块；

信息处理中心：

TI 6000 DSP，SUMSUNG 256M bit SDRAM，SUMSUNG 8G FLASH，无线或有线接收模块，ADC

输入输出设备：

SUMSUNG 4.3英寸背光LED屏显示器，0.7W扬声器，YAMAHA扬声器驱动IC，微型麦克风。

采用本发明的手语语音双向翻译系统工作流程如下：

A手语翻译成语音

(5)手语动作分类器接收来自微惯导信号处理和分析系统提供的实时手语动作特征信息，并对其进行动作识别，得到手语动作相应的含义，将从手语动作翻译得来的分离词语整合成类自然语言，并能通过查询语音数据库实时输出语音信号，驱动发声系统发声，完成手语向语音的翻译；

B语音翻译成手语

与现有技术相比，本系统具有如下优点：

1)成本低

由于采用uIMU作为传感器和普通的DSP芯片作为信息处理中心，预计整套系统的成本将比使用光学运动捕捉的手语翻译系统低60％以上。

2)低功耗

微惯导传感器节点的功耗小于20mW，DSP信息处理中心的功耗小于100mW，扬声器和显示屏的功耗稍大，可达到：0.7W和0.3W，以20个节点算，整个系统功耗小于等于1.5W。

3)简单便携，适用性强

本发明可做成一副传感器手套或者一件内嵌传感器上衣，使用者只需带上特定手套或者穿上特定上衣就可以使用本系统，且该系统不受使用环境限制。

4)功能强大

能够实现手语与语音的双向翻译，使聋哑人与正常人的日常交流成为可能。

本实施案例并不限制本发明，对于本技术领域的普通技术人员，在不脱离本发明原理的前提下，还可以作出若干改进和变化，这些改进和变化也应视为本发明的保护范围之内。

Claims

1.一种手语语音双向翻译系统，其特征在于，所述系统包括：基于微惯导传感的手语动作捕捉系统(1)、微惯导信号处理与分析系统(2)、一训练完整的手语动作分类器(3)、用来训练手语动作分类器(3)的手语动作特征数据库(0)、语音文字数据库(6)、视频/动画数据库(9)、语音信号采集系统(4)、语音分析系统(5)、发声系统(7)和显示系统(8)；其中：所述手语动作捕捉系统(1)与所述微惯导信号处理与分析系统(2)通信连接，所述手语动作分类器(3)分别与所述手语动作特征数据库(0)、微惯导信号处理与分析系统(2)、语音文字数据库(6)、视频/动画数据库(9)、显示系统(8)通信连接，所述语音文字数据库(6)还与所述语音分析系统(5)和视频/动画数据库(9)通信连接，所述语音信号采集系统(4)和发声系统(7)分别与所述语音分析系统(5)通信连接；所述手语动作捕捉系统(1)包括主控单元、信号滤波和放大单元、AD转换单元以及发送单元，还包括若干个微惯导传感节点，每一个传感节点包含三维加速度传感器和三维陀螺仪；所述微惯导信号处理与分析系统(2)接收手语动作捕捉系统(1)传送来的微惯导数字信号，通过采用基于矢量的Kalman滤波法对这些信号进行运算和分析，并采用基于主成分分析法(PC A)或者特征频率描述方法包括快速傅里叶变换(FFT)或离散余弦变换(DCT)的特征提取方法和最优搜索法、次优搜索法、模拟退火法、遗传算法，根据可分离性判据来选择可分性最大的特征组；所述手语动作特征数据库(0)包含多个常用的手语动作，每条手语动作包含多个不同样本的手语动作特征信息，且信息量可扩充；采集不同身高，不同体型，不同年龄，不同性别，不同动作习惯的多组同一手语动作样本，使用BP神经网络算法或SVM算法或基于隐马尔可夫模型(HMM)训练生成手语动作分类器，使经这些样本训练而成的分类器拥有较高的动作识别率；所述手语动作分类器(3)通过接收来自微惯导信号处理和分析系统提供的实时手语动作特征信息，并对其进行动作识别，得到手语动作相应的含义，将从手语动作翻译得来的分离词语整合成类自然语言，并能通过查询语音数据库实时输出语音信号，驱动所述发声系统发声，完成手语向语音的翻译，所述手语动作分类器(3)亦可与视频/动画数据库，语音文字数据库相关联，根据分离出的词语实时查询包含对应手语动作的视频/动画，并将资料实时提供给所述显示系统，完成语音向手语的翻译。

2.如权利要求1所述的手语语音双向翻译系统，其特征在于，所述手语动作捕捉系统(1)还需要进行以下操作步骤：

1)建立微惯导器件失配误差模拟模型；

2)高性能6维自由度的uIMU手语动作传感子系统设计；

3)建立手语动作误差模型。

3.如权利要求1所述的手语语音双向翻译系统，其特征在于，所述手语动作分类器(3)采用“一对一”或者“一对多”的分类策略。

4.如权利要求1所述的手语语音双向翻译系统，其特征在于，所述发声系统由立体声或者单声道扬声器及其配套的驱动系统组成；所述显示系统由独立显示系统或由基于WIFI、ZIGBEE、BLUETOOTH技术实现与翻译系统通信的手机来实现。

5.采用如权利要求1-4所述的手语语音双向翻译系统将手语翻译成语音的方法，具体包括以下步骤：

(4)手语动作特征数据库包括500个或以上手语动作的500个不同样本的特征信息，即每个手语动作所对应的三维加速度和三维角速度，动作持续时间信息；采用手语动作特征数据库结合特定算法训练出用于动作识别的手语动作分类器；

6.采用如权利要求1-4所述的手语语音双向翻译系统将语音翻译成手语的方法，具体包括以下步骤：

(3)手语动作分类器与视频/动画数据库，语音文字数据库相关联，根据分离出的词语实时查询包含对应手语动作的视频/动画，并将资料实时提供给显示系统，完成语音向手语的翻译。