发明内容
本发明旨在公开一种手语语音双向翻译系统,既可将手语翻译成对应的语音信息,又可将语音翻译成对应的手语并显示,该系统包括:基于微惯导传感的手语动作捕捉系统、微惯导信号处理与分析系统、一训练完成的手语动作特征分类器、用来训练手语动作分类器的手语动作特征数据库、语音文字数据库、视频/动画数据库、语音信号采集系统、语音分析系统、发声系统和显示系统;其中:所述手语动作捕捉系统与所述微惯导信号处理与分析系统通信连接,所述手语动作分类器分别与所述手语动作特征数据库、微惯导信号处理与分析系统、语音文字数据库、视频/动画数据库、显示系统通信连接,所述语音文字数据库还与所述语音分析系统和视频/动画数据库通信连接,所述语音信号采集系统和发声系统分别与所述语音分析系统通信连接;
优选地,所述手语动作捕捉系统包括主控单元、信号滤波和放大单元、AD转换单元以及发送单元,还包括若干个微惯导传感节点,每一个传感节点包含三维加速度传感器和三维陀螺仪;
优选地,所述手语动作捕捉系统还需要进行以下操作步骤:
1)建立微惯导器件失配误差模拟模型;
2)高性能6维自由度的uIMU手语动作传感子系统设计;
3)建立手语动作误差模型;
优选地,所述微惯导信号处理与分析系统接收手语动作捕捉系统传送来的微惯导数字信号,采用特定的滤波算法对这些信号进行运算和分析,并采用特定的特征提取方法和最优搜索法、次优搜索法、模拟退火法、遗传算法,根据可分离性判据来选择可分性最大的特征组;
优选地,所述特定的滤波算法为基于矢量的Kalman滤波法,所述特定的特征提取方法基于主成分分析法(PCA)或者频域分析方法快速傅里叶变换(FFT)和离散余弦变换(DCT);
优选地,所述手语动作特征数据库包含多个常用的手语动作,每条手语动作包含多个不同样本的手语动作特征信息,且信息量可扩充;采集不同身高,不同体型,不同年龄,不同性别,不同动作习惯的多组同一手语动作样本,使用BP神经网络算法或SVM算法或隐式马尔科夫模型(HMM)训练生成手语动作特征分类器,使经这些样本训练而成的分类器拥有较高的动作识别率;
优选地,所述手语动作分类器采用“一对一”或者“一对多”的分类策略;
优选地,所述发声系统由立体声或者单声道扬声器及其配套的驱动系统组成;所述显示系统由独立显示系统或由基于WIFI、ZIGBEE、BLUETOOTH技术实现与翻译系统通信的手机来实现;
本发明还公开了一种采用上述手语语音双向翻译系统将手语翻译成语音的方法,具体包括以下步骤:
(1)微惯导传感器节点,负责采集手语动作中人体相应点位的三维加速度和三维角速度信息,其具有基本的信号处理功能和无线/有线发送功能;
(2)由多个节点组成的微惯导传感器网络构成的基于微惯导的手语动作捕捉系统,负责实时同步采集各个节点的数据,并将其发送到微惯导信号处理和分析系统;
(3)微惯导信号处理和分析系统通过有线或无线的方式实时接收来自“手语动作捕捉系统”产生的多通道同步数据,并把接收到的数据进行平滑和滤波处理,去掉影响判断的噪声和干扰信号,然后以特定的算法进行特征提取,得到实时的手语动作特征信息;
(4)手语动作特征数据库包括500个或以上手语动作的500个不同样本的特征信息,即每个手语动作所对应的三维加速度和三维角速度,动作持续时间等信息;采用手语动作特征数据库结合特定算法训练出用于动作识别的手语动作分类器;
(5)手语动作分类器接收来自微惯导信号处理和分析系统提供的实时手语动作特征信息,并对其进行动作识别,得到手语动作相应的含义,将从手语动作翻译得来的分离词语整合成类自然语言,并能通过查询语音数据库实时输出语音信号,驱动发声系统发声,完成手语向语音的翻译。
本发明还公开了一种采用上述手语语音双向翻译系统将手语翻译成语音的方法,具体包括以下步骤:
(1)由麦克风或麦克风阵列组成的语音信号采集系统,将把说话者的声音实时记录下来,并进行一系列处理后传递给基于模式识别的语音分析系统;
(2)该语音分析系统通过模式识别的方法和相关联的语音文字数据库来进行语义的准确分析,并形成可供转换成手语动作的分离词语;
(3)手语动作分类器与视频/动画数据库,语音和文字数据库相关联,根据分离出的词语实时查询包含对应手语动作的视频/动画,并将资料实时提供给显示系统,完成语音向手语的翻译。
具体实施方式
下面,结合附图,详细说明本发明的手语语音双向翻译系统的系统组成,以及系统构建方法。
本发明的手语语音双向翻译系统,包括一套基于微惯导传感的手语动作捕捉系统1、一套微惯导信号处理与分析系统2、一个训练完成的手语动作特征分类器3和一套用来训练手语动作分类器3的手语动作特征数据库0,同时整合了语音文字数据库6、视频/动画数据库9、语音信号采集系统4和语音分析系统5,还整合了发声系统7和显示系统8,共同组成完整的手语语音双向翻译系统。
其具体连接关系如图1所示:手语动作捕捉系统1与微惯导信号处理与分析系统2通信连接,手语动作分类器3分别与手语动作特征数据库0、微惯导信号处理与分析系统2、语音文字数据库6、视频/动画数据库9、显示系统8通信连接,语音文字数据库6还与语音分析系统5和视频/动画数据库9通信连接,语音信号采集系统4和发声系统7分别与语音分析系统5通信连接。
本文所述的通信连接是指,通信主体之间可以采用有线或者无线的方式进行数据传输。
下面对其中的几个主要部分作详细描述:
一.手语动作捕捉系统
基于微惯导传感的手语动作捕捉系统1主要包括主控单元(例如微处理器DSP)、信号滤波和放大单元、AD转换单元以及发送单元,还包括若干个微惯导传感节点,每一个传感节点包含三维加速度传感器和三维陀螺仪,节点覆盖范围包含双手,双臂和头部,节点数目任意可调,以能够准确探测出每个手语动作为宜,优选在10~30之间;各微惯导传感器测量范围是,加速度范围:-5G-+5G,角速度范围:-300度/s-+300度/s;节点与系统间的实时通信采用无线或有线方式进行;传感器信息采集速率在100Hz以上,可满足对手语动作状态的实时捕捉。
在使用该系统时,还需要进行以下操作步骤:
(1)建立微惯导器件失配误差模拟模型
深入分析微惯导传感器漂移和原始误差,失配误差的产生机制,以及它们对微惯导系统性能的影响,进行仿真模拟,建立其失配误差模型,对各种误差进行精确补偿。
(2)高性能6维自由度的uIMU手语动作传感子系统设计
在有限体积内集成三维加速度与三维角速度传感单元,并集成多传感器数据的采集和模数转换电路、具有准确时钟系统的微控制器时序电路、微系统数据存储电路、微系统电源系统电路、无线传输电路和DSP控制单元。通过完善的电路板级电磁兼容设计,信号完整性设计等消除高频噪声、热噪声、串扰、时钟抖动等误差,提高微型惯性测量单元性能。
(3)建立手语动作误差模型
结合手语动作的规律和时频特性,消除由于人体协同运动(血压、心跳、肌肉和皮肤抖动等)造成的测量误差,完成微惯导传感系统的初始对准和标定;实现鲁棒自适应卡尔曼滤波器的手语动作姿态的准确测量;并利用先进数字信号处理算法的鲁棒自适应实时测量误差补偿、干扰信号抑制技术,以提高整个系统的性能。
二.微惯导信号处理与分析系统
微惯导信号处理与分析系统2接收手语动作捕捉系统传送来的多路采集的6维8bit微惯导数字信号,采用基于矢量的Kalman滤波器对这些信号进行运算和分析;采用基于主成分分析法(PCA)或者基于频域分析方法(FFT/DCT)的特征提取方法;采用最优搜索法、次优搜索法、模拟退火法和遗传算法,根据可分离性判据来选择可分性最大的特征组。
(1)建立高维多节点运动状态特征矢量并构造相应的运动状态空间。通过对高维空间位姿点运动轨迹的行为分析和运动状态中各参量的约束关系,实现手语动作的特征提取。
离散系统的Kalman滤波最早由Rudolph E.Kalman提出,并将其用于处理非平稳时变信号以便在信号处理过程中实现时变估计。工程技术人员通过使用状态空间方法提供的一套实现最小均方误差的Kalman滤波方法,较好的解决了某些维纳滤波无法解决的工程问题。Kalman滤波解决问题的主要特点是:
由于采用了递归技术,因此无需考虑多个过去的输入信号,而在每次递归运算时,只考虑前一个输入信号就可以了。因此,便于用计算机实时处理信号。
在考虑某些问题时,可以用矢量形式表示随机过程多个有关参量。
随机线性离散系统的Kalman滤波基本方程:
设随机线性离散系统的方程(不考虑控制作用)为
Xk=Φk,k-1Xk-1+Γk.k-1Wk-1
Zk=HkXk+Vk
式中Xk是系统的n维状态向量,Zk是系统的m维观测序列,Wk是p维系统过程噪声序列,Vk是m维观测噪声序列,Φk,k-1是系统的n×n维状态转移矩阵,Γk.k-1是n×p维噪声输入矩阵,Hk是m×n维观测矩阵。
关于系统过程噪声和观测噪声的统计特性,我们假定如下
E[Wk]=0,E[Vk]=0,
其中Qk是系统过程噪声Wk的p×p维对称非负定方差矩阵,Rk是系统观测噪声Vk的m×m维对称正定方差阵,而δkj是Kronecker-δ函数。
下面直接给出随机线性离散系统基本Kalman滤波方程。
状态一步预测
状态估计
滤波增益矩阵
或
一步预测误差方差阵
估计误差方差阵
或Pk=[I-KkHk]pk.k-1,或
上述式即为随机线性离散系统Kalman滤波基本方差。只要给定初值
和P
0,根据k时刻的观测值Z
k,就可以递推计算得k时刻的状态估计
(k=1,2,…)。
(2)以PCA法说明本发明的手语动作特征提取过程,该法是一种典型的代数特征提取方法,它是对K-L变换后的特征空间进行选择,将K-L变换后的特征值从大到小排列,挑选出相对大的特征值所对应的特征向量,构成一个K-L变换特征空间的子空间,来进行特征提取。K-L变换是信息特征压缩的一种最优正交变换,其实质是建立一个新的特征空间,将数据沿其特征矢量用对齐的方式来旋转变换,这个变换接触了原有数据向量的各个分量之间的相关性,从而有可能去掉那些带有较少信息的坐标系以达到降低特征空间维度的目的。经过以上K-L变换的得到的特征是原手语动作特征向量的正交分解,不损失任何信息。在这个互相正交,可测量的特征空间中进行手语动作的特征提取,可以有效的利用动作之间的差异,提取有效信息。
(3)采用快速傅里叶变换FFT和离散余弦变换DCT进行频域特征提取,其算法公式为统一标准,此处不予敖述。因为人体动作为低频动作,提取特征一般为低频域内特征,一般取前10阶到前15阶作为特征输入。
三.手语动作特征数据库
该数据库0包含多个(例如500条或以上)常用的手语动作,每条手语动作包含多个(例如500个)不同样本的手语动作特征信息,并且信息量可扩充;采集不同身高,不同体型,不同年龄,不同性别,不同动作习惯的多组(例如500组)同一手语动作样本,使用BP神经网络算法或SVM算法训练生成“手语动作分类器”,使经这些样本训练而成的分类器拥有较高的动作识别率;可以生成基于BP神经网络的分类器,基于支持向量机的SVM分类器等;数据库的训练过程是采用MATLAB软件在计算机平台上实现,并且采用离线训练模式。
使用SVM算法训练分类器的基本思想是:对于一定数目的手语动作特征信息样本矢量,将其通过非线性变换映射到另一个高维空间Z中,在变换后的空间里,寻找一个最优的分界面(超平面),使其推广能力最好。具体来说,给定训练样本(X1,Y1),(X2,Y2),...(XL,YL),其中Y∈{-1,1},找到一个非线性变换Z=θ(X),使X成为线性可分,则可以找到权向量W和参数B,满足
WTZi+B>=1,Yi=1;
和WTZi+B<=-1,Yi=-1;
即:Yi(WTZi+B)>=0,i=1,2,...,L
设最优分界面H的方程,则两类中靠近H的点之间距离P可求出,求导使P值最小化。那么得到一个Z空间的二次规划问题,求解该问题,得到分界面H的参数WT 0和B0,即分界面H为已知,对该分界面求反变换,得到一个X空间的分类函数F,这就是分类器。其中分类器的参数可以随着训练样本的增加,而逐渐调整到理想值。
四.可训练的手语动作分类器
(1)采用支持向量机的方法完成对手语数据库的训练
手语动作分类器3对微惯导信号处理与分析系统2输出的手语动作特征信息进行分类和识别,分类策略采用“一对一”或者“一对多”。若X为特征信息变量,A,B,C分别指某个动作分类,则“一对一”是指:若X不属于A,则X属于B。“一对多”是指若X不属于A,则X属于B或者C,或者其他类别。采用后一种策略,更容易得到好的识别效果。
假设识别样本有C类,记为S1,S2,...,SC.设计C个SVM分类器Fi(i=1,2,...,C),每一个Fi用其中的一类样本Si作为正样本训练,而其他样本Sj(j不等于i)作为负样本训练。对于正负样本,系统输出为+1,-1.测试阶段,将每个测试样本输入到C个分类器里,如果只有一个Fi输出是+1,则该样本判别为第i类。若有P(P>1)个分类器输出是+1,则再利用最近邻分类技术,即计算测试样本和这P个分类器所代表的训练样本之间的距离,将测试样本判别为最小值对应的那个类别。如果所有分类器输出为-1,则将测试样本判定为新样本。
(2)采用隐式马尔科夫模型对数据库进行训练
隐式马尔可夫模型(HMM)是一种用参数表示的用于描述随机过程统计特性的概率模型[1]。它由两部分组成:一部分是隐含的马尔可夫链称为隐含层;另一部分是实际的观测量称为观测层。HMM是一个统计模型,它用来描述一个含有隐含未知参数的马尔可夫过程。其难点是从可观察的参数中确定该过程的隐含参数。然后利用这些参数来作进一步的分析,例如模式识别。
在正常的马尔可夫模型中,状态对于观察者来说是直接可见的。这样状态变迁概率便是全部的参数。而在隐马尔可夫模型中,状态并不是直接可见的,但受状态影响的某些变量则是可见的。每一个状态在可能输出的符号上都有一概率分布。因此输出符号的序列能够透露出状态序列的一些信息。
隐马尔可夫模型可以有以下描述:
1.N,模型状态数码,一般情况下,状态具有遍历性,即一个状态可由其他任何一个状态到达。模型的状态记为S={S1,S2,......,SN}。
2.M个状态可观察的离散符号数,对过程的物理输出进行矢量量化编码,符号数就是码数大小。符号记为V={V1,V2,......,VM}。
3.AN×N,状态转移概率矩阵。描述了HMM模型中各个状态之间的转移概率。其中
Aij=P(at+1=Sj|qt=Si),1≤i,j≤N.(1)
式(1)表示在t时刻、状态为Si的条件下,在t+1时刻状态是Sj的概率。
4.BN×N,观测符号概率分布矩阵。其中
Bj(k)=P[Vk(t)|qt=Sj];1≤j≤N,1≤k≤M.
表示在t时刻、状态是Sj条件下,观察符号为Vk(t)的概率。
5.πj=P[q1=Sj];1≤j≤N.
表示在出示t=1时刻状态为Sj的概率。
该分类器识别过程在便携式系统的DSP单元中进行,能够实时的对传来的特征信息进行分类识别,系统时延在0.1秒以下,动作识别正确率在80%以上;由于系统需要对识别出的动作信息进行翻译,转化成语音,通过发声系统输出,所以分类器还需要与语音库相关联,以便实时查询。
五.其它部分
语音信号采集系统和语音分析系统用于采集语音信息并进行初步分析,这在现有技术中十分常见,如麦克风等,在此不再赘述。
发声系统由立体声或者单声道扬声器及其配套的驱动系统组成,负责把语音系统传入的语音信号实时转换为人耳可以听到的声音信号。
显示系统可由独立LCD或OLED显示系统,也可由基于WIFI,ZIGBEE或BLUETOOTH技术实现与翻译系统通信的手机(PDA,UMPC)来显示。该系统负责把查询到的手语动作三维动画或者真人视频实时显示出来。
语音文字数据库和动画/视频库是建立语音、图像以及文字之间联系的数据库。
下面示例说明本发明的硬件构成:
微惯导传感器节点:
三维加速度传感器,三维陀螺仪(北京大学微电子学院研制),信号滤波和放大模块,ADC,无线(蓝牙)或有线(串口或并口)传送模块;
信息处理中心:
TI 6000 DSP,SUMSUNG 256M bit SDRAM,SUMSUNG 8G FLASH,无线或有线接收模块,ADC
输入输出设备:
SUMSUNG 4.3英寸背光LED屏显示器,0.7W扬声器,YAMAHA扬声器驱动IC,微型麦克风。
采用本发明的手语语音双向翻译系统工作流程如下:
A手语翻译成语音
(1)微惯导传感器节点,负责采集手语动作中人体相应点位的三维加速度和三维角速度信息,其具有基本的信号处理功能和无线/有线发送功能;
(2)由多个节点组成的微惯导传感器网络构成的基于微惯导的手语动作捕捉系统,负责实时同步采集各个节点的数据,并将其发送到微惯导信号处理和分析系统;
(3)微惯导信号处理和分析系统通过有线或无线的方式实时接收来自“手语动作捕捉系统”产生的多通道同步数据,并把接收到的数据进行平滑和滤波处理,去掉影响判断的噪声和干扰信号,然后以特定的算法进行特征提取,得到实时的手语动作特征信息;
(4)手语动作特征数据库包括500个或以上手语动作的500个不同样本的特征信息,即每个手语动作所对应的三维加速度和三维角速度,动作持续时间等信息;采用手语动作特征数据库结合特定算法训练出用于动作识别的手语动作分类器;
(5)手语动作分类器接收来自微惯导信号处理和分析系统提供的实时手语动作特征信息,并对其进行动作识别,得到手语动作相应的含义,将从手语动作翻译得来的分离词语整合成类自然语言,并能通过查询语音数据库实时输出语音信号,驱动发声系统发声,完成手语向语音的翻译;
B语音翻译成手语
(1)由麦克风或麦克风阵列组成的语音信号采集系统,将把说话者的声音实时记录下来,并进行一系列处理后传递给基于模式识别的语音分析系统;
(2)该语音分析系统通过模式识别的方法和相关联的语音文字数据库来进行语义的准确分析,并形成可供转换成手语动作的分离词语;
(3)手语动作分类器与视频/动画数据库,语音和文字数据库相关联,根据分离出的词语实时查询包含对应手语动作的视频/动画,并将资料实时提供给显示系统,完成语音向手语的翻译。
与现有技术相比,本系统具有如下优点:
1)成本低
由于采用uIMU作为传感器和普通的DSP芯片作为信息处理中心,预计整套系统的成本将比使用光学运动捕捉的手语翻译系统低60%以上。
2)低功耗
微惯导传感器节点的功耗小于20mW,DSP信息处理中心的功耗小于100mW,扬声器和显示屏的功耗稍大,可达到:0.7W和0.3W,以20个节点算,整个系统功耗小于等于1.5W。
3)简单便携,适用性强
本发明可做成一副传感器手套或者一件内嵌传感器上衣,使用者只需带上特定手套或者穿上特定上衣就可以使用本系统,且该系统不受使用环境限制。
4)功能强大
能够实现手语与语音的双向翻译,使聋哑人与正常人的日常交流成为可能。
本实施案例并不限制本发明,对于本技术领域的普通技术人员,在不脱离本发明原理的前提下,还可以作出若干改进和变化,这些改进和变化也应视为本发明的保护范围之内。