CN101794528B - 一种手语语音双向翻译系统 - Google Patents

一种手语语音双向翻译系统 Download PDF

Info

Publication number
CN101794528B
CN101794528B CN2010101390124A CN201010139012A CN101794528B CN 101794528 B CN101794528 B CN 101794528B CN 2010101390124 A CN2010101390124 A CN 2010101390124A CN 201010139012 A CN201010139012 A CN 201010139012A CN 101794528 B CN101794528 B CN 101794528B
Authority
CN
China
Prior art keywords
sign language
language
voice
inertial navigation
motion
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN2010101390124A
Other languages
English (en)
Other versions
CN101794528A (zh
Inventor
时广轶
舒长青
金玉丰
邹月娴
贾松涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jacal Electronic (Wuxi) Co., Ltd.
Original Assignee
PEKING UNIVERSITY SCHOOL OF SOFTWARE AND MICROELECTRONICS AT WUXI
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by PEKING UNIVERSITY SCHOOL OF SOFTWARE AND MICROELECTRONICS AT WUXI filed Critical PEKING UNIVERSITY SCHOOL OF SOFTWARE AND MICROELECTRONICS AT WUXI
Priority to CN2010101390124A priority Critical patent/CN101794528B/zh
Publication of CN101794528A publication Critical patent/CN101794528A/zh
Application granted granted Critical
Publication of CN101794528B publication Critical patent/CN101794528B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • User Interface Of Digital Computer (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及基于传感技术和模式识别技术的肢体动作识别技术以及语音识别技术,属于传感技术和惯性信号处理、语音处理技术领域,特指一种手语语音双向翻译系统,其以微惯导传感器网络和手语动作分类器为核心,通过安装在聋哑人手指、手臂以及头部的传感器,检测聋哑人做出的手语动作,并正确识别,然后将其代表的含义通过语音和发声系统连贯的表达出来,以达到让正常人“看懂”手语的效果;同时,正常人的语言可以被翻译成特定的连贯的手语动作,并以动画或视频的形式显示出来,以达到聋哑人间接“听到”正常人说话的效果。该系统有效解决了聋哑人与正常人双向交流的障碍,且廉价便携,有着巨大的社会效益和经济效益。

Description

一种手语语音双向翻译系统
技术领域
本发明涉及基于传感技术和模式识别技术的肢体动作识别技术以及语音识别技术,尤指一种以微惯导传感器网络和手语动作分类器为核心的手语语音双向翻译系统,能对手语动作进行语音表达,也能将语音信息翻译成手语动作加以显示,属于传感技术和微惯导信号处理、语音处理技术领域。
背景技术
手语动作的模式识别是手语翻译系统中的重要环节,现在用得较多的手语翻译系统的模式识别都是基于视觉识别的。这种识别方式主要是用多个相机同时从各个视角拍下手语动作,然后进行图像帧的底层特征提取,接着进行帧间的特征联系,最终识别出手语动作。但这种基于视觉的手语动作的模式识别是有缺陷的,其比较明显的有两点:1,对于复杂的手语动作,用图像进行处理和识别难以精确;2,用图像进行处理和识别很容易受环境的影响,比如在光线很暗的情况下就很受影响。
随着现代技术的不断发展,微机电系统以其体积小、重量轻、功耗低、成本低、可靠性高等优点,在军用市场和民用市场均得到了广泛的应用。特别是惯性传感器,已经在航空航天、汽车、电子设备保护、娱乐等领域取得了非常引人注目的应用,开创了微型汽车安全气囊传感器等新的产业。随着技术的发展和深入,继承多种惯性微机电系统传感器是目前的研究热点,在生物医学、环境监控、消费电子等领域有着十分广阔的应用前景。特别值得一提的是现在微机电系统研究和发展的一个重要方向,也即微型惯性测量组合(uIMU),它在生物医学、工业自动化、智能建筑、航空航天、环境监控、消费电子等领域前景巨大。
微惯导是微惯导测量组合的简称,它由一定数量的三维加速度计和三维陀螺仪组成,它的测量原理是经典力学中的牛顿运动定律,它通过三维加速度计和三维陀螺仪测量车辆、飞机、导弹、舰艇、人造卫星等物体的质心运动和姿态运动,从而对物体进行控制和导航。基于MEMS三维加速度计和三维陀螺仪的微惯性测量系统具有体积小、重量轻、可靠性高、易集成、能大批量生产、价格低廉等优点,从而在军用、民用领域有广阔的应用前景。
基于微惯导技术的这些卓越的特性,能否将其结合到图像识别技术用于对人体动作的翻译,以及如何结合,为本领域技术人员开拓了一条崭新的思路。
同时,为了解决聋哑人与正常人交流的障碍,仅仅能够将聋哑人的手语翻译出来是不够的,为了使聋哑人能够明白正常人的意图,还需要能够将正常人的语音信息翻译成对应的手语动作并显示给聋哑人的装置。
发明内容
本发明旨在公开一种手语语音双向翻译系统,既可将手语翻译成对应的语音信息,又可将语音翻译成对应的手语并显示,该系统包括:基于微惯导传感的手语动作捕捉系统、微惯导信号处理与分析系统、一训练完成的手语动作特征分类器、用来训练手语动作分类器的手语动作特征数据库、语音文字数据库、视频/动画数据库、语音信号采集系统、语音分析系统、发声系统和显示系统;其中:所述手语动作捕捉系统与所述微惯导信号处理与分析系统通信连接,所述手语动作分类器分别与所述手语动作特征数据库、微惯导信号处理与分析系统、语音文字数据库、视频/动画数据库、显示系统通信连接,所述语音文字数据库还与所述语音分析系统和视频/动画数据库通信连接,所述语音信号采集系统和发声系统分别与所述语音分析系统通信连接;
优选地,所述手语动作捕捉系统包括主控单元、信号滤波和放大单元、AD转换单元以及发送单元,还包括若干个微惯导传感节点,每一个传感节点包含三维加速度传感器和三维陀螺仪;
优选地,所述手语动作捕捉系统还需要进行以下操作步骤:
1)建立微惯导器件失配误差模拟模型;
2)高性能6维自由度的uIMU手语动作传感子系统设计;
3)建立手语动作误差模型;
优选地,所述微惯导信号处理与分析系统接收手语动作捕捉系统传送来的微惯导数字信号,采用特定的滤波算法对这些信号进行运算和分析,并采用特定的特征提取方法和最优搜索法、次优搜索法、模拟退火法、遗传算法,根据可分离性判据来选择可分性最大的特征组;
优选地,所述特定的滤波算法为基于矢量的Kalman滤波法,所述特定的特征提取方法基于主成分分析法(PCA)或者频域分析方法快速傅里叶变换(FFT)和离散余弦变换(DCT);
优选地,所述手语动作特征数据库包含多个常用的手语动作,每条手语动作包含多个不同样本的手语动作特征信息,且信息量可扩充;采集不同身高,不同体型,不同年龄,不同性别,不同动作习惯的多组同一手语动作样本,使用BP神经网络算法或SVM算法或隐式马尔科夫模型(HMM)训练生成手语动作特征分类器,使经这些样本训练而成的分类器拥有较高的动作识别率;
优选地,所述手语动作分类器采用“一对一”或者“一对多”的分类策略;
优选地,所述发声系统由立体声或者单声道扬声器及其配套的驱动系统组成;所述显示系统由独立显示系统或由基于WIFI、ZIGBEE、BLUETOOTH技术实现与翻译系统通信的手机来实现;
本发明还公开了一种采用上述手语语音双向翻译系统将手语翻译成语音的方法,具体包括以下步骤:
(1)微惯导传感器节点,负责采集手语动作中人体相应点位的三维加速度和三维角速度信息,其具有基本的信号处理功能和无线/有线发送功能;
(2)由多个节点组成的微惯导传感器网络构成的基于微惯导的手语动作捕捉系统,负责实时同步采集各个节点的数据,并将其发送到微惯导信号处理和分析系统;
(3)微惯导信号处理和分析系统通过有线或无线的方式实时接收来自“手语动作捕捉系统”产生的多通道同步数据,并把接收到的数据进行平滑和滤波处理,去掉影响判断的噪声和干扰信号,然后以特定的算法进行特征提取,得到实时的手语动作特征信息;
(4)手语动作特征数据库包括500个或以上手语动作的500个不同样本的特征信息,即每个手语动作所对应的三维加速度和三维角速度,动作持续时间等信息;采用手语动作特征数据库结合特定算法训练出用于动作识别的手语动作分类器;
(5)手语动作分类器接收来自微惯导信号处理和分析系统提供的实时手语动作特征信息,并对其进行动作识别,得到手语动作相应的含义,将从手语动作翻译得来的分离词语整合成类自然语言,并能通过查询语音数据库实时输出语音信号,驱动发声系统发声,完成手语向语音的翻译。
本发明还公开了一种采用上述手语语音双向翻译系统将手语翻译成语音的方法,具体包括以下步骤:
(1)由麦克风或麦克风阵列组成的语音信号采集系统,将把说话者的声音实时记录下来,并进行一系列处理后传递给基于模式识别的语音分析系统;
(2)该语音分析系统通过模式识别的方法和相关联的语音文字数据库来进行语义的准确分析,并形成可供转换成手语动作的分离词语;
(3)手语动作分类器与视频/动画数据库,语音和文字数据库相关联,根据分离出的词语实时查询包含对应手语动作的视频/动画,并将资料实时提供给显示系统,完成语音向手语的翻译。
附图说明
图1:本发明的手语语音双向翻译系统架构图;
图2:动作识别流程图;
图3:分类器训练流程图;
符号说明
0    手语动作特征数据库
1    手语动作捕捉系统
2    微惯导信号处理与分析系统
3    手语动作分类器
4    语音信号采集系统
5    语音分析系统
6    语音文字数据库
7    发声系统
8    显示系统
9    动画/视频库
具体实施方式
下面,结合附图,详细说明本发明的手语语音双向翻译系统的系统组成,以及系统构建方法。
本发明的手语语音双向翻译系统,包括一套基于微惯导传感的手语动作捕捉系统1、一套微惯导信号处理与分析系统2、一个训练完成的手语动作特征分类器3和一套用来训练手语动作分类器3的手语动作特征数据库0,同时整合了语音文字数据库6、视频/动画数据库9、语音信号采集系统4和语音分析系统5,还整合了发声系统7和显示系统8,共同组成完整的手语语音双向翻译系统。
其具体连接关系如图1所示:手语动作捕捉系统1与微惯导信号处理与分析系统2通信连接,手语动作分类器3分别与手语动作特征数据库0、微惯导信号处理与分析系统2、语音文字数据库6、视频/动画数据库9、显示系统8通信连接,语音文字数据库6还与语音分析系统5和视频/动画数据库9通信连接,语音信号采集系统4和发声系统7分别与语音分析系统5通信连接。
本文所述的通信连接是指,通信主体之间可以采用有线或者无线的方式进行数据传输。
下面对其中的几个主要部分作详细描述:
一.手语动作捕捉系统
基于微惯导传感的手语动作捕捉系统1主要包括主控单元(例如微处理器DSP)、信号滤波和放大单元、AD转换单元以及发送单元,还包括若干个微惯导传感节点,每一个传感节点包含三维加速度传感器和三维陀螺仪,节点覆盖范围包含双手,双臂和头部,节点数目任意可调,以能够准确探测出每个手语动作为宜,优选在10~30之间;各微惯导传感器测量范围是,加速度范围:-5G-+5G,角速度范围:-300度/s-+300度/s;节点与系统间的实时通信采用无线或有线方式进行;传感器信息采集速率在100Hz以上,可满足对手语动作状态的实时捕捉。
在使用该系统时,还需要进行以下操作步骤:
(1)建立微惯导器件失配误差模拟模型
深入分析微惯导传感器漂移和原始误差,失配误差的产生机制,以及它们对微惯导系统性能的影响,进行仿真模拟,建立其失配误差模型,对各种误差进行精确补偿。
(2)高性能6维自由度的uIMU手语动作传感子系统设计
在有限体积内集成三维加速度与三维角速度传感单元,并集成多传感器数据的采集和模数转换电路、具有准确时钟系统的微控制器时序电路、微系统数据存储电路、微系统电源系统电路、无线传输电路和DSP控制单元。通过完善的电路板级电磁兼容设计,信号完整性设计等消除高频噪声、热噪声、串扰、时钟抖动等误差,提高微型惯性测量单元性能。
(3)建立手语动作误差模型
结合手语动作的规律和时频特性,消除由于人体协同运动(血压、心跳、肌肉和皮肤抖动等)造成的测量误差,完成微惯导传感系统的初始对准和标定;实现鲁棒自适应卡尔曼滤波器的手语动作姿态的准确测量;并利用先进数字信号处理算法的鲁棒自适应实时测量误差补偿、干扰信号抑制技术,以提高整个系统的性能。
二.微惯导信号处理与分析系统
微惯导信号处理与分析系统2接收手语动作捕捉系统传送来的多路采集的6维8bit微惯导数字信号,采用基于矢量的Kalman滤波器对这些信号进行运算和分析;采用基于主成分分析法(PCA)或者基于频域分析方法(FFT/DCT)的特征提取方法;采用最优搜索法、次优搜索法、模拟退火法和遗传算法,根据可分离性判据来选择可分性最大的特征组。
(1)建立高维多节点运动状态特征矢量并构造相应的运动状态空间。通过对高维空间位姿点运动轨迹的行为分析和运动状态中各参量的约束关系,实现手语动作的特征提取。
离散系统的Kalman滤波最早由Rudolph E.Kalman提出,并将其用于处理非平稳时变信号以便在信号处理过程中实现时变估计。工程技术人员通过使用状态空间方法提供的一套实现最小均方误差的Kalman滤波方法,较好的解决了某些维纳滤波无法解决的工程问题。Kalman滤波解决问题的主要特点是:
由于采用了递归技术,因此无需考虑多个过去的输入信号,而在每次递归运算时,只考虑前一个输入信号就可以了。因此,便于用计算机实时处理信号。
在考虑某些问题时,可以用矢量形式表示随机过程多个有关参量。
随机线性离散系统的Kalman滤波基本方程:
设随机线性离散系统的方程(不考虑控制作用)为
Xk=Φk,k-1Xk-1k.k-1Wk-1
Zk=HkXk+Vk
式中Xk是系统的n维状态向量,Zk是系统的m维观测序列,Wk是p维系统过程噪声序列,Vk是m维观测噪声序列,Φk,k-1是系统的n×n维状态转移矩阵,Γk.k-1是n×p维噪声输入矩阵,Hk是m×n维观测矩阵。
关于系统过程噪声和观测噪声的统计特性,我们假定如下
E[Wk]=0,E[Vk]=0, E [ W k V j T ] = 0 , E [ W k W j T ] = Q k δ kj , E [ V k V j T ] = R k δ kj
其中Qk是系统过程噪声Wk的p×p维对称非负定方差矩阵,Rk是系统观测噪声Vk的m×m维对称正定方差阵,而δkj是Kronecker-δ函数。
下面直接给出随机线性离散系统基本Kalman滤波方程。
状态一步预测
X ^ k , k - 1 = Φ k , k - 1 X ^ k - 1
状态估计
X ^ k = X ^ k , k - 1 + K k [ Z k - H k X ^ k , k - 1 ]
滤波增益矩阵
K k = P k . k - 1 H k T [ H k P k , k - 1 H k T + R k ] - 1 , K k = P k H k T R k - 1
一步预测误差方差阵
P k . k - 1 = Φ k , k - 1 P k - 1 Φ k , k - 1 T + Γ k . k - 1 Q k - 1 Γ k , k - 1 T
估计误差方差阵
P k = [ I - K k H k ] P k . k - 1 [ I - K k H k ] T + K k R k K k T ,
或Pk=[I-KkHk]pk.k-1,或 P k - 1 = P k , k - 1 - 1 + H k T R k - 1 H k
上述式即为随机线性离散系统Kalman滤波基本方差。只要给定初值
Figure GSB000005118192000711
和P0,根据k时刻的观测值Zk,就可以递推计算得k时刻的状态估计
Figure GSB000005118192000712
(k=1,2,…)。
(2)以PCA法说明本发明的手语动作特征提取过程,该法是一种典型的代数特征提取方法,它是对K-L变换后的特征空间进行选择,将K-L变换后的特征值从大到小排列,挑选出相对大的特征值所对应的特征向量,构成一个K-L变换特征空间的子空间,来进行特征提取。K-L变换是信息特征压缩的一种最优正交变换,其实质是建立一个新的特征空间,将数据沿其特征矢量用对齐的方式来旋转变换,这个变换接触了原有数据向量的各个分量之间的相关性,从而有可能去掉那些带有较少信息的坐标系以达到降低特征空间维度的目的。经过以上K-L变换的得到的特征是原手语动作特征向量的正交分解,不损失任何信息。在这个互相正交,可测量的特征空间中进行手语动作的特征提取,可以有效的利用动作之间的差异,提取有效信息。
(3)采用快速傅里叶变换FFT和离散余弦变换DCT进行频域特征提取,其算法公式为统一标准,此处不予敖述。因为人体动作为低频动作,提取特征一般为低频域内特征,一般取前10阶到前15阶作为特征输入。
三.手语动作特征数据库
该数据库0包含多个(例如500条或以上)常用的手语动作,每条手语动作包含多个(例如500个)不同样本的手语动作特征信息,并且信息量可扩充;采集不同身高,不同体型,不同年龄,不同性别,不同动作习惯的多组(例如500组)同一手语动作样本,使用BP神经网络算法或SVM算法训练生成“手语动作分类器”,使经这些样本训练而成的分类器拥有较高的动作识别率;可以生成基于BP神经网络的分类器,基于支持向量机的SVM分类器等;数据库的训练过程是采用MATLAB软件在计算机平台上实现,并且采用离线训练模式。
使用SVM算法训练分类器的基本思想是:对于一定数目的手语动作特征信息样本矢量,将其通过非线性变换映射到另一个高维空间Z中,在变换后的空间里,寻找一个最优的分界面(超平面),使其推广能力最好。具体来说,给定训练样本(X1,Y1),(X2,Y2),...(XL,YL),其中Y∈{-1,1},找到一个非线性变换Z=θ(X),使X成为线性可分,则可以找到权向量W和参数B,满足
WTZi+B>=1,Yi=1;
和WTZi+B<=-1,Yi=-1;
即:Yi(WTZi+B)>=0,i=1,2,...,L
设最优分界面H的方程,则两类中靠近H的点之间距离P可求出,求导使P值最小化。那么得到一个Z空间的二次规划问题,求解该问题,得到分界面H的参数WT 0和B0,即分界面H为已知,对该分界面求反变换,得到一个X空间的分类函数F,这就是分类器。其中分类器的参数可以随着训练样本的增加,而逐渐调整到理想值。
四.可训练的手语动作分类器
(1)采用支持向量机的方法完成对手语数据库的训练
手语动作分类器3对微惯导信号处理与分析系统2输出的手语动作特征信息进行分类和识别,分类策略采用“一对一”或者“一对多”。若X为特征信息变量,A,B,C分别指某个动作分类,则“一对一”是指:若X不属于A,则X属于B。“一对多”是指若X不属于A,则X属于B或者C,或者其他类别。采用后一种策略,更容易得到好的识别效果。
假设识别样本有C类,记为S1,S2,...,SC.设计C个SVM分类器Fi(i=1,2,...,C),每一个Fi用其中的一类样本Si作为正样本训练,而其他样本Sj(j不等于i)作为负样本训练。对于正负样本,系统输出为+1,-1.测试阶段,将每个测试样本输入到C个分类器里,如果只有一个Fi输出是+1,则该样本判别为第i类。若有P(P>1)个分类器输出是+1,则再利用最近邻分类技术,即计算测试样本和这P个分类器所代表的训练样本之间的距离,将测试样本判别为最小值对应的那个类别。如果所有分类器输出为-1,则将测试样本判定为新样本。
(2)采用隐式马尔科夫模型对数据库进行训练
隐式马尔可夫模型(HMM)是一种用参数表示的用于描述随机过程统计特性的概率模型[1]。它由两部分组成:一部分是隐含的马尔可夫链称为隐含层;另一部分是实际的观测量称为观测层。HMM是一个统计模型,它用来描述一个含有隐含未知参数的马尔可夫过程。其难点是从可观察的参数中确定该过程的隐含参数。然后利用这些参数来作进一步的分析,例如模式识别。
在正常的马尔可夫模型中,状态对于观察者来说是直接可见的。这样状态变迁概率便是全部的参数。而在隐马尔可夫模型中,状态并不是直接可见的,但受状态影响的某些变量则是可见的。每一个状态在可能输出的符号上都有一概率分布。因此输出符号的序列能够透露出状态序列的一些信息。
隐马尔可夫模型可以有以下描述:
1.N,模型状态数码,一般情况下,状态具有遍历性,即一个状态可由其他任何一个状态到达。模型的状态记为S={S1,S2,......,SN}。
2.M个状态可观察的离散符号数,对过程的物理输出进行矢量量化编码,符号数就是码数大小。符号记为V={V1,V2,......,VM}。
3.AN×N,状态转移概率矩阵。描述了HMM模型中各个状态之间的转移概率。其中
Aij=P(at+1=Sj|qt=Si),1≤i,j≤N.(1)
式(1)表示在t时刻、状态为Si的条件下,在t+1时刻状态是Sj的概率。
4.BN×N,观测符号概率分布矩阵。其中
Bj(k)=P[Vk(t)|qt=Sj];1≤j≤N,1≤k≤M.
表示在t时刻、状态是Sj条件下,观察符号为Vk(t)的概率。
5.πj=P[q1=Sj];1≤j≤N.
表示在出示t=1时刻状态为Sj的概率。
该分类器识别过程在便携式系统的DSP单元中进行,能够实时的对传来的特征信息进行分类识别,系统时延在0.1秒以下,动作识别正确率在80%以上;由于系统需要对识别出的动作信息进行翻译,转化成语音,通过发声系统输出,所以分类器还需要与语音库相关联,以便实时查询。
五.其它部分
语音信号采集系统和语音分析系统用于采集语音信息并进行初步分析,这在现有技术中十分常见,如麦克风等,在此不再赘述。
发声系统由立体声或者单声道扬声器及其配套的驱动系统组成,负责把语音系统传入的语音信号实时转换为人耳可以听到的声音信号。
显示系统可由独立LCD或OLED显示系统,也可由基于WIFI,ZIGBEE或BLUETOOTH技术实现与翻译系统通信的手机(PDA,UMPC)来显示。该系统负责把查询到的手语动作三维动画或者真人视频实时显示出来。
语音文字数据库和动画/视频库是建立语音、图像以及文字之间联系的数据库。
下面示例说明本发明的硬件构成:
微惯导传感器节点:
三维加速度传感器,三维陀螺仪(北京大学微电子学院研制),信号滤波和放大模块,ADC,无线(蓝牙)或有线(串口或并口)传送模块;
信息处理中心:
TI 6000 DSP,SUMSUNG 256M bit SDRAM,SUMSUNG 8G FLASH,无线或有线接收模块,ADC
输入输出设备:
SUMSUNG 4.3英寸背光LED屏显示器,0.7W扬声器,YAMAHA扬声器驱动IC,微型麦克风。
采用本发明的手语语音双向翻译系统工作流程如下:
A手语翻译成语音
(1)微惯导传感器节点,负责采集手语动作中人体相应点位的三维加速度和三维角速度信息,其具有基本的信号处理功能和无线/有线发送功能;
(2)由多个节点组成的微惯导传感器网络构成的基于微惯导的手语动作捕捉系统,负责实时同步采集各个节点的数据,并将其发送到微惯导信号处理和分析系统;
(3)微惯导信号处理和分析系统通过有线或无线的方式实时接收来自“手语动作捕捉系统”产生的多通道同步数据,并把接收到的数据进行平滑和滤波处理,去掉影响判断的噪声和干扰信号,然后以特定的算法进行特征提取,得到实时的手语动作特征信息;
(4)手语动作特征数据库包括500个或以上手语动作的500个不同样本的特征信息,即每个手语动作所对应的三维加速度和三维角速度,动作持续时间等信息;采用手语动作特征数据库结合特定算法训练出用于动作识别的手语动作分类器;
(5)手语动作分类器接收来自微惯导信号处理和分析系统提供的实时手语动作特征信息,并对其进行动作识别,得到手语动作相应的含义,将从手语动作翻译得来的分离词语整合成类自然语言,并能通过查询语音数据库实时输出语音信号,驱动发声系统发声,完成手语向语音的翻译;
B语音翻译成手语
(1)由麦克风或麦克风阵列组成的语音信号采集系统,将把说话者的声音实时记录下来,并进行一系列处理后传递给基于模式识别的语音分析系统;
(2)该语音分析系统通过模式识别的方法和相关联的语音文字数据库来进行语义的准确分析,并形成可供转换成手语动作的分离词语;
(3)手语动作分类器与视频/动画数据库,语音和文字数据库相关联,根据分离出的词语实时查询包含对应手语动作的视频/动画,并将资料实时提供给显示系统,完成语音向手语的翻译。
与现有技术相比,本系统具有如下优点:
1)成本低
由于采用uIMU作为传感器和普通的DSP芯片作为信息处理中心,预计整套系统的成本将比使用光学运动捕捉的手语翻译系统低60%以上。
2)低功耗
微惯导传感器节点的功耗小于20mW,DSP信息处理中心的功耗小于100mW,扬声器和显示屏的功耗稍大,可达到:0.7W和0.3W,以20个节点算,整个系统功耗小于等于1.5W。
3)简单便携,适用性强
本发明可做成一副传感器手套或者一件内嵌传感器上衣,使用者只需带上特定手套或者穿上特定上衣就可以使用本系统,且该系统不受使用环境限制。
4)功能强大
能够实现手语与语音的双向翻译,使聋哑人与正常人的日常交流成为可能。
本实施案例并不限制本发明,对于本技术领域的普通技术人员,在不脱离本发明原理的前提下,还可以作出若干改进和变化,这些改进和变化也应视为本发明的保护范围之内。

Claims (6)

1.一种手语语音双向翻译系统,其特征在于,所述系统包括:基于微惯导传感的手语动作捕捉系统(1)、微惯导信号处理与分析系统(2)、一训练完整的手语动作分类器(3)、用来训练手语动作分类器(3)的手语动作特征数据库(0)、语音文字数据库(6)、视频/动画数据库(9)、语音信号采集系统(4)、语音分析系统(5)、发声系统(7)和显示系统(8);其中:所述手语动作捕捉系统(1)与所述微惯导信号处理与分析系统(2)通信连接,所述手语动作分类器(3)分别与所述手语动作特征数据库(0)、微惯导信号处理与分析系统(2)、语音文字数据库(6)、视频/动画数据库(9)、显示系统(8)通信连接,所述语音文字数据库(6)还与所述语音分析系统(5)和视频/动画数据库(9)通信连接,所述语音信号采集系统(4)和发声系统(7)分别与所述语音分析系统(5)通信连接;所述手语动作捕捉系统(1)包括主控单元、信号滤波和放大单元、AD转换单元以及发送单元,还包括若干个微惯导传感节点,每一个传感节点包含三维加速度传感器和三维陀螺仪;所述微惯导信号处理与分析系统(2)接收手语动作捕捉系统(1)传送来的微惯导数字信号,通过采用基于矢量的Kalman滤波法对这些信号进行运算和分析,并采用基于主成分分析法(PC A)或者特征频率描述方法包括快速傅里叶变换(FFT)或离散余弦变换(DCT)的特征提取方法和最优搜索法、次优搜索法、模拟退火法、遗传算法,根据可分离性判据来选择可分性最大的特征组;所述手语动作特征数据库(0)包含多个常用的手语动作,每条手语动作包含多个不同样本的手语动作特征信息,且信息量可扩充;采集不同身高,不同体型,不同年龄,不同性别,不同动 作习惯的多组同一手语动作样本,使用BP神经网络算法或SVM算法或基于隐马尔可夫模型(HMM)训练生成手语动作分类器,使经这些样本训练而成的分类器拥有较高的动作识别率;所述手语动作分类器(3)通过接收来自微惯导信号处理和分析系统提供的实时手语动作特征信息,并对其进行动作识别,得到手语动作相应的含义,将从手语动作翻译得来的分离词语整合成类自然语言,并能通过查询语音数据库实时输出语音信号,驱动所述发声系统发声,完成手语向语音的翻译,所述手语动作分类器(3)亦可与视频/动画数据库,语音文字数据库相关联,根据分离出的词语实时查询包含对应手语动作的视频/动画,并将资料实时提供给所述显示系统,完成语音向手语的翻译。
2.如权利要求1所述的手语语音双向翻译系统,其特征在于,所述手语动作捕捉系统(1)还需要进行以下操作步骤:
1)建立微惯导器件失配误差模拟模型;
2)高性能6维自由度的uIMU手语动作传感子系统设计;
3)建立手语动作误差模型。
3.如权利要求1所述的手语语音双向翻译系统,其特征在于,所述手语动作分类器(3)采用“一对一”或者“一对多”的分类策略。
4.如权利要求1所述的手语语音双向翻译系统,其特征在于,所述发声系统由立体声或者单声道扬声器及其配套的驱动系统组成;所述显示系统由独立显示系统或由基于WIFI、ZIGBEE、BLUETOOTH技术实现与翻译系统通信的手机来实现。
5.采用如权利要求1-4所述的手语语音双向翻译系统将手语翻 译成语音的方法,具体包括以下步骤:
(1)微惯导传感器节点,负责采集手语动作中人体相应点位的三维加速度和三维角速度信息,其具有基本的信号处理功能和无线/有线发送功能;
(2)由多个节点组成的微惯导传感器网络构成的基于微惯导的手语动作捕捉系统,负责实时同步采集各个节点的数据,并将其发送到微惯导信号处理和分析系统;
(3)微惯导信号处理和分析系统通过有线或无线的方式实时接收来自“手语动作捕捉系统”产生的多通道同步数据,并把接收到的数据进行平滑和滤波处理,去掉影响判断的噪声和干扰信号,然后以特定的算法进行特征提取,得到实时的手语动作特征信息;
(4)手语动作特征数据库包括500个或以上手语动作的500个不同样本的特征信息,即每个手语动作所对应的三维加速度和三维角速度,动作持续时间信息;采用手语动作特征数据库结合特定算法训练出用于动作识别的手语动作分类器;
(5)手语动作分类器接收来自微惯导信号处理和分析系统提供的实时手语动作特征信息,并对其进行动作识别,得到手语动作相应的含义,将从手语动作翻译得来的分离词语整合成类自然语言,并能通过查询语音数据库实时输出语音信号,驱动发声系统发声,完成手语向语音的翻译。
6.采用如权利要求1-4所述的手语语音双向翻译系统将语音翻 译成手语的方法,具体包括以下步骤:
(1)由麦克风或麦克风阵列组成的语音信号采集系统,将把说话者的声音实时记录下来,并进行一系列处理后传递给基于模式识别的语音分析系统;
(2)该语音分析系统通过模式识别的方法和相关联的语音文字数据库来进行语义的准确分析,并形成可供转换成手语动作的分离词语;
(3)手语动作分类器与视频/动画数据库,语音文字数据库相关联,根据分离出的词语实时查询包含对应手语动作的视频/动画,并将资料实时提供给显示系统,完成语音向手语的翻译。 
CN2010101390124A 2010-04-02 2010-04-02 一种手语语音双向翻译系统 Expired - Fee Related CN101794528B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2010101390124A CN101794528B (zh) 2010-04-02 2010-04-02 一种手语语音双向翻译系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2010101390124A CN101794528B (zh) 2010-04-02 2010-04-02 一种手语语音双向翻译系统

Publications (2)

Publication Number Publication Date
CN101794528A CN101794528A (zh) 2010-08-04
CN101794528B true CN101794528B (zh) 2012-03-14

Family

ID=42587197

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2010101390124A Expired - Fee Related CN101794528B (zh) 2010-04-02 2010-04-02 一种手语语音双向翻译系统

Country Status (1)

Country Link
CN (1) CN101794528B (zh)

Families Citing this family (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102567703B (zh) * 2010-12-10 2014-04-09 上海上大海润信息系统有限公司 一种基于分类特征的手部动作识别信息处理方法
CN103517029B (zh) * 2012-06-26 2017-04-19 华为技术有限公司 可视通话的数据处理方法、终端和系统
CN103116576A (zh) * 2013-01-29 2013-05-22 安徽安泰新型包装材料有限公司 一种语音手势交互翻译装置及其控制方法
CN104104898B (zh) * 2013-04-03 2017-06-27 联想(北京)有限公司 一种数据处理方法、装置和电子设备
EP3284019A4 (en) * 2015-04-16 2018-12-05 Robert Bosch GmbH System and method for automated sign language recognition
CN104951757B (zh) * 2015-06-10 2018-11-09 南京大学 一种基于无线信号的动作检测和识别的方法
CN104980599A (zh) * 2015-06-17 2015-10-14 上海斐讯数据通信技术有限公司 一种手语语音通话方法及系统
CN105096696A (zh) * 2015-07-31 2015-11-25 努比亚技术有限公司 一种基于智能手环的手语翻译装置和方法
CN105868282A (zh) * 2016-03-23 2016-08-17 乐视致新电子科技(天津)有限公司 聋哑人进行信息交流的方法、装置及智能终端
CN107566863A (zh) * 2016-06-30 2018-01-09 中兴通讯股份有限公司 一种交流信息展示方法、装置及设备、机顶盒
CN106295603A (zh) * 2016-08-18 2017-01-04 广东技术师范学院 汉语手语双向翻译系统、方法和装置
CN107231289A (zh) * 2017-04-19 2017-10-03 王宏飞 信息交流装置、信息交流系统和方法
CN107798964A (zh) * 2017-11-24 2018-03-13 郑军 一种实时识别手势的手语智能交互设备及其交互方法
CN107945600A (zh) * 2017-12-07 2018-04-20 李成斌 一种个性化视频学习系统及方法
CN108256458B (zh) * 2018-01-04 2020-08-04 东北大学 一种针对聋人自然手语的双向实时翻译系统及方法
CN108615009B (zh) * 2018-04-24 2019-07-23 山东师范大学 一种基于动态手势识别的手语翻译交流系统
CN108766433A (zh) * 2018-05-11 2018-11-06 深圳双猴科技有限公司 一种肢体语言翻译系统及方法
CN109271901A (zh) * 2018-08-31 2019-01-25 武汉大学 一种基于多源信息融合的手语识别方法
CN109214347A (zh) * 2018-09-19 2019-01-15 北京因时机器人科技有限公司 一种跨语种的手语翻译方法、装置和移动设备
CN109919127B (zh) * 2019-03-20 2021-12-17 胡海明 一种哑语语言转换系统
CN110286774B (zh) * 2019-07-03 2021-08-13 中国科学技术大学 一种基于手腕运动传感器的手语识别方法
CN110730360A (zh) * 2019-10-25 2020-01-24 北京达佳互联信息技术有限公司 视频上传、播放的方法、装置、客户端设备及存储介质
CN110826441B (zh) * 2019-10-25 2022-10-28 深圳追一科技有限公司 交互方法、装置、终端设备及存储介质
CN111428802B (zh) * 2020-03-31 2023-02-07 上海市计量测试技术研究院 一种基于支持向量机的手语翻译方法
CN113780013A (zh) * 2021-07-30 2021-12-10 阿里巴巴(中国)有限公司 一种翻译方法、设备和可读介质
CN113793533A (zh) * 2021-08-30 2021-12-14 武汉理工大学 一种基于车辆前方障碍物识别的碰撞预警方法及其装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1506871A (zh) * 2002-12-06 2004-06-23 徐晓毅 一种手语翻译系统
CN201035501Y (zh) * 2006-10-10 2008-03-12 刘向东 智能同步手语翻译系统
CN101430603A (zh) * 2008-11-26 2009-05-13 东北大学 一种便携实用型手语识别发声装置
CN101539994A (zh) * 2009-04-16 2009-09-23 西安交通大学 一种手语语音互译系统及手语语音互译方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20020088290A (ko) * 2001-05-21 2002-11-27 (주)애드임팩트 가상현실용 장갑을 이용한 수화 자동번역장치
KR100747114B1 (ko) * 2006-03-29 2007-08-09 한국과학기술원 수화 번역기

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1506871A (zh) * 2002-12-06 2004-06-23 徐晓毅 一种手语翻译系统
CN201035501Y (zh) * 2006-10-10 2008-03-12 刘向东 智能同步手语翻译系统
CN101430603A (zh) * 2008-11-26 2009-05-13 东北大学 一种便携实用型手语识别发声装置
CN101539994A (zh) * 2009-04-16 2009-09-23 西安交通大学 一种手语语音互译系统及手语语音互译方法

Also Published As

Publication number Publication date
CN101794528A (zh) 2010-08-04

Similar Documents

Publication Publication Date Title
CN101794528B (zh) 一种手语语音双向翻译系统
Hou et al. Signspeaker: A real-time, high-precision smartwatch-based sign language translator
Kang et al. A novel walking detection and step counting algorithm using unconstrained smartphones
Fang et al. Learning transportation modes from smartphone sensors based on deep neural network
CN111399642B (zh) 手势的识别方法、装置、移动终端和存储介质
Sadek et al. A new approach for designing a smart glove for Arabic Sign Language Recognition system based on the statistical analysis of the Sign Language
WO2015066348A2 (en) Method and system for estimating multiple modes of motion
Zhang et al. Human activity recognition based on time series analysis using U-Net
Hussain et al. User independent hand gesture recognition by accelerated DTW
Lu et al. Towards location independent gesture recognition with commodity WiFi devices
Lan et al. EnTrans: Leveraging kinetic energy harvesting signal for transportation mode detection
CN108629170A (zh) 身份识别方法以及相应的装置、移动终端
CN108877809A (zh) 一种说话人语音识别方法及装置
Liu et al. A vehicle steering recognition system based on low-cost smartphone sensors
Liu et al. Accelerometer Based Joint Step Detection and Adaptive Step Length Estimation Algorithm Using Handheld Devices.
CN109976526A (zh) 一种基于表面肌电传感器和九轴传感器的手语识别方法
Elhoushi et al. Online motion mode recognition for portable navigation using low‐cost sensors
CN109637126A (zh) 一种基于v2x终端的交通对象识别系统及其方法
CN109766798A (zh) 基于经验小波的手势数据处理方法、服务器及感知设备
Golroudbari et al. End-to-end deep learning framework for real-time inertial attitude estimation using 6dof imu
CN109766951A (zh) 一种基于时频统计特性的WiFi手势识别
CN101819635A (zh) 一种基于微惯导信号和模式识别的手语翻译方法
Swee et al. Malay sign language gesture recognition system
Wang Data feature extraction method of wearable sensor based on convolutional neural network
Ling et al. Unsupervised human activity segmentation applying smartphone sensor for healthcare

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
C41 Transfer of patent application or patent right or utility model
TR01 Transfer of patent right

Effective date of registration: 20160311

Address after: 214121 Wuxi base, Peking University, No. 5, No. 1 road, Binhu District, Jiangsu, Wuxi

Patentee after: Wuxi Produces Study Grinds Cooperation Education Base of Peking University Software & Microelectronic College

Patentee after: Jacal Electronic (Wuxi) Co., Ltd.

Address before: 214121 Wuxi base, Peking University, No. 5, No. 1 road, Binhu District, Jiangsu, Wuxi

Patentee before: Wuxi Produces Study Grinds Cooperation Education Base of Peking University Software & Microelectronic College

CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20120314

Termination date: 20190402

CF01 Termination of patent right due to non-payment of annual fee