CN101539994B - 一种手语语音互译系统及手语语音互译方法 - Google Patents
一种手语语音互译系统及手语语音互译方法 Download PDFInfo
- Publication number
- CN101539994B CN101539994B CN2009100220706A CN200910022070A CN101539994B CN 101539994 B CN101539994 B CN 101539994B CN 2009100220706 A CN2009100220706 A CN 2009100220706A CN 200910022070 A CN200910022070 A CN 200910022070A CN 101539994 B CN101539994 B CN 101539994B
- Authority
- CN
- China
- Prior art keywords
- sign language
- image
- module
- dimensional
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Abstract
本发明公开了一种手语语音互译系统,手势图像采集模块101采集手势的视频数据输入图像预处理模块102进行图像预处理,采用图像特征提取模块103对经图像预处理后的视频数据进行图像特征提取后输出56维特征向量,利用56维特征向量构建手语模型104,连续动态手语识别模块105识别手语模型104,输出识别结果,识别结果经中文发声模块106转化为中文语音;声音信号采集装置采集的声音信号输入Microsoft Speech SDK 5.1的语音识别编程接口转换为文字输出;通过三维建模软件建立三维模型和三维动画;利用Panda插件将三维模型和三维动画信息导出成.x格式文件;利用DirectX 3D加载.x格式的三维模型和动画输出手语动画。
Description
技术领域:
本发明属于图像模式识别的应用领域,特别涉及一种图像处理和特征提取的图像和语音相互转化的方法的应用。
背景技术:
手语语音互译系统(Sign Language & Speech Intertranslating System)的研究不仅有助于改善和提高聋哑人的生活学习和工作条件,为他们提供更好的服务,同时也可以应用于计算机辅助哑语教学、电视节目双语播放、虚拟人的研究、电影制作中的特技处理、动画的制作、医疗研究、游戏娱乐等诸多方面。
从手语输入设备来看,手语识别系统主要分为基于数据手套的识别系统和基于视觉(图像)的手语识别系统。
基于视觉的手语识别系统是利用摄像机采集手语信息,并进行识别,该方法的优点是输入设备比较便宜,使用方便。基于数据手套的手语识别系统,是利用数据手套和位置跟踪测量手语在空间运动的轨迹和时序信息,这种方法识别率比较高,缺点是打手语的人要穿戴复杂的数据手套和位置跟踪器,并且输入设备比较昂贵。
目前主要手语图像识别方法有:模板匹配方法、神经网络方法及隐马尔可夫模型(HMM)。模板匹配主要用于少量孤立手语的识别,该方法计算简单、速度快。神经网络方法具有分类特性及抗干扰性,然而由于其处理时间序列的能力不强,目前广泛用于静态手语的识别。HMM是众所周知并广泛使用的建模方法,一般拓扑结构下的HMM具有非常强的描述手语信号的时空变化能力,在动态手语识别领域一直占有主导地址。基于HMM的识别算法里,每种手语有一个HMM。可观察符号对应着模型参数空间里的向量(点),例如几何矩向量,Zernike矩,特征图像系数向量,或者3D空间的运动速度等等。基于HMM识别技术的优点包括提供了时间尺度不变性,保持了概率框架、以及具有自动分割和分类能力。
一个基于视觉的手语识别系统一般由以下几部分构成。首先,通过一个或多个摄像机获取视频数据流,接着,系统根据手语输入的交互模型检测数据流里是否有手语出现,如果有,则把该手语从视频信号中切分出来,然后,选择手语模型104进行手语分析,分析过程包括特征检测和模型参数估计。在识别阶段,根据模型参数对手语进行分类并根据需要生成手语描述,最后,系统根据生成的描述去驱动具体应用。
国外对手势识别的研究已有很长的历史,1991年富士通实验室完成了对46个手势符号的识别工作;J.Oavis和M.Shah将戴上指尖具有高亮标记的视觉手套的手势作为系统的输入,可识别7种手势;Starner等在对美国手势中带有词性的40个词汇随机组成的短句子识别率达到99.2%;k.Grobel和M.Assam从视频录像中提取特征,采用HMM技术识别262个孤立词,正确率为91.3%;Vogler与Metaxas将两种方法结合用于美国手势识别,交互采用一个位置跟踪器及三个互相垂直的摄像机作为手势输入设备,完成了53个孤立词的识别,识别率为89.9%。
我国的高文、吴江琴等人给出了ANN与HMM的混合方法作为手势的训练识别方法,以增加识别方法的分类特性和减少模型的估计参数的个数,将ANN一HMM混合方法应用于有18个传感器的CyberGlove型号数据手套的中国手势识别系统中,孤立词识别率为90%,简单语句级识别率为92%。
发明内容:
本发明的目的在于克服上述现有技术的缺点,提供一种手语语音互译系统,该系统作为正常人和聋哑人进行正常交流的平台,基于视觉的手语识别子系统1用来把聋哑人的手语转换成声音信号;语音识别模块201用于把正常人的声音信号转换成手语,便于聋哑人的识别。
本发明的目的是通过以下技术方案来解决的:
一种手语语音互译系统,该系统由基于视觉的手语识别子系统1、语音翻译子系统2构成2。
所述基于视觉的手语识别子系统1由手势图像采集模块101、图像预处理模块102、图像特征提取模块103、手语模型104、连续动态手语识别模块105、中文发声模块106组成;手势图像采集模块101采集手势的视频数据输入图像预处理模块102进行图像预处理,采用图像特征提取模块103对经图像预处理后的视频数据进行图像特征提取后输出56维特征向量,利用56维特征向量构建手语模型104,连续动态手语识别模块105识别手语模型104,输出识别结果,识别结果经中文发声模块106转化为中文语音。
所述手势图像采集模块101为利用BaslerA311fc的SDK开发的基于1394总线的BaslerA311fc工业摄像头的视频采集程序模块。
所述图像预处理模块102对输入图像进行了平滑预处理和自适应阈值的二值化预处理;其中平滑预处理是对噪声图像使用中值滤波法,自适应阈值的二值化预处理是指根据图像处理的目标要求,把多灰度级的图像变成只有两个灰度级的图像,设图像f(x,y)的灰度值范围在[a,b],二值化阈值设为T(a≤T≤b),则二值化处理的公式为:
g(x,y)是二值图像,通常我们用1来表示对象物,用0来表示背景区域。
5、一种手语语音互译系统,其特征在于:所述图像特征提取模块103基于手语图像的边界特征和手运动轨迹特征,把两只手的面积大小、两只手和脸的相对坐标、归一化的傅立叶描述子作为特征向量,选取每一帧视频图像的双手轮廓的边缘特征和双手与人脸的距离以及双手的横纵坐标作为输入,形成56维特征向量,56维特征向量经预处理后,形成HMM的观察序列。
所述手语模型104采用HMM刻画动态手语。
所述连续动态手语识别模块105使用Forward-backward算法遍历所有HMM,求出输入序列对每个HMM模型的出现概率,然后选出概率最大的HMM作为识别结果。
所述语音翻译子系统2由语音识别模块201和手语动画模块202组成,语音识别模块201输出的信号经手语动画模块202处理后输出手语图像。
所述语音识别模块201由声音信号采集装置和语音识别编程接口组成,声音信号采集装置采集的声音信号输入Microsoft Speech SDK 5.1的语音识别编程接口转换为文字输出;通过三维建模软件建立三维模型和三维动画;利用Panda插件将三维模型和三维动画信息导出成.x格式文件;利用DirectX 3D加载.x格式的三维模型和动画输出手语动画。
一种手语语音互译系统的手语语音互译方法,按照以下步骤:手势图像采集模块101采集手势的视频数据输入图像预处理模块102进行图像预处理,采用图像特征提取模块103对经图像预处理后的视频数据进行图像特征提取后输出56维特征向量,利用56维特征向量构建手语模型104,连续动态手语识别模块105识别手语模型104,输出识别结果,识别结果经中文发声模块106转化为中文语音;声音信号采集装置采集的声音信号输入Microsoft Speech SDK 5.1的语音识别编程接口转换为文字输出;通过三维建模软件建立三维模型和三维动画;利用Panda插件将三维模型和三维动画信息导出成.x格式文件;利用DirectX 3D加载.x格式的三维模型和动画输出手语动画。
本发明所采取的方法使用方便,识别率高,使用的设备经济便宜,特备适用于在正常人和聋哑人的交流中大范围的推广。
附图说明:
图1为本发明的手语语音互译系统示意图;
图2为本发明的基于视觉的手语识别子系统示意图;
图3为本发明语音翻译子系统示意图;
图4为本发明的特征向量的提取过程示意图;
图5为本发明特征提取处理效果图;
图6为本发明多线程优化前程序各子函数时间性能分析图;
图7为本发明的多线程优化后各子函数时间性能分析图
具体实施方式:
下面结合附图对本发明做进一步详细描述:
参见图1、2、3、4、5、6,根据正常人和聋哑人双向交互的要求,本发明把整个系统系统分为基于视觉的手语识别、语音翻译两个子系统来实现。
一种手语语音互译系统,该系统由基于视觉的手语识别子系统1、语音翻译子系统2构成。
所述基于视觉的手语识别子系统1由手势图像采集模块101、图像预处理模块102、图像特征提取模块103、手语模型104、连续动态手语识别模块105、中文发声模块106组成;手势图像采集模块101采集手势的视频数据输入图像预处理模块102进行图像预处理,采用图像特征提取模块103对经图像预处理后的视频数据进行图像特征提取后输出56维特征向量,利用56维特征向量构建手语模型104,连续动态手语识别模块105识别手语模型104,输出识别结果,识别结果经中文发声模块106转化为中文语音。
所述手势图像采集模块101为利用BaslerA311fc的SDK开发的基于1394总线的BaslerA311fc工业摄像头的视频采集程序模块。
所述图像预处理模块102对输入图像进行了平滑预处理和自适应阈值的二值化预处理;其中平滑预处理是对噪声图像使用中值滤波法,自适应阈值的二值化预处理是指根据图像处理的目标要求,把多灰度级的图像变成只有两个灰度级的图像,设图像f(x,y)的灰度值范围在[a,b],二值化阈值设为T(a≤T≤b),则二值化处理的公式为:
g(x,y)是二值图像,通常我们用1来表示对象物,用0来表示背景区域。
5、一种手语语音互译系统,其特征在于:所述图像特征提取模块103基于手语图像的边界特征和手运动轨迹特征,把两只手的面积大小、两只手和脸的相对坐标、归一化的傅立叶描述子作为特征向量,选取每一帧视频图像的双手轮廓的边缘特征和双手与人脸的距离以及双手的横纵坐标作为输入,形成56维特征向量,56维特征向量经预处理后,形成HMM的观察序列。
所述手语模型104采用HMM刻画动态手语。
所述连续动态手语识别模块105使用Forward-backward算法遍历所有HMM,求出输入序列对每个HMM模型的出现概率,然后选出概率最大的HMM作为识别结果。
所述语音翻译子系统2由语音识别模块201和手语动画模块202组成,语音识别模块201输出的信号经手语动画模块202处理后输出手语图像。
所述语音识别模块201由声音信号采集装置和语音识别编程接口组成,声音信号采集装置采集的声音信号输入Microsoft Speech SDK 5.1的语音识别编程接口转换为文字输出;通过三维建模软件建立三维模型和三维动画;利用Panda插件将三维模型和三维动画信息导出成.x格式文件;利用DirectX 3D加载.x格式的三维模型和动画输出手语动画。
一种手语语音互译系统的手语语音互译方法,按照以下步骤:手势图像采集模块101采集手势的视频数据输入图像预处理模块102进行图像预处理,采用图像特征提取模块103对经图像预处理后的视频数据进行图像特征提取后输出56维特征向量,利用56维特征向量构建手语模型104,连续动态手语识别模块105识别手语模型104,输出识别结果,识别结果经中文发声模块106转化为中文语音;声音信号采集装置采集的声音信号输入Microsoft Speech SDK 5.1的语音识别编程接口转换为文字输出;通过三维建模软件建立三维模型和三维动画;利用Panda插件将三维模型和三维动画信息导出成.x格式文件;利用DirectX 3D加载.x格式的三维模型和动画输出手语动画。
采集图像信息:本发明采用了基于1394总线的BaslerA311fc工业摄像头。由于一般的图形库例如OPenCV没有相应的视频采集代码,本发明以Visual Stdio6.0为平台,利用BaslerA311fc的SDK开发了基于1394总线的BaslerA311fc工业摄像头的视频采集程序模块。该模块能够采用了多线程技术,能够满足实时的要求
图像预处理:图像预处理的目的是去除图像中的噪声,加强图像中的有用信息,并对由输入方式或其他原因造成的退化现象进行复原。本发明对输入图像进行了平滑、自适应阈值的二值化预处理。对图像进行平滑处理,这可在空域或频域中进行,在平滑噪声时应尽量不损害图像中边沿和各种细节。本发明采用的平滑技术是对噪声图像使用中值滤波法,是一种非线形的图像平滑方法,它对一个滑动窗口的诸像素灰度排序,用中值代替窗口中心像素原来的灰度值(若窗口中有偶数个像素,则取两个中间值的平均)。中值滤波有以下优点:一、降低噪声的效果比较明显;二、在灰度值变化较小的情况下可以得到很好的平滑处理;三、降低了图像边界部分的模糊程度。而且可以多个像素并行处理,因此可实现实时或准实时处理。对图像进行二值化是指根据图像处理的目标要求,需要把多灰度级的图像变成只有两个灰度级的图像。设图像f(x,y)的灰度值范围在[a,b],二值化阈值设为T(a≤T≤b),则二值化处理的一般式为:
g(x,y)是二值图像,通常我们用1来表示对象物(白色区域),用0来表示背景区域(白色区域)。
预处理和图像特征提取:在模式识别中,如何提取特征是相当重要的。本发明采用的特征提取方法主要建立在手语图像的边界特征和手运动轨迹特征上:把两只手的面积大小、两只手和脸的相对坐标、归一化的傅立叶描述子作为特征向量。其中两只手和脸的相对坐标、两只手的面积和分别描述了两只手的(x,y,z)。采用手和脸的相对坐标就可以防止手语识别中因为人跟摄像头的位置不同造成误差。手的面积简单的增加了一些三维信息可以解决手语中一些手垂直于胸前运动的手语识别率低的问题,使识别准确率有所提高。归一化的傅立叶描述子可以很清楚的描述手形特征。经过尝试,本系统选取每一帧视频图像的双手轮廓的边缘特征和双手与人脸的距离以及双手的横纵坐标作为输入,形成56维特征向量。其中前五十项是双手轮廓的归一化傅立叶描述子、两项是归一化的手与脸轮廓的距离、后四项是左右双手的横纵坐标。归一化的傅立叶描述子基本上每一项都是小于1的,但是左右手和脸的相对横坐标的绝对值基本上都是0到320之间(单位是像素),相对纵坐标是绝对值是0-480,手的面积一般情况下都是30000-600000之间。为了能够用这些特征全面准确的描述出每一帧手信息,我们必须对特征向量进行预处理。后面的矢量量化采用了基于欧氏距离的LBG聚类算法,所以必须让后面的6项和前面的傅立叶描述子值大小不要相差太大,否则聚类就会严重失衡。因此在实验的过程中,采取给左右手的横坐标值除以320,坐标除以480,面积除以60000,这样特征向量的值就不会相差特别大。基于视觉的手语识别系统中识别部分主要方法是HMM,为了能够产生观察序列并压缩数据,采用了矢量量化来解决这一问题。矢量量化是指将若干个标量数据组构成一个矢量,然后在矢量空间给以整体量化,从而压缩了数据而不损失多少信息。本发明采用的是基于欧氏距离的方法。首先,通过采集大量的样本特征向量(3000组)进行聚类形成码本;这样,识别时每一帧图像的特征向量经过解码都被量化成为了一个一维的观察值,多个观察值就形成了刻画动态手语的观察值序列,这样的观察值序列就是HMM的输入。主要的处理过程如下图所示:
手语模型104构建:本系统采用隐马尔可夫模型(Hidden Markov Model,简称HMM)来刻画动态手语。HMM是一个双重随机过程,是由马尔可夫链演变而来的,包括马尔可夫链和一般随机过程两个组成部分。其中马尔可夫链描述状态的转移,用转移概率描述;一般随机过程描述状态与观察序列间的关系,用观察值概率描述。对于HMM,其的状态转换过程是不可观察的,因而称之为“隐”马尔可夫模型。首先需要确定每个模型的状态个数。不同长度的手语适用的状态个数也是不同的,长的手语产生的观察序列长,需要更多的状态个数才能得到更准确的刻画,而短的手语状态个数也应当相应的少,这样,长度不同的手语区分度也更大。状态结点的个数决定了模型中所记录的特征帧的数目。由于构成各个词的基本手势数不同,各词的模型也应包括不同数目的状态结点,因此有必要根据数据的变化情况将训练数据分成若干个基本手势段,使得同一个基本手势的数据尽量分在同一段内,这里的分割目的是使同一段内的数据的均方差尽量小,本发明采用动态规划的递推的分割算法,其基本思想如下:给定观察序列O=O1O2...OT,给定段数K,为了使各段内的均方差最小,定义如下变量:
Cov(k,O(t)):第t帧是第k段的分界终点时,前k段各段内的最小的均方差之和;
B(k,O(t)):当第t帧是第k段的分界终点时,前一段的分界点;
D(O(j),O(t)):从第j帧到第t帧的数据的均方差;
由此易得如下递推式:
在算出整个观察序列O1O2...OT所分各段的最小均方差之和以后,再根据B(k,O(t))回溯出各段分界点。
根据这些关系可以导出下列分个算法
1.计算:
Cov(1,O(t))=D(O(1),O(t)),t=1,2,...,T
2.对t=2,3,...,T,根据式2-7、2-8可由Cov(k,O(t-1))求Cov(k,O(t)),并求出B(k,O(t));
3.由k=K出发进行逆推运算,求出各段分割点S(k):S(K)=T
S(k)=B(k+1,O(S(k+1))),k=(K-1),(K-2),...,1
在此基础上,可将给定数据依次分为1段,2段,......,直至各段均方差都小于给定阈值,或分为最大段数停止。最后所分得的各段的均方差即为HMM的参数B的初值。对于隐马尔科夫模型的参数选择和优化问题,目前使用较广的处理方法是Baum-Welch估计算法。该算法是一种迭代算法,初始时刻由用户给出各参数的经验估计值,通过不断迭代,使个参数逐渐趋向更为合理的较优值。如果模型比较复杂无法给出经验估计值,则可以把初始值设为随机数,这样可以使得模型训练更具有一般性。经Baum-Welch算法训练结束后,记录该词所对应模型的状态结点数。在进行识别时,根据各个模型的状态数来判定该模型的终结点。由于状态结点数是由基本手势数决定的,经过训练后,状态结点能更好地表示词中所包含的手势的变化。
其次进行模型训练。HMM的训练就是不断调整内部参数λ=(A,B,π)的值,进而使得所得给定模型参数情况下输出序列O=O1O2...OT的出现概率P(O|λ)最大。本发明的训练算法采用的是Baum-Welch迭代算法使得P(O|λ)的值趋向最大。在训练的过程中每个模型需要一定数量的样本进行数次迭代训练,以使得模型参数收敛到使得P(O|λ)最大的值。多个样本的训练通过参数重估公式解决,训练的准则采取最大似然(ML)准则。为了体现一般性,模型参数的初始值采用随机数生成。本发明中的每个手语都做了5个样本,第一次训练的模型初始值随机生成,然后把第一次训练得到的HMM作为下次训练的初始值,往下依次迭代,更新模型参数。经过三到四次迭代后HMM的模型已经基本区域收敛,再继续迭代对模型的改进的效果也不再明显。
动态识别:连续的动态手语识别就是找出对输入的观察序列的匹配概率最大的模型,这是一个搜索问题,搜索空间是由所有训练好的HMM。本发明采用Forward-backward算法来进行。Forward-backward算法用来计算给定模型参数情况下输出序列O=O1O2...OT的出现概率P(O|λ)。使用Forward-backward算法动态识别的过程就是遍历所有HMM,求出输入序列对每个HMM模型的出现概率P(O|λ),然后选出概率最大的HMM作为最佳匹配模型,这个模型即为识别结果。考虑到本系统不需要输出模型的最优相关序列,而且Forward-backward算法得到的概率更能体现观察序列和模型的匹配度。
语音翻译:语音翻译模块的功能是将正常人的口语转换成三维虚拟人的手语,以便聋哑人可以通过三维虚拟人的手语动画来理解正常人的口语。
具体方案通过以下步骤实现:
1)正常人的口语经过语音识别模块201,转变成文字。
2)文字通过语法分析,转变成基本的手语单词。
3)利用三维虚拟人将手语单词按照手语语序以动画的形式表现出来。
这里主要涉及两个模块的实现一是语音识别模块201,另一个是手语动画模块202,下面介绍两大模块的实现。
语音识别模块201的实现
语音识别模块201的实现主要借助于Microsoft Speech SDK 5.1的语音识别编程接口。
手语动画的实现
我们选择DirectX 3D为我们的动画编程工具。
DirectX是微软公司开发的运行于计算机平台的多媒体控制处理引擎。对于程序员来说,DirectX 3D是一套非常优秀的高性能三维图形程序可编程接口,它对三维图形程序的开发提供了全方位的支持。
在实际的三维图形程序中,需要构建的三维模型一般来说都是很复杂的,比如一架飞机的模型,一辆坦克的模型等。利用程序代码构建这样的三维模型是非常困难的。因此,通常情况下三维图形开发接口需要与其它功能强大的三维建模软件结合起来。先利用三维建模软件(如3DS Max,Maya等)制作出复杂物体的模型,保存到相应的模型文件中,然后三维图形开发接口再将保存到文件中的模型加载到程序中进行显示。.x文件就是这样一种模型文件。
为了能够实现手语动画,本发明采用以下几个步骤:
1)利用三维建模软件(本发明选用3DS Max)开发三维模型和三维动画。
2)利用Panda插件将三维模型和三维动画信息导出成.x格式文件。
3)利用DirectX 3D编写函数,以加载.x格式的三维模型和动画。
系统测试
多线程优化:本系统的实验硬件平台是基于英特尔酷睿双核处理器的嵌入式开发平台,运行多线程程序可以比单线程程序速度更快、更有效率。由于识别的流程多、计算量大,需要的计算时间也较长,为了保证系统的实时性,本发明在程序中使用了OpenMP多线程技术和英特尔公司的多线程开发工具套件。
优化前用Intel Thread Profiler分析HMM迭代训练的程序,得到的各个子函数时间性能如图3所示。在图中可以看到程序中的BaumWelch(),ComputeXi(),ForwardWithScale()和BackwardWithScale()等几个子函数时间性能较差。针对这几个较差的子函数,本发明利用OpenMP技术对这几个函数进行了多线程化处理。用IntelThread Checker检查OpenMP的使用没有错误后,再次运行Intel Thread Profiler分析程序的各个子函数的时间性能,得到的结果如图4示。可以看到经过OpenMP优化后部分子函数的运行时间大大缩短,时间性能提升显著,特别是函数BaumWelch()和BackwardWithScale()。
手语识别测试:采用摄像头采集视频数据,采样速率15帧/秒,视频格式为640×480像素。在此条件下,系统可以实时的进行连续动态手语识别。本发明选取30个动态中国手语词汇建立了模型。
为了减少图像处理需要的时间,保证系统的实时性,本发明对实验环境进行了一些简单化处理,如打手语者要求穿黑色的衣服、戴白手套,打手语者身后的背景也要求是黑色的。由于打手语者的双手与脸的轮廓的距离是输入特征向量的一部分,所以测试开始时需要先进行人脸检测,记录人脸轮廓的中心坐。
在确定最终模型后,本发明对所有手语词汇进行了实时测试,每个手语词汇测试50次。总体的识别成功率达到了90%以上。各个词汇的识别正确率如下表:
手语识别测试结果
词汇 | 北京 | 到 | 来自 | 上午 | 四川 | 西安 | 指导 | 中国 | 加油 | 奥运会 |
正确率 | 98% | 88% | 90% | 96% | 82% | 92% | 96% | 90% | 84% | 98% |
词汇 | 报纸 | 参观 | 参加 | 大家好 | 大学 | 道路 | 地震 | 欢迎 | 交通 | 老师 |
正确率 | 90% | 96% | 96% | 92% | 96% | 86% | 90% | 100% | 94% | 100% |
词汇 | 你们 | 上班 | 停止 | 同学 | 我们 | 谢谢 | 学校 | 椅子 | 桌子 | 上海 |
正确率 | 78% | 90% | 92% | 94% | 84% | 92% | 92% | 84% | 96% | 96% |
语音识别模块201的测试:用普通麦克风采集语音信号,在周围无明显噪音的情况下测试以下词汇,每个词汇测试50次,得到语音识别的准确率如下表所示:
语音识别测试结果
词汇 | 北京 | 到 | 来自 | 上午 | 四川 | 西安 | 指导 | 中国 | 加油 | 奥运会 |
正确率 | 98% | 82% | 96% | 96% | 94% | 98% | 90% | 100% | 96% | 100% |
词汇 | 报纸 | 参观 | 参加 | 大家好 | 大学 | 道路 | 地震 | 欢迎 | 交通 | 老师 |
正确率 | 90% | 90% | 92% | 98% | 96% | 88% | 88% | 94% | 94% | 96% |
词汇 | 你们 | 上班 | 停止 | 同学 | 我们 | 谢谢 | 学校 | 椅子 | 桌子 | 上海 |
正确率 | 96% | 96% | 90% | 94% | 96% | 98% | 98% | 90% | 84% | 96% |
以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施方式仅限于此,对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单的推演或替换,都应当视为属于本发明由所提交的权利要求书确定专利保护范围。
Claims (6)
1.一种手语语音互译系统,其特征在于:
该系统由基于视觉的手语识别子系统(1)、语音翻译子系统(2)构成;
所述基于视觉的手语识别子系统(1)由手势图像采集模块(101)、图像预处理模块(102)、图像特征提取模块(103)、手语模型(104)、连续动态手语识别模块(105)、中文发声模块(106)组成;手势图像采集模块(101)采集手势的视频数据输入图像预处理模块(102)进行图像预处理,采用图像特征提取模块(103)对经图像预处理后的视频数据进行图像特征提取后输出56维特征向量,利用56维特征向量构建手语模型(104),连续动态手语识别模块(105)识别手语模型(104),输出识别结果,识别结果经中文发声模块(106)转化为中文语音;
所述语音翻译子系统(2)由语音识别模块(201)和手语动画模块(202)组成,语音识别模块(201)输出的信号经手语动画模块(202)处理后输出手语图像;所述手语模型(104)采用隐马尔可夫模型HMM刻画动态手语;
所述语音识别模块(201)由声音信号采集装置和语音识别编程接口组成,声音信号采集装置采集的声音信号输入Microsoft Speech SDK 5.1的语音识别编程接口转换为文字输出;通过三维建模软件将文字转换为三维模型和三维动画;利用Panda插件将三维模型和三维动画信息导出成.x格式文件;利用DirectX 3D加载.x格式的三维模型和动画输出手语图像。
2.根据权利要求1所述的一种手语语音互译系统,其特征在于:所述手势图像采集模块(101)为利用BaslerA311fc的SDK开发的基于1394总线的BaslerA311fc工业摄像头的视频采集程序模块。
4.根据权利要求1所述的一种手语语音互译系统,其特征在于:所述图像特征提取模块(103)基于手语图像的边界特征和手运动轨迹特征,把两只手的面积大小、两只手和脸的相对坐标、归一化的傅立叶描述子作为特征向量,选取每一帧视频图像的双手轮廓的边缘特征和双手与人脸的距离以及双手的横纵坐标作为输入,形成56维特征向量,56维特征向量经预处理后,形成隐马尔可夫模型HMM的观察序列。
5.根据权利要求1所述的一种手语语音互译系统,其特征在于:所述连续动态手语识别模块(105)使用Forward-backward算法遍历所有HMM,求出输入序列对每个隐马尔可夫模型HMM的出现概率,然后选出概率最大的隐马尔可夫模型HMM作为识别结果。
6.基于权利要求1所述的一种手语语音互译系统的手语语音互译方法,其特征在于,按照以下步骤:手势图像采集模块(101)采集手势的视频数据输入图像预处理模块(102)进行图像预处理,采用图像特征提取模块(103)对经图像预处理后的视频数据进行图像特征提取后输出56维特征向量,利用56维特征向量构建手语模型(104),连续动态手语识别模块(105)识别手语模型(104),输出识别结果,识别结果经中文发声模块(106)转化为中文语音;声音信号采集装置采集的声音信号输入Microsoft Speech SDK 5.1的语音识别编程接口转换为文字输出;通过三维建模软件建立三维模型和三维动画;利用Panda插件将三维模型和三维动画信息导出成.x格式文件;利用DirectX 3D加载.x格式的三维模型和动画输出手语动画;所述手语模型(104)采用隐马尔可夫模型HMM刻画动态手语。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2009100220706A CN101539994B (zh) | 2009-04-16 | 2009-04-16 | 一种手语语音互译系统及手语语音互译方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2009100220706A CN101539994B (zh) | 2009-04-16 | 2009-04-16 | 一种手语语音互译系统及手语语音互译方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN101539994A CN101539994A (zh) | 2009-09-23 |
CN101539994B true CN101539994B (zh) | 2012-07-04 |
Family
ID=41123177
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2009100220706A Expired - Fee Related CN101539994B (zh) | 2009-04-16 | 2009-04-16 | 一种手语语音互译系统及手语语音互译方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN101539994B (zh) |
Families Citing this family (34)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101794528B (zh) * | 2010-04-02 | 2012-03-14 | 北京大学软件与微电子学院无锡产学研合作教育基地 | 一种手语语音双向翻译系统 |
CN101819635A (zh) * | 2010-04-02 | 2010-09-01 | 北京大学软件与微电子学院无锡产学研合作教育基地 | 一种基于微惯导信号和模式识别的手语翻译方法 |
US8751215B2 (en) | 2010-06-04 | 2014-06-10 | Microsoft Corporation | Machine based sign language interpreter |
CN102004548B (zh) * | 2010-11-18 | 2013-02-13 | 无锡中星微电子有限公司 | 利用图像采集设备进行信息输入的系统及其方法 |
CN102956132B (zh) * | 2011-08-25 | 2015-02-25 | 赛恩倍吉科技顾问(深圳)有限公司 | 手语翻译系统、手语翻译装置及手语翻译方法 |
CN102385439A (zh) * | 2011-10-21 | 2012-03-21 | 华中师范大学 | 一种用于电子白板的人机手势交互系统 |
CN103135756B (zh) * | 2011-12-02 | 2016-05-11 | 深圳泰山体育科技股份有限公司 | 生成控制指令的方法和系统 |
CN103116576A (zh) * | 2013-01-29 | 2013-05-22 | 安徽安泰新型包装材料有限公司 | 一种语音手势交互翻译装置及其控制方法 |
CN103810922B (zh) * | 2014-01-29 | 2016-03-23 | 上海天昊信息技术有限公司 | 手语翻译系统 |
CN104064187B (zh) * | 2014-07-09 | 2017-12-08 | 张江杰 | 一种哑语转换语音系统 |
CN104463250B (zh) * | 2014-12-12 | 2017-10-27 | 广东工业大学 | 一种基于达芬奇技术的手语识别翻译方法 |
CN104978886A (zh) * | 2015-06-29 | 2015-10-14 | 广西瀚特信息产业股份有限公司 | 一种基于体感技术的手语翻译系统及处理方法 |
CN105068657B (zh) * | 2015-08-19 | 2019-01-15 | 北京百度网讯科技有限公司 | 手势的识别方法及装置 |
CN105868282A (zh) * | 2016-03-23 | 2016-08-17 | 乐视致新电子科技(天津)有限公司 | 聋哑人进行信息交流的方法、装置及智能终端 |
CN105702130A (zh) * | 2016-04-25 | 2016-06-22 | 北京理工大学珠海学院 | 手语翻译器 |
CN105956529A (zh) * | 2016-04-25 | 2016-09-21 | 福州大学 | 一种基于lstm型rnn的中国手语识别方法 |
CN106125922B (zh) * | 2016-06-22 | 2023-11-07 | 齐齐哈尔大学 | 一种哑语与口语语音图像信息交流系统 |
CN107566863A (zh) * | 2016-06-30 | 2018-01-09 | 中兴通讯股份有限公司 | 一种交流信息展示方法、装置及设备、机顶盒 |
CN106056994A (zh) * | 2016-08-16 | 2016-10-26 | 安徽渔之蓝教育软件技术有限公司 | 一种用于手语职业教育的辅助学习系统 |
CN107451578A (zh) * | 2017-08-14 | 2017-12-08 | 西安文理学院 | 基于体感设备的聋哑人手语机器翻译方法 |
CN107610284A (zh) * | 2017-08-23 | 2018-01-19 | 移康智能科技(上海)股份有限公司 | 一种手势识别方法、装置及智能猫眼 |
CN108256458B (zh) * | 2018-01-04 | 2020-08-04 | 东北大学 | 一种针对聋人自然手语的双向实时翻译系统及方法 |
CN108615009B (zh) * | 2018-04-24 | 2019-07-23 | 山东师范大学 | 一种基于动态手势识别的手语翻译交流系统 |
CN110533020B (zh) * | 2018-05-25 | 2022-08-12 | 腾讯科技(深圳)有限公司 | 一种文字信息的识别方法、装置及存储介质 |
CN108960158A (zh) * | 2018-07-09 | 2018-12-07 | 珠海格力电器股份有限公司 | 一种智能手语翻译的系统和方法 |
CN109214347A (zh) * | 2018-09-19 | 2019-01-15 | 北京因时机器人科技有限公司 | 一种跨语种的手语翻译方法、装置和移动设备 |
CN108831447A (zh) * | 2018-09-29 | 2018-11-16 | 广东工业大学 | 基于hmm和pnn的语音识别方法、装置及存储介质 |
CN109902554B (zh) * | 2019-01-09 | 2023-03-10 | 天津大学 | 一种基于商用Wi-Fi的手语的识别方法 |
CN109919127B (zh) * | 2019-03-20 | 2021-12-17 | 胡海明 | 一种哑语语言转换系统 |
CN110457673B (zh) * | 2019-06-25 | 2023-12-19 | 北京奇艺世纪科技有限公司 | 一种自然语言转换为手语的方法及装置 |
CN110189757A (zh) * | 2019-06-27 | 2019-08-30 | 电子科技大学 | 一种大熊猫个体识别方法、设备及计算机可读存储介质 |
CN111354246A (zh) * | 2020-01-16 | 2020-06-30 | 浙江工业大学 | 一种用于帮助聋哑人交流的系统及方法 |
CN111428871B (zh) * | 2020-03-31 | 2023-02-24 | 上海市计量测试技术研究院 | 一种基于bp神经网络的手语翻译方法 |
CN112906498A (zh) * | 2021-01-29 | 2021-06-04 | 中国科学技术大学 | 手语动作的识别方法及装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1088326A (zh) * | 1992-12-17 | 1994-06-22 | 刘莎 | 国际通用计算机图文互译对话系统 |
EP1542465A1 (en) * | 2002-09-17 | 2005-06-15 | Ginganet Corporation | Sign language interpretation system and sign language interpretation method |
CN1770843A (zh) * | 2005-09-20 | 2006-05-10 | 乐金电子(沈阳)有限公司 | 为语言障碍人员提供数据转换和传输的装置及其方法 |
CN101005574A (zh) * | 2006-01-17 | 2007-07-25 | 上海中科计算技术研究所 | 视频虚拟人手语编辑系统 |
-
2009
- 2009-04-16 CN CN2009100220706A patent/CN101539994B/zh not_active Expired - Fee Related
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1088326A (zh) * | 1992-12-17 | 1994-06-22 | 刘莎 | 国际通用计算机图文互译对话系统 |
EP1542465A1 (en) * | 2002-09-17 | 2005-06-15 | Ginganet Corporation | Sign language interpretation system and sign language interpretation method |
CN1770843A (zh) * | 2005-09-20 | 2006-05-10 | 乐金电子(沈阳)有限公司 | 为语言障碍人员提供数据转换和传输的装置及其方法 |
CN101005574A (zh) * | 2006-01-17 | 2007-07-25 | 上海中科计算技术研究所 | 视频虚拟人手语编辑系统 |
Also Published As
Publication number | Publication date |
---|---|
CN101539994A (zh) | 2009-09-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101539994B (zh) | 一种手语语音互译系统及手语语音互译方法 | |
CN106683680B (zh) | 说话人识别方法及装置、计算机设备及计算机可读介质 | |
Mekala et al. | Real-time sign language recognition based on neural network architecture | |
CN112733749A (zh) | 融合注意力机制的实时行人检测方法 | |
CN108629288B (zh) | 一种手势识别模型训练方法、手势识别方法及系统 | |
US20150325240A1 (en) | Method and system for speech input | |
CN110362819B (zh) | 基于卷积神经网络的文本情感分析方法 | |
CN113850162B (zh) | 一种视频审核方法、装置及电子设备 | |
CN110972112B (zh) | 地铁运行方向的确定方法、装置、终端及存储介质 | |
CN110232308A (zh) | 基于手部速度与轨迹分布的跟随机器人手势轨迹识别方法 | |
CN112734803B (zh) | 基于文字描述的单目标跟踪方法、装置、设备及存储介质 | |
CN111653270B (zh) | 语音处理方法、装置、计算机可读存储介质及电子设备 | |
CN112068555A (zh) | 一种基于语义slam方法的语音控制型移动机器人 | |
Maas et al. | Recurrent neural network feature enhancement: The 2nd CHiME challenge | |
CN111508480A (zh) | 音频识别模型的训练方法、音频识别方法、装置及设备 | |
CN110706256A (zh) | 一种基于多核异构平台的检测跟踪算法优化方法 | |
CN110991278A (zh) | 计算机视觉系统的视频中人体动作识别方法和装置 | |
CN103489000A (zh) | 一种人体动作识别训练系统的实现方法 | |
CN114694255B (zh) | 基于通道注意力与时间卷积网络的句子级唇语识别方法 | |
CN116994021A (zh) | 图像检测方法、装置、计算机可读介质及电子设备 | |
CN111461121A (zh) | 一种基于yolov3网络的电表示数识别方法 | |
Liu et al. | An accelerometer-based gesture recognition algorithm and its application for 3D interaction | |
CN111091001B (zh) | 一种词语的词向量的生成方法、装置及设备 | |
CN110163489B (zh) | 一种戒毒运动锻炼成效评价方法 | |
CN113095072A (zh) | 文本处理方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20120704 Termination date: 20150416 |
|
EXPY | Termination of patent right or utility model |