CN101510256A

CN101510256A - 一种口型语言的转换方法及装置

Info

Publication number: CN101510256A
Application number: CNA2009101295080A
Authority: CN
Inventors: 孔令贺
Original assignee: Shenzhen Huawei Communication Technologies Co Ltd
Current assignee: Huawei Device Co Ltd
Priority date: 2009-03-20
Filing date: 2009-03-20
Publication date: 2009-08-19
Anticipated expiration: 2029-03-20
Also published as: CN101510256B

Abstract

本发明公开了一种口型语言的转换方法及装置，属于通信技术领域。所述方法包括：将采集的嘴唇运动视频分割成口型图像序列组；对所述口型图像序列组进行识别，得到所述口型图像序列组对应的语音音节。所述装置包括：采集模块、分割模块和识别模块。本发明通过将采集的嘴唇运动视频分割成口型图像序列，并识别口型图像序列所对应的语音音节，实现口型语言到语音音节的转换，解决了语音障碍人士的通话问题，从而满足语音障碍人士的通话需求，具有为语音障碍人士提供方便的效果。

Description

一种口型语言的转换方法及装置

技术领域

本发明涉及通信技术领域，特别涉及一种口型语言的转换方法及装置。

背景技术

通信技术快速发展的现代社会，手机产品在通信方面带给了人们极大的便利，从蓝牙技术到无线上网都显示出了手机产品的强大功能。利用手机产品进行通话，成为了人们联系的主要方式。如今，摄像头也已经成为了手机的标准配置，随着手机功能的多样化，手机产品渐渐成为了人们日常生活中的必需品。

现有的手机产品在通话时，都是利用语音通话技术，通过将人的语音信号转换为相应的电信号，再通过无限射频技术发送，接受方接收到信号，还原出原来的语音信号。

在实现本发明的过程中，发明人发现，现有技术存在以下缺点：

现有的手机产品，主要是对通话方的语音信号进行接受处理，没有考虑到具有语音障碍的人士基本无法使用语音通话技术，因此，现有的手机产品还不能够为具有语音障碍的人士提供真正的方便。

发明内容

为了满足具有语音障碍人士的通话需求，为具有语音障碍的人士提供方便，本发明实施例提供了一种口型语言的转换方法及装置，技术方案如下：

一方面，提供了一种口型语言的转换方法，所述方法包括：

将采集的嘴唇运动视频分割成口型图像序列组；

对所述口型图像序列组进行识别，得到所述口型图像序列组对应的语音音节。

另一方面，提供了一种口型语言的转换装置，所述装置包括：

分割模块，用于将采集的嘴唇运动视频分割成口型图像序列组；

识别模块，用于对所述口型图像序列组进行识别，得到所述口型图像序列组对应的语音音节。

还提供了一种口型语言的转换方法，所述方法包括：

识别语音音节对应的口型图像序列，获得所述语音音节对应的口型图像序列；

将所述口型图像序列连续播放，产生对应的口型语言。

还提供了一种口型语言的转换装置，所述转换装置包括：

识别模块，用于识别语音音节对应的口型图像序列，获得所述语音音节对应的口型图像序列；

播放模块，用于将所述识别模块识别出的口型图像序列连续播放，产生对应的口型语言。

本发明实施例提供的技术方案的有益效果是：

通过将采集的嘴唇运动视频分割成口型图像序列，并识别口型图像序列所对应的语音音节，实现口型语言到语音音节的转换，还可以通过识别出语音音节对应的口型图像序列，实现语音音节到口型语言的转换，解决了语音障碍人士的通话问题，从而满足语音障碍人士的通话需求，为语音障碍人士提供方便。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例1提供的口型语言的转换方法流程图；

图2是本发明实施例1提供的另一种口型语言的转换方法流程图；

图3是本发明实施例2提供的口型语言的转换方法流程图；

图4是本发明实施例2提供的口型图像示意图；

图5是本发明实施例2提供的另一种口型语言的转换方法流程图；

图6是本发明实施例3提供的口型语言的转换装置结构示意图；

图7是本发明实施例3提供的另一种口型语言的转换装置结构示意图；

图8是本发明实施例3提供的又一种口型语言的转换装置结构示意图；

图9是本发明实施例4提供的口型语言的转换装置结构示意图；

图10是本发明实施例4提供的另一种口型语言的转换装置结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地详细描述。

实施例1

参见图1，本实施例提供了一种口型语言的转换方法，所述方法包括：

101：将采集的嘴唇运动视频分割成口型图像序列组；

102：对所述口型图像序列组进行识别，得到所述口型图像序列组对应的语音音节。

上述方法通过对表现口型语言的嘴唇运动视频进行分割和识别，实现了口型语言到语音音节的转换，参见图2，本实施例还提供了一种口型语言的转换方法，能够实现语音音节到口型语言的转换，方法流程如下：

201：识别语音音节对应的口型图像序列，获得所述语音音节对应的口型图像序列；

202：将所述口型图像序列连续播放，产生对应的口型语言。

本实施例通过对采集的嘴唇运动视频进行分割和识别，实现口型语言到语音音节的转换，并通过识别出语音音节对应的口型图像序列，实现语音音节到口型语言的转换，解决了语音障碍人士的通话问题，从而满足语音障碍人士的通话需求，为语音障碍人士提供方便。

实施例2

本实施例提供了一种口型语言的转换方法，为了便于说明，以手机产品在通话时应用本实施例提供的口型语言的转换方法为例，且该手机产品具有摄像头的配置，参见图3，该口型语言的转换方法流程如下所示：

301：用手机摄像头录制人在说话时的嘴唇运动视频，该嘴唇运动视频由连续口型图像序列组成，对手机摄像头采集的嘴唇运动视频进行视频分割，即将连续的口型图像序列分割成口型图像序列组。

对于该步骤，因为人在发音时，字与字之间会有停顿，停顿时采集的口型图像序列的特征变化很小，利用这一特性，可以很容易将连续的口型图像序列分割出多组口型图像序列，得到口型图像序列组，每组口型图像序列对应一个文字。

302：对分割出的每组口型图像序列中的每个口型图像进行图像增强，提取每个口型图像的图像特征。

303：根据每组口型图像序列的所有口型图像的图像特征，分辨出每组口型图像序列对应的语音音节。

具体地，分辨每组口型图像序列对应的语音音节时，可以采用常用于模式识别的HMM(Hidden Markov Model，隐马尔可夫模型)来识别语音音节。

对于现代汉语来讲，一个文字可能表示不同的语音音节，一个语音音节也可以用不同的文字来表示，如jian(四声)这个语音音节，可以用“见、件、间、键、贱、建、箭”等文字表示，以图4所示的口型图像为例，对该步骤做举例说明，由图可以看出，口型图像A为嘴唇未运动时的口型图像，设识别出的口型图像B的语音音节为“a(啊)”，识别出口型图像C的语音音节为“e(呃)”。

304：将分辨出的每组口型图像序列对应的语音音节结合，得到嘴唇运动时所对应的汉语拼音。

进一步地，得到嘴唇运动时所对应的汉语拼音后，还可以将汉语拼音转换成文字，再转换成语音。实际应用方面，如果在某些特殊场合，如开会时，通话双方中的一方不方便发出声音，那么，采用本实施例提供的方法，利用口型语言的转换，通话双方仍然能够进行正常通话。本实施例提供的口型语言的转换方法，同样能够满足有发声障碍人士的通话需求。

本实施例提供的口型语言的转换方法，不仅能够实现将口型语言转换成语音音节、文字或语音，同理，还能够实现将语音音节、文字或语音转换成口型语言。为了便于说明，仍以手机产品在通话时应用本实施例提供的口型语言的转换方法为例，运用该方法之前，预先在手机中存放标准的三维口型图像库及拼音库，口型图像库中存储了标准的三维口型图像，每个语音音节都有对应的一组标准的三维口型图像序列，实现当手机接收到人的语音时，将语音转换成口型语言，参见图5，方法的具体流程如下：

501：手机接收到语音，从已存放的拼音库中检索到语音相对应的汉语拼音。

502：将汉语拼音分解为对应的语音音节，每个语音音节对应一组标准的三维口型图像序列；

503：将所有语音音节对应的所有口型图像序列连续播放，得到对应的嘴唇运动视频，即显示出对应的口型语言。

实际应用方面，对于听障人士，具有语音障碍，无法听到通话方的语音，采用本实施例提供的方法，实现将语音转换成对应的口型语言，通话双方仍然能够进行正常通话。

本实施例通过用手机摄像头采集嘴唇运动视频，并对采集的嘴唇运动视频进行有效的切割、图像增强、图像特征提取，并分辨口型语言所对应语音音节，并通过识别出语音音节对应的口型图像序列，实现语音音节到口型语言的转换，解决了语音障碍人士的通话问题从而满足语音障碍人士的通话需求，为语音障碍人士提供方便。

实施例3

参见图6，本实施例提供了一种口型语言的转换装置，该装置包括：

采集模块601，用于采集嘴唇运动视频；

分割模块602，用于将采集的嘴唇运动视频分割成口型图像序列组；

识别模块603，用于对多组口型图像序列进行识别，得到口型图像序列组对应的语音音节。

进一步地，参见图7，识别模块603，具体包括：

图像增强单元603a，用于对每组口型图像序列中的每个口型图像进行图像增强；

提取单元603b，用于提取图像增强后的每个口型图像的图像特征，获得每组口型图像序列的图像特征；

识别单元603c，用于根据每组口型图像序列的图像特征，对每组口型图像序列进行模式识别，分辨出每组口型图像序列对应的语音音节。

参见图8，该装置还包括：

转换模块604，用于将识别出的语音音节转换成汉语拼音、文字和语音中的至少一种。

本实施例提供的口型语言的转换装置可以设置于通信终端中，通过将采集的嘴唇运动视频进行有效的切割、图像增强、图像特征提取，并分辨口型语言所对应的口型图像的语音音节，实现语音、文字与口型语言之间的转换，从而解决语音障碍人士的通话问题，满足语音障碍人士的通话需求，为具有语音障碍的人士提供方便。

实施例4

参见图9，本实施例提供了一种口型语言的转换装置，该装置包括：

识别模块901，用于识别语音音节对应的口型图像序列，获得语音音节对应的口型图像序列；

播放模块902，用于将识别模块901识别出的口型图像序列连续播放，产生对应的口型语言。

优选地，参见图10，该装置还包括：

转换模块903，用于将语音、文字、汉语拼音中的至少一种转换成语音音节。

本实施例提供的口型语言的转换装置，通过识别出语音音节对应的口型图像序列，实现语音音节到口型语言的转换，解决了语音障碍人士的通话问题，从而满足语音障碍人士的通话需求，为语音障碍人士提供方便。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

本发明实施例中的部分步骤，可以利用软件实现，相应的软件程序可以存储在可读取的存储介质中，如光盘或硬盘等。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1、一种口型语言的转换方法，其特征在于，所述方法包括：

将采集的嘴唇运动视频分割成口型图像序列组；

2、根据权利要求1所述的方法，其特征在于，所述对所述口型图像序列组进行识别包括：

对每组口型图像序列中的每个口型图像进行图像增强，提取图像增强后的每个口型图像的图像特征，获得每组口型图像序列的图像特征；

根据每组口型图像序列的图像特征，对每组口型图像序列进行模式识别，分辨出每组口型图像序列对应的语音音节。

3、根据权利要求1所述的方法，其特征在于，所述得到所述口型图像序列组对应的语音音节之后，还包括：

将识别出的语音音节转换成汉语拼音、文字和语音中的至少一种。

4、一种口型语言的转换方法，其特征在于，所述方法包括：

将所述口型图像序列连续播放，产生对应的口型语言。

5、根据权利要求4所述的方法，其特征在于，所述识别语音音节对应的口型图像序列之前，还包括：

将语音、文字、汉语拼音中的至少一种转换成语音音节。

6、一种口型语言的转换装置，其特征在于，所述装置包括：

采集模块，用于采集嘴唇运动视频；

7、根据权利要求6所述的装置，其特征在于，所述识别模块，具体包括：

图像增强单元，用于对每组口型图像序列中的每个口型图像进行图像增强；

提取单元，用于提取图像增强后的每个口型图像的图像特征，获得每组口型图像序列的图像特征；

识别单元，用于根据每组口型图像序列的图像特征，对每组口型图像序列进行模式识别，分辨出每组口型图像序列对应的语音音节。

8、根据权利要求6所述的装置，其特征在于，所述装置，还包括：

转换模块，用于将识别出的语音音节转换成汉语拼音、文字和语音中的至少一种。

9、一种口型语言的转换装置，其特征在于，所述装置包括：

10、根据权利要求9所述的装置，其特征在于，所述装置，还包括：

转换模块，用于将语音、文字和汉语拼音中的至少一种转换成语音音节。