CN101510256A - 一种口型语言的转换方法及装置 - Google Patents

一种口型语言的转换方法及装置 Download PDF

Info

Publication number
CN101510256A
CN101510256A CNA2009101295080A CN200910129508A CN101510256A CN 101510256 A CN101510256 A CN 101510256A CN A2009101295080 A CNA2009101295080 A CN A2009101295080A CN 200910129508 A CN200910129508 A CN 200910129508A CN 101510256 A CN101510256 A CN 101510256A
Authority
CN
China
Prior art keywords
mouth shape
image sequence
shape image
mouth
correspondence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CNA2009101295080A
Other languages
English (en)
Other versions
CN101510256B (zh
Inventor
孔令贺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Device Co Ltd
Original Assignee
Shenzhen Huawei Communication Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Huawei Communication Technologies Co Ltd filed Critical Shenzhen Huawei Communication Technologies Co Ltd
Priority to CN2009101295080A priority Critical patent/CN101510256B/zh
Publication of CN101510256A publication Critical patent/CN101510256A/zh
Application granted granted Critical
Publication of CN101510256B publication Critical patent/CN101510256B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Processing Or Creating Images (AREA)

Abstract

本发明公开了一种口型语言的转换方法及装置,属于通信技术领域。所述方法包括:将采集的嘴唇运动视频分割成口型图像序列组;对所述口型图像序列组进行识别,得到所述口型图像序列组对应的语音音节。所述装置包括:采集模块、分割模块和识别模块。本发明通过将采集的嘴唇运动视频分割成口型图像序列,并识别口型图像序列所对应的语音音节,实现口型语言到语音音节的转换,解决了语音障碍人士的通话问题,从而满足语音障碍人士的通话需求,具有为语音障碍人士提供方便的效果。

Description

一种口型语言的转换方法及装置
技术领域
本发明涉及通信技术领域,特别涉及一种口型语言的转换方法及装置。
背景技术
通信技术快速发展的现代社会,手机产品在通信方面带给了人们极大的便利,从蓝牙技术到无线上网都显示出了手机产品的强大功能。利用手机产品进行通话,成为了人们联系的主要方式。如今,摄像头也已经成为了手机的标准配置,随着手机功能的多样化,手机产品渐渐成为了人们日常生活中的必需品。
现有的手机产品在通话时,都是利用语音通话技术,通过将人的语音信号转换为相应的电信号,再通过无限射频技术发送,接受方接收到信号,还原出原来的语音信号。
在实现本发明的过程中,发明人发现,现有技术存在以下缺点:
现有的手机产品,主要是对通话方的语音信号进行接受处理,没有考虑到具有语音障碍的人士基本无法使用语音通话技术,因此,现有的手机产品还不能够为具有语音障碍的人士提供真正的方便。
发明内容
为了满足具有语音障碍人士的通话需求,为具有语音障碍的人士提供方便,本发明实施例提供了一种口型语言的转换方法及装置,技术方案如下:
一方面,提供了一种口型语言的转换方法,所述方法包括:
将采集的嘴唇运动视频分割成口型图像序列组;
对所述口型图像序列组进行识别,得到所述口型图像序列组对应的语音音节。
另一方面,提供了一种口型语言的转换装置,所述装置包括:
分割模块,用于将采集的嘴唇运动视频分割成口型图像序列组;
识别模块,用于对所述口型图像序列组进行识别,得到所述口型图像序列组对应的语音音节。
还提供了一种口型语言的转换方法,所述方法包括:
识别语音音节对应的口型图像序列,获得所述语音音节对应的口型图像序列;
将所述口型图像序列连续播放,产生对应的口型语言。
还提供了一种口型语言的转换装置,所述转换装置包括:
识别模块,用于识别语音音节对应的口型图像序列,获得所述语音音节对应的口型图像序列;
播放模块,用于将所述识别模块识别出的口型图像序列连续播放,产生对应的口型语言。
本发明实施例提供的技术方案的有益效果是:
通过将采集的嘴唇运动视频分割成口型图像序列,并识别口型图像序列所对应的语音音节,实现口型语言到语音音节的转换,还可以通过识别出语音音节对应的口型图像序列,实现语音音节到口型语言的转换,解决了语音障碍人士的通话问题,从而满足语音障碍人士的通话需求,为语音障碍人士提供方便。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例1提供的口型语言的转换方法流程图;
图2是本发明实施例1提供的另一种口型语言的转换方法流程图;
图3是本发明实施例2提供的口型语言的转换方法流程图;
图4是本发明实施例2提供的口型图像示意图;
图5是本发明实施例2提供的另一种口型语言的转换方法流程图;
图6是本发明实施例3提供的口型语言的转换装置结构示意图;
图7是本发明实施例3提供的另一种口型语言的转换装置结构示意图;
图8是本发明实施例3提供的又一种口型语言的转换装置结构示意图;
图9是本发明实施例4提供的口型语言的转换装置结构示意图;
图10是本发明实施例4提供的另一种口型语言的转换装置结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。
实施例1
参见图1,本实施例提供了一种口型语言的转换方法,所述方法包括:
101:将采集的嘴唇运动视频分割成口型图像序列组;
102:对所述口型图像序列组进行识别,得到所述口型图像序列组对应的语音音节。
上述方法通过对表现口型语言的嘴唇运动视频进行分割和识别,实现了口型语言到语音音节的转换,参见图2,本实施例还提供了一种口型语言的转换方法,能够实现语音音节到口型语言的转换,方法流程如下:
201:识别语音音节对应的口型图像序列,获得所述语音音节对应的口型图像序列;
202:将所述口型图像序列连续播放,产生对应的口型语言。
本实施例通过对采集的嘴唇运动视频进行分割和识别,实现口型语言到语音音节的转换,并通过识别出语音音节对应的口型图像序列,实现语音音节到口型语言的转换,解决了语音障碍人士的通话问题,从而满足语音障碍人士的通话需求,为语音障碍人士提供方便。
实施例2
本实施例提供了一种口型语言的转换方法,为了便于说明,以手机产品在通话时应用本实施例提供的口型语言的转换方法为例,且该手机产品具有摄像头的配置,参见图3,该口型语言的转换方法流程如下所示:
301:用手机摄像头录制人在说话时的嘴唇运动视频,该嘴唇运动视频由连续口型图像序列组成,对手机摄像头采集的嘴唇运动视频进行视频分割,即将连续的口型图像序列分割成口型图像序列组。
对于该步骤,因为人在发音时,字与字之间会有停顿,停顿时采集的口型图像序列的特征变化很小,利用这一特性,可以很容易将连续的口型图像序列分割出多组口型图像序列,得到口型图像序列组,每组口型图像序列对应一个文字。
302:对分割出的每组口型图像序列中的每个口型图像进行图像增强,提取每个口型图像的图像特征。
303:根据每组口型图像序列的所有口型图像的图像特征,分辨出每组口型图像序列对应的语音音节。
具体地,分辨每组口型图像序列对应的语音音节时,可以采用常用于模式识别的HMM(Hidden Markov Model,隐马尔可夫模型)来识别语音音节。
对于现代汉语来讲,一个文字可能表示不同的语音音节,一个语音音节也可以用不同的文字来表示,如jian(四声)这个语音音节,可以用“见、件、间、键、贱、建、箭”等文字表示,以图4所示的口型图像为例,对该步骤做举例说明,由图可以看出,口型图像A为嘴唇未运动时的口型图像,设识别出的口型图像B的语音音节为“a(啊)”,识别出口型图像C的语音音节为“e(呃)”。
304:将分辨出的每组口型图像序列对应的语音音节结合,得到嘴唇运动时所对应的汉语拼音。
进一步地,得到嘴唇运动时所对应的汉语拼音后,还可以将汉语拼音转换成文字,再转换成语音。实际应用方面,如果在某些特殊场合,如开会时,通话双方中的一方不方便发出声音,那么,采用本实施例提供的方法,利用口型语言的转换,通话双方仍然能够进行正常通话。本实施例提供的口型语言的转换方法,同样能够满足有发声障碍人士的通话需求。
本实施例提供的口型语言的转换方法,不仅能够实现将口型语言转换成语音音节、文字或语音,同理,还能够实现将语音音节、文字或语音转换成口型语言。为了便于说明,仍以手机产品在通话时应用本实施例提供的口型语言的转换方法为例,运用该方法之前,预先在手机中存放标准的三维口型图像库及拼音库,口型图像库中存储了标准的三维口型图像,每个语音音节都有对应的一组标准的三维口型图像序列,实现当手机接收到人的语音时,将语音转换成口型语言,参见图5,方法的具体流程如下:
501:手机接收到语音,从已存放的拼音库中检索到语音相对应的汉语拼音。
502:将汉语拼音分解为对应的语音音节,每个语音音节对应一组标准的三维口型图像序列;
503:将所有语音音节对应的所有口型图像序列连续播放,得到对应的嘴唇运动视频,即显示出对应的口型语言。
实际应用方面,对于听障人士,具有语音障碍,无法听到通话方的语音,采用本实施例提供的方法,实现将语音转换成对应的口型语言,通话双方仍然能够进行正常通话。
本实施例通过用手机摄像头采集嘴唇运动视频,并对采集的嘴唇运动视频进行有效的切割、图像增强、图像特征提取,并分辨口型语言所对应语音音节,并通过识别出语音音节对应的口型图像序列,实现语音音节到口型语言的转换,解决了语音障碍人士的通话问题从而满足语音障碍人士的通话需求,为语音障碍人士提供方便。
实施例3
参见图6,本实施例提供了一种口型语言的转换装置,该装置包括:
采集模块601,用于采集嘴唇运动视频;
分割模块602,用于将采集的嘴唇运动视频分割成口型图像序列组;
识别模块603,用于对多组口型图像序列进行识别,得到口型图像序列组对应的语音音节。
进一步地,参见图7,识别模块603,具体包括:
图像增强单元603a,用于对每组口型图像序列中的每个口型图像进行图像增强;
提取单元603b,用于提取图像增强后的每个口型图像的图像特征,获得每组口型图像序列的图像特征;
识别单元603c,用于根据每组口型图像序列的图像特征,对每组口型图像序列进行模式识别,分辨出每组口型图像序列对应的语音音节。
参见图8,该装置还包括:
转换模块604,用于将识别出的语音音节转换成汉语拼音、文字和语音中的至少一种。
本实施例提供的口型语言的转换装置可以设置于通信终端中,通过将采集的嘴唇运动视频进行有效的切割、图像增强、图像特征提取,并分辨口型语言所对应的口型图像的语音音节,实现语音、文字与口型语言之间的转换,从而解决语音障碍人士的通话问题,满足语音障碍人士的通话需求,为具有语音障碍的人士提供方便。
实施例4
参见图9,本实施例提供了一种口型语言的转换装置,该装置包括:
识别模块901,用于识别语音音节对应的口型图像序列,获得语音音节对应的口型图像序列;
播放模块902,用于将识别模块901识别出的口型图像序列连续播放,产生对应的口型语言。
优选地,参见图10,该装置还包括:
转换模块903,用于将语音、文字、汉语拼音中的至少一种转换成语音音节。
本实施例提供的口型语言的转换装置,通过识别出语音音节对应的口型图像序列,实现语音音节到口型语言的转换,解决了语音障碍人士的通话问题,从而满足语音障碍人士的通话需求,为语音障碍人士提供方便。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
本发明实施例中的部分步骤,可以利用软件实现,相应的软件程序可以存储在可读取的存储介质中,如光盘或硬盘等。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1、一种口型语言的转换方法,其特征在于,所述方法包括:
将采集的嘴唇运动视频分割成口型图像序列组;
对所述口型图像序列组进行识别,得到所述口型图像序列组对应的语音音节。
2、根据权利要求1所述的方法,其特征在于,所述对所述口型图像序列组进行识别包括:
对每组口型图像序列中的每个口型图像进行图像增强,提取图像增强后的每个口型图像的图像特征,获得每组口型图像序列的图像特征;
根据每组口型图像序列的图像特征,对每组口型图像序列进行模式识别,分辨出每组口型图像序列对应的语音音节。
3、根据权利要求1所述的方法,其特征在于,所述得到所述口型图像序列组对应的语音音节之后,还包括:
将识别出的语音音节转换成汉语拼音、文字和语音中的至少一种。
4、一种口型语言的转换方法,其特征在于,所述方法包括:
识别语音音节对应的口型图像序列,获得所述语音音节对应的口型图像序列;
将所述口型图像序列连续播放,产生对应的口型语言。
5、根据权利要求4所述的方法,其特征在于,所述识别语音音节对应的口型图像序列之前,还包括:
将语音、文字、汉语拼音中的至少一种转换成语音音节。
6、一种口型语言的转换装置,其特征在于,所述装置包括:
采集模块,用于采集嘴唇运动视频;
分割模块,用于将采集的嘴唇运动视频分割成口型图像序列组;
识别模块,用于对所述口型图像序列组进行识别,得到所述口型图像序列组对应的语音音节。
7、根据权利要求6所述的装置,其特征在于,所述识别模块,具体包括:
图像增强单元,用于对每组口型图像序列中的每个口型图像进行图像增强;
提取单元,用于提取图像增强后的每个口型图像的图像特征,获得每组口型图像序列的图像特征;
识别单元,用于根据每组口型图像序列的图像特征,对每组口型图像序列进行模式识别,分辨出每组口型图像序列对应的语音音节。
8、根据权利要求6所述的装置,其特征在于,所述装置,还包括:
转换模块,用于将识别出的语音音节转换成汉语拼音、文字和语音中的至少一种。
9、一种口型语言的转换装置,其特征在于,所述装置包括:
识别模块,用于识别语音音节对应的口型图像序列,获得所述语音音节对应的口型图像序列;
播放模块,用于将所述识别模块识别出的口型图像序列连续播放,产生对应的口型语言。
10、根据权利要求9所述的装置,其特征在于,所述装置,还包括:
转换模块,用于将语音、文字和汉语拼音中的至少一种转换成语音音节。
CN2009101295080A 2009-03-20 2009-03-20 一种口型语言的转换方法及装置 Active CN101510256B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2009101295080A CN101510256B (zh) 2009-03-20 2009-03-20 一种口型语言的转换方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2009101295080A CN101510256B (zh) 2009-03-20 2009-03-20 一种口型语言的转换方法及装置

Publications (2)

Publication Number Publication Date
CN101510256A true CN101510256A (zh) 2009-08-19
CN101510256B CN101510256B (zh) 2011-05-04

Family

ID=41002651

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2009101295080A Active CN101510256B (zh) 2009-03-20 2009-03-20 一种口型语言的转换方法及装置

Country Status (1)

Country Link
CN (1) CN101510256B (zh)

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101930747A (zh) * 2010-07-30 2010-12-29 四川微迪数字技术有限公司 一种将语音转换成口型图像的方法和装置
CN101751692B (zh) * 2009-12-24 2012-05-30 四川大学 语音驱动唇形动画的方法
CN102939791A (zh) * 2010-05-17 2013-02-20 塔塔咨询服务有限公司 用于具有听觉、言语和视觉障碍的人的手持式通信辅助器
CN104166837A (zh) * 2013-05-15 2014-11-26 鹦鹉股份有限公司 采用最相关的兴趣点的各组的选择的视觉语音识别方法
WO2014207752A1 (en) * 2013-06-27 2014-12-31 Hewlett-Packard Development Company, L.P. Authenticating user by correlating speech and corresponding lip shape
CN104537901A (zh) * 2014-12-02 2015-04-22 渤海大学 基于音视频的英语口语学习机
WO2015158082A1 (zh) * 2014-04-17 2015-10-22 中兴通讯股份有限公司 一种基于唇读的终端操作方法及装置
CN105338282A (zh) * 2014-06-23 2016-02-17 联想(北京)有限公司 一种信息处理方法和电子设备
CN105450970A (zh) * 2014-06-16 2016-03-30 联想(北京)有限公司 一种信息处理方法及电子设备
CN105632497A (zh) * 2016-01-06 2016-06-01 昆山龙腾光电有限公司 一种语音输出方法、语音输出系统
CN107831684A (zh) * 2016-09-16 2018-03-23 天津思博科科技发展有限公司 应用机器视觉实现的口型发音转置
CN108521516A (zh) * 2018-03-30 2018-09-11 百度在线网络技术(北京)有限公司 用于终端设备的控制方法和装置
CN108538282A (zh) * 2018-03-15 2018-09-14 上海电力学院 一种由唇部视频直接生成语音的方法
CN104166855B (zh) * 2013-05-15 2018-12-04 鹦鹉汽车股份有限公司 视觉语音识别方法
CN109145088A (zh) * 2018-08-10 2019-01-04 广东小天才科技有限公司 一种基于家教机的搜索方法及家教机
CN109559751A (zh) * 2019-01-09 2019-04-02 承德石油高等专科学校 一种口型转换口罩

Cited By (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101751692B (zh) * 2009-12-24 2012-05-30 四川大学 语音驱动唇形动画的方法
CN102939791A (zh) * 2010-05-17 2013-02-20 塔塔咨询服务有限公司 用于具有听觉、言语和视觉障碍的人的手持式通信辅助器
CN102939791B (zh) * 2010-05-17 2015-09-23 塔塔咨询服务有限公司 用于具有听觉、言语和视觉障碍的人的手持式通信辅助器
CN101930747A (zh) * 2010-07-30 2010-12-29 四川微迪数字技术有限公司 一种将语音转换成口型图像的方法和装置
CN104166837A (zh) * 2013-05-15 2014-11-26 鹦鹉股份有限公司 采用最相关的兴趣点的各组的选择的视觉语音识别方法
CN104166837B (zh) * 2013-05-15 2018-12-04 鹦鹉汽车股份有限公司 采用最相关的兴趣点的各组的选择的视觉语音识别方法
CN104166855B (zh) * 2013-05-15 2018-12-04 鹦鹉汽车股份有限公司 视觉语音识别方法
WO2014207752A1 (en) * 2013-06-27 2014-12-31 Hewlett-Packard Development Company, L.P. Authenticating user by correlating speech and corresponding lip shape
WO2015158082A1 (zh) * 2014-04-17 2015-10-22 中兴通讯股份有限公司 一种基于唇读的终端操作方法及装置
CN105022470A (zh) * 2014-04-17 2015-11-04 中兴通讯股份有限公司 一种基于唇读的终端操作方法及装置
CN105450970A (zh) * 2014-06-16 2016-03-30 联想(北京)有限公司 一种信息处理方法及电子设备
CN105338282A (zh) * 2014-06-23 2016-02-17 联想(北京)有限公司 一种信息处理方法和电子设备
CN105338282B (zh) * 2014-06-23 2019-07-26 联想(北京)有限公司 一种信息处理方法和电子设备
CN104537901A (zh) * 2014-12-02 2015-04-22 渤海大学 基于音视频的英语口语学习机
CN105632497A (zh) * 2016-01-06 2016-06-01 昆山龙腾光电有限公司 一种语音输出方法、语音输出系统
CN107831684A (zh) * 2016-09-16 2018-03-23 天津思博科科技发展有限公司 应用机器视觉实现的口型发音转置
CN108538282A (zh) * 2018-03-15 2018-09-14 上海电力学院 一种由唇部视频直接生成语音的方法
CN108538282B (zh) * 2018-03-15 2021-10-08 上海电力学院 一种由唇部视频直接生成语音的方法
CN108521516A (zh) * 2018-03-30 2018-09-11 百度在线网络技术(北京)有限公司 用于终端设备的控制方法和装置
CN109145088A (zh) * 2018-08-10 2019-01-04 广东小天才科技有限公司 一种基于家教机的搜索方法及家教机
CN109559751A (zh) * 2019-01-09 2019-04-02 承德石油高等专科学校 一种口型转换口罩

Also Published As

Publication number Publication date
CN101510256B (zh) 2011-05-04

Similar Documents

Publication Publication Date Title
CN101510256B (zh) 一种口型语言的转换方法及装置
US10728656B1 (en) Audio device and audio processing method
CN110049270B (zh) 多人会议语音转写方法、装置、系统、设备及存储介质
EP2574220B1 (en) Hand-held communication aid for individuals with auditory, speech and visual impairments
CN102609969B (zh) 基于汉语文本驱动的人脸语音同步动画的处理方法
CN106098078B (zh) 一种可过滤扬声器噪音的语音识别方法及其系统
CN104168353A (zh) 蓝牙耳机及其语音交互控制方法
CN101452705A (zh) 语音文字转换、手语文字转换的方法和装置
CN1531722A (zh) 使用内置式扬声器的语音识别系统
CN109559754B (zh) 一种针对摔倒识别的语音救援方法及系统
CN104112449A (zh) 未知的说话者识别系统
CN102263576A (zh) 无线信息传输方法及实现设备
CN109543021A (zh) 一种面向智能机器人的故事数据处理方法及系统
CN112000938A (zh) 基于多模识别的电网调度身份认证方法及系统
US20220180886A1 (en) Methods for clear call under noisy conditions
CN110570847A (zh) 一种多人场景的人机交互系统及方法
CN113194203A (zh) 一种用于听障人士的沟通系统、接听拨打方法及通讯系统
CN109686360A (zh) 一种语音订餐机器人
CN112581965A (zh) 转写方法、装置、录音笔和存储介质
CN102056093A (zh) 将文字短信转换成语音短信的方法
CN116527840B (zh) 一种基于云边协同的直播会议智能字幕显示方法和系统
CN109300478A (zh) 一种听力障碍者的辅助对话装置
CN103680223A (zh) 辅助阅读设备及辅助阅读系统和辅助阅读方法
CN116798431A (zh) 一种跨模态多特征融合的音频语音识别方法
CN101662512A (zh) 语言自动翻译手机电话机

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20171106

Address after: Metro Songshan Lake high tech Industrial Development Zone, Guangdong Province, Dongguan City Road 523808 No. 2 South Factory (1) project B2 -5 production workshop

Patentee after: HUAWEI terminal (Dongguan) Co., Ltd.

Address before: 518129 Longgang District, Guangdong, Bantian HUAWEI base B District, building 2, building No.

Patentee before: Huawei Device Co., Ltd.

CP01 Change in the name or title of a patent holder
CP01 Change in the name or title of a patent holder

Address after: 523808 Southern Factory Building (Phase I) Project B2 Production Plant-5, New Town Avenue, Songshan Lake High-tech Industrial Development Zone, Dongguan City, Guangdong Province

Patentee after: Huawei Device Co., Ltd.

Address before: 523808 Southern Factory Building (Phase I) Project B2 Production Plant-5, New Town Avenue, Songshan Lake High-tech Industrial Development Zone, Dongguan City, Guangdong Province

Patentee before: HUAWEI terminal (Dongguan) Co., Ltd.