CN106446406A - 一种将中文语句转化为人类口型的仿真系统及仿真方法 - Google Patents

一种将中文语句转化为人类口型的仿真系统及仿真方法 Download PDF

Info

Publication number
CN106446406A
CN106446406A CN201610846192.7A CN201610846192A CN106446406A CN 106446406 A CN106446406 A CN 106446406A CN 201610846192 A CN201610846192 A CN 201610846192A CN 106446406 A CN106446406 A CN 106446406A
Authority
CN
China
Prior art keywords
mouth
shape
speaks
chinese
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610846192.7A
Other languages
English (en)
Inventor
徐超
崔晨晖
郑岩
金强国
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianjin University
Original Assignee
Tianjin University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin University filed Critical Tianjin University
Priority to CN201610846192.7A priority Critical patent/CN106446406A/zh
Publication of CN106446406A publication Critical patent/CN106446406A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F30/00Computer-aided design [CAD]
    • G06F30/20Design optimisation, verification or simulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T13/00Animation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Geometry (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Evolutionary Computation (AREA)
  • Computer Hardware Design (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Document Processing Apparatus (AREA)

Abstract

本发明公开了一种将中文语句转化为人类口型的仿真系统及仿真方法,用户通过Windows窗口确认是否录入口型数据,用户通过Kinect设备收集人面部口型数据,并进行整理计算,生成口型数据并保存;口型数据存在后,用户输入需要转化的中文段落语句,将输入的中文段落语句转化为中文拼音,用来与中文转换后的中文拼音进行绑定;通过计算生成最后的人类正面的嘴型数据;通过对计算出嘴型数据的整理,绘制出一个嘴型,并且设置一定的算法去模拟人类说话时的嘴型的张合程度以及张合变化过程。与现有技术相比,本发明可将中文与口型变化一对一绑定,为语言入门学习通过了一个全新的方法。

Description

一种将中文语句转化为人类口型的仿真系统及仿真方法
技术领域
本发明涉及语言的计算机仿真技术,特别是涉及一种能够模拟说话时嘴部的动作的中文语句转化为人类口型的仿真系统及仿真方法。
背景技术
随着科学技术的发展,人类希望科学技术能进一步模拟人类的某些方面特质,帮人类完成一些目前只有人类可完成的动作,甚至是模拟人类的思考。计算机发展到如今阶段,如何进一步去便捷人类生活,使计算机能更好地为人类服务,是我们一直在探索的方向。
人类仿真技术的出现,极大的提高了计算机为人类服务的水平。人类仿真技术可以用于很多方面。在移动设备方面,苹果Siri以及微软Cortana智能语音助手的推出,更是展现了对于人类思维的模拟可以让生活更加便利和更加快捷高效。对于人类各个方面的仿真模拟,都会对我们生活方式有着极大的帮助。
Kinect设备的使用让人类与计算机有了更多的交互方式,解放了双手,同时也为游戏开发提供了更好地平台。同时基于Kinect开发的辅助系统越来越多的方便了人们的生活。微软亚洲研究院和中科院研发的手语翻译系统,方便了聋哑人士与普通人的交流。
目前存在的人类面部仿真技术大部分仍局限于表情的仿真,对于说话时的口型仿真研究还不够全面。对于中文来说,汉字数量十分巨大,将其转化为口型动作具有一定的科研价值。
发明内容
基于现有技术,本发明提出了一种将中文语句转化为人类口型的方法,基于微软Kinect设备以及中文分词等算法,模拟人类说话时的口型,将人类嘴部动作在计算机中虚拟实现,同时也可扩展;可连接人类与虚拟世界,。
本发明的一种将中文语句转化为人类口型的仿真系统,该系统包括中文拼音处理模块、Kinect口型录入模块、拼音与口型处理模块、口型绘制模块以及口型展示模块,其中:
所述中文拼音处理模块,将中文转化为汉语拼音,并对多音字区分;
所述Kinect口型录入模块,运用Kinect设备面部识别技术进行人口型数据的录入;
所述拼音与口型处理模块,利用中文拼音处理模块获得汉语拼音和Kinect口型录入模块获得的声母韵母口型数据,进行统计和查询,整理出口型变化所需的数据组,将数据传给口型绘制模块;
所述口型绘制模块,运用HTML5Canvas根据拼音口型处理模块产生的数据进行口型绘制;
所述口型展示模块,根据接收到的口型绘制结果,展示口型绘制图形,并控制口型绘制图形的过渡和变化。
本发明的一种将中文语句转化为人类口型的仿真方法,该方法包括以下流程:
用户通过Windows窗口确认是否录入口型数据,用户通过Kinect设备收集人面部口型数据,并进行整理计算,生成口型数据并保存;口型数据存在后,用户输入需要转化的中文段落语句,将输入的中文段落语句转化为中文拼音,用来与中文转换后的中文拼音进行绑定;通过计算生成最后的人类正面的嘴型数据;通过对计算出嘴型数据的整理,绘制出一个嘴型,并且设置一定的算法去模拟人类说话时的嘴型的张合程度以及张合变化过程。
本发明实现了对人类口型的模拟仿真,实现了从中文到虚拟口型的转化,可扩展应用于许多产业,以减轻他们繁琐的工作。在中文语言教学方面,尤其是婴幼儿群体,语言学习的最初都是通过嘴型的模仿以及声音的模仿,该系统可将中文与口型变化一对一绑定,为语言入门学习通过了一个全新的方法;在动漫制作方面,传统动漫制作都是根据角色的台词去人工绘制嘴部的动作,工作量重复而且中文匹配率并不是很高,该系统可扩展为根据角色的台词去自动生成角色的口型变化动作,提高了动漫生产的效率。该系统还可应用于唇语的学习。
附图说明
图1为本发明的一种将中文语句转化为人类口型的仿真系统的功能模块示意图;
图2为为本发明的一种将中文语句转化为人类口型的方法整体流程图;
图3为中文拼音处理模块流程图;
图4为Kinect口型录入模块流程图;
图5为拼音与口型处理模块流程图;
图6为口型绘制模块流程图;
图7为Kinect嘴部二维坐标点编号及位置;
图8为中文转化为拼音模块的运行结果;
图9为最终整合运行结果—“o”至“a”;
图10为最终整合运行结果—“i”至“n”。
具体实施方式
下面结合附图对本发明作进一步详细描述:
本发明的具体设计目标是将输入的语句转换为模拟出的连贯口型变化,该口型是一个3D的口型模型。本发明整体流程如图1所示。需要用户提前进行口型数据的录入,用户通过Kinect设备收集人面部口型数据,并进行整理计算,生成口型数据并保存。本系统尽可能减少用户所需录入的口型,使用户使用更加方便。该发明整体流程为:用户通过Windows窗口确认当前是否存在口型数据,步骤101;如果不存在,需要用户提前通过Kinect设备收集人面部口型数据,步骤107,进行口型数据整理计算、生成口型数据并保存,步骤108;进行口型绘制及动态变化,步骤106;如果存在,判断是否重新录入口型数据,步骤102;如是,转至步骤107及步骤108;如否,输入需要转化的中文,步骤103;先将中文转化为拼音,步骤104;口型绘制及动态变化仿真,步骤105,如有必要,继续程序直至转化处理结束。
本发明的上述流程可以归纳为以下功能模块:
1、中文拼音处理模块,将中文转化为汉语拼音,并对多音字区分。需要从Json文件导入词库和字库,并运用盘古分词对输入语句进行处理,运用一定的方法区别多音字,最后将各个分词的拼音组合在一起完成中文至拼音的转换。输入项:用户输入的需要转化的中文语句。输出项:转化后的汉语拼音组。
2、Kinect口型录入模块,运用Kinect设备面部识别技术进行人口型数据的录入。
首先从Kinect数据中提取出于嘴部有关的点,对嘴部点的关系进行分析和整理,理清嘴部点的管理后,分别录入声母和韵母,对录入的数据进行整理并储存,待后续使用。输入项:用户输入的需要转化的中文语句。输出项:转化后的汉语拼音组。
3、拼音与口型处理模块,利用中文拼音处理模块获得汉语拼音和Kinect口型录入模块获得的声母韵母口型数据,进行统计和查询,整理出口型变化所需的数据组,将数据传给口型绘制模块。输入项:中文拼音处理模块获得汉语拼音、Kinect设备录入的口型数据。输出项:绘制口型所需的数组数据次序列表。
4、口型绘制模块,运用HTML5Canvas根据拼音口型处理模块产生的数据进行口型绘制。模拟绘制出圆滑的人类唇部3D轮廓,并设置一定的算法对唇部的动作变化进行控制,使口型变化流畅。输入项:拼音与口型处理模块整理计算的口型数据组。输出项:人唇部的轮廓及口型过渡及变化。
上述模块的具体实现方法详细描述如下:
1、中文拼音处理模块,该模块的处理依赖于比较完整的中文拼音词库、字库[17]、用户输入的中文字符串;
伪代码简要描述流程图(如图2所示):
2、Kinect口型录入模块,该模块的处理依赖于了解以及获得Kinect面部所有工具点具体位置,可单独获得嘴部数据;了解以及获得Kinect面部骨骼三角形的位置,可单独获得嘴部三角形的骨骼数据。
伪代码简要描述流程(如图3所示):
3、拼音与口型处理模块:该模块的处理依赖于中文拼音处理模块获得的中文拼音数据、inect口型录入模块获得声母韵母口型数据组;
伪代码简要描述流程(流程如图4所示):
4、口型绘制模块,该模块的处理依赖于拼音与口型处理模块返回的口型数组列表、本地Web服务器的搭建。
伪代码简要描述流程(如图5所示):
5、口型展示模块,根据接收到的口型绘制结果,展示口型绘制图形,并控制口型绘制图形的过渡和变化。
运行实例:启动程序,进入Kinect数据获取模块,图6为嘴部二维坐标点编号及位置,通过Kinect录制不同拼音的口型数据并保存。图7为将中文转化为拼音模块的运行结果。图8、9为最终运行结果示意图。

Claims (2)

1.一种将中文语句转化为人类口型的仿真系统,其特征在于,该系统包括中文拼音处理模块、Kinect口型录入模块、拼音与口型处理模块、口型绘制模块以及口型展示模块,其中:
所述中文拼音处理模块,将中文转化为汉语拼音,并对多音字区分;
所述Kinect口型录入模块,运用Kinect设备面部识别技术进行人口型数据的录入;
所述拼音与口型处理模块,利用中文拼音处理模块获得汉语拼音和Kinect口型录入模块获得的声母韵母口型数据,进行统计和查询,整理出口型变化所需的数据组,将数据传给口型绘制模块;
所述口型绘制模块,运用HTML5Canvas根据拼音口型处理模块产生的数据进行口型绘制;
所述口型展示模块,根据接收到的口型绘制结果,展示口型绘制图形,并控制口型绘制图形的过渡和变化。
2.一种将中文语句转化为人类口型的仿真方法,其特征在于,该方法包括以下流程:
用户通过Windows窗口确认是否录入口型数据,用户通过Kinect设备收集人面部口型数据,并进行整理计算,生成口型数据并保存;口型数据存在后,用户输入需要转化的中文段落语句,将输入的中文段落语句转化为中文拼音,用来与中文转换后的中文拼音进行绑定;通过计算生成最后的人类正面的嘴型数据;通过对计算出嘴型数据的整理,绘制出一个嘴型,并且设置一定的算法去模拟人类说话时的嘴型的张合程度以及张合变化过程。
CN201610846192.7A 2016-09-23 2016-09-23 一种将中文语句转化为人类口型的仿真系统及仿真方法 Pending CN106446406A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610846192.7A CN106446406A (zh) 2016-09-23 2016-09-23 一种将中文语句转化为人类口型的仿真系统及仿真方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610846192.7A CN106446406A (zh) 2016-09-23 2016-09-23 一种将中文语句转化为人类口型的仿真系统及仿真方法

Publications (1)

Publication Number Publication Date
CN106446406A true CN106446406A (zh) 2017-02-22

Family

ID=58167323

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610846192.7A Pending CN106446406A (zh) 2016-09-23 2016-09-23 一种将中文语句转化为人类口型的仿真系统及仿真方法

Country Status (1)

Country Link
CN (1) CN106446406A (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107610205A (zh) * 2017-09-20 2018-01-19 珠海金山网络游戏科技有限公司 基于html5将网页输入音频生成口型动画的方法、装置和系统
CN107766437A (zh) * 2017-09-20 2018-03-06 珠海金山网络游戏科技有限公司 基于html5将网页输入文字生成口型gif的方法、装置和系统
CN107766438A (zh) * 2017-09-20 2018-03-06 珠海金山网络游戏科技有限公司 基于html5将网页输入音频生成口型gif的方法、装置和系统
CN107845123A (zh) * 2017-09-20 2018-03-27 珠海金山网络游戏科技有限公司 基于html5将网页输入文字生成口型动画的方法、装置和系统
CN109101953A (zh) * 2018-09-07 2018-12-28 大连东锐软件有限公司 基于人类面部表情的分区要素化的表情动作生成方法
CN109409255A (zh) * 2018-10-10 2019-03-01 长沙千博信息技术有限公司 一种手语场景生成方法及装置
CN111161755A (zh) * 2019-12-25 2020-05-15 新华智云科技有限公司 基于3d渲染引擎的中文唇音同步方法
TWI712032B (zh) * 2019-01-04 2020-12-01 香港商成境科技有限公司 語音轉換虛擬臉部影像的方法

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101482975A (zh) * 2008-01-07 2009-07-15 丰达软件(苏州)有限公司 一种文字转换动画的方法和装置
CN101520903A (zh) * 2009-04-23 2009-09-02 北京水晶石数字科技有限公司 一种动画角色汉语口型匹配的方法
CN101930747A (zh) * 2010-07-30 2010-12-29 四川微迪数字技术有限公司 一种将语音转换成口型图像的方法和装置
CN102117115A (zh) * 2009-12-31 2011-07-06 上海量科电子科技有限公司 一种利用唇语进行文字输入选择的系统及实现方法
CN103745423A (zh) * 2013-12-27 2014-04-23 浙江大学 一种口型示教系统与示教方法
CN104574478A (zh) * 2014-12-30 2015-04-29 北京像素软件科技股份有限公司 一种编辑动画人物口型的方法及装置
CN104574477A (zh) * 2014-12-22 2015-04-29 北京像素软件科技股份有限公司 动画角色汉语口型生成的方法及装置
US20150279364A1 (en) * 2014-03-29 2015-10-01 Ajay Krishnan Mouth-Phoneme Model for Computerized Lip Reading
CN105930493A (zh) * 2016-05-04 2016-09-07 北京思特奇信息技术股份有限公司 一种不同数据库间数据同步的方法和系统

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101482975A (zh) * 2008-01-07 2009-07-15 丰达软件(苏州)有限公司 一种文字转换动画的方法和装置
CN101520903A (zh) * 2009-04-23 2009-09-02 北京水晶石数字科技有限公司 一种动画角色汉语口型匹配的方法
CN102117115A (zh) * 2009-12-31 2011-07-06 上海量科电子科技有限公司 一种利用唇语进行文字输入选择的系统及实现方法
CN101930747A (zh) * 2010-07-30 2010-12-29 四川微迪数字技术有限公司 一种将语音转换成口型图像的方法和装置
CN103745423A (zh) * 2013-12-27 2014-04-23 浙江大学 一种口型示教系统与示教方法
US20150279364A1 (en) * 2014-03-29 2015-10-01 Ajay Krishnan Mouth-Phoneme Model for Computerized Lip Reading
CN104574477A (zh) * 2014-12-22 2015-04-29 北京像素软件科技股份有限公司 动画角色汉语口型生成的方法及装置
CN104574478A (zh) * 2014-12-30 2015-04-29 北京像素软件科技股份有限公司 一种编辑动画人物口型的方法及装置
CN105930493A (zh) * 2016-05-04 2016-09-07 北京思特奇信息技术股份有限公司 一种不同数据库间数据同步的方法和系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
刘建通: "基于Kinect的听障人士语言能力康复辅助系统", 《现代计算机(专业版)》 *
徐超: "基于协同交互的表情识别和情感体验建模方法研究", 《中国博士学位论文全文数据库(信息科技辑)》 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107610205A (zh) * 2017-09-20 2018-01-19 珠海金山网络游戏科技有限公司 基于html5将网页输入音频生成口型动画的方法、装置和系统
CN107766437A (zh) * 2017-09-20 2018-03-06 珠海金山网络游戏科技有限公司 基于html5将网页输入文字生成口型gif的方法、装置和系统
CN107766438A (zh) * 2017-09-20 2018-03-06 珠海金山网络游戏科技有限公司 基于html5将网页输入音频生成口型gif的方法、装置和系统
CN107845123A (zh) * 2017-09-20 2018-03-27 珠海金山网络游戏科技有限公司 基于html5将网页输入文字生成口型动画的方法、装置和系统
CN109101953A (zh) * 2018-09-07 2018-12-28 大连东锐软件有限公司 基于人类面部表情的分区要素化的表情动作生成方法
CN109409255A (zh) * 2018-10-10 2019-03-01 长沙千博信息技术有限公司 一种手语场景生成方法及装置
TWI712032B (zh) * 2019-01-04 2020-12-01 香港商成境科技有限公司 語音轉換虛擬臉部影像的方法
CN111161755A (zh) * 2019-12-25 2020-05-15 新华智云科技有限公司 基于3d渲染引擎的中文唇音同步方法

Similar Documents

Publication Publication Date Title
CN106446406A (zh) 一种将中文语句转化为人类口型的仿真系统及仿真方法
CN106653052B (zh) 虚拟人脸动画的生成方法及装置
CN109065055A (zh) 基于声音生成ar内容的方法、存储介质和装置
CN110853614A (zh) 虚拟对象口型驱动方法、装置及终端设备
CN103092329A (zh) 一种基于唇读技术的唇语输入方法
CN109036371A (zh) 用于语音合成的音频数据生成方法及系统
CN112001323A (zh) 一种基于拼音或英文音标读法的数字虚拟人嘴型驱动方法
CN101425054A (zh) 一种中文学习系统
KR100953979B1 (ko) 수화 학습 시스템
CN113096242A (zh) 虚拟主播生成方法、装置、电子设备及存储介质
CN115953521B (zh) 远程数字人渲染方法、装置及系统
CN109801349A (zh) 一种声音驱动的三维动画角色实时表情生成方法和系统
CN108304387B (zh) 文本中噪音词的识别方法、装置、服务器组及存储介质
CN112199502A (zh) 基于情感的诗句生成方法及装置、电子设备和存储介质
Zeng Implementation of Embedded Technology-Based English Speech Identification and Translation System.
Wang et al. Design of a Virtual Reality-Based Learning System for Spoken English.
CN116665275A (zh) 基于文本到汉语拼音的面部表情合成与交互控制方法
Farella et al. Question Answering with BERT: designing a 3D virtual avatar for Cultural Heritage exploration
CN112242134A (zh) 语音合成方法及装置
Zhao et al. Realizing speech to gesture conversion by keyword spotting
CN115167674A (zh) 基于数字人多模态交互信息标准的智能交互方法
CN102521577A (zh) 一种交互式多媒体设备的笔迹识别、合成和跟踪方法
CN114694633A (zh) 语音合成方法、装置、设备及存储介质
Kondratiuk et al. Dactyl alphabet modeling and recognition using cross platform software
Lee et al. Computer animated visual translation from natural language to sign language

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20170222

WD01 Invention patent application deemed withdrawn after publication