CN112001323A - 一种基于拼音或英文音标读法的数字虚拟人嘴型驱动方法 - Google Patents
一种基于拼音或英文音标读法的数字虚拟人嘴型驱动方法 Download PDFInfo
- Publication number
- CN112001323A CN112001323A CN202010864395.5A CN202010864395A CN112001323A CN 112001323 A CN112001323 A CN 112001323A CN 202010864395 A CN202010864395 A CN 202010864395A CN 112001323 A CN112001323 A CN 112001323A
- Authority
- CN
- China
- Prior art keywords
- mouth
- mouth shape
- lip
- phonetic symbol
- digital virtual
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 24
- 238000012216 screening Methods 0.000 claims abstract description 4
- 239000013598 vector Substances 0.000 claims description 9
- 230000008569 process Effects 0.000 claims description 3
- 238000005070 sampling Methods 0.000 claims 1
- 238000004519 manufacturing process Methods 0.000 abstract description 3
- 238000007621 cluster analysis Methods 0.000 description 3
- 238000010224 classification analysis Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000008921 facial expression Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T13/00—Animation
- G06T13/20—3D [Three Dimensional] animation
- G06T13/40—3D [Three Dimensional] animation of characters, e.g. humans, animals or virtual beings
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/148—Segmentation of character regions
- G06V30/153—Segmentation of character regions using recognition of characters or words
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/161—Detection; Localisation; Normalisation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Human Computer Interaction (AREA)
- Document Processing Apparatus (AREA)
Abstract
本发明公开了一种基于拼音或英文音标读法的数字虚拟人嘴型驱动方法,涉及数字虚拟图像生成技术领域。本发明包括如下步骤:将中文中每个韵母和每个声母或者英文中每个音标拼读的发音嘴型动作记录下来,构建生成嘴型数据库;识别给定文本,生成拼音序列或音标序列,从序列中筛选出关键音素;对关键音素嘴型建模,完成不同关键音素对应不同嘴型参数匹配;通过插值算法,将声母和韵母或者音标动作混合在一起,形成给定文本发音的嘴型;将定文本发音的嘴型导入到数字虚拟人像中,驱动数字虚拟人动嘴。本发明以此来驱动数字虚拟人的嘴型动嘴,提高虚拟人物嘴型的生成准确率,降低三维虚拟动画的制作成本。
Description
技术领域
本发明属于数字虚拟图像生成技术领域,特别是涉及一种基于拼音或英文音标读法的数字虚拟人嘴型驱动方法。
背景技术
三维虚拟动画具有深远的文化意义,它以“寓教于乐”的方式在大众中传播着文化知识信息。好的动画作品可以宣扬人文精神和赞美大自然,更可以继承和发扬民族文化。
在动画角色中,常需要根据输入的对话展示面部表情,包括口型。然而,在实际应用中,受语速、嘴巴大小、语种、方言等因素的影响,语言口型的生成较为困难,导致汉语、英语嘴型的生成准确率较低,
因此,为了传承这种优秀的文化形式,本文要通过对拼音和英文音标与嘴型关系的研究,达到简便制作嘴型同步动画的效果,从而来丰富动漫虚拟人物的表情。
发明内容
本发明的目的在于提供一种基于拼音或英文音标读法的数字虚拟人嘴型驱动方法,通过采集中文的声母和韵母或英文音标的每个发音的嘴型动作并构建嘴型库,获取给定文本中发音结构找到对应的嘴型,利用插值算法将嘴型动作混合,形成文本的发音嘴型,解决了现有的虚拟人物嘴型的生成准确率较低,制作成本高的问题。
为解决上述技术问题,本发明是通过以下技术方案实现的:
本发明为一种基于拼音或英文音标读法的数字虚拟人嘴型驱动方法,包括如下步骤:
步骤S1:将中文中每个韵母和每个声母或者英文中每个音标拼读的发音嘴型动作记录下来,构建生成嘴型数据库;
步骤S2:识别给定文本,生成拼音序列或音标序列,从序列中筛选出关键音素;
步骤S3:对关键音素嘴型建模,完成不同关键音素对应不同嘴型参数匹配;
步骤S4:通过插值算法,将声母和韵母或者音标动作混合在一起,形成给定文本发音的嘴型;
步骤S5:将定文本发音的嘴型导入到数字虚拟人像中,驱动数字虚拟人动嘴。
优选地,所述步骤S1中,嘴型动作记录过程如下:
步骤S11:通过多个人读中文的声母和韵母或英文音标,同时使用摄像机进行拍摄,获取音频流数据和视频流数据;
步骤S12:将视频流分割成一帧一帧图片,找出中文的声母和韵母或英文音标对应的帧图片;
步骤S13:对正面人脸图像进行检测,获取中文的声母和韵母或英文音标所对应的嘴唇信息;
步骤S14:将嘴唇信息以及对应的中文的声母和韵母或英文音标录入嘴型数据库。
优选地,所述步骤S3中,对关键音素的特征数据进行训练和建模,通过ASM算法检测正面的人脸图片获得唇形信息进行分类和聚类分析处理,消除在采样唇形数据时因每个人嘴唇大小不同而产生的误差,把不同人的唇形形状归一化,把每一帧唇形图片上的二维坐标转化为高维空间上的点,将每个点合成一列高维向量,每一个向量代表一帧唇形图片信息,对所有向量进行分类与聚类分析处理,并划分到多个基本唇形类别中,利用语音帧和唇形帧在时间序列上的一一对应关系,将对应的语音帧也进行聚类划分成多个类别,将已经归类的语音帧和唇形帧的每一个类别建立网络模型。
本发明具有以下有益效果:
本发明通过采集中文的声母和韵母或英文音标的每个发音的嘴型动作并构建嘴型库,获取给定文本中发音结构找到对应的嘴型,利用插值算法将声母和韵母或英文音标的嘴型动作混合,形成文本的发音嘴型,并以此来驱动数字虚拟人的嘴型动嘴,提高虚拟人物嘴型的生成准确率,降低三维虚拟动画的制作成本。
当然,实施本发明的任一产品并不一定需要同时达到以上所述的所有优点。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明的一种基于拼音或英文音标读法的数字虚拟人嘴型驱动方法步骤图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
请参阅图1所示,本发明为一种基于拼音或英文音标读法的数字虚拟人嘴型驱动方法,包括如下步骤:
步骤S1:将中文中每个韵母和每个声母或者英文中每个音标拼读的发音嘴型动作记录下来,构建生成嘴型数据库;
其中,中文中包括24个韵母和23个声母;声母包括b、p、m、f、d、t、n、l、g、k、h、j、q、x、zh、ch、sh、r、z、c、s和零声母,韵母包括a、ai、an、ang、ao、e、ei、en、eng、er、o、ong、ou、i、i1、i2、ia、ian、iang、iao、ie、in、ng、iong、iou、u、ua、uai、uan、uang、uei、uen、ueng、uo、v、van、ve、vn、io;
英文中音标公有48个,包括元音20个,辅音28个;元音包括单元音([i:]、bai[I]、[u:]、 [ɑ:]、[e]、)和双元音([eI]、[aI]、);辅音包括:[p]、[b]、[t]、[d]、[k]、[g]、[f]、[v]、[s]、[z]、[θ]、[∫]、[t∫]、[d3]、[tr]、[dr]、[ts]、[dz]、[m]、[n]、[η]、[h]、[l]、[r]、[j]、[w]。
步骤S2:识别给定文本,生成拼音序列或音标序列,从序列中筛选出关键音素;
步骤S3:对关键音素嘴型建模,完成不同关键音素对应不同嘴型参数匹配;
步骤S4:通过插值算法,将声母和韵母或者音标动作混合在一起,形成给定文本发音的嘴型;
步骤S5:将定文本发音的嘴型导入到数字虚拟人像中,驱动数字虚拟人动嘴。
其中,步骤S1中,嘴型动作记录过程如下:
步骤S11:通过多个人读中文的声母和韵母或英文音标,同时使用摄像机进行拍摄,获取音频流数据和视频流数据;
步骤S12:将视频流分割成一帧一帧图片,找出中文的声母和韵母或英文音标对应的帧图片;
步骤S13:对正面人脸图像进行检测,获取中文的声母和韵母或英文音标所对应的嘴唇信息;
步骤S14:将嘴唇信息以及对应的中文的声母和韵母或英文音标录入嘴型数据库。
其中,步骤S3中,对关键音素的特征数据进行训练和建模,通过ASM算法检测正面的人脸图片获得唇形信息进行分类和聚类分析处理,消除在采样唇形数据时因每个人嘴唇大小不同而产生的误差,把不同人的唇形形状归一化,把每一帧唇形图片上的二维坐标转化为高维空间上的点,将每个点合成一列高维向量,每一个向量代表一帧唇形图片信息,对所有向量进行分类与聚类分析处理,并划分到多个基本唇形类别中,利用语音帧和唇形帧在时间序列上的一一对应关系,将对应的语音帧也进行聚类划分成多个类别,将已经归类的语音帧和唇形帧的每一个类别建立网络模型。
值得注意的是,上述系统实施例中,所包括的各个单元只是按照功能逻辑进行划分的,但并不局限于上述的划分,只要能够实现相应的功能即可;另外,各功能单元的具体名称也只是为了便于相互区分,并不用于限制本发明的保护范围。
另外,本领域普通技术人员可以理解实现上述各实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,相应的程序可以存储于一计算机可读取存储介质中。
以上公开的本发明优选实施例只是用于帮助阐述本发明。优选实施例并没有详尽叙述所有的细节,也不限制该发明仅为所述的具体实施方式。显然,根据本说明书的内容,可作很多的修改和变化。本说明书选取并具体描述这些实施例,是为了更好地解释本发明的原理和实际应用,从而使所属技术领域技术人员能很好地理解和利用本发明。本发明仅受权利要求书及其全部范围和等效物的限制。
Claims (3)
1.一种基于拼音或英文音标读法的数字虚拟人嘴型驱动方法,其特征在于,包括如下步骤:
步骤S1:将中文中每个韵母和每个声母或者英文中每个音标拼读的发音嘴型动作记录下来,构建生成嘴型数据库;
步骤S2:识别给定文本,生成拼音序列或音标序列,从序列中筛选出关键音素;
步骤S3:对关键音素嘴型建模,完成不同关键音素对应不同嘴型参数匹配;
步骤S4:通过插值算法,将声母和韵母或者音标动作混合在一起,形成给定文本发音的嘴型;
步骤S5:将定文本发音的嘴型导入到数字虚拟人像中,驱动数字虚拟人动嘴。
2.根据权利要求1所述的一种基于拼音或英文音标读法的数字虚拟人嘴型驱动方法,其特征在于,所述步骤S1中,嘴型动作记录过程如下:
步骤S11:通过多个人读中文的声母和韵母或英文音标,同时使用摄像机进行拍摄,获取音频流数据和视频流数据;
步骤S12:将视频流分割成一帧一帧图片,找出中文的声母和韵母或英文音标对应的帧图片;
步骤S13:对正面人脸图像进行检测,获取中文的声母和韵母或英文音标所对应的嘴唇信息;
步骤S14:将嘴唇信息以及对应的中文的声母和韵母或英文音标录入嘴型数据库。
3.根据权利要求1所述的一种基于拼音或英文音标读法的数字虚拟人嘴型驱动方法,其特征在于,所述步骤S3中,对关键音素的特征数据进行训练和建模,通过ASM算法检测正面的人脸图片获得唇形信息进行分类和聚类分析处理,消除在采样唇形数据时因每个人嘴唇大小不同而产生的误差,把不同人的唇形形状归一化,把每一帧唇形图片上的二维坐标转化为高维空间上的点,将每个点合成一列高维向量,每一个向量代表一帧唇形图片信息,对所有向量进行分类与聚类分析处理,并划分到多个基本唇形类别中,利用语音帧和唇形帧在时间序列上的一一对应关系,将对应的语音帧也进行聚类划分成多个类别,将已经归类的语音帧和唇形帧的每一个类别建立网络模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010864395.5A CN112001323A (zh) | 2020-08-25 | 2020-08-25 | 一种基于拼音或英文音标读法的数字虚拟人嘴型驱动方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010864395.5A CN112001323A (zh) | 2020-08-25 | 2020-08-25 | 一种基于拼音或英文音标读法的数字虚拟人嘴型驱动方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112001323A true CN112001323A (zh) | 2020-11-27 |
Family
ID=73471829
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010864395.5A Pending CN112001323A (zh) | 2020-08-25 | 2020-08-25 | 一种基于拼音或英文音标读法的数字虚拟人嘴型驱动方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112001323A (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112949554A (zh) * | 2021-03-22 | 2021-06-11 | 湖南中凯智创科技有限公司 | 智能儿童陪伴教育机器人 |
CN113205797A (zh) * | 2021-04-30 | 2021-08-03 | 平安科技(深圳)有限公司 | 虚拟主播生成方法、装置、计算机设备及可读存储介质 |
CN113873324A (zh) * | 2021-10-18 | 2021-12-31 | 深圳追一科技有限公司 | 一种音频处理的方法、装置、存储介质和设备 |
CN114581567A (zh) * | 2022-05-06 | 2022-06-03 | 成都市谛视无限科技有限公司 | 一种声音驱动虚拟形象口型方法、装置及介质 |
CN114996516A (zh) * | 2022-06-02 | 2022-09-02 | 上海积图科技有限公司 | 虚拟数字人动态嘴型的生成方法及相关设备 |
CN115222856A (zh) * | 2022-05-20 | 2022-10-21 | 一点灵犀信息技术(广州)有限公司 | 表情动画生成方法及电子设备 |
CN115942043A (zh) * | 2023-03-03 | 2023-04-07 | 南京爱照飞打影像科技有限公司 | 一种基于ai语音识别的视频碎剪方法与设备 |
CN116564336A (zh) * | 2023-05-15 | 2023-08-08 | 珠海盈米基金销售有限公司 | 一种ai交互方法、系统、装置及介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101751692A (zh) * | 2009-12-24 | 2010-06-23 | 四川大学 | 语音驱动唇形动画的方法 |
CN102819856A (zh) * | 2012-07-10 | 2012-12-12 | 广东工业大学 | 一种根据中文对白生成连贯嘴型动画的方法 |
CN108447474A (zh) * | 2018-03-12 | 2018-08-24 | 北京灵伴未来科技有限公司 | 一种虚拟人物语音与口型同步的建模与控制方法 |
-
2020
- 2020-08-25 CN CN202010864395.5A patent/CN112001323A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101751692A (zh) * | 2009-12-24 | 2010-06-23 | 四川大学 | 语音驱动唇形动画的方法 |
CN102819856A (zh) * | 2012-07-10 | 2012-12-12 | 广东工业大学 | 一种根据中文对白生成连贯嘴型动画的方法 |
CN108447474A (zh) * | 2018-03-12 | 2018-08-24 | 北京灵伴未来科技有限公司 | 一种虚拟人物语音与口型同步的建模与控制方法 |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112949554A (zh) * | 2021-03-22 | 2021-06-11 | 湖南中凯智创科技有限公司 | 智能儿童陪伴教育机器人 |
CN113205797A (zh) * | 2021-04-30 | 2021-08-03 | 平安科技(深圳)有限公司 | 虚拟主播生成方法、装置、计算机设备及可读存储介质 |
CN113205797B (zh) * | 2021-04-30 | 2024-03-05 | 平安科技(深圳)有限公司 | 虚拟主播生成方法、装置、计算机设备及可读存储介质 |
CN113873324A (zh) * | 2021-10-18 | 2021-12-31 | 深圳追一科技有限公司 | 一种音频处理的方法、装置、存储介质和设备 |
CN114581567A (zh) * | 2022-05-06 | 2022-06-03 | 成都市谛视无限科技有限公司 | 一种声音驱动虚拟形象口型方法、装置及介质 |
CN114581567B (zh) * | 2022-05-06 | 2022-08-02 | 成都市谛视无限科技有限公司 | 一种声音驱动虚拟形象口型方法、装置及介质 |
CN115222856A (zh) * | 2022-05-20 | 2022-10-21 | 一点灵犀信息技术(广州)有限公司 | 表情动画生成方法及电子设备 |
CN115222856B (zh) * | 2022-05-20 | 2023-09-26 | 一点灵犀信息技术(广州)有限公司 | 表情动画生成方法及电子设备 |
CN114996516A (zh) * | 2022-06-02 | 2022-09-02 | 上海积图科技有限公司 | 虚拟数字人动态嘴型的生成方法及相关设备 |
CN115942043A (zh) * | 2023-03-03 | 2023-04-07 | 南京爱照飞打影像科技有限公司 | 一种基于ai语音识别的视频碎剪方法与设备 |
CN116564336A (zh) * | 2023-05-15 | 2023-08-08 | 珠海盈米基金销售有限公司 | 一种ai交互方法、系统、装置及介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112001323A (zh) | 一种基于拼音或英文音标读法的数字虚拟人嘴型驱动方法 | |
CN106653052B (zh) | 虚拟人脸动画的生成方法及装置 | |
Cao et al. | Expressive speech-driven facial animation | |
JP2667954B2 (ja) | 静的及び動的パラメータを使用する自動手書き文字認識装置及び方法 | |
US8224652B2 (en) | Speech and text driven HMM-based body animation synthesis | |
CN108984530A (zh) | 一种网络敏感内容的检测方法及检测系统 | |
CN113538636B (zh) | 一种虚拟对象的控制方法、装置、电子设备及介质 | |
CN112001175A (zh) | 流程自动化方法、装置、电子设备及存储介质 | |
CN111901627B (zh) | 视频处理方法、装置、存储介质及电子设备 | |
JP2018147073A (ja) | 出力文生成装置、出力文生成方法および出力文生成プログラム | |
CN113096242A (zh) | 虚拟主播生成方法、装置、电子设备及存储介质 | |
CN106446406A (zh) | 一种将中文语句转化为人类口型的仿真系统及仿真方法 | |
WO2024114389A1 (zh) | 用于交互的方法、装置、设备和存储介质 | |
CN112349294B (zh) | 语音处理方法及装置、计算机可读介质、电子设备 | |
CN115511704B (zh) | 一种虚拟客服生成方法、装置、电子设备及存储介质 | |
CN114503193A (zh) | 多流递归神经网络换能器 | |
CN116631434A (zh) | 基于转换系统的视频语音同步方法、装置、电子设备 | |
CN116665275A (zh) | 基于文本到汉语拼音的面部表情合成与交互控制方法 | |
Wang et al. | WaveNet with cross-attention for audiovisual speech recognition | |
Reddy et al. | Indian sign language generation from live audio or text for tamil | |
Sharma et al. | Exploiting speech/gesture co-occurrence for improving continuous gesture recognition in weather narration | |
Medjkoune et al. | Combining speech and handwriting modalities for mathematical expression recognition | |
Li et al. | A novel speech-driven lip-sync model with CNN and LSTM | |
Reddy et al. | Creation of GIF dataset and implementation of a speech-to-sign language translator in Telugu | |
Weerathunga et al. | Lip synchronization modeling for sinhala speech |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |