CN115147521A - 一种基于人工智能语义分析的角色表情动画的生成方法 - Google Patents

一种基于人工智能语义分析的角色表情动画的生成方法 Download PDF

Info

Publication number
CN115147521A
CN115147521A CN202210721665.6A CN202210721665A CN115147521A CN 115147521 A CN115147521 A CN 115147521A CN 202210721665 A CN202210721665 A CN 202210721665A CN 115147521 A CN115147521 A CN 115147521A
Authority
CN
China
Prior art keywords
expression
character
information
mouth shape
pronunciation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210721665.6A
Other languages
English (en)
Inventor
葛水英
潘蒙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Zhongke Shiwei Culture Technology Co ltd
Original Assignee
Beijing Zhongke Shiwei Culture Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Zhongke Shiwei Culture Technology Co ltd filed Critical Beijing Zhongke Shiwei Culture Technology Co ltd
Priority to CN202210721665.6A priority Critical patent/CN115147521A/zh
Publication of CN115147521A publication Critical patent/CN115147521A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T13/00Animation
    • G06T13/203D [Three Dimensional] animation
    • G06T13/403D [Three Dimensional] animation of characters, e.g. humans, animals or virtual beings
    • AHUMAN NECESSITIES
    • A63SPORTS; GAMES; AMUSEMENTS
    • A63FCARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
    • A63F13/00Video games, i.e. games using an electronically generated display having two or more dimensions
    • A63F13/60Generating or modifying game content before or while executing the game program, e.g. authoring tools specially adapted for game development or game-integrated level editor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/43Querying
    • G06F16/435Filtering based on additional data, e.g. user or group profiles
    • G06F16/436Filtering based on additional data, e.g. user or group profiles using biological or physiological data of a human being, e.g. blood pressure, facial expression, gestures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/151Transformation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Multimedia (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Human Computer Interaction (AREA)
  • Biophysics (AREA)
  • Databases & Information Systems (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Physiology (AREA)
  • Molecular Biology (AREA)
  • Acoustics & Sound (AREA)
  • Processing Or Creating Images (AREA)

Abstract

本申请公开了一种基于人工智能语义分析的角色表情动画的生成方法,其中,所述方法包括接收音频文件;将所述音频文件按照预设语音转换规则转换得到文字序列,其中所述文字序列中包括每个文字的发音信息以及发音开始结束时间;根据所述发音信息、所述发音开始结束时间解析得到对应的口型表情序列信息;根据所述文字序列中文本情感分析结果,得到情绪信息;将通过所述情绪信息得到的表情库以及动作库与所述口型表情序列信息合成,得到角色目标表情动画下发至用户端。本申请解决传统口型与表情的算法匹配度不高的问题,以便于高效地合成高质量的面部表情动画,从而满足各个行业对虚拟角色表情动画的大量需求。

Description

一种基于人工智能语义分析的角色表情动画的生成方法
技术领域
本申请涉及动画技术领域,尤其涉及一种基于人工智能语义分析的角色表情动画的生成方法。
背景技术
各种各样的虚拟角色广泛应用于我们日常生活中的方方面面,虚拟主播、虚拟偶像、各种智能语音助手越来越多的出现在大众视野中。而随着人工智能的快速发展,人工智能在计算机动画技术领域开始崭露头角,怎样利用人工智能技术高效高质量的生成角色表情动画,是一个极富挑战性的研究课题。
在传统的三维角色动画制作中,面部表情动画的呈现最为关键,只有当表情、口型、声音三者完美匹配时,角色的整体表演才会看起来更加真实自然。而制作一段高质量的面部表情动画需要耗费大量的时间和人力,制作人员的技术水平也直接影响了最终呈现的面部表情动画效果。
相关技术中,利用机器学习算法合成的方法自动生成面部动画,主要通过Blendshape控制口型的变化,并对表情进行融合处理,从而生成面部表情。这种方法虽然效率高,但是难以满足高质量的表情动画需求,合成的动画机械感比较重。。
故,在虚拟角色与真人进行人机交互时,虚拟角色与真人对话时表情动画的真实度、细腻度都较低,整体呈现的表演效果生硬且重复度高,影响用户体验。
发明内容
本申请实施例提供了基于人工智能语义分析的角色表情动画的生成方法、装置及电子设备、存储介质,以通过改善角色表情动画,进而提高用户体验。
本申请实施例采用下述技术方案:
第一方面,本申请实施例提供一种基于人工智能语义分析的角色表情动画的生成方法其中,用于服务器,所述方法包括:接收音频文件;将所述音频文件按照预设语音转换规则转换得到文字序列,其中所述文字序列中包括每个文字的发音信息以及发音开始结束时间;根据所述发音信息、所述发音开始结束时间解析得到对应的口型表情序列信息;根据所述文字序列中文本情感分析结果,得到情绪信息;将通过所述情绪信息得到的表情库以及动作库与所述口型表情序列信息合成,得到角色目标表情动画下发至用户端。
第二方面,本申请实施例还提供一种基于人工智能语义分析的角色表情动画的生成装置,其中,用于服务器,所述装置包括:接收模块,用于接收音频文件;语音转换模块,用于将所述音频文件按照预设语音转换规则转换得到文字序列,其中所述文字序列中包括每个文字的发音信息以及发音开始结束时间;表情解析模块,用于根据所述发音信息、所述发音开始结束时间解析得到对应的口型表情序列信息;根据所述文字序列中文本情感分析结果,得到情绪信息;表情合成模块,用于通过所述情绪信息得到的表情库以及动作库与所述口型表情序列信息合成,得到角色目标表情动画下发至用户端。
第三方面,本申请实施例还提供一种电子设备,包括:处理器;以及被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器执行前述任一所述方法。
第四方面,本申请实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储一个或多个程序,所述一个或多个程序当被包括多个应用程序的电子设备执行时,使得所述电子设备执行前述任一所述方法。
本申请实施例采用的上述至少一个技术方案能够达到以下有益效果:
在接收音频文件之后,将所述音频文件按照预设语音转换规则转换得到文字序列,再根据所述发音信息、所述发音开始结束时间解析得到对应的口型表情序列信息,根据所述文字序列中文本情感分析结果,得到情绪信息;最后将通过所述情绪信息得到的表情库以及动作库将角色预设表情模型与所述口型表情序列信息合成,得到角色目标表情动画下发至用户端。解决传统口型与表情的算法匹配度不高的问题,以便于高效地合成高质量的面部表情动画,从而满足各个行业对虚拟角色表情动画的大量需求。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1为本申请实施例中基于人工智能语义分析的角色表情动画的生成方法流程示意图;
图2为本申请实施例中基于人工智能语义分析的角色表情动画的生成装置结构示意图;
图3为本申请实施例中一种电子设备的结构示意图;
图4为本申请优选实施例中基于人工智能语义分析的角色表情动画的生成流程示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
发明人研究发现,在传统的三维角色动画制作中,面部表情动画的呈现最为关键,只有当表情、口型、声音三者完美匹配时,角色的整体表演才会看起来更加真实自然。而制作一段高质量的面部表情动画需要耗费大量的时间和人力。
通常我们与人对话,只看对方的表情,听对方的言语,但很少去观察对方的口型,因为对话时的口型只是产生言语的辅助动作,不用花心思去注意。什么样的表情动画是优秀的—让观众忽略了表情动画,那就是成功的表情动画。相反,表情动画做的越差,观众的注意力就越容易集中到表情动画上去。
针对虚拟角色的口型表情和语音信息的匹配度要求逐渐增加,需要一种快速高效的表情动画的生成方法,解决传统口型与表情的算法匹配度不高的问题,以便于高效地合成高质量的面部表情动画,从而满足各个行业对虚拟角色表情动画的大量需求。
以下结合附图,详细说明本申请各实施例提供的技术方案。
本申请实施例提供了一种基于人工智能语义分析的角色表情动画的生成方法,如图1所示,提供了本申请实施例中基于人工智能语义分析的角色表情动画的生成方法流程示意图,所述方法至少包括如下的步骤S110至步骤S140:
步骤S110,接收音频文件。
在本申请用于服务器时,接收待处理的音频文件。
进一步,在服务器对上传的录音文件进行文件校验以及格式处理,将接收的录音文件流,上传到语音识别服务器。语音识别服务器对所采集到的声音信号进行滤波、分帧等预处理工作。
在语音识别服务器中还包括除去冗余信息。
步骤S120,将所述音频文件按照预设语音转换规则转换得到文字序列,其中所述文字序列中包括每个文字的发音信息以及发音开始结束时间。
具体实施时,提取影响语音识别的关键信息和表达语言含义的特征信息;特征提取工作将声音信号从时域转换到频域,为声学模型提供合适的特征向量,紧扣特征信息,用最小单元识别字词。
进一步,根据声学模型中再根据声学特征性计算每一个特征向量在声学特征上的得分,按照不同语言的各自语法,依照先后次序识别字词。同时把前后意思当作辅助识别条件,有利于分析和识别。根据语言学相关的理论,计算该声音信号对应可能词组序列的概率,按照语义分析,给关键信息划分段落,取出所识别出的字词并连接起来,同时根据语句意思调整句子构成。
进一步,结合语义仔细分析上下文的相互联系,对当前正在处理的语句进行适当修正。
服务器分段返回语音每个词的时间节点信息,服务器获取识别结果,对结果进行汇总。处理汇总后的结果,生成带有时间信息的文字序列。进而根据所述发音信息、所述发音开始结束时间解析得到对应的口型表情序列信息。
步骤S130,根据所述发音信息、所述发音开始结束时间解析得到对应的口型表情序列信息,并根据角色自身特点制作出微笑、开口笑、悲伤、厌恶、愤怒、震惊等基础表情库。
需要根据所述发音信息、所述发音开始结束时间对于每个文字进行解析得到对应的口型表情序列信息。
需要注意的是,口型表情序列信息中包括了按照时间顺序排列的文字序列。
所述口型表情序列信息可以在预设口型编码库中查询得到。考虑到文字信息为中文,所以建立预设汉语拼音口型编码库。该段语音内容所分析得出的情绪信息也会跟表情库中的对应表情自动匹配。由于人的情绪极其复杂,考虑到同一段对话在不同情况下所呈现出的不同情绪信息,本系统提供了一套可控的表情控制参数可以人为控制表情幅度。
步骤S140,根据所述文字序列中文本情感分析结果,得到情绪信息。
语义分析提取文本情绪信息的具体实施步骤为:
步骤1:通过相关内部数据(比如公司内部获得的数据),公开数据等方式,建立语料库;
步骤2:对于语料进行清洗,保留有用的数据,删除噪音数据;
步骤3:对于语料进行分词,将文本分成词语;
步骤4:对于语料进行词性标注,给词语标上词类标签;
步骤5:对于语料进行去停用词:去掉对文本特征没有任何贡献作用的字词,比如:标点符号、语气、“的”等;
步骤6:将分词表示成计算机识别的计算类型;
步骤7:基于第三部特征工程得到的特征,选择合适的、表达能力强的特征,进行特征选择;
步骤8:选择机器学习模型如:KNN、SVM、Naive Bayes、决策树、K-means 等;深度学习模型,比如:RNN、CNN、LSTM、Seq2Seq、FastText、TextCNN等;
步骤9:对选定的模型进行训练;
步骤10:对模型多维度评估,如错误率、精准度、准确率、召回率、F1值、 ROC曲线、AUC曲线等;
步骤11:模型算法升级,错误样本再训练;
步骤12:得到最优模型效果,采取线下训练模型及线上训练模型,最终分析得出该文本所包含的情绪信息。
步骤S150,将通过所述情绪信息得到的表情库以及动作库与所述口型表情序列信息合成,得到角色目标表情动画下发至用户端。
通过Maya三维动画制作软件以及Unity游戏引擎软件,进行口型信息匹配与表情信息匹配,得到角色目标表情动画下发至用户端,从而在用户端能够实时看到角色表情动画。
具体实施时,在以Maya为例,在Maya应用中根据汉语拼音口型编码库中的要求为角色调整出对应的10组基础口型表情。将角色以及制作好的口型表情库导入到Unity游戏引擎中,并根据汉语拼音口型编码库种对应的口型编码对表情进行编码标记。将带有时间标签的表情序列信息与表情编码一一对应,自动在每个字发音的位置匹配该发音所对应的口型编码,并根据词组以及上下文字的发音添加融合口型。封装完成后用户可在移动端实现与虚拟角色进行自然流畅的可视化语音实时交互。
第一级:开口型和闭口型(口型有明显的张开和闭合),包含口型有:
A:嘴半张,嘴角向两边展开成扁形;
B:发音时双唇由闭合到打开,闭合时嘴型向外略微用力,可发出爆破音。
C:嘴自然张大,嘴角稍向两边展开;
F:发音时上牙微咬下唇,由闭合到打开;
H:嘴自然张大;
第二级:特殊口型,包含口型有:
O:嘴成圆形,微翘起;
U:嘴拢圆,突出成小孔
第三级:辅助型(发音时,口型变化幅度不显),包含口型有:
E:嘴微张,嘴角向两边展开成扁形;
G:嘴半张,嘴角稍稍用力;
R:嘴微张成扁平状;
如表1所示,是上述10中口型对应的字段信息。
表1
口型编码 口型描述 口型示意
通过以上10种口型构建汉语拼音编码库,再利用语音转写的结果将文本信息转化为对应的口型表情编码信息。需要注意的是,汉语拼音编码库中的类型还可以包括其他种类,在本申请的实施例中并不进行具体限定。
通过建立与10种基础口型一一对应构建汉语拼音编码库,再利用语音转写的结果将文本信息转化为对应的口型表情编码信息。
在本申请的一个实施例中,所述根据所述发音信息、所述发音开始结束时间解析得到对应的口型表情序列信息,包括:根据所述每个文字的发音信息以及发音开始结束时间,在所述预设汉语拼音口型编码库检索得到每个文字匹配的口型表情序列信息。
具体实施时,根据所述每个文字的发音信息以及发音开始结束时间,匹配得到每个文字的口型表情序列信息。比如,根据对应编码确定属于哪个口型。
在本申请的一个实施例中,所述将角色预设表情模型与所述口型表情序列信息合成,得到角色目标表情动画,包括:将角色预设表情模型与所述口型表情序列信息合成的过程中,如果需要口型融合,则将至少两个单韵母对应的口型进行融合,得到对应融合后的角色目标表情动画。
具体实施时,融合口型形成逻辑:融合口型不需要固定的口型模型制作,是基于两个或两个以上的单韵母口型转换过程中所形成的口部形状,比较典型的就是复韵母发音口型。
在本申请的一个实施例中,所述将角色预设表情模型与所述口型表情序列信息合成,得到角色目标表情动画,包括:将角色预设表情模型与所述口型表情序列信息合成的过程中,根据预设口型幅度控制策略调整得到对应口型幅度的角色目标表情动画。
具体实施时,口型幅度控制:根据语音的强弱程度,调节口型的变化幅度,幅度的控制包括但不限于,(1)口腔张合度:没有形状的改变,只是上下颚两个关节在权限范围之内的张合。可辅助口型做幅度变化。也可作为说话关节活动的基础动画。(2)口型形状形成度:根据音节发音的力度,在权限范围内调节口型形状的变化程度。(3)在语音的分段处,结合上下连接文字发音所对应的口型闭合状况来决定口型的张开和闭合。(4)闭口音的比喝点不能和开口音融合。
进一步地,基础的表情库需要包含以下表情:
微笑:牙齿相互靠近,眉毛松弛。眼睛由于脸颊肌肉的挤压微微向上斜视。嘴角由颧骨肌向后往耳朵拉动。脸颊显得丰满并且改变形状。
开口笑:颌部下移使眼睛放宽。这实际上是大笑或某些其他情感反应包括讲话在内的前奏。
悲伤:颌肌推动下嘴唇并在下巴形成肉峰。额头由于皱眉肌而皱起,并由额肌引起皱纹,形成悲伤的眼睛,嘴角被三角肌下拉。
厌恶:皱起眉头,上唇微微以冷笑之势上拉,下唇有颌肌向上方推动。
大怒:愤怒时失去控制,眼睛几乎闭上。直接的愤怒会使眼睛睁大直盯目标。眉毛内推并皱起。上唇提肌极力拉动使外鼻区域向上。颈阔肌剧烈地牵拉嘴角并且颌部向下。嘴形成矩形。
震惊:眉毛被额肌拉得很高,颌部微微内缩。眼睛睁大,嘴些微绷紧(由于口轮匝肌)。牙关可能咬紧,嘴或许张大。
需要注意的是,表情融合时需注意以下几点:
(1)表情动画时表情不要做得太对称,因为那样表情看起来会比较怪异。
(2)表情动画的时候眉毛,眼睛,嘴和面颊是主要的运动点,而鼻子在面部有很大运动的时候才会有强烈的运动。
(3)表情的变化速度是比较快的,但是收的时候一般比较快,而放松的时候会稍微慢一些(根据实际情况的不同有不同的表现形式)。
(4)制作拟人角色时应注意,人类为了保持眼睛的湿润,所以一分钟平均眨眼7到8次左右。
在本申请的一个实施例中,包括:所述角色至少包括如下之一的虚拟角色:拟人、卡通、动物,所述角色预设表情模型位于虚拟角色面部表情系统中。
具体实施时,适用于任何有表情绑定的虚拟角色,无论是拟人、卡通、动物等任意风格任意类型的虚拟角色,只需该角色有参数可控的表情绑定,即可匹配使用本申请中的方法。
在本申请的一个实施例中,提供了一种基于人工智能语义分析的角色表情动画的生成方法,其中,用于用户端,所述方法包括:
采集音频文件;
将所述音频文件按照预设语音转换规则转换得到文字序列,其中所述文字序列中包括每个文字的发音信息以及发音开始结束时间;
根据所述发音信息、所述发音开始结束时间解析得到对应的口型表情序列信息;
将角色预设表情模型与所述口型表情序列信息合成,生成角色目标表情动画。
在用户端实现采集、转换、解析以及合成。将语音文件转成文字序列,同时标记每个字的发音和发音开始结束时间;根据发音和语音识别出的文字对应的词和上下文理解每个字发音时对应的表情,并用表情表达协议来表达表情序列;将有时间标签的表情序列与虚拟角色面部表情系统结合,生成与音频同步的表情动画。
本申请实施例还提供了基于人工智能语义分析的角色表情动画的生成装置200,如图2所示,提供了本申请实施例中基于人工智能语义分析的角色表情动画的生成装置的结构示意图,所述基于人工智能语义分析的角色表情动画的生成装置200至少包括:接收模块210、语音转换模块220、表情解析模块 230以及表情合成模块240,其中:
接收模块210,用于接收音频文件;
语音转换模块220,用于将所述音频文件按照预设语音转换规则转换得到文字序列,其中所述文字序列中包括每个文字的发音信息以及发音开始结束时间;
表情解析模块230,用于根据所述发音信息、所述发音开始结束时间解析得到对应的口型表情序列信息;
表情合成模块240,用于将角色预设表情模型与所述口型表情序列信息合成,得到角色目标表情动画下发至用户端。
在本申请的一个实施例中,所述接收模块210具体用于:在本申请用于服务器时,接收待处理的音频文件。
进一步,在服务器对上传的录音文件进行文件校验以及格式处理,将接收的录音文件流,上传到语音识别服务器。语音识别服务器对所采集到的声音信号进行滤波、分帧等预处理工作。
在语音识别服务器中还包括除去冗余信息。
在本申请的一个实施例中,所述语音转换模块220具体用于:提取影响语音识别的关键信息和表达语言含义的特征信息;特征提取工作将声音信号从时域转换到频域,为声学模型提供合适的特征向量,紧扣特征信息,用最小单元识别字词。
进一步,根据声学模型中再根据声学特征性计算每一个特征向量在声学特征上的得分,按照不同语言的各自语法,依照先后次序识别字词。同时把前后意思当作辅助识别条件,有利于分析和识别。根据语言学相关的理论,计算该声音信号对应可能词组序列的概率,按照语义分析,给关键信息划分段落,取出所识别出的字词并连接起来,同时根据语句意思调整句子构成。
进一步,结合语义仔细分析上下文的相互联系,对当前正在处理的语句进行适当修正。
服务器分段返回语音每个词的时间节点信息,服务器获取识别结果,对结果进行汇总。处理汇总后的结果,生成带有时间信息的文字序列。进而根据所述发音信息、所述发音开始结束时间解析得到对应的口型表情序列信息。
在本申请的一个实施例中,所述表情解析模块230具体用于:需要根据所述发音信息、所述发音开始结束时间对于每个文字进行解析得到对应的口型表情序列信息。
需要注意的是,口型表情序列信息中包括了按照时间顺序排列的文字序列。
所述口型表情序列信息可以在预设口型编码库中查询得到。考虑到文字信息为中文,所以建立预设汉语拼音口型编码库。
在本申请的一个实施例中,所述表情合成模块240具体用于:通过Maya 三维动画制作软件以及Unity游戏引擎软件,进行口型信息匹配与表情信息匹配,得到角色目标表情动画下发至用户端,从而在用户端能够实时看到角色表情动画。
具体实施时,在以Maya为例,在Maya应用中根据汉语拼音口型编码库中的要求为角色调整出对应的10组基础口型表情。将角色以及制作好的口型表情库导入到Unity游戏引擎中,并根据汉语拼音口型编码库种对应的口型编码对表情进行编码标记。将带有时间标签的表情序列信息与表情编码一一对应,自动在每个字发音的位置匹配该发音所对应的口型编码,并根据词组以及上下文字的发音添加融合口型。封装完成后用户可在移动端实现与虚拟角色进行自然流畅的可视化语音实时交互。
能够理解,上述基于人工智能语义分析的角色表情动画的生成装置,能够实现前述实施例中提供的基于人工智能语义分析的角色表情动画的生成方法的各个步骤,关于基于人工智能语义分析的角色表情动画的生成方法的相关阐释均适用于基于人工智能语义分析的角色表情动画的生成装置,此处不再赘述。
为了更好的理解上述基于人工智能语义分析的角色表情动画的生成方法流程,以下结合优选实施例对上述技术方案进行解释说明,但不用于限定本发明实施例的技术方案。
本申请实施例中基于人工智能语义分析的角色表情动画的生成方法,通过人工智能语义分析驱动虚拟角色表情动画自动生成系统。可根据输入音频信息,自动完成文字序列转换并按发音的时间信息提取出带有时间标签的表情序列信息,根据语义分析拆分词组提取上下文连接的文字,自动匹配融合口型,最终合成表情动画。该系统适用于任何带有表情绑定的虚拟角色,因此该系统具有较高的实用性,准确性和智能性,可大幅提高虚拟角色表情动画制作的效率与质量。
如图4所示,是基于人工智能语义分析的角色表情动画的生成方法的流程示意图,其具体包括:
语音转写模块用于将语音文件转成文字序列,同时标记每个字的发音和发音开始结束时间。
表情解析模块用于根据发音和语音识别出的文字对应的词和上下文理解每个字发音时对应的表情,并用表情表达协议来表达表情序列。
表情合成模块用于将有时间标签的表情序列与虚拟角色面部表情系统结合,生成与音频同步的表情动画,即根据语义解析分析提取出情绪信息。
为达成所述目的本发明提供一个基于人工智能语义分析的虚拟角色表情动画自动生成系统,该系统具有如下特征:
易用:本系统适用于任何有表情绑定的虚拟角色,无论是拟人、卡通、动物等任意风格任意类型的虚拟角色,只需该角色有参数可控的表情绑定,即可匹配使用该套系统。
高效:只需输入音频信息,系统可自动分析匹配并在虚拟角色上创建表情动画。
智能:通过人工智能语义分析提取音频中的关键词,与数据库中的情绪分类信息进行对比筛选判定情绪信息,并调用表情动作库中对应表情以及动作自动匹配该段表情动画。
可控:也可通过人工预设基本表情动画参数调节相关动画口型以及表情变化的幅度;
实时:基于人工智能语义分析实现与虚拟角色进行自然流畅的可视化语音实时交互。
图3是本申请的一个实施例电子设备的结构示意图。请参考图3,在硬件层面,该电子设备包括处理器,可选地还包括内部总线、网络接口、存储器。其中,存储器可能包含内存,例如高速随机存取存储器(Random-Access Memory, RAM),也可能还包括非易失性存储器(non-volatile memory),例如至少1个磁盘存储器等。当然,该电子设备还可能包括其他业务所需要的硬件。
处理器、网络接口和存储器可以通过内部总线相互连接,该内部总线可以是ISA(Industry Standard Architecture,工业标准体系结构)总线、PCI(PeripheralComponent Interconnect,外设部件互连标准)总线或 EISA(Extended IndustryStandard Architecture,扩展工业标准结构)总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示,图3 中仅用一个双向箭头表示,但并不表示仅有一根总线或一种类型的总线。
存储器,用于存放程序。具体地,程序可以包括程序代码,所述程序代码包括计算机操作指令。存储器可以包括内存和非易失性存储器,并向处理器提供指令和数据。
处理器从非易失性存储器中读取对应的计算机程序到内存中然后运行,在逻辑层面上形成基于人工智能语义分析的角色表情动画的生成装置。处理器,执行存储器所存放的程序,并具体用于执行以下操作:
接收音频文件;
将所述音频文件按照预设语音转换规则转换得到文字序列,其中所述文字序列中包括每个文字的发音信息以及发音开始结束时间;
根据所述发音信息、所述发音开始结束时间解析得到对应的口型表情序列信息;
将角色预设表情模型与所述口型表情序列信息合成,得到角色目标表情动画下发至用户端。
上述如本申请图1所示实施例揭示的基于人工智能语义分析的角色表情动画的生成装置执行的方法可以应用于处理器中,或者由处理器实现。处理器可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit, CPU)、网络处理器(Network Processor,NP)等;还可以是数字信号处理器 (Digital Signal Processor,DSP)、专用集成电路(ApplicationSpecific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable GateArray,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器,处理器读取存储器中的信息,结合其硬件完成上述方法的步骤。
该电子设备还可执行图1中基于人工智能语义分析的角色表情动画的生成装置执行的方法,并实现基于人工智能语义分析的角色表情动画的生成装置在图1所示实施例的功能,本申请实施例在此不再赘述。
本申请实施例还提出了一种计算机可读存储介质,该计算机可读存储介质存储一个或多个程序,该一个或多个程序包括指令,该指令当被包括多个应用程序的电子设备执行时,能够使该电子设备执行图1所示实施例中基于人工智能语义分析的角色表情动画的生成装置执行的方法,并具体用于执行:
接收音频文件;
将所述音频文件按照预设语音转换规则转换得到文字序列,其中所述文字序列中包括每个文字的发音信息以及发音开始结束时间;
根据所述发音信息、所述发音开始结束时间解析得到对应的口型表情序列信息;
根据所述文字序列中文本情感分析结果,得到情绪信息;
将通过所述情绪信息得到的表情库以及动作库与所述口型表情序列信息合成,得到角色目标表情动画下发至用户端。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和 /或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/ 或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器 (RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存 (PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体 (transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
以上所述仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。

Claims (10)

1.一种基于人工智能语义分析的角色表情动画的生成方法,其中,用于服务器,所述方法包括:
接收音频文件;
将所述音频文件按照预设语音转换规则转换得到文字序列,其中所述文字序列中包括每个文字的发音信息以及发音开始结束时间;
根据所述发音信息、所述发音开始结束时间解析得到对应的口型表情序列信息;
根据所述文字序列中文本情感分析结果,得到情绪信息;
将通过所述情绪信息得到的表情库以及动作库与所述口型表情序列信息合成,得到角色目标表情动画下发至用户端。
2.如权利要求1所述方法,其中,所述根据所述文字序列中文本情感分析结果,得到情绪信息包括:
基于预设数据,建立语料库;
对于语料进行清洗,保留有用的数据,删除噪音数据;
对于语料进行分词,将文本分成词语;
对于语料进行词性标注,给词语标上词类标签,以及对于语料进行去停用词、去掉对文本特征没有任何贡献作用的字词;
将分词表示成计算机识别的计算类型,选择合适的、表达能力强的特征,进行情绪信息特征选择。
3.如权利要求2所述方法,其中,所述将分词表示成计算机识别的计算类型,选择合适的、表达能力强的特征,进行情绪信息特征选择,还包括:
选择机器学习模型或者深度学习模型,对选定的模型进行训练;
对模型多维度评估,得到最优模型效果,采取线下训练模型及线上训练模型,分析得出该文本所包含的情绪信息。
4.如权利要求2所述方法,其中,所述将通过所述情绪信息得到的表情库以及动作库与所述口型表情序列信息合成,得到角色目标表情动画下发至用户端,包括:
将通过所述情绪信息得到的表情库以及动作库与所述口型表情序列信息合成的过程中,如果需要口型融合,则将表情对应的动作与口型融合,得到对应融合后的角色目标表情动画。
5.如权利要求1所述方法,其中,所述通过所述情绪信息得到的表情库以及动作库与所述口型表情序列信息合成,得到角色目标表情动画下发至用户端,包括:
将通过所述情绪信息得到的表情库以及动作库与所述口型表情序列信息合成的过程中,根据预设口型幅度控制策略调整得到对应口型幅度的角色目标表情动画。
6.如权利要求1所述方法,其中,包括:所述角色至少包括如下之一的虚拟角色:拟人、卡通、动物,所述角色预设表情模型位于虚拟角色面部表情系统中。
7.一种基于人工智能语义分析的角色表情动画的生成方法,其中,用于用户端,所述方法包括:
采集音频文件;
将所述音频文件按照预设语音转换规则转换得到文字序列,其中所述文字序列中包括每个文字的发音信息以及发音开始结束时间;
根据所述发音信息、所述发音开始结束时间解析得到对应的口型表情序列信息;
根据所述文字序列中文本情感分析结果,得到情绪信息;
将通过所述情绪信息得到的表情库以及动作库与所述口型表情序列信息合成,生成角色目标表情动画。
8.一种基于人工智能语义分析的角色表情动画的生成装置,其中,用于服务器,所述装置包括:
接收模块,用于接收音频文件;
语音转换模块,用于将所述音频文件按照预设语音转换规则转换得到文字序列,其中所述文字序列中包括每个文字的发音信息以及发音开始结束时间;
表情解析模块,用于根据所述发音信息、所述发音开始结束时间解析得到对应的口型表情序列信息;根据所述文字序列中文本情感分析结果,得到情绪信息;
表情合成模块,用于通过所述情绪信息得到的表情库以及动作库与所述口型表情序列信息合成,得到角色目标表情动画下发至用户端。
9.一种电子设备,包括:
处理器;以及
被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器执行所述权利要求1~6之任一所述方法。
10.一种计算机可读存储介质,所述计算机可读存储介质存储一个或多个程序,所述一个或多个程序当被包括多个应用程序的电子设备执行时,使得所述电子设备执行所述权利要求1~6之任一所述方法。
CN202210721665.6A 2022-06-17 2022-06-17 一种基于人工智能语义分析的角色表情动画的生成方法 Pending CN115147521A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210721665.6A CN115147521A (zh) 2022-06-17 2022-06-17 一种基于人工智能语义分析的角色表情动画的生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210721665.6A CN115147521A (zh) 2022-06-17 2022-06-17 一种基于人工智能语义分析的角色表情动画的生成方法

Publications (1)

Publication Number Publication Date
CN115147521A true CN115147521A (zh) 2022-10-04

Family

ID=83409047

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210721665.6A Pending CN115147521A (zh) 2022-06-17 2022-06-17 一种基于人工智能语义分析的角色表情动画的生成方法

Country Status (1)

Country Link
CN (1) CN115147521A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115311731A (zh) * 2022-10-10 2022-11-08 之江实验室 一种手语数字人的表情生成方法和装置
CN116561350A (zh) * 2023-07-07 2023-08-08 腾讯科技(深圳)有限公司 一种资源生成方法及相关装置
CN116580721A (zh) * 2023-07-13 2023-08-11 中国电信股份有限公司 表情动画的生成方法、装置和数字人平台
CN118656796A (zh) * 2024-08-19 2024-09-17 苏州五十一区网络科技有限公司 基于行为分析的虚拟角色交互内容生成方法及系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101826216A (zh) * 2010-03-31 2010-09-08 中国科学院自动化研究所 一个角色汉语口型动画自动生成系统
CN109377540A (zh) * 2018-09-30 2019-02-22 网易(杭州)网络有限公司 面部动画的合成方法、装置、存储介质、处理器及终端
KR102035596B1 (ko) * 2018-05-25 2019-10-23 주식회사 데커드에이아이피 인공지능 기반의 가상 캐릭터의 페이셜 애니메이션 자동 생성 시스템 및 방법
CN111324734A (zh) * 2020-02-17 2020-06-23 昆明理工大学 融合情绪知识的案件微博评论情绪分类方法
CN113821681A (zh) * 2021-09-17 2021-12-21 深圳力维智联技术有限公司 视频标签生成方法、装置及设备

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101826216A (zh) * 2010-03-31 2010-09-08 中国科学院自动化研究所 一个角色汉语口型动画自动生成系统
KR102035596B1 (ko) * 2018-05-25 2019-10-23 주식회사 데커드에이아이피 인공지능 기반의 가상 캐릭터의 페이셜 애니메이션 자동 생성 시스템 및 방법
CN109377540A (zh) * 2018-09-30 2019-02-22 网易(杭州)网络有限公司 面部动画的合成方法、装置、存储介质、处理器及终端
CN111324734A (zh) * 2020-02-17 2020-06-23 昆明理工大学 融合情绪知识的案件微博评论情绪分类方法
CN113821681A (zh) * 2021-09-17 2021-12-21 深圳力维智联技术有限公司 视频标签生成方法、装置及设备

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115311731A (zh) * 2022-10-10 2022-11-08 之江实验室 一种手语数字人的表情生成方法和装置
CN115311731B (zh) * 2022-10-10 2023-01-31 之江实验室 一种手语数字人的表情生成方法和装置
CN116561350A (zh) * 2023-07-07 2023-08-08 腾讯科技(深圳)有限公司 一种资源生成方法及相关装置
CN116561350B (zh) * 2023-07-07 2024-01-09 腾讯科技(深圳)有限公司 一种资源生成方法及相关装置
CN116580721A (zh) * 2023-07-13 2023-08-11 中国电信股份有限公司 表情动画的生成方法、装置和数字人平台
CN116580721B (zh) * 2023-07-13 2023-09-22 中国电信股份有限公司 表情动画的生成方法、装置和数字人平台
CN118656796A (zh) * 2024-08-19 2024-09-17 苏州五十一区网络科技有限公司 基于行为分析的虚拟角色交互内容生成方法及系统

Similar Documents

Publication Publication Date Title
Huang et al. Speech emotion recognition using deep neural network considering verbal and nonverbal speech sounds
US11908451B2 (en) Text-based virtual object animation generation method, apparatus, storage medium, and terminal
US11514888B2 (en) Two-level speech prosody transfer
CN115147521A (zh) 一种基于人工智能语义分析的角色表情动画的生成方法
CN103218842B (zh) 一种语音同步驱动三维人脸口型与面部姿势动画的方法
Schuller et al. Speaker independent emotion recognition by early fusion of acoustic and linguistic features within ensembles
US8224652B2 (en) Speech and text driven HMM-based body animation synthesis
CN108717856A (zh) 一种基于多尺度深度卷积循环神经网络的语音情感识别方法
CN112650831A (zh) 虚拟形象生成方法、装置、存储介质及电子设备
CN110309254A (zh) 智能机器人与人机交互方法
Garg et al. Speech based Emotion Recognition based on hierarchical decision tree with SVM, BLG and SVR classifiers
CN112184859A (zh) 端到端的虚拟对象动画生成方法及装置、存储介质、终端
CN115455136A (zh) 智能数字人营销交互方法、装置、计算机设备及存储介质
CN116564269A (zh) 语音数据的处理方法、装置、电子设备和可读存储介质
Hrúz et al. Automatic fingersign-to-speech translation system
Li et al. Cross-speaker emotion transfer based on prosody compensation for end-to-end speech synthesis
CN116582726B (zh) 视频生成方法、装置、电子设备及存储介质
Chiţu¹ et al. Automatic visual speech recognition
CN112634861B (zh) 数据处理方法、装置、电子设备和可读存储介质
CN110310620B (zh) 基于原生发音强化学习的语音融合方法
CN113257225A (zh) 一种融合词汇及音素发音特征的情感语音合成方法及系统
Sato et al. HMM-based photo-realistic talking face synthesis using facial expression parameter mapping with deep neural networks
Snchez Speech-conditioned face generation with deep adversarial networks
Wu et al. Synthesis of spontaneous speech with syllable contraction using state-based context-dependent voice transformation
Zhao et al. Exploiting articulatory features for pitch accent detection

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination