CN112330780A - 一种生成目标角色的动画表情的方法和系统 - Google Patents
一种生成目标角色的动画表情的方法和系统 Download PDFInfo
- Publication number
- CN112330780A CN112330780A CN202011219692.0A CN202011219692A CN112330780A CN 112330780 A CN112330780 A CN 112330780A CN 202011219692 A CN202011219692 A CN 202011219692A CN 112330780 A CN112330780 A CN 112330780A
- Authority
- CN
- China
- Prior art keywords
- expression
- speech
- generation model
- training
- text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000014509 gene expression Effects 0.000 title claims abstract description 243
- 238000000034 method Methods 0.000 title claims abstract description 42
- 238000000605 extraction Methods 0.000 claims abstract description 24
- 238000012545 processing Methods 0.000 claims abstract description 19
- 239000013598 vector Substances 0.000 claims abstract description 15
- 238000013507 mapping Methods 0.000 claims abstract description 14
- 238000012549 training Methods 0.000 claims description 33
- 230000001815 facial effect Effects 0.000 claims description 9
- 238000013528 artificial neural network Methods 0.000 claims description 4
- 230000000306 recurrent effect Effects 0.000 claims description 4
- 230000008569 process Effects 0.000 description 14
- 238000010586 diagram Methods 0.000 description 7
- 238000012986 modification Methods 0.000 description 7
- 230000004048 modification Effects 0.000 description 7
- 230000008451 emotion Effects 0.000 description 5
- 230000008921 facial expression Effects 0.000 description 5
- 230000006870 function Effects 0.000 description 4
- 230000007246 mechanism Effects 0.000 description 4
- 241000282414 Homo sapiens Species 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000006872 improvement Effects 0.000 description 3
- 238000004519 manufacturing process Methods 0.000 description 3
- 239000000463 material Substances 0.000 description 3
- 230000015654 memory Effects 0.000 description 3
- 230000000644 propagated effect Effects 0.000 description 3
- 230000006978 adaptation Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 210000003054 facial bone Anatomy 0.000 description 2
- 239000000835 fiber Substances 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 108091026890 Coding region Proteins 0.000 description 1
- 208000020401 Depressive disease Diseases 0.000 description 1
- 241000989913 Gunnera petaloidea Species 0.000 description 1
- 241000282412 Homo Species 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 230000000712 assembly Effects 0.000 description 1
- 238000000429 assembly Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000036461 convulsion Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 239000010977 jade Substances 0.000 description 1
- 208000024714 major depressive disease Diseases 0.000 description 1
- 201000003995 melancholia Diseases 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 210000000697 sensory organ Anatomy 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 241000894007 species Species 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T13/00—Animation
- G06T13/20—3D [Three Dimensional] animation
- G06T13/40—3D [Three Dimensional] animation of characters, e.g. humans, animals or virtual beings
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/049—Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Processing Or Creating Images (AREA)
Abstract
本说明书实施例公开了一种生成目标角色的动画表情的方法。所述方法包括:获取待预测台词文本;使用训练好的表情生成模型处理所述待预测台词文本,得到与所述待预测台词文本对应的表情编码,以使用所述表情编码基于映射关系获取与所述动画表情对应的表情参数,并基于所述表情参数确定所述目标角色的动画表情;其中,所述表情编码用于表示所述动画表情的类别;所述目标角色包括:动画角色、虚拟偶像、聊天机器人或者网站的在线客服;其中:所述表情生成模型包括台词特征提取模型和表情编码生成模型,所述表情编码生成模型用于基于所述台词特征提取模型输出的台词特征向量获取与所述待预测台词文本对应的所述表情编码。
Description
技术领域
本说明书涉及信息技术领域,特别涉及一种生成目标角色的动画表情的方法和系统。
背景技术
在目前的动画领域,生成目标角色的动画表情的方式主要包括动画师手动调节或者利用面部捕捉设备实时捕捉真人表演的表情。动画师手动调节需要耗费较多的人力成本以及时间成本,而每次使用面部捕捉设备会比较昂贵。并且随着动画技术的发展,对于虚拟偶像、在线客服等需要在线实时表演的目标角色,如何根据台词实时生成动画表情对于面部捕捉设备来说是一个较难解决的问题。
因此期望一种生成目标角色的动画表情的方法和系统,可以以较低的时间以及人力成本,快速生成目标角色的面部表情动画。
发明内容
本说明书实施例之一提供一种生成目标角色的动画表情的方法,所述方法包括:
获取待预测台词文本;使用训练好的表情生成模型处理所述待预测台词文本,得到与所述待预测台词文本对应的表情编码,以使用所述表情编码基于映射关系获取与所述动画表情对应的表情参数,并基于所述表情参数确定所述目标角色的动画表情;其中,所述表情编码用于表示所述动画表情的类别;所述目标角色包括:动画角色、虚拟偶像、聊天机器人或者网站的在线客服;其中:所述表情生成模型包括台词特征提取模型和表情编码生成模型,所述表情编码生成模型用于基于所述台词特征提取模型输出的台词特征向量获取与所述待预测台词文本对应的所述表情编码。
本说明书实施例之一提供一种生成目标角色的动画表情的系统,所述系统包括:
台词获取模块和表情编码获取模块;所述台词获取模块用于获取待预测台词文本;所述表情编码台词获取模块用于使用训练好的表情生成模型处理所述待预测台词文本,得到与所述待预测台词文本对应的表情编码,以使用所述表情编码基于映射关系获取与所述动画表情对应的表情参数,并基于所述表情参数确定所述目标角色的动画表情;其中,所述表情编码用于表示所述动画表情的类别;所述目标角色包括:动画角色、虚拟偶像、聊天机器人或者网站的在线客服;其中:所述表情生成模型包括台词特征提取模型和表情编码生成模型,所述表情编码生成模型用于基于所述台词特征提取模型输出的台词特征向量获取与所述待预测台词文本对应的所述表情编码。
本说明书实施例之一提供一种生成目标角色的动画表情的装置,所述装置包括:
处理器和存储设备,所述存储设备用于存储指令,当所述处理器执行指令时,实现生成目标角色的动画表情的方法。
附图说明
本说明书将以示例性实施例的方式进一步说明,这些示例性实施例将通过附图进行详细描述。这些实施例并非限制性的,在这些实施例中,相同的编号表示相同的结构,其中:
图1是根据本说明书的一些实施例所示的生成目标角色的动画表情的系统的场景示意图;
图2是根据本说明书的一些实施例所示的生成目标角色的动画表情的方法的流程图;
图3是根据本说明书的一些实施例所示的表情生成模型的训练流程图;
图4是根据本说明书的一些实施例所示的表情编码生成模型的示例性结构图。
具体实施方式
为了更清楚地说明本说明书实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单的介绍。显而易见地,下面描述中的附图仅仅是本说明书的一些示例或实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图将本说明书应用于其它类似情景。除非从语言环境中显而易见或另做说明,图中相同标号代表相同结构或操作。
应当理解,本文使用的“系统”、“装置”、“单元”和/或“模组”是用于区分不同级别的不同组件、元件、部件、部分或装配的一种方法。然而,如果其他词语可实现相同的目的,则可通过其他表达来替换所述词语。
如本说明书中所示,除非上下文明确提示例外情形,“一”、“一个”、“一种”和/或“该”等词并非特指单数,也可包括复数。一般说来,术语“包括”与“包含”仅提示包括已明确标识的步骤和元素,而这些步骤和元素不构成一个排它性的罗列,方法或者设备也可能包含其它的步骤或元素。
本说明书中使用了流程图用来说明根据本说明书的实施例的系统所执行的操作。应当理解的是,前面或后面操作不一定按照顺序来精确地执行。相反,可以按照倒序或同时处理各个步骤。同时,也可以将其他操作添加到这些过程中,或从这些过程移除某一步或数步操作。
图1是根据本说明书的一些实施例所示的生成目标角色的动画表情的系统的场景示意图。
如图1所示,生成目标角色的动画表情的系统100可以包括服务器110、处理器120、存储设备130、用户终端140、网络150。
生成目标角色的动画表情的系统100可以被广泛应用于各种动画角色的制作场景中,例如:动画剧、电影动画、虚拟偶像直播,或者3D游戏等。生成目标角色的动画表情的系统100可以通过实施本说明书中披露的方法和/或过程来生成与待预测台词对应的目标角色的动画表情。
在一些应用场景中,使用用户终端140的用户可以包括目标角色的制作人员。
在一些实施例中,可以通过用户终端140获取待预测台词文本,经服务器110处理后生成动画表情,并通过用户终端140呈现给用户。服务器110在处理时可以获取存储设备130上的数据或将数据保存到存储设备130,也可以通过网络150从其他来源读取数据和将数据输出到其他目标对象。在一些实施例中,部分生成目标角色的动画表情的操作处理可以在用户终端140上进行。本说明书中的操作可以通过处理器120执行程序指令进行。上述方式仅为方便理解,本系统亦可以其他可行的操作方式实施本说明书中的方法。
在一些实施例中,服务器110、用户终端140以及其他可能的系统组成部分中可以包括存储设备130。
在一些实施例中,服务器110、用户终端140以及其他可能的系统组成部分中可以包括处理器120。
在一些实例中,可以在不同的设备上分别进行不同的功能,比如待预测文本的获取、台词特征向量的提取、模型的训练、模型的执行等等,本说明书对此不作限制。
服务器110可以用于管理资源以及处理来自本系统至少一个组件或外部数据源(例如,云数据中心)的数据和/或信息。在一些实施例中,服务器110可以是单一服务器或服务器组。该服务器组可以是集中式或分布式的(例如,服务器110可以是分布式系统),可以是专用的也可以由其他设备或系统同时提供服务。在一些实施例中,服务器110可以是区域的或者远程的。在一些实施例中,服务器110可以在云平台上实施,或者以虚拟方式提供。仅作为示例,所述云平台可以包括私有云、公共云、混合云、社区云、分布云、内部云、多层云等或其任意组合。
处理器120可以处理从其他设备或系统组成部分中获得的数据和/或信息。处理器可以基于这些数据、信息和/或处理结果执行程序指令,以执行一个或多个本申请中描述的功能。在一些实施例中,处理器120可以包含一个或多个子处理设备(例如,单核处理设备或多核多芯处理设备)。仅作为示例,处理器120可以包括中央处理器(CPU)、专用集成电路(ASIC)、专用指令处理器(ASIP)、图形处理器(GPU)、物理处理器(PPU)、数字信号处理器(DSP)、现场可编程门阵列(FPGA)、可编辑逻辑电路(PLD)、控制器、微控制器单元、精简指令集电脑(RISC)、微处理器等或以上任意组合。
存储设备130可以用于存储数据和/或指令。存储设备130可以包括一个或多个存储组件,每个存储组件可以是一个独立的设备,也可以是其他设备的一部分。在一些实施例中,存储设备130可包括随机存取存储器(RAM)、只读存储器(ROM)、大容量存储器、可移动存储器、易失性读写存储器等或其任意组合。示例性的,大容量储存器可以包括磁盘、光盘、固态磁盘等。在一些实施例中,所述存储设备130可在云平台上实现。
数据指对信息的数字化表示,可以包括各种类型,比如二进制数据、文本数据、图像数据、视频数据等。指令指可控制设备或器件执行特定功能的程序。
用户终端140指用户所使用的一个或多个终端设备或软件。在一些实施例中,使用用户终端140的可以是一个或多个用户,可以包括直接使用服务的用户,也可以包括其他相关用户。在一些实施例中,用户终端140可以是移动设备140-1、平板计算机140-2、膝上型计算机140-3、台式计算机140-4等其他具有输入和/或输出功能的设备中的一种或其任意组合。
上述示例仅用于说明所述用户终端140设备范围的广泛性而非对其范围的限制。
网络150可以连接系统的各组成部分和/或连接系统与外部资源部分。网络150使得各组成部分之间,以及与系统之外其他部分之间可以进行通讯,促进数据和/或信息的交换。在一些实施例中,网络150可以是有线网络或无线网络中的任意一种或多种。例如,网络150可以包括电缆网络、光纤网络、电信网络、互联网、局域网络(LAN)、广域网络(WAN)、无线局域网络(WLAN)、城域网(MAN)、公共交换电话网络(PSTN)、蓝牙网络、紫蜂网络(ZigBee)、近场通信(NFC)、设备内总线、设备内线路、线缆连接等或其任意组合。各部分之间的网络连接可以是采用上述一种方式,也可以是采取多种方式。在一些实施例中,网络可以是点对点的、共享的、中心式的等各种拓扑结构或者多种拓扑结构的组合。在一些实施例中,网络150可以包括一个或以上网络接入点。例如,网络150可以包括有线或无线网络接入点,例如基站和/或网络交换点150-1、150-2、...,通过这些进出点系统100的一个或多个组件可连接到网络150上以交换数据和/或信息。
图2是根据本说明书的一些实施例所示的生成目标角色的动画表情的方法的流程图。
步骤210,获取待预测台词文本。在一些实施例中,步骤210可以由台词获取模块执行。
在一些实施例中,目标角色可以包括:动画角色、虚拟偶像、聊天机器人或者网站的在线客服,不同的目标角色可以对应不同的不带动画表情的预设图像的外部轮廓,其外部轮廓可以事先设置好,通过用户选择获取,也可以通过画面捕捉设备获取后通过预设算法处理后得到,例如:获取照片后通过边缘提取算法得到角色的面部图像的外部轮廓。待预测台词文本可以为目标角色在表演时所使用的文本形式的台词。例如:动画角色在表演时的对白、虚拟偶像在作主持人时与观众的互动话题等。用户终端140可以通过多种方式获取待预测台词文本。例如,用户终端140可以从存储设备130获取设计好的目标角色的台词文本,作为待预测台词文本。又例如,用户终端140可以从数据库中召回在线客服的标准答复,作为待预测台词文本。
步骤220,使用训练好的表情生成模型处理待预测台词文本,得到与待预测台词文本对应的表情编码。在一些实施例中,步骤220可以由表情编码获取模块执行。
在一些实施例中,可以使用表情生成模型生成待预测台词文本对应的表情编码。表情编码用于表示动画表情的类别。例如:表情编码为1表示微笑、表情编码为10表示大笑、表情编码为50表示忧伤、表情编码为54表示抽泣等。关于表情编码的详细内容可以参见图3中的相关描述,这里不再赘述。在一些实施例中,表情生成模型包括台词特征提取模型和表情编码生成模型,台词特征提取模型用于获取待预测台词文本的台词特征向量,表情编码生成模型用于基于台词特征提取模型输出的台词特征向量获取与待预测台词文本对应的表情编码。例如:对于待预测台词文本:“嘿,告诉你一个特别好玩的事情,哈哈哈哈哈哈”,台词特征提取模型可以对该文本进行编码,得到文本的语义向量表示,然后由表情编码生成模型基于该向量表示输出表情编码的序列:1(微笑)、2、3、5、...、10(大笑)。
本说明书中所述的实施例,将待预测台词文本作为表情生成模型的输入,使用表情生成模型生成用于表示动画表情类别的表情编码,在虚拟偶像等目标角色在线表演与观众互动时,可以根据台词实时生成与台词对应的动画表情。
在一些实施例中,台词特征提取模型和表情编码生成模型均可以包括循环神经网络(Recurrent Neural Network,RNN),例如:LSTM(Long-Short Term Memory)、GRU(GateRecurrentUnit)等。仅作为示例,台词特征提取模型可以基于双向长短时记忆(Bi-directional LSTM,Bi-directional Long Short-Term Memory)模型构成。Bi-directional LSTM由两个LSTM模型组成,第一个从左到右处理输入的句子序列,另外一个从右到左处理输入的句子序列,在编码处理的每一时刻将两个LSTM得到的隐层特征合并起来作为整个模型的隐层特征输出。因为Bi-directional LSTM进行编码时充分考虑了整个上下文的信息,因此相对单向的LSTM有更好的编码效果。表情编码生成模型准确生成某一个表情编码需要的信息更多依赖于待预测台词文本中对应的局部词语序列,例如:对于待预测台词文本“这一次失败了,感觉有点沮丧,不过没关系,再来一次,一定会成功的”,在初始时刻需要模型关注到“失败”、“沮丧”等词语,而在后来的时刻模型需要关注到“一定”、“成功”等词语。因此,在一些实施例中,表情编码生成模型可以为双层带注意力机制的LSTM模型。
本说明书所述的实施例中,通过使用循环神经网络组成序列-序列的模型结构:Encoder(台词特征提取模型)-Decoder(表情编码生成模型),从而可以将不定长度的待预测台词文本转换为不定长度的目标角色的表情编码序列。
在一些实施例中,可以将待预测台词文本切分为TOKEN序列,将各个TOKEN的词嵌入向量(wordembedding)作为台词特征提取模型的输入,台词特征提取模型输出待预测台词文本的语义向量表示,作为台词特征向量。在一些实施例中,表情编码生成模型的结构如图4所示,台词特征向量可以作为表情编码生成模型的初始输入。在t1时刻(初始时刻)表情编码生成模型根据台词特征向量生成第1个表情编码A1,在t2时刻将A1作为表情编码生成模型的输入,表情编码生成模型根据A1生成第2个表情编码A2,以此类推,在每一个解码时刻将上一时刻输出的表情编码At-1作为表情编码生成模型的输入,表情编码生成模型根据At-1生成第下一个个表情编码At,直至全部解码完成。
如图4所示,表情编码生成模型将第一层LSTM输出的隐层特征St输入到注意力层中,利用注意力(attention)机制,对隐层特征St和隐层特征h1~hT做加权融合运算,生成局部语义特征c,隐层特征h1~hT为台词特征提取模型在对待预测台词文本进行编码的过程中,各个时刻输出的隐层特征。然后将局部语义特征c与隐层特征St一起作为第二层LSTM的输入。利用注意力机制计算局部语义特征c的方法可以如下:
(一)获取注意力权重A。可以通过隐层特征H(h1,h2...hT)与隐层特征St做点乘运算来得到分数E(e1、e2、....、eT):E=H*W*St,W为在模型训练过程中学习到的参数。然后对分数E(e1,e2....eT)做归一化处理:A=softmax(E),得到注意力权重A(a1,a2...aT)。
(二)通过隐层特征H(h1,h2...hT)与注意力权重A(a1,a2...aT)的加权求和运算得到局部语义特征c:c=h1*a1+h2*a2+...+hT。
注意力机制也可以通过其他方式实现,不受本说明书的表述所限。
表情编码生成模型通过引入注意力机制,将LSTM的隐层特征与待预测台词文本的语义特征信息进行交互融合,使得表情编码生成模型在编码的不同时刻聚焦于待预测台词文本中的不同词语序列,从而可以更加准确的得到与待预测台词文本对应的表情编码。
在一些实施例中,可以使用由表情生成模型获取的表情编码,基于映射关系获取与动画表情对应的表情参数,并基于表情参数确定目标角色的动画表情。在一些实施例中,表情参数可以为使用面部捕捉设备获得的参数。面部动作捕捉(Facial Motion Capture),有时也被称为面部表情捕捉(FacialExpressionCapture),它是动作捕捉(MotionCapture)技术的一部分,指使用机械装置、相机等设备记录人类面部表情和动作,将之转换为一系列参数数据的过程。与人为制作的动画角色表情相比,通过捕捉真人面部动作生成的角色表情会更具真实感,因此电影、大型游戏在预算允许的情况下,倾向于选择捕捉真人面部来完成角色的演出。关于表情编码和表情参数之间的映射关系的详细内容请参见图3中的相关描述,这里不再赘述。在一些实施例中,目标角色可以通过绑定了骨骼结构的三维模型(骨骼蒙皮模型)来创建,因此,目标角色可以包括五官、面部骨骼等。在一些实施例中,可以将表情参数输入到目标角色中,使得目标角色的五官,面部骨骼根据表情参数发生形变,从而生成动画表情。例如:微笑时嘴角上扬、悲伤时嘴角下拉、惊讶时嘴型张开等。
应当注意的是,上述有关流程200的描述仅仅是为了示例和说明,而不限定本说明书的适用范围。对于本领域技术人员来说,在本说明书的指导下可以对流程200进行各种修正和改变。然而,这些修正和改变仍在本说明书的范围之内。例如,将步骤220拆分为步骤220_1和步骤220_2,在步骤步骤220_1中获取表情编码,在步骤220_2中获取表情参数,并基于表情参数确定目标角色的动画表情。
图3是根据本说明书的一些实施例所示的表情生成模型的训练流程图。
步骤310,获取多个训练样本。
在一些实施例中,训练样本可以包括训练台词文本以及与训练台词文本对应的表情编码。在一些实施例中,训练台词文本,以及表情编码、表情参数、表情编码与表情参数之间的映射关系可以通过以下方式获得:
在一些实施例中,可以使用面部捕捉设备从真人表演和/或包含面部动作的视频中获取多种动画表情的表情参数。使用面部捕捉设备可以较快的获取大量精度很高的表情参数,因此优选的使用面部捕捉设备来进行表情参数的采集,也可以使用其他方式获取表情参数,对此本说明书不做限制。然后可以将采集到的表情参数保存到文档或者数据库等媒介中。在后续制作表情动画时,可以根据台词使用表情生成模型生成表情编码,使用表情编码根据映射关系从文档、数据库或其他媒介中获取表情参数,而不再需要使用面部捕捉设备来生成表情参数,从而可以在没有面部捕捉设备的情况下也可以快速获得高精度的表情参数。
在一些实施例中,可以对多种动画表情进行编码,得到表情编码。可以按照人类的基本表情将动画表情分为几个大类,例如:高兴、生气、吃惊、恐惧、厌恶和悲伤。对于每一大类,根据该类表情的细致程度再次划分为N个小类,例如:对于“高兴”这一大类可以再分10个小类(从微笑到大笑),对于“生气”这一大类可以再分为12个小类,...。然后给每一种动画表情赋予一个表情编码。表情编码可以是各种形式的编码,例如自然数编码、二进制编码等。为了便于描述,本说明书中以自然数为例。例如:1作为微笑的表情编号,10作为大笑的表情编号,2~9分别作为微笑和大笑之间的8个动画表情的表情编码。
本说明书所述的实施例,通过将抽象的动画表情进行分类,然后使用表情编码来表示动画表情的种类,从而降低了使用机器学习模型获取表情参数的难度,使得可以通过机器学习模型得到台词文本对应的表情参数。
在一些实施例中,可以建立表情编码与已经采集到的表情参数的映射关系。例如,如果表情参数存储在文档中,可以将表情编码作为表情参数的编号。又例如,如果表情参数存储在键值数据库(key-value store)中,可以将表情编码作为key,表情参数作为value。
在一些实施例中,以文本形式保存真人表演和/或视频中使用的台词作为训练台词文本。
步骤320,利用多个训练样本训练初始表情生成模型,获得训练好的表情生成模型。
在一些实施例中,将训练台词文本作为输入数据,将表情编码作为标签,使用端到端的训练方式对初始表情生成模型进行训练,调整台词特征提取模型和表情编码生成模型的参数,以使表情生成模型的目标函数满足预设条件或者迭代次数达到预设阈值,获得训练好的表情生成模型。
应当注意的是,上述有关流程300的描述仅仅是为了示例和说明,而不限定本说明书的适用范围。对于本领域技术人员来说,在本说明书的指导下可以对流程300进行各种修正和改变。然而,这些修正和改变仍在本说明书的范围之内。例如,将步骤310和步骤320合并为一个步骤,在同一个步骤中获取多个训练数据,并且对初始表情生成模型进行训练。
本说明书实施例可能带来的有益效果包括但不限于:(一)由于人类的面部表情细微复杂,因此可以获取高精度的表情参数的面部捕捉设备昂贵而且复杂。本说明书中的一些实施例通过使用表情生成模型生成与待预测台词文本对应的表情编码,再由表情编码获取预先存储的由面部捕捉设备采集的表情参数,可以在没有面部捕捉设备的情况下,获得高精度的表情参数,同时也省去了操作人员学习面部捕捉设备所耗费的人力成本和时间成本,可以以较低的成本完成较高水准的动画表情制作。(二)对于虚拟偶像、聊天机器人或者在线客服等目标角色,在表演时需要根据台词实时做出动画表情,相对于动画师手动调节或者使用面部捕捉设备实时捕捉真人表演的表情,使用本说明书中的实施例所述的方法可以更加方便的实时生成目标角色的动画表情。需要说明的是,不同实施例可能产生的有益效果不同,在不同的实施例里,可能产生的有益效果可以是以上任意一种或几种的组合,也可以是其他任何可能获得的有益效果。
上文已对基本概念做了描述,显然,对于本领域技术人员来说,上述详细披露仅仅作为示例,而并不构成对本说明书实施例的限定。虽然此处并没有明确说明,本领域技术人员可能会对本说明书实施例进行各种修改、改进和修正。该类修改、改进和修正在本说明书实施例中被建议,所以该类修改、改进、修正仍属于本说明书示范实施例的精神和范围。
同时,本说明书使用了特定词语来描述本说明书的实施例。如“一个实施例”、“一实施例”、和/或“一些实施例”意指与本说明书至少一个实施例相关的某一特征、结构或特点。因此,应强调并注意的是,本说明书中在不同位置两次或多次提及的“一实施例”或“一个实施例”或“一个替代性实施例”并不一定是指同一实施例。此外,本说明书的一个或多个实施例中的某些特征、结构或特点可以进行适当的组合。
此外,本领域技术人员可以理解,本说明书实施例的各方面可以通过若干具有可专利性的种类或情况进行说明和描述,包括任何新的和有用的工序、机器、产品或物质的组合,或对他们的任何新的和有用的改进。相应地,本说明书实施例的各个方面可以完全由硬件执行、可以完全由软件(包括固件、常驻软件、微码等)执行、也可以由硬件和软件组合执行。以上硬件或软件均可被称为“数据块”、“模块”、“引擎”、“单元”、“组件”或“系统”。此外,本说明书实施例的各方面可能表现为位于一个或多个计算机可读介质中的计算机产品,该产品包括计算机可读程序编码。
计算机存储介质可能包含一个内含有计算机程序编码的传播数据信号,例如在基带上或作为载波的一部分。该传播信号可能有多种表现形式,包括电磁形式、光形式等,或合适的组合形式。计算机存储介质可以是除计算机可读存储介质之外的任何计算机可读介质,该介质可以通过连接至一个指令执行系统、装置或设备以实现通讯、传播或传输供使用的程序。位于计算机存储介质上的程序编码可以通过任何合适的介质进行传播,包括无线电、电缆、光纤电缆、RF、或类似介质,或任何上述介质的组合。
本说明书实施例各部分操作所需的计算机程序编码可以用任意一种或多种程序语言编写,包括面向对象编程语言如Java、Scala、Smalltalk、Eiffel、JADE、Emerald、C++、C#、VB.NET、Python等,常规程序化编程语言如C语言、VisualBasic、Fortran2003、Perl、COBOL2002、PHP、ABAP,动态编程语言如Python、Ruby和Groovy,或其他编程语言等。该程序编码可以完全在用户计算机上运行、或作为独立的软件包在用户计算机上运行、或部分在用户计算机上运行部分在远程计算机运行、或完全在远程计算机或处理设备上运行。在后种情况下,远程计算机可以通过任何网络形式与用户计算机连接,比如局域网(LAN)或广域网(WAN),或连接至外部计算机(例如通过因特网),或在云计算环境中,或作为服务使用如软件即服务(SaaS)。
此外,除非权利要求中明确说明,本说明书实施例所述处理元素和序列的顺序、数字字母的使用、或其他名称的使用,并非用于限定本说明书实施例流程和方法的顺序。尽管上述披露中通过各种示例讨论了一些目前认为有用的发明实施例,但应当理解的是,该类细节仅起到说明的目的,附加的权利要求并不仅限于披露的实施例,相反,权利要求旨在覆盖所有符合本说明书实施例实质和范围的修正和等价组合。例如,虽然以上所描述的系统组件可以通过硬件设备实现,但是也可以只通过软件的解决方案得以实现,如在现有的处理设备或移动设备上安装所描述的系统。
同理,应当注意的是,为了简化本说明书实施例披露的表述,从而帮助对一个或多个发明实施例的理解,前文对本说明书实施例的描述中,有时会将多种特征归并至一个实施例、附图或对其的描述中。但是,这种披露方法并不意味着本说明书实施例对象所需要的特征比权利要求中提及的特征多。实际上,实施例的特征要少于上述披露的单个实施例的全部特征。
针对本说明书引用的每个专利、专利申请、专利申请公开物和其他材料,如文章、书籍、说明书、出版物、文档等,特此将其全部内容并入本说明书作为参考。与本说明书内容不一致或产生冲突的申请历史文件除外,对本说明书权利要求最广范围有限制的文件(当前或之后附加于本说明书中的)也除外。需要说明的是,如果本说明书附属材料中的描述、定义、和/或术语的使用与本说明书所述内容有不一致或冲突的地方,以本说明书的描述、定义和/或术语的使用为准。
最后,应当理解的是,本说明书中所述实施例仅用以说明本说明书实施例的原则。其他的变形也可能属于本说明书实施例的范围。因此,作为示例而非限制,本说明书实施例的替代配置可视为与本说明书的教导一致。相应地,本说明书的实施例不仅限于本说明书明确介绍和描述的实施例。
Claims (10)
1.一种生成目标角色的动画表情的方法,所述方法由至少一个处理器执行,所述方法包括:
获取待预测台词文本;
使用训练好的表情生成模型处理所述待预测台词文本,得到与所述待预测台词文本对应的表情编码,以使用所述表情编码基于映射关系获取与所述动画表情对应的表情参数,并基于所述表情参数确定所述目标角色的动画表情;其中,所述表情编码用于表示所述动画表情的类别;
所述目标角色包括:动画角色、虚拟偶像、聊天机器人或者网站的在线客服;
其中:所述表情生成模型包括台词特征提取模型和表情编码生成模型,所述表情编码生成模型用于基于所述台词特征提取模型输出的台词特征向量获取与所述待预测台词文本对应的所述表情编码。
2.根据权利要求1所述的方法,其中,所述表情生成模型通过以下方式获得:
获取多个训练样本;其中,所述训练样本包括训练台词文本以及与所述训练台词文本对应的表情编码;
将所述训练台词文本作为输入数据;将所述表情编码作为标签;
利用所述多个训练样本训练初始表情生成模型,获得训练好的表情生成模型。
3.根据权利要求2所述的方法,其中,所述表情编码、所述映射关系、所述表情参数,以及所述训练台词文本通过以下方式获得:
使用面部捕捉设备从真人表演和/或包含面部动作的视频中获取多种动画表情的表情参数;
对所述多种动画表情进行编码,得到所述表情编码;
建立所述表情编码与所述表情参数的映射关系;
以文本形式保存所述真人表演和/或所述视频中使用的台词作为所述训练台词文本。
4.根据权利要求1所述的方法,其中,所述台词特征提取模型和所述表情编码生成模型均包括循环神经网络。
5.根据权利要求4所述的方法,其中,所述表情编码生成模型为双层带注意力机制的LSTM模型。
6.一种生成目标角色的动画表情的系统,其中,包括台词获取模块和表情编码获取模块;
所述台词获取模块用于获取待预测台词文本;
所述表情编码获取模块用于使用训练好的表情生成模型处理所述待预测台词文本,得到与所述待预测台词文本对应的表情编码,以使用所述表情编码基于映射关系获取与所述动画表情对应的表情参数,并基于所述表情参数确定所述目标角色的动画表情;其中,所述表情编码用于表示所述动画表情的类别;
所述目标角色包括:动画角色、虚拟偶像、聊天机器人或者网站的在线客服;
其中:所述表情生成模型包括台词特征提取模型和表情编码生成模型,所述表情编码生成模型用于基于所述台词特征提取模型输出的台词特征向量获取与所述待预测台词文本对应的所述表情编码。
7.根据权利要求6所述的系统,其中,所述表情生成模型通过以下方式获得:
获取多个训练样本;其中,所述训练样本包括训练台词文本以及与所述训练台词文本对应的表情编码;
将所述训练台词文本作为输入数据;将所述表情编码作为标签;
利用所述多个训练样本训练初始表情生成模型,获得训练好的表情生成模型。
8.根据权利要求7所述的系统,其中,所述表情编码、所述映射关系、所述表情参数,以及所述训练台词文本通过以下方式获得:
使用面部捕捉设备从真人表演和/或包含面部动作的视频中获取多种动画表情的表情参数;
对所述多种动画表情进行编码,得到所述表情编码;
建立所述表情编码与所述表情参数的映射关系;
以文本形式保存所述真人表演和/或所述视频中使用的台词作为所述训练台词文本。
9.根据权利要求6所述的系统,其中,所述台词特征提取模型和所述表情编码生成模型均包括循环神经网络。
10.一种生成目标角色的动画表情的装置,其中,包括处理器和存储设备,所述存储设备用于存储指令,当所述处理器执行指令时,实现如权利要求1~5中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011219692.0A CN112330780A (zh) | 2020-11-04 | 2020-11-04 | 一种生成目标角色的动画表情的方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011219692.0A CN112330780A (zh) | 2020-11-04 | 2020-11-04 | 一种生成目标角色的动画表情的方法和系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112330780A true CN112330780A (zh) | 2021-02-05 |
Family
ID=74315894
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011219692.0A Pending CN112330780A (zh) | 2020-11-04 | 2020-11-04 | 一种生成目标角色的动画表情的方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112330780A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113920559A (zh) * | 2021-09-15 | 2022-01-11 | 上海浦东发展银行股份有限公司 | 一种虚拟角色的面部表情、肢体动作的生成方法和装置 |
WO2024037196A1 (zh) * | 2022-08-19 | 2024-02-22 | 华为技术有限公司 | 一种通信方法以及装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109801349A (zh) * | 2018-12-19 | 2019-05-24 | 武汉西山艺创文化有限公司 | 一种声音驱动的三维动画角色实时表情生成方法和系统 |
CN110597963A (zh) * | 2019-09-23 | 2019-12-20 | 腾讯科技(深圳)有限公司 | 表情问答库的构建方法、表情搜索方法、装置及存储介质 |
US10658005B1 (en) * | 2019-08-19 | 2020-05-19 | Neon Evolution Inc. | Methods and systems for image and voice processing |
CN111598979A (zh) * | 2020-04-30 | 2020-08-28 | 腾讯科技(深圳)有限公司 | 虚拟角色的面部动画生成方法、装置、设备及存储介质 |
-
2020
- 2020-11-04 CN CN202011219692.0A patent/CN112330780A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109801349A (zh) * | 2018-12-19 | 2019-05-24 | 武汉西山艺创文化有限公司 | 一种声音驱动的三维动画角色实时表情生成方法和系统 |
US10658005B1 (en) * | 2019-08-19 | 2020-05-19 | Neon Evolution Inc. | Methods and systems for image and voice processing |
CN110597963A (zh) * | 2019-09-23 | 2019-12-20 | 腾讯科技(深圳)有限公司 | 表情问答库的构建方法、表情搜索方法、装置及存储介质 |
CN111598979A (zh) * | 2020-04-30 | 2020-08-28 | 腾讯科技(深圳)有限公司 | 虚拟角色的面部动画生成方法、装置、设备及存储介质 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113920559A (zh) * | 2021-09-15 | 2022-01-11 | 上海浦东发展银行股份有限公司 | 一种虚拟角色的面部表情、肢体动作的生成方法和装置 |
WO2024037196A1 (zh) * | 2022-08-19 | 2024-02-22 | 华为技术有限公司 | 一种通信方法以及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2024051445A9 (zh) | 图像生成方法以及相关设备 | |
Chuang et al. | Mood swings: expressive speech animation | |
CN111383307A (zh) | 基于人像的视频生成方法及设备、存储介质 | |
CN111598979B (zh) | 虚拟角色的面部动画生成方法、装置、设备及存储介质 | |
KR20210119441A (ko) | 텍스트 및 오디오 기반 실시간 얼굴 재연 | |
CN112330779A (zh) | 一种生成角色模型舞蹈动画的方法和系统 | |
CN114495927A (zh) | 多模态交互的虚拟数字人的生成方法及装置、存储介质、终端 | |
CN111401101A (zh) | 基于人像的视频生成系统 | |
US20230154089A1 (en) | Synthesizing sequences of 3d geometries for movement-based performance | |
CN114241558B (zh) | 模型的训练方法、视频生成方法和装置、设备、介质 | |
CN113704419A (zh) | 对话处理方法及装置 | |
CN112330780A (zh) | 一种生成目标角色的动画表情的方法和系统 | |
CN114581980A (zh) | 用于生成说话人像视频和训练人脸渲染模型的方法、装置 | |
Wang et al. | Learning how to smile: Expression video generation with conditional adversarial recurrent nets | |
CN115424013A (zh) | 模型的训练方法、图像处理方法和设备、介质 | |
CN116129013A (zh) | 一种生成虚拟人动画视频的方法、装置及存储介质 | |
CN118071901A (zh) | 语音驱动表情生成方法、装置、设备及存储介质 | |
WO2024066549A1 (zh) | 一种数据处理方法及相关设备 | |
CN118015110A (zh) | 人脸图像生成方法及装置、计算机可读存储介质、终端 | |
CN111445545B (zh) | 一种文本转贴图方法、装置、存储介质及电子设备 | |
CN117292031A (zh) | 一种3d虚拟数字人唇形动画生成模型训练方法及装置 | |
CN115631285B (zh) | 基于统一驱动的人脸渲染方法、装置、设备及存储介质 | |
US20230154090A1 (en) | Synthesizing sequences of images for movement-based performance | |
CN112434143A (zh) | 基于gru单元隐藏状态约束的对话方法、存储介质及系统 | |
US20230394715A1 (en) | Hierarchical model-based generation of images |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |