CN106504304B

CN106504304B - 一种动画合成的方法及装置

Info

Publication number: CN106504304B
Application number: CN201610823313.6A
Authority: CN
Inventors: 吴松城; 方小致; 刘守达; 林明安; 陈军宏
Original assignee: Xiamen Black Mirror Technology Co Ltd
Current assignee: Xiamen Black Mirror Technology Co., Ltd.
Priority date: 2016-09-14
Filing date: 2016-09-14
Publication date: 2019-09-24
Anticipated expiration: 2036-09-14
Also published as: CN106504304A; WO2018049979A1

Abstract

本申请公开了一种动画合成的方法及装置，该方法中终端可接收用户输入的文本信息，并从该文本信息中识别出各文本关键词，而后，终端可从预设的动画库中分别确定出各文本关键词所对应的动画，并将各动画按照各关键词在文本信息中的排列顺序进行合成，得到融合动画。由于动画相对于文本信息来说，能够更加充分、生动的表达出信息中的含义，因此，相对于现有技术中只是将信息以文本或语音的形式进行呈现的方式来说，通过转化文本信息而得到的动画能够更加充分、生动的表达出信息本身的含义，从而给用户在阅读信息的过程中带来了乐趣以及便利。

Description

一种动画合成的方法及装置

技术领域

本申请涉及计算机技术领域，尤其涉及一种动画合成的方法及装置。

背景技术

随着网络技术以及通讯技术的不断发展，无线保真(WIreless-Fidelity， WIFI)、3G、4G等上网方式不断被普及，现在，人们可以随时随地的通过WIFI、 4G等上网方式来进行上网、发布信息，时刻享受着信息时代所带来的便利。

当前，即时通讯(Instant Messaging，IM)软件或是微博等社交软件的用户群体正不断的增加，一方面由于其功能愈发的强大，另一方面，这些软件可以不断的拓宽用户的社交关系，并在一定程度上实现了信息共享，从而进一步实现了用户在信息时代的信息浏览需求。

人们在使用IM软件、微博等社交软件发布信息时，所发布的信息通常是以以下两种方式呈现的：第一种，用户在社交软件的界面中输入相应的文本信息并将其发布，这样，用户发布的信息以文字的形式进行呈现；第二种，用户通过社交软件(尤其是IM软件)中的语音发送功能，将自己的语音作为信息进行发布。这两种信息发布形式虽然都能有效的保证信息的正常呈现，然而，无论是文本信息还是语音信息，在信息的表达形式上都过于单一，并且、文本信息或是语音信息往往也不能充分的表达出信息的完整含义，这就给用户在浏览这些信息的过程中带来的不便。

发明内容

本申请实施例提供一种动画合成的方法以装置，用于解决现有技术中文本信息或语音信息不能充分表达含义而给用户在浏览该信息的过程中带来不便的问题。

本申请实施例提供一种动画合成的方法，包括：

接收输入的文本信息；

识别所述文本信息中的各文本关键词；

从预设的动画库中分别确定出各文本关键词所对应的动画；

将确定出的各动画进行合成，得到融合动画。

本申请实施例提供一种动画合成的装置，包括：

接收模块，用于接收输入的文本信息；

识别模块，用于识别所述文本信息中的各文本关键词；

确定模块，用于从预设的动画库中分别确定出各文本关键词所对应的动画；

合成模块，用于将确定出的各动画进行合成，得到融合动画。

本申请实施例提供了一种动画合成的方法及装置，该方法中终端可接收用户输入的文本信息，并从该文本信息中识别出各文本关键词，而后，终端可从预设的动画库中分别确定出各文本关键词所对应的动画，并将各动画按照各关键词在文本信息中的排列顺序进行合成，得到融合动画。由于动画相对于文本信息来说，能够更加充分、生动的表达出信息中的含义，因此，相对于现有技术中只是将信息以文本或语音的形式进行呈现的方式来说，通过转化文本信息而得到的动画能够更加充分、生动的表达出信息本身的含义，从而给用户在阅读信息的过程中带来了乐趣以及便利。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1为本申请实施例提供的动画合成的过程；

图2为本申请实施例提供的融合动画中话语信息的显示示意图；

图3为本申请实施例提供的口型动画的示意图；

图4为本申请实施例提供的一种动画合成的装置示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

以下结合附图，详细说明本申请各实施例提供的技术方案。

图1为本申请实施例提供的动画合成的过程，具体包括以下步骤：

S101：接收输入的文本信息。

在实际应用中，用户通常会在微博等社交软件上发布一些文本信息，或是通过IM软件，向其他用户发送文本形式的聊天信息，由于文本信息在表现形式上过于单一，且能够表达出的含义有限，因此，在本申请实施例中，终端可将用户输入的文本信息转换成动画，以通过该动画更加充分、生动的表达出信息本身的含义。为此，终端可先接收用户输入的文本信息，其中，这里提到的终端可以是诸如智能手机、平板电脑等智能设备，当然，用户也可在终端中的客户端中输入文本信息。

需要说明的是，在本申请实施例中，将文本信息转换为相应动画的工作也可由终端中的客户端、App等应用来完成，而为了方便清楚、方便说明本申请实施例所提供的动画合成的方法，后续则仅以终端为例进行详细阐述。

S102：识别所述文本信息中的各文本关键词。

由于文本信息中通常都会包含有多个词组，每个词组在实际中所对应的动画也有所不同，例如，假设文本信息为“小明昨天踢球的时候下雨了”，从这段文本信息中可以看出，该文本信息可能涉及的动画有下雨的动画以及小明踢球的动画，因此，这段文本信息所应表达出的动画应为这两个动画合成的结果。基于此，终端在将接收到的文本信息转化为动画之前，应从该文本信息中识别出各文本关键词，其目的在于，以识别文本关键词的方式来确定出该文本信息可能会涉及到的动画，继而在后续过程中，将确定出的各动画进行合成，得到该文本信息对应的融合动画。

具体的，终端在接收到用户输入的文本信息后，可将该文本信息进行分词，得到若干个词组，然后，通过预先保存的各词组对应的逆向文本概率IDF值，以及各词组的词频TF，从各词组中确定出该文本信息中包含的文本关键词，具体的实现方式可以是，将各词组分别输入到预设的TF-IDF模型中，而预设的TF-IDF模型可针对每个词组，确定出该词组对应的逆向文本概率IDF值以及词频TF，并通过计算两者的乘积得到该词组的重要表征值，而后，预设的 TF-IDF模型可将计算出的各词组分别对应的各重要表征值进行输出，而终端则可将各词组按照重要表征值的大小进行排序，并将靠前的几个词组作为该文本信息的文本关键词。

除此之外，也可通过预先训练的识别模型，从各词组中确定出该文本信息的文本关键词，其中，预先训练的识别模型可以是诸如隐马尔克夫模型(Hidden Markov Model，HMM)等机器学习模型。通过预先训练的识别模型来确定文本关键词的方式为现有技术，因此，在这里就不做过多的阐述了。

S103：从预设的动画库中分别确定出各文本关键词所对应的动画。

由于本申请实施例意在将用户输入的文本信息转化为相应的动画，因此，终端在确定出该文本信息中包含的各文本关键词后，可从预设的动画库中确定出各文本关键词对应的各动画，进而在后续过程中，将确定出的各动画进行合成，得到该文本信息对应的动画。

具体的，终端在确定出该文本信息中包含的各文本关键词后，可针对每个文本关键词，分别确定出预设动画库中各动画对应的各动画关键词与该文本关键词的各相似度，其中，预设动画库中各动画对应的各动画关键词可以通过人为的方式事先进行标定，如，假设某一动画中显示的内容为一个人在打篮球，则可通过人工的方式将该动画对应的动画关键词标定为体育，并将该动画以及动画关键词体育对应起来存储在预设的动画库中。

除此之外，在本申请实施例中，预设动画库中各动画对应的各动画关键词也可通过预先训练的第一分类模型进行标定。具体的，终端可先将预先保存的各动画分别转换为相应的特征向量，其中，将动画转换为相应的特征向量可以通过以下方式：在实际应用中，每个动画的时长和剧烈程度都不尽相同，而在每个动画中，动画帧间变化量最大的几个动画帧往往是最能够显著区分于其他动画的，因此，在本申请实施例中，终端在将各动画转换为相应的特征向量时，可针对每个动画，分别确定出该动画中各动画帧之间的变化量T，并挑选出变化量T最大的z个动画帧作为表示该动画的动画帧，而后，终端可针对选取出的z个动画帧，分别确定出每个动画帧所对应的子特征向量，其中，对于三维动画来说，终端可根据该动画帧中的动画骨骼空间坐标、帧间的骨骼加速度等数据来确定出该动画帧所对应的子特征向量l，进而根据分别确定出的z个动画帧的子特征向量，将该动画转换为相应的特征向量。

需要说明的是，上述说明的特征向量转换方式并不唯一，也可通过其他的方式将各动画转换为相应的特征向量，如，针对每个动画，分别确定出该动画中各动画帧所对应的子特征向量，而后，终端再根据该动画中所有动画帧对应的各子特征向量，将该动画转换为相应的特征向量，当然还可以是其他的方式，在此就不进行一一举例说明了。

终端将各动画分别转换为相应的特征向量后，可将各特征向量分别输入到预先训练的第一分类模型中，其中，针对每个特征向量来说，该第一分类模型对该特征向量实施计算后，可得到若干个数值，其中，每个数值都对应一个关键词，而当终端发现在这些数值当中，某一数值均大于其他数值时，则可将该数值对应的关键词就作为该动画的动画关键词，并将该动画与动画关键词对应起来保存在预设的动画库中。

在本申请实施例中，上述说明的分类模型可以是神经网络模型、隐马尔科夫模型HMM、支持向量机(Support Vector Machine，SVM)等训练模型。而在分类模型的训练过程中，可先采集大量的样本动画，并将各样本动画转换为向量、参数等形式分别输入到该分类模型中去，进而训练该分类模型。

需要说明的是，在实际应用中，每个动画通常都会对应多个关键词，例如，假设一个动画中显示的是一个人正欢快地踢足球，则这个动画对应的动画关键词可以是体育，可以是踢足球，或是高兴、欢快等关键词，所以，终端在确定一个关键词所对应的动画时，可能会从预设的动画库中确定出多个动画与该关键词相对应，因此，为了能够进一步精确的确定出该关键词所对应的动画，在本申请实施例中，终端可进一步从接收到的文本信息中，确定该文本信息对应的特征信息，并根据该特征信息以及各关键词，从预设的动画库中分别确定出各关键词所对应的各动画。

具体的，终端在确定出该文本信息中包含的各关键词后，可进一步的提取出该文本信息中的特征信息，具体的提取方式可以是：终端通过预设的特征分析模型来对该文本信息进行分析，进而提取出该文本信息中的特征信息。例如，假设一段文本信息为“我们明天欢快地去踢足球吧！”，终端可将这段话转换为相应的词向量序列(由于这段话是由多个词组成的，所以将这段话中的各个词转换为各词向量后，将各词向量按照各词在这段话的位置进行排序，即可得到能够表示这段话的词向量序列)，并将该词向量序列输入到预设的特征分析模型，进而通过该特征分析模型输出的结果，确定出从这段话整个语境表达出的情感应为快乐、高兴的情感，因此，终端从这段话中提取出的特征信息应是快乐或高兴。当然，软件开发人员也可预先建立一个情绪词表库，并将该情绪词表库输入到终端中进行保存，相应的，终端后续接收到用户发送的文本信息后，可将该文本信息中的各个词与情绪词表库中的各情绪词进行比对，进而确定出该文本信息所对应的情绪信息。

而后，对于这段话中“踢足球”这一文本关键词来说，终端在从这段话中识别出该文本关键词后，可进一步的根据该文本关键词“踢足球”以及特征信息“快乐”，从预设的动画库中，筛选出与该文本关键词以及特征信息对应的动画。由于在预设的动画库中，文本关键词“踢足球”可能会对应多个动画，所以，终端可通过该特征信息“快乐”进一步的对文本关键词“踢足球”对应的多个动画进行筛选，继而确定出与文本关键词“踢足球”和特征信息“快乐”同时对应的动画。

上述说明的特征信息可以是诸如“快乐”、“高兴”、“悲伤”等情绪信息，而为了使终端能够通过情绪信息从预设的动画库中筛选出相应的动画，则需要事先标定出各动画所对应的情绪关键词，进而使得终端后续可通过情绪信息与情绪关键词的匹配，确定出该情绪信息对应的动画。因此，在本申请实施例中，可通过人为的方式事先对各动画的情绪信息进行标定，如，假设一个动画所显示的内容为一个人坐在椅子上大哭，则可通过人工的方式将该动画对应的情绪信息确定为“悲伤”。除此之外，也可通过预先训练的第二分类模型，对各动画对应的情绪关键词进行确定，具体的方式可以是，将各动画分别转换为相应的特征向量后，可将各特征向量分别输入到预先训练的第二分类模型之中，而后，根据该第二分类模型输出的结果，确定出各动画所对应的情绪关键词，继而将各动画与情绪信息相匹配，其中，该第二分类模型的训练方式可以与上述训练第一分类模型的方式相同，在此就不进行详细赘述了。

需要说明的是，上述提到的特征信息并不只限于“高兴”、“悲伤”这样的情绪信息，也可以是诸如“阴天”、“晴天”、“大风”、“下雨”等天气信息、或是诸如“强壮”、“萎靡”、“安详”等仪态信息，当然也可以其他的信息，在这就不进行一一举例说明了。相应的，与各特征信息相对应的各特征关键词也应与各动画对应起来保存在预设的动画库中，而在确定各动画所对应的各特征关键词时，则同样可通过预先训练的分类模型来进行确定，具体的确定过程与上述确定各动画所对应的动画关键词相同，在此就不进行详细说明了。而这里提到的分类模型也可以是诸如神经网络模型、隐马尔科夫模型HMM、支持向量机SVM等模型。

在实际应用中，一个动画可能会对应多个特征关键词，因此，为了能够进一步精确的确定出文本关键词对应的动画，在本申请实施例中，终端也可从不同的角度提取出文本信息中的多个特征信息，进而可根据提取出的多个特征信息对文本关键词对应的多个动画进行进一步筛选，从而更加准确出该文本关键词相对于整个文本信息所对应的动画。

S104：将确定出的各动画进行合成，得到融合动画。

终端通过各文本关键词确定出该文本信息所涉及的各动画后，可将各动画进行合成，以得到能够表示该文本信息的融合动画，其中，终端可各动画进行合成的方式可以是，将各动画按照各文本关键词在该文本信息中的排列顺序进行合成。

例如，假设在一段为“今天晴空万里，我要去钓鱼”的文本信息中，终端可通过预先训练的识别模型从该文本信息中识别出“晴空万里”、“我”、“钓鱼”这三个文本关键词，而后，终端从预设的动画库中分别确定出“晴空万里”、“我”、“钓鱼”这三个文本关键词所对应的三个动画H、X、C，继而根据这三个文本关键词在“今天晴空万里，我要去钓鱼”这段文本信息中的排列顺序，将这三个动画H、X、C进行排列，得到待合成的动画序列为H、X、C，而后，终端可按照该待融合的动画序列H、X、C将这三个动画进行合成，最终得到表示该文本信息的融合动画。

对于两个动画的合成过程来说，在实际应用中，两个动画可能会有所差别，若将两个有所差别的动画直接进行合成，则合成后的动画看上去将会有明显的跳跃感。所以，为了使合成后的动画看上去更加的自然，在本申请实施例中，可在任意两个相邻的动画中，插入一段用于过渡的动画片段，并将这段动画片段与这两个相邻的动画一并进行合成，得到融合动画。

具体的，对于两个任意相邻的动画来说，通过这两个动画来确定出待插入到这两个动画之间的过渡动画片段，其中，终端可通过插值的方式来确定出该过渡动画片段。

例如，动画A和动画B是两个相邻的动画，其中，动画A为前一动画，而动画B为后一动画，动画A和动画B具有明显的差别，因此，为了在合成这两个动画的过程中消除这些差别，终端可通过动画A和动画B中人物动作的分析，并通过插值的方式确定出动画a1、b1这两个待插入到动画A和动画 B的过渡动画片段，其中，从这两个过渡动画片段a1、b1中的人物动作是按照a1、b1的顺序，依次将动画A中的人物动作过渡到了动画B，这样一来，由于过渡动画片段的存在，将动画A、过渡动画片段a1、b1、动画B按照顺序进行合成后得到的动画将是一个连贯的动画，而并不会出现因动画A、B之间存在差别所引起的跳跃感。

除了上述说明的合成方式外，在本申请实施例中，终端也可在两个相邻的动画之间加入一定的效果，以消除这两个相邻动画之间存在的差别。具体的，通常情况下，动画都是各动画帧组成的，各动画帧按照一定的顺序排列并快速的进行放映就得到了相应的动画。对于两个存在差别的动画，若两个动画中用于衔接的动画帧存在差别，则这两个动画往往也将是存在差别的两个动画，换句话说，对于两个动画来说，两个动画的差别往往都是由这两个动画用于衔接的动画帧来决定的，其中，对于两个动画来说，这两个动画按顺序进行播放时，前一动画的最后一动画帧和后一动画的第一个动画帧就可作为这两个动画用于衔接的动画帧。因此，对于两个有差别的动画来说，消除或降低这两个动画之间差别的方式可以是对这两个动画中用于衔接的动画帧进行一定的处理，具体的处理方式可以是，当终端确定出待融合的各动画并将各动画按照各文本关键词在文本信息中的排列顺序进行排列后，终端可针对任意两个相邻的动画，将前一动画的各第一指定动画帧设定为第一效果，而将后一动画的各第二指定动画帧设为第二效果，其中，由于若前一动画的后几个动画帧与后一动画的前几个动画帧之间存在明显的差别，则前一动画和后一动画之间也必然存在差别，因此，为了使合成后的动画不会出现明显的跳跃感，终端应尽量消除或降低前一动画的后几动画帧和后一动画的前几动画帧所带来的差别，为保证衔接后动画的完整性，终端在前一动画中选取各第一指定动画帧时，可尽量选取该前一动画的后几个动画帧作为各第一指定动画帧，而在选取各第二指定动画帧时，可尽量选取后一动画的前几个动画帧作为各第二指定动画帧。在选取完第一、第二指定动画帧后，终端可将第一指定动画帧设为诸如淡出、盒状收缩等效果，而终端可根据第一指定动画帧的效果，将各第二指定动画帧的效果设定为与第一指定动画帧相反的效果，如，当终端将各第一指定动画帧的效果设定为淡出时，则可相应的将后一动画的各第二指定动画帧的效果设定为淡入效果。

终端分别针对前一动画的各第一指定动画帧和后一动画的各第二指定动画帧设定为效果后，可将这两个动画进行合成。这样一来，当合成后的动画播放到各第一指定动画帧以及各第二指定动画帧时，终端对各第一指定动画帧以及各第二指定动画帧分别设定的效果将会消除或降低这些动画帧之间的差别，从而使得合成后的动画在播放的过程中不会出现明显的跳跃感。

在实际应用中，不同动画的动画帧之间有时也会存在一定的相似性，因此，基于此，在本申请实施例中，对于任意两个相邻的动画，终端也可在这两个动画分别确定出彼此相似的动画帧，并将彼此相似的动画帧采用一定的方式合成为一个动画帧，而后再根据合成后的动画帧来对这两个动画进行合成。

具体的，对于任意两个相邻的动画，终端可分别确定出前一动画的每个动画帧与后一动画的每个动画帧的相似度，并根据确定出的各相似度，分别从前一动画中选取出第一动画帧以及从后一动画中选取出第二动画帧，并将该第一动画帧和第二动画帧进行融合，得到一个融合帧，其中，选取出第一动画帧和第二动画帧在前一动画和后一动画中相似度最高。而后，终端可进一步的将前一动画中位于第一动画帧之前的各动画帧、融合帧、以及位于后一动画中第二动画帧之后的各动画帧进行合成，得到融合后的动画。

例如，假设在相邻的两个动画C和D中，动画C中包含有#1～#5一共5 个动画帧，动画D包含有*1～*7一共7个动画帧，终端在确定出动画C中每个动画帧与动画D中每个动画帧的相似度发现，动画C中的#3动画帧与动画D 中的*2动画帧相似度最高，因此，终端可将动画C中的#3动画帧与动画D中的*2动画帧进行融合，得到相应的融合帧。终端在将动画C和动画D进行合成时，可将动画C中位于#3动画帧之前的动画帧#1、#2，以及动画D中位于动画帧*2之后的动画帧*3～*7选取出来，并将选取出来的各动画帧与得到的融合帧进行合成，具体的融合方式可以是，将动画帧#1、#2、融合帧、动画帧*3～*7 按照顺序合成为一个动画，而动画C中的动画帧#4、#5以及动画D中的动画帧*1可相应的去掉。

终端在确定各动画帧之间的相似度时，可通过计算各动画帧之间的欧式距离来进行确定，其中，对于普通的二维动画来说，终端可通过图片的三原色(红、绿、蓝)来构建图片的特征参数，并通过计算各特征参数之间欧式距离的方式，来确定各动画帧之间的相似度，通常情况下，欧式距离数值越小，两个动画帧之间的相似度也就越大。

而对于三维动画来说，其每个动画帧所对应的特征参数并不能简单的通过图片的三原色来进行构建，所以，对于三维动画来说，三维动画中的每个动画帧所对应的特征参数可通过各动画帧在骨骼动画中的参数来进行表示。具体的，在本申请实施例中，终端在确定前一动画中的每一动画帧与后一动画中的每一动画帧的相似度时，可分别确定出各动画帧在骨骼动画中的各骨骼的旋转角速度向量、各骨骼的骨骼权重、各骨骼的旋转向量以及动画的剧烈程度系数，而后，终端可采用公式分别确定出前一动画中每个动画帧与后一动画中每个动画帧之间的欧式距离，进而根据确定出的欧式距离，来对前一动画的每个动画帧与后一动画的每个动画帧的相似度进行确定，其中，D(i,j)为前一动画的第i个动画帧与后一动画的第j个动画帧的欧氏距离，当欧式距离越小时，前一动画的第i个动画帧与后一动画的第j个动画帧的相似度就越大。

为前一动画的第i个动画帧的第n个骨骼的旋转角速度向量，为后一动画的第j个动画帧的第n个骨骼的旋转角速度向量，其中，实际应用中的骨骼动画所采用的标准都是一致的，换句话说，对于两个不同的骨骼动画，表示手部或脚部的骨骼标号通常都是一样的，因此，这里提到的第i个动画帧的第 n个骨骼与第j个动画帧的第n个骨骼表示的都是同一部位的骨骼，也就是说，前一动画中各动画帧的骨骼编号与后一动画中各动画帧的骨骼编号都是相同的。

上述公式中的w_n表示的是第n个骨骼的骨骼权重，公式中的表示的是前一动画的第i个动画帧的第n个骨骼的旋转向量，为后一动画的第j个动画帧的第n个骨骼的旋转向量；而公式中的u则表示为预设的动画剧烈程度系数。从上述公式中可以看出，对于三维动画中的动画帧，终端在计算两个动画帧之间的欧式距离时，从骨骼旋转向量和骨骼旋转角速度向量两个方面出发，将两个动画帧中的每一骨骼都依次进行了比较，进而计算出的欧式距离相对较为准确。当然，上述公式并不唯一，可以再引入其他的骨骼参数，以进一步准确的确定出各动画帧之间的欧式距离，进而通过确定出的各动画帧之间的欧式距离，确定出各动画帧之间的相似度。

当然，在确定出前一动画的每个动画帧与后一动画的每个动画帧的相似度时，也可通过诸如点积等方式来进行确定，即，计算出两个动画帧的点积后，通过点积来确定这两个动画帧的相似度，具体过程就不进行详细说明了。

上述说明的通过确定出前一动画和后一动画中相似度最高的两个动画帧来合成动画的方式，可能会丢掉多个动画帧，例如，继续沿用上例，假设动画 C中的#2与动画D中的*5相似度最高时，终端在对动画C和动画D进行合成的过程中，将会丢掉动画C中的动画帧#3～#5和动画D中的动画帧*1～*4，也就是说终端将会丢掉7个动画帧，而动画C和动画D一共才有12帧，这样一来，由于丢掉的帧数过多，终端最终合成的动画在效果上将会受到一定的影响。

为了尽可能的降低丢帧对动画合成的影响，在本申请实施例中，终端在确定前一动画的每个动画帧与后一动画的每个动画帧的相似度时，可在前一动画中提取各第三指定动画帧以及从后一动画中提取各第四指定动画帧，其中，这里提到的各第三指定动画帧是指前一动画中的连续的一部分动画帧，为了尽可能的降低丢帧所带来的不利因素，可选取前一动画中的后几个动画帧作为各第三指定动画帧；同理，这里提到的各第四指定动画帧是指后一动画中连续的一部分动画帧，而终端可选取后一动画中前几个动画帧作为各第四指定动画帧，而后，终端可进一步的确定出每个第三指定动画帧和每个第四指定动画帧之间的相似度，并根据相似度选取出相似度最高的两个动画帧进行融合，进而通过该融合帧来合成动画。

例如，继续沿用上例，终端在确定动画C中每个动画帧与动画D中每个动画帧之间的相似度时，可取动画C中#3～#5的动画帧和动画D中*1～*3的动画帧，并对动画帧#3～#5和动画帧*1～*3之间的相似度进行确定，而后，终端可从确定出的各相似度中选取相似度最大的两个动画帧进行融合，并根据得到的融合帧来对动画C和动画D进行合成。

从上述的合成方式可以看出，由于终端在确定出各动画帧之间的相似度时，只确定出了前一动画中一部分动画帧和后一动画中一部分动画帧之间的相似度，因此，终端后续根据这部分动画帧之间的相似度来合成动画时，可将丢帧的数量有效的控制在一定的范围内，从而在一定程度上降低了丢帧对动画合成的不利影响。

上述的合成方式虽然能够在一定程度上降低丢帧所带来的不利因素，但是，由于终端确定出的各相似度只是前一动画和后一动画中一部分动画帧之间的相似度，在这部分动画帧的相似度中，即使是相似度最高的两个动画帧，其实际的差别可能也相对较大，进而导致基于这两个动画帧而合成的动画从效果上看也会有跳跃感出现。

因此，为进一步的保证合成动画的效果，在本申请实施例中，终端可从丢帧率和相似度两方面进行出发，来确定待融合的两个动画帧，其中，这里提到的丢帧率指的是，在一段动画中，未进行融合且未进行合成的帧数与该动画总帧数的比值，例如，假设两个动画中总共有12个动画帧，终端将这两个动画进行合成时，有4个动画帧在合成的过程中被终端丢弃，即，这4个动画帧即未参与到融合过程中，也未参与到这两个动画的合成过程中，此时，合成这两个动画时的丢帧率则是1/3。

终端在确定待融合的两个动画帧时，可先分别确定出前一动画中每个动画帧和后一动画中每个动画帧之间的相似度，并针对每个相似度所对应的两个动画帧，确定出将这两个动画帧作为融合帧来合成动画时，合成后的动画所对应的丢帧率是多少。终端在确定出相似度以及各相似度所对应的丢帧率时，可从前一动画中确定出第一动画帧，并从后一动画中确定出第二动画帧，其中，第一动画帧和第二动画帧满足公式在这个公式中， x_IJ为使a*x_ij+b*y_ij最小的x_ij，即为第一动画帧和第二动画帧之间的欧氏距离， x_ij为前一动画的第i帧动画帧和后一动画的第j帧动画帧的欧氏距离，i的取值范围为1～前一动画的总帧数，j的取值范围为1～后一动画的总帧数；y_IJ为使 a*x_ij+b*y_ij最小的y_ij，即表示根据第一动画帧和/或根据第二动画帧确定出的综合丢帧率，相应的，y_ij为根据第i帧动画帧和/或根据第j帧动画帧确定出的综合丢帧率，a、b则为相应的系数，该系数可由人为进行确定，只需保证不小于 0即可。

上述说明的y_ij并非指的是前一动画和后一动画在实际合成过程中的真实丢帧率，而是一个能够表征实际丢帧率的数值，这个数值虽然不能真实的表示出动画合成过程中的真实丢帧率，但是，该数值与动画合成过程中的丢帧率是成正相关的，所以，当y_ij的数值较小时，根据y_ij将上述前一动画和后一动画进行合成后的丢帧率也将相对较小。

对于y_ij的确定方式，终端通过公式确定出第一动画帧以及第二动画帧时，可针对前一动画中的第i帧动画帧，根据该第i帧动画帧，确定出前一动画的一个预期丢帧率，并将确定出的前一动画的预期丢帧率就作为综合丢帧率y_ij，或是，终端可针对后一动画中的第j帧动画帧，根据该第j帧动画帧，确定出后一动画的一个预期丢帧率，并将确定出的后一动画的预期丢帧率就作为综合丢帧率y_ij，其中，这里提到的前一动画的预期丢帧率可以是：终端根据第i帧动画帧，确定出前一动画根据该第i帧动画帧，与后一动画进行合成时，在前一动画中不参与融合且不参与合成的动画帧帧数与前一动画总帧数的比值，即前一动画和后一动画在合成的过程中，前一动画所丢弃的动画帧与前一动画总帧数的比值；同理，后一动画的预期丢帧率可以是：终端根据第j帧动画帧，确定出当后一动画根据该第j帧动画帧，与前一动画进行合成时，在后一动画中不参与融合且不参与合成的动画帧帧数与后一动画总帧数的比值，即，前一动画和后一动画在合成的过程中，后一动画所丢弃的动画帧与后一动画总帧数的比值。

上述说明的y_ij表示为在两个相邻动画的合成过程中，终端根据第i帧动画帧确定出的综合丢帧率，或是终端根据第j帧动画帧确定出的综合丢帧率，这样一来，由于终端通过公式确定出的第一动画帧以及第二动画帧是基于丢帧率以及相似度两方面考虑而确定的，因此，终端通过上述方式合成后的动画能够在一定程度上降低丢帧所带来的不利影响。

然而，对于待合成的两个相邻动画来说，若单单只考虑一个动画在合成时的丢帧率，则该丢帧率可能并不能在整体的角度上表征出这两个动画在合成时的丢帧率，例如，假设对于两个相邻动画来说，终端在对这两个动画进行合成时，从这两个动画中分别选取出待融合的动画帧，致使一个动画所对应的丢帧率可能相对较低，而另一个动画的丢帧率可能会非常高，若终端只考虑通过这两个融合的动画帧合成这两个动画时能够使其中一个动画的丢帧率较低，而不考虑这样会致使另一个动画的丢帧率较高，则终端通过这种方式合成这两个动画后，这两个动画在总体上的丢帧率可能也将相对较高，进而最终影响到融合动画的显示效果。

为了避免上述问题的发生，在本申请实施例中，终端确定y_ij的方式可根据第i帧动画帧和第j帧动画帧确定出的相邻两动画合成过程中的综合丢帧率，即，该这种y_ij的确定方式考虑了这两个动画合成过程中各自的丢帧情况，具体的确定方式可以是：终端在通过公式确定第一动画帧以及第二动画帧时，可从前一动画中选取第i帧动画帧以及从后一动画中选取出第j帧动画帧，而后，终端可确定出这两个动画帧的欧式距离x_ij，以及根据该第i帧动画帧以及根据该第j帧动画帧确定出的预期丢帧率y_ij，其中，这里的y_ij可以是终端根据第i帧动画帧确定出前一动画的预期丢帧率和根据第j帧动画帧确定出的后一动画的预期丢帧率之和，终端根据公式确定出某一对动画帧满足时，即可将这对动画帧确定出第一动画帧以及第二动画帧，相应的，该对动画帧对应的 x_ij以及y_ij则成为x_IJ以及y_IJ。

例如，假设对于动画G和动画H这两个相邻的动画来说，其中，动画G 中总共有6个动画帧，而动画H中总共有4个动画帧，终端在确定第一动画帧和第二动画帧时，通过公式发现，将动画G的第 4帧动画帧和动画H的第2帧动画帧进行融合，并以此来合成动画G和动画H， a*x₄₂+b*y₄₂得到的值在所有的组合中最小，其中，终端在确定y₄₂的值时，可以确定出当动画G根据该第4帧动画帧与动画H进行合成时，将会丢弃动画G 中包含的第5、6帧动画帧，所以，终端根据动画G的第4帧动画帧确定出动画G的预期丢帧率为1/3，同理，终端可进一步确定出当动画H根据该第2帧动画帧与动画G进行合成时，将会丢弃动画H中包含的第1帧动画帧，所以，终端可根据动画H的第2帧动画帧确定出动画H的预期丢帧率为1/4，继而将两个预期丢帧率的和值7/12就作为y₄₂的值。而对于x₄₂的值，终端可通过上述公式确定出动画G中的第4帧动画帧与动画H中第2帧动画帧的欧式距离，并将确定出的欧式距离就作为x₄₂的值。

需要说明的是，上述说明的y_ij的确定方式除了可将两个相邻动画中前一动画的预期丢帧率和后一动画的预期丢帧率的和值作为y_ij外，还可将这两个预期丢帧率的平均值就作为该y_ij，也可以将为各预期丢帧率分配权重，并将这两个预期丢帧率的加权和值就作为该y_ij，亦或是将这两个预期丢帧率的和值进行开根，并将开根得到的值就作为该y_ij，当然，该y_ij的也可以是前一动画和后一动画的实际丢帧率，总之，y_ij的意义在于能够表征出相邻两个动画在合成时的丢帧率即可，即，该y_ij应与相邻两个动画合成后的丢帧率成正相关，所以，无论该y_ij的确定方式是何，终端确定出的y_ij能够与相邻两个动画合成后的丢帧率成正相关即可，而至于确定的方式则并不唯一。

由于欧式距离与相似度成负相关，因此，通过公式确定出的待融合的第一动画帧以及第二动画帧既能在一定程度上保证通过这两个动画帧合成后的动画丢帧率尽可能低，也能在一定程度上保证这两个动画帧能够尽可能的相似，从而将丢帧对动画合成的影响进一步的降低。通过改变a和b的取值，可以得到用户理想的第一动画帧和第二动画帧。例如，当a＝1，b＝0时，即为上述只考虑两段动画之间的相关性而不考虑丢帧率的情况，此时当取从而得到欧式距离最小(即相似度最大)的两个动画帧，而当a＝0，b＝1时，即为上述只考虑两段动画之间的丢帧率而不考虑相关性的情况，此时当取即得到丢帧率最低的两个动画帧。

需要说明的是，通过上述公式确定出的待融合的动画帧可能是多对动画帧，因此，当遇到这种情况时，终端可进一步的从这多对动画帧中确定出相似度最高的一对动画帧来进行融合，或是从这多对动画帧中选取丢帧率最低的一对动画帧来进行融合。具体的，终端可确定出各第一动画帧中的第三动画帧以及各第二动画帧中的第四动画帧，其中，第三动画帧和第四动画帧之间的相似度最高，或是根据第三动画帧和第四动画帧来合成动画后，相应的丢帧率最低。由于通过公式确定出的待融合的动画帧以将丢帧的不利影响尽可能的降低，所以，后续在这些待融合帧中，无论是以相似度最高(即欧式距离最小)的标准来合成动画，还是以丢帧率最低的标准来合成动画，其最终得到的合成后的动画从效果上看都尽可能的降低了丢帧所带来的不利影响。

上述说明的几种动画合成方式或多或少的都会在合成过程中丢掉一部分动画帧，为了进一步的降低丢帧所带来的不利影响，在本申请实施例中，可也将终端确定出的待融合的两个动画帧之间的各动画帧通过一定的方式相互进行融合，以使最终合成的动画中不会存在丢帧的现象发生。

具体的，当终端通过公式确定出第一动画帧和第二动画帧后，终端在根据该第一动画帧以及第二动画帧来进行动画合成的过程中，可从前一动画中，选择出该第一动画帧以及位于该第一动画帧之后的 k个动画帧，并将选择出的各动画帧按照各动画帧在前一动画中的排列顺序进行排序，进而得到第一帧序列；同理，终端可从后一动画中，选取出位于第二动画帧之前的k个动画帧以及该第二动画帧，并将选择出的各动画帧按照各动画帧在后一动画中的排列顺序进行排序，以得到第二帧序列。而后，终端可将第一帧序列和第二帧序列中序号相同的动画帧进行两两融合，得到k+1个融合帧，进而通过前一动画中位于该第一动画帧之前的各动画帧、k+1个融合帧、以及后一动画中位于该第二动画帧之后的各动画帧进行合成。

例如，假设终端对动画C和动画D实施合成的过程中(动画C中包含有 #1～#5一共5个动画帧，动画D包含有*1～*7一共7个动画帧)，确定出动画C 中的动画帧#3和动画D中的动画帧*3欧式距离最小(即相似度最高)(此时在公式中，a＝1，b＝0，当然在其他实施例当中a和 b也可以选取其他值，这样将得到其他相匹配的动画帧)，则终端可进一步的从前一动画中选取出动画帧#3～#5作为第一帧序列，并从后一动画中选取出动画帧*1～*3组成第二帧序列(k＝2)，而后，终端可将第一帧序列和第二帧序列中序号排序序号相同的两个动画帧进行融合，即，动画帧#3和动画帧*1融合、动画帧#4和动画帧*2融合、动画帧#5和动画帧*3进行融合，得到3个融合帧。终端在确定出融合帧后，可将前一动画中的动画帧#1、#2、3个融合帧、以及后一动画中的动画帧*4～*7按顺序进行合成，进而得到合成后的动画。

终端在对各待融合的动画帧进行融合时，可采用公式来进行融合，具体的，对于第一帧序列和第二帧序列中排序序号都为p的两个动画帧来说，终端可通过公式确定出第一帧序列中第p个动画帧对应的融合系数，同时可通过公式β(p)＝1-α(p)来确定出第二帧序列中第p个动画帧对应的融合系数，而后，终端可通过确定出的各融合系数，将第一帧序列中的第p个动画帧与第二帧序列中的第p个动画帧进行融合，得到相应的融合帧。

通过上述的融合方式，终端尽可能的降低了动画合成中的丢帧率，并且，为了保证合成后的动画在效果上不会出现明显的跳跃感，终端通过计算参与到融合过程中的各动画帧的融合系数，来对各动画帧进行融合，以保证各融合帧在合成后动画中的显示效果，降低了动画合成过程中所带来的不利因素。

终端根据各文本关键词在文本信息中的排列顺序将各文本关键词对应的各动画进行合成后，可将得到的融合动画进行显示，并可将该融合动画作为信息发布在社交平台上，或是将其作为聊天信息发送给其他的用户。而为了进一步提升融合动画所带来的效果，在本申请实施例中，终端在将该融合动画进行显示或发送之前，可进一步的确定出该文本信息所对应的效果信息，并通过该效果信息，来对该融合动画实施调整，其中，这里提到的效果信息可以是该融合动画的背景音乐、音效、或是该文本信息对应的语音信息等，对于这几种效果信息的确定方式，以及如何通过这几种效果信息来对融合动画实施调整的具体过程，下面将进行详细说明。

对于融合动画的背景音乐，终端在得到融合动画后，可进一步的根据识别出的各文本关键词，从预设的音乐库中分别确定出各文本关键词所对应的各音乐，具体的确定方式可以是，将各文本关键词分别与音乐库中各音乐对应的音乐关键词相匹配，并将与文本关键词相匹配的音乐关键词所对应的音乐就作为文本关键词对应的音乐，或是，针对每个文本关键词，分别计算该文本关键词与各音乐关键词的相似度，并根据计算出的各相似度，选取与该文本关键词相匹配的音乐，其中，终端经计算确定出的该文本关键词所对应的音乐可能有多个，为了筛选出更加符合整个文本信息语境的音乐，终端可进一步根据该文本信息的特征信息来对该文本关键词所对应的多个音乐实施筛选，以选出更加符合整个文本信息语音的音乐，具体的筛选方式与上述说明的筛选动画的方式相同，在此就不进行详细赘述了。

对于预设音乐库中各音乐所对应的各音乐关键词，终端可针对音乐库中的每个音乐，确定出能够表示该音乐的特征，如以梅尔倒谱系数MFCC来表示该音乐的特征，而后，终端可针对确定出的每个音乐的特征，将该特征输入到预设的音乐模型中去，并根据该音乐模型的输出结果，确定出户该音乐所对应的音乐关键词，具体过程与上述确定动画关键词的方式相同，在此就不进一步详细说明了。终端在确定出各音乐所对应的各音乐关键词后，可将各音乐与各音乐关键词对应起来保证在预设的音乐库中，以备后续进行使用。当然，在本申请实施例中，各音乐所对应的各音乐关键词也可通过人为的方式进行确定，即，人为标定出各音乐对应的各音乐关键词并相互对应的保存在预设的音乐库中。

终端确定出各文本关键词对应的各音乐后，可将各音乐按照各文本关键词在其所在的文本信息中的排列顺序进行合成，得到相应的融合音乐，其中，将各音乐进行合成的方式与上述合成动画的方式基本相同，如终端可通过对各音乐设定诸如淡出或淡入等播放效果的方式来实现融合音乐中各音乐的过渡，或是通过确定各音乐融合系数的方式来对各音乐实施融合，具体的过程在此就不进行详细说明了。

终端在确定出该融合音乐后，可将该融合音乐合成到上述融合动画中，以进一步提高该融合动画的播放效果，其中，具体的合成方式可以是，终端通过确定该融合动画播放速度的方式来调整该融合音乐的播放速度，使得融合音乐和融合动画在播放速度上实现同步，或是终端可将该融合音乐以一定的播放速度循环在融合动画中进行播放，亦或是终端可在调整该融合音乐播放速度的同时，可基于文本关键词，将该融合音乐中各音乐与融合动画中的各动画相互对应起来，从而完成融合音乐与融合动画的合成工作。

需要说明的是，终端在确定各音乐所对应的各音乐关键词时，可以不同的维度选取不同的音乐模型来进行确定，比如说，选取与体育相关的音乐模型时，终端最终通过该音乐模型而确定出的各音乐对应的各音乐关键词应是与体育相关的，而选取与情绪相关的音乐模型时，最终确定出的各音乐对应的各音乐关键词应是与情绪相关的。所以，对于每个音乐来说，终端通过不同维度的音乐模型所确定出的该音乐对应的音乐关键词可能有多个，这就给后续终端通过文本信息的特征信息筛选各音乐奠定了基础。

上述提到的音乐模型可经采集的大量样本音乐训练后得出，训练的方式与上述训练其他模型的方式相似，在此就不进行详细说明了。而融合动画的背景音乐除了可通过上述说明的方式进行确定之外，终端也可通过该文本信息的特征信息，确定出该融合动画的一个整体背景音乐，进而将该背景音乐融合到融合动画中。

而对于融合动画的音效来说，通常情况下，动画在不同时段所显示的剧烈程度往往都是不同的，比如，动画中的有些时段在画面上相对舒缓，而有些时段则较为激烈，并且，动画中的人物动作、物体的行进速度等在不同的时段往往也不尽相同。因此，为了进一步的提升融合动画的效果以及趣味性，在本申请实施例中，终端可通过对融合动画中各项动画参数的监测，来调整融合音乐的音效，例如，当终端监测到某一时段的各项动画参数变化过快时，则可将这一时段所对应的融合音乐在音效上调整的较为激烈一些，或是，当融合动画中的人物进行诸如拍手、踏步、急喘等动作时，终端可将这些动作所对应的音效融合到融合音乐中，当然也可以是其他的调整方式，在此就不进行一一说明了。而当终端调整完该融合音乐的音效后，可将调整音效后的融合音乐合成到该融合动画中去，这样一来，音效的存在将进一步的提升融合动画的效果，进而给用户带来了更多的趣味性。

在实际应用中，用户输入的文本信息中通常都会包含有一些指定的字符，如冒号“：”、书名号等，这些指定字符的后面包含的文本信息通常是一段特殊的文本信息，如冒号双引号“：“”后面通常表示的是一段话语。为了进一步的提升融合动画的效果以及趣味性，在本申请实施例中，终端可将指定字符后面的一段文本信息进行一定的处理，并将处理后得到的效果信息插入到该融合动画中，具体的方式可以是，终端可从该文本信息中确定出其包含的指定字符，其中，这里提到的指定字符可以是冒号双引号“：“”，而后，终端可根据该指定字符，从该文本信息中提取出该指定字符后面的一段子文本信息，并通过语音识别功能将该子文本信息转换为相应的语音，后续过程中，终端可将该语音或是该语音对应的子文本信息作为效果信息插入到该融合动画中，其中，对于确定出的语音来说，终端可将该语音合成在融合动画中，以实现对该融合动画的配音。而于该子文本信息来说，终端可将该子文本信息以预设的显示方式插入到该融合动画中，如图2所示。

图2为本申请实施例提供的融合动画中话语信息的显示示意图。

在图2中，终端在确定出文本信息中冒号双引号“：“”后面的一段子文本信息为一段话语时，则可将这段子文本信息作为融合动画中人物的话语，并将该话语放置在指定的对话框中显示在融合动画中的人物上方，当然，这段子文本信息也可通过诸如气泡、云朵等形式显示在融合动画中，以提升融合动画的显示效果以及趣味性。

需要说明的是，上述说明的指定字符并不一定是冒号双引号“：“”，也可以是诸如“想：”这样的指定字符，终端当确定出文本信息中包含有“想”和冒号“：”连用的情况时，则可确定出之后的一段子文本信息应为融合动画中人物的心里描述，进而可将这段子文本信息作为融合动画中人物的心里活动，以一定的形式显示在融合动画中。当然，该指定字符也可以其他的字符或字符连用，如单字“说”、“问”等，在此就不一一进行详细说明了。

在实际应用中，对动画进行配音的过程中往往都会涉及到口型的问题，因此，在本申请实施例中，终端可也将用户输入的整段文本信息作为一段话语，从这段文本信息中提取出相应的各语音特征信息，并进一步的确定出各语音特征信息所对应的口型类别，其中，这里提到的口型类别是指，通常情况下，不同的音节都对应有相应的口型类别，而每个口型类别都对应有各自的口型动画。一个字的发音通常是由若干个音节的发音所形成的，相应的，一个字所对应的口型动画则也应是由若干个音节对应的口型类别所对应的动画构成的，因此，当终端确定出各口型类别后，则就相应的确定出了文本信息中每个字所对应的口型动画，进而将每个字的口型动画作为效果信息合成到融合动画中去，如图3所示。

图3为本申请实施例提供的口型动画的示意图。

图3中分别列举了“我”、“行”所对应的各口型图片，其中，“我”的发音为“wo”，通常情况下，终端可将“wo”拆分为“w”以及“o”，并确定出“w”以及“o”所对应的口型类别(口型图片)分别为图c1和图c2，这样一来，终端则可进一步的确定出“我”所对应的口型动画，同理，“行”的发音由“x”和“ing”两个音节所构成，则终端可根据这两个音节所对应的口型类别图d1和图d2，确定出“行”所对应的口型动画。

终端在确定出各口型动画后，可根据各语音信息所基于的单字在该文本信息中的位置，将各口型动画合成到融合动画中，其中，合成的方式可以是，将各口型动画的大小按照融合动画中的人物口型进行调整后，依次对融合动画中的人物口型进行替换，继而得到带有语音与口型相匹配的融合动画。

以上为本申请实施例提供的动画合成的方法，基于同样的思路，本申请实施例还提供了动画合成的装置，如图4所示。

图4为本申请实施例提供的一种动画合成的装置示意图，具体包括：

接收模块401，用于接收输入的文本信息；

识别模块402，用于识别所述文本信息中的各文本关键词；

确定模块403，用于从预设的动画库中分别确定出各文本关键词所对应的动画；

合成模块404，用于将确定出的各动画进行合成，得到融合动画。

所述确定模块403具体用于，提取所述文本信息中的特征信息；针对每个文本关键词，根据该文本关键词以及所述特征信息，从预设的动画库中，确定出对应于该文本关键词、且对应于所述特征信息的动画。

所述合成模块404具体用于，将确定出的各动画按照所述各关键词在所述文本信息中的排序进行合成。

所述合成模块404具体用于，针对任意两个相邻的动画，确定待插入到所述前一动画和所述后一动画之间的过渡动画片段，将所述前一动画、所述过渡动画片段以及所述后一动画按顺序进行合成；或

针对任意两个相邻的动画，将前一动画的各第一指定动画帧设为第一效果，将后一动画的各第二指定动画帧设为第二效果，并将该设置效果后的前一动画和后一动画进行合成，其中，所述第一效果至少包括淡出效果，所述第二指定效果至少包括淡入效果；或

针对任意两个相邻的动画，确定前一动画的每个动画帧图像与后一动画的每个动画帧图像的相似度，根据确定出的各相似度，对该前一动画和后一动画进行合成。

所述合成模块404具体用于，从所述前一动画中，选择第一动画帧以及位于所述第一动画帧之后的k个动画帧，并按选择出的各动画帧在所述前一动画中的排列顺序进行排序，得到第一帧序列；从所述后一动画中，选择位于所述第二动画帧之前的k个动画帧以及第二动画帧，并按选择出的各动画帧在所述后一动画中的排列顺序进行排序，得到第二帧序列；将第一帧序列和第二帧序列中排序序号相同的动画帧进行融合，得到k+1个融合帧；对所述前一动画中位于所述第一动画帧之前的各动画帧、各融合帧、所述后一动画中位于所述第二动画帧之后的各动画帧进行合成；其中，k为正整数。

所述合成模块404具体用于，采用公式确定所述第一帧序列中各动画帧对应的融合系数；采用公式β(p)＝1-α(p)确定所述第二帧序列中各动画帧对应的融合系数；其中：α(p)为所述第一帧序列中第p个动画帧对应的融合系数，β(p)为所述第二帧序列中第p个动画帧对应的融合系数；根据确定出的各融合系数，将第一帧序列和第二帧序列中排序序号相同的动画帧进行融合。

所述装置还包括：

效果确定模块405，用于确定所述文本信息对应的效果信息；根据所述文本信息对应的效果信息，调整所述融合动画。

所述效果确定模块405具体用于，根据识别出的各文本关键词，从预设的音乐库中分别确定出与所述各文本关键词相匹配的音乐。

所述效果确定模块405具体用于，按照各文本关键词在所述文本信息中的排列顺序，对确定出的各音乐进行合成，得到融合音乐；将所述融合音乐合成到所述融合动画中。

所述效果确定模块405具体用于，监测所述融合动画对应的各动画参数；根据各动画参数调整所述融合音乐的音效；将调整音效后的融合音乐合成到所述融合动画中。

所述效果确定模块405具体用于，从所述文本信息提取各语音特征信息；根据所述各语音述特征信息，确定所述各语音特征信息对应的各口型类别；根据所述各口型类别，确定所述各口型类别对应的各口型动画，并将所述各口型动画作为确定的效果信息。

所述效果确定模块405具体用于，根据提取各语音特征信息所基于的单字在所述文本信息中的位置，将各口型动画合成到所述融合动画中。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、 CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和 /或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/ 或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器 (RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存 (PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器 (CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

本领域技术人员应明白，本申请的实施例可提供为方法、系统或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

以上所述仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种动画合成的方法，其特征在于，包括：

接收输入的文本信息；

识别所述文本信息中的各文本关键词；

从预设的动画库中分别确定出各文本关键词所对应的动画；

将确定出的各动画进行合成，得到融合动画；

将确定出的各动画进行合成，具体包括：

将确定出的各动画按照所述各文本关键词在所述文本信息中的排序进行合成；

针对任意两个相邻的动画，确定前一动画的每个动画帧与后一动画的每个动画帧的相似度，根据确定出的各相似度，对该前一动画和后一动画进行合成；

所述确定前一动画的每个动画帧与后一动画的每个动画帧的相似度，具体包括：

采用公式确定前一动画的每个动画帧与后一动画的每个动画帧的欧氏距离，并根据确定的欧氏距离确定前一动画的每个动画帧与后一动画的每个动画帧的相似度，其中：

D(i,j)为前一动画的第i个动画帧与后一动画的第j个动画帧的欧氏距离，其中，该欧氏距离越小，所述第i个动画帧与所述第j个动画帧的相似度越大；

为前一动画的第i个动画帧的第n个骨骼的旋转角速度向量，为后一动画的第j个动画帧的第n个骨骼的旋转角速度向量，所述前一动画中各动画帧的骨骼编号与所述后一动画中各动画帧的骨骼编号相同；

w_n为第n个骨骼的骨骼权重；

为前一动画的第i个动画帧的第n个骨骼的旋转向量，为后一动画的第j个动画帧的第n个骨骼的旋转向量；

u为预设的动画剧烈程度系数；

所述根据确定出的各相似度，对该前一动画和后一动画进行合成，具体包括：

根据确定出的各相似度，从所述前一动画中确定出第一动画帧，从后一动画中确定出第二动画帧，所述第一动画帧和第二动画帧满足：

其中，x_ij为所述前一动画的第i帧动画帧和所述后一动画的第j帧动画帧的欧氏距离；i的取值范围为[1，所述前一动画的总帧数]；j的取值范围为[1，所述后一动画的总帧数]；

y_ij为根据所述第i帧动画帧和/或根据所述第j帧动画帧确定出的综合丢帧率；

x_IJ为使a*x_ij+b*y_ij最小的x_ij；

y_IJ为使a*x_ij+b*y_ij最小的y_ij；

I为所述第一动画帧的帧号，J为所述第二动画帧的帧号；

a、b则为相应的系数，a≥0，b≥0；

根据所述第一动画帧和第二动画帧，对该前一动画和后一动画进行合成；

根据所述第i帧动画帧和/或根据所述第j帧动画帧确定出的综合丢帧率，具体包括：

根据所述第i帧动画帧，确定出所述前一动画中不参与融合且不参与合成的动画帧帧数，并根据确定出的所述前一动画中不参与融合且不参与合成的动画帧帧数，以及所述前一动画的总帧数，确定所述前一动画的预期丢帧率；

根据所述第j帧动画帧，确定出所述后一动画中不参与融合且不参与合成的动画帧帧数，并根据确定出的所述后一动画中不参与融合且不参与合成的动画帧帧数，以及所述后一动画的总帧数，确定所述后一动画的预期丢帧率；

根据所述前一动画的预期丢帧率和/或所述后一动画的预期丢帧率，确定所述综合丢帧率；

根据所述第一动画帧和第二动画帧，对该前一动画和后一动画进行合成，具体包括：

从所述前一动画中，选择第一动画帧以及位于所述第一动画帧之后的k个动画帧，并按选择出的各动画帧在所述前一动画中的排列顺序进行排序，得到第一帧序列；从所述后一动画中，选择位于所述第二动画帧之前的k个动画帧以及第二动画帧，并按选择出的各动画帧在所述后一动画中的排列顺序进行排序，得到第二帧序列；将第一帧序列和第二帧序列中排序序号相同的动画帧进行融合，得到k+1个融合帧；对所述前一动画中位于所述第一动画帧之前的各动画帧、各融合帧、所述后一动画中位于所述第二动画帧之后的各动画帧进行合成；其中，k为正整数；

将第一帧序列和第二帧序列中排序序号相同的动画帧进行融合，具体包括：

采用公式确定所述第一帧序列中各动画帧对应的融合系数；

采用公式β(p)＝1-α(p)确定所述第二帧序列中各动画帧对应的融合系数；

其中：

α(p)为所述第一帧序列中第p个动画帧对应的融合系数，β(p)为所述第二帧序列中第p个动画帧对应的融合系数；

根据确定出的各融合系数，将第一帧序列和第二帧序列中排序序号相同的动画帧进行融合。

2.如权利要求1所述的方法，其特征在于，从预设的动画库中分别确定出各文本关键词所对应的动画之前，所述方法还包括：

分别确定预先保存的各动画对应的特征向量；

根据确定的各动画对应的特征向量，通过预先训练的第一分类模型，确定各动画对应的动画关键词；

将各动画及其对应的动画关键词保存在预设的动画库中。

3.如权利要求1所述的方法，其特征在于，从预设的动画库中分别确定出各文本关键词所对应的动画，具体包括：

针对每个文本关键词，确定该文本关键词与所述动画库中保存的各动画关键词的相似度；

根据确定的各相似度以及各动画关键词与动画的对应关系，确定该文本关键词对应的动画。

4.如权利要求1或3所述的方法，其特征在于，从预设的动画库中分别确定出各文本关键词所对应的动画，具体包括：

提取所述文本信息中的特征信息；

针对每个文本关键词，根据该文本关键词以及所述特征信息，从预设的动画库中，确定出对应于该文本关键词、且对应于所述特征信息的动画。

5.如权利要求4所述的方法，其特征在于，所述特征信息至少包括：情绪信息；

从预设的动画库中分别确定出各文本关键词所对应的动画之前，所述方法还包括：

通过预先训练的第二分类模型，确定各动画对应的情绪关键词；

将各动画与情绪关键词的对应关系保存在预设的动画库中。

6.如权利要求1所述的方法，其特征在于，所述动画包括：三维动画。

7.如权利要求1所述的方法，其特征在于，确定前一动画的每帧图像与后一动画的每帧图像的相似度，具体包括：

在所述前一动画中提取各第三指定动画帧，在所述后一动画中提取各第四指定动画帧；

确定每个第三指定动画帧与每个第四指定动画帧的相似度。

8.如权利要求1所述的方法，其特征在于，所述方法还包括：

确定所述文本信息对应的效果信息；

根据所述文本信息对应的效果信息，调整所述融合动画。

9.如权利要求8所述的方法，其特征在于，确定所述文本信息对应的效果信息，具体包括：

根据识别出的各文本关键词，从预设的音乐库中分别确定出与所述各文本关键词相匹配的音乐。

10.如权利要求9所述的方法，其特征在于，调整所述融合动画，具体包括：

按照各文本关键词在所述文本信息中的排列顺序，对确定出的各音乐进行合成，得到融合音乐；

将所述融合音乐合成到所述融合动画中。

11.如权利要求9所述的方法，其特征在于，从预设的音乐库中分别确定出与所述各文本关键词相匹配的音乐之前，所述方法还包括：

分别确定预先保存的各音乐对应的特征，所述特征包括梅尔倒谱系数MFCC特征；

根据确定的各音乐对应的特征，通过预先训练的音乐模型，确定各音乐对应的音乐关键词；

将各音乐及其对应的音乐关键词保存在预设的音乐库中。

12.如权利要求10所述的方法，其特征在于，将所述融合音乐合成到所述融合动画中，具体包括：

监测所述融合动画对应的各动画参数；

根据各动画参数调整所述融合音乐的音效；

将调整音效后的融合音乐合成到所述融合动画中。

13.如权利要求8所述的方法，其特征在于，确定所述文本信息对应的效果信息，具体包括：

确定所述文本信息中包含的指定字符；

根据所述指定字符，提取所述文本信息中子文本信息；

将所述子文本信息转换成语音；

将所述子文本信息和/或所述语音作为效果信息。

14.如权利要求13所述的方法，其特征在于，调整所述融合动画，具体包括：

根据所述子文本信息在所述文本信息中的位置，将所述子文本信息按照预设的显示方式插入到所述融合动画中，和/或将所述语音合成到所述融合动画中。

15.如权利要求8所述的方法，其特征在于，确定所述文本信息对应的效果信息，具体包括：

从所述文本信息提取各语音特征信息；

根据所述各语音述特征信息，确定所述各语音特征信息对应的各口型类别；

根据所述各口型类别，确定所述各口型类别对应的各口型动画，并将所述各口型动画作为确定的效果信息。

16.如权利要求15所述的方法，其特征在于，调整所述融合动画，具体包括：

根据提取各语音特征信息所基于的单字在所述文本信息中的位置，将各口型动画合成到所述融合动画中。

17.一种动画合成的装置，其特征在于，包括：

接收模块，用于接收输入的文本信息；

识别模块，用于识别所述文本信息中的各文本关键词；

合成模块，用于将确定出的各动画进行合成，得到融合动画；

所述合成模块具体用于：

将确定出的各动画按照所述各关键词在所述文本信息中的排序进行合成；

针对任意两个相邻的动画，确定前一动画的每个动画帧图像与后一动画的每个动画帧图像的相似度，根据确定出的各相似度，对该前一动画和后一动画进行合成；

从所述前一动画中，选择第一动画帧以及位于所述第一动画帧之后的k个动画帧，并按选择出的各动画帧在所述前一动画中的排列顺序进行排序，得到第一帧序列；从所述后一动画中，选择位于第二动画帧之前的k个动画帧以及第二动画帧，并按选择出的各动画帧在所述后一动画中的排列顺序进行排序，得到第二帧序列；将第一帧序列和第二帧序列中排序序号相同的动画帧进行融合，得到k+1个融合帧；对所述前一动画中位于所述第一动画帧之前的各动画帧、各融合帧、所述后一动画中位于所述第二动画帧之后的各动画帧进行合成；其中，k为正整数；

采用公式确定所述第一帧序列中各动画帧对应的融合系数；采用公式β(p)＝1-α(p)确定所述第二帧序列中各动画帧对应的融合系数；其中：α(p)为所述第一帧序列中第p个动画帧对应的融合系数，β(p)为所述第二帧序列中第p个动画帧对应的融合系数；根据确定出的各融合系数，将第一帧序列和第二帧序列中排序序号相同的动画帧进行融合；