CN114359446A

CN114359446A - 一种动画绘本生成方法、装置、设备和存储介质

Info

Publication number: CN114359446A
Application number: CN202111658559.XA
Authority: CN
Inventors: 吴小燕; 何山; 殷兵; 胡金水
Original assignee: iFlytek Co Ltd
Current assignee: iFlytek Co Ltd
Priority date: 2021-12-30
Filing date: 2021-12-30
Publication date: 2022-04-15

Abstract

本申请公开了一种动画绘本生成方法、装置、设备和存储介质，该方法包括：识别静态绘本中的若干对象以及若干文本；确定各对象以及各文本之间的对应关系，其中，对应关系表示文本由与文本对应的对象讲述；生成各文本的语音数据，以及确定各文本对应的对象的画面变化内容，其中，画面变化内容表示在播放文本对应的语音数据过程中对象的预设部位的变化；基于语音数据和画面变化内容，生成静态绘本对应的动画绘本数据。通过上述方式，本申请能够将绘本中的静态人物转化为能说会动的动画人物。

Description

一种动画绘本生成方法、装置、设备和存储介质

技术领域

本申请涉及图像处理技术领域，特别是涉及一种动画绘本生成方法、装置、设备和存储介质。

背景技术

绘本是一种以图画为主，可以连贯成为一个完整故事的书，主要针对儿童，其可以帮助儿童了解世界、学习知识、培养孩童对于阅读的兴趣和爱好。

市面上现有的绘本可以分为两大类，一类静态绘本，该类绘本依赖人工阅读或绘本机器人机械阅读；另一类是动态绘本，该类绘本配套一些视频资源，该视频资源是预先制作好的，用户可以通过扫描绘本上的二维码或在浏览器界面输入链接进行观看，且视频资源仅是对绘本静态帧做了一些扭动，可看性不高且价格昂贵。

发明内容

本申请主要解决的技术问题是提供一种动画绘本生成方法、装置、设备和存储介质，能够生成生动的动画人物。

为解决上述技术问题，本申请第一方面提供了一种动画绘本生成方法，该方法包括：识别静态绘本中的若干对象以及若干文本；确定各对象以及各文本之间的对应关系，其中，对应关系表示文本由与文本对应的对象讲述；生成各文本的语音数据，以及确定各文本对应的对象的画面变化内容，其中，画面变化内容表示在播放文本对应的语音数据过程中对象的预设部位的变化；基于语音数据和画面变化内容，生成静态绘本对应的动画绘本数据。

为解决上述技术问题，本申请第二方面提供了一种动画绘本生成装置，该装置包括：识别模块，该识别模块用于识别静态绘本中的若干对象以及若干文本；确定模块，该确定模块确定各对象以及各文本之间的对应关系，其中，对应关系表示文本由与文本对应的对象讲述；综合模块，该综合模块用于生成各文本的语音数据，以及确定各文本对应的对象的画面变化内容，其中，画面变化内容表示在播放文本对应的语音数据过程中对象的预设部位的变化；生成模块，该生成模块用于基于语音数据和画面变化内容，生成静态绘本对应的动画绘本数据。

为解决上述技术问题，本申请第三方面提供了一种动画绘本匹配设备，该设备包括相互耦接的存储器和处理器，存储器存储有程序指令；处理器用于执行存储器中存储的程序指令，以实现上述第一方面所述的方法。

为解决上述技术问题，本申请第四方面提供了一种计算机可读存储介质，该计算机存储介质用于存储程序指令，所述程序指令能够被执行以实现上述第一方面所述的方法。

本申请的有益效果是：区别于现有技术的情况，本申请通过识别静态绘本中的若干对象以及若干文本，确定各对象以及各文本之间的对应关系，将若干文本转化为语音数据，使得静态绘本中的文本内容可以通过语音的方式表达；进一步确定各文本对应的对象的画面变化内容，即确定经语音驱动后的对象的目标部位图像，结合语音数据和目标部位图像，生成静态绘本对应的动画绘本数据。即可以实现将静态绘本实时转换成动态绘本，无需预先配置动态绘本，减少配置成本，且针对现有存在的静态绘本均可转换为动态绘本，提高动态绘本的灵活性，另外，将绘本中的静态人物转化为能说会动的动画人物，提高绘本的生动性。

附图说明

图1是本申请动画绘本生成方法第一实施方式的流程示意图；

图2是本申请动画绘本生成方法第一实施方式中步骤S120一实施方式的流程示意图；

图3是本申请动画绘本生成方法第一实施方式中步骤S130一实施方式的流程示意图；

图4是本申请动画绘本生成方法第一实施方式中步骤S130另一实施方式的流程示意图；

图5是步骤S432中确定目标对象的画面变化内容一实施方式的流程示意图；

图6是本申请动画绘本生成方法第二实施方式的流程示意图；

图7是本申请动画绘本生成方法第三实施方式的流程示意图；

图8是本申请动画绘本生成方法第四实施方式的流程示意图；

图9是本申请提供的动画绘本生成装置一实施方式的框架示意图；

图10是本申请提供的动画绘本生成设备一实施方式的框架示意图；

图11是本申请计算机可读存储介质一实施方式的框架示意图。

具体实施方式

下面结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性的劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

需要说明的是，本申请实施例中有涉及“第一”、“第二”等的描述，该“第一”、“第二”等的描述仅用于描述目的，而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。

参阅图1，图1是本申请动画绘本生成方法第一实施方式的流程示意图，该方法包括：

S110：识别静态绘本中的若干对象以及若干文本。

其中，若干对象为静态绘本中出现的除文本内容和绘本背景外的内容，可以为绘本中出现的人物、动物等。可以使用目标检测器检测静态绘本，得到绘本中包含的对象，并进行标注。例如，检测出两个人物对象，则可以标注为人物1和人物2。在一实施方式中，可以采用动画绘本检测器检测静态绘本中的若干对象。在其它实施方式中，也可以使用其它的检测设备，在此不做限定。

对于静态绘本中的若干文本，在一实施方式中，可以采用OCR(Optical CharacterRecognition，光学字符识别)识别得到文本内容。

S120：确定各对象以及各文本之间的对应关系。

在一实施方式中，对应关系表示文本由与文本对应的对象讲述，步骤S110将检测设备检测得到的若干对象和识别到的若干文本内容发送给神经网络模型，神经网络模型对若干对象和若干文本内容进行编码，获得各对象的图像特征和各文本第一文本特征，通过计算各对象的图像特征和各文本第一文本特征之间的相似度，得到各对象以及各文本之间的对应关系，即可以得到各文本对应的讲述对象。其中，神经网络模型可以为由多个神经网络组成的整体模型；也可以为多个小的神经网络模型，基于它们之间的交互，得到各对象以及各文本之间的对应关系。例如，由第一提取网络得到静态绘本中若干对象的图像特征，由第二提取网络获得各文本第一文本特征，再采用关系识别网络得到各对象的图像特征和各文本第一文本特征之间的相似度，进而获得各对象的图像特征和各文本第一文本特征之间的相似度。

S130：生成各文本的语音数据，以及确定各文本对应的对象的画面变化内容。

具体地，可以基于识别的若干文本内容，生成语音数据。在一实施方式中，可以采用语音合成框架(如tacotron或tacotron2)合成语音数据。进一步地，可以确定对象在讲述合成的语音数据过程中产生的画面变化内容，其中，画面变化内容表示在播放文本对应的语音数据过程中对象的预设部位的变化。预设部位可以为对象的脸部、身体部位等。该预设部位的变化可以是在播放文本对应的语音数据后得到的目标部位图像。

在一实施方式中，预设部位可以为对象的脸部，进一步可以在对象的面部定义若干个关键点，基于对象在讲述语音的过程中的关键点相对于静态绘本中的关键点的位置变化，确定画面变化内容。在另一实施方式中，还可以基于对象面部像素点的变化，确定画面变化内容。

S140：基于语音数据和画面变化内容，生成静态绘本对应的动画绘本数据。

其中，动画绘本数据可以为由静态绘本中的对象在讲述合成的语音数据过程中产生的动态变化组成的动画。

通过上述方式，本申请可以自动识别绘本中的若干对象以及若干文本，确定各对象以及各文本之间的对应关系，将若干文本转化为语音数据，使得静态绘本中的文本内容可以通过语音的方式表达；进一步确定各文本对应的对象的画面变化内容，即确定经语音驱动后的对象的目标部位图像，结合语音数据和目标部位图像，生成静态绘本对应的动画绘本数据。即可以实现将静态绘本实时转换成动态绘本，无需预先配置动态绘本，减少配置成本，且针对现有存在的静态绘本均可转化为动态绘本，提高动态绘本的灵活性，另外，将绘本中的静态人物转化为能说会动的动画人物，提高绘本的生动性。

请参阅图2，图2是本申请动画绘本生成方法第一实施方式中步骤S120一实施方式的流程示意图，步骤S120包括：

S221：利用第一提取网络从静态绘本中提取各对象的图像特征；以及对于各文本，利用第二提取网络从文本中提取文本的若干词向量，并将文本的若干词向量聚合得到文本的第一文本特征。

在一实施方式中，对于静态绘本中的若干对象，可以采用神经网络(如第一提取网络)提取对象的图像特征。在一具体实施方式中，第一提取网络可以为卷积神经网络(Convolutional Neural Networks,CNN)，利用卷积神经网络提取各对象的图像特征；在另一具体实施方式中，第一提取网络可以为transformer结构，利用transformer结构提取各对象的图像特征。对于静态绘本中的若干文本，采用OCR的方式识别后，可以将识别后的文本内容发送至第二提取网络模型中，由第二提取网络模型提取文本中的若干词向量，并将文本的若干词向量聚合得到文本的第一文本特征，其中，第一文本特征可以由若干词向量平均池化得到。在一具体实施方式中，第二提取网络模型可以为BERT(BidirectionalEncoder Representation from Transformers)，BERT为一个预训练的语言表征模型；在另一实施方式中，第二提取网络模型可以为GPT(GenerativePre-Training)模型，具体可以采用GPT-3模型，可以理解地，也可以采用GPT-2模型，在此不做限定。

S222：利用关系识别网络对各对象的图像特征和各文本的第一文本特征进行判别，得到各文本与各对象之间的相似度。

在步骤S221得到静态绘本中若干对象的图像特征和若干文本的第一文本特征后，可以进一步判断各文本与各对象之间的相似度。在一实施方式中，可以利用关系识别网络对各对象的图像特征和各文本的第一文本特征进行判别，得到各文本与各对象之间的相似度。其中，关系识别网络可以为双流transformer结构。

S223：基于相似度，得到各对象以及各文本之间的对应关系。

进一步判断各文本与各对象之间的相似度，确定各对象以及各文本之间的对应关系，即确定某句话由哪个对象讲述。

请参阅图3，图3是本申请动画绘本生成方法第一实施方式中步骤S130一实施方式的流程示意图；该步骤包括：

S331：确定各文本对应的声音参考信息。

在一实施方式中，声音参考信息包括角色类别和情感类别中至少一者。各文本对应的声音参考信息即表示文本由哪个角色进行讲述，或文本表达的是什么样的情感。其中，角色类别可以为男性，女性，小男孩，小女孩等；情感类别可以为惊异，高兴，悲伤，中性等。

各文本对应的声音参考信息可以由提前训练好的模型得到，具体地，用户在训练模型时，可以预先设定一些角色类别和情感类别，并对角色类别和情感类别进行标注；进一步基于第二文本特征和命名实体的实体特征，得到文本对应的角色类别特征和情感类别特征，判断与标注的是否一致；其中，命名实体为文本中的内容，命名实体为人名、机构名、地名以及其他所有以名称为标识的实体，例如，爸爸、宝贝、兔子等。

在实际应用过程中，可以从若干文本中抽取得到至少一个命名实体的实体特征。具体地，可以从第一文本特征中直接提取命名实体的实体特征，第一文本特征可以由BERT或GPT得到；还可以将命名实体输入特征模型中，得到命名实体的实体特征。

进一步利用信息识别网络对各文本的第二文本特征和各命名实体的实体特征进行处理，得到各文本对应的声音参考信息。在一实施方式中，信息识别网络可以为双流transformer结构，由双流transformer结构得到各文本的第二文本特征和各命名实体的实体特征之间的对应关系，基于对应关系确定各文本对应的声音参考信息。其中，第二文本特征由文本包含的词向量平均池化得到，可以与第一文本特征相同，也可以与第一文本特征不同。

在另一实施方式中，可以将命名实体的实体特征输入第一transformer结构分别获得各命名实体之间的实体关系，将各文本的第二文本特征输入第二transformer结构得到各文本之间的文本关系，进一步可以基于实体关系和文本关系，采用跨类别注意力模型，得到各命名实体和各文本之间的对应关系。最后利用各命名实体和各文本之间的对应关系，确定文本对应的声音参考信息，即某句话由哪个角色讲述以及这句话表达的情感。

S332：基于声音参考信息，生成各文本的语音数据。

在一实施方式中，步骤S331得到文本的声音参考信息包括角色类别和情感类别，基于角色类别确定文本对应的目标音色，例如确定文本对应的角色类别为小女孩，则获取童女音的特征；将童女音的特征和情感类别特征加入语音合成框架(如tacotron2)中，得到富含情绪的语音数据。其中，童女音的特征和情感类别特征可以由预先训练好的模型得到。在另一实施方式中，可以基于角色类别和情感类别共同确定目标银色，例如，文本内容为“在我们的鸡舍下面，居然住着一条大火龙”，由步骤S331得到该文本对应的角色类别为小女孩，对应的情感类别为惊讶，则可以选择女童音及惊异音色，将文本转化成富含情绪的语音数据。

可以理解地，本实施例中包含的第一提取网络、第二提取网络、关系识别网络等可以由一个模型中的不同模块执行，也可以由多个模型执行。

请参阅图4，图4是本申请动画绘本生成方法第一实施方式中步骤S130另一实施方式的流程示意图，该步骤还可以包括：

S431：在静态绘本中检测出各对象的预设部位对应的部位区域，对对象的部位区域进行关键点提取，得到对象的参考关键点位置信息。

在一实施例中，预设部位包括脸部，预设部位对应的部位区域即为整个脸部区域，提取脸部区域的关键点，得到关键点的位置信息，该位置信息即为对象的参考关键点位置信息。其中，参考关键点位置信息包括对象的预设部位中多个关键点在静态绘本的位置信息。

具体地，可以使用部位检测器(如人脸检测器)检测静态绘本包含的对象的脸部关键点。在应用之前，可以对人脸检测器进行训练，采集大量绘本，使人脸检测器检测大量绘本中包含的对象的脸部框，采用face-of-art方法根据脸部框提取对象的关键点。在一具体实施方式中，对象为静态绘本中的人物，预设部位为人脸，可以使用人脸检测器检测出人脸面部框，提取若干个人脸面部框中的关键点，得到若干个人物的参考关键点位置信息。

S432：对于各文本，将文本对应的对象和语音数据作为目标对象和目标语音，基于目标对象的参考关键点位置信息以及目标语音，得到目标对象的多个关键点在播放目标语音过程中的位置变化情况，基于目标对象对应的位置变化情况，确定目标对象的画面变化内容。

在一实施方式中，目标对象对应的位置变化情况包括目标对象的若干组关键点位置偏移量，不同组关键点位置偏移量对应目标语音的不同时间片段，每组关键点位置偏移量包括目标对象的多个关键点对应时间片段的位置偏移量。具体地，一段目标语音可以分为多个时间片段，每一个时间片段可以为一个语音帧，也可以为多个语音帧，一个时间片段可以对应一组关键点位置偏移量。

在一具体实施方式中，目标对象可以为人物，使用人脸检测器检测静态绘本中该目标对象的人脸面部框，提取若干个参考关键点，得到参考关键点位置信息。使用语音特征提取模型提取目标语音的语音特征，语音特征可以为MFCC(Mel-scale FrequencyCepstral Coefficients，梅尔倒谱系数)特征，也可以为deepspeech特征。

进一步地，将目标对象的参考关键点位置信息、语音特征、参考因子输入位置预测网络，得到目标对象的若干组关键点位置偏移量。其中，参考因子包括噪声和目标对象对应的文本的情感类别的编码特征，噪声表示目标对象说话时头部运动和预设部位中的神态情况，不同情感类别对应预设部位的不同运动模板。不同运动模板即表示在某个情绪类别下，预设部位的形态，例如，情绪类别为惊讶，预设部位为脸部时，则脸部中的眼睛和嘴巴睁大。

在一实施方式中，可以将目标语音分成不同的时间片段，将一个时间片段的语音特征、多个参考关键点位置信息、噪声以及情感类别的编码特征输入位置预测网络，得到目标对象的多个关键点在播放一个时间片段的目标语音后相对于参考关键点位置信息的偏移量。输入目标语音包含的所有时间片段，即可得到多组关键点位置偏移量。其中，参考关键点位置信息可以为目标对象的关键点在静态绘本中所处的位置。位置预测网络可以为循环神经网络中的GRU(Gate Recurrent Unit)，或LSTM(Long-Short Term Memory，长短期记忆)，也可以为transformer网络。

在一实施方式中，位置预测网络可以采用LSTM，并在序列层的后边追加两层全连接层，分别代表位置偏移量和情感类别。在实际应用过程中，可以检测输入位置预测网络的情感类别的编码特征与输出神经网络的情感类别是否一致，进行简要的判断。在实际应用之前，可以对位置预测网络进行训练，训练过程中，可使输出的情感类别强解耦输入的噪声和情感类别的编码特征，使得噪声仅与对象的头部运动和眼睛睁闭有关，情感类别的编码特征与表达的情绪状态有关。

请参阅图5，图5是步骤S432中确定目标对象的画面变化内容一实施方式的流程示意图；步骤S432还可以包括：

S5321：基于目标对象的参考关键点位置信息和对应时间片段的关键点位置偏移量，得到目标对象对应时间片段的区域信息。

在一实施方式中，目标对象的参考关键点位置信息可以为目标对象的参考关键点在静态绘本中的位置信息，将语音数据分为多个时间片段，目标对象在讲述一个时间片段的目标语音后，关键点的位置信息会发生变化，通过计算一个时间片段后关键点位置偏移量，得到目标对象对应时间片段的区域信息。在一具体实施方式中，区域信息包括目标对象的部位区域中至少部分像素点的位置偏移量；在另一具体实施方式中，区域信息包括目标对象的部位区域中至少部分像素点的位置偏移量和区域掩码，区域掩码表示目标部位图像中的预设区域的位置，预设区域在对应的参考部位图像中为内容不可见且在目标部位图像中为内容可见，例如，预设区域可以为牙齿区域，参考部位图像中的对象可以为嘴巴闭合的状态，目标部位图像中的对象可以为嘴巴张开的状态。

S5322：基于至少部分像素点的位置偏移量和目标对象的参考部位图像，得到目标对象对应时间片段的目标部位图像。

在一实施方式中，参考部位图像包含目标对象的预设部位，预设部位可以为脸部，利用至少部分像素点的位置偏移量对参考部位图像进行变形，生成目标对象的变形图像；此时生成的变形图像可能会存在部分区域的确实，如眼睛区域。因此，可以进一步利用变形图像、参考部位图像的特征信息、以及对应时间片段的关键点位置偏移量，得到目标对象对应时间片段的目标部位图像。其中，目标部位图像包含预设部位，目标对象对应不同时间片段的若干帧目标部位图像组成目标对象的画面变化内容；参考部位图像的特征信息可以为从静态绘本中的对象的预设区域提取的部分特征(如眼睛、嘴巴等区域的特征)，具体可以采用卷积神经网络提取参考部位图像的特征信息。

进一步地，在得到目标部位图像之后还可以对预设区域进行内容填补，其中，预设区域在对应的参考部位图像中为内容不可见且在目标部位图像中为内容可见，预设区域可以为牙齿，眼睛等区域。

请参阅图6，图6是本申请动画绘本生成方法第二实施方式的流程示意图；该方法包括：

S610：识别静态绘本中的若干对象以及若干文本。

S620：确定各对象以及各文本之间的对应关系。

其中，对应关系表示文本由与文本对应的对象讲述。

S630：生成各文本的语音数据，以及确定各文本对应的对象的画面变化内容。

其中，画面变化内容表示在播放文本对应的语音数据过程中对象的预设部位的变化。在一实施方式中，对象的画面变化内容包括对象关于预设部位的若干帧目标部位图像，不同帧目标部位图像对应语音数据的不同时间片段。

S640：对于各时间片段，将静态绘本的背景图与对应时间片段的目标部位图像进行拼接，得到对应时间片段的绘本帧。

在一实施方式中，可以在检测到的静态绘本的对象的预设部位中标记多个参考关键点，其中，预设部位可以为脸部。在脸部之外的背景区域扩充多个背景点，确定各参考关键点和各背景点之间的第一位置关系。在得到各个时间片段的目标部位图像之前，可以得到目标部位图像中的关键点相对于各参考关键点的偏移量。在得到各个时间片段的目标部位图像后，可以基于该偏移量拖动绘本中的背景图，使得静态绘本的背景图与对应时间片段的目标部位图像进行拼接，保证拼接后的背景图中的背景点与目标部位图像中的关键点之间的第二位置关系与第一位置关系相同。

S650：基于语音数据以及分别与语音数据的不同时间片段对应的若干绘本帧，生成动画绘本数据。

在一实施方式中，可以先将若干绘本帧进行整合得到一段影像，进一步将语音数据和得到影响结合，生成动画绘本数据。在另一实施方式中，也可以将各个时间片段的语音以及分贝对应的绘本帧结合，得到一个时间片段的动画绘本数据，进一步将多个时间片段的动画绘本数据结合，生成完整的动画绘本数据。

请参阅图7，图7是本申请动画绘本生成方法第三实施方式的流程示意图；该方法包括：

S710：识别静态绘本中的若干对象以及若干文本。

S720：确定各对象以及各文本之间的对应关系。

其中，对应关系表示文本由与文本对应的对象讲述。

S730：生成各文本的语音数据，以及确定各文本对应的对象的画面变化内容。

其中，画面变化内容表示在播放文本对应的语音数据过程中对象的预设部位的变化。

上述步骤S710-S730请参见动画绘本生成方法第一实施方式中的步骤S110-S130，在此不再赘述。

S740：获取所述对象的预设部位的多个关键点与预设数量个关联背景点之间的位置关系。

在一实施方式中，预设部位可以为脸部，在对象的脸部区域标记多个关键点，在脸部之外的区域扩充预设数量个背景点作为关联背景点，确定脸部关键点与关联背景点的位置关系。其中，关联背景点位于静态绘本中对象的预设部位边界的预设距离内；预设数量可以为10、20、30，在此不做限定。在一具体实施方式中，可以通过建立狄利克雷三角形确定脸部关键点与关联背景点的位置关系，可建立多个狄利克雷三角形，使每个三角形至少包含一个脸部关键点与关联背景点。

S750：对于各时间片段，将静态绘本的背景图与对应时间片段的目标部位图像进行拼接，得到对应时间片段的绘本帧。

S760：基于对象对应的位置关系，调整绘本帧中的关联背景点的位置。

在一实施方式中，基于步骤S740建立的狄利克雷三角形，拉动关联背景点移动，使得绘本帧中的目标部位图像的关键点与关联背景点之间的位置关系与静态绘本中对象的关键点与关联背景点之间的位置关系相同。

本实施方式，通过确定关键点和关联背景点之间的关系，使得背景图像与目标部位图像完美结合，进而使生成的动画生动自然。

请参阅图8，图8是本申请动画绘本生成方法第四实施方式的流程示意图；该方法包括：

S810：识别静态绘本中的若干对象以及若干文本。

S820：确定各对象以及各文本之间的对应关系，其中，对应关系表示文本由与文本对应的对象讲述。

S830：生成各文本的语音数据，以及确定各文本对应的对象的画面变化内容。

S840：基于语音数据和画面变化内容，生成静态绘本对应的动画绘本数据。

上述步骤S810-S840请参见动画绘本生成方法第一实施方式的步骤S110-S140，在此不再赘述。

S850：从静态绘本中选择至少一个对象，作为传话对象。

在生成动画绘本数据后，还可以选择静态绘本中的至少一个对象与阅读者对话，在一实施方式中，可以根据步骤S810检测到的对象所在的对象框的大小选择传话对象，在另一实施方式中，可以随机确定传话对象。

S860：基于预设内容和/或静态绘本中的文本内容，驱动对话对象与用户进行对话。

在一实施方式中，扫描的静态绘本为故事类绘本，则可以选取故事类绘本中检测到的对象框较大的对象作为传话对象，并选中某个时间片段，播放该时间片段对应的绘本动画数据与阅读者对话；还可以根据预设的内容，如一个简单的问题，提问阅读者。

在另一实施方式中，扫描的静态绘本为语言类绘本(如英语、拼音)，可以随机选取一个时间片段的语音数据，播放该语音数据，让阅读者跟读学习，指导阅读者的发音。

本实施方式通过引入一段简单的话或一个简小的故事，增加与阅读者的互动，可提高阅读者的学习兴趣。

请参阅图9，图9是本申请提供的动画绘本生成装置一实施方式的框架示意图。动画绘本生成装置90包括：识别模块91，确定模块92，综合模块93，生成模块94。识别模块91用于识别静态绘本中的若干对象以及若干文本；确定模块92确定各对象以及各文本之间的对应关系，其中，对应关系表示文本由与文本对应的对象讲述；综合模块93，综合模块用于生成各文本的语音数据，以及确定各文本对应的对象的画面变化内容，其中，画面变化内容表示在播放文本对应的语音数据过程中对象的预设部位的变化；生成模块94用于基于语音数据和画面变化内容，生成静态绘本对应的动画绘本数据。

其中，识别静态绘本中的若干对象以及若干文本，包括：对静态绘本进行对象检测，得到包含若干对象的检测结果；以及，对静态绘本进行文本识别，得到若干文本。

其中，确定各对象以及各文本之间的对应关系，包括：利用第一提取网络从静态绘本中提取各对象的图像特征；以及，对于各文本，利用第二提取网络从文本中提取文本的若干词向量，并将文本的若干词向量聚合得到文本的第一文本特征；利用关系识别网络对各对象的图像特征和各文本的第一文本特征进行判别，得到各文本与各对象之间的相似度；基于相似度，得到各对象以及各文本之间的对应关系。

其中，生成各文本的语音数据，包括：确定各文本对应的声音参考信息，其中，声音参考信息包括角色类别和情感类别中至少一者；基于声音参考信息，生成各文本的语音数据。

其中，确定各文本对应的声音参考信息，包括：从若干文本中抽取得到至少一个命名实体的实体特征；利用信息识别网络对各文本的第二文本特征和各命名实体的实体特征进行处理，得到各文本对应的声音参考信息；和/或，声音参考信息包括角色类别和情感类别，基于声音参考信息，生成各文本的语音数据，包括：基于文本对应的角色类别，确定文本对应的目标音色；基于文本对应的目标音色和情感类别，对文本进行语音合成，得到文本的语音数据。

其中，利用信息识别网络对各文本的第二文本特征和各命名实体的实体特征进行处理，得到各文本对应的声音参考信息，包括：基于各命名实体的实体特征，确定各命名实体之间的实体关系，以及基于各文本的第二文本特征，得到各文本之间的文本关系；基于实体关系和文本关系，确定各命名实体与各文本之间的对应关系，利用各命名实体与各文本之间的对应关，得到各文本对应的声音参考信息。

其中，确定各文本对应的对象的画面变化内容，包括：在静态绘本中检测出各对象的预设部位对应的部位区域，在对象的部位区域进行关键点提取，得到对象的参考关键点位置信息，其中，参考关键点位置信息包括对象的预设部位中多个关键点在静态绘本的位置信息；对于各文本，将文本对应的对象和语音数据作为目标对象和目标语音，基于目标对象的参考关键点位置信息以及目标语音，得到目标对象的多个关键点在播放目标语音过程中的位置变化情况，基于目标对象对应的位置变化情况，确定目标对象的画面变化内容。

其中，目标对象对应的位置变化情况包括目标对象的若干组关键点位置偏移量，不同组关键点位置偏移量对应目标语音的不同时间片段，每组关键点位置偏移量包括目标对象的多个关键点对应时间片段的位置偏移量；基于目标对象对应的位置变化情况，确定目标对象的画面变化内容，包括：对于各时间片段，基于目标对象对应时间片段的关键点位置偏移量，确定目标对象对应时间片段的目标部位图像；其中，目标部位图像包含预设部位，目标对象对应不同时间片段的若干帧目标部位图像组成目标对象的画面变化内容。

其中，基于目标对象的参考关键点位置信息以及目标语音，得到目标对象的多个关键点在播放目标语音过程中的位置变化情况，包括：提取目标语音的语音特征；利用位置预测网络对目标对象的参考关键点位置信息和语音特征进行处理，得到目标对象的若干组关键点位置偏移量；和/或，基于目标对象对应时间片段的关键点位置偏移量，确定目标对象对应时间片段的目标部位图像，包括：基于目标对象的参考关键点位置信息和对应时间片段的关键点位置偏移量，得到目标对象对应时间片段的区域信息，其中，区域信息包括目标对象的部位区域中至少部分像素点的位置偏移量；基于至少部分像素点的位置偏移量和目标对象的参考部位图像，得到目标对象对应时间片段的目标部位图像，其中，参考部位图像包含目标对象的预设部位。

其中，利用位置预测网络对目标对象的参考关键点位置信息和语音特征进行处理，得到目标对象的若干组关键点位置偏移量，包括：将目标对象的参考关键点位置信息、语音特征、参考因子输入位置预测网络，得到目标对象的若干组关键点位置偏移量，其中，参考因子包括噪声和目标对象对应的文本的情感类别的编码特征，噪声表示目标对象说话时头部运动和预设部位中的神态情况，不同情感类别对应预设部位的不同运动模板；基于至少部分像素点的位置偏移量和目标对象的参考部位图像，得到目标对象对应时间片段的目标部位图像，包括：利用至少部分像素点的位置偏移量对参考部位图像进行变形，生成目标对象的变形图像；利用变形图像、参考部位图像的特征信息、以及对应时间片段的关键点位置偏移量，得到目标对象对应时间片段的目标部位图像。

其中，区域信息还包括区域掩码，区域掩码表示目标部位图像中的预设区域的位置，预设区域在对应的参考部位图像中为内容不可见且在目标部位图像中为内容可见；在基于至少部分像素点的位置偏移量和目标对象的参考部位图像，得到目标对象对应时间片段的目标部位图像之后，方法还包括：对目标部位图像中的预设区域进行内容填补。

其中，对象的画面变化内容包括对象关于预设部位的若干帧目标部位图像，不同帧目标部位图像对应语音数据的不同时间片段；基于语音数据和画面变化内容，生成静态绘本对应的动画绘本数据，包括：对于各时间片段，将静态绘本的背景图与对应时间片段的目标部位图像进行拼接，得到对应时间片段的绘本帧；基于语音数据以及分别与语音数据的不同时间片段对应的若干绘本帧，生成动画绘本数据。

其中，在将静态绘本的背景图与对应时间片段的目标部位图像进行拼接，得到对应时间片段的绘本帧之前，方法还包括：获取对象的预设部位的多个关键点与预设数量个关联背景点之间的位置关系，其中，关联背景点位于静态绘本中对象的预设部位边界的预设距离内；在将静态绘本的背景图与对应时间片段的目标部位图像进行拼接，得到对应时间片段的绘本帧之后，方法还包括：基于对象对应的位置关系，调整绘本帧中的关联背景点的位置。

其中，预设部位为脸部；和/或，方法还包括：从静态绘本中选择至少一个对象，作为对话对象；基于预设内容和/或静态绘本中的文本内容，驱动对话对象与用户进行对话。

请参阅图10，图10是本申请提供的动画绘本生成设备一实施方式的框架示意图。

动画绘本生成设备100包括相互耦接的存储器101和处理器102，存储器101中存储有程序指令，处理器102用于执行程序指令以实现上述任一方法实施例中的步骤。具体地，动画绘本生成设备100可以包括但不限于：台式计算机、笔记本电脑、服务器、手机、平板电脑等等，在此不做限定。

具体而言，处理器102用于控制其自身以及存储器101以实现上述任一方法实施例中的步骤。处理器102还可以称为CPU(CentralProcessing Unit，中央处理单元)。处理器102可能是一种集成电路芯片，具有信号的处理能力。处理器102还可以是通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(ApplicationSpecificIntegrated Circuit,ASIC)、现场可编程门阵列(Field-ProgrammableGateArray,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。另外，处理器102可以由集成电路芯片共同实现。

请参阅图11，图11是本申请计算机可读存储介质一实施方式的框架示意图。计算机可读存储介质110存储有程序指令111，程序指令111被处理器执行时，用以实现上述任一方法实施例中的步骤。

计算机可读存储介质110具体可以为U盘、移动硬盘、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，Random AccessMemory)、磁碟或者光盘等可以存储计算机程序的介质，或者也可以为存储有该计算机程序的服务器，该服务器可将存储的计算机程序发送给其他设备运行，或者也可以自运行该存储的计算机程序。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(processor)执行本申请各个实施方式方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅为本申请的实施方式，并非因此限制本申请的专利范围，凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本申请的专利保护范围内。

Claims

1.一种动画绘本生成方法，其特征在于，包括：

识别静态绘本中的若干对象以及若干文本；

确定各所述对象以及各所述文本之间的对应关系，其中，所述对应关系表示所述文本由与所述文本对应的对象讲述；

生成各所述文本的语音数据，以及确定各所述文本对应的对象的画面变化内容，其中，所述画面变化内容表示在播放所述文本对应的语音数据过程中所述对象的预设部位的变化；

基于所述语音数据和所述画面变化内容，生成所述静态绘本对应的动画绘本数据。

2.根据权利要求1所述的方法，其特征在于，所述识别静态绘本中的若干对象以及若干文本，包括：

对所述静态绘本进行对象检测，得到包含所述若干对象的检测结果；以及

对所述静态绘本进行文本识别，得到所述若干文本。

3.根据权利要求1所述的方法，其特征在于，所述确定各所述对象以及各所述文本之间的对应关系，包括：

利用第一提取网络从所述静态绘本中提取各所述对象的图像特征；以及

对于各所述文本，利用第二提取网络从所述文本中提取所述文本的若干词向量，并将所述文本的若干词向量聚合得到所述文本的第一文本特征；

利用关系识别网络对各所述对象的图像特征和各所述文本的第一文本特征进行判别，得到各所述文本与各所述对象之间的相似度；

基于所述相似度，得到各所述对象以及各所述文本之间的对应关系。

4.根据权利要求1所述的方法，其特征在于，所述生成各所述文本的语音数据，包括：

确定各所述文本对应的声音参考信息，其中，所述声音参考信息包括角色类别和情感类别中至少一者；

基于所述声音参考信息，生成各所述文本的语音数据。

5.根据权利要求4所述的方法，其特征在于，所述确定各所述文本对应的声音参考信息，包括：

从所述若干文本中抽取得到至少一个命名实体的实体特征；

利用信息识别网络对各所述文本的第二文本特征和各所述命名实体的实体特征进行处理，得到各所述文本对应的声音参考信息；

和/或，所述声音参考信息包括角色类别和情感类别，所述基于所述声音参考信息，生成各所述文本的语音数据，包括：

基于所述文本对应的角色类别，确定所述文本对应的目标音色；

基于所述文本对应的目标音色和情感类别，对所述文本进行语音合成，得到所述文本的语音数据。

6.根据权利要求5所述的方法，其特征在于，所述利用信息识别网络对各所述文本的第二文本特征和各所述命名实体的实体特征进行处理，得到各所述文本对应的声音参考信息，包括：

基于各所述命名实体的实体特征，确定各所述命名实体之间的实体关系，以及基于各所述文本的第二文本特征，得到各所述文本之间的文本关系；

基于所述实体关系和文本关系，确定各所述命名实体与各所述文本之间的对应关系，利用各所述命名实体与各所述文本之间的对应关，得到各所述文本对应的声音参考信息。

7.根据权利要求1所述的方法，其特征在于，所述确定各所述文本对应的所述对象的画面变化内容，包括：

在所述静态绘本中检测出各所述对象的预设部位对应的部位区域，对所述对象的部位区域进行关键点提取，得到所述对象的参考关键点位置信息，其中，所述参考关键点位置信息包括所述对象的预设部位中多个关键点在所述静态绘本的位置信息；

对于各所述文本，将所述文本对应的对象和语音数据作为目标对象和目标语音，基于所述目标对象的参考关键点位置信息以及所述目标语音，得到所述目标对象的多个关键点在播放所述目标语音过程中的位置变化情况，基于所述目标对象对应的所述位置变化情况，确定所述目标对象的画面变化内容。

8.根据权利要求7所述的方法，其特征在于，所述目标对象对应的所述位置变化情况包括所述目标对象的若干组关键点位置偏移量，不同组所述关键点位置偏移量对应所述目标语音的不同时间片段，每组所述关键点位置偏移量包括所述目标对象的多个关键点对应所述时间片段的位置偏移量；

所述基于所述目标对象对应的所述位置变化情况，确定所述目标对象的画面变化内容，包括：

对于各所述时间片段，基于所述目标对象对应所述时间片段的关键点位置偏移量，确定所述目标对象对应所述时间片段的目标部位图像；其中，所述目标部位图像包含所述预设部位，所述目标对象对应不同所述时间片段的若干帧所述目标部位图像组成所述目标对象的画面变化内容。

9.根据权利要求8所述的方法，其特征在于，所述基于所述目标对象的参考关键点位置信息以及所述目标语音，得到所述目标对象的多个关键点在播放所述目标语音过程中的位置变化情况，包括：

提取所述目标语音的语音特征；

利用位置预测网络对所述目标对象的参考关键点位置信息和所述语音特征进行处理，得到所述目标对象的若干组关键点位置偏移量；

和/或，所述基于所述目标对象对应所述时间片段的关键点位置偏移量，确定所述目标对象对应所述时间片段的目标部位图像，包括：

基于所述目标对象的参考关键点位置信息和对应所述时间片段的所述关键点位置偏移量，得到所述目标对象对应所述时间片段的区域信息，其中，所述区域信息包括所述目标对象的部位区域中至少部分像素点的位置偏移量；

基于所述至少部分像素点的位置偏移量和所述目标对象的参考部位图像，得到所述目标对象对应所述时间片段的目标部位图像，其中，所述参考部位图像包含所述目标对象的所述预设部位。

10.根据权利要求9所述的方法，其特征在于，所述利用位置预测网络对所述目标对象的参考关键点位置信息和所述语音特征进行处理，得到所述目标对象的若干组关键点位置偏移量，包括：

将所述目标对象的参考关键点位置信息、所述语音特征、参考因子输入所述位置预测网络，得到所述目标对象的若干组关键点位置偏移量，其中，所述参考因子包括噪声和所述目标对象对应的文本的情感类别的编码特征，所述噪声表示所述目标对象说话时头部运动和预设部位中的神态情况，不同情感类别对应所述预设部位的不同运动模板；

所述基于所述至少部分像素点的位置偏移量和所述目标对象的参考部位图像，得到所述目标对象对应所述时间片段的目标部位图像，包括：

利用所述至少部分像素点的位置偏移量对所述参考部位图像进行变形，生成所述目标对象的变形图像；

利用所述变形图像、所述参考部位图像的特征信息、以及对应所述时间片段的所述关键点位置偏移量，得到所述目标对象对应所述时间片段的目标部位图像。

11.根据权利要求9所述的方法，其特征在于，所述区域信息还包括区域掩码，所述区域掩码表示所述目标部位图像中的预设区域的位置，所述预设区域在对应的参考部位图像中为内容不可见且在所述目标部位图像中为内容可见；

在所述基于所述至少部分像素点的位置偏移量和所述目标对象的参考部位图像，得到所述目标对象对应所述时间片段的目标部位图像之后，所述方法还包括：

对所述目标部位图像中的所述预设区域进行内容填补。

12.根据权利要求1所述的方法，其特征在于，所述对象的画面变化内容包括所述对象关于预设部位的若干帧目标部位图像，不同帧所述目标部位图像对应所述语音数据的不同时间片段；所述基于所述语音数据和所述画面变化内容，生成所述静态绘本对应的动画绘本数据，包括：

对于各所述时间片段，将所述静态绘本的背景图与对应所述时间片段的目标部位图像进行拼接，得到对应所述时间片段的绘本帧；

基于所述语音数据以及分别与所述语音数据的不同时间片段对应的若干绘本帧，生成所述动画绘本数据。

13.根据权利要求12所述的方法，其特征在于，在所述将所述静态绘本的背景图与对应所述时间片段的目标部位图像进行拼接，得到对应所述时间片段的绘本帧之前，所述方法还包括：

获取所述对象的预设部位的多个关键点与预设数量个关联背景点之间的位置关系，其中，所述关联背景点位于所述静态绘本中所述对象的预设部位边界的预设距离内；

在所述将所述静态绘本的背景图与对应所述时间片段的目标部位图像进行拼接，得到对应所述时间片段的绘本帧之后，所述方法还包括：

基于所述对象对应的所述位置关系，调整所述绘本帧中的所述关联背景点的位置。

14.根据权利要求1所述的方法，其特征在于，所述预设部位为脸部；和/或，

所述方法还包括：

从所述静态绘本中选择至少一个对象，作为对话对象；

基于预设内容和/或所述静态绘本中的文本内容，驱动所述对话对象与用户进行对话。

15.一种动画绘本生成装置，其特征在于，所述装置包括：

识别模块，所述识别模块用于识别静态绘本中的若干对象以及若干文本；

确定模块，所述确定模块确定各所述对象以及各所述文本之间的对应关系，其中，所述对应关系表示所述文本由与所述文本对应的对象讲述；

综合模块，所述综合模块用于生成各所述文本的语音数据，以及确定各所述文本对应的对象的画面变化内容，其中，所述画面变化内容表示在播放所述文本对应的语音数据过程中所述对象的预设部位的变化；

生成模块，所述生成模块用于基于所述语音数据和所述画面变化内容，生成所述静态绘本对应的动画绘本数据。

16.一种动画绘本生成设备，其特征在于，所述设备包括相互耦接的存储器和处理器，

所述存储器存储有程序指令；

所述处理器用于执行所述存储器中存储的程序指令，以实现权利要求1-14任一项所述的方法。

17.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质用于存储程序指令，所述程序指令能够被执行以实现如权利要求1-14任一项所述的方法。