CN117441192A

CN117441192A - 图像生成方法和装置

Info

Publication number: CN117441192A
Application number: CN202180099111.0A
Authority: CN
Inventors: 张准秀; 尹龙基; 裵龙泽; 崔在勳
Original assignee: Co Ltd Diandian Diandian
Current assignee: Co Ltd Diandian Diandian
Priority date: 2021-04-08
Filing date: 2021-11-26
Publication date: 2024-01-23
Also published as: US20220328070A1; WO2022215823A1; EP4071760A1; KR20220139781A; KR102345729B1; JP2024513515A

Abstract

本发明公开了一种图像生成方法以及装置。根据一实施例的图像生成方法包括以下步骤：获取语音数据、包括面部的面部图像数据，以及包括图像目的的输入数据；基于从所述面部图像数据提取的面部特征的运动以及所述语音数据，确定角色的运动；基于所述语音数据与所述目的，确定与所述角色对应的镜头；以及基于所述确定的镜头，生成与所述语音数据对应的图像。

Description

图像生成方法和装置

技术领域

下面的实施例涉及一种图像生成方法和装置，更具体地，涉及一种包括角色的图像生成方法以及装置。

背景技术

近年来，随着智能移动设备的发展，越来越多的用户使用社交网络服务(socialnetworking service，SNS)，也就是通过网络与他人互动的在线平台服务。SNS提供用于交换文本、照片、图像、语音等多种形式信息的社交网络功能，以使用户通过交流、信息共享、扩展人脉等方式建立和加强社会关系。目前，需要许多类型的社交网络服务技术使用户能够自由地展示个性和想法，并便捷地与其他用户交流。

发明内容

要解决的技术问题

下面的实施例旨在提供一种图像生成技术，其可基于用户输入生成运动的角色，并生成利用不同拍摄技术拍摄运动中角色的图像。

下面的实施例旨在提供一种图像生成技术，其自动生成用于生成图像的元素，并提供对自动生成元素的编辑功能。

然而，本发明要解决的技术问题并不受限于此，还可以存在其他待解决的技术问题。

解决问题的技术方法

根据一个方面的图像生成方法，可以包括以下步骤：获取语音数据、包括面部的面部图像数据，以及包括图像目的的输入数据；基于从所述面部图像数据提取的面部特征的运动以及所述语音数据，确定所述角色的运动；基于所述语音数据与所述目的，确定与所述角色对应的镜头；以及基于所述确定的镜头，生成与所述语音数据对应的图像。

确定所述镜头的步骤，可以包括以下步骤：基于所述语音数据中的发声区段，确定所述镜头的长度；以及基于所述目的，确定所述镜头的类型。

所述镜头类型可以分为与投影到所述镜头的角色大小对应的镜头大小，以及与投影到所述镜头的角色角度对应的镜头角度。

确定所述镜头的步骤，可以包括以下步骤：基于所述目的，确定多个镜头的序列，所述多个镜头包括不同镜头类型的多个镜头；根据所述语音数据的大小变化，将所述语音数据划分为多个发声区段；以及基于所述多个发声区段，确定所述多个镜头的长度。

确定所述多个镜头长度的步骤，可以包括以下步骤：基于所述目的以及所述多个发声区段，确定切换镜头的至少一个切换点；以及基于所述切换点，确定所述多个镜头的长度。

确定所述镜头的步骤，还可以包括以下步骤中的至少一个：基于用户输入，改变所述序列中镜头的顺序；基于用户输入，向所述序列添加至少一个镜头；基于用户输入，删除所述序列中至少一个镜头；基于用户输入，改变所述序列中镜头的类型；以及基于用户输入，改变所述序列中镜头的长度。

确定所述角色的运动的步骤，可以包括以下步骤：基于与所述语音数据对应的发音信息，确定所述角色的口型运动；以及基于对应于所述面部图像数据的多个帧提取的所述面部特征的运动，确定所述角色的面部元素的运动。

确定所述角色的运动的步骤，可以包括以下步骤：基于所述目的确定所述角色的表情；基于所述面部特征的运动以及所述语音数据，确定所述角色的面部元素的运动；以及将所述确定的角色表情与所述角色面部元素的运动相结合。

确定所述角色的表情的步骤，还可以包括基于用户输入，改变所述角色面部表情的步骤。

获取所述输入数据的步骤，还可以包括从所述面部图像数据中提取所述面部特征的运动的步骤，所述面部特征的运动包括瞳孔运动、眼睑运动、眉毛运动，以及头部运动中的至少一种。

所述角色可以包括：第一角色，基于从所述面部图像数据中的第一面部图像数据获得的第一面部特征的运动，以及所述语音数据中的第一语音数据来确定运动；以及第二角色，基于从所述面部图像数据中的第二面部图像数据获得的第二面部特征的运动，以及所述语音数据中的第二语音数据来确定运动。

确定所述镜头的步骤可以包括以下步骤：基于所述语音数据中的第一语音数据、所述语音数据中的第二语音数据，以及所述目的，确定对应于所述第一角色以及所述第二角色的镜头。

确定所述镜头的步骤可以包括以下步骤：基于所述目的，确定所述镜头中的所述第一角色和所述第二角色的布置。

确定所述角色运动的步骤还可以包括以下步骤：基于所述目的、所述第一语音数据，以及所述第二语音数据中的至少一个来确定所述第一角色以及所述第二角色之间的交互；以及基于所述确定的交互，确定所述第一角色的运动以及所述第二角色的运动。

所述语音数据可以包括从第一用户终端获得的第一语音数据；以及从第二用户终端获得的第二语音数据。

所述面部图像数据可以包括从所述第一用户终端获得的第一面部图像数据，以及从所述第二用户终端获得的第二面部图像数据。

根据一方面，提供一种图像生成装置可以包括至少一个处理器，所述处理器可以执行以下步骤：获取语音数据、包括面部的面部图像数据，以及包括图像目的的输入数据；基于从所述面部图像数据提取的面部特征的运动以及所述语音数据，确定角色的运动；基于所述语音数据与所述目的，确定与所述角色对应的镜头；以及基于所述确定的镜头，生成与所述语音数据对应的图像。

所述处理器在确定所述镜头时，可以基于所述目的，确定多个镜头的序列，所述多个镜头包括不同镜头类型的多个镜头；根据所述语音数据的大小变化，将所述语音数据划分为多个发声区段；以及基于所述多个发声区段，确定所述多个镜头的长度。

所述处理器在确定所述镜头时，还可以执行以下步骤中的至少一个：基于用户输入，改变所述序列中镜头的顺序；基于用户输入，向所述序列添加至少一个镜头；基于用户输入，删除所述序列中至少一个镜头；基于用户输入，改变所述序列中镜头的类型；以及基于用户输入，改变所述序列中镜头的长度。

所述处理器在确定所述角色的运动时，可以基于所述目的确定所述角色的表情；基于所述面部特征的运动以及所述语音数据，确定所述角色的面部元素的运动；以及将所述确定的角色表情与所述角色面部元素的运动相结合。

所述处理器在确定所述角色的表情时，可以基于用户输入，改变所述角色面部表情。

附图说明

图1是根据一实施例的图像生成方法的操作流程图。

图2是根据一实施例的与角色相对应的不同面部表情的示例图。

图3是根据一实施例的对应于图像目的确定的不同类型镜头的示例图。

图4是根据一实施例的音量随时间变化的示例图。

图5至图9是根据一实施例的用于编辑所确定镜头的接口的示例图。

图10是说明根据一实施例的图像生成系统结构的框图。

具体实施方式

对实施例的特定结构或功能的说明仅作为示例，实施例可以实现为不同形式。实际实现方式并不受限于公开的特定实施例，本说明书的范围包括通过实施例说明的技术思想内的所有变更、其等同物乃至其替代物。

第一或第二等术语可用于说明不同的构成要素，但仅用于将一个构成要素区别于其他构成要素。例如，第一构成要素可以被命名为第二构成要素，类似地，第二构成要素同样可以被命名为第一构成要素。

当说明一个构成要素“连接”另一个构成要素时，可以是直接连接或接触其他构成要素，也可以是在它们之间存在其他构成要素。

在内容中没有特别说明的情况下，单个型表达包括多个型含义。在本说明书中，“包括”或者“具有”等术语用于表达存在说明书中所记载的特征、数字、步骤、操作、构成要素、配件或其组合，并不排除存在或者额外附加有至少一个其他特征、数字、步骤、操作、构成要素、配件或其组合的可能性。

在没有其他定义的情况下，包括技术或者科学术语在内的本文使用的全部术语都具有本领域普通技术人员所理解的通常含义。通常使用的如词典定义的术语应理解为相关技术内容中的含义，在本说明书中没有明确定义的情况下，不能解释为理想化或过于形式化的含义。

下面将参照附图详细说明实施例。在参照附图进行说明的过程中，与附图编号无关，相同的构成要素使用相同的附图标记，并省略重复说明。

图1是根据一实施例的图像生成方法的操作流程图。

参照图1，根据一实施例的图像生成方法可以包括以下步骤：步骤110，获取输入数据；步骤120，确定角色；步骤130，确定角色的运动；步骤140，确定对应于角色的镜头，以及步骤150，生成对应于语音数据的图像。

根据一实施例的图像生成方法可以由图像生成系统的至少一个处理器执行。图像生成系统是处理语音数据、包括面部的面部图像数据，以及包括图像目的的输入数据，由此来输出与输入数据相对应的图像的系统，其可以由至少一个处理器驱动。在下文中，图像生成系统可以简称为系统。

根据一实施例，图像生成系统可以实现为装置，实现图像生成系统的装置可以包括用户终端(例如，手机、计算机)和服务器。用户终端可以包括用户接口，其从用户接收输入数据并通过处理输入数据来向用户提供图像。用户终端可以通过网络可操作地连接到服务器。在下文中，用户终端可以简称为终端。根据一实施例的图像生成方法的操作可以由构成系统中的终端或服务器的处理器来执行。根据一实施例的图像生成系统的具体结构将参考图10详细说明。

根据一实施例的步骤110可以包括获取语音数据、包括面部的面部图像数据，以及包括图像目的的输入数据的步骤。语音数据可以对应于通过用户发出声音所生成的声音信号。面部图像数据是包括至少一个面部的图像数据，其可以包括静止图像和动态视频。在下文中，面部图像数据的示例为视频，但并不受限于此。

根据一实施例的面部图像数据和语音数据可以是在时间轴上同步的数据。例如，所获得的面部图像数据可以是拍摄说话用户面部的视频，而所获得的语音数据可以是与面部图像数据的时间轴同步的说话用户的语音信号。

图像目的涉及所创建的图像主题或风格，例如可以包括真切主张、坚定意志、客观分析、浪漫对话、争论、愉快对话、激动人心的事件、可怕的对话、感激之情、悲伤经历、尴尬情况、不公平事件。

根据一实施例，可以通过供用户输入的用户接口来获取输入数据。例如，用户可以通过安装在用户终端上的应用程序提供的用户接口来拍摄视频，并由此输入语音数据以及面部图像数据。例如，可以通过安装在用户终端上的应用程序所提供的用户接口向用户提供图像目的，该图像目的是预先确定的可选为图像目的的选项，用户从预先确定的图像目的选项中选择至少一个，由此来得到图像目的。

根据一实施例的步骤120至步骤140可包括基于获得的输入数据设置生成图像的参数的步骤。生成图像的参数是用于确定图像中包括的至少一个元素的因素，例如，可以包括角色外形相关参数、角色运动相关参数，以及镜头相关参数，但不限于此。

根据一实施例，在步骤110中获得的输入数据可以包括确定角色外形的用户选择输入。根据一实施例，步骤120可以包括基于步骤110中获得的角色外形相关用户选择输入来确定角色的步骤。确定角色可以是指确定角色外形参数值。角色外形参数值可以包括角色外形的每个外形元素(例如，发型、脸型、体型、肤色、眉毛、眼睛、鼻子、嘴巴、衣服)所对应的参数值。可以基于角色外形参数值来确定角色的视觉外观。

根据一实施例，可以基于根据用户选择输入确定的角色外形来确定角色的不同外形参数。例如，可以基于用户选择输入来确定角色类型参数值(例如外星人、动物、人类)、角色风格参数值(例如日漫风格、美漫风格)，以及角色服装参数值。

根据一实施例，可以对应于角色外形元素向用户提供多个预定候选，用户可以从对应于每个元素提供的多个候选中选择任一个来确定角色外形元素的参数值。例如，用户可以从接口提供的多种发型、多种脸型、多种眼睛形状、多种肤色、多种服装中选择任一个来确定角色外形元素的参数值。根据一实施例，多个候选中可以包括其他用户创建角色的外形元素。

根据一实施例，步骤120可以包括基于从步骤110中获得的面部图像数据中提取的面部特征来确定角色的步骤。换句话说，可以基于从面部图像数据提取的面部特征来确定角色。根据一实施例，面部特征是在面部图像中识别出的面部元素的特征，例如根据面部轮廓、眼睛、鼻子、嘴巴以及眉毛的特征点位置获得的瞳孔位置、眉毛形状以及头部方向。可以基于各种面部识别算法或面部特征提取算法从面部图像数据中提取面部特征。

根据一实施例，可以基于从面部图像数据提取的面部特征来确定角色外形参数值。例如，可以根据提取的眉形来确定角色眉毛元素参数值、可以根据提取的头部方向确定角色头部元素参数值，以及根据提取的瞳孔位置来确定角色眼睛元素参数值。

根据一实施例，除了从面部图像数据提取的面部特征之外，还可以基于其他特征来确定角色。例如，可以根据从面部图像数据提取的性别、肤色、脸型、发型等特征来确定角色外形参数值。

根据一实施例，可以通过用户输入来改变从面部图像数据提取的面部特征或基于其他特征确定的参数值。例如，可以基于用户选择输入来改变已经确定的角色眉毛形状、性别、肤色、脸型和发型。

根据一实施例，步骤130可以包括基于从面部图像数据提取的面部特征的运动和语音数据来确定角色运动的步骤。根据一实施例，面部特征的运动可以包括对应于面部图像数据的多个帧提取的至少一个面部特征随时间的位置变化以及形状的变化。例如，包括瞳孔位置变化的瞳孔运动、包括眨眼运动的眼睑运动、包括眉毛高度变化与角度变化的眉毛运动，以及包括头部方向变化的头部运动。

根据一实施例，可以基于从步骤110中获得的面部图像数据中提取的面部特征的运动以及从步骤110中获得的语音数据，确定角色的运动。角色的运动是指整个角色或角色的一部分的位置和/或样态随时间的变化，可以包括与从面部图像数据提取的面部特征的运动相对应的运动。例如，角色的运动可以包括与面部特征的运动对应的角色本身、角色的眉毛、瞳孔、眼睑、手臂、腿或嘴的位置和/或样态随着时间的运动。

根据一实施例的步骤130包括基于对应于步骤110中获得的语音数据的发音信息，确定角色口型运动的步骤；以及基于对应于步骤110中获得的面部图像数据的多个帧提取的面部特征的运动，确定角色面部元素运动的步骤。

根据一实施例，可以预先确定与发音信息对应的口型。例如，可以预先确定对应于发音[a]的第一口型，可以参考发出该声音时的实际口型来确定。

根据一实施例，可以语音识别步骤110中获得的语音数据，获得与语音数据的各帧相对应的发音信息。可以基于对应于发音信息预先确定的口型，确定与每一帧的发音信息对应的口型，并将对应于每一帧确定的口型按照帧的时间顺序连接，由此生成口型运动。

根据一实施例，可以基于对应于面部图像数据的多个帧提取的面部特征运动来确定角色面部元素的运动。例如，可以基于对应于多个帧提取的瞳孔位置变化来确定角色的瞳孔运动，基于对应于多个帧提取的头部方向变化来确定角色的头部运动。在这里，面部元素可以包括除了口型之外的角色面部的眉毛、眼睛等面部元素。

根据一实施例，步骤130可以包括以下步骤：基于获得的目的确定角色的表情；基于获得的面部特征运动和语音数据确定角色的面部元素运动；以及将确定的角色表情和确定的角色面部元素运动相结合。在这里，面部元素可以包括口型。

根据一实施例，可以对应于步骤120中确定的角色，预先确定不同表情的多个角色面部形象。例如，参照图2，可以确定与所确定的角色相对应的多个表情的角色面部形象201至205。

根据一实施例，可以通过将与特定表情相对应的角色面部形象与基于与语音数据的发音信息相对应确定的口型运动相结合来生成用特定表情说话的角色运动。

根据一实施例，可以根据结合后的表情来校正口型的部分参数。例如，参照图2，当与微笑表情202结合时，可以将根据发声信息确定其运动的口型参数校正为嘴张得更大或嘴角更加上扬的形式。当与愤怒表情201结合时，可以将根据发声信息确定其运动的口型参数校正为嘴进一步向两侧张开的形式。

根据一实施例，可以通过将与特定表情相对应的角色面部形象和基于提取的面部特征运动确定的瞳孔运动相结合来生成与获得的面部图像数据相对应的角色的运动。

根据一实施例，基于图像目的确定的角色表情可以包括多个表情。换句话说，角色的表情可以包括具有多个表情的表情序列。例如，可以将角色的表情确定为面部图像数据或语音数据的第一帧至第二帧为第一表情；第三帧到第四帧为第二表情。

再次参照图1，根据一实施例的步骤140可以是基于在步骤110中获得的语音数据和图像目的来确定与角色相对应的镜头的步骤。镜头是拍摄的基本单位，是指一次拍摄的一个场景，镜头类型包括基于投影的被拍摄主体大小的镜头大小类型(例如特写镜头、半身镜头、全景镜头、远景镜头)；以及基于投影到镜头的被拍摄主体角度的镜头角度类型(例如鸟瞰镜头、高角度镜头、平视镜头、低角度镜头)。除此之外，还有许多镜头类型，例如，基于包含在镜头内的被拍摄主体数量的类型(例如，单人镜头、双人镜头、三人镜头、集体镜头)；基于相机操作的类型(例如摇摄镜头、俯仰镜头、变焦镜头)、基于相机移动的类型(例如移动镜头、跟踪镜头、弧线镜头、空中镜头)。根据一实施例，被拍摄主体可以是在步骤120至步骤130中确定其运动的角色，并且所确定的镜头可以对应于在虚拟空间中利用虚拟相机拍摄运动中角色的场景。

根据一实施例的步骤140可以包括基于获得的语音数据中的发声区段确定镜头长度的步骤；以及基于获得的目的，确定镜头类型的步骤。

根据一实施例，确定镜头的步骤140可以包括基于图像目的确定多个镜头序列的步骤；基于语音数据的大小变化，将语音数据划分为多个发声区段的步骤；以及基于多个发声区段，确定多个镜头的长度的步骤。

根据一实施例的步骤140可以包括确定包括与目的相对应的至少一个镜头的镜头序列的步骤。镜头序列可以包括一个镜头或固定顺序的多个镜头。镜头序列中的多个镜头可以包括不同镜头类型的多个不同镜头。例如，镜头序列中的多个镜头可以包括镜头大小和镜头角度中至少一个不同的多个镜头。

根据一实施例，可以基于拍摄用于相应目的图像时使用的镜头来确定对应于目的的镜头序列。例如，参照图3，当图像目的是“采访”时，可以对应于“采访”目的来确定包括拍摄“采访”目的的图像时所使用的四个镜头的镜头序列。镜头序列中包括的多个镜头可以是不同类型的镜头。镜头序列中的多个镜头可以包括镜头大小和镜头角度中的至少一个彼此不同的第一类型镜头至第四类型镜头。例如，镜头301和镜头302的镜头大小相同，都是拍摄被拍摄主体的上半身，但拍摄角度不同，镜头301是从正面拍摄，而镜头302是从侧面拍摄。又例如，镜头301和镜头303都是从正面拍摄被拍摄主体，镜头的角度相同，但镜头的大小不同，镜头303拍摄到被拍摄主体的脖子，而镜头301拍摄到被拍摄主体的胸部。

根据一实施例，可以基于语音数据中的发声区段来确定镜头序列中多个镜头的长度。发声区段是语音数据中持续发声的区间，例如，一个发声区段可以是从语音数据中识别的开始发声的起点到相应发声结束的终点之间的区间，或者从语音数据中识别的开始发声的起点到相应发声的下一发声起点之间的区间。

根据一实施例，可以基于所获得的语音数据的音量随时间的变化来识别语音数据中的发声起点或终点。例如，图4示出了与获得的语音数据相对应的音量随时间变化的图表。参照图4，可以基于音量变化来识别发声的起点或终点，并且可以将语音数据划分为以所识别的发声起点或终点为边界的发声区段411至415。发声起点或终点的非限制性示例有声音信号的大小突然改变的点、声音信号的大小减小到阈值以下的点，以及声音信号的大小增加到阈值以上的点。另外，可以使用语音数据的语音识别结果将文章的开始点和结束点确定为发声的起点或终点。

根据一实施例，特定发声的起点可以与前一发声的终点相同，也可以在前一发声的终点之后。例如，当所识别的特定发声的起点与前一发声的终点之间的时间间隔小于预定阈值时，则认为特定发声的起点和前一发声终点相同。例如，参照图4，对应于区段412的发声终点403和对应于区段413的发声起点403可被确定为相同点。同时，可以将对应于区段413的发声终点404和对应于区段415的发声起点405确定为不同的点，此时，区段414可以不包括发声的声音信号，但区段414也属于发声区段。

根据一实施例，镜头的长度可以包括至少一个发声区段。例如参照图4，当确定了包括两个镜头的镜头序列时，时间上靠前的第一镜头的长度可以确定为从语音数据的起点401到点402、点403，点404，以及点405中任一个的长度。换句话说，第一镜头的长度可以被确定为包括从起点401到1个至4个中任一数量的区间的长度。在镜头序列中，第一镜头之后的下一个镜头，即第二镜头的长度可以被确定为包括从第一镜头的终点到语音数据的终点406之间的1个至4个中任一数量的区间的长度。

根据一实施例，确定多个镜头的长度的步骤包括基于图像目的以及多个发声区段，确定切换镜头的至少一个切换点的步骤；以及基于所确定的切换点，确定多个镜头的长度的步骤。语音数据中的发声区段的边界可以是切换镜头的切换点。确定的切换点个数可以对应于镜头序列中的镜头个数。例如，镜头序列中按照时间顺序的第一个镜头可以是语音数据的起点到按照时间顺序的第一个切换点之间的长度，而第二个镜头的长度可以是从第一个切换点到第二个切换点之间的长度。最后一个镜头的长度可以是从前一镜头的终点到语音数据终点之间的长度。

根据一实施例，可以基于获得的图像目的来确定镜头序列中的镜头数量和从语音数据中确定的切换点数量。例如，如果图像目的是表达生动感时，则所确定的镜头序列中的镜头数量和语音数据中的切换点数量应使得可以切换更多的镜头。

根据一实施例，镜头之间的长度可以是任意的，也可以基于图像目的来确定。例如，根据图像目的，可以确定语音数据中的切换点使得在镜头序列中的多个镜头的长度类似。如上所述，语音数据中的切换点可以是语音数据中发声区段之间的边界。又例如，根据图像目的，可以确定语音数据中的切换点使得镜头序列的多个镜头中每个所包括的发声区段的数量相同。又例如，可以根据图像目的来确定镜头序列中多个镜头之间的长度比率，并且语音数据中的切换点可以依照所确定的比率。

根据一实施例，可以基于获得的图像目的来确定镜头中角色的姿势和姿势运动。例如，当图像目的为“采访”时，角色的姿势可以是坐姿，而姿势运动可以包括坐姿下说话时做出的手势。

根据一实施例，可以基于获得的图像目的来确定镜头中的背景和道具。例如，当图像目的为“采访”时，可以设置对应于采访空间的背景，并且可以将椅子或相机作为道具包括在镜头中。

根据一实施例，可以基于规则模型来确定与图像目的相对应的镜头。例如，可以基于预定规则确定与特定目的对应的镜头集合或者与特定目的对应的镜头序列。当基于预定规则确定对应于特定目的的镜头集合时，可以基于预定规则确定镜头之间的顺序。镜头之间的顺序可以任意确定，或者可以基于镜头之间的预定优先级来确定。

根据一实施例，可以基于统计模型来确定与图像目的相对应的镜头。统计模型是基于统计概率来输出与特定目的的图像相对应的镜头集合或镜头序列的模型，其中，统计概率可以是特定目的的图像中镜头出现的频率，或在特定目的的图像中第一镜头之后出现第二镜头的概率。

根据一实施例，可以基于学习模型来确定与图像目的相对应的镜头。学习模型是通过学习图像数据中的图像目的以及图像数据中使用的镜头类型，由此在输入图像目的时输出对应于所输入目的的镜头集合或镜头序列的模型。学习模型可以包括深度学习模型，并且可以配置多种方式的深度学习模型。可以基于学习模型的结构以不同学习方法进行学习。

根据一实施例，当基于第一模型确定对应于特定目的的镜头集合时，镜头之间的顺序可以是任意的，也可以基于第二模型来确定。换句话说，确定与特定目的对应的镜头集合的方法和确定镜头顺序的方法可以使用不同模型。例如，可以使用基于统计的第一模型来确定对应于特定目的的镜头集合，并使用基于规则的第二模型来确定镜头的顺序。

根据一实施例，可以基于规则模型、统计模型，以及学习模型中的至少一个来确定镜头序列中的镜头长度。可以基于确定镜头序列的模型中的语音数据来确定镜头序列中的镜头长度，或者可以基于独立于确定镜头序列的模型而构建的模型中的镜头序列和语音数据来确定镜头序列中的镜头长度。

根据一实施例，可以基于规则模型、统计模型，以及学习模型中的至少一个来确定与图像目的相对应的镜头中的元素。镜头中的元素可以包括镜头中角色姿势或姿势运动、镜头背景或道具。

根据一实施例，所确定的镜头和镜头中元素可以根据用户输入而改变。例如，可以基于用户输入改变已确定的镜头序列的顺序，镜头序列中的镜头类型，已确定的镜头长度，还可以增加或删除镜头序列中的镜头。另外，可以基于用户输入改变镜头中的角色外形、表情和姿势，以及镜头中的背景和道具。对此，将参照图5至图9详细说明根据一实施例的基于用户输入来改变已确定镜头以及其中元素的操作。

再次参照图1，根据一实施例的步骤150可以包括基于已确定镜头生成与语音数据相对应的图像的步骤。根据一实施例，可以基于已确定镜头来生成包括已确定运动的角色的图像。生成的图像是按照根据已确定镜头序列的镜头类型确定的长度顺序，对根据已确定运动来实现运动的角色进行拍摄的图像。

根据一实施例，可以一起输出生成的图像与输入的语音数据，并且生成的图像可以对应于在时间轴上与语音数据同步的图像。例如，所生成的图像可以包括发出与语音数据相对应的声音的角色。

根据一实施例，可以对输入的语音数据进行预处理来去除语音之外的噪声等，还可以进行调制来改变声音。

根据一实施例的图像生成方法可以包括生成包括多个角色的图像的步骤。为了便于说明，下文中的“多个”是指“两个”，生成包括两个角色的图像的操作可以应用于生成2个以上角色的图像的操作。

根据一实施例，多个角色可以包括第一角色和第二角色，其中，第一角色基于从第一面部图像数据获得的第一面部特征的运动，以及第一语音数据来确定运动；第二角色基于从第二面部图像数据获得的第二面部特征的运动，以及第二语音数据中的第二语音数据来确定运动。这里，第一面部图像数据和第一语音数据可以是从第一用户终端获得的输入数据；而第二面部图像数据和第二语音数据可以是从第二用户终端获得的输入数据。

根据一实施例，可以基于从第一用户终端获得的用于确定角色外形的选择输入来确定第一角色外形；可以基于从第二用户终端获得的用于确定角色外形的选择输入来确定第二角色外形。

例如，图像生成系统接收的输入数据可以包括第一用户终端和第二用户终端的实时视频通话数据。此时，可以通过第一用户终端接收第一用户终端拍摄的第一面部图像数据和通过第一用户终端接收的作为用户语音的第一语音数据；并且可以通过第二用户终端接收第二用户终端拍摄的第二面部图像数据和通过第二用户终端接收的作为用户语音的第二语音数据。

根据一实施例，由图像生成系统接收的输入数据可以包括从第一用户终端接收的第一输入数据和从第二用户终端接收的与第一输入数据相关的第二输入数据。例如，当基于从第一用户终端接收的第一输入数据生成包括第一角色的第一图像时，第二用户可以从终端接收与第一图像相对应的第二输入数据，并且，可以基于第二输入数据来生成接续第一图像的第二图像。第二图像可以基于第二输入数据，第一图像中的第一角色的运动，以及第一图像中的其他元素来确定。例如，当第一图像包括坐在长凳上说话的第一角色时，则生成的第二图像可以包括坐在第一角色旁边说话的第二角色。

根据一实施例，确定角色运动的步骤130还可以包括基于图像目的、第一语音数据，以及第二语音数据中的至少一个来确定第一角色和第二角色的交互的步骤；以及基于所确定的交互，确定第一角色的运动和第二角色的运动的步骤。交互可以指多个角色的相互作用或接触等行为，例如对话、握手、拥抱等。

根据一实施例，可以基于获得的图像目的来确定第一角色和第二角色之间的交互。例如，可以针对每个图像目的预先确定多个交互候选。例如，以“浪漫对话”为目的时，牵手、拥抱等交互可以被确定为交互候选；以“讨论”为目的时，握手等交互可以被确定为交互候选。

根据一实施例，可以基于获得的语音数据来确定第一角色和第二角色之间的交互。可以预先确定针对特定词语的交互，当从语音数据中识别到相应词语时可确定与其对应的交互。例如，当在获得的第一语音数据或第二语音数据中识别到“爱你”时，可以确定拥抱交互。

根据一实施例，可以根据所获得的图像目的，对所识别的词语确定不同的交互。例如，在第一目的中，当识别到第一词语时对应第一交互；而在第二目的中，识别到相同的第一词语时可以确定与第一交互不同的第二交互。根据一实施例，可以基于在语音数据中识别的词语来选择对应于图像目的的预先确定的多个交互候选中的任一个。

根据一实施例，可以基于用户输入来确定第一角色和第二角色之间的交互。用户可以通过接口输入请求来确定第一角色和第二角色之间交互。例如，可以通过选择第一角色和第二角色之间的预定交互候选中的任一个来输入请求，由此确定第一角色和第二角色之间的交互。如上所述，可以基于图像目的来预先确定第一角色和第二角色之间的交互候选。

根据一实施例，确定镜头的步骤140可以包括基于第一语音数据、第二语音数据，以及图像目的来确定与第一角色和第二角色相对应的镜头的步骤。在确定与第一角色和第二角色对应的镜头的步骤中，与第一角色和第二角色对应的镜头可以包括具有第一角色和第二角色中的至少一个的镜头。换言之，对应于第一角色和第二角色的镜头可以被设置为仅出现第一角色、仅出现第二角色、或者第一角色和第二角色同时出现。例如，以“讨论”为目的时，第一角色开始说话时可以确定从正面拍摄第一角色的镜头；第二角色开始说话时可以确定从正面拍摄第一角色的镜头。又例如，以“浪漫对话”为目的时，可以确定包括第一角色和第二角色的拍摄镜头。

根据一实施例，确定镜头的步骤140可以包括基于图像目的来确定包括在镜头中的第一角色和第二角色的布置的步骤。第一角色和第二角色的布置可以包括镜头中显示的第一角色和第二角色之间的位置关系以及第一角色和第二角色的构图。例如，基于图像目的，第一角色和第二角色可以面对面坐下、并排站立、第一角色站立而第二角色坐下望着第一角色，以及第一角色在第二角色身后逐渐靠近。

根据一实施例，可以基于图像目的来确定第一角色和第二角色之间的关系，并且可以基于所确定的关系来确定第一角色和第二角色的布置。例如，当第一角色和第二角色之间的关系是朋友或恋人时，第一角色和第二角色可以并排布置。

根据一实施例，可以基于图像目的来确定沟通类型或情景类型，并且可以基于所确定的沟通类型来确定第一角色和第二角色的布置。例如，当沟通类型或情景是买卖物品、共享信息或争吵打架时，第一角色和第二角色可以面对面布置；当情景类型是向图像观看者征求同意或判断时，第一角色和第二角色可以面向相同方向布置。

根据一实施例，可以基于图像目的来确定第一角色和第二角色之间的情感，并且可以基于所确定的情感类型来确定第一角色和第二角色的布置。例如，当情感类型为爱或感激时，第一角色和第二角色可以面对面布置；当情感类型为惊讶或恐惧时，可以布置成第一角色从后面逐渐靠近第二角色。

根据一实施例，可以基于获得的图像目的来确定第一角色和第二角色之间的布置。例如，可以对应于不同图像目的预先确定多个布置候选。例如，以“浪漫谈话”为目的时，可以确定并排坐在长凳上、面对面坐下或手牵手站立等布置候选。

根据一实施例，可以基于用户输入来确定第一角色和第二角色的布置。用户可以通过接口输入请求来确定第一角色和第二角色之间的布置。例如，可以通过选择第一角色和第二角色之间的预定布置候选中的任一个来输入请求，由此确定第一角色和第二角色之间的布置。如上所述，可以基于图像目的预先确定第一角色和第二角色之间的布置候选。

根据一实施例，步骤120至步骤140的操作可以同时执行，也可以依次执行。例如，确定角色的步骤120和确定角色运动的步骤130可以同时执行，并且可以在确定的角色上合成已确定角色的运动，从而在图像中包括运动中的角色。又例如，确定与角色相对应的镜头的步骤140可以与确定角色的步骤120以及确定角色运动的步骤130同时执行，可以通过确定镜头的步骤140确定以特定角度和特定大小拍摄任意角色的镜头序列，将基于步骤120以及步骤130确定的运动中的角色按照步骤140中确定的镜头序列拍摄，由此来生成图像。

图5至图9是根据一实施例的用于编辑确定镜头的接口的示例图。

参见图5，所确定的镜头序列可以包括多个镜头，并且多个镜头可以包括不同镜头类型的镜头。例如，第一镜头501是从正面拍摄到胸部的第一类型镜头；第二镜头502是从正面拍摄到膝盖位置的第二类型镜头。根据一实施例，所确定的镜头序列可以包括相同类型的多个镜头。例如，所确定的镜头序列中包括的第一镜头501和第三镜头503可以是相同类型镜头。

根据一实施例，所确定的镜头序列可以基于语音数据中的发声区段来确定镜头长度。如上所述，发生镜头切换的点511至514是被识别为发声起点或终点的点，相当于发声区段的边界。

根据一实施例，接口可以提供接口对象530，接口对象530用来改变对应于图像目的确定的多个镜头的序列，而用户可以基于接口对象530来改变所确定的镜头序列。根据一实施例的接口对象530可以是响应于用户输入来发送改变镜头序列的命令的接口对象。例如，可以响应于点击接口对象53的改变镜头的输入来改变镜头序列中的镜头顺序、镜头序列中的镜头类型，镜头序列中的镜头数量，以及镜头长度。

例如，基于选择图5的接口中的接口对象530的改变镜头输入，图5所示的镜头序列510可以改变为图6所示的镜头序列610。参照图6，可以根据改变镜头的输入来改变镜头序列610中的镜头的数量，镜头序列中的镜头类型。

再次参照图5，根据一实施例，可以通过接口对象530随机改变镜头序列。例如，可以从根据图像目的确定的镜头集合中随机选择部分镜头并随机确定顺序。又例如，可以从确定镜头序列的模型中输出多个镜头序列的候选，并且从输出的镜头序列候选中随机确定。又例如，可以随机地改变所确定的镜头序列中的镜头顺序。

根据一实施例，可以根据预定规则来通过接口对象530改变镜头序列。例如，可以从对应于图像目的确定的镜头集合中按照预定顺序选择一部分，由此来确定镜头序列。又例如，可以从确定镜头序列的模型输出多个镜头序列候选，并在输出的镜头序列候选中按照预定顺序确定。

根据一实施例，接口可以提供对应于图像目的确定的多个镜头集合520，并且用户可以基于所提供的镜头集合520来改变所确定的镜头序列结构。例如，用户可以通过接口从镜头集合520中选择镜头521，并输入改变镜头序列中镜头505的请求，响应于用户的变更输入来将镜头序列510改变为图7所示的镜头序列710。

又例如，用户可以通过接口输入请求来从镜头集合520中选择至少一个镜头并将其添加到镜头序列中的特定位置，并且响应于用户的添加输入，镜头序列510被改变为图8所示的镜头序列810。

根据一实施例，用户可以通过接口输入请求来改变所确定的镜头序列中的至少部分镜头的大小或角度。例如，用户可以通过选择镜头序列中的至少一个镜头来控制镜头中的角色大小，或者通过控制镜头中角色的角度来输入改变镜头大小或角度的请求。换言之，在镜头序列中，除了响应于图像目的而自动确定的镜头类型之外，还可以包括基于用户输入确定的特定类型的镜头。

根据一实施例，用户可以通过接口输入请求来删除所确定的镜头序列中的至少部分镜头。例如，用户可以选择镜头序列中的镜头并请求将其从镜头序列中删除，而用户选择的镜头即可从镜头序列中删除。由于删除了镜头序列中部分镜头，可以调整位于所删除镜头前后的镜头长度。

根据一实施例，接口可以提供调整根据图像目的确定的多个镜头的长度的功能。用户可以通过接口输入请求来基于镜头边界位置的变化改变所确定的镜头序列长度。镜头边界的位置可以改变为发声区段的边界，当用户输入的镜头边界的位置与发声区段的边界不对应时，可以根据磁效应将镜头边界位置更改为附近发声区段的边界。例如，用户可以通过接口输入请求来将镜头502和镜头503之间的边界的位置512改变为位置515，而镜头序列510响应于用户的变更输入改变为图9所示的镜头序列910。

根据一实施例，可以通过用户的选择输入来改变基于图像目的确定的角色表情或者与图像相对应的角色的多个表情序列。例如，用户可以通过选择通过接口提供的对应于角色的多个表情的选择输入，将对应于每一帧确定的表情改变为其他表情，并将不同的表情添加到表情序列中来确定对应于每一帧的表情。

根据一实施例，可以基于用户输入来确定与特定镜头相对应的视觉元素和听觉元素。例如，可以通过用户输入来设置或改变与全部镜头或部分镜头对应的角色姿势、道具、背景和文本等视觉元素。又例如，可以通过用户输入来设置或改变与全部镜头或部分镜头对应的背景音乐等听觉元素。

根据一实施例，可以通过选择由接口提供的多个候选中的部分候选的输入来确定基于用户输入设置或改变的元素。例如，可以通过接口提供角色的各种姿势的多个候选，用户可以选择角色姿势的多个候选中任一个来确定基于镜头确定的场景中角色的姿势或姿势序列。又例如，可以通过接口提供多个音效候选，并且用户可以通过从多个音效候选中选择要在特定时间点包括在图像中的音效来确定音效。

图10是说明根据一实施例的图像生成系统结构的框图。

参照图10，根据一实施例的图像生成系统可以被实现为装置，而实现图像生成系统的装置可以包括终端1010与服务器1020。换言之，根据一实施例的终端1010和服务器1020可以对应于执行上述图像生成方法的图像生成装置。图10所示的系统结构为本发明的一示例，包括在系统中的终端数量或服务器数量并不受限于图10。

根据一实施例的终端1010可以是实现为计算机装置的固定终端或移动终端。例如，终端1010可以包括智能手机(smart phone)、移动电话、计算机、膝上型计算机、数字广播终端、个人数字助理(Personal Digital Assistants，PDA)、便携式多媒体播放器(Portable Multimedia Player，PMP)和平板电脑。例如，用户终端可以使用无线或有线通信方式通过网络1030与服务器1020和/或其他电子装置通信。

根据一实施例的服务器1020可以是计算机装置或多个计算机装置，其通过网络1030与终端1010通信来提供命令、代码、文件、内容、服务等。通信方式不受限制，包括可以利用带有网络1030的通信网络(例如，移动通信网络、有线互联网、无线互联网、广播网络)的通信方式，以及设备之间的短距离无线通信方式。例如，网络1030可以是个域网(personal area network，PAN)、局域网(local area network，LAN)、校园网(campus areanetwork，CAN)、城域网(metropolitan area network，MAN)、广域网(wide area network，WAN)，宽带网络(broadband network，BBN)，互联网等网络中的至少任意一种网络。

根据一实施例，服务器1020可以向通过网络1030连接的终端1010提供安装应用程序的文件。此时，终端1010可以使用服务器1020提供的文件来安装应用程序。另外，终端1010可以利用其中的操作系统(Operating System，OS)以及至少一个程序(例如，浏览器或安装的应用程序)的控制访问服务器1020并接收服务器1020提供的服务或内容。例如，当终端1010通过控制应用程序来利用网络1030向服务器1020发出服务请求消息时，服务器1020向终端1010发送与服务请求消息相对应的代码，终端1010可以在应用程序的控制下根据代码配置并显示屏幕，由此向用户提供内容。

根据一实施例，终端1010和服务器1020可以包括存储器(1011、1021)、处理器(1013、1023)、通信模块(1015、1025)以及输入输出接口(1017、1027)。

处理器(1013、1023)可以执行上面参照图1至图9描述的至少一个步骤。例如，处理器1013或处理器1023可以执行上面通过图1至图9描述的步骤，或者，处理器1013执行上面通过图1至图9描述的一部分步骤，而处理器1023执行余下一部分步骤。处理器(1013、1023)可以通过执行基本算术、逻辑和输入输出操作来处理计算机程序的命令。可以利用存储器(1011、1021)或者通信模块(1015、1025)将命令提供给处理器(1013、1023)。

存储器(1011、1021)可以存储与上面参照图1至图9描述的图像生成方法相关的信息或者存储实现上面描述的图像生成方法的程序。存储器(1011、1021)是计算机可读记录介质并且可以是易失性存储器或非易失性存储器。例如，实现上述图像生成方法的程序可以包括用于浏览器或应用程序的代码，其中，浏览器或应用程序是服务器1020利用网络1030向终端1010提供文件来实现安装与运行。

根据一实施例的通信模块(1015、1025)可以使终端1010和服务器1020通过网络1030相互通信，并且可以与其他电子设备或其他服务器通信。例如，终端1010的处理器1013利用存储在存储器1011等记录装置中的程序代码生成的请求，该请求可以经由通信模块1015通过网络1030发送到服务器1020。例如，在服务器1020的处理器1023的控制下提供的控制信号、命令、内容、文件等可以经由通信模块1025和网络1030通过终端1010的通信模块1015被终端1010接收。例如，通过通信模块1015接收到的服务器1020的控制信号或命令等可以被发送到处理器1013或存储器1011，并且内容或文件可以存储在进一步包括终端1010的存储介质中。

输入输出接口(1017、1027)可以是与输入输出设备1019连接的手段。例如，输入装置可以包括键盘或鼠标等，而输出装置可以包括显示应用程序的通信会话的显示器等。又例如，输入输出接口1017可以是用于与触摸屏等输入输出集成设备连接的手段。更具体地，终端1010的处理器1013处理加载在存储器1011中的计算机程序命令时，可以在输入输出接口1017上显示利用服务器1020提供的数据构建的服务画面或内容。在通过输入输出设备1019从用户接收输入时，该输入以可由终端1010处理器1013通过输入输出接口1017处理的形式提供。

根据一实施例，终端1010和服务器1020可以包括图10中未示出的其他组件。例如，终端1010可以包括上述输入输出设备1019中的至少一部分，或者包括收发器(transceiver)、全球定位系统(Global Positioning System，GPS)模块、相机、各种传感器、数据库等的其他组件。

以上说明的装置能够通过硬件构成要素、软件构成要素，和/或硬件构成要素及软件构成要素的组合实现。例如，实施例中说明的装置及构成要素，能够利用例如处理器、控制器、算术逻辑单元(arithmetic logic unit，ALU)、数字信号处理器(digitalsignalprocessor)、微型计算机、现场可编程门阵列(field programmable gate array，FPGA)、可编程逻辑单元(programmable logic unit，PLU)、微处理器、或能够执行与应答指令(instruction)的任何其他装置等的一个以上的通用计算机或特殊目的计算机进行体现。处理装置能够执行操作系统(OS)及在所述操作系统中执行的一个以上的应用软件。并且，处理装置应答软件的执行，从而访问、存储、操作、处理及生成数据。为方便理解，说明了仅具有一个处理装置的方式，但本领域普通技术人员应理解处理装置能够包括多个处理元件(processing element)和/或多个类型的处理要素。例如，处理装置能够包括多个处理器或一个处理器及一个控制器。并且，也能够包括类似于并行处理器(parallel processor)的其他处理配置(processing configuration)。

软件能够包括计算机程序(computer program)、代码(code)、指令(instruction)，或其中的一个以上的组合，能够使处理装置按照所期待的方式操作，或者，单独或共同(collectively)命令处理装置。为通过处理装置进行解释或者向处理装置提供命令或数据，软件和/或数据能够永久或临时体现于(embody)任何类型的设备、构成要素(component)、物理装置、虚拟装置(virtual equipment)、计算机存储介质或装置，或者传送的信号波(signal wave)。软件分布于通过网络连接的计算机系统上，能够以分布式存储或执行。软件及数据能够存储于一个以上的计算机可读存储介质中。

根据实施例的方法以能够通过多种计算机手段执行的程序命令的形式体现，并记录在计算机可读介质中。所述计算机可读介质能够以单独或者组合的形式包括程序命令、数据文件、数据结构等。记录在所述介质的程序指令能够是为实现实施例而特别设计与构成的指令，或者是计算机软件领域普通技术人员能够基于公知使用的指令。计算机可读记录介质能够包括硬盘、软盘以及磁带等磁性介质(magnetic media)；与CD-ROM、DVD等类似的光学介质(optical media)；与光磁软盘(floptical disk)类似的磁光介质(magneto-opticalmedia)，以及与只读存储器(ROM)、随机存取存储器(RAM)、闪存等类似的为存储并执行程序命令而特别构成的硬件装置。程序指令的例子不仅包括通过编译器生成的机器语言代码，还包括通过使用解释器等能够由计算机执行的高级语言代码。

为执行实施例的操作，所述硬件装置能够构成为以一个以上的软件模块实现操作的方式，反之亦然。

综上，通过有限的附图对实施例进行了说明，本领域普通技术人员能够基于所述记载进行多种更改与变形。例如，所说明的技术按照与说明的方法不同的顺序执行，和/或所说明的系统、结构、装置、电路等构成要素按照与说明的方法不同的形态进行结合或组合，或者由其他构成要素或者等同物置换或代替，也能得到适当的结果。

因此，其他体现、其他实施例及与权利要求的等同物均属于所附权利要求书的范围。

Claims

1.一种图像生成方法，其特征在于，

包括以下步骤：

获取语音数据、包括面部的面部图像数据，以及包括图像目的的输入数据；

基于从所述面部图像数据提取的面部特征的运动以及所述语音数据，确定角色的运动；

基于所述语音数据与所述目的，确定与所述角色对应的镜头；以及

基于所述确定的镜头，生成与所述语音数据对应的图像。

2.根据权利要求1所述的图像生成方法，其特征在于，

确定所述镜头的步骤，包括以下步骤：

基于所述语音数据中的发声区段，确定所述镜头的长度；以及

基于所述目的，确定所述镜头的类型。

3.根据权利要求2所述的图像生成方法，其特征在于，

所述镜头类型分为与投影到所述镜头的角色大小对应的镜头大小，以及与投影到所述镜头的角色角度对应的镜头角度。

4.根据权利要求1所述的图像生成方法，其特征在于，

确定所述镜头的步骤，包括以下步骤：

基于所述目的，确定多个镜头的序列，所述多个镜头包括不同镜头类型的多个镜头；

根据所述语音数据的大小变化，将所述语音数据划分为多个发声区段；以及

基于所述多个发声区段，确定所述多个镜头的长度。

5.根据权利要求4所述的图像生成方法，其特征在于，

确定所述多个镜头长度的步骤，包括以下步骤：

基于所述目的以及所述多个发声区段，确定切换镜头的至少一个切换点；以及

基于所述切换点，确定所述多个镜头的长度。

6.根据权利要求4所述的图像生成方法，其特征在于，

确定所述镜头的步骤，还包括以下步骤中的至少一个：

基于用户输入，改变所述序列中镜头的顺序；

基于用户输入，向所述序列添加至少一个镜头；

基于用户输入，删除所述序列中至少一个镜头；

基于用户输入，改变所述序列中镜头的类型；以及

基于用户输入，改变所述序列中镜头的长度。

7.根据权利要求1所述的图像生成方法，其特征在于，

确定所述角色的运动的步骤，包括以下步骤：

基于与所述语音数据对应的发音信息，确定所述角色的口型运动；以及

基于对应于所述面部图像数据的多个帧提取的所述面部特征的运动，确定所述角色的面部元素运动。

8.根据权利要求1所述的图像生成方法，其特征在于，

确定所述角色的运动的步骤，包括以下步骤：

基于所述目的确定所述角色的表情；

基于所述面部特征的运动以及所述语音数据，确定所述角色的面部元素的运动；以及

将所述确定的角色表情与所述角色面部元素的运动相结合。

9.根据权利要求8所述的图像生成方法，其特征在于，

确定所述角色的表情的步骤，还包括以下步骤：

基于用户输入，改变所述角色面部表情。

10.根据权利要求1所述的图像生成方法，其特征在于，

获取所述输入数据的步骤，还包括以下步骤：

从所述面部图像数据中提取所述面部特征的运动，其中，所述面部特征的运动包括瞳孔运动、眼睑运动、眉毛运动，以及头部运动中的至少一种。

11.根据权利要求1所述的图像生成方法，其特征在于，

所述角色，包括：

第一角色，基于从所述面部图像数据中的第一面部图像数据获得的第一面部特征的运动，以及所述语音数据中的第一语音数据来确定运动；以及

第二角色，基于从所述面部图像数据中的第二面部图像数据获得的第二面部特征的运动，以及所述语音数据中的第二语音数据来确定运动，

确定所述镜头的步骤，包括以下步骤：

基于所述语音数据中的第一语音数据、所述语音数据中的第二语音数据，以及所述目的，确定对应于所述第一角色以及所述第二角色的镜头。

12.根据权利要求11所述的图像生成方法，其特征在于，

确定所述镜头的步骤，包括以下步骤：

基于所述目的，确定所述镜头中的所述第一角色和所述第二角色的布置。

13.根据权利要求11所述的图像生成方法，其特征在于，

确定所述角色运动的步骤，还包括以下步骤：

基于所述目的、所述第一语音数据，以及所述第二语音数据中的至少一个，确定所述第一角色以及所述第二角色之间的交互；以及

基于所述确定的交互，确定所述第一角色的运动以及所述第二角色的运动。

14.根据权利要求11所述的图像生成方法，其特征在于，

所述语音数据包括从第一用户终端获得的第一语音数据；以及从第二用户终端获得的第二语音数据，

所述面部图像数据包括从所述第一用户终端获得的第一面部图像数据，以及从所述第二用户终端获得的第二面部图像数据。

15.一种存储在介质中，并与硬件结合来执行权利要求1所述的方法的计算机程序。

16.一种图像生成装置，其特征在于，

包括至少一个处理器，所述处理器执行以下操作：

基于所述确定的镜头，生成与所述语音数据对应的图像。

17.根据权利要求16所述的图像生成装置，其特征在于，

所述处理器在确定所述镜头时，

基于所述多个发声区段，确定所述多个镜头的长度。

18.根据权利要求17所述的图像生成装置，其特征在于，

所述处理器在确定所述镜头时还执行以下操作中的至少一个：

基于用户输入，改变所述序列中镜头的顺序；

基于用户输入，向所述序列添加至少一个镜头；

基于用户输入，删除所述序列中至少一个镜头；

基于用户输入，改变所述序列中镜头的类型；以及

基于用户输入，改变所述序列中镜头的长度。

19.根据权利要求16所述的图像生成装置，其特征在于，

所述处理器在确定所述角色的运动时，

基于所述目的确定所述角色的表情；

将所述确定的角色表情与所述角色面部元素的运动相结合。

20.根据权利要求19所述的图像生成装置，其特征在于，

所述处理器在确定所述角色的表情时，基于用户输入改变所述角色面部表情。