CN116843805B

CN116843805B - 一种包含行为的虚拟形象生成方法、装置、设备及介质

Info

Publication number: CN116843805B
Application number: CN202310728335.4A
Authority: CN
Inventors: 郭伟
Original assignee: Shanghai Aoyushi Information Technology Co ltd
Current assignee: Shanghai Aoyushi Information Technology Co ltd
Priority date: 2023-06-19
Filing date: 2023-06-19
Publication date: 2024-03-19
Anticipated expiration: 2043-06-19
Also published as: CN116843805A

Abstract

本发明提供一种包含行为的虚拟形象生成方法、装置、设备及介质，该包含行为的虚拟形象生成方法包括：获取至少一个采集端的用户行为信息；若所述用户行为信息包括用户画面信息，根据用户画面信息和用户语音信息在至少一个播放端生成包含行为的虚拟形象；若所述用户行为信息不包括所述用户画面信息，根据所述用户语音信息在所述至少一个播放端生成所述包含行为的虚拟形象；在所述至少一个播放端展示所述包含行为的虚拟形象。本发明通过使用包含行为的虚拟形象在不同设备之间传递用户的口吻嘴型、面部表情、肢体动作、语气及情绪等信息，来实现在有无画面的两种采集场景下实时播放用户语音、表达用户情绪并展示用户实时动作的技术效果。

Description

一种包含行为的虚拟形象生成方法、装置、设备及介质

技术领域

本发明涉及通信技术领域，尤其涉及一种包含行为的虚拟形象生成方法、装置、设备及介质。

背景技术

随着网络通信技术的快速发展，人们在视频或直播的过程中能够使用包含行为的虚拟形象进行互动，现有技术通常通过采集人物的图像或视频来获取信息点，将信息点和包含行为的虚拟形象中的关键点进行融合，从而完成包含行为的虚拟形象的生成。

然而，当前使用社交软件的用户存在不方便出镜的情况，现有技术中的技术方案尚无法提供高效准确包含行为的虚拟形象生成方法来实现内容传达，现有技术通常存在用户通过包含行为的虚拟形象传递信息的效率低、成本高的技术问题，且仅能够在采集到用户视频画面后进行包含行为的虚拟形象的生成，极大的限制了包含行为的虚拟形象的生成多样性，且包含行为的虚拟形象生成场景单一，影响用户交互体验。

发明内容

为了解决现有技术中包含行为的虚拟形象无法实时表达用户情感、展示用户实时动作的技术问题，本发明提供一种包含行为的虚拟形象生成方法。

第一方面，本发明提供一种包含行为的虚拟形象生成方法，包括：

获取至少一个采集端的用户行为信息；

若所述用户行为信息包括用户画面信息，根据用户画面信息和用户语音信息在至少一个播放端生成包含行为的虚拟形象；

若所述用户行为信息不包括所述用户画面信息，根据所述用户语音信息在所述至少一个播放端生成所述包含行为的虚拟形象；

在所述至少一个播放端展示所述包含行为的虚拟形象。

进一步的，所述根据用户画面信息和用户语音信息在至少一个播放端生成包含行为的虚拟形象，包括：

判断所述用户画面中的用户形象的完整度；

若所述完整度小于预设阈值，判断所述用户画面中是否包含所述用户的面部行为信息；

若是，则根据所述用户的面部行为信息在至少一个播放端生成包含行为的虚拟形象；

若否，则根据所述用户语音信息在所述至少一个播放端生成所述包含行为的虚拟形象；

若所述完整度大于等于所述预设阈值，根据所述用户画面信息中的所述用户的表情和动作在至少一个播放端生成包含行为的虚拟形象。

进一步的，所述根据所述用户的面部行为信息在至少一个播放端生成包含行为的虚拟形象，包括：

根据所述面部行为信息获取所述用户的语义、语调和语速；

分析所述语义、所述语调和所述语速，以得到语义识别结果、语调分析结果和语速分析结果；

根据所述语义识别结果、所述语调分析结果和所述语速分析结果调用所述至少一个播放端中的预设参数，根据所述预设参数驱动3D模型，以生成包含行为的虚拟形象。

进一步的，根据所述用户画面信息中的所述用户的表情和动作在至少一个播放端生成包含行为的虚拟形象，包括：

分析所述表情和所述动作，以得到表情分析参数和动作分析参数；

根据所述表情分析参数和所述动作分析参数对所述至少一个播放端中的预设3D模型进行驱动，以生成包含行为的虚拟形象。

进一步的，所述根据所述用户语音信息在所述至少一个播放端生成包含行为的虚拟形象，包括：

根据所述用户语音信息获取所述用户的语义、语调和语速；

进一步的，所述包含行为的虚拟形象生成方法还包括：

由用户在至少一个采集端进行确定所述包含行为的虚拟形象的展示方式；

其中，所述包含行为的虚拟形象的展示方式包括捏脸形象、换装形象或改变身形形象。

进一步的，所述在所述至少一个播放端展示所述包含行为的虚拟形象，包括：

在所述至少一个播放端展示所述包含行为的虚拟形象并对应播放所述用户语音信息。

第二方面，本发明提供一种包含行为的虚拟形象生成装置，包括：

信息获取模块，用于获取至少一个采集端的用户行为信息；

第一形象生成模块，用于若所述用户行为信息包括用户画面信息，根据用户画面信息和用户语音信息在至少一个播放端生成包含行为的虚拟形象；

第二形象生成模块，用于若所述用户行为信息不包括所述用户画面信息，根据所述用户语音信息在所述至少一个播放端生成所述包含行为的虚拟形象；

形象展示模块，用于在所述至少一个播放端展示所述包含行为的虚拟形象。

第三方面，本发明提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现第二方面提供的包含行为的虚拟形象生成方法。

第四方面，本发明提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现第二方面提供的包含行为的虚拟形象生成方法。

本发明通过获取至少一个采集端的用户行为信息；若所述用户行为信息包括用户画面信息，根据用户画面信息和用户语音信息在至少一个播放端生成包含行为的虚拟形象；若所述用户行为信息不包括所述用户画面信息，根据所述用户语音信息在所述至少一个播放端生成所述包含行为的虚拟形象；在所述至少一个播放端展示所述包含行为的虚拟形象。本发明通过使用包含行为的虚拟形象在不同设备之间传递用户的口吻嘴型、面部表情、肢体动作、语音语气及情绪等信息，来实现在有无画面的两种采集场景下高效生成包含行为的虚拟形象的技术效果，进而解决了现有技术中包含行为的虚拟形象无法实时表达用户情感、展示用户实时动作的技术问题。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的包含行为的虚拟形象生成方法的流程示意图；

图2为本发明实施例提供的包含行为的虚拟形象生成装置的结构框图；

图3为本发明实施例提供的设备结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分的实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

需要说明的是，本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

随着网络通信技术的快速发展，现有技术通常通过采集人物的图像或视频来生成包含行为的虚拟形象，导致生成效率低、应用场景单一的技术问题。为了解决上述问题，本发明实施例提供一种包含行为的虚拟形象生成方法。图1为本发明实施例提供的包含行为的虚拟形象生成方法的流程示意图，如图1所示，该包含行为的虚拟形象生成方法包括：

S101:获取至少一个采集端的用户行为信息；

其中，该至少一个采集端可以指进行用户行为信息采集的终端，即需要根据用户自身形象生成包含行为的虚拟形象的任意用户终端，该用户行为信息可以指至少一个采集端的用户的面部特征数据，也可以指至少一个采集端的用户的动作信息，还可以是指至少一个采集端的用户的语音信息。

具体的，可以通过至少一个采集端的摄像头采集用户面部的深度信息作为面部特征信息，还可以采集用户手势或用户肢体运动轨迹，同时使用至少一个采集端的麦克风对用户语音信息进行采集。

S102:若所述用户行为信息包括用户画面信息，根据用户画面信息和用户语音信息在至少一个播放端生成包含行为的虚拟形象；

其中，播放端和采集端均可以为一个或多个，播放端可以指和采集端进行视频或语音交互的任意终端，本发明实施例中的采集端和播放端仅用于区别类似的对象，而不必用于描述特定的顺序或先后次序。用户画面信息包括用户的面部特征数据和用户的动作信息，该包含行为的虚拟形象可以包括捏脸形象、换装形象或改变身形形象等。

具体的，为了最大程度的实现包含行为的虚拟形象生成的准确性，当至少一个采集端能够采集到用户面部特征数据或动作信息时，对用户面部特征数据或动作信息进行分析，以获得用户的面部参数和动作参数，至少一个播放端根据该面部参数和动作参数进行包含行为的虚拟形象的生成。

S103:若所述用户行为信息不包括所述用户画面信息，根据所述用户语音信息在所述至少一个播放端生成所述包含行为的虚拟形象；

具体的，当用户不方便出镜从而无法采集视频画面时，至少一个采集端无法获取用户的用户画面信息，此时至少一个采集端仅对用户语音信息进行分析，获取的语音参数，由至少一个播放端根据该语音参数完成包含行为的虚拟形象的生成。

需要说明的是，本发明实施例中在至少一个采集端对采集到的用户信息进行识别分析并得到分析结果，根据该分析结果在其它终端生成包含行为的虚拟形象。本发明实施例中对于用户信息进行识别分析并得到分析结果的过程，可以是由采集端、服务器端或播放端中的任一端来执行，本发明对此不作限制。

可选的，若所述用户行为信息不包括所述用户画面信息，还可以由至少一个采集端采集用户输入的文字信息，根据该文字信息在所述至少一个播放端生成所述虚拟形象及行为。示例性的，例一：用户可以打字输入：“求求你原谅我吧”，处理端对文字内容进行识别，并根据识别结果调用预设参数，根据所述预设参数在至少一个播放端驱动3D虚拟形象做出道歉动作并用预设声纹描述“求求你原谅我吧”，该预设声纹可以根据采集端的接收到的用户指令进行选取；例二：用户打字输入：“帮我告诉小明，明天早上8点学校门口见面”。处理端进行文字识别，得到三个和预设动作模板里的预设词汇相似度高的词语，“早上”“学校”和“见面”，根据预设动作模板里对应的动作参数生成一段由3D虚拟形象驱动的动作，发送给小明使用的终端，并用预设声纹播放“明天早上8点学校门口见面”。

S104:在所述至少一个播放端展示所述包含行为的虚拟形象。

具体的，在需要展示互动信息的至少一个播放端对包含行为的虚拟形象进行展示，同时采集用户信息的至少一个采集端的用户也可以选择对包含行为的虚拟形象是否展示，该包含行为的虚拟形象在至少一个采集端和/或至少一个播放端进行展示以及通过何种方式进行展示。

本发明通过获取至少一个采集端的用户行为信息；若所述用户行为信息包括用户画面信息，根据用户画面信息和用户语音信息在至少一个播放端生成包含行为的虚拟形象；若所述用户行为信息不包括所述用户画面信息，根据所述用户语音信息在所述至少一个播放端生成所述包含行为的虚拟形象；在所述至少一个播放端展示所述包含行为的虚拟形象。本发明通过使用包含行为的虚拟形象在不同设备之间传递用户的口吻嘴型、面部表情、肢体动作、语气语音以及情绪等信息，来实现在有无画面的两种采集场景下高效生成包含行为的虚拟形象的技术效果，进而解决了现有技术中包含行为的虚拟形象无法实时表达用户情感、展示用户实时动作的技术问题。

判断所述用户画面中的用户形象的完整度；

根据所述面部行为信息获取所述用户的语义、语调和语速；

其中，所述面部行为信息可以指用户的口吻信息，也可以指包含用户的口吻信息的更多面部信息

可选的，当面部行为信息为包含用户的口吻信息的更多面部信息时，还可以根据面部行为信息获取用户的语义、语调、语速、语气和情绪，分析该语义、语调、语速、语气和情绪，得到语义分析结果、语调分析结果、语速分析结果、语气分析结果和情绪分析结果，根据该语义分析结果、语调分析结果、语速分析结果、语气分析结果和情绪分析结果调用所述至少一个播放端中的预设参数，根据所述预设参数驱动3D模型，以生成包含行为的虚拟形象。

具体的，可以分析用户的面部行为信息，对用户的口吻信息进行智能识别，得到用户表达语音内容，对语音内容进行文字转换并对文字进行关键词提取，获取和预设动作模板中的预设词汇相似度高的关键词，作为语义分析结果，获取该语音内容的语调、语速、语气，基于半监督学习算法根据语调、语速、语气和预设动作模板中包含的语调、语速、语气确定语调分析结果、语速分析结果和语气分析结果，还可以根据面部行为信息基于深度学习算法判断用户的情绪，根据预设动作模板和情绪确定用户的情绪分析结果。

可选的，语义识别结果、语调分析结果、语速分析结果、语气分析结果和情绪分析结果还可以均指代用户的感情色彩。

具体的，可以在至少一个采集端通过摄像头采集用户的行为信息，将摄像头采集到的视频或图像转换为网格化数据，根据该网格化数据映射到3D网格模型，由动作信息驱动模型完成动作，当无法识别用户动作信息时也可以先进行用户面部识别，然后仅依据面部表情生成网格数据，最终将音频数据和驱动后的3D网格模型进行同时播放及展示。

根据所述用户语音信息获取所述用户的语义、语调和语速；

具体的，分析语音信息得到语义识别结果、语调分析结果和语速分析结果，该语义识别结果、语调分析结果和语速分析结果均指代用户的感情色彩。选取语义识别结果、语调分析结果和语速分析结果中数量最多的感情类别作为目标感情类别，若存在两个及数量最多的目标感情类别，则在至少一个采集端展示全部分析得到的感情类别并接收用户手动选择的一个感情类别，若未接收到用户的选择结果，暂不展示包含行为的虚拟形象并重新进行语音信息获取。

示例性的，在至少一个采集端通过麦克风采集用户语音信息，将该音频信息转换为文本数据，并分析语速、语调和声音强度从而得到用户的感情类别，如开心、生气、恐惧、期待和哭泣等，至少一个播放端中预存有和感情类别对应的模型参数，该模型参数包括表情参数和动作参数，调用预设模型参数驱动3D模型，最终将音频数据和驱动后的3D网格模型进行同时播放及展示。

进一步的，所述包含行为的虚拟形象生成方法还包括：

在一种可选的实施例中，提供一种在多个不同类型终端设备上，使用包含行为的虚拟形象来复原、模拟和展示用户实时口吻嘴型、面部表情、肢体动作的生成方法具体步骤如下：在用户信息采集端，通过摄像头、麦克风等装置来获取用户实时的口吻、表情、动作、语音等信息，其中若能够通过摄像头获取到口吻、表情、动作等行为信息，则在一个或多个用户信息播放端，使用包含行为的虚拟形象来同步复原播放用户这些口吻、表情、动作等行为，否则根据用户麦克风获取的语音信息，进行智能分析来模拟用户的口吻、表情和动作，在一个或多个用户信息播放端，使用包含行为的虚拟形象来同步播放这些模拟的口吻、表情、动作等行为。本发明实现了通过使用包含行为的虚拟形象在不同设备之间传递用户的实时口吻嘴型、面部表情、肢体动作等信息，彻底解决了传统包含行为的虚拟形象无法表达用户实时情感、展示用户实时动作的问题。

在一种可选的实施例中，提供了一种包含行为的虚拟形象生成方法，该方法为从一种终端获取真实人物行为信息及语音传达到另一终端包含行为的虚拟形象上展现的方式，以及由一种终端获取语音，解析语义后传输到另一终端驱动包含行为的虚拟形象做出对应表情的方法。该方法步骤如下：步骤一：在采集终端能采集到真实行为信息的情况下，终端1采集真实行为信息数据(包含动作、表情、语音等数据)，传输到服务器上，之后借由服务器传输到终端2上。在终端2上，以包含行为的虚拟形象动作配合语音的方法呈现信息；步骤二：在采集终端无法采集到真实行为信息的情况下，终端1采集真人语音数据，进行语义识别后，传输到服务器上，再传达到终端2上。在终端2上，驱动包含行为的虚拟形象做出对应动作，同时搭配语音呈现信息。当终端1可以获取用户行为数据信息的时候，采用步骤一进行包含行为的虚拟形象动作驱动；当终端1无法获取用户行为数据信息时，采用步骤二进行包含行为的虚拟形象动作驱动。

上述实施例有如下优点:

优点一：市面上较优质的包含行为的虚拟形象展现产品不支持用户自定义；而本实施例中的终端行为动作展现的包含行为的虚拟形象全由用户自定义，包含捏脸、换装、更改身形等自定义方式。

优点二：可以支持采集和不采集视频画面的两种方式生产行为动作，极大的提高了信息生成效率。

优点三：语义识别的方式无需内容限定，可以输出任何内容，从而驱动包含行为的虚拟形象做出匹配的行为动作。

优点四：市面上已有的类似包含行为的虚拟形象驱动方式在至少一个采集端(终端1)或者接收端(终端2)都有一定限制，而本方法适配于市面上大多数通讯设备，且可以让终端1和终端2互换作用。

基于上述实施例上述各实施例的内容，作为一种可选实施例：图2为本发明实施例提供的包含行为的虚拟形象生成装置的结构框图，如图2，该包含行为的虚拟形象生成装置还包括：

信息获取模块201，用于获取至少一个采集端的用户行为信息；

第一形象生成模块202，用于若所述用户行为信息包括用户画面信息，根据用户画面信息和用户语音信息在至少一个播放端生成包含行为的虚拟形象；

第二形象生成模块203，用于若所述用户行为信息不包括所述用户画面信息，根据所述用户语音信息在所述至少一个播放端生成所述包含行为的虚拟形象；

形象展示模块204，用于在所述至少一个播放端展示所述包含行为的虚拟形象。

本发明通过获取至少一个采集端的用户行为信息；若所述用户行为信息包括用户画面信息，根据用户画面信息和用户语音信息在至少一个播放端生成包含行为的虚拟形象；若所述用户行为信息不包括所述用户画面信息，根据所述用户语音信息在所述至少一个播放端生成所述包含行为的虚拟形象；在所述至少一个播放端展示所述包含行为的虚拟形象。本发明通过使用包含行为的虚拟形象在不同设备之间传递用户的口吻嘴型、面部表情、肢体动作等信息，来实现在有无画面的两种采集场景下高效生成包含行为的虚拟形象的技术效果，进而解决了现有技术中包含行为的虚拟形象无法实时表达用户情感、展示用户实时动作的技术问题。

进一步的，所述第一形象生成模块202包括画面判断单元。

画面判断单元用于判断所述用户画面中的用户形象的完整度；若所述完整度小于预设阈值，判断所述用户画面中是否包含所述用户的面部行为信息；若是，则根据所述用户的面部行为信息在至少一个播放端生成包含行为的虚拟形象；若否，则根据所述用户语音信息在所述至少一个播放端生成所述包含行为的虚拟形象；若所述完整度大于等于所述预设阈值，根据所述用户画面信息中的所述用户的表情和动作在至少一个播放端生成包含行为的虚拟形象。

进一步的，画面判断单元包括第一形象生成组件。

第一形象生成组件用于根据所述面部行为信息获取所述用户的语义、语调和语速；分析所述语义、所述语调和所述语速，以得到语义识别结果、语调分析结果和语速分析结果；根据所述语义识别结果、所述语调分析结果和所述语速分析结果调用所述至少一个播放端中的预设参数，根据所述预设参数驱动3D模型，以生成包含行为的虚拟形象。

进一步的，画面判断单元包括第二形象生成组件。

第二形象生成组件用于分析所述表情和所述动作，以得到表情分析参数和动作分析参数；根据所述表情分析参数和所述动作分析参数对所述至少一个播放端中的预设3D模型进行驱动，以生成包含行为的虚拟形象。

进一步的，第二形象生成模块203包括第三形象生成组件。

第三形象生成组件用于根据所述用户语音信息获取所述用户的语义、语调和语速；分析所述语义、所述语调和所述语速，以得到语义识别结果、语调分析结果和语速分析结果；根据所述语义识别结果、所述语调分析结果和所述语速分析结果调用所述至少一个播放端中的预设参数，根据所述预设参数驱动3D模型，以生成包含行为的虚拟形象。

进一步的，信息获取模块201包括信息确定单元。

信息确定单元用于由用户在至少一个采集端进行确定所述包含行为的虚拟形象的展示方式；

进一步的，形象展示模块204包括形象展示单元。

形象展示单元用于在所述至少一个播放端展示所述包含行为的虚拟形象并对应播放所述用户语音信息。

图3为本发明实施例提供的电子设备框图，如图3所示，该设备包括：处理器301、存储器302和总线303；

其中，处理器301及存储器302分别通过总线303完成相互间的通信；处理器301用于调用存储器302中的程序指令，以执行上述实施例所提供的包含行为的虚拟形象生成方法，例如包括：

获取至少一个采集端的用户行为信息；

在所述至少一个播放端展示所述包含行为的虚拟形象。

本发明实施例提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现包含行为的虚拟形象生成方法的步骤。例如包括：

获取至少一个采集端的用户行为信息；

在所述至少一个播放端展示所述包含行为的虚拟形象。

以上所描述的装置实施例仅仅是示意性的，其中作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分的方法。

最后，本发明中应用了具体实施例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种包含行为的虚拟形象生成方法，其特征在于，包括：

获取至少一个采集端的用户行为信息；

若所述用户行为信息包括用户画面信息，根据所述用户画面信息和用户语音信息在至少一个播放端生成包含行为的虚拟形象；

在所述至少一个播放端展示所述包含行为的虚拟形象；

所述根据用户画面信息和用户语音信息在至少一个播放端生成包含行为的虚拟形象，包括：

判断所述用户画面中的用户形象的完整度；

2.根据权利要求1所述的方法，其特征在于，所述根据所述用户的面部行为信息在至少一个播放端生成包含行为的虚拟形象，包括：

根据所述面部行为信息获取所述用户的语义、语调和语速；

3.根据权利要求1所述的方法，其特征在于，根据所述用户画面信息中的所述用户的表情和动作在至少一个播放端生成包含行为的虚拟形象，包括：

4.根据权利要求1所述的方法，其特征在于，所述根据所述用户语音信息在所述至少一个播放端生成包含行为的虚拟形象，包括：

根据所述用户语音信息获取所述用户的语义、语调和语速；

5.根据权利要求1所述的方法，其特征在于，还包括：

6.根据权利要求1所述的方法，其特征在于，所述在所述至少一个播放端展示所述包含行为的虚拟形象，包括：

7.一种包含行为的虚拟形象生成装置，其特征在于，包括：

信息获取模块，用于获取至少一个采集端的用户行为信息；

第一形象生成模块，用于若所述用户行为信息包括用户画面信息，根据所述用户画面信息和用户语音信息在至少一个播放端生成包含行为的虚拟形象；

形象展示模块，用于在所述至少一个播放端展示所述包含行为的虚拟形象；

判断所述用户画面中的用户形象的完整度；

8.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至6任一项所述的包含行为的虚拟形象生成方法的步骤。

9.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现如权利要求1至6任一项所述的包含行为的虚拟形象生成方法的步骤。