CN113840158B

CN113840158B - 虚拟形象的生成方法、装置、服务器及存储介质

Info

Publication number: CN113840158B
Application number: CN202111182662.1A
Authority: CN
Inventors: 常向月; 杨国基; 刘致远
Original assignee: Shenzhen Zhuiyi Technology Co Ltd
Current assignee: Shenzhen Zhuiyi Technology Co Ltd
Priority date: 2021-10-11
Filing date: 2021-10-11
Publication date: 2024-05-31
Anticipated expiration: 2041-10-11
Also published as: CN113840158A

Abstract

本申请公开了一种虚拟形象的生成方法、装置、服务器及存储介质，应用于服务器，涉及互联网技术领域。在获取到对目标图像内的目标对象检测而得到的初始特征信息后，若检测到初始特征信息中存在符合预设特征条件的第一参数特征点，对初始特征信息中第一参数特征点的特征值进行调整而得到目标特征信息。然后，基于目标特征信息生成虚拟形象，最后将虚拟形象推送给与服务器相连接的至少一个终端，以使虚拟形象在至少一个终端上显示。本申请可以将采集到的真人演员满足预设条件的图像特征进行处理，过滤掉真人演员不雅观的动作、表情，使得根据真人演员而生成的虚拟形象能够提供更好的视觉效果，进而提高用户体验。

Description

虚拟形象的生成方法、装置、服务器及存储介质

技术领域

本申请涉及计算机视觉技术领域，尤其涉及一种虚拟形象的生成方法、装置、服务器及存储介质。

背景技术

在聊天社交软件，或者网络直播平台中，经常会出现真人演员在后台进行表演，而在终端上显示一个虚拟形象代替真人进行对话交流。在这些场景下，需要实时捕捉真人演员的动作、表情等数据用来生成虚拟形象，但是，当真人演员需要短暂休息或者出现不雅观的姿势时，这时候生成的虚拟形象可能也会不雅观，影响用户体验。

发明内容

鉴于上述问题，本申请提出了一种虚拟形象的生成方法、装置、服务器及存储介质，能解决上述问题。

第一方面，本申请实施例提供了一种虚拟形象的生成方法，应用于服务器，所述方法包括：获取对目标图像内的目标对象检测而得到的初始特征信息；若检测到所述初始特征信息中存在符合预设特征条件的第一参数特征点，对所述初始特征信息中所述第一参数特征点的特征值进行调整而得到目标特征信息；基于所述目标特征信息生成虚拟形象；将所述虚拟形象推送给与所述服务器相连接的至少一个终端，以使所述虚拟形象在所述至少一个终端上显示。

可选地，所述若检测到所述初始特征信息中存在符合预设特征条件的第一参数特征点，对所述初始特征信息中所述第一参数特征点的特征值进行调整而得到目标特征信息，包括：将所述目标图像中每个特征点的特征值中存在超出预设阈值范围的特征点作为所述第一参数特征点；将所述初始特征信息中所述第一参数特征点的特征值调整为目标特征值，以得到所述目标特征信息，其中，所述目标特征值位于所述预设阈值范围内。

进一步地，所述将所述目标图像中每个特征点的特征值中存在超出预设阈值范围的特征点作为所述第一参数特征点，包括：将所述目标图像中每个特征点的特征值中存在超出预设阈值范围的特征点作为初始参考点；将所述目标图像的相邻图像中每个初始参考点的特征值与所述目标图像中每个初始参考点的特征值进行比较，得到每个初始参考点的特征变化值；将所述每个初始参考点的特征变化值中超出预设变化范围的初始参考点作为所述第一参数特征点。

可选地，所述将所述目标图像中每个特征点的特征值中存在超出预设阈值范围的特征点作为所述第一参数特征点，包括：将所述目标图像的相邻图像中每个特征点的特征值与所述目标图像中每个特征点的特征值进行比较，得到每个特征点的特征变化值；将所述每个特征点的特征变化值中超出预设变化范围的特征点作为所述第一参数特征点。

可选地，所述基于所述目标特征信息生成虚拟形象之前，还包括：检测所述目标特征信息中的每个特征点是否信息缺失；若信息缺失，持续检测所述目标特征信息中的每个特征点，根据所述目标特征信息中每个特征点的特征值变化情况生成每个所述特征点的补充信息；将所述每个所述特征点的补充信息添加到所述目标特征信息中对应特征点上以更新所述目标特征信息。

可选地，所述将所述虚拟形象推送给与所述服务器相连接的至少一个终端之前，上述方法还包括：获取所述目标对象的音频信息；若检测到所述音频信息符合预设音频条件，对所述音频信息进行消音处理；若所述音频信息不符合所述预设音频条件，基于所述音频信息驱动所述虚拟形象发出声音。

进一步地，所述预设音频条件包括：对所述音频信息进行语音识别，识别所述音频信息中是否包含预设词汇；若包含所述预设词汇，则所述音频信息符合所述预设音频条件；若不包含所述预设词汇，则所述音频信息不符合所述预设音频条件。

更进一步地，所述基于所述音频信息驱动所述虚拟形象发出声音之前，还包括：若检测到所述音频信息存在音频缺失，对所述音频信息进行语音识别得到所述音频信息包含的语音内容；根据所述语音内容的上下文语义生成所述语音内容的语音补充信息；将所述语音补充信息添加到所述音频信息中。

第二方面，本申请实施例提供了一种虚拟形象的生成装置，用于服务器，所述装置包括：获取模块、判断模块、形象生成模块以及终端推送模块。其中，获取模块，用于获取对目标图像内的目标对象检测而得到的初始特征信息；判断模块，用于若检测到所述初始特征信息中存在符合预设特征条件的第一参数特征点，对所述初始特征信息中所述第一参数特征点的特征值进行调整而得到目标特征信息；形象生成模块，用于基于所述目标特征信息生成虚拟形象；终端推送模块，用于将所述虚拟形象推送给与所述服务器相连接的至少一个终端，以使所述虚拟形象在所述至少一个终端上显示。

第三方面，本申请实施例提供了一种服务器，包括：一个或多个处理器；存储器；一个或多个应用程序，其中所述一个或多个应用程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个应用程序配置用于执行上述方法。

第四方面，本申请实施例提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有程序代码，所述程序代码可被处理器调用执行上述方法。

第五方面，本申请实施例提供了一种包含指令的计算机程序产品，其特征在于，所述计算机程序产品中存储有指令，当其在计算机上运行时，使得计算机实现上述方法。

本申请提供的虚拟形象的生成方法、装置、服务器及存储介质，应用于服务器。在获取到对目标图像内的目标对象检测而得到的初始特征信息后，若检测到所述初始特征信息中存在符合预设特征条件的第一参数特征点，对所述初始特征信息中所述第一参数特征点的特征值进行调整而得到目标特征信息。然后，基于所述目标特征信息生成虚拟形象，最后将所述虚拟形象推送给与所述服务器相连接的至少一个终端，以使所述虚拟形象在所述至少一个终端上显示。本申请可以将采集到的真人演员满足预设条件的图像特征进行处理，过滤掉真人演员不雅观的动作、表情，使得根据真人演员而生成的虚拟形象能够提供更好的视觉效果，进而提高用户体验。

本申请的这些方面或其他方面在以下实施例的描述中会更加简明易懂。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了本申请一实施例提供的虚拟形象的生成方法的一种应用环境示意图；

图2示出了本申请一实施例提供的虚拟形象的生成方法的应用场景示意图；

图3示出了本申请一实施例提供的虚拟形象的生成方法的流程示意图；

图4示出了本申请另一实施例提供的目标对象的特征示意图；

图5示出了本申请又一实施例提供的目标对象的特征示意图；

图6示出了本申请一实施例提供的虚拟人物库的选择界面示意图；

图7示出了本申请另一实施例提供的虚拟形象的生成方法的流程示意图；

图8示出了本申请又一实施例提供的虚拟形象的生成方法的流程示意图；

图9示出了本申请再一实施例提供的虚拟形象的生成方法的流程示意图；

图10示出了本申请一实施例提供的虚拟形象的生成方法的音频处理流程示意图；

图11示出了本申请一实施例提供的虚拟形象的生成装置的模块框图；

图12示出了本申请一实施例提供的服务器的结构框图；

图13示出了本申请一实施例提供的计算机可读存储介质的结构框图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述。

随着互联网产业的高速发展，人工智能使得“虚拟世界”的应用越来越多，从动漫、游戏到直播、到短视频的运营以及视频聊天等众多实时交互的场景下，都涉及到“虚拟形象”的构建。通常情况下，真人演员会在后台进行表演，而在终端上显示一个虚拟形象代替真人进行对话交流。在这些场景下，需要实时捕捉真人演员的动作、表情等数据用来生成虚拟形象。

经过仔细研究，发明人发现，由于实时捕捉会将真人演员的动作、表情等通过虚拟形象实时展示在终端上，当真人演员需要短暂休息或者出现不雅观的姿势时，这时候生成的虚拟形象可能也会不雅观，影响用户体验。

为解决上述问题，本申请发明人投入研发，在根据真人演员的特征数据生成虚拟形象之前，可以对这些特征数据进行检测，对特征数据中表征为不雅观姿势的数据进行调整，从而过滤掉不雅观的姿势。

为了更好理解本申请实施例提供的一种虚拟形象的生成方法、装置、服务器及存储介质，下面先对适用于本申请实施例的应用环境进行描述。

请参阅图1，图1示出了本申请一实施例提供的虚拟形象的生成方法的一种应用环境示意图，本申请实施例提供的虚拟形象的生成方法、装置、服务器及存储介质可以应用于如图1所示的服务器120。其中，采集设备110可以与服务器相连，采集设备可以通过摄像头等方式采集真人演员的音视频信息，然后将音视频信息上传到服务器120，经由服务器对真人演员的音视频信息进行处理后生成虚拟形象，然后再将虚拟形象推送到终端130。其中，用户可以使用终端130接入到服务器120中，然后在终端上显示由服务器推送的虚拟形象。可以理解的是，服务器120可以用独立的服务器或者是多个服务器组成的服务器集群来实现。另外，服务器可以是云端服务器，还可以是传统机房服务器，在此不作具体限定。

可以允许多台终端130同时接入服务器120。在一些实施方式中，本方法可以应用于直播场景下，如图2所示，其中，真人演员可以为主播，摄像机可以采集真人演员的动作、表情或声音而生成视频和音频信息，然后基于摄像机采集的视频和音频信息生成虚拟形象，用户可以作为观众收看跟随真人演员的动作、表情而变化的虚拟形象的演出。在另一些实施方式中，本方法不仅可以应用于直播场景，也可以应用于视频聊天。在视频聊天场景下，视频双方中的任一方都可以使用虚拟形象进行聊天，可以增加聊天的趣味性。除此之外，本方法还可以在实况游戏、全息投影、增强现实等通过采集真人的音视频来生成虚拟形象的场景下应用，本申请实施例对此不作限制。

上述应用环境仅为方便理解所作的示例，可以理解的是，本申请实施例不仅局限于上述应用环境。

下面将通过具体实施例对本申请实施例提供的虚拟形象的生成方法、装置、服务器及存储介质进行详细说明。

请参阅图3，其示出了本申请一实施例提供的虚拟形象的生成方法的流程示意图，应用于服务器。下面将针对图3所示的流程进行详细的阐述，所述虚拟形象的生成方法具体可以包括如下步骤：

步骤S310：获取对目标图像内的目标对象检测而得到的初始特征信息。

在本申请的实施例中，可以使用带有摄像头等装置的采集设备采集目标对象的音视频或图像信息，进而达到捕捉目标对象的动作、表情等数据的目的。然后，采集设备可以将采集到的信息发送给服务器，由服务器进行进一步地处理。可以理解的是，本申请实施例所述的目标对象可以是前述实施例中所述的真人演员，也可以是视频聊天、实况游戏、全息投影、增强现实等场景下的真实用户，通过对目标对象的音视频信息或图像信息进行处理可以生成虚拟形象。

在一些实施例中，要使虚拟形象的动作、表情随着目标对象的动作、表情等的变化而变化，首先需要通过获取得到的音视频信息中获取包含有目标对象的图像信息，可以将该图像信息称为目标图像。进一步地，在本申请的实施例中，可以获取对目标图像内的目标对象检测而得到初始特征信息。

可以理解的是，目标图像中除了包含目标对象，也可能包含目标对象所在的环境信息及其他干扰项等等，因此，在一些实施例中，在检测初始特征信息之前，还可以对目标图像进行预处理，通过预处理可以消除图像中干扰信息而得到我们想要的目标对象的信息。

在一些实施方式中，可以从目标图像中检测得到目标对象的初始特征信息。初始特征信息可以用于描述目标对象的面部表情以及目标对象的人物动作等。可选地，可以按照目标对象的身体部位将初始特征信息划分为多种类型。例如，使用表情特征表示目标对象的面部表情，使用动作特征表示目标对象的身体动作、使用手指特征表示目标对象的手指动作等待。初次之外，还可以进一步对初始特征信息的类型进行详细分类，例如可以按照五官将表情特征进一步划分为眉毛特征、眼部特征、耳部特征、鼻子特征以及嘴部特征等待。示例性地，可以通过动作捕捉或特征提取等方式从目标图像中得到初始特征信息。

可选地，以特征提取为例，通过HOG(Histogram of Oriented Gradient，方向梯度直方图)特征等方式可以获取得到目标图像中每个特征点的特征值。在一些典型的实施例中，通过预处理已经过滤了目标图像中的干扰信息，因此可以将目标图像中每个特征点及特征值作为目标对象的初始特征信息。

在HOG特征提取过程中，可以把目标图像分割为若干个像素的单元(cell)，通过对像素单元进行区间划分，进而按照像素梯度而得到每个区间的特征向量。可选地，可以将每个区间作为一个特征点，可以将每个区间的特征向量作为特征值，由此得到目标对象的初始特征信息。

步骤S320：若检测到所述初始特征信息中存在符合预设特征条件的第一参数特征点，对所述初始特征信息中所述第一参数特征点的特征值进行调整而得到目标特征信息。

在本申请的实施方式中，在生成虚拟形象之前，将对初始特征信息进行检测。示例性地，若检测到初始特征信息中存在符合预设特征条件的第一参数特征点，则对初始特征信息中第一参数特征点的特征值进行调整而得到目标特征信息。其中，通过预设特征条件可以筛选出目标图像中符合条件的目标对象的动作或表情特征，然后对表示该动作或表情特征的第一参数特征点的特征值进行调整，从而得到目标特征信息。

可选地，通过预设特征条件可以检测出目标对象不雅观的动作或表情，例如打喷嚏、打哈欠、跷二郎腿等等，同时，通过对第一参数特征点的特征值进行调整，可以将这些不雅观的动作或表情调整为自然而美观的动作或表情，由此得到目标特征信息。

可以理解的是，通过预设特征条件而筛选出的第一参数特征点可以是表示目标对象不雅观的动作或表情的身体部位的特征点。以打喷嚏为例，如图4所示，人在打喷嚏时通常嘴唇张开很大，因此为筛选出打喷嚏的动作，可以将预设特征条件中嘴部特征的特征值对应于“嘴唇张大”的特征值，由此检测到嘴部特征的特征值满足预设特征条件时，可以将该嘴部特征的特征点作为第一参数特征点，然后为了过滤掉“嘴唇张大”的嘴部特征，可以将初始特征信息中第一参数特征点(即嘴部特征的特征点)的特征值调整为“嘴唇微张”的特征值，如图5所示，由此得到目标特征信息。此时，目标特征信息中表示目标对象正在打喷嚏的“嘴唇张大”对应的特征值已经被调整为“嘴唇微张”对应的特征值，最终在生成的虚拟形象不会呈现出打喷嚏的动作，并且，通过对第一参数特征点的特征值进行调整，还可以使动作前后过渡更加自然。

在一些实施方式中，可以基于预先设置特征值而得到目标特征信息，例如，打喷嚏的例子中初始特征信息中嘴部特征的特征值可能表现为“嘴唇张大”，因此可以将对应的嘴唇特征的特征值调整为预先设置的“嘴唇微张”对应的特征值，即可以利用预设的动作、表情来替换掉不雅观的动作、表情。

在另一些实施方式中，也可以将预设特征条件设置为预设阈值范围，若检测到超出预设阈值范围的特征点，那么可以将该特征点的特征值调整到预设阈值范围内。具体处理过程请详见后续实施例中对应的内容。

步骤S330：基于所述目标特征信息生成虚拟形象。

在本申请的实施例中，通过对初始特征信息中第一参数特征点的特征值进行调整得到目标特征信息之后，可以基于该目标特征信息生成虚拟形象。

可选地，该虚拟形象可以根据目标对象部分或全部人脸形态的特征点集合，重建人脸局部或全部的图像而得到人物模型，该人物模型可以部分或全部地还原出目标对象的人脸特征，同时根据上述目标特征信息可以驱动该人物模型呈现出与目标对象一致的动作或表情。可选地，虚拟形象例如可以为3D角色。如图6所示，该虚拟形象也可以是从预先构建的虚拟人物库中选择的虚拟人物模型(例如可以选择“人物2”)，该虚拟人物模型的人脸特征与目标对象不同，但根据上述目标特征信息同样可以驱动该虚拟人物模型呈现出与目标对象一致的动作或表情。例如，当目标对象微笑时，虚拟形象也将做出同样的微笑表情；当目标对象挥手时，虚拟形象也将做出同样的挥手动作。

与此同时，由于在上一个步骤中已经通过预设特征条件筛选出目标图像中符合条件的目标对象的一些不雅观的动作或表情，并且通过对特征值进行调整，将这些不雅观的动作或表情调整为自然而美观的动作或表情，由此得到目标特征信息。因此，基于目标特征信息来生成的虚拟形象不会呈现出目标对象做出的不雅观动作或表情，并且，通过对不雅观动作的特征值进行调整，还可以使虚拟形象的动作或表情前后过渡更加自然。

步骤S340：将所述虚拟形象推送给与所述服务器相连接的至少一个终端，以使所述虚拟形象在所述至少一个终端上显示。

在生成虚拟形象之后，服务器可以将该虚拟形象推送给与服务器相连的终端，由此，在该终端上可以显示该虚拟形象。

在本申请的实施例中，可以允许多台终端同时接入服务器。例如，在直播场景下，目标对象作为主播，不同的观众可以使用手机、平板等终端收看跟随目标对象的动作、表情而变化的虚拟形象的演出；在视频聊天场景下，除了双人视频外，还可以在多人视频聊天中选择任一方来使用虚拟形象进行聊天。

不管是在上述直播场景、视频聊天场景，还是在实况游戏、全息投影、增强现实等场景下，都可能出现真实人物需要短暂休息或者出现不雅观的姿势等状态不良的情况。在本申请的实施例中，通过对初始特征信息进行筛选出真实人物不雅观的动作或表情，进而将这些不雅观的动作或表情调整生成自然而美观的动作或表情，从而得到了目标特征信息。因此，基于目标特征信息来生成的虚拟形象不会呈现出目标对象做出的不雅观动作或表情，并且，通过对不雅观动作的特征值进行调整，还可以使虚拟形象的动作或表情前后过渡更加自然，使得用户在观看以虚拟人物为主角的画面时可以体会到良好的用户体验。

综上所述，本实施例提供的虚拟形象的生成方法，应用于服务器。在获取到对目标图像内的目标对象检测而得到的初始特征信息后，若检测到所述初始特征信息中存在符合预设特征条件的第一参数特征点，对所述初始特征信息中所述第一参数特征点的特征值进行调整而得到目标特征信息。然后，基于所述目标特征信息生成虚拟形象，最后将所述虚拟形象推送给与所述服务器相连接的至少一个终端，以使所述虚拟形象在所述至少一个终端上显示。本申请可以将采集到的真人演员满足预设条件的图像特征进行处理，过滤掉真人演员不雅观的动作、表情，使得根据真人演员而生成的虚拟形象能够提供更好的视觉效果，进而提高用户体验。

可选地，本实施例在上述实施例的基础上，还提供一种虚拟形象的生成方法，可以将目标图像中每个特征点的特征值中存在超出预设阈值范围的特征点作为第一参数特征点。接着，将初始特征信息中第一参数特征点的特征值调整为目标特征值，以得到目标特征信息，其中，目标特征值位于预设阈值范围内，可以平缓地将不雅观的动作或表情调整为具有观赏性的正常动作或表情。请参阅图7，其示出了本申请另一实施例提供的虚拟形象的生成方法的流程示意图，应用于服务器。所述虚拟性了的生成方法具体可以包括如下步骤：

步骤S710：获取对目标图像内的目标对象检测而得到的初始特征信息。

具体地，步骤S710的具体描述请参阅前述实施例中的步骤S310，在此不再赘述。

步骤S720：将所述目标图像中每个特征点的特征值中存在超出预设阈值范围的特征点作为所述第一参数特征点。

在本申请的实施例中，可以将预设特征条件设置为预设阈值范围，将目标图像中每个特征点的特征值中存在超出预设阈值范围的特征点作为第一参数特征点。

示例性地，若嘴部特征的特征值越大，表示嘴唇张得越开，因此可以将正常情况下的嘴部特征的特征值设置在预设阈值范围内。例如，嘴部特征的特征值t为0表示嘴唇闭着，嘴部特征的特征值t为1表示嘴唇张开至最大，嘴部特征的特征值t越大表示嘴唇张得越开，其中，可以设置嘴部特征的预设阈值T为0.8，当嘴部特征的特征值超过0.8表示当前嘴唇张开的幅度已经超过正常范围，当前目标对象可能正在打喷嚏。若检测到嘴部特征的特征值t为0.9，已超过预设阈值T，则将特征值t为0.9对应的特征点作为第一参数特征点。

此外，还可以将特征点的坐标值作为特征值，例如，识别嘴唇的唇线位置的点作为嘴部特征的特征点，可以设置嘴部特征的特征点与水平轴线间的坐标间隔，将坐标间隔超过预设阈值的嘴部特征的特征点作为第一参数特征点。

在一些实施方式中，除了检测目标图像中每个特征点的特征值外，还可以与目标图像相邻的相邻图像的特征点，由此可以根据目标对象的前后动作变化情况来判断目标对象当前动作是否合理，减少误判。具体地，请参阅图8，其示出了本申请又一实施例提供的虚拟形象的生成方法的流程示意图，应用于服务器。所述虚拟形象的生成方法具体可以包括如下步骤：

步骤S810：将所述目标图像中每个特征点的特征值中存在超出预设阈值范围的特征点作为初始参考点。

在本申请的实施例中，首先可以将目标图像里每个特征点的特征值中存在超出预设阈值范围的特征点作为初始参考点。

可选地，可以通过特征值的大小变化关系来设置预设阈值，例如若特征值越大，特征点所表示的特征越明显，则可以设置一个阈值上限来限制特征点。可选地，也可以将特征点的坐标值作为特征值，通过设置坐标范围来限制特征点。

步骤S820：将所述目标图像的相邻图像中每个初始参考点的特征值与所述目标图像中每个初始参考点的特征值进行比较，得到每个初始参考点的特征变化值。

进一步地，在得到特征值超出预设阈值范围的初始参考点后，可以将目标图像的相邻图像中每个初始参考点的特征值与目标图像中每个初始参考点的特征值进行比较，从而得到同一个初始参考点在相邻的图像间的特征变化值。可以理解的是，摄像头在采集目标对象的视频时，视频中通过对比相邻图像可以展示出目标对象的动作变化情况，因此，通过对目标图像和相邻图像中同一初始参考点的特征值进行比较而得到特征变化值即可对动作变化情况进行量化。

步骤S830：将所述每个初始参考点的特征变化值中超出预设变化范围的初始参考点作为所述第一参数特征点。

更进一步地，可以将每个初始参考点的特征变化值与预设变化范围进行比较，特征变化值超过了预设变化范围，则表示目标对象的前后动作变化情况比较突兀，例如突然打喷嚏或者出现其他突发情况等等。通过将相邻图像的特征值纳入参考，可以根据目标对象的前后动作变化情况来判断目标对象当前动作是否合理，使得不雅观动作的判断更加准确，减少误判。

在另一些实施方式中，也可以直接将目标图像的特征值与相邻图像的特征值进行比较，同样可以达到根据目标对象的前后动作变化情况来判断目标对象当前动作是否合理，减少误判的目的。具体地，请参阅图9，其示出了本申请再一实施例提供的虚拟形象的生成方法的流程示意图，应用于服务器。所述虚拟形象的生成方法具体可以包括如下步骤：

步骤S910：将所述目标图像的相邻图像中每个特征点的特征值与所述目标图像中每个特征点的特征值进行比较，得到每个特征点的特征变化值。

在本实施例中，可以直接将目标图像的相邻图像中每个特征点的特征值与目标图像中每个特征点的特征值进行比较，从而得到每个特征点的特征变化值。例如，对于嘴部特征的特征点A，可以得到目标图像中特征点A的特征值t1，以及与目标图像相邻的相邻图像中同一个特征点A的特征值t2，然后对这两个特征值做差值比较，得到特征点A的特征变化值Δt为t1-t2。

步骤S920：将所述每个特征点的特征变化值中超出预设变化范围的特征点作为所述第一参数特征点。

进一步地，可以设置一个预设变化范围，用来约束每个特征点的特征变化值的大小。可以将特征变化值中超出预设变化范围的特征点作为第一参数特征点。

同样以上述步骤中的特征点A为例，若预设变化范围为ΔT，若检测到Δt超出了ΔT的范围，那么可以将特征点A作为第一参数特征点。

步骤S730：将所述初始特征信息中所述第一参数特征点的特征值调整为目标特征值，以得到所述目标特征信息，其中，所述目标特征值位于所述预设阈值范围内。

在本申请的实施例中，在目标图像的初始特征信息中找到超出预设阈值范围的第一参数特征点，可以表示目标对象的当前动作不是正常动作，可能是不雅观的动作或表情，例如打喷嚏、打哈欠、跷二郎腿等等，因此需要对第一参数特征点的特征值进行调整，使得调整后得到目标特征值在预设阈值范围内，可以将不雅观的动作、表情调整为美观而自然的动作或表情。

示例性地，若嘴部特征的预设阈值T为0.8，若检测到嘴部特征的特征值t为0.9，超过了预设阈值T，则将特征值t为0.9对应的特征点作为第一参数特征点。接着，可以将该第一参数特征点的特征值t＝0.9调小，例如可以将特征值调整到目标特征值0.7等等。可以理解的是，目标特征值可以预先设置。应当理解，为了使目标特征信息的变化较为自然，可以将目标特征值设置为一个靠近预设阈值范围的特征值。

步骤S740：基于所述目标特征信息生成虚拟形象。

在一些实施方式中，基于目标特征信息生成虚拟形象之前，可以检测目标特征信息中每个特征点是否存在信息缺失的情况。

具体地，可以检测目标特征信息中是否存在特征点缺失，每个特征点是否都有特征值，以及每个特征点的特征值的范围是否处于正常范围内(以嘴部特征的特征值为例，若嘴部特征的特征值的正常范围在0～1之间，包括两个端点值，若检测到嘴部特征的特征值超过1，例如为1.2，则表示该特征点异常，可能由于干扰信息的存在导致我们想要的正常信息的缺失)。

若确实存在信息缺失的情况，可以持续检测目标特征信息中的每个特征点，根据目标特征信息中每个特征点的特征值变化情况生成每个特征点的补充信息。在信息缺失的情况下，可以根据特征点的特征值的前后变化情况来生成补充信息，然后将每个特征点的补充信息添加到目标特征信息中对应特征点上以更新目标特征信息。

示例性地，若由采集设备卡顿等情况，导致对目标对象的人脸面部表情特征中缺少了眉毛特征，可以对比对目标对象采集的前后眉毛特征，通过前后眉毛特征的变化情况得到相对正常的眉毛特征，来生成眉毛特征的补充信息，然后将该补充信息添加到眉毛特征对应的特征点上，得到更新完成的目标特征信息，此时，由于补充信息是根据前后眉毛特征的变化情况而得到的，能够较为自然地补回丢失的眉毛特征。

在本实施例中，在通过对初始特征信息中第一参数特征点的特征值进行调整得到满足预设阈值条件的目标特征信息之后，可以基于该目标特征信息生成虚拟形象。

具体地，步骤S740的具体描述请参阅前述实施例中的步骤S330，在此不再赘述。

步骤S750：将所述虚拟形象推送给与所述服务器相连接的至少一个终端，以使所述虚拟形象在所述至少一个终端上显示。

在一些实施方式中，在将虚拟形象推送给与服务器相连接的至少一个终端之前，还可以采集目标对象的音频信息，然后对音频信息进行处理。具体地，请参阅图10，其示出了本申请一实施例提供的虚拟形象的生成方法的音频处理流程示意图，应用于服务器。所述虚拟形象的生成方法具体可以包括如下步骤：

步骤S1010：获取所述目标对象的音频信息。

在本实施例中，首先可以获取目标对象的音频信息。例如可以使用麦克风等录音设备来对目标对象进行实时录音。可以理解的是，为了使呈现出来的虚拟形象的画面与声音一致，采集音频信息的过程与采集目标图像的过程应当同时进行。然后录音设备将音频信息发送给服务器进行处理。

步骤S1020：若检测到所述音频信息符合预设音频条件，对所述音频信息进行消音处理。

可选地，可以对目标对象的音频信息进行音频检测，检测音频信息是否符合预设音频条件。若符合预设音频条件，则将对音频信息进行消音处理。

在本申请的实施例中，预设音频条件用于筛选出音频信息中不适于公开播放的声音，例如较为嘈杂的音频、涉及敏感言论的内容以及不文明的内容等等。

进一步地，为了筛选出不舍于公开播放的声音，可以对目标对象的音频信息进行语音识别，识别音频信息中是否包含预设词汇。其中，预设词汇例如包括上述涉及敏感言论的内容、不文明的词语以及其他不适合公开播放的声音等等。可以理解的是，若包含所述预设词汇，则表示音频信息符合预设音频条件，将对音频信息进行消音处理；若不包含所述预设词汇，则表示音频信息不符合所述预设音频条件。

步骤S1030：若所述音频信息不符合所述预设音频条件，基于所述音频信息驱动所述虚拟形象发出声音。

在一些实施方式中，若检测到音频信息不符合预设音频条件，即音频信息中不存在不适于公开播放的声音，那么可以基于该音频信息驱动虚拟形象发出声音。可选地，为了使虚拟形象呈现出来的画面与声音一致，在驱动虚拟形象发出声音时，还可以将目标特征信息表示的图像画面与音频信息一起进行音轨合成。

除此之外，在另一些实施方式中，在基于音频信息驱动所述虚拟形象发出声音之前，还可以检测该音频信息是否存在音频缺失。若检测到该音频信息存在音频缺失，可以对音频信息进行语音识别，以得到该音频信息所包含的语音内容，然后根据语音内容的上下文语义生成语音内容的语音补充信息，最后将语音补充信息添加到音频信息中。

例如，在某些网络信号不好的场所(如地铁上等)，目标对象采集得到音频信息可能会出现断断续续的情况，此时可以根据音频信息的实际含义和上下文情况，对缺失的音频信息进行补充。

在本实施例中，生成了虚拟形象之后，服务器可以将该虚拟形象推送给与服务器相连的终端，由此，在该终端上可以显示该虚拟形象。

可以理解的是，基于目标特征信息而生成的虚拟形象不会呈现出目标对象作出的不雅观动作或表情，并且，通过对不雅观动作的特征值进行调整，还可以使虚拟形象的动作或表情前后过渡更加自然，使得用户在观看以虚拟人物为主角的画面时可以体会到良好的用户体验。此外，通过采集目标对象的音频信息，然后根据处理后的音频信息使虚拟形象发出声音，还可以使用户同时体验到音频和视频的双重享受，提高了用户的使用体验。

综上所述，本实施例提供的虚拟形象的生成方法，应用于服务器。在获取到对目标图像内的目标对象检测而得到的初始特征信息后，将目标图像中每个特征点的特征值中存在超出预设阈值范围的特征点作为第一参数特征点。接着，将初始特征信息中第一参数特征点的特征值调整为目标特征值，以得到目标特征信息，其中，目标特征值位于预设阈值范围内。然后，基于目标特征信息生成虚拟形象，最后将虚拟形象推送给与服务器相连接的至少一个终端，以使虚拟形象在所述至少一个终端上显示。本申请可以将采集到的真人演员满足预设条件的图像特征进行处理，过滤掉真人演员不雅观的动作、表情，同时可以平缓地将不雅观的动作或表情调整为具有观赏性的正常动作或表情，使得根据真人演员而生成的虚拟形象能够提供更好的视觉效果，进而提高用户体验。

请参阅图11，示出了本申请一实施例提供的虚拟形象的生成装置的模块框图。具体地，该装置用于服务器，该装置包括：获取模块1110、判断模块1120、形象生成模块1130以及终端推送模块1140。

其中，获取模块1110，用于获取对目标图像内的目标对象检测而得到的初始特征信息；判断模块1120，用于若检测到所述初始特征信息中存在符合预设特征条件的第一参数特征点，对所述初始特征信息中所述第一参数特征点的特征值进行调整而得到目标特征信息；形象生成模块1130，用于基于所述目标特征信息生成虚拟形象；终端推送模块1140，用于将所述虚拟形象推送给与所述服务器相连接的至少一个终端，以使所述虚拟形象在所述至少一个终端上显示。

可选地，在一些实施方式中，上述判断模块1120可以包括：第一检测模块，用于将所述目标图像中每个特征点的特征值中存在超出预设阈值范围的特征点作为所述第一参数特征点；第一调整模块，用于将所述初始特征信息中所述第一参数特征点的特征值调整为目标特征值，以得到所述目标特征信息，其中，所述目标特征值位于所述预设阈值范围内。

进一步地，上述第一检测模块可以包括：第一检测子模块，用于将所述目标图像中每个特征点的特征值中存在超出预设阈值范围的特征点作为初始参考点；第一比较模块，用于将所述目标图像的相邻图像中每个初始参考点的特征值与所述目标图像中每个初始参考点的特征值进行比较，得到每个初始参考点的特征变化值；第二检测子模块，用于将所述每个初始参考点的特征变化值中超出预设变化范围的初始参考点作为所述第一参数特征点。

可选地，在另一些实施方式中，上述判断模块1120可以包括：第二比较模块，用于将所述目标图像的相邻图像中每个特征点的特征值与所述目标图像中每个特征点的特征值进行比较，得到每个特征点的特征变化值；第二检测模块，用于将所述每个特征点的特征变化值超出预设变化范围的特征点作为所述第一参数特征点。

可选地，上述装置还可以包括：第三检测模块，用于检测所述目标特征信息中的每个特征点是否信息缺失；第一信息生成模块，用于若信息缺失，持续检测所述目标特征信息中的每个特征点，根据所述目标特征信息中每个特征点的特征值变化情况生成每个所述特征点的补充信息；更新模块，用于将所述每个所述特征点的补充信息添加到所述目标特征信息中对应特征点上以更新所述目标特征信息。

在一些实施例中，上述装置还可以包括：音频获取模块，用于获取所述目标对象的音频信息；音频检测模块，用于若检测到所述音频信息符合预设音频条件，对所述音频信息进行消音处理；音频驱动模块，用于若所述音频信息不符合所述预设音频条件，基于所述音频信息驱动所述虚拟形象发出声音。

进一步地，上述预设音频条件包括：对所述音频信息进行语音识别，识别所述音频信息中是否包含预设词汇；若包含所述预设词汇，则所述音频信息符合所述预设音频条件；若不包含所述预设词汇，则所述音频信息不符合所述预设音频条件。

进一步地，上述音频驱动模块可以包括：语音识别模块，用于若检测到所述音频信息存在音频缺失，对所述音频信息进行语音识别得到所述音频信息包含的语音内容；第二信息生成模块，用于根据所述语音内容的上下文语义生成所述语音内容的语音补充信息；音频补充模块，用于将所述语音补充信息添加到所述音频信息中。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述装置中模块/单元/子单元/组件的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，所显示或讨论的模块相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或模块的间接耦合或通信连接，可以是电性，机械或其它的形式。

另外，在本申请各个实施例中的各功能模块可以集成在一个处理模块中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。

请参阅图12，其示出了本申请一实施例提供的服务器的结构框图。该服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(Content Delivery Network，内容分发网络)、以及大数据和人工智能平台等基础云计算服务的云服务器，还可以是提供车联网服务、路网协同、车路协同、智能交通、自动驾驶、工业互联网服务、数据通信(如4G、5G等)等专门或平台服务器。本申请中的服务器可以包括一个或多个如下部件：处理器1210、存储器1220以及一个或多个应用程序，其中一个或多个应用程序可以被存储在存储器1220中并被配置为由一个或多个处理器1210执行，一个或多个应用程序配置用于执行如前述方法实施例所描述的方法。

处理器1210可以包括一个或者多个处理核。处理器1210利用各种接口和线路连接整个服务器内的各个部分，通过运行或执行存储在存储器1220内的指令、应用程序、代码集或指令集，以及调用存储在存储器1220内的数据，执行服务器的各种功能和处理数据。可选地，处理器1210可以采用数字信号处理(Digital Signal Processing，DSP)、现场可编程门阵列(Field－Programmable Gate Array，FPGA)、可编程逻辑阵列(Programmable LogicArray，PLA)中的至少一种硬件形式来实现。处理器1210可集成中央处理器(CentralProcessing Unit，CPU)、图像处理器(Graphics Processing Unit，GPU)和调制解调器等中的一种或几种的组合。其中，CPU主要处理操作系统、用户界面和应用程序等；GPU用于负责显示内容的渲染和绘制；调制解调器用于处理无线通信。可以理解的是，上述调制解调器也可以不集成到处理器1210中，单独通过一块通信芯片进行实现。

存储器1220可以包括随机存储器(Random Access Memory，RAM)，也可以包括只读存储器(Read-Only Memory)。存储器1220可用于存储指令、应用程序、代码、代码集或指令集。存储器1220可包括存储程序区和存储数据区，其中，存储程序区可存储用于实现操作系统的指令、用于实现至少一个功能的指令(比如触控功能、声音播放功能、图像播放功能等)、用于实现下述各个方法实施例的指令等。存储数据区还可以服务器在使用中所创建的数据(比如电话本、音视频数据、聊天记录数据)等。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的服务器的处理器1210、存储器1220的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

请参考图13，其示出了本申请一实施例提供的计算机可读存储介质的结构框图。该计算机可读存储介质1300中存储有程序代码，所述程序代码可被处理器调用执行上述方法实施例中所描述的方法。

计算机可读存储介质1300可以是诸如闪存、EEPROM(电可擦除可编程只读存储器)、EPROM、硬盘或者ROM之类的电子存储器。可选地，计算机可读存储介质1300包括非易失性计算机可读存储介质(non-transitory computer-readable storage medium)。计算机可读存储介质1300具有执行上述方法中的任何方法步骤的程序代码1310的存储空间。这些程序代码可以从一个或者多个计算机程序产品中读出或者写入到这一个或者多个计算机程序产品中。程序代码1310可以例如以适当形式进行压缩。其中，计算机可读存储介质1300可以是如只读存储器(Read-Only Memory，简称ROM)、随机存取存储器(Random AccessMemory，简称RAM)、SSD、带电可擦可编程只读存储器(Electrically ErasableProgrammable read only memory，简称EEPROM)或快闪存储器(Flash Memory，简称Flash)等。

在一些实施例中，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述各方法实施例中的步骤。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、SSD、Flash)中，包括若干指令用以使得一台终端(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本申请各个实施例的方法。

最后应说明的是：以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不驱使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种虚拟形象的生成方法，其特征在于，应用于服务器，所述方法包括：

获取对目标图像内的目标对象检测而得到的初始特征信息；

若检测到所述初始特征信息中存在符合预设特征条件的第一参数特征点，对所述初始特征信息中所述第一参数特征点的特征值进行调整而得到目标特征信息；

检测所述目标特征信息中的每个特征点是否信息缺失；

若信息缺失，持续检测所述目标特征信息中的每个特征点，根据所述目标特征信息中每个特征点的特征值变化情况生成每个所述特征点的补充信息；

将所述每个所述特征点的补充信息添加到所述目标特征信息中对应特征点上以更新所述目标特征信息；

基于所述目标特征信息生成虚拟形象；

将所述虚拟形象推送给与所述服务器相连接的至少一个终端，以使所述虚拟形象在所述至少一个终端上显示。

2.根据权利要求1所述的方法，其特征在于，所述若检测到所述初始特征信息中存在符合预设特征条件的第一参数特征点，对所述初始特征信息中所述第一参数特征点的特征值进行调整而得到目标特征信息，包括：

将所述目标图像中每个特征点的特征值中存在超出预设阈值范围的特征点作为所述第一参数特征点；

将所述初始特征信息中所述第一参数特征点的特征值调整为目标特征值，以得到所述目标特征信息，其中，所述目标特征值位于所述预设阈值范围内。

3.根据权利要求2所述的方法，其特征在于，所述将所述目标图像中每个特征点的特征值中存在超出预设阈值范围的特征点作为所述第一参数特征点，包括：

将所述目标图像中每个特征点的特征值中存在超出预设阈值范围的特征点作为初始参考点；

将所述目标图像的相邻图像中每个初始参考点的特征值与所述目标图像中每个初始参考点的特征值进行比较，得到每个初始参考点的特征变化值；

将所述每个初始参考点的特征变化值中超出预设变化范围的初始参考点作为所述第一参数特征点。

4.根据权利要求2所述的方法，所述将所述目标图像中每个特征点的特征值中存在超出预设阈值范围的特征点作为所述第一参数特征点，包括：

将所述目标图像的相邻图像中每个特征点的特征值与所述目标图像中每个特征点的特征值进行比较，得到每个特征点的特征变化值；

将所述每个特征点的特征变化值超出预设变化范围的特征点作为所述第一参数特征点。

5.根据权利要求1-4中任一项所述的方法，其特征在于，所述将所述虚拟形象推送给与所述服务器相连接的至少一个终端之前，还包括：

获取所述目标对象的音频信息；

若检测到所述音频信息符合预设音频条件，对所述音频信息进行消音处理；

若所述音频信息不符合所述预设音频条件，基于所述音频信息驱动所述虚拟形象发出声音。

6.根据权利要求5所述的方法，其特征在于，所述预设音频条件包括：

对所述音频信息进行语音识别，识别所述音频信息中是否包含预设词汇；

若包含所述预设词汇，则所述音频信息符合所述预设音频条件；

若不包含所述预设词汇，则所述音频信息不符合所述预设音频条件。

7.根据权利要求5所述的方法，其特征在于，所述基于所述音频信息驱动所述虚拟形象发出声音之前，还包括：

若检测到所述音频信息存在音频缺失，对所述音频信息进行语音识别得到所述音频信息包含的语音内容；

根据所述语音内容的上下文语义生成所述语音内容的语音补充信息；

将所述语音补充信息添加到所述音频信息中。

8.一种虚拟形象的生成装置，其特征在于，应用于服务器，所述装置包括：

获取模块，用于获取对目标图像内的目标对象检测而得到的初始特征信息；

判断模块，用于若检测到所述初始特征信息中存在符合预设特征条件的第一参数特征点，对所述初始特征信息中所述第一参数特征点的特征值进行调整而得到目标特征信息；

形象生成模块，用于检测所述目标特征信息中的每个特征点是否信息缺失；若信息缺失，持续检测所述目标特征信息中的每个特征点，根据所述目标特征信息中每个特征点的特征值变化情况生成每个所述特征点的补充信息；将所述每个所述特征点的补充信息添加到所述目标特征信息中对应特征点上以更新所述目标特征信息；基于所述目标特征信息生成虚拟形象；

终端推送模块，用于将所述虚拟形象推送给与所述服务器相连接的至少一个终端，以使所述虚拟形象在所述至少一个终端上显示。

9.一种服务器，其特征在于，包括：

一个或多个处理器；

存储器；

一个或多个程序，其中所述一个或多个程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个程序配置用于执行如权利要求1-7中任意一项所述的方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有程序代码，所述程序代码可被处理器调用执行如权利要求1-7中任意一项所述的方法。

11.一种包含指令的计算机程序产品，其特征在于，所述计算机程序产品中存储有指令，当其在计算机上运行时，使得计算机实现如权利要求1-7任一项所述的方法。