CN113542624A

CN113542624A - 生成商品对象讲解视频的方法及装置

Info

Publication number: CN113542624A
Application number: CN202110592371.3A
Authority: CN
Inventors: 贺欣; 李晓霞; 罗智凌; 黄玉龙; 谢佳雯
Original assignee: Alibaba Singapore Holdings Pte Ltd
Current assignee: Alibaba Singapore Holdings Pte Ltd
Priority date: 2021-05-28
Filing date: 2021-05-28
Publication date: 2021-10-22

Abstract

本申请实施例公开了生成商品对象讲解视频的方法及装置，所述方法包括：获取用于进行视频合成的原始素材，所述原始素材包括：与目标人物形象相关的第一图像素材，以及用于对目标商品对象进行讲解的语音素材；所述第一图像素材中包括所述目标人物形象的脸部图像；利用所述语音素材中的音素信息对所述脸部图像进行唇形驱动，得到第二图像素材；将所述第二图像素材与所述语音素材进行合成，获得目标人物形象的唇形与所述音素信息同步变化的目标素材，以用于生成所述目标商品对象的讲解视频。通过本申请实施例，能够以更低的成本为商品对象生成讲解视频。

Description

生成商品对象讲解视频的方法及装置

技术领域

本申请涉及视频合成技术领域，特别是涉及生成商品对象讲解视频的方法及装置。

背景技术

在传统的商品对象信息系统中，通常可以通过图片、文字、视频等方式对商品对象进行介绍。随着直播、短视频形式的兴起，以及移动终端设备的普及，使得商家可以通过“真人讲解”(也称“口播”等)方式来实现对商品对象的介绍，例如，包括直播或者通过短视频进行讲解等。由于在真人讲解过程中可以由真人对着镜头对商品的细节进行介绍，因此，可以实现“人、货、场”相结合。比起传统的平面图片等而言，更加直观且生动，可以让消费者更直接地看到商品的方方面面。另外，结合“主播”现场的语言和情绪等，也可以让商品显得更加的真实，尤其是在直播过程中，还可以通过互动获得“主播”的即时反馈，从而降低信任成本，便于达成交易。

但是，由于真人直播或者录制真人讲解的短视频对“主播”的形象以及口才等都具有比较高的要求，要想获得理想的效果，商家需要邀请形象好且口才好的“主播”进行直播或者短视频的录制，因此，使得商家的成本可能会比较高且产量受限。为此，现有技术中，用于对商品进行真人讲解的短视频通常可以是从直播视频中进行截取生成的。也就是说，一场直播中，“主播”可能会依次对多件商品进行介绍，因此，可以对直播的过程中进行录制，并截取成多段短视频，成为对应商品的讲解视频。这种方式下，由于不再需要额外录制讲解视频等，因此，可以帮助商家用户节省成本。但是会受到直播讲解范围的限制，如果某商品没有被“主播”在直播中介绍过，则无法生成对应的讲解视频。

因此，如何以更低的成本为商品对象生成讲解视频，成为需要本领域技术人员解决的技术问题。

发明内容

本申请提供了生成商品对象讲解视频的方法及装置，能够以更低的成本为商品对象生成讲解视频。

本申请提供了如下方案：

一种为商品对象生成讲解视频的方法，包括：

获取用于进行视频合成的原始素材，所述原始素材包括：与目标人物形象相关的第一图像素材，以及用于对目标商品对象进行讲解的语音素材；所述第一图像素材中包括所述目标人物形象的脸部图像；

利用所述语音素材中的音素信息对所述脸部图像进行唇形驱动，得到第二图像素材；

将所述第二图像素材与所述语音素材进行合成，获得目标人物形象的唇形与所述音素信息同步变化的目标素材，以用于生成所述目标商品对象的讲解视频。

一种商品对象信息发布方法，包括：

在商品对象信息发布界面中提供用于为目标商品对象生成讲解视频的操作选项；

通过所述操作选项接收用于进行视频合成的原始素材，所述原始素材包括：与目标人物形象相关的第一图像素材，以及用于对目标商品对象进行讲解的语音素材；所述第一图像素材中包括所述目标人物形象的脸部图像；

将所述第二图像素材与所述语音素材进行合成，获得目标人物形象的唇形与所述音素信息同步变化的目标素材，以用于生成所述目标商品对象的讲解视频并返回；

接收到对所述讲解视频的发布请求后，将所述讲解视频发布到所述目标商品对象关联的目标信息页面中。

一种素材合成方法，包括：

确定与目标人物形象相关的第一图像素材，以及语音素材；所述第一图像素材中包括所述目标人物形象的脸部图像；

将所述第一图像素材与所述目标语音素材进行时间轴对齐处理后，从第一图像素材中提取脸部图像帧序列，以及脸部图像坐标序列，并从所述语音素材中提取语音帧序列；

将所述脸部图像帧序列以及所述语音帧序列输入到语音驱动唇形算法模型中，并与用于提升图像分辨率的算法、用于提升细节清晰度的算法和/或唇部判决算法相结合，获得唇形与音素同步变化的目标脸部图像帧序列；

根据所述脸部图像坐标序列，将所述目标脸部图像帧序列替换到第一图像素材中，获得第二图像素材；

将所述第二图像素材与所述语音素材进行合成，获得目标人物形象的唇形与所述音素信息同步变化的目标素材。

一种为商品对象生成讲解视频的装置，包括：

原始素材获取单元，用于获取用于进行视频合成的原始素材，所述原始素材包括：与目标人物形象相关的第一图像素材，以及用于对目标商品对象进行讲解的语音素材；所述第一图像素材中包括所述目标人物形象的脸部图像；

唇形驱动单元，用于利用所述语音素材中的音素信息对所述脸部图像进行唇形驱动，得到第二图像素材；

素材合成单元，用于将所述第二图像素材与所述语音素材进行合成，获得目标人物形象的唇形与所述音素信息同步变化的目标素材，以用于生成所述目标商品对象的讲解视频。

一种商品对象信息发布装置，包括：

操作选项提供单元，用于在商品对象信息发布界面中提供用于为目标商品对象生成讲解视频的操作选项；

原始素材接收单元，用于通过所述操作选项接收用于进行视频合成的原始素材，所述原始素材包括：与目标人物形象相关的第一图像素材，以及用于对目标商品对象进行讲解的语音素材；所述第一图像素材中包括所述目标人物形象的脸部图像；

唇形驱动单元，用于利用所述语音素材中的音素信息对所述脸部图像进行唇形驱动，得到目标人物形象的唇形与所述音素信息同步变化的第二图像素材；

素材合成单元，用于将所述第二图像素材与所述语音素材合成为通过所述目标人物形象对所述商品对象进行讲解的目标素材，以用于生成所述目标商品对象的讲解视频并返回；

讲解视频发布单元，用于接收到对所述讲解视频的发布请求后，将所述讲解视频发布到所述目标商品对象关联的目标信息页面中。

一种素材合成装置，包括：

素材确定单元，用于确定与目标人物形象相关的第一图像素材，以及语音素材；所述第一图像素材中包括所述目标人物形象的脸部图像；

序列提取单元，用于将所述第一图像素材与所述目标语音素材进行时间轴对齐处理后，从第一图像素材中提取脸部图像帧序列，以及脸部图像坐标序列，并从所述语音素材中提取语音帧序列；

唇形驱动单元，用于将所述脸部图像帧序列以及所述语音帧序列输入到语音驱动唇形算法模型中，并与用于提升图像分辨率的算法、用于提升细节清晰度的算法和/或唇部判决算法相结合，获得唇形与音素同步变化的目标脸部图像帧序列；

图像替换单元，用于根据所述脸部图像坐标序列，将所述目标脸部图像帧序列替换到第一图像素材中，获得第二图像素材；

素材合成单元，用于将所述第二图像素材与所述语音素材进行合成，获得目标人物形象的唇形与所述音素信息同步变化的目标素材。

一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述任一项所述的方法的步骤。

一种电子设备，包括：

一个或多个处理器；以及

与所述一个或多个处理器关联的存储器，所述存储器用于存储程序指令,所述程序指令在被所述一个或多个处理器读取执行时，执行上述任一项所述的方法的步骤。

根据本申请提供的具体实施例，本申请公开了以下技术效果：

通过本申请实施例，如果用户需要为某目标商品对象生成讲解视频，则只需要提供与目标人物形象相关的第一图像素材，以及用于对所述目标商品对象进行讲解的语音素材。之后，视频合成工具便可以利用所述语音素材中的音素信息对第一图像素材中包括的人物形象的脸部图像进行唇形驱动，并将所得到的第二图像素材与所述语音素材合成为目标素材，该目标素材便可以用于生成目标商品对象的讲解视频。通过这种方式，在取得第一图像素材的过程中，可以降低对目标人物语言及口头表述能力方面的要求，不需要目标人物花时间去准备或者背诵讲解台词，或者，也可以使用目标人物过往录制过的视频，甚至还可以使用通过计算机合成技术合成的虚拟人物形象，等等，因此，可以降低商品对象讲解视频的生产成本。

当然，实施本申请的任一产品并不一定需要同时达到以上所述的所有优点。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的系统架构的示意图；

图2是本申请实施例提供的第一方法的流程图；

图3是本申请实施例提供的视频合成算法的示意图；

图4是本申请实施例提供的第二方法的流程图；

图5是本申请实施例提供的第三方法的流程图；

图6是本申请实施例提供的第一装置的示意图；

图7是本申请实施例提供的第二装置的示意图；

图8是本申请实施例提供的第三装置的示意图；

图9是本申请实施例提供的电子装置的示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员所获得的所有其他实施例，都属于本申请保护的范围。

在本申请实施例中，为了帮助商家用户以更低的成本进行讲解或者口播类视频的生产，可以为商家用户提供用于进行视频合成的工具。在该工具中，首先可以提供唇形编辑功能，由用户指定具体所需的与目标人物形象相关的第一图像素材(照片或者视频、动图等)，以及另一份用于对第一图像素材中的脸部图像进行唇形驱动的语音素材。其中，第一图像素材可以是对任意人物形象进行拍摄等获得的素材，语音素材主要包含用于对目标商品对象进行讲解的语音内容。之后，该视频合成工具可以通过将两份素材进行合成的方式，生成音画同步的目标素材。其中，在具体进行合成时，可以使用语音/音素驱动唇形变化的相关算法来进行。也即，直接通过语音素材中的音素信息，来驱动第一图像素材中的唇形变化，使得生成的第二图像素材中，使用所述目标人物形象以及语音素材中的语音内容“出镜”，并且目标人物形象的唇形变化与语音内容同步。

之后，由于最终的目的是生成与具体目标商品对象相关的讲解视频等，因此，通常还需要在最终的讲解视频中体现与该目标商品对象相关的内容；具体实现时，可能存在两种情况。其中一种情况是，第一图像素材中也包含了目标商品对象相关的图像内容，例如，可能是请某人物专门为目标商品对象录制了视频(例如，手持、面对、穿戴着具体目标商品对象的状态下进行的视频录制)，但是，在录制的过程中，该人物并没有对该目标商品对象进行语音讲解，而只是配合做出一些动作，或者，只是象征性地念出“1、2、3……”等语音内容。此时，由于第一图像素材中已经包含商品对象的相关图像内容，因此，在通过唇形同步处理，获得人物形象的唇形与讲解音频中的因素同步的目标素材之后，可以直接将该目标素材确定为该商品对象的讲解视频。

或者，另一种情况下，第一图像素材中可能并不存在与该目标商品对象相关的内容，例如，可能是具体的人物形象对其他商品对象进行讲解时录制的视频，等等。因此，用户还可以单独提供具体商品对象相关的第三图像素材，同时，该视频合成工具还可以提供素材剪辑功能。利用该素材剪辑功能，可以将前述生成的音画同步的目标素材(可以为多份)，与具体目标商品对象对应的第三图像素材进行组合，例如，具体可以通过画中画、画面拼接、镜头切换等方式，组合成用于对具体商品对象进行讲解的视频。这样，最终生成的视频中，既可以包括目标人物形象，又可以包括商品对象的图像内容，另外还可以使得该人物形象的唇形运动与讲解内容同步变化。

具体从系统架构角度而言，参见图1，本申请实施例可以提供视频合成工具，该视频合成工具可以运行于云端服务器，并为用户提供相关的访问网页，用户通过在网页中上传或者选择相关的素材，其中包括与目标人物形象相关的图像素材，以及用于对目标商品对象进行讲解的音频素材，该视频合成工具便可以利用语音驱动唇形算法，得到人物形象的唇形与所述音素信息同步变化的第二图像素材，并与语音素材合成为目标素材，该目标素材即可为用户生成关于具体商品对象的讲解视频。之后，用户可以将讲解视频向具体商品对象信息系统的相关页面中进行投放，包括商品对象详情页，等等。

具体实现时，上述视频合成功能还可以封装为功能模块，以便在具体的场景中通过调用该功能模块的方式实现视频合成功能。例如，可以在商品对象发布界面中提供用于进行视频合成的操作选项，此时，可以通过该操作选项接收到用户的请求后，接收用户提交的原始素材，并通过调用对应的视频合成功能模块，为用户生成人物形象的唇形与所述音素信息同步变化的目标素材，以用于生成商品对象的讲解视频，之后，可以对该讲解视频进行发布。

下面对本申请实施例的具体实现方案进行详细介绍。

实施例一

首先，该实施例一从前述视频合成工具的角度，提供了一种生成商品对象讲解视频的的方法，参见图2，该方法具体可以包括：

S201：确定用于进行视频合成的原始素材，所述原始素材包括：与目标人物形象相关的第一图像素材，以及用于对目标商品对象进行讲解的目标语音素材；所述第一图像素材中包括所述目标人物形象的脸部图像。

如前文所述，可以为用户提供用于进行视频合成的网页，用户可以基于该网页进行原始素材的提交或者选择以及后续的相关操作。当然，也可以提供其他形式的入口，例如，具体的视频合成工具也可以以应用程序的形式存在，用户可以在其终端设备上安装相关的应用程序，并进行具体的视频合成的操作。

关于与目标人物形象相关的第一图像素材，可以有多种获得方式。例如，一种方式下，可以由商家等用户上传的预先录制或者拍摄的与目标人物形象相关的视频等。例如，具体是可以是该目标人物形象在历史直播过程中对其他商品对象进行讲解的过程中，进行视频的录制，并从中截取出一部分作为第一图像素材。或者，也可以是该目标人物形象为其他商品对象录制的讲解短视频(不一定是在直播过程中进行录制)。或者，还可以是商家等用户邀请该目标人物专门为当前的目标商品对象录制的视频，但讲话的内容与具体商品对象的讲解内容无关，例如，可以是简单的用“1、2、3、4……”等代替，以降低该目标人物自己组织语言或者背台词等所需花费的时间成本，等等。另外，具体实现时，该第一图像素材可以是照片、视频、动图等等，只要包含目标人物形象的脸部图像，都可以作为本申请实施例中的第一图像素材。

需要说明的是，本申请实施例中具体第一图像素材中的目标人物形象可能是真人形象，此时，由于是将该真人形象与语音素材进行合成，生成了新的影像素材，并用于对目标商品对象进行介绍，因此，可能涉及到该真人形象的肖像权的问题。为此，在实际应用中，还可以要求用户在提交第一图像素材时，提交目标人物的授权许可证明等信息，例如，具体的证明材料中可以包括目标人物授权的使用范围，例如，只能在某用户的店铺内部使用，等等。

另一种方式下，工具端还可以提供公用的第一图像素材集合，这种公用的第一图像素材，相关的目标人物形象可以是通过计算机合成技术生成的虚拟人物形象，也即，并不对应现实生活中的某个真人，不涉及肖像权问题(当然，人物形象的设计版权可以归工具提供方所有)，但是，可以通过计算机合成技术获得接近真人的展示效果。这样，商家等用户也可以不必自行邀请真人模特等进行第一图像素材的采集，而是可以从这种公用的第一图像素材集合中进行选择。

具体实现时，由于不同商品对象可能会需要通过不同类型的人物形象进行讲解，才能获得更好的效果，或者，更能够获得消费者用户的共鸣，因此，第一图像素材集合中可以包括多种不同类型的人物形象对应的影像素材，同一种类型下也可以提供多种人物形象，以供不同审美爱好的用户进行选择，等等。因此，公用影像素材集合中的素材数量可能会比较多，而具体用户在进行选择时，可能会需要选择与目标商品对象的类目和/或面向的用户群体特征信息相吻合的人物形象对应的影像素材。例如，某目标商品对象面向的用户群体主要是女性都市白领，则在选择影像素材时，可能更需要选择看上去比较年轻有活力、时尚的人物形象对应的影像素材，等等。因此，在具体提供可选的第一图像素材集合时，还可以根据目标商品对象的类目和/或面向的用户群体特征信息，对第一图像素材集合进行筛选，以减少用户选择时的工作量。当然，还可以通过“更多”等操作选项，使得用户可以查看更多可选的第一图像素材。

其中，目标商品对象可以是当前具体需要进行讲解的商品对象。关于语音素材，在本申请实施例中，主要可以是用于对目标商品对象进行讲解的语音。具体实现时，该语音素材可以是由真人录制，也即，由真人对商品对象进行讲解，并录音生成语音素材。或者，由于在本申请实施例中主要可以通过音素驱动唇形变化，因此，还可以通过TTS(Text ToSpeech，从文本到语音)等语音合成技术来获得具体的语音素材。此时，用户可以上传文本素材，由具体的合成工具将文本素材合成为语音素材，以用于对具体第一图像素材中的脸部图像进行唇形驱动，以及后续与完成音画同步的影像素材进一步合成为目标素材。

需要说明的时，在具体实现时，如前文所述，与目标人物形象相关的第一图像素材可能是目标人物形象专门为当前目标商品对象拍摄的图像素材，或者，还可能与当前目标商品对象无关，也即第一图像素材中可能包括与目标商品对象相关的内容，也可能不包括。而在最终生成的讲解视频中，可能需要体现出与目标商品对象相关的内容，因此，对于第一图像素材中不包括目标商品对象相关的内容的情况下，用户提供的原始素材还可以包括与目标商品对象相关的第三图像素材。该目标商品对象相关的第三图像素材可以包括商品图，或者，其他非口播类的素材等，例如，单纯对商品对象本体进行拍摄的视频，具体还可以包括从不同角度、不同侧重点(侧重整体、侧重细节等等)等拍摄的多段视频，等等。用户可以将具体所需合成的商品图像素材进行上传。

S202：利用所述语音素材中的音素信息对所述脸部图像进行唇形驱动，得到第二图像素材。

在接收到原始素材之后，首先可以利用语音素材中的音素信息对第一图像素材中的脸部图像进行唇形驱动，得到第二图像素材。其中，具体在进行唇形驱动时，本申请实施例采用的是音素驱动唇形的方式来实现。例如，在汉语中，普通话的语音由声母与韵母组成，声母与韵母的组合能够构成几乎所有音素，故而采用音素来驱动唇部运动，是具有可行性与通用性的，而作为具体目标人物个体的唇部细节差异性，则通过个体自身的特征信息(例如，包括目标人物的眉眼唇鼻等)进行控制。

具体实现时，可以利用预先训练获得的语音驱动唇形的相关算法模型来实现具体的唇部驱动，以及前述的关于目标人物个体特征信息的控制。具体的，该算法模型可以是利用大量的样本数据训练获得的。具体的样本数据可以是视频数据，具体可以是从商品对象系统中已有的直播视频、讲解视频等中获得，或者也可以是其他的视频数据，只要满足音画同步即可。完成对算法模型的训练之后，便可以利用具体的算法模型，实现由语音素材对影像素材脸部图像的唇形驱动。

具体在利用上述算法模型进行唇形驱动时，可以如图3所示，首先可以将第一图像素材与语音素材进行时间轴对齐处理，也即，例如，具体可以通过对影像素材进行裁剪、拼接等处理，使其与语音素材在时间轴上对齐，具有相同的起止时间点。之后，可以从影像素材中提取脸部图像帧序列，以及脸部图像坐标序列(也即，每个脸部图像帧在第一图像素材帧中的坐标)，并根据语音素材确定语音帧序列。由于影像素材与语音素材是对齐的，因此，脸部图像帧与语音帧可以一一对应。这里需要说明的是，如果第一图像素材是静态的图片在，则可以通过将图片复制多份的方式，来获得与语音帧对齐的脸部图像帧序列。

之后，可以将脸部图像帧序列以及语音帧序列输入到语音驱动唇形算法模型中，获得唇形与音素同步的目标脸部图像帧序列。再根据所述脸部图像坐标序列，将所述目标脸部图像帧序列替换到对齐处理后的第一图像素材中，得到目标影像素材。最后，再将目标影像素材与语音素材进行合成，获得目标素材。这里获得的目标素材具体就可以是一段视频，该视频中，有第一图像素材中的目标人物形象，以及音频素材中的语音内容，并且，目标人物的唇形与语音内容同步变化。

需要说明的是，在具体实现时，单纯使用基础的语音驱动唇形算法模型进行唇形驱动时，可能会存在图像分辨率比较低，细节不够清晰，或者唇形变化不够明显等情况。为此，在优选的实施方式中，还可以将基础的语音驱动唇形算法模型与用于提升图像分辨率的算法、用于提升细节清晰度的算法和/或唇部判决算法相结合，以此提升合成的目标素材的质量。其中，各种具体的算法可以利用已有的相关算法来实现，这里不进行详细介绍。

S203：将所述第二图像素材与所述语音素材进行合成，获得目标人物形象的唇形与所述音素信息同步变化的目标素材，以用于生成所述目标商品对象的讲解视频。

在得到第二图像素材后，可以将该第二图像素材与语音素材进行合成，获得目标素材。在该目标素材中，具有了目标人物形象以及用于对目标商品对象进行讲解的语音，并且，目标人物形象的唇形与所述语音素材中的音素同步变化。

在获得上述目标素材之后，便可以利用该目标素材为目标商品对象生成具体的讲解视频。其中，如果第一图像素材中已经包括与目标商品对象相关的图像内容，则可以直接将目标素材确定为目标商品对象的讲解视频。或者，如果第一图像素材中不包括与目标商品对象相关的图像内容，则可以将该目标素材与用户另外提供的商品对象相关的第三图像素材进行合成，获得目标商品对象的讲解视频。总之，可以获得该目标人物亲自对该目标商品对象进行讲解的展示效果。

其中，在将目标素材与用户另外提供的商品对象相关的第三图像素材进行合成时，可以由视频生成工具自动完成，或者，在另一种方式下，还可以为用户提供素材编辑界面，该素材编辑界面中可以包括至少一种编辑操作选项，以用于将所述目标素材与所述目标商品对象相关的图像素材进行组合。例如，具体的编辑操作选项可以用于对素材进行拼接、拼图或者生成画中画等操作。也就是说，具体生成的讲解视频可以包括画中画、拼接等多种形式。其中，所谓拼接，可以包括将图片与图片、图片与视频、视频与视频在空间位置关系上拼接在一起，或者，在时间轴上拼接在一起。例如，对于前者，可以是左侧为音画同步的合成视频，右侧为商品对象图片或视频，从而使得目标人物讲解过程中，可以在屏幕右侧观看到具体商品对象的图片或者视频信息，等等。对于后者，可以是在某段音画同步的合成视频后，拼接商品对象的图片或者视频等，以此达到通过切换镜头的方式，使得用户获取到相关信息的目的。

其中，无论是在空间还是时间维度上进行拼接，都可以是在多个素材之间进行，也就是说，具体合成的目标素材可以有多份(通过多份不同的第一图像素材以及多份语音素材生成)，商品对象的图像素材也可以有多份，分别可以从不同角度或者侧重点对商品对象信息进行讲解或展示，在进行组合时，可以根据实际情况进行拼接，或者以画中画等方式进行组合，等等。

另外，在实际应用中，还可以提供后期操作界面，该后期操作界面中可以包括用于为所述讲解视频添加字幕、特效和/或背景音乐的操作选项。这样，用户在为具体目标商品对象生成讲解视频后，还可以添加字幕，或者，添加特效、背景音乐等，以使得生成的视频具有更好的展示效果。

总之，通过本申请实施例，如果用户需要为某目标商品对象生成讲解视频，则只需要提供与目标人物形象相关的第一图像素材，以及用于对所述目标商品对象进行讲解的语音素材。之后，视频合成工具便可以利用所述语音素材中的音素信息对第一图像素材中包括的人物形象的脸部图像进行唇形驱动，并将所得到的第二图像素材与所述语音素材合成为目标素材，该目标素材便可以用于生成目标商品对象的讲解视频。通过这种方式，在取得第一图像素材的过程中，可以降低对目标人物语言及口头表述能力方面的要求，不需要目标人物花时间去准备或者背诵讲解台词，或者，也可以使用目标人物过往录制过的视频，甚至还可以使用通过计算机合成技术合成的虚拟人物形象，等等，因此，可以降低商品对象讲解视频的生产成本。

需要说明的是，在本申请实施例中，具体生成的讲解视频可以是非实时的视频，也即，预先完成讲解视频的合成，再发布到具体的相关页面中，以供用户进行浏览。或者，还可以在直播场景中，进行实时的讲解视频合成以及播放。

实施例二

在该实施例二中，主要从商品对象发布场景中的应用的角度，提供了一种商品对象信息发布方法，该方法的执行主体可以是面向商家或者卖家等用户的商品对象信息系统，具体的，参见图4，该方法可以包括：

S401：在商品对象信息发布界面中提供用于为目标商品对象生成讲解视频的操作选项；

S402：通过所述操作选项接收用于进行视频合成的原始素材，所述原始素材包括：与目标人物形象相关的第一图像素材，以及用于对目标商品对象进行讲解的语音素材；所述第一图像素材中包括所述目标人物形象的脸部图像；

S403：利用所述语音素材中的音素信息对所述脸部图像进行唇形驱动，得到第二图像素材；

S404：将所述第二图像素材与所述语音素材进行合成，获得目标人物形象的唇形与所述音素信息同步变化的目标素材，以用于生成所述目标商品对象的讲解视频并返回；

S405：接收到对所述讲解视频的发布请求后，将所述讲解视频发布到所述目标商品对象关联的目标信息页面中。

实施例三

该实施例三针对在除了商品对象讲解视频合成之外的其他场景中应用时的实现方案，具体的，该实施例三提供了一种视频合成方法，参见图5，该方法可以包括：

S501：确定与目标人物形象相关的第一图像素材，以及语音素材；所述第一图像素材中包括所述目标人物形象的脸部图像；

S502：将所述第一图像素材与所述目标语音素材进行时间轴对齐处理后，从第一图像素材中提取脸部图像帧序列，以及脸部图像坐标序列，并从所述语音素材中提取语音帧序列；

S503：将所述脸部图像帧序列以及所述语音帧序列输入到语音驱动唇形算法模型中，并与用于提升图像分辨率的算法、用于提升细节清晰度的算法和/或唇部判决算法相结合，获得唇形与音素同步的目标脸部图像帧序列；

S504：根据所述脸部图像坐标序列，将所述目标脸部图像帧序列替换到第一图像素材中，获得第二图像素材；

S505：将所述第二图像素材与对齐处理后的语音素材进行合成，获得目标人物形象的唇形与所述音素信息同步变化的目标素材。

通过该方法，可以通过语音驱动唇形算法，实现由语音素材对影像素材中目标人物的唇形进行驱动，并且在实现过程中还可以与用于提升图像分辨率的算法、用于提升细节清晰度的算法和/或唇部判决算法相结合，以使得驱动后的图像在像素、细节清晰度等方面都能够得到提升。之后再与语音素材组合成目标素材，该目标素材可以如实施例一所述用于生产商品对象的讲解视频，或者，还可以用于生产其他用途的短视频，等等。

关于该实施例二、三中的未详述部分，可以参见实施例一中的记载，这里不再赘述。

需要说明的是，本申请实施例中可能会涉及到对用户数据的使用，在实际应用中，可以在符合所在国的适用法律法规要求的情况下(例如，用户明确同意，对用户切实通知，等)，在适用法律法规允许的范围内在本文描述的方案中使用用户特定的个人数据。

与实施例一相对应，本申请实施例还提供了一种生成商品对象讲解视频的装置，参见图6，该装置具体可以包括：

原始素材获取单元601，用于获取用于进行视频合成的原始素材，所述原始素材包括：与目标人物形象相关的第一图像素材，以及用于对目标商品对象进行讲解的语音素材；所述第一图像素材中包括所述目标人物形象的脸部图像；

唇形驱动单元602，用于利用所述语音素材中的音素信息对所述脸部图像进行唇形驱动，得到第二图像素材；

素材合成单元603，用于将所述第二图像素材与所述语音素材进行合成，获得目标人物形象的唇形与所述音素信息同步变化的目标素材，以用于生成所述目标商品对象的讲解视频。

其中，唇形驱动单元具体可以包括：

帧序列提取子单元，用于将所述第一图像素材与所述语音素材进行时间轴对齐处理后，从所述第一图像素材中提取脸部图像帧序列，以及脸部图像坐标序列，并从所述语音素材中提取语音帧序列；

算法驱动单元，用于将所述脸部图像帧序列以及所述语音帧序列输入到语音驱动唇形算法模型中，获得唇形与音素同步变化的目标脸部图像帧序列；

序列替换单元，用于根据所述脸部图像坐标序列，将所述目标脸部图像帧序列替换到对齐处理后的原始影像素材中，得到所述第二图像素材。

其中，所述语音驱动唇形算法模型还可以与用于提升图像分辨率的算法、用于提升细节清晰度的算法和/或唇部判决算法相结合。

具体实现时，该装置还可以包括：

素材集合提供单元，用于提供可选的第一图像素材集合，所述第一图像素材集合中包括多个通过计算机合成方式生成的虚拟人物形象对应的影像素材，以便用户通过从所述第一图像素材集合中进行第一图像素材的选择。

具体的，所述素材集合提供单元具体可以用于：

根据所述目标商品对象的类目信息和/或面向的用户群体特征信息，对所述第一图像素材集合中的第一图像素材进行筛选，并提供筛选结果作为可选的第一图像素材集合。

其中，所述第一图像素材包括视频素材，且其中还包括所述目标商品对象相关的图像；

此时，所述装置还可以包括：

第一讲解视频生成单元，用于在生成所述目标素材后，将所述目标素材确定为所述目标商品对象的讲解视频。

或者，所述原始素材中还包括与所述目标商品对象相关的第二图像素材；

此时，所述装置还可以包括：

第二讲解视频生成单元，用于在生成所述目标素材后，将所述目标素材与所述目标商品对象相关的第二图像素材进行组合，生成所述目标商品对象的讲解视频。

或者，该装置还可以包括：

编辑界面提供单元，用于在生成所述目标素材后，提供用于进行讲解视频制作的编辑界面，所述编辑界面中包括至少一种编辑操作选项，以用于将所述目标素材与所述目标商品对象相关的第二图像素材进行组合。

再者，该装置还可以包括：

后期操作界面提供单元，用于提供后期操作界面，所述后期操作界面中包括至少一个操作选项，以用于为所述讲解视频添加字幕、特效和/或背景音乐。

与实施例二相对应，本申请实施例还提供了一种商品对象信息发布装置，参见图7，该装置可以包括：

操作选项提供单元701，用于在商品对象信息发布界面中提供用于为目标商品对象生成讲解视频的操作选项；

原始素材接收单元702，用于通过所述操作选项接收用于进行视频合成的原始素材，所述原始素材包括：与目标人物形象相关的第一图像素材，以及用于对目标商品对象进行讲解的语音素材；所述第一图像素材中包括所述目标人物形象的脸部图像；

唇形驱动单元703，用于利用所述语音素材中的音素信息对所述脸部图像进行唇形驱动，得到目标人物形象的唇形与所述音素信息同步变化的第二图像素材；

素材合成单元704，用于将所述第二图像素材与所述语音素材合成为通过所述目标人物形象对所述商品对象进行讲解的目标素材，以用于生成所述目标商品对象的讲解视频并返回；

讲解视频发布单元705，用于接收到对所述讲解视频的发布请求后，将所述讲解视频发布到所述目标商品对象关联的目标信息页面中。

与实施例三相对应，本申请实施例还提供了一种素材合成装置，参见图8，该装置可以包括：

素材确定单元801，用于确定与目标人物形象相关的第一图像素材，以及语音素材；所述第一图像素材中包括所述目标人物形象的脸部图像；

序列提取单元802，用于将所述第一图像素材与所述目标语音素材进行时间轴对齐处理后，从第一图像素材中提取脸部图像帧序列，以及脸部图像坐标序列，并从所述语音素材中提取语音帧序列；

唇形驱动单元803，用于将所述脸部图像帧序列以及所述语音帧序列输入到语音驱动唇形算法模型中，并与用于提升图像分辨率的算法、用于提升细节清晰度的算法和/或唇部判决算法相结合，获得唇形与音素同步变化的目标脸部图像帧序列；

图像替换单元804，用于根据所述脸部图像坐标序列，将所述目标脸部图像帧序列替换到第一图像素材中，获得第二图像素材；

素材合成单元805，用于将所述第二图像素材与所述语音素材进行合成，获得目标人物形象的唇形与所述音素信息同步变化的目标素材。

另外，本申请实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现前述方法实施例中任一项所述的方法的步骤。

以及一种电子设备，包括：

一个或多个处理器；以及

与所述一个或多个处理器关联的存储器，所述存储器用于存储程序指令,所述程序指令在被所述一个或多个处理器读取执行时，执行前述方法实施例中任一项所述的方法的步骤。

其中，图9示例性的展示出了电子设备的架构，具体可以包括处理器910，视频显示适配器911，磁盘驱动器912，输入/输出接口913，网络接口914，以及存储器920。上述处理器910、视频显示适配器911、磁盘驱动器912、输入/输出接口913、网络接口914，与存储器920之间可以通过通信总线930进行通信连接。

其中，处理器910可以采用通用的CPU(Central Processing Unit，中央处理器)、微处理器、应用专用集成电路(Application Specific Integrated Circuit，ASIC)、或者一个或多个集成电路等方式实现，用于执行相关程序，以实现本申请所提供的技术方案。

存储器920可以采用ROM(Read Only Memory，只读存储器)、RAM(Random AccessMemory，随机存取存储器)、静态存储设备，动态存储设备等形式实现。存储器920可以存储用于控制电子设备900运行的操作系统921，用于控制电子设备900的低级别操作的基本输入输出系统(BIOS)。另外，还可以存储网页浏览器923，数据存储管理系统924，以及图标字体处理系统925等等。上述图标字体处理系统925就可以是本申请实施例中具体实现前述各步骤操作的应用程序。总之，在通过软件或者固件来实现本申请所提供的技术方案时，相关的程序代码保存在存储器920中，并由处理器910来调用执行。

输入/输出接口913用于连接输入/输出模块，以实现信息输入及输出。输入输出/模块可以作为组件配置在设备中(图中未示出)，也可以外接于设备以提供相应功能。其中输入设备可以包括键盘、鼠标、触摸屏、麦克风、各类传感器等，输出设备可以包括显示器、扬声器、振动器、指示灯等。

网络接口914用于连接通信模块(图中未示出)，以实现本设备与其他设备的通信交互。其中通信模块可以通过有线方式(例如USB、网线等)实现通信，也可以通过无线方式(例如移动网络、WIFI、蓝牙等)实现通信。

总线930包括一通路，在设备的各个组件(例如处理器910、视频显示适配器911、磁盘驱动器912、输入/输出接口913、网络接口914，与存储器920)之间传输信息。

需要说明的是，尽管上述设备仅示出了处理器910、视频显示适配器911、磁盘驱动器912、输入/输出接口913、网络接口914，存储器920，总线930等，但是在具体实施过程中，该设备还可以包括实现正常运行所必需的其他组件。此外，本领域的技术人员可以理解的是，上述设备中也可以仅包含实现本申请方案所必需的组件，而不必包含图中所示的全部组件。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例或者实施例的某些部分所述的方法。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统或系统实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的系统及系统实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

以上对本申请所提供的生成商品对象讲解视频的方法及装置，进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处。综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种生成商品对象讲解视频的方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，

所述利用所述语音素材中的音素信息对所述脸部图像进行唇形驱动，得到第二图像素材，包括：

将所述第一图像素材与所述语音素材进行时间轴对齐处理后，从所述第一图像素材中提取脸部图像帧序列，以及脸部图像坐标序列，并从所述语音素材中提取语音帧序列；

将所述脸部图像帧序列以及所述语音帧序列输入到语音驱动唇形算法模型中，获得唇形与音素同步变化的目标脸部图像帧序列；

根据所述脸部图像坐标序列，将所述目标脸部图像帧序列替换到对齐处理后的原始影像素材中，得到所述第二图像素材。

3.根据权利要求2所述的方法，其特征在于，

所述语音驱动唇形算法模型还与用于提升图像分辨率的算法、用于提升细节清晰度的算法和/或唇部判决算法相结合。

4.根据权利要求1所述的方法，其特征在于，还包括：

提供可选的第一图像素材集合，所述第一图像素材集合中包括多个通过计算机合成方式生成的虚拟人物形象对应的影像素材，以便用户通过从所述第一图像素材集合中进行第一图像素材的选择。

5.根据权利要求4所述的方法，其特征在于，

所述提供可选的第一图像素材集合，包括：

6.根据权利要求1所述的方法，其特征在于，

所述第一图像素材包括视频素材，且其中还包括所述目标商品对象相关的图像；

所述方法还包括：

在生成所述目标素材后，将所述目标素材确定为所述目标商品对象的讲解视频。

7.根据权利要求1所述的方法，其特征在于，

所述原始素材中还包括与所述目标商品对象相关的第二图像素材；

所述方法还包括：

在生成所述目标素材后，将所述目标素材与所述目标商品对象相关的第二图像素材进行组合，生成所述目标商品对象的讲解视频。

8.根据权利要求7所述的方法，其特征在于，还包括：

在生成所述目标素材后，提供用于进行讲解视频制作的编辑界面，所述编辑界面中包括至少一种编辑操作选项，以用于将所述目标素材与所述目标商品对象相关的第二图像素材进行组合。

9.根据权利要求1至8任一项所述的方法，其特征在于，还包括：

提供后期操作界面，所述后期操作界面中包括至少一个操作选项，以用于为所述讲解视频添加字幕、特效和/或背景音乐。

10.一种商品对象信息发布方法，其特征在于，包括：

11.一种素材合成方法，其特征在于，包括：

12.一种生成商品对象讲解视频的装置，其特征在于，包括：

13.一种商品对象信息发布装置，其特征在于，包括：

14.一种素材合成装置，其特征在于，包括：