CN114677190A

CN114677190A - 视觉素材的处理方法、装置和系统、计算机终端

Info

Publication number: CN114677190A
Application number: CN202011554704.5A
Authority: CN
Inventors: 刘畅; 董义; 申志奇; 于涵; 高占宁; 王攀; 任沛然; 谢宣松
Original assignee: Alibaba Group Holding Ltd; Nanyang Technological University
Current assignee: Alibaba Group Holding Ltd; Nanyang Technological University
Priority date: 2020-12-24
Filing date: 2020-12-24
Publication date: 2022-06-28

Abstract

本申请公开了一种视觉素材的处理方法、装置和系统、计算机终端。其中，该方法包括：接收视觉素材集合，其中，视觉素材均包含了与待推荐的产品关联的产品特征；将视觉素材集合中的视觉素材以素材序列的方式组成候选镜头集合；基于产品特征的语义和视觉素材的感知说服力，从候选镜头集合中筛选得到多个目标镜头；基于排序因素对多个目标镜头进行镜头排序，生成用于推荐产品的视频，其中，排序因素包括如下至少之一：目标镜头之间的语义距离，目标镜头中产品的显著区域比率和目标镜头之间的相似度；输出视频。本申请解决了相关技术中视觉素材通过人力手动处理，导致成本较高且耗时较长的技术问题。

Description

视觉素材的处理方法、装置和系统、计算机终端

技术领域

本申请涉及互联网领域，具体而言，涉及一种视觉素材的处理方法、装置和系统、计算机终端。

背景技术

近年来，视频已经成为吸引消费者注意力的主流方式。在电子商务平台中，使用视频作为促销工具是提高商品分享率和销量的可行方法。在视频制作中的核心步骤之一是生成视觉素材序列，但是，目前该步骤由经验丰富的导演执行，整个处理过程成本高昂且耗时较长。

针对上述的问题，目前尚未提出有效的解决方案。

发明内容

本申请实施例提供了一种视觉素材的处理方法、装置和系统、计算机终端，以至少解决相关技术中视觉素材通过人力手动处理，导致成本较高且耗时较长的技术问题。

根据本申请实施例的一个方面，提供了一种视觉素材的处理方法，包括：接收视觉素材集合，其中，视觉素材均包含了与待推荐的产品关联的产品特征；将视觉素材集合中的视觉素材以素材序列的方式组成候选镜头集合；基于产品特征的语义和视觉素材的感知说服力，从候选镜头集合中筛选得到多个目标镜头；基于排序因素对多个目标镜头进行镜头排序，生成用于推荐产品的视频，其中，排序因素包括如下至少之一：目标镜头之间的语义距离，目标镜头中产品的显著区域比率和目标镜头之间的相似度；输出视频。

根据本申请实施例的另一方面，还提供了一种视觉素材的处理方法，包括：获取视觉素材集合，其中，视觉素材均包含了与待推荐的产品关联的产品特征；将视觉素材集合中的视觉素材以素材序列的方式组成候选镜头集合；基于产品特征的语义和视觉素材的感知说服力，从候选镜头集合中筛选得到多个目标镜头；基于排序因素对多个目标镜头进行镜头排序，生成用于推荐产品的视频，其中，排序因素包括如下至少之一：目标镜头之间的语义距离，目标镜头中产品的显著区域比率和目标镜头之间的相似度。

根据本申请实施例的另一方面，还提供了一种视觉素材的处理方法，包括：通过调用第一接口获取视觉素材集合，其中，第一接口包括：第一参数，第一参数的参数值为视觉素材集合，视觉素材均包含了与待推荐的产品关联的产品特征；将视觉素材集合中的视觉素材以素材序列的方式组成候选镜头集合；基于产品特征的语义和视觉素材的感知说服力，从候选镜头集合中筛选得到多个目标镜头；基于排序因素对多个目标镜头进行镜头排序，生成用于推荐产品的视频，其中，排序因素包括如下至少之一：目标镜头之间的语义距离，目标镜头中产品的显著区域比率和目标镜头之间的相似度；通过调用第二接口输出视频，其中，第二接口包括：第二参数，第二参数的参数值为视频。

根据本申请实施例的另一方面，还提供了一种视觉素材的处理装置，包括：接收模块，用于接收视觉素材集合，其中，视觉素材均包含了与待推荐的产品关联的产品特征；组合模块，用于将视觉素材集合中的视觉素材以素材序列的方式组成候选镜头集合；筛选模块，用于基于产品特征的语义和视觉素材的感知说服力，从候选镜头集合中筛选得到多个目标镜头；排序模块，用于基于排序因素对多个目标镜头进行镜头排序，生成用于推荐产品的视频，其中，排序因素包括如下至少之一：目标镜头之间的语义距离，目标镜头中产品的显著区域比率和目标镜头之间的相似度；输出模块，用于输出视频。

根据本申请实施例的另一方面，还提供了一种视觉素材的处理装置，包括：获取模块，用于获取视觉素材集合，其中，视觉素材均包含了与待推荐的产品关联的产品特征；组合模块，用于将视觉素材集合中的视觉素材以素材序列的方式组成候选镜头集合；筛选模块，用于基于产品特征的语义和视觉素材的感知说服力，从候选镜头集合中筛选得到多个目标镜头；排序模块，用于基于排序因素对多个目标镜头进行镜头排序，生成用于推荐产品的视频，其中，排序因素包括如下至少之一：目标镜头之间的语义距离，目标镜头中产品的显著区域比率和目标镜头之间的相似度。

根据本申请实施例的另一方面，还提供了一种视觉素材的处理装置，包括：第一调用模块，用于通过调用第一接口获取视觉素材集合，其中，第一接口包括：第一参数，第一参数的参数值为视觉素材集合，视觉素材均包含了与待推荐的产品关联的产品特征；组合模块，用于将视觉素材集合中的视觉素材以素材序列的方式组成候选镜头集合；筛选模块，用于基于产品特征的语义和视觉素材的感知说服力，从候选镜头集合中筛选得到多个目标镜头；排序模块，用于基于排序因素对多个目标镜头进行镜头排序，生成用于推荐产品的视频，其中，排序因素包括如下至少之一：目标镜头之间的语义距离，目标镜头中产品的显著区域比率和目标镜头之间的相似度；第二调用模块，用于通过调用第二接口输出视频，其中，第二接口包括：第二参数，第二参数的参数值为视频。

根据本申请实施例的另一方面，还提供了一种计算机可读存储介质，计算机可读存储介质包括存储的程序，其中，在程序运行时控制计算机可读存储介质所在设备执行上述的视觉素材的处理方法。

根据本申请实施例的另一方面，还提供了一种计算机终端，包括：存储器和处理器，处理器用于运行存储器中存储的程序，其中，程序运行时执行上述的视觉素材的处理方法。

根据本申请实施例的另一方面，还提供了一种视觉素材的处理系统，包括：处理器；以及存储器，与处理器连接，用于为处理器提供处理以下处理步骤的指令：接收视觉素材集合，其中，视觉素材均包含了与待推荐的产品关联的产品特征；将视觉素材集合中的视觉素材以素材序列的方式组成候选镜头集合；基于产品特征的语义和视觉素材的感知说服力，从候选镜头集合中筛选得到多个目标镜头；对多个目标镜头进行镜头排序，生成用于推荐产品的视频；输出视频。

在本申请实施例中，在接收到视觉素材集合之后，可以将视觉素材集合中的视觉素材以素材序列的方式组成候选镜头集合，进一步基于产品特征的语义和视觉素材的感知说服力，从候选镜头集合中筛选得到多个目标镜头，并基于排序因素对多个目标镜头进行镜头排序，生成用于推荐产品的视频，并输出给用户查看，实现视频制作的目的。容易注意到的是，可以基于影视制作原理确定不同的排序因素，实现将影视制作知识融合到候选镜头集合筛选和镜头排序过程中，在提取原始视频视觉信息和结构信息的基础上将剪辑手法建模为优化子模块，从而达到了增强逻辑流程，提升观看体验和感知说服力，更有效地推广产品的技术效果，进而解决了相关技术中视觉素材通过人力手动处理，导致成本较高且耗时较长的技术问题。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1是根据本申请实施例的一种用于实现视觉素材的处理方法的计算机终端(或移动设备)的硬件结构框图；

图2是根据本申请实施例的一种视觉素材的处理方法的流程图；

图3是根据本申请实施例的一种可选的交互界面的示意图；

图4是根据本申请实施例的一种可选的生成视觉素材序列的流程图；

图5是根据本申请实施例的另一种视觉素材的处理方法的流程图；

图6是根据本申请实施例的又一种视觉素材的处理方法的流程图；

图7是根据本申请实施例的一种视觉素材的处理装置的示意图；

图8是根据本申请实施例的另一种视觉素材的处理装置的示意图；

图9是根据本申请实施例的又一种视觉素材的处理装置的示意图；

图10是根据本申请实施例的一种计算机终端的结构框图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分的实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

需要说明的是，本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

首先，在对本申请实施例进行描述的过程中出现的部分名词或术语适用于如下解释：

视觉素材序列生成：Visual Material Sequence Generation，可以是指输入一些视觉素材(图片和视频)，对它们进行选择和排序来生成一个素材序列，这一序列将用来生成最终的视频。

影视制作原理：film-making principles，可以是指剪辑传达叙事的经验法则，例如使用特写来强调产品。

递归聚类：可以通过递归方式将视觉素材集合中的视觉素材划分到特定的类中，同一类中的视觉素材具有相似特征，不同类中的视觉素材具有不同的特征。

冯特曲线：WUNDT曲线，可以描述用户对于信息的心理反应规律。

显著区域：可以是指图像中引入注意的区域或比较重要的区域，例如用户在观看一幅图像时首先关注的区域。

最近邻搜索：Nearest Neighbor Search，可以是指在一个确定的距离度量和一个搜索空间内寻找与给定查询项距离最小的元素。

为了生成视觉素材序列，目前可以采用如下方法实现：第一种方法可以是通过采样方法跳过某些图像以对一组图像进行排序；第二种方法可以是通过计算图像差异并鼓励视频片段的序列遵循“故事的一般情节”；第三种方法可以使用RNN和子模块优化来构成故事情节，用于生成事件(例如旅行和聚会)的视频。

但是，上述方案不能保证逻辑流程也不能保证适当的图形不连续性，导致观看体验较差。为了解决上述问题，本申请提供了如下技术方案：

实施例1

根据本申请实施例，提供了一种视觉素材的处理方法，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

本申请实施例所提供的方法实施例可以在移动终端、计算机终端或者类似的运算装置中执行。图1示出了一种用于实现视觉素材的处理方法的计算机终端(或移动设备)的硬件结构框图。如图1所示，计算机终端10(或移动设备10)可以包括一个或多个(图中采用102a、102b，……，102n来示出)处理器102(处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)、用于存储数据的存储器104、以及用于通信功能的传输装置106。除此以外，还可以包括：显示器、输入/输出接口(I/O接口)、通用串行总线(USB)端口(可以作为BUS总线的端口中的一个端口被包括)、网络接口、电源和/或相机。本领域普通技术人员可以理解，图1所示的结构仅为示意，其并不对上述电子装置的结构造成限定。例如，计算机终端10还可包括比图1中所示更多或者更少的组件，或者具有与图1所示不同的配置。

应当注意到的是上述一个或多个处理器102和/或其他数据处理电路在本文中通常可以被称为“数据处理电路”。该数据处理电路可以全部或部分的体现为软件、硬件、固件或其他任意组合。此外，数据处理电路可为单个独立的处理模块，或全部或部分的结合到计算机终端10(或移动设备)中的其他元件中的任意一个内。如本申请实施例中所涉及到的，该数据处理电路作为一种处理器控制(例如与接口连接的可变电阻终端路径的选择)。

存储器104可用于存储应用软件的软件程序以及模块，如本申请实施例中的视觉素材的处理方法对应的程序指令/数据存储装置，处理器102通过运行存储在存储器104内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的视觉素材的处理方法。存储器104可包括高速随机存储器，还可包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器104可进一步包括相对于处理器102远程设置的存储器，这些远程存储器可以通过网络连接至计算机终端10。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

传输装置106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括计算机终端10的通信供应商提供的无线网络。在一个实例中，传输装置106包括一个网络适配器(Network Interface Controller，NIC)，其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中，传输装置106可以为射频(Radio Frequency，RF)模块，其用于通过无线方式与互联网进行通讯。

显示器可以例如触摸屏式的液晶显示器(LCD)，该液晶显示器可使得用户能够与计算机终端10(或移动设备)的用户界面进行交互。

此处需要说明的是，在一些可选实施例中，上述图1所示的计算机设备(或移动设备)可以包括硬件元件(包括电路)、软件元件(包括存储在计算机可读介质上的计算机代码)、或硬件元件和软件元件两者的结合。应当指出的是，图1仅为特定具体实例的一个实例，并且旨在示出可存在于上述计算机设备(或移动设备)中的部件的类型。

在上述运行环境下，本申请提供了如图2所示的视觉素材的处理方法。图2是根据本申请实施例的一种视觉素材的处理方法的流程图。如图2所示，该方法包括如下步骤：

步骤S202，接收视觉素材集合，其中，视觉素材均包含了与待推荐的产品关联的产品特征。

上述步骤中的产品可以是需要推荐给用户的物品，例如，在电商购物场景中，产品可以是不同商家售卖的商品，如服饰、护肤品、化妆品、家用电器等。产品特征可以是用于表征产品自身构造所特有的特点，例如外形、质量、材质、功能、商标、包装等，但不仅限于此。

上述的视觉素材可以是电商购物场景中的商家针对商品拍摄的视频、图像等，但不仅限于此。

在一种可选的实施例中，视觉素材的处理方法的执行主体可以是安装在用户的移动终端或计算机终端上的客户端。为了节省移动终端或计算机终端的计算资源，提高处理效率，视觉素材的处理方法的执行主体可以是服务器，例如云端服务器，用户可以通过安装在移动终端或计算机终端上的客户端上传视觉素材集合。

在另一种可选的实施例中，可以向用户提供一个交互界面，如图3所示，当用户需要制作视频时，用户可以在素材上传区域中点击“上传素材”按钮选择需要上传的视觉素材，并通过点击“生成视频”按钮进行确认，从而客户端可以获取到视觉素材集合，并由客户端进行处理；或者，客户端通过网络直接将视觉素材集合上传至服务器，由服务器进行处理。

步骤S204，将视觉素材集合中的视觉素材以素材序列的方式组成候选镜头集合。

上述步骤中的候选镜头集合中的候选镜头可以是最终用于生成视频的镜头序列的候选素材的子序列。

在一种可选的实施例中，在获取到视觉素材集合之后，可以对所有视觉素材进行分组，将不同类别的视觉素材划分至不同分组中，并将同一个分组中的视觉素材以素材序列的方式进行排序，从而得到候选镜头集合。

步骤S206，基于产品特征的语义和视觉素材的感知说服力，从候选镜头集合中筛选得到多个目标镜头。

上述步骤中的产品特征的语义可以是指产品特征的具体含义，可以通过对产品特征进行语义识别得到。不同的视觉素材中的产品特征不同，而且不同产品特征与产品的关联度不同，为了确保最终生成的推荐产品的视频能够更加吸引用户，在本申请实施例中，需要确保筛选出的视觉素材与产品之间的关联度较大。

上述步骤中的感知说服力可以是指视觉素材中的推荐产品能够被用户接受的可能性，感知说服力越高，表明用户越可能接受该产品的推荐。为了确保最终生成的推荐产品具有较高的感知说服力，在本申请时撕毁了中，需要确保筛选出的视觉素材具有较高的感知说服力。

在一种可选的实施例中，在生成候选镜头集合之后，可以基于该集合中所有视觉素材中产品特征的语义和感知说服力，筛选出与推荐产品的关联度较高，且感知说服力较大的视觉素材，从而得到多个目标镜头，

步骤S208，基于排序因素对多个目标镜头进行镜头排序，生成用于推荐产品的视频，其中，排序因素包括如下至少之一：目标镜头之间的语义距离，目标镜头中产品的显著区域比率和目标镜头之间的相似度。

上述的排序因素可以是基于电影制作原理所确定的因素，此处的电影制作原理可以包括如下三个原理：镜头从远到近的变化，具有逻辑故事性，以及镜头不连续性。对于第一个原理“镜头从远到近的变化”，镜头排序的目标是使视觉故事情节从远镜头开始，然后距离逐渐缩小，直到最后的特写镜头，因此可以考虑如下两个因素：显著区域比率(SSR)；以及镜头和产品标题之间的语义距离，其中，显著区域比率逐渐增加，语义距离逐渐减小。对于第二个原理“具有逻辑故事性”，需要确保一个场景类别的镜头显示完毕之后再显示另一个场景类别的镜头。对于第三个原理“镜头不连续性”，需要将两个相邻镜头之间的相似度降低。

上述步骤中的用于推荐产品的视频可以是指该产品的宣传视频，例如，在电商购物场景中，该视频可以是商品短视频。

在一种可选的实施例中，为了改善最终视频的观看体验，同时获得较高的感知说服力，可以利用电影制作原理确定排序因素，并利用排序因素对筛选出的多个目标镜头进行镜头排序，生成最终的视觉素材序列，进而生成最终的宣传视频。

步骤S210，输出视频。

在一种可选的实施例中，在视觉素材的处理方法由客户端执行的情况下，可以将用于推荐产品的视频显示在如图3所示的视频展示区域中，方便用户查看。在视觉素材的处理方法由服务器执行的情况下，服务器可以通过网络将用于推荐产品的视频返回给客户端，由客户端显示在如图3所示的视频展示区域中，方便用户查看。

通过本发明上述实施例提供的方案，在接收到视觉素材集合之后，可以将视觉素材集合中的视觉素材以素材序列的方式组成候选镜头集合，进一步基于产品特征的语义和视觉素材的感知说服力，从候选镜头集合中筛选得到多个目标镜头，并基于排序因素对多个目标镜头进行镜头排序，生成用于推荐产品的视频，并输出给用户查看，实现视频制作的目的。容易注意到的是，可以基于影视制作原理确定不同的排序因素，实现将影视制作知识融合到候选镜头集合筛选和镜头排序过程中，在提取原始视频视觉信息和结构信息的基础上将剪辑手法建模为优化子模块，从而达到了增强逻辑流程，提升观看体验和感知说服力，更有效地推广产品的技术效果，进而解决了相关技术中视觉素材通过人力手动处理，导致成本较高且耗时较长的技术问题。

在本申请上述实施例中，将视觉素材集合中的视觉素材以素材序列的方式组成候选镜头集合，包括：采用场景检测模型来分析视觉素材集合中的视觉素材，获取视觉素材集合中的视觉素材的场景类别，其中，采用卷积神经网络模型训练样本素材生成场景检测模型；基于视觉素材集合中的视觉素材的场景类别，对视觉素材集合进行递归聚类，聚类得到不同类别的多个素材序列；获取以素材序列的方式组成的候选镜头集合。

上述的场景检测模型可以是预先对卷积神经网络进行训练得到，通过该模型可以预测视觉素材中的场景类别。

上述的场景类别可以是视觉素材中拍摄产品的具体场景，例如，模特展示、产品整体展示、产品细节展示等，产品细节可以是指产品的某个部位(如袖口、领口等)的展示。

可选的，上述的素材序列中包含的视觉素材可以具有相同的场景类型，且视觉素材的视觉外观相似度超过阀值；不同素材序列之间的场景类型不同。

上述的阈值可以是根据预先根据实际处理精度和处理速度的需求所确定的相似度阈值，相似度大于该阈值，表明视觉素材的视觉外观相似；相似度小于该阈值，表明视觉素材的视觉外观不同。

在一种可选的实施例中，可以使用场景检测模型对视觉素材集合进行处理，估计出视觉素材的场景类别，然后基于场景类别对视觉素材进行递归聚类，确保聚类至同一类中的视觉素材不仅属于同一个场景类别，而且具有相似的视觉外观，从而实现镜头内的逻辑。进一步对于每个聚类，可以通过迭代式的最近邻检索方法，从每个聚类中选择视觉素材，并将选择出的视觉素材排序为候选镜头，从而得到候选镜头集合。

在本申请上述实施例中，获取以素材序列的方式组成的候选镜头集合，包括：从素材序列中随机选择序列中的第一个视觉素材；从备选素材中选择与第一个视觉素材相似度最高的下一个视觉素材，作为相邻素材放置于第一个视觉素材所在的素材序列中，且与第一个视觉素材的播放位置相邻；对素材序列中的每个视觉素材执行迭代选择出相邻的下一个视觉素材，输出候选镜头集合。

上述的备选素材可以是同一个聚类中未被选择的视觉素材。

在一种可选的实施例中，在通过迭代式的最近邻检索方法的过程中，对于每个聚类，可以随机选择候选镜头中的第一个视觉素材，并基于最近邻检索算法，从备选素材中选择最相似的未选择邻居为序列的下一个，进而迭代执行上述方法，直至筛选出所有的互选镜头，从而得到候选镜头集合，以确保候选镜头集合内的逻辑。

在本申请上述实施例中，基于产品特征的语义和视觉素材的感知说服力，从候选镜头集合中筛选得到多个目标镜头，包括：获取候选镜头集合中候选镜头中包含的多个视觉素材；基于每个视觉素材中产品特征的语义，获取每个视觉素材之间的语义距离；基于冯特曲线对每个视觉素材进行处理，获取每个视觉素材的感知说服力；基于每个视觉素材之间的语义距离，每个视觉素材的感知说服力，以及每个视觉素材的场景类别，筛选得到多个目标镜头。

上述的语义距离可以是基于产品特征的语义计算出的欧式距离，但不仅限于此。

上述的冯特(Wundt)曲线是预先学习得到的曲线。

在目标镜头的筛选过程中，为了确保镜头与产品之间的关系较大，感知说服力较强，同时考虑场景类别之间的平衡，可以综合考虑语义距离(SED)、感知说服力和场景类别这三个要素对镜头进行筛选。在一种可选的实施例中，对于候选镜头集合中的候选镜头，可以基于每个视觉素材的语义和产品标题，计算得到每个视觉素材之间的语义距离，并且根据Wundt曲线计算得到每个视觉素材的感知说服力，进而根据语义距离、感知说服力和场景类别选择目标镜头。

在本申请上述实施例中，基于每个视觉素材之间的语义距离，每个视觉素材的感知说服力，以及每个视觉素材的场景类别，筛选得到多个目标镜头，包括：获取每个视觉素材之间的语义距离，每个视觉素材的感知说服力，以及每个视觉素材的场景类别的加权和，得到候选镜头集合中每个镜头的分数；采用次模排序的方式每次从候选镜头集合中选择一个分数最高的镜头，筛选得到多个目标镜头。

在一种可选的实施例中，为了综合考虑语义距离、感知说服力和场景类别这三个要素，可以使用如下评价函数计算每个镜头的分数T(s_i)：

T(s_i)＝αSED(s_i)+βPES(s_i)+(1-α-β)f(s_i)，

其中，SED(s_i)表示镜头s_i的语义距离，PES表示镜头s_i的感知说服力，f(s_i)表示镜头s_i的场景类别，α和β分别为语义距离和感知说服力的权重值，可以根据不同因素的重要程度确定不同因素的权重值。

然后通过次模排序每次从所有候选镜头集合中筛选一个分数最高的镜头作为目标镜头，直至筛选出的目标镜头达到预先设定的上限。

在本申请上述实施例中，基于排序因素对多个目标镜头进行镜头排序，生成用于推荐产品的视频，包括：基于排序因素对多个目标镜头进行镜头排序，生成目标序列；按照目标序列排序后的镜头，生成用于推荐产品的视频。

对于上述三个排序因素，如果视觉素材中产品特征的变化不符合上述趋势，则可以通过目标函数惩罚上述变化。基于上述三个影视制作原理进行结合可以确定如下目标函数：

约束：

其中，SRR()表示显著比率，SED()表示语义距离，SIM(s_i，s_i+1)表示镜头s_i和镜头s_j的相似度，C()表示场景类别。α_c表示显著比率的权重值，β_c表示语义距离的权重值，γ_c表示相似度的权重值，可选的，不同的排序因素可以具有不同的权重值，权重值可以用于确定镜头排序的结果，在本申请实施例中，可以根据不同因素对于确定镜头排序的结果的重要程度确定不同因素的权重值。

在一种可选的实施例中，在逻辑流程满足的情况下考虑图形的不连续性，从而实现了适度的视觉刺激，可以通过上述目标函数搜索所有可能的排列确定目标序列，实现生成视觉素材序列的目的，进而可以生成推荐产品的宣传视频。

下面结合图4以在电商购物场景为例对本申请一种优选的实施例进行详细说明。如图4所示，该方法可以由客户端或服务器执行，在本实施例中，以服务器执行为例进行说明。该方法可以分为三个阶段执行，分别为镜头构成(Shot Composition)、镜头选择(Selection)和镜头排序(Plotting)，三个阶段的具体执行步骤如下：

步骤S41，输入视觉素材集合，该集合包含有一组具有用户指定持续时间的视频剪辑和图像。

步骤S42，根据输入的视觉素材集合组成镜头，上述镜头可以作为组成最终序列的候选子序列。

可选的，可以将视觉素材分组并将其排序为候选镜头，进一步可以分为场景检测和递归聚类两个子步骤：

步骤S421，在场景检测子步骤中，可以使用场景检测模型估计视觉素材的场景类别；

步骤S422，在递归聚类子步骤中，可以对视觉素材执行递归聚类，执行迭代最近邻检索，对于每个聚类，随机选择子序列中的第一个视觉素材，然后从备选素材中选择最相似的未选择邻居为序列的下一个，从而得到候选镜头集合。

步骤S43，根据感知说服力和产品的语义距离选择镜头。

可选的，可以由可学习的Wundt曲线计算感知说服力，并基于视觉素材的语义计算镜头和产品标题之间的语义距离，进而通过评价函数综合考虑语义距离、感知说服力和场景类别等三个要素，使用次模排序每次从候选镜头中选择一个分数最高的镜头，直到镜头数量达到设定的上限。

步骤S44，基于三种影视制作原理，通过考虑语义距离SED，显着区域比率SRR和所选镜头的相似度SIM生成视觉故事线序列。

可选的，可以基于语义距离SED，显着区域比率SRR和所选镜头的相似度SIM构建目标函数，并基于目标函数对选中的镜头进行排序，从而得到最终输出的视觉故事线序列。

通过上述步骤，本申请提出了一种利用影视制作原则的视觉素材序列生成方法，通过融合影视制作知识，将电影制作原理纳入自动生成的视觉故事情节中，以增强逻辑流程，观看体验和感知说服力，在提取原始视频视觉信息和结构信息的基础上将剪辑手法建模为优化子模块，从而更有效地推广电子商务产品。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本申请所必须的。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本申请各个实施例所述的方法。

实施例2

根据本申请实施例，还提供了一种视觉素材的处理方法，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

图5是根据本申请实施例的另一种视觉素材的处理方法的流程图。如图5所示，该方法包括如下步骤：

步骤S502，获取视觉素材集合，其中，视觉素材均包含了与待推荐的产品关联的产品特征。

步骤S504，将视觉素材集合中的视觉素材以素材序列的方式组成候选镜头集合。

步骤S506，基于产品特征的语义和视觉素材的感知说服力，从候选镜头集合中筛选得到多个目标镜头。

步骤S508，基于排序因素对多个目标镜头进行镜头排序，生成用于推荐产品的视频，其中，排序因素包括如下至少之一：目标镜头之间的语义距离，目标镜头中产品的显著区域比率和目标镜头之间的相似度。

上述的备选素材可以是同一个聚类中未被选择的视觉素材。

上述的冯特(Wundt)曲线是预先学习得到的曲线。

需要说明的是，本申请上述实施例中涉及到的优选实施方案与实施例1提供的方案以及应用场景、实施过程相同，但不仅限于实施例1所提供的方案。

实施例3

图6是根据本申请实施例的又一种视觉素材的处理方法的流程图。如图6所示，该方法包括如下步骤：

步骤S602，通过调用第一接口获取视觉素材集合，其中，第一接口包括：第一参数，第一参数的参数值为视觉素材集合，视觉素材均包含了与待推荐的产品关联的产品特征。

上述步骤中的第一接口可以是客户端与服务器之间进行数据交互的接口，客户端可以将视觉素材集合传入接口函数，作为接口函数的两个参数，实现视觉素材集合上传至服务器的目的。

步骤S604，将视觉素材集合中的视觉素材以素材序列的方式组成候选镜头集合。

步骤S606，基于产品特征的语义和视觉素材的感知说服力，从候选镜头集合中筛选得到多个目标镜头。

步骤S608，基于排序因素对多个目标镜头进行镜头排序，生成用于推荐产品的视频，其中，排序因素包括如下至少之一：目标镜头之间的语义距离，目标镜头中产品的显著区域比率和目标镜头之间的相似度。

步骤S610，通过调用第二接口输出视频，其中，第二接口包括：第二参数，第二参数的参数值为视频。

上述步骤中的第二接口可以是服务器与客户端之间进行数据交互的接口，服务器可以将用于推荐产品的视频传入接口函数，作为接口函数的一个参数，实现用于推荐产品的视频下发至客户端的目的。

上述的备选素材可以是同一个聚类中未被选择的视觉素材。

上述的冯特(Wundt)曲线是预先学习得到的曲线。

实施例4

根据本申请实施例，还提供了一种用于实施上述视觉素材的处理方法的视觉素材的处理装置，如图7所示，该装置700包括：接收模块702、组合模块704、筛选模块706、排序模块708和输出模块710。

其中，接收模块702用于接收视觉素材集合，其中，视觉素材均包含了与待推荐的产品关联的产品特征；组合模块704用于将视觉素材集合中的视觉素材以素材序列的方式组成候选镜头集合；筛选模块706用于基于产品特征的语义和视觉素材的感知说服力，从候选镜头集合中筛选得到多个目标镜头；排序模块708用于基于排序因素对多个目标镜头进行镜头排序，生成用于推荐产品的视频，其中，排序因素包括如下至少之一：目标镜头之间的语义距离，目标镜头中产品的显著区域比率和目标镜头之间的相似度；输出模块710用于输出视频。

此处需要说明的是，上述接收模块702、组合模块704、筛选模块706、排序模块708和输出模块710对应于实施例1中的步骤S202至步骤S210，五个模块与对应的步骤所实现的实例和应用场景相同，但不限于上述实施例1所公开的内容。需要说明的是，上述模块作为装置的一部分可以运行在实施例1提供的计算机终端10中。

在本申请上述实施例中，组合模块包括：分析单元、聚类单元和组合单元。

其中，分析单元用于采用场景检测模型来分析视觉素材集合中的视觉素材，获取视觉素材集合中的视觉素材的场景类别，其中，采用卷积神经网络模型训练样本素材生成场景检测模型；聚类单元用于基于视觉素材集合中的视觉素材的场景类别，对视觉素材集合进行递归聚类，聚类得到不同类别的多个素材序列；组合单元用于获取以素材序列的方式组成的候选镜头集合。

在本申请上述实施例中，组合单元包括：第一选择子单元、第二选择子单元和输出子单元。

其中，第一选择子单元用于从素材序列中随机选择序列中的第一个视觉素材；第二选择子单元用于从备选素材中选择与第一个视觉素材相似度最高的下一个视觉素材，作为相邻素材放置于第一个视觉素材所在的素材序列中，且与第一个视觉素材的播放位置相邻；输出子单元用于对素材序列中的每个视觉素材执行迭代选择出相邻的下一个视觉素材，输出候选镜头集合。

在本申请上述实施例中，筛选模块包括：第一获取单元、第二获取单元、第三获取单元和筛选单元。

其中，第一获取单元用于获取候选镜头集合中候选镜头中包含的多个视觉素材；第二获取单元用于基于每个视觉素材中产品特征的语义，获取每个视觉素材之间的语义距离；第三获取单元用于基于冯特曲线对每个视觉素材进行处理，获取每个视觉素材的感知说服力；筛选单元用于基于每个视觉素材之间的语义距离，每个视觉素材的感知说服力，以及每个视觉素材的场景类别，筛选得到多个目标镜头。

在本申请上述实施例中，筛选单元包括：获取子单元和筛选子单元。

其中，获取子单元用于获取每个视觉素材之间的语义距离，每个视觉素材的感知说服力，以及每个视觉素材的场景类别的加权和，得到候选镜头集合中每个镜头的分数；筛选子单元用于采用次模排序的方式每次从候选镜头集合中选择一个分数最高的镜头，筛选得到多个目标镜头。

在本申请上述实施例中，排序模块包括：排序单元和生成单元。

其中，排序单元用于基于排序因素对多个目标镜头进行镜头排序，生成目标序列；生成单元用于按照目标序列排序后的镜头，生成用于推荐产品的视频。

实施例5

根据本申请实施例，还提供了一种用于实施上述视觉素材的处理方法的视觉素材的处理装置，如图8所示，该装置800包括：获取模块802、组合模块804、筛选模块806和排序模块808。

其中，获取模块802用于获取视觉素材集合，其中，视觉素材均包含了与待推荐的产品关联的产品特征；组合模块804用于将视觉素材集合中的视觉素材以素材序列的方式组成候选镜头集合；筛选模块806用于基于产品特征的语义和视觉素材的感知说服力，从候选镜头集合中筛选得到多个目标镜头；排序模块808用于基于排序因素对多个目标镜头进行镜头排序，生成用于推荐产品的视频，其中，排序因素包括如下至少之一：目标镜头之间的语义距离，目标镜头中产品的显著区域比率和目标镜头之间的相似度。

此处需要说明的是，上述获取模块802、组合模块804、筛选模块806和排序模块808对应于实施例2中的步骤S502至步骤S508，四个模块与对应的步骤所实现的实例和应用场景相同，但不限于上述实施例1所公开的内容。需要说明的是，上述模块作为装置的一部分可以运行在实施例1提供的计算机终端10中。

实施例6

根据本申请实施例，还提供了一种用于实施上述视觉素材的处理方法的视觉素材的处理装置，如图9所示，该装置900包括：第一调用模块902、组合模块904、筛选模块906、排序模块908和第二调用模块910。

其中，第一调用模块902用于通过调用第一接口获取视觉素材集合，其中，第一接口包括：第一参数，第一参数的参数值为视觉素材集合，视觉素材均包含了与待推荐的产品关联的产品特征；组合模块904用于将视觉素材集合中的视觉素材以素材序列的方式组成候选镜头集合；筛选模块906用于基于产品特征的语义和视觉素材的感知说服力，从候选镜头集合中筛选得到多个目标镜头；排序模块908用于基于排序因素对多个目标镜头进行镜头排序，生成用于推荐产品的视频，其中，排序因素包括如下至少之一：目标镜头之间的语义距离，目标镜头中产品的显著区域比率和目标镜头之间的相似度；第二调用模块910用于通过调用第二接口输出视频，其中，第二接口包括：第二参数，第二参数的参数值为视频。

此处需要说明的是，上述第一调用模块902、组合模块904、筛选模块906、排序模块908和第二调用模块910对应于实施例3中的步骤S602至步骤S610，五个模块与对应的步骤所实现的实例和应用场景相同，但不限于上述实施例1所公开的内容。需要说明的是，上述模块作为装置的一部分可以运行在实施例1提供的计算机终端10中。

其中，排序单元用于基于排序因素对多个目标镜头进行镜头排序，生成目标序列生成单元用于按照目标序列排序后的镜头，生成用于推荐产品的视频。

实施例7

根据本申请实施例，还提供了一种视觉素材的处理系统，包括：

处理器；以及

存储器，与处理器连接，用于为处理器提供处理以下处理步骤的指令：接收视觉素材集合，其中，视觉素材均包含了与待推荐的产品关联的产品特征；将视觉素材集合中的视觉素材以素材序列的方式组成候选镜头集合；基于产品特征的语义和视觉素材的感知说服力，从候选镜头集合中筛选得到多个目标镜头；对多个目标镜头进行镜头排序，生成用于推荐产品的视频；输出视频。

实施例8

本申请的实施例可以提供一种计算机终端，该计算机终端可以是计算机终端群中的任意一个计算机终端设备。可选地，在本实施例中，上述计算机终端也可以替换为移动终端等终端设备。

可选地，在本实施例中，上述计算机终端可以位于计算机网络的多个网络设备中的至少一个网络设备。

在本实施例中，上述计算机终端可以执行视觉素材的处理方法中以下步骤的程序代码：接收视觉素材集合，其中，视觉素材均包含了与待推荐的产品关联的产品特征；将视觉素材集合中的视觉素材以素材序列的方式组成候选镜头集合；基于产品特征的语义和视觉素材的感知说服力，从候选镜头集合中筛选得到多个目标镜头；对多个目标镜头进行镜头排序，生成用于推荐产品的视频；输出视频。

可选地，图10是根据本申请实施例的一种计算机终端的结构框图。如图10所示，该计算机终端A可以包括：一个或多个(图中仅示出一个)处理器1002、以及存储器1004。

其中，存储器可用于存储软件程序以及模块，如本申请实施例中的视觉素材的处理方法和装置对应的程序指令/模块，处理器通过运行存储在存储器内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的视觉素材的处理方法。存储器可包括高速随机存储器，还可以包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器可进一步包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至终端A。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

处理器可以通过传输装置调用存储器存储的信息及应用程序，以执行下述步骤：接收视觉素材集合，其中，视觉素材均包含了与待推荐的产品关联的产品特征；将视觉素材集合中的视觉素材以素材序列的方式组成候选镜头集合；基于产品特征的语义和视觉素材的感知说服力，从候选镜头集合中筛选得到多个目标镜头；基于排序因素对多个目标镜头进行镜头排序，生成用于推荐产品的视频，其中，排序因素包括如下至少之一：目标镜头之间的语义距离，目标镜头中产品的显著区域比率和目标镜头之间的相似度；输出视频。

可选的，上述处理器还可以执行如下步骤的程序代码：采用场景检测模型来分析视觉素材集合中的视觉素材，获取视觉素材集合中的视觉素材的场景类别，其中，采用卷积神经网络模型训练样本素材生成场景检测模型；基于视觉素材集合中的视觉素材的场景类别，对视觉素材集合进行递归聚类，聚类得到不同类别的多个素材序列；获取以素材序列的方式组成的候选镜头集合。

可选的，上述处理器还可以执行如下步骤的程序代码：从素材序列中随机选择序列中的第一个视觉素材；从备选素材中选择与第一个视觉素材相似度最高的下一个视觉素材，作为相邻素材放置于第一个视觉素材所在的素材序列中，且与第一个视觉素材的播放位置相邻；对素材序列中的每个视觉素材执行迭代选择出相邻的下一个视觉素材，输出候选镜头集合。

可选的，上述处理器还可以执行如下步骤的程序代码：获取候选镜头集合中候选镜头中包含的多个视觉素材；基于每个视觉素材中产品特征的语义，获取每个视觉素材之间的语义距离；基于冯特曲线对每个视觉素材进行处理，获取每个视觉素材的感知说服力；基于每个视觉素材之间的语义距离，每个视觉素材的感知说服力，以及每个视觉素材的场景类别，筛选得到多个目标镜头。

可选的，上述处理器还可以执行如下步骤的程序代码：获取每个视觉素材之间的语义距离，每个视觉素材的感知说服力，以及每个视觉素材的场景类别的加权和，得到候选镜头集合中每个镜头的分数；采用次模排序的方式每次从候选镜头集合中选择一个分数最高的镜头，筛选得到多个目标镜头。

可选的，上述处理器还可以执行如下步骤的程序代码：基于排序因素对多个目标镜头进行镜头排序，生成目标序列；按照目标序列排序后的镜头，生成用于推荐产品的视频。

处理器可以通过传输装置调用存储器存储的信息及应用程序，以执行下述步骤：获取视觉素材集合，其中，视觉素材均包含了与待推荐的产品关联的产品特征；将视觉素材集合中的视觉素材以素材序列的方式组成候选镜头集合；基于产品特征的语义和视觉素材的感知说服力，从候选镜头集合中筛选得到多个目标镜头；基于排序因素对多个目标镜头进行镜头排序，生成用于推荐产品的视频，其中，排序因素包括如下至少之一：目标镜头之间的语义距离，目标镜头中产品的显著区域比率和目标镜头之间的相似度。

处理器可以通过传输装置调用存储器存储的信息及应用程序，以执行下述步骤：通过调用第一接口获取视觉素材集合，其中，第一接口包括：第一参数，第一参数的参数值为视觉素材集合，视觉素材均包含了与待推荐的产品关联的产品特征；将视觉素材集合中的视觉素材以素材序列的方式组成候选镜头集合；基于产品特征的语义和视觉素材的感知说服力，从候选镜头集合中筛选得到多个目标镜头；基于排序因素对多个目标镜头进行镜头排序，生成用于推荐产品的视频，其中，排序因素包括如下至少之一：目标镜头之间的语义距离，目标镜头中产品的显著区域比率和目标镜头之间的相似度；通过调用第二接口输出视频，其中，第二接口包括：第二参数，第二参数的参数值为视频。

采用本申请实施例，提供了一种生成视觉素材序列的方案。通过将影视制作知识融合到候选镜头集合筛选和镜头排序过程中，在提取原始视频视觉信息和结构信息的基础上将剪辑手法建模为优化子模块，从而达到了增强逻辑流程，提升观看体验和感知说服力，更有效地推广产品的技术效果，进而解决了相关技术中视觉素材通过人力手动处理，导致成本较高且耗时较长的技术问题。

本领域普通技术人员可以理解，图10所示的结构仅为示意，计算机终端也可以是智能手机(如Android手机、iOS手机等)、平板电脑、掌上电脑以及移动互联网设备(MobileInternet Devices，MID)、PAD等终端设备。图10其并不对上述电子装置的结构造成限定。例如，计算机终端A还可包括比图10中所示更多或者更少的组件(如网络接口、显示装置等)，或者具有与图10所示不同的配置。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：闪存盘、只读存储器(Read-Only Memory，ROM)、随机存取器(RandomAccess Memory，RAM)、磁盘或光盘等。

实施例9

本申请的实施例还提供了一种存储介质。可选地，在本实施例中，上述存储介质可以用于保存上述实施例所提供的视觉素材的处理方法所执行的程序代码。

可选地，在本实施例中，上述存储介质可以位于计算机网络中计算机终端群中的任意一个计算机终端中，或者位于移动终端群中的任意一个移动终端中。

可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：接收视觉素材集合，其中，视觉素材均包含了与待推荐的产品关联的产品特征；将视觉素材集合中的视觉素材以素材序列的方式组成候选镜头集合；基于产品特征的语义和视觉素材的感知说服力，从候选镜头集合中筛选得到多个目标镜头；基于排序因素对多个目标镜头进行镜头排序，生成用于推荐产品的视频，其中，排序因素包括如下至少之一：目标镜头之间的语义距离，目标镜头中产品的显著区域比率和目标镜头之间的相似度；输出视频。

可选的，上述存储介质还被设置为存储用于执行以下步骤的程序代码：采用场景检测模型来分析视觉素材集合中的视觉素材，获取视觉素材集合中的视觉素材的场景类别，其中，采用卷积神经网络模型训练样本素材生成场景检测模型；基于视觉素材集合中的视觉素材的场景类别，对视觉素材集合进行递归聚类，聚类得到不同类别的多个素材序列；获取以素材序列的方式组成的候选镜头集合。

可选的，上述存储介质还被设置为存储用于执行以下步骤的程序代码：从素材序列中随机选择序列中的第一个视觉素材；从备选素材中选择与第一个视觉素材相似度最高的下一个视觉素材，作为相邻素材放置于第一个视觉素材所在的素材序列中，且与第一个视觉素材的播放位置相邻；对素材序列中的每个视觉素材执行迭代选择出相邻的下一个视觉素材，输出候选镜头集合。

可选的，上述存储介质还被设置为存储用于执行以下步骤的程序代码：获取候选镜头集合中候选镜头中包含的多个视觉素材；基于每个视觉素材中产品特征的语义，获取每个视觉素材之间的语义距离；基于冯特曲线对每个视觉素材进行处理，获取每个视觉素材的感知说服力；基于每个视觉素材之间的语义距离，每个视觉素材的感知说服力，以及每个视觉素材的场景类别，筛选得到多个目标镜头。

可选的，上述存储介质还被设置为存储用于执行以下步骤的程序代码：获取每个视觉素材之间的语义距离，每个视觉素材的感知说服力，以及每个视觉素材的场景类别的加权和，得到候选镜头集合中每个镜头的分数；采用次模排序的方式每次从候选镜头集合中选择一个分数最高的镜头，筛选得到多个目标镜头。

可选的，上述存储介质还被设置为存储用于执行以下步骤的程序代码：基于排序因素对多个目标镜头进行镜头排序，生成目标序列；按照目标序列排序后的镜头，生成用于推荐产品的视频。

可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：获取视觉素材集合，其中，视觉素材均包含了与待推荐的产品关联的产品特征；将视觉素材集合中的视觉素材以素材序列的方式组成候选镜头集合；基于产品特征的语义和视觉素材的感知说服力，从候选镜头集合中筛选得到多个目标镜头；基于排序因素对多个目标镜头进行镜头排序，生成用于推荐产品的视频，其中，排序因素包括如下至少之一：目标镜头之间的语义距离，目标镜头中产品的显著区域比率和目标镜头之间的相似度。

可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：通过调用第一接口获取视觉素材集合，其中，第一接口包括：第一参数，第一参数的参数值为视觉素材集合，视觉素材均包含了与待推荐的产品关联的产品特征；将视觉素材集合中的视觉素材以素材序列的方式组成候选镜头集合；基于产品特征的语义和视觉素材的感知说服力，从候选镜头集合中筛选得到多个目标镜头；基于排序因素对多个目标镜头进行镜头排序，生成用于推荐产品的视频，其中，排序因素包括如下至少之一：目标镜头之间的语义距离，目标镜头中产品的显著区域比率和目标镜头之间的相似度；通过调用第二接口输出视频，其中，第二接口包括：第二参数，第二参数的参数值为视频。

上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

在本申请的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的技术内容，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅是本申请的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本申请的保护范围。

Claims

1.一种视觉素材的处理方法，其特征在于，包括：

接收视觉素材集合，其中，所述视觉素材均包含了与待推荐的产品关联的产品特征；

将所述视觉素材集合中的视觉素材以素材序列的方式组成候选镜头集合；

基于产品特征的语义和视觉素材的感知说服力，从所述候选镜头集合中筛选得到多个目标镜头；

基于排序因素对所述多个目标镜头进行镜头排序，生成用于推荐所述产品的视频，其中，所述排序因素包括如下至少之一：所述目标镜头之间的语义距离，所述目标镜头中所述产品的显著区域比率和所述目标镜头之间的相似度；

输出所述视频。

2.根据权利要求1所述的方法，其特征在于，将所述视觉素材集合中的视觉素材以素材序列的方式组成候选镜头集合，包括：

采用场景检测模型来分析所述视觉素材集合中的视觉素材，获取所述视觉素材集合中的视觉素材的场景类别，其中，采用卷积神经网络模型训练样本素材生成所述场景检测模型；

基于所述视觉素材集合中的视觉素材的场景类别，对所述视觉素材集合进行递归聚类，聚类得到不同类别的多个素材序列；

获取以所述素材序列的方式组成的所述候选镜头集合。

3.根据权利要求2所述的方法，其特征在于，所述素材序列中包含的视觉素材具有相同的场景类型，且视觉素材的视觉外观相似度超过阀值；不同素材序列之间的场景类型不同。

4.根据权利要求3所述的方法，其特征在于，获取以所述素材序列的方式组成的所述候选镜头集合，包括：

从所述素材序列中随机选择序列中的第一个视觉素材；

从备选素材中选择与所述第一个视觉素材相似度最高的下一个视觉素材，作为相邻素材放置于所述第一个视觉素材所在的素材序列中，且与所述第一个视觉素材的播放位置相邻；

对所述素材序列中的每个视觉素材执行迭代选择出相邻的下一个视觉素材，输出所述候选镜头集合。

5.根据权利要求1所述的方法，其特征在于，基于产品特征的语义和视觉素材的感知说服力，从所述候选镜头集合中筛选得到多个目标镜头，包括：

获取所述候选镜头集合中候选镜头中包含的多个视觉素材；

基于每个视觉素材中产品特征的语义，获取所述每个视觉素材之间的语义距离；

基于冯特曲线对所述每个视觉素材进行处理，获取所述每个视觉素材的感知说服力；

基于所述每个视觉素材之间的语义距离，所述每个视觉素材的感知说服力，以及所述每个视觉素材的场景类别，筛选得到所述多个目标镜头。

6.根据权利要求5所述的方法，其特征在于，基于所述每个视觉素材之间的语义距离，所述每个视觉素材的感知说服力，以及所述每个视觉素材的场景类别，筛选得到所述多个目标镜头，包括：

获取所述每个视觉素材之间的语义距离，所述每个视觉素材的感知说服力，以及所述每个视觉素材的场景类别的加权和，得到所述候选镜头集合中每个镜头的分数；

采用次模排序的方式每次从所述候选镜头集合中选择一个分数最高的镜头，筛选得到所述多个目标镜头。

7.根据权利要求1所述的方法，其特征在于，基于排序因素对所述多个目标镜头进行镜头排序，生成用于推荐所述产品的视频，包括：

基于所述排序因素对所述多个目标镜头进行镜头排序，生成目标序列；

按照所述目标序列排序后的镜头，生成所述用于推荐所述产品的视频。

8.根据权利要求7所述的方法，其特征在于，不同的排序因素具有不同的权重值，所述权重值用于确定镜头排序的结果。

9.一种视觉素材的处理装置，其特征在于，包括：

接收模块，用于接收视觉素材集合，其中，所述视觉素材均包含了与待推荐的产品关联的产品特征；

组合模块，用于将所述视觉素材集合中的视觉素材以素材序列的方式组成候选镜头集合；

筛选模块，用于基于产品特征的语义和视觉素材的感知说服力，从所述候选镜头集合中筛选得到多个目标镜头；

排序模块，用于基于排序因素对所述多个目标镜头进行镜头排序，生成用于推荐所述产品的视频，其中，所述排序因素包括如下至少之一：所述目标镜头之间的语义距离，所述目标镜头中所述产品的显著区域比率和所述目标镜头之间的相似度；

输出模块，用于输出所述视频。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质包括存储的程序，其中，在所述程序运行时控制所述计算机可读存储介质所在设备执行权利要求1至8中任意一项所述的视觉素材的处理方法。

11.一种计算机终端，其特征在于，包括：存储器和处理器，所述处理器用于运行所述存储器中存储的程序，其中，所述程序运行时执行权利要求1至8中任意一项所述的视觉素材的处理方法。

12.一种视觉素材的处理系统，其特征在于，包括：

处理器；以及

存储器，与所述处理器连接，用于为所述处理器提供处理以下处理步骤的指令：接收视觉素材集合，其中，所述视觉素材均包含了与待推荐的产品关联的产品特征；将所述视觉素材集合中的视觉素材以素材序列的方式组成候选镜头集合；基于产品特征的语义和视觉素材的感知说服力，从所述候选镜头集合中筛选得到多个目标镜头；对所述多个目标镜头进行镜头排序，生成用于推荐所述产品的视频；输出所述视频。