CN116521937A

CN116521937A - 视频表单的生成方法、装置、设备及存储介质、程序产品

Info

Publication number: CN116521937A
Application number: CN202210071225.0A
Authority: CN
Inventors: 庄涵
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2022-01-21
Filing date: 2022-01-21
Publication date: 2023-08-01

Abstract

本申请提供了一种视频表单的生成方法、装置、设备及计算机可读存储介质；涉及人工智能技术领域，方法包括：获取样本视频及待推荐对象的描述信息；基于样本视频的视频指纹获取样本视频的多个相似视频，并获取多个相似视频对应的多个视频标签；基于描述信息的文本向量获取描述信息的多个相似文本，并获取多个相似文本对应的多个文本标签；基于多个视频标签及多个文本标签分别对应的热度值，在多个视频标签和多个文本标签中选取至少一个标签作为目标标签；基于目标标签对应的每个视频字段的筛选指标，选取至少一个视频字段生成视频表单，视频表单用于生成用于推荐待推荐对象的视频。通过本申请，能够准确高效地生成用于生成推荐视频的视频表单。

Description

视频表单的生成方法、装置、设备及存储介质、程序产品

技术领域

本申请涉及人工智能和推荐技术，尤其涉及一种视频表单的生成方法、装置、设备及存储介质、程序产品。

背景技术

人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。

基于推荐系统向用户推送视频来传播特定对象的信息，是人工智能在推荐技术领域的典型应用。以广告推送为例，推荐系统识别对物品、服务等各种对象感兴趣的用户，向用户的终端设备发送用于推荐对象的视频广告，从而帮助用户了解对象的相关信息。

对于信息推荐方(具有信息推荐需求的一方，例如广告主)来说，往往缺乏制作视频的专业技能，从而无法在短时间内制作出用于推荐对象的高质量的视频，这影响了推荐的时效性，也难以达到推荐对象的预期的推荐效果。

发明内容

本申请实施例提供一种视频表单的生成方法、装置、电子设备及计算机可读存储介质、计算机程序产品，能够准确和高效地生成用于制作高质量视频的视频表单，从而提升推荐的时效性和推荐效果。

本申请实施例的技术方案是这样实现的：

本申请实施例提供一种视频表单的生成方法，包括：

获取样本视频及待推荐对象的描述信息；

基于所述样本视频的视频指纹获取所述样本视频的多个相似视频，并获取所述多个相似视频对应的多个视频标签；

基于所述描述信息的文本向量获取所述描述信息的多个相似文本，并获取所述多个相似文本对应的多个文本标签；

基于所述多个视频标签及所述多个文本标签分别对应的热度值，在所述多个视频标签和所述多个文本标签中选取至少一个标签作为目标标签；

基于所述目标标签对应的每个视频字段的筛选指标，选取至少一个所述视频字段生成视频表单，其中，所述视频表单用于生成用于推荐所述待推荐对象的视频。

本申请实施例提供一种视频表单的生成装置，包括：。

数据获取模块，用于获取样本视频及待推荐对象的描述信息；

标签获取模块，用于基于所述样本视频的视频指纹获取所述样本视频的多个相似视频，并获取所述多个相似视频对应的多个视频标签；基于所述描述信息的文本向量获取所述描述信息的多个相似文本，并获取所述多个相似文本对应的多个文本标签；

标签获取模块，还用于基于所述多个视频标签及所述多个文本标签分别对应的热度值，在所述多个视频标签和所述多个文本标签中选取至少一个标签作为目标标签；

表单生成模块，用于基于所述目标标签对应的每个视频字段的筛选指标，选取至少一个所述视频字段生成视频表单，其中，所述视频表单用于生成用于推荐所述待推荐对象的视频。

本申请实施例提供的一种用于视频表单的生成的电子设备，所述电子设备包括：

存储器，用于存储可执行指令；

处理器，用于执行所述存储器中存储的可执行指令时，实现本申请实施例的方法。

本申请实施例提供的一种计算机可读存储介质，存储有可执行指令，所述可执行指令被处理器执行时实现本申请实施例的视频表单的生成方法。

本申请实施例提供的一种计算机程序产品，包括计算机程序或指令，其特征在于，所述计算机程序或指令被处理器执行时实现本申请实施例的视频表单的生成方法。

本申请实施例具有以下有益效果：

通过对样本视频与待推荐对象的描述信息进行分析，得到相关的视频标签与文本标签，基于标签获取视频字段，使得视频字段更符合待推荐对象的相关特征，生成的视频表单能够更好地表征待推荐对象的相关特征，从而使视频表单能够用于生成更准确地对待推荐对象进行推荐的推荐视频，提升了推荐的时效性与推荐效果。

附图说明

图1是本申请实施例提供的视频表单的生成方法的应用场景的示意图；

图2是本申请实施例提供的用于视频表单的生成的视频定制服务器的结构示意图；

图3A是本申请实施例提供的视频表单的生成方法的流程示意图；

图3B是本申请实施例提供的视频表单的生成方法的流程示意图；

图3C是本申请实施例提供的视频表单的生成方法的流程示意图；

图3D是本申请实施例提供的视频表单的生成方法的流程示意图；

图3E是本申请实施例提供的视频表单的生成方法的流程示意图；

图4是本申请实施例提供的标签与字段之间的关系示意图；

图5是本申请实施例提供的各个数据库之间的关系示意图；

图6A是本申请实施例提供的视频表单的生成方法的流程示意图；

图6B是本申请实施例提供的视频表单的生成方法的流程示意图；

图6C是本申请实施例提供的初始表单的示意图；

图6D至图6E是本申请实施例提供的视频表单的示意图。

具体实施方式

为了使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请作进一步地详细描述，所描述的实施例不应视为对本申请的限制，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本申请保护的范围。

在以下的描述中，涉及到“一些实施例”，其描述了所有可能实施例的子集，但是可以理解,“一些实施例”可以是所有可能实施例的相同子集或不同子集，并且可以在不冲突的情况下相互结合。

在以下的描述中，所涉及的术语“第一\第二\第三”仅仅是是区别类似的对象，不代表针对对象的特定排序，可以理解地，“第一\第二\第三”在允许的情况下可以互换特定的顺序或先后次序，以使这里描述的本申请实施例能够以除了在这里图示或描述的以外的顺序实施。

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请实施例的目的，不是旨在限制本申请。

需要指出，在本申请实施例中，涉及到用户信息、用户反馈数据等相关的数据，当本申请实施例运用到具体产品或技术中时，需要获得用户许可或者同意，且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。

对本申请实施例进行进一步详细说明之前，对本申请实施例中涉及的名词和术语进行说明，本申请实施例中涉及的名词和术语适用于如下的解释。

1)视频指纹，用于唯一表征视频的特征，视频指纹可以通过1024维特征向量来进行表示，也即1024维视频指纹。

2)词频逆文档率(TF-IDF，Term Frequency Inverse Document Frequency)文本向量，词频是一个词在所在文本中出现的频率，一个词在文本中出现的次数越多这个词的词频越高，例如：文本中的总词语数为C，词语D在文本中的出现次数为d，则词语D对应的词频为TF＝d/C；逆文档频率，可以通过文档频率的倒数的对数表示，文档频率是出现这个词的文本在语料库中的出现的频率，出现这个词的文本数越多，文档频率越高，则这个词的逆文档频率越低，例如：语料库包含L个文本，其中W个文本出现了词语D，则词语D的逆文档频率为IDF＝lg(L/W)；词频逆文档率等于词频与逆文档频率的乘积。文本中每个词的词频逆文档率是一个分量，将所有分量组合在一起可以得到文本的词频逆文档率文本向量。

3)视频表单，简称表单，用于描述用于推荐对象的视频的不同方面的特征，包括多个表单字段(简称为字段)，每个表单字段包括视频的一个类型的参数以及对应的参数值，每个参数的参数值具有一定的取值范围。

例如：表单字段“视频长度，1分30秒”，其中“视频长度”是视频的一个类型的参数，“1分30秒”是对应的参数值。表单字段“动画场景，3D动画”，其中，“动画场景”是视频的一个类型的参数，“3D动画是”对应的参数值。

4)推荐效果数据，表征视频所实现的推荐效果的数据，以视频为视频广告为例，推荐效果数据也即广告效果数据，例如：曝光率、记忆率、影响购买意愿程度、喜欢程度及二跳率。其中，曝光率是广告实际到达的人数与广告可以覆盖人群总数的比例。记忆率是所有看过广告的用户中能够回忆起广告的用户的比例。影响购买意愿程度是广告能够吸引多少用户尝试广告宣传的物品。喜欢程度是看过该广告的用户中喜欢该广告的用户的比例，以及用户对于该广告的喜欢水平。二跳率是进行了第一次跳转的用户中的进行了“二跳”的用户的比例，其中，当用户根据外部网站提供的链接访问被检测网站的广告视频时，被称为第一次跳转，访问被检测网站后，若用户进入被检测网站的广告视频深层页面进行浏览，则被称为第二次跳转(即“二跳”)。

5)热度值，表征标签(例如：视频标签、文本标签)在使用频率以及推荐效果数据中至少一个方面上的效果，热度值是标签的热度的度量值。

6)自然语言处理(NLP，Natural Language Processing)智能分词，自然语言处理智能分词技术能够利用人工智能对自然语言的文本进行处理，并得到文本中的词。

本申请实施例提供一种视频表单的生成方法、视频表单的生成装置、用于视频表单的生成的电子设备和计算机可读存储介质、计算机程序产品，能够使表单字段更符合待推荐对象的特征，从而生成更准确的视频表单，进而提升基于视频表单进行视频生成的准确度。

参见图1，图1是本申请实施例提供的视频表单的生成方法的应用场景的示意图，涉及的服务器包括：视频定制服务器201(运行有图形化的前端，即视频定制平台)与推荐服务器202(属于推荐系统，例如广告系统)、网络300及终端设备(第一终端设备400A、第二终端设备400B)。视频定制服务器201与推荐服务器202之间通过网络300进行通信，或者通过其他方式进行通信。终端设备通过网络300连接推荐服务器202，网络300可以是广域网或者局域网，又或者是二者的组合。

第一用户是推荐方(也即需要推荐对象的一方，例如广告主)，第二用户是符合待推荐对象的定向推荐条件的用户。待推荐对象可以是真实对象(例如：食品、生活用品、电子设备或者交通工具等)或者虚拟对象(例如：游戏、游戏道具、线上教育课程等)、服务(例如代购服务、保洁服务、咨询服务等)。第一用户通过第一终端设备400A访问视频定制平台(也就是视频定制服务器201的图形前端)，上传的样本视频与待推荐对象的描述信息，视频定制服务器201基于样本视频与描述信息进行分析，生成视频表单，并基于视频表单，生成用于推荐待推荐对象的视频(例如广告视频)，视频定制服务器201将广告视频通过网络300发送到推荐服务器202。推荐服务器202中已经存储了第一用户通过终端400B提交的定向推荐条件，向符合定向推荐条件的第二用户的第二终端设备400B发送视频，从而使第二用户通过观看视频了解所兴趣的对象的信息。

本申请实施例可以通过数据库技术实现，数据库(Database)，简而言之可视为电子化的文件柜——存储电子文件的处所，用户可以对文件中的数据进行新增、查询、更新、删除等操作。所谓“数据库”是以一定方式储存在一起、能与多个用户共享、具有尽可能小的冗余度、与应用程序彼此独立的数据集合。

数据库管理系统(Database Management System，DBMS)是为管理数据库而设计的电脑软件系统，一般具有存储、截取、安全保障、备份等基础功能。数据库管理系统可以依据它所支持的数据库模型来作分类，例如关系式、XML(Extensible Markup Language，即可扩展标记语言)；或依据所支持的计算机类型来作分类，例如服务器群集、移动电话；或依据所用查询语言来作分类，例如结构化查询语言(SQL，Structured Query Language)、XQuery；或依据性能冲量重点来作分类，例如最大规模、最高运行速度；亦或其他的分类方式。不论使用哪种分类方式，一些DBMS能够跨类别，例如，同时支持多种查询语言。

本申请实施例中可以统一部署一个数据库，或者，可以根据所使用的数据的类型对应部署不同的数据库，例如语料数据库、视频指纹数据库、视频标签数据库、文本向量数据库、文本标签数据库以及标签字段数据库(以下将上述多种数据库名称中的数据库简称为库)。

在一些实施例中，服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。终端设备可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等，但并不局限于此。终端设备以及服务器之间可以通过有线或无线通信方式进行直接或间接地连接，本发明实施例中不做限制。

本申请实施例，还可以通过机器学习实现，机器学习(Machine Learning，ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。

本申请实施例，还可以通过云技术实现，云技术(Cloud technology)基于云计算商业模式应用的网络技术、信息技术、整合技术、管理平台技术、应用技术等的总称，可以组成资源池，按需所用，灵活便利。云计算技术将变成重要支撑。技术网络系统的后台服务需要大量的计算、存储资源，如视频网站、图片类网站和更多的门户网站。伴随着互联网行业的高度发展和应用，以及搜索服务、社会网络、移动商务和开放协作等需求的推动，将来每个物品都有可能存在自己的哈希编码识别标志，都需要传输到后台系统进行逻辑处理，不同程度级别的数据将会分开处理，各类行业数据皆需要强大的系统后盾支撑，只能通过云计算来实现。

参见图2，图2是本申请实施例提供的用于视频表单的生成的视频定制服务器的结构示意图，包括：至少一个处理器410、存储器450、至少一个网络接口420。电子设备400中的各个组件通过总线系统440耦合在一起。可理解，总线系统440用于实现这些组件之间的连接通信。总线系统440除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见，在图2中将各种总线都标为总线系统440。

处理器410可以是一种集成电路芯片，具有信号的处理能力，例如通用处理器、数字信号处理器(DSP，Digital Signal Processor)，或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等，其中，通用处理器可以是微处理器或者任何常规的处理器等。

存储器450可以是可移除的，不可移除的或其组合。示例性的硬件设备包括固态存储器，硬盘驱动器，光盘驱动器等。存储器450可选地包括在物理位置上远离处理器410的一个或多个存储设备。

存储器450包括易失性存储器或非易失性存储器，也可包括易失性和非易失性存储器两者。非易失性存储器可以是只读存储器(ROM，Read Only Memory)，易失性存储器可以是随机存取存储器(RAM，Random Access Memory)。本申请实施例描述的存储器450旨在包括任意适合类型的存储器。

在一些实施例中，存储器450能够存储数据以支持各种操作，这些数据的示例包括程序、模块和数据结构或者其子集或超集，下面示例性说明。

操作系统451，包括用于处理各种基本系统服务和执行硬件相关任务的系统程序，例如框架层、核心库层、驱动层等，用于实现各种基础业务以及处理基于硬件的任务。

网络通信模块452，用于经由一个或多个(有线或无线)网络接口420到达其他计算设备，示例性的网络接口420包括：蓝牙、无线相容性认证(WiFi)、和通用串行总线(USB，Universal Serial Bus)等。

在一些实施例中，本申请实施例提供的视频表单生成装置可以采用软件方式实现，图2示出了存储在存储器450中的视频表单的生成装置455，其可以是程序和插件等形式的软件，包括以下软件模块：数据获取模块4551、标签获取模块4552、表单生成模块4553，这些模块是逻辑上的，因此根据所实现的功能可以进行任意的组合或进一步拆分。将在下文中说明各个模块的功能。

参见图3A，图3A是本申请实施例提供的视频表单的生成方法的流程示意图，以图1中的视频定制服务器为执行主体，将结合图3A示出的步骤进行说明。

在步骤101中，获取样本视频及待推荐对象的描述信息。

示例的，样本视频以及描述信息可以是推荐方(例如：广告主，对应于图1中的第一用户)通过终端设备(图1中的第一终端设备400A)发送至视频定制服务器的，待推荐对象可以是真实对象(例如：食品、生活用品、电子设备或者交通工具等)或者虚拟对象(例如：游戏、游戏道具、线上教育课程等)、服务(例如代购服务、保洁服务、咨询服务等)。待推荐对象的描述信息以文本形式呈现，例如：待推荐对象是家电设备，描述信息是该家电设备的使用说明文本。样本视频以及描述信息能够体现第一用户对于用于推荐待推荐对象的推荐视频的需求。

需要指出，虽然图1中示出了步骤102至步骤104的先后执行顺序，但是根据下文的描述可以理解，步骤102和步骤103可以是先后执行的，也可以是并列执行的。

在步骤102中，基于样本视频的视频指纹获取样本视频的多个相似视频，并获取多个相似视频对应的多个视频标签。

示例的，视频指纹用于表征视频的特征，本申请实施例中以特征向量的形式表征视频指纹。相似视频是与样本视频的相似度较高的视频，例如：确定多个参考视频与样本视频之间的相似度(可以通过视频指纹之间的相似度表征)，选取相似度处于相似度阈值区间(例如：相似度0.9～1)的参考视频作为相似视频，或者选取相似度降序排序头部的多个参考视频作为相似视频。相似视频对应的视频标签与相似视频的内容相关，例如：相似视频是某一款游戏的展示视频，相似视频的视频标签为：****(此处****指代游戏的名称)、游戏动画、XX(此处XX指代游戏角色名称)。

在一些实施例中，参见图3B，图3B是本申请实施例提供的视频表单的生成方法的流程示意图；步骤102可以通过步骤1021至步骤1023实现，以下具体说明。

在步骤1021中，获取样本视频的视频指纹。

示例的，本申请实施例中以视频指纹为特征向量形式为例进行说明，步骤1021可以通过以下方式实现：基于预设时长(例如：每秒)分割样本视频，得到多个视频片段，从每个视频片段中提取一个视频帧(例如关键帧)；调用深度学习卷积神经网络对每个视频帧进行特征提取，得到每个视频帧对应的视频帧特征；对每个视频帧对应的视频帧特征进行组合，得到样本视频的视频指纹。

示例的，视频片段中包含多个视频帧，例如预设时长为1秒，从每个视频片段中提取一个关键帧，基于从每个视频片段提取的关键帧进行特征提取。如果样本视频的最后一个视频片段的时长小于预设时长，仍然从最后一个视频片段中提取一个视频帧(相当于对视频片段的数量进行向上取整，从而能够全面反应视频的特征，保证后续计算的视频指纹的准确性)。可以调用深度学习卷积神经网络对所有视频片段进行处理，得到每个视频片段对应的视频帧特征，再将视频帧特征进行组合得到样本视频的视频指纹。样本视频的视频指纹可以是一个多维(例如1024维)向量，也即视频指纹为多维视频指纹。

在步骤1022中，确定每个参考视频的视频指纹分别与样本视频的视频指纹之间的相似度，从相似度的降序排序结果的头部选取多个参考视频作为样本视频的多个相似视频，或选取相似度大于相似度阈值的多个参考视频作为样本视频的多个相似视频。

示例的，每个参考视频的视频标识以及视频指纹之间的对应关系存储在视频指纹库中，参考视频的视频标识与视频指纹之间为一对一关系。

示例的，视频指纹可以通过特征向量表征，则视频指纹之间的相似度可以通过特征向量之间的欧式距离表征，特征向量之间的欧式距离越短，则视频指纹之间的相似度越高。以下公式(1)为欧式距离公式：

其中，X、Y为视频指纹对应的特征向量，x_i是特征向量X中第i位的特征值，y_i是特征向量Y中第i位的特征值。dist(X，Y)是特征向量X与特征向量Y之间的欧式距离，欧式距离越小，则特征向量X对应的视频与特征向量Y对应的视频之间的相似度越大。

示例的，降序排序也即相似度越高排序越高，对应地，参考视频的视频指纹对应的特征向量与样本视频的视频指纹对应的特征向量之间的欧式距离越小，则参考视频的排序越高。从降序排序结果的头部选取设定数量的多个参考视频(例如10个)，作为相似视频。或者，选取相似度大于相似度大于预设的相似度阈值(例如0.9)的多个参考视频作为相似视频。

在步骤1023中，基于多个相似视频的视频标识查询不同的参考视频与不同的视频标签之间的对应关系，得到多个相似视频对应的多个视频标签。

每个相似视频对应至少一个视频标签。

示例的，视频标签与参考视频的视频ID的对应关系存储在视频标签数据库中。视频标签与参考视频的视频ID之间的对应关系的类型包括一对一、一对多、多对一。每个视频标签具有对应的热度值，视频标签对应的热度值是基于视频标签在视频定制服务器中的使用频率以及对应的视频的推荐效果数据中至少一项确定的，视频的推荐效果数据包括以下至少之一：曝光数、点击数以及转化数(即在播放视频后发生下单、购买、收藏等转化行为的用户数量)。例如：用于推荐待推荐对象的推荐视频是广告视频，则推荐效果数据可以通过广告转化率体现，广告用户的转化数与广告到达量的比值称为广告转化率。

示例的，热度值可以通过以下方式获取，视频标签在视频定制服务器中的使用频率以及对应的视频的推荐效果数据分别对应于不同的权值，将使用频率、推荐效果数据分别与对应的权值进行加权求和，将加权求和的结果作为热度值。

在一些实施例中，可以基于参考视频对应的视频标签的热度值、参考视频的视频指纹与样本视频的视频指纹之间的相似度进行加权求和计算，得到加权求和结果，基于加权求和结果对推荐服务器202中所有待推送的参考视频进行降序排序，选取降序排序头部的多个参考视频作为相似视频，并获取相似视频对应的视频标签。

在一些实施例中，视频定制服务器201获取样本视频对应的视频指纹，基于样本视频的视频指纹与视频指纹库中的视频指纹的相似度，确定样本视频对应的相似视频。视频定制服务器201基于相似视频的视频标识在视频标签库中进行检索，得到每个相似视频对应的多个视频标签。

本申请实施例中，基于视频指纹获取样本视频的相似视频，能够提升获取相似视频的准确度，通过相似视频与视频标签之间的对应关系获取视频标签，使得获取到的视频标签更符合样本视频的相关特征，减少了获取视频标签所需的计算量。

在一些实施例中，每个参考视频的视频指纹是存储在视频指纹数据库中的，在步骤102之前，还可以通过以下方式向视频指纹数据库和视频标签数据库写入数据：获取多个参考视频、多个视频标签及每个视频标签的热度值，确定每个参考视频对应的视频指纹；将每个参考视频的视频标识与每个参考视频的视频指纹之间的对应关系存储到视频指纹数据库中。

示例的，参考视频可以是从网络中抓取的广告视频、产品介绍视频等，视频标签可以是从网络中抓取的视频对应的标题、话题等，或者是参考视频已关联的视频标签、对参考视频进行聚类分析的得到的视频标签，其中，视频标签初始的热度值可以基于视频标签的使用频率以及视频标签对应的视频的推荐效果数据得到。

示例的，视频标签初始的热度值可以通过以下方式进行获取：获取视频标签在抓取视频标签的视频中的使用频率，获取抓取视频标签的视频对应的推荐效果数据，基于对应使用频率与推荐效果数据分别与对应的权值进行加权求和，将加权求和结果作为热度值。

在一些实施例中，每个参考视频对应的视频标签、每个视频标签的热度值是存储在视频标签数据库中的；在步骤102之前，通过对每个参考视频进行以下处理以向视频标签数据库写入数据：从多个候选的视频标签中选取与参考视频的视频内容相匹配的至少一个视频标签，建立参考视频的视频标识与至少一个视频标签之间的对应关系；将每个参考视频的视频标识与至少一个视频标签之间的对应关系、每个视频标签的热度值，存储到视频标签数据库中。

示例的，视频指纹数据库与视频标签数据库可以是独立的数据库，也可以合并为同一个数据库。视频指纹数据库中可以存储每个参考视频、每个参考视频的视频指纹以及每个参考视频的视频标识与每个参考视频一一对应的视频指纹之间的对应关系。

示例的，通过以下方式确定每个参考视频对应的视频指纹：基于预设时长分割参考视频，得到多个视频片段，从每个视频片段中提取一个视频帧；对每个视频帧进行特征提取，得到每个视频帧对应的视频帧特征；对每个视频帧对应的视频帧特征进行组合，得到参考视频对应的视频指纹。

示例的，视频定制服务器周期性(例如：每天)地对视频标签数据库中的每个视频标签对应的热度值进行更新。

本申请实施例中，通过将视频标签与视频标识的对应关系、视频指纹与视频标识的对应关系存储在数据库中，能够基于视频标识快捷地从数据库中调用对应的视频标签或者视频指纹，提升了视频定制服务器的计算效率，节约了计算资源；并且，周期性地更新视频标签的热度值，确保了视频标签对应的热度值的时效性。

在步骤103中，基于描述信息的文本向量获取描述信息的多个相似文本，并获取多个相似文本对应的多个文本标签。

文本向量用于表征文本的特征，可以是TF-IDF文本向量。相似文本是与描述信息的相似度较高的文本。文本向量库中存储有大量的参考文本的文本标识，以及每个参考文本的文本标识以及文本向量之间的对应的关系。文本标签库中存储有每个参考文本的文本标识(例如文本ID)与每个参考文本所对应的至少一个文本标签之间的对应关系。

在一些实施例中，步骤103可以通过以下方式实现：确定多个参考文本与样本文本之间的相似度(可以通过文本向量之间的余弦相似度表征)，选取相似度处于相似度阈值区间(例如：相似度0.9～1)的参考文本作为相似文本，或者选取相似度降序排序头部的多个参考文本作为相似文本。相似文本对应的文本标签与相似文本的内容相关。例如：相似文本的内容是一款挂烫机的使用说明书，相似文本的文本标签为：****(此处****指代挂烫机的品牌)、家电设备、挂烫机、便携式等。

在一些实施例中，参见图3C，图3C是本申请实施例提供的视频表单的生成方法的流程示意图；步骤103可以通过步骤1031至步骤1033实现，以下具体说明。

在步骤1031中，获取描述信息的文本向量。

为便于解释说明，以下举例一段描述信息，待推荐对象为一款手机，描述信息为这款手机的性能介绍文本：“一款手机，……支持有线超级快充以及无线超级快充，需单独购买无线快充充电器”。下文结合举例的描述信息进行解释说明。

示例的，步骤1031可以通过以下方式实现：对描述信息进行分词处理，得到描述信息包括的多个词语；对每个词语进行以下处理：基于词语在描述信息中的出现次数与描述信息的总词语数，确定词语对应的词频；基于语料库中包括词语的文本的文本数量与语料库的总文本数量，确定词语对应的逆文档率；基于词频与逆文档率确定词语对应的文本分量；对每个词语对应的文本分量进行组合，得到描述信息的文本向量。

示例的，分词处理可以基于自然语言处理技术进行，基于举例的描述信息进行分词处理，得到的词语为“一款”、“手机”、“支持”、“有线”、“超级”等，假设上述描述信息分词得到了100个词语，则总词语数为100，其中词语“快充”的出现次数为3，则词语“快充”的词频为出现次数除以总词语数，3/100＝0.03。

示例的，语料库是一种数据库，语料库中预先存储有海量文本，例如：语料库的总文本数量为1000万份文本。继续基于词语“快充”进行解释说明，假设语料库中有1000份文本出现了“快充”，包括词语“快充”的文本的文本数量为1000，则“快充”的逆文档频率是lg(10000000/1000)＝4。

示例的，对词频与逆文档频率进行相乘，可以得到词语对应的文本分量，也即词语的词频逆文档率。上文中的词语“快充”对应的词频逆文档率是0.12。将描述信息中所有词语的词频逆文档率组合在一起，得到描述信息对应的文本向量，也即词频逆文档率向量。例如：描述信息的文本向量为[0.5 0.2……0.120.3……]。

在步骤1032中，确定每个参考文本的文本向量分别与描述信息的文本向量之间的相似度，从相似度的降序排序结果的头部选取多个参考文本作为描述信息的多个相似文本，或选取相似度大于相似度阈值的多个参考文本作为描述信息的多个相似文本。

示例的，参考文本的文本向量、每个参考文本的文本标识以及文本向量之间的对应的关系文本向量可以存储在文本向量数据库中，文本标识与文本向量之间为一对一关系，文本向量之间的相似度可以通过余弦相似度公式进行获取，以下公式(2)为余弦相似度公式：

其中，A与B分别是不同的文本向量，A_i表示文本向量A中第i位的数值，B_i表示文本向量B中的第i位数值，cosθ是余弦相似度。余弦相似度越大，参考文本与描述信息的相似度越高。

示例的，降序排序也即相似度越高排序越高，对应地，余弦相似度越大，则参考视频与描述信息之间的相似度越高。从降序排序结果的头部选取设定数量的多个参考文本(例如10个)作为相似文本。或者，选取相似度大于相似度大于相似度阈值(例如0.9)的多个参考文本作为相似文本。

在步骤1033中，基于多个文本的文本标识查询不同的参考文本与不同的文本标签之间的对应关系，得到多个相似文本对应的多个文本标签。

这里，每个相似文本对应至少一个文本标签。示例的，文本标签与参考文本的文本ID的对应关系存储在文本标签数据库中。不同的参考文本与不同的文本标签之间的对应关系的类型包括：一对一、一对多、多对一。每个文本标签具有对应的热度值，文本标签对应的热度值是基于文本标签在视频定制服务器中的使用频率以及对应的视频的推荐效果数据中至少一项确定的，文本的推荐效果数据包括以下至少之一：曝光数、点击数以及转化数。

示例的，热度值可以通过以下方式获取，文本标签在文本定制服务器中的使用频率以及对应的视频的推荐效果数据分别对应于不同的权值，将使用频率、推荐效果数据分别与对应的权值进行加权求和，将加权求和的结果作为热度值。

在一些实施例中，可以基于参考文本对应的文本标签的热度值、参考文本的文本指纹与描述信息的文本向量之间的相似度进行加权求和计算，得到加权求和结果，基于加权求和结果对所有参考文本进行降序排序，选取降序排序头部的多个参考文本作为相似文本，并获取相似文本对应的文本标签。

在一些实施例中，视频定制服务器201获取描述信息对应的文本向量，文本向量可以是词频逆文档率向量，视频定制服务器201基于描述信息对应的文本向量与文本向量中的文本向量的相似度，确定描述信息对应的相似文本。视频定制服务器201基于相似文本的文本标识在文本标签库中进行检索，得到每个相似文本对应的多个文本标签。

本申请实施例中，基于文本向量获取描述信息的相似文本，能够提升获取相似文本的准确度。通过相似文本与文本标签之间的对应关系获取文本标签，使得获取到的文本标签更符合描述信息的内容，减少了获取文本标签所需的计算量。

在一些实施例中，每个参考文本的文本向量是存储在文本向量数据库中的，每个参考文本对应的文本标签、每个文本标签的热度值是存储在文本标签数据库中的；在步骤103之前，还可以通过以下方式向文本向量数据库写入数据：获取多个参考文本、多个文本标签以及每个文本标签的热度值，确定每个参考文本对应的文本向量；将每个参考文本的文本标识与每个参考文本的文本向量之间的对应关系存储在文本向量数据库中。

示例的，参考文本可以是从语料库或者网络中抓取的广告词、产品介绍文本等，或者视频定制平台曾接收到的描述信息等。文本标签可以是文本的关键词、标题等，或者是参考文本已关联的文本标签、对参考文本进行聚类分析得到的文本标签。其中，文本标签初始的热度值根据文本标签的使用频率确定，在文本标签在视频定制平台中被使用后，可以基于文本标签对应的推荐视频的推荐效果数据对文本标签的热度值进行更新。

示例的，文本标签的初始的热度值可以通过以下方式确定：确定抓取文本标签的范围中的总文本数量，获取文本标签在抓取文本标签的范围中的出现次数，基于出现次数与总文本数量获取文本标签的出现频率，将出现频率乘以对应的权值，得到文本标签的热度值。

在一些实施例中，每个参考文本对应的文本标签、每个文本标签的热度值是存储在文本标签数据库中的；在步骤103之前，可以对每个参考文本进行以下处理以向文本标签数据库写入数据：从多个文本标签中选取与参考文本的文本内容相匹配的至少一个文本标签，建立参考文本的文本标识与至少一个文本标签之间的对应关系；将每个参考文本的文本标识与至少一个文本标签之间的对应关系、每个文本标签的热度值，存储到文本标签数据库中。

示例的，文本向量数据库与文本标签数据库可以是独立的数据库，也可以合并为同一个数据库。文本向量数据库中可以存储每个参考文本、每个参考文本的文本向量以及每个参考文本的文本标识与每个参考文本一一对应的文本向量之间的对应关系。

示例的，通过以下方式确定每个参考文本对应的文本向量：对参考文本进行分词处理，得到参考文本包括的多个词语；对每个词语进行以下处理：基于词语在参考文本中的出现次数与参考文本的总词语数，确定词语对应的词频；基于语料库中包括词语的文本的文本数量与语料库的总文本数量，确定词语对应的逆文档率；基于词频与逆文档率确定词语对应的文本分量；对每个词语对应的文本分量进行组合，得到参考文本的文本向量。

示例的，计算参考文本对应的文本向量所使用的语料库与计算描述信息对应的文本向量所使用的语料库为同一语料库，计算文本向量时，语料库中的文本量、文本对应的内容不变。也即，参考文本与描述信息均基于同一参考基础计算词语的逆文档率，以确保参考文本与描述信息之间的相似度的准确度。

示例的，视频定制服务器周期性(例如：每天)地对文本标签数据库中的每个文本标签对应的热度值进行更新。

本申请实施例中，通过将文本标签与文本标识的对应关系、文本指纹与文本标识的对应关系存储在数据库中，能够基于文本标识快捷地从数据库中调用对应的文本标签或者文本向量，提升了视频定制服务器的计算效率，节约了计算资源；并且，周期性地更新文本标签的热度值，确保了文本标签对应的热度值的有效性。

在步骤104中，基于多个视频标签及多个文本标签分别对应的热度值，在多个视频标签和多个文本标签中选取至少一个标签作为目标标签。

这里，视频标签对应的热度值是基于视频标签的使用频率以及对应的视频的推荐效果数据中至少一项确定的，文本标签对应的热度值是基于文本标签对应的使用频率以及对应的视频的推荐效果数据中至少一项确定的，视频的推荐效果数据包括以下至少之一：曝光数、点击数以及转化数。

示例的，标签的热度值可以体现出标签的使用频率以及标签对应的视频的推荐效果数据，使用频率以及曝光数、点击数、转化数越高，则标签的热度值越高。

示例的，步骤104可以通过以下方式实现：获取多个视频标签分别对应的热度值，以及多个文本标签分别对应的热度值。基于多个视频标签分别对应的热度值，以及多个文本标签分别对应的热度值，对多个视频标签及多个文本标签进行降序排序，从降序排序结果的头部选取至少一个标签作为目标标签，或者选取热度值大于热度值阈值的至少一个标签作为目标标签。

示例的，将文本标签与视频标签统一汇总到同一个序列中，基于热度值对该序列中的文本标签以及视频标签进行降序排序，得到降序排序结果，从降序排序结果的头部向尾部为顺序，选取至少一个标签作为目标标签。热度值阈值可以根据降序排序结果中的标签的热度值进行确定，例如：热度值阈值可以是降序排序结果中所有标签的热度值的平均值。

本申请实施例中，基于热度值对标签进行评价，从而得到使用频率更高、能够在视频推荐效果方面产生积极影响的标签，提升了获取目标标签的准确性，从而获取相应的视频字段，提升了视频表单制作的准确性。

在步骤105中，基于目标标签对应的每个视频字段的筛选指标，选取至少一个视频字段生成视频表单。

视频表单用于生成用于推荐待推荐对象的视频。示例的，标签与视频字段之间的对应关系存储在标签字段数据库中。标签与视频字段之间可以是多对多关系、一对一关系或者一对多关系。每个标签对应至少一个视频字段，每个视频字段包括视频的一个类型的参数以及对应的参数值，每个参数的参数值具有一定的取值范围。

参考图4，图4是本申请实施例提供的标签与字段之间的关系示意图；图中包括多个标签(标签1、标签2……标签N，标签类型可以是文本标签或者视频标签)、多个字段(字段1、字段2……字段N)；标签2对应于字段1，标签1对应于字段1和字段2，字段2除了标签1之外还对应于多个其他的标签，字段N与标签N之间一对一，也即，标签与字段之间可以是多对多关系、一对一关系或者一对多关系。

示例的，筛选指标是多项推荐指标与每项推荐指标对应的权值进行求权加和得到的。筛选指标越高则视频字段包括的视频的一个类型的参数以及对应的参数值更能符合样本视频与待推荐对象的描述信息的需求。

在一些实施例中，参见图3D，图3D是本申请实施例提供的视频表单的生成方法的流程示意图；步骤105可以通过步骤1051至步骤1054实现，以下具体说明。

在步骤1051中，基于目标标签查询不同的标签与不同的视频字段之间的对应关系，得到每个目标标签对应的视频字段。

示例的，不同的标签(文本标签或者视频标签)与不同的视频字段的对应关系存储在标签字段数据库中，标签与视频字段的关系可以是一对一、一对多、多对多等。将目标标签作为检索词，查询不同的标签与不同的视频字段之间的对应关系，得到每个目标标签对应的多个视频字段。

示例的，对视频字段进行举例说明。例如：目标标签为手游，手游对应的视频字段为：动画场景、3D动画、关键角色、****(****指代关键角色的名称)等。其中，动画场景是视频的一个类型的参数，3D动画是动画场景对应的参数值，关键角色是视频的一个类型的参数，关键角色的名称是关键角色对应的参数值。

在步骤1052中，确定每个视频字段对应的筛选指标。

示例的，步骤1052可以通过以下方式实现：获取每个视频字段的多项推荐指标分别对应的权重值。对每个视频字段进行以下处理：将视频字段的多项推荐指标基于对应的权重值进行加权求和，得到视频字段对应的筛选指标。

作为示例，推荐指标的类型包括：视频字段的使用次数、视频字段对应的视频的曝光数、视频字段对应的视频的点击数、视频字段对应的视频的转化数(或转化率)、记忆率、用户喜欢程度、二跳率。

示例的，视频字段的多项推荐指标可以从视频定制服务器已制作的推荐视频对应的推荐效果数据中获取，并实时地或周期性地更新视频字段的多项推荐指标。将每项推荐指标与对应的权重值进行相乘，将每个相乘结果的加和作为筛选指标。以下举例说明，例如：使用次数对应的权重值为0.8，曝光数对应的权重值为0.5，点击数对应的权重值为0.8，转化数对应的权重值为1.2。筛选指标＝使用次数*0.8+曝光数*0.5+点击数*0.8+转化数*1.2。

在步骤1053中，基于每个视频字段对应的筛选指标，对多个视频字段进行降序排序，从筛选指标的降序排序结果的头部选取至少一个视频字段作为目标字段。

示例的，视频字段的筛选指标越高则说明视频字段的效果越好，也即视频字段在视频表单制作、基于视频表单生成视频能够带来更积极的推荐效果，基于视频表单生成的视频能够更符合样本视频和描述信息的需求。

在一些实施例中，步骤1051至步骤1053可以基于字段推荐模型实现，预先获取多个视频字段以及每个视频字段对应的多项推荐指标训练字段推荐模型，基于训练完成的字段推荐模型进行字段推荐，得到至少一个视频字段作为目标字段。可以周期性地更新视频字段对应的多项推荐指标的数据，基于这些数据对字段推荐模型进行更新，使字段推荐模型具有更准确地推荐字段的性能。

在步骤1054中，基于至少一个目标字段生成视频表单。

示例的，将每个目标字段对应的视频的一个类型的参数以及对应的参数值对应的数据进行汇总，并以表单格式存储这些数据，得到视频表单。

本申请实施例中，基于筛选指标选取目标标签对应的所有视频字段中的目标字段，并基于目标字段进行视频表单生成，提升了视频表单生成的准确性，也即，基于视频表单进行视频制作得到的推荐视频能够能有效地推荐待推荐对象。

在一些实施例中，参见图3E，图3E是本申请实施例提供的视频表单的生成方法的流程示意图；步骤105可以通过步骤1051至步骤1052、步骤1055至步骤1057实现，以下具体说明。

示例的，通过步骤1051至步骤1052得到了每个视频字段对应的筛选指标。

在步骤1055中，基于每个视频字段对应的筛选指标对多个视频字段进行降序排序，显示降序排序结果的头部的至少部分视频字段。

示例的，降序排序结果的头部的视频字段的筛选指标更高，可以将头部的至少部分视频字段可以作为待推荐字段，视频定制服务器将待推荐字段发送至第一用户的终端设备，第一用户的终端设备显示待推荐字段。

在步骤1056中，通过以下方式至少之一获取目标字段：响应于针对至少部分视频字段中任意视频字段的选择操作，将被选中的视频字段作为目标字段；响应于自定义字段输入操作，将输入的自定义视频字段作为目标字段。

示例的，待推荐字段显示给第一用户后，第一用户可以根据需求对待推荐字段进行选择，被第一用户选中的待推荐字段则为目标字段。还可以将第一用户输入的自定义视频字段作为目标字段。例如：第一用户输入的自定义视频字段为“视频时长1分30秒”、“核心卖点”等，将这些自定义视频字段作为目标字段，这些视频字段能够表达第一用户对于推荐视频的需求。

在步骤1057中，基于目标字段生成视频表单。

本申请实施例中，通过向第一用户推荐待推荐字段，能够使第一用户编辑视频表单的过程中采用更规范的视频字段描述对于推荐视频的需求；通过第一用户自定义视频字段，能够使视频表单更接近于第一用户的需求，使得基于视频表单制作视频得到的推荐视频能够符合第一用户推荐待推荐对象的需求，使得推荐视频的推荐效果更好。

在一些实施例中，视频字段是存储在标签字段数据库中的；在步骤105之前，通过以下方式将视频字段存储在标签字段数据库中：获取多个视频字段以及每个视频字段对应的至少一个标签，其中，标签的标签类型包括文本标签以及视频标签；将每个视频字段与每个视频字段对应的至少一个标签之间的对应关系，存储到标签字段数据库中。

在一些实施例中，响应于自定义字段输入操作，将输入的自定义视频字段作为目标字段之后，还通过以下方式更新标签字段库中的数据：建立每个自定义视频字段与每个目标标签之间的对应关系，并将每个自定义视频字段与每个目标标签之间的对应关系存储到标签字段数据库中；基于每个自定义视频字段对应的视频的推荐效果数据，对每个目标标签的热度值进行更新。

示例的，第一用户自定义的视频字段有可能是标签视频字段库中没有的新视频字段，则建立新视频字段与目标标签之间的对应关系，对应地更新目标标签的热度值，并将新视频字段存储在标签字段数据库中，有利于丰富标签字段数据库的数据含量。第一用户自定义的视频字段有可能是标签字段库中存在的视频字段，但该视频字段并未与目标标签建立对应的关系，或者该视频字段的筛选指标较低并未被选入待推荐字段，则对该视频字段的相关数据进行更新，以提升该视频字段对应的筛选指标。

在一些实施例中，在步骤105之后，还通过以下方式生成视频：获取视频表单中的每个视频字段包括的视频参数以及对应的视频参数值；获取与视频参数以及对应的视频参数值匹配的视频素材；其中，视频素材包括图片、文本、音频及视频中任意一种；根据获取的视频素材，生成推荐待推荐对象的视频。

示例的，为便于解释说明，以待推荐对象是手机游戏，视频字段是动画场景、3D动画、关键角色、****(****指代关键角色的名称)为例进行说明。例如：动画场景、关键角色是视频参数的类型，3D动画是动画场景对应的参数值，关键角色的名称是关键角色对应的参数值。基于上述视频字段可以获取3D动画场景模型、关键角色的图片、关键角色相关的音频(例如：角色主题曲、角色配音等)等素材，可以通过人工智能基于上述素材进行视频生成，得到推荐待推荐对象的视频。

继续结合图1进行解释说明。视频定制服务器201基于生成的视频表单进行视频制作，并将制作完成的推荐视频发送至推荐服务器202。以下继续以广告视频为例进行说明，推荐服务器202用于将广告视频发送到第二终端设备400B。推荐服务器202对大数据中的用户数据(例如：用户的年龄、性别及兴趣)进行分析，确定满足广告主指定的推荐条件的第二用户，并将广告视频发送到第二用户的第二终端设备400B中。例如：广告视频推荐的对象是一款手机游戏，广告主指定的推荐条件是“面向有消费能力的年轻人”，推荐服务器202基于推荐条件可以确定满足该推荐条件的用户群体的年龄区间、消费能力区间，推荐服务器202对用户数据进行分析，定位到满足上述推荐条件的第二用户，向第二用户的第二终端设备推送广告视频。

在一些实施例中，推荐服务器202还可以将广告视频投放到指定的投放平台(例如：线上电商平台、视频软件等)或者指定的投放场所(例如：真实环境中的广告投屏、电子广告牌等)。

在一些实施例中，视频制作过程可以由第三用户(负责制作推荐视频的用户)执行。视频定制服务器201将视频表单通过网络发送到第三用户的第三终端设备或者第三方视频制作平台第三用户基于视频表单进行视频制作，并通过第三终端设备将制作完成的推荐视频发送视频定制服务器201，视频定制服务器201将推荐视频发送至推荐服务器202，推荐服务器202基于推荐视频向第二终端设备400B进行视频推荐。视频定制服务器201还可以将推荐视频发送至第一终端设备400A以使第一用户对推荐视频进行验收、审核。

示例的，视频表单可以是广告视频订单，广告视频定制平台的视频定制服务器201将视频表单发送给负责制作广告的接单方的第三终端设备，接单方进行视频制作，并将制作完成的广告视频通过视频定制服务器201发送至广告主(也即第一用户)的第一终端设备400A，以使广告主审核广告视频，广告视频通过广告主的审核之后，可以通过推荐服务器202投放到广告主所要求的真实环境中的投放场所(例如：真实环境中的广告投屏、电子广告牌等)或者线上平台(例如：线上电商平台、视频平台等)。

在一些实施例中，第二终端设备可以收集第二用户对广告视频的用户反馈数据(例如：用户购买或者收藏广告视频对应的商品、用户点击广告视频以观看广告视频、用户不喜欢广告视频禁止该广告视频进行推送等)，并将用户反馈数据发送至推荐服务器202。推荐服务器202基于用户反馈数据进行计算，可以得到广告视频的推荐效果数据(点击数、播放数、转化数、二跳率、记忆率、影响购买意愿程度、喜欢程度等)。推荐服务器202将推荐效果数据同步到视频定制服务器201中，从而视频定制服务器201可以基于推荐效果数据对广告视频对应的视频字段对应的标签的热度值进行更新、对广告视频对应的视频字段的筛选指标中各项推荐指标进行更新，以保证各数据库中存储的标签、视频字段等数据的时效性，提升生成视频表单的准确性。

本申请实施例中，基于样本视频的相似视频、描述信息的相似文本获取对应的标签，降低了获取标签所需的计算量，节约了计算资源，基于标签与视频字段的对应关系获取视频字段，基于筛选指标选取用于生成视频表单的视频字段。通过数据驱动的方式挖掘样本视频与描述信息中的核心内容，提升了视频表单生成的准确度，有利于基于视频表单制作更符合样本视频与描述信息需求的推荐视频，从而提升推荐的时效性和推荐效果。

下面，将说明本申请实施例在一个实际的应用场景中的示例性应用。

本申请实施例提供的视频表单生成方法可以应用在如下实际应用场景中：广告主是具有制作广告视频需求的用户，对于想要推荐的商品，广告主持有该商品的相关数据(例如：样本视频、描述信息)，广告主可以将相关数据以及视频字段(包括广告视频的视频参数类型以及每个参数类型对应的参数值)提交给接单方(负责制作视频的专业人士)进行视频制作。但广告主在指定视频字段时，可能会出现用语不规范等问题，影响了接单方制作出的广告视频的效果。本申请实施例提供的视频表单的生成方法，可以基于广告主提供的样本视频与商品的描述信息进行数据挖掘得到视频字段，基于视频字段生成对应的视频表单。从而基于视频表单进行视频制作，能够得到更准确地对商品进行推荐的广告视频，提升广告视频对于商品的推荐效果。

示例的，视频表单，是用于制作待推荐物品(例如商品)的推荐视频的表单，可以是视频交易订单。视频表单中的视频字段，包括广告视频所对应的多种参数类型，以及每种参数类型对应的参数值。基于视频表单中的各种视频字段，可以进行视频制作。本申请实施例中，待推荐对象为商品，用于推荐待推荐对象的推荐视频是广告视频。

参考图6A，图6A是本申请实施例提供的视频表单的生成方法的流程示意图。图6A中各步骤的执行主体为视频定制平台的视频定制服务器201。

在步骤600A中，接收样本视频以及描述信息。

示例的，描述信息具体是商品描述信息，广告主通过第一终端设备400A将样本视频与描述信息上传到视频定制服务器201中，视频定制服务器201是视频制作平台的服务器。示例的，商品描述信息以文本形式进行表示。商品可以为实体产品(例如：食品、生活用品、交通工具、电子设备等)或者虚拟产品(例如：游戏、游戏道具、线上教学课程等)、服务(例如：咨询服务、代购服务、中介服务、保洁服务等)。样本视频是与商品描述信息内容相关的视频。

本申请实施例中，以商品为游戏为例进行说明。商品描述信息，例如：“《****》，是5V5团队公平竞技手游，国民MOBA手游大作！5V5公平对战、还原MOBA经典体验……五军对战、边境突围等，带来花式作战乐趣！10秒实时跨区匹配，与好友开黑上分！多款英雄任凭选择，一血、五杀、超神，实力碾压，收割全场！”上文中的****指代游戏名称。

在步骤600A之后，还包括步骤601A至步骤604A、步骤605A至步骤608A，步骤601A与步骤605A的执行不分先后，也可以同时进行。

在步骤601A中，从样本视频中提取多个视频帧。

示例的，将样本视频分割(例如以秒为单位进行分割)为多个视频片段，从每个视频片段中提取一帧，作为该视频片段对应的视频帧。例如：样本视频为长度26.5秒，以1秒为单位将样本视频分割为27个视频片段，假设26个视频片段的长度为1秒，第27个视频片段的长度为0.5秒，则对于这27个视频均提取一个视频帧(例如关键帧)。

在步骤602A中，基于视频帧调用神经网络模型获取样本视频的视频指纹。

示例的，获取样本视频的视频指纹可以通过以下方式实现：通过深度学习卷积神经网络模型对每个视频帧进行特征提取，得到每个视频帧的特征向量，将所有视频帧的特征向量组合得到样本视频的视频指纹。特征向量可以为1024维特征向量，也即视频指纹是1024维视频指纹。

在步骤603A中，基于欧式距离公式计算样本视频与参考视频的相似度，得到相似视频。

示例的，视频指纹库中预先存储了大量的参考视频的视频指纹，其中，每个视频ID与视频指纹建立了一一对应的关系。视频指纹可以用特征向量的形式表示，则可以通过特征向量之间的欧式距离表征样本视频与参考视频之间的相似度。

示例的，通过向量之间欧式距离表征的相似度，其数值越小，则相似度越高。以下公式(3)为欧式距离公式：

其中，X、Y为视频指纹对应的特征向量，x_i是特征向量X中第i位的特征值，y_i是特征向量Y中第i位的特征值。根据相似度从高到低的顺序对视频指纹库中所有视频进行排序，相似度越高则排序越高。

示例的，图5是本申请实施例提供的各个数据库之间的关系图；视频指纹库中存储有视频指纹以及视频指纹对应的视频标识，视频标签库中存储有大量的视频标识以及每个视频标识对应的至少一个标签(视频标签)。视频标签库与视频指纹库中存储有相同的视频标识。商品文本TF-IDF库中存储有大量的商品文本(也即参考文本)的文本标识以及每个文本标识对应的TF-IDF向量，商品文本标签库中存储有大量的商品文本的文本标识以及每个文本标识对应的至少一个标签(文本标签)。商品文本标签库与商品文本TF-IDF库存储有相同的文本标识。标签映射库(也即标签字段库)存储有标签以及每个标签对应的字段，可以通过标签在标签映射库中查找对应的字段。

在步骤604A中，基于相似视频的视频ID从视频标签库中获取视频标签。

示例的，基于相似视频的视频ID在视频标签库进行检索，可以得到每个相似视频对应的视频标签。

在一些实施例中，可以将相似度排序中的top a个视频作为相似视频，基于标签的热度值对所有相似视频对应的视频标签进行排序，获取排序中热度top b个标签作为该样本视频的标签数据(包括标签与标签对应的热度值)，得到多个(b个)视频标签。视频定制平台每隔预设时长(例如24小时)对每个数据库中的各个视频标签的热度值进行更新。其中，a和b均为正整数。

示例的，对于样本视频对应的视频标签的选取，还可以是获取热度值处于热度值区间的视频标签、或者获取热度值处于热度值区间且热度值topj的视频标签的标签数据作为样本视频的标签数据。

为便于解释，以下举例说明，例如：商品是一款手游，样本视频为26秒的游戏视频，以秒为单位对样本视频进行分帧处理，得到26个视频帧文件，通过训练好的神经网络模型对每个视频帧文件进行视频指纹特征提取，得到每个视频帧文件的视频帧指纹信息，将每个视频帧指纹信息组合起来，样本视频的视频指纹信息，视频指纹信息可以通过特征向量的形式表示。样本视频的相似视频可以是游戏视频，基于这些游戏视频得到的视频标签可以是游戏角色的名称、游戏名称以及游戏竞赛的名称。获取相似视频的视频标签的热度值，基于热度值选取对应的视频标签，得到多个视频标签。

在步骤605A中，对描述信息进行智能分词处理，得到描述信息的多个词语。

示例的，对于商品描述信息中可以形成中文词语、成语、热词的文本字段进行分割，得到商品描述信息中的每个词语。基于上文举例的商品描述信息进行分词，可以得到“5V5、团队、公平、竞技、手游…等”词语。

在步骤606A中，计算描述信息的每个词语的TF-IDF，获取描述信息的TF-IDF向量。

示例的，对于一个词语，其在商品描述信息的文本中出现的次数越高，词频越高；如果一个词语在多段文本中出现的次数越多，则逆文档率越低。词语的TF-IDF公式具体为TF-IDF＝TF*IDF(词频乘以逆文档率)。

示例的，统计商品描述信息中每个词语的出现次数、商品描述信息的总词语数，统计在语料库中包含该词语的文本数、语料库的总文本数，对每个词语进行以下处理：将出现次数除以总词语数，得到该词语的词频；基于包含该词语的文本数、总文本数得到该词语在语料库中的出现频率，并获取出现频率倒数的对数作为该词语的逆文档率。将逆文档率和词频相乘，得到该词语的TF-IDF。对每个词语的TF-IDF进行组合，得到商品描述信息的TF-IDF向量。向量的每一位元素对应于商品描述信息的文本中的一个词的TF-IDF。

为便于理解，以下基于上文举例的商品描述信息进行说明。例如：计算商品描述信息中每一个词语的TF-IDF值。以举例的商品描述信息中的“5V5”为例仅说明，假设上述商品描述信息的总词语量是100。其中，“5V5”在文本中出现了2次，总词语数为100，则“5V5”的词频就是2/100＝0.02。假设语料库中存在一千万个文本，“5V5”在其中1000个文本中出现过，那么“5V5”的逆文档率是lg(10000000/1000)＝4。将逆文档率与词频相乘，得到“5V5”的TF-IDF值为0.02*4＝0.08。依次计算商品描述信息中每个词语的TF-IDF值，并按照文本中各个词语的顺序，将每个词语的TF-IDF值组合起来，生成商品描述信息的TF-IDF向量。

在步骤607A中，基于余弦相似度公式，计算描述信息与商品文本的相似度，得到相似文本。

示例的，商品文本TF-IDF库(也即文本向量库)中存储有大量的商品文本(也即参考文本)的文本标识、以及每个文本标识一一对应的TF-IDF向量。

示例的，商品文本与商品描述信息的相似度可以通过计算商品文本的TF-IDF向量与商品描述信息的TF-IDF向量之间的余弦相似度得到，

示例的，以下公式(4)为余弦相似度公式：

其中，A与B分别是不同的TF-IDF向量，A_i表示TF-IDF向量A中第i位的数值，B_i表示TF-IDF向量B中的第i位数值，cosθ是余弦相似度。余弦相似度越大，则商品文本与商品描述信息越相似。

在步骤608A中，基于相似文本的文本ID从商品文本标签库获取文本标签。

示例的，根据上述公式(4)计算商品文本标签库中的每个文本的TF-IDF向量与样本文本TF-IDF向量之间的余弦相似度，对相似度进行排序，将排序中top e个商品文本作为相似文本，基于相似文本的文本ID在商品文本标签库中进行检索，得到相似文本对应的文本标签。基于文本标签的热度值，对文本标签进行排序，获取热度值top f个标签作为商品描述信息的标签数据(包括标签与标签对应的热度值)。其中，e和f均为正整数。

示例的，还可以获取处于热度值区间的文本标签、或者属于热度值区间且热度值topf的文本标签。

示例的，商品描述信息是描述游戏商品的信息，相似文本中包含游戏相关内容，相似文本对应的文本标签可以是手游、竞技、角色扮演。

在步骤609A中，基于热度值选取目标标签，基于标签与字段的对应关系获取视频字段。

示例的，标签与字段之间的关系为多对多关系或者一对多、一对一关系。基于存储在标签字段库中的标签字段映射表，可以得到所有标签对应的所有字段，基于这些字段组成字段列表。继续基于上述举例进行说明，例如：游戏名称映射为动画场景；竞技映射为产品特点；角色名称映射为关键角色。

示例的，对字段列表进行推荐排序可以通过以下方式实现：对字段列表中每个字段进行评分(评分也即筛选指标)，基于评分对字段列表中的所有字段进行降序排序。

示例的，基于广告效果数据、标签所对应的视频字段被用于生成视频表单的次数等信息确定评分对应的每一项参数，分析评分对应的每一项参数(例如：使用次数、广告曝光数、点击数、转化数)对应的权重值。基于广告效果数据、订单使用次数等信息，确定待选字段对应的使用次数、广告曝光数、点击数、转化数等参数，并进行加权计算，得到待选字段对应的得分。评分公式可以为：分数＝使用次数*0.8+广告曝光数*0.5+广告点击数*0.8+广告转化数*1.2。评分公式中的各项权重值可以根据广告效果数据等数据进行调整。

示例的，得到字段列表中每个待选字段的得分后，基于得分进行排序，筛选出评分高的多个待选字段作为推荐的视频字段。

示例的，视频字段包括视频的参数类型以及参数类型对应的参数值。基于上文举例的样本视频和商品描述信息最终生成的推荐的字段可以是，动画场景、产品特点、关键角色。这些视频字段对应于视频的参数类型。

在一些实施例中，可以直接生成视频的参数类型以及对应的参数值，无需广告主介入，就能够自动得到视频字段，并根据视频字段生成视频表单，基于视频表单进行视频生成。

在一些实施例中，还支持广告主自定义视频字段。在步骤610A中，接收自定义视频字段。广告主可以对视频的参数类型的视频字段进行自定义(也即自定义视频字段)，例如核心卖点。基于上文举例的参数类型，广告主还可以自定义参数值。

在步骤611A中，基于视频字段生成视频表单。

示例的，为便于解释说明，以下结合附图6C至6E进行说明，图6C是本申请实施例提供的初始表单的示意图；图6D至图6E是本申请实施例提供的视频表单的示意图。

示例的，图6C中，初始表单601C是还未获取到视频字段时的初始表单，其中“视频定制表”是表单的标题。在广告主将样本视频、商品描述信息上传到视频定制服务器201中后，可以将初始表单601C发送到广告主的第一终端设备400A中进行显示。视频定制服务器201基于样本视频、商品描述信息获取到多个视频字段，将多个视频字段发送到第一终端设备400A中。第一终端设备的人机交互界面中的画面显示为初始表单601C被填入多个视频字段，参考图6D，初始表单601C被填入视频字段604C(“动画场景……”、“产品特点……”、“关键角色……”、“视频时长1分钟”等等，其中，省略号部分代指参数类型对应的具体参数值)，转换为了视频表单602C。

在一些实施例中，广告主可以对视频表单602C中的视频字段进行编辑，或者添加自定义视频字段到视频表单602C中。参考图6E，图6E展示了广告主添加了自定义视频字段605C之后的视频表单602C。其中，自定义视频字段605C包括“视频时长30秒”、“核心卖点……”、“投放平台……”。广告主将视频字段“视频时长1分钟”修改为了自定义视频字段“视频时长30秒”，并添加了自定义视频字段“核心卖点……”以及“投放平台……”。其中，视频字段“投放平台……”表示“将广告视频投放到指定的投放平台”。

在步骤612A中，基于视频表单制作广告视频。

示例的，视频定制服务器201基于视频表单中视频字段包括的参数类型以及每个参数类型对应的参数值，获取对应的视频素材(素材形式可以是视频片段、3D模型、音乐、图片、文本等，例如：基于视频字段“动画场景：3D虚拟场景”获取3D模型以及动画图片作为视频素材，基于视频字段“关键角色：***”，获取角色***的立绘图片、配音、角色主题曲作为视频素材)，基于视频素材与参数类型以及参数类型对应的参数值，通过人工智能进行视频剪辑，生成广告视频。

在一些实施例中，还可以是视频定制服务器201将视频表单发送到接收视频表单的接单方(负责制作视频的用户，也即上文的第三用户)的终端设备中，由接单方进行视频制作。接单方在完成视频制作后，将广告视频上传到视频定制服务器201中。视频定制服务器201还可以将制作完成广告视频发送至第一终端设备400A中，从而使广告主对广告视频进行审核，广告主可以提出修改意见，完善广告视频的内容。

在一些实施例中，基于制作完成的广告视频，可以对观看广告视频的第二用户进行广告推送，参考图6B，图6B是本申请实施例提供的视频表单的生成方法的流程示意图。以下对图6B中的各步骤进行解释说明。

在步骤601B中，第一终端设备400A获取样本视频与描述信息，并将样本视频与描述信息发送至视频定制服务器201。

示例的，对于样本视频、描述信息的获取步骤，可以参考上文中步骤600A。

在步骤602B中，视频定制服务201基于样本视频与描述信息生成视频表单。

示例的，步骤602B可以通过上文中的步骤600A至步骤611A实现。

在步骤603B中，视频定制服务201基于视频表单进行视频制作，得到广告视频。

示例的，对于广告视频的制作过程，可以参考上文中步骤612A。

在步骤604B中，推荐服务器202推送广告视频至第二终端设备400B。

示例的，第二终端设备400B对应于观看广告视频的第二用户。观看广告视频的第二用户可以是广告视频所推荐的商品的潜在消费者，推荐服务器202对用户数据进行分析，确定可能对广告视频感兴趣的第二用户，将广告视频推送至第二用户的终端设备中。或者，广告主在定制广告视频时，还提出了指定的推荐条件(例如：将广告投放至指定的视频平台、指定的用户群体，广告主可以将推荐条件以自定义视频字段的形式添加到视频表单中，例如图6E中的自定义视频字段“投放平台……”，该自定义视频字段是推荐条件)，推荐服务器202确定符合推荐条件的第二用户，将广告视频推送至符合推荐条件的第二用户的终端设备中。

在一些实施例中，继续参考图6A，在步骤612A中，获取广告视频的推荐效果数据，更新标签热度值。

示例的，推荐服务器202从第二终端设备400B中获取第二用户对于广告视频的反馈数据(例如：广告视频对应的商品的购买记录、广告视频的点击次数、观看次数、屏蔽该广告视频等)，基于反馈数据进行计算，得到广告视频的广告效果数据(例如：点击率、曝光率、二跳率等)。推荐服务器202将广告效果数据同步到视频定制服务器201中，视频定制服务器201基于制作完成的广告视频对应的广告效果数据，可以计算广告视频对应的视频表单中的视频字段的效果、广告视频对应的视频字段对应的标签的热度值。从而对各个数据库中存储的标签(包括视频标签以及文本标签)的热度值进行更新。

在一些实施例中，若广告主自定义了字段，视频订制平台的视频定制服务器201将记录自定义视频字段与标签信息的映射关系，对应地存储到标签字段库中，并根据广告效果数据更新自定义视频字段的对应的标签的热度值(视频定制平台的视频定制服务器201对各个数据库中存储的标签的热度值进行实时更新，或者每隔预设时长进行一次更新)，用于下一次表单生成。

本申请实施例能够基于样本视频与描述信息进行分析得到对应的标签，基于标签与字段的关系获取对应的视频字段，并且支持自定义字段，根据广告效果数据做数据反馈和分析，闭环完成视频表单中的字段的智能生成；对视频字段的智能评分，以向广告主推荐评分较高的视频字段，使得广告主能够选择更有效的视频字段(更能明确地表达出广告主对于广告视频各项参数的需求的视频字段)，提升广告效果。通过广告主输入的样本视频与描述信息，并结合视频指纹库、文本向量库、多种的标签库、标签字段库、广告效果数据有效地扩大对于制作广告视频的描述信息范围，高质量的信息融合以使基于视频表单制作的广告视频能够更加准确地进行商品推荐。

下面继续说明本申请实施例提供的视频表单的生成装置455的实施为软件模块的示例性结构，在一些实施例中，如图2所示，存储在存储器440的视频表单的生成装置455中的软件模块可以包括：数据获取模块4551，用于获取样本视频及待推荐对象的描述信息；标签获取模块4552，用于基于样本视频的视频指纹获取样本视频的多个相似视频，并获取多个相似视频对应的多个视频标签；以及基于描述信息的文本向量获取描述信息的多个相似文本，并获取多个相似文本对应的多个文本标签；标签获取模块4552，用于基于多个第一标签及多个第二标签分别对应的热度值，在多个第一标签和多个第二标签中选取至少一个标签作为目标标签；表单生成模块4553用于基于目标标签对应的每个视频字段的筛选指标，选取至少一个视频字段生成视频表单，其中，视频表单用于生成用于推荐待推荐对象的视频。

在一些实施例中，标签获取模块4552，用于获取样本视频的视频指纹；确定每个参考视频的视频指纹分别与样本视频的视频指纹之间的相似度，从相似度的降序排序结果的头部选取多个参考视频作为样本视频的多个相似视频，或选取相似度大于相似度阈值的多个参考视频作为样本视频的多个相似视频；基于多个相似视频的视频标识查询不同的参考视频与不同的视频标签之间的对应关系，得到多个相似视频对应的多个视频标签，其中，每个相似视频对应至少一个视频标签。

在一些实施例中，标签获取模块4552，还用于基于预设时长分割样本视频，得到多个视频片段，从每个视频片段中提取一个视频帧；对每个视频帧进行特征提取，得到每个视频帧对应的视频帧特征；对每个视频帧对应的视频帧特征进行组合，得到样本视频的视频指纹。

在一些实施例中，标签获取模块4552，还用于获取描述信息的文本向量；确定每个参考文本的文本向量分别与描述信息的文本向量之间的相似度，从相似度的降序排序结果的头部选取多个参考文本作为描述信息的多个相似文本，或选取相似度大于相似度阈值的多个参考文本作为描述信息的多个相似文本；基于多个文本的文本标识查询不同的参考文本与不同的文本标签之间的对应关系，得到多个相似文本对应的多个文本标签，其中，每个相似文本对应至少一个文本标签。

在一些实施例中，标签获取模块4552，还用于对描述信息进行分词处理，得到描述信息包括的多个词语；对每个词语进行以下处理：基于词语在描述信息中的出现次数与描述信息的总词语数，确定词语对应的词频；基于语料库中包括词语的文本的文本数量与语料库的总文本数量，确定词语对应的逆文档率；基于词频与逆文档率确定词语对应的文本分量；对每个词语对应的文本分量进行组合，得到描述信息的文本向量。

在一些实施例中，标签获取模块4552，还用于获取多个视频标签分别对应的热度值，以及多个文本标签分别对应的热度值，其中，视频标签对应的热度值是基于视频标签的使用频率以及对应的视频的推荐效果数据中至少一项确定的，文本标签对应的热度值是基于文本标签对应的使用频率以及对应的视频的推荐效果数据中至少一项确定的，视频的推荐效果数据包括以下至少之一：曝光数、点击数以及转化数；基于多个视频标签分别对应的热度值，以及多个文本标签分别对应的热度值，对多个视频标签及多个文本标签进行降序排序，从降序排序结果的头部选取至少一个标签作为目标标签，或者选取热度值大于热度值阈值的至少一个标签作为目标标签。

在一些实施例中，表单生成模块4553，还用于基于目标标签查询不同的标签与不同的视频字段之间的对应关系，得到每个目标标签对应的视频字段；确定每个视频字段对应的筛选指标；基于每个视频字段对应的筛选指标，对多个视频字段进行降序排序，从筛选指标的降序排序结果的头部选取至少一个视频字段作为目标字段；基于至少一个目标字段生成视频表单。

在一些实施例中，表单生成模块4553，还用于获取每个视频字段的多项推荐指标分别对应的权重值，其中，推荐指标的类型包括：视频字段的使用次数、视频字段对应的视频的曝光数、视频字段对应的视频的点击数、视频字段对应的视频的转化数；对每个视频字段进行以下处理：将视频字段的多项推荐指标基于对应的权重值进行加权求和，得到视频字段对应的筛选指标。

在一些实施例中，表单生成模块4553，还用于基于目标标签查询不同的标签与不同的视频字段之间的对应关系，得到每个目标标签对应的视频字段；确定每个视频字段对应的筛选指标，基于每个视频字段对应的筛选指标对多个视频字段进行降序排序，显示降序排序结果的头部的至少部分视频字段；通过以下方式至少之一获取目标字段：响应于针对至少部分视频字段中任意视频字段的选择操作，将被选中的视频字段作为目标字段；响应于自定义字段输入操作，将输入的自定义视频字段作为目标字段；基于目标字段生成视频表单。

在一些实施例中，标签获取模块4552，还用于建立每个自定义视频字段与每个目标标签之间的对应关系，并将每个自定义视频字段与每个目标标签之间的对应关系存储到视频字段数据库中；基于每个自定义视频字段对应的视频的推荐效果数据，对每个目标标签的热度值进行更新。

在一些实施例中，每个参考视频的视频指纹是存储在视频指纹数据库中的，每个参考视频对应的视频标签、每个视频标签的热度值是存储在视频标签数据库中的；标签获取模块4552，还用于获取多个参考视频、多个视频标签及每个视频标签的热度值，确定每个参考视频对应的视频指纹；将每个参考视频的视频标识与每个参考视频的视频指纹之间的对应关系存储到视频指纹数据库中；对每个参考视频进行以下处理：从多个视频标签中选取与参考视频的视频内容相匹配的至少一个视频标签，建立参考视频的视频标识与至少一个视频标签之间的对应关系；将每个参考视频的视频标识与至少一个视频标签之间的对应关系、每个视频标签的热度值，存储到视频标签数据库中。

在一些实施例中，每个参考文本的文本向量是存储在文本向量数据库中的，每个参考文本对应的文本标签、每个文本标签的热度值是存储在文本标签数据库中的；标签获取模块4552，还用于获取多个参考文本、多个文本标签以及每个文本标签的热度值，确定每个参考文本对应的文本向量；将每个参考文本的文本标识与每个参考文本的文本向量之间的对应关系存储在文本向量数据库中；对每个参考文本进行以下处理：从多个文本标签中选取与参考文本的文本内容相匹配的至少一个文本标签，建立参考文本的文本标识与至少一个文本标签之间的对应关系；将每个参考文本的文本标识与至少一个文本标签之间的对应关系、每个文本标签的热度值，存储到文本标签数据库中。

在一些实施例中，视频字段是存储在标签字段数据库中的；表单生成模块4553，还用于获取多个视频字段以及每个视频字段对应的至少一个标签，其中，标签的标签类型包括文本标签以及视频标签；将每个视频字段与每个视频字段对应的至少一个标签之间的对应关系，存储到标签字段数据库中。

在一些实施例中，表单生成模块4553，还用于获取视频表单中的每个视频字段包括的视频参数以及对应的视频参数值；获取与视频参数以及对应的视频参数值匹配的视频素材；其中，视频素材包括图片、文本、音频及视频中任意一种；根据获取的视频素材，生成推荐待推荐对象的视频。

本申请实施例提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行本申请实施例上述的视频表单的生成方法。

本申请实施例提供一种存储有可执行指令的计算机可读存储介质，其中存储有可执行指令，当可执行指令被处理器执行时，将引起处理器执行本申请实施例提供的视频表单的生成方法，例如，如图3A示出的视频表单的生成方法。

在一些实施例中，计算机可读存储介质可以是FRAM、ROM、PROM、EPROM、EEPROM、闪存、磁表面存储器、光盘、或CD-ROM等存储器；也可以是包括上述存储器之一或任意组合的各种设备。

在一些实施例中，可执行指令可以采用程序、软件、软件模块、脚本或代码的形式，按任意形式的编程语言(包括编译或解释语言，或者声明性或过程性语言)来编写，并且其可按任意形式部署，包括被部署为独立的程序或者被部署为模块、组件、子例程或者适合在计算环境中使用的其它单元。

作为示例，可执行指令可被部署为在一个计算设备上执行，或者在位于一个地点的多个计算设备上执行，又或者，在分布在多个地点且通过通信网络互连的多个计算设备上执行。

综上所述，通过本申请实施例基于样本视频的相似视频确定视频标签、基于待推荐对象的描述信息的相似文本确定文本标签，降低了获取视频标签、文本标签的所需的计算量，节约了计算资源，基于标签与视频字段的对应关系获取视频字段，基于筛选指标选取用于生成视频表单的视频字段。通过数据驱动的方式挖掘样本视频与描述信息中的核心内容，准确高效地生成用于生成推荐视频的视频表单，从而使视频表单能够用于生成更准确地对待推荐对象进行推荐的推荐视频，提升了推荐的时效性与推荐效果。

以上所述，仅为本申请的实施例而已，并非用于限定本申请的保护范围。凡在本申请的精神和范围之内所作的任何修改、等同替换和改进等，均包含在本申请的保护范围之内。

Claims

1.一种视频表单的生成方法，其特征在于，所述方法包括：

获取样本视频及待推荐对象的描述信息；

2.如权利要求1所述的方法，其特征在于，

所述基于所述样本视频的视频指纹获取所述样本视频的多个相似视频，包括：

获取所述样本视频的视频指纹；

确定每个参考视频的视频指纹分别与所述样本视频的视频指纹之间的相似度，从所述相似度的降序排序结果的头部选取多个所述参考视频作为所述样本视频的多个相似视频，或选取所述相似度大于相似度阈值的多个所述参考视频作为所述样本视频的多个相似视频；

所述获取所述多个相似视频对应的多个视频标签，包括：

基于所述多个相似视频的视频标识查询不同的所述参考视频与不同的视频标签之间的对应关系，得到所述多个相似视频对应的多个视频标签，其中，每个所述相似视频对应至少一个所述视频标签。

3.如权利要求2所述的方法，其特征在于，所述获取所述样本视频的视频指纹，包括：

基于预设时长分割所述样本视频，得到多个视频片段，从每个所述视频片段中提取一个视频帧；

对每个所述视频帧进行特征提取，得到每个所述视频帧对应的视频帧特征；

对每个所述视频帧对应的视频帧特征进行组合，得到所述样本视频的视频指纹。

4.如权利要求1所述的方法，其特征在于，

所述基于所述描述信息的文本向量获取所述描述信息的多个相似文本，包括：

获取所述描述信息的文本向量；

确定每个参考文本的文本向量分别与所述描述信息的文本向量之间的相似度，从所述相似度的降序排序结果的头部选取多个所述参考文本作为所述描述信息的多个相似文本，或选取所述相似度大于相似度阈值的多个所述参考文本作为所述描述信息的多个相似文本；

所述获取所述多个相似文本对应的多个文本标签，包括：

基于所述多个文本的文本标识查询不同的所述参考文本与不同的文本标签之间的对应关系，得到所述多个相似文本对应的多个文本标签，其中，每个所述相似文本对应至少一个所述文本标签。

5.如权利要求4所述的方法，其特征在于，所述获取所述描述信息的文本向量，包括：

对所述描述信息进行分词处理，得到所述描述信息包括的多个词语；

对每个所述词语进行以下处理：基于所述词语在所述描述信息中的出现次数与所述描述信息的总词语数，确定所述词语对应的词频；基于语料库中包括所述词语的文本的文本数量与所述语料库的总文本数量，确定所述词语对应的逆文档率；基于所述词频与所述逆文档率确定所述词语对应的文本分量；

对每个所述词语对应的文本分量进行组合，得到所述描述信息的文本向量。

6.如权利要求1所述的方法，其特征在于，所述基于所述多个视频标签及所述多个文本标签分别对应的热度值，在所述多个视频标签和所述多个文本标签中选取至少一个标签作为目标标签，包括：

获取所述多个视频标签分别对应的热度值，以及所述多个文本标签分别对应的热度值，其中，所述视频标签对应的热度值是基于所述视频标签的使用频率以及对应的视频的推荐效果数据中至少一项确定的，所述文本标签对应的热度值是基于所述文本标签对应的使用频率以及对应的视频的推荐效果数据中至少一项确定的，所述视频的推荐效果数据包括以下至少之一：曝光数、点击数以及转化数；

基于所述多个视频标签分别对应的热度值，以及所述多个文本标签分别对应的热度值，对所述多个视频标签及所述多个文本标签进行降序排序，从降序排序结果的头部选取至少一个标签作为目标标签，或者选取所述热度值大于热度值阈值的至少一个标签作为目标标签。

7.如权利要求1所述的方法，其特征在于，所述基于所述目标标签对应的每个视频字段的筛选指标，选取至少一个所述视频字段生成视频表单，包括：

基于所述目标标签查询不同的所述标签与不同的视频字段之间的对应关系，得到每个所述目标标签对应的视频字段；

确定每个所述视频字段对应的筛选指标；

基于每个所述视频字段对应的筛选指标，对多个所述视频字段进行降序排序，从所述筛选指标的降序排序结果的头部选取至少一个所述视频字段作为目标字段；

基于至少一个所述目标字段生成视频表单。

8.如权利要求7所述的方法，其特征在于，所述确定每个所述视频字段对应的筛选指标，包括：

获取每个所述视频字段的多项推荐指标分别对应的权重值，其中，所述推荐指标的类型包括：所述视频字段的使用次数、所述视频字段对应的视频的曝光数、所述视频字段对应的视频的点击数、所述视频字段对应的视频的转化数；

对每个所述视频字段进行以下处理：将所述视频字段的多项推荐指标基于对应的权重值进行加权求和，得到所述视频字段对应的筛选指标。

9.如权利要求1所述的方法，其特征在于，所述基于所述目标标签对应的每个视频字段的筛选指标，选取至少一个所述视频字段生成视频表单，包括：

确定每个所述视频字段对应的筛选指标，基于每个所述视频字段对应的筛选指标对所述多个视频字段进行降序排序，显示降序排序结果的头部的至少部分视频字段；

通过以下方式至少之一获取目标字段：响应于针对所述至少部分视频字段中任意视频字段的选择操作，将被选中的视频字段作为目标字段；响应于自定义字段输入操作，将输入的自定义视频字段作为目标字段；

基于所述目标字段生成视频表单。

10.如权利要求9所述的方法，其特征在于，所述响应于自定义字段输入操作，将输入的自定义视频字段作为目标字段之后，还包括：

建立每个所述自定义视频字段与每个所述目标标签之间的对应关系，并将每个所述自定义视频字段与每个所述目标标签之间的对应关系存储到视频字段数据库中；

基于每个所述自定义视频字段对应的视频的推荐效果数据，对每个所述目标标签的热度值进行更新。

11.如权利要求2所述的方法，其特征在于，

每个所述参考视频的视频指纹是存储在视频指纹数据库中的，每个所述参考视频对应的视频标签、每个所述视频标签的热度值是存储在视频标签数据库中的；

所述基于所述样本视频的视频指纹查找所述样本视频的多个相似视频，获取所述多个相似视频对应的多个视频标签之前，所述方法还包括：

获取多个参考视频、多个视频标签及每个所述视频标签的热度值，确定每个所述参考视频对应的视频指纹；

将每个所述参考视频的视频标识与每个所述参考视频的视频指纹之间的对应关系存储到所述视频指纹数据库中；

对每个所述参考视频进行以下处理：从所述多个视频标签中选取与所述参考视频的视频内容相匹配的至少一个所述视频标签，建立所述参考视频的视频标识与至少一个所述视频标签之间的对应关系；

将每个所述参考视频的视频标识与至少一个所述视频标签之间的对应关系、每个所述视频标签的热度值，存储到所述视频标签数据库中。

12.如权利要求4所述的方法，其特征在于，每个所述参考文本的文本向量是存储在文本向量数据库中的，每个所述参考文本对应的文本标签、每个所述文本标签的热度值是存储在文本标签数据库中的；

所述基于所述描述信息的文本向量查找所述描述信息的多个相似文本，获取所述多个相似文本对应的多个文本标签之前，所述方法还包括：

获取多个参考文本、多个文本标签以及每个所述文本标签的热度值，确定每个所述参考文本对应的文本向量；

将每个所述参考文本的文本标识与每个所述参考文本的文本向量之间的对应关系存储在文本向量数据库中；

对每个所述参考文本进行以下处理：从所述多个文本标签中选取与所述参考文本的文本内容相匹配的至少一个所述文本标签，建立所述参考文本的文本标识与至少一个所述文本标签之间的对应关系；

将每个所述参考文本的文本标识与至少一个所述文本标签之间的对应关系、每个所述文本标签的热度值，存储到所述文本标签数据库中。

13.如权利要求1所述的方法，其特征在于，所述视频字段是存储在标签字段数据库中的；

所述基于所述目标标签对应的视频字段的筛选指标，选取至少一个所述视频字段生成视频表单之前，还包括：

获取多个视频字段以及每个所述视频字段对应的至少一个标签，其中，所述标签的标签类型包括文本标签以及视频标签；

将每个所述视频字段与每个所述视频字段对应的至少一个标签之间的对应关系，存储到所述标签字段数据库中。

14.如权利要求1所述的方法，其特征在于，所述基于所述目标标签对应的视频字段的筛选指标，选取至少一个所述视频字段生成视频表单之后，还包括：

获取所述视频表单中的每个视频字段包括的视频参数以及对应的视频参数值；

获取与所述视频参数以及对应的视频参数值匹配的视频素材；其中，所述视频素材包括图片、文本、音频及视频中任意一种；

根据获取的所述视频素材，生成所述推荐所述待推荐对象的视频。

15.一种视频表单的生成装置，其特征在于，所述装置包括：

16.一种用于视频表单的生成的电子设备，其特征在于，所述电子设备包括：

存储器，用于存储可执行指令；

处理器，用于执行所述存储器中存储的可执行指令时，实现权利要求1至14任一项所述的视频表单的生成方法。

17.一种计算机可读存储介质，存储有可执行指令，其特征在于，所述可执行指令被处理器执行时实现权利要求1至14任一项所述的视频表单的生成方法。

18.一种计算机程序产品，包括计算机程序或指令，其特征在于，所述计算机程序或指令被处理器执行时实现权利要求1至14任一项所述的视频表单的生成方法。