CN114363714A

CN114363714A - 标题生成方法、设备及存储介质

Info

Publication number: CN114363714A
Application number: CN202111669360.7A
Authority: CN
Inventors: 王彬; 邢政; 潘攀; 徐文博; 魏传勇
Original assignee: Alibaba China Co Ltd
Current assignee: Alibaba China Co Ltd
Priority date: 2021-12-31
Filing date: 2021-12-31
Publication date: 2022-04-15
Anticipated expiration: 2041-12-31
Also published as: CN114363714B

Abstract

本申请提供一种标题生成方法、设备及存储介质，其中方法包括：获取目标对象的原始信息以及所述目标对象对应的视频，并从所述视频中提取所述目标对象的相关信息；根据所述原始信息、所述相关信息以及所述视频，基于标题生成模型，生成所述视频对应的标题。本申请可以基于模型自动生成标题，无需人工花费大量时间精力去编辑标题，提高了标题生成的效率，并且，通过目标对象的原始信息、视频以及从视频中提取出的相关信息，能够融合目标对象的多种信息，提高标题与目标对象的匹配度，提升标题生成的准确性及用户体验。

Description

标题生成方法、设备及存储介质

技术领域

本申请涉及人工智能技术领域，尤其涉及一种标题生成方法、设备及存储介质。

背景技术

随着互联网技术的不断发展，视频类内容的应用也越来越广泛。相比于传统的图文详情描述，视频类内容尤其是短视频，可以提供给用户更丰富的视听信息，带来不一样的感官体验。

其中，视频的标题是视频制作中非常重要的一环，好的标题能正确反映视频所传达的内容，帮助观众快速了解视频并产生记忆和联想力，提升用户体验。

目前，视频的标题往往依赖于用户手动生成，需要用户网上搜索了解热门标题的套路，并与视频中的目标对象的信息进行有效结合，这一过程费时费力，效率低下，且生成的标题效果较差。

发明内容

本申请实施例的主要目的在于提供一种标题生成方法、设备及存储介质，以提升为视频生成标题的效率和准确性。

第一方面，本申请实施例提供一种标题生成方法，包括：

获取目标对象的原始信息以及所述目标对象对应的视频，并从所述视频中提取所述目标对象的相关信息；

根据所述原始信息、所述相关信息以及所述视频，基于标题生成模型，生成所述视频对应的标题。

可选的，获取目标对象的原始信息以及所述目标对象对应的视频，并从所述视频中提取所述目标对象的相关信息，包括：

从所述目标对象对应的页面展示信息中，提取下述至少一项原始信息：所述目标对象对应的原始标题、描述信息和所述目标对象的主图；

获取所述目标对象对应的视频，并执行下述至少一项：

检测所述视频中的文本信息及音乐信息；

在所述视频中检测所述目标对象出现时的场景信息、所述目标对象的属性信息；

检测所述视频中的发言角色信息，并提取出发言语音，将所述发言语音转换为文本信息。

可选的，根据所述原始信息、所述相关信息以及所述视频，基于标题生成模型，生成所述视频对应的标题，包括：

针对所述原始信息、相关信息中的每一项信息，根据该信息与所述视频，基于标题生成模型，生成该信息对应的标题；

根据各个信息对应的标题的文本匹配程度，对各个信息对应的标题进行融合，确定所述视频对应的至少一个标题。

可选的，所述标题生成模型包括编码器和解码器；根据所述原始信息、所述相关信息以及所述视频，基于标题生成模型，生成所述视频对应的标题，包括：

通过所述编码器提取所述原始信息、所述相关信息以及所述视频的特征信息，所述特征信息用于表征在跨模态空间中的位置；

根据提取到的特征信息，通过解码器生成对应的标题。

可选的，根据提取到的特征信息，通过解码器生成对应的标题，包括：

将所述特征信息输入到解码器，根据标题生成策略，生成标题文本并对所述标题文本进行随机采样，得到对应的标题；

其中，所述标题生成策略包括下述至少一项：标题文本的长度、标题的长度、标题的风格、标题的类型、标题的应用场景。

可选的，所述编码器基于交叉注意力计算进行特征信息的提取；生成的标题数量为多个；所述方法还包括：

根据生成的多个标题对应的置信度，展示所述多个标题；

获取用户从所述多个标题中选择的标题，或者，获取用户对选中的标题进行修改后得到的标题；

根据获取的标题，发布所述视频；和/或，将获取的标题添加到所述视频并输出。

可选的，所述方法还包括：

获取满足预设要求的视频以及对应的原始信息、标题；

根据获取到的视频、原始信息以及标题，对所述标题生成模型进行优化。

可选的，获取满足预设要求的视频以及对应的原始信息、标题，包括：

在发布的视频中，选取指标满足预设要求的视频以及对应的原始信息、标题；和/或，

若检测到已添加标题的视频被剪辑或从本地输出，则确定所述视频为满足预设要求的视频，并获取对应的原始信息和标题。

可选的，在发布的视频中，选取指标满足预设要求的视频，包括：

在发布的视频中，获取各视频对应的指标；其中，所述指标包括下述至少一项：点击率、观看率、停留量、购买转化率；

通过将各视频的指标与对应的阈值进行比较，确定各视频是否满足预设要求，以筛选出满足预设要求的视频；或者，根据指标对发布的视频进行排序，并从排序后的视频中选择前预设数量的视频。

可选的，所述方法还包括下述至少一项：

将所述视频添加标题后，发布到所述目标对象对应的展示页面；

将所述视频添加标题后，发布到视频发布平台，所述视频发布平台中对应所述视频设置有目标对象的链接；

将已选定标题的多个视频进行拼接，得到拼接视频，以在播放所述拼接视频时，在每个视频前展示对应的标题；

将已选定标题的视频进行剪切，得到多个视频片段，根据所述视频的标题以及各视频片段的顺序，为各视频片段生成片段标题。

第二方面，本申请实施例还提供一种标题生成方法，包括：

获取目标商品的原始信息以及为所述目标商品拍摄的视频，并从所述视频中提取所述目标商品的相关信息；

根据所述原始信息、所述相关信息以及所述视频，基于标题生成模型，生成所述视频对应的标题，所述标题用于与所述目标商品进行关联展示。

可选的，获取目标商品的原始信息以及为所述目标商品拍摄的视频，并从所述视频中提取所述目标商品的相关信息，包括：

从所述目标商品对应的商品详情页面中，确定下述至少一项原始信息：所述目标商品对应的原始标题、描述信息和商品主图；

获取为所述目标商品拍摄的视频，并执行下述至少一项：

检测所述视频中的文本信息及音乐信息；

在所述视频中检测所述目标商品出现的场景信息、所述目标商品的属性信息；

在所述视频中检测对所述目标商品的语音介绍信息，并将所述语音介绍信息转换为文本信息。

第三方面，本申请实施例提供一种电子设备，包括：

至少一个处理器；以及与所述至少一个处理器通信连接的存储器；

其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述电子设备执行上述任一方面所述的方法。

第四方面，本申请实施例提供一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机执行指令，当处理器执行所述计算机执行指令时，实现上述任一方面所述的方法。

本申请提供的标题生成方法、设备及存储介质，可以获取目标对象的原始信息以及所述目标对象对应的视频，并从所述视频中提取所述目标对象的相关信息，根据所述原始信息、所述相关信息以及所述视频，基于标题生成模型，生成所述视频对应的标题，从而可以基于模型自动生成标题，无需人工花费大量时间精力去编辑标题，提高了标题生成的效率，并且，通过目标对象的原始信息、视频以及从视频中提取出的相关信息，能够融合目标对象的多种信息，提高标题与目标对象的匹配度，提升标题生成的准确性以及用户体验。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本申请的实施例，并与说明书一起用于解释本申请的原理。

图1为本申请实施例提供的一种应用场景示意图；

图2为本申请实施例提供的一种标题生成方法的流程示意图；

图3为本申请实施例提供的另一种标题生成方法的流程示意图；

图4为本申请实施例提供的一种生成标题的流程示意图；

图5为本申请实施例提供的一种通过编码器和解码器生成标题的原理示意图；

图6为本申请实施例提供的一种数据回流的示意图；

图7为本申请实施例提供的一种标题与目标对象进行关联展示的示意图；

图8为本申请实施例提供的另一种标题与目标对象进行关联展示的示意图；

图9为本申请实施例提供的又一种标题生成方法的流程示意图；

图10为本申请实施例提供的一种电子设备的结构示意图。

通过上述附图，已示出本申请明确的实施例，后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本申请构思的范围，而是通过参考特定实施例为本领域技术人员说明本申请的概念。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。

首先对本申请所涉及的名词进行解释：

深度学习：具有高层数的人工神经网络结构，可用来实现智能文本分析、理解、生成等功能。

视频发布平台：能够发布视频的平台，可以是某些电商平台内能够发布视频的模块，也可以是专门的视频发布平台，用户发布视频后，其它用户可以通过平台查看已发布的视频。

下面对本申请的应用场景及发明构思进行解释说明。

随着视频类内容的兴起，通过短视频来展示目标对象成为热门趋势。以所述目标对象为商品为例，在电商平台中，商品视频对于点击率、停留时长和成交转化率的提升均有明显的正向作用。其中，视频标题是视频制作中非常重要的一环，一个好的标题往往意味着成功了一半，在海量的视频展示页面上，一个优质的标题可以瞬间吸引观众的注意，帮助观众快速了解视频内容并产生记忆和联想力，最终引导观众点击观看视频，因此，好的标题是播放量之源。

目前，标题的制作往往依靠用户在网上搜索了解热门标题的套路，判断是否适合当前目标对象，并结合目标对象具体特点进行标题的修改，工作量巨大，耗时耗力，常常难以编辑出高质量的视频标题。某些用户会嫌麻烦而放弃标题，或随意添加一句质量不高没什么吸引力的标题。并且，某些场景下同一目标对象会制作多个视频，如果使用同一个标题会造成审美疲劳，吸引力下降。

此外，也可以开发一些标题工具库，通过用户手动输入一些关键词来返回匹配的标题文案，例如，用户可以输入一些关于目标对象的关键词，在系统返回的匹配这些关键词的标题列表中选择自己喜欢的，但是，这一过程依然需要花费大量时间，结果的精准程度往往取决于用户输入的关键词，因此返回的标题质量参差不齐，用户需要仔细筛选，并且这一步骤也难以形成反馈，无法进一步提升推荐质量。

当前，以深度学习为代表的人工智能算法发展快速，在视觉、语言等领域均有广泛的应用，如图片/视频内容识别、机器翻译等。本申请实施例通过设计标题生成模型来降低用户制作目标对象视频的门槛，引导用户在目标对象发布视频编辑过程中与标题生成模型做更多交互，减轻用户工作量，提升标题生成效果。

图1为本申请实施例提供的一种应用场景示意图。如图1所示，用户可以通过终端设备为目标对象拍摄视频，终端设备可以将目标对象的原始信息、视频上传到服务器，由服务器从视频中提取出目标对象的相关信息，并根据所述视频、原始信息和相关信息，通过标题生成模型生成对应的至少一个标题下发给终端设备，由终端设备展示给用户，用户可以从中选择一个作为视频的标题，终端设备可以将配好标题的视频发布到视频发布平台，和目标对象进行关联展示。

在其它可选的实现方式中，标题生成模型也可以部署在终端设备或者视频发布平台，由终端设备或视频发布平台根据视频确定对应的标题。在生成标题后，也可以不进行发布，而进行其它处理，本申请对此不作限制。

本申请实施例通过设计标题生成模型，基于目标对象的原始信息、对应的视频以及从视频中提取的相关信息，自动生成一个或多个标题，供用户修改或确认，实现与用户的高效交互，提高标题生成效率，并且，通过模型可以准确提取合适标题的内容特征，从而生成可读性高且有吸引力的标题，提高标题生成的准确性。此外，在视频发布后，还可以筛选出效果较好的视频作为回流数据，进一步提升算法模型的性能。

下面结合附图，对本申请的一些实施方式作详细说明。在各实施例之间不冲突的情况下，下述的实施例及实施例中的特征可以相互组合。另外，下述各方法实施例中的步骤时序仅为一种举例，而非严格限定。

图2为本申请实施例提供的一种标题生成方法的流程示意图。本实施例中方法的执行主体可以为任意具有数据处理功能的设备，例如终端设备或服务器等。如图2所示，所述方法可以包括：

步骤201、获取目标对象的原始信息以及所述目标对象对应的视频，并从所述视频中提取所述目标对象的相关信息。

其中，所述视频可以为短视频，或者其它类型的视频。所述目标对象可以是视频中出现的任意对象。可选的，所述目标对象对应的视频可以是针对目标对象拍摄或剪辑的视频。

示例性地，在电商场景下，所述目标对象可以为目标商品，对应的视频可以为商家为销售目标商品而拍摄的视频；在音视频会议场景下，所述目标对象可以为参会人员，对应的视频可以为参会人员在会议过程中的视频影像；在文娱场景下，所述目标对象可以为演出角色，对应的视频为影视剧集等。

所述目标对象的原始信息可以用于反映目标对象的属性或基础信息。所述原始信息具体可以为不同于视频的其它模态的信息。

其中，模态可以是指数据存在的形式，例如，文本、图像、音频、视频、传感数据等属于不同的模态。示例性地，目标对象的原始信息可以包括目标对象对应的下述至少一种模态的信息：文本、图像、音频、传感数据。

可选的，在所述目标对象为商品时，所述目标对象的原始信息可以包括：目标商品在商品详情页面的标题、商品主图、背景音乐等。

所述目标对象的原始信息和视频可以是由用户输入的、或本地存储的、或从其他设备接收到的。例如，目标对象的视频可以由用户拍摄得到，原始信息可以从电商平台获取。

在得到目标对象对应的视频后，可以提取所述视频中目标对象的相关信息。其中，所述相关信息可以是指，从视频中提取出的、所述目标对象对应的任意一种或多种模态的信息。

示例性地，可以从视频中提取目标对象对应的文本、音频、主图、传感数据等作为相关信息。可选的，可以具体提取目标对象出现时的背景音乐、人声、所配文本，以及视频中最具代表性的图片作为主图。

需要说明的是，相关信息和原始信息中可能存在同样模态的信息，例如相关信息和原始信息都包含了文本信息或音频信息，但是，相关信息是从视频中提取出的信息，而原始信息可以不必是从视频中提取的信息。

原始信息中包含了除视频以外的其它模态的信息，从而可以得到目标对象的多种模态的信息，进一步的，由于视频包含了非常丰富的内容，还可以从视频中提取相关信息，因此，可以得到目标对象对应的原始的多种模态的信息以及从视频中提取的多种模态的信息。

步骤202、根据所述原始信息、所述相关信息以及所述视频，基于标题生成模型，生成所述视频对应的标题对象。

可选的，所述标题生成模型可以为基于深度学习实现的模型。

在一示例中，可以将视频、原始信息、相关信息输入到标题生成模型，生成对应的标题。可选的，可以将视频、原始信息、相关信息进行拼接后，输入到模型。其中，视频可以包含多帧图像，可以将视频包含的全部或部分图像作为序列输入到所述标题生成模型中。

另一示例中，可以基于所述原始信息、所述相关信息以及所述视频中的部分信息指导模型的选择，将其他信息输入到模型以得到对应的标题。例如，可以预先训练多个适用于不同类型的模型；在实际应用中，可以通过原始信息和相关信息确定对应的类型，并选择合适的模型，将视频输入到模型中，得到对应的标题。

在本申请实施例中，可以获取目标对象对应的原始信息，并从视频中提取目标对象的相关信息，与视频一起，共同用于实现标题的生成，因而相对于仅通过视频生成标题，融合了更多的信息，有效提升了准确性。示例性地，在为目标商品的视频生成标题时，可以获取目标商品在商品详情页面的原始标题和商品主图，并从视频中提取出商品对应的传感信息，能够融合目标商品的更多的信息，从多个角度全面反映商品的信息，从而生成与目标商品的视频相匹配的标题。

综上，本实施例提供的标题生成方法，可以获取目标对象的原始信息以及所述目标对象对应的视频，并从所述视频中提取所述目标对象的相关信息，根据所述原始信息、所述相关信息以及所述视频，基于标题生成模型，生成所述视频对应的标题，从而可以基于模型自动生成标题，无需人工花费大量时间精力去编辑标题，提高了标题生成的效率，并且，通过目标对象的原始信息、视频以及从视频中提取出的相关信息，能够融合目标对象的多种信息，提高标题与目标对象的匹配度，提升标题生成的准确性以及用户体验。

图3为本申请实施例提供的另一种标题生成方法的流程示意图。如图3所示，所述方法可以包括：

步骤301、从所述目标对象对应的页面展示信息中，提取下述至少一项原始信息：所述目标对象对应的原始标题、描述信息和所述目标对象的主图。

可选的，所述目标对象可以有对应的展示页面，所述页面展示信息为所述展示页面包含的信息。

在一示例中，所述目标对象可以为目标商品，对应的展示页面可以为所述商品的商品详情页面，例如电商平台中用于展示有目标商品的详情信息、用于售卖目标商品的页面。从所述商品详情页面中可以提取中商品的原始标题，商品的描述信息如材质、功能等，以及商品的主图。

另一示例中，所述目标对象可以为会议中的参会人员，对应的展示页面可以为参会人员在公司主页上的个人介绍页面，或者在会议系统中的个人介绍页面，从所述个人介绍页面中可以提取出所述参会人员的简介，简介可以包括标题、正文、照片等，可以作为目标对象的原始标题、描述信息和所述目标对象的主图。

又一示例中，所述目标对象可以为演出角色，对应的展示页面可以为海报、演出角色或视频的介绍页面等，具体可以展示有标题、描述信息和人像等，可以作为目标对象对应的原始标题、描述信息和所述目标对象的主图。

步骤302、获取所述目标对象对应的视频，并提取目标对象的相关信息。

本实施例中，通过步骤301至步骤302可以实现获取目标对象的原始信息以及所述目标对象对应的视频，并从所述视频中提取所述目标对象的相关信息。步骤301和步骤302的执行顺序可以调整。

可选的，步骤302具体可以包括：获取所述目标对象对应的视频，并执行下述至少一项：

检测所述视频中的文本信息及音乐信息；

检测所述视频中的发言角色信息，并提取出发言语音，将所述发言语音转换为文本信息；

根据所述视频对应的点云数据，确定所述视频对应的深度信息；

根据所述视频对应的红外数据，确定所述视频对应的温度信息。

可选的，可以检测所述视频中的文本信息及音乐信息。例如，视频可以有背景音乐，还有字幕、旁白等文字，尤其可以检测所述视频中目标对象出现时的文本信息以及音乐信息。

可选的，可以在所述视频中检测所述目标对象出现时的场景信息、所述目标对象的属性信息。其中，场景信息可以包括但不限于：室内、城市街道、野外等，所述目标对象的属性信息可以是人或物的属性信息，包括但不限于：物品类型、材质、功能、人物性别、年龄、衣着风格等。

可选的，可以检测所述视频中的发言角色信息，并提取出发言语音，将所述发言语音转换为文本信息。

示例性地，在目标对象为商品时，所述发言语音可以是对目标商品的语音介绍信息。具体的，用户在为目标商品拍摄视频时，可以对目标商品进行介绍，以方便观看者了解目标商品。可以从所述视频中检测出发言语音并转换为文本，该文本代表了用户对目标商品的描述，可以用于辅助实现标题生成。还可以提取出发言角色信息，即，视频中有哪些人在说话，例如会议场景下，不同人的发言可能代表领导点评、团队内其他同事补充等不同的功能，从而可以为标题生成提供更多的参考信息。

可选的，还可以根据所述视频对应的点云数据，确定所述视频对应的深度信息。其中，所述视频可以为3D视频，根据3D视频对应的点云数据，可以从视频中提取出深度信息。深度信息可以用于指导标题生成，例如，目标对象在视频中的位置远近可以对应不同的视频风格，从而使生成的标题更加符合视频的风格。

可选的，还根据所述视频对应的红外数据，确定所述视频对应的温度信息。其中，在拍摄时，可以通过红外拍摄装置和相机共同对目标对象进行拍摄，或者，选择具有红外拍摄功能的相机对目标对象进行拍摄，通过红外数据，可以确定目标对象在所述视频中的温度信息，该温度信息可以指导标题的生成，例如，不同的冷暖情况、温度变化情况可以对应不同风格的标题。

通过检测所述视频中的文本信息、音乐信息、所述目标对象出现时的场景信息、所述目标对象的属性信息、发言角色信息、发言语音对应的文本信息、深度信息、温度信息中的至少一项，作为相关信息，能够从视频中提取出不同模态的数据，指导标题的生成，使得生成的标题更加符合视频中与目标对象相关的内容，进一步提升标题生成的准确性。

步骤303、针对所述原始信息、相关信息中的每一项信息，根据该信息与所述视频，基于标题生成模型，生成该信息对应的标题。

示例性地，所述原始信息可以包括3项：所述目标对象对应的原始标题、描述信息、所述目标对象的主图；所述相关信息可以包括4项：文本信息、音乐信息、所述目标对象出现时的场景信息、所述目标对象的属性信息。针对这7项信息中的每一项信息，与视频一起输入到对应的标题生成模型，得到该信息对应的标题。

可选的，不同的信息的长度可能不同，因此，可以先通过一特征提取网络，提取出固定长度的特征再输入到标题生成模型中，或者，标题生成模型可以包括特征提取网络，以接纳不同长度的输入信息，或者，也可以为每种类型的信息分别训练对应的标题生成网络，在使用时，直接利用该信息对应的标题生成网络，得到对应的标题。

在其他可选的实现方式中，也可以针对两个或者更多个信息共同生成一个标题。

步骤304、根据各个信息对应的标题的文本匹配程度，对各个信息对应的标题进行融合，确定所述视频对应的至少一个标题。

本实施例中，通过上述步骤303至步骤304，可以实现根据所述原始信息、所述相关信息以及所述视频，基于标题生成模型，生成所述视频对应的标题。

本步骤中，在利用不同信息生成不同的标题之后，可以对生成的多个标题进行融合。示例性地，在利用7项信息生成7个标题之后，对7个标题进行融合。

可选的，可以根据各个标题的文本匹配程度，确定所述视频的至少一个标题。其中，任意两个标题的文本匹配程度可以通过文本匹配模型来计算，或者通过简单的字符匹配度来计算。

在一种可选的实现方式中，可以根据各个标题的文本匹配程度，选择匹配程度最小的至少一组标题，对所选择的标题进行融合，例如，对所选择的标题进行拼接生成最终的标题，或者，将所选择的标题分别作为主副标题等。

例如，可以将多个标题两两组合，确定每组标题对应的文本匹配程度，并从中选出文本匹配程度最小的一组或多组标题，这些标题的相似度较小，涵盖了不同的角度，可以基于这些标题进行融合，得到最终的标题。

在另一种可选的实现方式中，根据各个标题的文本匹配程度，确定所述视频的至少一个标题，可以包括：针对每一标题，计算所述标题与其他各个标题的文本匹配程度，并将文本匹配程度求均值，得到该标题的评分。可以从多个标题中选择评分最高的一个或多个标题并输出。评分最高的标题与其它标题的匹配程度最高，如果在多个信息对应的标题中，多数标题都指向相同或类似的标题，那么可以以该标题作为最合适的标题。

综上，本实施例可以针对所述原始信息、相关信息中的每一项信息，根据该信息与所述视频，基于标题生成模型，生成该信息对应的标题，并根据各个信息对应的标题的文本匹配程度，对各个信息对应的标题进行融合，确定所述视频对应的至少一个标题，从而可以基于文本匹配程度快速、准确地找出最合适的标题，进一步提升标题生成的效率和准确性。

在其他可选的实现方式中，在得到各个信息对应的标题之后，可以不执行融合的步骤，直接输出各个信息对应的标题，同时，输出每个标题是基于哪项信息得到的，方便用户进行选择。在本申请的一个或多个实施例中，可选的，所述标题生成模型可以基于神经网络模型来实现。可以通过训练样本对所述神经网络模型进行训练，训练后的神经网络模型可以根据视频输出对应的标题。

在本申请实施例中，模型的输入数据可以根据实际需要来选择，例如，可以为视频，也可以为视频加任意一种信息，也可以为视频加多种信息。在训练模型时，可以采用相应的输入数据进行训练，使得模型可以具有能够处理对应数据的功能。

在本申请的一个或多个实施例中，可选的，所述标题生成模型可以包括编码器和解码器。图4为本申请实施例提供的一种生成标题的流程示意图。如图4所示，根据所述原始信息、所述相关信息以及所述视频，基于标题生成模型，生成所述视频对应的标题，可以包括：

步骤401、通过所述编码器提取所述原始信息、所述相关信息以及所述视频的特征信息。

其中，所述特征信息用于表征在跨模态空间中的位置。

可选的，所述编码器可以通过Transformer或LSTM(Long Short-Term Memory，长短期记忆网络)模型来实现。提取到的特征信息可以为高层语义特征，该特征信息可以抽象出目标对象的特点，能够表征原始信息、相关信息或视频在跨模态空间中的位置。

其中，跨模态空间可以是指不同模态的数据映射到的共同空间。在跨模态空间中，可以实现不同模态的数据的检索、排序、聚类等操作。示例性地，跨模态检索可以是指，给定一种模态的具体数据，可以在跨模态空间中寻找与该数据距离最近的一个或多个其它模态的数据。

可选的，在所述跨模态空间中，任一信息或视频对应的特征信息与标题的特征信息之间的相似度，可以用于表示该信息或视频与标题的匹配程度。

以视频为例，视频的特征信息与标题的特征信息之间的相似度，可以用于表示视频与标题的匹配程度。对于任意一对视频和标题来说，如果该视频和标题是相匹配的，那么通过编码器得到的两者的特征信息应该是尽可能地接近的，两者的特征信息的相似度较高，如果该视频和标题是不匹配的，那么通过编码器得到的两者的特征信息应该是尽量远离的，相似度较低。可选的，相似度可以通过欧式距离等来确定。

可选的，在对编码器和解码器进行训练时，可以通过标题和视频作为样本进行训练，使得相匹配的视频和标题的特征信息尽可能地接近，而不匹配的视频和标题的特征信息尽可能地远离；在训练完成后，可以将待处理的视频输入到编码器，得到视频对应的特征信息。

或者，可以将原始信息、相关信息和视频，看作一个整体的对象信息，该对象信息的特征信息与标题的特征信息之间的相似度，也可以用于表示该对象信息与标题的匹配程度。

可选的，可以将原始信息、相关信息和视频进行拼接，得到对象信息，输入到编码器中得到对应的特征信息，该特征信息用于表示该对象信息在跨模态空间中的位置。通过跨模态空间，可以抽象出各种模态的数据的高层特征，用于实现模型的预测功能。

步骤402、根据提取到的特征信息，通过解码器生成对应的标题。

其中，通过编码器可以提取特征信息，用于表征原始信息、相关信息和视频在跨模态空间中的位置，再将该特征信息输入到解码器，可以把高层语义特征转换为自然语言的标题文案，从而实现为视频生成相匹配的标题。

综上，通过编码器提取特征信息并通过解码器生成对应的标题，能够从目标对象的原始信息、相关信息和视频中抽象出反映目标对象特点的信息并得到相匹配的标题，提升生成标题的准确性。

在本申请的一个或多个实施例中，在使用标题生成模型生成视频对应的标题之前，可以先对所述标题生成模型进行训练。可选的，可以获取训练样本，所述训练样本包括对象信息以及对应的标题；根据所述训练样本，基于损失函数，训练所述标题生成模型。

其中，所述对象信息可以包括原始信息、相关信息和视频，可选的，可以由三者拼接得到；特征差距和标题差距均与所述损失函数为正相关关系；所述特征差距为编码器输出的对象信息的特征信息与标题的特征信息之间的差距；所述标题差距为解码器输出的标题与所述训练样本中的标题之间的差距。

可选的，所述训练样本的数量可以有多个，每一训练样本可以包括对象信息及标题，训练样本中的对象信息和标题可以认为是相匹配的对象信息和标题。其中，对象信息的标题可以人工输入，或者，可以获取已有标题的若干对象信息，并从中选择传播效果较好的作为训练样本。

在得到训练样本后，可以基于训练样本对所述标题生成模型进行训练。可选的，所述编码器可以包括对象信息特征提取器和标题特征提取器，对象信息特征提取器可以提取对象信息的特征信息，标题特征提取器可以提取标题的特征信息，训练的目的可以是让相匹配的对象信息和标题(例如同一训练样本中的对象信息和标题)对应的特征信息尽量接近。

解码器可以与编码器一同进行训练，解码器的训练目的可以是让输出的标题与真实标题之间越接近越好，使得解码器有较好的标题生成能力。

可选的，可以设计合适的损失函数，所述损失函数与特征差距为正相关关系，即，其它变量不变的情况下，特征差距越大，损失函数越大，所述损失函数与标题差距也为正相关关系，即，其它变量不变的情况下，标题差距越大，损失函数越大。所述差距可以是指差值、比值、欧式距离等，能够反映对象信息的特征信息与标题的特征信息的差距，或者，标题预测值、标题真实值之间的差距。

综上，通过使用对象信息和标题作为样本进行训练，使得编码器输出的对象信息的特征信息与标题的特征信息尽量接近，并且解码器输出的标题与训练样本中的标题尽量接近，从而使编码器能够将对象信息映射到跨模态空间的合适位置，解码器能够输出合适的标题，进一步提升模型的效果。

在其它可选的实现方式中，除了可以让相匹配的对象信息和标题对应的特征信息尽量接近以外，还可以让不匹配的标题和标题(例如不同训练样本之间的对象信息和标题)尽量远离，以尽量增加提取出的特征信息的多样性。

可选的，可以设置正样本组和负样本组，正样本组中包含相匹配的对象信息和标题，负样本组中包含不匹配的对象信息和标题，可以训练编码器，使得编码器提取的正样本中对象信息和特征信息和标题的特征信息的差距越小越好，负样本中对象信息的特征信息和标题的特征信息的差距越大越好。

通过正负样本组，可以使得相匹配的对象信息和标题在跨模态空间中尽量接近，而不匹配的对象信息和标题在跨模态空间中尽量远离，提高生成的标题的多样性。

图5为本申请实施例提供的一种通过编码器和解码器生成标题的原理示意图。如图5所示，可以将目标对象对应的对象信息输入到编码器中，得到特征信息，特征信息再通过解码器得到至少一个标题。

可选的，解码器可以通过字数控制策略和随机采样策略来实现。相应的，根据提取到的特征信息，通过解码器生成对应的标题，包括：将所述特征信息输入到解码器，根据标题生成策略，生成标题文本并对所述标题文本进行随机采样，得到对应的标题；其中，所述标题生成策略包括下述至少一项：标题文本的长度、标题的长度、标题的风格、标题的类型、标题的应用场景。

其中，所述标题文本的长度和标题的长度可以根据实际需要来设计，例如标题文本可以为10个词，标题可以为5个词，在根据特征信息生成10个词的标题文本后，可以对所述标题文本进行随机采样，从中随机选择5个词，得到标题。

此外，还可以根据标题的风格、标题的类型、标题的应用场景，生成对应的标题。其中，所述标题的风格可以包括但不限于：严谨、豪放、清新等风格。所述标题的类型可以包括但不限于：单行标题、复合式标题等。所述标题的应用场景可以包括但不限于：产品营销、产品发布会、视频发布会、官方新闻播报、音视频会议等。

根据风格、类型、应用场景等，可以确定对应的标题文本长度和/或标题长度，从而进行字数控制和随机解码。或者，风格、类型、应用场景可以作为解码器的输入信息之一，与视频、原始信息、相关信息的特征信息一起，输入到解码器得到对应的标题。

综上，通过字数控制策略，可以控制生成的标题的长度，使得标题的形式满足要求，通过随机采样策略，可以在特征信息对应的标题文本中随机选取部分内容作为标题，增加标题的多样性，同一目标对象的不同视频可以生成不同的标题，内容维度丰富，从而实现语言模型的Controllable and Diversified Video Caption(可控的、多元化的视频标题)技术，使得生成的标题长度合适且多样化，满足实际使用需求。

在本申请的一个或多个实施例中，可选的，可以获取用户输入的标题生成策略。例如，用户可以直接输入标题文本的长度或者标题长度。

可选的，可以获取用户针对所述视频和/或目标对象生成的描述信息，根据所述描述信息，确定所述标题生成策略。所述描述信息可以通过语音、文本等方式输入，根据所述描述信息，可以确定对应的标题生成策略。描述信息与标题生成策略的对应关系可以通过映射关系表来确定，或者，可以训练语言模型，通过语音模型，确定描述信息对应的标题生成策略。

可选的，可以根据所述原始信息、所述相关信息以及所述视频，展示推荐的标题生成策略，并获取用户在所述推荐的标题生成策略中选择的标题生成策略。具体的，根据原始信息、相关信息以及视频，确定视频和目标对象的风格和场景，根据风格和场景进行策略推荐，并由用户选择确认。根据原始信息、相关信息以及视频，确定风格和场景，也可以通过深度学习模型实现。

可选的，标题生成策略中每一项策略均可以有一种或多种；示例性地，标题文本的长度可以为至少一种，随机采样后得到的标题长度可以为至少一种，风格、类型和场景也均可以为至少一种。

当用户输入多种策略时，可以根据多种策略生成对应的多个标题。以标题文本长度和标题长度为例，在用户输入标题文本的长度或者随机采样后得到的标题长度时，均可以设置一种或多种长度，设置多种长度时，通过模型可以得到符合多种长度的多种标题或者标题文本，例如，可以得到置信度最高的多个标题或标题文本。

在一示例中，用户可以调整标题文本的长度，例如，标题文本的长度由默认的10个词调整为15个词，而随机采样策略不变，则最终输出的标题的长度可能也会发生变化。

另一示例中，用户可以调整随机采样策略，例如，默认是在标题文本中随机选择5个词，用户调整为随机选择7个词，则在标题文本不变的情况下，最终得到的标题也会发生变化。

在又一示例中，用户既可以调整标题文本的长度，又可以调整随机采样的策略，例如，用户可以输入标题文本为10个词、15个词，随机采样策略为随机采样二分之一，则最终输出的标题可以有如下至少两个：长度为5个词的标题、长度为8个(15向上取整)词的标题。

综上，标题生成策略可以由用户来调整，且可以输出至少一个长度的标题，方便用户根据实际需要对生成的标题的形式进行调整，满足不同场景的需求，提高灵活性。在本申请的一个或多个实施例中，可选的是，所述编码器可以基于交叉注意力计算进行特征信息的提取。

在训练模型时，输入的数据可以看作是由多个词和/或图像帧构成的序列，其中有些内容是比较关键的，另外一些内容可能是作用不大的，为了更加准确地提取特征信息，可以基于交叉注意力的时序定位技术，来提取特征信息。

例如，目标对象为衬衣时，“花格”、“长袖”这些特性是关键信息，而“大促”这些信息的有用程度不高，通过交叉注意力的时序定位技术，可以在计算时聚焦到更有用的信息上。

同理，在视频的各帧图像中，也有重要和相对不重要的内容，通过交叉注意力计算，可以聚焦到视频的重要内容上。

可选的，在实际应用中，通过所述编码器提取所述视频的特征信息，可以包括：将所述视频输入到所述编码器，通过交叉注意力计算，得到特征信息。

综上，编码器通过交叉注意力计算，能够在提取特征信息时聚焦到更有用的信息上，从而在提炼到关键点的基础上得到特征信息，进而提高标题生成的准确性。

在本申请的一个或多个实施例中，可选的是，生成的标题数量为多个时，还可以：根据生成的多个标题对应的置信度，展示所述多个标题；获取用户从所述多个标题中选择的标题，或者，获取用户对选中的标题进行修改后得到的标题；根据获取的标题，发布所述视频，和/或，将获取的标题添加到所述视频并输出。

可选的，模型输出的标题可以有对应的置信度，置信度越高，表示越适合作为所述视频的标题。

示例性地，可以通过下拉菜单等方式，向用户展示生成的多个标题，标题可以按照置信度排序，置信度越高，排序越靠前。用户可以一键选择合适的标题，还可以支持用户对标题进行修改。选择或修改完后，可以通过发布工具完成视频的对外发布，可以将视频发布到视频发布平台。

可选的，可以将获取的标题添加到所述视频并输出，例如，可以将添加有标题的视频拷贝到其它设备，通过网络上传或者下载到其它设备等。添加有标题的可以供用户自用，或者，可以通过显示设备播放等，适用于发布会、亲友分享等多种场合。

综上，通过模型可以自动生成多个标题并由用户进行选择和修改，使用户可以更加快速地得到想要的标题，提升为视频配标题的效率，降低了用户手动输入标题的操作难度和门槛，提高用户体验度。

通过上述实施例提供的方案，可以先获取已有的视频和标题，基于神经网络的标题生成模型，通过理解目标对象的视频标题，一整套提取目标对象原始标题的内容特征，提炼其中重要的信息，建立对象信息与自然语言文本之间的关联。在应用时，可以根据目标对象对应的对象信息，利用人工智能能力自动帮助用户生产标题，加入长度控制和随机解码策略，生成的标题长度不同，且内容维度丰富，从而产出多个可读性好且有吸引力的标题文案，方便用户选用。

在本申请的一个或多个实施例中，可选的是，可以在发布的视频中，获取满足预设要求的视频以及对应的原始信息、标题；根据获取到的视频、原始信息以及标题，对所述标题生成模型进行优化。

示例性地，满足预设要求可以通过人工筛选的方式来实现，人工选择标题比较合适的视频，形成样本集，再根据样本集中的视频提取对应的相关信息，并根据相关信息、原始信息、视频及标题继续对所述模型进行训练，从而可以利用回流数据提升模型效果，实现利用用户反馈迭代优化模型，满足不同阶段的使用需求，保持较强的适应性。

可选的，获取满足预设要求的视频以及对应的原始信息、标题，可以包括：在发布的视频中，选取指标满足预设要求的视频以及对应的原始信息、标题；和/或，若检测到已添加标题的视频被剪辑或从本地输出，则确定所述视频为满足预设要求的视频，并获取对应的原始信息和标题。

在一种可选的实现方式中，可以在发布的视频中，根据指标确定视频的标题是否合适，并选择合适的视频进行模型的优化。

在另一种可选的实现方式中，视频添加标题后可能不是用于发布的，而是用于其它用途，例如，在发布会播放，或者用户自用。因此，可以检测添加有标题的视频是否被剪辑或者从本地输出，若检测到有被剪辑或本地输出的操作，则可以认为用户认可对应的标题，可以利用所述视频及原始信息、标题进行模型的优化。

通过在发布的视频中选择指标满足预设要求的视频，或者，检测已添加有标题的视频是否被剪辑或者本地输出，能够快速、准确地得到满足预设要求的视频，并应用于进行模型优化，提升提取回流数据的效率和准确性，进而提升模型优化的效率和准确性。

图6为本申请实施例提供的一种数据回流的示意图。如图6所示，可以根据目标对象的视频及信息，通过标题生成模型确定对应的标题，在发布视频后，可以通过多个指标如点击率、观看率、停留量、转化率等，来实现数据回流，对标题生成模型进行优化训练。

可选的，在发布的视频中，选取指标满足预设要求的视频，可以包括：在发布的视频中，获取各视频对应的指标；其中，所述指标包括下述至少一项：点击率、观看率、停留量、购买转化率；通过将各视频的指标与对应的阈值进行比较，确定各视频是否满足预设要求，以筛选出满足预设要求的视频；或者，根据指标对发布的视频进行排序，并从排序后的视频中选择前预设数量的视频。

可选的，所述点击率可以用于表示所述视频被点击的次数和/或频率。示例性地，可以计算浏览到所述视频的人次以及点击所述视频的人次，将点击所述视频的人次除以浏览到所述视频的人次，得到点击率。

所述观看率可以用于表示所述视频被点击后，观看所述视频的时长超过第一预设时长的比例。所述第一预设时长例如可以为3秒。示例性地，可以统计点击所述视频的人次，以及观看所述视频超过3秒的人次，将后者除以前者，得到观看率。

所述停留量可以用于表示观看所述视频的用户中点击跳转到目标对象页面并停留超过第二预设时长的比例。所述第二预设时长例如可以为5秒。示例性地，可以统计观看所述视频的人次，以及从所述视频跳转到目标对象的展示页面并停留超过5秒的人次，将后者除以前者，得到停留量。

所述购买转化率可以用于表示观看所述视频的用户中购买目标对象的比例。示例性地，可以统计观看所述视频的人次，以及购买目标对象的人次，将后者除以前者，得到购买转化率。

除了上述指标以外，还可以设计其它指标，只要能够反映视频标题的效果即可。筛选出的指标可以与对应的阈值进行比较。

在一示例中，可以分别设置点击率阈值、观看率阈值、停留量阈值、购买转化率阈值等，从发布的视频中，筛选出各个指标均大于对应的阈值的视频，作为满足预设要求的视频，进一步进行模型优化。

另一示例中，可以按指标由大到小的顺序对视频进行排序，并在排序后的视频中选择前N个视频作为满足要求的视频，N为预设数量，可以根据实际需要设置。在指标有多个的情况下，对于每一视频，可以将该视频对应的多个指标进行加权求和，得到综合评分，并根据各个视频的综合评分进行排序，再从中选出前N个视频。

通过点击率、观看率、停留量、购买转化率等相关指标，可以从发布的视频中，快速、准确地选择标题效果较好的视频，提升根据回流数据优化模型性能的效率和准确性。

在上述各实施例提供的技术方案的基础上，可选的，还可以执行下述至少一项：将所述视频添加标题后，发布到所述目标对象对应的展示页面；将所述视频添加标题后，发布到视频发布平台，所述视频发布平台中对应所述视频设置有目标对象的链接；将已选定标题的多个视频进行拼接，得到拼接视频，以在播放所述拼接视频时，在每个视频前展示对应的标题；将已选定标题的视频进行剪切，得到多个视频片段，根据所述视频的标题以及各视频片段的顺序，为各视频片段生成片段标题。

可选的，可以将所述视频添加标题后，发布到所述目标对象对应的展示页面。图7为本申请实施例提供的一种标题与目标对象进行关联展示的示意图。如图7所示，以目标商品为例，在目标商品的展示页面，即商品详情页面，可以设置有视频播放页面，用于播放所述目标商品对应的视频，同时，还可以显示视频对应的标题。

可选的，可以将所述视频添加标题后，发布到视频发布平台，所述视频发布平台中对应所述视频设置有目标对象的链接。图8为本申请实施例提供的另一种标题与目标对象进行关联展示的示意图。如图8所示，在视频发布平台的浏览页面上，可以展示一个或多个视频的缩略图，缩略图的下方或者其它合适位置，可以显示有视频对应的标题，用户点击视频或者标题后，可以跳转到视频播放页面，视频播放页面的下方或者合适位置可以显示目标商品的链接，通过点击目标商品的链接，可以跳转到商品详情页面。

另一示例中，用户也可以直接通过上划、下拉的方式来切换不同视频的播放页面，播放页面中，标题的位置和目标商品的链接的位置可以根据实际需要来设计。

又一示例中，也可以设计点击视频或者点击标题后，直接跳转到商品详情页面。

再一示例中，可以在商品详情页面中，展示视频标题，点击视频的标题后，跳转到视频播放页面。

通过上述方案，可以实现目标对象和视频标题的关联展示，使得视频标题可以对目标对象起到补充解释的作用，从而使目标对象通过更加丰富的视频、文字进行展示，且标题是基于目标对象对应的视频、原始信息和相关信息，通过标题生成模型生成的，能够准确有效地反映目标对象的特点，提升视频标题与目标对象的匹配度，提高为目标对象配文字说明的效率和准确性。

可选的，可以将已选定标题的多个视频进行拼接，得到拼接视频，以在播放所述拼接视频时，在每个视频前展示对应的标题。

示例性地，所述多个视频可以为多个短视频，在将每段目标对象对应的短视频添加标题后，可以将多个短视频拼接为长视频。在播放所述长视频时，可以在每段短视频播放前，先显示对应的短视频标题。

通过拼接以及依次展示多个视频和标题，可以实现多个视频的融合，并且，在每段视频的开头先显示对应的标题，实现多个视频的平滑过渡，提升拼接后视频的播放效果，提升用户观看体验。

可选的，可以将已选定标题的视频进行剪切，得到多个视频片段，根据所述视频的标题以及各视频片段的顺序，为各视频片段生成片段标题。

示例性地，可以将一个长视频分割成多个短视频，根据长视频的标题以及各短视频的顺序，为各短视频生成标题，例如，将一个剧集拆分为4个短视频，4个短视频的标题可以分别为剧集的标记加“开端”、“过渡”、“转折”、“尾声”等。

通过将视频进行分割并利用视频的标题为各个视频片段分别配以对应的标题，能够快速实现为属于同一视频的各个视频片段生成标题，且生成的标题与视频相匹配、与视频片段在视频中的位置也相匹配，提高了为视频片段生成标题的效率和准确性。

基于上述方案，本申请实施例设计了一套完整的视频标题推荐和数据回流方案。通过调用标题生成模型自动生成语句通顺并且有吸引力的多个标题，由用户选择一个最喜欢的标题，直接使用或者进行个别文字的调整，能够引导用户更加高效地编辑视频标题。同时，制定了收集回流数据方案，可以实现利用用户反馈迭代优化模型，提升模型的性能。

图9为本申请实施例提供的又一种标题生成方法的流程示意图。本实施例是应用于电商场景的一种具体实现方式。如图9所示，所述方法包括：

步骤901、获取目标商品的原始信息以及为所述目标商品拍摄的视频，并从所述视频中提取所述目标商品的相关信息。

在本实施例中，目标对象可以为目标商品，目标对象对应的视频可以是为所述目标商品拍摄的视频。

可选的，获取目标商品的原始信息以及为所述目标商品拍摄的视频，并从所述视频中提取所述目标商品的相关信息，可以包括：从所述目标商品对应的商品详情页面中，确定下述至少一项原始信息：所述目标商品对应的原始标题、描述信息和商品主图；获取为所述目标商品拍摄的视频，并执行下述至少一项：检测所述视频中的文本信息及音乐信息；在所述视频中检测所述目标商品出现的场景信息、所述目标商品的属性信息；在所述视频中检测对所述目标商品的语音介绍信息，并将所述语音介绍信息转换为文本信息。

步骤902、根据所述原始信息、所述相关信息以及所述视频，基于标题生成模型，生成所述视频对应的标题，所述标题用于与所述目标商品进行关联展示。

本实施例中，生成对应标题的具体实现方法可以参见前述实施例，在得到标题后，所述标题可以与目标商品进行关联展示。

其中，关联展示可以是指，标题和目标对象的信息在同一页面共同展示，或者，可以在其中一者的展示界面通过链接跳转到另一者的展示界面。

示例性地，可以在目标对象的展示页面上展示带有标题的视频，或者，通过点击视频的标题进入视频播放页面，视频播放页面展示有目标对象的信息。

本申请实施例对关联展示的具体实现方式不作限制，只要能够使观看视频的用户了解到视频标题对应的目标商品是什么即可。

在实施例中，获取原始信息、视频、相关信息的实现方式，生成标题的实现方式，生成标题后的处理方式等，均可以参见前述实施例，此处不再赘述。

综上，本实施例提供的标题生成方法，可以获取目标商品的原始信息以及为所述目标商品拍摄的视频，并从所述视频中提取所述目标商品的相关信息，根据所述原始信息、所述相关信息以及所述视频，基于标题生成模型，生成所述视频对应的标题，所述标题用于与所述目标商品进行关联展示，从而可以基于模型自动生成目标商品的视频标题，无需人工花费大量时间精力去编辑标题，提高了标题生成的效率，并且，通过目标商品的原始信息、视频以及从视频中提取出的相关信息，能够融合目标商品的多种信息，提高标题与目标商品的匹配度，提升标题生成的准确性以及用户体验。

本申请实施例还提供一种标题生成方法，可以应用于音视频会议场景，所述标题生成方法，可以包括：获取参与音视频会议的参会人员的原始信息以及所述参会人员对应的视频，并从所述视频中提取所述参会人员的相关信息；根据所述原始信息、所述相关信息以及所述视频，基于标题生成模型，生成所述视频对应的标题；将添加有标题的视频发送给参与音视频会议的其他参会人员。

示例性地，所述目标对象可以为会议中的参会人员，所述原始信息可以包括参会人员的画像、标签、职务、工作经历、照片等。所述视频可以是音视频会议过程中采集到的所述参会人员的视频影像。从所述视频中可以提取出参会人员的发言内容、表情特征等相关信息。

根据所述原始信息、所述相关信息和视频，可以基于标题生成模型为所述视频配以对应的标题。视频添加标题后，可以将所述视频发送给参与会议的其他人员，以实现不同人员的音视频沟通交流。

通过上述方案，提高了为视频会议中的视频片段添加标题的效率，并且，基于参会人员的原始信息、视频以及从视频中提取出的相关信息，能够提高标题与参会人员的视频的匹配度，提升标题生成的准确性以及用户体验。

本申请实施例还提供一种标题生成方法，可以应用于文娱场景，所述标题生成方法，可以包括：获取演出角色的原始信息以及所述演出角色对应的视频，并从所述视频中提取所述演出角色的相关信息；根据所述原始信息、所述相关信息以及所述视频，基于标题生成模型，生成所述视频对应的标题。

示例性地，所述目标对象可以为演出角色，所述原始信息可以包括：演出角色的介绍、海报中的人像等，所述视频可以为包含所述演出角色的视频，例如影视剧集等。从所述视频中可以提取出演出角色的语音信息、主图、出现场景等相关信息，并根据原始信息、视频和相关信息，基于标题生成模型，确定对应的标题。添加有标题的视频可以用于播放给观众。

通过上述方案，能够有效提高为影视剧集添加标题的效率，并且，通过影视剧集中的演出角色的原始信息、相关信息和视频，共同确定对应的标题，能够提高标题与影视剧集及演出角色的匹配程度，有效提高生成标题的准确性，提升观看体验。

本申请实施例提供的各个方法，既可以应用于服务器，也可以应用于终端设备，或者，也可以部分步骤部署在服务器上，部分步骤部署在终端设备上。

对应于上述方法，本申请实施例还提供一种标题生成装置，所述标题生成装置包括：

第一获取模块，用于获取目标对象的原始信息以及所述目标对象对应的视频，并从所述视频中提取所述目标对象的相关信息；

第一生成模块，用于根据所述原始信息、所述相关信息以及所述视频，基于标题生成模型，生成所述视频对应的标题。

可选的，所述第一获取模块具体用于：

获取所述目标对象对应的视频，并执行下述至少一项：

检测所述视频中的文本信息及音乐信息；

可选的，所述第一生成模块具体用于：

可选的，所述标题生成模型包括编码器和解码器；所述第一生成模块具体用于：

根据提取到的特征信息，通过解码器生成对应的标题。

可选的，所述第一生成模块在根据提取到的特征信息，通过解码器生成对应的标题时，具体用于：

可选的，所述编码器基于交叉注意力计算进行特征信息的提取；生成的标题数量为多个；所述第一生成模块还用于：

根据生成的多个标题对应的置信度，展示所述多个标题；

可选的，所述第一获取模块还用于：

获取满足预设要求的视频以及对应的原始信息、标题；

可选的，所述第一获取模块在获取满足预设要求的视频以及对应的原始信息、标题时，具体用于：

可选的，所述第一获取模块在发布的视频中，选取指标满足预设要求的视频时，具体用于：

可选的，所述第一生成模块还用于执行下述至少一项：

本申请实施例还提供一种标题生成装置，包括：

第二获取模块，用于获取目标商品的原始信息以及为所述目标商品拍摄的视频，并从所述视频中提取所述目标商品的相关信息；

第二生成模块，用于根据所述原始信息、所述相关信息以及所述视频，基于标题生成模型，生成所述视频对应的标题，所述标题用于与所述目标商品进行关联展示。

可选的，所述第二获取模块具体用于：

获取为所述目标商品拍摄的视频，并执行下述至少一项：

检测所述视频中的文本信息及音乐信息；

本申请实施例提供的各装置的具体实现原理和技术效果可以参见前述实施例，此处不再赘述。

图10为本申请实施例提供的一种电子设备的结构示意图。如图10所示，本实施例的电子设备可以包括：

至少一个处理器1001；以及与所述至少一个处理器1001通信连接的存储器1002；

其中，所述存储器1002存储有可被所述至少一个处理器1001执行的指令，所述指令被所述至少一个处理器1001执行，以使所述电子设备执行如上述任一实施例所述的方法。

可选地，存储器1002既可以是独立的，也可以跟处理器1001集成在一起。

本实施例提供的电子设备的实现原理和技术效果可以参见前述各实施例，此处不再赘述。

本申请实施例还提供一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机执行指令，当处理器执行所述计算机执行指令时，实现前述任一实施例所述的方法。

本申请实施例还提供一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现前述任一实施例所述的方法。

在本申请所提供的几个实施例中，应该理解到，所揭露的设备和方法，可以通过其它的方式实现。例如，以上所描述的设备实施例仅仅是示意性的，例如，所述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个模块可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。

上述以软件功能模块的形式实现的集成的模块，可以存储在一个计算机可读取存储介质中。上述软件功能模块存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器执行本申请各个实施例所述方法的部分步骤。

应理解，上述处理器可以是中央处理单元(Central Processing Unit，简称CPU)，还可以是其它通用处理器、数字信号处理器(Digital Signal Processor，简称DSP)、专用集成电路(Application Specific Integrated Circuit，简称ASIC)等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合申请所公开的方法的步骤可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。存储器可能包含高速RAM存储器，也可能还包括非易失性存储NVM，例如至少一个磁盘存储器，还可以为U盘、移动硬盘、只读存储器、磁盘或光盘等。

上述存储介质可以是由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。存储介质可以是通用或专用计算机能够存取的任何可用介质。

一种示例性的存储介质耦合至处理器，从而使处理器能够从该存储介质读取信息，且可向该存储介质写入信息。当然，存储介质也可以是处理器的组成部分。处理器和存储介质可以位于专用集成电路(Application Specific Integrated Circuits，简称ASIC)中。当然，处理器和存储介质也可以作为分立组件存在于电子设备或主控设备中。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本申请各个实施例所述的方法。

以上仅为本申请的优选实施例，并非因此限制本申请的专利范围，凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本申请的专利保护范围内。

Claims

1.一种标题生成方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，获取目标对象的原始信息以及所述目标对象对应的视频，并从所述视频中提取所述目标对象的相关信息，包括：

获取所述目标对象对应的视频，并执行下述至少一项：

检测所述视频中的文本信息及音乐信息；

3.根据权利要求1所述的方法，其特征在于，根据所述原始信息、所述相关信息以及所述视频，基于标题生成模型，生成所述视频对应的标题，包括：

4.根据权利要求1所述的方法，其特征在于，所述标题生成模型包括编码器和解码器；根据所述原始信息、所述相关信息以及所述视频，基于标题生成模型，生成所述视频对应的标题，包括：

根据提取到的特征信息，通过解码器生成对应的标题。

5.根据权利要求4所述的方法，其特征在于，根据提取到的特征信息，通过解码器生成对应的标题，包括：

6.根据权利要求4所述的方法，其特征在于，所述编码器基于交叉注意力计算进行特征信息的提取；生成的标题数量为多个；所述方法还包括：

根据生成的多个标题对应的置信度，展示所述多个标题；

7.根据权利要求1-6任一项所述的方法，其特征在于，还包括：

获取满足预设要求的视频以及对应的原始信息、标题；

8.根据权利要求7所述的方法，其特征在于，获取满足预设要求的视频以及对应的原始信息、标题，包括：

9.根据权利要求8所述的方法，其特征在于，在发布的视频中，选取指标满足预设要求的视频，包括：

10.根据权利要求1-6任一项所述的方法，其特征在于，还包括下述至少一项：

11.一种标题生成方法，其特征在于，包括：

12.根据权利要求11所述的方法，其特征在于，获取目标商品的原始信息以及为所述目标商品拍摄的视频，并从所述视频中提取所述目标商品的相关信息，包括：

获取为所述目标商品拍摄的视频，并执行下述至少一项：

检测所述视频中的文本信息及音乐信息；

13.一种电子设备，其特征在于，包括：

其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述电子设备执行权利要求1-12任一项所述的方法。

14.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机执行指令，当处理器执行所述计算机执行指令时，实现如权利要求1-12任一项所述的方法。