CN113392687A

CN113392687A - 视频标题生成方法、装置、计算机设备及存储介质

Info

Publication number: CN113392687A
Application number: CN202011359737.4A
Authority: CN
Inventors: 陈小帅
Original assignee: Tencent Technology Beijing Co Ltd
Current assignee: Tencent Technology Beijing Co Ltd
Priority date: 2020-11-27
Filing date: 2020-11-27
Publication date: 2021-09-14

Abstract

本申请提供了一种视频标题生成方法、装置、计算机设备及存储介质，属于计算机技术领域。该方法包括：获取视频的内容标签；响应于内容标签指示视频属于教程视频，对视频的原始标题进行识别，得到原始标题的风格标签；响应于风格标签指示原始标题不符合表述风格，基于原始标题和视频，生成符合表述风格的目标标题。本申请以人工智能的自然语言处理技术为基础，充分利用了原始标题和教程视频的视频内容，自动高效地为教程视频生成教程标题，能够更加准确地体现出教程视频所教授的核心内容，便于用户从标题中直观地发现教程兴趣点，增强了教程视频对用户的吸引力，提高了教程视频的播放率，从而提高了教程视频的传播效率。

Description

视频标题生成方法、装置、计算机设备及存储介质

技术领域

本申请涉及计算机技术领域，特别涉及一种视频标题生成方法、装置、计算机设备及存储介质。

背景技术

视频是用户分享和获取信息的一种重要形式。用户可以录制一些教程视频，以进行技能分享，并将其上传到视频分享平台，以便于其他用户了解和掌握技能。例如，教程视频包括美食制作视频、手机保养视频等。

视频标题对于吸引用户点击和观看视频起着非常重要的引导作用。目前，视频标题一般由用户自定义，录制视频的用户可以在上传视频之前，编辑一个视频标题，将视频和视频标题同时上传到视频分享平台。

对于教程视频来说，用户自定义的视频标题大多都不能准确地体现出视频的教程关键信息，教程视频难以通过视频标题被发现，播放率较低，传播效率低下，因此，亟需一种自动生成视频标题的方法，以提高教程视频的播放率，提高传播效率。

发明内容

本申请实施例提供了一种视频标题生成方法、装置、计算机设备及存储介质，能够提高教程视频的播放率，提高传播效率。所述技术方案如下。

一方面，提供了一种视频标题生成方法，所述方法包括：

获取视频的内容标签，所述内容标签用于指示所述视频是否属于教程视频；

响应于所述内容标签指示所述视频属于教程视频，对所述视频的原始标题进行识别，得到所述原始标题的风格标签，所述风格标签用于指示所述原始标题是否符合教程标题的表述风格；

响应于所述风格标签指示所述原始标题不符合所述表述风格，基于所述原始标题和所述视频，生成符合所述表述风格的目标标题。

一方面，提供了一种视频标题生成装置，所述装置包括：

教程视频识别模块，用于获取视频的内容标签，所述内容标签用于指示所述视频是否属于教程视频；

标题风格识别模块，用于响应于所述内容标签指示所述视频属于教程视频，对所述视频的原始标题进行识别，得到所述原始标题的风格标签，所述风格标签用于指示所述原始标题是否符合教程标题的表述风格；

标题生成模块，用于响应于所述风格标签指示所述原始标题不符合所述表述风格，基于所述原始标题和所述视频，生成符合所述表述风格的目标标题。

在一种可选的实现方式中，所述教程视频识别模块，包括：

视频特征提取单元，用于对所述视频进行特征提取，得到所述视频在多个维度上的特征向量；

教程视频识别单元，用于基于所述视频在多个维度上的特征向量，确定所述视频的内容标签。

在另一种可选的实现方式中，所述视频特征提取单元，包括：

内容获取子单元，用于获取所述视频的多个图像帧和多个音频帧；

图像特征提取子单元，用于基于所述多个图像帧，确定所述视频的图像维度的特征向量；

音频特征提取子单元，用于基于所述多个音频帧，确定所述视频的音频维度的特征向量；

文本特征提取子单元，用于基于所述视频对应的文本信息，确定所述视频的文本维度的特征向量。

在另一种可选的实现方式中，所述图像特征提取子单元，用于：

分别对所述多个图像帧进行特征提取，得到所述多个图像帧的多个特征向量；

将所述多个图像帧的多个特征向量进行聚合，得到所述视频的图像维度的特征向量。

在另一种可选的实现方式中，所述装置还包括：

文字识别模块，用于对所述多个图像帧进行文字识别，得到字幕文本；

语音识别模块，用于对所述多个音频帧进行语音识别，得到对白文本；

文本信息确定模块，用于将所述原始标题、所述字幕文本和所述对白文本确定为所述文本信息。

在另一种可选的实现方式中，所述教程视频识别单元，用于：

将所述视频在多个维度上的特征向量进行融合，得到所述视频的多模态向量；

基于所述多模态向量，确定所述视频的内容标签。

在另一种可选的实现方式中，所述标题生成模块，包括：

教程主体词确定单元，用于响应于所述风格标签指示所述原始标题不符合所述表述风格，确定所述视频对应的教程主体词；

标题生成单元，用于基于所述教程主体词、所述视频的视频类型和所述视频的多模态向量中的至少一个以及所述原始标题，生成所述目标标题；

其中，所述教程主体词用于表示所述视频的教程主题，所述多模态向量是对所述视频在多个维度上的特征向量进行融合得到的。

在另一种可选的实现方式中，所述教程主体词确定单元，用于：

响应于所述风格标签指示所述原始标题不符合所述表述风格，从所述原始标题中确定教程主体词；

响应于所述原始标题中不存在所述教程主体词，从所述视频的字幕文本和所述视频的对白文本中确定所述教程主体词。

在另一种可选的实现方式中，所述标题生成单元，包括：

分词划分子单元，用于将所述教程主体词和所述原始标题划分为多个分词；

标题词确定子单元，用于将所述视频类型、所述多模态向量和所述多个分词输入到标题生成模型中，通过所述标题生成模型确定多个标题词，所述标题生成模型用于生成符合所述表述风格的标题；

标题生成子单元，用于由所述多个标题词组成所述目标标题。

在另一种可选的实现方式中，所述标题词确定子单元，用于：

将所述视频类型、所述多模态向量和所述多个分词输入到标题生成模型中，获取所述多个分词的注意力权重；

响应于所述多个分词中的第一分词的注意力权重大于注意力阈值，将所述第一分词确定为所述标题词；

响应于所述多个分词的注意力权重均小于或等于所述注意力阈值，将所述标题生成模型输出的词确定为所述标题词。

在另一种可选的实现方式中，所述装置还包括：

视频类型确定模块，用于基于所述视频在多个维度上的特征向量，确定所述视频的视频类型。

在另一种可选的实现方式中，所述标题风格识别模块，用于：

响应于所述内容标签指示所述视频属于教程视频，将所述原始标题输入到风格识别模型中，得到所述风格识别模型输出的所述风格标签；

其中，所述风格识别模型是以第一类标题为正样本，以第二类标题和第三类标题中的至少一类为负样本进行训练得到的；所述第一类标题符合所述表述风格，且对应的视频属于教程视频；所述第二类标题是不属于教程视频的视频的原始标题；所述第三类标题不符合所述表述风格，且对应的视频属于教程视频。

一方面，提供了一种计算机设备，所述计算机设备包括处理器和存储器，所述存储器中存储有计算机程序，所述计算机程序由所述处理器加载并执行，以实现上述任一可选的实现方式所述的视频标题生成方法。

一方面，提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机程序，所述计算机程序由处理器加载并执行，以实现上述任一可选的实现方式所述的视频标题生成方法。

一方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机程序代码，该计算机程序代码存储在计算机可读存储介质中，计算机设备的处理器从计算机可读存储介质读取该计算机程序代码，处理器执行该计算机程序代码，使得该计算机设备执行上述任一可选的实现方式所述的视频标题生成方法。

本申请提供了一种为教程视频生成标题的方案，该方案对教程视频的原始标题进行识别，在原始标题不符合教程标题的表述风格的情况下，基于原始标题以及教程视频的视频内容，自动高效地生成符合上述表述风格的标题。由于标题的生成充分利用了原始标题和教程视频的视频内容，能够更加准确地体现出教程视频所教授的核心内容，便于用户从标题中直观地发现教程兴趣点，增强了教程视频对用户的吸引力，提高了教程视频的播放率，从而提高了教程视频的传播效率。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种实施环境的示意图；

图2是本申请实施例提供的一种视频标题生成方法的流程图；

图3是本申请实施例提供的一种视频标题生成方法的流程图；

图4是本申请实施例提供的一种识别教程视频的示意图；

图5是本申请实施例提供的一种识别标题风格的示意图；

图6是本申请实施例提供的一种在原始标题中不存在教程主体词的情况下生成标题的示意图；

图7是本申请实施例提供的一种在原始标题中存在教程主体词的情况下生成标题的示意图；

图8是本申请实施例提供的一种模型训练和应用的示意图；

图9是本申请实施例提供的一种视频标题生成装置的框图；

图10是本申请实施例提供的一种终端的框图；

图11是本申请实施例提供的一种服务器的框图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

本申请的说明书和权利要求书及附图中的术语“第一”、“第二”、“第三”和“第四”等是用于区别不同对象，而不是用于描述特定顺序。此外，术语“包括”和“具有”以及它们的任意变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其他步骤或单元。

人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

计算机视觉(Computer Vision,CV)是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、光学字符识别(Optical Character Recognition,OCR)、视频处理、视频语义理解、视频内容/行为识别等技术。

语音技术(Speech Technology)的关键技术有自动语音识别技术(AutomaticSpeech Recognition,ASR)和语音合成技术(Text To Speech,TTS)以及声纹识别技术。让计算机能听、能看、能说、能感觉，是未来人机交互的发展方向，其中语音成为未来最被看好的人机交互方式之一。

自然语言处理(Nature Language Processing,NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此，这一领域的研究将涉及自然语言，即人们日常使用的语言，所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。

机器学习(Machine Learning,ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、示教学习等技术。

本申请实施例提供的方案涉及人工智能的计算机视觉、语音技术、自然语言处理、机器学习和深度学习等技术，具体通过如下实施例进行说明。

图1是本申请实施例提供的一种实施环境的示意图。参见图1，该实施环境包括终端110和服务器120。

终端110可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表、智能电视、智能车载等，但并不局限于此。可选地，终端110上设有客户端，该客户端具有显示视频标题以及播放视频的功能。例如，该客户端为视频类客户端、浏览器类客户端或者社交类客户端等。

服务器120可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(Content Delivery Network，内容分发网络)、以及大数据和人工智能平台等基础云计算服务的云服务器。

终端110通过与服务器120的连接，从服务器120获取视频标题，对视频标题进行显示，以吸引用户观看视频标题对应的视频。其中，终端110以及服务器120可以通过有线或无线通信方式进行直接或间接地连接，本申请在此不做限制。

图2是本申请实施例提供的一种视频标题生成方法的流程图。该视频标题生成方法可以由终端作为执行主体来执行；或者，该视频标题生成方法也可以由服务器作为执行主体来执行；或者，该视频标题生成方法也可以通过终端和服务器之间的交互来执行。在本申请实施例中，以服务器为执行主体为例进行简要说明，参见图2，该实施例包括以下步骤。

201、服务器获取视频的内容标签，内容标签用于指示视频是否属于教程视频。

其中，视频包括图像和音频，能够从视觉和听觉两个方面为用户提供直观的观看体验。需要说明的是，本申请对视频的时长不做限制，视频可以为时长小于或等于时长阈值的短视频，也可以为时长大于时长阈值的长视频。其中，时长阈值为大于0的时长数值，例如，时长阈值为11秒或者15秒等。

教程视频是一种具有教学引导功能的视频，用于引导用户理解知识或者指导用户掌握某项技能。例如，神经网络的网络结构分析过程、某一数学题目的解题方法、议论文的写作技巧、历史小知识的科普、猕猴桃剥皮方法、某一菜肴的制作方法、茶具使用方法或者家具组装方法等均可录制为教程视频。

可选地，内容标签为0或1。若视频的内容标签为0，则该视频不属于教程视频；若内容标签为1，则该视频属于教程视频。

202、服务器响应于内容标签指示该视频属于教程视频，对该视频的原始标题进行识别，得到该原始标题的风格标签，该风格标签用于指示该原始标题是否符合教程标题的表述风格。

若视频属于教程视频，则服务器继续识别该视频的原始标题是否为教程标题的表述风格。若该视频不属于教程视频，则服务器结束对该视频的处理过程，不再执行后续步骤，以减少无意义的处理过程，提高处理效率，并且，降低计算资源的消耗，提高资源利用率。

可选地，原始标题是上传视频的用户自定义的标题。教程标题能够直观的体现出视频具有教学引导功能以及视频所教授的核心内容是什么。例如，通过“带你掌握一项清理电脑垃圾的技能”这一教程标题，能够直观的理解到该教程标题对应的视频是清理电脑垃圾的教学视频。再如，通过“好吃又有颜值的水果沙拉，5分钟轻松学会！”这一教程标题，能够直观理解到该教程标题对应的视频是制作水果沙拉的教学视频。其中，多个教程标题所具有的共性即为教程标题的表述风格。

可选地，风格标签为0或1。若标题的风格标签为0，则该标题不符合教程标题的表述风格；若风格标签为1，则该标题符合教程标题的表述风格。

203、服务器响应于风格标签指示视频的原始标题不符合上述表述风格，基于原始标题和该视频，生成符合该表述风格的目标标题。

若视频的原始标题不符合上述表述风格，则服务器基于该原始标题以及该视频的视频内容，生成符合该表述风格的目标标题。

图3是本申请实施例提供的一种视频标题生成方法的流程图。该视频标题生成方法可以由终端作为执行主体来执行；或者，该视频标题生成方法也可以由服务器作为执行主体来执行；或者，该视频标题生成方法也可以通过终端和服务器之间的交互来执行。在本申请实施例中，以服务器为执行主体为例进行说明，参见图3，该实施例包括以下步骤。

301、服务器对视频进行特征提取，得到该视频在多个维度上的特征向量。

其中，视频包括图像和音频。可选地，视频还包括字幕文本，以便于观看者理解视频内容。在本申请实施例中，以视频包括图像、音频和字幕文本为例进行说明。

由于视频在图像、音频以及文本等多个维度上均具有特征表现，服务器模拟人类智能，从上述多个维度来解析视频，得到多个维度上的特征向量，对视频的表达更加丰富准确，从而以更加丰富准确的视频表达为基础，进行视频的识别和标题的生成，能够进一步提高标题生成的质量。

相应的，上述服务器对视频进行特征提取，得到该视频在多个维度上的特征向量的步骤包括以下步骤3011至步骤3015。

3011、服务器获取视频的多个图像帧和多个音频帧。

可选地，服务器获取该视频的部分图像帧，作为上述多个图像帧。例如，服务器以该视频的时间轴为基准，每隔第一时长，获取一个图像帧。其中，第一时长可灵活配置，如第一时长为1秒、3秒或者4秒等。再如，服务器将该视频的全部图像帧划分为多个获取单元，每个获取单元分别包括一部分图像帧，服务器分别从每个获取单元中获取一个图像帧。本申请对服务器从视频中获取部分图像帧的方式，不加以限定。或者，服务器也可以从视频中提取全部图像帧，作为上述多个图像帧。本申请对此不加以限定。

可选地，服务器通过以获取多个图像帧同理的方式，获取视频的部分音频帧或者全部音频帧，本申请对此不加以限定。

上述服务器通过获取部分图像帧或者部分音频帧的方式，减少了后续需要处理的图像帧或者音频帧的数量，从而能够提高处理效率，并且，减少计算资源的消耗，提高资源利用率。

3012、服务器基于多个图像帧，确定该视频的图像维度的特征向量。

在一种可选的实现方式中，服务器分别确定每个图像帧的特征向量，再将多个图像帧的特征向量聚合成一个特征向量，实现从帧级别的特征到视频级别的特征的降维。相应的，上述步骤3012包括：服务器分别对多个图像帧进行特征提取，得到多个图像帧的多个特征向量；将多个图像帧的多个特征向量进行聚合，得到视频的图像维度的特征向量。

其中，可选地，参见图4，服务器通过EfficientNet(效率网络)401，确定每个图像帧的特征向量；再将多个图像帧的特征向量输入到NeXtVLAD(一种用于聚合帧级特征的神经网络)402中，基于NeXtVLAD，对多帧进行时序融合，得到一个视频级别的图像表示向量，也即是该视频的图像维度的特征向量。需要说明的是，服务器也可以通过其他神经网络进行特征提取，得到视频在图像维度的特征向量，本申请对此不做限制。

上述技术方案，通过多个图像帧的特征向量的聚合，在保证特征表达准确性的基础上，在图像维度上得到更低维的向量表示，基于更低维的向量表示，进行后续处理，能够提高处理效率，并且，减少计算资源的消耗，提高资源利用率。

在另一种可选的实现方式中，服务器分别对多个图像帧进行特征提取，得到多个图像帧的多个特征向量之后，也可以拼接上述多个特征向量，得到该视频的图像维度的特征向量。

3013、服务器基于多个音频帧，确定视频的音频维度的特征向量。

可选地，服务器通过与确定图像维度的特征向量同理的步骤，确定音频维度的特征向量，也即是，服务器分别对多个音频帧进行特征提取，得到多个音频帧的多个特征向量；将多个音频帧的多个特征向量进行聚合，得到视频的音频维度的特征向量。

其中，可选地，继续参见图4，服务器通过VGGish(一种用于从音频中提取具有语义的特征向量的网络)403，确定每个音频帧的特征向量；再将多个音频帧的特征向量输入到NeXtVLAD(一种用于聚合帧级特征的神经网络)404中，基于NeXtVLAD，对多帧进行时序融合，得到一个视频级别的音频表示向量，也即是该视频的音频维度的特征向量。

需要说明的是，可选地，服务器分别对多个音频帧进行特征提取，得到多个音频帧的多个特征向量之后，也可以拼接上述多个特征向量，得到该视频的音频维度的特征向量。

3014、服务器获取该视频对应的文本信息。

可选地，文本信息包括字幕文本、对白文本以及视频的原始标题中的至少一个。在本申请中，以文本信息包括字幕文本、对白文本以及原始标题三者为例进行说明。在文本信息包括上述三者中一个或两个的实施例中，服务器对文本信息进行处理的过程与本申请对文本信息进行处理的过程同理，本申请不再一一赘述。

其中，对白文本是通过语音识别得到的文本。字幕文本在视频播放过程中以文字形式进行显示。字幕文本包括第一字幕文本和第二字幕文本中的至少一个。第一字幕文本是为了便于理解在视频录制完成后添加的文本，第二字幕文本是视频录制过程中拍摄到的文本。

相应的，服务器获取该视频对应的文本信息的步骤包括：服务器对多个图像帧进行文字识别，得到字幕文本；服务器对多个音频帧进行语音识别，得到对白文本；服务器将原始标题、字幕文本和对白文本确定为文本信息。可选地，服务器基于OCR技术，对图像帧进行文字识别，得到字幕文本；基于ASR技术对音频帧进行语音识别，得到对白文本。

需要说明的一点是，上述实施例以服务器将原始标题、字幕文本和对白文本确定为文本信息为例进行说明，可选地，为了实现更加精确简洁的文本表达，服务器通过提取关键词来保留原始标题、字幕文本以及对白文本中的关键信息。相应的，上述服务器将原始标题、字幕文本和对白文本确定为文本信息的步骤可以替换为以下步骤：服务器从原始标题、字幕文本和对白文本中提取关键词；将提取到的关键词确定为视频对应的文本信息。

上述技术方案，通过关键词的提取来得到文本信息，减少了无具体含义的文字，得到了更加精确简洁的文本表达，进而基于由关键词组成的文本信息，进行视频的识别以及标题的生成，能够减少无意义文字的干扰，进一步提高视频识别以及标题生成的准确性。

需要说明的另一点是，上述实施例以服务器对图像帧进行文字识别，得到字幕文本为例进行说明。在另一些实施例中，视频还包括字幕文件，该字幕文件用于存储第一字幕文本。可选地，服务器从该字幕文件中获取第一字幕文本；通过对图像帧进行文字识别，得到第二字幕文本，从而减少文字识别所消耗的计算资源，提高资源利用率，并且，提高字幕文本的获取效率。

3015、服务器基于视频对应的文本信息，确定该视频的文本维度的特征向量。

在一种可选的实现方式中，以视频对应的文本信息包括字幕文本、对白文本以及视频的原始标题为例，服务器将字幕文本、对白文本和原始标题进行拼接，得到拼接后的文本；对拼接后的文本进行特征提取，得到该视频的文本维度的特征向量。

在另一种可选的实现方式中，以视频对应的文本信息包括从字幕文本、对白文本以及原始标题中提取的关键词为例，服务器将提取到的关键词进行拼接，得到拼接后的文本；对拼接后的文本进行特征提取，得到该视频的文本维度的特征向量。

可选地，继续参见图4，服务器通过Concat(串连接)函数405，将原始标题、ASR关键词和OCR关键词拼接起来，得到拼接后的文本；将拼接后的文本输入到ALBERT(一种轻量级的语义理解模型)406中，通过ALBERT构建文本维度的深度表示，得到文本维度的特征向量。其中，ASR关键词也即是服务器从对白文本中提取到的关键词，OCR关键词也即是服务器从字幕文本中提取到的关键词。需要说明的是，服务器也可以通过其他语义理解模型，如BERT(一种用于语义理解的模型)，来确定文本维度的特征向量，本申请对此不做限制。

302、服务器基于视频在多个维度上的特征向量，确定该视频的内容标签和视频类型，内容标签用于指示视频是否属于教程视频。

其中，视频类型指的是视频内容的类型，例如，视频类型为运动健身、电视剧、生活、美食、考古、计算机/手机、萌宠、育儿或者汽车等。

在一种可选的实现方式中，继续参见图4，服务器将视频在多个维度上的特征向量进行融合，得到该视频的多模态向量；基于该多模态向量，确定该视频的内容标签和视频类型。

上述技术方案，将多个维度上的特征向量融合成多模态向量，使得多模态向量能够综合表示视频各个维度的信息，保证了向量表达的准确性，进而基于该多模态向量，能够提高视频识别的准确性。

上述服务器将视频在多个维度上的特征向量进行融合，得到该视频的多模态向量的步骤包括：服务器将视频在多个维度上的特征向量进行拼接，得到拼接后的特征向量；将拼接后的特征向量通过至少一个全连接层，得到多模态向量。其中，全连接层用于进行特征融合，以降低特征向量的维数，便于输出层基于维数降低后的特征向量进行最终的计算和输出，提高识别效率。服务器将拼接后的特征向量依次通过至少一个全连接层，每个全连接层使特征向量降低一定的维数，通过多层次的降维，能够减少信息的丢失，保证多模态向量对视频表达的准确性。

可选地，服务器基于多模态向量和识别网络，确定内容标签和视频类型。在一些实施例中，识别网络的输出为视频是否属于教程视频的概率分布以及该视频属于各个视频类型的概率分布，服务器基于该识别网络的输出，进一步确定内容标签和视频类型：服务器响应于该视频属于教程视频的概率大于第一阈值，确定该视频的内容标签为1，也即是确定该视频属于教程视频；服务器响应于该视频属于教程视频的概率小于或等于第一阈值，确定该视频的内容标签为0，也即是确定该视频不属于教程视频；服务器从该视频属于各个视频类型的概率分布中确定最大概率；将该最大概率对应的视频类型确定为该视频所属的视频类型。其中，第一阈值可灵活配置，例如，第一阈值为0.55或者0.6等。假设第一阈值为0.55，若模型输出该视频属于教程视频的概率为0.875，则确定该视频属于教程视频。在另一些实施例中，识别网络的输出为内容标签和视频类型，服务器直接获取识别网络输出的内容标签和视频类型即可。

需要说明的一点是，在上述步骤301至步骤302中，服务器通过对视频识别的一系列过程，来确定内容标签和视频类型。可选地，在另一些实施例中，服务器基于预先存储的视频和内容标签的对应关系以及视频和视频类型的对应关系，来确定视频的内容标签和视频类型。其中，可选地，上述对应关系是服务器预先通过步骤301至步骤302确定后存储的；或者，上述对应关系是基于人工标注存储的，本申请对此不做限制。

303、服务器响应于内容标签指示视频属于教程视频，对该视频的原始标题进行识别，得到该原始标题的风格标签，风格标签用于指示原始标题是否符合教程标题的表述风格。

可选地，服务器通过风格识别模型，确定原始标题是否符合教程标题的表述风格。在一些实施例中，风格识别模型的输入为标题，输出为该标题符合教程标题的表述风格的概率，服务器基于该风格识别模型的输出，进一步确定该标题的风格标签：服务器响应于风格识别模型输出的概率大于第二阈值，确定该标题的风格标签为1，也即是确定该标题符合教程标题的表述风格；服务器响应于风格识别模型输出的概率小于或等于第二阈值，确定该标题的风格标签为0，也即是确定该标题不符合教程标题的表述风格。其中，第二阈值可灵活配置，例如，第二阈值为0.55或者0.6等。在另一些实施例中，风格识别模型的输出为风格标签，服务器将原始标题输入到风格识别模型中，即可得到风格识别模型输出的风格标签。

可选地，参见图5，风格识别模型以ALBERT为基础，对输入的标题进行语义理解，进而判断该标题是否符合教程标题的表述风格。服务器对视频的原始标题进行识别，得到该原始标题的风格标签的过程也即是视频标题501通过ALBERT 502，得到标题是否符合教程标题的表述风格的结果503。

若服务器确定原始标题符合教程标题的表述风格，则不再执行生成符合上述表述风格的标题的步骤，从而减少生成标题所消耗的计算资源，提高资源利用率。若服务器确定原始标题不符合教程标题的表述风格，则继续执行以下步骤，生成符合上述表述风格的标题。

304、服务器响应于风格标签指示原始标题不符合表述风格，从原始标题中确定教程主体词。

其中，教程主体词用于表示视频的教程主题。例如，“带你掌握一项清理电脑垃圾的技能”这一标题中的教程主体词为“电脑垃圾”；“好吃又有颜值的水果沙拉，5分钟轻松学会！”这一标题中的教程主体词为“水果沙拉”。

可选地，服务器通过序列标注模型，从原始标题中确定教程主体词。该序列标注模型具有对输入文本中的每个分词标注属性标签的功能。可选地，属性标签为0或1，0表示分词不是教程主体词，1表示分词是教程主体词。服务器将原始标题输入到序列标注模型中，得到原始标题中的每个分词的属性标签；将属性标签为1的分词确定为教程主体词。

需要说明的是，教程主体词能够表示视频的教程主题，对生成符合上述表述风格的标题具有重要意义。若原始标题中存在教程主体词，例如，“好吃又有颜值的水果沙拉”这一原始标题中存在教程主体词“水果沙拉”，服务器参照该原始标题，能够生成与“水果沙拉”相关的标题，体现出视频的教程主题，实现教程标题的有效生成。若原始标题中不存在教程主体词，例如，“非常实用的小妙招”这一原始标题中不存在具有实质意义的教程主体词，仅参照该原始标题并不能实现教程标题的有效生成，因此，需要进一步结合视频内容，确定出教程主体词，再结合教程主体词，生成符合上述表述风格的标题。基于以上情况，综合考量标题生成的准确性、效率以及资源利用率等各个方面，在原始标题中不存在教程主体词的情况下，通过以下步骤305至步骤306，来生成标题；在原始标题中存在教程主体词的情况下，通过以下步骤307，来生成标题。

305、服务器响应于原始标题中不存在教程主体词，从视频的字幕文本和视频的对白文本中确定教程主体词。

可选地，服务器通过序列标注模型，从字幕文本和对白文本中确定教程主体词。服务器从字幕文本和对白文本中确定教程主体词的过程与服务器从原始标题中确定教程主体词的过程同理，在此不再赘述。可选地，字幕文本和对白文本是服务器通过上述步骤3014对图像帧进行文字识别以及对音频帧进行语音识别得到的结果。

306、服务器基于教程主体词、视频类型、多模态向量以及原始标题，生成符合教程标题的表述风格的目标标题。

可选地，服务器将教程主体词和原始标题划分为多个分词；将视频类型、多模态向量和多个分词输入到标题生成模型中，通过标题生成模型确定多个标题词；由多个标题词组成目标标题。其中，标题生成模型用于生成符合教程标题的表述风格的标题，该标题生成模型能够基于视频类型、综合表示视频各个维度的信息的多模态向量、视频对应的教程主体词和原始标题，生成与视频内容和视频类型匹配，且能够直观表现视频的教程主题的标题。视频类型是服务器在步骤302中同视频的内容标签一起确定的，多模态向量是服务器通过步骤302将视频在多个维度上的特征向量进行融合得到的结果。

上述技术方案，一方面，即使在原始标题不存在教程主体词的情况下，也能够结合从视频的其他文本中提取的教程主体词，生成能够表示教程主题的标题，提高标题生成的准确性；另一方面，通过结合视频的多模态向量，来生成目标标题，强化了对视频的多维度信息的利用，使得生成的标题与视频内容匹配度更高，进一步提高了标题生成的准确性；另一方面，还考虑不同视频的类型差异，结合视频类型来生成标题，使得所生成的标题更加符合该类型的教程视频的标题表达方式，从而进一步提高标题生成的准确性。并且，上述标题生成模型能够适用于原始标题无教程主体词的情况，提高了标题生成模型的普适性，也能够减少标题的无效生成，提高标题的可用性。

需要说明的是，标题生成模型每次基于视频类型、多模态向量和多个分词，确定一个标题词，从而依次通过多个标题词的确定步骤，得到多个标题词。服务器在确定每个标题词的过程中，还结合上一次已确定的标题词或者之前已确定的多个标题词，来确定本次的标题词，以保证多个连续的标题词的语义准确性。另外，标题生成模型对应有目标词汇表，标题生成模型的输出为目标词汇表中的每个词是本次确定的标题词的概率。

另外，服务器在确定每个标题词的过程中，会根据Attention(注意力)机制，确定上述多个分词中每个分词的注意力权重。其中，每个分词的注意力权重表示服务器本次确定标题词的过程中对该分词的注意力程度，也表示该分词对本次确定标题词的影响程度。在标题词的确定过程中，注意力权重越大的分词越能够表示教程视频的教程关键信息，如教程主题等，因此，可以将注意力权重较大的分词直接作为本次确定的标题词，不再基于分词的向量表示，从目标词汇表中确定标题词。由于上述分词是从视频的字幕文本和对白文本中确定的教程主体词，与视频的相关程度更高，从而将上述分词作为标题词，能够使生成的标题与教程视频的视频内容匹配度更高，从而进一步提高标题生成的准确性。

相应的，上述服务器通过标题生成模型确定每个标题词的步骤包括：服务器将视频类型、多模态向量和多个分词输入到标题生成模型中，获取多个分词的注意力权重；响应于多个分词中的第一分词的注意力权重大于注意力阈值，将第一分词确定为标题词；响应于多个分词的注意力权重均小于或等于注意力阈值，将标题生成模型输出的词确定为标题词。其中，上述第一分词是注意力权重最大的分词。其中，注意力权重可灵活配置，例如，注意力权重为0.8、0.85或者0.9等。

为了使标题生成过程更加清晰，下面结合图6进行说明。参见图6，上述标题生成模型是以Transformer(转换器)的Encoder-Decoder(编码器-解码器)结构为基础，在Encoder-Decoder结构中增加Attention机制实现的。其中，编码器601用于将文本转换为向量表示，解码器602用于将向量表示转换为特定任务的文本输出，在本申请中，特定任务是指符合上述表述风格的标题。服务器对视频进行识别，得到识别的教程主体词；将视频的原始标题以及识别的教程主体词进行分词处理，得到多个分词；将多个分词转换为向量表示，得到词1至词n；词1至词n通过编码器601进行编码处理，得到词1表示至词n表示；对于确定每个标题词的过程，服务器根据Attention机制，基于解码器602确定上一个标题词所基于的隐向量以及词1至词n表示，确定每个分词的注意力权重；若注意力权重最大的分词的注意力权重大于注意力阈值，则将该分词确定为本次确定的标题词，也即是从输入文本拷贝；若每个分词的注意力权重均小于或等于注意力阈值，解码器602基于所输入的多模态向量、视频类型的类型向量、所确定的上一个标题词、词1至词n表示基于注意力权重进行加权求和后得到的向量以及确定上一个标题词所基于的隐向量，来确定本次标题词确定所基于的隐向量；基于该隐向量、词1至词n表示基于注意力权重进行加权求和后得到的向量以及所确定的上一个标题词，得到本次确定的标题词。

需要说明的是，上述词1至词n分别是对每个分词单独的向量表示。词1表示至词n表示分别是每个分词具有语义联系的向量表示，词n表示基于词n表示的前n-1个词向量表示以及词n生成。其中，n和m均为正整数，n和m的具体取值可以相同，也可以不同。另外，由于确定第一个标题词的过程中，不存在上一个确定的标题词，以起始符“<S>”替代上一个确定的标题词作为解码器602的输入。

需要说明的一点是，上述实施例通过设置注意力阈值，来确定是否将分词直接拷贝为标题词。可选地，在一些实施例中，服务器也可以将注意力向量通过神经网络，得到每个分词的拷贝概率，将拷贝概率大于拷贝阈值的分词确定为标题词，本申请对确定是否将分词直接拷贝为标题词的具体方式，不加以限定。其中，拷贝阈值可灵活配置，例如，拷贝阈值为0.7或者0.8等

需要说明的另一点是，上述实施例的方案是为了确定出准确性更高的标题而采用的方案。当然，服务器也可以不采用将分词直接拷贝为标题词的方式，可以直接将标题生成模型输出的词确定为标题词；另外，服务器也可以不采用注意力机制，来确定标题词，本申请对此不做限制。

需要说明的另一点是，上述实施例以服务器基于教程主体词、视频类型、多模态向量以及原始标题四个方面，来生成标题，以确定出准确性更高的标题。在另一些实施例中，服务器也可以基于教程主体词、视频类型、多模态向量以及原始标题中的一个或者任意多个，来生成标题，本申请对此不做限制。其中，服务器基于教程主体词、视频类型、多模态向量以及原始标题中的一个或者任意多个，生成标题的过程与步骤306中生成标题的过程同理，在此不再一一列举。

307、服务器响应于原始标题中存在教程主体词，基于视频的视频类型以及原始标题，生成符合教程标题的表述风格的目标标题。

步骤307与步骤306同理，为了使标题生成的过程更加清晰，下面结合图7进行说明。参见图7，将视频的原始标题进行分词处理，得到多个分词；将多个分词转换为向量表示，得到词1至词n；词1至词n通过编码器701进行编码处理，得到词1表示至词n表示；对于确定每个标题词的过程，服务器根据Attention机制，基于解码器702确定上一个标题词所基于的隐向量以及词1至词n表示，确定每个分词的注意力权重；若注意力权重最大的分词的注意力权重大于注意力阈值，则将该分词确定为本次确定的标题词，也即是从输入文本拷贝；若每个分词的注意力权重均小于或等于注意力阈值，解码器702基于所输入的视频类型的类型向量、所确定的上一个标题词、词1至词n表示基于注意力权重进行加权求和后得到的向量以及确定上一个标题词所基于的隐向量，来确定本次标题词确定所基于的隐向量；基于该隐向量、词1至词n表示基于注意力权重进行加权求和后得到的向量以及所确定的上一个标题词，得到本次确定的标题词。

上述技术方案，由于原始标题中已存在能够表示教程主题的教程主体词，结合该原始标题也能够生成准确性更高的教程标题，因此，无需再结合视频内容来生成标题，从而能够减少标题生成所消耗的计算资源，提高资源利用率，并且，在原始标题中存在教程主体词时，提高标题的生成效率。

本申请提供了一种为教程视频生成标题的方案，该方案对教程视频的原始标题进行识别，在原始标题不符合教程标题的表述风格的情况下，基于原始标题以及教程视频的视频内容，自动高效地生成符合上述表述风格的标题。由于标题的生成充分利用了原始标题和教程视频的视频内容，能够更加准确地体现出教程视频所教授的核心内容，便于用户从标题中直观地发现教程兴趣点，降低了用户发现教程兴趣点的代价，增强了教程视频对用户的吸引力，提高了教程视频的播放率，从而提高了教程视频的传播效率。并且，相较于人工撰写教程标题，标题生成效率较高，能够满足大量新增教程视频的标题撰写需求。另外，本申请针对教程视频的教程标题生成过程进行了个性化的优化，通过对教程视频的有效识别，来生成教程标题，相较于自动生成标题的通用方式，能够减少标题的无效生成，降低生成无效标题的概率，降低计算资源的浪费，提高资源利用率。

需要说明的一点是，在原始标题中存在教程主体词的情况下，服务器也可以基于教程主体词、视频类型、多模态向量以及原始标题中的一个或者任意多个，来生成标题，本申请对此不做限制。

需要说明的另一点是，服务器为教程视频生成教程标题后，存储该教程视频与教程标题的对应关系。在一些实施例中，服务器响应于终端的获取请求，将教程视频以及教程标题返回给终端，以使终端显示教程视频和教程标题。可选地，终端显示教程视频的封面，终端可将教程标题显示于视频封面的下方，或者将教程标题显示于视频封面上，本申请对此不做限制。在另一些实施例中，服务器将教程视频对应的教程标题提供给推荐服务，从而推荐服务能够基于教程标题，快速有效地进行教程视频的精准推荐，提升教程视频的曝光量，进一步提高教程视频的播放率，提高教程视频的传播效率。在另一些实施例中，服务器将教程视频对应的教程标题提供给搜索服务，从而搜索服务能够基于搜索关键字，对教程标题进行查询，快速有效地确定与搜索关键字匹配的教程视频，将教程视频展示给用户，从而提升教程视频的曝光量，进一步提高教程视频的播放率，提高教程视频的传播效率。

需要说明的另一点是，在一些实施例中，服务器为教程视频生成教程标题后，还可以根据用户兴趣，灵活地向用户展示视频的原始标题或教程标题。其中，可选地，服务器可以向用户展示一部分教程视频的教程标题，以及另一部分教程视频的原始标题，获取用户对上述两部分教程视频的点击率，基于点击率确定用户兴趣为教程标题或者原始标题。当然，服务器也可以结合用户对上述两部分教程视频的点击率、观看时长、收藏率、点赞率、转发率等指标来确定用户兴趣，本申请对此不做限制。在另一些实施例中，服务器可以从目标词汇表中获取概率排序靠前的多个标题词，来生成多个教程标题；根据用户兴趣，从多个教程标题中动态获取其中一个教程标题向用户展示。服务器确定用户对不同的教程标题的兴趣的过程与服务器确定用户对原始标题和教程标题的兴趣的过程同理，在此不再赘述。

需要说明的另一点是，上述实施例以服务器为执行主体为例进行说明。在一些实施例中，该视频标题生成方法的执行主体也可以为终端，如台式计算机、笔记本电脑、平板电脑、智能手机等。终端上可以设有视频播放客户端、视频处理客户端或者视频标题生成客户端等。终端可以通过客户端为教程视频生成教程标题。终端为教程视频生成教程标题的过程与服务器为教程视频生成教程标题的过程同理，在此不再赘述。

需要说明的另一点是，服务器执行上述步骤301至步骤307之前，还进行相关模型的训练，以基于训练得到的模型进行标题的生成。例如，参见图8，服务器基于标注好教程标题的视频库801，生成教程视频判别模型802、风格识别模型803以及标题生成模型804。其中，教程视频判别模型用于识别视频是否属于教程视频；风格识别模型用于判断原始标题是否符合教程标题的表述风格；标题生成模型用于生成符合上述表述风格的标题。符合上述表述风格的标题生成之后，即可进行标题的使用。其中，视频库801中视频的存储格式如表1所示。

表1

视频	是否属于教程视频	视频类型	原始标题	标注的教程标题
					视频1	是	运动健身	原始标题1	教程标题1
视频2	否	电视剧	原始标题2
					视频3	是	生活	原始标题3	教程标题3
视频4	是	美食	原始标题4	教程标题4
					视频5	否	考古	原始标题5
视频6	是	计算机/手机	原始标题6	教程标题6

其中，服务器应用教程视频判别模型802确定视频是否属于教程视频以及确定视频类型的过程也即是步骤301至步骤302。教程视频判别模型802的结构如图4所示，服务器基于视频库801中的视频，在确定视频是否属于教程视频以及确定视频类型两个任务上同时进行目标学习，训练得到教程视频判别模型802。

服务器应用风格识别模型803确定原始标题是否符合教程标题的表述风格的过程也即是步骤303。其中，风格识别模型是以第一类标题为正样本，以第二类标题和第三类标题中的至少一类为负样本进行训练得到的；第一类标题符合表述风格，且对应的视频属于教程视频；第二类标题是不属于教程视频的视频的原始标题；第三类标题不符合表述风格，且对应的视频属于教程视频。也就是说，正样本(是教程标题)为“是否是教程类视频＝＝是”的标注的教程标题。负样本为“是否是教程类视频＝＝否”的原始标题，或者“是否是教程类视频＝＝是”且“原始标题！＝标注的教程标题”的原始标题。

服务器应用标题生成模型804生成标题的过程也即是步骤305至步骤306或者步骤307。标题生成模型804的结构如图6或图7所示，服务器基于标题生成模型804的网络结构，基于视频库801进行学习，通过不断更新网络结构中的参数，得到标题生成模型804。

另外，服务器还通过序列标注模型，从文本中确定教程主体词。该序列标注模型基于文本中人工标注的教程主体词进行训练得到。

上述所有可选技术方案，可以采用任意结合形成本申请的可选实施例，在此不再一一赘述。

图9是本申请实施例提供的一种视频标题生成装置的框图。参见图9，该装置包括：教程视频识别模块901、标题风格识别模块902以及标题生成模块903。

教程视频识别模块901，用于获取视频的内容标签，内容标签用于指示视频是否属于教程视频；

标题风格识别模块902，用于响应于内容标签指示视频属于教程视频，对视频的原始标题进行识别，得到原始标题的风格标签，风格标签用于指示原始标题是否符合教程标题的表述风格；

标题生成模块903，用于响应于风格标签指示原始标题不符合上述表述风格，基于原始标题和视频，生成符合上述表述风格的目标标题。

在一种可选的实现方式中，教程视频识别模块901，包括：

视频特征提取单元，用于对视频进行特征提取，得到视频在多个维度上的特征向量；

教程视频识别单元，用于基于视频在多个维度上的特征向量，确定视频的内容标签。

在另一种可选的实现方式中，视频特征提取单元，包括：

内容获取子单元，用于获取视频的多个图像帧和多个音频帧；

图像特征提取子单元，用于基于多个图像帧，确定视频的图像维度的特征向量；

音频特征提取子单元，用于基于多个音频帧，确定视频的音频维度的特征向量；

文本特征提取子单元，用于基于视频对应的文本信息，确定视频的文本维度的特征向量。

在另一种可选的实现方式中，图像特征提取子单元，用于：

分别对多个图像帧进行特征提取，得到多个图像帧的多个特征向量；

将多个图像帧的多个特征向量进行聚合，得到视频的图像维度的特征向量。

在另一种可选的实现方式中，该装置还包括：

文字识别模块，用于对多个图像帧进行文字识别，得到字幕文本；

语音识别模块，用于对多个音频帧进行语音识别，得到对白文本；

文本信息确定模块，用于将原始标题、字幕文本和对白文本确定为文本信息。

在另一种可选的实现方式中，教程视频识别单元，用于：

将视频在多个维度上的特征向量进行融合，得到视频的多模态向量；

基于多模态向量，确定视频的内容标签。

在另一种可选的实现方式中，标题生成模块903，包括：

教程主体词确定单元，用于响应于风格标签指示原始标题不符合上述表述风格，确定视频对应的教程主体词；

标题生成单元，用于基于教程主体词、视频的视频类型和视频的多模态向量中的至少一个以及原始标题，生成目标标题；

其中，教程主体词用于表示视频的教程主题，多模态向量是对视频在多个维度上的特征向量进行融合得到的。

在另一种可选的实现方式中，教程主体词确定单元，用于：

响应于风格标签指示原始标题不符合上述表述风格，从原始标题中确定教程主体词；

响应于原始标题中不存在教程主体词，从视频的字幕文本和视频的对白文本中确定教程主体词。

在另一种可选的实现方式中，标题生成单元，包括：

分词划分子单元，用于将教程主体词和原始标题划分为多个分词；

标题词确定子单元，用于将视频类型、多模态向量和多个分词输入到标题生成模型中，通过标题生成模型确定多个标题词，标题生成模型用于生成符合上述表述风格的标题；

标题生成子单元，用于由多个标题词组成目标标题。

在另一种可选的实现方式中，标题词确定子单元，用于：

将视频类型、多模态向量和多个分词输入到标题生成模型中，获取多个分词的注意力权重；

响应于多个分词中的第一分词的注意力权重大于注意力阈值，将第一分词确定为标题词；

响应于多个分词的注意力权重均小于或等于注意力阈值，将标题生成模型输出的词确定为标题词。

在另一种可选的实现方式中，该装置还包括：

视频类型确定模块，用于基于视频在多个维度上的特征向量，确定视频的视频类型。

在另一种可选的实现方式中，标题风格识别模块902，用于：

响应于内容标签指示视频属于教程视频，将原始标题输入到风格识别模型中，得到风格识别模型输出的风格标签；

其中，风格识别模型是以第一类标题为正样本，以第二类标题和第三类标题中的至少一类为负样本进行训练得到的；第一类标题符合上述表述风格，且对应的视频属于教程视频；第二类标题是不属于教程视频的视频的原始标题；第三类标题不符合上述表述风格，且对应的视频属于教程视频。

需要说明的是：上述实施例提供的视频标题生成装置在生成视频标题时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将计算机设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的视频标题生成装置与视频标题生成方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

在本申请实施例中，计算机设备可被配置为终端或者服务器。若计算机设备被配置为终端，则由终端作为执行主体来实施本申请实施例提供的技术方案。若计算机设备被配置为服务器，则由服务器作为执行主体来实施本申请实施例提供的技术方案。或者，通过终端和服务器之间的交互来实施本申请实施例提供的技术方案，本申请实施例对此不加以限定。

若计算机设备被配置为终端，图10示出了本申请一个示例性实施例提供的终端1000的结构框图。该终端1000可以是智能手机、平板电脑、笔记本电脑、台式电脑、智能音箱、智能手表、智能电视、智能车载等。终端1000还可能被称为用户设备、便携式终端、膝上型终端、台式终端等其他名称。

通常，终端1000包括有：处理器1001和存储器1002。

处理器1001可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器1001可以采用DSP(Digital Signal Processing，数字信号处理)、FPGA(Field－Programmable Gate Array，现场可编程门阵列)、PLA(Programmable Logic Array，可编程逻辑阵列)中的至少一种硬件形式来实现。处理器1001也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU(Central ProcessingUnit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器1001可以集成有GPU(Graphics Processing Unit，图像处理器)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器1001还可以包括AI(Artificial Intelligence，人工智能)处理器，该AI处理器用于处理有关机器学习的计算操作。

存储器1002可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器1002还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器1002中的非暂态的计算机可读存储介质用于存储至少一条程序代码，该至少一条程序代码用于被处理器1001所执行以实现本申请中方法实施例提供的视频标题生成方法。

在一些实施例中，终端1000还可选包括有：外围设备接口1003和至少一个外围设备。处理器1001、存储器1002和外围设备接口1003之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口1003相连。具体地，外围设备包括：射频电路1004、显示屏1005、摄像头组件1006、音频电路1007、定位组件1008和电源1009中的至少一种。

外围设备接口1003可被用于将I/O(Input/Output，输入/输出)相关的至少一个外围设备连接到处理器1001和存储器1002。在一些实施例中，处理器1001、存储器1002和外围设备接口1003被集成在同一芯片或电路板上；在一些其他实施例中，处理器1001、存储器1002和外围设备接口1003中的任意一个或两个可以在单独的芯片或电路板上实现，本实施例对此不加以限定。

射频电路1004用于接收和发射RF(Radio Frequency，射频)信号，也称电磁信号。射频电路1004通过电磁信号与通信网络以及其他通信设备进行通信。射频电路1004将电信号转换为电磁信号进行发送，或者，将接收到的电磁信号转换为电信号。可选地，射频电路1004包括：天线系统、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路1004可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于：万维网、城域网、内联网、各代移动通信网络(2G、3G、4G及5G)、无线局域网和/或WiFi(Wireless Fidelity，无线保真)网络。在一些实施例中，射频电路1004还可以包括NFC(Near Field Communication，近距离无线通信)有关的电路，本申请对此不加以限定。

显示屏1005用于显示UI(User Interface，用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏1005是触摸显示屏时，显示屏1005还具有采集在显示屏1005的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器1001进行处理。此时，显示屏1005还可以用于提供虚拟按钮和/或虚拟键盘，也称软按钮和/或软键盘。在一些实施例中，显示屏1005可以为一个，设置在终端1000的前面板；在另一些实施例中，显示屏1005可以为至少两个，分别设置在终端1000的不同表面或呈折叠设计；在另一些实施例中，显示屏1005可以是柔性显示屏，设置在终端1000的弯曲表面上或折叠面上。甚至，显示屏1005还可以设置成非矩形的不规则图形，也即异形屏。显示屏1005可以采用LCD(Liquid Crystal Display，液晶显示屏)、OLED(Organic Light-EmittingDiode,有机发光二极管)等材质制备。

摄像头组件1006用于采集图像或视频。可选地，摄像头组件1006包括前置摄像头和后置摄像头。通常，前置摄像头设置在终端的前面板，后置摄像头设置在终端的背面。在一些实施例中，后置摄像头为至少两个，分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种，以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及VR(Virtual Reality，虚拟现实)拍摄功能或者其它融合拍摄功能。在一些实施例中，摄像头组件1006还可以包括闪光灯。闪光灯可以是单色温闪光灯，也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合，可以用于不同色温下的光线补偿。

音频电路1007可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波，并将声波转换为电信号输入至处理器1001进行处理，或者输入至射频电路1004以实现语音通信。出于立体声采集或降噪的目的，麦克风可以为多个，分别设置在终端1000的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器1001或射频电路1004的电信号转换为声波。扬声器可以是传统的薄膜扬声器，也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时，不仅可以将电信号转换为人类可听见的声波，也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中，音频电路1007还可以包括耳机插孔。

定位组件1008用于定位终端1000的当前地理位置，以实现导航或LBS(LocationBased Service，基于位置的服务)。定位组件1008可以是基于美国的GPS(GlobalPositioning System，全球定位系统)、中国的北斗系统或俄罗斯的伽利略系统的定位组件。

电源1009用于为终端1000中的各个组件进行供电。电源1009可以是交流电、直流电、一次性电池或可充电电池。当电源1009包括可充电电池时，该可充电电池可以是有线充电电池或无线充电电池。有线充电电池是通过有线线路充电的电池，无线充电电池是通过无线线圈充电的电池。该可充电电池还可以用于支持快充技术。

在一些实施例中，终端1000还包括有一个或多个传感器1010。该一个或多个传感器1010包括但不限于：加速度传感器1011、陀螺仪传感器1012、压力传感器1013、指纹传感器1014、光学传感器1015以及接近传感器1016。

本领域技术人员可以理解，图10中示出的结构并不构成对终端1000的限定，可以包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。

若计算机设备被配置为服务器，图11是本申请实施例提供的一种服务器的框图，该服务器1100可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器(Central Processing Units，CPU)1101和一个或一个以上的存储器1102，其中，存储器1102中存储有计算机程序，该计算机程序由处理器1101加载并执行以实现上述各个方法实施例提供的视频标题生成方法。当然，该服务器还可以具有有线或无线网络接口、键盘以及输入输出接口等部件，以便进行输入输出，该服务器还可以包括其他用于实现设备功能的部件，在此不做赘述。

在示例性实施例中，还提供了一种计算机可读存储介质，该计算机可读存储介质中存储有计算机程序，上述计算机程序可由计算机设备中的处理器执行以完成上述实施例中的视频标题生成方法。例如，计算机可读存储介质可以是ROM(Read-Only Memory，只读存储器)、RAM(Random Access Memory，随机存取存储器)、CD-ROM(Compact Disc Read-OnlyMemory，只读光盘)、磁带、软盘和光数据存储设备等。

本申请还提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机程序代码，该计算机程序代码存储在计算机可读存储介质中，计算机设备的处理器从计算机可读存储介质读取该计算机程序代码，处理器执行该计算机程序代码，使得该计算机设备执行上述各个方法实施例中的视频标题生成方法。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，上述程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本申请的可选实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种视频标题生成方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述获取视频的内容标签，包括：

对所述视频进行特征提取，得到所述视频在多个维度上的特征向量；

基于所述视频在多个维度上的特征向量，确定所述视频的内容标签。

3.根据权利要求2所述的方法，其特征在于，所述对所述视频进行特征提取，得到所述视频在多个维度上的特征向量，包括：

获取所述视频的多个图像帧和多个音频帧；

基于所述多个图像帧，确定所述视频的图像维度的特征向量；

基于所述多个音频帧，确定所述视频的音频维度的特征向量；

基于所述视频对应的文本信息，确定所述视频的文本维度的特征向量。

4.根据权利要求3所述的方法，其特征在于，所述基于所述多个图像帧，确定所述视频的图像维度的特征向量，包括：

5.根据权利要求3所述的方法，其特征在于，所述基于所述视频对应的文本信息，确定所述视频的文本维度的特征向量之前，所述方法还包括：

对所述多个图像帧进行文字识别，得到字幕文本；

对所述多个音频帧进行语音识别，得到对白文本；

将所述原始标题、所述字幕文本和所述对白文本确定为所述文本信息。

6.根据权利要求2所述的方法，其特征在于，所述基于所述视频在多个维度上的特征向量，确定所述视频的内容标签，包括：

基于所述多模态向量，确定所述视频的内容标签。

7.根据权利要求1所述的方法，其特征在于，所述响应于所述风格标签指示所述原始标题不符合所述表述风格，基于所述原始标题和所述视频，生成符合所述表述风格的目标标题，包括：

响应于所述风格标签指示所述原始标题不符合所述表述风格，确定所述视频对应的教程主体词；

基于所述教程主体词、所述视频的视频类型和所述视频的多模态向量中的至少一个以及所述原始标题，生成所述目标标题；

8.根据权利要求7所述的方法，其特征在于，所述响应于所述风格标签指示所述原始标题不符合所述表述风格，确定所述视频对应的教程主体词，包括：

9.根据权利要求7所述的方法，其特征在于，所述基于所述教程主体词、所述视频的视频类型和所述视频的多模态向量中的至少一个以及所述原始标题，生成所述目标标题，包括：

将所述教程主体词和所述原始标题划分为多个分词；

将所述视频类型、所述多模态向量和所述多个分词输入到标题生成模型中，通过所述标题生成模型确定多个标题词，所述标题生成模型用于生成符合所述表述风格的标题；

由所述多个标题词组成所述目标标题。

10.根据权利要求9所述的方法，其特征在于，所述将所述视频类型、所述多模态向量和所述多个分词输入到标题生成模型中，通过所述标题生成模型确定多个标题词，包括：

11.根据权利要求7所述的方法，其特征在于，所述基于所述教程主体词、所述视频的视频类型和所述视频的多模态向量中的至少一个以及所述原始标题，生成所述目标标题之前，所述方法还包括：

基于所述视频在多个维度上的特征向量，确定所述视频的视频类型。

12.根据权利要求1所述的方法，其特征在于，所述响应于所述内容标签指示所述视频属于教程视频，对所述视频的原始标题进行识别，得到所述原始标题的风格标签，包括：

13.一种视频标题生成装置，其特征在于，所述装置包括：

14.一种计算机设备，其特征在于，所述计算机设备包括处理器和存储器，所述存储器中存储有计算机程序，所述计算机程序由所述处理器加载并执行，以实现如权利要求1-12任一项所述的视频标题生成方法。

15.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机程序，所述计算机程序由处理器加载并执行，以实现如权利要求1-12任一项所述的视频标题生成方法。