CN114357989B

CN114357989B - 视频标题生成方法、装置、电子设备及存储介质

Info

Publication number: CN114357989B
Application number: CN202210023596.1A
Authority: CN
Inventors: 魏承东; 丁杰超; 高睿
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2022-01-10
Filing date: 2022-01-10
Publication date: 2023-09-26
Anticipated expiration: 2042-01-10
Also published as: US20230222161A1; CN114357989A; EP4209929A1

Abstract

本公开提供了一种视频标题生成方法、装置、电子设备及存储介质。本公开涉及视频技术领域，尤其涉及短视频技术领域。具体实现方式为：获取针对第一视频文件的多个可选文本信息；从所述多个可选文本信息中确定中心文本信息，所述中心文本信息为与所述第一视频文件的内容的相似度最高的可选文本信息；将所述中心文本信息确定为所述第一视频文件的标题。本公开能够根据用户对原始视频文件的互动行为数据确定原始视频文件中的兴趣点，并以兴趣点为基准对原始视频文件进行裁剪，得到多个裁剪后的视频文件，即短视频。本公开能够提高生成视频文件标题的效果和效率。

Description

视频标题生成方法、装置、电子设备及存储介质

技术领域

本公开涉及视频技术领域，尤其涉及短视频技术领域，具体涉及一种视频标题生成方法、装置、电子设备及存储介质。

背景技术

随着视频技术的发展和短视频平台的普及，大量的信息都通过的视频或短视频方式传播。如何确定视频或短视频文件的标题，成为需要解决的技术问题。

发明内容

本公开提供了一种视频标题生成方法、装置、电子设备及存储介质。

根据本公开的一方面，提供了一种视频标题生成方法，包括：

获取针对第一视频文件的多个可选文本信息；

从该多个可选文本信息中确定中心文本信息，该中心文本信息为与该第一视频文件的内容的相似度最高的可选文本信息；

将该中心文本信息确定为该第一视频文件的标题。

根据本公开的另一方面，提供了一种视频标题生成装置，包括：

获取模块，用于获取针对第一视频文件的多个可选文本信息；

确定模块，用于从该多个可选文本信息中确定中心文本信息，该中心文本信息为与该第一视频文件的内容的相似度最高的可选文本信息；

标题模块，用于将该中心文本信息确定为该第一视频文件的标题。

根据本公开的另一方面，提供了一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行上述任一项所述的方法。

根据本公开的另一方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据上述任一项所述的方法。

根据本公开的另一方面，提供了一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现根据上述任一项所述的方法。

采用本公开，能够根据用户对原始视频文件的互动行为数据确定原始视频文件中的兴趣点，并以兴趣点为基准对原始视频文件进行裁剪，得到多个裁剪后的视频文件，即短视频。由于裁剪后得到的短视频中包含了原始视频文件中用户最感兴趣的部分，因此这种方式得到的短视频质量较高，更能够符合用户的喜好，具有极高的应用价值。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1是根据本公开一实施例的视频标题生成方法的示意性流程图；

图2是根据本公开一实施例的视频标题生成方案的流程框图；

图3是根据本公开一实施例的视频标题生成方案的应用场景示意图；

图4是根据本公开一实施例的视频标题生成方法的流程图；

图5是根据本公开一实施例的确定弹幕对应的文本向量中的中心向量的实现方式示意图；

图6是根据本公开一实施例的视频标题生成装置的结构示意图；

图7是根据本公开一实施例的视频标题生成装置的结构示意图；

图8是根据本公开一实施例的视频标题生成装置的结构示意图；

图9是用来实现本公开实施例的视频标题生成方法的电子设备的框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

本公开实施方式提出一种视频标题生成方法，可以用于生成视频文件的标题、或用于生成短视频的标题。短视频是近年来流行的一种视频形式，对于“短视频”这个术语，业界没有统一的定义。短视频一般是相对于长视频而言的，短视频和长视频主要是从视频时长的角度划分。例如，长度为数十秒、数分钟或近似视频长度的视频文件可以称为短视频，长度为数十分钟、数小时或近似长度的视频文件可以称为长视频(或传统意义上的视频)。

一般而言，时长较短的视频都可以视为短视频，不限拍摄设备、地点和后期处理。例如，内容高潮集中、时长不超十分钟的视频可以视为短视频。从传播性看，短视频因其短小、精悍的特征，相比传统的图文，短视频信息量大，表现力强、直观性好，人们可利用碎片时间浏览、分享，让短视频具备了病毒式传播潜力。

短视频的生成方式有多种，例如，可以直接拍摄时长较短的视频文件，作为短视频；或者，可以对长视频进行裁剪，将从长视频中选取的片段组成短视频。具体地，可以从长视频中裁剪出一个片段，并将该片段作为短视频；也可以从长视频中裁剪出两个或多个片段，并将裁剪出的片段拼接得到短视频。

以下以生成短视频的标题为例，介绍本公开实施方式提出的视频标题生成方法。需要强调的是，本公开实施方式提出的视频标题生成方法不限于生成短视频的标题，也可以应用于生成长视频(或传统意义上的视频文件)的标题。

短视频的标题一般需要将短视频的内容体现出来，并且有一定的修饰效果等。相关技术中，一般通过标注人员人工观看生成短视频，并人工创作标题。这种标题生成方式需要耗费大量的人力和时间成本，无法适应海量的短视频更新，并且对于标注人员的要求较高，人工标注的短视频标题也难以保证稳定的质量。另外一种常见的标题生成方法是，统计几个高频词汇，将统计的高频词汇拼凑成一个句子，将该句子作为视频文件的标题；这种方式得到的视频文件的标题无法较好地体现视频文件的主题，并且标题的语法、修饰效果等均不佳。可见，相关的视频标题生成方法的效果和效率都不高。

本公开的实施例提出一种视频标题生成方法，图1是根据本公开一实施例的视频标题生成方法的示意性流程图，包括：

S110、获取针对第一视频文件的多个可选文本信息；

S120、从多个可选文本信息中确定中心文本信息，该中心文本信息为与该第一视频文件的内容的相似度最高的可选文本信息；

S130、将该中心文本信息确定为该第一视频文件的标题。

在一些实施方式中，上述可选文本信息包括所述第一视频文件的弹幕文本、评论、字幕和介绍文本中的至少一项。采用多种形式的文件作为可选文本信息，并从多种形式的文件中选择出中心文本信息作为第一视频文件的标题，能够丰富标题的文件来源，从而得到精确代表第一视频文件的主体内容的标题。

在一些实施方式中，上述第一视频文件为利用从第二视频文件中选取的片段组成的视频文件；

第一视频文件的弹幕文本包括：多个用户在该第二视频文件播放过程中，在播放该第一视频文件中的上述片段的时刻发送的弹幕文本。

上述第一视频文件可以称为短视频，上述第二视频文件可以称为长视频。本公开实施方式涉及的短视频可以是以下任意形式：直接拍摄得到的时长较短的视频文件；或者，从一个视频文件中裁剪得到一个片段，将该片段构成的短视频；或者，从一个视频文件中裁剪得到至少两个片段，将这些片段连接构成的短视频；或者，从至少两个视频文件中裁剪得到至少两个片段，将这些片段连接构成的短视频。

图2是根据本公开一实施例的视频标题生成方案的流程框图，如图2所示，本公开提出的一种视频标题生成方案主要包括以下步骤：从视频播放终端(如用户端播放器)收集播放长视频(即第二视频文件)时的用户互动行为数据；该用户行为数据包括弹幕、评论、收藏、打赏、收藏等信息。根据用户行为数据对长视频(即第二视频文件)进行裁剪，将裁剪得到的片段组成短视频(即第一视频文件)。利用短视频(即第一视频文件)的可选文本信息确定短视频的标题。可选地，上述可选文本信息包括第一视频文件的弹幕文本、评论、字幕和介绍文本中的至少一项。其中，弹幕文本又可以称为弹幕，弹幕文本可以指包含文本信息的弹幕。

图3是根据本公开一实施例的视频标题生成方案的应用场景示意图，如图3所示，本公开实施方式提出的实现视频标题生成的装置可以设置于网络中，通过有线或无线通信网络从云端获取用户在观看长视频时的用户行为数据，并从视频库获取相应的长视频。在获取到长视频之后，根据用户行为数据，实现视频标题生成的装置可以根据用户行为数据将长视频裁剪为短视频，并利用用户行为数据中的信息(如弹幕文本)确定短视频的标题。

在一些实施方案中，上述获取针对第一视频文件的互动行为数据，包括：

从用户行为数据库中获取针对第二视频文件的互动行为数据；

其中，该用户行为数据库记录来自视频播放终端的多个视频文件的互动行为数据，该多个视频文件的互动行为数据包括各个视频文件的标识、总时长、互动行为及互动行为在该视频文件中的时刻点中的至少一项。

例如，上述视频文件的标识可以包括视频编号(ID)，视频编号可以是视频文件的唯一标号，云端及云端的用户行为数据库能够根据该视频编号唯一地确定一个具体的视频文件。

上述总时长可以包括视频文件总时长。

上述互动行为可以包括收藏、分享、弹幕、评论、打赏及点赞中的至少一项。

上述互动行为在视频文件中的时刻点可以包括用户发生该互动行为时在该视频文件播放时长中的时刻点。

例如，一段视频文件的ID为001，总时长为2小时，用户A在播放至第15分钟时点击收藏，在播放至第20分钟时发送弹幕，视频播放终端可以向云端上报用户A的针对该视频文件的互动行为数据，该互动行为数据至少可以包括以下信息：

【视频文件ID＝001；

总时长＝2小时；

互动行为：收藏，对应时刻点：第15分钟；

互动行为：弹幕，对应时刻点：第20分钟。】

针对该视频文件，用户B在播放至第18分钟时点击分享，在播放至第25分钟时发送评论，视频播放终端可以向云端上报用户B的针对该视频文件的互动行为数据，该互动行为数据至少可以包括以下信息：

【视频文件ID＝001；

总时长＝2小时；

互动行为：分享，对应时刻点：第18分钟；

互动行为：评论，对应时刻点：第25分钟。】

云端的用户行为数据库可以统计并保存各个视频播放终端所上报的互动行为数据，如针对前述ID为001的视频文件，用户行为数据库统计用户A和用户B通过视频播放终端上报的互动行为数据可以包括以下信息：

【视频文件ID＝001；

总时长＝2小时；

互动行为：收藏，对应时刻点：第15分钟；

互动行为：分享，对应时刻点：第18分钟；

互动行为：弹幕，对应时刻点：第20分钟。

互动行为：评论，对应时刻点：第25分钟。】

随着视频播放终端上报的互动行为数据的逐渐增多，云端的用户行为数据库统计的针对各个视频文件的互动行为数据也逐渐丰富。

利用用户行为数据库统计并保存的第二视频文件的互动行为数据，可以确定第二视频文件的各个时刻点的互动热度，并根据互动热度对第二视频文件(即长视频)进行裁剪，得到互动热度高的第一视频文件(即短视频)。之后，可以利用本公开实施方式提出的视频标题生成方法，为短视频生成标题。

该第一视频文件的弹幕文本包括：多个用户在第二视频文件播放过程中，在播放该第一视频文件中的该片段的时刻发送的弹幕文本。

例如，从长视频中选取片段1、片段2、片段3，将片段1、片段2和片段3依次连接得到短视频；在生成该短视频的标题时，可以根据用户在播放该长视频的过程中，在播放片段1、片段2和片段3的时刻发送的弹幕来生成该短视频的标题，也可以利用在播放片段1、片段2和片段3的时刻发送的弹幕以及其他相关信息来生成该短视频的标题。其他相关信息可以包括：用户在播放片段1、片段2和片段3的时刻发送的评论，短视频中的字幕，针对该长视频或该片段1、片段2和片段3的介绍文本等信息。

可见，本公开实施方式直接从各个用户播放第二视频文件时发送的互动行为数据中，找到该第二视频文件中关于第一视频文件的弹幕文本，这种弹幕获取方式更为便捷，并且能够获取到大量用户针对第一视频文件发送的弹幕文本，从而在能够在更丰富的文本材料中确定出第一视频文件的标题，提高标题的准确度。

如图4所示，在一些可能的实施方式中，上述从多个可选文本信息中确定中心文本信息，包括：

S410：将各个可选文本信息分别转换为对应的文本向量；

S420：针对各个文本向量，分别确定每个文本向量与其他各个文本向量之间的距离之和；

S430：将距离之和最小的文本向量对应的可选文本信息确定为中心文本信息。

可选地，上述确定文本向量与其他文本向量之间的距离的方式可以包括：

计算所述文本向量与所述其他文本向量之间的夹角余弦，将所述夹角余弦作为所述文本向量与所述其他文本向量之间的距离；或者，

计算所述文本向量与所述其他文本向量之间的欧氏距离，将所述欧氏距离作为所述文本向量与所述其他文本向量之间的距离。

以可选文本信息为弹幕文本为例，在一些可能的实施方式中，上述从多个可选文本信息中确定中心文本信息，并将该中心文本信息作为该第一视频文件的标题，具体包括以下过程：

第一步，提取第一视频文件的弹幕文本，记为：

txt＝[txt(1)，txt(2),...,txt(i),...,txt(n)]

如上例中提取出n个弹幕文本，分别为txt(1)、txt(2)至txt(n)。

第二步，分别将各个弹幕文本转换为对应的文本向量，转换完毕之后，得到n个对应的文本向量，记为：

vec＝[vec(1)，vec(2),...,vec(i),...,vec(n)]

如上例中转换出n个对应的文本向量，分别为vec(1)、vec(2)至vec(n)。

文本向量的转换方式可以采用基于转换器的双向编码器表示(BERT，Bidirectional Encoder Representations from Transformers)模型、使用信息实体的增强语言表示(ERNIE，Enhanced Language Representation with Informative Entities)模型等神经网络模型实现。

BERT模型整体是一个自编码语言模型(Autoencoder LM)，其设计了两个任务来预训练该模型。第一个任务是训练语言模型，在输入一句话时，随机地选一些要预测的词，然后用一个特殊的符号[MASK]来代替该要预测的词，由BERT模型根据所给的标签去预测被MASK代替的词。第二个任务在双向语言模型的基础上额外增加了一个句子级别的连续性预测任务，即预测输入BERT的两段文本是否为连续的文本，引入该任务可以使训练得到的BERT模型更好地预测连续的文本片段之间的关系。

BERT相较于能够做到并发执行，同时提取词在句子中的关系特征，并且能在多个不同层次提取关系特征，进而更全面反映句子语义。并且，BERT模型能够根据句子上下文获取词义，从而避免歧义出现。

ERNIE模型利用知识图谱中的多信息实体(informative entity)作为外部知识改善语言表征，为了将知识信息加入到模型当中，ERNIE模型解决了下面的两个问题：第一，结构化的知识编码：对于抽象的知识信息，需要将它们进行编码，这样才能够将知识用于语言表征。第二，异质信息融合：显然，BERT预训练时对单词的编码和对知识的编码是不同的，虽然都是将其转化为向量，但是却位于不同的向量空间，因此就需要对模型进行设计，来实现对于词汇、句法和知识信息的融合。ERNIE模型分为两个部分：抽取知识信息与训练语言模型，为了得到结构化的知识编码，ERNIE模型采用知识嵌入算法，然后再将编码后的知识信息整合到语义信息当中；为了将更好地将语义和知识信息融合起来，模型改进了BERT模型的架构，并设计了新的预训练任务，这样就可以将实现知识信息与语义信息的融合。

本公开实施方案采用BERT模型或ERNIE模型确定可选文本信息转换为对应的文本向量，能够得到可选文本信息的准确的文本向量信息，从而为正确确定中心文本向量提供基础。

本公开实施方案不再赘述BERT模型或ERNIE模型的训练方式。采用预先训练的BERT模型或ERNIE模型，可以实现将可选文本信息转换为对应的文本向量。

第三步，针对各个文本向量，确定该文本向量到其他各个文本向量之间的距离之和。

如，针对上例中每一个文本向量vec(i),求解vec(i)到其他文本向量的距离并加和，记作sum(i).

其中，cosine(vec(i),vec(j))表示文本向量vec(i)与文本向量vec(j)的距离；

文本向量vec(j)表示除文本向量vec(i)以外的其他文本向量；

M表示除文本向量vec(i)以外的其他文本向量的个数。

其中，文本向量vec(i)与文本向量vec(j)的距离的计算方法可采用夹角余弦(cosine)公式：

在上述夹角余弦(cosine)公式中，X_i和Y_i分别表示两个文本向量(文本向量X和文本向量Y)中的第i个元素；

n表示文本向量X或文本向量Y中元素的个数；

cos(θ)表示文本向量X和文本向量Y的夹角余弦，该夹角余弦能够表示出文本向量X与文本向量Y之间的距离。

距离计算方式不限于上述方法，也可以采用欧氏距离(Euclidean Distance)等方式，本公开在此不再赘述。本公开实施方式采用多种方式确定文本向量之间的距离，能够对文本向量的差异度进行量化，为确定能够代表视频内容的中心文本向量的弹幕内容提供基础。

计算完毕后，每一个文本向量到其他文本向量的距离和可以记作：

sum＝[sum(1)，sum(2),...,sum(i),...,sum(n)]

第四步，基于上述步骤中确定的各个文本向量到其他文本向量的距离和列表，确定距离和最小的文本向量对应的弹幕文本，将确定出的弹幕文本作为该短视频的标题。

上述过程可以认为是在确定弹幕中心向量。图5是根据本公开一实施例的视频标题生成方法中，确定弹幕对应的文本向量中的中心向量的实现方式示意图。图5示出了多个弹幕对应的文本向量，采用上述方式，确定出弹幕中心向量(如图4中的弹幕N)，即距离其他文本向量的距离之和最小的文本向量。将该文本向量对应的弹幕文本作为短视频的标题，该弹幕文本能够代表系统中用户群体针对这段短视频发表的认可度最高的评论信息，因此能够很好地代表短视频的内容或用户对该短视频的观点等，因此与短视频的内容的相似度最高，非常适合于作为该短视频的标题。

本公开实施方式还提出其它生成标题的方式，例如，将各个可选文本信息分别进行分词处理，得到多个分词，并统计各个分词在所有可选文本信息中出现的次数；

从多个分词中选取出现次数最多的L个分词，作为重要分词，并根据重要分词出现的次数为重要分词设定分词分值；L为正整数；

针对多个可选文本信息中的各个可选文本信息，确定可选文本信息中包含的重要分词，并根据重要分词的分词分值确定可选文本信息的文本分值；

将文本分值最高的可选文本信息作为所述中心文本信息。中心文本信息可以作为第一视频文件的标题。

本公开实施方式可以采用分词算法或机器学习算法实现对可选文本信息的分词处理，例如，采用基于词典分词算法进行分词处理，或者采用基于统计的机器学习算法进行分词处理。其中，基于词典分词算法也称字符串匹配分词算法。该算法是按照一定的策略将待匹配的字符串和一个已建立好的“充分大的”词典中的词进行匹配，若找到某个词条，则说明匹配成功，识别了该词。常见的基于词典的分词算法分为以下几种：正向最大匹配法、逆向最大匹配法和双向匹配分词法等。基于词典的分词算法是应用最广泛、分词速度最快的。很长一段时间内研究者都在对基于字符串匹配方法进行优化，比如最大长度设定、字符串存储和查找方式以及对于词表的组织结构，比如采用TRIE索引树、哈希索引等。基于统计的机器学习算法主要有隐马尔科夫模型(HMM，Hidden Markov Model,)、条件随机场算法(CRF，Conditional Random Field Algorithm)、支持向量机(SVM，Supprot VectorMachine)算法、深度学习等算法等。以CRF为例，基本思路是对汉字进行标注训练，不仅考虑了词语出现的频率，还考虑上下文，具备较好的学习能力，因此其对歧义词和未登录词的识别都具有良好的效果。常见的分词器都是使用机器学习算法和词典相结合，一方面能够提高分词准确率，另一方面能够改善领域适应性。随着深度学习的兴起，也出现了基于神经网络的分词器，例如双向LSTM+CRF实现分词器，其本质上是序列标注，所以有通用性，命名实体识别等都可以使用该模型。

本公开实施方式在进行上述分词处理之后，可以去除语气词、终止词等不携带实际含义的分词，从剩余的分词中确定出现次数最多的分词作为重要分词。终止词又可以称为停止词、停用词等，语气词和终止词通常不携带有用信息，如“了”“啊”“么”这类无意义的词可以认为是语气词或终止词。一个句子去掉了终止词并不影响理解。

以上述可选文本信息为弹幕文本为例，例如，分词及统计之后，确定出现次数最多的p个分词作为重要分词，包括W1、W2、…Wp；

其中，W1出现次数为100次，W2出现次数为80次，…Wp出现次数为20次，根据出现次数为各个重要分词确定分词分值，如确定W1、W2、…Wp的分词分值分别为100、80、20；

之后，针对各个弹幕文本，可以确定各个弹幕文本包含的重要分词，根据重要分词的分词分值作为弹幕文本的文本分值。例如，可以将弹幕文本中包含的重要分词的分词分值相加，得到整个弹幕文本的文本分值。上述根据分词分值确定文本分值的方式仅为举例，本公开实施方式不限制其它方式。例如，可以根据分词分值将重要分词划分为不同的等级，并设置不同等级的重要分词的权重；在计算文本分词时，文本向量包含的各个重要分词的权重相加，得到该文本向量的文本分词。

可见，文本分值最高的弹幕文本中包含了系统中用户群体针对短视频发表的最重要的评论词，因此能够体现出短视频的内容或用户对该短视频的观点等，因此与短视频的内容的相似度最高，非常适合于作为该短视频的标题。

可见，本公开实施方式提出的上述视频标题生成方法从第一视频文件的多个可选文本信息中选取出一个最能够代表其内容的可选文本信息，并将选择出的可选文本信息作为第一视频文件的标题。由于选取已有的可选文本信息，避免了将多个文本信息裁剪拼凑生成标题，因此避免了生成标题的语法、修辞等效果不佳的问题。

本公开还提出一种视频标题生成装置，图6所是根据本公开以实施例的视频标题生成装置的结构示意图，如图6所示，包括：

获取模块610，用于获取针对第一视频文件的多个可选文本信息；

确定模块620，用于从所述多个可选文本信息中确定中心文本信息，所述中心文本信息为与所述第一视频文件的内容的相似度最高的可选文本信息；

标题模块630，用于将所述中心文本信息确定为所述第一视频文件的标题。

本公开另一实施例提供了一种视频标题生成装置，该装置包括上述视频标题生成装置实施例的一个或多个特征。在一种可能的实施方式中，所述可选文本信息包括所述第一视频文件的弹幕文本、评论、字幕和介绍文本中的至少一项。

所述第一视频文件为利用从第二视频文件中选取的片段组成的视频文件；

所述第一视频文件的弹幕文本包括：多个用户在所述第二视频文件播放过程中，在播放所述第一视频文件中的所述片段的时刻发送的弹幕文本。

图7是本公开另一实施例提供的一种视频标题生成装置，该装置包括上述视频标题生成装置实施例的一个或多个特征。在一种可能的实施方式中，所述确定模块620，包括：

转换子模块710，用于将所述各个可选文本信息分别转换为对应的文本向量；

距离子模块720，用于针对各个所述文本向量，分别确定每个文本向量与其他各个文本向量之间的距离之和；

第一确定子模块730，用于将所述距离之和最小的文本向量对应的可选文本信息确定为所述中心文本信息。

本公开另一实施例提供了一种视频标题生成装置，该装置包括上述视频标题生成装置实施例的一个或多个特征。在一种可能的实施方式中，确定文本向量与其他文本向量之间的距离的方式包括：

本公开另一实施例提供了一种视频标题生成装置，该装置包括上述视频标题生成装置实施例的一个或多个特征。在一种可能的实施方式中，所述转换子模块，包括：

采用基于转换器的双向编码器表示BERT模型和使用信息实体的增强语言表示ERNIE模型中的至少一种，将所述可选文本信息转换为对应的文本向量。

图8是本公开另一实施例提供的一种视频标题生成装置，该装置包括上述视频标题生成装置实施例的一个或多个特征。在一种可能的实施方式中，所述确定模块620，包括：

统计子模块810，用于将所述各个可选文本信息分别进行分词处理，得到多个分词，并统计各个分词在所有所述可选文本信息中出现的次数；

分值子模块820，用于从所述多个分词中选取出现次数最多的L个分词，作为重要分词，并根据所述重要分词出现的次数为所述重要分词设定分词分值；所述L为正整数；

第二确定子模块830，用于针对所述多个可选文本信息中的各个可选文本信息，确定所述可选文本信息中包含的重要分词，并根据重要分词的分词分值确定所述可选文本信息的文本分值；

中心信息子模块840，用于将所述文本分值最高的可选文本信息作为所述中心文本信息。

本公开的技术方案中，所涉及的用户个人信息的获取，存储和应用等，均符合相关法律法规的规定，且不违背公序良俗。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

图9示出了可以用来实施本公开的实施例的示例电子设备900的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图9所示，设备900包括计算单元901，其可以根据存储在只读存储器(ROM)902中的计算机程序或者从存储单元908加载到随机访问存储器(RAM)903中的计算机程序，来执行各种适当的动作和处理。在RAM 903中，还可存储设备900操作所需的各种程序和数据。计算单元901、ROM 902以及RAM 903通过总线904彼此相连。输入/输出(I/O)接口905也连接至总线904。

设备900中的多个部件连接至I/O接口905，包括：输入单元906，例如键盘、鼠标等；输出单元907，例如各种类型的显示器、扬声器等；存储单元908，例如磁盘、光盘等；以及通信单元909，例如网卡、调制解调器、无线通信收发机等。通信单元909允许设备900通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元901可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元901的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元901执行上文所描述的各个方法和处理，例如视频标题生成方法。例如，在一些实施例中，视频标题生成方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元908。在一些实施例中，计算机程序的部分或者全部可以经由ROM 902和/或通信单元909而被载入和/或安装到设备900上。当计算机程序加载到RAM 903并由计算单元901执行时，可以执行上文描述的视频标题生成方法的一个或多个步骤。备选地，在其他实施例中，计算单元901可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行视频标题生成方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入、或者触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，也可以为分布式系统的服务器，或者是结合了区块链的服务器。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种视频标题生成方法，包括：

获取针对第一视频文件的多个可选文本信息；

将各个所述可选文本信息分别转换为对应的文本向量；

针对各个所述文本向量，分别确定每个文本向量与其他各个文本向量之间的距离之和；

将所述距离之和最小的文本向量对应的可选文本信息确定为中心文本信息；所述中心文本信息为与所述第一视频文件的内容的相似度最高的可选文本信息；

将所述中心文本信息确定为所述第一视频文件的标题。

2.根据权利要求1所述的方法，其中，所述可选文本信息包括所述第一视频文件的弹幕文本、评论、字幕和介绍文本中的至少一项。

3.根据权利要求2所述的方法，其中，所述第一视频文件为利用从第二视频文件中选取的片段组成的视频文件；

4.根据权利要求3所述的方法，其中，确定文本向量与其他文本向量之间的距离的方式包括：

5.根据权利要求4所述的方法，其中，将所述可选文本信息转换为对应的文本向量，包括：

6.一种视频标题生成装置，包括：

确定模块，用于从所述多个可选文本信息中确定中心文本信息，所述中心文本信息为与所述第一视频文件的内容的相似度最高的可选文本信息；

标题模块，用于将所述中心文本信息确定为所述第一视频文件的标题；

其中，所述确定模块，包括：

转换子模块，用于将所述各个可选文本信息分别转换为对应的文本向量；

距离子模块，用于针对各个所述文本向量，分别确定每个文本向量与其他各个文本向量之间的距离之和；

第一确定子模块，用于将所述距离之和最小的文本向量对应的可选文本信息确定为所述中心文本信息。

7.根据权利要求6所述的装置，其中，所述可选文本信息包括所述第一视频文件的弹幕文本、评论、字幕和介绍文本中的至少一项。

8.根据权利要求7所述的装置，其中，所述第一视频文件为利用从第二视频文件中选取的片段组成的视频文件；

9.根据权利要求8所述的装置，其中，确定文本向量与其他文本向量之间的距离的方式包括：

10.根据权利要求9所述的装置，其中，所述转换子模块，包括：

11.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-5中任一项所述的方法。

12.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1-5中任一项所述的方法。