CN112784110A

CN112784110A - 关键帧确定方法、装置、电子设备和可读存储介质

Info

Publication number: CN112784110A
Application number: CN202110106052.7A
Authority: CN
Inventors: 刘恋; 孙以强
Original assignee: Beijing Didi Infinity Technology and Development Co Ltd
Current assignee: Beijing Didi Infinity Technology and Development Co Ltd
Priority date: 2021-01-26
Filing date: 2021-01-26
Publication date: 2021-05-11

Abstract

本申请实施例提供了一种关键帧确定方法、装置、电子设备和可读存储介质，涉及计算机技术领域，通过本申请实施例，可以先确定目标视频对应的各候选帧以及文本信息对应的各关键词，然后，基于各候选帧以及各关键词之间的相似度，可以确定候选帧中与文本信息相关程度较高的目标关键帧，在此过程中，由于候选帧是图像类的信息，关键词是文本类的信息，所以说，通过本申请实施例可以将两种不同维度的信息进行比较，以确定这两种不同维度的信息之间的相似度，进而能够基于这两种不同维度的信息之间的相似度确定可以准确代表目标视频内容的目标关键帧。

Description

关键帧确定方法、装置、电子设备和可读存储介质

技术领域

本申请涉及计算机技术领域，特别是涉及一种关键帧确定方法、装置、电子设备和可读存储介质。

背景技术

目前，随着互联网技术的发展，用户在网络视频平台观看视频成为日常的休闲娱乐的方式之一，用户在网络视频平台观看视频时，可以通过平台提供的视频预览界面挑选想要观看的视频，其中，预览界面一般包括各个视频的文本信息以及预览图像，预览图像可以表征对应视频的大致内容，使得用户可以提前了解该视频所要播放的内容。

相关技术中，可以通过人工筛选的方式确定各视频的预览图像，但是这样的方式效率较低，也可以通过均匀抽帧的方式确定各视频的预览图像，但是这样的方式无法保证预览图像能够有效代表对应视频的内容。

发明内容

有鉴于此，本申请实施例提供一种关键帧确定方法、装置、电子设备和可读存储介质，以确定可以准确代表目标视频内容的目标关键帧。

第一方面，提供了一种关键帧确定方法，所述方法应用于电子设备，所述方法包括：

获取目标视频以及所述目标视频对应的文本信息。

确定所述目标视频对应的各候选帧。

确定所述文本信息对应的各关键词。

基于各候选帧与各关键词之间的相似度，从各候选帧中确定目标关键帧。

第二方面，提供了一种关键帧确定装置，所述装置应用于电子设备，所述装置包括：

获取模块，用于获取目标视频以及所述目标视频对应的文本信息。

候选帧模块，用于确定所述目标视频对应的各候选帧。

关键词模块，用于确定所述文本信息对应的各关键词。

目标关键帧模块，用于基于各候选帧与各关键词之间的相似度，从各候选帧中确定目标关键帧。

第三方面，本申请实施例提供了一种电子设备，包括存储器和处理器，所述存储器用于存储一条或多条计算机程序指令，其中，所述一条或多条计算机程序指令被所述处理器执行以实现如第一方面所述的方法。

第四方面，本申请实施例提供了一种计算机可读存储介质，其上存储计算机程序指令，所述计算机程序指令在被处理器执行时实现如第一方面所述的方法。

第五方面，本申请实施例提供了一种计算机程序产品，包括计算机程序/指令，所述计算机程序/指令被处理器执行时实现如第一方面所述的方法。

通过本申请实施例，可以先确定目标视频对应的各候选帧以及文本信息对应的各关键词，然后，基于各候选帧以及各关键词之间的相似度，可以确定候选帧中与文本信息相关程度较高的目标关键帧，在此过程中，由于候选帧是图像类的信息，关键词是文本类的信息，所以说，通过本申请实施例可以将两种不同维度的信息进行比较，以确定这两种不同维度的信息之间的相似度，进而能够基于这两种不同维度的信息之间的相似度确定可以准确代表目标视频内容的目标关键帧。

附图说明

通过以下参照附图对本申请实施例的描述，本申请实施例的上述以及其它目的、特征和优点将更为清楚，在附图中：

图1为本申请实施例提供的一种视频预览界面的示意图；

图2为本申请实施例提供的一种关键帧确定方法的流程图；

图3为本申请实施例提供的另一种关键帧确定方法的流程图；

图4为本申请实施例提供的一种确定视频子片段过程的示意图；

图5为本申请实施例提供的另一种关键帧确定方法的流程图；

图6为本申请实施例提供的一种确定各候选帧的第一候选帧特征向量过程的流程图；

图7为本申请实施例提供的一种确定各关键词的第一关键词特征向量过程的流程图；

图8为本申请实施例提供的一种确定各第一候选帧特征向量和各第一关键词特征向量之间的相似度过程的流程图；

图9为本申请实施例提供的一种关键帧确定装置的结构示意图；

图10为本申请实施例提供的一种电子设备的结构示意图。

具体实施方式

以下基于实施例对本申请进行描述，但是本申请并不仅仅限于这些实施例。在下文对本申请的细节描述中，详尽描述了一些特定的细节部分。对本领域技术人员来说没有这些细节部分的描述也可以完全理解本申请。为了避免混淆本申请的实质，公知的方法、过程、流程、元件和电路并没有详细叙述。

此外，本领域普通技术人员应当理解，在此提供的附图都是为了说明的目的，并且附图不一定是按比例绘制的。

除非上下文明确要求，否则在说明书的“包括”、“包含”等类似词语应当解释为包含的含义而不是排他或穷举的含义；也就是说，是“包括但不限于”的含义。

在本申请的描述中，需要理解的是，术语“第一”、“第二”等仅用于描述目的，而不能理解为指示或暗示相对重要性。此外，在本申请的描述中，除非另有说明，“多个”的含义是两个或两个以上。

目前，随着互联网技术的发展，用户在网络视频平台观看视频成为日常的休闲娱乐的方式之一，用户在网络视频平台观看视频时，可以通过平台提供的视频预览界面挑选想要观看的视频，例如，如图1所示，图1为本申请实施例提供的一种视频预览界面的示意图，该示意图包括：视频预览窗口11、视频预览窗口12、视频预览窗口13、视频预览窗口14和视频预览窗口15。

其中，在图1所示的视频预览界面中有两种视频预览窗口，其一是位于视频预览界面上方的视频预览窗口11，其占用面积大，可以作为主要的预览窗口，其二是位于视频预览窗口11下方的视频预览窗口12-15，其占用面积小但数量多，可以作为次要的预览窗口，以提供给用户更多的选择，当然，在实际应用中也可以存在其他形式的视频预览窗口。

针对视频预览窗口11，视频预览窗口11包括预览图像以及嵌入在预览图像中的文本框，其中，预览图像是预览视频预览窗口11对应视频中的一个视频帧，文本框中包括文本信息(例如视频标题)，用户在浏览视频预览界面时，可以根据视频预览窗口11所展示的预览图像以及文本信息，预览视频预览窗口11对应视频所要展示的内容。

针对视频预览窗口12，视频预览窗口12包括预览图像以及在预览图像下方的文本框，其中，预览图像是预览视频预览窗口12对应视频中的一个视频帧，文本框中包括文本信息(例如视频标题)，用户在浏览视频预览界面时，可以根据视频预览窗口12所展示的预览图像以及文本信息，预览视频预览窗口12对应视频所要展示的内容。

针对视频预览窗口13，视频预览窗口13包括预览图像区域以及在预览图像区域下方的文本框，其中，预览图像区域包括静止展示的多个预览图像(即视频预览窗口13中用不同填充表示的4张图像)，文本框中包括文本信息(例如视频标题)，用户在浏览视频预览界面时，可以根据视频预览窗口13所展示的预览图像以及文本信息，预览视频预览窗口13对应视频所要展示的内容，由于视频预览窗口13中展示了多张预览图像，因此，用户在在浏览视频预览界面时可以获取更多关于视频的信息，另外，视频预览窗口13中所展示的图像数量不是固定值，本申请实施例对视频预览窗口13中所展示的图像数量不做限定。

针对视频预览窗口14，视频预览窗口14包括预览图像区域以及在预览图像区域下方的文本框，其中，预览图像区域包括一张图像互换格式(Graphics Interchange Format，GIF)的图像，该GIF图像可以由视频预览窗口14对应视频中的多张关键帧组成，其中，关键帧为目标视频(例如预览窗口14对应视频)中的视频帧，在相关技术中，该关键帧是通过人工筛选的方式或者均匀抽帧的方式确定，进而，该关键帧可以作为代表目标视频内容的预览图像。

在预览界面展示时，GIF图像可以动态展示这些关键帧，文本框中包括文本信息(例如视频标题)，用户在浏览视频预览界面时，可以根据视频预览窗口14所展示的GIF图像以及文本信息，预览视频预览窗口14对应视频所要展示的内容，由于GIF图像可以动态展示多个关键帧，所以，用户在在浏览视频预览界面时可以获取到更生动形象的信息。

针对视频预览窗口15，视频预览窗口15包括预览图像区域以及在预览图像区域下方的文本框，其中，预览图像区域包括可以循环展示的多个预览图像(即视频预览窗口15中用不同填充表示的4张图像)，这些预览图像可以按照预先设定的展示顺序，以一定时间间隔循环进行展示，文本框中包括文本信息(例如视频标题)，用户在浏览视频预览界面时，可以根据视频预览窗口15循环展示的多个预览图像以及文本信息，预览视频预览窗口15对应视频所要展示的内容，由于循环展示的多个预览图像可以展示多个图像，所以，用户在在浏览视频预览界面时可以获取到更多关于视频的信息，另外，视频预览窗口15中循环展示的图像数量不是固定值，本申请实施例对视频预览窗口15中所展示的图像数量不做限定。

由图1可知，预览界面一般包括各个视频的文本信息以及预览图像(或者预览图像区域)，预览图像或预览图像区域可以表征对应视频的大致内容，使得用户可以提前了解该视频所要播放的内容。

为了使得预览图像或预览图像区域可以更准确地表示对应视频中的主要内容，也即可以更准确地贴合视频主题，则需要在视频中挑选一个或多个关键帧用于生成预览图像或预览图像区域。

相关技术中，可以通过人工筛选的方式确定各视频的关键帧，但是这样的方式效率较低，也可以通过均匀抽帧的方式确定各视频的关键帧，但是这样的方式无法保证预览图像能够有效代表对应视频的内容。

为了同时保证视频关键帧选取的效率和有效性，本申请实施例提供一种关键帧确定方法，通过目标视频中各个候选帧与目标视频文本信息的相关程度，选取相关程度较高的一个或多个候选帧作为目标视频的关键帧。

其中，该方法可以应用于电子设备，电子设备可以是终端或者服务器，终端可以是智能手机、平板电脑或者个人计算机(Personal Computer，PC)等，服务器可以是单个服务器，也可以是以分布式方式配置的服务器集群，还可以是云服务器。

具体的，如图2所示，图2为本申请实施例提供的一种关键帧确定方法的流程图。

如图2所示，在确定目标视频中目标关键帧的过程中，电子设备可以获取目标视频21和目标视频的文本信息22，其中，文本信息22可以是目标视频21的视频标题，也可以是目标视频21的简介信息，也可以是其他文本类的信息。

然后，电子设备可以确定目标视频21中的多个候选帧23，如图2所示，候选帧23的数量为8，也就是说在图2中，电子设备从目标视频21中确定了8个候选帧23，另外，图2仅为本申请实施例的一种举例，在实际应用中，候选帧的数量可以是预先设置的任意自然数。

同时，电子设备还可以确定文本信息22中的多个关键词24，如图2所示，关键词的数量为4，也就是说在图2中，电子设备从文本信息22中确定了4个关键词24，在实际应用中，关键词的数量会根据文本信息的内容决定，另外，关键词既可以是中文，也可以是其他语种的文字(例如英文)，例如，当关键词是中文时，关键词可以是由单个汉字所组成的词，也可以是由多个汉字所组成的词，当关键词是英文是，关键词可以是由单个英文单词所组成的词，也可以是多个英文单词所组成的词组，当然，关键词也可以是由其他语种的词汇。

当电子设备确定各候选帧23以及各关键词24后，可以确定各候选帧23以及各关键词24之间的相似度，以图2为例，图2中包括8个候选帧23以及4个关键词24，当确定各候选帧23以及各关键词24之间的相似度时，需要确定每个候选帧23和每个关键词24之间的相似度，在图2中，即可以确定32个相似度。

当确定各候选帧23以及各关键词24之间的相似度后，可以将相似度最高的一个或多个候选帧23确定为目标视频21的目标关键帧，其中，候选帧23与关键词24的相似度越高，则表征该候选帧23与目标视频21的内容相关程度越高，进而表征该候选帧23的代表性越强。

下面将结合具体实施方式，对本申请实施例提供的一种关键帧确定方法进行详细的说明，如图3所示，具体步骤如下：

在步骤31，获取目标视频以及目标视频对应的文本信息。

其中，目标视频可以是视频平台上线的自制视频(长视频、短视频等等)，也可以是影视剧、体育赛事视频等等，本申请实施例对此不做限定，文本信息可以是目标视频对应的视频标题，也可以是目标视频的内容简介等等。

在步骤32，确定目标视频对应的各候选帧。

在本申请实施例中，候选帧是目标视频中的视频帧，电子设备可以确定目标视频中的一个候选帧，也可以确定目标视频中的多个候选帧。

另外，步骤32与下文中的步骤33可以是顺序执行的步骤，也可以是分别执行的两个步骤，也就是说，在本申请实施例中，可以先执行步骤32再执行步骤33，也可以先执行步骤33再执行步骤32，还可以并行地执行步骤32和步骤33。

在一种可选的实施方式中，步骤32可以执行为：确定目标视频中各视频帧之间像素差异度数值，基于各视频帧之间的像素差异度数值，确定目标视频中的多个视频子片段，对各视频子片段进行抽帧处理，确定多个候选帧。

其中，像素差异度数值可以由相邻两个视频帧的像素值之差的绝对值计算，例如，在计算相邻两个视频帧的像素差异度数值时，可以先计算该两个视频帧各个对应位置的像素点之间的像素值之差的绝对值，然后，计算所有绝对值的平均值，并将该平均值作为这两个视频帧的像素差异度数值。

在本申请实施例中，像素差异度数值越大，则表征两个视频帧之间的差别越大，也即这两个视频帧的内容相差的越多。在确定目标视频中的多个视频子片段时，可以取像素差异度数值最大的一个或多个位置作为切分的，将目标视频切分为多个视频子片段，这样，就可以将目标视频中内容连贯的部分作为一个视频子片段，将目标视频中内容不连贯的部分切分为多个视频子片段。

在一种可选的实施方式中，基于各像素差异度数值确定目标视频中的多个视频子片段的过程，具体可以执行为：基于各像素差异度数值中数值最大的N个像素差异度数值所对应的位置，对目标视频进行切分处理，确定多个中间片段，将各中间片段中持续时长小于预定时长阈值的中间片段滤除，确定多个视频子片段。

其中，N为任意适用的自然数，预定时长阈值可以是预先设定的任意适用的数值，本申请实施例对N的取值以及预定时长阈值的数值不做具体限定。

例如，如图4所示，图4为本申请实施例提供的一种确定视频子片段过程的示意图，该示意图包括：目标视频41，其中，目标视频41包括中间片段411、中间片段412、中间片段413和中间片段414。

如图4所示，目标视频41经过切分处理后，得到4个内容连续的片段，即中间片段411-414，其中，中间片段411和中间片段414为较短的中间片段，其内容有很大概率无法表征目标视频41的内容，因此，当得到中间片段411-414后，可以将时长较短的中间片段411和中间片段414滤除，保留中间片段412和中间片段413作为目标视频41的视频子片段。

进而，当确定目标视频的多个视频子片段后，可以对各视频子片段进行抽帧处理，确定多个候选帧。

其中，抽帧处理可以采用均匀抽帧的方式，这样，可以提高抽帧的效率。

在步骤33，确定文本信息对应的各关键词。

其中，关键词既可以是中文，也可以是其他语种的文字(例如英文)。例如，当关键词是中文时，关键词可以是由单个汉字所组成的词，也可以是由多个汉字所组成的词，当关键词是英文是，关键词可以是由单个英文单词所组成的词，也可以是多个英文单词所组成的词组，当然，关键词也可以是由其他语种的词汇。

另外，步骤33与上文中的步骤32可以是顺序执行的步骤，也可以是分别执行的两个步骤，也就是说，在本申请实施例中，可以先执行步骤32再执行步骤33，也可以先执行步骤33再执行步骤32，还可以并行地执行步骤32和步骤33。

在本申请实施例中，可以通过自然语言处理工具对文本信息进行分词处理，例如针对中文，可以通过Python中文分词组件jieba实现对中文文本信息进行分词处理，其中，Python是一种计算机编程语言，jieba是Python下的中文分词组件，具体的，jieba可以基于前缀词典语料库实现实现精准的词语扫描，生成句子中汉字所有可能成词的情况，然后采用了动态规划查找最大概率路径，找出基于词频的最大切分组合，然后，jieba还可以实现对无意义的连词等词语进行滤除，以确定关键词。

在一种可选的实施方式中，确定文本信息对应的各关键词的过程可以执行为：对文本信息进行分词处理，确定包括多个候选词的词集合，将各候选词中的无关词从词集合中滤除，确定多个关键词。

通过本申请实施例，可以实现对文本信息进行有效的信息提取，即滤除无用信息，保留有效信息，以确定各个关键词。

在步骤34，基于各候选帧与各关键词之间的相似度，从各候选帧中确定目标关键帧。

其中，各候选帧与各关键词之间的相似度可以通过各候选帧与各关键词的特征向量计算，在确定各候选帧与各关键词之间的相似度之后，可以基于该相似度确定目标关键帧，具体的，如图5所示，步骤34可以包括如下步骤：

在步骤341，基于预先训练的图像处理模型，确定各候选帧的第一候选帧特征向量。

其中，图像处理模型可以是卷积神经网络(Convolutional Neural Networks，CNN)模型，例如，图像处理模型可以是基于ImageNet训练的inception net V3模型，其中，ImageNet是一个用于视觉对象识别软件研究的大型可视化数据库，其具有丰富的图像数据，可用于对图像处理模型进行训练，inception net是一种CNN模型，其包括V1、V2、V3和V4等多种版本，上述inception net V3中的V3即为inception net的V3版本，在本申请实施例中，inception net可以通过卷积运算，确定各候选帧的第一候选帧特征向量。

另外，步骤341与下文中的步骤342可以是顺序执行的步骤，也可以是分别执行的两个步骤，也就是说，在本申请实施例中，可以先执行步骤341再执行步骤342，也可以先执行步骤342再执行步骤341，还可以并行地执行步骤341和步骤342。

例如，如图6所示，图6为本申请实施例提供的一种确定各候选帧的第一候选帧特征向量过程的流程图。

当电子设备确定目标视频61对应的各候选帧62后，可以将各候选帧62输入预先训练的CNN模型63，以确定各候选帧62对应的第一候选帧特征向量64。

其中，图6所示的CNN模型63即为图像处理模型，如图6所示，目标视频61对应8个候选帧62，因此，通过CNN模型63的特征提取后，可以确定该8个候选帧62分别对应的第一候选帧特征向量64，也即可以确定8个第一候选帧特征向量64。

在步骤342，基于预先训练的文本处理模型，确定各关键词的第一关键词特征向量。

其中，文本处理模型可以是循环神经网络(Recurrent Neural Network，RNN)模型，例如，文本处理模型可以是skip gram模型，skip gram模型是一种自然语言处理模型，在本申请实施例中可以通过skip gram模型对关键词进行特征提取，以确定各关键词的第一关键词特征向量。

另外，步骤342与上文中的步骤341可以是顺序执行的步骤，也可以是分别执行的两个步骤，也就是说，在本申请实施例中，可以先执行步骤341再执行步骤342，也可以先执行步骤342再执行步骤341，还可以并行地执行步骤341和步骤342。

例如，如图7所示，图7为本申请实施例提供的一种确定各关键词的第一关键词特征向量过程的流程图。

当电子设备确定目标视频的文本信息71中的各关键词72后，可以将各关键词72输入预先训练的RNN模型73，以确定各关键词72对应的第一关键词特征向量74。

其中，图7所示的RNN模型73即为文本处理模型，如图7所示，文本信息71对应4个关键词72，因此，通过RNN模型73的特征提取后，可以确定该4个关键词72分别对应的第一关键词特征向量74，也即可以确定4个第一关键词特征向量74。

在步骤343，确定各第一候选帧特征向量和各第一关键词特征向量之间的相似度。

在实际应用中，由于各第一候选帧特征向量和各第一关键词特征向量属于不同维度的两种特征向量，因此，这两种特征向量无法直接进行比较以确定相似度。在本申请实施例中，为了使得这两种特征向量可以进行比较，本申请实施例将这两种特征向量映射至同一子空间下，以使得可以计算这两种特征向量之间的相似度。

具体的，步骤343可以执行为：将各第一候选帧特征向量和各第一关键词特征向量输入预先训练的多模态子空间嵌入模型，确定每个第一候选帧特征向量对应的第二候选帧特征向量以及每个第一关键词特征向量对应的第二关键词特征向量，确定各第二候选帧特征向量和各第二关键词特征向量之间的特征相似度。

其中，多模态子空间嵌入模型用于将不同维度的特征向量映射至同一子空间中，具体的，该多模态子空间嵌入模型基于多个自动编码(autoencoder，AE)模型构建。

AE模型是一类在半监督学习和非监督学习中使用的人工神经网络(ArtificialNeural Networks，ANNs)，其功能是通过将输入信息作为学习目标，对输入信息进行表征学习，AE模型具有一般意义上表征学习算法的功能，可以被应用于降维(dimensionalityreduction)处理。

例如，如图8所示，图8为本申请实施例提供的一种确定各第一候选帧特征向量和各第一关键词特征向量之间的相似度过程的流程图。

在确定相似度89的过程中，本申请实施例可以基于预先训练的CNN模型83确定各候选帧81所对应的1024维特征向量85(即第一候选帧特征向量)，由于有8个候选帧81，所以CNN模型83可以输出8个1024维特征向量85。

同时，本申请实施例还可以基于预先训练的RNN模型84确定各关键词82所对应的512维特征向量86(即第一关键词特征向量)，由于有4个关键词82，所以RNN模型84可以输出4个512维特征向量86。

在确定各1024维特征向量85和各512维特征向量86之后，本申请实施例可以将各1024维特征向量85输入autoencoder模型871，经过autoencoder模型871的降维处理，可以确定各1024维特征向量85对应的256维特征向量，同时，本申请实施例可以将各512维特征向量86输入autoencoder模型872，经过autoencoder模型872的降维处理，可以确定各512维特征向量86对应的256维特征向量。

经过autoencoder模型871和autoencoder模型872的降维处理，可以将各1024维特征向量85和各512维特征向量86映射到同一特征子空间中，即256维特征子空间88。

在256维特征子空间88中，各候选帧81和各关键词82的特征向量均为256维，也就是说，通过多模态子空间嵌入模型87的处理，各候选帧81和各关键词82的特征向量均被降维至256维，进而各候选帧81和各关键词82的特征向量可以进行相似度计算。

其中，相似度可以通过特征向量之间的欧式距离或者余弦距离表示，进而，在图8中，8个候选帧81所对应的8个256维特征向量与4个关键词82所对应的4个256维特征向量之间可以计算得到32个欧式距离或者余弦距离，即通过图8所示的过程可以确定各候选帧81和各关键词82之间的32个相似度89。

通过本申请实施例，可以基于多模态子空间嵌入模型，将两种不同维度的信息进行比较，进而，可以确定这两种不同维度的信息之间的相似度。

在确定各候选帧和各关键词之间的相似度后，可以基于各相似度确定目标关键帧。

在步骤344，基于各相似度确定各候选帧中的目标关键帧。

其中，如图1所示，目标关键帧是用于在视频预览界面中的视频预览窗口进行展示的图像，也就是说，目标关键帧可以是一个也可以是多个。

进而，在本申请实施例中，可以先确定数值最大的一个或多个相似度，然后将这些数值最大的一个或多个相似度所对应的候选帧确定为目标关键帧。

在确定一个或多个目标关键帧后，可以将该一个或多个目标关键帧作为目标视频的预览图像，并在视频预览界面进行展示。

基于相同的技术构思，本申请实施例还提供了一种关键帧确定装置，如图9所示，该装置包括：获取模块91、候选帧模块92、关键词模块93和目标关键帧模块94。

获取模块91，用于获取目标视频以及所述目标视频对应的文本信息。

候选帧模块92，用于确定所述目标视频对应的各候选帧。

关键词模块93，用于确定所述文本信息对应的各关键词。

目标关键帧模块94，用于基于各候选帧与各关键词之间的相似度，从各候选帧中确定目标关键帧。

可选的，所述目标关键帧模块94，具体用于：

基于预先训练的图像处理模型，确定各候选帧的第一候选帧特征向量。

基于预先训练的文本处理模型，确定各关键词的第一关键词特征向量。

确定各第一候选帧特征向量和各第一关键词特征向量之间的相似度。

基于各相似度确定各候选帧中的目标关键帧。

可选的，所述目标关键帧模块94，具体用于：

将各第一候选帧特征向量和各第一关键词特征向量输入预先训练的多模态子空间嵌入模型，确定每个第一候选帧特征向量对应的第二候选帧特征向量以及每个第一关键词特征向量对应的第二关键词特征向量，其中，所述多模态子空间嵌入模型用于将不同维度的特征向量映射至同一子空间中。

确定各第二候选帧特征向量和各第二关键词特征向量之间的特征相似度。

可选的，所述多模态子空间嵌入模型基于多个自动编码模型构建。

可选的，所述候选帧模块92，具体用于：

确定所述目标视频中各视频帧之间像素差异度数值。

基于各视频帧之间的像素差异度数值，确定所述目标视频中的多个视频子片段。

对各视频子片段进行抽帧处理，确定多个候选帧。

可选的，所述候选帧模块92，具体用于：

基于各像素差异度数值中数值最大的N个像素差异度数值所对应的位置，对所述目标视频进行切分处理，确定多个中间片段。

将各中间片段中持续时长小于预定时长阈值的中间片段滤除，确定多个视频子片段。

可选的，所述关键词模块93，具体用于：

对所述文本信息进行分词处理，确定包括多个候选词的词集合。

将各候选词中的无关词从所述词集合中滤除，确定多个关键词。

图10是本申请实施例的电子设备的示意图。如图10所示，图10所示的电子设备为通用地址查询装置，其包括通用的计算机硬件结构，其至少包括处理器101和存储器102。处理器101和存储器102通过总线103连接。存储器102适于存储处理器101可执行的指令或程序。处理器101可以是独立的微处理器，也可以是一个或者多个微处理器集合。由此，处理器101通过执行存储器102所存储的指令，从而执行如上所述的本申请实施例的方法流程实现对于数据的处理和对于其它装置的控制。总线103将上述多个组件连接在一起，同时将上述组件连接到显示控制器104和显示装置以及输入/输出(I/O)装置105。输入/输出(I/O)装置105可以是鼠标、键盘、调制解调器、网络接口、触控输入装置、体感输入装置、打印机以及本领域公知的其他装置。典型地，输入/输出装置105通过输入/输出(I/O)控制器106与系统相连。

本领域的技术人员应明白，本申请的实施例可提供为方法、装置(设备)或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可读存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品。

本申请是参照根据本申请实施例的方法、装置(设备)和计算机程序产品的流程图来描述的。应理解可由计算机程序指令实现流程图中的每一流程。

这些计算机程序指令可以存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现流程图一个流程或多个流程中指定的功能。

也可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程中指定的功能的装置。

本申请的另一实施例涉及一种非易失性存储介质，用于存储计算机可读程序，所述计算机可读程序用于供计算机执行上述部分或全部的方法实施例。

即，本领域技术人员可以理解，实现上述实施例方法中的全部或部分步骤是可以通过程序来指定相关的硬件来完成，该程序存储在一个存储介质中，包括若干指令用以使得一个设备(可以是单片机，芯片等)或处理器(processor)执行本申请各实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

本申请的另一实施例涉及一种计算机程序产品，包括计算机程序/指令，计算机程序/指令被处理器执行时可以实现上述部分或全部的方法实施例。

即，本领域技术人员可以理解，本申请实施例可以通过处理器执行计算机程序产品(计算机程序/指令)来指定相关的硬件(包括处理器自身)，进而实现上述实施例方法中的全部或部分步骤。

以上所述仅为本申请的优选实施例，并不用于限制本申请，对于本领域技术人员而言，本申请可以有各种改动和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

本身实施例公开了TS1、一种关键帧确定方法，其中，所述方法包括：

获取目标视频以及所述目标视频对应的文本信息；

确定所述目标视频对应的各候选帧；

确定所述文本信息对应的各关键词；以及

TS2、如TS1所述的方法，其中，所述基于各候选帧与各关键词之间的相似度，从各候选帧中确定目标关键帧，包括：

基于预先训练的图像处理模型，确定各候选帧的第一候选帧特征向量；

基于预先训练的文本处理模型，确定各关键词的第一关键词特征向量；

确定各第一候选帧特征向量和各第一关键词特征向量之间的相似度；以及

基于各相似度确定各候选帧中的目标关键帧。

TS3、如TS2所述的方法，其中，所述确定各第一候选帧特征向量和各第一关键词特征向量之间的相似度，包括：

将各第一候选帧特征向量和各第一关键词特征向量输入预先训练的多模态子空间嵌入模型，确定每个第一候选帧特征向量对应的第二候选帧特征向量以及每个第一关键词特征向量对应的第二关键词特征向量，其中，所述多模态子空间嵌入模型用于将不同维度的特征向量映射至同一子空间中；以及

TS4、如TS3所述的方法，其中，所述多模态子空间嵌入模型基于多个自动编码模型构建。

TS5、如TS1所述的方法，其中，所述确定所述目标视频对应的各候选帧，包括：

确定所述目标视频中各视频帧之间像素差异度数值；

基于各视频帧之间的像素差异度数值，确定所述目标视频中的多个视频子片段；以及

对各视频子片段进行抽帧处理，确定多个候选帧。

TS6、如TS5所述的方法，其中，所述基于各视频帧之间的像素差异度数值，确定所述目标视频中的多个视频子片段，包括：

基于各像素差异度数值中数值最大的N个像素差异度数值所对应的位置，对所述目标视频进行切分处理，确定多个中间片段；以及

TS7、如TS1所述的方法，其中，所述确定所述文本信息对应的各关键词，包括：

对所述文本信息进行分词处理，确定包括多个候选词的词集合；以及

TS8、一种关键帧确定装置，其中，所述装置包括：

获取模块，用于获取目标视频以及所述目标视频对应的文本信息；

候选帧模块，用于确定所述目标视频对应的各候选帧；

关键词模块，用于确定所述文本信息对应的各关键词；以及

TS9、如TS8所述的装置，其中，所述目标关键帧模块，具体用于：

基于各相似度确定各候选帧中的目标关键帧。

TS10、如TS9所述的装置，其中，所述目标关键帧模块，具体用于：

TS11、如TS10所述的装置，其中，所述多模态子空间嵌入模型基于多个自动编码模型构建。

TS12、如TS8所述的装置，其中，所述候选帧模块，具体用于：

确定所述目标视频中各视频帧之间像素差异度数值；

对各视频子片段进行抽帧处理，确定多个候选帧。

TS13、如TS12所述的装置，其中，所述候选帧模块，具体用于：

TS14、如TS8所述的装置，其中，所述关键词模块，具体用于：

TS15、一种电子设备，包括存储器和处理器，其中，所述存储器用于存储一条或多条计算机程序指令，其中，所述一条或多条计算机程序指令被所述处理器执行以实现如TS1-TS7中任一项所述的方法。

TS16、一种计算机可读存储介质，其中，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现TS1-TS7任一项所述的方法。

TS17、一种计算机程序产品，包括计算机程序/指令，其中，所述计算机程序/指令被处理器执行时实现TS1-TS7任一项所述的方法。

Claims

1.一种关键帧确定方法，其特征在于，所述方法包括：

获取目标视频以及所述目标视频对应的文本信息；

确定所述目标视频对应的各候选帧；

确定所述文本信息对应的各关键词；以及

2.根据权利要求1所述的方法，其特征在于，所述基于各候选帧与各关键词之间的相似度，从各候选帧中确定目标关键帧，包括：

基于各相似度确定各候选帧中的目标关键帧。

3.根据权利要求2所述的方法，其特征在于，所述确定各第一候选帧特征向量和各第一关键词特征向量之间的相似度，包括：

4.根据权利要求1所述的方法，其特征在于，所述确定所述目标视频对应的各候选帧，包括：

确定所述目标视频中各视频帧之间像素差异度数值；

对各视频子片段进行抽帧处理，确定多个候选帧。

5.根据权利要求4所述的方法，其特征在于，所述基于各视频帧之间的像素差异度数值，确定所述目标视频中的多个视频子片段，包括：

6.根据权利要求1所述的方法，其特征在于，所述确定所述文本信息对应的各关键词，包括：

7.一种关键帧确定装置，其特征在于，所述装置包括：

候选帧模块，用于确定所述目标视频对应的各候选帧；

关键词模块，用于确定所述文本信息对应的各关键词；以及

8.一种电子设备，包括存储器和处理器，其特征在于，所述存储器用于存储一条或多条计算机程序指令，其中，所述一条或多条计算机程序指令被所述处理器执行以实现如权利要求1-6中任一项所述的方法。

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现权利要求1-6任一项所述的方法。

10.一种计算机程序产品，包括计算机程序/指令，其特征在于，所述计算机程序/指令被处理器执行时实现权利要求1-6任一项所述的方法。