CN115134631B

CN115134631B - 视频处理方法和视频处理装置

Info

Publication number: CN115134631B
Application number: CN202210876784.9A
Authority: CN
Inventors: 张亚星; 张博威
Original assignee: Beijing Dajia Internet Information Technology Co Ltd
Current assignee: Beijing Dajia Internet Information Technology Co Ltd
Priority date: 2022-07-25
Filing date: 2022-07-25
Publication date: 2024-01-30
Anticipated expiration: 2042-07-25
Also published as: CN115134631A

Abstract

本公开提供一种视频处理方法和视频处理装置。所述方法可包括：从多个视频中确定每个视频是否包括事件时间信息，其中，事件时间信息用于指示视频中的事件的发生时间；基于确定的结果，将多个视频分类为包括事件时间信息的第一视频和不包括事件时间信息的第二视频；基于第一视频与第二视频之间的相似度，将第一视频的所述事件时间信息分配给第二视频。本公开能够使用户尽可能看到最新的资讯视频，从而更好地提升用户体验。

Description

视频处理方法和视频处理装置

技术领域

本公开涉及视频处理技术领域，尤其涉及一种用于确定视频中的事件时间的视频处理方法和视频处理装置。

背景技术

在搜索场景中，资讯类热点视频具有一定的时效性，时效性是对搜索结果新旧程度的衡量，在满足需求的前提下，用户天然希望看到更新的资源。特别是当前的热点事件，涵盖新闻舆论、社会热点、体育赛事等，用户会更希望看到关于事件最新的进展消息。但是，目前在热度搜索库中出现的视频，默认视频中描述事件的发生时间与视频的上传时间一样，会认为视频中事件的发生时间就是视频上传时的时间，实际上并非如此。这样会导致用户可能看不到最新的相关视频，甚至导致出现旧闻新发的问题。例如，在NBA赛事期间，会有往年比赛直播的视频透出等，这会极大地影响用户体验。

发明内容

本公开提供一种视频处理方法和视频处理装置，以至少解决上述提及的问题。

根据本公开实施例的第一方面，提供一种视频处理方法，所述方法可包括：从多个视频中确定每个视频是否包括事件时间信息，其中，所述事件时间信息用于指示视频中的事件的发生时间；基于所述确定的结果，将所述多个视频分类为包括所述事件时间信息的第一视频和不包括所述事件时间信息的第二视频；基于第一视频与第二视频之间的相似度，将第一视频的所述事件时间信息分配给第二视频。

作为一种实施方式，从多个视频中确定每个视频是否包括事件时间信息，可包括：针对所述多个视频中的每个视频，通过对所述视频的画面进行字符识别来获得所述视频的图像文本信息，并且通过对所述视频中的音频进行语音识别来获得所述视频的音频文本信息；从所述图像文本信息和/或所述音频文本信息中提取每个视频的事件时间信息。

作为一种实施方式，从所述图像文本信息和/或所述音频文本信息中提取每个视频的事件时间信息，可包括：针对所述多个视频中的每个视频，当从所述图像文本信息和/或所述音频文本信息中提取出多个时间时，将距离当前时间最近的时间作为所述视频中的事件的发生时间。

作为一种实施方式，基于第一视频与第二视频之间的相似度，将第一视频的所述事件时间信息分配给第二视频，可包括：将每个第一视频分别与每个第二视频进行配对；若配对的第一视频与第二视频之间的相似度满足预设阈值，则将第一视频的所述事件时间信息分配给与之配对的第二视频。

作为一种实施方式，在将每个第一视频分别与每个第二视频进行配对之后，所述方法还可包括：将配对的第一视频和第二视频输入至相似事件判别模型，得到配对的第一视频与第二视频之间的相似度。

作为一种实施方式，所述相似事件判别模型可基于以下方式训练获得：获取多个训练样本，其中，每个训练样本包括配对的视频和对所述视频进行标注的标签并且所述多个训练样本被分为训练集和验证集；基于所述训练集中的第一视频对，使用所述相似事件判别模型来预测所述第一视频对的标签；基于预测的标签和所述训练集中的相应标签来调整所述相似事件判别模型的参数；基于所述验证集中的第二视频对，使用参数调整后的相似事件判别模型来预测所述第二视频对的标签；对所述第二视频对和预测的所述第二视频对的标签进行评估；根据评估结果对所述训练集中的训练样本和/或所述相似事件判别模型的参数进行调整，直到评估结果达到预设条件。

作为一种实施方式，将每个第一视频分别与每个第二视频进行配对，可包括：确定所述多个视频的区域信息和人物信息中的至少一个，其中，所述区域信息包括视频中的事件的发生区域，所述人物信息包括视频中的与事件相关的人物名称；基于所述区域信息和所述人物信息中的至少一个对所述多个视频中的至少部分视频进行分类；并且将属于同一区域类别的视频集中的每个第一视频与第二视频进行配对，和/或将属于同一人物类别的视频集中的每个第一视频与第二视频进行配对。

作为一种实施方式，基于所述区域信息和所述人物信息中的至少一个对所述多个视频中的至少部分视频进行分类，可包括：针对所述至少部分视频中的每个视频，当所述视频中出现多个区域时，将所述视频划分到与所述视频中出现次数最多的区域对应的区域类别；和/或针对所述至少部分视频中的每个视频，当所述视频中出现多个人物时，将所述视频同时划分到与所述多个人物对应的多个人物类别。

作为一种实施方式，在将属于同一区域类别的视频集中的每个第一视频与第二视频进行配对和/或将属于同一人物类别的视频集中的每个第一视频与第二视频进行配对之后，所述方法还可包括：将属于同一区域类别的视频集中的配对的第一视频与第二视频输入第一相似事件判别模型，得到配对视频的第一相似度；在第一相似度满足第一阈值时，将第一视频的事件时间分配给与之配对的第二视频；将属于同一人物类别的视频集中的第一视频与第二视频输入第二相似事件判别模型，得到配对视频的第二相似度；在第二相似度满足第二阈值时，将第一视频的事件时间分配给与之配对的第二视频。

作为一种实施方式，将属于同一人物类别的视频集中的第一视频与第二视频输入第二相似事件判别模型，得到配对视频的第二相似度，可包括：从所述多个视频中去除已基于第一相似度分配有事件时间的第二视频，以得到另一视频集；基于所述人物信息对所述另一视频集进行分类并且将属于同一人物类别的视频集中的每个第一视频与第二视频进行配对；将所述另一视频集中的属于同一人物类别的配对的第一视频与第二视频输入第二相似事件判别模型，得到配对视频的第二相似度。

根据本公开实施例的第二方面，提供一种视频处理装置，所述装置可包括：确定模块，被配置为从多个视频中确定每个视频是否包括事件时间信息，其中，所述事件时间信息用于指示视频中的事件的发生时间；分类模块，被配置为基于所述确定的结果，将所述多个视频分类为包括所述事件时间信息的第一视频和不包括所述事件时间信息的第二视频；配对模块，被配置为基于第一视频与第二视频之间的相似度，将第一视频的所述事件时间信息分配给第二视频。

作为一种实施方式，确定模块可被配置为：针对所述多个视频中的每个视频，通过对所述视频的画面进行字符识别来获得所述视频的图像文本信息，并且通过对所述视频中的音频进行语音识别来获得所述视频的音频文本信息；从所述图像文本信息和/或所述音频文本信息中提取每个视频的事件时间信息。

作为一种实施方式，确定模块可被配置为：针对所述多个视频中的每个视频，当从所述图像文本信息和/或所述音频文本信息中提取出多个时间时，将距离当前时间最近的时间作为所述视频中的事件的发生时间。

作为一种实施方式，配对模块可被配置为：将每个第一视频分别与每个第二视频进行配对；若配对的第一视频与第二视频之间的相似度满足预设阈值，则将第一视频的所述事件时间信息分配给与之配对的第二视频。

作为一种实施方式，配对模块可被配置为：将配对的第一视频和第二视频输入至相似事件判别模型，得到配对的第一视频与第二视频之间的相似度。

作为一种实施方式，分类模块可被配置为：确定所述多个视频的区域信息和人物信息中的至少一个，其中，所述区域信息包括视频中的事件的发生区域，所述人物信息包括视频中的与事件相关的人物名称；基于所述区域信息和所述人物信息中的至少一个对所述多个视频中的至少部分视频进行分类；并且配对模块，被配置为将属于同一区域类别的视频集中的每个第一视频与第二视频进行配对，和/或将属于同一人物类别的视频集中的每个第一视频与第二视频进行配对。

作为一种实施方式，分类模块可被配置为：针对所述至少部分视频中的每个视频，当所述视频中出现多个区域时，将所述视频划分到与所述视频中出现次数最多的区域对应的区域类别；和/或针对所述至少部分视频中的每个视频，当所述视频中出现多个人物时，将所述视频同时划分到与所述多个人物对应的多个人物类别。

作为一种实施方式，配对模块可被配置为：将属于同一区域类别的视频集中的配对的第一视频与第二视频输入第一相似事件判别模型，得到配对视频的第一相似度；在第一相似度满足第一阈值时，将第一视频的事件时间分配给与之配对的第二视频；将属于同一人物类别的视频集中的第一视频与第二视频输入第二相似事件判别模型，得到配对视频的第二相似度；在第二相似度满足第二阈值时，将第一视频的事件时间分配给与之配对的第二视频。

作为一种实施方式，配对模块可被配置为：从所述多个视频中去除已基于第一相似度分配有事件时间的第二视频，以得到另一视频集；基于所述人物信息对所述另一视频集进行分类并且将属于同一人物类别的视频集中的每个第一视频与第二视频进行配对；将所述另一视频集中的属于同一人物类别的配对的第一视频与第二视频输入第二相似事件判别模型，得到配对视频的第二相似度。

根据本公开实施例的第三方面，提供一种电子设备，所述电子设备可包括：至少一个处理器；至少一个存储计算机可执行指令的存储器，其中，所述计算机可执行指令在被所述至少一个处理器运行时，促使所述至少一个处理器执行如上所述的视频处理方法。

根据本公开实施例的第四方面，提供一种计算机可读存储介质，存储有指令，当所述指令被至少一个处理器运行时，促使所述至少一个处理器执行如上所述的视频处理方法。

根据本公开实施例的第五方面，提供一种计算机程序产品，所述计算机程序产品中的指令被电子装置中的至少一个处理器运行以执行如上所述的视频处理方法。

本公开的实施例提供的技术方案至少带来以下有益效果：

通过精准地识别视频中事件的发生时间来代替视频的上传时间，解决了在资讯类热点视频的搜索场景下，由于视频中事件发生时间与视频上传时间不一致而导致无法筛选出最新的视频呈现给用户，甚至导致旧闻新发的问题，保证了用户尽可能看到最新的资讯视频，从而更好地提升用户体验。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理，并不构成对本公开的不当限定。

图1是根据本公开的实施例的视频处理方法的流程图；

图2是根据本公开的另一实施例的视频处理方法的流程图；

图3是根据本公开的实施例的视频处理装置的框图；

图4是根据本公开的实施例的视频处理设备的结构示意图；

图5是根据本公开的实施例的电子设备的框图。

在整个附图中，应注意，相同的参考标号用于表示相同或相似的元件、特征和结构。

具体实施方式

为了使本领域普通人员更好地理解本公开的技术方案，下面将结合附图，对本公开实施例中的技术方案进行清楚、完整地描述。

提供参照附图的以下描述以帮助对由权利要求及其等同物限定的本公开的实施例的全面理解。包括各种特定细节以帮助理解，但这些细节仅被视为是示例性的。因此，本领域的普通技术人员将认识到在不脱离本公开的范围和精神的情况下，可对描述于此的实施例进行各种改变和修改。此外，为了清楚和简洁，省略对公知的功能和结构的描述。

以下描述和权利要求中使用的术语和词语不限于书面含义，而仅由发明人用来实现本公开的清楚且一致的理解。因此，本领域的技术人员应清楚，本公开的各种实施例的以下描述仅被提供用于说明目的而不用于限制由权利要求及其等同物限定的本公开的目的。

需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

传统的寻找相同事件相似视频的方法，一般是通过先从视频中提取出事件要素(包括触发词、事件类型、论元和论元角色)，然后再对事件要素进行匹配或者对事件要素进行聚类，找到描述相同事件的相似视频，从而完成视频中的事件时间的传递。一种事件抽取的方法是模式匹配方法，即在一些模式的指导下进行事件的识别和抽取。模式主要用于指明构成目标信息的上下文约束环，集中体现了领域知识和语言知识的融合。在事件抽取时只要通过各种模式匹配算法找出符合模式约束条件的信息即可。模式匹配方式在特定领域内能取得较高的性能，但其核心是抽取模式的创建，初始模式主要通过手工方法来建立，这种方式费时费力，并且要求创建用户具有较高的技能水平，移植性较差。

此外，使用机器学习方法抽取事件各元素的方法可采用神经网络来构建有监督多元分类任务，主要包括两个步骤：特征选择和分类模型。相比模式匹配方法，机器学习方法可以从互联网上获取海量文本资源进行学习，无需手动构建规则模式，移植性较好。但是标准的标注事件集较少，视频数据较旧，并且海量数据需要大量人工标注，耗时费力。另外事件类型多种多样，不同领域也不尽相同，使得该方法周期长、通用性差，难以在有限时间内快速解决实际问题。

发明人在研究中发现，有些视频中包括时间信息，有些视频中可能有多个时间，有些视频中没有直接的时间信息，因此，可先应用规则、模式等提取出视频中的时间信息，然后通过在有时间的视频和没有时间的视频之间，寻找描述同一事件的相似视频来完成时间信息的传递，扩大视频事件时间的覆盖范围。

在下文中，根据本公开的各种实施例，将参照附图对本公开的方法、装置和设备进行详细描述。

图1是根据本公开的实施例的视频处理方法的流程图。根据本公开的视频处理方法可被应用于任何场景下的相似视频之间的事件时间传递，尤其是针对资讯类热点视频的搜索场景。

根据本公开的视频处理方法可由任意具有数据处理功能的电子设备执行。电子设备可以是智能手机、平板电脑、便携式计算机、台式计算机、服务器等中的至少一种。

参照图1，在步骤S101，从多个视频中确定每个视频是否包括事件时间信息。事件时间信息用于指示视频中的事件的发生时间。

获取的多个视频可包括针对同一事件拍摄的视频和针对不同事件拍摄的视频。这里，事件可指视频中所包括的视频内容。例如，不同的用户可对同一场足球比赛拍摄视频并且将拍摄的视频上传到服务器，或者用户可对不同的风景拍摄视频并且将拍摄的视频上传到服务器。获取的视频可以是同一用户针对不同事件拍摄的视频、不同用户针对同一事件拍摄的视频等。

针对获取的多个视频中的每个视频，可通过对每个视频的画面进行光学字符识别来获得每个视频的图像文本信息，可通过对每个视频中的音频进行自动语音识别来获得每个视频的音频文本信息。光学字符识别技术是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符，通过检测暗、亮的模式确定其形状，然后用字符识别方法将形状翻译成计算机文字的过程，即针对印刷体字符，采用光学的方式将纸质文档中的文字转换成为黑白点阵的图像文件，并通过识别软件将图像中的文字转换成文本格式，供文字处理软件进一步编辑加工的技术。自动语音识别技术是一种将人的语音转换为文本的技术。

根据本公开的实施例，还可获取视频中用户针对视频内容所编辑或上传的文本信息，例如，用户上传视频的上传事件信息等。

上述示例仅是示例性的，本公开可采用其他的识别技术来获取视频所涉及的文本信息。

接下来，可从视频的图像文本信息和/或音频文本信息等文本信息中提取每个视频的事件时间信息。

可基于获取的文本信息确定多个视频的事件时间信息。事件时间信息可包括视频中的事件的发生时间。此外，事件时间信息还可包括指示是否能够从视频中提取出时间的标志，此标志可用于后面的视频划分。

针对获取的多个视频中的每个视频，当从图像文本信息和/或音频文本信息等文本信息中提取出多个时间时，可将距离当前时间最近的时间作为视频中的事件的发生时间。例如，在对视频的相关文本信息进行预处理后，可从中提取符合时间格式的字段并统一成unix时间戳作为视频的事件时间信息。针对获取的多个视频中的每个视频，当基于文本信息从视频中提取出多个时间时，可将距离当前时间最近的时间作为该视频中的事件的发生时间。

在步骤S102，基于上述确定过得结果，可将获取的多个视频分类为包括事件时间信息的第一视频和不包括事件时间信息的第二视频。可将获取的视频分类为有时间视频(即第一视频)集合和无时间视频(即第二视频)集合。这里，有时间视频是指能够从视频中提取出事件时间的视频，无时间视频集合是指不能从视频中提取出事件时间的视频。

在步骤S103，基于第一视频与第二视频之间的相似度，将第一视频的所述事件时间信息分配给第二视频。

首先，可将每个第一视频与每个第二视频进行配对。

作为示例，针对获取的全部视频，可将每个第一视频分别与每个第二视频进行配对。例如，全部视频包括三个有时间视频A、B、C和两个无时间视频D、E，可将有时间视频A分别与无时间视频D、E进行配对，将有时间视频B分别与无时间视频D、E进行配对，并且将有时间视频C分别与无时间视频D、E进行配对。

作为另一示例，可确定获取的多个视频的区域信息和人物信息中的至少一个。例如，可基于获取的文本信息确定获取的多个视频的区域信息和人物信息中的至少一个。这里，区域信息可包括视频中的事件的发生区域，人物信息可包括视频中的与事件相关的人物名称。然后，可基于区域信息和人物信息中的至少一个对获取的多个视频中的至少部分视频进行分类。

对于区域类别，当一个视频中出现多个区域时，可将该视频划分到与该视频中出现次数最多的区域对应的区域类别。

对于人物类别，当一个视频中出现多个人物时，可将该视频同时划分到与这多个人物对应的多个人物类别。

可将属于同一区域类别的视频集中的每个第一视频与第二视频进行配对，并且可将属于同一人物类别的视频集中的每个第一视频与第二视频进行配对。也就是说，可先将视频划分为各个区域类别或人物类别，然后对针对各个类别的视频集中的第一视频和第二视频进行配对，诸如将一个类别的视频集中的每个第一视频分别与该视频集中的每个第二视频进行配对，以形成在该类别中的多个视频对。

本公开在筛选潜在相似视频对时，通过采用对视频中的实体信息进行分桶的策略，过滤了大部分不可能是相似事件的视频对，极大地提高了后面模型的计算效率。

在将每个第一视频分别与每个第二视频进行配对之后，可基于配对的第一视频与第二视频之间的相似度将第一视频的事件时间信息分配给与之配对的第二视频。若配对的第一视频与第二视频之间的相似度满足预设阈值，则可将第一视频的事件时间信息分配给与之配对的第二视频。

作为一种实施方式，在仅基于事件时间信息将获取的视频划分为第一视频和第二视频的情况下，在每个第一视频与每个第二视频配对之后，可将配对的第一视频和第二视频输入至相似事件判别模型，得到配对的第一视频与第二视频之间的相似度。当相似度满足预设阈值时，可将第一视频的事件时间分配给与之配对的第二视频。

作为另一种实施方式，在基于事件时间信息和区域信息将获取的视频划分为属于各个区域类别的第一视频和第二视频的情况下，在将每个区域类别中的第一视频与第二视频配对之后，可将配对的第一视频和第二视频输入至相似事件判别模型得到配对的第一视频与第二视频之间的相似度。当相似度满足预设阈值时，可将第一视频的事件时间分配给与之配对的第二视频。

作为又一种实施方式，在基于事件时间信息和人物信息将获取的视频划分为属于各个人物类别的第一视频和第二视频的情况下，在将每个人物类别中的第一视频与第二视频配对之后，可将配对的第一视频和第二视频输入至相似事件判别模型得到配对的第一视频与第二视频之间的相似度。当相似度满足预设阈值时，可将第一视频的事件时间分配给与之配对的第二视频。

根据本公开的另一实施例，在基于事件时间信息、区域信息和人物信息将获取的视频划分为属于各个人物类别和区域类别的第一视频和第二视频的情况下，可使用第一相似事件判别模型来确定属于同一区域类别的视频集中的配对的第一视频与第二视频之间的第一相似度，在第一相似度满足第一阈值时，将第一视频的事件时间分配给与之配对的第二视频。可使用第二相似事件判别模型来确定属于同一人物类别的视频集中的第一视频与第二视频之间的第二相似度。在第二相似度满足第二阈值时，将第一视频的事件时间分配给与之配对的第二视频。

在这种情况下，如果一个第二视频被分配有多个不同的时间，则可将与该第二视频具有最高相似度的第一视频的事件时间作为该第二视频的事件时间。

根据本公开的另一实施例，可先基于事件时间信息和区域信息将获取的视频划分为属于各个区域类别的第一视频和第二视频，在将每个区域类别中的第一视频与第二视频配对之后，可将配对的第一视频和第二视频输入至第一相似事件判别模型得到配对的第一视频与第二视频之间的第一相似度。在第一相似度满足第一阈值时，可将第一视频的事件时间分配给与之配对的第二视频。然后，从全部视频中去除已基于第一相似度分配有事件时间的第二视频，以得到另一视频集，基于人物信息对该另一视频集进行分类，使用第二相似事件判别模型来确定该另一视频集中的属于同一人物类别的配对的第一视频与第二视频之间的第二相似度，在第二相似度满足第二阈值时，将第一视频的事件时间分配给与之配对的第二视频。

根据本公开的又一实施例，可先基于事件时间信息和人物信息将获取的视频划分为属于各个人物类别的第一视频和第二视频，在将每个人物类别中的第一视频与第二视频配对之后，可将配对的第一视频和第二视频输入至第二相似事件判别模型得到配对的第一视频与第二视频之间的第二相似度。在第二相似度满足第二阈值时，可将第一视频的事件时间分配给与之配对的第二视频。然后，从全部视频中去除已基于第二相似度分配有事件时间的第二视频，以得到另一视频集合，基于区域信息对该另一视频集合进行分类，使用第一相似事件判别模型来确定该另一视频集合中的属于同一区域类别的配对的第一视频与第二视频之间的第一相似度，在第一相似度满足第一阈值时，将第一视频的事件时间分配给与之配对的第二视频。

上述示例仅是示例性的，本公开也可基于视频获取其他域文本信息，从文本信息确定出其他的分类信息，按照上述类似的方式进行分类和配对，以完成相似视频的事件时间传递。

在本公开中，相似事件判别模型可由神经网络构成，并且可基于以下方式训练获得：获取多个训练样本，其中，每个训练样本包括配对的视频和对视频进行标注的标签，基于视频使用相似事件判别模型来预测视频的标签，基于预测的标签和标注的标签来调整相似事件判别模型的参数。

此外，相似事件判别模型也可基于以下方式训练获得。获取多个训练样本，每个训练样本包括配对的视频和对视频进行标注的标签并且多个训练样本被分为训练集和验证集。基于训练集中的第一视频对，使用相似事件判别模型来预测第一视频对的标签；基于预测的标签和训练集中的相应标签来调整相似事件判别模型的参数。基于验证集中的第二视频对，使用参数调整后的相似事件判别模型来预测第二视频对的标签。对第二视频对和预测的第二视频对的标签进行评估。根据评估结果对训练集中的训练样本和/或相似事件判别模型的参数进行调整，直到评估结果达到预设条件。例如，可使用bert模型作为相似事件判别模型。可根据人工标注数据，生成相似事件训练数据(即训练集)，使用相似事件训练数据对bert模型的参数进行调整，选择在验证集上效果最好的模型作为相似事件判别模型。此外，在调整模型参数时，可根据对预测结果的评估结果来调整训练数据和/或后面使用的判断阈值，直到最终模型的评估结果达到要求，同时调整好判断阈值。

可使用同一个相似事件判别模型来预测视频对的相似度，也可针对不同的类别，使用不同的相似事件判别模型来预测对应类别下的视频对的相似度。例如，第一相似事件判别模型和第二相似事件判别模型可使用相同的神经网络结构或不同的神经网络结构构成，在训练时，可使用属于同一区域类别的配对的视频作为训练数据来训练第一相似事件判别模型，使用属于同一人物类别的配对的视频作为训练数据来训练第二相似事件判别模型。第一阈值和第二阈值可在评估模型时被不同地设置。

本公开通过相似事件判别模型寻找描述相似事件的视频来完成事件时间的传递，这与通过识别各个视频的触发词、事件类型、论元、论元角色等事件信息来判断两个视频事件是否相似的方法相比，本公开的方法具有通用性强、可移植、易执行、周期短的特点。

图2是根据本公开的另一实施例的视频处理方法的流程图。

参照图2，在步骤S201，获取视频。获取的视频可包括针对同一事件拍摄的视频和针对不同事件拍摄的视频。这里，事件可指视频中所包括的视频内容。例如，不同的用户可对同一场足球比赛拍摄视频并且将拍摄的视频上传到服务器，或者用户可对不同的风景拍摄视频并且将拍摄的视频上传到服务器。获取的视频可以是同一用户针对不同事件拍摄的视频、不同用户针对同一事件拍摄的视频等。

在步骤S202，获取视频的各域文本。这里，各域文本可包括用户针对视频编辑或上传的文本、对视频图像进行光学字符识别(Optical Character Recognition，OCR)识别的文本以及对视频语音进行自动语音识别(Automatic Speech Recognition，ASR)识别的文本。OCR是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符，通过检测暗、亮的模式确定其形状，然后用字符识别方法将形状翻译成计算机文字的过程，即针对印刷体字符，采用光学的方式将纸质文档中的文字转换成为黑白点阵的图像文件，并通过识别软件将图像中的文字转换成文本格式，供文字处理软件进一步编辑加工的技术。ASR是一种将人的语音转换为文本的技术。上述示例仅是示例性的，本公开不限于此。

在步骤S203，从获取的各域文本中提取视频的事件时间信息。这里，事件时间信息可包括视频中的事件的发生时间。此外，事件时间信息还可包括指示是否能够从视频中提取出时间的标志，此标志可用于后面的视频划分。

可应用规则提取视频中的事件时间。例如，在对视频的文本信息进行预处理后，从中提取符合时间格式的字段并统一成unix时间戳。如果从一个视频中提取出多个时间，则可选取离当前时间最近的时间作为视频中事件的发生时间。

在步骤S204，可基于事件时间信息将获取的视频分类为有时间视频(即第一视频)和无时间视频(即第二视频)。这里，有时间视频是指能够从视频中提取出事件时间的视频，无时间视频是指不能从视频中提取出事件时间的视频。

在步骤S205，通过对视频进行实体识别，识别视频中事件发生的地域、与事件相关的人物等信息，并且按照区域信息对获取的全部视频进行分类。

例如，可将全部视频按照地域分桶，以得到针对各区域类别的视频集合，诸如将属于同一个市区的视频划分为一个区域类别。上述示例仅是示例性的，可按照不同的区域范围来分类视频。如果一个视频中出现多个区域，则可选择该视频出现次数最多的区域并且将该视频划分到该区域类别。每个视频仅被划分到一个区域类别。

在步骤S206，将属于同一个区域类别的有时间视频与无时间视频进行配对。可将同一个区域类别中的每个有时间视频分别与每个无时间视频一一配对。例如，假设同一区域类别中包括三个有时间视频A、B、C和两个无时间视频D、E，可将有时间视频A分别与无时间视频D、E进行配对，将有时间视频B分别与无时间视频D、E进行配对，并且将有时间视频C分别与无时间视频D、E进行配对。上述示例仅是示例性的，本公开不限于此。

在步骤S207，确定配对的视频之间的相似概率，并且针对每个区域类别中的每个无时间视频，选择与之配对的有时间视频之中具有最高相似概率的有时间视频。例如，假设与无时间视频D配对的有时间视频A、B和C之间的相似概率分别是0.6、0.7和0.9，选择有时间视频C作为与无时间视频D中的事件最相似的配对视频。

可使用相似事件判别模型来确定配对的视频之间的相似概率。这里的相似事件判别模型可基于神经网络结构训练得到。例如，可使用bert模型作为相似事件判别模型。相似事件判别模型可基于以下方式训练获得：获取多个训练样本，每个训练样本包括配对的视频和对视频进行标注的标签，基于配对的视频使用相似事件判别模型来预测视频的标签，基于预测的标签和标注的标签来调整相似事件判别模型的参数。例如，根据人工标注数据，生成相似事件训练数据(即训练样本)，使用相似事件训练数据对bert模型的参数进行调整，选择在验证集上效果最好的模型作为相似事件判别模型。此外，在调整模型参数时，可根据对预测结果的评估结果来调整训练数据和/或后面使用的第一阈值，直到最终模型的评估结果达到要求，同时调整好第一阈值。

作为另一示例，可将配对的有时间视频和无时间视频各自的文本信息在进行预处理之后拼接到一起，然后输入至相似事件判别模型，以输出配对视频的相似概率。将被理解，在这种情况下，训练模型的训练样本是配对视频的文本信息和视频的标注标签。

在步骤S208，确定无时间视频与选择的与之配对的有时间视频之间的相似概率(即最高相似概率)是否大于第一阈值。例如，第一阈值可以是0.975。本公开不限于此，可根据实际需求不同地设置第一阈值。

当无时间视频与选择的有时间视频之间的最高相似概率大于第一阈值时，可认为这对无时间视频和有时间视频中出现相同或相似的事件，进入步骤S213，将选择的有时间视频的事件时间传递给无时间视频。当无时间视频与选择的有时间视频之间的相似概率小于或等于第一阈值时，可认为这对无时间视频和有时间视频不是针对相同或相似的事件进行拍摄的，进入步骤S209。

在步骤S209，按照人物信息对全部有时间视频和尚未分配有时间的无时间视频进行分类。

例如，从全部无时间视频中去除基于区域分类成功继承事件时间的无时间视频，得到其余的无时间视频，按照人物名称对其余的无时间视频以及全部有时间视频进行分桶，划分为针对各人物类别的视频集合。如果一个视频内有多个人物或人名，则将该视频划分到多个人物类别中。

在步骤S210，可将属于同一人物类别的视频集合中的有时间视频与无时间视频进行配对。可将同一个人物类别中的每个有时间视频分别与每个无时间视频一一配对。

在步骤S211，确定配对的视频之间的相似概率，并且针对每个人物类别中的每个无时间视频，选择与之配对的有时间视频之中具有最高相似概率的有时间视频。

可使用另一相似事件判别模型来确定每个人物类别中的配对的视频之间的相似概率。这里的相似事件判别模型可基于神经网络结构训练得到。例如，可使用bert模型作为该相似事件判别模型。相似事件判别模型可基于以下方式训练获得：获取多个训练样本，每个训练样本包括配对的视频和对视频进行标注的标签，基于配对的视频使用相似事件判别模型来预测视频的标签，基于预测的标签和标注的标签来调整相似事件判别模型的参数。例如，根据人工标注数据，生成相似事件训练数据(即训练样本)，使用相似事件训练数据对bert模型的参数进行调整，选择在验证集上效果最好的模型作为对应的相似事件判别模型。此外，在调整模型参数时，可根据对预测结果的评估结果来调整训练数据和/或后面使用的第二阈值，直到最终模型的评估结果达到要求，同时调整好第二阈值。

这里，用于确定同一区域类别的配对视频的相似概率的相似事件判别模型和用于确定同一人物类别的配对视频的相似概率的相似事件判别模型可使用不同的训练样本获得。例如，在训练时，可使用属于同一区域类别的配对的视频作为训练数据来训练针对区域类别的相似事件判别模型，使用属于同一人物类别的配对的视频作为训练数据来训练针对人物类别的相似事件判别模型。

在步骤S212，确定无时间视频与选择的与之配对的有时间视频之间的相似概率(即最高相似概率)是否大于第二阈值。例如，第二阈值可以是0.98。本公开不限于此，可根据实际需求不同地设置第二阈值。第一阈值和第二阈值可基于训练模型的评估结果被不同地调整。

当无时间视频与选择的有时间视频之间的最高相似概率大于第二阈值时，可认为这对无时间视频和有时间视频中出现相同或相似的事件，进入步骤S213，将选择的有时间视频的事件时间传递给无时间视频。当无时间视频与选择的有时间视频之间的相似概率小于或等于第一阈值时，可认为这对无时间视频和有时间视频不是针对相同或相似的事件进行拍摄的，结束相似事件视频的时间传递。至此，整个传递事件时间的流程结束。

根据本公开的实施例，在线上搜索热度飙升卡场景中，能够有效地过滤热点事件的旧闻信息，更好地提升用户体验。

图3是根据本公开的实施例的视频处理装置的框图。参照图3，视频处理装置300可包括确定模块301、分类模块302、配对模块303。视频处理装置300中的每个模块可由一个或多个模块来实现，并且对应模块的名称可根据模块的类型而变化。在各种实施例中，可省略视频处理装置300中的一些模块，或者还可包括另外的模块，诸如数据获取模块等。此外，根据本公开的各种实施例的模块/元件可被组合以形成单个实体，并且因此可等效地执行相应模块/元件在组合之前的功能。

确定模块301可从多个视频中确定每个视频是否包括事件时间信息。事件时间信息用于指示视频中的事件的发生时间。

作为示例，确定模块301可针对多个视频中的每个视频，通过对视频的画面进行字符识别来获得视频的图像文本信息，并且通过对视频中的音频进行语音识别来获得视频的音频文本信息，然后从图像文本信息和/或音频文本信息中提取每个视频的事件时间信息。

针对多个视频中的每个视频，当从图像文本信息和/或音频文本信息中提取出多个时间时，确定模块301可将距离当前时间最近的时间作为视频中的事件的发生时间。

分类模块302可基于确定的结果，将多个视频分类为包括事件时间信息的第一视频和不包括事件时间信息的第二视频。

此外，分类模块302可根据视频所属的类别进一步对视频进行分类。

例如，分类模块302可确定多个视频的区域信息和人物信息中的至少一个，基于区域信息和人物信息中的至少一个对多个视频中的至少部分视频进行分类。区域信息可包括视频中的事件的发生区域，人物信息可包括视频中的与事件相关的人物名称。

针对至少部分视频中的每个视频，当视频中出现多个区域时，分类模块302可将视频划分到与视频中出现次数最多的区域对应的区域类别。

针对至少部分视频中的每个视频，当视频中出现多个人物时，分类模块302可将视频同时划分到与多个人物对应的多个人物类别。

配对模块303可基于第一视频与第二视频之间的相似度，将第一视频的事件时间信息分配给第二视频。

作为示例，配对模块303可将每个第一视频分别与每个第二视频进行配对。若配对的第一视频与第二视频之间的相似度满足预设阈值，则配对模块303可将第一视频的事件时间信息分配给与之配对的第二视频。例如，配对模块303可将配对的第一视频和第二视频输入至相似事件判别模型，得到配对的第一视频与第二视频之间的相似度。

本公开的相似事件判别模型可基于以下方式训练获得：获取多个训练样本，其中，每个训练样本包括配对的视频和对视频进行标注的标签并且多个训练样本被分为训练集和验证集；基于训练集中的第一视频对，使用相似事件判别模型来预测第一视频对的标签；基于预测的标签和训练集中的相应标签来调整相似事件判别模型的参数；基于验证集中的第二视频对，使用参数调整后的相似事件判别模型来预测第二视频对的标签；对第二视频对和预测的第二视频对的标签进行评估；根据评估结果对训练集中的训练样本和/或相似事件判别模型的参数进行调整，直到评估结果达到预设条件。

在分类模块302确定区域信息和任务信息的情况下，配对模块303可将属于同一区域类别的视频集中的每个第一视频与第二视频进行配对，和/或将属于同一人物类别的视频集中的每个第一视频与第二视频进行配对。

配对模块303可将属于同一区域类别的视频集中的配对的第一视频与第二视频输入第一相似事件判别模型，得到配对视频的第一相似度；在第一相似度满足第一阈值时，将第一视频的事件时间分配给与之配对的第二视频；将属于同一人物类别的视频集中的第一视频与第二视频输入第二相似事件判别模型，得到配对视频的第二相似度；在第二相似度满足第二阈值时，将第一视频的事件时间分配给与之配对的第二视频。

第一相似事件判别模型和第二相似事件判别模型可使用相同的神经网络结构或不同的神经网络结构构成，在训练时，可使用属于同一区域类别的配对的视频作为训练数据来训练第一相似事件判别模型，使用属于同一人物类别的配对的视频作为训练数据来训练第二相似事件判别模型。第一阈值和第二阈值可在评估模型时被不同地设置

此外，在基于第一相似度针对同一区域类别中的视频分配事件时间后，配对模块303可从多个视频中去除已基于第一相似度分配有事件时间的第二视频，以得到另一视频集；基于人物信息对另一视频集进行分类并且将属于同一人物类别的视频集中的每个第一视频与第二视频进行配对；将另一视频集中的属于同一人物类别的配对的第一视频与第二视频输入第二相似事件判别模型，得到配对视频的第二相似度。

相似事件判别模型可在配对模块303中完成训练，或者配对模块305可从外部设备接收训练好的相似事件判别模型。

上面已根据图1和图2详细描述了在相似视频之间传递时间信息的方式，这里不再进行描述。

图4是本公开实施例的硬件运行环境的视频处理设备的结构示意图。

如图4所示，视频处理设备400可包括：处理组件401、通信总线402、网络接口403、输入输出接口404、存储器405以及电源组件406。其中，通信总线402用于实现这些组件之间的连接通信。输入输出接口404可以包括视频显示器(诸如，液晶显示器)、麦克风和扬声器以及用户交互接口(诸如，键盘、鼠标、触摸输入装置等)，可选地，输入输出接口404还可包括标准的有线接口、无线接口。网络接口403可选的可包括标准的有线接口、无线接口(如无线保真接口)。存储器405可以是高速的随机存取存储器，也可以是稳定的非易失性存储器。存储器405可选的还可以是独立于前述处理组件401的存储装置。

本领域技术人员可以理解，图4中示出的结构并不构成对视频处理设备400的限定，可包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

如图4所示，作为一种存储介质的存储器405中可包括操作系统(诸如MAC操作系统)、数据存储模块、网络通信模块、用户接口模块、与本公开的视频处理方法对应的程序以及数据库。

在图4所示的视频处理设备400中，网络接口403主要用于与外部电子设备/终端进行数据通信；输入输出接口404主要用于与用户进行数据交互；视频处理设备400中的处理组件401、存储器405可被设置在视频处理设备400中，视频处理设备400通过处理组件401调用存储器405中存储的视频处理方法以及由操作系统提供的各种API，执行本公开实施例提供的视频处理方法。

处理组件401可以包括至少一个处理器，存储器405中存储有计算机可执行指令集合，当计算机可执行指令集合被至少一个处理器执行时，执行根据本公开实施例的视频处理方法。然而，上述示例仅是示例性的，本公开不限于此。

例如，处理组件401可基于本公开的视频处理方法将无法提取出事件时间的视频分配有与之相似的事件视频的事件时间。

处理组件401可通过执行程序来实现对视频处理设备400所包括的组件的控制。

作为示例，视频处理设备400可以是PC计算机、平板装置、个人数字助理、智能手机、或其他能够执行上述指令集合的装置。这里，视频处理设备400并非必须是单个的电子设备，还可以是任何能够单独或联合执行上述指令(或指令集)的装置或电路的集合体。视频处理设备400还可以是集成控制系统或系统管理器的一部分，或者可以被配置为与本地或远程(例如，经由无线传输)以接口互联的便携式电子设备。

在视频处理设备400中，处理组件401可包括中央处理器(CPU)、图形处理器(GPU)、可编程逻辑装置、专用处理器系统、微控制器或微处理器。作为示例而非限制，处理组件401还可以包括模拟处理器、数字处理器、微处理器、多核处理器、处理器阵列、网络处理器等。

处理组件401可运行存储在存储器中的指令或代码，其中，存储器405还可以存储数据。指令和数据还可以经由网络接口403而通过网络被发送和接收，其中，网络接口403可以采用任何已知的传输协议。

存储器405可以与处理组件401集成为一体，例如，将RAM或闪存布置在集成电路微处理器等之内。此外，存储器405可包括独立的装置，诸如，外部盘驱动、存储阵列或任何数据库系统可以使用的其他存储装置。存储器和处理组件401可以在操作上进行耦合，或者可以例如通过I/O端口、网络连接等互相通信，使得处理组件401能够读取存储在存储器405中的数据。

根据本公开的实施例，可提供一种电子设备。图5是根据本公开实施例的电子设备的框图，该电子设备500可包括至少一个存储器502和至少一个处理器501，所述至少一个存储器502存储有计算机可执行指令集合，当计算机可执行指令集合被至少一个处理器501执行时，执行根据本公开实施例的视频处理方法。

处理器501可包括中央处理器(CPU)、图形处理器(GPU)、可编程逻辑装置、专用处理器系统、微控制器或微处理器。作为示例而非限制，处理器501还可包括模拟处理器、数字处理器、微处理器、多核处理器、处理器阵列、网络处理器等。

作为一种存储介质的存储器502可包括操作系统(例如，MAC操作系统)、数据存储模块、网络通信模块、用户接口模块、与视频处理方法对应的程序以及数据库。

存储器502可与处理器501集成为一体，例如，可将RAM或闪存布置在集成电路微处理器等之内。此外，存储器502可包括独立的装置，诸如，外部盘驱动、存储阵列或任何数据库系统可使用的其他存储装置。存储器502和处理器501可在操作上进行耦合，或者可例如通过I/O端口、网络连接等互相通信，使得处理器501能够读取存储在存储器502中的文件。

此外，电子设备500还可包括视频显示器(诸如，液晶显示器)和用户交互接口(诸如，键盘、鼠标、触摸输入装置等)。电子设备500的所有组件可经由总线和/或网络而彼此连接。

本领域技术人员可理解，图5中示出的结构并不构成对的限定，可包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

根据本公开的实施例，还可提供一种存储指令的计算机可读存储介质，其中，当指令被至少一个处理器运行时，促使至少一个处理器执行根据本公开的视频处理方法。这里的计算机可读存储介质的示例包括：只读存储器(ROM)、随机存取可编程只读存储器(PROM)、电可擦除可编程只读存储器(EEPROM)、随机存取存储器(RAM)、动态随机存取存储器(DRAM)、静态随机存取存储器(SRAM)、闪存、非易失性存储器、CD-ROM、CD-R、CD+R、CD-RW、CD+RW、DVD-ROM、DVD-R、DVD+R、DVD-RW、DVD+RW、DVD-RAM、BD-ROM、BD-R、BD-R LTH、BD-RE、蓝光或光盘存储器、硬盘驱动器(HDD)、固态硬盘(SSD)、卡式存储器(诸如，多媒体卡、安全数字(SD)卡或极速数字(XD)卡)、磁带、软盘、磁光数据存储装置、光学数据存储装置、硬盘、固态盘以及任何其他装置，所述任何其他装置被配置为以非暂时性方式存储计算机程序以及任何相关联的数据、数据文件和数据结构并将所述计算机程序以及任何相关联的数据、数据文件和数据结构提供给处理器或计算机使得处理器或计算机能执行所述计算机程序。上述计算机可读存储介质中的计算机程序可在诸如客户端、主机、代理装置、服务器等计算机设备中部署的环境中运行，此外，在一个示例中，计算机程序以及任何相关联的数据、数据文件和数据结构分布在联网的计算机系统上，使得计算机程序以及任何相关联的数据、数据文件和数据结构通过一个或多个处理器或计算机以分布式方式存储、访问和执行。

根据本公开的实施例中，还可提供一种计算机程序产品，该计算机程序产品中的指令可由计算机设备的处理器执行以完成上述视频处理方法。

需要说明的是，本公开所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)，均为经用户授权或者经过各方充分授权的信息。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种视频处理方法，其特征在于，所述方法包括：

从多个视频中确定每个视频是否包括事件时间信息，其中，所述事件时间信息用于指示视频中的事件的发生时间；

基于所述确定的结果，将所述多个视频分类为包括所述事件时间信息的第一视频和不包括所述事件时间信息的第二视频；

基于第一视频与第二视频之间的相似度，将第一视频的所述事件时间信息分配给第二视频，

其中，从多个视频中确定每个视频是否包括事件时间信息，包括：

针对所述多个视频中的每个视频，通过对所述视频的画面进行字符识别来获得所述视频的图像文本信息，并且通过对所述视频中的音频进行语音识别来获得所述视频的音频文本信息；从所述图像文本信息和/或所述音频文本信息中提取每个视频的事件时间信息。

2.根据权利要求1所述的方法，其特征在于，从所述图像文本信息和/或所述音频文本信息中提取每个视频的事件时间信息，包括：

针对所述多个视频中的每个视频，当从所述图像文本信息和/或所述音频文本信息中提取出多个时间时，将距离当前时间最近的时间作为所述视频中的事件的发生时间。

3.根据权利要求1所述的方法，其特征在于，基于第一视频与第二视频之间的相似度，将第一视频的所述事件时间信息分配给第二视频，包括：

将每个第一视频分别与每个第二视频进行配对；

若配对的第一视频与第二视频之间的相似度满足预设阈值，则将第一视频的所述事件时间信息分配给与之配对的第二视频。

4.根据权利要求3所述的方法，其特征在于，在将每个第一视频分别与每个第二视频进行配对之后，所述方法还包括：

将配对的第一视频和第二视频输入至相似事件判别模型，得到配对的第一视频与第二视频之间的相似度。

5.根据权利要求4所述的方法，其特征在于，所述相似事件判别模型基于以下方式训练获得：

获取多个训练样本，其中，每个训练样本包括配对的视频和对所述视频进行标注的标签并且所述多个训练样本被分为训练集和验证集；

基于所述训练集中的第一视频对，使用所述相似事件判别模型来预测所述第一视频对的标签；

基于预测的标签和所述训练集中的相应标签来调整所述相似事件判别模型的参数；

基于所述验证集中的第二视频对，使用参数调整后的相似事件判别模型来预测所述第二视频对的标签；

对所述第二视频对和预测的所述第二视频对的标签进行评估；

根据评估结果对所述训练集中的训练样本和/或所述相似事件判别模型的参数进行调整，直到评估结果达到预设条件。

6.根据权利要求3所述的方法，其特征在于，将每个第一视频分别与每个第二视频进行配对，包括：

确定所述多个视频的区域信息和人物信息中的至少一个，其中，所述区域信息包括视频中的事件的发生区域，所述人物信息包括视频中的与事件相关的人物名称；

基于所述区域信息和所述人物信息中的至少一个对所述多个视频中的至少部分视频进行分类；并且

将属于同一区域类别的视频集中的每个第一视频与第二视频进行配对，和/或将属于同一人物类别的视频集中的每个第一视频与第二视频进行配对。

7.根据权利要求6所述的方法，其特征在于，基于所述区域信息和所述人物信息中的至少一个对所述多个视频中的至少部分视频进行分类，包括：

针对所述至少部分视频中的每个视频，当所述视频中出现多个区域时，将所述视频划分到与所述视频中出现次数最多的区域对应的区域类别；和/或

针对所述至少部分视频中的每个视频，当所述视频中出现多个人物时，将所述视频同时划分到与所述多个人物对应的多个人物类别。

8.根据权利要求6所述的方法，其特征在于，在将属于同一区域类别的视频集中的每个第一视频与第二视频进行配对和/或将属于同一人物类别的视频集中的每个第一视频与第二视频进行配对之后，所述方法还包括：

将属于同一区域类别的视频集中的配对的第一视频与第二视频输入第一相似事件判别模型，得到配对视频的第一相似度；

在第一相似度满足第一阈值时，将第一视频的事件时间分配给与之配对的第二视频；

将属于同一人物类别的视频集中的第一视频与第二视频输入第二相似事件判别模型，得到配对视频的第二相似度；

在第二相似度满足第二阈值时，将第一视频的事件时间分配给与之配对的第二视频。

9.根据权利要求8所述的方法，其特征在于，将属于同一人物类别的视频集中的第一视频与第二视频输入第二相似事件判别模型，得到配对视频的第二相似度，包括：

从所述多个视频中去除已基于第一相似度分配有事件时间的第二视频，以得到另一视频集；

基于所述人物信息对所述另一视频集进行分类并且将属于同一人物类别的视频集中的每个第一视频与第二视频进行配对；

将所述另一视频集中的属于同一人物类别的配对的第一视频与第二视频输入第二相似事件判别模型，得到配对视频的第二相似度。

10.一种视频处理装置，其特征在于，所述装置包括：

确定模块，被配置为从多个视频中确定每个视频是否包括事件时间信息，其中，所述事件时间信息用于指示视频中的事件的发生时间；

分类模块，被配置为基于所述确定的结果，将所述多个视频分类为包括所述事件时间信息的第一视频和不包括所述事件时间信息的第二视频；

配对模块，被配置为基于第一视频与第二视频之间的相似度，将第一视频的所述事件时间信息分配给第二视频，

其中，确定模块被配置为：

11.根据权利要求10所述的装置，其特征在于，确定模块被配置为：

12.根据权利要求10所述的装置，其特征在于，配对模块被配置为：

将每个第一视频分别与每个第二视频进行配对；

13.根据权利要求12所述的装置，其特征在于，配对模块被配置为：

14.根据权利要求13所述的装置，其特征在于，所述相似事件判别模型基于以下方式训练获得：

15.根据权利要求12所述的装置，其特征在于，分类模块被配置为：

配对模块，被配置为将属于同一区域类别的视频集中的每个第一视频与第二视频进行配对，和/或将属于同一人物类别的视频集中的每个第一视频与第二视频进行配对。

16.根据权利要求15所述的装置，其特征在于，分类模块被配置为：

17.根据权利要求15所述的装置，其特征在于，配对模块被配置为：

18.根据权利要求17所述的装置，其特征在于，配对模块被配置为：

19.一种电子设备，其特征在于，包括：

至少一个处理器；

至少一个存储计算机可执行指令的存储器，

其中，所述计算机可执行指令在被所述至少一个处理器运行时，促使所述至少一个处理器执行如权利要求1至9中任一项所述的视频处理方法。

20.一种计算机可读存储介质，其特征在于，存储指令，当所述指令被至少一个处理器运行时，促使所述至少一个处理器执行如权利要求1至9中任一项所述的视频处理方法。