CN113642536A

CN113642536A - 数据处理方法、计算机设备以及可读存储介质

Info

Publication number: CN113642536A
Application number: CN202111194096.6A
Authority: CN
Inventors: 陈小帅
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2021-10-13
Filing date: 2021-10-13
Publication date: 2021-11-12
Anticipated expiration: 2041-10-13
Also published as: CN113642536B

Abstract

本申请实施例公开了一种数据处理方法、计算机设备以及可读存储介质，其中方法包括：获取目标视频中的视频文本素材，根据视频文本素材识别目标视频对应的视频分类信息；将视频文本素材和视频分类信息输入到基于视频事件时间库训练得到的序列标注模型中，通过序列标注模型输出针对目标视频的预测结果；根据预测结果确定用于与目标视频进行关联的目标时间。本申请实施例可以应用于云技术、人工智能、智慧交通、辅助驾驶等各种场景。采用本申请，可以提高识别视频的相关时间的效率。

Description

数据处理方法、计算机设备以及可读存储介质

技术领域

本申请涉及互联网技术领域，尤其涉及一种数据处理方法、计算机设备以及可读存储介质。

背景技术

随着多媒体在生活中应用愈加广泛，视频信息的精准推送越来越受人重视。在不同的时间点，相同的视频所传递给人们的信息含量也会不同，识别视频的相关时间有助于视频精准推送，将视频所传递的消息有效利用。

实际应用时，精准地识别视频的相关时间，对视频信息的及时传输具有重要意义。

当前市场上，通过人工标注的方式对视频进行人工分析，通过人工分析结果确定出视频的相关时间。但是，通过人工标注的方式对视频的相关时间进行挖掘需要花费大量时间，可见目前识别视频相关时间的效率低下。

发明内容

本申请实施例提供一种数据处理方法、计算机设备以及可读存储介质，可以提高识别视频相关时间的效率。

本申请一方面提供了一种数据处理方法，包括：

获取目标视频中的视频文本素材，根据视频文本素材识别目标视频对应的视频分类信息；

将视频文本素材和视频分类信息输入到基于视频事件时间库训练得到的序列标注模型中，通过序列标注模型输出针对目标视频的预测结果；视频事件时间库包括至少两个视频，以及与每个视频分别映射的事件和时间；序列标注模型是通过以视频事件时间库中的至少两个视频为训练样本、以及以与每个视频分别映射的事件和时间为训练标签训练得到的；

根据预测结果确定用于与目标视频进行关联的目标时间。

进一步地，还包括：

将视频事件时间库中的至少两个视频确定为训练样本，将与每个视频分别映射的事件和时间确定为训练标签；

获取训练样本中的样本文本素材，根据样本文本素材识别训练样本对应的样本分类信息；

将样本文本素材和样本分类信息输入到初始序列标注模型中，通过初始序列标注模型输出针对训练样本的样本预测结果；

根据样本预测结果和训练标签生成模型损失值，根据模型损失值对初始序列标注模型进行模型参数调整，得到序列标注模型。

进一步地，获取目标视频中的视频文本素材，根据视频文本素材识别目标视频对应的视频分类信息，包括：

获取目标视频中的标题文本素材；

对目标视频中的每一帧图像中的文本内容进行光学识别，得到字幕文本素材；

获取目标视频中的音频数据，对音频数据进行语音识别，得到目标视频中的对白文本素材；

将标题文本素材、字幕文本素材和对白文本素材确定为目标视频的识别文本素材；

若目标视频所关联的对象后验数据满足视频识别条件，则将识别文本素材与对象后验数据确定为目标视频的视频文本素材，根据视频文本素材识别目标视频对应的视频分类信息。

进一步地，还包括：

若目标视频关联有对象后验数据，则将对象后验数据进行特征提取，得到后验特征表示，将目标视频的识别文本素材进行特征提取，得到目标特征表示；

将后验特征表示与目标特征表示进行匹配，得到特征相似度；

若特征相似度大于相似度阈值，则确定目标视频所关联的对象后验数据满足视频识别条件；

若特征相似度小于或等于相似度阈值，则将识别文本素材确定为目标视频的视频文本素材，根据视频文本素材识别目标视频对应的视频分类信息。

本申请一方面提供了一种数据处理方法，包括：

获取目标视频，获取视频事件时间库；视频事件时间库包括至少两个视频，以及与每个视频分别映射的事件和时间；

识别目标视频与视频事件时间库中的至少两个视频之间的视频关联特征，根据视频关联特征从视频事件时间库中获取与目标视频存在相似关系的相似视频集合；

从相似视频集合中获取针对目标视频的匹配相似视频；

从视频事件时间库中获取匹配相似视频所映射的事件和时间，将目标视频与匹配相似视频所映射的事件和时间进行关联。

进一步地，识别目标视频与视频事件时间库中的至少两个视频之间的视频关联特征，根据视频关联特征从视频事件时间库中获取与目标视频存在相似关系的相似视频集合，包括：

获取视频事件时间库中的至少两个视频的视频文本特征，根据至少两个视频的视频文本特征构建文本倒排索引库；

获取目标视频的视频文本特征，根据目标视频的视频文本特征对文本倒排索引库进行查询，得到目标视频分别与每个视频之间的文本特征向量差值，将文本特征向量差值确定为视频关联特征；

将视频关联特征大于差值阈值的视频加入到与目标视频存在相似关系的相似视频集合。

获取目标视频的视频多模态向量特征；

获取视频事件时间库中的至少两个视频的视频多模态向量特征；

将视频事件时间库中的至少两个视频的视频多模态向量特征分别与目标视频的视频多模态向量特征进行匹配，得到目标视频与每个视频之间的特征距离，将特征距离确定为视频关联特征；

将视频关联特征大于特征距离阈值的视频加入到与目标视频存在相似关系的相似视频集合。

进一步地，获取目标视频的视频多模态向量特征，包括：

通过多模态表示模型提取目标视频的视频文本素材、视频图像素材以及视频音频素材；

对视频文本素材对应的特征、视频图像素材对应的特征以及视频音频素材对应的特征进行特征融合，得到视频融合特征；

将视频融合特征输入多模态表示模型中的全连接层，通过全连接层输入目标视频的视频多模态向量特征。

本申请一方面提供了一种数据处理装置，包括：

获取模块，用于获取目标视频中的视频文本素材，根据视频文本素材识别目标视频对应的视频分类信息；

预测结果模块，用于将视频文本素材和视频分类信息输入到基于视频事件时间库训练得到的序列标注模型中，通过序列标注模型输出针对目标视频的预测结果；视频事件时间库包括至少两个视频，以及与每个视频分别映射的事件和时间；序列标注模型是通过以视频事件时间库中的至少两个视频为训练样本、以及以与每个视频分别映射的事件和时间为训练标签训练得到的；

预测关联模块，用于根据预测结果确定用于与目标视频进行关联的目标时间。

其中，数据处理装置还包括：

训练获取模块，用于将视频事件时间库中的至少两个视频确定为训练样本，将与每个视频分别映射的事件和时间确定为训练标签；

训练获取模块，还用于获取训练样本中的样本文本素材，根据样本文本素材识别训练样本对应的样本分类信息；

序列标注模块，用于将样本文本素材和样本分类信息输入到初始序列标注模型中，通过初始序列标注模型输出针对训练样本的样本预测结果；

参数调整模块，用于根据样本预测结果和训练标签生成模型损失值，根据模型损失值对初始序列标注模型进行模型参数调整，得到序列标注模型。

其中，获取模块包括：

标题文本获取单元，用于获取目标视频中的标题文本素材；

字幕文本获取单元，用于对目标视频中的每一帧图像中的文本内容进行光学识别，得到字幕文本素材；

对白文本获取单元，用于获取目标视频中的音频数据，对音频数据进行语音识别，得到目标视频中的对白文本素材；

视频文本确定单元，用于将标题文本素材、字幕文本素材和对白文本素材确定为目标视频的识别文本素材；

第一素材确定单元，用于若目标视频所关联的对象后验数据满足视频识别条件，则将识别文本素材与对象后验数据确定为目标视频的视频文本素材，根据视频文本素材识别目标视频对应的视频分类信息。

其中，获取模块还包括：

特征提取单元，用于若目标视频关联有对象后验数据，则将对象后验数据进行特征提取，得到后验特征表示，将目标视频的识别文本素材进行特征提取，得到目标特征表示；

特征匹配单元，用于将后验特征表示与目标特征表示进行匹配，得到特征相似度；

条件识别单元，用于若特征相似度大于相似度阈值，则确定目标视频所关联的对象后验数据满足视频识别条件；

第二素材确定单元，用于若特征相似度小于或等于相似度阈值，则将识别文本素材确定为目标视频的视频文本素材，根据视频文本素材识别目标视频对应的视频分类信息。

本申请一方面提供了一种数据处理装置，包括：

获取视频模块，用于获取目标视频，获取视频事件时间库；视频事件时间库包括至少两个视频，以及与每个视频分别映射的事件和时间；

关联特征识别模块，用于识别目标视频与视频事件时间库中的至少两个视频之间的视频关联特征，根据视频关联特征从视频事件时间库中获取与目标视频存在相似关系的相似视频集合；

匹配视频获取模块，用于从相似视频集合中获取针对目标视频的匹配相似视频；

关联模块，用于从视频事件时间库中获取匹配相似视频所映射的事件和时间，将目标视频与匹配相似视频所映射的事件和时间进行关联。

其中，关联特征识别模块包括：

倒排索引单元，用于获取视频事件时间库中的至少两个视频的视频文本特征，根据至少两个视频的视频文本特征构建文本倒排索引库；

向量差值确定单元，用于获取目标视频的视频文本特征，根据目标视频的视频文本特征对文本倒排索引库进行查询，得到目标视频分别与每个视频之间的文本特征向量差值，将文本特征向量差值确定为视频关联特征；

第一集合确定单元，用于将视频关联特征大于差值阈值的视频加入到与目标视频存在相似关系的相似视频集合。

其中，关联特征识别模块包括：

第一特征获取单元，用于获取目标视频的视频多模态向量特征；

第二特征获取单元，用于获取视频事件时间库中的至少两个视频的视频多模态向量特征；

特征距离确定单元，用于将视频事件时间库中的至少两个视频的视频多模态向量特征分别与目标视频的视频多模态向量特征进行匹配，得到目标视频与每个视频之间的特征距离，将特征距离确定为视频关联特征；

第二集合确定单元，用于将视频关联特征大于特征距离阈值的视频加入到与目标视频存在相似关系的相似视频集合。

其中，第一特征获取单元包括：

素材提取子单元，用于通过多模态表示模型提取目标视频的视频文本素材、视频图像素材以及视频音频素材；

融合子单元，用于对视频文本素材对应的特征、视频图像素材对应的特征以及视频音频素材对应的特征进行特征融合，得到视频融合特征；

全连接处理子单元，用于将视频融合特征输入多模态表示模型中的全连接层，通过全连接层输入目标视频的视频多模态向量特征。

本申请另一方面提供了一种计算机设备，包括：处理器、存储器以及网络接口；

处理器与存储器、网络接口相连，其中，网络接口用于提供数据通信功能，存储器用于存储程序代码，处理器用于调用程序代码，以执行如本申请实施例中一方面中的方法。

本申请另一方面提供了一种计算机存储介质，计算机存储介质存储有计算机程序，计算机程序适于由处理器加载并执行如本申请实施例中一方面中的方法。

本申请另一方面提供了一种计算机程序产品，包括计算机程序/指令，计算机程序/指令被处理器执行时实现如本申请实施例中一方面中的方法。

本申请实施例通过包含至少两个视频以及与每个视频分别映射的事件和时间的视频事件时间库，可以自动化学习视频事件时间库中的多种视频与时间、事件之间的关联关系。当获取到目标视频时，即可基于视频事件时间库所学习到的关联关系为目标视频进行相关时间识别，视频事件时间库的助益对识别范围产生了拓展效果，可以有效提高识别视频的相关时间的覆盖率与准确率，节省了对目标视频进行人工标注的耗时，提高了识别视频的相关时间的效率。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种网络架构示意图；

图2是本申请实施例提供的一种用于识别视频相关时间的场景示意图；

图3是本申请实施例提供的一种数据处理方法的流程示意图；

图4是本申请实施例提供的一种数据处理方法的流程示意图；

图5a是本申请实施例提供的一种数据处理方法的流程示意图；

图5b是本申请实施例提供的一种用于识别视频相关时间的场景示意图；

图5c是本申请实施例提供的一种用于识别特征关系的场景示意图；

图6是本申请实施例提供的一种数据处理方法的流程示意图；

图7是本申请实施例提供的一种数据处理方法的流程示意图；

图8a是本申请实施例提供的一种数据处理方法的流程示意图；

图8b是本申请实施例提供的一种多模态表示模型的结构示意图；

图9a是本申请实施例提供的一种数据处理装置的结构示意图；

图9b是本申请实施例提供的一种数据处理装置的结构示意图；

图10是本申请实施例提供的一种计算机设备的结构示意图；

图11是本申请实施例提供的一种计算机设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

应当理解，人工智能（Artificial Intelligence，简称AI）是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习、自动驾驶、智慧交通等几大方向。

其中，本申请实施例中的文本处理或图像处理或其他处理过程可以使用AI模型。

请参见图1，是本发明实施例提供的一种网络架构示意图。该网络架构可以包括服务器100和多个终端设备（如图1所示，具体包括终端设备200a、终端设备200b、终端设备200c等）服务器100可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。服务器100可以通过网络与每个终端设备进行通信，每个终端设备均可以安装视频播放应用，服务器100可以为该视频播放应用对应的后台服务器，因此，每个终端设备均可以通过该视频播放应用对应的客户端与服务器100进行数据传递。终端设备可以包括但不限于手机、平板电脑、笔记本电脑、掌上电脑、移动互联网设备（MID，mobile internetdevice）、POS（Point Of Sales，销售点）机、可穿戴设备（例如智能手表、智能手环等）、智能语音交互设备、智能家电、车载终端等。每个终端设备都可以在安装视频播放应用，使用视频播放应用可以进行视频观看。本申请实施例可以应用于各种场景，包括但不限于云技术、人工智能、智慧交通、辅助驾驶等。

请参见图2，图2为一种用于识别视频相关时间的场景示意图。在图2中，在服务器100进行视频相关时间识别后向视频观看对象推送的视频可以在终端设备200c播放，以终端设备200c为例，终端设备200c上可以显示播放界面210、视频标题211与当前播放进度（20%）212等视频相关信息，可以通过拉动进度条来调节播放进度。

服务器100中的流程调用也请参见图2。在图2中，服务器100可以在获取视频文本素材后，根据视频文本素材识别视频的分类信息，将视频事件时间库中的至少两个视频确定为训练样本，将与每个视频分别映射的事件和时间确定为训练标签。服务器100可以根据训练样本中的样本文本素材识别训练样本对应的样本分类信息，将样本文本素材和样本分类信息输入到初始序列标注模型中，通过初始序列标注模型输出针对训练样本的样本预测结果，根据样本预测结果和训练标签生成模型损失值。服务器100可以根据模型损失值对初始序列标注模型进行模型参数调整，得到训练完成的序列标注模型。服务器100将视频文本素材与视频分类信息输入基于视频事件时间库进行模型训练而得到的序列标注模型后，输出预测结果，若预测结果为预测事件，则通过事件时间库获取预测事件相关联的预测时间，进而可以将预测时间确定为视频的相关时间；若预测结果为预测时间，则根据预测结果确定用于与目标视频进行关联的目标时间。

可选的，在图2中，服务器100也可以获取视频事件时间库后，将目标视频与视频事件时间库中的视频在某一共同方面的特征相差的距离确定为视频关联特征，其中，某一方面应为目标视频和视频事件时间库中视频均具有的方面，某一共同方面可以是文本方面、图像方面、音频方面等，通过识别目标视频与视频事件时间库中的视频关联特征后，根据视频关联特征获取与目标视频存在相似关系的相似视频集合，从相似视频集合中获取针对目标视频的匹配相似视频，通过匹配相似视频在视频事件时间库中的映射事件和映射时间关联目标视频后，进而获取视频相关时间。

请参见图3，是本申请实施例提供的一种数据处理方法的流程示意图，方法可以由计算机设备执行，计算机设备可以为终端设备或服务器，方法可以包括：

S301，获取目标视频中的视频文本素材，根据视频文本素材识别目标视频对应的视频分类信息；

其中，目标视频就是待检测视频，从目标视频中提取视频文本素材，根据提取的视频文本素材将目标视频按照视频分类信息进行识别分类，视频分类信息可以为国内、国外、军事、财经、娱乐、体育、科技、游戏等种类。可以根据识别到的关键词进行分类。例如，当筛选出到关键词为游泳、跑步、球类运动等词后，可以将视频分类信息识别为体育。

具体的，视频文本素材就是可以从视频中提取出来的文本素材。视频泛指将一系列静态影像以电信号的方式加以捕捉、记录、处理、储存、传送与重现的各种技术。连续的图像变化每秒超过24帧画面以上时，根据视觉暂留原理，人眼无法辨别单幅的静态画面；看上去是平滑连续的视觉效果，这样连续的画面叫做视频。视频可以包括标题、字幕、图像以及与之相匹配的音频，因此从视频中提取出来的文本素材可以包含从标题中提取的文本素材、根据字幕提取的文本素材和根据图像以及与之相匹配的音频提取的文本素材。

S302，将视频文本素材和视频分类信息输入到基于视频事件时间库训练得到的序列标注模型中，通过序列标注模型输出针对目标视频的预测结果；视频事件时间库包括至少两个视频，以及与每个视频分别映射的事件和时间；序列标注模型是通过以视频事件时间库中的至少两个视频为训练样本、以及以与每个视频分别映射的事件和时间为训练标签训练得到的；

具体的，将视频文本素材和视频分类信息共同组成针对目标视频的输入文本，将输入文本输入到序列标注模型中（序列标注模型为在视频事件时间库的基础上已经训练完成的模型），通过序列标注模型输出对目标视频的预测结果，预测结果可以是预测时间或预测事件，也可以是由预测时间和预测事件共同构成，若预测结果由预测时间和预测事件共同构成，则将预测事件对应的关联时间与预测时间皆确定为视频关联时间。例如，当视频为北京冬奥会相关内容时，视频分类信息可以是体育类，将视频文本素材和视频分类信息输入序列标注模型后，可以通过神经网络模型输出对目标视频的预测结果，预测结果可以是北京冬奥会事件，预测结果也可以是北京冬奥会的具体时间。

其中，视频事件时间库可以通过历史已标注好相关事件时间的视频构建，可以利用视频平台已经人工标注过相关事件/时间的视频，也可以自动对视频文本进行事件实体识别（如序列标注模型），还可以对存在具体事件的视频，结合事件时间库，推导出视频事件的相关时间，对视频事件时间库进行扩充。

S303，根据预测结果确定用于与目标视频进行关联的目标时间；

具体的，预测结果可以包括预测事件和预测时间中至少一个，若预测结果包括预测事件，则可以获取事件时间库，在事件时间库中查询预测事件所映射的目标时间，将目标视频与目标时间进行关联；事件时间库包括至少两个事件与至少两个时间之间的映射关系；若预测结果包括预测时间，则可以将预测时间确定为用于与目标视频进行关联的目标时间。例如，若视频的预测结果为北京冬奥会，则获取含有北京冬奥会的事件时间库，查询事件时间库，获取北京冬奥会对应的映射时间，北京冬奥会对应的映射时间可以是2022年2月4日至2022年2月20日，则将2022年2月4日至2022年2月20日确定为视频的相关时间。再例如，预测时间可以是2022年2月4日至2022年2月20日，则将2022年2月4日至2022年2月20日确定为视频的目标时间。

需要说明的是，其中，事件时间库可以通过人工整理的方式获取，也可以通过挖掘新闻数据的方式获取，通过序列标注模型识别出新闻中的事件，同时新闻中包含事件的时间，通过时间规则匹配出时间，这样可以构建出事件时间库。

进一步，根据预测结果确定用于与目标视频进行关联的目标时间后，可以将目标视频表示为V，可以将目标视频V与目标视频V对应的目标时间添加到视频事件时间库中，进而实现对视频时间事件库动态更新，使视频事件时间库对于不同视频均能自适应调整，因此，若再接收到识别目标视频V或与目标视频V相关联视频的视频相关时间请求时，可以快速高效地从含有目标视频V的视频相关时间的视频时间事件库中遍历得到目标视频V的视频相关时间，从而进行视频相关时间推荐，进一步提升视频推荐分发的时效相关性，并增强视频平台的整体视频推荐分发效果。

可以理解，在向车载终端进行视频推荐时，也可以基于本申请实施例提供的视频时间事件库来进行视频推荐。

本申请实施例通过获取目标视频中的视频文本素材，根据视频文本素材识别目标视频对应的视频分类信息；将视频文本素材和视频分类信息输入到基于视频事件时间库训练得到的序列标注模型中，通过序列标注模型输出针对目标视频的预测结果；根据预测结果确定用于与目标视频进行关联的目标时间。本申请通过对视频文本素材进行分类，可以将视频需要识别的范围由大变小，有效节省时间，提高效率，而且，基于序列标注模型可以对视频事件时间库中已有的视频与事件的对应关系、及事件与时间的对应关系做出更加全面的识别，甚至能识别到视频时间库中视频与事件、及事件与时间的不明显的隐含对应关系，视频事件时间库的助益对识别范围产生了拓展效果，可以有效提高识别视频的相关时间的覆盖率与准确率，进而提升视频推荐分发的时效相关性，增强视频平台的整体视频推荐分发效果，与人工标注的方式相对比，可以更为准确的得到序列标注模型输出的预测结果，可以提升序列标注模型输出预测结果的准确率。

请参见图4，是本申请实施例提供的一种数据处理方法的流程示意图，方法可以由计算机设备执行，计算机设备可以为终端设备或服务器，方法可以包括：

S401，将视频事件时间库中的至少两个视频确定为训练样本，将与每个视频分别映射的事件和时间确定为训练标签；

具体的，通过视频事件时间库进行序列标注模型训练，将视频事件时间库中的至少两个视频确定为训练样本，将与每个视频分别映射的事件和时间确定为训练标签。

S402，获取训练样本中的样本文本素材，根据样本文本素材识别训练样本对应的样本分类信息；

具体的，获取视频事件时间库中的样本文本素材，根据视频事件时间库中样本文本素材识别训练样本并进行分类，得到样本分类信息。

S403，将样本文本素材和样本分类信息输入到初始序列标注模型中，通过初始序列标注模型输出针对训练样本的样本预测结果；

具体的，将视频事件时间库中的样本文本素材和样本分类信息输入到初始序列标注模型中，初始序列标注模型为未经训练的最初模型，通过初始序列标注模型输出针对视频事件时间库训练样本的样本预测结果。

S404，根据样本预测结果和训练标签生成模型损失值，根据模型损失值对初始序列标注模型进行模型参数调整，得到序列标注模型。

具体的，将针对视频事件时间库的样本预测结果与视频事件时间库中的事件和时间进行比对后，根据针对视频事件时间库的样本预测结果与视频事件时间库中的事件和时间误差生成模型损失值，再根据模型损失值对初始序列标注模型进行模型参数调整，直至得到得模型损失值在预期范围，得到训练好的序列标注模型。序列标注模型是在自然语言处理中进行分类步骤时最常见的模型，有着广泛地应用。序列标注模型输出的是一个标签序列，通常而言，标签之间是相互联系的，构成标签之间的结构信息。利用这些结构信息，序列标注模型在序列标注问题上往往可以达到比传统分类方法更高的性能。目前在序列标注问题中常被用到的三种模型是隐马尔可夫模型（Hidden Markov Model，Hmm）、最大熵模型（The Maximum Entropy Principle，Maxent）和条件随机场模型（Conditional RandomField,Crf）。

本申请实施例通过视频事件时间库中事件与时间的对应关系对序列标注模型进行训练后，再将序列标注模型输出的事件与时间对应关系对照视频事件时间库中事件与时间的对应关系进行反馈以及参数调整，使得序列标注模型具有良好的学习能力，可以识别到视频时间库中视频与事件、及事件与时间的不明显的隐含对应关系，基于序列标注模型可以对视频事件时间库中已有的视频与事件的对应关系、及事件与时间的对应关系做出更加全面的识别，视频事件时间库的助益对识别范围产生了拓展效果，可以有效提高识别视频的相关时间的覆盖率与准确率，因此与人工标注的方式相对比，可以更为准确的得到序列标注模型输出的预测结果，可以提高序列标注模型输出预测事件或预测时间的准确性。

请参见图5a，是本申请实施例提供的一种数据处理方法的流程示意图，方法可以由计算机设备执行，计算机设备可以为终端设备或服务器，方法可以包括：

S501，获取目标视频中的标题文本素材；

具体的，获取目标视频中的标题文本素材，通过视频文本内容挖掘识别相关时间。标题文本素材可以是视频的原始标题，若视频没有原始标题，则标题文本素材也可以是对视频进行摘要概括后得到的内容。

S502，对目标视频中的每一帧图像中的字幕进行光学识别，得到字幕文本素材；

具体的，对目标视频通过光学字符识别来扩充视频标题以外的视频文本内容，对目标视频中的每一帧图像中的字幕进行光学字符识别后，得到字幕文本素材。光学字符识别（OCR，Optical Character Recognition）是指电子设备（例如扫描仪或数码相机）检查纸上打印的字符，通过检测暗、亮的模式确定其形状，然后用字符识别方法将形状翻译成计算机文字的过程；即，针对印刷体字符，采用光学的方式将纸质文档中的文字转换成为黑白点阵的图像文件，并通过识别软件将图像中的文字转换成文本格式，供文字处理软件进一步编辑加工的技术。

S503，获取目标视频中的音频数据，对音频数据进行语音识别，得到目标视频中的对白文本素材；

具体的，获取目标视频中的音频数据，对目标视频中的音频数据通过自动语音识别技术来扩充视频标题以外的视频文本内容，对目标视频中的音频数据进行自动语音识别后，得到目标视频中的对白文本素材。自动语音识别技术（ASR ，Automatic SpeechRecognition）是一种将人的语音转换为文本的技术。语音识别是一个多学科交叉的领域，它与声学、语音学、语言学、数字信号处理理论、信息论、计算机科学等众多学科紧密相连。自动语音识别技术的目标是让计算机能够“听写”出不同人所说出的连续语音，也就是俗称的“语音听写机”，是实现“声音”到“文字”转换的技术。

S504，将标题文本素材、字幕文本素材和对白文本素材确定为目标视频的识别文本素材；

具体的，将标题文本素材、字幕文本素材和对白文本素材确定为目标视频的识别文本素材。例如，若以北京冬奥会为主题的视频，其标题文本素材可以是北京冬奥会将会于2022年在中国召开，字幕文本素材可以是视频相关字幕转化成的文本，对白文本素材可以是视频中关于介绍北京冬奥会的音频转化成的文本，将文本“北京冬奥会将会于2022年在中国召开”、视频相关字幕转化成的文本、关于介绍北京冬奥会的音频转化成的文本确定为以北京冬奥会为主题的视频的识别文本素材。

S505，若目标视频关联有对象后验数据，则将对象后验数据进行特征提取，得到后验特征表示，将目标视频的识别文本素材进行特征提取，得到目标特征表示；

具体的，若目标视频关联有对象后验数据，则将对象后验数据进行特征提取，得到后验特征表示，将目标视频的识别文本素材进行特征提取，得到目标特征表示。特征提取方法可以是编解码方法（Transformer-Encoder），Transformer-Encoder是从自然语言序列经过计算得到特征的过程。对象后验数据可以是视频的评论、弹幕等文本数据。

S506，将后验特征表示与目标特征表示进行匹配，得到特征相似度；

具体的，将后验特征表示与目标特征表示进行匹配，得到特征相似度。将后验特征表示与目标特征表示进行匹配的过程可以依赖于欧氏距离、神经网络系统的高纬特征、余弦距离和汉明距离等方法，通过分析比对，进而得到相似度。请一并参见图5c，是本申请实施例提供的一种用于识别特征关系的场景示意图。如图5c所示，分别对视频文本（即识别文本素材）和对象后验数据进行Transformer-Encoder编解码，编解码后分别得到视频文本对应的目标特征表示，以及对象后验数据对应的后验特征表示，再将目标特征表示与后验特征表示进行匹配后，得到特征相似度，进而可以基于该特征相似度判断出对象后验数据与目标视频的关联强度，特征相似度越高，则对象后验数据与目标视频关联越强。其中，对象后验数据是待视频分发给视频观看对象后，视频观看对象对视频发表评论或弹幕等形成的，通过对视频的评论或弹幕等对象后验数据进行识别，可以提升视频相关时间识别的覆盖与准确率。为了提升视频对象后验数据计算相关时间的准确性，需要约束视频评论或弹幕等对象后验数据与当前视频的相关性，相关性低的评论或者弹幕不进行视频相关时间的计算。

S507，若特征相似度大于相似度阈值，则确定目标视频所关联的对象后验数据满足视频识别条件；

具体的，若特征相似度大于相似度阈值，则确定目标视频所关联的对象后验数据满足视频识别条件，目标视频所关联的对象后验数据与目标视频中的事件相关联，证明对象后验数据与目标视频具有强关联性；

S508，若特征相似度小于或等于相似度阈值，则将识别文本素材确定为目标视频的视频文本素材，根据视频文本素材识别目标视频对应的视频分类信息；

具体的，若特征相似度小于或等于相似度阈值，证明对象后验数据未与目标视频具有足够关联性，则不再考虑对象后验数据，而将识别文本素材确定为目标视频的视频文本素材，根据视频文本素材识别目标视频对应的视频分类信息。

S509若目标视频所关联的对象后验数据满足视频识别条件，则将识别文本素材与对象后验数据确定为目标视频的视频文本素材，根据视频文本素材识别目标视频对应的视频分类信息。

具体的，若目标视频所关联的对象后验数据满足视频识别条件，证明对象后验数据与目标视频具有强关联性，则将识别文本素材与对象后验数据一起确定为目标视频的视频文本素材，对象后验数据有助于提高识别视频相关时间的准确性，根据视频文本素材识别目标视频对应的视频分类信息。

S510，将视频文本素材和视频分类信息输入到基于视频事件时间库训练得到的序列标注模型中，通过序列标注模型输出针对目标视频的预测结果；视频事件时间库包括至少两个视频，以及与每个视频分别映射的事件和时间；序列标注模型是通过以视频事件时间库中的至少两个视频为训练样本、以及以与每个视频分别映射的事件和时间为训练标签训练得到的；

本步骤的具体过程可以参见上述图3所对应实施例中的S302，这里不再进行赘述。

S511，根据预测结果确定用于与目标视频进行关联的目标时间；

具体的，请一并参见图5b，是本申请实施例提供的一种用于识别视频相关时间的场景示意图。借助光学字符识别和自动语音识别扩充视频标题以外的视频内容文本，可以提升视频相关时间识别的覆盖面与准确率，将视频文本内容获取后，因不同品类的视频相关事件或时间的表述方式存在较大差异，本申请中将视频分类和提取到的视频文本内容（如图5c中的视频文本词1、视频文本词2等等）作为序列标注模型的输入，本申请中的序列标注模型输出的标签有两类：相关时间、相关事件，用5个类型标签来表示，相关时间字符开始（B_time），相关时间字符结束（E_time），相关事件字符开始（B_event），相关事件字符结束（E_event），其他(O)。B_time标签对应的字符到E_time标签对应的字符这段范围内代表的是视频的相关时间，同理B_event标签对应的字符到E_event标签对应的字符这段范围内代表的是视频的相关事件。例如若识别到的相关事件为北京冬奥会，则将“北”标为B_event标签，“京冬奥”标为O标签，“会”标为E_time标签，最后将B_event标签、B_event标签与E_time标签中间的内容、E_time标签确定为相关事件，相关时间的确定同理相关事件的确定可获取。若最后获取的是相关事件，则预测结果为预测事件，获取事件时间库，在事件时间库中查询预测事件所映射的目标时间，将目标视频与目标时间进行关联；若最后获取的是相关时间，则预测结果为预测时间，则将预测时间确定为用于与目标视频进行关联的目标时间。

本申请实施例通过将标题文本素材、字幕文本素材和对白文本素材组成目标视频的识别文本素材，再将目标视频的识别文本素材进行特征提取后得到的目标特征表示，与目标视频的对象后验数据进行特征提取后得到的对象后验数据进行匹配，获取了满足视频识别条件的视频文本素材，视频文本素材中含有对象后验数据，变得更加全面，提高了序列标注模型输出预测结果的准确性，视频事件时间库的助益对识别范围产生了拓展效果，可以有效提高识别视频的相关时间的覆盖率与准确率。

请参见图6，是本申请实施例提供的一种数据处理方法的流程示意图，方法可以由计算机设备执行，计算机设备可以为终端设备或服务器，方法可以包括：

S601，获取目标视频，获取视频事件时间库；视频事件时间库包括至少两个视频，以及与每个视频分别映射的事件和时间；

具体的，获取目标视频的标题文本素材和字幕文本素材以及对白文本素材，还可以获取视频事件时间库中的视频数量、事件与时间，对目标视频内容的标题文本素材和字幕文本素材以及对白文本素材进行初步分析，对视频事件时间库中的视频数量、事件与时间进行分析，便于识别视频相关时间。视频事件时间库可以参见图3中的步骤S302的详细描述。

S602，识别目标视频与视频事件时间库中的至少两个视频之间的视频关联特征，根据视频关联特征从视频事件时间库中获取与目标视频存在相似关系的相似视频集合；

具体的，将目标视频的标题文本素材和字幕文本素材以及对白文本素材与视频事件时间库中的视频数量、事件与时间进行比对分析，识别目标视频与视频事件时间库中至少两个视频之间的视频关联特征，视频关联特征可以是目标视频与视频事件时间库中至少两个视频之间在某一方面或多方面的共性，根据视频关联特征从视频事件时间库中获取与目标视频存在相似关系的相似视频集合。相似关系的判定可以由业界内公认的标准来定。

S603，从相似视频集合中获取针对目标视频的匹配相似视频；

具体的，根据目标视频与相似视频集合中每个视频之间的关联度进行从高到低的排序，将达到相似阈值的相似视频集合中视频确定为目标视频的匹配相似视频，或者将相似视频集合中关联度排在前N位的视频作为匹配相似视频。

S604，从视频事件时间库中获取匹配相似视频所映射的事件和时间，将目标视频与匹配相似视频所映射的事件和时间进行关联。

具体的，从视频事件时间库中获取匹配相似视频后，将匹配相似视频所映射的事件和时间与目标视频进行关联。其中，若匹配相似视频不止一个且匹配相似视频的事件与时间不相同，则将匹配相似视频的事件和时间均保留，并作为目标视频的关联事件与关联时间。

本申请实施例通过获取目标视频，获取视频事件时间库；视频事件时间库包括至少两个视频，以及与每个视频分别映射的事件和时间；识别目标视频与视频事件时间库中的至少两个视频之间的视频关联特征，根据视频关联特征从视频事件时间库中获取与目标视频存在相似关系的相似视频集合；从相似视频集合中获取针对目标视频的匹配相似视频；从视频事件时间库中获取匹配相似视频所映射的事件和时间，将目标视频与匹配相似视频所映射的事件和时间进行关联。本申请实施例通过识别目标视频与视频事件时间库中的至少两个视频之间的视频关联特征，从视频事件时间库中获取与目标视频存在相似关系的相似视频集合，从相似视频集合中获取针对目标视频的匹配相似视频，将目标视频与匹配相似视频所映射的事件和时间进行关联，视频事件时间库的助益对识别范围产生了拓展效果，可以有效提高识别视频的相关时间的覆盖率与准确率，其中，若在目标视频中未识别到视频相关时间，则相似视频集合的建立给视频相关时间的识别提供了明确的识别方向与更广阔的范围，不仅有助于节省识别时间，而且提高了视频相关时间识别的准确率，进而提升视频推荐分发的时效相关性，增强视频平台的整体视频推荐分发效果。

请参见图7，是本申请实施例提供的一种数据处理方法的流程示意图，方法可以由计算机设备执行，计算机设备可以为终端设备或服务器，方法可以包括：

S701，获取目标视频，获取视频事件时间库；视频事件时间库包括至少两个视频，以及与每个视频分别映射的事件和时间；

本步骤的具体过程可以参见上述图6所对应实施例中的S601，这里不再进行赘述。

S702，获取视频事件时间库中的至少两个视频的视频文本特征，根据至少两个视频的视频文本特征构建文本倒排索引库；

具体的，获取视频事件时间库中的至少两个视频的视频文本特征，视频文本特征可以包括视频的视频文本素材和视频分类信息，详细获取过程请参见图3中的步骤S301与图5a中的步骤S501- S504。将至少两个视频的视频文本特征通过搜索方法（Elasticsearch）倒排索引构建视频文本信息倒排库，Elasticsearch是一个搜索服务器，提供了一个分布式多用户能力的全文搜索引擎。

S703，获取目标视频的视频文本特征，根据目标视频的视频文本特征对文本倒排索引库进行查询，得到目标视频分别与每个视频之间的文本特征向量差值，将文本特征向量差值确定为视频关联特征；

具体的，获取目标视频的视频文本特征，视频文本特征的详细获取过程请参见图3中的步骤S301与图5a中的步骤S501- S504。根据目标视频的视频文本特征对文本倒排索引库进行查询，得到目标视频分别与每个视频之间的文本特征向量差值，文本特征向量差值可以是表示目标视频与视频事件时间库中视频在文本上的相似表现形式，将文本特征向量差值确定为视频关联特征。

S704，将视频关联特征大于差值阈值的视频加入到与目标视频存在相似关系的相似视频集合；

具体的，将文本向量差值这种视频关联特征大于差值阈值的视频加入到与目标视频存在相似关系的相似视频集合。差值阈值可以是业界内部针对文本向量差值的通用标准，例如，差值阈值可以是0.85，将文本向量差值大于0.85的视频加入到与目标视频存在相似关系的相似视频集合。

S705，从相似视频集合中获取针对目标视频的匹配相似视频；

本步骤的具体过程可以参见上述图6所对应实施例中的S603，这里不再进行赘述。

S706，从视频事件时间库中获取匹配相似视频所映射的事件和时间，将目标视频与匹配相似视频所映射的事件和时间进行关联。

本步骤的具体过程可以参见上述图6所对应实施例中的S604，这里不再进行赘述。

本申请实施例通过获取目标视频的视频文本特征，根据至少两个视频的视频文本特征构建文本倒排索引库，根据目标视频的视频文本特征对文本倒排索引库进行查询，得到目标视频分别与每个视频之间的文本特征向量差值，将文本特征向量差值确定为视频关联特征，将视频关联特征大于差值阈值的视频加入到与目标视频存在相似关系的相似视频集合，从相似视频集合中获取针对目标视频的匹配相似视频，将目标视频与匹配相似视频所映射的事件和时间进行关联。本申请在识别视频相关时间过程中引入了文本特征向量差值作为视屏关联特征，借助了视频关联特征来建立相似视频集合，再从相似视频集合中获取匹配相似视频，进而将目标视频与匹配相似视频所映射的事件和时间进行关联，可以通过倒排索引库快速进行查询，减少不必要的识别步骤，减少识别时间，视频事件时间库的助益对识别范围产生了拓展效果，可以有效提高识别视频的相关时间的覆盖率与准确率，因此，当识别视频相关时间时，可以提升识别相关时间的效率。

请参见图8a，是本申请实施例提供的一种数据处理方法的流程示意图，方法可以由终端设备执行，方法可以包括：

S801，获取目标视频，获取视频事件时间库；视频事件时间库包括至少两个视频，以及与每个视频分别映射的事件和时间；

S802，通过多模态表示模型提取目标视频的视频文本素材、视频图像素材以及视频音频素材；

S803，对视频文本素材对应的特征、视频图像素材对应的特征以及视频音频素材对应的特征进行特征融合，得到视频融合特征；

具体的，对视频文本素材对应的特征（即图8b中的文本侧表示）、视频图像素材对应的特征（即图8b中的图像侧表示）以及视频音频素材对应的特征（即图8b中的音频侧表示）进行多维度特征融合，得到视频融合特征。具体流程请一并参见图8b，将视频标题文本素材、字幕文本素材和对白文本素材通过连接函数（concat）进行连接输出一个连接文本，将连接文本通过加强版语言表征模型（Albert， A Lite Bidirectional EncoderRepresentation from Transformers）获得文本侧表示，即为视频文本素材对应的特征；将视频图像素材分别进行多模态混合的模型放缩方法（Efficientnet）、多模态视频分类（Nextvlad）后得到图像侧表示，即为视频图像素材对应的特征；将视频音频素材分别进行音频转化语义模型（Vggish）、多模态视频分类（Nextvlad）后得到音频侧表示，即为视频音频素材对应的特征；将文本侧表示、图像侧表示和音频侧表示进行多维度特征融合，得到视频融合特征。

S804，将视频融合特征输入多模态表示模型中的全连接层，通过全连接层输入目标视频的视频多模态向量特征。

具体的，如图8b所示，将视频文本、图像、音频等特征进行特征融合后得到的视频融合特征输入多模态表示模型中的全连接层，全连接层可以是通过特征连接函数进行特征连接，通过全连接层输入目标视频的视频多模态向量特征。

S805，获取视频事件时间库中的至少两个视频的视频多模态向量特征；

具体的，将视频事件时间库中的至少两个视频输入到多模态表示模型中，通过多模态表示模型获取视频事件时间库中的至少两个视频的视频多模态向量特征，请一并参见图8b，是本申请实施例提供的一种多模态表示模型的结构示意图。如图8b所示，通过多模态表示模型可以获取到视频的多模态特征，多模态特征可以包括视频的文本、图像、音频特征，多模态特征能更加充分地表征视频内容，视频多模态表示是借助卷积神经网络获取的，通过上述多模态表示模型将视频表示为一个多模态向量，如一个视频表示为128维向量。将视频事件时间库中的视频经过上述多模态表示模型构建多模态特征，使用向量检索系统（Elasticfaiss）构建多模态相似检索索引。将目标视频采用上述同样模型构建多模态表示，通过使用此多模态表示查询上述多模态相似检索索引，获取到目标视频多模态相似视频集合，保留大于相似阈值的最相似视频作为待识别视频的多模态特征相似视频，并将此多模态相似视频的相关时间，作为待识别视频的相关时间。其中，相似阈值可以是S，如可以加入相似视频集合的多模态向量距离阈值0.85。

S806，将视频事件时间库中的至少两个视频的视频多模态向量特征分别与目标视频的视频多模态向量特征进行匹配，得到目标视频与每个视频之间的特征距离，将特征距离确定为视频关联特征；

具体的，将从多模态表示模型中得到的视频事件时间库中的至少两个视频的视频多模态向量特征分别与目标视频的视频多模态向量特征进行匹配，得到目标视频与每个视频之间的特征距离，将特征距离确定为视频关联特征。

S807，将视频关联特征大于特征距离阈值的视频加入到与目标视频存在相似关系的相似视频集合；

具体的，将目标视频的多模态向量特征与视频事件时间库中视频的多模态向量特征大于特征距离阈值的视频加入到与目标视频存在相似关系的相似视频集合。多模态向量特征可以是借助卷积神经网络输出的128维向量。

S808，从相似视频集合中获取针对目标视频的匹配相似视频；

S809，从视频事件时间库中获取匹配相似视频所映射的事件和时间，将目标视频与匹配相似视频所映射的事件和时间进行关联。

可选的，若将视频事件时间库中的至少两个视频的视频多模态向量特征分别与目标视频的视频多模态向量特征进行匹配，得到目标视频与每个视频之间的特征距离小于特征距离阈值，将视频事件时间库中与目标视频之间的特征距离小于特征距离阈值的视频确定为未达标视频，则可以参见上述图7的步骤S701- 步骤S703，将未达标视频的文本特征向量差值转化为以百分比表示的相似度数值，文本特征向量差值转化后的以百分比表示的相似度数值可以是M1，将未达标视频特征距离转化为以百分比表示的相似度数值，特征距离转化后的以百分比表示的相似度数值可以是M2，将M1与M2按照与目标视频事件的相关性所占比重加权求和得到新的相似度数值，M1与M2按照与目标视频事件的相关性所占比重加权求和得到的新的相似度数值可以是X，若X大于用于判定与目标视频是否存在相似关系的相似视频集合的特征距离阈值，则将未达标视频加入到与目标视频存在相似关系的相似视频集合。

可以理解的是，获取目标视频中的视频文本素材，根据视频文本素材识别目标视频对应的视频分类信息；将视频文本素材和视频分类信息输入到基于视频事件时间库训练得到的序列标注模型中，通过序列标注模型输出针对目标视频的预测结果；视频事件时间库包括至少两个视频，以及与每个视频分别映射的事件和时间；序列标注模型是通过以视频事件时间库中的至少两个视频为训练样本、以及以与每个视频分别映射的事件和时间为训练标签训练得到的；根据预测结果确定用于与目标视频进行关联的目标时间。根据预测结果确定用于与目标视频进行关联的目标时间的同时，还可以进一步执行下面的识别方法：获取目标视频，获取视频事件时间库；视频事件时间库包括至少两个视频，以及与每个视频分别映射的事件和时间；识别目标视频与视频事件时间库中的至少两个视频之间的视频关联特征，根据视频关联特征从视频事件时间库中获取与目标视频存在相似关系的相似视频集合；从相似视频集合中获取针对目标视频的匹配相似视频；从视频事件时间库中获取匹配相似视频所映射的事件和时间，将目标视频与匹配相似视频所映射的事件和时间进行关联。若根据预测结果确定的用于与目标视频进行关联的目标时间，与将目标视频与匹配相似视频所映射的事件和时间进行关联之后得到的目标时间相同，则将目标视频关联的目标时间与目标视频的对应关系加入视频事件时间库中。

进一步，在以上获取目标视频中的视频文本素材，根据视频文本素材识别目标视频对应的视频分类信息；将视频文本素材和视频分类信息输入到基于视频事件时间库训练得到的序列标注模型中，通过序列标注模型输出针对目标视频的预测结果的过程中，还可以将视频事件时间库中的至少两个视频确定为训练样本，将与每个视频分别映射的事件和时间确定为训练标签；获取训练样本中的样本文本素材，根据样本文本素材识别训练样本对应的样本分类信息；将样本文本素材和样本分类信息输入到初始序列标注模型中，通过初始序列标注模型输出针对训练样本的样本预测结果；根据样本预测结果和训练标签生成模型损失值，根据模型损失值对初始序列标注模型进行模型参数调整，得到序列标注模型，也可以获取目标视频中的标题文本素材；对目标视频中的每一帧图像中的文本内容进行图像识别，得到字幕文本素材；获取目标视频中的音频数据，对音频数据进行语音识别，得到目标视频中的对白文本素材；将标题文本素材、字幕文本素材和对白文本素材确定为目标视频的识别文本素材；若目标视频所关联的对象后验数据满足视频识别条件，则将识别文本素材与对象后验数据确定为目标视频的视频文本素材，根据视频文本素材识别目标视频对应的视频分类信息，更可以若目标视频关联有对象后验数据，则将对象后验数据进行特征提取，得到后验特征表示，将目标视频的识别文本素材进行特征提取，得到目标特征表示；将后验特征表示与目标特征表示进行匹配，得到特征相似度；若特征相似度大于相似度阈值，则确定目标视频所关联的对象后验数据满足视频识别条件。

本申请实施例通过多模态表示模型提取视频的视频文本素材、视频图像素材以及视频音频素材后，将他们对应的特征进行特征融合、全连接得到视频多模态向量特征，将视频事件时间库中的至少两个视频的视频多模态向量特征分别与目标视频的视频多模态向量特征进行匹配，得到目标视频与每个视频之间的特征距离，将特征距离确定为视频关联特征，将视频关联特征大于特征距离阈值的视频加入到与目标视频存在相似关系的相似视频集合，从相似视频集合中获取针对目标视频的匹配相似视频，将目标视频与匹配相似视频所映射的事件和时间进行关联。本申请在识别视频相关时间过程中引入了多模态表示模型，通过多模态表示模型提升了识别范围的全面性，视频的多模态特征包含了视频的文本、图像、音频特征，能更加充分地表征视频内容，通过拓展视频各种特征的使用，挖掘大量的已经标注相关时间的视频的价值，进行事件与相关时间识别，可以有效提高识别视频的相关时间的覆盖率与准确率，进而提升视频推荐分发的时效相关性，增强视频平台的整体视频推荐分发效果，因此，当识别视频相关时间时，可以提升识别相关时间的效率。

可选的，若上述图3对应实施例中基于序列标注模型所识别到的视频相关时间，与上述图6对应实施例中基于相似视频集合所识别到的视频相关时间相同，则将目标视频和相同的视频相关时间、与视频相关时间对应的事件关联存储到视频事件时间库；

若上述图3对应实施例中基于序列标注模型所识别到的视频相关时间，与上述图6对应实施例中基于相似视频集合所识别到的视频相关时间不同，则也可以将不同的视频相关时间均与目标视频进行关联。

请参见图9a，是本申请实施例提供的一种数据处理装置的结构示意图。如图9a所示，该数据处理装置1可以应用于上述图1对应实施例中的任意一个计算机设备，该数据处理装置1可以包括：获取模块11、预测结果模块12、预测事件模块13、预测时间模块14、训练获取模块15、序列标注模块16、参数调整模块17；

获取模块11，用于获取目标视频中的视频文本素材，根据视频文本素材识别目标视频对应的视频分类信息；

上述获取模块11的具体实施方式可以参见上述图3实施例中的步骤S301，这里不再进行赘述。

预测结果模块12，用于将视频文本素材和视频分类信息输入到基于视频事件时间库训练得到的序列标注模型中，通过序列标注模型输出针对目标视频的预测结果；视频事件时间库包括至少两个视频，以及与每个视频分别映射的事件和时间；序列标注模型是通过以视频事件时间库中的至少两个视频为训练样本、以及以与每个视频分别映射的事件和时间为训练标签训练得到的；

其中，预测结果模块12的具体实施方式可以参见上述图3实施例中的步骤S302，这里不再进行赘述。

预测关联模块13，用于根据预测结果确定用于与目标视频进行关联的目标时间；

上述预测关联模块13的具体实施方式可以参见上述图3实施例中的步骤S303，这里不再进行赘述。

其中，数据处理装置1还包括：

训练获取模块14，用于将视频事件时间库中的至少两个视频确定为训练样本，将与每个视频分别映射的事件和时间确定为训练标签；

上述训练模块14的具体实施方式可以参见上述图4实施例中的步骤S401，这里不再进行赘述。

训练获取模块14，还用于获取训练样本中的样本文本素材，根据样本文本素材识别训练样本对应的样本分类信息；

上述训练获取模块14的具体实施方式可以参见上述图4实施例中的步骤S402，这里不再进行赘述。

序列标注模块15，用于将样本文本素材和样本分类信息输入到初始序列标注模型中，通过初始序列标注模型输出针对训练样本的样本预测结果；

上述序列标注模块15的具体实施方式可以参见上述图4实施例中的步骤S403，这里不再进行赘述。

参数调整模块16，用于根据样本预测结果和训练标签生成模型损失值，根据模型损失值对初始序列标注模型进行模型参数调整，得到序列标注模型。

其中，参数调整模块16的具体实施方式可以参见上述图4实施例中的步骤S404，这里不再进行赘述。

其中，获取模块11包括：

标题文本获取单元111，用于获取目标视频中的标题文本素材；

上述标题文本获取单元111的具体实施方式可以参见上述图5a实施例中的步骤S501，这里不再进行赘述。

字幕文本获取单元112，用于对目标视频中的每一帧图像中的字幕进行光学识别，得到字幕文本素材；

上述字幕文本获取单元112的具体实施方式可以参见上述图5a实施例中的步骤S502，这里不再进行赘述。

对白文本获取单元113，用于获取目标视频中的音频数据，对音频数据进行语音识别，得到目标视频中的对白文本素材；

上述对白文本获取单元113的具体实施方式可以参见上述图5a例中的步骤S503，这里不再进行赘述。

视频文本确定单元114，用于将标题文本素材、字幕文本素材和对白文本素材确定为目标视频的识别文本素材；

上述视频文本确定单元114的具体实施方式可以参见上述图5a实施例中的步骤S504，这里不再进行赘述。

第一素材确定单元115，用于若目标视频所关联的对象后验数据满足视频识别条件，则将识别文本素材与对象后验数据确定为目标视频的视频文本素材，根据视频文本素材识别目标视频对应的视频分类信息。

上述第一素材确定单元115的具体实施方式可以参见上述图5a实施例中的步骤S505- S507，这里不再进行赘述。

其中，获取模块11还包括：

特征提取单元116，用于若目标视频关联有对象后验数据，则将对象后验数据进行特征提取，得到后验特征表示，将目标视频的识别文本素材进行特征提取，得到目标特征表示；

上述特征提取单元116的具体实施方式可以参见上述图5a实施例中的步骤S505，这里不再进行赘述。

特征匹配单元117，用于将后验特征表示与目标特征表示进行匹配，得到特征相似度；

上述特征匹配单元117的具体实施方式可以参见上述图5a实施例中的步骤S506，这里不再进行赘述。

条件识别单元118，用于若特征相似度大于相似度阈值，则确定目标视频所关联的对象后验数据满足视频识别条件；

上述条件识别单元118的具体实施方式可以参见上述图5a实施例中的步骤S507，这里不再进行赘述。

第二素材确定单元119，用于若特征相似度小于或等于相似度阈值，则将识别文本素材确定为目标视频的视频文本素材，根据视频文本素材识别目标视频对应的视频分类信息。

上述第二素材确定单元119的具体实施方式可以参见上述图5a实施例中的步骤S507，这里不再进行赘述。

请参见图9b，是本申请实施例提供的一种数据处理装置的结构示意图。如图9b所示，该数据处理装置2可以应用于上述图1对应实施例中的任意一个计算机设备，该数据处理装置2可以包括：获取视频模块21、关联特征识别模块22、匹配视频获取模块23、关联模块24；

获取视频模块21，用于获取目标视频，获取视频事件时间库；视频事件时间库包括至少两个视频，以及与每个视频分别映射的事件和时间；

上述获取视频模块21的具体实施方式可以参见上述图6实施例中的步骤S601，这里不再进行赘述。

关联特征识别模块22，用于将识别目标视频与视频事件时间库中的至少两个视频之间的视频关联特征，根据视频关联特征从视频事件时间库中获取与目标视频存在相似关系的相似视频集合；

上述关联特征识别模块22的具体实施方式可以参见上述图6实施例中的步骤S602，这里不再进行赘述。

匹配视频获取模块23，用于从相似视频集合中获取针对目标视频的匹配相似视频；

上述匹配视频获取模块23的具体实施方式可以参见上述图6实施例中的步骤S603，这里不再进行赘述。

关联模块24，用于从视频事件时间库中获取匹配相似视频所映射的事件和时间，将目标视频与匹配相似视频所映射的事件和时间进行关联。

上述关联模块24的具体实施方式可以参见上述图6实施例中的步骤S604，这里不再进行赘述。

其中，关联特征识别模块22包括：

倒排索引单元221，用于获取视频事件时间库中的至少两个视频的视频文本特征，根据至少两个视频的视频文本特征构建文本倒排索引库；

上述倒排索引单元221的具体实施方式可以参见上述图7实施例中的步骤S702，这里不再进行赘述。

向量差值确定单元222，用于获取目标视频的视频文本特征，根据目标视频的视频文本特征对文本倒排索引库进行查询，得到目标视频分别与每个视频之间的文本特征向量差值，将文本特征向量差值确定为视频关联特征；

上述向量差值确定单元222的具体实施方式可以参见上述图7实施例中的步骤S703，这里不再进行赘述。

第一集合单元223，用于将视频关联特征大于差值阈值的视频加入到与目标视频存在相似关系的相似视频集合。

上述第一集合单元223的具体实施方式可以参见上述图7实施例中的步骤S704，这里不再进行赘述。

其中，关联特征识别模块22包括：

第一特征获取单元224，用于获取目标视频的视频多模态向量特征；

上述第一特征获取单元224的具体实施方式可以参见上述图8a实施例中的步骤S802- S804，这里不再进行赘述。

第二特征获取单元225，用于获取视频事件时间库中的至少两个视频的视频多模态向量特征；

上述第二特征获取单元225的具体实施方式可以参见上述图8a实施例中的步骤S805，这里不再进行赘述。

特征距离确定单元226，用于将视频事件时间库中的至少两个视频的视频多模态向量特征分别与目标视频的视频多模态向量特征进行匹配，得到目标视频与每个视频之间的特征距离，将特征距离确定为视频关联特征；

上述特征距离确定单元226的具体实施方式可以参见上述图8a实施例中的步骤S806，这里不再进行赘述。

第二集合确定单元227，用于将视频关联特征大于特征距离阈值的视频加入到与目标视频存在相似关系的相似视频集合。

上述第二集合确定单元227的具体实施方式可以参见上述图8a实施例中的步骤S807，这里不再进行赘述。

其中，第一特征获取单元224包括：

多素材提取子单元2241，用于通过多模态表示模型提取目标视频的视频文本素材、视频图像素材以及视频音频素材；

上述多素材提取子单元2241的具体实施方式可以参见上述图8a实施例中的步骤S802，这里不再进行赘述。

融合子单元2242，用于对视频文本素材对应的特征、视频图像素材对应的特征以及视频音频素材对应的特征进行特征融合，得到视频融合特征；

上述融合子单元2242的具体实施方式可以参见上述图8a实施例中的步骤S803，这里不再进行赘述。

全连接处理子单元2243，用于将视频融合特征输入多模态表示模型中的全连接层，通过全连接层输入目标视频的视频多模态向量特征。

上述全连接处理子单元2243的具体实施方式可以参见上述图8a实施例中的步骤S804，这里不再进行赘述。

本申请实施例通过获取目标视频中的视频文本素材，根据视频文本素材识别目标视频对应的视频分类信息；将视频文本素材和视频分类信息输入到基于视频事件时间库训练得到的序列标注模型中，通过序列标注模型输出针对目标视频的预测结果；根据预测结果确定用于与目标视频进行关联的目标时间。本申请在识别视频相关时间过程中引入了事件的识别，通过事件作为识别视频相关时间的桥梁，增加了视频关联特征，可以为识别过程树立明确目标，减少不必要的识别步骤，并且加入了具有强关联性的视频事件时间库，针对视频文本进行分类识别，借助光学字符识别和自动语音识别扩充视频标题以外的视频内容文本，通过拓展视频多模态特征，挖掘大量的已经标注相关时间的视频的价值，进行事件与相关时间识别，并且充分利用视频分发后的弹幕与评论等对象后验数据，提升视频相关时间识别的覆盖率与准确率，进而提升视频推荐分发的时效相关性，增强视频平台的整体视频推荐分发效果，因此，当识别视频相关时间时，可以对视频文本有更精确的划分与更细致的识别，给出的相关时间的准确性有很大提升，而且本申请可以通过确切地识别相关视频时间后进行视频精准推送，提升观看视频对象的时间感知。因此，本申请可以精准地识别视频相关时间，以充分利用视频相关时间的时效性。

请参见图10，是本申请实施例提供的又一种计算机设备的结构示意图。如图10示，该计算机设备可以应用于上述图1对应实施例中的计算机设备。计算机设备1000包括：处理器1001，网络接口1004和存储器1005，此外，计算机设备1000还可以包括：用户接口1003，和至少一个通信总线1002。其中，通信总线1002用于实现这些组件之间的连接通信。其中，用户接口1003可以包括显示屏（Display）、键盘（Keyboard），可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口（如WI-FI接口）。存储器1005可以是高速RAM存储器，也可以是非不稳定的存储器（non-volatilememory），例如至少一个磁盘存储器。存储器1005可选的还可以是至少一个位于远离前述处理器1001的存储装置。如图10所示，作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及设备控制应用程序。

在图10所示的计算机设备1000中，网络接口1004可提供网络通讯功能，以用于与服务器进行通信；而用户接口1003主要用于为用户提供输入的接口；而处理器1001可以用于调用存储器1005中存储的设备控制应用程序，以实现：

处理器1001获取目标视频中的视频文本素材，根据视频文本素材识别目标视频对应的视频分类信息；将视频文本素材和视频分类信息输入到基于视频事件时间库训练得到的序列标注模型中，通过序列标注模型输出针对目标视频的预测结果；视频事件时间库包括至少两个视频，以及与每个视频分别映射的事件和时间；序列标注模型是通过以视频事件时间库中的至少两个视频为训练样本、以及以与每个视频分别映射的事件和时间为训练标签训练得到的；根据预测结果确定用于与目标视频进行关联的目标时间。

在一个实施例中，处理器1001在将提取语音质量识别请求中的音频数据对应的音频特征，根据音频特征生成音频数据对应的发音质量评分时，具体执行以下步骤：

提取语音质量识别请求中的音频数据对应的声学特征，识别音频数据的文本信息，提取文本信息对应的文本特征，将声学特征和文本特征确定为音频特征，将音频特征输入语音质量识别模型；通过语音质量识别模型对音频特征进行卷积处理，得到音频隐藏特征，将音频隐藏特征输入语音质量识别模型中的分类层，通过分类层输出发音质量评分。

在一个实施例中，处理器1001还执行以下步骤：

将视频事件时间库中的至少两个视频确定为训练样本，将与每个视频分别映射的事件和时间确定为训练标签；获取训练样本中的样本文本素材，根据样本文本素材识别训练样本对应的样本分类信息；将样本文本素材和样本分类信息输入到初始序列标注模型中，通过初始序列标注模型输出针对训练样本的样本预测结果；根据样本预测结果和训练标签生成模型损失值，根据模型损失值对初始序列标注模型进行模型参数调整，得到序列标注模型。

在一个实施例中，处理器1001在将获取目标视频中的视频文本素材，根据视频文本素材识别目标视频对应的视频分类信息时，具体执行以下步骤：

获取目标视频中的标题文本素材；对目标视频中的每一帧图像中的字幕进行光学识别，得到字幕文本素材；获取目标视频中的音频数据，对音频数据进行语音识别，得到目标视频中的对白文本素材；将标题文本素材、字幕文本素材和对白文本素材确定为目标视频的识别文本素材；若目标视频所关联的对象后验数据满足视频识别条件，则将识别文本素材与对象后验数据确定为目标视频的视频文本素材，根据视频文本素材识别目标视频对应的视频分类信息。

在一个实施例中，处理器1001在将获取目标视频中的视频文本素材，根据视频文本素材识别目标视频对应的视频分类信息时，还执行以下步骤：

若目标视频关联有对象后验数据，则将对象后验数据进行特征提取，得到后验特征表示，将目标视频的识别文本素材进行特征提取，得到目标特征表示；将后验特征表示与目标特征表示进行匹配，得到特征相似度；若特征相似度大于相似度阈值，则确定目标视频所关联的对象后验数据满足视频识别条件；若特征相似度小于或等于相似度阈值，则将识别文本素材确定为目标视频的视频文本素材，根据视频文本素材识别目标视频对应的视频分类信息。

本申请实施例通过获取目标视频中的视频文本素材，根据视频文本素材识别目标视频对应的视频分类信息；将视频文本素材和视频分类信息输入到基于视频事件时间库训练得到的序列标注模型中，通过序列标注模型输出针对目标视频的预测结果；根据预测结果确定用于与目标视频进行关联的目标时间。本申请在识别视频相关时间过程中引入了事件的识别，通过事件作为识别视频相关时间的桥梁，增加了视频关联特征，可以为识别过程树立明确目标，减少不必要的识别步骤，并且加入了具有强关联性的视频事件时间库，针对视频文本进行分类识别，借助光学字符识别和自动语音识别扩充视频标题以外的视频内容文本，提升视频相关时间识别的覆盖面与准确率，因此，当识别视频相关时间时，可以对视频文本有更精确的划分与更细致的识别，给出的相关时间的准确性有很大提升，而且本申请可以通过确切地识别相关视频时间后进行视频精准推送，提升观看视频对象的时间感知。因此，本申请可以精准地识别视频相关时间，以充分利用视频相关时间的时效性。

应当理解，本申请实施例中所描述的计算机设备1000可执行前文图2、图3、图4、图5a、图6、图7、图8a中任一个所对应实施例中对数据处理方法的描述，在此不再赘述。另外，对采用相同方法的有益效果描述，也不再进行赘述。

请参见图11，是本申请实施例提供的又一种计算机设备的结构示意图。如图11示，该计算机设备可以应用于上述图1对应实施例中的计算机设备。计算机设备1100包括：处理器1101，网络接口1104和存储器1105，此外，计算机设备1100还可以包括：用户接口1103，和至少一个通信总线1102。其中，通信总线1102用于实现这些组件之间的连接通信。其中，用户接口1103可以包括显示屏（Display）、键盘（Keyboard），可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1104可选的可以包括标准的有线接口、无线接口（如WI-FI接口）。存储器1105可以是高速RAM存储器，也可以是非不稳定的存储器（non-volatilememory），例如至少一个磁盘存储器。存储器1105可选的还可以是至少一个位于远离前述处理器1101的存储装置。如图11所示，作为一种计算机存储介质的存储器1105中可以包括操作系统、网络通信模块、用户接口模块以及设备控制应用程序。

在图11所示的计算机设备1100中，网络接口1104可提供网络通讯功能，以用于与服务器进行通信；而用户接口1103主要用于为用户提供输入的接口；而处理器1101可以用于调用存储器1105中存储的设备控制应用程序，以实现：

处理器1101获取目标视频，获取视频事件时间库；视频事件时间库包括至少两个视频，以及与每个视频分别映射的事件和时间；识别目标视频与视频事件时间库中的至少两个视频之间的视频关联特征，根据视频关联特征从视频事件时间库中获取与目标视频存在相似关系的相似视频集合；从相似视频集合中获取针对目标视频的匹配相似视频；从视频事件时间库中获取匹配相似视频所映射的事件和时间，将目标视频与匹配相似视频所映射的事件和时间进行关联。

在一个实施例中，处理器1101在将识别目标视频与视频事件时间库中的至少两个视频之间的视频关联特征，根据视频关联特征从视频事件时间库中获取与目标视频存在相似关系的相似视频集合时，具体执行以下步骤：

获取视频事件时间库中的至少两个视频的视频文本特征，根据至少两个视频的视频文本特征构建文本倒排索引库；获取目标视频的视频文本特征，根据目标视频的视频文本特征对文本倒排索引库进行查询，得到目标视频分别与每个视频之间的文本特征向量差值，将文本特征向量差值确定为视频关联特征；将视频关联特征大于差值阈值的视频加入到与目标视频存在相似关系的相似视频集合。

获取目标视频的视频多模态向量特征；获取视频事件时间库中的至少两个视频的视频多模态向量特征；将视频事件时间库中的至少两个视频的视频多模态向量特征分别与目标视频的视频多模态向量特征进行匹配，得到目标视频与每个视频之间的特征距离，将特征距离确定为视频关联特征；将视频关联特征大于特征距离阈值的视频加入到与目标视频存在相似关系的相似视频集合。

在一个实施例中，处理器1101在将获取目标视频的视频多模态向量特征时，具体执行以下步骤：

通过多模态表示模型提取目标视频的视频文本素材、视频图像素材以及视频音频素材；对视频文本素材对应的特征、视频图像素材对应的特征以及视频音频素材对应的特征进行特征融合，得到视频融合特征；将视频融合特征输入多模态表示模型中的全连接层，通过全连接层输入目标视频的视频多模态向量特征。

应当理解，本申请实施例中所描述的计算机设备1100可执行前文图2、图3、图4、图5a、图6、图7、图8a中任一个所对应实施例中对数据处理方法的描述，在此不再赘述。另外，对采用相同方法的有益效果描述，也不再进行赘述。

此外，这里需要指出的是：本申请实施例还提供了一种计算机存储介质，且计算机存储介质中存储有前文提及的计算机设备所执行的计算机程序，且计算机程序包括程序指令，当处理器执行程序指令时，能够执行前文图2、图3、图4、图5a、图6、图7、图8a任一个所对应实施例中对数据处理方法的描述，因此，这里将不再进行赘述。另外，对采用相同方法的有益效果描述，也不再进行赘述。对于本申请所涉及的计算机存储介质实施例中未披露的技术细节，请参照本申请方法实施例的描述。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，计算机程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，存储介质可为磁碟、光盘、只读存储记忆体（Read-Only Memory，ROM）或随机存储记忆体（Random Access Memory，RAM）等。

以上所揭露的仅为本申请较佳实施例而已，当然不能以此来限定本申请之权利范围，因此依本申请权利要求所作的等同变化，仍属本申请所涵盖的范围。

Claims

1.一种数据处理方法，其特征在于，包括：

获取目标视频中的视频文本素材，根据所述视频文本素材识别所述目标视频对应的视频分类信息；

将所述视频文本素材和所述视频分类信息输入到基于视频事件时间库训练得到的序列标注模型中，通过所述序列标注模型输出针对所述目标视频的预测结果；所述视频事件时间库包括至少两个视频，以及与每个视频分别映射的事件和时间；所述序列标注模型是通过以所述视频事件时间库中的至少两个视频为训练样本、以及以与每个视频分别映射的事件和时间为训练标签训练得到的；

根据所述预测结果确定用于与所述目标视频进行关联的目标时间。

2.根据权利要求1所述的方法，其特征在于，还包括：

将所述视频事件时间库中的至少两个视频确定为训练样本，将与每个视频分别映射的事件和时间确定为训练标签；

获取所述训练样本中的样本文本素材，根据所述样本文本素材识别所述训练样本对应的样本分类信息；

将所述样本文本素材和所述样本分类信息输入到初始序列标注模型中，通过所述初始序列标注模型输出针对所述训练样本的样本预测结果；

根据所述样本预测结果和所述训练标签生成模型损失值，根据所述模型损失值对所述初始序列标注模型进行模型参数调整，得到序列标注模型。

3.根据权利要求1所述的方法，其特征在于，所述获取目标视频中的视频文本素材，根据所述视频文本素材识别所述目标视频对应的视频分类信息，包括：

获取目标视频中的标题文本素材；

对所述目标视频中的每一帧图像中的文本内容进行图像识别，得到字幕文本素材；

获取所述目标视频中的音频数据，对所述音频数据进行语音识别，得到所述目标视频中的对白文本素材；

将所述标题文本素材、所述字幕文本素材和所述对白文本素材确定为所述目标视频的识别文本素材；

若所述目标视频所关联的对象后验数据满足视频识别条件，则将所述识别文本素材与所述对象后验数据确定为所述目标视频的视频文本素材，根据所述视频文本素材识别所述目标视频对应的视频分类信息。

4.根据权利要求3所述的方法，其特征在于，还包括：

若所述目标视频关联有对象后验数据，则将所述对象后验数据进行特征提取，得到后验特征表示，将所述目标视频的识别文本素材进行特征提取，得到目标特征表示；

将所述后验特征表示与所述目标特征表示进行匹配，得到特征相似度；

若所述特征相似度大于相似度阈值，则确定所述目标视频所关联的对象后验数据满足视频识别条件。

5.一种数据处理方法，其特征在于，包括：

获取目标视频，获取视频事件时间库；所述视频事件时间库包括至少两个视频，以及与每个视频分别映射的事件和时间；

识别所述目标视频与所述视频事件时间库中的至少两个视频之间的视频关联特征，根据所述视频关联特征从所述视频事件时间库中获取与所述目标视频存在相似关系的相似视频集合；

从所述相似视频集合中获取针对所述目标视频的匹配相似视频；

从所述视频事件时间库中获取所述匹配相似视频所映射的事件和时间，将所述目标视频与所述匹配相似视频所映射的事件和时间进行关联。

6.根据权利要求5所述的方法，其特征在于，所述识别所述目标视频与所述视频事件时间库中的至少两个视频之间的视频关联特征，根据所述视频关联特征从所述视频事件时间库中获取与所述目标视频存在相似关系的相似视频集合，包括：

获取所述视频事件时间库中的至少两个视频的视频文本特征，根据所述至少两个视频的视频文本特征构建文本倒排索引库；

获取所述目标视频的视频文本特征，根据所述目标视频的视频文本特征对所述文本倒排索引库进行查询，得到所述目标视频分别与每个视频之间的文本特征向量差值，将所述文本特征向量差值确定为视频关联特征；

将所述视频关联特征大于差值阈值的视频加入到与所述目标视频存在相似关系的相似视频集合。

7.根据权利要求5所述的方法，其特征在于，所述识别所述目标视频与所述视频事件时间库中的至少两个视频之间的视频关联特征，根据所述视频关联特征从所述视频事件时间库中获取与所述目标视频存在相似关系的相似视频集合，包括：

获取所述目标视频的视频多模态向量特征；

获取所述视频事件时间库中的至少两个视频的视频多模态向量特征；

将所述视频事件时间库中的至少两个视频的视频多模态向量特征分别与所述目标视频的视频多模态向量特征进行匹配，得到所述目标视频与每个视频之间的特征距离，将所述特征距离确定为视频关联特征；

将所述视频关联特征大于特征距离阈值的视频加入到与所述目标视频存在相似关系的相似视频集合。

8.根据权利要求7所述的方法，其特征在于，所述获取所述目标视频的视频多模态向量特征，包括：

通过多模态表示模型提取所述目标视频的视频文本素材、视频图像素材以及视频音频素材；

将所述视频融合特征输入所述多模态表示模型中的全连接层，通过所述全连接层输入所述目标视频的视频多模态向量特征。

9.一种计算机设备，其特征在于，包括：处理器、存储器以及网络接口；

所述处理器与所述存储器、所述网络接口相连，其中，所述网络接口用于提供数据通信功能，所述存储器用于存储程序代码，所述处理器用于调用所述程序代码，以执行权利要求1-8任一项所述的方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机程序，所述计算机程序适于由处理器加载并执行权利要求1-8任一项所述的方法。