CN114782879A

CN114782879A - 视频识别方法、装置、计算机设备和存储介质

Info

Publication number: CN114782879A
Application number: CN202210695301.5A
Authority: CN
Inventors: 郭卉
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2022-06-20
Filing date: 2022-06-20
Publication date: 2022-07-22
Anticipated expiration: 2042-06-20
Also published as: WO2023246259A1; US20240193934A1; CN114782879B

Abstract

本申请涉及一种视频识别方法、装置、计算机设备、存储介质和计算机程序产品。该方法包括：获取视频系列剧集中的目标视频和剧集参考视频；根据对目标视频和剧集参考视频进行视频帧匹配得到的第一匹配结果，识别出目标视频中相对于剧集参考视频的剧集局部相似片段；获取来源于目标视频所属的视频平台的平台参考视频；根据对目标视频和平台参考视频进行视频帧匹配得到的第二匹配结果，识别出目标视频中相对于平台参考视频的平台全局相似片段；基于剧集局部相似片段和平台全局相似片段各自在目标视频中的位置，确定目标视频中相对于剧集参考视频及平台参考视频的综合相似片段。采用本方法能够提高针对视频中相似视频片段识别的准确度。

Description

视频识别方法、装置、计算机设备和存储介质

技术领域

本申请涉及计算机技术领域，特别是涉及一种视频识别方法、装置、计算机设备、存储介质和计算机程序产品。

背景技术

随着计算机技术的发展，各种网络视频平台层出不穷，除了网络中的影视视频资源外，人们还可以在网络视频平台自主创作各种各样的视频，包括系列讲课、知识分享、文艺课堂、时评趣闻、娱乐视频等各类视频，满足了观众新的收视需求。在各种网络视频平台的视频中往往会制作有片头和片尾等相似的视频片段，该视频片段并非视频本身的内容，在进行视频比对或视频剪辑处理时需要将该视频片段识别滤除，而目前对于视频中片头和片尾等相似视频片段的识别准确度较低。

发明内容

基于此，有必要针对上述技术问题，提供一种能够提高视频中相似视频片段识别的准确度的视频识别方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。

第一方面，本申请提供了一种视频识别方法。所述方法包括：

获取视频系列剧集中的目标视频和剧集参考视频；

根据对目标视频和剧集参考视频进行视频帧匹配得到的第一匹配结果，识别出目标视频中相对于剧集参考视频的剧集局部相似片段；

获取来源于目标视频所属的视频平台的平台参考视频；

根据对目标视频和平台参考视频进行视频帧匹配得到的第二匹配结果，识别出目标视频中相对于平台参考视频的平台全局相似片段；

基于剧集局部相似片段和平台全局相似片段各自在目标视频中的位置，确定目标视频中相对于剧集参考视频及平台参考视频的综合相似片段。

在其中一个实施例中，基于筛选出的视频帧对中待识别视频帧的时间属性，确定起始时间和终止时间，包括：获取由筛选出的视频帧对组成的视频帧对列表；视频帧对列表中，各视频帧对按照时间偏移量的数值从小到大进行排序，且相同时间偏移量的视频帧对按照所包括的待识别视频帧的时间戳的数值从小到大进行排序，时间戳是根据所包括的待识别视频帧的时间属性确定的；在视频帧对列表中，确定相邻视频帧对中待识别视频帧的时间属性之间的时间属性距离；将时间属性距离不超过距离阈值的相邻视频帧对，确定为属于同一视频片段的视频帧对；根据属于同一视频片段的视频帧对中待识别视频帧的时间戳，确定起始时间和终止时间。

在其中一个实施例中，根据属于同一视频片段的视频帧对中待识别视频帧的时间戳，确定起始时间和终止时间，包括：基于属于同一视频片段的视频帧对中待识别视频帧的时间戳，从属于同一视频片段的视频帧对中确定起始视频帧对和终止视频帧对；根据起始视频帧对中待识别视频帧的时间戳，得到起始时间；根据终止视频帧对中待识别视频帧的时间戳，得到终止时间。

在其中一个实施例中，视频识别方法还包括：基于各剧集局部相似片段各自的起始时间和终止时间，确定各剧集局部相似片段之间的片段交集关系；基于片段交集关系，对各剧集局部相似片段进行片段更新，得到目标视频中相对于剧集参考视频更新后的剧集局部相似片段。

在其中一个实施例中，将目标视频中相对于各剧集参考视频的中间相似片段进行片段位置比较，得到片段比较结果，包括：获取由目标视频中相对于各剧集参考视频的中间相似片段组成的相似片段列表；相似片段列表中，各中间相似片段按照统计量从大到小进行排序，且相同统计量的中间相似片段按照起始时间从先到后进行排序；在相似片段列表中，将各中间相似片段进行片段位置比较，得到片段比较结果。

在其中一个实施例中，对目标视频中相对于各剧集参考视频的中间相似片段中，存在交集关系的各中间相似片段进行片段更新，得到目标视频中相对于各剧集参考视频的剧集局部相似片段，包括：对目标视频中相对于各剧集参考视频的中间相似片段中，存在交集关系的各中间相似片段进行片段更新，得到更新后的中间相似片段；确定更新后的中间相似片段的统计量；当更新后的中间相似片段的统计量超过统计量阈值时，根据更新后的中间相似片段，得到目标视频中相对于各剧集参考视频的剧集局部相似片段。

在其中一个实施例中，视频识别方法还包括：当综合相似片段满足公用视频类型的判定条件时，根据综合相似片段，得到目标视频中与公用视频类型匹配的公用视频。

在其中一个实施例中，当综合相似片段满足公用视频类型的判定条件时，根据综合相似片段，得到目标视频中与公用视频类型匹配的公用视频，包括：确定目标视频的公用视频类型关联的公用视频分布区间；当综合相似片段的时间段处于公用视频分布区间中时，根据综合相似片段，得到目标视频中与公用视频类型匹配的公用视频。

在其中一个实施例中，视频识别方法还包括：确定公用视频的起始时间和终止时间；响应于视频比对触发事件，根据起始时间和终止时间，从目标视频中提取得到非公用视频；将非公用视频与待比对视频进行视频比对。

在其中一个实施例中，视频识别方法还包括：确定公用视频的跳转时间点；响应于针对目标视频的视频播放事件，播放目标视频；当目标视频的播放进度达到跳转时间点时，跳过公用视频进行播放。

在其中一个实施例中，分别提取待识别视频帧的视频帧特征，以及剧集参考视频帧的视频帧特征，包括：通过图像处理模型，分别提取待识别视频帧的视频帧特征，以及剧集参考视频帧的视频帧特征；其中，图像处理模型的训练步骤包括：获取携带分类标签的训练样本图像；通过待训练的图像处理模型对训练样本图像进行特征提取和图像分类，得到训练样本图像的样本图像特征和样本图像类别；基于样本图像特征、样本图像类别以及分类标签，确定模型损失；基于模型损失，对待训练的图像处理模型进行更新后继续训练，当训练完成时，获得训练完成的图像处理模型。

第二方面，本申请还提供了一种视频识别装置。所述装置包括：

剧集视频获取模块，用于获取视频系列剧集中的目标视频和剧集参考视频；

局部相似片段识别模块，用于根据对目标视频和剧集参考视频进行视频帧匹配得到的第一匹配结果，识别出目标视频中相对于剧集参考视频的剧集局部相似片段；

平台视频获取模块，用于获取来源于目标视频所属的视频平台的平台参考视频；

全局相似片段识别模块，用于根据对目标视频和平台参考视频进行视频帧匹配得到的第二匹配结果，识别出目标视频中相对于平台参考视频的平台全局相似片段；

综合相似片段确定模块，用于基于剧集局部相似片段和平台全局相似片段各自在目标视频中的位置，确定目标视频中相对于剧集参考视频及平台参考视频的综合相似片段。

第三方面，本申请还提供了一种计算机设备。所述计算机设备包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

获取视频系列剧集中的目标视频和剧集参考视频；

获取来源于目标视频所属的视频平台的平台参考视频；

第四方面，本申请还提供了一种计算机可读存储介质。所述计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

获取视频系列剧集中的目标视频和剧集参考视频；

获取来源于目标视频所属的视频平台的平台参考视频；

第五方面，本申请还提供了一种计算机程序产品。所述计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现以下步骤：

获取视频系列剧集中的目标视频和剧集参考视频；

获取来源于目标视频所属的视频平台的平台参考视频；

上述视频识别方法、装置、计算机设备、存储介质和计算机程序产品，对视频系列剧集中的目标视频和剧集参考视频进行视频帧匹配，根据得到的第一匹配结果识别出目标视频中相对于剧集参考视频的剧集局部相似片段，对目标视频所属的视频平台的平台参考视频和目标视频进行视频帧匹配，根据得到的第二匹配结果识别出目标视频中相对于平台参考视频的平台全局相似片段，基于剧集局部相似片段和平台全局相似片段各自在目标视频中的位置，确定目标视频中的综合相似片段。剧集局部相似片段是根据与目标视频属于相同视频系列剧集的剧集参考视频识别得到的，平台全局相似片段是根据与目标视频属于相同视频平台的平台参考视频识别得到的，基于剧集局部相似片段和平台全局相似片段各自在目标视频中的位置得到的综合相似片段，综合了视频系列剧集中的视频相似特性以及视频平台中的视频相似特性，提高了针对视频中相似视频片段识别的准确度。

附图说明

图1为一个实施例中视频识别方法的应用环境图；

图2为一个实施例中视频识别方法的流程示意图；

图3为一个实施例中平台全局相似片段的识别处理的流程示意图；

图4为一个实施例中制作用户视频合辑的流程示意图；

图5为一个实施例中比对视频的流程示意图；

图6为一个实施例中介绍平台画面片头的界面示意图；

图7为一个实施例中视频播放正片内容的界面示意图；

图8为一个实施例中介绍平台画面片尾的界面示意图；

图9为一个实施例中第一时期视频平台介绍画面的界面示意图；

图10为一个实施例中第二时期视频平台介绍画面的界面示意图；

图11为一个实施例中片头片尾识别方法整体流程示意图；

图12为一个实施例中片头片尾挖掘方法的示意框图；

图13为一个实施例中片头修正的处理示意图；

图14为一个实施例中片尾修正的处理示意图；

图15为一个实施例中匹配段信息的示意图；

图16为一个实施例中时间段包含的示意图；

图17为一个实施例中时间段存在交集更新终点时间的示意图；

图18为一个实施例中时间段存在交集更新起点时间的示意图；

图19为一个实施例中时间段存在交集进行更新处理的示意图；

图20为一个实施例中更新推荐片头片尾计数的示意图；

图21为一个实施例中视频识别装置的结构框图；

图22为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请实施例提供的视频识别方法，可以应用于如图1所示的应用环境中。其中，终端102通过网络与服务器104进行通信。数据存储系统可以存储服务器104需要处理的数据。数据存储系统可以集成在服务器104上，也可以放在云上或其他服务器上。服务器104可以对视频系列剧集中的目标视频和剧集参考视频进行视频帧匹配，根据得到的第一匹配结果识别出目标视频中相对于剧集参考视频的剧集局部相似片段，对目标视频所属的视频平台的平台参考视频和目标视频进行视频帧匹配，根据得到的第二匹配结果识别出目标视频中相对于平台参考视频的平台全局相似片段，基于剧集局部相似片段和平台全局相似片段各自在目标视频中的位置，确定目标视频中的综合相似片段。在终端102播放该目标视频时，服务器104可以将目标视频中相对于剧集参考视频及平台参考视频的综合相似片段的片段信息发送至终端102，终端102可以基于收到的片段信息跳过目标视频中综合相似片段的播放，若综合相似片段为片头或片尾，则可以跳过播放片头或片尾，提高终端102的视频播放效率。此外，本申请提供的视频识别方法，还可以由终端102或服务器104单独执行，也可以由终端102和服务器104共同执行，以实现对视频的识别处理。

其中，终端102可以但不限于是各种台式计算机、笔记本电脑、智能手机、平板电脑、物联网设备和便携式可穿戴设备，物联网设备可为智能语音交互设备，智能电视、智能空调等智能家电，智能车载设备，飞行器等。便携式可穿戴设备可为智能手表、智能手环、头戴设备等。服务器104可以用独立的服务器或者是多个服务器组成的服务器集群或云服务器来实现。

在一个实施例中，如图2所示，提供了一种视频识别方法，该方法可以由终端或服务器等电子设备单独执行，也可以由终端和服务器共同执行，在本申请实施例中，以该方法应用于图1中的服务器为例进行说明，包括以下步骤：

步骤202，获取视频系列剧集中的目标视频和剧集参考视频。

其中，视频系列剧集是指属于同一系列的多个视频组成的集合，属于同一系列可以根据实际需要进行划分。例如，同一部电视剧可以认为是属于同一系列，则该电视剧包括的各个电视视频组成的集合，即为该电视剧的视频系列剧集；又如同一创作者创作的视频可以认为是属于同一系列，则可以将该创作者创作的各个视频组成的集合作为视频系列剧集，各个视频的时长可以不同。此外，同一系列还可以为针对相同主题的视频，同一制作地制作的视频，等等。视频系列剧集中包括多个视频，多个视频可以具有相似片段，例如对于同一创作者创作的视频，各个视频的开始可以存在介绍创作者的片头，还可以存在针对视频进行总结的片尾等。视频的片头一般用于提示视频的开始，视频的片尾用于提示视频的结束，片头和片尾的形式多种多样，具体可以包括但不限于包括音视频素材、文字、徽标等。

目标视频为视频系列剧集中需要进行识别处理的视频，即需要从目标视频中识别出与其他视频相似的视频片段，如可以识别出片头和片尾，片头和片尾是与其他视频相似的视频片段。参考视频用于作为目标视频识别的参考，即基于参考视频来识别出目标视频中的相似视频片段。剧集参考视频为从视频系列剧集进行采样抽取获得的参考视频。剧集参考视频和目标视频均属于同一视频系列剧集，属于同一视频系列剧集的各个视频之间可能存在相似视频片段，可以在播放时进行跳播，或者可以对视频的正文进行准确剪辑处理。剧集参考视频的视频数量可以根据实际需要进行设置，如可以将剧集参考视频的数量设置为固定数量，还可以根据目标视频的时长、视频系列剧集中包括的视频数量进行设置。例如，目标视频的时长越长，则可以将剧集参考视频的数量设置越大；视频系列剧集包括的视频数量越多，则可以将剧集参考视频的数量设置越大。还可以设置剧集参考视频的数量为视频系列剧集中包括的视频数量的固定比例，如可以设置为50%，则若视频系列剧集中包括的视频数量为20，则剧集参考视频的数量可以为10，即从视频系列剧集中除目标视频外，抽取10个视频作为剧集参考视频。

具体地，在触发视频识别事件时，表明需要进行视频识别处理，服务器获取视频系列剧集中的目标视频和剧集参考视频，具体可以由服务器确定视频识别事件所针对的视频系列剧集，服务器查询视频系列剧集，并从视频系列剧集中确定目标视频，服务器从视频系列剧集中抽取剧集参考视频，从而获得属于同一视频系列剧集的目标视频和剧集参考视频。此外，服务器可以在确定目标视频后，确定目标视频所划分的视频系列剧集，从而从该视频系列剧集中获取目标视频和剧集参考视频。

步骤204，根据对目标视频和剧集参考视频进行视频帧匹配得到的第一匹配结果，识别出目标视频中相对于剧集参考视频的剧集局部相似片段。

其中，视频帧是指视频中的每一图像帧，视频由多张视频帧组成得到，即视频中包括多张视频帧。视频帧匹配是指将属于不同视频中的视频帧进行图像匹配的处理，以确定不同视频中存在的相匹配的视频帧。例如，可以将从第一视频中抽取的第一视频帧，与从第二视频中抽取的第二视频帧进行图像匹配，从而从第一视频中确定与第二视频的视频帧相匹配的视频帧。第一匹配结果是目标视频和剧集参考视频进行视频帧匹配得到的图像匹配结果，第一匹配结果具体可以包括从目标视频和剧集参考视频中识别到的相匹配的视频帧。对于目标视频和剧集参考视频的视频帧匹配处理，可以将目标视频中的视频帧和剧集参考视频中的视频帧进行相似度匹配，根据满足相似度阈值的相似度对应的视频帧，得到包括目标视频与剧集参考视频之间相匹配的视频帧的第一匹配结果。

相似片段指不同视频之间画面相似的视频片段，剧集局部相似片段是指目标视频中，与剧集参考视频中的片段相似的视频片段。目标视频中的剧集局部相似片段与参考视频中的片段相似，则该剧集局部相似片段可能是目标视频和剧集参考视频重复的视频内容，如可以为目标视频和剧集参考视频复用的视频内容，具体可以为片头、片尾、广告、平台介绍信息等复用的视频内容。

具体地，服务器将目标视频和剧集参考视频进行识别，以识别出目标视频中与剧集参考视频存在的相似的视频片段。服务器对目标视频和剧集参考视频进行视频帧匹配，具体可以分别从目标视频和剧集参考视频中各自抽取视频帧，并将抽取的视频帧进行图像匹配，得到第一匹配结果。服务器基于第一匹配结果，识别出目标视频中相对于剧集参考视频的剧集局部相似片段，具体可由服务器根据目标视频和剧集参考视频中相匹配的视频帧的时间属性，如相匹配帧在目标视频帧中的时间戳位置，确定剧集局部相似片段。得到剧集局部相似片段是通过目标视频所属视频系列剧集中的剧集参考视频，针对目标视频识别得到的，相对于整个视频平台中的各视频而言是基于局部视频识别得到的相似片段。

例如，得到的第一匹配结果中，目标视频中第1秒的视频帧与剧集参考视频中第3秒的视频帧相匹配，目标视频中第2秒的视频帧与剧集参考视频中第4秒的视频帧相匹配，目标视频中第3秒的视频帧与剧集参考视频中第5秒的视频帧相匹配，目标视频中第4秒的视频帧与剧集参考视频中第6秒的视频帧相匹配，则服务器可以确定目标视频中第1秒至第4秒的视频片段，为相对于剧集参考视频的剧集局部相似片段，从而识别得到剧集局部相似片段。

步骤206，获取来源于目标视频所属的视频平台的平台参考视频。

其中，视频平台是指能够提供视频资源的平台，用户可以在视频平台中进行视频播放观看、下载、收藏等操作。在具体实现中，视频创作者可以将创作的视频发布到视频平台中，以供视频观众进行观看。平台参考视频来源于目标视频所属的视频平台，即与目标视频属于相同的视频平台，具体可以为从目标视频所属的视频平台中抽取的视频，以作为对目标视频进行识别的参考视频。

具体地，服务器获取平台参考视频，实现时可由服务器确定目标视频所属的视频平台，并获取属于该视频平台的平台参考视频。在具体应用中，平台参考视频可以为直接从视频平台中获得的原始平台视频，即未进行进一步处理的平台视频；平台参考视频也可以是对原始平台视频进行剪辑操作后的视频，如可以为从原始平台视频中截取的视频片段。

步骤208，根据对目标视频和平台参考视频进行视频帧匹配得到的第二匹配结果，识别出目标视频中相对于平台参考视频的平台全局相似片段。

其中，第二匹配结果是目标视频和平台参考视频进行视频帧匹配得到的图像匹配结果，第二匹配结果具体可以包括从目标视频和平台参考视频中识别到的相匹配的视频帧。对于目标视频和平台参考视频的视频帧匹配处理，可以采用与目标视频和剧集参考视频进行视频帧匹配相同的处理方式。平台全局相似片段是指目标视频中，与平台参考视频中的片段相似的视频片段。

具体地，服务器将目标视频和平台参考视频进行识别，以识别出目标视频中与平台参考视频存在的相似的视频片段。服务器对目标视频和平台参考视频进行视频帧匹配，具体可以分别从目标视频和平台参考视频中各自抽取视频帧，并将抽取的视频帧进行图像匹配，得到第二匹配结果。服务器基于第二匹配结果，识别出目标视频中相对于平台参考视频的平台全局相似片段。得到平台全局相似片段是通过目标视频所属视频平台中的平台参考视频，针对目标视频识别得到的，是基于整个视频平台中的各视频进行全局视频识别得到的相似片段。

步骤210，基于剧集局部相似片段和平台全局相似片段各自在目标视频中的位置，确定目标视频中相对于剧集参考视频及平台参考视频的综合相似片段。

其中，剧集局部相似片段和平台全局相似片段各自在目标视频中的位置，是指剧集局部相似片段和平台全局相似片段各自在目标视频中的时间戳位置。例如，剧集局部相似片段是第2秒至第6秒的视频片段，则剧集局部相似片段在目标视频中的位置可以为第2秒至第6秒的时间戳位置；平台全局相似片段是第3秒至第8秒的视频片段，则平台全局相似片段在目标视频中的位置可以为第3秒至第8秒的时间戳位置。综合相似片段是根据剧集局部相似片段和平台全局相似片段综合得到的视频识别结果。

具体地，服务器确定剧集局部相似片段和平台全局相似片段各自在目标视频中的位置，并基于该位置，确定目标视频中相对于剧集参考视频及平台参考视频的综合相似片段。例如，剧集局部相似片段的位置为第2秒至第6秒，平台全局相似片段的位置为第3秒至第8秒，则服务器可以将二者的位置进行合并，确定第2秒至第8秒位置所对应的视频片段为目标视频中的综合相似片段。此外，还可以由用户主动对综合相似片段进行调整，以得到更为准确的综合相似片段。

具体应用时，在确定目标视频中相对于剧集参考视频及平台参考视频的综合相似片段后，综合相似片段可能是目标视频中复用的视频片段，如可能为片头、片尾、广告或平台信息等视频内容，则在播放目标视频时，可以将该综合相似片段跳过播放，从而提高播放效率。此外，在视频比对的应用场景中，若视频系列剧集各视频中存在复用的片头、片尾或广告内容，不需要进行比对时，则可以从目标视频中截去综合相似片段，从而将目标视频中的其他视频片段进行视频比对，有利于减少视频比对处理的数据量，提高视频比对的处理效率。

上述视频识别方法中，对视频系列剧集中的目标视频和剧集参考视频进行视频帧匹配，根据得到的第一匹配结果识别出目标视频中相对于剧集参考视频的剧集局部相似片段，对目标视频所属的视频平台的平台参考视频和目标视频进行视频帧匹配，根据得到的第二匹配结果识别出目标视频中相对于平台参考视频的平台全局相似片段，基于剧集局部相似片段和平台全局相似片段各自在目标视频中的位置，确定目标视频中的综合相似片段。剧集局部相似片段是根据与目标视频属于相同视频系列剧集的剧集参考视频识别得到的，平台全局相似片段是根据与目标视频属于相同视频平台的平台参考视频识别得到的，基于剧集局部相似片段和平台全局相似片段各自在目标视频中的位置得到的综合相似片段，综合了视频系列剧集中的视频相似特性以及视频平台中的视频相似特性，提高了针对视频中相似视频片段识别的准确度。

在一个实施例中，视频识别方法还包括：根据目标视频中包括矫正关键词的矫正片段，对剧集局部相似片段进行矫正更新，得到更新后的剧集局部相似片段。

其中，矫正关键词为用于对目标视频的视频识别进行矫正处理的关键词，以提高视频识别的准确性。矫正关键词具体可以为平台介绍信息的关键词、广告关键词、视频介绍关键词等各种类型的关键词。例如，一视频A中第2秒至第4秒的视频片段显示的内容为“第N集”或“纯属虚构”的视频介绍关键词，则可以认为该视频片段并非目标视频中的正文视频内容，属于相似片段。又如，一视频B中第1秒至第2.5秒的视频片段显示内容为“XXX视频平台”的平台介绍信息，则可以确定该视频片段并非目标视频中的正文视频内容，属于视频平台中各个视频所复用的相似片段。矫正片段为目标视频中需要对视频识别进行矫正处理的视频片段，具体可以为目标视频中包括矫正关键词的视频片段。如上视频B中，第1秒至第2.5秒的视频片段包括“XXX视频平台”的矫正关键词，则可以确定视频B中第1秒至第2.5秒的视频片段为矫正片段。

具体地，服务器确定目标视频中包括矫正关键词的矫正片段，在应用时，服务器可以对目标视频中的视频帧进行文字识别，以识别出目标视频的视频帧中包括矫正关键词的矫正片段。矫正关键词可以根据实际需要预先进行设定，如可以包括平台介绍信息的关键词、广告关键词或视频介绍关键词等各种类型的关键词。服务器基于目标视频中的矫正片段对剧集局部相似片段进行矫正更新，得到更新后的剧集局部相似片段。矫正片段包括矫正关键词，则认为矫正片段也属于各个视频复用的相似片段，需要将矫正片段也作为视频识别的结果。例如，一视频C的剧集局部相似片段为第2秒至第5秒的视频片段，而该视频C中包括矫正关键词的矫正片段的第0秒至第2秒，则服务器可以确定更新后的剧集局部相似片段为第0秒至第5秒的视频片段，从而基于矫正片段对剧集局部相似片段进行矫正更新，提高了视频识别的准确度。

进一步地，基于剧集局部相似片段和平台全局相似片段各自在目标视频中的位置，确定目标视频中相对于剧集参考视频及平台参考视频的综合相似片段，包括：基于更新后的剧集局部相似片段和平台全局相似片段各自在目标视频中的位置，确定目标视频中相对于剧集参考视频及平台参考视频的综合相似片段。

具体地，服务器通过更新后的剧集局部相似片段和平台全局相似片段，确定综合相似片段。在应用时，服务器可以确定更新后的剧集局部相似片段和平台全局相似片段各自在目标视频中的位置，并基于该位置，确定目标视频中相对于剧集参考视频及平台参考视频的综合相似片段。

本实施例中，通过目标视频中包括矫正关键词的矫正片段对剧集局部相似片段进行矫正更新，并基于更新后的剧集局部相似片段和平台全局相似片段确定综合相似片段，可以利用矫正关键词对剧集局部相似片段进行矫正更新，可以识别出复用矫正关键词的视频片段，提高了视频中相似视频片段识别的准确度。

在一个实施例中，根据目标视频中包括矫正关键词的矫正片段，对剧集局部相似片段进行矫正更新，得到更新后的剧集局部相似片段，包括：确定目标视频中包括矫正关键词的矫正片段；根据矫正片段在目标视频中的时间戳位置，对剧集局部相似片段在目标视频中的时间戳位置进行更新，得到更新后的时间戳位置；基于更新后的时间戳位置，确定目标视频中更新后的剧集局部相似片段。

其中，时间戳位置是指视频片段在所属视频中时间戳所在位置，如对于一视频时长为2分钟，则时间戳为从00:00至02:00，若该视频中的视频片段是第23秒至59秒的片段，则该视频片段在视频中的时间戳位置为从00:23至00:59。对于视频中不同的视频片段，具有不同的时间戳位置，可以按照该时间戳位置，从视频中确定相应的视频片段。

具体地，服务器确定目标视频中包括矫正关键词的矫正片段，如可以由服务器对目标视频中的视频帧进行文字识别，从而确定目标视频中包括矫正关键词的矫正片段。服务器确定矫正片段在目标视频中的时间戳位置，以及剧集局部相似片段在目标视频中的时间戳位置。服务器对剧集局部相似片段在目标视频中的时间戳位置进行更新，得到更新后的时间戳位置，并基于更新后的时间戳位置，确定目标视频中更新后的剧集局部相似片段。

例如，服务器确定目标视频中包括矫正关键词的矫正片段为第30秒至第31秒的视频片段，则服务器可以确定矫正片段的时间戳位置为从00:30至00:31，若剧集局部相似片段在目标视频中的时间戳位置为从00:26至00:30，则服务器可以得到更新后的时间戳位置为从00:26至00:31，即目标视频中更新后的剧集局部相似片段为第26秒至第31秒的视频片段。

本实施例中，通过矫正片段在目标视频中的时间戳位置，对剧集局部相似片段在目标视频中的时间戳位置进行更新，并基于更新后的时间戳位置，确定目标视频中更新后的剧集局部相似片段，从而可以基于时间戳位置对剧集局部相似片段进行准确矫正更新，有利于提高视频中相似视频片段识别的准确度。

在一个实施例中，确定目标视频中包括矫正关键词的矫正片段，包括：对目标视频中的视频帧进行文字识别，得到文字识别结果；将文字识别结果与矫正关键词进行匹配，获得匹配结果；根据匹配一致的匹配结果所关联的视频帧，从目标视频确定包括矫正关键词的矫正片段。

其中，矫正关键词可以根据实际需要预先进行设置，如可以构建关键词库，在关键词库中存储各种类型的矫正关键词，通过将目标视频的文字识别结果与关键词库中各种类型的矫正关键词进行匹配，以确定目标视频是否包括携带矫正关键词的矫正片段。

具体地，服务器从目标视频中获取视频帧，如可以等间隔抽取多个视频帧，服务器对获得的各个视频帧分别进行文字识别，得到文字识别结果。服务器获取预先设置的矫正关键词，将目标视频的文字识别结果与矫正关键词进行匹配，得到匹配结果。服务器筛选匹配一致的匹配结果，确定匹配一致的匹配结果所关联的各个视频帧，并基于该各个从目标视频确定包括矫正关键词的矫正片段。例如，对于目标视频的前10秒，每隔0.5秒抽取1个视频帧，得到20个视频帧，服务器对各个视频帧分别进行文字识别，并将每个视频帧的文字识别结果与矫正关键词进行匹配，若匹配一致的匹配结果所关联的视频帧为第18个至第20个视频帧，则服务器可以确定目标视频中的矫正片段为第18个视频帧至第20个视频帧之间的视频片段，具体为目标视频中第9秒至第10秒的视频片段。

本实施例中，通过对目标视频中的视频帧进行文字识别，基于文字识别结果与矫正关键词进行匹配得到的匹配结果，从而目标视频中确定包括矫正关键词的矫正片段，可以通过文字检索方式准确识别目标视频中的矫正片段，进一步基于矫正片段对剧集局部相似片段进行矫正更新，提高了视频识别的准确度。

在一个实施例中，平台参考视频包括从目标视频所属的视频平台的公用视频库中获取的平台公用视频片段，以及从视频平台中获取的平台关联视频。如图3所示，平台全局相似片段的识别处理，即根据对目标视频和平台参考视频进行视频帧匹配得到的第二匹配结果，识别出目标视频中相对于平台参考视频的平台全局相似片段，包括：

步骤302，对目标视频和平台公用视频片段进行视频帧匹配，得到公用视频匹配结果。

其中，公用视频库与视频平台关联，用于存储视频平台中的各个平台公用视频片段，平台公用视频片段是视频平台中的各个视频所公用的视频片段。例如，对于视频平台甲，上传到该视频平台甲的视频，视频平台甲均会对上传的视频添加介绍视频平台甲的视频片段，以表示出该视频的来源，则对于该视频平台中的各个视频，均共用了介绍视频平台甲的视频片段，该视频片段即为平台公用视频片段。平台公用视频片段可以为一个也可以为多个，平台公用视频片段的时长、内容也可以由视频平台根据实际需要进行设置。对于平台公用视频片段，视频平台中的各个视频均携带，该平台公用视频片段不属于视频的正文内容，是属于相似的视频片段，在对视频的正文内容进行剪辑或视频比对处理时可以进行识别删除。

平台关联视频是从目标视频所属的视频平台中获取的视频，具体为从视频平台中抽样得到的视频。平台关联视频的获取方式可以根据实际需要进行设置，如可以采用随机抽样方式从视频平台中抽取得到，还可以设置筛选条件，如发布时间、主题内容、关键词等，从视频平台的各个视频中筛选得到平台关联视频。公用视频匹配结果是将目标视频和平台公用视频片段进行视频帧匹配所得到的匹配结果。

具体地，服务器获取的平台参考视频包括从目标视频所属的视频平台的公用视频库中获取的平台公用视频片段，如可由服务器确定目标视频所属的视频平台，查询该视频平台的公用视频库，并从公用视频库中获取平台公用视频片段。服务器将目标视频和平台公用视频片段进行视频帧匹配，得到公用视频匹配结果。

步骤304，当根据公用视频匹配结果未识别出相似片段时，对目标视频和平台关联视频进行视频帧匹配，得到关联视频匹配结果。

其中，关联视频匹配结果是将目标视频和平台关联视频进行视频帧匹配所得到的匹配结果。关联视频匹配结果中可以包括从目标视频和平台关联视频中识别到的相匹配的视频帧。

具体地，服务器基于公用视频匹配结果识别目标视频中的相似片段，当未识别出相似片段时，表明目标视频中与平台公用视频片段没有共用的视频片段，则服务器通过对目标视频和平台关联视频进行视频帧匹配，得到关联视频匹配结果。

步骤306，基于关联视频匹配结果，识别出目标视频中相对于平台关联视频的平台全局相似片段。

具体地，服务器基于关联视频匹配结果，识别出目标视频中相对于平台关联视频的平台全局相似片段，如服务器可以基于关联视频匹配结果，确定目标视频中匹配一致的各个视频帧，并基于各个视频帧的时间戳位置，识别出目标视频中相对于平台关联视频的平台全局相似片段。

本实施例中，平台参考视频包括从目标视频所属的视频平台的公用视频库中获取的平台公用视频片段，以及从视频平台中获取的平台关联视频，服务器先通过平台公用视频片段对目标视频进行识别处理，在未识别出相似片段时，通过平台关联视频对目标视频进行识别处理，得到目标视频中相对于平台关联视频的平台全局相似片段。先通过平台公用视频片段进行识别处理，可以提高相似片段识别的针对性，有利于提高相似片段识别的处理效率；而在通过平台公用视频片段未识别出相似片段时，利用平台关联视频进行识别处理，可以确保相似片段识别的准确性。

在一个实施例中，在基于关联视频匹配结果，识别出目标视频中相对于平台关联视频的平台全局相似片段之后，视频识别方法还包括：对平台全局相似片段的识别统计参数进行更新，得到更新后的识别统计参数；当更新后的识别统计参数满足平台公用判定条件时，将平台全局相似片段作为平台公用视频片段更新至公用视频库中。

其中，识别统计参数是针对平台全局相似片段的识别处理进行统计得到的参数。识别统计参数的参数类型可以根据实际需要进行设置，例如，识别统计参数可以包括成功识别出平台全局相似片段的频次、频率等。针对识别出的各个平台全局相似片段，可以对平台全局相似片段的识别处理进行统计，得到识别统计参数。平台公用判定条件为判定平台全局相似片段是否作为平台公用视频片段的判定条件，如可以为识别统计参数超过预设参数阈值，具体可以为频次超过频次阈值、频率大于频率阈值等。

具体地，服务器在识别出目标视频中相对于平台关联视频的平台全局相似片段之后，可以查询平台全局相似片段的识别统计参数，识别统计参数反映了成功识别出平台全局相似片段的统计结果。服务器对平台全局相似片段的识别统计参数进行更新。例如，平台全局相似片段的识别统计参数包括成功识别的频次，具体为5次，则服务器可以针对该频次增1，将识别统计参数中的频次更新为6次。服务器查询预设的平台公用判定条件，服务器将更新后的识别统计参数与平台公用判定条件进行比较，当更新后的识别统计参数满足平台公用判定条件时，服务器可以将平台全局相似片段作为平台公用视频片段，并将该平台全局相似片段更新至公用视频库中，从而实现对公用视频库的动态更新。在后续视频识别处理中，服务器可以将该平台全局相似片段作为平台公用视频片段先进行视频识别处理。

本实施例中，在成功识别出平台全局相似片段后，服务器对平台全局相似片段的识别统计参数进行更新，若更新后的识别统计参数满足平台公用判定条件，则服务器将该平台全局相似片段作为平台公用视频片段更新至公用视频库中，从而实现公用视频库的动态更新，可以确保公用视频库中平台公用视频片段的时效性，有利于提高视频相似片段识别处理的准确度和处理效率。

在一个实施例中，获取来源于目标视频所属的视频平台的平台参考视频，包括：从目标视频所属的视频平台的公用视频库中，获取平台公用视频片段。

其中，公用视频库与视频平台关联，用于存储视频平台中的各个平台公用视频片段，平台公用视频片段是视频平台中的各个视频所公用的视频片段。具体地，服务器获取的平台参考视频包括从目标视频所属的视频平台的公用视频库中获取的平台公用视频片段。如可以由服务器确定目标视频所属的视频平台，查询该视频平台的公用视频库，并从公用视频库中获取平台公用视频片段。在具体应用时，服务器可以获取公用视频库中所有的平台公用视频片段，也可以从公用视频库中进行筛选，如根据发布时间、视频主题等进行筛选，得到满足筛选条件的平台公用视频片段。

进一步地，根据对目标视频和平台参考视频进行视频帧匹配得到的第二匹配结果，识别出目标视频中相对于平台参考视频的平台全局相似片段，包括：根据对目标视频和平台公用视频片段进行视频帧匹配得到的第二匹配结果，识别出目标视频中相对于平台公用视频片段的平台全局相似片段。

具体地，服务器对目标视频和平台公用视频片段进行视频帧匹配，得到第二匹配结果，第二匹配结果可以包括从目标视频和平台公用视频片段中识别到的相匹配的视频帧。服务器基于第二匹配结果，识别出目标视频中相对于平台公用视频片段的平台全局相似片段，如可以根据识别到的相匹配的视频帧各自在目标视频的位置，确定目标视频中的平台全局相似片段。

本实施例中，平台参考视频包括从目标视频所属的视频平台的公用视频库中获取的平台公用视频片段，服务器通过平台公用视频片段进行识别处理，可以提高相似片段识别的针对性，有利于提高相似片段识别的处理效率。

在一个实施例中，获取来源于目标视频所属的视频平台的平台参考视频，包括：确定目标视频所属的视频平台，以及目标视频的视频帧中包括的矫正关键词；查询视频平台中与矫正关键词存在关联关系的平台关联视频；按照参考视频筛选条件，从平台关联视频中筛选得到平台参考视频。

其中，平台关联视频从目标视频所属的视频平台中获取的、与矫正关键词存在关联关系的视频。视频平台中各个视频与矫正关键词之间的关联关系可以预先建立，如在视频上传到视频平台时，针对视频的视频帧进行文字识别，并基于文字识别结果确定该视频包括的矫正关键词，并建立视频与矫正关键词之间的关联关系。参考视频筛选条件为预先设置的从平台关联视频中筛选得到平台参考视频的筛选条件，如可以为发布时间、视频主题等各种筛选条件。

具体地，服务器确定目标视频所属的视频平台，具体可以由服务器查询目标视频的视频属性信息，基于视频属性信息的视频属性信息确定目标视频所属的视频平台。服务器确定目标视频的视频帧中包括的矫正关键词，具体可以由服务器对目标视频的视频帧进行文字识别，基于文字识别结果确定目标视频的视频帧中包括的矫正关键词。服务器从视频平台中，查询与矫正关键词存在关联关系的平台关联视频，如可以由服务器基于视频平台中各个视频与关键词之间的关联关系，查询得到与矫正关键词存在关联关系的平台关联视频。服务器查询预设的参考视频筛选条件，如发布时间的筛选条件，服务器基于该参考视频筛选条件，对平台关联视频进行筛选，以从平台关联视频中得到满足参考视频筛选条件的平台参考视频。例如，目标视频发布时间为2022年6月1日，那么参考视频筛选条件可以为发布时间在目标视频发布时间一个月以内，则服务器从平台关联视频中筛选发布时间在2022年5月1日至2022年6月1日的平台参考视频。

本实施例中，平台参考视频包括从视频平台中获取的与矫正关键词存在关联关系的平台关联视频，并且通过参考视频筛选条件进行筛选得到，从而可以利用视频平台中的各种视频进行全局视频识别处理，并控制平台参考视频的数量，可以在确保相似片段识别的准确性的同时，提高相似片段识别的处理效率。

在一个实施例中，视频识别方法还包括：对属于视频平台的平台视频中视频帧进行文字识别，得到视频关键词；基于视频关键词在关键词库中进行匹配，确定与视频关键词相匹配的目标关键词；建立平台视频与目标关键词之间的关联关系。

其中，平台视频是指属于视频平台的各个视频，视频关键词是从平台视频中进行文字识别得到的关键词。关键词库存储有各种关键词，目标关键词为关键词库中与视频关键词相匹配的关键词。具体地，服务器可以对于属于视频平台的平台视频进行文字识别，如对平台视频中的视频帧进行文字识别，得到平台视频的视频帧中包括的视频关键词。服务器查询关键词库，关键词库中可以存储有各种矫正关键词，关键词库可以根据实际需要预先设置并进行动态更新维护。服务器将视频关键词在关键词库中进行匹配，确定与视频关键词相匹配的目标关键词，并建立平台视频与目标关键词之间的关联关系，从而能够基于关键词和关联关系，查询相应的平台视频。

进一步地，查询视频平台中与矫正关键词存在关联关系的平台关联视频，包括：基于关联关系，查询视频平台中与矫正关键词相关联的平台关联视频。

具体地，对于视频平台中的各个平台视频，服务器确定其关联关系，并基于关联关系和矫正关键词，查询得到与矫正关键词相关联的平台关联视频。

本实施例中，针对视频平台中的各个平台视频，建立平台视频与关键词之间的关联关系，以基于关联关系确定视频平台中与矫正关键词相关联的平台关联视频，从而可以提高查询平台关联视频的准确度和处理效率，有利于提高相似片段识别的准确度和处理效率。

在一个实施例中，基于剧集局部相似片段和平台全局相似片段各自在目标视频中的位置，确定目标视频中相对于剧集参考视频及平台参考视频的综合相似片段，包括：确定剧集局部相似片段在目标视频中的第一时间戳位置，以及平台全局相似片段在目标视频中的第二时间戳位置；将第一时间戳位置和第二时间戳位置进行合并，得到综合时间戳位置；根据综合时间戳位置，确定目标视频中相对于剧集参考视频及平台参考视频的综合相似片段。

其中，第一时间戳位置是指剧集局部相似片段在目标视频中的时间戳位置，第二时间戳位置是平台全局相似片段在目标视频中的时间戳位置。综合时间戳位置合并第一时间戳位置和第二时间戳位置得到的时间戳位置。根据综合时间戳位置，可以从目标视频中确定综合相似片段。

具体地，服务器确定剧集局部相似片段在目标视频中的第一时间戳位置，以及平台全局相似片段在目标视频中的第二时间戳位置，具体可由服务器针对剧集局部相似片段和平台全局相似片段各自的片段时间，确定在目标视频中各自的时间戳位置。服务器将第一时间戳位置和第二时间戳位置进行合并，得到综合时间戳位置。在具体实现时，服务器可以直接合并第一时间戳位置和第二时间戳位置，得到综合时间戳位置；例如，第一时间戳位置为从00:05至00:15，第二时间戳位置为从00:02至00:06，则服务器可以直接合并第一时间戳位置和第二时间戳位置，得到综合时间戳位置为从00:02至00:15。此外，服务器也可以根据实际需要进行部分合并，得到综合时间戳位置。例如，第一时间戳位置为从00:05至00:15，第二时间戳位置为从00:04至00:14，则服务器可以根据第一时间戳位置和第二时间戳位置存在交集的位置，得到综合时间戳位置为从00:05至00:14。服务器根据得到的综合时间戳位置，从目标视频中确定相对于剧集参考视频及平台参考视频的综合相似片段。例如，综合时间戳位置为从00:02至00:15，则服务器可以将目标视频中从第2秒至第15秒的视频片段，确定为相对于剧集参考视频及平台参考视频的综合相似片段。

本实施例中，通过合并剧集局部相似片段在目标视频中的第一时间戳位置，以及平台全局相似片段在目标视频中的第二时间戳位置，并根据综合时间戳位置确定目标视频中相对于剧集参考视频及平台参考视频的综合相似片段，从而基于时间戳位置实现剧集局部相似片段和平台全局相似片段的综合处理，使综合相似片段综合了视频系列剧集中的视频相似特性以及视频平台中的视频相似特性，提高了针对视频中相似视频片段识别的准确度。

在一个实施例中，根据对目标视频和剧集参考视频进行视频帧匹配得到的第一匹配结果，识别出目标视频中相对于剧集参考视频的剧集局部相似片段，包括：将目标视频和剧集参考视频进行视频帧的图像匹配，获得视频帧对；视频帧对包括属于目标视频的待识别视频帧，还包括剧集参考视频中与待识别视频帧图像匹配的剧集参考视频帧；基于视频帧对中待识别视频帧的时间属性和剧集参考视频帧的时间属性，确定视频帧对的时间偏移量；筛选时间偏移量相匹配的视频帧对，基于筛选出的视频帧对中待识别视频帧的时间属性，确定目标视频中相对于剧集参考视频的剧集局部相似片段。

其中，视频帧对是目标视频和参考视频进行视频帧的图像匹配所确定的匹配成功的视频帧组成的图像对。参考视频为剧集参考视频时，视频帧对中包括属于目标视频的待识别视频帧，以及剧集参考视频中与待识别视频帧图像匹配的剧集参考视频帧，即视频帧对中的待识别视频帧和剧集参考视频帧是通过图像匹配成功得到的，视频帧对中的待识别视频帧来自目标视频，剧集参考视频帧来自剧集参考视频。

时间属性用于描述相应视频帧的时间信息，可以表征视频帧在视频中的所处位置，时间属性具体可以为相应视频帧在视频中的时间戳，还可以为视频帧的帧序号等。例如，视频帧的时间属性可以为第2.0s，则表示该视频帧是其所属视频中第2.0秒的视频帧；又如，视频帧的时间属性可以为500，则可以表示该视频帧是其所属视频中第500帧的视频帧。通过时间属性可以对视频帧在所属视频中的所处位置进行标记，并确定了视频帧在所属视频中的出现时间。视频由多个视频帧按照时间信息组合得到，视频中的每个视频帧均设置有携带时间信息的时间属性。时间偏移量用于表征视频帧对中，待识别视频帧在目标视频中的出现时间与参考视频帧在参考视频中的出现时间之间的时间间隔。时间偏移量根据待识别视频帧和参考视频帧各自的时间属性得到。例如，一视频帧对中，待识别视频帧的时间属性可以为第2s，即待识别视频帧是目标视频帧中第2s的视频帧，而剧集参考视频帧的时间属性可以为第3s，即剧集参考视频帧是剧集参考视频中第3s的视频帧，即目标视频中第2s的视频帧与剧集参考视频帧中第3s的视频帧相匹配，从而可以根据待识别视频帧的时间属性与剧集参考视频帧的时间属性的差，得到该视频帧对的时间偏移量为1s。

具体地，服务器将目标视频和剧集参考视频进行视频帧的图像匹配，具体可以将目标视频中的视频帧与剧集参考视频帧中的视频帧进行图像匹配，如可以基于图像相似度进行匹配，从而根据匹配结果确定视频帧对。视频帧对是图像匹配成功的视频帧组成的图像对，在基于相似度进行图像匹配确定的视频帧对，视频帧对中的待识别视频帧与剧集参考视频帧之间的图像相似度较高，即目标视频中的待识别视频帧与剧集参考视频中的剧集参考视频帧较相似，可能为相同的视频内容，如可能为属于片头中的视频帧，还可以为属于片尾中的视频帧。对于得到的视频帧对，服务器确定视频帧对中待识别视频帧的时间属性，以及剧集参考视频帧的时间属性，具体可以通过查询待识别视频帧和剧集参考视频帧的帧信息确定相应的时间属性。服务器基于得到的待识别视频帧的时间属性和剧集参考视频帧的时间属性，确定视频帧对的时间偏移量。例如，在时间属性为量化的数值时，服务器可以根据待识别视频帧的时间属性和剧集参考视频帧的时间属性之间的数值差，得到视频帧对的时间偏移量。服务器基于时间偏移量对各视频帧对进行筛选，筛选出时间偏移量相匹配的视频帧对，具体可以由服务器筛选出时间偏移量数值相同或者数值相差在一定范围内的视频帧对。服务器基于筛选出的视频帧对，确定筛选出的视频帧对中待识别视频帧的时间属性，并基于待识别视频帧的时间属性，得到目标视频中相对于剧集参考视频的剧集局部相似片段。例如，在确定筛选出的视频帧对中待识别视频帧的时间属性后，服务器可以根据各待识别视频帧的时间属性的数值大小，确定起始时间和终止时间，从而根据起始时间和终止时间确定目标视频中的剧集局部相似片段。

在具体应用中，服务器可以按照时间偏移量的数值大小将视频针对进行分组，得到不同时间偏移量对应的视频帧对集合，视频帧对集合中包括相应时间偏移量相匹配的视频帧对。例如，得到的视频帧对的时间偏移量包括1s，4s和5s共三中，则服务器可以将时间偏移量为1s的视频帧对作为第一视频帧对集合，并基于该第一视频帧对集合内视频帧对中待识别视频帧的时间属性，确定目标视频中的剧集局部相似片段；服务器还可以将时间偏差为4s和5s的视频帧对作为第二视频帧对集合，并基于该第二视频帧对集合内视频帧对中待识别视频帧的时间属性，确定目标视频中的剧集局部相似片段。服务器可以通过对各个视频帧对集合中视频帧对的待识别视频帧的时间属性，确定各自的剧集局部相似片段，并根据各个视频帧对集合确定剧集局部相似片段进行合并，如服务器可以将重复的剧集局部相似片段进行删除，可以将部分交集的剧集局部相似片段进行更新，从而得到目标视频中相对于各个剧集参考视频的剧集局部相似片段。

本实施例中，将视频系列剧集中的目标视频和剧集参考视频进行视频帧的图像匹配，得到包括属于目标视频的待识别视频帧，以及与待识别视频帧图像匹配的剧集参考视频帧的视频帧对，根据视频帧对中待识别视频帧的时间属性和剧集参考视频帧的时间属性确定视频帧对的时间偏移量，并筛选时间偏移量相匹配的视频帧对，基于筛选出的视频帧对中待识别视频帧的时间属性，从目标视频中确定相对于剧集参考视频的剧集局部相似片段。对于视频系列剧集中的目标视频和剧集参考视频，根据图像匹配的待识别视频帧的时间属性和剧集参考视频帧的时间属性，确定视频帧对的时间偏移量，通过筛选出的时间偏移量相匹配的视频帧对中待识别视频帧的时间属性，确定目标视频中相对于剧集参考视频的剧集局部相似片段，可以基于图像匹配的视频帧对灵活确定时长不一的相似视频片段，提高了各种视频中相似视频片段识别的准确度。

在一个实施例中，筛选时间偏移量相匹配的视频帧对，基于筛选出的视频帧对中待识别视频帧的时间属性，确定目标视频中相对于剧集参考视频的剧集局部相似片段，包括：将各视频帧对的时间偏移量进行数值匹配，根据数值匹配结果筛选出时间偏移量数值相匹配的视频帧对；基于筛选出的视频帧对中待识别视频帧的时间属性，确定起始时间和终止时间；根据起始时间和终止时间，从目标视频中确定相对于剧集参考视频的剧集局部相似片段。

其中，时间偏移量表征了视频帧对中，待识别视频帧在目标视频中的出现时间与剧集参考视频帧在剧集参考视频中的出现时间之间的时间间隔。时间偏移量的具体形式为量化数值，如可以为以秒为单位的数值，表示在视频帧对中待识别视频帧与剧集参考视频帧在各自所属视频中出现时间的时间差为多少秒。数值匹配是指将各视频帧对的时间偏移量的数值大小进行匹配，得到数值匹配结果。数值匹配结果可以包括各视频帧对的时间偏移量之间数值差，即时间偏移量数值上的差值。起始时间是指视频片段的视频开始时间，终止时间是指视频片段的视频结束时间。基于起始时间和终止时间，将起始时间作为视频开始时间点，将终止时间作为视频结束时间点，从而可以将起始时间至终止时间作为视频的跨越时长，从而可以确定相应的视频片段。

具体地，服务器将各视频帧对的时间偏移量进行数值匹配，具体可以将两两视频帧对的时间偏移量进行数值匹配，得到数值匹配结果。服务器基于获得的数值匹配结果，确定时间偏移量数值相匹配的视频帧对。例如，数值匹配结果可以包括各视频帧对的时间偏移量之间的数值差，服务器可以将各视频帧对的时间偏移量之间差值小于预设阈值的时间偏移量，确定为数值相匹配的时间偏移量，从而根据数值相匹配的时间偏移量筛选出的视频帧对。得到筛选出的时间偏移量数值相匹配的视频帧对后，服务器确定筛选出的视频帧对中待识别视频帧的时间属性，具体可以查询各待识别视频帧的帧信息，从而得到待识别视频帧的时间属性。服务器根据待识别视频帧的时间属性，确定起始时间和终止时间。

具体应用时，得到筛选出的视频帧对中待识别视频帧的时间属性后，服务器可以从中确定数值最小的时间属性，基于该最小的时间属性确定起始时间，服务器可以从中确定数值最大的时间属性，基于该最大的时间属性确定终止时间。例如，在一个应用中，若筛选出的视频帧对中待识别视频帧的时间属性的数组为{1,3,4,5,6,7,8,9,10,12,15}，则服务器可以将1s作为起始时间，将15s作为终止时间。服务器根据起始时间和终止时间，确定目标视频中相对于剧集参考视频的剧集局部相似片段，如可以由服务器将目标视频中，起始时间至终止时间之间的视频片段确定为剧集局部相似片段。例如，服务器确定将1s作为起始时间，将15s作为终止时间时，服务器可以将目标视频中第1秒至第15秒的视频片段，确定为相对于剧集参考视频的剧集局部相似片段。

本实施例中，将视频帧对的时间偏移量进行数值匹配，并根据数值匹配结果筛选出时间偏移量数值相匹配的视频帧对，基于筛选出的视频帧对中待识别视频帧的时间属性，确定起始时间和终止时间，并根据起始时间和终止时间确定目标视频中的剧集局部相似片段，从而基于筛选出的视频帧对中的待识别视频帧，从目标视频中确定剧集局部相似片段，能够根据帧级别的待识别视频帧灵活确定相似视频片段，适用于包括时长不一的相似视频片段的视频，从而提高了视频中相似视频片段识别的准确度。

在一个实施例中，将各视频帧对的时间偏移量进行数值匹配，根据数值匹配结果筛选出时间偏移量数值相匹配的视频帧对，包括：将各视频帧对的时间偏移量分别进行数值比较，获得数值比较结果；基于数值比较结果，从各视频帧对中筛选出时间偏移量的数值差小于数值差阈值的视频帧对；对时间偏移量的数值差小于数值差阈值的视频帧对进行偏移量更新，获得时间偏移量数值相匹配的视频帧对。

其中，数值比较是指将各视频帧对的时间偏移量进行数值大小的比较，得到数值比较结果，数值比较结果可以包括各视频帧对的时间偏移量之间的数值差。例如，视频帧对1的时间偏移量为1s，视频帧对2的时间偏移量为2s，则视频帧对1与视频帧对2之间时间偏移量的数值差为1s，即视频帧对1与视频帧对2的时间偏移量进行数值比较的数值比较结果为1s。数值差阈值根据实际需要进行灵活设置，数值差阈值用于将各视频帧对的时间偏移量进行匹配，具体可以将时间偏移量的数值差小于数值差阈值的视频帧对，作为筛选获得的视频帧对。偏移量更新为对时间偏移量的数值差小于数值差阈值的视频帧对的时间偏移量进行更新，以使视频帧对的时间偏移量相匹配，如可以将视频帧对的时间偏移量更新统一为相同的时间偏移量。

具体地，服务器将各视频帧对的时间偏移量分别进行数值比较，获得数值比较结果，数值比较结果中可以包括各视频帧对的时间偏移量之间的数值差，可以由服务器将各视频帧对的时间偏移量分别两两进行求差得到。服务器确定预先设置的数值差阈值，并基于数值比较结果，从各视频帧对中筛选出时间偏移量的数值差小于数值差阈值的视频帧对。具体由服务器将数值比较结果中的数值差与数值差阈值进行比较，确定数值差小于数值差阈值的时间偏移量所关联的视频帧对，从各视频帧对中筛选出该类视频帧对。服务器对时间偏移量的数值差小于数值差阈值的视频帧对进行偏移量更新，具体可以将视频帧对的时间偏移量更新统一为相同数值，如更新为时间偏移量的数值差小于数值差阈值的视频帧对中时间偏移量的最小值，从而得到时间偏移量数值相匹配的视频帧对。例如，数值差阈值为2s，筛选出的时间偏移量的数值差小于数值差阈值的视频帧对中，时间偏移量包括1s和2s两种，则服务器可以对时间偏移量为2s的视频帧对的时间偏移量进行更新，将其更新为1s，从而得到时间偏移量为1s的各视频帧对，即获得时间偏移量数值相匹配的视频帧对。

本实施例中，基于各视频帧对的时间偏移量进行数值比较得到的数值比较结果，从视频帧对中筛选出时间偏移量的数值差小于数值差阈值的视频帧对，并对筛选出的视频帧对进行偏移量更新，得到时间偏移量数值相匹配的视频帧对，从而筛选得到用于确定剧集局部相似片段的视频帧对，通过筛选得到的视频帧对可以准确从目标视频中识别出相对于剧集参考视频的剧集局部相似片段。

在一个实施例中，基于筛选出的视频帧对中待识别视频帧的时间属性，确定起始时间和终止时间，包括：获取由筛选出的视频帧对组成的视频帧对列表；视频帧对列表中，各视频帧对按照时间偏移量的数值从小到大进行排序，且相同时间偏移量的视频帧对按照所包括的待识别视频帧的时间戳的数值从小到大进行排序，时间戳是根据所包括的待识别视频帧的时间属性确定的；在视频帧对列表中，确定相邻视频帧对中待识别视频帧的时间属性之间的时间属性距离；将时间属性距离不超过距离阈值的相邻视频帧对，确定为属于同一视频片段的视频帧对；根据属于同一视频片段的视频帧对中待识别视频帧的时间戳，确定起始时间和终止时间。

其中，视频帧对列表由筛选出的视频帧对进行排序组成，在视频帧对列表中，筛选出的各视频帧对按照时间偏移量的数值从小到大进行排序，且相同时间偏移量的视频帧对按照所包括的待识别视频帧的时间戳的数值从小到大进行排序，时间戳是根据所包括的待识别视频帧的时间属性确定的，时间戳即为待识别视频帧在目标视频中出现的时间点。在视频帧对列表中，按照时间偏移量的数值由小到大进行排序，在时间偏移量相同时，按照视频针对中包括的待识别视频帧的时间戳数值由小到大进行排序。即在视频帧对列表中，时间偏移量越小排序越前，而对于时间偏移量相同的视频帧对，则所包括的待识别视频帧的时间戳越小排序越前。时间属性距离是由视频帧对列表中相邻的视频帧对，根据所包括的待识别视频帧的时间属性确定的，以表征相邻的视频帧对的时间间隔。距离阈值根据实际需要预先设定，用于对是否属于同一视频片段进行判定，具体可以将时间属性距离不超过距离阈值的相邻视频帧对，确定为属于同一视频片段的视频帧对，从而将各视频针对进行视频片段的聚合处理，从而确定起始时间和终止时间。

具体地，服务器获取由筛选出的视频帧对进行排序得到的视频帧对列表，具体应用中，服务器可以在筛选出的视频帧对后，将筛选出的视频帧对按照时间偏移量的数值从小到大进行排序，而对于相同时间偏移量的视频帧对，服务器可以确定该视频帧对所包括的待识别视频帧的时间属性确定时间戳，并按照待识别视频帧的时间戳的数值从小到大进行排序，从而得到视频帧对列表。服务器在视频帧对列表中，将处于相邻的视频帧对中待识别视频帧的时间属性进行比较，具体可以将各自的时间属性进行求差，得到时间属性距离。服务器确定预设的距离阈值，将时间属性距离与该距离阈值进行比较，根据比较结果从视频帧对列表中，确定时间属性距离不超过距离阈值的相邻视频帧对，并将时间属性距离不超过距离阈值的相邻视频帧对确定为属于同一视频片段的视频帧对，即相邻的视频帧对中待识别视频帧的时间属性距离较小，可以认为相邻的视频帧对属于同一视频片段，从而基于视频帧对中的待识别视频帧聚合成视频片段。服务器确定属于同一视频片段的视频帧对中待识别视频帧的时间戳，并基于各待识别视频帧的时间戳，确定起始时间和终止时间。例如，服务器可以根据数值最小的时间戳确定起始时间，并将数值最大的时间戳确定终止时间，确定的起始时间和终止时间即为属于同一视频片段的视频帧对共同所属的视频片段的起始时间和终止时间。

本实施例中，基于由筛选出的视频帧对组成的视频帧对列表，根据相邻视频帧对中待识别视频帧的时间属性之间的时间属性距离，确定属于同一视频片段的视频帧对，并根据属于同一视频片段的视频帧对中待识别视频帧的时间戳，确定起始时间和终止时间，可以实现待识别视频帧向视频片段的推理和挖掘，有利于从目标视频中准确识别出相片段。

在一个实施例中，根据属于同一视频片段的视频帧对中待识别视频帧的时间戳，确定起始时间和终止时间，包括：基于属于同一视频片段的视频帧对中待识别视频帧的时间戳，从属于同一视频片段的视频帧对中确定起始视频帧对和终止视频帧对；根据起始视频帧对中待识别视频帧的时间戳，得到起始时间；根据终止视频帧对中待识别视频帧的时间戳，得到终止时间。

其中，待识别视频帧的时间戳根据待识别视频帧的时间属性确定，待识别视频帧的时间戳表示待识别视频帧在目标视频中所出现的时间点。起始视频帧对和终止视频帧对，根据属于同一视频片段的各视频帧对中包括的待识别视频帧的时间戳大小进行确定。起始视频帧对包括的待识别视频帧的时间戳，可以为属于同一视频片段的各视频帧对中包括的待识别视频帧的时间戳中，数值最小的时间戳；而终止视频帧对包括的待识别视频帧的时间戳，可以为数值最大的时间戳，从而将起始视频帧对包括的待识别视频帧确定为所属同一视频片段的起始视频帧，而将终止视频帧对包括的待识别视频帧，确定为所属同一视频片段的终止视频帧。

具体地，服务器确定属于同一视频片段的视频帧对中待识别视频帧的时间戳，基于各时间戳的数值大小，服务器从属于同一视频片段的视频帧对中确定起始视频帧对和终止视频帧对。具体由服务器将时间戳最小的待识别视频帧所属的视频帧对确定为起始视频帧对，而将时间戳最大的待识别视频帧所属的视频帧对确定为终止视频帧对。服务器根据起始视频帧对中待识别视频帧的时间戳，得到起始时间，如可以将该时间戳对应的时间点确定为起始时间。服务器根据终止视频帧对中待识别视频帧的时间戳得到终止时间，如可以将该时间戳对应的时间点确定为终止时间。

本实施例中，服务器基于属于同一视频片段的视频帧对中待识别视频帧的时间戳，确定起始视频帧对和终止视频帧对，并根据起始视频帧对和终止视频帧对各自包括的待识别视频帧分别确定起始时间和终止时间，从而实现由属于同一视频片段的待识别视频帧向视频片段进行推理和挖掘，提高了从目标视频中识别出相似视频片段的准确度。

在一个实施例中，视频识别方法还包括：基于各剧集局部相似片段各自的起始时间和终止时间，确定各剧集局部相似片段之间的片段交集关系；基于片段交集关系，对各剧集局部相似片段进行片段更新，得到目标视频中相对于剧集参考视频更新后的剧集局部相似片段。

其中，从目标视频中识别出的相对于剧集参考视频的剧集局部相似片段存在多段，则可以根据各剧集局部相似片段之间的片段交集关系，将各剧集局部相似片段进行更新，得到更新后的剧集局部相似片段。片段交集关系是指剧集局部相似片段之间存在的交集关系。例如，若剧集局部相似片段A的时间范围为（2,5），即从目标视频的第2秒至第5秒，剧集局部相似片段B的时间范围为（3,4），则剧集局部相似片段A完全覆盖剧集局部相似片段B，此时可以将剧集局部相似片段B删除，而保留剧集局部相似片段A；若剧集局部相似片段C的时间范围为（2,6），剧集局部相似片段D的时间范围为（5,8），则剧集局部相似片段C与剧集局部相似片段D存在部分交集，此时可以基于剧集局部相似片段C和剧集局部相似片段D进行扩展更新，得到更新后的剧集局部相似片段CD（2,8）；若剧集局部相似片段F的时间范围为（4,8），剧集局部相似片段F的时间范围为（1,5），则剧集局部相似片段E与剧集局部相似片段F存在部分交集，此时可以基于剧集局部相似片段E和剧集局部相似片段F进行扩展更新，得到更新后的剧集局部相似片段EF（1,8）。此外，若多个剧集局部相似片段之间不存在交集，例如（2,5）与（7,10），则此时可以不对各剧集局部相似片段进行合并处理，直接确定不存在交集的剧集局部相似片段均为视频识别结果。不同的片段交集关系，可以设置不同的更新方式，从而确保对剧集局部相似片段更新的准确性。

具体地，得到多段剧集局部相似片段时，服务器可以基于各剧集局部相似片段各自的起始时间和终止时间，确定各剧集局部相似片段之间的片段交集关系，如可以为包含，部分交集或不存在交集。服务器基于各剧集局部相似片段之间的片段交集关系，对各剧集局部相似片段进行片段更新，具体可以将各剧集局部相似片段进行合并、删除、保留等处理，得到目标视频中相对于剧集参考视频更新后的剧集局部相似片段。

本实施例中，在识别出多段剧集局部相似片段时，基于各剧集局部相似片段之间的片段交集关系进行片段更新，从而得到了更准确的剧集局部相似片段，提高了从目标视频中识别出剧集局部相似片段的准确度。

在一个实施例中，剧集参考视频至少为两个；筛选时间偏移量相匹配的视频帧对，基于筛选出的视频帧对中待识别视频帧的时间属性，确定目标视频中相对于剧集参考视频的剧集局部相似片段，包括：筛选时间偏移量相匹配的视频帧对，基于筛选出的视频帧对中待识别视频帧的时间属性，确定目标视频中相对于剧集参考视频的中间相似片段；对目标视频中相对于各剧集参考视频的中间相似片段中，存在交集关系的各中间相似片段进行片段更新，得到目标视频中相对于各剧集参考视频的剧集局部相似片段。

其中，剧集参考视频至少为两个，即通过至少两个剧集参考视频分别针对目标视频进行视频帧匹配处理。中间相似片段是指目标视频中相对于单个剧集参考视频识别出的相似片段。交集关系是指基于不同的剧集参考视频识别到的中间相似片段之间的存在的交集联系，具体可以根据识别到的各中间相似片段的时间端点，包括起始时间和终止时间进行确定。

具体地，服务器可以获取多于一个的剧集参考视频，并将目标视频分别与多于一个的剧集参考视频分别进行视频识别的处理，得到目标视频中相对于各剧集参考视频的中间相似片段。服务器对目标视频中相对于各剧集参考视频的中间相似片段中，存在交集关系的各中间相似片段进行片段更新，从而得到目标视频中相对于各剧集参考视频的剧集局部相似片段。

本实施例中，通过多个剧集参考视频对目标视频进行视频识别，并基于识别到的各中间相似片段存在的交集关系对各中间相似片段进行片段更新，得到目标视频中相对于各所述剧集参考视频的剧集局部相似片段，使参考多个剧集参考视频识别出的剧集局部相似片段的准确度更高，提高了从目标视频中识别出相似片段的准确度。

在一个实施例中，对目标视频中相对于各剧集参考视频的中间相似片段中，存在交集关系的各中间相似片段进行片段更新，得到目标视频中相对于各剧集参考视频的剧集局部相似片段，包括：将目标视频中相对于各剧集参考视频的中间相似片段进行片段位置比较，得到片段比较结果；确定片段比较结果为存在交集关系的各中间相似片段；根据存在交集关系的各中间相似片段的交集时长和统计量，对存在交集关系的各中间相似片段进行片段更新，得到目标视频中相对于各剧集参考视频的剧集局部相似片段。

其中，片段位置比较指对基于各剧集参考视频识别出的中间相似片段，各自在目标视频中的位置进行比较，得到片段比较结果。片段比较结果可以包括各中间相似片段之间是否存在交集关系，若存在交集关系，则可以对存在交集关系的各中间相似片段进行片段更新，以得到标视频中相对于各剧集参考视频的剧集局部相似片段。交集时长是指存在交集关系的各中间相似片段之间，存在交集的交集片段的时长。例如，根据第一剧集参考视频确定的中间相似片段A的时间范围为（2,8），据第二剧集参考视频确定的中间相似片段B的时间范围为（5,10），则中间相似片段A与中间相似片段B之间存在交集关系，交集的片段为（5,8），交集时长为第5秒至第8秒之间的4秒。统计量可以包括目标视频中相对于各剧集参考视频识别的中间相似片段中，相同中间相似片段被识别出的次数。统计量的数值越大，表明相应中间相似片段被识别出的次数越大，则该中间相似片段属于剧集局部相似片段的可能性越大。

具体地，服务器确定目标视频中相对于各剧集参考视频的中间相似片段，服务器对各中间相似片段进行片段位置比较，可以由服务器确定各中间相似片段各自的起始时间和终止时间，并基于各中间相似片段的起始时间和终止时间进行片段位置比较，得到片段比较结果。若片段比较结果表明不存在交集关系，则不存在交集关系的中间相似片段不需要进行处理，可以均进行保留作为目标视频中相对于各剧集参考视频的剧集局部相似片段。若片段比较结果为存在交集关系，即各中间相似片段之间存在片段交集，则服务器确定存在交集关系的各中间相似片段，并对存在交集关系的各中间相似片段进行片段更新，如对各中间相似片段进行删除、合并、保留等各种更新处理，得到目标视频中相对于各剧集参考视频的剧集局部相似片段。服务器确定片段比较结果为存在交集关系的各中间相似片段，并确定存在交集关系的各中间相似片段各自的统计量，以及各中间相似片段之间的交集时长。服务器根据存在交集关系的各中间相似片段的交集时长和统计量，对存在交集关系的各中间相似片段进行片段更新，得到目标视频中相对于各剧集参考视频的剧集局部相似片段。具体服务器可以根据交集时长的长短判定是否需要进行合并，根据统计量多少判定是否需要保留或合并处理等。

本实施例中，通过对目标视频中相对于各剧集参考视频的中间相似片段进行片段位置比较，并对片段比较结果为存在交集关系的各中间相似片段进行片段更新，具体根据存在交集关系的各中间相似片段的交集时长和统计量，对存在交集关系的各中间相似片段进行片段更新，从而根据存在交集关系的各中间相似片段的交集时长和统计量进行片段更新，综合了各中间相似片段之间的特性，可以提高片段更新的效果，有利于提高从目标视频中识别出剧集局部相似片段的准确度。

在一个实施例中，将目标视频中相对于各剧集参考视频的中间相似片段进行片段位置比较，得到片段比较结果，包括：获取由目标视频中相对于各剧集参考视频的中间相似片段组成的相似片段列表；相似片段列表中，各中间相似片段按照统计量从大到小进行排序，且相同统计量的中间相似片段按照起始时间从先到后进行排序；在相似片段列表中，将各中间相似片段进行片段位置比较，得到片段比较结果。

其中，相似片段列表由目标视频中相对于各剧集参考视频的中间相似片段进行排序组成得到。在相似片段列表中，各中间相似片段按照统计量从大到小进行排序，且相同统计量的中间相似片段按照起始时间从先到后进行排序。即在相似片段列表中，先按照各中间相似片段按照统计量从大到小的顺序，将各中间相似片段进行排序，而对应统计量相同的中间相似片段，则按照起始时间从先到后的顺序进行排序。

具体地，服务器获取由目标视频中相对于各剧集参考视频的中间相似片段组成的相似片段列表，相似片段列表可以由服务器预先根据各中间相似片段进行排序得到，具体可以先按照统计量从大到小将各中间相似片段进行排序，对于统计量相同的中间相似片段，服务器将其按照起始时间从先到后进行排序，从而得到相似片段列表。服务器在该相似片段列表中，将各中间相似片段进行片段位置比较，得到片段比较结果。具体应用时，服务器可以按照相似片段列表中各中间相似片段的排序，按照从前到后的顺序依次进行片段位置比较，得到片段比较结果。

进一步地，对存在交集关系的各中间相似片段进行片段更新，得到所述目标视频中相对于各所述剧集参考视频的剧集局部相似片段，包括：通过存在交集关系的各中间相似片段中的在后中间相似片段，对在前中间相似片段进行片段更新，得到目标视频中相对于各剧集参考视频的剧集局部相似片段；其中，在前中间相似片段在相似片段列表中，处于在后中间相似片段之前的排序位置。

其中，在前中间相似片段在相似片段列表中，处于在后中间相似片段之前的排序位置，即相比于在前中间相似片段，在后中间相似片段为存在交集关系的各中间相似片段中，在相似片段列表处于在后排序的中间相似片段；而相比于在后中间相似片段，在前中间相似片段为在相似片段列表处于在前排序的中间相似片段。例如，在相似片段列表中包括中间相似片段A和中间相似片段B，若中间相似片段A的统计量高于中间相似片段B的统计量，则在相似片段列表中，中间相似片段A的排序在中间相似片段B之前，则在后中间相似片段可以为中间相似片段B，而在前中间相似片段可以为中间相似片段A。

具体地，服务器可以确定存在交集关系的各中间相似片段中的在后中间相似片段，以及在前中间相似片段，服务器通过确定的在后中间相似片段，对在前中间相似片段进行片段更新，如进行删除、合并、保留等各种更新处理，得到目标视频中相对于各剧集参考视频的剧集局部相似片段。

本实施例中，基于由目标视频中相对于各剧集参考视频的中间相似片段组成的相似片段列表，通过存在交集关系的各中间相似片段中的在后中间相似片段，对在前中间相似片段进行片段更新，可以确保统计量高的中间相似片段能够准确保留，可以提高片段更新的效果，有利于提高从目标视频中识别出剧集局部相似片段的准确度。

在一个实施例中，对目标视频中相对于各剧集参考视频的中间相似片段中，存在交集关系的各中间相似片段进行片段更新，得到目标视频中相对于各剧集参考视频的剧集局部相似片段，包括：对目标视频中相对于各剧集参考视频的中间相似片段中，存在交集关系的各中间相似片段进行片段更新，得到更新后的中间相似片段；确定更新后的中间相似片段的统计量；当更新后的中间相似片段的统计量超过统计量阈值时，根据更新后的中间相似片段，得到目标视频中相对于各剧集参考视频的剧集局部相似片段。

其中，统计量可以包括目标视频中相对于各剧集参考视频识别的中间相似片段中，同一中间相似片段被识别出的累计次数。统计量阈值用于判定更新后的中间相似片段是否为有效的剧集局部相似片段，统计量阈值可以根据实际需要进行设置。

具体地，服务器对目标视频中相对于各剧集参考视频的中间相似片段中，存在交集关系的各中间相似片段进行片段更新，得到更新后的中间相似片段。服务器确定更新后的中间相似片段的统计量，具体由服务器对更新后的中间相似片段进行统计处理，得到更新后的中间相似片段的统计量。服务器确定预设的统计量阈值，当更新后的中间相似片段的统计量超过统计量阈值时，可以认为更新后的中间相似片段为有效的剧集局部相似片段，服务器根据更新后的中间相似片段，得到目标视频中相对于各剧集参考视频的剧集局部相似片段。如服务器可以将更新后的中间相似片段，作为目标视频中相对于各剧集参考视频的剧集局部相似片段。

本实施例中，通过统计量阈值对更新后的中间相似片段的有效性进行判定，在通过有效性判定后根据更新后的中间相似片段，得到目标视频中相对于各剧集参考视频的剧集局部相似片段，可以确保识别出的剧集局部相似片段的有效性。

在一个实施例中，视频识别方法还包括：当综合相似片段满足公用视频类型的判定条件时，根据综合相似片段，得到目标视频中与公用视频类型匹配的公用视频。

其中，公用视频类型指各个视频中所公用视频的类型，如可以包括但不限于包括片头、片尾和广告等类型。公用视频类型可以根据实际需要进行设定。公用视频类型的判定条件用于判定综合相似片段的类型是否与公用视频类型匹配，具体可以将公用视频类型关联的公用视频分布区域与综合相似片段进行比较，从而判定综合相似片段是否与公用视频类型匹配，从而确定综合相似片段的类型。公用视频与公用视频类型匹配，即公用视频的类型与公用视频类型匹配。公用视频为确定类型的重复利用的视频片段。例如，公用视频可以为片头、片尾或广告等能够在各个视频中重复使用的视频内容。

具体地，服务器确定公用视频类型的判定条件，若综合相似片段满足该判定条件，服务器根据该综合相似片段得到目标视频中与公用视频类型匹配的公用视频。例如，公用视频类型的判定条件可以为处于公用视频类型关联的公用视频分布区间，服务器确定综合相似片段的时间段，并确定综合相似片段的时间段是否已处于公用视频分布区间中，若综合相似片段的时间段处于公用视频分布区间中，则服务器根据该综合相似片段得到与公用视频类型匹配的公用视频。若此时该公用视频类型为片头的类型，则可以根据该综合相似片段得到目标视频中的片头，具体可以将该综合相似片段作为该目标视频的片头。

本实施例中，在识别出的综合相似片段满足公用视频类型的判定条件时，根据综合相似片段得到目标视频中与公用视频类型匹配的公用视频，从而从目标视频中识别出与公用视频类型匹配的公用视频，提高了从目标视频中识别出公用视频的识别准确度。

在一个实施例中，当综合相似片段满足公用视频类型的判定条件时，根据综合相似片段，得到目标视频中与公用视频类型匹配的公用视频，包括：确定目标视频的公用视频类型关联的公用视频分布区间；当综合相似片段的时间段处于公用视频分布区间中时，根据综合相似片段，得到目标视频中与公用视频类型匹配的公用视频。

其中，公用视频分布区间为属于公用视频类型的公用视频在目标视频的时间分布区间。例如，公用视频类型为片头类型时，其关联的时间分布区间可以为目标视频的前N秒，如目标视频的前20秒，即时间分布区间为0s-20s。综合相似片段的时间段是指识别出的综合相似片段在目标视频中的时间跨度，具体可以根据综合相似片段的起始时间和终止时间确定，具体可以直接为从起始时间至终止时间的时间跨度。

具体地，服务器确定目标视频的公用视频类型关联的公用视频分布区间，不同的公用视频类型与不同的公用视频分布区间。例如，对于公用视频类型为片头类型，其关联的公用视频分布区间可以为视频的前N秒，而对于公用视频类型为片尾类型，则其关联的公用视频分布区间可以为视频的后M秒。服务器确定综合相似片段的时间段，具体可以根据综合相似片段的起始时间和终止时间确定时间段，若综合相似片段的时间段处于公用视频类型关联的公用视频分布区间中，表明综合相似片段处于公用视频类型对应的时间跨度范围内，服务器根据综合相似片段，得到目标视频中与公用视频类型匹配的公用视频。例如，服务器可以将该综合相似片段，作为目标视频中与公用视频类型匹配的公用视频。若公用视频类型为片尾类型，则服务器将该综合相似片段作为目标视频中的片尾。

本实施例中，基于公用视频类型关联的公用视频分布区间，与综合相似片段的时间段的比较结果，根据综合相似片段确定目标视频中与公用视频类型匹配的公用视频，从而基于预设的公用视频分布区间，确保了从目标视频中识别出与公用视频类型匹配的公用视频的准确性，提高了从目标视频中识别出公用视频的识别准确度。

在一个实施例中，视频识别方法还包括：确定公用视频的起始时间和终止时间；响应于视频比对触发事件，根据起始时间和终止时间，从目标视频中提取得到非公用视频；将非公用视频与待比对视频进行视频比对。

其中，公用视频为确定类型的重复利用的视频片段。例如，公用视频可以为片头、片尾或广告等能够在各个视频中重复使用的视频内容。公用视频的起始时间指公用视频起始的时间点，公用视频的终止时间指公用视频终止的时间点。视频比对触发事件为将视频进行比对的触发事件，通过将视频进行比对，可以确定视频之间的相似度。非公用视频是目标视频中除公用视频外的其他片段的视频，非公用视频不是重复利用的视频片段，可以认为是目标视频的视频正文内容。待比对视频是需要进行视频比对的视频，通过将非公用视频与待比对视频进行视频比对，可以确定非公用视频与待比对视频之间的视频相似程度。

具体地，服务器确定公用视频的起始时间和终止时间，响应于视频比对触发事件，如用户在终端触发的视频比对事件，服务器根据公用视频的起始时间和终止时间，从目标视频中提取得到非公用视频。具体由服务器基于公用视频的起始时间和终止时间，从目标视频中将公用视频进行剔除，从而提取得到目标视频中的非公用视频。服务器获取待比对视频，并将待比对视频与提取的非公用视频进行视频比对，从而得到视频比对结果，视频比对结果可以反映待比对视频与提取的非公用视频之间的内容相似程度。

本实施例中，基于公用视频的起始时间和终止时间，从目标视频中提取用于与待比对视频进行视频比对的非公用视频，从而可以准确并快速定位目标视频中的非公用视频，有利于提高视频比对的准确性和处理效率。

在一个实施例中，视频识别方法还包括：确定公用视频的跳转时间点；响应于针对目标视频的视频播放事件，播放目标视频；当目标视频的播放进度达到跳转时间点时，跳过公用视频进行播放。

其中，跳转时间点是指在播放目标视频的过程中，播放到公用视频时，需要进行跳转的时间点，即需要跳过公用视频而不进行播放的时间点。视频播放事件是播放目标视频的触发事件。具体地，服务器确定公用视频中的跳转时间点，跳转时间点可以为公用视频中的起始时间或终止时间中的至少一种。服务器响应于针对目标视频的视频播放事件，具体可以由用户在终端针对目标视频触发视频播放事件，以在终端播放目标视频，当目标视频的播放进度到达跳转时间点时，跳过公用视频进行播放，即直接跳过公用视频，播放目标视频中的非公用视频。具体应用中，若公用视频为片头，则跳转时间点可以为公用视频的起始时间，即在播放目标视频时，跳过该片头，直接播放片头后的非公用视频。又如，若公用视频为片尾，则跳转时间点可以为公用视频的终止时间，即在播放目标视频时，跳过该片尾，直接结束播放或切换播放其他视频。

本实施例中，在播放目标视频的过程中，播放进度达到述公用视频的跳转时间点时，跳过播放公用视频，从而可以在视频播放中跳过播放重复的公用视频，提高视频播放效率。

在一个实施例中，将目标视频和剧集参考视频进行视频帧的图像匹配，获得视频帧对，包括：从目标视频中提取待识别视频帧，从剧集参考视频中提取剧集参考视频帧；分别提取待识别视频帧的视频帧特征，以及剧集参考视频帧的视频帧特征；将待识别视频帧的视频帧特征，与剧集参考视频帧的视频帧特征进行特征匹配，根据特征匹配成功的待识别视频帧和剧集参考视频帧得到视频帧对。

具体地，获取目标视频和剧集参考视频后，服务器分别对目标视频和剧集参考视频进行视频帧提取，具体从目标视频中提取待识别视频帧，从剧集参考视频中提取剧集参考视频帧。服务器分别提取待识别视频帧的视频帧特征，以及剧集参考视频帧的视频帧特征，可由服务器通过图像处理模型对待识别视频帧和剧集参考视频帧分别进行特征提取，得到待识别视频帧和剧集参考视频帧各自的视频帧特征。服务器将待识别视频帧的视频帧特征，与剧集参考视频帧的视频帧特征进行特征匹配，如可以进行特征距离匹配，小于特征距离阈值的特征距离对应的待识别视频帧和剧集参考视频帧，确定为特征匹配成功。服务器根据特征匹配成功的待识别视频帧和剧集参考视频帧得到视频帧对。

本实施例中，通过从目标视频和剧集参考视频中提取视频帧进行特征匹配，以根据特征匹配成功的待识别视频帧和剧集参考视频帧得到视频帧对，从而基于图像匹配得到的视频帧对进行相似视频片段识别，确保相似视频片段识别的准确性。

在一个实施例中，分别提取待识别视频帧的视频帧特征，以及剧集参考视频帧的视频帧特征，包括：通过图像处理模型，分别提取待识别视频帧的视频帧特征，以及剧集参考视频帧的视频帧特征。

其中，图像处理模型可以为预先训练的人工神经网络模型，如可以为卷积神经网络，残差网络等各种形式的网络模型。具体地，服务器通过预先训练完成的图像处理模型，分别提取待识别视频帧的视频帧特征，以及剧集参考视频帧的视频帧特征。在具体应用时，图像处理模型可以为预先训练的三元组神经网络模型，还可以为多任务模型。

进一步地，图像处理模型的训练步骤包括：获取携带分类标签的训练样本图像；通过待训练的图像处理模型对训练样本图像进行特征提取和图像分类，得到训练样本图像的样本图像特征和样本图像类别；基于样本图像特征、样本图像类别以及分类标签，确定模型损失；基于模型损失，对待训练的图像处理模型进行更新后继续训练，当训练完成时，获得训练完成的图像处理模型。

其中，训练样本图像携带分类标签，训练样本图像可以根据实际需要设置训练数据集。样本图像特征为通过待训练的图像处理模型对训练样本图像进行特征提取得到的图像特征，样本图像类别为基于待训练的图像处理模型对训练样本图像进行分类处理得到的分类结果。模型损失用于更新待训练的图像处理模型中的模型参数，以确保待训练的图像处理模型能够收敛，从而完成模型训练。具体地，服务器获取携带分类标签的训练样本图像，并通过待训练的图像处理模型对训练样本图像进行特征提取和图像分类，得到由待训练的图像处理模型输出的样本图像特征和样本图像类别。服务器基于样本图像特征、样本图像类别以及分类标签，确定模型损失，具体可以基于样本图像特征确定三元组损失，基于样本图像类别以及分类标签确定分类损失，具体可以为交叉熵损失，并根据三元组损失和分类损失得到模型损失。服务器基于模型损失对待训练的图像处理模型进行更新后继续训练，当训练完成时，获得训练完成的图像处理模型，训练完成的图像处理模型可以对输入的图像帧进行图像特征提取，还可以对输入的图像帧进行图像分类处理。

本实施例中，根据样本图像特征、所述样本图像类别以及所述分类标签确定的模型损失对待训练的图像处理模型进行更新训练，通过训练完成的图像处理模型提取待识别视频帧的视频帧特征及剧集参考视频帧的视频帧特征，通过图像处理模型充分挖掘了输入视频帧的视频帧特征，可以提高视频帧匹配的准确度。

在一个实施例中，根据对目标视频和平台参考视频进行视频帧匹配得到的第二匹配结果，识别出目标视频中相对于平台参考视频的平台全局相似片段，包括：将目标视频和平台参考视频进行视频帧的图像匹配，获得视频帧对；视频帧对包括属于目标视频的待识别视频帧，还包括平台参考视频中与待识别视频帧图像匹配的平台参考视频帧；基于视频帧对中待识别视频帧的时间属性和剧集参考视频帧的时间属性，确定视频帧对的时间偏移量；筛选时间偏移量相匹配的视频帧对，基于筛选出的视频帧对中待识别视频帧的时间属性，确定目标视频中相对于平台参考视频的平台全局相似片段。

具体地，可以采用与剧集局部相似片段相同的识别方式，识别出目标视频中相对于平台参考视频的平台全局相似片段。服务器将目标视频和平台参考视频进行视频帧的图像匹配，对于得到的视频帧对，服务器确定视频帧对中待识别视频帧的时间属性，以及平台参考视频帧的时间属性。服务器基于得到的待识别视频帧的时间属性和平台参考视频帧的时间属性，确定视频帧对的时间偏移量。服务器基于时间偏移量对各视频帧对进行筛选，筛选出时间偏移量相匹配的视频帧对，服务器基于筛选出的视频帧对，确定筛选出的视频帧对中待识别视频帧的时间属性，并基于待识别视频帧的时间属性，得到目标视频中相对于平台参考视频的平台全局相似片段。

本实施例中，对于目标视频和平台参考视频，根据图像匹配的待识别视频帧的时间属性和平台参考视频帧的时间属性，确定视频帧对的时间偏移量，通过筛选出的时间偏移量相匹配的视频帧对中待识别视频帧的时间属性，确定目标视频中相对于平台参考视频的平台全局相似片段，可以基于图像匹配的视频帧对灵活确定时长不一的相似视频片段，提高了视频中相似视频片段识别的准确度。

本申请还提供一种应用场景，该应用场景应用上述的视频识别方法。具体地，该视频识别方法在该应用场景的应用如下：

在对视频进行二次创作时，需要相对纯净的视频作为素材库，尤其需要去除视频中对创作正向作用的推广内容，如当需要产生用户视频合辑时，需要把用户历史上传视频筛选出不带用户或平台广告等无意义内容的纯净的视频部分作为素材，然后通过视频智能合成的方式——如自动抽取每个视频中美学评价分最高的一小段视频拼凑等产生用户合辑，对此时用户上传的短视频或小视频预先进行的片头、片尾或者非正片内容的清洗非常重要。

对于此类由个人用户通过自拍、制作等方式录制的2分钟以内以分享生活、小知识、心得、技能、观点为主的视频用户小视频，其片头片尾除了包括用户logo、二维码信息等个人用户推广信息视频段外，还可能包括平台的logo段，时长1～5s，相比起影视剧非常短。同时，由于一些视频创作者可能会随机更换、修改片头片尾画面，且在某段时间内平台重点推广信息不同，会造成平台片头片尾画面变化，容易造成用户的上传视频中可能出现每个视频片头片尾差异。而且，会导致平台片头片尾可能在某段时间后无法被正常识别——由于加入了新的推广信息。如何有效识别用户自制的超短时长片头片尾、同时适应平台片头片尾仅在一定时期内稳定的小视频非正片视频段清洗，是针对小视频进行二次创作需要紧急解决的问题。另一方面，在挖掘小视频片头片尾时需要考虑是否存在平台logo类型片头片尾，最直接的查询方式是比对目标视频与视频平台中的全局视频，即查询某目标小视频与全量视频间是否出现可重复的片头片尾，这将需要较多的时间以及资源投入，应用中并不现实。

由于片头片尾可能不同画面、不同文字的报幕、logo及本视频主题内容的文字等信息，难以使用机器针对特定样式统一识别，传统方法一般采用人工标注片头片尾信息。但人工标注每次需要大量标注资源投入，处理效率较低。而传统的片头片尾挖掘处理方案，大多针对电视剧类型的多个视频输入，不能解决自媒体自制素材特定的片头片尾识别，且只能支持片头片尾时间段在多个视频内都固定的视频片头片尾挖掘，而实际上有很多片头片尾时间并不严格对齐，当片头插入不同剧集信息、不同的开场白等时，常常不能保证片头时间严格对齐。此外，传统的片头片尾挖掘处理方法，只支持片头段等时长、或片尾等长的识别，导致对于不等时长视频下片头片尾识别定位不准确。利用帧级别视频特征进行片头片尾识别时，帧级别视频特征不能保证文字类型的帧图片，如文字报本集主要内容、标题等能被正常匹配，即实际上不管文字内容是否相同、文字类的帧指纹特征都相互相似，一旦出现文字帧时长有任何变化，将造成片头定位时间点不正确，如某个电视剧可能因为播放后被警告内容健康为题，从某一集开始，片头添加了本视频大纲内容的文字帧，从而造成该集视频与历史视频帧的文字帧时间长度不同。另外，很多小视频无法找到对应的剧集，从而没有有效的视频对进行片头片尾挖掘，且有些小视频需要全局视频对比，但是全局视频对比意味着要与海量的视频进行挖掘，导致每次挖掘都非常耗时，难以实现。对于构建片头片尾库进行片头片尾挖掘的处理方案，只能查询片头片尾库存中的片头片尾，片头片尾库更新依赖于人工，难以实现对于海量视频截取片头片尾处理，且过于依赖人工，无法实现自动化，无法自动迭代以及维护。

基于此，通过分析视频片头片尾在全局视频、同一用户账号下局部视频范围内的片头片尾表现，提出基于全局通用片头片尾库建设及查询、联合视频局部及全局范围的帧级别时序相似度检索识别视频片头片尾的方法。具体通过把通用片头片尾库存建设维护提升现有片头片尾检出效果，并借助高效的全局范围视频对比列表缩小全局范围需要挖掘片头片尾的对比视频数量、从而可以在有限时间下达到新增片头片尾挖掘的效果。另一方面，通过用户账号下的局部视频挖掘，可以快速识别未必存在规律的用户片头片尾段，最终把用户局部挖掘结果和全局结果进行合并，从而实现视频片头片尾挖掘。其中，动态全局挖掘是指对实时更新的全局视频，采用全局通用片头片尾挖掘的方式基于当前查询视频进行实时挖掘的方法；而局部识别是指在与查询视频同一用户或与查询视频同一系列的视频中进行片头片尾挖掘的方法；通过全局与局部联合，得到更全面的片头片尾，提高了片头片尾识别的准确度。

本实施例提供的视频识别方法，支持视频任意用户片头片尾以及平台片头片尾段识别处理，通过基于文字OCR（Optical Character Recognition，光学字符识别）识别推荐全局匹配列表进行通用片头片尾库存挖掘，可降低整体视频处理量，同时保证通用片头片尾挖掘效果。而且，借助图像序列相似度检索实现两个视频的交叉检索，从而找到具备可重复性出现的片头片尾，通过对通用片头片尾建立动态更新的库存，支持查询输入时检索库存查询片头片尾从而提升响应效率，能够支持各种类型的视频的片头片尾识别处理。相比于传统的片头片尾识别处理方案，本实施例提供的视频识别方法，支持不等长片头片尾识别，通过借助视频帧相似度序列检索，实现时间不对齐、或片头片尾不等时长下的片头片尾识别；而且，通过通用片头片尾库存检索与高效抽取全局视频检索挖掘片头片尾，提升通用片头片尾挖掘能力，同时支持新平台片头片尾挖掘，满足应用中平台推广动态更新需要动态维护通用片头片尾识别的需求，同时通过控制检索的全局视频范围，避免大数据量全局检索的资源时间消耗过高。此外，通过维护支持全局库存检索的通用片头片尾、关键词库，除了支持存量片头片尾去除能力外，还支持实时新增片头片尾以及关键词挖掘能力，另一方面还可以为漏检片头片尾通过简单的人工介入提供自动修复能力，进一步提高了视频片头片尾识别的准确性。

本实施例提供的视频识别方法可以应用于小视频片头片尾识别，从而去除片头片尾获取到小视频正片，进行视频的二次制作，或将小视频进行视频比对等等场景。如图4所示，在用户视频合辑二次制作中，对某用户所有上传的视频进行片头片尾去除后，保留视频正片，对每个视频每3s截取一段视频片段，每段视频的所有画面进行美学评价打分取平均分作为该段视频的美学分，对用户所有视频获取到每个视频的最高美学分段，把多段视频拼接并经过滤镜美化，输出用户视频合辑。如图5所示，在用户视频比对应用场景中，对用户上传的某个视频，进行本文的片头片尾识别后保留正片，查询正片与历史视频库进行相似时间段匹配查询，若存在历史视频库中视频与之匹配，则表示历史视频库中已存在该视频或存在相似视频，从而实现视频的快速比对处理。如图6所示，对某视频平台中的视频A，在播放时，具有该视频平台的平台介绍画面的片头，具体为第2秒的画面；如图7所示，为播放该视频A的视频内容，具体为视频A中第20秒的画面，包括人物；如图8所示，在视频A播放结束时，继续播放该视频平台的平台介绍画面的片尾，具体为第1分12秒的画面。在对该视频平台的视频A进行剪辑处理时，需要将平台介绍画面的片头和片尾的片段去除，以保留视频正片内容。由于平台logo段常常会在同一个时间段在多个用户上传的视频后被平台添加上，故通过相同时期全局视频查询更快找到具备相同logo段的视频，从而确定该匹配段为通用片尾。如图9所示，对于一个视频平台A，在第一时期，其平台介绍画面的片头和片尾包括文字和图标；如图10所示，在一段时间更新后，在第二时期，该视频平台A平台介绍画面的片头和片尾除了包括文字和图标外还，还包括下载的推广信息。

具体地，本实施例提供的视频识别方法，如图11所示，查询视频为需要进行视频识别的目标视频，获取该查询视频的用户视频列表，用户视频列表中各个视频与该查询视频属于同一用户账号，若成功获得用户视频列表，则通过用户视频列表中的各个视频进行片头片尾挖掘，得到片头和片尾；若未获得用户视频列表，则不针对用户视频列表进行片头片尾挖掘处理。另一方面，将查询视频与通用片头片尾进行识别处理，若未识别出片头片尾，则获取视频平台中的全局视频列表，全局视频列表中包括从与查询视频所属视频平台中抽取的视频。将查询视频基于全局视频列表进行片头片尾挖掘处理，得到片头片尾。将通过通用片头片尾的识别结果与通过用户视频列表的挖掘结果进行合并，得到片头片尾进行输出；或者将通过全局视频列表的挖掘结果与通过用户视频列表的挖掘结果进行结果合并，得到片头片尾进行输出。此外，对于通过全局视频列表的挖掘结果，从挖掘结果中抽取通用片头片尾，并将抽取的通用片头片尾对应的推荐片头片尾计数进行更新，在满足通用片头片尾判定条件时，如在T日后，将抽取的通用片头片尾更新到通用片头片尾库中。

进一步地，对于某个查询视频，先对其上传用户名下的其他视频中进行挖掘，其中挖掘包括了视频对间的相似时间段检索、以及帧级别OCR关键词查询矫正，在通用片头片尾库中进行检索，当检索没有结果时，表明有可能当前查询视频包含了平台logo类型的新片头片尾，此时需要触发全局视频挖掘。具体采用识别出的OCR平台关键词，从全局视频中找到含相同平台关键词的近期视频组成全局视频列表，并采用查询视频与全局列表视频进行相似时间段检索，当有结果时表明出现了新的平台logo类型，则把检索结果与用户名下视频检索结果合并输出，同时推荐新平台logo类型到通用片头片尾库，当无结果时，表明此视频在全局中没有匹配的片头片尾。进一步地，为了保证通用片头片尾的自动新增，对每次挖掘到的新全局通用片头片尾通过推荐片头片尾库统计处理，以确定是否推荐更新至通用片头片尾库中。

如图12所示，本实施例提供的视频识别方法包括全局库存查询、局部列表挖掘、全局列表产生、全局列表挖掘、新增片头片尾录入通用片头片尾库、关键词库维护等处理。具体地，对于全局库存查询，可以直接采用查询视频的帧级别图像embedding特征与通用片头片尾视频库的帧级别图像embedding特征，具体可以从查询视频和通用片头片尾视频库中的视频分别抽取帧级别图像，并获取抽取的帧级别图像的帧级特征，以基于帧级特征进行相似时间段检索，根据匹配的时间段作为检索到的片头片尾，得到识别结果1。具体地，查询得到查询视频与全局库存中多个片头片尾匹配时间段，其中取最长时间段作为最后的检索结果。若未检索到片头片尾匹配时间段，则确定无法基于全局库存中的通用片头片尾识别到查询视频中的片头和片尾。

对于全局列表挖掘，可以采用与局部列表挖掘相同的处理方式，仅检索用的视频列表不同，即分别从查询视频和全局列表的视频中获取帧级别图像，提取各帧级别图像的帧级特征进行固定段序列相似检索处理，从而得到识别结果2。对于局部列表挖掘，对查询视频与用户视频列表中的各个视频两两组成视频对，对每对视频对分别获取帧级别图像，并提取帧级别图像的帧级特征进行固定段序列相似检索处理，从而采用视频帧图像按照相似时间段检索产生相似段，完成所有视频对检索得到多个相似段并合并得到局部片头片尾，得到识别结果4。另一方面，针对视频对中获取的帧级别图像，采用帧级别OCR从关键词库中找到平台关键词，得到识别结果3，通过识别结果3对识别结果4进行矫正，以合并识别结果3和识别结果4得到合并结果。

具体地，对于识别结果3和识别结果4，其中识别结果4是通过两个视频检索得到的高置信度片头片尾信息，识别结果3则是根据画面是否含有某些特殊词汇得到的是否为无效帧的信息，故用识别结果3的信息来矫正识别结果4。其中，识别结果3的作用是对视频中需要提出的片头片尾关键词，如作为片尾时由于其为某个视频平台推广页面，对于视频二次创作来说依然是无效的画面，故需要针对这种特殊的词去除片头片尾附近的无效画面。具体可以采用文字检索的方法从正片中剔除带此类文字的画面。首先将需要剔除的文字保存在关键词库中，对输入的帧图像识别到的OCR，查询OCR中是否出现库存关键词，若命中库存关键词，则本帧视为无效画面。对所有帧根据是否命中得到所有画面是否无效进行判别，以借助文本检索结果，矫正片头片尾时间。

在具体应用中，对片头截止时间，如片头[2,18]截止时间为18s，查找从片头截止时间开始的分类信息，若从片头截止到片尾开始的正片画面中有超过50%画面为无效，则不清洗无效画面；若片头截止后5s内，即第19～23帧中含有2帧以上无效画面，则片头截止时间修正到最后一帧无效画面时间；若片头截止后，一段时间内均为连续的无效画面，则直接修改片头截止时间到最长连续无效时间。同理，对片尾开始时间，查找开始时间往回的一段时间，当出现无效画面时，修正片尾开始时间到该无效画面的下一秒。如图13所示，对于片头1，将片头1的时间延长到识别出的包括平台关键词的无效画面的截止时间。如图14所示，对于片尾1，将片尾1的时间延长到识别出的包括平台关键词的无效画面的开始时间。

对于通过全局库存进行查询，通过全局列表进行挖掘或者通过局部列表进行挖掘的处理，均可以基于帧级别图像的帧级特征进行固定段序列的相似检索处理。具体地，将全局库存中的通用片头片尾、全局列表中的全局视频或者局部列表中的用户视频作为查询视频的参考视频，与查询视频组成视频对。对于帧级别特征提取的处理，对视频进行抽帧得到帧级别图像并提取各帧级别图像各自的帧级特征，如25FPS（Frame Per Second，每秒传输帧数）的6秒视频，每1秒抽一帧，则共抽取6张图像，然后对抽帧图像经过特征提取器获取到每一帧的视频帧特征，从而该视频有6个视频帧特征。若采用1秒3帧的抽帧方式，则最终片头片尾的识别时间精度为0.33秒，对于时长较短的小视频，当需要更高的时间精度时，可以采用1秒10帧，精度为0.1秒的更密集抽帧方式进行抽帧处理。其中，视频帧可以通过图像特征提取器提取得到。图像特征提取器可以采用基于开源分类数据集Imagenet训练的ResNet-101神经网络的池化层输出，每张图像转化为1x2048的图像embedding向量。其中，Imagenet为大型通用物体识别开源数据集。图像特征提取器还可以基于不同的网络结构、不同的预训练模型权重实现。

其中，图像embedding用于描述图像信息的特征，包括图像底层表征、图像语义表征等，embedding不局限于浮点特征，也可以是二值特征向量组成的图像表征，即深度哈希特征。本实施例中的embedding特征可以为二值化的深度哈希特征。图像底层表征是来自深度学习底层特征的图像embedding，主要描述全图图像纹理、特征布局等一些表征信息；图像语义表征是来自语义学习的图像embedding，主要描述图像中带有某些指定语义内容部位的表征，如用于描述狗的embedding，则通过提取图像中狗所在位置的特征作为图像表征。

ResNet-101的CNN（Convolutional Neural Networks，卷积神经网络）深层表征模块结构如下表1所示。

表1

进一步地，对于抽帧图像，可以对每张图像进行OCR识别，以识别到每张图像上的文本信息。

在基于embedding的序列相似检索处理中，在进行视频时间段匹配时，对由查询视频与列表视频组成的每个视频对（i,r），其中，列表视频为全局库存、全局列表或局部列表中的视频，i表示待确定片头片尾的查询视频，r表示某个列表视频，作为参考视频。假设列表视频有3个，则对于查询视频i共需要进行3次基于embedding1序列相似检索以及3次基于embedding2序列相似检索的算法计算。

具体地，对于序列相似度检索，又可称为时间段匹配算法，每次处理一对视频，每个视频的输入是其embedding序列。时间段匹配算法中的阈值可根据业务、或所处理的视频需要动态调整。时间段匹配算法步骤具体如下：预设视频帧特征embedding的距离阈值t0=0.3，即当两个embedding的欧式距离小于0.3代表两个embedding来自相似的帧，距离阈值可以根据实际需要进行灵活设置；对视频对中的两个视频抽帧，并获取到每一帧的embedding。对视频i中每帧j，计算其与视频r中每帧embedding的欧式距离，取小于t0的帧作为j的相似帧，获取到j的相似帧或有匹配的帧列表sim-id-list，同时记录对应的相似帧时间偏差diff-time-list。如对于j=1帧，相似帧列表sim-id-list为[1,2,3]，表示与r视频的第1、2、3秒相似；时间偏差diff-time-list为 [0,1,2]表示sim-id-list中相似帧与j=1帧所代表的时间的距离。默认抽帧为每秒抽取1帧，故帧的序号即为秒数。故获取到i的所有帧的相似帧列表SL、时间偏差列表TL。

遍历所有帧统计i和r视频有匹配的帧数，即在r视频有匹配的j的数量，当有匹配帧数少于1，则i与r视频没有相同的视频段，挖掘不到片头片尾。否则，将时间偏差dt重排序得到SL列表，具体对SL中所有匹配帧按diff-time （即dt）从小到大排序，当dt相同时按视频i的序号从小到大排序，同时按此顺序重组对应的diff-time-list，即时间差为0的排在最前面，为1的在其后等，如新的SL列表为[10,11],[11,12],[2,4], [3,5],[4,6],[6,9],[7,10]。

以dt重组数据得到match-dt-list，具体对i的所有帧的相似帧列表SL中的列表，以时间偏差为主键重组得到dt从小到大的列表，得到时间偏差为0、1、2……下的相似帧match-dt-list：{0:{count, start-id，match-id-list},…},例如{2:{3，2，[[2,4],[3,5],[4,6]]}，3:{2,6,[ [6,9],[7,10]]}}，其中2指为时间差2，如i的第2帧和视频vid2的第4帧相似，则这两帧时间差1；count为该时间偏差下的相似帧数量，上述i的第2帧和vid2的第4帧相似，则count加1；start-id指该时间差下，i的最小帧id，如i的第1帧与vid2不相似，而i的第2帧与视频vid2第4帧相似，则start-id为2。

对match-dt-list中前后dt小于3（即对匹配偏差在3s以内的匹配对合并）的两个dt列表合并，将dt较大的合入dt较小的中，同时把dt较大的相似帧匹配更新，同时更新匹配帧列表SL：如上述举例中，dt为2和dt为3可以合并，最终得到{2:{5，2，[[2,4],[3,5],[4,6],[6,8],[7,9]]}}，其中count为dt=2和dt=3的count之和，start-id从dt=2和dt=3的相似帧列表中找到最小的i视频的帧，对于dt=3的列表，改写匹配到的帧的序号合入，如把[6,9]改写成[6,8]合入dt=2的相似帧列表中；同时把帧序号改写过的相似帧对同步更新到5）步骤的SL匹配帧列表中，如更新为：[10,11],[11,12],[2,4], [3,5],[4,6],[6,8],[7,9]。由于上述存在合并帧列表可能会打乱dt或者帧id的顺序，故要重新排序。具体将dt重排序，即对新的SL列表再执行一次dt重排序得到SL列表的处理，得到以dt从小到大（视频i的帧id从小到大）排序的匹配帧列表。以dt重组数据得到match-dt-list：再次执行以dt重组数据得到match-dt-list的处理。

计算时间段匹配列表match-duration-list，具体地，预设两匹配段的时间间隔大于T2（如8s，对于每秒1帧，则帧序号相差8）；对match-dt-list中的每个dt（如dt=2），对dt下视频i的每个帧srcT（如上述举例2，3，4，6，7中的2），当srcT与上一次的srcT相差大于T2（如2相比上一次是srcT 11而言相差9，则大于间隔阈值），则把上一次的相似帧对合并成一个匹配段，从当前srcT开始新的相似帧对统计，并把相似帧存在临时列表tmplist里。如dt=2，srcT=2下，把上一次的临时帧列表中的相似帧作为匹配段存下来，如上一次tmplist=[[10,11],[11,12]]的相似帧作为匹配段添加到match-duration-list中，如添加这样的匹配段信息：[10,11,11,12,1,2,2]，其中各值代表是[src-startTime,src-endTime, ref-startTime, ref-endTime,dt, duration,count]，即匹配段中存两段视频的：视频i的起帧，末帧，匹配视频的起帧、末帧，匹配段的dt，匹配段的时长，匹配到的相似帧数量。如图15所示，匹配段信息中包括目标视频的起帧时间，目标视频的末帧时间，匹配视频的起帧时间以及匹配视频的末帧时间等信息。本次的相似帧存到临时列表里tmplist=[[2,4]]。当srcT与上一次的srcT相差小于T2，本次的相似帧存到临时列表里tmplist，如对dt2，srcT=3、4、6、7均存到临时列表中，则得到tmplist=[[2,4], [3,5],[4,6],[6,8],[7,9]]。当当前为本dt的最后一个相似帧（如srcT=7）时，tmplist的累积相似帧组成匹配段添加到match-duration-list，如添加[2,7,4,9,2,6,5]，其中时长为7-2+1，count=5为相似帧计数，从而match-duration-list=[[10,11,11,12,1,2,2],[2,7,4,9,2,6,5]]。对上述match-duration-list 按count相似帧数倒序排序，如match-duration-list=[[2,7,4,9,2,6,5]，[10,11,11,12,1,2,2]]。

对match-duration-list有交叠的时间段进行处理。由于相似帧计算是遍历两个视频的所有帧进行距离计算取某阈值范围内相似的操作，容易出现某一帧与多个帧相似，从而会出现match-duration-list中存在两个匹配上的时间段时间有交叠，需要处理这种情况。具体地，设置最小匹配段时长T3（如5，表示最短匹配时长为5s），对match-duration-list中的时间段i（指src-startTime，src-endTime构成的时间段），对match-duration-list中的时间段j=i+1；当时间段i包含时间段j，则删除j。如图16所示，时间段i的起点时间在时间段j的起点时间之前，且时间段i的终点时间在时间段j的终点时间之后，即时间段i包含时间段j，需要删除j。当i和j有交集，且i的起点为最早的起点时，把j的起点后移到i的终点位置，更新j，此时当j时间段的时长小于T3，则删除j，否则用新的j替代旧的j。如图17所示，时间段i的起点时间在时间段j的起点时间之前，但时间段i的终点时间在时间段j的终点时间之前，i和j有交集，需要将时间段i的终点时间更新为时间段j的终点时间。当i和j有交集，且j的起点为最早的起点时，把j的终点前移到i的起点位置，更新j，此时当j时间段的时长小于T3，则删除j，否则用新的j替代旧的j。如图18所示，时间段i的起点时间在时间段j的起点时间之后，且时间段i的终点时间在时间段j的终点时间之后，i和j有交集，需要将时间段i的起点时间更新为时间段j的起点时间。最后返回匹配时间段信息，如match-duration-list=[[2,7,4,9,2,6,5] ，[10,11,11,12,1,2,2]]，或仅返回匹配段[[2,7,4,9],[10,11,11,12]]。

对于相同匹配段获取的处理，针对查询视频，从其与视频列表进行相似度序列匹配后，得到3个匹配时间段，对这3个时间段进行对齐得到基于该embedding的视频列表相同匹配段。具体地，对视频i，假设其需要从视频vid2、视频vid3、视频vid4中挖掘，则对[I,vid2][I,vid3],[I,vid4] 共N=3对视频对分别进行上述的视频段匹配处理，得到3个匹配信息，如第一对视频匹配段返回：[[2,7,4,9],[10,11,11,12]]，第二对匹配段返回[[2,7,4,9]]，第三对返回[[2,7,4,10]]。对匹配段进行统计，如[2,7,4,9]有2次，[2,7,4,10]有1次，[10,11,11,12]有1次。对匹配段按照计数逆序排序，当计数相同，按src-startTime从小到大排序：得到match-list = [[2,7,4,9]，[2,7,4,10]，[10,11,11,12]]，count-list=[2,1,1]。

对match-list中有交叠的匹配段进行合并，具体地，设置有效交集比例T4，如0.5，表示当两段时间段交集时长占目标段时长大于T4，表示两段计数需要合并计算；有效匹配计数T5，如3，表示当某一段匹配段计数大于T5，则该段不可忽略。对match-list中的时间段i（指src-startTime，src-endTime构成的时间段），对match-list中的时间段j=i+1，当时间段i包含时间段j，且j段时长> 0.5 * i段时长，则删除j，同时i段计数=原i段计数+j段计数；当i和j有交集，当交集时长> 0.5 * i段时长；当j段计数大于T5，则合并i和j段时间为最长起止时间，且i段计数=原i段计数+j段计数。当j段计数小于T5，则删除j段，且i段计数=原i段计数+j段计数。即此时不做i和j段的合并，仅保留出现次数最多的i段，但j段的次数体现在新的i段计数中。当i和j有交集，当交集时长< 0.5 * i段时长，舍弃j段。如图19所示，若时间段i的起点时间在时间段j的起点时间之前，但时间段i的终点时间在时间段j的终点时间之前，i和j有交集，需要将时间段i的终点时间更新为时间段j的终点时间。另一方面，若时间段i的起点时间在时间段j的起点时间之后，且时间段i的终点时间在时间段j的终点时间之后，i和j有交集，需要将时间段i的起点时间更新为时间段j的起点时间。

得到新的视频匹配段match-list（如 [[2,7,4,9]， [10,11,11,12]]），以及计数count-list（如[3,1]）。设置有效复现次数比例阈值T6，表示在N对视频对挖掘中，当某个匹配视频段复现次数x > N*T6，则为有效的重复段（如T6=0.5）。对match-list，保留有效时间段，则得到match-list =[[2,7,4,9]]，以及count=[3]。此处的match-list即为通过帧级特征与不同列表视频进行固定段序列相似检索得到的识别结果。

对于全局列表产生，对得到的OCR关键词，从最近一周或两周的全局视频中找到具备相同OCR关键词的视频，从中随机抽样1万个视频，组成全局列表。相比起直接用全局所有视频生成全局列表，采用了相同平台、同一时期或近期的视频，从而挖掘所需要比对的视频变少、同更有针对性、更容易挖掘到新增平台片头片尾。当OCR词在关键词库中没有匹配时，则从最近1周全局视频中随机抽样1万个视频作为全局列表。为了保证全局列表的高效产生，可以对全局小视频，预先提取OCR文本并查询关键词库，从而使得关键词库的每个词都能关联到某些全局小视频。关键词库中包括各种关键词，而视频平台中的视频与关键词库中的关键词关联。此外，全局列表与查询视频具备相同的关键词，同时还可以采用具备相同关键词的视频1万个、联合全局随机抽样1万个，以提升泛化性能，提高关键词的识别准确度。如图12所示，对于全局新增视频，如视频平台中的用户新上传的视频，可以从该全局新增视频中提取帧级别图像，并针对该帧级别图像进行文字识别，利用文字识别结果与关键词库中的各个关键词进行关键词查询，从而实现对该全局新增视频的视频信息归纳，如可以建立该全局新增视频与相应关键词的关联关系。针对视频平台中的各个视频进行视频信息归纳处理，也可以获得全局列表。

对于关键词库维护，由于视频平台不断涌现，可能会出现新的视频平台，需要动态更新维护关键词库，可以直接把新视频平台会出现在片头片尾平台logo段的关键词入库，以实现对关键词库的动态更新维护。具体地，在局部列表挖掘时，得到查询视频的平台关键词，可以将得到的平台关键词更新至关键词库中。

对于新增片头片尾录入通用片头片尾库，可以从列表挖掘中的定位点识别结果1或识别结果2中产生推荐的片头片尾，存到推荐库存里并记录该片头片尾出现的次数N1以及新增次数N2。如图20所示，利用从查询视频中获取的帧级别图像，进行单视频通用序列相似检索得到片头片尾后，可以更新该片头片尾出现的次数N1以及新增次数N2。每次在上述视频列表、单视频挖掘中，均查询推荐库存中的片头片尾是否有被包含，每次被包含，即每次在上述视频列表、单视频挖掘得到的片头片尾挖掘结果中包括该片头片尾，则增加该片头片尾在推荐库存中的出现次数和新增次数，即对N1和N2进行更新。当T天以后，根据新增次数，选择新增次数比较多的片头片尾，保存在通用片头片尾库中。

具体地，在全局列表挖掘中挖掘到高置信度片头片尾后，该片头片尾可以用于后续视频全局库存查询处理中。为保证通用片头片尾库的有效性，可以采用了一个缓冲库，即推荐片头片尾库，该推荐片头片尾库用于存储全局列表挖掘产生的所有片头片尾，以及有效信息N1、N2，其中，N1为片头片尾出现的次数，N2为片头片尾出现的新增次数。对某个片头片尾，入库时N1记录为1，N2记录为0。每次查询视频到来时都从推荐片头片尾库中查询，若发现匹配上某片头片尾，则该片头片尾的N2记录加1。一定时间后，假设时间阈值7天，根据N2的记录数从大到小排序，取前10%且N2>100的片头片尾，获取到本周期内最终推荐的片头片尾，把最终推荐片头片尾录入通用片头片尾库中，若该片头片尾为曾录入通用片头片尾库。同时更新所有推荐片头片尾库记录：N1=原N1+N2，N2=0。从而开始下一周期的统计。此外，也可以在入库时除了N1、N2外还记录T时间表示该视频入库天数，每天统计入库天数为7天的倍数的片头片尾，若其N2记录大于指定阈值，则录入通用库，同时更新满7天倍数的推荐片头片尾库记录：N1=原N1+N2，N2=0。从而开始下一周期的统计。还可以采用其他基于N1、N2、T的阈值判决策略来更新通用片头片尾库。此外，由推荐片头片尾库更新到全局片头片尾库的时间周期可以实时调整，如根据每日视频流量统计，当流量达到某个阈值更新。

由识别结果3和识别结果4产生合并结果，将合并结果与识别结果1或识别结果2进行合并。由于两个识别结果均基于多个视频对检索得到，故得到的匹配时间段是强片头片尾信息，即时间段属于片头片尾的置信度极高。此时需要对两个识别结果合并，得到视频间多次重复出现的片头片尾。具体地，将合并结果与识别结果1或识别结果2进行合并时，对合并结果与识别结果1或识别结果2的片头时间片段，合并这多个片段，取最大时间为片头截止时间，如[2,7],[9,15],[9,13],合并时间后输出[2,15]为片头时间段，15为截止时间。同理地，对合并结果与识别结果1或识别结果2的片尾合并，可以取最小时间为片尾的开始时间，从而得到综合识别结果，包括综合识别得到的片头和片尾。

本实施例提供的视频识别方法，支持不等长片头片尾识别，通过借助视频帧embedding相似度序列检索，实现时间不对齐、或片头片尾不等时长下的片头片尾识别；且局部与全局列表embedding挖掘，联合用户维度、平台维度的片头片尾识别，从而提升整体判别效果，避免常规挖掘中忽略了平台维度出现的片头片尾，从而使得小视频内容清洗更干净，此外，针对挖掘到的全局片头片尾，通过推荐片头片尾库、全网复现统计、保存到正式片头片尾库等方式，实现片头片尾挖掘与通用片头片尾的闭环管理。除了针对小视频进行片头片尾识别外，通过有限改造后，本实施例提供的视频识别方法还可以适用于其他类型视频，如影视剧等长视频的片头片尾识别处理，如针对长视频需要对全局挖掘的视频列表进行限制，以避免过多视频比对造成耗时提升等。

应该理解的是，虽然如上所述的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，如上所述的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

基于同样的发明构思，本申请实施例还提供了一种用于实现上述所涉及的视频识别方法的视频识别装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似，故下面所提供的一个或多个视频识别装置实施例中的具体限定可以参见上文中对于视频识别方法的限定，在此不再赘述。

在一个实施例中，如图21所示，提供了一种视频识别装置2100，包括：剧集视频获取模块2102、局部相似片段识别模块2104、平台视频获取模块2106、全局相似片段识别模块2108和综合相似片段确定模块2110，其中：

剧集视频获取模块2102，用于获取视频系列剧集中的目标视频和剧集参考视频；

局部相似片段识别模块2104，用于根据对目标视频和剧集参考视频进行视频帧匹配得到的第一匹配结果，识别出目标视频中相对于剧集参考视频的剧集局部相似片段；

平台视频获取模块2106，用于获取来源于目标视频所属的视频平台的平台参考视频；

全局相似片段识别模块2108，用于根据对目标视频和平台参考视频进行视频帧匹配得到的第二匹配结果，识别出目标视频中相对于平台参考视频的平台全局相似片段；

综合相似片段确定模块2110，用于基于剧集局部相似片段和平台全局相似片段各自在目标视频中的位置，确定目标视频中相对于剧集参考视频及平台参考视频的综合相似片段。

在一个实施例中，还包括矫正更新模块，用于根据目标视频中包括矫正关键词的矫正片段，对剧集局部相似片段进行矫正更新，得到更新后的剧集局部相似片段；综合相似片段确定模块2110，还用于基于更新后的剧集局部相似片段和平台全局相似片段各自在目标视频中的位置，确定目标视频中相对于剧集参考视频及平台参考视频的综合相似片段。

在一个实施例中，矫正更新模块包括矫正片段确定模块、时间戳更新模块和相似片段更新模块；其中：矫正片段确定模块，用于确定目标视频中包括矫正关键词的矫正片段；时间戳更新模块，用于根据矫正片段在目标视频中的时间戳位置，对剧集局部相似片段在目标视频中的时间戳位置进行更新，得到更新后的时间戳位置；相似片段更新模块，用于基于更新后的时间戳位置，确定目标视频中更新后的剧集局部相似片段。

在一个实施例中，矫正片段确定模块，还用于对目标视频中的视频帧进行文字识别，得到文字识别结果；将文字识别结果与矫正关键词进行匹配，获得匹配结果；根据匹配一致的匹配结果所关联的视频帧，从目标视频确定包括矫正关键词的矫正片段。

在一个实施例中，平台参考视频包括从目标视频所属的视频平台的公用视频库中获取的平台公用视频片段，以及从视频平台中获取的平台关联视频；全局相似片段识别模块2108包括公用视频匹配模块、关联视频匹配模块和匹配结果处理模块；其中：公用视频匹配模块，用于对目标视频和平台公用视频片段进行视频帧匹配，得到公用视频匹配结果；关联视频匹配模块，用于当根据公用视频匹配结果未识别出相似片段时，对目标视频和平台关联视频进行视频帧匹配，得到关联视频匹配结果；匹配结果处理模块，用于基于关联视频匹配结果，识别出目标视频中相对于平台关联视频的平台全局相似片段。

在一个实施例中，还包括公用视频更新模块，用于对平台全局相似片段的识别统计参数进行更新，得到更新后的识别统计参数；当更新后的识别统计参数满足平台公用判定条件时，将平台全局相似片段作为平台公用视频片段更新至公用视频库中。

在一个实施例中，平台视频获取模块2106，还用于从目标视频所属的视频平台的公用视频库中，获取平台公用视频片段；全局相似片段识别模块2108，还用于根据对目标视频和平台公用视频片段进行视频帧匹配得到的第二匹配结果，识别出目标视频中相对于平台公用视频片段的平台全局相似片段。

在一个实施例中，平台视频获取模块2106包括平台确定模块、关联视频查询模块和视频筛选模块；其中：平台确定模块，用于确定目标视频所属的视频平台，以及目标视频的视频帧中包括的矫正关键词；关联视频查询模块，用于查询视频平台中与矫正关键词存在关联关系的平台关联视频；视频筛选模块，用于按照参考视频筛选条件，从平台关联视频中筛选得到平台参考视频。

在一个实施例中，还包括关联关系构建模块，用于对属于视频平台的平台视频中视频帧进行文字识别，得到视频关键词；基于视频关键词在关键词库中进行匹配，确定与视频关键词相匹配的目标关键词；建立平台视频与目标关键词之间的关联关系；关联视频查询模块，还用于基于关联关系，查询视频平台中与矫正关键词相关联的平台关联视频。

在一个实施例中，综合相似片段确定模块2110包括时间戳确定模块、时间戳合并模块和综合时间戳处理模块；其中：时间戳确定模块，用于确定剧集局部相似片段在目标视频中的第一时间戳位置，以及平台全局相似片段在目标视频中的第二时间戳位置；时间戳合并模块，用于将第一时间戳位置和第二时间戳位置进行合并，得到综合时间戳位置；综合时间戳处理模块，用于根据综合时间戳位置，确定目标视频中相对于剧集参考视频及平台参考视频的综合相似片段。

在一个实施例中，局部相似片段识别模块2104包括剧集视频帧匹配模块、剧集偏移量确定模块和剧集视频帧对处理模块；其中：剧集视频帧匹配模块，用于将目标视频和剧集参考视频进行视频帧的图像匹配，获得视频帧对；视频帧对包括属于目标视频的待识别视频帧，还包括剧集参考视频中与待识别视频帧图像匹配的剧集参考视频帧；剧集偏移量确定模块，用于基于视频帧对中待识别视频帧的时间属性和剧集参考视频帧的时间属性，确定视频帧对的时间偏移量；剧集视频帧对处理模块，用于筛选时间偏移量相匹配的视频帧对，基于筛选出的视频帧对中待识别视频帧的时间属性，确定目标视频中相对于剧集参考视频的剧集局部相似片段。

在一个实施例中，剧集视频帧对处理模块，还用于将各视频帧对的时间偏移量进行数值匹配，根据数值匹配结果筛选出时间偏移量数值相匹配的视频帧对；基于筛选出的视频帧对中待识别视频帧的时间属性，确定起始时间和终止时间；根据起始时间和终止时间，从目标视频中确定相对于剧集参考视频的剧集局部相似片段。

在一个实施例中，剧集视频帧对处理模块，还用于获取由筛选出的视频帧对组成的视频帧对列表；视频帧对列表中，各视频帧对按照时间偏移量的数值从小到大进行排序，且相同时间偏移量的视频帧对按照所包括的待识别视频帧的时间戳的数值从小到大进行排序，时间戳是根据所包括的待识别视频帧的时间属性确定的；在视频帧对列表中，确定相邻视频帧对中待识别视频帧的时间属性之间的时间属性距离；将时间属性距离不超过距离阈值的相邻视频帧对，确定为属于同一视频片段的视频帧对；根据属于同一视频片段的视频帧对中待识别视频帧的时间戳，确定起始时间和终止时间。

在一个实施例中，剧集视频帧对处理模块，还用于基于属于同一视频片段的视频帧对中待识别视频帧的时间戳，从属于同一视频片段的视频帧对中确定起始视频帧对和终止视频帧对；根据起始视频帧对中待识别视频帧的时间戳，得到起始时间；根据终止视频帧对中待识别视频帧的时间戳，得到终止时间。

在一个实施例中，剧集视频帧对处理模块，还用于将各视频帧对的时间偏移量分别进行数值比较，获得数值比较结果；基于数值比较结果，从各视频帧对中筛选出时间偏移量的数值差小于数值差阈值的视频帧对；对时间偏移量的数值差小于数值差阈值的视频帧对进行偏移量更新，获得时间偏移量数值相匹配的视频帧对。

在一个实施例中，剧集参考视频至少为两个；剧集视频帧对处理模块，还用于筛选时间偏移量相匹配的视频帧对，基于筛选出的视频帧对中待识别视频帧的时间属性，确定目标视频中相对于剧集参考视频的中间相似片段；对目标视频中相对于各剧集参考视频的中间相似片段中，存在交集关系的各中间相似片段进行片段更新，得到目标视频中相对于各剧集参考视频的剧集局部相似片段。

在一个实施例中，剧集视频帧对处理模块，还用于对目标视频中相对于各剧集参考视频的中间相似片段中，存在交集关系的各中间相似片段进行片段更新，得到更新后的中间相似片段；确定更新后的中间相似片段的统计量；当更新后的中间相似片段的统计量超过统计量阈值时，根据更新后的中间相似片段，得到目标视频中相对于各剧集参考视频的剧集局部相似片段。

在一个实施例中，剧集视频帧对处理模块，还用于将目标视频中相对于各剧集参考视频的中间相似片段进行片段位置比较，得到片段比较结果；确定片段比较结果为存在交集关系的各中间相似片段；根据存在交集关系的各中间相似片段的交集时长和统计量，对存在交集关系的各中间相似片段进行片段更新，得到目标视频中相对于各剧集参考视频的剧集局部相似片段。

在一个实施例中，剧集视频帧对处理模块，还用于获取由目标视频中相对于各剧集参考视频的中间相似片段组成的相似片段列表；相似片段列表中，各中间相似片段按照统计量从大到小进行排序，且相同统计量的中间相似片段按照起始时间从先到后进行排序；在相似片段列表中，将各中间相似片段进行片段位置比较，得到片段比较结果。

在一个实施例中，剧集视频帧匹配模块，还用于从目标视频中提取待识别视频帧，从剧集参考视频中提取剧集参考视频帧；分别提取待识别视频帧的视频帧特征，以及剧集参考视频帧的视频帧特征；将待识别视频帧的视频帧特征，与剧集参考视频帧的视频帧特征进行特征匹配，根据特征匹配成功的待识别视频帧和剧集参考视频帧得到视频帧对。

在一个实施例中，剧集视频帧匹配模块，还用于通过图像处理模型，分别提取待识别视频帧的视频帧特征，以及剧集参考视频帧的视频帧特征；其中，图像处理模型的训练步骤包括：获取携带分类标签的训练样本图像；通过待训练的图像处理模型对训练样本图像进行特征提取和图像分类，得到训练样本图像的样本图像特征和样本图像类别；基于样本图像特征、样本图像类别以及分类标签，确定模型损失；基于模型损失，对待训练的图像处理模型进行更新后继续训练，当训练完成时，获得训练完成的图像处理模型。

在一个实施例中，全局相似片段识别模块2108包括全局视频帧匹配模块、全局偏移量确定模块和全局视频帧对处理模块；其中：全局视频帧匹配模块，用于将目标视频和平台参考视频进行视频帧的图像匹配，获得视频帧对；视频帧对包括属于目标视频的待识别视频帧，还包括平台参考视频中与待识别视频帧图像匹配的平台参考视频帧；全局偏移量确定模块，用于基于视频帧对中待识别视频帧的时间属性和剧集参考视频帧的时间属性，确定视频帧对的时间偏移量；全局视频帧对处理模块，用于筛选时间偏移量相匹配的视频帧对，基于筛选出的视频帧对中待识别视频帧的时间属性，确定目标视频中相对于平台参考视频的平台全局相似片段。

在一个实施例中，还包括剧集识别更新模块，用于基于各剧集局部相似片段各自的起始时间和终止时间，确定各剧集局部相似片段之间的片段交集关系；基于片段交集关系，对各剧集局部相似片段进行片段更新，得到目标视频中相对于剧集参考视频更新后的剧集局部相似片段。

在一个实施例中，还包括公用视频判定模块，用于当综合相似片段满足公用视频类型的判定条件时，根据综合相似片段，得到目标视频中与公用视频类型匹配的公用视频。

在一个实施例中，公用视频判定模块，还用于确定目标视频的公用视频类型关联的公用视频分布区间；当综合相似片段的时间段处于公用视频分布区间中时，根据综合相似片段，得到目标视频中与公用视频类型匹配的公用视频。

在一个实施例中，还包括视频比对模块，用于确定公用视频的起始时间和终止时间；响应于视频比对触发事件，根据起始时间和终止时间，从目标视频中提取得到非公用视频；将非公用视频与待比对视频进行视频比对。

在一个实施例中，还包括视频跳播模块，用于确定公用视频的跳转时间点；响应于针对目标视频的视频播放事件，播放目标视频；当目标视频的播放进度达到跳转时间点时，跳过公用视频进行播放。

上述视频识别装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器或终端，其内部结构图可以如图22所示。该计算机设备包括处理器、存储器、输入/输出接口(Input/Output，简称I/O）和通信接口。其中，处理器、存储器和输入/输出接口通过系统总线连接，通信接口通过输入/输出接口连接到系统总线。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储视频识别数据。该计算机设备的输入/输出接口用于处理器与外部设备之间交换信息。该计算机设备的通信接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种视频识别方法。

本领域技术人员可以理解，图22中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，还提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现上述各方法实施例中的步骤。

在一个实施例中，提供了一种计算机可读存储介质，存储有计算机程序，该计算机程序被处理器执行时实现上述各方法实施例中的步骤。

在一个实施例中，提供了一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现上述各方法实施例中的步骤。

需要说明的是，本申请所涉及的用户信息（包括但不限于用户设备信息、用户个人信息等）和数据（包括但不限于用于分析的数据、存储的数据、展示的数据等），均为经用户授权或者经过各方充分授权的信息和数据，且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。此外，本申请中涉及的平台推广信息，用户可以拒绝或可以便捷拒绝广告推送信息等。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器（Read-OnlyMemory，ROM）、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器（ReRAM）、磁变存储器（Magnetoresistive Random Access Memory，MRAM）、铁电存储器（Ferroelectric Random Access Memory，FRAM）、相变存储器（Phase Change Memory，PCM）、石墨烯存储器等。易失性存储器可包括随机存取存储器（Random Access Memory，RAM）或外部高速缓冲存储器等。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器（Static Random Access Memory，SRAM）或动态随机存取存储器（Dynamic RandomAccess Memory，DRAM）等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等，不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等，不限于此。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请的保护范围应以所附权利要求为准。

Claims

1.一种视频识别方法，其特征在于，所述方法包括：

获取视频系列剧集中的目标视频和剧集参考视频；

根据对所述目标视频和所述剧集参考视频进行视频帧匹配得到的第一匹配结果，识别出所述目标视频中相对于所述剧集参考视频的剧集局部相似片段；

获取来源于所述目标视频所属的视频平台的平台参考视频；

根据对所述目标视频和所述平台参考视频进行视频帧匹配得到的第二匹配结果，识别出所述目标视频中相对于所述平台参考视频的平台全局相似片段；

基于所述剧集局部相似片段和所述平台全局相似片段各自在所述目标视频中的位置，确定所述目标视频中相对于所述剧集参考视频及所述平台参考视频的综合相似片段。

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

根据所述目标视频中包括矫正关键词的矫正片段，对所述剧集局部相似片段进行矫正更新，得到更新后的剧集局部相似片段；

所述基于所述剧集局部相似片段和所述平台全局相似片段各自在所述目标视频中的位置，确定所述目标视频中相对于所述剧集参考视频及所述平台参考视频的综合相似片段，包括：

基于所述更新后的剧集局部相似片段和所述平台全局相似片段各自在所述目标视频中的位置，确定所述目标视频中相对于所述剧集参考视频及所述平台参考视频的综合相似片段。

3.根据权利要求2所述的方法，其特征在于，所述根据所述目标视频中包括矫正关键词的矫正片段，对所述剧集局部相似片段进行矫正更新，得到更新后的剧集局部相似片段，包括：

确定所述目标视频中包括矫正关键词的矫正片段；

根据所述矫正片段在所述目标视频中的时间戳位置，对所述剧集局部相似片段在所述目标视频中的时间戳位置进行更新，得到更新后的时间戳位置；

基于所述更新后的时间戳位置，确定所述目标视频中更新后的剧集局部相似片段。

4.根据权利要求3所述的方法，其特征在于，所述确定所述目标视频中包括矫正关键词的矫正片段，包括：

对所述目标视频中的视频帧进行文字识别，得到文字识别结果；

将所述文字识别结果与矫正关键词进行匹配，获得匹配结果；

根据匹配一致的匹配结果所关联的视频帧，从所述目标视频确定包括所述矫正关键词的矫正片段。

5.根据权利要求1所述的方法，其特征在于，所述平台参考视频包括从所述目标视频所属的视频平台的公用视频库中获取的平台公用视频片段，以及从所述视频平台中获取的平台关联视频；

所述根据对所述目标视频和所述平台参考视频进行视频帧匹配得到的第二匹配结果，识别出所述目标视频中相对于所述平台参考视频的平台全局相似片段，包括：

对所述目标视频和所述平台公用视频片段进行视频帧匹配，得到公用视频匹配结果；

当根据所述公用视频匹配结果未识别出相似片段时，对所述目标视频和所述平台关联视频进行视频帧匹配，得到关联视频匹配结果；

基于所述关联视频匹配结果，识别出所述目标视频中相对于所述平台关联视频的平台全局相似片段。

6.根据权利要求5所述的方法，其特征在于，在所述基于所述关联视频匹配结果，识别出所述目标视频中相对于所述平台关联视频的平台全局相似片段之后，所述方法还包括：

对所述平台全局相似片段的识别统计参数进行更新，得到更新后的识别统计参数；

当所述更新后的识别统计参数满足平台公用判定条件时，将所述平台全局相似片段作为平台公用视频片段更新至所述公用视频库中。

7.根据权利要求1所述的方法，其特征在于，所述获取来源于所述目标视频所属的视频平台的平台参考视频，包括：

从所述目标视频所属的视频平台的公用视频库中，获取平台公用视频片段；

根据对所述目标视频和所述平台公用视频片段进行视频帧匹配得到的第二匹配结果，识别出所述目标视频中相对于所述平台公用视频片段的平台全局相似片段。

8.根据权利要求1所述的方法，其特征在于，所述获取来源于所述目标视频所属的视频平台的平台参考视频，包括：

确定所述目标视频所属的视频平台，以及所述目标视频的视频帧中包括的矫正关键词；

查询所述视频平台中与所述矫正关键词存在关联关系的平台关联视频；

按照参考视频筛选条件，从所述平台关联视频中筛选得到平台参考视频。

9.根据权利要求8所述的方法，其特征在于，所述方法还包括：

对属于所述视频平台的平台视频中视频帧进行文字识别，得到视频关键词；

基于所述视频关键词在关键词库中进行匹配，确定与所述视频关键词相匹配的目标关键词；

建立所述平台视频与所述目标关键词之间的关联关系；

所述查询所述视频平台中与所述矫正关键词存在关联关系的平台关联视频，包括：

基于所述关联关系，查询所述视频平台中与所述矫正关键词相关联的平台关联视频。

10.根据权利要求1所述的方法，其特征在于，所述基于所述剧集局部相似片段和所述平台全局相似片段各自在所述目标视频中的位置，确定所述目标视频中相对于所述剧集参考视频及所述平台参考视频的综合相似片段，包括：

确定所述剧集局部相似片段在所述目标视频中的第一时间戳位置，以及所述平台全局相似片段在所述目标视频中的第二时间戳位置；

将所述第一时间戳位置和所述第二时间戳位置进行合并，得到综合时间戳位置；

根据所述综合时间戳位置，确定所述目标视频中相对于所述剧集参考视频及所述平台参考视频的综合相似片段。

11.根据权利要求1至10任意一项所述的方法，其特征在于，所述根据对所述目标视频和所述剧集参考视频进行视频帧匹配得到的第一匹配结果，识别出所述目标视频中相对于所述剧集参考视频的剧集局部相似片段，包括：

将所述目标视频和所述剧集参考视频进行视频帧的图像匹配，获得视频帧对；所述视频帧对包括属于所述目标视频的待识别视频帧，还包括所述剧集参考视频中与所述待识别视频帧图像匹配的剧集参考视频帧；

基于所述视频帧对中待识别视频帧的时间属性和剧集参考视频帧的时间属性，确定所述视频帧对的时间偏移量；

筛选时间偏移量相匹配的视频帧对，基于筛选出的视频帧对中待识别视频帧的时间属性，确定所述目标视频中相对于所述剧集参考视频的剧集局部相似片段。

12.根据权利要求11所述的方法，其特征在于，所述筛选时间偏移量相匹配的视频帧对，基于筛选出的视频帧对中待识别视频帧的时间属性，确定所述目标视频中相对于所述剧集参考视频的剧集局部相似片段，包括：

将各所述视频帧对的时间偏移量进行数值匹配，根据数值匹配结果筛选出时间偏移量数值相匹配的视频帧对；

基于筛选出的视频帧对中待识别视频帧的时间属性，确定起始时间和终止时间；

根据所述起始时间和所述终止时间，从所述目标视频中确定相对于所述剧集参考视频的剧集局部相似片段。

13.根据权利要求12所述的方法，其特征在于，所述将各所述视频帧对的时间偏移量进行数值匹配，根据数值匹配结果筛选出时间偏移量数值相匹配的视频帧对，包括：

将各所述视频帧对的时间偏移量分别进行数值比较，获得数值比较结果；

基于所述数值比较结果，从各所述视频帧对中筛选出时间偏移量的数值差小于数值差阈值的视频帧对；

对时间偏移量的数值差小于数值差阈值的视频帧对进行偏移量更新，获得时间偏移量数值相匹配的视频帧对。

14.根据权利要求11所述的方法，其特征在于，所述剧集参考视频至少为两个；所述筛选时间偏移量相匹配的视频帧对，基于筛选出的视频帧对中待识别视频帧的时间属性，确定所述目标视频中相对于所述剧集参考视频的剧集局部相似片段，包括：

筛选时间偏移量相匹配的视频帧对，基于筛选出的视频帧对中待识别视频帧的时间属性，确定所述目标视频中相对于所述剧集参考视频的中间相似片段；

对所述目标视频中相对于各所述剧集参考视频的中间相似片段中，存在交集关系的各中间相似片段进行片段更新，得到所述目标视频中相对于各所述剧集参考视频的剧集局部相似片段。

15.根据权利要求14所述的方法，其特征在于，所述对所述目标视频中相对于各所述剧集参考视频的中间相似片段中，存在交集关系的各中间相似片段进行片段更新，得到所述目标视频中相对于各所述剧集参考视频的剧集局部相似片段，包括：

将所述目标视频中相对于各所述剧集参考视频的中间相似片段进行片段位置比较，得到片段比较结果；

确定片段比较结果为存在交集关系的各中间相似片段；

根据存在交集关系的各中间相似片段的交集时长和统计量，对存在交集关系的各中间相似片段进行片段更新，得到所述目标视频中相对于各所述剧集参考视频的剧集局部相似片段。

16.根据权利要求11所述的方法，其特征在于，所述将所述目标视频和所述剧集参考视频进行视频帧的图像匹配，获得视频帧对，包括：

从所述目标视频中提取待识别视频帧，从所述剧集参考视频中提取剧集参考视频帧；

分别提取所述待识别视频帧的视频帧特征，以及所述剧集参考视频帧的视频帧特征；

将所述待识别视频帧的视频帧特征，与所述剧集参考视频帧的视频帧特征进行特征匹配，根据特征匹配成功的待识别视频帧和剧集参考视频帧得到视频帧对。

17.根据权利要求1所述的方法，其特征在于，所述根据对所述目标视频和所述平台参考视频进行视频帧匹配得到的第二匹配结果，识别出所述目标视频中相对于所述平台参考视频的平台全局相似片段，包括：

将所述目标视频和所述平台参考视频进行视频帧的图像匹配，获得视频帧对；所述视频帧对包括属于所述目标视频的待识别视频帧，还包括所述平台参考视频中与所述待识别视频帧图像匹配的平台参考视频帧；

筛选时间偏移量相匹配的视频帧对，基于筛选出的视频帧对中待识别视频帧的时间属性，确定所述目标视频中相对于所述平台参考视频的平台全局相似片段。

18.一种视频识别装置，其特征在于，所述装置包括：

局部相似片段识别模块，用于根据对所述目标视频和所述剧集参考视频进行视频帧匹配得到的第一匹配结果，识别出所述目标视频中相对于所述剧集参考视频的剧集局部相似片段；

平台视频获取模块，用于获取来源于所述目标视频所属的视频平台的平台参考视频；

全局相似片段识别模块，用于根据对所述目标视频和所述平台参考视频进行视频帧匹配得到的第二匹配结果，识别出所述目标视频中相对于所述平台参考视频的平台全局相似片段；

综合相似片段确定模块，用于基于所述剧集局部相似片段和所述平台全局相似片段各自在所述目标视频中的位置，确定所述目标视频中相对于所述剧集参考视频及所述平台参考视频的综合相似片段。

19.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至17中任一项所述的方法的步骤。

20.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至17中任一项所述的方法的步骤。