CN116958874A

CN116958874A - 多媒体数据的处理方法、装置、设备及介质

Info

Publication number: CN116958874A
Application number: CN202310931971.7A
Authority: CN
Inventors: 罗达志
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2023-07-26
Filing date: 2023-07-26
Publication date: 2023-10-27

Abstract

本申请提供了一种多媒体数据的处理方法、装置、设备及介质，该方法包括：在获取到第一全局特征时查找匹配的第二全局特征，将对应的第二多媒体本体作为待处理多媒体本体，基于第一多媒体本体和待处理多媒体本体构建多媒体数据对，将第一全局特征与查找到的第二全局特征的全局特征匹配度作为第一类型匹配度，确定第一关联多媒体信息和待处理多媒体信息的信息匹配度，将信息匹配度作为第二类型匹配度，基于第一类型匹配度和第二类型匹配度进行数据对匹配，得到数据对匹配度，基于数据对匹配度将与第一多媒体本体相匹配的待处理多媒体本体确定第一匹配多媒体本体。本申请可以提升多媒体本体相似匹配的准确度。

Description

多媒体数据的处理方法、装置、设备及介质

技术领域

本申请涉及计算机技术领域，尤其涉及一种多媒体数据的处理方法、装置、设备及介质。

背景技术

目前，针对多媒体作品(比如视频)的匹配业务可以是，在互联网平台所发布的多媒体作品中匹配出与某个作品相似的多媒体作品。比如，用户提供待匹配的视频(比如视频A)，可以从互联网平台上所发布的多媒体视频中匹配出与视频A相似的视频(比如视频B)。

然而，发明人在实践中发现，在使用视频相似匹配方案对两个视频进行视频相似匹配时，往往是基于两个视频(例如，视频A和视频B)的标题所映射的标题特征，来判定该视频B与视频A是否匹配。那么，一旦非法用户对这两个视频的标题内容进行调整，那么在采用前述在进行视频相似匹配的过程中，存在将视频内容本身强相关的这两个视频，误认为是标题特征不相关的视频的现象，进而导致遗漏对这两个相似视频的视频内容检测，这意味着现有的视频相似匹配方案，难以确保视频相似匹配的准确度。

发明内容

本申请实施例提供了一种多媒体数据的处理方法、装置、设备及介质，可以提升多媒体本体相似匹配的准确度，比如具体可以是提升视频相似匹配的准确度。

一方面，本申请实施例提供了一种多媒体数据的处理方法，方法包括：

获取第一多模态数据，对第一多模态数据中的第一多媒体本体进行全局特征提取，得到第一多媒体本体的第一全局特征；第一多模态数据包括与第一多媒体本体相关联的第一关联多媒体信息；

从业务全局特征数据库中获取第二全局特征，对第一全局特征与第二全局特征进行全局特征匹配处理，得到第一全局特征与第二全局特征之间的全局特征匹配度，通过第一全局特征与第二全局特征之间的全局特征匹配度，从第二全局特征中查找与第一全局特征相匹配的第二全局特征；业务全局特征数据库是由第二多模态数据中的第二多媒体本体的第二全局特征所确定的；第二多模态数据包括与第二多媒体本体相关联的第二关联多媒体信息；

将查找到的第二全局特征所对应的第二多媒体本体作为待处理多媒体本体，基于第一多媒体本体和待处理多媒体本体，构建得到多媒体数据对，将第一全局特征与查找到的第二全局特征之间的全局特征匹配度作为多媒体数据对的第一类型匹配度；

将第二关联多媒体信息中与待处理多媒体本体相关联的第二关联多媒体信息，确定为待处理多媒体信息，对第一关联多媒体信息和待处理多媒体信息进行信息匹配处理，得到第一关联多媒体信息和待处理多媒体信息之间的信息匹配度，将信息匹配度作为多媒体数据对的第二类型匹配度；

基于第一类型匹配度和第二类型匹配度，对多媒体数据对进行数据对匹配，得到与多媒体数据对相关联的数据对匹配度，基于数据对匹配度，对多媒体数据对进行数据对筛选，筛选得到与第一多媒体本体相匹配的待处理多媒体本体，将筛选出的待处理多媒体本体确定为第一多媒体本体的第一匹配多媒体本体。

一方面，本申请实施例提供了一种多媒体数据的处理装置，装置包括：

全局特征处理模块，用于获取第一多模态数据，对第一多模态数据中的第一多媒体本体进行全局特征提取，得到第一多媒体本体的第一全局特征；第一多模态数据包括与第一多媒体本体相关联的第一关联多媒体信息；

全局特征处理模块，还用于从业务全局特征数据库中获取第二全局特征，对第一全局特征与第二全局特征进行全局特征匹配处理，得到第一全局特征与第二全局特征之间的全局特征匹配度，通过第一全局特征与第二全局特征之间的全局特征匹配度，从第二全局特征中查找与第一全局特征相匹配的第二全局特征；业务全局特征数据库是由第二多模态数据中的第二多媒体本体的第二全局特征所确定的；第二多模态数据包括与第二多媒体本体相关联的第二关联多媒体信息；

第一匹配度确定模块，用于将查找到的第二全局特征所对应的第二多媒体本体作为待处理多媒体本体，基于第一多媒体本体和待处理多媒体本体，构建得到多媒体数据对，将第一全局特征与查找到的第二全局特征之间的全局特征匹配度作为多媒体数据对的第一类型匹配度；

第二匹配度确定模块，用于将第二关联多媒体信息中与待处理多媒体本体相关联的第二关联多媒体信息，确定为待处理多媒体信息，对第一关联多媒体信息和待处理多媒体信息进行信息匹配处理，得到第一关联多媒体信息和待处理多媒体信息之间的信息匹配度，将信息匹配度作为多媒体数据对的第二类型匹配度；

数据对匹配模块，用于基于第一类型匹配度和第二类型匹配度，对多媒体数据对进行数据对匹配，得到与多媒体数据对相关联的数据对匹配度，基于数据对匹配度，对多媒体数据对进行数据对筛选，筛选得到与第一多媒体本体相匹配的待处理多媒体本体，将筛选出的待处理多媒体本体确定为第一多媒体本体的第一匹配多媒体本体。

本申请实施例一方面提供了一种计算机设备，包括存储器和处理器，存储器与处理器相连，存储器用于存储计算机程序，处理器用于调用计算机程序，以使得该计算机设备执行本申请实施例中上述一方面提供的方法。

本申请实施例一方面提供了一种计算机可读存储介质，计算机可读存储介质中存储有计算机程序，计算机程序适于由处理器加载并执行，以使得具有处理器的计算机设备执行本申请实施例中上述一方面提供的方法。

根据本申请的一个方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述一方面提供的方法。

本申请实施例中，可以在获取到第一多模态数据时，对第一多模态数据中的第一多媒体本体(比如视频)进行全局特征提取，得到第一多媒体本体的第一全局特征，并从业务全局特征数据库中获取第二全局特征，对第一全局特征与第二全局特征进行全局特征匹配处理，得到第一全局特征与第二全局特征之间的全局特征匹配度，通过第一全局特征与第二全局特征之间的全局特征匹配度，从第二全局特征中查找与第一全局特征相匹配的第二全局特征，该业务全局特征数据库是通过第二多模态数据(比如可以是多媒体平台上发布的视频)中的第二多媒体本体的第二全局特征所构建的，该第一多模态数据还可以包括与第一多媒体本体相关联的第一关联多媒体信息(比如视频标题、视频描述、视频发布者等等)，该第二多模态数据还可以包括与第二多媒体本体相关联的第二关联多媒体信息；该相匹配的第二全局特征对应的第二多媒体本体可视为是疑似与第一多媒体本体相似的第二多媒体本体，进而可以从该疑似与第一多媒体本体相似的第二多媒体本体中确定第一多媒体本体的匹配多媒体本体，这样可以初步筛选出用于精准匹配的第二多媒体本体，以减少数据匹配量；同时，通过表征多媒体本体的本身内容的全局特征进行匹配筛选，可以将本身内容强相关的两个多媒体本体匹配出来，减少遗漏情况，以提高后续的相似匹配准确度；可以将查找到的第二全局特征所对应的第二多媒体本体作为待处理多媒体本体，用于和第一多媒体本体一并构建得到多媒体数据对；可以通过多媒体数据对中的两个多媒体本体的全局特征之间的全局特征匹配度和多媒体关联信息之间的信息匹配度综合确定出多媒体数据对的数据对匹配度，以基于该数据匹配度得到从多媒体数据对中筛选出与第一多媒体本体相匹配的待处理多媒体本体，以作为第一多媒体本体的第一匹配多媒体本体，该第一多媒体本体和第一匹配多媒体本体相匹配，也就是说，第一匹配多媒体本体可能是第一多媒体本体的侵权本体，由此，可以利用全局特征之间的全局特征匹配度和多媒体关联信息之间的信息匹配度进一步精准匹配出更加有可能与第一多媒体本体相似的第二多媒体本体。同时，相较于仅比对标题特征，全局特征可以表征多媒体本体本身的相关信息，由此通过两种类型的匹配度综合进行数据匹配，可以使得多媒体本体的相似匹配结果更加准确和可靠。

附图说明

为了更清楚地说明本申请实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种网络架构示意图；

图2是本申请实施例提供的一种多媒体数据的处理过程示意图；

图3是本申请实施例提供的一种多媒体数据的处理方法的流程示意图一；

图4是本申请实施例提供的一种匹配业务检测界面的示意图一；

图5是本申请实施例提供的一种匹配业务检测界面的示意图二；

图6是本申请实施例提供的一种数据对匹配度的确定场景示意图；

图7是本申请实施例提供的一种多媒体数据的处理方法的流程示意图二；

图8是本申请实施例提供的一种全局特征的获取过程示意图；

图9是本申请实施例提供的一种关键视频帧的获取过程示意图一；

图10是本申请实施例提供的一种关键视频帧的获取过程示意图二；

图11是本申请实施例提供的一种局部特征的应用场景示意图一；

图12是本申请实施例提供的一种局部特征的应用场景示意图二；

图13是本申请实施例提供的一种局部特征的应用场景示意图三；

图14是本申请实施例提供的一种匹配业务检测界面的示意图三；

图15是本申请实施例提供的一种匹配业务检测界面的示意图四；

图16是本申请实施例提供的一种侵权匹配业务的框架示意图；

图17是本申请实施例提供的一种多媒体数据的处理装置的结构示意图；

图18是本申请实施例提供的一种计算机设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

请参见图1，图1是本申请实施例提供的一种网络架构示意图。如图1所示，该系统架构可以包括业务服务器100以及业务终端集群，其中，业务终端集群可以包括一个或多个业务终端(比如为用户终端)，这里将不对业务终端集群中的业务终端的数量进行限定。如图1所示，业务终端集群中的多个业务终端具体可以包括：业务终端200a、业务终端200b、…、业务终端200n，其中，业务终端集群之间可以存在通信连接，例如业务终端200a与业务终端200b之间存在通信连接，业务终端200a与业务终端200n之间存在通信连接。同时，业务终端集群中的任一业务终端可以与业务服务器100存在通信连接，以便于业务终端集群中的每个业务终端均可以通过该通信连接与业务服务器100进行数据交互，例如业务终端200a与业务服务器100之间存在通信连接。其中，上述通信连接不限定连接方式，可以通过有线通信方式进行直接或间接地连接，也可以通过无线通信方式进行直接或间接地连接，还可以通过其它方式，本申请在此不做限制。

应该理解，如图1所示的业务终端集群中的每个业务终端均可以安装有用于多媒体匹配的应用客户端。当应用客户端运行于各业务终端中时，可以分别与上述图1所示的业务服务器100之间进行数据交互。其中，该应用客户端可以为任意类型的客户端，比如可以是社交客户端、图像处理客户端、即时通信客户端(例如，会议客户端)、娱乐客户端(例如，游戏客户端、直播客户端)、多媒体客户端(例如，视频客户端)、资讯类客户端(例如，新闻资讯客户端)、购物客户端、车载客户端、匹配客户端等具有显示文字、图像、音频以及视频等数据信息功能的客户端。

例如，此处以应用客户端为匹配客户端为例，对业务终端200a以及业务服务器100之间的数据交互过程进行阐述。匹配客户端是指能够即时发送和接收互联网消息、且具有信息搜索功能等的客户端，比如匹配客户端可以是匹配业务检测平台所提供的客户端，该匹配业务检测平台可以提供多媒体本体的匹配服务(比如视频侵权匹配服务)。业务服务器中可以配置有匹配模块。业务终端200a上的匹配客户端可以显示匹配业务检测平台所提供的匹配业务检测界面，业务对象(比如需要进行侵权检测的用户)可以通过匹配业务检测界面上传包括第一多媒体本体的第一多模态数据至业务服务器，业务服务器在接收到业务终端200a通过匹配业务检测界面所发送的匹配业务检测请求时，可以调用匹配模块以通过第一多模态数据对第一多媒体本体的侵权匹配，并可以将得到的侵权匹配结果(比如第一多媒体本体的第一匹配多媒体本体)返回给业务终端200a。

可选地，可以理解的是，本申请实施例所涉及的匹配模块还可以全部或部分集成在业务终端上，由业务终端通过该匹配模块实现多媒体本体的侵权匹配。比如，业务服务器在从业务全局特征数据库中查找与第一全局特征相匹配的第二全局特征时，可以将查找到的第二全局特征及所对应的第二多模态数据返回给业务终端，由业务终端通过该匹配模块，基于查找到的第二全局特征从所对应的第二多模态数据包括的第二多媒体本体中，确定第一多媒体本体的第一匹配多媒体本体。在此不做限定。

其中，可以理解的是，本申请实施例所涉及的计算机设备可以是服务器(例如，图1所示的业务服务器100)，也可以是终端(例如，图1所示的业务终端集群中的任意一个业务终端)。其中，服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(Content Delivery Network，内容分发网络)、以及大数据和人工智能平台等基础云计算服务的云服务器。终端可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表、车载终端等，但并不局限于此。

可以理解的是，图1只是实例性地表征本申请技术方案的可能存在的网络架构，并不对本申请技术方案的具体架构进行限定，即本申请技术方案还可以提供其他形式的网络架构。

进一步地，请参见图2，图2是本申请实施例提供的一种多媒体数据的处理过程示意图。其中，如图2所示的计算机设备20可以为上述图1所对应实施例中的业务服务器100或者业务终端集群中的任意一个业务终端(例如，业务终端200a)，这里不做限定，此时以计算机设备20为业务服务器为例。其中，计算机设备20可以在获取到第二多模态数据21时，确定第二多模态数据中的第二多媒体本体22的第二全局特征23，以构建得到业务全局特征数据库24；第二多模态数据还包括第二多媒体本体的第二关联多媒体信息25；在获取到第一多模态数据26(第一多模态数据包括第一多媒体本体27和第一多媒体本体的第一关联多媒体信息28)时，对第一多模态数据26中的第一多媒体本体进行全局特征提取，得到第一多媒体本体的第一全局特征29；这样，当计算机设备20获取到第一多模态数据中的第一多媒体本体的第一全局特征29时，可以从业务全局特征数据库中查找与第一全局特征相匹配的第二全局特征210(比如，从业务全局特征数据库中获取第二全局特征，对第一全局特征与第二全局特征进行全局特征匹配处理，得到第一全局特征与第二全局特征之间的全局特征匹配度，通过第一全局特征与第二全局特征之间的全局特征匹配度，从第二全局特征中查找与第一全局特征相匹配的第二全局特征)，并在查找到与第一全局特征相匹配的第二全局特征时，将查找到的第二全局特征所对应的第二多媒体本体作为待处理多媒体本体211，可以理解，待处理多媒体本体为与第一多媒体本体疑似相似的多媒体本体；可以基于第一多媒体本体和待处理多媒体本体构建得到多媒体数据对212，该多媒体数据对即为可疑数据对，一个多媒体数据对包括一个第一多媒体本体和一个待处理多媒体本体；此时可以获取第一全局特征与查找到的第二全局特征之间的全局特征匹配度213，并作为多媒体数据对的第一类型匹配度214；在将第二关联多媒体信息中与待处理多媒体本体相关联的第二关联多媒体信息215确定为待处理多媒体信息216时，对第一关联多媒体信息和待处理多媒体信息进行信息匹配处理，得到第一关联多媒体信息和待处理多媒体信息之间的信息匹配度217，并将信息匹配度作为多媒体数据对的第二类型匹配度218，可以基于第一类型匹配度和第二类型匹配度，对多媒体数据对进行数据对匹配，得到与多媒体数据对相关联的数据对匹配度219，这样确定出的数据对匹配度结合了更多特征信息，使得数据对匹配度可以更准确可靠，进而可以基于数据对匹配度从多媒体数据对中筛选得到与第一多媒体本体相匹配的待处理多媒体本体，以作为第一多媒体本体的第一匹配多媒体本体220。

应当理解，本申请实施例所涉及的业务场景可以为侵权匹配(侵权检测)场景。可以理解，侵权匹配场景是指检测出与一个多媒体本体相似的其他多媒体本体，以将该其他多媒体本体视为多媒体本体的侵权多媒体本体，实现版权维权。比如，可以接入多媒体平台，以获取多媒体平台所提供的第二多模态数据(比如多媒体平台上所发布的多模态数据)，并确定第二多模态数据中的第二多媒体本体的第二全局特征，当获取到用户上传的待进行侵权检测的第一多模态数据时，可以确定第一多模态数据中的第一多媒体本体的第一全局特征，当需要对第一多媒体本体进行侵权检测时，可以获取第一多媒体本体的第一全局特征，并基于第一多媒体本体的第一全局特征和第二多媒体本体的第二全局特征，从所获取到的第二多媒体本体中确定与第一多媒体本体相匹配的第二多媒体本体。或者，可以从第二多模态数据选取一个第二多模态数据(多模态数据1)作为第一多模态数据，在需要对第一多模态数据的第一多媒体本体进行侵权检测时，基于第一多媒体本体的第一全局特征和第二多媒体本体(除多模态数据1以外的第二多模态数据中的第二多媒体本体)的第二全局特征，从前述第二多媒体本体中确定与第一多媒体本体相匹配的第二多媒体本体。可以理解，与第一多媒体本体相匹配的第二多媒体本体即为与第一多媒体本体相似的多媒体本体，因此可以将该与第一多媒体本体相匹配的第二多媒体本体视为是第一多媒体本体的侵权多媒体本体。

又如，本申请实施例所涉及的业务场景可以为异常检测场景。可以理解，异常检测场景是指检测出与一个异常的多媒体本体相似的其他多媒体本体，以将该其他多媒体本体视为异常多媒体本体，实现多媒体本体的异常识别。比如，可以接入多媒体平台，以获取多媒体平台所提供的第二多模态数据(比如多媒体平台上所发布的多模态数据)，确定第二多模态数据中的第二多媒体本体的第二全局特征，当获取到用户上传的待进行异常检测的第一多模态数据(比如异常检测可以是违法视频检测，可以上传违法视频以及违法视频的相关信息，作为第一多模态数据；或者，异常检测可以是低俗视频检测，可以上传低俗视频以及低俗视频的相关信息，作为第一多模态数据)时，可以确定第一多模态数据中的第一多媒体本体的第一全局特征，当需要对第一多媒体本体进行侵权检测时，可以获取第一多媒体本体的第一全局特征，基于第一多媒体本体的第一全局特征和第二多媒体本体的第二全局特征，从所获取到的第二多媒体本体中确定与第一多媒体本体相匹配的第二多媒体本体。可以理解，与第一多媒体本体相匹配的第二多媒体本体即为与第一多媒体本体相似的多媒体本体，因此可以将该与第一多媒体本体相匹配的第二多媒体本体视为是异常多媒体本体。

可以理解，本申请实施例所涉及的业务场景还可以为去重检测场景。其中，去重检测场景是指：一个待发布的视频所属机构为了更快更好地去覆盖全互联网平台，会选择和多个内容代理合作，该多个内容代理均具有发布该视频的版权，当多个内容代理在同一个互联网平台上发布该视频时，会导致该互联网平台上出现重复视频。因此，对于互联网平台而言，进行视频去重十分有必要。比如，可以是，当一个用户想要在一个互联网平台上发布一个视频(第一多媒体本体)时，可以检测该视频在该互联网平台上是否存在重复的视频，当检测出的重复视频的数量大于预设阈值时，可以不允许该用户发布此视频，从而得到视频去重效果。也就是确定第一多媒体本体的匹配多媒体本体，以使得用户想要发布的视频的重复视频。在此对业务场景不做限定，可应用于任意多媒体本体匹配场景。为了便于理解，下述以应用在侵权匹配场景为例对本申请技术方案进行描述。可以理解，在应用到其他业务场景时，执行过程和原理相同。

可以理解，本申请实施例所涉及的业务场景还可以为相似多媒体推送场景(即相似推荐)。其中，相似多媒体推送场景是指：检测出与一个多媒体本体相似的多媒体本体，并将该相似的多媒体本体推送给某个用户。比如，检测到用户点击了某个视频，或者接收到用户上传的任意视频时，可以按照本申请技术方案确定该视频的匹配视频(即相似视频)，并将该匹配视频推送给用户。例如，用户在某个多媒体平台观看视频时，多媒体平台可以获取用户所观看的视频，并将该视频对应的模态数据发送给匹配业务检测平台，由匹配业务检测平台针对该视频对应的模态数据进行匹配检测以确定该视频在所观看的多媒体平台上的匹配视频，并将该确定出的匹配视频的视频标识发送给多媒体平台，由多媒体平台基于接收到的视频标识将对应的匹配视频推送给用户。或者，匹配业务检测平台可以接收由用户上传的任意视频，以确定该视频的匹配视频，并将该视频的匹配视频的相关信息返回给用户。

其中，可以理解，第一多模态数据中的第一多媒体本体可以是任意多媒体类型的本体，比如可以是视频类多媒体(如互联网短视频)、或者音频类多媒体。可以理解，当第一多媒体本体为视频类多媒体时，第二多媒体本体同样为视频类多媒体，实现视频匹配业务。当第一多媒体本体为音频类多媒体时，第二多媒体本体同样为音频类多媒体，实现音频匹配业务。因此，本申请技术方案可以通过从第二多媒体本体中确定第一多媒体本体的匹配多媒体本体(第一匹配多媒体本体或第二匹配多媒体本体)实现视频侵权检测、或者音频侵权检测等匹配业务。比如，用户可以上传待进行侵权检测的短视频(第一多媒体本体)，可以通过本申请技术方案确定与用户上传的短视频相匹配的互联网短视频(第二多媒体本体)，以作为用户上传的短视频所对应的侵权视频。又如，可以从音乐平台上随机获取一个待进行侵权检测的音乐，可以通过本申请技术方案在音乐平台所发布的音乐中，确定与获取的音乐相匹配的音乐，以作为获取的音乐所对应的侵权音乐，等等。在此对第一多媒体本体的类型不做限定。

需要说明的是，本申请实施例中的计算机设备在获取用户的个人数据信息等数据时，可以显示提示界面或者弹窗，该提示界面或者弹窗用于提示用户当前正在搜集个人数据信息等数据，仅仅在获取到用户对该提示界面或者弹窗发出确认操作后，开始执行数据获取的相关的步骤，否则结束。

可以理解的是，在本申请的具体实施方式中，可能涉及到用户、企业、机构、系统等对象的业务数据(例如，用户上传的第一多模态数据等信息)，当本申请以上实施例运用到具体产品或技术中时，需要获得用户、企业、机构、系统等对象的许可或同意，且相关数据的收集、使用和处理需要遵守相关地区的相关法律法规和标准。

进一步的，请参见图3，图3是本申请实施例提供的一种多媒体数据的处理方法，如图3所示，方法可以由上述提及的计算机设备来执行，比如，如图3中所示的任意一个业务终端或业务服务器，下述以计算机设备为业务服务器为例，方法具体可以包括以下步骤S101-步骤S105：

S101、获取第一多模态数据，对第一多模态数据中的第一多媒体本体进行全局特征提取，得到第一多媒体本体的第一全局特征。

其中，第一多模态数据包括第一多媒体本体和与第一多媒体本体相关联的第一关联多媒体信息。第一多媒体本体可以是视频类多媒体，也可以是音频类多媒体。在此不做限定。第一多媒体本体是指在多媒体场景中，以多媒体形式存在的内容本体。第一关联多媒体信息是用于说明和介绍第一多媒体本体的周边信息，即多媒体场景中，除第一多媒体本体之外的信息。比如在视频场景下，第一多媒体本体为视频本身，第一关联多媒体信息为除视频以外的用于说明该视频的周边信息。

比如，第一多媒体本体为视频类多媒体，第一关联多媒体信息可以是第一多媒体本体的标题文本、描述文本(比如视频简介)、播放信息(如视频长度，即视频时长)、发布者文本信息(即第一业务对象的第一对象文本信息，如名称、签名或简介等)、发布者图像信息(即第一业务对象的第一对象图像信息，如头像)、视频封面(比如可以是图像，如静图或动图，或者还可以是视频片段，如从第一多媒体本体提取出的多个视频帧所构成的片段)，等等。又如，第一多媒体本体为音频类多媒体，第一关联多媒体信息可以是第一多媒体本体的标题文本、描述文本(比如音频简介)、播放信息(如音频长度，即音频时长)、发布者文本信息(即第一业务对象的第一对象文本信息，如名称、签名或简介等)、发布者图像信息(如头像即第一业务对象的第一对象图像信息，如头像)、音频封面(比如可以是图像，如静图或动图)，等等。在此对第一关联多媒体信息所包含的信息不做限定，可以包括文字类信息、图像类信息，或视频类信息。

其中，第一多模态数据可以是由第一业务对象(比如用户)上传的数据，也可以是在多媒体平台随机选取的数据，还可以是基于用户在多媒体平台上的交互行为所确定的数据(比如对多媒体平台上的视频的点击行为或观看行为等)。比如，当第一业务对象是侵权检测场景下的用户时，计算机设备可以接收用户上传的原创多模态数据，以作为第一多模态数据，比如用户可以上传正版视频的多模态数据。又如，当第一业务对象是相似多媒体推送场景下的用户时，计算机设备可以获取用户所点击过的多媒体本体所对应的多模态数据。比如，用户点击观看了某个视频，计算机设备可以获取该点击观看的视频的多模态数据，作为待检测的第一多模态数据。本申请在此对第一多模态数据的获取方式和来源不做限定。

可以理解的是，第一多模态数据可以是由第一业务对象通过匹配业务检测平台所提供的匹配业务检测界面所上传的；或者，由多媒体平台通过匹配业务检测平台所提供的匹配业务检测界面所上传的。比如，第一业务对象(如需要进行匹配业务的业务对象，比如匹配业务检测平台对应的用户)需要对某个第一多媒体本体进行侵权匹配业务，则可以通过匹配业务检测界面上传第一多模态数据。又如，多媒体平台想要进行相似多媒体推送，可以获取某个在线用户所点击过的多媒体本体，并将该点击过的多媒体本体的多模态数据进行上传。匹配业务检测平台是指用于提供匹配业务的平台，该匹配业务检测平台可以包括应用客户端和应用客户端对应的服务器(如图1中的业务服务器)。第一业务对象的对象终端在安装有应用客户端时，可以显示该匹配业务检测界面，第一业务对象的对象终端可以通过匹配业务检测界面上传第一多模态数据至应用客户端对应的服务器，由业务服务器对第一业务对象上传的第一多模态数据中的第一多媒体本体进行侵权检测服务。

可选地，当接收到第一多模态数据，并得到第一多模态数据中的第一多媒体本体的第一全局特征时，可以直接查找与该第一全局特征相匹配的第二全局特征。或者，也可以是在得到第一全局特征后，将该第一全局特征添加到对象全局特征数据库，当接收到第一业务对象发送的匹配业务检测请求时，从对象全局特征数据库中获取该匹配业务检测请求所指示的第一全局特征，并查找与该匹配业务检测请求所指示的第一全局特征相匹配的第二全局特征。例如，当进行侵权检测时，匹配业务检测平台可以将第一业务对象上传的待侵权检测的第一多模态数据进行存储，并将第一多模态数据中的第一多媒体本体的第一全局特征存储在与第一业务对象相关联的对象全局特征数据库。在接收到第一业务对象发送的匹配业务检测请求时，从对象全局特征数据库中获取匹配业务检测请求所指示的第一全局特征，并查找与该第一全局特征相匹配的第二全局特征。也就是说，此时第一业务对象需要发送的请求包括多模态数据上传请求和匹配业务检测请求。或者，当进行相似多媒体推送时，匹配业务检测平台可以获取由第一业务对象(如用户或某个多媒体平台)上传的第一多模态数据，并在得到第一多模态数据中的第一多媒体本体的第一全局特征时，查找与该第一全局特征相匹配的第二全局特征，可选地，第一业务对象在上传第一多模态数据时可以同时携带匹配业务检测请求中的相关参数，比如指定待检测的某个多媒体平台等等。此时可以理解为，第一业务对象需要发送的请求能够同时具备多模态数据上传请求和匹配业务检测请求所指示的信息。

因此，可以理解，匹配业务检测平台关联有平台数据库，该平台数据库可以包括除业务全局特征数据库之外的对象全局特征数据库。对象全局特征数据库可以是基于与第一业务对象(如进行侵权检测的用户)相关联的M(M为正整数)个对象多媒体本体的全局特征所构建得到的。该M个对象多媒体本体是第一业务对象所上传的所有多模态数据中的第一多媒体本体。即一个对象多媒体本体为第一业务对象上传至匹配业务检测平台的一个多模态数据中的多媒体本体。一个对象多媒体本体的全局特征是对与第一业务对象相关联的一个对象多媒体本体中的关键数据帧进行全局特征提取处理后所得到的。也就是说，在接收到任意第一业务对象上传多模态数据时，可以确定所上传的多模态数据中的多媒体本体的全局特征，并将该确定出的全局特征添加到为该第一业务对象所构建的对象全局特征数据库中。后续，可以从该对象全局特征数据库中获取待进行匹配业务的第一全局特征。

可选地，平台数据库还可以包括与对象全局特征数据库相关联的对象模态数据库，该对象模态数据库可以用于存储第一业务对象所上传的第一多模态数据以及第一多模态数据的模态关联信息，比如模态关联信息包括，第一多模态数据中的第一多媒体本体的本体标识(当多媒体本体为视频类多媒体时，本体标识可以为视频标号、数据地址(比如URL(Uniform Resource Locator，统一资源定位器)地址，可以通过该数据地址查找到对应的多媒体本体，也即查找到对应的多媒体本体所在的多模态数据)，可以通过该视频标号或数据地址从对象模态数据库中查找多媒体本体或多模态数据；当多媒体本体为音乐类多媒体时，本体标识可以为音乐标号)、数据地址等等。第一多模态数据的模态关联信息中的部分或全部信息可以是由用户在上传第一多模态数据时一并上传的。

比如，在获取到第一业务对象相关联的匹配业务检测请求时，可以基于匹配业务检测请求，确定第一多媒体本体的本体标识；多模态匹配请求是由第一业务对象通过匹配业务检测界面所发送的；获取对象全局特征数据库中的M个对象多媒体本体的全局特征，在M个对象多媒体本体的全局特征中，查找本地标识所对应的第一多媒体本体的全局特征；将查找到的本地标识所对应的第一多媒体本体的全局特征，确定为第一多模态数据中的第一多媒体本体的第一全局特征。

可以理解，多媒体本体的本体标识和多媒体本体的全局特征关联存储在对象全局特征数据库中。因此，可以确定第一业务对象所指定进行侵权匹配的多媒体本体(第一多媒体本体)的本体标识，以基于该本体标识从对象全局特征数据库中获取第一多模态数据中的第一多媒体本体的第一全局特征。

其中，匹配业务检测界面可以显示第一业务对象所上传的多模态数据的多媒体本体的本体标识，当第一业务对象在从M个多媒体本体中选择进行侵权匹配的多媒体本体后，可以基于该选择的多媒体本体的本体标识生成匹配业务检测请求，该匹配业务检测请求用于指示对所携带的本体标识对应的多媒体本体(第一多媒体本体)进行侵权匹配。

因此，确定第一多媒体本体的本体标识可以是：在检测到匹配业务检测请求中携带有第一多媒体本体的标识时，从匹配业务检测请求中，获取第一多媒体本体的标识；将获取到的第一多媒体本体的标识，作为第一多媒体本体的本体标识。

可选地，匹配业务检测界面可以显示第一业务对象所上传的多模态数据的多媒体本体的数据地址，当第一业务对象在从M个多媒体本体中选择进行侵权匹配的多媒体本体后，可以基于该选择的多媒体本体的数据地址生成匹配业务检测请求，该匹配业务检测请求用于指示对所携带的数据地址对应的多媒体本体(第一多媒体本体)进行侵权匹配。或者，第一业务对象可以在匹配业务检测界面中直接输入进行侵权匹配的多媒体本体的数据地址，以生成对应的匹配业务检测请求。

因此，确定第一多媒体本体的本体标识可以是：在检测到匹配业务检测请求中携带有第一多媒体本体的数据地址时，从匹配业务检测请求中，获取第一多媒体本体的数据地址；在通过第一多媒体本体的数据地址查找到第一多媒体本体时，获取所查找到的第一多媒体本体的标识；将获取到的第一多媒体本体的标识，作为第一多媒体本体的本体标识。也就是说，可以根据第一多媒体本体的数据地址从对象模态数据库中查找待进行侵权匹配的多媒体本体，进而获取到待进行侵权匹配的多媒体本体的本体标识。

其中，对第一多媒体本体中的关键数据帧进行全局特征提取处理，得到第一全局特征的具体过程可以参见下述实施例的相关描述。

可选地，匹配业务检测界面可以用于由第一业务对象上传多模态数据至匹配业务检测平台，以及由第一业务对象配置针对第一多模态数据的侵权匹配任务，由该侵权匹配任务生成匹配业务检测请求。比如，侵权匹配任务中可以指定要进行侵权检测的第一多媒体本体，如匹配业务检测界面可以显示用户所上传的所有多模态数据中的多媒体本体，可由用户触控勾选指定的多媒体本体，作为第一多媒体本体。又如，匹配业务检测界面可以显示数据地址输入区域，由用户在数据地址输入区域录入要进行侵权检测的第一多媒体本体的数据地址。

进一步的，在侵权匹配任务中还可以进行扩展任务的配置，如指定要进行侵权检测的多媒体平台，这样，可以从所指定的多媒体平台对应的业务全局特征数据库中查找与第一全局特征相匹配的第二全局特征。如匹配业务检测界面可以显示可选择的多媒体平台，可由用户触控勾选指定的多媒体平台。可以理解，在未指定多媒体平台时，进行针对默认多媒体平台的侵权检测。

进一步的，在侵权匹配任务中还可以进行扩展任务的配置，如指定待侵权检测的第二多媒体本体的发布时间段，这样，可以从所指定的多媒体平台对应的业务全局特征数据库中查找与第一全局特征和发布时间相匹配的第二全局特征，如此时查找到的第二全局特征对应的第二多媒体本体的发布时间在发布时间段内，即可以确定在发布时间段内发布的第二多媒体本体中是否存在侵权多媒体本体。如匹配业务检测界面可以显示时间指定控件，可由用户基于时间指定控件选取发布时间段。可以理解，在未指定发布时间段时，进行针对默认发布时间段的侵权检测。

可选地，在侵权匹配任务中还可以进行扩展任务的配置，如指定要进行侵权检测的第一多媒体平台的检测周期，比如每隔一个月进行一次侵权检测。这样，计算机设备可以在每到达一个检测周期时，从对象全局特征数据库中获取第一多模态数据，进行第一多媒体本体的侵权检测。如匹配业务检测界面可以显示检测周期配置控件，可由用户基于检测周期配置控件进行周期的配置。

可选地，在侵权匹配任务中还可以进行扩展任务的配置，如指定查找到的第二全局特征的数量，比如在业务全局特征数据库中查找出30个与第一全局特征相匹配的第二全局特征(即第二多模态数据中的第二多媒体本体的全局特征，与第二多模态数据相关的描述参见下述步骤的相关描述)。这样，在业务全局特征数据库中查找与第一全局特征相匹配的第二全局特征时，可查找出指定数量的第二全局特征。如匹配业务检测界面可以显示查找数量配置控件，可由用户基于查找数量配置控件进行数量的配置。可以理解，在未指定查找数量时，按照默认查找数量进行侵权检测。

可以理解，匹配业务检测请求基于侵权匹配任务生成，匹配业务检测请求中可以携带侵权匹配任务中的任务参数，如本体标识(或数据地址)、多媒体平台、发布时间段、检测周期、查找数量等等。匹配业务检测平台可以通过该匹配业务检测请求对指定的第一多媒体本体进行侵权检测。

可选地，匹配业务检测请求用于指示计算机设备(匹配业务检测平台)调用全局特征查找接口在业务全局特征数据库中查找与第一全局特征相匹配的第二全局特征。因此，可以将基于匹配业务检测请求携带的任务参数所确定出的匹配业务参数传入全局特征查找接口，由全局特征查找接口基于匹配业务参数进行相应全局特征查找逻辑。其中，查找与第一全局特征相匹配的第二全局特征的具体方式可以参见下述实施例的相关描述。比如，针对全局特征查找接口的匹配业务参数可以包括：第一多媒体本体的本体标识、多媒体平台、发布时间段、检测周期、查找数量等等。例如，匹配业务参数如下表所示：

接口	本体标识	多媒体平台	查找数量
				全局特征查找接口	01	a01平台	30

表1

可以理解，可以采集多媒体本体在显示输出时围绕该多媒体本体所显示的周边信息。例如，如图4所示，图4是本申请实施例提供的一种匹配业务检测界面的示意图；其中，多媒体本体为视频类多媒体，当一个视频在界面上显示时除了显示该视频本体以外，还会显示该视频的关联信息，比如标题文本(如“ABC风景图”)、对象信息(即发布者信息，如头像、名称，如“风景频道”)、描述文本(如“地区A游玩风景”)、封面等等。因此第一业务对象在上传第一多媒体本体时也可以上传这些信息。如第一业务对象可以通过匹配业务检测界面40上传第一多模态数据，如匹配业务检测界面中可以包括以下一种或多种数据录入区域：本体录入区域(如多媒体本体上传区域41和/或数据地址录入区域42)、以及关联信息录入区域(如标题文本录入区域43、描述文本录入区域44、业务对象的对象信息录入区域45、封面录入区域46)等等。可以通过多媒体本体上传区域上传多媒体本体，通过标题文本录入区域录入多媒体本体的标题文本，通过描述文本录入区域录入多媒体本体的描述文本，通过对象信息录入区域录入多媒体本体对应的业务对象的对象信息(如名称、签名、头像等)，通过数据地址录入区域录入多媒体本体的数据地址(由匹配业务检测平台基于该数据地址获取对应的多模态数据)，通过封面录入区域上传多媒体本体的数据封面等等；可以理解，可以通过多媒体本体上传区域所上传的多媒体本体，和/或数据地址录入区域所录入的数据地址直接或间接得到多媒体本体，进而可以得到多媒体本体的播放信息，如视频长度，并可以将该播放信息和关联信息录入区域所录入的信息作为第一多媒体本体的第一多媒体关联信息。

又如，如图5所示，图5是本申请实施例提供的一种匹配业务检测界面的示意图；其中，第一业务对象可以通过匹配业务检测界面50配置侵权匹配任务，该匹配业务检测界面可以包括第一配置区域51(本体选择区域)和第二配置区域52(任务扩展区域)；本体选择区域可以包括多媒体本体勾选区域和/或数据地址输入区域，任务扩展区域可用于进行一些扩展任务的配置，可以包括一个或多个配置区域，如多媒体平台指定区域、发布时间段配置区域、检测周期配置区域、查找数量配置区域等。

其中，该多媒体本体勾选区域53中可以显示第一业务对象所上传的所有多媒体本体，如显示多媒体本体的相关本体信息(如封面、本体标识(如01、02、03)、数据地址(如01.cn、02.cn、03.cn)、侵权匹配状态(如未匹配(表示01对应的多媒体本体未进行侵权匹配)、已匹配(表示02对应的多媒体本体已进行侵权匹配)、已匹配(表示03对应的多媒体本体已进行侵权匹配)))，以及显示每个多媒体本体所关联的本体勾选控件，可以通过触控该本体勾选控件进行一个或多个第一多媒体本体的勾选(如多媒体本体03)。该数据地址输入区域54可以直接输入一个或多个第一多媒体本体的数据地址。

其中，多媒体平台指定区域55可以显示多个已接入的多媒体平台(如平台1、平台2、平台3)的平台勾选控件，可以通过触控该平台勾选控件进行一个或多个进行匹配业务的多媒体平台的勾选(如平台1)。发布时间段配置区域56可以显示时间指定控件，可以通过触控时间指定控件进行发布时间段的配置，如3323年1月-3323年3月。检测周期配置区域57可以显示检测周期配置控件，可以通过检测周期配置控件进行检测周期的配置，如每1月执行一次。查找数量配置区域58可以显示查找数量配置控件，可以通过查找数量配置控件进行查找数量的配置，如30条。

例如，计算机设备将接入的多媒体平台A所提供的多模态数据作为第二多模态数据A，基于第二多模态数据A中的第二多媒体本体A的第二全局特征A构建多媒体平台A关联的业务全局特征数据库A；将接入的多媒体平台B所提供的多模态数据作为第二多模态数据B，基于第二多模态数据B中的第二多媒体本体B的第二全局特征B构建多媒体平台B关联的业务全局特征数据库A；在获取到第一多模态数据中的第一多媒体本体的第一全局特征，在业务全局特征数据库A中查找与第一全局特征相匹配的第二全局特征A，并在业务全局特征数据库B中查找与第一全局特征相匹配的第二全局特征B。

可以理解，第一业务对象在指定待检测的第一多媒体本体时，可以指定一个或多个第一多媒体本体，对每个第一多媒体本体进行多媒体匹配的过程和原理相同，此处以一个第一多媒体本体为例对本申请技术方案的多媒体匹配过程进行描述。

S102、从业务全局特征数据库中获取第二全局特征，对第一全局特征与第二全局特征进行全局特征匹配处理，得到第一全局特征与第二全局特征之间的全局特征匹配度，通过第一全局特征与第二全局特征之间的全局特征匹配度，从第二全局特征中查找与第一全局特征相匹配的第二全局特征。

其中，业务全局特征数据库是由第二多模态数据中的第二多媒体本体的第二全局特征所确定的。第二多模态数据包括与第二多媒体本体相关联的第二关联多媒体信息。

其中，第二多模态数据包括第二多媒体本体和与第二多媒体本体相关联的第二关联多媒体信息。第二多媒体本体和第二关联多媒体信息的具体描述同第一多媒体本体和第一关联多媒体信息的具体描述。比如第二多媒体本体可以是视频类多媒体，也可以是音频类多媒体。在此不做限定。第二关联多媒体信息是用于说明和介绍第二多媒体本体的周边信息。比如，第二多媒体本体为视频类多媒体，第二关联多媒体信息可以是第二多媒体本体的标题文本、描述文本(比如视频简介)、播放信息(如视频长度，即视频时长)、发布者文本信息(即第二业务对象的第二对象文本信息，如名称、签名或简介等)、发布者图像信息(即第二业务对象的第二对象图像信息，如头像)、视频封面(比如可以是图像，如静图或动图，或者还可以是视频片段，如从第二多媒体本体提取出的多个视频帧所构成的片段)，等等。又如，第二多媒体本体为音频类多媒体，第二关联多媒体信息可以是第二多媒体本体的标题文本、描述文本(比如音频简介)、播放信息(如音频长度，即音频时长)、发布者文本信息(即第二业务对象的第二对象文本信息，如名称、签名或简介等)、发布者图像信息(如头像即第二业务对象的第二对象图像信息，如头像)、音频封面(比如可以是图像，如静图或动图)，等等。在此对第二关联多媒体信息所包含的信息不做限定，可以包括文字类信息、图像类信息，或视频类信息。

可以理解，本申请技术方案可以用于对互联网中的多媒体平台的匹配业务(侵权匹配业务)，因此第二多模态数据可以来自多媒体平台(比如一些用于发布视频的社交互动平台等)。匹配业务检测平台可以向这些多媒体平台申请数据授权，在数据授权后接入该多媒体平台，以获取多媒体平台上发布的多模态数据，比如每天获取一次该多媒体平台上发布的多模态数据，将该获取到的多模态数据更新到业务模态数据库，且将获取到的多模态数据中的多媒体数据的全局特征更新到业务全局特征数据库。第二多模态数据的模态关联信息中的部分或全部信息可以是在从多媒体平台上获取第二多模态数据时一并获取的。

可以理解，业务全局特征数据库为匹配业务检测平台所对应的平台数据库中的数据库。业务全局特征数据库还可以包括业务模态数据库，可用于存储第二多模态数据以及第二多模态数据的模态关联信息，比如模态关联信息包括，第二多模态数据中的第二多媒体本体的本体标识、本体地址、发布时间等等。

因此，可以在匹配业务检测平台接入已进行数据授权的多媒体平台时，将多媒体平台所提供的多模态数据，作为第二多模态数据；从第二多模态数据包括的第二多媒体本体中，获取第二多媒体本体中的关键数据帧；对第二多媒体本体中的关键数据帧进行全局特征提取处理，得到第二多媒体本体的第二全局特征；基于第二多媒体本体的第二全局特征，构建得到业务全局特征数据库。进而可以在该业务全局特征数据库中进行第一全局特征的匹配。

可以理解，匹配业务检测平台接入的多媒体平台可以有一个或多个。可以针对每个多媒体平台所提供的多模态数据构建一个业务全局特征数据库。即一个业务全局特征数据库对应一个多媒体平台。此外，第二多媒体本体的本体标识可以包括匹配业务检测平台为其生成的标识，也可以包括第二多媒体本体在所属的多媒体平台中的标识。

可选地，多媒体平台可以包括第一多媒体平台和第二多媒体平台，第一多媒体平台可以是与匹配业务检测平台相关联的多媒体平台(如可称为站内多媒体平台)，第二多媒体平台可以是除第一多媒体平台以外的多媒体平台(如可称为站外多媒体平台)。例如，开发者为多媒体平台A配置了匹配业务检测平台，这样匹配业务检测平台直接就具备从多媒体平台A获取多模态数据的权限，也就是说，可以接入该多媒体平台A以实现针对站内多媒体平台的侵权匹配业务。此外，匹配业务检测平台还可以向其他多媒体平台申请获取数据授权，以具备从其他多媒体平台获取多模态数据的权限，从而可以接入其他多媒体平台以实现针对站外多媒体平台的侵权匹配业务。

其中，对第二多媒体本体进行全局特征提取得到第二全局特征的具体方式与对第一多媒体本体进行全局特征提取得到第一全局特征的具体方式相同。

可选地，在构建业务全局特征数据库后，可以自动实现对多媒体平台的侵权匹配，比如从业务全局特征数据库中随机选取一个第二全局特征作为第一全局特征，即选取的第二全局特征对应的第二多媒体本体为第一多媒体本体，并可以在选取的第二全局特征所在的业务全局特征数据库(或所有多媒体平台的业务全局特征数据库)中进行全局特征的匹配，以实现侵权检测。比如，此时可以基于选取的第二全局特征对应的第二多媒体本体的发布时间(目标发布时间)进行侵权检测，如在选取的第二全局特征所在的业务全局特征数据库(或所有多媒体平台的业务全局特征数据库)中查找，发布时间在目标发布时间之后，且与选取的第二全局特征相匹配的第二全局特征，以基于查找到的第二全局特征进行侵权匹配。

可以理解，此处的第二多媒体本体是指所有待用于匹配的多媒体本体。即从所接入的多媒体平台获取到的所有多模态数据中的多媒体本体。一个业务全局特征数据库是由一个多媒体平台所提供的第二多模态数据中的第二多媒体本体的第二全局特征所确定的。

其中，全局特征匹配度可以为第一全局特征与第二全局特征之间的特征相似度(可通过第一全局特征和第二全局特征之间的特征距离确定)。其中，从第二全局特征中查找与第一全局特征相匹配的第二全局特征的具体方式可以参见下述实施例的相关描述。

S103、将查找到的第二全局特征所对应的第二多媒体本体作为待处理多媒体本体，基于第一多媒体本体和待处理多媒体本体，构建得到多媒体数据对，将第一全局特征与查找到的第二全局特征之间的全局特征匹配度作为多媒体数据对的第一类型匹配度。

其中，一个多媒体数据对包括一个第一多媒体本体和一个待处理多媒体本体。当确定出的待处理多媒体本体有多个时，多媒体数据对也有多个。每个多媒体数据对的处理过程相同，此处以一个多媒体数据对的处理过程为例对本申请技术方案进行描述。可以理解，此时的待处理多媒体本体为疑似与第一多媒体本体相匹配的多媒体本体。

其中，全局特征匹配度即为第一全局特征与查找到的第二全局特征之间的特征相似度。可以将由第一全局特征和第二全局特征所确定的全局特征匹配度作为多媒体数据对的第一类型匹配度。

S104、将第二关联多媒体信息中与待处理多媒体本体相关联的第二关联多媒体信息，确定为待处理多媒体信息，对第一关联多媒体信息和待处理多媒体信息进行信息匹配处理，得到第一关联多媒体信息和待处理多媒体信息之间的信息匹配度，将信息匹配度作为多媒体数据对的第二类型匹配度。

其中，可以从(所有)第二关联多媒体信息中获取与待处理多媒体本体相关联的第二关联多媒体信息，以作为待处理多媒体信息。

其中，若第一关联多媒体信息包括第一多媒体本体的第一标题文本、待处理多媒体信息包括待处理多媒体本体的第二标题文本，则对第一关联多媒体信息和待处理多媒体信息进行信息匹配处理，得到第一关联多媒体信息和待处理多媒体信息之间的信息匹配度可以是：对第一标题文本进行无效字符过滤处理，得到第一标题文本对应的第一目标标题文本，并对第二标题文本进行无效字符过滤处理，得到第二标题文本对应的第二目标标题文本；获取第一目标标题文本和第二目标标题文本之间的标题文本编辑距离，并对标题文本编辑距离进行编辑距离处理，得到第一目标标题文本和第二目标标题文本之间的标题文本匹配度；将标题文本匹配度，确定为第一关联多媒体信息和待处理多媒体信息之间的信息匹配度。

也就是说，可以去除第一标题文本(第二标题文本)中的无效字符(如指定的特殊字符等)，得到去除无效字符后的第一标题文本(第二标题文本)，作为第一目标标题文本(第二目标标题文本)。

其中，对标题文本编辑距离x1进行编辑距离处理，得到标题文本匹配度X1可以是：

X1＝1-x1’

x1’＝x1/y1

其中，x1’为归一化编辑距离；y1为第一目标标题文本的标题长度和第二目标标题文本的标题长度中的最大标题长度。因此可以通过编辑距离确定两个标题文本之间的标题文本匹配度。

其中，若第一关联多媒体信息包括第一多媒体本体的第一标题文本、待处理多媒体信息包括待处理多媒体本体的第二标题文本，则对第一关联多媒体信息和待处理多媒体信息进行信息匹配处理，得到第一关联多媒体信息和待处理多媒体信息之间的信息匹配度可以是：对第一标题文本进行分词处理，得到第一文本分词，并对第二标题文本进行分词处理，得到第二文本分词；获取标题文本库；标题文本库包括多个标题文本；对第一文本分词在第一标题文本中的出现次数和第一标题文本所包含的文本分词数量进行第一分词数据处理，得到第一文本分词的词频，对标题文本库所包含的标题文本的数量和多个标题文本中包含第一文本分词的标题文本的数量进行第二分词数据处理，得到第一文本分词的逆文档频率，对第一文本分词的词频和第一文本分词的逆文档频率进行标题特异度处理，得到第一标题文本的标题特异度；对第二文本分词在第二标题文本中的出现次数和第二标题文本所包含的文本分词数量进行第一分词数据处理，得到第二文本分词的词频，对标题文本库所包含的标题文本的数量和多个标题文本中包含第二文本分词的标题文本的数量进行第二分词数据处理，得到第二文本分词的逆文档频率，对第二文本分词的词频和第二文本分词的逆文档频率进行标题特异度处理，得到第二标题文本的标题特异度；将由第一标题文本的标题特异度和第二标题文本的标题特异度所确定的目标标题特异度，确定为第一关联多媒体信息和待处理多媒体信息之间的信息匹配度。

也就是说，可以确定第一标题文本的每个第一文本分词的词频(TF，TermFrequency)和逆文档频率(IDF，Inverse Document Frequency)，通过标题特异度处理得到分词特异度可以是，将第一文本分词的词频和逆文档频率之间的乘积作为第一文本分词的分词特异度，将第一标题文本的所有第一文本分词的分词特异度的平均分词特异度作为第一标题文本的标题特异度。第二标题文本的标题特异度的确定方式同理。可以将第一标题文本的标题特异度和第二标题文本的标题特异度之间的平均标题特异度作为目标标题特异度。

可以理解，标题特异度(标题特异性)指的是，该标题文本是否具有较为特异的分词。可以理解，如果两个标题文本中的分词都较为不特异，即标题文本是比较普遍的日常用句，那么可能存在只是恰好标题相似而不是真的本体内容存在侵权。反之，如果两个标题文本都较为特异，那么对应的两个多媒体本体极有可能内容相似或相关，即存在侵权的可能性更高。其中，标题特异度可以通过分词特异度确定。分词特异度可以由分词的TF-IDF确定。

因此，一个第一文本分词A1的分词特异度a1确定方式为：

a1＝词频×逆文档频率

其中，通过第一分词数据处理得到词频，可以是：

其中，通过第二分词数据处理得到逆文档频率，可以是：

此外，目标标题特异度X2的确定方式为：

其中，F表示第一文本分词的数量，a_f表示第f个第一文本分词的分词特异度；D表示第二文本分词的数量，b_d表示第d个第二文本分词的分词特异度。

可以理解，可以预先采集所接入的多媒体平台上发布的多媒体本体的标题文本，以通过采集到的标题文本构建标题文本库。可选地，在对第一标题文本和第二标题文本进行文本分词时，可以先对第一标题文本和第二标题文本进行无效字符过滤处理，通过处理后的第一标题文本和处理后的第二标题文本确定标题特异度。此时，标题文本库中的标题文本也是经过无效字符过滤处理后的标题文本。

其中，若第一关联多媒体信息包括第一多媒体本体的第一描述文本、待处理多媒体信息包括待处理多媒体本体的第二描述文本，则对第一关联多媒体信息和待处理多媒体信息进行信息匹配处理，得到第一关联多媒体信息和待处理多媒体信息之间的信息匹配度可以是：对第一描述文本进行无效字符过滤处理，得到第一描述文本对应的第一目标描述文本，并对第二描述文本进行无效字符过滤处理，得到第二描述文本对应的第二目标描述文本；获取第一目标描述文本和第二目标描述文本之间的描述文本编辑距离，并基于描述文本编辑距离确定第一目标描述文本和第二目标描述文本之间的描述文本匹配度；将描述文本匹配度，确定为第一关联多媒体信息和待处理多媒体信息之间的信息匹配度。

也就是说，可以去除第一描述文本(第二描述文本)中的无效字符(如指定的特殊字符等)，得到去除无效字符后的第一描述文本(第二描述文本)，作为第一目标描述文本(第二目标描述文本)。

其中，对描述文本编辑距离x3进行编辑距离处理，得到描述文本匹配度X3可以是：

X3＝1-x3’；

x3’＝x3/y3；

其中，x3’为归一化编辑距离；y3为第一目标描述文本的描述长度和第二目标描述文本的描述长度中的最大描述长度。因此可以通过编辑距离确定两个描述文本之间的描述文本匹配度。

其中，若第一多媒体本体和待处理多媒体本体均包括视频类多媒体，且第一关联多媒体信息包括视频类多媒体所指示的第一多媒体本体的视频长度、待处理多媒体信息包括视频类多媒体所指示的待处理多媒体本体的视频长度，则对第一关联多媒体信息和待处理多媒体信息进行信息匹配处理，得到第一关联多媒体信息和待处理多媒体信息之间的信息匹配度可以是：从第一多媒体本体的视频长度和待处理多媒体本体的视频长度中确定最大视频长度和最小视频长度；将最小视频长度和最大视频长度之间的比值，确定为第一多媒体本体和待处理多媒体本体之间的视频长度匹配度；将视频长度匹配度，确定为第一关联多媒体信息和待处理多媒体信息之间的信息匹配度。

因此，确定视频长度匹配度X4可以是：

X4＝min(t1，t2)/max(t1，t2)

其中，t1为第一多媒体本体的视频长度，t2为待处理多媒体本体的视频长度。比如，视频长度以秒为单位。

同理，若第一多媒体本体和待处理多媒体本体均为音频类多媒体，且第一关联多媒体信息包括音频类多媒体所指示的第一多媒体本体的音频长度、待处理多媒体信息包括音频类多媒体所指示的待处理多媒体本体的音频长度，则对第一关联多媒体信息和待处理多媒体信息进行信息匹配处理，得到第一关联多媒体信息和待处理多媒体信息之间的信息匹配度可以是：从第一多媒体本体的音频长度和待处理多媒体本体的音频长度中确定最大音频长度和最小音频长度；将最小音频长度和最大音频长度之间的比值，确定为第一多媒体本体和待处理多媒体本体之间的音频长度匹配度；将音频长度匹配度，确定为第一关联多媒体信息和待处理多媒体信息之间的信息匹配度。

其中，若第一关联多媒体信息包括第一多媒体本体对应的第一业务对象的第一对象文本信息、待处理多媒体信息包括待处理多媒体本体对应的第二业务对象的第二对象文本信息，则对第一关联多媒体信息和待处理多媒体信息进行信息匹配处理，得到第一关联多媒体信息和待处理多媒体信息之间的信息匹配度可以是：对第一对象文本信息所包含的字符进行字符去重处理，得到去重后的第一对象文本信息，并将去重后的第一对象文本信息所包含的字符作为第一字符列表；对第二对象文本信息所包含的字符进行字符去重处理，得到去重后的第二对象文本信息，将去重后的第二对象文本信息所包含的字符作为第二字符列表；获取第一字符列表和第二字符列表之间的字符交集列表，获取第一字符列表和第二字符列表之间的字符并集列表；将字符交集列表所包含的字符的数量与字符并集列表所包含的字符的数量之间的比值，确定为第一多媒体本体和待处理多媒体本体之间的对象文本信息匹配度；将对象文本信息匹配度，确定为第一关联多媒体信息和待处理多媒体信息之间的信息匹配度。

也就是说，在对第一对象文本信息和第二对象文本信息进行字符去重处理后，可以确定处理后的第一对象文本信息和处理后的第二对象文本信息之间的交集文本信息(字符交集列表)和并集文本信息(字符并集列表)，可以将交集文本信息的字符数量和并集文本信息的字符数量的比值确定为对象文本信息匹配度。可以理解，对象文本信息匹配度越大，表示第一对象文本信息和第二对象文本信息越相似。即确定对象文本信息匹配度X5可以是：

Intersection＝a1与a2的交集

Union＝a1与a2的并集

X5＝Intersection/Union

其中，a1为第一字符列表，a2为第二字符列表；Intersection为字符交集列表，Union为字符并集列表。

其中，若第一关联多媒体信息包括第一多媒体本体对应的第一业务对象的第一对象图像信息、待处理多媒体信息包括待处理多媒体本体对应的第二业务对象的第二对象图像信息，则对第一关联多媒体信息和待处理多媒体信息进行信息匹配处理，得到第一关联多媒体信息和待处理多媒体信息之间的信息匹配度可以是：提取第一对象图像信息的第一图像特征，提取第二对象图像信息的第二图像特征，将第一图像特征和第二图像特征之间的特征相似度确定为第一多媒体本体和待处理多媒体本体之间的对象图像信息匹配度(X6)，并将对象图像信息匹配度确定为第一关联多媒体信息和待处理多媒体信息之间的信息匹配度。

其中，若第一多媒体本体和待处理多媒体本体均包括视频类多媒体，且第一关联多媒体信息包括视频类多媒体所指示的第一多媒体本体的第一视频封面、待处理多媒体信息包括视频类多媒体所指示的待处理多媒体本体的第二视频封面，则对第一关联多媒体信息和待处理多媒体信息进行信息匹配处理，得到第一关联多媒体信息和待处理多媒体信息之间的信息匹配度可以是：提取第一视频封面的第一封面特征，以及提取第二视频封面的第二封面特征，将第一封面特征和第二封面特征之间的特征相似度确定为第一多媒体本体和待处理多媒体本体之间的封面匹配度(X7)，并将封面匹配度确定为第一关联多媒体信息和待处理多媒体信息之间的信息匹配度。

同理，若第一多媒体本体和待处理多媒体本体均为音频类多媒体，且第一关联多媒体信息包括封面类多媒体所指示的第一多媒体本体的第一音频封面、待处理多媒体信息包括封面类多媒体所指示的待处理多媒体本体的第二音频封面，则对第一关联多媒体信息和待处理多媒体信息进行信息匹配处理，得到第一关联多媒体信息和待处理多媒体信息之间的信息匹配度可以是：提取第一音频封面的第一封面特征，以及提取第二音频封面的第二封面特征，将第一封面特征和第二封面特征之间的特征相似度确定为第一多媒体本体和待处理多媒体本体之间的封面匹配度(X7)，并将封面匹配度确定为第一关联多媒体信息和待处理多媒体信息之间的信息匹配度。

可以理解，信息匹配度即为第一关联多媒体信息和待处理多媒体信息之间的多种维度的信息匹配度(如上述X1-X7中的任一种或多种匹配度)，可以根据具体场景配置。可以将由第一关联多媒体信息和待处理多媒体信息所确定的信息匹配度作为多媒体数据对的第二类型匹配度。

S105、基于第一类型匹配度和第二类型匹配度，对多媒体数据对进行数据对匹配，得到与多媒体数据对相关联的数据对匹配度，基于数据对匹配度，对多媒体数据对进行数据对筛选，筛选得到与第一多媒体本体相匹配的待处理多媒体本体，将筛选出的待处理多媒体本体确定为第一多媒体本体的第一匹配多媒体本体。

其中，确定数据对匹配度的方式可以是：对第一类型匹配度和第二类型匹配度进行匹配度整合，得到多媒体数据对中的第一多媒体本体与待处理多媒体本体的匹配度整合特征，对匹配度整合特征进行整合特征处理，得到与多媒体数据对相关联的数据对匹配度。

其中，第二类型匹配度包括多种维度的信息匹配度，可以确定由第一类型匹配度和第二类型匹配度所构成的匹配度序列，并基于该匹配度序列确定匹配度整合特征。比如，将匹配度序列作为匹配度整合特征。或者，将匹配度序列进行归一化后的序列作为匹配度整合特征。在此不做限定。

例如，第一多媒体本体和待处理多媒体本体均包括视频类多媒体；第二类型匹配度包括：标题文本匹配度、标题特异度、描述文本匹配度、与视频类多媒体相关联的视频长度匹配度、对象文本信息匹配度，因此确定匹配度整合特征可以是：确定第一类型匹配度、标题文本匹配度、标题特异度、描述文本匹配度、视频长度匹配度、对象文本信息匹配度所构成的匹配度序列；基于匹配度序列，确定第一多媒体本体与待处理多媒体本体的匹配度整合特征。

其中，可以通过训练好的模型基于匹配度整合特征进行预测，得到与多媒体数据对相关联的数据对匹配度。例如，可以是，获取与多媒体数据对相关联的多媒体处理模型；将匹配度整合特征输入多媒体处理模型，由多媒体处理模型基于匹配度整合特征进行预测，得到与多媒体数据对相关联的数据对匹配度。

其中，多媒体处理模型可以是任何结构的神经网络模型，比如可以是XGBoost模型(极端梯度提升树模型)。该多媒体处理模型包括至少一个用于作为分类器的决策树。在基于匹配度整合特征进行预测时，可以是，由多媒体处理模型对匹配度整合特征进行特征划分，预测得到在至少一个决策树上所划分出的叶子节点，这样可以基于在至少一个决策树上所划分出的叶子节点对应的节点参数，确定与多媒体数据对相关联的数据对匹配度。比如将所划分出的叶子节点对应的节点参数的参数值之和(或者平均参数值)作为数据对匹配度。

其中，当多媒体处理模型是极端梯度提升树模型时，获取多媒体处理模型可以是：获取待训练的初始处理模型，并获取用于训练初始处理模型的训练样本数据对；初始处理模型包括待训练的至少一个决策树；训练样本数据对包括第一样本多媒体本体、第二样本多媒体本体；获取第一样本多媒体本体的第一样本全局特征以及第二样本多媒体本体的第二样本全局特征，并将第一样本全局特征和第二样本全局特征之间的样本全局特征匹配度，确定为训练样本数据对的第一样本类型匹配度；获取第一样本多媒体本体的第一样本多媒体信息以及第二样本多媒体本体的第二样本多媒体信息，将第一样本多媒体信息和第二样本多媒体信息之间的样本信息匹配度，确定为训练样本数据对的第二样本类型匹配度；基于第一样本类型匹配度和第二样本类型匹配度，确定训练样本数据对中的第一样本多媒体本体和第二样本多媒体本体的样本匹配度整合特征，并将样本匹配度整合特征输入初始处理模型，由初始处理模型对匹配度整合特征进行特征划分，预测得到在待训练的至少一个决策树上所划分出的叶子节点；基于在待训练的至少一个决策树上所划分出的叶子节点对应的节点参数，确定与训练样本数据对相关联的样本数据对匹配度；基于样本数据对匹配度训练初始处理模型，得到训练后的目标处理模型，并将目标处理模型确定为与多媒体数据对相关联的多媒体处理模型；目标处理模型包括训练后的至少一个决策树。

其中，训练样本数据对被标注有数据对匹配度标签，可以通过样本数据对匹配度和数据对匹配度标签确定针对初始处理模型的预测偏差，并利用该预测偏差训练初始处理模型，直至模型收敛。

其中，可以是从此前采集到的历史多媒体数据对中随机抽取若干训练样本数据对，并人工对其标注数据对匹配度标签，其中标注数据对匹配度标签的方式是，如果训练样本数据对中的两个多媒体本体相匹配，标记为1，如果训练样本数据对中的两个多媒体本体不匹配，标记为0。此外，还可以将若干训练样本数据对划分为训练集、验证集、测试集。通过以上训练集、验证集、测试集训练该多媒体处理模型。训练过程可以验证集效果或迭代次数作为训练终止条件。

例如，如图6所示，图6是本申请实施例提供的一种数据对匹配度的确定场景示意图；其中，匹配业务检测平台接入多媒体平台A，基于多媒体平台A所提供的多模态数据A(60)中的第二多媒体本体A的第二全局特征A(61)构建多媒体平台A关联的业务全局特征数据库A(62)、匹配业务检测平台接入多媒体平台B，基于多媒体平台B所提供的多模态数据B(63)中的第二多媒体本体B的第二全局特征B(64)构建多媒体平台B关联的业务全局特征数据库B(65)；匹配业务检测平台向第一业务对象的对象终端提供匹配业务检测界面，第一业务对象通过匹配业务检测界面上传多模态数据，匹配业务检测平台基于上传的多模态数据66的多媒体本体的全局特征67构建第一业务对象的对象全局特征数据库68；当匹配业务检测平台获取到第一业务对象通过匹配业务检测界面发送的匹配业务检测请求69时，基于匹配业务检测请求确定待匹配的第一多媒体本体的本体标识610，并在对象全局特征数据库中查找本体标识所对应的第一多媒体本体的全局特征，以得到第一多媒体本体的第一全局特征611；构建可疑数据对，具体可以是在业务全局特征数据库A中查找与第一全局特征相匹配的第二全局特征A，并作为待处理多媒体本体A(612)，以构建得到多媒体数据对A(613)，可以理解，一个待处理多媒体本体A可以构建得到一个多媒体数据对A，其包括第一多媒体本体和待处理多媒体本体A；在业务全局特征数据库B中查找与第一全局特征相匹配的第二全局特征B，并作为待处理多媒体本体B(614)，以构建得到多媒体数据对B(615)，可以理解，一个待处理多媒体本体B可以构建得到一个多媒体数据对B，其包括第一多媒体本体和待处理多媒体本体B)；可以理解，此时构建得到的多媒体数据对A(可疑数据对A)具体可以包括第一多媒体本体的本体标识、待处理多媒体本体A的本体标识、第一多媒体本体的第一全局特征和待处理多媒体本体A的第二全局特征之间的全局特征匹配度A，将全局特征匹配度A作为多媒体数据对A的第一类型匹配度A(616)；此时构建得到的多媒体数据对B(可疑数据对B)具体可以第一多媒体本体的本体标识、待处理多媒体本体B的本体标识、第一多媒体本体的第一全局特征和待处理多媒体本体B的第二全局特征之间的全局特征匹配度B，将全局特征匹配度B作为多媒体数据对B的第一类型匹配度B(617)；构建用于进行侵权判断的匹配度整合特征，具体可以是，确定多媒体数据对A中的第一多媒体本体的第一关联多媒体信息和待处理多媒体本体A的第二关联多媒体信息A之间的信息匹配度A，以作为多媒体数据对A的第二类型匹配度A(618)；确定多媒体数据对B中的第一多媒体本体的第一关联多媒体信息和待处理多媒体本体B的第二关联多媒体信息B之间的信息匹配度B，以作为多媒体数据对B的第二类型匹配度B(619)；可以通过第一类型匹配度A和第二类型匹配度A确定匹配度整合特征A(620)，通过第一类型匹配度B和第二类型匹配度B确定匹配度整合特征B(621)；可以通过基于全局特征和关联多媒体信息的多媒体处理模型进行匹配检测判断(即侵权研判，用于确定待处理多媒体本体是否对第一多媒体本体存在侵权行为)，具体可以是将匹配度整合特征A输入多媒体处理模型，得到多媒体数据对A的数据对匹配度A(622)，通过数据对匹配度A进行多媒体数据A的匹配检测；将匹配度整合特征B输入的多媒体处理模型，得到多媒体数据对B的数据对匹配度B(623)，通过数据对匹配度B进行多媒体数据B的相似匹配检测(侵权判断)。

可以理解，当第一多媒体本体包括视频类多媒体和音频类多媒体、待处理多媒体本体包括视频类多媒体和音频类多媒体时，可以确定第一多媒体本体和待处理多媒体本体在视频类多媒体下的数据对匹配度，以及在音频类多媒体下的数据对匹配度，将前述两种数据对匹配度的均值作为第一多媒体本体和待处理多媒体本体之间的数据对匹配度。

其中，确定第一匹配多媒体本体可以是：在数据对匹配度达到第一数据对匹配度阈值时，将数据对匹配度达到第一数据对匹配度阈值的多媒体数据对，确定为从多媒体数据对中筛选出的第一目标多媒体数据对，将所筛选出的第一目标多媒体数据对中的待处理多媒体本体，确定为从多媒体数据对中所筛选出的与第一多媒体本体相匹配的待处理多媒体本体时，将筛选出的与第一多媒体本体相匹配的待处理多媒体本体，确定为第一多媒体本体的第一匹配多媒体本体。

其中，可以理解，当数据对匹配度达到第一数据对匹配度阈值时，可以视为数据对匹配度达到第一数据对匹配度阈值的多媒体数据对中的第一多媒体本体和待处理多媒体本体极大可能相似，因此可以将该多媒体数据对确定为第一目标多媒体数据对，并将第一目标多媒体数据对中的待处理多媒体本体，确定为第一多媒体本体的第一匹配多媒体本体。可以理解，第一目标多媒体数据对表示是基于第一类型匹配度和第二类型匹配度所确定的匹配多媒体数据对，第一匹配多媒体本体表示是基于第一类型匹配度和第二类型匹配度所确定的与第一多媒体本体相似的多媒体本体。此时，可以将第一匹配多媒体本体视为是第一多媒体本体的侵权本体。

可以理解，与数据对匹配度相关联的数据对匹配度阈值包括第一数据对匹配度阈值和第二数据对匹配度阈值；第二数据对匹配度阈值小于第一数据对匹配度阈值；因此，若数据对匹配度未达到第二数据对匹配度阈值，则确定多媒体数据对中的第一多媒体本体与待处理多媒体本体之间不匹配。

也就是说，当多媒体数据对的数据对匹配度过高或者过低时，都可以直接确定该多媒体数据对中的待处理多媒体本体是否与第一多媒体本体匹配。当多媒体数据对的数据对匹配度处于第一数据对匹配度阈值和第二数据对匹配度阈值之间时，视为此时无法判断第一多媒体本体和待处理多媒体本体是否匹配，则可以通过第一多媒体本体的第一局部特征和待处理多媒体本体的第一局部特征进行匹配判断，其具体过程可以参见下述实施例的相关描述。

例如，第一数据对匹配度阈值为0.9，第二数据对匹配度阈值为0.2，当多媒体数据对的数据对匹配度大于或等于90％时，视为数据对匹配度达到第一数据对匹配度阈值，则此时多媒体数据对为第一目标多媒体数据对。当多媒体数据对的数据对匹配度小于0.2时，视为数据对匹配度未达到第二数据对匹配度阈值，则此时多媒体数据对中的待处理多媒体本体与第一多媒体本体不匹配。当多媒体数据对的数据对匹配度(比如0.5)处于0.2～0.9之间时，视为无法判断多媒体数据对中的待处理多媒体本体与第一多媒体本体是否匹配。

本申请实施例中，可以在获取到第一多模态数据时，对第一多模态数据中的第一多媒体本体(比如视频)进行全局特征提取，得到第一多媒体本体的第一全局特征，并从业务全局特征数据库中获取第二全局特征，对第一全局特征与第二全局特征进行全局特征匹配处理，得到第一全局特征与第二全局特征之间的全局特征匹配度，通过第一全局特征与第二全局特征之间的全局特征匹配度，从第二全局特征中查找与第一全局特征相匹配的第二全局特征，该业务全局特征数据库是通过第二多模态数据(比如可以是多媒体平台上发布的视频)中的第二多媒体本体的第二全局特征所构建的，该第一多模态数据还可以包括与第一多媒体本体相关联的第一关联多媒体信息(比如视频标题、视频描述、视频发布者等等)，该第二多模态数据还可以包括与第二多媒体本体相关联的第二关联多媒体信息；该相匹配的第二全局特征对应的第二多媒体本体可视为是疑似与第一多媒体本体相似的第二多媒体本体，进而可以从该疑似与第一多媒体本体相似的第二多媒体本体中确定第一多媒体本体的匹配多媒体本体，这样可以初步筛选出用于精准匹配的第二多媒体本体，以减少数据匹配量；同时，通过表征多媒体本体的本身内容的全局特征进行匹配筛选，可以将本身内容强相关的两个多媒体本体匹配出来，减少遗漏情况，以提高后续的相似匹配准确度；可以将查找到的第二全局特征所对应的第二多媒体本体作为待处理多媒体本体，以和第一多媒体本体一并构建得到多媒体数据对；可以通过多媒体数据对中的两个多媒体本体的全局特征之间的全局特征匹配度和多媒体关联信息之间的信息匹配度综合确定出多媒体数据对的数据对匹配度，以基于该数据匹配度得到从多媒体数据对中筛选出与第一多媒体本体相匹配的待处理多媒体本体，以作为第一多媒体本体的第一匹配多媒体本体，该第一多媒体本体和第一匹配多媒体本体相匹配，也就是说，第一匹配多媒体本体可能是第一多媒体本体的侵权本体，由此，可以利用全局特征之间的全局特征匹配度和多媒体关联信息之间的信息匹配度进一步精准匹配出更加有可能与第一多媒体本体相似的第二多媒体本体。同时，相较于仅比对标题特征，全局特征可以表征多媒体本体本身的相关信息，由此通过两种类型的匹配度综合进行数据匹配，可以使得多媒体本体的相似匹配结果更加准确和可靠。

进一步的，请参见图7，图7是本申请实施例提供的一种多媒体数据的处理方法，如图7所示，方法可以由上述提及的计算机设备来执行，比如，如图7中所示的任意一个业务终端或业务服务器，下述以计算机设备为业务服务器为例，方法具体可以包括以下步骤S201-步骤S209：

S201、获取第一多模态数据，对第一多模态数据中的第一多媒体本体进行全局特征提取，得到第一多媒体本体的第一全局特征。

其中，第一多模态数据包括与第一多媒体本体相关联的第一关联多媒体信息。第一多模态数据的具体描述可以参见上述实施例的相关描述。

其中，第一全局特征可以是通过对第一多媒体本体中的关键数据帧进行全局特征提取处理得到。可以理解，当第一多媒体本体包括视频类多媒体，关键数据集即为关键视频帧；当第一多媒体本体包括音频类多媒体，关键数据帧即为关键音频帧。对关键视频帧进行全局特征提取处理和对关键音频帧进行全局特征提取处理的过程和原理相同。此处以第一多媒体本体包括视频类多媒体为例对第一全局特征的获取过程进行说明。可以理解，第二全局特征的获取过程和原理与第一全局特征的获取过程和原理相同。

其中，获取第一全局特征的方式可以是：获取与视频类多媒体相关联的全局特征提取模型；全局特征提取模型包括特征提取组件、特征交互组件，以及特征压缩组件；从第一多媒体本体中提取出K个关键视频帧，并将K个关键视频帧输入特征提取组件，由特征提取组件分别对每个关键视频帧进行特征提取处理，得到每个关键视频帧的视频帧特征；K为正整数；将K个关键视频帧的视频帧特征输入特征交互组件，由特征交互组件对K个关键视频帧的视频帧特征进行特征交互处理，得到每个关键视频帧的视频帧交互特征；将K个关键视频帧的视频帧交互特征对应的拼接交互特征输入特征压缩组件，由特征压缩组件对拼接交互特征进行特征压缩处理，得到第一多媒体本体的第一全局特征。

其中，特征提取组件用于提取一个关键视频帧的视频帧特征，特征提取组件比如可以是ResNet(residual neural network，残差人工神经网络)-50模型(一种在大规模图像分类数据集上进行预训练的图像特征提取模型，具有良好的特征表达能力)，或者，VGG(Visual Geometry Group，视觉几何组)模型、注意力模型等等，在此对特征提取组件的网络结构不做限定。

其中，特征交互组件用于确定一个视频帧特征在与其他视频帧特征进行特征交互后所得到的视频帧交互特征。特征交互组件比如可以是transformer模型(一种神经网络模型，针对序列数据具有良好编码能力)中的编码器、BERT(Bidirectional EncoderRepresentation from Transformers，来自变换器的双向编码器表征量)模型等等。在此对特征交互组件的网络结构不做限定。

其中，特征压缩组件用于将输入的拼接交互特征压缩为指定维度的向量，比如1xG(G为大于1的正整数)维的特征向量。其中，拼接交互特征可以是K个关键视频帧的视频帧交互特征所构成的特征矩阵，也可以是依次拼接的一维特征，在此不做限定。此外，特征压缩组件比如可以是MLP(Multilayer Perceptron，多层感知机)网络，或者可以是全连接层，等等。在此对特征压缩组件的网络结构不做限定。

在一些实施例中，进行特征交互处理的过程可以是：将K个关键视频帧的视频帧特征输入特征交互组件，由特征交互组件对K个关键视频帧的视频帧特征进行特征处理，得到每个关键视频帧的加权序列；一个关键视频帧的加权序列包括一个关键视频帧针对每个关键视频帧的加权系数；分别通过每个关键视频帧的加权序列对K个关键视频帧的视频帧特征进行加权求和，得到每个关键视频帧对应的加权视频帧特征；基于每个关键视频帧对应的加权视频帧特征确定每个关键视频帧的视频帧交互特征。可以理解，可以是由transformer模型中的编码器对K个关键视频帧的视频帧特征进行自注意力处理，得到针对K个关键视频帧的注意力矩阵，该注意力矩阵中的一行注意力参数构成一个关键视频帧的加权序列，即一个注意力参数为针对一个关键视频帧的加权系数。通过一个加权序列对K个关键视频帧的视频帧特征进行加权求和，可以得到一个加权视频帧特征，并通过transformer模型中的编码器基于K个关键视频帧对应的加权视频帧特征输出K个关键视频帧对应的视频帧交互特征。

其中，获取全局特征提取模型可以是：获取待训练的初始特征提取模型；初始特征提取模型中包括待训练的特征提取组件、待训练的特征交互组件，以及待训练的特征压缩组件；获取用于训练初始特征提取模型的样本多媒体本体，从样本多媒体本体中提取出多个样本关键视频帧，并将多个样本关键视频帧输入待训练的特征提取组件，由待训练的特征提取组件分别对每个样本关键视频帧进行特征提取处理，得到每个样本关键视频帧的样本视频帧特征；将多个样本关键视频帧的样本视频帧特征输入待训练的特征交互组件，由待训练的特征交互组件对多个样本关键视频帧的样本视频帧特征进行特征交互处理，得到每个样本关键视频帧的样本视频帧交互特征；将多个样本关键视频帧的样本视频帧交互特征对应的样本拼接交互特征输入待训练的特征压缩组件，由待训练的特征压缩组件对样本拼接交互特征进行特征压缩处理，得到样本多媒体本体的样本全局特征；通过样本多媒体本体的样本全局特征训练初始特征提取模型，得到训练后的目标特征提取模型；目标特征提取模型中包括训练后的特征提取组件、训练后的特征交互组件，以及训练后的特征压缩组件；将目标特征提取模型确定为与视频类多媒体相关联的全局特征提取模型。

其中，对初始特征提取模型的训练方式可以是采用对比学习的训练方式。因此，样本多媒体本体包括：基础样本多媒体本体、与基础样本多媒体本体相关联的正样本多媒体本体、与基础样本多媒体本体相关联的负样本多媒体本体。因此，训练初始特征提取模型可以是：获取基础样本多媒体本体的样本全局特征与正样本多媒体本体的样本全局特征之间的第一样本特征距离，以及获取基础样本多媒体本体的样本全局特征与负样本多媒体本体的样本全局特征之间的第二样本特征距离；通过第一样本特征距离和第二样本特征距离确定针对初始特征提取模型的模型损失值，通过模型损失值对初始特征提取模型进行训练，在满足模型收敛条件时，得到训练后的目标特征提取模型。

其中，可以是以一批量样本多媒体本体对初始特征提取模型进行一轮模型训练。比如，一个批量包括M1个样本多媒体本体，每个样本多媒体本体均包括基础样本多媒体本体Xa、正样本多媒体本体Xp、负样本多媒体本体Xn。可以采用triplet损失函数(三元损失函数)确定模型损失值Loss，如可以是：

其中，D_ia,ip表示第i个样本多媒体本体中的基础样本多媒体本体Xa的样本全局特征与正样本多媒体本体Xp的样本全局特征之间的第一样本特征距离(如欧式距离)；D_ia,in表示第i个样本多媒体本体中的基础样本多媒体本体Xa的样本全局特征与负样本多媒体本体Xn的样本全局特征之间的第二样本特征距离；α表示超参数。

可以理解，通过对比学习可以使得，对于内容相近的多媒体本体，其提取的全局特征在数值上应该较为相近，而对于语义不相近的多媒体本体，其提取的全局特征在数值上应该较为不相近。相比直接利用开源特征提取模型(如开源resnet50+transformer模型)得到多媒体本体的全局特征，该方案利用有监督的对比学习训练(即采用有监督数据集做对比学习训练)，对全局特征提取模型进行定制化调优，使其在特定领域任务上获得了良好的短视频全局特征提取能力。因此，本方案所提取的全局特征具有泛化能力，使其多媒体本体能在被侵权者改动的前提下，仍然识别出侵权本体与原始本体的相似之处。同时对于主题相同或类似的两个多媒体本体内容，也能识别出其中的相关性。

可以理解，训练样本包括多个样本三元组，一个样本三元组包括一个基础样本多媒体本体、一个正样本多媒体本体、一个负样本多媒体本体。其中，样本三元组的构建方式可以是：在多媒本平台随机采集指定数量的多媒体本体，形成基础样本多媒体本体库；从基础样本多媒体本体库中随机选取一个多媒体本体A作为基础样本多媒体本体A，对基础样本多媒体本体A进行拼接、剪辑、画面缩放、画面翻转、添加噪声、画面贴图等操作，得到基础样本多媒体本体A’，将基础样本多媒体本体A’作为基础样本多媒体本体A的正样本多媒体本体A，并构建正样本本体对[基础样本多媒体本体A，正样本多媒体本体A，1](“1”表示正样本多媒体本体A为基础样本多媒体本体A的正样本，即相似样本，也即侵权样本)，通过上述方式可以得到多个正样本本体对；从基础样本多媒体本体库中随机选取一个多媒体本体B作为基础样本多媒体本体A的负样本多媒体本体A，构建负样本本体对[基础样本多媒体本体A，负样本多媒体本体A，0](“1”表示正样本多媒体本体A为基础样本多媒体本体A的负样本，即不相似样本，也即非侵权样本)，通过上述方式可以得到多个负样本本体对；由此可以基于多个正样本本体对和多个负样本本体对构建多个样本三元组[Xa，Xp，Xn]，以用于训练全局特征提取模型。通过对比学习训练方式目的在于拉近相似样本的全局特征之间的特征距离，同时推远不相似样本的全局特征之间的距离。

例如，如图8所示，图8是本申请实施例提供的一种全局特征的获取过程示意图；其中，获取全局特征提取模型8a，该全局特征提取模型包括特征提取组件8b、特征交互组件8c，以及特征压缩组件8d；从第一多媒体本体中提取出K个关键视频帧(比如关键视频帧81、82、83)，将K个关键视频帧输入特征提取组件，得到每个关键视频帧的视频帧特征(比如视频帧特征84、85、86)；将K个关键视频帧的视频帧特征输入特征交互组件，得到每个关键视频帧的视频帧交互特征(比如视频帧交互特征87、88、89)；将K个关键视频帧的视频帧交互特征对应的拼接交互特征810(比如所构成的特征矩阵)输入特征压缩组件，得到第一多媒体本体的第一全局特征811。其中，特征提取组件可以是ResNet-50模型，因此特征提取组件的具体结构可以包括：预处理网络(包括卷积层和池化层)、多个残差块网络(比如残差块1-4)。

可选地，全局特征提取模型可以包括特征提取组件和特征融合组件。可以将K个关键视频帧输入特征提取组件，得到每个关键视频帧的视频帧特征；将K个关键视频帧的视频帧特征输入特征融合组件，由特征融合组件对K个关键视频帧的视频帧特征中任意两个视频帧特征进行特征交叉处理(即两个视频帧特征进行内积处理)，得到交叉视频帧特征集合；交叉视频帧特征集合中一个交叉视频帧特征为两个视频帧特征的特征交叉处理结果，并由特征融合组件对交叉视频帧特征集合所对应的拼接交叉特征进行特征维度转换处理，得到第一多媒体本体的第一全局特征，即将拼接交叉特征转换为指定维度的向量(比如1x2048维的向量)，以作为第一全局特征。

其中，交叉视频帧特征集合V如下：

V＝<V_a,V_b> 1≤a≤K，1≤b≤K

其中，<>表示向量内积，V_a,V_b表示任意两个视频帧特征。

在一些实施例中，从第一多媒体本体中提取出K个关键视频帧可以是：从第一多媒体本体中提取出R个基础视频帧，获取R个基础视频帧中的相邻视频帧；相邻视频帧包括基础视频帧i和基础视频帧i+1；R为大于K的正整数；i为小于R的正整数；获取基础视频帧i与基础视频帧i+1之间的帧间差分值，将基础视频帧i与基础视频帧i+1之间的帧间差分值，确定为基础视频帧i+1对应的视频帧差分值；直到i等于R-1时，得到R个基础视频帧包括的R-1个基础视频帧中每个基础视频帧对应的视频帧差分值；R-1个基础视频帧为R个基础视频帧中除第1个基础视频帧以外的基础视频帧；将由R-1个基础视频帧对应的视频帧差分值所构成的序列，确定与R-1个基础视频帧相关联的差分值序列，基于差分值序列，对R-1个基础视频帧进行关键帧提取，得到从R-1个基础视频帧中提取出的K个关键视频帧。其中，可以是在第一多媒体本体中每间隔指定时长(比如每隔3秒)就提取一个视频帧(数据帧)作为基础视频帧(基础数据帧)。比如，利用OpenCV库(一种开源计算机视觉库,提供了一些用于处理图像和视频的工具和算法)，对每一个多媒体本体进行解析和全量帧解析和读取。在读取过程中，由于全量帧过于密集，此处采用每秒存储3帧的方式进行基础视频帧的存储。

可以理解，该关键视频帧是指从多媒体本体中提取出有代表性的视频帧，以作为动态的关键视频帧序列。此处，本方案将切换至下一个大幅改变的视频帧，视为是多媒体本体中有代表性的一个数据帧。

也就是说，基于每个基础视频帧和前一个基础视频帧之间的帧间差分值可以得到每个基础视频帧对应的视频帧差分值，以构成一个差分值序列。当视频帧切换至下一个变化比较大的视频帧时，帧间差分值也会较大。可以理解，由于第一个基础视频帧不存在前一个基础视频帧，因此，此时具有视频帧差分值的基础视频帧为R个基础视频帧中的后R-1个基础视频帧。

其中，基础视频帧i与基础视频帧i+1的颜色空间均为第一颜色空间。比如，第一颜色空间为RGB颜色空间。RGB颜色空间由R(Red，红)、G(Green，绿)、B(Blue，蓝)三种颜色通道值表示。获取基础视频帧i与基础视频帧i+1之间的帧间差分值可以是，在将基础视频帧i的颜色空间与基础视频帧i+1的颜色空间均从第一颜色空间转换至第二颜色空间时，基于基础视频帧i在第二颜色空间中的颜色通道值和基础视频帧i+1在第二颜色空间中的颜色通道值，确定基础视频帧i与基础视频帧i+1之间的帧间差分值。

其中，第二颜色空间为HSV颜色空间。HSV颜色空间由H(Hue，色调)、S(Saturation，饱和度)、V(Value，亮度)三种颜色通道值表示。可以理解，对于每个基础视频帧，将其从RGB空间转换到HSV空间，相对于RGB空间，HSV空间能够非常直观的表达色彩的明暗，色调，以及鲜艳程度，方便进行颜色之间的对比。

其中，确定基础视频帧i与基础视频帧i+1之间的帧间差分值可以是：基于基础视频帧i在第二颜色空间中的颜色通道值和基础视频帧i+1在第二颜色空间中的颜色通道值，确定基础视频帧i与基础视频帧i+1之间的M2个差分值，对M2个差分值进行加权求和，得到基础视频帧i与基础视频帧i+1之间的帧间差分值。加权系数可由相关业务人员设置。其中，M2个差分值可以包括以下一种或多种差分值：第一类型差分值、第二类型差分值、第三类型差分值和第四类型差分值。M2为正整数。

其中，基础视频帧i和基础视频帧i+1在第二颜色空间中的颜色通道值包括表示色调通道的第一通道值、表示饱和度通道的第二通道值、表示亮度通道的第三通道值。

其中，第一类型差分值的确定方式可以是：确定基础视频帧i的第一通道值与基础视频帧i+1的第一通道值之间的第一通道差值、确定基础视频帧i的第二通道值与基础视频帧i+1的第二通道值之间的第二通道差值、确定基础视频帧i的第三通道值与基础视频帧i+1的第三通道值之间的第三通道差值，将第一通道差值、第二通道差值，和第三通道差值的求和结果作为第一类型差分值。比如，基础视频帧i和基础视频帧i+1均对应像素点1-M3(M3为正整数)，将基础视频帧i+1在像素点1-M3上的第一通道值减去基础视频帧i在像素点1-M3上的第一通道值，得到像素点1-M3中每个像素点在色调通道的通道差值，将像素点1-M3中每个像素点在色调通道的通道差值的求和结果作为第一通道差值；基础视频帧i和基础视频帧i+1均对应像素点1-M3(M3为正整数)，将基础视频帧i+1在像素点1-M3上的第二通道值减去基础视频帧i在像素点1-M3上的第二通道值，得到像素点1-M3中每个像素点在饱和度通道的通道差值，将像素点1-M3中每个像素点在饱和度通道的通道差值的求和结果作为第二通道差值；基础视频帧i和基础视频帧i+1均对应像素点1-M3(M3为正整数)，将基础视频帧i+1在像素点1-M3上的第三通道值减去基础视频帧i在像素点1-M3上的第三通道值，得到像素点1-M3中每个像素点在亮度通道的通道差值，将像素点1-M3中每个像素点在亮度通道的通道差值的求和结果作为第三通道差值，将第一通道差值、第二通道差值和第三通道差值的求和结果作为第一类型差分值。

其中，第二类型差分值的确定方式可以是：确定基础视频帧i的第一通道值与基础视频帧i+1的第一通道值之间的第四通道差值、确定基础视频帧i的第二通道值与基础视频帧i+1的第二通道值之间的第五通道差值、确定基础视频帧i的第三通道值与基础视频帧i+1的第三通道值之间的第六通道差值，将第四通道差值、第五通道差值，和第六通道差值的均值结果作为第二类型差分值。比如，基础视频帧i和基础视频帧i+1均对应像素点1-M3(M3为正整数)，将基础视频帧i+1在像素点1-M3上的第一通道值减去基础视频帧i在像素点1-M3上的第一通道值，得到像素点1-M3中每个像素点在色调通道的通道差值，将像素点1-M3中每个像素点在色调通道的通道差值的均值结果作为第四通道差值；基础视频帧i和基础视频帧i+1均对应像素点1-M3(M3为正整数)，将基础视频帧i+1在像素点1-M3上的第二通道值减去基础视频帧i在像素点1-M3上的第二通道值，得到像素点1-M3中每个像素点在饱和度通道的通道差值，将像素点1-M3中每个像素点在饱和度通道的通道差值的均值结果作为第五通道差值；基础视频帧i和基础视频帧i+1均对应像素点1-M3(M3为正整数)，将基础视频帧i+1在像素点1-M3上的第三通道值减去基础视频帧i在像素点1-M3上的第三通道值，得到像素点1-M3中每个像素点在亮度通道的通道差值，将像素点1-M3中每个像素点在亮度通道的通道差值的均值结果作为第六通道差值，将第四通道差值、第五通道差值和第六通道差值的均值结果作为第二类型差分值。

其中，第三类型差分值的确定方式可以是：确定基础视频帧i的第一通道值与基础视频帧i+1的第一通道值之间的第一直方图差分值、确定基础视频帧i的第二通道值与基础视频帧i+1的第二通道值之间的第二直方图差分值、确定基础视频帧i的第三通道值与基础视频帧i+1的第三通道值之间的第三直方图差分值，将第一直方图差分值、第二直方图差分值，和第三直方图差分值的求和结果作为第三类型差分值。比如，基础视频帧i和基础视频帧i+1均对应像素点1-M3(M3为正整数)，基于基础视频帧i+1在像素点1-M3上的第一通道值确定基础视频帧i+1在色调通道的第一色调直方图，基于基础视频帧i在像素点1-M3上的第一通道值确定基础视频帧i在色调通道的第二色调直方图，基于第一色调直方图减去第二色调直方图的差值结果确定第一色调直方图和第二色调直方图的直方图差值，作为第一直方图差分值；基础视频帧i和基础视频帧i+1均对应像素点1-M3(M3为正整数)，基于基础视频帧i+1在像素点1-M3上的第一通道值确定基础视频帧i+1在饱和度通道的第一饱和度直方图，基于基础视频帧i在像素点1-M3上的第一通道值确定基础视频帧i在饱和度通道的第二饱和度直方图，基于第一饱和度直方图减去第二饱和度直方图的差值结果确定第一饱和度直方图和第二饱和度直方图的直方图差值，作为第二直方图差分值；基础视频帧i和基础视频帧i+1均对应像素点1-M3(M3为正整数)，基于基础视频帧i+1在像素点1-M3上的第一通道值确定基础视频帧i+1在亮度通道的第一亮度直方图，基于基础视频帧i在像素点1-M3上的第一通道值确定基础视频帧i在亮度通道的第二亮度直方图，基于第一亮度直方图减去第二亮度直方图的差值结果确定第一亮度直方图和第二亮度直方图的直方图差值，作为第三直方图差分值；将第一直方图差分值、第二直方图差分值和第三直方图差分值的求和结果作为第三类型差分值。相应地，将第一直方图差分值、第二直方图差分值和第三直方图差分值的均值结果作为第四类型差分值。

可以理解，在不对基础视频帧进行颜色空间转换时，可以基于第一颜色空间的颜色通道值确定基础视频帧i与基础视频帧i+1之间的帧间差分值。其确定原理与在第二颜色空间中确定帧间差分值的原理的相同。

其中，差分值序列包括视频帧差分值j、视频帧差分值j+1、和视频帧差分值j+2。j为小于L-1的正整数。基于差分值序列从R-1个基础视频帧中提取出K个关键视频帧可以是：基于差分值序列，确定视频帧差分值j对应的梯度值、视频帧差分值j+1对应的梯度值，以及视频帧差分值j+2对应的梯度值；若视频帧差分值j对应的梯度值大于参考梯度值、视频帧差分值j+2对应的梯度值小于参考梯度值，且视频帧差分值j+1对应的梯度值处于与参考梯度值相关联的梯度范围内，则将R-1个基础视频帧中，与视频帧差分值j+1相关联的基础视频帧作为关键视频帧。其中，参考梯度值可以是0，与参考梯度值相关联的梯度范围可以是与0相近的范围，比如(-1,1)。可以理解，当视频帧差分值j对应的梯度值大于0、视频帧差分值j+2对应的梯度值小于0、视频帧差分值j+1对应的梯度值接近0时，该视频帧差分值j+1为差分值序列中的局部极大值，可以将视频帧差分值j+1相关联的基础视频帧视为是有代表性的视频帧，即关键视频帧。

可选地，还可以先对差分值序列进行平滑异常差分值处理，得到更新后的差分值序列，并基于更新后的差分值序列确定K个关键视频帧。其中，平滑异常差分值处理可以是通过滑动窗口进行。比如，差分值序列包含滑动窗口对应的第一子序列；第一子序列为在差分值序列中所确定的滑动窗口所在的序列。因此，基于差分值序列从R-1个基础视频帧中提取出K个关键视频帧可以是，获取滑动窗口的滑动步长，基于滑动步长将滑动窗口由第一子序列变更为第二子序列；第二子序列为在差分值序列中所确定的第一子序列的下一序列；第二子序列包括多个视频帧差分值；获取多个视频帧差分值对应的平均差分值，并在第二子序列中，将目标位置上的视频帧差分值更新为平均差分值，得到目标位置上的更新后的视频帧差分值；将更新后的视频帧差分值所在的第二子序列，确定为更新后的第二子序列，并通过更新后的第二子序列更新差分值序列，得到更新后的差分值序列；基于更新后的差分值序列，对R-1个基础视频帧进行关键帧提取，得到从R-1个基础视频帧中提取出的K个关键视频帧。

可以理解，可以对差分值序列(差分值序列1)进行滑动窗口处理，得到滑动窗口所在的序列，将当前所确定的序列作为第一子序列，可以对第一子序列中的视频帧差分值进行平滑异常差分值处理，得到更新后的第一子序列，并将更新后的第一子序列更新在差分值序列中，得到更新后的差分值序列(差分值序列2)。基于滑动步长在更新后的差分值序列(即当前进行滑动窗口处理的差分值序列2)中继续进行滑动窗口处理，得到滑动窗口所在的序列，并将此时所确定的序列作为第二子序列。也就是说，第二子序列是在确定出的第一子序列之后，下一个确定出的子序列。此时，同样对第二子序列进行平滑异常差分值处理，得到更新后的第二子序列，并将更新后的第二子序列更新在差分值序列2中，得到更新后的差分值序列(差分值序列3)，并继续对差分值序列3进行滑动窗口处理。可以理解，差分值序列2所确定出的第二子序列为差分值序列3对应的第一子序列。也就是说，每对差分值序列进行一次滑动窗口处理，就对当前所确定出的子序列进行平滑异常差分值处理，得到更新后的差分值序列，直至滑动窗口处理完成，得到最终的更新后的差分值序列，并基于该最终的更新后的差分值序列确定K个关键视频帧。

可以理解，对一个子序列进行平滑异常差分值处理即为将该子序列中目标位置上的视频帧差分值更新为该子序列中所有视频帧差分值对应的平均差分值。其中，目标位置可以是子序列的正中间位置，也可以是子序列中的第t个位置(如第3个位置)。在此不做限定。对于目标位置、滑动窗口的窗口大小、滑动步长可以由相关业务人员根据经验值设置。

其中，更新后的差分值序列包括L个视频帧差分值，L个视频帧差分值包括视频帧差分值j、视频帧差分值j+1、和视频帧差分值j+2；L为大于2的正整数；j为小于L-1的正整数。基于更新后的差分值序列，提取K个关键视频帧可以是，基于更新后的差分值序列，确定视频帧差分值j对应的梯度值、视频帧差分值j+1对应的梯度值，以及视频帧差分值j+2对应的梯度值；若视频帧差分值j对应的梯度值大于参考梯度值、视频帧差分值j+2对应的梯度值小于参考梯度值，且视频帧差分值j+1对应的梯度值处于与参考梯度值相关联的梯度范围内，则将R-1个基础视频帧中，与视频帧差分值j+1相关联的基础视频帧作为关键视频帧。

例如，如图9-图10所示，图9-图10是本申请实施例提供的一种关键视频帧的获取过程示意图；其中，从第一多媒体本体中提取出基础视频帧91a-91j，并获取R个基础视频帧中每两个相邻视频帧之间的帧间差分值，得到基础视频帧91b-91j对应的帧间差分值92b-92j，以构成差分值序列93a；比如滑动窗口的窗口大小为5，滑动步长为2，因此在第一次进行滑动窗口处理时，由滑动窗口94a所确定的序列为子序列1(包括帧间差分值92b-92f)；对子序列1进行平滑异常差分值处理，如目标位置为一个子序列的正中间位置，因此，将子序列1中的帧间差分值92d更新为帧间差分值92b-92f对应的平均差分值，得到更新后帧间差分值92d(92d’)，由此得到更新后的子序列1，基于更新后的子序列1得到更新后的差分值序列93a(差分值序列93b)；基于滑动窗口94a继续进行滑动窗口处理，在第二次进行滑动窗口处理时，由滑动窗口94b所确定的序列为子序列2(包括帧间差分值92d’-92h)，子序列2为子序列1的下一个序列；对子序列2进行平滑异常差分值处理，将子序列2中的帧间差分值92f更新为帧间差分92d’-92h对应的平均差分值，得到更新后帧间差分值92f(92f’)，由此得到更新后的子序列2，基于更新后的子序列2得到更新后的差分值序列93b(差分值序列93c)；基于滑动窗口94b继续进行滑动窗口处理，在第三次进行滑动窗口处理时，由滑动窗口94c所确定的序列为子序列3(包括帧间差分值92f’-92j)，子序列3为子序列2的下一个序列；对子序列3进行平滑异常差分值处理，将子序列3中的帧间差分值92h更新为帧间差分92f’-92j对应的平均差分值，得到更新后帧间差分值92h(92h’)，由此得到更新后的子序列3，基于更新后的子序列3得到更新后的差分值序列93c(差分值序列93d)，差分值序列93d即为最终的更新后的差分值序列。

可以理解，如图10，差分值序列93d中每个视频帧差分值对应一个关键视频帧，确定差分值序列93d中每个视频帧差分值对应的梯度值95b-95f；比如参考梯度值为0，与参考梯度值相关联的梯度范围为-1～1；当一个视频帧差分值(如93d’)对应的梯度值(如95d)等于0.2(即接近0)，且该视频帧差分值的前一个视频帧差分值(如93c)对应的梯度值(如95c)等于1(即大于0)、该视频帧差分值的后一个视频帧差分值(如93e)对应的梯度值(如95e)等于-1(即小于0)，则表示将视频帧差分值93d’对应的梯度值95d为差分值序列93d中的局部极大值，即该视频帧差分值93d’关联的基础视频帧91d作为关键视频帧。

S202、从业务全局特征数据库中获取第二全局特征，对第一全局特征与第二全局特征进行全局特征匹配处理，得到第一全局特征与第二全局特征之间的全局特征匹配度，通过第一全局特征与第二全局特征之间的全局特征匹配度，从第二全局特征中查找与第一全局特征相匹配的第二全局特征。

其中，业务全局特征数据库是由第二多模态数据中的第二多媒体本体的第二全局特征所确定的；第一多模态数据包括与第一多媒体本体相关联的第一关联多媒体信息；第二多模态数据包括与第二多媒体本体相关联的第二关联多媒体信息。

在一些实施例中，对第一全局特征与第二全局特征进行全局特征匹配处理，得到第一全局特征与第二全局特征之间的全局特征匹配度，通过第一全局特征与所述第二全局特征之间的全局特征匹配度，从第二全局特征中查找与第一全局特征相匹配的第二全局特征可以是，获取第一全局特征和第二全局特征之间的全局特征匹配度，比如可以通过第一全局特征和第二全局特征之间的特征距离确定，基于第一全局特征分别和每个第二全局特征之间的全局特征匹配度，从第二全局特征中获取与第一全局特征相匹配的第二全局特征。

比如可以是将全局特征匹配度大于匹配度阈值的第二全局特征作为与第一全局特征相匹配的第二全局特征。或者按照全局特征匹配度从大到小的顺序，依次选取指定数量个第二全局特征作为与第一全局特征相匹配的第二全局特征。该指定数量可以是默认数量，也可以是第一业务对象通过匹配业务检测界面指定的查找数量。

可选地，当第一业务对象通过匹配业务检测界面指定了发布时间段时，可以在业务全局特征数据库中筛选出发布时间在该发布时间段的第二全局特征，并确定第一全局特征和发布时间在该发布时间段的第二全局特征之间的特征距离，以基于该特征距离从发布时间在该发布时间段的第二全局特征中，查找与第一全局特征相匹配的第二全局特征。

在一些实施例中，由于业务全局特征数据库中的第二全局特征的数量过多，依次确定第一全局特征和每个第二全局特征之间的特征距离的工作量大，为了减少对第二全局特征的查找耗时，可以先对业务全局特征数据库中的第二全局特征进行聚类(比如使用k均值聚类算法(k-means clustering algorithm)进行聚类)。这样可以减少全局特征查找范围，提供全局特征查找效率。

其中，以业务全局特征数据库中包括N个第二全局特征(N为大于1的正整数)为例，在业务全局特征数据库中查找与第一全局特征相匹配的第二全局特征可以是：对N个第二全局特征进行聚类划分，划分得到与N个第二全局特征相关联的P个全局特征数据集；一个全局特征数据集具有一个全局特征中心，一个全局特征数据集包括至少一个第二全局特征；P为正整数；获取第一全局特征分别和每个全局特征数据集的全局特征中心之间的特征距离；基于第一全局特征分别和每个全局特征数据集的全局特征中心之间的特征距离，对P个的全局特征数据集的全局特征中心进行特征中心筛选，筛选得到与第一全局特征相匹配的目标全局特征中心，将目标全局特征中心对应的全局特征数据集确定为目标全局特征数据集；对第一全局特征和目标全局特征数据集中的第二全局特征进行特征匹配处理，得到第一全局特征和目标全局特征数据集中的第二全局特征之间的全局特征匹配度；基于第一全局特征和目标全局特征数据集中的第二全局特征之间的全局特征匹配度，对目标全局特征数据集中的第二全局特征进行全局特征筛选，筛选得到与第一全局特征相匹配的第二全局特征。

比如，可以按照特征距离从小到大的顺序，在P个的全局特征数据集的全局特征中心中，依次选取指定数量个全局特征中心作为筛选出的目标全局特征中心。

其中，第一全局特征和第二全局特征之间的全局特征匹配度可以为第一全局特征和第二全局特征之间的特征相似度，可基于第一全局特征和第二全局特征之间的特征距离确定。其中，基于全局特征匹配度筛选与第一全局特征相匹配的第二全局特征可以是，将目标全局特征数据集中，全局特征匹配度大于匹配度阈值的第二全局特征作为与第一全局特征相匹配的第二全局特征。或者按照全局特征匹配度从大到小的顺序，依次选取目标全局特征数据集中的指定数量个第二全局特征作为与第一全局特征相匹配的第二全局特征。该指定数量可以是默认数量，也可以是第一业务对象通过匹配业务检测界面指定的查找数量。

其中，对N个第二全局特征进行聚类划分可以是：将N个第二全局特征划分为S个初始特征数据集；S为正整数；一个初始特征数据集包括至少一个第二全局特征；基于S个初始特征数据集中的每个初始特征数据集所包含的第二全局特征，确定每个初始特征数据集的初始特征中心；在N个第二全局特征中选取一个第二全局特征作为目标第二全局特征，将目标第二全局特征所在的初始特征数据集作为第一特征数据集，将S个初始特征数据集中除第一特征数据集之外的初始特征数据集作为待处理特征数据集；确定目标第二全局特征与第一特征数据集的初始特征中心之间的第一特征距离，并确定目标第二全局特征与待处理特征数据集中的每个特征数据集的初始特征中心之间的第二特征距离；在第一特征距离大于第二特征距离时，在待处理特征数据集中，将与目标第二全局特征具有最小第二特征距离的初始特征中心所在的待处理特征数据集作为第二特征数据集；在将目标第二全局特征由第一特征数据集更新到第二特征数据集时，将第二特征数据集作为目标第二全局特征的聚类特征数据集，直到每个第二全局特征均被选中作为目标像素点时，得到每个第二全局特征的聚类特征数据集；将每个第二全局特征的聚类特征数据集，作为对N个第二全局特征进行聚类划分后所划分得到的P个全局特征数据集。

其中，可以理解，一个特征数据集的特征中心即表示该特征数据集的聚类中心，即初始特征中心为初始的特征中心。

可以理解，在第一特征距离小于或者等于第二特征距离时，确定目标第二全局特征所在的第一特征数据集作为目标第二全局特征的聚类特征数据集。也就是说，目标第二全局特征不会划分至其他聚类特征数据集。

其中，可以理解，在N个第二全局特征中的每个第二全局特征均被选中作为目标第二全局特征，得到每个第二全局特征的聚类特征数据集时，可以判断该每个第二全局特征的聚类特征数据集是否满足聚类条件，若不满足聚类条件，则将每个第二全局特征的聚类特征数据集作为S个初始特征数据集，并按照上述过程再次对N个第二全局特征进行聚类处理，得到每个第二全局特征新的聚类特征数据集，直至针对每个第二全局特征当前确定的聚类特征数据集满足聚类条件时，将满足聚类条件的聚类特征数据集作为P个全局特征数据集。P可以等于S。

也就是说，在将一个第二全局特征分配至一个特征数据集时，会基于该特征数据集中已有的第二全局特征计算新的特征中心(即新的聚类中心)，在对下一个第二全局特征进行特征数据集的分配时，则是计算该新的聚类中心与该下一个第二全局特征之间的距离，并且可以继续重复每个第二全局特征的聚类特征数据集划分，直至最终确定的特征数据集满足聚类条件。

也就是说，聚类处理为：将N个第二全局特征划分为P个初始特征数据集，一个初始特征数据集包括至少一个第二全局特征，分别基于每个初始特征数据集包含的第二全局特征确定每个初始特征数据集的特征中心，并确定每个第二全局特征分别与每个初始特征数据集的特征中心之间的距离，基于每个第二全局特征分别与每个初始特征数据集的特征中心之间的距离，将N个第二全局特征重新划分为P个初始特征数据集，当重新划分的P个初始特征数据集满足聚类条件时，将重新划分的P个初始特征数据集确定为P个全局特征数据集。

可以理解，当重新划分的P个初始特征数据集不满足聚类条件时，会重新计算该P个初始特征数据集的特征中心，并再次确定每个第二全局特征分别与每个初始特征数据集的特征中心之间的距离，以及基于该再次确定的距离继续对N个第二全局特征进行划分，直至当前重新划分的P个全局特征数据集满足聚类条件。

其中，聚类条件可以是指：上一次的划分结果与这一次的划分结果相同，也就是说，上一次针对每个第二全局特征确定出的聚类特征数据集与此次针对每个第二全局特征确定出的聚类特征数据集相同，即上一次划分的P个初始特征数据集中包含的第二全局特征与当前划分的P个初始特征数据集中包含的第二全局特征相同。或者，还可以是指：当前划分的P个初始特征数据集中指定数量个初始特征数据集的特征中心与上一次划分的P个初始特征数据集中指定数量个初始特征数据集的特征中心相同等等。在此对聚类条件不做限定，可以根据经验值设置。

S203、将查找到的第二全局特征所对应的第二多媒体本体作为待处理多媒体本体，基于第一多媒体本体和待处理多媒体本体，构建得到多媒体数据对，将第一全局特征与查找到的第二全局特征之间的全局特征匹配度作为多媒体数据对的第一类型匹配度。

S204、将第二关联多媒体信息中与待处理多媒体本体相关联的第二关联多媒体信息，确定为待处理多媒体信息，对第一关联多媒体信息和待处理多媒体信息进行信息匹配处理，得到第一关联多媒体信息和待处理多媒体信息之间的信息匹配度，将信息匹配度作为多媒体数据对的第二类型匹配度。

S205、基于第一类型匹配度和第二类型匹配度，确定多媒体数据对中的第一多媒体本体与待处理多媒体本体的匹配度整合特征，基于匹配度整合特征确定与多媒体数据对相关联的数据对匹配度。

S206、在数据对匹配度达到第一数据对匹配度阈值时，将数据对匹配度达到第一数据对匹配度阈值的多媒体数据对，确定为第一目标多媒体数据对，将第一目标多媒体数据对中的待处理多媒体本体，确定为第一多媒体本体的第一匹配多媒体本体。其中，步骤S203-S206的具体实施方式可以参见上述实施例的相关描述，在此不做赘述。

S207、在数据对匹配度达到第二数据对匹配度阈值，且数据对匹配度未达到第一数据对匹配度阈值时，获取第一多媒体本体的第一局部特征和待处理多媒体本体的第二局部特征。

可以理解，与数据对匹配度相关联的数据对匹配度阈值包括第一数据对匹配度阈值和第二数据对匹配度阈值；第二数据对匹配度阈值小于第一数据对匹配度阈值。若数据对匹配度未达到第二数据对匹配度阈值，则确定多媒体数据对中的第一多媒体本体与待处理多媒体本体之间不匹配。也就是说，在数据对匹配度达到第一数据对匹配度阈值或者未达到第二数据对匹配度阈值，均可直接判断第一多媒体本体与待处理多媒体本体之间是否匹配。

可以理解，当数据对匹配度在第二数据对匹配度阈值和第一数据对匹配度阈值之间时，无法直接判断第一多媒体本体与待处理多媒体本体之间是否匹配。因此，可以通过第一多媒体本体的第一局部特征和待处理多媒体本体的第二局部特征进行匹配判断。

其中，第一多媒体本体和待处理多媒体本体均包括视频类多媒体。因此可以在数据对匹配度达到第二数据对匹配度阈值，以及数据对匹配度未达到第一数据对匹配度阈值时，将第一多媒体本体中的视频帧作为第一待检测视频帧，将待处理多媒体本体中的视频帧作为第二待检测视频帧；对第一待检测视频帧进行视频帧边框检测处理，得到第一待检测视频帧的第一视频帧边框(比如视频黑边)，在第一多媒体本体包括的关键视频帧中，获取第一视频帧边框中的视频数据，并将获取到的视频数据作为第一多媒体本体的第一关键视频数据；对第二待检测视频帧进行视频帧边框检测处理，得到第二待检测视频帧的第二视频帧边框，在第二多媒体本体中的关键视频帧中，获取第二视频帧边框中的视频数据，并将获取到的视频数据作为第二多媒体本体的第二关键视频数据；对第一关键视频数据进行局部特征提取处理，得到第一多媒体本体的第一局部特征，并对第二关键视频数据进行局部特征提取处理，得到待处理多媒体本体的第二局部特征，以通过第一局部特征和第二局部特征进行匹配判断。

可以理解，第一视频帧边框中的视频数据为第一多媒体本体包括的关键视频帧中视频画面数据，即有效视频数据。也就是说，在判断两个多媒体本体是否匹配时，可以通过对比有效视频数据来实现更为精细的匹配，可以更准确的确定出两个多媒体本体之间的匹配度以及匹配片段。

其中，获取第一多媒体本体中的视频帧和待处理多媒体本体中的视频帧的具体方式相同。以第一多媒体本体为例，具体可以是，将第一多媒体本体划分为第一数量个视频子片段；从每个视频子片段中提取出第二数量个视频帧；将从每个视频子片段中提取出的第二数量个视频帧作为第一多媒体本体中的视频帧。比如，将第一多媒体本体划分为100个视频子片段，分别从每个视频子片段中提取一个视频帧，将从100个视频子片段提供出的100个视频帧作为第一多媒体本体中的视频帧。

其中，对第一待检测视频帧和第二待检测视频帧进行视频帧边框检测处理的过程和原理相同。例如，以第一多媒体本体为例，第一多媒体本体中的视频帧有多个，多个视频帧均对应至少一个像素。得到第一待检测视频帧的第一视频帧边框具体可以是：分别获取每个像素点在多个视频帧中所对应的灰度值，将每个像素点在多个视频帧中所对应的灰度值，确定为每个像素点对应的灰度值序列；获取每个像素点对应的灰度值序列所确定的灰度值方差，获取由每个像素点对应的灰度值方差，所构成的与多个视频帧相关联的像素方差矩阵；像素方差矩阵中的一个灰度值方差为一个像素点对应的灰度值序列所对应的灰度值方差；对像素方差矩阵进行方差矩阵处理，得到与多个视频帧相关联的二值图像，基于二值图像，对第一待检测视频帧进行视频帧边框检测处理，得到第一待检测视频帧的第一视频帧边框；其中，二值图像是由至少一个像素点中被配置为第一数值的像素点和被配置为第二数值的像素点所确定的；当像素方差矩阵中的参考灰度值方差大于或等于方差阈值时，参考灰度值方差所对应的像素点被配置为第一数值；当参考灰度值方差小于方差阈值时，参考灰度值方差所对应的像素点被配置为第二数值。

也就是说，确定同一个像素点在多个视频帧中的灰度值，以构成一个灰度值序列，得到一个像素点对应的灰度值序列的灰度值方差。

比如，像素方差矩阵中的任一个灰度值方差小于预设的方差阈值时，该灰度值方差对应的像素点被配置为0；像素方差矩阵中的任一个灰度值方差大于或等于预设的方差阈值时，该灰度值方差对应的像素点被配置为1，由此得到一个二值图像。可以理解，二值图像中为0的区域表示在多个视频帧中灰度值变化较小的区域，即二值图像中为0的区域是第一视频帧边框的可能性较大。

其中，基于二值图像对第一待检测视频帧进行视频帧边框检测处理，得到第一待检测视频帧的第一视频帧边框可以是：将二值图像中第一数值对应的像素点作为第一像素点，并将二值图像中第二数值对应的像素点作为第二像素点；将第一像素点在第一颜色空间的颜色通道值配置为第一颜色通道值，并将第二像素点在第一颜色空间的颜色通道值配置为第二颜色通道值；基于配置为第一颜色通道值的第一像素点和配置为第二颜色通道值的第二像素点得到与第一待检测视频帧相关联的待检测图像；对待检测图像进行图像边缘检测，得到待检测图像中的边缘点，并对待检测图像中的边缘点进行边缘直线检测，得到待检测图像中的边缘直线；若待检测图像中的边缘直线满足视频边框条件，则将待检测图像中的边缘直线确定为第一待检测视频帧的边框边界，并基于第一待检测视频帧的边框边界确定第一待检测视频帧的第一视频帧边框。

也就是说，将第一数值对应的像素点配置为一种颜色(比如白色)。将第二数值对应的像素点配置为一种颜色(比如黑色)。这样可以得到待检测图像。可以理解，待检测图像中的边缘可能表示视频边框与视频画面之间的边界。

因此，可以对待检测图像进行图像边缘检测，得到待检测图像中的边缘点，进而通过待检测图像中的边缘点得到待检测图像中的边缘直线，该边缘直线即可能为第一待检测视频帧的边框边界。例如，对待检测图像的图像边缘检测可以是通过Canny算子(一种边缘检测算法)进行检测。对边缘点的边缘直线检测可以是通过HoughLinesP函数(一种霍夫变换直线检测函数)进行检测。

其中，确定待检测图像中的边缘直线满足视频边框条件可以是，基于待检测图像的图像边，获取与待检测图像相关联的基准直线；基准直线与图像边之间的直线夹角等于目标夹角，且基准直线的长度与图像边的长度相同；若待检测图像中的边缘直线与基准直线之间的直线夹角小于或等于夹角阈值，且待检测图像中的边缘直线的直线长度处于与基准直线相关联的长度范围内，则确定待检测图像中的边缘直线满足视频边框条件。

其中，待检测图像的图像边包括第一图像边和第二图像边，第一图像边和第二图像边是相邻的图像边。目标夹角可以为0。因此，基准直线包括与第一图像边平行且长度相同的第一基准直线，和与第二图像边平行且长度相同的第二基准直线。比如，第一图像边的长度为图像长度，因此第一图像边可以是指待检测图像的上下两个图像边。比如，第二图像边的长度为图像宽度，因此第二图像边可以是指待检测图像的左右两个图像边。

其中，当边缘直线与基准直线之间的直线夹角小于或等于夹角阈值，可以视为边缘直线与基准直线平行，也就是说，此时边缘直线可能是视频边框的边框边界。可以理解，当边缘直线与第一基准直线平行，可以将该边缘直线确定为待检测图像上的平行边框边界。当边缘直线与第二基准直线平行，可以将该边缘直线确定为待检测图像上的垂直边框边界。

可选地，此时可以调整满足视频边框条件的边缘直线，以使边缘直线与基准直线之间的直线夹角被调整为目标夹角，并将调整后的边缘直线作为第一待检测视频帧的边框边界。比如可以是以边缘直线的直线中点为中心，旋转边缘直线，以使边缘直线与基准直线之间的直线夹角被调整为目标夹角。

可以理解，与基准直线相关联的长度范围可以由相关业务人员预设，该可以保证确定出的边框边界的长度不会过于短，距离图像边界不会过于远。

其中，可以理解，当满足视频边框条件的边缘直线包括：与第一基准直线平行的边缘直线时，表示视频边框在第一多媒体本体的视频画面上方和/或下方。当满足视频边框条件的边缘直线包括：与第二基准直线平行的边缘直线时，表示视频边框在第一多媒体本体的视频画面左侧和/或右侧。当满足视频边框条件的边缘直线包括：与第一基准直线平行的边缘直线和与第二基准直线平行的边缘直线时，表示视频边框在第一多媒体本体的视频画面上方和/或下方，且在左侧和/或右侧。

可以理解，作为视频边框的边缘直线与第一多媒体本体中的视频帧的视频帧边界(即待检测图像的图像边界)所构成的区域即为第一多媒体本体中的第一视频帧边框。

因此，基于第一待检测视频帧的边框边界确定第一待检测视频帧的第一视频帧边框可以是，获取与第一待检测视频帧相关联的参考视频帧；获取由第一待检测视频帧的边框边界和参考视频帧的视频帧边界所构成的待处理视频帧区域；将待处理视频帧区域中的像素点，在二值图像中的数值确定为待检测数值集；当待检测数值集中，作为第二数值的数值的数量达到数量阈值时，将待处理视频帧区域确定为第一待检测视频帧的第一视频帧边框。其中，参考视频帧可以为第一待检测视频帧中的任一个视频帧。参考视频帧与待检测图像的尺寸相同。即参考视频帧也可以是待检测图像。可以理解，当第一待检测视频帧进行过尺度变化，参考视频帧即为尺度变化后的第一待检测视频帧中的任一个视频帧。第一多媒体本体中每个视频帧的视频帧边框相同。

其中，当满足视频边框条件的边缘直线(即第一待检测视频帧的边框边界)包括：与第一基准直线平行的边缘直线(第一边缘直线)时，延长第一边缘直线以使延长后的第一边缘直线与参考视频帧的视频帧边界产生交点，将由延长后的第一边缘直线和参考视频帧的视频帧边界所构成的区域作为待处理视频帧区域。当该待处理视频帧区域在二值图像对应的数值中，作为第二数值的数值的数量达到数量阈值(即考视频帧区域在二值图像对应的数值中有大量第二数值)，则可以将待处理视频帧区域视为是第一待检测视频帧的第一视频帧边框。

同理，当满足视频边框条件的边缘直线包括：与第二基准直线平行的边缘直线(第二边缘直线)时，延长第二边缘直线以使延长后的第二边缘直线与参考视频帧的视频帧边界产生交点，将由延长后的第二边缘直线和参考视频帧的视频帧边界所构成的区域作为待处理视频帧区域。当该待处理视频帧区域在二值图像对应的数值中，作为第二数值的数值的数量达到数量阈值(即考视频帧区域在二值图像对应的数值中有大量第二数值)，则可以将待处理视频帧区域视为是第一待检测视频帧的第一视频帧边框。

同理，当满足视频边框条件的边缘直线包括：第一边缘直线和第二边缘直线时，对第一边缘直线和第二边缘直线进行直线连接处理，得到连接边缘直线，延长连接边缘直线以使延长后的连接边缘直线与参考视频帧的视频帧边界产生交点，将由延长后的连接边缘直线和参考视频帧的视频帧边界所构成的区域作为待处理视频帧区域。当该待处理视频帧区域在二值图像对应的数值中，作为第二数值的数值的数量达到数量阈值(即考视频帧区域在二值图像对应的数值中有大量第二数值)，可以将待处理视频帧区域视为是第一待检测视频帧的第一视频帧边框。可以理解，当连接边缘直线为闭合直线时，则直接将由连接边缘直线和参考视频帧的视频帧边界所构成的区域作为待处理视频帧区域。

其中，对第一边缘直线和第二边缘直线进行直线连接处理可以是，延长第二边缘直线以使延长后的第二边缘直线与第一边缘直线产生交点(如表示为目标交点)，确定由目标交点将第一边缘直线所划分出的第一直线段，在第一边缘直线中，将最短第一直线段进行删除，得到删除后的第一边缘直线；确定由目标交点将第二边缘直线所划分出的第二直线段，在第二边缘直线中，将最短第二直线段进行删除，得到删除后的第二边缘直线，将由删除后的第一边缘直线、目标交点和删除后的第二边缘直线所连接而成的直线作为连接边缘直线。

可以理解，在对第二边缘直线进行延长时，确定第二边缘直线的直线端点与第一边缘直线之间的距离，并基于最小距离所对应的直线端点向外延长第二边缘直线。

可以理解，当满足视频边框条件的边缘直线包括：多个第一边缘直线和多个第二边缘直线，比如两个第一边缘直线和一个第二边缘直线，可以先对一个第一边缘直线和一个第二边缘直线进行直线连接处理，得到连接边缘直线，再对连接边缘直线和剩下的第一边缘直线进行直线连接处理，得到最终的连接边缘直线。

可选地，在对第一待检测视频帧进行视频帧边框检测处理之前，可以对第一待检测视频帧进行尺度变换，对尺度变换后的第一待检测视频帧进行视频帧边框检测处理。尺度变换即对第一待检测视频帧进行尺度缩放。例如，互联网视频的分辨率差距很大，过高的分辨率可能会导致机器成本上升甚至内存溢出问题。因此需要对于第一待检测视频帧，在尽量保持信息量的前提下进行缩放。

比如，此处的缩放方式为固定目标缩放，若第一待检测视频帧的长大于第一阈值(小于第二阈值)，则等比例将第一待检测视频帧的长缩放(拉伸)到固定长度。或者，若第一待检测视频帧的宽大于第三阈值(小于第四阈值)，则等比例将第一待检测视频帧的宽缩放(拉伸)到固定宽度。

由此，在得到尺度变换后的第一待检测视频帧的第一视频帧边框时，可以对该尺度变换后的第一待检测视频帧的第一视频帧边框进行尺度还原，得到原始第一待检测视频帧的第一视频帧边框。

可以理解，在第一多媒体本体包括的关键视频帧中，获取第一视频帧边框中的视频数据可以是，基于第一视频帧边框，对第一多媒体本体中的关键视频帧进行视频帧裁剪处理，得到裁剪后的关键视频帧；将裁剪后的关键视频帧，作为第一视频帧边框中的视频数据。也就是说，将去除第一视频帧边框后的关键视频帧作为第一视频帧边框中的视频数据，即为第一多媒体本体的局部视频数据。

其中，裁剪后的关键视频帧为K个；K为正整数。获取第一多媒体本体的第一局部特征可以是，获取与第一关键视频数据相关联的局部特征提取模型，将K个裁剪后的关键视频帧输入局部特征提取模型，由局部特征提取模型分别对每个裁剪后的关键视频帧进行特征提取处理，得到每个裁剪后的关键视频帧的视频帧特征；将K个裁剪后的关键视频帧的视频帧特征，确定为第一多媒体本体的第一局部特征。也就是说，将每个裁剪后的关键视频帧所分别提取到的视频帧特征作为第一多媒体本体的第一局部特征。其中，局部特征提取模型可以是任意用于提取图像特征的模型。比如可以是ResNet-50模型，或者，VGG模型等等。

例如，如图11所示，图11是本申请实施例提供的一种局部特征的应用场景示意图；其中，将第一多媒体本体中的视频帧作为第一待检测视频帧(比如31a、31b、...、31n)，对第一待检测视频帧进行视频帧边框检测处理，得到第一待检测视频帧的第一视频帧边框；获取第一多媒体本体包括的关键视频帧(比如32a、32b、...、32m)，基于第一视频帧边框对关键视频帧进行视频帧裁剪处理，得到裁剪后的关键视频帧(比如33a、33b、...、33m)，并以作为第一关键视频数据34(为关键视频帧中的部分有效视频数据)；将第一关键视频数据所包括的裁剪后的关键视频帧输入局部特征提取模型，得到裁剪后的关键视频帧的视频帧特征(比如35a、35b、...、35m)，以作为第一局部特征36。可以理解，在第一待检测视频帧进行视频帧边框检测处理时，可以对第一待检测视频帧进行等比例缩放，对尺度变换后的第一待检测视频帧进行视频帧边框检测处理，在得到第一视频帧边框后，对第一视频帧边框进行尺度还原，得到最终的第一视频帧边框。

同理，将待处理多媒体本体中的视频帧作为第二待检测视频帧，对第二待检测视频帧进行视频帧边框检测处理，得到第二待检测视频帧的第二视频帧边框；获取待处理多媒体本体包括的关键视频帧，基于第二视频帧边框对关键视频帧进行视频帧裁剪处理，得到裁剪后的关键视频帧，并以作为第二关键视频数据；将第二关键视频数据所包括的裁剪后的关键视频帧输入局部特征提取模型，得到裁剪后的关键视频帧的视频帧特征，以作为第二局部特征。通过第一局部特征和第二局部特征对第一多媒体本体和待处理多媒体本体进行匹配判断。

可以理解，当提取到待处理多媒体本体(第二多媒体本体)的第二局部特征时，可以基于待处理多媒体本体的第二局部特征构建与业务全局特征数据库相关联的业务局部特征数据库。后续，在需要获取任一第二多媒体本体的第二全局特征时，可以先从业务局部特征数据库中查找，在未查找到时，再对该第二多媒体本体进行局部特征提取处理。

其中，如图12，第一多媒体本体中的多个视频帧(比如31a、31b、...、31n)均对应至少一个像素，获取每个像素点在多个视频帧中所对应的灰度值，也就是说，获取相同位置的像素点所对应的灰度值，以得到每个像素点对应的灰度值序列，比如获取像素点M在多个视频帧中所对应的灰度值，得到像素点37对应的灰度值序列(比如37a、37b、...、37n)；可以通过每个像素点对应的灰度值序列得到像素方差矩阵，并基于像素方差矩阵确定二值图像；二值图像中包括第一数值(比如为1)和第二数值(比如为0)；当像素方差矩阵中的一个灰度值方差大于或等于方差阈值时，该个灰度值方差所对应的像素点被配置为第一数值；当该个灰度值方差小于方差阈值时，该个灰度值方差所对应的像素点被配置为第二数值；将二值图像中第一数值对应的像素点的颜色通道值配置为第一颜色通道值(比如为白色)，并将二值图像中第二数值对应的像素点的颜色通道值配置为第二颜色通道值(比如为黑色)，得到待检测图像；对待检测图像进行图像边缘检测，得到待检测图像中的边缘点(比如输出一个边缘二值图像，边缘二值图像中为1的像素点表示边缘点、边缘二值图像中为0的像素点表示非边缘点)，对待检测图像中的边缘点进行边缘直线检测，得到待检测图像中的边缘直线；在确定待检测图像中的边缘直线满足视频边框条件时，将其作为第一待检测视频帧的边框边界，并基于第一待检测视频帧的边框边界确定第一待检测视频帧的第一视频帧边框。可以理解，二值图像的目的是区分出在第一待检测视频帧中有明显变化的区域和无明显变化的区域。

其中，满足视频边框条件的边缘直线可以包括待检测图像上的平行边框边界或者待检测图像上的垂直边框边界。如图13，以满足视频边框条件的边缘直线包括平行边框边界为例，即第一待检测视频帧的边框边界包括平行边框边界(如38a和38b)，延长平行边框边界以使延长后的平行边框边界与参考视频帧39的视频帧边界产生交点，将由延长后的平行边框边界和参考视频帧的视频帧边界所构成的区域作为待处理视频帧区域(310a、310b、310c)；获取待处理视频帧区域在二值图像对应的数值，若在二值图像对应的数值中，作为第二数值的数值的数量达到数量阈值，则将待处理视频帧区域(310a、310c)视为是第一待检测视频帧的第一视频帧边框；以满足视频边框条件的边缘直线包括垂直边框边界为例，即第一待检测视频帧的边框边界包括垂直边框边界(如311a和311b)，延长垂直边框边界以使延长后的垂直边框边界与参考视频帧的视频帧边界产生交点，将由延长后的垂直边框边界和参考视频帧39的视频帧边界所构成的区域作为待处理视频帧区域(312a、312b、312c)；获取待处理视频帧区域在二值图像对应的数值，若在二值图像对应的数值中，作为第二数值的数值的数量达到数量阈值，则将待处理视频帧区域(312a、312c)视为是第一待检测视频帧的第一视频帧边框；以满足视频边框条件的边缘直线包括平行边框边界和垂直边框边界为例，即第一待检测视频帧的边框边界包括平行边框边界和垂直边框边界(如313a、313b、313c、314d)，对平行边框边界和垂直边框边界进行直线连接处理，得到连接边缘直线(315)，若此时连接边缘直线为闭合直线，则将由连接边缘直线和参考视频帧39的视频帧边界所构成的区域(316)作为待处理视频帧区域，以作为第一视频帧边框。

此外，第一多媒体本体和待处理多媒体本体均为音频类多媒体。因此可以在数据对匹配度达到第二数据对匹配度阈值，且数据对匹配度未达到第一数据对匹配度阈值时，可以对第一多媒体本体进行音频去噪处理，得到处理后的第一多媒体本体，从去噪后的第一多媒体本体中，获取第一多媒体本体的关键音频帧所对应的去噪后的关键音频帧，作为第一关键音频数据，对第一关键音频数据进行局部特征提取处理，得到第一多媒体本体的第一局部特征；同理，可以对待处理多媒体本体进行音频去噪处理，得到处理后的待处理多媒体本体，从去噪后的待处理多媒体本体中，获取待处理多媒体本体的关键音频帧所对应的去噪后的关键音频帧，作为第二关键音频数据，对第二关键音频数据进行局部特征提取处理，得到待处理多媒体本体的第二局部特征，以通过第一局部特征和第二局部特征进行匹配判断。

其中，可以将第一关键音频数据中的每个去噪后的关键音频帧的音频特征作为第一多媒体本体的第一局部特征。以及，将第二关键音频数据中的每个去噪后的关键音频帧的音频特征作为待处理多媒体本体的第二局部特征。

因此，可以理解，第一多媒体本体的第一全局特征是指由第一多媒体本体中完整的关键数据帧的数据帧特征进行特征融合所得到的特征，该第一全局特征可以表征第一多媒体本体在全时长上的特征。例如，第一多媒体本体为视频类多媒体，第一多媒体本体的第一全局特征是指第一多媒体本体完整的关键视频帧的视频帧特征在特征交互后所得到的特征，用于表征在整个全视频时长上的视频特征，即所有关键视频帧上的视频特征，即将视频全时长的视频帧特征转换为稠密特征向量。第一局部特征是指由第一多媒体本体中经过处理后的关键数据帧的数据帧特征，该第一局部特征可以表征第一多媒体本体在局部时长上的特征。例如，第一多媒体本体为视频类多媒体，第一多媒体本体的第一局部特征是指第一多媒体本体的裁剪后的关键视频帧的视频帧特征，用于表征在局部视频时长上的视频特征，即某个裁剪后的关键视频帧上的视频特征。第一全局特征可以更概括性的表征第一多媒体本体，第一局部特征可以更细粒度的表征第一多媒体本体。因此可以先通过第一全局特征进行全局的匹配判断，在无法由第一全局特征进行匹配判断后，通过第一局部特征进行精细的匹配判断。

S208、基于第一局部特征和第二局部特征确定与多媒体数据对相关联的局部特征匹配度，并将局部特征匹配度作为多媒体数据对的第三类型匹配度。

其中，可以基于第一局部特征和第二局部特征确定多媒体数据对中的第一多媒体本体在待处理多媒体本体中的匹配片段，以基于该匹配片段确定局部特征匹配度。比如，可以是对第一局部特征和第二局部特征进行局部特征匹配处理，得到与多媒体数据对相关联的局部特征匹配度，将局部特征匹配度作为多媒体数据对的第三类型匹配度。

其中，在第一多媒体本体包括视频类多媒体时，确定局部特征匹配度的过程，和在第一多媒体本体包括音频类多媒体时，确定局部特征匹配度的过程相同。此处以第一多媒体本体包括视频类多媒体为例对局部特征匹配度的获取过程进行描述。

可以理解，当第一多媒体本体包括视频类多媒体和音频类多媒体、待处理多媒体本体包括视频类多媒体和音频类多媒体时，可以确定第一多媒体本体和待处理多媒体本体在视频类多媒体下的局部特征匹配度，以及在音频类多媒体下的局部特征匹配度，将前述两种局部特征匹配度的均值作为第一多媒体本体和待处理多媒体本体之间的局部特征匹配度。

例如，第一局部特征包括K个视频帧特征；K个视频帧特征为K个裁剪后的关键视频帧的视频帧特征；K个裁剪后的关键视频帧中一个裁剪后的关键视频帧对应第一多媒体本体中一个关键视频帧；第二局部特征包括U个视频帧特征：U个视频帧特征为U个裁剪后的关键视频帧的视频帧特征；U个裁剪后的关键视频帧中一个裁剪后的关键视频帧对应待处理多媒体本体中一个关键视频帧；K和U均为正整数。也就是说，第一关键视频数据包括K个关键视频帧，K个视频帧特征中的一个视频帧特征对应K个关键视频帧中的一个关键视频帧；第二局部特征包括U个视频帧特征；第二关键视频数据包括U个关键视频帧，U个视频帧特征中的一个视频帧特征对应U个关键视频帧中的一个关键视频帧。确定局部特征匹配度可以是：将第一局部特征中的K个视频帧特征作为K个待匹配特征，将第二局部特征中的U个视频帧特征作为U个待比对特征；

获取K个待匹配特征中每个待匹配特征分别，与U个待比对特征中每个待比对特征之间的特征匹配度；基于每个待匹配特征分别与每个待比对特征之间的特征匹配度，对U个待比对特征进行比对特征筛选，筛选得到与每个待匹配特征相匹配的待比对特征；与一个待匹配特征相匹配的待比对特征为，一个待匹配特征与每个待比对特征之间的特征匹配度中，最大特征匹配度所对应的待比对特征；基于每个待匹配特征和每个待匹配特征所匹配的待比对特征，构建K个视频帧数据对；一个视频帧数据对包括一个第一视频帧和一个第二视频帧，一个第一视频帧为一个待匹配特征对应的关键视频帧，一个第二视频帧为一个待匹配特征所关联的待比对特征对应的关键视频帧；基于K个视频帧对，对第一多媒体本体和待处理多媒体本体进行本体匹配处理，得到第一多媒体本体在待处理多媒体本体中的匹配片段，将匹配片段的片段长度与待处理多媒体本体的视频长度之间的比值，确定为与多媒体数据对相关联的局部特征匹配度。

可以理解，匹配片段也就是第一多媒体本体在待处理多媒体本体中的相似片段，即待处理多媒体本体中可能存在侵权的片段。可以理解，也就是以视频帧为粒度进行两个多媒体本体之间的匹配判断，可以实现帧级别的动态侵权匹配，可以具体到确定某一帧是否属于侵权片段。

也就是说，确定与每个待匹配特征最匹配的待比对特征，以构建视频帧数据对，进而可以确定由相邻视频帧数据所构成的视频片段是否属于匹配片段。

其中，确定第一多媒体本体在待处理多媒体本体中的匹配片段可以是，获取K个视频帧数据对中的相邻视频帧数据对；相邻视频帧数据对包括视频帧数据对v和视频帧数据对v+1；v为小于K的正整数；若视频帧数据对v和视频帧数据对v+1满足视频匹配条件，则确定视频帧数据对v包含的第二视频帧和视频帧数据对v+1包含的第二视频帧所构成的第一视频片段，并将第一视频片段作为第一多媒体本体在待处理多媒体本体中的匹配片段。可以理解，第一视频片段是视频帧数据对v包含的第二视频帧和视频帧数据对v+1包含的第二视频帧在待处理多媒体本体中所对应的视频片段。

其中，视频匹配条件包括以下至少一项：视频帧数据对v包含的第二视频帧在U个关键视频帧中的位置，位于视频帧数据对v+1包含的第二视频帧在U个关键视频帧中的位置之前；视频帧数据对v包含的第二视频帧和视频帧数据对v+1包含的第二视频帧，在U个关键视频帧中，间隔的关键视频帧的数量小于或等于间隔数量阈值；第一视频片段的片段长度，处于与第二视频片段的片段长度相关联的片段长度范围内；第二视频片段是由视频帧数据对v包含的第一视频帧和视频帧数据对v+1包含的第一视频帧所构成的视频片段。其中，间隔数量阈值和片段长度范围由相关业务人员设置，比如片段长度范围为：0.9*第二视频片段的片段长度～1.1*第二视频片段的片段长度。

例如，视频帧数据对v包含的第二视频帧在U个关键视频帧中的位置为4，若视频帧数据对v+1包含的第二视频帧在U个关键视频帧中的位置为5，表示视频帧数据对v包含的第二视频帧在U个关键视频帧中的位置，位于视频帧数据对v+1包含的第二视频帧在U个关键视频帧中的位置之前；视频帧数据对v包含的第二视频帧在U个关键视频帧中的位置为4，若视频帧数据对v+1包含的第二视频帧在U个关键视频帧中的位置为3，表示视频帧数据对v包含的第二视频帧在U个关键视频帧中的位置，位于视频帧数据对v+1包含的第二视频帧在U个关键视频帧中的位置之后，即不满足视频匹配条件。

又如，视频帧数据对v包含的第二视频帧和视频帧数据对v+1包含的第二视频帧，在U个关键视频帧中，间隔的关键视频帧的数量为5，若间隔数据阈值为6，表示间隔的关键视频帧小于间隔数据阈值；若间隔数据阈值为4，表示间隔的关键视频帧大于间隔数据阈值，即不满足视频匹配条件。

又如，片段长度范围为：0.9*第二视频片段的片段长度～1.1*第二视频片段的片段长度，若第二视频片段的片段长度为1s，则片段长度范围为0.9s～1.1s；若第一视频片段的片段长度的长度为1.05s，表示第一视频片段的片段长度，处于片段长度范围内；若第一视频片段的片段长度的长度为1.3s，表示第一视频片段的片段长度，不处于片段长度范围内，第一视频片段的片段长度与第二视频片段的片段长度之间的长度差异过大，不满足视频匹配条件。

例如，第一局部特征包括视频帧特征c11-c13；第二局部特征包括视频帧特征c21-c28；确定视频帧特征c11-c13分别和视频帧特征c21-c28之间的特征匹配度(即特征相似度)，从视频帧特征c11分别和视频帧特征c21-c28之间的特征匹配度中获取最大特征匹配度1，将最大特征匹配度1在第二局部特征对应的视频帧特征作为与视频帧特征c11相匹配的视频帧特征；从视频帧特征c12分别和视频帧特征c21-c28之间的特征匹配度中获取最大特征匹配度2，将最大特征匹配度2在第二局部特征对应的视频帧特征作为与视频帧特征c12相匹配的视频帧特征；从视频帧特征c13分别和视频帧特征c21-c28之间的特征匹配度中获取最大特征匹配度3，将最大特征匹配度3在第二局部特征对应的视频帧特征作为与视频帧特征c13相匹配的视频帧特征；构建视频帧数据对1-3(视频帧数据对1包括视频帧特征c11和与视频帧特征c11相匹配的视频帧特征、视频帧数据对2包括视频帧特征c12和与视频帧特征c12相匹配的视频帧特征、视频帧数据对3包括视频帧特征c13和与视频帧特征c13相匹配的视频帧特征)；若视频帧数据对1中与视频帧特征c11相匹配的视频帧特征，以及视频帧数据对2中与视频帧特征c12相匹配的视频帧特征满足视频匹配条件，则将与视频帧特征c11相匹配的视频帧特征和与视频帧特征c12相匹配的视频帧特征在待处理多媒本体中所对应的视频片段作为第一多媒体本体和待处理多媒体本体之间的匹配片段；若视频帧数据对2中与视频帧特征c12相匹配的视频帧特征，以及视频帧数据对3中与视频帧特征c13相匹配的视频帧特征满足视频匹配条件，则将与视频帧特征c12相匹配的视频帧特征和与视频帧特征c13相匹配的视频帧特征在待处理多媒本体中所对应的视频片段作为第一多媒体本体和待处理多媒体本体之间的匹配片段。由此可以得到第一多媒体本体和待处理多媒体本体之间的最终匹配片段，并将该最终确定出的匹配片段的片段长度和待处理多媒体本体的视频长度之间的比值确定为第一多媒体本体和待处理多媒体本体之间的局部特征匹配度。可以理解，该局部特征匹配度也可以视为是第一多媒体本体和待处理多媒体本体之间的相似度、侵权率。

S209、若第三类型匹配度达到局部匹配度阈值，则将第三类型匹配度达到局部匹配度阈值的多媒体数据对，确定为第二目标多媒体数据对，将第二目标多媒体数据对中的待处理多媒体本体，确定为与第一多媒体本体相匹配的待处理多媒体本体，将确定出的与第一多媒体本体相匹配的待处理多媒体本体，确定为第一多媒体本体的第二匹配多媒体本体。

可以理解，由第一全局特征和第二全局特征确定出的全局特征匹配度为多媒体数据对的第一类型匹配度。由第一关联多媒体信息和第二关联多媒体信息确定出的信息匹配度为多媒体数据对的第二类型匹配度。由第一局部特征和第二局部特征确定出的局部特征匹配度为多媒体数据对的第三类型匹配度。在第三类型匹配达到预设的局部匹配度阈值，表示第一多媒体本体在待处理多媒体本体中的匹配片段，在待处理多媒体本体上的占比过多，即第一多媒体本体与待处理多媒体本体有较多片段是相似的。

因此，可以将待处理多媒体本体作为第一多媒体本体的侵权本体。也就是将第三类型匹配度达到局部匹配度阈值的多媒体数据对，确定为第二目标多媒体数据对，并将第二目标多媒体数据对中的待处理多媒体本体，确定为第二多媒体本体的目标匹配本体。可以理解，第二匹配多媒体本体表示是基于第三类型所确定的与第一多媒体本体相似的多媒体本体。

因此，本方案提出了一种基于多媒体本体的全局特征及局部特征的漏斗分层检测框架，可应用于侵权匹配场景，如互联网短视频中的侵权检测。可以提高侵权匹配结果的召回率、精确率和准确性，以及减少侵权匹配过程的耗时。其中，漏斗分层检测框架是指以级联形式，每一层过滤掉需要进行侵权匹配的数据，从而不断精粹得到最终的匹配结果的方案框架，可以理解，本方案在于，首先采用全局特征结合高速索引方案(即对业务全局特征数据库中的第二全局特征进行聚类，基于聚类结果进行第二全局特征的查找)将与第一全局特征相匹配的第二全局特征(与第一全局特征相匹配的第二全局特征即为疑似与第一多媒体本体相似的第二多媒体本体的第二全局特征)以高召回率进行初步筛选出，从而可以得到可疑第二多媒体本体，而后基于全局特征和关联多媒体信息进行初次侵权研判，以得到能够确定出是否存在侵权行为的第二多媒体本体；对于无法确定出是否存在侵权行为的第二多媒体本体，则采用局部特征进行精细计算以保证侵权匹配的校准和研判兜底。也就是说，每一步步骤均会筛选出一部分数据以执行下一个步骤，第一个步骤(包括全局特征提取模型、高速索引模块)可以筛选出疑似与第一多媒体本体相似的第二多媒体本体，第二个步骤(包括基于全局特征与关联多媒体信息的侵权研判模型，即多媒体处理模型)可以筛选出无法确定出是否存在侵权行为的第二多媒体本体，第三个步骤(包括基于局部特征的侵权研判模块)进行最终的侵权研判兜底。

可以理解，本方案可以通过全局特征结合高速索引方案，快速全面地获得疑似与第一多媒体本体相似的第二多媒体本体。在互联网短视频的侵权匹配场景中，可以适应互联网信息没有边界的特点，从近乎无限的互联网视频池子(所接入的多媒体平台)中获取可疑短视频，如以小时级别耗时完成百万量级的对象全局特征数据库与十亿量级的业务全局特征数据库的比对，可以得到可疑数据对(即构建得到可疑数据对【客户作品-涉嫌侵权的互联网作品】)，粗筛保证召回，由测试可得，召回率损失保持在1％，以作为级联检测架构中较为靠前的环节，尽可能地将检测范围缩小。利用全局特征和关联多媒体信息进行首次侵权研判，可以将大量搬运型的侵权视频快速检出，也就是将其中较为明显的搬运型侵权视频进行快速检出，该环节检出数据精度高，成本极低并且时间开销短，响应快。对于前述环节无法确认是否侵权的视频(往往是局部片段侵权)，则基于局部特征进行精细研判，将局部侵权的视频以高精度高召回率的形式检出，完成了侵权匹配的全覆盖。

同时，还可以利用全局特征，以及关联多媒体信息(如标题、描述、发布者信息等)，经过特征转换形成多维度的匹配度整合特征，利用以上匹配度整合特征进行基于机器学习的侵权研判，输出多媒体数据对相关联的数据对匹配度，即多媒体数据对中的待处理多媒体本体的侵权可能性。可以理解，对于其中模型有准确把握判断的多媒体数据对(也就是数据对匹配度(即侵权置信度)极高或极低)，直接输出为侵权或不侵权。该方案增加了易采集、易存储的关联多媒体信息，将关联多媒体信息作为辅助研判，结合此前环节获得的全局特征进行机器学习研判，具有精度高，检出迅速，检出量大的优点。

同时，基于局部特征的侵权研判模块(即基于深度图像特征的高效侵权片段检测算法，对这种局部侵权的情形能够有较好的覆盖)，用于接收以上研判模块无法确定是否侵权的多媒体数据对(比如通常是只有局部视频片段有侵权行为，即第二多媒体本体中局部来源于客户提供的第一多媒体本体)，并进行局部特征的提取和侵权匹配，从而输出精细的片段侵权判断结果。其中具体步骤包括视频帧边框检测处理(用于获取视频中的视频边框，即无效视频数据)、关键视频帧剪切处理(用于去除视频中的无意义区域，提高特征提取的有效性，得到视频帧特征序列)，帧级别的侵权匹配(用于进行基于动态规划的侵权片段比对，找出两个视频中可能存在的侵权片段，以及输出侵权率)，从而输出确定性的侵权判断结果。该模块是对此前环节无法研判的多媒体数据对的兜底，对侵权检测对抗性具有优良的鲁棒性，并且能够很好地平衡效果和开销，研判结果精度极高，作为分层漏斗检测框架的最后一层，具有良好的兜底效果，且能输出所有具体侵权片段。

可以理解，本发明可应用到互联网的视频版权匹配业务中，每日检出的侵权视频数据会被传送分发给对应的发布主(即第一业务对象)，由发布主确定是否需要进行维权。比如具体可以是输出确定存在侵权行为的互联网短视频侵，比如输出存在侵权的多媒体本体平台、侵权视频的侵权链接、侵权视频的侵权时长、侵权视频的侵权时长占比(即侵权率)、侵权视频的具体侵权片段等。

例如，可以将第一匹配多媒体本体和第二匹配多媒体本体输出显示在匹配业务检测平台所提供的匹配业务检测界面，由第一业务对象查看，如图14-图15所示，图14-图15是本申请实施例提供的一种匹配业务检测界面的示意图，第一业务对象可以查看相关业务数据，比如被侵权的视频数量(如数量为7)、检索出的侵权视频数量(如数量为87)、待维权的视频数量(如为15)、维权成功的视频数量(如为45)、检索出的侵权视频数据的播放量(如为510)；并且，可以在维权管理中查看到被侵权的视频数据(比如被侵权视频的视频标识(如为001、002))、检索出的侵权视频数据(比如侵权视频的数据地址(如为123.ca、456.ca)、侵权视频的侵权片段查看控件、侵权视频的发布者账号(如为AA、BB)、侵权视频的视频标识(如为321、356))，被侵权视频的维权状态(比如待维权、维权中等等)、维权操作(申请维权、撤销维权等等)。例如，某团队机构可以上传需要进行侵权检测的第一多模态数据，由匹配业务检测平台为该团队机构进行侵权检测。

同时，还可以在匹配业务检测界面上输出原版片段和侵权片段(即显示原版视频帧和侵权视频帧)，由第一业务对象进行侵权比对，如将待处理多媒体本体中与第一多媒体本体中的某个视频帧相似的视频帧(即基于局部特征的侵权研判模块所确定出的：待匹配特征对应的关键视频帧和与待匹配特征相匹配的待比对特征对应的关键视频帧)进行显示。

其中，在实际业务中，侵权者往往不会完全照搬原视频，而是会进行适量的改动。比如，如图15，侵权视频是对原版视频进行改动得到的，如进行视频画面的裁剪和改色，如与待匹配特征相匹配的待比对特征对应的关键视频帧(即侵权视频帧)即为：对原版视频中的待匹配特征对应的关键视频帧(即原版视频帧)进行改色之后所得到的视频帧。又如，侵权视频是对原版视频进行部分画面遮盖所得到的，如在视频画面上进行贴图和遮盖，如与待匹配特征相匹配的待比对特征对应的关键视频帧(即侵权视频帧)即为：待匹配特征对应的关键视频帧(对原版视频帧)进行遮盖之后所得到的侵权视频中的视频帧。

例如，如图16所示，图16是本申请实施例提供的一种侵权匹配业务的框架示意图；其中，主要包括：全局特征高速查找模块(模块1)、基于全局特征和关联多媒体信息的侵权匹配模块(模块2)、基于局部特征的侵权研判模块(模块3)。

其中，对于模块1：从所接入的多媒体平台获取第二多模态数据(包括第二多媒体本体和第二关联多媒体信息)，提取第二多媒体本体的第二全局特征，以构建与多媒体平台相关联的业务全局特征数据库；向第一业务对象提供匹配业务检测界面，接收第一业务对象通过匹配业务检测界面上传的第一多模态数据(包括第一多媒体本体和第一关联多媒体信息)，提取第一多媒体本体的第一全局特征，以构建与第一业务对象相关联的对象全局特征数据库；在接收到第一业务对象相关联的匹配业务检测请求时，基于匹配业务检测请求从对象全局特征数据库中获取待进行侵权匹配的第一多媒体本体的第一全局特征，通过第一多媒体本体的第一全局特征发起侵权检测服务；也就是，在业务全局特征数据库中查找与第一全局特征相匹配的第二全局特征，将查找到的第二全局特征所对应的第二多媒体本体作为待处理多媒体本体，基于第一多媒体本体和待处理多媒体本体，构建得到多媒体数据对。

可以理解，对于模块1，输入是第一多媒体本体的第一全局特征，输出是基于第一全局特征和第二全局特征之间的全局特征匹配度(即特征相似度)所构建的多媒体数据对[第一多媒体本体，待处理多媒体本体]。

其中，第一全局特征和第二全局特征指的是对多媒体本体的整体视频内容进行识别和特征编码，使之成为一个固定维度和长度的稠密数值特征表示。全局特征是对多媒体本体的视频内容的精准概括性介绍，信息量巨大，若两个多媒体本体的内容较为相似甚至相同，则其提取出来的全局特征也较为相似或者相同。

其中，以第一全局特征为例，提取过程如下：接收待提取全局特征的第一多媒体本体(即用户上传的原始短视频)；对第一多媒体本体进行关键视频帧的提取，提取得到关键视频帧序列；将关键视频帧序列输入全局特征提取模型，获得第一全局特征，该特征以数值向量形式呈现。可以将以上特征，连同第一多媒体本体的本体标识，进行统一存储，形成对象全局特征数据库。

此外，模块1还包括高速查找模块。查找的本质是根据待查找数据(第一全局特征)，从被查找数据(第二全局特征)中找出相似的数据。小批量的查找可以用暴力遍历的方式来寻找，但对于互联网短视频，数据量大，面对的是亿量级的查找需求，因此需要使用高速查找方案。因此，对第二全局特征加索引，是查找的首个步骤，此处本方案采用Faiss(一种被用于海量向量检索的高性能框架)作为底层框架。其中，Faiss中支持多种索引方式，如IndexFlatL2(一种检索方式)、IndexIVFFlat(一种检索方式)、IndexIVFPQ(一种检索方式)等。其中indexFlatL2是最简单最常用的索引类型，对特征向量执行暴力的L2距离搜索，也是唯一可以保证精确结果的索引类型；如果单纯使用IndexFlatL2速度不会太快，Faiss提供了IndexIVFFlat这样的索引用于加速。其加速的原理是划分搜索空间，就是在d维空间中定义Voronoi单元格，每个数据库矢量都落入其中一个单元格中，将数据集分割成了若干部分。在搜索时，只用查询x所在单元中包含的数据库向量y与少数几个相邻查询向量进行比较。如果一个索引在处理很大规模向量数据时都往缓存中存储完整的向量，那么对硬件的压力会特别大，为了扩展到非常大的数据集，Faiss提供了基于乘积量化(ProductQuantizer)的方法来压缩存储的向量，减小数据量。除此之外，IndexIVFPQ会应用到Kmeans聚类中心算法。

因此，在本方案中，选用了IndexIVFFlat+内积距离来作为索引方案，本质上是一种倒排索引，倒排索引首先通过聚类方法将业务全局特征数据库中的第二全局特征分割成若干全局特征数据集，当第一全局特征来临，可以选择距离最近的类中心，然后在类中心对应的全局特征数据集中应用精确查询方法。也就是可以：对第二全局特征进行聚类，得到固定数目的全局特征数据集的全局特征中心，此处的固定数目是预设定的数值；当获取到第一全局特征，计算第一全局特征与各个全局特征中心之间的特征距离，得到特征距离最近的TopK个全局特征数据集；对于特征距离最近的TopK个全局特征数据集，接下来计算第一全局特征与这些全局特征数据集里面的第二全局特征之间的特征距离，从而获取得到与第一全局特征相匹配的第二全局特征。

此外，第二全局特征的高速索引构建完成后，Faiss会读取这些索引，并将其加载到内存中，作为一个侵权检测服务存在。由此还需要构建全局特征查找接口。Faiss库提供了库函数来作为检索的基础调用，在接收到匹配业务检测请求时，可以基于匹配业务检测请求确定相关匹配业务参数，以传入全局特征查找接口。可以利用全局特征查找接口，对侵权检测服务进行调用，并获取检测结果，以构建多媒体数据对。最终输出的多媒体数据对的格式可以如下：【第一多媒体本体的本体标识，待处理多媒体本体的本体标识，第一全局特征和第二全局特征之间的全局特征匹配度(即可以通过第一全局特征和第二全局特征之间的特征距离确定)】。

其中，对于模块2：利用多媒体数据对中多媒体本体的关联多媒体信息和全局特征进行更加细致的侵权研判。其中，该模块2的输入可以是多媒体数据对，输出可以是【第一多媒体本体的本体标识，待处理多媒体本体的本体标识、全局特征匹配度、数据对匹配度、标题文本匹配度、标题特异度、描述文本匹配度、视频长度匹配度、对象文本信息匹配度、是否存在侵权行为】。可以理解，在训练得到用于研判的多媒体处理模型后，对于多媒体数据对，都进行研判，并根据侵权置信度阈值进行筛选，对于其中侵权置信度超过或等于阈值x1的，确定为侵权本体(即确认侵权)，对于置信度低于阈值x2的，确定为非侵权本体(即确认不侵权)。对于置信度阈值处于x2和阈值x1之间的，无法确认是否侵权，继续保持为可疑对子，输入到下一个流程中。其中，输入多媒体处理模型的匹配度整合特征可以由第一类型匹配度和第二类型匹配度确定，第二类型匹配度可以包括但不限于标题文本匹配度、标题特异度、描述文本匹配度、视频长度匹配度、对象文本信息匹配度。

其中，对于模块3：输入是在上个模块2中，无法确定性研判的可疑多媒体数据对，输出结果为是否侵权，以及侵权的具体片段长度占比。其中，可以提取多媒体数据对中第一多媒体本体的第一局部特征和第二多媒体本体的第二局部特征，通过第一局部特征和第二局部特征进行侵权匹配。比如，从第一多媒体本体中提取第一关键视频数据，对第一关键视频数据进行局部特征提取处理，得到第一局部特征，并从第二多媒体本体中提取第二关键视频数据，对第二关键视频数据进行局部特征提取处理，得到第二局部特征，并基于第一局部特征和第二局部特征进行视频帧动态匹配，得到第一多媒体本体和第二多媒体本体之间的匹配片段(即侵权片段)，并通过该匹配片段确定第一多媒体本体和第二多媒体本体之间的局部特征匹配度，以基于该局部特征匹配度确定侵权研判结果，如侵权或者不侵权。

其中，视频本体中，侵权者往往会采用画面变化来对抗侵权检测，在画面的边缘增加各种边框(如黑边)或者无意义的静态画面，是常见的手段。此外，为了适配不同的长宽比的视频画面，部分平台视频也会自动增加边框。可以理解，画面边缘的边框，会影响后续画面比对的特征提取，从而影响精度和召回率，因此需要对画面边框进行检测并去除。因此以第一全局特征为例，在提取第一全局特征时，可以先提取对第一多媒体本体的视频帧，对第一多媒体本体中的视频帧进行视频帧边框检测处理，得到第一视频帧边框，基于第一视频帧边框对关键视频帧进行边框去除，得到第一关键视频数据。

其中，以第一局部特征通过关键视频帧序列A得到、第二局部特征通过关键视频帧序列B得到为例，视频帧动态匹配可以是：S1、遍历A中所有关键视频帧，计算其与B中所有关键视频帧的相似度，此处的相似度采用汉明距离计算，该计算可方便地使用并行加速。对于A中每个关键视频帧，取汉明距离最小的B中的关键视频帧进行存储，存储格式为对于A中所有关键视频帧均进行以上计算，最终形成以上格式数据的视频帧数据对列表M，M格式例子为/>S2、对于列表M，初步设定a_i为A中匹配片段的起点，/>为B中匹配片段的起点并且与a_i是对应匹配的；在M中向后遍历寻找后续的匹配点；比如，首先观察后续的a_i+1与/>匹配点，需要判断/>与/>形成的片段，是否满足视频匹配条件，比如确定/>与/>之间的前后顺序有无错乱(顺序性判断)，/>与之间的视频帧间隔数量距离是否过大(即连续性判断)，a_i到a_i+1所形成的片段和/>与形成的片段的长度差异是否过大；S3、若满足视频匹配条件，则认为a_i到a_i+1所形成的片段，与/>与/>形成的片段是相似片段，即/>与/>形成的片段为侵权片段，同时继续遍历视频帧数据对列表，得到最终的匹配片段；S4、将以上获得所有匹配片段，进行汇总，计算其片段长度，以匹配片段的片段长度/第二多媒体本体的视频时长作为侵权率，并且将侵权率>指定阈值(如20％)的，视为侵权并进行输出。

也就是说，对于本方案所提出的侵权匹配方法，输入是客户提供的待保护的视频，具体来说，提供的是待保护的视频的视频本体及其相关多媒体信息。最终输出的是涉嫌侵权的互联网视频，以及具体的侵权率。

进一步的，请参见图17，图17是本申请实施例提供的一种多媒体数据的处理装置的结构示意图。如图17所示，多媒体数据的处理装置1可应用于计算机设备。应当理解，该多媒体数据的处理装置1可以是运行于计算机设备中的一个计算机程序(包括程序代码)，例如该多媒体数据的处理装置1可以为一个应用软件；可以理解的是，该多媒体数据的处理装置1可以用于执行本申请实施例提供的方法中的相应步骤。如图17所示，多媒体数据的处理装置1可以包括：全局特征处理模块11、第一匹配度确定模块12、第二匹配度确定模块13、数据对匹配模块14；其中：

全局特征处理模块11，用于获取第一多模态数据，对第一多模态数据中的第一多媒体本体进行全局特征提取，得到第一多媒体本体的第一全局特征；第一多模态数据包括与第一多媒体本体相关联的第一关联多媒体信息；

全局特征处理模块11，还用于从业务全局特征数据库中获取第二全局特征，对第一全局特征与第二全局特征进行全局特征匹配处理，得到第一全局特征与第二全局特征之间的全局特征匹配度，通过第一全局特征与第二全局特征之间的全局特征匹配度，从第二全局特征中查找与第一全局特征相匹配的第二全局特征；业务全局特征数据库是由第二多模态数据中的第二多媒体本体的第二全局特征所确定的；第二多模态数据包括与第二多媒体本体相关联的第二关联多媒体信息；

第一匹配度确定模块12，用于将查找到的第二全局特征所对应的第二多媒体本体作为待处理多媒体本体，基于第一多媒体本体和待处理多媒体本体，构建得到多媒体数据对，将第一全局特征与查找到的第二全局特征之间的全局特征匹配度作为多媒体数据对的第一类型匹配度；

第二匹配度确定模块13，用于将第二关联多媒体信息中与待处理多媒体本体相关联的第二关联多媒体信息，确定为待处理多媒体信息，对第一关联多媒体信息和待处理多媒体信息进行信息匹配处理，得到第一关联多媒体信息和待处理多媒体信息之间的信息匹配度，将信息匹配度作为多媒体数据对的第二类型匹配度；

数据对匹配模块14，用于基于第一类型匹配度和第二类型匹配度，对多媒体数据对进行数据对匹配，得到与多媒体数据对相关联的数据对匹配度，基于数据对匹配度，对多媒体数据对进行数据对筛选，筛选得到与第一多媒体本体相匹配的待处理多媒体本体，将筛选出的待处理多媒体本体确定为第一多媒体本体的第一匹配多媒体本体。

其中，数据对匹配模块14具体用于：

对第一类型匹配度和第二类型匹配度进行匹配度整合，得到多媒体数据对中的第一多媒体本体与待处理多媒体本体的匹配度整合特征，对匹配度整合特征进行整合特征处理，得到与多媒体数据对相关联的数据对匹配度；

在数据对匹配度达到第一数据对匹配度阈值时，将数据对匹配度达到第一数据对匹配度阈值的多媒体数据对，确定为从多媒体数据对中筛选出的第一目标多媒体数据对；

将所筛选出的第一目标多媒体数据对中的待处理多媒体本体，确定为从多媒体数据对中所筛选出的与第一多媒体本体相匹配的待处理多媒体本体，将筛选出的与第一多媒体本体相匹配的待处理多媒体本体，确定为第一多媒体本体的第一匹配多媒体本体。

其中，第一多模态数据是由第一业务对象通过匹配业务检测平台所提供的匹配业务检测界面所上传的；业务全局特征数据库为匹配业务检测平台所对应的平台数据库中的数据库；平台数据库包括除业务全局特征数据库之外的对象全局特征数据库；对象全局特征数据库是基于与第一业务对象相关联的M个对象多媒体本体的全局特征所构建得到的；M为正整数；一个对象多媒体本体为第一业务对象上传至匹配业务检测平台的一个多模态数据中的多媒体本体；一个对象多媒体本体的全局特征是对与第一业务对象相关联的一个对象多媒体本体中的关键数据帧进行全局特征提取处理后所得到的；

全局特征处理模块11还包括：

本体标识获取单元111，用于在获取到第一业务对象相关联的匹配业务检测请求时，基于匹配业务检测请求，确定第一多媒体本体的本体标识；多模态匹配请求是由第一业务对象通过匹配业务检测界面所发送的；

全局特征查找单元112，用于获取对象全局特征数据库中的M个对象多媒体本体的全局特征，在M个对象多媒体本体的全局特征中，查找本地标识所对应的第一多媒体本体的全局特征；

全局特征查找单元112，还用于将查找到的本地标识所对应的第一多媒体本体的全局特征，确定为第一多模态数据中的第一多媒体本体的第一全局特征。

其中，本体标识获取单元111具体用于：

在检测到匹配业务检测请求中携带有第一多媒体本体的标识时，从匹配业务检测请求中，获取第一多媒体本体的标识；

将获取到的第一多媒体本体的标识，作为第一多媒体本体的本体标识。

其中，本体标识获取单元111具体用于：

在检测到匹配业务检测请求中携带有第一多媒体本体的数据地址时，从匹配业务检测请求中，获取第一多媒体本体的数据地址；

在通过第一多媒体本体的数据地址查找到第一多媒体本体时，获取所查找到的第一多媒体本体的标识；

其中，全局特征处理模块11还包括：

模态数据获取单元113，用于在匹配业务检测平台接入已进行数据授权的多媒体平台时，将多媒体平台所提供的多模态数据，作为第二多模态数据；

关键数据获取单元114，用于从第二多模态数据包括的第二多媒体本体中，获取第二多媒体本体中的关键数据帧；

全局特征提取单元115，用于对第二多媒体本体中的关键数据帧进行全局特征提取处理，得到第二多媒体本体的第二全局特征；

数据库构建单元116，用于基于第二多媒体本体的第二全局特征，构建得到与多媒体平台相关联的业务全局特征数据库。

其中，第一多媒体本体包括视频类多媒体；

全局特征处理模块11还包括：

全局模型获取单元117，用于获取与视频类多媒体相关联的全局特征提取模型；全局特征提取模型包括特征提取组件、特征交互组件，以及特征压缩组件；

关键数据获取单元114，用于从第一多媒体本体中提取出K个关键视频帧；

全局特征提取单元115，用于将K个关键视频帧输入特征提取组件，由特征提取组件分别对每个关键视频帧进行特征提取处理，得到每个关键视频帧的视频帧特征；K为正整数；

全局特征提取单元115，还用于将K个关键视频帧的视频帧特征输入特征交互组件，由特征交互组件对K个关键视频帧的视频帧特征进行特征交互处理，得到每个关键视频帧的视频帧交互特征；

全局特征提取单元115，还用于将K个关键视频帧的视频帧交互特征对应的拼接交互特征输入特征压缩组件，由特征压缩组件对拼接交互特征进行特征压缩处理，得到第一多媒体本体的第一全局特征。

其中，关键数据获取单元114包括：

基础数据提取子单元1141，用于从第一多媒体本体中提取出R个基础视频帧，获取R个基础视频帧中的相邻视频帧；相邻视频帧包括基础视频帧i和基础视频帧i+1；R为大于K的正整数；i为小于R的正整数；

差分值确定子单元1142，用于获取基础视频帧i与基础视频帧i+1之间的帧间差分值，并将基础视频帧i与基础视频帧i+1之间的帧间差分值，确定为基础视频帧i+1对应的视频帧差分值；

差分值确定子单元1142，还用于直到i等于R-1时，得到R个基础视频帧包括的R-1个基础视频帧中每个基础视频帧对应的视频帧差分值；R-1个基础视频帧为R个基础视频帧中除第1个基础视频帧以外的基础视频帧；

关键数据提取子单元1143，用于将由R-1个基础视频帧对应的视频帧差分值所构成的序列，确定与R-1个基础视频帧相关联的差分值序列，基于差分值序列，对R-1个基础视频帧进行关键帧提取，得到从R-1个基础视频帧中提取出的K个关键视频帧。

其中，基础视频帧i与基础视频帧i+1的颜色空间均为第一颜色空间；

差分值确定子单元1142具体用于：

在将基础视频帧i的颜色空间与基础视频帧i+1的颜色空间均从第一颜色空间转换至第二颜色空间时，基于基础视频帧i在第二颜色空间中的颜色通道值和基础视频帧i+1在第二颜色空间中的颜色通道值，确定基础视频帧i与基础视频帧i+1之间的帧间差分值。

其中，差分值序列包含滑动窗口对应的第一子序列；第一子序列为在差分值序列中所确定的滑动窗口所在的序列；

差分值确定子单元1142具体用于：

获取滑动窗口的滑动步长，基于滑动步长将滑动窗口由第一子序列变更为第二子序列；第二子序列为在差分值序列中所确定的第一子序列的下一序列；第二子序列包括多个视频帧差分值；

获取多个视频帧差分值对应的平均差分值，并在第二子序列中，将目标位置上的视频帧差分值更新为平均差分值，得到目标位置上的更新后的视频帧差分值；

将更新后的视频帧差分值所在的第二子序列，确定为更新后的第二子序列，并通过更新后的第二子序列更新差分值序列，得到更新后的差分值序列；

基于更新后的差分值序列，从R-1个基础视频帧中提取出K个关键视频帧。

其中，更新后的差分值序列包括L个视频帧差分值，L个视频帧差分值包括视频帧差分值j、视频帧差分值j+1、和视频帧差分值j+2；L为大于2的正整数；j为小于L-1的正整数；

关键数据提取子单元1143具体用于：

基于更新后的差分值序列，确定视频帧差分值j对应的梯度值、视频帧差分值j+1对应的梯度值，以及视频帧差分值j+2对应的梯度值；

若视频帧差分值j对应的梯度值大于参考梯度值、视频帧差分值j+2对应的梯度值小于参考梯度值，且视频帧差分值j+1对应的梯度值处于与参考梯度值相关联的梯度范围内，则将R-1个基础视频帧中，与视频帧差分值j+1相关联的基础视频帧作为关键视频帧。

其中，全局特征提取单元115具体用于：

将K个关键视频帧的视频帧特征输入特征交互组件，由特征交互组件对K个关键视频帧的视频帧特征进行特征处理，得到每个关键视频帧的加权序列；一个关键视频帧的加权序列包括一个关键视频帧针对每个关键视频帧的加权系数；

分别通过每个关键视频帧的加权序列对K个关键视频帧的视频帧特征进行加权求和，得到每个关键视频帧对应的加权视频帧特征；

基于每个关键视频帧对应的加权视频帧特征确定每个关键视频帧的视频帧交互特征。

其中，全局模型获取单元117包括：

全局模型训练子单元1171，用于获取待训练的初始特征提取模型；初始特征提取模型中包括待训练的特征提取组件、待训练的特征交互组件，以及待训练的特征压缩组件；

全局样本获取子单元1172，用于获取用于训练初始特征提取模型的样本多媒体本体，从样本多媒体本体中提取出多个样本关键视频帧；

全局模型训练子单元1171，还用于将多个样本关键视频帧输入待训练的特征提取组件，由待训练的特征提取组件分别对每个样本关键视频帧进行特征提取处理，得到每个样本关键视频帧的样本视频帧特征；

全局模型训练子单元1171，还用于将多个样本关键视频帧的样本视频帧特征输入待训练的特征交互组件，由待训练的特征交互组件对多个样本关键视频帧的样本视频帧特征进行特征交互处理，得到每个样本关键视频帧的样本视频帧交互特征；

全局模型训练子单元1171，还用于将多个样本关键视频帧的样本视频帧交互特征对应的样本拼接交互特征输入待训练的特征压缩组件，由待训练的特征压缩组件对样本拼接交互特征进行特征压缩处理，得到样本多媒体本体的样本全局特征；

全局模型训练子单元1171，还用于通过样本多媒体本体的样本全局特征训练初始特征提取模型，得到训练后的目标特征提取模型；目标特征提取模型中包括训练后的特征提取组件、训练后的特征交互组件，以及训练后的特征压缩组件；

全局模型训练子单元1171，还用于将目标特征提取模型确定为与视频类多媒体相关联的全局特征提取模型。

其中，样本多媒体本体包括：基础样本多媒体本体、与基础样本多媒体本体相关联的正样本多媒体本体、与基础样本多媒体本体相关联的负样本多媒体本体；

全局模型训练子单元1171具体用于：

获取基础样本多媒体本体的样本全局特征与正样本多媒体本体的样本全局特征之间的第一样本特征距离，以及获取基础样本多媒体本体的样本全局特征与负样本多媒体本体的样本全局特征之间的第二样本特征距离；

通过第一样本特征距离和第二样本特征距离确定针对初始特征提取模型的模型损失值，通过模型损失值对初始特征提取模型进行训练，得到训练后的目标特征提取模型。

其中，业务全局特征数据库中包括N个第二全局特征；N为大于1的正整数；

全局特征处理模块11包括：

全局特征聚类单元118，用于对N个第二全局特征进行聚类划分，划分得到与N个第二全局特征相关联的P个全局特征数据集；一个全局特征数据集具有一个全局特征中心，一个全局特征数据集包括至少一个第二全局特征；P为正整数；

特征查找单元119，用于获取第一全局特征分别和每个全局特征数据集的全局特征中心之间的特征距离；

特征查找单元119，还用于基于第一全局特征分别和每个全局特征数据集的全局特征中心之间的特征距离，对P个的全局特征数据集的全局特征中心进行特征中心筛选，筛选得到与第一全局特征相匹配的目标全局特征中心，将目标全局特征中心对应的全局特征数据集确定为目标全局特征数据集；

特征查找单元119，还用于对第一全局特征和目标全局特征数据集中的第二全局特征进行特征匹配处理，得到第一全局特征和目标全局特征数据集中的第二全局特征之间的全局特征匹配度；

特征查找单元119，还用于基于第一全局特征和目标全局特征数据集中的第二全局特征之间的全局特征匹配度，对目标全局特征数据集中的第二全局特征进行全局特征筛选，筛选得到与第一全局特征相匹配的第二全局特征。

其中，全局特征聚类单元118具体用于：

将N个第二全局特征划分为S个初始特征数据集；S为正整数；一个初始特征数据集包括至少一个第二全局特征；

基于S个初始特征数据集中的每个初始特征数据集所包含的第二全局特征，确定每个初始特征数据集的初始特征中心；

在N个第二全局特征中选取一个第二全局特征作为目标第二全局特征，将目标第二全局特征所在的初始特征数据集作为第一特征数据集，将S个初始特征数据集中除第一特征数据集之外的初始特征数据集作为待处理特征数据集；

确定目标第二全局特征与第一特征数据集的初始特征中心之间的第一特征距离，并确定目标第二全局特征与待处理特征数据集中的每个特征数据集的初始特征中心之间的第二特征距离；

在第一特征距离大于第二特征距离时，在待处理特征数据集中，将与目标第二全局特征具有最小第二特征距离的初始特征中心所在的待处理特征数据集作为第二特征数据集；

在将目标第二全局特征由第一特征数据集更新到第二特征数据集时，将第二特征数据集作为目标第二全局特征的聚类特征数据集，直到每个第二全局特征均被选中作为目标像素点时，得到每个第二全局特征的聚类特征数据集；

将每个第二全局特征的聚类特征数据集，作为对N个第二全局特征进行聚类划分后所划分得到的P个全局特征数据集。

其中，第一关联多媒体信息包括第一多媒体本体的第一标题文本、待处理多媒体信息包括待处理多媒体本体的第二标题文本；

第二匹配度确定模块13包括：

标题匹配度确定单元131，用于对第一标题文本进行无效字符过滤处理，得到第一标题文本对应的第一目标标题文本，对第二标题文本进行无效字符过滤处理，得到第二标题文本对应的第二目标标题文本；

标题匹配度确定单元131，还用于获取第一目标标题文本和第二目标标题文本之间的标题文本编辑距离，对标题文本编辑距离进行编辑距离处理，得到第一目标标题文本和第二目标标题文本之间的标题文本匹配度；

标题匹配度确定单元131，还用于将标题文本匹配度，确定为第一关联多媒体信息和待处理多媒体信息之间的信息匹配度。

第二匹配度确定模块13包括：

标题特异度确定单元132，用于对第一标题文本进行分词处理，得到第一文本分词，对第二标题文本进行分词处理，得到第二文本分词；

标题特异度确定单元132，还用于获取标题文本库；标题文本库包括多个标题文本；

标题特异度确定单元132，还用于对第一文本分词在第一标题文本中的出现次数和第一标题文本所包含的文本分词数量进行第一分词数据处理，得到第一文本分词的词频，对标题文本库所包含的标题文本的数量和多个标题文本中包含第一文本分词的标题文本的数量进行第二分词数据处理，得到第一文本分词的逆文档频率，对第一文本分词的词频和第一文本分词的逆文档频率进行标题特异度处理，得到第一标题文本的标题特异度；

标题特异度确定单元132，还用于对第二文本分词在第二标题文本中的出现次数和第二标题文本所包含的文本分词数量进行第一分词数据处理，得到第二文本分词的词频，对标题文本库所包含的标题文本的数量和多个标题文本中包含第二文本分词的标题文本的数量进行第二分词数据处理，得到第二文本分词的逆文档频率，对第二文本分词的词频和第二文本分词的逆文档频率进行标题特异度处理，得到第二标题文本的标题特异度；

标题特异度确定单元132，还用于将由第一标题文本的标题特异度和第二标题文本的标题特异度所确定的目标标题特异度，确定为第一关联多媒体信息和待处理多媒体信息之间的信息匹配度。

其中，第一关联多媒体信息包括第一多媒体本体的第一描述文本、待处理多媒体信息包括待处理多媒体本体的第二描述文本；

第二匹配度确定模块13包括：

描述匹配度确定单元133，用于对第一描述文本进行无效字符过滤处理，得到第一描述文本对应的第一目标描述文本，对第二描述文本进行无效字符过滤处理，得到第二描述文本对应的第二目标描述文本；

描述匹配度确定单元133，还用于获取第一目标描述文本和第二目标描述文本之间的描述文本编辑距离，对描述文本编辑距离进行编辑距离处理，得到第一目标描述文本和第二目标描述文本之间的描述文本匹配度；

描述匹配度确定单元133，还用于将描述文本匹配度，确定为第一关联多媒体信息和待处理多媒体信息之间的信息匹配度。

其中，第一多媒体本体和待处理多媒体本体均包括视频类多媒体；第一关联多媒体信息为视频类多媒体所指示的第一多媒体本体的视频长度、待处理多媒体信息为视频类多媒体所指示的待处理多媒体本体的视频长度；

第二匹配度确定模块13包括：

片段匹配度确定单元134，用于从第一多媒体本体的视频长度和待处理多媒体本体的视频长度中确定最大视频长度和最小视频长度；

片段匹配度确定单元134，还用于将最小视频长度和最大视频长度之间的比值，确定为第一多媒体本体和待处理多媒体本体之间的视频长度匹配度；

片段匹配度确定单元134，还用于将视频长度匹配度，确定为第一关联多媒体信息和待处理多媒体信息之间的信息匹配度。

其中，第一关联多媒体信息包括第一多媒体本体对应的第一业务对象的第一对象文本信息、待处理多媒体信息包括待处理多媒体本体对应的第二业务对象的第二对象文本信息；

第二匹配度确定模块13包括：

对象匹配度确定单元135，用于对第一对象文本信息所包含的字符进行字符去重处理，得到去重后的第一对象文本信息，将去重后的第一对象文本信息所包含的字符作为第一字符列表；

对象匹配度确定单元135，还用于对第二对象文本信息所包含的字符进行字符去重处理，得到去重后的第二对象文本信息，将去重后的第二对象文本信息所包含的字符作为第二字符列表；

对象匹配度确定单元135，还用于获取第一字符列表和第二字符列表之间的字符交集列表，以及获取第一字符列表和第二字符列表之间的字符并集列表；

对象匹配度确定单元135，还用于将字符交集列表所包含的字符的数量与字符并集列表所包含的字符的数量之间的比值，确定为第一多媒体本体和待处理多媒体本体之间的对象文本信息匹配度；

对象匹配度确定单元135，还用于将对象文本信息匹配度，确定为第一关联多媒体信息和待处理多媒体信息之间的信息匹配度。

其中，第一多媒体本体和待处理多媒体本体均包括视频类多媒体；第二类型匹配度包括：标题文本匹配度、标题特异度、描述文本匹配度、与视频类多媒体相关联的视频长度匹配度、对象文本信息匹配度；

数据对匹配模块14包括：

序列确定单元141，用于确定第一类型匹配度、标题文本匹配度、标题特异度、描述文本匹配度、视频长度匹配度、对象文本信息匹配度所构成的匹配度序列；

整合特征确定单元142，用于基于匹配度序列，确定第一多媒体本体与待处理多媒体本体的匹配度整合特征。

其中，数据对匹配模块14包括：

处理模型获取单元143，用于获取与多媒体数据对相关联的多媒体处理模型；多媒体处理模型包括至少一个决策树；

匹配度确定单元144，用于将匹配度整合特征输入多媒体处理模型，由多媒体处理模型对匹配度整合特征进行特征划分，预测得到在至少一个决策树上所划分出的叶子节点；

匹配度确定单元144，还用于基于在至少一个决策树上所划分出的叶子节点对应的节点参数，确定与多媒体数据对相关联的数据对匹配度。

其中，处理模型获取单元143具体用于：

获取待训练的初始处理模型，并获取用于训练初始处理模型的训练样本数据对；初始处理模型包括待训练的至少一个决策树；训练样本数据对包括第一样本多媒体本体、第二样本多媒体本体；

获取第一样本多媒体本体的第一样本全局特征以及第二样本多媒体本体的第二样本全局特征，并将第一样本全局特征和第二样本全局特征之间的样本全局特征匹配度，确定为训练样本数据对的第一样本类型匹配度；

获取第一样本多媒体本体的第一样本多媒体信息以及第二样本多媒体本体的第二样本多媒体信息，并将第一样本多媒体信息和第二样本多媒体信息之间的样本信息匹配度，确定为训练样本数据对的第二样本类型匹配度；

基于第一样本类型匹配度和第二样本类型匹配度，确定训练样本数据对中的第一样本多媒体本体和第二样本多媒体本体的样本匹配度整合特征，并将样本匹配度整合特征输入初始处理模型，由初始处理模型对匹配度整合特征进行特征划分，预测得到在待训练的至少一个决策树上所划分出的叶子节点；

基于在待训练的至少一个决策树上所划分出的叶子节点对应的节点参数，确定与训练样本数据对相关联的样本数据对匹配度；

基于样本数据对匹配度训练初始处理模型，得到训练后的目标处理模型，并将目标处理模型确定为与多媒体数据对相关联的多媒体处理模型；目标处理模型包括训练后的至少一个决策树。

其中，与数据对匹配度相关联的数据对匹配度阈值包括第一数据对匹配度阈值和第二数据对匹配度阈值；第二数据对匹配度阈值小于第一数据对匹配度阈值；

数据对匹配模块14还用于：

若数据对匹配度未达到第二数据对匹配度阈值，则确定多媒体数据对中的第一多媒体本体与待处理多媒体本体之间不匹配。

其中，第一多媒体本体和待处理多媒体本体均包括视频类多媒体；

数据对匹配模块14还包括：

数据局部处理单元145，用于在数据对匹配度达到第二数据对匹配度阈值，以及数据对匹配度未达到第一数据对匹配度阈值时，将第一多媒体本体中的视频帧作为第一待检测视频帧，将待处理多媒体本体中的视频帧作为第二待检测视频帧；

边框检测单元146，用于对第一待检测视频帧进行视频帧边框检测处理，得到第一待检测视频帧的第一视频帧边框，在第一多媒体本体包括的关键视频帧中，获取第一视频帧边框中的视频数据，将获取到的视频数据作为第一多媒体本体的第一关键视频数据；

边框检测单元146，还用于对第二待检测视频帧进行视频帧边框检测处理，得到第二待检测视频帧的第二视频帧边框，在第二多媒体本体中的关键视频帧中，获取第二视频帧边框中的视频数据，将获取到的视频数据作为第二多媒体本体的第二关键视频数据；

局部特征提取单元147，用于对第一关键视频数据进行局部特征提取处理，得到第一多媒体本体的第一局部特征，对第二关键视频数据进行局部特征提取处理，得到待处理多媒体本体的第二局部特征；

局部匹配度确定单元148，用于对第一局部特征和第二局部特征进行局部特征匹配处理，得到与多媒体数据对相关联的局部特征匹配度，将局部特征匹配度作为多媒体数据对的第三类型匹配度；

局部匹配度确定单元148，还用于若第三类型匹配度达到局部匹配度阈值，则将第三类型匹配度达到局部匹配度阈值的多媒体数据对，确定为第二目标多媒体数据对；

局部匹配度确定单元148，还用于将第二目标多媒体数据对中的待处理多媒体本体，确定为与第一多媒体本体相匹配的待处理多媒体本体，将确定出的与第一多媒体本体相匹配的待处理多媒体本体，确定为第一多媒体本体的第二匹配多媒体本体。

其中，数据局部处理单元145具体用于：

将第一多媒体本体划分为第一数量个视频子片段；

从每个视频子片段中提取出第二数量个视频帧；

将从每个视频子片段中提取出的第二数量个视频帧作为第一多媒体本体中的视频帧。

其中，第一多媒体本体中的视频帧有多个，多个视频帧均对应至少一个像素点；

边框检测单元146包括：

灰度值确定子单元1461，用于分别获取每个像素点在多个视频帧中所对应的灰度值，将每个像素点在多个视频帧中所对应的灰度值，确定为每个像素点对应的灰度值序列；

方差矩阵确定子单元1462，用于获取每个像素点对应的灰度值序列所确定的灰度值方差，获取由每个像素点对应的灰度值方差，所构成的与多个视频帧相关联的像素方差矩阵；像素方差矩阵中的一个灰度值方差为一个像素点对应的灰度值序列所对应的灰度值方差；

二值图像确定子单元1463，用于对像素方差矩阵进行方差矩阵处理，得到与多个视频帧相关联的二值图像，基于二值图像，对第一待检测视频帧进行视频帧边框检测处理，得到第一待检测视频帧的第一视频帧边框；

其中，二值图像是由至少一个像素点中被配置为第一数值的像素点和被配置为第二数值的像素点所确定的；当像素方差矩阵中的参考灰度值方差大于或等于方差阈值时，参考灰度值方差所对应的像素点被配置为第一数值；当参考灰度值方差小于方差阈值时，参考灰度值方差所对应的像素点被配置为第二数值。

其中，二值图像确定子单元1463具体用于：

将二值图像中第一数值对应的像素点作为第一像素点，将二值图像中第二数值对应的像素点作为第二像素点；

将第一像素点在第一颜色空间的颜色通道值配置为第一颜色通道值，将第二像素点在第一颜色空间的颜色通道值配置为第二颜色通道值；

将由配置为第一颜色通道值的第一像素点和配置为第二颜色通道值的第二像素点所构成的图像，确定为与第一待检测视频帧相关联的待检测图像；

对待检测图像进行图像边缘检测，得到待检测图像中的边缘点，对待检测图像中的边缘点进行边缘直线检测，得到待检测图像中的边缘直线；

若待检测图像中的边缘直线满足视频边框条件，则将待检测图像中的边缘直线确定为第一待检测视频帧的边框边界，基于第一待检测视频帧的边框边界确定第一待检测视频帧的第一视频帧边框。

其中，二值图像确定子单元1463还用于：

基于待检测图像的图像边，获取与待检测图像相关联的基准直线；基准直线与图像边之间的直线夹角等于目标夹角，且基准直线的长度与图像边的长度相同；

若待检测图像中的边缘直线与基准直线之间的直线夹角小于或等于夹角阈值，且待检测图像中的边缘直线的直线长度处于与基准直线相关联的长度范围内，则确定待检测图像中的边缘直线满足视频边框条件。

其中，二值图像确定子单元1463具体用于：

获取与第一待检测视频帧相关联的参考视频帧；

获取由第一待检测视频帧的边框边界和参考视频帧的视频帧边界所构成的待处理视频帧区域；

将待处理视频帧区域中的像素点，在二值图像中的数值确定为待检测数值集；

当待检测数值集中，作为第二数值的数值的数量达到数量阈值时，将待处理视频帧区域确定为第一待检测视频帧的第一视频帧边框。

其中，边框检测单元146具体用于：

基于第一视频帧边框，对第一多媒体本体中的关键视频帧进行视频帧裁剪处理，得到裁剪后的关键视频帧；

将裁剪后的关键视频帧，作为第一视频帧边框中的视频数据。

其中，裁剪后的关键视频帧为K个；K为正整数；

局部特征提取单元147具体用于：

获取与第一关键视频数据相关联的局部特征提取模型，将K个裁剪后的关键视频帧输入局部特征提取模型，由局部特征提取模型分别对每个裁剪后的关键视频帧进行特征提取处理，得到每个裁剪后的关键视频帧的视频帧特征；

将K个裁剪后的关键视频帧的视频帧特征，确定为第一多媒体本体的第一局部特征。

其中，第一局部特征包括K个视频帧特征；第一关键视频数据包括K个关键视频帧，K个视频帧特征中的一个视频帧特征对应K个关键视频帧中的一个关键视频帧；第二局部特征包括U个视频帧特征；第二关键视频数据包括U个关键视频帧，U个视频帧特征中的一个视频帧特征对应U个关键视频帧中的一个关键视频帧；K和U均为正整数；

局部匹配度确定单元148包括：

匹配度确定子单元1481，用于将第一局部特征中的K个视频帧特征作为K个待匹配特征，将第二局部特征中的U个视频帧特征作为U个待比对特征；

匹配度确定子单元1481，还用于获取K个待匹配特征中每个待匹配特征分别，与U个待比对特征中每个待比对特征之间的特征匹配度；

匹配度确定子单元1481，还用于基于每个待匹配特征分别与每个待比对特征之间的特征匹配度，对U个待比对特征进行比对特征筛选，筛选得到与每个待匹配特征相匹配的待比对特征；与一个待匹配特征相匹配的待比对特征为，一个待匹配特征与每个待比对特征之间的特征匹配度中，最大特征匹配度所对应的待比对特征；

数据对构建子单元1482，用于基于每个待匹配特征和每个待匹配特征所匹配的待比对特征，构建K个视频帧数据对；一个视频帧数据对包括一个第一视频帧和一个第二视频帧，一个第一视频帧为一个待匹配特征对应的关键视频帧，一个第二视频帧为一个待匹配特征所关联的待比对特征对应的关键视频帧；

匹配片段确定子单元1483，用于基于K个视频帧对，对第一多媒体本体和待处理多媒体本体进行本体匹配处理，得到第一多媒体本体在待处理多媒体本体中的匹配片段，将匹配片段的片段长度与待处理多媒体本体的视频长度之间的比值，确定为与多媒体数据对相关联的局部特征匹配度。

其中，匹配片段确定子单元1483具体用于：

获取K个视频帧数据对中的相邻视频帧数据对；相邻视频帧数据对包括视频帧数据对v和视频帧数据对v+1；v为小于K的正整数；

若视频帧数据对v和视频帧数据对v+1满足视频匹配条件，则确定视频帧数据对v包含的第二视频帧和视频帧数据对v+1包含的第二视频帧所构成的第一视频片段，将第一视频片段作为第一多媒体本体在待处理多媒体本体中的匹配片段；

其中，视频匹配条件包括以下至少一项：视频帧数据对v包含的第二视频帧在U个关键视频帧中的位置，位于视频帧数据对v+1包含的第二视频帧在U个关键视频帧中的位置之前；视频帧数据对v包含的第二视频帧和视频帧数据对v+1包含的第二视频帧，在U个关键视频帧中，间隔的关键视频帧的数量小于或等于间隔数量阈值；第一视频片段的片段长度，处于与第二视频片段的片段长度相关联的片段长度范围内；第二视频片段是由视频帧数据对v包含的第一视频帧和视频帧数据对v+1包含的第一视频帧所构成的视频片段。

其中，全局特征处理模块11、第一匹配度确定模块12、第二匹配度确定模块13、数据对匹配模块14的具体实现方式，可以参见上述实施例中的相关描述，这里将不再继续进行赘述。应当理解，对采用相同方法所得到的有益效果描述，也不再进行赘述。

进一步地，请参见图18，图18是本申请实施例提供的一种计算机设备的结构示意图。如图18所示，该计算机设备1800可以为业务终端，还可以为服务器，这里将不对其进行限制。为便于理解，本申请以计算机设备为服务器为例，该计算机设备1800可以包括：处理器1801，网络接口1804和存储器1805，此外，该计算机设备1800还可以包括：用户接口1803，和至少一个通信总线1802。其中，通信总线1802用于实现这些组件之间的连接通信。其中，用户接口1803还可以包括标准的有线接口、无线接口。网络接口1804可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1805可以是高速RAM存储器，也可以是非不稳定的存储器(non-volatile memory)，例如至少一个磁盘存储器。存储器1805可选的还可以是至少一个位于远离前述处理器1801的存储装置。如图18所示，作为一种计算机可读存储介质的存储器1805中可以包括操作系统、网络通信模块、用户接口模块以及设备控制应用程序。

其中，该计算机设备1800中的网络接口1804还可以提供网络数据交互功能。在图18所示的计算机设备1800中，网络接口1804可提供网络数据交互功能；而用户接口1803主要用于为用户提供输入的接口；而处理器1801可以用于调用存储器1805中存储的设备控制应用程序，以执行上述图3和图7所对应实施例中对多媒体数据的处理方法的描述，还可以执行前文图17所对应实施例中对多媒体数据的处理装置1的描述，在此不再赘述。另外，对采用相同方法的有益效果描述，也不再进行赘述。

具体实现中，本申请实施例中所描述的装置、处理器1801、存储器1805等可执行上述方法实施例所描述的实现方式，也可执行本申请实施例所描述的实现方式，在此不再赘述。

此外，这里需要指出的是：本申请实施例还提供了一种计算机可读存储介质，且计算机可读存储介质中存储有前文提及的多媒体数据的处理装置1所执行的计算机程序，且计算机程序包括计算机指令，当处理器执行计算机指令时，能够执行前文图3、图7所对应实施例中对多媒体数据的处理方法的描述，因此，这里将不再进行赘述。另外，对采用相同方法的有益效果描述，也不再进行赘述。对于本申请所涉及的计算机可读存储介质实施例中未披露的技术细节，请参照本申请方法实施例的描述。作为示例，计算机指令可被部署在一个计算设备上执行，或者在位于一个地点的多个计算设备上执行，又或者，在分布在多个地点且通过通信网络互连的多个计算设备上执行，分布在多个地点且通过通信网络互连的多个计算设备可以组成区块链系统。

此外，需要说明的是：本申请实施例还提供了一种计算机程序产品或计算机程序，该计算机程序产品或者计算机程序可以包括计算机指令，该计算机指令可以存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器可以执行该计算机指令，使得该计算机设备执行前文图3、图7所对应实施例中对多媒体数据的处理方法的描述，因此，这里将不再进行赘述。另外，对采用相同方法的有益效果描述，也不再进行赘述。对于本申请所涉及的计算机程序产品或者计算机程序实施例中未披露的技术细节，请参照本申请方法实施例的描述。

需要说明的是，对于前述的各个方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某一些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本申请所必须的。

本申请实施例方法中的步骤可以根据实际需要进行顺序调整、合并和删减。

本申请实施例装置中的模块可以根据实际需要进行合并、划分和删减。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，计算机程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，存储介质可为磁碟、光盘、只读存储器(Read-Only Memory，ROM)或随机存储器(Random Access Memory，RAM)等。

以上所揭露的仅为本申请较佳实施例而已，当然不能以此来限定本申请之权利范围，因此依本申请权利要求所作的等同变化，仍属本申请所涵盖的范围。

Claims

1.一种多媒体数据的处理方法，其特征在于，所述方法包括：

获取第一多模态数据，对所述第一多模态数据中的第一多媒体本体进行全局特征提取，得到所述第一多媒体本体的第一全局特征；所述第一多模态数据包括与所述第一多媒体本体相关联的第一关联多媒体信息；

从业务全局特征数据库中获取第二全局特征，对所述第一全局特征与所述第二全局特征进行全局特征匹配处理，得到所述第一全局特征与所述第二全局特征之间的全局特征匹配度，通过所述第一全局特征与所述第二全局特征之间的全局特征匹配度，从所述第二全局特征中查找与所述第一全局特征相匹配的第二全局特征；所述业务全局特征数据库是由第二多模态数据中的第二多媒体本体的第二全局特征所确定的；所述第二多模态数据包括与所述第二多媒体本体相关联的第二关联多媒体信息；

将查找到的第二全局特征所对应的第二多媒体本体作为待处理多媒体本体，基于所述第一多媒体本体和所述待处理多媒体本体，构建得到多媒体数据对，将所述第一全局特征与查找到的第二全局特征之间的全局特征匹配度作为所述多媒体数据对的第一类型匹配度；

将所述第二关联多媒体信息中与所述待处理多媒体本体相关联的第二关联多媒体信息，确定为待处理多媒体信息，对所述第一关联多媒体信息和所述待处理多媒体信息进行信息匹配处理，得到所述第一关联多媒体信息和所述待处理多媒体信息之间的信息匹配度，将所述信息匹配度作为所述多媒体数据对的第二类型匹配度；

基于所述第一类型匹配度和所述第二类型匹配度，对所述多媒体数据对进行数据对匹配，得到与所述多媒体数据对相关联的数据对匹配度，基于所述数据对匹配度，对所述多媒体数据对进行数据对筛选，筛选得到与所述第一多媒体本体相匹配的待处理多媒体本体，将筛选出的待处理多媒体本体确定为所述第一多媒体本体的第一匹配多媒体本体。

2.根据权利要求1所述的方法，其特征在于，所述基于所述第一类型匹配度和所述第二类型匹配度，对所述多媒体数据对进行数据对匹配，得到与所述多媒体数据对相关联的数据对匹配度，基于所述数据对匹配度，对所述多媒体数据对进行数据对筛选，筛选得到与所述第一多媒体本体相匹配的待处理多媒体本体，将筛选出的待处理多媒体本体确定为所述第一多媒体本体的第一匹配多媒体本体，包括：

对所述第一类型匹配度和所述第二类型匹配度进行匹配度整合，得到所述多媒体数据对中的所述第一多媒体本体与所述待处理多媒体本体的匹配度整合特征，对所述匹配度整合特征进行整合特征处理，得到与所述多媒体数据对相关联的数据对匹配度；

在所述数据对匹配度达到第一数据对匹配度阈值时，将数据对匹配度达到所述第一数据对匹配度阈值的多媒体数据对，确定为从所述多媒体数据对中筛选出的第一目标多媒体数据对；

将所筛选出的第一目标多媒体数据对中的待处理多媒体本体，确定为从所述多媒体数据对中所筛选出的与所述第一多媒体本体相匹配的待处理多媒体本体，将筛选出的与所述第一多媒体本体相匹配的待处理多媒体本体，确定为所述第一多媒体本体的第一匹配多媒体本体。

3.根据权利要求1所述的方法，其特征在于，所述第一多媒体本体包括视频类多媒体；

所述对所述第一多模态数据中的第一多媒体本体进行全局特征提取，得到所述第一多媒体本体的第一全局特征，包括：

获取与所述视频类多媒体相关联的全局特征提取模型；所述全局特征提取模型包括特征提取组件、特征交互组件，以及特征压缩组件；

从所述第一多媒体本体中提取出K个关键视频帧，将所述K个关键视频帧输入所述特征提取组件，由所述特征提取组件分别对每个关键视频帧进行特征提取处理，得到所述每个关键视频帧的视频帧特征；K为正整数；

将所述K个关键视频帧的视频帧特征输入所述特征交互组件，由所述特征交互组件对所述K个关键视频帧的视频帧特征进行特征交互处理，得到所述每个关键视频帧的视频帧交互特征；

将所述K个关键视频帧的视频帧交互特征对应的拼接交互特征输入所述特征压缩组件，由所述特征压缩组件对所述拼接交互特征进行特征压缩处理，得到所述第一多媒体本体的第一全局特征。

4.根据权利要求3所述的方法，其特征在于，所述从所述第一多媒体本体中提取出K个关键视频帧，包括：

从所述第一多媒体本体中提取出R个基础视频帧，获取所述R个基础视频帧中的相邻视频帧；所述相邻视频帧包括基础视频帧i和基础视频帧i+1；R为大于K的正整数；i为小于R的正整数；

获取所述基础视频帧i与所述基础视频帧i+1之间的帧间差分值，将所述基础视频帧i与所述基础视频帧i+1之间的帧间差分值，确定为所述基础视频帧i+1对应的视频帧差分值；

直到i等于R-1时，得到所述R个基础视频帧包括的R-1个基础视频帧中每个基础视频帧对应的视频帧差分值；所述R-1个基础视频帧为所述R个基础视频帧中除第1个基础视频帧以外的基础视频帧；

将由所述R-1个基础视频帧对应的视频帧差分值所构成的序列，确定与所述R-1个基础视频帧相关联的差分值序列，基于所述差分值序列，对所述R-1个基础视频帧进行关键帧提取，得到从所述R-1个基础视频帧中提取出的K个关键视频帧。

5.根据权利要求1所述的方法，其特征在于，所述业务全局特征数据库中包括N个第二全局特征；N为大于1的正整数；

所述对所述第一全局特征与所述第二全局特征进行全局特征匹配处理，得到所述第一全局特征与所述第二全局特征之间的全局特征匹配度，通过所述第一全局特征与所述第二全局特征之间的全局特征匹配度，从所述第二全局特征中查找与所述第一全局特征相匹配的第二全局特征，包括：

对所述N个第二全局特征进行聚类划分，划分得到与所述N个第二全局特征相关联的P个全局特征数据集；一个全局特征数据集具有一个全局特征中心，一个全局特征数据集包括至少一个第二全局特征；P为正整数；

获取所述第一全局特征分别和所述每个全局特征数据集的全局特征中心之间的特征距离；

基于所述第一全局特征分别和所述每个全局特征数据集的全局特征中心之间的特征距离，对所述P个的全局特征数据集的全局特征中心进行特征中心筛选，筛选得到与所述第一全局特征相匹配的目标全局特征中心，将所述目标全局特征中心对应的全局特征数据集确定为目标全局特征数据集；

对所述第一全局特征和所述目标全局特征数据集中的第二全局特征进行特征匹配处理，得到所述第一全局特征和所述目标全局特征数据集中的第二全局特征之间的全局特征匹配度；

基于所述第一全局特征和所述目标全局特征数据集中的第二全局特征之间的全局特征匹配度，对所述目标全局特征数据集中的第二全局特征进行全局特征筛选，筛选得到与所述第一全局特征相匹配的第二全局特征。

6.根据权利要求1所述的方法，其特征在于，所述第一关联多媒体信息包括所述第一多媒体本体的第一标题文本、所述待处理多媒体信息包括所述待处理多媒体本体的第二标题文本；

所述对所述第一关联多媒体信息和所述待处理多媒体信息进行信息匹配处理，得到所述第一关联多媒体信息和所述待处理多媒体信息之间的信息匹配度，包括：

对所述第一标题文本进行无效字符过滤处理，得到所述第一标题文本对应的第一目标标题文本，对所述第二标题文本进行无效字符过滤处理，得到所述第二标题文本对应的第二目标标题文本；

获取所述第一目标标题文本和所述第二目标标题文本之间的标题文本编辑距离，对所述标题文本编辑距离进行编辑距离处理，得到所述第一目标标题文本和所述第二目标标题文本之间的标题文本匹配度；

将所述标题文本匹配度，确定为所述第一关联多媒体信息和所述待处理多媒体信息之间的信息匹配度。

7.根据权利要求1所述的方法，其特征在于，所述第一关联多媒体信息包括所述第一多媒体本体的第一标题文本、所述待处理多媒体信息包括所述待处理多媒体本体的第二标题文本；

对所述第一标题文本进行分词处理，得到第一文本分词，对所述第二标题文本进行分词处理，得到第二文本分词；

获取标题文本库；所述标题文本库包括多个标题文本；

对所述第一文本分词在所述第一标题文本中的出现次数和所述第一标题文本所包含的文本分词数量进行第一分词数据处理，得到所述第一文本分词的词频，对所述标题文本库所包含的标题文本的数量和所述多个标题文本中包含所述第一文本分词的标题文本的数量进行第二分词数据处理，得到所述第一文本分词的逆文档频率，对所述第一文本分词的词频和所述第一文本分词的逆文档频率进行标题特异度处理，得到所述第一标题文本的标题特异度；

对所述第二文本分词在所述第二标题文本中的出现次数和所述第二标题文本所包含的文本分词数量进行第一分词数据处理，得到所述第二文本分词的词频，对所述标题文本库所包含的标题文本的数量和所述多个标题文本中包含所述第二文本分词的标题文本的数量进行第二分词数据处理，得到所述第二文本分词的逆文档频率，对所述第二文本分词的词频和所述第二文本分词的逆文档频率进行标题特异度处理，得到所述第二标题文本的标题特异度；

将由所述第一标题文本的标题特异度和所述第二标题文本的标题特异度所确定的目标标题特异度，确定为所述第一关联多媒体信息和所述待处理多媒体信息之间的信息匹配度。

8.根据权利要求1所述的方法，其特征在于，所述第一关联多媒体信息包括所述第一多媒体本体的第一描述文本、所述待处理多媒体信息包括所述待处理多媒体本体的第二描述文本；

对所述第一描述文本进行无效字符过滤处理，得到所述第一描述文本对应的第一目标描述文本，对所述第二描述文本进行无效字符过滤处理，得到所述第二描述文本对应的第二目标描述文本；

获取所述第一目标描述文本和所述第二目标描述文本之间的描述文本编辑距离，对所述描述文本编辑距离进行编辑距离处理，得到所述第一目标描述文本和所述第二目标描述文本之间的描述文本匹配度；

将所述描述文本匹配度，确定为所述第一关联多媒体信息和所述待处理多媒体信息之间的信息匹配度。

9.根据权利要求1所述的方法，其特征在于，所述第一多媒体本体和所述待处理多媒体本体均包括视频类多媒体；所述第一关联多媒体信息为所述视频类多媒体所指示的所述第一多媒体本体的视频长度、所述待处理多媒体信息为所述视频类多媒体所指示的所述待处理多媒体本体的视频长度；

从所述第一多媒体本体的视频长度和所述待处理多媒体本体的视频长度中确定最大视频长度和最小视频长度；

将所述最小视频长度和所述最大视频长度之间的比值，确定为所述第一多媒体本体和所述待处理多媒体本体之间的视频长度匹配度；

将所述视频长度匹配度，确定为所述第一关联多媒体信息和所述待处理多媒体信息之间的信息匹配度。

10.根据权利要求1所述的方法，其特征在于，所述第一关联多媒体信息包括所述第一多媒体本体对应的第一业务对象的第一对象文本信息、所述待处理多媒体信息包括所述待处理多媒体本体对应的第二业务对象的第二对象文本信息；

对所述第一对象文本信息所包含的字符进行字符去重处理，得到去重后的第一对象文本信息，将所述去重后的第一对象文本信息所包含的字符作为第一字符列表；

对所述第二对象文本信息所包含的字符进行字符去重处理，得到去重后的第二对象文本信息，将所述去重后的第二对象文本信息所包含的字符作为第二字符列表；

获取所述第一字符列表和所述第二字符列表之间的字符交集列表，以及获取所述第一字符列表和所述第二字符列表之间的字符并集列表；

将所述字符交集列表所包含的字符的数量与所述字符并集列表所包含的字符的数量之间的比值，确定为所述第一多媒体本体和所述待处理多媒体本体之间的对象文本信息匹配度；

将所述对象文本信息匹配度，确定为所述第一关联多媒体信息和所述待处理多媒体信息之间的信息匹配度。

11.根据权利要求2所述的方法，其特征在于，与所述数据对匹配度相关联的数据对匹配度阈值包括所述第一数据对匹配度阈值和第二数据对匹配度阈值；所述第二数据对匹配度阈值小于所述第一数据对匹配度阈值；

在对所述匹配度整合特征进行整合特征处理，得到与所述多媒体数据对相关联的数据对匹配度之后，所述方法还包括：

若所述数据对匹配度未达到所述第二数据对匹配度阈值，则确定所述多媒体数据对中的所述第一多媒体本体与所述待处理多媒体本体之间不匹配。

12.根据权利要求11所述的方法，其特征在于，所述第一多媒体本体和所述待处理多媒体本体均包括视频类多媒体；

在所述数据对匹配度达到所述第二数据对匹配度阈值，以及所述数据对匹配度未达到所述第一数据对匹配度阈值时，将所述第一多媒体本体中的视频帧作为第一待检测视频帧，将所述待处理多媒体本体中的视频帧作为第二待检测视频帧；

对所述第一待检测视频帧进行视频帧边框检测处理，得到所述第一待检测视频帧的第一视频帧边框，在所述第一多媒体本体包括的关键视频帧中，获取所述第一视频帧边框中的视频数据，将获取到的视频数据作为所述第一多媒体本体的第一关键视频数据；

对所述第二待检测视频帧进行视频帧边框检测处理，得到所述第二待检测视频帧的第二视频帧边框，在所述第二多媒体本体中的关键视频帧中，获取所述第二视频帧边框中的视频数据，将获取到的视频数据作为所述第二多媒体本体的第二关键视频数据；

对所述第一关键视频数据进行局部特征提取处理，得到所述第一多媒体本体的第一局部特征，对所述第二关键视频数据进行局部特征提取处理，得到所述待处理多媒体本体的第二局部特征；

对所述第一局部特征和所述第二局部特征进行局部特征匹配处理，得到与所述多媒体数据对相关联的局部特征匹配度，将所述局部特征匹配度作为所述多媒体数据对的第三类型匹配度；

若所述第三类型匹配度达到局部匹配度阈值，则将第三类型匹配度达到所述局部匹配度阈值的多媒体数据对，确定为所述第二目标多媒体数据对；

将所述第二目标多媒体数据对中的待处理多媒体本体，确定为与所述第一多媒体本体相匹配的待处理多媒体本体，将确定出的与所述第一多媒体本体相匹配的待处理多媒体本体，确定为所述第一多媒体本体的第二匹配多媒体本体。

13.根据权利要求12所述的方法，其特征在于，所述第一多媒体本体中的视频帧有多个，多个视频帧均对应至少一个像素点；

所述对所述第一待检测视频帧进行视频帧边框检测处理，得到所述第一待检测视频帧的第一视频帧边框，包括：

分别获取每个像素点在所述多个视频帧中所对应的灰度值，将所述每个像素点在所述多个视频帧中所对应的灰度值，确定为所述每个像素点对应的灰度值序列；

获取所述每个像素点对应的灰度值序列所确定的灰度值方差，获取由所述每个像素点对应的灰度值方差，所构成的与所述多个视频帧相关联的像素方差矩阵；所述像素方差矩阵中的一个灰度值方差为一个像素点对应的灰度值序列所对应的灰度值方差；

对所述像素方差矩阵进行方差矩阵处理，得到与所述多个视频帧相关联的二值图像，基于所述二值图像，对所述第一待检测视频帧进行视频帧边框检测处理，得到所述第一待检测视频帧的第一视频帧边框；

其中，所述二值图像是由所述至少一个像素点中被配置为第一数值的像素点和被配置为第二数值的像素点所确定的；当所述像素方差矩阵中的参考灰度值方差大于或等于方差阈值时，所述参考灰度值方差所对应的像素点被配置为所述第一数值；当所述参考灰度值方差小于所述方差阈值时，所述参考灰度值方差所对应的像素点被配置为所述第二数值。

14.根据权利要求13所述的方法，其特征在于，所述基于所述二值图像，对所述第一待检测视频帧进行视频帧边框检测处理，得到所述第一待检测视频帧的第一视频帧边框，包括：

将所述二值图像中所述第一数值对应的像素点作为第一像素点，将所述二值图像中所述第二数值对应的像素点作为第二像素点；

将所述第一像素点在第一颜色空间的颜色通道值配置为第一颜色通道值，将所述第二像素点在所述第一颜色空间的颜色通道值配置为第二颜色通道值；

将由配置为所述第一颜色通道值的所述第一像素点和配置为所述第二颜色通道值的所述第二像素点所构成的图像，确定为与所述第一待检测视频帧相关联的待检测图像；

对所述待检测图像进行图像边缘检测，得到所述待检测图像中的边缘点，对所述待检测图像中的边缘点进行边缘直线检测，得到所述待检测图像中的边缘直线；

若所述待检测图像中的边缘直线满足视频边框条件，则将所述待检测图像中的边缘直线确定为所述第一待检测视频帧的边框边界，基于所述第一待检测视频帧的边框边界确定所述第一待检测视频帧的第一视频帧边框。

15.根据权利要求12所述的方法，其特征在于，所述第一局部特征包括K个视频帧特征；所述第一关键视频数据包括K个关键视频帧，所述K个视频帧特征中的一个视频帧特征对应所述K个关键视频帧中的一个关键视频帧；所述第二局部特征包括U个视频帧特征；所述第二关键视频数据包括U个关键视频帧，所述U个视频帧特征中的一个视频帧特征对应所述U个关键视频帧中的一个关键视频帧；K和U均为正整数；

所述对所述第一局部特征和所述第二局部特征进行局部特征匹配处理，得到与所述多媒体数据对相关联的局部特征匹配度，包括：

将所述第一局部特征中的K个视频帧特征作为K个待匹配特征，将所述第二局部特征中的U个视频帧特征作为U个待比对特征；

获取所述K个待匹配特征中每个待匹配特征分别，与所述U个待比对特征中每个待比对特征之间的特征匹配度；

基于所述每个待匹配特征分别与所述每个待比对特征之间的特征匹配度，对所述U个待比对特征进行比对特征筛选，筛选得到与所述每个待匹配特征相匹配的待比对特征；与一个待匹配特征相匹配的待比对特征为，一个待匹配特征与所述每个待比对特征之间的特征匹配度中，最大特征匹配度所对应的待比对特征；

基于所述每个待匹配特征和所述每个待匹配特征所匹配的待比对特征，构建K个视频帧数据对；一个视频帧数据对包括一个第一视频帧和一个第二视频帧，一个第一视频帧为一个待匹配特征对应的关键视频帧，一个第二视频帧为一个待匹配特征所关联的待比对特征对应的关键视频帧；

基于所述K个视频帧对，对所述第一多媒体本体和所述待处理多媒体本体进行本体匹配处理，得到所述第一多媒体本体在所述待处理多媒体本体中的匹配片段，将所述匹配片段的片段长度与所述待处理多媒体本体的视频长度之间的比值，确定为与所述多媒体数据对相关联的局部特征匹配度。

16.根据权利要求15所述的方法，其特征在于，所述基于所述K个视频帧对，对所述第一多媒体本体和所述待处理多媒体本体进行本体匹配处理，得到所述第一多媒体本体在所述待处理多媒体本体中的匹配片段，包括：

获取所述K个视频帧数据对中的相邻视频帧数据对；所述相邻视频帧数据对包括视频帧数据对v和视频帧数据对v+1；v为小于K的正整数；

若所述视频帧数据对v和所述视频帧数据对v+1满足视频匹配条件，则确定所述视频帧数据对v包含的第二视频帧和所述视频帧数据对v+1包含的第二视频帧所构成的第一视频片段，将所述第一视频片段作为所述第一多媒体本体在所述待处理多媒体本体中的匹配片段；

其中，所述视频匹配条件包括以下至少一项：所述视频帧数据对v包含的第二视频帧在所述U个关键视频帧中的位置，位于所述视频帧数据对v+1包含的第二视频帧在所述U个关键视频帧中的位置之前；所述视频帧数据对v包含的第二视频帧和所述视频帧数据对v+1包含的第二视频帧，在所述U个关键视频帧中，间隔的关键视频帧的数量小于或等于间隔数量阈值；所述第一视频片段的片段长度，处于与第二视频片段的片段长度相关联的片段长度范围内；所述第二视频片段是由所述视频帧数据对v包含的第一视频帧和所述视频帧数据对v+1包含的第一视频帧所构成的视频片段。

17.一种多媒体数据的处理装置，其特征在于，所述装置包括：

全局特征处理模块，用于获取第一多模态数据，对所述第一多模态数据中的第一多媒体本体进行全局特征提取，得到所述第一多媒体本体的第一全局特征；所述第一多模态数据包括与所述第一多媒体本体相关联的第一关联多媒体信息；

所述全局特征处理模块，还用于从业务全局特征数据库中获取第二全局特征，对所述第一全局特征与所述第二全局特征进行全局特征匹配处理，得到所述第一全局特征与所述第二全局特征之间的全局特征匹配度，通过所述第一全局特征与所述第二全局特征之间的全局特征匹配度，从所述第二全局特征中查找与所述第一全局特征相匹配的第二全局特征；所述业务全局特征数据库是由第二多模态数据中的第二多媒体本体的第二全局特征所确定的；所述第二多模态数据包括与所述第二多媒体本体相关联的第二关联多媒体信息；

第一匹配度确定模块，用于将查找到的第二全局特征所对应的第二多媒体本体作为待处理多媒体本体，基于所述第一多媒体本体和所述待处理多媒体本体，构建得到多媒体数据对，将所述第一全局特征与查找到的第二全局特征之间的全局特征匹配度作为所述多媒体数据对的第一类型匹配度；

第二匹配度确定模块，用于将所述第二关联多媒体信息中与所述待处理多媒体本体相关联的第二关联多媒体信息，确定为待处理多媒体信息，对所述第一关联多媒体信息和所述待处理多媒体信息进行信息匹配处理，得到所述第一关联多媒体信息和所述待处理多媒体信息之间的信息匹配度，将所述信息匹配度作为所述多媒体数据对的第二类型匹配度；

数据对匹配模块，用于基于所述第一类型匹配度和所述第二类型匹配度，对所述多媒体数据对进行数据对匹配，得到与所述多媒体数据对相关联的数据对匹配度，基于所述数据对匹配度，对所述多媒体数据对进行数据对筛选，筛选得到与所述第一多媒体本体相匹配的待处理多媒体本体，将筛选出的待处理多媒体本体确定为所述第一多媒体本体的第一匹配多媒体本体。

18.一种计算机设备，其特征在于，包括存储器和处理器；

所述存储器与所述处理器相连，所述存储器用于存储计算机程序，所述处理器用于调用所述计算机程序，以使得所述计算机设备执行权利要求1-16任一项所述的方法。

19.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机程序，所述计算机程序适于由处理器加载并执行，以使得具有所述处理器的计算机设备执行权利要求1-16任一项所述的方法。

20.一种计算机程序产品，其特征在于，包括计算机程序/指令，所述计算机程序/指令被处理器执行时实现权利要求1-16任一项所述的方法。