CN116644389A

CN116644389A - 多媒体侵权检测方法、装置、计算机存储介质及电子设备

Info

Publication number: CN116644389A
Application number: CN202310529163.8A
Authority: CN
Inventors: 罗达志
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2023-05-11
Filing date: 2023-05-11
Publication date: 2023-08-25

Abstract

本申请属于人工智能领域，涉及多媒体侵权检测方法、装置、计算机存储介质及电子设备，包括：获取目标多媒体对应的多模态周边信息和待比对多媒体对应的多模态周边信息，构建目标多媒体特征库和待比对多媒体特征库；根据目标多媒体特征库中的特征与待比对多媒体特征库中的特征之间的相似度确定与目标多媒体匹配的多个目标待比对多媒体，并根据目标多媒体和各目标待比对多媒体形成多媒体对；获取多媒体对中目标多媒体对应的多模态周边信息和目标待比对多媒体对应的多模态周边信息间的多模态特征相似度，根据多模态特征相似度确定与各目标待比对多媒体对应的预测置信度，并根据预测置信度确定侵权多媒体。本申请可提高多媒体侵权检测的准确性和效率。

Description

多媒体侵权检测方法、装置、计算机存储介质及电子设备

技术领域

本申请属于人工智能技术领域，具体涉及一种多媒体侵权检测方法、多媒体侵权检测装置、计算机可读存储介质以及电子设备。

背景技术

随着互联网技术和多媒体平台的快速发展，越来越多的用户开始在多媒体平台上投放自制的多媒体，例如在短视频平台上投放短视频、音频，在图展平台上展示自己的图文作品，等等。但是不可避免的，总会有部分投机用户盗用别人的作品，对原作者的版权权益造成极大伤害，也伤害了多媒体平台的商业利益和信誉。

目前，主要通过在互联网中全量采集多媒体，然后将所采集到的全量多媒体与原作者的多媒体作品进行比对，以获取侵权多媒体。但是该方法存在采集成本高、易导致大量冗余采集的问题，进而造成采集、存储、计算资源的浪费，同时还存在侵权多媒体的召回率低、召回耗时长、准确率差的问题。

发明内容

本申请的目的在于提供一种多媒体侵权检测方法、多媒体侵权检测装置、计算机可读存储介质以及电子设备，能够克服相关技术中存在的召回侵权多媒体时存在的成本高、耗时长、召回准确率差等问题。

本申请的其他特性和优点将通过下面的详细描述变得显然，或部分地通过本申请的实践而习得。

根据本申请实施例的一个方面，提供一种多媒体侵权检测方法，该方法包括：获取目标多媒体对应的多模态周边信息和多个待比对多媒体对应的多模态周边信息，根据所述目标多媒体对应的多模态周边信息构建目标多媒体特征库，根据所述待比对多媒体对应的多模态周边信息构建待比对多媒体特征库；根据所述目标多媒体特征库中的特征与所述待比对多媒体特征库中的特征之间的相似度，确定与所述目标多媒体匹配的多个目标待比对多媒体，并根据所述目标多媒体和各所述目标待比对多媒体形成多个多媒体对；获取各所述多媒体对中目标多媒体对应的多模态周边信息和目标待比对多媒体对应的多模态周边信息之间的多模态特征相似度，根据所述多模态特征相似度确定与各所述目标待比对多媒体对应的预测置信度，并根据所述预测置信度从多个所述目标待比对多媒体中确定与所述目标多媒体对应的侵权多媒体。

根据本申请实施例的一个方面，提供一种多媒体侵权检测装置，该装置包括：多媒体特征库构建模块，用于获取目标多媒体对应的多模态周边信息和多个待比对多媒体对应的多模态周边信息，根据所述目标多媒体对应的多模态周边信息构建目标多媒体特征库，根据所述待比对多媒体对应的多模态周边信息构建待比对多媒体特征库；多媒体对构建模块，用于根据所述目标多媒体特征库中的特征与所述待比对多媒体特征库中的特征之间的相似度，确定与所述目标多媒体匹配的多个目标待比对多媒体，并根据所述目标多媒体和各所述目标待比对多媒体形成多个多媒体对；侵权多媒体获取模块，用于获取各所述多媒体对中目标多媒体对应的多模态周边信息和目标待比对多媒体对应的多模态周边信息之间的多模态特征相似度，根据所述多模态特征相似度确定与各所述目标待比对多媒体对应的预测置信度，并根据所述预测置信度从多个所述目标待比对多媒体中确定与所述目标多媒体对应的侵权多媒体。

根据本申请实施例的一个方面，提供一种计算机可读介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如以上技术方案中的多媒体侵权检测方法。

根据本申请实施例的一个方面，提供一种电子设备，该电子设备包括：处理器；以及存储器，用于存储所述处理器的可执行指令；其中，所述处理器被配置为经由执行所述可执行指令来执行如以上技术方案中的多媒体侵权检测方法。

根据本申请实施例的一个方面，提供一种计算机程序产品，该计算机程序产品包括计算机指令，当所述计算机指令在计算机上运行时，使得所述计算机执行如以上技术方案中的多媒体侵权检测方法。

本申请实施例提供的多媒体侵权检测方法，首先获取目标多媒体信息对应的多模态周边信息和多个待比对多媒体信息对应的多模态周边信息；接着根据目标多媒体对应的多模态周边信息构建目标多媒体特征库，根据待比对多媒体对应的多模态周边信息构建待比对多媒体特征库，通过根据目标多媒体特征库中的特征与待比对多媒体特征库中的特征之间的相似度，可以获取多个媒体对，该媒体对为可能存在侵权的目标待比对多媒体和目标多媒体构成的多媒体对；然后针对各多媒体对，获取其中目标多媒体的多模态周边信息和目标待比对多媒体的多模态周边信息之间的多模态特征相似度，根据该多模态特征相似度可以确定与目标待比对多媒体对应的预测置信度，最后根据该预测置信度可以判断目标待比对多媒体是否为目标多媒体的侵权多媒体。本申请一方面对可能存在侵权的目标待比对多媒体进行粗召回，获取多个包含目标多媒体和目标待比对多媒体的多媒体对，相比对全量采集多媒体，可以大大降低采集成本，并且召回率的损失也较小；另一方面能够用多模态周边信息进行初步侵权研判，将大量搬运型的侵权多媒体以低成本的形式快速检出。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本申请。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本申请的实施例，并与说明书一起用于解释本申请的原理。显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示意性地示出了应用本申请实施例中的多媒体侵权检测方法的系统架构的结构示意图。

图2示意性地示出了本申请实施例中的多媒体侵权检测方法的流程示意图。

图3示意性地示出了本申请实施例中的多媒体侵权检测系统的架构示意图。

图4示意性地示出了本申请实施例中的部分周边信息的提取界面示意图。

图5示意性地示出了本申请实施例中的BERT-wwm的结构示意图。

图6A-图6B示意性示出了本申请实施例中的低信息量的封面图像的界面示意图。

图7A-图7B示意性地示出了本申请实施例中的系列视频中不同集的封面图像的界面示意图。

图8示意性地示出了本申请实施例中的获取多模态特征相似度的流程示意图。

图9示意性地示出了本申请实施例中的多媒体侵权检测方法的流程示意图。

图10示意性地示出了本申请实施例中的多媒体为视频时第二侵权研判模块的结构示意图。

图11示意性地示出了本申请实施例中的对目标视频本体进行黑边检测的流程示意图。

图12示意性地示出了本申请实施例中的ResNet-50模型的结构示意图。

图13示意性地示出了本申请实施例中的根据第一关键帧特征序列和第二关键帧特征序列进行侵权研判的流程示意图。

图14示意性地示出了本申请实施例中的输出至原创作者的侵权信息界面示意图。

图15示意性地示出了本申请实施例中的短视频侵权检测的流程示意图。

图16示意性地示出了本申请实施例中的多媒体为音频时第二侵权检测模块的结构示意图。

图17示意性地示出了本申请实施例中多媒体侵权检测装置的结构框图。

图18示意性示出了适于用来实现本申请实施例的电子设备的计算机系统结构框图。

具体实施方式

现在将参考附图更全面地描述示例实施方式。然而，示例实施方式能够以多种形式实施，且不应被理解为限于在此阐述的范例；相反，提供这些实施方式使得本申请将更加全面和完整，并将示例实施方式的构思全面地传达给本领域的技术人员。

此外，所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中，提供许多具体细节从而给出对本申请的实施例的充分理解。然而，本领域技术人员将意识到，可以实践本申请的技术方案而没有特定细节中的一个或更多，或者可以采用其它的方法、组元、装置、步骤等。在其它情况下，不详细示出或描述公知方法、装置、实现或者操作以避免模糊本申请的各方面。

附图中所示的方框图仅仅是功能实体，不一定必须与物理上独立的实体相对应。即，可以采用软件形式来实现这些功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

附图中所示的流程图仅是示例性说明，不是必须包括所有的内容和操作/步骤，也不是必须按所描述的顺序执行。例如，有的操作/步骤还可以分解，而有的操作/步骤可以合并或部分合并，因此实际执行的顺序有可能根据实际情况改变。

在本申请的相关技术中，多媒体侵权数量多、分布广、侵权的掩饰方式多样，相应地，存在多种召回侵权多媒体的方法。以召回侵权视频为例，相关技术中的召回方法为：海量采集互联网视频，对视频本体做编码并作为召回的特征，召回完成后再进行视频内容帧级别的检测，最终输出检测结果。

但是，该方案需要全量采集互联网视频才能进行检测召回，采集成本过高，并且存在大量的冗余采集，造成采集、存储、计算资源的浪费。另外由于需要全量采集互联网视频，并且将原作者的视频与互联网视频逐一进行比对，因此该方案还存在召回成本高、耗时长、准确率低的问题。

针对本领域的相关技术，本申请实施例提出了一种多媒体侵权检测方法。在对本申请中的多媒体侵权检测方法进行详细说明之前，首先对本申请中可能涉及的技术名词进行说明。

1. 多媒体侵权：侵权是一种侵害他人的权益的行为，因此多媒体侵权即为侵害视频原创作者的行为。

2. 互联网短视频：短视频即短片视频，是一种互联网内容传播方式，一般是在互联网新媒体上传播的时长在10分钟以内的视频。

3. 多模态：多模态指的是多种模态的信息，包括：文本、图像、视频、音频等。

4. 级联检测框架：指的是以级联形式，每一层过滤掉无关数据，从而不断精粹得到目标数据的方案框架。

5. 侵权研判：一种研判行为，主要用于确定B样本是否对A样本存在侵权行为。

6. 多媒体周边信息：指的是互联网中，多媒体的本体之外的信息，如标题、描述、作者等。

7. 多媒体的本体：指的是互联网中，多媒体的内容本体，即多媒体本身。

8. 有监督：是有监督学习的简称，指的是从标签化训练数据集中推断出函数的机器学习任务。

9. 无监督：是无监督学习的简称，指的是根据类别未知(没有被标记)的训练样本解决模式识别中的各种问题。

10. 准确率、精确率、召回率：评估分类效果的指标，分数越高越好。

接下来，对应用本申请技术方案的示例性系统架构进行说明。

图1示意性地示出了应用本申请技术方案的示例性系统架构框图。

如图1所示，系统架构100可以包括终端设备110、服务器120和网络130。终端设备110可以包括智能手机、平板电脑、笔记本电脑、台式电脑、智能电视、智能车载终端等各种电子设备。服务器120可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云计算服务的云服务器。网络130可以是能够在终端设备110和服务器120之间提供通信链路的各种连接类型的通信介质，例如可以是有线通信链路或者无线通信链路。

根据实现需要，本申请实施例中的系统架构可以具有任意数目的终端设备、网络和服务器。例如，服务器120可以是由多个服务器设备组成的服务器群组。另外，本申请实施例提供的技术方案可以应用于服务器120，也可以应用于终端设备110，或者可以由终端设备110和服务器120共同实施，本申请对此不做特殊限定。

在本申请的一个实施例中，多媒体平台用户可以通过安装在终端设备110中的多媒体平台将作品上传并在平台中进行展示，业务方在获取原创作者创作的目标多媒体后，可以从各类多媒体平台中获取平台中所有的多媒体作为待比对多媒体。在获取目标多媒体和待比对多媒体后，侵权检测方可以终端设备110经网络130将目标多媒体和待比对多媒体发送至服务器120，服务器120在接收到目标多媒体和待比对多媒体后，可以从中获取与目标多媒体对应的多模态周边信息和与各待比对多媒体对应的多模态周边信息；接着可以根据目标多媒体对应的多模态周边信息构建目标多媒体特征库，根据各待比对多媒体对应的多模态周边信息构建待比对多媒体特征库，通过计算目标多媒体特征库中的特征与待比对多媒体特征库中的特征之间的相似度，可以确定与目标多媒体匹配的多个目标待比对多媒体，根据目标多媒体和各目标待比对多媒体可以形成多个多媒体对；然后可以获取各所述多媒体对中目标多媒体对应的多模态周边信息和目标待比对多媒体对应的多模态周边信息之间的多模态特征相似度，根据该多模态特征相似度可以确定与各目标待比对多媒体对应的预测置信度，并且根据该预测置信度可以确定与目标多媒体对应的侵权多媒体。进一步地，对于根据预测置信度确定为非侵权多媒体的目标待比对多媒体，还可以通过对目标多媒体的本体和目标待比对多媒体的本体进行特征比对，以确定其是否为目标多媒体的侵权多媒体。

在本申请的一个实施例中，多媒体侵权检测方法还可以由终端设备110执行，也就是说，终端设备110接收到目标多媒体，并从互联网中抓取大量待比对多媒体后，可以从中获取与目标多媒体对应的多媒体周边信息和与各待比对多媒体对应的多模态周边信息，根据目标多媒体对应的多模态周边信息可以构建目标多媒体特征库，根据各待比对多媒体对应的多模态周边信息可以构建待比对多媒体特征库，接着通过计算目标多媒体特征库中的特征与待比对多媒体特征库中的特征之间的相似度，可以确定与目标多媒体匹配的多个目标待比对多媒体，根据目标多媒体和各目标待比对多媒体可以形成多个多媒体对；然后可以确定各多媒体对中目标多媒体对应的多模态周边信息和目标待比对多媒体对应的多模态周边信息之间的多模态特征相似度，根据该多模态特征相似度可以确定与各目标待比对多媒体对应的预测置信度，并且根据该预测置信度可以从多个目标待比对多媒体中确定与目标多媒体对应的侵权多媒体。进一步地，对于根据预测置信度确定为非侵权多媒体的目标待比对多媒体，还可以通过对目标多媒体的本体和目标待比对多媒体的本体进行特征比对，以进一步确定其是否为目标多媒体的侵权多媒体。

在本申请的一些实施例中，在根据多模态周边信息构建多媒体特征库，以及根据多模态特征相似度确定与各目标待比对多媒体对应的预测置信度时，需要使用机器学习模型进行特征提取和置信度预测，而机器学习模型涉及人工智能技术。

人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

自然语言处理(Nature Language processing, NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此，这一领域的研究将涉及自然语言，即人们日常使用的语言，所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。

机器学习(Machine Learning, ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习等技术。

在本申请的一个实施例中，服务器120可以是云服务器，并且服务器120可以采用云存储和云计算等技术进行侵权多媒体的召回处理。

云存储(cloud storage)是在云计算概念上延伸和发展出来的一个新的概念，分布式云存储系统(以下简称存储系统）是指通过集群应用、网格技术以及分布存储文件系统等功能，将网络中大量各种不同类型的存储设备（存储设备也称之为存储节点）通过应用软件或应用接口集合起来协同工作，共同对外提供数据存储和业务访问功能的一个存储系统。

目前，存储系统的存储方法为：创建逻辑卷，在创建逻辑卷时，就为每个逻辑卷分配物理存储空间，该物理存储空间可能是某个存储设备或者某几个存储设备的磁盘组成。客户端在某一逻辑卷上存储数据，也就是将数据存储在文件系统上，文件系统将数据分成许多部分，每一部分是一个对象，对象不仅包含数据而且还包含数据标识（ID，ID entity)等额外的信息，文件系统将每个对象分别写入该逻辑卷的物理存储空间，且文件系统会记录每个对象的存储位置信息，从而当客户端请求访问数据时，文件系统能够根据每个对象的存储位置信息让客户端对数据进行访问。

存储系统为逻辑卷分配物理存储空间的过程，具体为：按照对存储于逻辑卷的对象的容量估量（该估量往往相对于实际要存储的对象的容量有很大余量）和独立冗余磁盘阵列（RAID，Redundant Array of Independent Disk)的组别，预先将物理存储空间划分成分条，一个逻辑卷可以理解为一个分条，从而为逻辑卷分配了物理存储空间。

云计算(cloud computing)是一种计算模式，它将计算任务分布在大量计算机构成的资源池上，使各种应用系统能够根据需要获取计算力、存储空间和信息服务。提供资源的网络被称为“云”。“云”中的资源在使用者看来是可以无限扩展的，并且可以随时获取，按需使用，随时扩展，按使用付费。

作为云计算的基础能力提供商，会建立云计算资源池(简称云平台，一般称为IaaS(Infrastructure as a Service，基础设施即服务)平台，在资源池中部署多种类型的虚拟资源，供外部客户选择使用。云计算资源池中主要包括：计算设备(为虚拟化机器，包含操作系统)、存储设备、网络设备。

按照逻辑功能划分,在IaaS（Infrastructure as a Service，基础设施即服务）层上可以部署PaaS(Platform as a Service,平台即服务)层，PaaS层之上再部署SaaS(Software as a Service,软件即服务)层，也可以直接将SaaS部署在IaaS上。PaaS为软件运行的平台，如数据库、web容器等。SaaS为各式各样的业务软件，如web门户网站、短信群发器等。一般来说，SaaS和PaaS相对于IaaS是上层。

接着，结合具体实施方式对本申请提供的多媒体侵权检测方法、多媒体侵权检测装置、计算机可读介质以及电子设备等技术方案做出详细说明。

图2示意性示出了本申请一个实施例中的多媒体侵权检测方法的步骤流程示意图，该多媒体侵权检测方法由服务器120执行，该服务器120具体可以是图1中的服务器120。如图2所示，本申请实施例中的多媒体侵权检测方法主要可以包括如下的步骤S210至步骤S230。

步骤S210：获取目标多媒体对应的多模态周边信息和多个待比对多媒体对应的多模态周边信息，根据所述目标多媒体对应的多模态周边信息构建目标多媒体特征库，根据所述待比对多媒体对应的多模态周边信息构建待比对多媒体特征库；

步骤S220：根据所述目标多媒体特征库中的特征与所述待比对多媒体特征库中的特征之间的相似度，确定与所述目标多媒体匹配的多个目标待比对多媒体，并根据所述目标多媒体和各所述目标待比对多媒体形成多个多媒体对；

步骤S230：获取各所述多媒体对中目标多媒体对应的多模态周边信息和目标待比对多媒体对应的多模态周边信息之间的多模态特征相似度，根据所述多模态特征相似度确定与各所述目标待比对多媒体对应的预测置信度，并根据所述预测置信度从多个所述目标待比对多媒体中确定与所述目标多媒体对应的侵权多媒体。

在本申请实施例提供的多媒体侵权检测方法中，首先获取目标多媒体信息对应的多模态周边信息和多个待比对多媒体信息对应的多模态周边信息，根据目标多媒体对应的多模态周边信息构建目标多媒体特征库，根据待比对多媒体对应的多模态周边信息构建待比对多媒体特征库；接着根据目标多媒体特征库中的特征与待比对多媒体特征库中的特征之间的相似度，获取多个媒体对，该多媒体对为可能存在侵权的目标待比对多媒体和目标多媒体构成的多媒体对；然后针对各多媒体对，获取其中目标多媒体的多模态周边信息和目标待比对多媒体的多模态周边信息之间的多模态特征相似度，根据该多模态特征相似度可以确定与目标待比对多媒体对应的预测置信度，最后根据该预测置信度可以判断目标待比对多媒体是否为目标多媒体的侵权多媒体。本申请一方面对可能存在侵权的目标待比对多媒体进行粗召回，获取多个包含目标多媒体和目标待比对多媒体的多媒体对，相比对全量采集多媒体，可以大大降低采集成本，并且召回率的损失也较小；另一方面能够用多模态周边信息进行初步侵权研判，将大量搬运型的侵权多媒体以低成本的形式快速检出。

本申请中的目标多媒体和待比对多媒体的类型相同，具体地，目标多媒体和待比对多媒体具体可以是视频或音频。在对本申请中的多媒体侵权检测方法进行说明之前，首先对本申请中用于执行多媒体侵权检测方法的多媒体侵权检测系统的架构进行说明。

图3示意性示出了多媒体侵权检测系统的架构示意图，如图3所示，多媒体侵权检测系统300包括依次连接的可疑多媒体召回模块301、第一侵权研判模块302和第二侵权研判模块303，其中，可疑多媒体召回模块301用于从采集的海量待比对多媒体中获取与目标多媒体相似的可疑待比对多媒体，第一侵权研判模块302用于基于多模态周边信息对可疑多媒体召回模块301召回的可疑待比对多媒体进行侵权研判，初步筛选出目标多媒体的侵权多媒体，第二侵权研判模块用于基于多媒体本体对第一侵权研判模块302确定的非侵权多媒体做进一步地的侵权研判，以充分召回目标多媒体的侵权多媒体。

本申请实施例中的多媒体侵权检测系统是一个级联检测框架，通过可疑多媒体召回模块、第一侵权研判模块和第二侵权研判模块可以逐层过滤掉无关多媒体，从而不断筛选得到精准的侵权多媒体。

下面基于图3所示的多媒体侵权检测系统架构，以召回与用户的目标视频对应的侵权视频为例，对本申请实施例中的多媒体侵权检测方法的各个方法步骤的具体实现方式进行详细说明。

在步骤S210中，获取目标多媒体对应的多模态周边信息和多个待比对多媒体对应的多模态周边信息，根据所述目标多媒体对应的多模态周边信息构建目标多媒体特征库，根据所述待比对多媒体对应的多模态周边信息构建待比对多媒体特征库。

在本申请的一个实施例中，在采用可疑多媒体召回模块对可疑待比对多媒体进行召回之前，首先需要获取目标多媒体和大量待比对多媒体，其中目标多媒体为被侵权多媒体，也就是原创多媒体作品，待比对多媒体为能够从互联网中采集到的所有多媒体作品，接着可以基于目标多媒体和待比对多媒体获取对应的多模态周边信息，其中，目标多媒体对应的多模态周边信息可以包括目标多媒体的作者、标题、作品描述、封面图像、封面语等等，待比对多媒体对应的多模态周边信息可以包括待比对多媒体的作者、标题、作品描述、封面图像、封面语等等。

在本申请的一个实施例中，目标多媒体对应的多模态周边信息可以通过对目标多媒体的网页信息进行提取得到，也可以通过目标多媒体的创作者提供获取，待比对多媒体对应的多模态周边信息可以通过对待比对多媒体的网页信息进行提取得到。图4示意性示出了部分周边信息的提取界面示意图，如图4所示，通过对视频的网页信息进行分析，可从中提取视频的封面图像、标题、作者和作品描述，对于封面上有封面语的情况，也可以对封面图像进行字符识别，以获取封面语。进一步地，基于图4所示的网页信息，还可以通过下载或缓存视频，以获取视频本体。

在本申请的一个实施例中，多模态周边信息中的文本类信息可以以文本形式存储于数据库中，例如将标题、作者、时长、作品描述等以文本形式存储于数据库中，图像类信息可以以多媒体形式存储于对象存储器中，例如将封面图像、视频本体等以JPG、AVI、MP4等多媒体文件形式存储在对象存储器中。在存储时，可以将周边信息以及视频本体与多媒体标识对应存储，当需要使用周边信息或者视频本体时，从相应地数据库或者对象存储器中根据多媒体标识提取即可，该多媒体标识例如可以是音频ID、视频ID等。

在本申请的一个实施例中，在获取目标多媒体对应的多模态周边信息和待比对多媒体对应的多模态周边信息后，可以将目标多媒体对应的多模态周边信息和待比对多媒体对应的多模态周边信息输入至可疑多媒体召回模块中，进行可疑待比对多媒体的召回，将侵权研判的范围限定在可疑待比对多媒体的范围中，这样可以减少数据处理量，提高召回效率，减少成本。

在本申请的一个实施例中，首先可以根据目标多媒体对应的多模态周边信息构建目标多媒体特征库，根据待比对多媒体对应的多模态周边信息构建待比对多媒体特征库，然后通过计算目标多媒体特征库中的特征与待比对多媒体特征库中的特征之间的相似度，以获取与目标多媒体匹配的多个目标待比对多媒体，该些目标待比对多媒体即为可能侵权目标多媒体的可疑多媒体。

在本申请的一个实施例中，多模态周边信息包括文本类周边信息和图像类周边信息，相应地，在构建目标多媒体特征库和待比对多媒体特征库时，需要采用不同的方法获取文本类周边信息的特征和图像类周边信息的特征。在本申请的实施例中，可以采用语义特征提取模型对文本类周边信息进行语义特征提取，以获取与文本类周边信息对应的特征，同时采用图像处理模型对图像类周边信息进行图像特征提取，以获取与图像类周边信息对应的特征。具体地，可以通过语义特征提取模型对目标多媒体对应的多模态周边信息中的标题、作品描述和封面语进行语义特征提取，获取标题特征、作品描述特征和封面语特征，通过图像处理模型对目标多媒体对应的多模态周边信息中的封面图像进行图像特征提取，获取封面图像特征，进而根据目标多媒体对应的元数据、目标多媒体对应的标题特征、作品描述特征、封面语特征和封面图像特征形成目标多媒体特征库；同样地，通过语义特征提取模型对待比对多媒体对应的多模态周边信息中的标题、作品描述和封面语进行语义特征提取，获取标题特征、作品描述特征和封面语特征，通过图像处理模型对待比对多媒体对应的多模态周边信息中的封面图像进行图像特征提取，获取封面图像特征，进而根据待比对多媒体对应的元数据、与待比对多媒体对应的标题特征、作品描述特征、封面语特征和封面图像特征形成待比对多媒体特征库。其中，目标多媒体、待比对多媒体对应的元数据包括与目标多媒体、待比对多媒体对应的统一资源定位符URL、标识ID、标题、作者、封面语、封面图像等可获取的多媒体信息。

在本申请的一个实施例中，视频的标题、作品描述、封面语往往是对视频内容的精准概括性介绍，信息量巨大，如果能够对其中的语义特征进行精准的提取，则能够精准地对两个视频的相似度进行一定程度的判断。考虑到侵权者通常不会照搬原作品的标题、作品描述、封面语等文本描述，而是会进行相应地修改，使二者看起来有所不同。虽然从标题、作品描述和封面语的表达来看，两个作品是有区别的，但其实质是相同的。

鉴于此，本申请实施例中需要一个具有泛化能力的语义特征提取模型，能够准确提取文本类周边信息中的语义特征，并且在文本类周边信息存在改动的前提下，也能够识别出待比对多媒体和目标多媒体之间的相似之处。

在本申请的一个实施例中，该语义特征提取模型可以是以BERT-wwm为基础的模型，其能够精准提取文本中的语义特征。图5示意性示出了BERT-wwm（whole word masking）的结构示意图，如图5所示，BERT-wwm包括输入层501、特征提取层502和输出层503，输入层501用于将输入文本c和d对应的字向量、文本向量和位置向量同时输入至特征提取层502，在输入时可以同时输入多个句子，第一个句子前以[CLS]标记起始，相邻句子之间以[SEP]进行间隔，特征提取层502中包含多层的Transformer层，以对输入文本中各字符进行上下文的特征提取，获取与该字符对应且融合了上下文特征的特征向量，最后通过输出层503将该特征向量输出。

BERT-wwm与BERT的不同在于，原有基于英语单词的分词方式会把一个完整的词切分成若干个子词，在生成训练样本时，这些被分开的子词会随机被打上掩码。这种特性映射到中文里，就是一个中文词中，其中的某些字会被随机打上掩码。这种任务相对中文而言难度较低，难以发挥BERT的所有学习能力，因此，在Whole Word Masking (wwm)中，如果一个完整的词的部分字被打上掩码，则同属该词的其他部分也会被打上掩码，这种特性使得任务学习更加困难，但也使得BERT模型能够更加深入地学习到语义特性，从而提取的语义特征更加强大。因此，本申请实施例中通过采用BERT-wwm为基础的语义特征提取模型，能够精准提取多模态周边信息中的语义特征，并且精准识别侵权信息和原版信息之间的相似度。

在本申请的一个实施例中，在使用基于BERT-wwm构建的语义特征提取模型之前，还需要对其做进一步地训练，以使其能够精准提取周边信息中的语义特征，对于语义相近的文本，提取的特征在数值上相近，而对于语义不相近的文本，提取的特征在数值上相差较多。在本申请的实施例中，采用SimCSE对比学习方案进行模型训练，该模型训练方法采用Dropout和NLI（Natural Language Inference）有监督训练，对BERT-wwm进行定制化调优，使其在语义提取任务上获得了良好的语义特征提取能力。

其中，Dropout是随机关闭掉BERT-wwm模型中一些神经元的连接，关闭的神经元不一样，模型最终的输出也就不一样，用于防止模型过拟合。

NLI，即自然语言推理，其任务是判断两句话之间的关系。其中可能的关系有相近、矛盾，因此，相近句子对就可以作为正例，并且把同batch中其它句子作为负例，有监督对比学习至此成型。

在本申请的一个实施例中，语义特征提取模块的具体训练流程如下，在步骤1中，获取包含不同模态类型样本的标注训练样本集，根据标注训练样本集中的标注标签和不同模态类型样本构建三元组样本，该三元组样本包括锚样本、所述锚样本的相似样本和所述锚样本的不相似样本；在步骤2中，根据锚样本和相似样本构建第一样本对，根据锚样本和不相似样本构建第二样本对，将第一样本对和第二样本对分别输入至待训练的语义特征提取模型进行语义特征提取，以获取与第一样本对对应的距离和与第二样本对对应的距离；在步骤3中，根据第一样本对对应的距离、第二样本对对应的距离和锚样本、相似样本、不相似样本之间的相似关系确定损失函数，并基于该损失函数对待训练的语义特征提取模型的参数进行优化，直至完成对语义特征提取模型的训练。

其中，在获取大量视频的周边信息后，可以对该些视频中的相近标题、相近作品描述和相近封面语进行人工标注，以形成包含不同模态类型样本的标注训练样本集，然后可以将各个视频样本分别作为锚样本，同时根据标注的相近标题、相近作品描述和相近封面语可以将锚样本和其它视频样本组成三元组样本，该三元组样本为(锚样本，相似样本，不相似样本)，接着可以将各三元组样本中的锚样本和相似样本或者锚样本和不相似样本输入至待训练的语义特征提取模型，以获取与锚样本和相似样本或者锚样本和不相似样本对应的距离，该距离可以是任意类型的距离，例如可以是欧式距离、余弦距离等等。最后基于所获取的距离和三元组样本中各样本之间的关系可以构建损失函数，并基于该损失函数对语义特征提取模型的参数进行优化，直至获取稳定的语义特征提取模型。值得说明的是，在输入样本时，是以句子对的形式输入的，例如将锚标题样本和与锚标题样本对应的相似标题样本同时输入，将锚作品描述样本和与锚作品描述样本对应的相似作品描述样本同时输入，等等。

在本申请的一个实施例中，在构建损失函数时，首先可以获取第一距离和第二距离之间的平方差，根据该平方差和边界参数确定与三元组样本对应的损失量；然后根据三元组样本的总数量和所有三元组样本对应的损失量构建损失函数。该损失函数具体为三元组损失函数Triplet Loss，损失函数与三元组样本的总量、三元组样本中锚样本、锚样本的相似样本、锚样本的不相似样本和边界参数满足以下关系（1）：

（1）

其中，D为欧式距离，m为三元组样本的总量，ia为第i个三元组样本中的锚样本，ip为第i个三元组样本中与锚样本相似的样本，in为第i个三元组样本中与锚样本不相似的样本，为第一样本对对应的距离，/>为第二样本对对应的距离，α为边界参数，且为定值。

基于该损失函数，通过调整模型参数，使得相似样本的距离更小，且不相似样本的距离更大。当完成预设次数的模型训练或者损失函数的变化幅值达到最小值时，则认为完成对语义特征提取模型的训练。

在本申请的一个实施例中，在获取训练得到的语义特征提取模型后，可以基于该语义特征提取模型对目标多媒体对应的多模态周边信息和待比对多媒体对应的多模态周边信息进行语义特征提取，具体包括：标题特征提取、作品描述特征提取和封面语特征提取。由于对目标多媒体对应的多模态周边信息和待比对多媒体对应的多模态周边信息中各模态的周边信息进行语义特征提取的方法相同，因此接下来就如何对目标多媒体对应的多模态周边信息和待比对多媒体对应的多模态周边信息中各模态的周边信息进行语义特征提取进行统一说明。

标题特征提取：

步骤1. 获取目标多媒体的标题和所有待比对多媒体的标题。

步骤2. 对所获取的标题进行预处理，该预处理包括：将中文繁体字转换为中文简体字、将标题的长度截取为预设长度，等等。其中，该预设长度可以根据实际需要设定，例如可以将预设长度设置为50个汉字等等。

步骤3. 将预处理后的标题输入至训练好的语义特征提取模型进行语义特征提取，以获取标题特征。其中，该标题特征以数组形式呈现。

步骤4. 将获取的标题特征和对应的多媒体标识对应存储于标题特征数据库中。

作品描述特征提取：

步骤1. 获取目标多媒体的作品描述和所有待比对多媒体的作品描述。

步骤2. 对所获取的作品描述进行预处理，该预处理包括：将中文繁体字转换为中文简体字、将作品描述的长度截取为预设长度，等等。其中，该预设长度可以根据实际需要设定，例如可以将该预设长度设置为50个汉字等等。

步骤3. 将预处理后的作品描述输入至训练好的语义特征提取模型进行语义特征提取，以获取作品描述特征。其中，该作品描述特征以数组形式呈现。

步骤4. 将获取的作品描述特征和对应的多媒体标识对应存储于作品描述数据库中。

封面语特征提取：

步骤1. 获取目标多媒体的封面语和所有待比对多媒体的封面语。

步骤2. 对所获取的封面语进行预处理，该预处理包括：将中文繁体字转换为中文简体字、将封面语的长度截取为预设长度，等等。其中，该预设长度可以根据实际需要设定，例如可以将该预设长度设置为50个汉字等等。

步骤3. 将预处理后的封面语输入至训练好的语义特征提取模型进行语义特征提取，以获取封面语特征。其中，该封面语特征以数组形式呈现。

步骤4. 将获取的封面语特征和对应的多媒体标识对应存储于封面语特征数据库中。

其中，步骤1中的封面语可以是从存储有周边信息的数据库中根据多媒体标识获取的封面语，也可以是在获取封面图像后，对封面图像采用OCR（Optical CharacterRecognition，光学字符识别）或其它字符识别方法获取的封面语。

通过上述语义特征提取方法可以获取与目标多媒体和所有待比对多媒体对应的标题特征、作品描述特征和封面语特征，该些标题特征、作品描述特征和封面语特征可用于后续的特征匹配，以实现对可疑待比对多媒体的召回。

在本申请的一个实施例中，多模态周边信息还包括封面图像，因此还需要对封面图像进行图像特征提取。在本申请的实施例中，可以采用预训练的图像处理模型对封面图像进行图像特征提取，该图像处理模型在进行图像处理时，对于画面相近的封面图像，所提取的图像特征的数值接近，对于画面不相近的封面图像，所提取的图像特征的数值不相近。本申请中的图像处理模型具体可以是基于ImageNet预训练的mobilenet-v3模型，当然还可以是其它的图像处理模型，本申请实施例对此不作具体限定。

封面图像特征提取：

步骤1. 获取目标多媒体的封面图像和所有待比对多媒体的封面图像；

步骤2. 将封面图像输入至预训练的图像处理模型进行图像特征提取，以获取封面图像特征；

步骤3. 将封面图像特征与对应的多媒体标识映射存储于封面图像特征库中。

其中，步骤1中的封面图像可以是从存储有周边信息的数据库中根据多媒体标识直接获取的封面图像，也可以是根据多媒体的封面图像所对应的统一资源定位符下载获取的封面图像，在实时下载得到封面图像后，将其输入至图像处理模型进行图像特征提取，以获取封面图像特征。

通过对封面图像进行统计分析，发现有两类封面图像在进行侵权多媒体召回时容易造成误判，第一类是封面图像中存在大量的空白空间，信息量较少，容易在后续流程中，误匹配其它低信息量的封面图像，如图6A-6B所示，图6A和图6B所示的封面图像中只有少量文字，且排版相似，如果仅从图像层面分析，这两个封面图像很容易误匹配；第二类是封面图像是属于课程、解说等一系列视频的封面图像，不同集数的封面图极其相似，如图7A-7B所示，为一个系列视频的不同集，二者的不同仅在于个别文字的不同，很容易发生误匹配，认定为侵权。

针对上述情形，可以通过图像熵和聚类的方法对相关封面图像特征进行排除，提高可疑待比对多媒体的召回准确率和召回效率。

对于信息量较少的封面图像，其图像熵同样较少，因此可以在获取封面图像后，对封面图像进行特征提取之前，计算封面图像的图像熵，对于图像熵较低的封面图像可以不对其进行特征提取。具体地，首先将封面图像的图像格式转换为灰度图，接着根据灰度图中所有像素的灰度值确定与灰度图对应的图像熵，然后将图像熵与图像熵阈值进行比对，当图像熵小于图像熵阈值时，不对所述封面图像进行图像特征提取。其中，图像熵具体可以是一维图像熵，当然还可以是二维图像熵等等。这样可以减少图像处理模型的图像处理量，提高了图像特征提取效率。

对于存在不同集数且封面图像极其相似的系列多媒体，可以定期对所有封面图像对应的封面图像特征进行聚类计算，将所有封面图像聚类形成多个封面图像聚类簇，然后计算每个封面图像聚类簇中任意两个封面图像对应的封面图像特征之间的距离，当该距离小于距离阈值并且封面图像聚类簇中封面图像的数量大于数量阈值时，则可认定该封面图像聚类簇是由同一个多媒体系列中许多集的封面图像形成的封面图像簇，那么可以删除该封面图像聚类簇中的所有封面图像对应的封面图像特征。

在完成对标题特征、作品描述特征、封面语特征、封面图像特征的提取后，可以将目标多媒体对应的元数据和与目标多媒体对应的标题特征、作品描述特征、封面语特征、封面图像特征映射存储，形成目标多媒体特征库，将各待比对多媒体对应的元数据和与各待比对多媒体对应的标题特征、作品描述特征、封面语特征、封面图像特征映射存储，形成待比对多媒体特征库。在本申请的实施例中，目标多媒体特征库和待比对多媒体特征库具体可以是Faiss数据库，用于存储海量数据。

在步骤S220中，根据所述目标多媒体特征库中的特征与所述待比对多媒体特征库中的特征之间的相似度，确定与所述目标多媒体匹配的多个目标待比对多媒体，并根据所述目标多媒体和各所述目标待比对多媒体形成多个多媒体对。

在本申请的一个实施例中，在获取目标多媒体特征库和待比对多媒体特征库后，可以将目标多媒体特征库中的特征与待比对多媒体特征库中的特征进行匹配，以对可能对目标多媒体存在侵权的可疑待比对多媒体进行召回。

由于从互联网中获取的待比对多媒体的数量是亿量级的，如果采用暴力遍历的方式进行特征匹配的话，召回效率太低，因此在本申请实施例中，可以构建对海量数据的高速检索方法进行召回，具体地，可以基于待比对多媒体特征库构建检索接口，并通过检索接口进行可疑待比对多媒体的检索召回。

在本申请的一个实施例中，检索接口是根据不同模态类型构建的，例如构建对应标题的检索接口、对应作品描述的检索接口、对应封面图像的检索接口和对应封面语的检索接口，那么相应地，需要将待比对多媒体特征库中所有的待比度多媒体特征根据不同模态类型进行划分，另外，为了提高召回效率，可以基于Faiss所支持的IndexIVFFlat索引方法，将不同模态类型对应的待比对多媒体特征划分为多个特征聚类簇，在进行召回时，通过相应检索接口获取目标特征聚类簇进行特征比对即可。

具体地，可以获取待比对多媒体特征库中对应同一模态类型的待比对多媒体特征，并对对应同一模态类型的待比对多媒体特征进行聚类，以获取对应同一模态类型的特征聚类簇，也就是说，标题特征、作品描述特征、封面语特征和封面图像特征均会被划分为多个特征聚类簇，其中，聚类所采用的方法具体可以是Kmeans聚类，在确定聚类数量K和K个初始聚类中心特征后，根据各个特征与K个初始聚类中心特征的距离进行聚类簇的划分。接着，可以根据特征聚类簇对应的模态类型构建不同的检索接口，以便通过不同的检索接口获取与目标多媒体特征库中的特征对应的目标特征聚类簇。进一步地，在构建形成特征聚类簇后，Faiss可以读取各特征聚类簇对应的模态类型，将其加载到内存中，作为检索服务端，通过将检索接口的模态类型与内存中的模态类型进行匹配，以获取目标特征聚类簇进行可疑待比对多媒体的召回。

在本申请的一个实施例中，在接收到目标多媒体中任一模态类型的特征后，可以调用该模态类型对应的检索接口，以预设库函数在相应地目标特征聚类簇中进行检索召回。其中，检索召回时采用的检索参数可以人工设定，该检索参数包括每次检索召回的数据量和检索的对象特征库，同时为了方便调用检索接口，也可以对对应不同模态类型的检索接口进行编号，编号可以采用阿拉伯数字顺序编号，也可以采用不同的字符、字符串进行编号，本申请实施例对此不作具体限定。

通常，检索模态类型和被检索模态类型是相同的，例如根据目标多媒体的标题特征在对应标题的特征聚类簇中进行可疑待比对多媒体的召回，根据目标多媒体的封面语特征在对应封面语的特征聚类簇中进行可疑待比对多媒体的召回，等等。但是考虑到有的标题、作品描述和封面语存在语义相关的情况，因此可以在不同模态类型的特征中进行交叉检索，以提高召回准确率和全面性。本申请实施例中的检索接口可以有10个，分别对应不同的检索模态类型和被检索模态类型组合，如表1所示：

表1 检索接口和检索参数

在确定目标多媒体特征库、检索接口和检索参数后，可以根据如下流程进行可疑待比对多媒体的召回，具体为：在步骤1中，遍历目标多媒体特征库中的特征，将目标多媒体特征库中的任一特征作为目标特征；在步骤2中，获取目标特征对应的模态类型，调用与该模态类型对应的检索接口，通过该检索接口获取与该模态类型对应的目标特征聚类簇；在步骤3中，根据目标特征和目标特征聚类簇中的待比对多媒体特征之间的相似度，确定目标待比对多媒体；在步骤4中，根据目标多媒体的标识信息、目标待比对多媒体的标识信息以及目标特征和目标待比对多媒体的特征之间的相似度，构建多媒体对。

步骤3中，当目标特征聚类簇的数量为多个时，可以获取目标特征与各目标特征聚类簇中聚类中心特征之间的第一相似度；接着将第一相似度由大到小排序形成相似度序列，从该相似度序列中依次获取第一预设数量的目标聚类中心特征，并获取该目标聚类中心特征对应的目标特征聚类簇；然后获取目标特征与目标聚类中心特征对应的目标特征聚类簇中所有特征之间的第二相似度；最后将第二相似度由大到小排序，依次获取第二预设数量的目标特征，并将该目标特征对应的待比对多媒体作为目标待比对多媒体。

步骤4中，目标特征和目标待比对多媒体的特征之间的相似度包括标题-标题相似度，作品描述-作品描述相似度、封面语-封面语相似度、封面-封面相似度、标题-作品描述相似度、标题-封面语相似度、作品描述-标题相似度、作品描述-封面语相似度、封面语-标题相似度、封面语-作品描述相似度，为了方便描述，本申请实施例中将标题-作品描述相似度、标题-封面语相似度、作品描述-标题相似度、作品描述-封面语相似度、封面语-标题相似度、封面语-作品描述相似度记为标题-作品描述-封面语交叉相似度。相应地，最终输出的多媒体对的形式具体为：【目标多媒体ID，目标待比对多媒体ID，标题-标题相似度，作品描述-作品描述相似度、封面语-封面语相似度、封面-封面相似度、标题-作品描述相似度、标题-封面语相似度、作品描述-标题相似度、作品描述-封面语相似度、封面语-标题相似度、封面语-作品描述相似度】。由于每个检索接口的最大检索数量为多个，例如30，并且每个检索接口检索召回的待比对多媒体不完全相同，那么最终形成的多媒体对的数量也为多个，例如可以是30个，也可以是多于30个。

在步骤S230中，获取各所述多媒体对中目标多媒体对应的多模态周边信息和目标待比对多媒体对应的多模态周边信息之间的多模态特征相似度，根据所述多模态特征相似度确定与各所述目标待比对多媒体对应的预测置信度，并根据所述预测置信度从多个所述目标待比对多媒体中确定与所述目标多媒体对应的侵权多媒体。

在本申请的一个实施例中，在获取多个多媒体对后，可以采用第一侵权模块对各个多媒体对中的目标待比对多媒体进行初步侵权研判，以获取目标多媒体的侵权多媒体。具体地，可以通过计算目标多媒体对应的多模态周边信息和目标待比对多媒体对应的多模态周边信息之间的多模态特征相似度，基于该多模态特征相似度确定与目标待比对多媒体对应的预测置信度，也就是目标待比对多媒体为侵权多媒体的可能性，进而根据预测置信度可以确定目标多媒体对应的侵权多媒体。

在本申请的一个实施例中，与多模态特征相对应，多模态特征相似度也包括标题特征相似度、作品描述特征相似度、封面图像特征相似度和封面语特征相似度，进一步地，多模态特征相似度还包括标题特异性、标题特征-作品描述特征-封面语特征交叉相似度、作者相似度和时长相似度。

接下来，对如何获取多模态特征相似度进行详细说明。

图8示意性示出了获取多模态特征相似度的流程示意图，如图8所示，在步骤S801中，根据所述目标多媒体的标题和所述目标待比对多媒体的标题确定标题编辑距离相似度，并将所述标题编辑距离相似度和所述标题相似度作为所述标题特征相似度；在步骤S802中，根据所述目标多媒体标题的词频-逆文档频率值和所述目标待比对多媒体标题的词频-逆文档频率值确定所述标题特异性；在步骤S803中，根据所述目标多媒体的作品描述和所述目标待比对多媒体的作品描述确定作品描述编辑距离相似度，并将所述作品描述编辑距离相似度和所述作品描述相似度作为所述作品描述特征相似度；在步骤S804中，根据所述目标多媒体的封面语和所述目标待比对多媒体的封面语确定封面语编辑距离相似度，并将所述封面语编辑距离相似度和所述封面语相似度作为所述封面语特征相似度；在步骤S805中，将所述标题-作品描述-封面语交叉相似度作为所述标题特征-作品描述特征-封面语特征交叉相似度；在步骤S806中，根据所述目标多媒体的作者和所述目标待比对多媒体的作者确定所述作者相似度；在步骤S807中，根据所述目标多媒体的封面图像特征和所述目标待比对多媒体的封面图像特征确定所述封面图像标题特征相似度；在步骤S808中，根据所述目标多媒体的时长和所述目标待比对多媒体的时长确定所述时长相似度。

其中，步骤S801中的标题编辑距离相似度具体可以通过如下步骤流程实现：在步骤S8011中，对目标多媒体的标题和目标待比对多媒体的标题进行预处理，清除其中的无效字符；该无效字符具体为标题中的非文本类字符，例如表情图像等等；在步骤S8012中，将预处理后的目标多媒体的标题和目标待比对多媒体的标题进行比对，以获取标题编辑距离，其中在确定标题编辑距离时可以采用插入、删除、更改操作确定；在步骤S8013中，获取目标多媒体的标题和目标待比对多媒体的标题中的最长标题长度，将标题编辑距离与该最长标题长度相除（标题编辑距离/最长标题长度），以获取归一化标题编辑距离；在步骤S8014中，根据归一化标题编辑距离确定标题编辑距离相似度，具体地，将1与归一化标题编辑距离相减（1-标题编辑距离/最长标题长度），以获取标题编辑距离相似度。

标题特异性指的是，该标题是否具有较为特异的用词和句式。如果多媒体对中目标多媒体和目标待比对多媒体的标题都较为不特异，即是比较普遍的日常用句，那么该多媒体对可能只是恰好标题相似而不是真的内容存在侵权。反之，如果两个标题都较为特异，那么这两个多媒体极有可能是相同内容或者相关内容，即侵权可能性更高。步骤S802可以通过如下步骤流程实现：在步骤S8021中，对目标多媒体的标题和目标待比对多媒体的标题进行分词；在步骤S8022中，对目标多媒体的标题所对应的分词词语进行词频-逆文档频率计算，以获取第一词频-逆文档频率值，对目标待比对多媒体的标题所对应的分词词语进行词频-逆文档频率计算，以获取第二词频-逆文档频率值；在步骤S8023中，对所有第一词频-逆文档频率值进行加和平均，以获取第一平均值，对所有第二词频-逆文档频率值进行加和平均，以获取第二平均值；在步骤S8024中，对第一平均值和第二平均值进行加和平均，以获取标题特异性。

其中，词频-逆文档频率值与词频、逆文档频率满足以下关系（2）：

TF-IDF=词频（TF）×逆文档频率（IDF）（2）

词频与某个词在标题中的出现次数、标题的总词数满足以下关系（3）：

TF=某个词在标题中的出现次数/标题的总词数（3）

逆文档频率与语料库中的标题总数、包含该词的标题数满足以下关系（4）：

IDF=log（语料库中的标题总数/（包含该词的标题数+1））（4）

步骤S803中获取作品描述特征相似度的方法与获取标题特征相似度的方法相似，其中的作品描述编辑距离相似度具体可以通过如下步骤流程实现：在步骤S8031中，对目标多媒体的作品描述和目标待比对多媒体的作品描述进行预处理，清除其中的无效字符；该无效字符具体为作品描述中的非文本类字符，例如表情图像等等；在步骤S8032中，将预处理后的目标多媒体的作品描述和目标待比对多媒体的作品描述进行比对，以获取作品描述编辑距离；在步骤S8033中，获取目标多媒体的作品描述和目标待比对多媒体的作品描述中的最长作品描述长度，将作品描述编辑距离与该最长作品描述长度相除（作品描述编辑距离/最长作品描述长度），以获取归一化作品描述编辑距离；在步骤S8034中，根据归一化作品描述编辑距离确定作品描述编辑距离相似度，具体地，可以将1与归一化作品描述编辑距离相减（1-作品描述编辑距离/最长标题长度），以获取作品描述编辑距离相似度。

步骤S804中获取封面语编辑距离相似度的方法与获取标题编辑距离相似度和作品描述编辑距离相似度的方法相同，只是对象不同，本申请实施例在此不再赘述。

步骤S806可以通过如下步骤流程实现：在步骤S8061中，对目标多媒体的作者信息进行去重处理，以获取第一字符列表；在步骤S8062中，对目标待比对多媒体的作者信息进行去重处理，以获取第二字符列表；在步骤S8063中，获取第一字符列表和第二字符列表中字符的交集字符量和并集字符量，将交集字符量和并集字符量相除（交集字符量/并集字符量），以获取作者相似度。

步骤S807可以通过如下步骤流程实现：在步骤S8071中，获取目标多媒体的封面图像特征和目标待比对多媒体的封面图像特征之间的内积值；在步骤S8072中，根据目标多媒体的封面图像特征和目标待比对多媒体的封面图像特征对内积值进行归一化处理，以获取封面图像特征相似度。其中，封面图像相似度与目标多媒体的封面图像特征、目标待比对多媒体的封面图像特征满足以下关系（5）：

（5）

其中，a为目标多媒体的封面图像特征，b为目标待比对多媒体的封面图像特征。

值得说明的是，目标多媒体的封面图像特征和目标待比对多媒体的封面图像特征为通过图像处理模型对目标多媒体的封面图像和目标待比对多媒体的封面图像进行图像特征提取得到的封面图像特征。

步骤S808可以通过如下步骤流程实现：在步骤S8081中，获取目标多媒体的时长和目标待比对多媒体的时长中的最小时长和最大时长；在步骤S8082中，根据最小时长与最大时长确定时长相似度。其中，时长相似度与目标多媒体和目标待比对多媒体的最小时长、最大时长之间满足以下关系（6）：

（6）

其中，t₁为目标多媒体的时长，t₂为目标待比对多媒体的时长。

在本申请的一个实施例中，在获取多模态特征相似度后，可以采用机器学习模型对多模态特征相似度进行特征提取，并根据所提取的特征进行侵权多媒体预测，输出与目标待比对多媒体对应的预测置信度。本申请实施例中所采用的机器学习模型为一个可实现分类的分类器，例如可以采用XGBoost模型，当然也可以采用其它分类器模型根据多模态特征相似度进行侵权研判。在获取预测置信度后，可以将预测置信度与置信度阈值进行比较，当预测置信度大于置信度阈值时，则将目标待比对多媒体作为侵权多媒体，当预测置信度小于或等于置信度阈值时，无法唯一确定目标待比对多媒体为非侵权多媒体，还需要根据目标多媒体的本体和目标待比对多媒体的本体做进一步地侵权研判。其中，置信度阈值可以根据实际需要设定，本申请实施例对此不作具体限定。

在本申请的一个实施例中，在使用机器学习模型进行初步侵权研判之前，还需要对该机器学习模型进行训练，模型训练流程具体为：首先，人工标记大量数据。从可疑多媒体召回模块召回的多个多媒体对中，随机抽取若干天的样本，例如抽取一万条样本，并人工对其打标签，其中打标签的方式是，如果待比对多媒体样本确定是侵权的，标记为1，否则标记为0；接着，将以上人工标记样本划分为训练集、验证集、测试集；最后，将以上人工标记的训练集输入至机器学习模型中进行训练，通过验证集和测试集对模型性能进行测试。其中，在训练过程中，以验证集对应的准确率或迭代次数作为训练终止条件。

由于在步骤S230中，仅根据多模态周边信息还无法确定性研判所有的多媒体对，当预测置信度小于或等于置信度阈值时，被研判为非侵权多媒体的数量可能有很多，因此需要对步骤S230中研判为非侵权多媒体的待比对多媒体继续进行侵权研判，相应地，如图9所示，本申请实施例中的多媒体侵权检测方法还包括：

步骤S240：当所述预测置信度小于或等于所述置信度阈值时，获取所述目标多媒体的本体和所述目标待比对多媒体的本体，根据所述目标多媒体的本体和所述目标待比对多媒体的本体确定所述侵权多媒体。

在本申请的一个实施例中，可以通过多媒体侵权检测系统中的第二侵权研判模块实现进一步地侵权研判，第二侵权研判模块可以根据目标多媒体对应的统一资源定位符URL获取目标多媒体的本体，同时根据目标待比对多媒体对应的统一资源定位符URL获取目标待比对多媒体的本体；然后对目标多媒体的本体和目标待比对多媒体的本体进行特征提取和特征匹配，如果存在与目标多媒体的本体匹配的目标待比对多媒体，则该目标待比对多媒体即为侵权多媒体。

在本申请的一个实施例中，在根据目标多媒体的本体和目标待比对多媒体的本体确定侵权多媒体时，首先可以对目标多媒体的本体和目标待比对多媒体的本体进行黑边检测和黑边去除；接着从去除黑边后的目标多媒体的本体中提取关键帧序列，并从去除黑边后的目标待比对多媒体的本体中提取关键帧序列；然后将与目标视频本体对应的关键帧序列输入至机器学习模型中进行特征提取，以获取目标关键帧特征序列，将与目标待比对视频本体对应的关键帧序列输入至机器学习模型中进行特征提取，以获取待比对关键帧特征序列；最后将目标关键帧特征序列和待比对关键帧特征序列进行匹配，并根据匹配结果判断目标待比对多媒体是否为侵权多媒体。

接下来，对第二侵权研判模块的结构以及如何采用第二侵权研判模块进行侵权研判的方法进行说明。

图10示意性示出了多媒体为视频时第二侵权研判模块的结构示意图，如图10所示，第二侵权研判模块包括视频本体采集单元1001、视频本体黑边检测和去除单元1002、视频关键帧提取单元1003、视频关键帧特征提取单元1004和视频本体帧序列匹配单元1005。其中，视频本体采集单元1001用于根据视频的URL获取视频本体，视频本体黑边检测和去除单元1002用于对视频本体进行黑边检测和去除，视频关键帧提取单元1003用于对去除了黑边的视频本体进行关键帧序列提取，视频关键帧特征提取单元1004用于对关键帧序列中的关键帧进行特征提取，视频本体帧序列匹配单元1005用于对目标多媒体对应的关键帧特征序列和目标待比对多媒体对应的关键帧特征序列进行匹配。

在本申请的一个实施例中，视频本体采集模块可以是基于pyspider构建的一个通用的采集框架，该框架支持多进程采集与数据存储能力。在采集视频本体时，可以对各个需要采集的平台的视频本体的获取方式进行解析、编码、存储，并且将这种流程固化为模板，将模板插入到采集框架中，即可获得对特定平台视频的采集能力。在实际运行中，采用redis作为任务队列，将需要采集的视频URL以及其所属平台投入redis队列中，pyspider框架会自动读取其中的任务，并且分发到对应的平台采集模板中，基于该平台采集模板动态加载视频URL对应的网页中的视频资源，并对其进行解析和编码，形成规整的特定格式的视频，例如可以是mp4格式的视频。采集完成后的视频数据，会存储在对象存储空间中，并且以视频的唯一id作为索引方式。

在本申请的一个实施例中，在进行进一步的侵权研判时，可能同时存在两个问题，首先大量的待比对多媒体的本体可能会无法在一个运行周期中采集完，其次第二研判模块希望对于高可疑的多媒体数据能够比低可疑多媒体数据更早采集完成以便于尽早进行研判给出结果。鉴于此，在本申请的实施例中，可以采用第一研判模块输出的预测置信度来作为视频本体采集模块中送采单元的优先级打分，送采单元将待比对多媒体按照优先级倒序，送入采集任务队列中，进行采集，例如步骤S230中将待比对多媒体A、B、C判定为非侵权多媒体，其中待比对多媒体A对应的预测置信度为0.6、待比对多媒体B对应的预测置信度为0.65、待比对多媒体C对应的预测置信度为0.58，根据预测置信度可以得到优先级排序C->A->B，但是预测置信度越高，说明其为侵权多媒体的概率就越高，因此可以对优先级排序倒序排列，以获取送采队列B->A->C，根据该送采队列进行数据采集即可保证在短时间内完成对高可疑的多媒体数据的侵权研判。

在本申请的一个实施例中，在采集得到目标视频本体和目标待比对视频本体后，可以对其进行黑边检测和黑边去除，以保证视频本体特征提取的准确性，进而提高侵权研判的精度和召回率。由于对目标视频本体和目标待比对视频本体进行黑边检测和黑边去除的方法相同，因此可以将目标视频本体和目标待比对视频本体作为目标视频，接下来对目标视频的黑边检测和黑边去除方法进行详细说明。

图11示意性示出了对目标视频本体进行黑边检测的流程示意图，如图11所示，在步骤S1101中，对所述目标视频进行解析，将形成所述目标视频的视频帧按照预设时间段划分为多个视频帧区间；在步骤S1102中，从各所述视频帧区间中提取一个目标视频帧，根据所提取的所有所述目标视频帧形成待分析视频帧列表；在步骤S1103中，对所述待分析视频帧列表中的各所述目标视频帧按照预设规格进行缩放，并基于缩放后的各所述目标视频帧确定每个像素点在时间轴上的方差，以根据所述方差形成方差矩阵；在步骤S1104中，对所述方差矩阵进行二值化处理，并对二值化处理后的方差矩阵进行边缘检测和边缘直线段绘制；在步骤S1105中，根据所述边缘直线段的属性信息判断所述边缘直线段是否为黑边边界，在判定所述边缘直线段为所述黑边边界时，根据所述边缘直线段构建全黑边边界；在步骤S1106中，根据所述预设规格对所述全黑边边界进行放缩，以获取与所述目标视频对应的黑边边界。

其中，步骤S1101中的预设时间段可以根据预设的视频帧数量确定，例如预设的视频帧数量为100帧，目标视频本体时长为5min，那么可以以3s为预设时间段将目标视频本体划分为100个区间，然后从每个区间中提取一个视频帧，即可形成包含100个视频帧的待分析视频帧列表。步骤S1103中，考虑到互联网视频的分辨率差距很大，过高的分辨率可能会导致机器成本上升甚至内存溢出（Out of Memory Killer，OOM）问题，因此需要对待分析视频帧列表中的各个视频帧，在尽量保持信息量的前提下进行对视频帧的大小进行缩放，在本申请的实施例中，缩放方式为固定目标缩放，也就是按照预设规格进行缩放，例如当视频帧的画面的长或者宽大于某阈值，则对视频帧的画面等比缩小到固定的长或者宽，当视频帧的画面的长或者宽小于或者等于某阈值，则对视频帧的画面等比放大到固定的长或者宽。在构建方差矩阵时，可以将所有视频帧按照时间顺序排列，并针对所有视频帧中对应同一像素位置的像素计算均值和方差，进而形成一个与视频帧的图像大小相同且沿时间轴的方差矩阵。由于像素方差能够体现同一个像素在时间轴上的像素变化程度，那么对应黑边的像素其对应的方差较小，而对应图像区域的像素其对应的方差则较大，因此根据方差矩阵能够清楚分辨黑边边界。步骤S1104中，对方差矩阵进行二值化处理时，二值化的阈值可以根据实际需要设置，只要可以区分出在时间轴上有明显变化的区域和无明显变化的区域即可，同时在对二值化处理后的方差矩阵进行边缘检测时可以采用canny算子等边缘检测算法，进行边缘直线段绘制时可以采用HoughLinesP函数绘制，当然也可以采用其它函数绘制呈直线的边缘线段。步骤S1105中，获取边缘直线段后，可以利用线段的长度、垂直度、平行度、距离边缘距离等信息，判断边缘直线段是否为画面黑边的边界，当判定为黑边边界时，可以获取画面四周的黑边边界，并形成全黑边边界。步骤S1106中，全黑边边界是与按照预设规格缩放后的视频帧对应的黑边边界，因此可以根据预设规格放缩全黑边边界，即可得到与原始视频帧对应的原始黑边边界。

在本申请的一个实施例中，在获取与目标视频本体中视频帧对应的原始黑边边界后，可以根据该原始黑边边界对目标视频本体中的视频帧进行裁剪，即可获取无黑边目标视频本体。相应地，通过上述方法对目标待比对视频本体进行处理，即可得到无黑边目标待比对视频本体。

在本申请的一个实施例中，对于短视频而言，视频帧率往往在24-30之间，即1秒的时间内有24-30个画面帧。而在实际的视频中，相近的若干个画面帧是极其相似的，对这些极其相似的帧全量做特征提取乃至后续的特征比对，是冗余操作，它会带来成本的增加和误匹配，因此，需要从视频中繁复冗余的画面帧中，提取出适量的帧，这些帧需要既能有一定的信息量，又能避免冗余操作，以降低机器成本和存储成本，并且提高准确率。因此，在本申请的实施例中，在获取无黑边目标视频本体和无黑边目标待比对视频本体后，可以分别从中提取关键帧，并对所提取的关键帧进行特征提取，进而可以基于关键帧特征进行比对，以获取侵权研判结果。

在对无黑边目标视频本体和无黑边目标待比对视频本体进行关键帧提取时，可以根据固定帧数量间隔或者固定时间间隔进行关键帧提取，但是对于不同帧率的视频而言，当根据固定帧数量间隔提取关键帧时，会造成不同帧率的视频取得的关键帧在实际播放时间中的间隔是不同的，因此在本申请实施例中，需要采用固定时间间隔提取关键帧，例如可以根据秒内固定关键帧提取策略进行提取，具体地，首先获取目标视频本体和目标待比对视频本体的帧率，根据该帧率对去除黑边后的目标视频本体和目标待比对视频本体进行切分，形成与目标视频本体对应的多个视频片段和与目标待比对视频本体对应的多个视频片段；然后以预设视频帧间隔分别从与目标视频本体对应的多个视频片段和与目标待比对视频本体对应的多个视频片段中提取关键帧，将关键帧按照时间顺序存储，以获取与目标视频本体对应的关键帧序列和与目标待比对视频本体对应的关键帧序列。

其中，帧率表示每秒的视频帧数量，可以使用OpenCV开源组件的cv2.CAP_PROP_FPS函数计算不同短视频的帧率F。对于视频帧数为A的短视频，从第一帧开始，每F帧进行一次切分，可以得到A/F个视频片段。对于每个视频片段，可以按照时间平均分布从中提取多个关键帧，具体地，可以每间隔F/N个帧提取一个关键帧。在本申请的实施例中，所提取的关键帧可以存储为JPG格式的图像文件，方便后续处理。

在本申请的一个实施例中，在获取与目标多媒体对应的关键帧序列和与目标待比对多媒体对应的关键帧序列后，可以对与目标多媒体对应的关键帧序列中的每一个关键帧和与目标待比对多媒体对应的关键帧序列中的每一个关键帧进行特征提取，以获取目标关键帧特征序列和待比对关键帧特征序列。

在本申请的一个实施例中，可以采用ResNet-50模型提取目标关键帧特征序列和待比对关键帧特征序列，当然还可以采用其它图像特征提取模型，例如基于注意力机制的机器学习模型。图12示出了ResNet-50模型的结构示意图，如图12所示，ResNet-50包括依次连接的输入层1201、卷积层1202、池化层1203、第一卷积单元1204、第二卷积单元1205、第三卷积单元1206、第四卷积单元1207和输出层1208。

其中，输入层1201用于输入关键帧序列中的关键帧，输入的关键帧的大小具体可以是224×224；卷积层1202所使用的卷积核的大小为7×7，卷积核的数量为64，卷积步长为2，通过卷积层1202的卷积处理，输出大小为112×112的卷积特征；池化层1203的大小为2×2，通过池化处理输出大小为56×56的池化特征；第一卷积单元1204包括三个依次连接的卷积子单元，各卷积子单元的组成结构相同，均包括第一卷积层、第二卷积层和第三卷积层，第一卷积层的卷积核大小1×1，卷积核的数量为64，第二卷积层的卷积核大小3×3，卷积核的数量为64，第三卷积层的卷积核大小1×1，卷积核的数量为256，第一卷积单元1204输出大小为28×28的卷积特征；第二卷积单元1205包括三个依次连接的卷积子单元，各卷积子单元的组成结构相同，均包括第一卷积层、第二卷积层和第三卷积层，第一卷积层的卷积核大小1×1，卷积核的数量为128，卷积步长为2，第二卷积层的卷积核大小3×3，卷积核的数量为128，第三卷积层的卷积核大小1×1，卷积核的数量为512，第一卷积单元1205输出大小为14×14的卷积特征；第三卷积单元1206包括三个依次连接的卷积子单元，各卷积子单元也包括第一卷积层、第二卷积层和第三卷积层，第一卷积层的卷积核大小1×1，卷积核的数量为256，卷积步长为2，第二卷积层的卷积核大小3×3，卷积核的数量为256，第三卷积层的卷积核大小1×1，卷积核的数量为1024，第三卷积单元1206输出大小为7×7的卷积特征；第四卷积单元1207包括三个依次连接的卷积子单元，各卷积子单元也包括第一卷积层、第二卷积层和第三卷积层，第一卷积层的卷积核大小1×1，卷积核的数量为512，卷积步长为2，第二卷积层的卷积核大小3×3，卷积核的数量为512，第三卷积层的卷积核大小1×1，卷积核的数量为2048，第四卷积单元1207输出大小为2048的卷积特征，该卷积特征即为关键帧特征，通过输出层1208输出即可。

在获取每个关键帧对应的关键帧特征之后，将所有的关键帧特征按照关键帧的顺序排列，即可得到关键帧特征序列。

在本申请的一个实施例中，在获取目标关键帧特征序列和待比对关键帧特征序列之后，将二者进行匹配，即可根据匹配结果判断目标待比对多媒体是否为目标多媒体的侵权多媒体。

图13示意性示出了根据第一关键帧特征序列和第二关键帧特征序列进行侵权研判的流程示意图，如图13所示，在步骤S1301中，轮询所述目标关键帧特征序列中所包含的关键帧特征，将所述目标关键帧特征序列中任一关键帧特征作为目标关键帧特征；在步骤S1302中，确定所述目标关键帧特征与所述待比对关键帧特征序列中各关键帧特征之间的距离；在步骤S1303中，在所述距离小于预设距离阈值时，获取所述待比对关键帧特征序列中对应最小距离的目标待比对关键帧特征，将所述目标关键帧特征对应的目标关键帧和所述目标待比对关键帧特征对应的目标待比对关键帧对应存储，以形成相似帧列表；在步骤S1304中，根据所述相似帧列表中相邻两目标关键帧构建目标视频片段，根据所述相似帧列表中相邻两目标待比对关键帧构建目标待比对视频片段，并判断所述目标待比对视频片段是否为所述目标视频片段的侵权片段；在步骤S1305中，汇总所有侵权片段，并根据汇总后的侵权片段确定所述侵权多媒体。

其中，目标关键帧特征序列包括与目标多媒体中所提取的所有关键帧对应的关键帧特征，待比对关键帧特征序列包括与待比对多媒体中所提取的所有关键帧对应的关键帧特征，通过计算目标关键帧特征与各个待比对关键帧特征之间的距离，能够确定与目标关键帧特征相近的目标待比对关键帧特征，进而能够确定与目标多媒体相似的待比对多媒体，在本申请实施例中，在获取目标关键帧特征与各个待比对关键帧特征之间的距离后，可以先将该距离与预设距离阈值进行比较，如果存在小于预设距离阈值的距离，可以从该些距离对应的待比对关键帧特征中获取对应最小距离的目标待比对关键帧特征，并研判该目标待比对关键帧特征对应的目标待比对多媒体是否为侵权多媒体，如果不存在小于预设距离阈值的距离，则不存在与该目标关键帧特征对应的目标待比对关键帧特征。其中，目标关键帧特征和待比对关键帧特征之间的距离具体可以是汉明距离，当然也可以是其它类型的距离，本申请实施例对此不作具体限定。在对每个目标关键帧特征执行上述操作后，可以根据所确定的所有目标待比对关键帧特征获取与目标关键帧相似的目标待比对关键帧，并根据目标关键帧和目标待比对关键帧构建生成相似帧列表。举例而言，目标关键帧特征序列为A，待比对关键帧特征序列为B，通过计算汉明距离，得到与目标关键帧ai（n）相似的目标待比对关键帧为b_ai（n），将二者作为匹配对对应存储，即可得到相似帧列表M={[a_i，b_ai]，[a_i+1，b_a(i+1)]，……，[a_n，b_an]}。由于当目标关键帧特征与各个待比对关键帧特征之间的距离大于或等于预设距离阈值时，不存在与目标关键帧特征对应的目标待比对关键帧特征，因此相似帧列表中不一定包含所有目标关键帧以及对应的目标待比对关键帧。

进一步地，在获取相似帧列表后，可以从第一组匹配对开始，根据相似帧列表中每相邻的两个匹配对中的目标关键帧和目标待比对关键帧分别构建目标视频片段和目标待比对视频片段，具体地，可以根据相似帧列表中第i个目标关键帧、第i+1个目标关键帧以及第i个目标关键帧和第i+1个目标关键帧之间的视频帧形成目标视频片段，根据相似帧列表中第i个目标待比对关键帧、第i+1个目标待比对关键帧以及第i个目标待比对关键帧和第i+1个目标待比对关键帧之间的视频帧形成目标待比对视频片段。接着，可以基于目标视频片段和目标待比对视频片段进行侵权研判。

在本申请的一个实施例中，侵权研判的标准可以从顺序性、连续性和视频片段长度差异三个维度进行，其中，顺序性指两相邻匹配点中目标待比对关键帧的前后顺序是否满足时间先后顺序，即判断第i个目标待比对关键帧和第i+1个目标待比对关键帧是否满足时间先后顺序；连续性指两向量匹配点中目标待比对关键帧之间的关键帧数量是否超过预设阈值，即判断第i个目标待比对关键帧和第i+1个目标待比对关键帧之间的关键帧数量是否大于预设阈值，该预设阈值可以根据实际需要设置，例如设置为5帧、10帧等；视频片段长度差异指目标视频片段和目标待比对视频片段的长度差异是否大于预设长度阈值，该视频片段长度差异是一个比例值，通过确定目标视频片段和目标待比对视频片段中所包含的视频帧数量的差值，并将视频帧差值与目标视频片段包含的视频帧数量相除确定的。当第i个目标待比对关键帧对应的时间和第i+1个目标待比对关键帧对应的时间不满足时间先后顺序、第i个目标待比对关键帧和第i+1个目标待比对关键帧之间的关键帧数量大于预设阈值，并且目标视频片段和目标待比对视频片段之间的长度差异大于预设长度阈值时，判定目标待比对视频片段是目标视频片段的侵权片段。

以相似帧列表M={[a_i，b_ai]，[a_i+1，b_a(i+1)]，……，[a_n，b_an]}为例，从匹配点[a_i，b_ai]开始，根据a_i和a_i+1之间的所有视频帧形成目标视频片段，根据b_ai和b_ai+1之间的所有视频帧形成目标待比对视频片段，将这两个视频片段进行比对，判断是否达到侵权标准。如果判定达到侵权标准，则目标待比对视频片段为目标视频片段的侵权片段，在该视频片段的基础上继续向后寻找匹配点，加入到当前视频片段中；如果判定未达到侵权标准，则目标待比对视频片段不是目标视频片段的侵权片段，则从下一个匹配点开始继续寻找侵权片段。例如，判定[a_i，b_ai]、[a_i+1，b_a(i+1)]形成的目标视频片段和目标待比对视频片段之间存在侵权，[a_i+1，b_a(i+1)]、[a_i+2，b_a(i+2)]形成的目标视频片段和目标待比对视频片段之间也存在侵权，[a_i+2，b_a(i+2)]、[a_i+3，b_a(i+3)]形成的目标视频片段和目标待比对视频片段之间不存在侵权，那么可以根据[a_i，b_ai]、[a_i+2，b_a(i+2)]形成侵权片段，并从[a_i+3，b_a(i+3)]开始继续向后寻找更多的匹配点，直至完成对A和B中所有视频帧的侵权研判。

在本申请的一个实施例中，通过上述流程，可以获取目标待比对多媒体中对目标多媒体造成侵权的所有侵权片段，接着，对所有侵权片段的时长进行汇总可以得到侵权总时长，然后将侵权总时长与目标待比对多媒体的时长相除即可得到侵权率。进一步地，将该侵权率与侵权率阈值进行比较，当侵权率大于侵权率阈值时，即可判定目标待比对多媒体为侵权多媒体，当侵权率小于或等于侵权率阈值时，即可判定目标待比对多媒体不是侵权多媒体。其中，侵权率阈值可以根据实际需要进行设置，例如可以设置为20%、25%等等，本申请实施例对此不作具体限定。

在本申请的一个实施例中，在确定侵权多媒体后，可以将该侵权多媒体的信息输出至业务人员进行分析统计，也可以输出至作品的原创作者，进行版权保护。在输出侵权信息时，除了输出侵权多媒体的链接之外，还可以输出侵权多媒体所在的平台、侵权时长、侵权率、具体侵权片段中的一个或多个。图14示意性示出了输出至原创作者的侵权信息界面示意图，如图14所示，在侵权信息界面中，显示有被侵权视频、侵权视频的链接、侵权视频片段、侵权视频所在的平台或账号、侵权账号ID、维权状态和操作栏，其中操作栏中设置有“维权”控件和“忽略”控件，原创作者通过触发“维权”控件提交维权请求，或者通过触发“忽略”控件放弃维权。根据原创作者的不同操作以及不同的维权阶段，界面中显示不同的维权状态，例如“待维权”、“已提交”、“维权中”、“维权成功”、“维权失败”等，业务方在接收到原创作者的维权请求后，可以向侵权视频发布者或者平台进行发函、催促下家等操作以进行维权。

上述实施例中介绍了本申请实施例中对视频进行侵权检测的方法，该视频可以是任意类型的视频，例如电影、电视剧、互联网短视频，等等。为了使本申请的技术方案更清晰，以自制短视频为例，对本申请中的多媒体侵权检测方法进行说明。

图15示意性示出了短视频侵权检测的流程示意图，如图15所示，在步骤S1501中，获取用户短视频对应的多模态周边信息和从互联网中提取的待比对短视频所对应的多媒体周边信息；在步骤S1502中，对用户短视频对应的多模态周边信息进行语义特征提取和图像特征提取，并根据用户短视频对应的元数据和所提取的语义特征、图像特征构建用户短视频特征库；在步骤S1503中，对待比对短视频所对应的多模态周边信息进行语义特征提取和图像特征提取，并根据待比对短视频对应的元数据和所提取的语义特征、图像特征构建待比对短视频特征库；在步骤S1504中，根据待比对短视频特征库构建高速检索特征池；在步骤S1505中，根据用户短视频特征库中的特征在高速检索特征池中进行可疑待比对短视频的召回，获取包含用户短视频和可疑待比对短视频的视频对；在步骤S1506中，针对视频对中的可疑待比对短视频，进行基于多模态周边信息的侵权研判；具体地，获取标题相似度、作品描述相似度、作者相似度、封面语相似度、封面图像相似度和各种交叉相似度，然后将该些相似度输入至分类模型获取预测置信度，当预测置信度大于或等于预设置信度阈值时，将对应的待比对短视频作为侵权短视频输出；在步骤S1507中，对于步骤S1506中无法确定侵权的视频对，采集其中的短视频本体；在步骤S1508中，对短视频本体中的用户短视频和待比对短视频进行黑边检测和黑边去除；在步骤S1509中，从去除黑边的用户短视频和待比对短视频中提取关键帧序列；在步骤S1510中，对关键帧序列中的关键帧进行特征提取，获取关键帧特征序列；在步骤S1511中，对关键帧特征序列进行动态匹配，并根据匹配结果输出侵权结果。

本申请实施例中的多媒体侵权检测方法可以是主动检测，也可以是被动检测，主动检测就是检测对平台中所有的原创作品存在侵权可能的多媒体，然后将检测结果发送至原作作品的作者，由作者决定是否进行版权保护，被动检测就是响应用户的侵权检测请求，检测对用户创造的多媒体作品存在侵权可能的多媒体，然后将检测结果发送至用户进行版权保护。

本申请实施例中的多媒体侵权检测方法还可以应用于音频侵权检测。音频侵权检测可以基于图3所示的多媒体侵权检测系统实现，并且可疑多媒体召回模块和第一侵权检测模块所执行的流程与对视频进行侵权检测时所执行的流程完全相同，本申请实施例在此不再赘述。由于音频本体和视频本体存在区别，因此在进行音频侵权检测时，第二侵权检测模块及检测方法也存在区别。

图16示意性示出了多媒体为音频时第二侵权检测模块的结构示意图，如图16所示，第二侵权检测模块包括音频本体采集单元1601、音频特征序列提取单元1602和音频特征序列匹配单元1603。其中，音频本体采集单元1601用于根据音频的URL获取音频本体，音频特征序列提取单元1602用于对音频进行特征提取，音频特征序列匹配单元1603用于对目标多媒体对应的音频特征序列和目标待比对多媒体对应的音频特征序列进行匹配。

其中，音频本体采集单元与视频本体采集单元类似，也可以基于pyspider构建，根据第一侵权研判模块输出的预测置信度确定送采优先级，并根据送采优先级进行多进程的音频本体采集。

在本申请的一个实施例中，音频特征为音频的梅尔倒谱系数，在获取与目标音频对应的音频本体和与目标待比对音频对应的音频本体后，可以将目标音频对应的音频本体和目标待比对音频对应的音频本体分别输入至梅尔倒谱系数（MFCC）特征提取模型中，以获取与目标音频对应的对应的音频特征序列和与目标待比对音频对应的音频特征序列；然后将与目标音频对应的音频特征序列和与目标待比对音频对应的音频特征序列进行匹配，并根据匹配结果判断目标待比对音频是否为侵权音频。

MFCC特征提取模型对目标音频对应的音频本体和目标待比对音频对应的音频本体进行特征提取的方法相同，那么可以将目标音频对应的音频本体和目标待比对音频对应的音频本体作为目标音频本体，接下来对MFCC提取模型提取目标音频本体的方法进行说明。

具体地，目标音频本体为连续的音频信号，在输入至MFCC提取模型之前，可以对其进行预处理，例如预加重、分帧和加窗等，然后将预处理的目标音频本体输入至MFCC提取模型进行MFCC特征提取，具体包括快速傅里叶变换、Mel滤波器组滤波、对数运算、DCT和动态特征提取五个流程，在MFCC特征提取过程中，采样率设置为2048，每帧的采样点数和帧移设置为512，相应地，每秒提取得到4帧的音频特征，并且每帧音频的特征尺寸是1×39。

在本申请的一个实施例中，根据提取的与目标音频对应的音频特征序列和与目标待比对音频对应的音频特征序列后，可以将与目标音频对应的音频特征序列中任一音频特征作为目标音频特征，并计算目标音频特征和与目标待比对音频对应的音频特征序列中各音频特征之间的距离，该距离具体可以是汉明距离，当然也可以是其它类型的距离，接着将所获取的距离与预设距离阈值进行比较，在距离小于预设距离阈值时，获取与目标待比对音频对应的音频特征序列中对应最小距离的目标待比对音频特征，将目标音频特征对应的目标音频帧和目标待比对音频特征对应的目标待比对音频帧对应存储，以形成相似帧列表；然后根据相似帧列表中相邻两目标音频帧构建目标音频片段，根据相似帧列表中相邻两目标待比对音频帧构建目标待比对音频片段，并判断目标待比对音频片段是否为目标音频片段的侵权片段；最后汇总所有侵权片段，并根据汇总后的侵权片段确定侵权音频。

其中，根据相似帧列表中的匹配对构建目标音频片段和目标待比对音频片段、判断目标音频片段和目标待比对音频片段是否达到侵权标准、汇总侵权片段和根据汇总后的侵权片段确定侵权音频的方法与上述实施例中根据相似帧列表中的匹配对构建目标视频片段和目标待比对视频片段、判断目标视频片段和目标待比对视频片段是否达到侵权标准、汇总侵权片段和根据汇总后的侵权片段确定侵权视频的方法相同，并且侵权标准也相同，因此本申请实施例在此不再赘述。

本申请提出了一个针对互联网多媒体侵权的检测方案设计，方案以具有级联检测框架的多媒体侵权检测系统实现，多媒体侵权检测系统包含可疑多媒体召回模块、基于多模态周边信息的第一侵权研判模块和基于多媒体本体的第二侵权研判模块。通过本申请中的多媒体侵权检测方法，面对互联网多媒体这种数以十亿量级的无规律数据池的搜索监测，可以满足对侵权多媒体的高召回率、高精度检出，同时监测成本较低，具有较强的商业竞争能力。

其中，可疑多媒体召回是面向海量多媒体场景的，在进行可疑多媒体召回时，采用定制化的语义特征提取模型和图像处理模型，利用其将多种模态的周边信息，如标题、作品描述、封面语、封面图像等，分别转换为稠密特征向量，结合高效特征向量检索方案，以小时级别的耗时完成百万量级的正版作品库与十亿量级的互联网多媒体库的比对，输出可疑的多媒体对。在成本上，相比全量采集多媒体并进行比对，该方案成本可节约90%以上，而召回率损失控制在5%以内。

本申请中采用基于多模态周边信息的第一侵权研判模块进行初步侵权研判，第一侵权研判模块利用标题、时长、作者、作品描述、封面语等文本模态和图像模态的封面图像，经过特征转换形成多模态特征相似度，并进行基于机器学习的研判，输出多媒体对的侵权可能性。对于其中分类模型有准确把握判断的多媒体对（预测置信度极高），直接输出为侵权。该方案利用易采集、易存储的多模态周边信息进行侵权研判，具有检出成本极低，精度高，检出迅速，检出量大的优点。

本申请中还采用面向多媒体本体的第二侵权研判模块进行侵权研判，对于第一侵权研判模块无把握判别的多媒体对，进行多媒体本体的采集和侵权匹配，从而输出确定性的侵权判断结果。该模块是对上一环节无法检出数据的兜底，对侵权对抗性具有优良的鲁棒性，检出数据精度极高，作为漏斗的最后一层，对流通至此的数据具有良好的兜底效果。

可以理解的是，在本申请的具体实施方式中，涉及到采集与多媒体相关的数据，当本申请以上实施例运用到具体产品或技术中时，需要获得用户/平台许可或者同意，且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。

应当注意，尽管在附图中以特定顺序描述了本申请中方法的各个步骤，但是，这并非要求或者暗示必须按照该特定顺序来执行这些步骤，或是必须执行全部所示的步骤才能实现期望的结果。附加的或备选的，可以省略某些步骤，将多个步骤合并为一个步骤执行，以及/或者将一个步骤分解为多个步骤执行等。

以下介绍本申请的装置实施例，可以用于执行本申请上述实施例中的多媒体侵权检测方法。图17示意性示出了本申请实施例提供的多媒体侵权检测装置的结构框图，如图17所示，多媒体侵权检测装置1700包括：多媒体特征库构建模块1710、多媒体对构建模块1720和侵权多媒体获取模块1730，具体地：

多媒体特征库构建模块1710，用于获取目标多媒体对应的多模态周边信息和多个待比对多媒体对应的多模态周边信息，根据所述目标多媒体对应的多模态周边信息构建目标多媒体特征库，根据所述待比对多媒体对应的多模态周边信息构建待比对多媒体特征库；多媒体对构建模块1720，用于根据所述目标多媒体特征库中的特征与所述待比对多媒体特征库中的特征之间的相似度，确定与所述目标多媒体匹配的多个目标待比对多媒体，并根据所述目标多媒体和各所述目标待比对多媒体形成多个多媒体对；侵权多媒体获取模块1730，用于获取各所述多媒体对中目标多媒体对应的多模态周边信息和目标待比对多媒体对应的多模态周边信息之间的多模态特征相似度，根据所述多模态特征相似度确定与各所述目标待比对多媒体对应的预测置信度，并根据所述预测置信度从多个所述目标待比对多媒体中确定与所述目标多媒体对应的侵权多媒体。

在本申请的一些实施例中，所述目标多媒体对应的多模态周边信息和所述待比对多媒体对应的多模态周边信息均包括标题、作品描述、封面图像和封面语，其中所述封面语是对所述封面图像进行文字识别获取的；基于以上技术方案，所述多媒体特征库构建模块1710包括：第一语义特征提取单元，用于通过语义特征提取模型对所述目标多媒体对应的多模态周边信息中的标题、作品描述和封面语进行语义特征提取，以获取标题特征、作品描述特征和封面语特征；第一图像特征提取单元，用于通过预训练的图像处理模型对所述目标多媒体对应的多模态周边信息中的封面图像进行图像特征提取，以获取封面图像特征；目标多媒体特征库构建单元，用于将所述目标多媒体、所述标题特征、所述作品描述特征、所述封面语特征和所述封面图像特征对应存储，以形成所述目标多媒体特征库；以及，第二特征提取单元，用于通过所述语义特征提取模型对所述待比对多媒体对应的多模态周边信息中的标题、作品描述和封面语进行语义特征提取，以获取标题特征、作品描述特征和封面语特征；第二图像特征提取单元，用于通过所述预训练的图像处理模型对所述待比对多媒体对应的多模态周边信息中的封面图像进行图像特征提取，以获取封面图像特征；待比对多媒体特征库构建单元，用于将所述待比对多媒体、与所述待比对多媒体对应的所述标题特征、所述作品描述特征、所述封面语特征和所述封面图像特征对应存储，以形成所述待比对多媒体特征库。

在本申请的一些实施例中，基于以上技术方案，所述语义特征提取单元包括：预处理单元，用于对所述标题、所述作品描述、所述封面语分别进行预处理；特征提取单元，用于将预处理后的所述标题、所述作品描述、所述封面语分别输入至所述语义特征提取模型进行语义特征提取，以获取所述标题特征、所述作品描述特征、所述封面语特征。

在本申请的一些实施例中，基于以上技术方案，所述多媒体特征库构建模块1710包括：样本构建单元，用于在通过语义特征提取模型对所述目标多媒体对应的多模态周边信息中的标题、作品描述和封面语进行语义特征提取之前，获取包含不同模态类型样本的标注训练样本集，根据所述标注训练样本集中的标注标签和所述不同模态类型样本构建三元组样本，所述三元组样本包括锚样本、所述锚样本的相似样本和所述锚样本的不相似样本；模型处理单元，用于根据所述锚样本和所述相似样本构建第一样本对，根据所述锚样本和所述不相似样本构建第二样本对，将所述第一样本对和所述第二样本对分别输入至待训练的语义特征提取模型进行语义特征提取，以获取与所述第一样本对对应的距离和与所述第二样本对对应的距离；模型训练单元，用于根据所述第一样本对对应的距离、所述第二样本对对应的距离和所述锚样本、所述相似样本、所述不相似样本之间的相似关系确定损失函数，并基于所述损失函数对所述待训练的语义特征提取模型的参数进行优化，直至完成对所述语义特征提取模型的训练。

在本申请的一些实施例中，基于以上技术方案，所述模型训练单元配置为：获取所述第一样本对对应的距离和所述第二样本对对应的距离之间的平方差，根据所述平方差和边界参数确定与所述三元组样本对应的损失量；根据所述三元组样本的总数量和所有所述三元组样本对应的损失量构建所述损失函数。

在本申请的一些实施例中，基于以上技术方案，所述多媒体特征库构建模块1710还包括：图像熵极端单元，用于在通过预训练的图像处理模型对封面图像进行图像特征提取之前，将所述封面图像转换为灰度图，根据所述灰度图中所有像素的灰度值确定与所述灰度图对应的图像熵；图像熵比对单元，用于将所述图像熵与图像熵阈值进行比对，当所述图像熵小于所述图像熵阈值时，不对所述封面图像进行图像特征提取。

在本申请的一些实施例中，基于以上技术方案，所述多媒体特征库构建模块1710还包括：封面图像聚类单元，用于在通过预训练的图像处理模型对封面图像进行图像特征提取之后，根据预设聚类数量对所有所述封面图像进行聚类，以获取封面图像聚类簇；距离计算单元，用于计算各所述封面图像聚类簇中任意两个封面图像对应的封面图像特征之间的距离；封面图像筛选单元，用于当所述距离小于距离阈值且所述封面图像聚类簇中封面图像的数量大于数量阈值时，删除所述封面图像聚类簇中所有封面图像对应的封面图像特征。

在本申请的一些实施例中，基于以上技术方案，所述多媒体对构建模块1720包括：特征聚类单元，用于在根据所述目标多媒体特征库中的特征与所述待比对多媒体特征库中的特征之间的相似度，确定与所述目标多媒体匹配的多个目标待比对多媒体之前，获取所述待比对多媒体特征库中对应同一模态类型的待比对多媒体特征，对所述待比对多媒体特征进行聚类，以获取对应同一模态类型的特征聚类簇；检索单元，用于根据所述特征聚类簇对应的模态类型构建不同的检索接口，以便通过所述检索接口获取与所述目标多媒体特征库中的特征对应的目标特征聚类簇。

在本申请的一些实施例中，基于以上技术方案，所述多媒体对构建模块1720包括：目标特征确定单元，用于遍历所述目标多媒体特征库中的特征，将所述目标多媒体特征库中的任一特征作为目标特征；检索服务单元，用于获取所述目标特征对应的模态类型，调用与所述模态类型对应的检索接口，通过所述检索接口获取与所述模态类型对应的目标特征聚类簇；目标待比对多媒体确定单元，用于根据所述目标特征和所述目标特征聚类簇中的待比对多媒体特征之间的相似度，确定所述目标待比对多媒体；多媒体对构建单元，用于根据所述目标多媒体的标识信息、所述目标待比对多媒体的标识信息以及所述目标特征和所述目标待比对多媒体的特征之间的相似度，构建所述多媒体对。

在本申请的一些实施例中，基于以上技术方案，所述检索服务单元配置为：当所述模态类型为标题时，调用对应标题、作品描述和封面语的检索接口；当所述模态类型为作品描述时，调用对应作品描述、标题和封面语的检索接口；当所述模态类型为封面时，调用对应封面的检索接口；当所述模态类型为封面语时，调用对应封面语、标题、作品描述的检索接口。

在本申请的一些实施例中，所述目标特征聚类簇的数量为多个；基于以上技术方案，所述目标待比对多媒体确定单元配置为：获取所述目标特征与各所述目标特征聚类簇中聚类中心特征之间的第一相似度；将所述第一相似度由大到小排序形成相似度序列，从所述相似度序列中依次获取第一预设数量的目标聚类中心特征，并获取所述目标聚类中心特征对应的目标特征聚类簇；获取所述目标特征与所述目标聚类中心特征对应的目标特征聚类簇中所有特征之间的第二相似度；将所述第二相似度由大到小排序，依次获取第二预设数量的目标特征，并将所述目标特征对应的待比对多媒体作为所述目标待比对多媒体。

在本申请的一些实施例中，所述目标多媒体对应的多模态周边信息和所述待比对多媒体对应的多模态周边信息包括作者、标题、作品描述、封面图像和封面语；所述多媒体对包括所述目标多媒体和所述目标待比对多媒体之间的标题相似度、作品描述相似度、封面语相似度、封面图像相似度、标题-作品描述-封面语交叉相似度；所述多模态特征相似度包括标题特征相似度、标题特异性、作品描述特征相似度、封面语特征相似度、标题特征-作品描述特征-封面语特征交叉相似度、作者相似度、封面图像特征相似度和时长相似度；基于以上技术方案，所述侵权多媒体获取模块1730包括：标题特征相似度获取单元，用于根据所述目标多媒体的标题和所述目标待比对多媒体的标题确定标题编辑距离相似度，并将所述标题编辑距离相似度和所述标题相似度作为所述标题特征相似度；标题特异性获取单元，用于根据所述目标多媒体标题的词频-逆文档频率值和所述目标待比对多媒体标题的词频-逆文档频率值确定所述标题特异性；作品描述特征相似度获取单元，用于根据所述目标多媒体的作品描述和所述目标待比对多媒体的作品描述确定作品描述编辑距离相似度，并将所述作品描述编辑距离相似度和所述作品描述相似度作为所述作品描述特征相似度；封面语特征相似度获取单元，用于根据所述目标多媒体的封面语和所述目标待比对多媒体的封面语确定封面语编辑距离相似度，并将所述封面语编辑距离相似度和所述封面语相似度作为所述封面语特征相似度；标题特征-作品描述特征-封面语特征交叉相似度获取单元，用于将所述标题-作品描述-封面语交叉相似度作为所述标题特征-作品描述特征-封面语特征交叉相似度；作者相似度获取单元，用于根据所述目标多媒体的作者信息和所述目标待比对多媒体的作者信息确定所述作者相似度；封面图像特征相似度获取单元，用于根据所述目标多媒体的封面图像特征和所述目标待比对多媒体的封面图像特征确定所述封面图像特征相似度；时长相似度获取单元，用于根据所述目标多媒体的时长和所述目标待比对多媒体的时长确定所述时长相似度。

在本申请的一些实施例中，基于以上技术方案，所述标题特征相似度获取单元配置为：对所述目标多媒体的标题和所述目标待比对多媒体的标题进行预处理；将预处理后的所述目标多媒体的标题和所述目标待比对多媒体的标题进行比对，以获取标题编辑距离；获取所述目标多媒体的标题和所述目标待比对多媒体的标题中的最长标题长度，将所述标题编辑距离与所述最长标题长度相除，以获取归一化标题编辑距离；根据所述归一化标题编辑距离确定所述标题编辑距离相似度。

在本申请的一些实施例中，基于以上技术方案，所述标题特异性获取单元配置为：对所述目标多媒体的标题和所述目标待比对多媒体的标题进行分词；对所述目标多媒体的标题所对应的分词词语进行词频-逆文档频率计算，以获取第一词频-逆文档频率值，对所述目标待比对多媒体的标题所对应的分词词语进行词频-逆文档频率计算，以获取第二词频-逆文档频率值；对所有所述第一词频-逆文档频率值进行加和平均，以获取第一平均值，对所有所述第二词频-逆文档频率值进行加和平均，以获取第二平均值；对所述第一平均值和所述第二平均值进行加和平均，以获取所述标题特异性。

在本申请的一些实施例中，基于以上技术方案，所述作品描述特征相似度获取单元配置为：对所述目标多媒体的作品描述和所述目标待比对多媒体的作品描述进行预处理；将预处理后的所述目标多媒体的作品描述和所述目标待比对多媒体的作品描述进行比对，以获取作品描述编辑距离；获取所述目标多媒体的作品描述和所述目标待比对多媒体的作品描述中的最长作品描述长度，将所述作品描述编辑距离与所述最长作品描述长度相除，以获取归一化作品描述编辑距离；根据所述归一化作品描述编辑距离确定所述作品描述编辑距离相似度。

在本申请的一些实施例中，基于以上技术方案，所述封面语特征相似度获取单元配置为：对所述目标多媒体的封面语和所述目标待比对多媒体的封面语进行预处理；将预处理后的所述目标多媒体的封面语和所述目标待比对多媒体的封面语进行比对，以获取封面语编辑距离；获取所述目标多媒体的封面语和所述目标待比对多媒体的封面语中的最长封面语长度，将所述封面语编辑距离与所述最长封面语长度相除，以获取归一化封面语编辑距离；根据所述归一化封面语编辑距离确定所述封面语编辑距离相似度。

在本申请的一些实施例中，基于以上技术方案，所述作者相似度获取单元配置为：对所述目标多媒体的作者信息进行去重处理，以获取第一字符列表；对所述目标待比对多媒体的作者信息进行去重处理，以获取第二字符列表；获取所述第一字符列表和所述第二字符列表中字符的交集字符量和并集字符量，将所述交集字符量和所述并集字符量相除，以获取所述作者相似度。

在本申请的一些实施例中，基于以上技术方案，所述封面图像特征相似度获取单元配置为：获取所述目标多媒体的封面图像特征和所述目标待比对多媒体的封面图像特征之间的内积值；根据所述目标多媒体的封面图像特征和所述目标待比对多媒体的封面图像特征对所述内积值进行归一化处理，以获取所述封面图像特征相似度。

在本申请的一些实施例中，基于以上技术方案，所述时长相似度获取单元配置为：获取所述目标多媒体的时长和所述目标待比对多媒体的时长中的最小时长和最大时长；根据所述最小时长与所述最大时长确定所述时长相似度。

在本申请的一些实施例中，基于以上技术方案，所述侵权多媒体获取模块1730包括：预测置信度获取单元，用于将所述多模态特征相似度输入至训练好的分类器中进行分类预测，以获取所述预测置信度；侵权多媒体确定单元，用于将所述预测置信度与置信度阈值进行比较，当所述预测置信度大于所述置信度阈值时，将所述目标待比对多媒体作为所述侵权多媒体；侵权再判单元，用于当所述预测置信度小于或等于所述置信度阈值时，获取所述目标多媒体的本体和所述目标待比对多媒体的本体，根据所述目标多媒体的本体和所述目标待比对多媒体的本体确定所述侵权多媒体。

在本申请的一些实施例中，所述目标多媒体的本体为目标视频本体，所述目标待比对多媒体的本体为目标待比对视频本体；基于以上技术方案，所述侵权再判单元包括：黑边处理单元，用于对所述目标视频本体和所述目标待比对视频本体进行黑边检测和黑边去除；关键帧提取单元，用于从去除黑边的所述目标视频本体中提取关键帧序列，并从去除黑边的所述目标待比对视频本体中提取关键帧序列；关键帧特征提取单元，用于将与所述目标视频本体对应的关键帧序列输入至机器学习模型中进行特征提取，以获取目标关键帧特征序列，将与所述目标待比对视频本体对应的关键帧序列输入至所述机器学习模型中进行特征提取，以获取待比对关键帧特征序列；匹配单元，用于将所述目标关键帧特征序列和所述待比对关键帧特征序列进行匹配，并根据匹配结果判断所述目标待比对多媒体是否为所述侵权多媒体。

在本申请的一些实施例中，基于以上技术方案，所述黑边处理单元配置为：将所述目标视频本体和所述目标待比对视频本体作为目标视频，对所述目标视频进行解析，将形成所述目标视频的视频帧按照预设时间段划分为多个视频帧区间；从各所述视频帧区间中分别提取一个目标视频帧，根据所提取的所有所述目标视频帧形成待分析视频帧列表；对所述待分析视频帧列表中的各所述目标视频帧按照预设规格进行缩放，并基于缩放后的各所述目标视频帧确定每个像素点在时间轴上的方差，以根据所述方差形成方差矩阵；对所述方差矩阵进行二值化处理，并对二值化处理后的方差矩阵进行边缘检测和边缘直线段绘制；根据所述边缘直线段的属性信息判断所述边缘直线段是否为黑边边界，在判定所述边缘直线段为所述黑边边界时，根据所述边缘直线段构建全黑边边界；根据所述预设规格对所述全黑边边界进行放缩，以获取与所述目标视频本体对应的原始黑边边界。

在本申请的一些实施例中，基于以上技术方案，所述黑边处理单元配置为：根据与所述目标视频本体对应的原始黑边边界对所述目标视频本体中的各视频帧进行裁剪；根据与所述目标待比对视频本体对应的原始黑边边界对所述目标待比对视频本体中的各视频帧进行裁剪。

在本申请的一些实施例中，基于以上技术方案，所述关键帧提取单元配置为：分别获取所述目标视频本体和所述目标待比对视频本体的帧率，根据所述帧率分别对去除黑边后的所述目标视频本体和所述目标待比对视频本体分别进行切分，形成与所述目标视频本体对应的多个视频片段和与所述目标待比对视频本体对应的多个视频片段；以预设视频帧间隔分别从与所述目标视频本体对应的多个视频片段和与所述目标待比对视频本体对应的多个视频片段中提取关键帧，将所述关键帧按照时间顺序存储，以获取与所述目标视频本体对应的关键帧序列和与所述目标待比对视频本体对应的关键帧序列。

在本申请的一些实施例中，基于以上技术方案，所述匹配单元配置为：轮询所述目标关键帧特征序列中所包含的关键帧特征，将所述目标关键帧特征序列中任一关键帧特征作为目标关键帧特征；确定所述目标关键帧特征与所述待比对关键帧特征序列中各关键帧特征之间的距离；在所述距离小于预设距离阈值时，获取所述待比对关键帧特征序列中对应最小距离的目标待比对关键帧特征，将所述目标关键帧特征对应的目标关键帧和所述目标待比对关键帧特征对应的目标待比对关键帧对应存储，以形成相似帧列表；根据所述相似帧列表中相邻两目标关键帧构建目标视频片段，根据所述相似帧列表中相邻两目标待比对关键帧构建目标待比对视频片段，并判断所述目标待比对视频片段是否为所述目标视频片段的侵权片段；汇总所有侵权片段，并根据汇总后的侵权片段确定所述侵权多媒体。

在本申请的一些实施例中，所述目标视频片段由所述相似帧列表中第i个目标关键帧、第i+1个目标关键帧以及所述第i个目标关键帧和所述第i+1个目标关键帧之间的视频帧形成，所述目标待比对视频片段由所述相似帧列表中第i个目标待比对关键帧、第i+1个目标待比对关键帧以及所述第i个目标待比对关键帧和所述第i+1个目标待比对关键帧之间的视频帧形成，其中i为正整数；基于以上技术方案，所述判断所述目标待比对视频片段是否为所述目标视频片段的侵权片段，配置为：判断所述第i个目标待比对关键帧对应的时间和所述第i+1个目标待比对关键帧对应的时间是否满足时间先后顺序；判断所述第i个目标待比对关键帧和所述第i+1个目标待比对关键帧之间的关键帧数量是否大于预设阈值；判断所述目标视频片段和所述目标待比对视频片段之间的视频片段长度差异是否大于预设长度阈值，其中所述视频片段长度差异是将所述目标视频片段和所述目标待比对视频片段之间的视频帧差值与所述目标视频片段对应的视频帧数量相除确定的；当所述第i个目标待比对关键帧对应的时间和所述第i+1个目标待比对关键帧对应的时间不满足时间先后顺序、所述第i个目标待比对关键帧和所述第i+1个目标待比对关键帧之间的关键帧数量大于预设阈值，并且所述目标视频片段和所述目标待比对视频片段之间的长度差异大于预设长度阈值时，判定所述目标待比对视频片段是所述目标视频片段的侵权片段。

在本申请的一些实施例中，所述目标多媒体的本体为目标音频本体，所述目标待比对多媒体的本体为目标待比对音频本体；基于以上技术方案，所述侵权再研判单元包括：预处理单元，用于对所述目标音频本体和所述目标待比对音频本体进行预处理；音频特征提取单元，将预处理后的所述目标音频本体和所述目标待比对音频本体分别输入至梅尔倒谱系数特征提取模型中，以获取与所述目标音频本体对应的音频特征序列和与所述目标待比对音频本体对应的音频特征序列；匹配单元，用于将与所述目标音频本体对应的音频特征序列和与所述目标待比对音频本体对应的音频特征序列进行匹配，并根据匹配结果判断所述目标待比对多媒体是否为所述侵权多媒体。

在本申请的一些实施例中，基于以上技术方案，所述匹配单元配置为：轮询与所述目标音频本体对应的音频特征序列中所包含的音频特征，将任一音频特征作为目标音频特征；确定所述目标音频特征和所述目标待比对音频本体对应的音频特征序列中各音频特征之间的距离；在所述距离小于预设距离阈值时，获取与所述目标待比对音频本体对应的音频特征序列中对应最小距离的目标待比对音频特征，将所述目标音频特征对应的目标音频帧和所述目标待比对音频特征对应的目标待比对音频帧对应存储，以形成相似帧列表；根据所述相似帧列表中相邻两目标音频帧构建目标音频片段，根据所述相似帧列表中相邻两目标待比对音频帧构建目标待比对音频片段，并判断所述目标待比对音频片段是否为所述目标音频片段的侵权片段；汇总所有侵权片段，并根据汇总后的侵权片段确定所述侵权多媒体。

在本申请的一些实施例中，所述目标音频片段由所述相似帧列表中第i个目标音频帧、第i+1个目标音频帧以及所述第i个目标音频帧和所述第i+1个目标音频帧之间的音频帧形成，所述目标待比对音频片段由所述相似帧列表中第i个目标待比对音频帧、第i+1个目标待比对音频帧以及所述第i个目标待比对音频帧和所述第i+1个目标待比对音频帧之间的音频帧形成，其中i为正整数；基于以上技术方案，所述判断所述目标待比对音频片段是否为所述目标音频片段的侵权片段，配置为：判断所述第i个目标待比对音频帧对应的时间和所述第i+1个目标待比对音频帧对应的时间是否满足时间先后顺序；判断所述第i个目标待比对音频帧和所述第i+1个目标待比对音频帧之间的关键帧数量是否大于预设阈值；判断所述目标音频片段和所述目标待比对音频片段之间的音频片段长度差异是否大于预设长度阈值，其中所述音频片段长度差异是将所述目标音频片段和所述目标待比对音频片段之间的音频帧差值与所述目标音频片段对应的音频帧数量相除确定的；当所述第i个目标待比对音频帧对应的时间和所述第i+1个目标待比对音频帧对应的时间不满足时间先后顺序、所述第i个目标待比对音频帧和所述第i+1个目标待比对音频帧之间的关键帧数量大于预设阈值，并且所述目标音频片段和所述目标待比对音频片段之间的长度差异大于预设长度阈值时，判定所述目标待比对音频片段是所述目标音频片段的侵权片段。

在本申请的一些实施例中，基于以上技术方案，所述汇总侵权片段，并根据汇总后的侵权片段确定所述侵权多媒体，配置为：计算所有侵权片段的总时长，将所述总时长与所述目标待比对多媒体的时长相除，以获取侵权率；当所述侵权率大于侵权率阈值时，判定所述目标待比对多媒体为所述侵权多媒体。

在本申请的一些实施例中，基于以上技术方案，所述多媒体侵权检测装置1700还配置为：在获取所述侵权多媒体后，获取所述侵权多媒体对应的侵权信息，并将所述侵权信息反馈至所述目标多媒体的创作者，其中所述侵权信息包括侵权平台、侵权链接、侵权片段、侵权率、侵权时长中的一个或多个。

本申请各实施例中提供的多媒体侵权检测装置的具体细节已经在对应的方法实施例中进行了详细的描述，此处不再赘述。

图18示意性地示出了用于实现本申请实施例的电子设备的计算机系统结构框图，该电子设备可以是如图1中所示的终端设备110或者服务器120。

需要说明的是，图18示出的电子设备的计算机系统1800仅是一个示例，不应对本申请实施例的功能和使用范围带来任何限制。

如图18所示，计算机系统1800包括中央处理器1801（Central Processing Unit，CPU），其可以根据存储在只读存储器1802（Read-Only Memory，ROM）中的程序或者从存储部分1808加载到随机访问存储器1803（Random Access Memory，RAM）中的程序而执行各种适当的动作和处理。在随机访问存储器1803中，还存储有系统操作所需的各种程序和数据。中央处理器1801、在只读存储器1802以及随机访问存储器1803通过总线1804彼此相连。输入/输出接口1805（Input /Output接口，即I/O接口）也连接至总线1804。

在一些实施例中，以下部件连接至输入/输出接口1805：包括键盘、鼠标等的输入部分1806；包括诸如阴极射线管（Cathode Ray Tube，CRT）、液晶显示器（Liquid CrystalDisplay，LCD）等以及扬声器等的输出部分1807；包括硬盘等的存储部分1808；以及包括诸如局域网卡、调制解调器等的网络接口卡的通信部分1809。通信部分1809经由诸如因特网的网络执行通信处理。驱动器1810也根据需要连接至输入/输出接口1805。可拆卸介质1811，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器1810上，以便于从其上读出的计算机程序根据需要被安装入存储部分1808。

特别地，根据本申请的实施例，各个方法流程图中所描述的过程可以被实现为计算机软件程序。例如，本申请的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分1809从网络上被下载和安装，和/或从可拆卸介质1811被安装。在该计算机程序被中央处理器1801执行时，执行本申请的系统中限定的各种功能。

需要说明的是，本申请实施例所示的计算机可读介质可以是计算机可读信号介质或者计算机可读介质或者是上述两者的任意组合。计算机可读介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器（RAM）、只读存储器（ROM）、可擦式可编程只读存储器（Erasable Programmable Read Only Memory，EPROM）、闪存、光纤、便携式紧凑磁盘只读存储器（Compact Disc Read-Only Memory，CD-ROM）、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中，计算机可读介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中，计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、有线等等，或者上述的任意合适的组合。

附图中的流程图和框图，图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

应当注意，尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元，但是这种划分并非强制性的。实际上，根据本申请的实施方式，上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之，上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。

通过以上的实施方式的描述，本领域的技术人员易于理解，这里描述的示例实施方式可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，根据本申请实施方式的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质（可以是CD-ROM，U盘，移动硬盘等）中或网络上，包括若干指令以使得一台电子设备执行根据本申请实施方式的方法。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。

应当理解的是，本申请并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求来限制。

Claims

1.一种多媒体侵权检测方法，其特征在于，包括：

获取目标多媒体对应的多模态周边信息和多个待比对多媒体对应的多模态周边信息，根据所述目标多媒体对应的多模态周边信息构建目标多媒体特征库，根据所述待比对多媒体对应的多模态周边信息构建待比对多媒体特征库；

根据所述目标多媒体特征库中的特征与所述待比对多媒体特征库中的特征之间的相似度，确定与所述目标多媒体匹配的多个目标待比对多媒体，并根据所述目标多媒体和各所述目标待比对多媒体形成多个多媒体对；

获取各所述多媒体对中目标多媒体对应的多模态周边信息和目标待比对多媒体对应的多模态周边信息之间的多模态特征相似度，根据所述多模态特征相似度确定与各所述目标待比对多媒体对应的预测置信度，并根据所述预测置信度从多个所述目标待比对多媒体中确定与所述目标多媒体对应的侵权多媒体。

2.根据权利要求1所述的方法，其特征在于，所述目标多媒体对应的多模态周边信息和所述待比对多媒体对应的多模态周边信息均包括标题、作品描述、封面图像和封面语，其中所述封面语是对所述封面图像进行文字识别获取的；

所述根据所述目标多媒体对应的多模态周边信息构建目标多媒体特征库，根据所述待比对多媒体对应的多模态周边信息构建待比对多媒体特征库，包括：

通过语义特征提取模型对所述目标多媒体对应的多模态周边信息中的标题、作品描述和封面语进行语义特征提取，以获取标题特征、作品描述特征和封面语特征；

通过预训练的图像处理模型对所述目标多媒体对应的多模态周边信息中的封面图像进行图像特征提取，以获取封面图像特征；

将所述目标多媒体、所述标题特征、所述作品描述特征、所述封面语特征和所述封面图像特征对应存储，以形成所述目标多媒体特征库；以及

通过所述语义特征提取模型对所述待比对多媒体对应的多模态周边信息中的标题、作品描述和封面语进行语义特征提取，以获取标题特征、作品描述特征和封面语特征；

通过所述预训练的图像处理模型对所述待比对多媒体对应的多模态周边信息中的封面图像进行图像特征提取，以获取封面图像特征；

将所述待比对多媒体、与所述待比对多媒体对应的所述标题特征、所述作品描述特征、所述封面语特征和所述封面图像特征对应存储，以形成所述待比对多媒体特征库。

3.根据权利要求2所述的方法，其特征在于，在通过预训练的图像处理模型对封面图像进行图像特征提取之前，所述方法还包括：

将所述封面图像转换为灰度图，根据所述灰度图中所有像素的灰度值确定与所述灰度图对应的图像熵；

将所述图像熵与图像熵阈值进行比对，当所述图像熵小于所述图像熵阈值时，不对所述封面图像进行图像特征提取。

4.根据权利要求3所述的方法，其特征在于，在通过预训练的图像处理模型对封面图像进行图像特征提取之后，所述方法还包括：

根据预设聚类数量对所有所述封面图像进行聚类，以获取封面图像聚类簇；

计算各所述封面图像聚类簇中任意两个封面图像对应的封面图像特征之间的距离；

当所述距离小于距离阈值且所述封面图像聚类簇中封面图像的数量大于数量阈值时，删除所述封面图像聚类簇中所有封面图像对应的封面图像特征。

5.根据权利要求1所述的方法，其特征在于，在根据所述目标多媒体特征库中的特征与所述待比对多媒体特征库中的特征之间的相似度，确定与所述目标多媒体匹配的多个目标待比对多媒体之前，所述方法还包括：

获取所述待比对多媒体特征库中对应同一模态类型的待比对多媒体特征，对所述待比对多媒体特征进行聚类，以获取对应同一模态类型的特征聚类簇；

根据所述特征聚类簇对应的模态类型构建不同的检索接口，以便通过所述检索接口获取与所述目标多媒体特征库中的特征对应的目标特征聚类簇。

6.根据权利要求5所述的方法，其特征在于，所述根据所述目标多媒体特征库中的特征与所述待比对多媒体特征库中的特征之间的相似度，确定与所述目标多媒体匹配的多个目标待比对多媒体，并根据所述目标多媒体和各所述目标待比对多媒体形成多个多媒体对，包括：

遍历所述目标多媒体特征库中的特征，将所述目标多媒体特征库中的任一特征作为目标特征；

获取所述目标特征对应的模态类型，调用与所述模态类型对应的检索接口，通过所述检索接口获取与所述模态类型对应的目标特征聚类簇；

根据所述目标特征和所述目标特征聚类簇中的待比对多媒体特征之间的相似度，确定所述目标待比对多媒体；

根据所述目标多媒体的标识信息、所述目标待比对多媒体的标识信息以及所述目标特征和所述目标待比对多媒体的特征之间的相似度，构建所述多媒体对。

7.根据权利要求6所述的方法，其特征在于，所述目标特征聚类簇的数量为多个；

所述根据所述目标特征和所述目标特征聚类簇中的待比对多媒体特征之间的相似度，确定所述目标待比对多媒体，包括：

获取所述目标特征与各所述目标特征聚类簇中聚类中心特征之间的第一相似度；

将所述第一相似度由大到小排序形成相似度序列，从所述相似度序列中依次获取第一预设数量的目标聚类中心特征，并获取所述目标聚类中心特征对应的目标特征聚类簇；

获取所述目标特征与所述目标特征聚类簇中所有特征之间的第二相似度；

将所述第二相似度由大到小排序，依次获取第二预设数量的目标特征，并将所述目标特征对应的待比对多媒体作为所述目标待比对多媒体。

8.根据权利要求1所述的方法，其特征在于，所述目标多媒体对应的多模态周边信息和所述待比对多媒体对应的多模态周边信息包括作者、标题、作品描述、封面图像和封面语；所述多媒体对包括所述目标多媒体和所述目标待比对多媒体之间的标题相似度、作品描述相似度、封面语相似度、封面图像相似度、标题-作品描述-封面语交叉相似度；所述多模态特征相似度包括标题特征相似度、标题特异性、作品描述特征相似度、封面语特征相似度、标题特征-作品描述特征-封面语特征交叉相似度、作者相似度、封面图像特征相似度和时长相似度；

所述获取各所述多媒体对中目标多媒体对应的多模态周边信息和目标待比对多媒体对应的多模态周边信息之间的多模态特征相似度，包括：

根据所述目标多媒体的标题和所述目标待比对多媒体的标题确定标题编辑距离相似度，并将所述标题编辑距离相似度和所述标题相似度作为所述标题特征相似度；

根据所述目标多媒体标题的词频-逆文档频率值和所述目标待比对多媒体标题的词频-逆文档频率值确定所述标题特异性；

根据所述目标多媒体的作品描述和所述目标待比对多媒体的作品描述确定作品描述编辑距离相似度，并将所述作品描述编辑距离相似度和所述作品描述相似度作为所述作品描述特征相似度；

根据所述目标多媒体的封面语和所述目标待比对多媒体的封面语确定封面语编辑距离相似度，并将所述封面语编辑距离相似度和所述封面语相似度作为所述封面语特征相似度；

将所述标题-作品描述-封面语交叉相似度作为所述标题特征-作品描述特征-封面语特征交叉相似度；

根据所述目标多媒体的作者信息和所述目标待比对多媒体的作者信息确定所述作者相似度；

根据所述目标多媒体的封面图像特征和所述目标待比对多媒体的封面图像特征确定所述封面图像特征相似度；

根据所述目标多媒体的时长和所述目标待比对多媒体的时长确定所述时长相似度。

9.根据权利要求8所述的方法，其特征在于，所述根据所述目标多媒体的标题和所述目标待比对多媒体的标题确定标题编辑距离相似度，包括：

对所述目标多媒体的标题和所述目标待比对多媒体的标题进行预处理；

将预处理后的所述目标多媒体的标题和所述目标待比对多媒体的标题进行比对，以获取标题编辑距离；

获取所述目标多媒体的标题和所述目标待比对多媒体的标题中的最长标题长度，将所述标题编辑距离与所述最长标题长度相除，以获取归一化标题编辑距离；

根据所述归一化标题编辑距离确定所述标题编辑距离相似度。

10.根据权利要求1或8所述的方法，其特征在于，所述根据所述多模态特征相似度确定与各所述目标待比对多媒体对应的预测置信度，并根据所述预测置信度从多个所述目标待比对多媒体中确定与所述目标多媒体对应的侵权多媒体，包括：

将所述多模态特征相似度输入至训练好的分类器中进行分类预测，以获取所述预测置信度；

将所述预测置信度与置信度阈值进行比较，当所述预测置信度大于所述置信度阈值时，将所述目标待比对多媒体作为所述侵权多媒体；

当所述预测置信度小于或等于所述置信度阈值时，获取所述目标多媒体的本体和所述目标待比对多媒体的本体，根据所述目标多媒体的本体和所述目标待比对多媒体的本体确定所述侵权多媒体。

11.根据权利要求10所述的方法，其特征在于，所述目标多媒体的本体为目标视频本体，所述目标待比对多媒体的本体为目标待比对视频本体；

所述根据所述目标多媒体的本体和所述目标待比对多媒体的本体确定所述侵权多媒体，包括：

对所述目标视频本体和所述目标待比对视频本体进行黑边检测和黑边去除；

从去除黑边的所述目标视频本体中提取关键帧序列，并从去除黑边的所述目标待比对视频本体中提取关键帧序列；

将与所述目标视频本体对应的关键帧序列输入至机器学习模型中进行特征提取，以获取目标关键帧特征序列，将与所述目标待比对视频本体对应的关键帧序列输入至所述机器学习模型中进行特征提取，以获取待比对关键帧特征序列；

将所述目标关键帧特征序列和所述待比对关键帧特征序列进行匹配，并根据匹配结果判断所述目标待比对多媒体是否为所述侵权多媒体。

12.根据权利要求11所述的方法，其特征在于，所述对所述目标视频本体和所述目标待比对视频本体进行黑边检测，包括：

将所述目标视频本体和所述目标待比对视频本体作为目标视频，对所述目标视频进行解析，将形成所述目标视频的视频帧按照预设时间段划分为多个视频帧区间；

从各所述视频帧区间中分别提取一个目标视频帧，根据所提取的所有所述目标视频帧形成待分析视频帧列表；

对所述待分析视频帧列表中的各所述目标视频帧按照预设规格进行缩放，并基于缩放后的各所述目标视频帧确定每个像素点在时间轴上的方差，以根据所述方差形成方差矩阵；

对所述方差矩阵进行二值化处理，并对二值化处理后的方差矩阵进行边缘检测和边缘直线段绘制；

根据所述边缘直线段的属性信息判断所述边缘直线段是否为黑边边界，在判定所述边缘直线段为所述黑边边界时，根据所述边缘直线段构建全黑边边界；

根据所述预设规格对所述全黑边边界进行放缩，以获取与所述目标视频本体对应的原始黑边边界。

13.根据权利要求11所述的方法，其特征在于，所述从去除黑边的所述目标视频本体中提取关键帧序列，并从去除黑边的所述目标待比对视频本体中提取关键帧序列，包括：

分别获取所述目标视频本体和所述目标待比对视频本体的帧率，根据所述帧率分别对去除黑边后的所述目标视频本体和去除黑边后的所述目标待比对视频本体分别进行切分，形成与所述目标视频本体对应的多个视频片段和与所述目标待比对视频本体对应的多个视频片段；

以预设视频帧间隔分别从与所述目标视频本体对应的多个视频片段和与所述目标待比对视频本体对应的多个视频片段中提取关键帧，将所述关键帧按照时间顺序存储，以获取与所述目标视频本体对应的关键帧序列和与所述目标待比对视频本体对应的关键帧序列。

14.根据权利要求11所述的方法，其特征在于，所述将所述目标关键帧特征序列和所述待比对关键帧特征序列进行匹配，并根据匹配结果判断所述目标待比对多媒体是否为所述侵权多媒体，包括：

轮询所述目标关键帧特征序列中所包含的关键帧特征，将所述目标关键帧特征序列中任一关键帧特征作为目标关键帧特征；

确定所述目标关键帧特征与所述待比对关键帧特征序列中各关键帧特征之间的距离；

在所述距离小于预设距离阈值时，获取所述待比对关键帧特征序列中对应最小距离的目标待比对关键帧特征，将所述目标关键帧特征对应的目标关键帧和所述目标待比对关键帧特征对应的目标待比对关键帧对应存储，以形成相似帧列表；

根据所述相似帧列表中相邻两目标关键帧构建目标视频片段，根据所述相似帧列表中相邻两目标待比对关键帧构建目标待比对视频片段，并判断所述目标待比对视频片段是否为所述目标视频片段的侵权片段；

汇总所有侵权片段，并根据汇总后的侵权片段确定所述侵权多媒体。

15.根据权利要求10所述的方法，其特征在于，所述目标多媒体的本体为目标音频本体，所述目标待比对多媒体的本体为目标待比对音频本体；

对所述目标音频本体和所述目标待比对音频本体进行预处理；

将预处理后的所述目标音频本体和所述目标待比对音频本体分别输入至梅尔倒谱系数特征提取模型中，以获取与所述目标音频本体对应的音频特征序列和与所述目标待比对音频本体对应的音频特征序列；

将与所述目标音频本体对应的音频特征序列和与所述目标待比对音频本体对应的音频特征序列进行匹配，并根据匹配结果判断所述目标待比对多媒体是否为所述侵权多媒体。

16.根据权利要求15所述的方法，其特征在于，所述将与所述目标音频本体对应的音频特征序列和与所述目标待比对音频本体对应的音频特征序列进行匹配，并根据匹配结果判断所述目标待比对多媒体是否为所述侵权多媒体，包括：

轮询与所述目标音频本体对应的音频特征序列中所包含的音频特征，将任一音频特征作为目标音频特征；

确定所述目标音频特征和所述目标待比对音频本体对应的音频特征序列中各音频特征之间的距离；

在所述距离小于预设距离阈值时，获取与所述目标待比对音频本体对应的音频特征序列中对应最小距离的目标待比对音频特征，将所述目标音频特征对应的目标音频帧和所述目标待比对音频特征对应的目标待比对音频帧对应存储，以形成相似帧列表；

根据所述相似帧列表中相邻两目标音频帧构建目标音频片段，根据所述相似帧列表中相邻两目标待比对音频帧构建目标待比对音频片段，并判断所述目标待比对音频片段是否为所述目标音频片段的侵权片段；

17.根据权利要求14或16所述的方法，其特征在于，所述汇总侵权片段，并根据汇总后的侵权片段确定所述侵权多媒体，包括：

计算所有侵权片段的总时长，将所述总时长与所述目标待比对多媒体的时长相除，以获取侵权率；

当所述侵权率大于侵权率阈值时，判定所述目标待比对多媒体为所述侵权多媒体。

18.一种多媒体侵权检测装置，其特征在于，包括：

多媒体特征库构建模块，用于获取目标多媒体对应的多模态周边信息和多个待比对多媒体对应的多模态周边信息，根据所述目标多媒体对应的多模态周边信息构建目标多媒体特征库，根据所述待比对多媒体对应的多模态周边信息构建待比对多媒体特征库；

多媒体对构建模块，用于根据所述目标多媒体特征库中的特征与所述待比对多媒体特征库中的特征之间的相似度，确定与所述目标多媒体匹配的多个目标待比对多媒体，并根据所述目标多媒体和各所述目标待比对多媒体形成多个多媒体对；

侵权多媒体获取模块，用于获取各所述多媒体对中目标多媒体对应的多模态周边信息和目标待比对多媒体对应的多模态周边信息之间的多模态特征相似度，根据所述多模态特征相似度确定与各所述目标待比对多媒体对应的预测置信度，并根据所述预测置信度从多个所述目标待比对多媒体中确定与所述目标多媒体对应的侵权多媒体。

19.一种电子设备，其特征在于，包括：

处理器；以及

存储器，用于存储指令；

其中，所述处理器执行所述存储器存储的指令用于实现权利要求1至17中任意一项所述的多媒体侵权检测方法。