CN112270238A

CN112270238A - 一种视频内容识别方法和相关装置

Info

Publication number: CN112270238A
Application number: CN202011137819.4A
Authority: CN
Inventors: 禹常隆; 田植良
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-10-22
Filing date: 2020-10-22
Publication date: 2021-01-26

Abstract

本申请实施例公开了一种视频内容识别方法和相关装置，对待识别视频内容进行视频分段，得到多个视频片段，并获取多个视频片段分别对应的风格向量。然后，对获取的视频分段对应的风格向量进行相似度聚类，得到第一风格聚类和第二风格聚类，并确定第一风格聚类对应的风格向量与第二风格聚类对应的风格向量之间的风格相似度，从而可以根据该风格相似度确定出待识别视频内容中是否包含与待识别视频内容不相关的内容，实现了对于视频内容的自动化识别。如此基于视频内容的视频风格与不相关内容的视频风格不同的特点，在识别不相关内容时增加了对于视频内容本身的考量，提高了对于视频内容的识别准确度。

Description

一种视频内容识别方法和相关装置

技术领域

本申请涉及数据处理领域，特别是涉及一种视频内容识别方法和相关装置。

背景技术

用户作为媒体提供者可以将视频内容提供在网络上进行分享，例如目前常见的视频平台上由up主分享的各种视频。

媒体提供者在编辑视频内容时，有时会将与视频内容本身没有关联的其他内容添加到视频内容中，例如广告、推广等。由此当用户在网络上观看该视频内容时，会在观看过程中看到这些其他内容，导致用户的查看思路中断或者引起用户反感。

目前，主要通过人工筛查提供在网络上的视频内容，以排查掉这类添加了其他内容的视频内容，然而每天上传到网络中的视频内容数量很大，光靠人工排查无法解决问题，用户依然时常受到这类视频内容的干扰。

发明内容

为了解决上述技术问题，本申请提供了一种视频内容识别方法和相关装置，实现了对于视频内容的自动化识别。

本申请实施例公开了如下技术方案：

一方面，本申请实施例提供了一种视频内容识别方法，所述方法包括：

对待识别视频内容进行视频分段，得到多个视频片段；

获取所述多个视频片段分别对应的风格向量；

对获取的所述风格向量进行相似度聚类，得到第一风格聚类和第二风格聚类；

确定所述第一风格聚类对应的风格向量与所述第二风格聚类对应的风格向量之间的风格相似度；

根据所述风格相似度确定所述待识别视频内容中是否包含与所述待识别视频内容不相关的内容。

另一方面，本申请实施例提供了一种视频内容识别装置，所述装置包括分段单元、获取单元、聚类单元和确定单元：

所述分段单元，用于对待识别视频内容进行视频分段，得到多个视频片段；

所述获取单元，用于获取所述多个视频片段分别对应的风格向量；

所述聚类单元，用于对获取的所述风格向量进行相似度聚类，得到第一风格聚类和第二风格聚类；

所述确定单元，用于确定所述第一风格聚类对应的风格向量与所述第二风格聚类对应的风格向量之间的风格相似度；

所述确定单元，还用于根据所述风格相似度确定所述待识别视频内容中是否包含与所述待识别视频内容不相关的内容。

另一方面，本申请实施例提供了一种计算机设备，所述计算机设备包括处理器以及存储器：

所述存储器用于存储程序代码，并将所述程序代码传输给所述处理器；

所述处理器用于根据所述程序代码中的指令执行上述方面所述的方法。

另一方面，本申请实施例提供了一种计算机可读存储介质，所述计算机可读存储介质用于存储计算机程序，所述计算机程序用于执行上述方面所述的方法。

另一方面，本申请实施例提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述方面所述的方法。

由上述技术方案可以看出，对待识别视频内容进行视频分段，得到多个视频片段，并获取多个视频片段分别对应的风格向量。然后，对获取的视频分段对应的风格向量进行相似度聚类，得到第一风格聚类和第二风格聚类，并确定第一风格聚类对应的风格向量与第二风格聚类对应的风格向量之间的风格相似度，由于不包含不相关内容的视频内容一般具有统一的视频风格，而包含了不相关内容的视频内容中，不相关内容与视频内容的风格一般难以统一，因此，前述两个风格聚类的风格相似度能够体现待识别视频内容的整体风格是否统一，从而可以根据该风格相似度确定出待识别视频内容中是否包含与待识别视频内容不相关的内容，实现了对于视频内容的自动化识别。如此基于视频内容的视频风格与不相关内容的视频风格不同的特点，在识别不相关内容时增加了对于视频内容本身的考量，提高了对于视频内容的识别准确度。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种视频内容识别方法的应用场景示意图；

图2为本申请实施例提供的一种视频内容识别方法的流程示意图；

图3为本申请实施例提供的一种第一模型训练方法的流程示意图；

图4为本申请实施例提供的一种第二模型训练方法的流程示意图；

图5为本申请实施例提供的一种风格向量获取方法的流程示意图；

图6为本申请实施例提供的另一种视频内容识别方法的流程示意图；

图7为本申请实施例提供的一种视频片段和片段边界的示意图；

图8为本申请实施例提供的一种确定n阶片段组的内容特征方法的流程示意图；

图9为本申请实施例提供的一种第三模型训练方法的流程示意图；

图10为本申请实施例提供的一种用于视频内容识别的模块示意图；

图11为本申请实施例提供的一种视频内容识别装置的结构示意图；

图12为本申请实施例提供的服务器的结构示意图；

图13为本申请实施例提供的终端设备的结构示意图。

具体实施方式

下面结合附图，对本申请的实施例进行描述。

在相关技术中，可以基于人工筛查的方式对网络上的视频内容进行识别，但是，对于网络上大量的视频内容，需要消耗大量的时间和成本。或者，还可以使用视频内容识别工具对视频内容中可能广泛存在的不相关内容进行识别，但是，这些工具在算法设计以及模型训练的过程中，仅仅考虑了不相关内容，不考虑视频内容本身，导致对于视频内容是否包括不相关内容的识别准确度较低。

为此，本申请实施例提供了一种视频内容识别方法和相关装置，实现了对于视频内容的自动化识别，提高了视频内容的识别准确度。

本申请实施例提供的视频内容识别方法是基于人工智能实现的，人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

在本申请实施例中，主要涉及的人工智能软件技术包括上述计算机视觉技术、机器学习/深度学习等方向。例如，可以涉及计算机视觉(Computer Vision)中的图像处理(Image Processing)、图像语义理解等，也可以涉及机器学习(Machine learning，ML)中的深度学习(Deep Learning)，包括各类人工神经网络(Artificial Neural Network,ANN)。

本申请提供的视频内容识别方法可以应用于具有数据处理能力的视频内容识别设备，如终端设备、服务器。其中，终端设备具体可以为智能手机、计算机、个人数字助理(Personal Digital Assistant，PDA)、平板电脑等；服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云计算服务的云服务器。终端设备以及服务器可以通过有线或无线通信方式进行直接或间接地连接，本申请在此不做限制。

该视频内容识别设备可以具备实施计算机视觉技术的能力，计算机视觉是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、文字识别(Optical Character Recognition,OCR)、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。

在本申请实施例中，视频内容识别设备可以通过计算机视觉中的视频处理、视频语义理解、视频内容/行为识别等技术对待识别视频内容进行处理。

该视频内容识别设备可以具备机器学习能力。机器学习是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络等技术。

在本申请实施例提供的视频内容识别方法中采用的模型主要涉及对神经网络的应用，通过神经网络实现对视频内容可能包括的不相关内容进行识别。

下面以服务器作为视频内容识别设备对本申请实施例进行介绍。

参见图1，图1为本申请实施例提供的视频内容识别方法的应用场景示意图。在图1所示的应用场景中，包括服务器100，用于对待识别视频内容中是否包含与待识别视频内容不相关的内容进行识别。其中，与待识别视频内容不相关的内容是指与待识别视频内容所要传达的主要含义关联性较低的其他内容，例如，军事视频内容中所包含的数码产品广告就是与军事视频内容不相关的内容。

如图1所示，服务器100对待识别视频内容101进行视频分段，得到多个视频片段102，例如，以5s的视频播放长度对待识别视频内容进行分割，得到多个5s播放长度的视频片段。

然后，对上述多个视频片段102进行特征提取，获取这多个视频片段102分别对应的风格向量103，该风格向量103可以理解为从视频风格维度对视频片段102进行特征提取得到的风格特征，其中，视频风格是指视频播放时所展现的视频质量，包括但不限于：画风、画质、色调、亮度等。

进一步地，对多个视频片段102分别对应的风格向量103进行相似度聚类，得到第一风格聚类104和第二风格聚类105。其中，第一风格聚类104所包括风格向量对应的视频片段具有相似的视频风格，第二风格聚类105所包括风格向量对应的视频片段具有相似的视频风格。

继而，计算第一风格聚类104对应的风格向量和第二风格聚类105对应的风格向量之间的风格相似度106，该风格相似度106标识了第一风格聚类104对应的视频风格与第二风格聚类105对应的视频风格相似的可能性。

由于不包含不相关内容的视频内容一般具有统一的视频风格，而包含了不相关内容的视频内容中，不相关内容与视频内容的风格一般难以统一，因此，上述风格相似度106能够体现待识别视频内容的整体风格是否统一，从而可以根据风格相似度106确定出待识别视频内容中是否包含与待识别视频内容不相关的内容。

上述基于视频内容的视频风格与不相关内容的视频风格不同的特点，实现了对于视频内容的自动化识别，并且在识别不相关内容时增加了对于视频内容本身的考量，提高了对于视频内容的识别准确度。

下面结合图2，对本申请实施例提供的视频内容识别方法逐步进行介绍。参见图2，图2为本申请实施例提供的一种视频内容识别方法的流程示意图。如图2所示，该视频内容识别方法包括以下步骤：

S201：对待识别视频内容进行视频分段，得到多个视频片段。

在本申请实施例中，需要对待识别视频是否包含与待识别视频内容不相关的内容进行识别，可以将待识别视频识别为正常视频或内嵌视频。其中，正常视频是指不包含与待识别视频内容不相关的内容的视频，内嵌视频是指包含了与待识别视频内容不相关的内容的视频。而与待识别视频内容不相关的内容是指与待识别视频内容所要传达的主要含义关联性较低的其他内容。

例如，包含教学应用程序广告的教学视频，由于教学视频所要传达的主要含义为知识，而教学应用程序广告所要传达的含义在于宣传、推广教学应用程序，与教学视频所要传达的知识之间的关联性较低，因此，该教学视频所包含的教学应用程序广告为与教学视频不相关的内容。

由于内嵌视频所包含的不相关内容会影响用户观看视频的体验，因此，为了提升用户观看体验，可以对媒体平台上的内嵌视频进行内容识别。

在识别过程中，可以先对待识别视频内容进行视频分段，得到多个视频片段，以便基于视频片段对待识别视频内容进行识别。其中，视频分段可以依据视频播放时长对待识别视频进行分割，例如，以5s的视频播放时长对待识别视频进行分割，得到多个5s视频播放时长的视频片段。视频分段也可以依据视频帧数对待识别视频进行分割，例如，以240帧视频图像对待识别视频进行分割，得到多个包含240帧视频图像的视频片段。在实际应用中，可以根据实际应用场景设定视频分段的方式和视频分割的粒度(视频片段的播放时长或者视频片段所包含视频图像的帧数)，在此不作任何限定。

上述通过对待识别视频内容进行视频分段，相当于将待识别视频内容做了精细化地划分，识别所依据的内容粒度更小，为后续基于视频片段对待识别视频内容进行识别提供了数据基础。

S202：获取所述多个视频片段分别对应的风格向量。

可以理解的是，对于正常视频而言，其所包括的内容一般具有统一的风格，例如，具有较为统一的画风、相似的画质、色调等。而内嵌视频所包括的视频内容和不相关内容，由于内容的不相关性、来自不同的提供方、不同的视频录制方式等原因，一般难以具有统一的风格。

基于上述正常视频具有统一风格，而内嵌视频难以具有统一风格的特点，可以针对上述分割得到的多个视频片段分别进行特征提取，获取这多个视频分段分别对应的风格向量，该风格向量可以理解为从视频风格维度对视频片段102进行特征提取得到的风格特征，其中，视频风格是指视频播放时所展现的视频质量，包括但不限于：画风、画质、色调、亮度等。

在实际应用中，可以基于深度学习的神经网络模型对视频片段进行特征提取，得到视频片段对应的风格向量。

上述通过获取多个视频片段分别对应的风格向量，以便基于风格向量对待识别视频内容是否具有统一的视频风格进行分析，从而可以根据视频风格分析结果确定对待识别视频内容是否包含了与待识别视频内容不相关的内容。

S203：对获取的所述风格向量进行相似度聚类，得到第一风格聚类和第二风格聚类。

可以理解的是，若待识别视频内容不包含与待识别视频内容不相关的内容，可以认为待识别视频内容具有统一的视频风格。若待识别视频内容包含了与待识别内容不相关的内容，可以认为待识别视频内容不具有统一的视频风格。在识别过程中，可以将包含了不相关内容的待识别视频设定为具有两种视频风格，一种视频风格与待识别视频所包括的实质性内容对应，一种视频风格与待识别视频所包括的不相关内容对应。

故此，基于上述S202得到多个视频片段对应的风格向量后，可以对这些风格向量进行相似度聚类，得到第一风格聚类和第二风格聚类。其中，第一风格聚类所包括风格向量对应的视频片段具有相似的视频风格，第二风格聚类所包括风格向量对应的视频片段具有相似的视频风格。

在实际应用中，可以利用无监督的聚类算法对风格向量进行聚类，得到第一风格聚类和第二风格聚类。在本申请实施例中，对风格向量进行聚类的方法不做任何限定。

上述通过对风格向量进行相似度聚类，实现了对于待识别视频内容对应视频风格的分析，以便根据相似度聚类得到第一风格聚类和第二风格聚类确定待识别视频是否包含了与待识别视频内容不相关的内容。

S204：确定所述第一风格聚类对应的风格向量与所述第二风格聚类对应的风格向量之间的风格相似度。

在识别过程中，可以通过确定上述第一风格聚类对应的风格向量与第二风格聚类对应的风格向量之间的风格相似度进行判断，确定待识别视频内容是否具有统一的视频风格。其中，风格相似度标识了第一风格聚类所包括风格向量对应的视频片段具有的视频风格与第二风格聚类所包括风格向量对应的视频片段具有的视频风格的相似程度。

具体的，风格相似度越大，表明第一风格聚类所包括风格向量对应的视频片段具有的视频风格与第二风格聚类所包括风格向量对应的视频片段具有的视频风格的相似程度越大，说明待识别视频内容具有统一风格的可能性越大。风格相似度越小，表明第一风格聚类所包括风格向量对应的视频片段具有的视频风格与第二风格聚类所包括风格向量对应的视频片段具有的视频风格的相似程度越小，说明待识别视频内容具有统一风格的可能性越小。

基于上述可知，第一风格聚类所包括风格向量对应的视频内容具有相似的视频风格，第二风格聚类所包括风格向量对应的视频内容具有相似的视频风格。在实际应用中，可以利用第一风格聚类的类中心表征第一风格聚类对应的风格向量，利用第二风格聚类的类中心表征第二风格聚类对应的风格向量。此外，还可以对第一风格聚类所包括的风格向量进行平均，对第二风格聚类所包括的风格向量进行平均，利用平均得到的两个风格向量分别表征第一风格聚类对应的风格向量和第二风格聚类对应的风格向量。在实际应用中，可以利用上述任一方式确定第一风格聚类对应的风格向量和第二风格聚类对应的风格向量，在此不作任何限定。

在实际应用中，可以基于深度学习的神经网络模型确定第一风格聚类对应的风格向量与第二风格聚类对应的风格向量之间的风格相似度。在本申请实施例中对于确定风格相似度的方式不做任何限定。

由于不包含不相关内容的视频内容一般具有统一的视频风格，而包含了不相关内容的视频内容中，不相关内容与视频内容的风格一般难以统一，上述风格相似度标识了风格相似度标识了第一风格聚类所包括风格向量对应的视频片段具有的视频风格与第二风格聚类所包括风格向量对应的视频片段具有的视频风格的相似程度，因此，可以基于待识别视频内容是否具有统一的风格这一特点，利用待识别视频内容对应的风格相似度确定待识别视频内容是否包含与待识别视频内容不相关的内容。

可以理解的是，相关技术中使用视频内容识别工具对视频内容中可能广泛存在的不相关内容进行识别的方法，这些工具在算法设计以及模型训练的过程中，仅仅考虑了不相关内容，没有考虑视频内容本身，会导致对于视频内容是否包括不相关内容的识别准确度较低。

上述风格相似度是基于待识别视频内容所包括的整体信息确定，后续根据风格相似度对待识别视频内容是否包含不相关的内容进行识别，相较于仅考虑不相关内容，增加了对于待识别视频内容本身的考量，提高了对于待识别视频内容的识别准确度。

S205：根据所述风格相似度确定所述待识别视频内容中是否包含与所述待识别视频内容不相关的内容。

在实际应用中，可以将上述S204确定的风格相似度与设定的相似度阈值进行比较，从而确定待识别视频内容中是否包含与待识别视频内容不相关的内容。具体的，将风格相似度大于相似度阈值对应的待识别视频确定为不包含不相关内容的正常视频，将风格相似度不大于相似度阈值对应的待识别视频确定为包含了不相关内容的内嵌视频。例如，相似度阈值设定为0.5。在实际应用中，相似度阈值可以根据具体的应用场景设定，在此不作任何限定。

上述实施例提供的视频内容识别方法，对待识别视频内容进行视频分段，得到多个视频片段，并获取多个视频片段分别对应的风格向量。然后，对获取的视频分段对应的风格向量进行相似度聚类，得到第一风格聚类和第二风格聚类，并确定第一风格聚类对应的风格向量与第二风格聚类对应的风格向量之间的风格相似度，由于不包含不相关内容的视频内容一般具有统一的视频风格，而包含了不相关内容的视频内容中，不相关内容与视频内容的风格一般难以统一，因此，前述两个风格聚类的风格相似度能够体现待识别视频内容的整体风格是否统一，从而可以根据该风格相似度确定出待识别视频内容中是否包含与待识别视频内容不相关的内容，实现了对于视频内容的自动化识别。如此基于视频内容的视频风格与不相关内容的视频风格不同的特点，在识别不相关内容时增加了对于视频内容本身的考量，提高了对于视频内容的识别准确度。

针对上述确定风格相似度的过程，本申请实施例提供了一种可能的实现方式，即通过第一模型确定所述第一风格聚类对应的风格向量与所述第二风格聚类对应的风格向量之间的风格相似度。其中，第一模型是预先训练好的，在本申请实施例中，对于第一模型的模型结构不做任何限定。

可以理解的是，应用上述第一模型确定第一风格聚类对应的风格向量与第二风格聚类对应的风格向量之间的风格相似度，需要预先对第一模型进行训练。为此，本申请实施例提供了一种第一模型训练方法。

参见图3，图3为本申请实施例提供的一种第一模型训练方法的流程示意图。如图3所示，该第一模型训练方法包括以下步骤：

S301：确定包括第一样本和第二样本的训练样本对。

在实际应用中，需要获取包括训练样本对的训练样本集。其中，训练样本对包括第一样本和第二样本。且第一样本为不包含不相关内容的第一样本视频内容，即正样本；第二样本为包含不相关内容的第二样本视频内容，即负样本。其中，正负样本是否包含不相关内容可以通过人为标注得到。

S302：根据第一样本所包括视频片段的风格向量，通过第一初始模型确定所述第一样本的两个风格聚类的风格向量之间的正样本风格相似度。

在实际应用中，可以执行与上述S201-S203相同的操作，即对第一样本视频内容进行视频分段，得到多个第一样本视频片段。然后，获取这多个第一样本视频片段分别对应的风格向量。继而，对第一样本视频片段分别对应的风格向量进行相似度聚类，得到第一样本的两个风格聚类，从而可以利用第一初始模型确定这两个风格聚类的风格向量之间的正样本风格相似度，该正样本风格相似度标识了第一样本的两个风格聚类分别对应的视频风格之间的相似程度。

S303：根据第二样本所包括视频片段的风格向量，通过所述第一初始模型确定所述第二样本的两个风格聚类的风格向量之间的负样本风格相似度。

在实际应用中，可以执行与上述S201-S203相同的操作，对第二样本视频内容进行视频分段，得到多个第二样本视频片段。然后，获取这多个第二样本视频片段分别对应的风格向量。继而，对第二样本视频片段分别对应的风格向量进行相似度聚类，得到第二样本的两个风格聚类，从而可以利用第一初始模型确定这两个风格聚类的风格向量之间的负样本风格相似度，该负样本风格相似度标识了第二样本的两个风格聚类分别对应的视频风格之间的相似程度。

S304：基于增加正样本风格相似度和负样本风格相似度间的差别，对所述第一初始模型进行训练，得到所述第一模型。

在实际应用中，可以利用上述正样本风格相似度和负样本风格相似度对第一初始模型进行训练。其中，第一初始模型可以是预先构建的神经网络模型，本申请实施例中对于第一初始模型的模型结构不作任何限定。

在对第一初始模型训练过程中，可以设计一个损失函数Loss，对相似度阈值进行调整。在实际应用中，损失函数可以为包含不相关内容的风格相似度，也可以为不包含不相关内容的风格相似度。但是，基于这两种方式设计的损失函数仅从单个角度考虑了视频内容的整体风格特点，由此确定的相似度阈值不够恰当，从而影响对于待识别视频是否包含不相关的内容的识别准确度。

为此，本申请提供了一种可能的实现方式，即基于增加正样本风格相似度和负样本风格相似度之间的差别，对第一初始模型中进行训练。对应的损失函数具体设计为：

Loss＝包含不相关内容的风格相似度—不包含不相关内容的风格相似度

在实际训练过程中，通过最小化上述Loss，确定对应的相似度阈值，以便根据该相似度阈值确定待识别视频内容是否包含了不相关内容。

上述基于包含不相关内容的风格相似度与不包含不相关内容的风格相似度确定的损失函数，从两个角度考虑了待识别视频内容的整体风格特点，根据两个风格相似度之间的差别对相似度阈值进行动态调整，由此确定的相似度阈值具有较高的准确性，从而提高了对于视频内容的识别准确度。

鉴于上述S204用于确定待识别视频内容是否包含不相关内容的相似度阈值是通过人为设定的，主观性较强，由此导致对于视频内容的识别准确度不高。为了进一步提高视频内容的识别准确度，可以通过对上述第一模型进行训练确定的相似度阈值确定待识别视频内容是否包含不相关内容。

具体的，若待识别视频内容对应的风格相似度满足上述通过对第一模型训练确定的相似度阈值，则确定所述待识别视频内容中不包含与所述待识别视频内容不相关的内容；若风格相似度不满足所述相似度阈值，则确定待识别视频内容中包含与待识别视频内容不相关的内容。

上述通过正负样本确定出的相似度阈值，相较于人为设定的相似度阈值，更具客观性，如此提高了对于视频内容的识别准确度。

针对上述S202中的风格向量，本申请实施例提供了一种可能的实现方式，即通过第二模型确定由S201获取的多个视频片段分别对应的风格向量。其中，第二模型是预先训练好的。

如图4所示，以视频片段401作为第二模型402的输入，利用第二模型402对视频片段401进行特征提取，得到视频片段对应的风格向量403。在实际应用中，风格向量可以以向量的形式作为第二模型的输出。在本申请实施例中，第二模型的模型结构可以包括三维卷积神经网络(3D Convolutional Neural Networks,3D-CNN)，可以根据实际场景设定3D-CNN和全连接层的层数，在此不作任何限定。其中，3D-CNN可以包括卷积层、池化层和全连接层等。在实际应用中，全连接层输出风格向量，并作为第一模型的输出。

可以理解的是，应用上述第二模型对视频片段的风格进行特征提取，获得视频片段对应的风格向量，需要预先对第二模型进行训练。为此，本申请实施例提供了一种第二模型训练方法。

参见图5，图5为本申请实施例提供的一种第二模型训练方法的流程示意图。如图5所示，该第二模型训练方法包括以下步骤：

S501：获取包括视频分类样本的视频分类样本集。

在本申请实施例中，采用有监督的方式对模型进行训练。由于采用有监督的训练方式需要带有标注标签的样本，样本的标注标签需要人工进行标注。

为了避免人工标注所需要的成本，在本申请实施例中可以使用通用的视频分类数据集作为视频分类样本集，利用视频分类样本集中的视频分类样本对模型进行训练。其中，视频分类样本包括样本视频和样本视频对应的分类标签，该分类标签标识了样本视频的分类结果。

S502：根据所述视频分类样本，通过所述第二初始模型提取所述视频分类样本中视频片段的风格向量。

在对模型训练之前，构建第二初始模型。其中，第二初始模型的模型结构包括3D-CNN和全连接层。在训练过程中，可以先对视频分类样本中的样本视频进行视频分段，得到多个样本视频片段。然后，以样本视频片段作为第二初始模型的输入，通过第二初始模型提取这多个样本视频片段的风格向量。

S503：通过分类模型确定所述第二初始模型所提取风格向量对应的视频分类结果。

由于样本视频对应的分类标签标识了样本视频的分类结果，因此，可以利用分类模型确定上述利用第二初始模型提取的风格向量对应的视频分类结果。其中，以视频片段的风格向量作为分类模型的输入，以视频片段对应的视频分类结果作为分类模型的输出。在本申请实施例中，对分类模型的模型结构不做任何限定。

S504：根据所述视频分类样本的分类标签和所述视频分类结果对所述第二初始模型进行训练，得到所述第二模型。

基于上述S503确定的视频分类样本对应的视频分类结果，将该视频分类结果和视频分类样本对应的分类标签对第二初始模型的模型参数进行调整，将收敛后的第二初始模型作为上述第二模型，用于获取视频片段对应的风格向量。

上述利用通用的视频分类样本集对第二初始模型进行训练，以便获取用于提取风格向量的第二模型，避免了通过人工获取训练样本所需要的时间和成本，提高了模型训练的效率。

可以理解的是，利用上述S201-S205提供的视频内容识别方法可以识别出待识别视频内容中是否包含了与待识别视频内容不相关的内容。为了进一步实现对于待识别视频中与待识别视频内容不相关的内容定位，本申请实施例提供了一种可能的实现方式，即对于利用上述视频内容识别方法识别出包含与待识别视频内容不相关内容的内嵌视频，参见图6，可以执行以下步骤：

S601：根据所述多个视频片段间的片段边界和所述多个视频片段的播放顺序，确定基于所述片段边界相邻的第一视频片段和第二视频片段。

由于执行上述S601将待识别视频分割为多个视频片段后，多个视频片段之间具有片段边界以及播放顺序，因此，可以基于视频片段之间的片段边界和播放顺序确定片段边界相邻的第一视频片段和第二视频片段。

对于待识别视频对应的多个视频片段，图7中以矩形表示，其中，每两个视频片段存在一个片段边界，如图7以虚线表征片段边界。以图7中的视频边界701为例，与该视频边界相邻的视频片段包括第一视频片段702和第二视频片段703，且第一视频片段702的播放顺序先于第二视频片段703。

对于与片段边界相邻的第一视频片段和第二视频片段，存在以下几种情况：

(1)第一视频片段和第二视频片段都不包含不相关内容；

(2)第一视频片段和第二视频片段都包含不相关内容；

(3)第一视频片段不包含不相关内容，第二视频片段包含不相关内容；

(4)第一视频片段包含不相关内容，第二视频片段不包含不相关内容。

对于待识别视频中不相关内容的定位问题，就是识别待识别视频内容与不相关内容之间的边界。与上述第(3)、(4)种情况相符的片段边界即为待识别视频内容与不相关之间的边界，因此，可以将该定位问题转换为对与上述第(3)、(4)种情况相符的片段边界的识别问题。

S602：获取所述第一视频片段的第一内容特征和所述第二视频片段的第二内容特征。

由于与待识别视频内容不相关的内容与待识别视频内容之间的关联程度较小，因此，可以基于这一特点对与上述第(3)、(4)情况相符的片段边界进行识别。

基于上述S601，从视频内容这一维度对上述第一视频片段和第二视频片段进行特征提取，获取第一视频片段的第一内容特征和第二视频片段的第二内容特征。

在实际应用中，可以基于深度学习的神经网络模型实现对于第一视频片段和第二视频片段的内容特征提取。其中，内容特征用于标识视频所包括的内容，包括但不限于：图像、音频、文本等。内容特征可以是以向量的形式表示。

S603：根据所述第一内容特征和所述第二内容特征间的内容相似度，确定所述片段边界是否与所述不相关的内容的边界对应。

在实际应用中，可以确定出第一内容特征和第二内容特征之间的内容相似度，该内容相似度标识了第一视频片段所包括的内容与第二视频内容所包括的内容之间的相似程度。内容相似度越大，表明第一视频片段所包括的内容与第二视频片段所包括的内容之间的相似程度越大，说明第一视频片段和第二视频片段之间的片段边界为待识别视频内容与不相关内容之间的边界的可能性较大；内容相似度越小，表明第二视频片段所包括的内容与第二视频片段所包括的内容之间的相似程度越小，说明第一视频片段和第二视频片段之间的片段边界为待识别视频内容与不相关内容之间的边界的可能性较小。

在确定片段边界是否为待识别视频内容与不相关的内容之间的边界，即确定片段是否与不相关的内容的边界对应，可以将上述内容相似度与预设的内容阈值进行比较。若内容相似度满足内容阈值，可以确定片段边界与不相关内容的边界对应，即将该片段边界确定为待识别视频内容与不相关内容之间的边界；若内容相似度不满足内容阈值，可以确定片段边界与不相关内容的边界不对应，即将该片段边界确定为不是待识别视频内容与不相关内容之间的边界。

S604：若对应，根据所述片段边界确定所述不相关的内容在所述待识别视频内容中所处的视频区间。

根据上述S603可以确定出与不相关内容的边界对应的片段边界，基于该片段边界，就可以确定出不相关的内容在待识别视频内容中所处的视频区间，即定位出待识别视频中与待识别视频内容不相关的内容。

可以理解的是，在上述相关技术中实现对于待识别视频中不相关的内容的定位，需要使用强标注数据对视频识别工具所采用的模型进行训练。其中，强标注数据是指不仅需要标注待识别视频中是否包含与待识别视频内容不相关的内容，还需要标注不相关的内容在待识别视频内容中所处的视频区间，标注过程复杂，且需要耗费较高的时间和成本。

而基于上述实施例提供的视频内容识别方法实现对于不相关的内容在待识别视频内容中的定位，所需要的数据为弱标注数据，即仅需要标注待识别视频中是否包含与待识别视频内容不相关的内容，而该标注数据可以利用前述提供的视频内容识别方法得到，实现了对于视频内容所包含的不相关内容的自动化识别和定位，无需人工进行标注操作，降低了时间和成本的投入，提高了对于视频内容的识别效率。

可以理解的是，上述确定不相关的内容在待识别视频内容中所处的视频区间是基于第一视频片段和第二视频片段实现的。而第一视频片段和第二视频片段仅包括了少量的待识别视频信息。

为了进一步提高对于不相关的内容在待识别视频内容中的定位准确度，本申请实施例提供了一种可能的实现方式，具体如下：

若将上述S603确定的所述第一内容特征和所述第二内容特征间的内容相似度定义为一阶相似度，在图7中，以708标识第一内容特征和第二内容特征间的一阶相似度，则上述视频内容识别方法在执行S603之前，还包括以下步骤：

S605：确定所述第一视频片段对应的第一n阶片段组，和所述第二视频片段对应的第二n阶片段组。

第一n阶片段组包括第一视频片段和与第一视频片段相邻的n-1个视频片段，第一n阶片段组中不包括所述第二视频片段。第二n阶片段组包括第二视频片段和与第二视频片段相邻的n-1个视频片段，第二n阶片段组中不包括第一视频片段。其中，n为大于等于2的整数。

以图7所示的视频片段和片段边界为例，对于与片段边界701相邻的第一视频片段702和第二视频片段703。若n取为3，则第一视频片段702对应的第一3阶片段组包括3个视频片段，分别为第一视频片段702、视频片段704和视频片段706，第二视频片段703对应的第二3阶片段组包括3个视频片段，分别为第二视频片段703、视频片段705和视频片段707。

如n＝3相似，对于n为大于等于2的任意整数，可以确定第一视频片段的任意第一n阶片段组和第二视频片段的任意第二n阶片段组。在本申请实施例中，n可以取2和3，即确定第一视频片段对应的第一2阶片段组、第一3阶片段组，和第二视频片段对应的第二2阶片段组、第二3阶片段组。实际应用过程中，可以根据具体的应用场景对n取值，在此不作任何限定。

S606：确定所述第一n阶片段组的内容特征与所述第二n阶片段组的内容特征间的n阶相似度。

在实际应用中，可以对第一n阶片段组中的n个视频片段和第二n阶片段组中的n个视频片段分别进行特征提取，获得第一n阶片段组中n个视频片段对应的内容特征以及第二n阶片段组中n个视频片段对应的内容特征。然后，可以根据第一n阶片段组中的n个视频片段对应的内容特征确定第一n阶片段组的内容特征，根据第二n阶片段组中的n个视频片段对应的内容特征确定第二n阶片段组的内容特征。与上述S608执行相同的操作，确定第一n阶片段组的内容特征与第二n阶片段组的内容特征间的n阶相似度。

对于确定第一n阶片段组的内容特征和第二n阶片段组的内容特征，在一种可能的实现方式中，可以对第一n阶片段组中的n个视频片段对应的内容特征进行加和，得到第一n阶片段组的内容特征；对第二n阶片段组中的n个视频片段的对应的内容特征进行加和，得到第二n阶片段组的内容特征。

在实际应用中，可以利用多层感知机实现对于n阶片段组中的n个视频片段对应的内容特征的加和操作。如图8所示，以n＝3时为例，将3阶片段组中的3个视频片段对应的内容特征801作为多层感知机802的输入，利用多层感知机802对3个内容特征801进行平均，输出3阶片段组的内容特征803。

基于上述过程，可以根据求取的第一n阶片段组的内容特征和第二n阶片段组的内容特征，确定两者之间的内容相似度。确定内容相似度过程如S608所述，在此不再赘述。

在本申请实施例中，若n取值为2和3，根据上述过程求取的第一2阶片段组的内容特征和第二2阶片段组间的二阶相似度，在图7中，以709标识该二阶相似度，并根据上述求取的第一3阶片段组的内容特征和第二3阶片段组间的三阶相似度，在图7中，以710标识该三阶相似度。

故此，上述S603中确定所述片段边界是否与所述不相关的内容的边界对应，可以根据所述第一内容特征和所述第二内容特征间的一阶相似度和n阶相似度实现。在实际应用中，可以对一阶相似度和n阶相似度进行平均，并判断得到的平均相似度是否满足内容阈值，以此确定片段边界是否与不相关的内容的边界对应。

上述基于一阶相似度和n阶相似度确定片段边界是否与不相关的内容的边界对应，相较于仅利用两个视频片段间的一阶相似度，增加了确定片段边界与不相关的内容的边界间的对应关系所依据的视频内容，由此提高了对于不相关的内容在待识别视频内容中的定位准确度。

对于视频片段的内容特征，本申请实施例提供了一种可能的实现方式，即通过第三模型确定视频片段的内容特征。其中，第三模型是预先训练好的。

在本申请实施例中，前述获取视频片段的风格向量和内容特征都是对视频内容进行特征提取的过程，风格向量提取过程与内容特征提取过程的区别仅在于特征提取维度的区别。在实际应用中，第三模型的模型结构可以采取与第二模型相同的模型结构，包括3D-CNN和全连接层，对第三模型设置与第二模型不同的模型参数，从而实现对于视频片段的内容特征的提取。

可以理解的是，应用上述第三模型对视频片段的内容进行特征提取，获得视频片段对应的内容特征，需要预先对第三模型进行训练。为此，本申请实施例提供了一种第三模型训练方法。

参见图9，图9为本申请实施例提供的一种第三模型训练方法的流程示意图。如图9所示，该第三模型训练方法包括以下步骤：

S901：获取包括视频分类样本的视频分类样本集。

S902：根据所述视频分类样本，通过所述第二初始模型提取所述视频分类样本中视频片段的内容特征。

在对第二初始模型训练的过程中，可以先对视频分类样本中的样本视频进行视频分段，得到多个样本视频片段。然后，以样本视频片段作为第二初始模型的输入，通过第二初始模型提取这多个样本视频片段的内容特征。其中，此处第二初始模型与前述S502中的第二初始模型的模型结构相同，模型参数不同。

S903：通过分类模型确定所述第二初始模型所提取内容特征对应的视频分类结果。

在本申请实施例中，以视频片段的内容特征作为分类模型的输入，以视频片段对应的视频分类结果作为分类模型的输出。其中，分类模型与前述S503中的分类模型相同。

S904：根据所述视频分类样本的分类标签和所述视频分类结果对所述第二初始模型进行训练，得到所述第三模型。

基于上述S903确定的视频分类样本对应的视频分类结果，将该视频分类结果和视频分类样本对应的分类标签对第二初始模型的模型参数进行调整，将收敛后的第二初始模型作为第三模型，用于获取视频片段对应的内容特征。

上述利用通用的视频分类样本集对第二初始模型进行训练，以便获取用于提取内容特征的第三模型，避免了通过人工获取训练样本所需要的时间和成本，提高了模型训练的效率。并且第二模型和第三模型采用了相同的模型结构，避免了重复建模的过程，进一步提高了模型训练的效率。

可以理解的是，对于包含了与视频内容不相关内容的内嵌视频，用户的观看体验较差。因此，对于各种视频平台所发布的待识别视频，可以基于上述实施例提供的视频内容识别方法识别并定位出待识别视频中不相关内容所处的视频区间，从而去除待识别视频内容中不相关的内容，由此提高了用户的观看体验，并且使得媒体发布者仅能通过视频平台发布不相关内容，以此增加视频平台的收入。

对于上述实施例提供的视频内容识别方法，在实际应用时，可以将各执行步骤集成到不同的模块中，通过模块实现对于视频内容的识别。

为了更好地理解，下面结合图10，对本申请实施例提供的视频内容识别的应用过程进行示例性说明。

参见图10，图10为本申请实施例提供的一种用于视频内容识别的模块示意图。如图10所示，包括5个模块：模块一1001、模块二1002、模块三1003、模块四1004和模块五1005。

其中，模块三1003部署有前述第一模型，模块四1004部署有前述第二初始模型和分类模型。在调用模块一1001之前，通过调用模块四1004，利用分类模型对第二初始模型设置两种不同的模型参数进行训练，分别得到第二模型和第三模型，并部署在模块一1001中。为了便于区分，将利用第二模型的模块一1001记为模块一1001-A，将利用第三模型的模块一1001记为模块一100-B，图10中没有示出模块四1004。

在实际应用中，通过调用模块一1001-A，利用第二模型对待识别视频内容进行视频分段后得到的多个视频片段进行特征提取，获取视频片段的风格向量。然后，通过调用模块三1003，根据模块一1001-A获取的风格向量，确定待识别视频的风格相似度。继而，通过调用模块五1005，根据模块三1003确定的风格相似度，确定待识别视频是否包含与待识别视频内容不相关的内容。

进一步地，对于上述确定出包含不相关内容的内嵌视频，再次调用模块一1001-B，利用第三模型获取上述视频片段的内容特征。然后，通过调用模块二1002，根据模块一1001-B获取的内容特征，确定待识别视频的内容相似度。继而，通过调用模块五1005，根据模块二1002确定的内容相似度，确定不相关内容在内嵌视频中所处的视频区间。

上述通过多个关联的模块实现了对于视频内容中包含不相关的内容的识别和定位，实现了对于视频内容的自动化识别，提高了对于视频内容的识别效率以及识别准确度。

针对上述实施例提供的视频内容识别方法，本申请实施例还提供了一种视频内容识别装置。

参见图11，图11为本申请实施例提供的一种视频内容识别装置的结构示意图。如图11所示，该视频内容识别装置1100包括分段单元1101、获取单元1102、聚类单元1103和确定单元1104：

所述分段单元1101，用于对待识别视频内容进行视频分段，得到多个视频片段；

所述获取单元1102，用于获取所述多个视频片段分别对应的风格向量；

所述聚类单元1103，用于对获取的所述风格向量进行相似度聚类，得到第一风格聚类和第二风格聚类；

所述确定单元1104，用于确定所述第一风格聚类对应的风格向量与所述第二风格聚类对应的风格向量之间的风格相似度；

所述确定单元1104，还用于根据所述风格相似度确定所述待识别视频内容中是否包含与所述待识别视频内容不相关的内容。

在一种可能的实现方式中，所述确定单元1104，用于通过第一模型确定所述第一风格聚类对应的风格向量与所述第二风格聚类对应的风格向量之间的风格相似度；

所述确定单元1104，还用于：

确定包括第一样本和第二样本的训练样本对，所述第一样本为不包含不相关内容的第一样本视频内容，所述第二样本为包含不相关内容的第二样本视频内容；

根据所述第一样本所包括视频片段的风格向量，通过第一初始模型确定所述第一样本的两个风格聚类的风格向量之间的正样本风格相似度；

根据所述第二样本所包括视频片段的风格向量，通过所述第一初始模型确定所述第二样本的两个风格聚类的风格向量之间的负样本风格相似度；

所述装置还包括训练单元：

所述训练单元，用于基于增加所述正样本风格相似度和所述负样本风格相似度间的差别，对所述第一初始模型进行训练，得到所述第一模型。

在一种可能的实现方式中，所述确定单元1104，用于：

若所述风格相似度满足相似度阈值，确定所述待识别视频内容中不包含与所述待识别视频内容不相关的内容；

若所述风格相似度不满足相似度阈值，确定所述待识别视频内容中包含与所述待识别视频内容不相关的内容；

其中所述相似度阈值是通过训练所述第一模型确定的。

在一种可能的实现方式中，若所述确定单元1104，根据所述风格相似度确定所述待识别视频内容中包含与所述待识别视频内容不相关的内容：

所述确定单元1104，还用于根据所述多个视频片段间的片段边界和所述多个视频片段的播放顺序，确定基于所述片段边界相邻的第一视频片段和第二视频片段；

所述获取单元1102，还用于获取所述第一视频片段的第一内容特征和所述第二视频片段的第二内容特征；

所述确定单元1104，还用于：

根据所述第一内容特征和所述第二内容特征间的内容相似度，确定所述片段边界是否与所述不相关的内容的边界对应；

若对应，根据所述片段边界确定所述不相关的内容在所述待识别视频内容中所处的视频区间。

在一种可能的实现方式中，所述第一内容特征和所述第二内容特征间的内容相似度为一阶相似度，所述确定单元1104，还用于：

确定所述第一视频片段对应的第一n阶片段组，和所述第二视频片段对应的第二n阶片段组；其中，n为不小于2的整数；

其中，所述第一n阶片段组包括所述第一视频片段和与所述第一视频片段相邻的n-1个视频片段，所述第一n阶片段组中不包括所述第二视频片段；

所述第二n阶片段组包括所述第二视频片段和与所述第二视频片段相邻的n-1个视频片段，所述第二n阶片段组中不包括所述第一视频片段；

确定所述第一n阶片段组的内容特征与所述第二n阶片段组的内容特征间的n阶相似度；

所述确定单元1104，用于根据所述第一内容特征和所述第二内容特征间的一阶相似度和n阶相似度，确定所述片段边界是否与所述不相关的内容的边界对应。

在一种可能的实现方式中，所述多个视频片段的风格向量是根据第二模型确定的，所述多个视频片段的内容特征是根据第三模型确定的，所述第二模型和所述第三模型是根据相同的第二初始模型训练得到的；

所述获取单元1102，还用于获取包括视频分类样本的视频分类样本集；

所述装置包括风格向量提取单元、内容特征提取单元和训练单元：

所述风格向量提取单元，用于根据所述视频分类样本，通过所述第二初始模型提取所述视频分类样本中视频片段的风格向量；

所述确定单元1104，还用于通过分类模型确定所述第二初始模型所提取风格向量对应的视频分类结果；

所述训练单元，用于根据所述视频分类样本的分类标签和所述视频分类结果对所述第二初始模型进行训练，得到所述第二模型；

所述内容提取单元，用于根据所述视频分类样本，通过所述第二初始模型提取所述视频分类样本中视频片段的内容特征；

所述确定单元1104，还用于通过分类模型确定所述第二初始模型所提取内容特征对应的视频分类结果；

所述训练单元，还用于根据所述视频分类样本的分类标签和所述视频分类结果对所述第二初始模型进行训练，得到所述第三模型。

上述实施例提供的视频识别内容装置，对待识别视频内容进行视频分段，得到多个视频片段，并获取多个视频片段分别对应的风格向量。然后，对获取的视频分段对应的风格向量进行相似度聚类，得到第一风格聚类和第二风格聚类，并确定第一风格聚类对应的风格向量与第二风格聚类对应的风格向量之间的风格相似度，由于不包含不相关内容的视频内容一般具有统一的视频风格，而包含了不相关内容的视频内容中，不相关内容与视频内容的风格一般难以统一，因此，前述两个风格聚类的风格相似度能够体现待识别视频内容的整体风格是否统一，从而可以根据该风格相似度确定出待识别视频内容中是否包含与待识别视频内容不相关的内容，实现了对于视频内容的自动化识别。如此基于视频内容的视频风格与不相关内容的视频风格不同的特点，在识别不相关内容时增加了对于视频内容本身的考量，提高了对于视频内容的识别准确度。

本申请实施例还提供了一种计算机设备，下面将从硬件实体化的角度对本申请实施例提供的用于视频内容识别的计算机设备进行介绍。

参见图12，图12是本申请实施例提供的一种服务器结构示意图，该服务器1400可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上中央处理器(centralprocessing units，CPU)1422(例如，一个或一个以上处理器)和存储器1432，一个或一个以上存储应用程序1442或数据1444的存储介质1430(例如一个或一个以上海量存储设备)。其中，存储器1432和存储介质1430可以是短暂存储或持久存储。存储在存储介质1430的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对服务器中的一系列指令操作。更进一步地，中央处理器1422可以设置为与存储介质1430通信，在服务器1400上执行存储介质1430中的一系列指令操作。

服务器1400还可以包括一个或一个以上电源1426，一个或一个以上有线或无线网络接口1450，一个或一个以上输入输出接口1458，和/或，一个或一个以上操作系统1441，例如Windows ServerTM，Mac OS XTM，UnixTM,LinuxTM，FreeBSDTM等等。

上述实施例中由服务器所执行的步骤可以基于该图12所示的服务器结构。

其中，CPU 1422用于执行如下步骤：

对待识别视频内容进行视频分段，得到多个视频片段；

获取所述多个视频片段分别对应的风格向量；

可选的，CPU 1422还可以执行本申请实施例中视频内容识别方法任一具体实现方式的方法步骤。

针对上文描述的视频内容识别方法，本申请实施例还提供了一种用于视频内容识别的终端设备，以使上述视频内容识别方法在实际中实现以及应用。

参见图13，图13为本申请实施例提供的一种终端设备的结构示意图。为了便于说明，仅示出了与本申请实施例相关的部分，具体技术细节未揭示的，请参照本申请实施例方法部分。该终端设备可以为包括手机、平板电脑、个人数字助理(Personal DigitalAssistant，简称PDA)等任意终端设备，以终端设备为手机为例：

图13示出的是与本申请实施例提供的终端设备相关的手机的部分结构的框图。参考图13，该手机包括：射频(Radio Frequency,简称RF)电路1510、存储器1520、输入单元1530、显示单元1540、传感器1550、音频电路1560、无线保真(wireless fidelity,简称WiFi)模块1570、处理器1580、以及电源1590等部件。本领域技术人员可以理解，图13中示出的手机结构并不构成对手机的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

下面结合图13对手机的各个构成部件进行具体的介绍：

RF电路1510可用于收发信息或通话过程中，信号的接收和发送，特别地，将基站的下行信息接收后，给处理器1580处理；另外，将设计上行的数据发送给基站。通常，RF电路1510包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器(Low NoiseAmplifier，简称LNA)、双工器等。此外，RF电路1510还可以通过无线通信与网络和其他设备通信。上述无线通信可以使用任一通信标准或协议，包括但不限于全球移动通讯系统(Global System of Mobile communication，简称GSM)、通用分组无线服务(GeneralPacket Radio Service，简称GPRS)、码分多址(Code Division Multiple Access，简称CDMA)、宽带码分多址(Wideband Code Division Multiple Access，简称WCDMA)、长期演进(Long Term Evolution，简称LTE)、电子邮件、短消息服务(Short Messaging Service，简称SMS)等。

存储器1520可用于存储软件程序以及模块，处理器1580通过运行存储在存储器1520的软件程序以及模块，从而实现手机的各种功能应用以及数据处理。存储器1520可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器1520可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

输入单元1530可用于接收输入的数字或字符信息，以及产生与手机的用户设置以及功能控制有关的键信号输入。具体地，输入单元1530可包括触控面板1531以及其他输入设备1532。触控面板1531，也称为触摸屏，可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板1531上或在触控面板1531附近的操作)，并根据预先设定的程式驱动相应的连接装置。可选的，触控面板1531可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器1580，并能接收处理器1580发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板1531。除了触控面板1531，输入单元1530还可以包括其他输入设备1532。具体地，其他输入设备1532可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。

显示单元1540可用于显示由用户输入的信息或提供给用户的信息以及手机的各种菜单。显示单元1540可包括显示面板1541，可选的，可以采用液晶显示器(LiquidCrystal Display，简称LCD)、有机发光二极管(Organic Light-Emitting Diode，简称OLED)等形式来配置显示面板1541。进一步的，触控面板1531可覆盖显示面板1541，当触控面板1531检测到在其上或附近的触摸操作后，传送给处理器1580以确定触摸事件的类型，随后处理器1580根据触摸事件的类型在显示面板1541上提供相应的视觉输出。虽然在图13中，触控面板1531与显示面板1541是作为两个独立的部件来实现手机的输入和输入功能，但是在某些实施例中，可以将触控面板1531与显示面板1541集成而实现手机的输入和输出功能。

手机还可包括至少一种传感器1550，比如光传感器、运动传感器以及其他传感器。具体地，光传感器可包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示面板1541的亮度，接近传感器可在手机移动到耳边时，关闭显示面板1541和/或背光。作为运动传感器的一种，加速计传感器可检测各个方向上(一般为三轴)加速度的大小，静止时可检测出重力的大小及方向，可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等；至于手机还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器，在此不再赘述。

音频电路1560、扬声器1561，传声器1562可提供用户与手机之间的音频接口。音频电路1560可将接收到的音频数据转换后的电信号，传输到扬声器1561，由扬声器1561转换为声音信号输出；另一方面，传声器1562将收集的声音信号转换为电信号，由音频电路1560接收后转换为音频数据，再将音频数据输出处理器1580处理后，经RF电路1510以发送给比如另一手机，或者将音频数据输出至存储器1520以便进一步处理。

WiFi属于短距离无线传输技术，手机通过WiFi模块1570可以帮助用户收发电子邮件、浏览网页和访问流式媒体等，它为用户提供了无线的宽带互联网访问。虽然图13示出了WiFi模块1570，但是可以理解的是，其并不属于手机的必须构成，完全可以根据需要在不改变发明的本质的范围内而省略。

处理器1580是手机的控制中心，利用各种接口和线路连接整个手机的各个部分，通过运行或执行存储在存储器1520内的软件程序和/或模块，以及调用存储在存储器1520内的数据，执行手机的各种功能和处理数据，从而对手机进行整体监控。可选的，处理器1580可包括一个或多个处理单元；优选的，处理器1580可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器1580中。

手机还包括给各个部件供电的电源1590(比如电池)，优选的，电源可以通过电源管理系统与处理器1580逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。

尽管未示出，手机还可以包括摄像头、蓝牙模块等，在此不再赘述。

在本申请实施例中，该手机所包括的存储器1520可以存储程序代码，并将所述程序代码传输给所述处理器。

该手机所包括的处理器1580可以根据所述程序代码中的指令执行上述实施例提供的视频内容识别方法。

本申请实施例还提供一种计算机可读存储介质，用于存储计算机程序，该计算机程序用于执行上述实施例提供的视频内容识别方法。

本申请实施例还提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述方面的各种可选实现方式中提供的视频内容识别方法。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述程序可以存储于一计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质可以是下述介质中的至少一种：只读存储器(英文：read-only memory，缩写：ROM)、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

需要说明的是，本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于设备及系统实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的设备及系统实施例仅仅是示意性的，其中作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

以上所述，仅为本申请的一种具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应该以权利要求的保护范围为准。

Claims

1.一种视频内容识别方法，其特征在于，所述方法包括：

对待识别视频内容进行视频分段，得到多个视频片段；

获取所述多个视频片段分别对应的风格向量；

2.根据权利要求1所述的方法，其特征在于，所述确定所述第一风格聚类对应的风格向量与所述第二风格聚类对应的风格向量之间的风格相似度，包括：

通过第一模型确定所述第一风格聚类对应的风格向量与所述第二风格聚类对应的风格向量之间的风格相似度；

所述第一模型通过如下方式训练得到：

基于增加所述正样本风格相似度和所述负样本风格相似度间的差别，对所述第一初始模型进行训练，得到所述第一模型。

3.根据权利要求2所述的方法，其特征在于，所述根据所述风格相似度确定所述待识别视频内容中是否包含与所述待识别视频内容不相关的内容，包括：

其中所述相似度阈值是通过训练所述第一模型确定的。

4.根据权利要求1-3任意一项所述的方法，其特征在于，若根据所述风格相似度确定所述待识别视频内容中包含与所述待识别视频内容不相关的内容，所述方法还包括：

根据所述多个视频片段间的片段边界和所述多个视频片段的播放顺序，确定基于所述片段边界相邻的第一视频片段和第二视频片段；

获取所述第一视频片段的第一内容特征和所述第二视频片段的第二内容特征；

5.根据权利要求4所述的方法，其特征在于，所述第一内容特征和所述第二内容特征间的内容相似度为一阶相似度，所述方法还包括：

所述根据所述第一内容特征和所述第二内容特征间的内容相似度，确定所述片段边界是否与所述不相关的内容的边界对应，包括：

根据所述第一内容特征和所述第二内容特征间的一阶相似度和n阶相似度，确定所述片段边界是否与所述不相关的内容的边界对应。

6.根据权利要求4所述的方法，其特征在于，所述多个视频片段的风格向量是根据第二模型确定的，所述多个视频片段的内容特征是根据第三模型确定的，所述第二模型和所述第三模型是根据相同的第二初始模型训练得到的；

所述第二模型的训练方式如下：

获取包括视频分类样本的视频分类样本集；

根据所述视频分类样本，通过所述第二初始模型提取所述视频分类样本中视频片段的风格向量；

通过分类模型确定所述第二初始模型所提取风格向量对应的视频分类结果；

根据所述视频分类样本的分类标签和所述视频分类结果对所述第二初始模型进行训练，得到所述第二模型；

所述第三模型的训练方式如下：

获取包括视频分类样本的视频分类样本集；

根据所述视频分类样本，通过所述第二初始模型提取所述视频分类样本中视频片段的内容特征；

通过分类模型确定所述第二初始模型所提取内容特征对应的视频分类结果；

根据所述视频分类样本的分类标签和所述视频分类结果对所述第二初始模型进行训练，得到所述第三模型。

7.根据权利要求4所述的方法，其特征在于，所述方法还包括：

根据所述视频区间从所述待识别视频内容中去除所述不相关的内容。

8.一种视频内容识别装置，其特征在于，所述装置包括分段单元、获取单元、聚类单元和确定单元：

9.根据权利要求8所述的装置，其特征在于，所述确定单元，用于通过第一模型确定所述第一风格聚类对应的风格向量与所述第二风格聚类对应的风格向量之间的风格相似度；

所述确定单元，还用于：

所述装置还包括训练单元：

10.根据权利要求9所述的装置，其特征在于，所述确定单元，用于：

其中所述相似度阈值是通过训练所述第一模型确定的。

11.根据权利要求8-10任意一项所述的装置，其特征在于，若所述确定单元，根据所述风格相似度确定所述待识别视频内容中包含与所述待识别视频内容不相关的内容：

所述确定单元，还用于根据所述多个视频片段间的片段边界和所述多个视频片段的播放顺序，确定基于所述片段边界相邻的第一视频片段和第二视频片段；

所述获取单元，还用于获取所述第一视频片段的第一内容特征和所述第二视频片段的第二内容特征；

所述确定单元，还用于：

12.根据权利要求11所述的装置，其特征在于，所述第一内容特征和所述第二内容特征间的内容相似度为一阶相似度，所述确定单元，还用于：

所述确定单元，用于根据所述第一内容特征和所述第二内容特征间的一阶相似度和n阶相似度，确定所述片段边界是否与所述不相关的内容的边界对应。

13.根据权利要求11所述的装置，其特征在于，所述多个视频片段的风格向量是根据第二模型确定的，所述多个视频片段的内容特征是根据第三模型确定的，所述第二模型和所述第三模型是根据相同的第二初始模型训练得到的；

所述获取单元，还用于获取包括视频分类样本的视频分类样本集；

所述确定单元，还用于通过分类模型确定所述第二初始模型所提取风格向量对应的视频分类结果；

所述确定单元，还用于通过分类模型确定所述第二初始模型所提取内容特征对应的视频分类结果；

14.一种计算机设备，其特征在于，所述计算机设备包括处理器以及存储器：

所述处理器用于根据所述程序代码中的指令执行权利要求1-7任意一项所述的方法。

15.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质用于存储计算机程序，所述计算机程序用于执行权利要求1-7任意一项所述的方法。