CN117292303B - 判断分段视频类型的方法、装置及电子设备 - Google Patents

判断分段视频类型的方法、装置及电子设备 Download PDF

Info

Publication number
CN117292303B
CN117292303B CN202311558653.7A CN202311558653A CN117292303B CN 117292303 B CN117292303 B CN 117292303B CN 202311558653 A CN202311558653 A CN 202311558653A CN 117292303 B CN117292303 B CN 117292303B
Authority
CN
China
Prior art keywords
video
similarity
feature vector
feature
cluster
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202311558653.7A
Other languages
English (en)
Other versions
CN117292303A (zh
Inventor
孙健
张远
章动
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Small Sugar Technology Co ltd
Original Assignee
Beijing Small Sugar Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Small Sugar Technology Co ltd filed Critical Beijing Small Sugar Technology Co ltd
Priority to CN202311558653.7A priority Critical patent/CN117292303B/zh
Publication of CN117292303A publication Critical patent/CN117292303A/zh
Application granted granted Critical
Publication of CN117292303B publication Critical patent/CN117292303B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/761Proximity, similarity or dissimilarity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/762Arrangements for image or video recognition or understanding using pattern recognition or machine learning using clustering, e.g. of similar faces in social networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Human Computer Interaction (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种判断分段视频类型的方法、装置及电子设备,方法包括:在视频特征聚类库中获取第一时间点的多维特征向量的聚类分布作为第一聚类分布;提取待判断分段视频在第一时间点的多维特征向量作为第一多维特征向量;计算第一多维特征向量与第一聚类分布中多个聚簇的中心向量的相似度;如果第一多维特征向量与第一聚类分布中一个聚簇中心向量的相似度大于或等于第一相似阈值,则计算第一多维度特征向量与该聚簇中每个多维度特征向量的分维度相似度;根据分维度相似度的计算结果判断待判断分段视频的视频类型。本申请利用聚类的方式,能够快速判断分段视频的类型,并且占用的计算资源小。

Description

判断分段视频类型的方法、装置及电子设备
技术领域
本申请涉及互联网技术领域,具体涉及视频处理技术,尤其涉及一种判断分段视频类型的方法、装置、电子设备、计算机可读存储介质及计算机程序产品。
背景技术
在视频内容生态中,有些用户为了获得较高的曝光量和点赞量,将热度高的视频全部或截取部分作为自己的作品发布出去。这种行为剥夺了原创者应得的曝光量和认可,同时也降低了创作者的积极性和动力。在视频内容生态中,保护原创作品的权益和鼓励创意创作非常重要。
将待发布的视频在公开前鉴别视频的原创性将有效保护原创作品的权益。但是,传统的鉴别方法需要将视频分解为多个关键帧并与视频库中的视频逐一比较。该鉴别方式会消耗大量的时间,特别是在视频库较大的情况下,鉴别过程需要花费相当长的时间。并且,该鉴别方式对设备的硬件性能造成较大压力,无法在资源有限的环境中实现高效的视频鉴别。
发明内容
有鉴于此,本申请实施例提供一种判断分段视频类型的方法,所述分段视频包括多个子视频,所述方法包括:在视频特征聚类库中获取第一时间点的多维特征向量的聚类分布作为第一聚类分布;其中,通过对预设视频库中每个分段视频的子视频提取一个或多个时间点的多维特征向量,并将每个子视频的多维特征向量进行聚类处理,得到每个子视频的聚类分布,形成所述视频特征聚类库,其中所述多维特征向量中的维度包括以下至少一者:文本特征、音频特征、视频帧中人物特征和人脸特征;提取待判断分段视频在第一时间点的多维特征向量作为第一多维特征向量;计算第一多维特征向量与第一聚类分布中多个聚簇的中心向量的相似度;如果第一多维特征向量与第一聚类分布中一个聚簇中心向量的相似度大于或等于第一相似阈值,则计算第一多维度特征向量与该聚簇中每个多维度特征向量的分维度相似度,所述分维度相似度为计算两个多维度特征向量中相互对应的单一维度的特征信息的相似度; 根据第一多维度特征向量分别与该聚簇中每个多维度特征向量的分维度相似度的计算结果判断待判断分段视频的视频类型。
优选地,所述分维度相似度包括以下至少一者:文本特征相似度、音频特征相似度、视频帧中人物特征相似度和人脸特征相似度;根据第一多维度特征向量与该聚簇中所有的多维度特征向量的分维度相似度是否大于或等于第二相似阈值确定待判断第一多维度特征向量对应子视频的视频类型。
优选地,所述视频类型包括以下至少一者:盗播视频、模仿视频和首发视频。
优选地,还包括:如果所述第一多维度特征向量与该聚簇中一个多维度特征向量中的每个分维度相似度均大于或等于第二相似阈值,则判断所述第一多维度特征向量对应子视频为盗播视频。
优选地,其中,还包括:如果所述第一多维度特征向量与该聚簇中一个多维度特征向量的文本特征相似度和音频特征相似度大于或等于第二相似阈值,而视频帧中人物特征相似度和人脸特征相似度小于第二相似阈值,则判断所述第一多维度特征向量对应子视频为模仿视频。
优选地,如果所述第一多维度特征向量对应子视频为模仿视频时,则在视频特征聚类库中获取第二时间点多维特征向量的聚类分布作为第二聚类分布;提取待判断分段视频在第二时间点的多维特征向量作为第二多维特征向量,根据上述方法继续判断第二时间点对应子视频的类型,直至确定视频类型为盗播视频或判断完所有时间点对应的多维特征向量。
优选地,还包括:如果所述第一多维度特征向量与该聚簇中所有的多维度特征向量的视频帧中人物特征相似度和人脸特征相似度均小于第二相似阈值,且待判断分段视频中的人脸特征与所述待判断分段视频关联用户中其他视频的人脸特征相同,则所述第一多维度特征向量对应子视频为首发视频。
优选地,如果所述第一多维度特征向量对应子视频为首发视频时,则在视频特征聚类库中获取第二时间点多维特征向量的聚类分布作为第二聚类分布;提取待判断分段视频在第二时间点的多维特征向量作为第二多维特征向量,根据上述方法继续判断第二时间点对应子视频的类型,直至确定视频类型为盗播视频或判断完所有时间点对应的多维特征向量。
优选地,所述多维特征向量还包括:背景特征,所述背景特征为视频帧中分割出人物图像后剩余部分的图像信息。
优选地,还包括:如果所述第一多维度特征向量与该聚簇中一个多维度特征向量的文本特征相似度、音频特征相似度和背景特征相似度大于或等于第二相似阈值,而视频帧中人物特征相似度和人脸特征相似度小于第二相似阈值,则判断所述第一多维度特征向量对应子视频为模仿视频。
优选地,所述多个时间点包括待判断分段视频首帧图像对应的时间点、待判断分段视频中每个子视频首帧图像对应的时间点和待判断分段视频中每个子视频间隔预定时间段的时间点。
优选地,所述文本特征包括:视频标题特征和视频帧中提取的文本特征。
根据本申请的另一方面,提出一种判断分段视频类型的装置,包括:获取模块,用于在视频特征聚类库中获取第一时间点的多维特征向量的聚类分布作为第一聚类分布;其中,通过对预设视频库中每个分段视频的子视频提取一个或多个时间点的多维特征向量,并将每个子视频的多维特征向量进行聚类处理,得到每个子视频的聚类分布,形成所述视频特征聚类库,其中所述多维特征向量中的维度包括以下至少一者:文本特征、音频特征、视频帧中人物特征和人脸特征;提取模块,用于提取待判断分段视频在第一时间点的多维特征向量作为第一多维特征向量;第一计算模块,用于计算第一多维特征向量与第一聚类分布中多个聚簇的中心向量的相似度;第二计算模块,用于如果第一多维特征向量与第一聚类分布中一个聚簇中心向量的相似度大于或等于第一相似阈值,则计算第一多维度特征向量与该聚簇中每个多维度特征向量的分维度相似度,所述分维度相似度为计算两个多维度特征向量中相互对应的单一维度的特征信息的相似度;判断模块,用于根据第一多维度特征向量分别与该聚簇中每个多维度特征向量的分维度相似度的计算结果判断待判断分段视频的视频类型。
本申请实施例提供一种电子设备,所述电子设备包括处理器以及存储有计算机程序指令的存储器;所述处理器执行所述计算机程序指令时实现如上所述的方法的步骤。
本申请实施例提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序指令,所述计算机程序指令被处理器执行时实现如上所述的方法的步骤。
本申请将分段视频的多个维度信息分别映射成多个向量,将相同时间线的多个向量组合成多维特征向量,利用聚类的方式将分段视频的多个多维特征向量进行层次聚类得到多个聚簇中心向量。通过计算待判断分段视频的多维特征向量分别与每个聚簇中心向量的相似度方式快速找到与之相似的多个多维特征向量进而确定待判断分段视频的类型。利用聚类的方式,不仅能够快速判断分段视频的类型,并且占用较小的计算资源。另外,本申请根据分段视频的特点,提取每个子视频的时间点对应的多维特征向量,判断每个子视频的视频类型,将缩短确定视频类型的时间,提高工作效率。
附图说明
为了更清楚地说明本申请实施例的技术方案,以下对本申请实施例中的附图作简单介绍。
图1是本申请实施例的系统架构的示意图。
图2示出本申请实施例的判断分段视频类型的方法流程框图。
图3是根据本申请实施例的舞蹈教学视频的分段结构示意图。
图4是根据本申请实施例的层次聚类分布的示意图。
图5是根据本申请实施例的计算分维度相似度的示意图。
图6是本申请实施例的判断分段视频类型的装置的结构框图。
图7示出本申请实施例的电子设备的硬件结构示意图。
具体实施方式
以下将参考若干示例性实施方式来描述本申请的原理和精神。应当理解,提供这些实施方式的目的是为了使本申请的原理和精神更加清楚和透彻,使本领域技术人员能够更好地理解进而实现本申请的原理和精神。本文中提供的示例性实施方式仅是本申请的一部分实施方式,而不是全部的实施方式。基于本文中的实施方式,本领域普通技术人员在不付出创造性劳动前提下所获得的所有其他实施方式,都属于本申请保护的范围。
本申请的实施例涉及终端设备和/或服务器。本领域技术人员知晓,本申请的实施方式可以实现为一种系统、装置、设备、方法、计算机可读存储介质或计算机程序产品。因此,本申请可以具体实现为以下至少一种形式:完全的硬件、完全的软件,或者硬件与软件结合的形式。根据本申请的实施方式,本申请请求保护一种判断分段视频类型的方法、装置、电子设备、计算机可读存储介质及计算机程序产品。图1示出了本申请实施例的一种系统架构的示意图。如图1所示,该系统包括终端设备102和服务器104。其中,终端设备102可以包括以下至少一项:智能手机、平板电脑、笔记本电脑、台式电脑、智能电视、各类可穿戴设备、增强现实AR设备、虚拟现实VR设备等等。终端设备102上可以安装客户端,例如,该客户端可以为专门执行特定功能的客户端(如应用程序app),或者为内嵌有多种应用小程序(不同功能)的客户端,还可以是通过浏览器登录的客户端。用户可以在终端设备102上进行操作,比如,用户可以打开终端设备102上安装的客户端,并通过客户端操作输入指令,或者,用户可以打开终端设备102上安装的浏览器,并通过浏览器操作输入指令。在终端设备102接收到用户输入的指令之后,将包含指令的请求信息发送至服务器104。服务器104接收到请求信息之后执行相应的处理,然后将处理结果信息返回给终端设备102。通过一系列数据处理和信息交互完成用户指令。
在本文中,诸如第一、第二、第三之类的用语,仅用来将一个实体(或操作)与另一个实体(或操作)区分开来,而不在于要求或暗示这些实体(或操作)之间存在任何顺序或关联。
多维特征向量是由多组向量组成,并且至少两组向量的维度不同。每个视频均可以从文本特征信息、音频特征信息、视频帧中人物特征信息和人脸特征信息等多个方面生成多维向量。本申请中的时间点为视频时间轴中的某一时刻。视频类型包括盗播视频、模仿视频和首发视频中的一者或多者。
图2示出本申请实施例的判断分段视频类型的方法流程框图,所述方法包括:
S101,在视频特征聚类库中获取第一时间点的多维特征向量的聚类分布作为第一聚类分布;其中,通过对预设视频库中每个分段视频的子视频提取一个或多个时间点的多维特征向量,并将每个子视频的多维特征向量进行聚类处理,得到每个子视频的聚类分布,形成所述视频特征聚类库,其中所述多维特征向量中的维度包括以下至少一者:文本特征、音频特征、视频帧中人物特征和人脸特征;
S102,提取待判断分段视频在第一时间点的多维特征向量作为第一多维特征向量;
S103,计算第一多维特征向量与第一聚类分布中多个聚簇的中心向量的相似度;
S104,如果第一多维特征向量与第一聚类分布中一个聚簇中心向量的相似度大于或等于第一相似阈值,则计算第一多维度特征向量与该聚簇中每个多维度特征向量的分维度相似度,所述分维度相似度为计算两个多维度特征向量中相互对应的单一维度的特征信息的相似度;
S105,根据第一多维度特征向量分别与该聚簇中每个多维度特征向量的分维度相似度的计算结果判断待判断分段视频的视频类型。
本申请将分段视频的多个维度信息分别映射成多个向量,将相同时间线的多个向量组合成一个多维特征向量。分段视频包括多个子视频,每个子视频能提取出至少一个多维特征向量。本申请利用聚类的方式将视频库中的每个子视频中的多个多维特征向量进行聚类得到多个聚簇中心向量。通过将待判断分段视频的多维特征向量分别与对应子视频中的每个聚簇中心向量的相似度方式快速找到与之相似的多个多维特征向量进而确定待判断分段视频的类型,并且占用较小的计算资源。视频是一种包含文字、音频和图像的多维信息的集合,单纯对比一个维度的信息没有意义,无法判断出视频的类型,因此,本申请采用同一时间线提取多维信息生成多维向量的方式,将不同类型的信息捏合在一个向量里,将识别视频类型变成可能,具有开创性意义。
一个完整分段视频包括多个子视频,每个子视频对应的内容或展示形式可能不同。一些盗播视频有可能截取热门视频中的一部分放在自己的视频中,若按照时间轴的顺序对比,有可能花费较多的时间才能确定视频类型。因此,本申请根据分段视频的特点,首先,提取每个子视频中时间点对应的多维特征向量,判断每个子视频的视频类型,将缩短确定视频类型的时间,提高工作效率。
根据本申请的实施例,所述分维度相似度包括以下至少一者:文本特征相似度、音频特征相似度、视频帧中人物特征相似度和人脸特征相似度;根据第一多维度特征向量与该聚簇中所有的多维度特征向量的分维度相似度是否大于或等于第二相似阈值确定待判断第一多维度特征向量对应子视频的视频类型。相对于单一维度聚类确认相似度,本申请将视频同一时刻的多个维度的信息作为多维度特征向量进行聚类处理,能够快速匹配和查找出多个维度信息均相同的视频,而且有更多的应用场景。分维度相似度包括多种相似度,有利于细化视频的类型。通过搜集多个维度的相似度,能够扩展出多种功能。比如,通过音频特征相似度能够确定当前的热门歌曲,通过文本特征相似度能够确定当前流行的视频类型等。因此,通过分维度相似度不仅可以确定某一个视频的类型,还能够分析视频库中视频的喜好趋势、类型趋势等,对分析视频库方面具有重大意义。
根据本申请的实施例,如果所述第一多维度特征向量与该聚簇中一个多维度特征向量中的每个分维度相似度均大于或等于第二相似阈值,则判断所述第一多维度特征向量对应子视频为盗播视频。如果视频特征聚类库中的某一多维特征向量与待判断分段视频的多维度特征向量每个维度信息相似度均超过第二相似阈值即文本特征信息相同,音频特征信息相同、视频帧中人物特征信息相同及人脸特征信息相同,则认定该多维特征向量与待判断分段视频的多维度特征向量相同,确定对应子视频为盗播视频,不予发布。
根据本申请的实施例,如果所述第一多维度特征向量与该聚簇中一个多维度特征向量的文本特征相似度和音频特征相似度大于或等于第二相似阈值,而视频帧中人物特征相似度和人脸特征相似度小于第二相似阈值,则判断所述第一多维度特征向量对应子视频为模仿视频。模仿视频即用户学习已发布视频中的内容制作成自己的视频,模仿视频与已发布视频的各维度信息往往相同的概率比较大,因此,待判断分段视频的多维度特征向量与一个多维度特征向量的文本特征信息和音频特征信息的相似度超过第二相似阈值,而视频帧中人物特征信息及人脸特征信息的相似度未超过第二相似阈值,则确定对应子视频为模仿视频。
根据本申请的实施例,如果所述第一多维度特征向量与该聚簇中所有的多维度特征向量的视频帧中人物特征相似度和人脸特征相似度均小于第二相似阈值,且待判断分段视频中的人脸特征与所述待判断分段视频关联用户中其他视频的人脸特征相同,则所述第一多维度特征向量对应子视频为首发视频。首发视频(原创作品)即创作者独立创作的,虽然文本特征信息和音频特征信息也有一定概率与已发布视频相同,但人物特征信息和人脸特征信息一定不相同且人脸特征信息关联用户空间中其他已发布视频的人脸特征信息相同,则确定该视频为首发视频。
如果所述第一多维度特征向量对应子视频为首发视频或模仿视频时,则在视频特征聚类库中获取第二时间点多维特征向量的聚类分布作为第二聚类分布;提取待判断分段视频在第二时间点的多维特征向量作为第二多维特征向量,根据上述方法继续判断第二时间点对应子视频的类型,直至确定视频类型为盗播视频或判断完所有时间点对应的多维特征向量。按照时间线的顺序,虽然当前的子视频是首发或模仿视频,但无法确定后面的子视频的类型,还需要继续判断,防止用户盗播部分视频的情况。
根据本申请的实施例,所述多维特征向量还包括:背景特征,所述背景特征为视频帧中分割出人物图像后剩余部分的图像信息。背景特征信息作为多维特征向量之一,有利于提高确定视频类型的准确性。
根据本申请的实施例,如果所述第一多维度特征向量与该聚簇中一个多维度特征向量的文本特征相似度、音频特征相似度和背景特征相似度大于或等于第二相似阈值,而视频帧中人物特征相似度和人脸特征相似度小于第二相似阈值,则判断所述第一多维度特征向量对应子视频为模仿视频。模仿视频即用户学习已发布视频中的内容制作成自己的视频,模仿视频与已发布视频的各维度信息往往相同的概率比较大,因此,待判断分段视频的多维度特征向量与一个多维度特征向量的文本特征信息、音频特征信息和背景特征信息的相似度超过第二相似阈值,而视频帧中人物特征信息及人脸特征信息的相似度未超过第二相似阈值时,则确定对应子视频为模仿视频。
根据本申请的实施例,所述多个时间点包括待判断分段视频首帧图像对应的时间点、待判断分段视频中每个子视频首帧图像对应的时间点和待判断分段视频中每个子视频间隔预定时间段的时间点。所述第一时间点为待判断分段视频首帧图像对应的时间点,所述第二时间点为待判断分段视频中第一子视频首帧图像对应的时间点。利用多个时间点确定待判断分段视频中各个子视频的视频类型,将缩短判断时间。
根据本申请的实施例,所述文本特征信息包括:视频标题特征信息和视频帧中提取的文本特征信息。在视频标题特征信息中可以提取作者名字、歌曲名称等信息,可以在视频帧中提取字幕信息、章节信息和歌词信息等。
以上通过多个实施例描述了本申请实施例的实现方式以及带来的优势。以下结合具体的例子,详细描述本申请实施例的具体处理过程。
图3是根据本申请实施例的舞蹈教学视频的分段结构示意图。如图3所示,舞蹈教学视频包括:片头、分段1-4。其中,分段1为正面教学,分段2为背面教学,分段3为正面演示,分段4为背面演示。可以从视频标题文本信息、视频帧中提取的文本信息、音频信息、视频帧中提取的人物图像信息、视频帧中提取的人脸图像信息和视频帧中提取的背景图像信息等6个维度信息描述该舞蹈视频。需要提取该舞蹈视频在多个时间点的上述6个维度信息组成多维特征向量,具体提取工作如下:
(1)提取视频标题特征向量
从视频标题中抽取文本信息,文本信息包括但限于:作者名字关键词和舞曲关键词。一般而言,一个视频只有一个视频标题,因此,多个时间点对应视频标题维度的向量均相同。如果每个子视频均有对应的子标题,也可以生成对应的向量。通过预训练语言模型,如bert,将以上关键词映射成定长维度的向量,向量维度为bK1。(b一般为偶数,比如26)。映射成视频标题维度向量如下:
(2)提取视频帧中的文本特征向量
提取分段视频中的首图以及每个分段子视频的首图,以及每个子视频中间隔预定时间截取的图片,通过文本识别技术(例如ocr技术)提取每一张图片中的文本信息,同样通过预训练语言模型(如bert)将识别的文本片段,抽取向量并叠加求平均得出定长维度的向量,向量维度为bK2(b一般为偶数,比如26),将所有的向量汇集得出向量组,如下:
其中,是视频首图中提取的图片文本维度向量,/>是分段子视频1的封面中提取的图片文本维度向量,/>是分段子视频2的封面中提取的图片文本维度向量,/>是分段子视频1的等间隔(如间隔3秒)的图片中提取的图片文本维度向量,/>是视频分段子视频2的等间隔(如间隔3秒)的图片文本维度向量。
(3)提取音频特征向量
提取分段视频中的前x秒片段音频以及每个分段子视频的前x秒片段音频,通过音频谱分析技术提取音频向量,向量维度为bK3(b一般为偶数,比如28),将所有的向量汇集得出向量组,如下:
其中,为视频首图开始后x秒片段音频提取的特征向量,/>为视频分段子视频1开始后x秒片段音频提取的特征向量,/>是分段子视频1的等间隔(如间隔3秒)的后x秒片段音频提取的特征向量,/>是从视频分段子视频2开始后x秒片段音频提取的特征向量。
(4)在视频帧中提取的人物图像特征向量
通过特征提取方法(比如SFIT方式)提取人物图像特征向量,将视频首图,分段子视频首图以及每个子视频等间隔的图片提取对应的人物特征向量,将所有的向量汇集得出向量组,如下:
其中,为视频首图分割提取的人物子图的特征向量,/>是视频分段子视频1中分割提取的人物子图的特征向量,/>是视频分段子视频2中分割提取的人物子图的特征向量,/>是视频分段子视频1的等间隔(如间隔3秒)截图中分割提取的人物子图特征向量,/>是视频分段子视频2的等间隔(如间隔3秒)截图中分割提取的人物子图特征向量。
(5)在视频帧中提取的人脸图像特征向量
在步骤(4)的基础上,对人物子图继续分割,分割出人脸子图,通过特征提取方法,比如(SFIT)方式提取特征向量,将视频首图,分段子视频首图以及每个子视频等间隔的图片提取对应的特征向量,将所有的向量汇集得出向量组,如下:
其中,是视频首图分割提取的人脸子图的特征向量,/>是视频分段子视频1中分割提取的人脸子图的特征向量,/>是视频分段子视频2中分割提取的人脸子图的特征向量,/>是视频分段子视频1的等间隔(如间隔3秒)截图中分割提取的人脸子图的特征向量,/>是视频分段子视频2的等间隔(如间隔3秒)截图中分割提取的人脸子图的特征向量。
(6)在视频帧中提取的背景图像特征向量
在步骤(4)的基础上,对分割出人物子图的剩余部分作为背景图片,通过特征提取方法,比如(SFIT)方式提取特征向量,将视频首图,分段子视频首图以及每个子视频等间隔的图片提取对应的特征向量,将所有的向量汇集得出向量组,如下:
其中是视频首图分割提取的背景子图的向量维度,/>是视频分段子视频1中分割提取的背景子图的特征向量,/>是视频分段子视频2中分割提取的背景子图的特征向量,/>是视频分段子视频1的等间隔(如间隔3秒)截图中分割提取的背景子图的特征向量,/>是视频分段子视频2的等间隔(如间隔3秒)截图中分割提取的背景子图的特征向量。
然后将向量组中的多个向量按照时间线的顺序组合成多个多维特征向量,多维特征向量如下:
视频首图的向量组合:
分段子视频1的首图的向量组合:
分段子视频2的首图的向量组合:
分段子视频1的第一个间隔3秒的图片的向量组合:
分段子视频1的第二个间隔3秒的图片的向量组合:
分段子视频2的第一个间隔3秒的图片的向量组合;
分段子视频2的第二个间隔3秒的图片的向量组合;
以此类推,共有S个组合式多维特征向量。
一个分段视频可以提取出S个多维特征向量,视频库中每个分段视频均可以提取出S个多维特征向量。将视频库中全部分段视频的视频首图(片头)的多维特征向量作为一个向量集合进行层次聚类得到一个具有多个聚簇中心向量的层次聚类分布图C1,将视频库中全部分段视频的分段1的多维特征向量作为一个向量集合进行层次聚类得到一个具有多个聚簇中心向量的层次聚类分布图C2,以此类推,具有n个分段的分段视频,将得到n个层次聚类分布图。
图4是根据本申请实施例的层次聚类分布的示意图。如图4所示,通过层次聚类,能够将一个向量集合中的多个多维特征向量根据相似度分为4个子集合,分布在同一个子集合中的多个多维特征向量视为相似度较高。
以图4表示分段子视频1的层次聚类分布图为例,最上层集合中的多个多维特征向量表示视频库中所有分段视频的分段子视频1的多维特征向量,根据多维特征向量的相似度分为中间两个子集合,进一步地,根据相似度分为下层四个子集合。四个子集合中每个子集合中的“+”表示聚簇中心向量,多维特征向量距离“+”越近,表示相似度越高。其中,v1-0、v1-1、v1-3、v1-4 可以表示视频v1在分段子视频1的多个多维特征向量,v2-0、v2-1、v2-2、v2-3可以表示视频v2在分段子视频1的多个多维特征向量,以此类推。
图5是根据本申请实施例的计算分维度相似度的示意图。如图5所示,当用户将要发布一个新视频时,服务器可以对该新视频鉴定视频类型。首先,获取按照上述方式获取该新视频的视频首图的多维特征向量q,然后,计算多维特征向量q分别与层次聚类分布图C1中的每个聚簇中心向量q(c)之间的相似度,如果相似度超过第一相似阈值时,则计算多维特征向量q与聚簇中心向量q(c)所在集合V(c)中每个多维特征向量的分维度相似度,分维度相似度为分别计算多维度特征向量中对应维度特征信息的相似度。其中第一相似阈值为0.8-0.9中的任意数值。
分维度相似度的计算结果如图5中的表格所示。其中,S(v1,k1)表示多维特征向量q与多维特征向量v1在k1维度的相似度。当二者的相似度超过第二相似阈值时,则确定对应维度信息命中即二者信息相同。根据图5中的表格还可以统计与哪个视频命中的维度数量,如图所示,Count(v2)=3表示多维特征向量q与视频v2命中了3个维度信息。其中,第二相似阈值为0.9-0.98中的任一数值。根据表格中的相似度能够判断新视频的视频类型。视频类型参考如下表1。
表1
其中,k1表示视频标题维度,k2表示视频帧中提取文本维度,k3表示视频中音频维度,k4表示视频帧中人物维度,k5表示视频帧中人脸维度,k6表示视频帧中背景维度,k7表示发布账户关联的其他视频中人脸维度。“√”表示相似度超过第二相似阈值,“×”表示相似度未超过第二相似阈值。
如果利用新视频的视频首图的多维特征向量q能够判断该视频为盗播视频,则禁止该视频发布。
如果判断结果是模仿视频或首发视频,则提取新视频中分段子视频1的多维特征向量,然后按照上述方式继续判断视频类型,直至确定该视频为盗播视频或提取的S个多维特征向量全部判断完未发现盗播行为,则该新视频未发现盗播行为,予以发布。
图6是本申请实施例的判断分段视频类型的装置的结构框图,如图6所示,判断分段视频类型的装置包括:
获取模块110,用于在视频特征聚类库中获取第一时间点的多维特征向量的聚类分布作为第一聚类分布;其中,通过对预设视频库中每个分段视频的子视频提取一个或多个时间点的多维特征向量,并将每个子视频的多维特征向量进行聚类处理,得到每个子视频的聚类分布,形成所述视频特征聚类库,其中所述多维特征向量中的维度包括以下至少一者:文本特征、音频特征、视频帧中人物特征和人脸特征;
提取模块120,用于提取待判断分段视频在第一时间点的多维特征向量作为第一多维特征向量;
第一计算模块130,用于计算第一多维特征向量与第一聚类分布中多个聚簇的中心向量的相似度;
第二计算模块140,用于如果第一多维特征向量与第一聚类分布中一个聚簇中心向量的相似度大于或等于第一相似阈值,则计算第一多维度特征向量与该聚簇中每个多维度特征向量的分维度相似度,所述分维度相似度为计算两个多维度特征向量中相互对应的单一维度的特征信息的相似度;
判断模块150,用于根据第一多维度特征向量分别与该聚簇中每个多维度特征向量的分维度相似度的计算结果判断待判断分段视频的视频类型。
本申请实施例中的电子设备可以是用户终端设备,可以是服务器,还可以是其他计算设备,也可以是云端服务器。图7示出本申请实施例的电子设备的硬件结构示意图,该电子设备可以包括处理器601以及存储有计算机程序指令的存储器602,处理器601执行计算机程序指令时实现上述任一实施例方法的流程或功能。
具体地,处理器601可以包括中央处理器(CPU),或者特定集成电路(ApplicationSpecific Integrated Circuit ,ASIC),或者可以被配置成实施本申请实施例的一个或多个集成电路。存储器602可以包括用于数据或指令的大容量存储器。举例来说,存储器602可以是以下至少一者:硬盘驱动器(Hard Disk Drive,HDD)、只读存储器(ROM),随机存取存储器(RAM)、软盘驱动器、闪存、光盘、磁光盘、磁带、通用串行总线(Universal Serial Bus,USB)驱动器或其他物理/有形的存储器存储设备。又如,存储器602可包括可移除或不可移除(或固定)的介质。再如,存储器602可在综合网关容灾设备的内部或外部。存储器602可以是非易失性固态存储器。换句话说,通常存储器602包括编码有计算机可执行指令的有形(非暂态)计算机可读存储介质(如存储器设备),并且当该软件被执行(如由一个或多个处理器执行)时,可执行本申请实施例的方法所描述的操作。处理器601通过读取并执行存储器602中存储的计算机程序指令,实现上述实施例中任一种方法的流程或功能。
在一个示例中,图7所示的电子设备还可包括通信接口603和总线610。其中,处理器601、存储器602、通信接口603通过总线610连接并完成相互间的通信。通信接口603主要用于实现本申请实施例中各模块、装置、单元和/或设备之间的通信。总线610包括硬件、软件或两者皆有,可将在线数据流量计费设备的部件彼此耦接在一起。举例来说,总线可包括以下至少一者:加速图形端口(AGP)或其他图形总线、增强工业标准架构(EISA)总线、前端总线(FSB)、超传输(HT)互连、工业标准架构(ISA)总线、无限带宽互连、低引脚数(LPC)总线、存储器总线、微信道架构(MCA)总线、外围组件互连(PCI)总线、PCI-Express(PCI-X)总线、串行高级技术附件(SATA)总线、视频电子标准协会局部(VLB)总线或其他合适的总线。总线610可包括一个或多个总线。尽管本申请实施例描述或示出了特定的总线,但本申请实施例可考虑任何合适的总线或互连方式。
结合上述实施例中的方法,本申请实施例还提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序指令,该计算机程序指令被处理器执行时实现上述实施例中任一种方法的流程或功能。
另外,本申请实施例还提供一种计算机程序产品,该计算机程序产品上存储有计算机程序指令,该计算机程序指令被处理器执行时实现上述实施例中任一种方法的流程或功能。
以上示例性地描述了本申请实施例的方法、装置、系统和计算机程序产品的流程图和/或框图,并描述了相关的各个方面。应当理解,流程图和/或框图中的每个方框或其组合,可以由计算机程序指令实现,也可以由执行指定功能或动作的专用硬件来实现,还可由专用硬件和计算机指令的组合来实现。例如,这些计算机程序指令可被提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器,以形成一种机器可使得经由这种处理器执行的这些指令使能对流程图和/或框图中的每个方框或其组合中指定的功能/动作的实现。这种处理器可以是通用处理器、专用处理器、特殊应用处理器或者现场可编程逻辑电路。
本申请实施例的结构框图中所示的功能块可以实现为硬件、软件、固件或者它们的组合。当以硬件方式实现时,其可以例如是电子电路、专用集成电路(ASIC)、适当的固件、插件、功能卡等等;当以软件方式实现时,是被用于执行所需任务的程序或者代码段。程序或者代码段可以存储在存储器中,或者通过载波中携带的数据信号在传输介质或者通信链路上传送。代码段可以经由诸如因特网、内联网等的计算机网络被下载。
需说明,本申请并不局限于上文所描述或在图中示出的特定配置和处理。以上所述仅为本申请的具体实施方式,所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,所描述的系统、设备、模块或单元的具体工作过程,可以参考方法实施例中的对应过程,不需再赘述。应理解,本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可想到各种等效的修改或替换,这些修改或替换都应涵盖在本申请的保护范围之内。

Claims (14)

1.一种判断分段视频类型的方法,其特征在于,所述分段视频包括多个子视频,所述方法包括:
在视频特征聚类库中获取第一时间点的多维特征向量的聚类分布作为第一聚类分布;其中,通过对预设视频库中每个分段视频的子视频提取一个或多个时间点的多维特征向量,并将每个子视频的多维特征向量进行聚类处理,得到每个子视频的聚类分布,形成所述视频特征聚类库,其中所述多维特征向量中的维度包括以下至少一者:文本特征、音频特征、视频帧中人物特征和人脸特征;
提取待判断分段视频在第一时间点的多维特征向量作为第一多维特征向量;
计算第一多维特征向量与第一聚类分布中多个聚簇的中心向量的相似度;
如果第一多维特征向量与第一聚类分布中一个聚簇中心向量的相似度大于或等于第一相似阈值,则计算第一多维度特征向量与该聚簇中每个多维度特征向量的分维度相似度,所述分维度相似度为计算两个多维度特征向量中相互对应的单一维度的特征信息的相似度;
根据第一多维度特征向量分别与该聚簇中每个多维度特征向量的分维度相似度的计算结果判断待判断分段视频的视频类型;
其中,所述分维度相似度包括以下至少一者:文本特征相似度、音频特征相似度、视频帧中人物特征相似度和人脸特征相似度;根据第一多维度特征向量与该聚簇中所有的多维度特征向量的分维度相似度是否大于或等于第二相似阈值确定待判断第一多维度特征向量对应子视频的视频类型。
2.根据权利要求1所述的方法,其特征在于,所述视频类型包括以下至少一者:盗播视频、模仿视频和首发视频中的一者或多者。
3.根据权利要求1所述的方法,其特征在于,还包括:如果所述第一多维度特征向量与该聚簇中一个多维度特征向量中的每个分维度相似度均大于或等于第二相似阈值,则判断所述第一多维度特征向量对应子视频为盗播视频。
4.根据权利要求1所述的方法,其特征在于,其中,还包括:如果所述第一多维度特征向量与该聚簇中一个多维度特征向量的文本特征相似度和音频特征相似度大于或等于第二相似阈值,而视频帧中人物特征相似度和人脸特征相似度小于第二相似阈值,则判断所述第一多维度特征向量对应子视频为模仿视频。
5.根据权利要求4所述的方法,其特征在于,如果所述第一多维度特征向量对应子视频为模仿视频时,则在视频特征聚类库中获取第二时间点多维特征向量的聚类分布作为第二聚类分布;提取待判断分段视频在第二时间点的多维特征向量作为第二多维特征向量,根据上述方法继续判断第二时间点对应子视频的类型,直至确定视频类型为盗播视频或判断完所有时间点对应的多维特征向量。
6.根据权利要求1所述的方法,其特征在于,还包括:如果所述第一多维度特征向量与该聚簇中所有的多维度特征向量的视频帧中人物特征相似度和人脸特征相似度均小于第二相似阈值,且待判断分段视频中的人脸特征与所述待判断分段视频关联用户中其他视频的人脸特征相同,则所述第一多维度特征向量对应子视频为首发视频。
7.根据权利要求6所述的方法,其特征在于,如果所述第一多维度特征向量对应子视频为首发视频时,则在视频特征聚类库中获取第二时间点多维特征向量的聚类分布作为第二聚类分布;提取待判断分段视频在第二时间点的多维特征向量作为第二多维特征向量,根据上述方法继续判断第二时间点对应子视频的类型,直至确定视频类型为盗播视频或判断完所有时间点对应的多维特征向量。
8.根据权利要求1所述的方法,其特征在于,所述多维特征向量还包括:背景特征,所述背景特征为视频帧中分割出人物图像后剩余部分的图像信息。
9.根据权利要求8所述的方法,其特征在于,其中,还包括:如果所述第一多维度特征向量与该聚簇中一个多维度特征向量的文本特征相似度、音频特征相似度和背景特征相似度大于或等于第二相似阈值,而视频帧中人物特征相似度和人脸特征相似度小于第二相似阈值,则判断所述第一多维度特征向量对应子视频为模仿视频。
10.根据权利要求1所述的方法,其特征在于,其中,所述多个时间点包括待判断分段视频首帧图像对应的时间点、待判断分段视频中每个子视频首帧图像对应的时间点和待判断分段视频中每个子视频间隔预定时间段的时间点。
11.根据权利要求1所述的方法,其特征在于,其中,所述文本特征包括:视频标题特征和视频帧中提取的文本特征。
12.一种判断分段视频类型的装置,其特征在于,包括:
获取模块,用于在视频特征聚类库中获取第一时间点的多维特征向量的聚类分布作为第一聚类分布;其中,通过对预设视频库中每个分段视频的子视频提取一个或多个时间点的多维特征向量,并将每个子视频的多维特征向量进行聚类处理,得到每个子视频的聚类分布,形成所述视频特征聚类库,其中所述多维特征向量中的维度包括以下至少一者:文本特征、音频特征、视频帧中人物特征和人脸特征;
提取模块,用于提取待判断分段视频在第一时间点的多维特征向量作为第一多维特征向量;
第一计算模块,用于计算第一多维特征向量与第一聚类分布中多个聚簇的中心向量的相似度;
第二计算模块,用于如果第一多维特征向量与第一聚类分布中一个聚簇中心向量的相似度大于或等于第一相似阈值,则计算第一多维度特征向量与该聚簇中每个多维度特征向量的分维度相似度,所述分维度相似度为计算两个多维度特征向量中相互对应的单一维度的特征信息的相似度;
判断模块,用于根据第一多维度特征向量分别与该聚簇中每个多维度特征向量的分维度相似度的计算结果判断待判断分段视频的视频类型;
其中,所述分维度相似度包括以下至少一者:文本特征相似度、音频特征相似度、视频帧中人物特征相似度和人脸特征相似度;根据第一多维度特征向量与该聚簇中所有的多维度特征向量的分维度相似度是否大于或等于第二相似阈值确定待判断第一多维度特征向量对应子视频的视频类型。
13.一种电子设备,其特征在于,所述电子设备包括:处理器以及存储有计算机程序指令的存储器;所述电子设备执行所述计算机程序指令时实现如权利要求1-11中任一项所述的方法。
14.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序指令,所述计算机程序指令被处理器执行时实现如权利要求1-11中任一项所述的方法。
CN202311558653.7A 2023-11-22 2023-11-22 判断分段视频类型的方法、装置及电子设备 Active CN117292303B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311558653.7A CN117292303B (zh) 2023-11-22 2023-11-22 判断分段视频类型的方法、装置及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311558653.7A CN117292303B (zh) 2023-11-22 2023-11-22 判断分段视频类型的方法、装置及电子设备

Publications (2)

Publication Number Publication Date
CN117292303A CN117292303A (zh) 2023-12-26
CN117292303B true CN117292303B (zh) 2024-03-08

Family

ID=89241086

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311558653.7A Active CN117292303B (zh) 2023-11-22 2023-11-22 判断分段视频类型的方法、装置及电子设备

Country Status (1)

Country Link
CN (1) CN117292303B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111581437A (zh) * 2020-05-07 2020-08-25 腾讯科技(深圳)有限公司 一种视频检索方法及装置
CN111783734A (zh) * 2020-07-21 2020-10-16 腾讯科技(深圳)有限公司 原版视频识别方法及装置
CN112203122A (zh) * 2020-10-10 2021-01-08 腾讯科技(深圳)有限公司 基于人工智能的相似视频处理方法、装置及电子设备

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11195057B2 (en) * 2014-03-18 2021-12-07 Z Advanced Computing, Inc. System and method for extremely efficient image and pattern recognition and artificial intelligence platform

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111581437A (zh) * 2020-05-07 2020-08-25 腾讯科技(深圳)有限公司 一种视频检索方法及装置
CN111783734A (zh) * 2020-07-21 2020-10-16 腾讯科技(深圳)有限公司 原版视频识别方法及装置
CN112203122A (zh) * 2020-10-10 2021-01-08 腾讯科技(深圳)有限公司 基于人工智能的相似视频处理方法、装置及电子设备

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
audio-based near-duplicate video retrieval with audio similarity learning;Pavlos Avgoustinakis等;《2020 25th International Conference on Pattern Recognition》;全文 *
基于内容的视频拷贝检测算法研究;党杰;中国优秀硕士学位论文全文数据库(第S1期);全文 *

Also Published As

Publication number Publication date
CN117292303A (zh) 2023-12-26

Similar Documents

Publication Publication Date Title
US11132555B2 (en) Video detection method, server and storage medium
CN107463605B (zh) 低质新闻资源的识别方法及装置、计算机设备及可读介质
CN106921891B (zh) 一种视频特征信息的展示方法和装置
CN111814770B (zh) 一种新闻视频的内容关键词提取方法、终端设备及介质
US20140245463A1 (en) System and method for accessing multimedia content
Yang et al. A two-stage clustering based 3D visual saliency model for dynamic scenarios
CN110582025A (zh) 用于处理视频的方法和装置
CN109271542A (zh) 封面确定方法、装置、设备及可读存储介质
CN111191067A (zh) 绘本识别方法、终端设备及计算机可读存储介质
CN112559800B (zh) 用于处理视频的方法、装置、电子设备、介质和产品
CN110072140B (zh) 一种视频信息提示方法、装置、设备及存储介质
CN110163061B (zh) 用于提取视频指纹的方法、装置、设备和计算机可读介质
US9792276B2 (en) Content availability for natural language processing tasks
WO2023045635A1 (zh) 多媒体文件的字幕处理方法、装置、电子设备、计算机可读存储介质及计算机程序产品
CN111488813B (zh) 视频的情感标注方法、装置、电子设备及存储介质
CN112188306A (zh) 一种标签生成方法、装置、设备及存储介质
CN115238105A (zh) 融合多媒体的违规内容检测方法及系统、设备和介质
CN114495128A (zh) 字幕信息检测方法、装置、设备以及存储介质
Altuncu et al. Deepfake: definitions, performance metrics and standards, datasets and benchmarks, and a meta-review
Mou et al. Content-based copy detection through multimodal feature representation and temporal pyramid matching
CN104966109A (zh) 医疗化验单图像分类方法及装置
CN113992944A (zh) 视频编目方法、装置、设备、系统及介质
CN117292303B (zh) 判断分段视频类型的方法、装置及电子设备
CN111354013A (zh) 目标检测方法及装置、设备和存储介质
CN113609315A (zh) 一种媒资相似度的判定方法、装置、电子设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant