CN110334753B - 视频分类方法、装置、电子设备及存储介质 - Google Patents

视频分类方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN110334753B
CN110334753B CN201910561406.XA CN201910561406A CN110334753B CN 110334753 B CN110334753 B CN 110334753B CN 201910561406 A CN201910561406 A CN 201910561406A CN 110334753 B CN110334753 B CN 110334753B
Authority
CN
China
Prior art keywords
processed
video
preset
key frame
vectors
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910561406.XA
Other languages
English (en)
Other versions
CN110334753A (zh
Inventor
康健
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong Oppo Mobile Telecommunications Corp Ltd
Original Assignee
Guangdong Oppo Mobile Telecommunications Corp Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong Oppo Mobile Telecommunications Corp Ltd filed Critical Guangdong Oppo Mobile Telecommunications Corp Ltd
Priority to CN201910561406.XA priority Critical patent/CN110334753B/zh
Publication of CN110334753A publication Critical patent/CN110334753A/zh
Application granted granted Critical
Publication of CN110334753B publication Critical patent/CN110334753B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/172Classification, e.g. identification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Multimedia (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Human Computer Interaction (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Image Analysis (AREA)

Abstract

本公开提供了一种视频分类方法、装置、电子设备及计算机可读存储介质,涉及图像处理技术领域,所述视频分类方法包括:获取每个待处理视频的关键帧,并对所述关键帧进行过滤得到预设关键帧;根据所述预设关键帧确定预设人脸信息,并对所述预设人脸信息对应的向量进行聚类,得到各所述待处理视频的综合向量;对所有所述待处理视频的所述综合向量进行聚类,以确定各所述待处理视频的分类结果。本公开能够提高视频分类的效率和准确率,减少计算量。

Description

视频分类方法、装置、电子设备及存储介质
背景技术
随着图像技术的发展,用户可以从多种渠道获得各种各样的图像。由于图像的数量过于庞大,为了便于管理,需要对图像进行分类处理。
相关技术中,视频分类方法可以为基于人脸对比的视频分类:该方法是通过预先训练好的卷积神经网络模型,将待分类视频逐张进行编码得到人脸特征向量,通过对特征向量进行一一对比,计算出特征距离最小的图像来判定图像类别,同时通过手动设定阈值的方式来防止单一图像被误归类于文件夹中。
上述方式中,逐一对比的方式,其复杂度较高,在图像数量大的时候,计算量呈指数级增长,因此会导致视频分类较慢的问题。同时需要手动设置阈值来控制分类,对手动调整参数的要求较大,并且在阈值设置不合理时可能导致分类不准确。
需要说明的是,在上述背景技术部分公开的信息仅用于加强对本公开的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。
发明内容
本公开的目的在于提供一种视频分类方法、装置、电子设备及计算机可读存储介质,进而至少在一定程度上克服由于相关技术的限制和缺陷而导致的视频分类速度较慢以及不准确的问题。
本公开的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本公开的实践而习得。
根据本公开的一个方面,提供一种视频分类方法,包括:获取每个待处理视频的关键帧,并对所述关键帧进行过滤得到预设关键帧;根据所述预设关键帧确定预设人脸信息,并对所述预设人脸信息对应的向量进行聚类,得到各所述待处理视频的综合向量;对所有所述待处理视频的所述综合向量进行聚类,以确定各所述待处理视频的分类结果。
在本公开的一种示例性实施例中,对所述关键帧进行过滤得到预设关键帧包括:计算所述关键帧中包含的图像的对比度以及亮度,并根据所述对比度和/或亮度对所述关键帧进行过滤,以得到所述预设关键帧。
在本公开的一种示例性实施例中,根据所述预设关键帧确定预设人脸信息包括:通过人脸检测算法从所述预设关键帧中提取人脸信息;根据人脸分数对所述人脸信息进行筛选,得到所述预设人脸信息。
在本公开的一种示例性实施例中,对所述预设人脸信息对应的向量进行聚类,得到各所述待处理视频的综合向量包括:将所述预设人脸信息输入一人脸识别模型,以得到所述预设人脸信息对应的所述预设关键帧的向量;对各所述待处理视频对应的所述向量进行聚类,以得到各所述待处理视频对应的至少一个第一类型簇;将各所述第一类型簇分别进行融合,以得到各所述待处理视频的所述综合向量。
在本公开的一种示例性实施例中,将各所述第一类型簇分别进行融合,以得到各所述待处理视频的所述综合向量包括:计算各所述第一类型簇内包含的预设关键帧的向量的平均值,并将所述平均值作为各所述待处理视频对应的各所述第一类型簇的所述综合向量。
在本公开的一种示例性实施例中,对所有所述待处理视频的所述综合向量进行聚类,以确定各所述待处理视频的分类结果包括:利用基于密度的聚类算法对所有所述待处理视频的所述综合向量进行聚类,以得到多个第二类型簇;根据所述多个第二类型簇确定各所述待处理视频所属的类别;其中,所述第二类型簇与所述待处理视频所属的类别一一对应。
在本公开的一种示例性实施例中,所述方法还包括:若所述综合向量未聚类至所述第二类型簇中,则不对所述待处理视频进行分类。
根据本公开的一个方面,提供一种视频分类装置,包括:关键帧过滤模块,用于获取每个待处理视频的关键帧,并对所述关键帧进行过滤得到预设关键帧;第一聚类模块,用于根据所述预设关键帧确定预设人脸信息,并对所述预设人脸信息对应的向量进行聚类,得到各所述待处理视频的综合向量;第二聚类模块,用于对所有所述待处理视频的所述综合向量进行聚类,以确定各所述待处理视频的分类结果。
根据本公开的一个方面,提供一种电子设备,包括:处理器;以及存储器,用于存储所述处理器的可执行指令;其中,所述处理器配置为经由执行所述可执行指令来执行上述任意一项所述的视频分类方法。
根据本公开的一个方面,提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任意一项所述的视频分类方法。
本示例性实施例提供的视频分类方法、装置、电子设备及计算机可读存储介质中,获取每个待处理视频的预设关键帧;根据预设关键帧确定预设人脸信息,并对所述预设人脸信息的关键帧向量进行聚类,以得到各个待处理视频的综合向量;对所述综合向量进行聚类,以确定各个待处理视频的分类结果。一方面,通过对每个待处理视频的预设人脸信息对应的向量进行聚类,能够得到准确描述待处理视频的综合向量,进而通过对所有综合向量进行聚类,能够快速根据聚类结果对待处理视频进行分类,在视频数量较多时,能够提高操作效率和操作准确性。另一方面,通过对所有待处理视频的综合向量进行再次聚类融合,避免了相关技术中需要人工设定聚类数量和阈值的操作,减少了操作步骤以及计算量,并且提高了分类的准确性。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示意性示出本公开示例性实施例中视频分类方法的示意图。
图2示意性示出本公开示例性实施例中确定预设人脸信息的流程图。
图3示意性示出本公开示例性实施例中计算综合向量的示意图。
图4示意性示出本公开示例性实施例中确定待处理视频的分类结果的流程图。
图5示意性示出本公开示例性实施例中视频分类的整体流程图。
图6示意性示出本公开示例性实施例中视频分类装置的框图。
图7示意性示出本公开示例性实施例中的电子设备的示意图。
具体实施方式
现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施方式使得本公开将更加全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。在下面的描述中,提供许多具体细节从而给出对本公开的实施方式的充分理解。然而,本领域技术人员将意识到,可以实践本公开的技术方案而省略所述特定细节中的一个或更多,或者可以采用其它的方法、组元、装置、步骤等。在其它情况下,不详细示出或描述公知技术方案以避免喧宾夺主而使得本公开的各方面变得模糊。
此外,附图仅为本公开的示意性图解,并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分,因而将省略对它们的重复描述。附图中所示的一些方框图是功能实体,不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
本示例性实施例中,首先提供了一种视频分类方法,该视频分类方法可以应用于对照片、视频或者是图片进行分类的任何场景。接下来,参考图1所示,对本示例性实施例中的视频分类方法进行详细说明。
在步骤S110中,获取每个待处理视频的关键帧,并对所述关键帧进行过滤得到预设关键帧;
在步骤S120中,根据所述预设关键帧确定预设人脸信息,并对所述预设人脸信息对应的向量进行聚类,得到各所述待处理视频的综合向量;
在步骤S130中,对所有所述待处理视频的所述综合向量进行聚类,以确定各所述待处理视频的分类结果。
本示例性实施例提供的视频分类方法,一方面,通过对每个待处理视频的预设人脸信息对应的向量进行聚类,能够得到准确描述待处理视频的综合向量,进而通过对所有综合向量进行聚类,能够快速根据聚类结果对待处理视频进行分类,在视频数量较多时,能够提高操作效率和操作准确性。另一方面,通过对所有待处理视频的综合向量进行再次聚类融合,避免了相关技术中需要人工设定聚类数量和阈值的操作,减少了操作步骤以及计算量,并且提高了分类的准确性。
接下来,结合附图对本示例性实施例中的视频分类方法进行详细说明。
在步骤S110中,获取每个待处理视频的关键帧,并对所述关键帧进行过滤得到预设关键帧。
本示例性实施例中,待处理视频可以包括终端中某个文件夹存储的视频,或者是某些信息交互平台中上传和存储的视频。待处理视频的数量可以为多个,且待处理视频可以包括使用终端拍摄的视频、从网络下载的视频以及应用程序中缓存的视频或图片等等。除此之外,待处理视频还可以包括待处理的图片,此处不作特殊限定。
关键帧指角色或者物体运动或变化中的关键动作所处的那一帧。由于待处理视频的连续帧间存在的差异不大,因此本示例性实施例中不需要再将待处理视频的每一帧信息都作为后续处理过程的输入。为了选取待处理视频的部分帧进行处理,可对待处理视频进行采样。采样指的是将待处理视频做为样本量在时间域上进行间隔取样的过程。不同的采样率对应的采样结果稀疏程度不同,举例而言,可对待处理视频进行稀疏采样得到多个关键帧,还可以对待处理视频进行随机采样,此处不作特殊限定。通过对待处理视频进行采样得到关键帧,减少了计算量。
在得到每个待处理视频的关键帧之后,可对关键帧进行过滤得到预设关键帧。此处的预设关键帧包括满足预设条件的关键帧,预设条件可根据关键帧中每帧图像的质量来确定。基于此,对所述关键帧进行过滤得到预设关键帧可以包括:根据关键帧中图像的参数来进行过滤,参数例如可以为关键帧中图像的亮度、对比度、清晰度等等。具体而言,在本示例性实施例中,筛选预设关键帧的步骤可以包括:计算所述关键帧中包含的图像的对比度及亮度,并根据所述对比度和/或亮度对所述关键帧进行过滤,以得到所述预设关键帧。在本步骤中,可通过opencv计算每个关键帧对应的图像的对比度及亮度。另外可以事先设置一个对比度阈值和亮度阈值,以通过对比度阈值和亮度阈值来筛选图像,其中亮度阈值例如可以设置为50,对比度阈值例如可以设置为70至80之间。接下来可将每个关键帧的图像的对比度与对比度阈值进行对比,并将每个关键帧的图像的亮度与亮度阈值进行对比,以去除质量较差的关键帧对应的图像。本示例性实施例中,可以只根据对比度筛选,也可以只根据亮度筛选,还可以同时根据对比度和亮度筛选。在此基础上,可将不满足对比度阈值和/或亮度阈值的关键帧过滤掉,并将剩余的关键帧作为预设关键帧。本示例性实施例中,通过采用对比度和/或亮度对关键帧进行过滤,能够避免每个待处理视频中图像质量不好的关键帧的干扰,减少要处理的关键帧的数量,减少计算量,提高处理效率。
继续参考图1所示,在步骤S120中,根据所述预设关键帧确定预设人脸信息,并对所述预设人脸信息对应的向量进行聚类,得到各所述待处理视频的综合向量。
本示例性实施例中,预设人脸信息用于表示筛选后的人脸信息的特征。人脸信息指的是用于描述人脸特征以及对人脸进行初步定位的信息,可以包括人脸的具体坐标位置。由于某些预设关键帧中的图像可能存在遮挡或者是不清楚等质量不高的情况,因此可对提取到的人脸信息进行筛选,以得到预设人脸信息。
图2中示意性示出了根据所述预设关键帧确定预设人脸信息的示意图,参考图2中所示,具体包括以下步骤S210和步骤S220,其中:
在步骤S210中,通过人脸检测算法从所述预设关键帧中提取人脸信息。
本步骤中,人脸检测的目标是找出图像中所有的人脸对应的位置,算法的输出是人脸外接矩形在图像中的坐标,可能还包括姿态如倾斜角度等信息。人脸检测算法可以包括但不限于基于统计的方法、基于结构特征的方法,其中,基于统计的方法可以为适合复杂背景下的基于直方图粗分割和奇异值特征的人脸检测算法以及基于二进小波变换的人脸检测中的任意一种;基于结构特征的方法可以为基于AdaBoost算法的人脸检测以及基于面部双眼结构特征的人脸检测中的任意一种。
使用人脸检测算法对筛选的预设关键帧进行处理,可直接得到每个预设关键帧中包含的所有人脸信息。使用人脸检测算法的具体过程可以包括:用大量的人脸和非人脸样本图像进行训练,得到一个解决2类分类问题的分类器,也称为人脸检测模型。这个分类器接受固定大小的输入图片,判断这个输入图片是否为人脸,即判断预设关键帧中的图像是否存在人脸信息。
在步骤S220中,根据人脸分数对所述人脸信息进行筛选,得到所述预设人脸信息。
本步骤中,人脸分数指的是对用于对提取出的人脸信息的质量进行评价的值,具体可以用1至100之间的任意数值来表示,人脸分数越大表示人脸信息的质量越高。为了保证后续处理过程的准确性,此处可根据人脸分数对预设关键帧的所有人脸信息进行筛选过滤,以筛选出质量较好的预设人脸信息,从而减少质量不好的人脸信息造成的干扰和资源浪费。具体地,可事先设置一个人脸分数阈值,例如60,当预设关键帧的人脸信息的人脸分数不满足人脸分数阈值时,可过滤掉该人脸信息。举例而言,预设关键帧的人脸信息1的人脸分数为50,则可过滤掉该人脸信息1。通过这种方式可以对每一个预设关键帧的人脸信息进行筛选,直至对所有预设关键帧完成过滤为止,以得到预设人脸信息。
在得到预设人脸信息之后,可对所述预设人脸信息对应的向量进行聚类,得到各所述待处理视频的综合向量。图3中示意性示出了得到各个待处理视频的综合向量的示意图,参考图3中所示,主要包括步骤S310、步骤S320以及步骤S330,其中:
在步骤S310中,将所述预设人脸信息输入一人脸识别模型,以得到所述预设人脸信息对应的所述预设关键帧的向量。
本步骤中,在对向量进行聚类之前,首先可提取预设人脸信息对应的向量。本示例性实施例中,可将筛选后的预设人脸信息输入人脸识别模型,从而得到向量。人脸识别模型可以为任意合适的机器学习模型,例如可以包括但不限于卷积神经网络模型、基于FaceNet的解特征网络等等,此处以基于FaceNet的解特征网络为例进行说明。具体地,对待处理视频进行系数采样之后,使用人脸对齐、人脸检测等方法对待处理视频中的人脸进行特征提取。对于提取出来的特征,经由卷积神经网络解码后得到128维向量。通过人脸识别模型,能够快速得到准确用于描述预设人脸信息的向量,以提高处理准确率。
举例而言,将预设人脸信息1输入基于FaceNet的解特征网络,经由卷积神经网络解码后得到对应于预设人脸信息1的128维向量1。需要说明的是,此处可以将每一个待处理视频的预设关键帧的预设人脸信息输入基于FaceNet的解特征网络,得到每一个待处理视频对应的多帧128维向量,即单个视频会对应多帧向量。
在步骤S320中,对各所述待处理视频对应的所述向量进行聚类,以得到各所述待处理视频对应的至少一个第一类型簇。
本步骤中,第一类型簇指的是对每一个待处理视频的多帧向量进行聚类得到的聚类结果。在步骤S310的基础上,每一个待处理视频均会得到多帧128维向量。针对每个待处理视频的预设关键帧对应的向量,可以使用聚类算法进行聚类处理,以剔除明显离散的向量。如此一来,每个待处理视频可以对应一个或多个第一类型簇。其中,聚类算法可以为K-Means聚类、均值漂移聚类、基于密度的聚类方法(DBSCAN)、用高斯混合模型(GMM)的最大期望(EM)聚类、凝聚层次聚类中的任意一种。
具体聚类过程可以包括以下步骤:步骤一、确定扫描半径r和最小包含点数minPoints。从一个没有被访问过的任意数据点开始,以这个点为中心,r为半径的圆内包含的点的数量是否大于或等于最小包含点数,如果大于或等于最小包含点数则该点被标记为核心对象,反之则会被标记为噪声点。步骤二、重复上述的步骤一,如果一个噪声点存在于某个核心对象为半径的圆内,则这个点被标记为边缘点,反之仍为噪声点。步骤三、重复步骤一,直至所有的点都被访问过。
举例而言,本示例性实施例中,针对单个待处理视频(例如待处理视频1)对应的预设关键帧的128维向量,可使用DBSCAN算法进行聚类,剔除明显离散的向量,待处理视频1可得到对应一个或多个第一类型簇。需要说明的是,通过DBSCAN算法可以对每一个待处理视频的预设关键帧的向量进行聚类,以得到每一个待处理视频的一个或多个第一类型簇。
在步骤S330中,将各所述第一类型簇分别进行融合,以得到各所述待处理视频的所述综合向量。
本步骤中,在得到每个待处理视频对应的多个第一类型簇之后,可以对每个第一类型簇进行融合处理。融合处理的具体过程可以包括:计算各所述第一类型簇内包含的预设关键帧的向量的平均值,并将所述平均值作为各所述待处理视频对应的各所述第一类型簇的所述综合向量。也就是说,每个第一类型簇中可包括多个预设关键帧,每个预设关键帧分别对应一个或多个向量。可将每个第一类型簇中所有预设关键帧的向量进行平均处理,从而得到每个第一类型簇内包含的预设关键帧的向量的平均值。进一步地,可将得到的每个第一类型簇的平均值最终作为待处理视频对应的每个第一类型簇的综合向量,即每个第一类型簇可以用一个综合向量来表示。例如,待处理视频1包括第一类型簇1和第一类型簇2,其中,第一类型簇1对应的预设关键帧的向量分别包括向量1、向量2、向量3,则可将向量1、向量2、向量3做平均处理得到向量4,进而将向量4作为第一类型簇1的综合向量。通过将平均值作为每个第一类型簇的综合向量,能够将每个第一类型簇的多个向量融合为一个综合向量,减少了计算量,提高计算的速度。
举例而言,对每个第一类型簇进行融合,计算该第一类型簇内多个预设关键帧的平均值,根据每个第一类型簇得到一个128维的综合向量。每一个待处理视频有一个或多个第一类型簇,因此每一个待处理视频对应1个或多个128维向量,作为后续分类过程的输入。
继续参考图1中所示,在步骤S130中,对所有所述待处理视频的所述综合向量进行聚类,以确定各所述待处理视频的分类结果。
本示例性实施例中,分类结果用于表示待处理视频所属的类别,所属的类别例如可以为儿童、成人等等;也可以为某一个具体的对象,即待处理视频属于人物1、人物2、人物3等等。在步骤S120的基础上,得到所有待处理视频的综合向量后,可对所有待处理视频的综合向量进行聚类,从而确定待处理视频所属的类别。图4中示意性示出了确定待处理视频的分类结果的示意图,参考图4中所示,主要包括步骤S410和步骤S420,其中:
在步骤S410中,利用基于密度的聚类算法对所有所述待处理视频的所述综合向量进行聚类,以得到多个第二类型簇。
本步骤中,第二类型簇指的是对所有待处理视频的综合向量进行聚类得到的聚类结果。聚类算法可以为任意合适的聚类算法,本示例性实施例中以基于密度的聚类算法为例进行说明。基于密度的聚类算法可以为HDBSCAN聚类算法,基于此,可以利用HDBSCAN聚类算法来对所有待处理视频的综合向量进行聚类处理,以得到多个第二类型簇。具体的聚类过程可以包括:根据密度/稀疏度变换空间、构建距离加权图的最小生成树、构建集群层次结构、根据最小簇大小压缩集群层次结构以及从压缩树中提取稳定群集。通过上述步骤,可利用HDBSCAN聚类算法处理密度不同的聚类问题。
举例而言,可基于HDBSCAN聚类算法将所有待处理视频的所有综合向量,例如综合向量1、综合向量2、综合向量3、综合向量4以及综合向量5进行聚类,得到第二类型簇,第二类型簇例如可以包括簇1(综合向量1和综合向量3)、簇2(综合向量2和综合向量4)。
在步骤S420中,根据所述多个第二类型簇确定各所述待处理视频所属的类别。
本步骤中,多个第二类型簇可能并不能包含所有的待处理视频对应的综合向量,即多个第二类型簇中包含的只是部分待处理视频的综合向量,且每个第二类型簇中包含的待处理视频的数量可以相同,也可以不同,此处不作特殊限定。其中,所述第二类型簇与所述待处理视频所属的类别一一对应,也就是说,有多少个第二类型簇,则待处理视频有多少个类别。其中,每一个第二类型簇中包含的待处理视频属于同一个类别,即属于同一个人物,且每一个第二类型簇中包含该人物相关的所有待处理视频。举例而言,第二类型簇1属于人物1、第二类型簇2属于人物3等等。
本示例性实施例中,对于所有待处理视频的所有综合向量,使用HDBSCAN聚类算法进行聚类,得到多个第二类型簇,且每一个第二类型簇可视作一个人物的分类,该第二类型簇中的综合向量所代表的待处理视频为该人物相关的所有视频。通过先对每个待处理视频的向量进行DBSCAN聚类并融合,抛弃离群点,最后对保留的向量进行HDBSCAN聚类并得到属于每个人物的相册。采用聚类算法对海量待处理视频的特征进行实时聚类,提高了处理速度。同时HDBSCAN属于基于密度的聚类算法,其不需要人工设定聚类数量,对于终端上(例如用户手机相册)这种不可预知的情形,具有良好的适应能力。另外,避免了需要手动设置阈值来控制分类以及对手动调参要求较大的问题,提高了分类准确率。
除此之外,对所述综合向量进行聚类,以确定各所述待处理视频的分类结果还可以包括以下情况:若所述综合向量未聚类至第二类型簇中,则不对所述待处理视频进行分类。举例而言,可基于HDBSCAN聚类算法将所有待处理视频的综合向量1、综合向量2、综合向量3、综合向量4以及综合向量5进行聚类,得到第二类型簇包括簇1(综合向量1和综合向量3)、簇2(综合向量2和综合向量4),其中综合向量5不属于任何一个第二类型簇,因此可以将未被聚到第二类型簇中的向量视作离散向量,并且不对综合向量5对应的待处理视频进行分类。在这种情况下,通过对未聚类至第二类型簇的综合向量不进行任何分类,可以避免误操作,提高分类的精准度。
图5中示意性示出了视频分类的整体流程图,参考图5中所示,主要包括以下步骤:
在步骤S501中,对待处理视频进行切帧。具体可以采用稀疏采样的方法对每个待处理视频进行分帧得到关键帧。
在步骤S502中,确定待处理视频的质量。计算关键帧中包含的图像的对比度及亮度,并根据对比度和/或亮度对关键帧进行过滤,以得到过滤后的预设关键帧。
在步骤S503中,人脸检测。使用人脸检测算法对预设关键帧进行检测,得到人脸信息。
在步骤S504中,提取特征。从人脸信息中提取128维的向量。
在步骤S505中,HDBSCAN聚类,对每个待处理视频的128维向量进行聚类,得到多个簇;进一步得到每个簇的综合向量;对所有待处理视频的所有簇的综合向量进行聚类。
在步骤S506中,得到个人相册分类结果。根据步骤S550中的聚类结果得到个人相册分类结果。
图5中的步骤,采用聚类算法对海量待处理视频的特征进行实时聚类,提高了处理速度。同时HDBSCAN属于基于密度的聚类算法,其不需要人工设定聚类数量,对于终端上的情况具有良好的适应能力,并且不会出现误操作,提高了分类准确率。
本示例性实施例中,还提供了一种视频分类装置,参考图6所示,该装置600可以包括:
关键帧过滤模块601,用于获取每个待处理视频的关键帧,并对所述关键帧进行过滤得到预设关键帧;
第一聚类模块602,用于根据所述预设关键帧确定预设人脸信息,并对所述预设人脸信息对应的向量进行聚类,得到各所述待处理视频的综合向量;
第二聚类模块603,用于对所有所述待处理视频的所述综合向量进行聚类,以确定各所述待处理视频的分类结果。
在本公开的一种示例性实施例中,关键帧过滤模块包括:过滤控制模块,用于计算所述关键帧中包含的图像的对比度以及亮度,并根据所述对比度和/或亮度对所述关键帧进行过滤,以得到所述预设关键帧。
在本公开的一种示例性实施例中,第一聚类模块包括:人脸信息提取模块,用于通过人脸检测算法从所述预设关键帧中提取人脸信息;人脸信息筛选模块,用于根据人脸分数对所述人脸信息进行筛选,得到所述预设人脸信息。
在本公开的一种示例性实施例中,第一聚类模块包括:向量提取模块,用于将所述预设人脸信息输入一人脸识别模型,以得到所述预设人脸信息对应的所述预设关键帧的向量;第一聚类控制模块,用于对各所述待处理视频对应的所述向量进行聚类,以得到各所述待处理视频对应的至少一个第一类型簇;融合模块,用于将各所述第一类型簇分别进行融合,以得到各所述待处理视频的所述综合向量。
在本公开的一种示例性实施例中,所述融合模块配置为:计算各所述第一类型簇内包含的预设关键帧的向量的平均值,并将所述平均值作为各所述待处理视频对应的各所述第一类型簇的所述综合向量。
在本公开的一种示例性实施例中,第二聚类模块包括:第二聚类控制模块,用于利用基于密度的聚类算法对所有所述待处理视频的所述综合向量进行聚类,以得到多个第二类型簇;分类模块,用于根据所述多个第二类型簇确定各所述待处理视频所属的类别;其中,所述第二类型簇与所述待处理视频所属的类别一一对应。
在本公开的一种示例性实施例中,所述装置还包括:分类停止模块,用于若所述综合向量未聚类至所述第二类型簇中,则不对所述待处理视频进行分类。
需要说明的是,上述视频分类装置中各模块的具体细节已经在对应的方法中进行了详细阐述,因此此处不再赘述。
应当注意,尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元,但是这种划分并非强制性的。实际上,根据本公开的实施方式,上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之,上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。
此外,尽管在附图中以特定顺序描述了本公开中方法的各个步骤,但是,这并非要求或者暗示必须按照该特定顺序来执行这些步骤,或是必须执行全部所示的步骤才能实现期望的结果。附加的或备选的,可以省略某些步骤,将多个步骤合并为一个步骤执行,以及/或者将一个步骤分解为多个步骤执行等。
在本公开的示例性实施例中,还提供了一种能够实现上述方法的电子设备。
所属技术领域的技术人员能够理解,本发明的各个方面可以实现为系统、方法或程序产品。因此,本发明的各个方面可以具体实现为以下形式,即:完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等),或硬件和软件方面结合的实施方式,这里可以统称为“电路”、“模块”或“系统”。
下面参照图7来描述根据本发明的这种实施方式的电子设备700。图7显示的电子设备700仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图7所示,电子设备700以通用计算设备的形式表现。电子设备700的组件可以包括但不限于:上述至少一个处理单元710、上述至少一个存储单元720、连接不同系统组件(包括存储单元720和处理单元710)的总线730。
其中,所述存储单元存储有程序代码,所述程序代码可以被所述处理单元710执行,使得所述处理单元710执行本说明书上述“示例性方法”部分中描述的根据本发明各种示例性实施方式的步骤。例如,所述处理单元710可以执行如图1中所示的步骤。
存储单元720可以包括易失性存储单元形式的可读介质,例如随机存取存储单元(RAM)7201和/或高速缓存存储单元7202,还可以进一步包括只读存储单元(ROM)7203。
存储单元720还可以包括具有一组(至少一个)程序模块7205的程序/实用工具7204,这样的程序模块7205包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
总线730可以为表示几类总线结构中的一种或多种,包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。
显示单元740可以为具有显示功能的显示器,以通过该显示器展示由处理单元710执行本示例性实施例中的方法而得到的处理结果。显示器包括但不限于液晶显示器或者是其它显示器。
电子设备700也可以与一个或多个外部设备800(例如键盘、指向设备、蓝牙设备等)通信,还可与一个或者多个使得用户能与该电子设备700交互的设备通信,和/或与使得该电子设备700能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口750进行。并且,电子设备700还可以通过网络适配器760与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器760通过总线730与电子设备700的其它模块通信。应当明白,尽管图中未示出,可以结合电子设备700使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
通过以上的实施方式的描述,本领域的技术人员易于理解,这里描述的示例实施方式可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本公开实施方式的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、终端装置、或者网络设备等)执行根据本公开实施方式的方法。
在本公开的示例性实施例中,还提供了一种计算机可读存储介质,其上存储有能够实现本说明书上述方法的程序产品。在一些可能的实施方式中,本发明的各个方面还可以实现为一种程序产品的形式,其包括程序代码,当所述程序产品在终端设备上运行时,所述程序代码用于使所述终端设备执行本说明书上述“示例性方法”部分中描述的根据本发明各种示例性实施方式的步骤。
根据本发明的实施方式的用于实现上述方法的程序产品,其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码,并可以在终端设备,例如个人电脑上运行。然而,本发明的程序产品不限于此,在本文件中,可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、有线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络,包括局域网(LAN)或广域网(WAN),连接到用户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
此外,上述附图仅是根据本发明示例性实施例的方法所包括的处理的示意性说明,而不是限制目的。易于理解,上述附图所示的处理并不表明或限制这些处理的时间顺序。另外,也易于理解,这些处理可以是例如在多个模块中同步或异步执行的。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其他实施例。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由权利要求指出。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限。

Claims (7)

1.一种视频分类方法,其特征在于,包括:
获取每个待处理视频的关键帧,并对所述关键帧进行过滤得到预设关键帧;
根据所述预设关键帧确定预设人脸信息,将所述预设人脸信息输入一人脸识别模型以得到所述预设人脸信息对应的所述预设关键帧的向量,对各所述待处理视频对应的所述向量进行聚类以得到各所述待处理视频对应的至少一个第一类型簇,并计算各所述第一类型簇内包含的预设关键帧的向量的平均值,将所述平均值作为各所述待处理视频对应的各所述第一类型簇的所述综合向量以确定各所述待处理视频的综合向量;
利用基于密度的聚类算法对所有所述待处理视频的所述综合向量进行聚类以得到多个第二类型簇,并根据所述多个第二类型簇确定各所述待处理视频所属的类别;其中,所述第二类型簇与所述待处理视频所属的类别一一对应。
2.根据权利要求1所述的视频分类方法,其特征在于,对所述关键帧进行过滤得到预设关键帧包括:
计算所述关键帧中包含的图像的对比度以及亮度,并根据所述对比度和/或亮度对所述关键帧进行过滤,以得到所述预设关键帧。
3.根据权利要求1所述的视频分类方法,其特征在于,根据所述预设关键帧确定预设人脸信息包括:
通过人脸检测算法从所述预设关键帧中提取人脸信息;
根据人脸分数对所述人脸信息进行筛选,得到所述预设人脸信息。
4.根据权利要求1所述的视频分类方法,其特征在于,所述方法还包括:
若所述综合向量未聚类至所述第二类型簇中,则不对所述待处理视频进行分类。
5.一种视频分类装置,其特征在于,包括:
关键帧过滤模块,用于获取每个待处理视频的关键帧,并对所述关键帧进行过滤得到预设关键帧;
第一聚类模块,用于根据所述预设关键帧确定预设人脸信息,将所述预设人脸信息输入一人脸识别模型以得到所述预设人脸信息对应的所述预设关键帧的向量,对各所述待处理视频对应的所述向量进行聚类以得到各所述待处理视频对应的至少一个第一类型簇,并计算各所述第一类型簇内包含的预设关键帧的向量的平均值,将所述平均值作为各所述待处理视频对应的各所述第一类型簇的所述综合向量以确定各所述待处理视频的综合向量;
第二聚类模块,用于利用基于密度的聚类算法对所有所述待处理视频的所述综合向量进行聚类以得到多个第二类型簇,并根据所述多个第二类型簇确定各所述待处理视频所属的类别;其中,所述第二类型簇与所述待处理视频所属的类别一一对应。
6.一种电子设备,其特征在于,包括:
处理器;以及
存储器,用于存储所述处理器的可执行指令;
其中,所述处理器配置为经由执行所述可执行指令来执行权利要求1-4任意一项所述的视频分类方法。
7.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1-4任意一项所述的视频分类方法。
CN201910561406.XA 2019-06-26 2019-06-26 视频分类方法、装置、电子设备及存储介质 Active CN110334753B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910561406.XA CN110334753B (zh) 2019-06-26 2019-06-26 视频分类方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910561406.XA CN110334753B (zh) 2019-06-26 2019-06-26 视频分类方法、装置、电子设备及存储介质

Publications (2)

Publication Number Publication Date
CN110334753A CN110334753A (zh) 2019-10-15
CN110334753B true CN110334753B (zh) 2023-04-07

Family

ID=68142657

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910561406.XA Active CN110334753B (zh) 2019-06-26 2019-06-26 视频分类方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN110334753B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110826616B (zh) * 2019-10-31 2023-06-30 Oppo广东移动通信有限公司 信息处理方法及装置、电子设备、存储介质
CN111242019B (zh) * 2020-01-10 2023-11-14 腾讯科技(深圳)有限公司 视频内容的检测方法、装置、电子设备以及存储介质
CN111488490B (zh) * 2020-03-31 2024-08-02 北京奇艺世纪科技有限公司 视频聚类方法、装置、服务器及存储介质
CN111832551A (zh) * 2020-07-15 2020-10-27 网易有道信息技术(北京)有限公司 文本图像处理方法、装置、电子扫描设备和存储介质
CN113269205A (zh) * 2021-05-18 2021-08-17 联仁健康医疗大数据科技股份有限公司 视频关键帧提取方法、装置、电子设备及存储介质
CN115100725B (zh) * 2022-08-23 2022-11-22 浙江大华技术股份有限公司 目标识别方法、目标识别装置以及计算机存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101604325A (zh) * 2009-07-17 2009-12-16 北京邮电大学 基于主场景镜头关键帧的体育视频分类方法
CN105426515A (zh) * 2015-12-01 2016-03-23 小米科技有限责任公司 视频归类方法及装置
CN109151501A (zh) * 2018-10-09 2019-01-04 北京周同科技有限公司 一种视频关键帧提取方法、装置、终端设备及存储介质
CN109862391A (zh) * 2019-03-18 2019-06-07 网易(杭州)网络有限公司 视频分类方法、介质、装置和计算设备

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101604325A (zh) * 2009-07-17 2009-12-16 北京邮电大学 基于主场景镜头关键帧的体育视频分类方法
CN105426515A (zh) * 2015-12-01 2016-03-23 小米科技有限责任公司 视频归类方法及装置
CN109151501A (zh) * 2018-10-09 2019-01-04 北京周同科技有限公司 一种视频关键帧提取方法、装置、终端设备及存储介质
CN109862391A (zh) * 2019-03-18 2019-06-07 网易(杭州)网络有限公司 视频分类方法、介质、装置和计算设备

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于异构信息双向传播的网络视频分类方法;李谦等;《计算机应用》;20130801(第08期);全文 *

Also Published As

Publication number Publication date
CN110334753A (zh) 2019-10-15

Similar Documents

Publication Publication Date Title
CN110334753B (zh) 视频分类方法、装置、电子设备及存储介质
US9785865B2 (en) Multi-stage image classification
Cheng et al. Efficient salient region detection with soft image abstraction
JP2022528294A (ja) 深度を利用した映像背景減算法
US8358837B2 (en) Apparatus and methods for detecting adult videos
CN111026914B (zh) 视频摘要模型的训练方法、视频摘要生成方法及装置
US10986400B2 (en) Compact video representation for video event retrieval and recognition
CN112954450B (zh) 视频处理方法、装置、电子设备和存储介质
WO2022089170A1 (zh) 字幕区域识别方法、装置、设备及存储介质
CN110533046B (zh) 一种图像实例分割方法、装置、计算机可读存储介质及电子设备
CN111199541A (zh) 图像质量评价方法、装置、电子设备及存储介质
CN113766330A (zh) 基于视频生成推荐信息的方法和装置
CN113205047A (zh) 药名识别方法、装置、计算机设备和存储介质
WO2023045635A1 (zh) 多媒体文件的字幕处理方法、装置、电子设备、计算机可读存储介质及计算机程序产品
CN112383824A (zh) 视频广告过滤方法、设备及存储介质
CN118015644B (zh) 基于图片和文字的社交媒体关键词数据分析方法及装置
CN114898266A (zh) 训练方法、图像处理方法、装置、电子设备以及存储介质
CN115578739A (zh) 结合rpa和ai实现ia的分类模型的训练方法及装置
CN111274447A (zh) 基于视频的目标表情生成方法、装置、介质、电子设备
CN117689884A (zh) 一种医学图像分割模型的生成方法及医学图像的分割方法
CN117011533A (zh) 一种噪声图像识别方法以及相关设备
CN111091056A (zh) 图像中的墨镜识别方法及装置、电子设备、存储介质
CN113553877B (zh) 深度手势识别方法及其系统和电子设备
CN111818364B (zh) 视频融合方法、系统、设备及介质
CN114666503A (zh) 拍照方法及装置、存储介质、电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant