CN116168316A

CN116168316A - 视频处理及视频内容查找方法、装置、电子设备及介质

Info

Publication number: CN116168316A
Application number: CN202211585941.7A
Authority: CN
Inventors: 王政; 曹自标
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2022-12-09
Filing date: 2022-12-09
Publication date: 2023-05-26

Abstract

本公开提供了视频处理及视频内容查找方法、装置、电子设备及介质，涉及计算机视觉、大数据处理、图像处理以及数据库等人工智能领域，可应用于媒资检索以及人脸翻库等场景。其中的视频处理方法可包括：对媒资库中的视频进行场景切分，对切分得到的场景片段进行人物追踪，得到人物追踪结果；根据对应于同一视频的人物追踪结果，进行同一视频内部的人脸聚类；根据视频内部的人脸聚类结果，进行不同视频间的人脸聚类，用于根据不同视频间的人脸聚类结果确定出媒资库中的视频中与目标人脸相匹配的视频内容，目标人脸为待查找的人脸图片中的人脸。应用本公开所述方案，可提升查找效率及提升查找结果的准确性等。

Description

视频处理及视频内容查找方法、装置、电子设备及介质

技术领域

本公开涉及人工智能技术领域，特别涉及计算机视觉、大数据处理、图像处理以及数据库等领域的视频处理及视频内容查找方法、装置、电子设备及介质。

背景技术

在实际应用中，经常会遇到以下情况：媒资库中的某个人物突然成为负面人物或热门人物，相应地，需要从海量的已入库的视频媒资中查找出与该人物相关/相匹配的视频内容，以便修改所述视频内容对应的历史分析的标签信息等。但目前的查找方式的实现复杂度通常都较高，从而导致查找效率低下。

发明内容

本公开提供了视频处理及视频内容查找方法、装置、电子设备及介质。

一种视频处理方法，包括：

对媒资库中的视频进行场景切分，对切分得到的场景片段进行人物追踪，得到人物追踪结果；

根据对应于同一视频的人物追踪结果，进行同一视频内部的人脸聚类；

根据视频内部的人脸聚类结果，进行不同视频间的人脸聚类，用于根据不同视频间的人脸聚类结果确定出所述媒资库中的视频中与目标人脸相匹配的视频内容，所述目标人脸为待查找的人脸图片中的人脸。

一种视频内容查找方法，包括：

获取待查找的人脸图片，将所述人脸图片中的人脸确定为目标人脸；

根据不同视频间的人脸聚类结果，确定出媒资库中的视频中与所述目标人脸相匹配的视频内容；其中，所述不同视频间的人脸聚类结果为根据视频内部的人脸聚类结果进行不同视频间的人脸聚类后得到的，所述视频内部的人脸聚类结果为根据对应于同一视频的人物追踪结果进行同一视频内部的人脸聚类后得到的，所述人物追踪结果为对所述媒资库中的视频进行场景切分并对切分得到的场景片段进行人物追踪后得到的。

一种视频处理装置，包括：切分追踪模块、第一聚类模块以及第二聚类模块；

所述切分追踪模块，用于对媒资库中的视频进行场景切分，对切分得到的场景片段进行人物追踪，得到人物追踪结果；

所述第一聚类模块，用于根据对应于同一视频的人物追踪结果，进行同一视频内部的人脸聚类；

所述第二聚类模块，用于根据视频内部的人脸聚类结果，进行不同视频间的人脸聚类，用于根据不同视频间的人脸聚类结果确定出所述媒资库中的视频中与目标人脸相匹配的视频内容，所述目标人脸为待查找的人脸图片中的人脸。

一种视频内容查找装置，包括：图片获取模块以及内容查找模块；

所述图片获取模块，用于获取待查找的人脸图片，将所述人脸图片中的人脸确定为目标人脸；

所述内容查找模块，用于根据不同视频间的人脸聚类结果，确定出媒资库中的视频中与所述目标人脸相匹配的视频内容；其中，所述不同视频间的人脸聚类结果为根据视频内部的人脸聚类结果进行不同视频间的人脸聚类后得到的，所述视频内部的人脸聚类结果为根据对应于同一视频的人物追踪结果进行同一视频内部的人脸聚类后得到的，所述人物追踪结果为对所述媒资库中的视频进行场景切分并对切分得到的场景片段进行人物追踪后得到的。

一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如以上所述的方法。

一种存储有计算机指令的非瞬时计算机可读存储介质，所述计算机指令用于使计算机执行如以上所述的方法。

一种计算机程序产品，包括计算机程序/指令，所述计算机程序/指令被处理器执行时实现如以上所述的方法。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1为本公开所述视频处理方法实施例的流程图；

图2为本公开所述针对某一视频进行场景切分以及进行视频内部的人脸聚类的过程示意图；

图3为本公开所述视频内容查找方法实施例的流程图；

图4为本公开所述视频处理装置实施例400的组成结构示意图；

图5为本公开所述视频内容查找装置实施例500的组成结构示意图；

图6示出了可以用来实施本公开的实施例的电子设备600的示意性框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

另外，应理解，本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。

图1为本公开所述视频处理方法实施例的流程图。如图1所示，包括以下具体实现方式。

在步骤101中，对媒资库中的视频进行场景切分，对切分得到的场景片段进行人物追踪，得到人物追踪结果。

在步骤102中，根据对应于同一视频的人物追踪结果，进行同一视频内部的人脸聚类。

在步骤103中，根据视频内部的人脸聚类结果，进行不同视频间的人脸聚类，用于根据不同视频间的人脸聚类结果确定出媒资库中的视频中与目标人脸相匹配的视频内容，目标人脸为待查找的人脸图片中的人脸。

采用上述方法实施例所述方案，通过场景切分、人物追踪以及人脸聚类等操作，即可确定出与待查找的人脸图片中的人脸相匹配的视频内容，实现复杂度较低，从而提升了查找效率，而且，通过进行场景切分，可提升人物追踪结果的准确性，通过视频内部和视频间的两次人脸聚类，可提升聚类结果的准确性，进而提升了查找结果的准确性等。

传统方式中，通常直接根据媒资流数据进行人物追踪，而媒资库中入库的视频通常都会存在各种场景变化，而场景变化很容易导致人物追踪结果不准确。

为此，本公开所述方案中提出，可分别对媒资库中的各视频进行场景切分，并可分别对切分得到的各场景片段进行人物追踪，得到人物追踪结果。

如针对媒资库中的任一视频，可首先将其拆分成帧(frame)，之后可利用场景切分技术将其划分为场景片段(scene)，得到的场景片段的数量可能为一个，也可能大于一个。

可分别对切分得到的各场景片段进行人物追踪，如可利用追踪模型实现所述追踪。相应地，在进行人物追踪时可根据场景片段进行强制切断，比如，按照传统方式，追踪模型在[t1,t2]时间区间内追踪到了人物A，但如果t1～t2跨越了场景，如[t1,ts]属于一个场景片段，[ts,t2]属于另外一个场景片段，ts位于t1之后且位于t2之前，那么可控制追踪模型分别针对[t1,ts]和[ts,t2]这两个时间区间进行人物追踪。

上述处理方式中，加入了镜头切分因素的考虑，即利用场景切分技术进行了场景切分，从而在不影响处理速度的前提下提升了人物追踪结果的准确性。

优选地，人物追踪结果可包括：第一人脸特征(featureID)以及第一人脸特征对应的第一追踪结果信息，其中，第一人脸特征为追踪到的人脸的人脸特征。

对于一个场景片段来说，其中可能包括一个人物，也可能包括多个人物，若包括多个人物，那么针对每个人物，可分别获取到第一人脸特征以及对应的第一追踪结果信息。其中，为与后续出现的其它人脸特征以及追踪结果信息进行区分，将追踪到的人脸的人脸特征称为第一人脸特征，将对应的追踪结果信息称为第一追踪结果信息，后续类似情况不再赘述。

第一追踪结果信息中可包括：所在视频(即对应的人脸所在的视频)，以及，在所在视频中的所在帧信息，如可通过起始帧和结束帧标记出所在帧信息，如果需要，还可进一步包括一些其它信息，如人脸在所在帧中的位置信息等。

进一步地，根据对应于同一视频的人物追踪结果，可进行同一视频内部的人脸聚类。

优选地，针对对应于同一视频的各人物追踪结果，可进行以下处理：根据相似度对各人物追踪结果中的第一人脸特征进行聚类，得到相似度聚类结果，即得到各个簇，针对得到的各相似度聚类结果，分别根据其中包括的第一人脸特征以及对应的第一追踪结果信息，确定出各相似度聚类结果对应的第二人脸特征以及第二追踪结果信息。

比如，对于视频a，将其切分为了10个场景片段，分别为场景片段1～场景片段10，假设针对每个场景片段，分别获取到了一个人物追踪结果，分别为人物追踪结果1～人物追踪结果10，那么可根据相似度对这10个人物追踪结果中的第一人脸特征进行聚类，假设共得到了3个相似度聚类结果，针对这3个相似度聚类结果，可分别根据其中包括的第一人脸特征以及对应的第一追踪结果信息，确定出这3个相似度聚类结果分别对应的第二人脸特征以及第二追踪结果信息。

通过上述处理，可高效准确地实现视频内部的人脸聚类，从而为后续处理奠定了良好的基础。

优选地，针对任一相似度聚类结果，确定出其对应的第二人脸特征以及第二追踪结果信息的方式可包括：从该相似度聚类结果中包括的第一人脸特征对应的人脸中选出最优人脸，将最优人脸对应的第一人脸特征作为该相似度聚类结果对应的第二人脸特征，对该相似度聚类结果中包括的第一人脸特征对应的第一追踪结果信息进行汇总，将汇总结果作为该相似度聚类结果对应的第二追踪结果信息。

比如，视频a对应的某一相似度聚类结果b中包括3个第一人脸特征，那么可从这3个第一人脸特征分别对应的人脸中选出一个最优人脸，将选出的最优人脸对应的第一人脸特征作为相似度聚类结果b对应的第二人脸特征，并可对这3个第一人脸特征对应的第一追踪结果信息进行汇总，将汇总结果作为相似度聚类结果b对应的第二追踪结果信息。

也就是说，可将同一视频中的相同人脸进行聚类，即合并为同一个人脸，并可保留最优人脸的第一人脸特征作为索引，如上述的可将最优人脸对应的第一人脸特征作为相似度聚类结果b对应的第二人脸特征，另外，第二追踪结果信息中可包括之前的3个第一人脸特征对应的第一追踪结果信息，如相似度聚类结果b对应的人脸分别出现在了视频a中的第10～20帧，第40～55帧以及第70～82帧，分别属于不同的场景片段，那么相似度聚类结果b对应的第二追踪结果信息中将会记录有该人脸分别出现了在视频a的第10～20帧、第40～55帧以及第70～82帧等信息。

优选地，从任一相似度聚类结果中包括的第一人脸特征对应的人脸中选出最优人脸的方式可包括：按照预先设定的评分准则，分别获取该相似度聚类结果中包括的各第一人脸特征对应的人脸的评分，并将评分最高的人脸作为最优人脸。

所述预定的评分准则具体为何种准则不作限制，可根据实际需要而定。比如，可按照各人脸的人脸置信度(faceProbability)进行评分，faceProbability越大，评分越高，或者，可按照各人脸的模糊度进行评分，模糊度越低，评分可越高，或者，可按照各人脸的侧脸角度进行评分，侧脸角度越小，评分可越高等。

通过进行最优人脸选择，可使得确定出的第二人脸特征更为准确，进而提升了后续处理结果的准确性。

图2为本公开所述针对某一视频进行场景切分以及进行视频内部的人脸聚类的过程示意图。如图2所示，可首先将该视频切分为多个不同的场景片段，之后可针对各场景片段，分别进行人物追踪，得到人物追踪结果，假设图中第二排(按照从上到下的顺序)的各人脸分别表示从不同的场景片段中追踪到的人脸，那么进一步地，可进行该视频内部的人脸聚类，如可将图中的各白色人脸聚为一类，将图中的各黑色人脸聚为另一类，从而得到不同的相似度聚类结果，分别对应于白色人脸和黑色人脸。

完成各视频内部的人脸聚类之后，还可根据各视频内部的人脸聚类结果，进行不同视频间的人脸聚类。

优选地，可对媒资库中的各视频对应的相似度聚类结果对应的第二人脸特征进行增量聚类，得到各聚类中心特征(clusterID)，进而可针对各聚类中心特征，分别进行以下处理：获取该聚类中心特征对应的第二人脸特征对应的第二追踪结果信息，对获取到的第二追踪结果信息进行汇总，将汇总结果作为该聚类中心特征对应的第三追踪结果信息，用于根据各聚类中心特征以及对应的第三追踪结果信息确定出各视频中与所述目标人脸相匹配的视频内容。

通过不同视频间的人脸聚类，可将不同视频中的同一人脸进行合并，每个聚类中心特征可分别对应于一个不同的人脸。

可以看出，本公开所述方案中采用了分两次进行聚类的方式，第一次为视频内部的人脸聚类，第二次为不同视频间的人脸聚类，从而尽可能地避免了人脸的角度以及模糊度等对聚类效果造成的影响，进而提升了聚类结果的准确性。

基于上述处理结果，即可进行实际的人脸查找，即实现历史媒资翻库功能。

相应地，图3为本公开所述视频内容查找方法实施例的流程图。如图3所示，包括以下具体实现方式。

在步骤301中，获取待查找的人脸图片，将人脸图片中的人脸确定为目标人脸。

在步骤302中，根据不同视频间的人脸聚类结果，确定出媒资库中的视频中与目标人脸相匹配的视频内容；其中，不同视频间的人脸聚类结果为根据视频内部的人脸聚类结果进行不同视频间的人脸聚类后得到的，视频内部的人脸聚类结果为根据对应于同一视频的人物追踪结果进行同一视频内部的人脸聚类后得到的，人物追踪结果为对媒资库中的视频进行场景切分并对切分得到的场景片段进行人物追踪后得到的。

优选地，不同视频间的人脸聚类结果可包括：各聚类中心特征以及分别对应的第三追踪结果信息，各聚类中心特征分别对应于不同的人脸，相应地，根据不同视频间的人脸聚类结果，确定出媒资库中的各视频中与目标人脸相匹配的视频内容的方式可包括：获取目标人脸的第三人脸特征，从各聚类中心特征中筛选出与第三人脸特征相匹配的聚类中心特征，将相匹配的聚类中心特征对应的第三追踪结果信息作为目标追踪结果信息，根据目标追踪结果信息确定出媒资库中的各视频中与目标人脸相匹配的视频内容。

对于任一人脸来说，如何获取人脸特征不作限制，比如，可采用已有的成熟的实现方法。

另外，优选地，可分别获取各聚类中心特征与第三人脸特征之间的相似度，进而可将相似度最大的聚类中心特征作为相匹配的聚类中心特征，或者，可将相似度大于预定阈值的聚类中心特征作为相匹配的聚类中心特征。所述阈值的具体取值可根据实际需要而定，具体采用哪种方式可根据实际需要而定，非常的灵活方便。

优选地，第三追踪结果信息中可包括：对应的人脸所在视频，以及，对应的人脸在所在视频中的所在帧信息，相应地，可将目标追踪结果信息对应的人脸确定为目标人脸，根据目标追踪结果信息，确定出目标人脸所在视频以及在所在视频中的所在帧信息。

比如，假设相匹配的聚类中心特征的数量为一个，那么可获取该聚类中心特征对应的第三追踪结果信息，作为目标追踪结果信息，假设目标追踪结果中记录了对应的人脸分别出现在视频a、视频m和视频x中，并具体记录了在各视频中的所在帧等信息，那么则可将视频a、视频m以及视频x中的相应帧作为所需的与目标人脸相匹配的视频内容。

无论是第一追踪结果信息、第二追踪结果信息还是第三追踪结果信息，如果需要，其中还可进一步包括一些其它信息，如人脸在所在帧中的位置信息等。

另外，无论是第一追踪结果信息、第二追踪结果信息还是第三追踪结果信息，其中的信息的具体存储形式/数据结构均不作限制，可根据实际需要而定。

通过上述处理，可实现快速的历史媒资翻库功能，如可从千万小时的历史媒资中以秒级别的速度查找出所需的视频内容。

另外，对于查找出的视频内容，可按照实际需要修改对应的历史分析的标签信息等，即可以在不用重新分析已入库的媒资的前提下一键修改已分析的人物信息。

需要说明的是，对于前述的各方法实施例，为了简单描述，将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本公开并不受所描述的动作顺序的限制，因为依据本公开，某些步骤可以采用其它顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本公开所必须的。另外，某个实施例中没有详述的部分，可以参见其它实施例中的相关说明。

总之，本公开方法实施例所述方案中提出了一种基于场景切分以及人脸聚类的快速翻库方式，可以较低的实现复杂度确定出所需查找的视频内容，进而提升了查找效率，而且，通过场景切分，提升了人物追踪结果的准确性，通过两次人脸聚类，提升了聚类结果的准确性，进而提升了查找结果的准确性等。

以上是关于方法实施例的介绍，以下通过装置实施例，对本公开所述方案进行进一步说明。

图4为本公开所述视频处理装置实施例400的组成结构示意图。如图4所示，其中可包括：切分追踪模块401、第一聚类模块402以及第二聚类模块403。

切分追踪模块401，用于对媒资库中的视频进行场景切分，对切分得到的场景片段进行人物追踪，得到人物追踪结果。

第一聚类模块402，用于根据对应于同一视频的人物追踪结果，进行同一视频内部的人脸聚类。

第二聚类模块403，用于根据视频内部的人脸聚类结果，进行不同视频间的人脸聚类，用于根据不同视频间的人脸聚类结果确定出媒资库中的视频中与目标人脸相匹配的视频内容，所述目标人脸为待查找的人脸图片中的人脸。

采用上述装置实施例所述方案，通过场景切分、人物追踪以及人脸聚类等操作，即可确定出与待查找的人脸图片中的人脸相匹配的视频内容，实现复杂度较低，从而提升了查找效率，而且，通过进行场景切分，可提升人物追踪结果的准确性，通过视频内部和视频间的两次人脸聚类，可提升聚类结果的准确性，进而提升了查找结果的准确性等。

传统方式中，通常直接根据媒资流数据进行人物追踪，而媒资库中入库的视频通常都会存在各种场景变化，而场景变化很容易导致人物追踪结果不准确。为此，本公开所述方案中提出，可由切分追踪模块401分别对媒资库中的各视频进行场景切分，并可分别对切分得到的各场景片段进行人物追踪，得到人物追踪结果。如针对媒资库中的任一视频，可首先将其拆分成帧，之后可利用场景切分技术将其划分为场景片段，得到的场景片段的数量可能为一个，也可能大于一个。

优选地，人物追踪结果可包括：第一人脸特征以及第一人脸特征对应的第一追踪结果信息，其中，第一人脸特征为追踪到的人脸的人脸特征。

优选地，第一聚类模块402可针对对应于同一视频的各人物追踪结果，进行以下处理：根据相似度对各人物追踪结果中的第一人脸特征进行聚类，得到相似度聚类结果，针对得到的各相似度聚类结果，分别根据其中包括的第一人脸特征以及对应的第一追踪结果信息，确定出各相似度聚类结果对应的第二人脸特征以及第二追踪结果信息。

优选地，针对任一相似度聚类结果，第一聚类模块402确定出其对应的第二人脸特征以及第二追踪结果信息的方式可包括：从该相似度聚类结果中包括的第一人脸特征对应的人脸中选出最优人脸，将最优人脸对应的第一人脸特征作为该相似度聚类结果对应的第二人脸特征，对该相似度聚类结果中包括的第一人脸特征对应的第一追踪结果信息进行汇总，将汇总结果作为该相似度聚类结果对应的第二追踪结果信息。

优选地，第一聚类模块402从任一相似度聚类结果中包括的第一人脸特征对应的人脸中选出最优人脸的方式可包括：按照预先设定的评分准则，分别获取该相似度聚类结果中包括的各第一人脸特征对应的人脸的评分，并将评分最高的人脸作为最优人脸。

完成各视频内部的人脸聚类之后，可根据各视频内部的人脸聚类结果，进行不同视频间的人脸聚类。

优选地，第二聚类模块403可对媒资库中的各视频对应的相似度聚类结果对应的第二人脸特征进行增量聚类，得到各聚类中心特征，进而可针对各聚类中心特征，分别进行以下处理：获取该聚类中心特征对应的第二人脸特征对应的第二追踪结果信息，对获取到的第二追踪结果信息进行汇总，将汇总结果作为该聚类中心特征对应的第三追踪结果信息，用于根据各聚类中心特征以及对应的第三追踪结果信息确定出各视频中与目标人脸相匹配的视频内容。

图5为本公开所述视频内容查找装置实施例500的组成结构示意图。如图5所示，其中可包括：图片获取模块501以及内容查找模块502。

图片获取模块501，用于获取待查找的人脸图片，将所述人脸图片中的人脸确定为目标人脸。

内容查找模块502，用于根据不同视频间的人脸聚类结果，确定出媒资库中的视频中与目标人脸相匹配的视频内容；其中，不同视频间的人脸聚类结果为根据视频内部的人脸聚类结果进行不同视频间的人脸聚类后得到的，视频内部的人脸聚类结果为根据对应于同一视频的人物追踪结果进行同一视频内部的人脸聚类后得到的，人物追踪结果为对媒资库中的视频进行场景切分并对切分得到的场景片段进行人物追踪后得到的。

优选地，不同视频间的人脸聚类结果可包括：各聚类中心特征以及分别对应的第三追踪结果信息，各聚类中心特征分别对应于不同的人脸，相应地，内容查找模块502根据不同视频间的人脸聚类结果，确定出媒资库中的各视频中与目标人脸相匹配的视频内容的方式可包括：获取目标人脸的第三人脸特征，从各聚类中心特征中筛选出与第三人脸特征相匹配的聚类中心特征，将相匹配的聚类中心特征对应的第三追踪结果信息作为目标追踪结果信息，根据目标追踪结果信息确定出媒资库中的各视频中与目标人脸相匹配的视频内容。

优选地，内容查找模块502可分别获取各聚类中心特征与第三人脸特征之间的相似度，进而可将相似度最大的聚类中心特征作为相匹配的聚类中心特征，或者，可将相似度大于预定阈值的聚类中心特征作为相匹配的聚类中心特征。

另外，优选地，第三追踪结果信息中可包括：对应的人脸所在视频，以及，对应的人脸在所在视频中的所在帧信息，相应地，内容查找模块502可将目标追踪结果信息对应的人脸确定为目标人脸，根据目标追踪结果信息，确定出目标人脸所在视频以及在所在视频中的所在帧信息。

图4和图5所示装置实施例的具体工作流程可参照前述方法实施例中的相关说明，不再赘述。

总之，本公开装置实施例所述方案中提出了一种基于场景切分以及人脸聚类的快速翻库方式，可以较低的实现复杂度确定出所需查找的视频内容，进而提升了查找效率，而且，通过场景切分，提升了人物追踪结果的准确性，通过两次人脸聚类，提升了聚类结果的准确性，进而提升了查找结果的准确性等。

本公开所述方案可应用于人工智能领域，特别涉及计算机视觉、大数据处理、图像处理以及数据库等领域。人工智能是研究使计算机来模拟人的某些思维过程和智能行为(如学习、推理、思考、规划等)的学科，既有硬件层面的技术也有软件层面的技术，人工智能硬件技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理等技术，人工智能软件技术主要包括计算机视觉技术、语音识别技术、自然语言处理技术以及机器学习/深度学习、大数据处理技术、知识图谱技术等几大方向。

本公开所述实施例中的视频并不是针对某一特定用户的，并不能反映出某一特定用户的个人信息。本公开的技术方案中，所涉及的用户个人信息的收集、存储、使用、加工、传输、提供和公开等处理，均符合相关法律法规的规定，且不违背公序良俗。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

图6示出了可以用来实施本公开的实施例的电子设备600的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字助理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图6所示，设备600包括计算单元601，其可以根据存储在只读存储器(ROM)602中的计算机程序或者从存储单元608加载到随机访问存储器(RAM)603中的计算机程序，来执行各种适当的动作和处理。在RAM603中，还可存储设备600操作所需的各种程序和数据。计算单元601、ROM602以及RAM603通过总线604彼此相连。输入/输出(I/O)接口605也连接至总线604。

设备600中的多个部件连接至I/O接口605，包括：输入单元606，例如键盘、鼠标等；输出单元607，例如各种类型的显示器、扬声器等；存储单元608，例如磁盘、光盘等；以及通信单元609，例如网卡、调制解调器、无线通信收发机等。通信单元609允许设备600通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元601可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元601的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元601执行上文所描述的各个方法和处理，例如本公开所述的方法。例如，在一些实施例中，本公开所述的方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元608。在一些实施例中，计算机程序的部分或者全部可以经由ROM602和/或通信单元609而被载入和/或安装到设备600上。当计算机程序加载到RAM603并由计算单元601执行时，可以执行本公开所述的方法的一个或多个步骤。备选地，在其他实施例中，计算单元601可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行本公开所述的方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、复杂可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，也可以为分布式系统的服务器，或者是结合了区块链的服务器。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种视频处理方法，包括：

2.根据权利要求1所述的方法，其中，

所述人物追踪结果包括：第一人脸特征以及所述第一人脸特征对应的第一追踪结果信息，所述第一人脸特征为追踪到的人脸的人脸特征。

3.根据权利要求2所述的方法，其中，所述根据对应于同一视频的人物追踪结果，进行同一视频内部的人脸聚类包括：

针对对应于同一视频的各人物追踪结果，进行以下处理：

根据相似度对各人物追踪结果中的所述第一人脸特征进行聚类，得到相似度聚类结果；

针对得到的各相似度聚类结果，分别根据其中包括的所述第一人脸特征以及对应的所述第一追踪结果信息，确定出各相似度聚类结果对应的第二人脸特征以及第二追踪结果信息。

4.根据权利要求3所述的方法，其中，所述针对得到的各相似度聚类结果，分别根据其中包括的所述第一人脸特征以及对应的所述第一追踪结果信息，确定出各相似度聚类结果对应的第二人脸特征以及第二追踪结果信息包括：

针对得到的各相似度聚类结果，分别进行以下处理：

从所述相似度聚类结果中包括的所述第一人脸特征对应的人脸中选出最优人脸，将所述最优人脸对应的所述第一人脸特征作为所述相似度聚类结果对应的所述第二人脸特征；

对所述相似度聚类结果中包括的所述第一人脸特征对应的所述第一追踪结果信息进行汇总，将汇总结果作为所述相似度聚类结果对应的所述第二追踪结果信息。

5.根据权利要求4所述的方法，其中，所述从所述相似度聚类结果中包括的所述第一人脸特征对应的人脸中选出最优人脸包括：

按照预先设定的评分准则，分别获取所述相似度聚类结果中包括的所述第一人脸特征对应的人脸的评分，将评分最高的人脸作为所述最优人脸。

6.根据权利要求3、4或5所述的方法，其中，所述根据视频内部的人脸聚类结果，进行不同视频间的人脸聚类包括：

对所述媒资库中的各视频对应的相似度聚类结果对应的所述第二人脸特征进行增量聚类，得到各聚类中心特征；

针对各聚类中心特征，分别进行以下处理：获取所述聚类中心特征对应的所述第二人脸特征对应的所述第二追踪结果信息，对获取到的所述第二追踪结果信息进行汇总，将汇总结果作为所述聚类中心特征对应的第三追踪结果信息，用于根据各聚类中心特征以及对应的所述第三追踪结果信息确定出各视频中与所述目标人脸相匹配的视频内容。

7.一种视频内容查找方法，包括：

8.根据权利要求7所述的方法，其中，

所述不同视频间的人脸聚类结果包括：各聚类中心特征以及分别对应的第三追踪结果信息，各聚类中心特征分别对应于不同的人脸；

所述根据不同视频间的人脸聚类结果，确定出媒资库中的视频中与所述目标人脸相匹配的视频内容包括：

获取所述目标人脸的第三人脸特征；

从各聚类中心特征中筛选出与所述第三人脸特征相匹配的聚类中心特征；

将所述相匹配的聚类中心特征对应的所述第三追踪结果信息作为目标追踪结果信息，根据所述目标追踪结果信息确定出所述媒资库中的各视频中与所述目标人脸相匹配的视频内容。

9.根据权利要求8所述的方法，其中，所述从各聚类中心特征中筛选出与所述第三人脸特征相匹配的聚类中心特征包括：

分别获取各聚类中心特征与所述第三人脸特征之间的相似度；

将相似度最大的所述聚类中心特征作为所述相匹配的聚类中心特征，或者，将相似度大于预定阈值的所述聚类中心特征作为所述相匹配的聚类中心特征。

10.根据权利要求8或9所述的方法，其中，

所述第三追踪结果信息中包括：对应的人脸所在视频，以及，对应的人脸在所述所在视频中的所在帧信息；

所述根据所述目标追踪结果信息确定出所述媒资库中的各视频中与所述目标人脸相匹配的视频内容包括：将所述目标追踪结果信息对应的人脸确定为所述目标人脸，根据所述目标追踪结果信息，确定出所述目标人脸所在视频以及在所述所在视频中的所在帧信息。

11.一种视频处理装置，包括：切分追踪模块、第一聚类模块以及第二聚类模块；

12.根据权利要求11所述的装置，其中，

13.根据权利要求12所述的装置，其中，

所述第一聚类模块针对对应于同一视频的各人物追踪结果，进行以下处理：根据相似度对各人物追踪结果中的所述第一人脸特征进行聚类，得到相似度聚类结果，针对得到的各相似度聚类结果，分别根据其中包括的所述第一人脸特征以及对应的所述第一追踪结果信息，确定出各相似度聚类结果对应的第二人脸特征以及第二追踪结果信息。

14.根据权利要求13所述的装置，其中，

所述第一聚类模块针对得到的各相似度聚类结果，分别进行以下处理：从所述相似度聚类结果中包括的所述第一人脸特征对应的人脸中选出最优人脸，将所述最优人脸对应的所述第一人脸特征作为所述相似度聚类结果对应的所述第二人脸特征，对所述相似度聚类结果中包括的所述第一人脸特征对应的所述第一追踪结果信息进行汇总，将汇总结果作为所述相似度聚类结果对应的所述第二追踪结果信息。

15.根据权利要求14所述的装置，其中，

所述第一聚类模块按照预先设定的评分准则，分别获取所述相似度聚类结果中包括的所述第一人脸特征对应的人脸的评分，将评分最高的人脸作为所述最优人脸。

16.根据权利要求13、14或15所述的装置，其中，

所述第二聚类模块对所述媒资库中的各视频对应的相似度聚类结果对应的所述第二人脸特征进行增量聚类，得到各聚类中心特征，针对各聚类中心特征，分别进行以下处理：获取所述聚类中心特征对应的所述第二人脸特征对应的所述第二追踪结果信息，对获取到的所述第二追踪结果信息进行汇总，将汇总结果作为所述聚类中心特征对应的第三追踪结果信息，用于根据各聚类中心特征以及对应的所述第三追踪结果信息确定出各视频中与所述目标人脸相匹配的视频内容。

17.一种视频内容查找装置，包括：图片获取模块以及内容查找模块；

18.根据权利要求17所述的装置，其中，

所述内容查找模块获取所述目标人脸的第三人脸特征，从各聚类中心特征中筛选出与所述第三人脸特征相匹配的聚类中心特征，将所述相匹配的聚类中心特征对应的所述第三追踪结果信息作为目标追踪结果信息，根据所述目标追踪结果信息确定出所述媒资库中的各视频中与所述目标人脸相匹配的视频内容。

19.根据权利要求18所述的装置，其中，

所述内容查找模块分别获取各聚类中心特征与所述第三人脸特征之间的相似度，将相似度最大的所述聚类中心特征作为所述相匹配的聚类中心特征，或者，将相似度大于预定阈值的所述聚类中心特征作为所述相匹配的聚类中心特征。

20.根据权利要求18或19所述的装置，其中，

所述内容查找模块将所述目标追踪结果信息对应的人脸确定为所述目标人脸，根据所述目标追踪结果信息，确定出所述目标人脸所在视频以及在所述所在视频中的所在帧信息。

21.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-10中任一项所述的方法。

22.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使计算机执行权利要求1-10中任一项所述的方法。

23.一种计算机程序产品，包括计算机程序/指令，所述计算机程序/指令被处理器执行时实现权利要求1-10中任一项所述的方法。