CN112069331A

CN112069331A - 一种数据处理、检索方法、装置、设备及存储介质

Info

Publication number: CN112069331A
Application number: CN202010899691.9A
Authority: CN
Inventors: 江訢华; 杨欣; 梁崇义; 钟志文; 袁诵弦; 朱敏; 吕晗; 杨夏怡; 张力; 卢宇
Original assignee: Shenzhen Sensetime Technology Co Ltd
Current assignee: Shenzhen Sensetime Technology Co Ltd
Priority date: 2020-08-31
Filing date: 2020-08-31
Publication date: 2020-12-11
Anticipated expiration: 2040-08-31
Also published as: CN112069331B

Abstract

本申请公开了一种数据处理、检索方法、装置、设备及存储介质，其中，所述方法包括：获取待分析的多媒体文件列表；其中，多媒体文件列表中包括至少一种文件类型的多媒体文件；基于每一多媒体文件的文件类型，确定多媒体文件对应的人脸检测模型，其中，不同的人脸检测模型具有不同的检测效率和检测精度；基于每一多媒体文件对应的人脸检测模型，对多媒体文件中的人脸进行检测，得到媒资数据列表和多媒体文件中的第一目标人脸特征，其中，每一媒资数据列表与每一第一目标人脸特征之间具有对应关系；基于每一多媒体文件中的第一目标人脸特征和媒资数据列表，建立媒资数据库。这样，可以快速而准确地建立媒资数据库，并能提高检索的准确率和效率。

Description

一种数据处理、检索方法、装置、设备及存储介质

技术领域

本申请涉及但不限于计算机视觉技术领域，尤其涉及一种数据处理、检索方法、装置、设备及存储介质。

背景技术

互联网、媒体、广电等行业的发展催生出海量视频、图片等媒资数据，但在海量媒资数据中查找、分析多媒体数据的工作常常会消耗大量时间和人力。因此，以图像、视频为代表的多媒体信息检索技术正面临着越来越高的要求。相关技术中的信息检索应用(如通用搜索引擎)，首先利用文本标注图像和视频信息，然后基于标注的文本对图像和视频进行检索。然而，在处理海量视频信息时，对图像和视频信息进行文本标注费时费力。此外，对于类似在存储的视频中查找指定视频片段的应用场景(如特定人物的视频内容检索、定位)，实现异常困难，基本只能依靠人工分析、识别和记录。

发明内容

有鉴于此，本申请实施例提供一种数据处理、检索方法、装置、设备及存储介质。

本申请实施例的技术方案是这样实现的：

一方面，本申请实施例提供一种数据处理方法，所述方法包括：获取待分析的多媒体文件列表；其中，所述多媒体文件列表中包括至少一种文件类型的多媒体文件；基于每一多媒体文件的文件类型，确定所述多媒体文件对应的人脸检测模型，其中，不同的人脸检测模型具有不同的检测效率和检测精度；基于每一多媒体文件对应的人脸检测模型，对所述多媒体文件中的人脸进行检测，得到媒资数据列表和所述多媒体文件中的第一目标人脸特征，其中，每一媒资数据列表与每一第一目标人脸特征之间具有对应关系；基于每一多媒体文件中的第一目标人脸特征和媒资数据列表，建立媒资数据库。

在一些实施例中，所述基于每一多媒体文件的文件类型，确定所述多媒体文件对应的人脸检测模型，包括：在所述多媒体文件为图片的情况下，确定所述多媒体文件对应的人脸检测模型包括第一检测模型。

这样，可以有效保证对图片进行人脸检测时的检测效率和检测准确率，从而提升媒资数据库中与第一目标人脸特征对应的媒资数据列表中图片数据的准确性，进而提高在媒资数据库中通过人脸特征进行图片检索的准确性。

在一些实施例中，所述在所述多媒体文件为图片的情况下，确定所述多媒体文件对应的人脸检测模型包括第一检测模型，包括：在所述多媒体文件为图片的情况下，确定所述多媒体文件对应的人脸检测模型包括第一检测模型和第二检测模型；其中，所述第一检测模型的检测效率高于所述第二检测模型的检测效率，所述第一检测模型检测人脸的精度低于所述第二检测模型检测人脸的精度。

这样，在对图片进行人脸检测时可以更好地平衡检测效率和检测人脸的精度。

在一些实施例中，所述基于每一多媒体文件对应的人脸检测模型，对所述多媒体文件中的人脸进行检测，得到媒资数据列表和所述多媒体文件中的第一目标人脸特征，包括：在所述多媒体文件为图片的情况下，基于所述第一检测模型，对所述图片中的人脸进行检测，得到所述图片对应的第一目标人脸特征列表，其中，所述第一目标人脸特征列表包含所述图片中人脸的第一目标人脸特征；针对所述人脸特征列表中的每一第一目标人脸特征，将所述图片加入所述第一目标人脸特征对应的媒资数据列表。

这样，可以简单快速地得到图片中的每一第一目标人脸特征以及每一第一目标人脸特征对应的媒资数据列表。

在一些实施例中，所述基于所述第一检测模型，对所述图片中的人脸进行检测，得到所述图片对应的第一目标人脸特征列表，包括：采用所述第一检测模型对所述图片中的人脸进行检测，得到所述图片对应的第一目标人脸特征列表；在第一目标人脸特征列表为空的情况下，采用所述第二检测模型对所述图片中的人脸进行检测，得到所述图片对应的第一目标人脸特征列表。

这样，可以在第一检测模型未检测出人脸时，采用检测人脸的精度高于第一检测模型的第二检测模型对图片中的人脸进行再次检测，从而可以减少漏检。

在一些实施例中，所述基于每一多媒体文件的文件类型，确定所述多媒体文件对应的人脸检测模型，包括：在所述多媒体文件为视频的情况下，确定人脸检测模型包括第三检测模型，其中，所述第三检测模型的检测效率低于第一检测模型的检测效率且高于第二检测模型的检测效率，所述第三检测模型检测人脸的精度高于第一检测模型检测人脸的精度且低于第二检测模型检测人脸的精度。

这样，由于第三检测模型检测人脸的精度相对第一检测模型较高且检测效率相对第二检测模型也较高，从而可以有效保证对视频进行人脸检测时的检测效率和检测准确率，从而可以提升媒资数据库中与第一目标人脸特征对应的媒资数据列表中视频片段数据的准确性，进而可以提高在媒资数据库中通过人脸特征进行视频片段检索的准确性。

在一些实施例中，所述基于每一多媒体文件对应的人脸检测模型，对所述多媒体文件中的人脸进行检测，得到媒资数据列表和所述多媒体文件中的第一目标人脸特征，包括：在所述多媒体文件为视频的情况下，采用所述第三检测模型对所述视频中的人脸进行检测，得到所述视频的人物视频片段列表；基于所述人物视频片段列表，确定所述视频中人脸特征与人物视频片段之间的映射关系；根据所述映射关系，确定所述视频中的第一目标人脸特征和媒资数据列表。

这样，可以提供一种简单且快速得到视频中的第一目标人脸特征和媒资数据列表的具体实现方式，从而可以提高媒资数据库的建库效率。

在一些实施例中，所述基于所述人物视频片段列表，确定所述视频中人脸特征与人物视频片段之间的映射关系，包括：针对所述人物视频片段列表中的每一人物视频片段，确定所述人物视频片段对应的人脸特征；将所述人脸特征与所述人物视频片段之间的对应关系加入所述视频对应的映射关系。

这样，可以简单快速地确定人物视频片段对应的人脸特征，从而快速确定视频对应的映射关系。

在一些实施例中，所述采用所述第三检测模型对所述视频中的人脸进行检测，得到所述视频的人物视频片段列表，包括：采用所述第三检测模型对所述视频进行逐帧人脸检测，得到所述视频的人物视频片段列表。

这样，使用逐帧逐个人脸特征比对的方式进行人脸跟踪，可以减少合成镜头引起人脸跳变时的误检，保证人脸识别的准确性。

在一些实施例中，所述确定所述人物视频片段对应的人脸特征，包括：对所述人物视频片段中检测到的每一人脸进行特征提取，得到每一所述人脸对应的人脸特征；确定所述人脸特征的人脸质量分数；根据每一人脸质量分数，确定所述人物视频片段中的第二目标人脸特征；将所述第二目标人脸特征确定为所述人物视频片段对应的人脸特征。

这样，可以采用人脸质量更好的人脸特征表征人物视频片段，从而可以提高基于人脸特征在媒资数据库中进行媒资数据检索时的准确率。

在一些实施例中，所述根据所述映射关系，确定所述视频中的第一目标人脸特征和媒资数据列表，包括：对所述映射关系中的人脸特征进行特征聚类，得到第一聚类结果；针对所述第一聚类结果中的每一聚类分组，确定所述聚类分组的第一目标人脸特征；基于所述映射关系，得到所述聚类分组中每一人脸特征对应的媒资数据；将所述每一人脸特征对应的媒资数据，加入所述第一目标人脸特征对应的媒资数据列表。

这样，可以减少建立的媒资数据库中的人脸特征的数量，从而可以提高利用人脸特征在媒资数据库中检索媒资数据时的检索效率，并能提高人脸特征数据的传输和存储效率。

在一些实施例中，所述基于每一多媒体文件中的第一目标人脸特征和媒资数据列表，建立媒资数据库，包括：将每一多媒体文件中的每一第一目标人脸特征加入待聚类特征集合；对所述待聚类特征集合中的人脸特征进行特征聚类，得到第二聚类结果；针对所述第二聚类结果中的每一聚类分组，确定所述聚类分组的第三目标人脸特征；针对所述聚类分组中的每一人脸特征，将每一人脸特征对应的媒资数据列表中的媒资数据加入所述第三目标人脸特征对应的媒资数据列表；将每一第三目标人脸特征和所述第三目标人脸特征对应的媒资数据列表存储至所述媒资数据库。

这样，可以进一步减少建立的媒资数据库中的人脸特征的数量，从而进一步提高利用人脸特征在媒资数据库中检索媒资数据时的检索效率，并进一步提高人脸特征数据的传输和存储效率。

另一方面，本申请实施例提供一种数据检索方法，所述方法包括：获取待检索人物的检索输入信息；基于所述检索输入信息，获取所述待检索人物的人脸特征；在预先建立的媒资数据库中，对所述人脸特征进行检索，得到检索结果，其中，所述媒资数据库为采用本申请实施例提供的数据处理方法预先建立的。

在一些实施例中，所述基于所述检索输入信息，获取所述待检索人物的人脸特征，包括：在所述检索输入信息为人脸图像的情况下，对所述人脸图像进行特征提取，得到所述待检索人物的人脸特征。

这样，可以支持通过输入人脸图像进行检索，具有更好的灵活性，从而可以更好地满足用户的检索需求。

在一些实施例中，所述基于所述检索输入信息，获取所述待检索人物的人脸特征，包括：在所述检索输入信息为人脸标识的情况下，根据所述人脸标识，查询预先建立的人脸特征库，得到所述待检索人物对应的人脸特征。

这样，可以支持通过输入人脸标识进行检索，具有更好的灵活性，从而可以更好地满足用户的检索需求。

在一些实施例中，所述在预先建立的媒资数据库中，对所述人脸特征进行检索，得到检索结果，包括：将所述媒资数据库中与所述人脸特征相似度超过特定的相似度阈值的人脸特征加入候选特征列表；根据所述候选特征列表，查询所述媒资数据库，得到与所述候选特征列表中每一人脸特征对应的媒资数据列表；针对每一媒资数据列表，将所述媒资数据列表中的各媒资数据加入检索结果。

再一方面，本申请实施例提供一种数据处理装置，所述装置包括：

第一获取模块，用于获取待分析的多媒体文件列表；其中，所述多媒体文件列表中包括至少一种文件类型的多媒体文件；确定模块，用于基于每一多媒体文件的文件类型，确定所述多媒体文件对应的人脸检测模型；其中，不同的人脸检测模型具有不同的检测效率和检测精度；检测模块，用于基于每一多媒体文件对应的人脸检测模型，对所述多媒体文件中的人脸进行检测，得到媒资数据列表和所述多媒体文件中的第一目标人脸特征，其中，每一媒资数据列表与每一第一目标人脸特征和之间具有一一对应关系；建立模块，用于基于每一多媒体文件中的第一目标人脸特征和媒资数据列表，建立媒资数据库。

又一方面，本申请实施例提供一种数据检索装置，所述装置包括：第二获取模块，用于获取待检索人物的检索输入信息；第三获取模块，用于基于所述检索输入信息，获取所述待检索人物的人脸特征；检索模块，用于在预先建立的媒资数据库中，对所述人脸特征进行检索，得到检索结果，其中，所述媒资数据库为采用本申请实施例提供的数据处理方法预先建立的。

又一方面，本申请实施例提供一种计算机设备，包括存储器和处理器，所述存储器存储有可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述方法中的步骤。

又一方面，本申请实施例提供一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现上述方法中的步骤。

又一方面，本申请实施例提供一种计算机程序，包括计算机可读代码，当所述计算机可读代码在计算机设备中运行时，所述展示设备中的处理器执行用于实现上述方法中的步骤。

本申请实施例中，对待分析的多媒体文件列表中的每一多媒体文件，基于由该多媒体文件的文件类型确定的人脸检测模型，对该多媒体文件中的人脸进行检测，得到该多媒体文件中的第一目标人脸特征和每一第一目标人脸特征对应的媒资数据列表，并基于每一多媒体文件中的第一目标人脸特征和媒资数据列表，建立媒资数据库。这样，由于不同的人脸检测模型具有不同的检测效率和检测精度，因此，在进行人脸检测时，可以根据多媒体文件的文件类型采用合适的人脸检测模型来平衡检测人脸的精度与检测效率，从而可以快速而准确地获得第一目标人脸特征和媒资数据列表，进而可以快速而准确地建立媒资数据库。进一步地，还可以提高在建立好的媒资数据库中进行媒资数据检索时的检索准确率，从而可以从海量信息中快速准确地定位用户预期的检索结果。

附图说明

图1为本申请实施例提供的数据处理方法的实现流程示意图；

图2为本申请实施例提供的数据处理方法的实现流程示意图；

图3为本申请实施例提供的数据处理方法的实现流程示意图；

图4为本申请实施例提供的数据处理方法的实现流程示意图；

图5为本申请实施例提供的数据检索方法的实现流程示意图；

图6A为本申请实施例提供的图像/视频数据分析装置的组成结构示意图；

图6B为本申请实施例提供的以脸或人名搜索图像/视频的装置的组成结构示意图；

图7为本申请实施例数据处理装置的组成结构示意图；

图8为本申请实施例数据检索装置的组成结构示意图；

图9为本申请实施例提供的一种计算机设备的硬件实体示意图。

具体实施方式

为了使本申请的目的、技术方案和优点更加清楚，下面结合附图和实施例对本申请的技术方案进一步详细阐述，所描述的实施例不应视为对本申请的限制，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本申请保护的范围。

在以下的描述中，涉及到“一些实施例”，其描述了所有可能实施例的子集，但是可以理解，“一些实施例”可以是所有可能实施例的相同子集或不同子集，并且可以在不冲突的情况下相互结合。

如果申请文件中出现“第一/第二”的类似描述则增加以下的说明，在以下的描述中，所涉及的术语“第一\第二\第三”仅仅是区别类似的对象，不代表针对对象的特定排序，可以理解地，“第一\第二\第三”在允许的情况下可以互换特定的顺序或先后次序，以使这里描述的本申请实施例能够以除了在这里图示或描述的以外的顺序实施。

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请的目的，不是旨在限制本申请。

为了更好地理解本申请实施例，首先对相关技术中采用的对视频或图片中的人脸进行检测的方法进行说明。

在相关技术中，在对视频中的人脸进行跟踪检测以获取视频中单个人物的视频片段时，主要根据人脸位置预测实现人脸跟踪，利用当前帧与相邻帧的深度差判断人脸轮廓的有效性。该方法无法有效地处理合成镜头引起的人脸跳变，从而无法准确地获取到视频中单个人物的视频片段。此外，在对视频或图片中的人脸进行检测时，相关技术中通常只采用检测精度高但检测效率低的人脸检测模型进行检测以确保检测出图片或视频中的所有人脸，或者只采用检测效率高但检测精度低的人脸检测模型以确保足够高的检测效率，而无法有效地平衡人脸的检测精度与检测效率。

本申请实施例提供一种数据处理方法，该方法可以由处理器执行。图1为本申请实施例提供的数据处理方法的实现流程示意图，如图1所示，该方法包括：

步骤S101，获取待分析的多媒体文件列表；其中，多媒体文件列表中包括至少一种文件类型的多媒体文件；

这里，待分析的多媒体文件列表为需要进行数据分析处理的多媒体文件或多媒体文件的统一资源定位符(Uniform Resource Locator，URL)组成的列表。需要进行数据分析处理的多媒体文件可以包括但不限于图片、视频、图形等，可以是预先存储在本地存储器、数据库或远端服务器等中的文件，也可以是通过多媒体采集设备实时采集后生成的文件。在实施时，可以从本地存储器、数据库、远端服务器或多媒体采集设备等中的一处或多处获取需要进行数据分析处理的多媒体文件，从而得到待分析的多媒体文件列表。

文件类型可以包括但不限于图片、图形、视频等，本领域技术人员可以根据实际情况确定多媒体文件列表中包括的多媒体文件的文件类型，这里并不限定。

步骤S102，基于每一多媒体文件的文件类型，确定多媒体文件对应的人脸检测模型，其中，不同的人脸检测模型具有不同的检测效率和检测精度；

这里，人脸检测模型可以包括但不限于基于人脸特征点的人脸检测模型、基于整幅人脸图像的人脸检测模型、基于卷积神经网络的人脸检测模型等中的一种或多种，采用不同的人脸检测模型对多媒体文件中的人脸进行检测时，具有不同的检测效率和检测人脸的精度。

多媒体文件对应的人脸检测模型为用于对该多媒体文件中的人脸进行检测的图像处理模型，可以根据多媒体文件的文件类型确定与该多媒体文件对应的人脸检测模型。例如，对于图片类型的多媒体文件和视频类型的多媒体文件，可以分别具有各自对应的人脸检测模型。在实施时，本领域技术人员可以根据实际情况确定不同文件类型对应的人脸检测模型，这里并不限定。

步骤S103，基于每一多媒体文件对应的人脸检测模型，对多媒体文件中的人脸进行检测，得到媒资数据列表和多媒体文件中的第一目标人脸特征，其中，每一媒资数据列表与每一第一目标人脸特征之间具有对应关系；

这里，媒资数据列表中的媒资数据可以是包含与该媒资数据列表对应的第一目标人脸特征匹配的目标人脸的多媒体素材，可以包括但不限于包含该目标人脸的图片、包含该目标人脸的视频片段等中的一种或多种。第一目标人脸特征可以用于表征媒资数据列表中各媒资数据均包含的目标人脸。

例如，当多媒体文件为图片时，可以利用图片文件对应的人脸检测模型对该图片进行人脸检测，得到该图片中包含的目标人脸和每一目标人脸对应的人脸特征。由于每一人脸特征对应该图片中包含的一个目标人脸，即每一人脸特征可以表征该图片中的一个目标人脸，因而可以将该图片中的每一人脸特征确定为该图片中的第一目标人脸特征，将该图片作为媒资数据加入每一第一目标人脸特征对应的媒资数据列表中。

又如，当多媒体文件为视频时，可以利用视频文件对应的人脸检测模型对该视频进行人脸检测，得到该视频中包含的目标人脸以及每一目标人脸对应的人脸特征和包含该目标人脸的各视频片段。由于每一人脸特征对应该视频中包含的一个目标人脸，即每一人脸特征可以表征该视频中的一个目标人脸，因而可以将该视频中的每一人脸特征确定为该视频中的第一目标人脸特征，并针对每一第一目标人脸特征，将该视频中包含该人脸特征表征的目标人脸的各视频片段作为媒资数据，加入每一第一目标人脸特征对应的媒资数据列表中。

步骤S104，基于每一多媒体文件中的第一目标人脸特征和媒资数据列表，建立媒资数据库。

这里，媒资数据库可以用于存储人脸特征以及与每一人脸特征对应的媒资数据列表。根据人脸特征，可以在媒资数据库中检索相应的媒资数据列表。媒资数据库可以是关系型数据库，例如MySQL、SQLServer等，也可以是非关系型数据库，例如MongoDB、Redis、Memcache等。在实施时，本领域技术人员可以根据实际情况选择合适媒资数据库的类型，本申请实施例对此并不限定。在一些实施例中，为了便于检索，还可以为媒资数据库建立合适的索引，以提高数据库的检索效率。

本申请实施例提供的数据处理方法，对待分析的多媒体文件列表中的每一多媒体文件，基于由该多媒体文件的文件类型确定的人脸检测模型，对该多媒体文件中的人脸进行检测，得到该多媒体文件中的第一目标人脸特征和每一第一目标人脸特征对应的媒资数据列表，并基于每一多媒体文件中的第一目标人脸特征和媒资数据列表，建立媒资数据库。这样，由于不同的人脸检测模型具有不同的检测效率和检测精度，因此，在进行人脸检测时，可以根据多媒体文件的文件类型采用合适的人脸检测模型来平衡检测人脸的精度与检测效率，从而可以快速而准确地获得第一目标人脸特征和媒资数据列表，进而可以快速而准确地建立媒资数据库。进一步地，还可以提高在建立好的媒资数据库中进行媒资数据检索时的检索准确率，从而可以从海量信息中快速准确地定位用户预期的检索结果。

本申请实施例提供一种数据处理方法，该方法可以由处理器执行。如图2所示，该方法包括：

步骤S201，获取待分析的多媒体文件列表；其中，多媒体文件列表中包括至少一种文件类型的多媒体文件；

这里，步骤S201对应于前述步骤S101，在实施时可以参照前述步骤S101的具体实施方式。

步骤S202，基于每一多媒体文件的文件类型，确定多媒体文件对应的人脸检测模型；其中，不同的人脸检测模型具有不同的检测效率和检测精度，在多媒体文件为图片的情况下，确定多媒体文件对应的人脸检测模型包括第一检测模型。

这里，第一检测模型可以是任意合适的适用于图片的人脸检测模型，包括但不限于基于多任务级联卷积神经网络(Multi-task Cascaded Convolutional Networks，MTCNN)的人脸检测模型、基于多尺度的人脸检测模型等。

在一些实施例中，第一检测模型可以是复杂度较低，性能较高，但人脸的检测精度较低的人脸检测模型，这种检测模型对待检测图片中人脸的清晰度、朝向等要求较高，但检测效率也较高。例如，对于多媒体文件是清晰的人脸大头证件照的情况，可以使用该人脸检测模型。

在一些实施例中，第一检测模型可以是复杂度较高，性能较低，但人脸的检测精度较高的人脸检测模型，这种检测模型对待检测图片中人脸的清晰度、朝向等要求较低，但检测效率也较低。例如，对于多媒体文件是清晰度较低的人物远景照的情况，可以使用该人脸检测模型。

步骤S203，基于每一多媒体文件对应的人脸检测模型，对多媒体文件中的人脸进行检测，得到媒资数据列表和多媒体文件中的第一目标人脸特征，其中，每一媒资数据列表与每一第一目标人脸特征之间具有对应关系；

步骤S204，基于每一多媒体文件中的第一目标人脸特征和媒资数据列表，建立媒资数据库。

这里，步骤S203和步骤S204对应于前述步骤S103和步骤S104，在实施时可以参照前述步骤S103和步骤S104的具体实施方式。

在一些实施例中，上述步骤S202可以包括：在所述多媒体文件为图片的情况下，确定所述多媒体文件对应的人脸检测模型包括第一检测模型和第二检测模型；其中，所述第一检测模型的检测效率高于所述第二检测模型的检测效率，所述第一检测模型检测人脸的精度低于所述第二检测模型检测人脸的精度。

这里，第二检测模型的检测效率低于第一检测模型，但第二检测模型检测人脸的精度高于第一检测模型。在实施时，第一检测模型和第二检测模型可以是任意满足该检测效率和检测人脸的精度条件的合适的人脸检测模型，本领域技术人员可以根据实际情况确定合适的第一检测模型和第二检测模型，这里并不限定。

在一些实施例中，上述步骤S203可以包括：

步骤S2031，在所述多媒体文件为图片的情况下，基于所述第一检测模型，对所述图片中的人脸进行检测，得到所述图片对应的第一目标人脸特征列表，其中，所述第一目标人脸特征列表包含所述图片中人脸的第一目标人脸特征；

这里，图片对应的第一目标人脸特征列表包含图片中每一人脸的第一目标人脸特征。基于第一检测模型对图片中的人脸进行检测，可以得到该图片中包含的人脸和每一人脸对应的人脸特征。

步骤S2032，针对所述人脸特征列表中的每一第一目标人脸特征，将所述图片加入所述第一目标人脸特征对应的媒资数据列表。

这里，由于每一人脸特征对应该图片中包含的一个人脸，即每一人脸特征可以表征该图片中的一个人脸，因而可以将该图片中的每一人脸特征确定为该图片中的第一目标人脸特征，将该图片作为媒资数据加入每一第一目标人脸特征对应的媒资数据列表中。

在一些实施例中，上述步骤S2031可以包括：

步骤S2031a，采用所述第一检测模型对所述图片中的人脸进行检测，得到所述图片对应的第一目标人脸特征列表；

步骤S2031b，在第一目标人脸特征列表为空的情况下，采用所述第二检测模型对所述图片中的人脸进行检测，得到所述图片对应的第一目标人脸特征列表。

这里，当第一目标人脸特征列表为空时，说明采用第一检测模型在图片上未检测到人脸。由于相比于第一检测模型，第二检测模型的复杂度较高，检测人脸的精度也较高，在第一检测模型未检测到人脸时，采用第二检测模型对图片中的人脸进行检测时，可以检测到第一检测模型漏检的人脸，从而可以保证人脸的检测召回率。

本申请实施例提供的数据处理方法，采用第一检测模型对图片中的人脸进行检测，以获得图片中的人脸特征，这样，可以有效保证对图片进行人脸检测时的检测效率和检测准确率，从而提升媒资数据库中与第一目标人脸特征对应的媒资数据列表中图片数据的准确性，进而提高在媒资数据库中通过人脸特征进行图片检索的准确性。此外，在采用第一检测模型对图片中的人脸进行检测时，检测到的第一目标人脸特征列表为空时，可以采用检测人脸的精度高于第一检测模型的第二检测模型对图片中的人脸进行再次检测，这样，由于第一检测模型的检测效率较高，第二检测模型检测人脸的精度较高，可以检测到第一检测模型漏检的人脸，因而，在对图片进行人脸检测时可以更好地平衡检测效率和检测人脸的精度，从而进一步提高媒资数据库中与第一目标人脸特征对应的媒资数据列表中图片数据的准确性以及建立媒资数据库的效率，进而可以进一步提高在媒资数据库中通过人脸特征进行图片检索的准确性。

本申请实施例提供一种数据处理方法，该方法可以由处理器执行。如图3所示，该方法包括：

步骤S301，获取待分析的多媒体文件列表；其中，多媒体文件列表中包括至少一种文件类型的多媒体文件；

这里，步骤S301对应于前述步骤S101，在实施时可以参照前述步骤S101的具体实施方式。

步骤S302，基于每一多媒体文件的文件类型，确定多媒体文件对应的人脸检测模型；其中，不同的人脸检测模型具有不同的检测效率和检测精度，在多媒体文件为视频的情况下，确定人脸检测模型包括第三检测模型，第三检测模型的检测效率低于第一检测模型的检测效率且高于第二检测模型的检测效率，第三检测模型检测人脸的精度高于第一检测模型检测人脸的精度且低于第二检测模型检测人脸的精度。

这里，由于视频中的人脸通常较小，且视频中包括多个图像帧，对视频中的人脸进行检测时需要对多个图像帧都进行检测，因此，对视频中的人脸进行检测时采用的人脸检测模型要求检测人脸的精度较高且检测效率也较高。因此，第三检测模型需要满足：检测效率低于第一检测模型的检测效率且高于第二检测模型的检测效率，检测人脸的精度高于第一检测模型检测人脸的精度且低于第二检测模型检测人脸的精度。

第一检测模型可以是复杂度较低，性能较高，但人脸的检测精度较低的人脸检测模型，这种检测模型对待检测图片中人脸的清晰度、朝向等要求较高。例如，对于多媒体文件是清晰的人脸大头证件照的情况，可以适应该人脸检测模型。

第二检测模型可以是复杂度较高，性能较低，但人脸的检测精度较高的人脸检测模型，这种检测模型对待检测图片中人脸的清晰度、朝向等要求较低。例如，对于多媒体文件是清晰度较低的人物远景照的情况，可以适应该人脸检测模型。

步骤S303，基于每一多媒体文件对应的人脸检测模型，对所述多媒体文件中的人脸进行检测，得到媒资数据列表和所述多媒体文件中的第一目标人脸特征，其中，每一媒资数据列表与每一第一目标人脸特征之间具有对应关系；

步骤S304，基于每一多媒体文件中的第一目标人脸特征和媒资数据列表，建立媒资数据库。

这里，步骤S303和步骤S304对应于前述步骤S103和步骤S104，在实施时可以参照前述步骤S103和步骤S104的具体实施方式。

在一些实施例中，上述步骤S303可以包括：

步骤S3031，在所述多媒体文件为视频的情况下，采用所述第三检测模型对所述视频中的人脸进行检测，得到所述视频的人物视频片段列表；

这里，人物视频片段列表中包括视频中的每一人物视频片段。人物视频片段为视频中目标人物从出现到消失的一次完整过程对应的视频片段。在实施时，可以借助人脸跟踪技术，标识目标人物在视频中的片段信息(如人脸出现的时刻、人脸消失的时刻以及各个视频帧中检测到的人脸检测框在视频帧中的位置信息等)，根据标识的片段信息，可以确定视频中与目标人物对应的人物视频片段。本领域技术人员可以根据实际情况选择合适的人脸跟踪方式对视频中的人脸进行跟踪，得到人物视频片段列表，本申请实施例对此并不限定。例如，可以通过对人脸位置进行预测实现人脸跟踪；也可以根据当前帧与相邻帧之间的深度差判断人脸轮廓的有效性，进而实现人脸跟踪；还可以逐帧提取视频中的人脸特征，通过逐帧逐个比对人脸特征实现人脸跟踪。

在一些实施例中，可以采用第三检测模型对视频进行逐帧人脸检测，得到视频的人物视频片段列表。这里，可以通过第三检测模型逐帧提取视频中的人脸特征，通过逐帧比对各帧中的人脸特征实现人脸跟踪，根据人脸跟踪的结果可以确定视频中各个人物对应的视频片段，从而得到视频的人物视频片段列表。在一些实施例中，还可以对多个视频批量逐帧进行人脸检测，得到视频的人物视频片段列表。

在一些实施例中，当视频中同一片段出现多人时，可以针对每个人形成单独的人物视频片段。

步骤S3032，基于所述人物视频片段列表，确定所述视频中人脸特征与人物视频片段之间的映射关系；

这里，人物视频片段列表中每一人物视频片段对应一个目标人物。人脸特征与人物视频片段之间的映射关系为人物视频片段与表征该人物视频片段对应的目标人物的人脸特征之间的映射关系。在实施时，可以根据人物视频片段的每一帧中目标人物的人脸特征，确定用于表征该目标人物的人脸特征，进而可以确定人脸特征与人物视频片段之间的映射关系。

步骤S3033，根据所述映射关系，确定所述视频中的第一目标人脸特征和媒资数据列表。

这里，视频中的媒资数据列表中包括视频中对应同一目标人物的人物视频片段，该目标人物与该媒资数据列表也可以是对应的。第一目标人脸特征为用于表征媒资数据列表对应的目标人物的人脸特征。

在实施时，若媒资数据列表中的每一人物视频片段对应的人脸特征相同，则可以将该人脸特征确定为与该媒资数据列表对应的第一目标人脸特征。若媒资数据列表中的各人物视频片段对应的人脸特征不同，则可以根据各个人物视频片段对应的人脸特征确定目标人物的人脸特征，将该人脸特征作为与该媒资数据列表对应的第一目标人脸特征。本领域技术人员可以根据实际情况选择合适的方式确定与媒资数据列表对应的第一目标人脸特征，这里并不限定。

在一些实施例中，上述步骤S3032可以包括：

步骤S3032a，针对所述人物视频片段列表中的每一人物视频片段，确定所述人物视频片段对应的人脸特征；

这里，可以根据人物视频片段的每一帧中目标人物的人脸特征，确定人物视频片段对应的人脸特征。在实施时，人物视频片段对应的人脸特征可以是该人物视频片段的每一帧中目标人物的人脸特征中的一个，也可以是基于每一帧中目标人物的人脸特征生成的新的人脸特征，这里并不限定。

步骤S3032b，将所述人脸特征与所述人物视频片段之间的对应关系加入所述视频对应的映射关系。

在一些实施例中，上述步骤S3032a可以包括：对所述人物视频片段中检测到的每一人脸进行特征提取，得到每一所述人脸对应的人脸特征；确定所述人脸特征的人脸质量分数；根据每一人脸质量分数，确定所述人物视频片段中的第二目标人脸特征；将所述第二目标人脸特征确定为所述人物视频片段对应的人脸特征。

这里，人脸质量分数可以由人脸清晰度参数、人脸偏仰角参数、人脸关键点置信度和人脸检测框置信度等中的一种或多种参数计算得到。根据人脸质量分数确定第二目标人脸特征，可以过滤人物视频片段中的非人脸特征，降低将非人脸目标识别成人脸目标的概率以及降低在根据人脸特征查询媒资数据库时出现人脸匹配错误的概率。第二目标人脸特征可以是人物视频片段中检测到的人脸质量分数最高的人脸特征，可以包括但不限于清晰度最高的人脸特征、偏仰角度最佳的人脸特征等。在实施时，可以根据实际情况确定人脸质量分数的计算方式以及根据人脸质量分数确定第二目标人脸特征的方式，这里并不限定。

在一些实施例中，上述步骤S3033可以包括：

步骤S3033a，对所述映射关系中的人脸特征进行特征聚类，得到第一聚类结果；

这里，通过对映射关系中的人脸特征进行特征聚类，可以识别出同一目标人物在视频中出现的多个人物视频片段。在实施时，可以采用任意合适的距离算法对人脸特征进行特征聚类，例如K均值聚类、均值漂移聚类、凝聚层次聚类等，这里并不限定。

步骤S3033b，针对所述第一聚类结果中的每一聚类分组，确定所述聚类分组的第一目标人脸特征；

这里，第一目标人脸特征为用来代表该聚类分组的人脸特征，可以是聚类分组的聚类中心对应的人脸特征，也可以是该聚类分组中质量最佳的人脸特征，如清晰度最高的人脸特征、偏仰角度最佳的人脸特征等。在实施时，本领域技术人员可以根据实际情况确定合适的第一目标人脸特征，这里并不限定。

步骤S3033c，基于所述映射关系，得到所述聚类分组中每一人脸特征对应的媒资数据；

步骤S3033d，将所述每一人脸特征对应的媒资数据，加入所述第一目标人脸特征对应的媒资数据列表。

本申请实施例提供的数据处理方法，采用第三检测模型对视频中的人脸进行检测，以获得视频中的人脸特征，这样，由于第三检测模型检测人脸的精度相对第一检测模型较高且检测效率相对第二检测模型也较高，从而可以有效保证对视频进行人脸检测时的检测效率和检测准确率，从而可以提升媒资数据库中与第一目标人脸特征对应的媒资数据列表中视频片段数据的准确性，进而可以提高在媒资数据库中通过人脸特征进行视频片段检索的准确性。

此外，可以采用第三检测模型对视频进行逐帧人脸检测，得到视频的人物视频片段列表。这样，使用逐帧逐个人脸特征比对的方式进行人脸跟踪，可以减少合成镜头引起人脸跳变时的误检，保证人脸识别的准确性。进一步地，还可以对多个视频批量逐帧进行人脸检测，从而可以大幅提升对视频进行人脸检测的效率。

本申请实施例提供一种数据处理方法，该方法可以由处理器执行。如图4所示，该方法包括：

步骤S401，获取待分析的多媒体文件列表；其中，多媒体文件列表中包括至少一种文件类型的多媒体文件；

步骤S402，基于每一多媒体文件的文件类型，确定多媒体文件对应的人脸检测模型；其中，不同的人脸检测模型具有不同的检测效率和检测精度；

步骤S403，基于每一多媒体文件对应的人脸检测模型，对多媒体文件中的人脸进行检测，得到媒资数据列表和所述多媒体文件中的第一目标人脸特征，其中，每一媒资数据列表与每一第一目标人脸特征之间具有对应关系；

这里，步骤S401至步骤S403对应于前述步骤S101至步骤S103，在实施时可以参照前述步骤S101至步骤S103的具体实施方式。

步骤S404，将每一多媒体文件中的每一第一目标人脸特征加入待聚类特征集合；

步骤S405，对待聚类特征集合中的人脸特征进行特征聚类，得到第二聚类结果；

步骤S406，针对第二聚类结果中的每一聚类分组，确定聚类分组的第三目标人脸特征；

这里，第三目标人脸特征为用来代表该聚类分组的人脸特征，可以是聚类分组的聚类中心对应的人脸特征，也可以是该聚类分组中质量最佳的人脸特征，如清晰度最高的人脸特征、偏仰角度最佳的人脸特征等。在实施时，本领域技术人员可以根据实际情况确定合适的第三目标人脸特征，这里并不限定。

步骤S407，针对聚类分组中的每一人脸特征，将每一人脸特征对应的媒资数据列表中的媒资数据加入第三目标人脸特征对应的媒资数据列表；

步骤S408，将每一第三目标人脸特征和第三目标人脸特征对应的媒资数据列表存储至媒资数据库。

本申请实施例提供的数据处理方法，对每一多媒体文件中的每一第一目标人脸特征进行特征聚类，可以将不同多媒体文件中对应同一目标人物的媒资数据聚合到一个媒资数据列表中，并建立该聚合后的媒资数据列表与第三目标人脸特征之间的对应关系。这样，可以减少建立的媒资数据库中的人脸特征的数量，从而可以提高利用人脸特征在媒资数据库中检索媒资数据时的检索效率，并能提高人脸特征数据的传输和存储效率。

本申请实施例提供一种数据检索方法，该方法可以由计算机设备的处理器执行，如图5所示，该方法包括：

步骤S501，获取待检索人物的检索输入信息；

这里，检索输入信息可以为用户输入的可以识别待检索人物的信息，可以包括但不限于待检索人物的人脸图像、人名、身份证号、护照号等中的一种或多种。

步骤S502，基于检索输入信息，获取待检索人物的人脸特征；

这里，由于检索输入信息可以识别待检索人物，因而基于检索输入信息，可以获得待检索人物的人脸特征。

步骤S503，在预先建立的媒资数据库中，对人脸特征进行检索，得到检索结果，其中，媒资数据库为采用本申请实施例提供的数据处理方法预先建立的。

这里，检索结果包括与待检索人物相关的媒资数据，可以包括但不限于包含待检索人物的图片、图形、视频片段等中的一种或多种。在实施时，可以采用媒资数据库支持的任意合适的检索方式对人脸特征进行检索，这里并不限定。

其中，预先建立的媒资数据库可以是通过上述图1至图4任意一实施例建立的媒资数据库。

在一些实施例中，上述步骤S502可以包括：在所述检索输入信息为人脸图像的情况下，对所述人脸图像进行特征提取，得到所述待检索人物的人脸特征。这里，可以采用任意合适的特征提取模型对人脸图像进行特征提取，这里并不限定。

在一些实施例中，上述步骤S502可以包括：在所述检索输入信息为人脸标识的情况下，根据所述人脸标识，查询预先建立的人脸特征库，得到所述待检索人物对应的人脸特征。这里，人脸标识为待检索人物在预先建立的人脸特征库中的标识，可以包括但不限于待检索人物的人名、身份证号、护照号等中的一种或多种。在一些实施例中，人脸标识还可以是人脸特征库中人脸特征的标识。

在一些实施例中，上述步骤S503可以包括：

步骤S5031，将所述媒资数据库中与所述人脸特征相似度超过特定的相似度阈值的人脸特征加入候选特征列表；

这里，可以采用任意合适的特征比对算法对确定人脸特征之间的相似度。特定的相似度阈值可以是预先设置的值也可以是一个默认值，这里并不限定。

步骤S5032，根据所述候选特征列表，查询所述媒资数据库，得到与所述候选特征列表中每一人脸特征对应的媒资数据列表；

步骤S5033，针对每一媒资数据列表，将所述媒资数据列表中的各媒资数据加入检索结果。

本申请实施例提供的数据检索方法，根据检索输入信息，获取待检索人物的人脸特征，在预先建立的媒资数据库中，对该人脸特征进行检索，得到检索结果。这样，由于预先建立的媒资数据库中存储了人脸特征与媒资数据列表之间的对应关系，可以对人脸特征直接进行检索，获得与待检索人物相关的媒资数据，从而可以有效提高检索的效率。并且，由于媒资数据库为采用本申请实施例提供的数据处理方法预先建立的，存储了更加准确的人脸特征与媒资数据列表之间的对应关系，因而，可以有效提高检索的准确率。此外，检索输入信息可以为待检索人物的人脸图像，也可以为待检索人物的人脸标识，这样，可以支持通过多种检索输入信息进行检索，具有更好的灵活性，从而可以更好地满足用户的检索需求。

本申请实施例可以应用于广播电视媒资管理、融媒体中心媒资管理、互联网媒资管理等相关的产品中，可以应用的场景包括但不限于搜索人物视频片段、敏感人物视频过滤等。例如，应用于搜索人物视频片段时，可以用于搜索目标人物的视频片段，供节目制作使用，如制作名人年终汇总视频、明星个人视频集锦等节目及短视频等；应用于敏感人物视频过滤时，可以用于对媒资库中的敏感人物的视频片段或图片进行翻库清理。

下面将说明本申请实施例在实际应用场景中的一个示例性应用，本申请实施例提供一种数据检索方法，该方法首先采用计算机视觉结合机器学习与深度学习技术，建立人脸特征分析和提取模型，并分析图像/视频帧中的人脸信息；再借助人脸跟踪技术，标识目标人物在视频中的片段信息；然后采用特征比对算法，对视频片段进行聚合处理，最终建立人脸特征与视频片段的媒资数据库；最后，在检索时，提取输入的目标人物人脸图片的人脸特征，借助特征比对算法，在建立好的媒资数据库中检索目标人物的图像与视频信息。

本申请实施例提供的检索方法包含以下两个主要技术装置：图像/视频数据分析装置、以脸或人名搜索图像/视频的装置。下面分别对这两个主要技术流程的具体实施过程进行说明。

第一部分、图像/视频数据分析装置

图6A为本申请实施例提供的图像/视频数据分析装置的功能模块示意图，如图6A所示，该装置包括以下功能模块：

多媒体文件模块611，包括：将图像/视频文件等媒体资源或媒体资源的URL等接入任务信息存入特征提取任务队列；同时，将媒体资源的唯一资源标识信息、文件名/URL信息、时长、帧率等元信息一并存入数据库中；

特征提取/跟踪模块612，包括：通过特征提取服务针对图像、视频等创建对应的上下文特征信息；对于图片，采用大脸模型进行人脸检测，若未检测到人脸，继续采用常规模型进行人脸检测，保障人脸检测率，减少漏检；对于视频，采用小脸模型进行人脸检测，在保障人脸检测精度的同时也保障人脸检测性能；对视频进行人脸检测时，每检测到一个完整人物的视频片段，将该片段首尾人脸信息(如人脸在视频片段出现的时刻、消失时刻以及人脸框在视频帧中的位置信息等)及该视频片段中的最佳人脸特征信息进行缓存；当视频处理完毕后，将缓存的特征信息进行存储，并将存储路径信息发至特征聚类模块613；

这里，大脸模型、小脸模型和常规模型可以为三种复杂度不同、速度和精度也不同的人脸检测模型，采用三种复杂度不同、速度和精度也不同的人脸检测模型来分别适应不同的应用场景，可以保证检测效率和检测精度的平衡。对于输入是清晰的人脸大头证件照情形，使用大脸模型进行人脸检测，三种模型中该模型复杂度最低，性能最高，精度最低。对于视频监控场景，则使用小脸模型，该模型相对大脸模型复杂度变高，性能降低，但精度更高，能适应视频中人脸较小的场景。三种模型中，常规模型则相对复杂度最高，精度最高，性能最低，适合于对单张图像进行人脸检测时，使用大脸模型没有检测到人脸时的情况。

特征聚类模块613，包括：获取到完整的特征提取信息后，逐条分析特征信息，对一部视频的所有人物片段进行聚类，选择出人物在所有片段中人脸质量最好的人脸特征作为该人物的代表特征；根据特征聚类算法，将相似度达到特定相似度阈值的人脸特征存入同一分组，直至最后一条特征数据也进入相应分组；在所有特征聚类结束后，将聚类结果写入特征存储队列。

特征存储模块614，包括：对每一部视频的聚类结果或图片的特征提取结果，与数据库中已经存储的视频及图片的聚类结果进行二次聚类，将聚类结果持久化至数据库并常驻显存，用于后续的特征检索。

第二部分、以脸搜索图像/视频的装置

图6B为本申请实施例提供的以脸或人名搜索图像/视频的装置的组成结构示意图，如图6B所示，该流程包括以下功能模块：

人脸图像/人名模块621，包括：获取前端上传的目标人物的单张人脸图像或输入的目标人物的名称；

特征提取模块622，包括：对于单张人脸图像，提取单张人脸图像的人脸特征信息；对于目标人物的名称，则从人脸库中检索目标人物的人脸特征列表；将提取的人脸特征信息或检索的人脸特征列表下发至特征搜索模块623；

这里，人脸库为预先建好的，人脸库中的人脸特征为提前从只包含名称对应的目标人物的单人脸的高清照片中提取特征信息后保存入库。

特征搜索模块623，包括：通过特征比对算法，在媒资数据库中检索与特征提取模块622下发的人脸特征相似度超过特定阈值的所有候选特征。

媒资返回模块624，包括：根据候选特征从媒资数据库中获取与目标人物关联的媒资数据，并返回该媒资数据。

本申请实施例提供的数据检索方法与相关技术至少存在以下区别：

1)本申请实施例支持多路视频同时逐帧批量提取每个视频中的所有人脸特征，可以解决合成镜头引起人脸跳变时误检的问题，同时批量方式可以大幅度提升特征提取的性能；而相关技术中的方法主要根据人脸位置预测实现人脸跟踪，利用当前帧与相邻帧的深度差判断人脸轮廓的有效性，无法有效地处理合成镜头引起的人脸跳变。

2)本申请实施例采用常规、大脸、小脸等多种检测模式对人脸进行组合检测，可以平衡检测精度与检测效率的问题；而相关技术中的方法要么只采用常规模式检测所有人脸，要么只采用大脸模式以提高检测效率，准确度与效率的平衡程度不如本申请实施例有效。

本申请实施例提供的数据检索方法具有以下有益效果：

1)在进行人脸检测时，针对图像和视频，针对不同的人脸应用场景，采用常规、大脸、小脸等多种检测模式对人脸进行组合检测，可以在拥有更高的检测精度的同时仍能保持较高的检测效率，漏检、错检大大降低；

2)在进行人脸跟踪时，对视频进行逐帧特征提取，可以减少纯粹基于人脸位置预测技术在镜头切换时会带来人脸误识别的缺陷，使用逐帧逐个人脸特征比对的方式可以保证人脸识别的准确性；

3)对单个视频的分析结果进行特征聚类后，再次在不同视频和图片分析结果间进行二次增量全局特征聚类，可降低特征数据体积，提升特征数据传输、存储效率。

基于前述的实施例，本申请实施例提供一种数据处理装置，该装置包括所包括的各单元、以及各单元所包括的各模块，可以通过计算机设备中的处理器来实现；当然也可通过具体的逻辑电路实现；在实施的过程中，处理器可以为中央处理器(Central ProcessingUnit，CPU)、微处理器(Microprocessor Unit，MPU)、数字信号处理器(Digital SignalProcessor，DSP)或现场可编程门阵列(Field Programmable Gate Array，FPGA)等。

图7为本申请实施例数据处理装置的组成结构示意图，如图7所示，数据处理装置700包括：第一获取模块710、确定模块720、检测模块730和建立模块740，其中：

第一获取模块710，用于获取待分析的多媒体文件列表；其中，所述多媒体文件列表中包括至少一种文件类型的多媒体文件；

确定模块720，用于基于每一多媒体文件的文件类型，确定所述多媒体文件对应的人脸检测模型；其中，不同的人脸检测模型具有不同的检测效率和检测精度；

检测模块730，用于基于每一多媒体文件对应的人脸检测模型，对所述多媒体文件中的人脸进行检测，得到媒资数据列表和所述多媒体文件中的第一目标人脸特征，其中，每一媒资数据列表与每一第一目标人脸特征和之间具有一一对应关系；

建立模块740，用于基于每一多媒体文件中的第一目标人脸特征和媒资数据列表，建立媒资数据库。

在一些实施例中，所述确定模块，还用于：在所述多媒体文件为图片的情况下，确定所述多媒体文件对应的人脸检测模型包括第一检测模型。

在一些实施例中，所述确定模块，还用于：在所述多媒体文件为图片的情况下，确定所述多媒体文件对应的人脸检测模型包括第一检测模型和第二检测模型；其中，所述第一检测模型的检测效率高于所述第二检测模型的检测效率，所述第一检测模型检测人脸的精度低于所述第二检测模型检测人脸的精度。

在一些实施例中，所述检测模块，还用于：在所述多媒体文件为图片的情况下，基于所述第一检测模型，对所述图片中的人脸进行检测，得到所述图片对应的第一目标人脸特征列表，其中，所述第一目标人脸特征列表包含所述图片中人脸的第一目标人脸特征；针对所述人脸特征列表中的每一第一目标人脸特征，将所述图片加入所述第一目标人脸特征对应的媒资数据列表。

在一些实施例中，所述检测模块，还用于：采用所述第一检测模型对所述图片中的人脸进行检测，得到所述图片对应的第一目标人脸特征列表；在第一目标人脸特征列表为空的情况下，采用所述第二检测模型对所述图片中的人脸进行检测，得到所述图片对应的第一目标人脸特征列表。

在一些实施例中，所述确定模块，还用于：在所述多媒体文件为视频的情况下，确定人脸检测模型包括第三检测模型，其中，所述第三检测模型的检测效率低于第一检测模型的检测效率且高于第二检测模型的检测效率，所述第三检测模型检测人脸的精度高于第一检测模型检测人脸的精度且低于第二检测模型检测人脸的精度。

在一些实施例中，所述检测模块，还用于：在所述多媒体文件为视频的情况下，采用所述第三检测模型对所述视频中的人脸进行检测，得到所述视频的人物视频片段列表；基于所述人物视频片段列表，确定所述视频中人脸特征与人物视频片段之间的映射关系；根据所述映射关系，确定所述视频中的第一目标人脸特征和媒资数据列表。

在一些实施例中，所述检测模块，还用于：针对所述人物视频片段列表中的每一人物视频片段，确定所述人物视频片段对应的人脸特征；将所述人脸特征与所述人物视频片段之间的对应关系加入所述视频对应的映射关系。

在一些实施例中，所述检测模块，还用于：采用所述第三检测模型对所述视频进行逐帧人脸检测，得到所述视频的人物视频片段列表。

在一些实施例中，所述检测模块，还用于：对所述人物视频片段中检测到的每一人脸进行特征提取，得到每一所述人脸对应的人脸特征；确定所述人脸特征的人脸质量分数；根据每一人脸质量分数，确定所述人物视频片段中的第二目标人脸特征；将所述第二目标人脸特征确定为所述人物视频片段对应的人脸特征。

在一些实施例中，所述检测模块，还用于：对所述映射关系中的人脸特征进行特征聚类，得到第一聚类结果；针对所述第一聚类结果中的每一聚类分组，确定所述聚类分组的第一目标人脸特征；基于所述映射关系，得到所述聚类分组中每一人脸特征对应的媒资数据；将所述每一人脸特征对应的媒资数据，加入所述第一目标人脸特征对应的媒资数据列表。

在一些实施例中，所述建立模块，还用于：将每一多媒体文件中的每一第一目标人脸特征加入待聚类特征集合；对所述待聚类特征集合中的人脸特征进行特征聚类，得到第二聚类结果；针对所述第二聚类结果中的每一聚类分组，确定所述聚类分组的第三目标人脸特征；针对所述聚类分组中的每一人脸特征，将每一人脸特征对应的媒资数据列表中的媒资数据加入所述第三目标人脸特征对应的媒资数据列表；将每一第三目标人脸特征和所述第三目标人脸特征对应的媒资数据列表存储至所述媒资数据库。

本申请实施例提供一种数据检索装置，该装置包括所包括的各单元、以及各单元所包括的各模块，可以通过计算机设备中的处理器来实现；当然也可通过具体的逻辑电路实现；在实施的过程中，处理器可以为中央处理器(CPU)、微处理器(MPU)、数字信号处理器(DSP)或现场可编程门阵列(FPGA)等。

图8为本申请实施例数据检索装置的组成结构示意图，如图8所示，数据检索装置800包括：第二获取模块810、第三获取模块820和检索模块830，其中：

第二获取模块810，用于获取待检索人物的检索输入信息；

第三获取模块820，用于基于所述检索输入信息，获取所述待检索人物的人脸特征；

检索模块830，用于在预先建立的媒资数据库中，对所述人脸特征进行检索，得到检索结果，其中，所述媒资数据库为采用本申请实施例提供的数据处理方法预先建立的。

在一些实施例中，所述第三获取模块还用于：在所述检索输入信息为人脸图像的情况下，对所述人脸图像进行特征提取，得到所述待检索人物的人脸特征。

在一些实施例中，所述第三获取模块还用于：在所述检索输入信息为人脸标识的情况下，根据所述人脸标识，查询预先建立的人脸特征库，得到所述待检索人物对应的人脸特征。

在一些实施例中，所述检索模块还用于：将所述媒资数据库中与所述人脸特征相似度超过特定的相似度阈值的人脸特征加入候选特征列表；根据所述候选特征列表，查询所述媒资数据库，得到与所述候选特征列表中每一人脸特征对应的媒资数据列表；针对每一媒资数据列表，将所述媒资数据列表中的各媒资数据加入检索结果。

以上装置实施例的描述，与上述方法实施例的描述是类似的，具有同方法实施例相似的有益效果。对于本申请装置实施例中未披露的技术细节，请参照本申请方法实施例的描述而理解。

需要说明的是，本申请实施例中，如果以软件功能模块的形式实现上述的数据处理方法或数据检索方法，并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请实施例的技术方案本质上或者说对相关技术做出贡献的部分可以以软件产品的形式体现出来，该软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本申请各个实施例所述方法的全部或部分。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read Only Memory，ROM)、磁碟或者光盘等各种可以存储程序代码的介质。这样，本申请实施例不限制于任何特定的硬件和软件结合。

对应地，本申请实施例提供一种计算机设备，包括存储器和处理器，所述存储器存储有可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述方法中的步骤。

对应地，本申请实施例提供一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现上述方法中的步骤。

这里需要指出的是：以上存储介质和设备实施例的描述，与上述方法实施例的描述是类似的，具有同方法实施例相似的有益效果。对于本申请存储介质和设备实施例中未披露的技术细节，请参照本申请方法实施例的描述而理解。

需要说明的是，图9为本申请实施例中计算机设备的一种硬件实体示意图，如图9所示，该计算机设备900的硬件实体包括：处理器901、通信接口902和存储器903，其中：

处理器901通常控制计算机设备900的总体操作。

通信接口902可以使计算机设备通过网络与其他终端或服务器通信。

存储器903配置为存储由处理器901可执行的指令和应用，还可以缓存待处理器901以及计算机设备900中各模块待处理或已经处理的数据(例如，图像数据、音频数据、语音通信数据和视频通信数据)，可以通过闪存(FLASH)或随机访问存储器(Random AccessMemory，RAM)实现。

应理解，说明书通篇中提到的“一个实施例”或“一实施例”意味着与实施例有关的特定特征、结构或特性包括在本申请的至少一个实施例中。因此，在整个说明书各处出现的“在一个实施例中”或“在一实施例中”未必一定指相同的实施例。此外，这些特定的特征、结构或特性可以任意适合的方式结合在一个或多个实施例中。应理解，在本申请的各种实施例中，上述各过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

在本申请所提供的几个实施例中，应该理解到，所揭露的设备和方法，可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，如：多个单元或组件可以结合，或可以集成到另一个系统，或一些特征可以忽略，或不执行。另外，所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口，设备或单元的间接耦合或通信连接，可以是电性的、机械的或其它形式的。

上述作为分离部件说明的单元可以是、或也可以不是物理上分开的，作为单元显示的部件可以是、或也可以不是物理单元；既可以位于一个地方，也可以分布到多个网络单元上；可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。

另外，在本申请各实施例中的各功能单元可以全部集成在一个处理单元中，也可以是各单元分别单独作为一个单元，也可以两个或两个以上单元集成在一个单元中；上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：移动存储设备、只读存储器(Read Only Memory，ROM)、磁碟或者光盘等各种可以存储程序代码的介质。

或者，本申请上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对相关技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本申请各个实施例所述方法的全部或部分。而前述的存储介质包括：移动存储设备、ROM、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本申请的实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种数据处理方法，其特征在于，所述方法包括：

获取待分析的多媒体文件列表；其中，所述多媒体文件列表中包括至少一种文件类型的多媒体文件；

基于每一多媒体文件的文件类型，确定所述多媒体文件对应的人脸检测模型，其中，不同的人脸检测模型具有不同的检测效率和检测精度；

基于每一多媒体文件对应的人脸检测模型，对所述多媒体文件中的人脸进行检测，得到媒资数据列表和所述多媒体文件中的第一目标人脸特征，其中，每一媒资数据列表与每一第一目标人脸特征之间具有对应关系；

基于每一多媒体文件中的第一目标人脸特征和媒资数据列表，建立媒资数据库。

2.根据权利要求1所述的方法，其特征在于，所述基于每一多媒体文件的文件类型，确定所述多媒体文件对应的人脸检测模型，包括：

在所述多媒体文件为图片的情况下，确定所述多媒体文件对应的人脸检测模型包括第一检测模型。

3.根据权利要求2所述的方法，其特征在于，所述在所述多媒体文件为图片的情况下，确定所述多媒体文件对应的人脸检测模型包括第一检测模型，包括：

在所述多媒体文件为图片的情况下，确定所述多媒体文件对应的人脸检测模型包括第一检测模型和第二检测模型；

其中，所述第一检测模型的检测效率高于所述第二检测模型的检测效率，所述第一检测模型检测人脸的精度低于所述第二检测模型检测人脸的精度。

4.根据权利要求3所述的方法，其特征在于，所述基于每一多媒体文件对应的人脸检测模型，对所述多媒体文件中的人脸进行检测，得到媒资数据列表和所述多媒体文件中的第一目标人脸特征，包括：

在所述多媒体文件为图片的情况下，基于所述第一检测模型，对所述图片中的人脸进行检测，得到所述图片对应的第一目标人脸特征列表，其中，所述第一目标人脸特征列表包含所述图片中人脸的第一目标人脸特征；

针对所述人脸特征列表中的每一第一目标人脸特征，将所述图片加入所述第一目标人脸特征对应的媒资数据列表。

5.根据权利要求4所述的方法，其特征在于，所述基于所述第一检测模型，对所述图片中的人脸进行检测，得到所述图片对应的第一目标人脸特征列表，包括：

采用所述第一检测模型对所述图片中的人脸进行检测，得到所述图片对应的第一目标人脸特征列表；

在第一目标人脸特征列表为空的情况下，采用所述第二检测模型对所述图片中的人脸进行检测，得到所述图片对应的第一目标人脸特征列表。

6.根据权利要求1至5任一项所述的方法，其特征在于，所述基于每一多媒体文件的文件类型，确定所述多媒体文件对应的人脸检测模型，包括：

在所述多媒体文件为视频的情况下，确定人脸检测模型包括第三检测模型，其中，所述第三检测模型的检测效率低于第一检测模型的检测效率且高于第二检测模型的检测效率，所述第三检测模型检测人脸的精度高于第一检测模型检测人脸的精度且低于第二检测模型检测人脸的精度。

7.根据权利要求6所述的方法，其特征在于，所述基于每一多媒体文件对应的人脸检测模型，对所述多媒体文件中的人脸进行检测，得到媒资数据列表和所述多媒体文件中的第一目标人脸特征，包括：

在所述多媒体文件为视频的情况下，采用所述第三检测模型对所述视频中的人脸进行检测，得到所述视频的人物视频片段列表；

基于所述人物视频片段列表，确定所述视频中人脸特征与人物视频片段之间的映射关系；

根据所述映射关系，确定所述视频中的第一目标人脸特征和媒资数据列表。

8.根据权利要求7所述的方法，其特征在于，所述基于所述人物视频片段列表，确定所述视频中人脸特征与人物视频片段之间的映射关系，包括：

针对所述人物视频片段列表中的每一人物视频片段，确定所述人物视频片段对应的人脸特征；

将所述人脸特征与所述人物视频片段之间的对应关系加入所述视频对应的映射关系。

9.根据权利要求7或8所述的方法，其特征在于，所述采用所述第三检测模型对所述视频中的人脸进行检测，得到所述视频的人物视频片段列表，包括：

采用所述第三检测模型对所述视频进行逐帧人脸检测，得到所述视频的人物视频片段列表。

10.根据权利要求8或9所述的方法，其特征在于，所述确定所述人物视频片段对应的人脸特征，包括：

对所述人物视频片段中检测到的每一人脸进行特征提取，得到每一所述人脸对应的人脸特征；

确定所述人脸特征的人脸质量分数；

根据每一人脸质量分数，确定所述人物视频片段中的第二目标人脸特征；

将所述第二目标人脸特征确定为所述人物视频片段对应的人脸特征。

11.根据权利要求7至10任一项所述的方法，其特征在于，所述根据所述映射关系，确定所述视频中的第一目标人脸特征和媒资数据列表，包括：

对所述映射关系中的人脸特征进行特征聚类，得到第一聚类结果；

针对所述第一聚类结果中的每一聚类分组，确定所述聚类分组的第一目标人脸特征；

基于所述映射关系，得到所述聚类分组中每一人脸特征对应的媒资数据；

将所述每一人脸特征对应的媒资数据，加入所述第一目标人脸特征对应的媒资数据列表。

12.根据权利要求1至11任一项所述的方法，其特征在于，所述基于每一多媒体文件中的第一目标人脸特征和媒资数据列表，建立媒资数据库，包括：

将每一多媒体文件中的每一第一目标人脸特征加入待聚类特征集合；

对所述待聚类特征集合中的人脸特征进行特征聚类，得到第二聚类结果；

针对所述第二聚类结果中的每一聚类分组，确定所述聚类分组的第三目标人脸特征；

针对所述聚类分组中的每一人脸特征，将每一人脸特征对应的媒资数据列表中的媒资数据加入所述第三目标人脸特征对应的媒资数据列表；

将每一第三目标人脸特征和所述第三目标人脸特征对应的媒资数据列表存储至所述媒资数据库。

13.一种数据检索方法，其特征在于，所述方法包括：

获取待检索人物的检索输入信息；

基于所述检索输入信息，获取所述待检索人物的人脸特征；

在预先建立的媒资数据库中，对所述人脸特征进行检索，得到检索结果，其中，所述媒资数据库为采用权利要求1至12任一项所述的方法预先建立的。

14.根据权利要求13所述的方法，其特征在于，所述基于所述检索输入信息，获取所述待检索人物的人脸特征，包括：

在所述检索输入信息为人脸图像的情况下，对所述人脸图像进行特征提取，得到所述待检索人物的人脸特征。

15.根据权利要请求13或14所述的方法，其特征在于，所述基于所述检索输入信息，获取所述待检索人物的人脸特征，包括：

在所述检索输入信息为人脸标识的情况下，根据所述人脸标识，查询预先建立的人脸特征库，得到所述待检索人物对应的人脸特征。

16.根据权利要求13至15任一项所述的方法，其特征在于，所述在预先建立的媒资数据库中，对所述人脸特征进行检索，得到检索结果，包括：

将所述媒资数据库中与所述人脸特征相似度超过特定的相似度阈值的人脸特征加入候选特征列表；

根据所述候选特征列表，查询所述媒资数据库，得到与所述候选特征列表中每一人脸特征对应的媒资数据列表；

针对每一媒资数据列表，将所述媒资数据列表中的各媒资数据加入检索结果。

17.一种数据处理装置，其特征在于，包括：

第一获取模块，用于获取待分析的多媒体文件列表；其中，所述多媒体文件列表中包括至少一种文件类型的多媒体文件；

确定模块，用于基于每一多媒体文件的文件类型，确定所述多媒体文件对应的人脸检测模型；其中，不同的人脸检测模型具有不同的检测效率和检测精度；

检测模块，用于基于每一多媒体文件对应的人脸检测模型，对所述多媒体文件中的人脸进行检测，得到媒资数据列表和所述多媒体文件中的第一目标人脸特征，其中，每一媒资数据列表与每一第一目标人脸特征和之间具有一一对应关系；

建立模块，用于基于每一多媒体文件中的第一目标人脸特征和媒资数据列表，建立媒资数据库。

18.一种数据检索装置，其特征在于，包括：

第二获取模块，用于获取待检索人物的检索输入信息；

第三获取模块，用于基于所述检索输入信息，获取所述待检索人物的人脸特征；

检索模块，用于在预先建立的媒资数据库中，对所述人脸特征进行检索，得到检索结果，其中，所述媒资数据库为采用权利要求1至12任一项所述的方法预先建立的。

19.一种计算机设备，包括存储器和处理器，所述存储器存储有可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现权利要求1至16任一项所述方法中的步骤。

20.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现权利要求1至16任一项所述方法中的步骤。