CN111444822B

CN111444822B - 对象识别方法和装置、存储介质和电子装置

Info

Publication number: CN111444822B
Application number: CN202010215785.XA
Authority: CN
Inventors: 范音
Original assignee: Beijing QIYI Century Science and Technology Co Ltd
Current assignee: Beijing QIYI Century Science and Technology Co Ltd
Priority date: 2020-03-24
Filing date: 2020-03-24
Publication date: 2024-02-06
Anticipated expiration: 2040-03-24
Also published as: CN111444822A

Abstract

本申请提供了一种对象识别方法和装置、存储介质和电子装置，其中，该方法包括：获取与目标视频对应的目标视频特征，其中，所述目标视频特征为预先从目标视频包含第一对象的视频帧中提取的、与所述第一对象对应的视频特征；获取待识别图像的目标图像特征，其中，所述待识别图像为待识别所包含对象的图像；在所述目标视频特征包含与所述目标图像特征匹配的匹配视频特征的情况下，确定从所述待识别图像中识别到目标对象，其中，所述目标对象为所述第一对象中与所述匹配视频特征对应的对象。通过本申请，解决了相关技术中的对象识别方式存在的由于目标图像与该目标在该视频中形象相差较大导致的识别成功率低的问题，提高了对象识别的成功率。

Description

对象识别方法和装置、存储介质和电子装置

技术领域

本申请涉及计算机领域，尤其涉及一种对象识别方法和装置、存储介质和电子装置。

背景技术

目前，部分应用(例如，视频媒体平台的应用)可以提供识人功能。当用户观看视频时，可以触发这个功能，通过人脸识别技术，识别当前画面中出现的人物。

人脸识别采用特征匹配的方式，将当前画面与人物库中人物的代表性图片进行特征匹配，如果匹配程度达到阈值，则认为是此人。代表性图片通常有一到三张，均为从网络中搜集的高清、正脸特写图片。

然而，由于视频(例如，电视剧、电影等)中演员特殊的造型扮相(例如，蒙眼睛，戴面具等)，根据剧情需要演员转头(例如，侧脸)、摄像镜头拉远或参数变化(例如，小脸、模糊)，视频后期添加滤镜等原因，使得剧中演员的形象与代表性图片中有所差别，这在一定程度上会降低识别性能，尤其是在侧脸、小脸、模糊的情况。

因此，相关技术中的对象识别方式，存在由于目标图像(例如，人物库中的图像)与该目标(例如，人物)在该视频中形象相差较大导致的识别成功率低的问题。

发明内容

本申请实施例提供了一种对象识别方法和装置、存储介质和电子装置，以至少解决相关技术中的对象识别方式存在的由于目标图像与该目标在该视频中形象相差较大导致的识别成功率低的问题。

根据本申请实施例的一个方面，提供了一种对象识别方法，包括：获取与目标视频对应的目标视频特征，其中，目标视频特征为预先从目标视频包含第一对象的视频帧中提取的、与第一对象对应的视频特征；获取待识别图像的目标图像特征，其中，待识别图像为待识别所包含对象的图像；在目标视频特征包含与目标图像特征匹配的匹配视频特征的情况下，确定从待识别图像中识别到目标对象，其中，目标对象为第一对象中与匹配视频特征对应的对象。

根据本申请实施例的另一个方面，提供了一种对象识别装置，包括：第一获取单元，用于获取与目标视频对应的目标视频特征，其中，目标视频特征为预先从目标视频包含第一对象的视频帧中提取的、与第一对象对应的视频特征；第二获取单元，用于获取待识别图像的目标图像特征，其中，待识别图像为待识别所包含对象的图像；第一确定单元，用于在目标视频特征包含与目标图像特征匹配的匹配视频特征的情况下，确定从待识别图像中识别到目标对象，其中，目标对象为第一对象中与匹配视频特征对应的对象。

可选地，上述装置还包括：第二确定单元，用于在获取与目标视频对应的目标视频特征之前，确定第一对象在目标视频中出现的第一时间段，其中，第一时间段包括多个第一视频帧，多个第一视频帧的各个第一视频帧包含第一对象的目标部位所在的第一区域；划分单元，用于根据多个第一区域的图像质量，将多个第一区域划分为多个区域集合，其中，多个区域集合的各个区域集合包括至少一个第一区域；第三确定单元，用于根据各个区域集合中的各个第一区域的第一图像特征，确定与各个区域集合对应的视频特征，其中，目标视频特征包括与各个区域集合对应的视频特征。

可选地，在第一对象为多个的情况下，第二确定单元包括：第一确定模块，用于确定目标视频中出现的第二对象和第二对象在目标视频中出现的第二时间段，其中，第二时间段包括多个第二视频帧，各个第二视频帧包含第二对象的目标部位所在的第二区域；匹配模块，用于使用各个第二视频帧的第二图像特征与多个第一对象的参考图像特征进行匹配，得到各个第二视频帧的匹配结果，其中，第二图像特征为第二区域的图像特征；第二确定模块，用于根据各个第二视频帧的匹配结果，确定与第二对象匹配的第一对象，其中，与第二对象匹配的第一对象在目标视频中出现的第一时间段为第二时间段。

可选地，目标视频包含多个时间段，第一确定模块包括：识别子模块，用于对多个时间段的各个时间段中的多个视频帧进行目标部位识别，得到与各个时间段对应的多个第三图像特征；第一聚类子模块，用于对与各个时间段对应的多个第三图像特征分别进行聚类，得到与各个时间段对应的中心图像特征，其中，中心图像特征为聚类得到的各个类簇中心的图像特征；第二聚类子模块，用于对与各个时间段对应的中心图像特征进行聚类，确定第二对象和第二时间段，其中，一个第二对象对应于聚类得到的一个类簇，第二时间段为与第二对象对应的类簇中包含的中心图像特征所对应的时间段。

可选地，各个第二视频帧的匹配结果用于指示与第二对象匹配的第一对象和匹配置信度，第二确定模块包括：第一确定子模块，用于根据各个第二视频帧的匹配结果，确定候选对象和目标置信度，其中，候选对象为各个第二视频帧的匹配结果所指示的第一对象中出现次数最多的第一对象，目标置信度为候选对象的平均匹配置信度；第二确定子模块，用于在目标置信度大于或者等于置信度阈值的情况下，确定与第二对象匹配的第一对象为候选对象。

可选地，第二获取单元包括：检测模块，用于对待识别图像进行目标部位检测，确定待识别图像中包含目标部位的待识别区域；获取模块，用于获取与待识别区域对应的目标图像特征。

可选地，上述装置还包括：接收单元，第三获取单元，发送单元，其中，接收单元，用于在获取待识别图像的目标图像特征之前，接收客户端发送的识别请求，其中，识别请求中携带有待识别图像；第三获取单元，用于在确定从待识别图像中识别到目标对象之后，获取目标对象的对象信息；发送单元，用于将对象信息发送给客户端。

根据本申请实施例的又一个方面，还提供了一种计算机可读的存储介质，该存储介质中存储有计算机程序，其中，该计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。

根据本申请实施例的又一个方面，还提供了一种电子装置，包括存储器和处理器，存储器中存储有计算机程序，处理器被设置为运行计算机程序以执行上述任一项方法实施例中的步骤。

通过本申请，采用从目标视频中预先提取并保存目标视频的视频特征的方式，获取与目标视频对应的目标视频特征，其中，目标视频特征为预先从目标视频包含第一对象(例如，视频中的人物)的视频帧中提取的、与第一对象对应的视频特征；获取待识别图像(例如，目标视频当前播放的画面)的目标图像特征，其中，待识别图像为待识别所包含对象的图像；在目标视频特征包含与目标图像特征匹配的匹配视频特征的情况下，确定从待识别图像中识别到目标对象，其中，目标对象为第一对象中与匹配视频特征对应的对象，由于预先从目标视频中提取目标视频中的第一对象的视频特征，相较于人物库中的特征，提取的视频特征更贴近第一对象在目标视频中的形象，因此可以提高特征匹配的准确性，进而提高对象识别的成功率，从而解决了相关技术中的对象识别方式存在的由于目标图像与该目标在该视频中形象相差较大导致的识别成功率低的问题。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本申请的实施例，并与说明书一起用于解释本申请的原理。

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是根据本申请实施例的一种可选的服务器的硬件结构框图；

图2是根据本申请实施例的一种可选的对象识别方法的流程示意图；

图3是根据本申请实施例的一种可选的对象识别方法的示意图；

图4是根据本申请实施例的另一种可选的对象识别方法的流程示意图；以及，

图5是根据本申请实施例的一种可选的对象识别装置的结构框图。

具体实施方式

下文中将参考附图并结合实施例来详细说明本申请。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

需要说明的是，本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。

根据本申请实施例的一个方面，提供了一种对象识别方法。可选地，该方法可以在服务器或者类似的运算装置中执行。以运行在服务器上为例，图1是根据本申请实施例的一种可选的服务器的硬件结构框图。如图1所示，服务器10可以包括一个或多个(图1中仅示出一个)处理器102(处理器102可以包括但不限于MCU(Microcontroller Unit，微处理器)或者FPGA(Field Programmable Gate Array，现场可编程逻辑们阵列)等的处理装置)和用于存储数据的存储器104，可选地，上述服务器还可以包括用于通信功能的传输设备106以及输入输出设备108。本领域普通技术人员可以理解，图1所示的结构仅为示意，其并不对上述服务器的结构造成限定。例如，服务器10还可包括比图1中所示更多或者更少的组件，或者具有与图1所示不同的配置。

存储器104可用于存储计算机程序，例如，应用软件的软件程序以及模块，如本申请实施例中的对象识别方法对应的计算机程序，处理器102通过运行存储在存储器104内的计算机程序，从而执行各种功能应用以及数据处理，即实现上述的方法。存储器104可包括高速随机存储器，还可包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器104可进一步包括相对于处理器102远程设置的存储器，这些远程存储器可以通过网络连接至服务器10。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

传输设备106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括服务器10的通信供应商提供的无线网络。在一个实例中，传输设备106包括一个NIC(Network Interface Controller，网络适配器)，其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中，传输设备106可以为RF(Radio Frequency，射频)模块，其用于通过无线方式与互联网进行通讯。

在本实施例中提供了一种运行于上述服务器的对象识别方法，图2是根据本申请实施例的一种可选的对象识别方法的流程示意图，如图2所示，该流程包括如下步骤：

步骤S202，获取与目标视频对应的目标视频特征，其中，目标视频特征为预先从目标视频包含第一对象的视频帧中提取的、与第一对象对应的视频特征；

步骤S204，获取待识别图像的目标图像特征，其中，待识别图像为待识别所包含对象的图像；

步骤S206，在目标视频特征包含与目标图像特征匹配的匹配视频特征的情况下，确定从待识别图像中识别到目标对象，其中，目标对象为第一对象中与匹配视频特征对应的对象。

可选地，上述步骤的执行主体可以为服务器、终端设备等，但不限于此，其他能够进行对象识别的装置，均可以用于执行本申请实施例中的方法。

可选地，上述步骤S202和步骤S204的顺序可以倒换，即，可以先执行步骤S204，再执行步骤S202。

通过本实施例，采用从目标视频中预先提取并保存目标视频的视频特征的方式，由于预先从目标视频中提取目标视频中的第一对象的视频特征，相较于人物库中的特征，提取的视频特征更贴近第一对象在目标视频中的形象，解决了相关技术中的对象识别方式存在的由于目标图像与该目标在该视频中形象相差较大导致的识别成功率低的问题，提高了特征匹配的准确性，进而提高了对象识别的成功率。

下面结合图2对本申请实施例中的对象识别方法进行解释说明。

在步骤S202中，获取与目标视频对应的目标视频特征，其中，目标视频特征为预先从目标视频包含第一对象的视频帧中提取的、与第一对象对应的视频特征。

目标应用可以提供视频播放服务，所播放的视频可以包括但不限于：电视剧，电影，综艺节目，短视频等等。在进行视频播放时，可以根据用户的操作提供对象识别服务，例如，识人服务，识别的对象可以是：剧中的人物。

以识别剧中人物为例，对于影视剧(目标视频的一种示例)目标应用的运营商可以预先从网络中搜集该影视剧中的演员的高清、正脸特写照片作为该演员的代表性图片，保存在人物库中。在该影视剧播放时，或者，在用户查看该影视剧的相关图片(例如，宣传海报)时，可以为用户提供识人功能，将用户的当前画面与人物库中的代表性图片进行特征匹配，确定出该当前画面中出现的演员。

由于剧中特殊扮相、滤镜等原因，可能仅在正脸的情况下识别性能较好，而在侧脸、小脸、模糊的情况下，识别性能会下降。

为了保证识别性能，在本实施例中，对于目标视频，可以自动生成目标视频中的对象专属于这个目标视频的视频特征(例如，目标部位的特征)。这个特征相较于参考图片库(例如，人物库)中的特征，更贴近目标视频中的形象，可以提高识别性能。

例如，对每个影视剧，自动生成剧中演员(第一对象的一种示例)专属于这个剧的人脸特征。这个特征相较于人物库中的特征，更贴近剧中的形象。

在服务启动之前，可以预先生成与目标视频对应的目标视频特征，该目标视频特征可以是从目标视频中包含第一对象的一个或多个视频帧中提取的、与第一对象对应的视频特征。目标视频特征可以保存在视频特征库中。保存的数据可以包括：第一对象的对象标识，目标视频的视频标识，目标视频特征。

除了目标视频特征外，还可以从网络搜集与第一对象对应的对象图片(与目标视频无关，例如，高清、正脸特写图片)，并保存到对象图片库中。保存的数据格式可以包括：第一对象的对象标识，目标视频的视频表示，第一对象的对象图片。

目标视频特征为预先从目标视频包含第一对象的视频帧中提取的、与第一对象对应的视频特征。包含第一对象的视频帧可以是被相关人员手动标记视频帧，也可以是自动从目标视频中确定的视频帧。

作为一种可选的实施方式，相关人员可以标记该目标视频中包含第一对象的、具有标志性的视频帧，标记出的视频帧可以对应于目标对象的不同状态(可以通过图片质量表示)或者其组合，例如，正脸，侧脸；清晰，模糊；近景(大脸)，远景(小脸)等。

作为另一种可选的实施方式，在获取与目标视频对应的目标视频特征之前，可以确定第一对象在目标视频中出现的第一时间段；根据多个第一区域的图像质量，将多个第一区域划分为多个区域集合；根据各个区域集合中的各个第一区域的第一图像特征，确定与各个区域集合对应的视频特征，其中，目标视频特征包括与各个区域集合对应的视频特征。

第一对象可以通过具有标识性的目标部位来标识，上述目标部位可以是：脸部。例如，对于影视剧，可以将人物脸部作为识人和特征提取的目标部位。

包含第一对象的视频帧也可以是自动确定的、第一对象在目标视频中出现的视频帧。可以确定第一对象出现在了目标视频的第一时间段，在该第一时间段，第一对象出现在了第一视频帧中，在第一视频帧中，第一对象的目标部位出现在了第一区域。第一区域的形状可以与目标部位的形状有关，也可以是包含目标部位的矩形区域。第一区域的具体形式，在此不做具体限定。

对于多个第一视频帧中的多个第一区域，可以根据图像质量，将多个第一区域划分为多个区域集合。上述图片质量用于表示第一区域的质量，可以包括但不限于以下至少之一：清晰度，脸部角度等，还可以包括以下至少之一：曝光，颜色，质感，噪音，防手抖，闪光灯，对焦和伪像，但不限于此，其他能够体现出第一对象当前状态的图片参数，均可用于评价图片质量。

不同质量的视频特征可以对应于目标对象的不同状态或者其组合，例如，正脸，侧脸；清晰，模糊；近景(大脸)，远景(小脸)等，通过识别不同质量的视频特征，可以避免由于待识别的对象状态与目标视频特征对应的对象状态差别过大导致的识别不准确的问题。

例如，对于影视剧中的演员，如果采用一个视频特征，则该视频特征可能仅对演员正脸的视频帧具有较高的识别率，但对于演员侧脸或者小脸的视频帧的识别率较低。而生成对应于不同图片质量的多个视频特征，某一图片质量对应的视频特征可以对演员正脸的视频帧具有较高的识别率，而其他质量对应的视频特征可以对演员侧脸或者小脸的视频帧具有较高的识别率，从而保证对该演员所有的视频帧具有较高的识别率。

区域集合的划分可以是通过聚类实现，区域集合的个数可以是预先设定的，也可以是根据聚类终止条件进行限定的。每个区域集合中可以包括至少一个第一区域。每个第一区域属于一个区域集合。

对于每个区域集合，可以根据该区域集合中的各个第一区域的第一图像特征，确定与各个区域集合对应的视频特征。对于一个区域集合，与该区域集合对应的视频特征可以是该区域集合包含的所有第一区域的图像特征的平均，也可以是其中最具代表性的第一区域的图像特征，例如，距离聚类中心最近的图像特征。

与目标视频对应的目标视频特征可以包括：与各个区域集合对应的视频特征，也就是说，每个第一对象可以生成对应于不同图片质量的多个视频特征(例如，3个视频特征)，与目标视频对应的目标视频特征包括各第一对象对应于不同图片质量的多个视频特征(例如，目标视频包含5个对象，为每个对象生成3个视频特征，则该目标视频的目标视频特征包括所有对象的共计15个视频特征)。

例如，对于影视剧的各个演员，可以对某个人出现的所有片段中的图片(人脸所在区域)，根据人脸质量分成三档，单独进行聚类，例如，k-means聚类，聚类中心即该演员在剧中的视频特征，该聚类中心可以是各个类中包含的图片(人脸所在区域)的图像特征的平均。对于各个演员的视频特征，可以保存到数据库，存储字段为：人物id，视频id，视频特征。

需要说明的是，也可以直接确定第一对象出现的第一视频帧以及在各个第一视频帧中出现的第一区域，或者，直接确定第一对象出现在的第一区域，并执行后续视频特征提取的步骤。通过设定时间段，可以避免直接进行全局图像特征处理导致的处理准确性低的问题。

通过本实施例，通过按照图像质量将目标视频中对象所在的图像区域划分为多个区域集合，并将各个区域集合的视频特征作为该目标视频特征，可以保证生成的视频特征表征对象在视频中的形象的能力。

对于目标视频，其包含的第一对象可以有多个，例如，每个影视剧中可以有多个主演、配角和龙套演员等。在第一对象为多个时，为了确定各第一对象在目标视频中出现的时间段，可以首先确定目标视频中出现的对象和各个对象出现的时间段，然后匹配出现的对象和第一对象，从而确定出各个第一对象出现的时间段。

作为一种可选的实施例，确定第一对象在目标视频中出现的第一时间段包括：确定目标视频中出现的第二对象和第二对象在目标视频中出现的第二时间段；使用各个第二视频帧的第二图像特征与多个第一对象的参考图像特征进行匹配，得到各个第二视频帧的匹配结果；根据各个第二视频帧的匹配结果，确定与第二对象匹配的第一对象。

目标视频中出现的对象可以通过具有标识性的目标部位来标识，上述目标部位可以是：脸部。例如，对于影视剧，可以将人物脸部作为确定目标视频中出现的对象的目标部位。

对于目标视频，可以首先确定出目标视频出现的第二对象以及该第二对象在目标视频中出现的第二时间段。在该第二时间段，第二对象出现在了第二视频帧中，在第二视频帧中，第二对象的目标部位出现在了第二区域。第二区域的形状可以与目标部位的形状有关，也可以是包含目标部位的矩形区域。第二区域的具体形式，在此不做具体限定。

对于各个第二视频帧，可以将其第二区域的图像特征与多个第一对象的参考图像特征进行匹配，得到各个第二视频帧的匹配结果。该匹配结果可以指示：该与第二对象匹配的第一对象，还可以指示：该匹配结果的匹配置信度，也就是：第二对象为第一对象的置信程度。

根据各个第二视频帧的匹配结果，可以确定与第二对象匹配的第一对象。该第一对象可以是：各个第二对象的匹配结果所指示次数最多的对象。匹配出的第一对象在目标视频中出现的时间段，即为第二对象出现的时间段。

例如，对于影视剧的一个剧集，确定该剧集中出现了某个人(人物A)，人物A出现的时间段为：2:00到4:00，出现的共有十个(仅为示例)，根据该十个视频帧的人脸区域与各个演员的代表性图片的人脸区域的匹配结果，确定其中有八个视频帧的匹配结果指示该人物A为演员A，则可以确定出演员A在该剧集中出现的时间段为：2:00到4:00。

通过本实施例，通过首先确定目标视频中出现的对象，然后通过特征匹配确定出现的是哪个对象，可以避免直接通过参考图像特征匹配来确定第一对象出现的时间段所存在的匹配准确率低的问题，提高时间段确定的准确性。

为了确定目标视频中出现了哪些对象，可以首先将目标视频拆分成多了时间段，拆分时间段的依据可以是不同的镜头。也就是说，目标视频包含多个时间段，每个时间段对应于一个镜头。

作为一种可选的实施例，确定目标视频中出现的第二对象和第二对象在目标视频中出现的第二时间段包括：对多个时间段的各个时间段中的多个视频帧进行目标部位识别，得到与各个时间段对应的多个第三图像特征；对与各个时间段对应的多个第三图像特征分别进行聚类，得到与各个时间段对应的中心图像特征；对与各个时间段对应的中心图像特征进行聚类，确定第二对象和第二时间段。

对于目标视频，可以首先进行解帧(解帧结果可以如图3所示)，得到该目标视频中包含的视频帧。对于得到的视频帧，可以进行目标部位识别，得到视频帧中包含的目标部位，以及各个目标部位所在的区域。

例如，可以对视频解帧，并检测视频的每一帧出现的人脸，提取特征。

需要说明的是，一个视频帧中可以包含多个第一对象，因此，在进行目标部位检测时，可以得到一个或多个目标部位所在区域，每个目标部位所在区域对应于一个第三图像特征。

根据不同的划分依据，目标视频可以划分为多个时间段。例如，可以按照镜头划分，将目标视频划分为多个时间段，每个时间段对应于一个镜头。

由于一个镜头内所包含的对象变化较小，按照镜头进行划分，可以提高每个时间段的处理效率，提高对象识别的准确性。

需要说明的是，将一个视频按照镜头划分为多个时间段的方式可以有多个，例如，基于相邻视频帧的相似度，或者，基于视频生成时的镜头标记。本实施例中对此不作限定。

对于一个时间段，可以对该时间段内的多个视频帧进行进行目标部位识别，得到与该时间段对应的多个第三图像特征。第三图像特征的数目可以与视频帧的数目相同，也可以对于视频帧的数目。

在得到该时间段对应的多个第三图像特征之后，可以对多个第三图像特征进行聚类。对于聚类后得到的各个类簇，可以确定各个类簇的中心特征，也就是，中心图像特征。

例如，对于影视剧，可以进行人脸跟踪，得到某个人在某个时间段(例如，一个镜头)出现的帧序列(过程可以理解是一个局部聚类)，并计算这些帧序列的中心特征。

在得到各个时间段对应的中心图像特征之后，可以对各个时间段对应的中心图像特征进行聚类。对于聚类后得到的各个类簇，各个类簇对应于一个第二对象，各类簇包含的一个元素对应于一个时间段，各类簇中的所有元素对应的时间段，对应于该第二对象在该目标视频中出现的所有时间段。

例如，得到局部聚类结果后，对局部聚类得到的中心特征做全局聚类，也就是，所有局部聚类的中心特征做全局聚类(例如，层级聚类)。全局聚类后，可以知道某个人在视频中出现的所有时间段。

需要说明的是，局部聚类和全部聚类所使用的聚类算法可以相同，也可以不同，具体的聚类方式可以根据需要设定，本实施例中对此不作具体限定。

通过本实施例，按照镜头先进行局部聚类再进行全局聚类，可以保证聚类结果的准确性，从而提高各对象所处时间段确定的准确性。

根据各个所述第二视频帧的匹配结果，确定与所述第二对象匹配的第一对象可以有多种，例如，将匹配结果所指示最多的第一对象，作为与第二对象匹配的第一对象，又例如，将匹配结果所指示最多的、且匹配置信度高于置信度阈值的第一对象，作为与第二对象匹配的第一对象。

作为一种可选的实施例，根据各个第二视频帧的匹配结果，确定与第二对象匹配的第一对象包括：根据各个第二视频帧的匹配结果，确定候选对象和目标置信度；在目标置信度大于或者等于置信度阈值的情况下，确定与第二对象匹配的第一对象为候选对象。

各个第二视频帧的匹配结果可以用于指示与第二对象匹配的第一对象和匹配置信度，例如，可以表示为[匹配对象、匹配置信度]。多个第二视频帧的匹配结果可以为多个[匹配对象、匹配置信度]的集合。匹配置信度为该第二对象为某一第一对象的置信程度。可以类似于投票机制，每个第二视频帧的匹配结果指示一个最匹配的第一对象，以及匹配置信度。

对于多个第二视频帧的匹配结果，可以确定所指示的匹配对象中出现次数最多的第一对象，即候选对象，以及该候选对象的平均匹配置信度，即目标置信度。

如果目标置信度达到置信度阈值，则可以确定与第二对象匹配的第一对象为候选对象。

例如，对于影视剧，知道某个人在视频出现的所有时间段后，需要识别出这个人是谁。可以将所有帧(所有时间段内包含该人的视频帧)与人物库图片特征做匹配，每一帧会得到一个匹配结果，[匹配人物、匹配置信度]。找出所有结果中出现最多的匹配人物，并计算平均匹配置信度。当平均匹配置信度大于设定的阈值，则认为这些视频片段中的人物是该匹配人物。

通过本实施例，通过设定匹配置信度和置信度阈值，可以保证确定的第一对象的可信程度，从而保证与第二对象匹配的第一对象确定的准确性。

需要说明的是，目标视频中包含的第一对象的数量可以有多个，每个第一对象对应的目标视频特征也可以有一个或多个。

在得到目标视频特征之后，可以将目标视频特征保存到视频特征库中。在服务启动时，服务器可以加载对象图片库中与第一对象对应的对象图片(参考图像特征)，还可以加载视频特征库中与第一对象对应的目标视频特征。

需要说明的是，后台服务器获取的与目标视频对应的目标视频特征可以是按照上述方式自动生成的目标视频特征，也可以是从特征数据库中读取的目标视频特征，此时，生成目标视频特征的服务器和使用目标视频特征的服务器可以是不同的服务器。

用户可以使用目标应用的客户端观看目标视频或者目标视频的相关图片，通过对目标视频或者相关图片执行目标操作，以触发执行对象识别功能。

客户端在检测到对目标视频或者相关图片执行的目标操作之后，可以响应该目标操作，获取客户端上显示的当前画面，将该当前画面作为待识别图像，通过识别请求的方式发送给后台服务器，以识别该待识别图像中所包含的对象。

后台服务器可以接收客户端发送的识别请求，其中，识别请求中携带有待识别图像。

在步骤S204中，获取待识别图像的目标图像特征，其中，待识别图像为待识别所包含对象的图像。

后台服务器可以获取待识别图像的目标图像特征，该目标图像特征可以是待识别图像所包含对象的整体特征。

作为一种可选的实施例，获取待识别图像的目标图像特征包括：对待识别图像进行目标部位检测，确定待识别图像中包含目标部位的待识别区域；获取与待识别区域对应的目标图像特征。

目标图像特征也可以是特定部位(例如，人脸)所在区域的图像特征。后台服务器可以首先对待识别图像进行目标部位检测，确定待识别图像中包含目标部位的待识别区域，也就是，确定待识别图像中包含的待识别对象的目标部位所在的区域。该待识别区域的图像特征，即为目标图像特征。

如果待识别图像中包含多个待识别对象，对应于多个待识别区域，则可以分别对各个待识别区域进行处理，例如，待识别图像中包含了3个人，对待识别图像进行人脸检测，则可以得到3个人脸区域。

通过本实施例，通过对待识别图像进行目标部位检测(例如，人脸检测)得到目标图像特征，可以屏蔽图像中的无关信息，提高对象识别的准确性。

在步骤S206中，在目标视频特征包含与目标图像特征匹配的匹配视频特征的情况下，确定从待识别图像中识别到目标对象，其中，目标对象为第一对象中与匹配视频特征对应的对象。

当收到识别请求之后，服务器可以根据请求中的视频id字段，查看该视频是否有自动生成的视频特征，有的话则优先匹配这些视频特征。通过查找，可以获取到目标视频特征。将目标图像特征与目标视频特征进行匹配，确定是否存在与目标图像特征匹配的视频特征。

匹配的方式可以是：确定目标图像特征与各目标视频特征之间的匹配相似度，目标图像特征和各目标视频特征的尺寸可以相同，也可以不同，对于不同的场景，可以对目标图像特征或者目标视频特征进行尺寸变换，将两者变换为相同的尺寸，以便进行特征匹配，具体的匹配过程，本实施例中不作具体限定。

如果目标视频特征包含与目标图像特征匹配的匹配视频特征，则可以将匹配视频特征所对应的对象，确定为从待识别图像中识别到的对象，即目标对象。

如果目标视频特征不存在与目标图像特征匹配的视频特征，则可以将目标图像特征与各个第一对象的参考图像特征进行匹配，确定是否存在与目标图像特征匹配的匹配图像特征，则可以将匹配图像特征所对应的对象，确定为从待识别图像中识别到的对象。

两个特征匹配可以是：匹配相似度大于或者等于相似度阈值。两个特征不匹配可以是：匹配相似度小于相似度阈值。不同的匹配过程，其对应的相似度阈值可以相同，也可以不同。本实施例中对此不作具体限定。

作为一种可选的实施例，在确定从待识别图像中识别到目标对象之后，可以获取目标对象的对象信息；将对象信息发送给客户端。

对于确定的目标对象，服务器可以获取该目标对象的对象信息，该对象信息可以是从与该目标视频对应的数据库中读取的对象信息，或者，通过搜索引擎从网络中搜集到的对象信息；并将获取的对象信息发送给客户端。

客户端在接收到对象信息之后，可以在界面的特定位置上显示该对象信息，或者，对象信息的提示信息。该特定位置可以是：客户端界面的固定位置，例如，左侧显示栏，播放窗口下方显示栏，也可以是相对位置，例如，显示待识别对象的位置，或者，与其相邻的位置。提示信息可以是对象信息的部分，或者，提示按钮，通过对显示的提示信息执行的触发操作，可以触发显示对象信息。具体的显示方式，本实施例中不作具体限定。

通过本实施例，通过获取并返回目标对象的对象信息，可以丰富客户端的显示内容，提高用户体验。

下面结合可选示例对上述对象识别方法进行说明。在本示例中，目标视频为影视剧，第一对象为剧中人物，目标部位为人脸。

本示例中的对象识别方法可以自动生成演员在剧中的特征。首先找出演员在剧中出现的片段。单独靠单帧的识别结果，是很难准确获取到演员出现的所有片段的。这需要利用到视频的时序信息，人脸跟踪，全局聚类。知道演员出现的所有片段后，对片段内所有人脸按照人脸质量划分，每个子段做聚类，聚类中心特征即该演员在剧中的特征。根据质量划分，可以得到低质量情况下(小脸、侧脸、模糊脸)的聚类中心，提高低质量情况下的识别精度。

如图4所示，本示例中的对象识别方法可以包括以下步骤：

步骤S402，对视频解帧，得到多个视频帧。

步骤S404，检测视频的每一帧出现的人脸，提取特征。

对视频中的每一帧进行人脸检测，提取每一帧中的人脸特征。

步骤S406，对某一时间段的视频帧进行局部聚类，得到各个类的中心特征。

将目标视频以镜头为单位进行人脸跟踪，得到某个人在视频中某个时间段出现的帧序列(可以理解是一个局部聚类)，并计算这些帧序列的中心特征。

步骤S408，对局部聚类的中心特征进行全局聚类，得到某个人在视频中出现的所有时间段。

得到局部聚类的结果之后，对局部聚类的结果做全局聚类，例如，所有局部聚类的中心特征做层次聚类。全局聚类后，可以知道某个人在视频中出现的所有时间段。

步骤S410，人物匹配。

知道某个人在视频出现的所有时间段后，可以识别出这个人是谁。可以将所有帧(出现该人的所有帧)与人物库图片特征做匹配，每一帧会得到一个匹配结果，[匹配人物、匹配置信度]。找出所有结果中出现最多的匹配人物，并计算平均匹配置信度。当平均匹配置信度大于设定的阈值，则认为这些视频片段中的人物是该匹配人物。

步骤S412，确定视频特征。

为了提高侧脸、模糊等低质量人脸的识别性能，可以将演员图片按照人脸质量分成三档，每个档位图片单独聚类得到中心特征，每个演员最终可以得到三个特征，分别是低质量、中等质量、高质量特征。

对某个人的所有片段中的图片，可以根据人脸质量分成三档，单独k-means聚类，聚类中心即该演员在剧中的视频特征，并保存到数据库，存储字段为：人物id，视频id，视频特征。

步骤S414，服务启动时，进行对象识别。

服务启动时，除了加载原有的人物库图片特征外，还需加载视频中自动生成的视频特征。

当收到识别请求时，根据请求中的视频id字段，查看该视频是否有自动生成的视频特征，有的话则优先匹配这些视频特征。如果匹配相似度大于阈值，则认为是此人；小于阈值则再与人物库图片特征进行匹配。

通过本示例，根据视频中的人物特征，生成演员在该剧中专属的视频特征，可以解决由于剧中特殊扮相、滤镜等原因造成的识别性能差的问题；自动从视频中挖掘演员的人脸特征，不需人工标注，降低人力消耗；根据某位演员视频中出现的所有图片，得到这位演员的人脸特征；将演员图片按照人脸质量分成三档，每个档位图片单独聚类得到中心特征，低质量特征加入后，可以提高侧脸、模糊等低质量人脸的识别性能。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本申请各个实施例所述的方法。

根据本申请实施例的另一个方面，提供了一种用于实施上述实施例中的对象识别方法的对象识别装置。可选地，该装置用于实现上述实施例及优选实施方式，已经进行过说明的不再赘述。如以下所使用的，术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现，但是硬件，或者软件和硬件的组合的实现也是可能并被构想的。

图5是根据本申请实施例的一种可选的对象识别装置的结构框图，如图5所示，该装置包括：

(1)第一获取单元52，用于获取与目标视频对应的目标视频特征，其中，目标视频特征为预先从目标视频包含第一对象的视频帧中提取的、与第一对象对应的视频特征；

(2)第二获取单元54，与第一获取单元52相连，用于获取待识别图像的目标图像特征，待识别图像为待识别所包含对象的图像；

(3)第一确定单元56，与第二获取单元54相连，用于在目标视频特征包含与目标图像特征匹配的匹配视频特征的情况下，确定从待识别图像中识别到目标对象，其中，目标对象为第一对象中与匹配视频特征对应的对象。

可选地，第一获取单元52可以用于上述实施例中的步骤S202，第二获取单元54可以用于上述实施例中的步骤S204，第一确定单元56可以用于执行上述实施例中的步骤S206。

作为一种可选的实施例，上述装置还包括：

(1)第二确定单元，用于在获取与目标视频对应的目标视频特征之前，确定第一对象在目标视频中出现的第一时间段，其中，第一时间段包括多个第一视频帧，多个第一视频帧的各个第一视频帧包含第一对象的目标部位所在的第一区域；

(2)划分单元，用于根据多个第一区域的图像质量，将多个第一区域划分为多个区域集合，其中，多个区域集合的各个区域集合包括至少一个第一区域；

(3)第三确定单元，用于根据各个区域集合中的各个第一区域的第一图像特征，确定与各个区域集合对应的视频特征，其中，目标视频特征包括：与各个区域集合对应的视频特征。

作为一种可选的实施例，在第一对象为多个的情况下，第二确定单元包括：

(1)第一确定模块，用于确定目标视频中出现的第二对象和第二对象在目标视频中出现的第二时间段，其中，第二时间段包括多个第二视频帧，各个第二视频帧包含第二对象的目标部位所在的第二区域；

(2)匹配模块，用于使用各个第二视频帧的第二图像特征与多个第一对象的参考图像特征进行匹配，得到各个第二视频帧的匹配结果，其中，第二图像特征为第二区域的图像特征；

(3)第二确定模块，用于根据各个第二视频帧的匹配结果，确定与第二对象匹配的第一对象，其中，与第二对象匹配的第一对象在目标视频中出现的第一时间段为第二时间段。

作为一种可选的实施例，目标视频包含多个时间段，第一确定模块包括：

(1)识别子模块，用于对多个时间段的各个时间段中的多个视频帧进行目标部位识别，得到与各个时间段对应的多个第三图像特征；

(2)第一聚类子模块，用于对与各个时间段对应的多个第三图像特征分别进行聚类，得到与各个时间段对应的中心图像特征，其中，中心图像特征为聚类得到的各个类簇中心的图像特征；

(3)第二聚类子模块，用于对与各个时间段对应的中心图像特征进行聚类，确定第二对象和第二时间段，其中，一个第二对象对应于聚类得到的一个类簇，第二时间段为与第二对象对应的类簇中包含的中心图像特征所对应的时间段。

作为一种可选的实施例，各个第二视频帧的匹配结果用于指示与第二对象匹配的第一对象和匹配置信度，第二确定模块包括：

(1)第一确定子模块，用于根据各个第二视频帧的匹配结果，确定候选对象和目标置信度，其中，候选对象为各个第二视频帧的匹配结果所指示的第一对象中出现次数最多的第一对象，目标置信度为候选对象的平均匹配置信度；

(2)第二确定子模块，用于在目标置信度大于或者等于置信度阈值的情况下，确定与第二对象匹配的第一对象为候选对象。

作为一种可选的实施例，第二获取单元54包括：

(1)检测模块，用于对待识别图像进行目标部位检测，确定待识别图像中包含目标部位的待识别区域；

(2)获取模块，用于获取与待识别区域对应的目标图像特征。

作为一种可选的实施例，上述装置还包括：接收单元，第三获取单元，发送单元，其中，

(1)接收单元，用于在获取待识别图像的目标图像特征之前，接收客户端发送的识别请求，其中，识别请求中携带有待识别图像；

(2)第三获取单元，用于在确定从待识别图像中识别到目标对象之后，获取目标对象的对象信息；

(3)发送单元，用于将对象信息发送给客户端。

需要说明的是，上述各个模块是可以通过软件或硬件来实现的，对于后者，可以通过以下方式实现，但不限于此：上述模块均位于同一处理器中；或者，上述各个模块以任意组合的形式分别位于不同的处理器中。

根据本申请实施例的又一个方面，提供了一种计算机可读的存储介质。可选地，该存储介质中存储有计算机程序，其中，该计算机程序被设置为运行时执行本申请实施例中所提供的上述任一项方法中的步骤。

可选地，在本实施例中，上述存储介质可以被设置为存储用于执行以下步骤的计算机程序：

S1，获取与目标视频对应的目标视频特征，其中，目标视频特征为预先从目标视频包含第一对象的视频帧中提取的、与第一对象对应的视频特征；

S2，获取待识别图像的目标图像特征，其中，待识别图像为待识别所包含对象的图像；

S3，在目标视频特征包含与目标图像特征匹配的匹配视频特征的情况下，确定从待识别图像中识别到目标对象，其中，目标对象为第一对象中与匹配视频特征对应的对象。

可选地，在本实施例中，上述存储介质可以包括但不限于：U盘、ROM(Read-OnlyMemory，只读存储器)、RAM(Random Access Memory，随机存取存储器)、移动硬盘、磁碟或者光盘等各种可以存储计算机程序的介质。

根据本申请实施例的又一个方面，提供了一种电子装置，包括：处理器(该存储器可以是图1中的处理器102)和存储器(该存储器可以是图1中的存储器104)，该存储器中存储有计算机程序，该处理器被设置为运行计算机程序以执行本申请实施例中所提供的上述任一项方法中的步骤。

可选地，上述电子装置还可以包括传输设备(该传输设备可以是图1中的传输设备106)以及输入输出设备(该输入输出设备可以是图1中的输入输出设备108)，其中，该传输设备和上述处理器连接，该输入输出设备和上述处理器连接。

可选地，在本实施例中，上述处理器可以被设置为通过计算机程序执行以下步骤：

可选地，本实施例中的可选示例可以参考上述实施例及可选实施方式中所描述的示例，本实施例在此不再赘述。

显然，本领域的技术人员应该明白，上述的本申请的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，并且在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本申请不限制于任何特定的硬件和软件结合。

以上所述仅为本申请的优选实施例而已，并不用于限制本申请，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种对象识别方法，其特征在于，包括：

获取与目标视频对应的目标视频特征，其中，所述目标视频特征为预先从目标视频包含第一对象的视频帧中所提取的、与所述第一对象对应的视频特征；

获取待识别图像的目标图像特征，其中，所述待识别图像为待识别所包含对象的图像；

在所述目标视频特征包含与所述目标图像特征匹配的匹配视频特征的情况下，确定从所述待识别图像中识别到目标对象，其中，所述目标对象为所述第一对象中与所述匹配视频特征对应的对象；

在获取与所述目标视频对应的所述目标视频特征之前，所述方法还包括：确定所述第一对象在所述目标视频中出现的第一时间段，其中，所述第一时间段包括多个第一视频帧，所述多个第一视频帧的各个第一视频帧包含所述第一对象的目标部位所在的第一区域；根据多个所述第一区域的图像质量，将多个所述第一区域划分为多个区域集合，其中，所述多个区域集合的各个区域集合包括至少一个所述第一区域；根据所述各个区域集合中的各个第一区域的第一图像特征，确定与所述各个区域集合对应的视频特征，其中，所述目标视频特征包括与所述各个区域集合对应的视频特征；

在所述第一对象为多个的情况下，确定所述第一对象在所述目标视频中出现的所述第一时间段包括：确定所述目标视频中出现的第二对象和所述第二对象在所述目标视频中出现的第二时间段，其中，所述第二时间段包括多个第二视频帧，各个所述第二视频帧包含所述第二对象的目标部位所在的第二区域；使用各个所述第二视频帧的第二图像特征与多个所述第一对象的参考图像特征进行匹配，得到各个所述第二视频帧的匹配结果，其中，所述第二图像特征为所述第二区域的图像特征；根据各个所述第二视频帧的匹配结果，确定与所述第二对象匹配的第一对象，其中，与所述第二对象匹配的第一对象在所述目标视频中出现的第一时间段为所述第二时间段。

2.根据权利要求1所述的方法，其特征在于，所述目标视频包含多个时间段，确定所述目标视频中出现的所述第二对象和所述第二对象在所述目标视频中出现的所述第二时间段包括：

对所述多个时间段的各个时间段中的多个视频帧进行目标部位识别，得到与所述各个时间段对应的多个第三图像特征；

对与所述各个时间段对应的多个第三图像特征分别进行聚类，得到与所述各个时间段对应的中心图像特征，其中，所述中心图像特征为聚类得到的各个类簇中心的图像特征；

对与所述各个时间段对应的中心图像特征进行聚类，确定所述第二对象和所述第二时间段，其中，一个所述第二对象对应于聚类得到的一个类簇，所述第二时间段为与所述第二对象对应的类簇中包含的中心图像特征所对应的时间段。

3.根据权利要求1所述的方法，其特征在于，各个所述第二视频帧的匹配结果用于指示与所述第二对象匹配的第一对象和匹配置信度，根据各个所述第二视频帧的匹配结果，确定与所述第二对象匹配的第一对象包括：

根据各个所述第二视频帧的匹配结果，确定候选对象和目标置信度，其中，所述候选对象为各个所述第二视频帧的匹配结果所指示的第一对象中出现次数最多的第一对象，所述目标置信度为所述候选对象的平均匹配置信度；

在所述目标置信度大于或者等于置信度阈值的情况下，确定与所述第二对象匹配的第一对象为所述候选对象。

4.根据权利要求1所述的方法，其特征在于，获取所述待识别图像的所述目标图像特征包括：

对所述待识别图像进行目标部位检测，确定所述待识别图像中包含目标部位的待识别区域；

获取与所述待识别区域对应的所述目标图像特征。

5.根据权利要求1至4中任一项所述的方法，其特征在于，在获取所述待识别图像的所述目标图像特征之前，所述方法还包括：

接收客户端发送的识别请求，其中，所述识别请求中携带有所述待识别图像；

在确定从所述待识别图像中识别到所述目标对象之后，所述方法还包括：获取所述目标对象的对象信息；将所述对象信息发送给所述客户端。

6.一种对象识别装置，其特征在于，包括：

第一获取单元，用于获取与目标视频对应的目标视频特征，其中，所述目标视频特征为预先从目标视频包含第一对象的视频帧中提取的、与所述第一对象对应的视频特征；

第二获取单元，用于获取待识别图像的目标图像特征，其中，所述待识别图像为待识别所包含对象的图像；

第一确定单元，用于在所述目标视频特征包含与所述目标图像特征匹配的匹配视频特征的情况下，确定从所述待识别图像中识别到目标对象，其中，所述目标对象为所述第一对象中与所述匹配视频特征对应的对象；

所述装置还包括：第二确定单元，用于在获取与所述目标视频对应的所述目标视频特征之前，确定所述第一对象在所述目标视频中出现的第一时间段，其中，所述第一时间段包括多个第一视频帧，所述多个第一视频帧的各个第一视频帧包含所述第一对象的目标部位所在的第一区域；根据多个所述第一区域的图像质量，将多个所述第一区域划分为多个区域集合，其中，所述多个区域集合的各个区域集合包括至少一个所述第一区域；根据所述各个区域集合中的各个第一区域的第一图像特征，确定与所述各个区域集合对应的视频特征，其中，所述目标视频特征包括与所述各个区域集合对应的视频特征；

7.一种计算机可读的存储介质，其特征在于，所述存储介质中存储有计算机程序，其中，所述计算机程序被设置为运行时执行权利要求1至5中任一项所述的方法。

8.一种电子装置，包括存储器和处理器，其特征在于，所述存储器中存储有计算机程序，所述处理器被设置为通过所述计算机程序执行权利要求1至5中任一项所述的方法。