CN111183455A

CN111183455A - 图像数据处理系统与方法

Info

Publication number: CN111183455A
Application number: CN201880055814.1A
Authority: CN
Inventors: 徐意
Original assignee: Mutual Artificial Intelligence Technology Shanghai Co Ltd
Current assignee: Xu Yi
Priority date: 2017-08-29
Filing date: 2018-08-03
Publication date: 2020-05-19
Also published as: GB201713829D0; WO2019042080A1; US20200210688A1

Abstract

从被摄体的图像数据中识别人类特征的一种方法。该方法包括从图像数据中提取被摄体的图像序列；从每个图像中估计被摄体的情感特征度量和面部中层特征度量；对于每个图像，将相关的估计情感度量和估计面部中层特征度量结合起来形成特征向量，从而形成特征向量序列，每个特征向量与图像序列的图像相关联，并将特征向量序列输入到人类特征识别神经网络。人类特征识别神经网络适于处理特征向量序列，并生成与从特征向量序列导出的至少一个人类特征相对应的输出数据。

Description

图像数据处理系统与方法

技术领域

本发明涉及从对象的图像数据中识别人类特征的方法和系统。更具体地说，本发明的实施例涉及从包含人脸图像的视频数据中识别人类特征。

背景处理诸如人类等受试者的图像及视频数据以试图确定有关受试者的进一步信息的技术是众所周知的。例如，面部识别技术被广泛用于识别图像中出现的对象，例如用于确定视频录像中出现的人的身份。

市场上也已开发了更先进的技术，试图识别图像主体超出身份以外的更细微的信息。例如，已经开发了一些算法，试图从面部图像数据中识别出关于受试者即时情绪状态的信息。这样技术通常采用人工神经网络，特别是卷积神经网络(CNNs)。这些卷积神经网络使用预先选择的被分类为在图像数据中显示与特定预定义情绪相关联的面部表情的人类对象的图像进行“训练”。

虽然这些技术可以证明在识别诸如愤怒、轻蔑、厌恶、恐惧、快乐、悲伤和惊讶等直接和明显的“反射”情绪方面是成功的，但市面上很少有关于识别人类的更微妙的信息的可靠技术被开发，例如特征(即性格特征)，如自信、诚实、紧张、好奇、判断和不同意。

发明概要

根据本发明的第一方面，提供了一种从被摄体的图像数据识别人类特征的方法。该方法包括从图像数据中提取对象的图像序列；从每个图像估计对象的情感特征度量和面部中层特征度量；对于每个图像，将相关的估计情感度量和估计面部中层特征度量组合起来形成特征向量，从而形成一系列特征向量，每一个特征向量与一系列图像中的一个图像相关联，并将这些特征向量的序列输入到一个人类特征识别神经网络。人类特征识别神经网络适于处理特征向量序列，并生成与从特征向量序列导出的至少一个人类特征相对应的输出数据。

可选地，图像数据是视频数据。

可选地，提取的图像序列是被摄体的面部的面部图像。

可选地，被摄体的面部是人的面部。

可选地，情感度量由训练用于从人脸图像识别多个预定情感的情感识别神经网络来估计。

可选地，情绪度量与人类的一种或多种情绪相关联，包括愤怒、蔑视、厌恶、恐惧、幸福、悲伤和惊讶。

可选地，该方法还包括由情感识别神经网络输出n维向量，其中该向量的每个分量对应于预定情感之一，向量的每个分量的大小对应于情绪识别神经网络识别情绪的置信度。

可选地，该方法包括生成对应于与情感相关联的n维向量的进一步输出数据。

可选地，基于图像识别的算法估计人脸的面部中层特征度量。

可选地，面部中层特征度量是注视、头部位置和眼睛闭合的一个或多个。

可选地，长短期记忆网络是由从分类为包含与多个预定人类特征中的一个或多个相关联的人脸的视频数据来训练。

可选地，人类特征识别神经网络是一个循环神经网络。

可选地，人的特征识别神经网络是一个长短期记忆网络。

可选地，人类特征识别神经网络是卷积神经网络。

可选地，人的特征识别神经网络是基于波网的神经网络。

可选地，人类特征识别神经网络的输出数据包括n维向量，其中该向量的每个分量对应于人类特征，并且该向量的每个分量的大小对应于检测该特征的强度。

可选地，所述多个预定特征包括一个或多个特征，具体如激情、自信、诚实、紧张、好奇、判断和不同意。

根据本发明的第二方面，提供了一种从被摄体的图像数据识别人类特征的系统。该系统包括输入单元、输出单元、处理器和存储器。存储器已在其上存储处理器可执行指令，当在处理器控制处理器通过输入单元接收图像数据作为输入；从图像数据中提取对象的图像序列；从每个图像中估计情感特征度量(通常是来自卷积神经网络的低维特征向量)和被摄体的面部中层特征度量；对于每个图像，将相关的估计情绪度量和估计面部中层特征度量结合起来以形成特征向量，从而形成特征向量序列，每个特征向量与图像序列的图像相关联；通过适于从特征向量序列中得到至少一个与人类特征相关联的输出数据的人类特征识别神经网络，处理特征向量序列。输出单元已调整输出神经网络产生的输出数据。

可选地，图像数据是视频数据。

可选地，提取的图像序列是被摄体的面部的面部图像。

可选地，被摄体的面部是人的面部。

可选地，处理器可执行指令进一步控制处理器，通过使用被训练成从人脸图像中识别出多种预定情感的情绪识别神经网络，估计情感度量。

可选地，处理器可执行指令进一步控制处理器通过情感识别神经网络输出n维向量，其中向量的每个分量对应于预定情感之一，向量的每个分量的大小对应于情绪识别神经网络识别情绪的置信度。

根据本发明的第三方面，提供了一种包含计算机可读指令的计算机程序，当在适当的计算机处理器上执行时，该程序控制计算机处理器执行根据本发明第一方面的方法。

根据本发明的第四方面，提供了一种根据第三方面存储计算机程序的计算机程序产品。

根据本发明的实例，提供了用于识别人类特征的过程。这些特征包括性格特征，如激情，自信，诚实，紧张，好奇，判断和不同意。这些特征不容易用传统的技术检测出来，这些技术通常只限于识别更直接和明显的情绪，如愤怒、蔑视、厌恶、恐惧、快乐、悲伤和惊讶。

将一系列估计的情感特征度量与对应的从例如被摄体的视频数据导出的估计面部中层特征度量序列结合，然后通过适当训练的神经网络处理得到的特征向量序列，为识别人类特征提供了一种特别有效的技术。在某些实施例中，该过程被布署成从视频数据中存在的一个或多个被摄体(通常是人脸)的画面中识别人类特征。

附件中图例了本发明的各种特征和方面。

图纸简要说明

现在将仅参考附图以示例的方式描述本发明的实施例，附图中类似部分具有相应的附图标记，并且其中：

图1提供了根据MTCNN模型描述面部跟踪的示意图；

图2提供了一个示意图，显示了在执行裁剪、变换、重缩放和正态化处理之前的面部图像；

图3提供了在执行了裁剪、变换、重新缩放和正态化处理之后的图2的面部图像的示意图；

图4提供了适于在本发明实施例中使用的情感识别卷积神经网络的示例性架构的简化摘要的示意图；

图5描绘了图像中的瞳孔检测；

图6描绘了头部姿势检测；

图7提供了，根据本发明的某些实施例的人类特征识别过程，描述处理阶段和各种步骤的示意图，以及

图8提供了适用于执行根据本发明的某些实施例的人类特征识别过程的系统的简易示意图。

详细说明

根据本发明的实施例，提供了用于识别人类特征的过程。在某些实施例中，该过程包括第一阶段、第二阶段和第三阶段。

第一阶段

在第一阶段，进行图像处理。在某些实施例中，图像处理阶段包括六个步骤。

在第一步骤中，输入的视频数据进行面部检测处理。作为这一过程的一部分，视频被逐帧分析，并且对于每一帧，检测一个或多个人类对象的面部。在一个实施例中，针对该步骤使用特别适用的卷积神经网络(CNN)。卷积神经网络适应于识别被认为可能对应于人的脸的图像的区域(如视频帧)识别被认为可能对应于人的脸。一个合适的卷积神经网络的例子是MTCNN

(多任务级联卷积神经网络)模型：

(https://github.com/davidsandberg/facenet/tree/master/src/align)。

第一个人脸检测过程步骤的输出是一系列感兴趣的区域。

每个感兴趣的区域对应于卷积神经网络确定可能对应于人脸的视频帧的区域。

图1提供了根据MTCNN描述面部跟踪的图模型。

在第二步骤中，对于在第一步骤中确定的每个感兴趣区域，进行裁剪处理，其中裁剪掉不在感兴趣区域内的视频帧的区域。“边界框”与附加边距一起使用，以增加包含面部的帧的大部分或全部部分被保留的机会。在这个方法，提取一系列可能的人脸图像。

第二裁剪处理步骤的输出是一系列裁剪图像，每个裁剪图像对应于可能的人脸。

在第三步骤中，对每个裁剪的面部图像进行人脸特征点检测的变换处理。在某些示例中，检测到人脸特征点，如双眼、双唇角和鼻尖。然后利用人脸特征点的分布来检测和去除头部旋转。这是通过使用合适的变换技术如仿射变换技术，得以实现。

第三转换处理步骤的输出是经过裁剪和转换的面部图像。

在第四步骤中，对每个裁剪和变换的面部图像进行重缩放处理，其中，将每个裁剪和变换的图像重缩放到预定的分辨率。示例性预定分辨率为224×224像素。

在裁剪后的面部图像的分辨率高于在预定分辨率的情况下，使用适当的图像缩小技术对裁剪和变换后的面部图像进行缩小。在裁剪和变换的面部图像的分辨率低于预定分辨率的情况下，使用适当的图像放大技术对裁剪和变换的面部图像进行放大。

第四重缩放处理步骤的输出是裁剪、变换和重缩放的面部图像。

在第五步中，裁剪、变换和重新缩放的面部图像的颜色空间转换以移除多余的颜色数据，例如通过将图像变换为灰度。

因此，第五灰度变换步骤的输出是被裁剪、变换和重新缩放的面部图像变换为灰度。

最后，在第六步，应用图像正规化处理来增加图像的动态范围，从而增加图像的对比度。这个过程突出了人脸的边缘，这通常会提高表情识别的性能。

因此，第六步的输出是将经过裁剪、变换和重新缩放的面部图像变换为灰度并进行对比度增强的归一化。

图2显示了裁剪、变换、重缩放和归一化之前的面部图像，图3显示了裁剪、变换、重缩放到灰度和归一化之后的相同面部图像。

第二阶段

第二阶段包括两个特征估计过程，即情感特征估计过程和面部中层特征估计过程。每个特征估计过程从面部图像估计特征度量。这个情感特征估计过程利用裁剪图像的像素强度值估计情感特征度量，面部中间层特征估计处理从面部图像估计面部“中间层”特征度量。

典型地，两个进程并行运行，但彼此独立。也就是说，特征估计过程处理来自同一视频帧的对应于同一感兴趣区域的数据。

情感估计特征处理从第一阶段的第六步接收输出，即将经过裁剪、变换和重新缩放的面部图像转换为灰度并进行对比度增强的归一化。面部中层特征估计处理从第一阶段的第二步骤的输出(即，裁剪的面部图像)接收作为输入。

情感特征度量估计

情感特征度量过程使用一个情感识别卷积神经网络,训练成从面部图像中识别人类情感。通常，情感识别卷积神经网络被训练用于识别七种人类情感状态之一，即愤怒、蔑视、厌恶、恐惧、快乐、悲伤和惊讶。这种情绪识别卷积神经网络也被训练成识别中性情绪状态。情感识别卷积神经网络使用神经网络训练技术训练而成，例如其中具有已知值的训练数据集(例如，通过面部表情显示至少一种预定情绪的人类对象的图像)是通过卷积神经网络进行训练，并且对卷积神经网络的参数(权重)进行迭代修改以减少输出误差函数。

图4提供了适于在本发明实施例中使用的情感识别卷积神经网络的示例性架构的简化摘要的示意图。如图4所示，卷积神经网络包括10层：初始输入层(L0)；第一卷积层(L1)；使用最大化池的第一池化层(L2)；

第二卷积层(L3)；使用最大化池的第二池化层(L4)；第三卷积层(L5)；使用最大化池的第三池化层(L6)；第一全连接层(L7)；第二全连接层(L8)和输出层(L9)。

如释，图4所示的架构是示例性的，并且可以使用替代的合适架构。

对于每个输入的人脸图像，情感特征度量过程的输出是一个n维向量。n维向量的每个分量对应一个对卷积神经网络所能察觉到的情绪。在某些实施例中，n维向量是一个8维向量，每个分量对应于愤怒、蔑视、厌恶、恐惧、快乐、悲伤、惊讶和中性。

八个向量分量中的每一个的值对应于一个概率值，并且在定义的范围内有一个值，例如在0到1之间。给定向量分量的大小对应于卷积神经网络的置信度，即该向量分量对应的情感存在于面部图像中。例如，如与愤怒相对应的向量分量的值为0，则卷积神经网络对面部图像中被测者的脸表示不愤怒的置信度最高。如果与愤怒相对应的向量分量的值为1，则卷积神经网络对面部图像中被测者的脸表示愤怒的置信度最高。如果与愤怒相对应的向量分量的值为0.5，则卷积神经网络不确定面部图像中被测者的脸是否表示愤怒。

人脸中层特征度量估计

面部中间层特征度量估计过程使用本领域已知的合适的面部图像识别技术来检测这些面部中层特征。

例如，面部中层特征度量估计过程包括动作检测器成像处理算法，其被布置成检测中层面部特征，例如头部姿势(例如，头部向上、头部向下、头部向左旋转、头部向右旋转、头部向左倾斜、头部向右倾斜)；注视方向(例如，注视中心、注视上，向下看，向左看，向右看)，然后闭上眼睛(例如眼睛睁开，眼睛闭上，眼睛部分睁开)。动作检测器成像处理算法包括用于每个相关面部中层特征的“检测器”，例如头部姿势检测器、注视方向检测器和闭眼检测器。

如上所述，典型地，动作检测器成像处理算法将第一阶段的第二步的输出作为输入，即未经过随后的变换、重新缩放和归一化处理(如图2所示的图像)的裁剪的面部图像。

图5描绘了瞳孔检测，该检测可用于在动作检测器成像处理算法的注视方向检测器和闭眼检测器部分检测眼睛闭合和注视方向。

图6描述了头部姿势检测。可用于动作检测器成像处理算法的头部姿势检测器部分的适当的头部姿势检测过程包括识别预定数量的人脸特征点(例如68个预定人脸特征点，包括例如，鼻子上的5个特征点)，其被输入到回归器(即回归算法)或者具有多个输出。每个输出对应于头部姿势的一个坐标。

面部中层特征度量估计过程的输出是一系列概率值，对应于检测到所述面部中间层特征的算法的置信水平。例如，动作检测器成像处理算法中的眼睛闭合检测器部分，其预测一只眼睛是打开还是关闭(二进制)具有两个输出。P_(眼闭)和P_(眼开)和输出的总和为1。

第三阶段

第三个阶段是使用经过训练的神经网络来识别人类特征。

经过适当训练的卷积神经网络或经过适当训练的卷积递归神经网络可以提供人类特征识别神经网络。在某些实施例中，人类特征识别神经网络由优化和训练版本的“WaveNet”提供，WaveNet是由DeepMind科技有限公司提供的深卷积神经网络。

在其它实施例中，可由经适当训练的卷积神经网络(例如长短期记忆(LSTM)网络)提供人类特征识别神经网络。

首先，将情感特征度量估计和面部中层特征度量估计的输出结合起来形成单一的特征向量。通常，使用另一个经过适当训练的神经网络，特别是一维神经网络来执行此步骤并生成特征向量。一个合适的一维递归神经网络，例如长短期记忆(LSTM)网络，通常可以用作特征向量生成神经网络。

因此，为在视频数据的每个帧中检测到的每个面部提供特征向量。

每个图像对应的特征向量被输入到人类特征识别神经网络中。人类特征识别神经网络已经被训练成从一系列如上所述的训练输入特征向量中识别人类特征。

一旦从输入的视频数据中提取出的每个特征向量被输入到人类特征识别神经网络中，就产生一个输出。人类特征识别神经网络的输出是一个特征分类，它可以是激情、自信、诚实、紧张、好奇、判断和不同意。在某些实施例中，人类特征识别神经网络的输出是n维向量，其中n是被识别的特征的数目。n维向量的每个分量对应一个特征。

通常，n维向量的每个分量的大小，不是对应于置信值，对应于强度值，即由人类特征识别神经网络识别的存在于图像对象中的特征的强度。在某些实施例中，向量的每个分量的大小在0到100之间。

在某些实施例中，该过程适于还输出情感分类，即表示一种或多种情感的向量，具体包括愤怒、轻蔑、厌恶、恐惧、快乐、悲伤和惊讶。在这些实施例中，情感分类通常直接从情感识别卷积神经网络的输出生成。

图7提供了描述根据本发明的某些实施例的人类特征识别过程的处理阶段的示意图。

在第一步骤S701，对于输入的视频数据，逐帧执行面部检测处理。在第二步骤S702，对于在第一步骤S701中识别的每个感兴趣区域，通过从原始帧裁剪感兴趣区域来生成面部图像。在第三步骤S703，识别人脸特征点，并对图像进行变换以减小头部旋转的影响。在第四步骤S704，图像被重新缩放。在第五步骤S705，图像被转换为灰度。在第六步骤S706，图像被归一化以增强对比度。在第七步骤S707，将从第六步骤S706输出的图像输入到情感特征估计处理。与第七步骤S707与第八步骤S708并行，第二步骤S702的输出被输入到面部中层特征估计过程。在第九步骤S709，将第七步骤S707和第八步骤S708的输出输入到特征向量生成过程，例如，通过合适的训练特征向量生成一维神经网络。

在第十步骤S710，由第九步骤S709生成的特征向量被输入到人类特征识别神经网络(例如由卷积神经网络(如基于优化和训练的基于WaveNet的神经网络)或由递归神经网络(如长短期记忆网络)提供)。当若干特征向量被输入到特征识别神经网络(典型地对应于在视频数据包括的视频帧上检测到的感兴趣区域的数目)时，输出特征向量。

某些实施例中，还输出情感分类。情感分类通常作为第七步的直接输出而产生。

如图7阐述，对上述过程的输入是视频数据，并且输出是对应于由从特征向量序列中的人类特征识别神经网络(例如，基于波网的网络或长短期记忆网络)导出的至少一个人类特征的输出数据。该过程包括从视频数据中提取人脸图像序列。

如上所述，这通常包括为视频数据的每个帧识别一个或多个被认为可能与人脸相对应的感兴趣区域，并通过从帧中裁剪感兴趣区域来提取感兴趣区域的图像。然后使用提取的(例如裁剪的)图像来估计对应图像(即基于来自相同视频帧的相同感兴趣区域的图像)的面部中层特征度量和情感特征度量。如上所述，通常，在估计情感特征度量之前，剪切图像经历若干进一步的图像处理步骤。

对于每个对应的图像，从面部中层特征度量和情感特征度量生成特征向量。如上所述，通常使用适当训练/优化的递归神经网络(例如一维长短期记忆网络)从面部中层特征度量和情感特征度量生成特征向量。该神经网络可以对情感特征估计过程和中层面部特征估计过程的输出进行平滑处理。

因此，对于包括人脸画面的视频数据，在处理每个帧时将生成特征向量序列。这些特征向量序列被输入到人类特征识别神经网络中。特征向量序列由人类特征识别神经网络进行处理，并输出与已识别人类特征相对应的数据(例如，上述n维向量)。

如上所述，基于视频数据的输入特征向量，训练人类特征识别神经网络来识别人类特征。

通常，使用神经网络训练技术来进行人类特征识别神经网络的训练。例如，在训练阶段，由人类特征识别神经网络处理具有已知/期望输出值的多组训练数据(即，从包含已知展示特定特征的人或人的视频中导出的特征向量)。为了减少误差函数，对人类特征识别神经网络的参数进行迭代调整。这一过程是为每个需要测量的人类特征而进行的，并重复进行直到每个特征的误差函数被描述(例如激情，自信、诚实、紧张、好奇、判断力和不同意)低于预定的可接受水平。

某些类型的视频，基于与其内容的性质相关的元数据具有易于识别和分类的优势，已被识别和发现为人类特征识别神经网络提供了良好的训练。例如，“自信”的特征通常与一个人公开讲话的录像可靠地联系在一起，如一个人发表公开演讲。同样，快乐和善良的特征通常与视频博客作者的镜头和求职者的镜头(例如“视频简历”)可靠地联系在一起。

在某些实施例中，通过两个阶段的选择过程来生成识别人类特征的神经网络训练数据。在第一阶段，选择通常与特定人类特征相关联的类型的视频(例如，公开演讲的视频片段、视频博客的视频片段和视频简历)。在第二个阶段，人类专家“注释”每个视频，即对视频中显示的人类特征进行分类。通常，至少有两位人类专家被用来对视频进行分类。出于培训目的，拒绝接受人类专家意见不同的视频(例如，一个人类专家将视频归类为“自信”，另一个人类专家将其归类为“紧张”)。

在本发明的实施例中，图7所示的处理步骤可以以任何合适的方式来表示和执行。

处理步骤可以由单个软件程序执行，或者可以分布在两个或多个软件程序或模块中。例如，一个或多个人类特征识别神经网络、面部检测步骤、情感特征估计过程、面部中层特征估计过程和特征向量生成过程可以由离散的独立于软件其他部分运行的软件模块提供。输入的视频数据可以通过合适的输入应用编程接口(API)被接收并输入到过程中。由该过程生成的输出(例如，n维特征向量和情感分类)可以通过合适的输出应用编程接口输出到在其上执行该过程的计算设备上运行的其它过程/软件。可以通过提供给用户的适当接口(例如图形用户界面)来配置过程的各个方面(例如，重新缩放步骤的参数、归一化步骤)。

在某些实施例中，图7所示的处理步骤可以是在一个或多个特定配置的硬件单元中实现，例如用于执行特定步骤的特定处理核心。

图8提供了根据本发明的某些实施例适于执行上述人类特征识别处理的系统801的简化示意图。

系统801包括存储器单元802和处理器单元803。存储器单元802在其上存储了包括处理器可读指令的计算机程序，当在处理器上执行时，该处理器可读指令使处理器执行如上所述的人类特征识别过程。

系统801还包括适于接收视频数据的输入单元804。通过输入单元804接收的视频数据由执行上述人类特征识别过程的处理器单元803处理。该过程的输出(例如，表示一个或多个识别特征的n维向量)由系统801经由输出单元805输出。在一些实现中，输出(例如，n维向量)被输出到存储器单元802以用于存储和后续处理。

图8所示的系统可以由任何合适的计算设备提供，例如合适的个人计算机、平板电脑或诸如智能电话的“智能”设备。图8所示组件的具体性质将取决于系统所包含的计算设备的类型。例如，如果计算设备是个人计算机，则处理器和存储器将由本领域众所周知的用于个人计算机的处理器硬件和存储器硬件提供。类似地，输入单元和输出单元将包括已知的硬件装置(例如，数据总线)，用于从诸如与数据网络的连接接口、存储器设备驱动器等的外围设备发送和接收数据。

在某些实施例中，图8所示的处理器单元803是逻辑名称，并且由处理器单元803提供的功能分布在多个处理器上，例如，多核处理设备中的多个处理核或根据已知的分布式(“云”)计算技术分布的多个处理单元之间的多个处理核。

在一个示例中，根据本发明实施例的人类特征识别系统可用于选择过程。本发明提供了一种系统，在该系统中，例如使用数字摄像机捕捉回答若干预定面试问题的对象(例如，某项工作的面试者)的视频片段。视频片段存储为视频数据文件。类似地，拍摄一个或多个进一步其他被测对象回答相同预定面试问题的视频片段。从而生成并存储进一步的视频数据文件。随后，每个视频数据文件被输入到计算设备，例如个人计算机，包括存储器，存储器上存储有用于执行如上所述的人类特征识别处理的软件。如将理解的，计算设备包括运行软件的处理器，通常与存储在存储器中的操作系统一起。视频数据文件可以以任何合适的方式传输到计算环节，例如通过数据网络连接，或者通过将存储设备(例如存储卡)从视频捕获设备的存储设备驱动器传输到计算设备的合适存储的设备驱动器。

对于每个视频数据文件，如上所述生成对应的n维特征向量。存储在存储器上并在处理器上运行的软件可以实现进一步的输出功能。例如，可以实现排序处理，其中基于为每个视频文件生成的n维特征向量，对每个对象进行排序。例如，排名过程可以包括为每个主体生成偏好度量。

这个偏好度量可以是n维向量的选定特征分量的值之和。例如，偏好度量可以是对应于自信度和诚实度的n维向量分量的分量之和。因此，可以为每个主体生成偏好度量，并且基于偏好度量的值对每个主体进行排序。这种排序过程使得系统的用户能够很容易地识别具有被认为是可取的最高水平特征的对象。

如释，通常，软件还控制计算设备以提供用户界面，允许用户控制软件提供的处理的各个方面，例如选择要处理的视频数据文件、定义显示人类特征识别过程输出的偏好度量，例如输出的n维向量的图形和/或数字表示以及排名过程的图形和/或数字表示。

如释，本发明的各方面可以以计算机程序产品的形式实现，所述计算机程序产品包括可以在处理器上实现的指令(即计算机程序)，所述指令存储在数据子载波上，例如软盘、光盘、硬盘、可编程只读存储器、随机存储器，闪存或这些或其他存储介质的任何组合，或通过网络(如以太网、无线网络、因特网或这些其他网络的任何组合)上的数据信号传输，或在硬件中以ASIC(专用集成电路)或FPGA(现场可编程门阵列)或其他可配置或定制电路的形式实现，以应用于适应传统等效设备。

请注意与本申请相关的说明书同时提交或之前提交的、并随本说明书公开供公众检查的所有文献和文件，所有此类文献和文件的内容均通过引用并入本说明书。本说明书中公开的所有特征(包括任何随附的权利要求、摘要和附图)和/或所公开的任何方法或过程的所有步骤可以组合成任何组合，除非其中至少一些特征和/或步骤是互斥的组合。除非另有明确说明，否则本说明书中披露的每一特征(包括任何随附的权利要求、摘要和附图)可替换为具有相同、同等或类似用途的替代特征。因此，除非另有明确说明，否则所公开的每个特征仅是等效或类似特征的一般系列的一个示例。本发明不限于上述实施例的细节。本发明延伸到本说明书中公开的特征的任何新颖的一个或任何新颖的组合(包括所附权利要求、摘要和附图)，或所公开的任何方法或过程的步骤的任何新颖的一个或任何新颖的组合。

Claims

1.一种从被摄体的图像数据中识别人体特征的方法，所述方法包括：

从图像数据中提取被摄体的图像序列；

从每个图像中估计对象的情感特征度量和面部中层特征度量；

对于每个图像，结合相关的估计情绪度量和估计面部中层特征度量以形成特征向量，从而形成特征向量序列，每个特征向量与图像序列的图像相关联；以及

将特征向量序列输入到人类特征识别神经网络，其中

所述人类特征识别神经网络适于处理特征向量序列并生成与从特征向量序列导出的至少一个人类特征相对应的输出数据。

2.根据任何先前权利要求所述的方法，其中所述图像数据是视频数据。

3.根据权利要求1或2所述的方法，其中所提取的图像序列是被摄体的面部图像。

4.根据权利要求3所述的一种方法，其中所述被摄体的面部为人脸。

5.根据权利要求4所述的方法，其中所述情绪度量通过训练用于从人脸图像中识别多个预定情绪的情绪识别神经网络来估计。

6.根据权利要求5所述的一种方法，其中所述情绪度量与一种或多种愤怒、蔑视、厌恶、恐惧、快乐、悲伤和惊讶的人类情绪相关联。

7.根据权利要求5或6所述的方法，包括通过情感识别神经网络输出n维向量，其中每个向量分量对应于预定情绪中的一种，向量的每个分量的大小对应于情绪识别神经网络识别该情绪的置信度。

8.根据权利要求7所述的方法，包括生成对应于与情感相关联的n维向量的进一步输出数据。

9.根据任何先前权利要求所述的方法，其中基于图像识别算法估计人脸的面部中层特征度量。

10.根据权利要求9所述的方法，其中面部中层特征度量是凝视、头部位置和眼睛闭合的一个或多个。

11.根据任何先前权利要求所述的方法，其中，从分类为包含与多个预定人类特征中的一个或多个相关联的人脸的视频数据中训练人类特征识别神经网络。

12.根据任何先前权利要求所述的方法，其中人类特征识别神经网络是递归神经网络。

13.根据权利要求12所述的方法，其中所述人的特征识别神经网络是一种长短期记忆网络。

14.根据权利要求1至11中任一权利要求所述的方法，其中，人类特征识别神经网络是卷积神经网络。

15.根据权利要求14所述的方法，其中，人的特征识别神经网络是基于波网络的神经网络。

16.根据任何先前权利要求所述的方法，其中所述人类特征识别神经网络的输出数据包括n维向量，其中所述向量的每个分量对应于人类特征，以及向量的每个分量的大小对应于被检测特征的强度。

17.根据任何先前权利要求所述的方法，其中所述多个预定特征包括一个或多个特征，具体如激情、自信、诚实、紧张、好奇、判断和分歧。

18.一种从被摄体的图像数据中识别人类特征的系统，所述系统包括输入单元、输出单元、处理器和存储器，其中所述存储器在其上存储了处理器可执行指令，所述可执行指令在处理器上执行时控制处理器经由所述输入单元接收图像数据作为输入；从所述图像数据中提取被摄体的图像序列；从所述每个图像中估计被摄体的情感特征度量和面部中层特征度量；对于每个图像，将相关联的估计情感度量和估计面部中层特征度量结合起来形成特征向量，从而形成特征向量序列，每个特征向量与图像序列的图像相关联；通过适合于生成与从特征向量序列导出的至少一个人类特征对应的输出数据的人类特征识别神经网络来处理特征向量序列，并且输出单元适合于输出由神经网络生成的输出数据。

19.根据权利要求18所述的系统，其中所述图像数据是视频数据。

20.根据权利要求18或19所述的系统，其中所提取的图像序列是被摄体的面部图像。

21.根据权利要求20所述的系统，其中被摄体的面部是人的面部。

22.根据权利要求21所述的系统，其中，所述处理器可执行指令进一步控制所述处理器，以使用训练用于从人脸图像识别多个预定情绪的情绪识别神经网络来估计情绪度量。

23.根据权利要求22所述的一种系统，其中所述情绪度量与一种或多种愤怒、蔑视、厌恶、恐惧、快乐、悲伤和惊讶的人类情绪相关联。

24.根据权利要求22或23所述的系统，其中所述处理器可执行指令进一步控制所述处理器通过情感识别神经网络输出n维向量，其中所述向量的每个分量对应于所述预定情感中的一个，向量的每个分量的大小对应于情绪识别神经网络识别情绪的置信度。

25.根据权利要求24所述的系统，其中所述输出单元适于输出与情感相关联的n维向量。

26.根据任何先前权利要求所述的系统，其中基于图像识别算法估计人脸的面部中层特征度量。

27.根据权利要求18所述的系统，其中面部中层特征度量是凝视、头部位置和眼睛闭合的一个或多个。

28.根据权利要求18至27中任一权利要求所述的系统，其中，从分类为包含与多个预定人类特征中的一个或多个相关联的人脸的视频数据以训练人类特征识别神经网络。

29.根据权利要求18至28中任一权利要求所述的系统，其中人类特征识别神经网络是递归神经网络。

30.根据权利要求29所述的系统，其中所述人类特征识别神经网络是长短期记忆网络。

31.根据权利要求18至28中任一权利要求所述的系统，其中人类特征识别神经网络是卷积神经网络。

32.根据权利要求31所述的系统，其中，人类特征识别神经网络是基于波网的神经网络。

33.根据权利要求18至32中任一权利要求所述的系统，其中人类特征识别神经网络的输出数据包括n维向量，其中向量的每个分量对应于人类特征，并且向量的每个分量的大小对应于这个被检测特征。

34.根据任何先前权利要求所述的系统，其中所述多个预定特征包括一个或多个特征，具体有激情、自信、诚实、紧张、好奇、判断和不同意。

35.一种计算机程序，包括当在适当的计算机处理器上执行时可控制计算机处理器以实现根据权利要求1至17中任一权利要求所述的方法的计算机可读指令。

36.根据权利要求33所述的存储有计算机程序的计算机程序产品。