CN107735795A - 用于社会关系识别的方法和系统 - Google Patents

用于社会关系识别的方法和系统 Download PDF

Info

Publication number
CN107735795A
CN107735795A CN201580081408.9A CN201580081408A CN107735795A CN 107735795 A CN107735795 A CN 107735795A CN 201580081408 A CN201580081408 A CN 201580081408A CN 107735795 A CN107735795 A CN 107735795A
Authority
CN
China
Prior art keywords
face
social relationships
feature
shared
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201580081408.9A
Other languages
English (en)
Other versions
CN107735795B (zh
Inventor
汤晓鸥
张展鹏
罗平
吕健勤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Sensetime Technology Development Co Ltd
Original Assignee
Beijing Sensetime Technology Development Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Sensetime Technology Development Co Ltd filed Critical Beijing Sensetime Technology Development Co Ltd
Publication of CN107735795A publication Critical patent/CN107735795A/zh
Application granted granted Critical
Publication of CN107735795B publication Critical patent/CN107735795B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24133Distances to prototypes
    • G06F18/24137Distances to cluster centroïds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/30Scenes; Scene-specific elements in albums, collections or shared content, e.g. social network photos or video
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/191Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
    • G06V30/19173Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • G06V40/169Holistic features and representations, i.e. based on the facial image taken as a whole
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/172Classification, e.g. identification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/174Facial expression recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Data Mining & Analysis (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Human Computer Interaction (AREA)
  • Medical Informatics (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Databases & Information Systems (AREA)
  • Image Analysis (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)

Abstract

公开了一种用于识别图像中的人的社会关系的方法,其包括:为图像中的人脸生成人脸区域;确定每个人脸的至少一个空间线索;从人脸区域中提取每个人脸的与社会关系相关的特征;从提取的特征和确定的空间线索中确定共享的人脸特征,其中确定的特征由多个社会关系推断共享;以及从共享的人脸特征中预测人的社会关系。

Description

用于社会关系识别的方法和系统
技术领域
本申请涉及社会关系识别,具体而言,涉及一种用于图像中的人的社会关系(例如,两个或更多人之间的温馨、友好和主导(dominance))的方法和系统。
背景技术
社会关系表明人与人之间的关系何时建立、互动或加深。视频正变成分享信息的主流媒体,它们捕获具有不同社会关系的个体。不同于传统的文本类媒体,有效地利用此类丰富的社会来源可以提供社会事实。这样的能力预示着广泛的应用。例如,自动社会关系推断(inference)允许从社交网络、个人相册和影片中的图像采集中挖掘关系。
社会关系特点或本申请中定义的社会关系基于凯斯勒(Kiesler)提出的人际圈,其中人类关系分成16个片段,但还可以定义更多的属性。每个片段具有相反面,诸如,“友好和敌对”。因此,16个分段可以被视作八个二元关系特点。例如,“友好”和“竞争”容易拆分,因为含义冲突。然而,一些关系比较紧密,诸如,“友好”和“信任”,从而表明一对人脸可以具有不止一种社会关系。
然而,从人脸图像中描绘无字幕社会关系比较困难:(1)正如心理学研究所示,人脸图像的关系与高级人脸因素相关。需要捕获诸如表情和头部姿势的各种属性的丰富人脸表示;(2)目前没有可用的单个训练数据集,训练数据集涵盖所有需要的人脸属性标注,以学习这样的丰富表示。具体而言,一些数据集只含有人脸表情标签,而其他数据集可能只含有性别标签。此外,这些数据是从不同环境中收集的并且呈现出不同的统计分布。如何在此类异构数据上有效地训练模型仍然是未解决的问题。
发明内容
下文呈现出本公开的简单概述,以便提供本公开的一些方面的基础理解。发明内容并非本公开的广泛概述,其既非用来识别本公开的关键或重要元素,也不是用来描述本公开的特定实施方案的任何范围或权利要求书的任何范围。该发明内容的唯一目的是以简化的形式呈现本公开的一些概念,作为之后呈现的更详细描述的序言。
在本申请的一方面,公开了一种用于识别图像中的人的社会关系的方法。该方法可以包括:为图像中的人脸(faces)生成人脸区域(faceregions);确定每个所述人脸的至少一个空间线索(space cue);从人脸区域中提取每个人脸的与社会关系相关的特征;从提取的特征和确定的空间线索中确定共享的人脸特征,其中确定的特征由多个社会关系推断共享;以及从共享的人脸特征中预测人的社会关系。
在本申请的另一方面公开了一种用于识别图像中的人的社会关系的系统。该系统可以包括:人脸区域生成装置,其为图像中的人脸生成人脸区域并且确定人脸的至少一个空间线索;特征提取装置,其与人脸区域生成装置电通信并且从人脸区域中提取每个人脸的与社会关系相关的特征;特征确定装置,其电连接到提取装置并且从提取的特征和确定的空间线索中确定共享的人脸特征,其中确定的特征由多个社会关系推断共享;以及预测装置,其从共享的人脸特征中预测人的社会关系。
在一个实施方案中,特征提取装置还可以包括卷积神经网络,其包括连接到彼此的多个层,每个层具有多个神经元并且同一层中的所有神经元之间的连接具有相同的权值,并且其中该系统还包括:训练单元,其利用预定训练图像集来训练网络,以调整神经元之间的连接的权值,从而使得所训练的网络能够提取共享的人脸特征以供社会关系识别。
根据本申请,提供了一种用于训练卷积神经网络以执行社会关系识别的方法。该方法可包括:对预定训练集进行采样以获得含有两个或更多人脸及其真值社会关系的训练人脸图像;将所采样的人脸中的每个的预测关系与对应的真值社会关系进行比较,以生成关系分类误差;以及将所生成的误差反向传播通过神经网络,以调整神经元之间的连接的权值,直到关系分类误差小于预定阈值为止。
在又一方面,公开了一种用于识别图像中的人的社会关系的系统。该系统可以包括存储可执行部件的存储器。该系统还可以包括处理器,其电连接到存储器以执行可执行部件,以便执行该系统的操作,其中可执行部件包括:人脸区域生成部件,其为图像中的人脸生成人脸区域并且确定人脸的至少一个空间线索;特征提取部件,其与人脸区域生成部件电通信并且从人脸区域中提取每个人脸的与社会关系相关的特征;特征确定部件,其电连接到提取部件并且从提取的特征和确定的空间线索中确定共享的人脸特征,确定的特征由多个社会关系推断共享;以及预测部件,其从共享的人脸特征中预测人的社会关系。
与现有方法相比,用于人脸属性的子提取器训练方法可以利用下列中的至少一个:(1)处理不同数据集中的缺失属性标签,以及(2)由从人脸部分外形的联合中导出的弱约束来桥接异构数据集的差距。这允许所要求的系统和方法有效地从具有不同标注和统计分布的异构数据集中学习更多。
附图说明
下文参考附图描述本申请的示例性非限制实施方案。附图是说明性的,并且被非按确切的比例进行绘制。不同图上的相同或类似元件引用相同的附图标号。
图1是示出符合一些公开实施方案的用于社会关系识别的示例性系统的示意图。
图2是示出符合一些公开实施方案的用于社会关系识别的过程的示意流程图。
图3是示出根据本申请的实施方案的特征提取装置的示意图。
图4是根据本申请的实施方案的用于提取特征的卷积神经网络的示例。
图5是示出根据本申请的实施方案的用于社会关系识别的示例性系统的示意图。
图6是示出根据本申请的实施方案的训练装置的示意图。
图7是示出根据本申请的实施方案的用于训练特征提取装置的方法的示意流程图。
图8是示出根据本申请的一个实施方案的用于训练社会关系识别的方法的示意流程图。
图9示出根据本申请的一个实施方案的用于社会关系识别的系统,其中本发明的功能由软件实施。
具体实施方式
下面将详细地参考本发明的一些具体实施方案,包括发明人预期的用于实施本发明的最佳模式。附图中示出这些具体实施方案的示例。尽管结合这些具体实施方案描述了本发明,但应理解,这并非用来将本发明限于所述实施方案。相反,其旨在涵盖可以包括在如所附权利要求书限定的本发明的精神和范围内的替代方案、修改和等效物。以下描述中列出了许多具体细节,以便提供对本发明的彻底理解。本发明可以在没有这些具体细节中的一些或全部的情况下实践。在其他情况下,没有详细地描述众所周知的过程操作,以免不必要地使本发明变得模糊。
本文中使用的术语仅仅是出于描述特定实施方案的目的,而不意图限制本发明。如本文中使用,除非上下文以其他方式明确指出,否则单数形式“一”、“一个”和“所述”也意图包括复数形式。还应理解,本说明书中所使用的术语“包括”和/或“包括”指定存在所述特征、整体、步骤、操作、元件和/或部件,但并不排除存在或添加一个或多个其他特征、整体、步骤、操作、元件、部件和/或其组合。
图1是示出符合本申请的一些公开实施方案的用于社会关系识别的示例性系统1000的示意图。如图1所示,系统1000包括人脸区域生成装置10、特征提取装置20、特征确定装置30以及预测装置40。
图2是示出符合一些公开实施方案的用于社会关系识别的过程2000的示意流程图。如图2所示,在步骤S201处,人脸区域生成装置10进行操作以为图像中的人脸生成人脸区域。在步骤S202处,特征提取装置20确定每个人脸的至少一个空间线索。在步骤S203处,特征提取装置20从人脸区域中提取每个人脸的社会识别特征。在步骤S204处,特征确定装置30从所提取的特征和所确定的空间线索中确定共享的人脸特征,所确定的特征由多个社会关系推断(social relation inferences)共享。例如,可以通过连接所提取的特征和空间线索来生成共享的特征。在步骤S205处,预测装置40从共享的人脸特征中预测图像中的人的社会关系。
下文将进一步论述人脸区域生成装置10、特征提取装置20、特征确定装置30和预测装置40的更多细节。
在本申请中,系统1000预测输入图像中的至少两个人的社会关系。具体而言,社会关系描述具有八个维度(dimension)。将每个关系建模为单个二元分类任务。这意味着预测装置的输出是具有预定长度的二元向量。以八长度为例,八个二元向量可以分别表示主导、竞争、信任、亲切、友好、依恋、感情外露和确信(见表1)。例如,八长度位输出“00111111”意味着关系为非主导、非竞争,信任、亲切、友好、依恋、感情外露和确信。
表1
在本申请的一个示例中,特征提取装置20可以含有至少两个子提取器20A和20B,如图3所示。
根据实施方案,子提取器20A和20B可以包括卷积神经网络。网络可包括连接到彼此的多个层,每个层具有多个神经元并且同一层中的所有神经元都具有相同的连接权值。图4示出用于提取特征的示例性卷积神经网络。如图4所示,卷积神经网络包括输入层、多个(例如,四个或更多)卷积层、多个(例如,三个)池化层和一个全连接层。应注意,所示网络是为了示例,并且特征提取装置20中的卷积神经网络不限于此。
如图4所示,在输入层中输出48×48(例如)的人脸图像。在卷积层和最大池化层之后,跟随最后一个卷积层(例如,图4所示的第四卷积层)的全连接层产生特征向量,该特征向量由多个属性推断任务共享以进行估计。每个层含有带局部或全局感受域(receptivefield)的多个神经元,并且卷积神经网络的神经元之间的连接的权值可以在训练期间进行调整,这将在之后论述。由全连接层(图4中的“x”)生成的特征是子提取器10A和10B的输出特征。
然而,目前没有这样一种可用的单个数据集来涵盖所有需要的人脸属性标注,以学习这样的丰富表示(特征)。具体而言,一些数据集只含有人脸表情标签,而其他数据集可能只含有性别标签。此外,这些数据是从不同环境中收集的并且呈现出不同的统计分布。由于来自不同数据集的人脸共享局部部分的类似外形,诸如,嘴和眼睛,因此,本申请基于局部对应(local correspondence)而提出了桥接层,以处理不同的数据集分布。
在本申请的实施方案中,本申请基于对齐的人脸部分的混合来建立人脸描述符h。图4示出将对齐的人脸部分用来构建人脸描述符的示例。首先,构建三层分级结构以区分人脸部分,其中每个子节点将其父节点的数据组成群集,诸如,在顶层中,通过K均值的方式,使用关键点(landmark)位置(例如,嘴角、鼻子和眼睛)将从训练集中导出的人脸分成多个群集。在第二层中,针对每个节点,使用关键点在上、下人脸区域中的位置执行K均值,并且也相应地获得多个群集。每个群集中的人脸的平均HOG特征被视作对应的模板。在给定新样本的情况下,通过将L2距离连接到每个模板来获得描述符h。
此外或作为替代,系统1000还可以包括训练装置50,以调整卷积神经网络的神经元之间的连接的权值,如图5所示。训练装置50可以利用带有一些人脸属性(例如,性别、年龄和表情)的预定训练集标签进行训练。经过训练的特征提取装置20能够提取人脸特征,从而可以预测人脸属性。
根据图6所示的本申请的一个实施方案,训练装置50可以包括采样器501、比较器502和反向传播器503。
采样器501对预定训练集进行采样,以获得含有单个人脸的训练人脸图像及其真值人脸属性(例如,性别、头发颜色、头部旋转)。根据另一实施方案,用于每个属性的真值目标可以进行手动标记。例如,针对性别分类,真值目标可以被标记为女(F)或男(M)。针对戴眼镜,真值目标可以被标记为戴(Y)或不戴(N)。针对头部姿势估计,可以标记(0°,±30°,±60°),并且针对表情识别,可以相应地标记诸如微笑或生气。
比较器502可以将预测的属性与真值属性进行比较,以生成属性误差。属性误差可以通过使用例如交叉熵误差来获取。
反向传播器503可以将所生成的属性误差反向传播通过卷积神经网络,以调整卷积神经网络的神经元之间的连接的权值。
根据实施方案,训练装置50还可以包括确定器504。确定器504可以确定人脸属性的训练过程是否收敛。
下文将详细论述如上文提及的训练装置50中的部件。出于说明的目的,将论述由训练装置50共同训练属性的实施方案。
针对属性任务,将训练数据表示为并且i=1、2、3…N,l=1、2、3…L,其中N表示训练数据的数量,I表示图像像素并且L是属性的数量。在本申请的一个实施方案中,有四个属性任务(L=4),它们被示出并且分别表示为“性别”、“微笑”、“生气”和“年轻”。因此,是分别表示女/男、没微笑/微笑、没生气/生气、不年轻/年轻的二元属性。将不同的权值分配给任务并且分别表示为wyl
随后,所有的属性任务的目标函数表示如下,以优化属性推断任务:
其中f(K(Ii);wyl)是K(Ii)和权值向量wyl的线性函数;表示损失函数;λl表示第l个任务的误差的重要性系数;并且K(Ii)表示由网络权值提取的共享人脸特征。
根据实施方案,将交叉熵函数用作属性的损失函数,以生成对应的属性二元分类误差。因此,上述目标函数可以改写成如下:
在等式(2)中,第一项是后验概率函数 其中表示任务l的权值矩阵的第j列。第二项和第三项惩罚大权值。
根据实施方案,所有的任务的权值可以相应地更新。具体而言,权值矩阵wyl由反向传播更新。每个任务l的权值矩阵可以由下列等式计算:
随后,属性误差可以被反向传播器503反向传播通过卷积神经网络,以调整卷积神经网络的神经元之间的连接的权值。如果属性标签在训练数据集中缺失,那么相应的误差设置为零。
重复上述训练过程,直到属性误差的训练过程被确定器504确定为收敛。换言之,如果误差在多次迭代中停止降低,那么训练过程将被确定为收敛。利用上述训练过程,子提取器20A/20B能够从给定的人脸图像中提取特征向量。根据一个实施方案,针对任何人脸图像Ii,所训练的子提取器20A/20B提取特征向量K(Ii)。
应注意,尽管为了说明的目的,使用了两个人脸的示例,但不限于只有两个人脸。例如,三个或更多人脸也是适用的。
图7是示出针对提取装置20的训练步骤的流程图。在步骤S701中,对预定的训练集进行采样,以获得含有单个人脸及其真值人脸属性的训练的用人脸图像。针对训练用的人脸图像,在步骤S702中,可以从网络相应地获得所有属性的目标预测。随后,在步骤S703中,将预测的属性和真值属性进行比较,以生成属性误差。随后,在步骤S704中,将所生成的属性误差反向传播通过卷积神经网络,以调整卷积神经网络的神经元之间的连接的权值。在步骤S705中,确定是否所有的任务都收敛。如果否的话,则过程700返回到步骤S701。否则,过程700结束。
在获得共享的特征之后,分别执行逻辑回归,以确定每个社会关系(例如,主导、竞争、信任、亲切、友好、依恋、感情外露和确信)的正/负。例如,当共享的特征被表示为x时,表示主导的值y可以由下列等式计算:
其中,在训练过程中学习了参数w,这将在之后详细地论述。
当y>0.5时,主导的社会关系为正。针对社会关系分类任务,将训练数据表示为并且i=1、2、3…N,t=1、2、3…T,其中N表示训练数据的数量。T是社会特点的数量(例如,在表1中,T=8)。分别表示右脸和左脸。是二元值,表明是否存在相应的社会特点。不同的权值被分配给关系任务并且表示为wgt
将一些空间线索合并到特征确定装置30,如图2的步骤s201所示,所述空间线索可以包括下列中的至少一个:1)两个人脸的位置,2)人脸的相对位置,以及3)人脸的尺度之比。上述空间线索连接成向量xs,随后与特征xQ进行连接。xQ是由子提取器10A和10B所提取的xr,xl的线性投影获得的(即,xr=K(Ir),xl=K(Ir)),以用于学习关系特点。具体而言,xQ=W[xr;x1],其中[xr;xl]表示右脸特征xr、左脸特征xl的连接。W是用于投影的权值矩阵。
预测器40通过线性回归来确定社会关系:gi=wg[xQ;xs]+∈,其中[xQ;xs]表示人脸特征xQ和空间线索xs的连接。∈是附加误差随机变量,其根据标准逻辑分布进行分布(∈~Logistic(0,1))。
随后,训练单元B的目标函数可以用公式表示成:
其中K是子提取器的权值。由于子提取器可以相同,因此它们共享相同的K。W是将左脸和右脸特征投影到公共特征空间的权值。
图8中示出用于社会关系识别的训练步骤。在步骤S801中,对预定训练集进行采样,以获得含有两个或更多人脸及其真值社会关系特点的训练用的人脸图像。针对人脸区域,在步骤S802中,可以从预测装置40中相应地获得所有关系特点的目标预测。随后,在步骤S803中,将预测的关系和真值关系进行比较,以生成关系分类误差。随后,在步骤S804中,将所生成的关系误差反向传播通过卷积神经网络,以调整卷积神经网络的神经元之间的连接的权值。在步骤S805中,确定关系任务是否收敛。如果否的话,则过程800返回到步骤S801,否则,过程800结束。
如本领域的技术人员将了解,本发明可以体现为系统、方法或计算机程序产品。因此,本发明可以采用在本文中一般全都可以称为“单元”、“电路”、“模块”或“系统”的全硬件实施方案和硬件方面的形式。本发明功能中的很多功能和本发明原理中的很多原理在实施时由集成电路(IC)最好地支持,诸如,数字信号处理器和软件或者专用IC。尽管可能会存在大量的努力和很多设计选择(这些选择例如由可用时间、当前技术和经济考虑等因素驱使),但可以预期,本领域的技术人员在由本文中公开的概念和原理的引导下,能够利用最少的实验生成IC。因此,为了简洁起见并且最小化那些可能会模糊本发明原理和概念的任何风险,此类软件和IC的进一步论述(若有的话)将限于优选实施方案所使用的必要原理和概念。
此外,本发明可以采用全软件实施方案(包括固件、常驻软件、微码等)或者组合软件的实施方案。此外,本发明可以采用计算机程序产品的形式,所述计算机程序产品体现在任何有形的表达介质中,所述介质具有体现在介质中的计算机可用程序代码。图9示出根据本申请的一个实施方案的用于识别图像中的人的社会关系的系统9000,其中本发明的功能由软件实施。参考图9,系统9000包括存储可执行部件的存储器9001,以及处理器9002,所述处理器电连接到存储器9001以执行可执行部件,以便执行系统9000的操作。可执行部件可以包括:人脸区域生成部件9003,其生成图像中的人的人脸区域并且确定人脸的至少一个空间线索;特征提取部件9004,其与人脸区域生成部件电子通信并且从人脸区域中提取每个人脸的社会识别特征;特征确定部件9005,其电连接到提取部件并且从提取的特征和确定的空间线索中确定共享的人脸特征,确定的特征由多个社会关系推断共享;以及预测部件9006,其从共享的人脸特征中预测人的社会关系。部件9003至9006的功能分别类似于装置10至40的那些功能,因此本文中省略其详细描述。
本申请不同于现有技术中的方法。首先,多数有效的分析方法基于单个人,因此无法直接用于人际关系推断。其次,本次工作旨在识别详细的高级社交关系特点,而不是类似‘对话’、‘独白’和‘讨论’的低级关系。第三,很多社会关系研究并没有将人脸图像直接用于关系推断。
尽管已描述了本发明的优选示例,但在了解本发明基本概念后,本领域的技术人员可以对这些示例作出变化或更改。所附权利要求书意图包括落入本发明的范围内的优选示例和所有变化或更改。
显然,在不脱离本发明的精神和范围的情况下,本领域的技术人员可以对本发明作出变化或更改。因此,如果这些变化或更改属于权利要求书和等效技术的范围,那么它们也可以落入本发明的范围内。

Claims (15)

1.一种用于识别图像中的人的社会关系的方法,其包括:
为所述图像中的人脸生成人脸区域;
确定每个所述人脸的至少一个空间线索;
从所述人脸区域中提取每个人脸的与社会关系相关的特征;
从所提取的特征和所确定的空间线索中确定共享的人脸特征,所确定的人脸特征由多个社会关系推断共享;以及
从所述共享的人脸特征中预测所述人的社会关系。
2.根据权利要求1所述的方法,其中所述空间线索包括下列中的至少一个:每个所述人脸的位置、所述人脸的相对位置,以及所述人脸之间的尺度比。
3.根据权利要求2所述的方法,其中所述方法还包括:
由卷积神经网络提取识别特征;其中所述卷积神经网络包括连接到彼此的多个层,每个层具有多个神经元并且同一层中的神经元之间的连接具有相同的权值,以及
其中,所述方法还包括:
利用预定的训练图像集来训练所述卷积神经网络,以调整所述神经元之间的连接的权值,从而使得经过训练的卷积神经网络能够提取所述共享的人脸特征以用于社会关系识别。
4.根据权利要求3所述的方法,其中所述提取还包括:
通过从每个所述人脸的局部部分的类似外形中导出的弱约束来桥接异构数据集的差距。
5.根据权利要求3所述的方法,其中所述训练还包括:
对所述预定训练集进行采样,以获得训练用的人脸图像,所述训练用的人脸图像含有两个或更多人脸的及其真值社会关系;
将被采样的每个人脸的预测关系与对应的真值社会关系进行比较,以生成关系分类误差;以及
将生成的误差反向传播通过所述卷积神经网络,以调整所述神经元之间的连接的权值,直到所述关系分类误差小于预定阈值。
6.根据权利要求1所述的方法,其中所述社会关系包括由下列组成的组中的至少一个:主导、竞争、信任、亲切、友好、依恋、感情外露以及确信。
7.一种用于识别图像中的人的社会关系的系统,其包括:
人脸区域生成装置,为所述图像中人脸生成人脸区域并确定所述人脸的至少一个空间线索;
特征提取装置,与所述人脸区域生成装置电通信并从所述人脸区域中提取每个人脸的与社会关系相关的特征;
特征确定装置,电连接到所述提取装置并从所提取的特征和所确定的空间线索中确定共享的人脸特征,所确定的特征由多个社会关系推断共享;以及
预测装置,从所述共享的人脸特征中预测所述人的社会关系。
8.根据权利要求7所述的系统,其中所述空间线索包括下列中的至少一个:每个所述人脸的位置、所述人脸的相对位置,以及所述人脸之间的尺度比。
9.根据权利要求7所述的系统,其中所述特征提取装置还包括卷积神经网络,所述卷积神经网络包括连接到彼此的多个层,每个层具有多个神经元并且同一层中的所有神经元之间的连接具有相同的权值,并且其中所述系统还包括:
训练单元,用于利用预定训练图像集来训练所述卷积神经网络,以调整所述神经元之间的连接的权值,从而使得经过训练的卷积神经网络能够提取所述共享的人脸特征用于社会关系识别。
10.根据权利要求9所述的系统,其中所述特征提取装置还用于:
由从人脸部分外形的联合中导出的弱约束来桥接异构数据集的差距,以从具有不同标注和统计分布的异构数据集中有效地学习所述共享的人脸特征。
11.根据权利要求9所述的系统,其中所述训练单元还包括:
采样器,其对所述预定训练集进行采样,以获得训练用的人脸图像,所述训练用的人脸图像含有两个或更多人脸及其真值社会关系;
比较器,其将所采样的每个人脸的预测关系与对应的真值关系进行比较,以生成关系分类误差;以及
传播器,其将所生成的误差反向传播通过所述神经神经网络,以调整所述神经元之间的连接的权值,直到所述关系分类误差小于预定阈值。
12.根据权利要求6所述的系统,其中所述社会关系包括由下列组成的组中的至少一个:主导、竞争、信任、亲切、友好、依恋、感情外露以及确信。
13.一种用于识别图像中的人的社会关系的系统,其包括:
人脸区域生成部件,其为所述图像中的人脸生成人脸区域并且确定所述人脸的至少一个空间线索;
特征提取部件,其与所述人脸区域生成部件电通信并且从所述人脸区域中提取每个人脸的与社会关系相关的特征;
特征确定部件,其电连接到所述提取部件并且从所提取的特征和所确定的空间线索中确定共享的人脸特征,所确定的特征由多个社会关系推断共享;以及
预测部件,从所述共享的人脸特征中预测所述人的社会关系。
14.根据权利要求13所述的系统,其中所述特征提取部件还包括卷积神经网络,所述卷积神经网络包括连接到彼此的多个层,每个层具有多个神经元并且同一层中的所有神经元之间的连接具有相同的权值,并且其中所述系统还包括:
训练单元,其利用预定训练图像集来训练所述卷积神经网络,以调整所述神经元之间的连接的所述权值,从而使得经过训练的卷积神经网络能够提取所述共享的人脸特征以用于社会关系识别。
15.根据权利要求14所述的系统,其中所述特征提取部件还用于由从人脸部分外形的联合中导出的弱约束来桥接异构数据集的差距,以从具有不同标注和统计分布的异构数据集中有效地学习所述共享的人脸特征。
CN201580081408.9A 2015-07-02 2015-07-02 用于社会关系识别的方法和系统 Active CN107735795B (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/CN2015/083159 WO2017000300A1 (en) 2015-07-02 2015-07-02 Methods and systems for social relation identification

Publications (2)

Publication Number Publication Date
CN107735795A true CN107735795A (zh) 2018-02-23
CN107735795B CN107735795B (zh) 2021-11-26

Family

ID=57607556

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201580081408.9A Active CN107735795B (zh) 2015-07-02 2015-07-02 用于社会关系识别的方法和系统

Country Status (3)

Country Link
US (1) US10579876B2 (zh)
CN (1) CN107735795B (zh)
WO (1) WO2017000300A1 (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110223482A (zh) * 2019-06-20 2019-09-10 北京百度网讯科技有限公司 无人驾驶车辆的报警方法和装置
CN110348285A (zh) * 2019-05-23 2019-10-18 北京邮电大学 基于语义增强网络的社会关系识别方法及装置
CN110807117A (zh) * 2018-08-03 2020-02-18 深圳云天励飞技术有限公司 一种用户关系预测方法及装置、计算机可读存储介质
WO2020114119A1 (zh) * 2018-12-07 2020-06-11 深圳光启空间技术有限公司 一种跨域网络训练及图像识别方法
CN112208475A (zh) * 2019-07-09 2021-01-12 奥迪股份公司 用于车辆乘员的安全保护系统、车辆及相应的方法和介质
CN113822767A (zh) * 2020-06-11 2021-12-21 浙江宇视科技有限公司 社会关系确定方法、装置、设备及存储介质
CN114550276A (zh) * 2022-04-26 2022-05-27 中国电子科技集团公司第十五研究所 重点人员的活动轨迹确定方法、装置和系统

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018033137A1 (zh) * 2016-08-19 2018-02-22 北京市商汤科技开发有限公司 在视频图像中展示业务对象的方法、装置和电子设备
CN108399379B (zh) * 2017-08-11 2021-02-12 北京市商汤科技开发有限公司 用于识别面部年龄的方法、装置和电子设备
EP3495988A1 (en) * 2017-12-05 2019-06-12 Aptiv Technologies Limited Method of processing image data in a connectionist network
CN108492200B (zh) * 2018-02-07 2022-06-17 中国科学院信息工程研究所 一种基于卷积神经网络的用户属性推断方法和装置
CN109471959B (zh) * 2018-06-15 2022-06-14 中山大学 基于图推理模型的图像中人物社会关系辨识方法及系统
US10885400B2 (en) 2018-07-03 2021-01-05 General Electric Company Classification based on annotation information
US20200012884A1 (en) * 2018-07-03 2020-01-09 General Electric Company Classification based on annotation information
US10755147B2 (en) 2018-07-03 2020-08-25 General Electric Company Classification and localization based on annotation information
US10650564B1 (en) * 2019-04-21 2020-05-12 XRSpace CO., LTD. Method of generating 3D facial model for an avatar and related device
CN110598587B (zh) * 2019-08-27 2022-05-13 汇纳科技股份有限公司 结合弱监督的表情识别网络训练方法、系统、介质及终端
CN114169515B (zh) * 2020-08-20 2023-04-28 四川大学 一种基于高阶图神经网络的社交关系识别方法
CN112329648B (zh) * 2020-11-09 2023-08-08 东北大学 基于面部表情交互的人际关系行为模式识别方法
CN112633224B (zh) * 2020-12-30 2024-03-26 深圳云天励飞技术股份有限公司 一种社交关系识别方法、装置、电子设备及存储介质
CN112633244B (zh) * 2020-12-31 2023-03-03 深圳云天励飞技术股份有限公司 一种社交关系的识别方法、装置、电子设备及存储介质
CN112906484B (zh) * 2021-01-25 2023-05-12 北京市商汤科技开发有限公司 一种视频帧处理方法及装置、电子设备和存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060251338A1 (en) * 2005-05-09 2006-11-09 Gokturk Salih B System and method for providing objectified image renderings using recognition information from images
US20110263946A1 (en) * 2010-04-22 2011-10-27 Mit Media Lab Method and system for real-time and offline analysis, inference, tagging of and responding to person(s) experiences
US20140063236A1 (en) * 2012-08-29 2014-03-06 Xerox Corporation Method and system for automatically recognizing facial expressions via algorithmic periocular localization

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7809192B2 (en) * 2005-05-09 2010-10-05 Like.Com System and method for recognizing objects from images and identifying relevancy amongst images and information
US7809722B2 (en) * 2005-05-09 2010-10-05 Like.Com System and method for enabling search and retrieval from image files based on recognized information
US9373076B1 (en) * 2007-08-08 2016-06-21 Aol Inc. Systems and methods for building and using social networks in image analysis
US9319640B2 (en) * 2009-12-29 2016-04-19 Kodak Alaris Inc. Camera and display system interactivity
US8416997B2 (en) * 2010-01-27 2013-04-09 Apple Inc. Method of person identification using social connections
US10204625B2 (en) * 2010-06-07 2019-02-12 Affectiva, Inc. Audio analysis learning using video data
US9076270B2 (en) * 2013-05-14 2015-07-07 Google Inc. Generating compositions
US20150286873A1 (en) * 2014-04-03 2015-10-08 Bruce L. Davis Smartphone-based methods and systems
CN106068514B (zh) * 2013-12-19 2019-09-20 威智伦富智堡公司 用于在不受约束的媒体中识别面孔的系统和方法
US20150295879A1 (en) * 2014-04-15 2015-10-15 Edward K. Y. Jung Life Experience Memorialization Enhancement Via Coordinated Coupling
CN103971131A (zh) * 2014-05-13 2014-08-06 华为技术有限公司 一种预设表情识别方法和装置
WO2016127338A1 (en) * 2015-02-11 2016-08-18 Yahoo! Inc. Method and system for online user profiling
US10108714B2 (en) * 2015-12-22 2018-10-23 International Business Machines Corporation Segmenting social media users by means of life event detection and entity matching
US9918006B2 (en) * 2016-05-20 2018-03-13 International Business Machines Corporation Device, system and method for cognitive image capture

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060251338A1 (en) * 2005-05-09 2006-11-09 Gokturk Salih B System and method for providing objectified image renderings using recognition information from images
US20110263946A1 (en) * 2010-04-22 2011-10-27 Mit Media Lab Method and system for real-time and offline analysis, inference, tagging of and responding to person(s) experiences
US20140063236A1 (en) * 2012-08-29 2014-03-06 Xerox Corporation Method and system for automatically recognizing facial expressions via algorithmic periocular localization

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110807117A (zh) * 2018-08-03 2020-02-18 深圳云天励飞技术有限公司 一种用户关系预测方法及装置、计算机可读存储介质
CN110807117B (zh) * 2018-08-03 2022-07-29 深圳云天励飞技术有限公司 一种用户关系预测方法及装置、计算机可读存储介质
WO2020114119A1 (zh) * 2018-12-07 2020-06-11 深圳光启空间技术有限公司 一种跨域网络训练及图像识别方法
CN110348285A (zh) * 2019-05-23 2019-10-18 北京邮电大学 基于语义增强网络的社会关系识别方法及装置
CN110223482A (zh) * 2019-06-20 2019-09-10 北京百度网讯科技有限公司 无人驾驶车辆的报警方法和装置
CN112208475A (zh) * 2019-07-09 2021-01-12 奥迪股份公司 用于车辆乘员的安全保护系统、车辆及相应的方法和介质
CN113822767A (zh) * 2020-06-11 2021-12-21 浙江宇视科技有限公司 社会关系确定方法、装置、设备及存储介质
CN114550276A (zh) * 2022-04-26 2022-05-27 中国电子科技集团公司第十五研究所 重点人员的活动轨迹确定方法、装置和系统

Also Published As

Publication number Publication date
US10579876B2 (en) 2020-03-03
CN107735795B (zh) 2021-11-26
WO2017000300A1 (en) 2017-01-05
US20180144193A1 (en) 2018-05-24

Similar Documents

Publication Publication Date Title
CN107735795A (zh) 用于社会关系识别的方法和系统
Zhang et al. Facial expression recognition based on deep evolutional spatial-temporal networks
Lin et al. Improving person re-identification by attribute and identity learning
CN106650756B (zh) 基于知识迁移的多模态循环神经网络的图像文本描述方法
CN109002852B (zh) 图像处理方法、装置、计算机可读存储介质和计算机设备
CN111488773B (zh) 一种动作识别方法、装置、设备及存储介质
Subramaniyaswamy et al. Intelligent travel recommendation system by mining attributes from community contributed photos
CN107480178B (zh) 一种基于图像与视频跨模态比对的行人重识别方法
CN109614921B (zh) 一种基于对抗生成网络的半监督学习的细胞分割方法
CN110490136B (zh) 一种基于知识蒸馏的人体行为预测方法
CN113395578B (zh) 一种提取视频主题文本的方法、装置、设备及存储介质
CN102207950A (zh) 电子装置、图像处理方法和程序
Tian et al. Aligned dynamic-preserving embedding for zero-shot action recognition
CN111582342A (zh) 一种图像识别方法、装置、设备以及可读存储介质
CN108073851A (zh) 一种抓取手势识别的方法、装置及电子设备
CN108960171B (zh) 一种基于特征迁移学习的转换手势识别到身份识别的方法
CN114282059A (zh) 视频检索的方法、装置、设备及存储介质
CN105631404B (zh) 对照片进行聚类的方法及装置
CN110889505B (zh) 一种图文序列匹配的跨媒体综合推理方法和系统
Liu et al. Spatiotemporal relation networks for video action recognition
Zhang et al. Person re-identification based on heterogeneous part-based deep network in camera networks
Wang et al. Learning social spatio-temporal relation graph in the wild and a video benchmark
CN116701706B (zh) 一种基于人工智能的数据处理方法、装置、设备及介质
Kumar et al. Content based movie scene retrieval using spatio-temporal features
CN116935170A (zh) 视频处理模型的处理方法、装置、计算机设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant