CN112424792A - 基于美学的肖像图像评估 - Google Patents

基于美学的肖像图像评估 Download PDF

Info

Publication number
CN112424792A
CN112424792A CN201980047053.XA CN201980047053A CN112424792A CN 112424792 A CN112424792 A CN 112424792A CN 201980047053 A CN201980047053 A CN 201980047053A CN 112424792 A CN112424792 A CN 112424792A
Authority
CN
China
Prior art keywords
image
person
attributes
images
score
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201980047053.XA
Other languages
English (en)
Inventor
孙宏宇
苏魏
朱小星
张璠
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Technologies Co Ltd
Original Assignee
Huawei Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from US16/034,693 external-priority patent/US10929655B2/en
Application filed by Huawei Technologies Co Ltd filed Critical Huawei Technologies Co Ltd
Publication of CN112424792A publication Critical patent/CN112424792A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/30Scenes; Scene-specific elements in albums, collections or shared content, e.g. social network photos or video
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/211Selection of the most significant subset of features
    • G06F18/2113Selection of the most significant subset of features by ranking or filtering the set of features, e.g. using a measure of variance or of feature cross-correlation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/771Feature selection, e.g. selecting representative features from a multi-dimensional feature space
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • G06V20/47Detecting features for summarising video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Computing Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

一种计算设备(103)实现的方法,所述方法包括:所述计算设备(103)确定多个属性,每个属性分别描述对应于图像中显示的人的身体部位的感兴趣区域;所述计算设备(103)确定所述多个属性中的每一个属性的相应分数;所述计算设备(103)基于所述多个属性的相应分数计算总分。

Description

基于美学的肖像图像评估
相关申请案的交叉引用
本申请要求于2018年7月13日提交美国专利局、申请号为16/034,693、发明名称为“基于美学的肖像图像评估”的美国非临时专利申请的优先权和利益,并要求于2018年9月14日提交美国专利局、申请号为16/131,681、发明名称为“基于美学的肖像图像评估”的美国非临时专利申请的优先权和利益,所述申请以引用的方式结合在本申请中。
技术领域
本公开涉及图像分析。具体而言,本公开大体上涉及基于图像的美学特征在设备上进行图像分析。
背景技术
传统设备,例如智能手机、移动平板电脑、数码相机、摄像机,可以用来采集图像和视频。这些设备能够改变图像的客观特征,例如,图像的阴影、颜色、亮度和像素纹理。例如,这些设备的用户可以使用过滤器手动编辑图像的客观特征,所述过滤器通常用于更改图像的外观或图像的一部分。但是,手动编辑图像很费时,而且有时有损于图像的原始美感或价值。
图像的美学价值或美感是指用户观看图像或视频的主观反应。这样,图像的审美价值既可以基于图像的客观特征,也可以基于图像的主观特征。传统的图像采集设备只能确定图像的客观特征,例如图像中像素的亮度、对比度、饱和度、锐度、色调和色彩。但是,图像的美学价值不仅可以基于图像的客观特征,还可以基于图像的主观特征或关于图像内显示的人的特征。
发明内容
根据本公开的一个方面,提供了一种计算设备实现的方法。所述方法包括:所述计算设备确定多个属性,每个属性分别描述对应于图像中显示的人的身体部位的感兴趣区域;所述计算设备确定所述多个属性中的每一个属性的相应分数;所述计算设备基于所述多个属性的相应分数计算总分。
可选地,在上述任一方面中,所述方面的另一实现方式规定,响应于接收到对所述图像中显示的所述人的选择,确定所述人,所述图像显示所述人和多个其它人。
可选地,在上述任一方面中,所述方面的另一实现方式规定,基于在所述图像中检测到的所述人的面部确定所述人。
可选地,在上述任一方面中,所述方面的另一实现方式规定,基于包括所述多个属性中的每一个属性的多个预定义分数的训练数据确定所述多个属性中的每一个属性的所述相应分数。
可选地,在上述任一方面中,所述方面的另一实现方式规定,所述训练数据包括多个映射,所述多个映射分别将所述多个预定义分数中的一个预定义分数映射到多个预定义属性中的一个预定义属性。
可选地,在上述任一方面中,所述方面的另一实现方式规定,所述图像是视频中包括的多个图像中的一个图像,所述方法还包括:所述计算设备确定包括所述人的所述多个图像中的一个或多个图像;所述计算设备组合包括所述人的所述多个图像中的一个或多个图像,以创建所述人的摘要视频,其中,基于所述多个图像中的每一个图像的所述总分选择所述摘要视频中包括的所述多个图像,并基于所述人的属性计算所述总分。
可选地,在上述任一方面中,所述方面的另一实现方式规定,基于所述人的通用属性和位置属性计算所述总分。
可选地,在上述任一方面中,所述方面的另一实现方式规定,当所述图像显示所述人和多个其它人时,所述方法还包括:所述计算设备确定所述图像的背景的分数,其中,所述图像的所述背景包括所述多个其它人,进一步基于所述图像的所述背景的所述分数计算所述总分。
可选地,在上述任一方面中,所述方面的另一实现方式规定,所述方法还包括:所述计算设备基于所述身体部位位于所述图像内某位置的可能性,搜索对应于所述图像中描绘的所述人的不同身体部位的所述感兴趣区域。
可选地,在上述任一方面中,所述方面的另一实现方式规定,搜索所述感兴趣区域包括基于训练数据搜索所述感兴趣区域,其中,所述训练数据包括指向所述图像中特定部分或点的预定义锚点。
可选地,在上述任一方面中,所述方面的另一实现方式规定,搜索所述感兴趣区域包括基于所述图像中的所述人的面部位置搜索与所述人的眼睛、所述人的鼻子或所述人的嘴部中的至少一个对应的感兴趣区域。
可选地,在上述任一方面中,所述方面的另一实现方式规定,分别存储多个属性的多个预定义分数,确定所述多个属性中的每一个属性的所述相应分数包括在训练数据中搜索对应于为所述感兴趣区域确定的属性的预定义分数。
可选地,在上述任一方面中,所述方面的另一实现方式规定,所述多个属性包括分别描述对应于所述感兴趣区域的位置信息的多个位置属性。
可选地,在上述任一方面中,所述方面的另一实现方式规定,所述多个属性包括所述图像中描绘的所述人的多个通用属性,所述多个通用属性描述所述人的综合质量。
可选地,在上述任一方面中,所述方面的另一实现方式规定,当所述图像描绘多于一个人时,所述方法还包括:所述计算设备确定多个组属性中的每一个组属性的相应分数,其中,所述多个组属性分别描述以下至少一个:所述图像中描绘的多个其它人之间的关系、所述图像中描绘的所述多个其它人中的每一个人之间的空间、所述图像中的所述多个其它人中的一个或多个人摆出的姿势、或所述图像中描绘的所述多个其它人的排布,进一步基于所述多个组属性的所述相应的分数计算所述总分。
可选地,在上述任一方面中,所述方面的另一实现方式规定,权重与所述多个属性中的每一个属性相关联,其中,所述相应属性的权重应用于所述相应属性的所述相应分数,以为所述相应属性创建加权分数,基于每个所述相应属性的每个所述加权分数的集合计算所述总分。
根据本公开的一个方面,提供了一种计算设备实现的方法。所述方法包括:所述计算设备从视频中确定包括人的多个图像中的一个或多个图像;所述计算设备组合包括所述人的所述多个图像中的一个或多个图像,以创建所述人的摘要视频。
可选地,在上述任一方面中,所述方面的另一实现方式规定,所述方法还包括所述计算设备接收对所述人的选择。
可选地,在上述任一方面中,所述方面的另一实现方式规定,响应于检测到所述多个图像中的一个或多个图像中的所述人的面部,确定所述人。
可选地,在上述任一方面中,所述方面的另一实现方式规定,基于所述多个图像中的每一个图像的总分确定包括所述人的所述多个图像中的一个或多个图像。
可选地,在上述任一方面中,所述方面的另一实现方式规定,基于多个属性计算所述总分,每个属性分别描述对应于所述人的身体部位的感兴趣区域。
可选地,在上述任一方面中,所述方面的另一实现方式规定,所述人的所述多个属性包括分别描述对应于所述感兴趣区域的位置信息的多个位置属性。
可选地,在上述任一方面中,所述方面的另一实现方式规定,所述人的所述多个属性包括所述人的多个通用属性,其中所述多个通用属性描述所述人的综合质量。
可选地,在上述任一方面中,所述方面的另一实现方式规定,基于第一多个属性和第二多个属性确定包括所述人的所述多个图像,所述第一多个属性中的每一个属性分别描述对应于所述人的身体部位的感兴趣区域,所述第二多个属性中的每一个属性的权重低于所述第一多个属性。
可选地,在上述任一方面中,所述方面的另一实现方式中,所述方法包括:所述计算设备创建表示所述人的所述摘要视频的缩略图,所述缩略图包括示出所述人的面部的图像;所述计算设备显示所述缩略图。
可选地,在上述任一方面中,所述方面的另一实现方式规定,通过将一个或多个过渡图像添加到所述多个图像中的一个或多个图像,组合包括所述人的所述多个图像中的一个或多个图像。
可选地,在上述任一方面中,所述方面的另一实现方式规定,自动创建所述摘要视频,作为所述计算设备的背景活动。
可选地,在上述任一方面中,所述方面的另一实现方式规定,所述方法还包括:所述计算设备显示通知,以指示正在创建或已创建所述摘要视频。
根据本公开的一个方面,提供了一种实现为计算设备的装置。所述装置包括存储器和一个或多个处理器,所述存储器包括指令,所述一个或多个处理器与所述存储器通信,所述一个或多个处理器执行所述指令以:确定多个属性,每个属性分别描述对应于图像中显示的人的身体部位的感兴趣区域;确定所述多个属性中的每一个属性的相应分数;基于所述多个属性的所述相应分数计算总分。
可选地,在上述任一方面中,所述方面的另一实现方式规定,响应于接收到对所述图像中显示的所述人的选择,确定所述人,所述图像显示所述人和多个其它人。
可选地,在上述任一方面中,所述方面的另一实现方式规定,基于在所述图像中检测到的所述人的面部确定所述人。
可选地,在上述任一方面中,所述方面的另一实现方式规定,基于包括所述多个属性中的每一个属性的多个预定义分数的训练数据确定所述多个属性中的每一个属性的所述相应分数。
可选地,在上述任一方面中,所述方面的另一实现方式规定,所述一个或多个处理器还执行所述指令,以基于所述身体部位位于所述图像内某位置的可能性,搜索对应于所述图像中描绘的所述人的不同身体部位的所述感兴趣区域。
可选地,在上述任一方面中,所述方面的另一实现方式规定,当所述图像描绘多于一个人时,所述一个或多个处理器还执行所述指令以确定多个组属性中的每一个组属性的相应分数,其中,所述多个组属性分别描述以下至少一个:所述图像中描绘的多个其它人之间的关系、所述图像中描绘的所述多个其它人中的每一个人之间的空间、所述图像中的所述多个其它人中的一个或多个人摆出的姿势、或所述图像中描绘的所述多个其它人的排布,进一步基于所述多个组属性的所述相应的分数计算所述总分。
根据本公开的一个方面,提供了一种实现为计算设备的装置。所述装置包括存储器和一个或多个处理器,所述存储器包括指令,所述一个或多个处理器与所述存储器通信,所述一个或多个处理器执行所述指令以:从视频中确定包括人的多个图像中的一个或多个图像;组合包括所述人的所述多个图像中的一个或多个图像,以创建所述人的摘要视频。
可选地,在上述任一方面中,所述方面的另一实现方式规定,所述一个或多个处理器还执行所述指令以接收对所述人的选择。
可选地,在上述任一方面中,所述方面的另一实现方式规定,所述一个或多个处理器还执行所述指令以检测所述多个图像中的一个或多个图像中的人的面部,其中,通过检测所述人的面部来确定所述人。
可选地,在上述任一方面中,所述方面的另一实现方式规定,基于所述多个图像中的每一个图像的总分确定包括所述人的所述多个图像中的一个或多个图像。
可选地,在上述任一方面中,所述方面的另一实现方式规定,基于多个属性计算所述总分,每个属性分别描述对应于所述人的身体部位的感兴趣区域。
可选地,在上述任一方面中,所述方面的另一实现方式规定,所述一个或多个处理器还执行所述指令,以创建表示所述人的所述摘要视频的缩略图,所述缩略图包括示出所述人的面部的图像;并使显示设备显示所述缩略图。
可选地,在上述任一方面中,所述方面的另一实现方式规定,自动创建所述摘要视频,作为所述计算设备的背景活动。
可选地,在上述任一方面中,所述方面的另一实现方式规定,当所述计算设备充电时自动创建所述摘要视频。
本文公开的实施例使得计算设备能够基于为图像计算的总分自动确定图像的美学价值。能够自动确定图像美学价值的计算设备可以更高效、更高效地利用处理资源和存储资源。例如,计算图像总分的计算设备不需要在手动编辑图像上不必要地浪费处理能力或资源。此外,计算图像的总分的计算设备可以用于保持高质量存储,而不是不必要地在低质量图像上浪费存储资源。
为了清楚起见,上述任一实施例可以与上述其它实施例中的任何一个或多个实施例组合,以在本公开的范围内创建一个新的实施例。
根据以下详细说明结合附图和权利要求将能更清楚地理解这些和其它特征。
附图说明
为了更透彻地理解本公开,现结合附图和具体实施方式,参阅以下简要说明,其中相同的附图标记表示相同的部分。
图1为各种实施例提供的用于实现肖像图像评估的系统的图;
图2为计算设备的实施例的示意图。
图3为本文公开的实施例提供的用于执行肖像图像分析的方法的流程图。
图4为基于图像中的人的感兴趣区域分割的单人肖像图像的图。
图5A至C为基于图像中描绘的人分割的多人图像的图。
图6为确定正在分析的图像的属性的方法的流程图。
图7A为可用于计算图像的总分的评分树的图。
图7B示出了图像的评分树的示例。
图8A至8B为本公开的各种实施例提供的分割和对象分类的方法的图。
图9A和图9B为本公开的各种实施例提供的示出如何识别图像中可能示出某些感兴趣区域的位置的图。
图10为本公开的各种实施例提供的执行肖像图像分析的方法的流程图。
图11为本公开的各种实施例提供的包括原始视频和基于所述原始视频中描绘的人的一个或多个摘要视频的相册的示意图。
图12为本公开的各种实施例提供的摘要视频的信息页面的示意图。
图13为本公开的各种实施例提供的将作为多人肖像图像的图像评估为单人肖像图像的方法的示意图。
图14为本公开的各种实施例提供的基于图像中描绘的人执行肖像图像分析的方法的流程图。
图15为本公开的各种实施例提供的用于基于所选择的人创建摘要视频的方法的流程图。
具体实施方式
首先应理解,尽管下面提供了一个或多个实施例的说明性实现方式,但所公开的系统和/或方法可以使用任何数量的技术(不论是当前已知的还是现有的)来实现。本公开决不应限于下面所说明的说明性实现方式、附图和技术,包括本文所说明并描述的示例性设计和实现方式,而是可在所附权利要求书的范围以及其等效物的完整范围内修改。
图像的主观特征可以指所述图像中的人物的某些属性或特性的质量。所述图像的主观特征可以是所述图像中描绘的人的面部表情。图像的主观特征的另一示例可以是所述图像中描绘的多人的排布。在一些情况下,将人描绘在图像中,所述图像的美学价值可以在很大程度上取决于所述图像中描绘的人的主观特征。所描绘的每个人都在微笑的图像比有人没有准备好拍照的图像更有美学价值。但是,设备可能无法基于定义图像中描绘的人的属性的所述图像的主观特征来确定所述图像的美学价值。此外,设备也可能无法在忽略图像中描绘的其它人的主观特征的同时基于所述图像中特定人的主观特征来确定所述图像的美学价值。
在一个实施例中,计算设备可以存储多个视频和图像,其中视频由多个图像的序列组成。在一个实施例中,图像或视频中的图像可以描述多个不同的人作为所述图像的主要特征,此类图像在本文中称为多人肖像图像。对于多人肖像图像,可以基于所述图像中描绘的所有人的组属性和所述图像中描绘的每个人的特征属性来计算所述图像的总分。组属性可以指描述图像中多个人之间的关系的特征或图像中多个人员之间的空间排布,下面将进一步描述。特征属性可以指图像中描绘的人的实际特征(例如,人的情绪或面部表情),下面将进一步描述。但是,在一些情况下,可能需要基于图像中的特定人对多人肖像图像进行评分,而不需要考虑所述图像中描绘的其它人的特征。
本文公开的实施例旨在对多人肖像图像中描绘的所选择的人的图像分析属性中的主角(例如,一个人作为中心焦点)执行肖像图像评估,以确定所述图像的美学价值。在图像包括多个不同人的实施例中,用户可以选择特定人以对所述图像进行评分。类似地,当视频中包括多个不同的人时,用户可以选择特定人以对所述视频进行评分。例如,可以基于所选择的人的主观特征对视频中的每个图像进行评分,而不需要考虑所述视频的每个图像中描绘的其它人的主观特征。可以根据客观因素(例如颜色、饱和度、模糊度)对所述图像中描绘的其它人进行评分。
在一个实施例中,用户还可以选择特定人,以使用原始视频生成该特定人的摘要视频。摘要视频可以是包括原始视频中描绘所选择的人的图像中的一个或多个图像的视频。所选择的人的摘要视频中包括的图像中的每一个图像可以基于所述图像的分数,所述分数是基于所述所选择的人和所述摘要视频的时间长度进行计算的。可以制作所述原始视频中描绘的任何不同的人的摘要视频。
图1为各种实施例提供的用于实现肖像图像评估的系统100的图。所述系统100可以包括计算设备103、网络106和通过链路111互连的服务提供商109。应理解,所述系统100可以包括其它组件。所述系统100可以用于开发、打包和向所述计算设备103发送用于执行肖像图像分析的软件组件。
所述网络106是网络基础设施,包括将所述计算设备103与所述服务提供商109互连的多个网络节点114。本文公开的实施例提供的所述网络106可以是分组网络,用于支持传输可以用于执行肖像图像分析的软件组件和数据。所述网络106用于实现网络配置以配置所述计算设备103与所述服务提供商109之间的流路径或虚拟连接。所述网络106可以是将所述服务提供商109连接到所述计算设备103的主干网络。所述网络106还可以将所述服务提供商109和所述计算设备103连接到其它系统,例如外部互联网、其它云计算系统、数据中心和接入所述服务提供商109的任何其它实体。
所述网络节点114可以是路由器、网桥、网关、虚拟机和/或用于报文转发的任何其它类型的节点。所述网络节点114可以使用链路116互联。所述链路116可以是虚拟链路(是所述网络节点114之间的逻辑路径),也可以是物理链路。本领域普通技术人员应理解,可以使用任何合适的虚拟链路或物理链路将所述网络节点114互连。所述链路111可以是有线或无线链路,其将位于所述网络106的边缘处的边缘网络节点114与所述服务提供商109和所述计算设备103连接。
所述计算设备103可以是用户设备,例如手机、移动平板电脑、可穿戴设备、物联网(Internet of Things,IoT)设备、个人计算机。在一些实施例中,所述计算设备103可以是能够使用摄像头119或任何其它图像采集设备等来采集图像或视频的设备。在一些实施例中,所述计算设备103可以不包括摄像头,但是也可以根据本文公开的实施例使用从其它设备或从存储器接收的图像来执行肖像图像分析。
所述服务提供商109可以是通过所述网络106向所述计算设备103提供服务的一个或多个设备或服务器。在所述系统100中,所述服务提供商109可以用于创建训练数据120,肖像图像分析模块125可以执行肖像图像分析。在一些实施例中,所述训练数据120可以是基于大量专业质量原型图像123的分析生成的数据。所述服务供应商109可以存储数百或数千个专业质量原型图像123的集合。所述原型图像123可以是描绘一个或多个人的肖像图像。肖像图像中,可以将一个或多个人描绘为所述图像的最重要特征,而不是将风景或背景描绘为所述图像的重要特征。
所述原型图像123可以划分为多个与人相关的训练集。每个与人相关的训练集可以包括一个摄影师使用相同的相机拍摄的具有相同照片质量的图像。与人相关的训练集中的图像中的每一个图像可以具有所述图像中描绘的同一人,并可以具有所述图像中描绘的相同数量的人。在一些情况下,所述与人相关的训练集中的所述图像中的每一个可以包含单个主题或场景。在一些情况下,所述与人相关的训练集中的图像中的每一个图像可以具有多个肖像构图,其中所述图像中描绘的每个人显示多种不同的情绪和姿势。
例如,所述与人相关的训练集可以具有最小阈值数量的图像。所述与人相关的训练集中的图像中的每一个图像可以示出执行不同动作和具有不同情绪的同一人。类似地,所述与人相关的训练集中的每个图像可以以各种不同的角度和比例示出人。所述原型图像123可以包括数千个与人相关的训练集。这样,可以使用与人相关的训练集中的图像中的每一个图像来确定人的各种属性的准确预定义分数,下面将进一步描述。
所述训练数据120包括使用所述原型图像123确定的数据,并且可以随后由所述计算设备103用来对当前正在分析的图像130进行肖像图像分析。在一些实施例中,所述训练数据120可以包括映射到某些属性的预定义分数、可以应用的分配给某些属性的评分规则、以及分配给某些属性的预定义权重。
用户或专业摄影师可以基于对人的某些属性如何对多个原型图像123的美学价值作出贡献的分析来确定所述预定义分数。例如,检查所述原型图像123中的每一个原型图像123(或不同的与人相关的训练集中的图像中的每一个图像),以确定所述图像中的每一个图像中示出的属性的预定义分数。所述图像中描绘的人的属性是指所述图像中的所述人的特征或感兴趣区域(例如,面部、嘴部、眼睛),下面将进一步描述。预定义分数可以是按比例对图像的属性进行评级的值(例如从0到1或从1到10),其反映了所述属性如何对所述原型图像123的整体美学价值作出贡献。作为说明性示例,假设对于图像中示出的人的眼睛(例如,感兴趣区域),属性可以描述所述图像中的人的眼睛是睁开的还是闭着的。在这种情况下,睁开眼睛的属性的预定义分数可以为1,而闭着眼睛的属性的预定义分数可以为0,其中,所述预定义分数为1表示的质量属性高于预定义分数为0。
在一个实施例中,属性的预定义分数可以基于从所述服务提供商109处的多个不同的专业摄影师或用户手动确定的属性的多个预定义分数。可以对不同专业摄影师中的每一个的属性的预定义分数一起求平均,作为存储在所述训练数据120中的属性的预定义分数。例如,假设所述图像中示出的人的面部的角度对所述图像的美学价值有贡献。在这种情况下,摄影师可以分析具有多个不同面部角度(例如,属性)的多个不同原型图像123的面部(例如,感兴趣区域),以确定所述原型图像123中示出的每个面部角度的多个不同的预定义分数。可以对这些预定义分数求平均,以创建每个面部角度的单个预定义分数,然后将所述单个预定义分数存储在所述训练数据120中。在一个实施例中,可以将为类似属性生成的预定义分数求平均,以创建所述属性的单个预定义分数。
所述评分规则可以是与所述预定义分数一起使用的规则,用于确定感兴趣区域的分数或正在分析的图像的属性。在一个实施例中,评分规则可以是在确定正在分析的图像的感兴趣区域的评分期间计算和考虑的值。例如,所述评分规则可以用于可能不具有与正在评分的属性或感兴趣区域完全匹配的匹配预定义分数的属性或感兴趣区域。关于评分规则的更多细节将在下面进一步描述。
可以用多个不同类型的属性来描述各种原型图像123中所描绘的人。可以识别的所述图像中描绘的每个人的属性可以包括特征属性、位置属性、通用属性、组属性、动作行为属性和各种其它类型的属性。
在一个实施例中,特征属性可以描述所描绘的人的表情或情绪。特征属性可以指所述图像中描绘的人是否是微笑的,该特征属性可以通过分析所述原型图像123中的每一个原型图像123中的人的嘴部(例如,感兴趣区域)来确定。基于该分析,可以给所述原型图像123中描绘的不同类型的嘴部表情中的每一种表情分配相对的和预定义分数。描绘微笑的人的嘴部部分可以得到最高的1分,描绘没有微笑的人的嘴部部分可以得到最低的0分。所述训练数据120可以存储每种不同特征属性的预定义分数。
在一个实施例中,位置属性描述人在所述图像内的位置(position或location),或者人的各种身体部位在所述图像内的位置。所述位置属性可以包括身体的角度、面部的角度、图像内的人的身体比例、或身体的手臂或腿部的位置。
在一些实施例中,还可以为不同位置属性中的每一个位置属性分配预定义分数。可以通过分析多个原型图像123,然后关联这些原型图像123中的每一个原型图像123的位置属性如何影响所述图像的美学价值,来确定所述位置属性的预定义分数。所述训练数据120可以存储位置属性的不同变体中的每一个变体的预定义分数。
在一个实施例中,通用属性包括图像中描绘的人的一般描述,例如,人的性别、年龄范围或种族。可以给所述通用属性分配分数,也可以不给所述通用属性分配分数。但是,所述通用属性可以用于确定某些属性的预定义权重,下面图7和图9中将进一步描述。可以采用与确定所述预定义分数类似的方式来确定所述部分和属性的预定义权重,例如,通过分析多个原型图像123来确定某些通用属性如何影响图像的美学价值的比例。
在一个实施例中,动作行为属性是指所述原型图像123中描绘的人执行的动作或运动的特征化描述。动作行为属性可以描述所述人是摆姿势、跑步、坐着、站着、玩耍、摔倒还是跳起来。动作行为属性也可以是所述人的单个身体部位所执行的特定动作的特征化描述。例如,动作行为属性可以指所述人的手是张开的还是闭合的。
还可以以类似于为所述部分、属性和位置属性分配预定义分数的方式为动作行为属性分配预定义分数。还可以通过分析多个原型图像123,然后关联这些原型图像123中的每一个原型图像123的动作行为属性中的每一种动作行为属性如何影响所述图像的美学价值,来确定所述动作行为属性的分数。所述训练数据120可以存储每个不同动作行为属性的预定义分数。
在一些实施例中,例如,当图像描绘多于一人时,组属性的预定义分数可以描述所述原型图像123中显示的每个人之间的关系。组属性可以是所述图像中描绘的每个人的空间关系,也可以是所述图像中的每个人的排布。所述训练数据120可以存储每个组属性的预定义分数。
这样,所述服务提供商109用于基于对不同原型图像123中的一个或多个原型图像123的分析,存储可以在图像中描绘的不同人的所有不同属性的不同预定义分数。所述训练数据120包括可以在所述原型图像123中描绘的感兴趣区域的属性的所有不同变体的预定义分数。所述训练数据120还可以存储每个所述通用属性的所有不同的预定义权重和可以用于确定计算设备当前正在分析的图像130的总分的其它权重。在一些实施例中,所述训练数据120可以包括每个预定义分数的描述性数据,使得所述计算设备103可以使用描述性数据来使在所述计算设备103处识别的所述图像130的属性与所述训练数据120中的所述原型图像123的预定义分数的描述性数据相匹配。在一个实施例中,所述描述性数据可以包括所述预定义分数与所述原型图像123的属性之间的映射。
在一个实施例中,所述计算设备103可以存储所述训练数据120并实现所述肖像图像分析模块125。下面结合图3至图10进一步描述,所述肖像图像分析模块125可以用于识别对应于当前正在分析的所述图像130中的不同感兴趣区域的部分(这也可以称为检波器相位)。一个部分是包围图像的感兴趣区域的一个矩形。下面结合图4示出和描述部分的示例。可以使用各种用于检测所述图像130内的对象的方法(例如基于区域的卷积神经网络(region-based convolutional neural network,R-CNN)或更快的R-CNN)来识别所述图像130内的部分。在任少卿(Shaoqing Ren)等人于2017年6月撰写、题为“更快的R-CNN:利用区域生成网络实现实时目标检测(Faster R-CNN:Towards Real-Time Object Detectionwith Region Proposal Networks)”的电气和电子工程师协会(Institute of Electricaland Electronics Engineer,IEEE)文件(以下称为“更快的R-CNN文件”)中进一步描述了更快的R-CNN,所述文件以引用的方式整体结合在本申请中。
在识别所述图像130的所述部分之后,所述肖像图像分析模块125可以分析每个部分,以确定描述对应于所述部分的感兴趣区域的属性。如上所述,所述属性可以是人特征属性、位置属性、组属性、通用属性、动作行为属性或可以通过分析所述图像130而识别的任何其它类型的属性。可以使用各种用于所述检测图像130内的对象的方法(例如,R-CNN或更快的R-CNN)来确定所述图像130内的各种属性。
分割所述图像130和识别所述图像130内的属性的过程可以使用各种不同的层以各种不同的方式来执行,例如卷积层、完全连接层和损失层,每种层都在所述更快的R-CNN文件中进一步进行了描述。
在确定所述属性之后,所述肖像图像分析模块125随后可以基于所述训练数据120对所述属性中的每一个属性进行评分。在一个实施例中,所述计算设备103可以扫描所述训练数据120中的描述性数据,以找到与所述图像中的部分所识别的属性相匹配的属性对应的描述。当找到匹配描述时,所述计算设备103可以检索与所述匹配描述对应的预定义分数,然后确定所述部分的分数为所述预定义分数。
在一个实施例中,对于基于位置的属性,所述计算设备103可以使用用于描述类似的基于位置的属性的描述的预定义分数,然后使用评分规则来执行回归分析等,以确定每个基于位置的属性的分数,下面将进一步描述。在一个实施例中,对于所述组属性,所述计算设备103可以类似地使用所述训练数据120的描述,所述描述类似于所识别的所述图像的组属性。
下面将结合图9进一步描述,在一些实施例中,可以将权重分配给一个或多个部分、属性、位置属性、通用属性或组属性。所述权重可以基于所述训练数据120,所述训练数据120包括预定义权重或预定义比例,所述预定义权重或预定义比例定义在计算所述图像130的总分时应给予所述特征属性、位置属性、通用属性或组属性的权重。
在一个实施例中,所述服务提供商109可以生成肖像图像分析模块125,所述肖像图像分析模块125可以包括软件指令,所述计算设备103可执行所述软件指令以使用所述训练数据120执行肖像图像分析。在该实施例中,所述服务提供商109可以将所述训练数据120和所述肖像图像分析模块125打包成数据包,然后通过所述链路111、通过所述网络106将所述数据包传输到所述计算设备103。所述计算设备103可以用于下载所述包,然后将所述肖像图像分析模块125和所述训练数据120本地安装到所述计算设备103上,使得所述计算设备103用于实现本文公开的肖像图像分析机制。
在一个实施例中,在制造所述计算设备103时,所述计算设备103可能已经将所述训练数据120和所述肖像图像分析模块125安装在所述计算设备103上。可以安装所述肖像图像分析模块125和所述训练数据120,作为所述计算设备103的操作系统或内核的一部分。
如本文所公开的那样,使用已经基于专业摄影师执行的主观分析的预定义分数对图像的各个组成部分进行评分使得所述计算设备103也能够在没有用户参与的情况下对所述图像进行主观分析。本文所公开的实施例使得所述计算设备103能够自动辨别图像是否具有美学价值。
图像的总分可以用于多个不同类型的用例场景和情形。例如,所述计算设备103可用于删除低于阈值总分的图像130,以节省所述计算设备的内存和磁盘空间。在一些情况下,所述图像130中的每一个图像130的总分可以协助用户确定照片或视频是否应该保存或可以删除,从而也节省了所述计算设备103的内存和磁盘空间。
对于视频(或图像集合),所述计算设备103通常使用所述视频的第一图像或所述视频的随机图像作为所述视频的肖像封面。类似地,相册的封面通常为所述相册的第一图像130或所述相册的随机图像130。但是,对于视频或相册,可能会基于总分最高的视频图像自动设置肖像封面。因此,所述计算设备103不会在随机识别所述视频或相册的肖像封面上的浪费处理能力。
在一些情况下,所述计算设备103可以用于在所述计算设备103采集所述图像130时计算所述图像的总分或确定所述图像的美学价值。例如,当所述计算设备103正在使用所述摄像头119时,所述计算设备的示出器可以示出打算由所述摄像头119采集的所述图像130的总分。用户可以基于所述显示器上显示的总分,容易地确定所述图像130的美学价值,所述图像130可以示出呈各种不同的角度和具有各种不同情绪的人。这可以防止用户不必要地采集和存储质量较低的图像。
在所述计算设备103的用户在短时间帧内拍摄同一肖像设置的多个连续图像130的情况下(在本文中也称为连续拍摄或突发模式),可以计算每个所述图像130的总分。使用所述总分可以帮助用户容易地识别哪些图片更具有美学价值,使得所述用户可以容易地删除不具有美学价值的图像130。一旦使用所述总分确定了较高质量的图像130,用户可以不需要手动调整所述图像130或视频的客观特征来创建更高质量的图像。
所述计算设备103用于基于存储在所述计算设备处的视频和图像130创建自定义视频或幻灯片(有时称为精彩时刻图像或视频)。例如,这些自定义视频或幻灯片通常是较小大小的文件,很容易在社交媒体上共享。在一些情况下,所述计算设备103可以使用所述图像130的总分来创建自定义视频或幻灯片。例如,可以仅将所述总分较高的图像130包括在所述自定义视频或幻灯片中。
在一些实施例中,所述计算设备103还可以使用所述总分来确定在美学上彼此相似的图像130。例如,所述计算设备103可以基于美学相似性来组织图像130,并且可以创建具有类似美学质量或总分的图像130的文件夹。应理解,所述图像130的总分可以用于多个不同的应用,例如,视频摘要、相册中的排序图像、视频中的排序帧等。
图2为计算设备200的实施例的示意图。所述计算设备200可以用于实现和/或支持本文描述的肖像图像分析机制和方案。所述计算设备200可以实现所述计算设备103,如上所述。所述计算设备200可以在单个节点中实现,或者所述计算设备200的功能可以在多个节点中实现。本领域技术人员将认识到,术语“计算设备”包括范围广泛的设备,所述计算设备200仅为示例。例如,所述计算设备可以是通用计算机、移动设备、平板电脑设备、可穿戴设备或任何其它类型的用户设备。包括所述计算设备200是为了论述清楚,但绝不意味着将本公开的应用限制于特定计算设备实施例或计算设备实施例的类别。
本公开中描述的特征/方法中的至少一部分在计算装置或组件(例如所述计算设备200)中实现。例如,本公开中的特征/方法可以使用硬件、固件和/或安装在硬件上执行的软件来实现。如图2所示,所述计算设备200包括收发器(Tx/Rx)210,所述收发器210可以是发射器、接收器或发射器与接收器的组合。所述Tx/Rx 210耦合到多个端口220,用于发送和/或接收其来自它节点的数据包。
处理器205耦合到每个Tx/Rx 210。所述处理器205可以包括一个或多个多核处理器和/或存储器设备250,其可以用作数据存储、缓冲器等。所述处理器205可以实现为通用处理器、现场可编程门阵列(field programmable gate array,FGPA)、专用集成电路(field programmable gate array,ASIC)和/或数字信号处理器(digital signalprocessor,DSP)。
在一个实施例中,所述处理器205包括内部逻辑电路以实现肖像图像分析模块125,并且可以包括内部逻辑电路以实现方法300和1000(如下面更充分地论述的那样)中的功能步骤,和/或本文所论述的任何其它流程图、方案和方法。因此,包括所述肖像图像分析模块125和相关方法和系统改进了所述计算设备200的功能。在替代实施例中,所述肖像图像分析模块125可以实现为存储在所述存储器设备250中的指令,所述处理器205可以执行所述指令,以执行所述肖像图像分析模块125的操作。此外,所述肖像图像分析模块125可以可选地从所述计算设备200或103中省略。
所述存储器设备250可以包括用于临时存储内容的缓存,例如随机存取存储器(random-access memory,RAM)。此外,所述存储设备250可以包括用于相对较长时间地存储内容的长期存储器,例如只读存储器(read-only memory,ROM)。例如,所述缓存和长期存储可以包括动态RAM(dynamic RAM,DRAM)、固态驱动器(solid-state drive,SSD)、硬盘或其组合。
所述存储器设备250可以用于存储属性251、所述图像130、所述训练数据120、分数280、总分285和权重290。所述图像130可以包括存储在所述计算设备200的所述存储器设备250中的多个图像。所述计算设备200或103上的摄像头119可以采集所述图像130中的至少一些图像130,并随后将其存储在所述计算设备200或103的所述存储器设备250中。还可以从另一源接收所述图像130并将其存储在所述计算设备200或103的所述存储器设备250中。与本公开相关的所述图像130是肖像图像,所述肖像图像将一个或多个人描述为所述图像的最重要部分,而不是所述人周围或背后的风景或景物。
所述训练数据120包括一个部分中识别的每个属性251的预定义分数252。所述训练数据120还可以包括描述性数据254,所述描述性数据254描述该预定义分数252的属性251。所述训练数据120还可以包括用于某些感兴趣区域或属性251的预定义权重253,这将在下面结合图7A至图7B进一步描述。所述训练数据120还可以包括评分规则299,所述评分规则299可以是在确定正在分析的图像130的感兴趣区域的分数280期间计算和考虑的值。所述属性251包括特征属性255、位置属性260、组属性265、动作行为属性266和通用属性270。
如以上结合图1所述,所述特征属性255可以是所述图像130中描绘的人的特征,所述特征从所述图像的部分中确定(例如,所述人的情绪或表情)。所述位置属性260可以是描述所述人的位置和所述人相对于图像130整体的某些感兴趣区域的特征(例如,在所述图像中的面部角度或身体比例)。所述通用属性270可以是在一般水平上对人进行描述的特征,而不涉及所述人的特定感兴趣区域(例如,所述人的性别或种族)。所述组属性265可以是描述所述图像130中的多个人与所述图像130中的多个人的排布之间的关系的特征(例如家庭照片、集体照片)。所述动作行为属性266可以是所述图像130中的人摆出的姿势或动作(例如,姿势或手势)。
如以上结合图1所述,所述分数280可以是基于所述预定义分数252和所述评分规则299分配给所述图像130的属性251(例如位置属性260、通用属性270、组属性265和/或动作行为属性266)的分数。所述总分285可以是为与所述图像130的美学价值相关联(或描述所述图像130的美学价值)的每个图像130聚合的分数280。所述权重290可以是在聚合所述图像130的分数280以创建总分285时基于预定义权重和预定义加权规则分配给所述分数280中的每一个分数280的比例权重。
应理解,通过将可执行指令编程和/或加载到所述计算设备200上,改变所述处理器205和/或存储器设备250中的至少一个,从而将所述计算设备200部分地转换成具有本公开所教授的新颖功能的特定机器或装置,例如,多核转发架构。对于电气工程和软件工程技术来说基本的是,可以通过将可执行软件加载到计算机中而实现的功能性可以通过熟知设计规则而转换为硬件实现方式。在软件还是硬件中实现概念之间的决策通常取决于对设计的稳定性及待产生的单元的数量的考虑,而与从软件域到硬件域的转换所涉及的任何问题无关。通常,仍需频繁改变的设计可以优选以软件实现,因为重改硬件的实现方式比重改软件设计更为昂贵。通常,稳定的及大规模生产的设计更适于以硬件(例如ASIC)实现,因为运行所述硬件实现方式的大规模生产比软件实现方式更为便宜。通常,设计可以以软件形式开发和测试,然后通过已知的设计规则,转换成ASIC中的等效硬件实现方式,所述ASIC将软件指令硬件化。以与新ASIC控制的机器是特定机器或装置相同的方式,同样,已经编程和/或加载有可执行指令(例如,存储在非暂时性介质/存储器中的计算机程序产品)的计算机可以视为特定机器或装置。
在示例性实施例中,所述计算设备200包括:属性模块,所述属性模块确定多个属性,每个属性分别描述对应于在图像中显示的人的身体部位的感兴趣区域;评分模块,所述评分模块确定所述多个属性中的每一个属性的相应分数;聚合评分模块,所述聚合评分模块基于所述多个属性的所述相应分数计算总分。在一些实施例中,所述计算机200可以包括其它模块或附加模块,用于执行实施例中所描述的步骤中的任一步骤或步骤的组合。此外,如任一附图中所示或任一权利要求中所述的方法的任何附加或替代实施例或方面也可以预期包括类似的模块。
在示例性实施例中,所述计算设备200包括:人确定模块,所述人确定模块确定多个图像中的一个或多个图像,所述多个图像包括视频中的人;摘要模块,所述摘要模块组合包括所述人的所述多个图像中的一个或多个图像,以创建所述人的摘要视频。在一些实施例中,所述计算机200可以包括其它模块或附加模块,用于执行实施例中所描述的步骤中的任一步骤或步骤的组合。此外,如任一附图中所示出的或任一权利要求中所叙述的方法的任何附加或替代实施例或方面也可以预期包括类似的模块。
图3为本文公开的实施例提供的用于执行肖像图像分析的方法300的流程图。所述方法300可以在所述计算设备103上已安装所述肖像图像分析模块125之后由所述计算设备200或103执行。所述方法300可以在获取图像130之后由所述计算设备200或103执行。在所述摄像头119采集所述图像130之后,可以通过所述摄像头119获取所述图像130。可以通过从所述存储器设备250检索所述图像130来获取所述图像130。可以通过从其它源设备所述接收图像130来获取所述图像130。
在步骤303中,可以对所述图像130进行图像分割,以确定对应于所述图像130中描绘的一个或多个人的不同感兴趣区域的多个部分。所述处理器205可以执行所述肖像图像分析模块125,以确定所述图像130的部分。可以根据所述图像130中的任何对象检测方法(例如R-CNN或更快的R-CNN)来进行分割。例如,在更快的R-CNN中,分割涉及回归,回归是微调包围感兴趣区域的部分的过程,使得所述部分准确和完整地包围所述图像130的感兴趣区域。在一个实施例中,如下面图8A至图8B所示,可以根据更快的实现方式进行分割。这些部分中的每一个部分可以是矩形框,所述矩形框将所述图像中描绘的人的特定感兴趣区域或身体部位围起来。所述图像130可以分割成所述图像130中描绘的人的上身、面部、嘴部和眼睛的部分。
在步骤306中,可以确定所述图像130的一个或多个部分的属性251。所述处理器205可以执行所述肖像图像分析模块125,以确定所述图像130的属性251。在一些情况下,在所述服务提供商进行肖像图像分析时,所述服务提供商109也可以执行所述肖像图像分析模块125。可以根据所述图像130中的任何对象分类方法(例如R-CNN或更快的R-CNN)确定所述特征属性255、位置属性260、通用属性270、组属性265和动作行为属性266。在更快的R-CNN中,确定所述图像130中的属性251可以称为所述图像130中识别的部分的分类。所述部分的分类涉及将所述部分标记为某些感兴趣区域或将所述部分标记为具有所述属性251。
可以对已分割成上身、面部、嘴部和眼睛的部分的所述图像130进行分析,以确定属性251。所述上身的部分可以用于识别位置属性260,例如身体的角度。所述眼睛的部分可以用于识别特征属性255,例如所述眼睛是睁开的还是闭着的,所述嘴部的部分可以用于识别更多的特征属性255,例如所述图片中描绘的人是否微笑。
在步骤309中,可以确定所述图像130的一个或多个部分的通用属性270。所述处理器205可以执行肖像图像分析模块125以确定所述图像130的通用属性270。还可以根据所述图像130中的任何对象分类方法(例如R-CNN或更快的R-CNN)确定所述通用属性270。
可以对已分割成上身、面部、嘴部和眼睛的部分的所述图像130进行分析,以确定所述通用属性270。所述面部的部分可以用于确定所述图像130中描绘的所述人的肤色,所述肤色随后可以用于识别所述人的种族。
在步骤311中,可以基于与所述图像130中的每一个人相关联的各个部分,为所述图像130中描绘的一个或多个人确定组属性265。所述处理器205可以执行所述肖像图像分析模块125,以确定所述图像130的组属性265。可以根据所述图像130中的任何组分类方法(例如R-CNN或更快的R-CNN)确定所述组属性265。图5A示出了在图像130中识别组属性265的示例。
当所述图像中描绘的人多于一人时,还可以确定所述图像130的一个或多个部分的组属性265。例如,假设所述图像中描绘了两个人,并识别了每个人的身体的部分。在这种情况下,这些部分的位置可以用于确定组属性265,例如两个人之间的空间关系。图5A示出了在图像130中识别组属性265的示例。
在步骤314中,基于存储在所述计算设备200或103的存储器设备250中的所述训练数据120,确定所述属性251(例如特征属性255、位置属性260、通用属性270、组属性265、动作行为属性266)中的至少一个属性的分数280。所述处理器205可以执行所述肖像图像分析模块125以确定所述图像130中识别的属性251中的至少一个属性的分数280。
在一个实施例中,所述肖像图像分析模块125可以获取在所述图像130中识别的属性251,然后将所述属性251与所述描述性数据254进行比较,以确定所述属性251是否存在预定义分数252或类似属性251是否存在预定义分数252。在一个实施例中,当所述属性251与所述预定义分数252的描述性数据254匹配时,所述肖像图像分析模块125可以确定与所述描述性数据254相关联的所述预定义分数252应该是在评分的特定属性251的分数280。
例如,假设所述训练数据120包括:描述示出眼睛闭着的部分的描述性数据254的为0的预定义分数252,和描述示出眼睛睁开的部分的描述性数据254的为1的预定义分数252。在这种情况下,从所述图像130中提取的所述眼睛的部分,或识别所述眼睛的部分为睁开或闭着的特征属性255,可以与所述训练数据120中的所述描述性数据254进行比较,以确定所述图像130的眼睛的部分的分数280。当睁开的眼睛的预定义分数252为1时,则描绘睁开眼睛的图像130的分数280也为1。类似地,如果闭着的眼睛的预定义分数252为0,则描绘睁开眼睛的图像130的分数280也为1。
在一些情况下,基于感兴趣区域识别的属性251可能不完全匹配预定义分数252的描述性数据254的值。即,感兴趣区域可以具有多个不同的属性251,因此并非所有属性都可以在所述预定义分数252中评分或评级。这些具有属性251的多个变体的感兴趣区域类型可以具有描述所述感兴趣区域的离散数量的属性251或连续数量的属性251。
当对应于所述感兴趣区域的部分可以具有描述所述感兴趣区域的特征的多个不同属性251时,所述图像130的感兴趣区域可以具有离散数量的属性251。例如,嘴部部分识别的属性251可以包括多个不同的特征属性255,例如,中性的嘴部表情、微笑、大笑、打哈欠、正在说话的嘴部等。这样,在所述图像130中显示的人的嘴部(例如,感兴趣区域)可以具有描述所述嘴部的表情的离散数量的属性251。在一个实施例中,可以存储描述所述感兴趣区域的离散属性251中的每一个属性251的预定义分数252,其中预定义分数252越高表示该感兴趣区域的美学价值越高。但是,在一些情况下,正在分析的图像130可以定义该感兴趣区域的属性251,该感兴趣区域可能不具有精确的对应预定义分数252。
类似地,当对应于所述感兴趣区域的部分可以示出连续数量的(或大量的)变体时,所述图像的部分中识别的感兴趣区域可以具有连续数量的属性251。例如,所述图像130内的身体部分的位置的位置属性260可以具有大量的变体,因为所述身体部分可以位于所述图像中的任何位置。对于这些不同的变体中的每一个变体,可能没有关于身体部分可能位于何处的预定义分数252。当与所述图像130中示出的人的身体相关联的身体部分位于所述图像130的极左或极右时,所述图像130的美学价值可能较差。在一个实施例中,可以存储描述该感兴趣区域的连续数量的属性251中的一个或多个属性的预定义分数252,其中预定义分数252越高表示该感兴趣区域的美学价值越高。但是,在一些情况下,正在分析的图像130可以定义该感兴趣区域的属性251,该感兴趣区域可能不具有精确的对应预定义分数252。
在感兴趣区域可以由离散数量的属性251或连续数量的属性251来描述的这两种情况下,所述肖像图像分析模块125可以基于描述性数据254的多个不同的预定义分数252来确定属性251的分数280,所述描述性数据254描述相似特征属性255和评分规则299。肖像图像分析模块125可识别与类似属性251相关联的预定义分数252,作为基于所述描述性数据254进行评分的属性251。可以使用评分规则299和回归机器学习(machine learning,ML)模型对多个预定义分数252进行归一化和处理,以确定所述图像130的属性251的分数280。所述回归ML模型可以是用于基于多个不同的预定义分数252定义分数280的线性回归算法。
如上所述,所述评分规则299是在确定正在分析的图像130的感兴趣区域或属性251的分数280期间计算和考虑的值。在一些实施例中,每个属性251或感兴趣区域可以具有相应的评分规则299,用于为该属性251确定分数280。作为示例,对于描述所述图像130中显示的人的身体部分的身体位置的位置属性260,所述评分规则299可以包括身体水平位置评分规则299和身体垂直位置评分规则299。身体水平位置评分规则299可以是身体部分的中心与所述图像130的中心之间的水平距离。可以针对所述图像130的宽度对水平距离进行归一化,以确定描述所述身体部分的身体位置的位置属性260的分数280。身体垂直位置评分规则299可以是所述身体部分的中心与所述图像130的中心之间的垂直距离。所述垂直距离可以相对于所述图像130的宽度进行归一化,以确定描述所述身体部分的身体位置的位置属性260的分数280。
作为另一示例,对于描述所述图像130中显示的人的身体部分的身体比例的位置属性260,评分规则299可以包括身体比例评分规则299。所述身体比例评分规则299可以为如下比率:(身体部分的高度)(身体部分的宽度)/(图像130的高度)(图像130的宽度)。所述身体比例评分规则299为所述身体部分的大小与所述图像130的大小的比率。
作为另一示例,对于描述所述图像130中显示的人的部分的身体比率的位置属性260,评分规则299可以包括身体比率评分规则299。所述身体比率评分规则299可以为如下比率:(身体部分的高度)/(身体部分的宽度)。所述身体比率评分规则299可以用于确定所述图像130是半身肖像还是全身肖像。所述身体比率评分规则299也可以用于确定所述图像中示出的人是坐着还是站着。
在一些实施例中,所述评分规则299可以转换为包括所述评分规则299的所有不同的变体的单维连续值比例。这些评分规则299可以通过回归模型训练的过程获取的加权聚合过程聚合成该子维度的总体分数。训练的回归模型的目标是确定所述权重290和形成所述加权总分285的聚合方程。在一些情况下,所述训练数据120产生训练ML模型,所述训练ML模型确定所述图像130的美学价值尽可能接近从所述原型图像123产生的所述训练数据120。
假设在对位置属性260进行评分时,例如对所述图像130内的身体的比例进行评分,所述肖像图像分析模块125可能无法识别与当前分析的图像130的位置属性260相匹配的特定预定义评分252。当特定属性251连续时,所述肖像图像分析模块125可能无法识别该属性的预定义二进制分数252(例如,所述属性251有太多不同的变体,因此很难识别当前分析的图像130的属性251与预定义分数252的描述性数据254之间的精确匹配)。在这种情况下,所述肖像图像分析模块125可以识别多个预定义分数252,其具有与当前分析的图像130中识别的身体比例相似的身体比例。这些预定义分数252和预定义评分规则299可以输入到所述回归ML模型以输出所述位置属性260的分数280。
在一些实施例中,可以使用绝对误差损失函数进一步微调为所述图像130的每个属性251或特征确定的分数280。所述绝对误差损失函数可以用于最小化为所述图像130的每个属性251或其它特征确定的分数280的误差。
在步骤317中,可以基于分配给已经评分的图像130的属性251或特征中的每一个的权重290来确定表示所述图像130的美学价值的总分285。所述权重290可以基于所述预定义权重253确定,其方式类似于如何基于所述预定义分数252确定所述分数280,如上所述。所述权重290对应于所述总分285中应给予所述分数280的权重的比例或百分比。这些比例可以存储在所述预定义权重253中,并用于确定权重290,其方式与所述图像130的分数280用所述图像130的多个不同属性251和特征的多个不同的预定义分数252确定一样。
所述处理器205可以执行所述肖像图像分析模块125以基于所述分数280和/或权重290确定所述总分285。如果适用的话,可以根据相应的权重290对为所述图像130确定的分数280中的每一个分数280进行加权,然后相加生成所述图像130的总分285。
图4为基于图像中的人的感兴趣区域分割的单人肖像图像400的图。所述单人肖像图像400已经分割为四个部分,身体部分403、面部部分406、眼睛部分409和嘴部部分411。所述面部部分406可以是身体部分403的子部分,使得所述面部部分406与所述身体部分403之间存在依赖关系。类似地,所述眼睛部分409和所述嘴部部分411可以是所述面部部分406的子部分,使得所述眼睛部分409和所述面部部分406之间存在依赖关系,所述嘴部部分411和所述面部部分406之间存在依赖关系。所述依赖关系是指部分和子部分之间的关系,其中所述子部分可能位于所述部分内。下面将结合图5A至5C进一步描述,所述依赖关系可以用于执行更有效的图像130和400分割。
在一些实施例中,可以分析部分403、406、409和411中的每一个部分,以确定在所述单人肖像图像400中描绘的人的属性251。可以分析所述身体部位403以确定属性251,例如所述身体部位403中描绘的身体部位的特征属性255和位置属性260。特征属性255(例如身体的大小或身体的姿势)和位置属性260(例如身体的角度)可以通过所述身体部分403确定。应理解,可以使用所述身体部分403确定所述图像400的其它类型的属性251或其它特征。
可以分析所述面部部分406以确定通用属性270,例如,所述图像400中描绘的人的种族、性别和年龄范围。可以分析所述眼睛部分409以确定特征属性255,例如所述眼睛是睁开的还是闭着的。可以所述分析嘴部部分411以确定特征属性255,例如所述嘴部是否微笑、大笑或皱眉。
图5A为已基于图像500中描绘的不同人进行分割的多人肖像图像500的图。所述多人肖像图像500包括针对所述图像500中描绘的每个人的四个部分:第一人部分503、第二人部分506、第三人部分509和第四人部分511。所述第一人部分503、第二人部分506、第三人部分509和第四人部分511为矩形框,分别包围所述图像500中描绘的四个不同的人。
在一些实施例中,与如何分割单人肖像图像400类似,对人部分504、506、509和511中的每一个进行单独分割,然后分析以确定属性251,例如特征属性255、位置属性260、通用属性270和动作行为属性266。所述人部分504、506、509和511中的每一个部分的通用属性可以指示所述图像500中示出的每个人的年龄范围和性别。
在一些实施例中,可以分析所有人部分504、506、509和511,以确定定义所述图像500内的人的空间关系和排布的组属性265。对所述人部分504、506、509和511的分析可以确定组属性265,例如在所述人部分504、506、509和511中的每一个部分中描绘的每个人以拥抱的方式坐在地板上排成一行的指示。可以在所述图像500中识别的另一组属性265是所述人部分504、506、509和511中的每一个部分彼此稍微重叠,表示所述图像500中描绘的人紧密地定位在一起。
在一些实施例中,这些组属性265可以与所述通用属性270组合以识别所述多人肖像图像500的重要特征,所述特征可以帮助生成所述多人肖像图像500的总分285。例如,从美学角度来看,家庭肖像和家庭照片对大多数用户来说都是非常有价值的。通过所述通用属性270和所述组属性265,所述计算设备200或103可以容易地确定所述多人肖像图像500是否为家庭照片。当所述人部分503和506中的两个的所述通用属性270指示比所述其它人部分509和511的所述通用属性270高得多的年龄范围的两种不同性别(男性和女性)时,所述计算设备200或103可以确定所述人部分504、506、509和511对应于家庭成员。这样,所述组属性265,例如家庭的紧密空间关系和成行排布,可以指示所述多人肖像图像500为家庭成员各自摆姿势的家庭肖像。
在一些实施例中,这些类型的多人肖像图像500可以包括用于所述组属性265和所述通用属性270的更高的权重290,所述通用属性270有助于将所述多人肖像图像500定义为家庭照片。也可以给示出个体是否微笑的其它特征属性255分配更高的权重290,因为有时小孩子不微笑着摆姿势照相。客观特征也可以包括在所述多人肖像图像500的总分285中。图像背景的质量可以视为图像的属性,并可以如上所述进行评分和加权。例如,可以对所述多人肖像图像500的背景进行分析,以确定背景与人部分504、506、509和511之间是否存在单个颜色和强烈对比。其它客观特征(例如亮色、色彩平衡、背景模糊)也可以认为是图像的背景质量。
图5B至图5C示出了多人图像550和560的其它示例。所述多人图像550示出风景中随机定位的人部分。可以对所述多人图像550定义组属性265,其指示所述多人图像550中示出的所述人部分的空间关系和排布是零散的和无组织的。可以为此类组属性265分配低的预定义分数252,从而为当前分析的图像130分配低的分数280。
所述多人图像560示出组设置,其中所述人部分排布在若干不同的层中。在该多人图像560中,所述组属性265可以反映所述人部分彼此靠近,但位于所述多人图像560的不同深度的层中。基于专业摄影师是认为分层图像增加了图像130的美学价值还是降低了图像130的美学价值,可以为这种组属性265分配某个预定义分数252。
图6为确定正在分析的图像130的属性251的方法600的流程图。所述方法600可以在所述计算设备200或103上已安装所述肖像图像分析模块125之后由所述计算设备200或103执行。所述方法600可以在获取图像130之后由所述计算设备200或103执行。所述方法600也可以在获取图像130之后由所述服务提供商109执行。
在步骤603中,通过从所述摄像头119采集所述图像130或从所述存储器设备250检索所述图像130来获取所述图像130。在一些实施例中,所述图像130可以是包括在视频中的图像130的集合中的一个图像。对于视频,可以分别对每个图像130进行分析和评分,然后聚合在一起以创建总分285,所述总分285是所述视频的每个图像130的分数280之和。
在步骤605中,确定所述图像130是否为肖像图像。可以检查所述图像130的某些部分或像素,以确定所述图像130的大部分是否示出一个或多个人。当显示人特征的图像130的某个数量的像素超过阈值数量时,则可以确定所述图像130为肖像图像。在一些实施例中,所述处理器205可以执行所述肖像图像分析模块125,以确定所述图像130是否为肖像图像。
在步骤607中,可以对所述图像130执行人体语义检测。人体语义检测可以涉及确定属性251,例如特征属性255、位置属性260、组属性265、通用属性270、动作行为属性266以及所述图像130的其它特征。所述处理器205可以执行所述肖像图像分析模块125,以对所述图像进行人体语义检测。
如图6所示,人体语义检测涉及图像130内与人相关的对象的若干层或级的检测。在步骤609中,可以对所述图像130执行肖像分类检测。所述肖像分类检测可以涉及确定所述图像130是否可以分类为肖像图像611(例如,图像400)或多人图像613(例如,图像500)。肖像图像示出单个人,而多人图像示出多个人。所述处理器205可以执行所述肖像图像分析模块125,以确定所述图像130示出的是单个人还是多个人。
在一些实施例中,当所述图像130示出多个人时,可以对所述图像130进行分割以创建每个人的部分,并且还可以按感兴趣区域或人的身体部位分割每个人。可以分析所述图像130中的每个人的这些部分中的每一个部分,以确定特征属性255A。还可以分析所述图像130中描绘的每个人的这些部分中的每一个部分,以确定组属性265,例如空间关系265A和排布特征265B。所述空间关系265A是指对所述图像130中描绘的每个人之间有多少空间的分析。所述排布特征265B是指对所述图像130中的人如何排布的分析。应理解,所述空间关系265A和所述排布特征265B仅为组属性265的两个示例,可以存在在所述图像130中确定的任何数量或类型的组属性265。
在步骤615中,可以检测所述图像130的特征属性255和位置属性260。所述处理器205可以执行所述肖像图像分析模块125以确定所述图像130的特征属性255和位置属性260。可以确定的位置属性260的示例包括人体位置和比例260A和面部角度260B。可以使用所述身体部分403等确定人体位置和比例260A,并可以使用所述面部部分406等确定所述面部角度260B。可以确定的特征属性255的示例包括面部表情255C和眼睛状态255B。可以使用嘴部部分411等确定所述面部表情255C,并可以使用所述眼睛部分409等确定所述眼睛状态255B。应理解,所述人体位置和比例260A和所述面部角度260B仅为位置属性260的两个示例,可以存在在所述图像130中确定的任何数量或类型的位置属性260。类似地,面部表情255C和眼睛状态255B仅为特征属性255的两个示例,可以存在在所述图像130中确定的任何数量或类型的特征属性255。
在步骤619中,可以检测所述图像130中描绘的人的通用属性270。所述处理器205可以执行所述肖像图像分析模块125以基于每个人的一个或多个部分确定所述图像130的通用属性270。可以确定的通用属性270的示例包括性别270A、年龄范围270B和种族270C。应理解,所述性别270A、年龄范围270B和种族270C仅为通用属性270的三个示例,可以存在在所述图像130中确定的任何数量或类型的通用属性270。
在步骤621中,可以检测所述图像130中描绘的人的动作行为属性266。所述动作行为属性266可以用于共同形成视频的图像130。所述处理器205可以执行所述肖像图像分析模块125以基于每个人的一个或多个部分确定所述图像130的动作行为属性266。可确定的动作行为属性266的示例包括确定所述人是否站着266A、坐着266B、行走266C、跑步266D、摆姿势266E或摆手势266F。这些动作行为属性266可以使用所述身体部分403等来确定。应理解,可以存在在所述图像130中确定的任何数量或类型的动作行为属性266。
在一些实施例中,一旦使用在所述图像130中识别的部分确定所述特征属性255、位置属性260、组属性265和通用属性270,则可以对这些特征属性255、位置属性260、组属性265和通用属性270中的至少一个进行评分。如上所述,所述训练数据120中的预定义分数252可以用于确定这些特征属性255、位置属性260、组属性265和通用属性270中的每一个的分数280。在一些实施例中,可以将所述分数280中的每一个分数求和,得到所述总分285。在一些实施例中,在确定所述图像130的总分285时,可以根据权重290对这些分数中的一些分数进行加权。
图7A为可用于计算图像130的总分285的评分树700的图。所述评分树700包括所述图像130中描绘的人的多个感兴趣区域703A至703E。所述评分树700还包括作为一个或多个感兴趣区域703A至703E的叶节点的若干位置属性260A至260C和特征属性255A至255D。虽然所述评分树700仅示出了位置属性260和特征属性255的叶节点,但应理解,其它图像130的评分树700可以包括其它属性251,例如组属性265、通用属性270和动作行为属性266。
所述评分树700可以包括感兴趣区域703A至703E、特征属性255、位置属性260、组属性265或通用属性270中的至少一个的节点,其中每一个节点都基于所述节点之间的依赖关系排布在所述评分树700。所述依赖关系可以指两个感兴趣区域之间的关系,或者所述感兴趣区域703A至703E与属性251之间的关系。当所述感兴趣区域703A至703E中的一个感兴趣区域位于所述图像130中的另一个感兴趣区域703A至703E内时,所述感兴趣区域703A至703E中的两个感兴趣区域之间存在依赖关系。当所述属性251描述特定感兴趣区域703A至703E时,所述感兴趣区域703A至703E和属性251之间可以存在依赖关系。
在一些实施例中,表示所述感兴趣区域703A至703E的每个节点可以包括其它感兴趣区域703A至703E或属性251的若干叶节点,例如特征属性255、位置属性260、组属性265、通用属性270、动作行为属性266、所述图像130的客观特征或所述图像130的其它特征。但是,表示属性251(例如特征属性255、位置属性260、组属性265或通用属性270)的节点可以不包括任何叶节点。
如图7所示,所述评分树700通常具有表示父属性的父节点,例如感兴趣区域703A。所述感兴趣区域703A至703E对应于所述图像130中识别的各种父属性、感兴趣区域或部分。在一些情况下,表示感兴趣区域703A的父节点对应于所述图像130的所述身体部分403。如图4中所述,所述身体部分403是指包围所述图像130中示出的整个人(或在多人图像的情况下的一个人)的矩形框。
从表示所述感兴趣区域703A的所述父属性的所述父节点出发,可以存在表示与所述感兴趣区域703A具有依赖关系的其它感兴趣区域703B的多个叶节点。如图7中所示,感兴趣区域703B是所述感兴趣区域703A的叶节点,因为对应于所述感兴趣区域703B的部分可以位于对应于感兴趣区域703A的部分内。
从表示所述感兴趣区域703A的所述父属性的所述父节点出发,还可以存在多个表示与所述感兴趣区域703A具有依赖关系的所述属性251的叶节点。如图7所示,位置属性260A和260B是所述感兴趣区域703A的叶节点,因为所述位置属性260A和260B描述所述感兴趣区域703A的位置特征。
如图7所示,所述感兴趣区域703B包括四个叶节点,一个位置属性260C的叶节点,三个不同的感兴趣区域703C至703E的叶节点。所述位置属性260C可以与所述感兴趣区域703B具有依赖关系(或描述所述感兴趣区域703B的特征)。所述感兴趣区域703C至703E可以与所述感兴趣区域703B具有依赖关系(或位于所述感兴趣区域703B内)。类似地,所述感兴趣区域703C至703E中的每一个感兴趣区域具有表示各种特征属性255A至255D的叶节点,所述特征属性255A至255D描述所述感兴趣区域703C至703E的特征。
在一些实施例中,所述评分树700可以包括所述评分树700内的每个节点的权重290A至290K,但最顶端的父节点除外。所述评分树700中的所有节点包括权重290A至290K,表示所述感兴趣区域703A的节点除外。
所述权重290A至290K是0和1之间的值,所述值可以分配给某些部分或对应于所述部分的感兴趣区域703A至703E。所述权重290A至290K也可以是分配给属性251(例如特征属性255、位置属性260、组属性265、通用属性270、动作行为属性266、客观属性或所述图像130的任何特征)的0与1之间的值。所述权重290A至290K可以指示在计算所述图像130的总分285时给予某个部分、感兴趣区域703A至703E或属性251的权重的比例。
在一些实施例中,可以以类似于确定所述图像的分数280的方式确定所述权重290。位于所述服务提供商109处的专业摄影师可以确定原型图像123的某一部分(例如,部分、感兴趣区域703A至703E、特征属性255、位置属性260、组属性265、通用属性270、动作行为属性266或其它属性/特征)相对于所述原型图像123的整体美学价值提供的百分比或比例值。可以对所述原型图像123中的每一个原型图像123进行分析,以确定所述部分、感兴趣区域703A至703E、特征属性255、位置属性260、组属性265、通用属性270、动作行为属性266、或其它属性/特征中的每一个与所述原型图像123的总美学价值的相对比例。基于此,所述服务提供商109可以存储预定义权重253,所述预定义权重253可以对应于所述部分、感兴趣区域703A至703E、特征属性255、位置属性260、组属性265、通用属性270、动作行为属性或所述图像130的其它属性/特征。所述服务提供商109可以将所述训练数据120中的这些预定义权重253发送到所述计算设备200或103,使得所述计算设备200或103可以使用所述预定义权重来确定图像130的实际权重290。
在一些情况下,一个图像130的实际权重290可能实际上与所述训练数据120的预定义权重253不匹配。这是因为每一个图像130不包括相同的部分和特征。因此,所述计算设备103可以相对地基于所有部分、感兴趣区域703A至703E、特征属性255、位置属性260、组属性265、通用属性270、动作行为属性266或所述图像130中评分的其它属性/特征,使用所述预定义权重253来计算特定图像130的权重290。
如图7A所示,将权重290A至290K分配给所述评分树700中的所有节点。在一些实施例中,源自单个节点且位于所述评分树700的一个水平级中的所有所述叶节点应等于1。所述权重290A至290C的集合应等于1,因为所述感兴趣区域703B、位置属性260A和位置属性260B的节点源自所述感兴趣区域703A的节点。权重290D至290E的集合应等于1,因为所述位置属性260C和感兴趣区域703C至703E的节点源自所述感兴趣区域703B的节点。
所述感兴趣区域703C的节点仅具有所述特征属性255A的一个叶节点。可以为所述特征属性255A分配为1的权重290H。类似地,所述感兴趣区域703E的节点仅具有所述特征属性255D的一个叶节点。也可以为所述特征属性255D分配为1的权重290K。所述感兴趣区域703D的节点具有两个特征属性255B和255C的叶节点。在这种情况下,权重290I和290K的集合可以等于1。
在一些实施例中,可以基于所述评分树700使用所述评分树700中每个节点的分数280和所述评分树700中每个节点的权重290A至290K来计算总分285。可以计算所述评分树700中示出的所述感兴趣区域703A至703E、位置属性260A至260C和特征属性255A至255D中的每一个的分数280。可以通过首先将每个分数280乘以对应的权重290A至290K来确定所述评分树700中的每个节点的加权分数280,然后计算所述加权分数280的集合来计算所述总分285。
在一些实施例中,所述评分树700的结构使得当考虑对图像130的附加特征进行评分时,可以容易地调整所述特征的权重290A至290K,以考虑新特征的评分。在一些实施例中,可以基于所述预定义权重253和所述评分树700中水平级的总权重来重新调整所述权重290A至290K。
例如,假设现在在计算新总分285时要考虑先前未考虑用于总分285的某个位置属性260E。假设所述位置属性260E定义所述感兴趣区域703B的某个特征。在这种情况下,可以将叶节点添加到所述感兴趣区域703B中。类似地,可以重新计算权重290D至290G,以基于所述预定义权重253为新位置属性260E添加另一权重290,同时确保所述权重290D至290G与所述新权重290的集合仍然等于1。这样,无需调整其它权重290或分数280来计算所述新的总分285。
图7B示出了图像130的评分树750的示例。如图7B所示,表示所述评分树750的父属性的父节点的感兴趣区域703A对应于所述图像130的身体部分403。所述身体部分403对应的父节点(父属性)的分数280为0.6836。表示所述感兴趣区域703A的节点具有四个叶节点,一个感兴趣区域703B(面部部分406)的叶节点、两个位置属性260A和260B的叶节点,一个动作行为属性266A的叶节点。所述感兴趣区域703B与所述感兴趣区域703A具有依赖关系,因为所述面部部分406位于所述身体部分403内。所述表示所述感兴趣区域703B的节点的分数280为0.534,权重290为0.4。
所述位置属性260A和260B可以描述所述身体部分403的定位,因此,与所述感兴趣区域703A具有依赖关系。所述位置属性260A描述所述图像130内的人的位置,所述位置属性260B描述人相对于所述图像130的大小的比例。所述位置属性260A的分数为280分0.9,权重290为0.3。所述位置属性260B的分数280为0.5,权重290为0.2。所述动作行为属性266A可以描述所述图像130中描绘的人的身体部分403摆出的姿势,因此,与所述感兴趣区域703A具有依赖关系。所述动作行为属性266A的分数为280为1,权重为290为0.1。
表示所述感兴趣区域703B(面部部分406)的节点可以具有四个叶节点,一个所述感兴趣区域703C(眼睛部分409)的节点、一个所述感兴趣区域703D(嘴部部分411)的节点、一个感兴趣区域703E(皮肤部分)的节点和一个位置属性260C的节点。所述位置属性260C可以描述面部的角度,因此与所述感兴趣区域703B具有依赖关系。所述位置属性260C的分数280为0.8,权重290为0.1。
所述感兴趣区域703C至703E与所述感兴趣区域703B具有依赖关系,因为所述眼睛部分409、所述嘴部部分411和所述皮肤部分可以位于所述面部部分406内。所述感兴趣区域703C(眼睛部分409)的分数280为0.55,权重290为0.4。所述感兴趣区域703D(嘴部部分409)的分数280为0.5,权重290为0.3。所述感兴趣区域703E(皮肤部分)的分数280为0.78,权重290为0.2。
表示所述感兴趣区域703C(眼睛部分409)的节点具有两个特征属性255A和255B的叶节点。所述特征属性255A表示所述眼睛部分409中的眼睛是睁开的还是闭着的,所述特征属性255B表示所述眼睛部分409中的眼睛在所述图像130中的聚焦程度。这样,所述特征属性255A和255B与所述感兴趣区域703C有依赖关系,因为所述特征属性255A和255B定义所述感兴趣区域703C的特征。所述特征属性255A的分数280为1,权重290为0.5。如上所述,所述眼睛部分409的分数280为1可以指示所述眼睛部分409中示出的眼睛是睁开的。所述特征属性255B的分数280为0.1,权重290为0.5。例如,眼睛聚焦的0.1的这个低分数280可以指示眼睛未聚焦在采集所述图像130的摄像头上,或所述眼睛部分409的像素未聚焦。
表示所述感兴趣区域703D(嘴部部分411)的节点有一个特征属性255C的叶节点,所述特征属性255C表示所述嘴部部分411中的嘴部是否微笑。这样,所述特征属性255C与所述感兴趣区域703D具有依赖关系,因为所述特征属性255C定义所述感兴趣区域703D的特征。所述属性255C的分数280为0.5,权重290为1(因为没有源自所述感兴趣区域703D的节点的其它叶节点)。所述嘴部部分411的分数280为0.5可以指示所述图像130中描绘的人没有完全微笑或无动于衷。
表示所述感兴趣区域703E(皮肤部分)的节点具有两个特征属性255D和255E的叶节点。所述特征属性255D表示肤色,所述特征属性255E表示皮肤的平滑度。这样,所述特征属性255D和255E与所述感兴趣区域703E具有依赖关系,因为所述特征属性255D和255E定义所述感兴趣区域703E的特征。所述特征属性255D的分数280为0.5,权重290为0.3。所述特性属性255E的分数280为0.9,权重290为0.7。
如所述评分树750所示,源自单个节点的叶节点的权重290的集合应等于1。源自表示所述感兴趣区域703A的所述父节点的叶节点的集合为1(0.4+0.3+0.2+0.1)。源自表示所述感兴趣区域703B的所述节点的叶节点的集合为1(0.1+0.4+0.3+0.2)。源自表示所述感兴趣区域703C的所述节点的叶节点的集合为1(0.5+0.5)。源自表示所述感兴趣区域703D的所述节点的叶节点的集合也为1,因为只有表示所述特征属性255C的单个叶节点。源自表示所述感兴趣区域703D的所述节点的叶节点的集合为1(0.3+0.7)。
可以通过加权和集合所有节点(表示所述图像130的部分、感兴趣区域703A至703E、特征属性255、位置属性260、组属性265、通用属性270、动作行为属性266或其它属性/特征)的所有分数280来计算所述总分285。如果所述总分285包括所有分数280的集合,则所述评分树750表示的所述图像130的总分285为9.2476(0.6836+0.534+0.9+0.5+1+0.8+0.55+0.5+0.78+1+0.1+0.5+0.5+0.9)。如果所述总分285包括所有加权分数280(所述分数280乘以相应的权重290)的集合,则所述评分树750表示的所述图像的总分285为3.0832((0.6836)+(0.534×0.4)+(0.9×0.3)+(0.5×0.2)+(1×0.1)+(0.8×0.1)+(0.55×0.4)+(0.5×0.3)+(0.78×0.2)+(1×0.5)+(0.1×0.5)+(0.5×1)+(0.5×0.3)+(0.9×0.7))。
所述评分树700只是数据结构的示例,可以用于为图像130生成总分285。应理解,可以根据权重290容易地将所述图像130的附加属性251或特征因素化为所述总分285的任何其它类型的数据结构或训练模型可以用于确定所述图像130的总分。
图8A至图8B为本公开的各种实施例提供的分割和对象分类的方法的图800和850。图800示出了在图像130中确定部分的传统方法。分割图像130的初始步骤之一是使用区域生成网络(region proposal network,RPN),这涉及使用从所述图像130的左上角到所述图像130的右下角的滑动窗口搜索所述图像130以寻找可能的部分。所述滑动窗口是滑动矩形框,所述滑动矩形框经过调整大小和缩放,以用于在整个图像130上滑动进行多次迭代。在每次迭代期间,所述滑动窗口在整个图像130中移动,直到识别到所述部分。
图8A为在实现RPN时使用滑动窗口803识别部分的传统方法的图800。锚点806表示随着时间的推移而移动的所述滑动窗口803的中心点。所述滑动窗口803以第一比例809(所述滑动窗口803的大小)和第一比率811(所述滑动窗口803的尺寸)在整个图像130上定位以进行第一次迭代。在所述第一次迭代之后,可以改变比例809和比率811,并再次在整个图像130中移动所述滑动窗口803以识别部分。通过改变所述滑动窗口803的比例809和比率811来执行若干次迭代,以确定可以包围所述感兴趣区域703A至703E的提议(或提议部分)。可以对所述提议的部分进行回归,以对所述提议部分进行校正,并确保所述部分将感兴趣区域包围在所述感兴趣区域的边缘附近。然后,可以对所述部分进行分类,以标记所述部分并确定属性251。
使用所述滑动窗口803的传统RPN方法效率低下,因为所述滑动窗口803经常位于所述图像130的边缘和区域中,在所述边缘和区域中,不太可能定位所述感兴趣区域703A至703E。因此,所述处理器205花费大量的时间来试图定义所述图像130中与本文公开的肖像图像分析实施例无关的区域的提议部分。
图8B为基于感兴趣区域位于已更新的锚点853附近的可能性使用所述已更新的锚点853识别部分的更有效方法的图850。根据本文所公开的各种实施例,在实现RPN时可以使用所述已更新的锚点853。在一些实施例中,所述训练数据120可以包括预定义锚点,所述预定义锚点基于某些感兴趣区域703A至703E将定位在所述图像130中的可能性。定义人体的部分(身体部分403)的预定义锚点更有可能位于所述图像130的中间。可以根据所述预定义锚点定位用于RPN第一次迭代的所述滑动窗口803的已更新的锚点853。图8B所示的所述已更新的锚点853可以是所述滑动窗口803的锚点,所述滑动窗口803用于识别身体对应的部分。
在一些实施例中,由于识别感兴趣区域703A至703E的部分的可能性较高,因此使用所述滑动窗口803的迭代次数可以减少。这样,用于沿所述图像130移动所述滑动窗口803的各种迭代的比例809和比率811的数量也减少了。
类似的预定义锚点可以包括在用于本文公开的肖像图像分析机制中被分割和分析的各种感兴趣区域703A至703E的训练数据120中。所述训练数据120可以包括预定义锚点,所述预定义锚点指向所述图像130中所述人的面部所在的特定部分或点、所述人的眼睛所在的位置、所述人的嘴部所在的位置等。使用这些实施例进行分割,识别的提议部分的数量将显著减少,处理所述图像130所需的时间也将显著减少。因此,如果利用这些分割实施例,可以更快地实现肖像图像分析的机制。
图9A和图9B为本公开的各种实施例提供的示出如何识别图像130中可能示出某些感兴趣区域703A至703E的位置的图。图9A示出了对应于上身的部分可能位于所述图像130内的位置的热图903和三维(three dimensional,3D)图906。可以基于对所述原型图像123的分析生成这些图903和906。类似地,图9B示出了对应于眼睛(眼睛部分409)的位置可能位于所述图像130内的位置的热图953和3D图956。也可以基于对所述原型图像123的分析生成这些图953和956。
图10为本公开的各种实施例提供的执行肖像图像分析的方法1000的流程图。所述方法1000可以由所述肖像图像分析模块125在获取待分析和评分的图像130之后执行。在步骤1003中,确定分别描述对应于所述图像130中描绘的人的身体部位的多个感兴趣区域的多个属性251。所述处理器205执行所述肖像图像分析模块125以基于在所述图像130中识别的部分确定所述图像130中的所述属性251。所识别的属性251可以是特征属性255、位置属性260、通用属性270、组属性265、动作行为属性266、所述图像130的客观特征和/或描述所述图像130的其它特征。
在步骤1006中,可以基于所述训练数据120确定每个属性251的相应分数280。所述处理器205执行所述肖像图像分析模块125以基于存储在所述训练数据120中的预定义分数252确定所述属性251中的每一个属性的相应分数280。所述预定义分数252是基于所述原型图像123对各种属性的预设分数。在一些实施例中,可以根据为正在评分的属性251中的每一个属性分配的权重290对这些分数280中的每一个分数进行加权。在一个实施例中,所述属性251中的每一个属性的权重290基于所述训练数据120中包括的预定义权重253。
在步骤1009中,基于所述属性251的相应分数280计算总分285。所述处理器205执行所述肖像图像分析模块125以基于所述属性251的相应分数280计算所述总分285。所述总分285可以是所述属性251的分数280的集合。所述总分285也可以是根据所述属性251的权重290进行加权后的分数280的集合。
图11为本公开的各种实施例提供的包括原始视频1106和基于所述原始视频1106中描绘的人的一个或多个摘要视频1109和1112的相册1103的示意图1100。所述原始视频1106可以包括一系列一个或多个图像130,其中这些图像130中的一些图像可以是多人肖像图像。所述原始视频1106可以通过封面图像1117A在所述相册1103中示出,所述封面图像1117A可以基于如上所述的执行肖像图像分析的方法进行选择。例如,总分285最高的原始视频1106的图像130可以是所述原始视频1106的封面图像1117A。
所述摘要视频1109和1112中的每个摘要视频可以是包括来自显示所选择的人的所述原始视频1106的一系列图像130(例如,帧)的视频。在一个实施例中,图2的所述计算设备200可以用于基于所述原始视频1106中示出的特定人从所述原始视频1106生成摘要视频1109和1112。例如,所述计算设备200的用户可以观看所述原始视频1106,然后访问所述原始视频1106的信息页面。所述原始视频1106的信息页面可以示出所述原始视频1106中描绘的每个人的缩略图。例如,所述原始视频1106的信息页面可以包括所述原始视频1106中至少阈值数量的图像130中描绘的每个人的缩略图。下面结合图12进一步描述信息页面的示例。
访问所述原始视频1106的信息页面的用户可以选择所述原始视频1106中描绘的人对应的缩略图中的一个缩略图,以创建所选择的人的摘要视频1109或1112。例如,所述原始视频1106的信息页面可以包括所述原始视频1106中描绘的男子的缩略图1115A和所述原始视频中描绘的少女的缩略图1115B。访问所述原始视频1106的信息页面的用户可以在不同的时间选择这两个缩略图1115A和1115B,以分别创建对应于所述缩略图1115A的男子的摘要视频1109和对应于所述缩略图1115B的少女的摘要视频1112。
可以通过首先分析作为所述原始视频1106的一部分的图像130中的每一个图像130来确定包括所选择的人的图像130,从而从所述原始视频1106创建所述摘要视频1109和1112。例如,可以通过首先分析作为所述原始视频1106的一部分并且包括所述缩略图1115A示出的男子的所述图像130中的每一个图像130来创建所述摘要视频1109。类似地,可以通过首先分析作为所述原始视频1106的一部分并且包括所述缩略图1115B示出的少女的所述图像130中的每一个图像130来创建所述摘要视频1112。
接下来,可以确定所述摘要视频1109或1112的长度。例如,所述摘要视频1109或1112可以是小于或等于所述原始视频1106的长度的任何长度。在一些情况下,所述摘要视频1109或1112可能没有设定的最大长度。在这种情况下,当所选择的人包括在所述原始视频1106的每个图像130中时,所述摘要视频1109或1112可以与所述原始视频1106相同。
在一些实施例中,所述摘要视频1109或1112还可以包括一个或多个过渡图像,所述过渡图像插入在所述摘要视频1109或1112包括的一个或多个图像130之间。所述过渡图像可以用于使所述视频更丰富和平滑。例如,所述过渡图像可以是从所述视频中选择的包括同一人的其它图像,或者仅用于过渡的目的的一些预设图像。
在对所述摘要视频1109和1112设置最大长度(例如10秒)的情况下,可以组合包括所选择的人的图像130中的一个或多个图像130,以创建所述摘要视频1109或1112。在一些情况下,所选择的人在所述原始视频1106中的时间可能小于为所述摘要视频1109和1112设置的最大长度。当包括所选择的人的所有图像130的组合创建小于或等于最大长度的摘要视频1109或1112时,所述摘要视频1109或1112包括描绘所选择的人的所有图像130。
当包括所选择的人的所有图像130的组合创建大于最大长度的摘要视频1109或1112时,所述摘要视频1109或1112可以包括描绘所选择的人的图像130的子集。在一个实施例中,可以从在所述原始视频1106中描绘所选择的人的所有图像130中随机选择所述摘要视频1109或1112中包括的图像130的子集。在一个实施例中,可以基于在所述原始视频中描绘所选择的人的图像130中的每一个的图像130的总分285来选择所述摘要视频1109或1112中包括的图像130的子集。在一个实施例中,可以采用与以上结合图3至图10描述的方式类似的方式计算所述图像130中的每一个的图像130的总分285。
在另一实施例中,可以仅基于所选择的人计算总分285,其中,将所述图像作为单人肖像图像130进行分析,而不需要考虑所述图像130的组属性或所述图像中任何其它人的特征属性225、通用属性270、位置属性260或动作行为属性266。在一个实施例中,所述图像130中除所选择的人之外的人可以视为图像的背景特征,因此,可以仅基于客观特征进行分析。可以不评估所述图像130中除所选择的人之外的其它人的主观特征而考虑在所述总分285中。下面结合图13进一步描述仅基于所选择的人计算图像130的总分285的示例。
在所述摘要视频1109或1112的封面图像1117B至1117C的左下角描绘的缩略图1115A或1115B可以指示特定摘要视频1109或1112的所选择的人。如图11所示,所述摘要视频1109包括所述摘要视频1109的封面图像1117B的左下角的缩略图1115A。类似地,所述摘要视频1112包括所述摘要视频1112的封面图像1117C的左下角的缩略图1115B。
可以基于相应摘要视频1109和1112的总分285从作为所述相应摘要视频1109和1112的一部分的所述图像130中选择所述摘要视频1109和1112的封面图像1117B至1117C中的每一个封面图像。在一个实施例中,可以采用与以上描述的用于作为视频的一部分的多人肖像图像130类似的方法计算所述摘要视频1109或1112的总分285。在一个实施例中,可以通过将所述摘要视频1109或1112中的所述图像130作为单个人肖像图像130进行分析,并忽略所述摘要视频1109或1112中的图像130中除了所述摘要视频1109或1112的所选择的人之外的所有其它人,来计算所述摘要视频1109或1112的总分285。
下面结合图13进一步描述将所述摘要视频1109或1112中的图像130作为单人肖像图像130进行分析的示例。在一个实施例中,当用户从所述相册1103中选择图像130、原始视频1106或摘要视频1109和1112时,所述用户可以重定向到所选择的视频或图像130对应的信息页面。
图12为本公开的各种实施例提供的摘要视频1109的信息页面1200的示意图。如上所述,所述信息页面1200包括与所描述的视频相关联的若干类型的细节,在这种情况下,所述视频是所述摘要视频1109。如图12所示,所述摘要视频1109的信息页面1200包括封面图像1117B、描述1211、所述摘要视频1109中描绘的各种人的缩略图1115A至1115E、到其它摘要视频1206和1209的链接、以及所述其它摘要视频1206和1209的相应描述1217A和1217B。应理解,所述信息页面1200可以包括图12中未示出的附加信息。
所述信息页面1200的顶部示出所述封面图像1117B,如上所述,可以基于所述图像130选择所述封面图像1117B,所述图像130是具有最高总分285的所述摘要视频1109的一部分。如上所述,可以将所述总分285评分为作为所述摘要视频1109的一部分的多人肖像图像130的集合,或者可以将所述总分285评分为作为所述摘要视频1109的一部分的单人肖像图像130的集合。
所述描述1211包括描述所述摘要视频1109的数据或信息。例如,所述描述1211可以包括视频的名称、视频的长度1214A、记录或接收所述摘要视频1109的位置、到所述摘要视频1109所基于的原始视频1106的链接和/或与所述摘要视频1109相关联的其它数据或元数据。所述缩略图1115A至1115E可以是所述摘要视频1109中示出的各种人的头像。
在一个实施例中,用于所述缩略图1115A至1115E的头像是直接从所述摘要视频1109中的图像130中的一个图像130中获取的相应的人的裁剪图像。在一个实施例中,用户可以从之前已保存在所述计算设备200中的其它视频或图像预配置用于所述缩略图1115A至1115E的头像。
在一个实施例中,当描绘特定人的所述摘要视频1109中存在大于或等于阈值数量的图像130时,特定人的缩略图1115A至1115E可以仅包括在所述信息页面1200中。在一个实施例中,不存在此类阈值,可以为所述摘要视频1109中的每一个人呈现所述缩略图1115A至1115E。这样,尽管图12中仅示出了五个缩略图1115A至1115E,但应理解,所述信息页面1200中可以包括任何数量的人的缩略图1115A至1115E。在一个实施例中,示出所述缩略图1115A至1115E的所述信息页面1200的一部分可以用于水平左右滚动以访问与所述摘要视频1109相关的所有所述缩略图1115A至1115E。在一个实施例中,示出所述缩略图1115A至1115E的所述信息页面1200的一部分可以用于垂直上下滚动以访问与所述摘要视频1109相关的所有所述缩略图1115A至1115E。
在一个实施例中,这些缩略图1115A至1115E中的每一个缩略图可以是到另一摘要视频1109或1112的链接,所述摘要视频聚焦于所述缩略图1115A至1115E对应的人。如图12所示,所述缩略图1115A是指所述摘要视频1109的中心人物或主角的男子。因此,所述缩略图1115A可以不是到任何其它摘要视频1109或1112的链接。但是,所述缩略图1115B至1115E可以是到其它摘要视频1109或1112的链接。例如,所述缩略图1115B示出所述摘要视频1109中包括的少女的缩略图图像。在一个实施例中,当用户单击所述缩略图1115B时,可以创建新摘要视频1109或1112。所述新摘要视频1109或1112可以包括来自包括所述缩略图1115B示出的少女的所述原始视频1106的图像130,或来自包括所述缩略图1115B示出的少女的所述摘要视频1109的图像130。
类似地,所述缩略图1115C示出所述摘要视频1109中包括的女学生的缩略图图像。在一个实施例中,当用户单击所述缩略图1115C时,可以创建新摘要视频1109或1112。所述新摘要视频1109或1112可以包括来自包括所述缩略图1115C示出的女学生的所述原始视频1106的图像130,或来自包括所述缩略图1115C示出的女学生的所述摘要视频1109的图像130。
所述缩略图1115D示出了所述摘要视频1109中包括的小男孩的缩略图图像。在一个实施例中,当用户单击所述缩略图1115D时,可以创建新摘要视频1109或1112。所述新摘要视频1109或1112可以包括来自包括所述缩略图1115D示出的小男孩的所述原始视频1106的图像130,或来自包括所述缩略图1115D示出的小男孩的所述摘要视频1109的图像130。
所述缩略图1115E示出了所述摘要视频1109中包括的妇女的缩略图图像。在一个实施例中,当用户单击所述缩略图1115E时,可以创建新摘要视频1109或1112。所述新摘要视频1109或1112可以包括来自包括所述缩略图1115E示出的妇女的所述原始视频1106的图像130,或来自包括所述缩略图1115E示出的妇女的所述摘要视频1109的图像130。
所述信息页面1200的底部示出了到其它摘要视频1206和1209的链接。到所述其它摘要视频1206和1209的链接也可以与所述摘要视频1109的所选择的人相关联,但可以具有不同的长度1214A和1214B,因此是不同的视频。例如,所述摘要视频1206的长度1214A为10秒,所述摘要视频1209的长度1214B为56秒,所述长度足以包括来自所述原始视频1106的所有图像130,所述原始视频1106包括所述缩略图1115A示出的男子(例如,没有为视频设置最大长度)。
具有最大长度的所述摘要视频1206可以包括来自所述原始视频1106的图像130,所述图像130的总分285大于阈值分数。所述阈值分数可以由用户预先设置并周期性变化,或者由计算设备预先配置。所述原始视频1106中的所述图像130中的每一个图像130的总分285可以基于所述图像130是多人肖像图像130进行计算,或者基于所述图像是单人肖像图像130进行计算,其中评估的单个人是所选择的人。在所述摘要视频1206的情况下,正在评估的单个人是所述缩略图1115A示出的男子。
所述信息页面1200可以以各种方式在所述计算设备200的显示器上显示。在一个实施例中,当用户从所述相册1103中选择视频时,所述视频本身可以在所述计算设备200的显示器上显示。在显示所述视频的屏幕的底部可以显示一个向上滚动链接。用户可以选择所述向上滚动链接,以显示所述信息页面1200。例如,所述用户可以向上滑动所述向上滚动链接,以显示特定视频的信息页面1200。类似地,可以存在与视频相关联的任何类型的链接,用户可以选择所述链接来访问与所述视频相关联的信息页面1200。
图13为本公开的各种实施例提供的将示出多个人的图像130评估为单人肖像图像130的方法的图像1300的示意图。图13中示出的所述图像1300与所述封面图像1117B类似,但称为图像1300,用于论述如何将所述图像1300分析为单人肖像图像1300。
如图13所示,所述图像1300是多人肖像图像1300,其中多个人1303A至1303G是所述图像1300的中心焦点,而不是背景或风景是所述图像1300的中心焦点。基于以上关于图3至图10所论述的进行肖像图像评估的方法,基于所述多人肖像图像中示出的每个人的若干不同属性251来对所述多人肖像图像1300进行评估和评分。例如,当基于以上关于图3至图10所论述的执行肖像图像评估的方法来评估图13中所示出的所述图像1300时,所述多人肖像图像1300中所示出的所有人的组属性265以及所述多人肖像图像1300中所示出的每个人的特征属性255、通用属性270、位置属性260和动作行为属性266用于创建总分285。
在一个实施例中,当用户选择所述图像1300中的单个人作为所述图像1300(也可以是视频的一部分)的中心焦点或主角时,所述图像1300可以评分为单人肖像图像1300,即使所述图像1300是多个人肖像图像1300也是如此。在这种情况下,所述图像1300的评估可以仅涉及所选择的人的特征属性255、通用属性270、位置属性260和动作行为属性266的分析。可以不必为了评分而考虑所述图像1300中的其它人的特征属性255、通用属性270、位置属性260和动作行为属性266。也可以不必为了评分而考虑所述组属性265。相反,所述图像1300中示出除了所选择的人之外的其它人的部分可以视为所述图像1300的背景。如上所述,可以评估所述图像的背景的客观特征,例如亮度、对比度、饱和度、锐度、色调和色彩。所述图像1300中的其它人的主观特征与为所述图像1300计算的所述总分285无关。
参照图13中示出的图像1300,所述图像1300显然是示出七个人1303A至1303G的多人肖像图像1300。但是,当用户选择这些人中的一个人作为所述图像1300的中心焦点或主角时,可以基于所选择的人将所述图像1300评估为单个人肖像图像1300并对其评分。所述用户可将所述人1303A至1303G选择为所述图像1300的主角,从而选择为所述图像1300的评估的焦点。即,所述用户只关心所述图像中的所选择的人的质量。所述图像1300中的其它人的质量可能无关紧要。
例如,假设所述用户将人1303A(对应于所述缩略图1115A示出的男子)选择为所述图像1300的焦点,以计算所述图像1300的所述总分285。在这种情况下,所述总分285可以基于为所述用户选择的人1303A的特征属性255、通用属性270、位置属性260和/或动作行为属性266计算的分数280。如以上关于图3至图10所描述的,所述分数280可以基于所选择的的人1303A的感兴趣区域以及基于所述训练数据120。
在这种情况下,不对其它人1303B至1303G进行分析或评分,从而不对所述总分285作出贡献。也不考虑定义所述人1303A至1303G之间的排布和空间关系的组属性265。相反,将所述图像1300的示出其它人1303B至1303G的部分视为所述图像1300的背景,还基于所述训练数据120对所述图像1300的背景的客观因素进行评分并将其因素化为所述图像1300的总分285。
中心焦点为所选择的人1303A的图像1300的所述总分285的分数可以比中心焦点为人1303G的图像1300的总分285高。所述图像1300中示出的所述人1303A具有比所述人1303G更好的特征属性255和位置属性260。例如,所述人1303A聚焦在摄像头上并且正在与所述摄像头进行眼神接触,这可以与对应于所述人1303A的面部的感兴趣区域的高分数280相关联。类似地,所述人1303A的身体也正对着所述摄像头,这也可以与对应于所述人1303A的身体的感兴趣区域的高分数280相关联。所述肖像图像分析模块125可以使用所述训练数据120确定这些高分数280。
相反,所述人1303G不面对所述摄像头且不聚焦在所述摄像头上,这可以与对应于所述人1303G的面部的感兴趣区域的较低分数280相关联。所述肖像图像分析模块125也可以使用所述训练数据120确定所述低分数。
这样,基于所选择的人1303A至1303G,同一图像1300可以具有不同的总分285。在为所选择的不同的人1303A至1303G创建摘要视频1109和1112时,可以不同地应用这些不同的总分285。如上所述,具有最大长度的摘要视频1109可限于具有高于阈值的总分285的图像1300。因此,所选择的人1303A的最大长度的摘要视频1109或1112可以包括所述图像1300,因为具有人1303A中心焦点的图像1300的总分285较高。但是,所选择的人1303G的最大长度的摘要视频1109或1112可以不包括(例如,排除)所述图像1300,因为具有人1303G中心焦点的图像1300的总分285较低。
图14为本公开的各种实施例提供的基于图像中描绘的人执行肖像图像分析的方法1400的流程图。所述方法1400可以由所述肖像图像分析模块125在获得图像130或1300之后执行,所述图像130或1300将基于将成为所述图像130的中心焦点或主角的特定的人进行分析和评分。在一个实施例中,可以接收对在所述图像130或1300中显示的人1303A的选择。在一个实施例中,所述图像130或1300可以是多人肖像图像。所述处理器205接收对在所述图像130或1300中显示的人1303A的选择。在步骤1406中,确定分别描述对应于所述图像130或1300中显示的人的身体部位的多个感兴趣区域的多个属性251。所述处理器205执行所述肖像图像分析模块125以基于在所述图像130中识别的部分确定所述图像130或1300中的所述属性251。所识别的属性251可以是特征属性255、位置属性260、通用属性270、组属性265、动作行为属性266、所述图像130的客观特征和/或描述所述图像130的其它特征。
在步骤1409中,可以确定所述属性251中的每一个属性251的相应分数280。所述处理器205执行所述肖像图像分析模块125以基于存储在所述训练数据120中的预定义分数252确定所述属性251中的每一个属性的相应分数280。所述预定义分数252是基于所述原型图像123对各种属性的预设分数。在一些实施例中,可以根据为正在评分的属性251中的每一个属性分配的权重290对这些分数280中的每一个分数进行加权。在一个实施例中,所述属性251中的每一个属性的权重290基于所述训练数据120中包括的预定义权重253。
在步骤1412中,基于所述属性251的相应分数280计算总分285。所述处理器205执行所述肖像图像分析模块125以基于所述属性251的所述相应分数280和包括所述多个其它人1303B至1303G的所述图像的背景计算所述总分285。所述总分285可以是所选择的人1303A的属性251的分数280的集合。所述总分285也可以是根据所述属性251的权重290进行加权后的分数280的集合。所述总分285也可以基于分数280,所述分数280是基于所述训练数据120分配给所述图像130的背景的,其中所述图像130的背景包括多个其它人1303B至1303G。
图15为本公开的各种实施例提供的基于所选择的人创建摘要视频1109或112的方法1500的流程图。所述方法1400可以由所述肖像图像分析模块125在获得图像130或1300之后执行,所述图像130或1300将基于将成为所述图像130的中心焦点或主角的特定的人进行分析和评分。
可以在开启所述计算设备200的任何时候创建所述摘要视频1109和1112。在一个实施例中,可以基于用户对所述图像130或1300中显示的人1303A的选择创建所述摘要视频1109和1112。在一个实施例中,可以接收对所述图像130或1300中显示的人1303A的选择,所述图像可以是视频中包括的多个图像130中的一个图像130。本实施例中,所述图像130或1300可以为多人肖像图像。所述处理器205接收对在所述图像130或1300中显示的人1303A的选择。
在一个实施例中,可以自动创建所述摘要视频1109和1112,作为所述计算设备200的背景活动,而用户无需选择所述图像中显示的人1303A。在本实施例中,当所述计算设备200充电时或处于空闲状态时(例如,屏幕熄灭且用户没有使用所述计算设备200),所述处理器205可以用于后台创建所述摘要视频1109。在所述计算设备200的屏幕或显示器亮着的情况下,可以在所述计算设备200的显示器上显示通知,以指示正在创建或已经创建所述摘要视频1109和112。
在步骤1503中,从视频中确定包括所述人1303A的多个图像130或1300中的一个或多个图像。基于所述多个图像130或1300中的每一个图像的总分285确定所述多个图像130或1300中的一个或多个图像。可以仅基于所选择的人1303A的属性251计算所述总分285。所述处理器205可以用于确定所述多个图像130或1300中的一个或多个图像,所述多个图像130或1300包括基于所述多个图像130或1300中的每一个图像的总分285选择的人1303A。
在步骤1509中,可以组合所述多个图像130或1300中的一个或多个图像以创建所选择的人1303A的摘要视频1109或1112。例如,所述处理器205可以组合所述多个图像130或1300中的一个或多个图像以创建所选择的人1303A的摘要视频1109或1112。虽然本公开中已提供若干实施例,但应理解,在不脱离本公开的精神或范围的情况下,所公开的系统和方法可以以多种其它特定形式来体现。当前的示例应视为说明性而非限制性的,且意图不限于本文所给出的细节。可以在另一系统中组合或集成各种元件或组件,或者可以省略或不实现某些特征。
在一个实施例中,装置包括:用于确定多个属性的器件,每个属性分别描述对应于图像中示出的人的身体部分的感兴趣区域;用于确定所述多个属性中的每一个属性的相应分数的器件;用于基于所述多个属性的所述相应分数计算总分的器件。
在一个实施例中,装置包括:用于从视频中确定包括人的多个图像中的一个或多个图像的器件;用于组合包括所述人的所述多个图像中的一个或多个图像以创建所述人的摘要视频的器件。
另外,在不偏离本公开的范围的情况下,各种实施例中描述及图示为独立或分离的技术、系统、子系统和方法可以与其它系统、模块、技术或方法组合或集成。示出或论述为耦合的其它项可以直接耦合或者可以采用电方式、机械方式或其它方式通过一些接口、设备或中间组件间接地耦合或通信。改变、替换和变更的其它示例可以由本领域技术人员确定,并可在不偏离本文公开的精神和范围的情况下举例。

Claims (42)

1.一种计算设备实现的方法,其特征在于,所述方法包括:
所述计算设备确定多个属性,每个属性分别描述对应于图像中显示的人的身体部位的感兴趣区域;
所述计算设备确定所述多个属性中的每一个属性的相应分数;
所述计算设备基于所述多个属性的相应分数计算总分。
2.根据权利要求1所述的方法,其特征在于,响应于接收到对所述图像中显示的所述人的选择,确定所述人,所述图像显示所述人和多个其它人。
3.根据权利要求1和2中任一项所述的方法,其特征在于,基于在所述图像中检测到的所述人的面部确定所述人。
4.根据权利要求1至3中任一项所述的方法,其特征在于,基于包括所述多个属性中的每一个属性的多个预定义分数的训练数据确定所述多个属性中的每一个属性的所述相应分数。
5.根据权利要求4所述的方法,其特征在于,所述训练数据包括多个映射,所述多个映射分别将所述多个预定义分数中的一个预定义分数映射到多个预定义属性中的一个预定义属性。
6.根据权利要求1至5中任一项所述的方法,其特征在于,所述图像是视频中包括的多个图像中的一个图像,所述方法还包括:
所述计算设备确定包括所述人的所述多个图像中的一个或多个图像;
所述计算设备组合包括所述人的所述多个图像中的一个或多个图像,以创建所述人的摘要视频,其中,基于所述多个图像中的每一个图像的所述总分选择所述摘要视频中包括的所述多个图像,基于所述人的属性计算所述总分。
7.根据权利要求6所述的方法,其特征在于,基于所述人的通用属性和位置属性计算所述总分。
8.根据权利要求1至7中任一项所述的方法,其特征在于,当所述图像显示所述人和多个其它人时,所述方法还包括:所述计算设备确定所述图像的背景的分数,其中,所述图像的所述背景包括所述多个其它人,进一步基于所述图像的所述背景的所述分数计算所述总分。
9.根据权利要求1至8中任一项所述的方法,其特征在于,所述方法还包括:所述计算设备基于所述身体部位位于所述图像内某位置的可能性,搜索对应于所述图像中描绘的所述人的不同身体部位的所述感兴趣区域。
10.根据权利要求9所述的方法,其特征在于,搜索所述感兴趣区域包括基于训练数据搜索所述感兴趣区域,其中,所述训练数据包括指向所述图像中特定部分或点的预定义锚点。
11.根据权利要求9所述的方法,其特征在于,搜索所述感兴趣区域包括基于所述图像中的所述人的面部位置搜索与所述人的眼睛、所述人的鼻子或所述人的嘴部中的至少一个对应的感兴趣区域。
12.根据权利要求1至11中任一项所述的方法,其特征在于,针对多个属性分别存储多个预定义分数,确定所述多个属性中每一个属性的所述相应分数包括在训练数据中搜索对应于为所述感兴趣区域确定的属性的预定义分数。
13.根据权利要求1至12中任一项所述的方法,其特征在于,所述多个属性包括分别描述对应于所述感兴趣区域的位置信息的多个位置属性。
14.根据权利要求1至13中任一项所述的方法,其特征在于,所述多个属性包括所述图像中描绘的所述人的多个通用属性,所述多个通用属性描述所述人的综合质量。
15.根据权利要求1至14中任一项所述的方法,其特征在于,当所述图像描绘多于一个人时,所述方法还包括:所述计算设备确定多个组属性中的每一个组属性的相应分数,其中,所述多个组属性分别描述以下至少一个:所述图像中描绘的多个其它人之间的关系、所述图像中描绘的所述多个其它人中的每一个人之间的空间、所述图像中的所述多个其它人中的一个或多个人摆出的姿势、或所述图像中描绘的所述多个其它人的排布,进一步基于所述多个组属性的所述相应的分数计算所述总分。
16.根据权利要求1至15中任一项所述的方法,其特征在于,权重与所述多个属性中的每一个属性相关联,其中,所述相应属性的权重应用于所述相应属性的所述相应分数,以为所述相应属性创建加权分数,基于每个所述相应属性的每个所述加权分数的集合计算所述总分。
17.一种计算设备实现的方法,其特征在于,所述方法包括:
所述计算设备从视频中确定包括人的多个图像中的一个或多个图像;
所述计算设备组合包括所述人的所述多个图像中的一个或多个图像,以创建所述人的摘要视频。
18.根据权利要求17所述的方法,其特征在于,所述方法还包括所述计算设备接收对所述人的选择。
19.根据权利要求17至18中任一项所述的方法,其特征在于,响应于在所述多个图像中的一个或多个图像中检测到所述人的面部,确定所述人。
20.根据权利要求17至19中任一项所述的方法,其特征在于,基于所述多个图像中的每一个图像的总分确定包括所述人的所述多个图像中的一个或多个图像。
21.根据权利要求20所述的方法,其特征在于,基于多个属性计算所述总分,每个属性分别描述对应于所述人的身体部位的感兴趣区域。
22.根据权利要求21所述的方法,其特征在于,所述人的所述多个属性包括分别描述对应于所述感兴趣区域的位置信息的多个位置属性。
23.根据权利要求21所述的方法,其特征在于,所述人的所述多个属性包括所述人的多个通用属性,所述多个通用属性描述所述人的综合质量。
24.根据权利要求17至23中任一项所述的方法,其特征在于,基于第一多个属性和第二多个属性确定包括所述人的所述多个图像,所述第一多个属性中的每一个属性分别描述对应于所述人的身体部位的感兴趣区域,所述第二多个属性中的每一个属性的权重低于所述第一多个属性。
25.根据权利要求17至24中任一项所述的方法,其特征在于,所述方法还包括:
所述计算设备创建表示所述人的所述摘要视频的缩略图,所述缩略图包括示出所述人的面部的图像;
所述计算设备显示所述缩略图。
26.根据权利要求17至25中任一项所述的方法,其特征在于,通过将一个或多个过渡图像添加到所述多个图像中的一个或多个图像,组合包括所述人的所述多个图像中的一个或多个图像。
27.根据权利要求17至26中任一项所述的方法,其特征在于,自动创建所述摘要视频,作为所述计算设备的背景活动。
28.根据权利要求17至27中任一项所述的方法,其特征在于,所述方法包括:所述计算设备显示通知,以指示正在创建或已创建所述摘要视频。
29.一种装置,其特征在于,所述装置包括:
存储器,所述存储器包括指令;
一个或多个处理器,所述一个或多个处理器与所述存储器通信,所述一个或多个处理器执行所述指令以:
确定多个属性,每个属性分别描述对应于图像中显示的人的身体部位的感兴趣区域;
确定所述多个属性中的每一个属性的相应分数;
基于所述多个属性的所述相应分数计算总分。
30.根据权利要求29所述的装置,其特征在于,响应于接收到对所述图像中显示的所述人的选择,确定所述人,所述图像显示所述人和多个其它人。
31.根据权利要求29至30中任一项所述的装置,其特征在于,基于在所述图像中检测到的所述人的面部确定所述人。
32.根据权利要求29至31中任一项所述的装置,其特征在于,基于包括所述多个属性中的每一个属性的多个预定义分数的训练数据确定所述多个属性中的每一个属性的所述相应分数。
33.根据权利要求29至32中任一项所述的装置,其特征在于,所述一个或多个处理器还执行所述指令,以基于所述身体部位位于所述图像内某位置的可能性,搜索对应于所述图像中描绘的所述人的不同身体部位的所述感兴趣区域。
34.根据权利要求29至33中任一项所述的装置,其特征在于,当所述图像描绘多于一个人时,所述一个或多个处理器还执行所述指令以确定多个组属性中的每一个组属性的相应分数,其中,所述多个组属性分别描述以下至少一个:所述图像中描绘的多个其它人之间的关系、所述图像中描绘的所述多个其它人中的每一个人之间的空间、所述图像中的所述多个其它人中的一个或多个人摆出的姿势、或所述图像中描绘的所述多个其它人的排布,进一步基于所述多个组属性的所述相应的分数计算所述总分。
35.一种装置,其特征在于,所述装置包括:
存储器,所述存储器包括指令;
一个或多个处理器,所述一个或多个处理器与所述存储器通信,所述一个或多个处理器执行所述指令以:
从视频中确定包括人的多个图像中的一个或多个图像;
组合包括所述人的所述多个图像中的一个或多个图像,以创建所述人的摘要视频。
36.根据权利要求35所述的装置,其特征在于,所述一个或多个处理器还执行所述指令以接收对所述人的选择。
37.根据权利要求35至36中任一项所述的装置,其特征在于,所述一个或多个处理器还执行所述指令以检测所述多个图像中的一个或多个图像中的所述人的面部,响应于检测到所述人的所述面部确定所述人。
38.根据权利要求35至37中任一项所述的装置,其特征在于,基于所述多个图像中的每一个图像的总分确定包括所述人的所述多个图像中的一个或多个图像。
39.根据权利要求38所述的装置,其特征在于,基于多个属性计算所述总分,每个属性分别描述对应于所述人的身体部位的感兴趣区域。
40.根据权利要求35至39中任一项所述的装置,其特征在于,所述一个或多个处理器还执行所述指令,以创建表示所述人的所述摘要视频的缩略图,所述缩略图包括示出所述人的面部的图像;并使显示设备显示所述缩略图。
41.根据权利要求35至40中任一项所述的装置,其特征在于,自动创建所述摘要视频,作为所述计算设备的背景活动。
42.根据权利要求35至41中任一项所述的装置,其特征在于,当所述计算设备充电时自动创建所述摘要视频。
CN201980047053.XA 2018-07-13 2019-07-08 基于美学的肖像图像评估 Pending CN112424792A (zh)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US16/034,693 2018-07-13
US16/034,693 US10929655B2 (en) 2018-07-13 2018-07-13 Portrait image evaluation based on aesthetics
US16/131,681 US11222208B2 (en) 2018-07-13 2018-09-14 Portrait image evaluation based on aesthetics
US16/131,681 2018-09-14
PCT/CN2019/095032 WO2020011124A1 (en) 2018-07-13 2019-07-08 Portrait image evaluation based on aesthetics

Publications (1)

Publication Number Publication Date
CN112424792A true CN112424792A (zh) 2021-02-26

Family

ID=69139496

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201980047053.XA Pending CN112424792A (zh) 2018-07-13 2019-07-08 基于美学的肖像图像评估

Country Status (4)

Country Link
US (1) US11222208B2 (zh)
EP (1) EP3740895A4 (zh)
CN (1) CN112424792A (zh)
WO (1) WO2020011124A1 (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111246272A (zh) * 2020-01-17 2020-06-05 北京达佳互联信息技术有限公司 视频封面图的显示方法及装置
CN112330631B (zh) * 2020-11-05 2021-06-04 哈尔滨市科佳通用机电股份有限公司 一种铁路货车制动梁支柱拉铆销套环丢失故障检测方法
CN113158777A (zh) * 2021-03-08 2021-07-23 佳都新太科技股份有限公司 质量评分方法、质量评分模型的训练方法及相关装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101790047A (zh) * 2009-01-28 2010-07-28 索尼公司 图像处理设备、图像管理设备和图像管理方法及程序
US20120278155A1 (en) * 2011-03-29 2012-11-01 Patrick Faith Using mix-media for payment authorization
US20140153832A1 (en) * 2012-12-04 2014-06-05 Vivek Kwatra Facial expression editing in images based on collections of images
US20160239711A1 (en) * 2013-10-18 2016-08-18 Vision Semanatics Limited Visual Data Mining
CN107644213A (zh) * 2017-09-26 2018-01-30 司马大大(北京)智能系统有限公司 视频人物提取方法及装置

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7627831B2 (en) * 2006-05-19 2009-12-01 Fuji Xerox Co., Ltd. Interactive techniques for organizing and retrieving thumbnails and notes on large displays
JP4775306B2 (ja) * 2007-04-23 2011-09-21 ソニー株式会社 画像処理装置、撮像装置、および画像表示制御方法、並びにコンピュータ・プログラム
US8311364B2 (en) 2009-09-25 2012-11-13 Eastman Kodak Company Estimating aesthetic quality of digital images
US8774526B2 (en) 2010-02-08 2014-07-08 Microsoft Corporation Intelligent image search results summarization and browsing
JP2012038131A (ja) * 2010-08-09 2012-02-23 Sony Corp 情報処理装置、および情報処理方法、並びにプログラム
US9110923B2 (en) 2011-03-03 2015-08-18 Google Inc. Ranking over hashes
US8594385B2 (en) * 2011-04-19 2013-11-26 Xerox Corporation Predicting the aesthetic value of an image
JP5752585B2 (ja) 2011-12-16 2015-07-22 株式会社東芝 映像処理装置、方法及びプログラム
US20140029808A1 (en) 2012-07-23 2014-01-30 Clicrweight, LLC Body Condition Score Determination for an Animal
US9373057B1 (en) * 2013-11-01 2016-06-21 Google Inc. Training a neural network to detect objects in images
US9400925B2 (en) * 2013-11-15 2016-07-26 Facebook, Inc. Pose-aligned networks for deep attribute modeling
JP2015204561A (ja) * 2014-04-15 2015-11-16 株式会社デンソー 情報提示システム、及び、提示装置
GB201501510D0 (en) * 2015-01-29 2015-03-18 Apical Ltd System
CN104834898B (zh) 2015-04-09 2018-05-15 华南理工大学 一种人物摄影图像的质量分类方法
US20170031952A1 (en) * 2015-07-28 2017-02-02 The Toronto-Dominion Bank Method and system for identifying a property for purchase using image processing
US10002415B2 (en) 2016-04-12 2018-06-19 Adobe Systems Incorporated Utilizing deep learning for rating aesthetics of digital images
CN106600530B (zh) * 2016-11-29 2019-02-15 北京小米移动软件有限公司 照片合成方法及装置
US10521705B2 (en) * 2017-11-14 2019-12-31 Adobe Inc. Automatically selecting images using multicontext aware ratings
US10628432B2 (en) 2018-02-19 2020-04-21 Microsoft Technology Licensing, Llc Personalized deep models for smart suggestions ranking

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101790047A (zh) * 2009-01-28 2010-07-28 索尼公司 图像处理设备、图像管理设备和图像管理方法及程序
US20120278155A1 (en) * 2011-03-29 2012-11-01 Patrick Faith Using mix-media for payment authorization
US20140153832A1 (en) * 2012-12-04 2014-06-05 Vivek Kwatra Facial expression editing in images based on collections of images
US20160239711A1 (en) * 2013-10-18 2016-08-18 Vision Semanatics Limited Visual Data Mining
CN107644213A (zh) * 2017-09-26 2018-01-30 司马大大(北京)智能系统有限公司 视频人物提取方法及装置

Also Published As

Publication number Publication date
EP3740895A4 (en) 2021-03-17
US20200019784A1 (en) 2020-01-16
US11222208B2 (en) 2022-01-11
EP3740895A1 (en) 2020-11-25
WO2020011124A1 (en) 2020-01-16

Similar Documents

Publication Publication Date Title
US9367756B2 (en) Selection of representative images
US9299004B2 (en) Image foreground detection
US9330334B2 (en) Iterative saliency map estimation
US8958662B1 (en) Methods and systems for automating insertion of content into media-based projects
US9329762B1 (en) Methods and systems for reversing editing operations in media-rich projects
US9219830B1 (en) Methods and systems for page and spread arrangement in photo-based projects
JP5857133B2 (ja) 顔検出を使用した画像の再構成
US10019823B2 (en) Combined composition and change-based models for image cropping
US8990672B1 (en) Flexible design architecture for designing media-based projects in a network-based platform
US8917943B2 (en) Determining image-based product from digital image collection
US9082013B2 (en) Image recognition device, image recognition method, program, and integrated circuit
CN102207950B (zh) 电子装置和图像处理方法
WO2014056112A1 (en) Intelligent video thumbnail selection and generation
CN103988202A (zh) 基于索引和搜索的图像吸引力
US20150317510A1 (en) Rating photos for tasks based on content and adjacent signals
CN112424792A (zh) 基于美学的肖像图像评估
CN105684046B (zh) 生成图像组成
US8831360B2 (en) Making image-based product from digital image collection
US10929655B2 (en) Portrait image evaluation based on aesthetics
JP5878523B2 (ja) コンテンツ加工装置とその集積回路、方法、およびプログラム
JP2014092955A (ja) 類似コンテンツ検索処理装置、類似コンテンツ検索処理方法、およびプログラム
Kuzovkin et al. Image selection in photo albums
US20130050744A1 (en) Automated photo-product specification method
CN114092495B (zh) 图像展示方法、电子设备、存储介质
CN111324759A (zh) 图片排序处理方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination