CN111008971B - 一种合影图像的美学质量评价方法及实时拍摄指导系统 - Google Patents

一种合影图像的美学质量评价方法及实时拍摄指导系统 Download PDF

Info

Publication number
CN111008971B
CN111008971B CN201911343106.0A CN201911343106A CN111008971B CN 111008971 B CN111008971 B CN 111008971B CN 201911343106 A CN201911343106 A CN 201911343106A CN 111008971 B CN111008971 B CN 111008971B
Authority
CN
China
Prior art keywords
image
feature
group photo
person
face
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911343106.0A
Other languages
English (en)
Other versions
CN111008971A (zh
Inventor
柯永振
王耀艇
张翠娇
王凯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianjin Polytechnic University
Original Assignee
Tianjin Polytechnic University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin Polytechnic University filed Critical Tianjin Polytechnic University
Priority to CN201911343106.0A priority Critical patent/CN111008971B/zh
Publication of CN111008971A publication Critical patent/CN111008971A/zh
Application granted granted Critical
Publication of CN111008971B publication Critical patent/CN111008971B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/0002Inspection of images, e.g. flaw detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • G06V40/169Holistic features and representations, i.e. based on the facial image taken as a whole
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • G06V40/171Local features and components; Facial parts ; Occluding parts, e.g. glasses; Geometrical relationships
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/172Classification, e.g. identification
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules
    • H04N23/61Control of cameras or camera modules based on recognised objects
    • H04N23/611Control of cameras or camera modules based on recognised objects where the recognised objects include parts of the human body
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30168Image quality inspection

Landscapes

  • Engineering & Computer Science (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Data Mining & Analysis (AREA)
  • Signal Processing (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Image Processing (AREA)

Abstract

本发明提供了一种合影图像的美学质量评价方法及实时拍摄指导系统,属于图像处理领域。该合影图像的美学质量评价方法包括:(1)利用合影图像美学评价数据集获得最优分类模型和最优回归模型;所述合影图像美学评价数据集包括多张图像以及每张图像对应的评价标签;(2)利用所述最优分类模型、最优回归模型得到待测合影图像的评价标签。本发明解决了合影图像的美学质量评价问题,引入了符合合影规则的特定特征使得对合影图像美学质量的评估更加准确;并且本发明提供了合影拍摄的实时指导系统及方法,能够实时指导用户提高合影拍摄质量。

Description

一种合影图像的美学质量评价方法及实时拍摄指导系统
技术领域
本发明属于图像处理领域,具体涉及一种合影图像的美学质量评价方法及实时拍摄指导系统。
背景技术
随着图像应用越来越广泛,传统的图像质量评价已经远远满足不了现实需求,图像美学质量评价(IAQA)孕育而生。图像美学质量评价就是利用计算机模拟人类对美的感知与认知,自动评价图像的“美感”,即图像美学质量的计算机评价。它主要针对拍摄或绘画的图像在构图、颜色、光影、景深、虚实等美学因素影响下形成的美感刺激做出响应。图像美学质量评价是当前非常活跃的研究主题之一。
在日常生活中,经常会碰到需要拍摄合影图像做留念的情况。如何评价一幅合影图像是否有美感,进一步地提供一种实时拍摄合影图像的指导系统,将变得非常有意义。然而目前的图像美学质量评价方法,主要关注构图、色彩、光影、景深等因素对整幅图像美感的影响,但是在合影这一特定场景中,人们关注的不仅仅是上述因素,还会将注意力放在人物本身,比如:是否有人闭眼、不看镜头、脸被遮挡、没有微笑等因素。在合影图像美学质量评价中若不考虑这些因素,则不能做出准确的评价。例如两张在同一个环境中的同一群人的合影照片,其中第一张照片中的所有人都看着镜头的,而第二张照片中有些人是没有看镜头的,如果只从构图、色彩、光影、景深等传统美学质量评价因素考虑,两幅图像的美学评分都很高,然而从人类对合影图像的一般性审美观点考虑,显然第二张照片不是好的合影图像。
然而现有的图像美学质量评价方法只对图像的一般美学特征评价有效,对于合影图像这一特定领域中的美学评价问题,达不到理想的效果,目前也还未发现针对合影图像的美学质量评价研究成果。
发明内容
本发明的目的在于解决上述现有技术中存在的难题,提供一种合影图像的美学质量评价方法及实时拍摄指导系统,实现相同场景下的多张合影照片的美学区分,能够更好地帮助摄影者拍摄合影照片。
本发明是通过以下技术方案实现的:
一种合影图像的美学质量评价方法,所述方法包括:
(1)利用合影图像美学评价数据集获得最优分类模型和最优回归模型;所述合影图像美学评价数据集包括多张图像以及每张图像对应的评价标签;
(2)利用所述最优分类模型、最优回归模型得到待测合影图像的评价标签。
所述评价标签包括:二值标签、分数标签;
所述二值标签包括:好、坏;
所述分数标签包括:1到10之间的浮点数。
所述步骤(1)的操作包括:
(11)准备合影图像美学评价数据集,并将合影图像美学评价数据集分为训练集和测试集,所述训练集包括多张训练图像,所述测试集包括多张测试图像;
(12)对训练图像、测试图像进行预处理得到预处理后的训练图像、测试图像;
(13)提取每张预处理后的训练图像、测试图像的特征,并将每张图像提取到的所有特征存入到一个对应该图像的特征向量中;
(14)获得最优分类模型和最优回归模型。
所述步骤(13)的操作包括:对每张图像分别进行以下处理:
(131)提取一般美学特征;
(132)提取合影特征;
(133)将步骤(131)提取到的一般美学特征和步骤(132)提取到的合影特征存入到一个向量中,该向量即为该图片的特征向量;
所述步骤(132)的操作包括:
(1321)假定在一张合影图像中检测出N张人脸,则将检测出的人脸序列表示如下:
F={fn1,fn2,fn3,……fni}i∈{1,2,3,……,N} (1)
提取出的面部信息包括:
人脸框左上角坐标、人脸框的高和宽、眼睛的不同状态的置信度、左、右眼视线方向向量、微笑程度m、头部姿势扭转角度γ、面部的不同部位的遮挡置信度、人物的位置坐标、面部模糊度b;
(1322)利用下式提取眼睛睁闭特征:
Figure BDA0002332624740000021
Figure BDA0002332624740000031
其中,Ei表示个人眼睛睁闭特征,S1表示不戴眼镜且睁眼、S2表示佩戴普通眼镜且睁眼、S3表示佩戴墨镜,Sr、Sl分别代表右、左眼的最终预测状态;f1为整体眼睛睁闭特征;“otherwise”表示其它情况,即不满足第一种条件的情况。
(1323)利用下式提取人脸遮挡特征:
Figure BDA0002332624740000032
Figure BDA0002332624740000033
其中,Oi表示个人遮挡特征,1为被遮挡,oj代表每一部分被遮挡的置信度,θj表示每一部分被遮挡的推荐阈值,
Figure BDA00023326247400000310
表示存在oj大于等于推荐阈值θj,f2为整体人脸遮挡特征;
(1324)利用下式提取头部姿势特征:
Figure BDA0002332624740000034
Figure BDA0002332624740000035
其中,Hi表示个人头部姿势特征,γ表示头部姿势扭转角度,f3为整体头部姿势特征;
(1325)利用下式提取视线特征:
Figure BDA0002332624740000036
Figure BDA0002332624740000037
pi表示画面中第i个人的视线汇聚点坐标,Rangei表示画面中第i个人看镜头的视线范围,f4为整体视线特征;
(1326)利用下式提取面部模糊特征:
Figure BDA0002332624740000038
Figure BDA0002332624740000039
其中Bi表示图中第i个人的个人面部模糊特征,值为1表示第i个人物面部模糊,b表示面部模糊度,v表示模糊度的阈值,f5为整体面部模糊特征;
(1327)利用下式提取微笑特征:
Figure BDA0002332624740000041
Figure BDA0002332624740000042
Mi为个人微笑特征,m表示微笑程度,w表示微笑程度的阈值,f6为整体微笑特征;
(1328)利用下式提取人物中心特征:
Figure BDA0002332624740000043
Figure BDA0002332624740000044
Figure BDA0002332624740000045
其中,Px表示图像中人物的横向平均位置的x轴坐标,xi表示第i个人的面部中心点的横坐标,W表示画面宽度,R表示人物中心相对于画面的位置,f7表示人物中心特征。
所述步骤(14)的操作包括:
分别利用步骤(13)获得的各个训练图像的特征向量及其对应的评价标签训练分类器和回归器,得到分类模型和回归模型;
然后将各个测试图像的特征向量分别输入到分类模型和回归模型中,分别利用分类模型和回归模型预测各个测试图像得到预测结果;
将预测结果与对应该测试图像的评价标签进行比较,分别分析分类模型、回归模型的准确性;
经过多次训练和分析后,选择准确性最高的分类模型作为最优分类模型,选择准确性最高的回归模型作为最优回归模型。
所述步骤(2)的操作包括:
(21)对待预测图像进行预处理得到预处理后的待预测图像;
(22)提取预处理后的待预测图像的一般美学特征和合影特征,得到待预测图像的特征向量;
(23)将待预测图像的特征向量输入到最优分类模型中,得到该待预测图像的二值标签,将待预测图像的特征向量输入到最优回归模型中,得到该待预测图像的分数标签。
本发明还提供了一套实时指导合影拍摄的系统,所述系统包括:场景识别模块、图像分析模块、指导拍摄模块、自动拍摄模块;
所述场景识别模块分析取景框画面中的人物个数,判断面向镜头的人数是否大于等于两人,如果是,则自动切换到合影模式,并激活图像分析模块,如果否,则保持在常规拍摄模式;
所述图像分析模块利用步骤(132)中的公式实时计算合影特征中的整体眼睛睁闭特征、整体人脸遮挡特征、整体视线特征、整体面部模糊特征、人物中心特征、整体微笑特征以及人物站位顺序,然后判断上述合影特征是否均为1且人物站位顺序满足设定的排序,如果是,则激活自动拍摄模块,如果否,则给出分析结果,并将分析结果传送给指导拍摄模块,同时激活指导拍摄模块;
所述指导拍摄模块根据图像分析模块发来的分析结果确定指导提示信息,并将指导提示信息显示在相机的屏幕上;
所述自动拍摄模块进行拍摄得到图像。
所述分析结果是这样获得的:
如果整体眼睛睁闭特征不为1,则将个人眼睛睁闭特征为0的人物的人脸框左上角坐标和人脸框的高和宽及其对应的个人眼睛睁闭特征存入到分析结果中;
如果整体人脸遮挡特征不为1,则将个人遮挡特征为1的人物的人脸框左上角坐标和人脸框的高和宽及其对应的个人遮挡特征存入到分析结果中;
如果整体视线特征不为1,则将个人视线特征为0的人物的人脸框左上角坐标和人脸框的高和宽及其对应的个人视线特征存入到分析结果中;
如果整体面部模糊特征不为1,则将个人面部模糊特征为1的人脸框左上角坐标和人脸框的高和宽及其对应的个人面部模糊特征存入到分析结果中;
如果人物中心特征的值不为1,则将图像中人物的横向平均位置的x轴坐标Px存入到分析结果中;
如果整体微笑特征不为1,则将个人微笑特征为0的人物的人脸框左上角坐标和人脸框的高和宽及其对应的个人微笑特征存入到分析结果中;
如果人物站位顺序不满足设定的排序,则将设定的排序和所有人物头顶的纵坐标y存入到分析结果中。
所述整体美感提示信息包括对焦提示、居中提示、站位提示;
如果分析结果中有:个人面部模糊特征为1,则指导拍摄模块在其对应的人物的位置处显示对焦提示;
如果分析结果中有:图像中人物的横向平均位置的x轴坐标Px,则指导拍摄模块计算Px与画面中心横坐标的相对方向,并显示居中提示;
如果分析结果中有:所有人物头顶的纵坐标y,则指导拍照模块根据设定的排序将y进行排序,并显示站位提示;
所述局部提示信息包括:闭眼提示、遮挡提示、看镜头提示、微笑提示;
如果分析结果中有:个人眼睛睁闭特征为0,则指导拍摄模块在其对应的人物的位置处显示闭眼提示;
如果分析结果中有:个人遮挡特征为1,则指导拍摄模块在其对应的人物的位置处显示遮挡提示;
如果分析结果中有:个人视线特征为0,则指导拍摄模块在其对应的人物的位置处显示看镜头提示;
如果分析结果中有:个人微笑特征为0,则指导拍摄模块在其对应的人物的位置处显示微笑提示。
本发明还提供了一种合影图像拍摄实时指导方法,包括:
(S1)分析取景框画面中的人物个数,判断面向镜头的人数是否大于等于两人,如果是,则转入到步骤(S2),如果否,则转入步骤(S4);
(S2)实时计算合影特征以及人物站位顺序,然后判断合影特征是否均为1且人物站位顺序满足设定的排序,如果是,则转入步骤(S5),如果否,则给出分析结果,然后转入步骤(S3);所述合影特征包括:整体眼睛睁闭特征、整体人脸遮挡特征、整体视线特征、整体面部模糊特征、人物中心特征、整体微笑特征;所述人物站位顺序是指图像中从左到右的人物头顶的纵坐标y;
(S3),根据所述分析结果确定指导提示信息,并将指导提示信息显示在相机的屏幕上,然后返回步骤(S2);
(S4),常规拍摄获得图像;
(S4),自动拍摄获得图像。
与现有技术相比,本发明的有益效果是:
1)本发明提出并解决了合影图像的美学质量评价问题,引入了符合合影规则的特定特征使得对合影图像美学质量的评估更加准确;
2)本发明提供了一个合影拍摄的实时指导系统及方法,能够实时指导用户提高合影拍摄质量。
附图说明
图1数据集评分标注分布图;
图2本发明方法中的步骤(1)的步骤框图;
图3本发明系统的组成结构图;
图4各特征所对应的模型精确度;
图5(a)实验中的合影特征模型ROC图;
图5(b)实验中三个模型的ROC图;
图6(a)针对标准合影本发明方法与现有方法的结果对比;
图6(b)针对有未看镜头类合影本发明方法与现有方法的结果对比;
图6(c)针对有遮挡类合影本发明方法与现有方法的结果对比;
图6(d)针对人物不在中心类合影本发明方法与现有方法的结果对比。
具体实施方式
下面结合附图对本发明作进一步详细描述:
本发明在进行美学质量评价时,不仅提取一般图像美学质量评价常用的83个特征,还重点提取了7个符合合影美学的特定特征(也可以根据需要提取更多的或更少的符合合影美学的特定特征,本实施例中重点提取了7个),包括是否闭眼、是否被遮挡、头部是否朝向镜头、视线是否看镜头、面部是否模糊、是否微笑以及人物是否居中等,然后使用支持向量机和随机森林回归进行训练和测试。构建了专门用于合影图像美学质量评价的数据集,该数据集共包含1000张图片,分别挑选自网络、现有的美学质量评价数据集以及自己拍摄。实验结果展示了本发明方法有效地实现了相同场景下的多张合影照片的美学区分,对比现有的一般图像美学评价方法有着更好的评价结果。
本发明提供了一种合影图像的美学质量评价方法,所述方法包括:
(1)利用合影图像美学评价数据集获得最优分类模型和最优回归模型;所述数据集包括多张图像以及每张图像对应的多种评价标签;
(2)利用所述最优分类模型、最优回归模型得到待测合影图像的评价标签。
所述步骤(1)如图2所示,首先构建了一个合影图像美学评价数据集,包括多张图像以及每张图像对应的评价标签(ground truth),其次对所有图像进行图像预处理操作,以便提取特征。在处理后的图像上提取每一张图像的合影特征和一般美学特征,并将其存入一个向量,该向量为该图像的特征向量。在特征提取完之后,将合影图像美学评价数据集分为训练集和测试集,其中训练集包括多张训练图像,测试集包括多张测试图像,使用训练图像的特征以及对应的评价标签训练一个分类器和一个回归器,分类器将图像美学评价分为好、坏两类,回归器对图像美学进行1到10分的打分评价。
具体的,所述步骤(1)包括:
(11)准备合影图像美学评价数据集:
本实施例中构建的合影图像美学评价数据集(Group photo Dataset,简称GPD)包括训练集和测试集,具体如下:
目前有关图像美学的数据集主要有AVA、AADB等。AVA共包含25万张图像,每张图像都有相应的美感分类和美感评分标注;AADB包含一万张图像,除了每张图像都做了评分标注外,还增加了11种美学因素的标注。但是,目前还没有用于合影图像美学评价的数据集,因此,本发明构建了一个合影图像美学评价数据集GPD,其由三部分组成:自己拍摄的合影照片、从现有的美学图像数据集中挑选的图像、互联网搜索获得的图像,目前数据集共包含1000张合影图像,并且对每张图像做了评分标注。
(a)自己拍摄的合影照片:为了使数据集具有针对性,使用手机和单反相机针对性的拍摄了一部分合影图像,拍摄过程中,拍摄者多是处于连拍抓拍的状态下,被拍摄者在拍摄期间也不断变化位置,变化表情,特意在失焦,过曝,不遵守构图,抖动造成模糊的情况下拍摄了一部分照片。自己拍摄的图像多为图像对,即同一场景下拍摄多张不同状态的照片,以便更好的解释基于传统图像美学评价方法在合影图像上评价不准确的问题。共包含600张图像。
(b)现有数据集中挑选的合影图像:从AVA,AADB数据集中挑选一部分合影图像,这些图像的来源多为Flickr、DPChallenge等图片社交网站上获取,其中图像多为业余拍摄者拍摄并上传。挑选其中的合影照片,这些照片的美学质量并不高,存在模糊,过曝等摄影美学问题,所以这一部分平衡了数据集中好坏图片的分布,使合影数据集更加鲁棒。共包括224张图像。
(c)互联网上下载的合影图像:从百度图片、花瓣网等图片网站上选择合影图片下载,这一部分包括74张图像,其中都是正式的合影图像,由专业的摄影师拍摄,美学质量很高,满足光照,色彩和构图等美学因素,这部分照片与前俩部分相比更加吸引人的注意。
为了获得合影图像的美学评分,设计了一个在线评分网站,标注者进入网站可以对随机出现的合影照片进行评分,评价等级为1-10分,分数越高代表合影图像质量越高。为了使评分者不要有前后比较的量化标准,凭借第一印象评分,本发明将图片的出现顺序设置为随机,也就是说前后图像可能是不同的场景。为了使评分者有一定的评分参考,评分网站会给出相应的提示,即“评分时请关注以下因素:面部遮挡、眼睛闭合、视线、微笑等合影因素,光照、构图、色彩、画面清晰等一般美学因素”。这使得评价者在评分时有一个很好的度量。最终每张图片由5-20个人不等来评价,取每一张合影图像评分的平均值作为其最终评分。图1为数据集中图像评分的概率分布,图1中的横轴代表0-10分,纵轴代表对应评分图片个数占总图像数的比例,可以看出,其服从高斯分布。网站具有图像上传功能,使用者可以自愿上传自己的合影,为日后该数据集的扩展做准备。
GPD数据集中,每张图像有两种评价标签,一种是二值标签,包括好、坏两类,用于分类器的训练,另一种是分数标签,包括1到10之间的浮点数,用于回归器的训练。分数标签是数据集的原始标签,通过对多人的评分取平均得到。二值标签是以6分(数据集中的平均分)作为分界,将分数标签二值化所得,大于等于6分的为好,小于6分的为坏。评价标签的种类可以根据实际需要进行设置,例如可以采用多于两种的评价标签。
(12)对图像进行预处理
特征提取之前,先将所有图像进行预处理,以方便特征提取,预处理包括调整图像大小,调整为128*128像素,该尺寸在保留了足够的图像信息的同时又可以满足计算的高效;将RGB色彩空间转换为HSV色彩空间和LUV色彩空间,一些图像特征需要这两个色彩空间上进行提取;使用Kmeans聚类方法在LUV色彩空间上将图像按色度分割;使用Waterfall图像分割方法在HSV色彩空间上将图像分为连续的区域。预处理的方法均为现有的方法,在此不再赘述。
(13)提取图像的特征,将提取到的所有特征存入到一个特征向量中:
在步骤(12)图像预处理的基础上,根据表1中的描述进行特征提取。所述图像的特征包括:一般美学特征和合影特征。
所述步骤(13)具体包括:
(131)提取一般美学特征:
目前已经被证明对预测图像的美学质量比较有效的一般图像美学特征(可以参考文献:“Datta,R.,et al.,Studying Aesthetics in Photographic Images Using aComputational Approach.2006,Springer Berlin Heidelberg:Berlin,Heidelberg.p.288-301”、“Wu,Z.,et al.,Understanding and Modeling User-PerceivedBrand Personality from Mobile Application UIs.2019.”、“Machajdik,J.andA.Hanbury.Affective image classification using features inspired bypsychology and art theory.2010:ACM.”)包括颜色、构图、景深等83个美学特征。
使用face++的在线人脸检测工具(“https://www.faceplusplus.com/.p.Metadescription”)将所有图像中的人数,人物眼睛的状态,嘴巴的微笑度,头部的旋转角度,面部模糊程度和面部关键点检测出来并保存,使用百度AI的在线人脸检测工具,检测所有图像中人物的面部遮挡状态并保存。
本实施例中,从参考文献(可以参考文献:“Datta,R.,et al.,StudyingAesthetics in Photographic Images Using a Computational Approach.2006,Springer Berlin Heidelberg:Berlin,Heidelberg.p.288-301”、“Wu,Z.,et al.,Understanding and Modeling User-Perceived Brand Personality from MobileApplication UIs.2019.”、“Machajdik,J.and A.Hanbury.Affective imageclassification using features inspired by psychology and art theory.2010:ACM.”)中提到的美学特征里挑选了曝光、饱和度、基于小波变化的纹理等83个特征作为评价合影图像美学的一般美学特征。特征分为颜色特征、局部特征、纹理特征、构图特征四类,如表1所示,表1中的f8-f90共83个特征。
Figure BDA0002332624740000101
表1
其中亮度、饱和度、色调、基于小波变换的纹理特征、低景深、图像尺寸、局部特征是来自文献“Datta,R.,et al.,Studying Aesthetics in Photographic Images Using aComputational Approach.2006,Springer Berlin Heidelberg:Berlin,Heidelberg.p.288-301””,情感、色彩度、GLCM纹理特征、显著线、细节程度来自文献、“Machajdik,J.and A.Hanbury.Affective image classification using featuresinspired by psychology and art theory.2010:ACM.”,颜色来自文献“Wu,Z.,et al.,Understanding and Modeling User-Perceived Brand Personality from MobileApplication UIs.2019.”。
(132)提取合影特征:
合影特征是指符合合影规则的特征,如面部模糊,闭眼,微笑、视线等特征。在合影拍摄中,人们重点关注人脸的信息。因此,在合影美学特征中,本发明提取和人脸有关的信息,并以目前成熟的人脸识别算法(可以参考网站:https://www.faceplusplus.com/.p.Meta description.https://ai.baidu.com/.p.)进行人脸特征提取。
假定在一张合影图像中检测出N张人脸,则将检测出的人脸序列表示如下:
F={fn1,fn2,fn3,……fni}i∈{1,2,3,……,N} (1)
提取出的面部信息包括:
人脸框左上角坐标(x,y)、人脸框的高和宽(h,w)、眼睛的不同状态(S)的置信度(ci,共分为6种状态)、左、右眼视线方向向量(Dl,Dr)、微笑程度(m)、头部姿势扭转角度(γ)、面部的不同部位的遮挡置信度(oi,面部分为7个部分)、人物的位置坐标(P)、人脸的模糊程度(b)。
合影特征具体包括以下7个特征:
①,眼睛睁闭特征:
眼睛是心灵的窗户。如果一张合影图像中有一个或多个人的眼睛没睁开或者被遮挡,那么这张合影图像的美感就会大打折扣。因此眼睛的开合状态是评价合影图像美学质量的一个关键指标。
考虑图像中每个人的左右眼的状态,左右眼分别包含6种不同的状态:不戴眼镜且睁眼S1、佩戴普通眼镜且睁眼S2、佩戴墨镜S3、眼睛被遮挡S4、不戴眼镜且闭眼S5和佩戴普通眼镜且闭眼S6。使用网站“https://www.faceplusplus.com/.p.Meta description”提供的方法来分别提取左右眼每种状态的置信度,其置信度分别为{c1,c2,c3,c4,c5,c6},6种状态的置信度总和为100。选取这六个置信度中的最大值的所属状态作为此眼睛的状态。当双眼同时满足不戴眼镜且睁眼(S1)、佩戴普通眼镜且睁眼(S2)、佩戴墨镜(S3)这三者中的一种状态时,则认为此人是睁眼的,然后将图像中所有睁眼人数与图像中的总人数N进行比较,依据对合影评价的常识发现,这一比值与合影的评价结果不是线性的关系,而是当图像中所有人物都睁眼时,评价会高,一旦有人闭眼,图像的评价则归为不好的一类,之后随着闭眼人数的增多评价逐渐降低的非线性关系,依据这个关系拟合出了公式(5),其中
Figure BDA0002332624740000111
为睁眼人数与总人数之比,所得结果f1为整体眼睛睁闭特征。
Figure BDA0002332624740000112
Figure BDA0002332624740000113
其中Sr、Sl分别代表右、左眼的最终预测状态。
Figure BDA0002332624740000114
代表左右眼所对应的6种状态的置信度。f为置信度与对应状态之间的映射。
Figure BDA0002332624740000121
Figure BDA0002332624740000122
其中,Ei表示个人眼睛睁闭特征。
②,人脸遮挡特征:
拍摄合影图像时,最基本的要求就是把所有人的人脸漏出来。如果有一张满足色彩、构图、光影都很好的合影图像,但是有一个或多个人的人脸被遮挡,那么这张合影图像一定会被毫不犹豫地抛弃。因此人脸遮挡与否是判断合影图像质量的另一个重要指标。
本发明使用https://ai.baidu.com/(该网址为在线人脸检测工具)所提供的方法提取图像中每一个人的面部是否有被遮挡。面部被分为7个部分,分别是左右眼,左右脸颊,嘴,下颚,鼻子。每一部分都会计算出一个遮挡的置信度,范围为[0-1]的浮点数,1代表该部分完全被遮挡。根据网站“https://ai.baidu.com/.p”中所提供的推荐阈值,进行了人脸各部分的遮挡判断,当任意部分的遮挡置信度超过了推荐阈值,则认为此人面部被遮挡,最终将未被遮挡人数与图像中总人数N做比较,同f1一样,未遮挡人数比例与评价同样满足非线性关系,所得结果f2为该图像的整体人脸遮挡特征,公式描述如下。
Figure BDA0002332624740000123
Figure BDA0002332624740000124
其中公式(6)中的Oi表示个人遮挡特征,1为被遮挡。公式(7)中oj代表每一部分被遮挡的置信度,θj表示每一部分被遮挡的推荐阈值,
Figure BDA0002332624740000125
表示存在oj大于等于推荐阈值θj
③,头部姿势特征
摄影过程中,摄影师经常说的一句话就是:看镜头。它的意思不仅是让被拍摄者的视线汇聚于镜头,而且是将头部姿态调整为朝向镜头。假设有这样一张合影图像,画面中某一人物的视线虽然看向镜头,但是头部向左或向右扭转很大的角度,处于斜视状态,这样的合影图像显然称不上美学质量高的图像。因此,需要计算头部姿势扭转角度,记为γ,其中γ∈[-180,180]。当γ∈[-30,30]时,则认为头部未发生扭转,否则记为该人物的头部发生扭转。将头部是否有扭转记为个人头部姿势特征Hi,其中Hi=1代表未扭转,Hi=0反之。同上将头部未扭转的人数与总人数N作比,同f1一样,头部未扭转人数比值与评价也满足非线性关系,所得f3为整体头部姿势特征。
Figure BDA0002332624740000131
Figure BDA0002332624740000132
④,视线特征
摄影师在拍摄合影时,不仅会注意构图、光影和色彩,还会有意识的引导被摄者的视线方向。对于一张正式的合影图像,所有人物的视线是否集中看镜头,是评价该合影图像的美感的重要指标。
在检测一个人的视线之前,需要首先检测该人的眼睛状态、头部姿势和人眼是否被遮挡,即检测人物视线前需要满足以下三个条件:眼睛睁开,面部朝向镜头,眼睛未被遮挡,否则不检测其视线。本发明分别检测左右眼的位置坐标与视线方向来判断人物是否看向镜头,视线方向由x,y,z轴向量分量来表示,视线估计过程如下:
(A1)确定圆心:O=(C1+C2)/2 (10)
(A2)确定半径:R=max(w,h) (11)
(A3)计算平均视线:D=(Dr+Dl)/2 (12)
(A4)计算视线汇聚点坐标:p=O+R*D (13)
其中C1和C2为左右眼球的中心坐标,w、h分别为人脸的宽和高,视线方向向量的X轴分量、Y轴分量记为Dr=(v_x1,v_y1)和Dl=(v_x2,v_y2)(Dr、Dl分别表示右、左眼视线方向向量,v_x1,v_y1分别表示视线方向向量的X轴分量、Y轴分量)。用下嘴唇的上边界作为底边,左、右眼球的中心的横坐标所在直线为左右两边界,眉毛上边界作为顶边做一个矩形范围Range,视线汇聚点坐标落在该范围里的则判断为视线朝向镜头,记为个人视线特征Gi,Gi=1表示看向镜头,最终将视线看向镜头的人数与总人数N作比,比值与评价同样满足非线性关系,所得f4为整体视线特征。
Figure BDA0002332624740000133
Figure BDA0002332624740000134
pi表示画面中第i个人的视线汇聚点坐标,Rangei表示画面中第i个人看镜头的视线范围。
⑤,面部模糊特征
一副符合美学标准的图像,首先要满足的条件就是拍摄主体要清晰,合影图像的主体是人物,因此,保证合影中人物的面部清晰,对于整幅图像的美学质量是很重要的。因此,提取人脸的模糊特征作为合影图像的一个重要特征。
使用在线ai工具https://www.faceplusplus.com/(该网址为在线人脸检测工具)提取面部模糊度,用b表示,v代表已经可以影响人脸辨识的模糊度阈值,使用网站“https://www.faceplusplus.com/.p.Meta description.”中推荐的阈值(一般v取值为50)作为特征提取时的阈值。超过该阈值则认为该人脸的模糊度影响了辨识。
Figure BDA0002332624740000141
Figure BDA0002332624740000142
其中Bi表示图中第i个人的个人面部模糊特征,值为1表示第i个人物面部模糊。计算模糊的超过阈值的人数占该合影图像中总人数的比例,比例越高,表示该合影图像的质量越高。所得结果f5为整体面部模糊特征。
⑥,微笑特征
人物的微笑特征对合影图像的情感表达有着至关重要的作用。通过观察发现,合影图像中人物的微笑或者合影中微笑的人占比很大往往比合影图像中无人微笑更加具有吸引力也更容易被人记住。使用在线工具“https://www.faceplusplus.com/”提取人脸的的微笑程度m。同样对于微笑的程度也设有一个阈值w,超过该阈值则认为有笑容。最终将微笑人数与总人数N作比,所得f6为整体微笑特征。
Figure BDA0002332624740000143
Figure BDA0002332624740000144
Mi为个人微笑特征。
⑦,人物中心特征
经过对大量合影照片的观察发现,在合影中人物的站位对于合影的质量也有很大的影响,通常一副好的合影照片,人物位置往往横向居中且均匀排列,特别是正式的合影照片人脸的位置通常都在画面中央。因此合影照片中的人物位置横向居中也关系着一副合影照片的好坏。
依次检测合影图像中每个人的面部中心点的横坐标(提取人脸框左上角坐标(x,y),以及面部的长宽(l、w),用x+0.5*w得到面部中心的横坐标),用xi表示。然后求出画面中人物的横向中心坐标,用Px表示。
Figure BDA0002332624740000145
Figure BDA0002332624740000146
其中,Px代表图像中人物的横向平均位置的x轴坐标,W表示画面宽度,R表示人物中心相对于画面的位置,如果R恰好为图像中心(可以将图像水平分为5份,中间部分记为图像中心,如果R大于0.4小于0.6,则说明R位于图像的中心部分),则认为画面中的人物横向居中,即为人物中心特征f7
Figure BDA0002332624740000151
(133)将步骤(131)提取到的一般美学特征和步骤(132)提取到的合影特征存入到一个向量中,该向量即为特征向量。
(14)获得最优分类模型和最优回归模型
通过对多种分类器和回归器进行实验发现,支持向量机(SVM)和随机森林回归模型(Random Forest)表现最好,因此本发明中用于美学评价的分类器使用支持向量机(SVM),回归器使用随机森林回归模型(Random Forest)。
分别利用步骤(13)获得的各个训练图像的特征向量及其对应的评价标签训练分类器和回归器,得到分类模型和回归模型;然后将各个测试图像的特征向量分别输入到分类模型和回归模型中,分别利用分类模型和回归模型预测各个测试图像得到预测结果;将预测结果与对应该测试图像的评价标签进行比较,分别分析分类模型、回归模型的准确性;经过多次训练和分析后,选择准确性最高的分类模型作为最优分类模型,选择准确性最高的回归模型作为最优回归模型。这些是现有的分类器、回归器的训练方法,在此不再赘述。
所述步骤(2)的操作包括:
(21)对待预测图像进行预处理,预处理方法同步骤(12);
(22)提取待预测图像的一般美学特征和合影特征,得到待预测图像的特征向量,提取方法同步骤(13);
(23)将待预测图像的特征向量输入到最优分类模型中,得到该待预测图像的二值标签,将待预测图像的特征向量输入到最优回归模型中,得到该待预测图像的分数标签。获得二值标签、分数标签即实现了对合影图像的美学评价,也就是得到了该待预测图像是好还是坏,其评分是多少。
基于上合影图像的美学质量评价方法,本发明还提供了一套实时指导合影拍摄的系统,当发现取景帧中的图像不满足合影图像质量评价要求时,通过相关特定符号提醒拍摄者,友好的交互体验可以更好的帮助摄影者拍摄合影。
为了获得理想的合影图像,最好的方法是在拍摄的时候就可以实时指导摄影者进行拍摄。为此,本发明基于上合影图像美学质量评价方法,设计了合影图像拍摄实时指导系统,具体如图3所示,包括四个功能模块,分别是场景识别模块、图像分析模块、指导拍摄模块、自动拍摄模块。
启动系统时,场景识别模块分析取景框画面中人物个数,判断面向镜头的人数是否大于等于两人,如果是,则自动切换到合影模式,并激活图像分析模块,如果否,则保持在常规拍摄模式(即一般拍摄),进行常规拍摄获得图像;所述判断面向镜头的人数是否大于等于两人的操作包括:判断
Figure BDA0002332624740000161
大于等于2是否成立,如果是,则判定面向镜头的人数大于等于两人,如果否,则判定面向镜头的人数小于两人。
图像分析模块被激活后,实时计算上述7种合影特征中的整体眼睛睁闭特征、整体人脸遮挡特征、整体视线特征、整体面部模糊特征、人物中心特征、整体微笑特征(可以加入也可以不加入,根据实际需要确定)以及人物站位顺序(记录图像中从左到右的人物头顶的纵坐标y),并记录下在计算过程中得到的每一个个人特征(即个人眼睛睁闭特征、个人针对特征、个人视线特征、个人面部模糊特征、个人微笑特征),然后判断上述合影特征是否均为1且人物站位顺序满足设定的排序(设定的排序根据实际需要确定,例如可以是驼峰排序,即中间高两边低,也就是说中间的纵坐标y大于两边的纵坐标,而且从中间向两端的纵坐标依次减小,也可以是中间低、两边高的顺序、或者从左至右依次降低的顺序或者反之的顺序均可),如果是,则激活自动拍摄模块,如果否,则给出分析结果,并将分析结果传送给指导拍摄模块,同时激活指导拍摄模块。
所述分析结果是这样获得的:
如果整体眼睛睁闭特征不为1,则将个人眼睛睁闭特征为0的人物的人脸框左上角坐标(x,y)和人脸框的高和宽(h,w)及其对应的个人眼睛睁闭特征存入到分析结果中;
如果整体人脸遮挡特征不为1,则将个人遮挡特征为1的人物的人脸框左上角坐标(x,y)和人脸框的高和宽(h,w)及其对应的个人遮挡特征存入到分析结果中;
如果整体视线特征不为1,则将个人视线特征为0的人物的人脸框左上角坐标(x,y)和人脸框的高和宽(h,w)及其对应的个人视线特征存入到分析结果中;
如果整体面部模糊特征不为1,则将个人面部模糊特征为1的人脸框左上角坐标(x,y)和人脸框的高和宽(h,w)及其对应的个人面部模糊特征存入到分析结果中;
如果人物中心特征的值不为1,则将图像中人物的横向平均位置的x轴坐标Px存入到分析结果中;
如果整体微笑特征不为1,则将个人微笑特征为0的人物的人脸框左上角坐标(x,y)和人脸框的高和宽(h,w)及其对应的个人微笑特征存入到分析结果中;
如果人物站位顺序不满足设定的排序,则将设定的排序和所有人物头顶的纵坐标y存入到分析结果中。
所述指导拍摄模块根据图像分析模块发来的分析结果确定指导提示信息,并将指导提示信息显示在相机的屏幕上,所述指导提示信息包括:整体美感提示信息和局部提示信息。
其中,所述整体美感提示信息包括对焦提示、居中提示、站位提示。具体的,如果分析结果中有:个人面部模糊特征为1,则指导拍摄模块在其对应的人物的位置(根据其对应的人脸框左上角坐标(x,y)和人脸框的高和宽(h,w)确定位置)处显示对焦提示,例如显示“请对焦于人物”,若分析结果中有:图像中人物的横向平均位置的x轴坐标Px,则指导拍摄模块计算Px与画面中心横坐标的相对方向,并显示居中提示,即提示镜头移动方向,例如显示“请将镜头向左移动”或者“请将镜头向右移动”,如果分析结果中有:所有人物头顶的纵坐标y,则指导拍照模块根据设定的排序将y进行排序,例如可以使用拟合方法(例如最小二乘法)拟合出一条与设定的排序相吻合的曲线(如驼峰排序,则是中间高两边低的曲线),并显示站位提示,提示按照曲线安排人物站位,例如显示“请依据曲线安排人物站位”。
所述局部提示信息包括:闭眼提示、遮挡提示、看镜头提示、微笑提示;具体的,如果分析结果中有:个人眼睛睁闭特征为0,则指导拍摄模块在其对应的人物的位置(根据其对应的人脸框左上角坐标(x,y)和人脸框的高和宽(h,w)确定位置)处显示闭眼提示,例如显示“请睁开双眼”;如果分析结果中有:个人遮挡特征为1,则指导拍摄模块在其对应的人物的位置(根据其对应的人脸框左上角坐标(x,y)和人脸框的高和宽(h,w)确定位置)处显示遮挡提示,例如显示“请露出脸部”;如果分析结果中有:个人视线特征为0,则指导拍摄模块在其对应的人物的位置(根据其对应的人脸框左上角坐标(x,y)和人脸框的高和宽(h,w)确定位置)处显示看镜头提示,例如显示“请看镜头”;如果分析结果中有:个人微笑特征为0,则指导拍摄模块在其对应的人物的位置(根据其对应的人脸框左上角坐标(x,y)和人脸框的高和宽(h,w)确定位置)处显示微笑提示,例如显示“请微笑”。
通过这些提示实时提示拍摄者及时与具体的被拍摄者进行沟通,最终得到满意的合影图像。
进一步的,指导拍摄模块可以使用不同颜色的矩形框定位人脸,红色代表人物状态未准备好,还可以在该矩形框的上方显示“画面中有人未准备好”,绿色框代表此人已经准备好拍摄。
由于图像分析模块是实时计算合影特征以及人物站位顺序,所以当被拍摄者做出调整后,图像分析模块会实时将新的分析结果发送给指导拍摄模块,指导拍摄模块根据新的分析结果进行提示。
所述自动拍摄模块进行拍摄,利用相机的现有功能进行拍摄即可。
对应的,本发明还提供了一种合影图像拍摄实时指导方法,包括:
(S1)分析取景框画面中人物个数,判断面向镜头的人数是否大于等于两人,如果是,则转入到步骤(S2),如果否,则转入步骤(S4);
(S2)实时计算合影特征以及人物站位顺序,然后判断合影特征是否均为1且人物站位顺序满足设定的排序,如果是,则转入步骤(S5),如果否,则给出分析结果,然后转入步骤(S3);所述合影特征包括:整体眼睛睁闭特征、整体人脸遮挡特征、整体视线特征、整体面部模糊特征、人物中心特征、整体微笑特征;所述人物站位顺序是指图像中从左到右的人物头顶的纵坐标y;
(S3),根据所述分析结果确定指导提示信息,并将指导提示信息显示在相机的屏幕上,然后返回步骤(S2);
(S4),常规拍摄获得图像,即相机的一般拍摄模式进行拍摄获得图像;
(S4),自动拍摄获得图像。
所述步骤(S2)中的分析结果是这样获得的:
如果整体眼睛睁闭特征不为1,则将个人眼睛睁闭特征为0的人物的人脸框左上角坐标(x,y)和人脸框的高和宽(h,w)及其对应的个人眼睛睁闭特征存入到分析结果中;
如果整体人脸遮挡特征不为1,则将个人遮挡特征为1的人物的人脸框左上角坐标(x,y)和人脸框的高和宽(h,w)及其对应的个人遮挡特征存入到分析结果中;
如果整体视线特征不为1,则将个人视线特征为0的人物的人脸框左上角坐标(x,y)和人脸框的高和宽(h,w)及其对应的个人视线特征存入到分析结果中;
如果整体面部模糊特征不为1,则将个人面部模糊特征为1的人脸框左上角坐标(x,y)和人脸框的高和宽(h,w)及其对应的个人面部模糊特征存入到分析结果中;
如果人物中心特征的值不为1,则将图像中人物的横向平均位置的x轴坐标Px存入到分析结果中;
如果整体微笑特征不为1,则将个人微笑特征为0的人物的人脸框左上角坐标(x,y)和人脸框的高和宽(h,w)及其对应的个人微笑特征存入到分析结果中;
如果人物站位顺序不满足设定的排序,则将设定的排序和所有人物头顶的纵坐标y存入到分析结果中。
所述步骤(S3)的操作包括:
如果分析结果中有:个人面部模糊特征为1,则在其对应的人物的位置(根据其对应的人脸框左上角坐标(x,y)和人脸框的高和宽(h,w)确定位置)处显示对焦提示;
如果分析结果中有:图像中人物的横向平均位置的x轴坐标Px,则计算Px与画面中心横坐标的相对方向,并显示居中提示;
如果分析结果中有:所有人物头顶的纵坐标y,则根据设定的排序将y进行排序,并显示站位提示;
如果分析结果中有:个人眼睛睁闭特征为0,则在其对应的人物的位置(根据其对应的人脸框左上角坐标(x,y)和人脸框的高和宽(h,w)确定位置)处显示闭眼提示
如果分析结果中有:个人遮挡特征为1,则在其对应的人物的位置(根据其对应的人脸框左上角坐标(x,y)和人脸框的高和宽(h,w)确定位置)处显示遮挡提;
如果分析结果中有:个人视线特征为0,则在其对应的人物的位置(根据其对应的人脸框左上角坐标(x,y)和人脸框的高和宽(h,w)确定位置)处显示看镜头提示;
如果分析结果中有:个人微笑特征为0,则在其对应的人物的位置(根据其对应的人脸框左上角坐标(x,y)和人脸框的高和宽(h,w)确定位置)处显示微笑提示。
利用本发明方法进行的实验及结果分析如下:
在构建的GPD合影数据集上进行了实验和结果分析,使用k折交叉验证(k=10)将数据集分为训练集和测试集,首先用随机森林方法获得了各特征对模型的重要性指数,其次使用支持向量机(SVM)和随机森林回归(random forest regression)训练了分类器和回归器,并评价其性能,最后与基于深度学习的图像评价方法做了对比。
验证合影特征重要性实验如下,在评价特征重要性前,由于所提取的特征存在不同单位,不同量纲的数据,数量级的差异将会导致量级较大的属性占据主导地位,同时会导致迭代的收敛速度减慢,所以使用Z-Score标准化方法,即采用转换函数:(X-mean)/std将特征进行了标准化处理。使用随机森林(可参考文献Breiman,L.,Classification andregression trees.2017:Routledge)中的基于gini指数的特征重要性评估方法分析了90维特征各自对于模型的相关重要性排名。选取了重要性指数大于0.011(平均重要性)的特征,共33个特征,如图4所示,可以看到有5个合影特征位列其中,视线特征和眼睛睁闭特征的重要性远高于其他特征的重要性,说明在合影评价中,眼睛状态对于合影质量评价是至关重要的。人物中心位置、面部遮挡、微笑特征的重要性也超过了平均水平,对模型也起到积极的作用,而面部模糊和头部姿态两个特征没有出现在前33个特征中,主要由于目前面部模糊的特征提取主要依赖于图像分辨率,如果图像本身是低分辨率的,那么面部也可能为模糊状态,所以这一特征对模型的影响并不明显,而头部姿态特征受到光线方向、拍摄角度等的影响,目前提取结果较为不准确,所以对模型也没有较大影响。静态线的长度为第三个重要特征,印证了横平竖直的合影拍摄规则特征用于合影评价是正确的。图像中心的亮度、饱和度、色调这三个特征同样与我们构想的一样,合影照片应该满足中心构图法则。从图4中还发现情感特征PAD中,愉悦度Pleasure,激活度Arousal对于合影评价也有一定影响,其中愉悦度反应了人们对于图像的喜爱程度,激活度反应了神经生理的激活水平,而优势度Dominance主要反应人的愤怒和恐惧,对于合影评价不具有直接的联系,这基本与本发明对于合影照片评价的假设相吻合,合影照片通常带给人愉悦与回忆,所以优势度没有出现在重要性排行中。
分类模型实验如下,通过基于随机森林的特征重要性分析可以得出,90个特征并不是所有的都对合影评价有效,使用两种特征选择方法(过滤法和包裹法)对所有特征进行筛选:基于单个特征的分类模型准确率的特征选择方法,再结合递归消除特征法(recursive feature elimination,简称RFE)——一种基于wrapper的特征选择方法,进一步特征选择。我们利用sklearn-svm软件包(可参考“scikit-learn:machine learning inPython—scikit-learn 0.21.3documentation”),使用标准RBF内核(γ=2.0,C=1.0)进行分类模型训练,并使用10折交叉验证保证实验的公平性,以10折交叉验证的平均AUC作为分类器的精度评价指标,AUC定义为ROC曲线下与坐标轴围成的面积,AUC的取值范围在0.5和1之间。AUC越接近1.0,检测方法准确性越高;等于0.5时,准确性最低。因为我们的合影数据集的评分均分为6.05分,所以,以6分为分类边界,将合影图像分为好、坏两类,大于等于6的为好,小于6的为坏。各合影特征所训练的模型ROC曲线如图5中(a)所示,可以发现同重要性排名相似,视线特征模型的AUC达到了0.73,眼睛睁闭特征模型的AUC达到了0.68,同样说明了这两个特征对于合影评价是有效的,模糊特征模型的效果不理想,是由于特征提取时的局限性导致。
图5(b)展示了三个融合特征模型的ROC曲线图和AUC值。其中AF&GF模型所用特征是所有特征通过上述两种特征选择方法选择出的20个特征,AF模型所用特征是从一般特征中选出,GF模型所用特征只包含合影特征,各模型所用特征集合如表2所示。可以看出“-”线代表的AF&GF模型(混合特征模型)将“…”线代表的AF模型(一般美学特征模型)完全包裹起来,AUC值达到了0.80,GF模型(合影特征模型)的AUC值大于AF模型的AUC,但是小于AF&GF模型的AUC,说明合影美学评价中仅仅依靠合影特征来评价是不准确的,美学特征加上合影特征才能更好的解释合影评价的正确性。
表3为三个模型的性能评估对比,从精确度、准确率、召回率、F1指标四个方面对三个模型做了对比。可以发现一般美学特征结合合影特征所训练出来的模型在各个指标上都优于其他两个模型。
Figure BDA0002332624740000211
表2
accuracy Precision Recall F1
AF&GF分类模型 0.7097 0.7968 0.7543 0.7285
AF分类模型 0.6573 0.5721 0.5969 0.5612
GF分类模型 0.6889 0.7878 0.6771 0.7025
表3
回归模型实验如下,使用随机森林回归算法训练回归器,通过10折交叉验证确定参数:最大深度为5,基学习器数量为130。首先利用随机森林算法做特征选择,同训练分类器一样,从特征集合中选择出三个不同的特征子集,AF&GF,AF,GF,选择的特征集如表2所示,使用这三个特征集在GPD数据集(随机抽取20%作为测试集,80%作为训练集)上训练三个模型,分别训练100次。以回归模型确定性系数R2作为回归器的评价标准,它的取值范围再[0,1]之间,越接近于1,表明模型的准确性越高,随机猜测时R2的值为0,R2定义为:
Figure BDA0002332624740000212
其中
Figure BDA0002332624740000213
是预测分数,Y为评价标签(ground truth)
Figure BDA0002332624740000214
为测试图像评价标签的平均值,Ntest为测试图像的数量,最终将100次的R2取平均,以避免随机抽取数据集所造成的偶然性。三个回归模型的性能评估对比的实验结果对比如表4所示。
MaximumR2 AverageR2
AF&GF回归模型 0.563 0.415
GF回归模型 0.529 0.372
AF回归模型 0.379 0.241
表4
实验结果表明,合影特征结合美学特征所训练出来的回归模型的R2达到了0.415,在这100次模型训练中,R2最高达到了0.563,是三个模型中表现最好的,也说明了本发明提出的合影特征以及一般美学特征对于合影评价是有效的。而只使用合影特征所训练的模型R2也高于一般美学特征所训练的模型,证明了在合影照片的评价中,人们更加关注的是本发明所提出的合影规则,而一般美学特征在评价合影图像美学质量时影响相对较小。
与基于深度学习的美学评价方法比较实验如下,为了验证一般的图像美学质量评价特征无法满足合影图像美学评价,以及深度学习方法不能区分相同场景下不同人物状态的照片,在不同环境下拍摄了四组场景相同人物转台不同的照片,每组中都包含一张标准的合影照片,和三张不符合合影规则的照片,分别为“不看镜头”、“被遮挡”、“不在画面中心”三类,然后使用NIMA-res、NIMA-mobile(可参考文献“Talebi,H.and P.Milanfar,NIMA:Neural Image Assessment.IEEE Transactions on Image Processing,2018.27(8):p.3998-4011.”)、Kong(可参考文献“Kong,S.,et al.,Photo Aesthetics RankingNetwork with Attributes and Content Adaptation.2016.p.662-679.”)、本发明的回归模型四种模型进行评价,使用
Figure BDA0002332624740000222
表示区分度,
Figure BDA0002332624740000221
其中saes(IStandard)表示标准照片的评分,saes(Iother)表示相同场景下其他类照片的评分,计算每组照片中其他类与标准照片之间的分差,来体现各模型在相同场景下对于不同人物状态的合影图像评价的区分度,图6(a)到图6(d)展示了对比实验结果,每个图下的四个分数分别为三种基于深度学习评价方法的区分度和本发明方法的区分度。以图6(b)不看镜头的照片为例,使用深度学习方法的评价,与标准图像的评价结果区分度很小甚至出现了负值,三种基于深度学习评价方法的区分度分别为0.231,-0.097,-0.453,说明这些方法在评价合影照片时没有考虑到照片中的主体状态,仅仅从一般图像角度来评价合影图像,而本发明的回归模型区分度
Figure BDA0002332624740000231
可以到达1.793,很好的区分了标准合影照片和人物未准备好的合影照片,这主要得益于本发明的评价方法是以人物状态为约束,结合美学特征来评价合影照片。观察图6(c)类照片可以发现,第一组、第三组、第四组人物遮挡严重,使用本发明的方法评价,与各组的标准合影的区分度均大于1,第二组中人物轻微遮挡,区分度为0.301,而深度学习方法在评价这类照片时的区分度微乎其微,均在0分上下浮动,且无规律可循,这证明了本发明所提出的遮挡特征在合影评价中也是较为有效的。从图6(a)到图6(d)可以看出使用本发明方法评价(a)类照片的区分度(在[1.4-2.3]这一范围内)普遍高于(b)(c)类照片的区分度(在[0.3-1.7]之间),完全符合预期,以及合影特征重要性排名,眼睛的睁闭和视线方向对于合影评价的影响要大于面部遮挡和人物位置。还观察到深度学习方法在评价不在图像中心这类照片时,区分度为负值的概率很高,说明这类评价方法认为在相同场景下主体在侧面的照片美学评价要高于主体在中心的照片,三分法规则用来评价其他类型照片时也许是有效的,但是在合影图像评价中并不适用,这也恰恰证明了基于深度学习的方法在没有专业知识约束的情况下,只依靠大量的美学照片训练,学习到的只有一些通用的拍摄规则和美学特征,很难对特定领域的图像做出正确评价。整体来看,基于深度学习的评价方法区分度在[-0.5,1]之间,用于评价合影不会考虑到图像中人物的状态,而且在评价多张相同场景下的合影照片时也不能对好坏合影做出区分,而本发明的评价模型区分度在[0.3,2.3]之间可以对这类照片做出很好的区分评价。
上述技术方案只是本发明的一种实施方式,对于本领域内的技术人员而言,在本发明公开了应用方法和原理的基础上,很容易做出各种类型的改进或变形,而不仅限于本发明上述具体实施方式所描述的方法,因此前面描述的方式只是优选的,而并不具有限制性的意义。

Claims (8)

1.一种合影图像的美学质量评价方法,其特征在于:所述方法包括:
(1)利用合影图像美学评价数据集获得最优分类模型和最优回归模型;所述合影图像美学评价数据集包括多张图像以及每张图像对应的评价标签;
(2)利用所述最优分类模型、最优回归模型得到待测合影图像的评价标签;
步骤(1)的操作包括:
(11)准备合影图像美学评价数据集,并将合影图像美学评价数据集分为训练集和测试集,所述训练集包括多张训练图像,所述测试集包括多张测试图像;
(12)对训练图像、测试图像进行预处理得到预处理后的训练图像、测试图像;
(13)提取每张预处理后的训练图像、测试图像的特征,并将每张图像提取到的所有特征存入到一个对应该图像的特征向量中;
(14)获得最优分类模型和最优回归模型;
步骤(13)的操作包括:对每张图像分别进行以下处理:
(131)提取一般美学特征;
(132)提取合影特征;
(133)将步骤(131)提取到的一般美学特征和步骤(132)提取到的合影特征存入到一个向量中,该向量即为图片的特征向量;
步骤(132)的操作包括:
(1321)假定在一张合影图像中检测出N张人脸,则将检测出的人脸序列表示如下:
F={fn1,fn2,fn3,……fni}i∈{1,2,3,……,N} (1)
提取出的面部信息包括:
人脸框左上角坐标、人脸框的高和宽、眼睛的不同状态的置信度、左、右眼视线方向向量、微笑程度m、头部姿势扭转角度γ、面部的不同部位的遮挡置信度、人物的位置坐标、面部模糊度b;
(1322)利用下式提取眼睛睁闭特征:
Figure FDA0004192529510000021
Figure FDA0004192529510000022
其中,Ei表示个人眼睛睁闭特征,S1表示不戴眼镜且睁眼、S2表示佩戴普通眼镜且睁眼、S3表示佩戴墨镜,Sr、Sl分别代表右、左眼的最终预测状态;f1为整体眼睛睁闭特征;
(1323)利用下式提取人脸遮挡特征:
Figure FDA0004192529510000023
Figure FDA0004192529510000024
其中,Oi表示个人遮挡特征,1为被遮挡,oj代表每一部分被遮挡的置信度,θj表示每一部分被遮挡的推荐阈值,
Figure FDA0004192529510000025
表示存在oj大于等于推荐阈值θj,f2为整体人脸遮挡特征;
(1324)利用下式提取头部姿势特征:
Figure FDA0004192529510000026
Figure FDA0004192529510000027
其中,Hi表示个人头部姿势特征,γ表示头部姿势扭转角度,f3为整体头部姿势特征;
(1325)利用下式提取视线特征:
Figure FDA0004192529510000028
Figure FDA0004192529510000029
其中,Gi表示个人视线特征,pi表示画面中第i个人的视线汇聚点坐标,Rangei表示画面中第i个人看镜头的视线范围,f4为整体视线特征;
(1326)利用下式提取面部模糊特征:
Figure FDA0004192529510000031
Figure FDA0004192529510000032
其中bi表示图中第i个人的个人面部模糊特征,b表示面部模糊度,v表示模糊度的阈值,f5为整体面部模糊特征;
(1327)利用下式提取微笑特征:
Figure FDA0004192529510000033
Figure FDA0004192529510000034
Mi为个人微笑特征,m表示微笑程度,w表示微笑程度的阈值,f6为整体微笑特征;
(1328)利用下式提取人物中心特征:
Figure FDA0004192529510000035
Figure FDA0004192529510000036
Figure FDA0004192529510000037
其中,Px表示图像中人物的横向平均位置的x轴坐标,xi表示第i个人的面部中心点的横坐标,W表示画面宽度,R表示人物中心相对于画面的位置,f7表示人物中心特征。
2.根据权利要求1所述的合影图像的美学质量评价方法,其特征在于:所述评价标签包括:二值标签、分数标签;
所述二值标签包括:好、坏;
所述分数标签包括:1到10之间的浮点数。
3.根据权利要求2所述的合影图像的美学质量评价方法,其特征在于:步骤(14)的操作包括:
分别利用步骤(13)获得的各个训练图像的特征向量及其对应的评价标签训练分类器和回归器,得到分类模型和回归模型;
然后将各个测试图像的特征向量分别输入到分类模型和回归模型中,分别利用分类模型和回归模型预测各个测试图像得到预测结果;
将预测结果与对应该测试图像的评价标签进行比较,分别分析分类模型、回归模型的准确性;
经过多次训练和分析后,选择准确性最高的分类模型作为最优分类模型,选择准确性最高的回归模型作为最优回归模型。
4.根据权利要求3所述的合影图像的美学质量评价方法,其特征在于:步骤(2)的操作包括:
(21)对待预测图像进行预处理得到预处理后的待预测图像;
(22)提取预处理后的待预测图像的一般美学特征和合影特征,得到待预测图像的特征向量;
(23)将待预测图像的特征向量输入到最优分类模型中,得到该待预测图像的二值标签,将待预测图像的特征向量输入到最优回归模型中,得到该待预测图像的分数标签。
5.一种实时指导合影拍摄的系统,其特征在于:所述系统包括:场景识别模块、图像分析模块、指导拍摄模块、自动拍摄模块;
所述场景识别模块分析取景框画面中的人物个数,判断面向镜头的人数是否大于等于两人,如果是,则自动切换到合影模式,并激活图像分析模块,如果否,则保持在常规拍摄模式;
所述图像分析模块利用如权利要求1所述的方法中的公式实时计算合影特征中的整体眼睛睁闭特征、整体人脸遮挡特征、整体视线特征、整体面部模糊特征、人物中心特征、整体微笑特征以及人物站位顺序,然后判断上述合影特征是否均为1且人物站位顺序满足设定的排序,如果是,则激活自动拍摄模块,如果否,则给出分析结果,并将分析结果传送给指导拍摄模块,同时激活指导拍摄模块;
所述指导拍摄模块根据图像分析模块发来的分析结果确定指导提示信息,并将指导提示信息显示在相机的屏幕上;
所述自动拍摄模块进行拍摄得到图像。
6.根据权利要求5所述的实时指导合影拍摄的系统,其特征在于:所述分析结果是这样获得的:
如果整体眼睛睁闭特征不为1,则将个人眼睛睁闭特征为0的人物的人脸框左上角坐标和人脸框的高和宽及其对应的个人眼睛睁闭特征存入到分析结果中;
如果整体人脸遮挡特征不为1,则将个人遮挡特征为1的人物的人脸框左上角坐标和人脸框的高和宽及其对应的个人遮挡特征存入到分析结果中;
如果整体视线特征不为1,则将个人视线特征为0的人物的人脸框左上角坐标和人脸框的高和宽及其对应的个人视线特征存入到分析结果中;
如果整体面部模糊特征不为1,则将个人面部模糊特征为1的人脸框左上角坐标和人脸框的高和宽及其对应的个人面部模糊特征存入到分析结果中;
如果人物中心特征的值不为1,则将图像中人物的横向平均位置的x轴坐标Px存入到分析结果中;
如果整体微笑特征不为1,则将个人微笑特征为0的人物的人脸框左上角坐标和人脸框的高和宽及其对应的个人微笑特征存入到分析结果中;
如果人物站位顺序不满足设定的排序,则将设定的排序和所有人物头顶的纵坐标y存入到分析结果中。
7.根据权利要求6所述的实时指导合影拍摄的系统,其特征在于:所述指导提示信息包括:整体美感提示信息和局部提示信息;所述整体美感提示信息包括对焦提示、居中提示、站位提示;
如果分析结果中有:个人面部模糊特征为1,则指导拍摄模块在其对应的人物的位置处显示对焦提示;
如果分析结果中有:图像中人物的横向平均位置的x轴坐标Px,则指导拍摄模块计算Px与画面中心横坐标的相对方向,并显示居中提示;
如果分析结果中有:所有人物头顶的纵坐标y,则指导拍照模块根据设定的排序将y进行排序,并显示站位提示;
所述局部提示信息包括:闭眼提示、遮挡提示、看镜头提示、微笑提示;
如果分析结果中有:个人眼睛睁闭特征为0,则指导拍摄模块在其对应的人物的位置处显示闭眼提示;
如果分析结果中有:个人遮挡特征为1,则指导拍摄模块在其对应的人物的位置处显示遮挡提示;
如果分析结果中有:个人视线特征为0,则指导拍摄模块在其对应的人物的位置处显示看镜头提示;
如果分析结果中有:个人微笑特征为0,则指导拍摄模块在其对应的人物的位置处显示微笑提示。
8.一种利用权利要求5-7任一项所述的实时指导合影拍摄的系统视线的合影图像拍摄实时指导方法,其特征在于:所述方法包括:
(S1)分析取景框画面中的人物个数,判断面向镜头的人数是否大于等于两人,如果是,则转入到步骤(S2),如果否,则转入步骤(S4);
(S2)实时计算合影特征以及人物站位顺序,然后判断合影特征是否均为1且人物站位顺序满足设定的排序,如果是,则转入步骤(S5),如果否,则给出分析结果,然后转入步骤(S3);所述合影特征包括:整体眼睛睁闭特征、整体人脸遮挡特征、整体视线特征、整体面部模糊特征、人物中心特征、整体微笑特征;所述人物站位顺序是指图像中从左到右的人物头顶的纵坐标y;
(S3),根据所述分析结果确定指导提示信息,并将指导提示信息显示在相机的屏幕上,然后返回步骤(S2);
(S4),常规拍摄获得图像;
(S5),自动拍摄获得图像。
CN201911343106.0A 2019-12-24 2019-12-24 一种合影图像的美学质量评价方法及实时拍摄指导系统 Active CN111008971B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911343106.0A CN111008971B (zh) 2019-12-24 2019-12-24 一种合影图像的美学质量评价方法及实时拍摄指导系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911343106.0A CN111008971B (zh) 2019-12-24 2019-12-24 一种合影图像的美学质量评价方法及实时拍摄指导系统

Publications (2)

Publication Number Publication Date
CN111008971A CN111008971A (zh) 2020-04-14
CN111008971B true CN111008971B (zh) 2023-06-13

Family

ID=70117711

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911343106.0A Active CN111008971B (zh) 2019-12-24 2019-12-24 一种合影图像的美学质量评价方法及实时拍摄指导系统

Country Status (1)

Country Link
CN (1) CN111008971B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111612785B (zh) * 2020-06-03 2024-02-02 浙江大华技术股份有限公司 人脸图片质量评估方法、装置及存储介质
CN112489036A (zh) * 2020-12-14 2021-03-12 Oppo(重庆)智能科技有限公司 图像评价方法、图像评价装置、存储介质与电子设备
CN112950579B (zh) * 2021-02-26 2024-05-31 北京金山云网络技术有限公司 图像质量评价方法、装置和电子设备
CN114494130B (zh) * 2021-12-24 2024-09-20 吉林建筑大学 一种基于最优模型评价准则的产品美学评价体系
CN114359312B (zh) * 2022-03-17 2022-08-23 荣耀终端有限公司 图像处理方法及装置

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6819783B2 (en) * 1996-09-04 2004-11-16 Centerframe, Llc Obtaining person-specific images in a public venue
JP2004320286A (ja) * 2003-04-15 2004-11-11 Nikon Gijutsu Kobo:Kk デジタルカメラ
US8330826B2 (en) * 2009-09-25 2012-12-11 Eastman Kodak Company Method for measuring photographer's aesthetic quality progress
US9319640B2 (en) * 2009-12-29 2016-04-19 Kodak Alaris Inc. Camera and display system interactivity
JP5640388B2 (ja) * 2010-01-28 2014-12-17 株式会社ニコン 画像処理装置、撮像装置、および画像処理プログラム
EP2731072A4 (en) * 2011-07-07 2015-03-25 Kao Corp FINGER-PRINTED PRINT ANALYSIS METHOD, COSMETIC CONSULTATION METHOD, AND FACE IMAGE GENERATION METHOD
US8660342B2 (en) * 2012-01-24 2014-02-25 Telefonica, S.A. Method to assess aesthetic quality of photographs
CN103218619A (zh) * 2013-03-15 2013-07-24 华南理工大学 一种图像美学评价方法
CN107153838A (zh) * 2017-04-19 2017-09-12 中国电子科技集团公司电子科学研究院 一种照片自动分级方法及装置
CN107481218B (zh) * 2017-07-12 2020-03-27 中国科学院自动化研究所 图像美感评估方法及装置
US10600171B2 (en) * 2018-03-07 2020-03-24 Adobe Inc. Image-blending via alignment or photometric adjustments computed by a neural network
CN112287770B (zh) * 2020-10-10 2022-06-07 武汉大学 一种面向身份识别的人脸质量感知方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Aesthetic Quality Assessment of Photographic Images;Chunjin Song, Bingyin Zhou, Wei Guo;《2016 12th World Congress on Intelligent Control and Automation (WCICA)》;第 3088~3093页 *

Also Published As

Publication number Publication date
CN111008971A (zh) 2020-04-14

Similar Documents

Publication Publication Date Title
CN111008971B (zh) 一种合影图像的美学质量评价方法及实时拍摄指导系统
KR102339915B1 (ko) 셀피를 촬영하도록 사용자를 안내하기 위한 시스템 및 방법
CN105718869B (zh) 一种评估图片中人脸颜值的方法和装置
CN105608447B (zh) 对人体面部微笑表情深度卷积神经网络的检测方法
KR20220150868A (ko) 모션벡터 및 특징벡터 기반 위조 얼굴 검출 방법 및 장치
US8571332B2 (en) Methods, systems, and media for automatically classifying face images
CN108629336B (zh) 基于人脸特征点识别的颜值计算方法
CN106056064A (zh) 一种人脸识别方法及人脸识别装置
CN103902958A (zh) 人脸识别的方法
JP2014516490A (ja) パーソナライズされたプログラム選択のシステムおよび方法
WO2014068567A1 (en) Method and system for predicting personality traits, capabilities and suggested interactions from images of a person
CN109858375A (zh) 活体人脸检测方法、终端及计算机可读存储介质
CN109685713B (zh) 化妆模拟控制方法、装置、计算机设备及存储介质
KR20200012355A (ko) Clm과 가버 웨이블렛을 이용한 얼굴 인증 과정을 구비한 온라인 강의 모니터링 방법
CN110427795A (zh) 一种基于头部照片的属性分析方法、系统和计算机设备
CN111860091A (zh) 人脸图像评估方法和系统、服务器和计算机可读存储介质
CN111259757B (zh) 一种基于图像的活体识别方法、装置及设备
CN110543813B (zh) 一种基于场景的人脸画像、目光计数方法及系统
CN113436735A (zh) 基于人脸结构度量的体重指数预测方法、设备和存储介质
WO2023068956A1 (ru) Способ и система для определения синтетически измененных изображений лиц на видео
CN110363111A (zh) 基于镜头失真原理的人脸活体检测方法、装置及存储介质
CN116758622A (zh) 用于出勤管理系统的数据处理方法、装置、系统及介质
CN110443122A (zh) 信息处理方法及相关产品
Powar et al. Reliable face detection in varying illumination and complex background
CN112579815A (zh) 一种表情数据库的实时训练方法以及表情数据库的反馈机制

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant