CN114707055A - 一种融合图像内容和特征提取的拍照姿势推荐方法 - Google Patents

一种融合图像内容和特征提取的拍照姿势推荐方法 Download PDF

Info

Publication number
CN114707055A
CN114707055A CN202210206062.2A CN202210206062A CN114707055A CN 114707055 A CN114707055 A CN 114707055A CN 202210206062 A CN202210206062 A CN 202210206062A CN 114707055 A CN114707055 A CN 114707055A
Authority
CN
China
Prior art keywords
scene
features
image
picture
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210206062.2A
Other languages
English (en)
Inventor
吴富章
孔彦
沈思成
武延军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Software of CAS
Original Assignee
Institute of Software of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Software of CAS filed Critical Institute of Software of CAS
Priority to CN202210206062.2A priority Critical patent/CN114707055A/zh
Publication of CN114707055A publication Critical patent/CN114707055A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/55Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Biology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Library & Information Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种融合图像内容和几何特征提取的拍照姿势推荐方法,其步骤包括:从用户输入的图像中提取场景语义特征、场景特征、视角特征;将所提取的场景语义特征、场景特征、视角特征按照设定规则进行融合;计算融合所得特征与特征数据库中的特征的相似性,将相似性最高的m个特征对应的姿势图片返回给用户。本发明能满足不同体型、肤色、性别、年龄用户的姿势偏好,在特征提取步骤中引入场景类别信息、纹理信息和视角信息可以更准确的检索到姿势图片库中场景相似的姿势照片,引入语义信息和强标签系统可以更加智能的识别画面中用户可以与之交互拍照的物体,可以满足用户对于姿势推荐的即时性需求。

Description

一种融合图像内容和特征提取的拍照姿势推荐方法
技术领域
本发明属于深度学习、图像检索领域,特别涉及一种融合图像内容和几何特征提取的拍照姿势推荐方法。
背景技术
目前,智能手机的拍照功能正在飞速发展,其摄像头像素、成像质量等越来越高。不少智能手机的拍照功能甚至可以媲美专业相机。在这样的背景下,加上手机的便捷性,使得人们更愿意使用手机来完成个人摄影。不管是专业人士还是业余爱好者,数码摄影对很多人来说都很有趣。据估计,每年有超过10亿张照片被智能手机拍摄。社交网络上的人经常和朋友分享他们的照片。智能手机不断增强的计算能力以及通过网络连接到更强大的计算平台的能力,使它们成为业余摄影师的创作助手,主要的智能手机制造商也已经开始引进设备上的照片增强功能。
但是,拍摄令人满意的照片通常需要专业摄影师的专业知识和经验。和其他视觉艺术一样,由于缺乏类似符号或数学方程式的通用表示,使得传授摄影知识变得困难。许多人的拍照姿势单一而僵硬,不能做出适合当前场景又美观的姿势,在实际生活中也难以快速在互联网上找到适合当前场景的拍照姿势,从而造成像素虽高但作为人像照片质量并不是很令人满意的结果。尽管如此,许多人还是对专业质量的照片很感兴趣,他们希望能够为自己感兴趣的场景或事件创作出类似质量的照片。
为了解决这样一个问题,本发明提出了一个依据拍照场景智能推荐拍照姿势的技术方案及其系统,通过利用深度神经网络提取的不同层次的特征进行基于检索的姿势图片推荐。
目前,国内已有一些拍照姿势推荐的实践,例如通过识别表情信息、输入心情信息以及获取拍摄者与移动终端持有者的关系等信息进行拍照表情和拍照姿势的推荐;通过判断图片中的人脸数量、人脸位置等信息通过参数匹配推荐姿势库中的姿势图片;通过人脸数量和人脸对应的身份信息进行姿势模板的推荐。通过对拍摄者周围的环境信息(GPS定位信息和指南针信息)进行分析,并推荐姿势。此外,还有一些关于构建拍照模板数据库的专利。现有的其他姿势推荐技术还有基于摄影规则的姿势检索推荐和基于美学评分的姿势检索推荐。
以上的技术都没有挖掘场景中的语义信息、场景类别信息以及纹理信息。通过这些丰富的信息进行姿势图片库的检索可以使结果更加多样,满足不同体型、肤色、性别、年龄用户的姿势偏好。另外,引入语义信息可以更加智能的识别画面中用户可以与之交互拍照的物体,如:公园的长椅、楼梯等。
发明内容
针对现有技术中存在的问题,本发明的目的在于提供一种融合图像内容和几何特征提取的拍照姿势推荐方法。本发明包括获取照相的初始图片和用户关注点坐标;依据图片提取图片的场景类别、语义纹理特征、视角特征和用户关注点类别的信息;依据特征与自有数据库中的特征进行相似度计算;最终经过检索返回适合当前场景的若干最佳拍照姿势。本发明智能的向用户快速推荐适合用户所处的当前场景和拍摄视角的拍照姿势,满足用户在拍摄过程中对姿势的需求。依据不同场景提供不同的姿势提示和指导也丰富了拍照功能和提升了拍照体验。另外,本发明关注用户感兴趣的物品和场景。当用户有重点关注和希望交互的物品场景出现时,用户可以点击感兴趣的物品和场景,本发明将依据用户兴趣进行推荐。
本发明的技术方案为:
一种融合图像内容和几何特征提取的拍照姿势推荐方法,其步骤包括:
从用户输入的图像中提取场景语义特征、场景特征、视角特征;
将所提取的场景语义特征、场景特征、视角特征按照设定规则进行融合;
计算融合所得特征与特征数据库中的特征的相似性,将相似性最高的m个特征对应的姿势图片返回给用户。
进一步的,提取所述场景语义特征的方法为:将输入图像按原图面积的
Figure BDA0003523346650000021
划分为图像左子图、右子图、上子图和下子图;采用语义分割模型提取每一张子图的二维特征图G,将每一二维特征图G压缩为一个一维向量作为对应子图的场景语义信息,记为fs_left,fs_right,fs_up,fs_down;然后将各子图的场景语义信息进行加权拼接得到所述场景语义特征fs
进一步的,当用户点击所述图像中的一个目标作为重点关注的场景或希望与之进行交互的物品,则将用户所点击坐标(px,py)将作为所述语义分割模型的输入,将输出的二维特征图G中对应的二维坐标
Figure BDA0003523346650000022
对应的类别P作为强标签。
进一步的,利用余弦距离公式计算融合所得特征finput与特征库中每一个特征
Figure BDA0003523346650000023
之间的相似性similarity;将姿势图片数据库中图片类别为P的置信度大于设定阈值,且图片的特征与融合所得特征finput相似性最高的m个姿势图片返回给用户。
进一步的,采用残差网络提取所述视角特征、所述场景特征;所述残差网络模型采用ResNet-50模型作为基础网络结构,所述ResNet-50模型的最后一个卷积模块分别连接用于场景特征提取的第一平均池化层、第二平均池化层,以及分别连接第三平均池化层、第四平均池化层;第三平均池化层与第一全连接层连接,用于输出场景类别,第四平均池化层与第二全连接层连接,用于输出视角类别;其中,训练所述残差网络的方法为:首先收集不同场景的图片数据集,然后对于图片数据集中每一图片,检测该图片中的消失点V(vx,vy),并通过
Figure BDA0003523346650000031
对该图片进行视角分类,根据该图片的视觉分类结果View标注该图片的场景类别,其中Linput为该图片的长度、Winput为该图片的宽度;然后利用根据标注结果所得包含N张图片的训练数据集X=[x1,x2,x3,…,xN]及对应的场景类别标签和视角类别标签,训练所述残差网络,训练所述残差网络时所采用的损失函数包括
Figure BDA0003523346650000032
Figure BDA0003523346650000033
其中,Viewi表示第i张图片标注的视角类别标签,yi表示第i张图片标注的场景类别标签,fview(xi)为以第i张照片xi为输入时所述模型输出的视角类别,fscene(xi)为以第i张照片xi为输入时所述模型输出的场景类别。
进一步的,将训练后的所述ResNet-50模型的最后一个卷积模块输出作为场景特征fc_1×1;以及将训练后的所述ResNet-50模型的最后一个卷积模块中的平均池化层的尺寸参数改为2×2,并将该卷积模块输出的特征图fc_2×2压缩为一维向量fc_2×2;然后将场景特征fc_1×1、一维向量fc_2×2作为所述场景特征
进一步的,将所述场景语义特征、场景特征、视角特征分别进行L2范数归一化后进行加权融合,得到融合后的特征。
进一步的,将姿势图片数据库D中的每张照片进行特征提取,并将所提取的场景语义特征、场景特征、视角特征按照设定规则进行融合,得到对应的特征库Df
一种服务器,其特征在于,包括存储器和处理器,所述存储器存储计算机程序,所述计算机程序被配置为由所述处理器执行,所述计算机程序包括用于执行上述方法中各步骤的指令。
一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现上述方法的步骤。
本发明的优点如下:
本发明技术方案提出的系统逻辑可以返回多样的姿势照片,满足不同体型、肤色、性别、年龄用户的姿势偏好。在特征提取步骤中引入场景类别信息、纹理信息和视角信息可以更准确的检索到姿势图片库中场景相似的姿势照片,引入语义信息和强标签系统可以更加智能的识别画面中用户可以与之交互拍照的物体,如:公园的长椅、楼梯等。本发明方法将具有较强的可解释性、可修改性和鲁棒性。通过实验证明用本技术方案提供的系统能较快速的对新的场景做出反应,可以满足用户对于姿势推荐的即时性需求。
附图说明
图1为本发明的方法流程图。
图2为语义分割细节子图切分示例图;
(a)上下分割,(b)左右分割。
图3为场景分类、视角特征示例图。
具体实施方式
下面结合附图对本发明进行进一步详细描述,所举实例只用于解释本发明,并非用于限定本发明的范围。
本技术方案希望通过图像特征相似性比对和图片数据库检索相结合的方式寻找场景照片与姿势的非线性映射关系。如图1所示,本技术方案整体上分为四步,由输入图片开始,首先进行图像的特征提取,并且将三组特征按一定规则融合,接下来将所得特征值与特征数据库中的特征进行比对,最终进入姿势图片数据库中进行检索。如果用户点击了感兴趣的物品或场景,用户点击的坐标将会作为另一个输入进入语义分割网络,进而识别到强标签,并有针对性的推荐包含用户关注的场景或希望与之交互的物品。此外,为了构建姿势图片库的特征数据库,也需要对姿势图片库的图片进行相同步骤的特征提取。
姿势图片库和特征库准备
收集游客照片N张,从中挑选较为优秀的(一般由摄影师或有一定摄影经验的人指导被拍摄者进行摄影)单人照片,构建姿势图片数据库D。对照片的要求包括:背景清晰、场景多样、姿势美观。
本发明的步骤包括:
步骤一:场景语义特征提取和强标签的识别。本技术方案采用语义分割模型Pyramid Scene Parsing Network(PSPNet)和50层深度残差网络(ResNet50)作为基本的模型结构,目的是挖掘图像场景类别信息、语义信息、图片纹理信息以及照片的视角信息。ResNet-50模型的最后一个卷积模块分别连接用于场景特征提取的第一平均池化层、第二平均池化层,以及分别连接第三平均池化层、第四平均池化层;第三平均池化层与第一全连接层连接,用于输出场景类别,第四平均池化层与第二全连接层连接,用于输出视角类别。
首先,构造语义分割模型用于提取场景语义特征表示。如图1所示,本技术方案采用PSPNet作为模型的基础网络结构,将PSPNet的输出的二维特征图G压缩为150个分量的一维向量fs_all,其中fs_all中每一分量代表一设定类别分类的像素个数。PSPNet语义分割模型采用开源的ADE20K作为训练数据集,其由包含150种语义信息的2万张图片构成。为了获取和空间位置信息相关的语义信息,本技术方案采用分格提取特征值的方式,即如图2所示,分别按原图面积的
Figure BDA0003523346650000051
提取图像左子图,右子图,上子图和下子图四张子图的场景语义信息,记为fs_left,fs_right,fs_up,fs_down并加上权重并进行特征值拼接(特征值的拼接用
Figure BDA0003523346650000052
运算符表示),通常权重wleft,wright,wup,wdown设置为wall
Figure BDA0003523346650000053
如下所示:
Figure BDA0003523346650000054
得到750维场景语义特征fs=[x1,x2,x3,…,x750]。
另外,如果用户点击了取景框中重点关注的场景或希望与之进行交互的物品(如:椅子,桌子,栏杆,楼梯,草地等),则用户点击的坐标(px,py)也将作为语义分割模型的输入,并将此坐标带入PSPNet模型输出的二维特征图G中,得出二维坐标
Figure BDA0003523346650000055
对应的类别P,由此可知用户关注的强标签为类别P。
步骤二:构造残差网络模型用于提取场景特征表示和视角特征表示。如图1所示,本技术方案采用ResNet-50作为模型的基础网络结构,为提取场景信息和纹理信息,将ResNet-50模型的最后一个卷积模块输出作为图像场景信息的特征图fc_1×1=[y1,y2,y3,…,y2048],如图3所示。为了获取和空间位置相关的场景类别信息,本技术方案还提供了另一种输出作为选择,即将ResNet-50模型的最后一个卷积模块中的平均池化层的尺寸参数由1×1改为2×2,记为特征图fc_2×2,以更方便的获取空间信息,如图3所示。其中,为方便处理,将特征图fc_2×2压缩为一维向量fc_2×2=[z1,z2,z3,…,z8192]。另外,对于视角特征的提取,本方案采用残差网络多任务训练的方式进行训练,训练细节如下(注:ResNet-50模型的最后一个卷积模块中的平均池化层的尺寸参数改为2×2目的在于方便特征提取,在模型训练过程中仍按照尺寸1×1的平均池化层分别加上两个不同大小的全连接层进行双输出的多任务训练,训练完成后在预测阶段再生成两种平均池化层下的场景类别特征,详见图3):
首先,通过[Rother 2002](参见Rother C.A new approach to vanishing pointdetection in architectural environments[J].Image and Vision Computing,2002,20(9-10):647-655)的方法检测场景中的消失点V(vx,vy),并通过如下方式进行视角分类(默认图片长和宽为Linput和Winput):
Figure BDA0003523346650000061
由上式可知,视角分类共分为4类,即将原图进行四等分,类别0、1、2、3分别代表场景消失点位于原图的右上部分、右下部份、左上部分和左下部分的四种类别。
首先收集不同场景的图片数据集(例如Places365公开数据集),标注(草地、沙滩、卧室、咖啡馆等)不同的场景类别,并用上述[Rother 2002]方法结合公式(2)进行视角类别的标注,得到包含N张照片的训练数据集X=[x1,x2,x3,…,xN]及他们对应的场景类别标签和视角类别标签。在模型训练时,模型的输出为场景类别和视角类别。在训练完成后进行特征抽取时,由于本方案将ResNet50的最后一个卷积模块输出做了变更,模型的输出不再是场景类别,模型将更加感知照片的场景纹理信息,并且辅以视角类别的输出,模型也将会对空间方向信息进行感知。
多任务训练中场景特征和视角特征的两个损失函数(Lossscene,Lossview)为均方误差函数L2loss(MSE),写为:
Figure BDA0003523346650000062
Figure BDA0003523346650000063
式中,N表示训练数据集中的照片数量,Viewi表示第i张照片对应的视角类别标签(由于视角类别有4类,Viewi将有4维,对应标签类别值为1,其余值为0),yi表示第i张照片对应的场景类别标签(如应用365个类别的Places365数据集,yi将有365维,对应标签类别值为1,其余值为0),fview(·)的结果为以第i张照片xi为输入时所述模型输出的视角类别,fscene(·)的结果为以第i张照片xi为输入时所述模型输出的场景类别。由此根据输入图片可经过残差网络获得视角特征fview=[v1,v2,v3,v4]。
步骤三:特征融合。根据步骤一中得到的特征向量fs,步骤二中得到的特征fc_1×1,fc_2×2,fview将它们各自进行L2范数归一化:
Figure BDA0003523346650000071
Figure BDA0003523346650000072
Figure BDA0003523346650000073
Figure BDA0003523346650000074
并以权重qs,qc_1×1,qc_2×2,qv进行加和(通常qc_1×1和qc_2×2权重值设置为相同,且都为qs权重值的
Figure BDA0003523346650000075
qv权值与qs相同):
finput=fs_l2·qs+fc_1×1_l2·qc_1×1+fc_2×2_l2·qc_2×2+fview_l2·qv (9)
步骤四:制作特征库。将姿势图片数据库D中的每张照片进行前文所述的特征提取过程,并存储为特征库Df,其中的第i张图片对应的特征值记为
Figure BDA0003523346650000076
Figure BDA0003523346650000077
步骤五:特征库比对。依次利用余弦距离公式,计算finput与特征库中每一个
Figure BDA0003523346650000078
之间的相似性similarity:
Figure BDA0003523346650000079
步骤六:姿势图片库检索。依据步骤三得到的相似度进行排序,返回前m个结果,并在图片库中返回这m个特征对应的m张照片,即为本技术方案在当前场景下推荐的m个姿势。若存在强标签,则进行筛选以80%以上置信度分类为类别P的照片进行相似度排序并返回推荐结果。
尽管为说明目的公开了本发明的具体实施例,其目的在于帮助理解本发明的内容并据以实施,本领域的技术人员可以理解:在不脱离本发明及所附的权利要求的精神和范围内,各种替换、变化和修改都是可能的。因此,本发明不应局限于最佳实施例所公开的内容,本发明要求保护的范围以权利要求书界定的范围为准。

Claims (10)

1.一种融合图像内容和几何特征提取的拍照姿势推荐方法,其步骤包括:
从用户输入的图像中提取场景语义特征、场景特征、视角特征;
将所提取的场景语义特征、场景特征、视角特征按照设定规则进行融合;
计算融合所得特征与特征数据库中的特征的相似性,将相似性最高的m个特征对应的姿势图片返回给用户。
2.根据权利要求1所述的方法,其特征在于,提取所述场景语义特征的方法为:将输入图像按原图面积的
Figure FDA0003523346640000011
划分为图像左子图、右子图、上子图和下子图;采用语义分割模型提取每一张子图的二维特征图G,将每一二维特征图G压缩为一个一维向量作为对应子图的场景语义信息,记为fs_left,fs_right,fs_up,fs_down;然后将各子图的场景语义信息进行加权拼接得到所述场景语义特征fs
3.根据权利要求2所述的方法,其特征在于,当用户点击所述图像中的一个目标作为重点关注的场景或希望与之进行交互的物品,则将用户所点击坐标(px,py)将作为所述语义分割模型的输入,将输出的二维特征图G中对应的二维坐标
Figure FDA0003523346640000012
对应的类别P作为强标签。
4.根据权利要求3所述的方法,其特征在于,利用余弦距离公式计算融合所得特征finput与特征库中每一个特征
Figure FDA0003523346640000013
之间的相似性similarity;将姿势图片数据库中图片类别为P的置信度大于设定阈值,且图片的特征与融合所得特征finput相似性最高的m个姿势图片返回给用户。
5.根据权利要求1所述的方法,其特征在于,采用残差网络提取所述视角特征、所述场景特征;其中,所述残差网络模型采用ResNet-50模型作为基础网络结构,所述ResNet-50模型的最后一个卷积模块分别连接用于场景特征提取的第一平均池化层、第二平均池化层,以及分别连接第三平均池化层、第四平均池化层;第三平均池化层与第一全连接层连接,用于输出场景类别,第四平均池化层与第二全连接层连接,用于输出视角类别;训练所述残差网络的方法为:首先收集不同场景的图片数据集,然后对于图片数据集中每一图片,检测该图片中的消失点V(vx,vy),并通过
Figure FDA0003523346640000014
对该图片进行视角分类,根据该图片的视觉分类结果View标注该图片的场景类别,其中Linput为该图片的长度、Winput为该图片的宽度;然后利用根据标注结果所得包含N张图片的训练数据集X=[x1,x2,x3,…,xN]及对应的场景类别标签和视角类别标签,训练所述残差网络,训练所述残差网络时所采用的损失函数包括
Figure FDA0003523346640000021
Figure FDA0003523346640000022
其中,Viewi表示第i张图片标注的视角类别标签,yi表示第i张图片标注的场景类别标签,fview(xi)为以第i张照片xi为输入时所述模型输出的视角类别,fscene(xi)为以第i张照片xi为输入时所述模型输出的场景类别。
6.根据权利要求5所述的方法,其特征在于,将训练后的所述ResNet-50模型的最后一个卷积模块输出作为场景特征fc_1×1;以及将训练后的所述ResNet-50模型的最后一个卷积模块中的平均池化层的尺寸参数改为2×2,并将该卷积模块输出的特征图fc_2×2压缩为一维向量fc_2×2;然后将场景特征fc_1×1、一维向量fc_2×2作为所述场景特征。
7.根据权利要求1所述的方法,其特征在于,将所述场景语义特征、场景特征、视角特征分别进行L2范数归一化后进行加权融合,得到融合后的特征。
8.根据权利要求1所述的方法,其特征在于,将姿势图片数据库D中的每张照片进行特征提取,并将所提取的场景语义特征、场景特征、视角特征按照设定规则进行融合,得到对应的特征库Df
9.一种服务器,其特征在于,包括存储器和处理器,所述存储器存储计算机程序,所述计算机程序被配置为由所述处理器执行,所述计算机程序包括用于执行权利要求1至8任一所述方法中各步骤的指令。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至8任一所述方法的步骤。
CN202210206062.2A 2022-02-28 2022-02-28 一种融合图像内容和特征提取的拍照姿势推荐方法 Pending CN114707055A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210206062.2A CN114707055A (zh) 2022-02-28 2022-02-28 一种融合图像内容和特征提取的拍照姿势推荐方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210206062.2A CN114707055A (zh) 2022-02-28 2022-02-28 一种融合图像内容和特征提取的拍照姿势推荐方法

Publications (1)

Publication Number Publication Date
CN114707055A true CN114707055A (zh) 2022-07-05

Family

ID=82166571

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210206062.2A Pending CN114707055A (zh) 2022-02-28 2022-02-28 一种融合图像内容和特征提取的拍照姿势推荐方法

Country Status (1)

Country Link
CN (1) CN114707055A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115937989A (zh) * 2023-01-19 2023-04-07 苏州市优凡文化科技有限公司 基于缩放处理的在线教育智能解析系统及方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115937989A (zh) * 2023-01-19 2023-04-07 苏州市优凡文化科技有限公司 基于缩放处理的在线教育智能解析系统及方法
CN115937989B (zh) * 2023-01-19 2023-09-22 山东领峰教育科技集团有限公司 基于缩放处理的在线教育智能解析系统及方法

Similar Documents

Publication Publication Date Title
US8332429B2 (en) Photography assistant and method for assisting a user in photographing landmarks and scenes
US9336442B2 (en) Selecting images using relationship weights
US10679041B2 (en) Hybrid deep learning method for recognizing facial expressions
CN111491187B (zh) 视频的推荐方法、装置、设备及存储介质
CN111614897B (zh) 一种基于用户偏好多维度驱动的智能拍照方法
US11783192B2 (en) Hybrid deep learning method for recognizing facial expressions
Zhang et al. A comprehensive survey on computational aesthetic evaluation of visual art images: Metrics and challenges
Zhang et al. Retargeting semantically-rich photos
US11468571B2 (en) Apparatus and method for generating image
He et al. Discovering triangles in portraits for supporting photographic creation
CN114707055A (zh) 一种融合图像内容和特征提取的拍照姿势推荐方法
US20110044530A1 (en) Image classification using range information
Park et al. Estimating the camera direction of a geotagged image using reference images
Farhat et al. Intelligent portrait composition assistance: Integrating deep-learned models and photography idea retrieval
Xu et al. Where should I stand? Learning based human position recommendation for mobile photographing
Yang et al. Segmentation and recognition of multi-model photo event
Farhat et al. CAPTAIN: Comprehensive composition assistance for photo taking
WO2018192244A1 (zh) 一种智能设备的拍摄引导方法
Bhoir et al. A decision-making tool for creating and identifying face sketches
Chen et al. Aesthetic quality inference for online fashion shopping
Farhat et al. Captain: Comprehensive composition assistance for photo taking
CN112861944B (zh) 一种基于混合模态输入的图像检索方法及装置
Li A new method of image classification with photography composition
Liu et al. Mobile photo recommendation system of continuous shots based on aesthetic ranking
Farhat et al. Intelligent Portrait Composition Assistance

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination