CN116195263A - 为数字照片推荐位置和内容感知过滤器 - Google Patents

为数字照片推荐位置和内容感知过滤器 Download PDF

Info

Publication number
CN116195263A
CN116195263A CN202180061517.XA CN202180061517A CN116195263A CN 116195263 A CN116195263 A CN 116195263A CN 202180061517 A CN202180061517 A CN 202180061517A CN 116195263 A CN116195263 A CN 116195263A
Authority
CN
China
Prior art keywords
image
images
human interaction
classification model
training data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202180061517.XA
Other languages
English (en)
Inventor
A·苏布拉曼尼亚
S·萨哈
J·D·邓恩
K·德伊
S·纳加尔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of CN116195263A publication Critical patent/CN116195263A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/30Scenes; Scene-specific elements in albums, collections or shared content, e.g. social network photos or video
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules
    • H04N23/64Computer-aided capture of images, e.g. transfer from script file into camera, check of taken image quality, advice or proposal for image composition or decision on when to take image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/211Selection of the most significant subset of features
    • G06F18/2113Selection of the most significant subset of features by ranking or filtering the set of features, e.g. using a measure of variance or of feature cross-correlation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/10Recognition assisted with metadata

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Signal Processing (AREA)
  • Evolutionary Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Medical Informatics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Algebra (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Processing Or Creating Images (AREA)

Abstract

由图像分类模型推荐数字照片过滤器和相关设置。接收多个图像和与所述多个图像中的每个图像相关联的元数据。接收每个图像的人类交互得分。使用相关联的元数据和人类交互得分来生成对图像进行分类的训练数据。训练数据用于得到用于预测具有未知人类交互得分的图像的人类交互得分的图像分类模型。响应于确定用户正在准备利用设备来捕获图像,确定使用图像分类模型的至少一个推荐的图像捕获设置。在设备的显示器上显示推荐的图像捕获设置。

Description

为数字照片推荐位置和内容感知过滤器
背景技术
本发明涉及分析和推荐照片过滤器设置。更具体地说,本发明涉及用于基于识别满足指定标准的已知位置和对象来在移动设备的用户界面上推荐照片过滤器的系统和方法。
发明内容
本发明的实施例涉及一种用于推荐相机设置的计算机实现的方法。该方法可以包括接收多个图像和与所述多个图像中的每个图像相关联的元数据,以及接收所述多个图像中的每个图像的人类交互得分。该方法可以包括通过使用相关联的元数据和人类交互得分对所述多个图像进行分类来生成训练数据。另外,该方法可以包括使用训练数据来得到用于预测具有未知人类交互得分的图像的人类交互得分的图像分类模型。此外,该方法可以包括确定用户正准备利用设备来捕获图像,并且响应于此,使用图像分类模型来确定至少一个推荐的图像捕获设置。推荐的图像捕获设置可以显示在设备的显示器上。
在实施例中,通过使用相关联的元数据和人类交互得分对所述多个图像进行分类来生成训练数据可以包括:确定所述多个图像中的每个图像的位置。
在实施例中,通过使用相关联的元数据和人类交互得分对所述多个图像进行分类来生成训练数据可以包括:确定所述多个图像中的每个图像的场景类型,以及将所确定的场景类型与所述多个图像中的每个图像相关联。
在一个实施例中,用于预测具有未知人类交互得分的图像的人类交互得分的图像分类模型可以是具有多个向量和多个目标的回归模型。
在一个实施例中,使用训练数据来得到用于预测具有未知人类交互得分的图像的人类交互得分的图像分类模型可以包括得到用于预测具有未知人类交互得分的图像的人类交互得分的经修正的图像分类模型。可以通过生成补充训练数据并且使用补充训练数据来更新图像分类模型来得到经修正的图像分类模型。
补充训练数据可以通过以下步骤生成:(a)选择第一图像,所述第一图像具有第一场景类型;(b)从所选择的第一图像生成两个或更多个测试图像,其中,每个测试图像是使用两个或更多个不同的图像捕获设置中的一个图像捕获设置生成的;(c)从一组人类用户接收每个所述测试图像的人类交互得分;以及(d)将所接收的人类交互得分与相应测试图像中的每个测试图像相关联。
在实施例中,使用图像分类模型来确定至少一个推荐的图像捕获设置可以包括:在相机的视场中捕获第一图像,以及使用所述图像分类模型来确定用于第一图像的图像捕获设置。
在一个实施例中,使用训练数据来得到用于预测具有未知人类交互得分的图像的人类交互得分的图像分类模型可以包括:(a)接收来自用户的输入,其中所述用户接受所述推荐的图像捕获设置;(b)使用所述推荐的图像捕获设置来捕获图像;(c)通过生成补充训练数据来得到用于预测具有未知人类交互得分的图像的人类交互得分的经修正的图像分类模型;以及(d)使用补充训练数据来更新图像分类模型。补充训练数据可以通过以下步骤生成:(a)从一个或多个人类用户获得所捕获的图像的人类交互得分;(b)将所述人类交互得分与所捕获的图像相关联;以及(c)使用补充训练数据来更新所述图像分类模型。
根据其它实施例,提供了一种用于推荐相机设置的计算机程序产品。该计算机程序产品包括计算机可读存储设备,所述计算机可读存储设备存储与其一起实施的计算机可读程序代码,所述计算机可读程序代码包括可由计算机执行以执行方法的程序代码。该方法可以包括接收多个图像和与所述多个图像中的每个图像相关联的元数据,以及接收所述多个图像中的每个图像的人类交互得分。该方法可以包括通过使用相关联的元数据和人类交互得分对所述多个图像进行分类来生成训练数据。另外,该方法可以包括使用所述训练数据来得到用于预测具有未知人类交互得分的图像的人类交互得分的图像分类模型。此外,该方法可以包括确定用户正准备利用设备捕获图像,并且响应于此,使用所述图像分类模型来确定至少一个推荐的图像捕获设置。推荐的图像捕获设置可以显示在设备的显示器上。
根据其他实施例,提供了一种用于推荐相机设置的计算机系统。
提供本概述以便以简化的形式介绍将在以下详细描述中进一步描述的一些概念。本发明内容不旨在标识所要求保护的主题的关键特征或必要特征,也不旨在用于帮助确定所要求保护的主题的范围。
附图说明
图1描绘了根据本发明的实施例的云计算环境。
图2描绘了根据本发明实施例的抽象模型层。
图3是根据实施例可以实现的包括永久性存储装置的示例计算机系统的框图。
图4是根据一个或多个实施例的用于使用“照片-共鸣”模型(“photo-resonance”model)来推荐用于拍摄照片的位置和内容感知过滤器设置的过程的流程图。
具体实施方式
用于向用户呈现和推荐数字照片的过滤器的当前方法包括经由正在拍摄照片的设备的软件用户界面呈现用户总是可用的静态预置。另外的方法包括“自动模式”,其中软件分析对象和场景以基于例如双边滤波或直方图增强进行调整。然而,虽然这些方法基于可用的最新算法,但是所提供的设置通常是被固定设置的,其不表达对某些特定实时条件的了解,并且因此可能不吸引所有用户。捕获图像的设备内的特征的另一示例是高动态范围(HDR)成像,其拍摄同一场景的多个镜头并将它们合并以创建平均色调的单个图像。这可能是有帮助的,但是是依赖于固定配置来起作用的后处理技术。
为了消除对不考虑人与照片交互的预先配置的软件预置的依赖,公开了一种用于预测人类交互得分(human interaction score)的图像分类模型(“照片-共鸣”模型)。根据各种实施例,可以从现有在线图像及其标记的人类情绪或人群情感(例如来自社交媒体页面的“喜欢的”或“最喜爱的”)的分析中得到“照片-共鸣”模型。该模型的一般化可进一步用于在用户体验(UX)内重新定位过滤器,其中最流行的过滤器在顶部,或者重新配置过滤器以使用抢先属性来显示最流行的设置。
通过使用根据实施例的“照片-共鸣”模型,可以得到动态自动增强并且可以将其用于对相机上的照片过滤器和相关联的设置重新排名以仅推荐在UX中流行的设置。将GPS位置和对该位置周围最流行照片的分析结合到模型中可以动态地提供更快和更准确的自动增强预置的创建。通过结合人群情感分析,可以实时确定地理位置处最流行类型或类别的过滤器的趋势变化。该模型可以使用机器学习来通过自动调整来改进其自身并且连续地变换用户体验。
在一个实施例中,基于捕获照片的图像和主题的设备的GPS位置,“照片-共鸣”模型可以分析相同位置和主题的其他图像,以动态地创建要实时使用的“最佳”自动增强预置。例如,可以分析在华盛顿特区最流行的樱花的图像,以得到推荐的自动增强预置,其减少了高亮显示以防止图像的过度曝光,因为樱花主题通常在颜色上比照片中的其他元素更亮。作为另一个例子,在亚利桑那州的Antelope Canyon,照片的典型主要主题将是红色砂岩,这意味着最流行的照片可具有“温暖”的感觉,并且“照片-共鸣”模型可推荐通过降低蓝色像素的强度来增强主题砂岩的颜色的设置。因此,很可能由该模型分析的大多数流行图像将具有较低的蓝色像素计数,并且“照片-共鸣”模型可以达到动态“自动增强”预置,其推荐提供暖色调的设置。
应当理解,尽管本公开包括关于云计算的详细描述,但是本文所陈述的教导的实现不限于云计算环境。相反,本发明的实施例能够结合现在已知或以后开发的任何其它类型的计算环境来实现。
云计算是一种服务递送模型,用于实现对可配置计算资源(例如,网络、网络带宽、服务器、处理、存储器、存储、应用、虚拟机和服务)的共享池的方便的按需网络访问,所述可配置计算资源可以以最小的管理努力或与服务的供应商的交互来快速供应和释放。该云模型可以包括至少五个特性、至少三个服务模型和至少四个部署模型。
特性如下:
按需自助服务:云消费者可以单方面地自动地根据需要提供计算能力,诸如服务器时间和网络存储,而不需要与服务的供应商进行人类交互。
广阔的网络接入:在网络上可用的能力,并且通过促进由异构的薄或厚客户机平台(例如,移动电话、膝上型计算机和PDA)使用的标准机制来访问。
资源池:供应商的计算资源被集中以使用多租户模型来服务多个消费者,其中不同的物理和虚拟资源根据需求被动态地分配和重新分配。在某种意义上与位置无关,因为消费者通常不控制或不知道所提供的资源的确切位置,但是能够在较高抽象级别(例如国家、州或数据中心)指定位置。
快速弹性:在一些情况下,可以快速且弹性地提供快速向外扩展的能力和快速向内扩展的能力。对于消费者,可用于提供的能力通常看起来不受限制,并且可以在任何时间以任何数量购买。
测量服务:云系统通过利用在适合于服务类型(例如,存储、处理、带宽和活动用户账户)的某一抽象级别的计量能力来自动地控制和优化资源使用。可以监视、控制和报告资源使用,从而为所利用服务的供应商和消费者两者提供透明性。
服务模型如下:
软件即服务(SaaS):提供给消费者的能力是使用在云基础设施上运行的供应商的应用。应用可通过诸如web浏览器(例如,基于web的电子邮件)等瘦客户机界面从各种客户机设备访问。消费者不管理或控制包括网络、服务器、操作系统、存储、或甚至个别应用能力的底层云基础结构,可能的例外是有限的用户专用应用配置设置。
平台即服务(PaaS):提供给消费者的能力是将消费者创建或获取的应用部署到云基础设施上,该消费者创建或获取的应用是使用由供应商支持的编程语言和工具创建的。消费者不管理或控制包括网络、服务器、操作系统或存储的底层云基础设施,但具有对部署的应用和可能的应用托管环境配置的控制。
基础设施即服务(IaaS):提供给消费者的能力是提供处理、存储、网络和消费者能够部署和运行任意软件的其它基本计算资源,所述软件可以包括操作系统和应用。消费者不管理或控制底层云基础设施,但具有对操作系统、存储、部署的应用的控制,以及可能对选择的联网组件(例如,主机防火墙)的有限控制。
部署模型如下:
私有云:云基础设施仅为组织操作。它可以由组织或第三方管理,并且可以存在于建筑物内或建筑物外。
社区云:云基础设施由若干组织共享,并且支持具有共享关注(例如,任务、安全要求、策略和合规性考虑)的特定社区。它可以由组织或第三方管理,并且可以存在于建筑物内或建筑物外。
公共云:云基础设施可用于一般公众或大型工业群体,并且由销售云服务的组织拥有。
混合云:云基础设施是两个或更多云(私有、社区或公共)的组合,所述云保持唯一实体,但是通过使数据和应用能够移植的标准化或私有技术(例如,用于云之间的负载平衡的云突发)绑定在一起。
云计算环境是面向服务的,专注于无状态、低耦合、模块性和语义互操作性。在云计算的核心是包括互连节点的网络的基础设施。
现在参考图1,描绘了说明性云计算环境150。如图所示,云计算环境150包括云消费者使用的本地计算设备可以与其通信的一个或多个云计算节点110,所述本地计算设备诸如例如个人数字助理(PDA)或蜂窝电话154A、台式计算机154B、膝上型计算机154C和/或汽车计算机系统154N。另外,云计算节点110可以包括“智能电话”或配备有处理器、存储器、相机和用于位置确定的GPS电路和模块的数字相机(图1中未示出)。节点110可以彼此通信。它们可以被物理地或虚拟地分组在一个或多个网络中(未示出),诸如如上文描述的私有云、社区云、公共云或混合云或其组合。这允许云计算环境150提供基础设施、平台和/或软件作为服务,云消费者不需要为其维护本地计算设备上的资源。应当理解,图1中所示的计算设备154A-N的类型仅旨在说明,并且计算节点110和云计算环境150可以在任何类型的网络和/或网络可寻址连接(例如,使用web浏览器)上与任何类型的计算机化设备通信。
现在参考图2,示出了由云计算环境150(图1)提供的一组功能抽象层。应当预先理解,图2中所示的组件、层和功能仅旨在说明,并且本发明的实施例不限于此。如所描绘的,提供了以下层和相应的功能:
硬件和软件层210包括硬件和软件组件。硬件组件的示例包括:主机211;基于RISC(精简指令集计算机)架构的服务器212;服务器213;刀片服务器214;存储设备215;以及网络和联网组件216。在一些实施例中,软件组件包括网络应用服务器软件217和数据库软件218。
虚拟化层230提供抽象层,从该抽象层可以提供虚拟实体的以下示例:虚拟服务器231;虚拟存储器232;虚拟网络233,包括虚拟专用网络;虚拟应用和操作系统234;以及虚拟客户机235。
在一个示例中,管理层250可以提供以下描述的功能。资源供应251提供计算资源和用于在云计算环境内执行任务的其他资源的动态采购。计量和定价252提供在云计算环境中利用资源时的成本跟踪,以及用于消耗这些资源的记帐或发票。在一个示例中,这些资源可以包括应用软件许可证。安全性为云消费者和任务提供身份验证,以及为数据和其他资源提供保护。用户门户253为消费者和系统管理员提供对云计算环境的访问。服务级别管理254提供云计算资源分配和管理,使得满足所需的服务级别。服务水平协议(SLA)规划和履行255为云计算资源提供预先安排和采购,其中根据SLA预期未来需求。
工作负载层270提供可以利用云计算环境的功能的示例。可以从该层提供的工作负载和功能的示例包括:地图绘制和导航271;软件开发和生命周期管理272;虚拟教室教育传送273;数据分析处理274;交易处理275;和“照片-共鸣”模型276。
现在参考图3,示出了图示在实施例中可以嵌入在云计算节点110中的计算机系统300的框图。在另一实施例中,计算机系统300可以嵌入在能够连接到网络并且配备有相机和用于确定位置的能力(例如,GPS收发器)的“智能电话”中。在又一实施例中,计算机系统300可以嵌入在能够连接到网络并且包括用于确定位置的能力的传统数字相机中,例如GPS收发器。如图所示,计算机系统300包括处理器单元302、存储器单元304、永久性存储装置306、通信单元312、输入/输出单元314、显示器316和系统总线310。诸如“照片-共鸣”模型276之类的计算机程序通常被存储在永久性存储装置306中,直到需要执行它们为止,此时,程序被带入存储器单元304中,使得它们可以由处理器单元302直接访问。处理器单元302通过使用处理器302连同读和/或写请求一起给予存储器304的地址来选择存储器单元304的一部分以进行读和/或写。通常,在地址处对编码指令的读取和解释使得处理器302获取在随后地址或某个其它地址处的后续指令。处理器单元302、存储器单元304、永久性存储装置306、通信单元312、输入/输出单元314和显示器316通过系统总线310彼此接口。
现在参考图4,根据一个或多个实施例的用于使用“照片-共鸣”模型来推荐用于拍摄照片的位置和内容感知过滤器设置的机器学习过程400的流程图。在402,系统可聚集来自各种数据源,例如http://www.image-net.org/或来自具有众包反馈数据的社交媒体网站的照片。系统还可以从图像聚集社交媒体交互(例如,“喜欢”),以便创建图像和社交媒体反馈的初始数据集以供分析。到这些图像和关联数据的链接可以作为记录存储在数据库中。
在404,系统可以基于来自402的针对每个图像的社交媒体交互来分配人类交互或共鸣得分。在操作404中,系统还可以使用计算机视觉或现有的卷积神经网络(CNN)训练器和分类器(例如MIT场所365)来确定和分类在每个图像中显示的场景(以及如果可能的话,地理位置)。系统可以直接从相关联的图像元数据或通过对象识别来确定在线图像的地理位置。图像位置数据稍后将与实时期望图像的位置进行比较,以确定在计算推荐的过滤器设置时的相关性。在操作404中,系统还可以使用诸如Python中的exifead和R编程语言中的read_exif的通用工具来从图像中提取元数据。标准照片文件格式,例如JPEG(在数字相机和电话处理器中最常用的)或TIFF,通常将该元数据作为开放可用的EXIF数据存储在数据文件中。
所公开的实施例的各个方面要求照片图像或相机的视野中的图像按场景分类。设想了多个不同的场景。“场景”可以由图像中的对象如何被取景来定义,例如,极宽的角度、广角、全(对象的头到趾)、中等角度、中等特写、特写或极特写。可以基于相对于对象的相机角度来定义“场景”,例如,在眼睛高度、高角度(相机向下看对象)或低角度(相机向上看对象)等。“场景”可以基于帧中的视觉元素来定义,例如,无生命的自然元素,如树、山、河、湖、雪、雨、季节、岩石、沙、草和花。帧中的视觉元素可以包括像狗、猫、马或鸟的有生命的自然元素。帧中的视觉元素可以包括人。帧中的视觉元素可以包括人造物体,如房屋、建筑物、汽车、自行车、墙壁、船等。帧中的视觉元素可以包括图标或广泛可识别的人造物体,例如埃菲尔铁塔、美国总统在南达科他州的拉什莫尔山的雕刻、华盛顿特区的华盛顿纪念碑、或迪斯尼乐园主题公园的睡美人城堡。“场景”可以由其地理位置来定义。因此,可以基于这些镜头类型、视觉元素和地理位置中的一个或多个来定义“场景”。应当理解,可能的视觉元素不限于本段中列出的那些。
从图像文件提取的元数据可以包括地理位置、相机设置、一天中的时间、一年中的天、以及其他相关数据。从在线图像收集的元数据的示例可以包括拍摄图像时的光圈设置(表示为F数)、拍摄图像时的对比度设置、用于记录图像的数字变焦比(其可以表示为小数值或分数或以文本表示,例如“OFF”,以指定不使用数字变焦)、记录图像时的相机的曝光偏差设置(通常以STOP指定)、用于记录图像的曝光程序(例如光圈优先、快门优先等)、用于记录图像的曝光时间(通常以秒为整数或分数指定)(例如1/5)或小数(例如1.8)、拍摄图像时是否闪光激发、以及任何可能的特殊模式(例如“减少红眼”)和镜头的实际焦距(通常以毫米表示)。
图像元数据的进一步示例包括相对于拍摄图片的平均海平面的GPS高度,其中负值将指示图像在平均海平面以下拍摄,拍摄图片的GPS纬度,通常以度、分和秒、在北半球或南半球中来指定,拍摄图片的GPS经度,通常也以度、分和秒以及在主子午线的东或西来指定,拍摄图像时的(等效)胶片速度,通常使用ISO标度来表达,拍摄图像时使用的曝光计量模式(例如,平均、点、多点),存储在图像中的旋转信息,通常由相机的定向传感器设置以反映记录图像时相机的定向,图像的饱和度(通常正常、高或低),相机使用的场景捕获程序的类型(例如,标准、夜晚、人像),图像的锐度(例如,正常、硬或软),拍摄图像时快门的速度,通常作为整数或分数(例如1/5)或小数(例如1.8)以秒为单位指定,从焦点到对象的距离,通常以米为单位指定以及当拍摄图像时相机的白平衡设置。
另外,图像元数据可以包括数字图像中的每个图像通道的统计数据。例如,可以提供RGB图像的红色、蓝色和绿色通道中的每个通道中的像素的平均颜色值。除了平均值之外,还可以提供其他描述性统计,例如颜色通道值的标准偏差。元数据可以包括关于图像的亮度或发光度的统计,诸如图像的亮度值的平均值、标准偏差和方差。该列表不是穷举的,并且系统可以收集关于图像可用的任何元数据。
最后在404,系统可以将共鸣得分、GPS位置、场景信息和以上收集的适当图像元数据与特定照片相关联,并且将其一起存储在数据库308中以用作“照片-共鸣”模型的训练数据。
在406,系统可以使用训练数据得到“照片-共鸣”模型,其可以是将情绪与来自在404中提取的元数据的各种数据因素相关的多向量/多目标回归模型,所述元数据包括GPS位置、场景、一天中的时间、一年中的时间、颜色、色调和亮度。在各种实施例中,模型可以是支持向量机(SVM)。在各种实施例中,模型可以是监督学习模型。该模型可以用于根据共鸣得分对未包括在训练数据中的照片进行分类。换言之,模型可以预测具有未知共鸣得分的照片的共鸣得分。训练数据照片可以按照它们的共鸣得分来排序,只有那些最高排序的过滤器设置最终变成可行的推荐,其将被实时呈现给摄影师以用于决定是否接受新的设置。使用推荐设置捕获的照片可例如在在线社交媒体平台中呈现给其他人。如果具有接受预置的照片随后从其他观看者引出或引起积极的情绪,则针对该场景或照片类型的那些相机设置将被推销,并且被用于对“照片-共鸣”模型进行改变。在结果排名数据库中可以推销平均比用不同相机设置拍摄的类似照片“喜欢”更多的预置。在排序中可以降级平均起来比用不同相机设置拍摄的类似照片表现得更低的预置。可以更经常地将较高排序的预置应用于期望生成更多“喜欢”(正面情绪)的照片,同时可以改变和重试较低排序的预置,直到性能改善。可以基于所分析的场景的分类和GPS位置来标记经排序的结果。
在各种实施例中,可以验证模型预测具有未知共鸣得分的照片的共鸣得分的能力。如果该模型不能预测一般图像或特定场景类型的图像的共鸣得分,则可以通过创建在社交媒体上具有阈值数量的视图或交互的频繁在线用户的控制或测试组来细化、修订或更新该模型。然后,系统可以将自动增强预置的随机集合应用于某些“测试”图像,并且将这些图像在社交媒体上反馈给人类测试者组,以学习在不同相机设置或模拟相机设置下情绪的变化。如果使用第一设置的特定测试图像比使用其它设置的相同测试图像被更多的人“喜欢”,则可以推销第一自动增强预置。推销可以通过对于自动增强预置被人们接受的每个实例添加正奖励值来完成。可以用负罚值来对具有较少“喜欢”的那些图像评分,并且可以移除或改变这些图像以创建新的自动增强预置,可以再次将其显示给测试组。观看者从多个可能的自动增强预置中选择具有特定自动增强预置的图像的预期可能性将与总正奖励值减去总负惩罚值成比例。在另一个实施例中,系统可以随机地选择或创建新的或改变的自动增强预置,并将它们显示给测试组或其子组。结果可以用于利用附加训练数据来改进“照片-共鸣”模型。
操作408可以响应于用户准备拍照而执行。在使用计算机视觉来点击图像之前,系统可以提取诸如GPS位置和场景类型的当前图像属性,并且系统还可以确定当前过滤器或其他设备设置。“照片共鸣”模型可以被应用以创建动态自动增强预置,其可以向用户推荐对诸如颜色、亮度或对比度之类的属性的某些改变,以使图像更接近模型已经确定要引出或唤起更积极的情绪的那些图像。在实施例中,可以通过在UX内重新定位过滤器使得最流行的在顶部来在设备上示出推荐的设置。在另一个实施例中,设备上的过滤器可以被重新配置成代替当前设置抢先地显示最流行的设置。用户然后可以选择接受或拒绝来自“照片-共鸣”模型的推荐。
一旦用户选择了他们期望的过滤器和其他设置并且拍摄了他们的照片,“照片-共鸣”模型可以记录用户在接受或拒绝推荐的设置时的选择,以及用于照片的实际设置。与用户情绪相对应的信号或指示,例如,对于使用动态自动增强预置的图像的“喜欢”或其他输入,可以作为附加训练数据被反馈到“照片-共鸣”模型中。“照片-共鸣”模型还可以记录如果模型不推荐所使用的设置的社交媒体情绪数据。
在各种实施例中,可以在云中运行的一个或多个服务器计算机上执行“照片-共鸣”模型的得到或细化404。然后,可以将照片-共鸣模型的模块部署到智能电话或相机,智能电话或相机可以收集环境和位置参数以使用模型来推荐相机设置。在一个实施例中,可以将照片共鸣模型提供为软件即服务(SaaS)。
本发明可以是任何可能的技术细节集成水平的系统、方法和/或计算机程序产品。计算机程序产品可以包括其上具有计算机可读程序指令的计算机可读存储介质(或多个介质),所述计算机可读程序指令用于使处理器执行本发明的各方面。
计算机可读存储介质可以是能够保留和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质可以是例如但不限于电子存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或前述的任何合适的组合。计算机可读存储介质的更具体示例的非穷举列表包括以下:便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式光盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、诸如上面记录有指令的打孔卡或凹槽中的凸起结构的机械编码装置,以及上述的任何适当组合。如本文所使用的计算机可读存储介质不应被解释为暂时性信号本身,诸如无线电波或其他自由传播的电磁波、通过波导或其他传输介质传播的电磁波(例如,通过光纤线缆的光脉冲)、或通过导线传输的电信号。
本文描述的计算机可读程序指令可以从计算机可读存储介质下载到相应的计算/处理设备,或者经由网络,例如因特网、局域网、广域网和/或无线网络,下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光传输光纤、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或网络接口从网络接收计算机可读程序指令,并转发计算机可读程序指令以存储在相应计算/处理设备内的计算机可读存储介质中。
用于执行本发明的操作的计算机可读程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、集成电路的配置数据,或者以一种或多种编程语言(包括面向对象的编程语言,例如Smalltalk、C++等)和过程编程语言(例如“C”编程语言或类似的编程语言)的任意组合编写的源代码或目标代码。计算机可读程序指令可以完全在用户的计算机上执行,部分在用户的计算机上执行,作为独立的软件包执行,部分在用户的计算机上并且部分在远程计算机上执行,或者完全在远程计算机或服务器上执行。在后一种情况下,远程计算机可以通过任何类型的网络连接到用户的计算机,包括局域网(LAN)或广域网(WAN),或者可以连接到外部计算机(例如,使用因特网服务供应商通过因特网)。在一些实施例中,为了执行本发明的各方面,包括例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA)的电子电路可以通过利用计算机可读程序指令的状态信息来执行计算机可读程序指令以使电子电路个性化。
在此参考根据本发明实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述本发明的各方面。将理解,流程图和/或框图的每个框以及流程图和/或框图中的框的组合可以由计算机可读程序指令来实现。
这些计算机可读程序指令可以被提供给计算机或其他可编程数据处理装置的处理器以产生机器,使得经由计算机或其他可编程数据处理装置的处理器执行的指令创建用于实现流程图和/或框图的一个或多个框中指定的功能/动作的装置。这些计算机可读程序指令还可以存储在计算机可读存储介质中,其可以引导计算机、可编程数据处理装置和/或其他设备以特定方式工作,使得其中存储有指令的计算机可读存储介质包括制品,该制品包括实现流程图和/或框图的一个或多个框中指定的功能/动作的各方面的指令。
计算机可读程序指令还可以被加载到计算机、其他可编程数据处理装置或其他设备上,以使得在计算机、其他可编程装置或其他设备上执行一系列操作步骤,以产生计算机实现的过程,使得在计算机、其他可编程装置或其他设备上执行的指令实现流程图和/或框图的一个或多个框中指定的功能/动作。
附图中的流程图和框图示出了根据本发明的各种实施例的系统、方法和计算机程序产品的可能实现的架构、功能和操作。在这点上,流程图或框图中的每个框可以表示指令的模块、段或部分,其包括用于实现指定的逻辑功能的一个或多个可执行指令。在一些替代实施方案中,框中所注明的功能可不按图中所注明的次序发生。例如,连续示出的两个框实际上可以作为一个步骤来实现,同时、基本同时、以部分或全部时间重叠的方式执行,或者这些框有时可以以相反的顺序执行,这取决于所涉及的功能。还将注意,框图和/或流程图图示的每个框以及框图和/或流程图图示中的框的组合可以由执行指定功能或动作或执行专用硬件和计算机指令的组合的专用的基于硬件的系统来实现。
已经出于说明的目的给出了本发明的各种实施例的描述,但是其不旨在是穷尽的或限于所公开的实施例。在不背离所描述的实施例的范围和精神的情况下,许多修改和变化对于本领域的普通技术人员将是显而易见的。选择本文所使用的术语以最好地解释实施例的原理、实际应用或对市场上存在的技术改进,或使本领域的其他普通技术人员能够理解本文所公开的实施例。

Claims (20)

1.一种用于推荐相机设置的计算机实现的方法,包括:
接收多个图像和与所述多个图像中的每个图像相关联的元数据;
接收所述多个图像中的每个图像的人类交互得分;
通过使用相关联的元数据和人类交互得分对所述多个图像进行分类来生成训练数据;
使用所述训练数据来得到用于预测具有未知人类交互得分的图像的人类交互得分的图像分类模型;
响应于确定用户正准备利用设备来捕获图像,使用所述图像分类模型来确定至少一个推荐的图像捕获设置;以及
在所述设备的显示器上显示所述推荐的图像捕获设置。
2.根据权利要求1所述的方法,其中,通过使用相关联的元数据和人类交互得分对所述多个图像进行分类来生成训练数据还包括:
确定所述多个图像中的每个图像的位置。
3.根据权利要求2所述的方法,其中,通过使用相关联的元数据和人类交互得分对所述多个图像进行分类来生成训练数据还包括:
确定所述多个图像中的每个图像的场景类型;以及
将所确定的场景类型与所述多个图像中的每个图像相关联。
4.根据权利要求1所述的方法,其中,用于预测具有未知人类交互得分的图像的人类交互得分的图像分类模型是具有多个向量和多个目标的回归模型。
5.根据权利要求1所述的方法,其中,使用所述训练数据来得到用于预测具有未知人类交互得分的图像的人类交互得分的图像分类模型还包括:
通过以下步骤得到用于预测具有未知人类交互得分的图像的人类交互得分的经修正的图像分类模型:
通过以下步骤生成补充训练数据:
选择第一图像,所述第一图像具有第一场景类型;
从所选择的第一图像生成两个或更多个测试图像,其中,每个测试图像是使用两个或更多个不同的图像捕获设置中的一个图像捕获设置生成的;
从一组人类用户接收每个所述测试图像的人类交互得分;
将所接收的人类交互得分与相应测试图像中的每个测试图像相关联;以及
使用所述补充训练数据来更新所述图像分类模型。
6.根据权利要求1所述的方法,其中,使用所述图像分类模型来确定至少一个推荐的图像捕获设置还包括:
在所述相机的视场中捕获第一图像;以及
使用所述图像分类模型来确定用于所述第一图像的图像捕获设置。
7.根据权利要求1所述的方法,其中,使用所述训练数据来得到用于预测具有未知人类交互得分的图像的人类交互得分的图像分类模型还包括:
通过以下步骤得到用于预测具有未知人类交互得分的图像的人类交互得分的经修正的图像分类模型:
接收来自用户的输入,其中所述用户接受所述推荐的图像捕获设置;
使用所述推荐的图像捕获设置来捕获图像;
通过以下步骤生成补充训练数据:
从一个或多个人类用户获得所捕获的图像的人类交互得分,
将所述人类交互得分与所捕获的图像相关联;以及
使用所述补充训练数据来更新所述图像分类模型。
8.一种用于推荐相机设置的计算机程序产品,所述计算机程序产品包括:
计算机可读存储设备,所述计算机可读存储设备存储与其一起实施的计算机可读程序代码,所述计算机可读程序代码包括可由计算机执行以执行包括以下步骤的方法的程序代码:
接收多个图像和与所述多个图像中的每个图像相关联的元数据;
接收所述多个图像中的每个图像的人类交互得分;
通过使用相关联的元数据和人类交互得分对所述多个图像进行分类来生成训练数据;
使用所述训练数据来得到用于预测具有未知人类交互得分的图像的人类交互得分的图像分类模型;
响应于确定用户正准备利用设备来捕获图像,使用所述图像分类模型来确定至少一个推荐的图像捕获设置;以及
在所述设备的显示器上显示所述推荐的图像捕获设置。
9.根据权利要求8所述的计算机程序产品,其中,通过使用相关联的元数据和人类交互得分对所述多个图像进行分类来生成训练数据还包括:
确定所述多个图像中的每个图像的位置。
10.根据权利要求9所述的计算机程序产品,其中,通过使用相关联的元数据和人类交互得分对所述多个图像进行分类来生成训练数据还包括:
确定所述多个图像中的每个图像的场景类型;以及
将所确定的场景类型与所述多个图像中的每个图像相关联。
11.根据权利要求8所述的计算机程序产品,其中,用于预测具有未知人类交互得分的图像的人类交互得分的图像分类模型是具有多个向量和多个目标的回归模型。
12.根据权利要求8所述的计算机程序产品,其中,使用所述训练数据来得到用于预测具有未知人类交互得分的图像的人类交互得分的图像分类模型还包括:
通过以下步骤得到用于预测具有未知人类交互得分的图像的人类交互得分的经修正的图像分类模型:
通过以下步骤生成补充训练数据:
选择第一图像,所述第一图像具有第一场景类型;
从所选择的第一图像生成两个或更多个测试图像,其中,每个测试图像是使用两个或更多个不同的图像捕获设置中的一个图像捕获设置生成的;
从一组人类用户接收每个所述测试图像的人类交互得分;
将所接收的人类交互得分与相应测试图像中的每个测试图像相关联;以及
使用所述补充训练数据来更新所述图像分类模型。
13.根据权利要求8所述的计算机程序产品,其中,使用所述图像分类模型来确定至少一个推荐的图像捕获设置还包括:
在所述相机的视场中捕获第一图像;以及
使用所述图像分类模型来确定用于所述第一图像的图像捕获设置。
14.根据权利要求8所述的计算机程序产品,其中,使用所述训练数据来得到用于预测具有未知人类交互得分的图像的人类交互得分的图像分类模型还包括:
通过以下步骤得到用于预测具有未知人类交互得分的图像的人类交互得分的经修正的图像分类模型:
接收来自用户的输入,其中所述用户接受所述推荐的图像捕获设置;
使用所述推荐的图像捕获设置来捕获图像;
通过以下步骤生成补充训练数据:
从一个或多个人类用户获得所捕获的图像的人类交互得分,
将所述人类交互得分与所捕获的图像相关联;以及
使用所述补充训练数据来更新所述图像分类模型。
15.一种用于推荐相机设置的计算机系统,所述计算机系统包括:
一个或多个处理器、一个或多个计算机可读存储器、一个或多个计算机可读有形存储介质、以及存储在一个或多个有形存储介质中的至少一个有形存储介质上的程序指令,所述程序指令用于由所述一个或多个处理器中的至少一个处理器经由所述一个或多个存储器中的至少一个存储器来执行,其中所述计算机系统能够执行包括以下步骤的方法:
接收多个图像和与所述多个图像中的每个图像相关联的元数据;
接收所述多个图像中的每个图像的人类交互得分;
通过使用相关联的元数据和人类交互得分对所述多个图像进行分类来生成训练数据;
使用所述训练数据来得到用于预测具有未知人类交互得分的图像的人类交互得分的图像分类模型;
响应于确定用户正准备利用设备来捕获图像,使用所述图像分类模型来确定至少一个推荐的图像捕获设置;以及
在所述设备的显示器上显示所述推荐的图像捕获设置。
16.根据权利要求15所述的计算机系统,其中,通过使用相关联的元数据和人类交互得分对所述多个图像进行分类来生成训练数据还包括:
确定所述多个图像中的每个图像的位置。
17.根据权利要求16所述的计算机系统,其中,通过使用相关联的元数据和人类交互得分对所述多个图像进行分类来生成训练数据还包括:
确定所述多个图像中的每个图像的场景类型;以及
将所确定的场景类型与所述多个图像中的每个图像相关联。
18.如权利要求15所述的计算机系统,其中,用于预测具有未知人类交互得分的图像的人类交互得分的图像分类模型是具有多个向量和多个目标的回归模型。
19.根据权利要求15所述的计算机系统,其中,使用所述训练数据来得到用于预测具有未知人类交互得分的图像的人类交互得分的图像分类模型还包括:
通过以下步骤得到用于预测具有未知人类交互得分的图像的人类交互得分的经修正的图像分类模型:
通过以下步骤生成补充训练数据:
选择第一图像,所述第一图像具有第一场景类型;
从所选择的第一图像生成两个或更多个测试图像,其中,每个测试图像是使用两个或更多个不同的图像捕获设置中的一个图像捕获设置生成的;
从一组人类用户接收每个所述测试图像的人类交互得分;
将所接收的人类交互得分与相应测试图像中的每个测试图像相关联;以及
使用所述补充训练数据来更新所述图像分类模型。
20.根据权利要求15所述的计算机系统,其中,使用所述图像分类模型来确定至少一个推荐的图像捕获设置还包括:
在所述相机的视场中捕获第一图像;以及
使用所述图像分类模型来确定用于所述第一图像的图像捕获设置。
CN202180061517.XA 2020-09-11 2021-09-08 为数字照片推荐位置和内容感知过滤器 Pending CN116195263A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US17/017,755 US11778309B2 (en) 2020-09-11 2020-09-11 Recommending location and content aware filters for digital photographs
US17/017,755 2020-09-11
PCT/CN2021/117145 WO2022052944A1 (en) 2020-09-11 2021-09-08 Recommending location and content aware filters for digital photographs

Publications (1)

Publication Number Publication Date
CN116195263A true CN116195263A (zh) 2023-05-30

Family

ID=80625885

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202180061517.XA Pending CN116195263A (zh) 2020-09-11 2021-09-08 为数字照片推荐位置和内容感知过滤器

Country Status (6)

Country Link
US (1) US11778309B2 (zh)
JP (1) JP2023541604A (zh)
CN (1) CN116195263A (zh)
DE (1) DE112021003964T5 (zh)
GB (1) GB2614483A (zh)
WO (1) WO2022052944A1 (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20220106730A1 (en) * 2020-10-01 2022-04-07 Haier Us Appliance Solutions, Inc. Dryer appliance with thermal condition detection
TWI811605B (zh) * 2020-12-31 2023-08-11 宏碁股份有限公司 情緒指標預測方法與系統
US20230205812A1 (en) * 2021-12-03 2023-06-29 Awes.Me, Inc. Ai-powered raw file management
CN116112779A (zh) * 2023-02-23 2023-05-12 上海哔哩哔哩科技有限公司 拍摄效果的推荐、装置、存储介质及电子设备

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2191395A4 (en) 2007-08-17 2011-04-20 Google Inc RANKING OF SOCIAL NETWORK OBJECTS
US7805066B2 (en) 2007-12-24 2010-09-28 Microsoft Corporation System for guided photography based on image capturing device rendered user recommendations according to embodiments
US8334898B1 (en) 2011-07-26 2012-12-18 ByteLight, Inc. Method and system for configuring an imaging device for the reception of digital pulse recognition information
US8659667B2 (en) * 2011-08-29 2014-02-25 Panasonic Corporation Recipe based real-time assistance for digital image capture and other consumer electronics devices
US9014500B2 (en) 2012-01-08 2015-04-21 Gary Shuster Digital media enhancement system, method, and apparatus
JP5933637B2 (ja) 2014-06-30 2016-06-15 ユニ・チャーム株式会社 体液吸収性物品用吸収体
US9225897B1 (en) 2014-07-07 2015-12-29 Snapchat, Inc. Apparatus and method for supplying content aware photo filters
US9754355B2 (en) 2015-01-09 2017-09-05 Snap Inc. Object recognition based photo filters
US9706111B2 (en) 2015-07-08 2017-07-11 Santa Clara No-reference image and video quality evaluation
US9906704B2 (en) 2015-09-17 2018-02-27 Qualcomm Incorporated Managing crowd sourced photography in a wireless network
CN105407281A (zh) 2015-11-13 2016-03-16 努比亚技术有限公司 一种基于场景的拍照装置、方法
US9967457B1 (en) * 2016-01-22 2018-05-08 Gopro, Inc. Systems and methods for determining preferences for capture settings of an image capturing device
CN107835364A (zh) 2017-10-30 2018-03-23 维沃移动通信有限公司 一种拍照辅助方法及移动终端
CN108093174A (zh) 2017-12-15 2018-05-29 北京臻迪科技股份有限公司 拍照设备的构图方法、装置和拍照设备
CN111614897B (zh) 2020-05-13 2021-08-10 南京邮电大学 一种基于用户偏好多维度驱动的智能拍照方法

Also Published As

Publication number Publication date
GB202304706D0 (en) 2023-05-17
WO2022052944A1 (en) 2022-03-17
DE112021003964T5 (de) 2023-06-15
US20220086337A1 (en) 2022-03-17
US11778309B2 (en) 2023-10-03
GB2614483A (en) 2023-07-05
JP2023541604A (ja) 2023-10-03

Similar Documents

Publication Publication Date Title
US10924661B2 (en) Generating image capture configurations and compositions
US10839611B2 (en) Mixing virtual image data and physical image data
US10585956B2 (en) Media selection and display based on conversation topics
US9716827B2 (en) Location aware photograph recommendation notification
US10321051B2 (en) Intelligent image enhancement
US11778309B2 (en) Recommending location and content aware filters for digital photographs
US20190147620A1 (en) Determining optimal conditions to photograph a point of interest
US11100357B2 (en) Real-time micro air-quality indexing
US20180005063A1 (en) Removing unwanted objects from a photograph
US11244162B2 (en) Automatic identification of relationships between a center of attention and other individuals/objects present in an image or video
US11048745B2 (en) Cognitively identifying favorable photograph qualities
US10169849B2 (en) Contextual personalized focus for variable depth of field photographs on social networks
US11172123B2 (en) Computer program product for contextual focus/zoom of event celebrities
US11086928B2 (en) Composable templates for managing disturbing image and sounds
US10762125B2 (en) Sorting images based on learned actions
CN110869973B (zh) 基于用户访问标准的动态图片尺寸调整
US11825212B2 (en) Automatic creation of a tiled image based on user interests

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination