CN112508047A

CN112508047A - 生成模拟图像训练数据

Info

Publication number: CN112508047A
Application number: CN202010927129.2A
Authority: CN
Inventors: G.J.博斯; T.E.阿布尔萨德; R.A.伦达尔; J.E.小摩尔
Original assignee: International Business Machines Corp
Current assignee: Qindarui Co.
Priority date: 2019-09-13
Filing date: 2020-09-07
Publication date: 2021-03-16
Also published as: US20210081751A1; US11436470B2

Abstract

生成图像训练数据以训练自主摄影代理以学习给定一组人类用户的偏好和摄影风格。偏好和/或摄影风格包括但不限于：(i)特定年龄段的人类使用者(例如儿童或成人)；(ii)摄影者的专业性(专业摄影者而不是业余爱好者)；(iii)摄影者的健康状况；和/或(iv)摄影者的旅行状态(例如新城市的游客，而不是给定城市的居民)。

Description

生成模拟图像训练数据

技术领域

本发明一般地涉及生成用于人工智能(AI)系统的训练数据的领域。

背景技术

“训练数据”或“训练数据集”的概念是已知的。截至2019年7月22日，Wikipedia关于“训练、验证和测试集”的条目说明如下：“在机器学习中，一项常见的任务是研究和构建可从数据中学习并做出预测的算法。这样的算法通过根据输入数据建立数学模型来进行数据驱动的预测或决策，从而发挥作用。用于构建最终模型的数据通常来自多个数据集……该模型最初适合训练数据集，该训练数据集是用于拟合模型参数(例如，人工神经网络中神经元之间的连接的权重)的一组示例。使用监督学习方法(例如梯度下降或随机梯度下降)在训练数据集上训练模型(例如神经网络或朴素贝叶斯分类器)。实践中，训练数据集通常由输入向量(或标量)和相应的输出向量(或标量)对组成，通常其被表示为目标(或标签)。当前模型与训练数据集一起运行，并为训练数据集中的每个输入向量生成结果，然后将结果与目标进行比较。”

发明内容

根据本发明的一方面，提供了一种计算机执行的方法、计算机程序产品和/或计算机系统，其执行以下操作(不一定按以下顺序)：(i)接收类信息数据集，其包括指示用于一类人的一组个人特征参数值范围的信息，该个人特征参数值范围分别对应于多个个人特征参数；(ii)接收摄影图像数据集，其包括：(a)由人拍摄的多个摄影图像，以及(b)对于每个给定的摄影图像，表征拍摄给定的摄影图像的摄影者的一组个人特征参数值，该组个人特征参数值分别对应于所述多个个人特征参数值；(iii)从所述多个摄影图像中选择多个训练图像，该选择基于分别与该摄影图像相关联的所述个人特征参数值范围和所述个人特征参数值；(iv)生成用于控制摄影机器人的仿人机器逻辑，以拍摄仿人摄影图像，该仿人摄影图像模仿倾向于由以该个人特征参数值范围为特征的人类拍摄的照片；(v)用仿人机器逻辑配置摄影机器人；(vi)通过摄影机器人在仿人机器逻辑的控制下拍摄第一仿人摄影图像。

附图说明

图1是根据本发明的系统的第一实施例的框图；

图2是示出第一实施例方法的流程图，该方法至少部分地由第一实施例系统执行；

图3是示出第一实施例系统的机器逻辑(例如，软件)部分的框图；

图4A是由本发明的第二实施例生成的第一屏幕截图视图；

图4B是由本发明的第二实施例生成的第二屏幕截图视图；

图5A是由本发明的第二实施例生成的第三屏幕截图视图；

图5B是由本发明的第二实施例生成的第四屏幕截图视图；

图6是由本发明的第二实施例生成的第五屏幕截图视图；

图7A是由本发明的第二实施例生成的第七屏幕截图视图；以及

图7B是由本发明的第二实施例生成的第八屏幕截图视图。

具体实施方式

本发明的一些实施例涉及生成用于训练自主摄影代理的图像训练数据，以学习给定的一组人类用户的偏好和摄影风格。偏好和/或摄影风格包括但不限于特定年龄段的人类使用者(例如儿童或成年人)、专业(专业摄影者而非业余爱好者)、健康状况、和/或旅行状况(例如出行的旅行者而不是给定城市的居民)。

该具体实施例部分分为以下子部分：(i)硬件和软件环境；(ii)示例实施例；(iii)进一步的评论和/或实施例；以及(iv)定义。

I.硬件和软件环境

本发明可以是系统、方法和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质，其上载有用于使处理器实现本发明的各个方面的计算机可读程序指令。

计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是，但不限于，电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括以下：便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身，诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如，通过光纤电缆的光脉冲)、或者通过电线传输的电信号。

这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备，或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光传输光纤、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令，并转发该计算机可读程序指令，以供存储在各个计算/处理设备中的计算机可读存储介质中。

用于执行本发明操作的计算机程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码，所述编程语言包括面向对象的编程语言—诸如Smalltalk、C++等，以及常规的过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中，通过利用计算机可读程序指令的状态信息来个性化定制电子电路，例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA)，该电子电路可以执行计算机可读程序指令，从而实现本发明的各个方面。

这里参照根据本发明实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本发明的各个方面。应当理解，流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合，都可以由计算机可读程序指令实现。

这些计算机可读程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器，从而生产出一种机器，使得这些指令在通过计算机或其它可编程数据处理装置的处理器执行时，产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中，这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作，从而，存储有指令的计算机可读介质则包括一个制造品，其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。

也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它设备上，使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤，以产生计算机实现的过程，从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。

附图中的流程图和框图显示了根据本发明的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分，所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

现在将参考附图详细描述根据本发明的用于软件和/或方法的可能的硬件和软件环境的实施例。图1是示出了联网计算机系统100的各个部分的功能框图，包括：服务器子系统102；自主摄影机器人104；人类摄影设备106；IoT(物联网)设备组108；通信网络114；服务器计算机200；通信单元202；处理器组204；输入/输出(I/O)接口集206；存储器设备208；持久性存储设备210；显示器212；外部设备214；随机存取存储器(RAM)230；高速缓冲存储器232；和程序300。

在许多方面，子系统102代表本发明中的各种计算机子系统。因此，现在将在以下段落中讨论子系统102的几个部分。

子系统102可以是膝上型计算机、平板计算机、上网本计算机、个人计算机(PC)、台式计算机、个人数字助理(PDA)、智能电话或能够通过网络114与客户端子系统通信的任意可编程电子设备。程序300是机器可读指令和/或数据的集合，该指令和/或数据用于创建、管理和控制某些软件功能，下面将在本具体实施方式部分的示例实施例子部分中对其进行详细说明。

子系统102能够经由网络114与其他计算机子系统进行通信。网络114可以是，例如，局域网(LAN)、诸如互联网的广域网(WAN)、或两者的结合，并且可以包括有线、无线或光纤连接。通常，网络114可以是将支持服务器和客户端子系统之间的通信的连接和协议的任意组合。

子系统102被示为具有多个双箭头的框图。这些双箭头(没有单独的附图标记)表示一种通信结构，该通信结构在子系统102的各个组件之间提供通信。可以用任意设计为在处理器(例如微处理器、通信和网络处理器等)、系统存储器、外围设备、以及系统中的任意其他硬件组件之间传递数据和/或控制信息的体系结构来实现该通信结构。例如，可以至少部分地用一个或多个总线来实现通信结构。

存储器208和持久性存储设备210是计算机可读存储介质。通常，存储器208可以包括任意合适的易失性或非易失性计算机可读存储介质。还应注意，现在和/或不久的将来：(i)外部设备214可能能够为子系统102提供一些或全部存储器；和/或(ii)子系统102外部的设备可能能够为子系统102提供存储器。

程序300存储在持久性存储设备210中，通常通过存储器208的一个或多个存储器，以供一个或多个相应的计算机处理器204进行访问和/或执行。持久性存储设备210：(i)至少比传输中的信号更具持久性；(ii)将程序(包括其软逻辑和/或数据)存储在有形介质(例如磁或光领域)上；(iii)与永久性存储相比持久性大体上略差的。替代地，数据存储可以比持久性存储设备210提供的存储类型更持久和/或永久。

程序300可以包括机器可读和可执行指令和/或实质性数据(即，存储在数据库中的数据类型)。在该特定实施例中，持久性存储设备210包括磁性硬盘驱动器。为了列举一些可能的变化，持久性存储设备210可以包括固态硬盘驱动器、半导体存储设备、只读存储器(ROM)、可擦可编程只读存储器(EPROM)、闪存、或能够存储程序指令或数字信息的任意其他计算机可读存储介质。

持久性存储设备210使用的介质也可以是可移动的。例如，可移动硬盘驱动器可用于持久性存储设备210。其他示例包括光盘和磁盘、拇指驱动器、和智能卡，其可插入驱动器中以传输到也是持久性存储设备210的一部分的另一个计算机可读存储介质上。

在这些示例中，通信单元202提供与子系统102外部的其他数据处理系统或设备的通信。在这些示例中，通信单元202包括一个或多个网络接口卡。通信单元202可以通过使用物理和无线通信链路之一或两者来提供通信。本文讨论的任意软件模块可以通过通信单元(例如通信单元202)下载到持久性存储设备(例如持久性存储设备210)。

I/O接口集206允许与可以在与服务器计算机200的数据通信中本地地连接的其他设备进行数据的输入和输出。例如，I/O接口集206提供到外部设备集214的连接。外部设备集214通常将包括诸如键盘、小键盘、触摸屏、和/或一些其他合适的输入设备之类的设备。外部设备集214还可以包括便携式计算机可读存储介质，例如拇指驱动器、便携式光盘或磁盘、以及存储卡。用于实践本发明的实施例的软件和数据，例如程序300，可以被存储在这种便携式计算机可读存储介质上。在这些实施例中，通过I/O接口集206，相关软件可以(或者可以不)全部(或者部分)加载到持久性存储设备210上。I/O接口集206还与显示设备212数据通信连接。

显示设备212提供了一种向用户显示数据的机制，并且可以是例如计算机监视器或智能电话显示屏。

基于在本发明的特定实施例中为其实现的应用来识别本文所描述的程序。然而，应当理解，本文中的任意特定程序术语仅是为了方便使用，因此本发明不应限于仅在由此类术语所标识和/或暗示的任何特定应用中使用。

以上已经描述了本发明的各实施例，上述说明是示例性的，并非穷尽性的，并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好地解释各实施例的原理、实际应用或对市场中的技术的技术改进，或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

II.示例实施例

图2示出了描述根据本发明的方法的流程图250。图3示出了用于执行流程图250的至少一部分方法操作的程序300。现在将在以下段落的过程中，广泛地参考图2(针对方法操作框)和图3(针对软件框)来讨论该方法和相关软件。

处理从操作S255开始，在操作S255中，从主体信息数据存储302中接收第一主体信息数据集。如本示例中所使用的，术语“主体”是指一组人类摄影者，每个人都具有不同的个人特征。这些个人特征包括身高、体重、健康状况、摄影经验、居住地理位置等。第一主体信息数据集包括关于该组人类摄影者中的每个摄影者的个人特征参数值的信息。例如，第一摄影者(摄影者A)的情况下，第一主体信息数据集如下：(i)身高：五英尺九英寸(5’9”)；(ii)体重：170磅；(iii)健康状况：正常健康；(iv)摄影经验：三年；(v)地理居住地：纽约州，NY。

替代地，对于给定的一组摄影者，第一主体信息数据集可以包括个人特征参数值范围，而不是单个离散值。例如，对于摄影者A到摄影者E，第一个主体信息数据集如下：(i)身高：五英尺五英寸至五英尺九英寸(5’5”-5’9”)；(ii)体重：170至220磅；(iii)健康状况：正常健康；(iv)摄影经验：三至五年；(v)地理居住地：美国东北部。

处理进行到操作S260，其中从摄影图像数据存储304接收第一摄影图像数据集，其中摄影图像数据存储包括摄影图像304a至304z。注意，在一些实施例中，在摄影图像数据存储中可以存在多于二十六个(26)摄影图像，但是在该示例中，出于说明性目的示出了二十六个摄影图像。在一些实施例中，摄影图像304a至304z由人类用户(未示出)利用人类摄影设备106(图1所示)拍摄，并通过通信网络114发送到摄影图像数据存储304。

人类摄影设备106可以是能够将照片从相机内部的物理数据存储传输(有线或无线)到能够接收这些照片的任意外部源的任意相机。通常，人类摄影设备106可以是以下任何一种相机类型：紧凑型数码相机、数码SLR(单镜头反射式)相机、无反光镜相机、运动相机、360相机、胶卷相机等。

处理进行到操作S265，其中训练图像选择模块(“mod”)306从第一摄影图像数据集中选择多个训练图像。在该示例中，从第一摄影图像数据集中选择的多个训练图像是足够大量的训练图像，从而生成新的图像训练数据，其将产生有效结果(即，新生成的图像训练数据将能够正确标记和/或分类新图像数据)。

处理进行到操作S270，其中生成机器逻辑模块308生成用于控制自主摄影机器人104(图1所示)的仿人机器逻辑。在本发明的一个实施例中，自主摄影机器人104是允许配置一组摄影特征的相机平台。这些摄影特征包括：倾斜、聚焦、变焦、相对于照片的主体的定位、抖动(或其他物理运动)、以及其他可以模拟通常会影响人类摄影的变化的行为。

为了使自主摄影机器人104复制具有给定的个人特征的给定人类用户的摄影技能，需要有一组规则，机器人104可以遵循这些规则来准确地再现给定人类用户拍摄的照片的质量。

例如，如果给定的人类用户是四岁的儿童，则该儿童很可能没有拍摄高质量的照片(也就是说，所拍摄的照片可能会将照片主题显示为模糊和离轴)。在此示例中，第一仿人机器逻辑规则如下：

将相机向右倾斜30度，并且不聚焦于主题

可选地，如果给定的人类用户是具有三年摄影经验的摄影者A(来自前文)，则第二仿人机器逻辑规则将如下所示：

确保相机与地平线完全平行并且聚焦于主题

处理进行到操作S275，其中配置机器人模块310使用在操作S270中生成的仿人机器逻辑来配置自主摄影机器人104。继续使用上面的第一仿人机器逻辑规则的示例，自主摄影机器人104配置有此规则，以便机器人的物理机制可以：(i)将相机倾斜30度，以及(ii)确保照片的主题模糊。继续使用上面的第二仿人机器逻辑规则的示例，自主摄影机器人104配置有该规则，以便机器人的物理机制可以：(i)保持相机与地平线完全平行，并且(ii)正确对焦于照片的主题，使主题显得清晰而不模糊。

处理进行到操作S280，其中拍摄图像模块312通过通信网络114将指令发送给自主摄影机器人104，以拍摄第一组仿人摄影图像。在自主摄影机器人104拍摄第一组仿人摄影图像之后，为拍摄的图像创建元数据。该元数据包括以下信息：(i)拍摄图像的时间；(ii)拍摄图像的位置；(iii)所模仿的人的身体特征值；和/或(iv)指示所拍摄的图像是否准确反映所模仿的人的主题的拍摄质量的注释。另外，这些拍摄的图像被用作训练数据以训练与训练图像数据有关的新的人工智能(AI)系统。更具体地，使用图像的元数据中指示所拍摄的图像是否正确反映了所模仿的人的主题的拍摄质量的部分来标记图像，然后用于训练与训练图像数据有关的新AI系统。

III.进一步的评论和/或实施例

本发明的一些实施例认识到以下事实，潜在问题和/或相对于当前技术水平有待改进的潜在领域：(i)找到用于人工智能(AI)系统的足够数量的训练数据是一个挑战；(ii)可以在成年人拍摄的成百上千张图像上训练视觉识别系统，而无法识别儿童拍摄的类似图像；(iii)这引起了综合数据的产生；和/或(iv)然而，用于图像识别的合成数据具有许多挑战。

本发明的一些实施例可以包括以下特征、特点和/或优点中的一个或多个：(i)学习人们如何拍摄图像；(ii)使用自治代理(例如机器人)在多个任务中执行相同的任务(即，通过机器人控制的合成图像拍摄设备拍摄多个具有图像特征的合成图像，就好像这些图像是由具有合成摄影者属性值的人拍摄的一样)；(ii i)例如，学习五到七岁的儿童如何(用相机)拍摄图像，然后将此信息(以预编程设置的形式)提供给机器人以拍摄所需对象的图像，从而机器人拍摄的图像看起来就像是一个五到七岁的儿童拍摄的；和/或(iv)产生的图像可用于进一步训练视觉识别系统。

本发明的一些实施例可以包括以下特征、特点和/或优点中的一个或多个：(i)近似儿童般的摄影运动技能；(ii)通过评估现有照片，识别会引起儿童兴趣的对象来模拟儿童的运动技能；和/或(iii)通过使用与儿童一致的有限的运动技能来聚焦和取景对象来模拟儿童的运动技能。

本发明的一些实施例可以包括以下特征、特点和/或优点中的一个或多个：(i)训练系统以利用一组特定的用户设置来模拟照片的拍摄以使图像更相关；(ii)摄影者生物特征的因素；(iii)考虑了许多其他可以在后期处理中模拟的因素(例如可以在后期处理中对一组给定的图像进行对焦、曝光和/或裁剪)；(iv)捕获为使用非人类控制的设备(机器人或自治代理)去拍摄一组照片(就像人类正在拍摄照片一样)而如何拍摄照片；(v)这意味着如果人类以一种方式拍摄了苹果的照片，则自治代理可以以相同或相似的方式来拍摄杯子的照片(在此示例中，自治代理不一定要拍摄相同对象的照片)；(vi)学习拍照者的风格，以便自治代理可以将此学习应用于其他拍照场景；(vii)教一个自治代理复制各种人类摄影者独特的照相风格；和/或(viii)创建(由自治代理)与拍照动作相关的特定元数据。

在本发明的一个实施例中，提供了一种系统和方法，用于开发能力以观察和合成来自多种通信设备集(例如是物联网(IoT)设备集108)的数据。开发这种能力包括：(i)拍摄照片时的相机设置细节，(ii)环境数据，例如天气和地理位置，(iii)来自个人设备的生理测量，以及(iv)从个人设备和/或相机拍摄照片之前的运动测量。一旦收集了该数据，就将该数据合成并添加到每张照片中，作为增强实质图像数据的相关元数据负载。

在本发明的一个实施例中，提供了一种用于构建包括分析组件的自治代理设备(机器人)的系统和方法。自治代理设备的分析组件为每个照片拍摄设置变量生成基于分发的随机设置。一旦计算出这些设置，自治代理设备：(i)配置该设置，(ii)调整位置和取景，(ii i)启动任何所需的移动，并且(iv)以像人类摄影者将要拍摄同一照片的相同或相似的方式，拍摄照片(具有基于配置设置的关联的合成数据)。

在本发明的一个实施例中，提供了观察和/或获得人体运动和机械照相属性的第一系统和方法。收集与摄影者的特征和/或属性、用于拍摄每张照片的各个设置以及由人工检查者提供的注释有关的数据。

在本发明的另一个实施例中，提供了第二系统和方法，该第二系统和方法使用在第一系统中捕获的数据由自主代理(机器人)来模拟摄影者的属性，以拍摄更多的照片来加强图像识别训练数据集。在此，所使用的设置基于来自第一系统的一组选定的摄影者的选定的照片子集，以驱动特定的样本集。

在第一系统中，所收集的摄影属性包括但不限于以下各项：(i)所有人类运动技能(例如手抖、振动、倾斜等)(参见图4A和4B)；(ii)所有摄影设备属性(缩放、倾斜、光线、闪光灯、和所有其他相机设置)；(iii)距目标的距离；(iv)视图(参见图4)；(v)取景；(vi)环境光的存在(见图5A和5B)；和/或(vii)环境光强度(参见图5A和5B)。

图4A示出了本发明的第一实施例的屏幕截图400a。屏幕截图400a显示以下内容：图像402a的未校正视图；视野404a；透镜平面406a；图像平面408a；源相机410a；和主题412a。如屏幕截图400a所示，源相机410a向上倾斜以便取景图像402a(描绘了住宅建筑物，在此示例中建筑物被单独表示为主题412a)。

图4B示出了本发明的第一实施例的屏幕截图400b。屏幕截图400b显示以下内容：图像402b的移位的视图；视野404b；透镜平面406b；图像平面408b；源相机410b；和主题412b。如屏幕截图400b所示，源相机410b保持与图像平面408b平行，以防止在图像402b的拍摄中形成畸变(描述了住宅建筑物，在此示例中住宅建筑物被单独表示为主题412b)。

图5A示出了用户图像500a的屏幕截图，该图像是第一用户拍摄的照片，其中设置了曝光设置，以便向第一用户显示适当的光量。图5B示出了用户图像500b的屏幕截图，该图像是第一用户拍摄的照片，其中设置了曝光设置，使得向第一用户显示光量不足，从而使用户图像500b“曝光不足”。

在本发明的一个实施例中，提供了一种方法，该方法观察和表征摄影者(即，人类摄影者或自治代理)并捕获以下信息：(i)照相机械和设备设置，(ii)摄影者的身体和生物特征(例如身高、心率、血压、“手的平稳性”因子–参见图6)，以及(iii)拍摄照片的时刻之前，摄影者的先前运动(或动作)。另外，还提供了一种方法以物理模拟摄影者的捕获特征，并将其应用于自主代理，以拍摄更多的照片。

图6示出了用户图像600，该图像是儿童以最有可能产生倾斜照片的方式拍摄照片的表现(也就是说，透镜平面和相机的图像平面最有可能是离轴(不垂直)于照片的主题的视界)。

在本发明的一个实施例中，提供了一种方法，其至少执行以下操作(不一定按顺序进行)：(i)收集关于每个摄影者的信息；(ii)收集有关每个摄影者的照相风格的信息；(iii)每次拍摄照片时，收集一组表征照片拍摄情况的数据(该收集可以实时进行，也可以在照片的后期处理中进行，具体取决于剩余的所需的数据)；(iv)使用人工注释来提供机器无法提供的其他图像特征(例如取景布局，以下结合图7A和7B进行详细讨论)；以及(v)针对拍摄的每张照片，收集所有关联的元数据。

图7A示出了用户图像700a，其示出了尚未有效地对主题的照片取景并且切掉了太多主题和背景的用户。图7B示出了用户图像700b，其示出了适当取景的照片的主题并且有效地展示了背景的巴洛克(baroque)效果(或照片模糊效果)。根据该方法，摄影者(在该示例中，通常为人类摄影者)提供有关他或她自己的人口统计学信息(例如年龄范围、身高范围、居住地等)。此外，还会收集与拍照有关的某些信息，包括但不限于以下信息：拍照设备、振动、变焦、安装在移动设备上的移动应用程序(或应用程序类别)、智能手表、和/或其他人类可穿戴设备。

根据该方法，使用相机上的传感器来收集相机位置信息，该传感器识别相机的物理位置(例如左右倾斜和向前/向后倾斜)。相机设置可以手动或自动配置，包括：光圈、ISO(国际标准化组织)、快门速度、白平衡、自动对焦、驱动模式、测光、图像质量等。此外，根据加速度计数据和/或物理位置读取确定相机的最近移动历史。此外，确定摄影者的生物特征信息(通常借助于智能手表、智能电话、或被构造和配置为收集和传输人类用户的生物特征信息的任意其他设备)。

在一些实施例中，基于与收集到的照片的每个给定照片相关联的元数据，将收集到的照片分组(分类)为类别。在一个示例中，将五到七岁的人拍摄的所有照片归为一类。在此示例中，摄影者的年龄范围(五至七岁)是与收集的照片相关联的元数据。该元数据可用于为摄影者的年龄范围(在该示例中为五岁至七岁)创建统计分布，以驱动自主代理(例如自主摄影机器人104)的拍照行为。可替代地，与收集的照片相关联的元数据包括与每个收集的照片的拍照特征有关的所有信息。在此示例中，与每个收集的照片相关联的元数据包括：照片的角度、焦点、取景等。

在本发明的另一个实施例中，提供了一种方法以物理地模拟摄影者的捕获特征并将其应用于自主代理(机器人)，以拍摄更多的照片。

该方法至少包括以下操作(不一定按顺序进行)：(i)由用户选择收集更多的照片的标准(例如：“模拟五到七岁”)；(ii)确定一组将被拍照的对象；(iii)将自治代理(机器人)指向要拍摄的一个或多个对象；(iv)确定要拍摄的对象；(v)保留对象的元数据由于后面的照片；(vi)提供机器人拍摄所需的、表示操作(i)中设定的标准的所有机械照相属性；(vii)对于每个给定属性，由机器人根据为目标图片标准发现的统计分布计算一个或多个属性值(例如，机器人可以：(a)取绝对值，例如五到七岁年龄组中的第一个用户的准确参数设置、或(b)生成所有属性的组合并根据每个给定的属性拍照)；(viii)在计算出一个或多个属性值之后，由机器人调整相机的设置和位置，以模拟样本人类摄影者；和/或(ix)由机器人在相机设置(如上确定)下拍摄所需的多张照片。每张照片均被标记有用于拍摄的标准以及照片是由机器人还是由人拍摄的。更多生成的数据可用于为视觉识别系统提供更好的训练数据覆盖范围。

根据该方法，为了将机器人对向一个或多个要拍摄的对象，可以采取以下动作：(i)由操作员指定要拍摄的对象；(ii)自动识别预定空间内的对象；(iii)手动将物品放在摄影区域；和/或(iv)在要拍摄的对象周围放置不可见的标记。

根据该方法，基于以下内容识别要拍照的对象并保留其元数据：(i)操作员输入；(ii)人工智能或认知视觉对象识别；(iii)条码扫描；和/或(iv)基于传感器的发现，例如射频识别(RFID)或物联网(IoT)通信。

另此外，调整相机设置要考虑使用运动(即，相机在属于特定组的给定用户(例如五到七岁的儿童)手中的自然运动)来模拟人类用户的自然手部动作。(要拍摄的对象的)倾斜、观察角度和其他项目的模拟将利用相机和/或无人机的定位。最后，将摄像机设置配置为特定的属性值。在本发明的一个实施例中，利用多种相机设置多次重新配置自治代理，以便生成反映了相机设置和要拍摄的对象的所有可能组合的多个对象的多张照片。这样做，可以以有效的方式生成大量有用的图像训练数据集。

在本发明的一个实施例中，提供了一种执行以下操作(不一定按顺序进行)的方法：(i)接收包括以下内容的人类拍摄的图像数据集：(a)多个人类拍摄的图像、(b)对于多个人类拍摄的图像中的每个图像，与拍摄相应的图像的人类摄影者相关的多个相应的摄影者属性值(例如，年龄、视觉属性、身高、心率、血压、“手稳定性”因子、受教育程度、收入水平、地理区域)；(ii)通过机器逻辑分析图像数据集，以确定摄影者属性值和图像特征(例如，图像曝光、图像聚焦、图像构图、图像稳定性、图像颜色设置)之间的多个相关性；(ii i)接收合成图像请求，该请求包括指示多个合成摄影者属性值的数据；和/或(iv)通过使用从人类拍摄图像数据集获取的摄影者属性和图像特征之间的多个相关性，通过机器人控制的合成图像拍摄装置拍摄多个合成图像，这些合成图像具有图像特征，就好像这些图像是由具有合成摄影者属性值的人所拍摄的一样。

根据该方法，人类拍摄的图像是静止图像，并且合成图像是静止图像。备选地，人类拍摄的图像是视频图像，并且合成图像是视频图像。

IV.定义

本发明：不应被视为绝对表示(由术语“本发明”描述的主题由所提交的权利要求书或在专利审查后可能最终发布的权利要求书所涵盖)；虽然术语“本发明”用于帮助读者获得一般的感觉，据此认为本文的公开内容潜在是新的，但如术语“本发明”的使用所表明的，这种理解是暂定的和临时的，并且由于相关信息的发展以及可能修改权利要求，在专利审查过程中可能改变。

实施例：参见上文“本发明”的定义–类似的提示适用于术语“实施例”。

和/或：包含或；例如，A，B、“和/或”C表示A或B或C中的至少一个是真实的并且适用。

包括(including)/包括(include)/包括(includes)：除非另外明确指出，否则是指“包括但不一定限于”。

模块/子模块：可操作地执行某种功能的任何硬件、固件和/或软件集，而与模块是否：(i)在单个本地附近；(ii)在广泛区域分布；(iii)在更大的软件代码中的单个附近；(iv)位于单个软件代码中；(v)位于单个存储设备、存储器或介质中；(vi)机械连接；(vii)电连接；和/或(viii)数据通信地连接，无关。

Claims

1.一种计算机实现的方法，包括：

接收类别信息数据集，所述类别信息数据集包括表示针对一类人的一组个人特征参数值范围的信息，所述个人特征参数值范围分别对应于多个个人特征参数；

接收摄影图像数据集，所述摄影图像数据集包括：(i)由人拍摄的多个摄影图像，以及(ii)对于每个给定的摄影图像，表征拍摄所述给定的摄影图像的摄影者的一组个人特征参数值，所述一组个人特征参数值分别对应于所述多个个人特征参数值；

从所述多个摄影图像中选择多个训练图像，所述选择基于所述个人特征参数值范围以及分别与所述摄影图像相关的所述个人特征参数值；

生成仿人机器逻辑，所述仿人机器逻辑用于控制摄影机器人以拍摄仿人的摄影图像，这些摄影图像模仿倾向于由所述个人特征参数值范围表征的人拍摄的照片；

用所述仿人机器逻辑配置所述摄影机器人；以及

由所述摄影机器人在所述仿人机器逻辑的控制下拍摄第一仿人摄影图像。

2.根据权利要求1所述的计算机实现的方法，其中，所述仿人机器逻辑使所述第一仿人摄影图像模仿倾向于由所述个人特征参数值范围表征的人拍摄的照片。

3.根据权利要求1所述的计算机实现的方法，其中，所述第一仿人摄影图像的元数据被用作图像训练数据集的一部分，以训练与所述训练图像数据有关的人工智能(AI)系统。

4.根据权利要求1所述的计算机实现的方法，其中，所述元数据是针对所述第一仿人摄影图像创建的。

5.根据权利要求4所述的计算机实现的方法，其中，所述元数据包括指示以下内容的信息：(i)拍摄所述仿人摄影图像的时间，以及(ii)拍摄所述仿人摄影图像的位置。

6.根据权利要求4所述的计算机实现的方法，其中，所述元数据包括指示所述仿人摄影图像是否准确反映了由所述个人特征参数值范围表征的人的摄影质量的信息。

7.一种计算机程序产品，包括：

机器可读存储设备；以及

存储在所述机器可读存储设备上的计算机代码，所述计算机代码包括指令和数据以使处理器集执行根据权利要求1-6中任意一项所述的方法的操作。

8.一种计算机系统，包括：

处理器集；

机器可读存储设备；以及

存储在所述机器可读存储设备上的计算机代码，所述计算机代码包括指令和数据以使所述处理器集执行根据权利要求1-6中任意一项所述的方法的操作。

9.一种系统，所述系统包括分别用于执行根据权利要求1-6中任意一项所述的方法的各个步骤的模块。