CN112912896A

CN112912896A - 机器学习辅助的图像预测

Info

Publication number: CN112912896A
Application number: CN201980070345.5A
Authority: CN
Inventors: C·E·格斯特林; L·A·加蒂斯; S·V·乔希; G·M·劳森; K·R·沃森; S·斯瑞达; K·P·维加; S·R·斯库利; T·格诺特; O·C·哈姆希茨
Original assignee: Apple Inc
Current assignee: Apple Inc
Priority date: 2018-12-14
Filing date: 2019-11-27
Publication date: 2021-06-04
Also published as: US20200193328A1; US20220414543A1; WO2020123163A1; US11915460B2; US11386355B2; DE112019006209T5

Abstract

本发明公开了一种实现用于提供预测的RGB图像的系统的设备，该设备包括至少一个处理器，该至少一个处理器被配置为获取被摄体的红外图像并且获取被摄体的参考RGB图像。该至少一个处理器被进一步配置为将红外图像和参考RGB图像提供给机器学习模型，该机器学习模型已被训练为基于被摄体的红外图像和参考RGB图像来输出被摄体的预测的RGB图像。该至少一个处理器被进一步配置为基于机器学习模型的输出来提供被摄体的预测的RGB图像。

Description

机器学习辅助的图像预测

相关申请的交叉引用

本专利申请要求2018年12月14日提交的名称为“Machine Learning AssistedImage Prediction”的美国临时专利申请号62/780,139的优先权权益，该专利申请的公开内容据此全文并入本文。

技术领域

本说明书整体涉及捕获和预测红-绿-蓝(RGB)图像，包括使用机器学习基于红外图像来产生预测的RGB图像。

背景技术

电子设备的用户可使用设备的图像传感器(例如，相机)来拍摄照片或视频，或者参与和使用其相应设备的其他参与者的音视频会议。在一些情况下，环境照明条件可影响图像质量。

附图说明

本主题技术的一些特征在所附权利要求书中被示出。然而，出于解释的目的，在以下附图中阐述了本主题技术的若干实施方案。

图1示出了根据一个或多个具体实施的用于使用机器学习来预测RGB图像的示例性网络环境。

图2示出了根据一个或多个具体实施的可实现用于使用机器学习来预测RGB图像的主题系统的示例性电子设备。

图3示出了根据一个或多个具体实施的可用于产生预测的RGB输出图像的输入图像的示例。

图4示出了根据一个或多个具体实施的机器学习模型生成器的示例。

图5示出了根据一个或多个具体实施的使用机器学习模型来预测RGB图像的RGB图像预测器的示例。

图6示出了根据一个或多个具体实施的用于使用机器学习来预测RGB图像的示例性过程的流程图。

图7示出了根据一个或多个具体实施的可用以实现主题技术的各个方面的示例性电子系统。

具体实施方式

下面示出的具体实施方式旨在作为本主题技术的各种配置的描述并且不旨在表示主题技术可被实践的唯一配置。附图被并入本文并且构成具体实施方式的一部分。具体实施方式包括具体的细节旨在提供对本主题技术的透彻理解。然而，主题技术不限于本文所述的具体细节，并且可使用一个或多个其他具体实施来实践。在一个或多个具体实施中，以框图形式示出了结构和部件，以便避免使本主题技术的概念模糊。

电子设备的用户可使用设备的图像传感器(例如，相机)来拍摄照片或视频，或者参与和使用其相应设备的其他参与者的音视频会议。在一些情况下，环境照明条件可影响图像质量。在具有低照明的环境中，图像质量可能不适用于这些用途。例如，被摄体(例如，人的面部)的细节在低照明环境中可能不清楚。

此外，即使用户的设备使用一般的图像处理技术(例如，使用预设值调节对比度、亮度和/或色值)来实时编辑所捕获的RGB图像，所得的RGB图像可能仍然缺少用户期望的细节量(例如，相对于肤色、皮肤纹理、面部形状)。因此，可能期望在环境照明低的情况下提高图像质量。

本主题系统提供结合使用红外数据和RGB数据训练的一个或多个机器学习模型使用同时捕获的红外图像数据和参考RGB数据，以输出预测的RGB图像。更具体地，机器学习模型可能已经由服务器使用红外图像数据、参考RGB图像数据和跨越多个被摄体(例如，人的面部)的目标(或预期的)RGB图像数据来进行训练。参考RGB图像数据可与红外图像数据同时捕获(例如，在低照明下捕获)并且/或者可在红外图像数据之前捕获(例如，在良好照明下捕获)，并且可基于这两种类型的参考RGB图像数据生成和训练单独的机器学习模型。服务器可向设备提供经训练的机器学习模型，以用于设备上的本地存储。

当设备的相机正在被使用时(例如，前向相机用于拍摄照片和/或用于音视频会议)，设备可采用机器学习模型来提供预测的RGB图像(例如，具有改善的图像质量的重建的RGB图像)。此外，设备可基于环境光的量来选择要在低照明中使用哪种机器学习模型。例如，在亮度不是太低的昏暗环境中，可将与红外图像数据同时捕获的RGB图像数据提供给用于预测RGB图像的第一机器学习模型(例如，用低照明的并发RGB图像训练的模型)。如果亮度太低，则可将在良好照明下在红外图像之前捕获的RGB图像数据提供给用于预测RGB图像的第二机器学习模型(例如，用良好照明的先前RGB图像训练的模型)。

图1示出了根据一个或多个具体实施的用于使用机器学习来预测RGB图像的示例性网络环境。然而，并非所有所描绘的部件均可在所有具体实施中使用，并且一个或多个具体实施可包括与图中所示的那些相比附加的或不同的部件。可进行这些部件的布置和类型的变化，而不脱离本文所列出的权利要求的实质或范围。可提供附加的部件、不同的部件或更少的部件。

网络环境100包括电子设备102、103和104(下文称为102-104)、网络106、服务器108和图像训练数据库110。网络106可通信地(直接或间接)耦接例如电子设备102-104、服务器108和/或图像训练数据库110中的任何两者或更多者。在一个或多个具体实施中，网络106可以是可包括互联网或可通信地耦接到互联网的设备的互连网络。出于解释的目的，网络环境100在图1中被示出为包括电子设备102-104、单个服务器108和单个图像训练数据库110；然而，网络环境100可包括任何数量的电子设备、任何数量的服务器和任何数量的图像训练数据库。

电子设备102-104中的一者或多者可以是例如便携式计算设备，诸如膝上型计算机、智能电话、智能扬声器、外围设备(例如，数字相机、耳机)、平板设备、可穿戴设备(诸如智能手表、带等)，或者包括例如一个或多个无线接口的任何其他适当设备，诸如WLAN(例如，WiFi)无线电设备、蜂窝无线电设备、蓝牙无线电设备、Zigbee无线电设备、近场通信(NFC)无线电设备和/或其他无线电设备。在图1中，以举例的方式，电子设备102被示出为智能电话，电子设备103被示出为智能手表，并且电子设备104被示出为膝上型计算机。电子设备102-104中的每个电子设备都可以是并且/或者可以包括下文相对于图2所述的电子设备和/或下文相对于图7所述的电子系统的全部或部分。

服务器108可以是并且/或者可以包括下文相对于图7所述的电子系统的全部或部分。服务器108可包括一个或多个服务器，诸如服务器云。出于解释的目的，相对于各种操作示出并论述了单个服务器108。然而，本文所述的这些操作可由一个或多个服务器执行，并且每个不同的操作可由相同或不同的服务器来执行。此外，图像训练数据库110在图1中被示为与服务器108分开。然而，图像训练数据库110的全部或部分可相对于服务器108转而存储于本地。

在一个或多个具体实施中，服务器108可用于生成、训练和/或更新机器学习模型，该机器学习模型被配置为基于所接收的红外和/或RGB图像数据提供预测的RGB图像作为输出。例如，机器学习模型可使用红外图像数据和/或参考RGB图像数据(例如，与红外图像数据同时捕获和/或在红外图像数据之前捕获)来训练，如由电子设备102-104中的一个或多个电子设备提供给图像训练数据库110。

如本文所述，不同交互可发生在电子设备102-104、服务器108和图像训练数据库110之间。例如，一类交互可以是将红外图像数据和参考RGB数据上传到图像训练数据库110，使得服务器108可基于上传的图像数据来训练和更新机器学习模型。另一类交互可以是由电子设备102-104下载机器学习模型。例如，这些机器学习模型可作为(例如，操作系统和/或使用设备相机的应用程序的)软件更新的一部分下载，或者作为变得可由服务器108使用的更新的机器学习模型下载。

图2示出了根据一个或多个具体实施的可实现用于使用机器学习来预测RGB图像的主题系统的示例性电子设备102。出于解释的目的，本文主要参考电子设备102来描述图2。然而，图2可对应于图1的电子设备102-104中的任一个电子设备。然而，并非所有所描绘的部件均可在所有具体实施中使用，并且一个或多个具体实施可包括与图中所示的那些相比附加的或不同的部件。可进行这些部件的布置和类型的变化，而不脱离本文所列出的权利要求的实质或范围。可提供附加的部件、不同的部件或更少的部件。

电子设备102可包括处理器202、存储器204、通信接口206和一个或多个图像传感器208。处理器202可包括使得能够处理数据和/或控制电子设备102的操作的适当逻辑部件、电路和/或代码。就这一点而言，处理器202可被启用以向电子设备102的各个其他部件提供控制信号。处理器202也可控制电子设备102的各部分之间的数据传输。另外，处理器202可使得能够实施操作系统或以其他方式执行代码以管理电子设备102的操作。

存储器204可包括使得能够存储各种类型信息的适当逻辑部件、电路和/或代码，诸如所接收的数据、生成的数据、代码和/或配置信息。存储器204可包括例如随机存取存储器(RAM)、只读存储器(ROM)、闪存和/或磁性存储装置。

通信接口206可包括合适的逻辑部件、电路和/或代码，其使得能够诸如在电子设备102-104中的任一个电子设备、服务器108和/或图像训练数据库110之间进行有线或无线通信。通信接口206可包括例如蓝牙通信接口、蜂窝接口、NFC接口、Zigbee通信接口、WLAN通信接口、USB通信接口中的一种或多种，或一般地，任何通信接口。

图像传感器208可用于捕获对应于被摄体(例如，人的面部)的图像数据。图像传感器208可对应于RGB图像传感器和/或红外图像传感器。由图像传感器208捕获的图像数据可指示被摄体的颜色、深度、2D和/或3D特征。在一个或多个具体实施中，电子设备102还可包括可检测电子设备102的当前环境中的环境光的量的环境光传感器(未示出)。

在一个或多个具体实施中，处理器202、存储器204、通信接口206、图像传感器208和/或它们的一个或多个部分中的一者或多者可在软件(例如，子例程和代码)中实现，可在硬件(例如，专用集成电路(ASIC)、现场可编程门阵列(FPGA)、可编程逻辑设备(PLD)、控制器、状态机、门控逻辑部件、分立硬件部件或任何其他合适的设备)中实现，和/或两者的组合。

图3示出了根据一个或多个具体实施的可用于产生预测的RGB输出图像的输入图像的示例。出于解释的目的，本文主要参考电子设备102来描述图3。然而，图3可对应于图1的电子设备103-104中的任一个电子设备。

如上所述，设备相机(例如，前向相机)的图像质量可基于环境照明条件而变化。在昏暗的环境中，图像质量可能降低并且不适用于用户。在图3的示例中，RGB图像302对应于由电子设备102的RGB图像传感器(例如，图像传感器208中的一个图像传感器)在低照明环境中捕获的RGB图像。如图所示，RGB图像302的图像质量相对较差，因为难以看到被摄体的面部特征结构；然而，用户的外貌在RGB图像302内仍然可见。

图3还示出了与RGB图像302同时捕获的红外图像304。红外图像304可能已由电子设备102的红外图像传感器(例如，图像传感器208中的一个图像传感器)在相同的昏暗环境中捕获。相对于RGB图像302，红外图像304相对于面部特征结构(例如，眼睛、鼻子、嘴巴)具有改善的可见度。然而，红外图像304缺少颜色并且可能对于用户来说看起来不自然。

此外，图3示出了预测的RGB图像306，其可以对应于由如本文所述的机器学习模型提供的输出。可能已训练机器学习模型基于被摄体的红外图像以及同时和/或先前捕获的参考RGB图像来输出被摄体的预测的RGB图像。因此，相对于RGB图像302和所捕获的红外图像304，可以采用机器学习模型来生成预测的RGB图像306。在一个或多个具体实施中，相对于使用一般的图像处理技术(例如，基于预设值调节对比度、亮度和/或色值)产生的RGB图像302、红外图像304和/或经修改的图像(未示出)，预测的RGB图像306的图像质量可能是用户更期望的。

图4示出了根据一个或多个具体实施的机器学习模型生成器400的示例。出于解释的目的，本文主要参考服务器108和电子设备102(例如，尽管电子设备102-104中的任一个电子设备可适用)来描述图4。在一个或多个具体实施中，机器学习模型生成器400可由在服务器108的处理器和/或任何其他设备上运行的一个或多个软件模块来实现。又如，机器学习模型生成器400可通过由定制硬件(例如，一个或多个协处理器)实现的一个或多个软件模块来实现。然而，并非所有所描绘的部件均可在所有具体实施中使用，并且一个或多个具体实施可包括与图中所示的那些相比附加的或不同的部件。可进行这些部件的布置和类型的变化，而不脱离本文所列出的权利要求的实质或范围。可提供附加的部件、不同的部件或更少的部件。

如图4所示，机器学习模型生成器400从图像训练数据库110获取图像402作为输入，以便生成、训练和/或更新一个或多个机器学习模型416。在一个或多个具体实施中，机器学习模型生成器400包括预处理模块404，该预处理模块继而包括焦距调节部件406和分辨率调节部件408。然而，预处理模块404通常可包括任何图像处理部件。机器学习模型生成器400还包括训练模块410，该训练模块继而包括面部分割部件412和皮肤分割部件414。

在一个或多个具体实施中，图像训练数据库110对应于由多个电子设备(例如，电子设备102-104中的任一个电子设备)上载的和/或从任何其他来源(诸如图像储存库)接收的图像数据库。例如，在上传针对被摄体的训练图像402时，电子设备102可捕获实时红外图像(例如，由红外图像传感器捕获)、参考RGB图像(例如，与红外图像数据同时获得和/或在红外图像数据之前获得)和目标RGB图像(例如，由RGB图像传感器捕获)。

上传到图像训练数据库110的参考RGB图像的类型可根据正在训练的机器学习模型的类型而不同。例如，可在训练“调节”机器学习模型时上传先前的参考RGB图像(例如，其不与实时红外图像并发)，该“调节”机器学习模型可对应于微调视频(例如，用于音视频会议)和/或单帧图像(例如，用于照片)。参考RGB图像可由电子设备102的RGB图像传感器捕获。参考RGB图像可以是例如在良好照明的环境中捕获的和/或使用设备提供的闪光灯的良好照明的图像。在一个示例中，参考RGB图像可以是视频帧，该视频帧是当前红外图像之前的预设数量的帧(例如，之前的5帧)。在另一个示例中，参考RGB图像可以是在与当前图像捕获环节分开的环节中捕获的人的面部的良好照明的图像(例如，使用面部识别技术从电子设备102的照片库中选择的用户的面部的图像)。

此外，对于调节机器学习模型，目标图像RGB图像可以是良好照明的并且与被摄体(例如，人的面部)的实时红外图像并发的RGB图像。因此，可使用实时红外图像和在实时红外图像之前的良好照明的RGB参考图像连同与红外图像并发的良好照明的RGB图像作为目标(或预期)输出来训练调节机器学习模型。

另一种类型的机器学习模型是“去噪”机器学习模型，其可对应于低照明模拟。可上传(例如，与实时红外图像并发的)RGB图像以用于训练去噪机器学习模型。并发RGB图像可由电子设备102的RGB图像传感器在低照明条件下捕获。

此外，对于去噪机器学习模型，目标RGB图像可以是被摄体的良好照明的图像。例如，可通过暂时将低照明环境(例如，对应于与红外图像并发的RGB图像)改变为良好照明环境来捕获目标RGB图像，例如，通过暂时打开灯和/或使用设备提供的闪光灯。因此，可使用实时红外图像和低照明的参考RGB图像连同良好照明的RGB图像作为目标(或预期)输出来训练去噪机器学习模型。在一个或多个具体实施中，当用户利用闪光灯在低照明环境中拍摄照片时，用户的设备可在闪光灯被触发之前立即捕获低照明图像(例如，参考图像)，并且随后可在闪光灯已经照亮用户的面部时捕获IR图像和良好照明的图像(例如，目标图像)。

将实时红外图像数据、参考RGB数据和目标RGB数据上传到图像训练数据库110可对应于协调的阶段性过程，其中已选择加入的参与者的图像(例如，面部)已被捕获。例如，作为合影环节的一部分，参与者可坐在布置的场景(例如，用于捕获良好照明和/或低照明的图像)内拍摄照片。可在合影环节之后将图像上传到服务器108。

另选地或除此之外，参与者可基于提供给其的指南拍摄照片(例如，自拍)，并且/或者每当参与者用闪光灯在低照明条件下拍摄照片时，参与者的设备可自动捕获低照明图像、良好照明图像和IR图像。在这种情况下，可基于电子设备102上的预定义设置来周期性地将图像402上传到图像训练数据库110。例如，当电子设备102在夜间(例如，无需担心电力的时候)接通电源时和/或当电子设备12连接到网络106(例如，与Wi-Fi基站配对)时，可能发生上传。

在一个或多个具体实施中，预处理模块404是用于在图像402被提供给训练模块410之前准备图像的可选模块。例如，焦距调节部件406可用于补偿电子设备102上的红外图像传感器和RGB图像传感器的不同位置。不同的位置可导致实时红外图像、参考RGB图像和/或目标RGB图像不相对于焦距对准。因此，焦距调节部件406可被配置为调节实时红外图像、参考RGB图像和目标RGB图像中的一者或多者，以便彼此更紧密地对准。

此外，分辨率调节部件408可用于补偿红外图像、参考RGB图像和目标RGB图像之间的图像分辨率差异，以便彼此更紧密地对应。例如，分辨率调节部件408可被配置为对图像中的一个或多个图像进行上转换或下转换，使得相应的分辨率匹配。

如上所述，预处理模块404是可有助于机器学习模型416的加速训练的可选模块。例如，通过将图像402相对于焦距更紧密地对准和/或改变图像分辨率以更紧密地匹配，可促进机器学习模型416的训练。然而，机器学习模型416可以用原始未改变的图像402来训练。例如，通过使用多个图像和被摄体(例如，成千上万的被摄体)进行训练，机器学习模型416可自动解释相对于焦距和/或分辨率的对准差异。

在一个或多个具体实施中，训练模块410被配置为接收实时红外图像数据、参考RGB数据和目标RGB数据(例如，对应于多个被摄体)，并且生成机器学习模型416。面部分割部件412可被配置为相对于所提供的图像402确定面部特征。面部特征可包括但不限于面部的大体形状和尺寸、面部特征结构(例如，眼睛、鼻子、嘴巴、耳朵等)的位置和/或面部特征结构的形状。例如，面部特征结构的形状、位置和尺寸可由提供给训练模块410的实时红外图像数据(例如，其可与对象的深度相关)、参考RGB数据和/或目标RGB数据(例如，预期输出)来确定。

此外，皮肤分割部件414可被配置为相对于所提供的图像402确定皮肤特征。皮肤特征可包括但不限于各种面部特征结构的肤色和皮肤纹理。例如，肤色和皮肤纹理可由提供给训练模块410的实时红外图像数据、参考RGB数据和目标RGB数据(例如，预期输出)来确定。

基于由面部分割部件412确定的面部特征和/或由皮肤分割部件414确定的皮肤特征，训练模块可生成并训练一个或多个机器学习模型416。因此，可训练机器学习模型416，以便输出具有增强的图像质量的预测的RGB图像(例如，具有更准确和自然的面部和/或皮肤特征的红外图像的颜色表示)。如上所述，机器学习模型416可包括(例如，利用在相关联的IR图像之前捕获的良好照明的RGB图像来训练的)调节机器学习模型和(例如，利用与相关联的IR图像同时捕获的低照明的RGB图像来训练的)去噪机器学习模型，这将在下文中相对于图5更详细地讨论。

在一个或多个具体实施中，机器学习模型生成器400、预处理模块404、焦距调节部件406、分辨率调节部件408、训练模块410、面部分割部件412、皮肤分割部件414和机器学习模型416中的一者或多者被实现为存储在存储器中的软件指令，该软件指令在由服务器108的处理器执行时使得处理器执行特定功能。

在一个或多个具体实施中，机器学习模型生成器400、预处理模块404、焦距调节部件406、分辨率调节部件408、训练模块410、面部分割部件412、皮肤分割部件414和机器学习模型416中的一者或多者可在软件(例如，子例程和代码)和/或硬件(例如，专用集成电路(ASIC)、现场可编程门阵列(FPGA)、可编程逻辑设备(PLD)、控制器、状态机、门控逻辑部件、分立硬件部件或任何其他合适的设备)和/或两者的组合中实现。在一个或多个具体实施中，所描绘的部件中的一些或全部可共享硬件和/或电路，和/或所描绘的部件中的一者或多者可利用专用硬件和/或电路。本公开中进一步描述了根据主题技术的各方面的这些模块的附加特征和功能。

图5示出了根据一个或多个具体实施的使用机器学习模型416来预测RGB图像的RGB图像预测器500的示例。例如，RGB图像预测器500可以由在电子设备102和/或任何其他设备(例如，电子设备103-104中的任一个电子设备)的处理器202上运行的一个或多个软件模块来实现。在另一个示例中，RGB图像预测器500可以由被配置为执行RGB图像预测器500的功能的定制硬件(例如，一个或多个协处理器)来实现。然而，并非所有所描绘的部件均可在所有具体实施中使用，并且一个或多个具体实施可包括与图中所示的那些相比附加的或不同的部件。可进行这些部件的布置和类型的变化，而不脱离本文所列出的权利要求的实质或范围。可提供附加的部件、不同的部件或更少的部件。

如图5所示，RGB图像预测器500将(例如，由电子设备102的图像传感器208捕获的)图像502作为输入，并且输出预测的RGB图像514。在一个或多个具体实施中，RGB图像预测器500包括预处理模块504，该预处理模块继而包括焦距调节部件506和分辨率调节部件508。RGB图像预测器500还包括RGB输出模块510，该RGB输出模块继而包括机器学习模型选择部件512和机器学习模型416。

如上所述，电子设备102可经由网络106从服务器108下载机器学习模型416。机器学习模型可作为(例如，操作系统和/或使用设备相机的应用程序的)软件更新的一部分，或者作为变得可由服务器108使用的更新的机器学习模型由电子设备102下载。

在一个或多个具体实施中，图像502对应于在电子设备102上同时获得的实时红外图像数据和参考RGB数据。例如，用户可能正在参与音视频会议，或者可能正在使用设备的前向相机拍摄照片(例如，自拍)。在一些情况下，环境照明可能较低，使得相机的增强的RGB输出是期望的。因此，参考RGB数据可对应于在低照明条件下捕获的并发RGB数据。如果环境照明太低(例如，环境照明低于由环境光传感器检测到的预定义勒克斯阈值)，则参考RGB数据可能更适合与在红外图像数据(例如，照片库中的先前图像)之前捕获的良好照明的RGB数据对应。

在一个或多个具体实施中，预处理模块504可类似于上文相对于图4所讨论的预处理模块404。例如，预处理模块504可以是用于由机器学习模型416加速处理的可选模块。焦距调节部件506可相对于焦距对准图像502，并且分辨率调节部件508可改变图像502的分辨率以更紧密地匹配。假定机器学习模型416是用(例如，如图4中的预处理模块404所提供的)经预处理的图像402训练的，则提供给RGB输出模块510的数据也可被预处理(例如，通过预处理模块504)，这可有利于生成预测的RGB图像514。然而，机器学习模型416也可以在不使用预处理模块504的情况下生成预测的RGB图像514。

在一个或多个具体实施中，可相对于图像502(例如，红外图像数据和/或参考RGB数据)执行背景减除。因此，可移除背景图像并用纯色(例如，黑色、白色或用户选择的颜色)替换，使得仅被摄体(例如，人的面部)保留在图像中。背景减除可由预处理模块405执行，或者可在由预处理模块405执行预处理之前由RGB图像预测器500执行。

在一个或多个具体实施中，RGB输出模块510被配置为基于来自机器学习模型416的输出来生成预测的RGB图像514。如上所述，机器学习模型可至少包括去噪机器学习模型和调节机器学习模型。就这一点而言，机器学习模型选择部件512可被配置为选择将使用机器学习模型416中的哪一种机器学习模型来生成预测的RGB图像514。

(例如，利用与对应的IR图像同时捕获的低照明的RGB图像来训练的)去噪机器学习模型可在具有低照明的环境中提供增强的RGB图像。然而，在环境照明太低(例如，低于传入RGB图像的阈值勒克斯值)的情况下，RGB图像数据可能无法提供足够的数据来增强实时RGB图像。因此，可转而使用(例如，利用在相关联的IR图像之前捕获的良好照明的RGB图像来训练的)调节机器学习模型在照明太低(例如，低于阈值勒克斯值)的环境中提供增强的RGB图像。

因此，机器学习模型选择部件512可确定环境照明的量。如果环境光的量低于阈值勒克斯值，则机器学习模型选择部件512可选择调节机器学习模型以生成预测的RGB图像514。否则，机器学习模型选择部件512可选择去噪机器学习模型以生成预测的RGB图像514。当提供新图像502时，机器学习模型选择部件512可连续地或周期性地监测光的量(例如，至少部分地基于环境光传感器)，并且可相应地在去噪机器学习模型和调节机器学习模型之间切换。

如上所述，机器学习模型416可能已经至少部分地基于面部分割部件412和皮肤分割部件414来训练。因此，机器学习模型416可被配置为基于与面部分割或皮肤分割中的至少一者相关联的面部特征来生成预测的RGB图像514。例如，机器学习模型416可被配置为接收面部和/或皮肤分割数据作为输入，以相应地生成RGB图像514。

在环境光的量高于第二阈值勒克斯值(例如，基于与红外图像数据并发的传入RGB数据)的良好照明环境的情况下，可能不需要使用机器学习模型416来输出预测的RGB图像514。因此，RGB图像预测器500可被配置为在提供新图像502时连续地或周期性地监测光的量(例如，至少部分地基于环境光传感器)，以决定是否生成预测的RGB图像514(例如，并且绕过机器学习模型416的使用)。

在一个或多个具体实施中，RGB图像预测器500、预处理模块504、焦距调节部件506、分辨率调节部件508、RGB输出模块510、机器学习模型选择部件512和机器学习模型416中的一者或多者被实现为存储在存储器204中的软件指令，该软件指令在由处理器202执行时使得处理器202执行特定功能。

在一个或多个具体实施中，RGB图像预测器500、预处理模块504、焦距调节部件506、分辨率调节部件508、RGB输出模块510、机器学习模型选择部件512和机器学习模型416中的一者或多者可在软件(例如，子例程和代码)、硬件(例如，专用集成电路(ASIC)、现场可编程门阵列(FPGA)、可编程逻辑设备(PLD)、控制器、状态机、门控逻辑部件、分立硬件部件或任何其他合适的设备)和/或两者的组合中实现。在一个或多个具体实施中，所描绘的部件中的一些或全部可共享硬件和/或电路，和/或所描绘的部件中的一者或多者可利用专用硬件和/或电路。本公开中进一步描述了根据主题技术的各方面的这些模块的附加特征和功能。

图6示出了根据一个或多个具体实施的使用机器学习来预测RGB图像的示例性过程600的流程图。出于解释的目的，本文主要参考图1的电子设备102来描述过程600。然而，过程600不限于电子设备102，并且过程600的一个或多个框(或操作)可由一个或多个其他部件和其他合适的设备(例如，电子设备103-104中的任一个电子设备)执行。进一步出于解释的目的，过程600的框在本文中被描述为顺序地或线性地发生。然而，过程600的多个框可并行发生。此外，过程600的框不必按所示顺序执行，并且/或者过程600的一个或多个框不必执行和/或可由其他操作替代。

电子设备102获取被摄体的红外图像(602)。电子设备102获取被摄体的参考RGB图像(604)。被摄体的参考RGB图像可在捕获IR图像的同时由RGB图像传感器获取。另选地或除此之外，被摄体的参考RGB图像可为在捕获IR图像之前捕获的被摄体的RGB图像(例如，来自照片库，或在当前帧之前的预设数量的帧)。

电子设备102将红外图像和参考RGB图像提供给机器学习模型，该机器学习模型已被训练为基于被摄体的红外图像和对应的RGB图像来输出被摄体的预测的RGB图像(606)。电子设备102可在将红外图像和参考RGB图像提供给机器学习模型之前相对于被摄体执行背景减除。

电子设备102可在将红外图像和参考RGB图像提供给机器学习模型之前对红外图像或参考RGB图像中的至少一者执行焦距调节。另选地或除此之外，电子设备102可在将红外图像和参考RGB图像提供给机器学习模型之前对红外图像或参考RGB图像中的至少一者执行分辨率调节。

机器学习模型可基于目标RGB图像被进一步训练，该目标RGB图像与对应的IR/RGB图像对同时获得，并且在环境光水平高于预定义的勒克斯水平(例如，对应于良好照明)的环境中被捕获。在一个或多个具体实施中，机器学习模型可被配置为接收与面部分割或皮肤分割中的至少一者对应的估计的面部特征，并且机器学习模型的输出可至少部分地基于估计的面部特征。

在一个或多个具体实施中，电子设备102可基于用户的当前环境的勒克斯水平从多个机器学习模型中选择机器学习模型以用于RGB图像预测。机器学习模型可能已经过训练，以针对不同水平的环境光来预测RGB图像。

电子设备102基于机器学习模型的输出来提供被摄体的预测的RGB图像(608)。预测的RGB图像可对应于红外图像的颜色表示。

如上所述，本技术的一个方面是采集和使用得自特定和合法来源的数据以用于生成和/或捕获RGB图像和IR图像。本公开设想，在一些实例中，该所采集的数据可包括唯一地识别或可用于识别具体人员的个人信息数据。此类个人信息数据可包括人口统计数据、基于位置的数据、在线标识符、电话号码、电子邮件地址、家庭地址、与用户的健康或健身级别相关的数据或记录(例如，生命特征测量、药物信息、锻炼信息)、出生日期或任何其他个人信息。

本公开认识到在本发明技术中使用此类个人信息数据可用于使用户受益。例如，个人信息数据可以用于生成RGB图像。因此，使用此类个人信息数据可改善图像质量。此外，本公开还预期个人信息数据有益于用户的其他用途。例如，健康和健身数据可根据用户的偏好来使用以提供对其总体健康状况的见解，或者可用作对使用技术来追求健康目标的个体的积极反馈。

本公开设想负责收集、分析、公开、传输、存储或其他使用此类个人信息数据的实体将遵守既定的隐私政策和/或隐私实践。具体地，将期望此类实体实现和一贯地应用一般公认为满足或超过维护用户隐私的行业或政府所要求的隐私实践。关于使用个人数据的此类信息应当被突出地并能够被用户方便地访问，并应当随数据的收集和/或使用变化而被更新。用户的个人信息应被收集仅用于合法使用。另外，此类收集/共享应仅发生在接收到用户同意或在适用法律中所规定的其他合法根据之后。此外，此类实体应考虑采取任何必要步骤，保卫和保障对此类个人信息数据的访问，并确保有权访问个人信息数据的其他人遵守其隐私政策和流程。另外，这种实体可使其本身经受第三方评估以证明其遵守广泛接受的隐私政策和实践。此外，应针对被收集和/或访问的特定类型的个人信息数据调整政策和实践，并使其适用于适用法律和标准，包括可用于施加较高标准的辖区专有的具体考虑因素。例如，在美国，对某些健康数据的收集或获取可能受联邦和/或州法律的管辖，诸如健康保险流通和责任法案(HIPAA)；而其他国家的健康数据可能受到其他法规和政策的约束并应相应处理。

不管前述情况如何，本公开还预期用户选择性地阻止使用或访问个人信息数据的实施方案。即本公开预期可提供硬件元件和/或软件元件，以防止或阻止对此类个人信息数据的访问。例如，在生成RGB图像的情况下，本发明技术可被配置为在注册服务期间或之后任何时候允许用户选择“选择加入”或“选择退出”参与对个人信息数据的收集。除了提供“选择加入”和“选择退出”选项外，本公开设想提供与访问或使用个人信息相关的通知。例如，可在下载应用时向用户通知其个人信息数据将被访问，然后就在个人信息数据被应用访问之前再次提醒用户。

此外，本公开的目的是应管理和处理个人信息数据以最小化无意或未经授权访问或使用的风险。一旦不再需要数据，通过限制数据收集和删除数据可最小化风险。此外，并且当适用时，包括在某些健康相关应用程序中，数据去标识可用于保护用户的隐私。可在适当时通过移除标识符、控制所存储数据的量或特异性(例如，在城市级别而不是在地址级别收集位置数据)、控制数据如何被存储(例如，在用户间汇集数据)和/或其他方法诸如差异化隐私来促进去标识。

因此，虽然本公开广泛地覆盖了使用个人信息数据来实现一个或多个各种所公开的实施方案，但本公开还预期各种实施方案也可在无需访问此类个人信息数据的情况下被实现。即，本发明技术的各种实施方案不会由于缺少此类个人信息数据的全部或一部分而无法正常进行。

图7示出了根据一个或多个具体实施的可用以实现主题技术的各个方面的示例性电子系统。电子系统700可以是用于生成参考图1至图2所述的特征和过程的任一个电子设备或服务器和/或可以是其一部分，包括但不限于膝上型计算机、平板电脑、智能电话和可穿戴设备(例如，智能手表、健身手环)。电子系统700可包括各种类型的计算机可读介质以及用于各种其他类型的计算机可读介质的接口。电子系统700包括永久性存储设备702、系统存储器704(和/或缓冲器)、输入设备接口706、输出设备接口708、总线710、ROM 712、一个或多个处理单元714、一个或多个网络接口716、图像传感器718和/或它们的子集和变型。

总线710总体表示通信地连接电子系统700的多个内部设备的所有系统总线、外围设备总线和芯片组总线。在一个或多个具体实施中，总线710将一个或多个处理单元714与ROM 712、系统存储器704和永久性存储设备702通信地连接。一个或多个处理单元714从这些各种存储器单元检索要执行的指令和要处理的数据，以便执行本主题公开的过程。在不同的具体实施中，一个或多个处理单元714可为单个处理器或多核处理器。

ROM 712存储一个或多个处理单元714以及电子系统700的其他模块所需的静态数据和指令。另一方面，永久性存储设备702可为读写存储器设备。永久性存储设备702可为即使在电子系统700关闭时也存储指令和数据的非易失性存储器单元。在一个或多个具体实施中，海量存储设备(诸如，磁盘或光盘及其相应盘驱动器)可被用作永久性存储设备702。

在一个或多个具体实施中，可移除存储设备(诸如软盘、闪存驱动器及其对应的磁盘驱动器)可以用作永久性存储设备702。与永久性存储设备702一样，系统存储器704可为读写存储器设备。然而，与永久性存储设备702不同，系统存储器704可为易失性读写存储器，诸如随机存取存储器。系统存储器704可存储一个或多个处理单元714在运行时可能需要的指令和数据中的任何指令和数据。在一个或多个具体实施中，本主题公开的过程被存储在系统存储器704、永久性存储设备702和/或ROM 712中。一个或多个处理单元714从这些各种存储器单元检索要执行的指令和要处理的数据，以便执行一个或多个具体实施的过程。

总线710还连接到输入设备接口706和输出设备接口708。输入设备接口706使得用户能够向电子系统700传送信息以及选择命令。可与输入设备接口706一起使用的输入设备可包括例如字母数字键盘和指向设备(也称为“光标控制设备”)。输出设备接口708可例如使得能够显示由电子系统700所生成的图像。可与输出设备接口708一起使用的输出设备可包括例如打印机和显示设备，诸如液晶显示器(LCD)、发光二极管(LED)显示器、有机发光二极管(OLED)显示器、柔性显示器、平板显示器、固态显示器、投影仪或用于输出信息的任何其他设备。

一个或多个具体实施可包括既充当输入设备又充当输出设备的设备，诸如触摸屏。在这些具体实施中，提供给用户的反馈可以是任何形式的感官反馈，诸如视觉反馈、听觉反馈或触觉反馈；并且可以任何形式接收来自用户的输入，包括声学、语音或触觉输入。

总线710还连接到图像传感器718。在一个或多个具体实施中，图像传感器718可用于捕获图像数据，包括但不限于RGB图像数据或红外图像数据。

最后，如图7所示，总线710还通过一个或多个网络接口716将电子系统700耦接到一个或多个网络和/或耦接到一个或多个网络节点。以此方式，电子系统700可为计算机网络(诸如LAN、广域网(“WAN”)或内联网)的一部分，或者可为网络的网络(诸如互联网)的一部分。电子系统700的任何或所有部件可与本主题公开一起使用。

可以利用编写有一个或多个指令的有形计算机可读存储介质(或一种或多种类型的多个有形计算机可读存储介质)部分地或全部地实现本公开范围之内的具体实施。有形计算机可读存储介质实质上也可以是非暂态的。

计算机可读存储介质可以是任何可以由通用或专用计算设备读、写或以其他方式访问的存储介质，包括任何能够执行指令的处理电子器件和/或处理电路。例如，非限制地，计算机可读介质可包括任何易失性半导体存储器，诸如RAM、DRAM、SRAM、T-RAM、Z-RAM和TTRAM。计算机可读介质也可包括任何非易失性半导体存储器，诸如ROM、PROM、EPROM、EEPROM、NVRAM、闪存、nvSRAM、FeRAM、FeTRAM、MRAM、PRAM、CBRAM、SONOS、RRAM、NRAM、赛道存储器、FJG和Millipede存储器。

此外，计算机可读存储介质可包括任何非半导体存储器，诸如光盘存储装置、磁盘存储装置、磁带、其他磁性存储设备或者能够存储一个或多个指令的任何其他介质。在一个或多个具体实施中，有形计算机可读存储介质可直接耦接到计算设备，而在其他具体实施中，有形计算机可读存储介质可例如经由一个或多个有线连接、一个或多个无线连接、或它们的任意组合而间接地耦接到计算设备。

指令可以是直接能执行的，或者可用于开发可执行指令。例如，指令可被实现为可执行的或不可执行的机器代码，或者可被实现为可被编译以产生可执行的或不可执行的机器代码的高级语言指令。此外，指令也可被实现为数据，或者可包括数据。计算机可执行指令也可以任何格式组织，包括例程、子例程、程序、数据结构、对象、模块、应用、小程序、函数等。如本领域技术人员认识到的那样，包括但不限于指令的数量、结构、序列和组织的细节可明显不同，而不改变底层的逻辑、功能、处理和输出。

虽然以上论述主要涉及执行软件的微处理器或多核处理器，但一个或多个具体实施由一个或多个集成电路诸如ASIC或FPGA执行。在一个或多个具体实施中，此类集成电路执行存储在电路自身上的指令。

本领域的技术人员将会认识到，本文所述的各种例示性的框、模块、元件、部件、方法和算法可被实现为电子硬件、计算机软件或两者的组合。为了说明硬件和软件的这种可互换性，上文已经一般性地按照功能性对各种例示性的框、模块、元件、部件、方法和算法进行了描述。此类功能性是被实现为硬件还是软件取决于具体应用以及对整个系统施加的设计约束。技术人员对于每个具体应用可通过不同方式实现所描述的功能性。各种部件和框可被不同地布置(例如，以不同的顺序排列，或以不同的方式划分)，而不脱离本主题技术的范围。

应当理解，本发明所公开的过程中的框的特定顺序或分级结构为示例性方法的例示。基于设计优选要求，应当理解，过程中的框的特定顺序或者分级结构可被重新布置或者所有示出的框都被执行。这些框中的任何框可被同时执行。在一个或多个具体实施中，多任务和并行处理可能是有利的。此外，上述具体实施中各个系统部件的划分不应被理解为在所有具体实施中都要求此类划分，并且应当理解，程序部件和系统可一般性地被一起整合在单个软件产品中或者封装到多个软件产品中。

如本说明书以及本专利申请的任何权利要求中所用，术语“基站”、“接收器”、“计算机”、“服务器”、“处理器”及“存储器”均是指电子设备或其他技术设备。这些术语排除人或者人的群组。出于本说明书的目的，术语“显示”或“正在显示”意指在电子设备上显示。

如本文所用，在用术语“和”或“或”分开项目中任何项目的一系列项目之后的短语“中的至少一者”是将列表作为整体进行修饰，而不是修饰列表中的每个成员(即每个项目)。短语“中的至少一者”不要求选择所列出的每个项目中的至少一个；相反，该短语允许包括任何一个项目中的至少一个和/或项目的任何组合中的至少一个和/或每个项目中的至少一个的含义。举例来说，短语“A、B和C中的至少一者”或“A、B或C中的至少一者”各自是指仅A、仅B或仅C；A、B和C的任意组合；和/或A、B和C中的每一个中的至少一个。

谓词字词“被配置为”、“能够操作以”以及“被编程以”并不意味着对某一主题进行任何特定的有形或无形的修改而是旨在可互换使用。在一个或多个具体实施中，被配置为监视和控制操作或部件的处理器也可以是意指处理器被编程以监视和控制操作或者处理器可操作以监视和控制操作。同样，被配置为执行代码的处理器可解释为被编程以执行代码或能够操作以执行代码的处理器。

短语诸如方面、该方面、另一方面、一些方面、一个或多个方面、具体实施、该具体实施、另一具体实施、一些具体实施、一个或多个具体实施、实施方案、该实施方案、另一实施方案、一些实施方案、一个或多个实施方案、配置、该配置、其他配置、一些配置、一种或多种配置、主题技术、公开、本公开、它们的其他变型等等都是为了方便，并不意味着涉及这样的一个或多个短语的公开对于主题技术是必不可少的，也不意味着这种公开适用于主题技术的所有配置。涉及此类一个或多个短语的公开可适用于所有配置或一个或多个配置。涉及此类一个或多个短语的公开可提供一个或多个示例。短语诸如方面或一些方面可指代一个或多个方面，反之亦然，并且这与其他前述短语类似地应用。

字词“示例性”在本文中被用于意指“用作示例、实例或者例示”。在本文中被描述为“示例性的”或作为“示例”的任何实施方案不必被理解为优选于或优于其他具体实施。此外，在术语“包括”、“具有”等在说明书或权利要求中使用的限度内，这样的术语旨在是包含性的，与术语“包括”当在权利要求中被用作过渡字词时“包括”被解释的方式类似。

本领域的普通技术人员已知或稍后悉知的贯穿本公开描述的各个方面的元素的所有结构和功能等同物通过引用明确地并入本文，并且旨在被权利要求书所涵盖。此外，本文所公开的任何内容并非旨在提供给公众，而与该公开是否明确地被陈述在权利要求中无关。不应根据35 U.S.C.§112(f)的规定解释任何权利要求要素，除非使用短语“用于……的装置”明确陈述了该要素，或者就方法权利要求而言，使用短语“用于……的步骤”陈述了该要素。

先前的描述被提供以使得本领域的技术人员能够实践本文所述的各个方面。这些方面的各种修改对本领域的技术人员而言是显而易见的，并且本文所限定的通用原则可应用于其他方面。因此，本权利要求书并非旨在受限于本文所示的方面，而是旨在使得全部范围与语言权利要求书一致，其中对奇异值中的元素的引用并非旨在意味着“仅仅一个”，而是指“一个或多个”，除非被具体指出。除非另外特别说明，否则术语“一些”是指一个或多个。男性的代名词(例如，他的)包括女性和中性(例如，她的和它的)，并且反之亦然。标题和子标题(如果有的话)仅为了方便起见而使用并且不限制本主题公开。

Claims

1.一种方法，包括：

由设备捕获被摄体的红外图像；

由所述设备获取所述被摄体的参考RGB图像；

将所述红外图像和所述参考RGB图像作为输入提供给机器学习模型，所述机器学习模型已被训练为基于被摄体的红外图像和对应的RGB图像来输出所述被摄体的预测的RGB图像；以及

基于所述机器学习模型的输出来提供所述被摄体的预测的RGB图像。

2.根据权利要求1所述的方法，其中在捕获所述红外图像的同时，由RGB图像传感器捕获所述被摄体的所述参考RGB图像。

3.根据权利要求1所述的方法，其中所述被摄体的所述参考RGB图像是在捕获所述红外图像之前捕获的所述被摄体的RGB图像。

4.根据权利要求1所述的方法，其中所述预测的RGB图像对应于所述红外图像的颜色表示。

5.根据权利要求1所述的方法，还包括：

由所述设备基于环境勒克斯水平从多个机器学习模型中选择所述机器学习模型。

6.根据权利要求5所述的方法，其中已基于对应被摄体的同时捕获的红外图像和RGB图像来训练所选择的机器学习模型。

7.根据权利要求6所述的方法，其中捕获所述RGB图像的环境的勒克斯水平低于预定义的勒克斯水平。

8.根据权利要求5所述的方法，其中已基于红外图像和在所述红外图像之前捕获的对应的RGB图像来训练所选择的机器学习模型。

9.根据权利要求8所述的方法，其中捕获所述对应的RGB图像的环境的勒克斯水平高于预定义的勒克斯水平。

10.根据权利要求1所述的方法，其中所述机器学习模型已基于目标RGB图像被进一步训练，在勒克斯水平高于预定义的勒克斯水平的环境中与捕获对应的IR图像同时地捕获所述目标RGB图像。

11.根据权利要求1所述的方法，其中所述机器学习模型被配置为接收与面部分割或皮肤分割中的至少一者对应的估计的面部特征，并且

其中所述机器学习模型的所述输出至少部分地基于所估计的面部特征。

12.根据权利要求1所述的方法，还包括：

在将所述红外图像和所述参考RGB图像提供给所述机器学习模型之前，相对于所述被摄体执行背景减除。

13.根据权利要求1所述的方法，还包括：

在将所述红外图像和所述参考RGB图像提供给所述机器学习模型之前，对所述红外图像或所述参考RGB图像中的至少一者执行焦距调节。

14.根据权利要求1所述的方法，还包括：

在将所述红外图像和所述参考RGB图像提供给所述机器学习模型之前，对所述红外图像或所述参考RGB图像中的至少一者执行分辨率调节。

15.一种设备，包括：

红外图像传感器；

至少一个处理器；和

存储器，所述存储器包括指令，所述指令当由所述至少一个处理器执行时，使所述至少一个处理器：

由所述红外图像传感器捕获被摄体的红外图像；

获取所述被摄体的参考RGB图像；

将所述红外图像和所述参考RGB图像提供给机器学习模型，所述机器学习模型已被训练为基于被摄体的红外图像和对应的RGB图像来输出预测的RGB图像；以及

16.根据权利要求15所述的设备，还包括：

RGB图像传感器，所述RGB图像传感器被配置为在由所述红外图像传感器捕获所述红外图像的同时捕获所述被摄体的所述参考RGB图像。

17.根据权利要求15所述的设备，其中在所述被摄体的所述红外图像之前捕获所述被摄体的所述参考RGB图像。

18.根据权利要求15所述的设备，其中所述预测RGB图像对应于所述红外图像的颜色表示。

19.根据权利要求15所述的设备，其中所述指令进一步使所述至少一个处理器：

基于环境勒克斯水平从多个机器学习模型中选择所述机器学习模型，

其中已基于对应被摄体的同时捕获的红外图像和RGB图像来训练所选择的机器学习模型，或者

其中已基于红外图像和在所述红外图像之前捕获的对应的RGB图像来训练所选择的机器学习模型。

20.一种包括存储在有形计算机可读存储介质中的代码的计算机程序产品，所述代码包括：

用于获取被摄体的红外图像的代码；

用于获取所述被摄体的参考彩色图像的代码；

用于基于环境勒克斯水平从多个机器学习模型中选择机器学习模型的代码；

用于将所述红外图像和所述参考彩色图像提供给所选择的机器学习模型的代码，所选择的机器学习模型已被训练为基于被摄体的红外图像和参考彩色图像输出预测的彩色图像；和

用于基于所选择的机器学习模型的输出来提供所述被摄体的预测的彩色图像的代码。