CN115918102A

CN115918102A - 基于深度学习的视频帧白平衡校正

Info

Publication number: CN115918102A
Application number: CN202080099623.2A
Authority: CN
Inventors: T·王; 徐海; X·黄; 范永康; W·何
Original assignee: Polycom Communications Technology Beijing Co Ltd
Current assignee: Polycom Communications Technology Beijing Co Ltd
Priority date: 2020-05-12
Filing date: 2020-05-12
Publication date: 2023-04-04
Also published as: US20230136314A1; EP4118817A1; EP4118817A4; WO2021226819A1

Abstract

一种方法可包括：通过将自动白平衡(AWB)算法应用于视频馈送的视频帧来计算颜色增益，通过将机器学习模型应用于所述视频帧来计算照明颜色，将所述照明颜色转换为等效颜色增益，确定所述颜色增益与所述等效颜色增益之间的差值超过差值阈值，基于超过所述阈值而反转所述视频帧上所述照明颜色的效果以获取经校正的视频帧，以及将所述经校正的视频帧传输到端点。

Description

基于深度学习的视频帧白平衡校正

背景技术

自动白平衡(AWB)算法调整中性(例如，白色)颜色的渲染，以准确地表示由相机镜头瞄准的场景中的实际中性颜色。传统AWB算法是基于对像素值的分析和关于帧中平均颜色的假设。例如，白点算法假设帧中始终存在白色区域，并且大多数类白色区域应为白色的。使用传统AWB算法来准确地处理背景颜色仍然是一个未解决的问题。传统AWB算法测量图像中显示的内容，但无法辨识和理解图像。例如，奶油色的办公桌与在暖光照明下看起来呈奶油色的纯白色办公桌没有区别。虽然人类视觉基于对物体的辨识而校正颜色，但在需要快速(例如，实时)性能时，诸如在视频流的情况下，应用基于机器学习的白平衡算法是不可行的。

发明内容

提供本发明内容是为了介绍一些概念，这些概念会在下文的具体实施方式中做进一步描述。本发明内容并不旨在识别所要求保护的主题的关键或基本特征，也不旨在用作限制所要求保护的主题的范围的辅助。

通常，在一个方面中，一个或多个实施例涉及一种方法，所述方法包括：通过将自动白平衡(AWB)算法应用于视频馈送的视频帧来计算颜色增益，通过将机器学习模型应用于视频帧来计算照明颜色，将照明颜色转换为等效颜色增益，确定颜色增益与等效颜色增益之间的差值超过差值阈值，基于超过差值阈值而反转视频帧上照明颜色的效果以获取经校正的视频帧，以及将经校正的视频帧传输到端点。

通常，在一个方面中，一个或多个实施例涉及一种系统，所述系统包括包含图像信号处理器(ISP)的相机，所述ISP被配置为：通过将自动白平衡(AWB)算法应用于视频馈送的视频帧来计算颜色增益，将照明颜色转换为等效颜色增益，确定颜色增益与等效颜色增益之间的差值超过差值阈值，以及基于超过差值阈值而反转视频帧上照明颜色的效果以获取经校正的视频帧。所述系统进一步包括包含机器学习模型的视频模块，视频模块被配置为通过将机器学习模型应用于视频帧来计算照明颜色以及将经校正的视频帧传输到端点。

通常，在一个方面中，一个或多个实施例涉及一种方法，所述方法包括：通过将自动白平衡(AWB)算法应用于视频馈送的视频帧来计算颜色增益，将颜色增益应用于视频帧以获取第一经校正的视频帧，通过将机器学习模型应用于第一经校正的视频帧来计算照明颜色，将照明颜色转换为等效颜色增益，确定颜色增益与等效颜色增益之间的差值超过差值阈值，基于超过差值阈值而反转第一经校正的视频帧上照明颜色的效果以获取第二经校正的视频帧，以及将第二经校正的视频帧传输到端点。

本发明的其他方面将从以下描述和所附权利要求中变得显而易见。

附图说明

图1示出了本公开的实施例的操作环境。

图2和图3示出了图1的操作环境的组件。

图4.1和图4.2示出了根据本公开的一个或多个实施例的方法的流程图。

图5.1、图5.2和图6示出了根据本公开的一个或多个实施例的示例。

具体实施方式

现将参考附图详细描述本公开的具体实施例。为一致起见，各个图中的相似元件由相似附图标记表示。

在本公开的实施例的以下详细描述中，阐述了许多具体细节以便提供对本公开的更透彻理解。然而，对于本领域的普通技术人员将显而易见的是，可在不具有这些具体细节的情况下实践本公开。在其他情况下，未详细描述众所周知的特征以避免不必要地使描述复杂化。

在整个申请中，序数(例如，第一、第二、第三等)可用作元件(即，申请中的任何名词)的形容词。除非明确公开，诸如通过使用术语“之前”、“之后”、“单一”，以及其他此类术语，否则序数的使用不是暗示或创建元件的任何特定排序，也不是将任何元件限制为仅单一元件。实际上，序数的使用是为了区分元件。作为示例，第一元件不同于第二元件，并且第一元件可涵盖多于一个元件并且在元件的排序中在第二元件之后(或之前)。

此外，虽然描述包括对本公开的各种实施例的讨论，但可以几乎任何方式组合各种所公开实施例。本文中涵盖所有组合。

在本文中的附图和附图的描述中，特定术语仅为方便起见使用，并且不用于限制本公开的实施例。在附图和下文的描述中，相似数字始终指示相似元件。

使用镜头捕获的图像包括颜色平衡的不准确。本公开的实施例通常是针对视频帧的白平衡校正。在一个或多个实施例中，颜色增益是通过将自动白平衡(AWB)算法应用于视频馈送的视频帧来计算。AWB算法调整视频帧中的中性(例如白色、奶油色和其他此类中性)颜色的渲染。调整经执行以使得经校正的视频帧中所示的中性颜色准确地表示由相机的镜头瞄准的场景中的实际中性颜色。AWB算法对视频帧的调整被称为颜色增益。在一个或多个实施例中，相机的图像信号处理器(ISP)可将AWB算法应用于视频帧。

此外，实施例将机器学习模型应用于视频帧以获取照明颜色。照明颜色表示由于来自光源的照明而导致的视频帧中的偏差。

虽然机器学习模型比AWB算法更精确，但应用机器学习模型会产生大量计算开销。通过在颜色增益已经稳定之后让机器学习模型计算照明颜色，可减少计算开销。例如，在由相机捕获的场景的照明发生变化之后，颜色增益可能会不稳定。继续此示例，照明的变化可能是由于在托管会议端点的会议室中打开或关闭照明开关。在颜色增益与从照明颜色导出的等效颜色增益之间的差值超过差值阈值时，等效颜色增益用于从视频帧生成经校正的视频帧。以规则间隔触发机器学习模型的活动和/或在颜色增益稳定时触发机器学习模型的活动减少了在机器学习模型持续活动的情况下将产生的计算开销和时延。公开了用于视频帧的白平衡校正的系统和方法。虽然结合电话会议系统描述了所公开系统和方法，但所公开系统和方法可在根据本公开的其他上下文中使用。

图1示出了本公开的示例性电路的可能操作环境。具体地，图1示出了根据本公开的实施例的会议设备或端点(10)。图1的会议设备或端点(10)经由网络(55)与一个或多个远程端点(60)通信。端点(10)包括具有音频编解码器(32)的音频模块(30)和具有视频编解码器(42)的视频模块(40)。这些模块(30、40)可操作地耦合到控制模块(20)和网络模块(50)。模块(30、40、20、50)包括专用硬件、由一个或多个硬件处理器执行的软件或其组合。在一些示例中，视频模块(40)对应于图形处理单元(GPU)、神经处理单元(NPU)、可由图形处理单元执行的软件、中央处理单元(CPU)、可由CPU执行的软件或其组合。在一些示例中，控制模块(20)包括CPU、可由CPU执行的软件或其组合。在一些示例中，网络模块(50)包括一个或多个网络接口装置、CPU、可由CPU执行的软件或其组合。在一些示例中，音频模块(30)包括CPU、可由CPU执行的软件、声卡或其组合。

通常，端点(10)可为会议装置、视频会议装置、具有音频或视频会议能力的个人计算机或任何类似类型的通信装置。端点(10)被配置为生成近端音频和视频并且从远程端点(60)接收远端音频和视频。端点(10)被配置为将近端音频和视频传输到远程端点(60)并且启动远端音频和视频的本地呈现。

麦克风(120)捕获音频并且将音频提供给音频模块(30)和编解码器(32)以供处理。麦克风(120)可为桌面或天花板麦克风、麦克风盒的部分、到端点的集成麦克风等。还可提供额外的麦克风(121)。在整个本公开中，除非另有说明，否则与麦克风(120)相关的所有描述都适用于任何额外的麦克风(121)。端点(10)将用麦克风(120)捕获的音频主要用于近端音频。相机(46)捕获视频并且将所捕获视频提供给视频模块(40)和视频编解码器(42)以供处理以生成近端视频。对于由相机(46)捕获的近端视频的每一视频帧，控制模块(20)选择视图区域，并且控制模块(20)或视频模块(40)将视频帧裁剪到视图区域。通常，视频帧(即，帧)是视频馈送中的单一静止图像，与其他视频帧一起形成视频馈送。可基于由麦克风(120)和额外的麦克风(121)生成的近端音频、其他传感器数据或其组合而选择视图区域。例如，控制模块(20)可选择视频帧中描绘当前正在说话的参与者的区域作为视图区域。作为另一示例，控制模块(20)可响应于确定在一段时间内没有人说话而选择整个视频帧作为视图区域。因此，控制模块(20)基于通信会话的上下文而选择视图区域。

在捕获音频和视频之后，端点(10)使用任何常见的编码标准来对所述音频和视频进行编码，所述编码标准诸如MPEG-1、MPEG-2、MPEG-4、H.261、H.263和H.264。然后，网络模块(50)使用任何适当协议来经由网络(55)将编码后的音频和视频输出到远程端点(60)。类似地，网络模块(50)经由网络(55)从远程端点(60)接收会议音频和视频，并且将这些会议音频和视频发送到他们相应的编解码器(32、42)以供处理。最终，扬声器(130)输出会议音频(从远程端点接收)，并且显示器(48)可输出会议视频。

因此，图1示出了调整由相机捕获的视频中的白平衡的装置的示例。特别地，图1的装置可根据下文参考图4.1和图4.2进一步描述的方法中的一种进行操作。如下文所述，这些方法可提高通信会话期间视频中的白平衡的准确性。

图2详细地示出了图1的会议端点的组件。端点(10)具有经由总线(100)耦合的处理单元(110)、存储器(140)、网络接口(150)和通用输入/输出(I/O)接口(160)。如上所述，端点(10)具有基础麦克风(120)、扬声器(130)、相机(46)和显示器(48)。

处理单元(110)包括CPU、GPU、NPU或其组合。存储器(140)可为任何常规存储器，诸如SDRAM，并且可存储用于控制端点(10)的软件和固件形式的模块(145)。所存储模块(145)包括先前讨论的其他模块(20、30、40、50)的编解码器(32、42)和软件组件。此外，模块(145)可包括操作系统、使用户能够控制端点(10)的图形用户接口(GUI)和用于处理音频/视频信号的其他算法。

网络接口(150)提供端点(10)与远程端点(60)之间的通信。相比之下，通用I/O接口(160)可提供与本地装置的数据传输，所述本地装置诸如键盘、鼠标、打印机、投影仪、显示器、外部扬声器、额外的相机、麦克风等。

如上文所述，端点(10)捕获视频的视频帧并且调整所捕获视频帧中的白平衡。因此，图2示出了校正白平衡不准确以提高视频质量的装置的示例物理配置。

如图3所示，在一个或多个实施例中，相机(46)包括图像信号处理器(ISP)(310)、镜头(317)和图像传感器(318)。经由镜头(317)的图像传感器(318)包括捕获来自场景的视频馈送中的图像的功能。例如，场景可为包括会议端点(10)的会议室。例如，图像传感器(318)可以数字格式表示图像。输入视频帧(300)可为从视频馈送捕获的一系列视频帧中的视频帧。

ISP(310)可包括用于数码相机和/或其他装置处理器中的图像处理的处理器。ISP(310)包括生成输出视频帧(302)的功能，所述输出视频帧校正对应输入视频帧(300)中的白色不平衡。ISP(310)包括自动白平衡(AWB)算法(312)和选择逻辑(316)。AWB算法(312)可为调整输入视频帧(300)中的中性(例如，白色)颜色的渲染使得中性颜色准确地表示由镜头(318)瞄准的场景中的实际中性颜色的任何算法。AWB算法(312)对输入视频帧(300)的调整被称为颜色增益(314)。颜色增益(314)可表示为包括红色、绿色和蓝色(rgb)分量的向量。

选择逻辑(316)包括在由AWB算法(312)计算的颜色增益(314)与由机器学习模型(320)计算的照明颜色(324)之间进行选择的功能。选择逻辑(316)可包括定时器(未示出)。在一个或多个实施例中，定时器包括以规则间隔激活或以其他方式触发机器学习模型(320)的功能。选择逻辑(316)可包括使用颜色增益(314)和/或照明颜色(324)来生成输出视频帧(302)的功能。选择逻辑(316)可包括将输出视频帧(302)发送到一个或多个远程端点(60)的功能。

如图3所示，在一个或多个实施例中，视频模块(40)包括机器学习模型(320)。视频模块(40)任选地可包括选择逻辑(316)，诸如上文参考图3所描述的选择逻辑。在一个或多个实施例中，视频模块(40)可实施选择逻辑(316)。例如，ISP(310)执行选择逻辑(316)可能是不可行的。视频模块(40)可包括基于从ISP(310)接收中间视频帧而生成输出视频帧(302)并且将输出视频帧(302)传输到远程端点的功能。例如，中间视频帧可由ISP(310)使用颜色增益(314)生成，并且输出视频帧可由视频模块(40)使用照明颜色(324)生成。

机器学习模型(320)可为深度学习模型，所述深度学习模型包括从输入视频帧(300)生成(例如，估计)照明颜色(324)的功能。照明颜色(324)表示由于来自光源的照明而导致的输入视频帧(300)中的偏差。照明颜色(324)可表示为包括红色、绿色和蓝色分量的rgb向量。例如，rgb向量可为(0.8447622、0.9065292、1.703821)。在一个或多个实施例中，机器学习模型(320)将归一化函数应用于rgb向量的分量。

机器学习模型(320)可为开源FC4深度学习模型。FC4模型可学习对输入视频帧(300)的全局理解并且生成具有分配给输入视频帧(300)的不同区域中的颜色的权重的置信图。权重最高的区域可为传统AWB算法中常用的白色/灰色区域，以及具有容易识别颜色的区域，例如人脸。FC4深度学习模型基于所选择区域中照明颜色的单独估计而估计输入视频帧(300)的整体照明颜色(324)。

图4.1示出了根据本发明的一个或多个实施例的流程图。流程图描绘了用于视频帧的白平衡校正的过程。图4.1中的一个或多个步骤可由上文参考图3讨论的组件(例如，视频模块(40)和图像信号处理器(ISP)(310))执行。在本发明的一个或多个实施例中，图4.1中所示的一个或多个步骤可被省略、重复和/或并行执行，或者以与图4.1中所示的顺序不同的顺序执行。因此，本发明的范围不应被认为限于图4.1中所示的步骤的具体布置。

最初，在块402中，颜色增益是通过将自动白平衡(AWB)算法应用于视频馈送的视频帧来计算的。视频馈送可使用相机的广角镜头和图像传感器来捕获。ISP可将AWB算法应用于视频帧以计算颜色增益。

在块404中，照明颜色是通过将机器学习模型应用于视频帧来计算的。机器学习模型可在已经检测到颜色增益的稳定之后计算照明颜色(参见下文图4.2的用于检测颜色增益的稳定的描述)。例如，在AWB算法处理由相机捕获的场景的照明的变化之后，颜色增益可能会不稳定。继续此示例，照明的变化可能是由于在托管会议端点的会议室中打开或关闭照明开关。在会议端点处，照明的变化可能并不频繁。在一个或多个实施例中，在照明的变化超过照明阈值之后检测颜色增益的稳定。ISP可通过监视由AWB计算的颜色增益来检测照明的变化。如果颜色增益的变化在预定时间间隔内超过增益阈值，则ISP可断定照明正在变化。一旦颜色增益已经稳定，ISP就可断定照明也已经稳定。替代地，ISP可通过比较连续视频帧中的像素值来检测照明的变化。例如，ISP可比较连续视频帧的平均灰度值。

在一个或多个实施例中，机器学习模型在检测到颜色增益的稳定之后以规则间隔计算照明颜色。例如，定时器可用于以规则间隔触发机器学习模型对照明颜色的计算。继续此示例，机器学习模型对照明颜色的计算可在检测到颜色增益的稳定之后以30秒间隔触发。以规则间隔触发机器学习模型的活动和/或在检测到颜色增益的稳定之后触发机器学习模型的活动减少了在机器学习模型持续活动的情况下将产生的计算开销和时延。因此，虽然可针对视频馈送中的视频帧持续执行步骤402，但可在触发时执行步骤404。

在块406中，照明颜色被转换为等效颜色增益。选择逻辑可将转换公式应用于照明颜色以获取等效颜色增益。在一个或多个实施例中，转换公式将照明颜色的分量(例如，红色、绿色和蓝色分量)的平均值除以照明颜色的幅值以获取等效颜色增益。等效颜色增益可被认为是照明颜色的“反转”。等效颜色增益可用于抑制照明颜色的效果，如下文的块410中所述。在颜色增益在照明发生变化之后稳定时，可更新转换公式。

在块408中，确定颜色增益与等效颜色增益之间的差值超过差值阈值。选择逻辑可将等效颜色增益与上文块402中由ISP计算的颜色增益进行比较。等效颜色增益和由ISP计算的颜色增益的比较可响应于检测到颜色增益的稳定而执行(参见下文图4.2的描述)。

在块410中，视频帧上照明颜色的效果基于超过差值阈值而反转以获取经校正的视频帧。照明颜色的效果可通过将视频帧中的像素值乘以在上文块406中计算的等效颜色增益来反转。

在一个或多个实施例中，在由ISP计算的颜色增益与等效颜色增益之间的差值超过差值阈值时，选择逻辑假设上文在块402中由ISP计算的颜色增益不准确，并且因此等效颜色增益，而非由ISP计算的颜色增益，用于校正视频帧。替代地，在由ISP计算的颜色增益与等效颜色增益之间的差值不超过差值阈值时，由ISP计算的颜色增益用于校正视频帧。

在块412中，经校正的视频帧被传输到端点。端点可为相对于会议设备远程的端点(例如，可经由网络访问)。替代地，端点相对于会议设备端点(例如，显示设备)可为本地的。

图4.2示出了根据本发明的一个或多个实施例的流程图。流程图描绘了用于检测颜色增益稳定的过程。图4.2中的一个或多个步骤可由上文参考图3讨论的组件(例如，视频模块(40)和图像信号处理器(ISP)(310))来执行。在本发明的一个或多个实施例中，图4.2中所示的一个或多个步骤可被省略、重复和/或并行执行，或者以与图4.2中所示的顺序不同的顺序执行。因此，本发明的范围不应被认为限于图4.2中所示的步骤的特定布置。

最初，在块452中，获取视频馈送的当前视频帧。视频馈送可使用相机的镜头和图像传感器来捕获。

在块454中，视频馈送中的当前视频帧中的一个或多个像素的值与视频馈送中的先前视频帧中的对应像素的值进行比较。例如，可比较像素的红色、绿色和/或蓝色值。在一个或多个实施例中，比较像素值是在检测到照明的变化之后执行的。替代地，可计算并比较一系列先前视频帧的像素值的移动平均值。例如，循环缓冲区可用于存储固定数量的最近视频帧，使得移动平均值是使用循环缓冲区中的视频帧的像素值来计算。

如果在块456中确定当前和先前像素值在值阈值内，则在块458中检测到稳定的颜色增益。替代地，在针对当前视频帧计算的颜色增益在针对先前视频帧计算的颜色增益的增益阈值内时，可检测到稳定的颜色增益。在一个或多个实施例中，针对视频帧计算的颜色增益可经由ISP的应用编程接口(API)提取。

图5.1和图5.2示出了根据一个或多个实施例的实施示例。实施示例仅用于说明目的，并且不旨在限制本发明的范围。本领域的技术人员应了解，本发明的实施例的实施可采用各种形式并且仍然在本发明的范围内。

图5.1示出了并行AWB校正(500)实施例，其中视频模块(502)(图3中的(40))的机器学习模型(506)(图3中的(320))与图像信号处理器(ISP)(504)(图3中的(310))并行执行AWB校正。ISP(504)包括选择逻辑(508)(图3中的(316))，所述选择逻辑在由机器学习模型(506)计算的照明颜色与由ISP(504)计算的颜色增益之间进行选择。取决于由选择逻辑(508)所做的选择，通过将照明颜色或颜色增益应用于输入视频帧(510)来将输入视频帧(510)转换为输出视频帧(512)。选择逻辑(508)在检测到颜色增益的稳定性之后将颜色增益与照明颜色进行比较。

图5.2示出了串行AWB校正(550)实施例，其中图像信号处理器(ISP)(552)通过将颜色增益应用于输入视频帧(560)来生成中间视频帧(562)。然后，由视频模块(554)的机器学习模型(506)计算的照明颜色应用于中间视频帧(562)以生成输出视频帧(564)。串行AWB校正(550)易于实施，因为无需修改ISP(552)以包括选择逻辑。为了减少计算开销，一旦由ISP(552)计算的颜色增益稳定，机器学习模型(506)就以规则间隔触发以计算照明颜色。在此示例中，机器学习模型(506)以30秒间隔触发。

图6示出了由ISP和机器学习模型执行的AWB算法(在本例中为FC4模型)的比较性能(600)。机器学习模型的运行时间明显慢于ISP的运行时间。因此，期望通过减少触发机器学习模型的计算的频率来减少计算开销。

用于执行本公开的实施例的计算机可读程序代码形式的软件指令可全部地或部分地、暂时地或永久地存储在非暂时性计算机可读媒体，诸如CD、DVD、存储装置、软盘、磁带、快闪存储器、物理存储器或任何其他计算机可读存储媒体上。具体地，软件指令可对应于在由处理器执行时被配置为执行本公开的一个或多个实施例的计算机可读程序代码。

虽然已经相对于有限数量的实施例描述了本公开，但受益于本公开的本领域的技术人员应了解，可设计出不脱离本文中所公开的本公开的范围的其他实施例。因此，本公开的范围应仅由所附权利要求限制。

Claims

1.一种方法，所述方法包括：

通过将自动白平衡(AWB)算法应用于视频馈送的视频帧来计算第一颜色增益；

通过将机器学习模型应用于所述视频帧来计算照明颜色；

将所述照明颜色转换为等效颜色增益；

确定所述第一颜色增益与所述等效颜色增益之间的差值超过差值阈值；

基于超过所述差值阈值而反转所述视频帧上所述照明颜色的效果以获取经校正的视频帧；以及

将所述经校正的视频帧传输到端点。

2.根据权利要求1所述的方法，其中确定所述第一颜色增益与所述等效颜色增益之间的所述差值超过所述差值阈值是由相机的图像信号处理器(ISP)执行的。

3.根据权利要求1所述的方法，所述方法进一步包括：

检测所述第一颜色增益已经稳定，

其中确定所述第一颜色增益与所述等效颜色增益之间的所述差值超过所述差值阈值是响应于检测到所述第一颜色增益已经稳定而执行的。

4.根据权利要求3所述的方法，其中检测所述第一颜色增益已经稳定包括：

获取所述视频馈送的当前视频帧；以及

确定所述当前视频帧中的像素的当前值在所述视频馈送的先前视频帧中的所述像素的先前值的值阈值内。

5.根据权利要求3所述的方法，其中检测所述第一颜色增益已经稳定包括确定所述第一颜色增益的当前值在所述第一颜色增益的先前值的增益阈值内。

6.根据权利要求3所述的方法，其中所述照明颜色是响应于检测到所述第一颜色增益已经稳定而计算的。

7.根据权利要求3所述的方法，其中所述照明颜色是在检测到所述第一颜色增益已经稳定之后以规则间隔计算的。

8.一种系统，所述系统包括：

包括图像信号处理器(ISP)的相机，所述ISP被配置为：

通过将自动白平衡(AWB)算法应用于视频馈送的视频帧来计算第一颜色增益，

将照明颜色转换为等效颜色增益，

确定所述第一颜色增益与所述等效颜色增益之间的差值超过差值阈值，以及

视频模块，所述视频模块包括机器学习模型并且被配置为：

通过将所述机器学习模型应用于所述视频帧来计算所述照明颜色，以及

将所述经校正的视频帧传输到端点。

9.根据权利要求8所述的系统，其中所述ISP进一步被配置为：

检测所述第一颜色增益已经稳定，

其中检测所述第一颜色增益与所述等效颜色增益之间的所述差值超过所述差值阈值是响应于检测到所述第一颜色增益已经稳定而执行的。

10.根据权利要求9所述的系统，其中所述ISP进一步被配置为通过以下操作来检测所述第一颜色增益已经稳定：

获取所述视频馈送的当前视频帧，以及

11.根据权利要求9所述的系统，其中所述ISP进一步被配置为通过以下操作来检测所述第一颜色增益已经稳定：

确定所述第一颜色增益的当前值在所述第一颜色增益的先前值的增益阈值内。

12.根据权利要求9所述的系统，其中所述视频模块在所述ISP检测到所述第一颜色增益已经稳定之后计算所述照明颜色。

13.根据权利要求9所述的系统，其中所述视频模块在所述ISP检测到所述第一颜色增益已经稳定之后以规则间隔计算所述照明颜色。

14.一种方法，所述方法包括：

将所述第一颜色增益应用于所述视频帧以获取第一经校正的视频帧；

通过将机器学习模型应用于所述第一经校正的视频帧来计算照明颜色；

将所述照明颜色转换为等效颜色增益；

基于超过所述差值阈值而反转所述第一经校正的视频帧上所述照明颜色的效果以获取第二经校正的视频帧；以及

将所述第二经校正的视频帧传输到端点。

15.根据权利要求14所述的方法，其中确定所述第一颜色增益与所述等效颜色增益之间的所述差值超过所述差值阈值是由视频模块的机器学习模型执行的。

16.根据权利要求14所述的方法，所述方法进一步包括：

检测所述第一颜色增益已经稳定，

17.根据权利要求16所述的方法，其中检测所述第一颜色增益已经稳定包括：

获取所述视频馈送的当前视频帧；以及

18.根据权利要求16所述的方法，其中检测所述第一颜色增益已经稳定包括确定所述第一颜色增益的当前值在所述第一颜色增益的先前值的增益阈值内。

19.根据权利要求16所述的方法，其中所述照明颜色是响应于检测到所述第一颜色增益已经稳定而计算的。

20.根据权利要求16所述的方法，其中所述照明颜色是在检测到所述第一颜色增益已经稳定之后以规则间隔计算的。