CN116962657B

CN116962657B - 彩色视频生成方法、装置、电子设备及存储介质

Info

Publication number: CN116962657B
Application number: CN202311223346.3A
Authority: CN
Inventors: 秦文健; 熊兵; 彭月
Original assignee: Shenzhen Institute of Advanced Technology of CAS
Current assignee: Shenzhen Institute of Advanced Technology of CAS
Priority date: 2023-09-21
Filing date: 2023-09-21
Publication date: 2024-02-27
Anticipated expiration: 2043-09-21
Also published as: CN116962657A

Abstract

本发明实施例公开了一种彩色视频生成方法、装置、电子设备及存储介质，涉及图像处理技术领域，其中，所述方法包括：获取待处理视频，所述待处理视频包括至少一个深度图；针对各所述深度图，通过扩散模型对所述深度图进行噪声扩散，得到与所述深度图对应的噪声图；所述噪声图用于指示所述深度图的语义信息和深度信息；将所述待处理视频输入彩色视频生成模型进行对应彩色视频的生成，并引入经噪声编码器编码的噪声图对彩色视频生成过程进行全局语义控制，得到彩色视频；所述彩色视频包括至少一个彩色图，每个彩色图分别对应所述待处理视频中的一个深度图。本发明解决了现有技术成本较高，彩色视频生成准确度不高的问题。

Description

彩色视频生成方法、装置、电子设备及存储介质

技术领域

本发明涉及图像处理技术领域，尤其涉及一种彩色视频生成方法、装置、电子设备及存储介质。

背景技术

根据中国残联的统计，目前我国至少500万盲人，并且随着人口老龄化加剧，盲人数量也在逐年增加。到2050年，世界盲人数量预计会达到7.03亿。“为盲人导盲”一直是一个热点研究问题。传统的导盲眼镜经过市场的不断推新，导盲眼镜的便携性和辅助算法的精度不断提高。但是，传统导盲眼镜在保证便携性的同时提升续航的问题上仍然是一个难题。

传统导盲眼镜多以双目摄像头，RGB彩色摄像头等模块作为主要传感器，通过RGBD或RGB语义分割对室内场景物体进行定位，而由于RGB相机摄像头的功耗远大于深度相机功耗，视障辅助眼镜的续航性只能通过升级电池材料，这导致升级的成本过高，是阻碍导盲眼镜续航的核心问题。

深度图采集设备的芯片的功耗相较于彩色图采集设备的芯片具有明显优势，然而，根据深度图生成较高质量的彩色图像时，由于室内物品的多样性，不同类别的物体呈现出相异的形态，如洗手液和水杯，丢弃在床上的衣服和被单，这些物体仅通过深度图单模态的纹理填充会产生歧义，并且，图像转换过程中纹理强烈的变化导致彩色视频生成准确率低，进而影响了下游识别任务的准确率。

因此，急需一种能够降低成本，提高彩色视频生成准确度的彩色视频生成方法。

发明内容

本发明各实施例提供一种彩色视频生成方法、装置、电子设备及存储介质，以解决相关技术中的彩色视频生成方法成本较高，彩色视频生成准确度不高的问题。所述技术方案如下：

根据本发明的一个方面，一种彩色视频生成方法，所述方法包括：获取待处理视频，所述待处理视频包括至少一个深度图；针对各所述深度图，通过扩散模型对所述深度图进行噪声扩散，得到与所述深度图对应的噪声图；所述噪声图用于指示所述深度图的语义信息和深度信息；将所述待处理视频输入彩色视频生成模型进行对应彩色视频的生成，并引入经噪声编码器编码的噪声图对彩色视频生成过程进行全局语义控制，得到彩色视频；所述彩色视频包括至少一个彩色图，每个彩色图分别对应所述待处理视频中的一个深度图。

在其中一个实施例中，通过扩散模型对所述深度图进行噪声扩散，得到与所述深度图对应的噪声图通过以下步骤实现：获取为所述深度图设置的第一文本提示词；所述第一文本提示词用于描述所述深度图中各物体的类别和/或各物体的位置；通过文本编码器将所述第一文本提示词编码为对应的文本特征向量；在所述扩散模型的前向过程中对所述深度图进行加噪，并将所述第一文本提示词对应的文本特征向量引入所述深度图的加噪过程，得到与所述深度图对应的噪声图。

在其中一个实施例中，通过扩散模型对所述深度图进行噪声扩散，得到与所述深度图对应的噪声图之前，所述方法还通过以下步骤实现：根据第一图像数据集训练所述扩散模型；根据第一图像数据集训练所述扩散模型通过以下步骤实现：获取所述第一图像数据集；所述第一图像数据集包括深度图序列和与所述深度图序列对应的彩色图序列；为所述深度图序列中的各所述深度图设置第一训练提示词；所述第一训练提示词用于描述所述深度图中各物体的类别和/或各物体的位置；通过文本编码器对各所述深度图的第一训练提示词进行编码，得到各所述深度图的文本特征向量；根据所述深度图序列、所述彩色图序列和各所述深度图的文本特征向量训练初始的所述扩散模型，直至训练完成，存储所述扩散模型的参数，得到训练好的所述扩散模型。

在其中一个实施例中，彩色视频生成模型包括扩散编码器和扩散解码器；将所述待处理视频输入彩色视频生成模型进行对应彩色视频的生成，并引入经噪声编码器编码的噪声图对彩色视频生成过程进行全局语义控制，得到彩色视频通过以下步骤实现：基于所述待处理视频，获取所述深度图及其对应的噪声图，并获取为所述待处理视频所在的目标场景设置的第二本文提示词；所述第二文本提示词用于描述所述目标场景；将所述深度图和经所述噪声编码器编码的噪声图输入所述扩散编码器进行编码，得到所述深度图对应的输入向量；通过扩散解码器对所述输入向量和所述第二文本提示词进行解码，得到所述深度图对应的输出向量，对所述输出向量进行二次解码得到所述深度图对应的彩色图；将各所述深度图对应的彩色图进行视频合成处理，得到所述彩色视频。

在其中一个实施例中，将所述待处理视频输入彩色视频生成模型进行对应彩色视频的生成，并引入经噪声编码器编码的噪声图对彩色视频生成过程进行全局语义控制，得到彩色视频之前，所述方法还通过以下步骤实现：获取第二图像数据集训练机器学习模型，直至训练完成，存储所述机器学习模型的参数，得到初始的所述彩色视频生成模型，初始的所述彩色视频生成模型具有将所述待处理视频转换为所述彩色视频的能力；获取为若干个目标场景设置的第二训练提示词；所述第二训练提示词用于描述所述目标场景；根据获取到的第二文本提示词对初始的所述彩色视频生成模型进行二次训练，直至训练完成，存储所述彩色视频生成模型的参数，得到训练好的所述彩色视频生成模型。

在其中一个实施例中，将各所述深度图对应的彩色图进行视频合成处理，得到所述彩色视频通过以下步骤实现：对各所述深度图对应的彩色图进行间隔采样得到多个关键帧；将多个所述关键帧进行分组，得到多个关键帧序列；所述关键帧序列包括至少一个所述关键帧；分别对各所述关键帧序列中的至少一个所述关键帧进行融合，得到所述彩色视频。

在其中一个实施例中，分别对各所述关键帧序列中的关键帧进行融合，得到所述彩色视频通过以下步骤实现：针对各所述关键帧序列，将所述关键帧序列中的关键帧进行拼接，得到多帧融合图像；所述融合图像与所述关键帧序列一一对应；通过注意力机制对多帧所述融合图像进行关键帧的交叉注意力计算，得到所述彩色视频。

在其中一个实施例中，得到彩色视频之后，所述方法还通过以下步骤实现：根据所述彩色视频进行语义分割任务，得到语义分割结果；所述语义分割结果包括目标场景中物体的位置、物体的类别中的一种或几种。

根据本发明的一个方面，一种彩色视频生成装置，所述装置包括：待处理视频获取模块，用于获取待处理视频，所述待处理视频包括至少一个深度图；噪声扩散模块，用于针对各所述深度图，通过扩散模型对所述深度图进行噪声扩散，得到与所述深度图对应的噪声图；所述噪声图用于指示所述深度图的语义信息和深度信息；彩色视频生成模块，用于将所述待处理视频输入彩色视频生成模型进行对应彩色视频的生成，并引入经噪声编码器编码的噪声图对彩色视频生成过程进行全局语义控制，得到彩色视频。

根据本发明的一个方面，一种电子设备，包括至少一个处理器以及至少一个存储器，其中，所述存储器上存储有计算机可读指令；所述计算机可读指令被一个或多个所述处理器执行，使得电子设备实现如上所述的彩色视频生成方法。

根据本发明的一个方面，一种存储介质，其上存储有计算机可读指令，所述计算机可读指令被一个或多个处理器执行，以实现如上所述的彩色视频生成方法。

根据本发明的一个方面，一种计算机程序产品，计算机程序产品包括计算机可读指令，计算机可读指令存储在存储介质中，电子设备的一个或多个处理器从存储介质读取计算机可读指令，加载并执行该计算机可读指令，使得电子设备实现如上所述的彩色视频生成方法。

本发明提供的技术方案带来的有益效果是：

在上述技术方案中，首先获取待处理视频，该待处理视频包括至少一个深度图，然后针对各深度图，通过扩散模型对各深度图进行噪声扩散，得到与深度图对应的噪声图，其中，该噪声图用于指示深度图的语义信息和深度信息，将待处理视频输入彩色视频生成模型进行对应彩色视频的生成，并引入经噪声编码器编码的噪声图对彩色视频生成过程进行全局语义控制，那么，就能通过噪声图将深度图中的语义信息和深度信息融合到彩色视频生成的过程中，使得彩色视频生成过程中加入了整体语义的信息，在彩色视频生成的过程中能够提高准确度，最后得到高质量的彩色视频，实现了由采集成本低的深度视频得到高质量的彩色视频，因此，本发明既能保证彩色视频生成的准确度，也可降低直接采集彩色视频的带来的高成本问题，从而能够有效地解决相关技术中存在的成本较高，彩色视频生成准确度不高的问题。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本发明。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对本发明实施例描述中所需要使用的附图作简单地介绍。显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是现有技术中彩色视频生成方法的结果示意图；

图2是根据本发明所涉及的实施环境的示意图；

图3是根据一示例性实施例示出的一种彩色视频生成方法的流程图；

图4a是图3对应实施例中步骤230在一个实施例的流程图；

图4b是图3对应实施例中噪声扩散在一个实施例的示意图；

图5是图3对应实施例中扩散模型训练过程在一个实施例的流程图；

图6是根据另一示例性实施例示出的一种彩色视频生成方法的流程图；

图7是图3对应实施例中步骤250在一个实施例的流程图；

图8是图7对应实施例中步骤570在一个实施例的流程图；

图9是根据一应用场景中一种彩色视频生成方法的的示意图；

图10是根据一应用场景中一种彩色视频生成方法的流程示意图；

图11是根据一示例性实施例示出的一种彩色视频生成装置的框图；

图12是根据一示例性实施例示出的一种电子设备的硬件结构图；

图13是根据一示例性实施例示出的一种电子设备的框图。

通过上述附图，已示出本发明明确的实施例，后文中将有更详细的描述，这些附图和文字描述并不是为了通过任何方式限制本发明构思的范围，而是通过参考特定实施例为本领域技术人员说明本发明的概念。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能解释为对本发明的限制。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本公开的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解，当我们称元件被“连接”或“耦接”到另一元件时，它可以直接连接或耦接到其他元件，或者也可以存在中间元件。此外，这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。

由于基于扩散模型的图像生成算法兴起和大型预训练模型的提出，深度图像可生成高质量的彩色图像，这使得仅采用深度相机实现获取到与RGBD相机得到的相同属性的图片成为可能。同时，现阶段，视障辅助眼镜的识别算法面对着以下的挑战：首先，视障人群生活场景中占比较的室内场景，室内场景具有物体相互遮挡，纹理相近物体难以区分的特点，仅依靠RGB图像的2D光度属性无法准确将其分离，而深度图图像的3D距离表示虽然能够提供结构分明的空间信息，但是，基于深度图像的识别算法由于深度图像采集到不确定性和信息不足的特点导致其鲁棒性弱。

虽然，为了达到仅使用深度图实现与现阶段RGBD视障辅助算法相同的作用可以采用图像生成的方法，但由于深度图仅提供结构信息导致部分结构外形相似的物体被填充成了其他类别物体，如图1所示，第一行是深度图，第二行是第一行各深度图对应的彩色图，第三行是现有技术根据第一行的深度图生成的彩色图，显而易见，对于常见物体例如桌子，凳子，床等常见物体且结构信息变化不大，这对于深度图填充纹理是容易的，然而而对于洗发液，置物柜等结构各异的物体，直接对其填充纹理时十分容易被误填充为其他物品，这样的语义信息是深度图单模态无法提供的，并且，每帧之间的纹理填充都是不确定的，急剧变化的纹理加上错误的语义填充对后续识别算法造成非常大的挑战。

由上可知，相关技术中仍存在成本较高，彩色视频生成准确度和稳定性不高的缺陷。

为此，本发明提供一种彩色视频生成方法，对不同环境具备鲁棒性，且能保证彩色视频生成的准确度，此外也可避免采集彩色图带来的成本问题，该彩色视频生成方法适用于视障辅助设备中，该视障辅助设备可以通过图像采集设备和彩色视频生成设备集成来实现。彩色视频生成设备例如彩色视频生成器，图像采集设备例如摄像头等。本发明实施例中的彩色视频生成方法可以应用于多种场景中，例如视障人群生活场景等。

图2为一种彩色视频生成方法所涉及的一种实施环境的示意图。需要说明的是，该种实施环境只是一个适配于本发明的示例，不能认为是提供了对本发明的使用范围的任何限制。

该实施环境包括采集端110和服务端130。

具体地，采集端110，可以认为是图像采集设备，包括但不限于摄像头、相机、摄录机等具有拍摄功能的电子设备，也可以认为是图像采集和处理一体化的设备，包括但不限于配置了摄像头的笔记本电脑等兼具拍摄功能和彩色视频生成功能的电子设备。服务端130，也可以认为是彩色视频生成设备，包括但不限于台式电脑、笔记本电脑、服务器等具有彩色视频生成功能的电子设备，还可以是由多台服务器构成的计算机集群，甚至是由多台服务器构成的云计算中心。其中，服务端130用于提供后台服务，例如，后台服务包括但不限于彩色视频生成服务等等。

服务端130与采集端110之间通过有线或者无线等方式预先建立网络通信连接，并通过该网络通信连接实现服务端130与采集端110之间的数据传输。传输的数据包括但不限于：待处理视频等等。

在一应用场景中，采集端110同时具备图像采集功能和彩色视频生成功能，在采集端110采集得到待处理视频后即调用彩色视频生成服务，针对待处理视频中的各深度图，通过扩散模型对各深度图进行噪声扩散，得到与深度图对应的噪声图，将待处理视频输入彩色视频生成模型进行对应彩色视频的生成，并引入经噪声编码器编码的噪声图对彩色视频生成过程进行全局语义控制，得到彩色视频，解决了相关技术中存在的彩色视频生成准确度不高的问题。

当然，在其他应用场景中，也可以通过采集端110与服务端130的交互，实现彩色视频生成。

在另一应用场景中，通过采集端110与服务端130的交互，采集端110采集得到待处理视频，并将该待处理视频上传至服务端130，以请求服务端130提供彩色视频生成服务。

此时，对于服务端130而言，在接收到采集端110上传的图像目标之后，便调用彩色视频生成服务，针对待处理视频中的各深度图，通过扩散模型对各深度图进行噪声扩散，得到与深度图对应的噪声图，将待处理视频输入彩色视频生成模型进行对应彩色视频的生成，并引入经噪声编码器编码的噪声图对彩色视频生成过程进行全局语义控制，得到彩色视频，提高了彩色视频生成的准确度，以此来解决相关技术中存在的彩色视频生成准确度不高的问题。

请参阅图3，本发明实施例提供了一种彩色视频生成方法，该方法适用于电子设备，例如，该电子设备可以是配置了摄像头的笔记本电脑等兼具拍摄功能和彩色视频生成功能的电子设备，也可以是台式电脑、笔记本电脑、服务器等具有彩色视频生成功能的电子设备等。

在下述方法实施例中，为了便于描述，以该方法各步骤的执行主体为电子设备为例进行说明，但是并非对此构成具体限定。

如图3所示，该方法可以包括以下步骤：

步骤210，获取待处理视频。

其中，待处理视频包括至少一个深度图。

在一个可能的实现方式，待处理视频是通过图像采集设备对当前环境进行拍摄和采集得到的。其中，图像采集设备可以是具备图像采集功能的电子设备，例如，配置摄像头的视障辅助眼镜、深度相机等等。

可以理解，拍摄可以是单次拍摄，还可以是连续性拍摄，那么，对于连续性拍摄而言，可以得到一段视频，则图像可以是该视频中的任意一帧画面，而就多次拍摄来说，可以得到多张照片，则图像可以是该多张照片中的任意一张照片。换而言之，本实施例中的图像可以来自于动态图像，例如一段视频中的多帧画面、或者多张照片，还可以来自于静态图像，例如一段视频中的任意一帧画面、或者多张照片中的任意一张照片，相应地，本实施例中的彩色视频生成可以以帧为单位进行。

步骤230，针对各深度图，通过扩散模型对深度图进行噪声扩散，得到与深度图对应的噪声图。

在一个可能的实现方式，如图4a所示，步骤230可以包括以下步骤：

步骤310，获取为深度图设置的第一文本提示词。

其中，第一文本提示词用于描述深度图中各物体的类别和/或各物体的位置。

步骤330，通过文本编码器将第一文本提示词编码为对应的文本特征向量。

步骤350，在扩散模型的前向过程中对深度图进行加噪，并将第一文本提示词对应的文本特征向量引入深度图的加噪过程，得到与深度图对应的噪声图。

如图4b所示，X₀是指未加噪的深度图，在由X₀变化至X_T的过程中，通过扩散模型的扩散过程在深度图中逐步加入噪声，最终得到噪声图X_T。在图4b中，无论是X₀还是X_T还是二者之间的加噪过程，均引入了经文本编码器进行编码的第一文本提示词。

在一个可能的实现方式，扩散模型是经过训练的具有噪声扩散能力的机器学习模型。具体地，扩散模型是通过第一图像数据集训练的。

具体而言，如图5所示，扩散模型的训练过程，可以包括以下步骤：

步骤410，获取第一图像数据集。

其中，第一图像数据集包括深度图序列和与深度图序列对应的彩色图序列。该深度图序列包括多个深度图，彩色图序列包括多个彩色图。

在一个可能的实现方式，第一图像数据集是通过图像采集设备采集不同目标场景下的图像数据得到的。其中，图像采集设备可以是具备图像采集功能的电子设备，例如，配置摄像头的视障辅助眼镜、深度相机等等，不同目标场景可以是卧室、马路上、商场、公园等等生活环境，还可以是视障人群生活占比较大的室内场景，此处均未加限定，以此保证第一图像数据集中各图像数据所在目标场景足够丰富，从而有利于提升扩散模型的鲁棒性。

此外，通过在不同目标场景中采集到的第一图像数据集来训练扩散模型，能够得到各种目标场景下深度图序列中深度图与彩色图序列中彩色图之间的映射关系，进而有利于提升彩色视频生成的准确度和稳定性。

步骤430，为深度图序列中的各深度图设置第一训练提示词。

其中，第一训练提示词用于描述深度图中各物体的类别和/或各物体的位置，例如，图中是一个书桌在两个沙发中间，书桌旁边是一个装着书的书架等等描述语句，那么，作为第一训练提示词的描述语句不仅涉及物体的类别，比如书桌、沙发、书架等，还涉及了物体的位置，比如书桌在两个沙发中间等，值得一提的是，第一训练提示词可以人工设置，也可以通过机器学习模型的调用自动识别，此处并加以限定。

步骤450，通过文本编码器对各深度图的第一训练提示词进行编码，得到各深度图的文本特征向量。

在一个可能的实现方式，文本编码器可以包括clip文本嵌入器、TF-IDF,、Word2Vec,、GloVe,、FastText,、ELMO,、CoVe,、BERT、RoBERTa等文本编码器，此处未加限定。

步骤470，根据深度图序列、彩色图序列和各深度图的文本特征向量训练初始的扩散模型，直至训练完成，存储扩散模型的参数,得到训练好的扩散模型。

通过此种方式，通过存储扩散模型的参数节省了GPU内存，进一步地提高了训练效率。

在一个可能的实现方式，步骤470可以包括以下步骤：

步骤S1，将深度图序列和对应的彩色图序列按照对应关系设置成多个图像对。

其中，图像对包括一个深度图和一个与深度图对应的彩色图。

步骤S2，将各图像对中的彩色图作为目标图像，深度图作为原始图像，通过加入随机噪声和各深度图对应的文本特征向量对扩散模型进行多次训练，得到训练好的扩散模型。

在一个可能的实现方式，训练扩散模型的过程中得到了与深度图序列对应的噪声图序列，根据各深度图的第二文本提示词为各深度图设置反演场景名，该反演场景名与噪声图序列和深度图序列分别一一对应，将噪声图序列和反演场景名进行存储。

本实施例中，通过将各图像对中的彩色图作为目标图像，深度图作为原始图像，便能够以彩色图作为导向控制模型的训练方向，再通过文本特征向量的加入进一步的对模型进行监督学习，提高模型训练的效率和效果，同时加入随机噪声避免模型训练过程中出现过拟合，保证模型训练的鲁棒性。

步骤250，将待处理视频输入彩色视频生成模型进行对应彩色视频的生成，并引入经噪声编码器编码的噪声图对彩色视频生成过程进行全局语义控制，得到彩色视频。

在一个可能的实现方式，彩色视频生成模型包括扩散编码器和扩散解码器。

请参阅图6，彩色视频生成模型的构建过程可以包括以下步骤：

步骤610，获取第二图像数据集训练机器学习模型，直至训练完成，存储机器学习模型的参数，得到初始的彩色视频生成模型。

步骤630，获取为若干个目标场景设置的第二训练提示词。

步骤650，根据获取到的第二文本提示词对初始的彩色视频生成模型进行二次训练，直至训练完成，存储彩色视频生成模型的参数，得到训练好的彩色视频生成模型。

通过上述训练过程，实现了彩色视频生成模型的第一次训练和第二次训练（即微调），使得该彩色视频生成模型具有将待处理视频无损转换为彩色视频的能力，进而使得不同质量的深度图均能够获得较好的彩色图。

基于训练好的彩色视频生成模型，如图7所示，步骤250可以包括以下步骤：

步骤510，基于待处理视频，获取深度图及其对应的噪声图，并获取为待处理视频所在的目标场景设置的第二文本提示词。

步骤530，将深度图和经噪声编码器编码的噪声图输入扩散编码器进行编码，得到深度图对应的输入向量。

步骤550，通过扩散解码器对输入向量和第二文本提示词进行解码，得到深度图对应的输出向量，对输出向量进行二次解码得到深度图对应的彩色图。

步骤570，将各深度图对应的彩色图进行视频合成处理，得到彩色视频。

通过此种方式，在潜在空间中通过第二文本提示词对输入向量进行定向控制，将文本条件向量中的信息渗透到输入向量得到输入向量的过程中，使用扩散解码器将输出向量从潜在空间中恢复成像素表示的图像，进而得到与深度图对应的彩色图，完成彩色视频生成过程，且使用编码器将深度图压缩为潜在空间中的低维输入向量便于提高计算速度，同时将反演场景名转换为高维文本条件向量便于机器学习模型理解，进而提高了彩色视频生成的效率和准确度。

具体而言，如图8所示，步骤570可以包括以下步骤：

步骤571，对各深度图对应的彩色图进行间隔采样得到多个关键帧。

步骤573，将多个关键帧进行分组得到多个关键帧序列。

其中，关键帧序列包括至少一个关键帧。

在一个可能的实现方式，对彩色图序列间隔5帧设立一个关键帧，得到多个关键帧，每3个关键帧为一组，得到多个关键帧序列，具体的采样间隔可以是5帧、6帧、7帧等等间隔，关键帧分组方式可以每3个关键帧一组、每4个关键帧一组等等方式，此处均未加以限定。

通过此种方式，能够控制填充纹理的一致性，提高彩色视频的生成质量和稳定性。

步骤575，分别对各关键帧序列中的关键帧进行融合，得到彩色视频。

在一个可能的实现方式，步骤575可以包括以下步骤：

步骤S1，针对各关键帧序列，将关键帧序列中的关键帧进行拼接，得到多帧融合图像。

其中，融合图像与关键帧序列一一对应。

步骤S2，通过注意力机制对多帧融合图像进行关键帧的交叉注意力计算，得到彩色视频。

通过上述过程，本发明实施例通过使用控制帧与帧之间统一的注意力机制保证了整体语义的控制以及视频语义的稳定性，解决了相关技术中存在的成本较高，彩色视频生成准确度不高的问题。

通过上述过程，本发明实施例通过扩散模型对深度图进行噪声扩散，得到对应的噪声图，其中，该噪声图用于指示深度图的语义信息和深度信息，然后通过编码器将深度图编码为对应的输入向量，并根据噪声图得到对应的文本条件向量，再通过编码器对输入向量和文本条件向量进行计算得到输出向量，那么，就能通过噪声图将深度图中的语义信息和深度信息以文本条件向量的形式融合到彩色视频生成的过程中，使得彩色视频生成过程中加入了整体语义的信息，在彩色视频生成的过程中能够提高准确度，最后通过解码器将输出向量解码为对应的彩色图，实现了由采集成本低的深度图得到高质量的彩色图，因此，本发明既能保证彩色视频生成的准确度，也可降低直接采集彩色图的带来的高成本问题，从而能够有效地解决相关技术中存在的成本较高，彩色视频生成准确度不高的问题。

在一个示例性实施例中，得到彩色视频之后，根据彩色视频进行语义分割任务，得到语义分割结果。其中，语义分割结果包括目标场景中物体的位置、物体的类别中的一种或几种。

具体地，语义分割的实现过程可以包括以下步骤：

步骤b1，对彩色视频的各帧分别进行特征提取，得到特征图序列。

其中，特征图序列包括多个特征图，每个特征图对应彩色视频中的一帧视频帧。

步骤b2，针对特征图序列中的每一个特征图，根据该特征图对相应视频帧中的目标进行位置定位，基于定位得到的目标在该视频帧中位置从该视频帧中分割得到目标区域图。

步骤b3，基于目标区域图，对该视频帧中的目标进行类别预测，得到语义分割结果。

其中，语义分割结果包括目标在视频帧中的位置、目标类别等。

通过上述过程，本发明实施例能够实现自适应控制整体语义信息变化的视频生成，实现在导盲时对室内场景进行仅采集深度图实时进行语义分割，从而为导盲提供资料，通过控制彩色视频的整体一致性为下游语义分割等识别任务提供语义信息稳定的信息源，降低了导盲辅助眼镜设计硬件成本，提高整体设计效率和准确度。

图9是一应用场景中一种彩色视频生成方法的示意图，在该应用场景中，需要进行彩色视频生成的可以是深度相机等电子设备。

在图9中，DDIM反演模型训练结束后冻结参数，作为完成训练的扩散模型。同理，彩色视频生成模型包括SD编码器和SD解码器，是由机器学习模型进行多次训练得到的，具体地，第一次训练结束后冻结参数，作为初始的彩色视频生成模型，引入文本提示词继续训练以对冻结参数进行微调，第二次训练结束后冻结参数，作为完成训练的彩色视频生成模型。

基于上述完成训练的各模型，对输入视频中的各视频帧分别设置文字提示词（即第一文本提示词），通过文本编码器得到第一文本提示词相应的文本特征向量，然后将各文本特征向量加入到DDIM反演模块进行各视频帧的噪声扩散，得到各视频帧对应的噪声提示词（即噪声图）。

当输入视频输入SD编码器，同时，噪声提示词经噪声编码器也输入SD编码器，进而通过SD编码器将输入视频编码为潜在空间中的输入向量，在文字提示词（即第二文本提示词）的作用下在SD解码器中对输入向量进行多次解码，再结合跨帧注意力的注意力机制，便能够得到准确的彩色视频。

在一个可能的实现方式，使用ControlNet模型作为彩色视频生成模型，在ControlNet模型中，通过冻结各模块的权重来提高各模块训练的速度，通过制作SD编码器的可训练副本避免在数据集很小时的过拟合，同时保持从数十亿张图像中学习到的大模型质量，使用初始权重和bias都是零的零卷积，在可训练副本中每层增加一个零卷积与原始网络的对应层相连，使得任何进一步的优化都会使模型性能提升，并且训练速度很快。

图10是一应用场景中一种彩色视频生成方法的流程示意图，在该应用场景中，需要进行彩色视频生成的可以是导盲眼镜等电子设备，目标场景特指视障人群生活占比较大的室内场景。

在图10中，面对实物，通过导盲眼镜中的深度图摄像头模块得到待检测的深度图序列，基于该深度图序列在对室内场景地进行文本预测，然后基于该文本预测结果通过深度图序列生成彩色视频，再对彩色视频进行语义分割，得到室内场景各个物体的位置，物体的类别信息。

通过上述过程，通过在导盲眼镜中使用本发明提供的彩色视频生成方法，为视障人群提供了有效的帮助信息，降低了导盲辅助眼镜设计硬件成本，提高整体设计效率和准确度。

下述为本发明装置实施例，可以用于执行本发明所涉及的彩色视频生成方法。对于本发明装置实施例中未披露的细节，请参照本发明所涉及的彩色视频生成方法的方法实施例。

请参阅图11，本发明实施例中提供了一种彩色视频生成装置800。

所述装置800包括但不限于：待处理视频获取模块810、噪声扩散模块830及彩色视频生成模块850。

其中，待处理视频获取模块810，用于获取待处理视频，待处理视频包括至少一个深度图；

噪声扩散模块830，用于针对各深度图，通过扩散模型对深度图进行噪声扩散，得到与深度图对应的噪声图；噪声图用于指示深度图的语义信息和深度信息；

彩色视频生成模块850，用于将待处理视频输入彩色视频生成模型进行对应彩色视频的生成，并引入经噪声编码器编码的噪声图对彩色视频生成过程进行全局语义控制，得到彩色视频。

需要说明的是，上述实施例所提供的彩色视频生成在进行彩色视频生成时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即彩色视频生成装置的内部结构将划分为不同的功能模块，以完成以上描述的全部或者部分功能。

另外，上述实施例所提供的彩色视频生成装置与彩色视频生成方法的实施例属于同一构思，其中各个模块执行操作的具体方式已经在方法实施例中进行了详细描述，此处不再赘述。

图12根据一示例性实施例示出的一种电子设备的结构示意。该电子设备适用于图2所示出实施环境中的采集端110。

需要说明的是，该电子设备只是一个适配于本发明的示例，不能认为是提供了对本发明的使用范围的任何限制。该电子设备也不能解释为需要依赖于或者必须具有图12示出的示例性的电子设备2000中的一个或者多个组件。

电子设备2000的硬件结构可因配置或者性能的不同而产生较大的差异，如图12所示，电子设备2000包括：电源210、接口230、至少一存储器250、以及至少一中央处理器（CPU,Central Processing Units）270。

具体地，电源210用于为电子设备2000上的各硬件设备提供工作电压。

接口230包括至少一有线或无线网络接口231，用于与外部设备交互。例如，进行图2所示出实施环境中采集端110和服务端130之间的交互。

当然，在其余本发明适配的示例中，接口230还可以进一步包括至少一串并转换接口233、至少一输入输出接口235以及至少一USB接口237等，如图12所示，在此并非对此构成具体限定。

存储器250作为资源存储的载体，可以是只读存储器、随机存储器、磁盘或者光盘等，其上所存储的资源包括操作系统251、应用程序253及数据255等，存储方式可以是短暂存储或者永久存储。

其中，操作系统251用于管理与控制电子设备2000上的各硬件设备以及应用程序253，以实现中央处理器270对存储器250中海量数据255的运算与处理，其可以是WindowsServerTM、Mac OS XTM、UnixTM、LinuxTM、FreeBSDTM等。

应用程序253是基于操作系统251之上完成至少一项特定工作的计算机可读指令，其可以包括至少一模块（图12未示出），每个模块都可以分别包含有对电子设备2000的计算机可读指令。例如，彩色视频生成装置可视为部署于电子设备2000的应用程序253。

数据255可以是存储于磁盘中的照片、图片等，还可以是扩散模型参数等，存储于存储器250中。

中央处理器270可以包括一个或多个以上的处理器，并设置为通过至少一通信总线与存储器250通信，以读取存储器250中存储的计算机可读指令，进而实现对存储器250中海量数据255的运算与处理。例如，通过中央处理器270读取存储器250中存储的一系列计算机可读指令的形式来完成彩色视频生成方法。

此外，通过硬件电路或者硬件电路结合软件也能同样实现本发明，因此，实现本发明并不限于任何特定硬件电路、软件以及两者的组合。

请参阅图13，本发明实施例中提供了一种电子设备4000，该电子设备400可以包括：具有图像采集功能的图像采集设备等。

在图13中，该电子设备4000包括至少一个处理器4001以及至少一个存储器4003。

其中，处理器4001和存储器4003之间的数据交互，可以通过至少一个通信总线4002实现。该通信总线4002可包括一通路，用于在处理器4001和存储器4003之间传输数据。通信总线4002可以是PCI（Peripheral Component Interconnect，外设部件互连标准）总线或EISA（Extended Industry Standard Architecture，扩展工业标准结构）总线等。通信总线4002可以分为地址总线、数据总线、控制总线等。为便于表示，图13中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

可选地，电子设备4000还可以包括收发器4004，收发器4004可以用于该电子设备与其他电子设备之间的数据交互，如数据的发送和/或数据的接收等。需要说明的是，实际应用中收发器4004不限于一个，该电子设备4000的结构并不构成对本发明实施例的限定。

处理器4001可以是CPU（Central Processing Unit，中央处理器），通用处理器，DSP（Digital Signal Processor，数据信号处理器），ASIC（Application SpecificIntegrated Circuit，专用集成电路），FPGA（Field Programmable Gate Array，现场可编程门阵列）或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本发明公开内容所描述的各种示例性的逻辑方框，模块和电路。处理器4001也可以是实现计算功能的组合，例如包含一个或多个微处理器组合，DSP和微处理器的组合等。

存储器4003可以是ROM（Read Only Memory，只读存储器）或可存储静态信息和指令的其他类型的静态存储设备，RAM（Random Access Memory，随机存取存储器）或者可存储信息和指令的其他类型的动态存储设备，也可以是EEPROM（Electrically ErasableProgrammable Read Only Memory，电可擦可编程只读存储器）、CD-ROM（Compact DiscRead Only Memory，只读光盘）或其他光盘存储、光碟存储（包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等）、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序指令或代码并能够由电子设备400存取的任何其他介质，但不限于此。

存储器4003上存储有计算机可读指令，处理器4001可以通过通信总线4002读取存储器4003中存储的计算机可读指令。

该计算机可读指令被一个或多个处理器4001执行以实现上述各实施例中的彩色视频生成方法。

此外，本发明实施例中提供了一种存储介质，该存储介质上存储有计算机可读指令，所述计算机可读指令被一个或多个处理器执行，以实现如上所述的彩色视频生成方法。

本发明实施例中提供了一种计算机程序产品，计算机程序产品包括计算机可读指令，计算机可读指令存储在存储介质中，电子设备的一个或多个处理器从存储介质读取计算机可读指令，加载并执行该计算机可读指令，使得电子设备实现如上所述的彩色视频生成方法。

与相关技术相比，本发明的有益效果是：

1.本发明通过首先获取待处理视频，该待处理视频包括至少一个深度图，然后针对各深度图，通过扩散模型对各深度图进行噪声扩散，得到与深度图对应的噪声图，其中，该噪声图用于指示深度图的语义信息和深度信息，将待处理视频输入彩色视频生成模型进行对应彩色视频的生成，并引入经噪声编码器编码的噪声图对彩色视频生成过程进行全局语义控制，那么，就能通过噪声图将深度图中的语义信息和深度信息融合到彩色视频生成的过程中，使得彩色视频生成过程中加入了整体语义的信息，在彩色视频生成的过程中能够提高准确度，最后得到高质量的彩色视频，实现了由采集成本低的深度视频得到高质量的彩色视频，因此，本发明既能保证彩色视频生成的准确度，也可降低直接采集彩色视频的带来的高成本问题，从而能够有效地解决相关技术中存在的成本较高，彩色视频生成准确度不高的问题。

2.本发明保证了转换的纹理图像变化平稳，对下游识别任务的负担降低，在实时性和准确率的权衡下完成仅采用深度图像组生成准确的室内场景彩色视频并进行识别的任务。

3.本发明可通过修改单独训练的扩散反演模块添加任何场景的控制而非整个大的模型重新训练，并且该方法不需要人为提供提示进行彩色视频生成。

4.本发明设计了一套基于AIGC大型预训练模型和基于扩散模型反演的自适应噪声prompt匹配和控制微调后的ControlNet，并在最后加入控制帧与帧之间统一的交叉注意力模块保证了整体语义的控制以及视频语义的稳定性，解决了现阶段阻碍导盲眼镜续航性设计的彩色图像采集芯片功耗高的以及生成RGB整体语义改变的问题。

5.本发明介绍了一种基于能够自适应控制整体语义信息变化的AIGC大型预训练模型视频生成与视频生成语义结构控制的技术，实现在导盲时对室内场景进行仅采集深度图实时进行语义分割，从而为导盲提供资料。

6.本发明为导盲眼镜续航化设计提供新的思路，可采用更低功耗的深度图采集芯片，通过扩散反演和人为设计的提示词为相对固定的场所训练一个视觉噪声提示控制微调的ControlNet生成全局语义稳定的彩色图像，避免了ControlNet需要人为精心设计提示词在视障辅助眼镜应用中的阻碍，同时设计关键帧跨帧注意力的方式控制视频整体结果一致性为下游分割等识别任务提供语义信息稳定的信息源，完成原搭载RGB(D)采集处理芯片的室内场景辅助算法精度。降低了导盲辅助眼镜设计硬件成本，提高整体设计效率。

应该理解的是，虽然附图的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，其可以以其他的顺序执行。而且，附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，其执行顺序也不必然是依次进行，而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

以上所述仅是本发明的部分实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种彩色视频生成方法，其特征在于，所述方法包括：

获取待处理视频，所述待处理视频包括至少一个深度图；

针对各所述深度图，通过扩散模型对所述深度图进行噪声扩散，得到与所述深度图对应的噪声图；所述噪声图用于指示所述深度图的语义信息和深度信息；

将所述待处理视频输入彩色视频生成模型进行对应彩色视频的生成，并引入经噪声编码器编码的噪声图对彩色视频生成过程进行全局语义控制，得到彩色视频；所述彩色视频包括至少一个彩色图，每个彩色图分别对应所述待处理视频中的一个深度图。

2.如权利要求1所述的方法，其特征在于，所述通过扩散模型对所述深度图进行噪声扩散，得到与所述深度图对应的噪声图，包括：

获取为所述深度图设置的第一文本提示词；所述第一文本提示词用于描述所述深度图中各物体的类别和/或各物体的位置；

通过文本编码器将所述第一文本提示词编码为对应的文本特征向量；

在所述扩散模型的前向过程中对所述深度图进行加噪，并将所述第一文本提示词对应的文本特征向量引入所述深度图的加噪过程，得到与所述深度图对应的噪声图。

3.如权利要求1所述的方法，其特征在于，所述通过扩散模型对所述深度图进行噪声扩散，得到与所述深度图对应的噪声图之前，所述方法还包括：

根据第一图像数据集训练所述扩散模型；

所述根据第一图像数据集训练所述扩散模型，包括：

获取所述第一图像数据集；所述第一图像数据集包括深度图序列和与所述深度图序列对应的彩色图序列；

为所述深度图序列中的各所述深度图设置第一训练提示词；所述第一训练提示词用于描述所述深度图中各物体的类别和/或各物体的位置；

通过文本编码器对各所述深度图的第一训练提示词进行编码，得到各所述深度图的文本特征向量；

根据所述深度图序列、所述彩色图序列和各所述深度图的文本特征向量训练初始的所述扩散模型，直至训练完成，存储所述扩散模型的参数，得到训练好的所述扩散模型。

4.如权利要求1所述的方法，其特征在于，所述彩色视频生成模型包括扩散编码器和扩散解码器；

所述将所述待处理视频输入彩色视频生成模型进行对应彩色视频的生成，并引入经噪声编码器编码的噪声图对彩色视频生成过程进行全局语义控制，得到彩色视频，包括：

基于所述待处理视频，获取所述深度图及其对应的噪声图，并获取为所述待处理视频所在的目标场景设置的第二文本提示词；所述第二文本提示词用于描述所述目标场景；

将所述深度图和经所述噪声编码器编码的噪声图输入所述扩散编码器进行编码，得到所述深度图对应的输入向量；

通过扩散解码器对所述输入向量和所述第二文本提示词进行解码，得到所述深度图对应的输出向量，对所述输出向量进行二次解码得到所述深度图对应的彩色图；

将各所述深度图对应的彩色图进行视频合成处理，得到所述彩色视频。

5.如权利要求1所述的方法，其特征在于，所述将所述待处理视频输入彩色视频生成模型进行对应彩色视频的生成，并引入经噪声编码器编码的噪声图对彩色视频生成过程进行全局语义控制，得到彩色视频之前，所述方法还包括：

获取第二图像数据集训练机器学习模型，直至训练完成，存储所述机器学习模型的参数，得到初始的所述彩色视频生成模型，初始的所述彩色视频生成模型具有将所述待处理视频转换为所述彩色视频的能力；

获取为若干个目标场景设置的第二训练提示词；所述第二训练提示词用于描述所述目标场景；

根据获取到的第二文本提示词对初始的所述彩色视频生成模型进行二次训练，直至训练完成，存储所述彩色视频生成模型的参数，得到训练好的所述彩色视频生成模型。

6.如权利要求4所述的方法，其特征在于，所述将各所述深度图对应的彩色图进行视频合成处理，得到所述彩色视频，包括：

对各所述深度图对应的彩色图进行间隔采样得到多个关键帧；

将多个所述关键帧进行分组，得到多个关键帧序列；所述关键帧序列包括至少一个所述关键帧；

分别对各所述关键帧序列中的至少一个所述关键帧进行融合，得到所述彩色视频。

7.如权利要求6所述的方法，其特征在于，所述分别对各所述关键帧序列中的关键帧进行融合，得到所述彩色视频，包括：

针对各所述关键帧序列，将所述关键帧序列中的关键帧进行拼接，得到多帧融合图像；所述融合图像与所述关键帧序列一一对应；

通过注意力机制对多帧所述融合图像进行关键帧的交叉注意力计算，得到所述彩色视频。

8.如权利要求1至7任一项所述的方法，其特征在于，所述得到彩色视频之后，所述方法还包括：

根据所述彩色视频进行语义分割任务，得到语义分割结果；所述语义分割结果包括目标场景中物体的位置、物体的类别中的一种或几种。

9.一种彩色视频生成装置，其特征在于，所述装置包括：

待处理视频获取模块，用于获取待处理视频，所述待处理视频包括至少一个深度图；

噪声扩散模块，用于针对各所述深度图，通过扩散模型对所述深度图进行噪声扩散，得到与所述深度图对应的噪声图；所述噪声图用于指示所述深度图的语义信息和深度信息；

彩色视频生成模块，用于将所述待处理视频输入彩色视频生成模型进行对应彩色视频的生成，并引入经噪声编码器编码的噪声图对彩色视频生成过程进行全局语义控制，得到彩色视频。

10.一种计算机可读存储介质，其上存储有计算机可读指令，其特征在于，所述计算机可读指令被一个或多个处理器执行，以实现如权利要求1至8中任一项所述的彩色视频生成方法。