CN113411550B

CN113411550B - 视频上色方法、装置、设备及存储介质

Info

Publication number: CN113411550B
Application number: CN202011182386.4A
Authority: CN
Inventors: 刘恩雨; 李松南
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-10-29
Filing date: 2020-10-29
Publication date: 2022-07-19
Anticipated expiration: 2040-10-29
Also published as: CN113411550A

Abstract

本公开提供一种视频上色方法、装置、设备及存储介质，涉及图像处理技术领域。该方法包括：获得目标视频片段中的分帧图像，所述分帧图像中包括目标标记图像；响应对所述目标标记图像的选定像素点的颜色标记操作，获得与所述目标标记图像对应的着色参照图像；通过图像上色神经网络模型根据所述着色参照图像对所述目标标记图像进行上色处理，生成所述目标标记图像的上色参考图像；通过视频上色神经网络模型根据所述目标标记图像的上色参考图像对所述目标视频片段的分帧图像进行上色处理，获得所述目标视频片段的分帧图像的上色图像。该方法采用了深度学习技术，实现了提高视频上色的效果和效率。

Description

视频上色方法、装置、设备及存储介质

技术领域

本公开涉及图像处理技术领域，具体而言，涉及一种视频上色方法、装置、设备及可读存储介质。

背景技术

由于人工智能(Artificial Intelligence,AI)的快速发展，对老照片和视频进行着色和画质升级变得越来越普遍，也变得更加容易操作。相关技术中采用图像软件对视频中的帧图像进行上色，再将视频各帧图像与上色的帧图像通过深度学习自动上色模型生成上色的视频，容易造成色彩失真，且上色过程繁琐耗时。

如上所述，如何提高视频上色的效果和效率成为亟待解决的问题。

在所述背景技术部分公开的上述信息仅用于加强对本公开的背景的理解，因此它可以包括不构成对本领域普通技术人员已知的现有技术的信息。

发明内容

本公开的目的在于提供一种视频上色方法、装置、设备及可读存储介质，至少解决相关技术中视频上色效果较差、效率较低的技术问题之一。

本公开的其他特性和优点将通过下面的详细描述变得显然，或部分地通过本公开的实践而习得。

根据本公开的一方面，提供一种视频上色方法，包括：获得目标视频片段中的分帧图像，所述分帧图像中包括目标标记图像；响应对所述目标标记图像的选定像素点的颜色标记操作，获得与所述目标标记图像对应的着色参照图像；通过图像上色神经网络模型根据所述着色参照图像对所述目标标记图像进行上色处理，生成所述目标标记图像的上色参考图像；通过视频上色神经网络模型根据所述目标标记图像的上色参考图像对所述目标视频片段的分帧图像进行上色处理，获得所述目标视频片段的分帧图像的上色图像。

根据本公开的一方面，提供一种视频上色装置，包括：初始图像获取模块，用于获得目标视频片段中的分帧图像，所述分帧图像中包括目标标记图像；着色参照模块，用于响应对所述目标标记图像的选定像素点的颜色标记操作，获得与所述目标标记图像对应的着色参照图像；上色参考模块，用于通过图像上色神经网络模型根据所述着色参照图像对所述目标标记图像进行上色处理，生成所述目标标记图像的上色参考图像；图像上色模块，用于通过视频上色神经网络模型根据所述目标标记图像的上色参考图像对所述目标视频片段的分帧图像进行上色处理，获得所述目标视频片段的分帧图像的上色图像。

根据本公开的一实施例，所述着色参照模块包括：初始参照图像生成模块，用于生成与所述目标标记图像对应的初始参照图像；颜色标记点坐标获取模块，用于响应对所述初始参照图像上的选定像素点的颜色标记操作，确定标记颜色和所述选定像素点的像素坐标；标记颜色填充模块，用于在所述初始参照图像的所述选定像素点的像素坐标的对应位置填充所述标记颜色，获得所述着色参照图像。

根据本公开的一实施例，所述标记颜色填充模块包括：颜色解析模块，用于从所述标记的颜色中解析出与所述标记的颜色对应的红绿蓝通道值；颜色通道填充模块，用于在所述初始参照图像的所述选定像素点的位置处填充所述红绿蓝通道值。

根据本公开的一实施例，所述初始参照图像生成模块包括：图像尺寸获取模块，用于获取所述目标标记图像的尺寸；图像生成模块，用于生成与所述目标标记图像的尺寸对应的初始参照图像；灰度设置模块，用于设置所述初始参照图像的各个像素点的灰度值为零。

根据本公开的一实施例，所述上色参考模块包括：第一特征提取模块，用于将所述目标标记图像和所述着色参照图像输入所述图像上色神经网络模型，对所述目标标记图像和所述着色参照图像进行卷积处理获得第一特征图；第二特征提取模块，用于将所述第一特征图通过所述图像上色神经网络模型进行空洞卷积处理获得第二特征图；上色预测模块，用于将所述第二特征图通过所述图像上色神经网络模型进行卷积处理获得上色预测图像；颜色分布获得模块，用于对所述第一特征图和所述第二特征图进行采样，获得所述上色预测图像的颜色分布；上色参考图像生成模块，用于根据所述上色预测图像及所述上色预测图像的颜色分布获得所述目标标记图像的上色参考图像。

根据本公开的一实施例，所述图像上色模块包括：时域特征提取模块，用于通过所述视频上色神经网络模型对所述目标视频片段的分帧图像进行时域卷积处理，获得分帧图像时域特征；空间特征提取模块，用于通过所述视频上色神经网络模型对所述目标视频片段的上色参考图像进行空间卷积处理，获得上色参考空间特征；特征融合模块，用于基于有源参考注意力机制对所述分帧图像时域特征和所述上色参考空间特征进行融合，以获得所述目标视频片段的分帧图像的上色图像。

根据本公开的一实施例，所述装置还包括：视频分帧模块，用于将目标视频进行分帧，获得所述目标视频的分帧图像；帧差图像获取模块，用于获取所述目标视频的各个分帧图像与对应的上一分帧图像之间的帧差图像；像素点均值获得模块，用于获得各个帧差图像的像素点灰度均值；突变帧确定模块，用于根据所述各个帧差图像的像素点灰度均值确定所述目标视频的分帧图像中的突变帧；视频切割模块，用于根据所述突变帧在所述目标视频中的位置对所述目标视频进行切割，获得多个所述目标视频片段。

根据本公开的一实施例，所述突变帧确定模块，还用于将所述各个帧差图像的像素点灰度均值与对应上一帧差图像的像素点灰度均值进行比较，获得所述突变帧。

根据本公开的一实施例，所述装置还包括：视频片段上色模块，用于根据所述目标视频片段的分帧图像的上色图像获得上色的目标视频片段；视频片段合并模块，用于将多个所述上色的目标视频片段按顺序进行合并，获得上色的目标视频。

根据本公开的一实施例，所述装置还包括：视频片段时长获得模块，用于获得所述目标视频片段的视频片段时长；图像帧数获得模块，用于当所述视频片段时长大于时长阈值时，获得所述目标视频片段的图像帧数；抽帧帧数间隔确定模块，用于根据所述图像帧数确定所述目标视频片段的抽帧帧数间隔；第一参考帧抽取模块，用于根据所述抽帧帧数间隔从所述目标视频片段中抽取第一参考帧数作为所述目标视频片段的目标标记图像。

根据本公开的一实施例，所述装置还包括：抽帧时长间隔确定模块，用于当所述视频片段时长小于或等于所述时长阈值时，确定所述目标视频片段的抽帧时长间隔；第二参考帧抽取模块，用于根据所述抽帧时长间隔从所述目标视频片段中抽取至多第二参考帧数作为所述目标视频片段的目标标记图像。

根据本公开的一方面，提供一种设备，包括：存储器、处理器及存储在所述存储器中并可在所述处理器中运行的可执行指令，所述处理器执行所述可执行指令时实现如上述任一种方法。

根据本公开的一方面，提供一种计算机可读存储介质，其上存储有计算机可执行指令，所述可执行指令被处理器执行时实现如上述任一种方法。

本公开的实施例提供的视频上色方法，通过在获得目标视频片段中的包括目标标记图像的分帧图像后，响应对目标标记图像的选定像素点的颜色标记操作，获得与目标标记图像对应的着色参照图像，然后通过图像上色神经网络模型根据着色参照图像对目标标记图像进行上色处理，生成目标标记图像的上色参考图像，再通过视频上色神经网络模型根据目标标记图像的上色参考图像对目标视频片段的分帧图像进行上色处理，获得目标视频片段的分帧图像的上色图像，从而可实现一定程度上提高视频上色的效果和效率。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性的，并不能限制本公开。

附图说明

通过参照附图详细描述其示例实施例，本公开的上述和其它目标、特征及优点将变得更加显而易见。

图1示出本公开实施例中一种系统结构的示意图。

图2示出本公开实施例中一种视频上色方法的流程图。

图3示出了图2中所示的步骤S204在一实施例中的处理过程示意图。

图4示出了图3中所示的步骤S2046在一实施例中的处理过程示意图。

图5示出了图3中所示的步骤S2042在一实施例中的处理过程示意图。

图6是根据图2至图5示出的一种参照图像的交互上色流程示意图。

图7是根据一示例性实施例示出的一种交互上色界面图。

图8示出了图2中所示的步骤S206在一实施例中的处理过程示意图。

图9是根据一示例性实施例示出的一种获得上色参考图像的过程示意图。

图10是根据一示例性实施例示出的一种获得的上色参考图像效果图。

图11是根据一示例性实施例示出的一种图像上色神经网络模型结构示意图。

图12示出了图2中所示的步骤S208在一实施例中的处理过程示意图。

图13是根据一示例性实施例示出的一种视频上色神经网络模型结构示意图。

图14是根据一示例性实施例示出的一种目标视频片段获得方法的流程图。

图15根据一示例性实施例示出的一种视频场景分割示意图。

图16是根据一示例性实施例示出的一种上色目标视频获得方法的流程图。

图17是根据一示例性实施例示出的一种参考帧抽取方法的流程图。

图18是根据一示例性实施例示出的另一种参考帧抽取方法的流程图。

图19示出本公开实施例中一种视频上色装置的框图。

图20示出本公开实施例中另一种视频上色装置的框图。

图21示出本公开实施例中一种电子设备的结构示意图。

具体实施方式

现在将参考附图更全面地描述示例实施例。然而，示例实施例能够以多种形式实施，且不应被理解为限于在此阐述的范例；相反，提供这些实施例使得本公开将更加全面和完整，并将示例实施例的构思全面地传达给本领域的技术人员。附图仅为本公开的示意性图解，并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分，因而将省略对它们的重复描述。

此外，所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中，提供许多具体细节从而给出对本公开的实施例的充分理解。然而，本领域技术人员将意识到，可以实践本公开的技术方案而省略所述特定细节中的一个或更多，或者可以采用其它的方法、装置、步骤等。在其它情况下，不详细示出或描述公知结构、方法、装置、实现或者操作以避免喧宾夺主而使得本公开的各方面变得模糊。

此外，在本公开的描述中，除非另有明确的规定和限定，“连接”等术语应做广义理解，例如，可以是电连接或可以互相通讯；可以是直接相连，也可以通过中间媒介间接相连。“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本公开中的具体含义。

AI是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

计算机视觉(Computer Vision,CV)技术计算机视觉是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、光学字符识别(Optical Character Recognition,OCR)、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。

机器学习(Machine Learning,ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。

随着人工智能技术研究和进步，人工智能技术在多个领域展开研究和应用，例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服等，相信随着技术的发展，人工智能技术将在更多的领域得到应用，并发挥越来越重要的价值。

本公开实施例提供的方案涉及人工智能的计算机视觉、机器学习/深度学习等技术，具体通过如下实施例进行说明。

图1示出了可以应用本公开的视频上色方法、装置的示例性系统架构10。

如图1所示，系统架构10可以包括终端设备102、网络104、服务器106和数据库108。终端设备102可以是具有显示屏并且支持输入、输出的各种电子设备，包括但不限于智能手机、平板电脑、膝上型便携计算机、台式计算机、可穿戴设备、虚拟现实设备、智能家居等等。网络104用以在终端设备102和服务器106之间提供通信链路的介质。网络104可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。服务器106可以是提供各种服务的服务器或服务器集群等。数据库108可以为置于服务器上的大型数据库软件，也可以为安装在计算机上的小型数据库软件，用于存储数据。

用户可以使用终端设备102通过网络104与服务器106和数据库108交互，以接收或发送数据等。例如用户通过网络104从服务器106上将目标视频下载到终端设备102上，然后通过终端设备102上的视频处理软件对该视频进行分帧处理，获得目标视频的各帧图像。又例如用户可在终端设备102上进行操作获得着色参照图像，通过网络104将着色参照图像发送到服务器106进行图像上色处理。

在服务器106也可通过网络104从数据库108接收数据或向数据库108发送数据等。例如服务器106可为后台处理服务器，用于通过网络104从数据库108获取的训练图像对深度学习上色模型进行训练。又例如服务器106可用于对通过网络104从终端设备102获取的各帧图像和上色参考图像进行处理，并将上色后的各帧图像反馈给终端设备102。

应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。

目前还没有与用户交互来进行以深度学习为基础的视频上色的方法。随着科技发展，通过深度学习方法对视频上色的效果远远超出传统方法的效果，相关技术中通过深度学习自动上色模型进行上色。而通过图像软件(例如photoshop软件)长时间地对参考图像进行上色，再传输给深度学习自动上色模型的方法十分耗时费力。相关技术中利用图像的梯度信息作为判断相似上色区域的依据，但由于没有深度学习结合的语义信息，因此很容易造成颜色错误，导致上色的视频的色彩失真。

因此，本公开提供了一种视频上色方法，通过在获得目标视频片段中的包括目标标记图像的分帧图像后，响应对目标标记图像的选定像素点的颜色标记操作，获得与目标标记图像对应的着色参照图像，然后通过图像上色神经网络模型根据着色参照图像对目标标记图像进行上色处理，生成目标标记图像的上色参考图像，再通过视频上色神经网络模型根据目标标记图像的上色参考图像对目标视频片段的分帧图像进行上色处理，获得目标视频片段的分帧图像的上色图像，从而可避免无参考视频上色方法出现的色彩失真问题，同时避免人工采用图像软件上色的繁琐耗时。

图2是根据一示例性实施例示出的一种视频上色方法的流程图。如图2所示的方法例如可以应用于上述系统的服务器，也可以应用于上述系统的终端设备。

参考图2，本公开实施例提供的方法20可以包括以下步骤。

在步骤S202中，获得目标视频片段中的分帧图像，分帧图像中包括目标标记图像。获得目标视频片段中通过视频分帧得到的连续的分帧图像，分帧图像中包括用于待上色的目标标记图像。在分帧图像中确定目标标记图像的实施方式可参照图17和图18。待上色的分帧图像可以是黑白图像，也可以时未上色的透明图像，也可以是已上色但是视觉效果较差的图像等等。

在一些实施例中，例如，在对长视频进行上色时，由于长视频是由多个镜头拼接而成，每个镜头的画面内容是连续的，因此可先将长视频依据镜头进行切割，得到多个镜头场景的短视频。可输入想要上色的黑白长视频，对黑白长视频进行分析，例如进行场景分割，然后在每个场景中均匀抽取几个标记图像帧作为目标标记图像。可对长视频进行分帧获得长视频的连续的分帧图像，基于长视频的连续的分帧图像检测镜头突变的标识位，通过该标识位确定切割的位置以对长视频进行场景分割，获得各个视频片段的分帧图像，具体实施方式可参照图14。

在另一些实施例中，例如，也可对长视频进行场景分割获得多个视频片段，再对其中的目标视频片段进行分帧处理，获得目标视频片段中的分帧图像。

在步骤S204中，响应对目标标记图像的选定像素点的颜色标记操作，获得与目标标记图像对应的着色参照图像。通过交互方式获得目标标记图像的选定像素点的标记颜色以获得着色参照。

在一些实施例中，例如，可获得用户选定的某些像素点及在这些像素点上标记的颜色，以获得目标标记图像对应的着色参照图像，具体实施方式可参照图3至图7。

在另一些实施例中，例如，也可通过图像的边缘检测方法获取目标标记图像上的图像边缘，通过图像的二值化，获得不同的图像区域，再随机选取图像区域中的像素点作为选定像素点进行上色提示，用户可根据提示在选定像素点进行颜色标记操作，获得与目标标记图像对应的着色参照图像。

在步骤S206中，通过图像上色神经网络模型根据着色参照图像对目标标记图像进行上色处理，生成目标标记图像的上色参考图像。可将(黑白的)目标标记图像以及着色参照图像输入到深度学习图像上色网络当中，生成一张上色的目标标记图像用于视频参考上色，可将这张上色的目标标记图像在交互界面显示，若用户认为效果很好，则点击保存，若认为效果不够好，则再重新进行用户交互的着色过程。图像上色神经网络模型主要由卷积神经网络构成，通过对输入的目标标记图像以及着色参照图像多次进行卷积操作、采样操作等，生成图像颜色预测分布，具体实施方式可参照图8至图11。

在步骤S208中，通过视频上色神经网络模型根据目标标记图像的上色参考图像对目标视频片段的分帧图像进行上色处理，获得目标视频片段的分帧图像的上色图像。可将目标标记图像的上色参考图像对目标视频片段的分帧图像一同输入视频上色神经网络模型，视频上色神经网络模型可将上色参考图像的特征融入各待上色的分帧图像，输出分帧图像的上色图像，具体实施方式可参照图12和图13。

根据本公开实施例提供的提供的视频上色方法，通过在获得目标视频片段中的包括目标标记图像的分帧图像后，响应对目标标记图像的选定像素点的颜色标记操作，获得与目标标记图像对应的着色参照图像，然后通过图像上色神经网络模型根据着色参照图像对目标标记图像进行上色处理，生成目标标记图像的上色参考图像，再通过视频上色神经网络模型根据目标标记图像的上色参考图像对目标视频片段的分帧图像进行上色处理，获得目标视频片段的分帧图像的上色图像，从而可实现一定程度上提高视频上色的效果和效率。

图3示出了图2中所示的步骤S204在一实施例中的处理过程示意图。如图3所示，本公开实施例中，上述步骤S204可以进一步包括以下步骤。

步骤S2042，生成与目标标记图像对应的初始参照图像。采用图像处理工具可获取输入的目标标记图像的尺寸，以获取的尺寸生成对应的初始参照图像用于标记颜色，初始参照图像的像素灰度可设为特定值，如全部设为0或255等等，具体实施方式可参照图5。

步骤S2044，响应对初始参照图像上的选定像素点的颜色标记操作，确定标记颜色和选定像素点的像素坐标。用户可在交互界面进行选择颜色操作，响应该操作并解析出选择颜色的红绿蓝(RGB)通道值，用户再进行选择着色点的操作，解析该操作获得着色像素点坐标，一种示例性用户交互界面可参照图7。

步骤S2046，在初始参照图像的选定像素点的像素坐标的对应位置填充标记颜色，获得着色参照图像。以将初始参照图像的像素灰度设为0(即初始参照图像为纯黑)为了，在该与目标标记图像尺寸相同的纯黑图像上的选定像素点的坐标处添加RGB值，具体实施方式可参照图4。

在一些实施例中，例如，用户在标记一个像素点后，可继续标记下一个像素点，则可返回步骤S2044继续响应颜色标记操作，如此循环，可得到一张着色参照图像，实施流程可参照图6。

根据本公开实施例提供的方法，通过与用户交互获得着色参照图像，用于自动进行标记图像上色，避免了无参考上色方法出现的色彩失真问题，提高了图像上色的效果。

图4示出了图3中所示的步骤S2046在一实施例中的处理过程示意图。如图4所示，本公开实施例中，上述步骤S2046可以进一步包括以下步骤。

步骤S20462，从标记的颜色中解析出与标记的颜色对应的红绿蓝通道值。可通过像素点的RGB来显示提示颜色，响应用户从提示颜色中选择颜色的操作时，可直接获得选择颜色的RGB值。

步骤S20464，在初始参照图像的选定像素点的位置处填充红绿蓝通道值。

图5示出了图3中所示的步骤S2042在一实施例中的处理过程示意图。如图5所示，本公开实施例中，上述步骤S2042可以进一步包括以下步骤。

步骤S20422，获取目标标记图像的尺寸。

步骤S20424，生成与目标标记图像的尺寸对应的初始参照图像。

步骤S20426，设置初始参照图像的各个像素点的灰度值为零。

图6是根据图2至图5示出的一种参照图像的交互上色流程示意图。如图6所示，输入黑白的目标标记图像(S602)，然后获取目标标记图像的尺寸以生成同尺寸的纯黑的初始参照图像(S604)，响应用户选择标记的颜色的操作(S606)，解析出颜色的RGB值(S608)，用户再在纯黑图像上选择标记颜色的着色点(S610)，解析出着色坐标(S612)，然后在相应的纯黑图像上的相应坐标添加RGB值(S614)，如此循环后，得到一张着色参照图像(S616)。

图7是根据一示例性实施例示出的一种交互上色界面图。如图7所示，可预先导入多个场景的多张待上色的目标标记图像，在中间的画板界面上按顺序出现第一个场景的第一张目标标记图像。在当前目标标记图像处理界面，用户可在左侧的颜色盘界面中选中颜色，然后在中间的画板界面中的初始参考图像上选定着色点，在右侧的效果界面可实时显示图像的上色结果。用户在选定着色点标记颜色后，可通过深度学习图像上色算法(例如图8中的图像上色神经网络模型)自动生成右侧上色效果。当前目标标记图像上色完成后，点击“保存”按钮进行保存，可点击“下一张”处理下一张目标标记图像，直至完成各个场景所有目标标记图像的上色。若用户对当前目标标记图像的上色结果不满意，可点击“重画”重新处理。

图8示出了图2中所示的步骤S206在一实施例中的处理过程示意图。如图8所示，本公开实施例中，上述步骤S206可以进一步包括以下步骤。

步骤S2062，将目标标记图像和着色参照图像输入图像上色神经网络模型，对目标标记图像和着色参照图像进行卷积处理获得第一特征图。可对目标标记图像进行处理获得目标标记图像的亮度通道的直方图分布，将着色参照图像与目标标记图像进行特征融合后进行多次卷积处理，获得第一特征图。

步骤S2064，将第一特征图通过图像上色神经网络模型进行空洞卷积处理获得第二特征图。空洞卷积处理也可为多次处理。

步骤S2066，将第二特征图通过图像上色神经网络模型进行卷积处理获得上色预测图像。

步骤S2068，对第一特征图和第二特征图进行采样，获得上色预测图像的颜色分布。在多次卷积处理和多次空洞卷积处理的过程中也可进行多次特征采样，以提高颜色分布预测的准确性。

步骤S20610，根据上色预测图像及上色预测图像的颜色分布获得目标标记图像的上色参考图像。

图9是根据一示例性实施例示出的一种获得上色参考图像的过程示意图。如图9所示，将黑白的目标标记图像902和已进行颜色标记的着色参照图像904一同输入深度学习图像上色网络906(如图8中的图像上色神经网络模型)，输出上色的目标标记图像908，即上色参考图像。

图10是根据一示例性实施例示出的一种获得的上色参考图像效果图。如图10所示，左侧为原始分帧图像，右侧为上色后的图像。

图11是根据一示例性实施例示出的一种图像上色神经网络模型结构示意图。图像上色神经网络模型可结合输入的灰度图像和具有较少着色提示点的着色参照图像，通过多层卷积神经网络输出效果较好的彩色图。传统的神经网络一般通过人为地定义相关规则，并从大规模数据集中学习高级语义信息，融合图像的低级特征，来帮助用户对图像进行着色。图像上色神经网络模型通过模拟用户操作，采用一百万张图像进行训练。

如图11所示，图像上色神经网络模型可包括主上色网络、本地参考网络和全局参考网络，三种网络都可为多层卷积网络。主上色网络包括第一上色网络1101、第二上色网络1102、第三上色网络1103、第四上色网络1104、第五上色网络1105、第六上色网络1106、第七上色网络1107、第八上色网络1108、第九上色网络1109、第十上色网络11010，各个上色网络由卷积层、激活函数层、批归一化层组合而成。黑白图像115输入主上色网络中的第一上色网络1101，若输入的黑白图像为3通道，则可设定网络的输入的尺寸为3通道*图像的宽*图像的高；若输入黑白图像为单通道，则可设定网络的输入尺寸为1通道*图像的宽*图像的高。依次通过第二上色网络1102等直至第十上色网络11010。其中，第一上色网络1101通道数为64，输出图像的长为H、宽为W；第二上色网络1102通道数为128，输出图像的长为H/2、宽为W/2；第三上色网络1103通道数为256，输出图像的长为H/4、宽为W/4；第四上色网络1104通道数为512，输出图像的长为H/8、宽为W/8；第五上色网络1105和第六上色网络1106采用了空洞卷积，系数可设为2，通道数为512，输出图像的长为H/8、宽为W/8；第七上色网络1107通道数为512，输出图像的长为H/8、宽为W/8；第八上色网络1108通道数为256，输出图像的长为H/4、宽为W/4；第九上色网络1109通道数为128，输出图像的长为H/2、宽为W/2；第十上色网络11010输出图像的通道数为2，长为H、宽为W，即为上色输出118。

本地参考网络包括第一本地参考网络1111、第二本地参考网络1112、第三本地参考网络1113、第四本地参考网络1114、第五本地参考网络1115、第六本地参考网络1116、第七本地参考网络1117、第八本地参考网络1118和第九本地参考网络1119，各个本地参考网络由卷积层和激活函数层组合而成。着色参照图像114输入第一本地参考网络1111，在第一上色网络1101与黑白图像115融合，依次在第二本地参考网络1112等直至第七本地参考网络1117从连接的上色网络的卷积层中进行采样，其中，随机采样384个通道，输出图像的长为H/4、宽为W/4。上述特征经过第八本地参考网络1118卷积输出到313维，而313是与Lab色彩空间(Lab color space)的颜色参数对应的个数。再经过空间上采样通过第九本地参考网络1119，输出颜色分布118。

全局参考网络包括第一全局参考网络1121、第二全局参考网络1122、第三全局参考网络1123、第四全局参考网络1124，将黑白图像的亮度通道的直方图分布116输出第一全局参考网络1121后通过第二全局参考网络1122、第三全局参考网络1123、第四全局参考网络1124依次进行卷积处理，然后融合到主上色网络中。各全局参考网络由卷积层和激活函数层组合而成，通道数为512。

图12示出了图2中所示的步骤S208在一实施例中的处理过程示意图。如图12所示，本公开实施例中，上述步骤S208可以进一步包括以下步骤。

步骤S2082，通过视频上色神经网络模型对目标视频片段的分帧图像进行时域卷积处理，获得分帧图像时域特征。同时输入到网络中的分帧图像张数可设置，例如设置为3张、4张或5张等等，同时处理的图像越多，网络体积越大。

步骤S2084，通过视频上色神经网络模型对目标视频片段的上色参考图像进行空间卷积处理，获得上色参考空间特征。也可同时将多张上色参考图像输入网络。

步骤S2086，基于有源参考注意力机制对分帧图像时域特征和上色参考空间特征进行融合，以获得目标视频片段的分帧图像的上色图像。特征融合时还可同时采用自注意力机制，一种网络结构实施方式可参照图13。

图13是根据一示例性实施例示出的一种视频上色神经网络模型结构示意图。如图13所示，多张待上色的尺寸为T_s×H_s×W_s的分帧图像134的输入第一时域卷积网络1301，第一时域卷积网络1301可包括多层(如4层)卷积层，4层卷积层依次处理输出

T_s×H_s×W_s。然后输出第一空间卷积网络1302，第一空间卷积网络1302也可包括多层(如3层)卷积层，3层卷积层依次处理输出

然后分别输入第三空间卷积网络1311和第一有源参考注意力网络1303，同时输入第一有源参考注意力网络1303还有经过第二空间卷积网络1321处理的上色参考图像135。多张上色参考图像135的尺寸为N_r×H_r×W_r，第二空间卷积网络1321也可包括多层(如3层)卷积层，3层卷积层依次处理输出

第二空间卷积网络1321的输出同时通过第四空间卷积网络1322处理输出

再输入第二有源参考注意力网络1312。同时输入第二有源参考注意力网络1312的还有通过第三空间卷积网络1311的输出

第二有源参考注意力网络1312的输出通过第二时域卷积网络1313输出

后输入第一自注意力网络1314，然后输入第四时域卷积网络1305，同时输入第四时域卷积网络1305的还有第一有源参考注意力网络1303的输出通过第三时域卷积网络1304处理后的输出。第四时域卷积网络1305输出尺寸为

然后通过第二自注意力网络1306，再通过第五时域卷积网络1307获得分帧图像的上色图像136，其中第五时域卷积网络1307也可包括多层(如3层)卷积层，3层卷积层依次处理输出

T_s×H_s×W_s。

图14是根据一示例性实施例示出的一种目标视频片段获得方法的流程图。如图14所示的方法例如可以应用于上述系统的服务器，也可以应用于上述系统的终端设备。

参考图14，本公开实施例提供的方法140可以包括以下步骤。

在步骤S1402中，将目标视频进行分帧，获得目标视频的分帧图像。

在步骤S1404中，获取目标视频的各个分帧图像与对应的上一分帧图像之间的帧差图像。可对各个分帧图像的每一个像素点的灰度值与上一分帧图像对应每一个像素点的灰度值作差，获得帧差图像。

在步骤S1406中，获得各个帧差图像的像素点灰度均值。

在步骤S1408中，根据各个帧差图像的像素点灰度均值确定目标视频的分帧图像中的突变帧。

在一些实施例中，例如，将各个帧差图像的像素点灰度均值与对应上一帧差图像的像素点灰度均值进行比较，获得突变帧。例如可设定均值差阈值，当某一帧差图像的像素点灰度均值与对应上一帧差图像的像素点灰度均值的差超过设定的均值差阈值时，判断该帧差图像对应的分帧图像为突变帧。

在另一些实施例中，例如，也可通过比较均值变化来判定该帧是否为突变帧，例如当某一帧差图像的像素点灰度均值与对应上一帧差图像的像素点灰度均值的变化率超过设定的倍数(如1.2倍、1.5倍、2倍等等)时，判断该帧差图像对应的分帧图像为突变帧。

在步骤S1410中，根据突变帧在目标视频中的位置对目标视频进行切割，获得多个目标视频片段。

根据本公开实施例提供的目标视频片段获得方法，通过将目标长视频依据镜头进行切割，得到多个场景的短视频作为目标视频片段以通过视频上色神经网络模型进行上色，可使上色参考图像对一同输入视频上色神经网络模型的同场景的待上色分帧图像更具参考价值，从而提高了视频上色的效果，避免色彩失真。

图15根据一示例性实施例示出的一种视频场景分割示意图。如图13所示，可将包括n个场景的长视频1502进行场景分割，获得场景1 1504、场景2 1506……场景n 1508。

图16是根据一示例性实施例示出的一种上色目标视频获得方法的流程图。如图16所示的方法例如可以应用于上述系统的服务器，也可以应用于上述系统的终端设备。

参考图16，本公开实施例提供的方法160可以包括以下步骤。

在步骤S1602中，根据目标视频片段的分帧图像的上色图像获得上色的目标视频片段。将目标视频片段的上色的分帧图像按顺序还原为上色的目标视频片段。

在步骤S1604中，将多个上色的目标视频片段按顺序进行合并，获得上色的目标视频。将多个场景上色视频按顺序合并得到最终的输出视频。

图17是根据一示例性实施例示出的一种参考帧抽取方法的流程图。如图17所示的方法例如可以应用于上述系统的服务器，也可以应用于上述系统的终端设备。

参考图17，本公开实施例提供的方法170可以包括以下步骤。

在步骤S1702中，获得目标视频片段的视频片段时长。分割好视频之后，得到场景1，场景2，...场景n的短视频，其中n为大于1的正整数，可分别每个场景抽取相应参考帧数的目标标记图像。以场景i为例，i为大于或等于1且小于或等于n的正整数，获得视频i的时长。

在步骤S1704中，当视频片段时长大于时长阈值时，获得目标视频片段的图像帧数。时长阈值例如可设为3s、4s或5s等等，例如时长阈值为4s，当视频i时长大于4s时，统计场景i的总共图像帧数N＝场景i时长*帧率，帧率也即每秒的帧数。

在步骤S1706中，根据图像帧数确定目标视频片段的抽帧帧数间隔。以时长阈值为4s为例，可确定目标视频片段的抽帧帧数间隔为图像帧数N/4。

在步骤S1708中，根据抽帧帧数间隔从目标视频片段中抽取第一参考帧数作为目标视频片段的目标标记图像。仍以时长阈值为4s为例，从场景i的第一帧开始抽取，间隔N/4帧抽取一张图像作为目标视频片段的目标标记图像。

在一些实施例中，例如，设定为参考帧4帧，当然也可以为10帧、20帧，帧数越多理论上参考图像越多，最终视频上色效果越好；但参考帧数越多，交互上色的过程也越久。因此，可通过权衡视频上色效果与效率综合对参考帧数进行设定。

图18是根据一示例性实施例示出的另一种参考帧抽取方法的流程图。图18与图14的不同之处在于，图18中视频片段时长不大于时长阈值。如图18所示，本公开实施例中，参考帧抽取方法可以进一步包括以下步骤。

在步骤S1802中，当视频片段时长小于或等于时长阈值时，确定目标视频片段的抽帧时长间隔。仍以时长阈值为4s为例，当视频i时长小于等于4s时，可确定目标视频片段的抽帧时长间隔为0.5s、1s或1.5s等等。例如抽帧时长间隔为1s。

在步骤S1804中，根据抽帧时长间隔从目标视频片段中抽取至多第二参考帧数作为目标视频片段的目标标记图像。仍以时长阈值为4s为例，当视频i时长小于等于4s时，则从场景i的第一帧开始抽取，每间隔1s取一张作为标记帧，第二参考帧数则为4。

在一些实施例中，例如，设定为第二参考帧数4帧是指：对于一个场景，最多抽取4帧，而整个长视频的参考帧最多有n*4张。之所以限制每个场景的参考帧数目的是为了用户体验，不至于在处理长视频时需要用户给上百张甚至更多的图像上色，造成重复劳动，而降低效率。

图19是根据一示例性实施例示出的一种视频上色装置的框图。如图19所示的装置例如可以应用于上述系统的服务器端，也可以应用于上述系统的终端设备。

参考图19，本公开实施例提供的装置190可以包括初始图像获取模块1902、着色参照模块1904、上色参考模块1906和图像上色模块1908。

初始图像获取模块1902可用于获得目标视频片段中的分帧图像，分帧图像中包括目标标记图像。

着色参照模块1904可用于响应对目标标记图像的选定像素点的颜色标记操作，获得与目标标记图像对应的着色参照图像。

上色参考模块1906可用于通过图像上色神经网络模型根据着色参照图像对目标标记图像进行上色处理，生成目标标记图像的上色参考图像。

图像上色模块1908可用于通过视频上色神经网络模型根据目标标记图像的上色参考图像对目标视频片段的分帧图像进行上色处理，获得目标视频片段的分帧图像的上色图像。

图20是根据一示例性实施例示出的一种视频上色装置的框图。如图20所示的装置例如可以应用于上述系统的服务器端，也可以应用于上述系统的终端设备。

参考图20，本公开实施例提供的装置200可以包括初始图像获取模块2002、着色参照模块2004、上色参考模块2006、图像上色模块2008视频分帧模块2010、帧差图像获取模块2012、像素点均值获得模块2014、突变帧确定模块2016、视频切割模块2018、视频片段上色模块2020、视频片段合并模块2022、视频片段时长获得模块2024、图像帧数获得模块2026、抽帧帧数间隔确定模块2028、第一参考帧抽取模块2030、抽帧时长间隔确定模块2032和第二参考帧抽取模块2034，其中，着色参照模块2004可以包括初始参照图像生成模块20042、颜色标记点坐标获取模块20044和标记颜色填充模块20046，初始参照图像生成模块20042可以包括图像尺寸获取模块200422、图像生成模块200424和灰度设置模块200426，标记颜色填充模块20046可以包括颜色解析模块200462和颜色通道填充模块200464，上色参考模块2006可以包括第一特征提取模块20062、第二特征提取模块20064、上色预测模块20066、颜色分布获得模块20068和上色参考图像生成模块200610，图像上色模块2008可以包括时域特征提取模块20082、空间特征提取模块20084和特征融合模块20086。

初始图像获取模块2002可用于获得目标视频片段中的分帧图像，分帧图像中包括目标标记图像。

着色参照模块2004可用于响应对目标标记图像的选定像素点的颜色标记操作，获得与目标标记图像对应的着色参照图像。

初始参照图像生成模块20042可用于生成与目标标记图像对应的初始参照图像。

图像尺寸获取模块200422可用于获取目标标记图像的尺寸。

图像生成模块200424可用于生成与目标标记图像的尺寸对应的初始参照图像。

灰度设置模块200426可用于设置初始参照图像的各个像素点的灰度值为零。

颜色标记点坐标获取模块20044可用于响应对初始参照图像上的选定像素点的颜色标记操作，确定标记颜色和选定像素点的像素坐标。

标记颜色填充模块20046可用于在初始参照图像的选定像素点的像素坐标的对应位置填充标记颜色，获得着色参照图像。

颜色解析模块200462可用于从标记的颜色中解析出与标记的颜色对应的红绿蓝通道值。

颜色通道填充模块200464可用于在初始参照图像的选定像素点的位置处填充红绿蓝通道值。

上色参考模块2006可用于通过图像上色神经网络模型根据着色参照图像对目标标记图像进行上色处理，生成目标标记图像的上色参考图像。

第一特征提取模块20062可用于将目标标记图像和着色参照图像输入图像上色神经网络模型，对目标标记图像和着色参照图像进行卷积处理获得第一特征图。

第二特征提取模块20064可用于将第一特征图通过图像上色神经网络模型进行空洞卷积处理获得第二特征图。

上色预测模块20066可用于将第二特征图通过图像上色神经网络模型进行卷积处理获得上色预测图像。

颜色分布获得模块20068可用于对第一特征图和第二特征图进行采样，获得上色预测图像的颜色分布。

上色参考图像生成模块200610可用于根据上色预测图像及上色预测图像的颜色分布获得目标标记图像的上色参考图像。

图像上色模块2008可用于通过视频上色神经网络模型根据目标标记图像的上色参考图像对目标视频片段的分帧图像进行上色处理，获得目标视频片段的分帧图像的上色图像。

时域特征提取模块20082可用于通过视频上色神经网络模型对目标视频片段的分帧图像进行时域卷积处理，获得分帧图像时域特征。

空间特征提取模块20084可用于通过视频上色神经网络模型对目标视频片段的上色参考图像进行空间卷积处理，获得上色参考空间特征。

特征融合模块20086可用于基于有源参考注意力机制对分帧图像时域特征和上色参考空间特征进行融合，以获得目标视频片段的分帧图像的上色图像。

视频分帧模块2010可用于将目标视频进行分帧，获得目标视频的分帧图像。

帧差图像获取模块2012可用于获取目标视频的各个分帧图像与对应的上一分帧图像之间的帧差图像。

像素点均值获得模块2014可用于获得各个帧差图像的像素点灰度均值。

突变帧确定模块2016可用于根据各个帧差图像的像素点灰度均值确定目标视频的分帧图像中的突变帧。

突变帧确定模块2016还可用于将各个帧差图像的像素点灰度均值与对应上一帧差图像的像素点灰度均值进行比较，获得突变帧。

视频切割模块2018可用于根据突变帧在目标视频中的位置对目标视频进行切割，获得多个目标视频片段。

视频片段上色模块2020可用于根据目标视频片段的分帧图像的上色图像获得上色的目标视频片段。

视频片段合并模块2022可用于将多个上色的目标视频片段按顺序进行合并，获得上色的目标视频。

视频片段时长获得模块2024可用于获得目标视频片段的视频片段时长。

图像帧数获得模块2026可用于当视频片段时长大于时长阈值时，获得目标视频片段的图像帧数。

抽帧帧数间隔确定模块2028可用于根据图像帧数确定目标视频片段的抽帧帧数间隔。

第一参考帧抽取模块2030可用于根据抽帧帧数间隔从目标视频片段中抽取第一参考帧数作为目标视频片段的目标标记图像。

抽帧时长间隔确定模块2032可用于当视频片段时长小于或等于时长阈值时，确定目标视频片段的抽帧时长间隔。

第二参考帧抽取模块2034可用于根据抽帧时长间隔从目标视频片段中抽取至多第二参考帧数作为目标视频片段的目标标记图像。

本公开实施例提供的装置中的各个模块的具体实现可以参照上述方法中的内容，此处不再赘述。

图21示出本公开实施例中一种电子设备的结构示意图。需要说明的是，图21示出的设备仅以计算机系统为示例，不应对本公开实施例的功能和使用范围带来任何限制。

如图21所示，设备210包括中央处理单元(CPU)2101，其可以根据存储在只读存储器(ROM)2102中的程序或者从存储部分2108加载到随机访问存储器(RAM)2103中的程序而执行各种适当的动作和处理。在RAM 2103中，还存储有设备2100操作所需的各种程序和数据。CPU2101、ROM 2102以及RAM 2103通过总线2104彼此相连。输入/输出(I/O)接口2105也连接至总线2104。

以下部件连接至I/O接口2105：包括键盘、鼠标等的输入部分2106；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分2107；包括硬盘等的存储部分2108；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分2109。通信部分2109经由诸如因特网的网络执行通信处理。驱动器2110也根据需要连接至I/O接口2105。可拆卸介质2111，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器2110上，以便于从其上读出的计算机程序根据需要被安装入存储部分2108。

特别地，根据本公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分2109从网络上被下载和安装，和/或从可拆卸介质2111被安装。在该计算机程序被中央处理单元(CPU)2101执行时，执行本公开的系统中限定的上述功能。

需要说明的是，本公开所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、RF等等，或者上述的任意合适的组合。

附图中的流程图和框图，图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本公开实施例中所涉及到的模块可以通过软件的方式实现，也可以通过硬件的方式来实现。所描述的模块也可以设置在处理器中，例如，可以描述为：一种处理器包括初始图像获取模块、着色参照模块、上色参考模块和图像上色模块。其中，这些模块的名称在某种情况下并不构成对该模块本身的限定，例如，初始图像获取模块还可以被描述为“获得目标视频片段中的包括目标标记图像的分帧图像的模块”。

作为另一方面，本公开还提供了一种计算机可读介质，该计算机可读介质可以是上述实施例中描述的设备中所包含的；也可以是单独存在，而未装配入该设备中。上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被一个该设备执行时，使得该设备包括：获得目标视频片段中的分帧图像，分帧图像中包括目标标记图像；响应对目标标记图像的选定像素点的颜色标记操作，获得与目标标记图像对应的着色参照图像；通过图像上色神经网络模型根据着色参照图像对目标标记图像进行上色处理，生成目标标记图像的上色参考图像；通过视频上色神经网络模型根据目标标记图像的上色参考图像对目标视频片段的分帧图像进行上色处理，获得目标视频片段的分帧图像的上色图像。

根据本公开的一个方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述各种可选实现方式中提供的方法。

以上具体地示出和描述了本公开的示例性实施例。应可理解的是，本公开不限于这里描述的详细结构、设置方式或实现方法；相反，本公开意图涵盖包含在所附权利要求的精神和范围内的各种修改和等效设置。

Claims

1.一种视频上色方法，其特征在于，包括：

获得目标视频片段中的分帧图像，所述分帧图像中包括目标标记图像；

响应对所述目标标记图像的选定像素点的颜色标记操作，获得与所述目标标记图像对应的着色参照图像，所述颜色标记操作表示为像素点标记颜色的操作；

通过图像上色神经网络模型根据所述着色参照图像对所述目标标记图像进行上色处理，生成所述目标标记图像的上色参考图像；

通过视频上色神经网络模型根据所述目标标记图像的上色参考图像对所述目标视频片段的分帧图像进行上色处理，获得所述目标视频片段的分帧图像的上色图像。

2.根据权利要求1所述的方法，其特征在于，所述响应对所述目标标记图像的选定像素点的颜色标记操作，获得与所述目标标记图像对应的着色参照图像包括：

生成与所述目标标记图像对应的初始参照图像；

响应对所述初始参照图像上的选定像素点的颜色标记操作，确定标记颜色和所述选定像素点的像素坐标；

在所述初始参照图像的所述选定像素点的像素坐标的对应位置填充所述标记颜色，获得所述着色参照图像。

3.根据权利要求2所述的方法，其特征在于，所述在所述初始参照图像的所述选定像素点的像素坐标的对应位置填充所述标记颜色包括：

从所述标记的颜色中解析出与所述标记的颜色对应的红绿蓝通道值；

在所述初始参照图像的所述选定像素点的位置处填充所述红绿蓝通道值。

4.根据权利要求2所述的方法，其特征在于，所述生成与所述目标标记图像对应的初始参照图像包括：

获取所述目标标记图像的尺寸；

生成与所述目标标记图像的尺寸对应的初始参照图像；

设置所述初始参照图像的各个像素点的灰度值为零。

5.根据权利要求1所述的方法，其特征在于，所述通过图像上色神经网络模型根据所述着色参照图像对所述目标标记图像进行上色处理，生成所述目标标记图像的上色参考图像包括：

将所述目标标记图像和所述着色参照图像输入所述图像上色神经网络模型，对所述目标标记图像和所述着色参照图像进行卷积处理获得第一特征图；

将所述第一特征图通过所述图像上色神经网络模型进行空洞卷积处理获得第二特征图；

将所述第二特征图通过所述图像上色神经网络模型进行卷积处理获得上色预测图像；

对所述第一特征图和所述第二特征图进行采样，获得所述上色预测图像的颜色分布；

根据所述上色预测图像及所述上色预测图像的颜色分布获得所述目标标记图像的上色参考图像。

6.根据权利要求1所述的方法，其特征在于，所述通过视频上色神经网络模型根据所述目标标记图像的上色参考图像对所述目标视频片段的分帧图像进行上色处理包括：

通过所述视频上色神经网络模型对所述目标视频片段的分帧图像进行时域卷积处理，获得分帧图像时域特征；

通过所述视频上色神经网络模型对所述目标视频片段的上色参考图像进行空间卷积处理，获得上色参考空间特征；

基于有源参考注意力机制对所述分帧图像时域特征和所述上色参考空间特征进行融合，以获得所述目标视频片段的分帧图像的上色图像。

7.根据权利要求1所述的方法，其特征在于，还包括：

将目标视频进行分帧，获得所述目标视频的分帧图像；

获取所述目标视频的各个分帧图像与对应的上一分帧图像之间的帧差图像；

获得各个帧差图像的像素点灰度均值；

根据所述各个帧差图像的像素点灰度均值确定所述目标视频的分帧图像中的突变帧；

根据所述突变帧在所述目标视频中的位置对所述目标视频进行切割，获得多个所述目标视频片段。

8.根据权利要求7所述的方法，其特征在于，所述根据所述帧差图像的像素点灰度均值确定所述目标视频的分帧图像中的突变帧包括：

将所述各个帧差图像的像素点灰度均值与对应上一帧差图像的像素点灰度均值进行比较，获得所述突变帧。

9.根据权利要求7所述的方法，其特征在于，还包括：

根据所述目标视频片段的分帧图像的上色图像获得上色的目标视频片段；

将多个所述上色的目标视频片段按顺序进行合并，获得上色的目标视频。

10.根据权利要求1-9任一项所述的方法，其特征在于，还包括：

获得所述目标视频片段的视频片段时长；

当所述视频片段时长大于时长阈值时，获得所述目标视频片段的图像帧数；

根据所述图像帧数确定所述目标视频片段的抽帧帧数间隔；

根据所述抽帧帧数间隔从所述目标视频片段中抽取第一参考帧数的分帧图像作为所述目标视频片段的目标标记图像。

11.根据权利要求10所述的方法，其特征在于，还包括：

当所述视频片段时长小于或等于所述时长阈值时，确定所述目标视频片段的抽帧时长间隔；

根据所述抽帧时长间隔从所述目标视频片段中抽取至多第二参考帧数的分帧图像作为所述目标视频片段的目标标记图像。

12.一种视频上色装置，其特征在于，包括：

初始图像获取模块，用于获得目标视频片段中的分帧图像，所述分帧图像中包括目标标记图像；

着色参照模块，用于响应对所述目标标记图像的选定像素点的颜色标记操作，获得与所述目标标记图像对应的着色参照图像，所述颜色标记操作表示为像素点标记颜色的操作；

上色参考模块，用于通过图像上色神经网络模型根据所述着色参照图像对所述目标标记图像进行上色处理，生成所述目标标记图像的上色参考图像；

图像上色模块，用于通过视频上色神经网络模型根据所述目标标记图像的上色参考图像对所述目标视频片段的分帧图像进行上色处理，获得所述目标视频片段的分帧图像的上色图像。

13.一种电子设备，包括：存储器、处理器及存储在所述存储器中并可在所述处理器中运行的可执行指令，其特征在于，所述处理器执行所述可执行指令时实现如权利要求1-11任一项所述的方法。

14.一种计算机可读存储介质，其上存储有计算机可执行指令，其特征在于，所述可执行指令被处理器执行时实现如权利要求1-11任一项所述的方法。