CN112866797A

CN112866797A - 一种视频处理方法、装置、电子设备及存储介质

Info

Publication number: CN112866797A
Application number: CN202011625866.3A
Authority: CN
Inventors: 程俊奇; 四建楼
Original assignee: Shanghai Sensetime Intelligent Technology Co Ltd
Current assignee: Shanghai Sensetime Intelligent Technology Co Ltd
Priority date: 2020-12-31
Filing date: 2020-12-31
Publication date: 2021-05-28
Anticipated expiration: 2040-12-31
Also published as: CN112866797B

Abstract

本公开提供了一种视频处理方法、装置、电子设备及存储介质，其中，该视频处理方法包括：获取视频片段；所述视频片段中包括当前帧的第一图像和上一帧的第二图像；确定所述第一图像的目标位置区域的第一语义分割结果以及所述第一图像的目标位置区域的第一特征信息；获取所述第二图像的第二语义分割结果以及所述第二图像的第二特征信息；基于所述第一语义分割结果和所述第一特征信息、所述第二语义分割结果和所述第二特征信息，确定所述第一图像的第二语义分割结果。

Description

一种视频处理方法、装置、电子设备及存储介质

技术领域

本公开涉及视频处理技术领域，具体而言，涉及一种视频处理方法、装置、电子设备及存储介质。

背景技术

在使用预先训练的图片语义分割模型对离线视频片段进行语义分割处理，可以将离线视频片段中的图像作为图像输入预先训练的语义分割模型中进行语义分割，得到每帧图像的语义分割结果，这种方式可以识别出单帧图像中包含的目标对象。

但是由于图片语义分割模型会存在一定的误差，在针对不同帧图像中的细节进行语义分割处理时得到的分割结果的精度可能不同，这样视频片段中的相邻两帧图像的语义分割结果会出现不同，比如相邻两帧图像中同一目标对象的轮廓在一帧图像中的轮廓为直线，在后一帧图像中的轮廓为曲线，从而带来视觉上的抖动，因此目前亟需提供一种针对离线视频片段的语义分割方式。

发明内容

本公开实施例至少提供一种视频处理方案。

第一方面，本公开实施例提供了一种视频处理方法，包括：

获取视频片段；所述视频片段中包括当前帧的第一图像和上一帧的第二图像；

确定所述第一图像的目标位置区域的第一语义分割结果以及所述第一图像的目标位置区域的第一特征信息；

获取所述第二图像的第二语义分割结果以及所述第二图像的第二特征信息；

基于所述第一语义分割结果和所述第一特征信息、所述第二语义分割结果和所述第二特征信息，确定所述第一图像的第二语义分割结果。

本公开实施例中，在语义分割中，特征信息相似的像素点属于同一语义分割结果的可能性较大，以及视频片段中相邻两帧图像的语义分割结果的关联性较大，因此在确定第一图像的第二语义分割结果时，可以同时结合第一图像和与该第一图像相邻的第二图像的语义分割结果和特征信息，从而得到第一图像对应的准确度较高的第二语义分割结果，以便降低语义分割的预测误差带来的帧间抖动的问题，达到优化视觉效果的作用。

在一种可能的实施方式中，根据以下方式确定所述第一图像的目标位置区域的第一特征信息：

提取所述第一图像的目标位置区域中每个第一像素点的颜色特征值和位置特征值；

基于所述第一像素点的所述颜色特征值、所述位置特征值和时域特征值，生成所述第一像素点的第一特征信息；所述时域特征值用于表示所述第一图像与所述第二图像之间的采集时间顺序信息。

本公开实施例中，提出可以通过颜色特征值、位置特征值和时域特征值构成准确表征第一图像的目标位置区域中的每个第一像素点特征的第一特征信息，通过每个第一像素点的第一特征信息，可以为调整得到第一像素点准确度较高的语义分割结果做准备。

在一种可能的实施方式中，所述目标位置区域为所述第一图像中的部分区域；所述基于所述第一语义分割结果和所述第一特征信息、所述第二语义分割结果和所述第二特征信息，确定所述第一图像的第二语义分割结果，包括：

基于所述第一语义分割结果和所述第一特征信息、所述第二语义分割结果和所述第二特征信息，确定所述第一图像的目标位置区域的第二语义分割结果；

基于所述第一图像的目标位置区域的第二语义分割结果以及所述第一图像的目标位置区域以外的其它位置区域的设定语义分割结果，得到所述第一图像的第二语义分割结果。

本公开实施例中，在得到第一图像中目标位置区域中的语义分割结果后，可以结合第一图像的目标位置区域外的其它位置区域的设定语义分割结果，比如默认的语义分割结果为指示目标类别是背景的概率值，从而可以准确快速的得到第一图像的第二语义分割结果，为后续进行视频处理提供支持。

在一种可能的实施方式中，所述基于所述第一语义分割结果和所述第一特征信息、所述第二语义分割结果和所述第二特征信息，确定所述第一图像的目标位置区域的第二语义分割结果，包括：

针对所述第一图像的目标位置区域内的第一像素点，根据所述第一像素点的第一语义分割结果以及所述第一特征信息，以及所述第二图像中与所述第一像素点匹配的第二像素点的第二语义分割结果以及所述第二特征信息，确定所述第一像素点和所述第二像素点属于目标类别的置信度；

基于所述置信度，对所述第一像素点的第一语义分割结果进行调整，得到所述第一像素点的第二语义分割结果，所述第二语义分割结果包括所述第一像素点属于所述目标类别的第二概率值。

本公开实施例中，提出通过第一像素点的第一语义分割结果和第一特征信息、以及与第一像素点匹配的第二像素点的第二语义分割结果和第二特征信息来确定第一像素点和与第一像素点匹配的第二像素点属于目标类别的置信度，这样，可以通过该置信度对第一像素点的第一语义分割结果进行调整，从而得到第一像素点对应的准确度较高的第二语义分割结果。

在一种可能的实施方式中，所述基于所述置信度，对所述第一像素点的第一语义分割结果进行调整，得到所述第一像素点的第二语义分割结果，包括：

基于所述置信度，对所述第一像素点的第一语义分割结果和所述第二像素点的第二语义分割结果分别进行调整，得到第一更新语义分割结果以及第二更新语义分割结果；

基于所述第一更新语义分割结果和所述第一特征信息、以及所述第二更新语义分割结果和所述第二特征信息，确定所述第一像素点和所述第二像素点属于所述目标类别的当前置信度；

基于所述当前置信度，对所述第一更新语义分割结果和所述第二更新语义分割结果进行调整后，返回确定所述当前置信度的步骤，直至达到预设调整次数后，得到所述第一像素点的第二语义分割结果。

本公开实施例中，可以通过第一像素点和所述第二像素点属于目标类别的当前置信度，对第一像素点的第一语义分割结果进行多次调整，从而得到第一像素点对应的准确度较高的第二语义分割结果。

在一种可能的实施方式中，本公开实施例提供的视频方法还包括：

在达到预设调整次数后，得到所述第二像素点属于所述目标类别的最新概率值；

根据所述最新概率值，调整所述第二图像中指定目标类别的像素点所在的目标类别区域。

本公开实施例中，在确定第一图像中第一像素点的第二语义分割结果的过程中，还会对第二图像中与第一像素点匹配的第二像素点的类别信息进行优化，从而得到第二图像准确度较高的类别信息。

在一种可能的实施方式中，所述确定所述第一图像的目标位置区域的第一语义分割结果，包括：

获取所述第二图像的目标位置区域的位置范围，并从所述第一图像中截取与所述第二图像的目标位置区域的位置范围匹配的初始位置区域；

确定所述第一图像中所述初始位置区域的初始语义分割结果；

基于所述第二图像的目标位置区域的位置范围、所述第一图像中所述初始位置区域的位置范围以及所述初始语义分割结果，确定所述第一图像的目标位置区域的第一语义分割结果。

本公开实施例中，考虑到相邻帧之间的时间采集时间间隔较短，因此可以通过上一帧的第二图像的目标位置区域在当前帧的第一图像中选择分割目标的占比尺寸符合要求的目标位置区域，这样在选择出分割目标的占比尺寸符合要求的初始位置区域后，一方面在使用语义分割模型确定初始语义分割结果时，可以提高确定的初始语义分割结果的准确度，另一方面，因为初始位置区域是基于上一帧的第二图像的目标位置区域确定的，因此两者之间具有关联性，这样便于提高得到的视频片段中相邻帧图像之间的语义分割结果的连贯性。

在一种可能的实施方式中，所述基于所述第二图像的目标位置区域的位置范围、所述第一图像中所述初始位置区域的位置范围以及所述初始语义分割结果，确定所述第一图像的目标位置区域的第一语义分割结果，包括：

基于所述初始位置区域的所述初始语义分割结果和所述第一图像除所述初始位置区域之外的其它位置区域的设定语义分割结果，得到所述第一图像的初始语义分割结果；

基于所述第一图像的初始语义分割结果，确定所述第一图像的更新位置区域；

基于所述第二图像的目标位置区域的位置范围、所述第一图像的更新位置区域的位置范围，确定所述第一图像的目标位置区域；

从所述第一图像的初始语义分割结果中选取所述第一图像的目标位置区域对应的初始语义分割结果，作为所述第一图像的目标位置区域的第一语义分割结果。

本公开实施例中，考虑到第一图像相比第二图像中的目标位置区域会有一定变化，比如前景区域可能发生位置偏移，因此在得到初始位置区域后，还会结合初始位置区域的初始语义分割结果和初始位置区域之外的位置区域在第二图像中的第二语义分割结果，来得到第一图像的更新位置区域，进一步可以根据更新位置区域和第二图像的目标位置区域确定第一图像的目标位置区域是否发生较大偏移，从而得到准确的第一图像的目标位置区域以及该目标位置区域的第一语义分割结果。

在一种可能的实施方式中，所述基于所述第一图像的初始语义分割结果，确定所述第一图像的更新位置区域，包括：

根据所述第一图像中各像素点分别对应的初始语义分割结果，确定所述第一图像中各像素点分别对应的标签信息；所述标签信息用于指示所述像素点所属目标类别；

基于所述第一图像中各像素点分别对应的所述标签信息和预选标签信息，从所述第一图像中确定出所述更新位置区域。

本公开实施例中，提出可以基于第一图像的初始语义分割结果，得到与当前帧第一图像匹配度较高的更新位置区域。

在一种可能的实施方式中，所述基于所述第二图像的目标位置区域的位置范围以及所述第一图像的更新位置区域的位置范围，确定所述第一图像的目标位置区域，包括：

确定所述第二图像的目标位置区域的位置范围和所述更新位置区域的位置范围在所述第一图像中的区域重叠率；

在所述区域重叠率小于设定重叠率阈值的情况下，将所述更新位置区域作为所述第一图像的目标位置区域；

在所述区域重叠率大于或等于所述设定重叠率阈值的情况下，将所述第一图像的所述初始位置区域作为所述第一图像的目标位置区域。

本公开实施例中，提出基于第二图像的目标位置区域和更新位置区域在第一图像中区域重叠率来确定第一图像的目标位置区域，一方面在分割目标在视频片段中的位置变化较大时，可以得到第一图像中占比尺寸较为合适的目标位置区域，另一方面，在分割目标在视频片段中的位置变化较小时，通过保持前一帧图像的目标位置区域对应的位置范围，可以在保持占比尺寸较为合适的情况下，提高视频片段中分割结果得连贯性。

在一种可能的实施方式中，所述确定所述第二图像的目标位置区域的位置范围和所述更新位置区域的位置范围在所述第一图像中的区域重叠率，包括：

获取所述第二图像的目标位置区域和所述更新位置区域在所述第一图像中的交集面积以及并集面积；

将所述交集面积和所述并集面积的比值，作为所述区域重叠率。

本公开实施例中，通过第二图像的目标位置区域和更新位置区域之间的交集面积和并集面积，可以快速确定出第二图像的目标位置区域和更新位置区域的区域重叠率。

在一种可能的实施方式中，所述初始语义分割结果包括所述像素点分别属于各目标类别的初始概率值；

所述根据所述第一图像中各像素点分别对应的初始语义分割结果，确定所述第一图像中各像素点分别对应的标签信息，包括：

针对所述第一图像中的各所述像素点，从所述像素点分别属于各类别的初始概率值中筛选最大初始概率值；

将所述最大初始概率值对应的目标类别，作为所述像素点对应的标签信息。

本公开实施例中，通过筛选最大初始概率值指示的目标类别的标签信息，作为该像素点对应的标签信息，可以得到该像素点对应的准确度较高的标签信息，从而便于基于准确度较高的标签信息，为后续生成准确度较高的更新位置区域提供准备。

在一种可能的实施方式中，所述第一图像的第二语义分割结果包括所述第一图像中各像素点分别属于各目标类别的第二概率值；

在确定所述第一图像的第二语义分割结果之后，所述方法还包括：

根据所述第一图像中各像素点分别属于各目标类别的第二概率值，从所述第一图像中分割出属于指定目标类别的像素点所在的目标类别区域。

本公开实施例中，在得到第一图像准确度较高的第二语义分割结果后，可以准确地从第一图像中分割出用户关注的指定目标类别区域。

第二方面，本公开实施例提供了一种视频处理装置，包括：

第一获取模块，用于获取视频片段，以及用于获取第二图像的第二语义分割结果以及所述第二图像的第二特征信息；所述视频片段中包括当前帧的第一图像和上一帧的第二图像；

第一确定模块，用于确定所述第一图像的目标位置区域的第一语义分割结果以及所述第一图像的目标位置区域的第一特征信息；

第二确定模块，用于基于所述第一语义分割结果和所述第一特征信息、所述第二语义分割结果和所述第二特征信息，确定所述第一图像的第二语义分割结果。

第三方面，本公开实施例提供了一种电子设备，包括：处理器、存储器和总线，所述存储器存储有所述处理器可执行的机器可读指令，当电子设备运行时，所述处理器与所述存储器之间通过总线通信，所述机器可读指令被所述处理器执行时执行如第一方面所述的视频处理方法的步骤。

第四方面，本公开实施例提供了一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行如第一方面所述的视频处理方法的步骤。

为使本公开的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本公开实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，此处的附图被并入说明书中并构成本说明书中的一部分，这些附图示出了符合本公开的实施例，并与说明书一起用于说明本公开的技术方案。应当理解，以下附图仅示出了本公开的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1示出了本公开实施例所提供的一种视频处理方法的流程图；

图2示出了本公开实施例所提供的一种确定第一图像的目标位置区域的第一语义分割结果的方法流程图；

图3示出了本公开实施例所提供的一种确定第一图像的目标位置区域的第一语义分割结果的具体方法流程图；

图4示出了本公开实施例提供的一种确定区域重叠率的场景示意图；

图5示出了本公开实施例所提供的一种生成第一像素点的第一特征信息的方法流程图；

图6示出了本公开实施例所提供的一种确定第一图像的第二语义分割结果的方法流程图；

图7示出了本公开实施例所提供的一种确定第一像素点的第二语义分割结果的方法流程图；

图8示出了本公开实施例所提供的一种调整第二图像中指定目标类别的像素点所在的目标类别区域的方法流程图；

图9示出了本公开实施例所提供的一种视频处理装置的结构示意图；

图10示出了本公开实施例所提供的一种电子设备的示意图。

具体实施方式

为使本公开实施例的目的、技术方案和优点更加清楚，下面将结合本公开实施例中附图，对本公开实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本公开一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本公开实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本公开的实施例的详细描述并非旨在限制要求保护的本公开的范围，而是仅仅表示本公开的选定实施例。基于本公开的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本公开保护的范围。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

本文中术语“和/或”，仅仅是描述一种关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中术语“至少一种”表示多种中的任意一种或多种中的至少两种的任意组合，例如，包括A、B、C中的至少一种，可以表示包括从A、B和C构成的集合中选择的任意一个或多个元素。

针对语义分割场景，一般可以采用预先训练得图片语义分割模型对单帧图像中的像素点对应的类别进行预测，确定出像素点属于每种预设类别得概率值，然后基于概率值确定出像素点的类别。

在一些场景下，需要对离线视频片段中的图像进行语义识别，以完成特定的应用需求，比如更换背景区域或者虚化背景，这就需要对离线视频片段中的每帧图像进行语义分割，确定出背景区域，在通过图片语义分割模型对单帧图像进行语义分割时，会存在一定的误差，在针对不同帧图像中的细节进行语义分割处理时得到的分割结果的精度可能不同，这样视频片段中的相邻两帧图像的语义分割结果会出现不同，比如相邻两帧图像中同一目标对象的轮廓在一帧图像中的轮廓为直线，在后一帧图像中的轮廓为曲线，从而带来视觉上的抖动，因此目前亟需提供一种针对视频片段的语义分割方式。

基于上述研究，本公开提供了一种视频处理方法，在语义分割中，特征向量相似的像素点属于同一语义分割结果的可能性较大，以及视频片段中相邻两帧图像的语义分割结果的关联性较大，因此在确定第一图像的第二语义分割结果时，可以同时考虑该第一图像和与该第一图像相邻的第二图像的语义分割结果和特征向量，从而得到第一图像对应的准确度较高的第二语义分割结果，从而降低语义分割的预测误差带来的帧间抖动的问题，达到优化视觉效果的作用。

为便于对本实施例进行理解，首先对本公开实施例所公开的一种视频处理方法进行详细介绍，本公开实施例所提供的视频处理方法的执行主体一般为具有一定计算能力的计算机设备，该计算机设备例如包括：终端设备或服务器或其它处理设备，终端设备可以为用户设备(User Equipment，UE)、移动设备、用户终端、手持设备、计算设备、车载设备等。在一些可能的实现方式中，该视频处理方法可以通过处理器调用存储器中存储的计算机可读指令的方式来实现。

参见图1所示，为本公开实施例提供的视频处理方法的流程图，方法包括以下S101～S104：

S101，获取视频片段；视频片段中包括当前帧的第一图像和上一帧的第二图像。

示例性地，视频片段可以包含预先在多种应用场景下获取到的视频片段，比如可以针对道路场景采集到的视频片段，或者针对商场采集到的视频片段，在此不做具体限定。

示例性地，视频片段中包含按照设定时间间隔采集的图像，当前帧的第一图像和上一帧的第二图像为相邻时间点采集得到的两帧图像。

S102，确定第一图像的目标位置区域的第一语义分割结果以及第一图像的目标位置区域的第一特征信息。

示例性地，第一图像的目标位置区域可以指第一图像中的部分位置区域，也可以指第一图像完整的位置区域。

示例性地，在第一图像的目标位置区域属于第一图像完整的位置区域的情况下，可以将第一图像输入预先训练的用于语义分割的目标神经网络中，得到第一图像的目标位置区域的第一语义分割结果；在第一图像的目标位置区域为第一图像中的部分位置区域的情况下，可以将第一图像的目标位置区域输入预先训练的用于进行语义分割的目标神经网络中，得到第一图像的目标位置区域的第一语义分割结果。

示例性地，第一语义分割结果是基于预先训练的用于语义分割的目标神经网络针对单帧图像进行预测得到的，考虑到在训练目标神经网络时是基于单帧图像进行训练的，目标神经网络在预测视频片段中的图像时，容易因预测精度问题导致相邻帧图像之间原本属于相同目标类别的像素点的被预测为不同的目标类别，这样使得相邻图像之间发生抖动，造成语义分割结果的不连贯，因此后续需要对该第一语义分割结果进行调整，以得到准确度较高的第二语义分割结果。

示例性地，第一图像的目标位置区域的第一语义分割结果可以通过第一图像的目标位置区域内的第一像素点属于目标类别的第一概率值来表示，目标类别可以为预先设定的至少一种类别，比如一帧图像中可以包含用户关注的前景类别和用户不关注的背景类别，这里的目标类别可以包括前景类别和背景类别，获取的第一像素点属于目标类别的第一概率值可以包括属于前景类别的第一概率值和属于背景类别的第一概率值。

示例性地，第一图像的目标位置区域的第一特征信息具体可以是第一图像的目标位置区域内的各第一像素点的特征信息，其中，特征信息可以包含颜色信息、纹理信息、位置信息、表示第二目标像素点所在的当前帧图像在相邻两帧图像中的采集时间顺序信息等。

S103，获取第二图像的第二语义分割结果以及第二图像的第二特征信息。

示例性地，第二图像的第二语义分割结果可以预先确定，在第二图像不是视频片段中的首帧图像时，其确定方式与确定第一图像中的第二语义分割结果的方式相同，本文重点介绍确定第一图像的第二语义分割结果的过程。在第二图像是视频片段中的首帧图像时，可以通过预先训练的用于语义分割的目标神经网络来确定，在此不进行赘述。

第二图像的第二特征信息可以是第二图像各像素点的特征信息，具体包含内容与第一特征信息相似，在此不再赘述。

S104，基于第一语义分割结果和第一特征信息、第二语义分割结果和第二特征信息，确定第一图像的第二语义分割结果。

示例性地，在第一图像的目标位置区域为第一图像中的部分区域时，这里的第二图像的第二语义分割结果也可以是第二图像中的部分区域的第二语义分割结果，第二图像中的部分区域和第一图像的目标位置区域在相同坐标系下的位置区域相同，因为第二图像和第一图像的尺寸相同，可以针对每帧图像建立像素坐标系，相邻两帧图像中，在像素坐标系中的位置范围相同的区域的语义分割结果相同的概率较高，因此这里可以选择第二图像中与第一图像的目标位置区域在相同坐标系下相同的部分区域的第二语义分割结果，来确定第一图像的第二语义分割结果。

示例性地，考虑到属于同一目标类别的像素点的特征信息较为接近，且属于同一目标类别的像素点对应的概率值也应该较为接近，因此可以考虑第一图像中目标位置区域中各第一像素点的第一语义分割结果和各第一像素点的第一特征信息、以及在第二图像中与各第一像素点在相同像素坐标系下位于同一坐标位置的第二像素点第二语义分割结果和该第二像素点的第二特征信息，来确定出第一图像中目标位置区域中各第一像素点的第二语义分割结果。

示例性地，可以针对第一图像和第二图像分别建立像素坐标系，在第一图像和第二图像重合时，使得第一图像和第二图像的像素坐标系的原点以及坐标轴能够重合，此时，在第一图像中的位置坐标为(m，n)的第一像素点与第二图像中位置坐标同样为(m，n)的第二像素点属于在相同像素坐标系下的像素点。

本公开实施例中，在语义分割中，特征向量相似的像素点属于同一语义分割结果的可能性较大，以及视频片段中相邻两帧图像的语义分割结果的关联性较大，因此在确定第一图像的第二语义分割结果时，可以同时考虑该第一图像和与该第一图像相邻的第二图像的语义分割结果和特征向量，从而得到第一图像对应的准确度较高的第二语义分割结果，从而降低语义分割的预测误差带来的帧间抖动的问题，达到优化视觉效果的作用。

考虑到视频片段中，不同帧图像中的待进行语义分割的分割目标的区域在不断变化，预先训练的用于语义分割的目标神经网络可能需要同时处理不同大小占比的分割目标，而目标神经网络的训练数据大多为分割目标占比符合预设要求的图像，比如预设要求可以为分割目标的占比大于或等于预设占比，因此，在通过目标神经网络预测分割目标占比较小的图像，会存在出现边界锯齿，前景缝隙缺失等现象，因此本公开实施例提出可以通过在视频片段中的图像中筛选分割目标的大小占比符合要求的区域。

示例性地，分割目标是指需要进行语义分割的目标，比如指用户关注的前景，比如针对道路场景相关的视频片段中的车辆进行识别，则分割目标为车辆，针对道路场景相关的视频片段中的行人进行识别，则分割目标为行人，分割目标的占比是指分割目标的尺寸和分割目标所在的图像的尺寸的比例，下面将详细介绍如何筛选分割目标的大小占比符合要求的区域。

针对上述S102，当第一图像的目标位置区域为第一图像的部分区域时，在确定第一图像的目标位置区域的第一语义分割结果时，如图2所示，可以包括以下S201～S203：

S201，获取第二图像的目标位置区域的位置范围，并从第一图像中截取与第二图像的目标位置区域的位置范围匹配的初始位置区域。

示例性地，目标位置区域可以为分割目标的占比符合预设要求的区域，在第二图像为视频片段的非首帧图像的情况下，确定第二图像的目标位置区域的方式与以下确定第一图像的目标位置区域的方式相同，在此不再赘述。

在第二图像为视频片段的首帧图像的情况下，可以根据以下方式确定第二图像的目标位置区域，具体包括以下S2011～S2013：

S2011，通过目标神经网络对第二图像中的各像素点进行类别预测，确定第二图像中的各像素点属于目标类别的第二概率值。

示例性地，以对视频片段中的图像进行二分类预测为例，确定视频片段中的图像属于前景的像素点以及属于背景的像素点，可以将第二图像输入目标神经网络进行类别预测，得到第二图像中的各像素点属于前景的第二概率值和属于背景的第二概率值。

S2012，根据第二图像中的各像素点对应的第二概率值，确定第二图像中的各像素点对应的用于指示目标类别的标签信息。

示例性地，标签信息可以通过one-hot向量形式表示，该one-hot向量的维度与图像中目标类别的个数相同，比如目标类别总共包括两种，分别为前景类别和背景类别，则这里的one-hot向量为二维向量，每个维度对应一种目标类别，具体地，one-hot向量中维度与目标类别的对应关系可以预先设定，比如one-hot向量中，第一个维度对应前景类别，第二个维度对应背景类别，当可以预先设置前景的标签信息和背景的标签信息，比如前景标签信息通过[1 0]表示前景类别，通过[0 1]表示背景类别。

示例性地，在确定其中一个像素点对应的用于指示目标类别的标签信息的过程中，若该像素点属于前景的第二概率值大于属于背景的第二概率值，该像素点对应的标签信息用于指示前景，可以通过[1 0]表示，反之，该像素点对应的标签信息用于指示背景，可以通过[0 1]表示。

S2013，基于第二图像中的各像素点对应的标签信息和预选标签信息，得到第二图像的目标位置区域。

示例性地，预选标签信息具体指用于选择分割目标的标签信息，比如分割目标为前景，则这里的预选标签信息[1 0]，这样可以通过连通域搜索的方式，在前一帧图像中的像素点对应的标签信息中选择和预选标签信息相同的标签信息构成的最大连通区域的外接检测框，作为第二图像的目标位置区域，按照该方式可以选择分割目标占比符合要求的区域，比如分割目标占比大于设定比例的区域。

示例性地，目标位置区域为矩形检测框，在得到第二图像的目标位置区域后，可以根据该矩形检测框在第二图像的像素坐标系中的位置范围，在第一图像对应的像素坐标系中截取与该位置范围匹配的初始位置区域。

S202，确定第一图像中初始位置区域的初始语义分割结果。

示例性地，可以将第一图像中截取下来的初始位置区域输入目标神经网络进行类别预测，得到第一图像中初始位置区域中的各像素点属于目标类别的初始概率值，比如上述提到的属于前景的初始概率值和属于背景的初始概率值。

S203，基于第二图像的目标位置区域的位置范围、第一图像中初始位置区域的位置范围以及初始语义分割结果，确定第一图像的目标位置区域的第一语义分割结果。

示例性地，考虑到第一图像中的分割目标相比第二图像中的分割目标在图像中的相对位置可能发生了偏移，比如第一图像中的前景区域位于第一图像中的中心偏左区域，而第二图像中的前景区域位于第二图像的中心偏右区域，在发生偏移的情况下，若偏移的情况比较严重，如果直接将第一图像的初始位置区域作为目标位置区域，可能无法得到第一图像准确的第二语义分割结果，因此需要基于第一图像中初始位置区域的初始语义分割结果，来确定是否需要重新获取第一图像的更新位置区域，并最终得到第一图像的目标位置区域以及该目标位置区域的第一语义分割结果。

具体地，针对S203，在基于第二图像的目标位置区域的位置范围、第一图像中初始位置区域的位置范围以及初始语义分割结果，确定第一图像的目标位置区域的第一语义分割结果时，如图3所示，可以包括以下S301～S304：

S301，基于初始位置区域的初始语义分割结果和第一图像除初始位置区域之外的其它位置区域的设定语义分割结果，得到第一图像的初始语义分割结果。

示例性地，在得到初始位置区域的初始语义分割结果后，可以将初始位置区域贴回第一图像，然后将该初始位置区域的初始语义分割结果以及初始位置区域之外的其它位置区域的设定语义分割结果，作为第一图像的初始语义分割结果。

示例性地，设定语义分割结果可以通过预先设定的目标位置区域之外的像素点对应的标签信息来表示，比如针对待区分前景和背景的二分类图像，可以将初始位置区域以外的像素点的类别信息均默认为背景类别，则初始位置区域外的像素点的设定语义分割结果可以通过上述提到的“[0 1]”来表示，表示输入初始位置区域外的像素点属于前景类别的概率值为0，属于背景类别的概率值为1。

S302，基于第一图像的初始语义分割结果，确定第一图像的更新位置区域。

示例性地，根据第一图像的初始语义分割结果生成更新区域的过程，与上述得到首帧图像对应的目标位置区域的方式相似，在此不再赘述。

具体地，针对S302，在基于第一图像的初始语义分割结果，确定第一图像的更新位置区域时，包括以下S3021～S3022：

S3021，根据第一图像中各像素点分别对应的初始语义分割结果，确定第一图像中各像素点分别对应的标签信息；标签信息用于指示像素点所属目标类别；

示例性地，初始语义分割结果包括各像素点分别属于各目标类别的初始概率值，比如上述提到的各像素点分别属于前景的初始概率值和属于背景的初始概率值。

具体地，在根据第一图像中各像素点分别对应的初始语义分割结果，确定第一图像中各像素点分别对应的标签信息时，包括以下S30211～S30212：

S30211，针对第一图像中的各像素点，从像素点分别属于各类别的初始概率值中筛选最大初始概率值；

S30212，将最大初始概率值对应的目标类别，作为像素点对应的标签信息。

具体过程详见上文提到的在第二图像为首帧图像时，确定第二图像中各的像素点对应的标签信息的过程，在此不再赘述。

通过筛选最大初始概率值指示的目标类别的标签信息，作为该像素点对应的标签信息，可以得到该像素点对应的准确度较高的标签信息，从而便于基于准确度较高的标签信息，为后续生成准确度较高的更新位置区域提供准备。

S3022，基于第一图像中各像素点分别对应的标签信息和预选标签信息，从第一图像中确定出更新位置区域。

其中，在将初始位置区域贴回第一图像后，第一图像中各像素点包括初始位置区域中的各像素点以及初始位置区域之外的其它位置区域中的各像素点，因此第一图像中各像素点的标签信息包括初始位置区域中的各像素点的标签信息和初始位置区域之外的其它位置区域中的各像素点的标签信息。

进一步可以按照与上文提到的在第二图像为首帧图像时，确定第二图像的目标位置区域的过程，确定第一图像对应的更新位置区域，在此不再赘述。

S303，基于第二图像的目标位置区域的位置范围、第一图像的更新位置区域的位置范围，确定第一图像的目标位置区域。

示例性地，考虑到在视频片段采集的图像中，相邻两帧图像之间的采集时间间隔较短，因此分割目标的位置变化可能较小，因此为了保持视频片段相邻两帧图像之间语义分割结果的连贯性，一般情况下，当第二图像的目标位置区域和更新位置区域之间得面积重叠率符合一定要求时，可以将基于第二图像的目标位置区域确定的初始位置区域作为第一图像的目标位置区域，否则，需要基于更新位置区域对初始位置区域进行更新，得到第一图像的目标位置区域。

S304，从第一图像的初始语义分割结果中选取第一图像的目标位置区域对应的初始语义分割结果，作为第一图像的目标位置区域的第一语义分割结果。

本公开实施例中，考虑到第一图像相比第二图像中的目标位置区域，比如前景区域可能发生位置偏移，因此在得到初始位置区域后，还会结合初始位置区域的初始语义分割结果和初始位置区域之外的位置区域在第二图像中的第二语义分割结果，来得到第一图像的更新位置区域，进一步可以根据更新位置区域和第二图像的目标位置区域确定第一图像的目标位置区域是否发生较大偏移，从而得到准确的第一图像的目标位置区域以及该目标位置区域的第一语义分割结果。

具体地，针对上述S303，在基于第二图像的目标位置区域的位置范围、第一图像的更新位置区域的位置范围，确定第一图像的目标位置区域时，包括以下S3031～S3032：

S3031，确定第二图像的目标位置区域的位置范围和更新位置区域的位置范围在第一图像中的区域重叠率。

示例性地，第二图像的目标位置区域和更新位置区域均为矩形检测框，可以通过两个矩形检测框在同一帧图像中的重叠面积确定该区域重叠率。

具体地，在确定第二图像的目标位置区域的位置范围和更新位置区域的位置范围在第一图像中的区域重叠率时，包括以下S30311～S30312：

S30311，获取第二图像的目标位置区域和更新位置区域在第一图像中的交集面积和并集面积；

S30312，将交集面积和并集面积的比值，作为区域重叠率。

示例性地，如图4所示，第二图像的目标位置区域可以通过矩形检测框ABCD表示，更新位置区域可以通过矩形检测框EFGH表示，其中矩形检测框ABCD和矩形检测框EFGH的交集面积如图4中矩形框MBNH的面积，矩形检测框ABCD和矩形检测框EFGH的并集面积如图4中多边形AMEFGNCD的面积。

进一步地，在得到交集面积和并集面积后，将交集面积和并集面积的比值，作为区域重叠率。

本公开实施例中，通过第一目标位置区域和更新位置区域之间的交集面积和并集面积，可以快速确定出第一目标位置区域和更新位置区域的区域重叠率。

S3032，在区域重叠率小于设定重叠率阈值的情况下，将更新位置区域作为第一图像的目标位置区域。

S3033，在区域重叠率大于或等于设定重叠率阈值的情况下，将第一图像的初始位置区域作为第一图像的目标位置区域。

示例性地，可以预先根据大数据统计设定重叠率阈值，在区域重叠率小于设定重叠率阈值的情况下，说明分割目标在第一图像中的位置范围相比在第二图像中位置范围的变动较大，因此需要将更新位置区域作为第一图像的目标位置区域进行后续处理，反之，在区域重叠率大于或等于设定重叠率阈值的情况下，可以直接将基于第二图像的目标位置区域确定的初始位置区域作为第一图像的目标位置区域，以保持视频片段中分割结果得连贯性。

在一种实施方式中，针对上述S102，在确定第一图像的目标位置区域的第一特征信息时，如图5所示，可以包括以下S401～S402：

S401，提取第一图像的目标位置区域中每个第一像素点的颜色特征值和位置特征值；

S402，基于该第一像素点的颜色特征值、位置特征值和时域特征值，生成该第一像素点的第一特征信息；其中，时域特征值用于表示当前帧图像在相邻两帧图像中的采集时间顺序信息。

示例性地，在第一图像为彩色图像时，可以具有红绿蓝(RGB)三个颜色通道，可以在第一图像中提取每个第一像素点分别在三个颜色通道上的特征值，得到颜色特征值。

示例性地，位置特征值可以指第一像素点第一图像对应的像素坐标系中的位置坐标，比如可以对第一图像构建像素坐标系，得到该第一像素点在该像素坐标系中的位置坐标(i，j)，将该位置坐标作为该第一像素点的位置特征值。

示例性地，针对相邻两帧图像，可以与预先根据两帧图像之间的采集时间顺序设置第一图像和第二图像分别对应的时域特征值，比如可以设定在相邻两帧图像中，采集时间靠前的第二图像对应的时域特征值为0，采集时间靠后的第二图像对应的时域特征值为1。

在得到第一图像中的目标位置区域中的每个第一像素点的颜色特征值、位置特征值以及时域特征值后，可以得到该第一像素点的第一特征信息，此外，还可以按照预先设定好的颜色特征、位置特征以及时域特征值在特征向量中的顺序，构成该第一像素点的第一特征向量。

此外，第二图像的特征信息同样表示第二图像中各像素点对应的特征信息，在本公开实施例中，需要在第二图像中提取与第一像素点在同一像素坐标系下坐标位置相同的第二像素点的第二特征信息，提取第二像素点的第二特征信息的方式与提取第一像素点的第一特征信息的方式相似，在此不再赘述。

在一种可能的实施方式中，目标位置区域为第一图像中的部分区域；针对上述S104，在基于第一语义分割结果和第一特征信息、第二语义分割结果和第二特征信息，确定第一图像的第二语义分割结果时，如图6所示，包括以下S501～S502：

S501，基于第一语义分割结果和第一特征信息、第二语义分割结果和第二特征信息，确定第一图像的目标位置区域的第二语义分割结果；

S502，基于第一图像的目标位置区域的第二语义分割结果以及第一图像的目标位置区域以外的其它位置区域的设定语义分割结果，得到第一图像的第二语义分割结果。

示例性地，在第一图像的目标位置区域为部分位置区域时，可以先获取第二图像中与第一图像的目标位置区域在相同像素坐标系下相同的部分区域的第二语义分割结果以及第二特征信息，然后结果第一图像的目标位置区域的第一语义分割结果和第一特征信息，确定出第一图像的目标位置区域的第二语义分割结果。

在第一图像的目标位置区域为基于第二图像的目标位置区域确定的初始位置区域的情况下，这里获取的第二图像的部分区域和第二图像的目标位置区域重合，在第二图像的目标位置区域相比初始位置区域发生更新时，这里获取的第二图像的部分区域和第二图像的目标位置区域不重合，在不重合的情况下，获取到的第二图像的部分区域的第二语义分割结果可以包含第二图像的目标位置区域中的第二像素点的第二语义分割结果，以及包含第二图像的目标位置区域以外的部分像素点的第二语义分割结果。

其中，第二图像的目标位置区域以外的部分像素点的第二语义分割结果可以为设定语义分割结果，比如选择作为分割目标所在的区域作为第二图像的目标位置区域，则目标位置区域以外的位置区域的第二语义分割结果可以为设定语义分割结果，比如针对待区分前景和背景的二分类图像，可以将第二图像的目标位置区域以外的像素点的类别信息均默认为背景类别，则第二图像的目标位置区域外的像素点的设定语义分割结果可以通过上述提到的“[0 1]”来表示，表示输入初始位置区域外的像素点属于前景类别的概率值为0，属于背景类别的概率值为1。

进一步地，在得到第一图像的目标位置区域的第二语义分割结果后，可以将第一图像的目标位置区域粘贴回第一图像中，然后将该第一图像的目标位置区域的第二语义分割结果以及目标位置区域以外的其它位置区域对应的设定语义分割结果，作为第一图像的第二语义分割结果。

在一种实施方式中，针对上述S501，在基于第一语义分割结果和第一特征信息、第二语义分割结果和第二特征信息，确定第一图像的目标位置区域的第二语义分割结果时，如图7所示，可以包括以下S601～S602：

S601，针对第一图像的目标位置区域内的第一像素点，根据第一像素点的第一语义分割结果以及第一特征信息，以及第二图像中与第一像素点匹配的第二像素点的第二语义分割结果以及第二特征信息，确定第一像素点和第二像素点属于目标类别的置信度。

示例性地，第一像素点的第一语义分割结果可以由第一像素点属于目标类别的第一概率值表示，第二像素点的第二语义分割结果可以由第二像素点属于目标类别的第二概率值表示。

示例性地，目标类别可以包含多个，比如上文提到的前景类别和背景类别，第一像素点具体属于哪个目标类别，可以由第一像素点属于目标类别的第一概率值确定，比如第一像素点属于前景类别的第一概率值大于属于背景类别的第一概率值，则认为第一像素点属于前景类别，在基于概率值确定出第一像素点和第二像素点属于的目标类别后，还可以进一步确定第一像素点属于目标类别的置信度以及第二像素点属于目标类别的置信度。

示例性地，第一图像的目报位置区域内包含n个第一像素点，在第二图像中与第一像素点对应的第二像素点也包括n个，这里确定的第一像素点和第二像素点属于目标类别的置信度包括每个第一像素点属于目标类别的置信度，以及与每个第一像素点匹配的第二像素点目标类别的置信度。

S602，基于置信度，对第一像素点的第一语义分割结果进行调整，得到第一像素点的第二语义分割结果，第二语义分割结果包括第一像素点属于目标类别的第二概率值。

示例性地，在基于第一像素点的第一语义分割结果和第一特征信息、以及与第一像素点匹配的第二像素点的第二语义分割结果和第二特征信息确定第一像素点的第二语义分割结果时，可以引入机器学习算法来进行确定，比如可以引入全连接条件随机场(dense CRF)来进行确定。

特别地，考虑到第二图像中与第一像素点对应的第二像素点的第二语义分割结果可能包含属于第二图像的目标位置区域以外的像素点，这些第二像素点的第二语义分割结果为设定语义分割结果，因设定语义分割结果可以通过one-hot形式表示，这种情况下属于一种目标类别的概率值为1或者0，在通过全连接条件随机场确定第一像素点对应的第二概率值之前，为了避免概率值为0或者1时存在极端情况，需要先根据以下公式(1)对通过one-hot形式表示的概率值进行softmax处理，使得第二像素点调整后的第二概率值介于0至1之间。

其中，p(X)表示第二像素点在经过softmax处理后得到的第二概率值；N表示one-hot向量的维度；x表示one-hot向量中不同维度的概率值，包括1和0。

在基于全连接条件随机场确定第一像素点属于目标类别的第二概率值时，可以引入dense CRF能量函数来确定，如以下公式(2)～公式(5)：

ψ_μ(x_i)＝-lnp(X_i＝x_i|I₁,I₂) (3)；

针对上述公式(2)，-E(X_i＝x_i|I₁,I₂)可以表示第一图像I₁中的第一像素点和第二图像I₂中的第二像素点X_i属于目标类别x_i的置信度；其中，M表示第一图像I₁中的第一像素点和第二图像I₂中与第一像素点匹配的第二像素点的像素点总数；其中，ψ_μ(x_i)表示第一像素点和第二像素点中的第i个像素点属于目标类别x_i的逆可能性；其中，ψ_p(x_i,x_j)表示第一像素点和第二像素点中的第i个像素点属于目标类别x_i以及第j个像素点同时属于目标类别x_j的逆可能性。

针对上述公式(3)，p(X_i＝x_i|I₁,I₂)表示在对第一像素点和第二像素点中的第i个像素点X_i属于目标类别x_i的概率值，若第i个像素点X_i为第一图像I₁中的第一像素点，则p(X_i＝x_i|I₁,I₂)表示第一像素点属于目标类别x_i的第一概率值，若像素点X_i为第二图像I₂中与第一像素点对应的第二像素点，则p(X_i＝x_i|I₁,I₂)表示第二像素点属于目标类别x_i的第二概率值。

针对上述公式(4)，μ(x_i,x_j)表示第一像素点和第二像素点中第i个像素点属于目标类别x_i以及第j个像素点同时属于目标类别x_j的权重，且在目标类别x_i和目标类别x_j相同的情况下，μ(x_i,x_j)的值较小，在目标类别x_i和目标类别x_j不相同的情况下，μ(x_i,x_j)的值较大；f_i表示第i个像素点对应特征信息构成的特征向量(在第i个像素点为第一像素点时，特征向量为第一像素点对应的第一特征向量，在第i个像素点为第二像素点时，特征向量为第二像素点对应的第二特征向量)；f_j表示第j个像素点对应的特征信息构成的特征向量(在第j个像素点为第一像素点时，特征向量为第一像素点对应的第一特征向量，在第j个像素点为第二像素点时，特征向量为第二像素点对应的第二特征向量)；k^(m)(f_i,f_j)表示基于第一像素点对应的第一特征向量和第二像素点对应的第二特征向量构建的高斯函数；K表示高斯函数中的种类个数；w^(m)表示高斯函数的种类对应的权重，在K＝2的情况下，详见公式(5)。

针对上述公式(5)，c_i表示第i个像素点对应的特征向量中的颜色特征值；c_j表示第j个像素点对应的特征向量中的颜色特征值；θ_α表示颜色特征值在确定f_i和f_j的相似度时的第一影响系数(第一影响系数为第一个高斯核中的预设固定参数值)；θ_γ在确定f_i和f_j的相似度时的第二影响系数(第一影响系数为第二个高斯核中的预设固定参数值)；d_i表示第i个像素点对应的特征向量中的位置特征值；d_j表示第j个像素点对应的特征向量中的位置特征值；θ_β表示位置特征值在确定f_i和f_j的相似度时的影响系数；t_i表示第i个像素点对应的特征向量中的时域特征值；t_j表示第j个像素点对应的特征向量中的时域特征值；θ_t1表示时域特征值在确定f_i和f_j的相似度时的第一影响系数；θ_t2表示时域特征值在在确定f_i和f_j的相似度时的第二影响系数。

进一步地，相似度较高的像素点，其属于同一目标类别的可能性较高，反之相似度较低的像素点，属于同一目标类别的可能性较低，基于此，可以根据上述公式(2)至公式(5)来得到第一像素点属于目标类别的置信度，以及得到与第一像素点匹配的第二像素点属于目标类别的置信度，通过调整该置信度，从而逐渐优化第一像素点和与第一像素点匹配的第二像素点属于目标类别的概率值。

具体地，针对上述S602，在基于置信度，对第一像素点的第一语义分割结果进行调整，得到第一像素点的第二语义分割结果时，包括以下S6021～S6023：

S6021，基于置信度，对第一像素点的第一语义分割结果和第二像素点的第二语义分割结果分别进行调整，得到第一更新语义分割结果以及第二更新语义分割结果。

示例性地，可以引入吉布斯分布概率函数公式(6)来对第一像素点的第一语义分割结果和第二像素点的第二语义分割结果分别进行调整，确定第一像素点的第一更新语义分割结果以及第二像素点的第二更新语义分割结果，同样地，第一更新语义分割结果可以通过第一像素点属于目标类别的第一更新概率值表示，第二更新语义分割结果可以通过第二像素点属于目标类别的第二更新概率值表示：

其中，P(X_i＝x_i|I₁,I₂)表示第一像素点和第二像素点中的第i个像素点属于目标类别的概率值，具体可以包括第一图像I₁中的第一像素点对应的第一更新概率值和第二图像I₂中与第一像素点对应的第二像素点属于目标类别的第二更新概率值；Z(I₁,I₂)表示归一化参数值，可以通过第一像素点和与第一像素点匹配的第二像素点属于每种目标类别的置信度的指数exp(-E(X_i＝x_i|I₁,I₂)之和来确定，用于对第一像素点和与第一像素点匹配的第二像素点属于目标类别的置信度的指数进行归一化处理，得到第一像素点对应的第一更新概率值和第二像素点对应的第二更新概率值。

S6022，基于第一更新语义分割结果和第一特征信息、以及第二更新语义分割结果和第二特征信息，确定第一像素点和第二像素点属于目标类别的当前置信度。

可以将第一像素点的第一更新语义分割结果和第一特征向量、以及第二像素点的第二更新语义分割结果和第二特征向量输入上述公式(2)至公式(5)，得到第一像素点和第二像素点属于目标类别的当前置信度。

S6023，基于当前置信度，对第一更新语义分割结果和第二更新语义分割结果进行调整后，返回确定当前置信度的步骤，直至达到预设调整次数后，得到第一像素点的第二语义分割结果。

在得到当前置信度后，重新基于当前置信度对第一像素点的第一更新语义分割结果和第二像素点的第二更新语义分割结果进行调整后，返回步骤S6022，直至达到预设调整次数后，可以认为第一像素点的第一更新语义分割结果和第二像素点的第二更新语义分割结果已经达到最优。

本公开实施例中，可以通过第一像素点和第二像素点属于目标类别的当前置信度，对第一像素点的第一语义分割结果进行多次调整，从而得到第一像素点对应的准确度较高的第二语义分割结果。

在一种实施方式中，如图8所示，本公开实施例提供的视频处理方法还包括以下S701～S702：

S701，在达到预设调整次数后，得到第二像素点属于目标类别的最新概率值；

S702，根据最新概率值，调整第二图像中指定目标类别的像素点所在的目标类别区域。

示例性地，在上述提到的确定第一像素点的第二语义分割结果的过程中，可以同时对第二图像中与第一像素点匹配的第二像素点的第二语义分割结果进行调整，即同时会得到第二像素点准确度较高的属于目标类别的最新概率值。

在得到第二图像中与第一像素点匹配的第二像素点属于目标类别的最新概率值后，还可以根据第二像素属于目标类别的最新概率值来调整第二图像中各个第二像素点的类别信息，从而以在第二图像中分割出更加准确的指定目标类别的像素点所在的目标类别区域，比如分割出前景区域。

在一种可能的实施方式中，第一图像的第二语义分割结果包括第一图像中各第一像素点分别属于各目标类别的第二概率值；

在确定第一图像的第二语义分割结果之后，视频处理方法还包括：

根据第一图像中各像素点分别属于各目标类别的第二概率值，从第一图像中分割出属于指定目标类别的像素点所在的目标类别区域。

示例性地，可以根据第一图像中各像素点分别属于各目标类别得第二概率值，确定出第一图像中各像素点对应的类别信息，然后可以在第一图像中分割出指定目标类别的像素点所在的目标类别区域，比如分割出前景区域。

本领域技术人员可以理解，在具体实施方式的上述方法中，各步骤的撰写顺序并不意味着严格的执行顺序而对实施过程构成任何限定，各步骤的具体执行顺序应当以其功能和可能的内在逻辑确定。

基于同一技术构思，本公开实施例中还提供了与视频处理方法对应的视频处理装置，由于本公开实施例中的装置解决问题的原理与本公开实施例上述视频处理方法相似，因此装置的实施可以参见方法的实施，重复之处不再赘述。

参照图9所示，为本公开实施例提供的一种视频处理装置800的示意图，该视频处理装置包括：

获取模块801，用于获取视频片段，以及用于获取第二图像的第二语义分割结果以及第二图像的第二特征信息；视频片段中包括当前帧的第一图像和上一帧的第二图像；

第一确定模块802，用于确定第一图像的目标位置区域的第一语义分割结果以及第一图像的目标位置区域的第一特征信息；

第二确定模块803，用于基于第一语义分割结果和第一特征信息、第二语义分割结果和第二特征信息，确定第一图像的第二语义分割结果。

在一种可能的实施方式中，第一确定模块802用于根据以下方式确定第一图像的目标位置区域的第一特征信息：

提取第一图像的目标位置区域中每个第一像素点的颜色特征值和位置特征值；

基于第一像素点的颜色特征值、位置特征值和时域特征值，生成第一像素点的第一特征信息；时域特征值用于表示第一图像与第二图像之间的采集时间顺序信息。

在一种可能的实施方式中，目标位置区域为第一图像中的部分区域；第二确定模块803在用于基于第一语义分割结果和第一特征信息、第二语义分割结果和第二特征信息，确定第一图像的第二语义分割结果时，包括：

基于第一语义分割结果和第一特征信息、第二语义分割结果和第二特征信息，确定第一图像的目标位置区域的第二语义分割结果；

基于第一图像的目标位置区域的第二语义分割结果以及第一图像的目标位置区域以外的其它位置区域的设定语义分割结果，得到第一图像的第二语义分割结果。

在一种可能的实施方式中，第二确定模块803在用于基于第一语义分割结果和第一特征信息、第二语义分割结果和第二特征信息，确定第一图像的目标位置区域的第二语义分割结果时，包括：

针对第一图像的目标位置区域内的第一像素点，根据第一像素点的第一语义分割结果以及第一特征信息，以及第二图像中与第一像素点匹配的第二像素点的第二语义分割结果以及第二特征信息，确定第一像素点和第二像素点属于目标类别的置信度；

基于置信度，对第一像素点的第一语义分割结果进行调整，得到第一像素点的第二语义分割结果，第二语义分割结果包括第一像素点属于目标类别的第二概率值。

在一种可能的实施方式中，第二确定模块803在用于基于置信度，对第一像素点的第一语义分割结果进行调整，得到第一像素点的第二语义分割结果时，包括：

基于置信度，对第一像素点的第一语义分割结果和第二像素点的第二语义分割结果分别进行调整，得到第一更新语义分割结果以及第二更新语义分割结果；

基于第一更新语义分割结果和第一特征信息、以及第二更新语义分割结果和第二特征信息，确定第一像素点和第二像素点属于目标类别的当前置信度；

基于当前置信度，对第一更新语义分割结果和第二更新语义分割结果进行调整后，返回确定当前置信度的步骤，直至达到预设调整次数后，得到第一像素点的第二语义分割结果。

在一种可能的实施方式中，第二确定模块803还用于：

在达到预设调整次数后，得到第二像素点属于目标类别的最新概率值；

根据最新概率值，调整第二图像中指定目标类别的像素点所在的目标类别区域。

在一种可能的实施方式中，第一确定模块803在用于确定第一图像的目标位置区域的第一语义分割结果时，包括：

获取第二图像的目标位置区域的位置范围，并从第一图像中截取与第二图像的目标位置区域的位置范围匹配的初始位置区域；

确定第一图像中初始位置区域的初始语义分割结果；

基于第二图像的目标位置区域的位置范围、第一图像中初始位置区域的位置范围以及初始语义分割结果，确定第一图像的目标位置区域的第一语义分割结果。

在一种可能的实施方式中，第一确定模块802在用于基于第二图像的目标位置区域的位置范围、第一图像中初始位置区域的位置范围以及初始语义分割结果，确定第一图像的目标位置区域的第一语义分割结果时，包括：

基于初始位置区域的初始语义分割结果和第一图像除初始位置区域之外的其它位置区域的设定语义分割结果，得到第一图像的初始语义分割结果；

基于第一图像的初始语义分割结果，确定第一图像的更新位置区域；

基于第二图像的目标位置区域的位置范围、第一图像的更新位置区域的位置范围，确定第一图像的目标位置区域；

从第一图像的初始语义分割结果中选取第一图像的目标位置区域对应的初始语义分割结果，作为第一图像的目标位置区域的第一语义分割结果。

在一种可能的实施方式中，第一确定模块802在用于基于第一图像的初始语义分割结果，确定第一图像的更新位置区域时，包括：

根据第一图像中各像素点分别对应的初始语义分割结果，确定第一图像中各像素点分别对应的标签信息；标签信息用于指示像素点所属目标类别；

基于第一图像中各像素点分别对应的标签信息和预选标签信息，从第一图像中确定出更新位置区域。

在一种可能的实施方式中，第一确定模块802在用于基于第二图像的目标位置区域的位置范围以及第一图像的更新位置区域的位置范围，确定第一图像的目标位置区域时，包括：

确定第二图像的目标位置区域的位置范围和更新位置区域的位置范围在第一图像中的区域重叠率；

在区域重叠率小于设定重叠率阈值的情况下，将更新位置区域作为第一图像的目标位置区域；

在区域重叠率大于或等于设定重叠率阈值的情况下，将第一图像的初始位置区域作为第一图像的目标位置区域。

在一种可能的实施方式中，第一确定模块802在用于确定第二图像的目标位置区域的位置范围和更新位置区域的位置范围在第一图像中的区域重叠率时，包括：

获取第二图像的目标位置区域和更新位置区域在第一图像中的交集面积和并集面积；

将交集面积和并集面积的比值，作为区域重叠率。

在一种可能的实施方式中，初始语义分割结果包括像素点分别属于各目标类别的初始概率值；第一确定模块在用于根据第一图像中各像素点分别对应的初始语义分割结果，确定第一图像中各像素点分别对应的标签信息时，包括：

针对第一图像中的各像素点，从像素点分别属于各类别的初始概率值中筛选最大初始概率值；

将最大初始概率值对应的目标类别，作为像素点对应的标签信息。

在一种可能的实施方式中，第一图像的第二语义分割结果包括第一图像中各像素点分别属于各目标类别的第二概率值；在确定第一图像的第二语义分割结果之后，第二确定模块803还用于：

关于装置中的各模块的处理流程、以及各模块之间的交互流程的描述可以参照上述方法实施例中的相关说明，这里不再详述。

对应于图1中的视频处理方法，本公开实施例还提供了一种电子设备900，如图10所示，为本公开实施例提供的电子设备900结构示意图，包括：

处理器91、存储器92、和总线93；存储器92用于存储执行指令，包括内存921和外部存储器922；这里的内存921也称内存储器，用于暂时存放处理器91中的运算数据，以及与硬盘等外部存储器922交换的数据，处理器91通过内存921与外部存储器922进行数据交换，当电子设备900运行时，处理器91与存储器92之间通过总线93通信，使得处理器91执行以下指令：获取视频片段；视频片段中包括当前帧的第一图像和上一帧的第二图像；确定第一图像的目标位置区域的第一语义分割结果以及第一图像的目标位置区域的第一特征信息；获取第二图像的第二语义分割结果以及第二图像的第二特征信息；基于第一语义分割结果和第一特征信息、第二语义分割结果和第二特征信息，确定第一图像的第二语义分割结果。

本公开实施例还提供一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行上述方法实施例中的视频处理方法的步骤。其中，该存储介质可以是易失性或非易失的计算机可读取存储介质。

本公开实施例还提供一种计算机程序产品，该计算机程序产品承载有程序代码，程序代码包括的指令可用于执行上述方法实施例中的视频处理方法的步骤，具体可参见上述方法实施例，在此不再赘述。

其中，上述计算机程序产品可以具体通过硬件、软件或其结合的方式实现。在一个可选实施例中，所述计算机程序产品具体体现为计算机存储介质，在另一个可选实施例中，计算机程序产品具体体现为软件产品，例如软件开发包(Software Development Kit，SDK)等等。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统和装置的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。在本公开所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本公开各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解，本公开的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本公开各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-OnlyMemory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上所述实施例，仅为本公开的具体实施方式，用以说明本公开的技术方案，而非对其限制，本公开的保护范围并不局限于此，尽管参照前述实施例对本公开进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本公开揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本公开实施例技术方案的精神和范围，都应涵盖在本公开的保护范围之内。因此，本公开的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种视频处理方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，根据以下方式确定所述第一图像的目标位置区域的第一特征信息：

3.根据权利要求1或2所述的方法，其特征在于，所述目标位置区域为所述第一图像中的部分区域；所述基于所述第一语义分割结果和所述第一特征信息、所述第二语义分割结果和所述第二特征信息，确定所述第一图像的第二语义分割结果，包括：

4.根据权利要求3所述的方法，其特征在于，所述基于所述第一语义分割结果和所述第一特征信息、所述第二语义分割结果和所述第二特征信息，确定所述第一图像的目标位置区域的第二语义分割结果，包括：

5.根据权利要求4所述的方法，其特征在于，所述基于所述置信度，对所述第一像素点的第一语义分割结果进行调整，得到所述第一像素点的第二语义分割结果，包括：

6.根据权利要求4或5所述的方法，其特征在于，所述方法还包括：

7.根据权利要求1至6任一所述的方法，其特征在于，所述确定所述第一图像的目标位置区域的第一语义分割结果，包括：

8.根据权利要求7所述的方法，其特征在于，所述基于所述第二图像的目标位置区域的位置范围、所述第一图像中所述初始位置区域的位置范围以及所述初始语义分割结果，确定所述第一图像的目标位置区域的第一语义分割结果，包括：

9.根据权利要求8所述的方法，其特征在于，所述基于所述第一图像的初始语义分割结果，确定所述第一图像的更新位置区域，包括：

10.根据权利要求8或9所述的方法，其特征在于，所述基于所述第二图像的目标位置区域的位置范围以及所述第一图像的更新位置区域的位置范围，确定所述第一图像的目标位置区域，包括：

11.根据权利要求10所述的方法，其特征在于，所述确定所述第二图像的目标位置区域的位置范围和所述更新位置区域的位置范围在所述第一图像中的区域重叠率，包括：

获取所述第二图像的目标位置区域和所述更新位置区域在所述第一图像中的交集面积和并集面积；

12.根据权利要求9所述的方法，其特征在于，所述初始语义分割结果包括所述像素点分别属于各目标类别的初始概率值；

13.根据权利要求1至12任一所述的方法，其特征在于，所述第一图像的第二语义分割结果包括所述第一图像中各像素点分别属于各目标类别的第二概率值；

14.一种视频处理装置，其特征在于，包括：

15.一种电子设备，其特征在于，包括：处理器、存储器和总线，所述存储器存储有所述处理器可执行的机器可读指令，当电子设备运行时，所述处理器与所述存储器之间通过总线通信，所述机器可读指令被所述处理器执行时执行如权利要求1至13任一所述的视频处理方法的步骤。

16.一种计算机可读存储介质，其特征在于，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行如权利要求1至13任一所述的视频处理方法的步骤。