CN112800850A

CN112800850A - 一种视频处理方法、装置、电子设备及存储介质

Info

Publication number: CN112800850A
Application number: CN202011632460.8A
Authority: CN
Inventors: 程俊奇; 四建楼; 吴尧
Original assignee: Shanghai Sensetime Intelligent Technology Co Ltd
Current assignee: Shanghai Sensetime Intelligent Technology Co Ltd
Priority date: 2020-12-31
Filing date: 2020-12-31
Publication date: 2021-05-14
Anticipated expiration: 2040-12-31
Also published as: CN112800850B

Abstract

本公开提供了一种视频处理方法、装置、电子设备及存储介质，其中，该视频处理方法包括：获取实时视频流；所述实时视频流中包括当前帧的第一图像和上一帧的第二图像；确定所述第一图像的目标位置区域的第一语义分割结果，以及，获取所述第二图像的第二语义分割结果；基于所述第一语义分割结果和所述第二图像的第二语义分割结果，确定所述第一图像的第二语义分割结果。

Description

一种视频处理方法、装置、电子设备及存储介质

技术领域

本公开涉及视频处理技术领域，具体而言，涉及一种视频处理方法、装置、电子设备及存储介质。

背景技术

在一些应用场景中，比如直播、在线会议、以及自动驾驶领域，常常需要对实时获取的视频流进行语义分割处理，以区分出视频流中包含的目标对象。

在对视频流进行语义分割处理时，可以将视频流中的图像作为图像输入预先训练的图片语义分割模型中进行语义分割，得到每帧图像的语义分割结果，这种方式可以识别出单帧图像中包含的目标对象。

由于图片语义分割模型会存在一定的误差，在针对不同帧图像中的细节进行语义分割处理时得到的分割结果的精度可能不同，这样视频流中的相邻两帧图像的语义分割结果会出现不同，比如相邻两帧图像中同一目标对象的轮廓在一帧图像中的轮廓为直线，在后一帧图像中的轮廓为曲线，从而带来视觉上的抖动，因此目前亟需提供一种针对实时视频流的语义分割方式。

发明内容

本公开实施例至少提供一种视频处理方案。

第一方面，本公开实施例提供了一种视频处理方法，包括：

获取实时视频流；所述实时视频流中国包括当前帧的第一图像和上一帧的第二图像；

确定所述第一图像的目标位置区域的第一语义分割结果，以及，获取所述第二图像的第二语义分割结果；

基于所述第一语义分割结果和所述第二图像的第二语义分割结果，确定所述第一图像的第二语义分割结果。

本公开实施例中，考虑到视频流中相邻两帧图像之间的采集时间间隔较短，因此相邻两帧图像之间存在相同的分割目标，这样在确定当前帧的第二语义分割结果时，可以结合上一帧图像的第二语义分割结果来进行确定，从而可以提高相邻两帧图像的时空域稳定性，降低目标类别的预测误差带来的帧间抖动的问题，以达到优化视觉效果的作用。

在一种可能的实施方式中，所述确定所述第一图像的目标位置区域的第一语义分割结果，包括：

获取所述第二图像的目标位置区域的位置范围，并从所述第一图像中截取与所述第二图像的目标位置区域的位置范围匹配的初始位置区域；

确定所述第一图像中所述初始位置区域的初始语义分割结果；

基于所述第二图像的目标位置区域的位置范围、所述第一图像中所述初始位置区域的位置范围以及所述初始语义分割结果，确定所述第一图像的目标位置区域的第一语义分割结果。

本公开实施例中，考虑到相邻帧之间的采集时间间隔较短，因此可以通过上一帧的第二图像的目标位置区域在当前帧的第一图像中选择分割目标的占比尺寸符合要求的目标位置区域，这样在选择出分割目标的占比尺寸符合要求的初始位置区域后，一方面在使用语义分割模型确定初始语义分割结果时，可以提高确定的初始语义分割结果的准确度，另一方面，因为初始位置区域是基于上一帧的第二图像的目标位置区域确定的，因此两者之间具有关联性，这样便于提高得到的视频流中相邻帧图像之间的语义分割结果的连贯性。

在一种可能的实施方式中，所述基于所述第二图像的目标位置区域的位置范围、所述第一图像中所述初始位置区域的位置范围以及所述初始语义分割结果，确定所述第一图像的目标位置区域的第一语义分割结果，包括：

基于所述初始位置区域的所述初始语义分割结果和所述第一图像除所述初始位置区域之外的其它位置区域在所述第二图像中对应的第二语义分割结果，得到所述第一图像的初始语义分割结果；

基于所述第一图像的初始语义分割结果，确定所述第一图像的更新位置区域；

基于所述第二图像的目标位置区域的位置范围、所述第一图像的更新位置区域的位置范围，确定所述第一图像的目标位置区域；

从所述第一图像的初始语义分割结果中选取所述第一图像的目标位置区域对应的初始语义分割结果，作为所述第一图像的目标位置区域的第一语义分割结果。

本公开实施例中，考虑到第一图像相比第二图像中的目标位置区域会有一定变化，比如前景区域可能发生位置偏移，因此在得到初始位置区域后，还会结合初始位置区域的初始语义分割结果和初始位置区域之外的位置区域在第二图像中的第二语义分割结果，来得到第一图像的更新位置区域，进一步可以根据更新位置区域和第二图像的目标位置区域确定第一图像的目标位置区域是否发生较大偏移，从而得到准确的第一图像的目标位置区域以及该目标位置区域的第一语义分割结果。

在一种可能的实施方式中，所述基于所述第一图像的初始语义分割结果，确定所述第一图像的更新位置区域，包括：

根据所述第一图像中各像素点分别对应的初始语义分割结果，确定所述第一图像中各像素点分别对应的标签信息；所述标签信息用于指示所述像素点所属目标类别；

基于所述第一图像中各像素点分别对应的所述标签信息和预选标签信息，从所述第一图像中确定出所述更新位置区域。

本公开实施例中，提出可以基于第一图像的初始语义分割结果，得到与当前帧第一图像匹配度较高的更新位置区域。

在一种可能的实施方式中，所述基于所述第二图像的目标位置区域的位置范围以及所述第一图像的更新位置区域的位置范围，确定所述第一图像的目标位置区域，包括：

确定所述第二图像的目标位置区域的位置范围和所述更新位置区域的位置范围在所述第一图像中的区域重叠率；

在所述区域重叠率小于设定重叠率阈值的情况下，将所述更新位置区域作为所述第一图像的目标位置区域；

在所述区域重叠率大于或等于所述设定重叠率阈值的情况下，将所述第一图像的所述初始位置区域作为所述第一图像的目标位置区域。

本公开实施例中，提出基于第二图像的目标位置区域和更新位置区域在第一图像中区域重叠率来确定第一图像的目标位置区域，一方面在分割目标在视频流中的位置变化较大时，可以得到第一图像中占比尺寸较为合适的目标位置区域，另一方面，在分割目标在视频流中的位置变化较小时，通过保持前一帧图像的目标位置区域对应的位置范围，可以在保持占比尺寸较为合适的情况下，提高视频流中分割结果得连贯性。

在一种可能的实施方式中，所述确定所述第二图像的目标位置区域的位置范围和所述更新位置区域的位置范围在所述第一图像中的区域重叠率，包括：

获取所述第二图像的目标位置区域和所述更新位置区域在所述第一图像中的交集面积以及并集面积；

将所述交集面积和所述并集面积的比值，作为所述区域重叠率。

本公开实施例中，通过第二图像的目标位置区域和更新位置区域之间的交集面积和并集面积，可以快速确定出第二图像的目标位置区域和更新位置区域的区域重叠率。

在一种可能的实施方式中，所述初始语义分割结果包括所述像素点分别属于各目标类别的初始概率值；

所述根据所述第一图像中各像素点分别对应的初始语义分割结果，确定所述第一图像中各像素点分别对应的标签信息，包括：

针对所述第一图像中的各所述像素点，从所述像素点分别属于各类别的初始概率值中筛选最大初始概率值；

将所述最大初始概率值对应的目标类别，作为所述像素点对应的标签信息。

本公开实施例中，通过筛选最大初始概率值指示的目标类别的标签信息，作为该像素点对应的标签信息，可以得到该像素点对应的准确度较高的标签信息，从而便于基于准确度较高的标签信息，为后续生成准确度较高的更新位置区域提供准备。

在一种可能的实施方式中，所述基于所述第一语义分割结果和所述第二图像的第二语义分割结果，确定所述第一图像的第二语义分割结果，包括：

基于所述第一语义分割结果以及所述第二图像的第二语义分割结果，确定所述第一图像的目标位置区域的第二语义分割结果；

基于所述第一图像的目标位置区域的第二语义分割结果以及所述第二图像中参照位置区域的第二语义分割结果，得到所述第一图像的第二语义分割结果；

其中，所述参照位置区域为与所述第一图像的目标位置区域以外的位置区域匹配的位置区域。

本公开实施例中，在得到第一图像中的目标位置区域的第二语义分割结果后，可以结合前一帧第二图像中与第一图像的目标位置区域以外的位置区域匹配的位置区域的第二语义分割结果，准确快速的得到第一图像的第二语义分割结果，为后续进行视频处理提供支持。

在一种可能的实施方式中，所述基于所述第一语义分割结果和所述第二图像的第二语义分割结果，确定所述第一图像的目标位置区域的第二语义分割结果，包括：

针对所述第一图像的目标位置区域内任一第一像素点，根据所述第一像素点的第一语义分割结果以及与所述第一像素点间隔预设位置范围内的其它像素点的第一语义分割结果，确定所述第一像素点的更新语义分割结果；

基于所述第一像素点的更新语义分割结果、以及在所述第二图像中与所述第一像素点匹配的第二像素点的第二语义分割结果，确定所述第一像素点的第二语义分割结果。

本公开实施例中，提出针对第一图像中的目标位置区域内的任一第一像素点，可以根据该第一像素点对应的第一语义分割结果和与该第一像素点间隔预设范围内的其它像素点的第一语义分割结果对该第一像素点的第一语义分割结果进行更新，可以得到准确度更高的更新语义分割结果。

在一种可能的实施方式中，所述基于所述第一像素点的更新语义分割结果、以及在所述第二图像中与所述第一像素点匹配的第二像素点的第二语义分割结果，确定所述第一像素点的第二语义分割结果，包括：

确定所述第一像素点的更新语义分割结果的第一置信度，以及确定所述第二像素点的第二语义分割结果的第二置信度；

基于所述第一置信度、所述第二置信度和预设置信度阈值，确定所述第一像素点的更新语义分割结果与所述第二像素点的第二语义分割结果之间的第一平滑系数；

基于所述第一平滑系数，将所述第一像素点的更新语义分割结果与所述第二像素点的第二语义分割结果之间进行平滑处理，得到所述第一像素点的第二语义分割结果。

本公开实施例中，提出可以根据确定出的第一平滑系数对第一像素点的更新语义分割结果和与该第一像素点对应的第二像素点的第二语义分割结果进行平滑处理，从而可以使得相邻两帧图像中对应位置上的像素点的语义分割结果平缓过渡，降低视觉上的抖动，提高用户体验。

在一种可能的实施方式中，所述基于所述第一置信度、所述第二置信度和预设置信度阈值，确定所述第一像素点的更新语义分割结果与所述第二像素点的第二语义分割结果之间的第一平滑系数，包括：

在所述第一置信度大于所述预设置信度阈值的情况下，基于预设的第二平滑系数和所述第一置信度，得到所述第一平滑系数；

在所述第一置信度小于所述预设置信度阈值，且所述第二置信度大于所述预设置信度阈值的情况下，基于所述第二平滑系数和所述第二置信度，得到所述第一平滑系数；

在所述第一置信度和所述第二置信度均小于或等于所述预设置信度阈值的情况下，确定所述第一平滑系数为预设平滑系数值。

本公开实施例中，通过分别比较第一置信度和第二置信度与预设置信度阈值之间的关系，选择合适的第一平滑系数，从而可以适应性地对第一像素点的更新语义分割结果和与该第一像素点对应的第二像素点的第二语义分割结果进行平滑处理。

在一种可能的实施方式中，所述第一图像的第二语义分割结果包括所述第一图像中各像素点分别属于各目标类别的第二概率值；

在确定所述第一图像的第二语义分割结果之后，所述方法还包括：

根据所述第一图像中各像素点分别属于各目标类别的第二概率值，从所述第一图像中分割出属于指定目标类别的像素点所在的目标类别区域。

本公开实施例中，在得到第一图像准确度较高的第二语义分割结果后，可以准确地从第一图像中分割出用户关注的指定目标类别区域。

第二方面，本公开实施例提供了一种视频处理装置，包括：

获取模块，用于获取实时视频流；所述实时视频流中包括当前帧的第一图像和上一帧的第二图像；

第一确定模块，用于确定所述第一图像的目标位置区域的第一语义分割结果，以及，获取所述第二图像的第二语义分割结果；

第二确定模块，用于基于所述第一语义分割结果和所述第二图像的第二语义分割结果，确定所述第一图像的第二语义分割结果。

第三方面，本公开实施例提供了一种电子设备，包括：处理器、存储器和总线，所述存储器存储有所述处理器可执行的机器可读指令，当电子设备运行时，所述处理器与所述存储器之间通过总线通信，所述机器可读指令被所述处理器执行时执行如第一方面所述的视频处理方法的步骤。

第四方面，本公开实施例提供了一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行如第一方面所述的视频处理方法的步骤。

为使本公开的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本公开实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，此处的附图被并入说明书中并构成本说明书中的一部分，这些附图示出了符合本公开的实施例，并与说明书一起用于说明本公开的技术方案。应当理解，以下附图仅示出了本公开的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1示出了本公开实施例所提供的一种视频处理方法的流程图；

图2示出了本公开实施例所提供的一种确定第一图像的目标位置区域的第一语义分割结果的方法流程图；

图3示出了本公开实施例所提供的一种具体确定第一图像的目标位置区域的第一语义分割结果的方法流程图；

图4示出了本公开实施例所提供的一种确定区域重叠率的示意图；

图5示出了本公开实施例所提供的一种确定第一图像的第二语义分割结果的方法流程图；

图6示出了本公开实施例所提供的一种确定第一图像的目标位置区域中各第一像素点的第一语义分割结果的方法流程图；

图7示出了本公开实施例所提供的一种视频处理装置的结构示意图；

图8示出了本公开实施例所提供的一种电子设备的示意图。

具体实施方式

为使本公开实施例的目的、技术方案和优点更加清楚，下面将结合本公开实施例中附图，对本公开实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本公开一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本公开实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本公开的实施例的详细描述并非旨在限制要求保护的本公开的范围，而是仅仅表示本公开的选定实施例。基于本公开的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本公开保护的范围。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

本文中术语“和/或”，仅仅是描述一种关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中术语“至少一种”表示多种中的任意一种或多种中的至少两种的任意组合，例如，包括A、B、C中的至少一种，可以表示包括从A、B和C构成的集合中选择的任意一个或多个元素。

针对语义分割场景，一般可以采用预先训练得图片语义分割模型对单帧图像中的像素点对应的类别进行预测，确定出像素点属于每种预设类别的概率值，然后基于概率值确定出像素点的类别，即可以得到像素点对应的语义分割结果。

在一些场景下，需要对实时视频流中的图像进行语义识别，以完成特定的应用需求，比如更换背景区域或者虚化背景，这就需要对实时视频流中的每帧图像进行语义分割，确定出背景区域，在通过图片语义分割模型对单帧图像进行语义分割时，会存在一定的误差，在针对不同帧图像中的细节进行语义分割处理时得到的分割结果的精度可能不同，这样视频流中的相邻两帧图像的语义分割结果会出现不同，比如相邻两帧图像中同一目标对象的轮廓在一帧图像中的轮廓为直线，在后一帧图像中的轮廓为曲线，从而带来视觉上的抖动，因此目前亟需提供一种针对实时视频流的语义分割方式。

基于上述研究，本公开提供了一种视频处理方法，考虑到视频流中相邻两帧图像之间的采集时间间隔较短，因此相邻两帧图像之间存在相同的分割目标，这样在确定当前帧的第二语义分割结果时，可以结合上一帧图像的第二语义分割结果来进行确定，从而可以提高相邻两帧图像的时空域稳定性，降低目标类别的预测误差带来的帧间抖动的问题，以达到优化视觉效果的作用。

为便于对本实施例进行理解，首先对本公开实施例所公开的一种视频处理方法进行详细介绍，本公开实施例所提供的视频处理方法的执行主体一般为具有一定计算能力的计算机设备，该计算机设备例如包括：终端设备或服务器或其它处理设备，终端设备可以为用户设备(User Equipment，UE)、移动设备、用户终端、手持设备、计算设备、车载设备等。在一些可能的实现方式中，该视频处理方法可以通过处理器调用存储器中存储的计算机可读指令的方式来实现。

参见图1所示，为本公开实施例提供的视频处理方法的流程图，该视频处理方法包括以下S101～S103：

S101，获取实时视频流；实时视频流中包括当前帧的第一图像和上一帧的第二图像。

示例性地，实时视频流可以包含多种应用场景下的视频流，比如可以是直播场景下的实时视频流、可以是在线会议下的实时视频流，在此不做具体限定。

示例性地，实时视频流包含按照设定时间间隔采集的图像，当前帧的第一图像和上一帧的第二图像为相邻时间点采集得到的两帧图像。

S102，确定第一图像的目标位置区域的第一语义分割结果，以及，获取第二图像的第二语义分割结果。

示例性地，第一图像的目标位置区域可以指第一图像中的部分位置区域，也可以指第一图像完整的位置区域。

示例性地，在第一图像的目标位置区域属于第一图像完整的位置区域的情况下，可以将第一图像输入预先训练的用于语义分割的目标神经网络中，得到第一图像的目标位置区域的第一语义分割结果；在第一图像的目标位置区域为第一图像中的部分位置区域的情况下，可以将第一图像的目标位置区域输入预先训练的用于进行语义分割的目标神经网络中，得到第一图像的目标位置区域的第一语义分割结果。

示例性地，第一语义分割结果是基于预先训练的用于语义分割的目标神经网络针对单帧图像进行预测得到的，考虑到在训练目标神经网络时是基于单帧图像进行训练的，目标神经网络在预测实时视频流中的图像时，容易因预测精度问题导致相邻帧图像之间原本属于相同目标类别的像素点的被预测为不同的目标类别，这样使得相邻图像之间发生抖动，造成语义分割结果的不连贯，因此后续需要对该第一语义分割结果进行调整，以得到准确度较高的第二语义分割结果。

示例性地，第二图像的第二语义分割结果可以预先确定，在第二图像不是视频流中的首帧图像时，其确定方式与确定第一图像中的第二语义分割结果的方式相同，本文重点介绍确定第一图像的第二语义分割结果的过程。在第二图像是视频流中的首帧图像时，可以通过预先训练的用于语义分割的目标神经网络来确定，在此不进行赘述。

示例性地，第一图像的目标位置区域的第一语义分割结果可以通过第一图像的目标位置区域内的第一像素点属于目标类别的第一概率值来表示，目标类别可以为预先设定的至少一种类别，比如一帧图像中可以包含用户关注的前景类别和用户不关注的背景类别，这里的目标类别可以包括前景类别和背景类别，获取的第一像素点属于目标类别的第一概率值可以包括属于前景类别的第一概率值和属于背景类别的第一概率值。

S103，基于第一语义分割结果和第二图像的第二语义分割结果，确定第一图像的第二语义分割结果。

示例性地，在第一图像的目标位置区域为第一图像中的部分区域时，这里的第二图像的第二语义分割结果也可以是第二图像中的部分区域的第二语义分割结果，第二图像中的部分区域和第一图像的目标位置区域在相同坐标系下的位置区域相同，因为第二图像和第一图像的尺寸相同，可以针对每帧图像建立像素坐标系，相邻两帧图像中，在像素坐标系中的位置范围相同的区域的语义分割结果相同的概率较高，因此这里可以选择第二图像中与第一图像的目标位置区域在相同坐标系下相同的部分区域的第二语义分割结果，来确定第一图像的第二语义分割结果。

考虑到实时视频流中，不同帧图像中的待进行语义分割的分割目标的区域在不断变化，预先训练的用于语义分割的目标神经网络可能需要同时处理不同大小占比的分割目标，而目标神经网络的训练数据大多为分割目标占比符合预设要求的图像，比如预设要求可以为分割目标的占比大于或等于预设占比，因此，在通过目标神经网络预测分割目标占比较小的图像，会存在出现边界锯齿，前景缝隙缺失等现象，因此本公开实施例提出可以通过在实时视频流中的图像中筛选分割目标的大小占比符合要求的区域。

示例性地，分割目标是指需要进行语义分割的目标，比如指用户关注的前景，比如针对道路场景相关的视频流中的车辆进行识别，则分割目标为车辆，针对道路场景相关的视频流中的行人进行识别，则分割目标为行人，分割目标的占比是指分割目标的尺寸和分割目标所在的图像的尺寸的比例，下面将详细介绍如何筛选分割目标的大小占比符合要求的区域。

针对上述S102，当第一图像的目标位置区域为第一图像的部分区域时，在确定第一图像的目标位置区域的第一语义分割结果时，如图2所示，可以包括以下S201～S203：

S201，获取第二图像的目标位置区域的位置范围，并从第一图像中截取与第二图像的目标位置区域的位置范围匹配的初始位置区域。

示例性地，目标位置区域可以为分割目标的占比符合预设要求的区域，在第二图像为实时视频流的非首帧图像的情况下，确定第二图像的目标位置区域的方式与以下确定第一图像的目标位置区域的方式相同，在此不再赘述。

在第二图像为实时视频流的首帧图像的情况下，可以根据以下方式确定第二图像的目标位置区域，具体包括以下S2011～S2013：

S2011，通过目标神经网络对第二图像中的各像素点进行类别预测，确定第二图像中的各像素点属于目标类别的第二概率值。

示例性地，以对视频流中的图像进行二分类预测为例，确定视频流中的图像属于前景的像素点以及属于背景的像素点，可以将第二图像输入目标神经网络进行类别预测，得到第二图像中的各像素点属于前景的第二概率值和属于背景的第二概率值。

S2012，根据第二图像中的各像素点对应的第二概率值，确定第二图像中的各像素点对应的用于指示目标类别的标签信息。

示例性地，标签信息可以通过one-hot向量形式表示，该one-hot向量的维度与图像中目标类别的个数相同，比如目标类别总共包括两种，分别为前景类别和背景类别，则这里的one-hot向量为二维向量，每个维度对应一种目标类别，具体地，one-hot向量中维度与目标类别的对应关系可以预先设定，比如one-hot向量中，第一个维度对应前景类别，第二个维度对应背景类别，当可以预先设置前景的标签信息和背景的标签信息，比如前景标签信息通过[1 0]表示前景类别，通过[0 1]表示背景类别。

示例性地，在确定其中一个像素点对应的用于指示目标类别的标签信息的过程中，若该像素点属于前景的第二概率值大于属于背景的第二概率值，该像素点对应的标签信息用于指示前景，可以通过[1 0]表示，反之，该像素点对应的标签信息用于指示背景，可以通过[0 1]表示。

S2013，基于第二图像中的各像素点对应的标签信息和预选标签信息，得到第二图像的目标位置区域。

示例性地，预选标签信息具体指用于选择分割目标的标签信息，比如分割目标为前景，则这里的预选标签信息[1 0]，这样可以通过连通域搜索的方式，在前一帧图像中的像素点对应的标签信息中选择和预选标签信息相同的标签信息构成的最大连通区域的外接检测框，作为第二图像的目标位置区域，按照该方式可以选择分割目标占比符合要求的区域，比如分割目标占比大于设定比例的区域。

示例性地，目标位置区域为矩形检测框，在得到第二图像的目标位置区域后，可以根据该矩形检测框在第二图像的像素坐标系中的位置范围，在第一图像对应的像素坐标系中截取与该位置范围匹配的初始位置区域。

S202，确定第一图像中初始位置区域的初始语义分割结果。

示例性地，可以将第一图像中截取下来的初始位置区域输入目标神经网络进行类别预测，得到第一图像中初始位置区域中的各像素点属于目标类别的初始概率值，比如上述提到的属于前景的初始概率值和属于背景的初始概率值。

S203，基于第二图像的目标位置区域的位置范围、第一图像中初始位置区域的位置范围以及初始语义分割结果，确定第一图像的目标位置区域的第一语义分割结果。

示例性地，考虑到第一图像中的分割目标相比第二图像中的分割目标在图像中的相对位置可能发生了偏移，比如第一图像中的前景区域位于第一图像中的中心偏左区域，而第二图像中的前景区域位于第二图像的中心偏右区域，在发生偏移的情况下，若偏移的情况比较严重，如果直接将第一图像的初始位置区域作为目标位置区域，可能无法得到第一图像准确的第二语义分割结果，因此需要基于第一图像中初始位置区域的初始语义分割结果，来确定是否需要重新获取第一图像的更新位置区域，并最终得到第一图像的目标位置区域以及该目标位置区域的第一语义分割结果。

具体地，针对S203，在基于第二图像的目标位置区域的位置范围、第一图像中初始位置区域的位置范围以及初始语义分割结果，确定第一图像的目标位置区域的第一语义分割结果时，如图3所示，可以包括以下S301～S304：

S301，基于初始位置区域的初始语义分割结果和第一图像除初始位置区域之外的其它位置区域在第二图像中对应的第二语义分割结果，得到第一图像的初始语义分割结果。

示例性地，在得到初始位置区域的初始语义分割结果后，可以将初始位置区域贴回第一图像，然后将该初始位置区域的初始语义分割结果以及初始位置区域之外的其它位置区域在第二图像中对应的第二语义分割结果，作为第一图像的初始语义分割结果。

S302，基于第一图像的初始语义分割结果，确定第一图像的更新位置区域。

示例性地，根据第一图像的初始语义分割结果生成更新区域的过程，与上述得到首帧图像对应的目标位置区域的方式相似，在此不再赘述。

具体地，针对S302，在基于第一图像的初始语义分割结果，确定第一图像的更新位置区域时，包括以下S3021～S3022：

S3021，根据第一图像中各像素点分别对应的初始语义分割结果，确定第一图像中各像素点分别对应的标签信息；标签信息用于指示像素点所属目标类别；

示例性地，初始语义分割结果包括各像素点分别属于各目标类别的初始概率值，比如上述提到的各像素点分别属于前景的初始概率值和属于背景的初始概率值。

具体地，在根据第一图像中各像素点分别对应的初始语义分割结果，确定第一图像中各像素点分别对应的标签信息时，包括以下S30211～S30212：

S30211，针对第一图像中的各像素点，从像素点分别属于各类别的初始概率值中筛选最大初始概率值；

S30212，将最大初始概率值对应的目标类别，作为像素点对应的标签信息。

具体过程详见上文提到的在第二图像为首帧图像时，确定第二图像中各的像素点对应的标签信息的过程，在此不再赘述。

通过筛选最大初始概率值指示的目标类别的标签信息，作为该像素点对应的标签信息，可以得到该像素点对应的准确度较高的标签信息，从而便于基于准确度较高的标签信息，为后续生成准确度较高的更新位置区域提供准备。

S3022，基于第一图像中各像素点分别对应的标签信息和预选标签信息，从第一图像中确定出更新位置区域。

其中，在将初始位置区域贴回第一图像后，第一图像中各像素点包括初始位置区域中的各像素点以及初始位置区域之外的其它位置区域中的各像素点，因此第一图像中各像素点的标签信息包括初始位置区域中的各像素点的标签信息和初始位置区域之外的其它位置区域中的各像素点的标签信息。

进一步可以按照与上文提到的在第二图像为首帧图像时，确定第二图像的目标位置区域的过程，确定第一图像对应的更新位置区域，在此不再赘述。

S303，基于第二图像的目标位置区域的位置范围、第一图像的更新位置区域的位置范围，确定第一图像的目标位置区域。

示例性地，考虑到在实时视频流采集的图像中，相邻两帧图像之间的采集时间间隔较短，因此分割目标的位置变化可能较小，因此为了保持实时视频流相邻两帧图像之间语义分割结果的连贯性，一般情况下，当第二图像的目标位置区域和更新位置区域之间得面积重叠率符合一定要求时，可以将基于第二图像的目标位置区域确定的初始位置区域作为第一图像的目标位置区域，否则，需要基于更新位置区域对初始位置区域进行更新，得到第一图像的目标位置区域。

S304，从第一图像的初始语义分割结果中选取第一图像的目标位置区域对应的初始语义分割结果，作为第一图像的目标位置区域的第一语义分割结果。

本公开实施例中，考虑到第一图像相比第二图像中的目标位置区域，比如前景区域可能发生位置偏移，因此在得到初始位置区域后，还会结合初始位置区域的初始语义分割结果和初始位置区域之外的位置区域在第二图像中的第二语义分割结果，来得到第一图像的更新位置区域，进一步可以根据更新位置区域和第二图像的目标位置区域确定第一图像的目标位置区域是否发生较大偏移，从而得到准确的第一图像的目标位置区域以及该目标位置区域的第一语义分割结果。

具体地，针对上述S303，在基于第二图像的目标位置区域的位置范围、第一图像的更新位置区域的位置范围，确定第一图像的目标位置区域时，包括以下S3031～S3032：

S3031，确定第二图像的目标位置区域的位置范围和更新位置区域的位置范围在第一图像中的区域重叠率。

示例性地，第二图像的目标位置区域和更新位置区域均为矩形检测框，可以通过两个矩形检测框在同一帧图像中的重叠面积确定该区域重叠率。

具体地，在确定第二图像的目标位置区域的位置范围和更新位置区域的位置范围在第一图像中的区域重叠率时，包括以下S30311～S30312：

S30311，获取第二图像的目标位置区域和更新位置区域在第一图像中的交集面积和并集面积；

S30312，将交集面积和并集面积的比值，作为区域重叠率。

示例性地，如图4所示，第二图像的目标位置区域可以通过矩形检测框ABCD表示，更新位置区域可以通过矩形检测框EFGH表示，其中矩形检测框ABCD和矩形检测框EFGH的交集面积如图4中矩形框MBNH的面积，矩形检测框ABCD和矩形检测框EFGH的并集面积如图4中多边形AMEFGNCD的面积。

进一步地，在得到交集面积和并集面积后，将交集面积和并集面积的比值，作为区域重叠率。

本公开实施例中，通过第一目标位置区域和更新位置区域之间的交集面积和并集面积，可以快速确定出第一目标位置区域和更新位置区域的区域重叠率。

S3032，在区域重叠率小于设定重叠率阈值的情况下，将更新位置区域作为第一图像的目标位置区域。

S3033，在区域重叠率大于或等于设定重叠率阈值的情况下，将第一图像的初始位置区域作为第一图像的目标位置区域。

示例性地，可以预先根据大数据统计设定重叠率阈值，在区域重叠率小于设定重叠率阈值的情况下，说明分割目标在第一图像中的位置范围相比在第二图像中位置范围的变动较大，因此需要将更新位置区域作为第一图像的目标位置区域进行后续处理，反之，在区域重叠率大于或等于设定重叠率阈值的情况下，可以直接将基于第二图像的目标位置区域确定的初始位置区域作为第一图像的目标位置区域，以保持视频流中分割结果得连贯性。

在一种实施方式中，针对上述S103，在基于第一语义分割结果和第二图像的第二语义分割结果，确定第一图像的第二语义分割结果时，如图5所示，包括以下S401～S402：

S401，基于第一语义分割结果以及第二图像的第二语义分割结果，确定第一图像的目标位置区域的第二语义分割结果。

S402，基于第一图像的目标位置区域的第二语义分割结果以及第二图像中参照位置区域的第二语义分割结果，得到第一图像的第二语义分割结果。

其中，参照位置区域为与第一图像的目标位置区域以外的位置区域匹配的位置区域。

示例性地，第一图像的目标位置区域的第一语义分割结果包括第一图像的目标位置区域中各第一像素点分别对应得第一语义分割结果，第二图像的第二语义分割结果包括第二图像中各像素点分别对应得第二语义分割结果，在确定第一图像的第二语义分割结果时，可以在第二图像中提取与第一图像的目标位置区域中各第一像素点在相同像素坐标系中具有相同位置坐标的第二像素点，然后根据各第一像素点的第一语义分割结果，以及与各第一像素点具有相同位置坐标的第二像素点的第二语义分割结果，可以得到第一图像的目标位置区域的第二语义分割结果。

示例性地，在得到第一图像的目标位置区域的第二语义分割结果后，可以将第一图像的目标位置区域粘贴回第一图像中，然后将该第一图像的目标位置区域的第二语义分割结果以及目标位置区域之外的其它位置区域在第二图像中对应的第二语义分割结果，作为第一图像的第二语义分割结果。

本公开实施例中，在得到第一图像中的目标位置区域的第二语义分割结果后，可以结合前一帧第二图像中与第一图像的目标位置区域以外的位置区域匹配的位置区域的第二语义分割结果，准确快速的得到第一图像的第二语义分割结果，为后续帧进行视频处理提供支持。

在一种实施方式中，针对上述S401，在基于第一语义分割结果以及第二图像的第二语义分割结果，确定第一图像的目标位置区域的第二语义分割结果时，如图6所示，包括以下S501～S502：

S501，针对第一图像的目标位置区域内任一第一像素点，根据该第一像素点的第一语义分割结果以及与第一像素点间隔预设范围内的其它像素点对应的第一语义分割结果，确定第一像素点的更新语义分割结果。

示例性地，考虑到存在一些像素点与周围其它像素点的色彩特征、亮度特征以及纹理特征的变动较为剧烈，尤其是边界位置的像素点，在使用目标神经网络得到的这些像素点的语义分割结果的准确度不高，因此这里提出针对任一第一像素点，可以该第一像素点对应的第一语义分割结果和与该第一像素点间隔预设范围内的其它像素点对应的第一语义分割结果，对该第一像素点的第一语义分割结果进行更新，得到第一像素点的更新语义分割结果。

S502，基于第一像素点的更新语义分割结果、以及在第二图像中与第一像素点匹配的第二像素点的第二语义分割结果，确定第一像素点的第二语义分割结果。

示例性地，与第一像素点匹配的第二像素点是指与第一像素点在相同像素坐标系中位置坐标相同的第二像素点，可以针对第一图像和第二图像建立的相同的像素坐标系，这样可以根据像素点的像素坐标值来确定两个像素点是否为匹配的像素点，比如以第一图像中位置坐标为(m，n)的第一像素点为例，与该第一像素点对应的第二像素点为在第二图像中位置坐标同样为(m，n)的像素点。

示例性地，考虑到相邻两帧图像之间的间隔时间较短，因此，在相邻图像中位于同一位置坐标的两个像素点属于同一目标类别的概率较高，因此针对每个第一像素点，可以通过该第一像素点对应的更新语义分割结果和在第二图像中与该第一像素点匹配的第二像素点的第二语义分割结果，确定出第一像素点的第二语义分割结果。

具体地，针对上述S502，在基于第一像素点的更新语义分割结果、以及在第二图像中与第一像素点匹配的第二像素点的第二语义分割结果，确定第一像素点的第二语义分割结果时，包括以下S5021～S5023：

S5021，确定第一像素点的更新语义分割结果的第一置信度，以及确定第二像素点的第二语义分割结果的第二置信度。

示例性地，第一像素点的更新语义分割结果得第一置信度可以表征该第一像素点的更新语义分割结果的可靠程度，第二像素点的第二语义分割结果得第二置信度可以表征该第二像素点的第二语义分割结果的可靠程度具体可以根据以下公式(1)确定像素点属于目标类别的概率值的置信度：

C＝|p-0.5|+0.5 (1)；

其中，C表示置信度，p表示像素点的语义分割结果，可以通过属于目标类别的概率值表示，当p为该第一像素点的更新语义分割结果时，C表示该第一像素点的更新语义分割结果的第一置信度；当p为与该第二像素点的第二语义分割结果时，C表示该第二像素点的第二语义分割结果的第二置信度。

示例性地，当确定一个像素点属于前景的概率值为0.4，根据上述公式(1)，确定该概率值对应的置信度为0.6，可以认为该像素点属于前景的概率值的准确度一般；当确定一个像素点属于前景的概率值为0.05，根据上述公式(1)，确定该概率值对应的置信度为0.95，可以认为该像素点属于前景的概率值的准确度较高，即该概率值反应的像素点不属于前景这一结论可信度高。

S5022，基于第一置信度、第二置信度和预设置信度阈值，确定第一像素点的更新语义分割结果与第二像素点的第二语义分割结果之间的第一平滑系数。

示例性地，预设置信度阈值可以根据经验设定，用于结合第一置信度判断该第一像素点的更新语义分割结果的准确度；以及用于结合第二置信度判断第二像素点的第二语义分割结果的准确度，从而进一步为确定第一平滑系数提供依据。

比如，若第一置信度大于该预设置信度阈值，可以说明第一像素点的更新语义分割结果的可靠性较高，反之则说明第一像素点的更新语义分割结果的可靠性较低；若第二置信度大于该预设置信度阈值，可以说明第二像素点的第二语义分割结果的可靠性较高，反之则说明第二像素点的第二语义分割结果的可靠性较低。

S5023，基于第一平滑系数，将第一像素点的更新语义分割结果与第二像素点的第二语义分割结果之间进行平滑处理，得到第一像素点的第二语义分割结果。

示例性地，通过像素点属于目标类别的概率值表示语义分割结果时，可以根据以下公式(2)来确定在第一图像中的位置坐标为(i,j)的第一素点属于目标类别的第二概率值：

P_2(i,j)＝P_1(i,j)×(1-s)+p_2(i,j)×s (2)；

其中，p_2(i,j)表示在第一图像中的位置坐标为(i,j)的第一像素点属于目标类别的更新概率值；p_1(i,j)表示与第二像素点属于目标类别的第二概率值；P_2(i,j)表示位置坐标为(i,j)的第一像素点属于目标类别的第二概率值；s表示第一平滑系数。

具体地，在基于第一置信度、第二置信度和预设置信度阈值，确定第一像素点的更新语义分割结果与第二像素点的第二语义分割结果之间的第一平滑系数时，包括以下S50221～S50223：

S50221，在第一置信度大于预设置信度阈值的情况下，基于预设的第二平滑系数和第一置信度，得到第一平滑系数。

示例性地，在按照上述方式通过第一平滑系数对该第一像素点对应的更新概率值和与该第一素点对应的第二像素点属于目标类别的第二概率值进行平滑处理的过程中，第一平滑系数可以作为该第一像素点对应的更新概率值的权重。

如果在第一置信度大于预设置信度阈值，且第一置信度较大时，如果直接将该第一置信度作为第一平滑系数，这样在通过上述公式(2)进行平滑处理后得到的第一像素点属于目标类别的第二概率值会过分依赖该第一像素点对应的第一概率值，导致平滑处理效果不佳，因此这里引入第二平滑系数，来对第一平滑系数进行调整。

具体地，可以根据以下公式(3)确定第一平滑系数：

s＝C₁×d (3)；

其中，C₁表示第一置信度；d表示第二平滑系数。

S50222，在第一置信度小于预设置信度阈值，且第二置信度大于预设置信度阈值的情况下，基于第二平滑系数和第二置信度，得到第一平滑系数。

同样，在第一置信度小于预设置信度阈值，且第二置信度大于预设置信度阈值的情况下，如果第二置信度较大，为了抑制平滑处理后的结果过度依赖与该第二像素点属于目标类别的第二概率值，导致平滑处理效果不佳，因此这里同样引入第二平滑系数，来对第一平滑系数进行调整，可以根据以下公式(4)确定第一平滑系数：

s＝1-d×C₂ (4)；

其中，C₂表示第二置信度；d表示第二平滑系数。

S50222，在第一置信度和第二置信度均小于或等于预设置信度阈值的情况下，确定第一平滑系数为预设值。

示例性地，在不属于S50221和S50222的情况下，即在第一置信度和第二置信度均小于或等于预设置信度阈值的情况下，可以无需引入第二平滑系数进行抑制，此时可以将第一平滑系数直接设置为0.5。

示例性地，上述S50221～S50223在执行过程中不限定先后顺序。

在一种可能的实施方式中，第一图像的第二语义分割结果包括第一图像中各第一像素点分别属于各目标类别的第二概率值；

在确定第一图像的第二语义分割结果之后，视频处理方法还包括：

根据第一图像中各像素点分别属于各目标类别的第二概率值，从第一图像中分割出属于指定目标类别的像素点所在的目标类别区域。

示例性地，可以根据第一图像中各像素点分别属于各目标类别得第二概率值，确定出第一图像中各像素点对应的类别信息，然后可以在第一图像中分割出指定目标类别的像素点所在的目标类别区域，比如分割出前景区域。

本领域技术人员可以理解，在具体实施方式的上述方法中，各步骤的撰写顺序并不意味着严格的执行顺序而对实施过程构成任何限定，各步骤的具体执行顺序应当以其功能和可能的内在逻辑确定。

基于同一技术构思，本公开实施例中还提供了与视频处理方法对应的视频处理装置，由于本公开实施例中的装置解决问题的原理与本公开实施例上述视频处理方法相似，因此装置的实施可以参见方法的实施，重复之处不再赘述。

参照图7所示，为本公开实施例提供的一种视频处理装置600的示意图，该视频处理装置包括：

获取模块601，获取实时视频流；实时视频流中包括当前帧的第一图像和上一帧的第二图像；

第一确定模块602，确定第一图像的目标位置区域的第一语义分割结果，以及，获取第二图像的第二语义分割结果；

第二确定模块603，基于第一语义分割结果和第二图像的第二语义分割结果，确定第一图像的第二语义分割结果。

在一种可能的实施方式中，第一确定模块602在用于确定第一图像的目标位置区域的第一语义分割结果时，包括：

获取第二图像的目标位置区域的位置范围，并从第一图像中截取与第二图像的目标位置区域的位置范围匹配的初始位置区域；

确定第一图像中初始位置区域的初始语义分割结果；

基于第二图像的目标位置区域的位置范围、第一图像中初始位置区域的位置范围以及初始语义分割结果，确定第一图像的目标位置区域的第一语义分割结果。

在一种可能的实施方式中，第一确定模块602在用于基于第二图像的目标位置区域的位置范围、第一图像中初始位置区域的位置范围以及初始语义分割结果，确定第一图像的目标位置区域的第一语义分割结果时，包括：

基于初始位置区域的初始语义分割结果和第一图像除初始位置区域之外的其它位置区域在第二图像中对应的第二语义分割结果，得到第一图像的初始语义分割结果；

基于第一图像的初始语义分割结果，确定第一图像的更新位置区域；

基于第二图像的目标位置区域的位置范围、第一图像的更新位置区域的位置范围，确定第一图像的目标位置区域；

从第一图像的初始语义分割结果中选取第一图像的目标位置区域对应的初始语义分割结果，作为第一图像的目标位置区域的第一语义分割结果。

在一种可能的实施方式中，第一确定模块602基于第一图像的初始语义分割结果，确定第一图像的更新位置区域，包括：

根据第一图像中各像素点分别对应的初始语义分割结果，确定第一图像中各像素点分别对应的标签信息；标签信息用于指示像素点所属目标类别；

基于第一图像中各像素点分别对应的标签信息和预选标签信息，从第一图像中确定出更新位置区域。

在一种可能的实施方式中，第一确定模块602在用于基于第二图像的目标位置区域的位置范围以及第一图像的更新位置区域的位置范围，确定第一图像的目标位置区域，包括：

确定第二图像的目标位置区域的位置范围和更新位置区域的位置范围在第一图像中的区域重叠率；

在区域重叠率小于设定重叠率阈值的情况下，将更新位置区域作为第一图像的目标位置区域；

在区域重叠率大于或等于设定重叠率阈值的情况下，将第一图像的初始位置区域作为第一图像的目标位置区域。

在一种可能的实施方式中，第一确定模块602在用于确定第二图像的目标位置区域的位置范围和更新位置区域的位置范围在第一图像中的区域重叠率时，包括：

获取第二图像的目标位置区域和更新位置区域在第一图像中的交集面积和并集面积；

将交集面积和并集面积的比值，作为区域重叠率。

在一种可能的实施方式中，初始语义分割结果包括像素点分别属于各目标类别的初始概率值；

第一确定模块602在用于根据第一图像中各像素点分别对应的初始语义分割结果，确定第一图像中各像素点分别对应的标签信息时，包括：

针对第一图像中的各像素点，从像素点分别属于各类别的初始概率值中筛选最大初始概率值；

将最大初始概率值对应的目标类别，作为像素点对应的标签信息。

在一种可能的实施方式中，第二确定模块603在用于基于第一语义分割结果和第二图像的第二语义分割结果，确定第一图像的第二语义分割结果时，包括：

基于第一语义分割结果以及第二图像的第二语义分割结果，确定第一图像的目标位置区域的第二语义分割结果；

基于第一图像的目标位置区域的第二语义分割结果以及第二图像中参照位置区域的第二语义分割结果，得到第一图像的第二语义分割结果；

在一种可能的实施方式中，第二确定模块603基于第一语义分割结果和第二图像的第二语义分割结果，确定第一图像的目标位置区域的第二语义分割结果，包括：

针对第一图像的目标位置区域内任一第一像素点，根据第一像素点的第一语义分割结果以及与第一像素点间隔预设位置范围内的其它像素点的第一语义分割结果，确定第一像素点的更新语义分割结果；

基于第一像素点的更新语义分割结果、以及在第二图像中与第一像素点匹配的第二像素点的第二语义分割结果，确定第一像素点的第二语义分割结果。

在一种可能的实施方式中，第二确定模块603在用于基于第一像素点的更新语义分割结果、以及在第二图像中与第一像素点匹配的第二像素点的第二语义分割结果，确定第一像素点的第二语义分割结果时，包括：

确定第一像素点的更新语义分割结果的第一置信度，以及确定第二像素点的第二语义分割结果的第二置信度；

基于第一置信度、第二置信度和预设置信度阈值，确定第一像素点的更新语义分割结果与第二像素点的第二语义分割结果之间的第一平滑系数；

基于第一平滑系数，将第一像素点的更新语义分割结果与第二像素点的第二语义分割结果之间进行平滑处理，得到第一像素点的第二语义分割结果。

在一种可能的实施方式中，第二确定模块603在用于基于第一置信度、第二置信度和预设置信度阈值，确定第一像素点的更新语义分割结果与第二像素点的第二语义分割结果之间的第一平滑系数，包括：

在第一置信度大于预设置信度阈值的情况下，基于预设的第二平滑系数和第一置信度，得到第一平滑系数；

在第一置信度小于预设置信度阈值，且第二置信度大于预设置信度阈值的情况下，基于第二平滑系数和第二置信度，得到第一平滑系数；

在第一置信度和第二置信度均小于或等于预设置信度阈值的情况下，确定第一平滑系数为预设平滑系数值。

在一种可能的实施方式中，第一图像的第二语义分割结果包括第一图像中各像素点分别属于各目标类别的第二概率值；

在确定第一图像的第二语义分割结果之后，第二确定模块603还用于：

关于装置中的各模块的处理流程、以及各模块之间的交互流程的描述可以参照上述方法实施例中的相关说明，这里不再详述。

对应于图1中的视频处理方法，本公开实施例还提供了一种电子设备700，如图8所示，为本公开实施例提供的电子设备700结构示意图，包括：

处理器71、存储器72、和总线73；存储器72用于存储执行指令，包括内存721和外部存储器722；这里的内存721也称内存储器，用于暂时存放处理器71中的运算数据，以及与硬盘等外部存储器722交换的数据，处理器71通过内存721与外部存储器722进行数据交换，当电子设备700运行时，处理器71与存储器72之间通过总线73通信，使得处理器71执行以下指令：获取实时视频流；实时视频流中包括当前帧的第一图像和上一帧的第二图像；确定第一图像的目标位置区域的第一语义分割结果，以及，获取第二图像的第二语义分割结果；基于第一语义分割结果和第二图像的第二语义分割结果，确定第一图像的第二语义分割结果。

本公开实施例还提供一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行上述方法实施例中所述的视频处理方法的步骤。其中，该存储介质可以是易失性或非易失的计算机可读取存储介质。

本公开实施例还提供一种计算机程序产品，该计算机程序产品承载有程序代码，所述程序代码包括的指令可用于执行上述方法实施例中所述的视频处理方法的步骤，具体可参见上述方法实施例，在此不再赘述。

其中，上述计算机程序产品可以具体通过硬件、软件或其结合的方式实现。在一个可选实施例中，所述计算机程序产品具体体现为计算机存储介质，在另一个可选实施例中，计算机程序产品具体体现为软件产品，例如软件开发包(Software Development Kit，SDK)等等。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统和装置的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。在本公开所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本公开各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解，本公开的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本公开各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-OnlyMemory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上所述实施例，仅为本公开的具体实施方式，用以说明本公开的技术方案，而非对其限制，本公开的保护范围并不局限于此，尽管参照前述实施例对本公开进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本公开揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本公开实施例技术方案的精神和范围，都应涵盖在本公开的保护范围之内。因此，本公开的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种视频处理方法，其特征在于，包括：

获取实时视频流；所述实时视频流中包括当前帧的第一图像和上一帧的第二图像；

2.根据权利要求1所述的方法，其特征在于，所述确定所述第一图像的目标位置区域的第一语义分割结果，包括：

3.根据权利要求2所述的方法，其特征在于，所述基于所述第二图像的目标位置区域的位置范围、所述第一图像中所述初始位置区域的位置范围以及所述初始语义分割结果，确定所述第一图像的目标位置区域的第一语义分割结果，包括：

4.根据权利要求3所述的方法，其特征在于，所述基于所述第一图像的初始语义分割结果，确定所述第一图像的更新位置区域，包括：

5.根据权利要求3或4所述的方法，其特征在于，所述基于所述第二图像的目标位置区域的位置范围以及所述第一图像的更新位置区域的位置范围，确定所述第一图像的目标位置区域，包括：

6.根据权利要求5所述的方法，其特征在于，所述确定所述第二图像的目标位置区域的位置范围和所述更新位置区域的位置范围在所述第一图像中的区域重叠率，包括：

获取所述第二图像的目标位置区域和所述更新位置区域在所述第一图像中的交集面积和并集面积；

7.根据权利要求4所述的方法，其特征在于，所述初始语义分割结果包括所述像素点分别属于各目标类别的初始概率值；

8.根据权利要求1至7任一所述的方法，其特征在于，所述基于所述第一语义分割结果和所述第二图像的第二语义分割结果，确定所述第一图像的第二语义分割结果，包括：

9.根据权利要求8所述的方法，其特征在于，所述基于所述第一语义分割结果和所述第二图像的第二语义分割结果，确定所述第一图像的目标位置区域的第二语义分割结果，包括：

10.根据权利要求9所述的方法，其特征在于，所述基于所述第一像素点的更新语义分割结果、以及在所述第二图像中与所述第一像素点匹配的第二像素点的第二语义分割结果，确定所述第一像素点的第二语义分割结果，包括：

11.根据权利要求10所述的方法，其特征在于，所述基于所述第一置信度、所述第二置信度和预设置信度阈值，确定所述第一像素点的更新语义分割结果与所述第二像素点的第二语义分割结果之间的第一平滑系数，包括：

12.根据权利要求1至11任一所述的方法，其特征在于，所述第一图像的第二语义分割结果包括所述第一图像中各像素点分别属于各目标类别的第二概率值；

13.一种视频处理装置，其特征在于，包括：

14.一种电子设备，其特征在于，包括：处理器、存储器和总线，所述存储器存储有所述处理器可执行的机器可读指令，当电子设备运行时，所述处理器与所述存储器之间通过总线通信，所述机器可读指令被所述处理器执行时执行如权利要求1至12任一所述的视频处理方法的步骤。

15.一种计算机可读存储介质，其特征在于，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行如权利要求1至12任一所述的视频处理方法的步骤。