CN116797955A

CN116797955A - 目标区域识别方法、装置、终端和存储介质

Info

Publication number: CN116797955A
Application number: CN202210226725.7A
Authority: CN
Inventors: 林晓帆; 姜文杰
Original assignee: Insta360 Innovation Technology Co Ltd
Current assignee: Insta360 Innovation Technology Co Ltd
Priority date: 2022-03-09
Filing date: 2022-03-09
Publication date: 2023-09-22

Abstract

本申请实施例公开了目标区域识别方法、装置、终端和存储介质；本申请实施例可以获取视频流，视频流包括当前帧；对当前帧进行特征提取，得到当前帧的当前特征；获取前一区域，前一区域包括预设区域或前一帧区域；根据前一区域和当前特征，对当前帧进行目标识别，得到当前帧的目标区域，目标区域表征所述目标对象在所述当前帧中所处的区域。在本申请实施例中，当前帧可以是视频流中的任意一帧，如此，本申请在识别视频流中目标对象在视频帧所处的区域时，并不需要对首帧中目标对象所处的区域进行人工标注，并且并不需要耗费大量的计算来追踪目标对象在视频帧中所处的区域。由此，本方案可以提升识别视频帧中目标对象的效率。

Description

目标区域识别方法、装置、终端和存储介质

技术领域

本申请涉及计算机领域，具体涉及目标区域识别方法、装置、终端和存储介质。

背景技术

近年来，随着计算机技术和网络技术的发展，计算机视觉得到广泛应用。比如，采用计算机视觉中的语义分割可以将视觉输入分为不同的语义可解释类别，语义的可解释性即分类类别在真实世界中是有意义的。目前，语义分割已经广泛应用到自动驾驶、机器人以及图像搜索引擎等许多领域中。

然而，目前通常采用视频物体分割算法(Video Object Segmentation，VOS)，识别视频帧中目标对象所处的区域时，而VOS算法需要对首帧中目标对象所处的区域进行人工标定，使在识别首帧之后的其他帧时，可以追踪到目标对象。此外，由于目标对象在不同帧中有不同的呈现，VOS算法在对其他帧中目标对象所处的区域进行识别时，需要耗费大量的计算来确定其他帧中是否有目标对象所处的区域，导致视频帧中目标对象的识别效率较低。

发明内容

本申请实施例提供目标区域识别方法、装置、终端和存储介质，可以提升识别视频帧中目标对象的效率。

本申请实施例提供一种目标区域识别方法，包括：

获取视频流，视频流包括当前帧；

对当前帧进行特征提取，得到当前帧的当前特征；

获取前一区域，前一区域包括预设区域或前一帧区域，前一帧区域为目标对象在当前帧的前一帧中所处的区域；

根据前一区域和当前特征，对当前帧进行目标识别，得到当前帧的目标区域，目标区域表征目标对象在当前帧中所处的区域。

本申请实施例还提供一种目标区域识别装置，包括：

第一获取单元，用于获取视频流，视频流包括当前帧；

特征提取单元，用于对当前帧进行特征提取，得到当前帧的当前特征；

第二获取单元，用于获取前一区域，前一区域为预设区域或前一帧区域，前一帧区域为目标对象在当前帧的前一帧中所处的区域；

目标识别单元，用于根据前一区域和当前特征，对当前帧进行目标识别，得到当前帧的目标区域，目标区域表征目标对象在当前帧中所处的区域。

在一些实施例中，根据前一区域和当前特征，对当前帧进行目标识别，得到当前帧的目标区域，包括：

对前一区域进行特征提取，得到前一区域的前一区域特征；

对前一区域特征和当前特征进行特征融合，得到融合特征；

根据融合特征，对当前帧进行目标识别，得到当前帧的目标区域。

若当前帧为视频流的首帧，根据预设区域和当前特征，对首帧进行目标识别，得到首帧的目标区域。

若当前帧为视频流的其他帧，根据前一帧区域和当前特征，对其他帧进行目标识别，得到其他帧的目标区域，其他帧为视频流中首帧之后的帧。

在一些实施例中，目标区域包括第一子区域和第二子区域，第一子区域为当前帧中目标对象所处的区域，第二子区域为当前帧中其他对象所处的区域，其他对象为目标对象以外的对象。

在一些实施例中，在获取视频流之前，还包括：

获取多个训练视频流，以及获取目标区域识别网络，目标区域识别网络用于识别目标对象在帧中所处的区域，训练视频流中包括训练帧，训练帧的标注为训练帧的真实目标区域，真实目标区域包括第一真实子区域和第二真实子区域，第一真实子区域为训练帧中目标对象所处的区域，第二真实子区域为训练帧中其他对象所处的区域，其他对象为目标对象以外的对象；

利用多个训练视频流对目标区域识别网络进行训练，直至目标区域识别网络收敛，得到训练完成的目标区域识别网络；

采用训练完成的目标区域识别网络对以下方法进行处理：

获取视频流，视频流包括当前帧；

对当前帧进行特征提取，得到当前帧对应的当前特征；

获取前一区域；

根据前一区域和当前特征，对当前帧进行目标识别，得到当前帧的目标区域。

在一些实施例中，利用多个训练视频流对目标区域识别网络进行训练，包括：

按照预设概率将训练首帧的真实目标区域中的第一真实子区域修改为第二真实子区域，得到新真实目标区域，训练首帧为训练视频流的首帧；

获取当前训练帧；

对当前训练帧进行特征提取，得到当前训练帧的当前训练特征；

获取前一训练区域，前一训练区域包括新真实目标区域或前一训练帧区域，前一训练帧区域为目标对象在当前训练帧的前一训练帧中所处的区域；

根据前一训练区域和当前特征，对当前训练帧进行目标识别，得到当前帧的预测目标区域，预测目标区域表征目标对象在当前训练帧中所处的区域；

采用当前训练帧的真实目标区域和当前训练帧的预测目标区域，确定目标区域识别网络的损失参数，并基于损失参数训练目标区域识别网络。

在一些实施例中，在所述获取多个训练视频流之前，还包括：

对训练帧的每个像素进行区域分类，得到每个像素的区域类型，区域类型包括第一区域类型和第二区域类型，第一区域类型表征同一类别的目标对象在训练帧中所处的像素，第二区域类型表征其他对象在训练帧中所处的像素，其他对象为目标对象以外的对象；

根据每个像素的区域类型，得到每个像素对应的类型区域；

根据训练帧的所有像素对应的类型区域，得到训练帧的真实目标区域。

本申请实施例还提供一种终端，包括存储器存储有多条指令；所述处理器从所述存储器中加载指令，以执行本申请实施例所提供的任一种目标区域识别方法中的步骤。

本申请实施例还提供一种计算机可读存储介质，所述计算机可读存储介质存储有多条指令，所述指令适于处理器进行加载，以执行本申请实施例所提供的任一种目标区域识别方法中的步骤。

本申请实施例可以获取视频流，视频流包括当前帧；对当前帧进行特征提取，得到当前帧的当前特征；获取前一区域，前一区域包括预设区域或前一帧区域，前一帧区域为目标对象在当前帧的前一帧中所处的区域；根据前一区域和当前特征，对当前帧进行目标识别，得到当前帧的目标区域，目标区域表征所述目标对象在所述当前帧中所处的区域。

在本申请中，可以根据前一区域和当前特征识别出当前帧中目标对象所处的区域，当前帧可以是视频流中的任意一帧，如此，本申请中视频流的首帧并不需要依靠人工标注来确定目标对象所处的区域，降低了对视频帧进行目标识别的难度，同时，本申请中可以识别出视频流的每帧中的目标对象，从而本申请并不需要耗费大量的计算追踪目标对象在视频帧中所处的区域，提升了识别视频帧中目标对象的效率。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1a是本申请实施例提供的当前帧的处理图；

图1b是本申请实施例提供的目标区域识别方法的流程示意图；

图2a是本申请实施例提供的目标区域识别网络的训练流程图；

图2b是本申请实施例提供的应用于视频流中视频帧的目标识别流程图；

图3是本申请实施例提供的目标区域识别装置的结构示意图；

图4是本申请实施例提供的电子设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请实施例提供目标区域识别方法、装置、终端和存储介质。

其中，该目标区域识别装置具体可以集成在电子设备中，该电子设备可以为终端、服务器等设备。其中，终端可以为手机、平板电脑、智能蓝牙设备、笔记本电脑、或者个人电脑(Personal Computer，PC)等设备；服务器可以是单一服务器，也可以是由多个服务器组成的服务器集群。

在一些实施例中，该目标区域识别装置还可以集成在多个电子设备中，比如，目标区域识别装置可以集成在多个服务器中，由多个服务器来实现本申请的目标区域识别方法。

在一些实施例中，服务器也可以以终端的形式来实现。

例如，参考图1a，该电子设备可以获取视频流，视频流包括当前帧；对当前帧进行特征提取，得到当前帧的当前特征；获取前一区域，前一区域包括预设区域或前一帧区域，前一帧区域为目标对象在当前帧的前一帧中所处的区域；根据前一区域和当前特征，对当前帧进行目标识别，得到当前帧的目标区域，目标区域表征所述目标对象在所述当前帧中所处的区域。

在本申请中，在对当前帧进行特征提取后，得到当前帧的当前特征，再获取前一区域，并将前一区域结合当前特征，对当前帧进行目标识别，从而得到当前帧的目标区域，其中，当前帧可以是视频流中的任意一帧，如此，本申请并不需要依靠人工标注来确定首帧中目标对象所处的区域，同时，因为不需要人工标注的参与，则本申请并不需要耗费大量的技术来追踪目标对象在视频帧中所处的区域，降低了对视频帧进行目标识别的难度，提升了识别视频帧中目标对象的效率。

以下分别进行详细说明。需说明的是，以下实施例的序号不作为对实施例优选顺序的限定。

在本实施例中，提供了一种目标区域识别方法，如图1b所示，该目标区域识别方法的具体流程可以如下：

110、获取视频流，视频流包括当前帧。

其中，视频流由一段时间内连续获取的图像组成。比如，视频流可以由摄像头连续获取的画面组成，该摄像头可以是车载摄像头，还可以是机器人上装载的摄像头，等等。

当前帧为当前等待进行目标识别的视频帧。比如，当前帧可以是视频流中的任意一帧，即首帧或在首帧之后的视频帧。

例如，视频流A由30帧的图像组成，其当前帧可以是视频流A的首帧，或者当前帧可以是视频流的第二帧、第三帧，等等。

视频流的获取方法：

视频流可以是从存储器中获取，还可以是通过摄像头实时获取，还可以是从服务器中获取，等等。

120、对当前帧进行特征提取，得到当前帧的当前特征。

其中，当前特征为当前帧经过特征提取后的特征数据。比如，当前特征可以是当前帧有关的灰度图，还可以是与RGB值有关的特征数据。

当前帧的特征提取方法为：

通过神经网络中的编码器(Encoder)对当前帧进行编码，得到当前帧的当前特征。

或是通过神经网络中的卷积层对当前帧进行卷积处理，得到当前帧的当前特征。

神经网络可以是卷积神经网络、深度自动编码器、循环神经网络、门控神经网络，等等。

130、获取前一区域，前一区域包括预设区域或前一帧区域，前一帧区域为目标对象在当前帧的前一帧中所处的区域。

其中，前一区域用于在对当前帧进行目标识别时为其提供参考。

预设区域用于在当前帧为首帧时，为首帧在目标识别时提供参考。比如，预设区域可以是一个空白区域，如此，预设区域不会为首帧在进行目标识别时，提供实质上的参考，但是预设区域的参与可以使首帧也获取到需要参考区域，使首帧也可以如第二帧、第三帧等参与到迭代计算中。

前一帧区域表征当前帧的前一帧中目标对象所处的区域。比如，当前帧可以是视频流的第二帧，前一帧为视频流的首帧，则前一帧区域可以是首帧中目标对象所处的区域，前一帧区域可以用语义分割图表示，等等。

目标对象为需要被识别的一类对象。比如，若需要被识别的对象是人，则目标对象是人，若需要被识别的对象是车，则目标对象是车，等等。

前一区域可以在存储器中获取。

140、根据前一区域和当前特征，对当前帧进行目标识别，得到当前帧的目标区域，目标区域表征所述目标对象在当前帧中所处的区域。

其中，目标区域表征当前帧中目标对象所处的区域。比如，目标区域可以是当前帧中目标对象所处的区域，其目标区域可以用语义分割图表示，等等。

在一些实施例中，为了考虑到在对当前帧进行目标识别时，降低对目标区域的识别误差，可以参考前一区域，使得到的目标区域有较好的时序性和抗遮挡能力，根据前一区域和当前特征，对当前帧进行目标识别，得到当前帧的目标区域，包括：

对前一区域进行特征提取，得到前一区域的前一区域特征；

对前一区域特征和当前特征进行特征融合，得到融合特征；

其中，前一区域特征为前一区域经过特征提取后的特征数据。比如，前一区域特征可以是预设区域经过特征提取后的特征，前一区域特征还可以是前一帧区域经过特征提取后的特征，根据当前帧在视频流中的时序位置，选择预设区域或前一帧区域进行特征提取。

融合特征为前一区域特征和当前特征融合后的特征。比如，前一区域特征由多维特征张量组成，当前特征也有多维特征张量组成，将前一区域对应的多维特征张量和当前帧对应的多维特征张量进行融合，从而得到融合特征，使在对当前帧进行目标识别时，可以参考到前一区域中目标对象所处的区域。

前一区域特征和当前特征的特征融合方法为：

对前一区域对应的多维特征张量进行维度变换，得到前一区域对应的新多维特征张量；

对当前帧对应的多维特征张量进行维度变换，得到当前帧对应的新多维特征张量；

将前一区域对应的新多维特征张量和当前帧对应的新多维特征张量进行组合，得到融合特征。

其中，组成融合特征的多维特征张量可以经过神经网络中多维通道，从而在对当前帧进行目标识别时，可以参考前一区域中目标对象所处的区域。

在一些实施例中，考虑在识别首帧中目标对象所处的区域时，没有可以如第二帧可以参考首帧的目标区域，导致识别首帧和在首帧之后视频帧时采用了不同的识别方法，为了使首帧也可以如在首帧之后的视频帧一样有同样的识别方法，都可以有参考的区域，使在识别首帧不会出现紊乱，且不会影响对首帧的识别，根据前一区域和当前特征，对当前帧进行目标识别，得到当前帧的目标区域，包括：

其中，预设区域表征不会影响首帧进行目标识别的区域。比如，预设区域中没有目标对象，其预设区域可以是个背景区域，背景区域的每个像素可以有同一RGB值，从而预设区域不会影响首帧的目标识别，避免对首帧的目标识别造成偏差。

在一些实施例中，考虑到在对首帧之后的视频帧进行目标识别时，该帧可以参考到前一帧中目标对象所处的区域，使该帧在进行目标识别后得到的目标区域有时序性和抗遮挡能力，根据前一区域和当前特征，对当前帧进行目标识别，得到当前帧的目标区域，包括：

其中，其他帧为视频流中首帧之后的帧。比如，其他帧可以是第二帧、第三帧、第四帧，等等。

在一些实施例中，为了考虑到可以体现出当前帧中目标对象所处的区域，目标区域包括第一子区域和第二子区域，第一子区域为当前帧中目标对象所处的区域，第二子区域为当前帧中其他对象所处的区域，其他对象为目标对象以外的对象。

其中，第一子区域为目标区域中目标对象的区域。比如，第一子区域可以和当前帧中的目标对象贴合，若目标对象是人，则第一子区域为“人”的区域。

第二子区域为目标区域中其他对象的区域，第二子区域和第一子区域可以用两种不同颜色的区域表示。比如，目标对象是人，而当前帧中有人、天空、地面、人周围的物体，则其他对象为天空、地面、人周围的物体，则第二子区域可以和天空、地面、人周围的物体的贴合。

但若人周围的物体在人前，即该物体遮挡了人的部分区域，则遮挡了人部分区域的物体在目标区域中的呈现是通过第一子区域表示。上述呈现实现的方法可以依靠参考前一帧区域来实现，从而实现了抗遮挡能力，避免目标区域中同一个人由两个区域组成。

其他对象为目标对象以外的对象。比如，目标对象为人，而当前帧中除了人以外还有天空、人周围的物体、地面，则其他对象为天空、人周围的物体、地面。

在一些实施例中，为了考虑到可以实现对视频流中的当前帧进行目标识别，在获取视频流之前，可以包括但不限于以下步骤：

Ⅰ、获取多个训练视频流，以及获取目标区域识别网络，目标区域识别网络用于识别目标对象在帧中所处的区域，训练视频流中包括训练帧，训练帧的标注为训练帧的真实目标区域，真实目标区域包括第一真实子区域和第二真实子区域，第一真实子区域为训练帧中目标对象所处的区域，第二真实子区域为训练帧中其他对象所处的区域，其他对象为目标对象以外的对象。

其中，训练视频流为训练目标区域识别网络所利用的视频流。比如，若对视频流的目标识别应用于自动驾驶，则训练视频流可以是行车记录仪所采集到的车外视频。若视频流的目标识别应用于机器人避障，则训练视频流可以是机器人上摄像头所获取到的视频。

训练帧为训练视频流中的任意一帧。比如，训练帧可以是训练视频流中的首帧，还可以是训练视频流中在首帧之后的视频帧。

真实目标区域为对训练帧标注得到的目标区域。

第一真实子区域为标注得到的训练帧中目标对象所处的区域，第一真实子区域和第一子区域对应。

第二真实子区域为标注得到的训练帧中其他对象所处的区域，第二真实子区域和第二子区域对应。

通过第一真实子区域和第二真实子区域，可以体现出训练帧中目标对象所处的区域，以使训练完成的目标区域识别网络可以识别出视频帧中目标对象所处的区域。

Ⅱ、利用多个训练视频流对目标区域识别网络进行训练，直至目标区域识别网络收敛，得到训练完成的目标区域识别网络。

在一些实施例中，为了考虑到通过训练视频流实现对目标区域识别网络的训练，利用多个训练视频流对目标区域识别网络进行训练，包括：

a、按照预设概率将训练首帧的真实目标区域中的第一真实子区域修改为第二真实子区域，得到新真实目标区域，训练首帧为训练视频流的首帧。

其中，训练首帧为训练视频流的首帧。

预设概率为修改训练首帧的真实目标区域的概率。比如，该概率可以是50％，其中，该预设概率可以根据实际情况设定，在此不做限定。

新真实目标区域由第二真实子区域构成，新真实目标区域与步骤130中的预设区域对应。比如，新真实目标区域由同一RGB值的像素构成，即新真实目标区域为一个白色区域，或者是一个黑色区域，等等。

b、获取当前训练帧。

其中，当前训练帧为当前等待进行目标识别的训练帧。

c、对当前训练帧进行特征提取，得到当前训练帧的当前训练特征。

其中，当前训练特征为当前训练帧经过特征提后的特征数据。

d、获取前一训练区域，前一训练区域包括新真实目标区域或前一训练帧区域，前一训练帧区域为目标对象在当前训练帧的前一训练帧中所处的区域。

其中，前一训练区域用于在对当前训练帧进行目标识别时为其提供参考。

前一训练帧区域表征当前训练帧的前一训练帧中目标对象所处的区域。

e、根据前一训练区域和当前训练特征，对当前训练帧进行目标识别，得到当前帧的预测目标区域，预测目标区域表征目标对象在当前训练帧中所处的区域。

其中，预测目标区域表征目标对象在当前训练帧中所处的区域，预测目标区域和步骤140中的目标区域对应。

f、采用当前训练帧的真实目标区域和当前训练帧的预测目标区域，确定目标区域识别网络的损失参数，并基于损失参数训练目标区域识别网络。

Ⅲ、采用训练完成的目标区域识别网络对以下方法进行处理：

获取视频流，视频流包括当前帧；

对当前帧进行特征提取，得到当前帧对应的当前特征；

获取前一区域；

在一些实施例中，为了考虑到可以实现对训练帧进行标注，在所述获取多个训练视频流之前，还包括：

根据每个像素的区域类型，得到每个像素对应的类型区域；

其中，区域类型用于表征训练帧中每个像素所对应的区域。比如，训练帧的一部分像素用于组成训练帧中的目标对象，训练帧的另一部分像素用于组成训练帧中的其他对象。

第一区域类型用于表征同一类别的目标对象在训练帧中所处的像素，训练帧中所有第一区域类型的像素构成目标对象，训练帧中所有第一区域类型的像素与第一子区域对应。

第二区域类型用于表征其他对象在训练帧中所处的像素，训练帧中所有第二区域类型的像素构成其他对象，训练帧中所有第二区域类型的像素与第二子区域对应。

类型区域为训练帧中每个像素对应的真实目标区域中一个区域，类型区域与第一子区域或第二子区域对应。

本申请实施例提供的方案可以获取视频流，视频流包括当前帧；对当前帧进行特征提取，得到当前帧的当前特征；获取前一区域，前一区域包括预设区域或前一帧区域，前一帧区域为目标对象在当前帧的前一帧中所处的区域；根据前一区域和当前特征，对当前帧进行目标识别，得到当前帧的目标区域，目标区域表征所述目标对象在所述当前帧中所处的区域。

由上可知，本申请实施例可以根据前一区域和当前特征识别出当前帧中目标对象所处的区域，当前帧可以是视频流中的任意一帧，如此，本申请中视频流的首帧并不需要依靠人工标注来确定目标对象所处的区域，降低了对视频帧进行目标识别的难度，同时，本申请中可以识别出视频流的每帧中的目标对象，从而本申请并不需要耗费大量的计算追踪目标对象在视频帧中所处的区域，提升了识别视频帧中目标对象的效率。

根据上述实施例所描述的方法，以下将作进一步详细说明。

一种目标区域识别网络的训练方法具体流程如下：

210、获取训练视频流，并按时序读取训练视频流中的当前训练帧。

220、将当前训练帧输入到编码器中，得到当前训练特征。

230、获取训练首帧标注的真实目标区域，训练首帧为训练视频流中的首帧，真实目标区域包括第一真实子区域和第二真实子区域，第一真实子区域为训练帧中目标对象所处的区域，第二真实子区域为训练帧中其他对象所处的区域，其他对象为目标对象以外的对象。

比如，以人像识别为例，准备一批有人物的视频，进行抽帧，并对每训练帧做标注，得到训练帧对应的真实目标区域。人物类别和非人物类别需要分开标注。如果同一帧出现多个人物，它们不做区分。

240、按照预设概率将训练首帧的真实目标区域中的第一真实子区域修改为第二真实子区域，得到新真实目标区域。

其中，预设概率可以让目标区域识别网络能适应没有首帧可以参考的前一训练帧区域，又能避免或者说减缓了缺少这种信息对网络训练带来的影响。

新真实目标区域存储在存储器(Memory)中。

250、获取前一训练区域，前一训练区域包括新真实目标区域或前一训练帧区域，前一训练帧区域为目标对象在当前训练帧的前一训练帧中所处的区域。

260、对前一训练区域进行特征提取，得到前一训练区域的前一训练区域特征。

270、对前一训练区域特征和当前训练特征进行特征融合，得到融合训练特征。

280、对融合训练特征进行解码，得到当前训练帧的预测目标区域。

当前训练帧的预测目标区域存在Memory中。

290、采用当前训练帧的真实目标区域和当前训练帧的预测目标区域，确定目标区域识别网络的损失参数，并基于损失参数训练目标区域识别网络。

比如，如图2a所示，采用训练视频流，对目标区域识别网络进行训练，训练视频流包括训练首帧、第二训练帧和第三训练帧。

在一些实施例中，基于损失参数，通过梯度下降法进行反向传播，以训练目标区域识别网络。

如图2b所示，使用训练好的目标区域识别网络进行推理：依次把视频流的视频帧输入神经网络的编码器(Encoder)。Encoder会把当前特征给到解码器(Decoder)。Decoder依次读取Encoder当前帧的输出结果，同时也读取Memory中保存的前一帧区域，输出当前帧的目标区域，视频流包括首帧、第二帧和第三帧。

由上可知，无需提供首帧中目标对象所处的区域，因而无需格外设计一个模块获取准确的首帧的真实目标区域，这节省了计算真实目标区域带来的耗时，降低了整体的复杂性，为实际使用带来便利。

为了更好地实施以上方法，本申请实施例还提供一种目标区域识别装置，该目标区域识别装置具体可以集成在电子设备中，该电子设备可以为终端、服务器等设备。其中，终端可以为手机、平板电脑、智能蓝牙设备、笔记本电脑、个人电脑等设备；服务器可以是单一服务器，也可以是由多个服务器组成的服务器集群。

比如，在本实施例中，将以目标区域识别装置具体集成在终端为例，对本申请实施例的方法进行详细说明。

例如，如图3所示，该目标区域识别装置可以包括第一获取单元310、特征提取单元320、第二获取单元330以及目标识别单元340，如下：

(一)第一获取单元310；

第一获取单元310，用于获取视频流，视频流包括当前帧。

(二)特征提取单元320；

特征提取单元320，用于对当前帧进行特征提取，得到当前帧的当前特征。

(三)第二获取单元330；

第二获取单元330，用于获取前一区域，前一区域为预设区域或前一帧区域，前一帧区域为目标对象在当前帧的前一帧中所处的区域。

(四)目标识别单元340；

目标识别单元340，用于根据前一区域和当前特征，对当前帧进行目标识别，得到当前帧的目标区域，目标区域表征目标对象在当前帧中所处的区域。

对前一区域进行特征提取，得到前一区域的前一区域特征；

对前一区域特征和当前特征进行特征融合，得到融合特征；

在一些实施例中，在获取视频流之前，还包括：

采用训练完成的目标区域识别网络对以下方法进行处理：

获取视频流，视频流包括当前帧；

对当前帧进行特征提取，得到当前帧对应的当前特征；

获取前一区域；

获取当前训练帧；

根据每个像素的区域类型，得到每个像素对应的类型区域；

具体实施时，以上各个单元可以作为独立的实体来实现，也可以进行任意组合，作为同一或若干个实体来实现，以上各个单元的具体实施可参见前面的方法实施例，在此不再赘述。

由上可知，本实施例的目标区域识别装置由第一获取单元获取视频流，视频流包括当前帧；由特征提取单元对当前帧进行特征提取，得到当前帧的当前特征；由第二获取单元获取前一区域，前一区域为预设区域或前一帧区域，前一帧区域为目标对象在当前帧的前一帧中所处的区域；由目标识别单元根据前一区域和当前特征，对当前帧进行目标识别，得到当前帧的目标区域，目标区域表征目标对象在当前帧中所处的区域。

由此，本申请实施例可以提升识别视频帧中目标对象的效率。

相应的，本申请实施例还提供一种电子设备，该电子设备可以为终端或服务器，该终端可以为智能手机、平板电脑、笔记本电脑、触控屏幕、游戏机、个人计算机、个人数字助理(Personal Digital Assistant，PDA)等终端设备。

如图4所示，图4为本申请实施例提供的电子设备的结构示意图，该电子设备400包括有一个或者一个以上处理核心的处理器410、有一个或一个以上计算机可读存储介质的存储器420及存储在存储器420上并可在处理器上运行的计算机程序。其中，处理器410与存储器420电性连接。本领域技术人员可以理解，图中示出的计算机设备结构并不构成对计算机设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

处理器410是电子设备400的控制中心，利用各种接口和线路连接整个电子设备400的各个部分，通过运行或加载存储在存储器420内的软件程序和/或模块，以及调用存储在存储器420内的数据，执行电子设备400的各种功能和处理数据，从而对电子设备400进行整体监控。

在本申请实施例中，电子设备400中的处理器410会按照如下的步骤，将一个或一个以上的应用程序的进程对应的指令加载到存储器420中，并由处理器410来运行存储在存储器420中的应用程序，从而实现各种功能：

获取视频流，视频流包括当前帧；

对当前帧进行特征提取，得到当前帧的当前特征；

根据前一区域和当前特征，对当前帧进行目标识别，得到当前帧的目标区域，目标区域表征所述目标对象在所述当前帧中所处的区域。

以上各个操作的具体实施可参见前面的实施例，在此不再赘述。

可选的，如图4所示，电子设备400还包括：触控显示屏430、射频电路440、音频电路450、输入单元460以及电源470。其中，处理器410分别与触控显示屏430、射频电路440、音频电路450、输入单元460以及电源470电性连接。本领域技术人员可以理解，图4中示出的计算机设备结构并不构成对计算机设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

触控显示屏430可用于显示图形用户界面以及接收用户作用于图形用户界面产生的操作指令。触控显示屏430可以包括显示面板和触控面板。其中，显示面板可用于显示由用户输入的信息或提供给用户的信息以及计算机设备的各种图形用户接口，这些图形用户接口可以由图形、文本、图标、视频和其任意组合来构成。可选的，可以采用液晶显示器(LCD，Liquid Crystal Display)、有机发光二极管(OLED，Organic Light-EmittingDiode)等形式来配置显示面板。触控面板可用于收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板上或在触控面板附近的操作)，并生成相应的操作指令，且操作指令执行对应程序。可选的，触控面板可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器410，并能接收处理器410发来的命令并加以执行。触控面板可覆盖显示面板，当触控面板检测到在其上或附近的触摸操作后，传送给处理器410以确定触摸事件的类型，随后处理器410根据触摸事件的类型在显示面板上提供相应的视觉输出。在本申请实施例中，可以将触控面板与显示面板集成到触控显示屏430而实现输入和输出功能。但是在某些实施例中，触控面板与触控面板可以作为两个独立的部件来实现输入和输出功能。即触控显示屏430也可以作为输入单元460的一部分实现输入功能。

射频电路440可用于收发射频信号，以通过无线通信与网络设备或其他计算机设备建立无线通讯，与网络设备或其他计算机设备之间收发信号。

音频电路450可以用于通过扬声器、传声器提供用户与计算机设备之间的音频接口。音频电路450可将接收到的音频数据转换后的电信号，传输到扬声器，由扬声器转换为声音信号输出；另一方面，传声器将收集的声音信号转换为电信号，由音频电路450接收后转换为音频数据，再将音频数据输出处理器410处理后，经射频电路440以发送给比如另一计算机设备，或者将音频数据输出至存储器420以便进一步处理。音频电路450还可能包括耳塞插孔，以提供外设耳机与计算机设备的通信。

输入单元460可用于接收输入的数字、字符信息或用户特征信息(例如指纹、虹膜、面部信息等)，以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。

电源470用于给电子设备400的各个部件供电。可选的，电源470可以通过电源管理系统与处理器410逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源470还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。

尽管图4中未示出，电子设备400还可以包括摄像头、传感器、无线保真模块、蓝牙模块等，在此不再赘述。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

由上可知，本实施例提供的计算机设备可以提升识别视频帧中目标对象的效率。

本领域普通技术人员可以理解，上述实施例的各种方法中的全部或部分步骤可以通过指令来完成，或通过指令控制相关的硬件来完成，该指令可以存储于一计算机可读存储介质中，并由处理器进行加载和执行。

为此，本申请实施例提供一种计算机可读存储介质，其中存储有多条计算机程序，该计算机程序能够被处理器进行加载，以执行本申请实施例所提供的任一种目标区域识别方法中的步骤。例如，该计算机程序可以执行如下步骤：

获取视频流，视频流包括当前帧；

对当前帧进行特征提取，得到当前帧的当前特征；

其中，该存储介质可以包括：只读存储器(ROM，Read Only Memory)、随机存取记忆体(RAM，Random Access Memory)、磁盘或光盘等。

由于该存储介质中所存储的计算机程序，可以执行本申请实施例所提供的任一种目标区域识别方法中的步骤，因此，可以实现本申请实施例所提供的任一种目标区域识别方法所能实现的有益效果，详见前面的实施例，在此不再赘述。

以上对本申请实施例所提供的一种目标区域识别方法、装置、存储介质及计算机设备进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种目标区域识别方法，其特征在于，包括：

获取视频流，所述视频流包括当前帧；

对所述当前帧进行特征提取，得到所述当前帧的当前特征；

获取前一区域，所述前一区域包括预设区域或前一帧区域，所述前一帧区域为目标对象在所述当前帧的前一帧中所处的区域；

根据所述前一区域和所述当前特征，对所述当前帧进行目标识别，得到所述当前帧的目标区域，所述目标区域表征所述目标对象在所述当前帧中所处的区域。

2.如权利要求1所述的方法，其特征在于，所述根据所述前一区域和所述当前特征，对所述当前帧进行目标识别，得到所述当前帧的目标区域，包括：

对所述前一区域进行特征提取，得到所述前一区域的前一区域特征；

对所述前一区域特征和所述当前特征进行特征融合，得到融合特征；

根据所述融合特征，对所述当前帧进行目标识别，得到所述当前帧的目标区域。

3.如权利要求1所述的方法，其特征在于，所述根据所述前一区域和所述当前特征，对所述当前帧进行目标识别，得到所述当前帧的目标区域，包括：

若所述当前帧为所述视频流的首帧，根据所述预设区域和所述当前特征，对所述首帧进行目标识别，得到所述首帧的目标区域。

4.如权利要求1所述的方法，其特征在于，所述根据所述前一区域和所述当前特征，对所述当前帧进行目标识别，得到所述当前帧的目标区域，包括：

若所述当前帧为所述视频流的其他帧，根据所述前一帧区域和所述当前特征，对所述其他帧进行目标识别，得到所述其他帧的目标区域，所述其他帧为所述视频流中首帧之后的帧。

5.如权利要求1所述的方法，其特征在于，所述目标区域包括第一子区域和第二子区域，所述第一子区域为所述当前帧中所述目标对象所处的区域，所述第二子区域为所述当前帧中其他对象所处的区域，所述其他对象为所述目标对象以外的对象。

6.如权利要求1所述的方法，其特征在于，在所述获取视频流之前，还包括：

获取多个训练视频流，以及获取目标区域识别网络，所述目标区域识别网络用于识别目标对象在帧中所处的区域，所述训练视频流中包括训练帧，所述训练帧的标注为所述训练帧的真实目标区域，所述真实目标区域包括第一真实子区域和第二真实子区域，所述第一真实子区域为所述训练帧中所述目标对象所处的区域，所述第二真实子区域为所述训练帧中其他对象所处的区域，所述其他对象为所述目标对象以外的对象；

利用所述多个训练视频流对所述目标区域识别网络进行训练，直至所述目标区域识别网络收敛，得到训练完成的所述目标区域识别网络；

采用训练完成的所述目标区域识别网络对以下方法进行处理：

获取视频流，所述视频流包括当前帧；

对所述当前帧进行特征提取，得到所述当前帧对应的当前特征；

获取前一区域；

根据所述前一区域和所述当前特征，对所述当前帧进行目标识别，得到所述当前帧的目标区域。

7.如权利要求6所述的方法，其特征在于，所述利用所述多个训练视频流对所述目标区域识别网络进行训练，包括：

按照预设概率将训练首帧的所述真实目标区域中的所述第一真实子区域修改为所述第二真实子区域，得到新真实目标区域，所述训练首帧为所述训练视频流的首帧；

获取当前训练帧；

对所述当前训练帧进行特征提取，得到所述当前训练帧的当前训练特征；

获取前一训练区域，所述前一训练区域包括所述新真实目标区域或前一训练帧区域，所述前一训练帧区域为所述目标对象在所述当前训练帧的前一训练帧中所处的区域；

根据所述前一训练区域和所述当前训练特征，对所述当前训练帧进行目标识别，得到所述当前帧的预测目标区域，所述预测目标区域表征所述目标对象在所述当前训练帧中所处的区域；

采用所述当前训练帧的所述真实目标区域和所述当前训练帧的所述预测目标区域，确定所述目标区域识别网络的损失参数，并基于所述损失参数训练所述目标区域识别网络。

8.如权利要求6所述的方法，其特征在于，在所述获取多个训练视频流之前，还包括：

对所述训练帧的每个像素进行区域分类，得到每个所述像素的区域类型，所述区域类型包括第一区域类型和第二区域类型，所述第一区域类型表征同一类别的目标对象在所述训练帧中所处的像素，所述第二区域类型表征其他对象在所述训练帧中所处的像素，所述其他对象为所述目标对象以外的对象；

根据每个所述像素的区域类型，得到每个所述像素对应的类型区域；

根据所述训练帧的所有所述像素对应的所述类型区域，得到所述训练帧的真实目标区域。

9.一种目标区域识别装置，其特征在于，包括：

第一获取单元，用于获取视频流，所述视频流包括当前帧；

特征提取单元，用于对所述当前帧进行特征提取，得到所述当前帧的当前特征；

第二获取单元，用于获取前一区域，所述前一区域为预设区域或前一帧区域，所述前一帧区域为所述目标对象在所述当前帧的前一帧中所处的区域；

目标识别单元，用于根据所述前一区域和所述当前特征，对所述当前帧进行目标识别，得到所述当前帧的目标区域，所述目标区域表征所述目标对象在所述当前帧中所处的区域。

10.一种终端，其特征在于，包括处理器和存储器，所述存储器存储有多条指令；所述处理器从所述存储器中加载指令，以执行如权利要求1～8任一项所述的目标区域识别方法中的步骤。

11.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有多条指令，所述指令适于处理器进行加载，以执行权利要求1～8任一项所述的目标区域识别方法中的步骤。