CN107633241B

CN107633241B - 一种全景视频自动标注和追踪物体的方法和装置

Info

Publication number: CN107633241B
Application number: CN201710991033.0A
Authority: CN
Inventors: 吴小燕; 陈洁
Original assignee: Samsung Electronics China R&D Center; Samsung Electronics Co Ltd
Current assignee: Samsung Electronics China R&D Center; Samsung Electronics Co Ltd
Priority date: 2017-10-23
Filing date: 2017-10-23
Publication date: 2020-11-27
Anticipated expiration: 2037-10-23
Also published as: CN107633241A

Abstract

本发明提供了一种全景视频自动标注和追踪物体的方法和装置，该方法包括：对全景视频中的每帧全景图像进行区域划分，并在划分的每个区域上执行基于多视角的物体标注并存储物体标注信息；针对全景视频中出现的物体的每类显示属性，根据存储的物体标注信息和以该类显示属性优先的物体追踪原则，生成该类显示属性对应的基于时间线的观察视角；当接收到用户针对任一类显示属性对应的基于时间线的观察视角的播放请求时，播放该类显示属性对应的基于时间线的观察视角对应的普通视频。

Description

一种全景视频自动标注和追踪物体的方法和装置

技术领域

本发明涉及全景视频技术领域，特别涉及一种全景视频自动标注和追踪物体的方法和装置。

背景技术

全景图像是由在某一点拍摄的多幅不同方向的实景图像拼接而成的。全景视频是由具有一些有时间关联的全景图像序列组成，从视频中可以获取真实的全景景象，并且可以通过时间来定位视频帧。

现有全景视频技术，对于物体标注主要是依赖用户标注，类似填表的工作将降低用户体验。对物体实时追踪时需要切换用户角度，且因全景度图片大，分辨率高，实时追踪速度慢，可用性将降低。

发明内容

有鉴于此，本发明的目的在于提供一种全景视频自动标注和追踪物体的方法和装置，能够实现对物体的自动标注，并提高追踪物体的速度。

为了达到上述目的，本发明提供了如下技术方案：

一种全景视频自动标注和追踪物体的方法，包括：

对全景视频中的每帧全景图像进行区域划分，并在划分的每个区域上执行基于多视角的物体标注并存储物体标注信息；

针对全景视频中出现的物体的每类显示属性，根据存储的物体标注信息和以该类显示属性优先的物体追踪原则，生成该类显示属性对应的基于时间线的观察视角；

当接收到用户针对任一类显示属性对应的基于时间线的观察视角的播放请求时，播放该类显示属性对应的基于时间线的观察视角对应的普通视频。

一种全景视频自动标注和追踪物体的装置，包括：标注单元、追踪单元、播放单元；

所述标注单元，用于对全景视频中的每帧全景图像进行区域划分，并在划分的每个区域上执行基于多视角的物体标注并存储物体标注信息；

所述追踪单元，用于针对全景视频中出现的物体的每类显示属性，根据存储的物体标注信息和以该类显示属性优先的物体追踪原则，生成该类显示属性对应的基于时间线的观察视角；

所述播放单元，用于当接收到用户针对任一类显示属性对应的基于时间线的观察视角的播放请求时，播放该类显示属性对应的基于时间线的观察视角对应的普通视频。

由上面的技术方案可知，本发明中，通过对全景视频中的物体进行离线标注，根据标注信息确定各物体的显示属性以及生成每种显示属性对应的基于时间线的观察视角，从而可以使用户选择播放任一显示属性对应的基于时间线的观察视角对应的普通视频。本发明的方法由于是对物体进行离线标注并离线生成基于时间线的观察视角，因此可以提高追踪物体的速度。

附图说明

图1是本发明实施例全景视频自动标注和追踪物体的方法流程图；

图2是本发明实施例全景视频自动标注和追踪物体的装置的结构示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，下面结合附图并据实施例，对本发明的技术方案进行详细说明。

本发明中，对全景视频中的物体进行离线标注，并基于预设原则进行物体追踪，下面分别进行介绍：

一，对全景视频的离线标注的实现方法进行详细说明：

全景视频是由按时间顺序排列的一帧帧全景图像组成。

传统的物体标注方法，通常需要缩小图像，在缩小的图片上进行物体标注以减少搜索量。全景视频中包含的每帧全景图像，均是由多幅实景图像拼接而成，因此全景图像一般较大且可能存在严重扭曲，而且全景图像中的细节比较小，这使得使用传统的物体标注方法对全景图像进行标注，将会导致较高的误识率和漏检率。

在本发明的一个实施例中，在对全景视频的每帧全景图像进行物体标注时，采用以下步骤：

步骤1、区域划分。

本步骤具体包括以下两个步骤：

a)将该帧全景图像划分为多个区域。

本步骤a中，可以采用多种划分区域的方法，例如基于区域划分和融合的选择性搜索(selective search)、基于特征点划分的DPM、基于神经网络等，这些方法都可以将二维全景图像划分成多个区域。

b)将划分后的多个区域进行合并处理。

全景图像的左右边缘会有重合的地方，当全景图像被划分为多个区域后，部分区域可能会存在重合的边缘区域，这种情况下，可以按照特征点，如surf，sift等匹配特征点，将存在重合区域的两个区域进行合并。

全景图像被被划分为多个区域后，有部分区域的中心点之间的距离较小，也可以考虑进行区域合并，具体实施中，可以计算相邻两个区域中心之间的距离，如果该两个区域中心之间的距离小于预设阈值，则合并该两个区域。

c)将经合并处理后得到的所有区域作为最终区域划分结果。

步骤2、自动标注。

全景图像的物体可能会一个观察视角的投影图中不易识别，在另一观察视角的投影图中容易识别的情况。为此，在对物体进行识别时，可以设置多个观察视角，进行多视角的物体识别和标注。

对每帧全景图像进行区域划分之后，可以针对划分后的每个区域进行基于多视角的物体标注。

具体地，对于每个区域，设置k个观察视角，基于该区域在k个观察视角下的投影图对该区域的物体进行识别和标注，并记录识别出的每个物体在该帧全景图像上的物体标注信息。

对全景图像可以采用基于柱面或者基于球面投影，投影模型不同，具体的投影计算公式也不同，需要根据具体需要选择相应的投影公式。

基于该区域在k个观察视角下的投影图对该区域的物体进行识别和标注的方法具体如下：

针对该区域中的每个物体，根据该物体在投影图中的面积从大到小的顺序对该区域在k个观察视角下的投影图进行排序，对排序第一的投影图中的该物体进行识别，如果成功识别出该物体，则对该物体进行标注，否则，对排序第二的投影图中的该物体进行识别，以此类推，直到成功识别出该物体并对该物体进行标注。

由于该区域在各观察视角下的投影图为一般的二维图像，可以采用现有在二维图像中识别物体的方法，对该区域中的物体进行识别，如：基于网格的端到端的yolo方法(适用于对于时间要求比较严格的情况)、基于rcnn的faster-cnn等，可以根据具体需求选择合适的识别方法。

本发明中，当对投影图中的物体进行识别并确定当前识别的图像的置信度，如果置信度小于预设置信度阈值，则可以认为识别失败，否则，可以认为成功识别出物体。对物体进行识别并确定当前识别的图像的置信度的方法可采用现有技术。

当在该区域的某个观察视角下的投影图中成功识别出某一物体后，可以对该物体进行标注，得到物体在该全景图像中的标注信息。

在本发明实施例中，物体标注信息为一个八元组(t,id,x,y,w,h,a,O)，八元组中各元素的含义具体如表一所示：

(t,id,x,y,w,h,a,O)	含义
		t	全景图像时间戳
id	物体标识
		x	物体区域左上角横坐标
y	物体区域左上角纵坐标
		w	物体区域宽度
h	物体区域高度
		a	物体分类
O	操作1(k，v)、操作2(k，v)、……

表一

在上表一中，

t代表全景图像时间戳，全景图像时间戳唯一对应全景视频中的一帧全景图像。

id代表物体标识，可以使用物体名称或其它能够唯一标识物体的内容表示。全景图像中一般包括不止一个物体，可以成功识别的每个物体都需要进行标注，使用id区分全景图像中的不同物体。

x、y分别代表在全景图像中物体所占区域(简称物体区域)左上角横坐标和左上角纵坐标，w、h分别在全景图像中物体区域的宽度和高度。本发明中，将八元组中由x、y、w、h四个元素组成的集合称为物体区域信息Z。根据x、y、w、h这四个元素的具体取值可以确定物体在全景图像中的具体位置和显示面积。

a代表物体分类，例如，鱼类、鸟类、电器等。

O代表用户可以针对物体执行的各种操作，例如放大操作、视频切换操作等，每个操作使用二元组(k，v)表示，其中k代表动作，v代表动作对应的值，例如表示放大操作的二元组中，k值为“放大”，v为放大倍数；又如表示视频切换操作的二元组中，k值为“视频切换”，v为切换到的目标全景图像帧号或目标全景图像时间戳。

通过以上步骤1和步骤2，可以实现对全景视频的每帧全景图像中的物体的离线标注。

实际上，全景视频包括的全景图像帧中，一些相邻全景图像帧之间差别比较小，对于这样的全景图像帧，在播放时间上排序在后的全景图像帧可以不用再执行物体标注，而是直接继承前一帧全景图像中的所有物体标注信息，从而减少运算量。

为此，在上述对每帧全景图像执行步骤1和步骤2之前，可以先计算该帧全景图像与前一帧全景图像的相似度，如果相似度超过预设相似度阈值，则该帧全景图像继承前一帧图像的所有物体的标注信息，否则，才执行步骤1和步骤2对该帧全景图像进行物体标注。

由于前一帧全景图像与该帧全景图像相似，两帧全景图像中包含的物体以及物体在各自所属全景图像中的占用区域都是相同或类似的，区别仅在于属于不同的全景图像，因此，本发明所述该帧全景图像继承前一帧全景图像的所有物体的标注信息，实际上是指：将前一帧全景图像进行物体标注得到的各物体标注信息中的全景图像时间戳均修改为该帧全景图像对应的全景图像时间戳后作为该帧全景图像中该物体的标注信息。

二，对全景视频的物体追踪的实现方法进行详细说明：

本发明中，根据对全景视频中所有物体的标注信息，按照预设原则生成基于时间线的观察视角，从而实现符合一定规律的物体追踪方法。

本发明中，基于时间线的观察视角是指对全景视频的每帧全景图像设定一个观察视角，从按照全景视频中全景图像的播放时间先后顺序形成一个观察视角序列，将此观察视角序列称为基于时间线的观察视角。

下面对全景视频的物体追踪的实现方法进行详细说明：

在全景视频中的每个物体，具有两个显示属性：持续显示时间和显示面积。

本发明中，针对上述两种显示属性，提供了两种用于物体追踪的实现方案，下面分别进行介绍：

第一种：持续显示时间优先的物体追踪原则：

持续显示时间优先的物体追踪原则是指：按照视频播放时间顺序，优先追踪最先出现且持续显示时间最长的物体(记为第一个物体)，直至该第一个物体消失；接着再在临近该第一个物体的所有物体中找出该第一个物体消失时刻起持续显示时间最长的物体(记为第二个物体)，继续追踪该第二个物体，直至该第二个物体消失；以此类推，直至视频播放结束。

在本发明实施例中，追踪全景视频中的某一物体，实际上就是将追踪该物体的一段时间内包含的所有全景图像的观察视角设置为以该被追踪的物体为视角中心，换言之，就是将该被追踪的物体设置为这些全景图像中的默认观察物体。例如，按照持续显示时间优先的物体追踪原则确定某一物体为播放第i到j帧全景图像的时间段内的追踪对象，则需要将该物体设置为第i到第j帧全景图像的默认观察物体。

按照以上持续显示时间优先的物体追踪原则，可以得到全景视频中每个全景图像的观察视角，从而形成按照全景图像播放顺序排列的一个观察视角序列，在本申请中将此观察视角序列称为持续显示时间对应的基于时间线的观察视角。

按照上述持续显示时间对应的基于时间线的观察视角进行全景视频播放时，可以得到一个与持续显示时间对应的基于时间线的观察视角相对应的普通视频。

在本发明的一个实施例中，生成持续显示时间对应的基于时间线的观察视角的方法具体如下：

针对全景视频中出现的每个物体，根据该物体的所有标注信息中的全景图像时间戳确定该物体每次出现时的初始显示时间戳和持续显示时长；

对于全景视频出现的物体，选择在全景视频中最先出现且持续显示时间最长的物体，设置该物体为该段持续显示时长内的每帧全景图像中的默认观察物体；

在前一默认观察物体消失时确定与前一默认观察物体距离在预设距离范围内且在前一默认观察物体消失后持续显示时间最长的物体，设置该物体为从前一默认观察物体消失到该物体消失之间的一段时间内的每帧全景图像中的默认观察物体；以此类推，直至确定全景视频中所有全景图像的观察视角。

下面以一个具体的例子对上述具体实现方法进行举例说明：

假设全景视频包括100帧全景图像，物体出现情况具体如下：

物体A分别在第1至30帧全景图像，及第70至85帧全景图像中出现；

物体B在第1至10帧全景图像，及第25至80帧全景图像中出现；

物体C在第10至35帧全景图像，及第75至90帧全景图像中出现；

物体D在第80-100帧全景图像中出现。

则根据上述生成持续显示时间对应的基于时间线的观察视角的方法，可以按照以下顺序确定各帧全景图像的观察视角：

物体A和物体B是全景视频中最先出现的物体，且物体A的持续显示时间(30-1+1＝30帧)相较于物体B的持续显示时间(10-1+1＝10帧)而言，持续显示时间最长，因此，将物体A设置为第1至30帧全景图像的默认观察物体；

物体B和物体C在第30帧中均出现，假设物体B和物体C在第30帧全景图像中与物体A之间的距离均在预设距离范围内，则物体B和物体C都是待选物体，又因为物体B从第30帧全景图像开始的持续显示时间(80-30+1＝51帧)大于物体C从第30帧全景图像开始的持续显示时间(35-30+1＝6帧)，因此，将物体B设置为第31至80帧全景图像的默认观察物体；

物体C和物体D在第80帧中均出现，假设物体C和物体D在第80帧全景图像中与物体B之间的距离均在预设距离范围内，则物体C和物体D都是待选物体，又因为物体C从第80帧全景图像开始的持续显示时间(90-80+1＝11帧)小于物体D从第80帧全景图像开始的持续显示时间(100-80+1＝21帧)，因此，将物体D设置为第81至100帧全景图像的默认观察物体。

至此，生成的持续显示时间优先的基于时间线的观察视角为：第1-30帧全景图像中物体A为默认观察物体，第31-80帧全景图像中物体B为默认观察物体，第81-100帧全景图像中物体D为默认观察物体。

第二种：显示面积优先的物体追踪原则：

显示面积优先的物体追踪原则是指：按照视频播放时间顺序，优先追踪最先出现且显示面积最大的物体(记为第一个物体)，直至该第一个物体不再是显示面积最大的物体(该第一个物体的显示面积变小或消失)；接着再找出该第一个物体显示面积非最大的时刻起显示面积最大的物体(记为第二个物体)，继续追踪该第二个物体，直至该第二个物体不再是显示面积最大的物体(该第二个物体的显示面积变小或消失)；以此类推，直至视频播放结束。

在本发明实施例中，追踪全景视频中的某一物体，实际上就是将追踪该物体的一段时间内包含的所有全景图像的观察视角设置为以该被追踪的物体为视角中心，换言之，就是将该被追踪的物体设置为这些全景图像中的默认观察物体。例如，按照显示面积优先的物体追踪原则确定某一物体为播放第m到n帧全景图像的时间段内的追踪对象，则需要将该物体设置为第m到n帧全景图像的默认观察物体。

按照以上显示面积优先的物体追踪原则，可以得到全景视频中每个全景图像的观察视角，从而形成按照全景图像播放顺序排列的一个观察视角序列，在本申请中将此观察视角序列称为显示面积对应的基于时间线的观察视角。

需要注意的是，由于当默认观察物体的显示面积变成不是最大时，此时显示面积最大的物体与默认观察物体之间的距离可能相差比较远，在进行视角转换时，即可将观察视角转换为以该物体为视角中心的话，视角转换过程过于突兀，因此可以考虑进行平滑转换，一种平滑转换的方法是：计算该物体与默认观察物体之间的视角差值，然后按照一定的视角转换速度(例如：5度/帧)通过多帧图像平滑转换至该物体。

按照上述显示面积对应的基于时间线的观察视角进行全景视频播放时，可以得到一个与显示面积对应的基于时间线的观察视角相对应的普通视频。

在本发明的一个实施例中，生成显示面积对应的基于时间线的观察视角的方法具体如下：

针对全景视频中出现的每个物体，根据该物体的每个标注信息中的全景图像时间戳和物体占用区域信息确定该物体在该全景图像时间戳对应的全景图像中的显示面积；

对于全景视频出现的物体，选择在全景视频中最先出现且显示面积最大的物体，并在该物体的显示面积保持为最大的一段时间内，设置该物体为该段时间内的每帧全景图像中的默认观察物体；

在前一默认观察物体面积变为非最大时，选择此时全景视频中显示面积最大的物体，确定分别以前一默认观察物体和该物体为视角中心的观察视角之间的视角差值，按照预设视角转换速度将观察视角从前一默认观察物体转换至该物体，并在该物体的显示面积保持为最大的一段时间内，设置该物体为该段时间内的每帧全景图像中的默认观察物体；以此类推，直至确定全景视频中所有全景图像的观察视角。

下面以一个具体的例子对上述具体实现方法进行举例说明：

假设全景视频包括100帧全景图像，物体出现情况具体如下：

物体E分别在第1至80帧全景图像中出现，且在第1至30帧中的显示面积为500，在第31至80帧中的显示面积为100；

物体F在第1至10帧全景图像，及第60至100帧全景图像中出现，且显示面积均为300；

物体G在第10至45帧全景图像中出现，且显示面积为200；

物体H在第80-100帧全景图像中出现，且显示面积为700。

则根据上述生成显示面积对应的基于时间线的观察视角的方法，可以按照以下顺序确定各帧全景图像的观察视角：

物体E和物体F是全景视频中最先出现的物体，且物体E的显示面积在第1至30帧全景图像中一直保持最大显示面积，因此将物体E设置为第1至30帧全景图像的默认观察物体；

物体E、物体G在第31帧中均出现，且物体G的显示面积在第31至45帧全景图像中一直保持最大显示面积，因此，将物体G设置为第31至45帧全景图像的默认观察物体；

物体E是第46至59帧全景图像中唯一出现的物体，因此，其显示面积视为最大，将物体E设置为第46至59帧全景图像的默认观察物体；

物体E、物体F在第60帧中均出现，且物体F的显示面积在第60至79帧全景图像中一直保持最大显示面积，因此，将物体F设置为第60至79帧全景图像的默认观察物体；

物体E、物体F、物体H在第80帧中均出现，且物体H的显示面积在第80至100帧全景图像中一直保持最大显示面积，因此，将物体H设置为第80至100帧全景图像的默认观察物体。

至此，生成的显示面积对应的基于时间线的观察视角为：第1-30帧全景图像中物体E为默认观察物体，第31-45帧全景图像中物体G为默认观察物体，第46-59帧全景图像中物体E再次成为默认观察物体，第60-79帧全景图像中物体F为默认观察物体，第80-100帧全景图像中物体H为默认观察物体。

这里需要说明的是，上述生成的显示面积对应的基于时间线的观察视角未考虑视角变化时的平滑过渡，如果考虑平滑过渡，则第31-45帧、第46-59帧、第60-79帧、以及第80-100帧全景图像中的前几帧不是以上述相应的默认观察物体为视角中心，其观察视角根据预设的视角切换速度和当前默认观察物体和前一默认观察物体之间的视角差值决定。

举例来说，物体E在第1-30帧为默认观察物体，而统计计算确定物体G第31-45帧全景图像中应为默认观察物体，假设物体G与前一默认观察物体(物体E)之间的视角差值(物体G和物体E与坐标原点之间连线的夹角)为15度，且预设视角切换速度为5度/帧，则按照前述的平滑切换方法，第31帧全景图像的视角中心应该是：与物体E和物体G的视角差值分别为5度和10度的图像位置，第32帧全景图像的视角中心应该是：与物体E和物体G的视角差值分别为10度和5度的位置，从第33帧开始一直到第45帧全景图像则平滑切换为以物体G为视角中心。以上举例中，视角差值是按照一维方式计算，视角差值也可以是按照二维方式计算，例如物体G和物体E在经度和纬度上分别相差20度和15度，此种视角差值计算方式下，可以预先设定平滑切换帧数(如4帧)，则平滑切换的每一帧需要在经度和纬度上分别相差5度(20/4＝5度)和3.75度(15/4＝3.75度)。

本发明中，基于时间线的观察视角中，包括全景视频中每一帧全景图像的观察视角，具体实现中可以如表二所示的内容表示每一帧全景图像的观察视角：

表二

三、全景视频播放

上述生成了持续显示时间对应的基于时间线的观察视角和显示面积对应的基于时间线的观察视角之后，可以将这两种基于时间线的观察视角对应的普通视频以缩略图形式输出到显示屏上，用户可以点击任一缩略图来触发针对相应的基于时间线的观察视角对应的普通视频的播放请求，从而后台接收到该播放请求后，开始播放该普通视频。

在播放普通视频的过程中，用户可以执行一些操作以实现与全景视频的播放交互。交互主要包括以下几种：

1)物体放大和视频切换

在视频播放过程中，视角中心的物体(默认观察物体)过小时，可以对该物体进行放大显示。

本发明实施例中，预先设置最小显示面积，对于每一帧全景视频来说，如果其默认观察物体的显示面积不小于该最小显示面积，则在视频播放到该帧全景视频时保持原有大小即可，不需要进行放大，因此将该帧全景视频中默认观察物体的标注信息中放大动作对应的值设置为1；如果其默认观察物体的显示面积小于该最小显示面积，则可以根据该最小显示面积确定该帧全景图像中默认观察物体的放大倍数，例如将预设最小显示面积与该帧全景图像中默认观察物体的显示面积的商确定为该帧全景图像中默认观察物体的放大倍数，然后将该放大倍数设置为该默认观察物体的标注信息中放大动作对应的值。这样，当视频播放到该帧全景图像时，可以根据该放大动作对应的值对该帧全景图像中以该默认观察物体为中心的图像内容进行放大显示。

在视频播放过程中，如果用户希望跳过不太感兴趣的视频片断，例如，全景视频中包括从远到近逐渐接近泰姬陵的一段视频，如果用户对走近泰姬陵的过程并不感兴趣，希望切换到进入泰姬陵内部后的视频内容，这就需要对视频进行切换，直接切换到进入泰姬陵前的最后一帧全景图像或进入泰姬陵之后的第一帧全景图像。

本发明实施例中，在对全景视频中的物体标注完成之后，可以针对全景视频中出现的每个物体，对该物体的所有标注信息按照全景图像时间戳从小到大的顺序进行排序，将排序中全景图像时间戳相邻的所有物体标注信息划入同一集合；然后对于同一集合中的每个标注信息，将该标注信息中视频切换动作对应的值设置为该集合的所有标注信息中的最大全景视频时间戳。当普通视频播放到某帧全景图像时，如果用户触发视频切换请求，则可以根据该帧全景图像的默认观察物体的标注信息中的视频切换动作对应的值进行视频切换，切换到视频切换动作对应的值所对应的全景图像。

本发明中，可以在视频播放界面或菜单中设置视频切换按钮/选项，当用户点击该按钮/选项时可以触发视频切换请求，后台接收到该视频切换请求后，可以根据用户点击视频切按钮/选项时所在全景图像的默认观察体的标注信息中视频切换动作对应的值执行视频切换。

2)物体相关的外部资源链接

在视频播放过程中，用户可能会对某一物体相关的信息感兴趣，例如用户正在看《海底世界》全景视频，对其中的小丑鱼感兴趣，希望看到更多与小丑鱼相关的视频或资料介绍。

本发明实施例中，提供即时搜索外部资源搜索功能，通过在视频播放界面或菜单中提供搜索按钮/选项，当用户选中某一帧全景视频中的物体并点击该搜索按钮/选项时，可以触发对该物体的资源搜索请求，后台接收到资源搜索请求后，可以基于该物体标签(物体标签可以是物体名称、分类)搜索外部资源并在视频播放界面中输出搜索结果。这里，搜索外部资源是指：利用现有搜索引擎搜索并以物体标签为关键词进行搜索，或者直接用物体标签去搜索后台中已经存储的资源信息。

3)物体追踪

在视频播放过程中，当用户对视角中心的物体(即每一帧全景图像的默认观察物体)不感兴趣，而是对其他物体感兴趣时，例如用户正在看足球赛事时，感兴趣的区域是足球运动轨迹，如果足球并非默认观察物体，则为了满足用户的需求，可以通过对用户观察视角进行切换实现对足球的追踪。

本发明实施例中，在视频播放界面或菜单中提供追踪按钮/选项，当用户选中某一帧全景视频中的物体并点击该追踪按钮/选项时，可以触发对该物体的追踪请求，后台接收到该追踪请求后，可以将该物体设置为本次播放过程中从该帧图像开始到该物体消失所关联的所有全景图像的默认观察物体，而在该物体消失后的所有全景图像的原有则默认观察物体仍保持不变。

4)广告投放

本发明实施例中，支持在视频播放过程中的广告信息投放。如果视频播放画面中有大块非关键区域(本发明中也称为空闲区域)，比如，蓝天，草地，桌子等，则可以在这些插入广告内容。

具体地，在视频播放过程中，识别每帧全景图像的空闲区域，并在空闲区域投放预先设置的广告信息；其中，所述空闲区域为色差在预设范围内且面积超过预设面积的区域。

5)AR增强显示

本发明实施例中，支持在视频播放过程中，针对视频画面中物体推送相关介绍等内容，通过AR追随物体做浮动显示介绍推送内容。

在具体实现中，可以在视频播放界面或菜单中提供内容推送按钮/选项，并预先设置好视频中各物体对应的推送内容。当用户选中某一帧全景视频中的物体并点击该内容推送按钮/选项时，可以触发对该物体的内容推送请求，后台接收到该内容推送请求后，可以从预先设置的全景视频中各物体的推送内容中找出该物体的推送内容，并通过AR增强方式在物体上浮动显示该推送内容。另外，也可以通过即时搜索的方式获得物体的推送内容，例如当后台接收到该内容推送请求后，可以利用已有搜索引擎去搜索该物体标签，从搜索结果中获取该物体的推送内容，并通过AR增强方式在物体上浮动显示该推送内容。

以上对本发明全景视频自动标注和追踪物体的原理进行了详细说明，基于上述原理，本发明提供了一种全景视频自动标注和追踪物体的方法和一种全景视频自动标注和追踪物体的装置，以下结合图1和图2进行说明：

参见图1，图1是本发明实施例全景视频自动标注和追踪物体的方法流程图，如图1所示，该方法包括以下步骤：

步骤101、对全景视频中的每帧全景图像进行区域划分，并在划分的每个区域上执行基于多视角的物体标注并存储物体标注信息；

步骤102、针对全景视频中出现的物体的每类显示属性，根据存储的物体标注信息和以该类显示属性优先的物体追踪原则，生成该类显示属性对应的基于时间线的观察视角；

步骤103、当接收到用户针对任一类显示属性对应的基于时间线的观察视角的播放请求时，播放该类显示属性对应的基于时间线的观察视角对应的普通视频。

图1所示方法中，

对全景视频中的每帧全景图像进行区域划分的方法为：

将该帧全景图像划分为多个区域，对划分后的多个区域进行合并处理，将经合并处理后得到的所有区域作为对该帧全景图像的区域划分结果。

图1所示方法中，

对划分后的多个区域进行合并处理包括：对于划分后的任意两个区域，如果该两个区域存在重合区域，则合并该两个区域；或者，如果该两个区域中心之间的距离小于预设阈值，则合并该两个区域。

图1所示方法中，

在划分的每个区域上执行基于多视角的物体标注的方法为：

为该区域设定k个观察视角，基于该区域在k个观察视角下的投影图对该区域的物体进行识别和标注，并记录识别出的每个物体在该帧全景图像上的物体标注信息。

图1所示方法中，

基于该区域在k个观察视角下的投影图对该区域的物体进行识别和标注的方法为：

图1所示方法中，

所述物体标注信息包括：全景图像时间戳t、物体标识id；

物体的显示属性包括：持续显示时间；

针对全景视频中出现的物体的持续显示时间，根据存储的物体标注信息和以持续显示时间优先的物体追踪原则，生成持续显示时间对应的基于时间线的观察视角的方法为：

针对全景视频中出现的每个物体，根据该物体的所有标注信息中的全景图像时间戳确定该物体每次出现时的初始显示时间戳和持续显示时间；

图1所示方法中，

所述物体标注信息还包括：物体占用区域信息Z；所述物体占用区域信息Z包括物体占用区域的左上角横坐标x、左上角纵坐标y、宽度w和高度h；

物体的显示属性包括：显示面积；

针对全景视频中出现的物体的显示面积，根据存储的物体标注信息和以显示面积优先的物体追踪原则，生成显示面积对应的基于时间线的观察的方法为：

图1所示方法中，

所述物体标注信息还包括：操作O；所述操作O包括动作及动作对应的值；所述动作包括放大和视频切换；

对全景视频中的每帧全景图像进行区域划分，并在划分的每个区域上执行基于多视角的物体标注并存储物体标注信息之后，进一步包括：

针对全景视频中出现的每个物体，执行以下操作：

将该物体的所有标注信息按照全景图像时间戳从小到大的顺序进行排序，将排序中全景图像时间戳相邻的所标注信息划入同一集合；

对于同一集合中的每个标注信息，将该标注信息中视频切换动作对应的值设置为该集合中的最大全景视频时间戳，并根据该标注信息中的物体占用区域信息确定该物体的显示面积，如果该物体的显示面积小于预设最小显示面积，则根据预设最小显示面积确定该物体的放大倍数，并将该放大倍数设置为该标注信息中放大动作对应的值，否则，将该标注信息中放大动作对应的值设置为1。

图1所示方法中，

根据用户的播放请求，播放任一类显示属性对应的基于时间线的观察视角对应的普通视频的过程中，对于播放的每一帧全景图像，如果该帧全景图像中的默认观察物体的标注信息中放大动作对应的值大于1，则根据该放大动作对应的值将该以该默认物体为中心的图像内容放大；如果接收到用户针对该帧全景图像的视频切换请求，则根据该帧全景图像中默认观察物体的标注信息确定视频切换动作对应的值，并根据视频切换动作对应的值对普通视频进行视频切换。

图1所示方法中，

根据用户的播放请求，播放任一类显示属性对应的基于时间线的观察视角对应的普通视频的过程中，如果接收到用户对任一帧全景图像中任一物体的资源搜索请求，则基于该物体标签搜索外部资源并在视频播放界面中输出搜索结果。

图1所示方法中，

根据用户的播放请求，播放任一类显示属性对应的基于时间线的观察视角对应的普通视频的过程中，如果接收到用户对任一帧全景图像中任一物体的追踪请求，则将该物体设置为本次播放过程中从该帧图像开始到该物体消失所关联的所有全景图像的默认观察物体，且该物体消失后的所有全景图像的原有默认观察物体保持不变。

图1所示方法中，

根据用户的播放请求，播放任一类显示属性对应的基于时间线的观察视角对应的普通视频的过程中，识别每帧全景图像的空闲区域，并在空闲区域投放广告信息；所述空闲区域为色差在预设范围内且面积超过预设面积的区域。

图1所示方法中，

根据用户的播放请求，播放任一类显示属性对应的基于时间线的观察视角对应的普通视频的过程中，如果接收到用户对任一帧全景图像中任一物体的内容推送请求，则从预先设置的全景视频中各物体的推送内容中找出该物体的推送内容，并通过AR增强方式在物体上浮动显示该推送内容。

图1所示方法中，

生成所有类别的显示属性对应的基于时间线的观察视角之后，进一步包括：将每类显示属性对应的基于时间线的观察视角对应的普通视频以缩略图形式输出到显示屏上，以供用户点击来触发针对该类显示属性对应的基于时间线的观察视角的播放请求。

图1所示方法中，

对全景视频中的每帧全景图像进行区域划分，并在划分的每个区域上执行基于多视角的物体标注并存储物体标注信息之前，进一步包括：计算该帧全景图像与前一帧全景图像的相似度，如果相似度达于预设相似度值，则该帧全景图像中的所有物体继承前一帧图像的所有物体的标注信息。

参见图2，图2是本发明实施例全景视频自动标注和追踪物体的装置的结构示意图，如图2所示，该装置包括：标注单元201、追踪单元202、播放单元203；其中，

标注单元201，用于对全景视频中的每帧全景图像进行区域划分，并在划分的每个区域上执行基于多视角的物体标注并存储物体标注信息；

追踪单元202，用于针对全景视频中出现的物体的每类显示属性，根据存储的物体标注信息和以该类显示属性优先的物体追踪原则，生成该类显示属性对应的基于时间线的观察视角；

播放单元203，用于当接收到用户针对任一类显示属性对应的基于时间线的观察视角的播放请求时，播放该类显示属性对应的基于时间线的观察视角对应的普通视频。

图2所示装置中，

所述标注单元201，对全景视频中的每帧全景图像进行区域划分时，用于：

图2所示装置中，

所述标注单元201，对划分后的多个区域进行合并处理包括：对于划分后的任意两个区域，如果该两个区域存在重合区域，则合并该两个区域；或者，如果该两个区域中心之间的距离小于预设阈值，则合并该两个区域。

图2所示装置中，

所述标注单元201，在划分的每个区域上执行基于多视角的物体标注时，用于：

图2所示装置中，

所述标注单元201，基于该区域在k个观察视角下的投影图对该区域的物体进行识别和标注时，用于：

图2所示装置中，

所述物体标注信息包括：全景图像时间戳t、物体标识id；

物体的显示属性包括：持续显示时间；

所述追踪单元202，针对全景视频中出现的物体的持续显示时间，根据存储的物体标注信息和以持续显示时间优先的物体追踪原则，生成持续显示时间对应的基于时间线的观察视角时，用于：

图2所示装置中，

物体的显示属性包括：显示面积；

所述追踪单元202，针对全景视频中出现的物体的显示面积，根据存储的物体标注信息和以显示面积优先的物体追踪原则，生成显示面积对应的基于时间线的观察时，用于：

图2所示装置中，

所述标注单元201，对全景视频中的每帧全景图像进行区域划分，并在划分的每个区域上执行基于多视角的物体标注并存储物体标注信息之后，进一步用于：

针对全景视频中出现的每个物体，执行以下操作：

对于同一集合中的每个标注信息，将该标注信息中视频切换动作对应的值设置为该集合中的最大全景视频时间戳，并根据该标注信息中的物体占用区域信息确定该物体的显示面积，如果该物体的显示面积小于预设值，则根据预设最小显示面积确定该物体的放大倍数，并将该放大倍数设置为该标注信息中放大动作对应的值，否则，将该标注信息中放大动作对应的值设置为1。

图2所示装置中，

所述播放单元203，根据用户的播放请求，播放任一类显示属性对应的基于时间线的观察视角对应的普通视频的过程中，对于播放的每一帧全景图像，如果该帧全景图像中的默认观察物体的标注信息中放大动作对应的值大于1，则根据该放大动作对应的值将该以该默认物体为中心的图像内容放大；如果接收到用户针对该帧全景图像的视频切换请求，则根据该帧全景图像中默认观察物体的标注信息确定视频切换动作对应的值，并根据视频切换动作对应的值对普通视频进行视频切换。

图2所示装置中，

所述播放单元203，根据用户的播放请求，播放任一类显示属性对应的基于时间线的观察视角对应的普通视频的过程中，如果接收到用户对任一帧全景图像中任一物体的资源搜索请求，则基于该物体标签搜索外部资源并在视频播放界面中输出搜索结果。

图2所示装置中，

所述播放单元203，根据用户的播放请求，播放任一类显示属性对应的基于时间线的观察视角对应的普通视频的过程中，如果接收到用户对任一帧全景图像中任一物体的追踪请求，则将该物体设置为本次播放过程中从该帧图像开始到该物体消失所关联的所有全景图像的默认观察物体，且该物体消失后的所有全景图像的原有默认观察物体保持不变。

图2所示装置中，

所述播放单元203，根据用户的播放请求，播放任一类显示属性对应的基于时间线的观察视角对应的普通视频的过程中，识别每帧全景图像的空闲区域，并在空闲区域投放广告信息；所述空闲区域为色差在预设范围内且面积超过预设面积的区域。

图2所示装置中，

所述播放单元203，根据用户的播放请求，播放任一类显示属性对应的基于时间线的观察视角对应的普通视频的过程中，如果接收到用户对任一帧全景图像中任一物体的内容推送请求，则从预先设置的全景视频中各物体的推送内容中找出该物体的推送内容，并通过AR增强方式在物体上浮动显示该推送内容。

图2所示装置中，

所述追踪单元202，生成所有类别的显示属性对应的基于时间线的观察视角之后，进一步用于：将每类显示属性对应的基于时间线的观察视角对应的普通视频以缩略图形式输出到显示屏上，以供用户点击来触发针对该类显示属性对应的基于时间线的观察视角的播放请求。

图2所示装置中，

所述标注单元201，对全景视频中的每帧全景图像进行区域划分，并在划分的每个区域上执行基于多视角的物体标注并存储物体标注信息之前，进一步用于：计算该帧全景图像与前一帧全景图像的相似度，如果相似度达于预设相似度值，则该帧全景图像中的所有物体继承前一帧图像的所有物体的标注信息。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明保护的范围之内。

Claims

1.一种全景视频自动标注和追踪物体的方法，其特征在于，该方法包括：

2.根据权利要求1所述的方法，其特征在于，

对全景视频中的每帧全景图像进行区域划分的方法为：

3.根据权利要求2所述的方法，其特征在于，

4.根据权利要求1所述的方法，其特征在于，

在划分的每个区域上执行基于多视角的物体标注的方法为：

5.根据权利要求4所述的方法，其特征在于，

6.根据权利要求1所述的方法，其特征在于，

所述物体标注信息包括：全景图像时间戳t、物体标识id；

物体的显示属性包括：持续显示时间；

7.根据权利要求6所述的方法，其特征在于，

物体的显示属性包括：显示面积；

8.根据权利要求7所述的方法，其特征在于，

针对全景视频中出现的每个物体，执行以下操作：

9.根据权利要求8所述的方法，其特征在于，

10.根据权利要求6或7所述的方法，其特征在于，

11.根据权利要求6或7所述的方法，其特征在于，

12.根据权利要求6或7所述的方法，其特征在于，

13.根据权利要求6或7所述的方法，其特征在于，

14.根据权利要求1所述的方法，其特征在于，

15.根据权利要求1所述的方法，其特征在于，

16.一种全景视频自动标注和追踪物体的装置，其特征在于，该装置包括：标注单元、追踪单元、播放单元；

17.根据权利要求16所述的装置，其特征在于，

所述标注单元，对全景视频中的每帧全景图像进行区域划分时，用于：

18.根据权利要求17所述的装置，其特征在于，

所述标注单元，对划分后的多个区域进行合并处理包括：对于划分后的任意两个区域，如果该两个区域存在重合区域，则合并该两个区域；或者，如果该两个区域中心之间的距离小于预设阈值，则合并该两个区域。

19.根据权利要求16所述的装置，其特征在于，

所述标注单元，在划分的每个区域上执行基于多视角的物体标注时，用于：

20.根据权利要求19所述的装置，其特征在于，

所述标注单元，基于该区域在k个观察视角下的投影图对该区域的物体进行识别和标注时，用于：

21.根据权利要求16所述的装置，其特征在于，

所述物体标注信息包括：全景图像时间戳t、物体标识id；

物体的显示属性包括：持续显示时间；

所述追踪单元，针对全景视频中出现的物体的持续显示时间，根据存储的物体标注信息和以持续显示时间优先的物体追踪原则，生成持续显示时间对应的基于时间线的观察视角时，用于：

22.根据权利要求21所述的装置，其特征在于，

物体的显示属性包括：显示面积；

所述追踪单元，针对全景视频中出现的物体的显示面积，根据存储的物体标注信息和以显示面积优先的物体追踪原则，生成显示面积对应的基于时间线的观察时，用于：

23.根据权利要求22所述的装置，其特征在于，

所述标注单元，对全景视频中的每帧全景图像进行区域划分，并在划分的每个区域上执行基于多视角的物体标注并存储物体标注信息之后，进一步用于：

针对全景视频中出现的每个物体，执行以下操作：

24.根据权利要求23所述的装置，其特征在于，

所述播放单元，根据用户的播放请求，播放任一类显示属性对应的基于时间线的观察视角对应的普通视频的过程中，对于播放的每一帧全景图像，如果该帧全景图像中的默认观察物体的标注信息中放大动作对应的值大于1，则根据该放大动作对应的值将该以该默认物体为中心的图像内容放大；如果接收到用户针对该帧全景图像的视频切换请求，则根据该帧全景图像中默认观察物体的标注信息确定视频切换动作对应的值，并根据视频切换动作对应的值对普通视频进行视频切换。

25.根据权利要求21或22所述的装置，其特征在于，

所述播放单元，根据用户的播放请求，播放任一类显示属性对应的基于时间线的观察视角对应的普通视频的过程中，如果接收到用户对任一帧全景图像中任一物体的资源搜索请求，则基于该物体标签搜索外部资源并在视频播放界面中输出搜索结果。

26.根据权利要求21或22所述的装置，其特征在于，

所述播放单元，根据用户的播放请求，播放任一类显示属性对应的基于时间线的观察视角对应的普通视频的过程中，如果接收到用户对任一帧全景图像中任一物体的追踪请求，则将该物体设置为本次播放过程中从该帧图像开始到该物体消失所关联的所有全景图像的默认观察物体，且该物体消失后的所有全景图像的原有默认观察物体保持不变。

27.根据权利要求21或22所述的装置，其特征在于，

所述播放单元，根据用户的播放请求，播放任一类显示属性对应的基于时间线的观察视角对应的普通视频的过程中，识别每帧全景图像的空闲区域，并在空闲区域投放广告信息；所述空闲区域为色差在预设范围内且面积超过预设面积的区域。

28.根据权利要求21或22所述的装置，其特征在于，

所述播放单元，根据用户的播放请求，播放任一类显示属性对应的基于时间线的观察视角对应的普通视频的过程中，如果接收到用户对任一帧全景图像中任一物体的内容推送请求，则从预先设置的全景视频中各物体的推送内容中找出该物体的推送内容，并通过AR增强方式在物体上浮动显示该推送内容。

29.根据权利要求16所述的装置，其特征在于，

所述追踪单元，生成所有类别的显示属性对应的基于时间线的观察视角之后，进一步用于：将每类显示属性对应的基于时间线的观察视角对应的普通视频以缩略图形式输出到显示屏上，以供用户点击来触发针对该类显示属性对应的基于时间线的观察视角的播放请求。

30.根据权利要求16所述的装置，其特征在于，

所述标注单元，对全景视频中的每帧全景图像进行区域划分，并在划分的每个区域上执行基于多视角的物体标注并存储物体标注信息之前，进一步用于：计算该帧全景图像与前一帧全景图像的相似度，如果相似度达于预设相似度值，则该帧全景图像中的所有物体继承前一帧图像的所有物体的标注信息。