CN112052357B

CN112052357B - 一种视频片段标记方法、设备及手持相机

Info

Publication number: CN112052357B
Application number: CN202010296290.4A
Authority: CN
Inventors: 康含玉; 梁峰
Original assignee: Shanghai Moxiang Network Technology Co ltd
Current assignee: Shanghai Moxiang Network Technology Co ltd
Priority date: 2020-04-15
Filing date: 2020-04-15
Publication date: 2022-04-01
Anticipated expiration: 2040-04-15
Also published as: CN112052357A; WO2021208255A1

Abstract

本申请实施例提供一种视频片段标记方法、设备及手持相机，包括：对视频片段中的连续图像帧进行识别，获得连续图像帧中至少一个目标图像帧所对应的属性信息；然后根据目标图像帧对应的属性信息，获得视频片段的标记描述信息，其中，标记描述信息包括基于比特位来记录的信息，比特位的长度为T*N，T表示目标图像帧中的对象类别数量，N为大于或者等于4的整数。因此，本发明实施例不仅实可实现用统一的方式记录不同图像识别算法对视频片段中连续图像帧的识别结果，还可极大地节约存储空间。

Description

一种视频片段标记方法、设备及手持相机

技术领域

本申请实施例涉及图像处理技术领域，尤其涉及一种视频片段标记方法、设备及手持相机。

背景技术

随着图像处理技术的发展，出现了越来越多的图像识别算法。通过图像识别算法对视频片段中的连续图像帧进行识别及标记后，可生成用于描述视频片段的描述信息，从而后续可根据视频片段对应的描述信息，对视频片段或者视频片段中的部分图像帧进行搜索、聚类等多种处理。

为了满足不同的视频处理需求，通常会采用多种图像识别算法对视频中的连续图像帧进行识别，但是不同种类的图像识别算法所生成的描述信息的记录方式会有所不同，导致后续进行搜索、聚类等处理时对描述信息使用不便。

发明内容

有鉴于此，本发明实施例所解决的技术问题之一在于提供一种视频片段标记方法、设备及手持相机，用以克服现有技术中多种图像识别算法所生成的描述信息记录方式不统一，不利于后续数据处理及存储的缺陷。

本申请实施例提供了一种视频片段标记法，包括：

对视频片段中的连续图像帧进行识别，获得所述连续图像帧中至少一个目标图像帧所对应的属性信息；

根据所述目标图像帧对应的属性信息，获得所述视频片段的标记描述信息，其中，所述标记描述信息包括基于比特位来记录的信息，所述比特位的长度为T*N，T表示所述目标图像帧中的对象类别数量，N为大于或者等于4的整数。

可选的，所述属性信息包括用于标识所述目标图像帧对应的至少一对象类别的识别标记的识别标记信息；对应的，根据所述目标图像帧对应的属性信息，获得所述视频片段的标记描述信息包括：

根据所述目标图像帧对应的所述识别标记信息，确定所述目标图像帧中的至少一第一目标类别对应的所述识别标记的数量；

根据所述目标图像帧中的至少一第一目标类别对应的所述识别标记的数量，获得所述视频片段的标记描述信息。

可选的，所述识别标记信息包括下述信息中的至少其一：

用于标识所述目标图像帧对应的物体对象类别的识别标记的物体类别信息；用于标识所述目标图像帧对应的场景对象类别的识别标记的场景类别信息；用于标识所述目目标图像帧对应的人脸对象类别的识别标记的人脸类别信息。

可选的，所述人脸类别信息包括下述子信息中的至少其一：用于标识所述目标图像帧对应的表情类别的识别标记的表情子属性信息；用于标识所述目标图像帧对应的朝向类别的识别标记的朝向子属性信息；用于标识所述目标图像帧对应的性别的识别标记的性别子属性信息。

可选的，所述方法还包括：根据所述目标图像帧对应的所述识别标记信息，获得所述视频片段的标记记录信息，其中，所述标记记录信息用于记录所述目标图像帧中的至少一个第二目标类别对应的识别标记。

可选的，所述属性信息包括用于标识所述目标图像帧对应的时间戳的时间信息，所述方法还包括：根据所述目标图像帧对应的所述时间信息，获得所述视频片段的第一时间描述信息和/或第二时间描述信息；其中，所述第一时间描述信息用于记录包括至少一目标标记的所述目标图像帧对应的时间戳，所述第二时间描述信息用于记录所述视频片段的开始时间戳和结束时间戳。

可选的，所述N等于8。

本申请实施例还提供了一种视频片段标设备，包括：存储器、处理器、视频采集器，所述视频采集器用于采集目标区域的待跟踪目标；所述存储器用于存储程序代码；所述处理器，调用所述程序代码，当程序代码被执行时，用于执行以下操作：

本申请实施例还提供了一种手持相机，包括根据前述的视频片段标记设备，其特征在于，还包括：承载器，所述承载器与所述视频采集器固定连接，用于承载所述视频采集器的至少一部分。

可选的，所述承载器包括但不限于手持云台。

可选的，所述手持云台为手持三轴云台。

可选的，所述视频采集器包括但不限于手持三轴云台用摄像头。

本申请实施例中，通过对视频片段中的连续图像帧进行识别，获得连续图像帧中至少一个目标图像帧所对应的属性信息；然后根据目标图像帧对应的属性信息，获得视频片段的标记描述信息，其中，标记描述信息包括基于比特位来记录的信息，比特位的长度为T*N，T表示目标图像帧中的对象类别数量，N为大于或者等于4的整数。因此，本发明实施例不仅可以用统一的方式记录不同图像识别算法对视频片段中连续图像帧的识别结果，还可极大地节约存储空间。

附图说明

后文将参照附图以示例性而非限制性的方式详细描述本申请实施例的一些具体实施例。附图中相同的附图标记标示了相同或类似的部件或部分。本领域技术人员应该理解，这些附图未必是按比值绘制的。附图中：

图1为本申请实施例一提供的一种视频片段标记方法的示意性流程图；

图2为本申请实施例二提供的一种视频片段标记方法的示意性流程图；

图3为本申请实施例三提供的一种视频片段标记方法的示意性流程图；

图4为本申请实施例四提供的一种视频片段标记设备的示意性结构图；

图5为本申请实施例五提供的一种手持云台的示意性结构图；

图6为本申请实施例五提供的一种手持云台的与手机连接的示意性结构图；

图7为本申请实施例五提供的一种手持云台的示意性结构图。

具体实施方式

在本发明使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本发明。在本发明和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包括一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，本申请说明书以及权利要求书中使用的“第一”“第二”以及类似的词语并不表示任何顺序、数量或者重要性，而只是用来区分不同的组成部分。同样，“一个”或者“一”等类似词语也不表示数量限制，而是表示存在至少一个。

下面结合本发明实施例附图进一步说明本发明实施例具体实现。

实施例一

本申请实施例一提供一种视频片段标记方法，如图1所示，图1为本申请实施例提供的一种视频片段标记的示意性流程图，包括：

步骤S101，对视频片段中的连续图像帧进行识别，获得连续图像帧中至少一个目标图像帧所对应的属性信息。

本实施例中，视频片段中包括连续的多个图像帧，视频片段中的连续图像帧的数量不限。例如在对长视频进行处理时，可将一个长视频分为多个短的视频片段，每个视频片段中包括的连续图像帧数量可以是固定值或者非固定值。

本实施例中，可使用一种或者多种图像识别算法对视频片段中的连续图像帧进行识别。所选用的图像识别算法的种类不限，在实际应用中可根据视频处理需求或者执行处理的硬件配置进行选择。

本实施例中，目标图像帧为视频片段中连续图像帧中的部分或者全部，至少一种图像识别算法对连续图像帧进行识别后，可生成用于标识对目标图像帧的识别结果的属性信息。属性信息中所包括的信息种类和对信息的标识方式不限，主要取决于对目标图像帧进行识别的图像识别算法。

例如，可利用识别物体类别的图像识别算法，获得用于标识目标图像帧中是否包括人、猫、狗等物体对象的属性信息；可利用识别场景类别的图像识别算法，获得用于标识目标图像帧中是否包括天空、大海、草地等场景对象的属性信息。

步骤S102，根据目标图像帧对应的属性信息，获得视频片段的标记描述信息。

本实施例中，标记描述信息用于记录对目标图像帧的图像识别结果的描述内容，以使得后续可根据标记描述信息进行视频片段之间的相似性比较、聚类等视频处理操作。标记描述信息对目标图像帧的图像识别结果进行描述的方式不限。例如，标记描述信息可以用于描述视频片段中总计出现过多少只猫，或者用于描述视频片段中出现的猫的数量级等。

本实施例中，标记描述信息包括基于比特位来记录的信息，比特位的长度为T*N，T表示目标图像帧中的对象类别数量，N为大于或者等于4的整数。其中，T的取值可根据后续的视频处理需求和/或对视频片段中连续图像帧的图像识别结果确定；N的取值可根据后续的视频处理需求和/或进行数据处理的硬件存储空间确定。

例如，如果目标图像帧中的对象类别包括人、猫、狗三种的话，则比特位的长度为3N。当N取值为4时，即每种类别的比特位长度为4位，则人、猫、狗三种类别一共需使用12位进行记录。

本实施例中，比特位是计算机最小的存储单位，以0或1来表示比特位的值，越多的比特位数可以记录越复杂的图像信息，本实施例中基于比特位来记录的规则不限，在实际应用中可根据后续的视频处理需求和/或视频片段内容设定比特位的记录规则。

例如，若标记描述信息用于记录视频片段全部目标图像帧中包括的人脸数，当设置N的取值为4时，可使用0001记录一共有0张人脸，使用0010记录一共有1张人脸，使用0100记录一共有2张人脸，使用1000记录一共有3张以上的人脸。

又例如，当设置N的取值为5时，可使用00000记录一共有0张人脸，使用00001记录一共有1张人脸，使用00010记录一共有2张人脸，使用00011记录一共有3张人脸，使用00100记录一共有4张人脸等。

采用基于比特位来记录的信息一方面可以将不同图像识别算法进行图像处理的结果采用统一方式进行记录，便于进行后续视频处理操作；另一方面还可极大地节约存储空间。

可选的，通过多次应用测试，为广泛适用于包括不同内容的视频片段且不会占用较多的存储空间，优选N等于8。

由以上本发明实施例可见，本发明实施例首先对视频片段中的连续图像帧进行识别，获得连续图像帧中至少一个目标图像帧所对应的属性信息；然后根据目标图像帧对应的属性信息，获得视频片段的标记描述信息，其中，标记描述信息包括基于比特位来记录的信息，比特位的长度为T*N，T表示目标图像帧中的对象类别数量，N为大于或者等于4的整数。因此，本发明实施例不仅可以用统一的方式记录多种图像识别算法对视频片段中连续图像帧的识别结果，还可极大地节约数据存储空间。

实施例二

本申请实施例二提供一种视频片段标记方法，如图2所示，图2为本申请实施例提供的一种视频片段标记的示意性流程图，包括：

步骤S201，对视频片段中的连续图像帧进行识别，获得连续图像帧中至少一个目标图像帧所对应的属性信息，其中，属性信息包括识别标记信息。

本实施例中，可使用多种不同的图像识别算法对视频片段中的连续图像帧进行识别，并按照多个角度对目标图像帧或者目标图像帧中所包括的对象进行分类，以获得至少一个目标图像帧所对应的识别标记信息。其中，识别标记信息用于标识目标图像帧对应的至少一对象类别的识别标记，一个目标图像帧或者目标图像帧中的一个对象可对应于一个或者多个对象类别的识别标记，一种对象类别可包括多种不同的识别标记。

例如，当使用图像识别算法识别视频片段中的连续图像帧中所包括对象对应于“物体类别”和“狗类”时，若目标图像帧中包括三只狗的话，则在识别标记信息中可使用“DOG”标识三只狗在“物体类别”中对应的识别标记，分别使用“01”、“02”、“03”标识三只狗在“狗类”中对应的识别标记。

可选的，在满足后续视频处理需求的同时，为了尽可能地减少数据处理量，可仅对视频片段中的连续图像帧针对常见的对象类别进行识别。具体的，识别标记信息可包括下述信息中的至少其一：用于标识目标图像帧对应的物体对象类别的识别标记的物体类别信息；用于标识目标图像帧对应的场景对象类别的识别标记的场景类别信息；用于标识目目标图像帧对应的人脸对象类别的识别标记的人脸类别信息。

其中，物体对象类别是对目标图像帧中所包括的物体对象进行分类，分类的角度及对应的识别标识可根据视频处理需求或者所采用的图像识别算法所确定。例如，物体对象类别对应的识别标记可用于标识“人”、“猫”、“狗”等不同动物类别的物体对象，也可用于标识“动物”、“植物”、“日用品”等不同物品类别的物体对象。

场景对象类别是对目标图像帧中所包括的场景对象进行分类，分类的角度及对应的识别标识可根据视频处理需求或者所采用的图像识别算法所确定。例如，场景对象类别对应的识别标记可用于标识“雨天”、“晴天”、“阴天”等不同天气类别的场景对象，也可用于标识“草原”、“天空”、“大海”等不同背景类别的场景对象。

人脸对象类别是对目标图像帧中所包括的人脸对象进行分类，分类的角度及对应的识别标识可根据视频处理需求或者所采用的图像识别算法所确定。例如，人脸对象类别对应的识别标记可用于标识“老年人”、“中年人”、“儿童”等不同的年龄段的人脸对象，也可用于标识“圆脸”、“方脸”、“瓜子脸”等不同脸型的人脸对象。

可选的，由于随着互联网和视频拍摄相关技术的发展，用户在进行视频拍摄或者处理时更为关注对人物对象的识别及处理，因此为了满足大部分用户的需求，可针对目标图像帧中的人脸对象进行更多类别的识别及标识。具体的，人脸对象类别信息包括下述子信息中的至少其一：用于标识目标图像帧对应的表情类别的识别标记的表情子属性信息；用于标识目标图像帧对应的朝向类别的识别标记的朝向子属性信息；用于标识目标图像帧对应的性别的识别标记的性别子属性信息。

其中，表情类别是对目标图像帧中所包括的人脸按照表情进行分类，例如表情类别对应的识别标记可用于标识“笑”、“哭”、“发呆”等人脸表情。

朝向类别是对目标图像帧中所包括的人脸按照脸部朝向进行分类，例如朝向类别对应的识别标记可用于标识“正面”、“背面”、“侧面”等人脸朝向。

性别是对目标图像帧中所包括的人脸按照性别进行分类，例如性别对应的识别标记可用于标识“男性”、“女性”、“不确定”。

步骤S202，根据目标图像帧对应的识别标记信息，确定目标图像帧中的至少一第一目标类别对应的识别标记的数量。

本实施例中，为了减少数据处理和存储量，后续获得的标记描述信息可仅对较为重要的对象类别进行描述及记录。具体的，在步骤S202中可将全部对象类别中的至少一种确定为第一目标类别，从而可根据目标图像帧对应的识别标记信息，确定目标图像帧中第一目标类别对应的全部识别标记的数量。

例如，若第一目标类别为“狗类”，视频片段中的目标图像帧A、目标图像帧B、目标图像帧C中均包括对应的“狗类”的识别标记，其中通过识别标记“01”和“02”标记目标图像帧A中出现的两只狗，通过识别标记“01”和“03”标记目标图像帧B中出现的两只狗，通过识别标记“02”标记目标图像帧C中出现的一只狗，则该视频片段中共使用识别标记“01”、“02”、“03”分别标记出三只狗，即该视频片段中“狗类”对应的全部识别标记的数量为3。

步骤S203，根据目标图像帧中的至少一第一目标类别对应的识别标记的数量，获得视频片段的标记描述信息。

本实施例中，对视频片段的标记描述信息的记录方式与实施例一中的步骤S102中相同，本实施例在此不再赘述。

本实施例中，为了对识别获得的全部或者部分较为重要的识别标记进行记录用于后续的视频处理，还可包括：根据目标图像帧对应的识别标记信息，获得视频片段的标记记录信息，其中，标记记录信息用于记录目标图像帧中的至少一个第二目标类别对应的识别标记。

其中，第二类目标类别与前述第一目标类别相同或者不同均可；此外第二目标类别对应的识别标记可以是第二目标类别对应的全部识别标记，也可以是第二目标类别对应的部分识别标记，在实际应用中可根据后续的视频处理需求进行合理选择。

例如，若确定的第二目标类别为表情类别的话，在目标图像帧中共包括表情类别对应的“笑”、“哭”、“发呆”三种识别标记，标识记录信息可仅用于记录“笑”和“哭”两种识别标记，也可用于记录“笑”、“哭”、“发呆”三种识别标记。

可选的，由于不同图像识别算法对目标图像帧进行识别后获得的识别标记内容或者标识方式均不同，为了便于进行后续的视频处理，可采用相同的记录方式记录全部第二目标类别对应的识别标记。

可选的，为了节约存储空间，可采用int型的ID记录第二目标类别对应的识别标记，其中，每个ID对应一个识别标记。

由以上本发明实施例可见，本发明实施例根据目标图像帧对应的识别标记信息，可获得用于记录至少一第一目标类别对应的识别标记的数量的视频片段描述信息；并且通过选用后续视频处理常用到的对象类别对视频片段中连续图像帧进行识别，可降低数据处理及存储量；通过采用统一的方式记录标记记录信息，便于后续对数据的管理和使用。

实施例三

本申请实施例三提供一种视频片段标记方法，如图3所示，图3为本申请实施例提供的一种视频片段标记的示意性流程图，包括：

步骤S301，对视频片段中的连续图像帧进行识别，获得连续图像帧中至少一个目标图像帧所对应的属性信息，其中，属性信息包括识别标记信息和时间信息。

本实施例中，由于视频片段中的连续图像帧均包括对应的时间戳，为了对视频片段与时间相关的信息进行描述，在对视频片段中的连续图像帧进行识别时，可获得用于标识目标图像帧对应的时间戳的时间信息。

步骤S302，根据目标图像帧对应的识别标记信息获得视频片段的标记描述信息，以及根据目标图像帧对应的时间信息获得第一时间描述信息和/或第二时间描述信息。

本实施例中，第一时间描述信息用于记录包括至少一目标标记的目标图像帧对应的时间戳，从而根据第一时间描述信息可确定目标标记所标识的对象或者目标图像帧在视频片段中的出现时间。根据第一时间描述信息，后续可更为便捷地对包括目标标记的目标图像帧或者视频片段进行聚类、筛选等视频处理操作。

例如，在对视频片进行识别及描述时，用户可能会重点关注一只猫的出现情况，为满足该需求，可首先在目标图像帧中使用预设的目标标记对这只猫进行标识；然后通过获取包括目标标记的至少一目标图像帧对应的时间戳，可以确定这只猫在视频片段中的全部出现时间；从而最后可生成用于描述这只猫在视频片段中出现时间的第一时间描述信息。

可选的，为有效进行数据存储且节约存储空间，第一时间描述信息可以使用数组结构进行记录，其中，数组内存放的数字用于标识包括至少一目标标记的目标图像帧对应的时间戳。

其中，在实际应用中，目标标记通常用于标记后续视频处理所需的对象或者用户较为关注的对象。目标标记为至少一对象类别对应的识别标记中的一种或多种，可根据视频描述需求进行预先设定。

本实施例中，第二时间描述信息用于记录视频片段的开始时间戳和结束时间戳，从而后续可根据第二时间描述信息确定视频片段的开始和结束时间。

其中，视频片段的开始时间戳为视频片段连续图像帧中的第一个所对应的时间戳，视频片段的结束时间戳为视频片段连续图像帧中的最后一个所对应的时间戳。

可选的，为有效进行数据记录且节约存储空间，第二时间描述信息可以使用标识开始时间戳和结束时间戳的一串数字进行记录。

由以上本发明实施例可见，本发明实施例根据目标图像帧对应的时间信息获得第一时间描述信息和/或第二时间描述信息，可对视频片段与时间相关的信息进行描述与记录，因此对视频片段进行描述的信息可包括标记描述信息、第一时间描述信息和/或第二时间描述信息等多种，可更好满足后续视频处理需求。

实施例四

如图4所示，图4为本申请实施例四提供的一种视频处理设备40，包括：存储器401、处理器402、视频采集器403，所述视频采集器403用于采集目标区域的待跟踪目标；所述存储器401用于存储程序代码；所述处理器402，调用所述程序代码，当程序代码被执行时，用于执行以下操作：

在一个实施例中，所述属性信息包括用于标识所述目标图像帧对应的至少一对象类别的识别标记的识别标记信息；对应的，根据所述目标图像帧对应的属性信息，获得所述视频片段的标记描述信息包括：

在一个实施例中，所述识别标记信息包括下述信息中的至少其一：

在一个实施例中，所述人脸类别信息包括下述子信息中的至少其一：

用于标识所述目标图像帧对应的表情类别的识别标记的表情子属性信息；用于标识所述目标图像帧对应的朝向类别的识别标记的朝向子属性信息；用于标识所述目标图像帧对应的性别的识别标记的性别子属性信息。

在一个实施例中，所述处理器，调用所述程序代码，当程序代码被执行时，还用于执行以下操作：根据所述目标图像帧对应的所述识别标记信息，获得所述视频片段的标记记录信息，其中，所述标记记录信息用于记录所述目标图像帧中的至少一个第二目标类别对应的识别标记。

在一个实施例中，所述属性信息包括用于标识所述目标图像帧对应的时间戳的时间信息；所述处理器，调用所述程序代码，当程序代码被执行时，还用于执行以下操作：根据所述目标图像帧对应的所述时间信息，获得所述视频片段的第一时间描述信息和/或第二时间描述信息；其中，所述第一时间描述信息用于记录包括至少一目标标记的所述目标图像帧对应的时间戳，所述第二时间描述信息用于记录所述视频片段的开始时间戳和结束时间戳。

在一个实施例中，所述N等于8。

实施例五

一种手持相机，包括前述实施例四中所述的视频处理设备，还包括：承载器，所述承载器与所述视频采集器固定连接，用于承载所述视频采集器的至少一部分。

在一个实施例中，所述承载器包括但不限于手持云台。

在一个实施例中，所述手持云台为手持三轴云台。

在一个实施例中，所述视频采集器包括但不限于手持三轴云台用摄像头。

下面对手持云台相机的基本构造进行简单介绍。

如图5所示，本发明实施例的手持云台1，包括：手柄11和装载于所述手柄11的拍摄装置12，在本实施例中，所述拍摄装置12可以包括三轴云台相机，在其他实施例中包括两轴或三轴以上的云台相机。

所述手柄11设有用于显示所述拍摄装置12的拍摄内容的显示屏13。本发明不对显示屏13的类型进行限定。

通过在手持云台1的手柄11设置显示屏13，该显示屏可以显示拍摄装置12的拍摄内容，以实现用户能够通过该显示屏13快速浏览拍摄装置12所拍摄的图片或是视频，从而提高手持云台1与用户的互动性及趣味性，满足用户的多样化需求。

在一个实施例中，所述手柄11还设有用于控制所述拍摄装置12的操作功能部，通过操作所述操作功能部，能够控制拍摄装置12的工作，例如，控制拍摄装置12的开启与关闭、控制拍摄装置12的拍摄、控制拍摄装置12云台部分的姿态变化等，以便于用户对拍摄装置12进行快速操作。其中，所述操作功能部可以为按键、旋钮或者触摸屏的形式。

在一个实施例中，操作功能部包括用于控制所述拍摄装置12拍摄的拍摄按键14和用于控制所述拍摄装置12启闭和其他功能的电源/功能按键15，以及控制所述云台移动的万向键16。当然，操作功能部还可以包括其他控制按键，如影像存储按键、影像播放控制按键等等，可以根据实际需求进行设定。

在一个实施例中，所述操作功能部和所述显示屏13设于所述手柄11的同一面，图5中所示操作功能部和显示屏13均设于手柄11的正面，符合人机工程学，同时使整个手持云台1的外观布局更合理美观。

进一步地，所述手柄11的侧面设置有功能操作键A，用于方便用户快速地智能一键成片。摄影机开启时，点按机身右侧橙色侧面键开启功能，则每隔一段时间自动拍摄一段视频，总共拍摄N段(N≥2)，连接移动设备例如手机后，选择“一键成片”功能，系统智能筛选拍摄片段并匹配合适模板，快速生成精彩作品。

在一可选的实施方式中，所述手柄11还设有用于插接存储元件的卡槽17。在本实施例中，卡槽17设于所述手柄11上与所述显示屏13相邻的侧面，在卡槽17中插入存储卡，即可将拍摄装置12拍摄的影像存储在存储卡中。并且，将卡槽17设置在侧部，不会影响到其他功能的使用，用户体验较佳。

在一个实施例中，手柄11内部可以设置用于对手柄11及拍摄装置12供电的供电电池。供电电池可以采用锂电池，容量大、体积小，以实现手持云台1的小型化设计。

在一个实施例中，所述手柄11还设有充电接口/USB接口18。在本实施例中，所述充电接口/USB接口18设于所述手柄11的底部，便于连接外部电源或存储装置，从而对所述供电电池进行充电或进行数据传输。

在一个实施例中，所述手柄11还设有用于接收音频信号的拾音孔19，拾音孔19内部联通麦克风。拾音孔19可以包括一个，也可以包括多个。还包括用于显示状态的指示灯20。用户可以通过拾音孔19与显示屏13实现音频交互。另外，指示灯20可以达到提醒作用，用户可以通过指示灯20获得手持云台1的电量情况和目前执行功能情况。此外，拾音孔19和指示灯20也均可以设于手柄11的正面，更符合用户的使用习惯以及操作便捷性。

在一个实施例中，所述拍摄装置12包括云台支架和搭载于所述云台支架的拍摄器。所述拍摄器可以为相机，也可以为由透镜和图像传感器(如CMOS或CCD)等组成的摄像元件，具体可根据需要选择。所述拍摄器可以集成在云台支架上，从而拍摄装置12为云台相机；也可以为外部拍摄设备，可拆卸地连接或夹持而搭载于云台支架。

在一个实施例中，所述云台支架为三轴云台支架，而所述拍摄装置12为三轴云台相机。所述三轴云台支架包括偏航轴组件22、与所述偏航轴组件22活动连接的横滚轴组件23、以及与所述横滚轴组件23活动连接的俯仰轴组件24，所述拍摄器搭载于所述俯仰轴组件24。所述偏航轴组件22带动拍摄装置12沿偏航方向转动。当然，在其他例子中，所述云台支架也可以为两轴云台、四轴云台等，具体可根据需要选择。

在一个实施例中，还设置有安装部，安装部设置于与所述横滚轴组件连接的连接臂的一端，而偏航轴组件可以设置于所述手柄中，所述偏航轴组件带动拍摄装置12一起沿偏航方向转动。

在一可选的实施方式中，如图6所示，所述手柄11设有用于与移动设备2(如手机)耦合连接的转接件26，所述转接件26与所述手柄11可拆卸连接。所述转接件26自所述手柄的侧部凸伸而出以用于连接所述移动设备2，当所述转接件26与所述移动设备2连接后，所述手持云台1与所述转接件26对接并用于被支撑于所述移动设备2的端部。

在手柄11设置用于与移动设备2连接的转接件26，进而将手柄11和移动设备2相互连接，手柄11可作为移动设备2的一个底座，用户可以通过握持移动设备2的另一端来一同把手持云台1拿起操作，连接方便快捷，产品美观性强。此外，手柄11通过转接件26与移动设备2耦合连接后，能够实现手持云台1与移动设备2之间的通信连接，拍摄装置12与移动设备2之间能够进行数据传输。

在一个实施例中，所述转接件26与所述手柄11可拆卸连接，即转接件26和手柄11之间可以实现机械方面的连接或拆除。进一步地，所述转接件26设有电接触部，所述手柄11设有与所述电接触部配合的电接触配合部。

这样，当手持云台1不需要与移动设备2连接时，可以将转接件26从手柄11上拆除。当手持云台1需要与移动设备2连接时，再将转接件26装到手柄11上，完成转接件26和手柄11之间的机械连接，同时通过电接触部和电接触配合部的连接保证两者之间的电性连接，以实现拍摄装置12与移动设备2之间能够通过转接件26进行数据传输。

在一个实施例中，如图5所示，所述手柄11的侧部设有收容槽27，所述转接件26滑动卡接于所述收容槽27内。当转接件26装到收容槽27后，转接件26部分凸出于所述收容槽27，转接件26凸出收容槽27的部分用于与移动设备2连接。

在一个实施例中，参见图5所示，所当述转接件26自所述转接件26装入所述收容槽27时，所述转接部与所述收容槽27齐平，进而将转接件26收纳在手柄11的收容槽27内。

因此，当手持云台1需要和移动设备2连接时，可以将转接件26自所述转接部装入所述收容槽27内，使得转接件26凸出于所述收容槽27，以便移动设备2与手柄11相互连接

当移动设备2使用完毕后，或者需要将移动设备2拔下时，可以将转接件26从手柄11的收容槽27内取出，然后反向自所述转接件26装入所述收容槽27内，进而将转接件26收纳在手柄11内。转接件26与手柄11的收容槽27齐平当转接件26收纳在手柄11内后，可以保证手柄11的表面平整，而且将转接件26收纳在手柄11内更便于携带。

在一个实施例中，所述收容槽27是半开放式地开设在手柄11的一侧表面，这样更便于转接件26与收容槽27进行滑动卡接。当然，在其他例子中，转接件26也可以采用卡扣连接、插接等方式与手柄11的收容槽27可拆卸连接。

在一个实施例中，收容槽27设置于手柄11的侧面，在不使用转接功能时，通过盖板28卡接覆盖该收容槽27，这样便于用户操作，同时也不影响手柄的正面和侧面的整体外观。

在一个实施例中，所述电接触部与电接触配合部之间可以采用触点接触的方式实现电连接。例如，所述电接触部可以选择为伸缩探针，也可以选择为电插接口，还可以选择为电触点。当然，在其他例子中，所述电接触部与电接触配合部之间也可以直接采用面与面的接触方式实现电连接。

A1、一种视频片段标记方法，其特征在于，包括：

A2、根据A1所述的视频片段标记方法，其特征在于，所述属性信息包括用于标识所述目标图像帧对应的至少一对象类别的识别标记的识别标记信息；对应的，根据所述目标图像帧对应的属性信息，获得所述视频片段的标记描述信息包括：

A3、根据A2所述的视频片段标记方法，其特征在于，所述识别标记信息包括下述信息中的至少其一：

用于标识所述目标图像帧对应的物体对象类别的识别标记的物体类别信息；

用于标识所述目标图像帧对应的场景对象类别的识别标记的场景类别信息；

用于标识所述目目标图像帧对应的人脸对象类别的识别标记的人脸类别信息。

A4、根据A3所述的视频片段标记方法，其特征在于，所述人脸类别信息包括下述子信息中的至少其一：

用于标识所述目标图像帧对应的表情类别的识别标记的表情子属性信息；

用于标识所述目标图像帧对应的朝向类别的识别标记的朝向子属性信息；

用于标识所述目标图像帧对应的性别的识别标记的性别子属性信息。

A5、根据A2所述的视频片段标记方法，其特征在于，所述方法还包括：

根据所述目标图像帧对应的所述识别标记信息，获得所述视频片段的标记记录信息，其中，所述标记记录信息用于记录所述目标图像帧中的至少一个第二目标类别对应的识别标记。

A6、根据A2所述的视频片段标记方法，其特征在于，所述属性信息包括用于标识所述目标图像帧对应的时间戳的时间信息，所述方法还包括：

根据所述目标图像帧对应的所述时间信息，获得所述视频片段的第一时间描述信息和/或第二时间描述信息；其中，所述第一时间描述信息用于记录包括至少一目标标记的所述目标图像帧对应的时间戳，所述第二时间描述信息用于记录所述视频片段的开始时间戳和结束时间戳。

A7、根据A1所述的视频片段标记方法，其特征在于，所述N等于8。

A8、一种视频片段标记设备，其特征在于，包括：存储器、处理器、视频采集器，所述视频采集器用于采集目标区域的待跟踪目标；所述存储器用于存储程序代码；所述处理器，调用所述程序代码，当程序代码被执行时，用于执行以下操作：

A9、根据A8所述视频片段标记设备，其特征在于，所述属性信息包括用于标识所述目标图像帧对应的至少一对象类别的识别标记的识别标记信息；对应的，根据所述目标图像帧对应的属性信息，获得所述视频片段的标记描述信息包括：

A10、根据A9所述视频片段标记设备，其特征在于，所述识别标记信息包括下述信息中的至少其一：

A11、根据A10所述视频片段标记设备，其特征在于，所述人脸类别信息包括下述子信息中的至少其一：

A12、根据A9所述视频片段标记设备，其特征在于，所述处理器，调用所述程序代码，当程序代码被执行时，还用于执行以下操作：

A13、根据A9所述视频片段标记设备，其特征在于，所述属性信息包括用于标识所述目标图像帧对应的时间戳的时间信息；所述处理器，调用所述程序代码，当程序代码被执行时，还用于执行以下操作：

A14、根据A8所述视频片段标记设备，其特征在于，所述N等于8。

A15、一种手持相机，其特征在于，包括根据A8-A14中任一项所述的视频片段标记设备，其特征在于，还包括：承载器，所述承载器与所述视频采集器固定连接，用于承载所述视频采集器的至少一部分。

A16、如A15所述的手持相机，其特征在于，所述承载器包括但不限于手持云台。

A17、如A16所述的手持相机，其特征在于，所述手持云台为手持三轴云台。

A18、如A15所述的手持相机，其特征在于，所述视频采集器包括但不限于手持三轴云台用摄像头。

至此，已经对本主题的特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作可以按照不同的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序，以实现期望的结果。在某些实施方式中，多任务处理和并行处理可以是有利的。

在20世纪90年代，对于一个技术的改进可以很明显地区分是硬件上的改进(例如，对二极管、晶体管、开关等电路结构的改进)还是软件上的改进(对于方法流程的改进)。然而，随着技术的发展，当今的很多方法流程的改进已经可以视为硬件电路结构的直接改进。设计人员几乎都通过将改进的方法流程编程到硬件电路中来得到相应的硬件电路结构。因此，不能说一个方法流程的改进就不能用硬件实体模块来实现。例如，可编程逻辑器件(Programmable Logic Device,PLD)(例如现场可编程门阵列(Field Programmable GateArray，FPGA))就是这样一种集成电路，其逻辑功能由用户对器件编程来确定。由设计人员自行编程来把一个数字系统“集成”在一片PLD上，而不需要请芯片制造厂商来设计和制作专用的集成电路芯片。而且，如今，取代手工地制作集成电路芯片，这种编程也多半改用“逻辑编译器(logic compiler)”软件来实现，它与程序开发撰写时所用的软件编译器相类似，而要编译之前的原始代码也得用特定的编程语言来撰写，此称之为硬件描述语言(Hardware Description Language，HDL)，而HDL也并非仅有一种，而是有许多种，如ABEL(Advanced Boolean Expression Language)、AHDL(Altera Hardware DescriptionLanguage)、Confluence、CUPL(Cornell University Programming Language)、HDCal、JHDL(Java Hardware Description Language)、Lava、Lola、MyHDL、PALASM、RHDL(RubyHardware Description Language)等，目前最普遍使用的是VHDL(Very-High-SpeedIntegrated Circuit Hardware Description Language)与Verilog。本领域技术人员也应该清楚，只需要将方法流程用上述几种硬件描述语言稍作逻辑编程并编程到集成电路中，就可以很容易得到实现该逻辑方法流程的硬件电路。

控制器可以按任何适当的方式实现，例如，控制器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(Application Specific Integrated Circuit，ASIC)、可编程逻辑控制器和嵌入微控制器的形式，控制器的例子包括但不限于以下微控制器：ARC 625D、Atmel AT91SAM、Microchip PIC18F26K20以及Silicone Labs C8051F320，存储器控制器还可以被实现为存储器的控制逻辑的一部分。本领域技术人员也知道，除了以纯计算机可读程序代码方式实现控制器以外，完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件，而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至，可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。

上述实施例阐明的系统、装置、模块或单元，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的，计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

本领域技术人员应明白，本申请的实施例可提供为方法、系统或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定事务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行事务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种视频片段标记方法，其特征在于，包括：

对视频片段中的连续图像帧进行识别，获得所述连续图像帧中至少一个目标图像帧所对应的属性信息，其中，所述属性信息包括用于标识所述目标图像帧对应的至少一对象类别的识别标记的识别标记信息；

根据所述目标图像帧中的至少一第一目标类别对应的所述识别标记的数量，获得所述视频片段的标记描述信息，其中，所述标记描述信息包括基于比特位来记录的信息，所述比特位的长度为T*N，T表示所述目标图像帧中的对象类别数量，N为大于或者等于4的整数；以及，

2.根据权利要求1所述的视频片段标记方法，其特征在于，所述识别标记信息包括下述信息中的至少其一：

3.根据权利要求2所述的视频片段标记方法，其特征在于，所述人脸类别信息包括下述子信息中的至少其一：

4.根据权利要求1所述的视频片段标记方法，其特征在于，所述属性信息包括用于标识所述目标图像帧对应的时间戳的时间信息，所述方法还包括：

5.根据权利要求1所述的视频片段标记方法，其特征在于，所述N等于8。

6.一种视频片段标记设备，其特征在于，包括：存储器、处理器、视频采集器，所述视频采集器用于采集目标区域的待跟踪目标；所述存储器用于存储计算机可执行程序；所述处理器，调用所述计算机可执行程序，当计算机可执行程序被执行时，用于执行以下操作：

7.根据权利要求6所述视频片段标记设备，其特征在于，所述识别标记信息包括下述信息中的至少其一：

8.根据权利要求7所述视频片段标记设备，其特征在于，所述人脸类别信息包括下述子信息中的至少其一：

9.根据权利要求6所述视频片段标记设备，其特征在于，所述属性信息包括用于标识所述目标图像帧对应的时间戳的时间信息；所述处理器，调用所述计算机可执行程序，当计算机可执行程序被执行时，还用于执行以下操作：

10.根据权利要求6所述视频片段标记设备，其特征在于，所述N等于8。

11.一种手持相机，其特征在于，包括根据权利要求6-10中任一项所述的视频片段标记设备，其特征在于，还包括：承载器，所述承载器与所述视频采集器固定连接，用于承载所述视频采集器的至少一部分。

12.如权利要求11所述的手持相机，其特征在于，所述承载器包括但不限于手持云台。

13.如权利要求12所述的手持相机，其特征在于，所述手持云台为手持三轴云台。

14.如权利要求11所述的手持相机，其特征在于，所述视频采集器包括但不限于手持三轴云台用摄像头。