CN109934931A

CN109934931A - 采集图像、建立目标物体识别模型的方法及装置

Info

Publication number: CN109934931A
Application number: CN201810118842.5A
Authority: CN
Inventors: 谢宏伟; 李博韧; 李军舰
Original assignee: Alibaba Group Holding Ltd
Current assignee: Wuzhou Online E Commerce Beijing Co ltd
Priority date: 2017-12-19
Filing date: 2018-02-06
Publication date: 2019-06-25
Anticipated expiration: 2038-02-06
Also published as: CN109934931B

Abstract

本申请实施例公开了采集图像、建立目标物体识别模型的方法及装置，其中，所述方法包括：获得处于摄像机取景状态的图像，并启动计算机视觉跟踪；根据计算机视觉跟踪启动时刻终端设备所在的位置建立世界坐标系；针对进入到摄像机取景范围的图像，获得用于代表目标物体所在位置的多个标注点，记录所述多个标注点在所述世界坐标系中的坐标；在对所述目标物体进行图像采集的过程中，针对待标定的图像帧，通过跟踪所述多个标注点在该帧图像的像平面中的映射位置，对所述目标物体在该帧图像中的位置进行标定。通过本申请实施例，可以提高标定效率。

Description

采集图像、建立目标物体识别模型的方法及装置

技术领域

本申请涉及图像标定技术领域，特别是涉及采集图像、建立目标物体识别模型的方法及装置。

背景技术

在AR/VR等相关的业务中，利用机器学习方法在图像中进行场景/物体的识别应用广泛，而在机器学习过程中，需要用到大量的图像训练样本，并需要对图像训练样本中的目标物体进行标注。所谓的标注也就是指，需要标注出目标物体在图像中的位置，以便机器学习时从目标物体的图像中进行特征提取进行学习。

现有技术中，图像训练样本的标注主要分为两种，一种是基于二维图像的标注，另一种是基于物体CAD模型的三维图像标注。所谓二维图像标注主要是指在二维图像中标注目标物体所在的矩形区域，该过程通常需要由工作人员通过手工标注的方式来完成。也即，需要工作人员在各个图像中手动框选出目标物体所在的位置。但是，手工标注的效率会很低，在图像训练样本众多的情况下，需要耗费大量的人力以及时间成本去进行标注。

基于物体CAD模型的三维图像标注，则主要是将预先拍摄的视频中的各帧作为图像训练样本，首先获得目标物体的CAD模型，例如，当视频中的目标物体为一辆汽车时，需要首先获得该汽车的CAD模型，然后，在其中一帧图像中人为标注CAD模型中的多个点与目标物体对应的特征点之间的对应关系。随后可以利用model-based tracking通过跟踪目标物体以进行批量标注，跟踪的过程具体是利用标注出的目标物体的特征点，在其他帧图像中识别出目标物体所在的位置。这种在3D空间中的标注方法较之二维图像标注自动化程度高，可实现标注视频中的一帧进而自动标注整个视频的目的。同时，自动标注本身对标注精度也有统一量化标准，较之人为标注更加精确。然而，其缺点也十分明显，即通常情况下，目标物体的CAD模型通常是由目标物体的生产或者设计方提供，但是，如果生产或者设计方无法提供CAD模型，则会无法利用上述方式实现自动标注，而且在实际应用中，这种现象又是很常见的，也即，很难获取目标物体的CAD模型，因此，影响了这种方法的通用性。其次，即使能够找到目标物体的CAD模型，由于对目标物体的跟踪通常情况下依赖物体上有足够多的特征点，但是，当物体本身是纯色、高反光或透明等情况时，model-based tracking将无法保证其足够的准确性，进而影响自动标注的效果。

因此，如何更准确有效的进行图像自动标注，并提高方法的通用性，成需要本领域技术人员解决的技术问题。

发明内容

本申请提供了采集图像、建立目标物体识别模型的方法及装置，可以提高标定效率。

本申请提供了如下方案：

一种采集图像的方法，包括：

获得处于摄像机取景状态的图像，并启动计算机视觉跟踪；

根据计算机视觉跟踪启动时刻终端设备所在的位置建立世界坐标系；

针对进入到摄像机取景范围的图像，获得用于代表目标物体所在位置的多个标注点，记录所述多个标注点在所述世界坐标系中的坐标；

在对所述目标物体进行图像采集的过程中，针对待标定的图像帧，通过跟踪所述多个标注点在该帧图像的像平面中的映射位置，对所述目标物体在该帧图像中的位置进行标定。

一种建立目标物体识别模型的方法，包括：

接收第一客户端提交的训练素材，所述训练素材包括视频文件，以及保存有目标物体在各帧图像中的位置标定信息的文档文件，其中，所述位置标定信息是在采集所述视频文件的过程中，通过跟踪目标物体的多个标注点在各帧图像中的位置而确定的，所述多个标注点是在摄像机取景状态下获得的；

从所述视频文件中提取出至少一帧图像，并从所述文档文件中确定各帧图像对应的目标物体的位置标定信息；

根据各帧图像对应的目标物体位置标定信息，生成对所述目标物体的识别模型。

一种增强现实AR信息提供方法，包括：

采集实体店铺内的实景图像；

获取所述实体店铺关联的物体识别模型信息；

利用所述物体识别模型从所述实景图像中识别目标物体所在的位置信息，其中，所述物体识别模型通过以下方式进行建立：获得第一客户端提交的训练素材，所述训练素材包括视频文件，以及保存有目标物体在各帧图像中的位置标定信息的文档文件，根据各帧图像对应的目标物体位置标定信息，生成对所述目标物体的识别模型；其中，所述位置标定信息是在采集所述视频文件的过程中，通过跟踪目标物体的多个标注点在各帧图像中的位置而确定的，所述多个标注点是在摄像机取景状态下获得的；

根据所述目标物体在所述实景图像中的位置信息，确定关联的AR素材信息的展示位置，并对所述AR素材信息进行展示。

一种增强现实AR信息提供方法，包括：

提供物体识别模型与实体店铺以及AR素材之间的关联关系；其中，所述物体识别模型通过以下方式进行建立：获得第一客户端提交的训练素材，所述训练素材包括视频文件，以及保存有目标物体在各帧图像中的位置标定信息的文档文件，根据各帧图像对应的目标物体位置标定信息，生成对所述目标物体的识别模型；其中，所述位置标定信息是在采集所述视频文件的过程中，通过跟踪目标物体的多个标注点在各帧图像中的位置而确定的，所述多个标注点是在摄像机取景状态下获得的；

接收第二客户端提交的获取物体识别模型的请求，所述请求中携带有目标实体店铺的标识信息；

将所述目标实体店铺关联的各物体识别模型以及对应的AR素材信息提供给所述第二客户端，以用于根据所述物体识别模型识别实景图像中的目标物体，并根据所述目标物体所在的位置对所述关联的AR素材进行展示。

一种采集图像的装置，包括：

初始化单元，用于获得处于摄像机取景状态的图像，并启动计算机视觉跟踪；

坐标系建立单元，用于根据计算机视觉跟踪启动时刻终端设备所在的位置建立世界坐标系；

标注点获得单元，用于针对进入到摄像机取景范围的图像，获得用于代表目标物体所在位置的多个标注点，记录所述多个标注点在所述世界坐标系中的坐标；

位置标定单元，用于在对所述目标物体进行图像采集的过程中，针对待标定的图像帧，通过跟踪所述多个标注点在该帧图像的像平面中的映射位置，对所述目标物体在该帧图像中的位置进行标定。

一种建立目标物体识别模型的装置，包括：

素材接收单元，用于接收第一客户端提交的训练素材，所述训练素材包括视频文件，以及保存有目标物体在各帧图像中的位置标定信息的文档文件，其中，所述位置标定信息是在采集所述视频文件的过程中，通过跟踪目标物体的多个标注点在各帧图像中的位置而确定的，所述多个标注点是在摄像机取景状态下获得的；

提取单元，用于从所述视频文件中提取出至少一帧图像，并从所述文档文件中确定各帧图像对应的目标物体的位置标定信息；

模型生成单元，用于根据各帧图像对应的目标物体位置标定信息，生成对所述目标物体的识别模型。

一种增强现实AR信息提供装置，包括：

图像采集单元，用于采集实体店铺内的实景图像；

识别模型获取单元，用于获取所述实体店铺关联的物体识别模型信息；

识别单元，用于利用所述物体识别模型从所述实景图像中识别目标物体所在的位置信息，其中，所述物体识别模型通过以下方式进行建立：获得第一客户端提交的训练素材，所述训练素材包括视频文件，以及保存有目标物体在各帧图像中的位置标定信息的文档文件，根据各帧图像对应的目标物体位置标定信息，生成对所述目标物体的识别模型；其中，所述位置标定信息是在采集所述视频文件的过程中，通过跟踪目标物体的多个标注点在各帧图像中的位置而确定的，所述多个标注点是在摄像机取景状态下获得的；

AR展示单元，用于根据所述目标物体在所述实景图像中的位置信息，确定关联的AR素材信息的展示位置，并对所述AR素材信息进行展示。

一种增强现实AR信息提供装置，包括：

关联关系提供单元，用于提供物体识别模型与实体店铺以及AR素材之间的关联关系；其中，所述物体识别模型通过以下方式进行建立：获得第一客户端提交的训练素材，所述训练素材包括视频文件，以及保存有目标物体在各帧图像中的位置标定信息的文档文件，根据各帧图像对应的目标物体位置标定信息，生成对所述目标物体的识别模型；其中，所述位置标定信息是在采集所述视频文件的过程中，通过跟踪目标物体的多个标注点在各帧图像中的位置而确定的，所述多个标注点是在摄像机取景状态下获得的；

请求接收单元，用于接收第二客户端提交的获取物体识别模型的请求，所述请求中携带有目标实体店铺的标识信息；

信息提供单元，用于将所述目标实体店铺关联的各物体识别模型以及对应的AR素材信息提供给所述第二客户端，以用于根据所述物体识别模型识别实景图像中的目标物体，并根据所述目标物体所在的位置对所述关联的AR素材进行展示。

一种电子设备，包括：

一个或多个处理器；以及

与所述一个或多个处理器关联的存储器，所述存储器用于存储程序指令,所述程序指令在被所述一个或多个处理器读取执行时，执行如下操作：

获得处于摄像机取景状态的图像，并启动计算机视觉跟踪；

一种图像标定方法，包括：

在对目标物体进行图像采集的过程中，启动计算机视觉跟踪，并根据计算机视觉跟踪启动时刻终端设备所在的位置建立世界坐标系；

获得用于代表目标物体所在位置的多个标注点，并记录所述多个标注点在所述世界坐标系中的坐标；

针对待标定的图像帧，通过跟踪所述多个标注点在该帧图像的像平面中的映射位置，对所述目标物体在该帧图像中的位置进行标定。

一种图像标定装置，包括：

坐标系建立单元，用于在对目标物体进行图像采集的过程中，启动计算机视觉跟踪，并根据计算机视觉跟踪启动时刻终端设备所在的位置建立世界坐标系；

标注点获得单元，用于获得用于代表目标物体所在位置的多个标注点，并记录所述多个标注点在所述世界坐标系中的坐标；

标定单元，用于针对待标定的图像帧，通过跟踪所述多个标注点在该帧图像的像平面中的映射位置，对所述目标物体在该帧图像中的位置进行标定。

根据本申请提供的具体实施例，本申请公开了以下技术效果：

通过本申请实施例，能够在摄像机组件的待命状态下启动计算机视觉跟踪，根据启动跟踪时终端设备所在的位置建立世界坐标系，并从摄像机的取景图像中获得标注点，用于代表目标物体在世界坐标系中的位置。这样，具体在开始采集目标物体图像之后，就可以实现一边采集一边对目标物体在各帧图像中的位置进行标定。通过该方案，不再需要手动的对每一帧图像进行标定，也不需要依赖于目标物体的CAD模型，并且，还能实现在采集图像的过程中完成标定的操作，不再需要完成图像采集之后再一帧一帧的进行标定，因此，可以提高效率。

当然，实施本申请的任一产品并不一定需要同时达到以上所述的所有优点。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的系统架构示意图；

图2是本申请实施例提供的第一方法的流程图；

图3是本申请实施例提供的第一界面的示意图；

图4是本申请实施例提供的第二界面的示意图；

图5是本申请实施例提供的第三界面的示意图；

图6是本申请实施例提供的第二方法的流程图；

图7是本申请实施例提供的第三方法的流程图；

图8是本申请实施例提供的第四方法的流程图；

图9是本申请实施例提供的第一装置的示意图；

图10是本申请实施例提供的第二装置的示意图；

图11是本申请实施例提供的第三装置的示意图；

图12是本申请实施例提供的第四装置的示意图；

图13是本申请实施例提供的电子设备的示意图；

图14是本申请实施例提供的第五方法的流程图；

图15是本申请实施例提供的第五装置的示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员所获得的所有其他实施例，都属于本申请保护的范围。

在传统的图像标注方案中，通常是首先进行图像采集，然后针对采集到的图像进行目标物体的标注，再将带有标注信息的图像作为训练样本。例如，在一种方式下，可以将目标物体放置在中央，使用手机等终端设备围绕该目标物体一周进行360度的拍摄，并使得手机摄像头始终对准该目标物体，从而得到相应的视频，这样，就可以从该视频中提取出各帧图像，并在各帧图像基础上对目标物体进行标注，得到该目标物体的训练样本。其中，具体的标注方式就可以包括手动标注，或者基于CAD模型的标注，等等。

而在本申请实施例中，可以提供一种自动标注的方案，并且，可以不需要借助于目标物体的CAD模型，还可以边拍摄边进行对目标物体的标注，在视频拍摄完成时，也完成了对各帧图像的标注操作，也即，不需要在拍摄完视频之后，再分别针对各帧图像进行目标物体的标注操作，因此，可以有效的提高标注效率。具体的，可以在进行视频拍摄的过程中，借助于计算机视觉惯性组件(例如ARKit等)进行跟踪，并且，在摄像机组件启动之后的拍摄待命状态下(也即，摄像机开始取景，终端设备的屏幕上能够显示出取景图像，但是用户尚未按下拍摄按钮)，还可以针对进入到摄像机取景范围的图像，获得用于代表其中包含的目标物体所在位置的多个标注点，可以通过这些标注点勾勒出目标物体的轮廓，进而，在开始进行拍摄后，可以对这种标注点的位置进行跟踪，在每采集到一帧图像时，可以确定出这些标注点在图像的像平面中的映射位置，这种映射位置便可以用于确定目标物体在这帧图像中的位置。

具体实现时，从系统架构角度而言，参见图1，本申请实施例首先可以提供第一客户端，该第一客户端可以是提供给相关工作人员等使用的客户端，通过第一客户端可以进行图像采集，并在图像采集的过程中，完成对目标物体在各帧图像中的位置的标定。其中，所述相关工作人员可以是具体进行图像分析的技术人员，或者，还可以是普通的员工等。例如，在实际应用中，需要采集的目标物体的信息可能是与平台具有合作关系的实体店铺，包括咖啡厅、餐厅等等，想要向消费者用户呈现的效果是，在消费者用户进入店铺之后，如果使用手机等终端设备(其中可以安装有为消费者用户提供的第二客户端)对店铺内的某个陈列物体等进行拍摄，即可从手机屏幕中查看到与该陈列物体相关的信息，呈现出一种虚拟、增强或混合现实的效果。而在此过程中，就需要首先对手机摄像头采集到的图像中所包含的目标物体进行识别，识别出具体是什么物体之后，再呈现出与其相匹配的图像。为了达到对目标物体进行识别的目的，就可以预先对该目标物体的图像进行采集，并在每帧图像中对该目标物体的位置进行标注，之后作为训练样本进行训练，得到该目标物体的识别模型。这样，后续在消费者用户对该目标物体进行扫描时，就可以利用预先训练好的识别模型，对该目标物体进行识别。在上述场景下，由于合作的实体店铺数量可能会非常多，如果全部由技术人员承担图像采集任务，则会使得技术人员的工作量非常巨大，效率也比较低。为此，在本申请实施例中，还可以向具体店铺中的工作人员等提供所述第一客户端，这样，每个店铺内相关目标物体的图像采集工作可以由店铺内的工作人员来完成，只要在其手机等终端设备上安装所述第一客户端即可，并且，在本申请实施例中，在进行图像采集的过程中，还可以自动完成对每帧图像中目标物体所在位置的标定。在完成之后，还可以第一客户端中还可以提供用于提交具体训练图像样本的操作选项，可以直接将采集到的训练图像样本提交到服务器，等等。

另外，本申请实施例中还可以提供服务器，该服务器的作用可以是根据第一客户端提交上来的图像训练样本进行训练，得到各个目标物体对应的识别模型，并进行保存。其中，保存各个目标物体的识别模型时，还可以保存各个目标物体关联的实体店铺的标识信息，这样，在消费者用户具体进入某实体店铺，并进行图像扫描时，可以首先根据用户所在的地理位置等信息确定出用户所在的实体店铺，然后，再利用该实体店铺关联的各个目标物体的识别模型对当前扫描的图像进行目标物体的识别，从而可以减小匹配工作量，提高效率。

第二客户端具体可以是提供给消费者用户、买家用户等使用的客户端，具体实现时，可以是专门为本申请实施例提供的独立客户端，或者，还可以是将相关的功能集成到某综合性的客户端中，例如，“淘宝”、“天猫”等。通过这种第二客户端，用户可以在进入某合作的实体店铺后，通过扫描店铺中的目标物体，从终端设备屏幕中查看到虚拟信息。例如，如果扫描的是咖啡杯，可以显示出对应的价格等信息，或者，如果扫描的是桌子，可以显示出菜单信息，等等。

下面分别从多种不同的角度，对本申请实施例所提供的具体技术方案进行详细介绍。

实施例一

本申请实施例一首先从第一客户端的角度，对进行图像采集和目标物体标定的过程进行介绍。具体的，本申请实施例一提供了一种采集图像的方法，参见图2，该方法具体可以包括：

S201：获得处于摄像机取景状态的图像，并启动计算机视觉跟踪；

其中，具体实现时，可以通过终端设备中的摄像机组件进行取景，以及后续的图像采集。所述摄像机组件可以是手机等终端设备中内置的组件，由于终端设备通常带有拍照功能，因此，可以通过这种终端设备完成本申请实施例中的图像采集过程。具体实现时，还可以在这种终端设备中安装所述第一客户端，通过第一客户端完成在图像采集过程中，进行目标物体标注的相关功能。另外，该第一客户端中还可以预先实现计算机视觉惯性组件，例如，具体可以是ARKit等，通过这种组件可以进行视觉跟踪，进而帮助完成对目标物体的标定。也就是说，关于终端设备、第一客户端、摄像机组件、计算机视觉惯性组件之间的关系可以是：终端设备中可以自带有摄像机组件的软硬件功能，同时，该终端设备中可以安装第一客户端，第一客户端可以对摄像机组件进行调用，进行实景图像的取景以及采集等操作，另外还可以对ARKit等视觉惯性组件进行调用实现具体的视觉跟踪，通过上述各方之间的相互配合，实现在采集图像的过程中，对目标物体在各帧图像中的位置信息进行标定。

也就是说，在本申请实施例中，如果需要进行目标物体的图像采集，则可以通过第一客户端启动终端设备中的摄像机组件，在启动之后，该摄像机组件边可以进行实景图像的取景，如果将摄像头对准目标物体，则该目标物体则会出现在摄像机组件的取景范围内，并且用户能够通过终端设备的屏幕观看到取景结果。在这种状态下，摄像机组件通常处于拍摄待命状态，也即，已经做好了开始进行图像采集的准备，只要接收到开始拍摄的命令，便可以进入到具体的图像采集状态，从用户角度而言，只需要按下相关的“录制”等按钮即可。

在本申请实施例中，在摄像机组件处于上述拍摄待命状态下，具体接收到开始拍摄的指令之前，还可以进行一些其他的准备工作，这种准备工作可以包括，首先启动计算机视觉惯性组件的跟踪程序，另外，还可以进行后续步骤S202中的根据跟踪启动时刻终端设备所在的位置建立世界坐标系的处理。也就是说，摄像机组件启动之后，就可以开始启动跟踪程序，后续在开始进行图像采集之后，该跟踪程序可以连续进行。

S202：根据计算机视觉跟踪启动时刻终端设备所在的位置建立世界坐标系；

其中，所述世界坐标系具体可以是以终端设备初始状态所在的位置为原点进行建立，建立起该世界坐标系之后，后续对目标物体所在位置信息的确定都可以基于该世界坐标系进行，并且，一旦确定出目标物体在该世界坐标系中的坐标，即使终端设备再发生移动，该坐标也将不再变化。

S203：针对进入到摄像机取景范围的图像，获得用于代表其中包含的目标物体所在位置的多个标注点，记录所述多个标注点在所述世界坐标系中的坐标；

同样是在前述拍摄待命状态下，还可以针对进入到摄像机取景范围的图像，获得用于代表其中包含的目标物体所在位置的多个标注点，也即，通过这些标注点来代表目标物体所在的位置，因此，可以记录下这些标注点在世界坐标系中的位置。其中，由于在开始拍摄之后，该目标物体的位置不再变化，因此，这些标注点在世界坐标系中的坐标也不再发生变化。具体实现时，所述多个标注点所连成的几何图形可以与所述目标物体的轮廓相对应，更为具体的，所述几何图形可以为多面体结构，所述标注点分别为所述多面体的多个顶点。

其中，具体获得所述多个标注点的方式可以有多种，例如，可以由第一客户端根据预置的物体轮廓识别算法，识别出具体的轮廓，然后，按照一定的间距，在该轮廓上打点，得到多个标注点。或者，在另一种更为优选的方式下，还可以为用户提供用于打点的操作选项，由用户手动的添加标注点，也即，在终端设备的显示屏中显示有所述摄像机取景图像的状态下，根据所述终端设备的显示屏中被点击的位置，确定所述标注点，然后，第一客户端记录下各个标注点在世界坐标系中的位置。

具体的，对于上述手动打点的方式，可以有多种具体的实现方式，例如，其中一种方式下，可以提供用于添加标注点的第一操作选项，通过所述第一操作选项接收到添加标注点的请求后，提供第二操作选项，所述第二操作选项为可移动状态，用于移动到指定位置处，该指定位置即可作为所述标注点的位置。或者，在另一种实现方式下，如图3所示，还可以直接提示用户在所需打点的位置点击屏幕，这样，可以根据屏幕上被点击的位置，作为标注点所在的位置，并记录下该位置在世界坐标系中的坐标。其中，具体在进行打点时，可以直接将标注点打在图像中的目标物体上，例如，如图3所示，目标物体为一个方凳，具体在打点时，可以在该方凳的底面的四个顶角位置，分别打一个标注点，顶面的四个顶角位置也可以分别打一个标注点，可以通过这8个标注点来代表该方凳的位置。其中，在为每个顶角位置进行打点时，可以将手机等终端设备的摄像头对准该顶角位置，然后在该顶角位置处进行点击，从而完成一个标注点的添加。之后再移动终端设备，使其摄像头对准下一个顶角位置，再同样执行点击操作，完成下一个标注点的标注，以此类推，直到完成全部顶角的标注。当然，在实际应用中，如果目标物体不具有明显的顶角，则可以由用户自行决定在哪些位置进行打点，例如，如果底面是圆形，则可以在底面的圆周上按照一定的间隔打上若干个标注点，顶面也可以做类似处理。另外，如果目标物体的形状不规则，例如，一些花瓶等，可能是中间部分比较粗，两头比较细，在此时，在进行打点时，除了底面以及顶面，还可以在中间位置打上若干个标注点，等等。

或者，为了简化打点的过程，本申请实施例还提供了另一种实现方式。具体的，可以利用ARKit等视觉惯性组件在所述进入到摄像机取景范围的图像中进行平面检测，确定出所述目标物体所在的平面。这样，具体在进行打点时，可以根据目标物体实际所在的位置，在该平面上进行打点。具体的，可以是根据目标物体在该平面上的正投影点(平行投射线垂直于投影面的称为正投影)进行打点。也就是说，用户可以找到目标物体在所述平面上的正投影点，然后，通过点击这种正投影点的位置，进行打点。其中，如果目标物体是带有棱角的，则其正投影通常也是包括多个顶角，因此，可以在投影顶角处进行打点。如果目标物体的正投影是圆形或者椭圆形等无顶角的形状，则可以按照一定的间隔在圆形或者椭圆形上进行打点，等等。在正投影面上完成多个标注点的标注之后，可以形成一个闭合的二维几何图形，如图3所示。之后，可以将所述二维几何图形沿着垂直于所述平面的方向向上延伸，形成三维几何图形，所述三维几何图形的高度根据所述目标物体的高度确定。具体的，可以将所述二维几何图形沿着垂直于所述平面的方向向上延伸至预置高度，例如，可以是默认眼神直某高度，并且，还可以将这种高度设置为可调节，如图4所示，其中可以提示“调节边框到合适高度，点击按钮开始采集”，用户可以通过在终端设备的屏幕上进行上下拖动等方式，调节实际的高度，使得其与目标物体的高度相同。这样，可以为目标物体形成一个三维的几何图形，使得其可以刚好“套住”目标物体，通过该三维几何图形来代表目标物体。

通过上述方式，只需要在目标物体所在的平面上添加多个标注点，并调节向上延伸的高度，即可创建一个相对规则的三维几何图形，使其框住目标物体，这样，目标物体上平面对应的标注点可以自动生成。因此，可以简化打点的过程，可以提高效率。并且，由于用户添加的标注点都是位于一个平面上，上平面上的标注点又是可以与下平面上的各个标注点严格对应，因此，还可以简化各个标注点的信息保存方式，后续也更容易对各个标注点的位置进行跟踪。

或者，在另一种实现方式下，也可以不必预先进行平面识别，而是可以指示用户直接进行打点操作，由于多个点可以直接围成一个平面，因此，可以直接将该平面确定为目标物体所在的平面，从而可以省去平面识别的步骤。也就是说，可以获得通过在显示屏中进行点击的方式生成的第一批标注点，然后，将所述第一批标注点所围成的几何图形所在的平面确定为所述目标物体所在的平面，再通过将所述几何图形进行所述目标物体的高度方向上进行延伸，形成三维几何图形，并将所述三维几何图形的各顶点确定为所述多个标注点。当然，在具体实现时，如果第一批标注点的数目比较多，则可能出现无法严格的围成一个二维几何图形的情况，也即，第一批标注点并不是在同一个平面上，为此，对于这种情况，可以指示用户第一批标注点仅标注三个点，由于三个点一定会是在同一个平面内，因此，可以保证程序的正常执行。当然，在仅通过三个点对目标物体的顶面或者底面进行标注的情况下，最终围成的三维几何图形将会是的三面体，最终对目标物体的标注结果的准确性可能会有所下降，但是，其简化了前期的处理步骤，可以降低方案的实现难度。

需要说明的是，无论是先进行平面识别，并通过在平面上添加标注点的方式来创建二维几何图形，进而创建三维几何图形，还是直接添加标注点，形成二维几何图形后，再拉伸成三维几何图形，都可以使得三维几何图形尽可能的贴合目标物体的实际形状。例如，如果某目标物体在所放置平面上的投影是一个圆形，则各个标注点可以连接成一个尽可能接近圆形的形状，也即，多面体的面数可能尽可能多，通过这种方式可以提高标注的准确度；如果目标物体在所放置平面上的正投影是一个三角形，则该平面上的各个标注点可以连接为三角形，等等。

当然，在另一种更为简单快捷的实现方式下，还可以预先提供预置形状的三维几何形状，具体通常也可以是多面体结构，在用户启动摄像头准备对目标物体进行图像采集时，可以首先在取景图像中提供该预置的三维几何图形，这样，可以通过调整该预置三维几何图形的位置及大小，使其刚好可以“套住”目标物体，也即，使得目标物体刚好位于所述三维几何图形内。进而，就可以见过调整后的三维几何图形的各顶点确定为所述多个标注点。当然，在这种预先提供默认的三维几何图形的方式下，由于无法预先获知目标物体的实际形状，因此，只能统一提供长方体或者圆柱体等形状的三维几何图形，这显然无法更精确的标注目标物体所在的位置。因此，相对于预先提供默认的三维几何图形的方式，本申请实施例提供的手动添加标注点，再连接成二维几何图形进而生成三维几何图形的方式，还可以提高标注的精确性。但是，在实际应用中，如果是效率优先，则也可以采用通过所述通过预置三维几何图形并对其位置及大小进行调整的方式来确定标注点的位置，等等。总之，具体采用何种确定标注点的方式，可以根据实际需求而定。

S204：在对所述目标物体进行图像采集的过程中，针对待标定的图像帧，通过跟踪所述多个标注点在该帧图像的像平面中的映射位置，对所述目标物体在该帧图像中的位置进行标定。

在完成对标注点的添加并记录下各自在世界坐标系中的位置之后，就可以点击拍摄按钮，开始进行图像采集。在拍摄的过程中，可以保持目标物体的位置不变，将终端设备围绕目标物体转一周，使得视频的各帧图像中包括从多个角度对目标物体进行拍摄所获得的图像。

另外，在本申请实施例中，由于在开始进行图像采集之前还在取景图像中添加了标注点，因此，还可以在采集图像的过程中，完成对各帧图像中目标物体所在位置的标定。需要说明的是，在实际应用中，实际拍摄的视频中包括的图像帧通常会比较多，但是，可能并不是每帧都需要进行目标物体位置的标定，而是从中选择出一些需要进行标定的图像帧进行标定。因此，在具体实现时，可以是仅针对待标定的图像帧进行标定，但都是在拍摄视频的过程中，便可以完成标定的操作。其中，关于具体如何确定哪些图像帧需要标定，哪些帧不需要标定，并不属于本申请实施例关注的重点，因此，这里不再详述。

具体在进行标注点跟踪的过程中，可以跟踪三维几何图形中的各个标注点的位置在具体图像的像平面中的映射位置即可确定出目标物体在该图像中的位置。具体在确定所述标注点在像平面中的映射位置时，可以有多种方式，例如，具体的，可以根据该帧图像对应的终端设备相对于所述世界坐标系的位置信息，以及所述摄像机组件的拍摄参数信息(view Matrix，projection Matrix等)，确定所述多个标注点在该帧图像的像平面中的映射位置。其中，所谓的像平面，也就是各帧图像的成像平面，由于每帧图像是二维的图像，因此，具体在跟踪标注点在各像平面中的位置时，可以是确定出标注点在像平面中的映射位置，其中，各个标注点连成的三维几何图形会映射为一个二维图形。并且，由于终端设备的位置已经发生了变化，因此，映射到各帧图像的像平面之后的二维图形可能是不规则的形状，而不再是目标物体到所放置平面的正投影形状。此时，在具体实现时，还可以遍历各标注点在所述像平面所在坐标系中各坐标轴方向上的最大值以及最小值，然后将所述最大值以及最小值作为所述目标物体在该帧图像中的位置标定信息。也就是说，只要取出各映射点在像平面坐标系的x轴以及y轴上的最大值以及最小值，然后，将这四个点连接成的四边形，作为目标物体在该图像中的位置标定信息即可，如图5所示。

其中，具体在保存上述位置标定信息时，可以保存成预置格式的文件，例如，具体可以是XML文件等。也即，每采集到一帧图像，都可以确定出目标物体在该帧图像中的位置标定信息，并添加到上述文件中，这样，随着最后一帧图像采集完毕，可以生成一个视频文件，还可以生成另一个文件，其中保存有该视频中的各帧图像对应的目标物体位置标定信息。之后，可以将该视频文件与对应的XML等格式的保存有位置标定信息的文件一起进行打包，形成一份图像训练样本。这种图像训练样本可以提交到服务器，这样，由于接收到的素材已经带有位置标定信息，因此，服务器一侧的后台技术人员就不必再进行手动的标注等工作，直接根据样本进行训练建立具体的识别模型即可。

需要说明的是，具体实现时，第一客户端在向服务器提交图像训练样本时，还可以提交所属的实体店铺的标识信息，例如，包括实体店铺的名称或者ID等，这样，后续在保存各个目标物体对应的识别模型时，还可以保存各个目标物体与实体店铺之间的对应关系。后续当有消费者用户进入到某实体店铺对目标物体进行拍摄时，就可以使用该实体店铺所关联的各个识别模型对用户所拍摄的目标物体进行识别。另外，第一客户端提交图像训练样本时，还可以向服务器提交AR素材信息，例如，并且，这种AR素材还可以与图像训练样本相对应，由于图像训练样本对应于一个具体的目标物体，因此，也可以使得AR素材与该目标物体相对应。这样，后续在识别出消费者用户所拍摄的目标物体之后，还可以给出与该目标物体相关联的AR素材信息，等等。当然，关于与目标物体相关联的AR素材信息，还可以是由服务器端的后台技术人员提供，具体实现时，可以根据实际情况而定。

也就是说，服务器端保存的信息可以包括目标物体的识别模型、所属的实体店铺标识，关联的AR素材信息，等等，例如，可以如表1所示：

表1

识别模型ID	目标物体名称	所属实体店铺	关联AR素材
				100001	桌子	店铺A	素材1
……	……	……	……

总之，通过本申请实施例，能够在摄像机组件的待命状态下启动计算机视觉跟踪，根据启动跟踪时终端设备所在的位置建立世界坐标系，并从摄像机的取景图像中获得标注点，用于代表目标物体在世界坐标系中的位置。这样，具体在开始采集目标物体图像之后，就可以实现一边采集一边对目标物体在各帧图像中的位置进行标定。通过该方案，不再需要手动的对每一帧图像进行标定，也不需要依赖于目标物体的CAD模型，并且，还能实现在采集图像的过程中完成标定的操作，不再需要完成图像采集之后再一帧一帧的进行标定，因此，可以提高效率。

实施例二

该实施例二是与实施例一相对应的，从服务器的角度，提供了一种建立目标物体识别模型的方法，参见图6，该方法具体可以包括：

S601：接收第一客户端提交的训练素材，所述训练素材包括视频文件，以及保存有目标物体在各帧图像中的位置标定信息的文档文件，其中，所述位置标定信息是在采集所述视频文件的过程中，通过跟踪目标物体的多个标注点在各帧图像中的位置而确定的，所述多个标注点是在摄像机取景状态下获得的；

S602：从所述视频文件中提取出至少一帧图像，并从所述文档文件中确定各帧图像对应的目标物体的位置标定信息；

S603：根据各帧图像对应的目标物体位置标定信息，生成对所述目标物体的识别模型。

其中，所述目标物体的识别模型可以用于在增强现实AR互动过程中从拍摄得到的实景图像中识别出目标物体，并确定目标物体在所述实景图像中的位置，以用于根据所述目标物体在所述实景图像中的位置信息，将所述目标物体关联的虚拟图像进行展示。

在具体实现时，所述第一客户端在提交所述训练素材时，还可以包括关联的实体店铺的信息，此时，服务器还可以保存所述目标物体的识别模型与所述实体店铺之间的关联关系。另外，服务器还可以接收所述第一客户端为所述目标物体提交的增强现实AR素材信息，保存所述目标物体识别模型与所述AR素材信息之间的关联关系。

实施例三

该实施例三从第二客户端的角度，提供了一种增强现实AR信息提供方法，具体的，参见图7，该方法可以包括：

S701：采集实体店铺内的实景图像；

S702：获取所述实体店铺关联的物体识别模型信息；

S703：利用所述物体识别模型从所述实景图像中识别目标物体所在的位置信息，其中，所述物体识别模型通过以下方式进行建立：获得第一客户端提交的训练素材，所述训练素材包括视频文件，以及保存有目标物体在各帧图像中的位置标定信息的文档文件，根据各帧图像对应的目标物体位置标定信息，生成对所述目标物体的识别模型；其中，所述位置标定信息是在采集所述视频文件的过程中，通过跟踪目标物体的多个标注点在各帧图像中的位置而确定的，所述多个标注点是在摄像机取景状态下获得的；

S704：根据所述目标物体在所述实景图像中的位置信息，确定关联的AR素材信息的展示位置，并对所述AR素材信息进行展示。

实施例四

该实施例四是从服务器的角度，提供了一种增强现实AR信息提供方法，参见图8，该方法具体可以包括：

S801：提供物体识别模型与实体店铺以及AR素材之间的关联关系；其中，所述物体识别模型通过以下方式进行建立：获得第一客户端提交的训练素材，所述训练素材包括视频文件，以及保存有目标物体在各帧图像中的位置标定信息的文档文件，根据各帧图像对应的目标物体位置标定信息，生成对所述目标物体的识别模型；其中，所述位置标定信息是在采集所述视频文件的过程中，通过跟踪目标物体的多个标注点在各帧图像中的位置而确定的，所述多个标注点是在摄像机取景状态下获得的；

S802：接收第二客户端提交的获取物体识别模型的请求，所述请求中携带有目标实体店铺的标识信息；

S803：将所述目标实体店铺关联的各物体识别模型以及对应的AR素材信息提供给所述第二客户端，以用于根据所述物体识别模型识别实景图像中的目标物体，并根据所述目标物体所在的位置对所述关联的AR素材进行展示。

关于以上实施例二至实施例四中的未详述部分，可以参见前述实施例一中的记载，这里不再赘述。

与实施例一相对应，本申请实施例还提供了一种采集图像的装置，参见图9，该装置可以包括：

初始化单元901，用于获得处于摄像机取景状态的图像，并启动计算机视觉跟踪；

坐标系建立单元902，用于根据计算机视觉跟踪启动时刻终端设备所在的位置建立世界坐标系；

标注点获得单元903，用于针对进入到摄像机取景范围的图像，获得用于代表目标物体所在位置的多个标注点，记录所述多个标注点在所述世界坐标系中的坐标；

位置标定单元904，用于在对所述目标物体进行图像采集的过程中，针对待标定的图像帧，通过跟踪所述多个标注点在该帧图像的像平面中的映射位置，对所述目标物体在该帧图像中的位置进行标定。

其中，所述多个标注点所连成的几何图形与所述目标物体的轮廓相对应。

所述几何图形为多面体结构，所述标注点分别为所述多面体的多个顶点。

具体实现时，所述标注点获得单元具体可以用于：

在终端设备的显示屏中显示有所述摄像机组件的当前取景图像的状态下，根据所述终端设备的显示屏中被点击的位置，确定所述标注点。

具体的，所述位置标定单元具体可以用于：

根据所述显示屏被点击时刻，所述终端设备相对于所述世界坐标系的坐标，所述摄像机组件的参数信息，以及所述标注点在当前像平面中的坐标，确定所述标注点在所述世界坐标系中的坐标。

其中，可以通过将所述终端设备移动到不同的位置，对不同的标注点进行标注。

具体实现时，该装置还可以包括：

平面检测单元，用于在所述进入到摄像机取景范围的图像中进行平面检测，确定出所述目标物体所在的平面；

所述标注点获得单元具体可以包括：

正投影点获得子单元，用于获得所述目标物体在所述平面上的多个正投影点；

连接子单元，用于将所述多个正投影点连接为二维几何图形；

延伸子单元，用于将所述二维几何图形沿着垂直于所述平面的方向向上延伸，形成三维几何图形，所述三维几何图形的高度根据所述目标物体的高度确定；

第一确定子单元，用于将所述三维几何图形的各顶点，确定为所述多个标注点。

其中，所述延伸子单元具体可以用于：

将所述二维几何图形沿着垂直于所述平面的方向向上延伸至预置高度；

接收高度调整操作，根据所述调整操作确定所述三维几何图形的高度信息。

另一种实现方式下，所述标注点获得单元具体可以包括：

第一批标注点获得子单元，用于获得通过在显示屏中进行点击的方式生成的第一批标注点；

平面确定子单元，用于将所述第一批标注点所围成的几何图形所在的平面确定为所述目标物体所在的平面；

第二确定子单元，用于通过将所述几何图形进行所述目标物体的高度方向上进行延伸，形成三维几何图形，并将所述三维几何图形的各顶点确定为所述多个标注点。

再者，所述标注点获得单元具体还可以包括：

图形提供子单元，用于在摄像机取景范围的图像中提供预置的三维几何图形，所述三维几何图形的大小及位置为可调节状态；

调整子单元，用于通过调整所述三维几何图形的大小和/或位置，使所述目标物体位于所述三维几何图形内；

第三确定子单元，用于将调整后的所述三维几何图形的各顶点确定为所述多个标注点。

具体的，所述位置标定单元具体可以用于：

针对当前采集到的图像帧，通过以下方式跟踪所述多个标注点在该帧图像的像平面中的映射位置：

根据该帧图像对应的终端设备相对于所述世界坐标系的位置信息，以及所述摄像机组件的拍摄参数信息，确定所述多个标注点在该帧图像的像平面中的映射位置。

另外，该装置还可以包括：

遍历单元，用于针对当前采集到的图像帧，在确定出多个标注点在该帧图像的像平面中的映射位置之后，遍历各标注点在所述像平面所在坐标系中各坐标轴方向上的最大值以及最小值；

确定单元，用于将所述最大值以及最小值作为所述目标物体在该帧图像中的位置标定信息。

保存单元，用于将各帧图像对应的目标物体的位置标定信息保存到预置格式的文件中，以用于与根据各帧图像生成的视频文件一起，生成训练素材，以用于提交到服务器。

具体实现时，所述目标物体与实体店铺相关联，所述装置还可以包括：

店铺标识提交单元，用于在将所述训练素材提交到服务器时，提交关联的实体店铺标识信息。

与实施例二相对应，本申请实施例还提供了一种建立目标物体识别模型的装置，参见图10，该装置可以包括：

素材接收单元1001，用于接收第一客户端提交的训练素材，所述训练素材包括视频文件，以及保存有目标物体在各帧图像中的位置标定信息的文档文件，其中，所述位置标定信息是在采集所述视频文件的过程中，通过跟踪目标物体的多个标注点在各帧图像中的位置而确定的，所述多个标注点是在摄像机取景状态下获得的；

提取单元1002，用于从所述视频文件中提取出至少一帧图像，并从所述文档文件中确定各帧图像对应的目标物体的位置标定信息；

模型生成单元1003，用于根据各帧图像对应的目标物体位置标定信息，生成对所述目标物体的识别模型。

其中，所述目标物体的识别模型用于在增强现实AR互动过程中从拍摄得到的实景图像中识别出目标物体，并确定目标物体在所述实景图像中的位置，以用于根据所述目标物体在所述实景图像中的位置信息，将所述目标物体关联的虚拟图像进行展示。

所述第一客户端在提交所述训练素材时，还包括关联的实体店铺的信息，所述装置还可以包括：

关联关系保存单元，用于保存所述目标物体的识别模型与所述实体店铺之间的关联关系。

AR素材接收单元，用于接收所述第一客户端为所述目标物体提交的增强现实AR素材信息；

AR素材保存单元，用于保存所述目标物体识别模型与所述AR素材信息之间的关联关系。

与实施例三相对应，本申请实施例还提供了一种增强现实AR信息提供装置，参见图11，该装置可以包括：

图像采集单元1101，用于采集实体店铺内的实景图像；

识别模型获取单元1102，用于获取所述实体店铺关联的物体识别模型信息；

识别单元1103，用于利用所述物体识别模型从所述实景图像中识别目标物体所在的位置信息，其中，所述物体识别模型通过以下方式进行建立：获得第一客户端提交的训练素材，所述训练素材包括视频文件，以及保存有目标物体在各帧图像中的位置标定信息的文档文件，根据各帧图像对应的目标物体位置标定信息，生成对所述目标物体的识别模型；其中，所述位置标定信息是在采集所述视频文件的过程中，通过跟踪目标物体的多个标注点在各帧图像中的位置而确定的，所述多个标注点是在摄像机取景状态下获得的；

AR展示单元1104，用于根据所述目标物体在所述实景图像中的位置信息，确定关联的AR素材信息的展示位置，并对所述AR素材信息进行展示。

与实施例四相对应，本申请实施例还提供了一种增强现实AR信息提供装置，参见图12，该装置可以包括：

关联关系提供单元1201，用于提供物体识别模型与实体店铺以及AR素材之间的关联关系；其中，所述物体识别模型通过以下方式进行建立：获得第一客户端提交的训练素材，所述训练素材包括视频文件，以及保存有目标物体在各帧图像中的位置标定信息的文档文件，根据各帧图像对应的目标物体位置标定信息，生成对所述目标物体的识别模型；其中，所述位置标定信息是在采集所述视频文件的过程中，通过跟踪目标物体的多个标注点在各帧图像中的位置而确定的，所述多个标注点是在摄像机取景状态下获得的；

请求接收单元1202，用于接收第二客户端提交的获取物体识别模型的请求，所述请求中携带有目标实体店铺的标识信息；

信息提供单元1203，用于将所述目标实体店铺关联的各物体识别模型以及对应的AR素材信息提供给所述第二客户端，以用于根据所述物体识别模型识别实景图像中的目标物体，并根据所述目标物体所在的位置对所述关联的AR素材进行展示。

另外，本申请实施例还提供了一种电子设备，包括：

一个或多个处理器；以及

获得处于摄像机取景状态的图像，并启动计算机视觉跟踪；

其中，图13示例性的展示出了电子设备的架构，例如，设备1300可以是移动电话，计算机，数字广播终端，消息收发设备，游戏控制台，平板设备，医疗设备，健身设备，个人数字助理，飞行器等。

参照图13，设备1300可以包括以下一个或多个组件：处理组件1302，存储器1304，电源组件1306，多媒体组件1308，音频组件1310，输入/输出(I/O)的接口1312，传感器组件1314，以及通信组件1316。

处理组件1302通常控制设备1300的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理元件1302可以包括一个或多个处理器1320来执行指令，以完成本公开技术方案提供的视频播放方法中的当满足预设条件时，生成流量压缩请求，并发送给服务器，其中所述流量压缩请求中记录有用于触发服务器获取目标关注区域的信息，所述流量压缩请求用于请求服务器优先保证目标关注区域内视频内容的码率；根据服务器返回的码流文件播放所述码流文件对应的视频内容，其中所述码流文件为服务器根据所述流量压缩请求对所述目标关注区域之外的视频内容进行码率压缩处理得到的视频文件的全部或部分步骤。此外，处理组件1302可以包括一个或多个模块，便于处理组件1302和其他组件之间的交互。例如，处理部件1302可以包括多媒体模块，以方便多媒体组件1308和处理组件1302之间的交互。

存储器1304被配置为存储各种类型的数据以支持在设备1300的操作。这些数据的示例包括用于在设备1300上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。存储器1304可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

电源组件1306为设备1300的各种组件提供电力。电源组件1306可以包括电源管理系统，一个或多个电源，及其他与为设备1300生成、管理和分配电力相关联的组件。

多媒体组件1308包括在设备1300和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件1308包括一个前置摄像头和/或后置摄像头。当设备1300处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。

音频组件1310被配置为输出和/或输入音频信号。例如，音频组件1310包括一个麦克风(MIC)，当设备1300处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器1304或经由通信组件1316发送。在一些实施例中，音频组件1310还包括一个扬声器，用于输出音频信号。

I/O接口1312为处理组件1302和外围接口模块之间提供接口，上述外围接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件1314包括一个或多个传感器，用于为设备1300提供各个方面的状态评估。例如，传感器组件1314可以检测到设备1300的打开/关闭状态，组件的相对定位，例如所述组件为设备1300的显示器和小键盘，传感器组件1314还可以检测设备1300或设备1300一个组件的位置改变，用户与设备1300接触的存在或不存在，设备1300方位或加速/减速和设备1300的温度变化。传感器组件1314可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件1314还可以包括光传感器，如CMOS或CCD图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件1314还可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器或温度传感器。

通信组件1316被配置为便于设备1300和其他设备之间有线或无线方式的通信。设备1300可以接入基于通信标准的无线网络，如WiFi，2G或3G，或它们的组合。在一个示例性实施例中，通信部件1316经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，所述通信部件1316还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

在示例性实施例中，设备1300可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述方法。

在示例性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括指令的存储器1304，上述指令可由设备1300的处理器1320执行以完成本公开技术方案提供的视频播放方法中的当满足预设条件时，生成流量压缩请求，并发送给服务器，其中所述流量压缩请求中记录有用于触发服务器获取目标关注区域的信息，所述流量压缩请求用于请求服务器优先保证目标关注区域内视频内容的码率；根据服务器返回的码流文件播放所述码流文件对应的视频内容，其中所述码流文件为服务器根据所述流量压缩请求对所述目标关注区域之外的视频内容进行码率压缩处理得到的视频文件。例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

实施例五

在前述各实施例中，均是在摄像机处于Standby阶段(也即摄像机已经启动，目标物体进入到摄像机的取景范围内，但是，拍摄按钮尚未被按下，还没有开始进行正式的视频拍摄过程中的图像采集)进行标注点位置的确定以及记录等相关操作，这样，在视频拍摄按钮被按下并开始进行图像采集之后，就可以针对采集到的需要标定的图像帧，通过跟踪标注点在该图像帧像平面中的映射位置，实现对该图像帧的标定。也即，在Standby阶段做好前期的准备工作，在开始拍摄之后，便可以在拍摄过程中，完成对具体需要标定的图像帧的标定工作。

而在该实施例五中，也可以是在图像采集的过程中启动具体的视觉跟踪，以及标注点位置的确定及记录等工作，之后，再通过跟踪标注点在具体需要标定的目标图像帧中的位置，对具体的目标图像帧进行标定。例如，在摄像机被启动，并且视频拍摄按钮被按下后，可以以该时间为起点，启动计算机视觉跟踪，并建立世界坐标系。之后，可以在视频拍摄的过程中，完成标注点的确定及记录。例如，在具体拍摄的过程中，用户通常是需要手持带有摄像机的终端设备围绕目标物体走一圈，将摄像机镜头始终对准目标物体，实现对目标物体360度的多角度的拍摄。在此过程中，如果需要通过用户手动打点的方式来确定标注点，则可以是在用户围绕目标物体移动的过程中，在用户认为合适的位置，执行在屏幕上的打点操作，此时，便可以记录下该标注点相对于世界坐标系的位置。其中，由于通常需要多个标注点，因此，用户可以在图像采集过程中，在不同的位置处分别进行打点。例如，假设拍摄对象是图3所示的方凳，需要在方凳八个顶角处分别进行打点，则可以是在第一个顶角出现在采集范围内时，对该第一个顶角进行打点，之后，用户继续执行围绕目标物体的移动，在移动到第二个顶角出现在采集范围内时，在该第二个顶角所在的位置处进行打点，以此类推。当然，也可能出现多个顶角同时出现在采集范围内的情况，此时，可以同时对这两个顶角的位置进行打点，等等。总之，可以边采集图像，边完成标注点的打点操作。当然，在这种方式下，同样可以采用预先提供三维几何图形的方式来实现标注点的确定，例如，在开始进行图像采集之后，通过增强现实的方式，在界面中显示出一个预置的三维几何图形，具体可以是多面体等，之后，用户可以通过移动该三维几何图像的位置，改变其大小等方式，使得目标物体位于该三维几何图形内，进而，将移动或者改变大小之后的三维几何图形各顶点确定为标注点，并记录其在世界坐标系中的位置，等等。这样，具体在对待标定的图像帧进行标定时，可以是在图像采集的过程中来完成，也可以在图像采集结束之后，再根据记录的标注点在世界坐标系中的坐标信息，完成对各帧图像中目标物体所在位置的标定。

其中，由于是在图像采集过程中进行的标注点的确定及位置记录，因此，最终采集的视频文件中可能有部分图像帧是在标注点被标注之前采集到的，部分图像帧是在标注点在标注之后采集到的，但是，无论是在之前还是之后采集到的图像帧，由于启动了计算机视觉跟踪，因此，都可以通过跟踪标注点在图像帧中的位置，实现对对应图像帧中目标物体所在位置的标定。

具体的，参见图14，该实施例五提供了一种图像标定方法，该方法具体可以包括：

S1401：在对目标物体进行图像采集的过程中，启动计算机视觉跟踪，并根据计算机视觉跟踪启动时刻终端设备所在的位置建立世界坐标系；

S1402：获得用于代表目标物体所在位置的多个标注点，并记录所述多个标注点在所述世界坐标系中的坐标；

S1403：针对待标定的图像帧，通过跟踪所述多个标注点在该帧图像的像平面中的映射位置，对所述目标物体在该帧图像中的位置进行标定。

通过该实施例五，不仅可以在采集图像的过程中实现对图像帧中目标物体所在位置的标定，而且，标注点的确定也可以是在图像采集过程中完成的，因此，不需要在开始视频拍摄之前进行准备工作，可以进一步提高标定的效率。

其中，由于相对于前述实施例一而言，该实施例五只是在具体步骤的执行时机上有所不同，因此，相关的具体实现可以参见前述实施例一中的记载，这里不再赘述。

与该实施例五相对于，本申请实施例还提供了一种图像标定装置，参见图15，该装置具体可以包括：

坐标系建立单元1501，用于在对目标物体进行图像采集的过程中，启动计算机视觉跟踪，并根据计算机视觉跟踪启动时刻终端设备所在的位置建立世界坐标系；

标注点获得单元1502，用于获得用于代表目标物体所在位置的多个标注点，并记录所述多个标注点在所述世界坐标系中的坐标；

标定单元1503，用于针对待标定的图像帧，通过跟踪所述多个标注点在该帧图像的像平面中的映射位置，对所述目标物体在该帧图像中的位置进行标定。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例或者实施例的某些部分所述的方法。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统或系统实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的系统及系统实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

以上对本申请所提供的采集图像、建立目标物体识别模型的方法及装置，进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处。综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种采集图像的方法，其特征在于，包括：

获得处于摄像机取景状态的图像，并启动计算机视觉跟踪；

2.根据权利要求1所述的方法，其特征在于，所述多个标注点所连成的几何图形与所述目标物体的轮廓相对应。

3.根据权利要求2所述的方法，其特征在于，

4.根据权利要求1所述的方法，其特征在于，通过以下方式获得所述多个标注点：

在终端设备的显示屏中显示有所述摄像机取景图像的状态下，根据所述终端设备的显示屏中被点击的位置，确定所述标注点。

5.根据权利要求4所述的方法，其特征在于，通过以下方式确定所述标注点在所述世界坐标系中的坐标：

根据所述显示屏被点击时刻，所述终端设备相对于所述世界坐标系的坐标，所述摄像机的参数信息，以及所述标注点在当前像平面中的坐标，确定所述标注点在所述世界坐标系中的坐标。

6.根据权利要求4所述的方法，其特征在于，通过将所述终端设备移动到不同的位置，对不同的标注点进行标注。

7.根据权利要求4所述的方法，其特征在于，所述方法还包括：

在所述进入到摄像机取景范围的图像中进行平面检测，确定出所述目标物体所在的平面；

所述获得用于代表其中包含的目标物体所在位置的多个标注点，包括：

获得所述目标物体在所述平面上的多个正投影点；

将所述多个正投影点连接为二维几何图形；

将所述二维几何图形沿着垂直于所述平面的方向向上延伸，形成三维几何图形，所述三维几何图形的高度根据所述目标物体的高度确定；

将所述三维几何图形的各顶点，确定为所述多个标注点。

8.根据权利要求7所述的方法，其特征在于，

所述将所述二维几何图形沿着垂直于所述平面的方向向上延伸，形成三维几何图形，包括：

9.根据权利要求4所述的方法，其特征在于，

获得通过在显示屏中进行点击的方式生成的第一批标注点；

将所述第一批标注点所围成的几何图形所在的平面确定为所述目标物体所在的平面；

通过将所述几何图形进行所述目标物体的高度方向上进行延伸，形成三维几何图形，并将所述三维几何图形的各顶点确定为所述多个标注点。

10.根据权利要求1所述的方法，其特征在于，

在摄像机取景范围的图像中提供预置的三维几何图形，所述三维几何图形的大小及位置为可调节状态；

通过调整所述三维几何图形的大小和/或位置，使所述目标物体位于所述三维几何图形内；

将调整后的所述三维几何图形的各顶点确定为所述多个标注点。

11.根据权利要求1所述的方法，其特征在于，

12.根据权利要求1所述的方法，其特征在于，

针对当前采集到的图像帧，在确定出多个标注点在该帧图像的像平面中的映射位置之后，还包括：

遍历各标注点在所述像平面所在坐标系中各坐标轴方向上的最大值以及最小值；

将所述最大值以及最小值作为所述目标物体在该帧图像中的位置标定信息。

13.根据权利要求1所述的方法，其特征在于，还包括：

将各帧图像对应的目标物体的位置标定信息保存到预置格式的文件中，以用于与根据各帧图像生成的视频文件一起，生成训练素材，以用于提交到服务器。

14.根据权利要求13所述的方法，其特征在于，

所述目标物体与实体店铺相关联，所述方法还包括：

在将所述训练素材提交到服务器时，提交关联的实体店铺标识信息。

15.一种建立目标物体识别模型的方法，其特征在于，包括：

16.根据权利要求15所述的方法，其特征在于，所述目标物体的识别模型用于在增强现实AR互动过程中从拍摄得到的实景图像中识别出目标物体，并确定目标物体在所述实景图像中的位置，以用于根据所述目标物体在所述实景图像中的位置信息，将所述目标物体关联的虚拟图像进行展示。

17.根据权利要求15所述的方法，其特征在于，所述第一客户端在提交所述训练素材时，还包括关联的实体店铺的信息，所述方法还包括：

保存所述目标物体的识别模型与所述实体店铺之间的关联关系。

18.根据权利要求15所述的方法，其特征在于，还包括：

接收所述第一客户端为所述目标物体提交的增强现实AR素材信息；

保存所述目标物体识别模型与所述AR素材信息之间的关联关系。

19.一种增强现实AR信息提供方法，其特征在于，包括：

采集实体店铺内的实景图像；

获取所述实体店铺关联的物体识别模型信息；

20.一种增强现实AR信息提供方法，其特征在于，包括：

21.一种采集图像的装置，其特征在于，包括：

22.一种建立目标物体识别模型的装置，其特征在于，包括：

23.一种增强现实AR信息提供装置，其特征在于，包括：

图像采集单元，用于采集实体店铺内的实景图像；

24.一种增强现实AR信息提供装置，其特征在于，包括：

25.一种电子设备，其特征在于，包括：

一个或多个处理器；以及

获得处于摄像机取景状态的图像，并启动计算机视觉跟踪；

26.一种图像标定方法，其特征在于，包括：

27.一种图像标定装置，其特征在于，包括：