CN107590453B

CN107590453B - 增强现实场景的处理方法、装置及设备、计算机存储介质

Info

Publication number: CN107590453B
Application number: CN201710787487.6A
Authority: CN
Inventors: 项小明
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2017-09-04
Filing date: 2017-09-04
Publication date: 2019-01-11
Anticipated expiration: 2037-09-04
Also published as: WO2019042426A1; CN107590453A; MA50126A; EP3680808A4; US20200012858A1; US11210516B2; EP3680808A1

Abstract

本发明实施例公开了一种增强现实场景的处理方法、装置及设备，其中，方法包括：获取由摄像装置拍摄的第一视频帧中与目标标记图像相关的第一特征点信息；按照光流跟踪算法对各个第一特征点信息所对应的第一特征点进行跟踪，确定在所述摄像装置拍摄的第二视频帧中的第二特征点信息；构建第二视频帧与目标标记图像的单映射矩阵，所述单映射矩阵是根据各个第二特征点信息与所述目标标记图像的源特征点构建的；根据所述单映射矩阵对所述第二视频帧进行增强现实处理。采用本发明实施例，降低了目标识别时间，节省了软硬件资源，提高了视频帧中目标识别的效率，使AR场景的实现更快捷准确。

Description

增强现实场景的处理方法、装置及设备、计算机存储介质

技术领域

本发明涉及增强现实技术领域，尤其涉及一种增强现实场景的处理方法、装置及设备、计算机存储介质。

背景技术

增强现实技术(Augmented Reality，AR)是一种通过实时地计算拍摄到的图像中目标对象的位置，然后在相应的图像位置处加上虚拟图像、虚拟视频等虚拟内容的技术，基于AR技术，可以将虚拟场景与现实环境相结合，并进行有效的互动。

可以基于图像识别技术的实现方式来实现AR场景，也就是说，通过图像识别技术分别在摄像装置拍摄到的各个视频帧中识别出某个需要叠加虚拟内容的图像对象，再确定该图像对象在视频帧中的位置，根据确定的位置叠加虚拟内容，例如，需要图像识别技术在拍摄到的视频帧中识别出桌子等对象，根据桌子在图像中的位置，叠加书本、电脑等虚拟内容在该桌子的桌面上。

通过上述的AR实现方式需要对拍摄到的每张视频帧进行图像分析识别，所损耗的设备软硬件资源较多，并且图像识别需要对整张视频帧进行分析识别，消耗的时长较大，特别是在拍摄到的现实环境的图像较为复杂时，识别出图像对象所耗费的时长更长。

发明内容

本发明实施例提供一种增强现实场景的处理方法、装置及设备、计算机存储介质，可较为快捷地完成AR场景处理。

一方面，本发明实施例提供了一种增强现实场景的处理方法，包括：

获取由摄像装置拍摄的第一视频帧中与目标标记图像相关的第一特征点信息；

按照光流跟踪算法对第一特征点信息所对应的第一特征点进行跟踪，确定在所述摄像装置拍摄的第二视频帧中的第二特征点信息；

构建第二视频帧与目标标记图像的单映射矩阵，所述单映射矩阵是根据各个第二特征点信息与所述目标标记图像的源特征点构建的；

根据所述单映射矩阵对所述第二视频帧进行增强现实处理。

另一方面，本发明实施例还提供了一种增强现实场景的处理装置，包括：

获取模块，用于获取由摄像装置拍摄的第一视频帧中与目标标记图像相关的第一特征点信息；

确定模块，用于按照光流跟踪算法对第一特征点信息所对应的第一特征点进行跟踪，确定在所述摄像装置拍摄的第二视频帧中的第二特征点信息；

构建模块，用于构建第二视频帧与目标标记图像的单映射矩阵，所述单映射矩阵是根据各个第二特征点信息与所述目标标记图像的源特征点构建的；

处理模块，用于根据所述单映射矩阵对所述第二视频帧进行增强现实处理。

再一方面，本发明实施例还提供了一种智能设备，包括：处理器和存储装置；

所述存储装置，用于存储计算机程序指令；

所述处理器，调用所述计算机程序指令，用于

根据所述单映射矩阵对所述第二视频帧进行增强现实处理。

相应地，本发明实施例还提供了一种计算机存储介质，该计算机存储介质存储有计算机程序指令，该计算机程序指令被执行时，实现第一方面所述的增强现实场景的处理方法。

本发明实施例不是简单地基于两个视频帧之间的图像相似度来确定其中的目标对象进而叠加虚拟内容，而是通过光流跟踪算法并结合单映射矩阵求解相机外参的方式来确定并在目标对象上叠加虚拟内容，只需要对其中的部分特征点进行分析比对，大大降低了目标识别时间，节省了软硬件资源，提高了视频帧中目标识别的效率，使AR场景的实现更快捷准确。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例的配置属性数据库和标记图像的流程示意图；

图2是本发明实施例的视频帧与标记图像之间匹配关系的流程示意图；

图3是本发明实施例的对视频帧进行对象识别的流程示意图；

图4是本发明实施例的变换后的标记图像与视频帧之间的关系的示意图；

图5a是本发明实施例的一种拍摄场景的示意图；

图5b是本发明实施例的一种具体应用场景示意图；

图6是本发明实施例的一种坐标位置关系的示意图；

图7是本发明实施例的一种增强现实场景的处理方法的流程示意图；

图8是本发明实施例的另一种增强现实场景的处理方法的流程示意图；

图9是本发明实施例的一种设置属性数据库的方法的流程示意图；

图10是本发明实施例的一种增强现实场景的处理装置的流程示意图；

图11是本发明实施例的一种智能设备的结构示意图。

具体实施方式

为了实现AR场景，在本发明实施例中可以设置多张包括各种对象的标记marker图像，在通过AR设备相关的摄像装置拍摄到视频后，首先可以通过图像识别的方式确定视频帧中是否包括某个marker图像中的对象，如果是，则将该marker图像作为目标标记图像，该marker图像中的对象为目标对象，同时，在该视频帧中确定关于该目标标记图像的跟踪点。以这些跟踪点为基础，在后续拍摄到的视频帧中，通过光流跟踪算法对这些跟踪点进行跟踪识别，来在新的视频帧中跟踪确定对应特征点的特征点信息，并基于特征点信息来确定视频帧之间和该新的视频帧与所述目标标记图像之间的单映射矩阵(Homography矩阵)，即H矩阵，根据H矩阵再进一步执行虚拟内容的叠加处理，实现AR场景。

各个marker图像可以是用户预先设置的，可以是某些拍摄得到的图像，也可以是制作得到的数字图。marker图像具有较高的清晰度和规整度，能够识别出较多的特征点以方便后续更好地进行图像识别和H矩阵的生成等处理。

所基于的光流跟踪算法能够识别摄像装置拍摄到的相邻视频帧(或者存在帧间隔的两个视频帧)上大量特征点的运动矢量，主要可以包括视频帧上特征点的移动方向和移动速度。根据光流跟踪算法，基于上一视频帧上确定的各个跟踪点的位置，能够大致确定出当前视频帧中与跟踪点相匹配的特征点的位置。上一视频帧上的跟踪点是根据目标标记图像来确定的。

在识别确定出视频帧中包括目标标记图像中的目标对象后，进入光流跟踪阶段。视频帧与帧之间采用光流跟踪的方式进行跟踪，由于跟踪算法耗时少，跟踪帧率高，相邻两帧之间变化小，光流跟踪稳定，因此，能够快速、准确、高效地确定出两视频帧中相匹配的特征点。在一个实施例中，当目标对象存在快速移动、环境光照变化或者遮挡变化等导致视频帧中的可供跟踪的特征点减少时，可通过模板匹配的方式从目标标记图像进行补点处理，补充新的用于进行光流跟踪的特征点，及时补充优质的特征点进行光流跟踪，以便于在后续计算H矩阵时，始终有足够多的特征点来确定映射关系，同时也能保持更持久的光流跟踪。

图像之间的H矩阵能够较好地将两视频帧关联，并且根据H矩阵可以得到摄像装置在拍摄当前视频帧时的外参矩阵。外参矩阵是求解出来的当前摄像头成像的参数，如果需要在实际物体上叠加虚拟内容，可以将该虚拟内容认为是一个实际的物体对象，认为有一个实际物体对应使用该成像参数(外参矩阵)在摄像装置的视频帧上成像，该成像过程可以认为是基于外参矩阵直接在视频帧上绘制虚拟对象的过程。

在一个实施例中，首先可以配置包括某个对象的marker图像，方便后续对视频帧进行对象识别。在接收到用户输入的marker图像后，如图1所示，在S101中可以先对marker图像进行归一化处理，在S102中对归一化处理后的marker图像进行特征提取，在本发明实施例中，从marker图像中提取的是特征点的ORB(ORiented Brief，是一种图像特征检测算子)信息，该ORB信息作为该特征点的特征描述信息，该ORB信息包含了图像上某个特征点周围的像素点的信息，用以描述对应的特征点。基于两个图像上两个特征点的ORB信息的相似度，可以确定该两个特征点是否相匹配。ORB信息所描述的特征点可以称之为ORB点。在marker图像上提取的ORB信息主要是指该marker图像上的目标对象的特征点的特征点描述信息。

在得到了marker图像上多个特征点的特征描述信息后，在S103中生成关于特征描述信息的向量，并构建索引，即构建关于该marker图像的各特征描述信息的索引，在一个实施例中，可以先生成特征描述子向量，再通过LSH(Locality Sensitive Hashing，局部敏感哈希)算法构建各特征描述信息的索引。在S104中将建立了索引后的各个特征描述信息作为marker图像的特征描述信息存储到属性数据库中，属性数据库中该marker图像的特征描述信息构成了该marker图像的ORB点集。

通过对marker图像提取特征描述信息，并通过LSH算法对特征描述信息构建索引，实现在网络有限的情况下完成marker图集的预置处理，方便后续在识别阶段时，基于摄像装置拍摄的视频帧中提取ORB信息，并基于所述属性数据库的索引进行检索，能够检索到与该视频帧匹配的目标标记图像，确定出该视频帧中存在的目标对象。

在完成了marker图像以及属性数据库的配置后，可以进行后续的对象识别处理，从拍摄的视频帧中进行对象识别，以确定出与当前拍摄的视频相关联的标记图像。

通过AR设备对应的摄像装置拍摄环境视频，得到视频帧，如图2所述，在S200中对拍摄到的第i视频帧进行归一化处理，在S201中提取第i视频帧中的ORB信息，并基于第i视频帧的ORB信息在上述属性数据库中基于索引进行检索，从第i视频帧中提取的ORB信息包括多个，该第i视频帧是摄像装置已拍摄得到的视频帧中的当前视频帧。

在一个实施例中，基于索引进行检索时，在S202中从属性数据库中确定出与第i视频帧的各个ORB信息相匹配的多个匹配ORB点集，其中包括最优匹配ORB点集和次优匹配ORB点集，每一个匹配ORB点集中，都存在足够数量的ORB信息与第i视频帧的相应ORB信息相似。

在S203中进行距离比例过滤，从而过滤掉一部分匹配ORB点集，基于ORB点集的向量汉明距离来对各匹配ORB点集基于距离比例进行过滤，以从各匹配ORB点集中确定出较优的点集。进行距离比例过滤具体是指：从各匹配ORB点集中确定出与第i视频帧的ORB信息之间的相似度大于预设的过滤相似度阈值，过滤掉小于预设的过滤相似度阈值的匹配ORB点集。

在S204进一步基于数量进行过滤，即基于过滤得到的匹配ORB点集的ORB信息的数量进行筛选，将过滤得到的匹配ORB点集的ORB信息的数量小于预设数量阈值的匹配ORB点集进一步过滤掉，或者从过滤得到的匹配ORB点集中获取ORB信息的数量较大(大于预设的数量阈值)的N个匹配ORB点集(N为正整数)。

在其他实施例中，也可以先执行S204根据ORB信息的数量进行筛选过滤，再执行S203，根据距离比例进行筛选过滤。

在S205中再进一步地对在S204中过滤得到的匹配ORB点集进行打分，具体是根据在S204过滤后的匹配ORB点集中存在特征点的数量进行打分，数量越多，打分越高，根据打分结果对剩余的匹配ORB点集进行排序，在S206中根据打分结果确定出目标标记图像，根据打分结果，将得分最高的ORB点集确定为最终的与所述第i视频帧关联的ORB点集，将该得分最高的ORB点集对应的marker图像确定为后续对所述摄像装置拍摄的视频进行处理的目标标记图像。该第i视频帧则可以对应为第一视频帧。

在一个实施例中，如果无法从属性数据库中确定出与第i视频帧的ORB信息相匹配的匹配ORB点集，则将下一视频帧按照上述对第i视频帧的处理方式重复进行处理。

在一个实施例中，在确定出第i视频帧与目标标记图像匹配后，针对第i视频帧后的视频帧，则基于光流跟踪和模板匹配相结合的跟踪算法进行处理，以确定出第i视频帧后的视频帧与目标标记图像之间的关系，确定出第i视频帧后的视频帧与目标标记图像之间H矩阵等。

请参见图3，是本发明实施例的对视频帧进行对象识别的流程示意图，对视频帧进行对象识别可以在一个具备图像分析功能的智能设备上执行，该智能设备能够接收摄像装置拍摄的视频帧并对各个视频帧进行对象识别。在一个实施例中，可以由一个专用智能设备或者由AR设备来执行。对象识别过程包括以下步骤。在本发明实施例中，以“火炬”为目标对象来进行说明。

S301：加载标记图像。对标记图像的加载主要包括：将输入的原始标记图像生成缩放到合适尺度的灰度图，该处理后得到的灰度图大于需要进行对象识别的视频帧的尺寸，例如可以是需要进行对象识别的视频帧的1.2倍(例如长、宽各1.2倍)；在得到灰度图后，提取第一特征信息，并生成第二特征点信息。该第一特征信息用于在后续识别视频帧中是否与标记图像匹配，第一特征点信息可以为ORB信息。该第二特征点信息用于进行后续的图像跟踪识别，该第二特征点信息可以是GFTT(Good Features To Track，一种用于追踪的特征点)的角点特征，生成的第二特征点为特征明显的角点，且适合后续的视频帧之间的光流跟踪，目标标记图像中的第二特征点信息所表示的特征点中部分或者全部被确定为源特征点。在一个实施例中，这些源特征点主要可以是目标标记图像上的目标对象上的特征点。在目标标记图像上可以仅仅只有一个目标对象，例如图3中的火炬，所提取的ORB点、GFTT点都可以是该火炬上的特征点，例如火炬上的图案部分的点、顶端的点等。

S302：进行对象识别。提取视频帧的特征点信息，可以为ORB信息，并将视频帧的ORB信息与上述加载的各个标记图像的ORB信息进行对象识别，如果确定出某个标记图像与视频帧关联，则可以从该视频帧开始执行后续的步骤。在本发明实施例中，识别出第i视频帧与标记图像中的目标标记图像关联。在确定出与目标标记图像关联的第i视频帧后，计算摄像装置的初始外参矩阵用于后续的跟踪点的生成操作。该初始外参矩阵是根据第i视频帧的GFTT特征点信息与目标标记图像的GFTT特征点信息计算得到的H矩阵来确定的。

S303：确定用于进行光流跟踪的跟踪点。由于上述S302的对象识别操作比较耗时，该对象识别操作与摄像装置拍摄视频为异步操作，因此，当对第i视频帧进行对象识别并确定与目标标记图像关联后，当前获取到的视频帧应为第i视频帧的若干帧后的第j视频帧。为了确定第j视频帧上的特征点信息，需要先基于目标标记图像上的源特征点确定在第i帧上跟踪点，并得到跟踪点的特征点信息。

在一个实施例中，如图3所示，摄像装置拍摄的第i视频帧可以是作为目标对象的火炬被放置一个固定机构上的场景，在第i视频帧上，除了包括火炬，还包括固定装置等其他对象。通过对目标标记图像中的特征点找到的跟踪点也主要是指第i视频帧上与火炬相关的特征点。

在一个实施例中，使用对象识别的匹配结果，即标记图像和第i视频帧之间匹配的ORB信息，计算得到目标标记图像和第i视频帧图的H矩阵，通过H矩阵对目标标记图像进行齐次变换、并将齐次变换后的目标标记图像进行透视变换得到变换后的标记图像，变换后的目标标记图像是与第i视频帧相同大小的图像，并且，变换后的目标标记图像中的目标对象的图像位置区域、与第i视频帧中对应的目标对象在第i视频帧中的图像位置区域相同，或者，因为H矩阵计算会有误差，目标对象的在目标标记图像和第i视频帧中的图像位置区域实际是相接近的。具体如图4所示，示出了变换前的标记图像、变换后的标记图像与视频帧之间的关系的示意图，经过齐次变换和透视变换后，目标标记图像中的目标对象可以和第i视频帧中的目标对象重合。如图4所示，火炬在变换后的标记图像上的图像位置，几乎与第i视频帧上火炬的图像位置相同或基本相同，如图4中的虚线框所示。

同时，将目标标记图像上的源特征点基于所述目标标记图像和第i视频帧之间的H矩阵进行变换，得到各个源特征点在变换后的目标标记图像中对应的图像位置坐标。

在一个实施例中，可以根据目标标记图像上的源特征点来确定第i视频帧上的跟踪点。以源特征点在变换后的标记图像上的位置坐标为中心，在变换后的标记图像中相应位置区域截取10*10的正方形区域内的图像作为模板图像，在第i视频帧中以相同的坐标(目标坐标)为中心，截取20*20的正方形区域内的图像作为搜索窗口(搜索图像)，根据模板图像在搜索窗口中进行搜索，在搜索的过程中使用NCC(Normalized Cross Correlation，归一化互相关)算法比较模板图像与搜索图像之间的相似度，如果相似度>0.8，则将第i视频帧当前的目标坐标对应的点确定为一个跟踪点，该跟踪点的位置信息作为第i视频帧的特征点信息。再以下一个源特征点的位置为中心，执行相同的搜索方式，直到找到设定数量的跟踪点，并得到设定数量的第i视频帧的特征点信息，第i视频帧的特征点信息包括跟踪点的位置信息。通过模板匹配的方式在一定搜索窗口范围内进行搜索和详细性比较，一方面能避免H矩阵计算误差带来的影响，比如基于H矩阵计算目标标记图像上的源特征点，得到第i视频帧上的跟踪点，但是由于H矩阵存在误差，计算出来的跟踪点可能并不与源特征点匹配，另一方面能剔除掉可能的遮挡和形变部分的特征点。其中，上述涉及到的尺寸值和形状仅为举例，在其他实施例中，可以截取5*10的长方形区域，或者半径为10的圆形区域，尺寸值是以像素点为单位，例如10*10是指10个像素点*10个像素点的位置区域。在第i视频帧上确定了特征点信息后，对于第j视频帧即可基于帧间的光流跟踪算法对第j视频帧上的特征点信息所对应的特征点进行跟踪识别。

S304：执行帧间光流跟踪处理。在确定了跟踪点对应的特征点信息后的第i视频帧的基础上，基于光流跟踪算法、第i视频帧与第j视频帧之间的光流场上各个点的运动矢量、以及第i视频帧上各个跟踪点的位置，在第j视频帧上找到有效特征点。这些有效特征点作为后续在第j视频帧进行图像搜索的基础位置点。

在一个实施例中，第i视频帧上得到的跟踪点的特征点信息为第一特征点信息。在第i视频帧上以第一特征点信息对应的第一特征点为中心截取模板图像，在第j视频帧上以对第一特征点进行光流跟踪得到的匹配有效特征点为中心截取搜索图像，将模板图像在搜索图像上进行搜索，在搜索图像上确定了相似度大于预设相似度阈值的子图像时，则将该匹配有效特征点作为一个第二特征点，继续查找下一个第二特征点，直至第二特征点的数量达到预设的数量阈值。

S305：计算H矩阵。基于第一特征点信息和对应的第二特征点的第二特征点信息之间的映射关系、第一特征点信息与对应的源特征点信息之间的映射关系，构成所述第j视频帧的第二特征点信息与目标标记图像对应的源特征点信息之间的映射关系，最终基于第二特征点信息与对应的源特征点信息之间的该映射关系，来计算第j视频帧与目标标记图像之间的H矩阵。

相对于第i视频帧，第j视频帧可以是摄像装置移动后在不同位置点和/或角度拍摄到的，如图3所示，火炬以及固定机构在第j视频帧上的图像位置已经与在第i视频帧的图像位置不相同。在第j视频帧上跟踪得到的第二特征点信息是基于第i视频帧的跟踪点得到的，而第i视频帧的跟踪点则是根据目标标记图像上的源特征点得到的，因此，第二特征点与源特征点是相关的。基于第二特征点信息与对应的源特征点信息之间的映射关系，计算第j视频帧与目标标记图像之间的H矩阵，该H矩阵能够表示第j视频帧与目标标记图像之间的关系。

S306：计算得到外参矩阵。对计算得到的H矩阵进行处理，得到外参矩阵。通过对上述计算得到的第j视频帧与目标标记图像之间的H矩阵进行处理的方式，可得到摄像装置的外参矩阵[r，t]。基于该外参矩阵，已知的摄像装置的内参矩阵，即可对需要叠加到目标对象上的虚拟内容进行成像处理，使虚拟内容在视频帧中成像。

S307：执行帧间光流跟踪处理。由于已经在第j视频帧上确定出第二特征点信息，因此，在接收到第j+1视频帧后，可以直接将第j视频帧上的第二特征点信息所对应的特征点作为跟踪点，进行光流跟踪，进而在第j+1视频帧上确定对应的第三特征点信息。

如果在第j+1帧上成功确定了足够数量的第三特征点信息，则可以基于这些第三特征点信息进行后续处理，以便于得到第j+1视频帧与目标标记图像之间的H矩阵，确定拍摄第j+1视频帧时的外参矩阵。如果确定的第三特征点信息的数量不够，则可以执行在第j+1视频帧上补充跟踪点的补点处理。在一个实施例中，如果没有在第j+1视频帧上成功确定基本数量的第三特征点信息，例如确定的第三特征点信息的数量小于N(例如N＝5)，则可以认为目前摄像装置拍摄的视频已经进行了环境的切换，重新执行上述的S302，重新开始对视频帧进行对象识别以及相关处理。

在一个实施例中，在确定第j+1视频帧上的特征点信息时，可以认为第二特征点信息是第一特征点信息，而需要确定的第j+1视频帧上的特征点信息为第二特征点信息。在第j+1视频帧上特征点信息的确定方式则可以参考S303中提到的基于模板图像和搜索图像进行搜索的确定方式。

在一个实施例中，由于第j+1视频帧与第j视频帧为相邻的视频帧，第j+1视频帧与第j视频帧之间的帧间隔小于第j视频帧与第i视频帧之间的帧间隔，因此，在第j+1视频帧上基于模板图像和搜索图像进行搜索时，搜索图像对应的搜索窗口可以取一个较小的窗口，例如，如果模板图像仍然采用10*10尺寸，则搜索图像对应采用13*13的尺寸即可在第j+1视频帧上更为快捷地确定出对应的特征点，得到特征点信息，而不需要使用20*20的大窗口。

在光流跟踪确定后续视频帧中的特征点信息的过程中，例如确定上述的第一特征点信息和第二特征点信息的过程中，由于摄像装置的移动，视频帧中的目标对象可能会有部分移出到摄像范围外，或者部分目标对象被遮挡等情况，这些情况会导致视频帧上做光流跟踪的跟踪点变少，此时需要对跟踪点进行补充。跟踪点补充步骤参考S303中的描述，具体是在目标标记图像和光流跟踪点变少的当前视频帧中来确定新的跟踪点，并使用基于上一帧计算得到的外参矩阵。从目标标记图像中补充的特征点一方面补充了跟踪点，另一方面能够修正光流跟踪过程中累计的误差，减小对H矩阵计算的影响，从而对摄像装置的外参矩阵进行一定的修正。

在一个实施例中，如果基于光流跟踪算法，在第j+1视频帧上确定的特征点信息的数量较少，则可以再次基于目标标记图像中的源特征点，在第j+1视频帧上补充跟踪点的特征点信息。补充所采用的方式可以参考S303中的描述，具体基于目标标记图像的源特征点、目标标记图像上确定的模板图像和在第j+1视频帧上确定的搜索图像，在第j+1视频帧上补充新的跟踪点。

S308：计算H矩阵。基于第二特征点信息与第三特征点信息之间的映射关系，并基于第二特征点信息与目标标记图像的源特征点信息之间的映射关系，确定第三特征点信息与源特征点信息之间的映射关系，并基于第三特征点信息与源特征点信息之间的映射关系，可以构建第j+1视频帧与目标标记图像之间的H矩阵。

S309：计算得到外参矩阵。对计算得到的H矩阵进行处理，得到外参矩阵。对H矩阵进行处理后，即可得到拍摄第j+1视频帧时摄像装置的外参矩阵。

在一个实施例中，为了获取一个更平滑的相机轨迹，可以采用一个滑动窗口策略，将滑动窗口内所有视频帧的外参矩阵使用捆集优化的方式进行优化，使摄像装置的外参矩阵产生更小的投影误差。当新的视频帧到来时替换到滑动窗口中的旧视频帧。也就是说，使用多视频帧观察场景中同一个点时，滑动窗口内的每张视频帧所对应的外参矩作为一个约束条件，滑动窗口的最后一视频帧不仅需要基于上述提及H矩阵计算得到外参矩阵，还要考虑滑动窗口内前面的视频帧所对应的外参矩阵作为约束条件，对计算得到的最后一视频帧的外参矩阵进行修正，这样再用最优化的方法，使该点投影在所有帧上的误差最小，从而外参矩阵更稳定。

在一个实施例中，滑动窗口内存在4帧视频帧，如图5a所示，对于某个被拍摄的对象上的点A，摄像装置分别在位置1、位置2、位置3以及位置4这四个位置处拍摄到了点A，存在4帧视频帧，在每一视频帧上均基于上述提及的计算方式计算得到H矩阵及外参矩阵。需要使用前面3个位置处拍摄时的外参矩阵来对位置4处拍摄到的第4帧视频帧计算得到的外参矩阵进行修正，以得到更为准确的外参矩阵。

在一个实施例中，如图5b所示，是本发明实施例的一种具体应用场景示意图，现实场景502中存在桌面及摆放在桌面上的火炬，火炬并不存在火焰。摄像装置501拍摄现实场景502，得到包括上述提到的第i视频帧、第j视频帧、第j+1视频帧等，并将这些视频帧传输给AR设备，AR设备基于这些视频帧进行上述的增强现实场景处理，将增强现实处理结果后的视频帧在显示屏503上呈现给用户，在该增强现实图像上，火焰图像504为在相应的视频帧上增加的虚拟图像。

在一个实施例中，当摄像装置快速运动或者光照剧烈变化导致光流跟踪无效时，例如基于光流跟踪算法确定不出足够的特征点信息，可认为算法失效。此时，可以通过获取终端上其他的运动传感器设备的感测数据来确定摄像装置的姿态，得到摄像装置当前的外参矩阵，例如IMU(Inertial measurement unit，惯性测量单元)的感测数据来确定摄像装置的姿态。当运动失效时，可使用IMU的姿态提供短暂的相机姿态，对于剧烈运动的情况有更强的鲁棒性。

在得到外参矩阵后，即可基于外参矩阵进行AR场景的成像处理。首先获取用于叠加在所述目标标记图像的目标对象上的虚拟内容；确定该虚拟内容在所述目标对象上的叠加位置；以所述外参矩阵控制所述摄像装置进行拍摄，并根据所述叠加位置在拍摄得到视频帧上叠加所述虚拟内容。例如，虚拟内容可以为需要叠加到火炬上的火焰图像，虚拟内容可以是预先设置的好的图像；叠加位置则是用户想要虚拟内容叠加到目标对象上的位置，对于火炬来讲，用户希望将火焰图像叠加到火炬的顶端，则该叠加位置可以对应认为是目标标记图像的火炬顶端的位置区域；再按照计算得到的外参矩阵进行拍摄，由于目标标记图像对应于世界坐标系，所以实际上认为火焰图像作为一个实体物体可以根据叠加位置确定其在世界坐标系的位置，再基于外参矩阵、内参矩阵可以得到火焰图像应该在拍摄得到的视频帧中的图像位置。

以第j视频帧上叠加虚拟内容为例，结合图6，在图6中示出了世界坐标系(X,Y,Z)，图像坐标系(u，v)，以及摄像装置坐标系(X_C,Y_C,Z_C)。由于计算得到的是第j视频帧与目标标记图像之间的H矩阵，因此，可以认为图6所示的世界坐标系是目标标记图像所在平面的坐标系，目标标记图像中目标对象的各个特征点在该世界坐标系下均存在一个坐标点，当想要在目标对象上叠加虚拟内容时，例如在火炬上方叠加火焰虚拟图像时，可以认为虚拟内容为一个实际的物体对象，例如认为图6中P被认为是该虚拟内容对应的实际物体对象上的一个点，基于当前的外参矩阵，将该物体对象成像到视频帧上，并且是成像在在想要的目标对象的对应位置处，例如火炬的上方区域位置。如图6所示，由于火炬的位置是已知的，想要叠加的虚拟内容对应的实际物体对象上的点P等也是已知的，因此，基于世界坐标系(目标标记图像的平面坐标系)、摄像装置的外参矩阵、内参矩阵、需要成像的位置，即可将虚拟的火焰直接成像在第j视频帧上，并呈现给用户，例如可以直接将P点在视频帧上成像为P'点。

请参见图7，是本发明实施例的一种增强现实场景的处理方法的流程示意图，本发明实施例的所述方法可以由一个具备图像分析功能的智能设备上执行，该智能设备能够接收摄像装置拍摄的视频帧并对各个视频帧进行对象识别。在一个实施例中，可以由一个专用智能设备或者由AR设备来执行。本发明实施例的所述方法包括如下步骤。

S701：获取由摄像装置拍摄的第一视频帧中与目标标记图像相关的第一特征点信息。所述目标标记图像是从一个标记图像集合中确定出的一个标记图像。可以根据第一视频帧中的ORB信息和标记图像的ORB信息，来确定所述第一视频帧与标记图像是否相匹配。在本发明实施例中，所述第一视频帧与所述标记图像相匹配则可以认为第一视频帧和目标标记图像中均包括目标对象。在所述第一视频帧上确定第一特征点信息的方式可参考上述实施例中提到的在第i视频帧上确定跟踪点的相关内容的描述。可以将第一特征点中的部分或者全部作为跟踪点，以便于后续进行特征点跟踪。

S702：按照光流跟踪算法对各个第一特征点信息所对应的第一特征点进行跟踪，确定在所述摄像装置拍摄的第二视频帧中第二特征点信息。所述第一视频帧和第二视频帧均是通过摄像装置拍摄得到的视频帧，所述第二视频帧的拍摄时间在第一视频帧之后。在一个实施例中，可以先确定第一视频帧和第二视频帧之间的光流场，基于光流场上各个第一特征点的运动矢量，来大致确定第二特征点在第二视频帧上的位置，并基于该大致位置进行图像搜索，确定出第二视频帧上的各个第二特征点，将第二特征点在第二视频帧上的位置信息确定为第二特征点信息。

所述S702确定第二特征点信息的具体实现方式可参考上述实施例中S304的描述，具体通过光流场来在第二视频帧中确定对应于第一特征点的有效特征点，然后以第一特征点在第一视频帧中的位置确定模板图像、对应的有效特征点在第二视频帧中的位置确定搜索图像，通过图像搜索确定相似度的方式来确定有效特征点是否为第二特征点。在得到了预设数量阈值以上数量的第二特征点的第二特征点信息后，执行下述的S703。

S703：构建第二视频帧与目标标记图像的单映射矩阵，所述单映射矩阵是根据各个第二特征点信息与所述目标标记图像的源特征点构建的。在确定了两个视频帧之间彼此匹配的特征点信息后，可以计算两个视频帧的特征点之间的映射关系，根据该映射关系来确定H矩阵即单映射矩阵。具体的基于特征点信息之间的映射关系计算单映射矩阵的方式可采用现有的方式来实现。

S704：根据所述单映射矩阵对所述第二视频帧进行增强现实处理。可以对单映射矩阵进行处理，确定所述摄像装置在拍摄第二视频帧时的外参矩阵，基于外参矩阵对所述第二视频帧进行增强现实处理。

在一个实施例中，所述S704具体可以包括：获取所述摄像装置的内参矩阵；根据所述单映射矩阵和内参矩阵计算得到所述摄像装置在拍摄第二视频帧时的原始外参矩阵；按照已存储的外参矩阵对所述原始外参矩阵进行修正，得到所述摄像装置在拍摄第二视频帧时的外参矩阵；其中，所述已存储的外参矩阵是指在拍摄所述第二视频帧之前，所述摄像装置所使用的外参矩阵。其中，按照已存储的外参矩阵对所述原始外参矩阵进行修正主要是指上述提及的基于滑动窗口策略，将滑动窗口内所有视频帧的外参矩阵使用捆集优化的方式进行优化。具体可以参考图5a所对应实施例中相应内容的描述。

在一个实施例中，相机成像模块可参考下述关系式。

x_p＝K*[r₁r₂r₃t]*X_w 关系式1；

其中X_w是世界坐标系下的点，即环境中的某个位置点，[r₁,r₂,r₃,t]表示为摄像装置的外参矩阵，K则表示为摄像装置的内参矩阵，基于这三个参数可以得到视频帧上的点x_p。

基于上述的关系式1进行变形，可以得到下述的关系式2。

x_p＝K*[r₁r₂t]*X'_w 关系式2；

由于视频帧是一个平面，认为视频帧是位于世界坐标系的xy平面上，所以z为0。则r3(z轴)这个方向没有用，由此从关系式1转换到关系式2。

在关系式2中，K*[r₁r₂t]即对应为H矩阵，因此，根据H矩阵和内参矩阵K，可以计算得到矩阵[r₁r₂t]。参考下述的关系式3。

K^-1*H＝[r₁r₂t] 关系式3；

同时，利用关系式4可以得到r₃的值，r₃＝r₁·cross(r₂)关系式4，其中，cross()是指向量叉乘。结合关系式3和关系式4，可以计算得到摄像装置的外参矩阵[r,t].

摄像装置的内参主要包括焦距、像素的大小等参数，因此，相机内参矩阵可以根据摄像装置拍摄时的焦距等参数直接得出，在计算得到了视频帧与标记图像之间的H矩阵后，即可得到基于上述的关系式3、关系式4得到外参矩阵。

在一个实施例中，如果对视频帧进行了缩放处理，则通过上述计算得到的H矩阵可以进行适当的修正，此时根据缩放比例对视频帧的H矩阵进行修正处理，包括对视频帧的像素坐标进行归一化到一个单位的长度，即乘M_w2p，视频帧做了缩放则乘M_s(缩放比例)。其修正方式如下关系式5和关系式6得到。

M_s*x_s＝x_p＝K*[r₁r₂t]*M_w2p*X'_p 关系式5；

H'是修正后的H矩阵，将H'代入关系式3中的H，结合关系式4，得到较准确的摄像装置的外参矩阵。

在得到外参矩阵后，对所述第二视频帧进行增强现实处理包括：获取用于叠加在所述目标标记图像的目标对象上的虚拟内容；确定该虚拟内容在所述目标对象上的叠加位置；以所述外参矩阵控制所述摄像装置进行拍摄，并根据所述叠加位置在拍摄得到视频帧上叠加所述虚拟内容。基于外参矩阵如何对拍摄的视频帧中目标对象的进行增强现实处理则可以参考上述图6所在实施例中的相关内容的描述。

另外，针对所述第一视频帧，由于在第一视频帧中已经确定了存在目标对象，因此，在一个实施例中，也需要对第一视频帧进行增强现实处理。首选确定用于拍摄所述第一视频帧的初始外参矩阵；根据所述初始外参矩阵对所述第一视频帧进行增强现实处理。该初始外参矩阵可以是基于第一视频帧与目标标记图像之间的H矩阵处理得到的，处理方式以及后续的对第一视频帧的增强现实处理均可参考上述实施例中相关内容的描述，在此不赘述。

在一个实施例中，当摄像装置快速运动或者光照剧烈变化导致光流跟踪无效时，在第二视频帧中无法确定满足数量要求的第二特征点时，可以基于采集到的关于摄像装置的运动感测数据，例如IMU数据，计算得到摄像装置的外参矩阵。也就是说，在执行上述步骤的过程中，判断确定的第二特征点信息的数量是否小于第二数量阈值；若小于第二数量阈值，则获取摄像装置的运动感测数据，并根据运动感测数据确定所述摄像装置的外参矩阵；根据确定的外参矩阵对拍摄的视频帧进行增强现实处理。

再请参见图8，是本发明实施例的另一种增强现实场景的处理方法的流程示意图，本发明实施例的所述方法同样可以由一个专用智能设备或者由AR设备来执行。本发明实施例的所述方法包括如下步骤。

S801：获取由摄像装置拍摄的第一视频帧中的特征描述信息。在一个实施例中，使用ORB信息作为特征描述信息，在接收到摄像装置拍摄的视频帧后，都可以提取其中的ORB信息，以便于与一个或者多个标记图像的ORB信息进行比较，根据比较结果来确定视频帧是否与某个标记图像相匹配。

S802：根据获取的特征描述信息到属性数据库中进行检索；所述属性数据库中存储的信息包括：为配置的多个标记图像分别记录的特征描述信息。在一个实施例中，所述属性数据库中存储的是对一个或者多个标记图像的ORB信息构建索引后的信息，基于该属性数据库和索引，能够快速找到某个标记图像的各ORB信息，并进行视频帧与标记图像之间的ORB信息相似度的比较。

S803：根据检索结果确定目标标记图像，其中，所述目标标记图像的N个特征点的特征描述信息与所述第一视频帧的相应的N个特征点的特征描述信息之间的相似度满足相似条件，也就是说，目标标记图像与第一视频帧之间的特征描述信息的相似度大于相似度阈值的特征点数量至少有N个。

在另一个实施例中，从属性数据库中确定出与第一视频帧的各个ORB信息相匹配的多个匹配ORB点集，然后根据向量汉明距离、匹配ORB点集中与第一视频帧的ORB信息的相似度大于预设阈值的ORB信息的数量、对ORB点集中各个ORB信息的打分结果，来从中筛选出一个最优的ORB点集；该ORB点集对应的标记图像即为目标标记图像。

S804：获取由摄像装置拍摄的第一视频帧中与目标标记图像相关的第一特征点信息。

在一个实施例中，所述S804具体可以包括：获取由摄像装置拍摄的第一视频帧与目标标记图像之间的初始单映射矩阵；基于所述初始单映射矩阵对所述目标标记图像进行变换处理，得到变换后的目标标记图像；根据变换后的目标标记图像中源特征点的位置确定出所述第一视频帧中的第一特征点，并获取该第一特征点在所述第一视频帧中的位置信息，第一特征点的位置信息可以作为第一视频帧的第一特征点信息。

在一个实施例中，所述根据变换后的标记图像中第一目标特征点的位置确定出所述第一视频帧中的第一特征点包括：以源特征点在变换后的目标标记图像中的位置确定模板图像；以第一视频帧中与所述源特征点关联的初始特征点的位置确定搜索图像；根据所述模板图像在所述搜索图像中进行图像搜索；如果在所述搜索图像中搜索出子图像，则将所述初始特征点作为第一特征点；其中，所述子图像与所述模板图像的图像相似度大于预设的相似度阈值。

在第一视频帧中确定第一特征点信息可参考上述提到的根据目标标记图像的模板图像和在第i视频帧上的搜索图像，在第i视频帧上确定跟踪点的信息的相关描述。

最后得到的第一特征点的数量需要大于预设的数量阈值，这样才能保证有足够的第一特征点可作为跟踪点提供给后续视频帧进行跟踪。

S805：按照光流跟踪算法对各个第一特征点信息所对应的第一特征点进行跟踪，确定在所述摄像装置拍摄的第二视频帧中的第二特征点信息。

在一个实施例中，所述S805具体可以包括：确定第一视频帧和第二视频帧之间的光流场；基于光流场上各个点的运动矢量以及第一特征点在第一视频帧中的位置，确定预估位置；以第一特征点在第一视频帧中的位置确定出模板图像，以预估位置在第二视频帧上的位置确定出搜索图像；根据所述模板图像在所述搜索图像上搜索，如果在所述搜索图像上搜索出子图像，则将所述预估位置对应的点确定为第二特征点，并将该预估位置确定为第二特征点信息；其中，所述子图像与所述模板图像的图像相似度大于预设的相似度阈值。

在一个实施例中，所述S804和S805均可通过设置模板图像和搜索图像的方式来确定特征点信息，在S805中第二视频帧上设置的搜索图像的尺寸小于在所述S804中第一视频帧上设置的搜索图像的尺寸。

对第一视频帧进行光流跟踪后，基于跟踪点的预估位置在第二视频帧上确定第二特征点的方式可参考上述的基于第i视频帧上的点在第j视频帧上确定特征点信息，或者基于第j视频帧上的点在第j+1帧上确定特征点信息的相关内容的描述。

在一个实施例中，确定的第二特征点信息的数量也应当大于一个预设的数量阈值，在得到多个第二特征点信息后，还可以进行补点处理，在一个实施例中，进行补点处理包括：判断确定的第二特征点信息的数量是否小于数量阈值；如果小于数量阈值，则从目标标记图像中确定出新的源特征点；根据变换后的目标标记图像中所述新的源特征点的位置从第二视频帧中确定出新的第二特征点，获取该新的第二特征点在所述第二视频帧中的位置信息。基于补点处理，能够直接建立第二视频帧上补充的第二特征点的第二特征点信息与目标标记图像的源特征点信息建立映射关系。

S806：构建第二视频帧与目标标记图像的单映射矩阵，所述单映射矩阵是根据各个第二特征点信息与所述目标标记图像的源特征点构建的。单映射矩阵可以是上述的H矩阵。

S807：根据所述单映射矩阵对所述第二视频帧进行增强现实处理。对单映射矩阵进行处理，即可得到摄像装置的外参矩阵，基于外参矩阵对所述第二视频帧进行增强现实处理。

再请参见图9，是本发明实施例的一种设置属性数据库的方法的流程示意图，本发明实施例的所述方法用于配置上述实施例中在S602中提及的属性数据库。所述方法包括如下步骤。

S901：对目标标记图像进行预处理，得到预处理标记图像，所述预处理标记图像的图像尺寸大于所述第一视频帧，并且为灰度图。预处理主要便于从目标标记图像中确定特征点，特别是方便确定ORB点对应的ORB信息。

S902：从预处理标记图像中确定特征点，并获取所述确定的各个特征点的特征描述信息。该标记图像的该特征点为ORB点，各个特征点的特征描述信息即为ORB信息。当然也可以为其他的能够描述预处理标记图像上的各对应特征点的信息。

S903：将各个特征描述信息存储到属性数据库中。在一个实施例中，通过对各个特征描述信息构建索引后，将构建了索引的各个特征描述信息存储到属性数据库中的。可以采用LSH算法对各个ORB信息建立索引后存储到预先配置的属性数据库中。

再请参见图10，是本发明实施例的一种增强现实场景的处理装置的流程示意图，本发明实施例的所述装置可以设置在智能设备中，例如可以设置在智能的AR设备中。本发明实施例的所述装置包括获取模块1001、确定模块1002、构建模块1003以及处理模块1004。

所述获取模块1001，用于获取由摄像装置拍摄的第一视频帧中与目标标记图像相关的第一特征点信息；

所述确定模块1002，用于按照光流跟踪算法对各个第一特征点信息所对应的第一特征点进行跟踪，确定在所述摄像装置拍摄的第二视频帧中的第二特征点信息；

所述构建模块1003，用于构建第二视频帧与目标标记图像的单映射矩阵，所述单映射矩阵是根据各个第二特征点信息与所述目标标记图像的源特征点构建的；

所述处理模块1004，用于根据所述单映射矩阵对所述第二视频帧进行增强现实处理。

在一个实施例中，所述处理模块1004，用于对所述单映射矩阵进行处理，确定所述摄像装置在拍摄第二视频帧时的外参矩阵；基于外参矩阵对所述第二视频帧进行增强现实处理。

在一个实施例中，所述装置还包括：标记确定模块1002，用于获取由摄像装置拍摄的第一视频帧中的特征描述信息；根据获取的特征描述信息到属性数据库中进行检索；根据检索结果确定目标标记图像；其中，所述目标标记图像的N个特征点的特征描述信息与所述第一视频帧的相应的N个特征点的特征描述信息之间的相似度满足相似条件。

在一个实施例中，所述获取模块1001，用于获取由摄像装置拍摄的第一视频帧与目标标记图像之间的初始单映射矩阵；基于所述初始单映射矩阵对所述目标标记图像进行变换处理，得到变换后的目标标记图像；根据变换后的目标标记图像中源特征点的位置确定出所述第一视频帧中的第一特征点，并获取该第一特征点在所述第一视频帧中的位置信息。

在一个实施例中，所述获取模块1001，用于以源特征点在变换后的目标标记图像中的位置确定模板图像；以第一视频帧中与所述源特征点关联的初始特征点的位置确定搜索图像；根据所述目标标记图像的模板图像在所述第一视频帧的搜索图像中进行图像搜索；如果在所述第一视频帧的搜索图像中搜索出子图像，则将所述初始特征点作为第一特征点；其中，所述子图像与所述模板图像的图像相似度大于预设的相似度阈值。

在一个实施例中，所述确定模块1002，用于确定第一视频帧和第二视频帧之间的光流场；基于光流场上各个点的运动矢量以及第一特征点在第一视频帧中的位置，确定预估位置；以第一特征点在第一视频帧中的位置确定出模板图像，以预估位置在第二视频帧上的位置确定出搜索图像；根据所述第一视频帧上的模板图像在所述第二视频帧的搜索图像上搜索；如果在所述第二视频帧的搜索图像上搜索出子图像，则将所述预估位置对应的点确定为第二特征点，并将该预估位置确定为第二特征点信息；其中，所述子图像与所述模板图像的图像相似度大于预设的相似度阈值。

在一个实施例中，所述装置还可以包括：配置模块1005，用于对目标标记图像进行预处理，得到预处理标记图像，所述预处理标记图像的图像尺寸大于所述第一视频帧，并且为灰度图；从预处理标记图像中确定特征点，并获取所述确定的各个特征点的特征描述信息；将各个特征描述信息存储到属性数据库中。

在一个实施例中，所述确定模块1002，还用于判断确定的第二特征点信息的数量是否小于数量阈值；如果小于数量阈值，则从目标标记图像中确定出新的源特征点；根据变换后的目标标记图像中所述新的源特征点的位置从第二视频帧中确定出新的第二特征点，获取该新的第二特征点在所述第二视频帧中的位置信息。

在一个实施例中，所述处理模块1004，用于获取用于叠加在所述目标标记图像的目标对象上的虚拟内容；确定该虚拟内容在所述目标对象上的叠加位置；以所述外参矩阵控制所述摄像装置进行拍摄，并根据所述叠加位置在拍摄得到视频帧上叠加所述虚拟内容。

在一个实施例中，所述处理模块1004，还用于确定用于拍摄所述第一视频帧的初始外参矩阵；根据所述初始外参矩阵对所述第一视频帧进行增强现实处理。

在一个实施例中，所述处理模块1004，用于获取所述摄像装置的内参矩阵；根据所述单映射矩阵和内参矩阵计算得到所述摄像装置在拍摄第二视频帧时的原始外参矩阵；按照以存储的外参矩阵对所述原始外参矩阵进行修正，得到所述摄像装置在拍摄第二视频帧时的外参矩阵；其中，所述已存储的外参矩阵是指在拍摄所述第二视频帧之前，所述摄像装置所使用的外参矩阵。

本发明实施例的所述装置的各个模块的具体实现可参考前述实施例中相关内容的描述，在此不赘述。

再请参见图11，是本发明实施例的一种智能设备的结构示意图，本发明实施例的所述智能设备包括供电模块、外壳等结构。在本发明实施例中还包括：处理器1101、存储装置1102以及数据接口1103。

所述存储装置1102可以包括易失性存储器(volatile memory)，例如随机存取存储器(random-access memory，RAM)；存储装置1102也可以包括非易失性存储器(non-volatile memory)，例如快闪存储器(flash memory)，固态硬盘(solid-state drive，SSD)等；存储装置1102还可以包括上述种类的存储器的组合。

所述处理器1101可以是中央处理器(central processing unit，CPU)。所述处理器1101还可以进一步包括硬件芯片。上述硬件芯片可以是专用集成电路(application-specific integrated circuit，ASIC)，还可以是可编程逻辑器件(programmable logicdevice，PLD)等。所述的PLD可以是现场可编程逻辑门阵列(field-programmable gatearray，FPGA)，通用阵列逻辑(generic array logic，GAL)等。

可选地，所述存储装置1102还用于存储程序指令。所述处理器1101可以调用所述程序指令，实现如本申请上述实施例提及的各种方法。

在一个实施例中，所述处理器1101，调用所述存储装置1102中存储的计算机程序指令，用于获取由摄像装置拍摄的第一视频帧中与目标标记图像相关的第一特征点信息；按照光流跟踪算法对各个第一特征点信息所对应的第一特征点进行跟踪，确定在所述摄像装置拍摄的第二视频帧中的第二特征点信息；构建第二视频帧与目标标记图像的单映射矩阵，所述单映射矩阵是根据各个第二特征点信息与所述目标标记图像的源特征点构建的；根据所述单映射矩阵对所述第二视频帧进行增强现实处理。

在一个实施例中，所述处理器1101，在用于根据所述单映射矩阵确定所述标记图像的目标对象在所述第二视频帧中的图像位置时，用于对所述单映射矩阵进行处理，确定所述摄像装置在拍摄第二视频帧时的外参矩阵；基于外参矩阵对所述第二视频帧进行增强现实处理。

在一个实施例中，所述处理器1101，在用于获取由摄像装置拍摄的第一视频帧中与标记图像相关的第一特征点信息之前，还用于获取由摄像装置拍摄的第一视频帧中的特征描述信息；根据获取的特征描述信息到属性数据库中进行检索；根据检索结果确定目标标记图像；其中，所述目标标记图像的N个特征点的特征描述信息与所述第一视频帧的相应的N个特征点的特征描述信息之间的相似度满足相似条件。

在一个实施例中，所述处理器1101，在用于获取由摄像装置拍摄的第一视频帧中与标记图像相关的第一特征点信息时，用于获取由摄像装置拍摄的第一视频帧与目标标记图像之间的初始单映射矩阵；基于所述初始单映射矩阵对所述目标标记图像进行变换处理，得到变换后的目标标记图像；根据变换后的目标标记图像中源特征点的位置确定出所述第一视频帧中的第一特征点，并获取该第一特征点在所述第一视频帧中的位置信息。

在一个实施例中，所述处理器1101，在用于根据变换后的标记图像中第一目标特征点的位置确定出所述第一视频帧中的第一特征点时，用于以源特征点在变换后的目标标记图像中的位置确定模板图像；以第一视频帧中与所述源特征点关联的初始特征点的位置确定搜索图像；根据所述目标标记图像的模板图像在所述第一视频帧的搜索图像中进行图像搜索；如果在所述第一视频帧的搜索图像中搜索出子图像，则将所述初始特征点作为第一特征点；其中，所述子图像与所述模板图像的图像相似度大于预设的相似度阈值。

在一个实施例中，所述处理器1101，在用于按照光流跟踪算法对各个第一特征点信息所对应的第一特征点进行跟踪，确定在所述摄像装置拍摄的第二视频帧中的第二特征点信息时，用于确定第一视频帧和第二视频帧之间的光流场；基于光流场上各个点的运动矢量以及第一特征点在第一视频帧中的位置，确定预估位置；以第一特征点在第一视频帧中的位置确定出模板图像，以预估位置在第二视频帧上的位置确定出搜索图像；根据所述第一视频帧上的模板图像在所述第二视频帧的搜索图像上搜索；如果在所述第二视频帧的搜索图像上搜索出子图像，则将所述预估位置对应的点确定为第二特征点，并将该预估位置确定为第二特征点信息；其中，所述子图像与所述模板图像的图像相似度大于预设的相似度阈值。

在一个实施例中，所述处理器1101，在用于获取由摄像装置拍摄的第一视频帧中的特征点属性信息之前，还用于对目标标记图像进行预处理，得到预处理标记图像，所述预处理标记图像的图像尺寸大于所述第一视频帧，并且为灰度图；从预处理标记图像中确定特征点，并获取所述确定的各个特征点的特征描述信息；将各个特征描述信息存储到属性数据库中。

在一个实施例中，所述处理器1101，在用于根据跟踪结果确定在所述摄像装置拍摄的第二视频帧中第二特征点信息之后，用于判断确定的第二特征点信息的数量是否小于数量阈值；如果小于数量阈值，则从目标标记图像中确定出新的源特征点；根据变换后的目标标记图像中所述新的源特征点的位置从第二视频帧中确定出新的第二特征点，获取该新的第二特征点在所述第二视频帧中的位置信息。

在一个实施例中，所述处理器1101，在用于基于外参矩阵对所述第二视频帧进行增强现实处理时，用于获取用于叠加在所述目标标记图像的目标对象上的虚拟内容；确定该虚拟内容在所述目标对象上的叠加位置；以所述外参矩阵控制所述摄像装置进行拍摄，并根据所述叠加位置在拍摄得到视频帧上叠加所述虚拟内容。

在一个实施例中，所述处理器1101，在用于获取由摄像装置拍摄的第一视频帧中与目标标记图像相关的第一特征点信息之前，还用于确定用于拍摄所述第一视频帧的初始外参矩阵；根据所述初始外参矩阵对所述第一视频帧进行增强现实处理。

在一个实施例中，所述处理器1101，在用于对所述单映射矩阵进行处理，确定所述摄像装置在拍摄第二视频帧时的外参矩阵时，用于获取所述摄像装置的内参矩阵；根据所述单映射矩阵和内参矩阵计算得到所述摄像装置在拍摄第二视频帧时的原始外参矩阵；按照以存储的外参矩阵对所述原始外参矩阵进行修正，得到所述摄像装置在拍摄第二视频帧时的外参矩阵；其中，所述已存储的外参矩阵是指在拍摄所述第二视频帧之前，所述摄像装置所使用的外参矩阵。

本发明实施例的所述处理器的具体实现可参考前述实施例中相关内容的描述，在此不赘述。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(Random AccessMemory，RAM)等。

以上所揭露的仅为本发明的部分实施例而已，当然不能以此来限定本发明之权利范围，本领域普通技术人员可以理解实现上述实施例的全部或部分流程，并依本发明权利要求所作的等同变化，仍属于发明所涵盖的范围。

Claims

1.一种增强现实场景的处理方法，其特征在于，包括：

确定第一视频帧和第二视频帧之间的光流场；

基于光流场上各个点的运动矢量以及第一特征点在第一视频帧中的位置，确定预估位置；

以第一特征点在第一视频帧中的位置确定出模板图像，以预估位置在第二视频帧上的位置确定出搜索图像；

根据所述第一视频帧上的模板图像在所述第二视频帧的搜索图像上搜索；

如果在所述第二视频帧的搜索图像上搜索出子图像，则将所述预估位置对应的点确定为第二特征点，并将该预估位置确定为第二特征点信息；

其中，所述子图像与所述模板图像的图像相似度大于预设的相似度阈值；构建第二视频帧与目标标记图像的单映射矩阵，所述单映射矩阵是根据各个第二特征点信息与所述目标标记图像的源特征点构建的；

对所述单映射矩阵进行处理，确定所述摄像装置在拍摄第二视频帧时的外参矩阵；

基于外参矩阵对所述第二视频帧进行增强现实处理。

2.如权利要求1所述的方法，其特征在于，在所述获取由摄像装置拍摄的第一视频帧中与目标标记图像相关的第一特征点信息之前，还包括：

获取由摄像装置拍摄的第一视频帧中的特征描述信息；根据获取的特征描述信息到属性数据库中进行检索；根据检索结果确定目标标记图像；

其中，所述目标标记图像的N个特征点的特征描述信息与所述第一视频帧相应的N个特征点的特征描述信息之间的相似度满足相似条件，N为正整数。

3.如权利要求1所述的方法，其特征在于，所述获取由摄像装置拍摄的第一视频帧中与目标标记图像相关的第一特征点信息，包括：

获取由摄像装置拍摄的第一视频帧与目标标记图像之间的初始单映射矩阵；

基于所述初始单映射矩阵对所述目标标记图像进行变换处理，得到变换后的目标标记图像；

根据变换后的目标标记图像中源特征点的位置确定出所述第一视频帧中的第一特征点，并获取该第一特征点在所述第一视频帧中的位置信息。

4.如权利要求3所述的方法，其特征在于，所述根据变换后的目标标记图像中源特征点的位置确定出所述第一视频帧中的第一特征点，包括：

以源特征点在变换后的目标标记图像中的位置确定模板图像；

以第一视频帧中与所述源特征点关联的初始特征点的位置确定搜索图像；

根据所述目标标记图像的模板图像在所述第一视频帧的搜索图像中进行图像搜索；

如果在所述第一视频帧的搜索图像中搜索出子图像，则将所述初始特征点作为第一特征点；其中，所述子图像与所述模板图像的图像相似度大于预设的相似度阈值。

5.如权利要求2所述的方法，其特征在于，所述获取由摄像装置拍摄的第一视频帧中的特征描述信息之前，还包括：

对目标标记图像进行预处理，得到预处理标记图像，所述预处理标记图像的图像尺寸大于所述第一视频帧，并且为灰度图；

从预处理标记图像中确定特征点，并获取所述确定的各个特征点的特征描述信息；

将各个特征描述信息存储到属性数据库中。

6.如权利要求1所述的方法，其特征在于，所述确定在所述摄像装置拍摄的第二视频帧中的第二特征点信息之后，还包括：

判断确定的第二特征点信息的数量是否小于数量阈值；

如果小于数量阈值，则从目标标记图像中确定出新的源特征点；

根据变换后的目标标记图像中所述新的源特征点的位置从第二视频帧中确定出新的第二特征点，获取该新的第二特征点在所述第二视频帧中的位置信息。

7.如权利要求1所述的方法，其特征在于，所述对所述单映射矩阵进行处理，确定所述摄像装置在拍摄第二视频帧时的外参矩阵，包括：

获取所述摄像装置的内参矩阵；

根据所述单映射矩阵和内参矩阵计算得到所述摄像装置在拍摄第二视频帧时的原始外参矩阵；

按照存储的外参矩阵对所述原始外参矩阵进行修正，得到所述摄像装置在拍摄第二视频帧时的外参矩阵；

其中，已存储的外参矩阵是指在拍摄所述第二视频帧之前，所述摄像装置所使用的外参矩阵。

8.如权利要求1所述的方法，其特征在于，所述基于外参矩阵对所述第二视频帧进行增强现实处理，包括：

获取用于叠加在所述目标标记图像的目标对象上的虚拟内容；

确定该虚拟内容在所述目标对象上的叠加位置；

以所述外参矩阵控制所述摄像装置进行拍摄，并根据所述叠加位置在拍摄得到视频帧上叠加所述虚拟内容。

9.如权利要求1所述的方法，其特征在于，所述获取由摄像装置拍摄的第一视频帧中与目标标记图像相关的第一特征点信息之前，还包括：

确定用于拍摄所述第一视频帧的初始外参矩阵；

根据所述初始外参矩阵对所述第一视频帧进行增强现实处理。

10.一种增强现实场景的处理装置，其特征在于，包括：

确定模块，用于确定第一视频帧和第二视频帧之间的光流场；

其中，所述子图像与所述模板图像的图像相似度大于预设的相似度阈值；

处理模块，用于对所述单映射矩阵进行处理，确定所述摄像装置在拍摄第二视频帧时的外参矩阵；

基于外参矩阵对所述第二视频帧进行增强现实处理。

11.一种智能设备，其特征在于，包括：处理器和存储装置；

所述存储装置，用于存储计算机程序指令；

所述处理器，调用所述计算机程序指令，用于

基于外参矩阵对所述第二视频帧进行增强现实处理。

12.一种计算机存储介质，其特征在于，该计算机存储介质存储有计算机程序指令，该计算机程序指令被执行时，实现如权利要求1-9任一项所述的方法。