CN107481327B

CN107481327B - 关于增强现实场景的处理方法、装置、终端设备及系统

Info

Publication number: CN107481327B
Application number: CN201710804532.4A
Authority: CN
Inventors: 付丹青; 徐浩; 刘承全; 邹成卓; 卢霆; 项小明
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2017-09-08
Filing date: 2017-09-08
Publication date: 2019-03-15
Anticipated expiration: 2037-09-08
Also published as: US11410415B2; WO2019047789A1; US20220301300A1; CN107481327A; US20200012854A1; US11875467B2

Abstract

本发明实施例公开了关于增强现实场景的处理方法、装置、终端设备及系统，其中，方法包括：从当前拍摄的视频中确定目标视频帧；调用框选模型从目标视频帧中确定待分析的图像区域；调用分类模型分析图像区域，确定图像区域中目标对象的类别；获取与确定的类别关联的增强现实场景信息；根据目标视频帧中框选的图像区域和增强现实场景信息进行增强现实处理，以便于得到增强现实场景。采用本发明实施例，可快捷地在拍摄到的视频中叠加AR场景信息。

Description

关于增强现实场景的处理方法、装置、终端设备及系统

技术领域

本发明涉及增强现实技术领域，尤其涉及一种关于增强现实场景的处理方法、装置、终端设备及系统。

背景技术

AR(Augmented Reality，增强现实技术)是一种新兴的技术，可以将现实环境和虚拟信息相结合。AR可以实时地计算摄像装置拍摄的图像中相关对象的位置及角度，再进一步叠加上相应虚拟图像、3D模型等AR场景信息，再在终端屏幕上将AR场景信息和关于现实世界的图像进行叠加，实现虚拟世界与现实世界的结合。在AR中还可进行与用户的互动。

在关于现实世界的图像中叠加AR场景信息是实现AR的关键。因此，在拍摄装置拍摄到的图像中叠加AR场景信息成为研究的热点。

发明内容

本发明实施例提供一种关于增强现实场景的处理方法、装置、终端设备及系统，可快捷地在拍摄到的视频中叠加AR场景信息。

一方面，本发明实施例提供了一种关于增强现实场景的处理方法，包括：

从当前拍摄的视频中确定目标视频帧；

调用用于框选对象区域的框选模型从所述目标视频帧中确定待分析的图像区域；

调用用于进行对象分类识别的分类模型分析所述图像区域，确定所述图像区域中目标对象的类别；

获取与所述确定的类别关联的增强现实场景信息；

根据所述目标视频帧中框选的图像区域和所述增强现实场景信息进行增强现实处理，以便于得到增强现实场景。

另一方面，本发明实施例提供了一种关于增强现实场景的处理装置，包括：

确定模块，用于从当前拍摄的视频中确定目标视频帧；

调用模块，用于调用用于框选对象区域的框选模型从所述目标视频帧中确定待分析的图像区域；调用用于进行对象分类识别的分类模型分析所述图像区域，确定所述图像区域中目标对象的类别；

获取模块，用于获取与所述确定的类别关联的增强现实场景信息；

处理模块，用于根据所述目标视频帧中框选的图像区域和所述增强现实场景信息进行增强现实处理，以便于得到增强现实场景。

又一方面，本发明实施例提供了一种实现增强现实场景的系统，包括：用户端设备和服务端设备，其中，

所述用户端设备，用于从当前拍摄的视频中确定目标视频帧，将所述目标视频帧传输给所述服务端设备；

所述服务端设备，用于调用用于框选对象区域的框选模型从所述目标视频帧中确定待分析的图像区域；调用用于进行对象分类识别的分类模型分析所述图像区域，确定所述图像区域中目标对象的类别；并将所述图像区域包括的图像与所述目标对象的类别返回给所述用户端设备；

所述用户端设备，用于获取与所述目标对象的类别关联的增强现实场景信息；根据所述目标视频帧中框选的图像区域和所述增强现实场景信息进行增强现实处理，以便于得到增强现实场景。

再一方面，本发明实施例提供了一种终端设备，所述终端设备包括摄像装置和处理器，其中，

所述摄像装置，用于拍摄视频；

所述处理器，用于从所述拍摄装置当前拍摄到的视频中确定目标视频帧；调用用于框选对象区域的框选模型从所述目标视频帧中确定待分析的图像区域；调用用于进行对象分类识别的分类模型分析所述图像区域，确定所述图像区域中目标对象的类别；获取与所述确定的类别关联的增强现实场景信息；根据所述目标视频帧中框选的图像区域和所述增强现实场景信息进行增强现实处理，以便于得到增强现实场景。

相应地，本发明实施例提供了一种计算机存储介质，所述计算机存储介质中存储有程序，该程序被执行时，用于实现上述第一方面所述的关于增强现实场景的处理方法。

本发明实施例会预先设置模型，基于框选模型来从视频帧中确定部分图像区域，再基于分类模型对这部分图像区域中的对象进行分类，能够快速、且准确地确定需要叠加AR场景信息的对象的类别，而不需要进行全图像的分析来确定，能够针对某一类的对象来叠加AR场景信息，快捷地实现了AR场景信息叠加的泛化处理。并且，后续在叠加AR场景信息的时候，也进一步地基于框选确定的部分图像区域作为参考位置，来叠加AR场景信息，也使得AR场景信息的叠加更为快捷、准确。

附图说明

图1是本发明实施例的预置相关模型的示意图；

图2是本发明实施例的一种确定视频帧的方法的流程示意图；

图3是本发明实施例的一种服务端设备的结构示意图；

图4是本发明实施例的用户端设备和服务端设备之间交互的示意图；

图5是本发明实施例的通过SSD模型对目标视频帧的识别的示意图；

图6是本发明实施例的一种关于增强现实场景的处理方法的流程示意图；

图7是本发明实施例的一种模型的配置方法流程示意图；

图8是本发明实施例的另一种模型的配置方法流程示意图；

图9是本发明实施例的一种实现增强现实场景的系统的流程示意图；

图10是本发明实施例的一种关于增强现实场景的处理装置的结构示意图；

图11是本发明实施例的一种终端设备的结构示意图。

具体实施方式

在实现AR的过程中，可以通过预先设置标记物Marker的方式来对拍摄装置拍摄到的视频中各视频帧进行分析识别，以便于确定合适的AR场景信息和叠加位置。在AR Marker识别的方式中，Marker图像会被优先保存，然后通过图像识别技术从拍摄装置拍摄到的视频中查找识别与Marker相同的图像区域。如果识别出与Marker相同的图像区域，则进一步获取与该图像区域关联的AR场景信息，并将该AR场景信息叠加到摄像装置后续继续拍摄得到的视频帧中。

在一个实施例中，用户可以将需要识别的Marker图像提前上传到云端后台或者预置在本地，Marker图像可以为一张桌子的图像，一个动物的图像。当用户将手机摄像头等摄像装置瞄准待识别物体进行拍摄时，用户端设备定时截取视频帧上传，后台通过预置的Marker图像对视频帧进行识别，识别成功后，根据视频帧中与Marker图像相同的视频帧中特征点位置、Marker图像中相应特征点的位置之间的映射关系计算姿态矩阵，从而进行AR场景信息在视频帧上的叠加。举例来说，一张“狗”的图像被作为Marker图像存储在本地存储器中，在摄像装置拍摄到视频帧后，将视频帧与Marker图像进行比较，如果视频帧中的某个图像区域中存在的图像对象与Marker图像中的“狗”的图像相似度高于预设的相似度阈值，则认为视频帧中存在与Marker图像的图像区域，可以在该区域中叠加与“狗”相关的AR场景信息，例如，在视频帧的该图像区域中叠加“狗骨头”3D图像。其中，不同图像之间的相似度可以通过图像局部特征点的匹配来计算得到的。

在一个实施例中，关于增强现实场景的处理过程，还可以包括预置相关模型以及通过调用相关模型的AR场景处理两个部分。相关模型包括用于框选对象区域的框选模型和用于进行对象分类识别的分类模型，在一个实施例中，该框选模型和分类模型可以属于同一个功能模型，该功能模型既能够用于框选对象区域，也能够用于进行对象分类识别。基于各模型，一方面可以从摄像装置拍摄的图像中，框选出部分图像区域；一方面可以从框选的部分图像区域中快速识别目标对象的类别，以便于后续查找合适的与对象的类别相关的AR场景信息并在合适的位置叠加AR场景信息。AR场景信息主要是指一些3D的虚拟信息，例如3D的动物、植物、数字等信息。

如图1所示，是本发明实施例的预置相关模型的示意图。在预置相关模型时，首先预置初始模型，例如初始的能够框选对象区域和能够进行对象分类识别的SSD(SingleShot MultiBox Detector)模型(一种用于进行物体检测的模型)。然后将收集到的图像和该图像的描述信息作为输入以对初始模型进行优化，所述收集到的图像是指收集的包括某一类对象的图像。

在一个实施例中，针对需要的对象类别，从网络上搜集该对象类别下的多张图像，例如，需要分类“狗”的类别，则收集大量的包括“狗”的图像，每个分类类别可以收集约2000张清晰的、背景多种多样的图像，这些图像作为图像集合供后续对模型进行训练学习。对于这些图像，可通过人工的方式进行语料标注，以便于得到每一张图像的描述信息。并且这些图像由人工进行筛选，使得某个类别下对应的对象在图像中所处的位置区域大致相同，例如，“狗”的类别中，“狗”都处于图像的靠中心的区域。在人工标注过程中，本发明实施例可以提供标注工具，该工具允许直接在图像上框选出需要分类的对象所在的图像区域，可通过矩形框进行标注，并给以分类标签。图像的描述信息可以包括图像路径、图像名称、矩形框的左上角坐标、矩形框右下角坐标以及分类标识，描述信息可以以XML(ExtensibleMarkup Language，可扩展置标语言)标准格式记录到XML文件，以便于为模型训练提供语料准备。在图1中，name部分为图像名称，bndbox部分为矩形框的左上角坐标、矩形框右下角坐标。

图1中所示的第一函数可以为一个损失函数，例如可以为softmax loss函数，该第一函数用以衡量从预测图像中框选的预测图像区域中的对象的类别、与该预测图像的描述信息中分类标识所指示类别之间的差异。具体的，可以将图像的每个像素值输入神经网络，根据神经网络学习到的参数进行前向计算，进而得到图像特征表示向量。由第一函数对该图像特征表示向量进行预测，得到该预测图像区域中的对象的类别，通过第一函数对图像特征表示向量进行计算可以得到该预测图像区域中的对象所属的类别的概率，例如属于“狗”、“猫”等类别的概率，概率最大的类别为预测结果。在一个实施例中，SSD模型中配置了上述提及的用于得到图像特征表示向量的神经网络，以及第一函数、第二函数，SSD模型能够确定图像的特征，并基于特征对图像进行分类和区域框选。如果预测结果与预测图像的描述信息中类别标识所指示的类别相同，则该初始模型可以被认为可用，继续对下一张预测图像重复执行上述的对预测图像区域中的对象进行识别等过程。如果预测结果与预测图像的描述信息中类别标识所指示的类别不相同，不满足建模条件，则需要根据所述描述信息和所述预测图像，更新所述初始模型中的相关参数。

图1中所示的第二函数也为一个损失函数，例如可以是Smooth loss函数，第二函数用于衡量在预测图像中框选的预测图像区域的图像位置与该预测图像的描述信息中目标区域位置信息之间的差异。所述目标区域位置信息可以是指上述提到的矩形框的左上角坐标、矩形框右下角坐标。经过所述第二函数计算后，如果得到的损失值(该损失值可以认为是预测图像区域的图像位置信息与所述目标区域位置信息之间的差异信息)小于预设的阈值，则可以认为两者之间的差异满足预设的建模条件，所述初始模型可以被认为可用，继续对下一张预测图像重复执行上述确预测图像区域等过程。如果损失值不小于预设的阈值，则不满足预设的建模条件，则需要根据该预测图像和该预测图像的描述信息，对所述初始模型进行更新。

在通过所述初始模型对收集到的所有图像完成上述的处理后得到的更新后的初始模型可以作为最终的模型，该最终的模型能够被用于框选对象区域和用于进行对象分类识别。

在对大量的图像进行学习训练最终得到框选模型和分类模型后，即可利用相应模型对实现增强现实功能的摄像装置拍摄到的图像进行框选、分类计算，以便于框选出图像区域，并完成目标对象的分类。

为了提高对摄像装置拍摄的视频中视频帧的处理效率，可以在获取稳定的视频帧后，再对视频帧进行压缩等处理后，并执行框选和分类处理。在一个实施例中，如果框选和分类处理在服务端设备，则用户端设备需要将拍摄稳定后的视频帧发送给服务端设备，用户端设备在发送前还可以对稳定的视频帧进行裁剪、压缩等处理，以便于减少对网络流量的消耗，提高传输效率。如图2所示，是本发明实施例的一种确定视频帧的方法的流程示意图。所述确定的视频帧为稳定后的可以进行框选和分类处理的视频帧。

如图2所示，在S201中通过摄像装置获取视频帧。在S202中检测该视频帧的特征点，在一个实施例中，在所述S202中检测的特征点可以是FAST(Features fromaccelerated segment test)特征点，可以检测到得到多个特征点，并将其中的部分或者全部特征点作为目标特征点进行后续处理。在得到视频帧的目标特征点后，在S203中计算由各目标特征点坐标的均值以及方差，特征点坐标可以是指这些特征点的图像中的像素坐标。在S204中，进一步根据在S202中得到的当前视频帧中各目标特征点坐标的均值以及方差，并根据上一次计算得到的均值以及方差，计算得到所述视频的视频帧差异值，其中，上一次计算得到的均值以及方差可以是指上一视频帧中各个特征点坐标的均值以及方差，所述视频帧差异值是指两次的均值之间的差值以及两次方差之间的差值。在S205中，判断视频帧差异值是否满足预设的变化条件，例如判断两次的均值之间的差值以及两次方差之间的差值与预设的阈值进行比较，如果超过阈值，则满足变化条件，视频不稳定。如果不满足预设的变化条件，则认为视频拍摄是稳定的，视频画面稳定，在S206中可以将当前的视频帧作为目标视频帧，以便于对其进行框选和分类等处理。其中，如果满足预设的变化条件，则记录本次对视频帧计算得到的各个特征点位置的均值和方差，并跳转开始执行上述的S201，重新通过摄像装置获取新的视频帧。

在确定了目标视频帧后，在一个实施例中，如果对视频帧的框选和分类是在用户端设备本地执行，则直接调用上述的模型，对所述目标视频帧进行框选和分类，以便于根据框选和分类的结果得到增强现实场景。在一个实施例中，如果对视频帧的框选和分类是在服务端设备执行，则用户端设备需要将所述目标视频帧传输给所述服务端设备，所述服务端设备调用上述的模型，对所述目标视频帧进行框选和分类，并将框选和分类的结果返回给所述用户端设备，由用户端设备根据框选和分类的结果得到增强现实场景。

如图3所示，服务端设备中可包括接入服务模块和处理服务模块，用户端设备与服务端设备之间交互的结构示意图可参考图4所示。所述用户端设备将目标视频帧发送给接入服务模块，接入服务模块在S301中接收目标视频帧，并在S302中将目标视频帧进一步地传输给处理服务模块。处理服务器模块在S303中接收目标视频帧，处理服务器模块可选地可以在S304中对目标视频帧进行预处理，该预处理可以图像压缩、裁剪等处理，预处理的作用在于得到适合进行框选和分类处理的图像，并能够提高处理效率。处理服务器模块在S305中将目标视频帧输入到上述模型中，如上所述，该模型可用于框选对象区域和进行对象分类识别。处理服务器模块在S306中预测出分类结果，并框选确定图像区域，在S307中输出结果，在所述输出结果中，包括确定的图像区域的位置信息。在一个实施例中，通过SSD模型对目标视频帧的识别示意图可参考图5所示。所述接入服务模块在S308中接收分类结果和图像区域的位置信息，所述接入服务模块可选地可以在S309中根据图像区域的位置信息裁剪抠选出所述图像区域中对应的图像，并在S310中将分类结果和抠选出的图像区域的图像作为结果返回给所述用户端设备。

用户端设备在接收到分类结果和抠选出的图像后，首先根据分类结果找到与该分类结果中的类别相关联的AR场景信息，在本发明实施例中，可以预先对某类别配置AR场景信息，而非针对某个具体的图像对象配置AR场景信息，不同的图像对象，如果最终的分类结果为同一类别，则会找到该同一类别下的AR场景信息。在一个实施例中，如果某个类别下关联的AR场景信息可以包括多个，可以随机确定或者采用其他规则为本次分类结果中的类别确定相关联的AR场景信息。

用户端设备在确定AR场景信息后，将AR场景信息叠加到抠选出的图像上，并显示在用户端设备的屏幕上，得到AR场景供用户查看。在一个实施例中，AR场景包括声音、3D图像等信息。

进一步地，请参见图6，是本发明实施例的一种关于增强现实场景的处理方法的流程示意图，在本发明实施例中，该方法由一个用户端设备执行，也就是说，在本发明实施例中，可以仅由一个用户端设备完成整个关于AR场景的处理，所述方法包括如下步骤。

S601：从当前拍摄的视频中确定目标视频帧。拍摄所述视频的摄像装置可以设置在用户端设备上，该用户端设备能够实现AR功能。可以在检测到AR场景处理操作时，调用摄像装置拍摄环境视频。所述目标视频帧包括所述拍摄装置拍摄稳定后的某个视频帧。

所述目标视频帧可以是在视频画面稳定后确定的视频帧。用户点击进入泛化场景的按钮后，调用摄像装置开始拍摄视频，接收视频帧，并将视频帧画面显示在用户界面上，此时，该用户界面上会显示提示信息，该提示消息主要用于提示用户正在筛选稳定帧，以便提示用户稳定地对准某个对象以确定稳定的视频帧作为目标视频帧。

在一个实施例中，所述S601可以包括：获取当前拍摄的视频中预设帧范围内的各个视频帧；确定各视频帧中的特征点，根据其中相同特征点在各个视频帧中的像素位置判断所述视频的拍摄是否稳定；若是，则从所述各个视频帧中确定一个视频帧作为目标视频帧。预设帧范围内的各个视频帧可以是指以当前拍摄时间为基准，距离当前拍摄时间的时长在预设的时长范围内的时间段中拍摄得到的所有视频帧。预设帧范围内的各个视频帧还可以仅包括当前视频帧和上一视频帧。而判断特征点是否相同则可以根据各个视频帧中特征点的像素位置、像素值、该特征点周围像素点的像素值等综合进行判断。如果多个相同特征点在各视频帧中的位置相同或者像素点的间隔在预设的间隔值内(例如相隔3个像素点内)，则认为摄像装置拍摄的视频是稳定的，可以将最新获取到的视频帧作为目标视频帧。如果判断出视频的拍摄稳定，例如上述的各个相同特点在各个视频帧中的位置不相同，或者间隔较大，则重新等待预设时长，并获取该预设时长内获取到的新的视频帧，基于新视频帧重复执行上述步骤，以判断拍摄的视频是否稳定，最终确定目标视频帧。

在一个实施例中，所述S601还可以包括：检测当前拍摄的视频中当前视频帧的各目标特征点；计算各目标特征点的像素坐标的均值和方差，并记录；根据所述计算得到的均值和方差，并根据上一次计算并记录的均值和方差，计算得到所述视频的视频帧差异值；如果所述视频帧差异值不满足预设的变化条件，则将所述视频中的当前视频帧确定为目标视频帧。上一次获取到的均值和方差可以是指上一视频帧中相应目标特征点的均值和方差。所述视频帧差异值可以是指均值的差值和方差的差值，如果两个差值均不大于预设的阈值，则认为摄像装置拍摄的视频是稳定的，可以将最新获取到的视频帧作为目标视频帧。如果满足预设的变化条件，则记录本次计算得到的均值和方差，再获取新拍摄到的视频帧，然后重复上述相关步骤，对视频帧中目标特征点进行检测，计算均值和方差等处理，以便于最终确定目标视频帧。

S602：调用框选模型从所述目标视频帧中确定待分析的图像区域。将目标视频帧作为输入数据，通过框选模型从所述目标视频帧中确定一个图像区域，后续仅对该图像区域内的对象进行分析识别，并且后续在执行增强现实处理时，也是以该图像区域的位置为参考依据进行AR场景信息的叠加处理。

S603：调用分类模型分析所述图像区域，确定所述图像区域中目标对象的类别。在S603中对目标视频帧中所述图像区域中的目标对象进行识别，确定该目标对象的类别，以便于按照类别为目标视频帧选择合适的AR场景信息进行叠加。所述框选模块和分类模型可以是用户预先配置的，或者是相应设备出厂时配置的，或者是在用户下载并安装了相应的应用后在该应用中设置的。

S604：获取与所述确定的类别关联的增强现实场景信息；可以预先为每一种类别配置一个或者多个AR场景信息，例如“狗”的类别可以预先配置的AR场景信息包括：“狗骨头”的3D图像、狗叫的音频特效等，在确定了某个类别后，基于该类别进行AR场景信息查找即可。

S605：对所述目标视频帧中框选的图像区域和所述增强现实场景信息进行增强现实处理，以便于得到增强现实场景。AR处理主要包括3D图像的叠加、音效的叠加处理等。3D图像的叠加是将对应的3D图像叠加到所述基于框选模型框选的图像区域中，不需要再从目标视频帧中寻找叠加位置。在一个实施例中，还可以直接将在S602中框选确定的图像区域抠出，形成一个新的图像，仅在该抠出的新的图像中进行目标对象的类别识别以及AR处理。AR处理完成后，用户端设备可以通过屏幕、扬声器等装置向用户展示处理后的目标视频帧。然后再将新拍摄到的视频中的视频帧直接作为新的目标视频帧，重复执行上述的S602～S605，持续得到AR场景提供给用户。也就是说，第一个目标视频帧需要判断摄像装置拍摄视频时的视频画面是否稳定，在确定视频画面稳定并得到一个目标视频帧后，后续的视频帧均直接作为新的目标视频帧执行上述的S601～S605。

在一个实施例中，所述S605可以包括：裁剪所述目标视频帧，得到包括所述框选的图像区域的图像；将增强现实场景信息与所述包括所述框选的图像区域的图像进行三维叠加处理；根据三维叠加处理后的图像生成增强现实场景的视频帧，并显示该增强现实场景的视频帧。也就是说，对于目标视频帧，可以仅裁剪抠出部分区域图像来进行AR场景处理，当然，也可以不需要裁剪图像，在整个图像上叠加AR场景信息，所叠加的AR场景信息可以是叠加在由框选模型确定的图像区域内。

上述提及的框选模型和分类模型可以在同一个模型中实现。也可以为两种不同的模型。

再请参见图7，是本发明实施例的一种模型的配置方法流程示意图，本发明实施例的所述方法可用于配置上述提到的框选模型。所述方法包括如下步骤。

S701：配置初始模型。在所述S701中配置的初始模型能够根据图像中各个像素点的像素值、用户设置的基于矩形框等框选方式的框选规则，自动从图像中粗略地框选出包括某个对象的图像区域。所述初始模型可以为构建的SSD模型，基于SSD可以构建得到用于进行初步框选对象区域的模型，并进一步优化得到最终的框选模型。

S702：获取所述图像集合中的预测图像，并获取该预测图像的描述信息，所述描述信息包括所述预测图像中目标区域的目标区域位置信息。该描述信息可以由用户设置得到，可以根据需要包括：图像路径、图像名称、矩形框的左上角坐标、矩形框右下角坐标以及分类标识等，该描述信息可以为一个XML文件。图像集合可以是用户通过各种途径，例如网络搜索、实景拍摄等方式收集得到的。图像集合中的每一个图像均可以作为预测图像进行本发明实施例的相应处理。

其中，所述矩形框的左上角坐标、矩形框右下角坐标可以是用户在显示预测图像的用户界面上，手动点击框选出的预测框后，对该预测框进行检测确定的像素坐标。用户可以根据预测图像中某个目标对象在图像中的位置区域，框选出包括该目标对象的图像区域的预测框。在一个实施例中，所述S702可包括：在用户界面上显示所述预测图像；接收在该用户界面上的框选操作，将框选操作所确定的预测框的位置信息作为目标区域位置信息，得到描述信息；其中，所述目标区域位置信息包括所述预测框的左上角像素坐标和右下角像素坐标。

S703：调用所述初始模型对所述预测图像进行分析，确定所述预测图像中的预测图像区域。由所述初始模型来自动从预测图像中框选出预测图像区域。

S704：比较所述预测图像区域的图像位置信息和所述目标区域位置信息之间的差异信息。所述预测图像区域的图像位置信息是指所述预测图像区域在所述预测图像中的图像位置。可以通过一个损失函数来对所述预测图像区域的位置信息和为所述预测图像设置的描述信息中目标区域位置信息进行计算，得到损失值，将损失值作为差异信息。

S705：如果所述差异信息不满足预设的建模条件，则对所述初始模型进行更新。如果所述差异信息为上述提及的损失值，则判断该损失值是否大于预设的阈值，如果大于预设的阈值，则不满足预设的建模条件，需要调整所述初始模型中的建模参数，然后重新再对该预测图像执行上述S703～S705，最终得到的差异信息满足预设的建模条件。在确定当前的预测图像对应的差异信息满足建模条件后，再从图像集合中选取下一张预测图像重复执行上述S702～S705，直至所述预测图像集合中所有的图像都进行了上述的S702～S705，将对所述用户进行框选的初始模型进行多次更新后得到的最终模型作为框选模型。

再请参见图8，是本发明实施例的另一种模型的配置方法流程示意图，本发明实施例的所述方法可用于配置上述提到的分类模型。所述方法包括如下步骤。

S801：配置初始模型；在所述S801中配置的初始模型能够根据图像中各个像素点的像素值等参数和预先设置的各种类别的参考图像，自动对图像中的对象进行分类识别。所述初始模型可以为构建的SSD模型，基于SSD可以构建得到用于对预测图像进行初步分类的模型，并进一步优化得到最终的进行对象分类识别的分类模型。

S802：获取所述图像集合中的预测图像和该获取到的预测图像的描述信息，所述描述信息包括所述获取到的预测图像的分类标识。该描述信息可以由用户设置得到，可以根据需要包括：图像路径、图像名称、矩形框的左上角坐标、矩形框右下角坐标以及分类标识等，该描述信息可以为一个XML文件。

S803：调用所述初始模型对所述获取的预测图像进行分析，确定所述获取的预测图像的预测类别。主要是确定所述预测图像中包括的预测对象的类别，在一个实施例中，可以通过对该预测图像中的预测图像区域内的图像进行分析识别，以确定该预测图像区域内的预测对象的类别。所述预测图像区域可通过上一实施例中用于框选区域的初始模型或者对用于框选区域的初始模型进行更新后得到的最终模型来确定。可以使用SoftMax(一种分类函数)对生成的图像特征表示向量进行预测，确定预测图像区域中预测对象的类别的概率，例如通过SoftMax函数可以预测出某个预测对象属于“狗”类别的概率，“猫”类别的概率，概率最大的可以作为所述预测类别。

S804：比较所述预测图像的预测类别和所述分类标识。也就是说可以比较所述预测图像区域内对象的预测类别和所述描述信息中的分类标识是否相同，可以单纯地判断预测类别和分类标识所指示的类别是否相同。

S805：如果所述预测类别与所述分类标识所指示的类别不相同，则对所述初始模型进行更新。对所述初始模型中的相关参数进行更新，并基于更新后的模型对所述预测图像中预测图像区域中的对象再次进行预测得到预测类别，如果预测类别与描述信息中分类标识所指示的类别不相同，则再次调整初始模型的相关参数，并对所述预测模型再一次执行上述的S803～S805。如果预测类别与所述分类标识所指示的类别相同，则从图像集合中选取下一张预测图像重复执行上述S802～S805，直至所述预测图像集合中所有的图像都进行了上述的S802～S805。最后，再将对用于进行分类的初始模型进行多次更新后得到的最终模型作为分类模型。

本发明实施例会预先设置模型，基于模型来从视频帧中确定部分图像区域，再基于分类模型对这部分图像区域中的对象进行分类，能够快速、且准确地确定需要叠加AR场景信息的对象的类别，而不需要进行全图像的分析来确定，能够针对某一类的对象来叠加AR场景信息，快捷地实现了AR场景信息叠加的泛化处理。并且，后续在叠加AR场景信息的时候，也进一步地基于框选确定的部分图像区域作为参考位置，来叠加AR场景信息，也使得AR场景信息的叠加更为快捷、准确。

再请参见图9，是本发明实施例的一种实现增强现实场景的系统的流程示意图，本发明实施例的所述系统包括用户端设备901和服务端设备902。通过用户端设备901，可以采集到现实环境中的视频帧并进行AR处理。通过服务端设备902，可以对视频帧进行处理，框选图像区域并确定视频帧中的目标对象的类别。

所述用户端设备901，用于从当前拍摄的视频中确定目标视频帧，将所述目标视频帧传输给所述服务端设备902；

所述服务端设备902，用于调用用于框选对象区域的框选模型从所述目标视频帧中确定待分析的图像区域；调用用于进行对象分类识别的分类模型分析所述图像区域，确定所述图像区域中目标对象的类别；并将所述图像区域包括的图像与所述目标对象的类别返回给所述用户端设备901；

所述用户端设备901，用于获取与所述目标对象的类别关联的增强现实场景信息；对所述目标视频帧中框选的图像区域和所述增强现实场景信息进行增强现实处理，以便于得到增强现实场景。

在一个实施例中，所述用户端设备901，用于获取当前拍摄的视频中预设帧范围内的各个视频帧；确定各视频帧中的特征点，根据其中相同特征点在各个视频帧中的像素位置判断所述视频的拍摄是否稳定；若是，则从所述各个视频帧中确定一个视频帧作为目标视频帧。

在一个实施例中，所述用户端设备901，用于检测当前拍摄的视频中当前视频帧的各目标特征点；计算各目标特征点的像素坐标的均值和方差，并记录；根据所述计算得到的均值和方差，并根据上一次计算并记录的均值和方差，计算得到所述视频的视频帧差异值；如果所述视频帧差异值不满足预设的变化条件，则将所述视频中的当前视频帧确定为目标视频帧。

在一个实施例中，所述服务端设备902，还用于配置初始模型；从图像集合中获取预测图像，并获取该预测图像的描述信息，所述描述信息包括所述预测图像中目标区域的目标区域位置信息；调用所述初始模型对所述预测图像进行分析，确定所述预测图像中的预测图像区域；当所述预测图像区域的图像位置信息和所述目标区域位置信息之间的差异信息不满足预设的建模条件的情况下，对所述初始模型进行更新。

在一个实施例中，所述服务端设备902，用于在用户界面上显示所述预测图像；接收在该用户界面上的框选操作，将框选操作所确定的预测框的位置信息作为目标区域位置信息，得到描述信息；其中，所述目标区域位置信息包括所述预测框的左上角像素坐标和右下角像素坐标。

在一个实施例中，所述服务端设备902，还用于配置初始模型；从图像集合中获取预测图像和该预测图像的描述信息，所述描述信息包括所述预测图像的分类标识；调用所述初始模型对所述获取的预测图像进行分析，确定所述获取的预测图像的预测类别；当所述预测图像的预测类别和所述分类标识所指示的类别不相同时，对所述初始模型进行更新。

在一个实施例中，所述用户端设备901，用于裁剪所述目标视频帧，得到包括所述框选的图像区域的图像；将增强现实场景信息与所述包括所述框选的图像区域的图像进行三维叠加处理；根据三维叠加处理后的图像生成增强现实场景的视频帧，并显示该增强现实场景的视频帧。

本发明实施例中所述用户端设备901和服务端设备902的各个功能的具体实现可参考上述各个实施例中相关内容的描述，特别的请参考图3、图4以及图5所对应实施例中的描述。

再请参见图10，是本发明实施例的一种关于增强现实场景的处理装置的结构示意图，本发明实施例的所述装置可以设置在AR设备中，所述装置包括如下结构。

确定模块1001，用于从当前拍摄的视频中确定目标视频帧；

调用模块1002，用于调用用于框选对象区域的框选模型从所述目标视频帧中确定待分析的图像区域；调用用于进行对象分类识别的分类模型分析所述图像区域，确定所述图像区域中目标对象的类别；

获取模块1003，用于获取与所述确定的类别关联的增强现实场景信息；

处理模块1004，用于对所述目标视频帧中框选的图像区域和所述增强现实场景信息进行增强现实处理，以便于得到增强现实场景。

在一个实施例中，所述确定模块1001，用于获取当前拍摄的视频中预设帧范围内的各个视频帧；确定各视频帧中的特征点，根据其中相同特征点在各个视频帧中的像素位置判断所述视频的拍摄是否稳定；若是，则从所述各个视频帧中确定一个视频帧作为目标视频帧。

在一个实施例中，所述确定模块1001，用于检测当前拍摄的视频中当前视频帧的各目标特征点；计算各目标特征点的像素坐标的均值和方差，并记录；根据所述计算得到的均值和方差，并根据上一次计算并记录的均值和方差，计算得到所述视频的视频帧差异值；如果所述视频帧差异值不满足预设的变化条件，则将所述视频中的当前视频帧确定为目标视频帧。

在一个实施例中，所述框选模型是根据对收集的图像集合中包括的多张预测图像进行学习训练得到的；所述装置还包括：预置模块1005，用于配置初始模型；从所述图像集合中获取预测图像，并获取该预测图像的描述信息，所述描述信息包括所述预测图像中目标区域的目标区域位置信息；调用所述初始模型对所述预测图像进行分析，确定所述预测图像中的预测图像区域；当所述预测图像区域的位置信息和所述目标区域位置信息之间的差异信息不满足预设的建模条件的情况下，则对所述初始模型进行更新。

在一个实施例中，所述预置模块1005，用于在用户界面上显示所述预测图像；接收在该用户界面上的框选操作，将框选操作所确定的预测框的位置信息作为目标区域位置信息，得到描述信息；其中，所述目标区域位置信息包括所述预测框的左上角像素坐标和右下角像素坐标。

在一个实施例中，所述装置包括：预置模块1005，用于配置初始模型；从所述图像集合中获取预测图像和该预测图像的描述信息，所述描述信息包括所述预测图像的分类标识；调用所述初始模型对所述获取的预测图像进行分析，确定所述获取的预测图像的预测类别；当所述确定的预测图像的预测类别和所述分类标识所指示的类别不相同的情况下，对所述初始模型进行更新。

在一个实施例中，所述处理模块1004，用于裁剪所述目标视频帧，得到包括所述框选的图像区域的图像；将增强现实场景信息与所述包括所述框选的图像区域的图像进行三维叠加处理；根据三维叠加处理后的图像生成增强现实场景的视频帧，并显示该增强现实场景的视频帧。

本发明实施例的所述装置的各个功能模块的具体实现可参考上述各个实施例中相关内容的描述。

再请参见图11，是本发明实施例的一种终端设备的结构示意图，本发明实施例的所述终端设备可以为一个AR设备，包括电源、通信接口等结构，还包括摄像装置1101、处理器1102、存储器1103以及用户接口1104。

所述存储器1103可以包括易失性存储器(volatile memory)，例如RAM(random-access memory，随机存取存储器)；存储器1103也可以包括非易失性存储器(non-volatilememory)，例如快闪存储器(flash memory)，HDD(hard disk drive，硬盘)或SSD(solid-state drive，固态硬盘)；存储器1103还可以包括上述种类的存储器的组合。所述处理器1102可以是CPU(central processing unit，中央处理器)。所述用户接口1104主要可以包括显示AR场景的终端显示器，感测用户肢体动作的传感器等结构。

可选地，所述存储器1103还用于存储程序指令。所述处理器1102可以调用所述程序指令，实现如本申请的关于增强现实场景的处理方法。

在一个实施例中，所述摄像装置1101，用于拍摄视频；所述处理器1102，调用所述存储器1103中存储的程序指令，用于从所述拍摄装置当前拍摄到的视频中确定目标视频帧；调用用于框选对象区域的框选模型从所述目标视频帧中确定待分析的图像区域；调用用于进行对象分类识别的分类模型分析所述图像区域，确定所述图像区域中目标对象的类别；获取与所述确定的类别关联的增强现实场景信息；对所述目标视频帧中框选的图像区域和所述增强现实场景信息进行增强现实处理，以便于得到增强现实场景。

在一个实施例中，所述处理器1102，在用于从当前拍摄的视频中确定目标视频帧时，用于获取当前拍摄的视频中预设帧范围内的各个视频帧；确定各视频帧中的特征点，根据其中相同特征点在各个视频帧中的像素位置判断所述视频的拍摄是否稳定；若是，则从所述各个视频帧中确定一个视频帧作为目标视频帧。

在一个实施例中，所述处理器1102，在用于从当前拍摄的视频中确定目标视频帧时，用于检测当前拍摄的视频中当前视频帧的各目标特征点；计算各目标特征点的像素坐标的均值和方差，并记录；根据所述计算得到的均值和方差，并根据上一次计算并记录的均值和方差，计算得到所述视频的视频帧差异值；如果所述视频帧差异值不满足预设的变化条件，则将所述视频中的当前视频帧确定为目标视频帧。

在一个实施例中，所述框选模型是根据对收集的图像集合中包括的多张预测图像进行学习训练得到的；所述处理器1102，用于预置框选模型，并且，在用于预置框选模型时，所述处理器1102，具体用于配置初始模型；从所述图像集合中获取预测图像，并获取该预测图像的描述信息，所述描述信息包括所述预测图像中目标区域的目标区域位置信息；调用所述初始模型对所述预测图像进行分析，确定所述预测图像中的预测图像区域；当所述预测图像区域的位置信息和所述目标区域位置信息之间的差异信息不满足预设的建模条件的情况下，对所述初始模型进行更新。

在一个实施例中，所述处理器1102，在用于获取该预测图像的描述信息时，具体用于在用户界面上显示所述预测图像；接收在该用户界面上的框选操作，将框选操作所确定的预测框的位置信息作为目标区域位置信息，得到描述信息；其中，所述目标区域位置信息包括所述预测框的左上角像素坐标和右下角像素坐标。

在一个实施例中，所述分类模型是根据对收集的图像集合中包括的多张预测图像进行学习训练得到的；所述处理器1102，用于预置框选模型，并且，在用于预置框选模型时，所述处理器1102，具体用于配置初始模型；从所述图像集合中获取的预测图像和该预测图像的描述信息，所述描述信息包括所述预测图像的分类标识；调用所述初始模型对所述获取的预测图像进行分析，确定所述获取的预测图像的预测类别；当所述确定的预测图像的预测类别和所述分类标识所指示的类别不相同的情况下，对所述初始模型进行更新。

在一个实施例中，所述处理器1102，在用于对所述目标视频帧中框选的图像区域和所述增强现实场景信息进行增强现实处理时，具体用于裁剪所述目标视频帧，得到包括所述框选的图像区域的图像；将增强现实场景信息与所述包括所述框选的图像区域的图像进行三维叠加处理；根据三维叠加处理后的图像生成增强现实场景的视频帧，并显示该增强现实场景的视频帧。

本发明实施例中，所述处理器1102的具体实现可参考上述各个实施例中相关内容的描述。

在本发明实施例中提供一种计算机可读存储介质，该计算机可读存储介质存储有计算机程序，该计算机程序被处理器1102执行时实现如图2、图6、图7以及图8所对应的任一实施例中所描述的方法。

以上所揭露的仅为本发明的部分实施例而已，当然不能以此来限定本发明之权利范围，本领域普通技术人员可以理解实现上述实施例的全部或部分流程，并依本发明权利要求所作的等同变化，仍属于发明所涵盖的范围。

Claims

1.一种关于增强现实场景的处理方法，其特征在于，包括：

从当前拍摄的视频中确定目标视频帧；

调用用于框选对象区域的框选模型从所述目标视频帧中确定待分析的图像区域，所述框选模型用于从所述目标视频帧中框选确定一个图像区域，所述框选模型是根据对图像集合中的预测图像、该预测图像的描述信息对初始模型进行优化得到的，所述描述信息包括关于所述预测图像的目标区域位置信息，其中，对初始模型进行优化包括：调用所述初始模型对所述预测图像进行分析，确定所述预测图像中的预测图像区域，并根据预测图像区域和所述目标区域位置信息的比较结果对所述初始模型进行优化；

获取与所述确定的类别关联的增强现实场景信息；

对所述目标视频帧中框选的图像区域和所述增强现实场景信息进行增强现实处理，以便于得到增强现实场景。

2.如权利要求1所述的方法，其特征在于，所述从当前拍摄的视频中确定目标视频帧，包括：

获取当前拍摄的视频中预设帧范围内的各个视频帧；

确定各视频帧中的特征点，根据其中相同特征点在各个视频帧中的像素位置判断所述视频的拍摄是否稳定；

若是，则从所述各个视频帧中确定一个视频帧作为目标视频帧。

3.如权利要求1所述的方法，其特征在于，所述从当前拍摄的视频中确定目标视频帧，包括：

检测当前拍摄的视频中当前视频帧的各目标特征点；

计算各目标特征点的像素坐标的均值和方差，并记录；

根据所述计算得到的均值和方差，并根据上一次计算并记录的均值和方差，计算得到所述视频的视频帧差异值；

如果所述视频帧差异值不满足预设的变化条件，则将所述视频中的当前视频帧作为目标视频帧。

4.如权利要求1-3任一项所述的方法，其特征在于，获取该预测图像的描述信息，包括：

在用户界面上显示所述预测图像；

接收在该用户界面上的框选操作，将框选操作所选择的预测框的位置信息作为目标区域位置信息，得到描述信息；

其中，所述目标区域位置信息包括所述预测框的左上角像素坐标和右下角像素坐标。

5.如权利要求1-3任一项所述的方法，其特征在于，所述分类模型是根据对图像集合中包括的多张预测图像进行训练得到的；所述方法包括：

配置初始模型；

从所述图像集合中获取预测图像和该预测图像的描述信息，所述描述信息包括所述预测图像的分类标识；

调用所述初始模型对所述获取的预测图像进行分析，获取所述获取的预测图像的预测类别；

当所述预测图像的预测类别和所述分类标识所指示的类别不相同的情况下，对所述初始模型进行更新。

6.如权利要求1所述的方法，其特征在于，所述对所述目标视频帧中框选的图像区域和所述增强现实场景信息进行增强现实处理，包括：

裁剪所述目标视频帧，得到包括所述框选的图像区域的图像；

将增强现实场景信息与所述包括所述框选的图像区域的图像进行三维叠加处理；

根据三维叠加处理后的图像生成增强现实场景的视频帧，并显示该增强现实场景的视频帧。

7.一种关于增强现实场景的处理装置，其特征在于，包括：

确定模块，用于从当前拍摄的视频中确定目标视频帧；

调用模块，用于调用用于框选对象区域的框选模型从所述目标视频帧中确定待分析的图像区域，所述框选模型用于从所述目标视频帧中框选确定一个图像区域，所述框选模型是根据对图像集合中的预测图像、该预测图像的描述信息对初始模型进行优化得到的，所述描述信息包括关于所述预测图像的目标区域位置信息，其中，对初始模型进行优化包括：调用所述初始模型对所述预测图像进行分析，确定所述预测图像中的预测图像区域，并根据预测图像区域和所述目标区域位置信息的比较结果对所述初始模型进行优化；调用用于进行对象分类识别的分类模型分析所述图像区域，确定所述图像区域中目标对象的类别；

处理模块，用于对所述目标视频帧中框选的图像区域和所述增强现实场景信息进行增强现实处理，以便于得到增强现实场景。

8.一种实现增强现实场景的系统，其特征在于，包括：用户端设备和服务端设备，其中，

所述服务端设备，用于调用用于框选对象区域的框选模型从所述目标视频帧中确定待分析的图像区域，所述框选模型用于从所述目标视频帧中框选确定一个图像区域，所述框选模型是根据对图像集合中的预测图像、该预测图像的描述信息对初始模型进行优化得到的，所述描述信息包括关于所述预测图像的目标区域位置信息，其中，对初始模型进行优化包括：调用所述初始模型对所述预测图像进行分析，确定所述预测图像中的预测图像区域，并根据预测图像区域和所述目标区域位置信息的比较结果对所述初始模型进行优化；调用用于进行对象分类识别的分类模型分析所述图像区域，确定所述图像区域中目标对象的类别；并将所述图像区域包括的图像与所述目标对象的类别返回给所述用户端设备；

所述用户端设备，用于获取与所述目标对象的类别关联的增强现实场景信息；对所述目标视频帧中框选的图像区域和所述增强现实场景信息进行增强现实处理，以便于得到增强现实场景。

9.一种终端设备，其特征在于，所述终端设备包括摄像装置和处理器，其中，

所述摄像装置，用于拍摄视频；

所述处理器，用于从所述拍摄装置当前拍摄到的视频中确定目标视频帧；调用用于框选对象区域的框选模型从所述目标视频帧中确定待分析的图像区域，所述框选模型用于从所述目标视频帧中框选确定一个图像区域，所述框选模型是根据对图像集合中的预测图像、该预测图像的描述信息对初始模型进行优化得到的，所述描述信息包括关于所述预测图像的目标区域位置信息，其中，对初始模型进行优化包括：调用所述初始模型对所述预测图像进行分析，确定所述预测图像中的预测图像区域，并根据预测图像区域和所述目标区域位置信息的比较结果对所述初始模型进行优化；调用用于进行对象分类识别的分类模型分析所述图像区域，确定所述图像区域中目标对象的类别；获取与所述确定的类别关联的增强现实场景信息；根据所述目标视频帧中框选的图像区域和所述增强现实场景信息进行增强现实处理，以便于得到增强现实场景。

10.一种计算机存储介质，其特征在于，所述计算机存储介质中存储有程序，该程序被执行时，用于实现如权利要求1-6任一项所述的关于增强现实场景的处理方法。