CN112633145B

CN112633145B - 基于3D检测识别与运动目标追踪的WebAR处理方法

Info

Publication number: CN112633145B
Application number: CN202011521009.9A
Authority: CN
Inventors: 王先兵
Original assignee: Wuhan Xushi Technology Co ltd; Wuhan University WHU
Current assignee: Wuhan Xushi Technology Co ltd; Wuhan University WHU
Priority date: 2020-12-21
Filing date: 2020-12-21
Publication date: 2024-04-26
Anticipated expiration: 2040-12-21
Also published as: CN112633145A

Abstract

本发明属于WebAR信息处理技术领域，公开了一种基于3D检测识别与运动目标追踪的WebAR处理方法，通过图像检测与分类识别模块对视频帧中物体进行识别与分类；通过实例分割模块，将识别到的物体从图像中分离出来；通过背景填充模块与2D图像变形模块，可以让视频中分离出来的静态物体动起来；通过运动目标追踪模块，用户可以使用智能终端与分离出来的物体进行AR互动。本发明将人工智能与增强现实相结合，让静态物体动起来，让人与现实物体进行互动；本发明无需安装APP，在智能终端通过浏览器即可快速体验人与现实物体的WebAR互动；本发明无需购买昂贵的设备，使用智能手机即可体验到与众不同的WebAR。

Description

基于3D检测识别与运动目标追踪的WebAR处理方法

技术领域

本发明属于WebAR信息处理技术领域，尤其涉及一种基于3D检测识别与运动目标追踪的WebAR处理方法。

背景技术

目前，(1)苹果ARKit和谷歌ARKCore

技术表现：例用手机内集成的各项传感器来实现物体定位，通过摄像头让虚拟物体与实时视频流进行特效叠加，从而实现AR效果。

优点：例用摄像头配合各项传感器可以检测出平面，构置一个虚拟三维空间，虚拟的3D对象定位精准，让用户有沉浸感。

缺点：虽然构置了一个虚拟的三维空间，但是最终表现还是仅仅停留在虚拟的三维物体与现实视频流进行特效叠加，这只是一个虚假的AR世界，仅仅只能与虚拟3D对象交互。

(2)谷歌Google Glass、微软HoloLens、Magic Leap One

技术表现：微型投影仪+摄像头+传感器+存储传输+操控设备的结合，利用的是光学反射投影原理(HUD)，即微型投影仪先是将光投到一块反射屏上，而后通过一块凸透镜折射到人体眼球，实现所谓的“一级放大”，在人眼前形成一个足够大的虚拟屏幕，可以显示简单的文本信息和各种数据。

优点：便于携带，AR显示效果一流。

缺点：价格昂贵，并不实用。

综上所述，现有技术存在的问题是：(1)现有技术中，构置的只是一个虚拟的三维空间，用户只能与虚拟3D对象交互。无法与真正的现实物体交互，缺少了虚实结合的感觉，违背了AR(增强现实)的初衷。(2)价格昂贵，并不实用。(3)硬件限制，对硬件设备有较高要求，需要装配各种辅助硬件传感器等。(4)软应用开发成本较高，软件开发人员需要同时进行苹果和安卓两个平台的开发，以满足大部分用户的要求。(5)仍然需要一个应用程序，ARKit和ARCore都集成到了设备的操作系统中，相比于应用商店中的大量第三方软件，AR应用具备了巨大的性能优势。然而，用户想要体验AR，仍然需要下载应用。所以，开发一款AR应用只是冰山一角，应用推广，使更多的用户去下载才是最艰巨的挑战。(6)打开AR应用，需要我们一直拿着手机进行操作，这通常会让人感到疲劳。多年的原型设计和用户测试已经告诉我们，不同的用户对疲劳有不同的阈值。举个例子，年幼的孩子拿起电话和敲屏幕都有困难，更不用说用两只手来固定iPad了。很显然，这会对用户使用AR造成极大的影响。就目前而言，AR也会让设备刚到“疲劳”，它需要摄像头持续工作，这会很快耗尽电池，并使设备变烫。

解决上述技术问题的难度：(1)DeepAR创造出一个能够摆脱特殊固件支持并有着高兼容性的技术解决方案，仅需一枚普通摄像头就能体验AR的乐趣。(2)深度结合WebAR，使AR开发变得更简单，也无需进行手机兼容测试，任何支持H5的设备，仅需附加一个普通摄像头就可以完美运行。也无需额外下载APP，这既节省了手机的存储空间，也大幅改善应用“推广难”的问题。与此同时也存在很大的难点，如何实现终端适配，使得该应用能够在苹果浏览器、安卓浏览器环境以及相应的微信、手机QQ环境下正常运行。(3)目标检测时物体有交叉的时候，边界处不好处理；分割的时候目标物体90度转角处如何处理以达到良好的效果。(4)细分类的时候有的类比图片比较少，细分类效果就会不太好。(5)实时运动目标追踪模块，用户可以使用智能终端与分离出来的物体进行AR互动。

解决上述技术问题的意义：(1)现今市面上百分之60以上设备因性能问题均无法支持ARKit和ARCore这一类AR应用，DeepAR的出现，降低了设备性能要求，让更多的设备可以体验AR应用。(2)为了让AR应用得到更多的推广运营渠道，降低开发商的推广运营，同时也让用户更简单的体验到AR应用。(3)为AR应用增添新的色彩，改变了人们对“AR只能与虚拟3D对象交互”的认知，创造了“与现实物体交互”的AR新模式。(4)让用户体验AR时无需长时间手持设备，可以将设备固定在某个位置或作为“投影”来使用。

发明内容

针对现有技术存在的问题，本发明提供了一种基于3D检测识别与运动目标追踪的AR处理方法。

本发明是这样实现的，一种基于物体检测识别与运动目标追踪的WebAR处理系统，包括：

深度神经网络系统，用于物体图像的检测识别、实例分割、细分类识别；

运动目标追踪系统，采用计算机视觉的相关滤波技术对视频中的物体进行追踪；

WebAR增强现实系统，结合深度神经网络系统有运动目标追踪系统，与视频中实例分割的物体进行增强现实互动。

进一步，深度神经网络系统包括：

物体检测模块，用于对视频流图像帧进行物体检测，检测出可以识别的物体；

实例分割模块，用于对视频流图像帧进行物体实例分割，检测出可以识别的物体，并将识别到的物体从图像中分离出来，获取分割物体对象的Mask；

分类识别模块，针对物体检测模块或实例分割模块获取的物体对象，进行精细分类识别，识别出物体的具体类别。

进一步，运动目标追踪系统包括：

移动端3D物体实时追踪模块，基于计算机视觉的相关滤波技术，针对深度神经网络模块检测出来的物体，在实时视频流中进行运动目标追踪；既可以通过移动现实世界中物体，也可以通过移动智能手机摄像头，或者两者同时移动，来实现深度神经网络模块检测物体的实时运动效果，进而实现检测物体的实时运动目标追踪。

进一步，WebAR增强现实系统包括：

实时视频流处理模块，用于在浏览器打开移动智能终端的摄像头，获取实时视频流，并对视频流进行处理；

深度神经网络系统，用于物体图像的检测识别、分割以及实时追踪；

视频帧背景填充模块，用于对深度神经网络模块实例分割出来的物体进行实时背景填充，用于实现消弱现实Diminished Reality(DR)的效果；

2D图像变形处理模块，用于对深度神经网络模块实例分割出来的物体进行变形处理，让实时视频流中的静态物体动起来；

增强现实互动模块，用于借助显示设备将虚拟对象与真实环境融为一体，并呈现给用户一个感官效果真实的新环境；

WebAR开发框架，用于轻松将应用场景展现到用户视野里，Web端天然的跨平台优势，能极大地节省企业开发的成本与时间；

移动目标追踪、多目标追踪，用于实时寻找获取各个目标物体的位置信息；

对截取的物体视频流图像进行：

先将物体经过深度神经网络算法从视频图像中剔除，获取该物体外观形象，赋予动画和其他功能，然后叠加现实到视频图像中与视频图像进行同步显示；

进一步，深度神经网络系统包括：

图像分类识别模块，通过tensorflow+vgg16进行用于对截取的视频流图像进行识别及分类处理；

物体实例分割模块，通过深度神经网络模型，可以采用Mask R-CNN、Poolnet或U^2-Net等模型，把目标物体从截取的视频流图像中分割出来，获取每个目标物体的像素，后面接一个分类网络，进行物体检测识别；

移动端3D物体实时追踪模块：通过相关滤波技术，提取目标的特征，寻找最大的响应点即为要追踪目标的新位置，对3D物体进行实时追踪。

进一步，WebAR开发框架包括：

2D物体智能动画模块：

对分割出来的图像进行变形与卡通图像舞蹈编排，让2d图像灵活动起来。

本发明的另一目的在于提供一种基于3D物体检测识别与运动目标追踪的WebAR处理方法包括：

步骤一，对3D物体进行检测识别与实例分割，采用深度神经网络模型对视频帧进行目标检测与实例分割，获取每个目标物体Mask像素；

深度神经网络模型后再接一个细分类模型对检测到的目标进行精细分类，获取物体的品牌、型号信息。

步骤二，对3D物体进行实时追踪，根据目标检测、实例分割与细分类的结果，确定追踪目标；

步骤三，基于图像帧、追踪目标Mask、以及目标追踪算法(采用但不限于Mosse或KCF算法)计算出追踪目标区域、目标在首帧的位置、以及匹配模板；

步骤四，对后续的视频帧，从目标区内提取图像进行图像识别匹配，计算出物体所在位置；目标区域内从左到右、从上到下进行计算，计算之后，每个位置得到一个值，该值最大的地方即为目标区域的位置中心；如果最大值小于设定的阈值，则认为目标追丢，不更新目标位置与匹配模板。

步骤五，根据中心重新调整目标位置，重新计算匹配模板。

进一步，步骤一中，对检测到的目标进行精细分类方法包括：

(1)利用目标检测与实例分割模型对物体进行粗分类，精细分类识别模块针对实例分割的结果进行细分类，识别出物体的具体品牌、型号、容积详细信息，为增强现实内容展示与交互提供支撑。

(2)采用大规模图像检索技术对实例分割的结果进行细分类，采用文本识别技术对细分类的结果进行确认，并进一步细分。

本发明的另一目的在于提供一种存储在计算机可读介质上的计算机程序产品，包括计算机可读程序，供于电子装置上执行时，提供用户输入接口以实施所述的基于3D物体检测识别与运动目标追踪的WebAR处理方法。

本发明中对3D物体进行检测识别的操作包括：

步骤一，利用相机截取一帧视频流图像；

步骤二，通过图像分割模块进行视频帧图像分类，先将识别到的物体从图像中分离出来，之后抓取目标物体的像素；

步骤三，再给出分类模型，通过物体检测识别模块从图像中精确识别到目标物体；

步骤四，背景填充，通过填充算法将被剥离物体的图像尽可能恢复至原貌；

步骤五，重新进行特效组合，并给剥离出来的物体赋予动画。

进一步，所述的基于3D物体检测识别与运动目标追踪的AR处理方法进一步包括对3D物体进行实时追踪，所述对3D物体进行实时追踪的方法包括：

第一步，创建目标追踪模板

第二步，读取视频流信息，并获取视频流第一帧图像输入到模板

第三步，可以采用类似kcf的追踪器算法计算出首帧图像中物体所在位置并框取目标区(ROI)，标定目标区中心区域；

第四步，提取视频流后续的视频帧，导入追踪模板。第一帧目标区保留不变

第五步，从目标区内提取图像进行图像识别匹配，计算出物体边缘所在位置；目标区域内从左到右、从上到下进行计算，计算之后，每个位置得到一个值，该值最大的地方即为目标区域的中心位置；

第六步，根据中心重新调整目标区位置，重新计算匹配模板。

本发明的另一目地在于提供一种基于WebAR跨平台AR的技术解决方案，支持在各类设备、平台下流畅运行。

综上所述，本发明的优点及积极效果为：

本发明将增强现实(AR)与人工智能(AI)相结合，让静态物体动起来，让人与现实物体进行互动，而并非虚拟的对象。对比苹果ARKit和谷歌ARKCore，本发明无需安装APP，通过浏览器即可快速体验人与现实物体的互动；对比谷歌Google Glass、微软HoloLens、Magic Leap One，本发明无需购买昂贵的设备，使用普通的千元机即可体验到与众不同的AR；具体结果可参考附图7，附图8和附图9。

附图说明

图1是本发明实施例提供的基于3D物体检测识别与运动目标追踪的WebAR处理系统示意图。

图2是本发明实施例提供的基于3D物体检测识别与运动目标追踪的WebAR处理系统原理图。

图3是本发明实施例提供的基于3D物体检测识别与运动目标追踪的WebAR处理方法流程图。

图4是本发明实施例提供的基于3D物体检测识别与运动目标追踪的WebAR处理方法原理图。

图5是本发明实施例提供的移动端3D物体运动追踪技术细节示意图。

图6是本发明实施例提供的基于3D物体检测识别与运动目标追踪的WebAR处理方法的实现效果图。

图7是本发明实施例提供的实施例1的基于AR+AI的相机体验app界面。

图8是本发明实施例提供的实施例2的WebAPP应用之AR碰碰乐的界面。

图9是本发明实施例提供的实施例3的WebAPP应用之AR消消乐的界面。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

现有技术中，构置的只是一个虚拟的三维空间，用户只能与虚拟3D对象交互。价格昂贵，并不实用。

针对现有技术存在的问题，本发明提供了一种基于3D物体检测识别与运动目标追踪的AR处理方法，下面结合附图对本发明作详细的描述。

如图1所示，本发明实施例提供的基于3D物体检测识别与运动目标追踪的WebAR处理系统，包括：

神经网络系统(AI)，用于物体图像的检测识别、分割以及实时追踪。

增强现实系统(WebAR)，与神经网络系统结合，用于对截取的物体视频流图像进行：2D物体动画处理。

如图2所示，作为本发明优选实施例，神经网络系统包括：

图像分类识别模块，用于对截取的视频流图像进行识别及分类处理。

物体检测识别模块，用于对截取的视频流图像进行检测识别。

实例分割DR模块：利用削弱现实技术切割图像，将识别到的物体从图像中分离出来，实施分割DR。

移动端3D物体实时追踪模块：对3D物体进行实时追踪。

作为本发明优选实施例，增强现实系统包括：

2D物体智能动画模块：

第一移动端WebAR实时视频流模块，用于实现WebAR实时视频流。

第二移动端WebAR实时视频流模块，用于实现WebAR实时视频流。

在本发明实施例中，如图3所示，基于3D物体检测识别与运动目标追踪的WebAR处理方法包括：

S101：利用相机截取一帧视频流图像。

S102：通过图像分割模块进行视频帧图像分类，先将识别到的物体从图像中分离出来，之后抓取目标物体的像素。

S103：再给出分类模型，通过物体检测识别模块从图像中精确识别到目标物体；

S104：背景填充，通过填充算法将被剥离物体的图像尽可能恢复至原貌。

S105：重新进行特效组合，并给剥离出来的物体赋予动画。

作为优选实施例，本发明中对3D物体进行检测识别的操作包括：

步骤一，利用相机截取一帧视频流图像。

步骤二，通过图像分割模块进行视频帧图像分类，先将识别到的物体从图像中分离出来，之后抓取目标物体的像素。

步骤三，再给出分类模型，通过物体检测识别模块从图像中精确识别到目标物体。

步骤四，背景填充，通过填充算法将被剥离物体的图像尽可能恢复至原貌。

如图5所示，本发明实施例提供的基于3D物体检测识别与运动目标追踪的AR处理方法进一步包括：

第一步，输入图像并通过图像识别及kcf算法计算出图像首帧位置，在首帧模板中框取目标区。

第二步，从目标区内提取图像进行图像识别匹配，计算出物体所在位置。目标区域内从左到右、从上到下进行计算，计算之后，每个位置得到一个值，该值最大的地方即为目标区域的位置中心。

第三步，根据该中心重新调整目标位置，重新计算匹配模板。

作为优选实施例，本发明对3D物体进行实时追踪的方法包括：

第1步，创建目标追踪模板。

第2步，读取视频流信息，并获取视频流第一帧图像输入到模板。

第3步，例用kcf追踪器算法计算出首帧图像中物体所在位置并框取目标区(ROI)，标定目标区中心区域。

第4步，提取视频流后续的视频帧，导入追踪模板。第一帧目标区保留不变。

第5步，从目标区内提取图像进行图像识别匹配，计算出物体边缘所在位置；目标区域内从左到右、从上到下进行计算，计算之后，每个位置得到一个值，该值最大的地方即为目标区域的中心位置。

第6步，根据中心重新调整目标区位置，重新计算匹配模板。

下面结合具体实施例对本发明作进一步描述。

实施例1

如图6，本发明实施例提供的基于3D物体检测识别与运动目标追踪的WebAR处理方法的实现效果图。

本发明实施例提供的基于基于3D物体检测识别与运动目标追踪的WebAR处理系统具体应用包括：

AR魔瓶，一款基于AR+AI的相机体验app。

如图7所示，基于DeepAR技术开发的一款让静态瓶子跳舞的应用，通过实例分割技术将物品剥离从图像中剥离出来，制作成另一个视频流，然后将两个视频流融合在一起，从而让瓶子跳起舞来。

实施例2

本发明实施例提供的基于3D物体检测识别与运动目标追踪的AR处理系统具体应用包括：

WebAPP应用：AR碰碰乐。

如图8所示，基于DeepAR制作的一款小游戏，通过实例分割将瓶子剥离出来随机散播到屏幕任意位置，然后使用3D物体追踪技术来追踪玩家手中的瓶子，当玩家手中的瓶子撞击到屏幕上的其它瓶子即可得分。

实施例3

WebAPP应用：AR消消乐。

如图9所示，基于DeepAR制作的一款小游戏，通过物体追踪追踪瓶子的移动轨迹，手持瓶子，在屏幕随意横向或纵向移动，在移动过程中，移动轨迹里会自动生成相同的瓶子(通过实例分割技术创造出来的)，向回移动碰撞到已生成的饮料瓶会得到积分，一次性碰撞到越多的饮料瓶，积分会根据饮料瓶的数量成倍增加。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用全部或部分地以计算机程序产品的形式实现，所述计算机程序产品包括一个或多个计算机指令。在计算机上加载或执行所述计算机程序指令时，全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL)或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输)。所述计算机可读取存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘SolidState Disk(SSD))等。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于物体检测识别与运动目标追踪的WebAR处理系统，其特征在于，所述基于物体检测识别与运动目标追踪的WebAR处理系统包括：

WebAR增强现实系统，结合深度神经网络系统和运动目标追踪系统，与视频中实例分割的物体进行增强现实互动；

深度神经网络系统包括：

分类识别模块，针对物体检测模块或实例分割模块获取的物体对象，进行精细分类识别，识别出物体的具体类别；

运动目标追踪系统包括：

移动端3D物体实时追踪模块，基于计算机视觉的相关滤波技术，针对深度神经网络模块检测出来的物体，在实时视频流中进行运动目标追踪；既可以通过移动现实世界中物体，也可以通过移动智能手机摄像头，或者两者同时移动，来实现深度神经网络模块检测物体的实时运动效果，进而实现检测物体的实时运动目标追踪；

WebAR增强现实系统包括：

视频帧背景填充模块，用于对深度神经网络模块实例分割出来的物体进行实时背景填充，用于实现消弱现实Diminished Reality (DR)效果；

增强现实互动模块，用于借助显示设备将虚拟对象与真实环境融为一体。

2.一种如权利要求1所述基于物体检测识别与运动目标追踪的WebAR处理系统的基于3D物体检测识别与运动目标追踪的WebAR处理方法，其特征在于，所述基于3D物体检测识别与运动目标追踪的WebAR处理方法包括：

步骤一，对3D物体进行检测识别与实例分割，采用深度神经网络对视频帧进行目标检测与实例分割，获取每个目标物体Mask像素；

深度神经网络模型后再接一个细分类模型对检测到的目标进行精细分类，获取物体的品牌、型号信息；

步骤三，基于图像帧、追踪目标Mask、以及目标追踪算法计算出追踪目标区域、目标在首帧的位置、以及匹配模板；

步骤四，对后续的视频帧，从目标区内提取图像进行图像识别匹配，计算出物体所在位置；目标区域内从左到右、从上到下进行计算，计算之后，每个位置得到一个值，该值最大的地方即为目标区域的位置中心；如果最大值小于设定的阈值，则认为目标追丢，不更新目标位置与匹配模板；

步骤五，根据中心重新调整目标位置，重新计算匹配模板。

3.如权利要求2中所述的基于3D物体检测识别与运动目标追踪的WebAR处理方法，其特征在于，步骤一中，对检测到的目标进行精细分类方法包括：

（1）利用目标检测与实例分割模型对物体进行粗分类，精细分类识别模块针对实例分割的结果进行细分类，识别出物体的具体品牌、型号、容积详细信息；

（2）采用大规模图像检索技术对实例分割的结果进行细分类，采用文本识别技术对细分类的结果进行确认，并进一步细分。

4.一种存储在计算机可读介质上的计算机程序产品，包括计算机可读程序，供于电子装置上执行时，提供用户输入接口以实施如权利要求2-3任意一项所述的基于3D物体检测识别与运动目标追踪的WebAR处理方法。

5.一种计算机可读存储介质，包括指令，当其在计算机上运行时，使得计算机执行如权利要求2-3任意一项所述的基于3D物体检测识别与运动目标追踪的WebAR处理方法。

6.一种实现权利要求2-3任意一项所述的基于3D物体检测识别与运动目标追踪的WebAR处理方法的智能AR设备。