CN110809173A

CN110809173A - 基于智能手机ar增强现实的虚拟直播方法及系统

Info

Publication number: CN110809173A
Application number: CN202010016063.1A
Authority: CN
Inventors: 谢超平; 王威; 周游; 孙永宝; 骆东; 袁龙
Original assignee: Chengdu Sobey Digital Technology Co Ltd
Current assignee: Chengdu Sobey Digital Technology Co Ltd
Priority date: 2020-01-08
Filing date: 2020-01-08
Publication date: 2020-02-18
Anticipated expiration: 2040-01-08
Also published as: CN110809173B

Abstract

本发明涉及AR技术领域，公开了基于智能手机AR增强现实的虚拟直播方法及系统。该方案通过SceneKit框架结合ARKit框架采集图像数据，SceneKit框架用于负责现实世界图像数据的采集和虚拟3D模型的显示，ARKit框架用于负责相机事件的捕获和动作交互，采集的图像数据以SCNView为载体呈现并传输到数据处理层，进行AI美颜、滤镜、叠加静态图层的处理；同时采集音频数据并传输到数据处理层，进行降噪处理；然后采集AR图像并进行编码和封装、再进行推流和传输。上述方案中基于SceneKit框架和ARKit框架进行AR增强现实，直播结果中的AR效果源于推流框架，实现具有AR特效的直播推流。

Description

基于智能手机AR增强现实的虚拟直播方法及系统

技术领域

本发明涉及AR技术领域，特别是基于智能手机AR增强现实的虚拟直播方法及系统。

背景技术

现有直播推流的基本流程为音视频采集-音视频处理-编码和封装-推流和传输，其中对于视音频效果影响最大的在于采集和处理环节。采集是整个视频推流过程中的第一个环节，它从系统的采集设备中获取原始视频数据，并将其输出到下一个环节，其包括两方面数据采集：音频采集和图像采集。图像采集通过源有摄像头采集、屏幕录制、视频文件数据读取来实现。

视频处理阶段对采集的图像、音频数据进行处理，对图像增加美颜效果、水印、自定义滤镜等，对音频进行混音、降噪、增加特效或其他自定义处理。视频处理阶段可对单个视频采集端的视频进行处理、也能对多个视频采集端的图像进行合并。而最常见的视频采集源为摄像头，视频图像直接来源于视频摄像头，以摄像头采集画面为主进行处理和扩展。

在视频处理层，为了达到一些图像效果，比如看似非常酷炫的动画和3D效果其实质是基于叠加动态图片、叠加一些3D引擎模型，叠加一些H5特效的方式为主，还难以达到增强现实这种更为逼真的效果。

发明内容

本发明所要解决的技术问题是：针对上述存在的问题，提供了基于智能手机AR增强现实的虚拟直播方法及系统。

本发明采用的技术方案如下：基于智能手机AR增强现实的虚拟直播方法，包括：

通过SceneKit框架结合ARKit框架采集图像数据，SceneKit框架用于负责现实世界图像数据的采集和虚拟3D模型的显示，ARKit框架用于负责相机事件的捕获和动作交互，采集的图像数据以SCNView为载体呈现并传输到数据处理层；同时采集音频数据并传输到数据处理层；

数据处理层将视频图像数据进行AI美颜、滤镜、叠加静态图层的处理；数据处理层将音频数据进行降噪处理；

采集AR图像，将采集的AR图像数据进行编码和封装、然后进行推流和传输。

进一步的，所述视频图像数据和音频数据的数据源分别来自于摄像头采集、屏幕采集、麦克风音频数据采集、文件流采集中的一种或多种。

进一步的，所述文件流采集方式中，通过一个文件的本地路径为基本参数输入，启动FileReader模块后自动读取二进制的视音频文件内容；所述二进制的视音频文件内容具有两种方式共同输出，其中之一是输出到视音频处理模块，另一种是输出到视音频播放器中进行实时播放。

进一步的，所述麦克风音频数据采集方式中，通过实例化AudioRecorder对象，并配置采样率、声道数、位宽、音频帧进行录音，利用手机系统API自动开始和停止录音功能。

进一步的，所述摄像头采集方式中，设置缓冲寄存器，通过定时器循环的向缓冲寄存器输入一个采集到的实时静态图像Image，通过系统框架CoreVideo提供的API将实时静态图像Image转换成CVPixelBufferRef数据。

进一步的，所述屏幕采集方式为调用系统ReplayKit框架，通过定时器循环读取手机录屏图像得到单帧图像，得到实时静态图像image并放置在缓冲寄存器中，再通过系统框架CoreVideo提供的API将实时静态图像Image转换成CVPixelBufferRef数据。

进一步的，采用SceneKit框架的SCNCamera类结合ARKit框架的传感器追踪，坐标识别功能采集摄像头视频图像数据。

进一步的，数据处理层使用目标检测网络faster-rcnn训练检测模型，结合AI算法定位人脸的关键点，采用GPUImage针对人脸关键点进行美化处理；添加实时滤镜。

进一步的，实现AR图像采集的方法为：建立AR模型容器，将每一个模型的基础数据以Key-Value的形式注册于AR模型容器中，在AR模型容器中将模型和数据形式一一对应；建立AR控制器基类，并针对不同模型设置不同的AR功能；摄像头捕获的图像以及添加的所有模型都以SCNView为载体进行显示，以SCNView为载体进行显示的所有元素都是SCNNode对象；通过SCNView的snapshot函数获取一个帧的静态图像Image放入缓冲寄存器中，通过系统框架CoreVideo提供的API将实时静态图像Image转换成CVPixelBufferRef数据。

本发明还公开了与上述直播方法对应的基于智能手机AR增强现实的虚拟直播系统，包括：

数据采集单元：用于通过SceneKit框架结合ARKit框架采集图像数据，SceneKit框架用于负责现实世界图像数据的采集和虚拟3D模型的显示，ARKit框架用于负责相机事件的捕获和动作交互，采集的图像数据以SCNView为载体呈现并传输到数据处理层；同时采集音频数据传输到数据处理层；

数据处理层，用于将视频图像数据进行AI美颜、滤镜、叠加静态图层的处理；数据处理层将音频数据进行降噪处理；

编码以及推流模块，用于采集AR图像，将采集的AR图像数据进行编码和封装、然后进行推流和传输。

与现有技术相比，采用上述技术方案的有益效果为：

1、本发明的AR功能依赖于系统ARKit框架，是真正意义上的AR特效，其所能达到的图像效果能完全达到手机系统所支持的最高级别。

2、本发明的AR功能能快速迭代以适应新的ARKit框架功能，具备和手机AR功能一样的兼容和扩展能力。

3、在ARKit3中，不仅具备基础的AR视觉效果，还能进行更高级别的人体遮挡和身体跟踪，基于该特征实时地计算摄像机景象的位置及角度，并加上预置的3D模型，能扩展与AR模型进行互动的功能。

4、本发明的直播功能所使用的AR模型，与手机框架支持的模型保持一致，这样能充分发挥AR模型的通用性，并可使用RealityKit高级AR框架和易于使用的AR创作工具Reality Composer所创作的AR模型，使AR模型能更快速更简便的创建。可支持当前广阔使用Unity工具创建的模型。

5、本发明所提供的直播功能在于在直播推流前进行AR效果的实现，因此直播推流前，功能模块独立性强，可向其他各平台生成的直播推流地址推流，具备高度灵活性，轻松接入各平台，可根据需要扩展开发推流管理服务；基于该方案实现快速接入已开发的模型接口，即开发者能简便地将AR模型接入框架供用户直播时选用。

6、本发明的计算方案中，直播推流前进行AR效果的实现，推流的图像已具备AR效果，无需播放客户端再做进一步AR或3D效果处理，对播放端的条件放宽，只需能够正常解码视频即可观看到推流端一样的图像效果。

附图说明

图1 是基于智能手机AR增强现实的虚拟直播方法的流程示意图。

图2是基于智能手机AR增强现实的虚拟直播方法的实现框架示意图。

具体实施方式

下面结合附图对本发明做进一步描述。

本发明中出现的AR,全称为Augmented Reality,是一种前沿的技术，中文称为增强现实技术，是一种实时地计算摄影机影像的位置及角度并加上相应图像、视频、3D模型的技术，这种技术的目标是在屏幕上把虚拟世界套在现实世界并进行互动。ARKit是Apple公司最新推出的用于AR功能实现的开发框架，它能够帮助我们以最简单快捷的方式实现AR技术功能。SceneKit是Apple公司推出的用来构建3D场景的框架，可以与其它构建3D,2D模型的框架无缝交互，用于场景、模型等功能的呈现，SceneKit框架与ARKit框架相结合实现真实的AR特效。SCNView是SceneKit框架中承载模型显示的基础工具，在屏幕上看到的所有模型效果都承载于它，扮演着重要的角色。H264是国际化标准组织和国际电信联盟共同推出的新一代数字视频压缩格式，是视频编解码技术标准之一，是当前对于视频编解码方面使用最为广泛的一种标准。RTMP中文名称为“实时消息传输协议”，该协议基于TCP，是一个协议族，可实现播放器和服务器之间的音频、视频等数据传输。

本实施例的基于智能手机AR增强现实的虚拟直播方法主要包括数据采集过程、数据处理过程、编码及推流过程：

数据采集过程：通过SceneKit框架结合ARKit框架采集视频图像数据，SceneKit框架用于负责现实世界图像的采集和虚拟3D模型的显示，ARKit框架用于负责相机事件的捕获和动作交互，采集的图像数据以SCNView为载体呈现并传输到数据处理层；同时采集音频数据传输到数据处理层；如图1所示，数据采集过程的原始视距来源于屏幕采集、摄像头采集，以及音频采集、文件流采集等其它采集方式；

数据处理过程：如图1所示，数据处理层将视频图像数据进行AI美颜、滤镜、叠加静态图层的处理；数据处理层将音频数据进行降噪处理；

采集AR数据，采集的AR数据进行编码和封装；然后进行推流和传输；其中编码和封装、推流和传输两个环节采用与手机直播功能相同的实现方法，对数据的编码和封装采用OpenH264开源编码实现；推流和传输支持标准RTMP基本协议。

其中编码和封装实现过程：编码和封装层提供了公共的配置工具类RecordConfig，可通过其设置分辨率、码率、传输通道、音频位宽、声道数等基础配置数据；因为视频原始数据存储空间大，浪费资源，本实施例通过思科开源的OpenH264实现针对视频数据的H.264编码压缩，取出其空间冗余、时间冗余、编码冗余、视觉冗余。

其中推流和传输实现过程：对于编码后的视频数据采用Adobe Flash延伸出的一种流行网络视频封装格式Flash Video格式(后缀为.flv)，此格式非常流行于RTMP协议传输的直播功能。RTMP协议是一种设计用来进行实时数据通信的网络协议，主要用来在Flash/AIR平台和支持RTMP协议的流媒体/服务器之间进行音视频数据通信，具备良好的CND支持，协议简单容易实现，广泛用于直播领域。

本实施例通过上述几个环节（数据采集过程、数据处理过程、编码及推流过程），形成了一个完整的集合AR功能的从采集层到传输层的推流框架，推出带有AR特效的实时视频流。本实施例的技术方案提出了一种在直播图像中融入AR模型，基于手机系统ARKit及其他框架实现了增强现实，解决现有直播图像层特效不够逼真的技术问题；本实施例的技术方案中采用手机系统提供的ARKit框架作为基础支撑，实时地计算摄像机景象的位置及角度，并加上预置的3D模型，这样可以在屏幕上把虚拟世界套在现实世界并进行互动，实现互动的虚拟直播技术框架，解决现有直播技术不能互动的技术问题。上述方案可快速融入AR模型，以更逼真，更高效的AR功能框架渲染图像并进行编码压缩推流；直播图像的数据采集方法与传统采集推流方式具有本质区别，其AR效果来源于推流框架，并非是现有技术中在手机播放视频端叠加3D模型的特点。

本发明的核心功能为视音频数据采集，尤其是图像部分，图像部分的采集最底层为SceneKit的摄像头采集功能，采集的图像以SCNView为载体呈现在屏幕上，我们以SCNView为上层图像采集源采集数据到数据处理层进行视音频处理。

优选地，视音频采集部分包括摄像头采集、屏幕采集、麦克风音频数据采集、文件流采集。所述视频图像数据和音频数据的数据源分别来自于摄像头采集、屏幕采集、麦克风音频数据采集、文件流采集中的一种或多种。在整个直播推流功能中，此部分作为原始视音频数据的源，是最为重要的环节，这几种采集方式可独立，可共同协作，达到多样化需求。而本发明所尤其涉及到的AR直播功能就充分利用了摄像头采集、屏幕采集、麦克风采集三种不同采集方式的自身特性，共同协作实现了AR直播视音频源的采集。

其中，针对文件流数据的采集方式，本实施例所采用的技术与其他主流直播推流功能的文件采集方式相似，提供了一个用于视音频文件流读取的小模块FileReader。FileReader模块作为一个工具类，通过一个文件的本地路径为基本参数输入，启动此工具（FileReader模块）后自动以二进制方式读取视音频文件内容；所读取的二进制数据作为视音频源有两种方式共同输出，其中之一是输出到视音频处理模块，另一种是输出到视音频播放器中进行实时播放，其播放后的图像数据输到工具提供的一个用于在手机屏幕显示直播画面的PreView，开发者可根据需要来决定是否显示，即在界面呈现PreView或原始采集图像。

其中，麦克风音频数据采集是音频数据采集功能，本实施例所采用的技术与其他直播框架相似，提供一个用于采集音频数据的模块AudioRecorder，通过实例化AudioRecorder对象，并对其配置采样率、声道数、位宽、音频帧，其可通过手机系统API自动打开麦克风，根据需要实现开始和停止录音功能。采集的音频数据输出到视音频处理模块。

其中，摄像头采集是当前直播框架中使用最为广泛的采集方式。为更好地支持AR图像源的采集功能，本发明进一步封装了图像的基础采集功能，提供VideoBaseBuffer模块（相当于缓冲寄存器）。众所周知，视频图像可以简单理解成在不停地显示不同的图像，由众多图像根据帧率等参数组合而成。本实施例中，摄像头采集方式中设置VideoBaseBuffer模块，VideoBaseBuffer具备的功能是支持通过定时器，通过定时器循环的向VideoBaseBuffer中输入一个采集到的实时静态图像Image，通过系统框架CoreVideo提供的API将实时静态图像Image转换成CVPixelBufferRef数据，而CVPixelBufferRef数据就是一种用于构建视频数据的像素图片类型，这就是视频的一帧，定时器所设置的采集时间就是视频图像的采样频率。因此通过VideoBaseBuffer模块，本方案能够实现将不间断的单个图像数据转换成视频图像数据，从而形成录屏采集功能。

上述实施例的摄像头采集方式为调用系统相机框架的相关API，通过设置的图像采样频率，定时循环读取相机采集的静态画面数据加入VideoBaseBuffer缓冲池中，形成摄像头的实时视频图像数据采集功能。

其中，所述屏幕采集方式为调用系统ReplayKit框架，通过定时器（定时器所设置的采集时间就是视频图像的采样频率）循环读取手机录屏图像得到单帧图像，得到实时静态图像image放置在VideoBaseBuffer模块中，再通过系统框架CoreVideo提供的API将实时静态图像Image转换成CVPixelBufferRef数据。

本发明具备基础的图像输入模块，运用图像输入模块提供的底层采集服务，上层封装与用户交互的增强现实功能，通过将上层的图像数据输入到VideoBaseBuffer采集到的带有AR特效的直播图像数据。

优选地，实现AR图像采集，如图2所示，本实施例是通过如下方案进行的：提供AR模型容器模块、AR控制器模块、图像显示层模块、图像转换层模块。

AR模型容器模块：由于直播场景AR模型的多样性，该模块提供针对各种不同技术创建的2D和3D模型的统一管理，提供基础模型数据服务。开发者通过本框架开发直播功能时，将多个模型放入项目中，每个模型的基础数据以Key-Value的形式注册于容器中，容器根据模型数据一一对应，统一管理。用户使用开发者提供的直播功能时，该模块提供原生API接口，可供开发者快速选择使用或切换不同的模型。

AR控制器模块：本发明的AR直播技术有别于其他类似于AR特效的直播技术，最为本质的区别在于除拥有更为出色逼真的图像显示效果外，AR可实现实时互动，可捕获现实平面，具备人物遮挡，动作跟踪和互动功能。针对不同的模型，都可能具备不同的控制逻辑，不同的动作需要有不同功能的控制器。本发明提供的AR控制器模块，提供AR控制器基类，开发过程中运用系统ARKit框架和SceneKit框架自定义操作单个或多个AR模型，开发者基于此针对不同模型开发不同的AR功能，便于输出统一的SCNView对象。在用户选择AR模型时，AR模型控制器模块为其提供模型数据支持，AR控制器模块提供AR交互支持。

图像显示层模块：本发明的图像显示层模块其基础为AR控制器模块和AR模型容器模块，在AR控制器模块和AR模型容器模块这两者都具备的情况下，通过图像显示层模块予以在手机界面上呈现。系统SceneKit框架承载模型和场景的显示工作，摄像头捕获的图像以及添加的所有模型都显示于SCNView上。SCNView上显示的所有元素都是SCNNode对象，模型容器中的模型都以SCNNode的形式添加到SCNView中。本实施例通过SceneKit框架的SCNCamera类创建camera对象，以camera对象形成一个SCNNode。通过这种方式在SCNView中实现了通过摄像头采集图像的功能，以此为基础，模型容器模块的元素都以SCNNode的形式添加到SCNView中，以ARKit框架开发的基于控制器模块AR互动效果都都会实时的承载于SCNView中。

图像转换层模块：本发明在直播开始时可同时开启AR功能及其模型的相关的交互动作，在此同时开启定时循环功能，通过SCNView的snapshot函数获取实时的SVNView镜像得到图像数据，即一个帧的静态Image对象，再采用上述提供的VideoBaseBuffer模块实现了基于AR功能的图像实时采集功能。

另外，还设置图像采集控制器和音频采集控制器，提供了基础的直播功能控制功能，包括视频编码的参数、码率参数，音频的编码方式、编码参数等。图2的直播系统实现框架中还包括AI图像处理模块用于实现视音频数据处理，包括H264编码模块用于实现编码，RTMP推流模块用于实现推流。本实施例的上述各模块功能独立，具备较强的扩展能力。

在本发明中，AR直播功能的AR图像采集的数据并非直接来源于摄像头，而是经过系统AR相关框架进行渲染后的图像数据，这样保证了AR功能的完整性和独立性。与图像数据采集的同时，实时采集音频数据，这样形成了一个完整的基于AR的直播视音频采集功能。

优选地，本实施例的图像数据的处理主要使用了功能强大的第三方框架GPUImage，其提供了丰富的预处理效果。基于使用通用的目标检测网络faster-rcnn训练检测模型，结合高效率AI算法提取人脸关键点，落实到单个具体人脸关键点并通过GPUImage框架对图像进行瘦脸、磨皮、美白等美颜操作；基于GPUImage开发高性分析算法。

本发明的数据处理层对传输来的视音频数据进行处理，上述图像数据的处理是本发明数据处理层的一部分内容，提供对图像数据美颜、滤镜、水印等功能；另外本发明的音频数据进行降噪等处理。数据（视音频）处理层除图像处理方面运用高效率AI算法进行人脸检测识别、深度识别学习外，其余功能可以通过现有视音频处理技术实现；其中可采用基于RNN音频降噪算法，采用GRU/LSTM模型对音频数据降噪。

本发明并不局限于前述的具体实施方式。本发明扩展到任何在本说明书中披露的新特征或任何新的组合，以及披露的任一新的方法或过程的步骤或任何新的组合。如果本领域技术人员，在不脱离本发明的精神所做的非实质性改变或改进，都应该属于本发明权利要求保护的范围。

Claims

1.基于智能手机AR增强现实的虚拟直播方法，其特征在于，包括：

2.如权利要求1所述的基于智能手机AR增强现实的虚拟直播方法，其特征在于，所述视频图像数据和音频数据的数据源分别来自于摄像头采集、屏幕采集、麦克风音频数据采集、文件流采集中的一种或多种。

3.如权利要求2所述的基于智能手机AR增强现实的虚拟直播方法，其特征在于，所述文件流采集方式中，通过一个文件的本地路径为基本参数输入，启动FileReader模块后自动读取二进制的视音频文件内容；所述二进制的视音频文件内容具有两种方式共同输出，其中之一是输出到视音频处理模块，另一种是输出到视音频播放器中进行实时播放。

4.如权利要求2所述的基于智能手机AR增强现实的虚拟直播方法，其特征在于，所述麦克风音频数据采集方式中，通过实例化AudioRecorder对象，并配置采样率、声道数、位宽、音频帧进行录音，利用手机系统API自动开始和停止录音功能。

5.如权利要求2所述的基于智能手机AR增强现实的虚拟直播方法，其特征在于，所述摄像头采集方式中，设置缓冲寄存器，通过定时器循环的向缓冲寄存器输入一个采集到的实时静态图像Image，通过系统框架CoreVideo提供的API将实时静态图像Image转换成CVPixelBufferRef数据。

6.如权利要求2所述的基于智能手机AR增强现实的虚拟直播方法，其特征在于，所述屏幕采集方式为调用系统ReplayKit框架，通过定时器循环读取手机录屏图像得到单帧图像，得到实时静态图像image并放置在缓冲寄存器中，再通过系统框架CoreVideo提供的API将实时静态图像Image转换成CVPixelBufferRef数据。

7.如权利要求5所述的基于智能手机AR增强现实的虚拟直播方法，其特征在于，采用SceneKit框架的SCNCamera类结合ARKit框架的传感器追踪，坐标识别功能采集摄像头视频图像数据。

8.如权利要求1所述的基于智能手机AR增强现实的虚拟直播方法，其特征在于，数据处理层使用目标检测网络faster-rcnn训练检测模型，结合AI算法定位人脸的关键点，采用GPUImage针对人脸关键点进行美化处理；添加实时滤镜。

9.如权利要求1所述的基于智能手机AR增强现实的虚拟直播方法，其特征在于，实现AR图像采集的方法为：建立AR模型容器，将每一个模型的基础数据以Key-Value的形式注册于AR模型容器中，在AR模型容器中将模型和数据形式一一对应；建立AR控制器基类，并针对不同模型设置不同的AR功能；摄像头捕获的图像以及添加的所有模型都以SCNView为载体进行显示，以SCNView为载体进行显示的所有元素都是SCNNode对象；通过SCNView的snapshot函数获取一个帧的静态图像Image放入缓冲寄存器中，通过系统框架CoreVideo提供的API将实时静态图像Image转换成CVPixelBufferRef数据。

10.基于智能手机AR增强现实的虚拟直播系统，其特征在于，包括：