CN106231205A

CN106231205A - 增强现实移动终端

Info

Publication number: CN106231205A
Application number: CN201610648611.6A
Authority: CN
Inventors: 顾然
Original assignee: Suzhou Heihezi Intelligent Technology Co Ltd
Current assignee: Suzhou Heihezi Intelligent Technology Co Ltd
Priority date: 2016-08-10
Filing date: 2016-08-10
Publication date: 2016-12-14
Anticipated expiration: 2036-08-10
Also published as: CN106231205B

Abstract

本发明公开了一种增强现实移动终端。包括增强现实实时计算处理单元、虚拟位置控制转化单元、实时图像渲染显示单元、实时音视频录制单元、分享交流单元。本发明所采用的多标签标记技术标签的定位的精度和可靠性高；采用了独有的音视频录制功能，方便交流和传播；拥有分享交流平台，使其传播方位、播放量等等大幅度提高；采用的陀螺仪、加速度计、计算机图形图像等相结合的技术，主要针对解决视频拍摄的多样性问题，通过增强现实技术的融合。

Description

增强现实移动终端

技术领域

本发明属于增强现实领域，更具体地涉及一种增强现实移动终端。

背景技术

随着手机的CPU和GPU的主频率等硬件性能不断增加，高运算力的图像处理软件的需求不断增加，因此增强现实技术等大运算软件的移动端平台的移植变得刻不容缓。在此类型的软件中摄影类软件较多，大体上分为视频处理类和视频创作类。视频处理类大多数受到视频资源的限制导致最终生成的视频种类单一化。视频创作类是将现有素材合成到捕获的视频内容中，最后生成创作的视频，但是此类软件中常受到计算量、渲染等级等的显示导致表现力不足。

专利CN 103329120 A中公开了一种用于增强现实的基准标记，用于增强现实的基准标记。基准标记可以位于环境中的对象上，并包括向光源反射回光的后向反射器。屏蔽或遮挡该基准标记的一部分，以形成该基准标记中包括反射部分和较低或非反射部分在内的图案。反射部分和较低或非反射部分的图案存储可以由读取设备读取的数据，并用于产生要在增强图像中包括的计算机产生的内容。

专利CN 105260158 A公开了一种基于增强现实技术的音频处理方法和装置。在本发明中，所述基于增强现实技术的音频处理方法包括：对环境声音进行采样形成环境音频；根据环境参数产生相应的虚拟音频；将所述环境音频与所述虚拟音频进行组合处理形成组合音频；将所述组合音频输出。在本发明中，将增强现实技术运用于听觉方面，通过现实环境音频与虚拟音频的组合，建立了一个现实与虚拟相互叠加的互动场景；将其与传统的增强现实技术结合后，不仅完善了增强现实技术的被认知范围，而且扩展了增强现实技术的应用情景。

上述技术都存在视频标记不准确，音频处理方式不够灵活，导致增强现实显示效果不够完善的问题。

发明内容

1、本发明的目的。

本发明为了解决现有增强现实技术中视频标记不准确，种类单一化，反应速度慢等问题，提出了一种增强现实移动终端。

2、本发明所采用的技术方案。

本发明提出的增强现实移动终端，包括：

增强现实实时计算处理单元，摄像头拍摄画面，通过计算机视觉技术捕获的指定的标记点，最后计算标记点的位置和方向；

虚拟位置控制转化单元，通过先获取陀螺仪短时间内的起始点和终止点的坐标数据，然后获取转化比例值，最后通过计算转化比例值得到虚拟世界中控制模块的坐标变换数值；

实时图像渲染显示单元，将摄像头实时捕获的画面和虚拟世界渲染后的画面合成叠加后最终显示的过程；分为摄像头画面渲染显示模块和特效实时渲染显示模块，摄像头画面渲染显示模块实时采集显示每隔固定时间t后，检测当前视频帧是否填充满，如果填充满则刷新；特效实时渲染显示模块是根据当前虚拟世界控制点来实时渲染；当摄像头画面渲染和特效实时渲染完成后，进行实合成并输出显示；

实时音视频录制单元，操作过程中的画面和声音的实时录制，采用多中断的音视频录制方法后进行实时音视频录制合成。

本发明是将标签设计为自然语言图标(类似于各类型的头像)印在人们日常T-Shift等衣服上，现有技术通常使用单个标签点来确认虚拟现实的位置，但是会导致定位点的偏差、抖动等问题，不利于对于较为复杂的场景下的定位，如衣服上的双肩定位。为此，本发明使用了多标记点进行定位，利用多个点可以采用取中、干扰、防抖等算法来计算出准确的位置。

增强现实实时计算处理单元中拍摄画面，通过视觉捕获3个标记点，最后计算虚拟位置标记点Pc(x,y)所在的位置和方向，具体如下：

矫正精确文字通过左上、右上、下方三个标记点定位虚拟位置，其中左上标记点P_l(x₁,y₁)，右上标记点Pr(x₂,y₂)，下方标记点Pb(x₃,y₃)，通过三个标记点定位计算得到虚拟位置Pc(x,y)：

(x-x₁)²+(y-y₁)²＝d₁ ²

(x-x₂)²+(y-y₂)²＝d₂ ²

(x-x₃)²+(y-y₃)²＝d₃ ²

虚拟位置控制转化单元包括：

获取起始矩阵模块，用于先获取短时间(Ts-Te)内的起始(Ps)和终止点(Pe)的坐标矩阵、角速度矩阵，其中，短时间指获取相隔0.5秒或更加短时间内的两处时间点数据。转化比例值是通过增强现实计算出后后得到的一个比例系数；

获取转化比例值模块，用于获取转化比例值(Φ),转化比例值是通过增强现实计算出后得到的一个比例系数；

转化模块，用于通过转化比例值得出虚拟世界的控制模块的旋转、平移的偏移值；

转化矫正模块，用于使用线性回归算法矫正转化偏差。在硬件设备的使用过程中，由于各类型设备的精度等或多或少都会生成各种转化偏差等影响计算结果，为了矫正这些偏差，使用了线性回归算法来预测计算。

特效实时渲染市面上大多数采用的卡通化形式的渲染，这样会导致出现的效果不真实表现力达不到预先的效果。为此，本发明采用了多样化的特效渲染方式，如多粒子特效等方式。

所述的摄像头画面渲染显示模块具体包括:

采集视频流模块，调用智能手机的摄像头，获取的实时连续的视频流；

视频流数据缓存模块，用于缓解各个模块之间的处理速度不同将视频图像数据进行缓存；

画面预处理模块，对画面进行预处理。

所述的特效实时渲染显示模块包括：

压缩的素材文件包解析模块，将素材文件包进行解压操作，使之成为能被识别的文件格式和文件布局；

特效规则预设模块，将特效素材包解析后的素材文件按照预先设定的规则导入到软件，并进行各种参数预设的过程；

特效素材包合成显示模块，将实施采集显示的视频画面根据预设特效规则的特效素材包进行合成并显示。

所述的实时图像渲染显示单元是将摄像头实时捕获的画面和虚拟世界渲染后的画面合成叠加，具体包括：

画面合成模块，将上述的特效画面和视频帧进行画面合成操作，得到用于输出的渲染画面；

渲染树模块，存储渲染画面等构成的渲染树储结构；

画面抓取模块，将渲染后的画面地址进行强制性获取，通过地址访问并保存该地址所包含的画面数据；

画面的绘制模块，是将渲染得到的图片绘制到用于显示的内存中；

画面的显示模块，将绘制在内存中的信息，显示到屏幕。

实时音视频录制是对操作过程中的画面和声音的实时保存。大体上分为音频的保存和渲染画面的保存。目前，市面上同类型的产品并没有对音视频的实时保存技术，大多数都是采用外部实时截屏软件进行的录屏，这样会出现在较复杂的计算量的情况下，视频出现掉帧和掉音频等一系列问题。为此，本技术采用了独特的多中断的音视频录制方法，弥补上述的不足之处，从而保证每段视频的个性化、多样性。

实时音视频录制单元具体包括：

录制预处理模块，对音频视频录制之前的初始化操作过程；

录制音频片段拼接模块，录制音频片段进行无缝拼接；

读入背景音频模块，将特效等素材资源里面的背景音频文件提出并读写到内存；

混合音频模块，将拼接的PCM文件和读入的背景音频文件进行混合，使其组合成一段完整的音频文件；

转AAC格式模块，将混合后的PCM文件进行转化AAC格式的音频文件；

启动视频录制模块，打开获取画面地址的通道开启视频录制；

获取画面地址模块，将渲染画面缓冲的地址，传入到地址转化通道；

画面预处理模块，原始画面预处理进行一系列的缩放、旋转、翻转和格式转化预处理操作；

RGB格式转YUV420模块，上述上面所有操作的画面帧都是RGB格式转化为YUV420格式；

H264压缩模块，视频大采用H264编码压缩；

保存画面帧模块，将画面写在缓存中进行保存；

MP4打包模块，打包MP4是将之前步骤生成的AAC音频文件和H264视频文件进行重新封装，并不会重新编码视频、音频或者是静止状态图像。

本发明还包括分享交流单元，手机客户端、网页服务器、视频文件存储服务器和数据库的服务器均采用集群的方式部署用于数据交换。

3、本发明的有益效果。

(1)本发明所采用的多标签标记技术标签的定位的精度和可靠性高；

(2)本发明采用了独有的音视频录制功能，方便交流和传播；

(3)本发明拥有分享交流平台，使其传播方位、播放量等等大幅度提高；

(4)本发明采用的陀螺仪、加速度计、计算机图形图像等相结合的技术，主要针对解决

视频拍摄的多样性问题，通过增强现实技术的融合。

附图说明

图1本发明的标记点计算示意图。

图2本发明的虚拟位置控制转化示意图。

图3本发明的线性回归算法示意图。

图4本发明的实时图像渲染流程图。

图5本发明的实时音视频录制合成流程图。

图6本发明的分享交流平台示意图。

具体实施方式

实施例1

本发明提出的增强现实系统具体如下：

(1)增强现实实时计算处理

增强现实实时计算处理通常是先用摄像头拍摄画面，然后通过计算机视觉技术捕获的指定的标记点，最后计算标记点的位置和方向。

传统的做法是通过计算单一的标签点来计算出指定的位置。这类做法的标签点一般多是简单的黑白标签等机器语言的编码模式(类似于二维码)，这样会导致美观性降低，不利于娱乐交流。为此，本技术是将标签设计为自然语言图标(类似于各类型的头像)印在人们日常T-Shift等衣服上。

对于大众的软件来说，通常使用单个标签点来确认虚拟现实的位置，但是会导致定位点的偏差、抖动等问题，不利于对于较为复杂的场景下的定位，如衣服上的双肩定位。为此，本技术使用了多标记点进行定位，利用多个点可以采用取中、干扰、防抖等算法来计算出准确的位置。

(2)虚拟位置控制转化

虚拟位置控制转化是先获取短时间内的起始点和终止点的坐标位置矩阵、角速度矩阵等数据，然后获取转化比例值，最后通过计算转化比例值得到虚拟世界中控制模块的旋转、平移等数值。

在市场上流行许多虚拟手套等外部配套设备来完成虚拟位置转化这一技术问题。这类解决方案会出现价格昂贵、携带不方便、兼容性差等问题。为此，本技术采用了每部移动端设备都具备的陀螺仪、加速度计等内置的设备模块来通过相关高效的算法来解决转化问题。

(3)实时图像渲染显示

实时图像渲染显示是将摄像头实时捕获的画面和虚拟世界渲染后的画面合成叠加后最终显示的过程。大体上上分为摄像头画面渲染现实和特效实时渲染显示。

在渲染上，摄像头画面渲染一般的做法都一样。特效实时渲染市面上大多数采用的卡通化形式的渲染，这样会导致出现的效果不真实表现力达不到预先的效果。为此，本技术采用了多样化的特效渲染方式，如多粒子特效等方式。

(4)实时音视频录制

实时音视频录制是对操作过程中的画面和声音的实时保存。大体上分为音频的保存和渲染画面的保存。

目前，市面上同类型的产品并没有对音视频的实时保存技术，大多数都是采用外部实时截屏软件进行的录屏，这样会出现在较复杂的计算量的情况下，视频出现掉帧和掉音频等一系列问题。为此，本技术采用了独特的多中断的音视频录制方法，弥补上述的不足之处，从而保证每段视频的个性化。多样性。

(5)分享交流平台搭建

分享交流平台大体上由为手机客户端、网页服务器、视频文件存储服务器和数据库构成的一个庞大的互联网交流分享平台。

在同类型的产品中并没有对平台的搭建，这样不利于各类视频的传播和交流。为此，本技术中搭建了个性化的交流平台。

实施例2

本发明提出的增强现实系统具体如下：

A、增强现实计算是先用摄像头拍摄显示画面，然后通过计算机视觉技术捕获标记点，最后计算标记点所在的位置和方向。其中，标记点是事先将设计的自然语言图像训练后得到的标记信息加载到计算系统中。大多数情况下，单个标记点不能够事先准确定位，故需要使用多标签定位。多标记点计算出多个定位坐标点时，需要利用取中、干扰、防抖等算法来计算出准确的位置。

如图1所示，其中，P_l是左上的标记点的位置等参数、Pr是右上的标记点的位置等参数、Pb是下面的标记点的位置等参数、Pc是虚拟计算出来的位置。其中Pc是使用

(x-x₁)²+(y-y₁)²＝d₁ ²

(x-x₂)²+(y-y₂)²＝d₂ ²

(x-x₃)²+(y-y₃)²＝d₃ ²

计算出来的，用于矫正精确文字。

B、虚拟位置控制转化

如图2所示，虚拟位置转化是先获取短时间(Ts-Te)内的起始(Ps)和终止点(Pe)的坐标矩阵、角速度矩阵，然后获取转化比例值(Φ)，最后通过转化比例值得出虚拟世界的控制模块的旋转、平移的偏移值。其中，短时间指获取相隔0.5秒或更加短时间内的两处时间点数据。转化比例值是通过增强现实计算出后后得到的一个比例系数。

在硬件设备的使用过程中，由于各类型设备的精度等或多或少都会生成各种转化偏差等影响计算结果。为了矫正这些偏差，这里使用了线性回归算法来预测计算。

线性回归是利用线性回归方程中的最小平方函数对一个或多个自变量和因变量之间的关系进行建模的一种回归分析。在此类型的回归分析中，只包含了一个自变量和一个因变量，且两者的关系可用一条直线近似表示。

其自变量为获得的硬件坐标，因变量是实际的坐标，如图3所示，在推到函数的预测下，通用曲线方程是Y＝a+bX，只有求出曲线方程，才能根据方程预测。其具体的求解方法如下：

此处采用的是枚举型的求解算法，求出真正的a，b，步骤如下：

1)使用随机的a0,b0作为初始值

2)分别求解最优a,b，对于每个维度参数的求解，步骤为(以a为例)：

设定a范围的最大值与最小值；

设定a计算的梯度步长(这就是它叫梯度下降法的原因)；

固定其他维度参数；

计算a的所有取值中，使得估值函数最小的那个a即为所求；

C、实时图像渲染显示

实时图像渲染显示是将所拍摄后的画面与素材渲染画面后合成，并实时显示出来的过程。

实时图像渲染现实大体分为实时采集的摄像头图像渲染显示和实时特效渲染显示。实时采集显示是每隔固定时间t后，检测当前视频帧是否填充满，如果填充满则刷新。实时特效渲染是根据当前虚拟世界控制点来实时渲染。当采集图像和实时特效图像渲染完成后，进行实时合成并输出显示。具体流程如图4所示：

视频流，是软件通过调用智能手机的摄像头模块，获取的实时连续的视频流；

视频图像数据缓存，各个模块之间的处理速度不同，为了保证数据流的完整性，使用了缓存的模式；

画面预处理，对画面进行缩放、调色等一些的预处理，适度弥补拍摄时光线不足等；

素材文件包，由于素材文件普遍比较大，内容比较多，所以文件是压缩的格式文件；

特效素材包解析，将素材文件包进行解压操作，使之成为能被识别的文件格式和文件布局；

特效规则预设，将特效素材包解析后的图片、模型等文件按照预先设定的规则导入到软件，并进行各种参数预设的过程；

画面合成模块，将上述的特效画面和视频帧进行画面合成操作，最后得出用于输出的画面；

渲染树，存储渲染画面等构成的一种数据存储结构，能够快速高效的管理渲染的数据；

画面抓取，是将渲染后的画面地址进行强制性获取，然后通过地址访问并保存该地址所包含的画面数据；

画面的绘制，是将渲染得到的图片绘制到用于显示的内存中；

画面的显示，将绘制在内存中的信息，显示到屏幕；

D、实时音视频录制合成

实时视频录制合适是将视频和音频实时获取并实时录制保存到缓存的过程。其具体包括音频录制模块和视频录制模块等构成。

音频录制模块主要是在开始录制命令后，实时捕获麦克风模块所能监测的声音文件，将其保存为PCM格式文件，然后进行一系列的混音转化等操作后生产AAC格式的音频文件。

在录制音频的过程中，随时可能出现暂停等中断操作，故此处采用了分片段的管理模式。每次触发中断操作的时候自动分离之前录制的音频文件产生了PCM0、PCM1等临时文件。待结束录制操作后，本软件会自动拼接片段PCM成完整无缝的PCM格式音频。

本软件的使用过程中同时会有两端不同的音频源产生，一是用户主动触发从而录制的音频文件，二是特效等素材文件自带的音效文件，即背景音频。背景音频通常是一个简单的是音频文件重复循环播放产生的连续不间断的音频文件。

在音频混合过程中，将两段不同的音频进行叠加。此处的叠加的是线性叠加，然后去除越界的数值，并保留了音频原始的信号波形。

其具体工作流程图如图5所示：

录制预处理：对音频视频录制之前的初始化操作过程，如音频录制中对麦克风模块的使用注册占用，视频录制中对编码库的各种初始化操作等等；

是否录制：点击开始录制按钮，即开始录制；

启动音频录制：开启音频的录制开关，开启就录制开始；

PCM0：录制的音频片段一；

PCM1：录制的音频片段二；

PCM2：录制的音频片段三；

PCM...：对录制音频片段的省略，代表还有其他多个音频片段；

拼接PCM：录制结束后，对各个音频片段进行无缝拼接，防止播放音频时出现停顿片段；

读入背景音频：将特效等素材资源里面的背景音频文件提出并读写到内存，方便后续的资源提取；

混合音频：将拼接的PCM文件和读入的背景音频文件进行混合，使其组合成一段完整的音频文件；

转AAC格式：为了节约存储空间和后续的打包处理，将混合后的PCM文件进行转化，转化成AAC格式的音频文件；

启动视频录制：开启视频录制，即打开获取画面地址的通道开关；

获取画面地址：将渲染画面缓冲的地址，传入到地址转化通道；

画面预处理：预处理画面帧是对获取的画面进行一系列的缩放、旋转、翻转和格式转化等预处理操作。由于直接获取的画面帧是原始画面，其画面像素较多，像素越多后续处理的难度越大，处理的时间越长，故需要对其做缩放到合适的尺寸(目前使用的是480x480)；获取到的视频帧是颠倒反转的，所以需要对其做旋转和翻转；

转YUV420格式：上述上面所有操作的画面帧都是RGB格式，与RGB视频信号传输对比，它最大的有点在于只需要占用极少的频宽，其中RGB需要三个独立的视频信号同时传输。为了达到传输等目的，故需要转化为YUV420格式；

压缩成H264：在互联网上传播的视频大部分采用H264编码，这类型的编码拥有低码率、高质量图像、容错性强和网络适应性强等特点，故需要对视频帧进行格式转化等操作；

保存画面帧：帧缓存是系统放在内存的任何位置，为了将帧画面长久保存需要将其写在缓存中；

打包成MP4：打包MP4是将之前步骤生成的AAC音频文件和H264视频文件进行重新封装，并不会重新编码视频、音频或者是静止状态图像；

最终打包成后的MP4视频文件的视频和音频具体参数如下：

视频参数说明如下：

名称	内容
		文件格式	AVC
文件信息	Advanced Video Codec
		格式简介	High@L3.1
长度	100帧
		画面宽度	480像素
画面高度	480像素
		帧率	6～25fps
色彩空间	YUV
		色度抽样	4:2:0
位深度	8位
		扫描方式	逐行扫描
编码函数库	x264core 148

音频参数说明如下：

名称	内容
		文件格式	AAC
文件信息	Advanced Audio Codec
		格式版本	Version 4
格式简介	VBR
		声道	2声道
声道位置	Front:L R
		采样率	44.1KHZ
压缩模式	有损压缩

E、分享交流平台搭建

分享交流平台大体上分为手机客户端、网页服务器、视频文件存储服务器和数据库。随着客户端的数量增多，上述的服务器均采用集群的方式部署。手机客户端可以浏览平台上各类数据，也可以上传用户个人拍摄的视频到个人主页便于交流。网页服务器是各类服务器上数据输出的接口，通过请求指定的web api来获取返回的json数据，客户端通过解析json来显示各类信息。视频文件存储服务器是用户存储和访问大量的视频等信息的集群性服务器，方便检索大量视频数据。数据库是各类数据的存储者，用于各类短数据的保存(不包括视频数据)。

如图6所示，具体说明如下：

数据库服务器，主要负责各类数据的存储工作，此处用到的是MySql；

Web服务器，主要负责各类型的数据命令接口解析并含操作返回数据；

客户端，包括IOS和Android，主要负责视频拍摄和各种显示交流；

文件存储服务器，主要用于大量的存储视频文件；

文件服务器中的路由服务的集群，主要负责负载均衡等；

还包括第一个路由服务器、中间省略的多个路由服务器、第N个路由服务器；

文件服务中的存储服务的集群，主要负责文件操作等；

还包括第一个存储服务器、代表中间省略的多个存储服务、代表第N个存储服务器；

还包括数据服务器与Web服务器的数据流、Web服务器与客户端的数据流、客户端与文件服务器的数据流、文件服务器与路由服务之间的数据流、文件服务器与存储服务之间的数据流。

本发明的关键点和保护点是多标签点定位技术、虚拟位置转化技术、实时音视频录制技术和分享交流平台。多标签点定位技术提供精确的定位技术；虚拟位置转化技术可以大大降低了真实世界与而虚拟世界的交流控制的成本；实时音视频录制技术更加方便简洁的保证了用户的个性化；分享交流平台提供了一个平台，可以最大化的扩大用户个性化视频的传播等。

Claims

1.一种增强现实移动终端，其特征在于包括：

2.根据权利要求1所述的增强现实移动终端，其特征在于增强现实实时计算处理单元中拍摄画面，通过视觉捕获3个标记点，最后计算虚拟位置标记点Pc(x,y)所在的位置和方向，具体如下：

(x-x₁)²+(y-y₁)²＝d₁ ²

(x-x₂)²+(y-y₂)²＝d₂ ²

(x-x₃)²+(y-y₃)²＝d₃ ²。

3.根据权利要求1所述的增强现实移动终端，其特征在于所述的虚拟位置控制转化单元包括：

获取起始矩阵模块，用于先获取短时间(Ts-Te)内的起始(Ps)和终止点(Pe)的坐标矩阵、角速度矩阵；

获取转化比例值模块，用于获取转化比例值(Φ)，转化比例值是通过增强现实计算出后得到的一个比例系数；

转化矫正模块，用于使用线性回归算法矫正转化偏差。

4.根据权利要求1所述的增强现实移动终端，其特征在于所述的特效实时渲染显示模块为粒子特效渲染显示。

5.根据权利要求1所述的增强现实移动终端，其特征在于所述的摄像头画面渲染显示模块包括:

画面预处理模块，对画面进行预处理。

6.根据权利要求1所述的增强现实移动终端，其特征在于所述的特效实时渲染显示模块包括：

7.根据权利要求1所述的增强现实移动终端，其特征在于所述的实时图像渲染显示单元是将摄像头实时捕获的画面和虚拟世界渲染后的画面合成叠加，具体包括：

渲染树模块，存储渲染画面等构成的渲染树储结构；

画面的显示模块，将绘制在内存中的信息，显示到屏幕。

8.根据权利要求1所述的增强现实移动终端，其特征在于实时音视频录制单元具体包括：

录制预处理模块，对音频视频录制之前的初始化操作过程；

录制音频片段拼接模块，录制音频片段进行无缝拼接；

H264压缩模块，视频大采用H264编码压缩；

保存画面帧模块，将画面写在缓存中进行保存；

9.根据权利要求1所述的增强现实移动终端，其特征在于：还包括分享交流单元，手机客户端、网页服务器、视频文件存储服务器和数据库的服务器均采用集群的方式部署用于数据交换。