CN112752119B

CN112752119B - 一种时延误差校正方法、终端设备、服务器及存储介质

Info

Publication number: CN112752119B
Application number: CN201911051113.3A
Authority: CN
Inventors: 林亚; 沈灿; 朱方; 刘佳; 孙健
Original assignee: ZTE Corp
Current assignee: ZTE Corp
Priority date: 2019-10-31
Filing date: 2019-10-31
Publication date: 2023-12-01
Anticipated expiration: 2039-10-31
Also published as: WO2021083031A1; CN112752119A; EP3993428A1; EP3993428A4

Abstract

本发明实施例涉及增强现实领域，公开了一种时延误差校正方法、终端设备、服务器及存储介质。本发明实施方式中，将视频数据包发送给服务器，供服务器根据视频数据包确定待叠加的虚拟对象的位姿数据；接收服务器返回的虚拟对象的位姿数据；根据位姿数据对应的视频帧与当前待显示的视频帧之间的时间差，确定位姿数据的增量变化，并根据增量变化对位姿数据进行校正；根据校正后的位姿数据将虚拟对象叠加在当前待显示的视频帧中，在不增加终端性能消耗的基础上，解决因时延带来的虚拟和现实不同步问题，提高用户体验。

Description

一种时延误差校正方法、终端设备、服务器及存储介质

技术领域

本发明实施例涉及增强现实领域，特别涉及一种时延误差校正方法、终端设备、服务器以及存储介质。

背景技术

增强现实(Augmented Reality，简称AR)技术是一种将虚拟信息与真实世界巧妙融合的技术，广泛运用了多媒体、三维建模、实时跟踪及注册、智能交互、传感等多种技术手段，将计算机生成的文字、图像、三维模型、音乐、视频等虚拟信息模拟仿真后，应用到真实世界中，两种信息互为补充，从而实现对真实世界的“增强”。随着SLAM(同时定位和建图)技术的发展，增强现实在教育、游戏、工业等方面得到了越来越广泛的应用。

AR对设备的硬件性能、设计都有很高的要求。当前主流的AR处理引擎，譬如谷歌的ARCore、苹果的ARKit，都将其支持的终端平台限制在了少数几款高配置机型。根据我们对主流AR引擎的体验结果，即使使用符合条件的高配手机终端，运行AR业务的效果也不太理想。突出的问题是高负荷的终端发热明显，由发热引起降频，导致性能下降，AR体验的效果变差。

为了解决终端性能影响AR业务较长时间的体验效果的问题，目前的一种解决方案就是借助云端的运算能力来处理耗时的AR过程，将重计算量的特征提取匹配跟踪等AR处理放在服务器上做。

发明人发现相关技术中至少存在如下问题：采用借助云端的方案对于实时性要求高的AR应用场景，会因为从终端向服务器发送请求到接收到服务器返回的位姿信息，这之间存在一定的时延，时延包括服务器的解包解码时长、AR处理时长、网络传输时长，这时终端看到的现实世界场景已经距发送请求时发生了一定的变化，在当前帧上根据服务器返回的位姿信息来叠加虚拟物体便会产生误差，导致虚拟和现实不同步，严重影响用户体验。

发明内容

本发明实施方式的目的在于提供一种时延误差校正方法、终端设备、服务器及存储介质，使得在不增加终端性能消耗的基础上消除因时延带来的虚拟和现实不同步的问题，提升用户体验。

为解决上述技术问题，本发明的实施方式提供了一种时延误差校正方法，包括：将视频数据包发送给服务器，供服务器根据视频数据包确定待叠加的虚拟对象的位姿数据；接收服务器返回的虚拟对象的位姿数据；根据位姿数据对应的视频帧与当前待显示的视频帧之间的时间差，确定位姿数据的增量变化，并根据增量变化对位姿数据进行校正；根据校正后的位姿数据将虚拟对象叠加在当前待显示的视频帧中。

本发明的实施方式还提供了一种时延误差校正方法，包括：接收终端设备发送的视频数据包；根据视频数据包确定待叠加的虚拟对象的位姿数据；将位姿数据返回给终端设备，供终端设备在对位姿数据进行校正后，根据校正后的位姿数据将虚拟对象叠加在当前待显示的视频帧中。

本发明的实施方式还提供了一种终端设备，包括：至少一个处理器；以及，与至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够执行上述时延误差校正方法。

本发明的实施方式还提供了一种服务器，包括：至少一个处理器；以及，与至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够执行上述时延误差校正方法。

本发明的实施方式还提供了一种计算机可读存储介质，存储有计算机程序，计算机程序被处理器执行时实现上述应用于终端的时延误差校正方法；或者，实现上述应用于服务器的时延误差校正方法。

本发明实施方式相对于现有技术而言，主要区别和效果在于，终端设备通过将视频数据包发送给服务器，供服务器确定虚拟对象的位姿数据，使得借助外部服务器的运算能力来处理耗时的位姿数据分析过程，因不在终端中进行该分析过程，所以不会增加终端的性能消耗；然后终端设备根据位姿数据对应的视频帧与当前待显示视频帧之间的时间差，确定位姿数据对应的增量变化，以得到的增量变化对虚拟对象的位姿数据进行校正，并以校正后的位姿数据将虚拟对象叠加到当前待显示的视频帧；通过对位姿数据的校正保证虚拟对象叠加到当前待显示视频帧中位置的准确性，消除了因时延带来的虚拟和现实不同步问题，提升了用户体验。

另外，在将视频数据包发送给服务器前，还包括：统计从向服务器发出请求到接收到服务器返回的位姿数据之间的时延值；将视频数据包发送给服务器，包括：将时延值，以及对采集的原始图像数据编码后得到的视频帧封装在数据包中，发送给所述服务器，供服务器根据时延值，确定虚拟对象的位姿数据。由于服务器对终端传输来的视频数据包进行解包解码需要一定的时间，获取虚拟对象的位姿数据也是一个耗时的过程，与此同时，网络传输的本身也有一定的传输时长，所以从终端发出请求到接收到服务器返回的位姿数据这一过程中存在时延。而服务器一开始并不知道这一过程的具体时延值，需要终端将每一次数据传输中产生的时延值一起随着视频数据包发送给服务器，使得服务器能根据得到的时延值，利用跟踪算法预测出虚拟对象的位姿，对要叠加到当前待显示的视频帧中的虚拟对象的位姿进行初步校正，在一定程度上消除虚拟和现实不同的问题。

另外，位姿数据包括：旋转矩阵和平移向量；根据位姿数据对应的视频帧与当前待显示的视频帧之间的时间差，确定位姿数据的增量变化，包括：根据惯性测量单元IMU的角速度信息，获取旋转矩阵增量，并根据IMU的加速度信息，以及位姿数据对应的视频帧与当前待显示的视频帧之间的时间差，获取平移向量增量。在位姿数据对应的视频帧与当前待显示的视频帧之间的时间段内，通过终端中的惯性测量单元IMU分别根据角速度和加速度信息，获得旋转增量和平移增量，以供确定虚拟对象最终叠加在当前待显示视频帧中的位置，且这种利用惯性测量单元IMU获取位姿增量的方式，实时性高、计算量小，耗时也很少，不会给终端带来过多的性能消耗。

另外，根据增量变化对位姿数据进行校正，包括：将旋转矩阵与旋转矩阵增量的乘积，作为校正后的旋转矩阵；将平移向量与平移向量增量的和，作为校正后的平移向量。通过乘积和相加操作分别得到校正后的旋转矩阵和平移向量，计算简单易实现。

另外，在接收服务器返回的虚拟内容虚拟对象的位姿数据后，还包括：判断虚拟对象是否已经存在；若不存在虚拟对象，则从服务器下载虚拟对象。通过判断终端中是否存在对应的虚拟对象，以保证叠加到当前待显示视频帧中的虚拟对象的准确性，确保满足用户的体验需求。

另外，视频数据包，包括终端设备统计的从向服务器发出请求到接收到服务器返回的位姿数据之间的时延值；根据视频数据包确定待叠加的虚拟内容虚拟对象的位姿数据，包括：跟踪预测出叠加虚拟内容虚拟对象的目标在延迟时延值后的姿态；根据目标在延迟时延值后的姿态，确定虚拟对象的位姿数据。通过服务器接收到终端设备统计的时延值，并利用得到的时延值，利用跟踪算法预测出虚拟对象的位姿，对要叠加到当前待显示的视频帧中虚拟对象的位姿进行初步校正，减少虚拟对象在当前待显示视频帧中的位置误差。

另外，在跟踪预测出叠加虚拟对象的目标在延迟所述时延值后的姿态前，还包括：根据时延值和历史时延值，对时延值进行滤波处理，得到预测时延值；跟踪预测出叠加虚拟对象的目标在延迟时延值后的姿态，具体为：跟踪预测出叠加虚拟对象的目标在延迟预测时延值后的姿态。服务器对终端传输过来的当前时延值和历史时延值进行滤波处理，得到预测时延值，这种滤波处理方式使得服务器可以获得较为平滑的预测时延值，使得后续根据该预测时延值预测得到的虚拟对象的位姿也具有准确性。

附图说明

一个或多个实施例通过与之对应的附图中的图片进行示例性说明，这些示例性说明并不构成对实施例的限定。

图1是根据本发明的第一实施方式中时延误差校正方法的流程图；

图2是根据本发明的第二实施方式中时延误差校正方法的流程图；

图3是根据本发明的第二实施方式中时延误差校正系统图；

图4是根据本发明的第三实施方式中时延误差校正方法的流程图；

图5是根据本发明的第四实施方式中终端设备的结构示意图；

图6是根据本发明的第五实施方式中服务器的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合附图对本发明的各实施方式进行详细的阐述。然而，本领域的普通技术人员可以理解，在本发明各实施方式中，为了使读者更好地理解本申请而提出了许多技术细节。但是，即使没有这些技术细节和基于以下各实施方式的种种变化和修改，也可以实现本申请所要求保护的技术方案。以下各个实施例的划分是为了描述方便，不应对本发明的具体实现方式构成任何限定，各个实施例在不矛盾的前提下可以相互结合相互引用。

本发明的第一实施方式涉及一种时延误差校正方法，应用于终端。在本实施方式中，将视频数据包发送给服务器，供服务器根据视频数据包确定待叠加的虚拟对象的位姿数据；接收服务器返回的虚拟对象的位姿数据；根据位姿数据对应的视频帧与当前待显示的视频帧之间的时间差，确定位姿数据的增量变化，并根据增量变化对位姿数据进行校正；根据校正后的位姿数据将虚拟对象叠加在当前待显示的视频帧中。下面对本实施方式的时延误差校正方法的实现细节进行具体的说明，以下内容仅为方便理解提供的实现细节，并非实施本方案的必须。具体流程如图1所示，包括：

步骤101：将视频数据包发送给服务器，供服务器根据视频数据包确定待叠加的虚拟对象的位姿数据。

具体地说，终端把采集到的关于原始图像的视频数据包发送给服务器，服务器接收视频数据包并对视频数据包负载里的视频帧数据进行解析，计算出虚拟对象的位姿数据，然后服务器将虚拟对象的标识信息和虚拟对象对应的位姿数据发送给终端设备。

在一个具体的例子中，终端设备使用摄像头或AR眼镜设备按一定帧频采集现实世界中的原始图像的数据，对得到的原始图像数据进行压缩编码，并将编码后的原始图像数据封装在适合网络传输的数据包中，将打包好的视频数据包发送给服务器，服务器通过对视频数据包的解析，得到对应格式的视频数据，对得到的视频数据进行目标特征的提取、比对，完成目标的识别，将识别得到的目标对象与虚拟对象数据库进行匹配获取对应的虚拟对象，并计算出虚拟对象的位姿数据；最后服务器将虚拟对象的标识信息和虚拟对象对应的位姿数据发送给终端设备。

需要说明的是，虚拟对象可以是3D模型、图像、文字、视频等形式的内容，但也不限于这些形式的内容，在此不一一例举。虚拟对象的位姿数据包括虚拟对象在视频帧图像上的位置和姿态，其对应的数学形式可以是转移矩阵(旋转矩阵和平移向量)、单应性矩阵、本质矩阵等任何一种形式，本实施方式中，以位姿数据包括旋转矩阵R和平移向量t为例进行说明；另外位姿数据还可以包括该位姿对应的视频图像帧号。

步骤102：接收服务器返回的虚拟对象的位姿数据。

具体地说，终端设备接收由服务器发来的虚拟对象的位姿数据，解析虚拟对象的位姿数据，得到旋转矩阵R和平移向量t，以及该位姿对应的视频帧号，并下载对应的虚拟对象。

步骤103：根据位姿数据对应的视频帧与当前待显示的视频帧之间的时间差，确定位姿数据的增量变化，并根据增量变化对位姿数据进行校正。

具体地说，以位姿数据对应的视频帧与当前待显示的视频帧之间的时间差，根据惯性测量单元IMU的角速度和加速度信息，获取旋转矩阵增量和平移向量增量；利用获得的旋转矩阵增量和平移向量增量，对虚拟对象的位姿数据进行修正，快速计算出虚拟对象在当前待显示的视频帧中的位姿数据。

在一个具体的例子中，终端将第N帧视频图像发送给服务器，服务器对第N帧视频图像进行处理，得到虚拟对象的位姿数据返给终端设备，并通知终端设备该位姿数据对应的视频帧为第N帧视频图像。此时，终端设备确认当前待显示的视频帧与第N帧视频图像的时间差，例如，已经播放过第N帧的视频画面，现在已经要播放第N+k帧视频，这里的第N+k帧即当前待显示的视频帧。此时，终端设备就要计算第N+k帧与第N帧之间的时间差，可以通过帧数差值k乘以帧间隔时长，得到位姿数据对应的视频帧与当前待显示的视频帧之间的时间差。

以得到的时间差，根据惯性测量单元IMU的角速度和加速度信息，计算虚拟对象在第N帧图像到第N+k帧的位姿变化量，其中旋转矩阵增量由角速度计算得到，平移向量增量通过对加速度进行积分得到。根据得到的位姿数据的增量变化，对位姿数据R和t进行校正，具体校正方式如公式(1)所示：

R＇＝ΔR*R，t＇＝Δt+t(1)本实施方式中涉及的惯性测量单元IMU包括陀螺仪和加速度计，可以实时返回角速度和加速度信息。通过IMU的角速度和加速度信息计算位姿增量变化的计算量很小，耗时也很少，因此校正处理对终端不会带来过多的性能消耗。

在另外一个例子中，为了使虚拟内容更好地与现实世界相融合，对虚拟对象的位姿数据进行校正处理还可以包括环境光检测与估计，将虚拟内容与环境光照调为一致，使虚拟内容更真实。

步骤104：根据校正后的位姿数据将虚拟对象叠加在当前待显示的视频帧中。

具体地说，根据校正后的旋转矩阵和平移向量在第N+k视频帧画面中进行渲染，得到叠加虚拟内容后的视频画面，并呈现给用户。

在实际应用中，终端设备可以开启两个线程，由一个线程负责视频数据的采集编码发包工作，另一个线程负责接收服务器返回的虚拟对象的位姿数据并下载虚拟对象进行实时渲染。

不难发现，本实施方式中终端通过将视频数据包发送给服务器，供服务器确定虚拟对象的位姿数据，使得借助外部服务器的运算能力来处理耗时的位姿数据分析过程，因不在终端中进行该分析过程，所以不会增加终端的性能消耗；然后终端设备根据位姿数据对应的视频帧与当前待显示视频帧之间的时间差，确定位姿数据对应的增量变化，以得到的增量变化对虚拟对象的位姿数据进行校正，并以校正后的位姿数据将虚拟对象叠加到当前待显示的视频帧；通过对位姿数据的校正保证虚拟对象叠加到当前待显示视频帧中位置的准确性，使得消除因时延带来的虚拟和现实不同步问题，提升了用户体验。

本发明的第二实施方式涉及一种时延误差校正方法。第二实施方式与第一实施方式大致相同，主要区别之处在于：在本发明第二实施方式中，在将视频数据包发送给服务器之前，统计从向服务器发出请求到接收到服务器返回的位姿数据之间的时延值；且在接收服务器返回的虚拟对象的位姿数据后，判断虚拟对象是否存在，若不存在虚拟对象，则从服务器中下载对应的虚拟对象。具体流程如图2所示，对应的时延校正系统如图3所示：

步骤201：统计从向服务器发出请求到接收到服务器返回的位姿数据之间的时延值；

具体地说，终端设备中的时延统计单元305记录每一次向服务器发送视频数据包的时刻，以及接收到服务器返回的位姿数据的时刻，计算两个时刻的差值，该差值为时延值，由于网络的不稳定性，时延具有实时变化性。

在一个例子中，时延统计单元305记录视频图像第N帧相应视频数据包的发送时间为Tns，记录接收到服务器返回位姿数据包的时间为Tnr，则从向服务器发出请求到接收到服务器返回的位姿数据之间的时延值T＝Tnr–Tns；终端可将时延值发送给服务器，以供服务器对接收到的时延数据进行滤波处理，得到平均时延。

需要说明的是，在终端首次向服务器发送视频数据包时，由于没有完成一次完成发送接收过程，所以视频数据包中不存在时延值。即向服务器发送的时延值是上一次终端向服务器发送并接收服务器返回数据过程产生的时延值。

步骤202：将视频数据包发送给服务器，供服务器根据视频数据包确定待叠加的虚拟对象的位姿数据。

具体地说，将步骤201计算得到的时延值，以及对采集的原始图像数据编码后得到的视频帧封装在适合网络传输的数据包中，发送给服务器，供服务器根据时延值，生成虚拟对象的位姿数据。

在一个具体的例子中，终端设备使用采集单元301如摄像头设备或AR眼镜设备按30fps的帧频采集现实世界中的原始图像的数据，利用编码单元302对得到的原始图像数据进行H264编码。打包单元303将时延统计单元305中传输来的时延T封装在RTP扩展头中，将编码后的H264格式的视频数据按rfc3984封装在RTP负载中，一起打包后经发包单元304发送给服务器。服务器接收视频数据包并对视频数据包负载里的视频帧数据进行解析，完成目标识别，将识别得到的对象与虚拟对象数据库进行匹配获取对应的虚拟对象的ID。之后，服务器根据时延T跟踪预测出目标基于当前帧延迟T时间后的姿态，并根据目标基于当前帧延迟T时间后的姿态，计算出虚拟对象的位姿数据，并将虚拟对象的ID和虚拟对象对应的位姿数据发送给终端。

步骤203：接收服务器返回的虚拟对象的位姿数据。

具体地说，接收由服务器发来的虚拟对象的位姿数据，解析虚拟对象的位姿数据，得到旋转矩阵和平移向量，以及该位姿对应的视频帧号和对应的虚拟内容。

在一个例子中，终端中的接收单元306接收服务器发来的RTP包，解析出虚拟对象的位姿数据：旋转矩阵R和平移向量t，虚拟对象ID，以及该位姿数据对应的视频帧号。

步骤204：根据位姿数据对应的视频帧与当前待显示的视频帧之间的时间差，确定位姿数据的增量变化，并根据增量变化对所述位姿数据进行校正；

具体地说，根据惯性测量单元IMU的角速度和加速度信息，以位姿数据对应的视频帧与当前待显示的视频帧之间的时间差，分别获取旋转矩阵增量和平移向量增量。利用获得的旋转矩阵增量和平移向量增量，对虚拟对象的位姿数据进行修正，快速计算出虚拟对象在当前待显示的视频帧中的位姿数据。

在一个具体的例子中，终端将第N帧视频图像发送给服务器，服务器根据计算得到的时延值T，预测出第N+m帧视频图像中虚拟对象的位姿数据返给终端设备，并通知终端设备该位姿数据对应的视频帧为第N+m帧视频图像，其中，m为在时延值T的时间范围内播放的视频帧数。此时，终端设备确认当前待显示的视频帧与第N+m帧视频图像的时间差，例如，已经播放过第N+m帧的视频画面，现在已经要播放第N+m+k帧视频，这里的第N+m+k帧即当前待显示的视频帧。此时，终端设备的二次校正单元307就要计算第N+m+k帧与第N+m帧之间的时间差，可以通过帧数差值k乘以帧间隔时长，得到位姿数据对应的视频帧与当前待显示的视频帧之间的时间差。

以得到的时间差，根据惯性测量单元IMU的角速度和加速度信息，得到虚拟对象在第N+m帧图像到第N+m+k帧的位姿变化量，其中旋转矩阵增量ΔR由角速度计算得到，平移向量增量Δt通过对加速度进行积分得到。二次校正单元307根据得到的位姿数据的增量变化，对位姿数据R和t进行校正，具体校正方式如公式(2)所示。

R＇＝ΔR*R，t＇＝Δt+t (2)

本步骤中的惯性测量单元IMU包括陀螺仪和加速度计，可以实时返回角速度和加速度信息。通过IMU的角速度和加速度信息计算位姿增量变化的计算量很小，耗时也很少，因此校正处理对终端不会带来过多的性能消耗。

步骤205：判断虚拟对象是否已经存在。

具体地说，当判断终端设备中当前不存在与接收到的虚拟对象ID号一致的虚拟对象时，则执行步骤206；当终端设备判断当前已经存在与接收到的虚拟对象ID号匹配一致的虚拟对象时，则直接执行步骤207。

在一个例子中，判断与接收到的虚拟对象的ID对应的虚拟对象在终端中是否已经存在，如果不存在则从服务器上下载虚拟对象，若已经存在则将虚拟对象叠加在当前待显示的视频中。比如说，在AR虚拟交互过程中，虚拟对象在之前的视频画面中出现过，则终端设备中已经存储过该ID号的虚拟对象，就无需从服务器中下载，直接在终端中调用即可；如果虚拟对象首次在交互中出现，终端设备中并未存储过该ID号的虚拟对象，则要从服务器下载对应ID号的虚拟对象。

步骤206：从服务器下载对应的虚拟对象。

具体地说，根据虚拟对象的ID号从服务器中的虚拟对象数据库中查找对应的虚拟对象，然后下载至终端。

步骤207：根据校正后的位姿数据将虚拟对象叠加在当前待显示的视频帧中。

具体地说，渲染显示单元308根据校正后的位姿数据R＇和t＇，将虚拟对象渲染显示在当前采集到的真实图像中。

需要说明的是，本实施方式中的步骤204和205并没有明显的先后执行顺序，本领域技术人员可以根据实施习惯自行安排执行顺序。

不难发现，本发明第二实施方式中首先根据终端统计的时延值，在服务器端对虚拟对象的位姿数据进行初步修正，减少终端性能的消耗的同时有利于后续位姿校正的准确性；然后以位姿数据对应的视频帧与当前待显示的视频帧之间的时间差，并根据终端的IMU获取位姿数据的增量变化，对虚拟对象的位姿数据进行二次校正，进一步保证虚拟对象叠加到真实画面中的位置的准确性，消除了因时延带来的虚拟和现实不同步的问题，提升了用户体验。

本发明的第三实施方式涉及一种时延误差校正方法，应用于服务器。在本实施方式中，接收终端设备发送的视频数据包；根据视频数据包确定待叠加的虚拟对象的位姿数据；将位姿数据返回给终端设备，供终端设备在对位姿数据进行校正后，根据校正后的位姿数据将虚拟对象叠加在当前待显示的视频帧中。下面对本实施方式中时延误差校正方法的实现细节进行具体的说明，以下内容仅为方便理解提供的实现细节，并非实施本方案的必须。具体流程如图4所示，对应的时延校正系统如图3所示：

步骤401：接收终端设备发送的视频数据包。

具体地说，服务器从网络上收取终端发来的视频数据包，该视频数据包包含视频帧数据和上一次终端设备统计的从向所述服务器发出请求到接收到所述服务器返回的位姿数据之间的时延值。

在一个例子中，接收单元309接收到由终端发来的视频数据包，该视频数据包为RTP格式，解包单元310对视频数据包进行解析，提取出RTP负载中的视频帧数据放入缓存单元311，提取出时延值T送入时延滤波单元314。

步骤402：根据视频数据包确定待叠加的虚拟对象的位姿数据。

具体地说，通过特征提取、目标识别和匹配技术对解码得到的原始图像数据进行目标感知识别，将识别得到的目标与虚拟对象数据库中的对象进行匹配，获取对应的虚拟对象；根据时延T跟踪预测出目标基于当前帧延迟T时间后的姿态，并计算出虚拟对象的位姿；然后服务器将虚拟对象和虚拟对象对应的位姿数据发送给终端。

在一个例子中，解码单元312对缓存单元中的视频帧数据进行解码，得到原始图像YUV数据；智能感知识别单元313通过特征提取、目标识别和匹配技术对解码得到的YUV数据进行感知识别，将识别得到的目标与虚拟对象数据库318中的模板进行匹配，获取与之匹配的虚拟对象并记录其对象ID。这里特征提取采用ORB算法，并对原始图像进行3层金字塔分层，每一层分别提取特征点，为使特征点分布均匀，对原图像进行栅格化处理，将每个栅格中匹配得分最高的作为特征点。在实际应用中，也可根据服务器性能选择其他目标识别算法。

由跟踪预测单元315跟踪预测出叠加虚拟对象的目标在延迟时延值后的姿态，再由位姿计算单元316根据目标在延迟时延值后的姿态，确定出虚拟对象的位姿数据。

在具体实现中，在跟踪预测单元315跟踪预测出叠加虚拟对象的目标在延迟时延值后的姿态前，还可以由时延滤波单元314根据当前输入的时延值及历史时延值进行滤波处理，得到平均时延时Tavg(k)，具体如公式(2)所示：

Tavg(k)＝a*T(k)+(1-a)*Tavg(k-1) (2)

其中，a可根据经验值设定，如取0.95。

跟踪预测单元315应用马尔科夫链模型，根据上一时刻的状态和历史状态，结合马尔科夫链中的转移概率矩阵较为准确的对下一时刻的状态迸行准确的预测，通过该算法计算出相对于当前帧延后Tavg(k)时长的目标位置、姿态。

在跟踪预测出叠加虚拟对象的目标在延迟预测时延值后的姿态以后，位姿计算单元316根据目标在延迟预测时延值Tavg(k)后的姿态，使用PnP(Perspective-n-Point:n点透视投影)算法生成虚拟对象的位姿数据，该位姿数据包括：旋转矩阵R和平移向量t。

步骤403：将位姿数据返回给终端设备，供终端设备在对位姿数据进行校正后，根据校正后的位姿数据将虚拟对象叠加在当前待显示的视频帧中。

具体地说，将上述计算出的位姿数据、位姿数据对应的帧号、虚拟对象ID打包为RTP包，通过发包单元317发送给终端。终端根据位姿数据对应的视频帧与当前待显示的视频帧之间的时间差，确定位姿数据的增量变化，根据增量变化对位姿数据进行校正；并依据校正后的位姿数据将虚拟对象叠加到当前待显示的视频帧中。

在实际应用中，服务器端开启两个线程，一个线程负责收包且解析后缓存，另一个线程负责从缓存中取出视频帧进行AR处理。

本发明的第三实施方式中，服务器接收由终端发送的视频帧数据和时延值，确定待叠加的虚拟对象的位姿数据，减少终端性能的消耗同时，对虚拟对象叠加到目标上的位姿数据进行初次校正，在一定程度上消除因时延而导致的位姿误差问题；通过将初次校正后的位姿数据传输给终端，供终端对经过初次校正的位姿数据进行校正后，根据二次校正后的位姿数据将虚拟内容虚拟对象叠加在当前待显示的视频帧中，进一步保证虚拟对象叠加到真实画面中的位置的准确性，以消除因时延带来的虚拟和现实不同步的问题，减少感知到的延迟，提高用户体验。

上面各种方法的步骤划分，只是为了描述清楚，实现时可以合并为一个步骤或者对某些步骤进行拆分，分解为多个步骤，只要包括相同的逻辑关系，都在本专利的保护范围内；对算法中或者流程中添加无关紧要的修改或者引入无关紧要的设计，但不改变其算法和流程的核心设计都在该专利的保护范围内。

本发明第四实施方式涉及一种终端设备，如图5所示，包括：至少一个处理器501；以及，

与至少一个处理器通信连接的存储器502；其中，存储器502存储有可被至少一个处理器501执行的指令，指令被至少一个处理器501执行，以使至少一个处理器501能够执行上述第一实施方式或第二实施方式中的时延误差校正方法。

其中，存储器502和处理器501采用总线方式连接，总线可以包括任意数量的互联的总线和桥，总线将一个或多个处理器501和存储器502的各种电路连接在一起。总线还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路连接在一起，这些都是本领域所公知的，因此，本文不再对其进行进一步描述。总线接口在总线和收发机之间提供接口。收发机可以是一个元件，也可以是多个元件，比如多个接收器和发送器，提供用于在传输介质上与各种其他装置通信的单元。经处理器501处理的数据通过天线在无线介质上进行传输，进一步，天线还接收数据并将数据传送给处理器501。

处理器501负责管理总线和通常的处理，还可以提供各种功能，包括定时、外围接口、电压调节、电源管理以及其他控制功能。而存储器502可以被用于存储处理器501在执行操作时所使用的数据。

本发明第五实施方式涉及一种服务器，如图6所示，，包括：至少一个处理器601；以及，

与至少一个处理器通信连接的存储器602；其中，存储器602存储有可被至少一个处理器601执行的指令，指令被至少一个处理器601执行，以使至少一个处理器601能够执行上述第三实施方式中的时延误差校正方法。

其中，存储器602和处理器601采用总线方式连接，总线可以包括任意数量的互联的总线和桥，总线将一个或多个处理器601和存储器602的各种电路连接在一起。总线还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路连接在一起，这些都是本领域所公知的，因此，本文不再对其进行进一步描述。总线接口在总线和收发机之间提供接口。收发机可以是一个元件，也可以是多个元件，比如多个接收器和发送器，提供用于在传输介质上与各种其他装置通信的单元。经处理器601处理的数据通过天线在无线介质上进行传输，进一步，天线还接收数据并将数据传送给处理器601。

处理器601负责管理总线和通常的处理，还可以提供各种功能，包括定时、外围接口、电压调节、电源管理以及其他控制功能。而存储器602可以被用于存储处理器601在执行操作时所使用的数据。

本发明第六实施方式涉及一种计算机可读存储介质，存储有计算机程序。计算机程序被处理器执行时实现上述方法实施例。

即，本领域技术人员可以理解，实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序存储在一个存储介质中，包括若干指令用以使得一个设备(可以是单片机，芯片等)或处理器(processor)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

本领域的普通技术人员可以理解，上述各实施方式是实现本发明的具体实施例，而在实际应用中，可以在形式上和细节上对其作各种改变，而不偏离本发明的精神和范围。

Claims

1.一种时延误差校正方法，其特征在于，所述时延误差校正方法应用于终端设备，所述时延误差校正方法包括：

将视频数据包发送给服务器，供所述服务器根据所述视频数据包确定待叠加的虚拟对象的位姿数据，所述视频数据包包括所述终端设备统计的从向所述服务器发出请求到接收到所述服务器返回的位姿数据之间的时延值；

接收所述服务器返回的所述虚拟对象的位姿数据；

根据所述位姿数据对应的视频帧与当前待显示的视频帧之间的时间差，确定所述位姿数据的增量变化，并根据所述增量变化对所述位姿数据进行校正；

根据所述校正后的位姿数据将所述虚拟对象叠加在当前待显示的视频帧中；

所述根据所述位姿数据对应的视频帧与当前待显示的视频帧之间的时间差，确定所述位姿数据的增量变化的步骤，包括：

当接收到所述服务器返回的所述待叠加的虚拟对象的位姿数据时，确定所述位姿数据对应的视频帧为第N帧视频图像，并确定当前待显示的视频帧为第N+k帧视频图像；

在所述第N帧视频图像与所述第N+k帧视频图像之间的时间差内，根据所述终端设备中的惯性测量单元IMU确定所述位姿数据的增量变化；

所述增量变化包括旋转矩阵增量和平移向量增量，所述位姿数据包括旋转矩阵和平移向量；所述根据所述增量变化对所述位姿数据进行校正的步骤包括：

按照预设的校正公式对所述增量变化和所述位姿数据进行计算，得到校准后的位姿数据，所述校正公式为：

R′＝ΔR*R，t′＝Δt+t

其中，R′是指校正后的旋转矩阵，ΔR是指所述旋转矩阵增量，所述旋转矩阵增量依据所述惯性测量单元IMU的角速度计算得到的，R是指所述旋转矩阵，t′是指校正后的平移向量，Δt是指所述平移向量增量，所述平移向量增量是指依据所述惯性测量单元IMU的加速度进行积分得到的，t是指所述平移向量；

所述服务器还用于从所述视频数据包中获取叠加所述虚拟对象的目标，并根据所述时延值和历史时延值进行滤波处理，得到平均时延值，依据预设的点透视投影算法对所述目标在延迟平均时延值后的姿态进行计算，得到所述虚拟对象的位姿数据。

2.根据权利要求1所述的时延误差校正方法，其特征在于，在所述将视频数据包发送给服务器前，还包括：

统计从向所述服务器发出请求到接收到所述服务器返回的位姿数据之间的时延值；

所述将视频数据包发送给服务器，包括：

将所述时延值，以及对采集的原始图像数据编码后得到的视频帧封装在数据包中，发送给所述服务器，供所述服务器根据所述时延值，确定所述虚拟对象的位姿数据。

3.根据权利要求1所述的时延误差校正方法，其特征在于，所述位姿数据包括：旋转矩阵和平移向量；

所述根据所述位姿数据对应的视频帧与当前待显示的视频帧之间的时间差，确定所述位姿数据的增量变化，包括：

根据惯性测量单元IMU的角速度信息，获取旋转矩阵增量，并根据所述IMU的加速度信息，以及所述位姿数据对应的视频帧与当前待显示的视频帧之间的时间差，获取平移向量增量。

4.根据权利要求3所述的时延误差校正方法，其特征在于，所述根据所述增量变化对所述位姿数据进行校正，包括：

将所述旋转矩阵与所述旋转矩阵增量的乘积，作为校正后的旋转矩阵；

将所述平移向量与所述平移向量增量的和，作为校正后的平移向量。

5.根据权利要求1至4中任一项所述的时延误差校正方法，其特征在于，在所述接收所述服务器返回的所述虚拟对象的位姿数据后，还包括：

判断所述虚拟对象是否已经存在；

若不存在所述虚拟对象，则从所述服务器下载所述虚拟对象。

6.一种时延误差校正方法应用于服务器，其特征在于，包括：

接收终端设备发送的视频数据包，所述视频数据包包括所述终端设备统计的从向所述服务器发出请求到接收到所述服务器返回的位姿数据之间的时延值；

根据所述视频数据包确定待叠加的虚拟对象的位姿数据；

将所述位姿数据返回给所述终端设备，供所述终端设备在对所述位姿数据进行校正后，根据所述校正后的位姿数据将所述虚拟对象叠加在当前待显示的视频帧中；

所述服务器还用于，从所述视频数据包中获取叠加所述虚拟对象的目标，并根据所述时延值和历史时延值进行滤波处理，得到平均时延值，依据预设的点透视投影算法对所述目标在延迟平均时延值后的姿态进行计算，得到所述虚拟对象的位姿数据；

所述终端设备还用于，确定所述位姿数据对应的视频帧为第N帧视频图像，并确定当前待显示的视频帧为第N+k帧视频图像，并在所述第N帧视频图像与所述第N+k帧视频图像之间的时间差内，根据所述终端设备中的惯性测量单元IMU确定所述位姿数据的增量变化，所述增量变化包括旋转矩阵增量和平移向量增量，所述位姿数据包括旋转矩阵和平移向量；

所述终端设备还用于，按照预设的校正公式对所述增量变化和所述位姿数据进行计算，得到校准后的位姿数据，所述校正公式为：

R′＝ΔR*R，t′＝Δt+t

其中，R′是指校正后的旋转矩阵，ΔR是指所述旋转矩阵增量，所述旋转矩阵增量依据所述惯性测量单元IMU的角速度计算得到，R是指所述旋转矩阵，t′是指校正后的平移向量，Δt是指所述平移向量增量，所述平移向量增量是指依据所述惯性测量单元IMU的加速度进行积分得到的，t是指所述平移向量。

7.根据权利要求6所述的时延误差校正方法，其特征在于，所述视频数据包，包括所述终端设备统计的从向所述服务器发出请求到接收到所述服务器返回的位姿数据之间的时延值；

所述根据所述视频数据包确定待叠加的虚拟对象的位姿数据，包括：

跟踪预测出叠加所述虚拟对象的目标在延迟所述时延值后的姿态；

根据所述目标在延迟所述时延值后的姿态，确定所述虚拟对象的位姿数据。

8.根据权利要求7所述的时延误差校正方法，其特征在于，在所述跟踪预测出叠加所述虚拟对象的目标在延迟所述时延值后的姿态前，还包括：

根据所述时延值和历史时延值，对所述时延值进行滤波处理，得到预测时延值；

所述跟踪预测出叠加所述虚拟对象的目标在延迟所述时延值后的姿态，具体为：

跟踪预测出叠加所述虚拟对象的目标在延迟所述预测时延值后的姿态。

9.一种终端设备，其特征在于，包括：至少一个处理器；以及，与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如权利要求1至5中任一项所述的时延误差校正方法。

10.一种服务器，其特征在于，包括：至少一个处理器；以及，与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如权利要求6至8中任一项所述的时延误差校正方法。

11.一种计算机可读存储介质，存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至5中任一项所述的时延误差校正方法；或者，实现权利要求6至8中任一项所述的时延误差校正方法。