CN116320506A

CN116320506A - 一种影视视频立体交互服务管理方法

Info

Publication number: CN116320506A
Application number: CN202310233222.7A
Authority: CN
Inventors: 范书; 许艾; 岳佳鑫
Original assignee: Suzhou Qinglin Culture Communication Co ltd
Current assignee: Suzhou Qinglin Culture Communication Co ltd
Priority date: 2023-03-13
Filing date: 2023-03-13
Publication date: 2023-06-23

Abstract

本发明公开了一种影视视频立体交互服务管理方法，包括如下步骤：步骤一、框架构建：首先采用H.264标准编码器对X个视点的视频数据进行编码并将X路码流存储在视频服务器端，在观众端，对人脸进行实时的检测与跟踪，通过框架构建、多视点视频编解码、码流的切换和同步、人脸的检测和跟踪以及性能指标测试五个流程步骤配合，取代传统的交互式立体视频系统管理方式，采用人脸检测和跟踪相结合的方式，实现对任意时刻观众人脸的位置进行捕捉定位的效果，对观众提供最佳视点数据支持、高质量立体交互效果和平滑的码流切换能力，降低对网络带宽资源难度的同时，也提升了观众对影视视频的观感效果，在现有的网络环境下得以实现。

Description

一种影视视频立体交互服务管理方法

技术领域

本发明涉及影视视频立体交互服务管理技术领域，具体为一种影视视频立体交互服务管理方法。

背景技术

影视是以拷贝、磁带、胶片、存储器等为载体，以银幕、屏幕放映为目的，从而实现视觉与听觉综合观赏的艺术形式，是现代艺术的综合形态，包含了电影、电视剧、节目、动画等内容，视频泛指将一系列静态影像以电信号的方式加以捕捉、记录、处理、储存、传送与重现的各种技术，连续的图像变化每秒超过24帧画面以上时，根据视觉暂留原理，人眼无法辨别单幅的静态画面；看上去是平滑连续的视觉效果，这样连续的画面叫做视频，视频技术最早是为了电视系统而发展，但现在已经发展为各种不同的格式以利消费者将视频记录下来，网络技术的发达也促使视频的纪录片段以串流媒体的形式存在于因特网之上并可被电脑接收与播放，视频与电影属于不同的技术，后者是利用照相术将动态的影像捕捉为一系列的静态照片。

交互式立体视频技术是视频处理领域中的一种全新应用通过在场景中的不同角度放置多台摄像机对同一场景记录下多个视点的视频数据允许观众自主地选择观看视角以获得最佳的观看效果，为提供这种交互能力，交互式立体视频系统必须能实时确定观众的观看角度或者位置信息，以选择与观众观看角度相匹配的视频流数据进行相应处理。

为满足多个视点视频数据传输和交互要求，传统的交互式立体视频系统大多是先在服务器端将多视点视频数据预先编码，然后将所有视点的数据都传送到远程的观众端，由观众端根据观众交互请求选择相应的两路解码视频数据进行播放，然而，在当前软硬件条件下，这种方案将对网络带宽资源提出极高的要求，在现有的网络环境下难以实现，不能采用人脸检测和跟踪相结合的方式，对任意时刻观众人脸的位置进行捕捉定位，对观众提供不了最佳视点数据支持、高质量立体交互效果和平滑的码流切换能力，增加对网络带宽资源难度的同时，也降低影视视频的观感效果，为此，提出影视视频立体交互服务管理方法。

发明内容

本发明的目的在于提供影视视频立体交互服务管理方法，以解决上述背景技术中提出的不能采用人脸检测和跟踪相结合的方式，对任意时刻观众人脸的位置进行捕捉定位，对观众提供不了最佳视点数据支持、高质量立体交互效果和平滑的码流切换能力，增加对网络带宽资源难度的同时，也降低影视视频的观感效果的问题。

为实现上述目的，本发明提供如下技术方案：一种影视视频立体交互服务管理方法，包括如下步骤：

步骤一、框架构建：首先采用H.264标准编码器对X个视点的视频数据进行编码并将X路码流存储在视频服务器端，在观众端，对人脸进行实时的检测与跟踪，并将当前时刻的人脸位置信息反馈至视频服务器端，视频服务器根据观众反馈回来的位置信息，自适应选择与人脸位置最匹配的两路视点码流从相应的码流中找到切入点读取码流数据进行传输；

步骤二、多视点视频编解码：先采用两路视点视频来获得影视视频的立体画面，再基于H.264标准编码器和MVC相结合的方式对立体画面捕捉的多个视点进行先随机访问，再对应编码，后随之解码，并消除立体画面捕捉的多个视点中的空间冗余；

步骤三、码流的切换和同步：再借助多部摄像机以平行直线的方式对同一影视拍摄现场场景同时进行采集，且多部摄像机沿着影视拍摄现场场形成多视点摄像机阵列，各部摄像机的焦距需提前严格校准，其中任意相邻的两部摄像机之间的光心距离为人眼间距，并形成立体视频成像的基本单元；

步骤四、人脸的检测和跟踪：为了确认某一时刻观众对影视视频的观看视角，需在观众端配备专用视频摄像头，用于观众人脸的检测和跟踪工作，且该专用视频摄像头需要提前固定好，则专用视频摄像头对人脸的监控范围涵盖一个固定宽度大小的二维场景，且该固定宽度大小的二维场景范围大于人脸的面积。

步骤五、性能指标测试：先对多姿态状态下人脸的检测和跟踪结果进行测试，再对各个多视点视频序列进行测试，且各个多视点视频序列项目包括建立连接并初始化、观众端初始数据缓冲延时、观众端人脸检测响应、视频服务器端视点切换交互响应、观众端帧数据解码时长以及观众端左右视点播放时长。

优选的，所述在步骤三码流的切换和同步过程中，根据多视点立体视频采集模型和双目视差原理可知：当某时刻人眼位置G位于中间两组摄像机a和b间隔区域中范围时，与之相对应的立体视频就是Va和Vb，若观众人脸位置发生转换位移时，立即根据观众人脸位置发生的位移形态，自适应的由符合当前位移形态的摄像机选择匹配码流并向视频服务器和观众端进行传输。

优选的，所述在步骤三码流的切换和同步过程中，选择匹配的码流切换包括时域方向和视点方向的同步切换，所谓时域和视点的同步切换是指当发生码流切换时既要保证视点间的平滑过渡，又要保证立体视频内容在播放次序上的连续性，不能让人眼察觉到播放内容上明显的跨越。

优选的，所述在步骤四人脸的检测和跟踪过程中，当由X台摄像机组成的多视点摄像机阵列以固定间距水平排成一列，若转换到多视点视频拍摄场景时，该专用视频摄像头的二维监控场景一定程度上等效于多视点摄像机阵列平面，假设某一时刻检测到观众人脸位置是处在监控场景的Q(x，y)处对于多视点视频拍摄场景来说，则该时刻观众的位置等效于处在Q(x，y)处，则该角度下最匹配的左右两路视频为Vx和Vy，根据这一思路观众端对人脸进行实时检测与跟踪实际上是判定人脸位置在二维监控场景中所处的区域M，且M∈(0，X-1)。

优选的，所述在步骤四人脸的检测和跟踪过程中，针对于现实生活中观众人脸姿态复杂多变的情况时，人脸的检测和跟踪方式采用多姿态人脸检测和多姿态人脸跟踪算法进行对应捕捉，且专用视频摄像头应对姿态复杂多变的观众人脸监控时，预先对观众人脸的图像序列进行采集，再将采集的图像序列按照帧数类型分为检测帧和跟踪帧，针对检测帧，可直接借助人脸检测算法定位出图像中观众人脸位置，并作为跟踪帧的参考图像，对于跟踪帧，可采用背景差、肤色分割和前帧参考形式快速预判出观众人脸的下一步转换区域，再用人脸检测算子定位出观众人脸的下一步转换位置。

优选的，所述在步骤四人脸的检测和跟踪过程中，由于立体视频播放器需要提供数据流的接收、同步解码和立体视频对的同步显示等功能，为了确保每个环节不会出现差错，为此，在视频服务器端和观众端建立一道数据缓冲区，视频服务器端在读取视点流数据之后并不直接发送，而是先将视点ID、帧类型等头信息添加在视频流数据之前，依照左右视点帧排序后写入发送缓冲序列再进行发送，其中头长度包括8字节，前2个字节用来定义帧所在视点ID，字节0-1＝01表示左视点ID，字节0-1＝10表示右视点ID，字节2-3表示帧类型，字节4-7主要用于扩展功能的预留位，在观众端收到网络传输数据包后，先去掉包头将两路视频数据分离出来，再分别写入对应的解码环形队列缓冲器中，最后进行解码和同步显示，观众端再以多线程的方式处理数据的收发﹑解码、显示以及人脸检测跟踪等流程工作。

优选的，所述在步骤五性能指标测试过程中，检测帧的频率根据不同影视应用场景进行预先灵活设定，再对每10帧采集的人脸图像中插入1幅检测帧，经过人脸检测算法计算可得，在1s内即可完成观众人脸所有姿态位置的预判响应。

优选的，所述在步骤五性能指标测试过程中，建立连接并初始化、观众端初始数据缓冲延时、观众端人脸检测响应、视频服务器端视点切换交互响应、观众端帧数据解码时长以及观众端左右视点播放时长项目的测试画面分辨率包括640*480、320*240和1024*768三种形式，且画面测试帧数为250。

优选的，所述在步骤五性能指标测试过程中，对建立连接并初始化、观众端初始数据缓冲延时、观众端人脸检测响应、视频服务器端视点切换交互响应、观众端帧数据解码时长以及观众端左右视点播放时长测试时，采用10组摄像机以直线排列采集方式对测试画面进行逐个项目测试，且每组摄像机之间的间隔为20cm，并用H.264编码器对各测试序列的各路视频进行独立编码，编码完成之后的码流再存储在视频服务器的硬盘内。

与现有技术相比，本发明的有益效果是：

本发明中，通过框架构建、多视点视频编解码、码流的切换和同步、人脸的检测和跟踪以及性能指标测试五个流程步骤配合，取代传统的交互式立体视频系统管理方式，采用人脸检测和跟踪相结合的方式，实现对任意时刻观众人脸的位置进行捕捉定位的效果，对观众提供最佳视点数据支持、高质量立体交互效果和平滑的码流切换能力，降低对网络带宽资源难度的同时，也提升了观众对影视视频的观感效果，在现有的网络环境下得以实现。

附图说明

图1为本发明的框架图；

图2为本发明的人脸检测和跟踪流程图；

图3为本发明的视频帧封装头图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例1

请参阅图1-图3，本发明提供一种技术方案：一种影视视频立体交互服务管理方法，包括如下步骤：

步骤五、性能指标测试：先对多姿态状态下人脸的检测和跟踪结果进行测试，再对各个多视点视频序列进行测试，且各个多视点视频序列项目包括建立连接并初始化、观众端初始数据缓冲延时、观众端人脸检测响应、视频服务器端视点切换交互响应、观众端帧数据解码时长以及观众端左右视点播放时长，通过框架构建、多视点视频编解码、码流的切换和同步、人脸的检测和跟踪以及性能指标测试五个流程步骤配合，取代传统的交互式立体视频系统管理方式，采用人脸检测和跟踪相结合的方式，实现对任意时刻观众人脸的位置进行捕捉定位的效果，对观众提供最佳视点数据支持、高质量立体交互效果和平滑的码流切换能力，降低对网络带宽资源难度的同时，也提升了观众对影视视频的观感效果，在现有的网络环境下得以实现。

实施例2

步骤三、码流的切换和同步：再借助多部摄像机以平行直线的方式对同一影视拍摄现场场景同时进行采集，且多部摄像机沿着影视拍摄现场场形成多视点摄像机阵列，各部摄像机的焦距需提前严格校准，其中任意相邻的两部摄像机之间的光心距离为人眼间距，并形成立体视频成像的基本单元，在步骤三码流的切换和同步过程中，根据多视点立体视频采集模型和双目视差原理可知：当某时刻人眼位置G位于中间两组摄像机a和b间隔区域中范围时，与之相对应的立体视频就是Va和Vb，若观众人脸位置发生转换位移时，立即根据观众人脸位置发生的位移形态，自适应的由符合当前位移形态的摄像机选择匹配码流并向视频服务器和观众端进行传输，选择匹配的码流切换包括时域方向和视点方向的同步切换，所谓时域和视点的同步切换是指当发生码流切换时既要保证视点间的平滑过渡，又要保证立体视频内容在播放次序上的连续性，不能让人眼察觉到播放内容上明显的跨越，满足观众人脸转换位移后位置的精准预判定位需求，同时也提高码流切换平滑度，增加观众对影视视频视点的感受；

步骤四、人脸的检测和跟踪：为了确认某一时刻观众对影视视频的观看视角，需在观众端配备专用视频摄像头，用于观众人脸的检测和跟踪工作，且该专用视频摄像头需要提前固定好，则专用视频摄像头对人脸的监控范围涵盖一个固定宽度大小的二维场景，且该固定宽度大小的二维场景范围大于人脸的面积，在步骤四人脸的检测和跟踪过程中，当由X台摄像机组成的多视点摄像机阵列以固定间距水平排成一列，若转换到多视点视频拍摄场景时，该专用视频摄像头的二维监控场景一定程度上等效于多视点摄像机阵列平面，假设某一时刻检测到观众人脸位置是处在监控场景的Q(x，y)处对于多视点视频拍摄场景来说，则该时刻观众的位置等效于处在Q(x，y)处，则该角度下最匹配的左右两路视频为Vx和Vy，根据这一思路观众端对人脸进行实时检测与跟踪实际上是判定人脸位置在二维监控场景中所处的区域M，且M∈(0，X-1)，针对于现实生活中观众人脸姿态复杂多变的情况时，人脸的检测和跟踪方式采用多姿态人脸检测和多姿态人脸跟踪算法进行对应捕捉，且专用视频摄像头应对姿态复杂多变的观众人脸监控时，预先对观众人脸的图像序列进行采集，再将采集的图像序列按照帧数类型分为检测帧和跟踪帧，针对检测帧，可直接借助人脸检测算法定位出图像中观众人脸位置，并作为跟踪帧的参考图像，对于跟踪帧，可采用背景差、肤色分割和前帧参考形式快速预判出观众人脸的下一步转换区域，再用人脸检测算子定位出观众人脸的下一步转换位置，由于立体视频播放器需要提供数据流的接收、同步解码和立体视频对的同步显示等功能，为了确保每个环节不会出现差错，为此，在视频服务器端和观众端建立一道数据缓冲区，视频服务器端在读取视点流数据之后并不直接发送，而是先将视点ID、帧类型等头信息添加在视频流数据之前，依照左右视点帧排序后写入发送缓冲序列再进行发送，其中头长度包括8字节，前2个字节用来定义帧所在视点ID，字节0-1＝01表示左视点ID，字节0-1＝10表示右视点ID，字节2-3表示帧类型，字节4-7主要用于扩展功能的预留位，在观众端收到网络传输数据包后，先去掉包头将两路视频数据分离出来，再分别写入对应的解码环形队列缓冲器中，最后进行解码和同步显示，观众端再以多线程的方式处理数据的收发﹑解码、显示以及人脸检测跟踪等流程工作，提高人脸的检测和跟踪的灵敏度和实时性，满足现实生活中姿态复杂多变的观众脸部位置的定位需求，同时也在视频服务器端和观众端建立一道数据缓冲区，来提高视点数据在收发﹑解码、显示以及人脸检测跟踪等流程的顺畅性。

步骤五、性能指标测试：先对多姿态状态下人脸的检测和跟踪结果进行测试，在步骤五性能指标测试过程中，检测帧的频率根据不同影视应用场景进行预先灵活设定，再对每10帧采集的人脸图像中插入1幅检测帧，经过人脸检测算法计算可得，在1s内即可完成观众人脸所有姿态位置的预判响应，提高多姿态状态下人脸的检测和跟踪结果的计算灵敏度和高响应性，缩短多姿态状态下人脸的检测和跟踪的计算用时，满足多姿态状态下人脸的检测和跟踪的实际需求，再对各个多视点视频序列进行测试，且各个多视点视频序列项目包括建立连接并初始化、观众端初始数据缓冲延时、观众端人脸检测响应、视频服务器端视点切换交互响应、观众端帧数据解码时长以及观众端左右视点播放时长，建立连接并初始化、观众端初始数据缓冲延时、观众端人脸检测响应、视频服务器端视点切换交互响应、观众端帧数据解码时长以及观众端左右视点播放时长项目的测试画面分辨率包括640*480、320*240和1024*768三种形式，且画面测试帧数为250，对建立连接并初始化、观众端初始数据缓冲延时、观众端人脸检测响应、视频服务器端视点切换交互响应、观众端帧数据解码时长以及观众端左右视点播放时长测试时，采用10组摄像机以直线排列采集方式对测试画面进行逐个项目测试，且每组摄像机之间的间隔为20cm，并用H.264编码器对各测试序列的各路视频进行独立编码，编码完成之后的码流再存储在视频服务器的硬盘内，完成建立连接并初始化、观众端初始数据缓冲延时、观众端人脸检测响应、视频服务器端视点切换交互响应、观众端帧数据解码时长以及观众端左右视点播放时长项目的测试工作，缩短建立连接并初始化、观众端初始数据缓冲延时、观众端人脸检测响应、视频服务器端视点切换交互响应、观众端帧数据解码时长以及观众端左右视点播放时长项目的响应时长，降低延迟，提高影视视频的流畅性，进一步增加观众对影视视频的观感，通过框架构建、多视点视频编解码、码流的切换和同步、人脸的检测和跟踪以及性能指标测试五个流程步骤配合，取代传统的交互式立体视频系统管理方式，采用人脸检测和跟踪相结合的方式，实现对任意时刻观众人脸的位置进行捕捉定位的效果，对观众提供最佳视点数据支持、高质量立体交互效果和平滑的码流切换能力，降低对网络带宽资源难度的同时，也提升了观众对影视视频的观感效果，在现有的网络环境下得以实现。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.一种影视视频立体交互服务管理方法，其特征在于：包括如下步骤：

2.根据权利要求1所述的一种影视视频立体交互服务管理方法，其特征在于：所述在步骤三码流的切换和同步过程中，根据多视点立体视频采集模型和双目视差原理可知：当某时刻人眼位置G位于中间两组摄像机a和b间隔区域中范围时，与之相对应的立体视频就是Va和Vb，若观众人脸位置发生转换位移时，立即根据观众人脸位置发生的位移形态，自适应的由符合当前位移形态的摄像机选择匹配码流并向视频服务器和观众端进行传输。

3.根据权利要求2所述的一种影视视频立体交互服务管理方法，其特征在于：所述在步骤三码流的切换和同步过程中，选择匹配的码流切换包括时域方向和视点方向的同步切换，所谓时域和视点的同步切换是指当发生码流切换时既要保证视点间的平滑过渡，又要保证立体视频内容在播放次序上的连续性，不能让人眼察觉到播放内容上明显的跨越。

4.根据权利要求1所述的一种影视视频立体交互服务管理方法，其特征在于：所述在步骤四人脸的检测和跟踪过程中，当由X台摄像机组成的多视点摄像机阵列以固定间距水平排成一列，若转换到多视点视频拍摄场景时，该专用视频摄像头的二维监控场景一定程度上等效于多视点摄像机阵列平面，假设某一时刻检测到观众人脸位置是处在监控场景的Q(x，y)处对于多视点视频拍摄场景来说，则该时刻观众的位置等效于处在Q(x，y)处，则该角度下最匹配的左右两路视频为Vx和Vy，根据这一思路观众端对人脸进行实时检测与跟踪实际上是判定人脸位置在二维监控场景中所处的区域M，且M∈(0，X-1)。

5.根据权利要求1所述的一种影视视频立体交互服务管理方法，其特征在于：所述在步骤四人脸的检测和跟踪过程中，针对于现实生活中观众人脸姿态复杂多变的情况时，人脸的检测和跟踪方式采用多姿态人脸检测和多姿态人脸跟踪算法进行对应捕捉，且专用视频摄像头应对姿态复杂多变的观众人脸监控时，预先对观众人脸的图像序列进行采集，再将采集的图像序列按照帧数类型分为检测帧和跟踪帧，针对检测帧，可直接借助人脸检测算法定位出图像中观众人脸位置，并作为跟踪帧的参考图像，对于跟踪帧，可采用背景差、肤色分割和前帧参考形式快速预判出观众人脸的下一步转换区域，再用人脸检测算子定位出观众人脸的下一步转换位置。

6.根据权利要求1所述的一种影视视频立体交互服务管理方法，其特征在于：所述在步骤四人脸的检测和跟踪过程中，由于立体视频播放器需要提供数据流的接收、同步解码和立体视频对的同步显示等功能，为了确保每个环节不会出现差错，为此，在视频服务器端和观众端建立一道数据缓冲区，视频服务器端在读取视点流数据之后并不直接发送，而是先将视点ID、帧类型等头信息添加在视频流数据之前，依照左右视点帧排序后写入发送缓冲序列再进行发送，其中头长度包括8字节，前2个字节用来定义帧所在视点ID，字节0-1＝01表示左视点ID，字节0-1＝10表示右视点ID，字节2-3表示帧类型，字节4-7主要用于扩展功能的预留位，在观众端收到网络传输数据包后，先去掉包头将两路视频数据分离出来，再分别写入对应的解码环形队列缓冲器中，最后进行解码和同步显示，观众端再以多线程的方式处理数据的收发﹑解码、显示以及人脸检测跟踪等流程工作。

7.根据权利要求1所述的一种影视视频立体交互服务管理方法，其特征在于：所述在步骤五性能指标测试过程中，检测帧的频率根据不同影视应用场景进行预先灵活设定，再对每10帧采集的人脸图像中插入1幅检测帧，经过人脸检测算法计算可得，在1s内即可完成观众人脸所有姿态位置的预判响应。

8.根据权利要求1所述的一种影视视频立体交互服务管理方法，其特征在于：所述在步骤五性能指标测试过程中，建立连接并初始化、观众端初始数据缓冲延时、观众端人脸检测响应、视频服务器端视点切换交互响应、观众端帧数据解码时长以及观众端左右视点播放时长项目的测试画面分辨率包括640*480、320*240和1024*768三种形式，且画面测试帧数为250。

9.根据权利要求8所述的一种影视视频立体交互服务管理方法，其特征在于：所述在步骤五性能指标测试过程中，对建立连接并初始化、观众端初始数据缓冲延时、观众端人脸检测响应、视频服务器端视点切换交互响应、观众端帧数据解码时长以及观众端左右视点播放时长测试时，采用10组摄像机以直线排列采集方式对测试画面进行逐个项目测试，且每组摄像机之间的间隔为20cm，并用H.264编码器对各测试序列的各路视频进行独立编码，编码完成之后的码流再存储在视频服务器的硬盘内。