CN116320506A - 一种影视视频立体交互服务管理方法 - Google Patents

一种影视视频立体交互服务管理方法 Download PDF

Info

Publication number
CN116320506A
CN116320506A CN202310233222.7A CN202310233222A CN116320506A CN 116320506 A CN116320506 A CN 116320506A CN 202310233222 A CN202310233222 A CN 202310233222A CN 116320506 A CN116320506 A CN 116320506A
Authority
CN
China
Prior art keywords
video
face
audience
tracking
detection
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310233222.7A
Other languages
English (en)
Inventor
范书
许艾
岳佳鑫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou Qinglin Culture Communication Co ltd
Original Assignee
Suzhou Qinglin Culture Communication Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou Qinglin Culture Communication Co ltd filed Critical Suzhou Qinglin Culture Communication Co ltd
Priority to CN202310233222.7A priority Critical patent/CN116320506A/zh
Publication of CN116320506A publication Critical patent/CN116320506A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • G06V40/166Detection; Localisation; Normalisation using acquisition arrangements
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/106Processing image signals
    • H04N13/111Transformation of image signals corresponding to virtual viewpoints, e.g. spatial image interpolation
    • H04N13/117Transformation of image signals corresponding to virtual viewpoints, e.g. spatial image interpolation the virtual viewpoint locations being selected by the viewers or determined by viewer tracking
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/106Processing image signals
    • H04N13/161Encoding, multiplexing or demultiplexing different image signal components
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N17/00Diagnosis, testing or measuring for television systems or their details
    • H04N17/004Diagnosis, testing or measuring for television systems or their details for digital television systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/597Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding specially adapted for multi-view video sequence encoding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/21Server components or server architectures
    • H04N21/218Source of audio or video content, e.g. local disk arrays
    • H04N21/21805Source of audio or video content, e.g. local disk arrays enabling multiple viewpoints, e.g. using a plurality of cameras
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/25Management operations performed by the server for facilitating the content distribution or administrating data related to end-users or client devices, e.g. end-user or client device authentication, learning user preferences for recommending movies
    • H04N21/258Client or end-user data management, e.g. managing client capabilities, user preferences or demographics, processing of multiple end-users preferences to derive collaborative data
    • H04N21/25866Management of end-user data
    • H04N21/25891Management of end-user data being end-user preferences
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/41Structure of client; Structure of client peripherals
    • H04N21/422Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS]
    • H04N21/4223Cameras
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/442Monitoring of processes or resources, e.g. detecting the failure of a recording device, monitoring the downstream bandwidth, the number of times a movie has been viewed, the storage space available from the internal hard disk
    • H04N21/44213Monitoring of end-user related data
    • H04N21/44218Detecting physical presence or behaviour of the user, e.g. using sensors to detect if the user is leaving the room or changes his face expression during a TV program
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Databases & Information Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Social Psychology (AREA)
  • Human Computer Interaction (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Computer Graphics (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Biomedical Technology (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Testing, Inspecting, Measuring Of Stereoscopic Televisions And Televisions (AREA)

Abstract

本发明公开了一种影视视频立体交互服务管理方法,包括如下步骤:步骤一、框架构建:首先采用H.264标准编码器对X个视点的视频数据进行编码并将X路码流存储在视频服务器端,在观众端,对人脸进行实时的检测与跟踪,通过框架构建、多视点视频编解码、码流的切换和同步、人脸的检测和跟踪以及性能指标测试五个流程步骤配合,取代传统的交互式立体视频系统管理方式,采用人脸检测和跟踪相结合的方式,实现对任意时刻观众人脸的位置进行捕捉定位的效果,对观众提供最佳视点数据支持、高质量立体交互效果和平滑的码流切换能力,降低对网络带宽资源难度的同时,也提升了观众对影视视频的观感效果,在现有的网络环境下得以实现。

Description

一种影视视频立体交互服务管理方法
技术领域
本发明涉及影视视频立体交互服务管理技术领域,具体为一种影视视频立体交互服务管理方法。
背景技术
影视是以拷贝、磁带、胶片、存储器等为载体,以银幕、屏幕放映为目的,从而实现视觉与听觉综合观赏的艺术形式,是现代艺术的综合形态,包含了电影、电视剧、节目、动画等内容,视频泛指将一系列静态影像以电信号的方式加以捕捉、记录、处理、储存、传送与重现的各种技术,连续的图像变化每秒超过24帧画面以上时,根据视觉暂留原理,人眼无法辨别单幅的静态画面;看上去是平滑连续的视觉效果,这样连续的画面叫做视频,视频技术最早是为了电视系统而发展,但现在已经发展为各种不同的格式以利消费者将视频记录下来,网络技术的发达也促使视频的纪录片段以串流媒体的形式存在于因特网之上并可被电脑接收与播放,视频与电影属于不同的技术,后者是利用照相术将动态的影像捕捉为一系列的静态照片。
交互式立体视频技术是视频处理领域中的一种全新应用通过在场景中的不同角度放置多台摄像机对同一场景记录下多个视点的视频数据允许观众自主地选择观看视角以获得最佳的观看效果,为提供这种交互能力,交互式立体视频系统必须能实时确定观众的观看角度或者位置信息,以选择与观众观看角度相匹配的视频流数据进行相应处理。
为满足多个视点视频数据传输和交互要求,传统的交互式立体视频系统大多是先在服务器端将多视点视频数据预先编码,然后将所有视点的数据都传送到远程的观众端,由观众端根据观众交互请求选择相应的两路解码视频数据进行播放,然而,在当前软硬件条件下,这种方案将对网络带宽资源提出极高的要求,在现有的网络环境下难以实现,不能采用人脸检测和跟踪相结合的方式,对任意时刻观众人脸的位置进行捕捉定位,对观众提供不了最佳视点数据支持、高质量立体交互效果和平滑的码流切换能力,增加对网络带宽资源难度的同时,也降低影视视频的观感效果,为此,提出影视视频立体交互服务管理方法。
发明内容
本发明的目的在于提供影视视频立体交互服务管理方法,以解决上述背景技术中提出的不能采用人脸检测和跟踪相结合的方式,对任意时刻观众人脸的位置进行捕捉定位,对观众提供不了最佳视点数据支持、高质量立体交互效果和平滑的码流切换能力,增加对网络带宽资源难度的同时,也降低影视视频的观感效果的问题。
为实现上述目的,本发明提供如下技术方案:一种影视视频立体交互服务管理方法,包括如下步骤:
步骤一、框架构建:首先采用H.264标准编码器对X个视点的视频数据进行编码并将X路码流存储在视频服务器端,在观众端,对人脸进行实时的检测与跟踪,并将当前时刻的人脸位置信息反馈至视频服务器端,视频服务器根据观众反馈回来的位置信息,自适应选择与人脸位置最匹配的两路视点码流从相应的码流中找到切入点读取码流数据进行传输;
步骤二、多视点视频编解码:先采用两路视点视频来获得影视视频的立体画面,再基于H.264标准编码器和MVC相结合的方式对立体画面捕捉的多个视点进行先随机访问,再对应编码,后随之解码,并消除立体画面捕捉的多个视点中的空间冗余;
步骤三、码流的切换和同步:再借助多部摄像机以平行直线的方式对同一影视拍摄现场场景同时进行采集,且多部摄像机沿着影视拍摄现场场形成多视点摄像机阵列,各部摄像机的焦距需提前严格校准,其中任意相邻的两部摄像机之间的光心距离为人眼间距,并形成立体视频成像的基本单元;
步骤四、人脸的检测和跟踪:为了确认某一时刻观众对影视视频的观看视角,需在观众端配备专用视频摄像头,用于观众人脸的检测和跟踪工作,且该专用视频摄像头需要提前固定好,则专用视频摄像头对人脸的监控范围涵盖一个固定宽度大小的二维场景,且该固定宽度大小的二维场景范围大于人脸的面积。
步骤五、性能指标测试:先对多姿态状态下人脸的检测和跟踪结果进行测试,再对各个多视点视频序列进行测试,且各个多视点视频序列项目包括建立连接并初始化、观众端初始数据缓冲延时、观众端人脸检测响应、视频服务器端视点切换交互响应、观众端帧数据解码时长以及观众端左右视点播放时长。
优选的,所述在步骤三码流的切换和同步过程中,根据多视点立体视频采集模型和双目视差原理可知:当某时刻人眼位置G位于中间两组摄像机a和b间隔区域中范围时,与之相对应的立体视频就是Va和Vb,若观众人脸位置发生转换位移时,立即根据观众人脸位置发生的位移形态,自适应的由符合当前位移形态的摄像机选择匹配码流并向视频服务器和观众端进行传输。
优选的,所述在步骤三码流的切换和同步过程中,选择匹配的码流切换包括时域方向和视点方向的同步切换,所谓时域和视点的同步切换是指当发生码流切换时既要保证视点间的平滑过渡,又要保证立体视频内容在播放次序上的连续性,不能让人眼察觉到播放内容上明显的跨越。
优选的,所述在步骤四人脸的检测和跟踪过程中,当由X台摄像机组成的多视点摄像机阵列以固定间距水平排成一列,若转换到多视点视频拍摄场景时,该专用视频摄像头的二维监控场景一定程度上等效于多视点摄像机阵列平面,假设某一时刻检测到观众人脸位置是处在监控场景的Q(x,y)处对于多视点视频拍摄场景来说,则该时刻观众的位置等效于处在Q(x,y)处,则该角度下最匹配的左右两路视频为Vx和Vy,根据这一思路观众端对人脸进行实时检测与跟踪实际上是判定人脸位置在二维监控场景中所处的区域M,且M∈(0,X-1)。
优选的,所述在步骤四人脸的检测和跟踪过程中,针对于现实生活中观众人脸姿态复杂多变的情况时,人脸的检测和跟踪方式采用多姿态人脸检测和多姿态人脸跟踪算法进行对应捕捉,且专用视频摄像头应对姿态复杂多变的观众人脸监控时,预先对观众人脸的图像序列进行采集,再将采集的图像序列按照帧数类型分为检测帧和跟踪帧,针对检测帧,可直接借助人脸检测算法定位出图像中观众人脸位置,并作为跟踪帧的参考图像,对于跟踪帧,可采用背景差、肤色分割和前帧参考形式快速预判出观众人脸的下一步转换区域,再用人脸检测算子定位出观众人脸的下一步转换位置。
优选的,所述在步骤四人脸的检测和跟踪过程中,由于立体视频播放器需要提供数据流的接收、同步解码和立体视频对的同步显示等功能,为了确保每个环节不会出现差错,为此,在视频服务器端和观众端建立一道数据缓冲区,视频服务器端在读取视点流数据之后并不直接发送,而是先将视点ID、帧类型等头信息添加在视频流数据之前,依照左右视点帧排序后写入发送缓冲序列再进行发送,其中头长度包括8字节,前2个字节用来定义帧所在视点ID,字节0-1=01表示左视点ID,字节0-1=10表示右视点ID,字节2-3表示帧类型,字节4-7主要用于扩展功能的预留位,在观众端收到网络传输数据包后,先去掉包头将两路视频数据分离出来,再分别写入对应的解码环形队列缓冲器中,最后进行解码和同步显示,观众端再以多线程的方式处理数据的收发﹑解码、显示以及人脸检测跟踪等流程工作。
优选的,所述在步骤五性能指标测试过程中,检测帧的频率根据不同影视应用场景进行预先灵活设定,再对每10帧采集的人脸图像中插入1幅检测帧,经过人脸检测算法计算可得,在1s内即可完成观众人脸所有姿态位置的预判响应。
优选的,所述在步骤五性能指标测试过程中,建立连接并初始化、观众端初始数据缓冲延时、观众端人脸检测响应、视频服务器端视点切换交互响应、观众端帧数据解码时长以及观众端左右视点播放时长项目的测试画面分辨率包括640*480、320*240和1024*768三种形式,且画面测试帧数为250。
优选的,所述在步骤五性能指标测试过程中,对建立连接并初始化、观众端初始数据缓冲延时、观众端人脸检测响应、视频服务器端视点切换交互响应、观众端帧数据解码时长以及观众端左右视点播放时长测试时,采用10组摄像机以直线排列采集方式对测试画面进行逐个项目测试,且每组摄像机之间的间隔为20cm,并用H.264编码器对各测试序列的各路视频进行独立编码,编码完成之后的码流再存储在视频服务器的硬盘内。
与现有技术相比,本发明的有益效果是:
本发明中,通过框架构建、多视点视频编解码、码流的切换和同步、人脸的检测和跟踪以及性能指标测试五个流程步骤配合,取代传统的交互式立体视频系统管理方式,采用人脸检测和跟踪相结合的方式,实现对任意时刻观众人脸的位置进行捕捉定位的效果,对观众提供最佳视点数据支持、高质量立体交互效果和平滑的码流切换能力,降低对网络带宽资源难度的同时,也提升了观众对影视视频的观感效果,在现有的网络环境下得以实现。
附图说明
图1为本发明的框架图;
图2为本发明的人脸检测和跟踪流程图;
图3为本发明的视频帧封装头图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例1
请参阅图1-图3,本发明提供一种技术方案:一种影视视频立体交互服务管理方法,包括如下步骤:
步骤一、框架构建:首先采用H.264标准编码器对X个视点的视频数据进行编码并将X路码流存储在视频服务器端,在观众端,对人脸进行实时的检测与跟踪,并将当前时刻的人脸位置信息反馈至视频服务器端,视频服务器根据观众反馈回来的位置信息,自适应选择与人脸位置最匹配的两路视点码流从相应的码流中找到切入点读取码流数据进行传输;
步骤二、多视点视频编解码:先采用两路视点视频来获得影视视频的立体画面,再基于H.264标准编码器和MVC相结合的方式对立体画面捕捉的多个视点进行先随机访问,再对应编码,后随之解码,并消除立体画面捕捉的多个视点中的空间冗余;
步骤三、码流的切换和同步:再借助多部摄像机以平行直线的方式对同一影视拍摄现场场景同时进行采集,且多部摄像机沿着影视拍摄现场场形成多视点摄像机阵列,各部摄像机的焦距需提前严格校准,其中任意相邻的两部摄像机之间的光心距离为人眼间距,并形成立体视频成像的基本单元;
步骤四、人脸的检测和跟踪:为了确认某一时刻观众对影视视频的观看视角,需在观众端配备专用视频摄像头,用于观众人脸的检测和跟踪工作,且该专用视频摄像头需要提前固定好,则专用视频摄像头对人脸的监控范围涵盖一个固定宽度大小的二维场景,且该固定宽度大小的二维场景范围大于人脸的面积。
步骤五、性能指标测试:先对多姿态状态下人脸的检测和跟踪结果进行测试,再对各个多视点视频序列进行测试,且各个多视点视频序列项目包括建立连接并初始化、观众端初始数据缓冲延时、观众端人脸检测响应、视频服务器端视点切换交互响应、观众端帧数据解码时长以及观众端左右视点播放时长,通过框架构建、多视点视频编解码、码流的切换和同步、人脸的检测和跟踪以及性能指标测试五个流程步骤配合,取代传统的交互式立体视频系统管理方式,采用人脸检测和跟踪相结合的方式,实现对任意时刻观众人脸的位置进行捕捉定位的效果,对观众提供最佳视点数据支持、高质量立体交互效果和平滑的码流切换能力,降低对网络带宽资源难度的同时,也提升了观众对影视视频的观感效果,在现有的网络环境下得以实现。
实施例2
请参阅图1-图3,本发明提供一种技术方案:一种影视视频立体交互服务管理方法,包括如下步骤:
步骤一、框架构建:首先采用H.264标准编码器对X个视点的视频数据进行编码并将X路码流存储在视频服务器端,在观众端,对人脸进行实时的检测与跟踪,并将当前时刻的人脸位置信息反馈至视频服务器端,视频服务器根据观众反馈回来的位置信息,自适应选择与人脸位置最匹配的两路视点码流从相应的码流中找到切入点读取码流数据进行传输;
步骤二、多视点视频编解码:先采用两路视点视频来获得影视视频的立体画面,再基于H.264标准编码器和MVC相结合的方式对立体画面捕捉的多个视点进行先随机访问,再对应编码,后随之解码,并消除立体画面捕捉的多个视点中的空间冗余;
步骤三、码流的切换和同步:再借助多部摄像机以平行直线的方式对同一影视拍摄现场场景同时进行采集,且多部摄像机沿着影视拍摄现场场形成多视点摄像机阵列,各部摄像机的焦距需提前严格校准,其中任意相邻的两部摄像机之间的光心距离为人眼间距,并形成立体视频成像的基本单元,在步骤三码流的切换和同步过程中,根据多视点立体视频采集模型和双目视差原理可知:当某时刻人眼位置G位于中间两组摄像机a和b间隔区域中范围时,与之相对应的立体视频就是Va和Vb,若观众人脸位置发生转换位移时,立即根据观众人脸位置发生的位移形态,自适应的由符合当前位移形态的摄像机选择匹配码流并向视频服务器和观众端进行传输,选择匹配的码流切换包括时域方向和视点方向的同步切换,所谓时域和视点的同步切换是指当发生码流切换时既要保证视点间的平滑过渡,又要保证立体视频内容在播放次序上的连续性,不能让人眼察觉到播放内容上明显的跨越,满足观众人脸转换位移后位置的精准预判定位需求,同时也提高码流切换平滑度,增加观众对影视视频视点的感受;
步骤四、人脸的检测和跟踪:为了确认某一时刻观众对影视视频的观看视角,需在观众端配备专用视频摄像头,用于观众人脸的检测和跟踪工作,且该专用视频摄像头需要提前固定好,则专用视频摄像头对人脸的监控范围涵盖一个固定宽度大小的二维场景,且该固定宽度大小的二维场景范围大于人脸的面积,在步骤四人脸的检测和跟踪过程中,当由X台摄像机组成的多视点摄像机阵列以固定间距水平排成一列,若转换到多视点视频拍摄场景时,该专用视频摄像头的二维监控场景一定程度上等效于多视点摄像机阵列平面,假设某一时刻检测到观众人脸位置是处在监控场景的Q(x,y)处对于多视点视频拍摄场景来说,则该时刻观众的位置等效于处在Q(x,y)处,则该角度下最匹配的左右两路视频为Vx和Vy,根据这一思路观众端对人脸进行实时检测与跟踪实际上是判定人脸位置在二维监控场景中所处的区域M,且M∈(0,X-1),针对于现实生活中观众人脸姿态复杂多变的情况时,人脸的检测和跟踪方式采用多姿态人脸检测和多姿态人脸跟踪算法进行对应捕捉,且专用视频摄像头应对姿态复杂多变的观众人脸监控时,预先对观众人脸的图像序列进行采集,再将采集的图像序列按照帧数类型分为检测帧和跟踪帧,针对检测帧,可直接借助人脸检测算法定位出图像中观众人脸位置,并作为跟踪帧的参考图像,对于跟踪帧,可采用背景差、肤色分割和前帧参考形式快速预判出观众人脸的下一步转换区域,再用人脸检测算子定位出观众人脸的下一步转换位置,由于立体视频播放器需要提供数据流的接收、同步解码和立体视频对的同步显示等功能,为了确保每个环节不会出现差错,为此,在视频服务器端和观众端建立一道数据缓冲区,视频服务器端在读取视点流数据之后并不直接发送,而是先将视点ID、帧类型等头信息添加在视频流数据之前,依照左右视点帧排序后写入发送缓冲序列再进行发送,其中头长度包括8字节,前2个字节用来定义帧所在视点ID,字节0-1=01表示左视点ID,字节0-1=10表示右视点ID,字节2-3表示帧类型,字节4-7主要用于扩展功能的预留位,在观众端收到网络传输数据包后,先去掉包头将两路视频数据分离出来,再分别写入对应的解码环形队列缓冲器中,最后进行解码和同步显示,观众端再以多线程的方式处理数据的收发﹑解码、显示以及人脸检测跟踪等流程工作,提高人脸的检测和跟踪的灵敏度和实时性,满足现实生活中姿态复杂多变的观众脸部位置的定位需求,同时也在视频服务器端和观众端建立一道数据缓冲区,来提高视点数据在收发﹑解码、显示以及人脸检测跟踪等流程的顺畅性。
步骤五、性能指标测试:先对多姿态状态下人脸的检测和跟踪结果进行测试,在步骤五性能指标测试过程中,检测帧的频率根据不同影视应用场景进行预先灵活设定,再对每10帧采集的人脸图像中插入1幅检测帧,经过人脸检测算法计算可得,在1s内即可完成观众人脸所有姿态位置的预判响应,提高多姿态状态下人脸的检测和跟踪结果的计算灵敏度和高响应性,缩短多姿态状态下人脸的检测和跟踪的计算用时,满足多姿态状态下人脸的检测和跟踪的实际需求,再对各个多视点视频序列进行测试,且各个多视点视频序列项目包括建立连接并初始化、观众端初始数据缓冲延时、观众端人脸检测响应、视频服务器端视点切换交互响应、观众端帧数据解码时长以及观众端左右视点播放时长,建立连接并初始化、观众端初始数据缓冲延时、观众端人脸检测响应、视频服务器端视点切换交互响应、观众端帧数据解码时长以及观众端左右视点播放时长项目的测试画面分辨率包括640*480、320*240和1024*768三种形式,且画面测试帧数为250,对建立连接并初始化、观众端初始数据缓冲延时、观众端人脸检测响应、视频服务器端视点切换交互响应、观众端帧数据解码时长以及观众端左右视点播放时长测试时,采用10组摄像机以直线排列采集方式对测试画面进行逐个项目测试,且每组摄像机之间的间隔为20cm,并用H.264编码器对各测试序列的各路视频进行独立编码,编码完成之后的码流再存储在视频服务器的硬盘内,完成建立连接并初始化、观众端初始数据缓冲延时、观众端人脸检测响应、视频服务器端视点切换交互响应、观众端帧数据解码时长以及观众端左右视点播放时长项目的测试工作,缩短建立连接并初始化、观众端初始数据缓冲延时、观众端人脸检测响应、视频服务器端视点切换交互响应、观众端帧数据解码时长以及观众端左右视点播放时长项目的响应时长,降低延迟,提高影视视频的流畅性,进一步增加观众对影视视频的观感,通过框架构建、多视点视频编解码、码流的切换和同步、人脸的检测和跟踪以及性能指标测试五个流程步骤配合,取代传统的交互式立体视频系统管理方式,采用人脸检测和跟踪相结合的方式,实现对任意时刻观众人脸的位置进行捕捉定位的效果,对观众提供最佳视点数据支持、高质量立体交互效果和平滑的码流切换能力,降低对网络带宽资源难度的同时,也提升了观众对影视视频的观感效果,在现有的网络环境下得以实现。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。

Claims (9)

1.一种影视视频立体交互服务管理方法,其特征在于:包括如下步骤:
步骤一、框架构建:首先采用H.264标准编码器对X个视点的视频数据进行编码并将X路码流存储在视频服务器端,在观众端,对人脸进行实时的检测与跟踪,并将当前时刻的人脸位置信息反馈至视频服务器端,视频服务器根据观众反馈回来的位置信息,自适应选择与人脸位置最匹配的两路视点码流从相应的码流中找到切入点读取码流数据进行传输;
步骤二、多视点视频编解码:先采用两路视点视频来获得影视视频的立体画面,再基于H.264标准编码器和MVC相结合的方式对立体画面捕捉的多个视点进行先随机访问,再对应编码,后随之解码,并消除立体画面捕捉的多个视点中的空间冗余;
步骤三、码流的切换和同步:再借助多部摄像机以平行直线的方式对同一影视拍摄现场场景同时进行采集,且多部摄像机沿着影视拍摄现场场形成多视点摄像机阵列,各部摄像机的焦距需提前严格校准,其中任意相邻的两部摄像机之间的光心距离为人眼间距,并形成立体视频成像的基本单元;
步骤四、人脸的检测和跟踪:为了确认某一时刻观众对影视视频的观看视角,需在观众端配备专用视频摄像头,用于观众人脸的检测和跟踪工作,且该专用视频摄像头需要提前固定好,则专用视频摄像头对人脸的监控范围涵盖一个固定宽度大小的二维场景,且该固定宽度大小的二维场景范围大于人脸的面积。
步骤五、性能指标测试:先对多姿态状态下人脸的检测和跟踪结果进行测试,再对各个多视点视频序列进行测试,且各个多视点视频序列项目包括建立连接并初始化、观众端初始数据缓冲延时、观众端人脸检测响应、视频服务器端视点切换交互响应、观众端帧数据解码时长以及观众端左右视点播放时长。
2.根据权利要求1所述的一种影视视频立体交互服务管理方法,其特征在于:所述在步骤三码流的切换和同步过程中,根据多视点立体视频采集模型和双目视差原理可知:当某时刻人眼位置G位于中间两组摄像机a和b间隔区域中范围时,与之相对应的立体视频就是Va和Vb,若观众人脸位置发生转换位移时,立即根据观众人脸位置发生的位移形态,自适应的由符合当前位移形态的摄像机选择匹配码流并向视频服务器和观众端进行传输。
3.根据权利要求2所述的一种影视视频立体交互服务管理方法,其特征在于:所述在步骤三码流的切换和同步过程中,选择匹配的码流切换包括时域方向和视点方向的同步切换,所谓时域和视点的同步切换是指当发生码流切换时既要保证视点间的平滑过渡,又要保证立体视频内容在播放次序上的连续性,不能让人眼察觉到播放内容上明显的跨越。
4.根据权利要求1所述的一种影视视频立体交互服务管理方法,其特征在于:所述在步骤四人脸的检测和跟踪过程中,当由X台摄像机组成的多视点摄像机阵列以固定间距水平排成一列,若转换到多视点视频拍摄场景时,该专用视频摄像头的二维监控场景一定程度上等效于多视点摄像机阵列平面,假设某一时刻检测到观众人脸位置是处在监控场景的Q(x,y)处对于多视点视频拍摄场景来说,则该时刻观众的位置等效于处在Q(x,y)处,则该角度下最匹配的左右两路视频为Vx和Vy,根据这一思路观众端对人脸进行实时检测与跟踪实际上是判定人脸位置在二维监控场景中所处的区域M,且M∈(0,X-1)。
5.根据权利要求1所述的一种影视视频立体交互服务管理方法,其特征在于:所述在步骤四人脸的检测和跟踪过程中,针对于现实生活中观众人脸姿态复杂多变的情况时,人脸的检测和跟踪方式采用多姿态人脸检测和多姿态人脸跟踪算法进行对应捕捉,且专用视频摄像头应对姿态复杂多变的观众人脸监控时,预先对观众人脸的图像序列进行采集,再将采集的图像序列按照帧数类型分为检测帧和跟踪帧,针对检测帧,可直接借助人脸检测算法定位出图像中观众人脸位置,并作为跟踪帧的参考图像,对于跟踪帧,可采用背景差、肤色分割和前帧参考形式快速预判出观众人脸的下一步转换区域,再用人脸检测算子定位出观众人脸的下一步转换位置。
6.根据权利要求1所述的一种影视视频立体交互服务管理方法,其特征在于:所述在步骤四人脸的检测和跟踪过程中,由于立体视频播放器需要提供数据流的接收、同步解码和立体视频对的同步显示等功能,为了确保每个环节不会出现差错,为此,在视频服务器端和观众端建立一道数据缓冲区,视频服务器端在读取视点流数据之后并不直接发送,而是先将视点ID、帧类型等头信息添加在视频流数据之前,依照左右视点帧排序后写入发送缓冲序列再进行发送,其中头长度包括8字节,前2个字节用来定义帧所在视点ID,字节0-1=01表示左视点ID,字节0-1=10表示右视点ID,字节2-3表示帧类型,字节4-7主要用于扩展功能的预留位,在观众端收到网络传输数据包后,先去掉包头将两路视频数据分离出来,再分别写入对应的解码环形队列缓冲器中,最后进行解码和同步显示,观众端再以多线程的方式处理数据的收发﹑解码、显示以及人脸检测跟踪等流程工作。
7.根据权利要求1所述的一种影视视频立体交互服务管理方法,其特征在于:所述在步骤五性能指标测试过程中,检测帧的频率根据不同影视应用场景进行预先灵活设定,再对每10帧采集的人脸图像中插入1幅检测帧,经过人脸检测算法计算可得,在1s内即可完成观众人脸所有姿态位置的预判响应。
8.根据权利要求1所述的一种影视视频立体交互服务管理方法,其特征在于:所述在步骤五性能指标测试过程中,建立连接并初始化、观众端初始数据缓冲延时、观众端人脸检测响应、视频服务器端视点切换交互响应、观众端帧数据解码时长以及观众端左右视点播放时长项目的测试画面分辨率包括640*480、320*240和1024*768三种形式,且画面测试帧数为250。
9.根据权利要求8所述的一种影视视频立体交互服务管理方法,其特征在于:所述在步骤五性能指标测试过程中,对建立连接并初始化、观众端初始数据缓冲延时、观众端人脸检测响应、视频服务器端视点切换交互响应、观众端帧数据解码时长以及观众端左右视点播放时长测试时,采用10组摄像机以直线排列采集方式对测试画面进行逐个项目测试,且每组摄像机之间的间隔为20cm,并用H.264编码器对各测试序列的各路视频进行独立编码,编码完成之后的码流再存储在视频服务器的硬盘内。
CN202310233222.7A 2023-03-13 2023-03-13 一种影视视频立体交互服务管理方法 Pending CN116320506A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310233222.7A CN116320506A (zh) 2023-03-13 2023-03-13 一种影视视频立体交互服务管理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310233222.7A CN116320506A (zh) 2023-03-13 2023-03-13 一种影视视频立体交互服务管理方法

Publications (1)

Publication Number Publication Date
CN116320506A true CN116320506A (zh) 2023-06-23

Family

ID=86833757

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310233222.7A Pending CN116320506A (zh) 2023-03-13 2023-03-13 一种影视视频立体交互服务管理方法

Country Status (1)

Country Link
CN (1) CN116320506A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116668806A (zh) * 2023-07-25 2023-08-29 高新兴智联科技股份有限公司 一种播放端添加目标跟踪标记的方法和装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116668806A (zh) * 2023-07-25 2023-08-29 高新兴智联科技股份有限公司 一种播放端添加目标跟踪标记的方法和装置
CN116668806B (zh) * 2023-07-25 2023-10-27 高新兴智联科技股份有限公司 一种播放端添加目标跟踪标记的方法和装置

Similar Documents

Publication Publication Date Title
Huynh-Thu et al. The importance of visual attention in improving the 3D-TV viewing experience: Overview and new perspectives
US6496598B1 (en) Image processing method and apparatus
US8218855B2 (en) Method and apparatus for receiving multiview camera parameters for stereoscopic image, and method and apparatus for transmitting multiview camera parameters for stereoscopic image
JP5230892B2 (ja) 立体映像シーケンス符号化システムおよび方法
US9161023B2 (en) Method and system for response time compensation for 3D video processing
US20110157315A1 (en) Interpolation of three-dimensional video content
WO2014100020A1 (en) Managing 3d edge effects on autostereoscopic displays
CN115639976B (zh) 一种虚拟现实内容多模式多角度同步展示方法及系统
CN116320506A (zh) 一种影视视频立体交互服务管理方法
KR20110108551A (ko) 다시점 입체 동영상 송/수신 장치 및 방법
JP2016158213A (ja) 要素画像群生成装置及びそのプログラム、並びにデジタル放送受信装置
CN103051866B (zh) 网络3d 视频监控系统、方法和视频处理平台
US11010923B2 (en) Image encoding method and technical equipment for the same
CN114040184A (zh) 图像显示方法、系统、存储介质及计算机程序产品
KR101803475B1 (ko) 초다시점 콘텐츠 생성 시스템
Wilczewski Analysis of content quality evaluation within 3DTV service distribution systems
JPH11103473A (ja) 立体映像表示装置
KR101433082B1 (ko) 2차원 영상과 3차원 영상의 중간 정도 느낌을 주는 영상 변환 및 재생 방법
KR20180059281A (ko) 타임 슬라이스 영상을 제공하는 사용자 단말 및 영상 제공 서버
US20130050436A1 (en) Method and system for reproduction of 3d image contents
Gutiérrez Sánchez Analysis of quality of experience in 3D video systems
TW202310614A (zh) 影像產生
Kim High efficient 3D vision system using simplification of stereo image rectification structure
Hasan et al. Survey on Error Concealment Strategies and Subjective Testing of 3D Videos
Onural Progress in European 3DTV research

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination