CN116320506A - 一种影视视频立体交互服务管理方法 - Google Patents
一种影视视频立体交互服务管理方法 Download PDFInfo
- Publication number
- CN116320506A CN116320506A CN202310233222.7A CN202310233222A CN116320506A CN 116320506 A CN116320506 A CN 116320506A CN 202310233222 A CN202310233222 A CN 202310233222A CN 116320506 A CN116320506 A CN 116320506A
- Authority
- CN
- China
- Prior art keywords
- video
- face
- audience
- tracking
- detection
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000003993 interaction Effects 0.000 title claims abstract description 35
- 238000007726 management method Methods 0.000 title description 8
- 238000001514 detection method Methods 0.000 claims abstract description 74
- 238000000034 method Methods 0.000 claims abstract description 43
- 238000012360 testing method Methods 0.000 claims abstract description 37
- 238000011897 real-time detection Methods 0.000 claims abstract description 8
- 230000004044 response Effects 0.000 claims description 27
- 230000008569 process Effects 0.000 claims description 22
- 238000012544 monitoring process Methods 0.000 claims description 15
- 230000003139 buffering effect Effects 0.000 claims description 12
- 230000001360 synchronised effect Effects 0.000 claims description 7
- 238000006243 chemical reaction Methods 0.000 claims description 6
- 230000005540 biological transmission Effects 0.000 claims description 5
- 238000003384 imaging method Methods 0.000 claims description 5
- 230000003287 optical effect Effects 0.000 claims description 4
- 230000011218 segmentation Effects 0.000 claims description 3
- 230000007704 transition Effects 0.000 claims description 3
- 238000006073 displacement reaction Methods 0.000 claims description 2
- 238000012163 sequencing technique Methods 0.000 claims description 2
- 230000000694 effects Effects 0.000 abstract description 13
- 230000002452 interceptive effect Effects 0.000 abstract description 8
- 238000010276 construction Methods 0.000 abstract description 4
- 230000000007 visual effect Effects 0.000 abstract description 3
- 238000005516 engineering process Methods 0.000 description 6
- 238000012545 processing Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 210000003128 head Anatomy 0.000 description 2
- 230000035945 sensitivity Effects 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000005538 encapsulation Methods 0.000 description 1
- 210000000887 face Anatomy 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 230000002688 persistence Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000008093 supporting effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/161—Detection; Localisation; Normalisation
- G06V40/166—Detection; Localisation; Normalisation using acquisition arrangements
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N13/00—Stereoscopic video systems; Multi-view video systems; Details thereof
- H04N13/10—Processing, recording or transmission of stereoscopic or multi-view image signals
- H04N13/106—Processing image signals
- H04N13/111—Transformation of image signals corresponding to virtual viewpoints, e.g. spatial image interpolation
- H04N13/117—Transformation of image signals corresponding to virtual viewpoints, e.g. spatial image interpolation the virtual viewpoint locations being selected by the viewers or determined by viewer tracking
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N13/00—Stereoscopic video systems; Multi-view video systems; Details thereof
- H04N13/10—Processing, recording or transmission of stereoscopic or multi-view image signals
- H04N13/106—Processing image signals
- H04N13/161—Encoding, multiplexing or demultiplexing different image signal components
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N17/00—Diagnosis, testing or measuring for television systems or their details
- H04N17/004—Diagnosis, testing or measuring for television systems or their details for digital television systems
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/50—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
- H04N19/597—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding specially adapted for multi-view video sequence encoding
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/21—Server components or server architectures
- H04N21/218—Source of audio or video content, e.g. local disk arrays
- H04N21/21805—Source of audio or video content, e.g. local disk arrays enabling multiple viewpoints, e.g. using a plurality of cameras
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/25—Management operations performed by the server for facilitating the content distribution or administrating data related to end-users or client devices, e.g. end-user or client device authentication, learning user preferences for recommending movies
- H04N21/258—Client or end-user data management, e.g. managing client capabilities, user preferences or demographics, processing of multiple end-users preferences to derive collaborative data
- H04N21/25866—Management of end-user data
- H04N21/25891—Management of end-user data being end-user preferences
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/41—Structure of client; Structure of client peripherals
- H04N21/422—Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS]
- H04N21/4223—Cameras
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/442—Monitoring of processes or resources, e.g. detecting the failure of a recording device, monitoring the downstream bandwidth, the number of times a movie has been viewed, the storage space available from the internal hard disk
- H04N21/44213—Monitoring of end-user related data
- H04N21/44218—Detecting physical presence or behaviour of the user, e.g. using sensors to detect if the user is leaving the room or changes his face expression during a TV program
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Databases & Information Systems (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Social Psychology (AREA)
- Human Computer Interaction (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Computer Graphics (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Computer Networks & Wireless Communication (AREA)
- Biomedical Technology (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
- Testing, Inspecting, Measuring Of Stereoscopic Televisions And Televisions (AREA)
Abstract
本发明公开了一种影视视频立体交互服务管理方法,包括如下步骤:步骤一、框架构建:首先采用H.264标准编码器对X个视点的视频数据进行编码并将X路码流存储在视频服务器端,在观众端,对人脸进行实时的检测与跟踪,通过框架构建、多视点视频编解码、码流的切换和同步、人脸的检测和跟踪以及性能指标测试五个流程步骤配合,取代传统的交互式立体视频系统管理方式,采用人脸检测和跟踪相结合的方式,实现对任意时刻观众人脸的位置进行捕捉定位的效果,对观众提供最佳视点数据支持、高质量立体交互效果和平滑的码流切换能力,降低对网络带宽资源难度的同时,也提升了观众对影视视频的观感效果,在现有的网络环境下得以实现。
Description
技术领域
本发明涉及影视视频立体交互服务管理技术领域,具体为一种影视视频立体交互服务管理方法。
背景技术
影视是以拷贝、磁带、胶片、存储器等为载体,以银幕、屏幕放映为目的,从而实现视觉与听觉综合观赏的艺术形式,是现代艺术的综合形态,包含了电影、电视剧、节目、动画等内容,视频泛指将一系列静态影像以电信号的方式加以捕捉、记录、处理、储存、传送与重现的各种技术,连续的图像变化每秒超过24帧画面以上时,根据视觉暂留原理,人眼无法辨别单幅的静态画面;看上去是平滑连续的视觉效果,这样连续的画面叫做视频,视频技术最早是为了电视系统而发展,但现在已经发展为各种不同的格式以利消费者将视频记录下来,网络技术的发达也促使视频的纪录片段以串流媒体的形式存在于因特网之上并可被电脑接收与播放,视频与电影属于不同的技术,后者是利用照相术将动态的影像捕捉为一系列的静态照片。
交互式立体视频技术是视频处理领域中的一种全新应用通过在场景中的不同角度放置多台摄像机对同一场景记录下多个视点的视频数据允许观众自主地选择观看视角以获得最佳的观看效果,为提供这种交互能力,交互式立体视频系统必须能实时确定观众的观看角度或者位置信息,以选择与观众观看角度相匹配的视频流数据进行相应处理。
为满足多个视点视频数据传输和交互要求,传统的交互式立体视频系统大多是先在服务器端将多视点视频数据预先编码,然后将所有视点的数据都传送到远程的观众端,由观众端根据观众交互请求选择相应的两路解码视频数据进行播放,然而,在当前软硬件条件下,这种方案将对网络带宽资源提出极高的要求,在现有的网络环境下难以实现,不能采用人脸检测和跟踪相结合的方式,对任意时刻观众人脸的位置进行捕捉定位,对观众提供不了最佳视点数据支持、高质量立体交互效果和平滑的码流切换能力,增加对网络带宽资源难度的同时,也降低影视视频的观感效果,为此,提出影视视频立体交互服务管理方法。
发明内容
本发明的目的在于提供影视视频立体交互服务管理方法,以解决上述背景技术中提出的不能采用人脸检测和跟踪相结合的方式,对任意时刻观众人脸的位置进行捕捉定位,对观众提供不了最佳视点数据支持、高质量立体交互效果和平滑的码流切换能力,增加对网络带宽资源难度的同时,也降低影视视频的观感效果的问题。
为实现上述目的,本发明提供如下技术方案:一种影视视频立体交互服务管理方法,包括如下步骤:
步骤一、框架构建:首先采用H.264标准编码器对X个视点的视频数据进行编码并将X路码流存储在视频服务器端,在观众端,对人脸进行实时的检测与跟踪,并将当前时刻的人脸位置信息反馈至视频服务器端,视频服务器根据观众反馈回来的位置信息,自适应选择与人脸位置最匹配的两路视点码流从相应的码流中找到切入点读取码流数据进行传输;
步骤二、多视点视频编解码:先采用两路视点视频来获得影视视频的立体画面,再基于H.264标准编码器和MVC相结合的方式对立体画面捕捉的多个视点进行先随机访问,再对应编码,后随之解码,并消除立体画面捕捉的多个视点中的空间冗余;
步骤三、码流的切换和同步:再借助多部摄像机以平行直线的方式对同一影视拍摄现场场景同时进行采集,且多部摄像机沿着影视拍摄现场场形成多视点摄像机阵列,各部摄像机的焦距需提前严格校准,其中任意相邻的两部摄像机之间的光心距离为人眼间距,并形成立体视频成像的基本单元;
步骤四、人脸的检测和跟踪:为了确认某一时刻观众对影视视频的观看视角,需在观众端配备专用视频摄像头,用于观众人脸的检测和跟踪工作,且该专用视频摄像头需要提前固定好,则专用视频摄像头对人脸的监控范围涵盖一个固定宽度大小的二维场景,且该固定宽度大小的二维场景范围大于人脸的面积。
步骤五、性能指标测试:先对多姿态状态下人脸的检测和跟踪结果进行测试,再对各个多视点视频序列进行测试,且各个多视点视频序列项目包括建立连接并初始化、观众端初始数据缓冲延时、观众端人脸检测响应、视频服务器端视点切换交互响应、观众端帧数据解码时长以及观众端左右视点播放时长。
优选的,所述在步骤三码流的切换和同步过程中,根据多视点立体视频采集模型和双目视差原理可知:当某时刻人眼位置G位于中间两组摄像机a和b间隔区域中范围时,与之相对应的立体视频就是Va和Vb,若观众人脸位置发生转换位移时,立即根据观众人脸位置发生的位移形态,自适应的由符合当前位移形态的摄像机选择匹配码流并向视频服务器和观众端进行传输。
优选的,所述在步骤三码流的切换和同步过程中,选择匹配的码流切换包括时域方向和视点方向的同步切换,所谓时域和视点的同步切换是指当发生码流切换时既要保证视点间的平滑过渡,又要保证立体视频内容在播放次序上的连续性,不能让人眼察觉到播放内容上明显的跨越。
优选的,所述在步骤四人脸的检测和跟踪过程中,当由X台摄像机组成的多视点摄像机阵列以固定间距水平排成一列,若转换到多视点视频拍摄场景时,该专用视频摄像头的二维监控场景一定程度上等效于多视点摄像机阵列平面,假设某一时刻检测到观众人脸位置是处在监控场景的Q(x,y)处对于多视点视频拍摄场景来说,则该时刻观众的位置等效于处在Q(x,y)处,则该角度下最匹配的左右两路视频为Vx和Vy,根据这一思路观众端对人脸进行实时检测与跟踪实际上是判定人脸位置在二维监控场景中所处的区域M,且M∈(0,X-1)。
优选的,所述在步骤四人脸的检测和跟踪过程中,针对于现实生活中观众人脸姿态复杂多变的情况时,人脸的检测和跟踪方式采用多姿态人脸检测和多姿态人脸跟踪算法进行对应捕捉,且专用视频摄像头应对姿态复杂多变的观众人脸监控时,预先对观众人脸的图像序列进行采集,再将采集的图像序列按照帧数类型分为检测帧和跟踪帧,针对检测帧,可直接借助人脸检测算法定位出图像中观众人脸位置,并作为跟踪帧的参考图像,对于跟踪帧,可采用背景差、肤色分割和前帧参考形式快速预判出观众人脸的下一步转换区域,再用人脸检测算子定位出观众人脸的下一步转换位置。
优选的,所述在步骤四人脸的检测和跟踪过程中,由于立体视频播放器需要提供数据流的接收、同步解码和立体视频对的同步显示等功能,为了确保每个环节不会出现差错,为此,在视频服务器端和观众端建立一道数据缓冲区,视频服务器端在读取视点流数据之后并不直接发送,而是先将视点ID、帧类型等头信息添加在视频流数据之前,依照左右视点帧排序后写入发送缓冲序列再进行发送,其中头长度包括8字节,前2个字节用来定义帧所在视点ID,字节0-1=01表示左视点ID,字节0-1=10表示右视点ID,字节2-3表示帧类型,字节4-7主要用于扩展功能的预留位,在观众端收到网络传输数据包后,先去掉包头将两路视频数据分离出来,再分别写入对应的解码环形队列缓冲器中,最后进行解码和同步显示,观众端再以多线程的方式处理数据的收发﹑解码、显示以及人脸检测跟踪等流程工作。
优选的,所述在步骤五性能指标测试过程中,检测帧的频率根据不同影视应用场景进行预先灵活设定,再对每10帧采集的人脸图像中插入1幅检测帧,经过人脸检测算法计算可得,在1s内即可完成观众人脸所有姿态位置的预判响应。
优选的,所述在步骤五性能指标测试过程中,建立连接并初始化、观众端初始数据缓冲延时、观众端人脸检测响应、视频服务器端视点切换交互响应、观众端帧数据解码时长以及观众端左右视点播放时长项目的测试画面分辨率包括640*480、320*240和1024*768三种形式,且画面测试帧数为250。
优选的,所述在步骤五性能指标测试过程中,对建立连接并初始化、观众端初始数据缓冲延时、观众端人脸检测响应、视频服务器端视点切换交互响应、观众端帧数据解码时长以及观众端左右视点播放时长测试时,采用10组摄像机以直线排列采集方式对测试画面进行逐个项目测试,且每组摄像机之间的间隔为20cm,并用H.264编码器对各测试序列的各路视频进行独立编码,编码完成之后的码流再存储在视频服务器的硬盘内。
与现有技术相比,本发明的有益效果是:
本发明中,通过框架构建、多视点视频编解码、码流的切换和同步、人脸的检测和跟踪以及性能指标测试五个流程步骤配合,取代传统的交互式立体视频系统管理方式,采用人脸检测和跟踪相结合的方式,实现对任意时刻观众人脸的位置进行捕捉定位的效果,对观众提供最佳视点数据支持、高质量立体交互效果和平滑的码流切换能力,降低对网络带宽资源难度的同时,也提升了观众对影视视频的观感效果,在现有的网络环境下得以实现。
附图说明
图1为本发明的框架图;
图2为本发明的人脸检测和跟踪流程图;
图3为本发明的视频帧封装头图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例1
请参阅图1-图3,本发明提供一种技术方案:一种影视视频立体交互服务管理方法,包括如下步骤:
步骤一、框架构建:首先采用H.264标准编码器对X个视点的视频数据进行编码并将X路码流存储在视频服务器端,在观众端,对人脸进行实时的检测与跟踪,并将当前时刻的人脸位置信息反馈至视频服务器端,视频服务器根据观众反馈回来的位置信息,自适应选择与人脸位置最匹配的两路视点码流从相应的码流中找到切入点读取码流数据进行传输;
步骤二、多视点视频编解码:先采用两路视点视频来获得影视视频的立体画面,再基于H.264标准编码器和MVC相结合的方式对立体画面捕捉的多个视点进行先随机访问,再对应编码,后随之解码,并消除立体画面捕捉的多个视点中的空间冗余;
步骤三、码流的切换和同步:再借助多部摄像机以平行直线的方式对同一影视拍摄现场场景同时进行采集,且多部摄像机沿着影视拍摄现场场形成多视点摄像机阵列,各部摄像机的焦距需提前严格校准,其中任意相邻的两部摄像机之间的光心距离为人眼间距,并形成立体视频成像的基本单元;
步骤四、人脸的检测和跟踪:为了确认某一时刻观众对影视视频的观看视角,需在观众端配备专用视频摄像头,用于观众人脸的检测和跟踪工作,且该专用视频摄像头需要提前固定好,则专用视频摄像头对人脸的监控范围涵盖一个固定宽度大小的二维场景,且该固定宽度大小的二维场景范围大于人脸的面积。
步骤五、性能指标测试:先对多姿态状态下人脸的检测和跟踪结果进行测试,再对各个多视点视频序列进行测试,且各个多视点视频序列项目包括建立连接并初始化、观众端初始数据缓冲延时、观众端人脸检测响应、视频服务器端视点切换交互响应、观众端帧数据解码时长以及观众端左右视点播放时长,通过框架构建、多视点视频编解码、码流的切换和同步、人脸的检测和跟踪以及性能指标测试五个流程步骤配合,取代传统的交互式立体视频系统管理方式,采用人脸检测和跟踪相结合的方式,实现对任意时刻观众人脸的位置进行捕捉定位的效果,对观众提供最佳视点数据支持、高质量立体交互效果和平滑的码流切换能力,降低对网络带宽资源难度的同时,也提升了观众对影视视频的观感效果,在现有的网络环境下得以实现。
实施例2
请参阅图1-图3,本发明提供一种技术方案:一种影视视频立体交互服务管理方法,包括如下步骤:
步骤一、框架构建:首先采用H.264标准编码器对X个视点的视频数据进行编码并将X路码流存储在视频服务器端,在观众端,对人脸进行实时的检测与跟踪,并将当前时刻的人脸位置信息反馈至视频服务器端,视频服务器根据观众反馈回来的位置信息,自适应选择与人脸位置最匹配的两路视点码流从相应的码流中找到切入点读取码流数据进行传输;
步骤二、多视点视频编解码:先采用两路视点视频来获得影视视频的立体画面,再基于H.264标准编码器和MVC相结合的方式对立体画面捕捉的多个视点进行先随机访问,再对应编码,后随之解码,并消除立体画面捕捉的多个视点中的空间冗余;
步骤三、码流的切换和同步:再借助多部摄像机以平行直线的方式对同一影视拍摄现场场景同时进行采集,且多部摄像机沿着影视拍摄现场场形成多视点摄像机阵列,各部摄像机的焦距需提前严格校准,其中任意相邻的两部摄像机之间的光心距离为人眼间距,并形成立体视频成像的基本单元,在步骤三码流的切换和同步过程中,根据多视点立体视频采集模型和双目视差原理可知:当某时刻人眼位置G位于中间两组摄像机a和b间隔区域中范围时,与之相对应的立体视频就是Va和Vb,若观众人脸位置发生转换位移时,立即根据观众人脸位置发生的位移形态,自适应的由符合当前位移形态的摄像机选择匹配码流并向视频服务器和观众端进行传输,选择匹配的码流切换包括时域方向和视点方向的同步切换,所谓时域和视点的同步切换是指当发生码流切换时既要保证视点间的平滑过渡,又要保证立体视频内容在播放次序上的连续性,不能让人眼察觉到播放内容上明显的跨越,满足观众人脸转换位移后位置的精准预判定位需求,同时也提高码流切换平滑度,增加观众对影视视频视点的感受;
步骤四、人脸的检测和跟踪:为了确认某一时刻观众对影视视频的观看视角,需在观众端配备专用视频摄像头,用于观众人脸的检测和跟踪工作,且该专用视频摄像头需要提前固定好,则专用视频摄像头对人脸的监控范围涵盖一个固定宽度大小的二维场景,且该固定宽度大小的二维场景范围大于人脸的面积,在步骤四人脸的检测和跟踪过程中,当由X台摄像机组成的多视点摄像机阵列以固定间距水平排成一列,若转换到多视点视频拍摄场景时,该专用视频摄像头的二维监控场景一定程度上等效于多视点摄像机阵列平面,假设某一时刻检测到观众人脸位置是处在监控场景的Q(x,y)处对于多视点视频拍摄场景来说,则该时刻观众的位置等效于处在Q(x,y)处,则该角度下最匹配的左右两路视频为Vx和Vy,根据这一思路观众端对人脸进行实时检测与跟踪实际上是判定人脸位置在二维监控场景中所处的区域M,且M∈(0,X-1),针对于现实生活中观众人脸姿态复杂多变的情况时,人脸的检测和跟踪方式采用多姿态人脸检测和多姿态人脸跟踪算法进行对应捕捉,且专用视频摄像头应对姿态复杂多变的观众人脸监控时,预先对观众人脸的图像序列进行采集,再将采集的图像序列按照帧数类型分为检测帧和跟踪帧,针对检测帧,可直接借助人脸检测算法定位出图像中观众人脸位置,并作为跟踪帧的参考图像,对于跟踪帧,可采用背景差、肤色分割和前帧参考形式快速预判出观众人脸的下一步转换区域,再用人脸检测算子定位出观众人脸的下一步转换位置,由于立体视频播放器需要提供数据流的接收、同步解码和立体视频对的同步显示等功能,为了确保每个环节不会出现差错,为此,在视频服务器端和观众端建立一道数据缓冲区,视频服务器端在读取视点流数据之后并不直接发送,而是先将视点ID、帧类型等头信息添加在视频流数据之前,依照左右视点帧排序后写入发送缓冲序列再进行发送,其中头长度包括8字节,前2个字节用来定义帧所在视点ID,字节0-1=01表示左视点ID,字节0-1=10表示右视点ID,字节2-3表示帧类型,字节4-7主要用于扩展功能的预留位,在观众端收到网络传输数据包后,先去掉包头将两路视频数据分离出来,再分别写入对应的解码环形队列缓冲器中,最后进行解码和同步显示,观众端再以多线程的方式处理数据的收发﹑解码、显示以及人脸检测跟踪等流程工作,提高人脸的检测和跟踪的灵敏度和实时性,满足现实生活中姿态复杂多变的观众脸部位置的定位需求,同时也在视频服务器端和观众端建立一道数据缓冲区,来提高视点数据在收发﹑解码、显示以及人脸检测跟踪等流程的顺畅性。
步骤五、性能指标测试:先对多姿态状态下人脸的检测和跟踪结果进行测试,在步骤五性能指标测试过程中,检测帧的频率根据不同影视应用场景进行预先灵活设定,再对每10帧采集的人脸图像中插入1幅检测帧,经过人脸检测算法计算可得,在1s内即可完成观众人脸所有姿态位置的预判响应,提高多姿态状态下人脸的检测和跟踪结果的计算灵敏度和高响应性,缩短多姿态状态下人脸的检测和跟踪的计算用时,满足多姿态状态下人脸的检测和跟踪的实际需求,再对各个多视点视频序列进行测试,且各个多视点视频序列项目包括建立连接并初始化、观众端初始数据缓冲延时、观众端人脸检测响应、视频服务器端视点切换交互响应、观众端帧数据解码时长以及观众端左右视点播放时长,建立连接并初始化、观众端初始数据缓冲延时、观众端人脸检测响应、视频服务器端视点切换交互响应、观众端帧数据解码时长以及观众端左右视点播放时长项目的测试画面分辨率包括640*480、320*240和1024*768三种形式,且画面测试帧数为250,对建立连接并初始化、观众端初始数据缓冲延时、观众端人脸检测响应、视频服务器端视点切换交互响应、观众端帧数据解码时长以及观众端左右视点播放时长测试时,采用10组摄像机以直线排列采集方式对测试画面进行逐个项目测试,且每组摄像机之间的间隔为20cm,并用H.264编码器对各测试序列的各路视频进行独立编码,编码完成之后的码流再存储在视频服务器的硬盘内,完成建立连接并初始化、观众端初始数据缓冲延时、观众端人脸检测响应、视频服务器端视点切换交互响应、观众端帧数据解码时长以及观众端左右视点播放时长项目的测试工作,缩短建立连接并初始化、观众端初始数据缓冲延时、观众端人脸检测响应、视频服务器端视点切换交互响应、观众端帧数据解码时长以及观众端左右视点播放时长项目的响应时长,降低延迟,提高影视视频的流畅性,进一步增加观众对影视视频的观感,通过框架构建、多视点视频编解码、码流的切换和同步、人脸的检测和跟踪以及性能指标测试五个流程步骤配合,取代传统的交互式立体视频系统管理方式,采用人脸检测和跟踪相结合的方式,实现对任意时刻观众人脸的位置进行捕捉定位的效果,对观众提供最佳视点数据支持、高质量立体交互效果和平滑的码流切换能力,降低对网络带宽资源难度的同时,也提升了观众对影视视频的观感效果,在现有的网络环境下得以实现。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。
Claims (9)
1.一种影视视频立体交互服务管理方法,其特征在于:包括如下步骤:
步骤一、框架构建:首先采用H.264标准编码器对X个视点的视频数据进行编码并将X路码流存储在视频服务器端,在观众端,对人脸进行实时的检测与跟踪,并将当前时刻的人脸位置信息反馈至视频服务器端,视频服务器根据观众反馈回来的位置信息,自适应选择与人脸位置最匹配的两路视点码流从相应的码流中找到切入点读取码流数据进行传输;
步骤二、多视点视频编解码:先采用两路视点视频来获得影视视频的立体画面,再基于H.264标准编码器和MVC相结合的方式对立体画面捕捉的多个视点进行先随机访问,再对应编码,后随之解码,并消除立体画面捕捉的多个视点中的空间冗余;
步骤三、码流的切换和同步:再借助多部摄像机以平行直线的方式对同一影视拍摄现场场景同时进行采集,且多部摄像机沿着影视拍摄现场场形成多视点摄像机阵列,各部摄像机的焦距需提前严格校准,其中任意相邻的两部摄像机之间的光心距离为人眼间距,并形成立体视频成像的基本单元;
步骤四、人脸的检测和跟踪:为了确认某一时刻观众对影视视频的观看视角,需在观众端配备专用视频摄像头,用于观众人脸的检测和跟踪工作,且该专用视频摄像头需要提前固定好,则专用视频摄像头对人脸的监控范围涵盖一个固定宽度大小的二维场景,且该固定宽度大小的二维场景范围大于人脸的面积。
步骤五、性能指标测试:先对多姿态状态下人脸的检测和跟踪结果进行测试,再对各个多视点视频序列进行测试,且各个多视点视频序列项目包括建立连接并初始化、观众端初始数据缓冲延时、观众端人脸检测响应、视频服务器端视点切换交互响应、观众端帧数据解码时长以及观众端左右视点播放时长。
2.根据权利要求1所述的一种影视视频立体交互服务管理方法,其特征在于:所述在步骤三码流的切换和同步过程中,根据多视点立体视频采集模型和双目视差原理可知:当某时刻人眼位置G位于中间两组摄像机a和b间隔区域中范围时,与之相对应的立体视频就是Va和Vb,若观众人脸位置发生转换位移时,立即根据观众人脸位置发生的位移形态,自适应的由符合当前位移形态的摄像机选择匹配码流并向视频服务器和观众端进行传输。
3.根据权利要求2所述的一种影视视频立体交互服务管理方法,其特征在于:所述在步骤三码流的切换和同步过程中,选择匹配的码流切换包括时域方向和视点方向的同步切换,所谓时域和视点的同步切换是指当发生码流切换时既要保证视点间的平滑过渡,又要保证立体视频内容在播放次序上的连续性,不能让人眼察觉到播放内容上明显的跨越。
4.根据权利要求1所述的一种影视视频立体交互服务管理方法,其特征在于:所述在步骤四人脸的检测和跟踪过程中,当由X台摄像机组成的多视点摄像机阵列以固定间距水平排成一列,若转换到多视点视频拍摄场景时,该专用视频摄像头的二维监控场景一定程度上等效于多视点摄像机阵列平面,假设某一时刻检测到观众人脸位置是处在监控场景的Q(x,y)处对于多视点视频拍摄场景来说,则该时刻观众的位置等效于处在Q(x,y)处,则该角度下最匹配的左右两路视频为Vx和Vy,根据这一思路观众端对人脸进行实时检测与跟踪实际上是判定人脸位置在二维监控场景中所处的区域M,且M∈(0,X-1)。
5.根据权利要求1所述的一种影视视频立体交互服务管理方法,其特征在于:所述在步骤四人脸的检测和跟踪过程中,针对于现实生活中观众人脸姿态复杂多变的情况时,人脸的检测和跟踪方式采用多姿态人脸检测和多姿态人脸跟踪算法进行对应捕捉,且专用视频摄像头应对姿态复杂多变的观众人脸监控时,预先对观众人脸的图像序列进行采集,再将采集的图像序列按照帧数类型分为检测帧和跟踪帧,针对检测帧,可直接借助人脸检测算法定位出图像中观众人脸位置,并作为跟踪帧的参考图像,对于跟踪帧,可采用背景差、肤色分割和前帧参考形式快速预判出观众人脸的下一步转换区域,再用人脸检测算子定位出观众人脸的下一步转换位置。
6.根据权利要求1所述的一种影视视频立体交互服务管理方法,其特征在于:所述在步骤四人脸的检测和跟踪过程中,由于立体视频播放器需要提供数据流的接收、同步解码和立体视频对的同步显示等功能,为了确保每个环节不会出现差错,为此,在视频服务器端和观众端建立一道数据缓冲区,视频服务器端在读取视点流数据之后并不直接发送,而是先将视点ID、帧类型等头信息添加在视频流数据之前,依照左右视点帧排序后写入发送缓冲序列再进行发送,其中头长度包括8字节,前2个字节用来定义帧所在视点ID,字节0-1=01表示左视点ID,字节0-1=10表示右视点ID,字节2-3表示帧类型,字节4-7主要用于扩展功能的预留位,在观众端收到网络传输数据包后,先去掉包头将两路视频数据分离出来,再分别写入对应的解码环形队列缓冲器中,最后进行解码和同步显示,观众端再以多线程的方式处理数据的收发﹑解码、显示以及人脸检测跟踪等流程工作。
7.根据权利要求1所述的一种影视视频立体交互服务管理方法,其特征在于:所述在步骤五性能指标测试过程中,检测帧的频率根据不同影视应用场景进行预先灵活设定,再对每10帧采集的人脸图像中插入1幅检测帧,经过人脸检测算法计算可得,在1s内即可完成观众人脸所有姿态位置的预判响应。
8.根据权利要求1所述的一种影视视频立体交互服务管理方法,其特征在于:所述在步骤五性能指标测试过程中,建立连接并初始化、观众端初始数据缓冲延时、观众端人脸检测响应、视频服务器端视点切换交互响应、观众端帧数据解码时长以及观众端左右视点播放时长项目的测试画面分辨率包括640*480、320*240和1024*768三种形式,且画面测试帧数为250。
9.根据权利要求8所述的一种影视视频立体交互服务管理方法,其特征在于:所述在步骤五性能指标测试过程中,对建立连接并初始化、观众端初始数据缓冲延时、观众端人脸检测响应、视频服务器端视点切换交互响应、观众端帧数据解码时长以及观众端左右视点播放时长测试时,采用10组摄像机以直线排列采集方式对测试画面进行逐个项目测试,且每组摄像机之间的间隔为20cm,并用H.264编码器对各测试序列的各路视频进行独立编码,编码完成之后的码流再存储在视频服务器的硬盘内。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310233222.7A CN116320506A (zh) | 2023-03-13 | 2023-03-13 | 一种影视视频立体交互服务管理方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310233222.7A CN116320506A (zh) | 2023-03-13 | 2023-03-13 | 一种影视视频立体交互服务管理方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116320506A true CN116320506A (zh) | 2023-06-23 |
Family
ID=86833757
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310233222.7A Pending CN116320506A (zh) | 2023-03-13 | 2023-03-13 | 一种影视视频立体交互服务管理方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116320506A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116668806A (zh) * | 2023-07-25 | 2023-08-29 | 高新兴智联科技股份有限公司 | 一种播放端添加目标跟踪标记的方法和装置 |
-
2023
- 2023-03-13 CN CN202310233222.7A patent/CN116320506A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116668806A (zh) * | 2023-07-25 | 2023-08-29 | 高新兴智联科技股份有限公司 | 一种播放端添加目标跟踪标记的方法和装置 |
CN116668806B (zh) * | 2023-07-25 | 2023-10-27 | 高新兴智联科技股份有限公司 | 一种播放端添加目标跟踪标记的方法和装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Huynh-Thu et al. | The importance of visual attention in improving the 3D-TV viewing experience: Overview and new perspectives | |
US6496598B1 (en) | Image processing method and apparatus | |
US8218855B2 (en) | Method and apparatus for receiving multiview camera parameters for stereoscopic image, and method and apparatus for transmitting multiview camera parameters for stereoscopic image | |
JP5230892B2 (ja) | 立体映像シーケンス符号化システムおよび方法 | |
US9161023B2 (en) | Method and system for response time compensation for 3D video processing | |
US20110157315A1 (en) | Interpolation of three-dimensional video content | |
WO2014100020A1 (en) | Managing 3d edge effects on autostereoscopic displays | |
CN115639976B (zh) | 一种虚拟现实内容多模式多角度同步展示方法及系统 | |
CN116320506A (zh) | 一种影视视频立体交互服务管理方法 | |
KR20110108551A (ko) | 다시점 입체 동영상 송/수신 장치 및 방법 | |
JP2016158213A (ja) | 要素画像群生成装置及びそのプログラム、並びにデジタル放送受信装置 | |
CN103051866B (zh) | 网络3d 视频监控系统、方法和视频处理平台 | |
US11010923B2 (en) | Image encoding method and technical equipment for the same | |
CN114040184A (zh) | 图像显示方法、系统、存储介质及计算机程序产品 | |
KR101803475B1 (ko) | 초다시점 콘텐츠 생성 시스템 | |
Wilczewski | Analysis of content quality evaluation within 3DTV service distribution systems | |
JPH11103473A (ja) | 立体映像表示装置 | |
KR101433082B1 (ko) | 2차원 영상과 3차원 영상의 중간 정도 느낌을 주는 영상 변환 및 재생 방법 | |
KR20180059281A (ko) | 타임 슬라이스 영상을 제공하는 사용자 단말 및 영상 제공 서버 | |
US20130050436A1 (en) | Method and system for reproduction of 3d image contents | |
Gutiérrez Sánchez | Analysis of quality of experience in 3D video systems | |
TW202310614A (zh) | 影像產生 | |
Kim | High efficient 3D vision system using simplification of stereo image rectification structure | |
Hasan et al. | Survey on Error Concealment Strategies and Subjective Testing of 3D Videos | |
Onural | Progress in European 3DTV research |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |