CN112468796A - 注视点生成方法、系统及设备 - Google Patents

注视点生成方法、系统及设备 Download PDF

Info

Publication number
CN112468796A
CN112468796A CN202011323366.4A CN202011323366A CN112468796A CN 112468796 A CN112468796 A CN 112468796A CN 202011323366 A CN202011323366 A CN 202011323366A CN 112468796 A CN112468796 A CN 112468796A
Authority
CN
China
Prior art keywords
video frame
data
attention
optical flow
point
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011323366.4A
Other languages
English (en)
Other versions
CN112468796B (zh
Inventor
张楠
王健宗
瞿晓阳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN202011323366.4A priority Critical patent/CN112468796B/zh
Publication of CN112468796A publication Critical patent/CN112468796A/zh
Priority to PCT/CN2021/083490 priority patent/WO2021180241A1/zh
Application granted granted Critical
Publication of CN112468796B publication Critical patent/CN112468796B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/106Processing image signals
    • H04N13/111Transformation of image signals corresponding to virtual viewpoints, e.g. spatial image interpolation
    • H04N13/117Transformation of image signals corresponding to virtual viewpoints, e.g. spatial image interpolation the virtual viewpoint locations being selected by the viewers or determined by viewer tracking
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/30Image reproducers
    • H04N13/366Image reproducers using viewer tracking
    • H04N13/383Image reproducers using viewer tracking for tracking with gaze detection, i.e. detecting the lines of sight of the viewer's eyes
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/442Monitoring of processes or resources, e.g. detecting the failure of a recording device, monitoring the downstream bandwidth, the number of times a movie has been viewed, the storage space available from the internal hard disk
    • H04N21/44213Monitoring of end-user related data
    • H04N21/44218Detecting physical presence or behaviour of the user, e.g. using sensors to detect if the user is leaving the room or changes his face expression during a TV program
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/81Monomedia components thereof
    • H04N21/816Monomedia components thereof involving special video data, e.g 3D video

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Social Psychology (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Databases & Information Systems (AREA)
  • Image Generation (AREA)
  • Processing Or Creating Images (AREA)

Abstract

本申请提供了一种注视点生成方法、系统及设备。该方法可以计算视频帧的亮度梯度数据以及光流数据,然后通过亮度梯度数据以及光流数据计算得到视频帧每个像素点的注意力质量,其中,注意力质量代表了用户对每个像素点的关注度,再通过注意力质量等数据计算得到当前视频帧的注视点坐标。从而解决了VR或AR设备普遍使用的注视点渲染技术依赖于眼动追踪仪获取注视点坐标的问题,进而降低硬件成本,减少VR或AR设备的体积和重量,提高用户的使用体验。

Description

注视点生成方法、系统及设备
技术领域
本申请涉及图像处理领域,尤其涉及一种注视点生成方法、系统及设备。
背景技术
随着虚拟现实(virtual reality,VR)、增强现实(augmented reality,AR)以及混合现实(mixed reality,MR)等技术的普及,用户对上述技术的体验要求也越来越高。因为人的视野中只有小部分被人类高度集中观察,任何超出了人眼注视区中心5度以上的东西都会逐渐降低清晰度,如果视觉系统接收到过多的信息,用户就会产生恶心或眩晕的现象。
注视点渲染技术就是可以通过注视点进行画面渲染,从而解决用户因为视觉系统接收到过多的信息而产生恶心或眩晕现象的画面处理技术。
目前的注视点渲染技术主要依靠眼动追踪仪来生成注视点坐标,需要加装额外的硬件设备,导致头戴式电子设备体积庞大,重量加重,佩戴不舒适等问题,影响用户体验,且存在额外硬件成本。
发明内容
本申请提供了一种注视点生成方法、系统及设备,该方法可以通过视频画面计算得到注视点坐标,解决了生成注视点坐标还需要使用额外的硬件设备的问题。
目标和其他目标将通过独立权利要求中的特征来达成。进一步的实现方式在从属权利要求、说明书和附图中体现。
第一方面,本申请提供了一种注视点生成方法,该方法包括以下步骤:
获取第一视频帧,该第一视频帧是用户使用VR或AR设备观看的视频帧;
确定该第一视频帧的亮度梯度数据和光流数据,其中,亮度梯度数据用于描述第一视频帧中物体的边缘特征,光流数据用于描述第一视频帧中物体的运动特征;
结合亮度梯度数据和光流数据确定第一视频帧的多个注意力质量数据,上述多个注意力质量数据用于描述用户对第一视频帧中多个像素点的关注度;
根据多个注意力质量数据生成该第一视频帧的注视点坐标。
第二方面,本申请提供了一种注视点生成系统,其特征在于,包括输入单元、计算单元。
上述输入单元用于获取第一视频帧,并将第一视频帧输入至计算单元;
上述计算单元用于确定第一视频帧的亮度梯度数据和光流数据,其中,亮度梯度数据用于描述第一视频帧中物体的边缘特征,光流数据用于描述第一视频帧中物体的运动特征;
上述计算单元还用于结合亮度梯度数据和光流数据确定第一视频帧的多个注意力质量数据,多个注意力质量数据用于描述用户对第一视频帧中多个像素点的关注度;
上述计算单元还用于根据多个注意力质量数据生成第一视频帧的注视点坐标。
第三方面,本申请提供了一种计算机设备,其特征在于,包括:处理器和存储器,上述处理器执行上述存储器中的代码执行如第一方面所描述的方法。
第四方面,本申请提供了一种计算机可读存储介质,其特征在于,包括指令,当上述指令在计算机上运行时,使得上述计算机执行如第一方面所描述的方法。
可以看到,本申请通过确定视频画面的亮度梯度数据和光流数据,再计算到体现用户关注度的注意力质量数据,进而生成注视点坐标。解决了普遍使用的注视点渲染技术依赖于眼动追踪仪获取注视点坐标的问题,进而降低硬件成本,减少VR或AR设备的体积和重量,提高用户的使用体验。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。
图1为本申请实施例提供的一种电子设备界面示意图;
图2为本申请实施例提供的注视点渲染系统的结构示意图;
图3为本申请实施例提供的注视点生成系统的边缘环境部署示意图;
图4为本申请实施例提供的渲染系统的边缘环境部署示意图;
图5为本申请实施例提供的注视点生成系统的云环境部署示意图;
图6为本申请实施例提供的注视点生成方法流程示意图;
图7为本申请实施例提供的确定注意力质量数据方法流程示意图;
图8为本申请实施例提供的一种电子设备的结构示意图。
具体实施方式
本申请以下实施例中所使用的术语只是为了描述特定实施例的目的,而并非旨在作为对本申请的限制。如在本申请的说明书和所附权利要求书中所使用的那样,单数表达形式“一个”、“一种”、“所述”、“上述”、“该”和“这一”旨在也包括复数表达形式,除非其上下文中明确地有相反指示。还应当理解,本申请中使用的术语“和/或”是指并包含一个或多个所列出项目的任何或所有可能组合。
为了便于理解本申请实施例,首先,对本申请涉及的“VR”以及“AR”应用场景进行说明。
虚拟现实技术(virtual reality,VR)是一种可以创建和体验虚拟世界的计算机仿真系统,它利用计算机生成一种模拟环境,使用户沉浸到该环境中。虚拟现实技术利用现实生活中的数据,通过计算机技术产生的电子信号,将其与各种输出设备结合使其转化为能够让人们感受到的现象,这些现象可以是现实中真真切切的物体,也可以是我们肉眼所看不到的物质,通过三维模型表现出来。
增强现实技术(Augmented Reality,AR)是一种将虚拟信息与真实世界融合的技术,增强现实技术也被称为扩增现实。AR技术是促使真实世界信息和虚拟世界信息内容之间综合在一起的较新的技术内容,将原本在现实世界的空间范围中比较难以进行体验的实体信息在电脑等科学技术的基础上,实施模拟仿真处理,将虚拟信息内容叠加在真实世界中加以有效应用,并且在这一过程中能够被人类感官所感知,从而实现超越现实的感官体验。
上述VR技术以及AR技术可以统称为混合现实技术(Mixed Reality,MR),混合现实是一组技术组合,不仅提供新的观看方法,还提供新的输入方法,而且所有方法相互结合,从而推动创新。
举例来说,如图1所示,用户使用AR设备观看到的视频画面为现实环境与虚拟信息的结合,其中,AR设备上具有可以采集现实环境的一个或者多个摄像头,用户可以使用AR设备看到现实环境为背景与虚拟信息对话框组成的画面。
随着VR以及AR等技术的设备和内容迎来发展的同时,其技术也逐渐显现出了一些缺点,而其中视频画面作为与用户接触最紧密的内容,其体验的好坏也是最容易被用户所感知。因为人眼负责观察色彩和细节的视网膜上的视锥细胞的浓度不同,在人类的视野中只有小部分被人类高度集中观察,任何超出了人眼注视区中心5度以上的东西都会逐渐降低清晰度,注视点外围则擅于获得目标的运动和对比信息。如果人眼在VR或AR设备上观看到在注视点一定范围外未降低清晰度的视频画面,用户会因为视觉系统接收到过多的信息而产生恶心或眩晕现象。如图1所示,用户可能注视的区域为虚拟信息中对话框中的内容,这一部分将被人类高度集中观察,而现实环境形成的背景将不太被用户关注。
注视点渲染技术可以减少用户因为视觉系统接收到过多的信息而产生恶心或眩晕的现象。其中,注视点渲染技术是指在视频画面中模拟人类视觉系统,通过获取视频画面中人眼的注视点坐标,并根据注视点坐标将画面中人眼注视的位置以全分辨率渲染,同时降低外围视场的渲染质量,进而提高视频画面的观看舒适度。目前的注视点渲染技术主要依靠眼动追踪仪来生成注视点坐标,其头戴式硬件设备体积庞大,重量较重,佩戴也存在不舒适的问题,极其影响用户体验,且存在额外硬件成本。
为了解决上述生成注视点坐标需要额外硬件设备的问题,本申请实施例提出一种注视点渲染系统,该系统可以根据视频画面内容生成注视点坐标,由渲染系统进行注视点渲染,从而解决上述问题。本申请对该注视点渲染系统中的功能单元的划分不做限定,可以根据需要对该注视点渲染系统中的各个单元进行增加、减少或合并。如图2所示,示例性地提供了一种功能模块的划分:注视点渲染系统由视频画面获取装置10,注视点生成系统100以及渲染系统200组成。下面分别介绍每个部分的功能。
视频画面获取装置10用于获取视频画面,所述视频画面可以是现实场景,虚拟场景,或者现实与虚拟场景的结合。举例来说,如图1所示的电子设备具有一个或者多个摄像头,可以获取现实场景。视频画面获取装置1还可以获取虚拟信息。视频画面获取装置10获取到视频画面信息后,将会把视频画面发送到注视点生成系统100。
注视点生成系统100用于确认视频画面中每个视频帧的注视点坐标,并将视频画面与每个视频帧的注视点坐标发送给渲染系统200。
渲染系统200用于根据注视点坐标完成对视频画面渲染。具体地,根据注视点坐标将注视点坐标预设渲染范围外的视频画面逐渐降低清晰度,使用户观看视频画面时不用接受过多的信息。
本申请提供的注视点渲染系统的部署灵活,如图1所示,注视点生成系统100和渲染系统200可部署在视频画面获取装置10上,或者用户观看视频画面的显示设备上,上述显示设备可以是VR眼镜或者AR眼镜等虚拟现实设备,还可以是手机、平板电脑、可穿戴设备、车载设备、笔记本电脑、超级移动个人计算机(ultra-mobile personal computer,UMPC)、上网本、个人数字助理(personaldigital assistant,PDA)或专门的照相机(例如单反相机、卡片式相机)等,本申请对该电子设备的具体类型不作任何限制。电子设备在视频画面播放前将根据视频画面执行本申请提供的注视点生成方法,按帧计算出视频画面中亮度梯度数据以及光流数据,并根据亮度梯度数据以及光流数据计算出每一帧画面的注意力质量数据,注意力质量数据可以用于注视点坐标的计算。注视点生成系统100通过计算得到的注视点坐标后,再将视频画面以及注视点坐标信息传输到渲染系统200进行渲染即可输出到显示设备上。
本申请提供的注视点渲染系统也可分开部署,注视点生成系统100和渲染系统200不再部署在视频画面获取装置10上,在一些实施例中,注视点生成系统100部署在边缘环境,渲染系统200部署在云环境。边缘环境具体可以是边缘环境中的一个边缘计算设备或运行在一个或者多个边缘计算设备上的软件系统。边缘环境指在地理位置上距离用于采集视频画面中背景环境终端较近的,用于提供计算、存储、通信资源的边缘计算设备集群,比如位于道路两侧的边缘计算一体机,区县级别的边缘服务器。云环境是云计算模式下利用基础资源向用户提供云服务的实体。云环境包括云数据中心和云服务平台,所述云数据中心包括云服务提供商拥有的大量基础资源(包括计算资源、存储资源和网络资源),云数据中心包括的计算资源可以是大量的计算设备(例如服务器)。
举例来说,如图3所示,注视点生成系统100可以是距离用户较近的位置的一台边缘计算一体机或者是运行在距离用户较近的位置的边缘计算一体机的软件系统,比如用户所在小区的一台边缘一体机。AR设备可将视频画面发送至上述注视点生成系统100,该系统根据视频画面执行本申请提供的注视点生成方法,按帧计算出视频画面中亮度梯度以及光流等数据,并根据亮度梯度以及光流数据计算出每一帧画面的注意力质量数据,注意力质量数据可以用于注视点坐标的计算,注视点生成系统100通过计算得到的注视点坐标,再将视频画面传输到渲染系统200进行渲染即可输出到显示设备上。渲染系统200可以距离用户较远位置的一个云数据中心的服务器,比如华南云数据中心的裸金属服务器,也可以是创建在云数据中心中的虚拟机,还可以是部署在云数据中心中的服务器或者虚拟机上的软件系统,该软件系统可以分布式地部署在多个服务器上、或者分布式地部署在多个虚拟机上、或者分布式地部署在虚拟机和服务器上。
在一些实施例中,注视点生成系统100和渲染系统200可部署在同一环境下,如图4所示,注视点生成系统100和渲染系统200可部署在边缘环境中,两者可以是在同一边缘环境的边缘服务器上,也可以是同一边缘环境的不同边缘服务器上。经注视点生成系统100计算注视点坐标后直接传输到渲染系统200处理。在另一些实施例中,渲染系统200也可部分在其他环境下。举例来说,渲染系统200可以将视频画面分为前景以及背景环境。前景目标变化剧烈,对实时性要求很高,背景环境对实时性要求相对较低,但渲染计算量大。渲染系统200可以同时部署在电子设备和边缘设备上,其中,电子设备完成前景的渲染,边缘设备完成背景的渲染,最后将两部分画面合成最终视频画面。
在一些实施例中,本申请提供的注视点生成系统100和渲染系统200还可以都部署在云环境,两者可以在同一云环境下的同一或者不同云服务器上。如图5所示,用户使用电子设备观看视频画面前,注视点生成系统100可以执行本申请提供的注视点生成方法,按帧计算出视频画面中亮度梯度以及光流等数据,并根据亮度梯度以及光流数据计算出每一帧画面的注意力质量数据,注意力质量数据可以用于注视点坐标的计算,注视点生成系统100通过计算得到的注视点坐标,再将视频画面传输到同在云环境的渲染系统200进行渲染即可输出到显示设备上。
注视点生成系统100内部的单元模块也可以有多种划分,各个模块可以是软件模块,也可以是硬件模块,也可以部分是软件模块部分是硬件模块,本申请不对其进行限制。图2为一种示例性的划分方式,如图2所示,注视点生成系统100包括输入单元110、计算单元120和输出单元130。下面分别介绍每个功能单元的功能。
输入单元110用于接收视频画面,并将视频画面输入至计算单元120。具体地,所述输入单元110可以用于获取视频画面,用户可以根据自己的喜好,选择用户想要播放的视频画面,其中,视频画面可以是虚拟环境,也可以指是虚拟环境与现实结合的增强现实环境。
计算单元120用于对视频画面进行处理,获取视频画面的注视点坐标。具体地,上述计算单元120用于对视频每帧画面计算视频帧的注视点坐标,并根据注视点坐标进行渲染。其中,注视点坐标由视频帧的注意力质量数据及位移计算得到,上述注意力质量数据由视频帧亮度梯度数据以及光流数据加权计算得到,上述位移由一帧的时间和前一帧画面注视点坐标到其他像素的距离矩阵计算得到。在一些实施例中,计算单元120得到新一帧画面的注视点坐标后,还将预设范围内的像素点注意力质量数据置零,以防止注视点长期停留在同一区域。生成注视点坐标后将视频画面发送给输出单元130。
在另一些实施例中,计算单元120生成视频画面的注视点坐标后,可以对视频画面进行渲染,并将渲染完成的视频画面传送到输出单元130上。输出单元130直接将渲染完成的视频传输到播放设备上。应理解,上述举例仅用于说明,并不能构成具体限定。
输出单元130可以直接将处理后的视频画面传输到电子设备或其他处理系统上进行渲染。具体地,接收到计算单元120已经完成处理的视频画面及得到的注视点坐标,,输出单元130将会把视频画面以及注视点坐标传输至不同的电子设备中,或者其他处理系统中,由渲染系统200完成渲染后再传输到播放设备上,渲染系统200的部署可参见图3-图5的描述,此处不再赘述。
综上,本申请提供的注视点生成系统,通过视频画面的亮度梯度数据和光流数据,再计算到体现用户关注度的注意力质量数据,进而生成注视点坐标,解决了普遍使用的注视点渲染技术依赖于眼动追踪仪获取注视点坐标的问题,能够降低VR或AR设备的硬件成本,减少VR或AR设备的体积和重量,提高用户使用体验。
下面结合附图,对本申请提供的注视点生成系统100如何计算视频画面的注意力质量数据,生成注视点坐标的过程,进行详细介绍。
如图6所示,本申请提供了一种注视点生成方法,所述方法包括以下步骤:
S201:获取视频画面。
具体地,上诉视频画面包括多个视频帧。可以理解的,该视频画面可以是用户选定的虚拟现实视频画面或者现实与虚拟交互的增强现实视频画面。举例来说,该视频画面为用户选定的虚拟现实视频画面,该视频画面包括k个视频帧P1,P2,…,Pk,其中,k为正整数。
S202:确定视频画面中每个视频帧的注意力质量数据。
具体地,确定k个视频帧P1,P2,…,Pk的亮度梯度数据▽xb1,▽xb2,…,▽xbk和光流数据V1,V2,…,Vk,其中,所述亮度梯度数据用于描述所述视频帧中物体的边缘特征,所述光流数据用于描述所述视频帧中物体的运动特征。结合视频帧亮度梯度数据▽xb1,▽xb2,…,▽xbk和所述光流数据V1,V2,…,Vk确定视频帧P1,P2,…,Pk各自的注意力质量数据μ1,μ2,…,μk,其中,注意力质量数据μ1,μ2,…,μk包含了用户在每帧画面中对各像素点的关注度,例如,μt为包含了第t个视频帧中用户对个像素点关注度的矩阵,其中,0<t≤k。该步骤的具体内容在后文的步骤S2021-S2023进行具体描述。
S203:根据注意力质量数据计算每个视频帧的注视点坐标。
具体地,通过注意力质量数据μ1,μ2,…,μk确定每个视频帧的注视点坐标M1,M2,…,Mk。其中,第一帧注视点坐标为注意力质量数据μ1矩阵中数值对大处对应的位置,即是说,M1为μ1中数据最大的像素点的位置。根据上述步骤S2021-步骤S2023可知,第一个视频帧光流数据固定长度为0,注意力质量数据最大的位置即为亮度梯度数据中最大值对应的位置。
从第二帧开始,即k≥2时,将注视点的位移等同于物体引力而造成的位移,其中,位移s2,s3,…,sk由视频帧一帧的时间t,前一帧注视点坐标到其他像素的距离矩阵r1,r2,…,rk-1以及注意力质量数据μ2,μ3,…,μk计算得到,其中,计算公式为:
Figure BDA0002793580210000081
其中,2≤t≤k,为一帧的时间。应理解上述公式1仅用于说明,本申请不作具体限定。
在一些实施例中,计算得到新一帧画面的注视点坐标后,还会将注视点坐标预设范围内的像素点注意力质量数据置零,以防止注视点长期停留在同一区域。具体地,从第二帧开始,计算得到新一帧注视点坐标后,还将以预设范围d为半径内的像素点的注意力质量数据置零,以防止注视点长期停留在同一区域。预设范围d可由以下公式进行计算:
Figure BDA0002793580210000082
其中,α3为置零范围权重系数,默认为0.1,w为置零范围宽度,h为置零范围高度,按照图像整体大小与注意力范围相对大小进行实际设定。应理解上述公式2仅用于说明,本申请不作具体限定。
应理解,将预设范围为半径内的像素点的注意力质量数据置零后,下一帧注视点将从除预设范围外的区域按照步骤S202进行注视点坐标的计算。
在一些实施例中,生成注视点坐标后会将注视点坐标信息记录并保存为连续的注视点路径,并将该注视点路径与对应的帧数信息生成为注视路径文件,其中,上述注视路径文件可以为逗号分隔值(Comma-Separated Values,CSV)文件。生成的注视路径文件将会同视频画面一起发送到渲染系统200,由渲染系统200根据注视路径文件完成视频注视点渲染。具体地,渲染系统200根据注视点坐标将预设渲染范围外的视频画面清晰度逐渐降低。
下面结合图7所示步骤S2021-步骤S2023,对前述步骤S202中确定视频画面中每个视频帧的注意力质量数据的具体流程进行详细地解释说明。
S2021:计算每个视频帧的亮度梯度数据。
具体地,确认视频帧P1,P2,…,Pk,k为正整数的亮度梯度数据,从而得到视频帧P1,P2,…,Pk各自的亮度梯度数据▽xb1,▽xb2,…,▽xbk,亮度梯度可以用于代表图像中的细节,如物体边缘。其中,bt为第t个视频帧的像素值矩阵,其中,0<t≤k,该像素值矩阵包含第t个视频帧中每个像素点的像素值,即视频帧某一小方块的平均亮度信息。▽xbt矩阵包含了第t个视频帧各像素点沿x方向的亮度梯度数据,。通常用8位、12位或16位表示一个像素值,如果使用8位进行表示,这样总共有256个灰度等级,像素值在0~255间。
亮度梯度总共有3种计算形式,分别为前向亮度梯度、后向亮度梯度以及中心亮度梯度。某一帧中某个像素点前向亮度梯度计算公式可以为:
Figure BDA0002793580210000091
应理解上述公式3仅用于说明,h可以为任意大于零的自然数,通常情况一般取h等于1,即计算当前像素点与其x方向上前一个像素点的亮度差值,本申请不作具体限定。
某一帧中某个像素点后向亮度梯度计算公式为:
Figure BDA0002793580210000092
应理解上述公式4仅用于说明,h可以为任意大于零的自然数,通常情况一般取h等于1,即计算当前像素点与其x方向上后一个像素点的亮度差值,本申请不作具体限定。
某一帧中某个像素点中心亮度梯度计算公式为:
Figure BDA0002793580210000093
应理解上述公式5仅用于说明,h可以为任意大于零的自然数,通常情况一般取h等于1,即计算当前像素点与其x方向上前一个像素点和后一个像素点的亮度的平均差值,本申请不作具体限定。
举例来说,第t个视频帧中像素点N的像素值为200,沿x方向前一个像素点像素值为210,后一个像素点像素值为10,若采用中心亮度梯度,计算方式为:
Figure BDA0002793580210000094
即是说,像素点N的中心亮度梯度数据为100。每一个像素点按上述方法计算得到的结果形成的矩阵即为该视频帧的亮度梯度数据。应理解上述公式6仅用于说明,本申请不作具体限定。
S2022:计算每个视频帧的光流数据。
具体地,确认视频帧P1,P2,…,Pk的光流数据,从而得到视频帧P1,P2,…,Pk各自的光流数据V1,V2,…,Vk。其中,第一个视频帧,即k=1时,各像素点均为长度为0的向量。从第二个视频帧开始,即2≤t≤k时,第t个视频帧的光流数据Vk为一个包含了第t个视频帧中每个像素点光流数据的矩阵。某一个像素点N的位置可以表示为(x,y,z),I(x,y,z,t)用于表示该像素点的光强度,该像素点用了δt时间移动了(,δy,δz)的距离,其中,δt为一帧时间。应理解,移动后的位置光强度为I(x+δx,y+δy,z+δz,t+δt),假设该像素点N在运动前后光强度不变,即I(x,y,z,t)=I(x+δx,y+δy,z+δz,t+δt),那么有以下公式计算光流数据:
Figure BDA0002793580210000095
其中,Vt,x,Vt,y,Vt,z为第t个视频帧中个像素点N(x,y,z)的光流数据,特殊地,视频帧P1的光流数据V1中V1,x,V1,y,V1,z长度均为0。应理解上述公式7仅用于说明,本申请不作具体限定。
S2023:根据亮度梯度数据以及光流数据计算每个视频帧的注意力质量数据。
结合所述视频帧P1,P2,…,Pk各自的所属的亮度梯度数据▽xb1,▽xb2,…,▽xbk以及光流数据V1,V2,…,Vk确定所述视频帧P1,P2,…,Pk各自的注意力质量数据μ1,μ2,…,μk,其中,所述注意力质量数据代表用户对视频帧中每个像素点的关注度。注意力质量数据由亮度梯度数据和光流数据加权相加而来,第t个视频帧的计算公式为:
μt=a1‖▽xbt‖+a2‖Vt‖; (8)
其中,a1为亮度梯度系数,a2为注意力质量系统,且大小为0<a1、a2<1。两个系数默认值为0.5和0.5,也可由用户自行定义,用于调节两个部分的重要程度。当亮度梯度数据▽xbt权重值α1设置趋近于1时,即将亮度作为计算的主要因素,注意力质量数据的大小将直接与图像中的明暗部分相关联,按照视觉感受图像中的高亮度部分的特征进行计算。当光流数据Vt权重值α2设置趋近与1时,即将光流作为计算的主要因素,注意力质量数据的大小将直接与图像中各部分的灰度瞬时变化相关联,将主要按照观察者对目标的运动情况这一特征进行计算。应理解上述公式8仅用于说明,本申请不作具体限定。
综上,本申请提供的注视点生成方法,通过视频画面的亮度梯度数据和光流数据,再计算到体现用户关注度的注意力质量数据,进而生成注视点坐标,解决了普遍使用的注视点渲染技术依赖于眼动追踪仪获取注视点坐标的问题,能够降低VR或AR设备的硬件成本,减少VR或AR设备的体积和重量,提高用户使用体验。
上述详细阐述了本申请实施例的方法,为了便于更好的实施本申请实施例上述方案,相应地,下面还提供用于配合实施上述方案的相关设备。
本申请还提供如图2所示的一种注视点生成系统100,该注视点生成系统100用于执行前述注视点生成方法。本申请对该注视点生成系统中的功能单元的划分不做限定,可以根据需要对该注视点生成系统中的各个单元进行增加、减少或合并。图2示例性地提供了一种功能单元的划分:注视点生成系统100包括输入单元110、计算单元120和输出单元130,其中,
输入单元110用于接收视频画面,并将视频画面输入至计算单元120,其中,视频可以是虚拟环境,也可以指是虚拟环境与现实结合的增强现实环境。
计算单元120用于对视频每帧画面计算视频帧的注视点坐标,并根据注视点坐标进行渲染。具体地,计算单元120由视频帧亮度梯度数据以及光流数据加权计算得到每个视频帧的注意力质量数据,再通过计算视频帧的注意力质量数据及上一帧注视点坐标的位移得到新一帧的注视点坐标
可选地,计算单元120得到新一帧画面的注视点坐标后,还将预设范围内的像素点注意力质量置零,以防止注视点长期停留在同一区域。
可选地,计算单元120根据计算得到的视频帧注视点坐标,并将视频及注视点坐标传输至输出单元130。输出单元130可以直接将处理后的视频画面传输到电子设备或其他处理系统上进行渲染。具体地,接收到计算单元120已经完成处理的视频及得到的注视点坐标,输出单元130,将生成一个注视路径文件,该文件可为CSV文件,输出单元130将会把视频文件以及注视路径文件传输至不同的电子设备中,或者其他处理系统中,由渲染系统200完成渲染后再传输到播放设备上。
可选地,计算单元120生成视频画面的注视点坐标后,可以对视频进行渲染,并将渲染完成的视频传送到输出单元130上。输出单元130直接将渲染完成的视频传输到播放设备上。
综上,本申请提供的注视点生成系统,通过视频画面的亮度梯度数据和光流数据,再计算到体现用户关注度的注意力质量数据,进而生成注视点坐标,解决了普遍使用的注视点渲染技术依赖于眼动追踪仪获取注视点坐标的问题,能够降低VR或AR设备的硬件成本,减少VR或AR设备的体积和重量,提高用户使用体验。
参见图8,图8为本申请实施例提供的一种电子设备的结构示意图。其中,所述电子设备300可以是前述内容中的注视点生成系统100。如图8所示,电子设备300包括:处理器310、通信接口320以及存储器330,所示处理器310、通信接口320以及存储器330通过内部总线340相互连接。应理解,该电子设备300可以为图2-图5所示的边缘环境中的电子设备,或为图3-图5所示的云环境中的电子设备。
处理器310、通信接口320和存储器330可通过总线方式连接,也可通过无线传输等其他手段实现通信。本申请实施例以通过总线340连接为例,其中,总线340可以是外设部件互连标准(Peripheral Component Interconnect,PCI)总线或扩展工业标准结构(Extended Industry Standard Architecture,EISA)总线等。所述总线340可以分为地址总线、数据总线、控制总线等。为便于表示,图8中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
所述处理器310可以由一个或者多个通用处理器构成,例如中央处理器(CentralProcessing Unit,CPU),或者CPU和硬件芯片的组合。上述硬件芯片可以是专用集成电路(Application-Specific Inegrated Circuit,ASIC)、可编程逻辑器件(ProgrammableLogic Device,PLD)或其组合。上述PLD可以是复杂可编程逻辑器件(ComplexProgrammable Logic Device,CPLD)、现场可编程逻辑门阵列(Field-Programmable GateArray,FPGA)、通用阵列逻辑(Generic Array Logic,GAL)或其任意组合。处理器310执行各种类型的数字存储指令,例如存储在存储器330中的软件或者固件程序,它能使电子设备300提供较宽的多种服务。
具体地,所述处理器310可以由至少一个通用处理器构成,例如中央处理器(Central Processing Unit,CPU),或者CPU和硬件芯片的组合。上述硬件芯片可以是专用集成电路(Application-Specific Integrated Circuit,ASIC)、可编程逻辑器件(Programmable Logic Device,PLD)或其组合。上述PLD可以是复杂可编程逻辑器件(Complex Programmable Logic Device,CPLD)、现场可编程逻辑门阵列(Field-Programmable Gate Array,FPGA)、通用阵列逻辑(Generic Array Logic,GAL)或其任意组合。处理器310执行各种类型的数字存储指令,例如存储在存储器330中的软件或者固件程序,它能使电子设备300提供较宽的多种服务。
存储器330可以包括易失性存储器(Volatile Memory),例如随机存取存储器(Random Access Memory,RAM);存储器330也可以包括非易失性存储器(Non-VolatileMemory),例如只读存储器(Read-Only Memory,ROM)、快闪存储器(Flash Memory)、硬盘(Hard Disk Drive,HDD)或固态硬盘(Solid-State Drive,SSD);存储器330还可以包括上述种类的组合。其中,存储器330可以存储有应用程序代码以及程序数据。程序代码可以计算视频帧的亮度梯度数据,计算视频帧的光流数据,计算视频帧的注意力质量数据,生成视频帧的注视点坐标等等。还可以用于执行图6-图7实施例描述的其他步骤,这里不再进行赘述。所述存储器330的代码可以包括实现计算单元和输出单元功能的代码,计算单元的功能包括图2中的计算单元120所描述的功能,例如可以根据计算得到的视频帧注视点坐标,并将渲染后的视频传输至输出单元130等等,具体可用于执行前述方法的S201-步骤S204、步骤S2021-步骤S2023及其可选步骤,这里不再进行赘述。输出单元也可以通过调用存储器330中的程序代码以实现处理功能,包括图2中的输出单元130所描述的功能,例如,接收到计算单元120已经完成处理的视频及得到的注视点坐标,输出单元130将会把视频文件以及注视点坐标传输至不同的电子设备中,或者其他处理系统中,由渲染系统200完成渲染后再传输到播放设备上,这里不再进行赘述。
通信接口320可以为有线接口(例如以太网接口),可以为内部接口(例如高速串行计算机扩展总线(Peripheral Component Interconnect express,PCIe)总线接口)、有线接口(例如以太网接口)或无线接口(例如蜂窝网络接口或使用无线局域网接口),用于与与其他设备或模块进行通信。
需要说明的,图8仅仅是本申请实施例的一种可能的实现方式,实际应用中,所述电子设备还可以包括更多或更少的部件,这里不作限制。关于本申请实施例中未示出或未描述的内容,可参见前述图6-图7所述实施例中的相关阐述,这里不再赘述。图8所示的电子设备还可以是多个计算节点构成的计算机集群,本申请不作具体限定。
本申请实施例还提供一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当其在处理器上运行时,图6-图7所示的方法流程得以实现。
本申请实施例还提供一种计算机程序产品,当所述计算机程序产品在处理器上运行时,图6-图7所示的方法流程得以实现。
上述实施例,可以全部或部分地通过软件、硬件、固件或其他任意组合来实现。当使用软件实现时,上述实施例可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载或执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以为通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(Digital Subscriber Line,DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集合的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质(例如,软盘、硬盘、磁带)、光介质(例如,高密度数字视频光盘(Digital Video Disc,DVD)、或者半导体介质。半导体介质可以是SSD。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。

Claims (10)

1.一种注视点生成方法,其特征在于,包括:
获取第一视频帧,其中,所述第一视频帧是用户使用VR或AR设备观看的视频帧;
确定所述第一视频帧的亮度梯度数据和光流数据,其中,所述亮度梯度数据用于描述所述第一视频帧中物体的边缘特征,所述光流数据用于描述所述第一视频帧中物体的运动特征;
结合所述亮度梯度数据和所述光流数据确定所述第一视频帧的多个注意力质量数据,所述多个注意力质量数据用于描述所述用户对所述第一视频帧中多个像素点的关注度;
根据所述多个注意力质量数据生成所述第一视频帧的注视点坐标。
2.根据权利要求1所述的方法,其特征在于,所述确定所述第一视频帧的亮度梯度数据包括:
获取所述第一视频帧的像素值矩阵,所述像素值矩阵代表所述第一视频帧所有像素点的平均亮度信息;
根据所述像素值矩阵,通过矩阵梯度算法确定所述第一视频帧的所述亮度梯度数据。
3.根据权利要求2所述的方法,其特征在于,所述确定所述第一视频帧的光流数据包括:
获取第二视频帧中与所述第一视频帧中的每个第一像素点对应的第二像素点的坐标,其中,所述第一像素点和所述第二像素点的光强度相同,所述第二视频帧是所述第一视频帧的上一帧;
确定所述第一视频帧中每个所述第一像素点的坐标与对应的所述第二像素点的坐标之间的距离,获得所述第一视频帧的所述光流数据。
4.根据权利要求3所述的方法,其特征在于,所述结合所述亮度梯度数据和所述光流数据确定所述第一视频帧的注意力质量数据包括:
结合所述亮度梯度数据和所述光流数据加权确定所述第一视频帧的所述注意力质量数据。
5.根据权利要求4所述的方法,其特征在于,所述根据所述注意力质量数据生成注视点坐标包括:
根据所述第一视频帧与所述第二视频帧间隔的时间、所述第二视频帧的注视点坐标与其他像素坐标之间的距离以及所述第一视频帧的所述注意力质量数据确定所述第一视频帧的所述注视点坐标。
6.根据权利要求5所述的方法,其特征在于,在所述根据所述注意力质量数据生成注视点坐标之后,所述方法还包括:
将所述注视点坐标预设置零范围内的像素点的所述注意力质量数据置零。
7.根据权利要求1至6所述的方法,其特征在于,在所述根据所述注意力质量数据生成注视点坐标之后,所述方法还包括:
根据所述注视点坐标,对所述第一视频帧进行渲染,以使渲染好的所述第一视频帧中所述注视点坐标所在的图像区域的画面清晰度最高。
8.一种注视点生成系统,其特征在于,包括输入单元、计算单元;
所述输入单元用于获取第一视频帧,并将所述第一视频帧输入至计算单元;
所述计算单元用于确定所述第一视频帧的亮度梯度数据和光流数据,其中,所述亮度梯度数据用于描述所述第一视频帧中物体的边缘特征,所述光流数据用于描述所述第一视频帧中物体的运动特征;
所述计算单元还用于结合所述亮度梯度数据和所述光流数据确定所述第一视频帧的多个注意力质量数据,所述多个注意力质量数据用于描述所述用户对所述第一视频帧中多个像素点的关注度;
所述计算单元还用于根据所述多个注意力质量数据生成所述第一视频帧的注视点坐标。
9.一种计算机设备,其特征在于,包括:处理器和存储器,所述处理器执行所述存储器中的代码执行如权利要求1至7任一权利要求所述的方法。
10.一种计算机可读存储介质,其特征在于,包括指令,当所述指令在计算机上运行时,使得所述计算机执行如权利要求1至7任一权利要求所述的方法。
CN202011323366.4A 2020-11-23 2020-11-23 注视点生成方法、系统及设备 Active CN112468796B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202011323366.4A CN112468796B (zh) 2020-11-23 2020-11-23 注视点生成方法、系统及设备
PCT/CN2021/083490 WO2021180241A1 (zh) 2020-11-23 2021-03-29 注视点生成方法、系统及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011323366.4A CN112468796B (zh) 2020-11-23 2020-11-23 注视点生成方法、系统及设备

Publications (2)

Publication Number Publication Date
CN112468796A true CN112468796A (zh) 2021-03-09
CN112468796B CN112468796B (zh) 2022-04-29

Family

ID=74798526

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011323366.4A Active CN112468796B (zh) 2020-11-23 2020-11-23 注视点生成方法、系统及设备

Country Status (2)

Country Link
CN (1) CN112468796B (zh)
WO (1) WO2021180241A1 (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021180241A1 (zh) * 2020-11-23 2021-09-16 平安科技(深圳)有限公司 注视点生成方法、系统及设备
WO2023035911A1 (zh) * 2021-09-09 2023-03-16 华为技术有限公司 一种显示方法与电子设备

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117319672A (zh) * 2022-06-24 2023-12-29 华为技术有限公司 通信方法和通信装置
CN115714888B (zh) * 2022-10-09 2023-08-29 名之梦(上海)科技有限公司 视频生成方法、装置、设备与计算机可读存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120127267A1 (en) * 2010-11-23 2012-05-24 Qualcomm Incorporated Depth estimation based on global motion
CN109766011A (zh) * 2019-01-16 2019-05-17 北京七鑫易维信息技术有限公司 一种图像渲染方法和装置
CN111291677A (zh) * 2020-02-05 2020-06-16 吉林大学 一种动态视频触觉特征提取及渲染的方法
CN111462183A (zh) * 2020-03-31 2020-07-28 山东大学 一种基于注意力机制双流网络的行为识别方法及系统

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106127799B (zh) * 2016-06-16 2018-02-16 方玉明 一种对于三维视频的视觉注意力检测方法
US10379612B1 (en) * 2016-12-16 2019-08-13 Apple Inc. Electronic device with gaze tracking system
CN108647605B (zh) * 2018-04-28 2021-09-17 南京邮电大学 一种结合全局颜色与局部结构特征的人眼凝视点提取方法
CN112468796B (zh) * 2020-11-23 2022-04-29 平安科技(深圳)有限公司 注视点生成方法、系统及设备

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120127267A1 (en) * 2010-11-23 2012-05-24 Qualcomm Incorporated Depth estimation based on global motion
CN109766011A (zh) * 2019-01-16 2019-05-17 北京七鑫易维信息技术有限公司 一种图像渲染方法和装置
CN111291677A (zh) * 2020-02-05 2020-06-16 吉林大学 一种动态视频触觉特征提取及渲染的方法
CN111462183A (zh) * 2020-03-31 2020-07-28 山东大学 一种基于注意力机制双流网络的行为识别方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
YUSUKE SUGANO ETC: "Calibration-free gaze sensing using saliency maps", 《2010 IEEE COMPUTER SOCIETY CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021180241A1 (zh) * 2020-11-23 2021-09-16 平安科技(深圳)有限公司 注视点生成方法、系统及设备
WO2023035911A1 (zh) * 2021-09-09 2023-03-16 华为技术有限公司 一种显示方法与电子设备

Also Published As

Publication number Publication date
WO2021180241A1 (zh) 2021-09-16
CN112468796B (zh) 2022-04-29

Similar Documents

Publication Publication Date Title
CN112468796B (zh) 注视点生成方法、系统及设备
US11308675B2 (en) 3D facial capture and modification using image and temporal tracking neural networks
US11694353B2 (en) Single depth tracked accommodation-vergence solutions
US10944996B2 (en) Visual quality optimized video compression
TWI803590B (zh) 藉由所關注區域之制定的異步時間及空間翹曲
US20180165830A1 (en) Method and device for determining points of interest in an immersive content
US11176637B2 (en) Foveated rendering using eye motion
US10616552B2 (en) Multi-modal real-time camera localization and environment mapping
CN117221512A (zh) 捕获和编辑动态深度图像的技术
US20200402243A1 (en) Video background estimation using spatio-temporal models
KR20210138484A (ko) 깊이 맵 복구를 위한 시스템 및 방법
CN105915892A (zh) 全景视频质量判断方法及系统
CN108665498B (zh) 图像处理方法、装置、电子设备和存储介质
JP2009237927A (ja) 画像合成方法及び装置
Jin et al. From Capture to Display: A Survey on Volumetric Video
CN111696034A (zh) 图像处理方法、装置及电子设备
US20220108420A1 (en) Method and system of efficient image rendering for near-eye light field displays
US11431955B1 (en) Systems and methods for temporal anti-aliasing
JP2023549657A (ja) 複数の視点から撮像された立体レンダリング画像データを表示するための3dビデオ会議システムおよび方法
JP2018129026A (ja) 決定装置、画像処理装置、決定方法及び決定プログラム
EP3564905A1 (en) Conversion of a volumetric object in a 3d scene into a simpler representation model
WO2023109582A1 (zh) 处理光线数据的方法、装置、设备和存储介质
CN115578541B (zh) 虚拟对象驱动方法及装置、设备、系统、介质和产品
CN112257653B (zh) 空间装饰效果图确定方法、装置、存储介质与电子设备
US20220232201A1 (en) Image generation system and method

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant