CN116980679A - 数字人演唱会的信息处理方法、装置及电子设备 - Google Patents
数字人演唱会的信息处理方法、装置及电子设备 Download PDFInfo
- Publication number
- CN116980679A CN116980679A CN202310927056.0A CN202310927056A CN116980679A CN 116980679 A CN116980679 A CN 116980679A CN 202310927056 A CN202310927056 A CN 202310927056A CN 116980679 A CN116980679 A CN 116980679A
- Authority
- CN
- China
- Prior art keywords
- target
- video image
- digital person
- digital
- acquiring
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000010365 information processing Effects 0.000 title claims abstract description 19
- 238000003672 processing method Methods 0.000 title claims abstract description 11
- 210000001747 pupil Anatomy 0.000 claims abstract description 54
- 238000000034 method Methods 0.000 claims abstract description 47
- 230000000007 visual effect Effects 0.000 claims abstract description 47
- 230000008859 change Effects 0.000 claims abstract description 19
- 210000001508 eye Anatomy 0.000 claims description 52
- 238000012545 processing Methods 0.000 claims description 25
- 210000005252 bulbus oculi Anatomy 0.000 claims description 21
- 230000000694 effects Effects 0.000 claims description 10
- 230000008569 process Effects 0.000 claims description 10
- 230000004478 pupil constriction Effects 0.000 claims description 6
- 230000010344 pupil dilation Effects 0.000 claims description 6
- 230000003068 static effect Effects 0.000 claims description 5
- 230000007704 transition Effects 0.000 claims description 5
- 230000002035 prolonged effect Effects 0.000 claims description 2
- 230000003993 interaction Effects 0.000 abstract description 8
- 230000000875 corresponding effect Effects 0.000 description 24
- 238000010586 diagram Methods 0.000 description 13
- 230000006870 function Effects 0.000 description 11
- 238000004590 computer program Methods 0.000 description 10
- 230000009471 action Effects 0.000 description 5
- 238000013473 artificial intelligence Methods 0.000 description 5
- 238000004891 communication Methods 0.000 description 5
- 210000003128 head Anatomy 0.000 description 5
- 239000011324 bead Substances 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 230000003321 amplification Effects 0.000 description 2
- 230000002996 emotional effect Effects 0.000 description 2
- 230000004424 eye movement Effects 0.000 description 2
- 238000003199 nucleic acid amplification method Methods 0.000 description 2
- 238000011084 recovery Methods 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 230000010267 cellular communication Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000010339 dilation Effects 0.000 description 1
- 239000011521 glass Substances 0.000 description 1
- 230000004886 head movement Effects 0.000 description 1
- 230000001795 light effect Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/431—Generation of visual interfaces for content selection or interaction; Content or additional data rendering
- H04N21/4312—Generation of visual interfaces for content selection or interaction; Content or additional data rendering involving specific graphical features, e.g. screen layout, special fonts or colors, blinking icons, highlights or animations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/011—Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
- G06F3/013—Eye tracking input arrangements
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/048—Interaction techniques based on graphical user interfaces [GUI]
- G06F3/0481—Interaction techniques based on graphical user interfaces [GUI] based on specific properties of the displayed interaction object or a metaphor-based environment, e.g. interaction with desktop elements like windows or icons, or assisted by a cursor's changing behaviour or appearance
- G06F3/04815—Interaction with a metaphor-based environment or interaction object displayed as three-dimensional, e.g. changing the user viewpoint with respect to the environment or object
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T19/00—Manipulating 3D models or images for computer graphics
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/70—Determining position or orientation of objects or cameras
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/49—Segmenting video sequences, i.e. computational techniques such as parsing or cutting the sequence, low-level clustering or determining units such as shots or scenes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/18—Eye characteristics, e.g. of the iris
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/431—Generation of visual interfaces for content selection or interaction; Content or additional data rendering
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/44—Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream, rendering scenes according to MPEG-4 scene graphs
- H04N21/44008—Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream, rendering scenes according to MPEG-4 scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics in the video stream
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/44—Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream, rendering scenes according to MPEG-4 scene graphs
- H04N21/4402—Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream, rendering scenes according to MPEG-4 scene graphs involving reformatting operations of video signals for household redistribution, storage or real-time display
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10016—Video; Image sequence
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Multimedia (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Signal Processing (AREA)
- Human Computer Interaction (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computer Hardware Design (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Ophthalmology & Optometry (AREA)
- Software Systems (AREA)
- Computer Graphics (AREA)
- Computing Systems (AREA)
- Image Processing (AREA)
Abstract
本公开涉及基于数字人演唱会的信息处理方法、装置及电子设备,其方法包括:获取数字人演唱会的三维场景;获取所述三维场景中目标数字人的眼部图像;基于所述眼部图像获取所述目标数字人的瞳孔位置信息,并基于所述瞳孔位置信息确定所述目标数字人的目标视觉角度;获取所述目标视觉角度在所述三维场景中对应的第一目标视频图像,并显示第一目标视频画面。由于实施例是以数字人的视角获得数字人看到的视频图像,因此用户在观看该视频图像时,能够以数字人的视角感受视频画面的变化,增加用于与数字人的互动性和演唱会的趣味性。
Description
技术领域
本公开涉及图像处理技术领域,尤其涉及数字人演唱会的信息处理方法、装置及电子设备。
背景技术
随着技术的不断发展,数字人技术逐渐得到了广泛的应用。在数字人演唱会方面,特别是将数字人与明星的形象相结合,形成明星数字人,极大地吸引了观众的眼球。
而相关技术中的数字人演唱会,通常从观众的视角展示数字人演唱会的内容,只能生硬的展示演唱会的画面,不能形成与观众的有效互动。
发明内容
本公开提供了一种基于数字人演唱会的信息处理方法、装置及电子设备。
根据本公开的第一方面,提供了一种基于数字人演唱会的信息处理方法,所述方法包括:
获取数字人演唱会的三维场景;
获取所述三维场景中目标数字人的眼部图像;
基于所述眼部图像获取所述目标数字人的瞳孔位置信息,并基于所述瞳孔位置信息确定所述目标数字人的目标视觉角度;
获取所述目标视觉角度在所述三维场景中对应的第一目标视频图像,并显示所述第一目标视频画面。
根据本公开的第二方面,提供了一种基于数字人演唱会的信息处理装置,所述装置包括:
场景获取模块,用于获取数字人演唱会的三维场景;
眼部图像获取模块,用于获取所述三维场景中目标数字人的眼部图像;
视觉角度确定模块,用于基于所述眼部图像获取所述目标数字人的瞳孔位置信息,并基于所述瞳孔位置信息确定所述目标数字人的目标视觉角度;
第一目标视频图像获取模块,用于获取所述目标视觉角度在所述三维场景中对应的第一目标视频图像,并显示所述第一目标视频画面。
根据本公开的第三方面,提供了一种电子设备。该电子设备包括:存储器和处理器,所述存储器上存储有计算机程序,所述处理器执行所述程序时实现如以上所述的方法。
根据本公开的第四方面,提供了一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现本公开的上述方法。
本公开实施例提供的基于数字人演唱会的信息处理方法、装置及电子设备,通过获取数字人演唱会的三维场景,及获取该三维场景中目标数字人的眼部图像,通过该眼部图像获取目标数字人的瞳孔信息,并确定出目标数字人的目标视觉角度,进而获得该目标视觉角度下三维场景中的第一目标视频图像,并显示第一目标视频画面。由于实施例是以数字人的视角获得数字人看到的视频图像,因此用户在观看该视频图像时,能够以数字人的视角感受视频画面的变化,增加用于与数字人的互动性和演唱会的趣味性。
附图说明
在下面结合附图对于示例性实施例的描述中,本公开的更多细节、特征和优点被公开,在附图中:
图1为本公开一示例性实施例提供的基于数字人演唱会的信息处理方法的流程图;
图2为本公开一示例性实施例提供的一种数字人演唱会场景示意图;
图3为本公开一示例性实施例提供的建立的瞳孔坐标系的示意图;
图4为本公开一示例性实施例提供的瞳孔的坐标位置示意图;
图5为本公开一示例性实施例提供的数字人的视觉角度示意图;
图6为本公开一示例性实施例提供的基于数字人演唱会的信息处理装置的功能模块示意性框图;
图7为本公开一示例性实施例提供的电子设备的结构框图;
图8为本公开一示例性实施例提供的计算机系统的结构框图。
具体实施方式
下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例,然而应当理解的是,本公开可以通过各种形式来实现,而且不应该被解释为限于这里阐述的实施例,相反提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是,本公开的附图及实施例仅用于示例性作用,并非用于限制本公开的保护范围。
应当理解,本公开的方法实施方式中记载的各个步骤可以按照不同的顺序执行,和/或并行执行。此外,方法实施方式可以包括附加的步骤和/或省略执行示出的步骤。本公开的范围在此方面不受限制。
本文使用的术语“包括”及其变形是开放性包括,即“包括但不限于”。术语“基于”是“至少部分地基于”。术语“一个实施例”表示“至少一个实施例”;术语“另一实施例”表示“至少一个另外的实施例”;术语“一些实施例”表示“至少一些实施例”。其他术语的相关定义将在下文描述中给出。需要注意,本公开中提及的“第一”、“第二”等概念仅用于对不同的装置、模块或单元进行区分,并非用于限定这些装置、模块或单元所执行的功能的顺序或者相互依存关系。
需要注意,本公开中提及的“一个”、“多个”的修饰是示意性而非限制性的,本领域技术人员应当理解,除非在上下文另有明确指出,否则应该理解为“一个或多个”。
本公开实施方式中的多个装置之间所交互的消息或者信息的名称仅用于说明性的目的,而并不是用于对这些消息或信息的范围进行限制。
相关技术中的数字人演唱会基本上是观看明星和现场演唱会,通过声音、灯光等与明星或者演唱会现场进行互动,通常是站在观众的角度进行观看,并不清楚明星数字人在演唱会当中的视角是怎样的,使得用户不了解明星数字人在开演唱会时会看哪里。
因此,本公开实施例首先提供了一种基于数字人演唱会的信息处理方法,如图1所示,该方法可以包括以下步骤:
在步骤S110中,获取数字人演唱会的三维场景。
实施例中,数字人演唱会的三维场景,可以是通过建立虚拟的演唱会的三维场景,或者根据真实的演唱会的场景生成虚拟的三维场景,例如1:1复刻现实演唱会的3D场景。可以将数字人与某个真人明星进行绑定,通过该真人明星来生成相应的三维数字人的虚拟形象,得到明星数字人,还可以根据需要创建数字人的形象。实施例中的数字人可以根据跟随真人的动作做出相应的动作,还可以根据用户的控制执行一系列的动作,或是根据制定的动作策略执行相应的动作。
实施例中的数字人演唱会的三维场景中可以包括台上一个或者多个三维明星数字人,还可以包括台下相应的三维观众数字人,以及数字人演唱会的相关其他设备场景等,并且可以通过灯光、声音和相应的颜色渲染来控制演唱会的现场气氛。
在步骤S120中,获取三维场景中目标数字人的眼部图像。
实施例中,可以通过虚拟的摄像头实时跟踪目标数字人的眼部,获取目标数字人的眼部图像,实施例中的目标数字人可以是明星数字人,或者三维场景中的任一数字人。例如,演唱会开始时,在虚拟的三维场景中,可以建立明星数字人的一个跟踪摄像头,并全程跟踪数字人头部,已获得数字人头部的眼部图像。
实施例中,如图2所示,可以通过摄像头A全程跟踪数字人的正面,可以用于识别数字人的面部,还可以根据X轴来计算水平面数字人头部相对于身体的X轴的偏移角度α,其中α在(-90°,90°)的范围内变化,相当于转头的角度,以数字人正对X轴时为α为0°,X轴是垂直于Y轴的,而Y轴是人身体水平方向。
在步骤S130中,基于眼部图像获取目标数字人的瞳孔位置信息,并基于瞳孔位置信息确定目标数字人的目标视觉角度。
实施例中,可以通过摄像头实时跟踪获取目标数字人的眼部图像,并根据目标数字人的眼部图像获取目标数字人的眼睛的位置,并进一步确定目标数字人的瞳孔位置。例如,由于明星数字人可以是高模3D数字人,眼睛和瞳孔都是清晰可见的且灵活转动的。此时摄像头运行AI引擎,可以进行人脸识别,并识别3D数字人的眼睛及瞳孔等的位置。
如图3所示,根据数字人眼睛的正中心建立一个直角坐标系,如果眼珠正中心发生转动,可以根据坐标系得到对应中心点的x(-10,+10),y(-10,+10)轴坐标,x轴和y轴的刻度可以按照设备的性能进行动态调整,如果设备的性能好,则可以将刻度细分的更多,可以获得更加具体的瞳孔位置的变化。
实施例中以x(-10,+10),y(-10,+10)为例,人类眼珠真实水平角度β(-78°,+78°)以正前方为0°,眼珠垂直角度γ(-75°,+75°)以正前方为0°,上述角度是人眼真实的视野角度。按照坐标系刻度,x轴一刻度即对应角度7.8°,如眼珠转动到水平+5,则得到水平角度β为39°,y轴一刻度即对应角度7.5°,如眼珠转动到垂直+5,则得到垂直角度γ为37.5°。
示例性,如图4所示,数字人瞳孔的坐标是(3,5)则得到数字人视觉角度为(23.5°,37.5°),再加上数字人的头部偏移角度α,得到最终的视觉角度(23.5°+α,37.5°)。因此,实施例中数字人的瞳孔位置,包括瞳孔转动的角度和头部移动的角度。
实施例中,当识别到数字人眼球正式前方,及眼球中瞳孔中心点在原点时,数字人视角是个水平60°×垂直60°的圆锥形。当眼球转向最左边和最右边时,数字人视角是个水平30°×垂直60°的椭圆锥形,该圆锥形是以数字人两眼之间的水平中心点向外发散的,如图5所示。
实施例中,在数字人的眼球发生水平角度偏移的情况下,变化圆锥形的视频角度。具体算法如下:以垂直方向为原点,每往左或往右发生1°的偏移,则圆锥的水平角度减少0.39°(30°/78°),如果视角从左往原点水平移动,则圆锥的水平角度增加0.39°。这样在数字人的眼球发生转动时,可以准确的根据数字人的瞳孔位置确定数字人当前的视觉角度。
在步骤S140中,获取目标视觉角度在三维场景中对应的第一目标视频图像,并显示第一目标视频画面。
实施例中,获取目标视觉角度对应的第一视频图像,该第一视频图像为数字人在当前的视觉角度获得的视频画面,由于该视频画面是以眼睛的视角看到的画面,因此该视频画面通常是圆形或者椭圆形。因此,需要对第一视频图像进行视频画面截取,获得具有目标形状的第一目标视频图像,可以截取为矩形视频画面,便于传输并在手机等终端上播放。
示例性的,由于目标视角角度直接获取到的视频画面是圆形或椭圆形,转播会比较怪异,因此为了便于视频在终端上的播放,需要对圆形或椭圆形画面进行9:16或者其他比例的截取,截取出可以转播的画面。如果是椭圆形的画面,则以椭圆形的宽为准,进行1:1或者其他比例的截取,目的是让观看者也发现明星数字人视觉的变化,能拥有更好的趣味性。
本公开实施例提供的基于数字人演唱会的信息处理方法,通过获取数字人演唱会的三维场景,及获取该三维场景中目标数字人的眼部图像,通过该眼部图像获取目标数字人的瞳孔信息,并确定出目标数字人的目标视觉角度,进而获得该目标视觉角度下三维场景中的第一目标视频图像。由于实施例是以数字人的视角获得数字人看到的视频图像,因此用户在观看该视频图像时,能够以数字人的视角感受视频画面的变化,增加用于与数字人的互动性和演唱会的趣味性。
基于上述实施例,在本公开提供的又一实施例中,数字人演唱会可以包括多个观众;该方法还可以包括以下步骤:
步骤S141,获取目标观众的视觉角度在三维场景中对应的第二目标视频图像。
实施例中,可以在数字人演唱会的观众席中设置多个摄像头,通过这些摄像头分别获取多个观众视角的视频图像,可以将某个或者用户选择的观众视觉角度作为目标观众的视觉角度,这样可以获取该目标观众的视觉角度在三维场景中对应的第二目标视频图像。
步骤S142,接收目标用户的选择操作,并基于选择操作显示第一目标视频图像和/或第二目标视频图像。
目标用户在观看数字人演唱会时,可以根据需要站在观众的视角观看数字人演唱会,还可以站在数字人的角度观看数字人演唱会,用户可以通过选择操作,选择自己所需观看的视频图像。另外,还可以同时显示第一目标视频图像和第二目标视频图像,例如可以将第一目标视频图像作为主播放界面,将第二目标视频图像在小窗口中播放,这样可以同时显示第一目标视频图像和第二目标视频图像,用户还可以通过操作切换主播放界面和小窗口中的播放内容,例如切换为将第二目标视频图像作为主播放界面,将第一目标视频图像在小窗口中播放,实施例不限于此。
基于上述实施例,在本公开提供的又一实施例中,该方法还可以包括以下步骤:
步骤S150,实时获取目标数字人的眼部图像。
实施例中,可以持续性的获取目标数字人的眼部图像,例如可以获取目标数字人在一段时间内的眼部视频图像帧,通过视频图像帧之间的对比分析,判断目标数字人的眼球是处于静止状态还是处于转动状态。
步骤S160,在基于眼部图像检测到目标数字人的眼球处于静止状态,且持续目标时长的情况下,对第一目标视频图像进行聚焦或者放大处理。
在检测到目标数字人的眼球处于静止状态达到一定时长时,这时可以确定目标数字人的眼镜正在盯着某个地方观看,这时需要根据目标数字人的目标视觉角度,获取该目标视觉角度下的第一目标视频图像,并对该第一目标视频图像进行聚焦或者放大处理。
示例性的,当目标数字人的眼球处于静止状态达到0.2s,则迅速第一目标视频图像的中心点。如果眼球在0.2s的基础上的静止状态的时长再持续且超过0.1s,可以对目标视频画面进行10%比例的放大,如果放大太多会显得效果非常突兀,而后目标数字人的眼球处于静止状态的持续时长每增加0.1s可以再对目标视频画面放大5%,如果视频画面的放大倍速超过50%则不再放大。
实施例中,在数字人的眼球的移动角度大于预设角度的情况下,停止聚焦或者放大处理,并在目标视频画面切换过程中增加转场效果。示例性的,如果目标数字人的眼球的移动超过阈值,例如眼球大于3°的移动,则恢复默认画面比例,但此时缩小过程为了顺滑,会加入转场效果,3°的设置也是为了不让视频画面过渡摇晃影响用户的观感。
基于上述实施例,在本公开提供的又一实施例中,该方法还可以包括以下步骤:
步骤S170,在检测到第一目标视频图像中包含目标对象的情况下,获取目标对象所在的目标区域。
步骤S180,将第一目标视频图像中目标区域之外的区域进行模糊处理。
实施例中,该目标对象可以是人,例如观众等,在第一目标视频图像中包含人时,会检测该人体的所在区域,并对该人体之外的区域进行模糊处理。
示例性的,如果明星数字人的视觉里面有人,并且这个人在数字人视觉中心,则对画面进行人形或者人脸识别,并将这个人进行描边处理,将聚焦的人之外区域进行透明度10%的模糊处理,让聚焦的人更加显现,让歌迷或者观众有种受到明星关注的感觉。这样可以增强数字人与用户之间的互动性,甚至让歌迷觉得非常兴奋,和明星有互动。
基于上述实施例,在本公开提供的又一实施例中,该方法还可以包括以下步骤:
步骤S191,在检测到目标数字人的瞳孔发生变化的情况下,获取瞳孔的变化状态。
步骤S192,基于瞳孔的变化状态调整第一目标视频图像中的场景亮度;其中,场景亮度与瞳孔的大小反相关。
实施例中,变化状态包括瞳孔缩小或者瞳孔放大,在目标数字人的瞳孔为瞳孔缩小的情况下,可以增加第一目标视频图像中的场景亮度。在目标数字人的瞳孔为瞳孔放大的情况下,可以减小第一目标视频图像中的场景亮度。
示例性的,可以通过AI引擎识别明星数字人瞳孔放大缩小,模拟真实环境下人眼对光线的反应,并将其具现在视频画面中,模仿人视野的光线变化。例如将3D场景的明亮度阈值划分为-100到+100,全黑暗是-100,全白是+100,具体的数值在(-100,+100)中变化,同时将数字人瞳孔占眼球比例按照20%~50%划分,阈值定义如下:
如果数字人的瞳孔占到眼球的50%,对应明亮值-100;如果数字人的瞳孔占到眼球的20%,表示被强光照射,对应明亮值+100。由于演唱会经常有灯光舞台效果,如果AI引擎监测到瞳孔比例有变化,则具体变化方式如下:如果AI引擎识别到在0.1s内瞳孔占眼珠比例急剧放大或缩小,超过20%,说明演唱会场景有明显亮度变化,并验证演唱会场景亮度值差值超过了100,进行如下处理:
如果瞳孔缩小超过20%,且场馆亮度差值增加了100,则视频做出强光效果处理,亮度按照对应的亮度值突然增强,并于0.2s~1s后逐步恢复到正常场景,以模拟人眼在强光下恢复视觉的过程。恢复时间方式如下:超过100后每增加12.5的亮度,则恢复时长增加0.1s。
如果瞳孔放大超过20%,且场馆亮度差值降低100,则视频做出暗度增强效果处理,暗度按照对应的亮度值突然增强,并与1s到1800s的时间进行恢复。其中,需要说明的是,如果恢复后是在黑暗环境中,画面会逐渐清晰,模拟人眼在突然黑暗的场景下恢复视觉的过程,恢复时间方式如下超过100后每增加0.05的暗度,则恢复时间加1s,该方式仅在无灯光的场景下生效。
按照如上方式得到的明星数字人的视角画面,将在数字人演唱会场景的某块屏幕上进行展示,增加观众和歌迷观看演唱会的趣味性和互动性。
在本公开提供的实施例中,还可以识别明星数字人的表情,进而进行如下几种加强场景:
场景一、深情演唱时,明星感动流了眼泪,可以在明星视角视频中增强一些泪滴滑落或者模糊的特效,以便增强观众与数字人之间的互动性。
场景二、明星很开心的唱歌,可以做一些暖系或者明亮的情绪化效果,这样可以引起观众与数字人达到同样欢快的效果,引起情绪上的共鸣。
场景三、如果识别到明星数字人闭眼超过2s后,进行黑屏处理,模拟人闭眼的观看视野。当然,此时可以插入与当前演唱会相关的其他视觉效果,避免长时间的黑屏对用户造成负面的效果。
本公开提供的实施例,可以解决观看明星数字人演唱会形式相对单调的问题,避免一般演唱会都是通过明星自己通过语言和歌曲、动作去和歌迷或观众互动,而本公开实施例无需明星特地参与,通过实施例提供的上述方式就可以在无感的状态下进行和观众的互动。并且本公开实施例可以模拟明星数字人的真实视觉,而不是通过摄像头生硬的显示演唱会的画面,能够与用户形成更有效的互动。实施例中,由于是以数字人的视角获得数字人看到的视频图像,因此用户在观看该视频图像时,能够以数字人的视角感受视频画面的变化,增加用于与数字人的互动性和演唱会的趣味性。
在采用对应各个功能划分各个功能模块的情况下,本公开实施例提供了一种基于数字人演唱会的信息处理装置,该基于数字人演唱会的信息处理装置可以为服务器或应用于服务器的芯片。图6为本公开一示例性实施例提供的基于数字人演唱会的信息处理装置的功能模块示意性框图。如图6所示,该基于数字人演唱会的信息处理装置包括:
场景获取模块10,用于获取数字人演唱会的三维场景;
眼部图像获取模块20,用于获取所述三维场景中目标数字人的眼部图像;
视觉角度确定模块30,用于基于所述眼部图像获取所述目标数字人的瞳孔位置信息,并基于所述瞳孔位置信息确定所述目标数字人的目标视觉角度;
第一目标视频图像获取模块40,用于获取所述目标视觉角度在所述三维场景中对应的第一目标视频图像,并显示所述第一目标视频画面。
在本公开提供的又一实施例中,所述数字人演唱会包括多个观众;所述装置还包括:
第二目标视频图像获取模块,用于获取目标观众的视觉角度在所述三维场景中对应的第二目标视频图像;
操作接收模块,用于接收目标用户的选择操作,并基于所述选择操作显示所述第一目标视频图像和/或第二目标视频图像。
在本公开提供的又一实施例中,所述装置还包括图像处理模块,其中:
所述眼部图像获取模块,还用于实时获取所述目标数字人的眼部图像;
所述图像处理模块,用于在基于所述眼部图像检测到所述目标数字人的眼球处于静止状态,且持续目标时长的情况下,对所述第一目标视频图像进行聚焦或者放大处理。
在本公开提供的又一实施例中,所述图像处理模块,还用于在所述数字人的眼球的移动角度大于预设角度的情况下,停止聚焦或者放大处理,并在所述目标视频画面切换过程中增加转场效果。
在本公开提供的又一实施例中,所述装置还包括:
检测模块,用于在检测到所述第一目标视频图像中包含目标对象的情况下,获取所述目标对象所在的目标区域;
模糊处理模块,用于将所述第一目标视频图像中所述目标区域之外的区域进行模糊处理。
在本公开提供的又一实施例中,所述装置还包括:
状态获取模块,用于在检测到所述目标数字人的瞳孔发生变化的情况下,获取所述瞳孔的变化状态;
亮度调整模块,用于基于所述瞳孔的变化状态调整所述第一目标视频图像中的场景亮度;其中,所述场景亮度与瞳孔的大小反相关。
在本公开提供的又一实施例中,所述变化状态包括瞳孔缩小或者瞳孔放大;所述亮度调整模块,具体用于:
在所述目标数字人的瞳孔为瞳孔缩小的情况下,增加所述第一目标视频图像中的场景亮度;
在所述目标数字人的瞳孔为瞳孔放大的情况下,减小所述第一目标视频图像中的场景亮度。
在本公开提供的又一实施例中,所述第一目标视频图像获取模块,具体用于:
获取所述目标视觉角度对应的第一视频图像;
对所述第一视频图像进行视频画面截取,获得具有目标形状视频帧的第一目标视频图像。
有关装置部分,具体参见方法实施例对应的描述,这里不再赘述。
本公开实施例提供的基于数字人演唱会的信息处理装置,通过获取数字人演唱会的三维场景,及获取该三维场景中目标数字人的眼部图像,通过该眼部图像获取目标数字人的瞳孔信息,并确定出目标数字人的目标视觉角度,进而获得该目标视觉角度下三维场景中的第一目标视频图像。由于实施例是以数字人的视角获得数字人看到的视频图像,因此用户在观看该视频图像时,能够以数字人的视角感受视频画面的变化,增加用于与数字人的互动性和演唱会的趣味性。
本公开实施例还提供一种电子设备,包括:至少一个处理器;用于存储所述至少一个处理器可执行指令的存储器;其中,所述至少一个处理器被配置为执行所述指令,以实现本公开实施例公开的上述方法。
图7为本公开一示例性实施例提供的电子设备的结构示意图。如图7所示,该电子设备1800包括至少一个处理器1801以及耦接至处理器1801的存储器1802,该处理器1801可以执行本公开实施例公开的上述方法中的相应步骤。
上述处理器1801还可以称为中央处理单元(central processing unit,CPU),其可以是一种集成电路芯片,具有信号的处理能力。本公开实施例公开的上述方法中的各步骤可以通过处理器1801中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器1801可以是通用处理器、数字信号处理器(digital signal processing,DSP)、ASIC、现成可编程门阵列(field-programmable gate array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本公开实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于存储器1802中,例如随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质。处理器1801读取存储器1802中的信息,结合其硬件完成上述方法的步骤。
另外,根据本公开的各种操作/处理在通过软件和/或固件实现的情况下,可从存储介质或网络向具有专用硬件结构的计算机系统,例如图8所示的计算机系统1900安装构成该软件的程序,该计算机系统在安装有各种程序时,能够执行各种功能,包括诸如前文所述的功能等等。图8为本公开一示例性实施例提供的计算机系统的结构框图。
计算机系统1900旨在表示各种形式的数字电子的计算机设备,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。
如图8所示,计算机系统1900包括计算单元1901,该计算单元1901可以根据存储在只读存储器(ROM)1902中的计算机程序或者从存储单元1908加载到随机存取存储器(RAM)1903中的计算机程序,来执行各种适当的动作和处理。在RAM 1903中,还可存储计算机系统1900操作所需的各种程序和数据。计算单元1901、ROM 1902以及RAM 1903通过总线1904彼此相连。输入/输出(I/O)接口1905也连接至总线1904。
计算机系统1900中的多个部件连接至I/O接口1905,包括:输入单元1906、输出单元1907、存储单元1908以及通信单元1909。输入单元1906可以是能向计算机系统1900输入信息的任何类型的设备,输入单元1906可以接收输入的数字或字符信息,以及产生与电子设备的用户设置和/或功能控制有关的键信号输入。输出单元1907可以是能呈现信息的任何类型的设备,并且可以包括但不限于显示器、扬声器、视频/音频输出终端、振动器和/或打印机。存储单元1908可以包括但不限于磁盘、光盘。通信单元1909允许计算机系统1900通过网络诸如因特网的与其他设备交换信息/数据,并且可以包括但不限于调制解调器、网卡、红外通信设备、无线通信收发机和/或芯片组,例如蓝牙TM设备、WiFi设备、WiMax设备、蜂窝通信设备和/或类似物。
计算单元1901可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元1901的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元1901执行上文所描述的各个方法和处理。例如,在一些实施例中,本公开实施例公开的上述方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元1908。在一些实施例中,计算机程序的部分或者全部可以经由ROM 1902和/或通信单元1909而被载入和/或安装到电子设备1900上。在一些实施例中,计算单元1901可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行本公开实施例公开的上述方法。
本公开实施例还提供一种计算机可读存储介质,其中,当所述计算机可读存储介质中的指令由电子设备的处理器执行时,使得所述电子设备能够执行本公开实施例公开的上述方法。
本公开实施例中的计算机可读存储介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。上述计算机可读存储介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。更具体的,上述计算机可读存储介质可以包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
上述计算机可读介质可以是上述电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。
本公开实施例还提供一种计算机程序产品,包括计算机程序,其中,所述计算机程序被处理器执行时实现本公开实施例公开的上述方法。
在本公开的实施例中,可以以一种或多种程序设计语言或其组合来编写用于执行本公开的操作的计算机程序代码,上述程序设计语言包括但不限于面向对象的程序设计语言,诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言,诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络(包括局域网(LAN)或广域网(WAN))连接到用户计算机,或者,可以连接到外部计算机。
附图中的流程图和框图,图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本公开实施例中所涉及到的模块、部件或单元可以通过软件的方式实现,也可以通过硬件的方式来实现。其中,模块、部件或单元的名称在某种情况下并不构成对该模块、部件或单元本身的限定。
本文中以上描述的功能可以至少部分地由一个或多个硬件逻辑部件来执行。例如,非限制性地,可以使用的示例性的硬件逻辑部件包括:现场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、片上系统(SOC)、复杂可编程逻辑设备(CPLD)等等。
以上描述仅为本公开的一些实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本公开中所涉及的公开范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离上述公开构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本公开中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。
虽然已经通过示例对本公开的一些特定实施例进行了详细说明,但是本领域的技术人员应该理解,以上示例仅是为了进行说明,而不是为了限制本公开的范围。本领域的技术人员应该理解,可在不脱离本公开的范围和精神的情况下,对以上实施例进行修改。本公开的范围由所附权利要求来限定。
Claims (10)
1.一种基于数字人演唱会的信息处理方法,其特征在于,所述方法包括:
获取数字人演唱会的三维场景;
获取所述三维场景中目标数字人的眼部图像;
基于所述眼部图像获取所述目标数字人的瞳孔位置信息,并基于所述瞳孔位置信息确定所述目标数字人的目标视觉角度;
获取所述目标视觉角度在所述三维场景中对应的第一目标视频图像,并显示所述第一目标视频画面。
2.根据权利要求1所述的方法,其特征在于,所述数字人演唱会包括多个观众;所述方法还包括:
获取目标观众的视觉角度在所述三维场景中对应的第二目标视频图像;
接收目标用户的选择操作,并基于所述选择操作显示所述第一目标视频图像和/或第二目标视频图像。
3.根据权利要求1所述的方法,其特征在于,所述方法还包括:
实时获取所述目标数字人的眼部图像;
在基于所述眼部图像检测到所述目标数字人的眼球处于静止状态,且持续目标时长的情况下,对所述第一目标视频图像进行聚焦或者放大处理。
4.根据权利要求3所述的方法,其特征在于,所述方法还包括:
在所述数字人的眼球的移动角度大于预设角度的情况下,停止聚焦或者放大处理,并在所述目标视频画面切换过程中增加转场效果。
5.根据权利要求1所述的方法,其特征在于,所述方法还包括:
在检测到所述第一目标视频图像中包含目标对象的情况下,获取所述目标对象所在的目标区域;
将所述第一目标视频图像中所述目标区域之外的区域进行模糊处理。
6.根据权利要求1所述的方法,其特征在于,所述方法还包括:
在检测到所述目标数字人的瞳孔发生变化的情况下,获取所述瞳孔的变化状态;
基于所述瞳孔的变化状态调整所述第一目标视频图像中的场景亮度;其中,所述场景亮度与瞳孔的大小反相关。
7.根据权利要求6所述的方法,其特征在于,所述变化状态包括瞳孔缩小或者瞳孔放大;所述基于所述瞳孔的变化状态调整所述第一目标视频图像中的场景亮度,包括:
在所述目标数字人的瞳孔为瞳孔缩小的情况下,增加所述第一目标视频图像中的场景亮度;
在所述目标数字人的瞳孔为瞳孔放大的情况下,减小所述第一目标视频图像中的场景亮度。
8.根据权利要求1所述的方法,其特征在于,所述获取所述目标视觉角度在所述三维场景中对应的第一目标视频图像,包括:
获取所述目标视觉角度对应的第一视频图像;
对所述第一视频图像进行视频画面截取,获得具有目标形状视频帧的第一目标视频图像。
9.一种基于数字人演唱会的信息处理装置,其特征在于,所述装置包括:
场景获取模块,用于获取数字人演唱会的三维场景;
眼部图像获取模块,用于获取所述三维场景中目标数字人的眼部图像;
视觉角度确定模块,用于基于所述眼部图像获取所述目标数字人的瞳孔位置信息,并基于所述瞳孔位置信息确定所述目标数字人的目标视觉角度;
第一目标视频图像获取模块,用于获取所述目标视觉角度在所述三维场景中对应的第一目标视频图像,并显示所述第一目标视频画面。
10.一种电子设备,其特征在于,包括:
至少一个处理器;
用于存储所述至少一个处理器可执行指令的存储器;
其中,所述至少一个处理器被配置为执行所述指令,以实现如权利要求1-8中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310927056.0A CN116980679A (zh) | 2023-07-26 | 2023-07-26 | 数字人演唱会的信息处理方法、装置及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310927056.0A CN116980679A (zh) | 2023-07-26 | 2023-07-26 | 数字人演唱会的信息处理方法、装置及电子设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116980679A true CN116980679A (zh) | 2023-10-31 |
Family
ID=88474343
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310927056.0A Pending CN116980679A (zh) | 2023-07-26 | 2023-07-26 | 数字人演唱会的信息处理方法、装置及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116980679A (zh) |
-
2023
- 2023-07-26 CN CN202310927056.0A patent/CN116980679A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11782507B2 (en) | Image changes based on facial appearance | |
US20090251460A1 (en) | Systems and methods for incorporating reflection of a user and surrounding environment into a graphical user interface | |
CN111586319B (zh) | 视频的处理方法和装置 | |
US10891796B2 (en) | Systems and methods for augmented reality applications | |
JP6946566B2 (ja) | 静的な映像認識 | |
JP2023551727A (ja) | 物理キーボード追跡 | |
CN112639686A (zh) | 在虚拟环境的影像和声音与真实环境的影像和声音之间转换 | |
US20230334617A1 (en) | Camera-based Transparent Display | |
US20220189433A1 (en) | Application programming interface for setting the prominence of user interface elements | |
CN112702533B (zh) | 视线修正方法及视线修正装置 | |
EP3799415A2 (en) | Method and device for processing videos, and medium | |
US20180278903A1 (en) | Image processing apparatus, projector, image processing method, and storage medium storing image processing program | |
CN109885172B (zh) | 一种基于增强现实ar的对象互动展示方法及系统 | |
EP3862981A1 (en) | Information processing device, information processing method, and recording medium | |
CN116980679A (zh) | 数字人演唱会的信息处理方法、装置及电子设备 | |
JP2024509668A (ja) | アプリケーション間仮想現実設定における適応可能なパーソナル・ユーザ・インターフェース | |
CN114694545B (zh) | 图像显示方法、装置、投影仪及存储介质 | |
US20230317023A1 (en) | Local dimming for artificial reality systems | |
CN114630085B (zh) | 图像投影方法、装置、存储介质及电子设备 | |
US11887267B2 (en) | Generating and modifying representations of hands in an artificial reality environment | |
CN117376591A (zh) | 基于虚拟现实的场景切换处理方法、装置、设备及介质 | |
CN116258738A (zh) | 图像处理方法、装置、电子设备及存储介质 | |
JP2022131735A (ja) | ユーザインターフェース装置、制御方法、及びプログラム | |
CN117478931A (zh) | 信息显示方法、装置、电子设备及存储介质 | |
TW202126026A (zh) | 電腦系統及其影像補償方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |