CN117032520A - 基于数字人的视频播放方法、装置、电子设备及存储介质 - Google Patents
基于数字人的视频播放方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN117032520A CN117032520A CN202310849466.8A CN202310849466A CN117032520A CN 117032520 A CN117032520 A CN 117032520A CN 202310849466 A CN202310849466 A CN 202310849466A CN 117032520 A CN117032520 A CN 117032520A
- Authority
- CN
- China
- Prior art keywords
- digital person
- information
- current playing
- playing content
- target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 61
- 238000009877 rendering Methods 0.000 claims abstract description 23
- 230000008569 process Effects 0.000 claims abstract description 15
- 230000008451 emotion Effects 0.000 claims description 23
- 230000009471 action Effects 0.000 claims description 22
- 230000006399 behavior Effects 0.000 claims description 8
- 230000006870 function Effects 0.000 description 11
- 238000004590 computer program Methods 0.000 description 10
- 238000010586 diagram Methods 0.000 description 10
- 230000000875 corresponding effect Effects 0.000 description 9
- 238000005286 illumination Methods 0.000 description 9
- 238000012545 processing Methods 0.000 description 9
- 238000004364 calculation method Methods 0.000 description 6
- 238000004891 communication Methods 0.000 description 6
- 230000003993 interaction Effects 0.000 description 6
- 230000001276 controlling effect Effects 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 2
- 239000003086 colorant Substances 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000001815 facial effect Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 235000021167 banquet Nutrition 0.000 description 1
- 230000010267 cellular communication Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000005484 gravity Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000000638 stimulation Effects 0.000 description 1
- 230000003945 visual behavior Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/048—Interaction techniques based on graphical user interfaces [GUI]
- G06F3/0481—Interaction techniques based on graphical user interfaces [GUI] based on specific properties of the displayed interaction object or a metaphor-based environment, e.g. interaction with desktop elements like windows or icons, or assisted by a cursor's changing behaviour or appearance
- G06F3/04815—Interaction with a metaphor-based environment or interaction object displayed as three-dimensional, e.g. changing the user viewpoint with respect to the environment or object
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/048—Interaction techniques based on graphical user interfaces [GUI]
- G06F3/0484—Interaction techniques based on graphical user interfaces [GUI] for the control of specific functions or operations, e.g. selecting or manipulating an object, an image or a displayed text element, setting a parameter value or selecting a range
- G06F3/04847—Interaction techniques to control parameter settings, e.g. interaction with sliders or dials
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T15/00—3D [Three Dimensional] image rendering
- G06T15/005—General purpose rendering architectures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T15/00—3D [Three Dimensional] image rendering
- G06T15/50—Lighting effects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/172—Classification, e.g. identification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/174—Facial expression recognition
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N5/00—Details of television systems
- H04N5/222—Studio circuitry; Studio devices; Studio equipment
- H04N5/262—Studio circuits, e.g. for mixing, switching-over, change of character of image, other special effects ; Cameras specially adapted for the electronic generation of special effects
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Computer Graphics (AREA)
- General Health & Medical Sciences (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Health & Medical Sciences (AREA)
- Signal Processing (AREA)
- Processing Or Creating Images (AREA)
Abstract
本公开涉及基于数字人的视频播放方法、装置、电子设备及存储介质,其方法包括:在目标视频播放过程中,获取目标视频当前的播放内容和待显示的数字人;获取当前播放内容中的场景信息;基于场景信息对数字人进行渲染;在目标视频的当前播放内容中显示渲染后的数字人,并驱动数字人。在目标视频播放过程中,会获取该目标视频当前的播放内容和待显示的数字人,通过获取当前播放内容中的场景信息对数字人进行渲染,并在当前播放内容中显示渲染后的数字人,并驱动数字人进行互动。实施例中由于基于当前播放内容中的场景信息对数字人进行渲染,使得在渲染后的数字人能够更好的融入到目标视频的当前播放内容中。
Description
技术领域
本公开涉及数字人技术领域,尤其涉及基于数字人的视频播放方法、装置、电子设备及存储介质。
背景技术
数字人一直是三维视觉和计算机图形学的研究热点,其广泛应用于AR、VR、全息通信、影视与游戏制作等多个领域。数字人的基本研究可描述为将人以及与之相关的人体、人脸以及服装等对象进行数字化表示,表示内容则往往涉及数字人的几何外观和语义信息。
而在观影场景中,相关技术通常是通过设定的数字人形象,与观影群众进行交互,但这种交互往往脱离视频场景,显得比较突兀,很多时候会给用户的观影体验带来负面的影响。
发明内容
本公开提供了一种基于数字人的视频播放方法、装置、电子设备及存储介质。
根据本公开的第一方面,提供了一种基于数字人的视频播放方法,所述方法包括:
在目标视频播放过程中,获取所述目标视频当前的播放内容和待显示的数字人;
获取所述当前播放内容中的场景信息,所述场景信息包括目标对象的识别信息和/或光线信息;
基于所述场景信息对所述数字人进行渲染;
在所述目标视频的当前播放内容中显示渲染后的所述数字人,并驱动所述数字人。
根据本公开的第二方面,提供了一种基于数字人的视频播放装置,所述装置包括:
数据获取模块,用于在目标视频播放过程中,获取所述目标视频当前的播放内容和待显示的数字人;
场景信息获取模块,用于获取所述当前播放内容中的场景信息,所述场景信息包括目标对象的识别信息和/或光线信息;
渲染模块,用于基于所述场景信息对所述数字人进行渲染;
驱动模块,用于在所述目标视频的当前播放内容中显示渲染后的所述数字人,并驱动所述数字人。
根据本公开的第三方面,提供了一种电子设备。该电子设备包括:存储器和处理器,所述存储器上存储有计算机程序,所述处理器执行所述程序时实现如以上所述的方法。
根据本公开的第四方面,提供了一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现本公开的上述方法。
本公开实施例提供的基于数字人的视频播放方法、装置、电子设备及存储介质,在目标视频播放过程中,会获取该目标视频当前的播放内容和待显示的数字人,通过获取当前播放内容中的场景信息对数字人进行渲染,并在当前播放内容中显示渲染后的数字人,并驱动数字人进行互动。实施例中由于基于当前播放内容中的场景信息对数字人进行渲染,使得在渲染后的数字人能够更好的融入到目标视频的当前播放内容中。
附图说明
在下面结合附图对于示例性实施例的描述中,本公开的更多细节、特征和优点被公开,在附图中:
图1为本公开一示例性实施例提供的基于数字人的视频播放方法的流程图;
图2为本公开一示例性实施例提供的场景示意图;
图3为本公开一示例性实施例提供的基于数字人的视频播放装置的功能模块示意性框图;
图4为本公开一示例性实施例提供的电子设备的结构框图;
图5为本公开一示例性实施例提供的计算机系统的结构框图。
具体实施方式
下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例,然而应当理解的是,本公开可以通过各种形式来实现,而且不应该被解释为限于这里阐述的实施例,相反提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是,本公开的附图及实施例仅用于示例性作用,并非用于限制本公开的保护范围。
应当理解,本公开的方法实施方式中记载的各个步骤可以按照不同的顺序执行,和/或并行执行。此外,方法实施方式可以包括附加的步骤和/或省略执行示出的步骤。本公开的范围在此方面不受限制。
本文使用的术语“包括”及其变形是开放性包括,即“包括但不限于”。术语“基于”是“至少部分地基于”。术语“一个实施例”表示“至少一个实施例”;术语“另一实施例”表示“至少一个另外的实施例”;术语“一些实施例”表示“至少一些实施例”。其他术语的相关定义将在下文描述中给出。需要注意,本公开中提及的“第一”、“第二”等概念仅用于对不同的装置、模块或单元进行区分,并非用于限定这些装置、模块或单元所执行的功能的顺序或者相互依存关系。
需要注意,本公开中提及的“一个”、“多个”的修饰是示意性而非限制性的,本领域技术人员应当理解,除非在上下文另有明确指出,否则应该理解为“一个或多个”。
本公开实施方式中的多个装置之间所交互的消息或者信息的名称仅用于说明性的目的,而并不是用于对这些消息或信息的范围进行限制。
在本公开提供的实施例中,通过将数字人形象融合到具体是视频播放场景中,并基于用户的情绪和剧情等,与用户形成积极有效的互动,形成数字人陪同用户观影。这样在一个人或多人看电影、影视剧或直播等视频时,数字人可陪同与观影人一起观看,通过对影片进行评论或互动等,提升观影人的“陪伴”体验。
因此,本公开实施例首先提供了一种基于数字人的视频播放方法,如图1所示,该方法可以包括如下步骤:
在步骤S110中,在目标视频播放过程中,获取目标视频当前的播放内容和待显示的数字人。
实施例中,为了提升数字人陪同用户观影体验,首先需要渲染数字人形象,使得数字人的形象能够更好的融入视频的当前场景中,另外在用户观看视频的过程中,需要数字人与用户形成有效的互动,达到数字人陪伴用户观影的效果。
实施例中,可以预先设置有多个数字人形象,该多个数字人形象可以分别对应多个不同的类型。实施例中,可以根据用户对该多个数字人形象的选择操作,选择自己喜爱的数字人形象确定待显示数字人,还可以根据视频当前播放的内容,自动为用户推荐待显示的数字人形象确定待显示数字人,使得得到的待显示数字人与视频当前播放的内容相关,例如,视频当前播放的内容为武侠片,可以将预先生成的“小剑客”数字人形象作为待显示数字人,例如当前播放的内容为卡通片,可以将对应的卡通形象作为待显示数字人等等,在视频当前播放的内容发生变化时,可以对应调整待显示数字人的形象;实施例中还可以根据目标视频的视频类型确定出待显示数字人等等,实施例不限于此。
在步骤S120中,获取当前播放内容中的场景信息。其中,该场景信息包括光线信息。
为了使得数字人更好的融入到当前播放内容的视频画面中,还需要对数字人颜色、光照信息等处理,避免因数字人的颜色或者光照信息与视频画面不匹配,导致数字人不能更好的融入当前的视频画面中。
实施例中,还可以对视频中进行目标对象识别和光线识别,因此该场景信息还可以目标对象的识别信息。该目标对象识别可以包括场景中,所有人物、物体、人物之间的距离、大小或颜色等等的识别结果。如果视频为3D画面,具体可以是对场景进行3D识别,获得视频中的人物和物体的3D信息。
并且还可以对当前播放内容的视频画面中进行光线识别,获取环境光、点光源、物体自发光或反射光的颜色与方向等光线信息。
实施例中,在对视频播放内容中场景的识别过程中,通过对上述目标对象识别和光线识别进行动态跟踪,实时判断每一帧中每个场景中的人物、物体等的位置信息,以及光照和环境光等信息。
在步骤S130中,基于场景信息对数字人进行渲染。
在步骤S140中,在目标视频的当前播放内容中显示渲染后的数字人,并驱动数字人。
本公开实施例可以根据上述获得的场景信息进行建模,并将设计好的数字人形象输入到创建的模型中,渲染出与场景信息相匹配的数字人,并将渲染后的数字人现实的到当前播放内容中。这样渲染出的数字人形象能够与当前播放内容中的人物的颜色和光照等相匹配,使得渲染后的数字人能够更好的融入到视频中,而不会显得突兀。
需要说明的是,在本公开实施例可以通过预先设定数字人的形象,具体的,可以通过对数字人进行分类,通过观影人群、当前波束视频的视频内容或者根据用户的选择来获得对应的数字人形象。
本公开实施例提供的基于数字人的视频播放方法,在目标视频播放过程中,会获取该目标视频当前的播放内容和待显示的数字人,通过获取当前播放内容中的场景信息对数字人进行渲染,并在当前播放内容中显示渲染后的数字人,并驱动数字人进行互动。实施例中由于基于当前播放内容中的场景信息对数字人进行渲染,使得在渲染后的数字人能够更好的融入到目标视频的当前播放内容中。
基于上述实施例,在本公开提供的又一实施例中,上述目标对象可以包括剧情任务,该方法还可以包括以下步骤:
在步骤S150中,在当前播放内容中检测到剧情人物的情况下,获取剧情人物的服饰特征。
在步骤S160中,基于服饰特征和场景信息,确定数字人的目标服饰,并控制数字人穿戴目标服饰。
为了使数字人形象能够更好的融入到当前播放的视频画面中,避免数字人出现在视频中时会有突兀感,可以对当前播放内容进行角色检测,例如检测当前播放画面中的主角形象,获取该主角或者相关人物角色的服饰特点,可以结合视频影片的分类,提取相应的特征风格的服饰穿在数字人身上。例如可以建立数字人服饰与人物角色、视频分类之间的对应关系,便于获取适合数字人的服饰,使得数字人可以更好的融入当前视频播放内容中。
实施例中,如果在当前播放内容中检测不到人物角色,可以根据视频的类型、风格、场景或者天气等信息,通过训练后的模型等AI手段为数字人生成或者选择合适的服饰,并穿戴到数字人身上。
基于上述实施例,在本公开提供的又一实施例中,上述步骤S130具体还可以包括如下步骤:
S131,基于场景信息中的目标对象的识别信息和光线信息,建立渲染模型。
S132,通过渲染模型对数字人进行渲染。
实施例中,可以将上述获取到的目标对象的识别结果与光线信息进行动态建模,并将上述准备好的数字人输入到渲染模型中,动态渲染出需要展示数字人形象。需要说明的是,实施例中还可以根据目标对象的识别结果或上述光线信息进行建模,实施例中以根据该识别结果和光线信息进行建模为例进行说明,建立渲染模型。
在本公开提供的实施例中,可以获取当前播放内容的场景中的预设信息,获得光线信息。该预设信息可以包括漫反射信息、高光信息和环境光信息中的至少一种,例如可以并将漫反射信息、高光信息和环境光信息进行叠加,获得光线信息。其中,漫反射信息、高光信息和环境光信息分别通过如下计算方式得到,具体如下:
1)漫反信息射计算
根据入射光的方向向量L,入射光的颜色le,以及物体面的发线N,物体颜色Kd,则计算出漫反射光的颜色强度l:
l =le* Kd *( L· N ) (1)
2)高光信息的计算
根据视角向量V,入射光的颜色le,物体镜面反射的颜色Ks,反射光的方向向量R,入射光关于法线N的对称向量,反射强度spec,得到高光信息l(V):
l(V) = le*Ks*(V·R)spec (2)
3)环境光信息的计算
根据环境光的颜色la,物体的环境光系数Ka,计算环境光信息l(e):
l(e)=la*Ka (3)
4)整个光照计算
通过整个光照计算,一个物体在光照下拥有明暗关系之后的颜色为C:
C=∑l+∑l(V)+l(e) (4)
场景中的环境光只有一个,而发光光源可能有好几个,因此需要将高光和漫反射对应的每个光源都要包括在内,然后加起来得到上式(4)。实施例中还可以基于将上述漫反射光的颜色强度l、高光信息l(V)和环境光信息l(e),得到物体的颜色C,例如将颜色强度l、高光信息l(V)和环境光信息l(e)中的至少一种或者至少两种之间的叠加得到C。
通过上述公式(4)建立的渲染模型对数字人进行渲染,使得渲染后的数字人形象的颜色、光照等能够与当前播放内容中的人物等的颜色和光照等相匹配,可以让渲染后的数字人形象能够很好的融合到当前播放内容中。
基于上述实施例,在本公开提供的又一实施例中,上述步骤S140具体还可以包括如下步骤:
S141,根据目标视频当前的播放内容获取当前的场景类型。
S142,获取当前观看目标视频用户的观看情绪。
S143,基于场景类型和观看情绪,确定数字人的第一目标动作,并驱动数字人执行第一目标动作。
在本公开提供的实施例中,可以获取当前观影的用户情绪以及当前剧情片段的特征。具体可以通过摄像头捕捉用户当前的面部画面,通过对面部画面进行特征提取,进而识别出用户观看时当前的观看情绪。例如,通过对用户面部画面的特征情绪识别,分析观影人当前的观影情绪,如紧张、害怕、恐惧、专注、思考或分心等等,并对识别的情绪进行特征标记。
实施例中,还可以对视频当前的播放内容进行分析,例如通过播放内容的特征提取并进行识别,获得当前的播放内容的场景类型,该场景类型可以是海滩、城市、郊区、森林、宴会或街道等,还可以获取当前播放内容的剧情场景,例如武侠、都市或者冒险等。还可以进一步通过对当前的播放内容和弹幕进行分析,获得当前剧情的精彩程度和剧情的重心等剧情场景。
在获得当前观影的用户情绪和目标视频当前的播放内容获取当前的场景类型的情况下,就可以通过数字人与观众进行互动。例如在离别场景中,数字人可以做出挥手告别的动作;在用户伤心的情况下,数字人做出安抚的动作;在用户高兴的情况下,数字人做出兴奋的动作;在剧烈运动的场景中,数字人会执行奔跑等动作;在舞蹈场景中,数字人可以大家一起跳舞。这样可以通过检测当前场景,对当前场景中的特征进行标记、以及对跟随角色的进行行为分析数字人根据识别的场景特征、或者跟随角色的形象行为做出不同的互动。实施例中可以将数字人根据用户情绪和场景类型执行的动作作为第一目标动作。
在本公开提供的实施例中,在检测到当前播放内容存在目标对象的情况下,可以基于观看情绪或场景信息,控制数字人在当前播放内容中跟随目标对象或者将数字人隐藏。
实施例中,数字人的隐藏与跟随,可以根据跟随角色的出场、观影人的情绪或剧情的精彩程度决定。例如,通过检测当前播放内容的场景中是否存在角色,该角色可以为视频中的出场人物,如主角或者特定人物等。如果当前播放内容的场景中不存在角色,结束该检测。如果当前播放内容的场景中存在角色,获取目标视频用户的观看情况和当前播放内容的场景信息,例如是否为紧张或者专注等,场景信息是否包含精彩或者刺激等,如果目标视频用户当前的观看情绪为紧张或者专注,或者场景信息为精彩或者刺激等,这时可以隐藏数字人,否则不隐藏数字人,避免数字人的出现分散目标用户的观影注意力,导致目标用户此时观看体验不佳的情况出现。如果不是上述用户情绪为专注或者紧张,场景信息为精彩或者刺激等,可以不隐藏数字人,可以通过数字人与用户的互动提供用户的观影体验。
示例性的,对观影人当前的情绪、以及该影片场景的精彩程度进行分析,获取当前的观影人专注或紧张程度z、以及剧情的精彩程度j。当z或j大于各自设定的阈值,数字人自动隐藏。例如,数字人藏在角色的身后、钻进头发或者躲在其他物体后等等。当z或j不大于各自设定的阈值,数字人从躲藏的地方出来,跟随角色。例如,数字人从背后飞出,爬上肩膀或者头发中跳出等等,并根据剧情做出不同的响应。
基于上述实施例,在本公开提供的又一实施例中,上述步骤S140具体还可以包括如下步骤:
S145,获取当前播放内容中目标对象的位置信息和目标对象的行为信息。
S146,基于目标对象的位置信息,确定数字人在当前播放内容中的位置信息。
S147,基于行为信息,确定数字人的第二目标动作,并驱动数字人执行第二目标动作。
在本公开提供的实施例中,例如目标对象可以为剧情中的人物,可以通过获取当前播放内容中人物的位置信息和人物的行为信息,确定数字人的位置信息,并驱动数字人执行相应的动作。
实施例中,可以检测当前剧情中,角色的出场位置。在确定角色的位置之后,就可以控制数字人在视频中的位置及执行相应的动作。
例如,如图2所示,以数字人在头部环绕为例,获取跟随角色抠图蒙版,获取角色头区域rect,角色头部的欧拉角pitch,yaw,roll。
通过区域rect、欧拉角计算出数字人环绕的中心点位p=rect.center,目标角色的头部宽度w=rect.width。可以获得数字人的环绕半径r:
r = w ÷ cos(pitch) ÷ cos(yaw) *λ (5)
其中,λ为绕圈半径系数,w为目标角色的头部宽度,rect表示图2中的矩形区域。
可以根据当前数字人的运行角度θ,计算出数字人的位置Pa:
Pa =( p. x+ r *cos (θ ) , p. y , p . z +r * sin (θ )) (6)
如图2所示,数字人可以围绕角色的头部环绕移动,其中,图2中中间的形象为角色,角色头部的位数字围绕该角色转动。
在采用对应各个功能划分各个功能模块的情况下,本公开实施例提供了一种基于数字人的视频播放装置,该基于数字人的视频播放装置可以为服务器或应用于服务器的芯片。图3为本公开一示例性实施例提供的基于数字人的视频播放装置的功能模块示意性框图。
如图3所示,该基于数字人的视频播放装置包括:
数据获取模块10,用于在目标视频播放过程中,获取所述目标视频当前的播放内容和待显示的数字人;
场景信息获取模块20,用于获取所述当前播放内容中的场景信息,所述场景信息包括光线信息;
渲染模块30,用于基于所述场景信息对所述数字人进行渲染;
驱动模块40,用于在所述目标视频的当前播放内容中显示渲染后的所述数字人,并驱动所述数字人。
可选地,所述场景信息还包括目标对象的识别信息。
可选地,所述目标对象包括剧情人物,所述装置还包括:
服饰特征获取模块,用于在所述当前播放内容中检测到剧情人物的情况下,获取所述剧情人物的服饰特征;
目标服饰确定模块,用于基于所述服饰特征和所述场景信息,确定所述数字人的目标服饰,并控制所述数字人穿戴所述目标服饰。
可选地,所述渲染模块,具体用于:
基于所述场景信息中的目标对象的识别信息和所述光线信息,建立渲染模型;
通过所述渲染模型对所述数字人进行渲染。
可选地,所述装置还包括:
光线信息获取模块,用于基于所述当前播放内容的场景中的预设信息,获得所述光线信息;其中,所述预设信息包括漫反射信息、高光信息和环境光信息的至少一种。
可选地,所述驱动模块,具体用于:
根据所述目标视频当前的播放内容获取当前的场景类型;
获取当前观看所述目标视频用户的观看情绪;
基于所述场景类型和所述观看情绪,确定所述数字人的第一目标动作,并驱动所述数字人执行所述第一目标动作。
可选地,所述驱动模块,具体用于:
获取所述当前播放内容中目标对象的位置信息和所述目标对象的行为信息;
基于所述目标对象的位置信息,确定所述数字人在所述当前播放内容中的位置信息;
基于所述行为信息,确定所述数字人的第二目标动作,并驱动所述数字人执行所述第二目标动作。
可选地,所述装置还包括:
控制模块,用于在检测到所述当前播放内容存在目标对象的情况下,基于所述观看情绪或所述场景信息,控制所述数字人在所述当前播放内容中跟随所述目标对象或者将所述数字人隐藏。
可选地,所述装置还包括:
隐藏模块,用于在所述观看情绪包括专注或者紧张的情况下,控制所述数字人在所述当前播放内容中隐藏;
动作控制模块,用于在所述场景信息包括精彩或刺激的情况下,在所述当前播放内容中显示所述数字人,并控制所述数字人执行跟随所述目标对象的动作。
有关装置部分,参见上述实施例的描述,这里不再赘述。
本公开实施例提供的基于数字人的视频播放装置,在目标视频播放过程中,会获取该目标视频当前的播放内容和待显示的数字人,通过获取当前播放内容中的场景信息对数字人进行渲染,并在当前播放内容中显示渲染后的数字人,并驱动数字人进行互动。实施例中由于基于当前播放内容中的场景信息对数字人进行渲染,使得在渲染后的数字人能够更好的融入到目标视频的当前播放内容中。
本公开实施例还提供一种电子设备,包括:至少一个处理器;用于存储所述至少一个处理器可执行指令的存储器;其中,所述至少一个处理器被配置为执行所述指令,以实现本公开实施例公开的上述方法。
图4为本公开一示例性实施例提供的电子设备的结构示意图。如图4所示,该电子设备1800包括至少一个处理器1801以及耦接至处理器1801的存储器1802,该处理器1801可以执行本公开实施例公开的上述方法中的相应步骤。
上述处理器1801还可以称为中央处理单元(central processing unit,CPU),其可以是一种集成电路芯片,具有信号的处理能力。本公开实施例公开的上述方法中的各步骤可以通过处理器1801中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器1801可以是通用处理器、数字信号处理器(digital signal processing,DSP)、ASIC、现成可编程门阵列(field-programmable gate array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本公开实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于存储器1802中,例如随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质。处理器1801读取存储器1802中的信息,结合其硬件完成上述方法的步骤。
另外,根据本公开的各种操作/处理在通过软件和/或固件实现的情况下,可从存储介质或网络向具有专用硬件结构的计算机系统,例如图5所示的计算机系统1900安装构成该软件的程序,该计算机系统在安装有各种程序时,能够执行各种功能,包括诸如前文所述的功能等等。图5为本公开一示例性实施例提供的计算机系统的结构框图。
计算机系统1900旨在表示各种形式的数字电子的计算机设备,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。
如图5所示,计算机系统1900包括计算单元1901,该计算单元1901可以根据存储在只读存储器(ROM)1902中的计算机程序或者从存储单元1908加载到随机存取存储器(RAM)1903中的计算机程序,来执行各种适当的动作和处理。在RAM 1903中,还可存储计算机系统1900操作所需的各种程序和数据。计算单元1901、ROM 1902以及RAM 1903通过总线1904彼此相连。输入/输出(I/O)接口1905也连接至总线1904。
计算机系统1900中的多个部件连接至I/O接口1905,包括:输入单元1906、输出单元1907、存储单元1908以及通信单元1909。输入单元1906可以是能向计算机系统1900输入信息的任何类型的设备,输入单元1906可以接收输入的数字或字符信息,以及产生与电子设备的用户设置和/或功能控制有关的键信号输入。输出单元1907可以是能呈现信息的任何类型的设备,并且可以包括但不限于显示器、扬声器、视频/音频输出终端、振动器和/或打印机。存储单元1908可以包括但不限于磁盘、光盘。通信单元1909允许计算机系统1900通过网络诸如因特网的与其他设备交换信息/数据,并且可以包括但不限于调制解调器、网卡、红外通信设备、无线通信收发机和/或芯片组,例如蓝牙TM设备、WiFi设备、WiMax设备、蜂窝通信设备和/或类似物。
计算单元1901可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元1901的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元1901执行上文所描述的各个方法和处理。例如,在一些实施例中,本公开实施例公开的上述方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元1908。在一些实施例中,计算机程序的部分或者全部可以经由ROM 1902和/或通信单元1909而被载入和/或安装到电子设备1900上。在一些实施例中,计算单元1901可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行本公开实施例公开的上述方法。
本公开实施例还提供一种计算机可读存储介质,其中,当所述计算机可读存储介质中的指令由电子设备的处理器执行时,使得所述电子设备能够执行本公开实施例公开的上述方法。
本公开实施例中的计算机可读存储介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。上述计算机可读存储介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。更具体的,上述计算机可读存储介质可以包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
上述计算机可读介质可以是上述电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。
本公开实施例还提供一种计算机程序产品,包括计算机程序,其中,所述计算机程序被处理器执行时实现本公开实施例公开的上述方法。
在本公开的实施例中,可以以一种或多种程序设计语言或其组合来编写用于执行本公开的操作的计算机程序代码,上述程序设计语言包括但不限于面向对象的程序设计语言,诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言,诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络(包括局域网(LAN)或广域网(WAN))连接到用户计算机,或者,可以连接到外部计算机。
附图中的流程图和框图,图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本公开实施例中所涉及到的模块、部件或单元可以通过软件的方式实现,也可以通过硬件的方式来实现。其中,模块、部件或单元的名称在某种情况下并不构成对该模块、部件或单元本身的限定。
本文中以上描述的功能可以至少部分地由一个或多个硬件逻辑部件来执行。例如,非限制性地,可以使用的示例性的硬件逻辑部件包括:现场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、片上系统(SOC)、复杂可编程逻辑设备(CPLD)等等。
以上描述仅为本公开的一些实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本公开中所涉及的公开范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离上述公开构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本公开中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。
虽然已经通过示例对本公开的一些特定实施例进行了详细说明,但是本领域的技术人员应该理解,以上示例仅是为了进行说明,而不是为了限制本公开的范围。本领域的技术人员应该理解,可在不脱离本公开的范围和精神的情况下,对以上实施例进行修改。本公开的范围由所附权利要求来限定。
Claims (12)
1.一种基于数字人的视频播放方法,其特征在于,所述方法包括:
在目标视频播放过程中,获取所述目标视频当前的播放内容和待显示的数字人;
获取所述当前播放内容中的场景信息,所述场景信息包括光线信息;
基于所述场景信息对所述数字人进行渲染;
在所述目标视频的当前播放内容中显示渲染后的所述数字人,并驱动所述数字人。
2.根据权利要求1所述的方法,其特征在于,所述场景信息还包括目标对象的识别信息。
3.根据权利要求2所述的方法,其特征在于,所述目标对象包括剧情人物,所述方法还包括:
在所述当前播放内容中检测到剧情人物的情况下,获取所述剧情人物的服饰特征;
基于所述服饰特征和所述场景信息,确定所述数字人的目标服饰,并控制所述数字人穿戴所述目标服饰。
4.根据权利要求1所述的方法,其特征在于,所述基于所述场景信息对所述数字人进行渲染,包括:
基于所述场景信息中的目标对象的识别信息和所述光线信息,建立渲染模型;
通过所述渲染模型对所述数字人进行渲染。
5.根据权利要求4所述的方法,其特征在于,所述方法还包括:
基于所述当前播放内容的场景中的预设信息,获得所述光线信息;其中,所述预设信息包括漫反射信息、高光信息和环境光信息的至少一种。
6.根据权利要求1所述的方法,其特征在于,所述驱动所述数字人,包括:
根据所述目标视频当前的播放内容获取当前的场景类型;
获取当前观看所述目标视频用户的观看情绪;
基于所述场景类型和所述观看情绪,确定所述数字人的第一目标动作,并驱动所述数字人执行所述第一目标动作。
7.根据权利要求1所述的方法,其特征在于,所述驱动所述数字人,包括:
获取所述当前播放内容中目标对象的位置信息和所述目标对象的行为信息;
基于所述目标对象的位置信息,确定所述数字人在所述当前播放内容中的位置信息;
基于所述行为信息,确定所述数字人的第二目标动作,并驱动所述数字人执行所述第二目标动作。
8.根据权利要求6所述的方法,其特征在于,所述方法还包括:
在检测到所述当前播放内容存在目标对象的情况下,基于所述观看情绪或所述场景信息,控制所述数字人在所述当前播放内容中跟随所述目标对象或者将所述数字人隐藏。
9.根据权利要求8所述的方法,其特征在于,所述方法还包括:
在所述观看情绪包括专注或者紧张的情况下,控制所述数字人在所述当前播放内容中隐藏;
在所述场景信息包括精彩或刺激的情况下,在所述当前播放内容中显示所述数字人,并控制所述数字人执行跟随所述目标对象的动作。
10.一种基于数字人的视频播放装置,其特征在于,所述装置包括:
数据获取模块,用于在目标视频播放过程中,获取所述目标视频当前的播放内容和待显示的数字人;
场景信息获取模块,用于获取所述当前播放内容中的场景信息,所述场景信息包括目标对象的识别信息和/或光线信息;
渲染模块,用于基于所述场景信息对所述数字人进行渲染;
驱动模块,用于在所述目标视频的当前播放内容中显示渲染后的所述数字人,并驱动所述数字人。
11.一种电子设备,其特征在于,包括:
至少一个处理器;
用于存储所述至少一个处理器可执行指令的存储器;
其中,所述至少一个处理器被配置为执行所述指令,以实现如权利要求1-9中任一项所述的方法。
12.一种计算机可读存储介质,其特征在于,当所述计算机可读存储介质中的指令由电子设备的处理器执行时,使得所述电子设备能够执行如权利要求1-9中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310849466.8A CN117032520A (zh) | 2023-07-11 | 2023-07-11 | 基于数字人的视频播放方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310849466.8A CN117032520A (zh) | 2023-07-11 | 2023-07-11 | 基于数字人的视频播放方法、装置、电子设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117032520A true CN117032520A (zh) | 2023-11-10 |
Family
ID=88640357
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310849466.8A Pending CN117032520A (zh) | 2023-07-11 | 2023-07-11 | 基于数字人的视频播放方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117032520A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117336520A (zh) * | 2023-12-01 | 2024-01-02 | 江西拓世智能科技股份有限公司 | 基于智能数字人的直播信息的处理方法及处理装置 |
CN117376596A (zh) * | 2023-12-08 | 2024-01-09 | 江西拓世智能科技股份有限公司 | 基于智能数字人模型的直播方法、装置及存储介质 |
-
2023
- 2023-07-11 CN CN202310849466.8A patent/CN117032520A/zh active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117336520A (zh) * | 2023-12-01 | 2024-01-02 | 江西拓世智能科技股份有限公司 | 基于智能数字人的直播信息的处理方法及处理装置 |
CN117376596A (zh) * | 2023-12-08 | 2024-01-09 | 江西拓世智能科技股份有限公司 | 基于智能数字人模型的直播方法、装置及存储介质 |
CN117376596B (zh) * | 2023-12-08 | 2024-04-26 | 江西拓世智能科技股份有限公司 | 基于智能数字人模型的直播方法、装置及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11544884B2 (en) | Virtual clothing try-on | |
US10529071B2 (en) | Facial skin mask generation for heart rate detection | |
US9460340B2 (en) | Self-initiated change of appearance for subjects in video and images | |
US9750420B1 (en) | Facial feature selection for heart rate detection | |
CN111726536A (zh) | 视频生成方法、装置、存储介质及计算机设备 | |
CN117032520A (zh) | 基于数字人的视频播放方法、装置、电子设备及存储介质 | |
US11176355B2 (en) | Facial image processing method and apparatus, electronic device and computer readable storage medium | |
JP6587435B2 (ja) | 画像処理装置、情報処理方法及びプログラム | |
US9792491B1 (en) | Approaches for object tracking | |
US11276238B2 (en) | Method, apparatus and electronic device for generating a three-dimensional effect based on a face | |
US20140223474A1 (en) | Interactive media systems | |
US11935294B2 (en) | Real time object surface identification for augmented reality environments | |
CN109982036A (zh) | 一种全景视频数据处理的方法、终端以及存储介质 | |
JP2018506198A (ja) | オブジェクト検出に基づき外挿画像を生成する方法及び装置 | |
KR20180074180A (ko) | 가상현실 영상에 대한 정보를 제공하는 장치 및 방법 | |
US9811916B1 (en) | Approaches for head tracking | |
CN111639613B (zh) | 一种增强现实ar特效生成方法、装置及电子设备 | |
US20240070976A1 (en) | Object relighting using neural networks | |
Kremer et al. | Psm: Parametric saliency maps for autonomous pedestrians | |
Takahashi et al. | Estimation of viewers’ ratings of TV programs based on behaviors in home environments | |
CN111507139A (zh) | 图像效果生成方法、装置和电子设备 | |
US20230135254A1 (en) | A system and a method for personalized content presentation | |
CN111079472A (zh) | 图像对比方法和装置 | |
Zdziarski | Visual Attention Using 2D & 3D Displays |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |