CN116708905A - 在电视盒子上实现数字人交互的方法和装置 - Google Patents
在电视盒子上实现数字人交互的方法和装置 Download PDFInfo
- Publication number
- CN116708905A CN116708905A CN202310981021.5A CN202310981021A CN116708905A CN 116708905 A CN116708905 A CN 116708905A CN 202310981021 A CN202310981021 A CN 202310981021A CN 116708905 A CN116708905 A CN 116708905A
- Authority
- CN
- China
- Prior art keywords
- audio
- digital
- user
- television box
- digital human
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 56
- 230000003993 interaction Effects 0.000 title claims abstract description 49
- 230000004044 response Effects 0.000 claims description 32
- 230000009471 action Effects 0.000 claims description 26
- 230000014509 gene expression Effects 0.000 claims description 21
- 230000008921 facial expression Effects 0.000 claims description 15
- 238000009877 rendering Methods 0.000 claims description 15
- 238000004458 analytical method Methods 0.000 claims description 9
- 230000008859 change Effects 0.000 claims description 9
- 238000004590 computer program Methods 0.000 claims description 5
- 230000008569 process Effects 0.000 description 12
- 230000006870 function Effects 0.000 description 6
- 230000015654 memory Effects 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 5
- 238000004891 communication Methods 0.000 description 3
- 238000013527 convolutional neural network Methods 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 230000003340 mental effect Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 238000006748 scratching Methods 0.000 description 1
- 230000002393 scratching effect Effects 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/431—Generation of visual interfaces for content selection or interaction; Content or additional data rendering
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/41—Structure of client; Structure of client peripherals
- H04N21/422—Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS]
- H04N21/42203—Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS] sound input device, e.g. microphone
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/439—Processing of audio elementary streams
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/44—Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
本申请提供了一种在电视盒子上实现数字人交互的方法和装置,包括:采集用户的音视频数据,将所述音视频数据上传至云服务器,其中,所述音视频数据包括用户的视频和/或音频;接收所述云服务器发送的数字人音视频流,其中,所述数字人音视频流包括数字人视频流和音频流,组成所述数字人视频流的各个图像帧的背景颜色为指定颜色;对所述各个图像帧进行处理,以使数字人形象从所述指定颜色的背景中分离出来,并将处理后的各个图像帧与所述电视盒子的用户界面进行图像混合,对所述音频流进行播放,通过该方案能够克服电视盒子的硬件限制,将数字人业务应用在电视盒子,实现数字人在电视盒子的界面上与用户交互。
Description
技术领域
本发明涉及计算机技术领域,特别涉及一种在电视盒子上实现数字人交互的方法和装置。
背景技术
相关技术中,随着科技的进步,电视盒子已经成为了许多家庭中不可或缺的一部分,为用户提供了丰富的娱乐和信息服务。然而,电视盒子的硬件性能通常较低,对于一些复杂的计算任务,如运行数字人业务,就显得力不从心。数字人业务是最近几年AI技术的一种应用,能够根据用户的需求提供问题解答、功能讲解、投诉建议等服务,极大地改善了用户的交互体验。然而,这种业务通常需要大量的计算资源以进行图像渲染和语音识别等任务,因此无法在电视盒子上本地运行。
有鉴于此,如何克服电视盒子的硬件限制,将数字人业务应用在电视盒子,使其能够利用云服务在本地提供数字人业务,实现数字人在电视盒子的界面上与用户交互,成为亟待解决的技术问题。
发明内容
有鉴于此,本申请实施例提供一种在电视盒子上实现数字人交互的方法和装置、电子设备及存储介质,能够有效地约束关节点角度,实现更为准确和可控的动作捕捉。
第一方面,本申请实施例提供了一种在电视盒子上实现数字人交互的方法,应用于电视盒子,包括:
采集用户的音视频数据,将所述音视频数据上传至云服务器,其中,所述音视频数据包括用户的视频和/或音频;
接收所述云服务器发送的数字人音视频流,其中,所述数字人音视频流包括数字人视频流和音频流,组成所述数字人视频流的各个图像帧的背景颜色为指定颜色;
对所述各个图像帧进行处理,以使数字人形象从所述指定颜色的背景中分离出来,并将处理后的各个图像帧与所述电视盒子的用户界面进行图像混合,对所述音频流进行播放。
第二方面,本申请实施例提供了一种在电视盒子上实现数字人交互的方法,应用于云服务器,包括:
接收电视盒子上传的用户的音视频数据,其中,所述音视频数据包括用户的视频和/或音频;
对所述音视频数据进行解析,得到解析结果,利用所述解析结果生成数字人的回应,以及驱动数字人的表情和/或动作发生变化,并渲染出数字人形象;
通过将所述数字人形象放置在指定颜色的背景上得到数字人视频流,将数字人音视频流发送给电视盒子,其中,所述数字人音视频流包括数字人视频流和音频流,所述音频流包括所述数字人的回应。
第三方面,本申请实施例还提供了一种在电视盒子上实现数字人交互的装置,应用于电视盒子,包括:
上传单元,用于采集用户的音视频数据,将所述音视频数据上传至云服务器,其中,所述音视频数据包括用户的视频和/或音频;
第一接收单元,用于接收所述云服务器发送的数字人音视频流,其中,所述数字人音视频流包括数字人视频流和音频流,组成所述数字人视频流的各个图像帧的背景颜色为指定颜色;
处理单元,用于对所述各个图像帧进行处理,以使数字人形象从所述指定颜色的背景中分离出来,并将处理后的各个图像帧与所述电视盒子的用户界面进行图像混合,对所述音频流进行播放。
第四方面,本申请实施例还提供了一种在电视盒子上实现数字人交互的装置,应用于云服务器,包括:
第二接收单元,用于接收电视盒子上传的用户的音视频数据,其中,所述音视频数据包括用户的视频和/或音频;
渲染单元,用于对所述音视频数据进行解析,得到解析结果,利用所述解析结果生成数字人的回应,以及驱动数字人的表情和/或动作发生变化,并渲染出数字人形象;
发送单元,用于通过将所述数字人形象放置在指定颜色的背景上得到数字人视频流,将数字人音视频流发送给电视盒子,其中,所述数字人音视频流包括数字人视频流和音频流,所述音频流包括所述数字人的回应。
第五方面,本申请实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行如第一方面至第二方面所述的在电视盒子上实现数字人交互的方法的步骤。
第六方面,本申请实施例还提供了一种电子设备,包括:处理器、存储介质和总线,所述存储介质存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储介质之间通过总线通信,所述处理器执行所述机器可读指令,以执行如第一方面至第二方面所述的在电视盒子上实现数字人交互的方法的步骤。
综上,本申请实施例提供的在电视盒子上实现数字人交互的方法和装置、电子设备及存储介质,由电视盒子采集用户的音视频数据上传至云服务器,由云服务器根据音视频数据生成数字人的回应以及背景颜色为指定颜色的数字人视频流发送给电视盒子,由电视盒子对数字人视频流进行处理,使数字人形象从指定颜色的背景中分离出来,并将处理后的数字人视频流的各个图像帧与电视盒子的用户界面进行图像混合,对数字人的回应进行播放,能够克服电视盒子的硬件限制,将数字人业务应用在电视盒子,使其能够利用云服务在本地提供数字人业务,实现数字人在电视盒子的界面上与用户交互。
附图说明
图1为本申请实施例提供的一种在电视盒子上实现数字人交互的方法的流程示意图;
图2为本申请实施例提供的另一种在电视盒子上实现数字人交互的方法的流程示意图;
图3为本申请实施例提供的一种在电视盒子上实现数字人交互的装置的结构示意图;
图4为本申请实施例提供的另一种在电视盒子上实现数字人交互的装置的结构示意图;
图5为本申请实施例提供的一种电子设备的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,应当理解,本申请中附图仅起到说明和描述的目的,并不用于限定本申请的保护范围。另外,应当理解,示意性的附图并未按实物比例绘制。本申请中使用的流程图示出了根据本申请的一些实施例实现的操作。应该理解,流程图的操作可以不按顺序实现,没有逻辑的上下文关系的步骤可以反转顺序或者同时实施。此外,本领域技术人员在本申请内容的指引下,可以向流程图添加一个或多个其他操作,也可以从流程图中移除一个或多个操作。
另外,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
需要说明的是,本申请实施例中将会用到术语“包括”,用于指出其后所声明的特征的存在,但并不排除增加其它的特征。
参照图1所示,为本申请实施例提供的一种在电视盒子上实现数字人交互的方法,应用于电视盒子,包括:
S10、采集用户的音视频数据,将所述音视频数据上传至云服务器,其中,所述音视频数据包括用户的视频和/或音频;
本发明实施例中,需要说明的是,当用户与电视盒子互动时,可以通过电视盒子内置的麦克风捕获用户的语音,通过电视盒子内置的摄像头采集用户的视频,将语音和视频组成用户的音视频数据上传至云服务器。
S11、接收所述云服务器发送的数字人音视频流,其中,所述数字人音视频流包括数字人视频流和音频流,组成所述数字人视频流的各个图像帧的背景颜色为指定颜色;
本发明实施例中,需要说明的是,在电视盒子将用户的音视频数据上传至云服务器后,会接收到云服务器发送的数字人音视频流,其中,数字人音视频流包括数字人视频流和音频流,数字人视频流的各帧图片的背景颜色为指定颜色,比如红色、黄色、蓝色、绿色等。
S12、对所述各个图像帧进行处理,以使数字人形象从所述指定颜色的背景中分离出来,并将处理后的各个图像帧与所述电视盒子的用户界面进行图像混合,对所述音频流进行播放。
本发明实施例中,需要说明的是,电视盒子接收到云服务器发送的数字人音视频流后,会对数字人音视频流中的数字人视频流进行处理,即将数字人视频流的各帧图片中数字人形象从背景中分离出来(具体实施时可以通过从各帧图片中抠除指定颜色实现,目的是将数字人形象无缝地融入电视盒子的界面中),并将数字人形象与电视盒子的用户界面进行合成,使数字人可以自然地出现在电视盒子的任何界面上,通过电视盒子的扬声器对音频流进行播放。另外,需要说明的是,在用户与数字人交互之前,可以选择设置用户想要交互的数字人形象,后续云服务器可以以用户选择的数字人形象作为生成数字人音视频流的基础,实现用户通过电视盒子与其选择的数字人形象进行交互。
本申请实施例提供的在电视盒子上实现数字人交互的方法,由电视盒子采集用户的音视频数据上传至云服务器,并接收云服务器发送的音频流和背景颜色为指定颜色的数字人视频流,对数字人视频流进行处理,使数字人形象从指定颜色的背景中分离出来,并将处理后的数字人视频流的各个图像帧与电视盒子的用户界面进行图像混合,对音频流进行播放,能够克服电视盒子的硬件限制,将数字人业务应用在电视盒子,使其能够利用云服务在本地提供数字人业务,实现数字人在电视盒子的界面上与用户交互。
在前述方法实施例的基础上,所述方法还可以包括:
接收所述云服务器发送的控制指令;
其中,在所述对所述音频流进行播放之后,还可以包括:
执行所述控制指令。
本发明实施例中,需要说明的是,在用户与数字人交互的过程中,电视盒子还可以接收云服务器发送的控制指令,并执行,以控制电视盒子的硬件设备。比如,用户可以通过语音向电视盒子发出指令,与数字人进行交互,在对数字人音视频流播放后,电视盒子还可以根据云服务器的指示进行相应的操作,如播放指定的视频、打开某个应用、调节音量等。
参照图2所示,为本申请实施例提供的一种在电视盒子上实现数字人交互的方法,应用于云服务器,包括:
S20、接收电视盒子上传的用户的音视频数据,其中,所述音视频数据包括用户的视频和/或音频;
S21、对所述音视频数据进行解析,得到解析结果,利用所述解析结果生成数字人的回应,以及驱动数字人的表情和/或动作发生变化,并渲染出数字人形象;
本发明实施例中,需要说明的是,云服务器接收到电视盒子上传的用户的音视频数据后,可以使用深度学习模型进行数据解析,具体地,音视频数据中的音频可以通过RNN(循环神经网络,Recurrent Neural Network)或Transformer模型进行语音识别,转换为文本,在这个过程中,可以使用声谱图(spectrogram)作为模型的输入,这是音频信号的一种二维表示形式,而模型的输出是一个序列,每个元素代表一个可能的音素或字。通过解码这个序列,可以得到用户的语音指令。视频数据可以通过CNN(卷积神经网络,ConvolutionalNeural Network)模型进行表情和/或肢体动作识别。之后,云服务器可以使用NLP(神经语言程序学,Neuro Linguistic Programming)模型理解解析出的文本,根据用户的面部表情、肢体动作和文本中的至少之一理解用户意图和情绪,生成数字人的回应,以及驱动数字人的表情和/或动作发生变化。比如当用户问一个问题时,数字人可以做出思考的表情;当用户发出指令时,数字人可以通过表情和手势表示理解和确认。通过这些视觉反馈不仅可以增强交互的真实感,还可以使用户能够更好地理解数字人的反应。除此之外,数字人还可以与电视盒子的图形用户界面进行交互。例如,数字人可以引导用户如何使用电视盒子的某个功能,或者帮助用户在菜单中选择选项。在这些情况下,数字人的动作和语音可以与图形用户界面同步,从而提供一种新颖和直观的交互方式。之后需要进行数字人的3D渲染。需要说明的是,数字人的动作和表情可以通过基于骨骼动画(Skeletal Animation)的3D动画技术,以及深度学习的生成模型,如GANs(Generative Adversarial Networks)进行生成,实现真实的表情和动作;而渲染驱动后的数字人涉及到3D图形渲染技术,在此过程中,可以使用光线追踪(Ray Tracing)、光栅化(Rasterization)等技术,以及各种材质、光照和阴影处理技术,以生成逼真的3D数字人形象。本实施例中,利用云服务器强大的计算能力,对用户音视频信息进行处理,并根据处理结果渲染出相应的数字人形象,使数字人能够理解用户的指令,并做出相应的反应,能够利用云计算的高性能,避开电视盒子本身的硬件限制,使得数字人业务能够在电视盒子上运行。
S22、通过将所述数字人形象放置在指定颜色的背景上得到数字人视频流,将数字人音视频流发送给电视盒子,其中,所述数字人音视频流包括数字人视频流和音频流,所述音频流包括所述数字人的回应。
本发明实施例中,需要说明的是,在渲染出数字人形象之后,需要将数字人形象融入预先创建的指定颜色的背景中得到数字人视频流(优点是能够清晰地区分数字人形象和背景,方便之后在电视盒子上进行图像处理),并和包括数字人的回应的音频流组成数字人音视频流推送给电视盒子。需要说明的是,在将数字人视频流推送给电视盒子之前,需要对数字人视频流进行视频编码(可以采用H.264或H.265等视频编码技术),以有效地压缩视频数据,减少网络传输所需的带宽,同时保持良好的图像质量。之后,编码后的视频流可以通过网络传输实时推送到电视盒子上,比如可以采用如RTSP(实时流协议,Real TimeStreaming Protocol)或HLS(基于HTTP的流媒体传输协议,HTTP Live Streaming)等实时流媒体协议,确保视频流的稳定和实时性。最终实现将在云服务器生成的数字人形象实时地显示在电视盒子的用户界面上,为用户提供自然且直观的交互体验。
本申请实施例提供的在电视盒子上实现数字人交互的方法,由云服务器根据电视盒子上传的音视频数据生成数字人的回应以及背景颜色为指定颜色的数字人视频流发送给电视盒子,以使电视盒子对数字人视频流进行处理,使数字人形象从指定颜色的背景中分离出来,并将处理后的数字人视频流的各个图像帧与电视盒子的用户界面进行图像混合,对数字人的回应进行播放,能够克服电视盒子的硬件限制,将数字人业务应用在电视盒子,使其能够利用云服务在本地提供数字人业务,实现数字人在电视盒子的界面上与用户交互。
在前述方法实施例的基础上,所述对所述音视频数据进行解析,得到解析结果,利用所述解析结果生成数字人的回应,以及驱动数字人的表情/动作发生变化,可以包括:
对所述用户的视频进行面部表情识别,得到用户的面部表情和肢体动作中的至少之一和/或将所述用户的音频转换为文本;
利用所述用户的面部表情和/或肢体动作和/或文本生成数字人的回应,以及目标表情和/或目标动作,驱动数字人展现所述目标表情和/或驱动数字人做出所述目标动作。
本发明实施例中,可以理解的是,云服务器可以根据用户的指令驱动数字人与用户进行交互,比如,当用户对电视盒子说“我需要帮助”时,电视盒子会将这个语音指令和用户视频发送到云服务器。云服务器通过RNN模型解析这个指令,通过NLP模型理解解析的结果,并通过CNN模型识别出用户的表情比较着急,且做出了双手合十的请求动作,则生成数字人的回应(例如:“当然,我可以帮助你。你需要什么样的帮助?”),并驱动数字人做出微笑的表情,这个回应会以语音的形式播放出来,同时,做出了微笑表情的数字人的形象也会在电视盒子的界面上出现。
在前述方法实施例的基础上,所述方法还可以包括:
利用所述用户的面部表情和/或肢体动作和/或文本生成控制指令,并将所述控制指令发送给所述电视盒子。
本发明实施例中,可以理解的是,用户可以通过云服务器对电视盒子发出指令,比如当用户对电视盒子说“播放《老友记》”时,电视盒子将这个指令发送到云服务器,云服务器解析指令并生成数字人的回应,例如:“好的,正在为你播放《老友记》。”同时,云服务器发送播放指令给电视盒子,电视盒子接收到指令后播放《老友记》视频。
参照图3所示,为本申请实施例提供的一种在电视盒子上实现数字人交互的装置,应用于电视盒子,包括:
上传单元30,用于采集用户的音视频数据,将所述音视频数据上传至云服务器,其中,所述音视频数据包括用户的视频和/或音频;
第一接收单元31,用于接收所述云服务器发送的数字人音视频流,其中,所述数字人音视频流包括数字人视频流和音频流,组成所述数字人视频流的各个图像帧的背景颜色为指定颜色;
处理单元32,用于对所述各个图像帧进行处理,以使数字人形象从所述指定颜色的背景中分离出来,并将处理后的各个图像帧与所述电视盒子的用户界面进行图像混合,对所述音频流进行播放。
本申请实施例提供的在电视盒子上实现数字人交互的装置,由电视盒子采集用户的音视频数据上传至云服务器,并接收云服务器发送的音频流和背景颜色为指定颜色的数字人视频流,对数字人视频流进行处理,使数字人形象从指定颜色的背景中分离出来,并将处理后的数字人视频流的各个图像帧与电视盒子的用户界面进行图像混合,对音频流进行播放,能够克服电视盒子的硬件限制,将数字人业务应用在电视盒子,使其能够利用云服务在本地提供数字人业务,实现数字人在电视盒子的界面上与用户交互。
参照图4所示,为本申请实施例提供的一种在电视盒子上实现数字人交互的装置,应用于云服务器,包括:
第二接收单元40,用于接收电视盒子上传的用户的音视频数据,其中,所述音视频数据包括用户的视频和/或音频;
渲染单元41,用于对所述音视频数据进行解析,得到解析结果,利用所述解析结果生成数字人的回应,以及驱动数字人的表情和/或动作发生变化,并渲染出数字人形象;
发送单元42,用于通过将所述数字人形象放置在指定颜色的背景上得到数字人视频流,将数字人音视频流发送给电视盒子,其中,所述数字人音视频流包括数字人视频流和音频流,所述音频流包括所述数字人的回应
本申请实施例提供的在电视盒子上实现数字人交互的装置,由云服务器根据电视盒子上传的音视频数据生成数字人的回应以及背景颜色为指定颜色的数字人视频流发送给电视盒子,以使电视盒子对数字人视频流进行处理,使数字人形象从指定颜色的背景中分离出来,并将处理后的数字人视频流的各个图像帧与电视盒子的用户界面进行图像混合,对数字人的回应进行播放,能够克服电视盒子的硬件限制,将数字人业务应用在电视盒子,使其能够利用云服务在本地提供数字人业务,实现数字人在电视盒子的界面上与用户交互。
在前述装置实施例的基础上,所述渲染单元,可以用于:
对所述用户的视频进行面部表情识别,得到用户的面部表情和肢体动作中的至少之一和/或将所述用户的音频转换为文本;
利用所述用户的面部表情和/或肢体动作和/或文本生成数字人的回应,以及目标表情和/或目标动作,驱动数字人展现所述目标表情和/或驱动数字人做出所述目标动作。
本申请实施例提供的在电视盒子上实现数字人交互的装置,其实现过程与本申请实施例提供的在电视盒子上实现数字人交互的方法一致,所能达到的效果也与本申请实施例提供的在电视盒子上实现数字人交互的方法相同,在此不再赘述。
通过上述实施例,可以提供一种新型的用户交互方案,该方案允许数字人形象以透明的方式出现在使用电视盒子过程的任何场景中,无论是在操作菜单、观看电影、还是在游戏中,都可以无缝地进行用户交互,获取问题解答、操作协助、功能讲解、投诉建议等服务,同时通过云服务器的渲染和AI识别,不仅大大增强了电视盒子的功能,还能使电视盒子保持低功耗。
如图5所示,本申请实施例提供的一种电子设备,包括:处理器50、存储器51和总线52,所述存储器51存储有所述处理器50可执行的机器可读指令,当电子设备运行时,所述处理器50与所述存储器51之间通过总线52通信,所述处理器50执行所述机器可读指令,以执行如上述在电视盒子上实现数字人交互的方法的步骤。
具体地,上述存储器51和处理器50能够为通用的存储器和处理器,这里不做具体限定,当处理器50运行存储器51存储的计算机程序时,能够执行上述在电视盒子上实现数字人交互的方法。
对应于上述在电视盒子上实现数字人交互的方法,本申请实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行上述在电视盒子上实现数字人交互的方法的步骤。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统和装置的具体工作过程,可以参考方法实施例中的对应过程,本申请中不再赘述。在本申请所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个模块或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或模块的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
以上仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。
Claims (10)
1.一种在电视盒子上实现数字人交互的方法,应用于电视盒子,其特征在于,包括:
采集用户的音视频数据,将所述音视频数据上传至云服务器,其中,所述音视频数据包括用户的视频和/或音频;
接收所述云服务器发送的数字人音视频流,其中,所述数字人音视频流包括数字人视频流和音频流,组成所述数字人视频流的各个图像帧的背景颜色为指定颜色;
对所述各个图像帧进行处理,以使数字人形象从所述指定颜色的背景中分离出来,并将处理后的各个图像帧与所述电视盒子的用户界面进行图像混合,对所述音频流进行播放。
2.根据权利要求1所述的方法,其特征在于,还包括:
接收所述云服务器发送的控制指令;
其中,在所述对所述音频流进行播放之后,还包括:
执行所述控制指令。
3.一种在电视盒子上实现数字人交互的方法,应用于云服务器,其特征在于,包括:
接收电视盒子上传的用户的音视频数据,其中,所述音视频数据包括用户的视频和/或音频;
对所述音视频数据进行解析,得到解析结果,利用所述解析结果生成数字人的回应,以及驱动数字人的表情和/或动作发生变化,并渲染出数字人形象;
通过将所述数字人形象放置在指定颜色的背景上得到数字人视频流,将数字人音视频流发送给电视盒子,其中,所述数字人音视频流包括数字人视频流和音频流,所述音频流包括所述数字人的回应。
4.根据权利要求3所述的方法,其特征在于,所述对所述音视频数据进行解析,得到解析结果,利用所述解析结果生成数字人的回应,以及驱动数字人的表情/动作发生变化,包括:
对所述用户的视频进行面部表情识别,得到用户的面部表情和肢体动作中的至少之一和/或将所述用户的音频转换为文本;
利用所述用户的面部表情和/或肢体动作和/或文本生成数字人的回应,以及目标表情和/或目标动作,驱动数字人展现所述目标表情和/或驱动数字人做出所述目标动作。
5.根据权利要求4所述的方法,其特征在于,还包括:
利用所述用户的面部表情和/或肢体动作和/或文本生成控制指令,并将所述控制指令发送给所述电视盒子。
6.一种在电视盒子上实现数字人交互的装置,应用于电视盒子,其特征在于,包括:
上传单元,用于采集用户的音视频数据,将所述音视频数据上传至云服务器,其中,所述音视频数据包括用户的视频和/或音频;
第一接收单元,用于接收所述云服务器发送的数字人音视频流,其中,所述数字人音视频流包括数字人视频流和音频流,组成所述数字人视频流的各个图像帧的背景颜色为指定颜色;
处理单元,用于对所述各个图像帧进行处理,以使数字人形象从所述指定颜色的背景中分离出来,并将处理后的各个图像帧与所述电视盒子的用户界面进行图像混合,对所述音频流进行播放。
7.一种在电视盒子上实现数字人交互的装置,应用于云服务器,其特征在于,包括:
第二接收单元,用于接收电视盒子上传的用户的音视频数据,其中,所述音视频数据包括用户的视频和/或音频;
渲染单元,用于对所述音视频数据进行解析,得到解析结果,利用所述解析结果生成数字人的回应,以及驱动数字人的表情和/或动作发生变化,并渲染出数字人形象;
发送单元,用于通过将所述数字人形象放置在指定颜色的背景上得到数字人视频流,将数字人音视频流发送给电视盒子,其中,所述数字人音视频流包括数字人视频流和音频流,所述音频流包括所述数字人的回应。
8.根据权利要求7所述的装置,其特征在于,所述渲染单元,用于:
对所述用户的视频进行面部表情识别,得到用户的面部表情和肢体动作中的至少之一和/或将所述用户的音频转换为文本;
利用所述用户的面部表情和/或肢体动作和/或文本生成数字人的回应,以及目标表情和/或目标动作,驱动数字人展现所述目标表情和/或驱动数字人做出所述目标动作。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行如权利要求1至5任一项所述的在电视盒子上实现数字人交互的方法的步骤。
10.一种电子设备,其特征在于,包括:处理器、存储介质和总线,所述存储介质存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储介质之间通过总线通信,所述处理器执行所述机器可读指令,以执行如权利要求1至5任一项所述的在电视盒子上实现数字人交互的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310981021.5A CN116708905A (zh) | 2023-08-07 | 2023-08-07 | 在电视盒子上实现数字人交互的方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310981021.5A CN116708905A (zh) | 2023-08-07 | 2023-08-07 | 在电视盒子上实现数字人交互的方法和装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116708905A true CN116708905A (zh) | 2023-09-05 |
Family
ID=87836080
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310981021.5A Pending CN116708905A (zh) | 2023-08-07 | 2023-08-07 | 在电视盒子上实现数字人交互的方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116708905A (zh) |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109919836A (zh) * | 2019-03-20 | 2019-06-21 | 广州华多网络科技有限公司 | 视频抠像处理方法、视频抠像处理客户端及可读存储介质 |
CN110996143A (zh) * | 2019-11-26 | 2020-04-10 | 音科有限公司 | 数字电视信号处理方法、电视机、装置及存储介质 |
CN111290682A (zh) * | 2018-12-06 | 2020-06-16 | 阿里巴巴集团控股有限公司 | 交互方法、装置及计算机设备 |
CN111833418A (zh) * | 2020-07-14 | 2020-10-27 | 北京百度网讯科技有限公司 | 动画交互方法、装置、设备以及存储介质 |
CN113703585A (zh) * | 2021-09-23 | 2021-11-26 | 京东方科技集团股份有限公司 | 交互方法、装置、电子设备及存储介质 |
CN113822967A (zh) * | 2021-02-09 | 2021-12-21 | 北京沃东天骏信息技术有限公司 | 人机交互方法、装置、系统、电子设备以及计算机介质 |
CN113901189A (zh) * | 2021-10-18 | 2022-01-07 | 深圳追一科技有限公司 | 一种数字人交互方法、装置、电子设备及存储介质 |
WO2022134025A1 (zh) * | 2020-12-25 | 2022-06-30 | 京东方科技集团股份有限公司 | 一种离线语音识别方法和装置、电子设备和可读存储介质 |
CN114786040A (zh) * | 2022-06-15 | 2022-07-22 | 阿里巴巴(中国)有限公司 | 数据通信方法、系统、电子设备和存储介质 |
CN115567494A (zh) * | 2021-07-01 | 2023-01-03 | 苏州创意云网络科技有限公司 | 一种云端视频交互系统、方法及装置 |
CN115941920A (zh) * | 2022-11-23 | 2023-04-07 | 马凯翔 | 裸眼3d视频生成方法、装置、设备及存储介质 |
CN116185191A (zh) * | 2023-02-08 | 2023-05-30 | 海信视像科技股份有限公司 | 一种服务器、显示设备和虚拟数字人交互方法 |
-
2023
- 2023-08-07 CN CN202310981021.5A patent/CN116708905A/zh active Pending
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111290682A (zh) * | 2018-12-06 | 2020-06-16 | 阿里巴巴集团控股有限公司 | 交互方法、装置及计算机设备 |
CN109919836A (zh) * | 2019-03-20 | 2019-06-21 | 广州华多网络科技有限公司 | 视频抠像处理方法、视频抠像处理客户端及可读存储介质 |
CN110996143A (zh) * | 2019-11-26 | 2020-04-10 | 音科有限公司 | 数字电视信号处理方法、电视机、装置及存储介质 |
CN111833418A (zh) * | 2020-07-14 | 2020-10-27 | 北京百度网讯科技有限公司 | 动画交互方法、装置、设备以及存储介质 |
WO2022134025A1 (zh) * | 2020-12-25 | 2022-06-30 | 京东方科技集团股份有限公司 | 一种离线语音识别方法和装置、电子设备和可读存储介质 |
CN113822967A (zh) * | 2021-02-09 | 2021-12-21 | 北京沃东天骏信息技术有限公司 | 人机交互方法、装置、系统、电子设备以及计算机介质 |
CN115567494A (zh) * | 2021-07-01 | 2023-01-03 | 苏州创意云网络科技有限公司 | 一种云端视频交互系统、方法及装置 |
CN113703585A (zh) * | 2021-09-23 | 2021-11-26 | 京东方科技集团股份有限公司 | 交互方法、装置、电子设备及存储介质 |
CN113901189A (zh) * | 2021-10-18 | 2022-01-07 | 深圳追一科技有限公司 | 一种数字人交互方法、装置、电子设备及存储介质 |
CN114786040A (zh) * | 2022-06-15 | 2022-07-22 | 阿里巴巴(中国)有限公司 | 数据通信方法、系统、电子设备和存储介质 |
CN115941920A (zh) * | 2022-11-23 | 2023-04-07 | 马凯翔 | 裸眼3d视频生成方法、装置、设备及存储介质 |
CN116185191A (zh) * | 2023-02-08 | 2023-05-30 | 海信视像科技股份有限公司 | 一种服务器、显示设备和虚拟数字人交互方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108200446B (zh) | 虚拟形象的线上多媒体互动系统及方法 | |
CN110971964B (zh) | 智能解说生成、播放方法、装置、设备及存储介质 | |
CN107979763B (zh) | 一种虚拟现实设备生成视频、播放方法、装置及系统 | |
CN107438183A (zh) | 一种虚拟人物直播方法、装置及系统 | |
CN110401810B (zh) | 虚拟画面的处理方法、装置、系统、电子设备及存储介质 | |
WO2016048204A1 (en) | Methods, system and nodes for handling media streams relating to an online game | |
CN113570686A (zh) | 虚拟视频直播处理方法及装置、存储介质、电子设备 | |
CN110446000A (zh) | 一种生成对话人物形象的方法和装置 | |
KR101915786B1 (ko) | 아바타를 이용한 인터넷 방송 참여 서비스 시스템 및 방법 | |
CN112543342A (zh) | 虚拟视频直播处理方法及装置、存储介质、电子设备 | |
KR20080082759A (ko) | 네트워크를 통한 가상 스튜디오 구현 시스템 및 그 방법 | |
CN113132741A (zh) | 一种虚拟直播系统和方法 | |
CN105933637A (zh) | 一种视频通信的方法及系统 | |
CN111629222B (zh) | 一种视频处理方法、设备及存储介质 | |
CN115914526B (zh) | 基于云渲染的bim模型可视化方法、装置、设备及介质 | |
CN111737516A (zh) | 一种互动音乐生成方法、装置、智能音箱及存储介质 | |
CN114463470A (zh) | 虚拟空间浏览方法、装置、电子设备和可读存储介质 | |
WO2024001661A1 (zh) | 视频合成方法、装置、设备和存储介质 | |
CN114286021B (zh) | 渲染方法、装置、服务器、存储介质及程序产品 | |
JP2008228262A (ja) | 仮想撮影システムおよびそのリアルタイム通信方法 | |
CN115550711A (zh) | 虚拟数字人渲染方法、渲染引擎及系统 | |
CN112785669B (zh) | 一种虚拟形象合成方法、装置、设备及存储介质 | |
CN116708905A (zh) | 在电视盒子上实现数字人交互的方法和装置 | |
Sun et al. | Video Conference System in Mixed Reality Using a Hololens | |
CN115174954A (zh) | 视频直播方法、装置、电子设备以及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20230905 |