CN114007091A - 一种视频处理方法、装置、电子设备及存储介质 - Google Patents

一种视频处理方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN114007091A
CN114007091A CN202111257835.1A CN202111257835A CN114007091A CN 114007091 A CN114007091 A CN 114007091A CN 202111257835 A CN202111257835 A CN 202111257835A CN 114007091 A CN114007091 A CN 114007091A
Authority
CN
China
Prior art keywords
video
image
scene
target
virtual
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN202111257835.1A
Other languages
English (en)
Inventor
李文哲
韩殿飞
王巍
蔺颖
李凯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Sensetime Technology Development Co Ltd
Original Assignee
Beijing Sensetime Technology Development Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Sensetime Technology Development Co Ltd filed Critical Beijing Sensetime Technology Development Co Ltd
Priority to CN202111257835.1A priority Critical patent/CN114007091A/zh
Publication of CN114007091A publication Critical patent/CN114007091A/zh
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/21Server components or server architectures
    • H04N21/218Source of audio or video content, e.g. local disk arrays
    • H04N21/2187Live feed
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/233Processing of audio elementary streams
    • H04N21/2335Processing of audio elementary streams involving reformatting operations of audio signals, e.g. by converting from one coding standard to another
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams, manipulating MPEG-4 scene graphs
    • H04N21/23424Processing of video elementary streams, e.g. splicing of video streams, manipulating MPEG-4 scene graphs involving splicing one content stream with another content stream, e.g. for inserting or substituting an advertisement
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams, manipulating MPEG-4 scene graphs
    • H04N21/2343Processing of video elementary streams, e.g. splicing of video streams, manipulating MPEG-4 scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/235Processing of additional data, e.g. scrambling of additional data or processing content descriptors
    • H04N21/2355Processing of additional data, e.g. scrambling of additional data or processing content descriptors involving reformatting operations of additional data, e.g. HTML pages
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/25Management operations performed by the server for facilitating the content distribution or administrating data related to end-users or client devices, e.g. end-user or client device authentication, learning user preferences for recommending movies
    • H04N21/258Client or end-user data management, e.g. managing client capabilities, user preferences or demographics, processing of multiple end-users preferences to derive collaborative data
    • H04N21/25866Management of end-user data
    • H04N21/25891Management of end-user data being end-user preferences
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/435Processing of additional data, e.g. decrypting of additional data, reconstructing software from modules extracted from the transport stream
    • H04N21/4355Processing of additional data, e.g. decrypting of additional data, reconstructing software from modules extracted from the transport stream involving reformatting operations of additional data, e.g. HTML pages on a television screen
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/439Processing of audio elementary streams
    • H04N21/4398Processing of audio elementary streams involving reformatting operations of audio signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream, rendering scenes according to MPEG-4 scene graphs
    • H04N21/44016Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream, rendering scenes according to MPEG-4 scene graphs involving splicing one content stream with another content stream, e.g. for substituting a video clip
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream, rendering scenes according to MPEG-4 scene graphs
    • H04N21/4402Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream, rendering scenes according to MPEG-4 scene graphs involving reformatting operations of video signals for household redistribution, storage or real-time display
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/442Monitoring of processes or resources, e.g. detecting the failure of a recording device, monitoring the downstream bandwidth, the number of times a movie has been viewed, the storage space available from the internal hard disk
    • H04N21/44213Monitoring of end-user related data
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/45Management operations performed by the client for facilitating the reception of or the interaction with the content or administrating data related to the end-user or to the client device itself, e.g. learning user preferences for recommending movies, resolving scheduling conflicts
    • H04N21/4508Management of client data or end-user data
    • H04N21/4532Management of client data or end-user data involving end-user characteristics, e.g. viewer profile, preferences

Abstract

本公开提供了一种视频处理方法、装置、电子设备及存储介质,方法包括:实时采集目标场景的场景视频,以及未处于目标场景的讲解者针对目标场景的讲解视频;对讲解视频中,讲解者的形象进行虚拟化处理,得到虚拟视频;将虚拟视频与场景视频进行融合,生成目标视频。

Description

一种视频处理方法、装置、电子设备及存储介质
技术领域
本公开涉及计算机视觉技术领域,尤其涉及一种视频处理方法、装置、电子设备及存储介质。
背景技术
在直播场景中,通常都需要主播针对直播现场进行讲解,从而便于观众理解直播现场的具体情况。
目前,在主播未处于直播现场的情况下,通常一方面采集直播现场的场景视频,另一方面采集主播针对直播现场的讲解音频,从而将场景视频和讲解音频合成后上传到直播平台,再推送给用户观看。
然而,上述直播过程,仅仅简单的将讲解音频和场景视频进行叠加,实现方式单一,所提供的视觉信息有限,显示效果较差,对观众的吸引力较小。
发明内容
本公开实施例期望提供一种视频处理方法、装置、电子设备及存储介质。
本公开实施例的技术方案是这样实现的:
本公开实施例提供了一种视频处理方法,包括:
实时采集目标场景的场景视频,以及未处于所述目标场景的讲解者针对所述目标场景的讲解视频;
对所述讲解视频中,所述讲解者的形象进行虚拟化处理,得到虚拟视频;
将所述虚拟视频与所述场景视频进行融合,生成目标视频。
在上述方法中,所述对所述讲解视频中,所述讲解者的形象进行虚拟化处理,得到虚拟视频,包括:
从所述讲解视频中,分离出所述讲解者对应的讲解音频和视频图像;
对所述视频图像中,所述讲解者的形象进行虚拟化处理,得到虚拟图像;
将所述虚拟图像与所述讲解音频进行融合,生成所述虚拟视频。
在上述方法中,所述对所述视频图像中,所述讲解者的形象进行虚拟化处理,得到虚拟图像,包括:
根据所述视频图像中所述讲解者的形象生成对应的虚拟形象;
将所述视频图像中,所述讲解者的形象更新为所述对应的虚拟形象,得到所述虚拟图像;
或者,获取预设虚拟形象;
将所述视频图像中,所述讲解者的形象更新为所述预设虚拟形象,得到所述虚拟图像。
在上述方法中,所述将所述虚拟视频与所述场景视频进行融合,生成目标视频,包括:
从所述场景视频中,分离出所述目标场景对应的场景音频和场景图像;
对所述场景音频进行优化处理,得到优化后的场景音频;
将所述优化后的场景音频、所述场景图像,以及所述虚拟视频进行融合,生成所述目标视频。
在上述方法中,还包括:
对所述讲解视频中,所述讲解者对应的讲解音频进行语音识别,得到讲解文本;
对所述讲解文本进行语义自动纠错,得到纠错后的讲解文本;
所述将所述虚拟视频与所述场景视频进行融合,生成目标视频之后,所述方法还包括:
利用所述纠错后的讲解文本,对所述目标视频添加字幕。
在上述方法中,所述将所述虚拟视频与所述场景视频进行融合,生成目标视频之后,还包括:
针对观看对象播放所述目标视频;
实时采集所述观看对象在观看所述目标视频期间,针对所述目标视频的反馈信息;所述反馈信息,包括所述观看对象的语音信息和图像信息中的至少一项;
利用所述反馈信息对所述观看对象进行角色分析,得到所述观看对象的角色分析结果;
基于所述角色分析结果,实时调整所述目标视频中,所述讲解者的虚拟形象。
在上述方法中,所述针对观看对象播放所述目标视频之后,还包括:
在接收到停止显示指令的情况下,停止显示所述目标视频中所述讲解者的虚拟形象。
本公开实施例提供了一种视频处理装置,包括:
采集模块,用于实时采集目标场景的场景视频,以及未处于所述目标场景的讲解者针对所述目标场景的讲解视频;
处理模块,用于对所述讲解视频中,所述讲解者的形象进行虚拟化处理,得到虚拟视频;
融合模块,用于将所述虚拟视频与所述场景视频进行融合,生成目标视频。
在上述装置中,所述处理模块,具体用于从所述讲解视频中,分离出所述讲解者对应的讲解音频和视频图像;对所述视频图像中,所述讲解者的形象进行虚拟化处理,得到虚拟图像;将所述虚拟图像与所述讲解音频进行融合,生成所述虚拟视频。
在上述装置中,所述处理模块,具体用于根据所述视频图像中所述讲解者的形象生成对应的虚拟形象;将所述视频图像中,所述讲解者的形象更新为所述对应的虚拟形象,得到所述虚拟图像;或者,获取预设虚拟形象;将所述视频图像中,所述讲解者的形象更新为所述预设虚拟形象,得到所述虚拟图像。
在上述装置中,所述融合模块,具体用于从所述场景视频中,分离出所述目标场景对应的场景音频和场景图像;对所述场景音频进行优化处理,得到优化后的场景音频;将所述优化后的场景音频、所述场景图像,以及所述虚拟视频进行融合,生成所述目标视频。
在上述装置中,所述处理模块,还用于对所述讲解视频中,所述讲解者对应的讲解音频进行语音识别,得到讲解文本;对所述讲解文本进行语义自动纠错,得到纠错后的讲解文本;利用所述纠错后的讲解文本,对所述目标视频添加字幕。
在上述装置中,所述处理模块,还用于针对观看对象播放所述目标视频;实时采集所述观看对象在观看所述目标视频期间,针对所述目标视频的反馈信息;所述反馈信息,包括所述观看对象的语音信息和图像信息中的至少一项;利用所述反馈信息对所述观看对象进行角色分析,得到所述观看对象的角色分析结果;基于所述角色分析结果,实时调整所述目标视频中,所述讲解者的虚拟形象。
在上述装置中,所述处理模块,还用于在接收到停止显示指令的情况下,停止显示所述目标视频中所述讲解者的虚拟形象。
本公开实施例提供了一种电子设备,包括:处理器、存储器和通信总线;其中,
所述通信总线,用于实现所述处理器和所述存储器之间的连接通信;
所述处理器,用于执行所述存储器中存储的一个或多个程序,以实现上述视频处理方法。
本公开实施例提供了一种计算机可读存储介质,所述计算机可读存储介质存储有一个或者多个程序,所述一个或者多个程序可以被一个或者多个处理器执行,以实现上述视频处理方法。
本公开实施例提供了一种视频处理方法、装置、电子设备及存储介质,方法包括:实时采集目标场景的场景视频,以及未处于目标场景的讲解者针对目标场景的讲解视频;对讲解视频中,讲解者的形象进行虚拟化处理,得到虚拟视频;将虚拟视频与场景视频进行融合,生成目标视频。本公开实施例提供的技术方案,将不同场景的讲解者视频和场景视频,基于虚拟形象技术进行合成,从而丰富了视频提供的视觉信息,提高了视频显示效果。
附图说明
图1为本公开实施例提供的一种视频处理方法的流程示意图;
图2为本公开实施例提供的一种示例性的视频融合示意图;
图3为本公开实施例提供的一种示例性的视频处理架构示意图;
图4为本公开实施例提供的一种视频处理装置的结构示意图;
图5为本公开实施例提供的一种电子设备的结构示意图。
具体实施方式
下面将结合本公开实施例中的附图,对本公开实施例中的技术方案进行清楚、完整地描述。
本公开实施例提供了一种视频处理方法,其执行主体可以是视频处理装置,例如,视频处理方法可以由终端设备或服务器或其它电子设备执行,其中,终端设备可以为用户设备(User Equipment,UE)、移动设备、用户终端、蜂窝电话、无绳电话、个人数字助理(Personal Digital Assistant,PDA)、手持设备、计算设备、车载设备、可穿戴设备等。在一些可能的实现方式中,视频处理方法可以通过处理器调用存储器中存储的计算机可读指令的方式来实现。
图1为本公开实施例提供的一种视频处理方法的流程示意图。如图1所示,在本公开的实施例中,视频处理方法主要包括以下步骤:
S101、实时采集目标场景的场景视频,以及未处于目标场景的讲解者针对目标场景的讲解视频。
在本公开的实施例中,视频处理装置可以实时采集目标场景的场景视频,以及未处于目标场景的讲解者针对目标场景的讲解视频。
需要说明的是,在本公开的实施例中,视频处理方法所针对的应用场景为:讲解者未处于目标场景,即采集的场景视频中不包括讲解者,例如,在某些体育赛事直播时,讲解员往往不能处于比赛场地中,而是单独在远程的直播间中,针对比赛场地中的赛事进行解说。
需要说明的是,在本公开的实施例中,目标场景可以是教学场景、竞赛场景、销售场景等,相应的,讲解者可以是教师、运动员、主播等,具体的目标场景和讲解者可以根据实际应用场景确定,本公开实施例不作限定。
可以理解的是,在本公开的实施例中,视频处理装置实现场景视频和讲解视频两路视频的采集,可以依赖于两个摄像头,即利用一个摄像头采集场景视频,一个摄像头采集讲解视频。
S102、对讲解视频中,讲解者的形象进行虚拟化处理,得到虚拟视频。
在本公开的实施例中,视频处理装置在采集到讲解视频之后,即可对讲解视频中,讲解者的形象进行虚拟化处理,得到虚拟视频。
具体的,在本公开的实施例中,视频处理装置对讲解视频中,讲解者的形象进行虚拟化处理,得到虚拟视频,包括:从讲解视频中,分离出讲解者对应的讲解音频和视频图像;对视频图像中,讲解者的形象进行虚拟化处理,得到虚拟图像;将虚拟图像与讲解音频进行合成,生成虚拟视频。
可以理解的是,在本公开的实施例中,视频处理装置在进行讲解者的形象虚拟化时,由于讲解者的形象虚拟化是视觉信息的处理,因此,可以先对讲解视频进行音视频分离,从而得到讲解者的讲解音频和视频图像,再对视频图像中讲解者的形象进行虚拟化处理后与讲解音频融合。
可以理解的是,在本公开的实施例中,视频处理装置从讲解视频中分离出的讲解者对应的视频图像,实际上是按照时序排列的一系列图像,对于其中每一帧图像,视频处理装置均进行讲解者的信息虚拟化处理。
具体的,在本公开的实施例中,视频处理装置对视频图像中,讲解者的形象进行虚拟化处理,得到虚拟图像,包括:根据视频图像中讲解者的形象生成对应的虚拟形象;将视频图像中,讲解者的形象更新为对应的虚拟形象,得到虚拟图像;或者,获取预设虚拟形象;将视频图像中,讲解者的形象更新为预设虚拟形象,得到虚拟图像。
需要说明的是,在本公开的实施例中,视频处理装置可以采用特定的虚拟化算法,实现对视频图像中,讲解者的人脸、身体等部位的检测,获取其形态、表情等特征,从而基于这些特征绘制出讲解者对应的虚拟形象,并将视频图像中讲解者的形象更新为对应的虚拟形象。此外,视频处理装置中还可以存储有预设虚拟形象库,用户也可以从预设虚拟形象库中选取喜好的虚拟形象,并指示给视频处理装置,视频处理装置即可获取到预设虚拟形象,从而直接将视频图像中讲解者的形象更新为预设虚拟形象,以满足用户的喜好。当然,视频处理装置还可以采用其他可行的人像虚拟化的方式进行虚拟化处理,本公开实施例不作限定。
需要说明的是,在本公开的实施例中,视频处理装置在获得虚拟图像之后,将虚拟图像与讲解音频进行融合之前,还可以对讲解音频进行优化处理,例如,对讲解音频进行降噪,去除掉其中的杂音等,从而提高音频效果,相应的,视频处理装置将虚拟图像与讲解音频进行融合,即将虚拟图像与优化后的讲解音频进行融合。
S103、将虚拟视频与场景视频进行融合,生成目标视频。
在本公开的实施例中,视频处理装置在得到虚拟视频的情况下,即可将虚拟视频与场景视频进行融合,从而生成目标视频。
具体的,在本公开的实施例中,视频处理装置从场景视频中,分离出目标场景对应的场景音频和场景图像;对场景音频进行优化处理,得到优化后的场景音频;将优化后的场景音频、场景图像,以及虚拟视频进行融合,生成目标视频。
需要说明的是,在本公开的实施例中,视频处理装置针对场景音频,也可以进行音视频分离,从而得到场景音频和场景图像,这样,可以进一步对场景音频进行优化,例如,对场景音频进行降噪,背景音渲染等,之后,再与虚拟视频和场景图像进行融合,从而提高视频的音效。
可以理解的是,在本公开的实施例中,视频处理装置将优化后的场景音频、场景图像,以及虚拟视频进行融合,实际上就是将这些信息同步合并在一起,从而得到目标视频,目标视频中即同时包括目标场景和解说者的音频和图像信息,并且,解说者的形象还是虚拟化的,目标视频视觉信息丰富,且具备吸引力。
在本公开的实施例中,视频处理装置还可以执行以下步骤:对讲解视频中,讲解者对应的讲解音频进行语音识别,得到讲解文本;对讲解文本进行语义自动纠错,得到纠错后的讲解文本;利用纠错后的讲解文本,对目标视频添加字幕。
可以理解的是,在本公开的实施例中,如步骤S102所述,视频处理装置在进行讲解视频中,从讲解视频中分离出讲解音频,针对于讲解音频,视频处理装置还可以进行语音识别,从而得到讲解文本,由于语音识别容易存在误识别,并且讲解者在讲解时也可能存在语义错误等问题,为了保证讲解文本的正确性,视频处理装置可以进一步对讲解文本进行语义自动纠错,从而得到纠错后的讲解文本。
需要说明的是,在本公开的实施例中,如步骤S102所述,视频处理装置在从讲解视频中分离出讲解音频之后,可以对其进行优化处理,在此情况下,视频处理装置对讲解视频中,讲解者对应的讲解音频进行语音识别,可以是对优化后的讲解音频进行语音识别,从而提高语音识别的准确性。
需要说明的是,在本公开的实施例中,视频处理装置利用纠错后的讲解文本,对目标视频添加字幕,可以是直接将讲解文本中每一句讲解文字,同步添加到目标视频中,解说者述说对应的语句的画面中,从而便于观众更明确的获知解说者解说的内容,此外,也可以对讲解文本进行分析,生成对目标视频中部分画面进行补充说明或提示的文本,从而将这些文本添加到目标视频中对应的画面中,提高目标视频的显示效果,丰富视频呈现的信息。
图2为本公开实施例提供的一种示例性的视频融合示意图。如图2所示,在本公开的实施例中,在远程直播场景,即主播并未在直播现场的场景下,视频处理装置在获得主播讲解视频和直播场景视频的情况下,可以分别对两个视频进行音视频分离,从而得到对应的音频和图像,之后,视频处理装置可以对主播音频和场景音频分别进行优化处理,对主播图像进行虚拟化处理,并将主播音频和虚拟图像进行融合,生成包含虚拟主播的虚拟视频,再与直播图像和优化后的直播音频融合,生成目标视频。此外,视频处理装置对于主播音频优化后,还可以对其进行语音识别,再对得到的讲解文本进行语义自动纠错,最后利用其对目标视频进行字幕添加后再将视频上传到直播平台,从而通过直播平台播放。
在本公开的实施例中,视频处理装置在将虚拟视频与场景视频进行融合,生成目标视频之后,还可以执行以下步骤:针对观看对象播放目标视频;实时采集观看对象在观看目标视频期间,针对目标视频的反馈信息;反馈信息,包括观看对象的语音信息和图像信息中的至少一项;利用反馈信息对观看对象进行角色分析,得到观看对象的角色分析结果;基于角色分析结果,实时调整目标视频中,讲解者的虚拟形象。
需要说明的是,在本公开的实施例中,视频处理装置在生成目标视频之后,可以针对观看对象播放目标视频,从而实时采集观看对象在观看目标视频期间的语音信息和/或图像信息,其中,图像信息可以是针对观看对象拍摄的一帧或多帧图像,也可以是针对观看对象拍摄的一段时长的视频,本公开实施例不作限定。若反馈信息包含语音信息和视频信息,视频处理装置即可利用多模态交互智能分析引擎,根据这些信息进行语音识别、语言理解、视频理解、情感分析、多模态认证和行为分析,从而得到观看对象的角色分析结果,这样,可以进一步实时调整目标视频中,讲解者的虚拟形象,例如,调整虚拟形象的展示形态和表情,从而实现与观看对象的适配,提高了视频显示的灵活性和多样性。
需要说明的是,在本公开的实施例中,观看对象的角色分析结果可以包括观看对象的身份、年龄、性别、情绪等信息,视频处理装置根据这些信息,可以实时调整目标视频中,讲解者的虚拟形象,以与观看对象的这些信息匹配。例如,视频处理装置在利用反馈信息进行观看对象的角色分析,确定出观看对象为儿童,因此,可以将目标视频中,讲解者的虚拟形象实时调整为卡通形象。
在本公开的实施例中,视频处理装置针对观看对象播放目标视频之后,还可以执行以下步骤:在接收到停止显示指令的情况下,停止显示目标视频中讲解者的虚拟形象。
可以理解的是,在本公开的实施例中,观看对象可能并不期望在显示讲解者的虚拟形象,因此,可以通过特定的触控操作或按键,向视频处理装置发送停止显示指令,这样,视频处理装置在接收到停止显示指令的情况下,即可停止显示目标视频中讲解者的虚拟形象,从而提高了目标视频中讲解者的虚拟形象显示的灵活性。
图3为本公开实施例提供的一种示例性的视频处理架构示意图。如图3所示,在本公开的实施例中,视频处理装置可以包括视频生成端和视频播放端,在视频生成端,实现主播视频中主播形象的虚拟化处理,从而与场景视频融合,上传到直播平台和本地存储,在视频播放端,采集用户交互数据,例如,用户在观看视频期间的语音和视频,从而进行分析,确定用户角色,再实时进行视频中主播虚拟形象的调整。此外,在视频生成端,可以允许用户设置虚拟形象,在视频播放端,用户可以通过控制端从而控制是否在视频中显示主播的虚拟形象。
本公开实施例提供了一种视频处理方法,包括:实时采集目标场景的场景视频,以及未处于目标场景的讲解者针对目标场景的讲解视频;对讲解视频中,讲解者的形象进行虚拟化处理,得到虚拟视频;将虚拟视频与场景视频进行融合,生成目标视频。本公开实施例提供的视频处理方法,将不同场景的讲解者视频和场景视频,基于虚拟形象技术进行合成,从而丰富了视频提供的视觉信息,提高了视频显示效果。
本公开实施例提供了一种视频处理装置。图4为本公开实施例提供的一种视频处理装置的结构示意图。如图4所示,在本公开的实施例中,视频处理装置包括:
采集模块401,用于实时采集目标场景的场景视频,以及未处于所述目标场景的讲解者针对所述目标场景的讲解视频;
处理模块402,用于对所述讲解视频中,所述讲解者的形象进行虚拟化处理,得到虚拟视频;
融合模块403,用于将所述虚拟视频与所述场景视频进行融合,生成目标视频。
在本公开一实施例中,所述处理模块402,具体用于从所述讲解视频中,分离出所述讲解者对应的讲解音频和视频图像;对所述视频图像中,所述讲解者的形象进行虚拟化处理,得到虚拟图像;将所述虚拟图像与所述讲解音频进行融合,生成所述虚拟视频。
在本公开一实施例中,所述处理模块402,具体用于根据所述视频图像中所述讲解者的形象生成对应的虚拟形象;将所述视频图像中,所述讲解者的形象更新为所述对应的虚拟形象,得到所述虚拟图像;或者,获取预设虚拟形象;将所述视频图像中,所述讲解者的形象更新为所述预设虚拟形象,得到所述虚拟图像。
在本公开一实施例中,所述融合模块403,具体用于从所述场景视频中,分离出所述目标场景对应的场景音频和场景图像;对所述场景音频进行优化处理,得到优化后的场景音频;将所述优化后的场景音频、所述场景图像,以及所述虚拟视频进行融合,生成所述目标视频。
在本公开一实施例中,所述处理模块402,还用于对所述讲解视频中,所述讲解者对应的讲解音频进行语音识别,得到讲解文本;对所述讲解文本进行语义自动纠错,得到纠错后的讲解文本;利用所述纠错后的讲解文本,对所述目标视频添加字幕。
在本公开一实施例中,所述处理模块402,还用于针对观看对象播放所述目标视频;实时采集所述观看对象在观看所述目标视频期间,针对所述目标视频的反馈信息;所述反馈信息,包括所述观看对象的语音信息和图像信息中的至少一项;利用所述反馈信息对所述观看对象进行角色分析,得到所述观看对象的角色分析结果;基于所述角色分析结果,实时调整所述目标视频中,所述讲解者的虚拟形象。
在本公开一实施例中,所述处理模块402,还用于在接收到停止显示指令的情况下,停止显示所述目标视频中所述讲解者的虚拟形象。
本公开实施例提供了一种视频处理装置,实时采集目标场景的场景视频,以及未处于目标场景的讲解者针对目标场景的讲解视频;对讲解视频中,讲解者的形象进行虚拟化处理,得到虚拟视频;将虚拟视频与场景视频进行融合,生成目标视频。本公开实施例提供的视频处理装置,将不同场景的讲解者视频和场景视频,基于虚拟形象技术进行合成,从而丰富了视频提供的视觉信息,提高了视频显示效果。
本公开实施例提供了一种电子设备。图5为本公开实施例提供的一种电子设备的结构示意图。如图5所示,在本公开的实施例中,电子设备包括:处理器501、存储器502和通信总线503;其中,
所述通信总线503,用于实现所述处理器501和所述存储器502之间的连接通信;
所述处理器501,用于执行所述存储器502中存储的一个或多个程序,以实现上述视频处理方法。
本公开实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有一个或者多个程序,所述一个或者多个程序可以被一个或者多个处理器执行,以实现上述视频处理方法。计算机可读存储介质可以是是易失性存储器(volatile memory),例如随机存取存储器(Random-Access Memory,RAM);或者非易失性存储器(non-volatilememory),例如只读存储器(Read-Only Memory,ROM),快闪存储器(flash memory),硬盘(Hard Disk Drive,HDD)或固态硬盘(Solid-State Drive,SSD);也可以是包括上述存储器之一或任意组合的各自设备,如移动电话、计算机、平板设备、个人数字助理等。
本领域内的技术人员应明白,本公开的实施例可提供为方法、系统、或计算机程序产品。因此,本公开可采用硬件实施例、软件实施例、或结合软件和硬件方面的实施例的形式。而且,本公开可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。
本公开是参照根据本公开实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程信号处理设备的处理器以产生一个机器,使得通过计算机或其他可编程信号处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程信号处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程信号处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上所述,仅为本公开的较佳实施例而已,并非用于限定本公开的保护范围。

Claims (10)

1.一种视频处理方法,其特征在于,包括:
实时采集目标场景的场景视频,以及未处于所述目标场景的讲解者针对所述目标场景的讲解视频;
对所述讲解视频中,所述讲解者的形象进行虚拟化处理,得到虚拟视频;
将所述虚拟视频与所述场景视频进行融合,生成目标视频。
2.根据权利要求1所述的方法,其特征在于,所述对所述讲解视频中,所述讲解者的形象进行虚拟化处理,得到虚拟视频,包括:
从所述讲解视频中,分离出所述讲解者对应的讲解音频和视频图像;
对所述视频图像中,所述讲解者的形象进行虚拟化处理,得到虚拟图像;
将所述虚拟图像与所述讲解音频进行融合,生成所述虚拟视频。
3.根据权利要求2所述的方法,其特征在于,所述对所述视频图像中,所述讲解者的形象进行虚拟化处理,得到虚拟图像,包括:
根据所述视频图像中所述讲解者的形象生成对应的虚拟形象;
将所述视频图像中,所述讲解者的形象更新为所述对应的虚拟形象,得到所述虚拟图像;
或者,获取预设虚拟形象;
将所述视频图像中,所述讲解者的形象更新为所述预设虚拟形象,得到所述虚拟图像。
4.根据权利要求1-3任一项所述的方法,其特征在于,所述将所述虚拟视频与所述场景视频进行融合,生成目标视频,包括:
从所述场景视频中,分离出所述目标场景对应的场景音频和场景图像;
对所述场景音频进行优化处理,得到优化后的场景音频;
将所述优化后的场景音频、所述场景图像,以及所述虚拟视频进行融合,生成所述目标视频。
5.根据权利要求1-4任一项所述的方法,其特征在于,所述方法还包括:
对所述讲解视频中,所述讲解者对应的讲解音频进行语音识别,得到讲解文本;
对所述讲解文本进行语义自动纠错,得到纠错后的讲解文本;
所述将所述虚拟视频与所述场景视频进行融合,生成目标视频之后,所述方法还包括:
利用所述纠错后的讲解文本,对所述目标视频添加字幕。
6.根据权利要求1-5任一项所述的方法,其特征在于,所述将所述虚拟视频与所述场景视频进行融合,生成目标视频之后,所述方法还包括:
针对观看对象播放所述目标视频;
实时采集所述观看对象在观看所述目标视频期间,针对所述目标视频的反馈信息;所述反馈信息,包括所述观看对象的语音信息和图像信息中的至少一项;
利用所述反馈信息对所述观看对象进行角色分析,得到所述观看对象的角色分析结果;
基于所述角色分析结果,实时调整所述目标视频中,所述讲解者的虚拟形象。
7.根据权利要求6所述的方法,其特征在于,所述针对观看对象播放所述目标视频之后,所述方法还包括:
在接收到停止显示指令的情况下,停止显示所述目标视频中所述讲解者的虚拟形象。
8.一种视频处理装置,其特征在于,包括:
采集模块,用于实时采集目标场景的场景视频,以及未处于所述目标场景的讲解者针对所述目标场景的讲解视频;
处理模块,用于对所述讲解视频中,所述讲解者的形象进行虚拟化处理,得到虚拟视频;
融合模块,用于将所述虚拟视频与所述场景视频进行融合,生成目标视频。
9.一种电子设备,其特征在于,包括:处理器、存储器和通信总线;其中,
所述通信总线,用于实现所述处理器和所述存储器之间的连接通信;
所述处理器,用于执行所述存储器中存储的一个或多个程序,以实现权利要求1-7任一项所述的视频处理方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有一个或者多个程序,所述一个或者多个程序可以被一个或者多个处理器执行,以实现权利要求1-7任一项所述的视频处理方法。
CN202111257835.1A 2021-10-27 2021-10-27 一种视频处理方法、装置、电子设备及存储介质 Withdrawn CN114007091A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111257835.1A CN114007091A (zh) 2021-10-27 2021-10-27 一种视频处理方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111257835.1A CN114007091A (zh) 2021-10-27 2021-10-27 一种视频处理方法、装置、电子设备及存储介质

Publications (1)

Publication Number Publication Date
CN114007091A true CN114007091A (zh) 2022-02-01

Family

ID=79924351

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111257835.1A Withdrawn CN114007091A (zh) 2021-10-27 2021-10-27 一种视频处理方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN114007091A (zh)

Citations (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105791958A (zh) * 2016-04-22 2016-07-20 北京小米移动软件有限公司 游戏直播方法及装置
CN106385614A (zh) * 2016-09-22 2017-02-08 北京小米移动软件有限公司 画面合成方法及装置
CN106559696A (zh) * 2016-12-01 2017-04-05 北京小米移动软件有限公司 信息发送方法及装置
CN108510917A (zh) * 2017-02-27 2018-09-07 北京康得新创科技股份有限公司 基于讲解装置的事件处理方法和讲解装置
CN109118562A (zh) * 2018-08-31 2019-01-01 百度在线网络技术(北京)有限公司 虚拟形象的讲解视频制作方法、装置以及终端
CN109271553A (zh) * 2018-08-31 2019-01-25 乐蜜有限公司 一种虚拟形象视频播放方法、装置、电子设备及存储介质
WO2019205872A1 (zh) * 2018-04-25 2019-10-31 腾讯科技(深圳)有限公司 视频流处理方法、装置、计算机设备及存储介质
CN110427107A (zh) * 2019-07-23 2019-11-08 德普信(天津)软件技术有限责任公司 虚拟与现实互动教学方法及系统、服务器、存储介质
CN110557625A (zh) * 2019-09-17 2019-12-10 北京达佳互联信息技术有限公司 虚拟形象直播方法、终端、计算机设备及存储介质
WO2020007185A1 (zh) * 2018-07-04 2020-01-09 腾讯科技(深圳)有限公司 图像处理方法、装置、存储介质和计算机设备
CN110691279A (zh) * 2019-08-13 2020-01-14 北京达佳互联信息技术有限公司 一种虚拟直播的方法、装置、电子设备及存储介质
CN110891201A (zh) * 2019-11-07 2020-03-17 腾讯科技(深圳)有限公司 文本生成方法、装置、服务器和存储介质
CN110971930A (zh) * 2019-12-19 2020-04-07 广州酷狗计算机科技有限公司 虚拟形象直播的方法、装置、终端及存储介质
CN111447458A (zh) * 2020-04-01 2020-07-24 广州市百果园信息技术有限公司 基于内容解说的直播系统、方法、装置和直播服务器
CN111639233A (zh) * 2020-05-06 2020-09-08 广东小天才科技有限公司 学习视频字幕添加方法、装置、终端设备和存储介质
CN111683260A (zh) * 2020-05-07 2020-09-18 广东康云科技有限公司 基于虚拟主播的节目视频生成方法、系统和存储介质
CN112533003A (zh) * 2020-11-24 2021-03-19 大连三通科技发展有限公司 一种视频处理系统、装置、方法
WO2021073416A1 (zh) * 2019-10-18 2021-04-22 平安科技(深圳)有限公司 基于神经网络生成虚拟人物视频的方法及相关设备
CN112822542A (zh) * 2020-08-27 2021-05-18 腾讯科技(深圳)有限公司 视频合成方法、装置、计算机设备和存储介质
KR20210089114A (ko) * 2020-06-28 2021-07-15 바이두 온라인 네트웍 테크놀러지 (베이징) 캄파니 리미티드 라이브 방송의 특수 효과 처리 방법, 장치 및 서버
CN113395540A (zh) * 2021-06-09 2021-09-14 广州博冠信息科技有限公司 虚拟演播系统、虚拟演播实现方法、装置及设备、介质
CN113507621A (zh) * 2021-07-07 2021-10-15 上海商汤智能科技有限公司 直播方法、装置、系统、计算机设备以及存储介质

Patent Citations (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105791958A (zh) * 2016-04-22 2016-07-20 北京小米移动软件有限公司 游戏直播方法及装置
CN106385614A (zh) * 2016-09-22 2017-02-08 北京小米移动软件有限公司 画面合成方法及装置
CN106559696A (zh) * 2016-12-01 2017-04-05 北京小米移动软件有限公司 信息发送方法及装置
CN108510917A (zh) * 2017-02-27 2018-09-07 北京康得新创科技股份有限公司 基于讲解装置的事件处理方法和讲解装置
WO2019205872A1 (zh) * 2018-04-25 2019-10-31 腾讯科技(深圳)有限公司 视频流处理方法、装置、计算机设备及存储介质
WO2020007185A1 (zh) * 2018-07-04 2020-01-09 腾讯科技(深圳)有限公司 图像处理方法、装置、存储介质和计算机设备
CN109118562A (zh) * 2018-08-31 2019-01-01 百度在线网络技术(北京)有限公司 虚拟形象的讲解视频制作方法、装置以及终端
CN109271553A (zh) * 2018-08-31 2019-01-25 乐蜜有限公司 一种虚拟形象视频播放方法、装置、电子设备及存储介质
CN110427107A (zh) * 2019-07-23 2019-11-08 德普信(天津)软件技术有限责任公司 虚拟与现实互动教学方法及系统、服务器、存储介质
CN110691279A (zh) * 2019-08-13 2020-01-14 北京达佳互联信息技术有限公司 一种虚拟直播的方法、装置、电子设备及存储介质
CN110557625A (zh) * 2019-09-17 2019-12-10 北京达佳互联信息技术有限公司 虚拟形象直播方法、终端、计算机设备及存储介质
WO2021073416A1 (zh) * 2019-10-18 2021-04-22 平安科技(深圳)有限公司 基于神经网络生成虚拟人物视频的方法及相关设备
CN110891201A (zh) * 2019-11-07 2020-03-17 腾讯科技(深圳)有限公司 文本生成方法、装置、服务器和存储介质
CN110971930A (zh) * 2019-12-19 2020-04-07 广州酷狗计算机科技有限公司 虚拟形象直播的方法、装置、终端及存储介质
CN111447458A (zh) * 2020-04-01 2020-07-24 广州市百果园信息技术有限公司 基于内容解说的直播系统、方法、装置和直播服务器
CN111639233A (zh) * 2020-05-06 2020-09-08 广东小天才科技有限公司 学习视频字幕添加方法、装置、终端设备和存储介质
CN111683260A (zh) * 2020-05-07 2020-09-18 广东康云科技有限公司 基于虚拟主播的节目视频生成方法、系统和存储介质
KR20210089114A (ko) * 2020-06-28 2021-07-15 바이두 온라인 네트웍 테크놀러지 (베이징) 캄파니 리미티드 라이브 방송의 특수 효과 처리 방법, 장치 및 서버
CN112822542A (zh) * 2020-08-27 2021-05-18 腾讯科技(深圳)有限公司 视频合成方法、装置、计算机设备和存储介质
CN112533003A (zh) * 2020-11-24 2021-03-19 大连三通科技发展有限公司 一种视频处理系统、装置、方法
CN113395540A (zh) * 2021-06-09 2021-09-14 广州博冠信息科技有限公司 虚拟演播系统、虚拟演播实现方法、装置及设备、介质
CN113507621A (zh) * 2021-07-07 2021-10-15 上海商汤智能科技有限公司 直播方法、装置、系统、计算机设备以及存储介质

Similar Documents

Publication Publication Date Title
CN106789991B (zh) 一种基于虚拟场景的多人互动网络直播方法及系统
CN108401192B (zh) 视频流处理方法、装置、计算机设备及存储介质
CN106303555B (zh) 一种基于混合现实的直播方法、装置和系统
CN109089127B (zh) 一种视频拼接方法、装置、设备及介质
CN106730815B (zh) 一种易实现的体感互动方法及系统
CN108632632B (zh) 一种网络直播的数据处理方法和装置
CN112135160A (zh) 直播中虚拟对象控制方法及装置、存储介质和电子设备
US11863801B2 (en) Method and device for generating live streaming video data and method and device for playing live streaming video
US11227620B2 (en) Information processing apparatus and information processing method
JP4621758B2 (ja) コンテンツ情報再生装置、コンテンツ情報再生システム、および情報処理装置
CN109416562B (zh) 用于虚拟现实的装置、方法和计算机可读介质
WO2020207080A1 (zh) 视频拍摄方法、装置、电子设备及存储介质
US20150160728A1 (en) Electronic device
CN110472099B (zh) 互动视频生成方法及装置、存储介质
CN112653902B (zh) 说话人识别方法、装置及电子设备
CN108635863B (zh) 一种网络直播的数据处理方法和装置
CN110992993A (zh) 视频编辑方法、视频编辑装置、终端和可读存储介质
CN106534618B (zh) 伪现场解说实现方法、装置和系统
CN112188267B (zh) 视频播放方法、装置和设备及计算机存储介质
CN111405339B (zh) 一种分屏显示方法、电子设备及存储介质
TWI620438B (zh) 校正直播節目中互動時間的方法、裝置與電腦可讀取儲存裝置
CN112492347A (zh) 处理信息流、显示弹幕信息的方法及信息流处理系统
CN111279687A (zh) 视频的字幕处理方法和导播系统
CN112804578A (zh) 氛围特效生成方法、装置、电子设备和存储介质
US20180366089A1 (en) Head mounted display cooperative display system, system including dispay apparatus and head mounted display, and display apparatus thereof

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication

Application publication date: 20220201

WW01 Invention patent application withdrawn after publication