CN114449345A - 视频处理方法、装置、设备及存储介质 - Google Patents

视频处理方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN114449345A
CN114449345A CN202210118524.5A CN202210118524A CN114449345A CN 114449345 A CN114449345 A CN 114449345A CN 202210118524 A CN202210118524 A CN 202210118524A CN 114449345 A CN114449345 A CN 114449345A
Authority
CN
China
Prior art keywords
video
feature vector
index
processed
quantized
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210118524.5A
Other languages
English (en)
Other versions
CN114449345B (zh
Inventor
赵远远
任菁菁
李琛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202210118524.5A priority Critical patent/CN114449345B/zh
Publication of CN114449345A publication Critical patent/CN114449345A/zh
Priority to PCT/CN2022/131919 priority patent/WO2023151333A1/zh
Application granted granted Critical
Publication of CN114449345B publication Critical patent/CN114449345B/zh
Priority to US18/224,501 priority patent/US20230362416A1/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/132Sampling, masking or truncation of coding units, e.g. adaptive resampling, frame skipping, frame interpolation or high-frequency transform coefficient masking
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/85Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using pre-processing or post-processing specially adapted for video compression
    • H04N19/87Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using pre-processing or post-processing specially adapted for video compression involving scene cut or scene change detection in combination with video compression
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/44008Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics in the video stream
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/7715Feature extraction, e.g. by transforming the feature space, e.g. multi-dimensional scaling [MDS]; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/49Segmenting video sequences, i.e. computational techniques such as parsing or cutting the sequence, low-level clustering or determining units such as shots or scenes
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/124Quantisation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/136Incoming video signal characteristics or properties
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/167Position within a video image, e.g. region of interest [ROI]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/42Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by implementation details or hardware specially adapted for video compression or decompression, e.g. dedicated software implementation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/60Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/44016Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving splicing one content stream with another content stream, e.g. for substituting a video clip

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

本申请公开了一种视频处理方法、装置、设备及存储介质,属于视频处理技术领域。该方法包括:将待处理视频和视频掩码输入至第一编码模型进行特征提取,得到第一视频特征向量及第二视频特征向量;在基于第一量化特征向量构成的离散隐空间中确定第一量化特征向量的索引分布;基于第二视频特征向量及索引分布在离散隐空间中确定第二量化特征向量;将第一量化特征向量和第二量化特征向量输入至第一解码模型,得到重构视频。本申请实施例可应用于地图领域,通过利用掩码区域对应的第二视频特征向量及索引分布,获取掩码区域对应的第一索引,根据该第一索引在离散隐空间中确定填补掩码区域对应的第二量化特征向量,从而高质量地完成视频的填补效果。

Description

视频处理方法、装置、设备及存储介质
技术领域
本申请涉及视频处理技术领域,特别涉及一种视频处理方法、装置、设备及存储介质。
背景技术
随着移动终端的普及和网络的提速,发布视频与播放视频逐渐成为人们的娱乐方式之一。在用户对视频进行编辑制作时,为了保护视频中的隐私或保持美观,需要对视频中出现的某些人物或物体进行移除并填补背景内容。
相关技术中,通过融合时序结构的方式,将相关帧之间的有效信息融合起来,从而将相关帧中的有效信息填补至视频缺失区域。
但通过融合时序结构的方式,其所融合的有效信息仅覆盖部分视频片段,且对视频中的细节复杂区域进行填补时,会使得视频填补区域出现模糊的情况,难以生成高质量、细节逼真的结果。
发明内容
本申请提供了一种视频处理方法、装置、设备及存储介质,可以高质量的实现对视频缺失区域的填补。所述技术方案如下:
根据本申请的一方面,提供了一种视频处理方法,所述方法包括:
将待处理视频和视频掩码输入至第一编码模型进行特征提取,基于所述待处理视频和所述视频掩码得到第一视频特征向量及第二视频特征向量,所述视频掩码用于掩码所述待处理视频中的掩码区域,所述第一视频特征向量是指未掩码区域对应的特征向量,所述第二视频特征向量是指所述掩码区域对应的特征向量;
获取所述待处理视频的所述第一视频特征向量对应的第一量化特征向量,在基于所述第一量化特征向量构成的离散隐空间中确定所述第一量化特征向量的索引分布,所述索引分布是指所述第一量化特征向量在所述离散隐空间中的位置分布;
基于所述第二视频特征向量及所述索引分布在所述离散隐空间中确定第二量化特征向量,所述第二量化特征向量用于填补所述掩码区域;
将所述第一量化特征向量和所述第二量化特征向量输入至第一解码模型,得到重构视频,所述重构视频是指对所述待处理视频的所述掩码区域的内容进行填补得到的视频;
输出所述重构视频。
根据本申请的另一方面,提供了一种视频处理装置,所述装置包括:
特征提取模块,用于将待处理视频和视频掩码输入至第一编码模型进行特征提取,基于所述待处理视频和所述视频掩码得到第一视频特征向量及第二视频特征向量,所述视频掩码用于掩码所述待处理视频中的掩码区域,所述第一视频特征向量是指未掩码区域对应的特征向量,所述第二视频特征向量是指掩码区域对应的特征向量;
量化模块,用于获取所述待处理视频的所述第一视频特征向量对应的第一量化特征向量,在基于所述第一量化特征向量构成的离散隐空间中确定所述第一量化特征向量的索引分布,所述索引分布是指所述第一量化特征向量在所述离散隐空间中的位置分布;
预测模块,用于基于所述第二视频特征向量及所述索引分布在所述离散隐空间中确定第二量化特征向量,所述第二量化特征向量用于填补所述掩码区域;
解码模块,用于将所述第一量化特征向量和所述第二量化特征向量输入至第一解码模型,得到重构视频,所述重构视频是指对所述待处理视频的所述掩码区域的内容进行填补得到的视频;
输出模块,用于输出所述重构视频。
根据本申请的另一方面,所述预测模块,包括:
第一预测单元,用于将所述第二视频特征向量及所述索引分布输入至转换模型,得到所述掩码区域对应的第一索引;
第二预测单元,用于根据所述第一索引,在所述离散隐空间中确定与所述第一索引对应的第二量化特征向量;
其中,所述转换模型是用于确定所述待处理视频的所述掩码区域对应的索引的机器学习模型。
根据本申请的另一方面,所述第一预测单元,还用于将所述第二视频特征向量及所述索引分布输入至所述转换模型,计算所述第二视频特征向量与所述索引分布转化的索引特征向量之间的响应值;
所述第一预测单元,还用于将所述响应值最高的所述索引特征向量对应的所述索引作为所述第一索引;
其中,所述响应值是指所述第二视频特征向量与所述索引分布转化的所述索引特征向量之间的关联值。
根据本申请的另一方面,提供了一种计算机设备,该计算机设备包括:处理器和存储器,存储器中存储有至少一段计算机程序,至少一段计算机程序由处理器加载并执行以实现如上方所述的视频处理方法。
根据本申请的另一方面,提供了一种计算机存储介质,计算机可读存储介质中存储有至少一段计算机程序,至少一段计算机程序由处理器加载并执行以实现如上方所述的视频处理方法。
根据本申请的另一方面,提供了一种计算机程序产品,上述计算机程序产品包括计算机指令,所述计算机指令存储在计算机可读存储介质中;所述计算机指令由计算机设备的处理器从所述计算机可读存储介质读取并执行,使得所述计算机设备执行如上方所述的视频处理方法。
本申请提供的技术方案带来的有益效果至少包括:
本申请实施例通过获取待处理视频未掩码区域对应的第一视频特征向量及掩码区域对应的第二视频特征向量,在基于所述第一量化特征向量构成的离散隐空间中确定所述第一量化特征向量的索引分布,基于第二视频特征向量及索引分布,在离散隐空间中确定填补掩码区域的第二量化特征向量,将第一量化特征向量和第二量化特征向量输入至第一解码模型,从而得到重构视频。本申请实施例通过利用掩码区域对应的第二视频特征向量及整段待处理视频中未掩码区域对应的第一量化特征向量的索引分布,获取掩码区域对应的第一索引,根据该第一索引,在离散隐空间中确定填补掩码区域对应的第二量化特征向量,从而高质量地完成视频的填补效果。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请一个示例性实施例提供的视频处理方法的计算机系统架构示意图;
图2是本申请一个示例性实施例提供的视频处理方法的流程图;
图3是本申请一个示例性实施例提供的视频处理方法的流程图;
图4是本申请一个示例性实施例提供的视频处理方法的结构框架图;
图5是本申请一个示例性实施例提供的视频处理方法的示意图;
图6是本申请一个示例性实施例提供的视频处理方法的流程图;
图7是本申请一个示例性实施例提供的视频处理方法的结构框架图;
图8是本申请一个示例性实施例提供的视频处理方法的结构框架图;
图9是本申请一个示例性实施例提供的视频处理装置的结构框图;
图10是本申请一个示例性实施例提供的计算机设备的结构框图。
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。
图1示出了本申请一个实施例提供的视频处理方法的计算机系统架构。该计算机系统可以包括:终端100和服务器200。
终端100可以是诸如手机、平板电脑、车载终端(车机)、可穿戴设备、个人计算机(Personal Computer,PC)、智能语音交互设备、智能家电、车载终端、飞行器、无人售货终端等电子设备。终端100中可以安装运行目标应用程序的客户端,该目标应用程序可以是支持拍摄的应用程序,也可以是提供有拍摄功能的其他应用程序,本申请对此不作限定。另外,本申请对该目标应用程序的形式不作限定,包括但不限于安装在终端100中的应用程序(Application,App)、小程序等,还可以是网页形式。
服务器200可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云计算服务的云服务器。服务器200可以是上述目标应用程序的后台服务器,用于为目标应用程序的客户端提供后台服务。
终端100和服务器200之间可以通过网络进行通信,如有线或无线网络。
本申请实施例提供的视频处理方法,各步骤的执行主体可以是计算机设备,所述计算机设备是指具备数据计算、处理和存储能力的电子设备。以图1所示的方案实施环境为例,可以由终端100执行视频处理方法(如终端100中安装运行的目标应用程序的客户端执行该视频处理方法),也可以由服务器200执行该视频处理方法,或者由终端100和服务器200交互配合执行,本申请对此不作限定。
图2示出了本申请一示例性实施例提供的视频处理方法的流程图,该方法可以由计算机设备执行,计算机设备可以是图1中的终端100或服务器200该视频处理方法可以包括以下步骤:
步骤202:将待处理视频和视频掩码输入至第一编码模型进行特征提取,基于待处理视频和视频掩码得到第一视频特征向量及第二视频特征向量。
待处理视频是指需要对掩码区域进行遮挡并进行填补的视频。视频掩码用于掩码待处理视频中的掩码区域。
第一编码模型是指与该待处理视频相对应的编码模型,编码模型用以提取待处理视频和视频掩码的特征向量。
例如,掩码区域为待处理视频中的人物、物体,但不限于此,本申请实施例对此不作限定。
计算机设备获取待处理视频和视频掩码,计算机设备将待处理视频和视频掩码输入至第一编码模型进行特征提取,基于待处理视频和视频掩码得到第一视频特征向量及第二视频特征向量。
第一视频特征向量是指未掩码区域对应的特征向量。第二视频特征向量是指掩码区域对应的特征向量。
可选地,未掩码区域是指待处理视频中没有被视频掩码进行遮挡的区域;掩码区域是指待处理视频中被视频掩码进行遮挡的区域。
步骤204:获取待处理视频的第一视频特征向量对应的第一量化特征向量,在基于第一量化特征向量构成的离散隐空间中确定第一量化特征向量的索引分布。
量化特征向量是指与视频特征对应的特征向量。
可选地,多个视频特征向量对应一个量化特征向量,但不限于此,本申请实施例对此不作限定。
第一量化特征向量是指与待处理视频的第一视频特征向量对应的量化特征向量。
索引分布是指第一量化特征向量在离散隐空间中的位置分布。
步骤206:基于第二视频特征向量及索引分布在离散隐空间中确定第二量化特征向量。
第二量化特征向量是指用于填补掩码区域的量化特征向量。
计算机设备根据待处理视频的掩码区域对应的第二视频特征向量及第一量化特征向量在离散隐空间中的位置分布,在离散隐空间中确定用于填补掩码区域的第二量化特征向量。
步骤208:将第一量化特征向量和第二量化特征向量输入至第一解码模型,得到重构视频。
重构视频是指对待处理视频的掩码区域的内容进行填补得到的视频。
第一解码模型是指与该待处理视频相对应的解码模型,解码模型用以将量化特征向量转化为视频形式。
步骤210:输出重构视频。
计算机设备输出重构视频。
综上所述,本申请实施例所示的方案,通过将获取的待处理视频和视频掩码输入至第一编码模型进行特征提取,得到第一视频特征向量及第二视频特征向量;在基于第一量化特征向量构成的离散隐空间中确定第一量化特征向量的索引分布;计算机设备基于第二视频特征向量及索引分布在离散隐空间中确定第二量化特征向量;并将第一量化特征向量和第二量化特征向量输入至第一解码模型,得到重构视频。本申请实施例提供的视频处理方法,通过利用掩码区域对应的第二视频特征向量及整段待处理视频中未掩码区域对应的第一量化特征的索引分布,在离散隐空间中确定填补掩码区域对应的第二量化特征向量,从而高质量地完成视频的填补效果。
图3示出了本申请一示例性实施例提供的视频处理方法的流程图,该方法可以由计算机设备执行,计算机设备可以是图1中的终端100或服务器200该视频处理方法可以包括以下步骤:
步骤302:将待处理视频和视频掩码输入至第一编码模型进行特征提取,基于待处理视频和视频掩码得到第一视频特征向量及第二视频特征向量。
视频掩码用于掩码待处理视频中的掩码区域。第一编码模型是指与该待处理视频相对应的编码模型,编码模型用以提取待处理视频和视频掩码的特征向量。
计算机设备获取待处理视频和视频掩码,计算机设备将待处理视频和视频掩码输入至第一编码模型进行特征提取,得到第一视频特征向量及第二视频特征向量。
第一视频特征向量是指未掩码区域对应的特征向量。第二视频特征向量是指掩码区域对应的特征向量。
可选地,未掩码区域是指待处理视频中没有被视频掩码进行遮挡的区域;掩码区域是指待处理视频中被视频掩码进行遮挡的区域。
在一种可能的实现方式中,计算机设备将待处理视频和视频掩码进行相乘后得到的掩码视频输入至第一编码模型进行特征提取,基于待处理视频和视频掩码得到第一视频特征向量及第二视频特征向量。
示例性地,计算机设备将待处理视频中的多帧图像xt-1、xt、xt+1和对应的视频掩码mt-1、mt、mt+1输入至第一编码模型进行特征提取。
第一视频特征向量提取公式为:
fe1=E(x⊙(1-m))
式中:fe1为第一编码模型提取的第一视频特征向量,E为第一编码模型,x为待处理视频中的图像,m为待处理视频中的图像对应的视频掩码,⊙表示逐元素相乘。
第二视频特征向量提取公式为:
fe2=E(m)
式中:fe2为第一编码模型提取的第二视频特征向量,E为第一编码模型,m为待处理视频中的图像对应的视频掩码。
步骤304:获取待处理视频的第一视频特征向量对应的第一量化特征向量,在基于第一量化特征向量构成的离散隐空间中确定第一量化特征向量的索引分布。
在一种可能的实现方式中,计算机设备根据第一视频特征向量与视频码本中的量化特征向量之间的空间位置,在视频码本中确定与第一视频特征向量的距离值最小的量化特征向量作为第一量化特征向量。其中,视频码本中包括各个视频对应的所述量化特征向量。
示例性地,视频码本ε可表示为:
ε={ek∈Rd|k∈{1,2,…,k}}
其中,ek为量化特征向量,Rd为量化特征向量的集合,k为量化特征向量的个数。
量化特征向量是指与视频特征对应的特征向量。第一量化特征向量是指与待处理视频的第一视频特征向量对应的量化特征向量。
索引分布是指第一量化特征向量在离散隐空间中的位置分布。
根据第一视频特征向量与视频码本中的量化特征向量之间的空间位置,在视频码本中确定与第一视频特征向量的距离值最小的量化特征向量为第一量化特征向量,及确定第一量化特征向量在离散隐空间中的位置分布。
在基于第一量化特征向量构成的离散隐空间中,根据第一量化特征向量与离散隐空间中其他第一量化特征向量之间的相对空间位置关系,确定第一量化特征向量在离散隐空间中的位置分布。
第一量化特征向量的确定公式为:
Figure BDA0003497545480000081
其中,fq为第一量化特征向量,i为第一量化特征向量对应的索引的下标,t为待处理视频中的第t帧,argmin是指使第一视频特征向量与视频码本中的量化特征向量之间的空间位置达到最小值时的变量的取值。
可选地,在对待处理视频进行第一视频特征向量提取并在基于第一量化特征向量构成的离散隐空间中确定第一量化特征向量的索引分布后,待处理视频中的每一帧图像特征既可以用第一量化特征向量fq表示,也可以用第一量化特征向量fq在离散隐空间中的索引表示。
步骤306:将第二视频特征向量及索引分布输入至转换模型,得到掩码区域对应的第一索引。
转换模型是用于确定待处理视频的掩码区域对应的索引的机器学习模型。
索引用以表示某一量化特征向量的位置,即,通过索引可以确定与该索引对应的量化特征向量的位置。第一索引是指掩码区域对应的第二量化特征在离散隐空间的位置。
计算机设备将第二视频特征向量及索引分布输入至转换模型,并得到掩码区域对应的第一索引。
在一种可能的实现方式中,计算机设备将第二视频特征向量及索引分布输入至转换模型,计算第二视频特征向量与索引分布转化的索引特征向量之间的响应值。计算机设备将响应值最高的索引特征向量对应的索引作为第一索引。
其中,响应值是指掩码区域的第二视频特征向量与索引分布转化的索引特征向量之间的关联值。索引特征向量是指索引分布经转换模型中的自注意机制层转换得到的特征向量。
示例性地,计算机设备通过转换模型中的自注意机制层将索引分布转化为索引特征向量,并通过转换模型中的预测层计算第二视频特征向量与索引分布转化的索引特征向量之间的响应值
Figure BDA0003497545480000091
再通过softmax函数归一化得到第二视频特征向量与离散隐空间中的第一量化特征向量之间的最大响应值
Figure BDA0003497545480000092
根据最大响应值确定该掩码区域对应的第一索引。
确定第二视频特征向量与索引分布转化的索引特征向量之间的响应值
Figure BDA0003497545480000093
的公式为:
Figure BDA0003497545480000094
式中,MSA为转换模型中的自注意机制层,P为转换模型中的预测层,z为索引分布。
确定最大响应值
Figure BDA0003497545480000095
的公式为:
Figure BDA0003497545480000096
第一索引确定公式为:
Figure BDA0003497545480000097
式中,
Figure BDA0003497545480000098
表示第t帧中第i个量化特征向量对应的索引,k为离散隐空间中量化特征向量的个数,
Figure BDA0003497545480000101
为第二视频特征向量与索引分布转化的索引特征向量之间的最大响应值。
步骤308:根据第一索引,在离散隐空间中确定与第一索引对应的第二量化特征向量。
计算机设备根据第一索引,确定与第一索引对应的量化特征向量的位置,从而在离散隐空间中确定与第一索引对应的第二量化特征向量。
步骤310:将第一量化特征向量和第二量化特征向量输入至第一解码模型,得到重构视频。
重构视频是指对待处理视频的掩码区域的内容进行填补得到的视频。
第一解码模型是指与该待处理视频相对应的解码模型,解码模型用以将量化特征向量转化为视频形式。
示例性地,计算机设备将将第一量化特征向量和第二量化特征向量输入至第一解码模型,第二量化特征向量补全待处理视频的掩码区域,从而得到重构视频x'。
如图4所示,计算机设备获取待处理视频和视频掩码,计算机设备将待处理视频和视频掩码输入至第一编码模型401进行特征提取,得到第一视频特征向量及第二视频特征向量。计算机设备根据第一视频特征向量,在基于第一量化特征向量构成的离散隐空间402中确定第一量化特征向量的索引分布。
计算机设备将第二视频特征向量及索引分布输入至转换模型403,通过计算第二视频特征向量与索引分布转化的索引特征向量之间的响应值。计算机设备将转换模型输出的响应值最高的索引特征向量对应的索引作为第一索引。计算机设备据第一索引,确定与第一索引对应的量化特征向量的位置,从而在离散隐空间402中确定与第一索引对应的第二量化特征向量。
计算机设备将将第一量化特征向量和第二量化特征向量输入至第一解码模型404,第二量化特征向量补全待处理视频的掩码区域,从而得到重构视频x'。
在一种可能的实现方式中,计算机设备在将第一量化特征向量和第二量化特征向量输入至第一解码模型之前,计算机设备将第二量化特征向量输入至时序融合模型,基于待处理视频的相邻帧之间的第二量化特征向量,计算第二量化特征向量的时序残差,根据时序残差对第二量化特征向量进行更新,得到更新后的第二量化特征向量。计算机设备将更新后的第二量化特征向量及第一量化特征向量输入至第一解码模型,得到重构视频,通过利用相邻帧之间时序关系,更新第二量化特征向量,使得相邻帧之间的填补区域的填补内容更加平滑。
步骤312:输出重构视频。
计算机设备输出重构视频。
示例性地,如图5所示,图5示出了计算机设备进行视频处理的示意图。图5中(a)图为待处理视频中的一帧图画,以图5中(a)图中包括的虚拟树木501、虚拟房屋502、虚拟房屋503为例。在需要将图5中(a)图中的虚拟房屋503消除并进行填补的情况下,将图5中(a)图及和视频掩码输入至第一编码模型进行特征提取,得到虚拟树木501和虚拟房屋502对应位置的第一视频特征向量及虚拟房屋503对应位置的第二视频特征向量。计算机设备根据第一视频特征向量,在基于第一量化特征向量构成的离散隐空间中确定第一量化特征向量的索引分布。
在将得到的第一视频特征向量及第二视频特征向量输入至解码模型的情况下,经过解码模型解码得到图5中的(b)图,(b)图包括虚拟树木501、虚拟房屋502及视频掩码后的空白区域504。
在将得到的索引分布及第二视频特征向量输入至转换模型的情况下,转换模型通过计算第二视频特征向量与索引分布转化的索引特征向量之间的响应值。计算机设备将响应值最高的索引特征向量对应的索引作为第一索引。计算机设备根据第一索引,在离散隐空间中确定与第一索引对应的量化特征向量的位置,从而在离散隐空间中确定与第一索引对应的第二量化特征向量。
例如,转换模型通过计算虚拟房屋503对应位置的第二视频特征向量与索引分布转化的索引特征向量之间的响应值。并确定响应值最高的索引特征向量对应的索引作为第一索引,计算机设备根据第一索引,在离散隐空间中确定与第一索引对应的第二量化特征向量为虚拟树木501。计算机设备将第一量化特征向量和第二量化特征向量输入至第一解码模型,第二量化特征向量补全待处理视频的掩码区域,从而得到重构视频。即,计算机设备将虚拟树木501、虚拟房屋502对应的第一量化特征向量及虚拟房屋503对应的第二量化特征输入至第一解码模型,第二量化特征向量补全视频掩码后的空白区域504,从而得到重构视频,如图5中的(c)图。
可以理解的是,本申请实施例可应用于云技术、人工智能、智慧交通、辅助驾驶等各种场景。
综上所述,本申请实施例所示的方案,通过将获取的待处理视频和视频掩码输入至第一编码模型进行特征提取,得到第一视频特征向量及第二视频特征向量;并在离在基于第一量化特征向量构成的离散隐空间中确定第一量化特征向量的索引分布;将第二视频特征向量及索引分布输入至转换模型,得到掩码区域对应的第一索引,并根据第一索引在在离散隐空间中确定第二量化特征向量;将第一量化特征向量和第二量化特征向量输入至第一解码模型,得到重构视频。本申请实施例提供的视频处理方法,基于掩码区域对应的第二视频特征向量及未掩码区域对应的第一量化特征向量的索引分布,通过利用转换模型获取掩码区域对应的第一索引,根据该第一索引在离散隐空间中确定填补掩码区域对应的第二量化特征向量,从而高质量地完成视频的填补效果。
上述实施例针对视频处理过程进行了描述,接下来将就视频处理过程中与待处理视频相对应的第一编码模型、离散隐空间、第一解码模型的确定过程作进一步描述。
图6示出了本申请一示例性实施例提供的视频处理方法的流程图,该方法可以由计算机设备执行,计算机设备可以是图1中的终端100或服务器200该视频处理方法可以包括以下步骤:
步骤602:将待处理视频和视频掩码输入至编码模型进行特征提取,基于待处理视频和视频掩码得到第一视频特征向量及第二视频特征向量。
视频掩码用于掩码待处理视频中的掩码区域。编码模型用以提取待处理视频和视频掩码的特征向量。
计算机设备获取待处理视频和视频掩码,计算机设备将待处理视频和视频掩码输入至编码模型进行特征提取,基于待处理视频和视频掩码得到第一视频特征向量及第二视频特征向量。
第一视频特征向量是指未掩码区域对应的特征向量。第二视频特征向量是指掩码区域对应的特征向量。
可选地,未掩码区域是指待处理视频中没有被视频掩码进行遮挡的区域;掩码区域是指待处理视频中被视频掩码进行遮挡的区域。
在一种可能的实现方式中,计算机设备将待处理视频和视频掩码进行相乘后得到的掩码视频输入至编码模型进行特征提取,得到第一视频特征向量及第二视频特征向量。
步骤604:根据第一视频特征向量,在视频码本中确定与待处理视频相关的离散隐空间。
视频码本是指包括各个视频相关的量化特征向量的集合。
可以理解的是,视频码本可从网络公开的数据库中获取,或,通过网络公开的视频获取对应的量化特征并构建为视频码本。
计算机设备根据第一视频特征向量与视频码本中的量化特征向量之间的空间位置,在视频码本中确定出与第一视频特征向量距离值最小的量化特征向量,并将与第一视频特征向量距离值最小的量化特征向量集合起来作为离散隐空间。
如图7所示,计算机设备获取待处理视频和视频掩码,计算机设备将待处理视频和视频掩码进行相乘后得到的掩码视频输入至编码模型701进行特征提取,得到第一视频特征向量。计算机设备根据待处理视频的第一视频特征向量,计算机设备根据第一视频特征向量与视频码本中的量化特征向量之间的空间位置,在视频码本702中确定出与第一视频特征向量距离值最小的第一量化特征向量,并将与第一视频特征向量距离值最小的第一量化特征向量集合起来作为离散隐空间。计算机设备将量化特征向量输入至解码模型703,得到未补全掩码区域的视频。
在一种可能的实现方式中,计算机设备基于待处理视频的第一视频特征向量及第一视频特征向量对应的第一量化特征向量,计算编码模型的损失值;计算机设备根据损失值对编码模型的模型参数进行更新,得到与待处理视频对应的第一编码模型。
在一种可能的实现方式中,基于待处理视频的第一视频特征向量及第一视频特征向量对应的第一量化特征向量,计算解码模型的损失值;根据损失值对解码模型的模型参数进行更新,得到与待处理视频对应的第一解码模型。
计算编码模型、解码模型的损失值
Figure BDA0003497545480000131
计算公式为:
Figure BDA0003497545480000132
式中,sg表示停止梯度回传,γ1和γ2表示权重值,n为待处理视频中未掩码区域的像素点总个数,x为输入编码模型的视频,x'为解码模型输出的视频,m为视频掩码,ek为量化特征向量,E(x)为视频特征向量。
综上所述,本申请实施例所示的方案,通过将获取的待处理视频和视频掩码输入至编码模型进行特征提取,得到第一视频特征向量及第二视频特征向量;并根据第一视频特征向量,在视频码本中确定与待处理视频相关的离散隐空间。本申请实施例提供的视频处理方法,基于未掩码区域对应的第一量化特征向量,在视频码本中获取与待处理视频相关的离散隐空间,同时通过计算编码模型、解码模型的损失值,计算机设备根据损失值对编码模型、解码模型的模型参数进行更新,得到与待处理视频对应的第一编码模型、第一解码模型。
图8示出了本申请一示例性实施例提供的视频处理方法的结构框架图,该方法可以由计算机设备执行,计算机设备可以是图1中的终端100或服务器200,该视频处理方法的流程图可以包括以下步骤:
视频处理方法的主要步骤包括构建离散隐空间801及确定第二量化特征向量802。
构建离散隐空间801包括量化第一视频特征向量801a及确定离散隐空间801b。
计算机设备获取待处理视频和视频掩码,计算机设备将待处理视频和视频掩码输入至编码模型进行特征提取,基于待处理视频和视频掩码得到第一视频特征向量及第二视频特征向量。
计算机设备根据第一视频特征向量与视频码本中的量化特征向量之间的空间位置,在视频码本中确定出与第一视频特征向量距离值最小的量化特征向量,实现第一视频特征向量的量化。计算机设备将与第一视频特征向量距离值最小的量化特征向量集合起来作为离散隐空间,则离散隐空间中包括与待处理视频的第一视频特征向量对应的量化特征向量。
量化第一视频特征向量801a及确定离散隐空间801b的具体描述可参见前述实施例中步骤602和步骤604中描述,本处不再赘述。
确定第二量化特征向量802包括输入转换模型802a、计算响应值802b、确定第一索引802c。
计算机设备获取待处理视频和视频掩码,计算机设备将待处理视频和视频掩码输入至第一编码模型进行特征提取,基于待处理视频和视频掩码得到第一视频特征向量及第二视频特征向量。
计算机设备在基于第一量化特征向量构成的离散隐空间中确定第一量化特征向量的索引分布。
计算机设备将第二视频特征向量及索引分布输入至转换模型,计算第二视频特征向量与索引分布转化的索引特征向量之间的响应值。计算机设备将响应值最高的索引特征向量对应的索引作为第一索引,从而实现确定第一索引802c。
计算机设备根据第一索引,确定与第一索引对应的量化特征向量的位置,从而在离散隐空间中确定与第一索引对应的第二量化特征向量。
步骤确定第二量化特征向量802的具体描述可参见前述实施例中步骤304至步骤308中的描述内容,本处不再赘述。
前述实施例就视频处理的过程及与待处理视频相对应的第一编码模型、离散隐空间、第一解码模型的确定过程进行了描述,接下来将就编码模型、解码模型及转换模型的确定过程作进一步描述。
计算机设备获取待处理视频样本、视频掩码样本和缺失视频样本,计算机设备将待处理视频和视频掩码进行相乘后得到的掩码视频输入至编码模型进行特征提取,基于待处理视频样本和视频掩码样本得到第一视频特征向量及第二视频特征向量。
计算机设备根据第一视频特征向量与离散隐空间中的量化特征向量之间的空间位置,在视频码本中确定出与第一视频特征向量距离值最小的第一量化特征向量。
计算机设备将第一量化特征向量输入至解码模型进行循环迭代,得到缺失视频。
基于缺失视频及缺失视频样本之间的误差、第一视频特征向量及第一量化特征向量,计算编码模型、解码模型的损失值,计算机设备根据损失值对编码模型、解码模型的模型参数进行训练,从而得到训练完成的编码模型及解码模型。
在一种可能的实现方式中,计算机设备获取待处理视频样本、视频掩码样本及重构视频样本,计算机设备将待处理视频样本和视频掩码样本进行相乘后得到的掩码视频输入至第一编码模型进行特征提取,基于待处理视频样本和视频掩码样本得到第一视频特征向量及基于视频掩码样本得到第二视频特征向量。
计算机设备根据第一视频特征向量,在基于第一量化特征向量构成的离散隐空间中确定第一量化特征向量的索引分布。
计算机设备将第二视频特征向量及索引分布输入至转换模型,并得到掩码区域对应的第一索引。
计算机设备根据第一索引,确定与第一索引对应的量化特征向量的位置,从而在离散隐空间中确定与第一索引对应的第二量化特征向量。
计算机设备将第一量化特征向量和第二量化特征向量输入至第一解码模型,第二量化特征向量补全待处理视频的掩码区域,从而得到重构视频。
基于重构视频及重构视频样本之间的误差、第一视频特征向量及第一量化特征向量,计算转换模型的损失值,计算机设备根据损失值对转换模型参数进行训练,从而得到训练完成的转换模型。
图9示出了本申请一示例性实施例示出的视频处理装置的方框图。如图9所示,该对视频处理装置包括:
特征提取模块901,用于将待处理视频和视频掩码输入至第一编码模型进行特征提取,基于待处理视频和视频掩码得到第一视频特征向量及第二视频特征向量,所述视频掩码用于掩码所述待处理视频中的掩码区域,所述第一视频特征向量是指未掩码区域对应的特征向量,所述第二视频特征向量是指掩码区域对应的特征向量。
量化模块902,用于获取所述待处理视频的所述第一视频特征向量对应的第一量化特征向量,在基于所述第一量化特征向量构成的离散隐空间中确定所述第一量化特征向量的索引分布,所述索引分布是指所述第一量化特征向量在所述离散隐空间中的位置分布。
预测模块903,用于基于所述第二视频特征向量及所述索引分布在所述离散隐空间中确定第二量化特征向量,所述第二量化特征向量用于填补所述掩码区域。
解码模块904,用于将所述第一量化特征向量和所述第二量化特征向量输入至第一解码模型,得到重构视频,所述重构视频是指对所述待处理视频的所述掩码区域的内容进行填补得到的视频。
输出模块905,用于输出所述重构视频。
在一种可能的实现方式中,预测模块903,还用于将所述第二视频特征向量及所述索引分布输入至转换模型,得到所述掩码区域对应的第一索引。
在一种可能的实现方式中,预测模块903,还用于根据所述第一索引,在所述离散隐空间中确定与所述第一索引对应的第二量化特征向量。
其中,所述转换模型是用于确定所述待处理视频的所述掩码区域对应的索引的机器学习模型。
在一种可能的实现方式中,预测模块903,还用于将所述第二视频特征向量及所述索引分布输入至所述转换模型,计算所述第二视频特征向量与所述索引分布转化的索引特征向量之间的响应值。
在一种可能的实现方式中,预测模块903,还用于将所述响应值最高的所述索引特征向量对应的所述索引作为所述第一索引。
其中,所述响应值是指所述第二视频特征向量与所述索引分布转化的所述索引特征向量之间的关联值。
在一种可能的实现方式中,特征提取模块901,还用于将所述待处理视频和所述视频掩码进行相乘后得到的掩码视频输入至所述第一编码模型进行特征提取,基于待处理视频和视频掩码得到所述第一视频特征向量及所述第二视频特征向量。
在一种可能的实现方式中,预测模块903,还用于在基于所述第一量化特征向量构成的离散隐空间中,根据所述第一量化特征向量与所述离散隐空间中其他所述第一量化特征向量之间的相对空间位置关系,确定所述第一量化特征向量在所述离散隐空间中的位置分布。
在一种可能的实现方式中,所述量化模块902,还用于根据所述第一视频特征向量与视频码本中的量化特征向量之间的空间位置,在所述视频码本中确定与所述第一视频特征向量的距离值最小的所述量化特征向量作为所述第一量化特征向量。
其中,所述视频码本中包括各个视频对应的所述量化特征向量。
在一种可能的实现方式中,所述装置还包括更新模块906,用于基于所述待处理视频的所述第一视频特征向量及所述第一视频特征向量对应的第一量化特征向量,计算编码模型的损失值;根据所述损失值对所述编码模型的模型参数进行更新,得到与所述待处理视频对应的所述第一编码模型。
其中,所述编码模型用于提取所述待处理视频和所述视频掩码的特征向量。
在一种可能的实现方式中,更新模块906,还用于基于所述待处理视频的所述第一视频特征向量及所述第一视频特征向量对应的第一量化特征向量,计算解码模型的损失值;根据所述损失值对所述解码模型的模型参数进行更新,得到与所述待处理视频对应的所述第一解码模型。
其中,所述解码模型用于将量化特征向量转化为视频形式。
在一种可能的实现方式中,更新模块906,还用于将所述第二量化特征向量输入至时序融合模型,基于所述待处理视频的相邻帧之间的所述第二量化特征向量,计算所述第二量化特征向量的时序残差;根据所述时序残差对所述第二量化特征向量进行更新,得到更新后的所述第二量化特征向量。
在一种可能的实现方式中,解码模块904,还用于将更新后的所述第二量化特征向量及所述第一量化特征向量输入至所述第一解码模型,得到所述重构视频。
图10示出了本申请一示例性实施例示出的计算机设备1000的结构框图。该计算机设备可以实现为本申请上述方案中的服务器。所述计算机设备1000包括中央处理单元(Central Processing Unit,CPU)1001、包括随机存取存储器(Random Access Memory,RAM)1002和只读存储器(Read-Only Memory,ROM)1003的系统存储器1004,以及连接系统存储器1004和中央处理单元1001的系统总线1005。所述计算机设备1000还包括用于存储操作系统1009、应用程序1010和其他程序模块1011的大容量存储设备1006。
所述大容量存储设备1006通过连接到系统总线1005的大容量存储控制器(未示出)连接到中央处理单元1001。所述大容量存储设备1006及其相关联的计算机可读介质为计算机设备1000提供非易失性存储。也就是说,所述大容量存储设备1006可以包括诸如硬盘或者只读光盘(Compact Disc Read-Only Memory,CD-ROM)驱动器之类的计算机可读介质(未示出)。
不失一般性,所述计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括RAM、ROM、可擦除可编程只读寄存器(Erasable Programmable Read Only Memory,EPROM)、电子抹除式可复写只读存储器(Electrically-Erasable Programmable Read-OnlyMemory,EEPROM)闪存或其他固态存储其技术,CD-ROM、数字多功能光盘(DigitalVersatile Disc,DVD)或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然,本领域技术人员可知所述计算机存储介质不局限于上述几种。上述的系统存储器1004和大容量存储设备1006可以统称为存储器。
根据本公开的各种实施例,所述计算机设备1000还可以通过诸如因特网等网络连接到网络上的远程计算机运行。也即计算机设备1000可以通过连接在所述系统总线1005上的网络接口单元1007连接到网络1008,或者说,也可以使用网络接口单元1007来连接到其他类型的网络或远程计算机系统(未示出)。
所述存储器还包括至少一段计算机程序,所述至少一段计算机程序存储于存储器中,中央处理器1001通过执行该至少一段程序来实现上述各个实施例所示的视频处理方法中的全部或部分步骤。
在一示例性实施例中,还提供了一种计算机可读存储介质,用于存储有至少一段计算机程序,所述至少一段计算机程序由处理器加载并执行以实现上述视频处理方法中的全部或部分步骤。例如,该计算机可读存储介质可以是只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、只读光盘(Compact Disc Read-OnlyMemory,CD-ROM)、磁带、软盘和光数据存储设备等。
在一示例性实施例中,还提供了一种计算机程序产品,该计算机程序产品包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机指令由计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述所示视频处理方法的全部或部分步骤。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本申请的真正范围和精神由下面的权利要求指出。
应当理解的是,本申请并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求来限制。

Claims (15)

1.一种视频处理方法,其特征在于,所述方法包括:
将待处理视频和视频掩码输入至第一编码模型进行特征提取,基于所述待处理视频和所述视频掩码得到第一视频特征向量及第二视频特征向量,所述视频掩码用于掩码所述待处理视频中的掩码区域,所述第一视频特征向量是指未掩码区域对应的特征向量,所述第二视频特征向量是指所述掩码区域对应的特征向量;
获取所述待处理视频的所述第一视频特征向量对应的第一量化特征向量,在基于所述第一量化特征向量构成的离散隐空间中确定所述第一量化特征向量的索引分布,所述索引分布是指所述第一量化特征向量在所述离散隐空间中的位置分布;
基于所述第二视频特征向量及所述索引分布在所述离散隐空间中确定第二量化特征向量,所述第二量化特征向量用于填补所述掩码区域;
将所述第一量化特征向量和所述第二量化特征向量输入至第一解码模型,得到重构视频,所述重构视频是指对所述待处理视频的所述掩码区域的内容进行填补得到的视频;
输出所述重构视频。
2.根据权利要求1所述的方法,其特征在于,所述基于所述第二视频特征向量及所述索引分布在所述离散隐空间中确定第二量化特征向量,包括:
将所述第二视频特征向量及所述索引分布输入至转换模型,得到所述掩码区域对应的第一索引;
根据所述第一索引,在所述离散隐空间中确定与所述第一索引对应的第二量化特征向量;
其中,所述转换模型是用于确定所述待处理视频的所述掩码区域对应的索引的机器学习模型。
3.根据权利要求2所述的方法,其特征在于,所述将所述第二视频特征向量及所述索引分布输入至所述转换模型,得到所述掩码区域对应的第一索引,包括:
将所述第二视频特征向量及所述索引分布输入至所述转换模型,计算所述第二视频特征向量与所述索引分布转化的索引特征向量之间的响应值;
将所述响应值最高的所述索引特征向量对应的所述索引作为所述第一索引;
其中,所述响应值是指所述第二视频特征向量与所述索引分布转化的所述索引特征向量之间的关联值。
4.根据权利要求1至3任一所述的方法,其特征在于,所述将待处理视频和视频掩码输入至第一编码模型进行特征提取,基于所述待处理视频和所述视频掩码得到第一视频特征向量及第二视频特征向量,包括:
将所述待处理视频和所述视频掩码进行相乘后得到的掩码视频输入至所述第一编码模型进行特征提取,基于所述待处理视频和所述视频掩码得到所述第一视频特征向量及所述第二视频特征向量。
5.根据权利要求1至3任一所述的方法,其特征在于,所述在基于所述第一量化特征向量构成的离散隐空间中确定所述第一量化特征向量的索引分布,包括:
在基于所述第一量化特征向量构成的离散隐空间中,根据所述第一量化特征向量与所述离散隐空间中其他所述第一量化特征向量之间的相对空间位置关系,确定所述第一量化特征向量在所述离散隐空间中的位置分布。
6.根据权利要求1至5任一所述的方法,其特征在于,所述获取所述待处理视频的所述第一视频特征向量对应的第一量化特征向量,包括:
根据所述第一视频特征向量与视频码本中的量化特征向量之间的空间位置,在所述视频码本中确定与所述第一视频特征向量的距离值最小的所述量化特征向量作为所述第一量化特征向量;
其中,所述视频码本中包括各个视频对应的所述量化特征向量。
7.根据权利要求6所述的方法,其特征在于,所述方法还包括:
基于所述待处理视频的所述第一视频特征向量及所述第一视频特征向量对应的第一量化特征向量,计算编码模型的损失值;
根据所述损失值对所述编码模型的模型参数进行更新,得到与所述待处理视频对应的所述第一编码模型;
其中,所述编码模型用于提取所述待处理视频和所述视频掩码的特征向量。
8.根据权利要求6所述的方法,其特征在于,所述方法还包括:
基于所述待处理视频的所述第一视频特征向量及所述第一视频特征向量对应的第一量化特征向量,计算解码模型的损失值;
根据所述损失值对所述解码模型的模型参数进行更新,得到与所述待处理视频对应的所述第一解码模型;
其中,所述解码模型用于将量化特征向量转化为视频形式。
9.根据权利要求1至5任一所述的方法,其特征在于,所述方法还包括:
将所述第二量化特征向量输入至时序融合模型,基于所述待处理视频的相邻帧之间的所述第二量化特征向量,计算所述第二量化特征向量的时序残差;
根据所述时序残差对所述第二量化特征向量进行更新,得到更新后的所述第二量化特征向量
将更新后的所述第二量化特征向量及所述第一量化特征向量输入至所述第一解码模型,得到所述重构视频。
10.一种视频处理装置,其特征在于,所述装置包括:
特征提取模块,用于将待处理视频和视频掩码输入至第一编码模型进行特征提取,基于所述待处理视频和所述视频掩码得到第一视频特征向量及第二视频特征向量,所述视频掩码用于掩码所述待处理视频中的掩码区域,所述第一视频特征向量是指未掩码区域对应的特征向量,所述第二视频特征向量是指掩码区域对应的特征向量;
量化模块,用于获取所述待处理视频的所述第一视频特征向量对应的第一量化特征向量,在基于所述第一量化特征向量构成的离散隐空间中确定所述第一量化特征向量的索引分布,所述索引分布是指所述第一量化特征向量在所述离散隐空间中的位置分布;
预测模块,用于基于所述第二视频特征向量及所述索引分布在所述离散隐空间中确定第二量化特征向量,所述第二量化特征向量用于填补所述掩码区域;
解码模块,用于将所述第一量化特征向量和所述第二量化特征向量输入至第一解码模型,得到重构视频,所述重构视频是指对所述待处理视频的所述掩码区域的内容进行填补得到的视频;
输出模块,用于输出所述重构视频。
11.根据权利要求10所述的装置,其特征在于,所述预测模块,包括:
第一预测单元,用于将所述第二视频特征向量及所述索引分布输入至转换模型,得到所述掩码区域对应的第一索引;
第二预测单元,用于根据所述第一索引,在所述离散隐空间中确定与所述第一索引对应的第二量化特征向量;
其中,所述转换模型是用于确定所述待处理视频的所述掩码区域对应的索引的机器学习模型。
12.根据权利要求11所述的装置,其特征在于,
所述第一预测单元,还用于将所述第二视频特征向量及所述索引分布输入至所述转换模型,计算所述第二视频特征向量与所述索引分布转化的索引特征向量之间的响应值;
所述第一预测单元,还用于将所述响应值最高的所述索引特征向量对应的所述索引作为所述第一索引;
其中,所述响应值是指所述第二视频特征向量与所述索引分布转化的所述索引特征向量之间的关联值。
13.一种计算机设备,其特征在于,所述计算机设备包括处理器和存储器,所述存储器中存储有至少一段计算机程序,所述至少一段计算机程序由所述处理器加载并执行以实现如权利要求1至9任一所述的视频处理方法。
14.一种计算机可读存储介质,其特征在于,所述可读存储介质中存储有至少一段计算机程序,所述至少一段计算机程序由处理器加载并执行以实现如权利要求1至9任一所述的视频处理方法。
15.一种计算机程序产品,其特征在于,所述计算机程序产品包括计算机指令,所述计算机指令存储在计算机可读存储介质中;所述计算机指令由计算机设备的处理器从所述计算机可读存储介质读取并执行,使得所述计算机设备执行如权利要求1至9任一所述的视频处理方法。
CN202210118524.5A 2022-02-08 2022-02-08 视频处理方法、装置、设备及存储介质 Active CN114449345B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN202210118524.5A CN114449345B (zh) 2022-02-08 2022-02-08 视频处理方法、装置、设备及存储介质
PCT/CN2022/131919 WO2023151333A1 (zh) 2022-02-08 2022-11-15 视频处理方法、装置、设备及存储介质
US18/224,501 US20230362416A1 (en) 2022-02-08 2023-07-20 Video processing method and apparatus, device, and storage medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210118524.5A CN114449345B (zh) 2022-02-08 2022-02-08 视频处理方法、装置、设备及存储介质

Publications (2)

Publication Number Publication Date
CN114449345A true CN114449345A (zh) 2022-05-06
CN114449345B CN114449345B (zh) 2023-06-23

Family

ID=81371408

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210118524.5A Active CN114449345B (zh) 2022-02-08 2022-02-08 视频处理方法、装置、设备及存储介质

Country Status (3)

Country Link
US (1) US20230362416A1 (zh)
CN (1) CN114449345B (zh)
WO (1) WO2023151333A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023151333A1 (zh) * 2022-02-08 2023-08-17 腾讯科技(深圳)有限公司 视频处理方法、装置、设备及存储介质

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090067503A1 (en) * 2006-01-07 2009-03-12 Electronics And Telecommunications Research Institute Method and apparatus for video data encoding and decoding
CN106663209A (zh) * 2014-09-19 2017-05-10 华为技术有限公司 用于非均匀映射图像/视频编码中不同尺寸的量化矩阵之间的量化矩阵系数的方法和装置
US20170251212A1 (en) * 2016-02-29 2017-08-31 Adobe Systems Incorporated Codebook generation for cloud-based video applications
CN110728270A (zh) * 2019-12-17 2020-01-24 北京影谱科技股份有限公司 视频人物的去除方法、装置及设备及计算机可读存储介质
US20200195973A1 (en) * 2018-12-12 2020-06-18 Tencent America LLC Method and apparatus for video coding
CN111641832A (zh) * 2019-03-01 2020-09-08 杭州海康威视数字技术股份有限公司 编码方法、解码方法、装置、电子设备及存储介质
CN112533000A (zh) * 2020-10-16 2021-03-19 腾讯科技(深圳)有限公司 视频解码方法、装置、计算机可读介质及电子设备
CN112967356A (zh) * 2021-03-05 2021-06-15 北京百度网讯科技有限公司 图像填充方法及装置、电子设备和介质
US11153566B1 (en) * 2020-05-23 2021-10-19 Tsinghua University Variable bit rate generative compression method based on adversarial learning
CN113678457A (zh) * 2019-09-20 2021-11-19 腾讯美国有限责任公司 视频流中的具有子区域划分的填充处理方法
CN113762050A (zh) * 2021-05-12 2021-12-07 腾讯云计算(北京)有限责任公司 图像数据处理方法、装置、设备以及介质
CN113793393A (zh) * 2021-09-28 2021-12-14 中国人民解放军国防科技大学 基于注意力机制的无人车多分辨率视频生成方法和装置
WO2021257639A1 (en) * 2020-06-16 2021-12-23 Dolby Laboratories Licensing Corporation Supporting multi-view video operations with disocclusion atlas

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110148081B (zh) * 2019-03-25 2024-02-23 腾讯科技(深圳)有限公司 图像处理模型的训练方法、图像处理方法、装置及存储介质
CN110728330A (zh) * 2019-10-23 2020-01-24 腾讯科技(深圳)有限公司 基于人工智能的对象识别方法、装置、设备及存储介质
CN111368133B (zh) * 2020-04-16 2021-09-14 腾讯科技(深圳)有限公司 一种视频库的索引表建立方法、装置、服务器及存储介质
CN111667011B (zh) * 2020-06-08 2023-07-14 平安科技(深圳)有限公司 损伤检测模型训练、车损检测方法、装置、设备及介质
CN112733794B (zh) * 2021-01-22 2021-10-15 腾讯科技(深圳)有限公司 人脸图像的视线矫正方法、装置、设备及存储介质
CN113705290A (zh) * 2021-02-26 2021-11-26 腾讯科技(深圳)有限公司 图像处理方法、装置、计算机设备和存储介质
CN114449345B (zh) * 2022-02-08 2023-06-23 腾讯科技(深圳)有限公司 视频处理方法、装置、设备及存储介质

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090067503A1 (en) * 2006-01-07 2009-03-12 Electronics And Telecommunications Research Institute Method and apparatus for video data encoding and decoding
CN106663209A (zh) * 2014-09-19 2017-05-10 华为技术有限公司 用于非均匀映射图像/视频编码中不同尺寸的量化矩阵之间的量化矩阵系数的方法和装置
US20170251212A1 (en) * 2016-02-29 2017-08-31 Adobe Systems Incorporated Codebook generation for cloud-based video applications
US20200195973A1 (en) * 2018-12-12 2020-06-18 Tencent America LLC Method and apparatus for video coding
CN111641832A (zh) * 2019-03-01 2020-09-08 杭州海康威视数字技术股份有限公司 编码方法、解码方法、装置、电子设备及存储介质
CN113678457A (zh) * 2019-09-20 2021-11-19 腾讯美国有限责任公司 视频流中的具有子区域划分的填充处理方法
CN110728270A (zh) * 2019-12-17 2020-01-24 北京影谱科技股份有限公司 视频人物的去除方法、装置及设备及计算机可读存储介质
US11153566B1 (en) * 2020-05-23 2021-10-19 Tsinghua University Variable bit rate generative compression method based on adversarial learning
WO2021257639A1 (en) * 2020-06-16 2021-12-23 Dolby Laboratories Licensing Corporation Supporting multi-view video operations with disocclusion atlas
CN112533000A (zh) * 2020-10-16 2021-03-19 腾讯科技(深圳)有限公司 视频解码方法、装置、计算机可读介质及电子设备
CN112967356A (zh) * 2021-03-05 2021-06-15 北京百度网讯科技有限公司 图像填充方法及装置、电子设备和介质
CN113762050A (zh) * 2021-05-12 2021-12-07 腾讯云计算(北京)有限责任公司 图像数据处理方法、装置、设备以及介质
CN113793393A (zh) * 2021-09-28 2021-12-14 中国人民解放军国防科技大学 基于注意力机制的无人车多分辨率视频生成方法和装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023151333A1 (zh) * 2022-02-08 2023-08-17 腾讯科技(深圳)有限公司 视频处理方法、装置、设备及存储介质

Also Published As

Publication number Publication date
US20230362416A1 (en) 2023-11-09
WO2023151333A1 (zh) 2023-08-17
CN114449345B (zh) 2023-06-23

Similar Documents

Publication Publication Date Title
CN112035743B (zh) 数据推荐方法、装置、计算机设备以及存储介质
CN113095346A (zh) 数据标注的方法以及数据标注的装置
CN113792871A (zh) 神经网络训练方法、目标识别方法、装置和电子设备
CN110084250B (zh) 一种图像描述的方法及系统
CN114898315A (zh) 驾驶场景信息确定方法、对象信息预测模型训练方法及装置
CN111553477A (zh) 图像处理方法、装置及存储介质
CN114418030A (zh) 图像分类方法、图像分类模型的训练方法及装置
CN115359314A (zh) 模型训练方法、图像编辑方法、装置、介质与电子设备
CN113632141A (zh) 用于从控制输入和有限观测预测动力学流的方法和系统
CN114449345B (zh) 视频处理方法、装置、设备及存储介质
CN114187624A (zh) 图像生成方法、装置、电子设备及存储介质
CN112668608A (zh) 一种图像识别方法、装置、电子设备及存储介质
CN114283347B (zh) 目标检测方法、系统、智能终端及计算机可读存储介质
CN112381868A (zh) 图像深度估计方法和装置、可读存储介质、电子设备
CN115082300A (zh) 图像生成模型的训练方法、图像生成方法及装置
CN112069412B (zh) 信息推荐方法、装置、计算机设备及存储介质
CN114139703A (zh) 知识蒸馏方法及装置、存储介质及电子设备
CN113762503A (zh) 数据处理方法、装置、设备及计算机可读存储介质
Li et al. ROI-Based Deep Image Compression with Swin Transformers
CN116403142A (zh) 视频处理方法、装置、电子设备及介质
CN113808157B (zh) 图像处理方法、装置、及计算机设备
CN115439878A (zh) 目标重识别模型抗遗忘训练方法、目标重识别方法及装置
CN116644783A (zh) 模型训练方法、对象处理方法及装置、电子设备、介质
CN114936377A (zh) 模型训练和身份匿名化方法、装置、设备及存储介质
CN112950501A (zh) 基于噪声场的图像降噪方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40072244

Country of ref document: HK

GR01 Patent grant
GR01 Patent grant