CN116229337A - 用于视频处理的方法、装置、系统、设备和介质 - Google Patents

用于视频处理的方法、装置、系统、设备和介质 Download PDF

Info

Publication number
CN116229337A
CN116229337A CN202310521076.8A CN202310521076A CN116229337A CN 116229337 A CN116229337 A CN 116229337A CN 202310521076 A CN202310521076 A CN 202310521076A CN 116229337 A CN116229337 A CN 116229337A
Authority
CN
China
Prior art keywords
frame
target
video
pixel
mask
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202310521076.8A
Other languages
English (en)
Other versions
CN116229337B (zh
Inventor
高熙和
张磊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hanbo Semiconductor Shanghai Co ltd
Original Assignee
Hanbo Semiconductor Shanghai Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hanbo Semiconductor Shanghai Co ltd filed Critical Hanbo Semiconductor Shanghai Co ltd
Priority to CN202311095385.XA priority Critical patent/CN117152658A/zh
Priority to CN202310521076.8A priority patent/CN116229337B/zh
Publication of CN116229337A publication Critical patent/CN116229337A/zh
Application granted granted Critical
Publication of CN116229337B publication Critical patent/CN116229337B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/49Segmenting video sequences, i.e. computational techniques such as parsing or cutting the sequence, low-level clustering or determining units such as shots or scenes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/70Labelling scene content, e.g. deriving syntactic or semantic representations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)
  • Image Analysis (AREA)
  • Television Systems (AREA)

Abstract

本公开提供一种用于视频处理的方法、装置、系统、设备和介质。实现的方案为:基于第一预设规则,在待处理视频中确定目标帧和与目标帧对应的相关帧,其中,相关帧包括在目标帧中出现的至少一个目标对象;对相关帧进行分割,以得到第一分割结果;基于第一分割结果获取与相关帧对应的第一掩膜帧,其中,第一掩膜帧包括与至少一个目标对象对应的第一目标区域,并且第一目标区域中每一个像素的像素值指示相关帧中位置对应的像素属于至少一个目标对象;以及将待处理视频的相关帧替换为对应的第一掩膜帧。

Description

用于视频处理的方法、装置、系统、设备和介质
技术领域
本公开涉及图像处理技术领域、视频处理技术领域和人工智能技术领域,特别涉及一种用于视频处理的方法、电子设备和存储介质。
背景技术
视频内容的传输对因特网的网络带宽带来了压力和挑战,业界致力于开发新的视频编码标准来降低带宽需求。而视频的分辨率和帧率的增加进一步提升了视频传输的带宽需求。此外,因特网的终点是移动网络,而即使对于5G移动网络,带宽也不能保证稳定。
人工智能和深度学习被广泛的应用于图像/视频处理和生成、计算机视觉、自动语音识别、自动驾驶等各个领域。随着图形处理器(Graphics Processing Unit,GPU)和人工智能(Artificial Intelligence,AI)专用集成电路(Application Specific IntegratedCircuit,ASIC)的性能日益提升,AI的算力资源越来越强大,成本也越来越低廉。
在此部分中描述的方法不一定是之前已经设想到或采用的方法。除非另有指明,否则不应假定此部分中描述的任何方法仅因其包括在此部分中就被认为是现有技术。类似地,除非另有指明,否则此部分中提及的问题不应认为在任何现有技术中已被公认。
发明内容
根据本公开的一方面,提供一种用于视频处理的方法。该方法包括:基于第一预设规则,在待处理视频中确定目标帧和与所述目标帧对应的相关帧,其中,所述相关帧包括在所述目标帧中出现的至少一个目标对象;对所述相关帧进行分割,以得到第一分割结果;基于所述第一分割结果获取与所述相关帧对应的第一掩膜帧,其中,所述第一掩膜帧包括与所述至少一个目标对象对应的第一目标区域,并且所述第一目标区域中每一个像素的像素值指示所述相关帧中位置对应的像素属于所述至少一个目标对象;以及将所述待处理视频的所述相关帧替换为对应的第一掩膜帧。
根据本公开的一方面,提供一种用于视频处理的方法。该方法包括:在待处理视频中确定目标帧和与所述目标帧对应的第一掩膜帧,其中,所述目标帧包括至少一个目标对象,所述第一掩膜帧包括与所述至少一个目标对象对应的第一目标区域,并且所述第一目标区域中每一个像素的像素值指示该像素属于所述至少一个目标对象,基于所述目标帧对所述第一掩膜帧进行复原,以得到与所述第一掩膜帧对应的复原后的相关帧,其中,所述相关帧中与所述的第一目标区域位置对应的区域中的像素的像素值为基于所述目标帧中与所述至少一个目标对象对应的区域中的像素的像素值而复原;以及将所述待处理视频的所述第一掩膜帧替换为所述复原后的相关帧。
根据本公开的一方面,提供一种用于视频处理的装置。该装置包括:第一确定单元,被配置为基于第一预设规则,在待处理视频中确定目标帧和与所述目标帧对应的相关帧,其中,所述相关帧包括在所述目标帧中出现的至少一个目标对象;分割单元,被配置为对所述相关帧进行分割,以得到第一分割结果;获取单元,被配置为基于所述第一分割结果获取与所述相关帧对应的第一掩膜帧,其中,所述第一掩膜帧包括与所述至少一个目标对象对应的第一目标区域,并且所述第一目标区域中每一个像素的像素值指示所述相关帧中位置对应的像素属于所述至少一个目标对象;以及第一替换单元,被配置为将所述待处理视频的所述相关帧替换为对应的第一掩膜帧。
根据本公开的一方面,提供一种用于视频处理的装置。该装置包括:第二确定单元,被配置为在待处理视频中确定目标帧和与所述目标帧对应的第一掩膜帧,其中,所述目标帧包括至少一个目标对象,所述第一掩膜帧包括与所述至少一个目标对象对应的第一目标区域,并且所述第一目标区域中每一个像素的像素值指示该像素属于所述至少一个目标对象;复原单元,被配置为基于所述目标帧对所述第一掩膜帧进行复原,以得到与所述第一掩膜帧对应的复原后的相关帧,其中,所述相关帧中与所述的第一目标区域位置对应的区域中的像素的像素值为基于所述目标帧中与所述至少一个目标对象对应的区域中的像素的像素值而复原;以及第二替换单元,将所述待处理视频的所述第一掩膜帧替换为所述复原后的相关帧。
根据本公开的一方面,提供一种用于视频处理的系统。该系统包括上述两种用于视频处理的装置。
根据本公开的另一方面,提供一种电子设备,包括:处理器;以及存储程序的存储器,该程序包括指令,该指令在由处理器执行时使处理器执行上述方法。
根据本公开的另一方面,提供一种存储程序的非暂态计算机可读存储介质,包括指令,该指令在由电子设备的处理器执行时,致使电子设备执行上述方法。
根据本公开的另一方面,提供一种计算机程序产品,包括计算机程序,该计算机程序在被处理器执行时实现上述方法。
根据本公开的实施例,通过在目标帧中保留目标对象,而在和相关帧对应的掩膜帧中抹除目标对象的视觉内容信息并保留目标对象的情景信息(例如,位置、形状、类别),进而在复原视频时可以基于目标帧的视觉信息重构相关帧,实现了在不影响视频的图像质量的情况下,在视频存储和传输等环节对视频数据进行压缩,降低了视频数据所占用的存储空间的大小,并降低了传输过程中对带宽的需求。
根据在下文中所描述的实施例,本公开的这些和其它方面将是清楚明白的,并且将参考在下文中所描述的实施例而被阐明。
附图说明
附图示例性地示出了实施例并且构成说明书的一部分,与说明书的文字描述一起用于讲解实施例的示例性实施方式。所示出的实施例仅出于例示的目的,并不限制权利要求的范围。在所有附图中,相同的附图标记指代类似但不一定相同的要素。
图1是示出了根据本公开的示例性实施例的可以在其中实施本文描述的各种方法的示例性系统的示意图和对目标帧和相关帧进行处理的示意图;
图2是示出根据示例性实施例的用于视频处理的方法的流程图;
图3是示出根据示例性实施例的用于视频处理的方法的流程图;
图4是示出根据示例性实施例的用于视频处理的方法的流程图;
图5是示出根据示例性实施例的用于视频处理的方法的流程图;
图6是示出根据示例性实施例的用于视频处理的方法的流程图;
图7是示出根据示例性实施例的用于视频处理的装置的结构框图;
图8是示出根据示例性实施例的用于视频处理的装置的结构框图;
图9是示出根据示例性实施例的用于视频处理的系统的结构框图;以及
图10是示出根据本公开的示例性实施例的电子设备的示例的框图。
具体实施方式
在本公开中,除非另有说明,否则使用术语“第一”、“第二”等来描述各种要素不意图限定这些要素的位置关系、时序关系或重要性关系,这种术语只是用于将一个元件与另一元件区分开。在一些示例中,第一要素和第二要素可以指向该要素的同一实例,而在某些情况下,基于上下文的描述,它们也可以指代不同实例。
在本公开中对各种所述示例的描述中所使用的术语只是为了描述特定示例的目的,而并非旨在进行限制。除非上下文另外明确地表明,如果不特意限定要素的数量,则该要素可以是一个也可以是多个。此外,本公开中所使用的术语“和/或”涵盖所列出的项目中的任何一个以及全部可能的组合方式。
相关技术中,现有的视频编码算法通过使用运动补偿的方法可以实现帧间预测,但这种方式的局限性强并且压缩能力有限。
为解决上述问题,本公开通过在目标帧中保留目标对象,而在和相关帧对应的掩膜帧中抹除目标对象的视觉内容信息并保留目标对象的情景信息(例如,位置、形状、类别),进而在复原视频时可以基于目标帧的视觉信息重构相关帧,实现了在不影响视频的图像质量的情况下,在视频存储和传输等环节对视频数据进行压缩,降低了视频数据所占用的存储空间的大小,并降低了传输过程中对带宽的需求。
下面将结合附图详细描述本公开的实施例。
图1中的(a)部分示出了根据本公开的示例性实施例可以将本文描述的各种方法和装置在其中实施的示例性系统100的示意图。参考图1中的(a)部分,该系统包括第一客户端设备110、服务器120、第二客户端设备130、以及在第一客户端设备110、服务器120、第二客户端设备130之间的通信网络140。
在本公开的实施例中,第一客户端设备110和服务器120可以运行使得能够执行用于视频处理的方法的一个或多个服务或软件应用。具体地,第一客户端设备110可以运行使得能够执行将待处理视频中的相关帧替换为掩码帧的视频处理方法的服务或软件应用,而服务器120可以运行使得能够执行将待处理视频的掩码帧复原为相关帧的视频处理方法的服务或软件应用。
在一些实施例中,第一客户端设备110可以将处理后的视频或视频流经由通信网络140发送至服务器120。服务器120可以经由通信网络140向第一客户端设备110发送反馈数据,以指示第一客户端设备110调整视频处理过程中所使用的参数。
在一些实施例中,第二客户端设备130可以运行使得能够执行用于视频播报的方法的一个或多个服务或软件应用。具体地,服务器120可以将复原后的视频或视频流经由通信网络140发送至第二客户端130,第二客户端130可以响应于接收到来自用户的视频播放指令,播放从服务器120接收的复原后的视频或视频流。尽管在示例性系统100中仅描述了一个接收并播放视频的第二客户端设备,但是本领域技术人员可以理解,本公开可以支持任何数量的第二客户端设备。类似地,本公开可以支持任何数量的对视频进行处理的第一客户端设备,这些第一客户端设备各自向服务器120传输视频数据,服务器120利用其上的计算资源对这些视频数据进行复原处理。
第一客户端设备110和第二客户端设备130可以包括各种类型的计算机设备,例如便携式手持设备、通用计算机(诸如个人计算机和膝上型计算机)、工作站计算机、可穿戴设备、游戏系统、传感器或其他感测设备等。这些计算机设备可以运行各种类型和版本的软件应用程序和操作系统。便携式手持设备可以包括蜂窝电话、智能电话、平板电脑、个人数字助理(PDA)等。可穿戴设备可以包括头戴式显示器和其他设备。游戏系统可以包括各种手持式游戏设备、支持互联网的游戏设备等。特别地,第一客户端设备110可以包括摄像机,用以采集原始视频或视频流。第一客户端设备110可以利用端上计算能力对原始视频或视频流进行处理,并使用其上的通信单元将处理后的视频或视频流发送至服务器120。
服务器120可以包括一个或多个通用计算机、专用服务器计算机(例如PC(个人计算机)服务器、UNIX服务器、中端服务器)、刀片式服务器、大型计算机、服务器群集或任何其他适当的布置和/或组合。服务器120可以包括运行虚拟操作系统的一个或多个虚拟机,或者涉及虚拟化的其他计算架构(例如可以被虚拟化以维护服务器的虚拟存储设备的逻辑存储设备的一个或多个灵活池)。
通信网络140可以是本领域技术人员熟知的任何类型的网络,其可以使用多种可用协议中的任何一种(包括但不限于TCP/IP、SNA、IPX等)来支持数据通信。仅作为示例,通信网络140可以是局域网(LAN)、基于以太网的网络、广域网(WAN)、因特网、虚拟网络、虚拟专用网络(VPN)、内部网、外部网、无线网络(例如蓝牙、WIFI)和/或这些和/或其他网络的任意组合。
图1中的(a)部分的系统100可以以各种方式配置和操作,以使得能够应用根据本公开所描述的各种方法和装置。
可以理解的是,图1中的(a)部分中的系统100仅为示例性的,并不意图限定本公开的范围。在一些实施例中,第一客户端设备可以直接将处理后的视频或视频流发送至第二客户端设备,第二客户端设备利用端上计算能力对接收到的视频或视频流进行复原并播放。在另一些实施例中,可以将经第一客户端设备处理后得到的视频存储在本地或云端,需要观看时在从本地或云端获取并复原,从而节省了存储空间。
为便于表述,本公开将使用“第二终端”指代执行包括使用掩膜帧替换待处理视频中的相关帧的步骤的方法的执行主体,并使用“第一终端”指代执行包括对待处理视频中的掩膜帧进行复原以得到相关帧的步骤的方法的执行主体。可以理解的是,第一终端和第二终端也可以为同一个终端设备,或者同一个终端设备上的不同单元,在此不做限定。
图1中的(b)部分示出了根据本公开的示例性实施例的对目标帧和相关帧进行处理的示意图。如图1中的(b)部分所示,在虚线左侧为第二终端,虚线右侧为第一终端。第二终端中的目标帧152未经处理直接发送至第一终端,以得到第一终端内的目标帧158。第二终端中的相关帧154经处理得到第一掩码帧156,并将第一掩码帧156发送至第二终端,以得到第二终端内的第一掩码帧160。第二终端利用图像复原神经网络170对目标帧158和第一掩膜帧160进行处理,以得到复原后的相关帧162。
根据本公开的一方面,提供了一种用于视频处理的方法。如图2所示,该方法包括:步骤S201、基于第一预设规则,在待处理视频中确定目标帧和与目标帧对应的相关帧,其中,相关帧包括在目标帧中出现的至少一个目标对象;步骤S202、对相关帧进行分割,以得到第一分割结果;步骤S203、基于第一分割结果获取与相关帧对应的第一掩膜帧,其中,第一掩膜帧包括与至少一个目标对象对应的第一目标区域,并且第一目标区域中每一个像素的像素值指示相关帧中位置对应的像素属于至少一个目标对象;以及步骤S204、将待处理视频的相关帧替换为对应的第一掩膜帧。
由此,通过在目标帧中保留目标对象,而在和相关帧对应的掩膜帧中抹除目标对象的视觉内容信息并保留目标对象的情景信息(例如,位置、形状、类别),进而在复原视频时可以基于目标帧的视觉信息重构相关帧,实现了在不影响视频的图像质量的情况下,在视频存储和传输等环节对视频数据进行压缩,降低了视频数据所占用的存储空间的大小,并降低了传输过程中对带宽的需求。
在步骤S201、基于第一预设规则,在待处理视频中确定目标帧和与目标帧对应的相关帧。
待处理视频例如可以是由第二终端的图像采集单元(例如,手机相机)或与第二终端相连的图像采集设备(例如,连接到计算机的摄像机)实时采集的视频帧,也可以是在第二终端上存储的视频。
根据一些实施例,第一预设规则可以包括以下中的至少一项:将待处理视频中的第一帧确定为目标帧;将与上一个视频帧的场景不同的视频帧确定为目标帧;以及将与上一个目标帧的间隔大于预设间隔的视频帧确定为目标帧。
在一些实施例中,预设间隔可以根据第二终端的可用上传带宽、第一终端复原视频时的可用计算资源来确定。在第二终端的可用上传带宽较小或第一终端的可用计算资源充裕时,可以设置较长的预设间隔,以进一步降低视频的信息量。
根据一些实施例,待处理视频可以包括多个目标帧。第一预设规则还可以包括:将当前目标帧和下一个目标帧之间的视频帧确定为与当前目标帧对应的相关帧。
由此,通过上述第一预设规则,可以确保相关帧和对应的目标帧之间具有相似关系,使得第一终端能够利用其具有的计算能力重构相关帧中的目标对象,以实现对相关帧的高质量复原。
在一些实施例中,目标对象例如可以为视频中出现的实体对象,例如可以包括人、车辆、动物、建筑等物体,还可以包括如天空、地面、海洋等环境。同类别的不同物体可以是不同的目标对象。在一个示例性实施例中,图像中的多个不同的人的着装不同、外貌不同,具有不同的视觉特征,因此可以将其确定为不同的目标对象。目标对象也可以是不具有特定含义的像素块或图像区域,在此不做限定。
目标对象可以是在目标帧和相关帧中均出现的对象,因此在对包括目标帧和被替换为掩膜帧的视频进行复原时,可以基于目标帧中的目标对象的视觉信息和掩膜帧中的目标对象的位置、形状、类别等情景信息重构相关帧中的目标对象,以得到复原后的相关帧,如下文将要描述的。
在步骤S202、对相关帧进行分割,以得到第一分割结果;
根据一些实施例,对相关帧进行分割例如可以包括使用语义分割、聚类、超像素等图像分割方法对相关帧进行分割,以得到互不相交的多个图像区域。在同一图像区域内的颜色、亮度、几何形状、纹理、语义信息等特征能够表现出一致性或相似性,而在不同图像区域中,这些特征表现出明显的不同。图像分割能够简化图像的表现形式,从而能够降低对图像进行表示时所需要的数据量。
在一些实施例中,可以使用语义分割的方式对相关帧进行分割,以得到相关帧的原始掩膜图像,即第一分割结果。原始掩膜图像中的每一个像素的像素值指示相关帧中位置对应的像素的语义类别(例如,该像素所属于的对象或该像素不属于任何对象),所有指示同一个语义类别的像素构成了与该对象对应的原始区域。
根据一些实施例,可以利用语义分割神经网络进行语义分割,以实现快速得到准确的语义分割结果。
根据一些实施例,可以对待处理视频所包括的一部分对象进行语义分割。如图3所示,视频处理方法还可以包括:步骤S302、确定待处理视频包括的多个待处理对象。多个待处理对象包括至少一个目标对象。图3中的步骤S301、步骤S303-步骤S305的操作和技术效果分别和图2中的步骤S201-步骤S204的操作和技术效果类似,在此不做赘述。
在一个示例性实施例中,待处理视频的场景中包括行驶有车辆的道路、行人、建筑等对象。考虑到不同视频帧中的道路和建筑基本不会产生变化,因此可以将其确定为待处理对象;车辆虽然会发生移动,但其形状基本保持一致,因此也可以将车辆确定为待处理对象;而行人在不同视频帧的动作变化较大,并且在不同的观察视角下具有明显的区别,因此可以将其排除在待处理对象之外。可以理解的是,以上仅为一种示例性的在多个对象中确定待处理对象的方式,并不意图限定本公开的范围。在一些实施例中,第一终端具有有限的计算资源,同时检测到第二终端的上行带宽仅被少量占用,则也可以将车辆排除在待处理对象之外。在一些实施例中,第一终端具有强大的计算能力,能够实现基于目标帧中的行人的视觉信息和第一掩膜帧中的行人的情景信息对相关帧中的行人的重构,则也可以将行人确定为待处理对象,在此不做限定。
由此,通过对待处理对象的灵活设置,可以实现对第二终端的上行带宽或对第一终端的计算能力的充分利用,从而提升复原后的相关帧的图像质量。
如上文所描述的,可以通过确定第一终端的可用上传带宽和第二终端的图像复原能力(即,可用计算资源)来确定待处理对象。除了待处理对象外,还可以基于这两者确定其他视频处理过程中所涉及的参数,如下文将要描述的。此外,也可以根据第一终端的可用上传带宽来调整第二终端用于复原图像的计算资源,如下文将要描述的。
在一些实施例中,原始掩膜图像中每一个像素的像素值可以指示相关帧中位置对应的像素与多个待处理对象的从属关系。在一些实施例中,每一个像素和多个待处理对象的从属关系可以是独热(one-hot)的,即每一个像素仅属于一个待处理对象。
在步骤S304、基于第一分割结果获取与相关帧对应的第一掩膜帧。
第一掩膜帧可以包括与至少一个目标对象对应的第一目标区域,并且第一目标区域中每一个像素的像素值指示相关帧中位置对应的像素属于至少一个目标对象。在一些实施例中,可以直接将原始掩膜图像确定为对应的第一掩膜帧。在一些实施例中,第一目标区域可以包括与至少一个目标对象各自对应的至少一个第一目标子区域。
根据一些实施例,步骤S304可以包括:针对多个待处理对象中的每一个待处理对象,响应于确定该待处理对象属于至少一个目标对象,基于第二预设规则,在原始掩膜图像中的属于该待处理对象的像素中确定至少一个目标像素;以及将第一掩膜帧中与至少一个目标像素位置对应的区域确定为第一掩膜帧中与该待处理对象对应的第一目标子区域。
由此,通过在原始掩膜图像中的与目标对象对应的像素中确定用于构成第一目标子区域的目标像素,可以对第一目标子区域进行更灵活的设置,从而能够利用一些技巧使用很少的数据量记录目标对象中的部分视觉信息,以显著提升复原后的相关帧的图像质量。
在一些示例性实施例中,目标对象的细节较丰富或者在不同帧之间的变化较大,因此如果对相关帧中的与目标对象对应的区域中的所有像素均抹去目标对象的视觉信息,则第一终端对目标对象的重构是一项具有挑战性的工作。在这样的实施例中,可以将目标对象对应的原始区域中的部分像素确定为第一目标子区域,而在第一掩膜帧中保留另一部分像素的视觉信息,为目标对象的重构提供参考和约束。
根据一些实施例,第二预设规则可以包括:至少一个目标对象各自对应的至少一个目标像素的总数量是否达到预设数量。预设数量可以是和与目标对象对应的原始区域中的像素的数量与预设比值的乘积。通过将目标像素的原始区域中的预设数量的像素确定为目标像素,可以使得第一掩膜帧中仍保留有目标对象的部分视觉信息,提高复原后的相关帧的图像质量。
可以理解的是,预设数量的具体取值可以根据需求进行设置。在一些实施例中,第二终端的可用上传带宽较小,则可以设置较大的预设数量;第一终端的图像复原能力较弱,或者目标对象的复杂程度和重构难度较高,则可以设置较小的预设数量。
尽管这里描述了多种的预设数量的确定依据和确定方式,预设数量应当设置为尽可能大的数值,这是因为大多数目标对象中至多仅有少部分区域是重构难度较高的(例如,表情变化丰富的人脸),因此通过将这些重构难度较高的区域排除在相应的第一目标子区域之外即可显著提升复原后的相关帧的图像质量。
在一些实施例中,第二预设规则还可以包括具体将与目标对象中的哪些像素确定为第一目标子区域。在一个示例性实施例中,目标对象的边缘部分与其他对象产生了交互(例如,动物的毛发与草地),对象之间产生了一定程度的重合、融合,则可以将目标对象的中间部分确定为第一目标子区域,从而将难以重构的边缘区域排除在外。在一些实施例中,目标对象的中间部分在不同帧之间的变化丰富(例如,笔记本电脑),则可以将目标对象的边缘部分确定为第一目标子区域。在一些实施例中,可以不考虑不同部分的重构难度,而是规律地(例如,以网格形式)或随机地在和目标对象对应的原始区域中确定多个像素块,并将这些像素块确定为第一目标子区域或者排除在第一目标子区域之外,以使得目标对象中的每个部分均有被抹掉视觉信息的像素和保留视觉信息的像素。
可以理解的是,还可以使用其他方式在原始掩膜图像中确定与各个目标对象对应的目标像素以构成第一目标区域,在此不做限定。
根据一些实施例,第一分割结果还可以包括从属关系的置信度。第二预设规则可以包括:原始掩膜图像中的属于至少一个目标对象的像素的对应的置信度是否大于预设置信度。
在一些实施例中,在对相关帧进行分割时,语义分割神经网络能够预测每一个像素对每一个目标对象的从属关系的置信度,则可以利用该置信度信息确定与各个目标对象对应的目标像素,例如将置信度高于预设置信度的像素确定为目标像素,使得在有限的数据量下尽可能保留降低目标对象的重构难度的像素,从而提升复原后的相关帧的图像质量。
可以理解的是,预设置信度的具体取值可以根据需求进行设置,在此不做限定。
在一些实施例中,在通过上述方式确定第一目标区域后,还可以使用膨胀和腐蚀等图像形态学方法对每一个第一目标子区域进行处理,以消除零星的像素点和连通区域中的小孔,使得处理后的第一目标子区域更连贯,避免产生第一目标子区域中的像素和其他区域中的像素互相掺杂的情况,从而能够降低后续进行编码的复杂度并降低第一终端复原相关帧的难度。
根据一些实施例,同一第一目标子区域中的任意两个像素具有相同的像素值,并且取自不同第一目标子区域的两个像素具有不同的像素值。通过这样的方式,能够将不同目标对象进行区分,并且能够大幅降低储存第一掩码帧所需的数据量。
根据一些实施例,第一掩膜帧包括与第一目标区域不重叠的第一非目标区域,即不与目标对象对应的区域。在一些实施例中,可以将第一非目标区域作为特殊的对象进行处理,并抹去其中的全部或部分像素的视觉信息。在非目标区域不具有明显或特定语义含义但图像特征单一时,使用这样的方式可以进一步降低第一掩膜帧的信息量。
在一些实施例中,第一非目标区域的重构难度大于第一目标区域,因此可以基于相关帧中位置对应的像素的像素值确定第一非目标区域中每一个像素的像素值。在一个示例性实施例中,第一掩膜帧的尺寸小于相关帧的尺寸,第一掩膜帧中的一个像素对应相关帧中的多个像素,则可以位置对应的多个像素的像素值确定第一非目标区域中的每一个像素的像素值。在一个示例实施例中,第一掩膜帧和相关帧的尺寸相同,则可以直接将相关帧中位置对应的像素的像素值确定为第一掩膜帧中的第一非目标区域中的像素的像素值。由此,通过保留第一非目标区域所有像素的视觉信息,可以保证复原后的相关帧中对应区域的图像质量。
在步骤S305、将待处理视频的相关帧替换为对应的第一掩膜帧。
在一些实施例中,相比于相关帧,第一掩膜帧可以具有更小的尺寸和更简单的颜色模式,从而能够进一步减少替换后的视频的数据量。在待处理视频中的目标帧较少(例如,预设间隔较长、场景变化小),并且第一掩膜帧中不包括或仅包括数量很少的从相关帧中保留像素时,可以使用这样的第一掩膜帧,进而将视频中的目标帧、第一掩膜帧进行压缩后存储或传输。
根据一些实施例,第一掩膜帧的尺寸和颜色模式可以与相关帧的尺寸和颜色模式相同。通过生成与相关帧的尺寸相同的第一掩膜图像,可以保留更多的信息。此外,第一掩膜帧和相关帧的尺寸和颜色模式均相同使得更便于对替换后的待处理视频进行编码,从而能够进一步降低视频文件的大小或传输所需要的带宽。
在一些实施例中,第一掩膜帧中的各个第一目标子区域所采用的颜色可以是待处理视频中不使用或者使用较少的颜色,从而能够避免第一目标子区域和其他像素由于颜色相同而产生混淆。
根据一些实施例,如图3所示,用于视频处理的方法还包括:步骤S306、对替换后的待处理视频进行视频编码,以得到目标视频或视频流;以及步骤S307、向第一终端发送目标视频或视频流。由此,通过对替换后的连续视频帧编码,能够进一步降低视频的数据量。此外,由于使用第一掩膜帧替换相关帧,因此替换后视频中具有大面积色块,并且相邻帧之间包括位置相近的同色色块,从而使得在视频编码时能够显著提升帧内预测、帧间预测等编码模式的效果,进而提升编码效率,降低编码后的视频的数据量。
可以理解的是,本公开并不限定所使用的视频编码标准,利用如H.264、H.265、AVI等各类编码标准对处理后的视频进行编码的方案均落在本公开的范围内。
在一些实施例中,第二终端可以在将待处理视频完整处理之后再将目标视频发送至第一终端,也可以对待处理视频进行实时处理,并以视频流的方式将视频帧发送至第一终端,在此不做限定。
如上文所描述的,第一终端和第二终端之间可以进行信息交互,以使得第二终端能够获知第一终端的图像复原能力和可用计算资源,并使得第一终端能获知第二终端的可用上传带宽、视频处理参数(例如,目标帧预设间隔、用于分割的待处理对象)和待处理视频的具体情况。在一个示例性实施例中,在第一终端对待处理视频进行处理前,先向第二终端发送待处理视频的样片(可以包括原始的样片和利用本公开的方法所包括的步骤处理后的样片)和视频处理参数,第一终端根据样片和端上计算能力(例如,对处理后的样片进行复原,并评估复原结果)向第二终端发送调整视频处理参数的反馈信息,进而第二终端根据接收到的反馈信息和可用上传带宽情况进一步调整视频处理参数,以使得在当前可用上传带宽的情况下,能够使得处理后的视频能够保留最有效的图像信息(包括视觉信息和情景信息),并能够最大化利用第一终端的图像复原能力对接收到的视频进行处理,以得到高质量的复原后的视频。
根据一些实施例,如图3所示,用于视频处理的方法还包括:步骤S308、响应于从第一终端接收到在第一掩膜帧中保留其中一个目标对象的请求,将其中一个目标对象从多个待处理对象中移除。
在一些实施例中,第一终端在复原时检测到某个目标对象的重构效果较差,则可以向第二终端发送在第一掩膜帧中保留该目标对象的请求。第一终端在接收到请求后,将该目标对象从待处理对象中移除,从而在语义分割之后不生成与该对象对应的目标区域,从而提升复原后的相关帧的图像质量。
根据一些实施例,如图3所示,用于视频处理的方法还包括:步骤S309、响应于从第一终端接收到调整第一目标区域的请求,更新第二预设规则。
在一些实施例中,第一终端在复原时还可以具体判断目标对象的哪个部分的重构效果较差,并向第二终端进行反馈,以请求调整第一目标区域。第二终端在接收到请求后,可以根据请求的具体内容对第一目标区域进行调整,例如将对应的目标对象的边缘部分排除在该目标对象的第一目标子区域之外,从而提升复原后的相关帧的图像质量。
在一些实施例中,调整第一目标区域的请求也可以不是针对具体的某个目标对象的。在一个示例性实施例中,第一终端在复原时检测到复原后的相关帧的整体效果较差,则可以向第二终端发送指示降低上述预设数量或提升上述预设置信度的请求。在另一个示例性实施例中,第一终端检测到计算资源未被充分使用,则可以向第二终端发送指示提升上述预设数量或提升上述预设置信度的请求。可以理解的是,第一终端向第二终端发送的请求也可以是非具体的,例如仅指示第二终端保留更多或更少的视觉信息,第一终端根据该请求和其他情况(例如,可用传输带宽的硬上限)进行调整。
根据本公开的另一方面,还提供了一种用于视频处理的方法。如图4所示,用于视频处理的方法包括:步骤S401、在待处理视频中确定目标帧和与目标帧对应的第一掩膜帧,其中,目标帧包括至少一个目标对象,第一掩膜帧包括与至少一个目标对象对应的第一目标区域,并且第一目标区域中每一个像素的像素值指示该像素属于至少一个目标对象,步骤S402、基于目标帧对第一掩膜帧进行复原,以得到与第一掩膜帧对应的复原后的相关帧,其中,相关帧中与的第一目标区域位置对应的区域中的像素的像素值为基于目标帧中与至少一个目标对象对应的区域中的像素的像素值而复原;以及步骤S403、将待处理视频的第一掩膜帧替换为复原后的相关帧。
由此,通过在待处理视频中确定目标帧和对应抹除了目标对象的视觉内容信息并保留目标对象的情景信息的第一掩膜帧,并根据目标帧中的目标对象的视觉信息和第一掩膜帧中的目标对象的情景信息对与第一掩膜帧对应的相关帧中的目标对象进行重构,从而能够复原对应相关帧并进一步还原原始的待处理视频,实现了在不影响视频的图像质量的情况下,在视频存储和传输等环节对视频数据进行压缩,降低了视频数据所占用的存储空间的大小,并降低了传输过程中对带宽的需求。
根据一些实施例,如图5所示,用于视频处理的方法还可以包括:步骤S501、从第二终端接收目标视频或视频流;以及步骤S502、对目标视频或视频流进行视频解码,以得到连续视频帧。图5中的步骤S503-步骤S505的操作和技术效果和图4中的步骤S401-步骤S403的操作和技术效果类似,在此不做赘述。由此,可以在从第二终端接收到的目标视频或视频流中解码出连续视频帧,即待处理视频。
在步骤S503、在待处理视频中确定目标帧和与目标帧对应的第一掩膜帧。
在一些实施例中,待处理视频中包括指示目标帧和第一掩膜帧的标识,则可以使用这些标识判断待处理视频中的每一帧的类别。在一些实施例中,由于第一掩膜帧中包括明显的单色连通区域,因此也可以通过在视频帧中识别这些区域的方式判断每一帧的类别,在此不做限定。
在步骤S504、基于目标帧对第一掩膜帧进行复原,以得到与第一掩膜帧对应的复原后的相关帧。
在一些实施例中,相关帧中与的第一目标区域位置对应的区域中的像素的像素值可以是基于目标帧中与至少一个目标对象对应的区域中的像素的像素值而复原。
根据一些实施例,步骤S504、基于目标帧对第一掩膜帧进行复原,以得到与第一掩膜帧对应的复原后的相关帧可以包括:将目标帧和第一掩膜帧输入图像复原神经网络,以得到复原后的相关帧。由此,通过使用图像复原神经网络能够快速得到准确的复原后的相关帧。
图像复原神经网络为具有图像复原能力的神经网络。在一些实施例中,可以使用现有的图像重建或图像修复神经网络,例如使用UNet架构的网络,也可以自行设计相应的神经网络,在此不做限定。
在一些实施例中,目标帧和第一掩膜帧具有同样的尺寸,则可以将其延颜色通道方向拼接后输入到图像复原神经网络中。在一些实施例中,第一掩膜帧具有更小的尺寸,则可以将第一掩膜帧上采样后与目标帧进行拼接,或者利用神经网络最初的卷积层将目标帧降采样到和第一掩膜帧具有相同的尺寸,再将两者进行拼接并送入神经网络的深层结构。可以理解的是,还可以以其他方式将第一掩膜帧和目标帧输入神经网络,在此不做限定。
根据一些实施例,如图6所示,用于视频处理的方法还可以包括:步骤S602、对目标帧进行分割,以得到第二分割结果;步骤S603、基于第二分割结果获取与目标帧对应的第二掩膜帧。第二掩膜帧包括与至少一个目标对象对应的第二目标区域,并且第二目标区域中每一个像素的像素值指示目标帧中位置对应的像素属于至少一个目标对象。图6中的步骤S601、步骤S604-步骤S605的操作和技术效果分别和图4中的步骤S401-步骤S403的操作和技术效果类似,在此不做限定。
在一些实施例中,步骤S605、将目标帧和第一掩膜帧输入神经网络,以得到复原后的相关帧可以包括:将目标帧、第一掩膜帧、以及第二掩膜帧输入神经网络,以得到复原后的相关帧。
由此,通过将与目标帧的对应的第二掩膜帧与目标帧和第一掩膜帧共同输入图像复原神经网络,以能够利用目标帧的显式分割信息进一步约束目标对象的重构和相关帧的复原,从而提升了复原后的相关帧的图像质量。
可以理解的是,第二掩膜帧输入神经网络的方式与上述第一掩膜帧输入神经网络的方式类似,在此不做赘述。
回到图5。根据一些实施例,步骤S504、将目标帧和第一掩膜帧输入神经网络,以得到复原后的相关帧可以包括:响应于确定第一掩膜帧和目标帧之间的一个或多个在先第一掩膜帧已被复原,将第一掩膜帧、目标帧、以及与一个或多个在先第一掩膜帧对应的复原后的一个或多个在先相关帧输入神经网络,以得到复原后的相关帧。
由此,通过使用已复原的一个或多个在先第二掩膜帧,为第一掩膜帧的复原过程提供了关于目标对象的更丰富的视觉信息,并且提供了的时序上的约束,从而进一步提升了神经网络输出的复原后的相关帧的图像质量。
在步骤S505、将待处理视频的第一掩膜帧替换为复原后的相关帧。
在一些实施例中,当第一终端为服务器时,可以将最终得到的视频进行视频编码后发送至其他终端进行播放,而当第一终端为客户端时,可以直接将最终得到的视频在第一终端上播放。
如上文所描述的,第一终端和第二终端之间可以进行信息交互。
根据一些实施例,至少一个目标对象包括多个目标对象。如图5所示,用于视频处理的方法还包括:步骤S506、响应于确定对复原后的相关帧中的任一目标对象的复原质量未达到预设标准,向第二终端发送在相关帧中保留该目标对象的请求。
由此,通过将相关帧中的一个目标对象复原效果较差的信息反馈给第二终端,第二终端能够在后续的第一掩膜帧中保留该目标对象,从而提升修复后的相关帧的图像质量。
根据一些实施例,如图5所示,用于视频处理的方法还包括:步骤S507、响应于确定对复原后的相关帧中的至少一个目标对象的复原质量未达到或超出预设标准,向第二终端发送调整第一目标区域的请求。
由此,通过将相关帧中的至少一个目标对象的复原质量未达标或超出标准的信息反馈给第二终端,第二终端能够在后续的第一掩膜帧中缩小或扩大第一目标区域,从而使得修复后的相关帧的图像质量满足标准,并且能够实现对第二终端的计算资源的充分利用。
可以理解的是,上述复原质量的评估方式和预设标准可以根据需求进行设置,在此不做限定。在一个示例性实施例中,可以在对第一掩膜帧进行复原时输出每一个像素的置信度,进而将与第一目标区域对应的像素的平均置信度作为复原质量的评估方式,并设置相应的置信度阈值作为预设标准。
在一些实施例中,预设标准也可以是一个范围,步骤S507可以为响应于确定对复原后的相关帧中的至少一个目标对象的复原质量未达到预设标准的下限或超出预设标准的上限,向第二终端发送调整第一目标区域的请求。
在一些实施例中,响应于检测到相关帧的复原质量未达到预设标准,或者响应于确定第二终端的上传带宽较小,可以对第一终端的计算资源进行扩展,以提升其图像复原能力。类似地,响应于检测到相关帧的复原质量超出预设标准,或者响应于确定第二终端的上传带宽较大,可以对第一终端的计算资源进行紧缩,以提高其资源使用效率。由此,通过基于第一终端的复原质量或第二终端的情况对第一终端的计算资源进行调整,可以提升第一终端的计算资源利用率,从而提升第一终端与多个第二终端进行交互时的总体效率和并行度。
根据本公开的另一方面,还提供了一种用于视频处理的装置。如图7所示,装置700包括:第一确定单元710,被配置为基于第一预设规则,在待处理视频中确定目标帧和与目标帧对应的相关帧,其中,相关帧包括在目标帧中出现的至少一个目标对象;分割单元720,被配置为对相关帧进行分割,以得到第一分割结果;获取单元730,被配置为基于第一分割结果获取与相关帧对应的第一掩膜帧,其中,第一掩膜帧包括与至少一个目标对象对应的第一目标区域,并且第一目标区域中每一个像素的像素值指示相关帧中位置对应的像素属于至少一个目标对象;以及第一替换单元740,被配置为将待处理视频的相关帧替换为对应的第一掩膜帧。
可以理解的是,装置700中的单元710-单元740的操作和技术效果分别和图2中的步骤S201-步骤S204的操作和技术效果类似,在此不做赘述。
根据本公开的另一方面,还提供了一种用于视频处理的装置。如图8所示,装置800包括:第二确定单元810,被配置为在待处理视频中确定目标帧和与目标帧对应的第一掩膜帧,其中,目标帧包括至少一个目标对象,第一掩膜帧包括与至少一个目标对象对应的第一目标区域,并且第一目标区域中每一个像素的像素值指示该像素属于至少一个目标对象;复原单元820,被配置为基于目标帧对第一掩膜帧进行复原,以得到与第一掩膜帧对应的复原后的相关帧,其中,相关帧中与的第一目标区域位置对应的区域中的像素的像素值为基于目标帧中与至少一个目标对象对应的区域中的像素的像素值而复原;以及第二替换单元830,将待处理视频的第一掩膜帧替换为复原后的相关帧。
可以理解的是,装置800中的单元810-单元830的操作和技术效果分别和图4中的步骤S401-步骤S403的操作和技术效果类似,在此不做赘述。
根据本公开的另一方面,还提供了一种用于视频处理的系统。如图9所示,系统900包括:上述用于视频处理的装置700以及上述用于视频处理的装置800。
根据本公开的另一方面,还提供一种电子设备,包括:处理器;以及存储程序的存储器,所述程序包括指令,所述指令在由所述处理器执行时使所述处理器执行上述的图像处理方法。
根据本公开的另一方面,还提供一种存储程序的非暂态计算机可读存储介质,所述程序包括指令,所述指令在由电子设备的处理器执行时,致使所述电子设备执行上述的图像处理方法。
根据本公开的另一方面,还提供一种计算机程序产品,包括计算机程序,所述计算机程序再被处理器执行时实现上述的图像处理方法。
图10是示出根据本公开的示例性实施例的电子设备的示例的框图。需要说明的,图10所示出的结构仅是一个示例,根据具体的实现方式,本公开的电子设备可以仅包括图10所示出的组成部分中的一种或多个。
电子设备1000例如可以是通用计算机(例如膝上型计算机、平板计算机等等各种计算机)、移动电话、个人数字助理。根据一些实施例,电子设备1000可以是云计算设备和智能设备。
根据一些实施例,电子设备1000可被配置为对图像、文本和音频中的至少一者进行处理,并且将所述处理结果传输至输出设备而提供给用户。输出设备例如可以为显示屏、包括显示屏的设备,也可以为耳机、扬声器、或振荡器等声音输出设备。例如,电子设备1000可被配置为对图像进行目标检测,将目标检测结果传输至显示设备以显示,电子设备1000还可被配置为对图像进行增强处理,并将增强结果传输至显示设备以显示。电子设备1000还可被配置为对图像中的文本进行识别,并将识别结果传输至显示设备以显示和/或将识别结果转换成声音数据并传输至声音输出设备进行播放。电子设备2000还可被配置为对音频进行识别和处理,并将识别结果传输至显示设备以显示和/或将处理结果转换成声音数据并传输至声音输出设备进行播放。
电子设备1000可以包括图像处理电路1003,图像处理电路1003可以被配置为对图像进行各种图像处理。图像处理电路1003例如可以被配置为对图像进行以下图像处理中的至少一项:对图像进行降噪、对图像进行几何矫正、对图像进行特征提取、对图像中的对象进行检测和/或识别、对图像进行增强处理、以及对图像中包含的文字进行检测和/或识别等等。
电子设备1000还可以包括文字识别电路1004,所述文字识别电路1004被配置为对图像中的文字区域进行文字检测和/或识别(例如OCR处理),从而获得文字数据。所述文字识别电路1004例如可以通过专用芯片实现。电子设备1000还可以包括声音转换电路1005,所述声音转换电路1005被配置为将所述文字数据转换成声音数据。所述声音转换电路1005例如可以通过专用芯片实现。
电子设备1000还可以包括音频处理电路1006,所述音频处理电路1006被配置为将音频转换为文字,从而获得音频相应的文字数据。所述音频处理电路1006还可被配置为对音频相应的文字数据进行处理,例如可以包括关键字提取、意图识别、智能推荐和智能问答等等。所述音频处理电路1006例如可以通过专用芯片实现。所述声音转换电路1005还可被配置为将音频处理结果转换为声音数据,以适用于语音助手或虚拟客服等应用场景。
上述的各种电路(例如图像处理电路1003、文字识别电路1004、声音转换电路1005、音频处理电路1006中的一个或多个可以使用定制硬件,和/或可以用硬件、软件、固件、中间件、微代码,硬件描述语言或其任何组合来实现。例如,上述的各种电路中的一个或多个可以通过使用根据本公开的逻辑和算法,用汇编语言或硬件编程语言(诸如VERILOG,VHDL,C ++)对硬件(例如,包括现场可编程门阵列(FPGA)和/或可编程逻辑阵列(PLA)的可编程逻辑电路)进行编程来实现。
根据一些实施方式,电子设备1000还可以包括输出设备1007,所述输出设备1007可以是用于呈现信息的任何类型的设备,可以包括但不限于显示屏、具有显示功能的终端、耳机、扬声器、振动器和/或打印机等。
根据一些实施方式,电子设备1000还可以包括输入设备1008,所述输入设备1008可以是用于向电子设备1000输入信息的任何类型的设备,可以包括但不限于各种传感器、鼠标、键盘、触摸屏、按钮、控制杆、麦克风和/或遥控器等等。
根据一些实施方式,电子设备1000还可以包括通信设备1009,所述通信设备1009可以是使得能够与外部设备和/或与网络通信的任何类型的设备或系统,可以包括但不限于调制解调器、网卡、红外通信设备、无线通信设备和/或芯片组,例如蓝牙设备、802.11设备、WiFi设备、WiMax设备、蜂窝通信设备和/或类似物。
根据一些实施方式,电子设备1000还可以包括处理器1001。所述处理器1001可以是任何类型的处理器,并且可以包括但不限于一个或多个通用处理器和/或一个或多个专用处理器(例如特殊处理芯片)。处理器1001例如可以是但不限于中央处理单元CPU、图形处理器GPU、或各种专用的人工智能(AI)计算芯片等等。
电子设备1000还可以包括工作存储器1002和存储设备1011。处理器1001可以被配置为能够获取并且执行存储在工作存储器1002、存储设备1011或者其他计算机可读介质中的计算机可读指令,诸如操作系统1002a的程序代码、应用程序1002b的程序代码等。工作存储器1002和存储设备1011是用于存储指令的计算机可读存储介质的示例,所存储的指令能够由处理器1001执行来实施前面所描述的各种功能。工作存储器1002可以包括易失性存储器和非易失性存储器二者(例如RAM、ROM等等)。存储设备1011可以包括硬盘驱动器、固态驱动器、可移除介质、包括外部和可移除驱动器、存储器卡、闪存、软盘、光盘(例如CD、DVD)、存储阵列、网络附属存储、存储区域网等等。工作存储器1002和存储设备1011在本文中都可以被统称为存储器或计算机可读存储介质,并且可以是能够把计算机可读、处理器可执行程序指令存储为计算机程序代码的非暂态介质,计算机程序代码可以由处理器1001作为被配置成实施在本文的示例中所描述的操作和功能的特定机器来执行。
根据一些实施方式,处理器1001可以对图像处理电路1003、文字识别电路1004、声音转换电路1005、音频处理电路1006以及电子设备1000包括的其他各种装置和电路中的至少一个进行控制和调度。根据一些实施方式,图10中所述的各个组成部分中的至少一些可通过总线1010而相互连接和/或通信。
软件要素(程序)可以位于所述工作存储器1002中,包括但不限于操作系统1002a、一个或多个应用程序1002b、驱动程序和/或其他数据和代码。
根据一些实施方式,用于进行前述的控制和调度的指令可以被包括在操作系统1002a或者一个或多个应用程序1002b中。
根据一些实施方式,执行本公开所述的方法步骤(例如图2-图6的流程图中所示的方法步骤)的指令可以被包括在一个或多个应用程序1002b中,并且上述电子设备1000的各个模块可以通过由处理器1001读取和执行一个或多个应用程序1002b的指令来实现。换言之,电子设备1000可以包括处理器1001以及存储程序的存储器(例如工作存储器1002和/或存储设备1011),所述程序包括指令,所述指令在由所述处理器1001执行时使所述处理器1001执行如本公开各种实施例所述的方法。
根据一些实施方式,图像处理电路1003、文字识别电路1004、声音转换电路1005、音频处理电路1006中的至少一个所执行的操作中的一部分或者全部可以由处理器1001读取和执行一个或多个应用程序1002b的指令来实现。
软件要素(程序)的指令的可执行代码或源代码可以存储在非暂时性计算机可读存储介质(例如所述存储设备1011)中,并且在执行时可以被存入工作存储器1002中(可能被编译和/或安装)。因此,本公开提供存储程序的计算机可读存储介质,所述程序包括指令,所述指令在由电子设备的处理器执行时,致使所述电子设备执行如本公开各种实施例所述的方法。根据另一种实施方式,软件要素(程序)的指令的可执行代码或源代码也可以从远程位置下载。
还应该理解,可以根据具体要求而进行各种变型。例如,也可以使用定制硬件,和/或可以用硬件、软件、固件、中间件、微代码,硬件描述语言或其任何组合来实现各个电路、单元、模块或者元件。例如,所公开的方法和设备所包含的电路、单元、模块或者元件中的一些或全部可以通过使用根据本公开的逻辑和算法,用汇编语言或硬件编程语言(诸如VERILOG,VHDL,C ++)对硬件(例如,包括现场可编程门阵列(FPGA)和/或可编程逻辑阵列(PLA)的可编程逻辑电路)进行编程来实现。
根据一些实施方式,电子设备1000中的处理器1001可以分布在网络上。 例如,可以使用一个处理器执行一些处理,而同时可以由远离该一个处理器的另一个处理器执行其他处理。电子设备1000的其他模块也可以类似地分布。这样,电子设备1000可以被解释为在多个位置执行处理的分布式计算系统。电子设备1000的处理器1001也可以是云计算系统的处理器,或者是结合了区块链的处理器。
虽然已经参照附图描述了本公开的实施例或示例,但应理解,上述的方法、系统和设备仅仅是示例性的实施例或示例,本发明的范围并不由这些实施例或示例限制,而是仅由授权后的权利要求书及其等同范围来限定。实施例或示例中的各种要素可以被省略或者可由其等同要素替代。此外,可以通过不同于本公开中描述的次序来执行各步骤。进一步地,可以以各种方式组合实施例或示例中的各种要素。重要的是随着技术的演进,在此描述的很多要素可以由本公开之后出现的等同要素进行替换。

Claims (24)

1.一种用于视频处理的方法,其特征在于,所述方法包括:
基于第一预设规则,在待处理视频中确定目标帧和与所述目标帧对应的相关帧,其中,所述相关帧包括在所述目标帧中出现的至少一个目标对象;
对所述相关帧进行分割,以得到第一分割结果;
基于所述第一分割结果获取与所述相关帧对应的第一掩膜帧,其中,所述第一掩膜帧包括与所述至少一个目标对象对应的第一目标区域,并且所述第一目标区域中每一个像素的像素值指示所述相关帧中位置对应的像素属于所述至少一个目标对象;以及
将所述待处理视频的所述相关帧替换为对应的第一掩膜帧。
2.根据权利要求1所述的方法,其特征在于,所述第一目标区域包括与所述至少一个目标对象各自对应的至少一个第一目标子区域,其中,同一第一目标子区域中的任意两个像素具有相同的像素值,并且取自不同第一目标子区域的两个像素具有不同的像素值。
3.根据权利要求1所述的方法,其特征在于,所述第一掩膜帧包括与所述第一目标区域不重叠的第一非目标区域,所述第一非目标区域中每一个像素的像素值是基于所述相关帧中位置对应的像素的像素值所确定的。
4.根据权利要求1-3中任一项所述的方法,其特征在于,所述第一预设规则包括以下中的至少一项:
将所述待处理视频中的第一帧确定为目标帧;
将与上一个视频帧的场景不同的视频帧确定为目标帧;以及
将与上一个目标帧的间隔大于预设间隔的视频帧确定为目标帧。
5.根据权利要求1-3中任一项所述的方法,其特征在于,所述待处理视频包括多个目标帧,所述第一预设规则包括:
将当前目标帧和下一个目标帧之间的视频帧确定为与所述当前目标帧对应的相关帧。
6.根据权利要求1-3中任一项所述的方法,其特征在于,所述第一掩膜帧的尺寸和颜色模式与所述相关帧的尺寸和颜色模式相同。
7.根据权利要求6所述的方法,其特征在于,所述方法还包括:
对替换后的待处理视频进行视频编码,以得到目标视频或视频流;以及
向第一终端发送所述目标视频或视频流。
8.根据权利要求1-3中任一项所述的方法,其特征在于,所述第一目标区域包括与所述至少一个目标对象各自对应的至少一个第一目标子区域,所述方法还包括:
确定所述待处理视频包括的多个待处理对象,所述多个待处理对象包括所述至少一个目标对象,
其中,所述第一分割结果包括所述相关帧的原始掩膜图像,所述原始掩膜图像中每一个像素的像素值指示所述相关帧中位置对应的像素与所述多个待处理对象的从属关系,其中,所述基于所述第一分割结果获取与所述相关帧对应的第一掩膜帧包括:
针对所述多个待处理对象中的每一个待处理对象,响应于确定该待处理对象属于所述至少一个目标对象,基于第二预设规则,在所述原始掩膜图像中的属于该待处理对象的像素中确定至少一个目标像素;以及
将所述第一掩膜帧中与所述至少一个目标像素位置对应的区域确定为所述第一掩膜帧中与该待处理对象对应的第一目标子区域。
9.根据权利要求8所述的方法,其特征在于,所述第二预设规则包括所述至少一个目标对象各自对应的至少一个目标像素的总数量是否达到预设数量。
10.根据权利要求8所述的方法,其特征在于,所述第一分割结果还包括所述从属关系的置信度,
其中,所述第二预设规则包括所述原始掩膜图像中的属于所述至少一个目标对象的像素的对应的置信度是否大于预设置信度。
11.根据权利要求8所述的方法,其特征在于,所述方法还包括:
响应于从第一终端接收到在第一掩膜帧中保留其中一个目标对象的请求,将所述其中一个目标对象从所述多个待处理对象中移除。
12.根据权利要求8所述的方法,其特征在于,所述方法还包括:
响应于从第一终端接收到调整第一目标区域的请求,更新所述第二预设规则。
13.一种用于视频处理的方法,其特征在于,所述方法包括:
在待处理视频中确定目标帧和与所述目标帧对应的第一掩膜帧,其中,所述目标帧包括至少一个目标对象,所述第一掩膜帧包括与所述至少一个目标对象对应的第一目标区域,并且所述第一目标区域中每一个像素的像素值指示该像素属于所述至少一个目标对象,
基于所述目标帧对所述第一掩膜帧进行复原,以得到与所述第一掩膜帧对应的复原后的相关帧,其中,所述相关帧中与所述的第一目标区域位置对应的区域中的像素的像素值是基于所述目标帧中与所述至少一个目标对象对应的区域中的像素的像素值而复原;以及
将所述待处理视频的所述第一掩膜帧替换为所述复原后的相关帧。
14.根据权利要求13所述的方法,其特征在于,所述基于所述目标帧对所述第一掩膜帧进行复原,以得到与所述第一掩膜帧对应的复原后的相关帧包括:
将所述目标帧和所述第一掩膜帧输入图像复原神经网络,以得到所述复原后的相关帧。
15.根据权利要求14所述的方法,其特征在于,所述方法还包括:
对所述目标帧进行分割,以得到第二分割结果;以及
基于所述第二分割结果获取与所述目标帧对应的第二掩膜帧,其中,所述第二掩膜帧包括与所述至少一个目标对象对应的第二目标区域,并且所述第二目标区域中每一个像素的像素值指示所述目标帧中位置对应的像素属于所述至少一个目标对象,
其中,所述将所述目标帧和所述第一掩膜帧输入图像复原神经网络,以得到所述复原后的相关帧包括:
将所述目标帧、所述第一掩膜帧、以及所述第二掩膜帧输入所述图像复原神经网络,以得到所述复原后的相关帧。
16.根据权利要求14所述的方法,其特征在于,所述将所述目标帧和所述第一掩膜帧输入神经网络,以得到所述神经网络输出的所述复原后的相关帧包括:
响应于确定所述第一掩膜帧和所述目标帧之间的一个或多个在先第一掩膜帧已被复原,将所述第一掩膜帧、所述目标帧、以及与所述一个或多个在先第一掩膜帧对应的复原后的一个或多个在先相关帧输入所述神经网络,以得到所述复原后的相关帧。
17.根据权利要求13所述的方法,其特征在于,所述方法还包括:
从第二终端接收目标视频或视频流;以及
对所述目标视频或视频流进行视频解码,以得到所述待处理视频帧。
18.根据权利要求17所述的方法,其特征在于,所述至少一个目标对象包括多个目标对象,所述方法还包括:
响应于确定对复原后的相关帧中的任一目标对象的复原质量未达到预设标准,向所述第二终端发送在相关帧中保留该目标对象的请求。
19.根据权利要求17所述的方法,其特征在于,所述方法还包括:
响应于确定对复原后的相关帧中的至少一个目标对象的复原质量未达到或超出预设标准,向所述第二终端发送调整第一目标区域的请求。
20.一种用于视频处理的装置,其特征在于,所述装置包括:
第一确定单元,被配置为基于第一预设规则,在待处理视频中确定目标帧和与所述目标帧对应的相关帧,其中,所述相关帧包括在所述目标帧中出现的至少一个目标对象;
分割单元,被配置为对所述相关帧进行分割,以得到第一分割结果;
获取单元,被配置为基于所述第一分割结果获取与所述相关帧对应的第一掩膜帧,其中,所述第一掩膜帧包括与所述至少一个目标对象对应的第一目标区域,并且所述第一目标区域中每一个像素的像素值指示所述相关帧中位置对应的像素属于所述至少一个目标对象;以及
第一替换单元,被配置为将所述待处理视频的所述相关帧替换为对应的第一掩膜帧。
21.一种用于视频处理的装置,其特征在于,所述装置包括:
第二确定单元,被配置为在待处理视频中确定目标帧和与所述目标帧对应的第一掩膜帧,其中,所述目标帧包括至少一个目标对象,所述第一掩膜帧包括与所述至少一个目标对象对应的第一目标区域,并且所述第一目标区域中每一个像素的像素值指示该像素属于所述至少一个目标对象;
复原单元,被配置为基于所述目标帧对所述第一掩膜帧进行复原,以得到与所述第一掩膜帧对应的复原后的相关帧,其中,所述相关帧中与所述的第一目标区域位置对应的区域中的像素的像素值为基于所述目标帧中与所述至少一个目标对象对应的区域中的像素的像素值而复原;以及
第二替换单元,将所述待处理视频的所述第一掩膜帧替换为所述复原后的相关帧。
22.一种用于视频处理的系统,其特征在于,所述系统包括:
根据权利要求20所述的装置;以及
根据权利要求21所述的装置。
23.一种电子设备,其特征在于,所述电子设备包括:
至少一个处理器,其中,所述至少一个处理器中的每一个处理器包括:
处理器缓存;以及
与所述至少一个处理器通信连接的存储器,其中
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-19中任一项所述的方法。
24.一种存储有计算机指令的非瞬时计算机可读存储介质,其特征在于,所述计算机指令用于使所述计算机执行权利要求1-19中任一项所述的方法。
CN202310521076.8A 2023-05-10 2023-05-10 用于视频处理的方法、装置、系统、设备和介质 Active CN116229337B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202311095385.XA CN117152658A (zh) 2023-05-10 2023-05-10 用于视频处理的方法、装置、系统、设备和介质
CN202310521076.8A CN116229337B (zh) 2023-05-10 2023-05-10 用于视频处理的方法、装置、系统、设备和介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310521076.8A CN116229337B (zh) 2023-05-10 2023-05-10 用于视频处理的方法、装置、系统、设备和介质

Related Child Applications (1)

Application Number Title Priority Date Filing Date
CN202311095385.XA Division CN117152658A (zh) 2023-05-10 2023-05-10 用于视频处理的方法、装置、系统、设备和介质

Publications (2)

Publication Number Publication Date
CN116229337A true CN116229337A (zh) 2023-06-06
CN116229337B CN116229337B (zh) 2023-09-26

Family

ID=86570054

Family Applications (2)

Application Number Title Priority Date Filing Date
CN202311095385.XA Pending CN117152658A (zh) 2023-05-10 2023-05-10 用于视频处理的方法、装置、系统、设备和介质
CN202310521076.8A Active CN116229337B (zh) 2023-05-10 2023-05-10 用于视频处理的方法、装置、系统、设备和介质

Family Applications Before (1)

Application Number Title Priority Date Filing Date
CN202311095385.XA Pending CN117152658A (zh) 2023-05-10 2023-05-10 用于视频处理的方法、装置、系统、设备和介质

Country Status (1)

Country Link
CN (2) CN117152658A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117152658A (zh) * 2023-05-10 2023-12-01 瀚博半导体(上海)有限公司 用于视频处理的方法、装置、系统、设备和介质

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108197623A (zh) * 2018-01-19 2018-06-22 百度在线网络技术(北京)有限公司 用于检测目标的方法和装置
CN110290425A (zh) * 2019-07-29 2019-09-27 腾讯科技(深圳)有限公司 一种视频处理方法、装置及存储介质
US20200279122A1 (en) * 2019-02-28 2020-09-03 Hyundai Mobis Co., Ltd. Automatic image synthesizing apparatus and method
CN113469930A (zh) * 2021-09-06 2021-10-01 腾讯科技(深圳)有限公司 图像处理方法、装置、及计算机设备
CN113627402A (zh) * 2021-10-12 2021-11-09 腾讯科技(深圳)有限公司 一种图像识别方法及相关装置
WO2021238325A1 (zh) * 2020-05-29 2021-12-02 华为技术有限公司 一种图像处理方法及装置
WO2022027447A1 (zh) * 2020-08-06 2022-02-10 深圳市大疆创新科技有限公司 图像处理方法、相机及移动终端
CN115170400A (zh) * 2022-04-06 2022-10-11 腾讯科技(深圳)有限公司 一种视频修复的方法、相关装置、设备以及存储介质
CN115988259A (zh) * 2021-10-14 2023-04-18 腾讯科技(深圳)有限公司 一种视频处理方法、装置、终端、介质及程序产品

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200053388A1 (en) * 2018-08-10 2020-02-13 Disney Enterprises, Inc. Machine learning based video compression
CN113378598B (zh) * 2021-06-21 2023-04-25 北方工业大学 一种基于深度学习的动态条码检测方法
US11582464B2 (en) * 2021-06-23 2023-02-14 Microsoft Technology Licensing, Llc Using morphological operations to process frame masks in video content
CN114494297B (zh) * 2022-01-28 2022-12-06 杭州电子科技大学 处理多种先验知识的自适应视频目标分割方法
CN114885178A (zh) * 2022-04-21 2022-08-09 上海交通大学 基于双向帧预测的极低码率人脸视频混合压缩方法及系统
CN116012404A (zh) * 2023-01-18 2023-04-25 广州方硅信息技术有限公司 视频图像分割方法及其装置、设备、介质
CN117152658A (zh) * 2023-05-10 2023-12-01 瀚博半导体(上海)有限公司 用于视频处理的方法、装置、系统、设备和介质

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108197623A (zh) * 2018-01-19 2018-06-22 百度在线网络技术(北京)有限公司 用于检测目标的方法和装置
US20200279122A1 (en) * 2019-02-28 2020-09-03 Hyundai Mobis Co., Ltd. Automatic image synthesizing apparatus and method
CN110290425A (zh) * 2019-07-29 2019-09-27 腾讯科技(深圳)有限公司 一种视频处理方法、装置及存储介质
WO2021238325A1 (zh) * 2020-05-29 2021-12-02 华为技术有限公司 一种图像处理方法及装置
WO2022027447A1 (zh) * 2020-08-06 2022-02-10 深圳市大疆创新科技有限公司 图像处理方法、相机及移动终端
CN113469930A (zh) * 2021-09-06 2021-10-01 腾讯科技(深圳)有限公司 图像处理方法、装置、及计算机设备
CN113627402A (zh) * 2021-10-12 2021-11-09 腾讯科技(深圳)有限公司 一种图像识别方法及相关装置
CN115988259A (zh) * 2021-10-14 2023-04-18 腾讯科技(深圳)有限公司 一种视频处理方法、装置、终端、介质及程序产品
CN115170400A (zh) * 2022-04-06 2022-10-11 腾讯科技(深圳)有限公司 一种视频修复的方法、相关装置、设备以及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
曹世康;郭宝龙;符祥;: "基于时空信息融合的视频对象分割系统", 电视技术, no. 01 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117152658A (zh) * 2023-05-10 2023-12-01 瀚博半导体(上海)有限公司 用于视频处理的方法、装置、系统、设备和介质

Also Published As

Publication number Publication date
CN116229337B (zh) 2023-09-26
CN117152658A (zh) 2023-12-01

Similar Documents

Publication Publication Date Title
KR102606200B1 (ko) 전자 장치 및 그 제어 방법
CN116229337B (zh) 用于视频处理的方法、装置、系统、设备和介质
JP7377806B2 (ja) 意味処理および動的シーンモデリングに基づく向上された画像形成のための方法
CN105264892A (zh) 针对高帧率和可变帧率捕获来调整视频压缩
CN111567056B (zh) 视频播放装置及其控制方法
CN105893412A (zh) 图像分享方法及装置
CN110166850B (zh) 多重cnn网络预测全景视频观看位置的方法和系统
CN114679607B (zh) 一种视频帧率控制方法、装置、电子设备及存储介质
US11636626B2 (en) Apparatus and method of using AI metadata related to image quality
JP2022509191A (ja) 映像デコーディング制御方法、装置、電子機器及び記憶媒体
US11798254B2 (en) Bandwidth limited context based adaptive acquisition of video frames and events for user defined tasks
KR20210092588A (ko) 영상 처리 장치 및 방법
US20170272545A1 (en) Method and system for transmitting remote screen
KR20190023546A (ko) 영상 부호화 장치 및 영상 부호화 시스템
CN110910400A (zh) 图像处理方法、装置、存储介质及电子设备
KR20220043912A (ko) 머신 비전을 위한 다중 태스크 시스템에서의 딥러닝 기반 특징맵 코딩 장치 및 방법
US10536726B2 (en) Pixel patch collection for prediction in video coding system
CN116847087A (zh) 视频处理方法、装置、存储介质及电子设备
US20220224934A1 (en) Machine-learned in-loop predictor for video compression
CN116917930A (zh) 在电子设备中基于图像压缩质量校正图像的方法和设备
CN112200816A (zh) 视频图像的区域分割及头发替换方法、装置及设备
CN115861042B (zh) 一种图像处理方法、电子设备及介质
CN116996695B (zh) 一种全景图像压缩方法、装置、设备及介质
US20230281458A1 (en) Method and system for reducing complexity of a processing pipeline using feature-augmented training
US20230412758A1 (en) Systems and Methods for Selectively Modifying a Video Frame of a Video Conference Meeting

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant