CN113095176A - 一种对视频数据进行背景还原的方法和装置 - Google Patents
一种对视频数据进行背景还原的方法和装置 Download PDFInfo
- Publication number
- CN113095176A CN113095176A CN202110339807.8A CN202110339807A CN113095176A CN 113095176 A CN113095176 A CN 113095176A CN 202110339807 A CN202110339807 A CN 202110339807A CN 113095176 A CN113095176 A CN 113095176A
- Authority
- CN
- China
- Prior art keywords
- background
- frame
- frame data
- foreground
- video
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/25—Determination of region of interest [ROI] or a volume of interest [VOI]
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种对视频数据进行背景还原的方法和装置,涉及人工智能技术领域。该方法的一具体实施方式包括:基于采样阈值,对待处理视频进行关键帧采样,得到关键帧集合;其中,所述采样阈值小于所述待处理视频的总帧数;对所述关键帧集合中的每个关键帧进行前景检测,确定出所述每个关键帧中的前景目标信息;基于所述前景检测,得到背景模板和背景库;根据所述背景库中第二帧数据以及其前景目标信息,对所述背景模板进行背景填充,得到所述待处理视频的背景还原数据。该方法抽取视频的部分帧数据,并且利用目标检测区分前景和背景,实现在单帧上面的前景背景快速有效分离,并通过多张背景图进行填补从而高效得到还原后的背景环境。
Description
技术领域
本发明涉及人工智能技术领域,尤其涉及一种对视频数据进行背景还原的方法和装置。
背景技术
视频背景还原指的是一段视频,通过一定的技术手段将前景去除提取得到背景的过程。目前视频背景还原的方法,主要是将视频所有帧对应的像素进行逐像素计算。但是,视频内容在广义范围内是随机的,对于一段视频背景图像在逐帧迭代的时候什么时候是最优值,由大数定理认为迭代次数越多,则背景图片越趋近于真实值,鲁棒性也越好。因此绝大多数背景还原技术都是基于视频帧不断迭代进行同步实时维护的,目前对于一段视频背景还原的方法,一般是迭代完每一帧以获取背景还原图。加上迭代时候的算法计算量的堆叠,导致了背景还原效率低,速度慢。而且,目前大部分传统方法处理的背景还原图像质量对于前景的移动速率有强依赖:即在一段视频里,当前景物体比如人物移动速率很慢,或者干脆不动,导致该前景在固定区域占据了大部分的视频帧,此时用传统方法处理出来的效果通常不好,会留下痕迹,导致质量不高。
发明内容
有鉴于此,本发明实施例提供一种对视频数据进行背景还原的方法和装置,能够抽取视频的部分帧数据,并且利用目标检测区分前景和背景,实现在单帧上面的前景背景快速有效分离,并通过多张背景图进行填补从而高效得到还原后的背景环境。
为实现上述目的,根据本发明实施例的一个方面,提供了一种对视频数据进行背景还原的方法。
本发明实施例的对视频数据进行背景还原的方法包括:
基于采样阈值,对待处理视频进行关键帧采样,得到关键帧集合;其中,所述采样阈值小于所述待处理视频的总帧数;
对所述关键帧集合中的每个关键帧进行前景检测,确定出所述每个关键帧中的前景目标信息;
基于所述前景检测,得到背景模板和背景库;其中,所述背景模板根据第一帧数据得到,所述背景库中包括第二帧数据以及其前景目标信息;所述关键帧集合中包括第一帧数据和第二帧数据;
根据所述背景库中第二帧数据以及其前景目标信息,对所述背景模板进行背景填充,得到所述待处理视频的背景还原数据。
可选地,基于设置的采样阈值,对待处理视频进行关键帧采样,得到关键帧集合的步骤,包括:获取待处理视频,并确定所述待处理视频的总帧数;根据所述总帧数和采样阈值,确定采样间隔;其中,所述采样阈值小于所述待处理视频的总帧数;根据所述采样间隔,对所述待处理视频进行关键帧采样,得到关键帧集合。
可选地,基于所述前景检测,得到背景模板和背景库的步骤,包括:选取所述关键帧集合中的一个帧数据作为第一帧数据;根据所述第一帧数据的前景目标信息,对所述第一帧数据进行前景扣掉处理得到背景模板;将所述关键帧集合中除第一帧数据以外的第二帧数据以及其前景目标信息,组成背景库。
可选地,根据所述背景库中第二帧数据以及其前景目标信息,对所述背景模板进行背景填充的步骤,包括:从所述背景库的第二帧数据中选取一个帧数据作为迭代帧数据;根据所述背景模板中被抠掉部分的位置,验证所述迭代帧数据的相应位置的目标像素点是否属于前景目标;如果不属于,则将所述目标像素点复制到所述背景模块;否则,再次从所述背景库的第二帧数据中选取一个新的帧数据作为迭代帧数据。
可选地,在再次从所述背景库的第二帧数据中选取一个新的帧数据作为迭代帧数据之前,还包括:在确定所述背景模板中被抠掉部分的像素点中不存在未被填补的像素点的情况下,判断所述背景库的第二帧数据是否全部被选取为迭代帧数据;
如果是,则根据所述未被填补像素点的周围像素点,对所述背景模板进行填补;否则,再次从所述背景库的第二帧数据中选取一个新的帧数据作为迭代帧数据。
可选地,验证所述迭代帧数据的相应位置的目标像素点是否属于前景目标的步骤,包括:创建所述迭代帧数据的二值矩阵掩膜;根据所述二值矩阵掩膜,验证所述迭代帧数据的相应位置的目标像素点是否属于前景目标。
可选地,对所述关键帧集合中的每个关键帧进行前景检测,确定出所述每个关键帧中的前景目标信息的步骤,包括:基于深度学习目标检测算法,对所述关键帧集合中的每个关键帧进行前景目标检测;确定出所述每个关键帧中的前景目标的位置信息,其中,所述前景目标信息至少包括前景目标的位置信息。
可选地,所述位置信息为所述前景目标的目标框信息;其中所述目标框信息至少包括长、宽和对角像素点坐标。
为实现上述目的,根据本发明实施例的另一个方面,提供了一种对视频数据进行背景还原的装置。
本发明实施例的对视频数据进行背景还原的装置包括:
帧采样模块,用于基于采样阈值,对待处理视频进行关键帧采样,得到关键帧集合;其中,所述采样阈值小于所述待处理视频的总帧数;
前景检测模块,用于对所述关键帧集合中的每个关键帧进行前景检测,确定出所述每个关键帧中的前景目标信息;
背景模块,用于基于所述前景检测,得到背景模板和背景库;其中,所述背景模板根据第一帧数据得到,所述背景库中包括第二帧数据以及其前景目标信息;所述关键帧集合中包括第一帧数据和第二帧数据;
填充模块,用于根据所述背景库中第二帧数据以及其前景目标信息,对所述背景模板进行背景填充,得到所述待处理视频的背景还原数据。
可选地,所述帧采样模块还用于,获取待处理视频,并确定所述待处理视频的总帧数;根据所述总帧数和采样阈值,确定采样间隔;其中,所述采样阈值小于所述待处理视频的总帧数;根据所述采样间隔,对所述待处理视频进行关键帧采样,得到关键帧集合。
可选地,所述背景模块还用于,选取所述关键帧集合中的一个帧数据作为第一帧数据;根据所述第一帧数据的前景目标信息,对所述第一帧数据进行前景扣掉处理得到背景模板;将所述关键帧集合中除第一帧数据以外的第二帧数据以及其前景目标信息,组成背景库。
可选地,所述填充模块还用于,从所述背景库的第二帧数据中选取一个帧数据作为迭代帧数据;根据所述背景模板中被抠掉部分的位置,验证所述迭代帧数据的相应位置的目标像素点是否属于前景目标;如果不属于,则将所述目标像素点复制到所述背景模块;否则,再次从所述背景库的第二帧数据中选取一个新的帧数据作为迭代帧数据。
可选地,所述填充模块还用于,在确定所述背景模板中被抠掉部分的像素点中不存在未被填补的像素点的情况下,判断所述背景库的第二帧数据是否全部被选取为迭代帧数据;
如果是,则根据所述未被填补像素点的周围像素点,对所述背景模板进行填补;否则,再次从所述背景库的第二帧数据中选取一个新的帧数据作为迭代帧数据。
可选地,所述填充模块还用于,创建所述迭代帧数据的二值矩阵掩膜;根据所述二值矩阵掩膜,验证所述迭代帧数据的相应位置的目标像素点是否属于前景目标。
可选地,所述前景检测模块,基于深度学习目标检测算法,对所述关键帧集合中的每个关键帧进行前景目标检测;确定出所述每个关键帧中的前景目标的位置信息,其中,所述前景目标信息至少包括前景目标的位置信息。
可选地,所述位置信息为所述前景目标的目标框信息;其中所述目标框信息至少包括长、宽和对角像素点坐标。
为实现上述目的,根据本发明实施例的再一个方面,提供了一种电子设备。
本发明实施例的电子设备包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现上述任一项的对视频数据进行背景还原的方法。
为实现上述目的,根据本发明实施例的再一个方面,提供了一种计算机可读介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现上述任一项的对视频数据进行背景还原的方法。
上述发明中的一个实施例具有如下优点或有益效果:不同于现有视频背景还原的方法逐帧迭代,本发明实施例只是抽取部分关键帧,计算量大大降低,速度和效率明显提升。以及,利用目标检测区分前景和背景,实现在单帧上面的前景背景快速有效分离,并通过多张背景图进行填补从而高效得到还原后的背景环境。
上述的非惯用的可选方式所具有的进一步效果将在下文中结合具体实施方式加以说明。
附图说明
附图用于更好地理解本发明,不构成对本发明的不当限定。其中:
图1是根据本发明实施例的对视频数据进行背景还原的方法的主要流程的示意图;
图2是根据本发明实施例的得到关键帧集合的方法的示意图;
图3是根据本发明实施例的对背景模板进行背景填充的方法的示意图;
图4是根据本发明实施例的对视频数据进行背景还原的方法的示意图;
图5是根据本发明实施例的对视频数据进行背景还原的装置的主要模块的示意图;
图6是本发明实施例可以应用于其中的示例性系统架构图;
图7是适于用来实现本发明实施例的终端设备或服务器的计算机系统的结构示意图。
具体实施方式
以下结合附图对本发明的示范性实施例做出说明,其中包括本发明实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本发明的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
针对本发明实施例中出现的部分技术术语,解释如下:
静态视频:指背景固定的视频。该类视频通常由固定摄像头定点摄像生成。与之相对的动态视频是指背景不断变换的视频,该类视频通常由固定摄像头旋转拍摄,或可移动摄像设备拍摄生成。
前景(foreground):指在视频中移动的或图像中具有特殊含义的一类物体(如人物,动物,车辆和其他可移动的物体)。
背景:通常指一段视频或者图片中除去前景的整个环境空间。
视频背景还原:指的是一段视频,通过一定的技术手段将前景去除提取得到背景的过程。
目标:在计算机视觉中,视频或者图片里所蕴含的具有相似特征的一类人、物的集合(比如人,猪,车,红绿灯,箱子等等)。
目标检测:人工智能计算机视觉的方向之一,也称为目标提取,是一种基于目标几何和统计特征的图像分割,将目标的分割和识别合二为一。具体的,目标检测是一种计算机视觉技术,它允许识别和定位图像或视频中的物体。目标检测可以理解为两部分,目标定位和目标分类。定位可以理解为预测对象在图像中的确切位置(边界框),而分类则是定义它属于哪个类(人/车/狗等)。
目标框:计算机通过计算将识别出来的目标进行分割的边界,通常为矩形。
图1是根据本发明实施例的对视频数据进行背景还原的方法的主要流程的示意图,如图1所示,本发明实施例的对视频数据进行背景还原的方法主要包括:
步骤S101:基于采样阈值,对待处理视频进行关键帧采样,得到关键帧集合;其中,采样阈值小于待处理视频的总帧数;
步骤S102:对关键帧集合中的每个关键帧进行前景检测,确定出每个关键帧中的前景目标信息;
步骤S103:基于前景检测,得到背景模板和背景库;其中,背景模板根据第一帧数据得到,背景库中包括第二帧数据以及其前景目标信息;关键帧集合中包括第一帧数据和第二帧数据;
步骤S104:根据背景库中第二帧数据以及其前景目标信息,对背景模板进行背景填充,得到待处理视频的背景还原数据。
根据本发明实施例,通过抽取部分关键帧,使得计算量大大降低,速度和效率明显提升。以及,利用目标检测区分前景和背景,实现在单帧上面的前景背景快速有效分离,并通过多张背景图进行填补从而高效得到还原后的背景环境。
图2是根据本发明实施例的得到关键帧集合的方法的示意图;如图2所示,对于步骤S101,在一优选的实施例中,在基于设置的采样阈值,对待处理视频进行关键帧采样,得到关键帧集合的步骤,包括:
步骤S201:获取待处理视频,并确定待处理视频的总帧数。
步骤S202:根据总帧数和采样阈值,确定采样间隔;其中,采样阈值小于待处理视频的总帧数。该采样阈值可是提取预设好的,该情况下,采样阈值可固定不变。在另一实施例中,采样阈值也可以根据视频的总帧数确定的,该情况下,采样阈值可动态调整。
步骤S203:根据采样间隔,对待处理视频进行关键帧采样,得到关键帧集合。
该实施例采取均匀采样的方式,首先保证采样的帧合理分布,例如:即使人物速率很慢,或者背景出现时间很短(95帧有人不动,最后5帧走了),只要关键帧里面有一张有对应的背景像素点,就能还原背景图片。因为是直接切片拷贝,所以不存在有痕迹的问题。
在一优选的实施例中,基于前景检测,得到背景模板和背景库的过程中,选取关键帧集合中的一个帧数据作为第一帧数据。然后,根据第一帧数据的前景目标信息,对第一帧数据进行前景扣掉处理得到背景模板。并且,将关键帧集合中除第一帧数据以外的第二帧数据以及其前景目标信息,组成背景库。根据该实施例,可在抽取的帧数据中随机选择一张帧数据,抠掉里面的前景目标,得到背景模板。并将其他的关键帧连同目标检测的信息保存形成背景库,以便于后续进行迭代。
图3是根据本发明实施例的对背景模板进行背景填充的方法的示意图,如图3所示,对于步骤S104,在一优选的实施例中,根据背景库中第二帧数据以及其前景目标信息,对背景模板进行背景填充的步骤,包括:
步骤S301:从背景库的第二帧数据中选取一个帧数据作为迭代帧数据。
步骤S302:根据背景模板中被抠掉部分的位置,验证迭代帧数据的相应位置的目标像素点是否属于前景目标。如果不属于,则进行步骤S303。否则,进行步骤S301,即再次从背景库的第二帧数据中选取一个新的帧数据作为迭代帧数据。
步骤S303:目标像素点复制到背景模块。
根据本发明实施例,在每一轮迭代中,从背景库中选择一张关键帧,通过背景模板被抠掉的位置坐标去背景库中拿出的关键帧的找到相对应的位置,查验的该位置像素是不是属于前景部分。进而,通过多张背景图进行填补从而高效得到还原后的背景环境。
在一优选的实施例中,在再次从背景库的第二帧数据中选取一个新的帧数据作为迭代帧数据之前,在确定背景模板中被抠掉部分的像素点中不存在未被填补的像素点的情况下,判断背景库的第二帧数据是否全部被选取为迭代帧数据。如果是,则根据未被填补像素点的周围像素点,对背景模板进行填补;否则,再次从背景库的第二帧数据中选取一个新的帧数据作为迭代帧数据。如果所有关键帧都跑完,仍然有没有补齐的像素点,则将该像素点取值周围像素点的平均值进行人工填补。优选的,可基于未被填补的像素点周围的8个像素点的平均值,作为要候补的像素点的像素值。以及,可通过掩膜矩阵上的记录判断是否补齐(是否为1,为1就是没补齐)。
在一优选的实施例中,验证迭代帧数据的相应位置的目标像素点是否属于前景目标的过程中,创建迭代帧数据的二值矩阵掩膜。根据二值矩阵掩膜,验证迭代帧数据的相应位置的目标像素点是否属于前景目标。该二值矩阵掩膜(mask)K由0,1来记录该模板是否是前景(即是否是被扣掉的部分)。初始化二值矩阵K时,将矩阵值设为全0,然后再将被扣掉的部分设为1,当有被抠掉部分的背景还原的时候,将对应的掩膜矩阵K相应1的区域置为0。通过检测掩膜矩阵是否还有1的存在也可以快速验证整个背景是否全部填好。
在一优选的实施例中,对关键帧集合中的每个关键帧进行前景检测,确定出每个关键帧中的前景目标信息的过程中,基于深度学习目标检测算法,对关键帧集合中的每个关键帧进行前景目标检测。然后,确定出每个关键帧中的前景目标的位置信息,其中,前景目标信息至少包括前景目标的位置信息。位置信息为前景目标的目标框信息;其中目标框信息至少包括长、宽和对角像素点坐标。一般来说默认运用左上和右下角像素点的坐标来记住矩形坐标框,矩形坐标框位置的确定必须是由对角线的两个点坐标才能唯一确定。例如,对角像素点坐标为:左上和右下。
现有技术中,对于视频背景还原的方法,主要使用的方法有以下几种:
1)均值法、中值法、滑动均值滤波、单高斯
这类方法是将视频所有帧对应的像素进行逐像素计算,如均值法,认为背景一般是不会动的物体,所以可以认为在一个很长的时间段内,它的像素值几乎都是保持一个数的。那么可以取若干张图片将其对应点的像素大小相加,然后再求均值,即可以认为这个是所需要的背景。可以用以下公式来表示:
其中,通过均值法处理的方法是有一定效果的,特别对于背景都是远景,或者变化不是很大的情况,处理的效果比较好。但是对于前进的图像晃动,效果就不是很理想,留有痕迹,即带有模糊前景。
2)帧间差分法
∣frame(i)-frame(i-1)∣>Th|frame(i)-frame(i-1)|>Th∣frame(i)-frame(i-1)∣>Th,背景就是上一帧图像。每一帧与上一帧进行差分运算。提取效果显然与运动前景对象的速度和帧率有关(帧率指一秒钟有几张图片)。扩展下,建立在统计模型基础上的有选择的背景建模,实际上就是混合高斯法。
该方法存在的问题为:可能出现物体的“空洞现象”,空洞是由于某一大型运动物体,它的两帧之间存在象素十分接近的重合部分,所以导致这部分被差分剪去了。
3)混合高斯法
基于混合高斯模型的自适应背景差分算法,类似于帧间差分法,使用混合高斯分布模型来表征图像帧中每一个像素点的特征,当获取新的图像帧时,适时更新混合高斯分布模型,某一时刻选取混合高斯模型中的一个子集表征当前背景,如果当前图像帧的某个像素点与混合高斯模型的背景子集匹配,则判定为背景,否则判定为前景点。
该方法存在的问题为:背景质量取决于前景物体(如人物)运动速率,如在某一点停留时间过长,则会造成干扰。混合高斯法抽取的背景,因为图中那个人站在原地较长时间,所以留下了阴影。
4)能量分析法
在概念上略为复杂,在连续图像序列看成为有二维空间加上时间构成的三维空间,然后计算每一像点在各个时空梯度上的分量,最后通过高斯滤波平滑这些时空梯度分量得到运动能量。由于运动对象所包含的那些象素点基本上都是朝一个方向运动,国此这一方向上的运动能量较大。运动能量法能够消除杂乱运动的影响,检测出真正的运动对象。该方法存在的问题为:只能大概估计真正运动前景对象的位置,难以精确提取运动对象。
5)光流法
光流法概念源自光流场,当运动物体的影象在表面上的模式运动就是所谓的光流场,是一个二维速度场。而光流法根据连续多帧图像序列,计算各象素点运动的大小和方向,它反映了图像上每一像素点灰度的变化趋势。该方法存在的问题为:计算复杂,往往需要特殊的硬件支持,很难满足实时性要求。
如图4所示,本发明实施例的对视频数据进行背景还原的方法主要包括:
步骤S401:视频关键帧采样。在本发明实施例中,可设定采样阈值为一个常数阈值C,例如为20,这个阈值代表了想要多少关键帧,对一段输入的视频,无论长短,都抽取20帧作为关键帧的集合。具体的,采样的方法采取均衡采样法,先得到视频总帧数T,计算求得抽样视频间隔:Interval=T/C,然后在抽样的时候指定帧号,每隔Interval帧抽取一帧。
步骤S402:用YoloV5目标检测算法进行前景识别。在本发明实施例中,通过YoloV5目标检测算法进行前景识别,在其他实施例中,前景检测的算法可以被其他深度学习算法替代。其中,YoloV5目标检测算法,相对于前一代模型体积减小,目标检测效率有提升。Yolov5在推理阶段,采用缩减黑边的方式,来提高推理的速度。在代码datasets.py的letterbox函数中进行了修改,对原始图像自适应的添加最少的黑边。例如:比如我1000×800的图片不是直接缩放到608×608的大小,而是计算608/1000=0.608然后缩放至608×486的大小,然后计算608-486=122然后np.mod(122,32)取余数得到26,再平均成13填充到图片高度两端,最后是608×512。
对每一个关键帧通过YoloV5目标检测算法检测出前景目标(人,汽车,自行车,摩托车,动物等),并保留相关位置信息,即目标框位置(即位置信息)。在本发明实施例中,该目标框位置包括长,宽,左上和右下角像素点坐标。
步骤S403:随机选择一张关键帧抠掉前景,获得带空洞的背景模板。以及,其他关键帧作为背景库。具体的,在关键帧集合中随机选择一张,抠掉里面的前景目标,得到背景模板M。并将其他的关键帧连同前景目标检测的信息保存形成背景库。
步骤S404:对背景模板的空洞对应位置用背景库图片填补。从背景库中选择一张关键帧B,通过背景模板M被抠掉的位置坐标,在关键帧B中找到相对应的位置,查验B的该位置像素是不是属于前景部分。如果B的该位置像素不是属于前景部分(即属于背景部分),则将该像素点复制到背景模板M上;如果B的该位置像素是属于前景部分,则忽略。
步骤S405:判断背景模板是否填满。如果是,则进行步骤S408,否则进行步骤S406。每一轮迭代完,检测背景模板被抠掉的像素是否全部被填补,如果不是则另外从背景库中挑选下一张关键帧进行下一轮迭代,否则返回已经填好的背景模板。
步骤S406:判断背景库中是否还有剩余关键帧。如果是,返回步骤S404,否则进行步骤S407。如果所有关键帧都跑完,仍然有没有补齐的像素点,则将该像素点取值周围像素点的平均值进行人工填补。
步骤S407:将剩余像素点取值周围像素点的平均值,进行人工填补。
步骤S408:得到一张填补完成的背景还原图片。
本发明实施例只抽取部分关键帧进行计算。计算量大大降低,速度和效率明显提升。这种优势在时间越长的视频中越能体现,具体因为抽取的关键帧仍然是固定的,因此处理时间变化不大,而视频随着时间长度增长帧数增加,处理时间线性增长。以及,因为大部分传统方法处理的背景还原图像质量对于前景的移动速率有强依赖:即在一段视频里,当前景物体比如人物移动速率很慢,或者干脆不动,导致该前景在固定区域占据了大部分的视频帧,此时用传统方法处理出来的效果通常不好,会留下痕迹,导致质量不高。本发明实施例成功克服了现有方法背景还原质量不确定的问题。而且,本发明实施例采取均匀采样的方式,首先保证采样的帧合理分布,即使人物速率很慢,或者背景出现时间很短,只要关键帧里面有一张有对应的背景像素点,就能还原背景图片。因为是直接切片拷贝,所以不存在有痕迹的问题。
图5是根据本发明实施例对视频数据进行背景还原的装置的主要模块的示意图,如图5所示,本发明实施例的对视频数据进行背景还原的装置500包括帧采样模块501、前景检测模块502和背景模块503、填充模块504。
帧采样模块501用于,基于采样阈值,对待处理视频进行关键帧采样,得到关键帧集合;其中,采样阈值小于待处理视频的总帧数。
前景检测模块502用于,对关键帧集合中的每个关键帧进行前景检测,确定出每个关键帧中的前景目标信息。
背景模块503用于,基于前景检测,得到背景模板和背景库;其中,背景模板根据第一帧数据得到,背景库中包括第二帧数据以及其前景目标信息;关键帧集合中包括第一帧数据和第二帧数据。
填充模块504用于,根据背景库中第二帧数据以及其前景目标信息,对背景模板进行背景填充,得到待处理视频的背景还原数据。
根据本发明实施例,由于只是抽取部分关键帧,计算量大大降低,速度和效率明显提升。以及,利用目标检测区分前景和背景,实现在单帧上面的前景背景快速有效分离,并通过多张背景图进行填补从而高效得到还原后的背景环境。
优选的,帧采样模块还用于,获取待处理视频,并确定待处理视频的总帧数;根据总帧数和采样阈值,确定采样间隔;其中,采样阈值小于待处理视频的总帧数;根据采样间隔,对待处理视频进行关键帧采样,得到关键帧集合。
优选的,背景模块还用于,选取关键帧集合中的一个帧数据作为第一帧数据;根据第一帧数据的前景目标信息,对第一帧数据进行前景扣掉处理得到背景模板;将关键帧集合中除第一帧数据以外的第二帧数据以及其前景目标信息,组成背景库。
优选的,填充模块还用于,从背景库的第二帧数据中选取一个帧数据作为迭代帧数据;根据背景模板中被抠掉部分的位置,验证迭代帧数据的相应位置的目标像素点是否属于前景目标;如果不属于,则将目标像素点复制到背景模块;否则,再次从背景库的第二帧数据中选取一个新的帧数据作为迭代帧数据。
优选的,填充模块还用于,在确定背景模板中被抠掉部分的像素点中不存在未被填补的像素点的情况下,判断背景库的第二帧数据是否全部被选取为迭代帧数据。如果是,则根据未被填补像素点的周围像素点,对背景模板进行填补;否则,再次从背景库的第二帧数据中选取一个新的帧数据作为迭代帧数据。
优选的,填充模块还用于,创建迭代帧数据的二值矩阵掩膜;根据二值矩阵掩膜,验证迭代帧数据的相应位置的目标像素点是否属于前景目标。
优选的,前景检测模块,基于深度学习目标检测算法,对关键帧集合中的每个关键帧进行前景目标检测;确定出每个关键帧中的前景目标的位置信息,其中,前景目标信息至少包括前景目标的位置信息。
优选的,位置信息为前景目标的目标框信息;其中目标框信息至少包括长、宽和对角像素点坐标。
不同于现有方法逐帧迭代的本质,本发明实施例只抽取部分关键帧进行计算。计算量大大降低,速度和效率明显提升。这种优势在时间越长的视频中越能体现,具体因为抽取的关键帧仍然是固定的,因此处理时间变化不大,而视频随着时间长度增长帧数增加,处理时间线性增长。以及,因为大部分传统方法处理的背景还原图像质量对于前景的移动速率有强依赖:即在一段视频里,当前景物体比如人物移动速率很慢,或者干脆不动,导致该前景在固定区域占据了大部分的视频帧,此时用传统方法处理出来的效果通常不好,会留下痕迹,导致质量不高。本发明实施例成功克服了现有方法背景还原质量不确定的问题。而且,本发明实施例采取均匀采样的方式,首先保证采样的帧合理分布,即使人物速率很慢,或者背景出现时间很短,只要关键帧里面有一张有对应的背景像素点,就能还原背景图片。因为是直接切片拷贝,所以不存在有痕迹的问题。
图6示出了可以应用本发明实施例的对视频数据进行背景还原的方法或对视频数据进行背景还原的装置的示例性系统架构600。
如图6所示,系统架构600可以包括终端设备601、602、603,网络604和服务器605。网络604用以在终端设备601、602、603和服务器605之间提供通信链路的介质。网络604可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用终端设备601、602、603通过网络604与服务器605交互,以接收或发送消息等。终端设备601、602、603上可以安装有各种通讯客户端应用,例如购物类应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等(仅为示例)。
终端设备601、602、603可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。
服务器605可以是提供各种服务的服务器,例如对用户利用终端设备601、602、603所浏览的购物类网站提供支持的后台管理服务器(仅为示例)。后台管理服务器可以对接收到的产品信息查询请求等数据进行分析等处理,并将处理结果反馈给终端设备。
需要说明的是,本发明实施例所提供的对视频数据进行背景还原的方法一般由服务器605执行,相应地,对视频数据进行背景还原的装置一般设置于服务器605中。
应该理解,图6中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
下面参考图7,其示出了适于用来实现本发明实施例的终端设备的计算机系统700的结构示意图。图7示出的终端设备仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图7所示,计算机系统700包括中央处理单元(CPU)701,其可以根据存储在只读存储器(ROM)702中的程序或者从存储部分708加载到随机访问存储器(RAM)703中的程序而执行各种适当的动作和处理。在RAM 703中,还存储有系统700操作所需的各种程序和数据。CPU 701、ROM 702以及RAM 703通过总线704彼此相连。输入/输出(I/O)接口705也连接至总线704。
以下部件连接至I/O接口705:包括键盘、鼠标等的输入部分706;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分707;包括硬盘等的存储部分708;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分709。通信部分709经由诸如因特网的网络执行通信处理。驱动器710也根据需要连接至I/O接口705。可拆卸介质711,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器710上,以便于从其上读出的计算机程序根据需要被安装入存储部分708。
特别地,根据本发明公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本发明公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分709从网络上被下载和安装,和/或从可拆卸介质711被安装。在该计算机程序被中央处理单元(CPU)701执行时,执行本发明的系统中限定的上述功能。
需要说明的是,本发明所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本发明中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
附图中的流程图和框图,图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本发明实施例中所涉及到的模块可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的模块也可以设置在处理器中,例如,可以描述为:一种处理器包括帧采样模块、前景检测模块、背景模块和填充模块。其中,这些模块的名称在某种情况下并不构成对该模块本身的限定,例如,帧采样模块还可以被描述为“基于采样阈值,对待处理视频进行关键帧采样,得到关键帧集合的模块”。
作为另一方面,本发明还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的设备中所包含的;也可以是单独存在,而未装配入该设备中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被一个该设备执行时,使得该设备包括:基于采样阈值,对待处理视频进行关键帧采样,得到关键帧集合;其中,采样阈值小于待处理视频的总帧数;对关键帧集合中的每个关键帧进行前景检测,确定出每个关键帧中的前景目标信息;基于前景检测,得到背景模板和背景库;其中,背景模板根据第一帧数据得到,背景库中包括第二帧数据以及其前景目标信息;关键帧集合中包括第一帧数据和第二帧数据;根据背景库中第二帧数据以及其前景目标信息,对背景模板进行背景填充,得到待处理视频的背景还原数据。
本发明实施例,只抽取部分关键帧进行计算。计算量大大降低,速度和效率明显提升。这种优势在时间越长的视频中越能体现,具体因为抽取的关键帧仍然是固定的,因此处理时间变化不大,而视频随着时间长度增长帧数增加,处理时间线性增长。以及,因为大部分传统方法处理的背景还原图像质量对于前景的移动速率有强依赖:即在一段视频里,当前景物体比如人物移动速率很慢,或者干脆不动,导致该前景在固定区域占据了大部分的视频帧,此时用传统方法处理出来的效果通常不好,会留下痕迹,导致质量不高。本发明实施例成功克服了现有方法背景还原质量不确定的问题。而且,本发明实施例采取均匀采样的方式,首先保证采样的帧合理分布,即使人物速率很慢,或者背景出现时间很短,只要关键帧里面有一张有对应的背景像素点,就能还原背景图片。因为是直接切片拷贝,所以不存在有痕迹的问题。。
上述具体实施方式,并不构成对本发明保护范围的限制。本领域技术人员应该明白的是,取决于设计要求和其他因素,可以发生各种各样的修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等,均应包含在本发明保护范围之内。
Claims (18)
1.一种对视频数据进行背景还原的方法,其特征在于,包括:
基于采样阈值,对待处理视频进行关键帧采样,得到关键帧集合;其中,所述采样阈值小于所述待处理视频的总帧数;
对所述关键帧集合中的每个关键帧进行前景检测,确定出所述每个关键帧中的前景目标信息;
基于所述前景检测,得到背景模板和背景库;其中,所述背景模板根据第一帧数据得到,所述背景库中包括第二帧数据以及其前景目标信息;所述关键帧集合中包括第一帧数据和第二帧数据;
根据所述背景库中第二帧数据以及其前景目标信息,对所述背景模板进行背景填充,得到所述待处理视频的背景还原数据。
2.根据权利要求1所述的方法,其特征在于,基于设置的采样阈值,对待处理视频进行关键帧采样,得到关键帧集合的步骤,包括:
获取待处理视频,并确定所述待处理视频的总帧数;
根据所述总帧数和采样阈值,确定采样间隔;其中,所述采样阈值小于所述待处理视频的总帧数;
根据所述采样间隔,对所述待处理视频进行关键帧采样,得到关键帧集合。
3.根据权利要求1所述的方法,其特征在于,基于所述前景检测,得到背景模板和背景库的步骤,包括:
选取所述关键帧集合中的一个帧数据作为第一帧数据;
根据所述第一帧数据的前景目标信息,对所述第一帧数据进行前景扣掉处理得到背景模板;
将所述关键帧集合中除第一帧数据以外的第二帧数据以及其前景目标信息,组成背景库。
4.根据权利要求3所述的方法,其特征在于,根据所述背景库中第二帧数据以及其前景目标信息,对所述背景模板进行背景填充的步骤,包括:
从所述背景库的第二帧数据中选取一个帧数据作为迭代帧数据;
根据所述背景模板中被抠掉部分的位置,验证所述迭代帧数据的相应位置的目标像素点是否属于前景目标;
如果不属于,则将所述目标像素点复制到所述背景模块;否则,再次从所述背景库的第二帧数据中选取一个新的帧数据作为迭代帧数据。
5.根据权利要求4所述的方法,其特征在于,在再次从所述背景库的第二帧数据中选取一个新的帧数据作为迭代帧数据之前,还包括:
在确定所述背景模板中被抠掉部分的像素点中不存在未被填补的像素点的情况下,判断所述背景库的第二帧数据是否全部被选取为迭代帧数据;
如果是,则根据所述未被填补像素点的周围像素点,对所述背景模板进行填补;否则,再次从所述背景库的第二帧数据中选取一个新的帧数据作为迭代帧数据。
6.根据权利要求4所述的方法,其特征在于,验证所述迭代帧数据的相应位置的目标像素点是否属于前景目标的步骤,包括:
创建所述迭代帧数据的二值矩阵掩膜;
根据所述二值矩阵掩膜,验证所述迭代帧数据的相应位置的目标像素点是否属于前景目标。
7.根据权利要求1所述的方法,其特征在于,对所述关键帧集合中的每个关键帧进行前景检测,确定出所述每个关键帧中的前景目标信息的步骤,包括:
基于深度学习目标检测算法,对所述关键帧集合中的每个关键帧进行前景目标检测;
确定出所述每个关键帧中的前景目标的位置信息,其中,所述前景目标信息至少包括前景目标的位置信息。
8.根据权利要求1-7任一项所述的方法,其特征在于,所述位置信息为所述前景目标的目标框信息;其中所述目标框信息至少包括长、宽和对角像素点坐标。
9.一种对视频数据进行背景还原的装置,其特征在于,包括:
帧采样模块,用于基于采样阈值,对待处理视频进行关键帧采样,得到关键帧集合;其中,所述采样阈值小于所述待处理视频的总帧数;
前景检测模块,用于对所述关键帧集合中的每个关键帧进行前景检测,确定出所述每个关键帧中的前景目标信息;
背景模块,用于基于所述前景检测,得到背景模板和背景库;其中,所述背景模板根据第一帧数据得到,所述背景库中包括第二帧数据以及其前景目标信息;所述关键帧集合中包括第一帧数据和第二帧数据;
填充模块,用于根据所述背景库中第二帧数据以及其前景目标信息,对所述背景模板进行背景填充,得到所述待处理视频的背景还原数据。
10.根据权利要求9所述的装置,其特征在于,所述帧采样模块还用于,获取待处理视频,并确定所述待处理视频的总帧数;根据所述总帧数和采样阈值,确定采样间隔;其中,所述采样阈值小于所述待处理视频的总帧数;根据所述采样间隔,对所述待处理视频进行关键帧采样,得到关键帧集合。
11.根据权利要求9所述的装置,其特征在于,所述背景模块还用于,选取所述关键帧集合中的一个帧数据作为第一帧数据;根据所述第一帧数据的前景目标信息,对所述第一帧数据进行前景扣掉处理得到背景模板;将所述关键帧集合中除第一帧数据以外的第二帧数据以及其前景目标信息,组成背景库。
12.根据权利要求11所述的装置,其特征在于,所述填充模块还用于,从所述背景库的第二帧数据中选取一个帧数据作为迭代帧数据;根据所述背景模板中被抠掉部分的位置,验证所述迭代帧数据的相应位置的目标像素点是否属于前景目标;如果不属于,则将所述目标像素点复制到所述背景模块;否则,再次从所述背景库的第二帧数据中选取一个新的帧数据作为迭代帧数据。
13.根据权利要求11所述的装置,其特征在于,所述填充模块还用于,在确定所述背景模板中被抠掉部分的像素点中不存在未被填补的像素点的情况下,判断所述背景库的第二帧数据是否全部被选取为迭代帧数据;
如果是,则根据所述未被填补像素点的周围像素点,对所述背景模板进行填补;否则,再次从所述背景库的第二帧数据中选取一个新的帧数据作为迭代帧数据。
14.根据权利要求11所述的装置,其特征在于,所述填充模块还用于,创建所述迭代帧数据的二值矩阵掩膜;根据所述二值矩阵掩膜,验证所述迭代帧数据的相应位置的目标像素点是否属于前景目标。
15.根据权利要求9所述的装置,其特征在于,所述前景检测模块,基于深度学习目标检测算法,对所述关键帧集合中的每个关键帧进行前景目标检测;确定出所述每个关键帧中的前景目标的位置信息,其中,所述前景目标信息至少包括前景目标的位置信息。
16.根据权利要求9-15任一项所述的装置,其特征在于,所述位置信息为所述前景目标的目标框信息;其中所述目标框信息至少包括长、宽和对角像素点坐标。
17.一种电子设备,其特征在于,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-8中任一所述的方法。
18.一种计算机可读介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现如权利要求1-8中任一所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110339807.8A CN113095176A (zh) | 2021-03-30 | 2021-03-30 | 一种对视频数据进行背景还原的方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110339807.8A CN113095176A (zh) | 2021-03-30 | 2021-03-30 | 一种对视频数据进行背景还原的方法和装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113095176A true CN113095176A (zh) | 2021-07-09 |
Family
ID=76670840
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110339807.8A Pending CN113095176A (zh) | 2021-03-30 | 2021-03-30 | 一种对视频数据进行背景还原的方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113095176A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114827714A (zh) * | 2022-04-11 | 2022-07-29 | 咪咕文化科技有限公司 | 基于视频指纹的视频还原方法、终端设备及存储介质 |
-
2021
- 2021-03-30 CN CN202110339807.8A patent/CN113095176A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114827714A (zh) * | 2022-04-11 | 2022-07-29 | 咪咕文化科技有限公司 | 基于视频指纹的视频还原方法、终端设备及存储介质 |
CN114827714B (zh) * | 2022-04-11 | 2023-11-21 | 咪咕文化科技有限公司 | 基于视频指纹的视频还原方法、终端设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11501507B2 (en) | Motion compensation of geometry information | |
US10630956B2 (en) | Image processing method and apparatus | |
CN108596940B (zh) | 一种视频分割方法和装置 | |
US9858483B2 (en) | Background understanding in video data | |
CN107392917B (zh) | 一种基于时空约束的视频显著性检测方法及系统 | |
Butler et al. | Real-time adaptive foreground/background segmentation | |
EP1519343A2 (en) | Method and apparatus for summarizing and indexing the contents of an audio-visual presentation | |
KR101401184B1 (ko) | 동영상의 객체 경계 추정 방법 | |
US9542735B2 (en) | Method and device to compose an image by eliminating one or more moving objects | |
US9639943B1 (en) | Scanning of a handheld object for 3-dimensional reconstruction | |
Nocerino et al. | A smartphone-based 3D pipeline for the creative industry-the replicate EU project | |
Luo et al. | A disocclusion inpainting framework for depth-based view synthesis | |
CN109783680B (zh) | 图像推送方法、图像获取方法、装置及图像处理系统 | |
CN111192312B (zh) | 基于深度学习的深度图像获取方法、装置、设备及介质 | |
CN108509876B (zh) | 针对视频的物体检测方法、装置、设备、存储介质及程序 | |
CN113095176A (zh) | 一种对视频数据进行背景还原的方法和装置 | |
CN107274477B (zh) | 一种基于三维空间表层的背景建模方法 | |
WO2022021287A1 (zh) | 实例分割模型的数据增强方法、训练方法和相关装置 | |
CN108780576B (zh) | 使用对象边界框的视频片段中的重影去除的系统和方法 | |
Iizuka et al. | Efficient depth propagation for constructing a layered depth image from a single image | |
CN113766117A (zh) | 一种视频去抖动方法和装置 | |
CN112991419B (zh) | 视差数据生成方法、装置、计算机设备及存储介质 | |
Ma et al. | Automatic video object segmentation using depth information and an active contour model | |
CN110634155A (zh) | 一种基于深度学习的目标检测方法和装置 | |
Morerio et al. | Optimizing superpixel clustering for real-time egocentric-vision applications |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |