CN113810692B - 对变化和移动进行分帧的方法、图像处理装置及程序产品 - Google Patents
对变化和移动进行分帧的方法、图像处理装置及程序产品 Download PDFInfo
- Publication number
- CN113810692B CN113810692B CN202110663346.XA CN202110663346A CN113810692B CN 113810692 B CN113810692 B CN 113810692B CN 202110663346 A CN202110663346 A CN 202110663346A CN 113810692 B CN113810692 B CN 113810692B
- Authority
- CN
- China
- Prior art keywords
- video image
- bitmap
- block
- pixel locations
- nxn
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 54
- 230000033001 locomotion Effects 0.000 title claims abstract description 24
- 238000009432 framing Methods 0.000 title claims abstract description 8
- 230000008859 change Effects 0.000 claims abstract description 26
- 230000008569 process Effects 0.000 claims abstract description 26
- 230000010339 dilation Effects 0.000 claims abstract description 8
- 238000001514 detection method Methods 0.000 claims description 21
- 230000003628 erosive effect Effects 0.000 claims description 14
- 238000004590 computer program Methods 0.000 claims description 5
- 238000010586 diagram Methods 0.000 description 6
- 239000011159 matrix material Substances 0.000 description 5
- 230000005540 biological transmission Effects 0.000 description 4
- 238000004891 communication Methods 0.000 description 4
- 239000002131 composite material Substances 0.000 description 2
- 230000006835 compression Effects 0.000 description 2
- 238000007906 compression Methods 0.000 description 2
- 230000004913 activation Effects 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000001934 delay Effects 0.000 description 1
- 238000003708 edge detection Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000004049 embossing Methods 0.000 description 1
- 230000001815 facial effect Effects 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/50—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
- H04N19/503—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
- H04N19/51—Motion estimation or motion compensation
- H04N19/547—Motion estimation performed in a transform domain
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/85—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using pre-processing or post-processing specially adapted for video compression
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/102—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
- H04N19/119—Adaptive subdivision aspects, e.g. subdivision of a picture into rectangular or non-rectangular coding blocks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/20—Image enhancement or restoration using local operators
- G06T5/30—Erosion or dilatation, e.g. thinning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/11—Region-based segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/155—Segmentation; Edge detection involving morphological operators
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/194—Segmentation; Edge detection involving foreground-background segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
- G06T7/246—Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
- G06T7/248—Analysis of motion using feature-based methods, e.g. the tracking of corners or segments involving reference images or patches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
- G06T7/254—Analysis of motion involving subtraction of images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
- G06T7/262—Analysis of motion using transform domain methods, e.g. Fourier domain methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/34—Smoothing or thinning of the pattern; Morphological operations; Skeletonisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/50—Extraction of image or video features by performing operations within image blocks; by using histograms, e.g. histogram of oriented gradients [HoG]; by summing image-intensity values; Projection analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/161—Detection; Localisation; Normalisation
- G06V40/167—Detection; Localisation; Normalisation using comparisons between temporally consecutive images
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/102—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
- H04N19/132—Sampling, masking or truncation of coding units, e.g. adaptive resampling, frame skipping, frame interpolation or high-frequency transform coefficient masking
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/169—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/169—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
- H04N19/17—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/20—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using video object coding
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/48—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using compressed domain processing techniques other than decoding, e.g. modification of transform coefficients, variable length coding [VLC] data or run-length data
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/60—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding
- H04N19/625—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding using discrete cosine transform [DCT]
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N7/00—Television systems
- H04N7/14—Systems for two-way working
- H04N7/141—Systems for two-way working between two video terminals, e.g. videophone
- H04N7/147—Communication arrangements, e.g. identifying the communication as a video-communication, intermediate storage of the signals
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10016—Video; Image sequence
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20021—Dividing image into blocks, subimages or windows
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20048—Transform domain processing
- G06T2207/20052—Discrete cosine transform [DCT]
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Signal Processing (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Health & Medical Sciences (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Human Computer Interaction (AREA)
- General Health & Medical Sciences (AREA)
- Discrete Mathematics (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
- Train Traffic Observation, Control, And Security (AREA)
Abstract
本发明涉及对变化和移动进行分帧的方法、图像处理装置及程序产品。该方法包括通过对像素位置的每个N×N块进行DCT变换来计算视频图像的第一位图,当大于变化量时,将第一二进制值分配给N×N块的像素位置,并且当小于变化量时,将第二二进制值分配给N×N块的像素位置。通过表示视频图像的过去时间帧的多个位图之间的或运算来计算第三位图,通过执行表示视频图像的当前时间帧的第三位图的膨胀处理来计算第四位图,并且基于检测第四位图中的BLOB(二进制大对象)创建识别视频图像中的变化和移动的区域的一个或多个帧。
Description
技术领域
本发明涉及检测视频流中的变化和移动对象以识别受关注的区域。
背景技术
移动图像的实时传输被用于若干应用,例如视频会议、网络会议和视频电话。
然而,表示移动图像需要大量信息,因为数字视频通常由每秒多达60张图片表示,每张图片由大量像素表示,这些像素进而由至少一个字节的数字数据表示。这样的未压缩的视频数据导致大数据量,并且不能通过常规的通信网络和传输线实时传输,因为这将需要不切实际的高网络带宽。
因此,实时视频传输视频压缩,其中,主要目标是用尽可能少的位来表示视频信息,引入尽可能低的延迟,并且不会过多地损害视频质量。
MPEG*、H.26*和VP*标准中描述了最常见的视频编码方法。视频数据在传输之前进行四个主要处理,即预测、变换、量化和熵编码。
预测处理显著减小了要传送的视频序列中的每张图片所需的位量。它利用序列的部分与序列的其他部分的相似性。由于预测器部分对编码器和解码器两者都是已知的,因此仅需传送序列之间的差异。这种差异通常需要更少的容量来表示,并且通常被称为残差。表示为数据块(例如,8×8像素)的残差仍然包含内部相关性。利用这一点的公知方法是执行二维块变换。VP9协议使用8×8整数DCT(离散余弦变换)变换。这将8×8像素变换为通常可以由比像素表示更少的位来表示的8×8变换系数。
具有内部相关性的8×8像素阵列的变换将可能导致具有比原始8×8像素块少得多的非零值的8×8变换系数块。
视频会议不断引入新特征以增加用户体验,并且提取大数据和统计数据以支持机器学习。一个这样的特征是自适应合成(AD)。这是视频会议中多视图的复合布局,其在屏幕上创建更干净、更平衡的用户界面,减少单个视频源的混排。例如,在AD中,具有检测到的最多人数的视图将倾向于被放置在屏幕的上部。这需要在每个视图中进行某种面部检测或面部计数。面部检测在处理器使用和时间消耗方面是相对昂贵的处理,因为像眼睛和头部形状的面部特征应在陈述视图中存在面部之前被识别。在实时通信中,这可能引入不可接受的延迟并且占用许多可用的处理器容量。
因此,需要一种减小实时视频通信中面部检测的处理器和时间消耗而不损害面部检测精度的方法。
发明内容
鉴于上述,本发明的目的是克服或至少减轻现有技术视频会议系统的缺点。
在第一方面,本发明提供一种对被划分为N×N块的像素位置的视频图像中的变化和移动进行分帧的方法。该方法包括:通过对像素位置的每个N×N块进行DCT(离散余弦变换)变换来计算表示视频图像的当前时间帧的第一位图,通过将二进制值中的第一二进制值分配给被认为具有大于预定变化量的N×N块的像素位置,并且将二进制值中的第二二进制值分配给被认为具有小于预定变化量的N×N块的像素位置来确定相应N×N块中的变化程度;通过对表示视频图像的过去时间帧的多个第一位图执行或(OR)运算来计算表示视频图像的当前时间帧的第三位图;通过执行表示视频图像的当前时间帧的第三位图的膨胀处理来计算表示视频图像的当前时间帧的第四位图;并且基于检测第四位图中的BLOB(二进制大对象)创建识别视频图像中的变化和移动的区域的一个或多个帧。
与常规面部检测处理相比,到达帧的计算成本极低,因为仅使用了表示视频图像的位图。
该方法可以进一步包括附加步骤:通过执行表示视频图像的当前时间帧的第一位图的侵蚀处理来计算表示视频图像的当前时间帧的第二位图,并且通过对表示视频图像的过去时间帧的多个第一位图执行或运算来计算第三位图的步骤通过对表示视频图像的过去时间帧的多个第二位图执行或运算来执行。
侵蚀处理可以包括在第一位图与以下第一内核之间执行卷积:
0,1,0,
1,1,1,
0,1,0。
计算第一位图的步骤可以进一步包括:计算视频图像中的N×N维块中的每一个的DCT系数;将N×N块的DCT系数中的每一个DCT系数与预定第一阈值进行比较;如果N×N块的所有或基本上所有DCT系数低于预定第一阈值,则相应N×N块的像素位置被分配给二进制值中的第二二进制值“0”;如果N×N块的所有或基本上所有DCT系数不低于预定第一阈值,则相应N×N块的像素位置被分配给二进制值中的第一二进制值“1”。
膨胀处理可以包括在第三位图与以下第二内核之间执行卷积:
1,1,1,1,1,1,1,
1,1,1,1,1,1,1,
1,1,1,1,1,1,1,
1,1,1,1,1,1,1,
1,1,1,1,1,1,1,
1,1,1,1,1,1,1,
1,1,1,1,1,1,1。
在一实施例中,N=8。
在一个实施例中,表示过去时间帧的第一位图的数量可以是30。
创建识别变化和移动的区域的一个或多个帧的步骤可以包括提取每个所检测到的BLOB的相应左下像素位置和右上像素位置。
在第二方面,本发明提供一种图像处理装置,用于对被划分为N×N块像素位置的视频图像中的变化和移动进行分帧,该图像处理装置包括:至少一个处理器、适于接收视频图像的输入/输出电路、至少一个存储器,该存储器包括指令,当由至少一个处理器执行时,该指令使图像处理装置:通过对像素位置的每个N×N块进行DCT变换来计算表示视频图像的当前时间帧的第一位图,通过将二进制值中的第一二进制值分配给被认为具有大于预定变化量的N×N块的像素位置,并且将二进制值中的第二二进制值分配给被认为具有小于预定变化量的N×N块的像素位置来确定相应N×N块中的变化程度;通过对表示视频图像的过去时间帧的多个第一位图执行或运算来计算表示视频图像的当前时间帧的第三位图;通过执行表示视频图像的当前时间帧的第三位图的膨胀处理来计算表示视频图像的当前时间帧的第四位图;并且基于检测第四位图中的BLOB(二进制大对象)创建识别视频图像中的变化和移动的区域的一个或多个帧。
与执行常规面部检测处理的图像处理装置相比,到达帧的计算成本极低,因为仅使用了表示视频图像的位图。
当由至少一个处理器执行时,该指令可以进一步使图像处理装置执行以下附加步骤:通过执行表示视频图像的当前时间帧的第一位图的侵蚀处理来计算表示视频图像的当前时间帧的第二位图,并且通过对表示视频图像的过去时间帧的多个第一位图执行或运算来计算第三位图的步骤通过对表示视频图像的过去时间帧的多个第二位图执行或运算来执行。
侵蚀处理可以包括在第一位图与以下第一内核之间执行卷积:
0,1,0,
1,1,1,
0,1,0。
计算第一位图可以进一步包括:计算视频图像中的N×N维块中的每一个的DCT系数,将N×N块的DCT系数中的每一个DCT系数与预定第一阈值进行比较;如果N×N块的所有或基本上所有DCT系数低于预定第一阈值,则相应N×N块的像素位置被分配给二进制值中的第二二进制值“0”;如果N×N块的所有或基本上所有DCT系数不低于预定第一阈值,则相应N×N块的像素位置被分配给二进制值中的第一二进制值“1”。
膨胀处理可以包括在第三位图与以下第二内核之间执行卷积:
1,1,1,1,1,1,1,
1,1,1,1,1,1,1,
1,1,1,1,1,1,1,
1,1,1,1,1,1,1,
1,1,1,1,1,1,1,
1,1,1,1,1,1,1,
1,1,1,1,1,1,1。
在一实施例中,N=8。
在一个实施例中,表示过去时间帧的第一位图的数量可以是30。
创建识别变化和移动的区域的一个或多个帧可以包括提取每个所检测到的BLOB的相应左下像素位置和右上像素位置。
在第三方面,本发明提供一种包括非暂时性计算机可读存储介质的计算机程序产品,该非暂时性计算机可读存储介质包括指令,当在图像处理装置中的处理器上执行时,该指令使得图像处理装置能够执行第一方面的方法的步骤。
附图说明
图1是处理视频图像的方法步骤的示意图。
图2是处理视频图像的一个方法步骤的示意图。
图3是处理视频图像的一个方法步骤的示意图。
图4是处理视频图像的一个方法步骤的示意图。
图5是处理视频图像的一个方法步骤的示意图。
图6是图像处理装置的示意图。
具体实施方式
根据本文公开的本发明的实施例,消除或至少减轻了根据现有技术的解决方案的上述缺点。
根据本发明的一些方面,提供一种识别视频流中的视图内可能经受面部检测或面部检测更新的受关注区域的逐步方法。它基于识别图像中的实质性移动和变化。
第一步利用常规视频压缩中的现有技术来识别可以在编码和解码处理中“跳过”的块,因为基本上不存在变化。
如已经指示的,要编码的视频内容的一个特性是描述每个序列的位要求强烈变化。对于若干应用,对于所属领域技术人员公知的是,图片的相当一部分的内容逐帧不变。
H.264/H.265和VP9拓宽了该定义,使得具有恒定运动的图片部分也可以在不使用附加信息的情况下被编码。逐帧变化很小或没有变化的区域需要最小数量的位来表示。包括在逐帧变化很小或没有变化的区域中的块被定义为“跳过”或处于“跳过模式”,反映相对于对应的先前块没有变化或仅可预测运动发生。除了块将被解码为“跳过”的指示之外,不需要数据用于表示这些块。该指示对于若干宏块可能是共同的。
本发明通过计算图片中的N×N维块中的每一个的DCT(离散余弦变换)系数并且将N×N块的DCT系数中的每一个DCT系数与预定第一阈值进行比较来利用这一点。如果N×N块的所有DCT系数低于预定第一阈值,则相应N×N块被分配“0”。如果N×N块的所有DCT系数不低于预定第一阈值,则相应N×N块被分配“1”。分配可以是其他方式,但是结果在任一情况下都是图片的二进制表示,示出存在变化的地方,并且因此在图片中可能存在或仅存在移动的地方。
由早期跳过DCT变换产生的该二进制表示倾向于为位噪声,并且包括可能不期望的高频分量。根据本发明的各方面,这是通过使用卷积矩阵来调整的。在图像处理中,内核、卷积矩阵或掩模是用于模糊、锐化、压花、边缘检测等的小矩阵。可以通过在内核与图像或类似图像的内容之间进行卷积来减小噪声和可能的高频分量。卷积是将图像的每个元素添加到由内核加权的其局部邻居(local neighbors)的处理。这与数学卷积的形式相关。尽管类似地用“*”表示,但是正在执行的矩阵运算-卷积-不是传统的矩阵乘法。
在根据本发明的各方面的第二步骤中,由早期跳过DCT表示产生的二进制表示与被调整以侵蚀内容的内核进行卷积,以便去除二进制早期跳过表示的一些噪声和可能不期望的空间高频分量。侵蚀内核将通过实际计算由内核覆盖的区域上的局部最小值来实现这一点。作为示例,如果早期跳过DCT表示中的零是黑色的,并且非零是白色的,则侵蚀内核将导致白色区域变薄且变小,并且黑色区域变大。
到目前为止,已经在单个视频帧级别上讨论了本发明,其中,变化是相对于先前帧或参考帧的。然而,受关注图片中的移动应反映某一段时间内的变化,而不仅是变化的快照,以减少时间维度中闪烁的高频分量。因此,在第三步骤中,侵蚀操作的结果在时间上组合一定数量的帧。帧的数量应足够大以减小高频,但是同时足够小以避免不期望的历史变化的“故事”。被侵蚀的帧的数量可以例如进行或运算以在预定时间窗口中创建期望的变化组合。
在上面讨论的操作之后得到的位图仍然可以以碎片的方式表示移动对象,即,通过由不连续的狭窄路径分隔的若干相邻区域。相反,所需要的结果将是尽可能连贯地表示的移动对象,以便能够围绕经受例如面部检测的候选区域创建最佳可能的匹配帧。
在本发明的某些方面,执行膨胀步骤。与上面讨论的去除对象边界上的像素的侵蚀相反,位图的膨胀将像素添加到图像中对象的边界。具体地,位图与被调整以膨胀内容的内核进行卷积,以便拼接表示一个移动对象的可能分离的片段。通过该处理添加的像素的数量取决于所选择的内核的大小和形状,但是为了实现期望的结果,发明人已经意识到膨胀内核相对于侵蚀内核应当较大。
为了实际识别位图中得到的移动对象,执行所谓的BLOB(二进制大对象)检测步骤。在图像处理中,BLOB检测是指旨在检测图像中与图像周围区域相比在亮度或颜色等属性上不同的点和/或区域的模块。
在已经检测到BLOB之后,由每个所检测到的BLOB的相应最小和最大水平像素位置和垂直像素位置来限定所假设的移动对象的帧。
现在转到根据本发明的各方面的示例,图1是视频图像的快照,其中,两个帧指示用于面部检测的受关注区域。使用上面讨论的用于变化识别和移动检测的方法来找到帧。可以看出,帧包围了图像中的两个面部。面部检测处理被排除在除了帧内之外的所有其他区域,导致处理能力和延迟的显著降低。在如上所述对受关注区域进行分帧之后,由于有限的搜索区域,常规的面部检测处理将或多或少地立即实现面部命中。另一方面,导致找到受关注的分帧区域的计算需要很少的处理,因为它仅处理图像的位图表示。
图2至图5是表示在图1的图片中检测移动的不同步骤的位图的图示。
在图2中,视频图像已经经受了上面讨论的早期跳过DCT变换。具有低于(或可能等于)预定第一阈值的DCT系数的块中的像素是黑色的,并且具有高于(或可能等于)预定第一阈值的DCT系数的块中的像素是白色的。可以看出,所得到的第一位图是图像中两个移动肖像的轮廓。
图3中示出了第二位图,其示出了根据第二步骤的以上讨论,第一位图经受侵蚀的结果。具体地,第一位图已经与以下第一内核进行卷积:
可以看出,所得到的第二位图是第一位图的精简版本,仅维持第一位图的空间低频内容。
图4示出了根据上面讨论的第三步骤的由表示对应的三十个最新视频帧的三十个最新第二位图的或处理得到的第三位图。所得到的第三位图表示以30fps(帧/秒)在1秒时间窗口上的组合变化。
图5示出了如上所讨论的第三位图的膨胀步骤的结果。具体地,第三位图已经与以下第二个内核进行卷积:
可以看出,可能构成一个移动对象的分离对象已经被拼接在一起。
最后,执行根据上面讨论的BLOB检测步骤的BLOB,提取每个所检测到的BLOB的相应左下LB像素位置和右上RT像素位置,从而得到图1所示的帧。
与常规的面部检测处理相比,到达帧的计算成本极低,因为仅使用了表示视频图像的位图。由于不太可能发生帧外部的区域中的移动或变化,因此由于清醒和活着的人的面部永远不会完全静止的事实,也不太可能有存在于帧外部的面部。因此,要经受高成本面部检测算法的区域被限制在帧内,从而导致处理器和时间使用方面的巨大增益,这在实时视频通信中尤其重要。
通过存储已经检测到面部的先前区域,可以更多地限制受关注的区域。然后,这些区域中的新面部检测在已经被检测之后的至少一定时间内将是多余的。
此外,本发明还可以用于检测和分帧手势,诸如手部移动。然后,所检测到的手势可以用作活动的指示,其再次可以改变视频图像在复合视频图片中的位置作为语音激活的替代方案。
现在转到图6,示意性示出了图像处理装置600。图像处理装置600包括输入/输出电路606、至少一个处理器602和存储器604。存储器604包含可由处理器602执行的指令,使图像处理装置600:
-通过对像素位置的每个N×N块进行DCT变换来计算表示视频图像的当前时间帧的第一位图,通过将二进制值中的第一二进制值分配给被认为具有大于预定变化量的N×N块的像素位置,并且将二进制值中的第二二进制值分配给被认为具有小于预定变化量的N×N块的像素位置来确定相应N×N块中的变化程度;
-通过在表示视频图像的过去时间帧的多个第一位图之间执行或运算来计算表示当前视频图像的第三位图;
-通过执行表示当前视频时间帧的第三位图的膨胀处理来计算表示当前视频时间帧的第四位图;并且
-基于检测第四位图中的BLOB(二进制大对象)创建识别视频图像中的变化和移动的区域的一个或多个帧。
可由处理器602执行的指令可以是计算机程序641形式的软件。计算机程序641可以包含在载体642中或由载体642包含,该载体642可以将计算机程序641提供给存储器604和处理器602。载体642可以是任何合适的形式,包括电信号、光信号、无线电信号或计算机可读存储介质。
在前面的描述中,已经参考说明性实施例描述了根据本发明的方法和成像处理装置的各个方面。出于说明的目的,阐述了具体的数字、系统和配置以便提供对系统及其工作的透彻理解。然而,该描述不旨在以限制性意义来解释。对于所公开的主题所属领域的技术人员来说显而易见的说明性实施例的各种修改和变化以及方法和图像处理装置的其他实施例被认为落入本发明的范围内。
Claims (11)
1.一种对被划分为N×N块的像素位置的视频图像中的所述N×N块的所述像素位置的变化和移动进行分帧的方法,所述方法包括:
通过对所述像素位置的每个N×N块进行离散余弦变换DCT变换来计算表示所述视频图像的当前时间帧的第一位图,所述DCT变换通过将二进制值中的第一二进制值分配给被认为具有大于预定变化量的所述N×N块的所述像素位置,并且将所述二进制值中的第二二进制值分配给被认为具有小于预定变化量的所述N×N块的所述像素位置来确定相应N×N块中的变化程度;
通过执行表示所述视频图像的所述当前时间帧的所述第一位图的侵蚀处理来计算表示所述视频图像的所述当前时间帧的第二位图,
通过对表示所述视频图像的过去时间帧的多个第二位图执行或运算来计算表示所述视频图像的所述当前时间帧的第三位图,其中,表示所述过去时间帧的第一位图的数量是30,所述过去时间帧是所述当前时间帧对应的30个最新视频帧;
通过执行表示所述视频图像的所述当前时间帧的所述第三位图的膨胀处理来计算表示所述视频图像的所述当前时间帧的第四位图;以及
基于检测所述第四位图中的二进制大对象BLOB创建识别所述视频图像中的所述N×N块的所述像素位置的变化和移动的区域的一个或多个帧,
其中,BLOB检测用于检测所述视频图像中与所述视频图像周围区域相比在亮度或颜色属性上不同的点和/或区域,
并且其中,创建识别所述视频图像中的所述N×N块的所述像素位置的变化和移动的区域的一个或多个帧的步骤包括提取每个所检测到的BLOB的相应左下(LB)像素位置和右上(RT)像素位置。
2.根据权利要求1所述的方法,其中,所述侵蚀处理包括在所述第一位图与以下第一内核之间执行卷积:
0,1,0,
1,1,1,
0,1,0。
3.根据权利要求1所述的方法,其中,计算所述第一位图的步骤进一步包括:
计算所述视频图像中的N×N维块中的每一个的DCT系数;
将所述N×N块的所述DCT系数中的每一个DCT系数与预定第一阈值进行比较;
如果所述N×N块的所有DCT系数低于所述预定第一阈值,则所述相应N×N块的所述像素位置被分配给所述二进制值中的所述第二二进制值“0”;
如果所述N×N块的所有DCT系数不低于所述预定第一阈值,则所述相应N×N块的所述像素位置被分配给所述二进制值中的所述第一二进制值“1”。
4.根据权利要求1所述的方法,其中,所述膨胀处理包括在所述第三位图与以下第二内核之间执行卷积:
1,1,1,1,1,1,1,
1,1,1,1,1,1,1,
1,1,1,1,1,1,1,
1,1,1,1,1,1,1,
1,1,1,1,1,1,1,
1,1,1,1,1,1,1,
1,1,1,1,1,1,1。
5.根据权利要求1所述的方法,其中,N=8。
6.一种图像处理装置,用于对被划分为N×N块的像素位置的视频图像中的所述N×N块的所述像素位置的变化和移动进行分帧,所述图像处理装置包括:
至少一个处理器;
输入/输出电路,适于接收所述视频图像;
至少一个存储器;
所述存储器包括指令,当由所述至少一个处理器执行时,所述指令使所述图像处理装置:
通过对所述像素位置的每个N×N进行DCT变换来计算表示所述视频图像的当前时间帧的第一位图,所述DCT变换通过将二进制值中的第一二进制值分配给被认为具有大于预定变化量的所述N×N块的所述像素位置,并且将所述二进制值中的第二二进制值分配给被认为具有小于预定变化量的所述N×N块的所述像素位置来确定相应N×N块中的变化程度;
通过执行表示所述视频图像的所述当前时间帧的所述第一位图的侵蚀处理来计算表示所述视频图像的所述当前时间帧的第二位图,
通过对表示所述视频图像的过去时间帧的多个第二位图执行或运算来计算表示所述视频图像的所述当前时间帧的第三位图,其中,表示所述过去时间帧的第一位图的数量是30,所述过去时间帧是所述当前时间帧对应的30个最新视频帧;
通过执行表示所述视频图像的所述当前时间帧的所述第三位图的膨胀处理来计算表示所述视频图像的所述当前时间帧的第四位图;以及
基于检测所述第四位图中的二进制大对象BLOB创建识别所述视频图像中的所述N×N块的所述像素位置的变化和移动的区域的一个或多个帧,
其中,BLOB检测用于检测所述视频图像中与所述视频图像周围区域相比在亮度或颜色属性上不同的点和/或区域,
并且其中,创建识别所述视频图像中的所述N×N块的所述像素位置的变化和移动的区域的一个或多个帧的步骤包括提取每个所检测到的BLOB的相应左下(LB)像素位置和右上(RT)像素位置。
7.根据权利要求6所述的图像处理装置,其中,所述侵蚀处理包括在所述第一位图与以下第一内核之间执行卷积:
0,1,0,
1,1,1,
0,1,0。
8.根据权利要求6所述的图像处理装置,其中,计算所述第一位图的步骤进一步包括:
计算所述视频图像中的N×N维块中的每一个的DCT系数;
将所述N×N块的所述DCT系数中的每一个DCT系数与预定第一阈值进行比较;
如果所述N×N块的所有DCT系数低于所述预定第一阈值,则所述相应N×N块的所述像素位置被分配给所述二进制值中的所述第二二进制值“0”;
如果所述N×N块的所有DCT系数不低于所述预定第一阈值,则所述相应N×N块的所述像素位置被分配给所述二进制值中的所述第一二进制值“1”。
9.根据权利要求6所述的图像处理装置,其中,所述膨胀处理包括在所述第三位图与以下第二内核之间执行卷积:
1,1,1,1,1,1,1,
1,1,1,1,1,1,1,
1,1,1,1,1,1,1,
1,1,1,1,1,1,1,
1,1,1,1,1,1,1,
1,1,1,1,1,1,1,
1,1,1,1,1,1,1。
10.根据权利要求6所述的图像处理装置,其中,N=8。
11.一种包括非暂时性计算机可读存储介质的计算机程序产品,所述非暂时性计算机可读存储介质包括指令,当在图像处理装置中的处理器上执行时,所述指令使得所述图像处理装置能够执行根据权利要求1至5中任一项所述的方法的步骤。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
NO20200708 | 2020-06-17 | ||
NO20200708A NO346137B1 (en) | 2020-06-17 | 2020-06-17 | Method, computer program and system for detecting changes and moving objects in a video view |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113810692A CN113810692A (zh) | 2021-12-17 |
CN113810692B true CN113810692B (zh) | 2024-05-10 |
Family
ID=72560885
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110663346.XA Active CN113810692B (zh) | 2020-06-17 | 2021-06-15 | 对变化和移动进行分帧的方法、图像处理装置及程序产品 |
Country Status (4)
Country | Link |
---|---|
US (1) | US11538169B2 (zh) |
EP (1) | EP3926584A1 (zh) |
CN (1) | CN113810692B (zh) |
NO (1) | NO346137B1 (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114640753B (zh) * | 2022-04-01 | 2023-10-27 | 北京市疾病预防控制中心 | 基于实验视频处理的线虫咽泵运动频率自动识别方法 |
Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE3875583D1 (de) * | 1987-05-06 | 1992-12-03 | British Telecomm | Videobildverarbeitung. |
CN1175852A (zh) * | 1996-08-30 | 1998-03-11 | 大宇电子株式会社 | 对解码视频图象的量化误差进行补偿的方法及装置 |
WO1999023600A1 (en) * | 1997-11-04 | 1999-05-14 | The Trustees Of Columbia University In The City Of New York | Video signal face region detection |
US6176819B1 (en) * | 1997-12-19 | 2001-01-23 | Boegli-Gravures S.A. | Device and method for embossing a foil |
CN1519768A (zh) * | 2003-01-30 | 2004-08-11 | ���ǵ�����ʽ���� | 用于校正图像中的对象歪斜的方法和装置 |
CN101563925A (zh) * | 2006-12-22 | 2009-10-21 | 高通股份有限公司 | 解码器侧关注区视频处理 |
CN102158711A (zh) * | 2005-01-14 | 2011-08-17 | 微软公司 | 重叠双正交变换的可逆二维前置/后置滤波方法 |
CN102799871A (zh) * | 2012-07-13 | 2012-11-28 | Tcl集团股份有限公司 | 一种人脸跟踪识别的方法 |
CN102948147A (zh) * | 2010-06-17 | 2013-02-27 | 微软公司 | 基于变换系数直方图的视频速率控制 |
CN107079155A (zh) * | 2014-03-25 | 2017-08-18 | 云巅控股有限公司 | 视频内容分类 |
CN108388885A (zh) * | 2018-03-16 | 2018-08-10 | 南京邮电大学 | 面向大型直播场景的多人特写实时识别与自动截图方法 |
CN109766898A (zh) * | 2018-12-26 | 2019-05-17 | 平安科技(深圳)有限公司 | 图像文字识别方法、装置、计算机设备及存储介质 |
NO344797B1 (en) * | 2019-06-20 | 2020-05-04 | Pexip AS | Early intra coding decision |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7421727B2 (en) * | 2003-02-14 | 2008-09-02 | Canon Kabushiki Kaisha | Motion detecting system, motion detecting method, motion detecting apparatus, and program for implementing the method |
CN101371274B (zh) * | 2005-12-30 | 2012-09-19 | 意大利电信股份公司 | 视频序列的分割中的边缘比较 |
WO2010080687A1 (en) * | 2009-01-09 | 2010-07-15 | Thomson Licensing | Method and apparatus for detecting and separating objects of interest in soccer video by color segmentation and shape analysis |
US8830339B2 (en) * | 2009-04-15 | 2014-09-09 | Qualcomm Incorporated | Auto-triggered fast frame rate digital video recording |
NO330107B1 (no) * | 2009-07-09 | 2011-02-21 | Tandberg Telecom As | Datamaskinimplementert tidlig dropping |
US9251416B2 (en) * | 2013-11-19 | 2016-02-02 | Xerox Corporation | Time scale adaptive motion detection |
US9584814B2 (en) * | 2014-05-15 | 2017-02-28 | Intel Corporation | Content adaptive background foreground segmentation for video coding |
US10223590B2 (en) * | 2016-08-01 | 2019-03-05 | Qualcomm Incorporated | Methods and systems of performing adaptive morphology operations in video analytics |
US10282617B2 (en) * | 2017-03-28 | 2019-05-07 | Qualcomm Incorporated | Methods and systems for performing sleeping object detection and tracking in video analytics |
US10489897B2 (en) * | 2017-05-01 | 2019-11-26 | Gopro, Inc. | Apparatus and methods for artifact detection and removal using frame interpolation techniques |
-
2020
- 2020-06-17 NO NO20200708A patent/NO346137B1/no unknown
-
2021
- 2021-06-02 EP EP21177482.3A patent/EP3926584A1/en active Pending
- 2021-06-15 CN CN202110663346.XA patent/CN113810692B/zh active Active
- 2021-06-16 US US17/349,252 patent/US11538169B2/en active Active
Patent Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE3875583D1 (de) * | 1987-05-06 | 1992-12-03 | British Telecomm | Videobildverarbeitung. |
CN1175852A (zh) * | 1996-08-30 | 1998-03-11 | 大宇电子株式会社 | 对解码视频图象的量化误差进行补偿的方法及装置 |
WO1999023600A1 (en) * | 1997-11-04 | 1999-05-14 | The Trustees Of Columbia University In The City Of New York | Video signal face region detection |
US6176819B1 (en) * | 1997-12-19 | 2001-01-23 | Boegli-Gravures S.A. | Device and method for embossing a foil |
CN1519768A (zh) * | 2003-01-30 | 2004-08-11 | ���ǵ�����ʽ���� | 用于校正图像中的对象歪斜的方法和装置 |
CN102158711A (zh) * | 2005-01-14 | 2011-08-17 | 微软公司 | 重叠双正交变换的可逆二维前置/后置滤波方法 |
CN101563925A (zh) * | 2006-12-22 | 2009-10-21 | 高通股份有限公司 | 解码器侧关注区视频处理 |
CN102948147A (zh) * | 2010-06-17 | 2013-02-27 | 微软公司 | 基于变换系数直方图的视频速率控制 |
CN102799871A (zh) * | 2012-07-13 | 2012-11-28 | Tcl集团股份有限公司 | 一种人脸跟踪识别的方法 |
CN107079155A (zh) * | 2014-03-25 | 2017-08-18 | 云巅控股有限公司 | 视频内容分类 |
CN108388885A (zh) * | 2018-03-16 | 2018-08-10 | 南京邮电大学 | 面向大型直播场景的多人特写实时识别与自动截图方法 |
CN109766898A (zh) * | 2018-12-26 | 2019-05-17 | 平安科技(深圳)有限公司 | 图像文字识别方法、装置、计算机设备及存储介质 |
NO344797B1 (en) * | 2019-06-20 | 2020-05-04 | Pexip AS | Early intra coding decision |
Non-Patent Citations (2)
Title |
---|
Cong Jie Ng,et al.DCTNet: A simple learning-free approach for face recognition.《2015 Asia-Pacific Signal and Information Processing Association Annual Summit and Conference (APSIPA)》.2016,全文. * |
面向Android平台的人脸检测算法的优化设计;陈琳琳;《中国优秀硕士学位论文全文数据库 (信息科技辑)》;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN113810692A (zh) | 2021-12-17 |
US11538169B2 (en) | 2022-12-27 |
EP3926584A1 (en) | 2021-12-22 |
US20220012857A1 (en) | 2022-01-13 |
NO20200708A1 (en) | 2021-12-20 |
NO346137B1 (en) | 2022-03-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP2135457B1 (en) | Real-time face detection | |
US9602819B2 (en) | Display quality in a variable resolution video coder/decoder system | |
US10887614B2 (en) | Adaptive thresholding for computer vision on low bitrate compressed video streams | |
JP4001400B2 (ja) | 動きベクトル検出方法及び動きベクトル検出装置 | |
US6281942B1 (en) | Spatial and temporal filtering mechanism for digital motion video signals | |
US10205953B2 (en) | Object detection informed encoding | |
EP0853436B1 (en) | Digital video signal filtering and encoding method and apparatus | |
WO2005006762A2 (en) | Optical flow estimation method | |
CN109089121B (zh) | 一种基于视频编码的运动估计方法、装置及电子设备 | |
JP2002125233A (ja) | 映像内容に重み付けをする画像圧縮方式 | |
CN114466192A (zh) | 图像/视频超分辨率 | |
CN117136540A (zh) | 残差编码方法及设备、视频编码方法及设备、存储介质 | |
CN113810692B (zh) | 对变化和移动进行分帧的方法、图像处理装置及程序产品 | |
JPH09331536A (ja) | 誤り訂正デコーダ及び誤り訂正デコーディング方法 | |
Xia et al. | Visual sensitivity-based low-bit-rate image compression algorithm | |
TW202420815A (zh) | 使用神經網路進行圖像區域的並行處理-解碼、後濾波和rdoq | |
CN107509074B (zh) | 基于压缩感知的自适应3d视频压缩编解码方法 | |
JP2001346208A (ja) | 画像信号復号化装置および方法 | |
Décombas et al. | Seam carving modeling for semantic video coding in security applications | |
US20240223813A1 (en) | Method and apparatuses for using face video generative compression sei message | |
US20230209064A1 (en) | Identifying long term reference frame using scene detection and perceptual hashing | |
JP2008072608A (ja) | 画像符号化装置及び画像符号化方法 | |
CN116781911A (zh) | 一种基于窗口的生成式并行编码方法及系统 | |
Bao et al. | Quantitative comparison of lossless video compression for multi-camera stereo and view interpolation applications | |
TW202416712A (zh) | 使用神經網路進行圖像區域的並行處理-解碼、後濾波和rdoq |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |