CN111542858A - 动态图像解析装置、动态图像解析系统、动态图像解析方法、以及程序 - Google Patents
动态图像解析装置、动态图像解析系统、动态图像解析方法、以及程序 Download PDFInfo
- Publication number
- CN111542858A CN111542858A CN201880085056.8A CN201880085056A CN111542858A CN 111542858 A CN111542858 A CN 111542858A CN 201880085056 A CN201880085056 A CN 201880085056A CN 111542858 A CN111542858 A CN 111542858A
- Authority
- CN
- China
- Prior art keywords
- moving image
- data
- frame
- feature
- encoding
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/20—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using video object coding
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/168—Segmentation; Edge detection involving transform domain methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T9/00—Image coding
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/20—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using video object coding
- H04N19/25—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using video object coding with scene description coding, e.g. binary format for scenes [BIFS] compression
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N7/00—Television systems
- H04N7/18—Closed-circuit television [CCTV] systems, i.e. systems in which the video signal is not broadcast
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Multimedia (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Signal Processing (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- General Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- General Engineering & Computer Science (AREA)
- Image Analysis (AREA)
- Closed-Circuit Television Systems (AREA)
- Compression Or Coding Systems Of Tv Signals (AREA)
Abstract
本发明的动态图像解析装置具有:编码部,对动态图像进行编码;获取部,对上述动态图像所包含的第一帧以及第二帧分别获取第一数据以及第二数据,其中,上述第一数据以及第二数据用于由上述编码部将上述动态图像压缩并编码的处理;第一检测部,根据上述第一帧和上述第一数据来检测表示上述动态图像的特征的第一特征数据,根据上述第二帧和上述第二数据来检测表示上述动态图像的特征的第二特征数据;以及第二检测部,根据上述第一特征数据和上述第二特征数据来检测上述第一帧所包含的目标。
Description
技术领域
本发明涉及动态图像解析装置、动态图像解析系统、动态图像解析方法、以及程序。
背景技术
以往,公知有从通过监视照相机、电视播送用的照相机、智能手机等的照相机等拍摄的动态图像(影像)检测不适合分发等的目标的技术(例如,参照专利文献1、2)。
专利文献1:日本特开2009-049949号公报
专利文献2:国际公开第2016/088583号
然而,在现有技术中,在进行从动态图像检测目标的处理的情况下,存在处理相对花费时间这一问题。
发明内容
因此,在一个方面中,以提供能够相对较高速地进行从动态图像检测目标的处理的技术为目的。
在一个方案中,提供一种动态图像解析装置,具有:编码部,对动态图像进行编码;获取部,对上述动态图像所包含的第一帧以及第二帧分别获取第一数据以及第二数据,其中,上述第一数据以及第二数据用于由上述编码部将上述动态图像压缩并编码的处理;第一检测部,根据上述第一帧和上述第一数据来检测表示上述动态图像的特征的第一特征数据,根据上述第二帧和上述第二数据来检测表示上述动态图像的特征的第二特征数据;以及第二检测部,根据上述第一特征数据和上述第二特征数据来检测上述第一帧所包含的目标。
根据一个方面,能够相对较高速地进行从动态图像检测目标的处理。
附图说明
图1是示出实施方式所涉及的通信系统的结构例的图。
图2是示出实施方式所涉及的动态图像解析装置的硬件结构例的图。
图3是示出实施方式所涉及的拍摄终端、动态图像分发装置、以及显示终端的硬件结构例的图。
图4是示出实施方式所涉及的动态图像解析装置的结构框图的一个例子的图。
图5是示出实施方式所涉及的动态图像分发装置的功能框图的一个例子的图。
图6是示出检测动态图像解析装置的目标的处理的一个例子的流程图。
图7是对CTU的一个例子进行说明的图。
图8A是对HEVC中的运动向量进行说明的图。
图8B是对HEVC中的运动向量进行说明的图。
图9A是对场景数据的一个例子进行说明的图。
图9B是对目标数据的一个例子进行说明的图。
具体实施方式
以下,基于附图对本发明的实施方式进行说明。
<系统结构>
图1是示出实施方式所涉及的通信系统1(“动态图像处理系统”)的结构例的图。在图1中,通信系统1具有:拍摄终端10-1、10-2、……(在以下,在不需要区分各拍摄终端的情况下,简称为“拍摄终端10”。)、动态图像解析装置20、动态图像分发装置30、以及显示终端40-1、40-2、……(在以下,在不需要区分各显示终端的情况下,简称为“显示终端40”。)。
拍摄终端10与动态图像解析装置20、动态图像解析装置20与动态图像分发装置30、以及动态图像分发装置30与显示终端40分别例如通过因特网、移动电话网、无线LAN(Local Area Network:局域网)、或者LAN等网络50、网络60、以及网络70而以能够通信的状态连接。
拍摄终端10例如是监视照相机、摄像机、智能手机、或者动态图像(影像)文件服务器等信息处理装置(计算机)。拍摄终端10将由照相机拍摄的动态图像、和由话筒收集的声音以规定的方式(“第一方式”)编码。而且,拍摄终端10将编码后的动态图像以及声音通过流式分发等实时地分发至动态图像解析装置20。或者,拍摄终端10将编码后的动态图像以及声音作为文件蓄积,并在规定的时机将该文件上载至动态图像解析装置20。
动态图像解析装置20具有动态图像处理装置21、以及解析装置22。
动态图像处理装置21例如是将由拍摄终端10拍摄并编码后的动态图像解码,并通过规定的方式(“第二方式”)编码的转码器。动态图像处理装置21将从拍摄终端10接收到的动态图像以及声音解码及编码,并将编码后的动态图像以及声音通过流式分发等实时地输出至动态图像分发装置30。或者,动态图像处理装置21将编码后的动态图像以及声音作为文件蓄积,并在规定的时机将该文件上载至动态图像分发装置30。由此,能够将从拍摄终端10接收到的通过各种编码方式编码后的动态图像转换为规定的编码方式并输出至动态图像分发装置30。
另外,动态图像处理装置21在对动态图像进行编码时,检测表示动态图像的特征的特征数据。此外,也可以在特征数据中包含有物体的位置、物体的移动方向、移动速度等通过图像处理、推断处理得到的数据、亮度、色彩、声音的变化、音量等。
而且,动态图像处理装置21根据该特征数据,使解析装置22检测目标,将检测到的目标的数据、和特征数据附加至动态图像并输出至动态图像分发装置30。
动态图像分发装置30例如通过使用从动态图像处理装置21接收到的动态图像以及目标的数据的AI(Artificial Intelligence:人工智能)等,来提供动态图像分发、可疑者的监视、来客的管理、店铺等的经营、动态图像分析等服务。也可以动态图像分发装置30将从动态图像处理装置21接收到的动态图像以及声音实时地分发至显示终端40。另外,也可以动态图像分发装置30在通过解析装置22检测到规定的目标的情况下,停止该分发。
显示终端40例如是智能手机、平板终端、或者个人计算机等信息处理装置(计算机)。显示终端40使被从动态图像分发装置30分发的动态图像显示于画面。
<硬件结构>
《动态图像解析装置20》
图2是示出实施方式所涉及的动态图像解析装置20的硬件结构例的图。图2的动态图像解析装置20具有动态图像处理装置21、以及解析装置22。
《动态图像处理装置21》
动态图像处理装置21具有分别通过总线B相互连接的驱动器装置200、辅助存储装置202、存储器装置203、CPU(Central Processing Unit:中央处理装置)204、接口装置205、解码电路206、编码电路207、以及存储器208等。
实现动态图像处理装置21中的处理的动态图像处理程序由记录介质201提供。若记录有动态图像处理程序的记录介质201被设置于驱动器装置200,则动态图像处理程序从记录介质201经由驱动器装置200被安装于辅助存储装置202。其中,动态图像处理程序的安装并不一定需要通过记录介质201进行,也可以经由网络从其他的计算机下载。辅助存储装置202储存被安装的动态图像处理程序,并且储存必要的文件、数据等。
存储器装置203在有程序的起动指示的情况下,从辅助存储装置202读出程序并储存。CPU204根据储存于存储器装置203的程序来实现动态图像处理装置21所涉及的功能。接口装置205作为用于与网络、以及解析装置22连接的接口而使用。
解码电路206、以及编码电路207分别例如是基于LSI(Large Scale Integration;大规模集成)等的电路,是进行动态图像的解码、以及编码的专用电路。编码电路207在对动态图像进行编码时,若完成为了编码而使用的规定的数据的制作,则通过DMA(DirectMemory Access:直接内存访问)等方式从编码电路207的内部存储器将该数据转送并存储至存储器208。CPU204使用存储于存储器208的该数据来生成后述的特征数据。
此外,作为记录介质201的一个例子,举出CD-ROM、DVD光盘、或者USB存储器等便携式记录介质。另外,作为辅助存储装置202的一个例子,举出HDD(Hard Disk Drive:硬盘驱动器)或者闪存等。记录介质201以及辅助存储装置202的任意一个均相当于计算机可读取的记录介质。也可以存储器208使用存储器装置203的一部分。
《解析装置22》
解析装置22例如是加速器用的板(卡),具有CPU2201、存储器装置2202、辅助存储装置2203以及接口装置2204等。解析装置22根据PCI Express等接口标准经由接口装置205与动态图像处理装置21连接。通过使解析装置22成为能够加装于动态图像处理装置21的结构,从而例如,能够在之后追加、变更改善动态图像处理装置21的1次解析处理的结果的2次解析处理功能。
《拍摄终端10、动态图像分发装置30》
图3是示出实施方式所涉及的拍摄终端10、动态图像分发装置30、以及显示终端40的硬件结构例的图。在以下,以动态图像分发装置30为例进行说明。图3的动态图像分发装置30具有分别通过总线B相互连接的驱动器装置100、辅助存储装置102、存储器装置103、CPU104、接口装置105等。
实现动态图像分发装置30中的处理的动态图像处理程序由记录介质101提供。若记录有动态图像处理程序的记录介质101被设置于驱动器装置100,则动态图像处理程序从记录介质101经由驱动器装置100安装于辅助存储装置102。其中,动态图像处理程序的安装并不一定需要通过记录介质101进行,也可以经由网络从其他的计算机下载。辅助存储装置102储存被安装的动态图像处理程序,并且储存必要的文件、数据等。
存储器装置103在有程序的起动指示的情况下,从辅助存储装置102读出程序并储存。CPU104根据储存于存储器装置103的程序来实现动态图像分发装置30所涉及的功能。接口装置105作为用于与网络连接的接口而使用。
此外,作为记录介质101的一个例子,举出CD-ROM、DVD光盘、或者USB存储器等便携式记录介质。另外,作为辅助存储装置102的一个例子,举出HDD(Hard Disk Drive:硬盘驱动器)或者闪存等。记录介质101以及辅助存储装置102的任意一个均相当于计算机可读取的记录介质。
也可以拍摄终端10以及显示终端40的硬件结构与动态图像分发装置30相同。此外,拍摄终端10除了图3所示的硬件结构以外,还具有拍摄动态图像的照相机(拍摄装置)。
<结构>
《动态图像解析装置》
接下来,参照图4,对动态图像解析装置20的结构进行说明。图4是示出实施方式所涉及的动态图像解析装置20的结构的一个例子的图。动态图像解析装置20具有解码部211、编码部212、获取部213、检测部214、输出部215、以及控制部216。另外,解析装置22具有解析部221。
解码部211通过图2所示的解码电路206来实现,或者通过使动态图像处理装置21的CPU204执行安装于动态图像处理装置21的1个以上的程序的处理来实现。此外,在通过CPU204实现解码211的情况下,也可以为不具备图2所示的解码电路206的结构。该情况下,也可以将CPU204设为多核处理器,使用不同的核心来并行地处理解码部211的解码处理、和检测部214的检测特征数据(元数据)的处理。
另外,动态图像解析装置20在经由视频电缆等从拍摄终端10接收未被编码的RAW数据的动态图像的情况下,也可以不具有解码部211。
编码部212使用图2所示的编码电路207来实现。获取部213使用图2所示的存储器208来实现。
检测部214、输出部215、以及控制部216通过使动态图像处理装置21的CPU204执行安装于动态图像处理装置21的1个以上的程序的处理来实现。另外,解析部221通过使解析装置22的CPU2201执行安装于解析装置22的1个以上的程序的处理来实现。
此外,也可以动态图像解析装置20具备实现检测部214、输出部215、控制部216、或者解析部221的电路。
解码部211将从拍摄终端10接收到的动态图像解码。
编码部212使用HEVC(High Efficiency Video Coding:高效视频编码)/H.265(在以下称为“HEVC”。)、或者AVC(Advanced Video Coding:高级视频编码)/H.264等动态图像的压缩标准来将由解码部211解码后的动态图像的各帧压缩并编码。
获取部213分别获取用于由编码部212将动态图像的各帧压缩并编码的处理的数据。
检测部214根据动态图像的各帧、和由获取部213获取到的数据,来分别检测表示从拍摄终端10接收到的动态图像的各帧的特征的特征数据。也可以在特征数据中包含有表示静止物体、移动物体、人、面部、或者车辆等处理对象帧所包含的各目标的种类的标签信息、表示该各目标的区域(轮廓)的信息、表示该各目标的运动的信息、以及识别到的背景的信息等。
解析部221根据通过检测部214对多个帧的每一帧检测到的各特征数据、和该多个帧所包含的第二帧(代表帧),来检测第一帧所包含的目标,并输出检测到的目标的数据和检测所使用的特征数据。
输出部215将通过编码部212对动态图像进行编码后的数据、由解析部221检测到的目标的数据、以及特征数据输出至动态图像分发装置30。从输出部215向动态图像分发装置30的对动态图像进行编码后的数据、目标的数据、以及特征数据的输出也可以按动态图像的每个帧输出,也可以将多个帧的数据集中地输出。
控制部216进行动态图像解析装置20的整体控制。
《动态图像分发装置》
接下来,参照图5,对动态图像分发装置30的功能结构进行说明。图5是示出实施方式所涉及的动态图像分发装置30的功能框图的一个例子的图。动态图像分发装置30具有解码部31、数据处理部32、以及分发控制部33。
解码部31、数据处理部32、以及分发控制部33通过使动态图像分发装置30的CPU104执行安装于动态图像分发装置30的1个以上的程序的处理来实现。
解码部31根据需要将从动态图像处理装置21接收到的动态图像、以及声音解码。
数据处理部32使用从动态图像处理装置21接收到的目标的数据和特征数据、以及通过解码部31解码后的动态图像,来进行规定的数据处理。作为规定的数据处理,数据处理部32例如进行更高负荷的图像处理、声音处理、以及推断处理等来提取动态图像中的场景,根据提取出的场景、接收到的目标来判断可否进行动态图像的分发,并将判断结果输出到分发控制部33。在分发可否的判断中,也可以在目标的确定性的得分为阈值以上的情况下,停止动态图像的分发,也可以在提取出的场景、接收到的目标符合预先设定的分发停止对象的情况下,停止动态图像的分发。
分发控制部33将动态图像分发至显示终端40,控制显示终端40的画面中的动态图像的显示。
此外,也能够根据数据处理部32的分发可否的判断结果对一部分的场景、目标进行模糊处理、遮蔽处理,之后在使CPU104执行编码处理后向分发控制部输出。
<处理>
(检测目标的处理)
接下来,参照图6,对动态图像解析装置20中的检测目标的处理进行说明。图6是示出动态图像解析装置20的检测目标的处理的一个例子的流程图。此外,以下的处理对动态图像中的各帧进行。在以下,将动态图像中的任意一帧称为处理对象帧。
首先,在步骤S1中,动态图像处理装置21的编码部212进行将处理对象帧压缩并编码的处理。
接着,动态图像处理装置21的编码部212将用于该编码的处理的数据输出至存储器208(步骤S2)。这里,用于编码处理的数据被从图2所示的编码电路207存储至存储器208。由此,CPU204能够参照存储于存储器208的用于编码处理的数据。也可以在用于编码处理的数据中例如包含有进行编码处理的单位亦即各块(CTU(Coding Tree Unit:编码树单元))的数据、帧的缩小图像、表示在动态图像中连续的多个帧间的变化的数据(表示该各块的运动的数据)、表示相同颜色的区域的数据、以及该各块的轮廓的数据等。
此外,并行地执行编码部212的步骤S1的编码处理、和检测部214的检测处理。编码电路207的编码处理由于是基于专用的硬件的处理,因此例如在从拍摄终端10流式地接收到实时的动态图像的情况下,能够以实时接收所花费的时间的1/10左右的时间来完成对处理对象帧的处理。
接着,动态图像解析装置20的检测部214使用存储于存储器208的数据,来检测对处理对象帧的表示动态图像的特征的特征数据(步骤S3)。也可以检测部214例如通过使用了深度学习等机器学习的AI,来检测特征数据。这样,通过利用用于编码处理的数据,能够较大地减少检测每个处理对象帧的特征数据的处理的负荷。
另外,步骤S2的处理在编码处理的中途进行。若将检测部214的检测处理设为能够在动态图像的实时接收所花费的时间内完成的程度的处理负荷,则能够不损失编码电路207的处理性能,实时地检测特征数据。
接着,解析装置22的解析部221根据由动态图像处理装置21的检测部214检测到的对处理对象帧以前的多个帧的每一帧的各特征数据,来检测目标(步骤S4)。此外,也可以解析装置22的解析部221根据该各特征数据、和该多个帧所包含的一帧,来检测目标。该情况下,也可以该一帧是由检测部214的AI计算出的与目标的种类有关的识别结果的得分相对较高的帧。
也可以解析装置22的解析部221例如通过使用了深度学习等机器学习的AI来检测目标。或者,解析装置22的解析部221例如也可以在从对多个帧的每一个帧的各特征数据来看,满足2个以上的人物面对面,一方的人物对另一方的人物以规定的阈值以上的速度伸出手,并且在周围没有观众等条件的情况下,至少将该一方的人物识别为规定的目标(施加暴力的人物)。也可以解析装置22的解析部221计算表示规定的目标可能性的程度的得分,并使计算出的得分作为该规定的目标的数据从输出部215输出。
通过进行基于特征数据的解析,从而与根据动态图像中的多个帧来检测目标的情况相比较,能够更高速地检测目标。
此外,也可以解析装置22的解析部221除了根据特征数据以外,还根据动态图像所包含的各帧的一部分或者全部,来检测目标。由此,与仅根据动态图像所包含的各帧来检测目标的情况相比较,能够使检测的精度提高。
接着,解析装置22的解析部221将表示目标的区域的信息输出至动态图像处理装置21的编码部212(步骤S5)。也可以使编码部212在进行以后的帧的编码时,对该目标的区域进行预先设定的处理或是解析部221所指示的处理,例如,置换为该帧的背景等图像并编码。或者,也可以对该目标的区域实施模糊(马赛克)处理并编码。由此,能够不输出拍摄有该目标的帧。
接着,动态图像解析装置20的输出部215将由编码部212对动态图像进行编码后的数据、由动态图像解析装置20的检测部214检测到的特征数据、以及由解析部221检测到的目标的数据输出至动态图像分发装置30(步骤S6)。
此外,在步骤S4的处理中,在未检测到目标的情况下,通过输出部215输出对动态图像进行编码后的数据,结束对处理对象帧的处理。
<使用通过多个照相机拍摄到的动态图像的情况的变形例1>
也可以解析装置22的解析部221根据表示从多个拍摄终端10接收到的各动态图像的特征的各特征数据等,来检测目标。例如,在预先已知多个拍摄终端10各自的位置、安装角度,根据通过拍摄终端10-1拍摄到的动态图像的帧和特征数据检测到目标的情况下,也可以判定为在同时刻通过拍摄终端10-2拍摄到的帧中也检测到该目标。
例如,假设解析装置22的解析部221根据来自设置于与目标相对较近的位置的第一照相机的特征数据等,检测到该目标的情况。该情况下,解析装置22的解析部221即使根据从设置于与该目标相对较远的位置的第二照相机检测到的特征数据等,将表示是该目标的可能性的得分计算为相对较低的值,也判定为是该目标。
<使用通过多个照相机拍摄到的动态图像的情况的变形例2>
解析装置22的解析部221也可以在根据通过拍摄终端10-1拍摄到的动态图像的帧和特征数据检测到目标的情况下,以后,由编码部212对通过拍摄终端10-2拍摄到的帧进行了模糊等加工后编码。
<特征数据的检测处理的例子>
在以下,对检测特征数据的处理的例子进行说明。此外,以下的各例能够适当地组合并实施。
《特征数据的检测处理的例1》
作为特征数据的检测处理的例1,对使用在HEVC等编码处理中得到的CTU(CodingTree Unit)(“用于编码的处理的数据”、以及“块”的一个例子。),来相对较高速地检测与背景以外的构造物、或者背景有关的特征数据的例子进行说明。
编码部212使用HEVC等以被称为CTU的正方像素块的单位进行动态图像中的各帧(图片)的编码处理。在HEVC等中,帧中的各块的大小根据帧图像中的轮廓的存在、以及轮廓的复杂度而决定。
图7是对CTU的一个例子进行说明的图。如图7所示,平坦的背景部分被相对较大的块(CB:Coding Block:编码块)501分割。另外,物体的轮廓被相对较小的块502分割。
编码部212若完成决定CTU的块分割处理,则将CTU的数据储存于存储器208。在储存于存储器208的CTU的数据中,包含有构成的各颜色成分信号的块亦即各CTB(CodingTree Block)的层级结构和CB尺寸、以及邻接的CTB等数据。
也可以检测部214将储存于存储器208的CTU的数据作为特征数据。由此,例如,能够使用CTU的数据亦即特征数据来区分天空、墙壁等背景和具有人、建筑物等构造的物体,或是从蓄积的数据提取构图类似的数据。
另外,也可以检测部214使用该CTU的数据,例如检测图像中的各目标的区域等,并将检测到的区域的数据作为特征数据。该情况下,检测部214例如在将人物等作为检测对象的情况下,也可以优先地检索CB的尺寸为规定值以下的区域,执行检测面部的处理。由此,例如在实时地解析动态图像的情况下,能够使检测人物等物体的处理的精度提高,并且将该处理高速化。该情况下,也可以使用公知的算法作为检测人物等的算法。另外,也可以使用CTU的数据而仅将CB的尺寸为规定值(例如16×16)以下的区域作为检索范围。由此,与以往的将图像整体作为搜索范围的方法相比较,能够更高速地检测。
另外,检测部214例如在将天空、道路等背景设为检测对象的情况下,也可以将CB的尺寸为规定值(例如32×32)以上的区域作为搜索范围,执行检测背景的处理。
《特征数据的检测处理的例2》
作为特征数据的检测处理的例2,对使用在编码处理中得到的缩小图像(“用于编码的处理的数据”的一个例子。),来相对较高速地检测与物体的运动有关的特征数据的例子进行说明。
在HEVC、AVC等中,为了运动补偿而生成各帧的缩小图像(预测图像)。编码部212若生成用于运动补偿的缩小图像,则将生成的缩小图像的数据储存于存储器208。
也可以检测部214将储存于存储器208的缩小图像的数据作为特征数据。由此,能够通过动态图像分发装置30将该特征数据例如利用于运动搜索等。
另外,也可以检测部214使用该缩小图像的数据,例如检测图像中的各目标的运动等,并将检测到的运动的数据作为特征数据。该情况下,检测部214例如求出多个搜索起点区域的候补,并从多个候补中选出类似度较高的搜索起点区域,将选出的起点区域作为特征数据。在动态图像分发装置30中,能够使用等倍图像来细致地搜索特征数据所包含的搜索起点以及其周围。
《特征数据的检测处理的例3》
作为特征数据的检测处理的例3,对使用在编码处理中得到的表示连续的多个帧间的变化的数据(表示块的运动的数据。“用于编码的处理的数据”的一个例子。),来相对较高速地检测与物体的运动有关的特征数据的例子进行说明。
在HEVC、AVC等中,为了运动补偿等而生成表示连续的多个帧间的变化的数据。在表示各帧间的变化的数据中,例如包含有差、以及运动向量等。
差是这次的帧所包含的规定的范围的各像素的亮度和色差的值、与前次的帧所包含的该规定的范围的各像素的亮度和色差的值的绝对差之和(SAD:Sum of AbsoluteDifference)、平方差之和(SSD:Sum of Squared Difference)、绝对转换差之和(SATD:Sumof Absolute Transformed Difference)等。运动向量是表示在连续的各帧间预测出的编码对象块的移动方向的数据。
另外,在HEVC、AVC等中,对每个预测块(PU:Prediction Unit)进行运动补偿预测。
图8A、以及图8B是对HEVC中的运动信息进行说明的图。由于可认为互相邻接的各预测块具有相似的运动,因此在HEVC中,不对每个预测块将各自的运动向量编码,而合并互相邻接的各预测块的运动向量并编码。在图8A的例子中,每个预测块的运动向量由箭头801等示出。在图8B的例子中,在互相邻接的各预测块中合并后的运动向量由箭头802等示出。
编码部212若生成用于运动补偿的该各数据,则将生成的各数据储存于存储器208。
也可以检测部214将储存于存储器208的各数据作为特征数据。由此,在动态图像分发装置30中,能够将该特征数据例如利用于运动搜索等。
另外,也可以检测部214使用该各数据,例如检测图像中的各目标的运动等,并将检测到的运动的数据作为特征数据。该情况下,检测部214在通过编码部212将是规定量以上的预测块的集合、且各预测块的尺寸为规定值以下的预测块的集合的运动合并的情况下,也可以优先地检索该集合所包含的各预测块的区域。由此,例如,在实时地解析动态图像的情况下,能够进一步使检测运动的物体的处理的精度提高,并且进一步将该处理高速化。
《特征数据的检测处理的例4》
作为特征数据的检测处理的例4,对使用在编码处理中得到的表示帧的复杂度的数据(“用于编码的处理的数据”的一个例子。),来相对较高速地检测与复杂度有关的特征数据的例子进行说明。
在HEVC、AVC等的帧内预测中,计算一个帧内的亮度、色差的SAD(绝对差之和)、以及SATD(绝对转换差之和)等各数据。
编码部212若生成帧内预测中的该各数据,则将生成的各数据储存于存储器208。也可以检测部214将储存于存储器208的各数据作为特征数据。
根据上述的特征数据的检测处理,例如,在监视来自监视照相机的动态图像以及声音的监视照相机系统中,能够检测与以下内容有关的特征数据,即,图像中的面部的位置以及尺寸、拍摄到的人物的识别、人物的年龄或性别的推断信息、人物的衣服的颜色、眼镜、帽子、包之类的所有物等。
另外,在已知照相机的设置位置、朝向、透镜的视场角、变形、特性等的情况、通过规定的标记等预先进行照相机的校正的情况下,能够检测与拍摄到的人物的大小、距照相机的距离有关的特征数据。
另外,能够追踪识别到的人、物的运动,检测进行了怎样的运动之类的与行动或者动作有关的特征数据。该情况下,也可以在特征数据中,例如包含有面部、身体、脚的朝向、手或脚的运动、各关节的位置、(面部的表情)等信息、和包含这些而推断出的行动、动作等信息。此外,也可以每几帧、每几秒检测该信息。
另外,也可以通过由多个照相机各自拍摄到的动态图像,来检测相对较大范围中的行动,并将检测到的行动的范围设为特征数据。由此,能够使人物、物移动的轨迹显示于用户的终端。
<变形例1>
编码部212也可以代替使用图2所示的编码电路207来实现,而通过使动态图像处理装置21的CPU204执行安装于动态图像处理装置21的1个以上的程序的处理来实现。
<变形例2>
在上述的例子中,对在步骤S5的处理中动态图像解析装置20进行模糊等处理并编码的例子进行了说明。也可以代替此,而使显示终端40在对动态图像进行解码后,进行模糊等处理并显示于画面。该情况下,也可以例如使动态图像分发装置30将从动态图像解析装置20接收到的对动态图像编码后的数据、和目标的数据分发至显示终端40,显示终端40进行使该目标的区域模糊等图像处理。
<变形例3>
也可以动态图像处理装置21的检测部214、以及解析装置22的解析部221例如根据显示终端40的用户做出的判断结果,进行机器学习。该情况下,检测部214、以及解析部221例如从动态图像分发装置30获取显示终端40的用户做出的判断结果作为监督学习的学习数据,进行深度学习等机器学习。
<变形例4>
也可以动态图像分发装置30与动态图像的各帧建立对应关系地存储由解析装置22的解析部221检测到的目标等信息。
图9A是对场景数据901的一个例子进行说明的图。图9B是对目标数据902的一个例子进行说明的图。在动态图像分发装置30中存储的场景数据901、以及目标数据902中,存储有由解析装置22的解析部221检测到的与动态图像的各帧建立了对应关系的目标等数据。
在图9A的例子中,在场景数据901中,与帧的区间建立对应关系地存储有场景、目标ID、场所、行动、感情等作为目标等数据。场景是表示动态图像的内容的单位,根据该区间内的目标的行动、以及各帧内的环境的变化,划分为各场景。目标ID是该区间内的目标的识别信息。场所是表示在该区间内拍摄的场所的信息。行动是表示该区间内的目标的行动的信息。感情是表示该区间内的目标的感情的信息。
在图9B的例子中,在目标数据902中,与目标ID建立对应关系地存储有名字、年龄、性别等数据。名字是目标的名字。年龄是目标的年龄。性别是目标的性别。此外,在目标中不仅包含人物,还包含物体。通过存储由解析装置22的解析部221检测到的目标等信息,例如容易进行被投稿的动态图像的分类、以及检索等。
<其他>
以往,在实时地从用户分发的视频中拍摄有侵犯著作权的目标、违反公序良俗的目标、或者施加暴力的人物等不适当的目标的情况下,监视者通过目视观察确认,并停止视频的分发。
根据上述的实施方式,使用用于将动态图像压缩并编码的处理的数据,来检测目标。由此,能够相对较高速地进行从动态图像检测目标的处理。因此,例如,在实时地分发视频的情况下,能够更高速乃至高精度地检测出拍摄有不适合分发的目标的情况。
上述的实施方式也能够应用于从图像识别人的监视照相机系统、分析在店铺中顾客是否拿取了商品、是否购入了该商品等的数字经营系统、IP分发系统、将被拍摄体的信息与动态图像重叠显示的AR/VR系统等。
以上,对本发明的实施例进行了详述,但本发明不限定于这种特定的实施方式,而能够在权利要求书中记载的本发明的要旨的范围内进行各种变形、变更。
也可以动态图像解析装置20的各功能部例如通过由1个以上的计算机构成的云计算来实现。另外,也可以将动态图像解析装置20、以及动态图像分发装置30构成为一体的装置。也可以将动态图像解析装置20、以及拍摄终端10构成为一体的装置。该情况下,也可以动态图像处理装置21不进行动态图像的解码处理。也可以动态图像解析装置20具有拍摄终端10或者动态图像分发装置30的各功能部中的至少一部分。
例如,对于解析装置22而言,代替与动态图像处理装置21包含于相同的壳体的结构,既可以设为独立的装置,也可以设为与动态图像分发装置30包含于相同的壳体的结构。
此外,动态图像分发装置30是“信息处理装置”的一个例子。检测部214是“第一检测部”的一个例子。解析部221是“第二检测部”的一个例子。
附图标记说明
1...通信系统;10...拍摄终端;20...动态图像解析装置;21...动态图像处理装置;207...编码电路;208...存储器;211...解码部;212...编码部;213...获取部;214...检测部;215...输出部;216...控制部;22...解析装置;221...解析部;30...动态图像分发装置;31...解码部;32...数据处理部;33...分发控制部;40...显示终端。
Claims (8)
1.一种动态图像解析装置,具有:
编码部,对动态图像进行编码;
获取部,对所述动态图像所包含的第一帧以及第二帧分别获取第一数据以及第二数据,其中,所述第一数据以及第二数据用于由所述编码部将所述动态图像压缩并编码的处理;
第一检测部,根据所述第一帧和所述第一数据来检测表示所述动态图像的特征的第一特征数据,根据所述第二帧和所述第二数据来检测表示所述动态图像的特征的第二特征数据;以及
第二检测部,根据所述第一特征数据和所述第二特征数据来检测所述第一帧所包含的目标。
2.根据权利要求1所述的动态图像解析装置,其中,
所述第二检测部使用机器学习来检测所述目标。
3.根据权利要求1或2所述的动态图像解析装置,其中,
在所述动态图像所包含的第三帧中,所述编码部将所述目标的区域的至少一部分置换为其他的图像并编码,或者将所述目标的区域的至少一部分模糊并编码。
4.根据权利要求1~3中任一项所述的动态图像解析装置,其中,
所述第一数据以及所述第二数据包含由所述编码部进行编码处理的单位亦即块的数据、所述动态图像所包含的帧的缩小图像的数据、以及表示在所述动态图像中连续的多个帧间的变化的数据的至少一个。
5.根据权利要求1~4中任一项所述的动态图像解析装置,其中,
所述第一特征数据以及所述第二特征数据包含表示所述目标的区域的数据、表示所述目标的运动的数据、以及表示所述目标的种类的数据的至少一个。
6.一种动态图像解析系统,具有动态图像处理装置、以及解析装置,
所述动态图像处理装置具有:
编码部,对动态图像进行编码;
获取部,对所述动态图像所包含的第一帧以及第二帧分别获取第一数据、以及第二数据,其中,所述第一数据以及第二数据用于由所述编码部将所述动态图像压缩并编码的处理;以及
第一检测部,根据所述第一帧和所述第一数据来检测表示所述动态图像的特征的第一特征数据,根据所述第二帧和所述第二数据来检测表示所述动态图像的特征的第二特征数据,
所述解析装置具有:
第二检测部,根据所述第一特征数据和所述第二特征数据来检测所述第一帧所包含的目标。
7.一种动态图像解析方法,动态图像解析装置执行以下处理:
对动态图像进行编码;
对所述动态图像所包含的第一帧以及第二帧分别获取第一数据、以及第二数据,其中,所述第一数据以及第二数据用于通过所述编码的处理进行的将所述动态图像压缩并编码的处理;
根据所述第一帧和所述第一数据来检测表示所述动态图像的特征的第一特征数据,根据所述第二帧和所述第二数据来检测表示所述动态图像的特征的第二特征数据;以及
根据所述第一特征数据和所述第二特征数据来检测所述第一帧所包含的目标。
8.一种程序,使动态图像解析装置执行以下处理:
对动态图像进行编码;
对所述动态图像所包含的第一帧以及第二帧分别获取第一数据以及第二数据,其中,所述第一数据以及第二数据用于通过所述编码的处理进行的将所述动态图像压缩并编码的处理;
根据所述第一帧和所述第一数据来检测表示所述动态图像的特征的第一特征数据,根据所述第二帧和所述第二数据来检测表示所述动态图像的特征的第二特征数据;以及
根据所述第一特征数据和所述第二特征数据来检测所述第一帧所包含的目标。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2018/000029 WO2019135270A1 (ja) | 2018-01-04 | 2018-01-04 | 動画像解析装置、動画像解析システム、動画像解析方法、及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111542858A true CN111542858A (zh) | 2020-08-14 |
CN111542858B CN111542858B (zh) | 2023-09-08 |
Family
ID=67144464
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201880085056.8A Active CN111542858B (zh) | 2018-01-04 | 2018-01-04 | 动态图像解析装置、系统、方法、以及存储介质 |
Country Status (4)
Country | Link |
---|---|
US (1) | US11495023B2 (zh) |
JP (1) | JP7211373B2 (zh) |
CN (1) | CN111542858B (zh) |
WO (1) | WO2019135270A1 (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021200329A1 (ja) * | 2020-03-30 | 2021-10-07 | ソニーグループ株式会社 | 情報処理装置、情報処理方法および情報処理プログラム |
CN115335857A (zh) * | 2020-03-31 | 2022-11-11 | 索尼集团公司 | 信息处理设备、信息处理方法和信息处理程序 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1450813A (zh) * | 2002-03-29 | 2003-10-22 | 株式会社东芝 | 视频编码方法和装置,以及视频解码方法和装置 |
US20100290672A1 (en) * | 2009-05-14 | 2010-11-18 | Nishino Katsuaki | Moving object detecting device, moving object detecting method, and computer program |
CN102187678A (zh) * | 2008-10-29 | 2011-09-14 | 松下电器产业株式会社 | 动态图像压缩编码中的编码处理方法和编码处理装置 |
US20120237086A1 (en) * | 2009-12-03 | 2012-09-20 | National Institute Of Advanced Industrial Science And Technology | Moving body positioning device |
US20130034266A1 (en) * | 2010-02-21 | 2013-02-07 | Elbit Systems Ltd. | Method and system for detection and tracking employing multi-view multi-spectral imaging |
CN106717007A (zh) * | 2014-07-30 | 2017-05-24 | 恩特里克丝有限公司 | 云端流媒体服务的系统、使用静止图像压缩技术进行云端流媒体服务的方法及其设备 |
CN107071467A (zh) * | 2011-11-02 | 2017-08-18 | 太格文-Ii有限责任公司 | 动态图像编码方法和动态图像编码装置 |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH11113002A (ja) * | 1997-10-07 | 1999-04-23 | Toyo Commun Equip Co Ltd | マクロブロック別移動物体検出方法及び装置 |
JP5064140B2 (ja) | 2007-08-23 | 2012-10-31 | ヤフー株式会社 | ストリーミング情報の再生制御方法 |
JP5299319B2 (ja) * | 2010-03-04 | 2013-09-25 | 富士通株式会社 | 動きベクトル検出装置 |
JP5693147B2 (ja) * | 2010-10-29 | 2015-04-01 | キヤノン株式会社 | 撮影妨害検知方法、妨害検知装置及び監視カメラシステム |
WO2013011608A1 (ja) * | 2011-07-19 | 2013-01-24 | パナソニック株式会社 | 画像符号化装置とその集積回路、および画像符号化方法 |
JP5942818B2 (ja) * | 2012-11-28 | 2016-06-29 | 株式会社Jvcケンウッド | 動画像符号化装置、動画像符号化方法、及び動画像符号化プログラム |
JP6242055B2 (ja) * | 2013-02-15 | 2017-12-06 | 三菱電機株式会社 | 画像符号化装置 |
JP6394876B2 (ja) * | 2014-09-17 | 2018-09-26 | 株式会社ソシオネクスト | 符号化回路、符号化方法 |
WO2016088583A1 (ja) | 2014-12-04 | 2016-06-09 | ソニー株式会社 | 情報処理装置および情報処理方法、並びにプログラム |
-
2018
- 2018-01-04 JP JP2019563721A patent/JP7211373B2/ja active Active
- 2018-01-04 CN CN201880085056.8A patent/CN111542858B/zh active Active
- 2018-01-04 WO PCT/JP2018/000029 patent/WO2019135270A1/ja active Application Filing
-
2020
- 2020-06-26 US US16/913,853 patent/US11495023B2/en active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1450813A (zh) * | 2002-03-29 | 2003-10-22 | 株式会社东芝 | 视频编码方法和装置,以及视频解码方法和装置 |
CN102187678A (zh) * | 2008-10-29 | 2011-09-14 | 松下电器产业株式会社 | 动态图像压缩编码中的编码处理方法和编码处理装置 |
US20100290672A1 (en) * | 2009-05-14 | 2010-11-18 | Nishino Katsuaki | Moving object detecting device, moving object detecting method, and computer program |
US20120237086A1 (en) * | 2009-12-03 | 2012-09-20 | National Institute Of Advanced Industrial Science And Technology | Moving body positioning device |
US20130034266A1 (en) * | 2010-02-21 | 2013-02-07 | Elbit Systems Ltd. | Method and system for detection and tracking employing multi-view multi-spectral imaging |
CN107071467A (zh) * | 2011-11-02 | 2017-08-18 | 太格文-Ii有限责任公司 | 动态图像编码方法和动态图像编码装置 |
CN106717007A (zh) * | 2014-07-30 | 2017-05-24 | 恩特里克丝有限公司 | 云端流媒体服务的系统、使用静止图像压缩技术进行云端流媒体服务的方法及其设备 |
Also Published As
Publication number | Publication date |
---|---|
US20200327332A1 (en) | 2020-10-15 |
CN111542858B (zh) | 2023-09-08 |
US11495023B2 (en) | 2022-11-08 |
JPWO2019135270A1 (ja) | 2021-01-07 |
JP7211373B2 (ja) | 2023-01-24 |
WO2019135270A1 (ja) | 2019-07-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7317919B2 (ja) | 外観検索のシステムおよび方法 | |
Sitara et al. | Digital video tampering detection: An overview of passive techniques | |
US8675065B2 (en) | Video monitoring system | |
JP4725690B2 (ja) | 映像識別子抽出装置 | |
WO2019046077A1 (en) | OBJECT PRIORIZATION FOR RECOGNITION OF OBJECTS | |
CN104902279B (zh) | 一种视频处理方法及装置 | |
US20120275524A1 (en) | Systems and methods for processing shadows in compressed video images | |
US11869241B2 (en) | Person-of-interest centric timelapse video with AI input on home security camera to protect privacy | |
WO2021164216A1 (zh) | 一种视频编码方法、装置、设备及介质 | |
CN110012350B (zh) | 一种视频处理方法及装置、设备、存储介质 | |
TWI521473B (zh) | 影像分析裝置、方法及電腦可讀取媒體 | |
US11495023B2 (en) | Moving image analysis apparatus, system, and method | |
EP3405889A1 (en) | Cloud platform with multi camera synchronization | |
KR20170133618A (ko) | 썸네일이미지 설정방법 및 설정프로그램 | |
US11095901B2 (en) | Object manipulation video conference compression | |
CN116193193A (zh) | 一种视频处理方法及装置 | |
US20230188679A1 (en) | Apparatus and method for transmitting images and apparatus and method for receiving images | |
JPWO2010084738A1 (ja) | 照合加重情報抽出装置 | |
CN112714336B (zh) | 视频分割方法和装置、电子设备、计算机可读存储介质 | |
Wang et al. | Content-based image retrieval using H. 264 intra coding features | |
Khatoonabadi et al. | Comparison of visual saliency models for compressed video | |
CN116137671A (zh) | 一种封面生成方法、装置、设备及介质 | |
US20200252637A1 (en) | Moving image processor, moving image processing system, and moving image processing method | |
Chao | Feature-preserving image and video compression. | |
JP2016021716A (ja) | 追尾装置及びその制御方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |