CN116546152A - 图像处理设备、图像处理方法和存储介质 - Google Patents
图像处理设备、图像处理方法和存储介质 Download PDFInfo
- Publication number
- CN116546152A CN116546152A CN202310047821.XA CN202310047821A CN116546152A CN 116546152 A CN116546152 A CN 116546152A CN 202310047821 A CN202310047821 A CN 202310047821A CN 116546152 A CN116546152 A CN 116546152A
- Authority
- CN
- China
- Prior art keywords
- image
- frame
- processing apparatus
- teacher data
- learning
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012545 processing Methods 0.000 title claims abstract description 164
- 238000003672 processing method Methods 0.000 title claims abstract description 7
- 230000033001 locomotion Effects 0.000 claims description 60
- 238000003384 imaging method Methods 0.000 claims description 43
- 230000006870 function Effects 0.000 claims description 37
- 239000013598 vector Substances 0.000 claims description 36
- 239000000284 extract Substances 0.000 claims description 21
- 230000011218 segmentation Effects 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 claims description 3
- 239000004973 liquid crystal related substance Substances 0.000 claims 1
- 238000000034 method Methods 0.000 description 119
- 230000008569 process Effects 0.000 description 90
- 230000000875 corresponding effect Effects 0.000 description 25
- 238000013075 data extraction Methods 0.000 description 23
- 238000010586 diagram Methods 0.000 description 21
- 238000013527 convolutional neural network Methods 0.000 description 16
- 238000011156 evaluation Methods 0.000 description 15
- 241000689006 Syntrophorhabdaceae Species 0.000 description 10
- 238000000605 extraction Methods 0.000 description 9
- 238000004458 analytical method Methods 0.000 description 8
- 238000011068 loading method Methods 0.000 description 5
- 230000009467 reduction Effects 0.000 description 5
- 230000003321 amplification Effects 0.000 description 4
- 238000006243 chemical reaction Methods 0.000 description 4
- 230000006872 improvement Effects 0.000 description 4
- 238000010801 machine learning Methods 0.000 description 4
- 238000003199 nucleic acid amplification method Methods 0.000 description 4
- 230000002123 temporal effect Effects 0.000 description 4
- 238000012546 transfer Methods 0.000 description 4
- 230000006835 compression Effects 0.000 description 3
- 238000007906 compression Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 230000007786 learning performance Effects 0.000 description 2
- 238000005192 partition Methods 0.000 description 2
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 230000000593 degrading effect Effects 0.000 description 1
- 238000005755 formation reaction Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003825 pressing Methods 0.000 description 1
- 238000010187 selection method Methods 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N7/00—Television systems
- H04N7/01—Conversion of standards, e.g. involving analogue television standards or digital television standards processed at pixel level
- H04N7/0135—Conversion of standards, e.g. involving analogue television standards or digital television standards processed at pixel level involving interpolation processes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/40—Scaling of whole images or parts thereof, e.g. expanding or contracting
- G06T3/4046—Scaling of whole images or parts thereof, e.g. expanding or contracting using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/40—Scaling of whole images or parts thereof, e.g. expanding or contracting
- G06T3/4053—Scaling of whole images or parts thereof, e.g. expanding or contracting based on super-resolution, i.e. the output image resolution being higher than the sensor resolution
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/25—Determination of region of interest [ROI] or a volume of interest [VOI]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
- G06V10/443—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/74—Image or video pattern matching; Proximity measures in feature spaces
- G06V10/761—Proximity, similarity or dissimilarity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/771—Feature selection, e.g. selecting representative features from a multi-dimensional feature space
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N7/00—Television systems
- H04N7/01—Conversion of standards, e.g. involving analogue television standards or digital television standards processed at pixel level
- H04N7/0117—Conversion of standards, e.g. involving analogue television standards or digital television standards processed at pixel level involving conversion of the spatial resolution of the incoming video signal
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N7/00—Television systems
- H04N7/01—Conversion of standards, e.g. involving analogue television standards or digital television standards processed at pixel level
- H04N7/0135—Conversion of standards, e.g. involving analogue television standards or digital television standards processed at pixel level involving interpolation processes
- H04N7/014—Conversion of standards, e.g. involving analogue television standards or digital television standards processed at pixel level involving interpolation processes involving the use of motion vectors
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Multimedia (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Medical Informatics (AREA)
- General Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Health & Medical Sciences (AREA)
- Signal Processing (AREA)
- Computer Graphics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
Abstract
本发明涉及图像处理设备、图像处理方法和存储介质。该图像处理设备针对通过对作为高清晰度目标所选择的当前图像进行分割所获得的多个部分区域中的各部分区域,计算与同在该当前图像之前的作为高清晰度目标的先前图像相对应的部分区域的相似度,通过将相似度等于或大于阈值的一个或多于一个部分区域的集合组合为一个局部区域并将相似度小于阈值的部分区域视为单独局部区域,来从当前图像确定多个局部区域。图像处理设备使用基于当前图像所选择的学习模型来推断多个局部区域中的各局部区域的高频分量。
Description
技术领域
本发明涉及使用机器学习来使图像组具有高清晰度的图像处理设备和方法、以及存储介质。
背景技术
关于使用机器学习的超分辨率摄像,在放大图像并进行分辨率转换时,可以通过使用机器学习推断不能经由像素值的线性插值处理所估计的高频分量来生成高清晰度图像。在超分辨率摄像中,首先,使用图像组G以及通过使用任意方法使图像组G的图像劣化所获得的劣化图像作为教师数据来生成学习模型。学习模型是通过学习原始图像和劣化图像之间的像素值的差并更新自身的超分辨率处理参数所生成的。在将高频分量不足的图像H输入到以这种方式生成的学习模型中时,通过使用该学习模型进行推断来获得高频分量。通过将经由推断所获得的高频分量叠加在图像H上,可以生成高清晰度图像。在对运动图像执行超分辨率处理时,可以通过将所有帧一次一个地输入到学习模型中来生成高清晰度运动图像。
通常,在使用学习模型来提供产品或服务时,由开发人员执行用以收集教师数据并生成学习模型的处理,并将所生成的学习模型提供给用户。因此,在学习处理时,用户将输入的运动图像的内容是未知的。因此,在开发人员侧,准备在图像图案方面没有偏差的许多类型和种类的大量图像作为教师数据,并且在学习中重复使用,使得可以对所有种类的推断目标运动图像进行统一准确度的推断。
例如,在日本特开2019-204167(专利文献1)中,描述了如下的技术:使用利用各种各样的图像所训练的学习模型来对运动图像执行超分辨率处理。然而,由于教师数据的种类很多,因此与用户所指定的推断目标运动图像Q具有高相似度的教师数据的量可能非常少。在使用这种学习模型的情况下,使用与推断目标运动图像Q具有低相似度的图像的学习结果被反映在推断处理中。结果,提高等局限于通过强调被摄体的边缘来提高锐度,并且准确地推断被摄体上的诸如详细图案等的高频分量是困难的,这意味着推断准确度不能被认为是高的。
在日本特开2019-129328(专利文献2)中描述了用于解决这种问题的系统的示例。这里描述的方法包括:仅使用在摄像场所和摄像条件等方面与推断目标运动图像相似的图像作为教师数据来在用户侧进行学习,以获得与在使用各种各样的图像来进行学习时相比具有更高清晰度的运动图像。
在专利文献2中,使用具有共同摄像场所但具有不同摄像时间的教师数据来进行学习。更具体地,收集先前在公共汽车的路线的区段S中拍摄到的视频并将该视频用于学习,然后使用如此得到的学习模型来针对区段S的实时视频执行推断。这种情况下的教师数据限于在区段S中拍摄到的数据。因此,获得了与推断目标具有相对较高的相似度的图像组,这意味着可以预期提高的推断准确度。然而,在区段S中拍摄到的视频中,在区段S的起点的视频和区段S的终点的视频中摄像场所不同。因此,所拍摄到的被摄体也非常不同,这使得难以说相似性高。这导致整个区段S的推断准确度降低。另外,在用作教师数据的先前视频和推断目标的实时视频中,视频可以示出同一地点,但所示的被摄体可以不同。由于不能针对未学习的被摄体进行准确的推断,因此这也导致推断准确度降低。
此外,如专利文献2中所述,根据诸如天气等的摄像条件将先前视频分类为多个组,并且通过使用各组的数据独立地进行学习来生成多个学习模型。这使得能够根据实时视频的摄像条件来切换使用中的学习模型。根据这种技术,可以抑制由摄像条件的差异引起的推断准确度的降低。然而,即使当诸如天气等的条件相同时,在照度等的值甚至略微不同时,在教师数据和推断目标之间频率分量也不同。因此,不能说充分抑制了推断准确度的降低。由于这些原因,专利文献2的技术不能为高频分量提供足够的推断准确度。
发明内容
根据本发明的方面,提供了可以使用机器学习来以高准确度使图像具有高清晰度的图像处理设备。
根据本发明的一方面,一种图像处理设备,其使用第一图像组来使第二图像组的图像具有高清晰度,所述第二图像组的图像具有比所述第一图像组的图像更少的高频分量,所述图像处理设备包括:选择部件,用于基于从所述第二图像组中选择作为高清晰度目标的当前图像,从使用所述第一图像组中所包括的作为图像对其中之一的图像的多个教师数据中选择要在学习中所使用的教师数据;计算部件,用于针对通过分割所述当前图像所获得的多个部分区域中的各部分区域,计算与同所述当前图像之前的作为高清晰度目标的先前图像相对应的部分区域的相似度;确定部件,用于通过将所述相似度等于或大于阈值的一个或多于一个部分区域的集合组合为一个局部区域、并将所述相似度小于所述阈值的部分区域视为单独的局部区域,来从所述当前图像确定多个局部区域;模型生成部件,用于针对所述多个局部区域中的各局部区域,使用所述选择部件所选择的教师数据来生成用于推断高频分量的学习模型;推断部件,用于针对所述多个局部区域中的各局部区域,使用所述学习模型来推断高频分量;以及图像生成部件,用于基于所述当前图像和所述推断部件所推断的高频分量来生成高清晰度图像。
根据本发明的另一方面,一种图像处理方法,其使用第一图像组来使第二图像组的图像具有高清晰度,所述第二图像组的图像具有比所述第一图像组的图像更少的高频分量,所述图像处理方法包括:基于从所述第二图像组中选择作为高清晰度目标的当前图像,从使用所述第一图像组中所包括的作为图像对其中之一的图像的多个教师数据中选择要在学习中所使用的教师数据;针对通过分割所述当前图像所获得的多个部分区域中的各部分区域,计算与同所述当前图像之前的作为高清晰度目标的先前图像相对应的部分区域的相似度;通过将所述相似度等于或大于阈值的一个或多于一个部分区域的集合组合为一个局部区域、并将所述相似度小于所述阈值的部分区域视为单独的局部区域,来从所述当前图像确定多个局部区域;针对所述多个局部区域中的各局部区域,使用在所述选择中所选择的教师数据来生成用于推断高频分量的学习模型;针对所述多个局部区域中的各局部区域,使用所述学习模型来推断高频分量;以及基于所述当前图像和所述推断中所推断的高频分量来生成高清晰度图像。
根据本发明的另一方面,提供了一种存储介质,其存储有程序,所述程序用于使计算机用作上述图像处理设备的部件。
通过以下参考附图对典型实施例的说明,本发明的更多特征将变得明显。
附图说明
图1是示出根据第一实施例的图像处理设备的结构的框图。
图2是用于说明根据第一实施例的图像处理设备的功能结构的图。
图3是示出根据第一实施例的输入运动图像的帧结构的示例的图。
图4是用于说明根据第一实施例的图像处理设备的功能结构的图。
图5是示出根据第一实施例的候选数据库的数据结构的示例的图。
图6是根据第一实施例的教师数据候选获得处理的流程图。
图7是根据第一实施例的高清晰度运动图像生成处理的流程图。
图8是用于说明根据第一实施例的学习/推断过程的示意图。
图9是示出根据第二实施例的输入运动图像的帧结构的示例的图。
图10是根据第二实施例的教师数据候选获得处理的流程图。
图11是示出根据第三实施例的输入运动图像的帧结构的示例的图。
图12是根据第三实施例的教师数据候选获得处理的流程图。
图13是示出根据第五实施例的运动图像的帧结构的示例的图。
图14是用于说明根据第五实施例的图像处理设备的功能结构的图。
图15是根据第五实施例的高清晰度运动图像生成处理的流程图。
图16是根据第六实施例、第七实施例、第八实施例和第九实施例的高清晰度运动图像生成处理的流程图。
图17是示出根据第六实施例的学习/推断处理的示例的图。
图18是根据第八实施例的高清晰度运动图像生成处理的流程图。
图19是示出根据第九实施例的教师数据区域选择的示例的图。
图20是根据第十实施例的局部区域提取的流程图。
图21是用于说明根据第十实施例的局部区域提取的概念的图。
具体实施方式
在下文,将参考附图来详细说明实施例。注意,以下实施例并不旨在限制所要求保护的发明的范围。在实施例中描述了多个特征,但没有限制成需要所有这些特征的发明,并且可以适当地组合多个这些特征。此外,在附图中,将相同的附图标记赋予给相同或相似的配置,并且省略了其冗余说明。
第一实施例
图像处理设备的概述
第一实施例的图像处理设备接受由同一摄像设备同时拍摄的运动图像A和运动图像B这两个运动图像作为输入。运动图像A的分辨率XA和帧频FA与运动图像B的分辨率XB和帧频FB之间的关系对应于XA>XB且FA<FB。图像处理设备具有以下功能(高清晰度运动图像生成功能):使用运动图像A和运动图像B的帧来生成学习模型,并且经由使用所生成的学习模型的推断从运动图像B生成具有分辨率XA和帧频FB的运动图像C。
图像处理设备的结构的说明
图1是示出根据第一实施例的图像处理设备100的硬件结构的示例的框图。控制单元101是诸如中央处理单元(以下称为CPU)等的运算设备。控制单元101通过将只读存储器(以下称为ROM)102中所存储的程序加载到随机存取存储器(以下称为RAM)103的工作区域上并执行这些程序来实现各种类型的功能。控制单元101例如可以用作包括以下使用图2所述的分析单元211和解码运动图像生成单元212以及以下使用图4所述的候选获得单元413和教师数据提取单元414的各种功能块。ROM 102存储由控制单元101执行的控制程序。RAM103用作控制单元101执行程序的工作存储器、以及各种类型的数据的临时存储区域等。
解码单元104将以由运动图片专家组(以下简称为MPEG)设置的编码格式压缩的运动图像或图像数据解码为未压缩数据。学习/推断单元105包括接受教师数据作为输入并生成和更新学习模型的功能块(以下使用图4所述的学习单元451)。此外,学习/推断单元105包括通过使用经由学习所生成的学习模型分析输入图像并推断高频分量来生成该输入图像的高清晰度图像的功能块(以下使用图4所述的推断单元452)。在本实施例中,作为学习模型,使用基于卷积神经网络(以下缩写为CNN)的超分辨率处理所用的CNN模型。这用于经由线性插值放大输入图像、生成要与放大图像相加的高频分量、并且将这两者相加并合成。
存储单元106由可拆卸地连接到图像处理设备100的存储介质(诸如硬盘驱动器(HDD)或存储卡等)和控制该存储介质的存储介质控制设备构成。存储介质控制设备根据来自控制单元101的命令,控制存储介质初始化、以及存储介质和RAM 103之间的用于数据的读取和写入的数据传送等。总线107是连接各功能的信息通信路径。控制单元101、ROM 102、RAM 103、解码单元104、学习/推断单元105和存储单元106彼此通信地连接。
注意,本实施例中描述的硬件块和由此实现的功能块不需要具有上述配置。例如,控制单元101、解码单元104和学习/推断单元105中的两个或多于两个块可以由一个硬件来实现。此外,一个功能块的功能或多个功能块的功能可以通过两个或多于两个硬件之间的协作来执行。各功能块可以通过CPU执行加载在存储器上的计算机程序来实现,或者可以由专用硬件来实现。此外,功能块中的一个或多于一个可以存在于云服务器上,并且被配置为经由通信传送处理结果数据。例如,解码单元104可以由与控制单元101相同的CPU来实现,或者可以由不同的CPU来实现。可替代地,解码单元104可以由通过从控制单元101接收指令进行操作的图形处理单元(GPU)来实现。在另一情况下,解码单元104可以通过利用被配置用于组合处理的电子电路的硬件处理来实现。例如,学习/推断单元105可以由与控制单元101相同的CPU来实现,或者可以由不同的CPU来实现。可替代地,学习/推断单元105可以由通过从控制单元101接收指令进行操作的GPU来实现。在另一情况下,学习/推断单元105可以通过利用被配置用于学习和推断的电子电路的硬件处理来实现。
存储介质中所存储的数据及其解码和加载方法
图2是用于说明用于执行经由控制单元101(分析单元211和解码运动图像生成单元212)加载压缩运动图像数据的处理的功能块的图。存储单元106存储作为高清晰度运动图像生成处理所用的输入数据的运动图像a和运动图像b。这里使用的术语运动图像是指在时间上连续的一个或多于一个图像数据。本实施例的运动图像a和运动图像b由具有图像传感器的摄像设备同时拍摄,并通过MPEG方法进行压缩。运动图像a和运动图像b可以通过对由单个图像传感器拍摄到的图像附加地执行间隔剔除或缩小处理来生成,或者可以通过利用具有不同分辨率和帧频的图像传感器拍摄同一被摄体来生成。这里,运动图像a和运动图像b是通过对由单个摄像设备的单个图像传感器拍摄到的单个图像执行不同的图像处理所获得的两个图像组。运动图像a和运动图像b的运动图像数据通过MPEG方法进行压缩,与摄像时间信息一起复用,并以MP4格式存储。注意,可以使用除上述以外的格式,只要可以成对地获得来自存储单元106的图像数据和相应的摄像时间信息即可。
分析单元211具有如下的功能:解析存储单元106中所存储的运动图像数据(在本示例中为MP4文件),并且计算要封装的压缩图像数据以及作为元数据所登记的时间信息在文件中的存储位置。利用MP4格式,将指示帧数据和摄像时间信息在文件中的存储位置的位置信息存储在Moov部分中。分析单元211将运动图像a的Moov部分从存储单元106加载到RAM103上,并解析Moov部分,并且生成表Pa,该表Pa包括运动图像a的帧编号、指示帧数据的存储位置的位置信息和指示摄像时间的存储位置的位置信息。此外,分析单元211以类似的方式解析运动图像b的Moov部分,并且生成表Pb,该表Pb包括运动图像b的帧编号、指示帧数据的存储位置的位置信息和指示摄像时间的存储位置的位置信息。表Pa和表Pb保持在RAM103中。
必须执行用以将运动图像a和运动图像b转换成未压缩格式、使得它们可以用在高清晰度运动图像生成处理中的处理。如图2所示,控制单元101的解码运动图像生成单元212对运动图像a和运动图像b进行解码,生成运动图像A和运动图像B,并将它们存储在存储单元106中。更具体地,解码运动图像生成单元212参考RAM 103中所保持的表Pa和表Pb,并且将存储单元106中所存储的运动图像a和运动图像b的帧数据顺次输入到解码单元104。解码运动图像生成单元212将解码单元104所输出的未压缩格式的帧数据与通过参考表Pa和表Pb所获得的摄像时间信息进行复用,并将其存储在存储单元106中。这里,通过对运动图像a进行解码来获得运动图像A,并且通过对运动图像b进行解码来获得运动图像B。此外,解码运动图像生成单元212生成包括运动图像A的帧编号、指示帧数据的存储位置的位置信息和指示摄像时间的存储位置的位置信息的表PA,并将其存储在RAM 103中。以类似的方式,解码运动图像生成单元212生成包括运动图像B的帧编号、指示帧数据的存储位置的位置信息和指示摄像时间的存储位置的位置信息的表PB,并将其存储在RAM 103中。在图3中示出运动图像A和运动图像B的帧结构的示例。在图3中,n是运动图像A的总帧数,并且m是运动图像B的总帧数。由虚线表示的帧对(图像对A1和B2、A2和B5、以及A3和B8等)是包括相同摄像时间信息的帧对,并且这表示这些帧的图像是在相同定时拍摄的。此外,如上所述,运动图像A的分辨率XA与运动图像B的分辨率XB之间的关系为XA>XB,并且运动图像A的帧频FA与运动图像B的帧频FB之间的关系为FA<FB。
接着,将说明根据本实施例的用于生成高清晰度图像的处理。该处理大致分为教师数据候选获得处理和高清晰度运动图像生成处理这两部分。
图4是用于说明与第一实施例的图像处理设备100所执行的图像处理有关的功能块的结构和操作的图。如图2所述,运动图像A和运动图像B保持在存储单元106中,并且表PA和表PB保持在RAM 103中。教师数据候选获得处理由候选获得单元413执行。此外,高清晰度运动图像生成处理由教师数据提取单元414、学习单元451和推断单元452执行。候选获得单元413从运动图像A的帧组和运动图像B的帧组中提取与学习所用的教师数据候选相对应的帧对作为教师数据候选,并生成教师数据候选数据库(以下称为候选数据库D1)。从图像B的帧组获得作为高分辨率目标和高清晰度目标的帧By。为了生成适合于推断帧By的高频分量的学习模型,教师数据提取单元414还从候选数据库D1内所登记的教师数据候选中提取适合于学习的教师数据。教师数据提取单元414使用所提取的教师数据来生成教师数据数据库(以下称为教师数据库D2)。学习/推断单元105的学习单元451使用教师数据库D2并生成帧By用的学习模型M。推断单元452将作为高分辨率目标的帧By输入到学习单元451所生成的学习模型M中,并对帧By执行高清晰度处理。在下文,将更详细地说明教师数据候选获得处理和高清晰度运动图像生成处理。
教师数据候选获得处理
在教师数据候选获得处理中,经由控制单元101(候选获得单元413)生成候选数据库D1。在第一实施例中,候选获得单元413从运动图像A和运动图像B获得包括摄像时间一致的运动图像A的帧和运动图像B的帧的对作为教师数据候选。具体地,获得在运动图像A和运动图像B之间共用共同的摄像时间的所有对(图3中由虚线表示的帧对)作为教师数据候选。候选获得单元413在执行以下所述的学习处理之前检查哪些帧可以用作教师数据,构建候选数据库D1,并且登记检查结果。
图5是示出候选数据库D1的数据结构的示例的图。在候选数据库D1中,登记了来自运动图像A的帧组的能够用作教师数据的帧组TA和来自运动图像B的能够用作教师数据的帧组TB在运动图像文件中的帧编号。这里,将摄像时间一致的帧的对(帧编号的对)使用在候选数据库D1中特有的索引I关联在一起并进行登记。例如,对于图3所示的运动图像A和运动图像B,将帧对A1和B2、A2和B5、以及A3和B8(以下省略)作为在相同时间拍摄到的帧进行组合。在图5所示的候选数据库D1中,这些对被示出为按帧编号存储并具有特有索引I。以这种方式,使用候选数据库D1来管理所获得的教师数据候选。
现在将使用图6的流程图进一步详细说明上述的教师数据候选获得处理。在步骤S601中,候选获得单元413从运动图像A的帧中选择一个帧,并从表PA获得与所选择的帧相对应的时间信息。在本实施例中,从存储单元106中所存储的运动图像A的顶部开始顺次选择帧。具体地,候选获得单元413从存储单元106中所存储的运动图像A的顶部开始顺次选择一个帧。在下文,所选择的帧被称为帧Ax。候选获得单元413参考RAM 103中所存储的表PA,并从存储单元106读出与帧Ax相对应的时间信息,并将该时间信息传送到RAM 103。
在步骤S602中,候选获得单元413将步骤S601中读出的帧Ax的时间信息与运动图像B的各帧的时间信息进行比较。具体地,候选获得单元413参考表PB中所存储的摄像时间的位置信息,从存储单元106顺次获得运动图像B的各帧的摄像时间信息,并将这些摄像时间信息与帧Ax的时间信息进行比较。在步骤S603中,候选获得单元413获得具有与帧Ax的时间信息一致的摄像时间的运动图像B的帧,并将该帧设置为帧Bx。
在步骤S604中,候选获得单元413向上述的帧Ax和帧Bx的组合赋予在候选数据库D1中特有的索引Ix,并将这两者登记在候选数据库D1中。具体地,候选获得单元413向帧Ax和帧Bx的组合发出特有索引Ix,并将索引Ix、帧Ax的运动图像A中的帧编号和帧Bx的运动图像B中的帧编号登记在候选数据库D1中。
在步骤S605中,控制单元101判断是否对运动图像A的所有帧完成了上述步骤S601至S604的处理。在控制单元101判断为处理已完成的情况下(步骤S605中为“是”),处理结束。在控制单元101判断为处理未完成的情况下(步骤S605中为“否”),处理返回到步骤S601,并且对运动图像A的下一帧执行上述处理。通过该处理生成候选数据库D1。
注意,在本实施例中,在步骤S602中,经由摄像时间的比较来判断要登记在候选数据库D1中的帧的对。然而,不意图进行这样的限制。例如,将帧Ax缩小到分辨率XB,并且使用指示该帧Ax与运动图像B的各帧的图像之间的相似性的指标来进行相似性判断。然后可以使用判断结果来选择要登记在候选数据库D1中的一对帧。在这种情况下,候选获得单元413具有用于通过比较两个或多于两个图像数据来判断相似度的相似度判断功能。注意,作为指示图像之间的相似度的指标,例如可以使用结构相似性(SSIM)。此外,在获得指示相似度的指标时,将帧Ax的图像缩小到分辨率XB。然而,不意图进行这样的限制。可以不缩小帧Ax的图像,或者缩小之后的分辨率可以是除XB以外的分辨率。
高清晰度运动图像生成处理
接着,将说明由控制单元101(教师数据提取单元414)和学习/推断单元105(学习单元451和推断单元452)执行的高清晰度运动图像生成处理。首先,将参考图4说明高清晰度运动图像生成处理的概述。教师数据提取单元414从候选数据库D1中选择适合于推断目标帧By所用的学习模型的学习的教师数据,并生成教师数据库D2(图4)(以下将参考图7的步骤S702至S703说明其详情)。学习单元451使用所提取的教师数据生成学习模型(步骤S704)。此外,推断单元452使用学习模型来推断推断目标帧By的高频分量,并执行高清晰度处理(步骤S705),并通过将推断目标帧By转换成高清晰度来获得帧(图像)Cy。注意,在开始高清晰度运动图像生成处理之前,控制单元101在存储单元106上生成运动图像C。在高清晰度运动图像的生成开始时,运动图像C处于无任何帧数据的空状态。推断单元452将所生成的帧Cy顺次存储在运动图像C中。
接着,将参考图7中的流程图详细说明用于生成上述的高清晰度运动图像的处理。在步骤S701中,教师数据提取单元414从运动图像B读出作为高清晰度目标帧的一帧。在本实施例中,教师数据提取单元414从存储单元106中所存储的运动图像B的顶部开始顺次地以一次一帧的方式读出帧。在下文,步骤S701中读出的帧被定义为帧By。更具体地,教师数据提取单元414参考表PB并从存储单元106读出帧By的帧数据和摄像时间信息,并且将其传送到RAM 103。
在步骤S702中,教师数据提取单元414从候选数据库D1内所登记的教师数据候选TB中提取与帧By的摄像时间差小于系统中预先设置的阈值的帧,并将这些帧登记在教师数据库D2中。作为阈值,例如,可以使用运动图像A的一帧的显示时间段(经由帧频XA的一帧的显示时间段)。教师数据库D2的结构与候选数据库D1的结构(图5)相似。具体地,首先,教师数据提取单元414参考表PB的位置信息,并且获得候选数据库D1中所登记的各帧组TB的时间信息。然后,教师数据提取单元414将所获得的各时间信息与帧By的时间信息进行比较,从帧组TB中提取这两者之差小于阈值的帧,并将这些帧登记在RAM 103上的教师数据库D2中。在下文,通过该处理登记在教师数据库D2中的运动图像B的帧组由UB表示。注意,在本实施例中,在构建教师数据库D2时,从候选数据库D1提取与帧By的摄像时间差小于阈值的帧组。然而,不意图进行这样的限制。使用指示与帧By的相似度的指标,可以提取帧组UB。例如,教师数据提取单元414可以使用SSIM从帧组TB中提取与帧By的相似度的指标高于系统中预先设置的阈值的帧组,并将该帧组登记为帧组UB。
在步骤S703中,教师数据提取单元414将候选数据库D1中与帧组UB的各帧的对相对应的帧组TA的帧登记在教师数据库D2中。具体地,教师数据提取单元414参考RAM 103上的候选数据库D1,并且将经由索引I与帧组UB的各帧相关联的帧组TA的帧登记在教师数据库D2中。此时,相关联的两个帧的组合不改变,并且将教师数据库D2中特有的索引J指派给各组合。在下文,教师数据库D2中所登记的运动图像A的帧组由UA表示。
在步骤S704中,学习单元451使用教师数据库D2中所登记的教师数据(帧组UA和帧组UB)来进行学习,并生成学习模型M。
图8是示意性示出学习单元451的学习模型生成功能的图。学习模型生成功能包括学习过程和推断过程,并且推断处理被划分为使用包括CNN的滤波器的特征提取过程以及重新配置过程。首先,在特征提取过程中,学习单元451将来自帧组UB的单个图像(定义为图像E)输入到CNN中,经由CNN提取卷积特征,并生成多个特征图。接着,在重新配置过程中,学习单元451经由所有特征图的转置卷积进行上采样,并生成预测高频分量。此外,在重新配置过程中,学习单元451通过向通过经由双三次方法等放大图像E所获得的图像E’加上预测高频分量来重新配置图像,并且生成估计高清晰度图像G。在学习过程中,学习单元451将在上述推断过程中生成的估计高清晰度图像G和与来自帧组UA的图像E相对应的图像H进行比较,并且使用这两者之间的差通过反向传播法对学习模型M进行微调。学习单元451通过对同一图像E重复该处理预定次数来提高推断准确度。通过对帧组UB的各图像执行上述一系列处理,构建了适合于帧组UB的推断处理的学习模型M。
如上所述,学习单元451参考教师数据库D2、表PA和表PB,并从存储单元106读出作为教师数据所登记的帧对的帧数据,并执行上述学习模型生成功能。学习单元451将通过学习模型生成功能所生成的学习模型M存储在RAM 103中。
在步骤S705中,推断单元452使用在步骤S704中生成的学习模型M经由推断从帧By生成高清晰度帧Cy。具体地,首先,推断单元452读出RAM 103中所存储的学习模型M。接着,推断单元452将步骤S701中保持在RAM 103中的帧By的帧数据(图像)输入到学习模型M的CNN中,并且生成在将帧By的图像放大到分辨率XA时预期的高频分量。推断单元452将所生成的高频分量与通过将帧By的图像线性放大到分辨率XA所获得的图像相加以生成分辨率XA的高清晰度帧Cy的图像,并将该图像存储在RAM 103中。注意,针对帧By执行的从高频分量推断到高清晰度图像生成的处理是与以上使用图8所述的推断过程的处理相似的处理。推断单元452将RAM 103中所存储的高清晰度帧Cy的帧数据添加到存储单元106上的高清晰度运动图像C的末尾。此外,帧By的摄像时间信息被复制并被复用为高清晰度帧Cy的摄像时间,并且存储在运动图像C中。
在步骤S706中,控制单元101判断是否对运动图像B的推断目标范围的帧(这可以是运动图像B的所有帧或一部分帧)完成了上述处理。在控制单元101判断为处理没有完成的情况下(步骤S706中为“否”),处理进入步骤S701,由教师数据提取单元414选择运动图像B的下一帧作为帧By,并且重复上述处理。在控制单元101判断为处理完成的情况下(步骤S706中为“是”),当前处理结束。如上所述,在高清晰度运动图像生成处理结束时,将具有分辨率XA和帧频FB的高清晰度运动图像C以未压缩格式存储在存储单元106中。
注意,在上述实施例中,功能块中的每一个仅由控制单元101或仅由学习/推断单元105实现。然而,不意图进行这样的限制。例如,各功能块可以经由控制单元101和学习/推断单元105之间的协作来实现。例如,推断单元452的功能可以由控制单元101和学习/推断单元105来实现,并且用以将高清晰度帧Cy和摄像时间存储在存储单元106上的运动图像C中的处理可以由控制单元101来执行。
此外,在本实施例中,在对所有运动图像执行学习处理和高清晰度运动图像生成处理之前执行教师数据候选获得处理,但教师数据候选获得处理可以与高清晰度运动图像生成处理并行地执行。此外,在本实施例中,在步骤S704中,针对各推断目标帧新生成学习模型M,并且丢弃先前生成的学习模型M。然而,不意图进行这样的限制。例如,可以预先加载在外部训练的学习模型M’,并且可以在步骤S704中对所加载的学习模型M’进行使用帧组UA和帧组UB的追加学习。
如上所述,根据第一实施例,使用利用在相同摄像时间段内拍摄到的图像组中的与高清晰度目标图像相似的图像组所训练的学习模型M。这使得能够以高准确度使图像具有高清晰度。
此外,使用来自两个图像组的同一时间的图像对作为教师数据。这使得能够进行甚至更高准确度的学习。
第二实施例
在第一实施例中的用于获得教师数据候选的处理中,将摄像时间一致的运动图像A的帧和运动图像B的帧的组合登记在候选数据库D1中。在从使用单个摄像设备的同一图像传感器同时拍摄到的运动图像获得运动图像A和运动图像B的情况下,如图3所示,可以从运动图像A和运动图像B获得具有相同摄像时间的帧。然而,利用该方法,在运动图像A和运动图像B是由多个图像传感器在相同摄像时间段中拍摄到的运动图像的情况下,可能无法适当地进行教师数据候选的提取。这是因为,如图9所示,对于运动图像A的帧,在运动图像B中并不总是存在摄像时间一致的帧。注意,用于经由多个图像传感器拍摄运动图像A和运动图像B的结构的示例包括使用包括多个图像传感器的摄像设备进行摄像的结构、以及使用各自具有一个或多于一个图像传感器的多个摄像设备进行摄像的结构等。在第二实施例中的用于获得教师数据候选的处理中,通过即使运动图像A的帧和运动图像B的帧的摄像时间不一致、也将时间差小于预定阈值的帧的组合登记在候选数据库D1中,来解决上述问题。
在第二实施例中,图像处理设备100的结构以及高清晰度图像生成处理与第一实施例中的这两者相似,但用于获得教师数据候选的处理的一部分是不同的。图10是用于说明根据第二实施例的用于获得教师数据候选的处理的流程图。在下文,将主要说明与第一实施例中的用于获得教师数据候选的处理(图6)不同的部分。
步骤S1001至S1002的处理与第一实施例(图6)的步骤S601到S602相似。在步骤S1003中,候选获得单元413从运动图像B的帧获得与运动图像A的一个帧Ax的摄像时间差小于预定阈值的帧作为帧Bx,并将该帧登记在RAM103上的候选数据库D1中。注意,作为阈值,例如,可以使用运动图像B的以帧频XB的每帧的显示时间段。步骤S1004至S1005的后续处理与第一实施例(图6)的步骤S604至S605相似。
以这种方式,根据第二实施例,即使在运动图像A和运动图像B是由多个图像传感器获得的情况下,也可以适当地进行教师数据候选的提取。
第三实施例
在第一实施例和第二实施例中,运动图像A和运动图像B至少是在相同摄像时间段中拍摄的。因此,在第一实施例和第二实施例的教师数据候选获得处理中,如图11所示,在运动图像A和运动图像B由相同或多个摄像设备在不同时间(不重叠的摄像时间段)拍摄的情况下,不能获得教师数据候选。在第三实施例中,将说明用于针对如图11所示的运动图像A和运动图像B适当地获得教师数据候选的教师数据候选获得处理。
在根据第三实施例的用于获得教师数据候选的处理中,计算指示运动图像A的帧和运动图像B的帧之间的帧的相似度的指标,并且将具有等于或大于系统中预先设置的阈值的指标的帧对登记在候选数据库D1中。注意,作为指示帧的相似度的指标,例如如上所述可以使用SSIM。此外,在判断相似性时,可以将运动图像A的帧的图像缩小到分辨率XB,并且可以使用该图像和运动图像B的各帧的图像来计算指示相似度的指标。然而,此时,可以不缩小运动图像A的帧的图像,或者缩小之后的分辨率可以是除XB以外的分辨率。
图12是用于说明根据第三实施例的用于获得教师数据候选的处理的流程图。在下文,主要将参考图12说明与第一实施例中的用于获得教师数据候选的处理(图6)不同的部分。
在步骤S1201中,候选获得单元413从运动图像A的帧中选择一个帧,并且加载所选择的帧的帧数据。候选获得单元413从存储单元106中所存储的运动图像A的顶部开始顺次选择一帧(在下文,所选择的帧被称为帧Ax)。候选获得单元413参考RAM 103中所存储的表PA,并将所选择的帧Ax的帧数据从存储单元106传送到RAM 103。
在步骤S1202中,候选获得单元413计算步骤S1201中读出的帧Ax与运动图像B的各帧之间的相似度。更具体地,候选获得单元413参考表PB的(与帧数据相关的)位置信息,并将运动图像B的各帧的帧数据从存储单元106顺次获得到RAM 103。然后,候选获得单元413使用相似度指标计算功能(本实施例中为SSIM)计算帧Ax和各帧之间的相似度指标,并将其存储在RAM 103中。在步骤S1203中,候选获得单元413从步骤S1202中计算出的相似度指标中获得具有最高值的运动图像B的帧作为帧Bx。步骤S1204至S1205的后续处理与第一实施例(图6)的步骤S604至S605相似。
如上所述,根据第三实施例,即使在两个图像组(运动图像A和运动图像B)的摄像时间段不重叠的情况下,也可以适当地获得教师数据候选。
第四实施例
在第四实施例中,对于第一实施例至第三实施例的学习处理,将说明考虑到图像相似性的学习模型M的性能提高。如第一实施例中所述,针对图7的步骤S701中选择的帧By提取适当的教师数据,并且在步骤S704中使用教师数据来生成或更新学习模型M。在生成或更新学习模型M时,如图8所示,使用反向传播来调整网络参数。在第四实施例中,基于在学习中使用的帧(图像E)以及作为高分辨率或高清晰度目标的帧By的属性(例如,摄像时间)或者这些帧的图像来控制经由反向传播的调整的强度。更具体地,学习单元451设置系数,使得在学习过程中,在帧By与顺次输入的帧组UB的各帧之间的相似性高的情况下,对网络参数更新的影响强,并且在该相似性低的情况下,该影响弱。这里,帧之间的相似性可以简单地基于帧By和输入图像E之间的时间差来确定,或者可以通过使用SSIM等比较两个帧的图像来确定。在使用前者(使用时间差的方法)的情况下的示例配置中,如下所述,在时间差小于阈值时,将调整的强度乘以系数1,并且在时间差等于或大于阈值时,将调整的强度乘以系数0.5。
if(ABS(By和E之间的时间差)<阈值){系数=1}else{系数=0.5}
在使用后者(使用相似性的方法)的情况下的示例配置中,如下所述,使用SSIM作为调整强度的系数。
系数=SSIM(By和E)[0≤SSIM(x)≤1]
注意,如何应用强或弱影响的示例包括将使用学习过程中的反向传播的网络参数的更新率乘以上述系数的方法、以及将对输入图像E进行了学习循环的次数乘以系数而不将参数更新率乘以系数的方法等。
第五实施例
上述的第一实施例至第三实施例具有如下的配置:提取包括来自运动图像A的帧和来自运动图像B的帧的对作为教师数据候选并登记在候选数据库D1中。在第五实施例中,将运动图像A转换成运动图像B的分辨率XB以生成运动图像A’,并且候选获得单元413使用运动图像A和运动图像A’获得教师数据候选。换句话说,第五实施例的候选获得单元413从运动图像A’中提取具有与运动图像A的帧Ax相同的帧编号的帧Ax’,并将包括帧Ax和帧Ax’的对作为教师数据候选登记在候选数据库D1中。以下将详细说明第五实施例。
图像处理设备100的结构的说明
图像处理设备100的硬件结构和功能结构与第一实施例的硬件结构和功能结构(图1)相似。然而,第五实施例的控制单元101还具有用于经由双三次方法来缩小和转换图像的分辨率的分辨率转换功能。该分辨率转换功能在对RAM 103中所存储的图像数据执行分辨率缩小处理时,通过参考周围像素来计算需要插值的像素的像素值。
存储单元106中所存储的数据及其解码和加载方法
在第一实施例中,将存储单元106中的运动图像a和运动图像b转换成未压缩格式,并且将通过对运动图像a进行解码所获得的运动图像A和通过对运动图像b进行解码所获得的运动图像B存储在存储单元106中。此外,在第五实施例中,通过将运动图像A转换成运动图像B的分辨率XB来生成运动图像A’。更具体地,控制单元101参考RAM 103中所存储的表PA,并将存储单元106中所存储的运动图像A的帧(以下称为帧K)的帧数据顺次输入到控制单元101的分辨率转换功能中。然后,使用分辨率转换功能,输出分辨率XB的帧数据的帧(以下称为帧K’)。控制单元101参考表PA并将其与从存储单元106读出的帧K的摄像时间信息复用,并将其作为运动图像A’的帧存储在存储单元106中。此外,将保持运动图像A’的各帧的帧编号、指示帧数据的存储位置的位置信息和指示摄像时间数据的存储位置的位置信息的表PA’存储在RAM103中。
在图13中示出运动图像A、运动图像B和运动图像A’的示例。将通过使运动图像A的各帧的图像(A1至An)的分辨率缩小到分辨率XB所生成的图像(A1’至An’)作为运动图像A’存储在存储单元106中。注意,在上述示例中,将运动图像A的分辨率降低到XB,但不意图进行这样的限制。运动图像A’包括转换成比运动图像A的分辨率低的分辨率的图像,这就足够了。然而,通过使用转换成与高清晰度目标图像的分辨率相同的分辨率的图像,可以构建更适合于高清晰度目标图像的学习模型。
教师数据候选获得处理
图14是示出与第五实施例的图像处理设备100所执行的图像处理有关的功能块的结构和操作的图。候选获得单元413针对运动图像A和运动图像A’的各帧获得具有相同帧编号的帧的组合,并将其登记在候选数据库D1中。更具体地,对于表PA中列出的运动图像A的各帧,候选获得单元413通过参考表PA’在运动图像A’中搜索具有一致的帧编号的帧。候选获得单元413将特有索引I指派给具有相同帧编号的运动图像A和运动图像A’的帧的组合,并将其登记在候选数据库D1中。候选数据库D1中所登记的运动图像A的帧组由TA表示,并且运动图像A’的帧组由TA’表示。
高清晰度运动图像生成处理
在下文,主要将参考图15的流程图来说明与第一实施例的处理(图7)不同的部分。
步骤S1501的处理与第一实施例(图7)的步骤S701相似。在步骤S1502中,教师数据提取单元414从候选数据库D1内所登记的教师数据候选的帧组TA’中提取与帧By的摄像时间差小于系统中预先设置的阈值的帧。作为阈值,例如,可以使用运动图像A的一帧的显示时间段(经由帧频XA的一帧的显示时间段)。教师数据提取单元414将所提取的帧登记在教师数据库D2中。
具体地,首先,教师数据提取单元414参考表PA’并获得帧组TA’中所登记的帧的时间信息。然后,教师数据提取单元414将所获得的帧组TA’的时间信息中的与帧By的时间差小于阈值的帧登记在RAM 103上的教师数据库D2中。在下文,教师数据库D2中所登记的运动图像A’的帧组被称为帧组UA’。注意,在本实施例中,从候选数据库D1中提取与帧By的摄像时间差小于预定阈值的帧。然而,不意图进行这样的限制。例如,可以从帧组TA’中提取具有如下的指标(例如,SSIM)的帧并登记在教师数据库D2中,该指标指示帧By的图像与帧组TA’中的各帧的图像之间的相似度高于系统中预先设置的阈值。
在步骤S1503中,教师数据提取单元414将经由索引I与帧组UA’的各帧相关联的帧组TA的帧登记在教师数据库D2中。具体地,教师数据提取单元414参考RAM 103上的候选数据库D1,并且将经由索引I与帧组UA’的各帧相关联的帧组TA的帧登记在教师数据库D2中。此时,相关联的组合(帧对)不改变,并且将教师数据库D2中特有的索引J指派给各组合。在下文,教师数据库D2中所登记的运动图像A的帧组被称为帧组UA。
在步骤S1504中,学习单元451参考教师数据库D2,并使用帧组UA和帧组UA’进行学习,并生成学习模型M。具体地,首先,学习单元451参考教师数据库D2以及表PA和PA’,从存储单元106读出帧数据,并将该帧数据输入到学习模型生成功能中。学习单元451使用通过学习模型生成功能所读出的帧数据进行学习,并将作为学习结果所生成的学习模型M存储在RAM 103中。学习模型的学习的详情如以上参考图8所述。步骤S1505至S1506的后续处理与第一实施例的处理(图7中的步骤S705至S706的处理)相似。
如上所述,根据上述实施例,基于高清晰度目标图像来选择在学习模型的学习中使用的教师数据。因此,使用所选择的教师数据训练的学习模型可以以更高的准确度推断高清晰度目标图像的高频分量,从而使得能够获得高度准确的高清晰度图像。换句话说,可以提高用于使运动图像具有高清晰度的运动图像超分辨率摄像的准确度。
注意,在上述实施例中,在获得教师数据候选时,与从运动图像A中选择的图像形成对的图像是基于摄像时间或与图像的相似性从运动图像B中选择的图像、或者是通过降低所选图像的分辨率所获得的图像。然而,本实施例不限于此。与从要用作教师数据候选的运动图像A中选择的图像相关的图像是具有比所选择的图像的分辨率低的分辨率的与所选择的图像相关的图像,这就足够了。例如,可以基于诸如摄像时的气温、摄像场所或摄像方向等的共同特性来判断图像是否与从运动图像A中选择的图像相关。
此外,在上述实施例中,处理具有在生成候选数据库D1之后生成教师数据库D2的两个阶段。然而,不意图进行这样的限制。例如,教师数据提取单元414可以基于帧By从运动图像A中提取可以是与教师数据的对的帧,并且可以使用所提取的帧和与所提取的帧相关的帧作为对来获得教师数据。然而,在顺次使运动图像B的多个图像具有高清晰度的情况下,如上述实施例中那样,生成候选数据库D1、然后根据高清晰度目标图像从候选数据库D1中提取并使用适当的教师数据,这是更高效的。
此外,在上述实施例中,处理的目标是运动图像a和具有比运动图像a低的分辨率的运动图像b。然而,不意图进行这样的限制。例如,未压缩的运动图像a和通过在进行压缩之后进行恢复所获得的运动图像b可以是处理目标。在这种情况下,可以在帧方面对运动图像a进项间隔剔除并被存储。以这种方式,作为上述实施例的处理目标的运动图像a和运动图像b之间的关系不限于分辨率大小关系,并且运动图像a具有比运动图像b更好的清晰度就足够了。换句话说,形成运动图像a(运动图像A)的图像组包括比形成运动图像b(运动图像B)的图像组更高的频率分量就足够了。例如,可以应用上述实施例的处理,只要运动图像a的图像组中的各图像与运动图像b的图像组中的一个或多于一个图像相对应、并且运动图像a的图像组中的图像具有比与运动图像b的图像组相对应的图像更高的频率分量即可。
此外,以上简单地说明了运动图像数据。然而,例如,在可以在运动图像的记录期间按预定定时生成静止图像的设备的情况下,可以在以下情况下应用上述实施例。换言之,可以使用静止图像作为与运动图像a相对应的数据,并且可以使用运动图像作为与运动图像b相对应的数据。例如,假定将上述实施例其中之一应用于用于利用图像传感器以60fps拍摄6K原始(Raw)数据大小的图像的摄像设备。此外,假定静止图像例如是在没有改变为6K大小的情况下在显像处理和静止图像压缩之后以诸如JPEG或HEIF等的格式存储的数据。此外,假定运动图像是在对通过将图像传感器获得的6K数据转换成2K数据大小所获得的原始数据进行显像处理和运动图像压缩之后以诸如MP4等的格式存储的数据(以60fps的2K大小的运动图像数据)。在这些假定下,通过在利用摄像设备以60fps向2K运动图像数据的记录期间用户按下释放开关并连续拍摄静止图像,例如,可以针对运动图像的帧频(60fps)生成按10fps的间隔的6K静止图像。通过将上述实施例其中之一应用于以这种方式生成的静止图像和运动图像,例如,可以生成与拍摄多个静止图像的时间段的运动图像相对应的具有静止图像质量的数据。换句话说,可以实现如下的系统,该系统获得看起来像以60fps的帧频拍摄运动图像的、具有作为静止图像的大小的6K大小的运动图像。此外,在这种情况下,使用摄像设备准备静止图像和运动图像,并且在摄像设备中,执行学习和推断处理以生成与运动图像相对应的静止图像的质量的数据。
第六实施例
在第六实施例中,将说明考虑到与第一实施例的学习处理和推断处理有关的图像相似性的学习性能和推断性能的提高。
在第一实施例中,针对在图7的步骤S701中选择的帧By提取适当的教师数据,并且在步骤S704中使用该教师数据来生成或更新学习模型M。此外,在步骤S705中,使用学习模型M来推断高频分量,并且生成高清晰度帧Cy。然而,利用该方法,在帧By中包括各种纹理(诸如人、建筑物、植被或海洋等的纹理等)的情况下,一次学习的信息量很大,这意味着可能无法获得期望的学习性能。这是因为,在一帧中包括各种图案的高频分量。因此,第六实施例的学习处理通过从一帧中提取某区域、针对各局部区域生成学习模型、使用针对各局部区域的学习模型进行推断、并且针对各局部区域生成转换成高清晰度的图像并组合这些图像,来解决该问题。
在第六实施例中,图像处理设备100的硬件结构和功能结构与第一实施例(图1)的硬件结构和功能结构相似。所提取的教师数据可以与根据第一实施例至第五实施例中的任一实施例一样。学习处理之后的处理是不同的,并且这将使用图16中的流程图和图17中的学习推断处理的示例来详细说明。
步骤S1601至S1603的处理与第一实施例(图7)的步骤S701到S703相似。
在步骤S1604中,推断单元452从推断目标帧By中提取局部区域(局部区域确定),并将该局部区域保持在RAM 103中。在下文,所提取的局部区域(局部图像)被称为局部区域Byn 1701。
接着,在步骤S1605中,学习单元451从教师数据库D2内所登记的教师数据(帧组UA和UB)中选择与同推断目标帧By的局部区域Byn相同的坐标位置相对应的局部区域UAn1702和UBn 1703(局部区域选择)。学习单元451将所选择的局部区域UAn 1702和局部区域UBn 1703保持在RAM 103中。在本实施例中,教师数据是一对局部区域,但教师数据可以是多对局部区域。注意,该局部区域组是具有几十个像素×几十个像素的均匀大小的矩形区域。然而,不意图进行这样的限制。
注意,与同作为推断目标的局部区域Byn 1701“相同的坐标位置相对应的局部区域”这一表述是指在帧组UB的情况下由与推断目标帧By的局部区域完全相同的坐标所指示的区域。换句话说,如果推断目标帧By的局部区域坐标是(sx,sy),则局部区域UBn 1703的局部区域坐标也是(sx,sy)。此外,在帧组UA中,考虑到运动图像A的分辨率XA与运动图像B的分辨率XB之间的比。例如,在XA:XB在宽度和高度方面与2:1的关系相对应的情况下,如果推断目标帧By的局部区域坐标是(sx,sy),则局部区域UAn 1702的局部区域坐标是(sx*2,sy*2)。在下文,这将被称为“与相同坐标位置相对应的局部区域”。
在步骤S1606中,学习单元451使用局部区域UAn 1702和局部区域UBn1703,并且使用图8所示的学习模型生成功能来生成学习模型Mn 1704(局部区域学习模型)。学习单元451从存储单元106读出作为教师数据所登记的帧对的帧数据,针对各局部区域将该帧数据输入到学习模型生成功能中,并将所生成的学习模型Mn 1704存储在RAM 103中。
在步骤S1607中,推断单元452使用步骤S1606中生成的学习模型Mn 1704来对局部区域Byn 1701进行推断,并生成高清晰度帧的局部区域Cyn 1705(局部高频分量)。首先,推断单元452读出步骤S1606中存储在RAM 103中的学习模型Mn 1704。接着,推断单元452将步骤S1604中保持在RAM 103中的局部区域Byn 1701输入到学习模型Mn 1704的CNN中,并且生成在将局部区域Byn 1701放大到局部区域UAn 1702时预期的高频分量。推断单元452通过将所生成的高频分量与通过将局部区域Byn 1701的图像线性放大到局部区域UAn 1702所获得的图像相加来生成局部区域Cyn 1705,并将其存储在RAM 103中。注意,针对局部区域Byn 1701执行的从高频分量推断到高清晰度图像生成的处理是与图8所示的推断过程相似的处理。
接着,在步骤S1608中,推断单元452基于帧坐标位置信息将RAM 103中所存储的局部区域Cyn 1705组合以生成高清晰度帧Cy 1706,并将其保持在RAM 103中。注意,图17中由虚线指示的1705表示局部区域Cyn,并且由实线指示的1706表示高清晰度帧Cy。
在步骤S1609中,控制单元101判断是否对帧By的所有局部区域完成了上述处理。在控制单元101判断为处理未完成的情况下(步骤S1609中为“否”),处理进入步骤S1605,并且对帧By的下一局部区域重复上述处理。在控制单元101判断为处理完成的情况下(步骤S1609中为“是”),处理进入步骤S1610。
在步骤S1610中,推断单元452将RAM 103中所存储的高清晰度帧Cy1706的帧数据添加到存储单元106上的高清晰度运动图像C的末尾。此外,帧By的摄像时间信息被复制并被复用为高清晰度帧Cy 1706的摄像时间,并且存储在运动图像C中。
在步骤S1611中,控制单元101判断是否对运动图像B的所有帧完成了上述处理。在控制单元101判断为处理未完成的情况下(步骤S1611中为“否”),处理进入步骤S1601,并且以运动图像B的下一帧作为帧By来重复上述处理。在控制单元101判断为处理完成的情况下(步骤S1611中为“是”),当前处理结束。如上所述,在高清晰度运动图像生成处理结束时,具有分辨率XA和帧频FB的高清晰度运动图像C以未压缩格式存储在存储单元106中。
如上所述,根据第六实施例,对于具有各种纹理和大量信息的高清晰度目标图像,通过针对各局部区域进行学习,可以缩减在一遍学习中使用的信息量,从而使得能够以更高的准确度进行学习。因此,可以生成更高清晰度的图像。
第七实施例
以下所述的第七实施例是通过改变根据第六实施例的针对各局部区域的学习处理来提高超分辨率的示例。
利用第六实施例的方法,从与推断目标不同的帧内,通过对与推断目标区域相同的位置中的区域进行学习来生成学习模型。然而,利用该方法,例如在被摄体移动很多的情况下,推断区域和教师数据中所示的内容可能不同。这可能使得难以获得期望的超分辨率性能。
为了解决该问题,在第七实施例的学习处理中,提供了相似度评估功能。经由该相似度评估功能,在教师数据候选中搜索与推断区域具有高相似度的区域,并且在学习中使用所获得的具有高相似度的区域。
高清晰度运动图像生成处理
第七实施例和第六实施例之间的区别仅在于图16所示的高清晰度运动图像生成处理的流程图中的步骤S1605的处理。因此,将仅说明根据第七实施例的步骤S1605的处理。
在步骤S1605中,推断单元452提取推断目标帧By的区域,并将其作为局部区域保持在RAM 103中。注意,该局部区域是具有几十个像素×几十个像素的均匀大小的矩形区域。然而,不意图进行这样的限制。控制单元101使用为了实现相似度评估功能所提供的SSIM,在教师数据库D2内所登记的教师数据的帧组UB中搜索与推断目标帧By的局部区域具有最高相似度的区域UBn,并将其保持在RAM 103中。学习单元451从帧组UA中选择用以与RAM103中所保持的局部区域UBn所属的帧形成对的帧,并且据此将具有与局部区域UBn相对相同的位置的局部区域UAn保持在RAM 103中。注意,可以将峰值信噪比(PSNR)、信噪比(SNR)或均方误差(MSE)用于相似度评估。此外,如上所述,在帧组UB内所包括的所有帧中搜索具有最高相似度的区域UBn。然而,不意图进行这样的限制。例如,可以在帧组UB中所包括的各帧中搜索具有最高相似度的区域UBn。在这种情况下,所获得的局部区域UBn和局部区域UAn的对数等于帧组UB中所包括的帧数。
如上所述,根据第七实施例,使用与推断区域具有高相似度的区域来进行学习。因此,即使对于被摄体移动很多的运动图像,也可以生成更高清晰度的图像。
第八实施例
在第八实施例中,说明第七实施例中描述的针对根据第六实施例的问题的解决方法,其不同于第七实施例的解决方法。
在第八实施例中,使用与推断区域相关的运动矢量的方法来识别具有高相似度的区域。然而,根据第八实施例,假定使用帧间预测将运动图像b压缩成MPEG-4AVC格式。注意,MPEG-4AVC是ISO/IEC.14496-10“MPEG-4第10部分:高级视频编码”的缩写。
接着,将主要说明第八实施例和第六实施例之间的区别。
存储介质中所存储的数据及其解码和加载方法
在根据第八实施例的分析单元211的处理中,除了用以解析存储单元106中所存储的运动图像数据的处理(如第一实施例中所述)之外,还执行以下处理。分析单元211解析存储运动图像b的MP4文件,并获得avcC box。然后,分析单元211获得avcC box中所包括的序列参数集(以下称为SPS)和图片参数集(以下称为PPS),并将这两者存储在RAM 103中。
高清晰度运动图像生成处理
第八实施例和第六实施例之间的高清晰度运动图像生成处理的区别在于图16的流程图中的步骤S1605至S1607的处理。因此,将使用图18的流程图说明根据第八实施例的步骤S1605至S1607的处理。
注意,在根据上述第六实施例的步骤S1604中,推断单元452提取推断目标帧By的局部区域Byn作为具有16×16个像素的均匀大小的矩形区域。
在步骤S1801中,在推断目标帧By是I图片的情况下,控制单元101使处理进入步骤S1803。在推断目标帧By是P图片或B图片的情况下,控制单元101使处理进入步骤S1802。例如,可以通过参考SPS和PPS来判断推断目标帧是I图片、P图片还是B图片。
在步骤S1802中,控制单元101从推断目标帧By的局部区域Byn获得宏块层。此外,在使用子宏块的情况下,获得子宏块预测。否则,获得宏块预测。
控制单元101经由推断目标帧By的局部区域Byn所属的宏块的子宏块预测或宏块预测来导出该宏块的预测单位块区域Bynb。预测单元块区域Bynb可以是宏块、通过分区所分割的宏块的各块、子宏块的各块或通过分区所分割的子宏块的各块。这些块是运动补偿的单位。
控制单元101经由SPS、PPS、宏块预测或子宏块预测导出块区域Bynb的运动矢量、被参考帧、mbPartIdx和subMbPartIdx。
这里,控制单元101针对各块区域Bynb生成六个信息(“mbPartIdx”、“subMbPartIdx”、“运动矢量的有无”、“运动矢量”、“参考/被参考帧”和“参考方向”),并将其存储在RAM 103中。“mbPartIdx”和“subMbPartIdx”是用于识别宏块中的哪个块区域是块区域Bynb的信息。“运动矢量”是指块区域Bynb的时间和空间移动,并且具体是指被参考帧的参考目的地块。“运动矢量的有无”是指块区域Bynb是否包括这样的运动矢量。“参考/被参考帧”是指在对提取了块区域Bynb的推断面部帧By进行解码时参考的被参考帧、以及参考块区域Bynb的参考帧。当在步骤S1802中生成“参考/被参考帧”时,存储被参考帧。此外,对于术语“参考方向”,由来自推断目标帧By的局部区域Byn的宏块的运动矢量所指示的方向是参考方向,并且由来自其他帧的宏块的推断目标帧By的局部区域Byn所指示的方向是被参考方向。在下文,上述六个信息被统称为运动矢量信息。
控制单元101检查经由所生成的运动矢量信息的“参考/被参考帧”可识别的帧是否存在于教师数据候选中。在由“参考/被参考帧”可识别的帧存在于教师数据候选中的情况下,控制单元101将来自运动矢量信息的“运动矢量的有无”设置为“是”,并且在由“参考/被参考帧”可识别的帧不存在于教师数据候选中的情况下,控制单元101将“运动矢量的有无”设置为“否”。
此外,例如,在推断目标帧By是B图片并且块包括两个运动矢量的情况下,使用在时间距离方面更接近推断目标帧By的被参考帧。在与推断目标帧By的时间距离差相同的情况下,使用在由运动矢量所指示的空间距离方面更接近的运动矢量以及被参考帧的信息。在时间距离和空间距离这两者都相等的情况下,可以使用被参考帧中的任一个。
在步骤S1803中,对于运动矢量信息中的“运动矢量的有无”为“否”的块区域Bynb,控制单元101在教师数据候选中搜索参考块区域Bynb的块。在下文,参考块区域Bynb的块也被称为参考源块。注意,用于获得判断块是否是块区域Bynb的参考源块所需的运动矢量和参考帧信息的方法已参考步骤S1802进行了说明,因此省略了该方法。
在找到参考块区域Bynb的块(块区域Bynb的参考源块)的情况下,将块区域Bynb的运动矢量信息中的“运动矢量的有无”更新为“是”。此外,将包括参考块区域Bynb的块的帧作为被参考帧存储在“参考/被参考帧”中。注意,所搜索的帧的范围在包括块区域Bynb的帧前或后的3个帧内。此外,所搜索的宏块的范围在按各MPEG-4AVC设置的各级别的MaxVmvR内。MaxVmvR是从运动图像b的SPS导出的。注意,所搜索的帧的范围和所搜索的宏块的范围不限于这些示例。
在步骤S1804中,针对运动矢量信息中的“运动矢量的有无”为“是”的各块区域Bynb,推断单元452从帧组UB获得参考目的地或参考源块区域UBXnb,并将其保持在RAM 103中。此外,推断单元452从帧组UA获得与同经由RAM103中所存储的各块区域Bynb的运动矢量信息所获得的块区域UBXnb相同的坐标位置相对应的块区域UAXnb,并将其保持在RAM 103中。换句话说,推断单元452从与块区域UBXnb所属的帧形成对的帧组UA的帧中获得与同块区域UBXnb相同的坐标位置相对应的块区域UAXnb。此外,推断单元452将块区域UAXnb与块区域UBXnb相关联,并将其保持在RAM 103中。
在步骤S1805中,控制单元101判断推断目标帧By的局部区域Byn中所包括的所有块区域Bynb的运动矢量信息的“运动矢量的有无”为“是”还是“否”。在控制单元101判断为所有块区域Bynb的“运动矢量的有无”为“是”的情况下(步骤S1805中为“是”),处理进入步骤S1806。
在步骤S1806中,推断单元452基于块区域Bynb的坐标位置信息来将RAM 103中所存储的块区域UBXnb组合,并生成局部区域UBXn。推断单元452将所生成的局部区域UBXn保持在RAM 103中。
此外,推断单元452基于块区域Bynb的坐标位置信息来组合与同RAM103中所存储的块区域UBXnb相同的坐标位置相对应的块区域UAXnb,并生成局部区域UAXn。推断单元452将所生成的局部区域UAXn保持在RAM 103中。
此外,学习单元451使用RAM 103中所存储的局部区域UAXn和局部区域UBXn以及图8所示的学习模型生成功能来生成学习模型Mn。注意,局部区域UBXn是与同成对帧的局部区域UAXn相同的坐标位置相对应的教师数据。学习单元451从RAM 103读出教师数据,执行学习模型生成功能,并将所生成的学习模型Mn存储在RAM 103中。
在步骤S1807中,推断单元452使用步骤S1806中所生成的学习模型Mn来对帧By的局部区域Byn进行推断,并生成高清晰度帧的局部区域Cyn。
首先,推断单元452读出步骤S1806中存储在RAM 103中的学习模型Mn。接着,推断单元452将RAM 103中所保持的帧By的局部区域Byn输入到学习模型Mn的CNN中,并且生成在将推断目标帧By放大到分辨率XA时在局部区域Byn中预期的高频分量。推断单元452通过将所生成的高频分量与通过基于分辨率XB和分辨率XA之间的比线性放大所获得的局部区域Byn相加来生成局部区域Cyn,并将其存储在RAM 103中。注意,针对局部区域Byn所执行的从高频分量推断到高清晰度图像生成的处理是与图8所示的推断过程的处理相似的处理。
在步骤S1805中,在控制单元101判断为局部区域Byn包括“运动矢量的有无”为“否”的块区域Bynb的情况下(步骤S1805中为“否”),处理进入步骤S1808。在步骤S1808中,控制单元101判断针对局部区域Byn中所包括的各块区域Bynb的运动矢量信息的“运动矢量的有无”为“是”还是“否”。在控制单元101判断为“运动矢量的有无”为“是”的情况下(步骤S1808中为“是”),处理进入步骤S1809。另一方面,在步骤S1808中,在控制单元101判断为“运动矢量的有无”为“否”的情况下(步骤S1808中为“否”),处理进入步骤S1811。
在步骤S1809中,学习单元451使用块区域Bynb和局部区域UBXnb,使用图8所示的学习模型生成功能来生成学习模型Mnb,并将其保持在RAM103中。
更具体地,在步骤S1809中,学习单元451使用RAM 103中所存储的局部区域UBXnb和局部区域UAXnb以及图8所示的学习模型生成功能来生成块区域Bynb的推断所用的学习模型Mnb。注意,局部区域UBXnb是与同成对帧的局部区域UAXnb相同的坐标位置相对应的教师数据。学习单元451从RAM103读出教师数据,将其输入到学习模型生成功能中,并将所生成的学习模型Mnb存储在RAM 103中。
在步骤S1810中,推断单元452使用学习模型Mnb来对帧By的块区域Bynb进行推断,并生成高清晰度帧的块区域Cynb。首先,推断单元452读出步骤S1809中存储在RAM 103中的学习模型Mnb。接着,推断单元452将RAM103中所保持的块区域Bynb输入到学习模型Mnb的CNN中,并且生成在将推断目标帧By放大到分辨率XA时在局部区域Bynb中预期的高频分量。推断单元452通过将所生成的高频分量与通过基于分辨率XB和分辨率XA之间的比进行线性放大所获得的局部区域Bynb相加来生成高清晰度帧的块区域Cynb,并将其存储在RAM 103中。注意,针对块区域Bynb所执行的从高频分量推断到高清晰度图像生成的处理是与图8所示的推断过程相似的处理。
在步骤S1811中,控制单元101将通过基于分辨率XA和分辨率XB之间的比对运动矢量信息中的运动矢量的有无为“否”的块区域Bynb进行线性放大所获得的高清晰度帧Cy的块区域Cynb保持在RAM 103中。注意,线性放大的方法不受限制,只要可以基于分辨率XA和分辨率XB之间的比进行放大即可。
在步骤S1812中,控制单元101判断是否对所有块区域Bynb完成了上述处理。在控制单元101判断为处理未完成的情况下(步骤S1812中为“否”),处理进入步骤S1807,并且对未完成的块区域Bynb进行处理。在控制单元101判断为处理完成的情况下(步骤S1812中为“是”),处理进入步骤S1813。在步骤S1813中,控制单元101读出在步骤S1810和步骤S1811中保持在RAM 103中的块区域Cynb,基于相应块区域Bynb的坐标位置信息组合这些块区域,并生成高清晰度帧的局部区域Cyn。所生成的局部区域Cyn被保持在RAM 103中。在图16的步骤S1608中,使用如上所述生成的局部区域Cyn作为局部区域Cyn1705。
如上所述,根据第八实施例,使用具有与参考/被参考的推断区域具有高相似度的区域的运动矢量来进行学习。因此,即使对于被摄体移动很多的运动图像,也可以生成更高清晰度的图像。
第九实施例
在第九实施例中,说明第七实施例中所述的针对根据第六实施例的问题的解决方法,其不同于第七实施例和第八实施例的解决方法。
接着,将主要说明第九实施例和第六实施例之间的区别。
高清晰度运动图像生成处理
第九实施例与第六实施例之间的区别仅在于图16所示的高清晰度运动图像生成处理的流程图中的步骤S1605和S1606的处理。因此,以下将说明根据第九实施例的步骤S1605和S1606的处理。
在步骤S1605中,控制单元101从帧组UA和UB的成对帧中选择与同推断目标帧By的局部区域Byn相同的坐标位置相对应的局部区域(对应于UAn5和UBn5),并将其保持在RAM103中。另外,控制单元101将与UBn5相邻并且具有与UBn5相同的大小的八个区域保持在RAM103中。以类似的方式,控制单元101将与UAn5相邻并且具有与UAn5相同的大小的八个区域存储在RAM 103中。在图19中示出帧组UB中所包括的帧的区域选择的示例。注意,在本实施例中,对于推断目标区域,选择具有与局部区域Byn相同的位置坐标的区域以及八个相邻区域。然而,区域的选择方法和数量不限于此。
接着,控制单元101评估推断目标帧By的局部区域Byn与UBn1至UBn9之间的相似度,并获得相似度评估值。然后,控制单元101基于相似度评估值来确定针对UBn1至UBn9各自的学习次数,并将其作为学习信息保持在RAM 103中。注意,学习信息例如包括“用于识别UBn1至UBn9的信息”、“与局部区域Byn的相似度评估值”和“学习次数”。在学习信息中的与局部区域Byn的相似度的评估值小于系统中预先设置的阈值的情况下,控制单元101将学习信息中的学习次数更新为0。对于相似度评估值等于或大于阈值的区域,使用相似度评估值等于或大于阈值的区域之间的相似度评估值的比来确定学习次数,并更新学习信息。在该示例中,UBn4、UBn5和UBn6的相似度评估值等于或大于阈值,并且它们之间的比为2:5:3。此外,总学习次数被设置为1000次。在该示例中,UBn4至UBn6的学习信息的学习次数分别为200次、500次和300次。注意,在根据本实施例的用于确定学习次数的该方法中,将学习次数线性地分配给相似度评估值大于阈值的区域。然而,该方法不限于此。
在步骤S1606中,学习单元451将由学习信息所指示的局部区域(UBn1至UBn9其中之一)的图像与相应帧组UA中的局部区域(UAn1至UAn9其中之一)的图像的对作为教师数据用于生成学习模型Mn。学习单元451使用图8所示的学习模型生成功能将学习进行针对各教师数据由学习信息所指示的学习次数,并生成学习模型Mn。所生成的学习模型Mn被存储在RAM 103中。
从步骤S1607起的处理与第六实施例中的处理相同,因此了省略其说明。
如上所述,根据第九实施例,根据与推断区域的相似度在学习中使用与推断区域具有高相似度的多个区域。因此,即使对于被摄体移动很多的运动图像,也可以生成更高清晰度的图像。
如上所述,根据第六实施例至第九实施例,可以从高清晰度目标图像来确定局部区域,并且可以缩减在学习模型的学习中使用的信息量。此外,根据第六实施例至第九实施例,可以选择与从高清晰度目标图像确定的局部区域具有高相关性的教师数据的局部区域,并将其用于学习模型的学习。因此,可以以更高的准确度推断高清晰度目标图像的高频分量,从而使得能够获得高度准确的高清晰度图像。换句话说,可以提高用于使运动图像具有高清晰度的运动图像超分辨率摄像的准确度。
第十实施例
以下所述的第十实施例是改变根据第六实施例的针对各局部区域的学习处理并且减少学习处理负荷的示例。在第六实施例的方法中,将一帧分割为多个局部区域,针对各局部区域生成学习模型,并且经由推断处理来提高超分辨率性能。然而,利用该方法,必须生成与局部区域的数量相等的多个学习模型。这往往有问题地导致学习处理负荷增加。因此,在第十实施例的学习处理中,通过提供相似度评估功能,检测各局部区域中的移动,并且组合判断为“不存在移动”的局部区域以形成新的组合局部区域,由此减少局部区域的数量。以这种方式,减少了所生成的学习模型的数量,并且减轻了学习处理负荷。
第十实施例和第六实施例之间的区别在于图16所示的高清晰度运动图像生成处理的流程图中的步骤S1604的处理(用于从帧By中提取局部区域的处理)。因此,以下将主要说明根据第十实施例的步骤S1604的处理。
将使用图20和图21来说明第十实施例的步骤S1604的针对帧By的局部区域提取处理。图20是示出根据第十实施例的局部区域提取的流程图。图21是用于说明根据第十实施例的局部区域提取的概念的图。
在图21中,2100表示推断目标帧By。2110表示通过对推断目标帧By进行语义区域分割所获得的以框示出语义区域的图像图。框2101和2102是“树”区域,框2103和2104是“地面”区域,并且框2105是“人物”区域。在所获得的多个框中,即使一些框具有相同的含义,这些框也被视为单独的语义区域。例如,框2101和框2102是具有相同含义(树)的区域,但被视为不同的语义区域。
2120表示通过判断在如第六实施例中那样将推断目标帧By分割成具有均匀大小的矩形目标区域Byn’所形成的各部分区域中是否存在移动所获得的图像图。本实施例是“人物”图像具有很大移动并且其他图像具有很小移动的示例。在2120中,用对角线指示的部分区域By1’至By9’、By13’至By16’、By20’至By23’、By27’至By30’和By34’至By35’是被确定为具有很小移动的部分区域。
2130表示根据本实施例的要提取的局部区域Byn的图像图。局部区域Byn基本上与部分区域Byn’相同。然而,在本实施例中,使用分割为语义区域的结果(2110)和判断各局部区域中的移动量的结果(2120),将被判断为在同一语义区域内“没有移动”的部分区域Byn’组合,从而形成一个局部区域(组合局部区域)。2130中由对角线指示的局部区域与上述的组合局部区域相对应。换句话说,将部分区域By1’、By2’、By8’和By9’组合以形成一个局部区域By1,并且将部分区域By6’、By7’、By13’和By14’组合以形成一个局部区域By5。此外,将部分区域By22’和By23’组合以形成一个局部区域By16,并且将部分区域By27’和By28’组合以形成一个局部区域By20。此外,不满足上述条件的部分区域Byn’被原样提取为局部区域。
接着,将参考图20的流程图说明第十实施例的处理。在步骤S2001中,学习/推断单元105执行用以将推断目标帧By的图像分割为语义区域的处理,并将处理结果保持在RAM103中。这里,语义区域分割可以经由使用诸如Mask-R CNN等的CNN模型的推断来实现。因此,学习/推断单元105将要使用的CNN模型从超分辨率所用的CNN模型切换为语义区域分割所用的CNN模型(例如,Mask-R CNN)以进行语义区域分割。可替代地,可以以与学习/推断单元105分开的方式附加地提供专用于语义区域分割的学习/推断单元。
在步骤S2002中,控制单元101从推断目标帧By中提取部分区域Byn’,并将它们保持在RAM 103中。注意,在本实施例中,部分区域Byn’例如是具有几十个像素×几十个像素的均匀大小的矩形区域(正方形区域)。然而,不意图进行这样的限制。例如,部分区域Byn’可以是细长的矩形区域。
在步骤S2003中,控制单元101针对步骤S2002中提取的各部分区域Byn’的图像,判断相对于紧前的推断目标帧是否存在移动。控制单元101将指示被判断为相对于紧前的推断目标帧“无移动”的部分区域的信息保持在RAM103中。这里,例如,判断在各个部分区域的图像中是否存在移动可以通过使用SSIM的相似度评估功能来实现。控制单元101使用SSIM来获得在推断目标帧By和紧前的推断目标帧之间具有相同坐标的部分区域的相似度,并且在所获得的相似度大于特定阈值的情况下,判断为在部分区域中“不存在移动”。在所获得的相似度等于或小于特定阈值的情况下,针对该部分区域判断为“存在移动”。注意,在相似度评估中使用SSIM。然而,不意图进行这样的限制。例如,可以使用峰值信噪比(PSNR)、信噪比(SNR)或均方误差(MSE)等。
在步骤S2004中,控制单元101选择步骤S2001中所计算的同一语义区域内的并且在步骤S2003中判断为“无移动”的部分区域,并将其保持在RAM103中。注意,在本实施例中,在部分区域的整体包括在一个语义区域中的情况下,该部分区域被认为存在于该一个语义区域内。然而,不意图进行这样的限制,并且例如,在部分区域的预定比例或更大包括在一个语义区域中的情况下,该部分区域可以被视为仿佛其存在于该一个语义区域内一样。在步骤S2005中,控制单元101将步骤S2004中所选择的部分区域组合,并将该组合局部区域保持在RAM 103中。注意,在本实施例中,只要部分区域包括在同一语义区域中,即使这些部分区域不是连续,这些部分区域也被视为一个局部区域。然而,不意图进行这样的限制。例如,可以将存在于帧By中的相同语义区域内的并且在上下左右方向上连续的被判断为“无移动”的局部区域组合,以形成一个局部区域。
在步骤S2006中,推断单元452提取步骤S2005中保持在RAM 103中的组合局部区域Byn作为一个局部区域,并将其保持在RAM 103中。此外,推断单元452从步骤S2002中保持在RAM 103中的部分区域Byn’中提取步骤S2005中未被选择作为组合目标的局部区域中的每一个局部区域作为局部区域Byn,并将它们保持在RAM 103中。在图21的示例中,对通过将图像分割为42个区域所获得的部分区域进行步骤S2005的组合处理,并且提取34个局部区域。在图16的步骤S1605之后的处理中,使用这34个局部区域。
如上所述,根据第十实施例,由于将“无移动”的多个部分区域组合以形成一个局部区域,因此可以减少执行用以生成学习模型的后续处理的次数。这使得能够在维持超分辨率性能的同时减少学习处理负荷。
注意,在本实施例中,将步骤S2001中获得的同一语义区内的局部区域组合。然而,不意图进行这样的限制。例如,控制单元101可以与语义区域无关地将帧By中的“无移动”的所有局部区组合并形成一个局部区域。此外,例如,控制单元101可以与语义区域无关地将在前后左右方向上相邻的“无移动”的部分区域组合。在这种情况下,例如,提取出由图21中的2120所指示的“无移动”的部分区域的集合作为一个局部区域。此外,例如,控制单元101可以将“无移动”的部分区域组合,使得组合局部区域具有矩形形状。例如,在获得诸如由图21中的2120所示的“无移动”的部分区域等的“无移动”的部分区域的情况下,提取出三个组合局部区域(例如,左侧和右侧的5×2的局部区域以及中央的1×3的局部区域)。
以上已经说明了基于第六实施例的第十实施例。然而,应当显而易见,根据第十实施例的组合局部区域也可以用在第七实施例至第九实施例中描述的处理中。此外,无需说明,为了学习所提取的教师数据可以与根据第一实施例至第五实施例中任一实施例一样。
其他实施例
本发明的实施例还可以通过如下的方法来实现,即,通过网络或者各种存储介质将执行上述实施例的功能的软件(程序)提供给系统或装置,该系统或装置的计算机或是中央处理单元(CPU)、微处理单元(MPU)读出并执行程序的方法。
尽管已经参考典型实施例说明了本发明,但是应该理解,本发明不限于所公开的典型实施例。所附权利要求书的范围符合最宽的解释,以包含所有这类修改、等同结构和功能。
Claims (31)
1.一种图像处理设备,其使用第一图像组来使第二图像组的图像具有高清晰度,所述第二图像组的图像具有比所述第一图像组的图像更少的高频分量,所述图像处理设备包括:
选择部件,用于基于从所述第二图像组中选择作为高清晰度目标的当前图像,从使用所述第一图像组中所包括的作为图像对其中之一的图像的多个教师数据中选择要在学习中所使用的教师数据;
计算部件,用于针对通过分割所述当前图像所获得的多个部分区域中的各部分区域,计算与同所述当前图像之前的作为高清晰度目标的先前图像相对应的部分区域的相似度;
确定部件,用于通过将所述相似度等于或大于阈值的一个或多于一个部分区域的集合组合为一个局部区域、并将所述相似度小于所述阈值的部分区域视为单独的局部区域,来从所述当前图像确定多个局部区域;
模型生成部件,用于针对所述多个局部区域中的各局部区域,使用所述选择部件所选择的教师数据来生成用于推断高频分量的学习模型;
推断部件,用于针对所述多个局部区域中的各局部区域,使用所述学习模型来推断高频分量;以及
图像生成部件,用于基于所述当前图像和所述推断部件所推断的高频分量来生成高清晰度图像。
2.根据权利要求1所述的图像处理设备,
其中,所述确定部件将所述相似度等于或大于所述阈值的部分区域中的在所述当前图像中在上下左右方向中的任一方向上连续的部分区域组合为一个局部区域。
3.根据权利要求1所述的图像处理设备,还包括:
分割部件,用于将所述当前图像分割为语义区域,
其中,所述确定部件将属于通过所述分割部件所获得的同一语义区域的部分区域中的、所述相似度等于或大于所述阈值的部分区域组合。
4.根据权利要求1所述的图像处理设备,还包括:
获得部件,用于获得包括从所述第一图像组中选择的第一图像以及具有比所述第一图像少的高频分量的与所述第一图像相关的第三图像的对作为所述教师数据的候选,
其中,所述选择部件从所述教师数据的候选中选择要在所述学习中使用的教师数据。
5.根据权利要求4所述的图像处理设备,
其中,所述获得部件通过从所述第二图像组获得所述第三图像来获得所述教师数据的候选。
6.根据权利要求5所述的图像处理设备,
其中,所述获得部件从所述第二图像组获得摄像时间与所述第一图像的摄像时间相同的图像作为所述第三图像。
7.根据权利要求5所述的图像处理设备,
其中,所述获得部件从所述第二图像组获得与所述第一图像的摄像时间差小于预定阈值的图像作为所述第三图像。
8.根据权利要求5所述的图像处理设备,
其中,所述获得部件从所述第二图像组获得与所述第一图像具有最高相似性的图像作为所述第三图像。
9.根据权利要求8所述的图像处理设备,
其中,所述获得部件确定所述第一图像缩小到所述第二图像组的分辨率的图像与所述第二图像组的图像之间的相似性。
10.根据权利要求4所述的图像处理设备,
其中,所述获得部件获得所述第一图像的大小缩小且分辨率更低的图像作为所述第三图像。
11.根据权利要求10所述的图像处理设备,
其中,所述第三图像是所述第一图像缩小到所述第二图像组的分辨率的图像。
12.根据权利要求4所述的图像处理设备,
其中,所述选择部件选择包括与所述当前图像的摄像时间差小于预定阈值的图像的教师数据的候选,作为要在所述学习中使用的教师数据。
13.根据权利要求4所述的图像处理设备,
其中,所述选择部件选择包括与所述当前图像的相似性大于预定阈值的图像的教师数据的候选,作为要在所述学习中使用的教师数据。
14.根据权利要求1所述的图像处理设备,
其中,所述推断部件基于要在所述学习中使用的教师数据以及所述当前图像来控制在所述学习中经由反向传播的参数的更新。
15.根据权利要求14所述的图像处理设备,
其中,所述推断部件基于要在所述学习中使用的教师数据以及所述当前图像来确定系数,并且基于所述系数来控制经由所述反向传播的参数的更新量。
16.根据权利要求14所述的图像处理设备,
其中,所述推断部件基于要在所述学习中使用的教师数据以及所述当前图像来确定系数,并且基于所述系数来控制经由所述反向传播的参数的更新的重复次数。
17.根据权利要求15所述的图像处理设备,
其中,所述推断部件基于要在所述学习中使用的教师数据的图像的摄像时间与所述当前图像的摄像时间之间的差来确定所述系数。
18.根据权利要求15所述的图像处理设备,
其中,所述推断部件基于要在所述学习中使用的教师数据的图像与所述当前图像之间的相似性来确定所述系数。
19.根据权利要求1所述的图像处理设备,
其中,所述模型生成部件从所述选择部件所选择的教师数据中提取与所述多个局部区域中的各局部区域相对应的图像对,并且使用所提取的图像对来生成针对所述多个局部区域中的各局部区域的局部图像的学习模型,
其中,所述推断部件使用所述局部图像所用的学习模型来推断所述局部图像的局部高频分量,以及
其中,所述图像生成部件使用所述局部高频分量和所述局部图像来生成局部区域的高清晰度图像,并且将针对各局部区域所生成的高清晰度图像组合。
20.根据权利要求19所述的图像处理设备,
其中,所述模型生成部件在所述选择部件所选择的教师数据中,提取与同所述局部区域相同的坐标位置相对应的区域的图像对。
21.根据权利要求20所述的图像处理设备,
其中,所述图像生成部件通过基于坐标位置的信息将各局部区域的高清晰度图像组合,来生成所述当前图像的高清晰度图像。
22.根据权利要求19所述的图像处理设备,
其中,所述模型生成部件从所述选择部件所选择的教师数据中提取与所述局部图像具有最高相似度的图像对。
23.根据权利要求19所述的图像处理设备,
其中,所述模型生成部件基于针对所述局部区域中所包括的作为运动补偿单位的块所设置的运动矢量或者基于参考所述局部区域中所包括的块的运动矢量,从所述选择部件所选择的教师数据中提取与所述局部区域相对应的图像对。
24.根据权利要求19所述的图像处理设备,
其中,所述模型生成部件从所述选择部件所选择的教师数据中提取与基于所述局部区域的位置所识别的多个区域相对应的多个图像对,以及
其中,所述模型生成部件基于所述局部图像与所述多个图像对中的各图像对之间的相似度,来确定要在生成所述学习模型时使用所述多个图像对中的各图像对进行学习的次数。
25.根据权利要求24所述的图像处理设备,
其中,所述多个区域包括与所述局部区域的位置相对应的第一区域以及与所述第一区域相邻的第二区域。
26.根据权利要求24所述的图像处理设备,
其中,所述模型生成部件不使用与所述局部图像的相似度等于或小于阈值的图像对进行学习。
27.根据权利要求1所述的图像处理设备,
其中,所述第一图像组和所述第二图像组是通过对由包括在一个摄像设备中的一个图像传感器拍摄到的一个图像执行不同图像处理所获得的两个图像组。
28.根据权利要求1所述的图像处理设备,
其中,所述第一图像组和所述第二图像组是由两个不同的图像传感器拍摄到的图像组。
29.根据权利要求1所述的图像处理设备,
其中,所述第一图像组具有比所述第二图像组低的帧频。
30.一种图像处理方法,其使用第一图像组来使第二图像组的图像具有高清晰度,所述第二图像组的图像具有比所述第一图像组的图像更少的高频分量,所述图像处理方法包括:
基于从所述第二图像组中选择作为高清晰度目标的当前图像,从使用所述第一图像组中所包括的作为图像对其中之一的图像的多个教师数据中选择要在学习中所使用的教师数据;
针对通过分割所述当前图像所获得的多个部分区域中的各部分区域,计算与同所述当前图像之前的作为高清晰度目标的先前图像相对应的部分区域的相似度;
通过将所述相似度等于或大于阈值的一个或多于一个部分区域的集合组合为一个局部区域、并将所述相似度小于所述阈值的部分区域视为单独的局部区域,来从所述当前图像确定多个局部区域;
针对所述多个局部区域中的各局部区域,使用在所述选择中所选择的教师数据来生成用于推断高频分量的学习模型;
针对所述多个局部区域中的各局部区域,使用所述学习模型来推断高频分量;以及
基于所述当前图像和所述推断中所推断的高频分量来生成高清晰度图像。
31.一种存储介质,其存储有程序,所述程序用于使计算机用作根据权利要求1至29中任一项所述的图像处理设备的部件。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2022014439A JP2023112565A (ja) | 2022-02-01 | 2022-02-01 | 画像処理装置および方法、プログラム |
JP2022-014439 | 2022-02-01 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116546152A true CN116546152A (zh) | 2023-08-04 |
Family
ID=87432394
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310047821.XA Pending CN116546152A (zh) | 2022-02-01 | 2023-01-31 | 图像处理设备、图像处理方法和存储介质 |
Country Status (3)
Country | Link |
---|---|
US (1) | US20230245425A1 (zh) |
JP (1) | JP2023112565A (zh) |
CN (1) | CN116546152A (zh) |
-
2022
- 2022-02-01 JP JP2022014439A patent/JP2023112565A/ja active Pending
-
2023
- 2023-01-31 US US18/161,911 patent/US20230245425A1/en active Pending
- 2023-01-31 CN CN202310047821.XA patent/CN116546152A/zh active Pending
Also Published As
Publication number | Publication date |
---|---|
US20230245425A1 (en) | 2023-08-03 |
JP2023112565A (ja) | 2023-08-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Liu et al. | Image compression with edge-based inpainting | |
US9351014B2 (en) | Moving image encoding and decoding system | |
US8351685B2 (en) | Device and method for estimating depth map, and method for generating intermediate image and method for encoding multi-view video using the same | |
CN107318026B (zh) | 视频编码器以及视频编码方法 | |
WO2006019093A1 (ja) | 画像符号化方法,画像復号方法,画像符号化装置,画像復号装置,画像符号化プログラムおよび画像復号プログラム | |
CN101002479A (zh) | 用于全景图像的运动估计和补偿的方法和设备 | |
JP2015536092A (ja) | 標準に準拠した、モデルベースの映像符号化及び映像復号化 | |
CN101454990A (zh) | 视频压缩方法 | |
JP2006512029A (ja) | セグメントベース動き推定 | |
JP2009147807A (ja) | 画像処理装置 | |
US20130216148A1 (en) | Image predictive encoding and decoding system | |
US9596467B2 (en) | Motion estimation device for predicting a vector by referring to motion vectors of adjacent blocks, motion estimation method and storage medium of motion estimation program | |
CN103210645A (zh) | 使用运动补偿的基于实例的超分辨率的视频解码 | |
Andris et al. | A proof-of-concept framework for PDE-based video compression | |
CN116648906A (zh) | 通过指示特征图数据进行编码 | |
KR20070088321A (ko) | 화상 부호화 장치 및 화상 부호화 방법 | |
KR20120123132A (ko) | 패치 시프팅을 통해 벡터 양자화 에러를 감소시키기 위한 방법들 및 장치 | |
CN106791869B (zh) | 基于光场子孔径图像相对位置关系的快速运动搜索方法 | |
KR20130103140A (ko) | 영상압축 전에 행해지는 전처리 방법, 영상 압축률 개선을 위한 적응성 움직임 추정방법 및 영상 타입별 영상 데이터 제공방법 | |
KR101620067B1 (ko) | 다시점 영상 압축 장치 및 방법 | |
Sanchez et al. | A reduced computational effort mode-level scheme for 3D-HEVC depth maps intra-frame prediction | |
WO2022076085A1 (en) | Deep loop filter by temporal deformable convolution | |
CN116546152A (zh) | 图像处理设备、图像处理方法和存储介质 | |
US8184706B2 (en) | Moving picture coding apparatus and method with decimation of pictures | |
CN116546153A (zh) | 图像处理设备、图像处理方法和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |