CN117280356A - 学习装置、学习方法、图像处理装置和图像处理方法 - Google Patents

学习装置、学习方法、图像处理装置和图像处理方法 Download PDF

Info

Publication number
CN117280356A
CN117280356A CN202180098003.1A CN202180098003A CN117280356A CN 117280356 A CN117280356 A CN 117280356A CN 202180098003 A CN202180098003 A CN 202180098003A CN 117280356 A CN117280356 A CN 117280356A
Authority
CN
China
Prior art keywords
image
inference
learning
dimensional
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202180098003.1A
Other languages
English (en)
Inventor
峯泽彰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Publication of CN117280356A publication Critical patent/CN117280356A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N21/00Investigating or analysing materials by the use of optical means, i.e. using sub-millimetre waves, infrared, visible or ultraviolet light
    • G01N21/84Systems specially adapted for particular applications
    • G01N21/88Investigating the presence of flaws or contamination
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/0002Inspection of images, e.g. flaw detection
    • G06T7/0004Industrial image inspection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/762Arrangements for image or video recognition or understanding using pattern recognition or machine learning using clustering, e.g. of similar faces in social networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/7715Feature extraction, e.g. by transforming the feature space, e.g. multi-dimensional scaling [MDS]; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/87Arrangements for image or video recognition or understanding using pattern recognition or machine learning using selection of the recognition techniques, e.g. of a classifier in a multiple classifier system

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Medical Informatics (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Multimedia (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Biochemistry (AREA)
  • Immunology (AREA)
  • Pathology (AREA)
  • Image Analysis (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

学习装置(100)具有:学习用图像取得部(110),其取得表示学习用图像的学习用图像信息;一维学习图像生成部(120),其对多个学习用图像信息分别表示的学习用图像进行一维化,生成与多个学习用图像信息对应的多个一维学习图像信号;矩阵生成部(130),其生成将多个一维学习图像信号彼此并列地排列而成的矩阵;奇异值分解部(140),其对矩阵进行奇异值分解,由此计算右奇异向量和奇异值;已学习模型生成部(150),其生成基于右奇异向量和奇异值的已学习模型,该已学习模型将一维推理对象图像信号作为说明变量而输出推理结果,该一维推理对象图像信号表示对拍摄推理对象物体而得到的图像即推理对象图像进行一维化而成的图像;以及已学习模型输出部(160),其输出已学习模型作为已学习模型信息。

Description

学习装置、学习方法、图像处理装置和图像处理方法
技术领域
本发明涉及学习装置、学习方法、图像处理装置和图像处理方法。
背景技术
作为使学习模型进行学习而生成已学习模型的方法,存在有监督学习和无监督学习。
例如,在非专利文献1中公开有如下技术:通过使用概率的梯度变分贝叶斯进行优化,使由神经网络构成的学习模型高效地进行深度学习,生成已学习模型。
现有技术文献
非专利文献
非专利文献1:"Diederik P Kingma,Max Welling","Auto-EncodingVariational Bayes",[online],"arXiv:1312.6114v10"、[令和2年12月4日检索],互联网(URL:https://arxiv.org/abs/1312.6114v10)
发明内容
发明要解决的课题
在将非专利文献1公开的技术(以下称作“现有技术”)应用于图像处理领域的情况下,作为深度学习的学习结果,能够得到输出在学习中使用的图像(以下称作“学习用图像”)中的潜在变量即特征向量和从本向量解码出的生成图像的已学习模型,能够使用该已学习模型进行作为推理对象的图像(以下称作“推理对象图像”)的压缩、复原、异常检测或分类等。
但是,在现有技术中,为了得到学习用图像中的精度高的特征向量和生成图像,需要构建使神经网络中的中间层多层化的深度神经网络,使用大量的学习用图像进行需要庞大数量的权重的反复优化处理的深度学习。
因此,在现有技术中,计算量庞大,因此,在现有技术中存在如下的问题点:为了生成能够进行高精度推理的已学习模型,需要使学习模型长时间地进行学习。
本发明用于解决上述的问题点,其目的在于,提供与以往相比能够在短时间内生成能够进行高精度推理的已学习模型的学习装置。
用于解决课题的手段
本发明的学习装置具有:学习用图像取得部,其取得表示学习用图像的学习用图像信息;一维学习图像生成部,其对学习用图像取得部取得的多个学习用图像信息分别表示的学习用图像进行一维化,生成与多个学习用图像信息对应的多个一维学习图像信号;矩阵生成部,其生成将一维学习图像生成部生成的多个一维学习图像信号彼此并列地排列而成的矩阵;奇异值分解部,其对矩阵生成部生成的矩阵进行奇异值分解,由此计算右奇异向量和奇异值;已学习模型生成部,其生成基于奇异值分解部计算的右奇异向量和奇异值的已学习模型,已学习模型将一维推理对象图像信号作为说明变量而输出推理结果,一维推理对象图像信号表示对拍摄推理对象物体而得到的图像即推理对象图像进行一维化而成的图像;以及已学习模型输出部,其输出已学习模型生成部生成的已学习模型作为已学习模型信息。
发明效果
根据本发明,与以往相比能够在短时间内生成能够进行高精度推理的已学习模型。
附图说明
[图1]是示出应用实施方式1的学习装置的学习系统的主要部分的结构的一例的框图。
[图2]是示出实施方式1的学习装置的主要部分的结构的一例的框图。
[图3]图3A是示意地示出实施方式1的学习用图像的说明图。图3B是示意地示出实施方式1的学习用图像的变形例的说明图。图3C是示意地示出实施方式1的一维学习图像信号的说明图。图3D是示意地示出实施方式1的矩阵的说明图。
[图4]图4A和图4B是示出实施方式1的学习装置的主要部分的硬件结构的一例的图。
[图5]是说明实施方式1的学习装置的处理的一例的流程图。
[图6]是示出应用实施方式1的图像处理装置的图像处理系统的主要部分的结构的一例的框图。
[图7]是示出实施方式1的图像处理装置的主要部分的结构的一例的框图。
[图8]图8A和图8B是示出实施方式1的图像处理装置的主要部分的硬件结构的一例的图。
[图9]是说明实施方式1的图像处理装置的处理的一例的流程图。
[图10]是示出应用实施方式2的图像处理装置的图像处理系统的主要部分的结构的一例的框图。
[图11]是示出实施方式2的图像处理装置的主要部分的结构的一例的框图。
[图12]是示出实施方式2的图像处理装置具有的异常判定部进行比较的推理对象图像中的检查对象块和复原图像中的复原检查块的一例的说明图。
[图13]是说明实施方式2的图像处理装置的处理的一例的流程图。
[图14]是示出应用实施方式3的图像处理装置的图像处理系统的主要部分的结构的一例的框图。
[图15]是示出实施方式3的图像处理装置的主要部分的结构的一例的框图。
[图16]是说明实施方式3的图像处理装置的处理的一例的流程图。
具体实施方式
下面,参照附图对本发明的实施方式进行详细说明。
实施方式1
参照图1~图5对实施方式1的学习装置100进行说明。
参照图1对应用实施方式1的学习装置100的学习系统10的主要部分的结构进行说明。
图1是示出应用实施方式1的学习装置100的学习系统10的主要部分的结构的一例的框图。
学习系统10具有存储装置11、显示输出装置12、操作输入装置13和学习装置100。
存储装置11是存储学习装置100执行预定的规定处理所需要的信息的装置。学习装置100读出存储装置11中存储的信息,由此能够取得该信息。此外,接受学习装置100输出的信息并存储该信息。
显示输出装置12是取得显示图像信号并显示该显示图像信号表示的显示图像的显示器等装置。显示输出装置12接受学习装置100输出的显示图像信号,显示该显示图像信号表示的显示图像。
操作输入装置13是接受用户的操作(以下称作“用户操作”)并输出基于用户操作的操作信号的键盘或指示设备等装置。操作输入装置13不限于键盘或指示设备,只要能够接受用户操作并输出基于用户操作的操作信号即可,也可以是触摸面板或触摸传感器等。
操作输入装置13将操作信号输出到学习装置100。
学习装置100是取得表示学习用图像的学习用图像信息并生成基于学习用图像的已学习模型的装置。
通过显示输出装置12和操作输入装置13,对操作学习装置100的用户提供交互式用户界面。
即,用户确认显示输出装置12中显示的显示图像,并且使用操作输入装置13进行用户操作,由此能够使学习装置100进行用户期望的控制。
参照图2对实施方式1的学习装置100的主要部分的结构进行说明。
图2是示出实施方式1的学习装置100的主要部分的结构的一例的框图。
学习装置100具有学习用图像取得部110、一维学习图像生成部120、矩阵生成部130、奇异值分解部140、已学习模型生成部150和已学习模型输出部160。
学习装置100也可以在上述的结构的基础上具有拍摄图像取得部111或拍摄图像取得部111和聚类部112。
下面,如图2所示,设学习装置100具有学习用图像取得部110、拍摄图像取得部111、聚类部112、一维学习图像生成部120、矩阵生成部130、奇异值分解部140、已学习模型生成部150和已学习模型输出部160来进行说明。
另外,作为图2中未图示的结构,学习装置100具有取得操作输入装置13输出的操作信号的操作取得部、以及生成基于操作取得部取得的操作信号的显示图像并将表示该显示图像的显示图像信号输出到显示输出装置12的显示图像输出部。
学习用图像取得部110取得表示学习用图像的学习用图像信息。
具体而言,学习用图像取得部110取得彼此不同的多个学习用图像信息。
更具体而言,例如,学习用图像取得部110从预先存储有分别表示多个学习用图像的学习用图像信息的存储装置11读出学习用图像信息,由此取得彼此不同的多个学习用图像信息。
学习用图像取得部110从存储装置11读出而取得的学习用图像信息例如是通过用户对操作输入装置13进行操作而选择并取得的。
下面,设学习用图像取得部110取得m(m为预定的2以上的整数)个彼此不同的学习用图像信息来进行说明。此外,将分别表示学习用图像取得部110取得的m个学习用图像信息的学习用图像记作学习用图像wi(i为1以上且m以下的任意整数)来进行说明。
一维学习图像生成部120对学习用图像取得部110取得的多个学习用图像信息分别表示的学习用图像进行一维化,生成与多个学习用图像信息对应的多个一维信号(以下称作“一维学习图像信号”)。
具体而言,例如,一维学习图像生成部120对学习用图像取得部110取得的学习用图像信息表示的学习用图像进行光栅搜查,由此生成一维学习图像信号。
更具体而言,例如,一维学习图像生成部120关于学习用图像取得部110取得的多个学习用图像信息,对多个学习用图像信息分别表示的学习用图像进行光栅搜查,由此生成与各学习用图像信息对应的一维学习图像信号。
下面,将与学习用图像wi对应的一维学习图像信号记作一维学习图像信号wi′来进行说明。
矩阵生成部130生成将一维学习图像生成部120生成的多个一维学习图像信号彼此并列地排列而成的矩阵。
下面,把将从一维学习图像信号w1′到一维学习图像信号wm′为止的m个一维学习图像信号彼此并列地排列而成的矩阵记作矩阵Wm来进行说明。
另外,为了使矩阵生成部130生成矩阵Wm,需要使由学习用图像取得部110取得的成为一维学习图像信号w1′~一维学习图像信号wm′的基础的各学习用图像信息为彼此相同的像素数。
参照图3对实施方式1的学习用图像wi、一维学习图像信号wi′和矩阵Wm进行说明。
图3A是示意地示出实施方式1的学习用图像wi的说明图。
如图3A所示,学习用图像wi是在图3A中的横向上具有p(p为1以上的预定的整数)个像素、在纵向上具有q(q为1以上的预定的整数)个像素的矩形图像。在将p与q之积设为n时,学习用图像wi是具有n个像素的矩形图像。因此,学习用图像wi不一定是拍摄图像本身,只要是实施了以矩形(块)切出拍摄图像的、进行放大或缩小等图像处理的图像等二维配置的像素的集合即可。图3B是示意地示出实施方式1的学习用图像的变形例的说明图。例如,如图3B所示,有时将对拍摄图像进行分割而成的各块设为学习用图像。Bx、By分别表示分割块的水平方向、垂直方向的像素数,Sx、Sy表示水平方向、垂直方向的各分割位置的移动像素数(步长)。进而,各分割块Di,j的位置索引(i,j)是用于识别各块的位置关系的信息。此时,在Sx=Bx且Sy=By的情况下,各块彼此相邻。在Sx<Bx或Sy<By的情况下,以相邻块存在重叠的方式进行分割。在Sx>Bx或Sy>By的情况下,在分割块之间产生间隙,因此,在拍摄图像内产生未作为学习用图像包含的像素。一般而言,相邻块重叠的区域越大,分割块的图案越增加,学习的精度越提高。另一方面,学习图像数增加,因此,学习速度降低。由此,学习精度和学习速度处于折中的关系,因此,Bx、By、Sx、Sy成为基于用户等的调整要素。例如,用户对操作输入装置13进行操作,由此进行Bx、By、Sx、Sy的调整(值的设定)。
学习用图像wi可以是各像素用1比特表示的单色图像,也可以是各像素用8比特等的比特串表示的灰度图像,还可以是各像素用24比特等的比特串表示的彩色图像。此外,学习用图像wi可以是基于RGB形式的位图图像,也可以是基于YUV形式的位图图像。
图3C是示意地示出实施方式1的一维学习图像信号wi′的说明图。如图3C所示,一维学习图像信号wi′是在图3C中的横向上具有n个像素、在纵向上具有1个像素的图像。一维学习图像信号wi′是一维学习图像信号wi′中的各像素由与学习用图像wi中的各像素相同比特数的比特或比特串构成的图像信号。
图3D是示意地示出实施方式1的矩阵Wm的说明图。
如图3D所示,矩阵Wm是将一维学习图像信号wi′在列方向上排列而成的,成为在横向上具有n个像素、在纵向上具有m个像素的像素信号的矩阵。
矩阵Wm是矩阵Wm中的各成分由与学习用图像wi中的各像素相同比特数的比特或比特串构成的矩阵。
奇异值分解部140对矩阵生成部130生成的矩阵Wm进行奇异值分解(SVD:SingularValue Decomposition),由此计算右奇异向量和奇异值。
这里,虽然奇异值分解是公知的技术,但是,对奇异值分解进行简单说明。
在矩阵Am×n为m行n列的矩阵的情况下,矩阵Am×n的奇异值分解能够通过下式(1)来表示。
Am×n=Um×mΓm×nVT n×n…式(1)
这里,Um×m是m行m列的酉矩阵,VT n×n是n行n列的酉矩阵即Vn×n的转置矩阵。此外,矩阵Γm×n是m行n列的矩阵,对角成分以外始终为0。进而,在将矩阵Γm×n中的i行i列的对角成分设为σi、将I设为Am×n的阶数(秩)时,I是1以上且M(M=min(m,n),min(m,n)表示m和n内的小值)以下的整数,σ1,σ2,…,σI表示满足下式(2)的矩阵Am×n的I个奇异值。
σ12>…>σI>0…式(2)
此时,在I<M的情况下,σI+1=…=σM=0。即,在式(1)中,矩阵Γm×n是非零成分仅由矩阵Am×n的奇异值的组构成的矩阵。此外,在式(1)中,矩阵Um×m中的各列向量表示矩阵Am×n的左奇异向量。即,矩阵Um×m表示矩阵Am×n的左奇异向量的组。此外,在式(1)中,矩阵Vn×n中的各列向量表示矩阵Am×n的右奇异向量。即,矩阵Vn×n表示矩阵Am×n的右奇异向量的组。
在应用式(1)时,近似矩阵Am×n而成的矩阵(以下称作“近似矩阵”)A m×n能够使用下式(3)来表示。
Am×n≒A m×n=Um×rΓr×rVT r×n…式(3)
这里,矩阵Γr×r是具有r(r为1以上且I以下的整数)个对角成分的r行r列的对角矩阵,矩阵Γr×r在对角成分中具有矩阵Γm×n中的对角成分中的σ1,σ2,…,σr。此外,Um×r是由从矩阵Um×m的左侧到r列为止的成分构成的m行r列的矩阵,同样,矩阵VT r×n是由从Vn×n的左侧到r列为止的成分构成的n行r列的矩阵Vn×r的转置矩阵。根据式(3)可知,本近似表示具有r个奇异值的矩阵的奇异值分解,因此,矩阵A m×n表示秩I的矩阵Am×n的秩r中的低秩近似。
奇异值分解部140对矩阵生成部130生成的矩阵Wm进行奇异值分解,由此计算满足与式(1)对应的下式(4)的右奇异向量和奇异值。
Wm=Um×mΓm×nVT n×n…式(4)
已学习模型生成部150根据奇异值分解部140计算的右奇异向量和奇异值生成已学习模型。
已学习模型生成部150生成的已学习模型将表示对水平方向和垂直方向均与学习用图像相同像素数的图像(以下称作“推理对象图像”)进行一维化而成的图像的信号(以下称作“一维推理对象图像信号”)作为说明变量,输出推理结果。这里,推理对象图像是拍摄作为推理对象的物体(以下称作“推理对象物体”)而得到的图像(以下称作“推理拍摄图像”)或对推理拍摄图像实施图像处理而得到的图像。
具体而言,已学习模型生成部150生成基于奇异值分解部140计算的奇异值中的按照值从大到小的顺序预先确定的r个奇异值与具有与r个奇异值的组合即对角矩阵对应的右奇异向量的组的矩阵的组合的已学习模型。
更具体而言,例如,已学习模型生成部150生成满足下式(5)的矩阵Γr×r和VT n×r作为已学习模型的参数。
Wm≒Um×rΓr×rVT n×r…式(5)
这里,矩阵Γr×r是r个奇异值配置于对角的r行r列的对角矩阵。此外,矩阵VT n×r是表示与式(5)中的矩阵Γr×r对应的Wm的右奇异向量的组的矩阵Vn×r的转置矩阵。此时,右奇异向量是Vn×r的列向量(在VT n×r的情况下进行转置,因此成为行向量)。
另外,在已学习模型生成部150中,关于奇异值分解部140计算的奇异值中的按照值从大到小的顺序采用的奇异值的个数(Wm的近似矩阵的秩)r,即使已学习模型生成部150保持表示该个数的信息,已学习模型生成部150也可以根据用户操作来取得。
另外,在上述r预先决定的情况下,奇异值分解部140例如也可以使用以下所示的文献1中记载的与奇异值分解中的高速解法有关的技术来实现奇异值分解的高速化或省存储器化。
文献1:"Matthew Brand","Fast Low-Rank Modifications of the ThinSingular Value Decomposition","MITSUBISHI ELECTRIC RESEARCH LABORATORIES",[令和2年12月4日检索],互联网(URL:https://www.merl.com/publications/docs/TR2006-059.pdf)
在文献1中,在进行奇异值分解时,针对奇异值分解对象矩阵Am×n,首先对矩阵Am×n的r行(矩阵Ar×n)进行通常的奇异值分解运算,求出奇异值分解矩阵Um×r′、Γr×r′、VT n×r′。然后,针对其余的m-r行,进行针对奇异值分解矩阵Um×r′、Γr×r′、VT n×r′的逐次的更新处理。具体而言,按照任意的j行(j为1以上的整数),反复进行从在紧前的更新处理中得到的奇异值分解矩阵更新为矩阵A(r+J)×n(J为到该更新处理为止的j的总和)的奇异值分解矩阵的矩阵运算(以下称作“更新运算”),直到成为r+J=m为止,由此实现矩阵Am×n的奇异值分解。本更新运算与通常的奇异值分解的运算处理相比成为较少的运算量,因此,一般而言,与一次实施矩阵Am×n的奇异值分解运算相比,高速且省存储器。此时,处理对象行数j也可以在每次更新运算时发生变化。例如,在m-r=20的情况下,针对该其余的20行,能够依次如3行、7行、1行、2行、2行、5行这样任意地设定t。
根据如上所述能够进行任意行数的更新运算的特征,还能够通过文献1记载的奇异值分解进行追加学习。即,作为Wm的已学习模型,构成为不仅保持矩阵Γr×r、VT n×r,还保持矩阵Um×r。由此,使用将希望追加学习的l个一维学习图像信号彼此并列地排列而成的矩阵Wl,进行对已经存在的上述奇异值分解矩阵Um×r、Γr×r、VT n×r进行更新的矩阵运算,由此得到与对将矩阵Wm和矩阵Wl在行方向上连结而成的矩阵Wm+1进行奇异值分解的情况相同的学习模型(矩阵U(m+l)×r″、Γr×r″、VT n×r″)。在不使用上述更新运算的情况下,不能进行追加学习,作为再次学习,需要对矩阵Wm+1进行通常的奇异值分解,因此,能够通过上述更新运算实现高速且省存储器的追加学习处理。另外,可以是初始的学习和追加学习均使用上述更新运算,也可以仅追加学习使用上述更新运算。
进而,在文献1中记载有如下技术:针对矩阵Am×n的奇异值分解后的矩阵Um×r、Γr×r、VT n×r,使用上述行向量a,仅通过从已经存在的矩阵Um×r、Γr×r、VT n×r起的更新运算来实现将从矩阵Am×n中选择出的1个行向量a排除的矩阵Am×n,a的奇异值分解运算。通过导入该技术,即使在已学习模型(矩阵Um×r、Γr×r、VT n×r)中使用的学习图像信号中由于人为错误等而混入了不适合学习的图像的情况下,也可通过高速且省存储器的运算得到将不适合的一维学习图像信号wd′(与所述行向量a对应)排除的情况下的已学习模型(矩阵U(m-1)×r″′、Γr×r″′、VT n×r″′)。
此时,在存在多个希望排除的学习图像的情况下,依次实施上述处理即可。
进而,在文献1中记载有如下技术:针对奇异值分解后的矩阵Um×r、Γr×r、VT n×r,使用上述行向量a和上述行向量a′,仅通过从已经存在的矩阵Um×r、Γr×r、VT n×r起的更新运算来实现将从矩阵Am×n中选择出的1个行向量a排除且追加1个新的行向量a′而成的矩阵Am×n,a′-a的奇异值分解运算。通过导入该技术,即使在已学习模型(矩阵Um×r、Γr×r、VT n×r)中使用的学习图像信号中由于人为错误等而混入了与本来应该学习的图像不同的图像的情况下,也可通过高速且省存储器的运算得到将不适合的一维学习图像信号wd′(与所述行向量a对应)置换为正确的一维学习图像信号wa′(与所述行向量a′对应)的情况下的已学习模型(矩阵Um×r″″、Γr×r″″、VT n×r″″)。
此时,在存在多个希望置换的学习图像的情况下,依次实施上述处理即可。
例如,在作为说明变量输入了一维推理对象图像信号时,已学习模型生成部150根据奇异值分解部140计算的右奇异向量和奇异值,生成输出一维推理对象图像信号的近似信号(以下称作“一维近似信号”)作为推理结果的已学习模型。
下面,将一维近似信号记作wt来进行说明。
wt能够使用式(4)中的矩阵Γm×n和行例VT n×n通过下式(6)来表示。
wt=utΓm×nVT n×n…式(6)
这里,ut是一维向量,是由用于使用矩阵Γm×n和行例VT n×n复原wt的系数构成的wt的特征向量。根据式(4),矩阵Γm×n和行例VT n×n已知,因此,如果wt确定,则唯一地决定ut
在应用式(6)时,wt能够使用式(5)中的矩阵Γr×r和行例VT n×r通过下式(7)来近似。
wt≒wt =ut Γr×rVT n×r…式(7)
这里,wt 是近似wt而成的一维近似信号。此外,ut 是将wt的特征向量即ut的维数削减至r维的特征向量(以下称作“近似特征向量”),能够得到下式(8)。
ut =wt Vn×rΓr×r -1≒wtVn×rΓr×r -1…式(8)
这里,Γr×r -1是Γr×r的逆矩阵。
如上所述,在作为说明变量输入了一维推理对象图像信号即wt时,已学习模型生成部150例如根据式(7)生成输出一维近似信号即wt 的已学习模型。
此外,在作为说明变量输入了一维推理对象图像信号时,已学习模型生成部150也可以根据奇异值分解部140计算的右奇异向量和奇异值,生成输出与一维推理对象图像信号对应的推理对象图像的特征向量作为推理结果的已学习模型。
该情况下,例如,在作为说明变量输入了一维推理对象图像信号时,已学习模型生成部150生成输出与一维推理对象图像信号对应的推理对象图像的特征向量且是将该特征向量ut的维数削减至r维的特征向量ut 作为推理结果的已学习模型。
如上所述,在作为说明变量输入了一维推理对象图像信号即wt时,已学习模型生成部150例如也可以根据式(8)生成输出与一维推理对象图像信号对应的推理对象图像的近似特征向量即ut 的已学习模型。
已学习模型输出部160输出已学习模型生成部150生成的已学习模型作为已学习模型信息。
具体而言,例如,已学习模型输出部160将已学习模型信息输出到存储装置11,使存储装置11进行存储。
通过如上所述构成,学习装置100能够生成未由使中间层多层化的深度神经网络构成的已学习模型。其结果是,学习装置100不需要参数的反复优化处理而仅通过1次的奇异值分解就能够生成能够进行高精度推理的已学习模型,因此,与以往相比能够在短时间内生成能够进行高精度推理的已学习模型。
在此前的说明中,学习用图像取得部110从存储装置11读出学习用图像信息,由此取得预先生成的彼此不同的多个学习用图像信息,但是,学习用图像取得部110取得学习用图像信息的方法不限于此。
例如,学习用图像取得部110也可以根据表示与学习用图像信息不同的图像的、表示通过拍摄对象物体而取得的图像(以下称作“拍摄图像”)的信息“以下称作“拍摄图像信息””,生成并取得学习用图像信息。
为了使学习用图像取得部110根据拍摄图像信息生成并取得学习用图像信息,例如如图2所示,学习装置100具有拍摄图像取得部111。
拍摄图像取得部111取得表示通过拍摄对象物体而取得的拍摄图像的拍摄图像信息。
具体而言,拍摄图像取得部111取得与彼此不同的多个对象物体分别对应的拍摄图像信息。
例如,拍摄图像取得部111从预先存储有与彼此不同的多个对象物体分别对应的、多个拍摄图像信息的存储装置11读出拍摄图像信息,由此取得与彼此不同的多个对象物体分别对应的拍摄图像信息。
该情况下,例如,学习用图像取得部110关于拍摄图像取得部111取得的多个拍摄图像信息分别表示的拍摄图像,将拍摄图像分割成多个图像区域,取得与各图像区域对应的部分图像。学习用图像取得部110按照每个拍摄图像信息取得分别表示基于拍摄图像的多个部分图像的部分图像信息,由此取得与拍摄图像取得部111取得的多个拍摄图像信息分别对应的多个部分图像信息作为学习用图像信息。具体的分割图像的例子是所述的图3B中记载的分割块。
此外,该情况下,矩阵生成部130将与学习用图像取得部110取得的、与拍摄图像取得部111取得的多个拍摄图像信息分别对应的多个部分图像信息中的符合预定的条件的多个部分图像信息对应的多个一维学习图像信号彼此并列地排列,由此生成矩阵。
这里,符合预定的条件的多个部分图像信息例如是与多个拍摄图像信息分别表示的拍摄图像中的彼此相同的图像区域对应的部分图像信息。在图3B中,相同的图像区域是分割块Di,j的位置索引(i,j)一致的块。
即,例如,矩阵生成部130将一维学习图像生成部120根据与拍摄图像取得部111取得的多个拍摄图像信息分别表示的拍摄图像中的彼此相同的图像区域对应的部分图像信息生成的多个一维学习图像信号彼此并列地排列,由此生成矩阵。
奇异值分解部140将一维学习图像生成部120根据部分图像信息生成的一维学习图像信号彼此并列地排列,由此计算矩阵生成部130生成的矩阵中的右奇异向量和奇异值。
此外,已学习模型生成部150生成输出与矩阵生成部130生成的基于部分图像信息的矩阵对应的右奇异向量和奇异值的已学习模型。
通过如上所述构成,学习装置100能够将拍摄推理对象物体而得到的图像(拍摄图像)中的预定的图像区域中的图像(部分图像)设为推理对象图像,在作为说明变量输入了与该推理对象图像对应的一维推理对象图像信号时,生成输出与该推理对象图像对应的一维近似信号或该推理对象图像的特征向量作为推理结果的已学习模型。
其结果是,学习装置100与以往相比能够在短时间内生成能够进行专用于拍摄推理对象物体而得到的拍摄图像中的预定的图像区域中的部分图像的高精度推理的已学习模型。
矩阵生成部130也可以根据预定的条件,生成与每个条件对应的矩阵。
具体而言,例如,矩阵生成部130生成与拍摄图像中的多个图像区域分别对应的矩阵。在图3B中,多个图像区域是汇集多个分割块Di,j而成的区域。例如是在水平方向上汇集4个分割块、在垂直方向上汇集2个分割块而成的区域。下面,将本区域称作“段”。这里,最大的段的例子是在图像整体中设为1个段的情况,该情况下,要生成的已学习模型为1个,能够减小保存已学习模型所需要的存储器容量。此外,各段的大小也可以不同。在预先知道在拍摄图像的哪个位置映出什么的情况下,进行明确的段分割(例如分割成被摄体和背景),由此能够利用各段对图像的特征进行分割,能够缩小应该学习的图像图案,因此,能够以有限的已学习模型数(段数)实现能够进行高精度推理(图像生成)的高效学习。
另一方面,最小的段的例子是按照1个部分图像的每个位置设为1个段的情况,该情况下,段数为部分图像分割数。由此,虽然学习模型数增大,但是能够进行专用于各部分图像位置的学习,能够进行非常高精度的推理(图像生成)。另外,该情况与上述记载的条件的情况相同。
该情况下,例如,奇异值分解部140关于矩阵生成部130生成的每个条件的矩阵计算右奇异向量和奇异值。
具体而言,例如,奇异值分解部140关于矩阵生成部130生成的与拍摄图像中的多个图像区域分别对应的矩阵,计算与多个矩阵分别对应的右奇异向量和奇异值。
此外,该情况下,已学习模型生成部150与矩阵生成部130生成的每个条件的矩阵对应地,根据奇异值分解部140计算的右奇异向量和奇异值生成与每个条件的矩阵对应的已学习模型。
具体而言,例如,已学习模型生成部150关于矩阵生成部130生成的与拍摄图像中的多个图像区域分别对应的矩阵,与多个该矩阵分别对应地,根据奇异值分解部140计算的右奇异向量和奇异值生成与多个矩阵分别对应的已学习模型。
通过如上所述构成,学习装置100能够将拍摄推理对象物体而得到的图像(拍摄图像)中的预定的多个图像区域各自的图像(部分图像)设为推理对象图像,在将与多个该推理对象图像分别对应的一维推理对象图像信号作为说明变量输入到使用相同的图像区域的部分图像生成的已学习模型时,按照每个图像区域生成输出与多个该推理对象图像分别对应的一维近似信号或与多个该推理对象图像分别对应的特征向量作为推理结果的已学习模型。
其结果是,学习装置100能够按照每个图像区域,与以往相比在短时间内生成能够进行专用于拍摄推理对象物体而得到的拍摄图像中的预定的多个图像区域各自的部分图像的高精度推理的已学习模型。
如图2所示,学习装置100可以具有拍摄图像取得部111和聚类部112。
聚类部112对学习用图像取得部110取得的、与拍摄图像取得部111取得的多个拍摄图像信息分别对应的多个部分图像信息分别表示的部分图像进行聚类。
在学习装置100具有拍摄图像取得部111和聚类部112的情况下,例如,矩阵生成部130将一维学习图像生成部120关于属于根据聚类部112聚类的结果而分类出的各类别的多个部分图像分别生成的多个一维学习图像信号彼此并列地排列,由此生成矩阵。
在聚类中,例如存在如下方法:针对对各部分图像自身、对部分图像进行特征转换后的图像(例如边缘图像、正交变换图像)自身、或对它们进行平滑化处理或合并处理等滤波处理后的图像中的任意一方或这些图像的组进行一维化后的信号,使用k-means法、层次型聚类、DBSCAN(Density-based spatial clustering of applications with noise:具有噪声的基于密度的聚类方法)、GMM(Gaussian Mixture Model:高斯混合模型)等聚类方法。
多个部分图像信息是分别表示属于根据聚类部112聚类的结果而分类出的各类别的多个部分图像的部分图像信息。
通过如上所述构成,学习装置100能够针对各类别,将拍摄推理对象物体而得到的图像(拍摄图像)中的预定的多个图像区域各自的图像(部分图像)中的属于该类别的部分图像设为推理对象图像,在将与该推理对象图像对应的一维推理对象图像信号作为说明变量输入到使用属于该类别的多个部分图像生成的已学习模型时,生成输出与该推理对象图像对应的一维近似信号或与该推理对象图像对应的特征向量作为推理结果的已学习模型。
其结果是,学习装置100与以往相比能够在短时间内生成能够进行专用于拍摄推理对象物体而得到的图像中的属于预定的类别的部分图像的高精度推理的已学习模型。
此外,矩阵生成部130也可以生成与各类别对应的矩阵。
该情况下,例如,奇异值分解部140关于矩阵生成部130生成的与各类别对应的矩阵,按照每个矩阵计算右奇异向量和奇异值。
此外,该情况下,已学习模型生成部150根据矩阵生成部130生成的与各类别对应的右奇异向量和奇异值,生成与各类别对应的已学习模型。
通过如上所述构成,学习装置100能够按照每个类别,与以往相比在短时间内生成能够进行专用于拍摄推理对象物体而得到的图像(拍摄图像)中的多个图像区域各自的部分图像(特别是专用于分别属于各类别的图像)的高精度推理的已学习模型。
参照图4A和图4B对实施方式1的学习装置100的主要部分的硬件结构进行说明。
图4A和图4B是示出实施方式1的学习装置100的主要部分的硬件结构的一例的图。
如图4A所示,学习装置100由计算机构成,该计算机具有处理器401和存储器402。在存储器402中存储有用于使该计算机作为学习用图像取得部110、拍摄图像取得部111、聚类部112、一维学习图像生成部120、矩阵生成部130、奇异值分解部140、已学习模型生成部150和已学习模型输出部160发挥功能的程序。处理器401读出并执行存储器402中存储的程序,由此实现学习用图像取得部110、拍摄图像取得部111、聚类部112、一维学习图像生成部120、矩阵生成部130、奇异值分解部140、已学习模型生成部150和已学习模型输出部160。
此外,如图4B所示,学习装置100也可以由处理电路403构成。该情况下,学习用图像取得部110、拍摄图像取得部111、聚类部112、一维学习图像生成部120、矩阵生成部130、奇异值分解部140、已学习模型生成部150和已学习模型输出部160的功能也可以通过处理电路403来实现。
此外,学习装置100也可以由处理器401、存储器402和处理电路403构成(未图示)。该情况下,也可以是,学习用图像取得部110、拍摄图像取得部111、聚类部112、一维学习图像生成部120、矩阵生成部130、奇异值分解部140、已学习模型生成部150和已学习模型输出部160的功能中的一部分功能通过处理器401和存储器402来实现,其余的功能通过处理电路403来实现。
处理器401例如使用CPU(Central Processing Unit:中央处理单元)、GPU(Graphics Processing Unit:图形处理单元)、微处理器、微控制器或DSP(Digital SignalProcessor:数字信号处理器)。
存储器402例如使用半导体存储器或磁盘。更具体而言,存储器402使用RAM(Random Access Memory:随机存取存储器)、ROM(Read Only Memory:只读存储器)、闪存、EPROM(Erasable Programmable Read Only Memory:可擦除可编程只读存储器)、EEPROM(Electrically Erasable Programmable Read-Only Memory:电可擦除可编程只读存储器)、SSD(Solid State Drive:固态驱动器)或HDD(Hard Disk Drive:硬盘驱动器)等。
处理电路403例如使用ASIC(Application Specific Integrated Circuit:专用集成电路)、PLD(Programmable Logic Device:可编程逻辑器件)、FPGA(FieldProgrammable Gate Array:现场可编程门阵列)、SoC(System-on-a-Chip:单芯片系统)或系统LSI(Large-Scale Integration:大规模集成电路)。
参照图5对实施方式1的学习装置100的动作进行说明。
图5是说明实施方式1的学习装置100的处理的一例的流程图。
另外,图5是学习装置100在学习用图像取得部110、一维学习图像生成部120、矩阵生成部130、奇异值分解部140、已学习模型生成部150和已学习模型输出部160的基础上还具有拍摄图像取得部111和聚类部112的情况下的流程图。
在学习装置100不具有聚类部112或不具有拍摄图像取得部111和聚类部112的情况下,在图5中,能够适当省略拍摄图像取得部111或聚类部112进行的处理。
首先,在步骤ST501中,拍摄图像取得部111取得拍摄图像信息。
接着,在步骤ST502中,学习用图像取得部110取得与多个拍摄图像信息分别对应的多个部分图像信息作为学习用图像信息。
接着,在步骤ST503中,聚类部112对多个部分图像信息分别表示的部分图像进行聚类。
接着,在步骤ST504中,一维学习图像生成部120关于多个学习用图像信息生成一维学习图像信号。
接着,在步骤ST505中,矩阵生成部130生成将多个一维学习图像信号彼此并列地排列而成的矩阵。
接着,在步骤ST506中,奇异值分解部140对矩阵进行奇异值分解,由此计算右奇异向量和奇异值。但是,在进行追加学习处理、去除或置换特定的学习数据等使用文献1的更新运算的学习模型的更新处理的情况下(第0031段~第0033段),还得到左奇异向量。
接着,在步骤ST507中,已学习模型生成部150根据右奇异向量和奇异值生成已学习模型。但是,在进行追加学习处理、去除或置换特定的学习数据等使用文献1的更新运算的学习模型的更新处理的情况下(第0031段~第0033段),还包含左奇异向量在内生成已学习模型。
接着,在步骤ST508中,已学习模型输出部160输出已学习模型作为已学习模型信息。
在步骤ST508之后,学习装置100结束该流程图的处理。
参照图6~图9对实施方式1的图像处理装置200进行说明。
参照图6对应用实施方式1的图像处理装置200的图像处理系统20的主要部分的结构进行说明。
图6是示出应用实施方式1的图像处理装置200的图像处理系统20的主要部分的结构的一例的框图。
图像处理系统20具有存储装置21、显示输出装置22、操作输入装置23、摄像装置24和图像处理装置200。
存储装置21是存储图像处理装置200执行预定的规定处理所需要的信息的装置。具体而言,例如,存储装置21存储学习装置100输出的已学习模型信息。图像处理装置200读出存储装置21中存储的已学习模型信息,由此取得已学习模型信息。
显示输出装置22是取得显示图像信号并显示该显示图像信号表示的显示图像的显示器等装置。显示输出装置22接受图像处理装置200输出的显示图像信号,显示该显示图像信号表示的显示图像。
操作输入装置23是接受用户操作并输出基于用户操作的操作信号的键盘或指示设备等装置。操作输入装置23不限于键盘或指示设备,只要能够接受用户操作并输出基于用户操作的操作信号即可,也可以是触摸面板或触摸传感器等。
操作输入装置23将操作信号输出到图像处理装置200。
摄像装置24是输出通过拍摄推理对象物体而得到的图像(以下称作“拍摄推理图像”)作为拍摄推理图像信息的数字静态照相机等装置。具体而言,摄像装置24将拍摄推理图像信息输出到图像处理装置200。
图像处理装置200是如下装置:根据基于拍摄推理图像信息表示的拍摄推理图像的图像(以下称作“推理对象图像”)和已学习模型信息表示的已学习模型,取得将基于推理对象图像的信号作为说明变量输入到已学习模型时的已学习模型输出的推理结果,取得基于所取得的推理结果的推理结果信息。
通过显示输出装置22和操作输入装置23,对操作图像处理装置200的用户提供交互式用户界面。
即,用户确认显示输出装置22中显示的显示图像,并且使用操作输入装置23进行用户操作,由此能够使图像处理装置200进行用户期望的控制。
参照图7对实施方式1的图像处理装置200的主要部分的结构进行说明。
图7是示出实施方式1的图像处理装置200的主要部分的结构的一例的框图。
图像处理装置200具有推理对象图像取得部210、一维推理对象图像生成部220和推理部240。
图像处理装置200也可以在上述的结构的基础上还具有拍摄推理图像取得部211或已学习模型取得部230。
下面,如图7所示,设图像处理装置200具有推理对象图像取得部210、拍摄推理图像取得部211、一维推理对象图像生成部220、已学习模型取得部230和推理部240来进行说明。
另外,作为图7中未图示的结构,图像处理装置200具有取得操作输入装置23输出的操作信号的操作取得部、以及生成显示图像并将表示该显示图像的显示图像信号输出到显示输出装置22的显示图像输出部。
拍摄推理图像取得部211取得表示通过拍摄推理对象物体而得到的拍摄推理图像的拍摄推理图像信息。
具体而言,例如,拍摄推理图像取得部211取得摄像装置24输出的拍摄推理图像信息。
拍摄推理图像取得部211取得拍摄推理图像信息的方法不限于取得摄像装置24输出的拍摄推理图像信息的方法。例如,拍摄推理图像取得部211也可以从预先存储有拍摄推理图像信息的存储装置21读出拍摄推理图像信息,由此取得拍摄推理图像信息。
推理对象图像取得部210取得表示基于拍摄推理对象物体而得到的图像(拍摄推理图像)的图像(推理对象图像)的推理对象图像信息。
具体而言,例如,推理对象图像取得部210从预先存储有推理对象图像信息的存储装置21读出推理对象图像信息,由此取得推理对象图像信息。
推理对象图像取得部210取得推理对象图像信息的方法不限于从存储装置21读出的方法。例如,推理对象图像取得部210也可以取得拍摄推理图像取得部211取得的拍摄推理图像信息作为推理对象图像信息。此外,例如,推理对象图像取得部210也可以根据拍摄推理图像取得部211取得的拍摄推理图像信息生成推理对象图像信息,由此取得推理对象图像信息。推理对象图像取得部210根据拍摄推理图像信息生成推理对象图像信息的方法在后面叙述。
一维推理对象图像生成部220对推理对象图像取得部210取得的推理对象图像信息表示的推理对象图像进行一维化,生成与推理对象图像信息对应的一维信号(以下称作“一维推理对象图像信号”)。
具体而言,例如,一维推理对象图像生成部220对推理对象图像取得部210取得的推理对象图像信息表示的推理对象图像进行光栅搜查,由此生成一维推理对象图像信号。
下面,将推理对象图像取得部210取得的推理对象图像信息表示的推理对象图像记作推理对象图像wt,将与推理对象图像wt对应的一维推理对象图像生成部220生成的一维推理对象图像信号记作一维推理对象图像信号wt 来进行说明。
已学习模型取得部230取得学习装置100输出的已学习模型信息。具体而言,例如,已学习模型取得部230从预先存储有已学习模型信息的存储装置21读出已学习模型信息,由此取得已学习模型信息。已学习模型取得部230也可以经由LAN(Local Area Network:局域网)等信息网络等从图6中未图示的学习装置100取得已学习模型信息。
另外,在推理部240预先保持已学习模型信息的情况下,在图像处理装置200中,已学习模型取得部230不是必须的结构。
推理部240根据一维推理对象图像生成部220生成的一维推理对象图像信号,取得与一维推理对象图像信号对应的推理结果信息。具体而言,推理部240将一维推理对象图像信号作为说明变量输入到已学习模型信息表示的已学习模型,取得已学习模型输出的推理结果,由此取得基于推理结果的推理结果信息。
在学习装置100生成的已学习模型输出与一维推理对象图像信号对应的一维近似信号作为推理结果的情况下,例如,推理部240将一维推理对象图像信号作为说明变量输入到已学习模型,取得已学习模型作为推理结果输出的一维近似信号。进而,推理部240取得表示根据已学习模型作为推理结果输出的一维近似信号生成的复原图像的复原图像信息作为推理结果信息。具体而言,例如,推理部240将已学习模型作为推理结果输出的一维近似信号映射到与推理对象图像取得部210取得的推理对象图像信息表示的推理对象图像相同大小的二维图像,由此生成复原图像。推理部240生成复原图像,由此取得表示复原图像的复原图像信息作为推理结果信息。
此外,在学习装置100生成的已学习模型输出与一维推理对象图像信号对应的推理对象图像的特征向量作为推理结果的情况下,例如,推理部240将一维推理对象图像信号作为说明变量输入到已学习模型,取得已学习模型作为推理结果输出的、与一维推理对象图像信号对应的推理对象图像的特征向量。进而,推理部240取得表示已学习模型作为推理结果输出的特征向量的特征向量信息作为推理结果信息。
通过如上所述构成,图像处理装置200能够使用与以往相比在短时间内生成的已学习模型进行高精度推理。
对推理对象图像取得部210根据拍摄推理图像信息生成推理对象图像信息的方法进行说明。
推理对象图像取得部210关于拍摄推理图像取得部211取得的拍摄推理图像信息表示的拍摄推理图像,将拍摄推理图像分割成多个图像区域。推理对象图像取得部210生成并取得分别表示通过将拍摄推理图像分割成多个图像区域而得到的多个图像(以下称作“部分推理图像”)的部分推理图像信息。推理对象图像取得部210分别取得与拍摄推理图像取得部211取得的拍摄推理图像信息对应的多个部分推理图像信息中的预定的1个以上的部分推理图像信息作为推理对象图像信息。
在推理对象图像取得部210取得部分推理图像信息作为推理对象图像信息的情况下,一维推理对象图像生成部220生成与推理对象图像取得部210取得的1个以上的推理对象图像信息分别对应的一维推理对象图像信号。推理部240取得与一维推理对象图像生成部220生成的一维推理对象图像信号对应的推理结果信息,该一维推理对象图像信号与1个以上的推理对象图像信息分别对应。
该情况下,已学习模型是学习装置100使用部分图像作为学习用图像生成的已学习模型,具体而言,已学习模型是学习装置100根据将基于与多个拍摄图像各自的彼此相同的图像区域对应的多个部分图像的一维学习图像信号彼此并列地排列而生成的矩阵生成的已学习模型。因此,按照定义的每个图像区域存在一个已学习模型。
通过如上所述构成,图像处理装置200能够进行专用于拍摄推理图像中的预定的1个以上的图像区域各自的部分图像的高精度推理。
参照图8A和图8B对实施方式1的图像处理装置200的主要部分的硬件结构进行说明。
图8A和图8B是示出实施方式1的图像处理装置200的主要部分的硬件结构的一例的图。
如图8A所示,图像处理装置200由计算机构成,该计算机具有处理器801和存储器802。在存储器802中存储有用于使该计算机作为推理对象图像取得部210、拍摄推理图像取得部211、一维推理对象图像生成部220、已学习模型取得部230和推理部240发挥功能的程序。处理器801读出并执行存储器802中存储的程序,由此实现推理对象图像取得部210、拍摄推理图像取得部211、一维推理对象图像生成部220、已学习模型取得部230和推理部240。
此外,如图8B所示,图像处理装置200也可以由处理电路803构成。该情况下,推理对象图像取得部210、拍摄推理图像取得部211、一维推理对象图像生成部220、已学习模型取得部230和推理部240的功能也可以通过处理电路803来实现。
此外,图像处理装置200也可以由处理器801、存储器802和处理电路803构成(未图示)。该情况下,也可以是,推理对象图像取得部210、拍摄推理图像取得部211、一维推理对象图像生成部220、已学习模型取得部230和推理部240的功能中的一部分功能通过处理器801和存储器802来实现,其余的功能通过处理电路803来实现。
处理器801和存储器802与图4A所示的处理器401和存储器402相同,因此省略说明。
此外,处理电路803与图4B所示的处理电路403相同,因此省略说明。
参照图9对实施方式1的图像处理装置200的动作进行说明。
图9是说明实施方式1的图像处理装置200的处理的一例的流程图。
另外,图9是图像处理装置200在推理对象图像取得部210、一维推理对象图像生成部220和推理部240的基础上还具有拍摄推理图像取得部211和已学习模型取得部230的情况下的流程图。
在图像处理装置200不具有拍摄推理图像取得部211或已学习模型取得部230的情况下,在图9中,能够适当省略拍摄推理图像取得部211和已学习模型取得部230进行的处理。
首先,在步骤ST901中,拍摄推理图像取得部211取得拍摄推理图像信息。
接着,在步骤ST902中,推理对象图像取得部210取得推理对象图像信息。
接着,在步骤ST903中,一维推理对象图像生成部220生成一维推理对象图像信号。
接着,在步骤ST904中,已学习模型取得部230取得已学习模型信息。
接着,在步骤ST905中,推理部240取得已学习模型输出的推理结果,取得基于推理结果的推理结果信息。
在步骤ST905之后,图像处理装置200结束该流程图的处理,在结束后返回步骤ST901,反复执行该流程图的处理。
如上所述,实施方式1的学习装置100具有:学习用图像取得部110,其取得表示学习用图像的学习用图像信息;一维学习图像生成部120,其对学习用图像取得部110取得的多个学习用图像信息分别表示的学习用图像进行一维化,生成与多个学习用图像信息对应的多个一维学习图像信号;矩阵生成部130,其生成将一维学习图像生成部120生成的多个一维学习图像信号彼此并列地排列而成的矩阵;奇异值分解部140,其对矩阵生成部130生成的矩阵进行奇异值分解,由此计算右奇异向量和奇异值;已学习模型生成部150,其生成基于奇异值分解部140计算的右奇异向量和奇异值的已学习模型,该已学习模型将一维推理对象图像信号作为说明变量而输出推理结果,该一维推理对象图像信号表示对拍摄推理对象物体而得到的图像即推理对象图像进行一维化而成的图像;以及已学习模型输出部160,其输出已学习模型生成部150生成的已学习模型作为已学习模型信息。
通过这样构成,学习装置100与以往相比能够在短时间内生成能够进行高精度推理的已学习模型。
此外,如上所述,实施方式1的学习装置100构成为,在上述的结构中,在作为说明变量输入了一维推理对象图像信号时,已学习模型生成部150根据奇异值分解部140计算的右奇异向量和奇异值,生成输出一维推理对象图像信号的近似信号即一维近似信号作为推理结果的已学习模型。
通过这样构成,学习装置100能够生成与以往相比能够在短时间内进行高精度推理的已学习模型,该已学习模型输出基于作为说明变量输入到已学习模型的推理对象图像的一维近似信号作为推理结果。
此外,如上所述,实施方式1的学习装置100构成为,在上述的结构中,在作为说明变量输入了一维推理对象图像信号时,已学习模型生成部150根据奇异值分解部140计算的右奇异向量和奇异值,生成输出与一维推理对象图像信号对应的推理对象图像的特征向量作为推理结果的已学习模型。
通过这样构成,学习装置100能够生成与以往相比能够在短时间内进行高精度推理的已学习模型,该已学习模型输出与作为说明变量输入到已学习模型的一维推理对象图像信号对应的推理对象图像的特征向量作为推理结果。
此外,如上所述,实施方式1的学习装置100构成为,在上述的结构中,一维学习图像生成部120对学习用图像取得部110取得的学习用图像信息表示的学习用图像进行光栅搜查,由此生成一维学习图像信号。
通过这样构成,学习装置100能够简单地将学习用图像转换为一维学习图像信号。
此外,如上所述,实施方式1的学习装置100构成为,在上述的结构中,学习用图像取得部110取得分别表示彼此相等的像素数的多个学习用图像的学习用图像信息。
通过这样构成,学习装置100在生成已学习模型时,不对多个学习用图像实施复杂的图像处理,就能够简单地生成矩阵。
此外,如上所述,实施方式1的学习装置100构成为,在上述的结构的基础上具有拍摄图像取得部111,该拍摄图像取得部111取得表示通过拍摄对象物体而取得的拍摄图像的、与彼此不同的多个对象物体分别对应的拍摄图像信息,学习用图像取得部110关于拍摄图像取得部111取得的多个拍摄图像信息分别表示的拍摄图像,将拍摄图像分割成多个图像区域,按照每个拍摄图像信息取得分别表示基于拍摄图像的多个部分图像的部分图像信息,由此取得与拍摄图像取得部111取得的多个拍摄图像信息分别对应的多个部分图像信息作为学习用图像信息。
通过这样构成,学习装置100与以往相比能够在短时间内生成能够进行专用于拍摄推理对象物体而得到的拍摄图像中的预定的图像区域中的部分图像的高精度推理的已学习模型。
此外,如上所述,实施方式1的学习装置100构成为,在上述的结构中,矩阵生成部130将与学习用图像取得部110取得的多个部分图像信息对应的多个一维学习图像信号彼此并列地排列,由此生成矩阵,该多个部分图像信息是与拍摄图像取得部111取得的多个拍摄图像信息分别对应的多个部分图像信息中的符合预定的条件的多个部分图像信息。
通过这样构成,学习装置100与以往相比能够在短时间内生成能够进行专用于拍摄推理对象物体而得到的拍摄图像中的预定的图像区域中的部分图像的高精度推理的已学习模型。
此外,如上所述,实施方式1的学习装置100构成为,在上述的结构中,矩阵生成部130将一维学习图像生成部120根据与拍摄图像取得部111取得的多个拍摄图像信息分别表示的拍摄图像中的彼此相同的图像区域对应的部分图像信息生成的一维学习图像信号彼此并列地排列,由此生成矩阵。
通过这样构成,学习装置100与以往相比能够在短时间内生成能够进行专用于拍摄推理对象物体而得到的拍摄图像中的预定的图像区域中的部分图像的高精度推理的已学习模型。
此外,如上所述,实施方式1的学习装置100构成为,在上述的结构的基础上具有聚类部112,该聚类部112对学习用图像取得部110取得的、与拍摄图像取得部111取得的多个拍摄图像信息分别对应的多个部分图像信息分别表示的部分图像进行聚类,矩阵生成部130将一维学习图像生成部120关于属于根据聚类部112聚类的结果而分类出的各类别的多个部分图像分别生成的一维学习图像信号彼此并列地排列,由此生成矩阵。
通过这样构成,学习装置100与以往相比能够在短时间内生成能够进行专用于拍摄推理对象物体而得到的拍摄图像中的属于各类别的部分图像的高精度推理。
此外,如上所述,实施方式1的学习装置100构成为,在上述的结构的基础上,矩阵生成部130根据预定的条件,生成与每个条件对应的矩阵,奇异值分解部140关于矩阵生成部130生成的每个条件的矩阵计算右奇异向量和奇异值,已学习模型生成部150根据与矩阵生成部130生成的每个条件的矩阵对应的右奇异向量和奇异值,生成与每个条件的矩阵对应的已学习模型。通过这样构成,学习装置100与以往相比能够在短时间内生成能够进行专用于拍摄推理对象物体而得到的拍摄图像中的预定的图像区域中的部分图像或属于根据聚类部112聚类的结果而分类出的各类别的部分图像的高精度推理的、与每个条件的矩阵对应的多个已学习模型。
此外,如上所述,实施方式1的图像处理装置200具有:推理对象图像取得部210,其取得表示基于拍摄推理对象物体而得到的图像即拍摄推理图像的图像即推理对象图像的推理对象图像信息;一维推理对象图像生成部220,其对推理对象图像取得部210取得的推理对象图像信息表示的推理对象图像进行一维化,生成与推理对象图像信息对应的一维推理对象图像信号;以及推理部240,其根据一维推理对象图像生成部220生成的一维推理对象图像信号,取得与一维推理对象图像信号对应的推理结果信息,推理部240将一维推理对象图像信号作为说明变量输入到已学习模型,取得已学习模型输出的推理结果,由此取得基于推理结果的推理结果信息。
通过这样构成,图像处理装置200能够使用与以往相比在短时间内生成的已学习模型进行高精度推理。
此外,如上所述,实施方式1的图像处理装置200构成为,在上述的结构中,推理部240将一维推理对象图像信号作为说明变量输入到已学习模型,取得已学习模型作为推理结果输出的一维近似信号,取得表示根据已学习模型作为推理结果输出的一维近似信号生成的复原图像的复原图像信息作为推理结果信息,其中,一维近似信号是一维推理对象图像信号的近似信号。
通过这样构成,图像处理装置200能够使用与以往相比在短时间内生成的已学习模型,从基于作为说明变量输入到已学习模型的推理对象图像的一维推理对象图像信号取得近似一维推理对象图像信号而成的一维近似信号,使用取得的一维近似信号,高精度地推理推理对象图像。
此外,如上所述,实施方式1的图像处理装置200构成为,在上述的结构中,推理部240将已学习模型作为推理结果输出的一维近似信号映射到与推理对象图像取得部210取得的推理对象图像信息表示的推理对象图像相同大小的二维图像,由此生成复原图像,取得表示复原图像的复原图像信息。
通过这样构成,图像处理装置200能够使用与以往相比在短时间内生成的已学习模型,从基于作为说明变量输入到已学习模型的推理对象图像的一维推理对象图像信号取得近似一维推理对象图像信号而成的一维近似信号,使用取得的一维近似信号,高精度地推理推理对象图像。
此外,如上所述,实施方式1的图像处理装置200构成为,在上述的结构中,推理部240将一维推理对象图像信号作为说明变量输入到已学习模型,取得已学习模型作为推理结果输出的、与一维推理对象图像信号对应的推理对象图像的特征向量,取得已学习模型作为推理结果输出的特征向量表示的特征向量信息作为推理结果信息。
通过这样构成,图像处理装置200能够使用与以往相比在短时间内生成的已学习模型,高精度地推理与作为说明变量输入到已学习模型的一维推理对象图像信号对应的推理对象图像的特征向量。
此外,如上所述,实施方式1的图像处理装置200构成为,在上述的结构中,一维推理对象图像生成部220对推理对象图像取得部210取得的推理对象图像信息表示的推理对象图像进行光栅搜查,由此生成一维推理对象图像信号。
通过这样构成,图像处理装置200能够简单地将推理对象图像转换为一维推理对象图像信号。
此外,如上所述,实施方式1的图像处理装置200构成为,在上述的结构的基础上还具有拍摄推理图像取得部211,该拍摄推理图像取得部211取得表示拍摄推理对象物体而得到的拍摄推理图像的拍摄推理图像信息,推理对象图像取得部210关于拍摄推理图像取得部211取得的拍摄推理图像信息表示的拍摄推理图像,将拍摄推理图像分割成多个图像区域,取得分别表示基于拍摄推理图像的多个部分推理图像的部分推理图像信息,由此,分别取得与拍摄推理图像取得部211取得的拍摄推理图像信息对应的多个部分推理图像信息中的预定的1个以上的部分推理图像信息作为推理对象图像信息,一维推理对象图像生成部220生成与推理对象图像取得部210取得的1个以上的推理对象图像信息分别对应的一维推理对象图像信号,推理部240取得与一维推理对象图像生成部220生成的一维推理对象图像信号对应的推理结果信息,一维推理对象图像信号与1个以上的推理对象图像信息分别对应。
通过这样构成,图像处理装置200能够进行专用于拍摄推理对象物体而得到的拍摄图像中的预定的图像区域中的部分图像的高精度推理。
实施方式2
参照图10~图13对实施方式2的图像处理装置200a进行说明。
参照图10对应用实施方式2的图像处理装置200a的图像处理系统20a的主要部分的结构进行说明。
图10是示出应用实施方式2的图像处理装置200a的图像处理系统20a的主要部分的结构的一例的框图。
图像处理系统20a具有存储装置21、显示输出装置22、操作输入装置23、摄像装置24和图像处理装置200a。
即,图像处理系统20a将实施方式1的图像处理装置200变更为图像处理装置200a。
在图10中,对与图6所示的结构相同的结构标注相同标号并省略详细说明。即,省略存储装置21、显示输出装置22、操作输入装置23和摄像装置24的详细说明。
图像处理装置200a具有实施方式1的图像处理装置200具有的功能,并且,新追加判定推理对象图像中映出的推理对象物体是否存在异常的功能。这里,异常表示正常的推理对象物体(良品)中没有的特征。作为异常的例子,如果是产品检查,则可举出损伤、污垢、变色、异物附着、破损、缺损、部件错误、印刷错误等。
参照图11对实施方式2的图像处理装置200a的主要部分的结构进行说明。
图11是示出实施方式2的图像处理装置200a的主要部分的结构的一例的框图。
图像处理装置200a具有推理对象图像取得部210、拍摄推理图像取得部211、一维推理对象图像生成部220、已学习模型取得部230、推理部240、异常判定部250和判定结果输出部260。
即,图像处理装置200a在实施方式1的图像处理装置200中追加异常判定部250和判定结果输出部260。
在图11中,对与图7所示的结构相同的结构标注相同标号并省略详细说明。即,省略图像处理装置200a具有的拍摄推理图像取得部211、一维推理对象图像生成部220、已学习模型取得部230和推理部240的详细说明。
另外,实施方式2的图像处理装置200a具有的推理部240使用的已学习模型是实施方式1的学习装置100生成的、输出作为说明变量输入的一维推理对象图像信号的近似信号即一维近似信号作为推理结果的已学习模型。进而,该已学习模型是使用与表示映出没有异常的拍摄对象物体的拍摄图像(以下称作“良品图像”)的多个学习用图像分别对应的多个一维学习图像信号进行了学习的模型。
即,实施方式2的图像处理装置200a具有的推理部240将一维推理对象图像信号作为说明变量输入到已学习模型,取得已学习模型作为推理结果输出的、作为一维推理对象图像信号的近似信号的一维近似信号,取得表示根据已学习模型作为推理结果输出的一维近似信号生成的复原图像的复原图像信息作为推理结果信息。此时,复原图像使用仅根据多个良品图像学习的已学习模型来推理,因此,能够高精度地仅复原出良品图像的特征。
异常判定部250根据推理对象图像取得部210取得的推理对象图像信息和推理部240生成的复原图像信息对推理对象图像信息表示的推理对象图像和复原图像信息表示的复原图像进行比较,由此判定推理对象图像中映出的推理对象物体是否存在异常。
具体而言,例如,异常判定部250将推理对象图像信息表示的推理对象图像和复原图像信息表示的复原图像分别分割成具有预定的图像尺寸的多个检查块。
下面,将对推理对象图像进行分割而成的检查块称作检查对象块,将对复原图像进行分割而成的检查块称作复原检查块来进行说明。
这里,推理对象图像和复原图像是相同的图像尺寸的图像,进行相同的分割,因此,检查对象块的个数和复原检查块的个数相等。下面,设检查对象块的个数和复原检查块的个数均为j(j为正整数)个来进行说明。此外,在作为分割图像的说明而例示的图3B中,以Sx≤Bx且Sy≤By的方式,以各块相邻或块彼此重叠的方式进行分割,由此能够生成检查块和复原检查块。由此,针对各异常区域,能够提高异常区域(损伤、异物等)收敛于块内的检查块存在1个以上的概率。即,能够降低异所区域跨越块的边界而将异常区域分割成多个块,各块的异常得分变小而产生漏检测的概率。
参照图12,对实施方式2的图像处理装置200a具有的异常判定部250进行比较的推理对象图像中的检查块和复原图像中的检查块即复原检查块进行说明。
图12是示出实施方式2的图像处理装置200a具有的异常判定部250进行比较的推理对象图像中的检查对象块和复原图像中的复原检查块的一例的说明图。
在图12中,左侧所示的图像是推理对象图像,推理对象图像中的由实线矩形包围的图像区域的图像是1个检查对象块。此外,在图12中,右侧所示的图像是复原图像,复原图像中的由实线矩形包围的图像区域的图像是与该检查对象块对应的复原检查块。
异常判定部250关于j个检查对象块,分别对检查对象块和复原图像中与跟推理对象图像中的该检查对象块相同的图像区域对应的复原检查块进行比较,由此判定推理对象图像中映出的推理对象物体是否存在异常。如上所述,复原图像使用仅根据多个良品图像学习的已学习模型来推理,因此,能够高精度地仅复原出良品图像的特征。另一方面,关于具有良品中不存在的特征的异常部位,复原精度变低。由此,能够将检查对象块与复原检查块之间的差异大的区域判定为异常。
更具体而言,例如,异常判定部250使用下式(9),计算第k(k为j以下的任意的正整数)个检查对象块和与该检查对象块对应的第k个复原检查块的差分评价值。
这里,αk是第k个检查对象块和与该检查对象块对应的第k个复原检查块的差分评价值。此外,Rk是第k个检查对象块中的像素的集合(以下称作“像素集合”),Gk是第k个复原检查块中的像素的集合,nk是Rk和Gk的像素数。
此外,SX(x)是像素集合X中的像素x(x=1,2,…,n,n为像素集合X的像素数)的信号值,EX是像素集合X中的信号值的平均值。
另外,式(9)求出针对各像素集合Rk、Gk减去平均值EX(x=Rk、Gk)而得到的值的绝对值差分和。由此,不表示像素集合Rk、Gk的信号值本身的差异,而表示仅着眼于纹理差异的差分评价值。由此,能够进行超过在学习中使用的多个学习用图像的偏差范围的、由于拍摄条件偏差而引起的推理对象图像的画面整体的明亮度这样的不对平均值偏差造成影响的评价。另一方面,在希望包含这种平均值偏差在内作为异常进行评价的情况下,将删除式(9)中的EX(x=Rk、Gk)后的式子定义为αk即可。
进而,例如,异常判定部250使用下式(10)计算与j个检查对象块分别对应的差分评价值的最大值即检查得分I。
这里,α_basek是预定的值,并且是关于预先准备的良品图像,根据该良品图像和推理部240基于该良品图像生成的复原图像(以下称作“良品复原图像”)计算的良品图像中的检查对象块与良品复原图像中的复原检查块的差分评价值(例如利用式(9)计算的差分评价值)的最大值。
即,在设α_basek为网罗了根据预先准备的良品图像可能产生的良品图像的偏差的值的情况下,α_basek表示根据良品图像产生的最大的异常度。
因此,例如,在通过式(10)计算的检查得分I的值超过0(零)的情况下,异常判定部250判定推理对象图像中映出的推理对象物体是否存在异常。
另外,异常判定部250根据通过式(10)计算的检查得分I判定推理对象图像中映出的推理对象物体是否存在异常的阈值不限于0(零)。该阈值可以是比0(零)大的值,也可以是比0(零)小的值。该阈值越大,越不容易判定为异常,因此,抑制过检测的产生概率(过检测率),另一方面,异常的漏看产生的概率(漏看率)上升。该过检测率和漏看率处于折中的关系,因此,该阈值成为本图像处理装置中的调整参数。
判定结果输出部260输出异常判定部250判定出的结果作为判定结果信息。
具体而言,例如,判定结果输出部260也可以将判定结果信息作为显示图像信号输出到显示输出装置22,使显示输出装置22显示输出判定结果信息。
此外,例如,判定结果输出部260也可以将判定结果信息输出到照明装置或语音输出装置等图10中未图示的输出装置,在判定为推理对象物体存在异常的情况下,使该输出装置搁置存在该异常的意思。
另外,实施方式2的图像处理装置200a中的推理对象图像取得部210、拍摄推理图像取得部211、一维推理对象图像生成部220、已学习模型取得部230、推理部240、异常判定部250和判定结果输出部260的各功能可以通过实施方式1中由图8A和图8B示出一例的硬件结构中的处理器801和存储器802来实现,或者也可以通过处理电路803来实现。
参照图13对实施方式2的图像处理装置200a的动作进行说明。
图13是说明实施方式2的图像处理装置200a的处理的一例的流程图。
另外,在图13中,步骤ST901~步骤ST905的处理与图9所示的步骤ST901~步骤ST905的处理相同。
首先,在步骤ST901中,拍摄推理图像取得部211取得拍摄推理图像信息。
接着,在步骤ST902中,推理对象图像取得部210取得推理对象图像信息。
接着,在步骤ST903中,一维推理对象图像生成部220生成一维推理对象图像信号。
接着,在步骤ST904中,已学习模型取得部230取得已学习模型信息。
接着,在步骤ST905中,推理部240取得已学习模型输出的推理结果,取得基于推理结果的推理结果信息。
接着,在步骤ST1301中,异常判定部250判定推理对象图像中映出的推理对象物体是否存在异常。
接着,在步骤ST1302中,判定结果输出部260输出判定结果信息。
在步骤ST1302之后,图像处理装置200a结束该流程图的处理,在结束后返回步骤ST901,反复执行该流程图的处理。
如上所述,实施方式2的图像处理装置200a具有:推理对象图像取得部210,其取得表示基于拍摄推理对象物体而得到的图像即拍摄推理图像的图像即推理对象图像的推理对象图像信息;一维推理对象图像生成部220,其对推理对象图像取得部210取得的推理对象图像信息表示的推理对象图像进行一维化,生成与推理对象图像信息对应的一维推理对象图像信号;以及推理部240,其根据一维推理对象图像生成部220生成的一维推理对象图像信号,取得与一维推理对象图像信号对应的推理结果信息,推理部240将一维推理对象图像信号作为说明变量输入到已学习模型,取得已学习模型输出的推理结果,由此取得基于推理结果的推理结果信息,其中,图像处理装置200a具有的推理部240将一维推理对象图像信号作为说明变量输入到已学习模型,取得已学习模型作为推理结果输出的一维近似信号,取得表示根据已学习模型作为推理结果输出的一维近似信号生成的复原图像的复原图像信息作为推理结果信息,其中,一维近似信号是一维推理对象图像信号的近似信号,进而,图像处理装置200a具有:异常判定部250,其根据推理对象图像取得部210取得的推理对象图像信息和推理部240生成的复原图像信息对推理对象图像信息表示的推理对象图像和复原图像信息表示的复原图像进行比较,由此判定推理对象图像中映出的推理对象物体是否存在异常;以及判定结果输出部260,其输出异常判定部250判定出的结果作为判定结果信息。
通过这样构成,图像处理装置200a能够使用与以往相比在短时间内生成的已学习模型,从基于作为说明变量输入到已学习模型的推理对象图像的一维推理对象图像信号取得近似一维推理对象图像信号而成的一维近似信号,使用取得的一维近似信号,高精度地推理复原了推理对象图像的复原图像,进而,通过对复原图像和推理对象图像进行比较,能够判定推理对象图像中映出的推理对象物体是否存在异常。
实施方式3
参照图14~图16对实施方式3的图像处理装置200b进行说明。
参照图14对应用实施方式3的图像处理装置200b的图像处理系统20b的主要部分的结构进行说明。
图14是示出应用实施方式3的图像处理装置200b的图像处理系统20b的主要部分的结构的一例的框图。
图像处理系统20b具有存储装置21、显示输出装置22、操作输入装置23、摄像装置24和图像处理装置200b。
即,图像处理系统20b将实施方式1的图像处理装置200变更为图像处理装置200b。
在图14中,对与图6所示的结构相同的结构标注相同标号并省略详细说明。即,省略存储装置21、显示输出装置22、操作输入装置23和摄像装置24的详细说明。
图像处理装置200b具有实施方式1的图像处理装置200具有的功能,并且,新追加将推理对象图像信息分类为预定的多个组中的任意一个组的功能。
参照图15对实施方式3的图像处理装置200b的主要部分的结构进行说明。
图15是示出实施方式3的图像处理装置200b的主要部分的结构的一例的框图。
图像处理装置200b具有推理对象图像取得部210、拍摄推理图像取得部211、一维推理对象图像生成部220、已学习模型取得部230、推理部240和分类部270。
即,图像处理装置200b在实施方式1的图像处理装置200中追加分类部270。
在图15中,对与图7所示的结构相同的结构标注相同标号并省略详细说明。即,省略图像处理装置200b具有的拍摄推理图像取得部211、一维推理对象图像生成部220、已学习模型取得部230和推理部240的详细说明。
另外,实施方式3的图像处理装置200b具有的推理部240使用的已学习模型是实施方式1的学习装置100生成的、输出与作为说明变量输入的一维推理对象图像信号对应的推理对象图像的特征向量作为推理结果的已学习模型。
即,实施方式3的图像处理装置200b具有的推理部240将一维推理对象图像信号作为说明变量输入到已学习模型,取得已学习模型作为推理结果输出的、与一维推理对象图像信号对应的推理对象图像的特征向量,取得表示已学习模型作为推理结果输出的特征向量的特征向量信息作为推理结果信息。
分类部270根据推理部240取得的特征向量信息,将与特征向量信息对应的推理对象图像信息分类为预定的多个组中的任意一个组,输出表示分类结果的分类结果信息。
具体而言,例如,分类部270使用推理部240取得的特征向量信息,进行基于支持向量机(Support Vector Machine:SVM)等有监督学习的分类,由此将推理对象图像信息分类为预定的多个组中的任意一个组。
基于支持向量机等有监督学习的分类方法是公知的技术,因此省略说明。
另外,实施方式3的图像处理装置200b中的推理对象图像取得部210、拍摄推理图像取得部211、一维推理对象图像生成部220、已学习模型取得部230、推理部240和分类部270的各功能可以通过实施方式1中由图8A和图8B示出一例的硬件结构中的处理器801和存储器802来实现,或者也可以通过处理电路803来实现。
参照图16对实施方式2的图像处理装置200b的动作进行说明。图16是说明实施方式2的图像处理装置200b的处理的一例的流程图。
另外,在图16中,步骤ST901~步骤ST905的处理与图9所示的步骤ST901~步骤ST905的处理相同。
首先,在步骤ST901中,拍摄推理图像取得部211取得拍摄推理图像信息。
接着,在步骤ST902中,推理对象图像取得部210取得推理对象图像信息。
接着,在步骤ST903中,一维推理对象图像生成部220生成一维推理对象图像信号。
接着,在步骤ST904中,已学习模型取得部230取得已学习模型信息。
接着,在步骤ST905中,推理部240取得已学习模型输出的推理结果,取得基于推理结果的推理结果信息。
接着,在步骤ST1601中,分类部270输出分类结果信息。
在步骤ST1601之后,图像处理装置200b结束该流程图的处理,在结束后返回步骤ST901,反复执行该流程图的处理。
如上所述,实施方式2的图像处理装置200b具有:推理对象图像取得部210,其取得表示基于拍摄推理对象物体而得到的图像即拍摄推理图像的图像即推理对象图像的推理对象图像信息;一维推理对象图像生成部220,其对推理对象图像取得部210取得的推理对象图像信息表示的推理对象图像进行一维化,生成与推理对象图像信息对应的一维推理对象图像信号;以及推理部240,其根据一维推理对象图像生成部220生成的一维推理对象图像信号,取得与一维推理对象图像信号对应的推理结果信息,推理部240将一维推理对象图像信号作为说明变量输入到已学习模型,取得已学习模型输出的推理结果,由此取得基于推理结果的推理结果信息,其中,图像处理装置200b具有的推理部240推理部240将一维推理对象图像信号作为说明变量输入到已学习模型,取得已学习模型作为推理结果输出的、与一维推理对象图像信号对应的推理对象图像的特征向量,取得表示已学习模型作为推理结果输出的特征向量的特征向量信息作为推理结果信息,进而,图像处理装置200b具有分类部270,该分类部270根据推理部240取得的特征向量信息,将与特征向量信息对应的推理对象图像信息分类为预定的多个组中的任意一个组,输出表示分类结果的分类结果信息。
通过这样构成,图像处理装置200b能够使用与以往相比在短时间内生成的已学习模型,使用与作为说明变量输入到已学习模型的一维推理对象图像信号对应的推理对象图像的特征向量,将与特征向量信息对应的推理对象图像信息分类为预定的多个组中的任意一个组。
另外,本发明能够在其发明范围内进行实施方式的任意结构要素的变形、或实施方式中的任意结构要素的省略。
产业上的可利用性
本发明的学习装置能够应用于学习系统或图像处理系统。
标号说明
10:学习系统;11:存储装置;12:显示输出装置;13:操作输入装置;100:学习装置;110:学习用图像取得部;111:拍摄图像取得部;112:聚类部;120:一维学习图像生成部;130:矩阵生成部;140:奇异值分解部;150:已学习模型生成部;160:已学习模型输出部;20、20a、20b:图像处理系统;21:存储装置;22:显示输出装置;23:操作输入装置;24:摄像装置;200、200a、200b:图像处理装置;210:推理对象图像取得部;211:拍摄推理图像取得部;220:一维推理对象图像生成部;230:已学习模型取得部;240:推理部;250:异常判定部;260:判定结果输出部;270:分类部;401、801:处理器;402、802:存储器;403、803:处理电路。

Claims (22)

1.一种学习装置,其特征在于,该学习装置具有:
学习用图像取得部,其取得表示学习用图像的学习用图像信息;
一维学习图像生成部,其对所述学习用图像取得部取得的多个所述学习用图像信息分别表示的所述学习用图像进行一维化,生成与多个所述学习用图像信息对应的多个一维学习图像信号;
矩阵生成部,其生成将所述一维学习图像生成部生成的多个所述一维学习图像信号彼此并列地排列而成的矩阵;
奇异值分解部,其对所述矩阵生成部生成的所述矩阵进行奇异值分解,由此计算右奇异向量和奇异值;
已学习模型生成部,其生成基于所述奇异值分解部计算的所述右奇异向量和所述奇异值的已学习模型,所述已学习模型将一维推理对象图像信号作为说明变量而输出推理结果,所述一维推理对象图像信号表示对拍摄推理对象物体而得到的图像即推理对象图像进行一维化而成的图像;以及
已学习模型输出部,其输出所述已学习模型生成部生成的所述已学习模型作为已学习模型信息。
2.根据权利要求1所述的学习装置,其特征在于,
在作为所述说明变量输入了所述一维推理对象图像信号时,所述已学习模型生成部根据所述奇异值分解部计算的所述右奇异向量和所述奇异值,生成输出所述一维推理对象图像信号的近似信号即一维近似信号作为所述推理结果的所述已学习模型。
3.根据权利要求1所述的学习装置,其特征在于,
在作为所述说明变量输入了所述一维推理对象图像信号时,所述已学习模型生成部根据所述奇异值分解部计算的所述右奇异向量和所述奇异值,生成输出与所述一维推理对象图像信号对应的所述推理对象图像的特征向量作为所述推理结果的所述已学习模型。
4.根据权利要求1所述的学习装置,其特征在于,
在已经存在所述左奇异向量、所述右奇异向量和所述奇异值的情况下,作为对将为了得到它们而进行奇异值分解后的所述矩阵和所述矩阵生成部生成的所述矩阵在行方向上连结而成的矩阵进行奇异值分解的方法,所述奇异值分解部使用所述矩阵生成部生成的所述矩阵,进行对已经存在的所述左奇异向量、已经存在的所述右奇异向量和已经存在的所述奇异值进行更新的矩阵运算,由此计算所述右奇异向量和所述奇异值。
5.根据权利要求1所述的学习装置,其特征在于,
在已经存在所述左奇异向量、所述右奇异向量和所述奇异值的情况下,所述矩阵生成部从为了得到它们而进行奇异值分解后的所述矩阵中选择1个一维学习图像信号,生成将所述选择出的一维学习图像信号排除的矩阵,
作为得到将所述选择出的一维学习图像信号排除的所述矩阵的奇异值分解结果的方法,所述奇异值分解部使用所述选择出的一维学习图像信号,进行对已经存在的所述左奇异向量、已经存在的所述右奇异向量和已经存在的所述奇异值进行更新的矩阵运算,由此计算所述右奇异向量和所述奇异值。
6.根据权利要求1所述的学习装置,其特征在于,
所述一维学习图像生成部对所述学习用图像取得部取得的所述学习用图像信息表示的所述学习用图像进行光栅搜查,由此生成所述一维学习图像信号。
7.根据权利要求1所述的学习装置,其特征在于,
所述学习用图像取得部取得分别表示彼此相等的像素数的多个所述学习用图像的所述学习用图像信息。
8.根据权利要求1所述的学习装置,其特征在于,
所述学习用图像取得部取得分别表示对拍摄到对象物体的拍摄图像进行分割而成的多个部分图像的部分图像信息作为所述学习用图像信息。
9.根据权利要求8所述的学习装置,其特征在于,
所述矩阵生成部将与所述学习用图像取得部取得的多个所述部分图像信息中的符合预定的条件的多个所述部分图像信息对应的多个所述一维学习图像信号彼此并列地排列,由此生成所述矩阵。
10.根据权利要求9所述的学习装置,其特征在于,
所述矩阵生成部将所述一维学习图像生成部根据与所述拍摄图像中的彼此相同的图像区域对应的所述部分图像信息生成的所述一维学习图像信号彼此并列地排列,由此生成所述矩阵。
11.根据权利要求9所述的学习装置,其特征在于,
所述学习装置具有聚类部,该聚类部对所述学习用图像取得部取得的多个所述部分图像信息分别表示的所述部分图像进行聚类,
所述矩阵生成部将所述一维学习图像生成部针对属于根据所述聚类部聚类的结果而分类出的各类别的多个所述部分图像分别生成的所述一维学习图像信号彼此并列地排列,由此生成所述矩阵。
12.根据权利要求9所述的学习装置,其特征在于,
所述矩阵生成部根据预定的所述条件,生成与每个所述条件对应的所述矩阵,
所述奇异值分解部针对所述矩阵生成部生成的每个所述条件的所述矩阵,计算所述右奇异向量和所述奇异值,
所述已学习模型生成部根据与所述矩阵生成部生成的每个所述条件的所述矩阵对应的所述右奇异向量和所述奇异值,生成与每个所述条件的所述矩阵对应的所述已学习模型。
13.一种学习方法,其特征在于,该学习方法具有以下步骤:
学习用图像取得部取得表示学习用图像的学习用图像信息;
一维学习图像生成部对由所述学习用图像取得部取得的多个所述学习用图像信息分别表示的所述学习用图像进行一维化,生成与多个所述学习用图像信息对应的多个一维学习图像信号;
矩阵生成部生成将由所述一维学习图像生成部生成的多个所述一维学习图像信号彼此并列地排列而成的矩阵;
奇异值分解部对由所述矩阵生成部生成的所述矩阵进行奇异值分解,由此计算右奇异向量和奇异值;
已学习模型生成部生成基于由所述奇异值分解部计算出的所述右奇异向量和所述奇异值的已学习模型,所述已学习模型将一维推理对象图像信号作为说明变量而输出推理结果,所述一维推理对象图像信号表示对拍摄推理对象物体而得到的图像即推理对象图像进行一维化而成的图像;以及
已学习模型输出部输出由所述已学习模型生成部生成的所述已学习模型作为已学习模型信息。
14.一种图像处理装置,其特征在于,所述图像处理装置具有:
推理对象图像取得部,其取得表示推理对象图像的推理对象图像信息;
一维推理对象图像生成部,其对所述推理对象图像取得部取得的所述推理对象图像信息表示的所述推理对象图像进行一维化,生成与所述推理对象图像信息对应的一维推理对象图像信号;以及
推理部,其根据所述一维推理对象图像生成部生成的所述一维推理对象图像信号,取得与所述一维推理对象图像信号对应的推理结果信息,所述推理部将所述一维推理对象图像信号作为说明变量输入到已学习模型,取得所述已学习模型输出的推理结果,由此取得基于所述推理结果的所述推理结果信息。
15.根据权利要求14所述的图像处理装置,其特征在于,
所述推理部将所述一维推理对象图像信号作为所述说明变量输入到所述已学习模型,取得所述已学习模型作为所述推理结果输出的一维近似信号,取得表示根据所述已学习模型作为所述推理结果输出的所述一维近似信号生成的复原图像的复原图像信息作为所述推理结果信息,其中,所述一维近似信号是所述一维推理对象图像信号的近似信号。
16.根据权利要求15所述的图像处理装置,其特征在于,
所述推理部将所述已学习模型作为所述推理结果输出的所述一维近似信号映射到与所述推理对象图像取得部取得的所述推理对象图像信息表示的所述推理对象图像相同的大小的二维图像,由此生成所述复原图像,取得表示所述复原图像的所述复原图像信息。
17.根据权利要求15所述的图像处理装置,其特征在于,
所述图像处理装置具有:
异常判定部,其根据所述推理对象图像取得部取得的所述推理对象图像信息和所述推理部生成的所述复原图像信息,对所述推理对象图像信息表示的所述推理对象图像和所述复原图像信息表示的所述复原图像进行比较,由此判定所述推理对象图像中映出的推理对象物体是否存在异常;以及
判定结果输出部,其输出所述异常判定部判定出的结果作为判定结果信息。
18.根据权利要求14所述的图像处理装置,其特征在于,
所述推理部将所述一维推理对象图像信号作为所述说明变量输入到所述已学习模型,取得所述已学习模型作为所述推理结果输出的特征向量、即与所述一维推理对象图像信号对应的所述推理对象图像的所述特征向量,取得所述已学习模型作为所述推理结果输出的所述特征向量表示的特征向量信息作为所述推理结果信息。
19.根据权利要求18所述的图像处理装置,其特征在于,
所述图像处理装置具有分类部,该分类部根据所述推理部取得的所述特征向量信息,将与所述特征向量信息对应的所述推理对象图像信息分类为预定的多个组中的任意一个所述组,输出表示分类的结果的分类结果信息。
20.根据权利要求14所述的图像处理装置,其特征在于,
所述一维推理对象图像生成部对所述推理对象图像取得部取得的所述推理对象图像信息表示的所述推理对象图像进行光栅扫描,由此生成所述一维推理对象图像信号。
21.根据权利要求14所述的图像处理装置,其特征在于,
所述图像处理装置具有拍摄推理图像取得部,该拍摄推理图像取得部取得表示拍摄推理对象物体而得到的拍摄推理图像的拍摄推理图像信息,
所述推理对象图像取得部关于所述拍摄推理图像取得部取得的所述拍摄推理图像信息表示的所述拍摄推理图像,将所述拍摄推理图像分割成多个图像区域,取得分别表示基于所述拍摄推理图像的多个部分推理图像的部分推理图像信息,由此,分别取得与所述拍摄推理图像取得部取得的所述拍摄推理图像信息对应的多个所述部分推理图像信息中的预定的1个以上的所述部分推理图像信息作为所述推理对象图像信息,
所述一维推理对象图像生成部生成与所述推理对象图像取得部取得的1个以上的所述推理对象图像信息分别对应的所述一维推理对象图像信号,
所述推理部取得与所述一维推理对象图像生成部生成的所述一维推理对象图像信号对应的所述推理结果信息,所述一维推理对象图像信号与1个以上的所述推理对象图像信息分别对应。
22.一种图像处理方法,其特征在于,所述图像处理方法具有以下步骤:
推理对象图像取得部取得表示推理对象图像的推理对象图像信息;
一维推理对象图像生成部对由所述推理对象图像取得部取得的所述推理对象图像信息表示的所述推理对象图像进行一维化,生成与所述推理对象图像信息对应的一维推理对象图像信号;以及
推理部根据由所述一维推理对象图像生成部生成的所述一维推理对象图像信号,取得与所述一维推理对象图像信号对应的推理结果信息,在该步骤中,将所述一维推理对象图像信号作为说明变量输入到已学习模型,取得所述已学习模型输出的推理结果,由此取得基于所述推理结果的所述推理结果信息。
CN202180098003.1A 2021-05-14 2021-05-14 学习装置、学习方法、图像处理装置和图像处理方法 Pending CN117280356A (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2021/018320 WO2022239216A1 (ja) 2021-05-14 2021-05-14 学習装置、学習方法、画像処理装置、及び画像処理方法

Publications (1)

Publication Number Publication Date
CN117280356A true CN117280356A (zh) 2023-12-22

Family

ID=84028999

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202180098003.1A Pending CN117280356A (zh) 2021-05-14 2021-05-14 学习装置、学习方法、图像处理装置和图像处理方法

Country Status (7)

Country Link
US (1) US20240062527A1 (zh)
EP (1) EP4328812A4 (zh)
JP (1) JP7337303B2 (zh)
KR (1) KR20230162115A (zh)
CN (1) CN117280356A (zh)
TW (1) TWI823123B (zh)
WO (1) WO2022239216A1 (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115601232B (zh) * 2022-12-14 2023-03-10 华东交通大学 一种基于奇异值分解的彩色图像去色方法及系统

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7021053B2 (ja) * 2018-11-07 2022-02-16 株式会社東芝 監視システム、プログラム、及び記憶媒体
KR20200132178A (ko) 2019-05-16 2020-11-25 삼성전자주식회사 전자 장치 및 이의 제어 방법
JP7509415B2 (ja) * 2019-09-02 2024-07-02 国立研究開発法人農業・食品産業技術総合研究機構 分類装置、学習装置、分類方法、学習方法、制御プログラム及び記録媒体
JP7021158B2 (ja) 2019-09-04 2022-02-16 株式会社東芝 ロボットシステムおよび駆動方法
JP7458158B2 (ja) * 2019-09-06 2024-03-29 清水建設株式会社 外観検査システム、及び外観検査方法

Also Published As

Publication number Publication date
WO2022239216A1 (ja) 2022-11-17
TW202244837A (zh) 2022-11-16
JP7337303B2 (ja) 2023-09-01
EP4328812A4 (en) 2024-07-10
EP4328812A1 (en) 2024-02-28
JPWO2022239216A1 (zh) 2022-11-17
US20240062527A1 (en) 2024-02-22
TWI823123B (zh) 2023-11-21
KR20230162115A (ko) 2023-11-28

Similar Documents

Publication Publication Date Title
CN111462120B (zh) 一种基于语义分割模型缺陷检测方法、装置、介质及设备
CN114120102A (zh) 边界优化的遥感图像语义分割方法、装置、设备及介质
CN107784288B (zh) 一种基于深度神经网络的迭代定位式人脸检测方法
WO2019026104A1 (ja) 情報処理装置、情報処理プログラム及び情報処理方法
CN111028327A (zh) 一种三维点云的处理方法、装置及设备
CN112949338A (zh) 深度学习与Hough变换结合的二维条码精确定位方法
CN110349170B (zh) 一种全连接crf级联fcn和k均值脑肿瘤分割算法
JP7536893B2 (ja) 自己注意ベースのニューラルネットワークを使用した画像処理
Yang et al. Semantic segmentation in architectural floor plans for detecting walls and doors
Guo et al. Using multi-scale and hierarchical deep convolutional features for 3D semantic classification of TLS point clouds
EP4443396A1 (en) Image encoder training method and apparatus, device, and medium
CN112307991A (zh) 一种图像识别方法、装置及存储介质
US20240062527A1 (en) Training device and training method
CN114332473A (zh) 目标检测方法、装置、计算机设备、存储介质及程序产品
Sainju et al. A hidden Markov contour tree model for spatial structured prediction
CN112651955A (zh) 一种肠道图像的识别方法及终端设备
CN113177592A (zh) 一种图像分割方法、装置、计算机设备及存储介质
Liu et al. Method for extraction of airborne LiDAR point cloud buildings based on segmentation
CN111369489B (zh) 一种图像识别方法、装置及终端设备
Lin et al. An Intelligent Sensor Data Preprocessing Method for OCT Fundus Image Watermarking Using an RCNN.
Shen et al. Graph-Represented Distribution Similarity Index for Full-Reference Image Quality Assessment
CN117058554A (zh) 电力设备目标检测方法、模型训练方法和装置
Bakhtiarnia et al. PromptMix: Text-to-image diffusion models enhance the performance of lightweight networks
Wu et al. A closer look at segmentation uncertainty of scanned historical maps
CN114764746A (zh) 激光雷达的超分辨率方法和装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination