CN114596375A - 产生重建影像的方法 - Google Patents

产生重建影像的方法 Download PDF

Info

Publication number
CN114596375A
CN114596375A CN202011298764.5A CN202011298764A CN114596375A CN 114596375 A CN114596375 A CN 114596375A CN 202011298764 A CN202011298764 A CN 202011298764A CN 114596375 A CN114596375 A CN 114596375A
Authority
CN
China
Prior art keywords
feature
memory
image
prototype
prototypes
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011298764.5A
Other languages
English (en)
Inventor
陈文柏
陈怡君
陈佩君
陈维超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inventec Pudong Technology Corp
Inventec Corp
Original Assignee
Inventec Pudong Technology Corp
Inventec Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inventec Pudong Technology Corp, Inventec Corp filed Critical Inventec Pudong Technology Corp
Priority to CN202011298764.5A priority Critical patent/CN114596375A/zh
Priority to US17/171,147 priority patent/US11615518B2/en
Publication of CN114596375A publication Critical patent/CN114596375A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/0002Inspection of images, e.g. flaw detection
    • G06T7/0004Industrial image inspection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T1/00General purpose image data processing
    • G06T1/0014Image feed-back for automatic industrial control, e.g. robot with camera
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/70Denoising; Smoothing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/0002Inspection of images, e.g. flaw detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/98Detection or correction of errors, e.g. by rescanning the pattern or by human intervention; Evaluation of the quality of the acquired patterns
    • G06V10/993Evaluation of the quality of the acquired pattern
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10004Still image; Photographic image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30108Industrial image inspection

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Quality & Reliability (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Robotics (AREA)
  • Databases & Information Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Image Processing (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供一种产生重建影像的方法,适用于具有一目标对象的一输入影像,所述方法包括:编码器将输入影像转换为具有多个特征向量的一特征图;依据多个参考对象的多个训练影像执行一训练程序以产生关联于这些训练影像的多个特征原型并储存这些特征原型至一内存;依据这些特征原型与这些特征向量的多个相似度从内存选取一部分的这些特征原型;依据该部分的这些特征原型及多个权重产生一近似特征图,其中这些权重各自代表这些特征原型与这些特征向量的相似度;以及译码器将近似特征图转换为重建影像;其中编码器、译码器及内存形成一自编码器。应用本发明提出的重建影像的方法所实现的缺陷分类器可抵抗训练数据集中的噪声。

Description

产生重建影像的方法
技术领域
本发明涉及基于影像的产品的缺陷侦测,特别是涉及一种应用于缺陷侦测前端的产生重建影像的方法。
背景技术
对于制造商,产品外观评估是质量保证的基本步骤。例如刮痕、撞击及褪色(discoloration)等未被侦测到的缺陷将增加产品返厂的维修成本并丧失客户信任度。现今大多数的外观检测工作还是由人类执行,因为在自动光学检查(Automatic OpticalInspection,AOI)机器中使用传统计算机视觉算法描述各种缺陷有其困难度。然而,管理人类检查员有其管理上的难度,因为很难在不同的产品在线维持一致的检查标准。
过去曾提出以对象侦测器网络解决上述问题。然而,这种全监督式(fully-supervised)的模型需要清楚标记定界框(bounding box)的数据集。收集这种数据集将耗费人力,且保持标记一致性也相当困难。另外,对于没出现在数据集中的缺陷,这种侦测方法表现不佳。为了收集足够多缺陷类型的训练数据将耗费大量时间。因此不适用于较短生命周期的产品。
与其依赖正确地标记缺陷,另一种方式是采用生成方法来侦测缺陷,该方法从标准样本中学习其分布,并将偏离样本过大的地方视为缺陷。这种方式允许模型侦测出先前没看过的缺陷。例如,使用标准影像训练的自编码器(autoencoder)可以消除输入影像中的缺陷。然而在实务上,自编码器可能因为过度泛化(over generalization)而学习到如何重建出缺陷。特别是当产品表面具有大量的纹理时,重建影像可能变得不稳定,进而导致后续侦测出许多伪阳性(false-positive)。
承上所述,这种生成方法(generative approach)不需要仔细标注影像,但是需要假设输入影像不具有缺陷。因此,当有缺陷的影像意外地混入训练数据集时,算法对于噪声将过度敏感。上述状况经常发生在生产设备中。再者,很多输入影像并不完美,若排除这些不完美的影像,则可用的标准影像样本将大幅减少。因此,需要一种通过深度学习并能够容忍数据噪声的训练方式,其可以针对无缺陷的影像区域进行训练。
发明内容
鉴于以上所述现有技术的缺点,本发明的目的在于提出一种产生重建影像的方法,用于解决现有基于自编码器的异常检测方法中常见的过度泛化问题。
为实现上述目的及其他相关目的,本发明的第一方面提供一种产生重建影像的方法,适用于具有一目标对象的一输入影像,所述产生重建影像的方法包括:以一编码器将所述输入影像转换为具有多个特征向量的一特征图;依据多个参考对象的多个训练影像执行一训练程序以产生关联于所述训练影像的多个特征原型并储存所述特征原型至一内存;依据所述特征原型与所述特征向量的多个相似度从所述内存选取一部分所述特征原型;依据所述一部分所述特征原型及多个权重产生一近似特征图,其中所述权重各自代表所述特征原型与所述特征向量的相似度;以及以一译码器将所述近似特征图转换为一重建影像;其中所述编码器、所述译码器及所述内存形成一自编码器。
于所述第一方面的一实施例中,依据所述特征原型与所述特征向量的所述相似度从所述内存选取所述一部分所述特征原型包括:从所述权重中由大而小选取一部分所述权重;选取所述一部分所述权重所对应的所述一部分所述特征原型;依据所述一部分所述权重的数量计算多个稀疏近似值;以及各自以所述稀疏近似值作为所述权重。
于所述第一方面的一实施例中,依据所述参考对象的所述训练影像执行所述训练程序包括:设定一默认特征原型;对于每一所述训练影像,将该训练影像分割为多个区块;以所述编码器将所述区块分别转换为多个区块特征;计算所述区块特征与所述默认特征原型之间的多个距离;保留所述多个距离中小于一阈值的一个或多个距离所对应的所述区块特征;以及依据被保留的所述区块特征更新所述默认特征原型作为所述特征原型之一。
于所述第一方面的一实施例中,依据所述参考对象的所述训练影像执行所述训练程序包括:设定一默认特征原型;对于每一所述训练影像,以所述编码器将所述训练影像转换为多个区块特征;计算所述区块特征与所述默认特征原型之间的多个距离;保留所述多个距离中小于一阈值的一个或多个距离所对应的所述区块特征;以及依据被保留的所述区块特征更新所述默认特征原型作为所述特征原型之一。
于所述第一方面的一实施例中,所述权重采用如下公式计算:
Figure BDA0002786206460000021
其中ωi为第i个权重,z为所述特征向量之一,Mi为所述内存中第i个特征原型,且M为所述内存的记忆槽的数量。
于所述第一方面的一实施例中,所述阈值为所述多个距离的平均值。
于所述第一方面的一实施例中,所述自编码器的一损失函数关联于如下公式:Ltrust=r(z,M(1))||z-M(1)||2,其中Ltrust为所述损失函数中的一项,z为所述特征向量之一,M(1)为所述特征原型中最接近z的一个,且r(z,M(1))用于指示z与M(1)的距离是否小于所述阈值。
于所述第一方面的一实施例中,r(z,M(1))采用如下公式计算:
Figure BDA0002786206460000031
其中δ1为所述阈值,δ2为大于δ1的另一阈值。
综上所述,本发明提出的产生重建影像的方法具有以下贡献或功效:应用本发明提出的产生重建影像的方法所实现的缺陷分类器可抵抗训练数据集中的噪声。本发明提出的稀疏寻址方案可避免自编码器的记忆槽(memory slot)过度泛化(over-generalization)。本发明提出的信任区域内存更新方案可避免训练阶段被缺陷影像污染记忆槽。
以上关于本发明内容的说明及以下实施方式的说明用以示范与解释本发明的精神与原理,并且提供本发明的专利申请范围更进一步的解释。
附图说明
图1显示为本发明一实施例中重建模型的架构图;
图2显示为本发明一实施例中产生重建影像的方法的流程图;
图3显示为步骤S3的详细流程图;
图4显示为信任区域的示意图;
图5及图6显示为步骤S1的两种实施方式的详细流程图;以及
图7显示为本发明提出的重建模型与其他模型抵抗噪声数据的对比图。
元件标号说明
10 记忆增强自编码器
E 编码器
D 译码器
M 内存/特征原型
Z 特征图
zi 特征向量
Figure BDA0002786206460000032
近似特征图
Figure BDA0002786206460000033
近似特征向量
TR 信任区域
z 区块特征
S1~S5 步骤
S31~S33 步骤
S11~S16,S13’ 步骤
具体实施方式
以下在实施方式中详细叙述本发明的详细特征以及特点,其内容足以使任何熟习相关技艺者了解本发明的技术内容并据以实施,且根据本说明书所揭露的内容、申请专利范围及图式,任何熟习相关技艺者可轻易地理解本发明相关的构想及特点。以下实施例用于进一步详细说明本发明的观点,但非以任何观点限制本发明的范畴。
本发明提出一种产生重建影像的方法,通过本发明一实施例提出的重建模型及一输入影像产生重建影像。所述的输入影像是一目标对象的影像。目标对象例如是电路板,或是笔记本电脑的上盖。目标对象可能具有缺陷,如刮痕、撞击、褪色等。重建影像可视为无缺陷的输入影像。
一种非监督式(unsupervised)的缺陷侦测流程简述如下:重建模型依据输入影像产生重建影像,比对重建影像与输入影像的差异,当差异大于门坎值时,判定输入影像具有缺陷。由上述内容可知,缺陷侦测器的性能优劣取决于重建模型的性能。
图1是本发明一实施例的重建模型的架构图。此重建模型主要采用记忆增强自编码器(memory augmented auto encoder,MemAE)10,并结合稀疏寻址(sparse memoryaddressing)以及信任区域(trust region)内存更新等本发明提出的机制。
记忆增强自编码器10在记忆槽中储存标准影像的特征原型(prototype)并可从内存重建一个输入影像的标准版本。稀疏寻址提供一种记忆槽的选择机制。信任区域(trustregion)内存更新的机制避免内存储存不想要的缺陷特征。图2是本发明一实施例的产生重建影像的方法的流程图。以下配合图2的步骤介绍图1的各个组件。
步骤S1是“依据多个训练影像执行训练程序以产生多个特征原型并储存至内存”。步骤S1为此重建模型的训练阶段。所述多个训练影像是多个参考对象的影像,这些参考对象与目标对象皆为同类型的对象,例如皆属于笔记本电脑的上盖。相较于目标对象,参考对象无缺陷,因此训练影像为没有缺陷的标准影像。特征原型关联于这些训练影像。
步骤S2是“编码器将输入影像转换为多个特征向量”。步骤S2为此重建模型的推论阶段。
本发明利用外部的内存M储存一组标准特征原型以避免缺陷被重建出来。这些特征原型用来产生重建影像。在推论阶段,这些特征原型是固定的,这样可以让自编码器难以重建出缺陷,因为内存M中只有标准特征。
如图1所示,标准的自编码器遵循编码器-译码器(encoder-decoder)的结构。编码器E将长度为H宽度为W的输入影像x∈RH×W投影至低维度的潜在空间(latent space)。内存M被实作为张量M∈RM×Z,其中M代表记忆槽(memory slot)的数量,Z代表潜在向量(latentvector)z的维度。
如图2的步骤S2所示,本发明首先计算输入影像x的潜在表示(latentrepresentation)Z=E(x)。须注意的是,为了保留空间信息,本发明设计让编码器E输出特征图Z∈Rh×w×Z,且特征图的维度低于原始影像的维度。特征图是特征向量映射至潜在空间的结果。为了方便起见,本发明用zi∈RZ来代表Z中的第i个元素。Z中的每个向量zi代表输入影像x中的一个区块(patch)的特征,zi即步骤S2所述的特征向量。
步骤S3是“依据特征原型与特征向量的相似度从内存选取多个特征原型”。步骤S3的实施细节将在后文描述稀疏寻址时再行详述。
步骤S4是“依据这些特征原型及多个权重产生近似特征图”。近似特征图由多个近似特征向量组成。
本发明并非将特征图Z直接传送至译码器D,而是使用储存在内存M中的特征原型的凸组合(convex combination)计算每个zi的近似特征
Figure BDA0002786206460000051
下方式一定义上述运算,其中ω是权重向量,其代表z和储存在内存M中的每一个特征原型的相似度。
式一:
Figure BDA0002786206460000052
在步骤S3中,权重向量ω作为一个软寻址(soft addressing)的机制,其从内存取出对于重建而言必要且最接近的特征原型。本发明使用负的欧几里得距离(Euclideandistance)量测特征向量z和记忆项目(memory item)Mi之间的相似度并应用归一化函数softmax将权重标准化,如下方式二所示。每个记忆项目储存一个特征原型。
式二:
Figure BDA0002786206460000053
步骤S5是“译码器将近似特征图转换为重建影像”。详言之,译码器D只使用从记忆项目推导得出的近似特征
Figure BDA0002786206460000061
输出重建影像
Figure BDA0002786206460000062
请参考图3,显示为步骤S3的详细流程。步骤S31是“由大至小选取数个权重及对应的数个特征原型”,步骤S32是“依据这些权重的数量计算多个稀疏近似值”,且步骤S33是“以这些稀疏近似值作为权重”。
步骤S3的实施细节详述如下。在内存寻址中强制执行稀疏性(sparsity)将迫使重建模型使用更少但更相关的记忆项目来逼近特征向量z。上述方式有效地避免重建模型未预期地合并多个不相关的记忆项目而重建出缺陷。此外,上述方式隐含执行内存选择,当重建影像时,通过移除从未被存取的记忆项目,从而节省计算量。
如步骤S31所示,假设ω(i)代表权重向量ω的排序,其中ω(1)>ω(2)>...>ω(M)。如步骤S32所示,本发明计算一个权重向量ω的一个稀疏近似值
Figure BDA0002786206460000063
其对应于取得k个最接近的记忆项目,然后进行重新标准化的步骤,如下方式三及步骤S33所示,其中l函数回传1当其后方条件式成立,否则回传0。
式三:
Figure BDA0002786206460000064
由于本发明只使用被选择的少量的记忆项目进行重建,故需要避免重建模型学习到冗余的记忆项目。因此,针对输入潜在向量z,本发明在最接近的记忆项目M(1)和第二接近的记忆项目M(2)增加边界,如下方式四所示。
式四:Lmargin=[||z-M(1)||2-||z-M(2)||2+1]+
以下说明信任区域更新内存的机制。
若没有训练数据集只包含标准样本的假设,记忆增强自编码器10将会把缺陷样本视为标准样本并学会储存缺陷特征至内存,进而导致糟糕的缺陷侦测表现。本发明利用两个重要的概念以避免缺陷样本污染内存。(1)缺陷较为稀少,且缺陷不会都出现在相同的位置。这意味着缺陷在区块层级的比例远低于缺陷在影像层级的比例。(2)标准影像(即步骤S1所述的训练影像)在外观上具有规律性,与训练初期的缺陷相比,记忆增强自编码器10更容易重建出标准影像。上述隐含在初始阶段时,标准特征比起缺陷特征更接近记忆项目。
图4显示为信任区域TR的示意图。如图4所示,信任区域TR圈选了记忆项目M及6个区块特征z,其余3个区块特征在信任区域TR的外面。基于上述概念,本发明基于特定的信任区域更新记忆项目,所述信任区域将区域内的特征拉向最接近的记忆项目且将区域外的特征推离记忆项目,如图4的箭头方向所示。
在步骤S1所述的“训练程序”实际上是一个优化每个特征原型的过程。请参考图5及6,其绘示步骤S1的两种实施方式。
步骤S11是“设定默认特征原型”,即从第一个训练影像开始,对每个记忆槽初始化。
步骤S12是“将训练影像分割为多个区块”,例如将笔电上盖的训练影像分为九宫格,每格代表一个区块。
步骤S13是“编码器将这些区块转换为多个区块特征”,这些区块特征的分布如图4所示。
步骤S14是“计算这些区块特征与默认特征原型之间的多个距离”。
步骤S15是“保留这些距离中小于一阈值的一个或多个距离所对应的一或多个区块特征”。所述的阈值是步骤S14计算出的多个距离的平均值,且等于图4绘示的信任区域的半径。
步骤S16是“依据被保留的一或多个区块特征更新默认特征原型”。详言之,本发明以记忆项目M为中心,并以一个指定半径划分出信任区域TR,以此区别出信任区域TR内的特征空间及信任区域外的特征空间,如下方式五所示。所有在δ1中的项目被视为标准特征,而且被拉得彼此更接近。为避免模型将缺陷特征推到无穷大,本发明忽略那些超过预设的信任阈值δ2的项目。上述对应于步骤S15~S16的流程。
式五:
Figure BDA0002786206460000071
容易被重建的影像区块与记忆槽之间的距离通常小于难以被重建的影像区块与记忆槽之间的距离,因此δ1必须适用于这些状况。本发明首先计算当前输入影像的所有区块对应的多个特征zi与每个记忆项目Mi之间的多个距离,如步骤S14所述;再将δ1设定为这些距离的平均值,如步骤S15所述,以此来取得最接近的一或多个记忆项目,并更新这些记忆项目,如步骤S16所述。由于标准特征丰富且彼此相似,因此标准特征大部分会被拉到记忆项目附近,只有少数情况会被推出。然而缺陷特征将总是被推离,因为缺陷特征与记忆项目的距离往往大于平均距离。通过上述方式,可避免缺陷特征污染记忆项目。
请参考图6,显示为步骤S1的另一种实施方式。图6与图5的差别在于图6没有步骤S12,且图6的步骤S13’与图5的步骤S13不同。在图5的实施例中,步骤S12是将训练影像实际切分成多个区块,例如区块1~区块9,然后在步骤S13计算区块1~9各自的特征,换言之,编码器在区块层级获取区块特征。另一方面,图6的步骤S13’是“编码器将训练影像转换为多个区块特征”。在步骤S13’中,编码器E直接从影像层级获取区块特征。举例来说,步骤S13’所得到的区块特征1可能是步骤S13得到的区块特征2、3、5的线性组合。步骤S13’所得到的区块特征2可能是步骤S13得到的区块特征2、6、7及9的线性组合。
本发明将信任区间的更新实现为一个损失函数,如下方式六所示,其中M(1)代表在内存M中最接近z的记忆项目。
式六:Ltrust=r(z,M(1))×||z-M(1)||2
本发明的重建模型在训练阶段采用多个损失函数,包括重建损失、SSIM损失、VGG特征损失、GAN损失、GAN特征损失。可参考后文列举的文献得知这些损失函数的细节。总体损失函数定义如下方式七,其中λ系数(包括:λrec、λsm、λvgg、λGAN、λfeat、λmargin、λtrust)是控制每一项权重的超参数。
式七:
Figure BDA0002786206460000081
其中,重建损失Lrec可以参考Taesung Park等人在“Semantic image synthesiswith spatially-adaptive normalization”(In Proceedings of the IEEE Conferenceon Computer Vision and Pattern Recognition,2019)中记载的内容获取。
SSIM损失Lsm可以参考Paul Bergmann等人在“Improving unsupervised defectsegmentation by applying structural similarity to autoencoders”(InProceedings of the 14th International Joint Conference on Computer Vision,Imaging and Computer Graphics Theory and Applications(VISIGRAPP),pages 372–380,2019)中记载的内容获取。
VGG特征损失Lvgg可以参考Justin Johnson等人在“Perceptual losses forreal-time style transfer and super-resolution”(In European conference oncomputer vision,pages 694–711.Springer,2016)中记载的内容获取。
GAN损失LGAN可以参考Ian Goodfellow等人在“Generative adversarial nets”(In Advances in neural information processing systems,pages 2672–2680,2014)中记载的内容获取。
GAN特征损失Lfeat可以参考Ting-Chun Wang等人在“High-resolution imagesynthesis and semantic manipulation with conditional gans”(In Proceedings ofthe IEEE conference on computer vision and pattern recognition,pages 8798–8807,2018.4)中记载的内容、以及Xiangyu Xu等人在“Learning to superresolve blurryface and text images”(In Proceedings of the IEEE International Conference onComputer Vision,pages 251–260,2017)中记载的内容获取。
为了使用自编码器解决过度泛化的问题,本发明需要有效地限制潜在空间(latent),让自编码器仍然可以重建标准影像区域而不会重建出缺陷。为此,本发明设计了一个基于记忆增强自编码器的重建模型。本发明采用内存储存潜在空间。在内存更新阶段,本发明增加稀疏性使得更新后的信息专注在少量的记忆槽。另外,本发明提出以信任区域更新内存的机制,此机制可排除缺陷的潜在空间样本且避免噪声样本污染记忆槽。本发明的重建模型能抵抗噪声,即使在输入影像包含超过40%的缺陷影像时也能达到良好的效能。如图7所示。图7横轴为输入影像的噪声比例,纵轴以平均曲线下面积(area undercurve,AUC)作为评估指标,可视为重建影像的正确率。从图7可看出本发明提出的重建模型在噪声比例接近40%时仍有接近90%的正确率。对比于只使用自编码器的模型,或是自编码器结合其他损失函数的模型,本发明提出的重建模型其正确率超出其他模型高达10%以上。
给定一个包含标准和缺陷影像的数据集,应用本发明训练的重建模型可用于分辨标准影像和缺陷影像,而不需要事先标注这两种影像的卷标。此外,通过将不完美的小区块图像视为缺陷,本发明可降低零缺陷(defect-free)影像在数据集中的比例。因此,本发明利用标准影像以及缺陷影像中的良好影像区块增加用来训练重建模型的影像数量,这代表本发明提出的重建模型具有抵抗噪声(缺陷影像)的强健性(robustness)。
综上所述,本发明提出的产生重建影像的方法具有以下贡献或功效:应用本发明提出的重建影像的方法所实现的缺陷分类器可抵抗训练数据集中的噪声。本发明提出的稀疏寻址方案可避免自编码器的记忆槽(memory slot)过度泛化(over-generalization)。本发明提出的信任区域内存更新方案可避免训练阶段被缺陷影像污染记忆槽。
虽然本发明以前述的实施例揭露如上,然其并非用以限定本发明。在不脱离本发明的精神和范围内,所作的更动与润饰,均属本发明的专利保护范围。关于本发明所界定的保护范围由本发明权利要求书所界定。

Claims (8)

1.一种产生重建影像的方法,其特征在于,适用于具有一目标对象的一输入影像,所述产生重建影像的方法包括:
以一编码器将所述输入影像转换为具有多个特征向量的一特征图;
依据多个参考对象的多个训练影像执行一训练程序以产生关联于所述训练影像的多个特征原型并储存所述特征原型至一内存;
依据所述特征原型与所述特征向量的多个相似度从所述内存选取一部分所述特征原型;
依据所述一部分所述特征原型及多个权重产生一近似特征图,其中所述权重各自代表所述特征原型与所述特征向量的相似度;以及
以一译码器将所述近似特征图转换为一重建影像;其中
所述编码器、所述译码器及所述内存形成一自编码器。
2.根据权利要求1所述产生重建影像的方法,其特征在于,依据所述特征原型与所述特征向量的所述相似度从所述内存选取所述一部分所述特征原型包括:
从所述权重中由大而小选取一部分所述权重;
选取所述一部分所述权重所对应的所述一部分所述特征原型;
依据所述一部分所述权重的数量计算多个稀疏近似值;以及
各自以所述稀疏近似值作为所述权重。
3.根据权利要求1所述产生重建影像的方法,其特征在于,依据所述参考对象的所述训练影像执行所述训练程序包括:
设定一默认特征原型;
对于每一所述训练影像,将该训练影像分割为多个区块;
以所述编码器将所述区块分别转换为多个区块特征;
计算所述区块特征与所述默认特征原型之间的多个距离;
保留所述多个距离中小于一阈值的一个或多个距离所对应的所述区块特征;以及
依据被保留的所述区块特征更新所述默认特征原型作为所述特征原型之一。
4.根据权利要求1所述产生重建影像的方法,其特征在于,依据所述参考对象的所述训练影像执行所述训练程序包括:
设定一默认特征原型;
对于每一所述训练影像,以所述编码器将所述训练影像转换为多个区块特征;
计算所述区块特征与所述默认特征原型之间的多个距离;
保留所述多个距离中小于一阈值的一个或多个距离所对应的所述区块特征;以及
依据被保留的所述区块特征更新所述默认特征原型作为所述特征原型之一。
5.根据权利要求1所述产生重建影像的方法,其特征在于,所述权重采用如下公式计算:
Figure FDA0002786206450000021
其中ωi为第i个权重,z为所述特征向量之一,Mi为所述内存中第i个特征原型,且M为所述内存的记忆槽的数量。
6.根据权利要求3所述产生重建影像的方法,其特征在于:所述阈值为所述多个距离的平均值。
7.根据权利要求3所述产生重建影像的方法,其特征在于:所述自编码器的一损失函数关联于如下公式:Ltrust=r(z,M(1))||z-M(1)||2,其中Ltrust为所述损失函数中的一项,z为所述特征向量之一,M(1)为所述特征原型中最接近z的一个,且r(z,M(1))用于指示z与M(1)的距离是否小于所述阈值。
8.根据权利要求7所述产生重建影像的方法,其特征在于,r(z,M(1))采用如下公式计算:
Figure FDA0002786206450000022
其中δ1为所述阈值,δ2为大于δ1的另一阈值。
CN202011298764.5A 2020-11-19 2020-11-19 产生重建影像的方法 Pending CN114596375A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202011298764.5A CN114596375A (zh) 2020-11-19 2020-11-19 产生重建影像的方法
US17/171,147 US11615518B2 (en) 2020-11-19 2021-02-09 Method for generating a reconstructed image

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011298764.5A CN114596375A (zh) 2020-11-19 2020-11-19 产生重建影像的方法

Publications (1)

Publication Number Publication Date
CN114596375A true CN114596375A (zh) 2022-06-07

Family

ID=81586805

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011298764.5A Pending CN114596375A (zh) 2020-11-19 2020-11-19 产生重建影像的方法

Country Status (2)

Country Link
US (1) US11615518B2 (zh)
CN (1) CN114596375A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116542291A (zh) * 2023-06-27 2023-08-04 北京航空航天大学 一种记忆环路启发的脉冲记忆图像生成方法和系统

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114708267B (zh) * 2022-06-07 2022-09-13 浙江大学 一种输电线路上杆塔拉线腐蚀缺陷图像检测处理方法
CN115065708B (zh) * 2022-08-17 2022-11-18 成都秦川物联网科技股份有限公司 基于机器视觉检测的工业物联网系统及其控制方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10825132B2 (en) * 2018-02-20 2020-11-03 Element Ai Inc. Training method for convolutional neural networks for use in artistic style transfers for video
US10922860B2 (en) * 2019-05-13 2021-02-16 Adobe Inc. Line drawing generation
CN111709896B (zh) * 2020-06-18 2023-04-07 三星电子(中国)研发中心 一种将ldr视频映射为hdr视频的方法和设备

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116542291A (zh) * 2023-06-27 2023-08-04 北京航空航天大学 一种记忆环路启发的脉冲记忆图像生成方法和系统
CN116542291B (zh) * 2023-06-27 2023-11-21 北京航空航天大学 一种记忆环路启发的脉冲记忆图像生成方法和系统

Also Published As

Publication number Publication date
US20220156910A1 (en) 2022-05-19
US11615518B2 (en) 2023-03-28

Similar Documents

Publication Publication Date Title
CN114596375A (zh) 产生重建影像的方法
WO2021254499A1 (zh) 编辑模型生成、人脸图像编辑方法、装置、设备及介质
He et al. Fast matting using large kernel matting laplacian matrices
CN106991388B (zh) 关键点定位方法
US9449395B2 (en) Methods and systems for image matting and foreground estimation based on hierarchical graphs
US20100246997A1 (en) Object Tracking With Regressing Particles
CN102208107A (zh) 图像处理设备、图像处理方法以及程序
JP2009087326A (ja) 画像において物体の位置を特定する方法及びシステム
Wang et al. An active contour model based on local pre-piecewise fitting bias corrections for fast and accurate segmentation
CN112734911A (zh) 基于卷积神经网络的单幅图像三维人脸重建方法及系统
CN113450396A (zh) 基于骨骼特征的三维/二维图像配准方法及装置
CN111626379A (zh) 肺炎x光图像检测方法
Huang et al. A bayesian approach to multi-view 4d modeling
CN108830320B (zh) 基于鉴别和鲁棒多特征提取的高光谱图像分类方法
Xu et al. Depth map super-resolution via joint local gradient and nonlocal structural regularizations
CN111062406B (zh) 一种面向异构领域适应的半监督最优传输方法
TWI764387B (zh) 產生重建影像的方法
CN108009570A (zh) 一种基于核正负标签传播的数据分类方法及系统
CN112508168B (zh) 基于预测框自动修正的边框回归神经网络构建方法
Ho et al. Object tracking by exploiting adaptive region-wise linear subspace representations and adaptive templates in an iterative particle filter
CN115439669A (zh) 基于深度学习的特征点检测网络及跨分辨率图像匹配方法
CN115775220A (zh) 使用多个机器学习程序检测图像中的异常的方法和系统
Ghebreab et al. Strings: variational deformable models of multivariate continuous boundary features
Zhang et al. Edge detection from RGB-D image based on structured forests
Gao et al. Recursive sample scaling low-rank representation

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination