CN116882511A - 机器学习方法以及设备 - Google Patents
机器学习方法以及设备 Download PDFInfo
- Publication number
- CN116882511A CN116882511A CN202310116616.4A CN202310116616A CN116882511A CN 116882511 A CN116882511 A CN 116882511A CN 202310116616 A CN202310116616 A CN 202310116616A CN 116882511 A CN116882511 A CN 116882511A
- Authority
- CN
- China
- Prior art keywords
- image
- mask
- background
- encoder
- feature map
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000010801 machine learning Methods 0.000 title claims abstract description 57
- 239000013598 vector Substances 0.000 claims abstract description 112
- 238000012549 training Methods 0.000 claims abstract description 78
- 230000008859 change Effects 0.000 claims description 58
- 238000013434 data augmentation Methods 0.000 claims description 50
- 108091093088 Amplicon Proteins 0.000 claims description 40
- 230000003321 amplification Effects 0.000 claims description 38
- 238000003199 nucleic acid amplification method Methods 0.000 claims description 38
- 238000012545 processing Methods 0.000 claims description 38
- 230000000052 comparative effect Effects 0.000 claims description 13
- 230000003190 augmentative effect Effects 0.000 claims description 3
- 238000010586 diagram Methods 0.000 description 10
- 238000000034 method Methods 0.000 description 10
- 230000008569 process Effects 0.000 description 7
- 238000010606 normalization Methods 0.000 description 5
- 238000013528 artificial neural network Methods 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 4
- 238000004891 communication Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 230000008447 perception Effects 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 230000001419 dependent effect Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000009472 formulation Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/771—Feature selection, e.g. selecting representative features from a multi-dimensional feature space
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/7715—Feature extraction, e.g. by transforming the feature space, e.g. multi-dimensional scaling [MDS]; Mappings, e.g. subspace methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Medical Informatics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Molecular Biology (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
- Control Of Electric Motors In General (AREA)
- Feedback Control In General (AREA)
Abstract
一种机器学习方法,包括:(a)将对比学习模型套用至训练影像以及影像遮罩以产生前景特征向量对以及背景特征向量对;(b)根据前景特征向量对以及背景特征向量对计算前景损失以及背景损失;(c)根据前景损失以及背景损失计算总损失;(e)当递归结束条件符合时,利用对比学习模型中的第一编码器进行机器学习模型的参数调整;以及(f)当递归结束条件未符合时,利用总损失调整第一编码器的参数,并利用调整后的第一编码器的参数以及预设倍数调整对比学习模型中的第二编码器的参数,进而再次执行步骤(a)至步骤(d)。借此,可精准呈现下游任务所需要的关键细节以减少训练样本以及训练标签的数量。
Description
技术领域
本揭示是有关于一种机器学习方法以及设备。
背景技术
在现有技术中,当训练一个机器学习的模型时,除了所训练的模型架构会影响辨识与辨识能力外,最关键的是训练数据的完整度。对于相同模型架构而言,在训练数据库越多元且越完整的情况下,模型的辨识能力通常会越高(即,准确率越高)。然而,在实务上常常因为人力与数据有限,无法收集多元性且完整度高的数据库。进一步而言,就目前针对机器学习技术而言,针对各种下游任务,往往需要大量的训练样本以及训练标签,这会消耗大量的人力。因此,要如何精准呈现下游任务所需要的关键细节以减少训练样本以及训练标签的数量成为目前机器学习的关键议题。
发明内容
本揭示的一态样揭露一种机器学习方法,包括:(a)将对比学习模型套用至训练影像以及影像遮罩以产生前景特征向量对以及背景特征向量对,其中该训练影像对应于该影像遮罩,该对比学习模型包括第一编码器以及第二编码器;(b)根据该前景特征向量对以及该背景特征向量对计算前景损失以及背景损失;(c)利用第一权重以及第二权重对该前景损失以及该背景损失进行加权损失运算以产生总损失,其中该第一权重对应于该前景损失,且该第二权重对应于该背景损失;(d)根据该总损失判断是否已符合递归结束条件;(e)当该递归结束条件符合时,利用该第一编码器进行机器学习模型的参数调整;以及(f)当该递归结束条件未符合时,利用该总损失调整该第一编码器的参数,利用该调整后的第一编码器的参数以及预设倍数调整该第二编码器的参数,以及撷取新的训练影像以及与该新的训练影像对应的新的影像遮罩做为该训练影像以及该影像遮罩,进而再次执行步骤(a)至步骤(d)。
在一实施例中,第一编码器的参数与第二编码器的参数之间存在预设倍数,且第一编码器以及第二编码器具有相同的结构,其中对比学习模型包括数据扩增子模型,且步骤(a)包括:(a1)利用数据扩增子模型对训练影像以及影像遮罩进行第一几何变化,以产生第一几何变化影像以及与第一几何变化影像对应的第一数据扩增遮罩;(a2)利用数据扩增子模型对训练影像以及影像遮罩进行第二几何变化,以产生第二几何变化影像以及与第二几何变化影像对应的第二数据扩增遮罩,其中第二几何变化不同于第一几何变化;以及(a3)利用第一编码器根据第一几何变化影像产生第一影像特征图,并利用第二编码器根据第二几何变化影像产生第二影像特征图,以根据第一影像特征图以及第二影像特征图产生前景特征向量对以及背景特征向量对。
在一实施例中,步骤(a3)包括:利用数据扩增子模型对第一几何变化影像进行第一色彩变化以产生第一数据扩增影像;利用数据扩增子模型对第二几何变化影像进行第二色彩变化以产生第二数据扩增影像,其中第二色彩变化不同于第一色彩变化;以及利用第一编码器根据第一数据扩增影像产生第一影像特征图,并利用第二编码器根据第二数据扩增影像产生第二影像特征图,以根据第一影像特征图以及第二影像特征图产生前景特征向量对以及背景特征向量对。
在一实施例中,对比学习模型还包括索引子模型,其中步骤(a3)还包括:利用索引子模型对第一数据扩增遮罩以及第二数据扩增遮罩进行反转处理,以产生第一背景遮罩以及第二背景遮罩;利用索引子模型对第一数据扩增遮罩、第二数据扩增遮罩、第一背景遮罩以及第二背景遮罩进行尺寸调整;利用索引子模型对调整后的第一数据扩增遮罩以及第一影像特征图进行元素层级相乘处理,并对调整后的第二数据扩增遮罩以及第二影像特征图进行元素层级相乘处理,进而产生前景特征图对;以及利用索引子模型对调整后的第一背景遮罩以及第一影像特征图进行元素层级相乘处理,并对调整后的第二背景遮罩以及第二影像特征图进行元素层级相乘处理,进而产生背景特征图对,以根据前景特征图对以及背景特征图对产生前景特征向量对以及背景特征向量对。
在一实施例中,对比学习模型还包括多层感知子模型,其中步骤(a3)还包括:利用多层感知子模型对前景特征图对进行线性转换以产生前景特征向量对,并对背景特征图对进行线性转换以产生背景特征向量对。
在一实施例中,与前景损失对应的第一权重大于与背景损失对应的第二权重,且加权损失运算相关于均方根损失运算。
本揭示的另一态样揭露一种机器学习设备,其包括影像撷取电路以及处理器。该影像撷取电路用以撷取训练影像;该处理器连接该影像撷取电路,并运行对比学习模型,其中该处理器用以进行下列操作:对该训练影像执行对象辨识处理以产生与该训练影像对应的影像遮罩;将该对比学习模型套用至该训练影像以及该影像遮罩以产生前景特征向量对以及背景特征向量对;根据该前景特征向量对以及该背景特征向量对计算前景损失以及背景损失;利用第一权重以及第二权重对该前景损失以及该背景损失进行加权损失运算以产生总损失,其中该第一权重对应于该前景损失,且该第二权重对应于该背景损失;以及利用该总损失调整该对比学习模型中的第一编码器的参数,其中训练完成的该第一编码器用以进行机器学习模型的参数调整。
在一实施例中,第一编码器的参数与第二编码器的参数之间存在预设倍数,且第一编码器以及第二编码器具有相同的结构,其中对比学习模型包括数据扩增子模型,其中处理器还用以:利用数据扩增子模型对训练影像以及该影像遮罩进行第一几何变化,以产生第一几何变化影像以及与第一几何变化影像对应的第一数据扩增遮罩;利用数据扩增子模型对训练影像以及影像遮罩进行第二几何变化,以产生第二几何变化影像以及与第二几何变化影像对应的第二数据扩增遮罩,其中第二几何变化不同于第一几何变化;以及利用第一编码器根据第一几何变化影像产生第一影像特征图,并利用第二编码器根据第二几何变化影像产生第二影像特征图,以根据第一影像特征图以及第二影像特征图产生前景特征向量对以及背景特征向量对。
在一实施例中,处理器还用以:利用数据扩增子模型对第一几何变化影像进行第一色彩变化以产生第一数据扩增影像;利用数据扩增子模型对第二几何变化影像进行第二色彩变化以产生第二数据扩增影像,其中第二色彩变化不同于第一色彩变化;以及利用第一编码器根据第一数据扩增影像产生第一影像特征图,并利用第二编码器根据第二数据扩增影像产生第二影像特征图,以根据第一影像特征图以及第二影像特征图产生前景特征向量对以及背景特征向量对。
在一实施例中,对比学习模型还包括多层感知子模型,其中对比学习模型还包括索引子模型,其中处理器还用以:利用索引子模型对第一数据扩增遮罩以及第二数据扩增遮罩进行反转处理,以产生第一背景遮罩以及第二背景遮罩;利用索引子模型对第一数据扩增遮罩、第二数据扩增遮罩、第一背景遮罩以及第二背景遮罩进行尺寸调整;利用索引子模型对调整后的第一数据扩增遮罩以及第一影像特征图进行元素层级相乘处理,并对调整后的第二数据扩增遮罩以及第二影像特征图进行元素层级相乘处理,进而产生前景特征图对;利用索引子模型对调整后的第一背景遮罩以及第一影像特征图进行元素层级相乘处理,并对调整后的第二背景遮罩以及第二影像特征图进行元素层级相乘处理,进而产生背景特征图对;以及利用多层感知子模型对前景特征图对进行线性转换以产生前景特征向量对,并对背景特征图对进行线性转换以产生背景特征向量对。
在一实施例中,前景损失对应的第一权重大于与背景损失对应的第二权重,且加权损失运算相关于均方根损失运算。
附图说明
图1是本揭示的机器学习设备的方框图。
图2是本揭示的机器学习方法的流程图。
图3是根据本揭示一些实施例的机器学习设备的方框图。
图4是根据本揭示一些实施例的对比学习模型的结构的示意图。
图5是根据本揭示一些实施例的执行数据扩增子模型的示意图。
图6是根据本揭示一些实施例的执行索引子模型的示意图。
具体实施方式
一并参照图1,图1是本揭示的机器学习设备100的方框图。于本实施例中,机器学习设备100包括影像撷取电路110以及处理器120。影像撷取电路110用以撷取训练影像img。处理器120连接影像撷取电路110。
在一些实施例中,机器学习设备100可由电脑、服务器或处理中心建立。在一些实施例中,影像撷取电路110可以是用以撷取影像的数据存取电路、摄影机或可以连续拍照的照相机。例如,数位单眼相机(Digital Single-Lens Reflex Camera,DSLR)、数位摄影机(Digital Video Camera,DVC)或近红外线相机(Near-infrared Camera,NIRC)等。在一些实施例中,处理器120可由处理单元、中央处理单元或计算单元实现。
在一些实施例中,机器学习设备100并不限于包括影像撷取电路110以及处理器120,机器学习设备100可以进一步包括操作以及应用中所需的其他元件,举例来说,机器学习设备100可还包括输出介面(例如,用于显示信息的显示面板)、输入介面(例如,触控面板、键盘、麦克风、扫描器或快闪存储器读取器)以及通信电路(例如,WiFi通信模型、蓝牙通信模型、无线电信网络通信模型等)。
如图1所示,处理器120基于相应的软体或韧体指令程序以执行对比学习模型CLM。在一些实施例中,处理器120还可基于相应的软体或韧体指令程序对训练影像img执行对象辨识处理,以产生与训练影像img对应的影像遮罩。举例而言,可将训练影像img中的具有对象的像素的数值设定为1,并将不具有对象的像素的数值设定为0,以产生二元遮罩(BinaryMask),进而将此二元遮罩做为与训练影像img对应的影像遮罩。
值得注意的是,对象辨识处理可以是基于目前常用的用以辨识影像中的对象的各种机器学习(Machine Learning)算法(例如,各种语意分析(Semantic Analysis)算法或电脑视觉(Computer Vision)算法等)以进行处理,并没有针对对象辨识处理有特别的限制。此外,影像遮罩除了可以是二元遮罩,还可以是三自由度遮罩(3DOF Mask)或多自由度遮罩(Multiple DOF Mask)等。
在一些实施例中,对比学习模型CLM可用以对训练影像img以及影像遮罩进行前景(Foreground)特征以及背景(Background)特征的萃取,以产生前景特征向量对以及背景特征向量对,其中前景特征向量对包括第一前景特征向量以及第二前景特征向量,背景特征向量对包括第一背景特征向量以及第二背景特征向量,其中第一前景特征向量对应于第一背景特征向量,第二前景特征向量对应于第二背景特征向量。
如图1所示,处理器120还基于相应的软体或韧体指令程序以执行对比学习模型CLM中的第一编码器(Encoder)ENCODER1。值得注意的是,第一编码器ENCODER1可以是任意类型的影像编码器,并没有特别的限制。
于本实施例中,处理器120根据前景特征向量对以及背景特征向量对计算前景损失以及背景损失。接着,处理器120利用第一权重以及第二权重对前景损失以及背景损失进行加权损失运算以产生总损失t_loss,其中第一权重对应于前景损失,且第二权重对应于背景损失。借此,处理器120根据总损失t_loss对第一编码器ENCODER1进行更新,详细作法将在后续段落详细说明。
一并参照图2,图2是本揭示的机器学习方法200的流程图。图2所示实施例的方法适用于图1的机器学习设备100,但不以此为限。为方便及清楚说明起见,下述同时参照图1以及图2,以机器学习设备100中各元件之间的作动关系来说明图2所示机器学习方法200的详细步骤。
在本实施例中,机器学习方法200包括步骤S210~S260,并可由处理器120执行。首先,于步骤S210中,将对比学习模型CLM套用至训练影像img以及影像遮罩以产生前景特征向量(Feature Vector)对以及背景特征向量对,其中训练影像img对应于影像遮罩。
在一些实施例中,对比学习模型CLM包括数据扩增(Data Augmentation)子模型。在一些实施例中,可利用数据扩增子模型将训练影像img以及影像遮罩转换为第一数据扩增影像、第二数据扩增影像、第一数据扩增遮罩以及第二数据扩增遮罩,其中第一数据扩增影像对应于第一数据扩增遮罩,且第二数据扩增影像对应于第二数据扩增遮罩。
在一些实施例中,对比学习模型CLM还可包括第二编码器。在一些实施例中,第一编码器ENCODER1的参数与第二编码器的参数之间存在预设倍数,且第一编码器ENCODER1以及第二编码器具有相同的结构,其中预设倍数可以是依据过往训练经验当中取得的平均值或是人工给定的预设值。在一些实施例中,第一编码器ENCODER1以及第二编码器都可以是各种残差网络(Residual Network)或视觉几何组网络(Visual Geometry Group Network,VGG Network)等。举例而言,第一编码器ENCODER1的参数为第二编码器的参数的0.9倍,且第一编码器ENCODER1以及第二编码器都为ResNet50的结构。
在一些实施例中,利用数据扩增子模型对训练影像img以及影像遮罩进行第一几何变化(Geometric Transform),以产生第一几何变化影像以及与第一几何变化影像对应的第一数据扩增遮罩。接着,可利用数据扩增子模型对训练影像img以及影像遮罩进行第二几何变化,以产生第二几何变化影像以及与第二几何变化影像对应的第二数据扩增遮罩,其中第二几何变化不同于第一几何变化。接着,可利用第一编码器ENCODER1根据第一几何变化影像产生第一影像特征图(Feature Map),并利用第二编码器根据第二几何变化影像产生第二影像特征图,以根据第一影像特征图以及第二影像特征图产生前景特征向量对以及背景特征向量对。
在一些实施例中,第一几何变化以及第二几何变化可以是影像裁切、影像翻转、影像旋转、影像平移等与对象位置相关的影像处理。
在一些实施例中,利用数据扩增子模型对第一几何变化影像进行第一色彩变化(Color Transform)以产生第一数据扩增影像。接着,可利用数据扩增子模型对第二几何变化影像进行第二色彩变化以产生第二数据扩增影像,其中第二色彩变化不同于第一色彩变化。接着,可利用第一编码器ENCODER1根据第一几何变化影像产生第一影像特征图,并利用第二编码器根据第二几何变化影像产生第二影像特征图,以根据第一影像特征图以及第二影像特征图产生前景特征向量对以及背景特征向量对。
在一些实施例中,第一色彩变化以及第二色彩变化可以是影像模糊化处理、影像明度调整或影像彩度调整等与颜色相关的处理。
在一些实施例中,对比学习模型CLM还可包括索引(Indexer)子模型。在一些实施例中,可利用索引子模型对第一数据扩增遮罩以及第二数据扩增遮罩进行反转(Inversed)处理,以产生第一背景遮罩以及第二背景遮罩。接着,可利用索引子模型对第一数据扩增遮罩、第二数据扩增遮罩、第一背景遮罩以及第二背景遮罩进行尺寸调整。接着,可利用索引子模型对调整后的第一数据扩增遮罩以及第一影像特征图进行元素层级(Element-Wise)相乘处理,并对调整后的第二数据扩增遮罩以及第二影像特征图进行元素层级相乘处理,进而产生前景特征图对。接着,可利用索引子模型对调整后的第一背景遮罩以及第一影像特征图进行元素层级相乘处理,并对调整后的第二背景遮罩以及第二影像特征图进行元素层级相乘处理,进而产生背景特征图对,以根据前景特征图对以及背景特征图对产生前景特征向量对以及背景特征向量对。
在一些实施例中,尺寸调整可以是将第一数据扩增遮罩、第二数据扩增遮罩、第一背景遮罩以及第二背景遮罩调整为与第一影像特征图以及第二影像特征图相同的尺寸。
在一些实施例中,可对调整后的第一数据扩增遮罩以及第一影像特征图进行元素层级相乘处理以产生第一前景特征图,并对调整后的第二数据扩增遮罩以及第二影像特征图进行元素层级相乘处理以产生第二前景特征图,进而将第一前景特征图以及第二前景特征图做为前景特征图对。
在一些实施例中,可对调整后的第一背景遮罩以及第一影像特征图进行元素层级相乘处理以产生第一背景特征图,并对调整后的第二背景遮罩以及第二影像特征图进行元素层级相乘处理以产生第二背景特征图,进而将第一背景特征图以及第二背景特征图做为背景特征图对。
在一些实施例中,当第一数据扩增遮罩以及第二数据扩增遮罩为二元遮罩时,上述反转处理可将第一数据扩增遮罩以及第二数据扩增遮罩中的具有对象的像素的数值由1转换为0并将不具有对象的像素的数值由0转换为1,以产生第一背景遮罩以及第二背景遮罩。
值得注意的是,当第一数据扩增遮罩以及第二数据扩增遮罩为三元遮罩或多元遮罩时,可先将第一数据扩增遮罩以及第二数据扩增遮罩中的具有对象的像素的数值调整为1并将不具有对象的像素的数值调整为0。此外,可将第一数据扩增遮罩以及第二数据扩增遮罩中的具有对象的像素的数值调整为0并将不具有对象的像素的数值调整为1,以产生第一背景遮罩以及第二背景遮罩。
在一些实施例中,对比学习模型CLM还可包括多层感知(Multilayer Perceptron,MLP)子模型。在一些实施例中,可利用多层感知子模型对前景特征图对进行线性转换(Linear Transform)以产生前景特征向量对,并对背景特征图对进行线性转换以产生背景特征向量对。
在一些实施例中,针对前景特征图对,可对第一前景特征图以及第二前景特征图分别进行线性转换以产生第一前景特征向量以及第二前景特征向量,进而将第一前景特征向量以及第二前景特征向量做为前景特征向量对。接着,针对背景特征图对,可对第一背景特征图以及第二背景特征图分别进行线性转换以产生第一背景特征向量以及第二背景特征向量,进而将第一背景特征向量以及第二背景特征向量做为背景特征向量对。
在一些实施例中,多层感知子模型可以是线性层(Linear Layer)或全连接层(Fully Connection Layer),并用以将多维的特征图线性转换为一维的特征向量。
再者,于步骤S220中,根据前景特征向量对以及背景特征向量对计算前景损失以及背景损失。在一些实施例中,针对前景特征向量对,可对第一前景特征向量以及第二前景特征向量进行相似度损失(Similar Loss)计算以产生前景损失。接着,针对背景特征向量对,可对第一背景特征向量以及第二背景特征向量进行相似度损失计算以产生背景损失。
在一些实施例中,上述相似度损失的计算如以下公式(1)所示。
其中z以及z′为两个特征向量,‖,‖2为欧几里德范数(Euclidean Norm)的函式,以及/>分别为L2正规化(L2 Normalization)的z以及L2正规化的z′,以及L为L2正规化的z以及L2正规化的z′之间进行元素层级相乘处理后的所有元素的总和(即,相似度损失)。
换言之,只要将第一前景特征向量以及第二前景特征向量代入上述公式(1)就可计算出前景损失,且将第一背景特征向量以及第二背景特征向量代入上述公式(1)就可计算出背景损失。
再者,于步骤S230中,利用第一权重以及第二权重对前景损失以及背景损失进行加权损失运算以产生总损失t_loss,其中第一权重对应于前景损失,且第二权重对应于背景损失。在一些实施例中,与前景损失对应的第一权重大于与背景损失对应的第二权重(因为前景的特征比背景的特征重要),且加权损失运算相关于均方根损失(Mean SquareError Loss,MSE Loss)运算。在一些实施例中,第一权重以及第二权重的总和为1,其中第一权重以及第二权重可以是依据过往训练经验当中取得的平均值或是人工给定的预设值。举例而言,第一权重为0.7,且第二权重为0.3。在一些实施例中,总损失t_loss的公式如以下公式(2)。
t_loss=2-2×(α×loss1+β×loss2)……公式(2)
其中α以及β分别为第一权重以及第二权重,且loss1以及loss2分别为前景损失以及背景损失。
再者,于步骤S240中,根据总损失判断是否已符合递归结束条件。当递归结束条件符合时,进入步骤S250。反之,当递归结束条件未符合时,进入步骤S260。在一些实施例中,递归结束条件为总损失小于预设的损失阈值或经过多个递归后的总损失收敛至特定数值(即,前景特征向量之间越像越好,且背景特征向量之间越像越好),其中损失阈值可以是依据过往训练经验当中取得的平均值或是人工给定的预设值。
再者,于步骤S250中,利用对比学习模型CLM中的第一编码器ENCODER1进行机器学习模型的参数调整。在一些实施例中,此机器学习可以依照任意的下游任务(例如,影像分类)选择对应的神经网络架构,并没有特别的限制。换言之,在下游任务中,可将预训练好的第一编码器ENCODER1应用于任何机器学习模型的神经网络层中。如此一来,在机器学习模型的训练阶段中,仅仅需要非常少量的带有标签的数据,就能稍微地调整第一编码器ENCODER1的参数以完成机器学习模型的训练。
再者,于步骤S260中,利用总损失调整对比学习模型CLM中的第一编码器ENCODER1的参数,利用总损失以及预设倍数调整第二编码器的参数,以及撷取新的训练影像以及与新的训练影像对应的新的影像遮罩做为训练影像img以及影像遮罩,进而回到步骤S210以继续训练对比学习模型CLM。换言之,可不断撷取新的训练影像以及与新的训练影像对应的新的影像遮罩,并可利用这些新的训练影像以及这些新的影像遮罩完成对比学习模型CLM的训练。在一些实施例中,可根据总损失对对比学习模型CLM中的第一编码器ENCODER1进行反向传播(Back Propagation)运算,以调整第一编码器ENCODER1的参数。接着,可将调整后的第一编码器ENCODER1的参数以及预设倍数之间的乘积做为调整后的第二编码器的参数。
借由上述步骤,在预训练阶段中,机器学习设备100可直接将没有人工标签的数据运用于对比学习模型CLM,以利用训练影像以及与训练影像对应的影像遮罩所产生前景特征向量对以及背景特征向量对,计算出总损失,进而对对比学习模型CLM中的第一编码器ENCODER1进行更新。借此,将可精准呈现下游任务所需要的关键细节(即,对影像中的兴趣区会有更强的特征萃取的效果)。例如,提升医学影像清晰度、生物辨识成效,或是增进自驾车影像分割效果等。如此一来,可将预训练好的第一编码器ENCODER1应用于任何机器学习模型的神经网络层中,这将大大减少机器学习模型所需要的训练样本以及对应的训练标签。
一并参照图3,图3是根据本揭示一些实施例的机器学习设备100的方框图。于本实施例中,机器学习设备100包括影像撷取电路110以及处理器120。影像撷取电路110用以具有训练标签(Label)lbl的影像img’。处理器120连接影像撷取电路110。处理器120基于相应的软体或韧体指令程序以执行机器学习模型MLM,其中机器学习模型MLM包括预训练好的第一编码器ENCODER1。在此训练阶段中,处理器120利用少量的训练标签lbl以及少量的影像img’就能稍微调整第一编码器ENCODER1中的参数以将机器学习模型MLM训练完成。
一并参照图4,图4是根据本揭示一些实施例的对比学习模型CLM的结构的示意图。如图4所示,对比学习模型CLM包括数据扩增子模型DA_SM、第一编码器ENCODER1、第二编码器ENCODER2、索引子模型IDX_SM以及多层感知子模型MLP_SM。
首先,处理器120可将训练影像img以及与训练影像img对应的影像遮罩msk输入数据扩增子模型DA_SM,数据扩增子模型DA_SM可将影像遮罩msk以及训练影像img分别转换为第一数据扩增影像da_img1以及第一数据扩增遮罩da_msk1,并将训练影像img以及影像遮罩msk分别转换为第二数据扩增影像da_img2以及第二数据扩增遮罩da_msk2。详细而言,一并参照图5,图5是根据本揭示一些实施例的执行数据扩增子模型DA_SM的示意图。假设训练影像img为三通道影像(例如,224×224×3(RGB色彩空间))且影像遮罩msk为对应的单通道的二元遮罩(例如,224×224×1),数据扩增子模型DA_SM可将训练影像img以及影像遮罩msk链接为四通道的链接影像cc_img(例如,224×224×4),并对链接影像cc_img分别进行第一几何变化GT1以及第二几何变化GT2以产生第一几何变化链接影像gt_cc_img1以及第二几何变化链接影像gt_cc_img2。
再者,数据扩增子模型DA_SM可将四通道的第一几何变化链接影像gt_cc_img1拆成单通道的第一数据扩增遮罩da_msk1(例如,224×224×1)以及三通道的第一几何变化影像gt_img1(例如,224×224×3),并将四通道的第二几何变化链接影像gt_cc_img2拆成单通道的第二数据扩增遮罩da_msk2(例如,224×224×1)以及三通道的第二几何变化影像gt_img2(例如,224×224×3)。
再者,数据扩增子模型DA_SM可将三通道的第一几何变化影像gt_img1以及三通道的第二几何变化影像gt_img2分别进行第一色彩变化CT1以及第二色彩变化CT2,以产生三通道的第一数据扩增影像da_img1以及三通道的第二数据扩增影像da_img2。
如图4所示,数据扩增子模型DA_SM可将第一数据扩增影像da_img1以及第二数据扩增影像da_img2分别输入第一编码器ENCODER1以及第二编码器ENCODER2,以分别产生第一影像特征图fm1_1~fm1_3以及第二影像特征图fm2_1~fm2_3。
值得注意的是,为方便说明第一编码器ENCODER1与第二编码器ENCODER2对第一数据扩增影像da_img1与第二数据扩增影像da_img2的处理以及各种后续的特征图的处理,在此仅仅是采用简单的例子,以说明经过第一编码器ENCODER1以及第二编码器ENCODER2的处理会产生特定数量的第一影像特征图以及第二影像特征图。
然而,实务上可能不会只产生三个第一影像特征图以及三个第二影像特征图。这完全取决于第一编码器ENCODER1以及第二编码器ENCODER2的架构。举例而言,在实务上,第一编码器ENCODER1以及第二编码器ENCODER2若采用Resnet50,第一编码器ENCODER1以及第二编码器ENCODER2将会分别产生2048个影像特征图。
借此,数据扩增子模型DA_SM可将第一影像特征图fm1_1~fm1_3以及对应的第一数据扩增遮罩da_msk1输入索引子模型IDX_SM以产生第一前景特征图ffm1_1~ffm1_3以及第一背景特征图bfm1_1~bfm1_3。此外,数据扩增子模型DA_SM可将第二影像特征图fm2_1~fm2_3以及对应的第二数据扩增遮罩da_msk2输入索引子模型IDX_SM以产生第二前景特征图ffm2_1~ffm2_3以及第二背景特征图bfm2_1~bfm2_3。
一并参照图6,图6是根据本揭示一些实施例的执行索引子模型IDX_SM的示意图。假设将影像特征图fm1~fm3以及对应的数据扩增遮罩da_msk输入索引子模型IDX_SM,索引子模型IDX_SM可对数据扩增遮罩da_msk进行尺寸调整,并对影像特征图fm1~fm3以及调整后的数据扩增遮罩da_msk分别执行背景处理以及前景处理以产生背景特征图bfm1~bfm3以及前景特征图ffm1~ffm3。
详细而言,针对背景处理,索引子模型IDX_SM可将调整后的数据扩增遮罩da_msk执行反转处理以产生背景遮罩ivt_msk,并对影像特征图fm1~fm3以及背景遮罩ivt_msk进行元素层级相乘处理以产生背景特征图bfm1~bfm3。此外,针对前景处理,索引子模型IDX_SM可对影像特征图fm1~fm3以及调整后的数据扩增遮罩da_msk进行元素层级相乘处理以产生前景特征图ffm1~ffm3。
借由相同的处理方式,数据扩增子模型DA_SM就可以根据第一影像特征图fm1_1~fm1_3以及对应的第一数据扩增遮罩da_msk1产生第一前景特征图ffm1_1~ffm1_3以及第一背景特征图bfm1_1~bfm1_3,并根据第二影像特征图fm2_1~fm2_3以及对应的第二数据扩增遮罩da_msk2产生第二前景特征图ffm2_1~ffm2_3以及第二背景特征图bfm2_1~bfm2_3。
如图4所示,数据扩增子模型DA_SM可将第一前景特征图ffm1_1~ffm1_3以及第二前景特征图ffm2_1~ffm2_3输入多层感知子模型MLP_SM以进行线性转换,进而产生第一前景特征向量FA1以及第二前景特征向量FA2,并将第一背景特征图bfm1_1~bfm1_3以及第二背景特征图bfm2_1~bfm2_3输入多层感知子模型MLP_SM以进行线性转换,进而产生第一背景特征向量BA1以及第二背景特征向量BA2。
借此,处理器120可根据第一前景特征向量FA1以及第二前景特征向量FA2计算前景损失loss1,并根据第一背景特征向量BA1以及第二背景特征向量BA2计算背景损失loss2。如此一来,处理器120可根据前景损失loss1以及背景损失loss2计算总损失,并利用总损失对第一编码器ENCODER1进行反向传播运算以更新第一编码器ENCODER1的参数。此外,处理器120可将预设倍数以及更新后的第一编码器ENCODER1的参数之间的乘积设定为第二编码器ENCODER2的参数。
如此一来,可不断更新第一编码器ENCODER1的参数以及第二编码器ENCODER2的参数直到递归结束条件符合才完成预训练阶段。
综上所述,本揭示实施例的机器学习方法以及设备可在对比学习模型中使用影像与遮罩的数据扩增以及背景与前景的特征萃取,以计算出前景损失以及背景损失,进而利用前景的权重以及背景的权重对前景损失以及背景损失进行加权损失运算以产生总损失。借此,可利用总损失更新对比学习模型中的第一编码器以及第二编码器,直到递归结束条件符合才将预训练完成的第一编码器应用于其他机器学习模型的神经网络层中。如此一来,将可精准呈现下游任务所需要的关键细节,这将大大减少所需要的训练样本以及对应的训练标签。
虽然本揭示的特定实施例已经揭露有关上述实施例,此些实施例不意欲限制本揭示。各种替代及改良可借由相关领域中的一般技术人员在本揭示中执行而没有从本揭示的原理及精神背离。因此,本揭示的保护范围由所附权利要求确定。
【符号说明】
100:机器学习设备
110:影像撷取电路
img:训练影像
120:处理器
CLM:对比学习模型
ENCODER1:第一编码器
t_loss:总损失
200:机器学习方法
S210~S260:步骤
img’:影像
lbl:训练标签
MLM:机器学习模型
msk:影像遮罩
DA_SM:数据扩增子模型
da_msk1:第一数据扩增遮罩
da_msk2:第二数据扩增遮罩
da_img1:第一数据扩增影像
da_img2:第二数据扩增影像
ENCODER2:第二编码器
fm1_1~fm1_3:第一影像特征图
fm2_1~fm2_3:第二影像特征图
IDX_SM:索引子模型
ffm1_1~ffm1_3:第一前景特征图
ffm2_1~ffm2_3:第二前景特征图
bfm1_1~bfm1_3:第一背景特征图
bfm2_1~bfm2_3:第二背景特征图
MLP_SM:多层感知子模型
FA1:第一前景特征向量
FA2:第二前景特征向量
BA1:第一背景特征向量
BA2:第二背景特征向量
loss1:前景损失
loss2:背景损失
cc_img:链接影像
GT1:第一几何变化
GT2:第二几何变化
gt_cc_img1:第一几何变化链接影像
gt_cc_img2:第二几何变化链接影像
gt_img1:第一几何变化影像
gt_img2:第二几何变化影像
CT1:第一色彩变化
CT2:第二色彩变化
fm1~fm3:影像特征图
da_msk:数据扩增遮罩
ivt_msk:背景遮罩
bfm1~bfm3:背景特征图
ffm1~ffm3:前景特征图。
Claims (11)
1.一种机器学习方法,其特征在于,包括:
(a)将对比学习模型套用至训练影像以及影像遮罩以产生前景特征向量对以及背景特征向量对,其中该训练影像对应于该影像遮罩,该对比学习模型包括第一编码器以及第二编码器;
(b)根据该前景特征向量对以及该背景特征向量对计算前景损失以及背景损失;
(c)利用第一权重以及第二权重对该前景损失以及该背景损失进行加权损失运算以产生总损失,其中该第一权重对应于该前景损失,且该第二权重对应于该背景损失;
(d)根据该总损失判断是否已符合递归结束条件;
(e)当该递归结束条件符合时,利用该第一编码器进行机器学习模型的参数调整;以及
(f)当该递归结束条件未符合时,利用该总损失调整该第一编码器的参数,利用该调整后的第一编码器的参数以及预设倍数调整该第二编码器的参数,以及撷取新的训练影像以及与该新的训练影像对应的新的影像遮罩做为该训练影像以及该影像遮罩,进而再次执行步骤(a)至步骤(d)。
2.根据权利要求1所述的机器学习方法,其中该第一编码器的参数与该第二编码器的参数之间存在该预设倍数,且该第一编码器以及该第二编码器具有相同的结构,其中该对比学习模型包括数据扩增子模型,且步骤(a)包括:
(a1)利用该数据扩增子模型对该训练影像以及该影像遮罩进行第一几何变化,以产生第一几何变化影像以及与该第一几何变化影像对应的第一数据扩增遮罩;
(a2)利用该数据扩增子模型对该训练影像以及该影像遮罩进行第二几何变化,以产生第二几何变化影像以及与该第二几何变化影像对应的第二数据扩增遮罩,其中该第二几何变化不同于该第一几何变化;以及
(a3)利用该第一编码器根据该第一几何变化影像产生第一影像特征图,并利用该第二编码器根据该第二几何变化影像产生第二影像特征图,以根据该第一影像特征图以及该第二影像特征图产生该前景特征向量对以及该背景特征向量对。
3.根据权利要求2所述的机器学习方法,其中步骤(a3)包括:
利用该数据扩增子模型对该第一几何变化影像进行第一色彩变化以产生第一数据扩增影像;
利用该数据扩增子模型对该第二几何变化影像进行第二色彩变化以产生第二数据扩增影像,其中该第二色彩变化不同于该第一色彩变化;以及
利用该第一编码器根据该第一数据扩增影像产生该第一影像特征图,并利用该第二编码器根据该第二数据扩增影像产生该第二影像特征图,以根据该第一影像特征图以及该第二影像特征图产生该前景特征向量对以及该背景特征向量对。
4.根据权利要求2所述的机器学习方法,其中该对比学习模型还包括索引子模型,其中步骤(a3)还包括:
利用该索引子模型对该第一数据扩增遮罩以及该第二数据扩增遮罩进行反转处理,以产生第一背景遮罩以及第二背景遮罩;
利用该索引子模型对该第一数据扩增遮罩、该第二数据扩增遮罩、该第一背景遮罩以及该第二背景遮罩进行尺寸调整;
利用该索引子模型对该调整后的第一数据扩增遮罩以及该第一影像特征图进行元素层级相乘处理,并对该调整后的第二数据扩增遮罩以及该第二影像特征图进行元素层级相乘处理,进而产生前景特征图对;以及
利用该索引子模型对该调整后的第一背景遮罩以及该第一影像特征图进行元素层级相乘处理,并对该调整后的第二背景遮罩以及该第二影像特征图进行元素层级相乘处理,进而产生背景特征图对,以根据该前景特征图对以及该背景特征图对产生该前景特征向量对以及该背景特征向量对。
5.根据权利要求4所述的机器学习方法,其中该对比学习模型还包括多层感知子模型,其中步骤(a3)还包括:
利用该多层感知子模型对该前景特征图对进行线性转换以产生该前景特征向量对,并对该背景特征图对进行线性转换以产生该背景特征向量对。
6.根据权利要求1所述的机器学习方法,其中与该前景损失对应的该第一权重大于与该背景损失对应的该第二权重,且该加权损失运算相关于均方根损失运算。
7.一种机器学习设备,其特征在于,包括:
影像撷取电路,用以撷取训练影像;
处理器,连接该影像撷取电路,并运行对比学习模型,其中该处理器用以进行下列操作:
对该训练影像执行对象辨识处理以产生与该训练影像对应的影像遮罩;
将该对比学习模型套用至该训练影像以及该影像遮罩以产生前景特征向量对以及背景特征向量对;
根据该前景特征向量对以及该背景特征向量对计算前景损失以及背景损失;
利用第一权重以及第二权重对该前景损失以及该背景损失进行加权损失运算以产生总损失,其中该第一权重对应于该前景损失,且该第二权重对应于该背景损失;以及
利用该总损失调整该对比学习模型中的第一编码器的参数,其中训练完成的该第一编码器用以进行机器学习模型的参数调整。
8.根据权利要求7所述的机器学习设备,其中该第一编码器的参数与该对比学习模型中的第二编码器的参数之间存在预设倍数,且该第一编码器以及该第二编码器具有相同的结构,其中该对比学习模型包括数据扩增子模型,其中该处理器还用以:
利用该数据扩增子模型对该训练影像以及该影像遮罩进行第一几何变化,以产生第一几何变化影像以及与该第一几何变化影像对应的第一数据扩增遮罩;
利用该数据扩增子模型对该训练影像以及该影像遮罩进行第二几何变化,以产生第二几何变化影像以及与该第二几何变化影像对应的第二数据扩增遮罩,其中该第二几何变化不同于该第一几何变化;以及
利用该第一编码器根据该第一几何变化影像产生第一影像特征图,并利用该第二编码器根据该第二几何变化影像产生第二影像特征图,以根据该第一影像特征图以及该第二影像特征图产生该前景特征向量对以及该背景特征向量对。
9.根据权利要求8所述的机器学习设备,其中该处理器还用以:
利用该数据扩增子模型对该第一几何变化影像进行第一色彩变化以产生第一数据扩增影像;
利用该数据扩增子模型对该第二几何变化影像进行第二色彩变化以产生第二数据扩增影像,其中该第二色彩变化不同于该第一色彩变化;以及
利用该第一编码器根据该第一数据扩增影像产生该第一影像特征图,并利用该第二编码器根据该第二数据扩增影像产生该第二影像特征图,以根据该第一影像特征图以及该第二影像特征图产生该前景特征向量对以及该背景特征向量对。
10.根据权利要求8所述的机器学习设备,其中该对比学习模型还包括多层感知子模型,其中该对比学习模型还包括索引子模型,其中该处理器还用以:
利用该索引子模型对该第一数据扩增遮罩以及该第二数据扩增遮罩进行反转处理,以产生第一背景遮罩以及第二背景遮罩;
利用该索引子模型对该第一数据扩增遮罩、该第二数据扩增遮罩、该第一背景遮罩以及该第二背景遮罩进行尺寸调整;
利用该索引子模型对该调整后的第一数据扩增遮罩以及该第一影像特征图进行元素层级相乘处理,并对该调整后的第二数据扩增遮罩以及该第二影像特征图进行元素层级相乘处理,进而产生前景特征图对;
利用该索引子模型对该调整后的第一背景遮罩以及该第一影像特征图进行元素层级相乘处理,并对该调整后的第二背景遮罩以及该第二影像特征图进行元素层级相乘处理,进而产生背景特征图对;以及
利用该多层感知子模型对该前景特征图对进行线性转换以产生该前景特征向量对,并对该背景特征图对进行线性转换以产生该背景特征向量对。
11.根据权利要求7所述的机器学习设备,其中与该前景损失对应的该第一权重大于与该背景损失对应的该第二权重,且该加权损失运算相关于均方根损失运算。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US202263268064P | 2022-02-16 | 2022-02-16 | |
US63/268,064 | 2022-02-16 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116882511A true CN116882511A (zh) | 2023-10-13 |
Family
ID=87558883
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310116616.4A Pending CN116882511A (zh) | 2022-02-16 | 2023-02-15 | 机器学习方法以及设备 |
Country Status (3)
Country | Link |
---|---|
US (1) | US20230260260A1 (zh) |
CN (1) | CN116882511A (zh) |
TW (1) | TWI817896B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110148081B (zh) * | 2019-03-25 | 2024-02-23 | 腾讯科技(深圳)有限公司 | 图像处理模型的训练方法、图像处理方法、装置及存储介质 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110070511B (zh) * | 2019-04-30 | 2022-01-28 | 北京市商汤科技开发有限公司 | 图像处理方法和装置、电子设备及存储介质 |
US11158055B2 (en) * | 2019-07-26 | 2021-10-26 | Adobe Inc. | Utilizing a neural network having a two-stream encoder architecture to generate composite digital images |
CN113762051B (zh) * | 2021-05-13 | 2024-05-28 | 腾讯科技(深圳)有限公司 | 模型训练方法、图像检测方法、装置、存储介质及设备 |
CN113627421A (zh) * | 2021-06-30 | 2021-11-09 | 华为技术有限公司 | 一种图像处理方法、模型的训练方法以及相关设备 |
CN113807183B (zh) * | 2021-08-17 | 2024-06-14 | 华为技术有限公司 | 模型训练方法及相关设备 |
-
2023
- 2023-02-02 TW TW112103719A patent/TWI817896B/zh active
- 2023-02-15 US US18/169,853 patent/US20230260260A1/en active Pending
- 2023-02-15 CN CN202310116616.4A patent/CN116882511A/zh active Pending
Also Published As
Publication number | Publication date |
---|---|
US20230260260A1 (en) | 2023-08-17 |
TWI817896B (zh) | 2023-10-01 |
TW202334868A (zh) | 2023-09-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110176027B (zh) | 视频目标跟踪方法、装置、设备及存储介质 | |
CN109493350B (zh) | 人像分割方法及装置 | |
CN109886121B (zh) | 一种遮挡鲁棒的人脸关键点定位方法 | |
EP3716198A1 (en) | Image reconstruction method and device | |
CN109902548B (zh) | 一种对象属性识别方法、装置、计算设备及系统 | |
CN110717851A (zh) | 图像处理方法及装置、神经网络的训练方法、存储介质 | |
CN112200818B (zh) | 基于图像的着装区域分割和着装替换方法、装置及设备 | |
CN112614110B (zh) | 评估图像质量的方法、装置及终端设备 | |
CN112308866A (zh) | 图像处理方法、装置、电子设备及存储介质 | |
CN113095470A (zh) | 神经网络的训练方法、图像处理方法及装置、存储介质 | |
CN112257526A (zh) | 一种基于特征交互学习的动作识别方法及终端设备 | |
CN111476133A (zh) | 面向无人驾驶的前背景编解码器网络目标提取方法 | |
CN116882511A (zh) | 机器学习方法以及设备 | |
CN112418032A (zh) | 一种人体行为识别方法、装置、电子设备及存储介质 | |
CN116071748A (zh) | 一种基于频域全局滤波的无监督视频目标分割方法 | |
CN117409208B (zh) | 一种实时服装图像语义分割方法及系统 | |
WO2020187029A1 (zh) | 图像处理方法及装置、神经网络的训练方法、存储介质 | |
CN116363561A (zh) | 一种时序动作定位方法、装置、设备及存储介质 | |
US20230060988A1 (en) | Image processing device and method | |
CN115115552B (zh) | 图像矫正模型训练及图像矫正方法、装置和计算机设备 | |
EP4383183A1 (en) | Data processing method and apparatus | |
CN112967309B (zh) | 一种基于自监督学习的视频目标分割方法 | |
Mello Jr et al. | Unsupervised learning method for encoder-decoder-based image restoration | |
CN114155540A (zh) | 基于深度学习的文字识别方法、装置、设备及存储介质 | |
CN113033263A (zh) | 一种人脸图像年龄特征识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |