CN111507887B - 对具有非rgb格式的图像客体进行探测学习的方法和装置 - Google Patents

对具有非rgb格式的图像客体进行探测学习的方法和装置 Download PDF

Info

Publication number
CN111507887B
CN111507887B CN202010059550.6A CN202010059550A CN111507887B CN 111507887 B CN111507887 B CN 111507887B CN 202010059550 A CN202010059550 A CN 202010059550A CN 111507887 B CN111507887 B CN 111507887B
Authority
CN
China
Prior art keywords
image
rgb format
rgb
converter
result
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010059550.6A
Other languages
English (en)
Other versions
CN111507887A (zh
Inventor
金桂贤
金镕重
金寅洙
金鹤京
南云铉
夫硕焄
成明哲
吕东勋
柳宇宙
张泰雄
郑景中
诸泓模
赵浩辰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Stradvision Inc
Original Assignee
Stradvision Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Stradvision Inc filed Critical Stradvision Inc
Publication of CN111507887A publication Critical patent/CN111507887A/zh
Application granted granted Critical
Publication of CN111507887B publication Critical patent/CN111507887B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/04Context-preserving transformations, e.g. by using an importance map
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0475Generative networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/094Adversarial learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • G06T11/001Texturing; Colouring; Generation of texture or colour
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/90Determination of colour characteristics
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/776Validation; Performance evaluation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/56Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10024Color image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

本发明是一种对具有非RGB格式的图像客体进行探测学习的方法和装置。本发明涉及一种使用循环GAN而将RGB训练图像集变换成非RGB训练图像集,以便能够用于对具有非RGB格式的图像客体的客体探测学习的学习方法及学习装置,以及利用其的测试方法及测试装置。更详细而言,所述学习方法用于利用循环GAN而将标注有至少一个正确信息的RGB图像变换成标注有至少一个正确信息的非RGB图像,其特征在于,学习装置获得具有RGB格式的至少一个第一图像,并使第一转换器,将所述第一图像变换成具有非RGB格式的至少一个第二图像,使第一鉴别器,确认所述第二图像是否为具有初级非RGB格式的图像或具有二次非RGB格式的图像。

Description

对具有非RGB格式的图像客体进行探测学习的方法和装置
技术领域
本发明涉及用于自动驾驶车辆的学习方法及学习装置,具体而言,涉及一种使用循环GAN(Cycle Generative Adversarial Network,循环生成对抗网络)而将RGB训练图像集变换成Non-RGB训练图像集而以便能够对具有非RGB格式的图像客体进行探测学习的学习方法及学习装置,以及利用其的测试方法及测试装置。
背景技术
深层卷积神经网络(Deep Convolutional Neural Network:Deep CNN)是在深度学习领域发生的耀眼的发展的核心。为了解决文字识别问题,CNN早在90年代就已经被使用了,但最近才在机器学习(Machine Learning)领域广泛应用。例如,CNN在2012年图像识别大赛(ImageNet Large Scale Visual Recognition Challenge)中战胜其他竞争者而赢得了冠军。之后,CNN成为了机器学习领域中非常有用的工具。
最近,CNN在自动驾驶汽车领域极为广泛地使用。当在自动驾驶汽车领域使用时,CNN执行从附着于汽车的照相机获得图像并利用其搜索车道线等的作用。为此,CNN利用训练图像执行学习,训练图像主要为RGB格式。
但是,根据情况,CNN要求处理具有非RGB格式的测试图像。不同于单纯投入事先准备的具有RGB格式的图像的学习流程,在测试流程中,具有非RGB格式的图像可以从行驶中的实际汽车的照相机或传感器获得。可是,CNN使用具有RGB格式的图像进行学习,因而无法适宜地处理具有非RGB格式的测试图像。这是因为学习的CNN的参数以RGB格式为基准。
因此,以往技术为了解决这种问题,实时变换在测试时获得的图像的格式,从而使得测试图像的格式与学习图像的格式相同。但是,在这种情况下,需在数学上实时变换所有像素的值,因而产生开销(overhead),这种开销在实时性极为重要的自动驾驶领域成为巨大的缺点。虽然如同将YUV格式变更为RGB格式的情形一样,在其变换式较简单的情况下,这种开销也可能会很小,但在变换式非常复杂或者不存在变换式的情况下,这种方法存在无法使用的缺点。
结果,要在测试时解决这种格式问题并不容易,因而利用与测试图像具有相同格式的新的训练图像来重新学习CNN参数更为简便。
但是,这种解决方案也有问题,为了使CNN发挥既定水平以上的性能,在学习过程中需要数万张以上的非常多的训练图像。除训练图像本身之外,CNN需要与其对应的GT(地面真值),GT需由人直接制作,因而需要数万张以上的训练图像即意味着要求很多钱和时间,这成为巨大的缺点。
发明内容
本发明的目的在于解决上述问题。
本发明的目的在于,使用循环GAN而将具有RGB格式的训练图像集变换成具有非RGB格式的训练图像集,从而消除另行确保具有非RGB格式的训练图像集的困难。
本发明的目的是通过以下技术方案实现的:
根据本发明的一个方面,提供一种学习方法,所述学习方法利用循环生成对抗网络GAN而将标注有至少一个正确信息的RGB图像变换成标注有至少一个正确信息的非RGB图像,其特征在于,包括:(a)步骤,学习装置获得具有RGB格式的至少一个第一图像,并使第一转换器,将所述第一图像变换成具有非RGB格式的至少一个第二图像,使第一鉴别器,确认所述第二图像是否为具有初级非RGB格式的图像或具有二次非RGB格式的图像,从而生成第(1_1)结果,且其特征在于所述初级非RGB格式是未经过从所述RGB格式变换的非RGB格式,所述二次非RGB格式是经过从所述RGB格式变换的非RGB格式,并使第二转换器,将所述第二图像变换成具有所述RGB格式的至少一个第三图像;(b)步骤,所述学习装置获得具有所述非RGB格式的至少一个第四图像,并使所述第二转换器,将所述第四图像变换成具有所述RGB格式的至少一个第五图像,使第二鉴别器,确认所述第五图像是否为具有初级RGB格式的图像或具有二次RGB格式的图像,从而生成第(2_1)结果,且其特征在于所述初级RGB格式是未经过从所述非RGB格式变换的RGB格式,所述二次RGB格式是经过从所述非RGB格式变换的RGB格式,并使所述第一转换器,将所述第五图像变换成具有所述非RGB格式的至少一个第六图像;及(c)步骤,所述学习装置参照所述第一图像、所述第二图像、所述第三图像、所述第四图像、所述第五图像、所述第六图像、所述第(1_1)结果及所述第(2_1)结果中至少一部分,计算一个以上的损失,学习所述第一转换器、所述第二转换器、所述第一鉴别器及所述第二鉴别器的参数的至少一部分。
一个实施例,提供一种学习方法,其特征在于,所述(c)步骤为G*=argmin(log(1-DG(G(I)))+γ|I-F(G(I))|+log(1-DF(F(X)))+β|X-G(F(X))|),一个以上的所述损失中包含的转换器用第一损失根据所述公式定义,I表示所述第一图像,G(I)表示所述第二图像,DG(G(I))表示所述第(1_1)结果,F(G(I))表示所述第三图像,X表示所述第四图像,F(X)表示所述第五图像,DF(F(X))表示所述第(2_1)结果,G(F(X))表示所述第六图像,γ及β为用于分别调整各|I-F(G(I))|及|X-G(F(X))|的加权值的常数。
一个实施例,提供一种学习方法,其特征在于,所述(c)步骤为G*=argmin(log(1-DG(G(I)))+γ|I-F(G(I))|+log(1-DF(F(X)))+βX-GFX+λ×OD,一个以上的所述损失中包含的转换器用第一损失根据所述公式定义,I表示所述第一图像,G(I)表示所述第二图像,DG(G(I))表示所述第(1_1)结果,F(G(I))表示所述第三图像,X表示所述第四图像,F(X)表示所述第五图像,DF(F(X))表示所述第(2_1)结果,G(F(X))表示所述第六图像,γ及β为用于分别调整各|I-F(G(I))|及|X-G(F(X))|的加权值的常数,OD表示客体探测损失,λ为用于调整所述客体探测损失的加权值的常数,所述学习装置使已学习的RGB客体探测器,在所述第三图像中检测一个以上的客体,对在所述第三图像中检测的所述客体的预测位置、大小、种类相关信息的至少一部分和与所述第一图像对应的至少一个GT中包括的所述客体的实际位置、大小、种类相关信息的至少一部分进行比较,从而计算所述客体探测损失。
一个实施例,提供一种学习方法,其特征在于,所述(c)步骤为所述损失中包含的所述第一鉴别器用FD损失根据所述公式定义,NR表示具有所述非RGB格式的任意图像,DG(NR)表示从所述第一鉴别器输出的决定具有所述非RGB格式的所述任意图像的第(1_2)结果,G(I)表示所述第二图像,DG(G(I))表示所述第(1_1)结果。
一个实施例,提供一种学习方法,其特征在于,所述(c)步骤为所述损失中包含的所述第二鉴别器用SD损失根据所述公式定义,R表示具有所述RGB格式的任意图像,DF(R)表示从所述第二鉴别器输出的决定具有所述RGB格式的所述任意图像的第(2_2)结果,F(X)表示所述第五图像,DF(F(X))表示所述第(2_1)结果。
一个实施例,提供一种学习方法,其特征在于,所述第一转换器及所述第二转换器分别包括编码层及解码层的至少一部分。
根据本发明的另一个方面,提供一种测试方法,所述测试方法利用循环GAN而将标注有至少一个正确信息的RGB图像变换成标注有至少一个正确信息的非RGB图像,其特征在于,包括:(a)步骤,在经过如下步骤完成学习的状态下,测试装置获得具有所述RGB格式的至少一个测试图像:(1)步骤,学习装置获得具有RGB格式的至少一个第一图像,并使第一转换器,将所述第一图像变换成具有非RGB格式的至少一个第二图像,使第一鉴别器,确认所述第二图像是否为具有初级非RGB格式的图像或具有二次非RGB格式的图像,从而生成训练用第(1_1)结果,且其特征在于所述初级非RGB格式是未经过从所述RGB格式变换的非RGB格式,所述二次非RGB格式是经过从所述RGB格式变换的非RGB格式,并使第二转换器,将所述第二图像变换成具有所述RGB格式的至少一个第三图像;(2)步骤,所述学习装置获得具有所述非RGB格式的至少一个第四图像,并使所述第二转换器,将所述第四图像变换成具有所述RGB格式的至少一个第五图像,使第二鉴别器,确认所述第五图像是否为具有初级RGB格式的图像或具有二次RGB格式的图像,从而生成训练用第(2_1)结果,且其特征在于所述初级RGB格式是未经过从所述非RGB格式变换的RGB格式,所述二次RGB格式是经过从所述非RGB格式变换的RGB格式,并使所述第一转换器,将所述第五图像变换成具有所述非RGB格式的至少一个第六图像;及(3)步骤,所述学习装置参照所述第一图像、所述第二图像、所述第三图像、所述第四图像、所述第五图像、所述第六图像、所述训练用第(1_1)结果及所述训练用第(2_1)结果中至少一部分,计算一个以上的损失,学习所述第一转换器、所述第二转换器、所述第一鉴别器及所述第二鉴别器的参数的至少一部分;及(b)步骤,所述测试装置使所述第一转换器,将所述测试图像变换成具有非RGB格式的至少一个结果图像。
一个实施例,提供一种测试方法,其特征在于,所述结果图像用于检测具有非RGB格式的所述测试图像中的一个以上客体所需的非RGB客体探测器的学习。
根据本发明的另一个方面,提供一种学习装置,所述学习装置用于利用循环GAN而将标注有至少一个正确信息的RGB图像变换成标注有至少一个正确信息的非RGB图像,其特征在于,包括:存储指令的至少一个存储器;及至少一个处理器,所述至少一个处理器构成为运行用于执行如下流程的所述指令:(I)流程,使第一转换器,将具有RGB格式的至少一个第一图像变换成具有非RGB格式的至少一个第二图像,使第一鉴别器,确认所述第二图像是否为具有初级非RGB格式的图像或具有二次非RGB格式的图像,从而生成第(1_1)结果,且其特征在于所述初级非RGB格式是未经过从所述RGB格式变换的非RGB格式,所述二次非RGB格式是经过从所述RGB格式变换的非RGB格式,并使第二转换器,将所述第二图像变换成具有所述RGB格式的至少一个第三图像;(II)流程,使所述第二转换器,将具有所述非RGB格式的至少一个第四图像变换成具有所述RGB格式的至少一个第五图像,使第二鉴别器,确认所述第五图像是否为具有初级RGB格式的图像或具有二次RGB格式的图像,从而生成第(2_1)结果,且其特征在于所述初级RGB格式是未经过从所述非RGB格式变换的RGB格式,所述二次RGB格式是经过从所述非RGB格式变换的RGB格式,并使所述第一转换器,将所述第五图像变换成具有所述非RGB格式的至少一个第六图像;及(III)流程,参照所述第一图像、所述第二图像、所述第三图像、所述第四图像、所述第五图像、所述第六图像、所述第(1_1)结果及所述第(2_1)结果中至少一部分,计算一个以上的损失,学习所述第一转换器、所述第二转换器、所述第一鉴别器及所述第二鉴别器的参数的至少一部分。
一个实施例,提供一种学习装置,其特征在于,所述(III)流程为G*=argmin(log(1-DG(G(I)))+γ|I-F(G(I))|+log(1-DF(F(X)))+β|X-G(F(X))|),一个以上的所述损失中包含的转换器用第一损失根据所述公式定义,I表示所述第一图像,G(I)表示所述第二图像,DG(G(I))表示所述第(1_1)结果,F(H(I))表示所述第三图像,X表示所述第四图像,F(X)表示所述第五图像,DF(F(X))表示所述第(2_1)结果,G(F(X))表示所述第六图像,γ及β为用于分别调整各|I-F(G(I))|及|X-G(F(X))|的加权值的常数。
一个实施例,提供一种学习装置,其特征在于,所述(III)流程为G*=argmin(log(1-DG(G(I)))+γ|I-F(G(I))|+log(1-DF(F(X)))+β|X-G(F(X))|)+λ×OD,一个以上的所述损失中包含的转换器用第一损失根据所述公式定义,I表示所述第一图像,G(I)表示所述第二图像,DG(G(I))表示所述第(1_1)结果,F(G(I))表示所述第三图像,X表示所述第四图像,F(X)表示所述第五图像,DF(F(X))表示所述第(2_1)结果,G(F(X))表示所述第六图像,γ及β为用于分别调整各|I-F(G(I))|及|X-G(F(X))|的加权值的常数,OD表示客体探测损失,λ为用于调整所述客体探测损失的加权值的常数,所述处理器使已学习的RGB客体探测器,在所述第三图像中检测一个以上的客体,对在所述第三图像中检测的所述客体的预测位置、大小、种类相关信息的至少一部分和与所述第一图像对应的至少一个GT中包括的所述客体的实际位置、大小、种类相关信息的至少一部分进行比较,从而计算所述客体探测损失。
一个实施例,提供一种学习装置,其特征在于,所述(III)流程为所述损失中包含的所述第一鉴别器用FD损失根据所述公式定义,NR表示具有所述非RGB格式的任意图像,DG(NR)表示从所述第一鉴别器输出的决定具有所述非RGB格式的所述任意图像的第(1_2)结果,G(I)表示所述第二图像,D(G(I))表示所述第(1_1)结果。
一个实施例,提供一种学习装置,其特征在于,所述(III)流程为所述损失中包含的所述第二鉴别器用SD损失根据所述公式定义,R表示具有所述RGB格式的任意图像,DF(R)表示从所述第二鉴别器输出的决定具有所述RGB格式的所述任意图像的第(2_2)结果,F(X)表示所述第五图像,DF(F(X))表示所述第(2_1)结果。
一个实施例,提供一种学习装置,其特征在于,所述第一转换器及所述第二转换器分别包括编码层及解码层的至少一部分。
根据本发明又一个方面,提供一种测试装置,所述测试装置利用循环GAN而将标注有至少一个正确信息的RGB图像变换成标注有至少一个正确信息的非RGB图像,其特征在于,包括:存储指令的至少一个存储器;及至少一个处理器,所述至少一个处理器构成为运行用于在经过了学习的状态下执行使所述第一转换器将具有RGB格式的至少一个测试图像变换成具有非RGB格式的至少一个结果图像的流程,所述学习是指:(1)使第一转换器,将具有RGB格式的至少一个第一训练图像变换成具有非RGB格式的至少一个第二训练图像,使第一鉴别器,确认所述第二训练图像是否为具有初级非RGB格式的图像或具有二次非RGB格式的图像,从而生成训练用第(1_1)结果,且其特征在于所述初级非RGB格式是未经过从所述RGB格式变换的非RGB格式,所述二次非RGB格式是经过从所述RGB格式变换的非RGB格式,并使第二转换器,将所述第二训练图像变换成具有所述RGB格式的至少一个第三训练图像;(2)使所述第二转换器,将具有所述非RGB格式的至少一个所述第四训练图像变换具有所述RGB格式的至少一个第五训练图像,使第二鉴别器,确认所述第五训练图像是否为具有初级RGB格式的图像或具有二次RGB格式的图像,从而生成训练用第(2_1)结果,且其特征在于所述初级RGB格式是未经过从所述非RGB格式变换的RGB格式,所述二次RGB格式是经过从所述非RGB格式变换的RGB格式,并使所述第一转换器,将所述第五训练图像变换成具有所述非RGB格式的至少一个第六训练图像;(3)参照所述第一训练图像、所述第二训练图像、所述第三训练图像、所述第四训练图像、所述第五训练图像、所述第六训练图像、所述训练用第(1_1)结果及所述训练用第(2_1)结果中至少一部分,计算一个以上的损失,学习所述第一转换器、所述第二转换器、所述第一鉴别器及所述第二鉴别器的参数的至少一部分。
一个实施例,提供一种测试装置,其特征在于,所述结果图像用于检测具有非RGB格式的所述测试图像中的一个以上客体所需的非RGB客体探测器的学习。
与现有技术相比,本发明的优点在于:
本发明使用循环GAN而将具有RGB格式的训练图像集变换成具有非RGB格式的训练图像集,从而具有的效果是消除另行确保具有非RGB格式的训练图像集的困难。
附图说明
为了用于说明本发明实施例而附带的下面的图,只是本发明实施例中的一部分,本发明所属技术领域的普通技术人员(以下称为“普通技术人员”)可以不进行发明性作业,基于这些图获得其他图。
图1是根据本发明一个实施例显示执行用于将RGB格式的训练图像集变换成非RGB格式的训练图像集所需的学习方法的学习装置的构成的图。
图2是根据本发明一个实施例概略地显示用于将RGB格式的训练图像集变换成非RGB格式的训练图像集所需的第一转换器及第二转换器的图。
图3是根据本发明一个实施例概略地显示用于将RGB格式的训练图像集变换成非RGB格式的训练图像集所需的学习装置的图。
图4是根据本发明一个实施例显示计算用于将RGB格式的训练图像集变换成非RGB格式的训练图像集所需的客体探测损失的过程的图。
具体实施方式
后述有关本发明的详细说明,参照作为示例而图示本发明可实施的特定实施例的附图。对这些实施例进行了详细说明,以便从业人员足以实施本发明。本发明的多样实施例虽然互不相同,但应理解为不需要相互排他。例如,在此记载的特定形状、结构及特性,可以与一个实施例相关联,在不超出本发明的精神及范围的前提下体现为其他实施例。另外,各个公开的实施例内的个别构成要素的位置及配置,应理解为在不超出本发明的精神及范围的前提下可以进行变更。因此,后述的详细说明并非出于限定之意,本发明的范围,如能适当说明,则仅由与其权利要求所主张的内容等同的所有范围和所附权利要求所限定。在附图中,类似的附图标记指称在多个方面相同或类似的功能。
另外,在本发明的详细说明及权利要求中,“包括”字样的术语及其变形,并非要将其他技术特征、附加物、构成要素或步骤排除在外。对于普通技术人员而言,本发明的其他目的、优点及特性,一部分从本说明书,而一部分则从本发明的实施中显现出来。以下的示例及附图是作为实例而提供的,并非意图限定本发明。
本发明中提及的各种图像可以包括铺装或非铺装道路相关图像,是可以假定此时会在道路环境中出现的物体(例如汽车、人、动物、植物、物品、建筑物、诸如飞机或无人机的飞行体、其他障碍物)的图像,但并非必须限定于此,本发明中提及的各种图像也可以是与道路无关的图像(例如与非铺设道路、小胡同、空地、海、湖、河、山、树林、沙漠、天空、室内相关的图像),是可以推断此时会在非铺设道路、小胡同、空地、海、湖、河、山、树林、沙漠、天空、室内环境中出现的物体(例如汽车、人、动物、植物、物品、建筑物、诸如飞机或无人机的飞行体、其他障碍物)的图像,但并非必须限定于此。
下面为了让本发明所属技术领域的普通技术人员能够容易地实施本发明,参照附图,就本发明优选实施例进行详细说明。
图1是根据本发明一个实施例显示执行用于将RGB格式的训练图像集变换成非RGB格式的训练图像集所需的学习方法的学习装置的构成的图。
参照图1,学习装置100包括作为稍后将详细说明的构成要素的第一转换器(transformer)130、第一鉴别器(discriminator)140、第二转换器150、第二鉴别器160、RGB客体探测器170及非RGB客体探测器180。第一转换器130、第一鉴别器140、第二转换器150、第二鉴别器160、RGB客体探测器170及非RGB客体探测器180的输入输出及运算过程可以分别借助于通信部110及处理器120而实现。但在图1中,省略了通信部110及处理器120的具体连接关系。此时,至少一个存储器115可以为预先存储了后述多种指令的状态,处理器120设置成执行存储器115中存储的指令,且处理器120可以执行稍后将说明的流程,从而执行本发明。如上所述描述了学习装置100,并非排除学习装置100包括由实施本发明所需的介质、处理器及存储器统合而成的形态的统合处理器的情形。
其中,第一转换器130及第二转换器150可以变换各自输入的图像的格式。具体而言,第一转换器130可以将RGB格式的至少一个输入图像变换成非RGB格式的图像,第二转换器150可以将非RGB格式的输入图像变换成RGB格式的图像。所谓非RGB格式,可以意味着并非RGB格式的、为了显示图像而使用的所有格式。例如,可以与YUV、IR、IR-RGB、灰度(Grayscale)相应,但并非限定于此。另外,第一转换器130及第二转换器150可以由一个以上的CNN构成,但并非限定于此。
图2是根据本发明一个实施例概略地显示用于将RGB格式的训练图像集变换成非RGB格式的训练图像集所需的第一转换器及第二转换器的图。
第一转换器130及第二转换器150可以包括编码层及解码层中至少一部分。编码层对输入的图像应用至少一个卷积运算,从而可以生成至少一个特征图,解码层对特征图应用至少一个反卷积运算,从而可以生成格式变换后的图像。因此,转换器可以将RGB格式的图像变换成非RGB格式或将非RGB格式的图像变换成RGB格式的图像。
第一鉴别器140及第二鉴别器160可以判断各自输入的图像是否为其格式已变换的格式的图像或未变换的格式的图像。具体而言,其特征在于,第一鉴别器140可以决定输入的图像是否为具有初级(primary)非RGB格式的图像或具有二次(secondary)非RGB格式的图像,所述初级非RGB格式为未经过从所述RGB格式变换的非RGB格式,所述二次非RGB格式为经过从所述RGB格式变换的非RGB格式,当为前者时可以输出1,当为后者时可以输出0。另外,其特征在于,第二鉴别器160可以决定输入的图像是否为具有初级RGB格式的图像或具有二次RGB格式的图像,所述初级RGB格式为未经过从所述非RGB格式变换的RGB格式,所述二次RGB格式为经过从所述非RGB格式变换的RGB格式,当为前者时可以输出1,当为后者时可以输出0。第一鉴别器140及第二鉴别器160可以由CNN构成,但并非限定于此。
另外,RGB客体探测器170可以由一个以上的CNN构成,具体而言,可以包括卷积层及FC层。卷积层对输入的图像应用至少一个卷积运算,从而可以生成特征图,FC层对特征图应用边界框回归,从而可以检测一个以上的客体。当然,RGB客体探测器170不限定于如上所述的构成。在一个实施例中,RGB客体探测器170可以是已使用具有RGB格式的训练图像集完成了学习的状态。
非RGB客体探测器180可以包括与RGB客体探测器170相同或类似的构成,因而省略具体说明。不过,在一个实施例中,不同于RGB客体探测器170,非RGB客体探测器180可以为未学习的状态。
以上根据本发明一个实施例,了解了执行用于将RGB格式的训练图像集变换成非RGB格式的训练图像集所需的学习方法的学习装置100的构成,以图3为参照,对本发明的学习方法进行具体考查。
图3是根据本发明一个实施例概略地显示用于将RGB格式的训练图像集变换成非RGB格式的训练图像集所需的学习装置的图。
参照图3,可以确认到第一转换器130、第一鉴别器140、第二转换器150、第二鉴别器160及RGB客体探测器170运转的概括性方式。大致存在两个流程,将其定义为正向流程101及逆向流程102。
正向流程101是如下流程:将具有RGB格式的至少一个第一图像,借助于第一转换器130而变换成具有非RGB格式的至少一个第二图像,借助于获得第二图像的第一鉴别器140,生成作为对第二图像判断结果的第(1_1)判断结果,第二图像借助于第二转换器150而变换成具有RGB格式的至少一个第三图像。生成第(1_1)判断结果的部分与将第二图像变换成第三图像的部分并列执行,或某一个先执行均无妨。
逆向流程102是如下流程:将具有非RGB格式的至少一个第四图像,借助于第二转换器150变换成具有RGB格式的至少一个第五图像,借助于获得第五图像的第二鉴别器160,生成作为对第五图像判断结果的第(2_1)判断结果,第五图像借助于第一转换器130而变换成具有非RGB格式的至少一个第六图像。生成第(2_1)判断结果的部分与将第五图像变换成第六图像的部分并列执行,或某一个先执行均无妨。此外,正向流程101及逆向流程102中某一个先执行均无妨,也可以并列执行。
之所以经过这种流程,是为了计算更好地学习第一转换器130、第一鉴别器140、第二转换器150及第二鉴别器160所需的一个以上的损失,为了具体对此进行说明,考查计算用于学习学习装置100各个构成要素所需的损失的过程。
首先,对将应用于第一转换器130及第二转换器150的至少一个转换器用第一损失进行考查。
G*=argmin(log(1-DG(G(I)))+γ|I-F(G(I))|+log(1-DF(F(X)))+β|X-G(F(X))|)
一个以上的所述损失中包含的转换器用第一损失根据所述公式而定义,I意味着所述第一图像,G(I)意味着所述第二图像,DG(G(I))意味着所述第
(1_1)结果,F(G(I))意味着所述第三图像,X意味着所述第四图像,F(X)意味着所述第五图像,DF(F(X))意味着所述第(2_1)结果,G(F(X))意味着所述第六图像,γ及β可以为用于分别调整各|I-F(G(I))|及|X-G(F(X))|的加权值所需的常数。
在所述转换器用第一损失中,在用作argmin函数的因数的项(term)中,log(1-DG(G(I)))是用于向欺骗第一鉴别器140的方向学习第一转换器130所需的项。即,argmin函数诱导全体值减小,因而log(1-DG(G(I)))项也减小,log函数为增加函数,因而诱导log内部的1-DG(G(I))减小,结果,DG(G(I))增大。第一鉴别器140针对格式未变换的图像输出1,因而本项用于使第一转换器130向欺骗第一鉴别器140的方向学习。
就作为第二项的γ|I-F(G(I))|而言,可以使变换的图像与原来图像类似,即,将第二图像形成得与第一图像类似。如果第一转换器130只单纯向欺骗第一鉴别器140的方向学习,则图像中包含的特征会无法保存,因而设置了使得与原本的差异减小的项。换言之,使得I-F(G(I)),即第一图像与第三图像的差异减小,其中,所谓差异,可以意味着第一图像内的各个值与第三图像内对应的各个值之间的不一致。由于第二项,在正向流程101中存在将第二图像变换成第三图像的部分。
第三项和第四项分别与第一项和第二项存在的理由相同,不同之处在于,第三项与第四项为了第二转换器150而使用。只有第二转换器150学习好,第一转换器130才能根据第二项学习好。第三项和第四项中使用的值,可以借助于逆向流程102获得。此外的第三项和第四项的具体事项与第一项及第二项大同小异,因而通过上述段落给出的内容,普通技术人员可以轻松类推,因而在此省略其说明。
其中,公式中包含的γ和β是用于分别调整各|I-F(G(I))|及|X-GFX的加权值的常数,如果过多反映第二项和第四项,则变换后的图像导出模糊,如果过少反映,则变换后的图像无法如实反映原本图像的内容。因此,程序员可以确认|I-F(G(I))|及|X-G(F(X))|的影响并适当地设置。
转换器用第一损失可以追加地包括客体探测损失。如果将其用公式表达,则如下。
G*=argmin(log(1-DG(G(I)))+γ|I-F(G(I))|+log(1-DF(F(X)))+β|X-G(F(X))|)+λ×OD
OD表示客体探测损失,λ表示用于调整客体探测损失的加权值所需的常数。
图4是根据本发明一个实施例显示计算用于将RGB格式的训练图像集变换成非RGB格式的训练图像集所需的客体探测损失的过程的图。
参照图4,客体探测损失可以借助于前述RGB客体探测器170而计算。具体而言,学习装置100使已学习的RGB客体探测器170,在所述第三图像中检测一个以上的客体,对在所述第三图像中检测到的所述客体的预测位置、大小、种类相关信息的至少一部分和与所述第一图像对应的至少一个GT所包含的所述客体的实际位置、大小、种类相关信息的至少一部分进行比较,从而计算所述客体探测损失。为了在图像格式变换之后也依然保持其包含的客体细节,这种客体探测损失可以包含于损失。前述的第二项也执行类似的作用,但这只是使得图像概括地类似,无法像客体探测损失那样可以选择性/优先地保存各个客体细节。因此,通过追加这种客体探测损失,可以极大提高第一转换器130的性能。关于作为用于调整客体探测损失加权值所需的常数λ,也可以由程序员以变换了格式的结果图像为参照而适当地调节。
以上对转换器用第一损失进行了考查,下面对计算鉴别器用损失的方式进行考查。
作为第一鉴别器140用损失的FD损失可以根据所述公式定义。此时,NR表示具有所述非RGB格式的任意图像,DG(NR)表示从所述第一鉴别器输出的决定具有所述非RGB格式的所述任意图像的第(1_2)结果,G(I)表示所述第二图像,DG(G(I))表示所述第(1_1)结果。Argmax诱导所述公式的值增大,使得DG(NR)输出1,DG(G(I))输出0。因此,第一鉴别器140可以准确判断输入图像的格式是否在之前经过了变换。在图4中,图示了只输入第二图像的情形,但并非只获得像第二图像一样变换了格式的图像,也可以获得具有非RGB格式的任意图像,区分变换了格式的图像与未变换的图像并学习。
作为第二鉴别器160用损失的SD损失可以根据所述公式定义。此时,R表示具有所述RGB格式的任意图像,DF(R)表示从所述第二鉴别器输出的决定所述任意图像的第(2_2)结果,F(X)表示所述第五图像,DF(F(X))表示所述第(2_1)结果。与第一鉴别器用FD损失一样,第二鉴别器160可以根据所述公式,准确判断输入的格式是否在之前经过了变换。第二鉴别器160也未在图4中图示,但可以获得具有RGB格式的任意图像并用于学习。
当计算了包括所述说明的转换器用第一损失、第一鉴别器用FD损失及第二鉴别器用SD损失的一个以上的损失,则学习装置100可以学习第一转换器130、第一鉴别器140、第二转换器150、第二鉴别器160的参数的至少一部分。
通过如上所述进行学习,第一转换器130可以在变换图像格式的同时,使其内部的内容保持与原本相同或类似。
学习过程如上所示,下面对学习完成后的测试过程进行考查。
作为参考,在后述说明中为了防止混同,在与训练流程相关的术语中添加了“训练用”字样的语句,在与测试流程相关的术语中添加了“测试用”字样的语句。
在如下状态下,测试装置可以获得具有RGB格式的至少一个测试图像:(1)学习装置100使第一转换器130,将具有RGB格式的至少一个第一训练图像变换成具有非RGB格式的至少一个第二训练图像,使第一鉴别器140,确认所述第二训练图像是否为具有初级(primary)非RGB格式的图像或具有二次(secondary)非RGB格式的图像,从而生成训练用第(1_1)结果,且其特征在于所述初级非RGB格式为未经过从所述RGB格式变换的非RGB格式,所述二次非RGB格式为经过从所述RGB格式变换的非RGB格式,并使第二转换器150,将所述第二训练图像变换成具有所述RGB格式的至少一个第三训练图像,(2)学习装置100使所述第二转换器150,将具有所述非RGB格式的至少一个所述第四训练图像变换成具有所述RGB格式的至少一个第五训练图像,使第二鉴别器160,确认所述第五训练图像是否为具有初级RGB格式的图像或具有二次RGB格式的图像,从而生成训练用第(2_1)结果,且其特征在于所述初级RGB格式为未经过从所述非RGB格式变换的RGB格式,所述二次RGB格式为经过从所述非RGB格式变换的RGB格式,并使所述第一转换器130,将所述第五训练图像变换成具有所述非RGB格式的至少一个第六训练图像,(3)学习装置100参照所述第一训练图像、所述第二训练图像、所述第三训练图像、所述第四训练图像、所述第五训练图像、所述第六训练图像、所述训练用第(1_1)结果及所述训练用第(2_1)结果中至少一部分,计算一个以上的损失,学习所述第一转换器130、所述第二转换器150、所述第一鉴别器140及所述第二鉴别器160的参数的至少一部分。
然后,测试装置可以使第一转换器130,变换成具有非RGB格式的至少一个结果图像。
如上所述经过测试过程,如果测试用图像变换成具有非RGB格式的结果图像,则所述结果图像可以用于检测具有非RGB格式的所述测试图像中的一个以上客体所需的非RGB客体探测器的学习。
本发明技术领域的普通技术人员可以理解,上面说明的图像,例如,诸如原本图像、原本标签及追加标签的图像数据的接收发送可以借助于学习装置及测试装置的通信部而实现,特征图和执行运算所需的数据可以借助于学习装置及测试装置的处理器(及/或存储器)而保有/保持,卷积运算、反卷积运算、损失值运算过程可以主要借助于学习装置及测试装置的处理器而执行,但并非本发明限定于此。
以上说明的本发明的实施例可以体现为可通过多样计算机构成要素而执行的程序命令的形态,记录于计算机可读记录介质。所述计算机可读记录介质可以单独或组合包括程序命令、数据文件、数据结构等。所述计算机可读记录介质中记录的程序命令可以是为本发明而特别设计、构成的,或者也可以是计算机软件领域从业人员公知并可使用的。在计算机可读记录介质的示例中,包括诸如硬盘、软盘及磁带的磁介质,诸如CD-ROM(只读光盘驱动器)、DVD(数字化视频光盘)的光记录介质,诸如软式光盘(floptical disk)的磁-光介质(magneto-optical media),及诸如只读存储器(ROM)、随机存储器(RAM)、快闪存储器等的为了存储及执行程序命令而特殊构成的硬件装置。在程序命令的示例中,不仅有借助于编译程序而制成的机器语言代码,还包括使用解释器等而能够借助于计算机运行的高级语言代码。所述硬件装置为了执行本发明的处理,可以构成为一个以上的软件模块而运转,反之亦然。
以上根据诸如具体构成要素等的特定事项和限定的实施例及附图,对本发明进行了说明,但这只是为了帮助更全面理解本发明而提供的,并非本发明限定于所述实施例,只要是本发明所属技术领域的技术人员,便可以从这种记载导出多样的修订及变形。
因此,本发明的思想不局限于所述说明的实施例而确定,后述权利要求书以及与该权利要求书等同地或等效地变形的所有内容均属于本发明的思想范畴。

Claims (12)

1.一种学习方法,所述学习方法用于利用循环生成对抗网络GAN将标注有正确信息的具有RGB格式的至少一个图像变换成标注有正确信息的具有非RGB格式的至少一个图像,所述学习方法的特征在于,包括:
(a)步骤,学习装置获得具有RGB格式的至少一个第一图像,并使第一转换器,将所述第一图像变换成具有非RGB格式的至少一个第二图像,使第一鉴别器,确认所述第二图像是否为具有初级非RGB格式的图像或具有二次非RGB格式的图像,从而生成第1_1结果,且其特征在于所述初级非RGB格式是未经过从所述RGB格式变换的非RGB格式,所述二次非RGB格式是经过从所述RGB格式变换的非RGB格式,并使第二转换器,将所述第二图像变换成具有所述RGB格式的至少一个第三图像;
(b)步骤,所述学习装置获得具有所述非RGB格式的至少一个第四图像,并使所述第二转换器,将所述第四图像变换成具有所述RGB格式的至少一个第五图像,使第二鉴别器,确认所述第五图像是否为具有初级RGB格式的图像或具有二次RGB格式的图像,从而生成第2_1结果,且其特征在于所述初级RGB格式是未经过从所述非RGB格式变换的RGB格式,所述二次RGB格式是经过从所述非RGB格式变换的RGB格式,并使所述第一转换器,将所述第五图像变换成具有所述非RGB格式的至少一个第六图像;及
(c)步骤,所述学习装置参照所述第一图像、所述第二图像、所述第三图像、所述第四图像、所述第五图像、所述第六图像、所述第1_1结果及所述第2_1结果中至少一部分,计算一个以上的损失,学习所述第一转换器、所述第二转换器、所述第一鉴别器及所述第二鉴别器的参数的至少一部分,其中,
所述(c)步骤,包括计算
G*
argmin(log(1-DG(G(I)))+γ|I-F(G(I))|+log(1-DF(F(X)))+
β|X-G(F(X))|)+λ×OD,
所述G*为所述一个以上的损失中包含的转换器用第一损失,I表示所述第一图像,G(I)表示所述第二图像,DG(G(I))表示所述第1_1结果,F(G(I))表示所述第三图像,X表示所述第四图像,F(X)表示所述第五图像,DF(F(X))表示所述第2_1结果,G(F(X))表示所述第六图像,γ及β为用于分别调整各|I-F(G(I))|及|X-G(F(X))|的加权值的常数,OD表示客体探测损失,λ为用于调整所述客体探测损失的加权值的常数,
所述客体探测损失是通过已学习的RGB客体探测器的计算而得到的,所述学习装置使所述RGB客体探测器,在所述第三图像中检测一个以上的客体,对在所述第三图像中检测的所述客体的预测位置、大小、种类相关信息的至少一部分和与所述第一图像对应的至少一个地面真值GT中包括的所述客体的实际位置、大小、种类相关信息的至少一部分进行比较,从而计算所述客体探测损失。
2.根据权利要求1所述的学习方法,其特征在于,
所述(c)步骤,包括计算
所述D* G为所述一个以上的损失中包含的所述第一鉴别器FD用损失,NR表示具有所述非RGB格式的任意图像,DG(NR)表示从所述第一鉴别器输出的决定具有所述非RGB格式的所述任意图像的第1_2结果,G(I)表示所述第二图像,DG(G(I))表示所述第(1_1结果。
3.根据权利要求1所述的学习方法,其特征在于,
所述(c)步骤,包括计算
所述D* F为所述一个以上的损失中包含的所述第二鉴别器SD用损失,R表示具有所述RGB格式的任意图像,DF(R)表示从所述第二鉴别器输出的决定具有所述RGB格式的所述任意图像的第2_2结果,F(X)表示所述第五图像,DF(F(X))表示所述第2_1结果。
4.根据权利要求1所述的学习方法,其特征在于,
所述第一转换器及所述第二转换器分别包括编码层及解码层的至少一部分。
5.一种测试方法,所述测试方法用于利用循环GAN将标注有正确信息的具有RGB格式的至少一个图像变换成标注有至少一个正确信息的具有非RGB格式的至少一个图像,所述测试方法的特征在于,包括:
(a)步骤,在经过如下步骤完成学习的状态下,测试装置获得具有所述RGB格式的至少一个测试图像:(1)步骤,学习装置获得具有RGB格式的至少一个第一图像,并使第一转换器,将所述第一图像变换成具有非RGB格式的至少一个第二图像,使第一鉴别器,确认所述第二图像是否为具有初级非RGB格式的图像或具有二次非RGB格式的图像,从而生成训练用第1_1结果,且其特征在于所述初级非RGB格式是未经过从所述RGB格式变换的非RGB格式,所述二次非RGB格式是经过从所述RGB格式变换的非RGB格式,并使第二转换器,将所述第二图像变换成具有所述RGB格式的至少一个第三图像;(2)步骤,所述学习装置获得具有所述非RGB格式的至少一个第四图像,并使所述第二转换器,将所述第四图像变换成具有所述RGB格式的至少一个第五图像,使第二鉴别器,确认所述第五图像是否为具有初级RGB格式的图像或具有二次RGB格式的图像,从而生成训练用第2_1结果,且其特征在于所述初级RGB格式是未经过从所述非RGB格式变换的RGB格式,所述二次RGB格式是经过从所述非RGB格式变换的RGB格式,并使所述第一转换器,将所述第五图像变换成具有所述非RGB格式的至少一个第六图像;及(3)步骤,所述学习装置参照所述第一图像、所述第二图像、所述第三图像、所述第四图像、所述第五图像、所述第六图像、所述训练用第1_1结果及所述训练用第2_1结果中至少一部分,计算一个以上的损失,学习所述第一转换器、所述第二转换器、所述第一鉴别器及所述第二鉴别器的参数的至少一部分;及
(b)步骤,所述测试装置使所述第一转换器,将所述测试图像变换成具有非RGB格式的至少一个结果图像,其中,
所述(3)步骤,包括计算
G*
argmin(log(1-DG(G(I)))+γ|I-F(G(I))|+log(1-DF(F(X)))+
β|X-G(F(X))|)+λ×OD,
所述G*为所述一个以上的损失中包含的转换器用第一损失,I表示所述第一图像,G(I)表示所述第二图像,DG(G(I))表示所述第1_1结果,F(G(I))表示所述第三图像,X表示所述第四图像,F(X)表示所述第五图像,DF(F(X))表示所述第2_1结果,G(F(X))表示所述第六图像,γ及β为用于分别调整各|I-F(G(I))|及|X-G(F(X))|的加权值的常数,OD表示客体探测损失,λ为用于调整所述客体探测损失的加权值的常数,
所述客体探测损失是通过已学习的RGB客体探测器的计算而得到的,所述学习装置使所述RGB客体探测器,在所述第三图像中检测一个以上的客体,对在所述第三图像中检测的所述客体的预测位置、大小、种类相关信息的至少一部分和与所述第一图像对应的至少一个地面真值GT中包括的所述客体的实际位置、大小、种类相关信息的至少一部分进行比较,从而计算所述客体探测损失。
6.根据权利要求5所述的测试方法,其特征在于,
所述结果图像用于检测具有非RGB格式的所述测试图像中的一个以上客体所需的非RGB客体探测器的学习。
7.一种学习装置,所述学习装置用于利用循环GAN将标注有正确信息的具有RGB格式的至少一个图像变换成标注有正确信息的具有非RGB格式的至少一个图像,所述学习装置的特征在于,包括:
存储指令的至少一个存储器;及
至少一个处理器,所述至少一个处理器构成为运行用于执行如下流程的所述指令:(I)流程,使第一转换器,将具有RGB格式的至少一个第一图像变换成具有非RGB格式的至少一个第二图像,使第一鉴别器,确认所述第二图像是否为具有初级非RGB格式的图像或具有二次非RGB格式的图像,从而生成第1_1结果,且其特征在于所述初级非RGB格式是未经过从所述RGB格式变换的非RGB格式,所述二次非RGB格式是经过从所述RGB格式变换的非RGB格式,并使第二转换器,将所述第二图像变换成具有所述RGB格式的至少一个第三图像;(II)流程,使所述第二转换器,将具有所述非RGB格式的至少一个第四图像变换成具有所述RGB格式的至少一个第五图像,使第二鉴别器,确认所述第五图像是否为具有初级RGB格式的图像或具有二次RGB格式的图像,从而生成第2_1结果,且其特征在于所述初级RGB格式是未经过从所述非RGB格式变换的RGB格式,所述二次RGB格式是经过从所述非RGB格式变换的RGB格式,并使所述第一转换器,将所述第五图像变换成具有所述非RGB格式的至少一个第六图像;及(III)流程,参照所述第一图像、所述第二图像、所述第三图像、所述第四图像、所述第五图像、所述第六图像、所述第1_1结果及所述第2_1结果中至少一部分,计算一个以上的损失,学习所述第一转换器、所述第二转换器、所述第一鉴别器及所述第二鉴别器的参数的至少一部分,其中,
所述(III)流程,包括计算
G*
argmin(log(1-DG(G(I)))+γ|I-F(G(I))|+log(1-DF(F(X)))+
β|X-G(F(X))|)+λ×OD,
所述G*为所述一个以上的损失中包含的转换器用第一损失,I表示所述第一图像,G(I)表示所述第二图像,DG(G(I))表示所述第1_1结果,F(G(I))表示所述第三图像,X表示所述第四图像,F(X)表示所述第五图像,DF(F(X))表示所述第2_1结果,G(F(X))表示所述第六图像,γ及β为用于分别调整各|I-F(G(I))|及|X-G(F(X))|的加权值的常数,OD表示客体探测损失,λ为用于调整所述客体探测损失的加权值的常数,
所述客体探测损失是通过已学习的RGB客体探测器的计算而得到的,所述处理器使所述RGB客体探测器,在所述第三图像中检测一个以上的客体,对在所述第三图像中检测的所述客体的预测位置、大小、种类相关信息的至少一部分和与所述第一图像对应的至少一个地面真值GT中包括的所述客体的实际位置、大小、种类相关信息的至少一部分进行比较,从而计算所述客体探测损失。
8.根据权利要求7所述的学习装置,其特征在于,
所述(III)流程,包括计算
所述D* G为所述一个以上的损失中包含的所述第一鉴别器FD用损失,NR表示具有所述非RGB格式的任意图像,DG(NR)表示从所述第一鉴别器输出的决定具有所述非RGB格式的所述任意图像的第1_2结果,G(I)表示所述第二图像,D(G(I))表示所述第1_1结果。
9.根据权利要求7所述的学习装置,其特征在于,
所述(III)流程,包括计算
所述D* F为所述一个以上的损失中包含的所述第二鉴别器SD用损失,R表示具有所述RGB格式的任意图像,DF(R)表示从所述第二鉴别器输出的决定具有所述RGB格式的所述任意图像的第2_2结果,F(X)表示所述第五图像,DF(F(X))表示所述第2_1结果。
10.根据权利要求7所述的学习装置,其特征在于,
所述第一转换器及所述第二转换器分别包括编码层及解码层的至少一部分。
11.一种测试装置,所述测试装置用于利用循环GAN将标注有正确信息的具有RGB格式的至少一个图像变换成标注有正确信息的具有非RGB格式的至少一个图像,所述测试装置的特征在于,包括:
存储指令的至少一个存储器;及
至少一个处理器,所述至少一个处理器构成为运行用于在经过了学习的状态下执行使所述第一转换器将具有RGB格式的至少一个测试图像变换成具有非RGB格式的至少一个结果图像的流程,所述学习是指:(1)使第一转换器,将具有RGB格式的至少一个第一训练图像变换成具有非RGB格式的至少一个第二训练图像,使第一鉴别器,确认所述第二训练图像是否为具有初级非RGB格式的图像或具有二次非RGB格式的图像,从而生成训练用第1_1结果,且其特征在于所述初级非RGB格式是未经过从所述RGB格式变换的非RGB格式,所述二次非RGB格式是经过从所述RGB格式变换的非RGB格式,并使第二转换器,将所述第二训练图像变换成具有所述RGB格式的至少一个第三训练图像;(2)使所述第二转换器,将具有所述非RGB格式的至少一个所述第四训练图像变换具有所述RGB格式的至少一个第五训练图像,使第二鉴别器,确认所述第五训练图像是否为具有初级RGB格式的图像或具有二次RGB格式的图像,从而生成训练用第2_1结果,且其特征在于所述初级RGB格式是未经过从所述非RGB格式变换的RGB格式,所述二次RGB格式是经过从所述非RGB格式变换的RGB格式,并使所述第一转换器,将所述第五训练图像变换成具有所述非RGB格式的至少一个第六训练图像;(3)参照所述第一训练图像、所述第二训练图像、所述第三训练图像、所述第四训练图像、所述第五训练图像、所述第六训练图像、所述训练用第1_1结果及所述训练用第2_1结果中至少一部分,计算一个以上的损失,学习所述第一转换器、所述第二转换器、所述第一鉴别器及所述第二鉴别器的参数的至少一部分,其中,
所述(3),包括计算
G*
argmin(log(1-DG(G(I)))+γ|I-F(G(I))|+log(1-DF(F(X)))+
β|X-G(F(X))|)+λ×OD,
所述G*为所述一个以上的损失中包含的转换器用第一损失,I表示所述第一图像,G(I)表示所述第二图像,DG(G(I))表示所述第1_1结果,F(G(I))表示所述第三图像,X表示所述第四图像,F(X)表示所述第五图像,DF(F(X))表示所述第2_1结果,G(F(X))表示所述第六图像,γ及β为用于分别调整各|I-F(G(I))|及|X-G(F(X))|的加权值的常数,OD表示客体探测损失,λ为用于调整所述客体探测损失的加权值的常数,
所述客体探测损失是通过已学习的RGB客体探测器的计算而得到的,所述学习装置使所述RGB客体探测器,在所述第三图像中检测一个以上的客体,对在所述第三图像中检测的所述客体的预测位置、大小、种类相关信息的至少一部分和与所述第一图像对应的至少一个地面真值GT中包括的所述客体的实际位置、大小、种类相关信息的至少一部分进行比较,从而计算所述客体探测损失。
12.根据权利要求11所述的测试装置,其特征在于,
所述结果图像用于检测具有非RGB格式的所述测试图像中的一个以上客体所需的非RGB客体探测器的学习。
CN202010059550.6A 2019-01-31 2020-01-19 对具有非rgb格式的图像客体进行探测学习的方法和装置 Active CN111507887B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US16/263,275 US10395392B1 (en) 2019-01-31 2019-01-31 Learning method and learning device for strategic transforming RGB training image sets into non-RGB training image sets, to be used for learning object detection on objects of images in non-RGB format, by using cycle GAN, resulting in significantly reducing computational load and reusing data
US16/263275 2019-01-31

Publications (2)

Publication Number Publication Date
CN111507887A CN111507887A (zh) 2020-08-07
CN111507887B true CN111507887B (zh) 2023-08-22

Family

ID=67700537

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010059550.6A Active CN111507887B (zh) 2019-01-31 2020-01-19 对具有非rgb格式的图像客体进行探测学习的方法和装置

Country Status (5)

Country Link
US (1) US10395392B1 (zh)
EP (1) EP3690737B1 (zh)
JP (1) JP6870868B2 (zh)
KR (1) KR102372685B1 (zh)
CN (1) CN111507887B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102403494B1 (ko) * 2017-04-27 2022-05-27 에스케이텔레콤 주식회사 생성적 대립 네트워크에 기반한 도메인 간 관계를 학습하는 방법
CN111476866B (zh) * 2020-04-09 2024-03-12 咪咕文化科技有限公司 视频优化与播放方法、系统、电子设备及存储介质
US20210374947A1 (en) * 2020-05-26 2021-12-02 Nvidia Corporation Contextual image translation using neural networks
US20220151567A1 (en) * 2020-11-17 2022-05-19 Siemens Healthcare Gmbh Joint assessment of myocardial strain and intracardiac blood flow
CN112381898B (zh) * 2020-12-07 2024-03-01 苏州律点信息科技有限公司 一种影像特征的提取方法、装置、存储介质及电子设备
CN112396547B (zh) * 2021-01-21 2021-04-20 平安科技(深圳)有限公司 基于无监督学习的课程推荐方法、装置、设备及介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU5241796A (en) * 1995-05-22 1996-12-05 Canon Kabushiki Kaisha Image detection system
CN107273910A (zh) * 2016-04-01 2017-10-20 斯特拉德视觉公司 过滤器学习方法及利用过滤器检测测试图像中的对象的方法、学习装置及对象识别支持装置

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6865291B1 (en) * 1996-06-24 2005-03-08 Andrew Michael Zador Method apparatus and system for compressing data that wavelet decomposes by color plane and then divides by magnitude range non-dc terms between a scalar quantizer and a vector quantizer
US10614287B2 (en) * 2014-06-16 2020-04-07 Siemens Healthcare Diagnostics Inc. Virtual staining of cells in digital holographic microscopy images using general adversarial networks
WO2019019199A1 (en) * 2017-07-28 2019-01-31 Shenzhen United Imaging Healthcare Co., Ltd. SYSTEM AND METHOD FOR IMAGE CONVERSION
US10726304B2 (en) * 2017-09-08 2020-07-28 Ford Global Technologies, Llc Refining synthetic data with a generative adversarial network using auxiliary inputs

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU5241796A (en) * 1995-05-22 1996-12-05 Canon Kabushiki Kaisha Image detection system
CN107273910A (zh) * 2016-04-01 2017-10-20 斯特拉德视觉公司 过滤器学习方法及利用过滤器检测测试图像中的对象的方法、学习装置及对象识别支持装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于深度学习的视频预测研究综述;莫凌飞;蒋红亮;李煊鹏;;智能系统学报(第01期);全文 *

Also Published As

Publication number Publication date
JP6870868B2 (ja) 2021-05-12
US10395392B1 (en) 2019-08-27
EP3690737B1 (en) 2022-08-17
KR20200095332A (ko) 2020-08-10
JP2020126606A (ja) 2020-08-20
EP3690737A1 (en) 2020-08-05
KR102372685B1 (ko) 2022-03-10
CN111507887A (zh) 2020-08-07

Similar Documents

Publication Publication Date Title
CN111507887B (zh) 对具有非rgb格式的图像客体进行探测学习的方法和装置
CN111507927B (zh) 在神经网络中统合图像及点云图的方法及装置
US10776673B2 (en) Learning method and learning device for sensor fusion to integrate information acquired by radar capable of distance estimation and information acquired by camera to thereby improve neural network for supporting autonomous driving, and testing method and testing device using the same
US20200250442A1 (en) Method and device for attention-driven resource allocation by using avm and reinforcement learning to thereby achieve safety of autonomous driving
US10692002B1 (en) Learning method and learning device of pedestrian detector for robust surveillance based on image analysis by using GAN and testing method and testing device using the same
US10373027B1 (en) Method for acquiring sample images for inspecting label among auto-labeled images to be used for learning of neural network and sample image acquiring device using the same
US10509987B1 (en) Learning method and learning device for object detector based on reconfigurable network for optimizing customers' requirements such as key performance index using target object estimating network and target object merging network, and testing method and testing device using the same
US10579907B1 (en) Method for automatically evaluating labeling reliability of training images for use in deep learning network to analyze images, and reliability-evaluating device using the same
EP3686774B1 (en) Learning method and learning device for improving segmentation performance in road obstacle detection required to satisfy level 4 and level 5 of autonomous vehicles using laplacian pyramid network and testing method and testing device using the same
US10373023B1 (en) Learning method and learning device for runtime input transformation of real image on real world into virtual image on virtual world, to be used for object detection on real images, by using cycle GAN capable of being applied to domain adaptation
EP3686779A1 (en) Method and device for attention-based lane detection without post-processing by using lane mask and testing method and testing device using the same
US10402692B1 (en) Learning method and learning device for fluctuation-robust object detector based on CNN using target object estimating network adaptable to customers' requirements such as key performance index, and testing device using the same
US10410352B1 (en) Learning method and learning device for improving segmentation performance to be used for detecting events including pedestrian event, vehicle event, falling event and fallen event using edge loss and test method and test device using the same
EP3686780A1 (en) Learning method and learning device for attention-driven image segmentation by using at least one adaptive loss weight map to be used for updating hd maps required to satisfy level 4 of autonomous vehicles and testing method and testing device using the same
US11113574B1 (en) Methods for performing self-supervised learning of deep-learning based detection network by using deep Q-network and devices using the same
US10423860B1 (en) Learning method and learning device for object detector based on CNN to be used for multi-camera or surround view monitoring using image concatenation and target object merging network, and testing method and testing device using the same
US10970598B1 (en) Learning method and learning device for training an object detection network by using attention maps and testing method and testing device using the same
US10387752B1 (en) Learning method and learning device for object detector with hardware optimization based on CNN for detection at distance or military purpose using image concatenation, and testing method and testing device using the same
US10890916B2 (en) Location-specific algorithm selection for optimized autonomous driving
US10380724B1 (en) Learning method and learning device for reducing distortion occurred in warped image generated in process of stabilizing jittered image by using GAN to enhance fault tolerance and fluctuation robustness in extreme situations
US20200250499A1 (en) Method for integrating driving images acquired from vehicles performing cooperative driving and driving image integrating device using same
US11822621B2 (en) Systems and methods for training a machine-learning-based monocular depth estimator
CN111488786B (zh) 基于cnn的监视用客体检测器的方法及装置
EP3686810A1 (en) Method and device for online batch normalization, on-device learning, and continual learning applicable to mobile devices or iot devices additionally referring to one or more previous batches to be used for military purpose, drone or robot, and testing method and testing device using the same
CN111507161B (zh) 利用合并网络进行异质传感器融合的方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant