CN113033566B - 模型训练方法、识别方法、设备、存储介质及程序产品 - Google Patents

模型训练方法、识别方法、设备、存储介质及程序产品 Download PDF

Info

Publication number
CN113033566B
CN113033566B CN202110297030.3A CN202110297030A CN113033566B CN 113033566 B CN113033566 B CN 113033566B CN 202110297030 A CN202110297030 A CN 202110297030A CN 113033566 B CN113033566 B CN 113033566B
Authority
CN
China
Prior art keywords
deformation
model
starting point
deformed
picture
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110297030.3A
Other languages
English (en)
Other versions
CN113033566A (zh
Inventor
林天威
何栋梁
李甫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN202110297030.3A priority Critical patent/CN113033566B/zh
Publication of CN113033566A publication Critical patent/CN113033566A/zh
Priority to EP21194741.1A priority patent/EP3933708A3/en
Priority to US17/468,848 priority patent/US20210406579A1/en
Application granted granted Critical
Publication of CN113033566B publication Critical patent/CN113033566B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • G06V10/267Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06F18/2155Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the incorporation of unlabelled data, e.g. multiple instance learning [MIL], semi-supervised techniques using expectation-maximisation [EM] or naïve labelling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/75Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
    • G06V10/754Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries involving a deformation of the sample pattern or of the reference pattern; Elastic matching

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Multimedia (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

本公开提供一种模型训练方法、识别方法、设备、存储介质及程序产品,涉及计算机视觉技术、深度学习技术。本申请提供的方案中,通过对不具有标签的第一训练图片本身变形的方式对图片进行变形,并利用第一模型对变形前的图片进行识别得到第一无监督识别结果,对第二模型对变形后的图片进行识别得到第二无监督识别结果,并对第一模型的第一无监督识别结果进行变形处理,从而可以根据第二无监督识别结果和变形的识别结果构建一致性损失函数,通过这种方式,既能够增强一致性损失函数的约束效果,又能够避免破坏训练用的图片的场景语义信息。

Description

模型训练方法、识别方法、设备、存储介质及程序产品
技术领域
本申请涉及人工智能领域,具体涉及计算机视觉技术、深度学习技术,尤其涉及一种模型训练方法、识别方法、设备、存储介质及程序产品。
背景技术
语义分割的目的是将图片中的物体按照其形状分割出来,并进行分类。语义分割算法可以广泛应用于图像理解的各个应用场景中。
现有技术中存在用于训练语义分割模型的半监督的训练方式。半监督的训练方式是利用有标签的数据以及没有标签的数据对模型进行训练的方式。为了提高模型的训练效果,通常还会队对训练用的数据添加扰动。比如,将两张不同的图片按照预设的方式进行混合,还可以将这两张图片的识别结果进行混合。
但是,这种图像间的混合方法会导致严重的场景语义信息破坏,从而在一定程度上伤害语义分割模型的效果。
发明内容
本申请提供了一种模型训练方法、识别方法、设备、存储介质及程序产品,以解决现有技术中对模型进行训练时,对图像进行混合的方式会破坏图像中的场景语义信息的问题。
根据本申请的第一方面,提供了一种语义分割模型的训练方法,包括:
获取第一训练图片、变形图片以及第二训练图片的有监督识别结果所对应的有监督损失函数,其中,所述变形图片是对所述第一训练图片进行变形所得到的图片;
将所述第一训练图片输入至第一模型,得到第一无监督识别结果,并将所述变形图片输入至第二模型,得到第二无监督识别结果;其中,所述第一模型与所述第二模型的结构相同;
对所述第一无监督识别结果进行变形处理得到加扰识别结果,并根据所述第二无监督识别结果、所述加扰识别结果确定一致性损失函数;
根据所述一致性损失函数和所述有监督损失函数更新所述第二模型中的参数,更新后的所述第二模型用于对图片进行语义分割。
根据本申请的第二方面,提供了一种图像识别方法,包括:
获取待识别图像,将所述待识别图像输入预设的语义分割模型中,得到并输出所述待识别图像的识别结果;
其中,所述语义分割模型为通过如第一方面所述的方法训练得到的模型。
根据本申请的第三方面,提供了一种语义分割模型的训练装置,包括:
获取单元,用于获取第一训练图片、变形图片以及第二训练图片的有监督识别结果所对应的有监督损失函数,其中,所述变形图片是对所述第一训练图片进行变形所得到的图片;
识别单元,用于将所述第一训练图片输入至第一模型,得到第一无监督识别结果,并将所述变形图片输入至第二模型,得到第二无监督识别结果;其中,所述第一模型与所述第二模型的结构相同;
加扰单元,用于对所述第一无监督识别结果进行变形处理得到加扰识别结果;
函数构建单元,用于根据所述第二无监督识别结果、所述加扰识别结果确定一致性损失函数;
更新单元,用于根据所述一致性损失函数和所述有监督损失函数更新所述第二模型中的参数,更新后的所述第二模型用于对图片进行语义分割。
根据本申请的第四方面,提供了一种图像识别装置,包括:
获取单元,用于获取待识别图像;
识别单元,用于将所述待识别图像输入预设的语义分割模型中,得到并输出所述待识别图像的识别结果;
其中,所述语义分割模型为通过如第三方面所述的装置训练得到的模型。
根据本申请的第五方面,提供了一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如第一方面或第二方面所述的方法。
根据本申请的第六方面,提供了一种计算机程序产品,所述计算机程序产品包括:计算机程序,所述计算机程序存储在可读存储介质中,电子设备的至少一个处理器可以从所述可读存储介质读取所述计算机程序,所述至少一个处理器执行所述计算机程序使得电子设备执行第一方面或第二方面所述的方法。
根据本申请的第七方面,提供了一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现第一方面或第二方面所述的方法。
本申请提供的模型训练方法、识别方法、设备、存储介质及程序产品,包括:获取第一训练图片、变形图片以及第二训练图片的有监督识别结果所对应的有监督损失函数,其中,变形图片是对第一训练图片本身进行变形所得到的图片;将第一训练图片输入至第一模型,得到第一无监督识别结果,并将变形图片输入至第二模型,得到第二无监督识别结果;其中,第一模型与第二模型的结构相同;对第一无监督识别结果进行变形处理得到变形识别结果,并根据第二无监督识别结果、变形识别结果确定一致性损失函数;根据一致性损失函数和有监督损失函数更新第二模型中的参数,更新后的第二模型用于对图片进行语义分割。本申请提供的方案中,通过对不具有标签的第一训练图片本身变形的方式对图片进行变形,并利用第一模型对变形前的图片进行识别得到第一无监督识别结果,对第二模型对变形后的图片进行识别得到第二无监督识别结果,并对第一模型的第一无监督识别结果进行变形处理,从而可以根据第二无监督识别结果和变形的识别结果构建一致性损失函数,通过这种方式,既能够增强一致性损失函数的约束效果,又能够避免破坏训练用的图片的场景语义信息。
应当理解,本部分所描述的内容并非旨在标识本申请的实施例的关键或重要特征,也不用于限制本申请的范围。本申请的其它特征将通过以下的说明书而变得容易理解。
附图说明
附图用于更好地理解本方案,不构成对本申请的限定。其中:
图1为本申请一示例性实施例示出的应用场景图;
图2为本申请一示例性实施例示出的图片混合示意图;
图3为本申请一示例性实施例示出的模型结构图;
图4为本申请一示例性实施例示出的语义分割模型的训练方法的流程示意图;
图5为本申请一示例性实施例示出的语义分割模型的训练流程图;
图6为本申请一示例性实施例示出的语义分割模型的训练方法的流程示意图;
图7为本申请一示例性实施例示出的变形起点、变形终点的示意图;
图8为本申请一示例性实施例示出的待变形数据的变形示意图;
图9为本申请一示例性实施例示出的图像识别方法的流程示意图;
图10为本申请一示例性实施例示出的语义分割模型的训练装置的结构示意图;
图11为本申请另一示例性实施例示出的语义分割模型的训练装置的结构示意图;
图12为本申请一示例性实施例示出的图像识别装置的结构示意图;
图13是用来实现本申请实施例示出的电子设备的框图。
具体实施方式
以下结合附图对本申请的示范性实施例做出说明,其中包括本申请实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本申请的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
目前,存在一种半监督学习方式,这种学习方式中设置有学生网络和老师网络。老师网络与学生网络的结构相同,在训练过程构建损失函数,并利用构建的损失函数对学生网络中的权重进行更新,还可以根据学生网络中的权重值对老师网络中的权重进行更新。
其中,可以利用具有标签的样本数据,以及不具有标签的样本数据对模型进行训练。
在训练过程中包含两种训练损失函数,第一种是有监督损失,用于约束有标签的数据对模型进行训练的过程。具体为将有标签数据输入学生网络中,得到识别结果,再基于识别结果、该有标签数据的标签构建损失函数。
另外一种是一致性损失,约束的是学生网络与老师网络的输出结果的一致性,用于约束无标签的数据对模型进行训练的过程。具体可以将无标签数据分别输入学生网络和老师网络,并分别得到识别结果,再基于这两个网络的识别结果构建一致性损失函数。
为了增强一致性损失函数的作用,通常还会采用一些数据扰动方法,比如加噪声等。具体可以将两张不同的图片按照一定的方式进行混合。约束条件为混合后的图片经过学生网络的输出,与两张原始图片经过老师网络的输出再混合后的结果一致。
图1为本申请一示例性实施例示出的应用场景图。
如图1所示,设置有学生网络11、老师网络12。
可以将第一原始图片P1和第二原始图片P2混合,生成混合图片P12,将混合图片P12传输到学生网络11中,从而得到学生网络11的学生识别结果Rs。
还可以将第一原始图片P1和第二原始图片P2输入老师网络12,得到第一原始图片P1的第一老师识别结果Rt1、第二原始图片P2的第二老师识别结果Rt2。
将第一老师识别结果Rt1、第二老师识别结果Rt2进行混合,得到混合结果Rt12。可以比对学生识别结果Rs、混合结果Rt12,并基于比对结果更新学生网络11中权重参数,并基于学生网络11中权重参数更新老师网络12中的权重参数。
图2为本申请一示例性实施例示出的图片混合示意图。
如图2所示,比如存在第一原始图片P1,以及第二原始图片P2,可以对这两个原始图片进行混合,生成混合图片P12。
但是,这种图像间的混合方法会导致严重的场景语义信息破坏,利用这样的混合图片对模型进行训练时,会影响训练效果。
为了解决上述技术问题,本申请提供的方案中,通过对原始图片本身变形的方式对图片进行加扰,从而既能够增强一致性损失函数的约束效果,又能够避免破坏训练用的图片的场景语义信息。
本申请提供一种模型训练方法、识别方法、设备、存储介质及程序产品,应用于人工智能技术,具体涉及计算机视觉技术、深度学习技术,以解决现有技术中对模型进行训练时,对图像进行混合的方式会破坏图像中的场景语义信息的问题。
图3为本申请一示例性实施例示出的模型结构图。
如图3所示,本申请提供的方法中,可以预先搭建待训练模型,具体可以包括第一模型31,还可以包括第二模型32。第一模型31和第二模型32的结构可以相同,其中的权重参数可以不同。
一种实施方式中,可以搭建待训练模型,可以复制该模型,从而得到第一模型31和第二模型32。
其中,第一模型31可以是学生网络,第二模型32可以是老师网络。可以利用样本图片对第一模型31、第二模型32进行训练,得到语义分割模型。比如,可以将训练完毕的第一模型31或者第二模型32,作为语义分割模型。
图4为本申请一示例性实施例示出的语义分割模型的训练方法的流程示意图。
如图4所示,本申请提供的语义分割模型的训练方法,包括:
步骤401,获取第一训练图片、变形图片以及第二训练图片的有监督识别结果所对应的有监督损失函数,其中,变形图片是对第一训练图片本身进行变形所得到的图片。
具体的,本申请提供的语义分割模型的训练方法可以由具备计算能力的电子设备执行,比如,可以是计算机。
进一步的,可以设置用于训练模型的样本数据。样本数据中可以包括第一训练图片,第一训练图片为不具有标签的图片。样本数据中还可以包括第二训练图片,第二训练图片是具有标签的图片。
实际应用时,电子设备可以利用带有标签的第二训练图片,以及不带标签的第一训练图片,对第一模型和第二模型进行训练。
其中,电子设备在对模型进行训练时,可以获取第一训练图片,以及第二训练图片及其标签,进而对模型进行训练。
具体的,电子设备可以将获取的第二训练图片输入第一模型,得到该第二训练图片的有监督识别结果。再基于得到的第二训练图片的有监督识别结果、该第二训练图片的标签,构建有监督损失函数。
进一步的,可以预先设置用于对图片本身进行变形的预设变形方式,针对每个第一训练图片,电子设备可以基于预设变形方式对第一训练图片进行变形处理,从而得到该第一训练图片的变形图片。通过对第一训练图片本身进行变形的方式,能够得到加扰且不会破坏图片中场景语义信息的变形图片。
实际应用时,电子设备可以获取第一训练图片,并对其进行变形处理,还可以获取第二训练图片,并通过第一模型对第二训练图片进行处理,得到有监督损失函数。
步骤402,将第一训练图片输入至第一模型,得到第一无监督识别结果,并将变形图片输入至第二模型,得到第二无监督识别结果;其中,第一模型与第二模型的结构相同。
在训练过程中,电子设备可以获取第一训练图片,并将获取的第一训练图片输入到第一模型中,得到第一无监督识别结果。
实际应用时,每次训练过程电子设备可以获取多个第一训练图片。比如可以预先设置训练数据的数量n,那么在每次训练时,都可以获取n个第一训练图片,电子设备可以利用第一模型识别各个第一训练图片的第一无监督识别结果。
第一模型中包括权重参数,电子设备可以基于第一模型中的权重参数对第一训练图片进行处理,从而得到第一无监督识别结果。比如,若第一模型为神经网络结构,则电子设备可以基于第一模型中的权重参数对第一训练图片进行卷积处理,提取图片中的特征信息,进而基于图片中的特征信息对图片中的各个像素点进行分类,得到第一无监督识别结果。
实际应用时,针对每个第一训练图片,电子设备都可以确定出对应的第一无监督识别结果。
具体的,电子设备还可以将变形图片输入第二模型中,利用第二模型对变形图片进行识别,可以得到第二无监督识别结果。
针对每个第一训练图片,都可以生成对应的变形图片,进而可以利用第二模型对每个第一训练图片的变形图片进行处理,得到第二无监督识别结果。
第二模型中包括权重参数,电子设备可以基于第二模型中的权重参数对变形图片进行处理,从而得到第二无监督识别结果。比如,若第二模型为神经网络结构,则电子设备可以基于第二模型中的权重参数对变形图片进行卷积处理,提取变形图片中的特征信息,进而基于变形图片中的特征信息对变形图片中的各个像素点进行分类,得到第二无监督识别结果。
其中,第一模型与第二模型的结构相同。
步骤403,对第一无监督识别结果进行变形处理得到变形识别结果,并根据第二无监督识别结果、变形识别结果确定一致性损失函数。
为了保证第一模型与第二模型的输出结果稳定,需要保证第一模型与第二模型输出的结果尽量保持一致。因此,在训练过程中设置有一致性损失函数。可以将图片分别输入第一模型和第二模型,得到两个识别结果,再根据这两个识别结果构建一致性损失函数,以提高第一模型与第二模型的一致性。
同时,为了提高一致性损失函数的约束效果,还可以对训练用的第一训练图片本身变形得到变形图片,从而通过变形的方式约束第一模型与第二模型的一致性。
其中,第二无监督识别结果是第二模型对变形图片进行识别得到的结果。为了比对第一模型、第二模型的识别结果,可以对第一模型的第一无监督识别结果进行变形得到变形结果,从而使得该变形结果与第二模型的识别结果具有可比性。
具体的,可以采用相同的预设变形方式,对第一训练图片和第一无监督识别结果进行变形处理。
可以预先设置生成一致性损失函数的方式,电子设备具体可以根据第二无监督识别结果、变形识别结果确定一致性损失函数。
步骤404,根据一致性损失函数和有监督损失函数更新第二模型中的参数,更新后的第二模型用于对图片进行语义分割。
进一步的,电子设备可以根据确定的一致性损失函数,以及获取的有监督损失函数构建总损失函数,进而根据该总损失函数进行梯度回传,以更新第二模型中的参数。
实际应用时,可以根据一致性损失函数和有监督损失函数更新第一模型中的参数,再基于第一模型更新后的参数,对第二模型的参数进行更新。
实际应用时,可以将一致性损失函数和有监督损失函数相加,得到总损失函数。
其中,具体可以根据一致性损失函数和有监督损失函数更新第一模型的参数,再根据第一模型的参数更新第二模型的参数。在训练过程中,可以通过对每次第一模型中的参数进行移动平均处理,得到第二模型中的参数。
具体的,还可以根据第一模型中更新后的参数,以及第二模型中当前的参数,对第二模型中的参数进行更新。
其中,通过多次训练,可以使第一模型和第二模型的识别结果越来越准确。当确定的一致性损失函数和有监督损失函数符合预设要后,可以将更新后的第二模型作为语义分割模型。
该语义分割模型用于对图像进行语音分割处理,得到图像中的待识别物体。
图5为本申请一示例性实施例示出的语义分割模型的训练流程图。
如图5所示,本申请提供的方案中,设置有第一模型51、第二模型52。
电子设备可以获取第一训练图片P1,与各个第一训练图片P1对应的变形图片Q1。电子设备还可以获取第二训练图片的有监督识别结果对应的有监督损失函数L1。
一种实施方式中,电子设备可以获取第二训练图片P2及其对应的标签L,将第二训练图片P2输入到第一模型中,得到P2的有监督识别结果RL。电子设备可以根据第二训练图片的标签L、有监督识别结果RL,构建上述有监督损失函数L1。
具体的,电子设备还可以将获取的第一训练图片P1输入到第一模型51中,得到第一无监督识别结果RU1。电子设备还将第一训练图片P1对应的变形图片Q1输入第二模型,得到第二无监督识别结果RU2。
进一步的,电子设备还可以对第一无监督识别结果RU1进行变形处理,得到变形识别结果RQ1,进而使得电子设备可以根据变形识别结果RQ1和第二无监督识别结果RU2构建一致性损失函数L2。
实际应用时,电子设备可以根据有监督损失函数L1、一致性损失函数L2更新第一模型51中的参数。再根据第一模型51中更新后的参数,对第二模型52的参数进行更新。
本申请提供的语义分割模型的训练方法,包括:获取第一训练图片、变形图片以及第二训练图片的有监督识别结果所对应的有监督损失函数,其中,变形图片是对第一训练图片本身进行变形所得到的图片;将第一训练图片输入至第一模型,得到第一无监督识别结果,并将变形图片输入至第二模型,得到第二无监督识别结果;其中,第一模型与第二模型的结构相同;对第一无监督识别结果进行变形处理得到变形识别结果,并根据第二无监督识别结果、变形识别结果确定一致性损失函数;根据一致性损失函数和有监督损失函数更新第二模型中的参数,更新后的第二模型用于对图片进行语义分割。本申请提供的语义分割模型的训练方法中,通过对不具有标签的第一训练图片本身变形的方式对图片进行变形,并利用第一模型对变形前的图片进行识别得到第一无监督识别结果,对第二模型对变形后的图片进行识别得到第二无监督识别结果,并对第一模型的第一无监督识别结果进行变形处理,从而可以根据第二无监督识别结果和变形的识别结果构建一致性损失函数,通过这种方式,既能够增强一致性损失函数的约束效果,又能够避免破坏训练用的图片的场景语义信息。
图6为本申请一示例性实施例示出的语义分割模型的训练方法的流程示意图。
如图6所示,本申请提供的语义分割模型的训练方法,包括:
步骤601,获取第一训练图片,将第一训练图片输入至第一模型,得到第一无监督识别结果。
步骤601与步骤401中获取第一训练图片的实现方式类似,与步骤402中得到第一无监督识别结果的实现方式类似,不再赘述。
步骤602,基于预设变形方式对第一训练图片本身进行变形处理得到变形图片。
其中,可以预先设置变形方式,使得电子设备可以基于该预设变形方式对第一训练图片本身进行变形处理,得到与第一训练图片对应的变形处理。
具体的,本申请提供的方案中,通过对第一训练图片本身进行变形处理,从而达到对图片加扰的目的,这种方式不会破坏第一训练图片中场景语义信息,进而使用加扰后的图片对模型进行训练能够得到的识别结果准确的模型。
步骤603,将变形图片输入至第二模型,得到第二无监督识别结果。
步骤603与步骤402中得到第二无监督识别结果的实现方式类似,不再赘述。
步骤604,基于预设变形方式对第一无监督识别结果进行变形处理,得到加扰识别结果。
步骤604可以在步骤601之后执行,且与步骤602、603的执行时序不做限制。
其中,可以通过预设的变形方式对第一模型对第一训练图片进行处理,得到的第一无监督识别结果进行变形处理,得到加扰识别结果。该预设的变形方式与步骤602中对第一训练图片进行变形的方式相同。
具体的,本方案中对第一训练图片进行变形处理,并由第二模型对变形图片进行识别。还利用第一模型对第一训练图片进行识别,再利用相同的变形方式对第一模型输出的识别结果进行变形处理。通过这种方式,能够根据对变形图片进行识别的第二无监督识别结果、以及对第一无监督识别结果进行变形的加扰识别结果,约束第一模型和第二模型的一致性。
比如,存在第一训练图片P,可以对其进行变形处理,得到P'。利用第一模型对P进行识别,得到第一无监督识别结果R,再利用预设变形方式对R进行变形,得到加扰识别结果R'。利用第二模型对P'进行识别,得到第二无监督识别结果R1。R'是对原图片的识别结果进行变形的结果,R1是对原图片的变形图片进行识别的结果。
对图片本身或者识别结果本身进行变形,能够不破坏图片或者识别结果中的场景语义信息。因此,可以利用R'、R1约束第一模型和第二模型的一致性,使得二者输出结果趋近于一致。
其中,预先设置的预设变形方式可以对待变形数据进行变形处理,该待变形数据可以包括上述第一训练图片,还可以包括第一模型对第一训练图片进行识别得到的第一无监督识别结果。
具体的,待变形数据中包括多个像素点。比如,若待变形数据为第一训练图片,则该待变形数据中包括多个像素点,每个像素点具有R、G、B三通道对应的值。若待变形数据为第一无监督识别结果,则该待变形数据中包括多个像素点,每个像素点具有第一模型识别的分类结果。
进一步的,可以在待变形数据中确定变形起点,以及与每个变形起点对应的每个变形终点。变形起点可以是待变形数据中多个像素点中的一个点,变形终点也可以是待变形数据中多个像素点中的一个点。比如,可以在待变形数据中确定n个变形起点,针对每个变形起点,还可以确定出对应的变形终点。
实际应用时,可以根据每个变形起点、每个变形终点,对待变形数据进行变形处理。可以确定一函数,通过该函数对待变形数据进行处理,使得待变形数据中的各个变形起点与对应的变形终点重合。
其中,比如可以通过薄板样条采样(thin-plate splines,TPS)方法,对待变形数据进行变形处理。TPS是插值方法的一种,是二维插值方法。该方法能够对待变形数据进行特定的形变,使得待变形数据中的变形起点可以与对应的变形终点重合。
具体的,通过这种方式对第一训练图片以及第一无监督识别结果进行变形,能够在不破坏语义信息的前提下,进行数据的扰动增强,进而提高模型的训练效果。
进一步的,可以在待变形数据中确定变形起点,比如,可以在待变形数据中确定多个变形起点。针对每个变形起点,都可以获取对应的每个随机参数。其中,不同变形起点的随机参数可以相同,也可以不同。
实际应用时,可以根据各个变形起点的随机参数,确定各个变形起点的变形终点。比如,针对变形起点S1,可以获取对应的随机参数n1,那么可以根据n1确定与S1对应的变形终点E1。
其中,可以根据高斯分布确定随机数。
这种实施方式中,可以根据变形起点、变形终点对待变形数据变形,从而通过对待变形数据本身进行变形的方式,在待变形数据中添加扰动,这种方式既能够对待变形数据添加扰动,又能够避免破坏待变形数据中的场景语义信息。
具体的,本申请的方案中,采用相同的变形方式,对第一训练图片以及该第一训练图片的第一无监督识别结果进行变形处理。在具体处理过程中,第一训练图片中的每个变形起点,与该第一训练图片的第一无监督识别结果中的每个变形起点具有位置对应关系。
进一步的,具有位置对应关系的变形起点的随机参数是相同的。针对第一训练图片和第一无监督识别结果中具有对应关系的变形起点,可以使用相同的随机参数对其进行处理,从而可以得到第一训练图片和第一无监督识别结果中具有位置对应关系的变形终点。
实际应用时,由于第一训练图片与第一无监督识别结果中,具有位置对应关系的变形起点,以及位置对应关系的变形终点。从而在根据这些起点、终点对第一训练图片与第一无监督识别结果进行变形处理时,能够得到具有一致性约束的变形图片,以及加扰识别结果,从而可以利用变形图片,以及变形图片的加扰识别结果对第一模型和第二模型进行约束。
具体的,每个变形起点的随机数中,可以包括纵向随机值和横向随机值。根据每个变形起点对应的纵向随机值、横向随机值、每个变形起点的位置,确定与每个变形起点对应的变形终点。
进一步的,各个变形起点的横向随机值、纵向随机值均可以是符合高斯随机分布的数值。针对每个变形起点,都可以利用横向随机值、纵向随机值对每个变形起点的位置进行偏移,进而得到与每个变形起点对应的变形终点的位置。
这种通过随机值确定变形起点的变形终点的方式中,随机数符合高斯正态分布,使得每个变形终点与变形起点的偏移距离相近,进而既能够对待变形数据进行变形,又能够避免待变形数据的场景语义被破坏。
在另一种实施方式中,在待变形数据为第一无监督识别结果时,在待变形数据中确定变形起点,以及与每个变形起点对应的每个变形终点时,获取与第一无监督识别结果对应的第一训练图片中每个变形起点的起点位置、以及每个变形起点对应的变形终点的终点位置,再根据第一训练图片中每个变形起点的起点位置、以及每个变形起点对应的变形终点的终点位置,确定第一无监督识别结果中每个变形起点以及每个变形起点对应的变形终点。
具体的,在第一无监督识别结果中确定变形起点和变形终点时,可以直接根据该第一无监督识别结果对应的第一训练图片中的变形起点的位置、变形终点的位置,在第一无监督识别结果中确定变形起点和变形终点。比如,在第一训练图片中存在一个变形起点S1,位置为ps1,以及与S1对应的变形终点E1,位置为pe1。那么可以在第一无监督识别结果中,可以将位置为ps1的像素点确定为变形起点S1',将位置为pe1的像素点确定为变形终点E1'。
这种实施方式中,可以直接根据第一训练图片中的变形起点、变形终点的信息,直接在第一无监督识别结果中确定变形起点、变形终点。能够避免再次计算第一无监督识别结果中的变形起点和变形终点,从而提高确定变形起点和终点的速度。
进一步的,待变形数据具有多个子区域。在待变形数据中确定变形起点时,可以在每个子区域中确定与每个子区域对应的变形起点。
实际应用时,待变形数据为第一训练图片时,可以对待变形数据进行划分,从而得到多个子区域。比如,将第一训练图片划分为3*3的九宫格,从而得到9个子区域。可以在每个子区域中确定与每个子区域对应的变形起点。
通过这种方式,可以得到第一训练图片中均匀分布的变形起点,进而能够对第一训练图片的各个区域都进行变形。
其中,可以将子区域的中心作为子区域的变形起点。比如,在第一训练图片中包括9个子区域,那么可以将每个子区域的中心作为每个子区域的变形起点。这种实施方式,得到的变形起点在待变形数据中是均匀分布的。
图7为本申请一示例性实施例示出的变形起点、变形终点的示意图。
如图7所示,可以将待变形数据71划分为多个子区域72,比如划分得到9个子区域72。
其中,可以将每个子区域72的中心73作为变形起点,进而得到9个变形起点73。针对每个变形起点,还可以利用随机数对变形起点的位置进行偏移,得到每个变形起点的变形终点74。
具体的,根据变形起点、变形终点对待变形数据进行变形时,可以对待变形数据进行扭曲处理,以使待变形数据中的每个变形起点的位置,移动至与每个变形起点对应的变形终点的位置。
比如,在待变形数据中设置有变形起点S1,与S1对应的变形终点E1。还设置有变形起点S2,与S2对应的变形终点E2。可以对待变形数据进行扭曲变形,使得S1的位置移动到E1的位置,S2的位置移动到E2的位置。
具体可以基于TPS算法对待变形数据进行变换处理,通过这种方式能够对待变形数据本身进行变形,进而在场景语义信息不被破坏的情况下,对待变形数据进行加扰。
进一步的,在对待变形数据进行变形处理时,还可以根据待变形数据的角点位置,对待变形数据进行扭曲处理,扭曲后的待变形数据的角点位置不变。
实际应用时,对待变形数据进行变形时,可以利用待变形数据的四个角点对变形效果进行约束。从而避免待变形数据扭曲变形过大,导致待变形数据的场景语义信息被破坏。
图8为本申请一示例性实施例示出的待变形数据的变形示意图。
如图8所示,可以对待变形数据81进行变形处理,在变形过程中,利用待变形数据的四个角点82对待变形数据81进行约束,使得变形后的数据83的角点位置不变。
步骤605,根据第二无监督识别结果与加扰识别结果的差异,确定一致性损失函数;一致性损失函数用于表征第一模型与第二模型识别结果之间的差异。
其中,可以根据各个第一训练图片的加扰识别结果,以及第二无监督识别结果,构建一致性损失函数。具体可以根据第一训练图片的加扰识别结果,以及第二无监督识别结果之间的差异,确定一致性损失函数。
具体的,一致性损失函数用于表征第一模型与第二模型识别结果之间的差异。一致性损失函数可以是L1损失函数,可以通过L1损失函数约束第一模型和第二模型的识别结果。进而再根据一致性损失函数更新模型参数时,可以使得第一模型和第二模型之间的识别结果的差异越来越小。
步骤606,获取具有标签的第二训练图片,将第二训练图片输入第一模型,得到第二训练图片的有监督识别结果。
其中,基于半监督的训练方式对模型进行训练时,还可以使用具有标签的第二训练图片对模型进行训练。具体可以将具有标签的第二训练图片输入到第一模型中,并基于第一模型确定出第二训练图片的有监督识别结果。
具体的,第一模型中具有参数,可以根据第一模型的参数对第二训练图片进行处理,以提取第二训练图片中的特征信息,并根据这些特征信息确定出第二训练图片的有监督识别结果。
这种实施方式中,可以利用有监督的数据,对第一模型中的参数进行更新,以提高第一模型识别的准确性。
步骤607,根据第二训练图片的标签、有监督识别结果确定有监督损失函数;有监督损失函数用于表征第一模型识别结果的准确性。
进一步的,可以根据第二训练图片的标签、有监督识别结果构建有监督损失函数。比如,可以构建交叉熵损失函数。
实际应用时,有监督损失函数能够表征第一模型识别结果的准确性,具体可以表征第一模型的识别结果与第二训练图片的标签之间的差异,从而基于差异更新第一模型中的参数,使得第一模型和第二模型的识别结果间的差异越来越小。
步骤606-607与步骤601-605的执行时序不做限制。
步骤608,根据一致性损失函数和有监督损失函数更新第一模型中的参数,并根据第一模型更新后的参数,更新第二模型中的参数,更新后的第二模型用于对图片进行语义分割。
其中,每次训练过程都可以获取一批的训练数据,这批训练数据中包括多个第一训练图片和第二训练图片。可以基于对一批次的第一训练图片和第二训练图片进行识别,并构建出一致性损失函数和有监督损失函数。
具体的,可以根据一致性损失函数和有监督损失函数更新第一模型中的参数。比如,可以将构建的一致性损失函数和有监督损失函数相加,得到总的损失函数。
进一步的,可以根据中的损失函数对进行梯度回传,更新第一模型中的参数。此后,可以还可以根据第一模型中更新后的参数更新第二模型中的参数。
比如,可以根据第一模型中更新后的参数,和第二模型中当前的参数,更新第二模型中的参数。第二模型中更新后的参数,可以是第一模型在更新迭代过程中,该第一模型的参数的移动平均值,通过这种方式更新第二模型中的参数,能够使得训练的结果更加平滑稳定。
根据一致性损失函数和有监督损失函数对第一模型进行更新,因此,由于一致性损失函数的约束,能够使得第一模型和第二模型的识别结果趋近于一致。并且,由于有监督损失函数对第一模型进行约束,还能够使得第一模型的输出结果越来越准确。因此,本申请提供的模型训练方案,能够得到识别准确的模型。
图9为本申请一示例性实施例示出的图像识别方法的流程示意图。
如图9所示,本申请提供的图像识别方法,包括:
步骤901,获取待识别图像。
步骤902,将待识别图像输入预设的语义分割模型中,得到并输出待识别图像的识别结果。
本申请提供的方法中应用的语义分割模型为通过上述任一种实施例训练得到的模型。
其中,可以将训练得到的语义分割模型部署到一识别设备中,可以将待识别图像输入到该识别设备中,进而使得识别设备能够利用部署的语义分割模型识别待识别图像。
图10为本申请一示例性实施例示出的语义分割模型的训练装置的结构示意图。
如图10所示,本申请提供的语义分割模型的训练装置1000,包括:
获取单元1010,用于获取第一训练图片、变形图片以及第二训练图片的有监督识别结果所对应的有监督损失函数,其中,所述变形图片是对所述第一训练图片进行变形所得到的图片;
识别单元1020,用于将所述第一训练图片输入至第一模型,得到第一无监督识别结果,并将所述变形图片输入至第二模型,得到第二无监督识别结果;其中,所述第一模型与所述第二模型的结构相同;
加扰单元1030,用于对所述第一无监督识别结果进行变形处理得到加扰识别结果;
函数构建单元1040,用于根据所述第二无监督识别结果、所述加扰识别结果确定一致性损失函数;
更新单元1050,用于根据所述一致性损失函数和所述有监督损失函数更新所述第二模型中的参数,更新后的所述第二模型用于对图片进行语义分割。
本申请提供的语义分割模型的训练装置与图4所示实施例类似,不再赘述。
图11为本申请另一示例性实施例示出的语义分割模型的训练装置的结构示意图。
如图11所示,本申请提供的语义分割模型的训练装置1100中,获取单元1110与获取单元1010的功能相同,识别单元1120与识别单元1020的功能相同,加扰单元1130与加扰单元1030的功能相同,函数构建单元1140与函数构建单元1040的功能相同,更新单元1150与更新单元1050的功能相同。
其中,所述获取单元1110包括第一变形模块1111,用于基于预设变形方式对所述第一训练图片本身进行变形处理得到所述变形图片;
所述加扰单元1130包括第二变形模块1131,用于基于所述预设变形方式对所述第一无监督识别结果进行变形处理,得到所述加扰识别结果。
其中,待变形数据包括多个像素点,所述待变形数据为所述第一训练图片或者所述第一无监督识别结果;所述第一变形模块1111和/或第二变形模块1131,具体用于:
在所述待变形数据中确定变形起点,以及与每个变形起点对应的每个变形终点;
根据每个所述变形起点、每个所述变形终点,对所述待变形数据进行变形处理。
其中,所述第一变形模块1111和/或第二变形模块1131,具体用于:
在所述待变形数据中确定变形起点,获取与每个变形起点对应的每个随机参数;
根据每个变形起点及其对应的随机参数,确定每个变形起点对应的变形终点。
其中,所述第一训练图片中的每个变形起点,与第一无监督识别结果中的每个变形起点具有位置对应关系;具有位置对应关系的变形起点的随机参数是相同的。
其中,所述随机参数包括纵向随机值、横向随机值;
所述第一变形模块1111和/或第二变形模块1131,具体用于:
根据每个所述变形起点对应的所述纵向随机值、所述横向随机值、每个所述变形起点的位置,确定与每个所述变形起点对应的变形终点。
其中,所述待变形数据为第一无监督识别结果时,所述第二变形模块1131具体用于:
获取与所述第一无监督识别结果对应的第一训练图片中每个变形起点的起点位置、以及每个变形起点对应的变形终点的终点位置;
根据第一训练图片中每个变形起点的起点位置、以及每个变形起点对应的变形终点的终点位置,确定所述第一无监督识别结果中每个变形起点以及每个变形起点对应的变形终点。
其中,所述待变形数据具有多个子区域;所述第一变形模块1111和/或第二变形模块1131,具体用于:
在每个所述子区域中确定与每个子区域对应的所述变形起点。
其中,所述第一变形模块1111和/或第二变形模块1131,具体用于:
将每个所述子区域的中心点,确定为每个子区域的变形起点。
其中,所述第一变形模块1111和/或第二变形模块1131,具体用于:
对所述待变形数据进行扭曲处理,以使所述待变形数据中的每个变形起点的位置,移动至与每个变形起点对应的变形终点的位置。
所述第一变形模块1111和/或第二变形模块1131,具体用于:
根据待变形数据的角点位置,对所述待变形数据进行扭曲处理,扭曲后的待变形数据的角点位置不变。
其中,所述函数构建单元1140具体用于:
根据所述第二无监督识别结果与所述加扰识别结果的差异,确定所述一致性损失函数;所述一致性损失函数用于表征所述第一模型与所述第二模型识别结果之间的差异。
其中,获取单元1110,包括:
第二识别模块1112,用于获取具有标签的所述第二训练图片,将所述第二训练图片输入所述第一模型,得到所述第二训练图片的有监督识别结果;
函数构建模块1113,用于根据所述第二训练图片的标签、所述有监督识别结果确定有监督损失函数;所述有监督损失函数用于表征所述第一模型识别结果的准确性。
其中,更新单元1150包括:
第一更新模块1151,用于根据所述一致性损失函数和所述有监督损失函数更新所述第一模型中的参数;
第二更新模块1152,用于根据所述第一模型更新后的参数,更新所述第二模型中的参数。
其中,所述第二更新模块1152具体用于:
根据所述第一模型更新后的权重值、所述第二模型中当前的权重值,对所述第二模型中当前的权重值进行更新。
图12为本申请一示例性实施例示出的图像识别装置的结构示意图。
如图12所示,本申请提供的图像识别装置1200包括:
获取单元1210,用于获取待识别图像;
识别单元1220,用于将所述待识别图像输入预设的语义分割模型中,得到并输出所述待识别图像的识别结果;
其中,所述语义分割模型为通过上述任一项装置训练得到的模型。
根据本申请的实施例,本申请还提供了一种电子设备和一种可读存储介质。
根据本申请的实施例,本申请还提供了一种计算机程序产品,计算机程序产品包括:计算机程序,计算机程序存储在可读存储介质中,电子设备的至少一个处理器可以从可读存储介质读取计算机程序,至少一个处理器执行计算机程序使得电子设备执行上述任一实施例提供的方案。
图13示出了可以用来实施本申请的实施例的示例电子设备1300的示意性框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。
如图13所示,电子设备1300包括计算单元1301,其可以根据存储在只读存储器(ROM)1302中的计算机程序或者从存储单元13013加载到随机访问存储器(RAM)1303中的计算机程序,来执行各种适当的动作和处理。在RAM 1303中,还可存储设备1300操作所需的各种程序和数据。计算单元1301、ROM 1302以及RAM 1303通过总线1304彼此相连。输入/输出(I/O)接口1305也连接至总线1304。
设备1300中的多个部件连接至I/O接口1305,包括:输入单元1306,例如键盘、鼠标等;输出单元1307,例如各种类型的显示器、扬声器等;存储单元13013,例如磁盘、光盘等;以及通信单元1309,例如网卡、调制解调器、无线通信收发机等。通信单元1309允许设备1300通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
计算单元1301可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元1301的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元1301执行上文所描述的各个方法和处理,例如语义分割模型的训练方法或图像识别方法。例如,在一些实施例中,语义分割模型的训练方法或图像识别方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元13013。在一些实施例中,计算机程序的部分或者全部可以经由ROM 1302和/或通信单元1309而被载入和/或安装到设备1300上。当计算机程序加载到RAM 1303并由计算单元1301执行时,可以执行上文描述的语义分割模型的训练方法或图像识别方法的一个或多个步骤。备选地,在其他实施例中,计算单元1301可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行语义分割模型的训练方法或图像识别方法。
本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,又称为云计算服务器或云主机,是云计算服务体系中的一项主机产品,以解决了传统物理主机与VPS服务("Virtual Private Server",或简称"VPS")中,存在的管理难度大,业务扩展性弱的缺陷。服务器也可以为分布式系统的服务器,或者是结合了区块链的服务器。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本申请公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本申请保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等,均应包含在本申请保护范围之内。

Claims (35)

1.一种语义分割模型的训练方法,包括:
获取第一训练图片、变形图片以及第二训练图片的有监督识别结果所对应的有监督损失函数,其中,所述变形图片是对所述第一训练图片进行变形所得到的图片;
将所述第一训练图片输入至第一模型,得到第一无监督识别结果,并将所述变形图片输入至第二模型,得到第二无监督识别结果;其中,所述第一模型与所述第二模型的结构相同;
对所述第一无监督识别结果进行变形处理得到加扰识别结果,并根据所述第二无监督识别结果、所述加扰识别结果确定一致性损失函数;
根据所述一致性损失函数和所述有监督损失函数更新所述第二模型中的参数,更新后的所述第二模型用于对图片进行语义分割。
2.根据权利要求1所述的方法,其中,获取变形图片包括:基于预设变形方式对所述第一训练图片本身进行变形处理得到所述变形图片;
对所述第一无监督识别结果进行变形处理得到加扰识别结果,包括:
基于所述预设变形方式对所述第一无监督识别结果进行变形处理,得到所述加扰识别结果。
3.根据权利要求2所述的方法,其中,待变形数据包括多个像素点,所述待变形数据为所述第一训练图片或者所述第一无监督识别结果;所述预设变形方式包括:
在所述待变形数据中确定变形起点,以及与每个变形起点对应的每个变形终点;
根据每个所述变形起点、每个所述变形终点,对所述待变形数据进行变形处理。
4.根据权利要求3所述的方法,其中,所述在所述待变形数据中确定变形起点,以及与每个变形起点对应的每个变形终点,包括:
在所述待变形数据中确定变形起点,获取与每个变形起点对应的每个随机参数;
根据每个变形起点及其对应的随机参数,确定每个变形起点对应的变形终点。
5.根据权利要求4所述的方法,其中,
所述第一训练图片中的每个变形起点,与第一无监督识别结果中的每个变形起点具有位置对应关系;具有位置对应关系的变形起点的随机参数是相同的。
6.根据权利要求4所述的方法,其中,所述随机参数包括纵向随机值、横向随机值;
所述根据每个变形起点及其对应的随机参数,确定每个变形起点的变形终点,包括:
根据每个所述变形起点对应的所述纵向随机值、所述横向随机值、每个所述变形起点的位置,确定与每个所述变形起点对应的变形终点。
7.根据权利要求3所述的方法,其中,
所述待变形数据为第一无监督识别结果时,所述在所述待变形数据中确定变形起点,以及与每个变形起点对应的每个变形终点,包括:
获取与所述第一无监督识别结果对应的第一训练图片中每个变形起点的起点位置、以及每个变形起点对应的变形终点的终点位置;
根据第一训练图片中每个变形起点的起点位置、以及每个变形起点对应的变形终点的终点位置,确定所述第一无监督识别结果中每个变形起点以及每个变形起点对应的变形终点。
8.根据权利要求3所述的方法,其中,所述待变形数据具有多个子区域;所述在所述待变形数据中确定变形起点,包括:
在每个所述子区域中确定与每个子区域对应的所述变形起点。
9.根据权利要求8所述的方法,其中,所述在每个所述子区域中确定与每个子区域对应的所述变形起点,包括:
将每个所述子区域的中心点,确定为每个子区域的变形起点。
10.根据权利要求3所述的方法,其中,根据每个所述变形起点、每个所述变形终点,对所述待变形数据进行变形处理,包括:
对所述待变形数据进行扭曲处理,以使所述待变形数据中的每个变形起点的位置,移动至与每个变形起点对应的变形终点的位置。
11.根据权利要求10所述的方法,还包括:
根据待变形数据的角点位置,对所述待变形数据进行扭曲处理,扭曲后的待变形数据的角点位置不变。
12.根据权利要求1-11任一项所述的方法,其中,所述根据所述第二无监督识别结果、所述加扰识别结果确定一致性损失函数,包括:
根据所述第二无监督识别结果与所述加扰识别结果的差异,确定所述一致性损失函数;所述一致性损失函数用于表征所述第一模型与所述第二模型识别结果之间的差异。
13.根据权利要求1-11任一项所述的方法,其中,获取第二训练图片的有监督识别结果所对应的有监督损失函数,包括:
获取具有标签的所述第二训练图片,将所述第二训练图片输入所述第一模型,得到所述第二训练图片的有监督识别结果;
根据所述第二训练图片的标签、所述有监督识别结果确定有监督损失函数;所述有监督损失函数用于表征所述第一模型识别结果的准确性。
14.根据权利要求1-11任一项所述的方法,其中,根据所述一致性损失函数和所述有监督损失函数更新所述第二模型中的参数,包括:
根据所述一致性损失函数和所述有监督损失函数更新所述第一模型中的参数,并根据所述第一模型更新后的参数,更新所述第二模型中的参数。
15.根据权利要求14所述的方法,其中,所述根据所述第一模型更新后的权重值,更新所述第二模型中的权重值,包括:
根据所述第一模型更新后的权重值、所述第二模型中当前的权重值,对所述第二模型中当前的权重值进行更新。
16.一种图像识别方法,包括:
获取待识别图像,将所述待识别图像输入预设的语义分割模型中,得到并输出所述待识别图像的识别结果;
其中,所述语义分割模型为通过权利要求1-15中任一项所述的方法训练得到的模型。
17.一种语义分割模型的训练装置,包括:
获取单元,用于获取第一训练图片、变形图片以及第二训练图片的有监督识别结果所对应的有监督损失函数,其中,所述变形图片是对所述第一训练图片进行变形所得到的图片;
识别单元,用于将所述第一训练图片输入至第一模型,得到第一无监督识别结果,并将所述变形图片输入至第二模型,得到第二无监督识别结果;其中,所述第一模型与所述第二模型的结构相同;
加扰单元,用于对所述第一无监督识别结果进行变形处理得到加扰识别结果;
函数构建单元,用于根据所述第二无监督识别结果、所述加扰识别结果确定一致性损失函数;
更新单元,用于根据所述一致性损失函数和所述有监督损失函数更新所述第二模型中的参数,更新后的所述第二模型用于对图片进行语义分割。
18.根据权利要求17所述的装置,其中,
所述获取单元包括第一变形模块,用于基于预设变形方式对所述第一训练图片本身进行变形处理得到所述变形图片;
所述加扰单元包括第二变形模块,用于基于所述预设变形方式对所述第一无监督识别结果进行变形处理,得到所述加扰识别结果。
19.根据权利要求18所述的装置,其中,待变形数据包括多个像素点,所述待变形数据为所述第一训练图片或者所述第一无监督识别结果;所述第一变形模块和/或第二变形模块,具体用于:
在所述待变形数据中确定变形起点,以及与每个变形起点对应的每个变形终点;
根据每个所述变形起点、每个所述变形终点,对所述待变形数据进行变形处理。
20.根据权利要求19所述的装置,其中,所述第一变形模块和/或第二变形模块,具体用于:
在所述待变形数据中确定变形起点,获取与每个变形起点对应的每个随机参数;
根据每个变形起点及其对应的随机参数,确定每个变形起点对应的变形终点。
21.根据权利要求20所述的装置,其中,
所述第一训练图片中的每个变形起点,与第一无监督识别结果中的每个变形起点具有位置对应关系;具有位置对应关系的变形起点的随机参数是相同的。
22.根据权利要求20所述的装置,其中,所述随机参数包括纵向随机值、横向随机值;
所述第一变形模块和/或第二变形模块,具体用于:
根据每个所述变形起点对应的所述纵向随机值、所述横向随机值、每个所述变形起点的位置,确定与每个所述变形起点对应的变形终点。
23.根据权利要求19所述的装置,其中,
所述待变形数据为第一无监督识别结果时,所述第二变形模块具体用于:
获取与所述第一无监督识别结果对应的第一训练图片中每个变形起点的起点位置、以及每个变形起点对应的变形终点的终点位置;
根据第一训练图片中每个变形起点的起点位置、以及每个变形起点对应的变形终点的终点位置,确定所述第一无监督识别结果中每个变形起点以及每个变形起点对应的变形终点。
24.根据权利要求19所述的装置,其中,所述待变形数据具有多个子区域;所述第一变形模块和/或第二变形模块,具体用于:
在每个所述子区域中确定与每个子区域对应的所述变形起点。
25.根据权利要求24所述的装置,其中,所述第一变形模块和/或第二变形模块,具体用于:
将每个所述子区域的中心点,确定为每个子区域的变形起点。
26.根据权利要求19所述的装置,其中,所述第一变形模块和/或第二变形模块,具体用于:
对所述待变形数据进行扭曲处理,以使所述待变形数据中的每个变形起点的位置,移动至与每个变形起点对应的变形终点的位置。
27.根据权利要求26所述的装置,所述第一变形模块和/或第二变形模块,具体用于:
根据待变形数据的角点位置,对所述待变形数据进行扭曲处理,扭曲后的待变形数据的角点位置不变。
28.根据权利要求17-27任一项所述的装置,其中,所述函数构建单元具体用于:
根据所述第二无监督识别结果与所述加扰识别结果的差异,确定所述一致性损失函数;所述一致性损失函数用于表征所述第一模型与所述第二模型识别结果之间的差异。
29.根据权利要求17-27任一项所述的装置,其中,获取单元,包括:
第二图片识别模块,用于获取具有标签的所述第二训练图片,将所述第二训练图片输入所述第一模型,得到所述第二训练图片的有监督识别结果;
函数构建模块,用于根据所述第二训练图片的标签、所述有监督识别结果确定有监督损失函数;所述有监督损失函数用于表征所述第一模型识别结果的准确性。
30.根据权利要求17-27任一项所述的装置,其中,更新单元包括:
第一更新模块,用于根据所述一致性损失函数和所述有监督损失函数更新所述第一模型中的参数;
第二更新模块,用于根据所述第一模型更新后的参数,更新所述第二模型中的参数。
31.根据权利要求30所述的装置,其中,所述第二更新模块具体用于:
根据所述第一模型更新后的权重值、所述第二模型中当前的权重值,对所述第二模型中当前的权重值进行更新。
32.一种图像识别装置,包括:
获取单元,用于获取待识别图像;
识别单元,用于将所述待识别图像输入预设的语义分割模型中,得到并输出所述待识别图像的识别结果;
其中,所述语义分割模型为通过权利要求17-31中任一项所述的装置训练得到的模型。
33.一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-15或16中任一项所述的方法。
34.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行权利要求1-15或16中任一项所述的方法。
35.一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现根据权利要求1-15或16中任一项所述的方法。
CN202110297030.3A 2021-03-19 2021-03-19 模型训练方法、识别方法、设备、存储介质及程序产品 Active CN113033566B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN202110297030.3A CN113033566B (zh) 2021-03-19 2021-03-19 模型训练方法、识别方法、设备、存储介质及程序产品
EP21194741.1A EP3933708A3 (en) 2021-03-19 2021-09-03 Model training method, identification method, device, storage medium and program product
US17/468,848 US20210406579A1 (en) 2021-03-19 2021-09-08 Model training method, identification method, device, storage medium and program product

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110297030.3A CN113033566B (zh) 2021-03-19 2021-03-19 模型训练方法、识别方法、设备、存储介质及程序产品

Publications (2)

Publication Number Publication Date
CN113033566A CN113033566A (zh) 2021-06-25
CN113033566B true CN113033566B (zh) 2022-07-08

Family

ID=76471881

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110297030.3A Active CN113033566B (zh) 2021-03-19 2021-03-19 模型训练方法、识别方法、设备、存储介质及程序产品

Country Status (3)

Country Link
US (1) US20210406579A1 (zh)
EP (1) EP3933708A3 (zh)
CN (1) CN113033566B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114120074B (zh) * 2021-11-05 2023-12-12 北京百度网讯科技有限公司 基于语义增强的图像识别模型的训练方法和训练装置
CN114511743B (zh) * 2022-01-29 2023-07-25 北京百度网讯科技有限公司 检测模型训练、目标检测方法、装置、设备、介质及产品
CN114549840B (zh) * 2022-02-23 2023-04-07 北京百度网讯科技有限公司 语义分割模型的训练方法和语义分割方法、装置
CN114648638A (zh) * 2022-04-02 2022-06-21 北京百度网讯科技有限公司 语义分割模型的训练方法、语义分割方法与装置
CN115147426B (zh) * 2022-09-06 2022-11-29 北京大学 基于半监督学习的模型训练与图像分割方法和系统
CN115910217B (zh) * 2022-12-23 2023-09-22 郑州思昆生物工程有限公司 一种碱基确定方法、装置、计算机设备及存储介质
CN117593322B (zh) * 2024-01-19 2024-04-09 吉林大学第一医院 靶区自动勾画方法、装置、电子设备和可读存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109858563A (zh) * 2019-02-22 2019-06-07 清华大学 基于变换识别的自监督表征学习方法及装置
CN112016531A (zh) * 2020-10-22 2020-12-01 成都睿沿科技有限公司 模型训练方法、对象识别方法、装置、设备及存储介质

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018009405A1 (en) * 2016-07-08 2018-01-11 Avent, Inc. System and method for automatic detection, localization, and semantic segmentation of anatomical objects
US10049457B2 (en) * 2016-08-29 2018-08-14 CephX Technologies Ltd. Automated cephalometric analysis using machine learning
KR102360584B1 (ko) * 2018-12-05 2022-02-08 베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디. 비디오에서 목표 비디오 클립의 위치를 결정하는 방법 및 장치
CN111126258B (zh) * 2019-12-23 2023-06-23 深圳市华尊科技股份有限公司 图像识别方法及相关装置
CN111667399B (zh) * 2020-05-14 2023-08-25 华为技术有限公司 风格迁移模型的训练方法、视频风格迁移的方法以及装置
CN112183577A (zh) * 2020-08-31 2021-01-05 华为技术有限公司 一种半监督学习模型的训练方法、图像处理方法及设备
CN112200710B (zh) * 2020-10-08 2023-05-23 东南数字经济发展研究院 一种基于深度学习的自适应隐形水印同步检测方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109858563A (zh) * 2019-02-22 2019-06-07 清华大学 基于变换识别的自监督表征学习方法及装置
CN112016531A (zh) * 2020-10-22 2020-12-01 成都睿沿科技有限公司 模型训练方法、对象识别方法、装置、设备及存储介质

Also Published As

Publication number Publication date
US20210406579A1 (en) 2021-12-30
EP3933708A2 (en) 2022-01-05
CN113033566A (zh) 2021-06-25
EP3933708A3 (en) 2022-03-30

Similar Documents

Publication Publication Date Title
CN113033566B (zh) 模型训练方法、识别方法、设备、存储介质及程序产品
CN112966742A (zh) 模型训练方法、目标检测方法、装置和电子设备
CN113436100B (zh) 用于修复视频的方法、装置、设备、介质和产品
CN113657289B (zh) 阈值估计模型的训练方法、装置和电子设备
CN115358392B (zh) 深度学习网络的训练方法、文本检测方法及装置
CN113627536B (zh) 模型训练、视频分类方法,装置,设备以及存储介质
CN113657483A (zh) 模型训练方法、目标检测方法、装置、设备以及存储介质
CN113591566A (zh) 图像识别模型的训练方法、装置、电子设备和存储介质
WO2023024653A1 (zh) 图像处理方法、图像处理装置、电子设备以及存储介质
CN114792355B (zh) 虚拟形象生成方法、装置、电子设备和存储介质
CN113379877A (zh) 人脸视频生成方法、装置、电子设备及存储介质
CN112529018A (zh) 图像局部特征的训练方法、装置及存储介质
CN114511743B (zh) 检测模型训练、目标检测方法、装置、设备、介质及产品
CN113033408B (zh) 数据队列动态更新方法、装置、电子设备及存储介质
CN114120413A (zh) 模型训练方法、图像合成方法、装置、设备及程序产品
CN116052288A (zh) 活体检测模型训练方法、活体检测方法、装置和电子设备
CN113379592B (zh) 图片中敏感区域的处理方法、装置和电子设备
CN113361575B (zh) 模型训练方法、装置和电子设备
CN115019057A (zh) 图像特征提取模型确定方法及装置、图像识别方法及装置
CN115082298A (zh) 图像生成方法、装置、电子设备以及存储介质
KR20220146663A (ko) 비디오 복구 방법, 장치, 기기, 매체 및 컴퓨터 프로그램
CN114330576A (zh) 模型处理方法、装置、图像识别方法及装置
CN114093006A (zh) 活体人脸检测模型的训练方法、装置、设备以及存储介质
CN113903071A (zh) 人脸识别方法、装置、电子设备和存储介质
CN113887435A (zh) 人脸图像处理方法、装置、设备、存储介质及程序产品

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant