CN110458237A - 语义识别方法和装置、电子设备及存储介质 - Google Patents

语义识别方法和装置、电子设备及存储介质 Download PDF

Info

Publication number
CN110458237A
CN110458237A CN201910749750.1A CN201910749750A CN110458237A CN 110458237 A CN110458237 A CN 110458237A CN 201910749750 A CN201910749750 A CN 201910749750A CN 110458237 A CN110458237 A CN 110458237A
Authority
CN
China
Prior art keywords
semantic
image
mentioned
prediction
variety
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910749750.1A
Other languages
English (en)
Other versions
CN110458237B (zh
Inventor
杨策元
沈宇军
周博磊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Sensetime Technology Development Co Ltd
Original Assignee
Beijing Sensetime Technology Development Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Sensetime Technology Development Co Ltd filed Critical Beijing Sensetime Technology Development Co Ltd
Priority to CN201910749750.1A priority Critical patent/CN110458237B/zh
Publication of CN110458237A publication Critical patent/CN110458237A/zh
Application granted granted Critical
Publication of CN110458237B publication Critical patent/CN110458237B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/245Classification techniques relating to the decision surface
    • G06F18/2451Classification techniques relating to the decision surface linear, e.g. hyperplane
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/35Categorising the entire scene, e.g. birthday party or wedding scene
    • G06V20/36Indoor scenes

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本公开实施例公开了一种语义识别方法和装置、电子设备及存储介质,其中方法包括:生成第一图像;对所述第一图像进行多种语义层次中每种语义层次上的语义识别处理,得到所述第一图像的多种预测语义;基于所述第一图像的多种预测语义,识别所述第一图像的目标语义,其中,所述目标语义被用于进行语义编辑处理,可以识别生成模型生成图像时的可编辑语义,在原有图像的基础上,获得更多不同层次的语义的图像。

Description

语义识别方法和装置、电子设备及存储介质
技术领域
本公开涉及计算机视觉技术领域,具体涉及一种语义识别方法和装置、电子设备及存储介质。
背景技术
如今随着计算机视觉处理技术的发展,生成模型在图片合成、场景合成中已经取得了重大的突破,能够生成越来越高分辨率和保真度的图像的模型不断提出。在图片合成、场景合成中,提高生成模型的解释性也变得愈发重要。
目前依靠生成模型的图像编辑和生成方法往往关注物体本身,只能编辑图像中的某些物体的种类和位置,生成的图像具有局限性。
发明内容
本公开实施例提供了一种语义识别方法和装置、电子设备及存储介质。
本公开实施例第一方面提供一种语义识别方法,包括:
生成第一图像;对所述第一图像进行多种语义层次中每种语义层次上的语义识别处理,得到所述第一图像的多种预测语义;基于所述第一图像的多种预测语义,识别所述第一图像的目标语义,其中,所述目标语义被用于进行语义编辑处理。
通过上述步骤,经过多种语义层次上的语义识别,可以识别出第一图像的目标语义,其中,目标语义可以作为可编辑语义,能够支持对第一图像上的目标语义进行编辑操作。这样,可以在原有图像的基础上,通过对目标语义的语义编辑操作,可以有利于获得更多不同语义层次的语义的图像。
在一种可选的实施方式中,所述方法还包括:对所述第一图像的目标语义进行语义编辑处理,得到经语义编辑后的第二图像。
通过上述步骤可以对目标语义进行语义编辑操作,经语义编辑后的第二图像的语义可以是不同于第一图像的目标语义,从而有助于获得更多不同语义层次的语义的图像。
在一种可选的实施方式中,所述生成第一图像,包括:获取生成模型的潜在空间中的潜在编码;利用生成模型和所述生成模型中的潜在编码,生成第一图像。
通过上述步骤可以基于生成模型和潜在编码生成第一图像,以便于后续通过潜在编码与第一图像的关联关系,确定或者编辑第一图像的目标语义。
在一种可选的实施方式中,所述获取生成模型的潜在空间中的潜在编码,包括:获取第三图像并提取所述第三图像的特征向量;将提取的特征向量映射到所述潜在空间上,作为所述生成模型的潜在空间中的潜在编码。
通过上述步骤,在需要对第三图像进行语义编辑或转换的场景下,可以通过将第三图像的特征向量映射到潜在空间的方式获得潜在编码,这样,后续可以采用本方案,进行图像生成以及语义识别操作,以进行目标语义的确定和编辑。
在一种可选的实施方式中,所述多种语义层次中的第一语义层次对应有第一语义判别模型;第一语义层次为所述多种语义层次中的任一种;
所述对所述第一图像进行多种语义层次中每种语义层次上的语义识别处理,得到所述第一图像的多种预测语义,包括:利用所述第一语义判别模型,对所述第一图像进行第一语义层次上的语义识别处理,得到所述第一图像在所述第一语义层次上的预测语义。
通过上述步骤,针对多种语义层次,可以分别利用每种语义层次对应的语义判别模型识别图像的预测语义。
在一种可选的实施方式中,所述多种预测语义中的第一预测语义与生成模型的潜在空间中的潜在编码相对应,所述生成模型和所述潜在编码被用于生成所述第一图像,所述第一预测语义为所述多种预测语义中的任一种;
所述基于所述第一图像的多种预测语义,识别所述第一图像的目标语义,包括:基于所述第一预测语义,对所述潜在编码进行调整,得到调整后的潜在编码;利用所述调整后的潜在编码和生成模型,生成第二图像并识别所述第二图像的第二预测语义;基于所述第一预测语义和所述第二预测语义之间的区别程度,确定所述第一预测语义的改变程度;在得到所述多种预测语义分别对应的改变程度之后,基于所述多种预测语义分别对应的改变程度,从所述多种预测语义中选择改变程度符合预设条件的所述目标语义。
通过上述步骤可以基于潜在编码的调整分析前后生成图像的语义的改变程度,进而确定可编辑的目标语义。
在一种可选的实施方式中,所述基于所述第一预测语义,对所述潜在编码进行调整,得到调整后的潜在编码,包括:识别所述第一预测语义在所述潜在空间上的语义边界;基于所述语义边界,对所述潜在编码进行调整,得到调整后的潜在编码。
通过上述步骤可以基于语义边界来调整潜在编码,以进行潜在空间中语义边界的分析。
在一种可选的实施方式中,所述基于所述第一预测语义和所述第二预测语义之间的区别程度,确定所述第一预测语义的改变程度,包括:获取所述第一预测语义的置信度和所述第二预测语义的置信度;基于所述第一预测语义的置信度和所述第二预测语义的置信度的差异度,确定所述第一预测语义的改变程度。
通过上述步骤可以通过前后语义的置信度的差异度判断语义的改变程度。
在一种可选的实施方式中,所述识别所述第一预测语义在所述潜在空间上的语义边界,包括:利用预先训练好的边界分类器,识别所述第一预测语义在所述潜在空间上的语义边界,其中,所述预先训练好的边界分类器是利用所述第一预测语义所属的第一语义层次的正样本和负样本训练得到。
通过上述步骤可以使用训练好的边界分类器来识别语义边界,可以快速准确地确定特定语义的语义边界。
在一种可选的实施方式中,所述第一语义层次的正样本包括:所述第一语义层次的样本中,按照语义强度由高到低排列的前N个样本;所述第一语义层次的负样本包括:所述第一语义层次的样本中,按照所述语义强度由高到低排列的后N个样本,其中,所述N为正整数。
通过上述介绍的样本可以对边界分类器进行训练,以获得准确识别语义边界的边界分类器。
在一种可选的实施方式中,所述基于所述语义边界,对所述潜在编码进行调整,得到调整后的潜在编码,包括:按照所述语义边界的法向量方向移动所述潜在编码,得到所述调整后的潜在编码。
通过上述步骤可以精确地移动潜在编码在潜在空间中的位置,以调整潜在编码,进行语义边界的识别。
本公开实施例第二方面提供一种语义识别装置,包括生成模块、语义识别模块、搜索模块和编辑模块,其中:所述生成模块,用于生成第一图像;所述语义识别模块,用于对所述第一图像进行多种语义层次中每种语义层次上的语义识别处理,得到所述第一图像的多种预测语义;所述搜索模块,用于基于所述第一图像的多种预测语义,识别所述第一图像的目标语义,其中,所述目标语义被所述编辑模块用于进行语义编辑处理。
可选的,所述编辑模块用于对所述第一图像的目标语义进行语义编辑处理,得到经语义编辑后的第二图像。
可选的,所述生成模块具体用于:获取生成模型的潜在空间中的潜在编码;利用生成模型和所述生成模型中的潜在编码,生成第一图像。
可选的,所述生成模块具体用于:获取第三图像并提取所述第三图像的特征向量;将提取的特征向量映射到所述潜在空间上,作为所述生成模型的潜在空间中的潜在编码。
可选的,所述多种语义层次中的第一语义层次对应有第一语义判别模型;第一语义层次为所述多种语义层次中的任一种;所述语义识别模块具体用于:利用所述第一语义判别模型,对所述第一图像进行第一语义层次上的语义识别处理,得到所述第一图像在所述第一语义层次上的预测语义。
可选的,所述多种预测语义中的第一预测语义与生成模型的潜在空间中的潜在编码相对应,所述生成模型和所述潜在编码被用于生成所述第一图像,所述第一预测语义为所述多种预测语义中的任一种;所述搜索模块具体用于:
基于所述第一预测语义,对所述潜在编码进行调整,得到调整后的潜在编码;利用所述调整后的潜在编码和生成模型,生成第二图像并识别所述第二图像的第二预测语义;基于所述第一预测语义和所述第二预测语义之间的区别程度,确定所述第一预测语义的改变程度;在得到所述多种预测语义分别对应的改变程度之后,基于所述多种预测语义分别对应的改变程度,从所述多种预测语义中选择改变程度符合预设条件的所述目标语义。
可选的,所述搜索模块具体用于:识别所述第一预测语义在所述潜在空间上的语义边界;基于所述语义边界,对所述潜在编码进行调整,得到调整后的潜在编码。
可选的,所述搜索模块还具体用于:获取所述第一预测语义的置信度和所述第二预测语义的置信度;基于所述第一预测语义的置信度和所述第二预测语义的置信度的差异度,确定所述第一预测语义的改变程度。
可选的,所述搜索模块具体还用于:利用预先训练好的边界分类器,识别所述第一预测语义在所述潜在空间上的语义边界,其中,所述预先训练好的边界分类器是利用所述第一预测语义所属的第一语义层次的正样本和负样本训练得到。
可选的,所述第一语义层次的正样本包括:所述第一语义层次的样本中,按照语义强度由高到低排列的前N个样本;所述第一语义层次的负样本包括:所述第一语义层次的样本中,按照所述语义强度由高到低排列的后N个样本,其中,所述N为正整数。
可选的,所述编辑模块具体用于:按照所述语义边界的法向量对所述潜在编码进行调整,得到所述调整后的潜在编码。
本公开实施例第三方面提供一种电子设备,包括处理器以及存储器,所述存储器用于存储计算机程序,所述计算机程序被配置成由所述处理器执行,所述处理器用于执行如本公开实施例第一方面任一方法中所描述的部分或全部步骤。
本公开实施例第四方面提供一种计算机可读存储介质,所述计算机可读存储介质用于存储计算机程序,其中,所述计算机程序使得计算机执行如本公开实施例第一方面任一方法中所描述的部分或全部步骤。
本公开实施例通过生成第一图像,对所述第一图像进行多种语义层次中每种语义层次上的语义识别处理,得到所述第一图像的多种预测语义,再基于所述第一图像的多种预测语义,识别所述第一图像的目标语义,其中,所述目标语义被用于进行语义编辑处理,相比使用一般使用语义掩码的语义识别方法,其仅关注物体本身,只能编辑图像中某些物体的种类和位置而言,而本公开通过获取不同语义层次上的多种预测语义,找出第一图像中可以编辑的目标语义,能够提高生成模型的可解释性,也可以在原有图像的基础上,通过对目标语义的语义编辑操作,例如场景的空间布局、场景内部的物体种类以及场景自身的属性等可以有利于获得更多不同语义层次的语义的图像。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,这些附图示出了符合本公开的实施例,并与说明书一起用于说明本公开的技术方案。
图1是本公开实施例公开的一种语义识别方法的流程示意图;
图2是本公开实施例公开的一种从合成场景中提取多层次语义的示意图;
图3是本公开实施例公开的一种多个场景的语义编辑示意图;
图4是本公开实施例公开的另一种语义识别方法的流程示意图;
图5是本公开实施例公开的一种解释潜在空间中语义的框架示意图;
图6是本公开实施例公开的一种不同层次语义的独立编辑和联合编辑示意图;
图7是本公开实施例公开的另一种语义识别装置的结构示意图;
图8是本公开实施例公开的一种电子设备的结构示意图。
具体实施方式
下面将结合本公开实施例中的附图,对本公开实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本公开一部分实施例,而不是全部的实施例。基于本公开中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本公开保护的范围。
本公开中的术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中术语“至少一种”表示多种中的任意一种或多种中的至少两种的任意组合,例如,包括A、B、C中的至少一种,可以表示包括从A、B和C构成的集合中选择的任意一个或多个元素。本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别不同对象,而不是用于描述特定顺序。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其他步骤或单元。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本公开的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
本公开实施例所涉及到的语义识别装置是可以进行语义识别的装置,可以为电子设备,上述电子设备包括终端设备,具体实现中,上述终端设备包括但不限于诸如具有触摸敏感表面(例如,触摸屏显示器和/或触摸板)的移动电话、膝上型计算机或平板计算机之类的其它便携式设备。还应当理解的是,在某些实施例中,所述设备并非便携式通信设备,而是具有触摸敏感表面(例如,触摸屏显示器和/或触摸板)的台式计算机。
下面对本公开实施例进行详细介绍。
请参阅图1,图1是本公开实施例公开的一种语义识别方法的流程示意图,如图1所示,该语义识别方法包括如下步骤:
101、生成第一图像。
本公开实施例中的语义识别方法的执行主体可以是上述语义识别装置,例如,上述语义识别方法可以由终端设备或其它处理设备执行。其中,终端设备可以为用户设备(User Equipment,UE)、移动设备、用户终端、终端、蜂窝电话、无绳电话、个人数字处理(Personal Digital Assistant,PDA)、手持设备、计算设备、车载设备、可穿戴设备等。其它处理设备,例如可以为本地或云端服务器等。本申请对语义识别装置的形式并不限定。在一些可能的实现方式中,该语义识别方法可以通过处理器调用存储器中存储的计算机可读指令的方式来实现。
其中,可以使用生成模型生成第一图像。本公开实施例中的生成模型,指的是可以进行数据建模以生成图像的生成模型。
通过预先训练好的生成模型可以合成不同的图像。具体的,上述步骤101可以包括:
获取生成模型的潜在空间中的潜在编码;
利用生成模型和所述生成模型中的潜在编码,生成第一图像。
一示例中,本公开实施例中上述生成模型可以是用于场景合成的生成器G(·),可以利用上述生成模型生成上述第一图像。
具体的,一个生成模型对应一个自己的潜在空间Z,该潜在空间Z中包含多个潜在编码z,其中上述潜在编码可以理解为噪声点,上述潜在空间和潜在编码也是该生成模型对应的特征向量集合以及其中的特征向量的具体表现形式。其原理是,生成模型可以从潜在空间Z采样其中的潜在编码z,进而获得生成的图像x,可表示为:x=G(z)。可选的,可以随机选取上述潜在空间中的潜在编码。
上述第一图像可以是任意场景的图像,比如室内场景(卧室、客厅等)或者室外场景(林间、街道等),本公开实施例的具体实现不做限定。
为了描述场景,存在多种可能的语义层次。示例性的,对于室内场景来说,语义层次可以包括房间布局、对象,场景属性(例如场景的光照条件和开放性)等。其中,空间布局可决定空间结构,图像中出现的物体可决定场景类别,例如,如果我们把电视和沙发搬出来并移动床和灯在里面,客厅就会变成卧室。同时,可能与材料、表面特性、光照等相关的各种属性是更细化的场景描述元素。本公开实施例中的生成模型,可以是训练成合成真实场景的神经网络模型,其深层的神经表示法可以通过学习编码上述类似的多层次的语义,以便合成场景。
在生成上述第一图像之后,可以执行步骤102。
102、对上述第一图像进行多种语义层次中每种语义层次上的语义识别处理,得到上述第一图像的多种预测语义。
为了获得第一图像的预测语义,可以在多种语义层次上对该第一图像分别进行语义识别处理。
可选的,上述多种语义层次可以包括但不限于以下一种或几种:场景空间布局、物体类别、场景属性。其中,每种语义层次所对应的预测语义可以包含一种或几种,本公开实施例对此不作限制,比如场景空间布局层次对应的预测语义可以包括对室内空间结构的描述,比如是否存在室内空间结构,确定结构布局线(layout线)位置;物体类别层次对应的预测语义可以包括任意物体名称,比如沙发、台灯、云朵、数木、杯子、桥梁等;场景属性层次对应的语义可包括对图像中场景的描述,如卧室、客厅、照明属性为明亮/暗淡,场景中主要材料属性为木质等等。
可以基于语义判别模型从生成图像中提取预测语义。具体的,上述多种语义层次中的第一语义层次对应有第一语义判别模型;第一语义层次可以为上述多种语义层次中的任一种。
利用上述第一语义判别模型,可以对上述第一图像进行第一语义层次上的语义识别处理,从而得到上述第一图像在上述第一语义层次上的预测语义。
上述语义判别模型可以是语义分类器,也叫图像分类器,本公开实施例中的图像分类是,根据各自在图像信息中所反映的不同特征,把不同类别的目标区分开来的图像处理方法。它利用计算机对图像进行定量分析,把图像或图像中的每个像元或区域划归为若干个类别中的某一种,以代替人的视觉判读。
本公开实施例中使用的语义判别模型可以为训练后的语义分类器,即现有的视觉概念分类器(visual concept classififiers),比如:(1)布局分类器,用于检测室内场景的空间结构;(2)对象(场景)分类器,用于对场景类别进行分类,并在后续可以对对象进行分割;(3)属性分类器,用于从给定场景提取多个场景属性,等等。可以使用一个或者多个语义分类器获得预测语义,本公开实施例对此不作限制。
在一些示例图像上的预测语义如图2所示。图2为从两个合成场景中提取多层次语义的示意图,其中,1和4为原图像;2和5为使用布局分类器获得的图像,显示了场景中的layout线;3和6为分段处理获得的图像,可以划分出不同语义区域,对应的,根据分类器可以提取出图像中的预测语义,可以分为场景类别与主要场景属性。具体的,图2中图像1所示的场景类别为卧室,主要场景属性包括:“自然采光照明”、“树木”、“枝叶”、“舒缓”等等;图像4所示的场景类别为客厅,主要场景属性包括:“封闭区域”、“杂乱空间”等等。通过上述语义分类器可以从生成的第一图像中提取出丰富的语义信息,上述预测语义实际与生成模型的潜在空间中的潜在编码相对应,由此可将上述生成模型的潜在空间和语义空间连接起来,即可以获得上述潜在空间中的潜在编码与上述预测语义的映射关系,以执行步骤103,确定其中的可编辑语义。
103、基于上述第一图像的多种预测语义,识别上述第一图像的目标语义,其中,上述目标语义被用于进行语义编辑处理。
在获得上述第一图像的多种预测语义之后,可以进一步确定其中的可编辑语义,即上述目标语义。通过对目标语义的编辑操作即可以完成语义编辑,以编辑图像,获得不同的生成图像。
具体的,以上述多种预测语义中的任一种,即第一预测语义来进行描述,其中第一预测语义与生成第一图像的生成模型的潜在空间中的潜在编码相对应。在一种可选的实施方式中,上述步骤103可以包括:
基于上述第一预测语义,对上述潜在编码进行调整,得到调整后的潜在编码;
利用上述调整后的潜在编码和生成模型,生成第二图像并识别上述第二图像的第二预测语义;
基于上述第一预测语义和上述第二预测语义之间的区别程度,确定上述第一预测语义的改变程度;
在得到上述多种预测语义分别对应的改变程度之后,基于上述多种预测语义分别对应的改变程度,从上述多种预测语义中选择改变程度符合预设条件的上述目标语义。
在一种可选的实施方式中,由于第一预测语义与生成第一图像的生成模型的潜在空间中的潜在编码相对应,则可以依据上述对应关系,改变上述潜在编码在上述潜在空间中的位置,再利用上述调整后的生成模型及其潜在编码,生成第二图像并识别该第二图像的第二预测语义,其中,上述生成第二图像和识别上述第二图像的第二预测语义的方法与对上述第一图像的处理方法相同,可以参考前述步骤101和步骤102中的具体描述,此处不再赘述。
在获得上述第一预测语义和上述第二预测语义之后,可以根据二者之间的区别程度,确定上述第一预测语义的改变程度,进一步地,在得到上述多种预测语义分别对应的改变程度之后,可从上述多种预测语义中选择改变程度符合预设条件的上述目标语义,获得该生成模型生成图像时的可编辑语义。
在一种可选的实施方式中,上述基于上述第一预测语义,对上述潜在编码进行调整,得到调整后的潜在编码,可包括:
识别上述第一预测语义在上述潜在空间上的语义边界;
基于上述语义边界,对上述潜在编码进行调整,得到调整后的潜在编码。
经过基于样本数据的训练,可以根据步骤101中获得的图像中的上述预测语义,确定潜在编码与上述预测语义的映射关系,进而确定对应的语义边界。
具体的,使用上述语义判别模型从生成的第一图像中提取预测语义后,这样第一图像就成为了潜在空间Z和语义空间S之间的桥梁,从而可以在不同的潜在空间中学习不同的用于语义判定的语义边界。其中,上述语义边界为预测语义在潜在空间上的语义边界,在潜在空间中可以表现为一个超平面,将潜在空间划分为不同空间区域,从而可以划分生成图像中的每个预测语义。
在一种可选的实施方式中,可以利用预先训练好的边界分类器,识别上述第一预测语义在上述潜在空间上的语义边界,其中,上述预先训练好的边界分类器是利用上述第一预测语义所属的第一语义层次的正样本和负样本训练得到。
示例性的,本公开实施例中的边界分类器可以是线性分类器。在机器学习领域,分类的目标是指将具有相似特征的对象聚集。而一个线性分类器则可以透过特征的线性组合来做出分类决定,以达到此种目的。对象的特征通常被描述为特征值,而在向量中则描述为特征向量。
对于一个二元分类问题,可以设想成是将一个线性分类利用超平面划分高维空间的情况:在超平面一侧的所有点都被分类成"是",另一侧则分成"否"。相应的,本公开实施例中对于特定的概念(预测语义),则可以通过将其视为二进制分类任务来学习潜在空间中的语义边界。
示例性的,本公开实施例中的线性分类器的功能可以使用支持向量机(SupportVector Machine,SVM)实现。SVM用于二分类问题,也就是通过寻找一个分类线(二维是直线,三维是平面,多维是超平面)可以将数据分为两类。
进一步地,在一种可选的实施方式中,上述第一语义层次的正样本的选择,可以是在上述第一语义层次的样本中,取按照语义强度由高到低排列的前N个样本;上述第一语义层次的负样本的选择,可以是上述第一语义层次的样本中,按照上述语义强度由高到低排列的后N个样本,其中,上述N为正整数,由此获得2N个样本。
具体的,上述样本可以理解为用于进行训练的图像,携带对应的语义类别标签,上述语义类别标签可以表示该图像的预测语义。上述语义强度可以通过语义分类器对预测语义的置信度或者评分来评估,其中置信度或者评分可以与语义强度成正比。
在这一步中,可以根据预测语义的语义强度,选出2N个代表性的正负样本,来训练上述边界分类器,进而为该预测语义对应的语义层次找到对应的语义边界。其输入可以为:潜在编码及其对应预测语义,输出为:每个预测语义在潜在潜在空间中对应的边界。输入潜在编码之后,基于潜在编码和生成模型可以得到生成图像,然后再进行语义预测可以获得预测语义,进而可以根据潜在编码与预测语义确定语义边界。
通过训练后的边界分类器,则可以确定上述语义边界,进而可以进行语义编辑操作,通过语义编辑可以进行对目标语义的确定以及生成新的图像。
对每一个语义层次的预测语义都可以确定其对应的语义边界,本公开实施例中可以确定一个或者同时确定多个预测语义的语义边界,以下仅以第一预测语义的语义边界为例进行描述。在该步骤中,确定语义边界具体还可以理解为获得对应于语义边界的集合可表示上述潜在编码和预测语义之间的相关关系。
在确定上述语义边界之后,通过潜在编码可以直接调整生成图像的预测语义。例如,调整潜在编码在潜在空间中的位置,获得的生成图像的预测语义就会相应地变化。
在确定上述语义边界之后,就可以基于语义边界来调整上述潜在编码的位置,调整后的潜在编码以及对应的生成模型可以用来生成与第一图像不同的图像,即上述第二图像,此时第二图像的预测语义相对第一图像的预测语义具有改变,这是其改变是由前述潜在编码的位置改变决定的。
在一种可选的实施方式中,具体可以按照上述语义边界的法向量方向移动上述潜在编码,得到上述调整后的潜在编码。
可以获取上述目标语义在该潜在空间中的语义边界,再沿上述语义边界的法向量方向移动上述潜在编码,得到上述调整后的潜在编码,通过上述调整后的潜在编码和生成模型可以得到经语义编辑后的第二图像。
法向量,是空间解析几何的一个概念,垂直于平面的直线所表示的向量为该平面的法向量。本公开实施例中的移动法向量垂直于对应的语义边界(超平面)。具体的,可以在上述潜在空间中沿上述语义边界的法向量方向移动上述目标编码到新的位置,改变了潜在空间中的目标编码所对应的预测语义,即可以利用该新的生成模型和潜在编码进行图像合成,获得上述第二图像。
可选的,沿上述语义边界的法向量移动上述潜在编码,使上述潜在编码从上述语义边界的一侧到上述语义边界的另一侧,可以将对应的语义进行替换,若只在语义边界的一侧移动,则是可以编辑该语义的语义强度。
通过分析多个上述潜在编码在上述潜在空间中的位置变化,可以得到生成图像的多种预测语义分别对应的改变程度,进而可以根据预设条件选择其中改变程度较大的作为可编辑语义,上述预设条件可以根据需要设置。
具体的,可以选择改变程度最大的作为目标语义,或者,按照改变程度由大到小进行排序,选取排列在前n位的作为目标语义,其中上述n为正整数,可以根据需要进行设置,本公开实施例对此不作限制。
对于调整后的生成图像依然可以用相同或类似的语义判别模型进行处理,获得新的预测语义,再与调整前的预测语义进行比对分析。上述预测语义的改变程度具体可以通过调前后语义判别模型输出的预测语义的置信度差异度或者评分差异度表示,以及可以通过统计图的方式输出显示。
通过部署语义分类器作为评分函数,能够对生成模型合成的图像提取语义信息和置信度。根据前述介绍的语义映射可以获得上述潜在编码与第一预测语义的映射关系,其中假设上述第一预测语义为本公开实施例中可以基于潜在编码进行编辑的目标语义,上述位置变化可以编辑该第一预测语义的变化。即在上述变化前后可以利用上述生成模型获得至少两张不同的生成图像作为上述对比图像,并将获得的生成图像的置信度进行比对,可以获得上述对比图像中上述第一预测语义的置信度变化值,可以表征上述第一预测语义的变化程度。具体可以参考图5所示的相关描述。
具体的,可以生成场景改变中的语义变化示意图。本公开实施例中涉及的语义识别方法可以基于深度学习模块,例如生成式对抗网络(Generative AdversarialNetworks,GAN)实现。模型通过框架中(至少)两个模块:生成模型(Generative Model)和判别模型(Discriminative Model)的互相博弈学习产生相当好的输出。本公开实施例中的上述语义分类器即可以对应执行上述判别模型的功能。
在一种可选的实施方式中,本公开还可以根据输出的预测语义的置信度可以对语义的重要程度进行判断,以确定不同场景下的主要语义。一般而言,置信度越高的预测语义表示该语义在生成图像中表现得越突出。比如将生成图像的预测语义的置信度由高到低进行排序,其中置信度高的预测语义即可确认为该场景下的主要语义。上述方法可以分析单个场景下的主要语义,及不同场景变化过程中的语义改变,增加了模型及其合成机制的可解释性。
在一种可选的实施方式中,可以获取上述第一预测语义的置信度和上述第二预测语义的置信度,再基于上述第一预测语义的置信度和上述第二预测语义的置信度的差异度,确定上述第一预测语义的改变程度。其中,上述语义的改变程度的评估形式和主要语义的确定还可以有其他类似的方式,本公开实施例对此不作限制。
示例性的,结合本公开的上述实施例,本公开可适用的一种应用场景如下:
生成模型可以随机选择潜在空间中的潜在编码,利用选择的潜在编码,生成若干幅图像。可以利用不同层次的语义分类器分别对生成的图像进行语义识别,并得到每张图像对应的语义类别标签。上述各语义类别标签即表示生成图像各层次的预测语义。
进一步地,可以进行语义编辑操作。例如,可以基于潜在空间中每种语义层次的语义边界来调整潜在编码,并利用调整后的潜在编码和生成模型,生成新的图像并识别对应的语义类别标签,新的图像中存在发生变化的语义类别标签。这些发生变化的语义类别标签所表示的语义可以为上述目标语义。比如,语义类别标签可以从卧室改变到起居室,反之亦然。
可以参见图3,图3是一种多个场景的语义编辑示意图,是用于合成不同场景的GAN风格模型的操作结果。对于每个三个图像组成的一组,每组图像上方标注了目标属性,左侧标注了场景,其中第一个图像是原图像,另外两幅图像为以原图像为基础,通过上述语义编辑操作获得的生成图像,对于语义编辑获得图像,编辑处理(对于潜在编码的调整)的幅度越大,对应的图像效果改变程度也更明显。可见,本公开实施例中的图像处理框架不仅为揭示GAN生成过程中出现的潜在空间对应的语义提供了一个解释工具,而且为高保真度的语义图像处理提供了方便。
利用上述模型可以学习到放置不同的物体来合成不同的图像场景;还可以学习到不同场景类别之间的一些共享对象,如墙壁、天花板、油漆、窗玻璃等,还可以学习到映射分类对象以转换场景,比如卧室的床到客厅里的沙发。
此外,通过上述方法还可以验证预测语义是否支持通过改变潜在编码的操作进行编辑。在一种实施方式中,利用经过验证确定的可编辑语义(即目标语义),可以在不同的语义层次下对生成图像进行语义编辑,如改变视角、增加场景室内光照等。
在本公开实施例中,生成第一图像,对上述第一图像进行多种语义层次中每种语义层次上的语义识别处理,得到上述第一图像的多种预测语义,再基于上述第一图像的多种预测语义,识别上述第一图像的目标语义,其中,上述目标语义被用于进行语义编辑处理,相比使用一般使用语义掩码的语义识别方法,其仅关注物体本身,只能编辑图像中某些物体的种类和位置而言,而本公开通过获取不同语义层次上的多种预测语义,找出第一图像中可以编辑的目标语义,能够提高生成模型的可解释性,也可以在原有图像的基础上,通过对目标语义的语义编辑操作,例如场景的空间布局、场景内部的物体种类以及场景自身的属性等可以有利于获得更多不同语义层次的语义的图像。
本公开实施例中的方法,可以联系图像生成模型的潜在空间和语义空间,并且可以找到其中的每个语义在潜在空间中的边界,进而可以更具针对性地进行语义编辑和图像合成,使生成图像效果更好。
请参阅图4,图4是本公开实施例公开的另一种语义识别方法的流程示意图,图4是在图1的基础上进一步优化得到的。执行本公开实施例步骤的主体可以为前述的一种语义识别装置。如图4所示,该语义识别方法包括如下步骤:
401、获取第三图像并提取上述第三图像的特征向量。
其中,上述第三图像可以为任意图像,在获得第三图像之后,本公开实施例可以实现基于该第三图像进行语义编辑,获得不同层次的语义的其他生成图像。在本公开实施例中,仅已有第三图像而无产生该第三图像的生成模型时,可以提取该第三图像的特征向量以投射到已有的生成模型的潜在空间,可以执行步骤402,来获得一个新的生成模型。
本公开实施例可以获得与现有图像的生成模型类似的新的生成模型,从而基于新的生成模型及该生成模型的潜在编码,通过本公开的语义识别方法进行目标语义的确定和语义编辑操作,可以在原有图像的基础上,通过对目标语义的语义编辑操作,例如场景的空间布局、场景内部的物体种类以及场景自身的属性等可以有利于获得更多不同语义层次的语义的图像。
402、将提取的特征向量映射到潜在空间上,作为上述生成模型的潜在空间中的潜在编码。
上述潜在空间可以为已有的模板生成模型的潜在空间,由于特征向量可以对应于图像的生成模型的潜在空间中的潜在编码,将提取的特征向量映射到上述潜在空间上,可以作为上述生成模型的潜在空间中的潜在编码,由此创建出一个新的生成模型,该新的生成模型可以理解为与生成上述第三图像的生成模型类似的模型,进而可以基于该生成模型进行语义编辑。其中,关于潜在空间、潜在编码分别与特征向量集合、特征向量的关系可以参考图4所示的实施例中的具体描述。
403、利用生成模型和上述生成模型中的潜在编码,生成第一图像。
其中,上述步骤可以参考图1所示实施例的步骤101中的具体描述,此处不再赘述。
304、对上述第一图像进行多种语义层次中每种语义层次上的语义识别处理,得到上述第一图像的多种预测语义。
其中,上述步骤404可以参考图1所示实施例中步骤102中的具体描述,此处不再赘述。
405、基于上述第一图像的多种预测语义,识别上述第一图像的目标语义,其中,上述目标语义被用于进行语义编辑处理。
具体的,可以基于上述第一预测语义,对上述潜在编码进行调整,得到调整后的潜在编码;
利用上述调整后的潜在编码和生成模型,生成第二图像并识别上述第二图像的第二预测语义;
基于上述第一预测语义和上述第二预测语义之间的区别程度,确定上述第一预测语义的改变程度;
在得到上述多种预测语义分别对应的改变程度之后,基于上述多种预测语义分别对应的改变程度,从上述多种预测语义中选择改变程度符合预设条件的上述目标语义。
其中,上述步骤可以参考图1所示实施例中步骤3中的具体描述,此处不再赘述。
通过上述步骤可以确定可编辑的目标语义,进而可以进行语义编辑操作,即可以执行步骤406。
406、对上述第一图像的目标语义进行语义编辑处理,得到经语义编辑后的第二图像。
具体的,由于对于每个预测语义,获得了在潜在空间中对应的语义边界。在一种可选的实施方式中,具体可以按照上述语义边界的法向量方向移动上述潜在编码,得到上述调整后的潜在编码,可以参考图1所示实施例中步骤103中的具体描述。
本公开实施例中的语义编辑处理,可以包括语义替换,如将语义A替换为语义B,得到符合语义B的第二图像;或者,语义程度编辑,如突出语义A的特征,得到第二图像等编辑处理,可以通过具体的编辑操作确定,本公开实施例对此不作限制。
对于潜在编码的改变,示例性的,可以在接收由用户触发的变化指令来触发。上述变化指令可以理解为对生成图像中需要改变的概念的执行指令,比如在一个场景中需要的调整,如明暗程度、增删家具等,在生成模型的生成图像中具有对应的语义。
例如,用户可以选择目标语义进行编辑,用户可以通过触发变化指令来指定图像中待修改的元素(比如物体或场景等),后台响应于用户操作触发的变化指令,确定该元素所属语义是否为目标语义,若属于可编辑的目标语义,则可以利用潜在空间中与目标语义边界对应的法向量来改变目标语义对应的潜在编码,进而利用调整后的潜在编码,生成不同于目标语义的新的图像。
可以重复执行上述步骤406以获得不同的生成图像。利用上述可编辑的目标语义,可以在不同的语义层次下进行语义编辑获得更多不同层次的语义的图像,如精确到改变视角,增加场景室内光照等,增加图像合成的选择,图像处理的效果更好。
本公开实施例中的步骤406可以在步骤405确定目标语义执行一次后,多次执行,即通过编辑语义可以获得不同层次的语义的图像。可以理解为只需要执行一次获得一个或者多个语义边界的步骤,然后在实际应用时为了生成一个特定场景的图像,可以根据步骤406的操作改变潜在编码来实现。可见本公开实施例中的设置的语义分类器可以有一个或者多个,对应的语义边界也可以有一个或多个,通过改变潜在编码可以实现同时编辑图片的多个语义,对此不做限制。
本公开实施例通过获取第三图像并提取上述第三图像的特征向量,将提取的特征向量映射到上述潜在空间上,作为上述生成模型的潜在空间中的潜在编码,再利用生成模型和上述生成模型中的潜在编码,生成第一图像,再对上述第一图像进行多种语义层次中每种语义层次上的语义识别处理,得到上述第一图像的多种预测语义,然后基于上述第一图像的多种预测语义,识别上述第一图像的目标语义,其中,上述目标语义被用于进行语义编辑处理,可以关注第一图像中可以编辑的目标语义,为潜在空间和语义空间搭建桥梁,能够提高生成模型的可解释性,进一步地可以对上述第一图像的目标语义进行语义编辑处理,得到经语义编辑后的第二图像,通过对目标语义的语义编辑操作,例如场景的空间布局、场景内部的物体种类以及场景自身的属性等,可以在原有图像的基础上,可以有利于获得更多不同语义层次的语义的图像。
进一步地,可以参见图5所示的一种解释潜在空间中语义的框架示意图,如图5所示,通过部署布局分类器和室内照明分类器等现成的语义分类器作为评分函数,例如图中的F1(·)和F2(·),可以对生成模型G(·)合成的一组图像提取预测语义和对应的置信度。对于特定的概念,可以通过将其视为二进制分类任务来学习潜在空间中的决策边界,即训练如何确定前述语义边界。然后,可以使用重新评分技术的方式来验证语义(可以是不同的语义层次)是否支持通过改变潜在编码进行编辑的操作。最后,利用经过验证的目标语义,可以在不同的语义层次下对图像的合成场景进行操作,如改变视点,增加场景室内光照等。
具体地来讲,与前述图1和图4所示实施例中的步骤对应的,本公开实施例中对生成模型的潜在编码与预测语义的分析过程可以概括为图4中的三个步骤:语义映射、边界搜索和操作验证。以下进行详细描述:
步骤1:语义映射。语义空间S是由前述引入的生成模型和语义分类器的输出构成的,可以理解为包含语义分类器输出的预测语义的集合,表示为这里,m是S中包含的语义(即,上述预测语义或上述语义类别标签)总数。具体的,作为评分函数的语义分类器Fi(·)能够在给定的合成图像上输出相应的语义评分(即,上述语义程度或者预测语义的置信度等)。因此,可以使用m维向量s=[s1,s2,…,sm]T=[F1(x),F2(x),…,Fm(x)]T表示图像x的所有预测语义,然后,利用合成图像作为中间输出,可将潜在空间Z映射到语义空间S:
s=F(G(z)),(1)
其中,由于作为评分函数的语义分类器Fi(·)可以有多个,则在这些语义分类器组合作为评分函数的情况下,评分函数可以表示为F(·)=[F1(·),F2(·),…,Fm(·)]T。需要注意的是,可以来自语义分类器,而G(·)是用来解释的生成模型。
步骤2:边界搜索。
首先,一个生成模型对应一个自己的潜在空间Z,该潜在空间Z中包含多个潜在编码z,其中上述潜在编码可以理解为噪声点,上述潜在空间和潜在编码也是该生成模型对应的特征向量集合以及其中的特征向量的具体表现形式。其原理是,生成模型可以从潜在空间Z采样其中的潜在编码z,进而获得生成的图像x,可表示为:x=G(z)。上述s表示图像x的所有预测语义。
利用步骤1的语义映射,通过对潜在空间Z的随机采样,可以得到配对数据{z,s},在重复这个过程N次后,可以得到一个标记数据集其中si被视为zi的语义标签。然后对每一个可在潜在空间中训练一个分离边界(即前述语义边界),以从zi预测sj。其中,可以将所有样本分类为负样本和正样本,并以这种二值分类的方式训练线性支持向量机。示例性的,上述样本可以包括潜在编码z和对应的预测语义s,还可以是携带预测语义标签的图像,其中预测语义标签可以指示预测语义s,还可以指示图像对应的潜在编码z,具体在图4所示的实施例中已介绍,此处不再赘述。在这种情况下,边界的负侧的样本被认为对第j个预测语义具有低响应,而位于正侧的样本具有高响应。这样的边界在Z空间中定义了一个超平面,可以用向量nj表示相应的法向量。
步骤3:操作验证。在执行步骤2之后,可以获得语义边界的集合,表示合成图像中的潜在编码和预测语义之间的相关关系。这样,作为一个特征的潜在编码本身就可以向合成图像中的某些概念的存在提供信息,即Z可以直接用来获得预测语义。
为了进一步验证相关关系之上的因果关系,可以改变潜在编码在潜在空间中的位置,生成图像的语义就会相应地变化。
为此,具体可以使用以下重评分技术:在给定训练语义边界nj的情况下,重新采样K个潜在编码并预测它们对第j个语义的响应为然后,将所有样本沿边界法向量方向nj一起移动,获得相应的生成图像,然后用相同的现成分类器重新评分它们的置信度以检查响应变化。由此可得,如果一个语义是可操作的,那么要衡量的分数可以表述为:
式中,|·|代表绝对值运算,λ为移动步长。为了使每个语义具有可比性,所有的边界方向都被归一化,并且λ可被固定为2。在此之后,可以简单地将得分Δsj排序到所有m个语义中,以选择出支持通过移动潜在编码进行语义编辑操作的目标语义。可以对应图1所示实施例中的具体描述,此处不再赘述。
本公开实施例提出的语义识别方法具有广泛性,能够用于各图像生成模型的分析评估以及生成模型的图像生成、场景合成,比如在进行室内装饰设计的效果图合成场景中,也可以结合其他涉及到视频和图像处理的技术中,如人脸图像的语义编辑,本公开实施例不做限制。相对于直接使用一般的生成模型合成图像而言,不仅可以编辑图片内部物体的种类和位置,还可以编辑和理解场景的空间布局和属性。
进一步地,可以参见图6所示的一种不同层次语义的独立编辑和联合编辑示意图。对于一个潜在编码,可以在潜在空间中沿语义边界的法向量方向移动不同的距离,实现对该语义层次的不同强度的语义编辑;以及也可以在潜在空间中沿不同的语义边界的法向量方向移动,即本公开实施例中的方案可以实现同层次语义的独立编辑,也能实现不同层次语义的联合编辑。
如图6所示,第1列表示原图像,中间三列(2、3、4)表示独立操作的图像,最后一列(5)表示联合编辑的图像。第2列的图像是对布局编辑的结果,第3列的图像是对场景类型编辑的结果,第3列的图像是对室内照明属性编辑的结果,第5列是在原图像的基础上联合2、3、4类编辑获得的生成图像。
基于上述不同层次的联合编辑,也可以实现不同层次的语义分析。比如可以结合图1所示实施例中的步骤分析出不同的语义概念在何种转换层次进行潜在编码的操作更佳。比如对于前述三种分语义分类联合操作的结果:布局在低层编辑,分类对象在中间层编辑,而室内照明属性在高层编辑。
综上,本公开实施例提供了一个解释潜在语义的框架,可利用多个不同的语义判别模型(语义分类器)来关注场景中多个层次的潜在语义,其中上述潜在语义即为与上述潜在空间中的潜在编码确定映射关系的语义,经验证,潜在语义中有一些可通过潜在编码进行语义编辑的目标语义,为潜在空间和语义空间搭建桥梁,实现了在潜在空间直接编辑语义的功能。通过对目标语义的编辑操作,例如场景的空间布局、场景内部的物体种类以及场景自身的属性等,这使得可以实现在不同层次上直接编辑图片内容。同时,还提供了一种为不同场景分析主要语义的方式,可以结合图1所示的实施例中的具体描述进行参考,进一步关注了场景之间变化时,语义的改变。这使得能够进一步理解不同场景的交互。
本领域技术人员可以理解,在具体实施方式的上述方法中,各步骤的撰写顺序并不意味着严格的执行顺序而对实施过程构成任何限定,各步骤的具体执行顺序应当以其功能和可能的内在逻辑确定。
上述主要从方法侧执行过程的角度对本公开实施例的方案进行了介绍。可以理解的是,语义识别装置为了实现上述功能,其包含了执行各个功能相应的硬件结构和/或软件模块。本领域技术人员应该很容易意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,本公开能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对特定的应用使用不同方法来实现所描述的功能,但是这种实现不应认为超出本公开的范围。
本公开实施例可以根据上述方法示例对语义识别装置进行功能单元的划分,例如,可以对应各个功能划分各个功能单元,也可以将两个或两个以上的功能集成在一个处理单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。需要说明的是,本公开实施例中对单元的划分是示意性的,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
请参阅图7,图7是本公开实施例公开的一种语义识别装置的结构示意图。如图7所示,该语义识别装置700包括生成模块710、语义识别模块720、搜索模块730和编辑模块740,其中:
上述生成模块710,用于生成第一图像;
上述语义识别模块720,用于对上述第一图像进行多种语义层次中每种语义层次上的语义识别处理,得到上述第一图像的多种预测语义;
上述搜索模块730,用于基于上述第一图像的多种预测语义,识别上述第一图像的目标语义,其中,上述目标语义被上述编辑模块740用于进行语义编辑处理。
可选的,上述编辑模块740用于对上述第一图像的目标语义进行语义编辑处理,得到经语义编辑后的第二图像。
可选的,上述生成模块710具体用于:获取生成模型的潜在空间中的潜在编码;利用生成模型和上述生成模型中的潜在编码,生成第一图像。
可选的,上述生成模块710具体用于:获取第三图像并提取上述第三图像的特征向量;将提取的特征向量映射到上述潜在空间上,作为上述生成模型的潜在空间中的潜在编码。
可选的,上述多种语义层次中的第一语义层次对应有第一语义判别模型;第一语义层次为上述多种语义层次中的任一种;上述语义识别模块720具体用于:利用上述第一语义判别模型,对上述第一图像进行第一语义层次上的语义识别处理,得到上述第一图像在上述第一语义层次上的预测语义。
可选的,上述多种预测语义中的第一预测语义与生成模型的潜在空间中的潜在编码相对应,上述生成模型和上述潜在编码被用于生成上述第一图像,上述第一预测语义为上述多种预测语义中的任一种;上述搜索模块730具体用于:
基于上述第一预测语义,对上述潜在编码进行调整,得到调整后的潜在编码;利用上述调整后的潜在编码和生成模型,生成第二图像并识别上述第二图像的第二预测语义;基于上述第一预测语义和上述第二预测语义之间的区别程度,确定上述第一预测语义的改变程度;在得到上述多种预测语义分别对应的改变程度之后,基于上述多种预测语义分别对应的改变程度,从上述多种预测语义中选择改变程度符合预设条件的上述目标语义。
可选的,上述搜索模块730具体用于:识别上述第一预测语义在上述潜在空间上的语义边界;基于上述语义边界,对上述潜在编码进行调整,得到调整后的潜在编码。
可选的,上述搜索模块730还具体用于:获取上述第一预测语义的置信度和上述第二预测语义的置信度;基于上述第一预测语义的置信度和上述第二预测语义的置信度的差异度,确定上述第一预测语义的改变程度。
可选的,上述搜索模块730具体还用于:利用预先训练好的边界分类器,识别上述第一预测语义在上述潜在空间上的语义边界,其中,上述预先训练好的边界分类器是利用上述第一预测语义所属的第一语义层次的正样本和负样本训练得到。
可选的,上述第一语义层次的正样本包括:上述第一语义层次的样本中,按照语义强度由高到低排列的前N个样本;上述第一语义层次的负样本包括:上述第一语义层次的样本中,按照上述语义强度由高到低排列的后N个样本,其中,上述N为正整数。
可选的,上述编辑模块740具体用于:按照上述语义边界的法向量对上述潜在编码进行调整,得到上述调整后的潜在编码。
使用本公开实施例中的语义识别装置700,可以实现前述图1和图4实施例中的语义识别方法。
实施图7所示的语义识别装置700,语义识别装置700可以生成第一图像,对所述第一图像进行多种语义层次中每种语义层次上的语义识别处理,得到所述第一图像的多种预测语义,再基于所述第一图像的多种预测语义,识别所述第一图像的目标语义,其中,所述目标语义被用于进行语义编辑处理,相比使用一般使用语义掩码的语义识别方法,其仅关注物体本身,只能编辑图像中某些物体的种类和位置而言,而本公开依据识别的生成模型生成图像时的可编辑语义,提高了生成模型的可解释性,这样可以对图像的语义进行编辑处理,例如场景的空间布局、场景内部的物体种类以及场景自身的属性等,可以在原有图像的基础上,获得更多不同层次的语义的图像。
请参阅图8,图8是本公开实施例公开的一种电子设备的结构示意图。如图8所示,该电子设备500包括处理器501和存储器502,其中,电子设备500还可以包括总线503,处理器501和存储器502可以通过总线503相互连接,总线503可以是外设部件互连标准(Peripheral Component Interconnect,PCI)总线或扩展工业标准结构(ExtendedIndustry Standard Architecture,EISA)总线等。总线503可以分为地址总线、数据总线、控制总线等。为便于表示,图8中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。其中,电子设备500还可以包括输入输出设备504,输入输出设备504可以包括显示屏,例如液晶显示屏。存储器502用于存储计算机程序;处理器501用于调用存储在存储器502中的计算机程序执行上述图1和图4实施例中提到的部分或全部方法步骤。
实施图8所示的电子设备500,电子设备500可以生成第一图像,对所述第一图像进行多种语义层次中每种语义层次上的语义识别处理,得到所述第一图像的多种预测语义,再基于所述第一图像的多种预测语义,识别所述第一图像的目标语义,其中,所述目标语义被用于进行语义编辑处理,相比使用一般使用语义掩码的语义识别方法,其仅关注物体本身,只能编辑图像中某些物体的种类和位置而言,而本公开依据识别的生成模型生成图像时的可编辑语义,提高了生成模型的可解释性,这样可以对图像的语义进行编辑处理,例如场景的空间布局、场景内部的物体种类以及场景自身的属性等,可以在原有图像的基础上,获得更多不同层次的语义的图像。
本公开实施例还提供一种计算机存储介质,其中,该计算机存储介质用于存储计算机程序,该计算机程序使得计算机执行如上述方法实施例中记载的任何一种语义识别方法的部分或全部步骤。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本公开并不受所描述的动作顺序的限制,因为依据本公开,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本公开所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本公开所提供的几个实施例中,应该理解到,所揭露的装置,可通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元(模块)可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本公开各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储器中。基于这样的理解,本公开的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储器中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本公开各个实施例所述方法的全部或部分步骤。而前述的存储器包括:U盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储器中,存储器可以包括:闪存盘、只读存储器、随机存取器、磁盘或光盘等。
以上对本公开实施例进行了详细介绍,本文中应用了具体个例对本公开的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本公开的方法及其核心思想;同时,对于本领域的一般技术人员,依据本公开的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本公开的限制。

Claims (10)

1.一种语义识别方法,其特征在于,所述方法包括:
生成第一图像;
对所述第一图像进行多种语义层次中每种语义层次上的语义识别处理,得到所述第一图像的多种预测语义;
基于所述第一图像的多种预测语义,识别所述第一图像的目标语义,其中,所述目标语义被用于进行语义编辑处理。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
对所述第一图像的目标语义进行语义编辑处理,得到经语义编辑后的第二图像。
3.根据权利要求1或2所述的方法,其特征在于,所述生成第一图像,包括:
获取生成模型的潜在空间中的潜在编码;
利用生成模型和所述生成模型中的潜在编码,生成第一图像。
4.根据权利要求3所述的方法,其特征在于,所述获取生成模型的潜在空间中的潜在编码,包括:
获取第三图像并提取所述第三图像的特征向量;
将提取的特征向量映射到所述潜在空间上,作为所述生成模型的潜在空间中的潜在编码。
5.根据权利要求1至4任一所述的方法,其特征在于,所述多种语义层次中的第一语义层次对应有第一语义判别模型;第一语义层次为所述多种语义层次中的任一种;
所述对所述第一图像进行多种语义层次中每种语义层次上的语义识别处理,得到所述第一图像的多种预测语义,包括:
利用所述第一语义判别模型,对所述第一图像进行第一语义层次上的语义识别处理,得到所述第一图像在所述第一语义层次上的预测语义。
6.根据权利要求1至5任一所述的方法,其特征在于,所述多种预测语义中的第一预测语义与生成模型的潜在空间中的潜在编码相对应,所述生成模型和所述潜在编码被用于生成所述第一图像,所述第一预测语义为所述多种预测语义中的任一种;
所述基于所述第一图像的多种预测语义,识别所述第一图像的目标语义,包括:
基于所述第一预测语义,对所述潜在编码进行调整,得到调整后的潜在编码;
利用所述调整后的潜在编码和所述生成模型,生成第二图像并识别所述第二图像的第二预测语义;
基于所述第一预测语义和所述第二预测语义之间的区别程度,确定所述第一预测语义的改变程度;
在得到所述多种预测语义分别对应的改变程度之后,基于所述多种预测语义分别对应的改变程度,从所述多种预测语义中选择改变程度符合预设条件的所述目标语义。
7.根据权利要求6所述的方法,其特征在于,所述基于所述第一预测语义,对所述潜在编码进行调整,得到调整后的潜在编码,包括:
识别所述第一预测语义在所述潜在空间上的语义边界;
基于所述语义边界,对所述潜在编码进行调整,得到调整后的潜在编码。
8.一种语义识别装置,其特征在于,包括:生成模块、语义识别模块、搜索模块和编辑模块,其中:
所述生成模块,用于生成第一图像;
所述语义识别模块,用于对所述第一图像进行多种语义层次中每种语义层次上的语义识别处理,得到所述第一图像的多种预测语义;
所述搜索模块,用于基于所述第一图像的多种预测语义,识别所述第一图像的目标语义,其中,所述目标语义被所述编辑模块用于进行语义编辑处理。
9.一种电子设备,其特征在于,包括处理器以及存储器,所述存储器用于存储计算机程序,所述计算机程序被配置成由所述处理器执行,所述处理器用于执行如权利要求1-7任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质用于存储计算机程序,其中,所述计算机程序使得计算机执行如权利要求1-7任一项所述的方法。
CN201910749750.1A 2019-08-14 2019-08-14 语义识别方法和装置、电子设备及存储介质 Active CN110458237B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910749750.1A CN110458237B (zh) 2019-08-14 2019-08-14 语义识别方法和装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910749750.1A CN110458237B (zh) 2019-08-14 2019-08-14 语义识别方法和装置、电子设备及存储介质

Publications (2)

Publication Number Publication Date
CN110458237A true CN110458237A (zh) 2019-11-15
CN110458237B CN110458237B (zh) 2022-03-04

Family

ID=68486558

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910749750.1A Active CN110458237B (zh) 2019-08-14 2019-08-14 语义识别方法和装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN110458237B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111144510A (zh) * 2019-12-31 2020-05-12 上海云从汇临人工智能科技有限公司 基于多模型的图像语义识别方法、系统、设备及介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104735468A (zh) * 2015-04-03 2015-06-24 北京威扬科技有限公司 一种基于语义分析将图像合成新视频的方法及系统
CN107527318A (zh) * 2017-07-17 2017-12-29 复旦大学 一种基于生成对抗式网络模型的发型更换方法
CN107644642A (zh) * 2017-09-20 2018-01-30 广东欧珀移动通信有限公司 语义识别方法、装置、存储介质及电子设备
CN109377535A (zh) * 2018-10-24 2019-02-22 电子科技大学 面部属性自动编辑系统、方法、存储介质和终端

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104735468A (zh) * 2015-04-03 2015-06-24 北京威扬科技有限公司 一种基于语义分析将图像合成新视频的方法及系统
CN107527318A (zh) * 2017-07-17 2017-12-29 复旦大学 一种基于生成对抗式网络模型的发型更换方法
CN107644642A (zh) * 2017-09-20 2018-01-30 广东欧珀移动通信有限公司 语义识别方法、装置、存储介质及电子设备
CN109377535A (zh) * 2018-10-24 2019-02-22 电子科技大学 面部属性自动编辑系统、方法、存储介质和终端

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
GUIM PERARNAU 等: "Invertible Conditional GANs for image editing", 《ARXIV》 *
罗佳 等: "生成式对抗网络研究综述", 《仪器仪表学报》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111144510A (zh) * 2019-12-31 2020-05-12 上海云从汇临人工智能科技有限公司 基于多模型的图像语义识别方法、系统、设备及介质

Also Published As

Publication number Publication date
CN110458237B (zh) 2022-03-04

Similar Documents

Publication Publication Date Title
CN110298415B (zh) 一种半监督学习的训练方法、系统和计算机可读存储介质
Karayev et al. Recognizing image style
Lan et al. Action recognition by hierarchical mid-level action elements
CN104572804B (zh) 一种视频物体检索的方法及其系统
US20140198954A1 (en) Systems and methods of detecting body movements using globally generated multi-dimensional gesture data
WO2019114147A1 (zh) 图像美学处理方法及电子设备
CN110222707A (zh) 一种文本数据增强方法及装置、电子设备
CN108141645A (zh) 具有成对深度排序的视频重点检测
Wang et al. 3D human motion editing and synthesis: A survey
CN109145766A (zh) 模型训练方法、装置、识别方法、电子设备及存储介质
CN105549885A (zh) 滑屏操控中用户情绪的识别方法和装置
CN109598279A (zh) 基于自编码对抗生成网络的零样本学习方法
Lai et al. Real-time micro-expression recognition based on ResNet and atrous convolutions
Ni et al. Pose adaptive motion feature pooling for human action analysis
CN109508625A (zh) 一种情感数据的分析方法及装置
Naqvi et al. Feature quality-based dynamic feature selection for improving salient object detection
Dai et al. Multi-granularity association learning for on-the-fly fine-grained sketch-based image retrieval
CN110458237A (zh) 语义识别方法和装置、电子设备及存储介质
Balachandar et al. Deep learning technique based visually impaired people using YOLO V3 framework mechanism
Zhang et al. Histopathological image recognition with domain knowledge based deep features
Rallis et al. Bidirectional long short-term memory networks and sparse hierarchical modeling for scalable educational learning of dance choreographies
Pflüger et al. Sifting through visual arts collections
CN113792167B (zh) 一种基于注意力机制和模态依赖的跨媒体交叉检索方法
CN114627312A (zh) 零样本图像分类方法、系统、设备及存储介质
Yang et al. Learning the synthesizability of dynamic texture samples

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant