CN111815631B - 模型生成方法、装置、设备和可读存储介质 - Google Patents
模型生成方法、装置、设备和可读存储介质 Download PDFInfo
- Publication number
- CN111815631B CN111815631B CN202010906703.6A CN202010906703A CN111815631B CN 111815631 B CN111815631 B CN 111815631B CN 202010906703 A CN202010906703 A CN 202010906703A CN 111815631 B CN111815631 B CN 111815631B
- Authority
- CN
- China
- Prior art keywords
- type
- predicted
- image
- codes
- class
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/0002—Inspection of images, e.g. flaw detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T9/00—Image coding
- G06T9/002—Image coding using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10004—Still image; Photographic image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20112—Image segmentation details
- G06T2207/20132—Image cropping
Abstract
本申请提出一种模型生成方法、装置、设备和可读存储介质,模型生成方法包括:获取第一类图像,第一类图像的标签信息包括与第一类图像表达相同内容的第二类图像;获取第一神经网络,第一神经网络包括初始编码器和初始解码器;利用第一类图像训练第一神经网络,得到训练后的第一神经网络中的第一编码器;其中,第一编码器用于对待预测图像对中的第一类图像进行编码,以提供第一类图像的编码进行待预测图像对的相似度评估。本申请有利于降低图像相似度评估的难度。
Description
技术领域
本申请涉及深度学习技术领域,尤其涉及一种模型生成方法、装置、设备和可读存储介质。
背景技术
目前基于深度学习的图像相似度评估方法,都在自然场景图像的相似度评估问题中取得了非常好效果。自然场景图像的分辨率相比于手写数字字符图像更高,内容丰富,包含更多的细节信息,而手写数字字符图像内容单一,细节上差异也不大。因此,利用现有评估方法进行手写数字字符图像相似度评估时,效果比较差。
发明内容
本申请实施例提供一种模型生成方法、装置、设备和可读存储介质,以解决相关技术存在的问题,技术方案如下:
第一方面,本申请实施例提供了一种模型生成方法,包括:
获取第一类图像,第一类图像的标签信息包括与第一类图像表达相同内容的第二类图像;
获取第一神经网络,第一神经网络包括初始编码器和初始解码器;
利用第一类图像训练第一神经网络,得到训练后的第一神经网络中的第一编码器;
其中,第一编码器用于对待预测图像对中的第一类图像进行编码,以提供第一类图像的编码进行待预测图像对的相似度评估。
第二方面,本申请实施例提供一种模型生成装置,包括:
第一类图像获取模块,用于获取第一类图像,第一类图像的标签信息包括与第一类图像表达相同内容的第二类图像;
第一神经网络获取模块,用于获取第一神经网络,第一神经网络包括初始编码器和初始解码器;
第一编码器训练模块,用于利用第一类图像训练第一神经网络,得到训练后的第一神经网络中的第一编码器;
其中,第一编码器用于对待预测图像对中的第一类图像进行编码,以提供第一类图像的编码进行待预测图像对的相似度评估。
第三方面,本申请实施例提供了一种模型生成设备,该模型生成设备包括:存储器和处理器。其中,该存储器和该处理器通过内部连接通路互相通信,该存储器用于存储指令,该处理器用于执行该存储器存储的指令,并且当该处理器执行该存储器存储的指令时,使得该处理器执行上述各方面任一种实施方式中的方法。
第四方面,本申请实施例提供了一种计算机可读存储介质,计算机可读存储介质存储计算机程序,当计算机程序在计算机上运行时,上述各方面任一种实施方式中的方法被执行。
上述技术方案中的优点或有益效果至少包括:以表达相同内容的第二类图像为监督信息,训练第一神经网络,可以使得第一神经网络生成的第一类图像接近表达相同内容的第二类图像。因此,利用第一神经网络中的第一编码器对第一类图像进行编码,得到的第一类图像的编码也会接近表达相同内容的第二类图像的编码。进而,利用该第一类编码器编码第一类图像的编码,和第二类图像的编码进行相似度比较,可以降低第一类图像和第二类图像的相似度评估的难度。
上述概述仅仅是为了说明书的目的,并不意图以任何方式进行限制。除上述描述的示意性的方面、实施方式和特征之外,通过参考附图和以下的详细描述,本申请进一步的方面、实施方式和特征将会是容易明白的。
附图说明
在附图中,除非另外规定,否则贯穿多个附图相同的附图标记表示相同或相似的部件或元素。这些附图不一定是按照比例绘制的。应该理解,这些附图仅描绘了根据本申请公开的一些实施方式,而不应将其视为是对本申请范围的限制。
图1为根据本申请实施例的模型生成方法的流程图一;
图2为根据本申请实施例的模型生成方法中第一神经网络的结构示例图;
图3为根据本申请实施例的模型生成方法的流程图二;
图4为根据本申请实施例的模型生成方法的流程图三;
图5为根据本申请实施例的模型生成方法的流程图四;
图6为根据本申请实施例的模型生成方法中第三神经网络的结构示例图;
图7为根据本申请实施例的模型生成方法的分类网络的结构示例图;
图8为根据本申请实施例的模型生成方法的流程图五;
图9为根据本申请实施例的模型生成方法的流程图六;
图10为根据本申请实施例的模型生成方法的流程图七;
图11为根据本申请实施例的模型生成方法的流程图八;
图12为根据本申请实施例的模型生成方法的一种示例的流程图;
图13为根据本申请实施例的模型生成装置的结构框图;
图14为根据本申请实施例的模型生成设备的结构框图。
具体实施方式
在下文中,仅简单地描述了某些示例性实施例。正如本领域技术人员可认识到的那样,在不脱离本申请的精神或范围的情况下,可通过各种不同方式修改所描述的实施例。因此,附图和描述被认为本质上是示例性的而非限制性的。
图1示出根据本申请一实施例的模型生成方法的流程图。如图1所示,该模型生成方法可以包括:
S101、获取第一类图像,第一类图像的标签信息包括与第一类图像表达相同内容的第二类图像;
S102、获取第一神经网络,第一神经网络包括初始编码器和初始解码器;
S103、利用第一类图像训练第一神经网络,得到训练后的第一神经网络中的第一编码器;
其中,第一编码器用于对待预测图像对中的第一类图像进行编码,以提供第一类图像的编码进行待预测图像对的相似度评估。
参见图2,图2为第一神经网络的结构示例图。在第一神经网络中,初始编码器用于根据输入的图像生成编码。初始解码器用于根据编码器的编码,还原图像并输出。
在本实施例中,以表达相同内容的第二类图像为监督信息,训练第一神经网络,可以使得第一神经网络生成的第一类图像接近表达相同内容的第二类图像。因此,利用第一神经网络中提取的第一编码器对第一类图像进行编码,得到的第一类图像的编码也会接近表达相同内容的第二类图像的编码。进而,利用该第一类编码器编码第一类图像的编码,和第二类图像的编码进行相似度比较,可以较为容易得出第一类图像和第二类图像的相似度结果。即,本实施例可以降低相似度评估的难度。
以极难辨识的手写字符图像和正常的手写字符图像的相似度评估为例。第一类图像可以为极难辨识的手写字符图像,第二类图像可以为正常的手写字符图像。以极难辨识的手写字符图像为输入,以表达相同内容的正常的手写字符图图像为监督信息,训练第一神经网络。训练后的第一神经网络的第一编码器,可以基于极难辨识的手写字符图像,得到接近表达相同内容的正常的手写字符图像的编码。因此,基于极难辨识的手写字符图像的编码和正常的手写字符图像的编码,可以较为容易确定图像相似度评估结果。
在一种实施方式中,参见图3,图1所示的方法还包括:
S301、获取第二类图像,第二类图像的标签信息包括第二类图像自身;
S302、获取第二神经网络,第二神经网络包括初始编码器和初始解码器;
S303、利用第二类图像训练第二神经网络,得到训练后的第二神经网络中的第二编码器;
其中,第二编码器用于对待预测图像对中的第二类图像进行编码,以利用第一编码器的编码结果和第二编码器的编码结果进行待预测图像对的相似度评估。
同样的,第二神经网络的结构可以参考图2的示例。
上述图3给出的实施例,以第二类图像自身为监督信息,训练第二神经网络,使得第二神经网络输出的图像接近第二类图像自身。因此,从训练后的第二神经网络中提取的第二编码器,其对第二类图像的编码可以更加准确表达第二类图像自身。
在一种实施方式中,初始编码器包括第一卷积层、第一归一化层和第一激活函数层,第一卷积层、第一归一化层和第一激活函数层交替分布;
初始解码器包括反卷积层、第二归一化层和第二激活函数层,反卷积层、第二归一化层和第二激活函数层交替分布。
在一种实施方式中,初始编码器为变分自编码器(Variational AutoEncoder,VAE)。
一种示例,第一神经网络和第二神经网络均采用VAE模型。VAE模型是一种重要的生成式模型。它由编码器和解码器两部分组成,通常以对数似然的下确界作为优化目标。因此,VAE模型的损失函数一般由重构损失和交叉熵损失两部分组成。VAE模型将输入通过编码器进行编码,然后将编码输入解码器,用于还远输入,在多数情况下,还原出的图片与原图片极为相近,相比于其他的生成式模型,VAE模型的训练更稳定,而且速度更快。VAE模型的结构可以参考图2。VAE模型将输入转化成的编码可能是某种分布的参数,也可能是特征图等。
本示例所采用的VAE模型的网络结构和参数具体细节为:
编码器由8层卷积组成。解码器由8层反卷积组成。每一层卷积和反卷积之后都使用BatchNormalization做归一化。每一层卷积之后都使用LeakyRelu函数作为激活函数。其中,LeakyRelu函数的α参数取值为0.2。每一层反卷积之后都使用Relu函数作为激活函数,
其中,8层卷积的特征映射数量分别为64、128、256、512、512、512、512和512。8层反卷积的特征映射数量分别为512、512、512、512、256、128、64和3。
另外,本示例所采用的VAE模型的其他参数及优化函数与常见的VAE模型一致。例如,使用平滑L1损失作为重构损失,整体损失函数为L1损失加上交叉熵损失。
在一种实施方式中,参见图4,图3所示的方法,还包括:
S401、将第一类图像输入第一编码器,得到第一类编码;
S402、将第二类图像输入第二编码器,得到第二类编码;
S403、根据第一类编码和第二类编码,训练第三神经网络,得到编码相似度评估模型;
S404、利用第一编码器、第二编码器和编码相似度评估模型,生成图像相似度评估模型。
利用编码相似度评估模型,对极难辨识的手写字符图像的编码和正常手写字符图像的编码进行相似度评估,可以较好地评估出两者是否相似。
在一种实施方式中,步骤S403根据第一类编码和第二类编码,训练第三神经网络,包括:
确定编码对和编码对的标签信息,编码对包括一个第一类编码和一个第二类编码,编码对的标签信息用于表示第一类编码和第二类编码是否相似;
根据编码对和编码对的标签,训练第三神经网络。
可选地,编码对的标签可以设为0或1,其中,“0”表示两个编码不相似,“1”表示两个编码相似。
具体地,在对第三神经网络训练时,由于第一类图像和第二类图像的所表达的内容是已知的。因此,将第一类图像输入第一编码器所得到的第一类编码,每个编码的内容也是已知的。例如,第一类图像为字符图像,那么基于第一类图像所表示的字符,可以知道第一类编码表达的字符。同理,第二类编码所表达的字符也是已知的。
因此,可以将表达相同内容的第一类编码和第二类编码组成一个相似编码对,表达内容不相同的第一类编码和第二类编码组成一个不相似编码对,以此得到大量数据用于第三神经网络的训练。
在一种实施方式中,参见图5,步骤S403根据第一类编码和第二类编码,训练第三神经网络,包括:
S501、对第一类编码和第二类编码均进行预设目标区域的剪切,得到第一类区域编码和第二类区域编码;
S502、对第一类编码和第二类编码均进行降采样处理,得到第一类降采样编码和第二类降采样编码;
S503、根据第一类区域编码、第二类区域编码、第一类降采样编码和第二类降采样编码,训练第三神经网络。
一类编码和第二类编码进行目标区域和降采样处理后,可以得到图像的多种分辨率信息,有助于网络更好的区分两张原始图像是否匹配。
可选地,步骤S501中,目标区域为中心区域。由于图像所要表达的内容大多处于图像的中心区域,因此,剪切出编码的中心区域,有利于给予图像的中心部分应该被更多的关注。
可选地,步骤S501中,在第一类编码和第二类编码的中心区域剪切出来占其本身1/4大小的编码,称为中心编码。步骤S502中,对第一类编码和第二类编码进行2倍降采样,得到的编码也为原编码1/4大小,称为全局图像。
在一种实施方式中,参见图6,第三神经网络包括特征网络和分类网络。特征网络包括四个分支,如图所示分支601、分支602、分支603和分支604。四个分支用于输入第一类区域编码、第二类区域编码、第一类降采样编码和第二类降采样编码。
四个分支的权重不相同,每个分支包括预设层数的第二卷积层。第二卷积层串联连接。可选地,每个分支包括三层第二卷积层。
在一种实施方式中,参见图7,分类网络包括全连接层和归一化层。全连接层连接归一化层。
可选地,分类网络可以包括一层或多层全连接层。对于存在至少两层全连接层的情况,全连接层之间串联连接,最后一层全连接层的输出连接归一化层的输入。如图7给出的示例,分类网络包括两层全连接层。
可选地,归一化层采用softmax函数。归一化层,可以输出为两个概率值,第一个值表示两张图像不匹配的概率,第二个值表示两张图像匹配的概率。根据概率值大小,不仅能判断图像对是否匹配,还可以根据概率值大小,决定判定结果的置信度。
在一种实施方式中,分类网络的目标函数,采用交叉熵损失函数(CrossEntropyLoss)。
在一种实施方式中,参见图8,图1所示的方法还包括:
S801、获取待预测图像对,待预测图像对包括第一类待预测图像和第二类待预测图像;
S802、将第一类待预测图像输入第一编码器,得到第一类待预测编码,以提供第一类待预测编码进行待预测图像对的相似度评估。
在一种实施方式中,参见图9,图3所示的方法还包括:
S901、获取待预测图像对,待预测图像对包括第一类待预测图像和第二类待预测图像;
S902、将第一类待预测图像输入第一编码器,得到第一类待预测编码;
S903、将第二类待预测图像输入第二编码器,得到第二类待预测编码;
S904、根据第一类待预测编码和第二类待预测编码,确定待预测图像对的相似度结果。
在一种实施方式中,参见图10,图4所示的方法还包括:
S1001、获取待预测图像对,待预测图像对包括第一类待预测图像和第二类待预测图像;
S1002、将第一类待预测图像输入第一编码器,得到第一类待预测编码;
S1003、将第二类待预测图像输入第二编码器,得到第二类待预测编码;
S1004、将第一类待预测编码和第二类待预测编码输入编码相似度评估模型;
S1005、获取编码相似度评估模型输出的编码相似度结果,作为待预测图像对的相似度结果。
在一种实施方式中,参见图11,图10所示的方法还包括:
S1101、对第一类待预测编码和第二类待预测编码均进行预设目标区域的剪切,得到第一类待预测区域编码和第二类待预测区域编码;
S1102、对第一类待预测编码和第二类待预测编码均进行降采样处理,得到第一类待预测降采样编码和第二类待预测降采样编码;
S1103、将第一类待预测区域编码、第二类待预测区域编码、第一类待预测降采样编码和第二类待预测降采样编码输入编码相似度评估模型。
本申请实施例可以运用于拍照批改数学题和拍照搜题等。由于书写者的笔迹潦草,可能出现难以辨识的手写字符图像,其与正常手写字符或者标准答案字体之间的差距,导致识别题目答案的难度被放大。而本申请实施例的方法,可以较为准确地评估难以辨识的手写字符图像和正常手写字符图像之间的相似度。因此,本申请实施例可以为拍照批改数学题和拍照搜题等操作提供有力的先验知识。
下述给出本申请实施例的一种示例。以极难辨识手写数字字符图图像为第一类图像,以正常手写数字字符图像为第二类图像。图12给出了该示例的流程图。
第一步,收集大量正常手写数字字符图像组成图像和大量极难辨识手写数字字符图像。
第二步,为每张极难辨识手写数字字符图像找一张表达内容相同的正常手写字符图像作为其标签信息,组成第一个训练集。每张正常手写字符图像自己作为自己的标签信息,组成第二个训练集。
第三步,构建第三神经网络,整体框架由特征网络和分类网络两部分组成。
特征网络,由4个分支组成,每个分支包括3个卷积层和,相互之间均不共享权重。
分类网络,也可以成为度量网络。分类网络由2个全连接层(第二个全连接层后接了一个softmax函数)和目标函数组成,目标函数函数采用交叉熵损失函数(CrossEntropyLoss)。
第四步,构建VAE模型,网络结构和参数具体细节为:
编码器由8层卷积组成,解码器由8层反卷积组成。
每一层卷积和反卷积之后都使用BatchNormalization做归一化。每一层卷积之后都使用LeakyRelu函数作为激活函数。α参数取值为0.2。每一层反卷积之后都使用Relu函数作为激活函数。
8层卷积的特征映射数量分别为64、128、256、512、512、512、512和512。
8层反卷积的特征映射数量分别为512、512、512、512、256、128、64和3。
本示例中采用的VAE模型的其他参数及优化函数可以参考常见的VAE模型。例如,使用平滑L1损失作为重构损失,整体损失函数为L1损失加上交叉熵损失。
第五步,使用第二步构建的第一个训练集,训练第四步构建的VAE模型,训练好模型后,只保留其编码器部分,称为第一个编码器;
第六步,使用第二步构建的第二个训练集,训练第四步构建的VAE模型,训练好模型后,只保留其编码器部分,称为第二个编码器;
第七步,将第一步收集的大量极难辨识的图像输入第一个VAE模型的编码器得到编码,知道每个编码的内容。
将第一步收集的大量正常的图像输入第二个VAE模型的编码器得到编码,此时每个编码所表达的内容为已知。
表达相同内容的两个编码(一个来自第一个编码器,另一个来自第二个编码器)组成一个相似编码对。
表达内容不相同的两个编码(一个来自第一个编码器,另一个来自第二个编码器)组成一个不相似编码对。
通过上述操作,得到大量编码对。
第八步,将第七步得到编码对(图像特征映射)先将中心位置裁剪出来,裁剪出来的为原编码1/4大小,作为中心编码。
接着,对原编码进行2倍降采样,得到的编码也为原编码1/4大小,作为全局编码。
第九步,训练第三步构建的第三神经网络模型。具体训练过程如下:
将第八步得到的两个中心编码分别输入特征网络第1个和第2个分支提取特征。将两张全局编码分别输入第三步构建的第三神经网络的特征网络第3个和第4个分支提取特征。
将4个分支输出的特征向量串联,输入分类网络,得到输出。并,根据目标函数值,通过梯度反向传播算法,优化整个第三神经网络的参数,得到训练好的编码相似度评估模型。
第十步,线上处理:先用第一个编码器将极难辨识的手写数字图像进行编码,然后将要用来与极难辨识手写字符图像评估相似度的图像用第二个编码器进行编码,得到一个编码对。
第十一步,将第十步得到的两个编码送入编码相似度评估模型,评估两个编码的相似度。
第十二步,若第十一步两个编码相似,则其对应的两张图像相似,若其不相似,则其对应的两张图像不相似。
图13示出根据本申请一实施例的模型生成装置的结构框图。如图13所示,该模型生成装置1300可以包括:
第一类图像获取模块1301,用于获取第一类图像,第一类图像的标签信息包括与第一类图像表达相同内容的第二类图像;
第一神经网络获取模块1302,用于获取第一神经网络,第一神经网络包括初始编码器和初始解码器;
第一编码器训练模块1303,用于利用第一类图像训练第一神经网络,得到训练后的第一神经网络中的第一编码器;
其中,第一编码器用于对待预测图像对中的第一类图像进行编码,以提供第一类图像的编码进行待预测图像对的相似度评估。
在一种实施方式中,还包括:
第二类图像获取模块,用于获取第二类图像,第二类图像的标签信息包括第二类图像自身;
第二神经网络获取模块,用于获取第二神经网络,第二神经网络包括初始编码器和初始解码器;
第二编码器训练模块,用于利用第二类图像训练第二神经网络,得到训练后的第二神经网络中的第二编码器;
其中,第二编码器用于对待预测图像对中的第二类图像进行编码,以利用第一编码器的编码结果和第二编码器的编码结果进行待预测图像对的相似度评估。
在一种实施方式中,初始编码器包括第一卷积层、第一归一化层和第一激活函数层,第一卷积层、第一归一化层和第一激活函数层交替分布;
初始解码器包括反卷积层、第二归一化层和第二激活函数层,反卷积层、第二归一化层和第二激活函数层交替分布。
在一种实施方式中,初始编码器为变分自编码器。
在一种实施方式中,还包括:
第一类编码获取模块,用于将第一类图像输入第一编码器,得到第一类编码;
第二类编码获取模块,用于将第二类图像输入第二编码器,得到第二类编码;
第三神经网络训练模块,用于根据第一类编码和第二类编码,训练第三神经网络,得到编码相似度评估模型;
图像相似度评估模型生成模块,用于利用第一编码器、第二编码器和编码相似度评估模型,生成图像相似度评估模型。
在一种实施方式中,第三神经网络训练模块,包括:
编码对确定子模块,用于确定编码对和编码对的标签信息,编码对包括一个第一类编码和一个第二类编码,编码对的标签信息用于表示第一类编码和第二类编码是否相似;
第一训练子模块,用于根据编码对和编码对的标签,训练第三神经网络。
在一种实施方式中,第三神经网络训练模块,包括:
第一剪切模块,用于对第一类编码和第二类编码均进行预设目标区域的剪切,得到第一类区域编码和第二类区域编码;
第一降采样模块,用于对第一类编码和第二类编码均进行降采样处理,得到第一类降采样编码和第二类降采样编码;
第二训练子模块,用于根据第一类区域编码、第二类区域编码、第一类降采样编码和第二类降采样编码,训练第三神经网络。
在一种实施方式中,第三神经网络包括特征网络和分类网络,特征网络包括四个分支,四个分支用于输入第一类区域编码、第二类区域编码、第一类降采样编码和第二类降采样编码;
四个分支的权重不相同,每个分支包括预设层数的第二卷积层。
在一种实施方式中,其中,
分类网络包括全连接层和归一化层,全连接层连接归一化层。
在一种实施方式中,还包括:
待预测图像对第一获取模块,用于获取待预测图像对,待预测图像对包括第一类待预测图像和第二类待预测图像;
第一类待预测编码第一获取模块,用于将第一类待预测图像输入第一编码器,得到第一类待预测编码,以提供第一类待预测编码进行待预测图像对的相似度评估。
在一种实施方式中,还包括:
待预测图像对第二获取模块,用于获取待预测图像对,待预测图像对包括第一类待预测图像和第二类待预测图像;
第一类待预测编码第二获取模块,用于将第一类待预测图像输入第一编码器,得到第一类待预测编码;
第二类待预测编码第二获取模块,用于将第二类待预测图像输入第二编码器,得到第二类待预测编码;
相似度评估模块,用于根据第一类待预测编码和第二类待预测编码,确定待预测图像对的相似度结果。
在一种实施方式中,还包括:
待预测图像对第三获取模块,用于获取待预测图像对,待预测图像对包括第一类待预测图像和第二类待预测图像;
第一类待预测编码第三获取模块,用于将第一类待预测图像输入第一编码器,得到第一类待预测编码;
第二类待预测编码第三获取模块,用于将第二类待预测图像输入第二编码器,得到第二类待预测编码;
编码相似度评估模型,用于将第一类待预测编码和第二类待预测编码输入编码相似度评估模型;
图像相似度获取模块,用于获取编码相似度评估模型输出的编码相似度结果,作为待预测图像对的相似度结果。
在一种实施方式中,还包括:
第二剪切模块,用于对第一类待预测编码和第二类待预测编码均进行预设目标区域的剪切,得到第一类待预测区域编码和第二类待预测区域编码;
第二降采样模块,用于对第一类待预测编码和第二类待预测编码均进行降采样处理,得到第一类待预测降采样编码和第二类待预测降采样编码;
编码相似度评估模型模块,用于将第一类待预测区域编码、第二类待预测区域编码、第一类待预测降采样编码和第二类待预测降采样编码输入编码相似度评估模型。
图14示出根据本申请实施例的模型生成设备的结构框图。如图14所示,该模型生成设备包括:存储器1410和处理器1420,存储器1410内存储有可在处理器1420上运行的计算机程序。处理器1420执行该计算机程序时实现上述实施例中的模型生成方法。存储器1410和处理器1420的数量可以为一个或多个。
该模型生成设备还包括:
通信接口1430,用于与外界设备进行通信,进行数据交互传输。
如果存储器1410、处理器1420和通信接口1430独立实现,则存储器1410、处理器1420和通信接口1430可以通过总线相互连接并完成相互间的通信。该总线可以是工业标准体系结构(Industry Standard Architecture,ISA)总线、外部设备互连(PeripheralComponentInterconnect,PCI)总线或扩展工业标准体系结构(Extended IndustryStandard Architecture,EISA)总线等。该总线可以分为地址总线、数据总线、控制总线等。为便于表示,图14中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
可选的,在具体实现上,如果存储器1410、处理器1420及通信接口1430集成在一块芯片上,则存储器1410、处理器1420及通信接口1430可以通过内部接口完成相互间的通信。
本申请实施例提供了一种计算机可读存储介质,其存储有计算机程序,该程序被处理器执行时实现本申请实施例中提供的方法。
本申请实施例还提供了一种芯片,该芯片包括,包括处理器,用于从存储器中调用并运行存储器中存储的指令,使得安装有芯片的通信设备执行本申请实施例提供的方法。
本申请实施例还提供了一种芯片,包括:输入接口、输出接口、处理器和存储器,输入接口、输出接口、处理器以及存储器之间通过内部连接通路相连,处理器用于执行存储器中的代码,当代码被执行时,处理器用于执行申请实施例提供的方法。
应理解的是,上述处理器可以是中央处理器(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(digital signal processing,DSP)、专用集成电路(application specific integrated circuit,ASIC)、现场可编程门阵列(fieldprogrammablegate array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者是任何常规的处理器等。值得说明的是,处理器可以是支持进阶精简指令集机器(advanced RISC machines,ARM)架构的处理器。
进一步地,可选的,上述存储器可以包括只读存储器和随机存取存储器,还可以包括非易失性随机存取存储器。该存储器可以是易失性存储器或非易失性存储器,或可包括易失性和非易失性存储器两者。其中,非易失性存储器可以包括只读存储器(read-onlymemory,ROM)、可编程只读存储器(programmable ROM,PROM)、可擦除可编程只读存储器(erasable PROM,EPROM)、电可擦除可编程只读存储器(electrically EPROM,EEPROM)或闪存。易失性存储器可以包括随机存取存储器(random access memory,RAM),其用作外部高速缓存。通过示例性但不是限制性说明,许多形式的RAM可用。例如,静态随机存取存储器(static RAM,SRAM)、动态随机存取存储器(dynamic random access memory ,DRAM)、同步动态随机存取存储器(synchronous DRAM,SDRAM)、双倍数据速率同步动态随机存取存储器(double data date SDRAM,DDR SDRAM)、增强型同步动态随机存取存储器(enhancedSDRAM,ESDRAM)、同步连接动态随机存取存储器(synchlink DRAM,SLDRAM)和直接内存总线随机存取存储器(direct rambus RAM,DR RAM)。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行计算机程序指令时,全部或部分地产生按照本申请的流程或功能。计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包括于本申请的至少一个实施例或示例中。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或隐含地包括至少一个该特征。在本申请的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分。并且本申请的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。
应理解的是,本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。上述实施例方法的全部或部分步骤是可以通过程序来指令相关的硬件完成,该程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本申请各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。上述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读存储介质中。该存储介质可以是只读存储器,磁盘或光盘等。
以上,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到其各种变化或替换,这些都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。
Claims (26)
1.一种模型生成方法,其特征在于,包括:
获取第一类图像,所述第一类图像的标签信息包括与所述第一类图像表达相同内容的第二类图像;
获取第一神经网络,所述第一神经网络包括初始编码器和初始解码器;
利用所述第一类图像训练所述第一神经网络,得到训练后的第一神经网络中的第一编码器;其中,所述第一类图像的标签信息为训练所述第一神经网络的监督信息;
其中,所述第一编码器用于对待预测图像对中的第一类图像进行编码,以提供所述第一类图像的编码进行所述待预测图像对的相似度评估;
将所述第一类图像输入所述第一编码器,得到第一类编码;
利用所述第二类图像训练第二神经网络,得到训练后的第二神经网络中的第二编码器;
将所述第二类图像输入所述第二编码器,得到第二类编码;
根据所述第一类编码和所述第二类编码,训练第三神经网络,得到编码相似度评估模型;
利用所述第一编码器、所述第二编码器和所述编码相似度评估模型,生成图像相似度评估模型。
2.根据权利要求1所述的方法,其特征在于,在所述利用所述第二类图像训练所述第二神经网络,得到训练后的第二神经网络中的第二编码器之前,所述方法还包括:
获取第二类图像,所述第二类图像的标签信息包括所述第二类图像自身;
获取第二神经网络,所述第二神经网络包括初始编码器和初始解码器;
其中,所述第二编码器用于对所述待预测图像对中的第二类图像进行编码,以利用所述第一编码器的编码结果和所述第二编码器的编码结果进行所述待预测图像对的相似度评估。
3.根据权利要求2所述的方法,其特征在于,其中,
所述初始编码器包括第一卷积层、第一归一化层和第一激活函数层,所述第一卷积层、所述第一归一化层和所述第一激活函数层交替分布;
所述初始解码器包括反卷积层、第二归一化层和第二激活函数层,所述反卷积层、所述第二归一化层和所述第二激活函数层交替分布。
4.根据权利要求2所述的方法,其特征在于,所述初始编码器为变分自编码器。
5.根据权利要求1所述的方法,其特征在于,所述根据所述第一类编码和所述第二类编码,训练第三神经网络,包括:
确定编码对和所述编码对的标签信息,所述编码对包括一个第一类编码和一个第二类编码,所述编码对的标签信息用于表示第一类编码和第二类编码是否相似;
根据所述编码对和所述编码对的标签,训练第三神经网络。
6.根据权利要求1所述的方法,其特征在于,所述根据所述第一类编码和所述第二类编码,训练第三神经网络,包括:
对所述第一类编码和所述第二类编码均进行预设目标区域的剪切,得到第一类区域编码和第二类区域编码;
对所述第一类编码和所述第二类编码均进行降采样处理,得到第一类降采样编码和第二类降采样编码;
根据所述第一类区域编码、所述第二类区域编码、所述第一类降采样编码和所述第二类降采样编码,训练第三神经网络。
7.根据权利要求6所述的方法,其特征在于,所述第三神经网络包括特征网络和分类网络,所述特征网络包括四个分支,四个所述分支用于输入所述第一类区域编码、所述第二类区域编码、所述第一类降采样编码和所述第二类降采样编码;
四个所述分支的权重不相同,每个所述分支包括预设层数的第二卷积层。
8.根据权利要求7所述的方法,其特征在于,其中,
所述分类网络包括全连接层和归一化层,所述全连接层连接所述归一化层。
9.根据权利要求1-8任一项所述的方法,其特征在于,还包括:
获取待预测图像对,所述待预测图像对包括第一类待预测图像和第二类待预测图像;
将所述第一类待预测图像输入所述第一编码器,得到第一类待预测编码,以提供所述第一类待预测编码进行所述待预测图像对的相似度评估。
10.根据权利要求1-8任一项所述的方法,其特征在于,还包括:
获取待预测图像对,所述待预测图像对包括第一类待预测图像和第二类待预测图像;
将所述第一类待预测图像输入所述第一编码器,得到第一类待预测编码;
将所述第二类待预测图像输入所述第二编码器,得到第二类待预测编码;
根据所述第一类待预测编码和所述第二类待预测编码,确定所述待预测图像对的相似度结果。
11.根据权利要求1-8任一项所述的方法,其特征在于,还包括:
获取待预测图像对,所述待预测图像对包括第一类待预测图像和第二类待预测图像;
将所述第一类待预测图像输入所述第一编码器,得到第一类待预测编码;
将所述第二类待预测图像输入所述第二编码器,得到第二类待预测编码;
将所述第一类待预测编码和所述第二类待预测编码输入所述编码相似度评估模型;
获取所述编码相似度评估模型输出的编码相似度结果,作为所述待预测图像对的相似度结果。
12.根据权利要求11所述的方法,其特征在于,还包括:
对所述第一类待预测编码和所述第二类待预测编码均进行预设目标区域的剪切,得到第一类待预测区域编码和第二类待预测区域编码;
对所述第一类待预测编码和所述第二类待预测编码均进行降采样处理,得到第一类待预测降采样编码和第二类待预测降采样编码;
将所述第一类待预测区域编码、所述第二类待预测区域编码、所述第一类待预测降采样编码和所述第二类待预测降采样编码输入所述编码相似度评估模型。
13.一种模型生成装置,其特征在于,包括:
第一类图像获取模块,用于获取第一类图像,所述第一类图像的标签信息包括与所述第一类图像表达相同内容的第二类图像;
第一神经网络获取模块,用于获取第一神经网络,所述第一神经网络包括初始编码器和初始解码器;其中,所述第一类图像的标签信息为训练所述第一神经网络的监督信息;
第一编码器训练模块,用于利用所述第一类图像训练所述第一神经网络,得到训练后的第一神经网络中的第一编码器;
其中,所述第一编码器用于对待预测图像对中的第一类图像进行编码,以提供所述第一类图像的编码进行所述待预测图像对的相似度评估;
第一类编码获取模块,用于将所述第一类图像输入所述第一编码器,得到第一类编码;
第二编码器训练模块,用于利用所述第二类图像训练第二神经网络,得到训练后的第二神经网络中的第二编码器;
第二类编码获取模块,用于将所述第二类图像输入所述第二编码器,得到第二类编码;
第三神经网络训练模块,用于根据所述第一类编码和所述第二类编码,训练第三神经网络,得到编码相似度评估模型;
图像相似度评估模型生成模块,用于利用所述第一编码器、所述第二编码器和所述编码相似度评估模型,生成图像相似度评估模型。
14.根据权利要求13所述的装置,其特征在于,还包括:
第二类图像获取模块,用于获取第二类图像,所述第二类图像的标签信息包括所述第二类图像自身;
第二神经网络获取模块,用于获取第二神经网络,所述第二神经网络包括初始编码器和初始解码器;
其中,所述第二编码器用于对所述待预测图像对中的第二类图像进行编码,以利用所述第一编码器的编码结果和所述第二编码器的编码结果进行所述待预测图像对的相似度评估。
15.根据权利要求14所述的装置,其特征在于,其中,
所述初始编码器包括第一卷积层、第一归一化层和第一激活函数层,所述第一卷积层、所述第一归一化层和所述第一激活函数层交替分布;
所述初始解码器包括反卷积层、第二归一化层和第二激活函数层,所述反卷积层、所述第二归一化层和所述第二激活函数层交替分布。
16.根据权利要求14所述的装置,其特征在于,所述初始编码器为变分自编码器。
17.根据权利要求13所述的装置,其特征在于,所述第三神经网络训练模块,包括:
编码对确定子模块,用于确定编码对和所述编码对的标签信息,所述编码对包括一个第一类编码和一个第二类编码,所述编码对的标签信息用于表示第一类编码和第二类编码是否相似;
第一训练子模块,用于根据所述编码对和所述编码对的标签,训练第三神经网络。
18.根据权利要求13所述的装置,其特征在于,所述第三神经网络训练模块,包括:
第一剪切模块,用于对所述第一类编码和所述第二类编码均进行预设目标区域的剪切,得到第一类区域编码和第二类区域编码;
第一降采样模块,用于对所述第一类编码和所述第二类编码均进行降采样处理,得到第一类降采样编码和第二类降采样编码;
第二训练子模块,用于根据所述第一类区域编码、所述第二类区域编码、所述第一类降采样编码和所述第二类降采样编码,训练第三神经网络。
19.根据权利要求18所述的装置,其特征在于,所述第三神经网络包括特征网络和分类网络,所述特征网络包括四个分支,四个所述分支用于输入所述第一类区域编码、所述第二类区域编码、所述第一类降采样编码和所述第二类降采样编码;
四个所述分支的权重不相同,每个所述分支包括预设层数的第二卷积层。
20.根据权利要求19所述的装置,其特征在于,其中,
所述分类网络包括全连接层和归一化层,所述全连接层连接所述归一化层。
21.根据权利要求13-20任一项所述的装置,其特征在于,还包括:
待预测图像对第一获取模块,用于获取待预测图像对,所述待预测图像对包括第一类待预测图像和第二类待预测图像;
第一类待预测编码第一获取模块,用于将所述第一类待预测图像输入所述第一编码器,得到第一类待预测编码,以提供所述第一类待预测编码进行所述待预测图像对的相似度评估。
22.根据权利要求13-20任一项所述的装置,其特征在于,还包括:
待预测图像对第二获取模块,用于获取待预测图像对,所述待预测图像对包括第一类待预测图像和第二类待预测图像;
第一类待预测编码第二获取模块,用于将所述第一类待预测图像输入所述第一编码器,得到第一类待预测编码;
第二类待预测编码第二获取模块,用于将所述第二类待预测图像输入所述第二编码器,得到第二类待预测编码;
相似度评估模块,用于根据所述第一类待预测编码和所述第二类待预测编码,确定所述待预测图像对的相似度结果。
23.根据权利要求13-20任一项所述的装置,其特征在于,还包括:
待预测图像对第三获取模块,用于获取待预测图像对,所述待预测图像对包括第一类待预测图像和第二类待预测图像;
第一类待预测编码第三获取模块,用于将所述第一类待预测图像输入所述第一编码器,得到第一类待预测编码;
第二类待预测编码第三获取模块,用于将所述第二类待预测图像输入所述第二编码器,得到第二类待预测编码;
编码相似度评估模型,用于将所述第一类待预测编码和所述第二类待预测编码输入所述编码相似度评估模型;
图像相似度获取模块,用于获取所述编码相似度评估模型输出的编码相似度结果,作为所述待预测图像对的相似度结果。
24.根据权利要求23所述的装置,其特征在于,还包括:
第二剪切模块,用于对所述第一类待预测编码和所述第二类待预测编码均进行预设目标区域的剪切,得到第一类待预测区域编码和第二类待预测区域编码;
第二降采样模块,用于对所述第一类待预测编码和所述第二类待预测编码均进行降采样处理,得到第一类待预测降采样编码和第二类待预测降采样编码;
编码相似度评估模型模块,用于将所述第一类待预测区域编码、所述第二类待预测区域编码、所述第一类待预测降采样编码和所述第二类待预测降采样编码输入所述编码相似度评估模型。
25.一种模型生成设备,其特征在于,包括:处理器和存储器,所述存储器中存储指令,所述指令由处理器加载并执行,以实现如权利要求1至12任一项所述的方法。
26.一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至12中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010906703.6A CN111815631B (zh) | 2020-09-02 | 2020-09-02 | 模型生成方法、装置、设备和可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010906703.6A CN111815631B (zh) | 2020-09-02 | 2020-09-02 | 模型生成方法、装置、设备和可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111815631A CN111815631A (zh) | 2020-10-23 |
CN111815631B true CN111815631B (zh) | 2020-12-11 |
Family
ID=72860740
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010906703.6A Active CN111815631B (zh) | 2020-09-02 | 2020-09-02 | 模型生成方法、装置、设备和可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111815631B (zh) |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9922272B2 (en) * | 2014-09-25 | 2018-03-20 | Siemens Healthcare Gmbh | Deep similarity learning for multimodal medical images |
US10482600B2 (en) * | 2018-01-16 | 2019-11-19 | Siemens Healthcare Gmbh | Cross-domain image analysis and cross-domain image synthesis using deep image-to-image networks and adversarial networks |
CN109214408A (zh) * | 2018-07-10 | 2019-01-15 | 武汉科技大学 | 基于生成对抗模型识别肝肿瘤的方法及装置 |
CN109829065B (zh) * | 2019-03-08 | 2023-08-18 | 苏州大学 | 图像检索方法、装置、设备及计算机可读存储介质 |
CN109960737B (zh) * | 2019-03-15 | 2020-12-08 | 西安电子科技大学 | 半监督深度对抗自编码哈希学习的遥感影像内容检索方法 |
CN110874855B (zh) * | 2019-10-29 | 2022-08-19 | 中国科学院深圳先进技术研究院 | 一种协同成像方法、装置、存储介质和协同成像设备 |
CN111291212B (zh) * | 2020-01-24 | 2022-10-11 | 复旦大学 | 基于图卷积神经网络的零样本草图图像检索方法和系统 |
-
2020
- 2020-09-02 CN CN202010906703.6A patent/CN111815631B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN111815631A (zh) | 2020-10-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108062754B (zh) | 基于密集网络图像的分割、识别方法和装置 | |
US11200424B2 (en) | Space-time memory network for locating target object in video content | |
US11127139B2 (en) | Enhanced semantic segmentation of images | |
RU2691214C1 (ru) | Распознавание текста с использованием искусственного интеллекта | |
AU2019200270A1 (en) | Concept mask: large-scale segmentation from semantic concepts | |
CN111476719B (zh) | 图像处理方法、装置、计算机设备及存储介质 | |
CN113159143B (zh) | 基于跳跃连接卷积层的红外与可见光图像融合方法和装置 | |
CN109886330B (zh) | 文本检测方法、装置、计算机可读存储介质和计算机设备 | |
CN111369581A (zh) | 图像处理方法、装置、设备及存储介质 | |
CN112634296A (zh) | 门机制引导边缘信息蒸馏的rgb-d图像语义分割方法及终端 | |
US20180365594A1 (en) | Systems and methods for generative learning | |
CN114549913B (zh) | 一种语义分割方法、装置、计算机设备和存储介质 | |
CN109816659B (zh) | 图像分割方法、装置及系统 | |
JP2023509405A (ja) | 翻訳方法、装置、電子機器及びコンピュータプログラム | |
CN113065551A (zh) | 利用深度神经网络模型执行图像分割的方法 | |
CN111325766A (zh) | 三维边缘检测方法、装置、存储介质和计算机设备 | |
CN111783457A (zh) | 一种基于多模态图卷积网络的语义视觉定位方法及装置 | |
CN112700460A (zh) | 图像分割方法及系统 | |
CN111738270A (zh) | 模型生成方法、装置、设备和可读存储介质 | |
CN114332484A (zh) | 关键点检测方法、装置、计算机设备和存储介质 | |
CN113486863A (zh) | 一种表情识别方法及装置 | |
CN111815631B (zh) | 模型生成方法、装置、设备和可读存储介质 | |
CN115880317A (zh) | 一种基于多分支特征融合精炼的医学图像分割方法 | |
CN111507950B (zh) | 图像分割的方法和装置、电子设备及计算机可读存储介质 | |
CN115294337A (zh) | 训练语义分割模型的方法、图像语义分割方法及相关装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |