CN111930981A - 一种草图检索的数据处理方法 - Google Patents

一种草图检索的数据处理方法 Download PDF

Info

Publication number
CN111930981A
CN111930981A CN202010795565.9A CN202010795565A CN111930981A CN 111930981 A CN111930981 A CN 111930981A CN 202010795565 A CN202010795565 A CN 202010795565A CN 111930981 A CN111930981 A CN 111930981A
Authority
CN
China
Prior art keywords
image
sketch
encoder
domain
semantic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN202010795565.9A
Other languages
English (en)
Inventor
沈乾彦
赵海峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jinling Institute of Technology
Original Assignee
Jinling Institute of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jinling Institute of Technology filed Critical Jinling Institute of Technology
Priority to CN202010795565.9A priority Critical patent/CN111930981A/zh
Publication of CN111930981A publication Critical patent/CN111930981A/zh
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/53Querying
    • G06F16/532Query formulation, e.g. graphical querying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/55Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/5866Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, manually generated location and time information
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Library & Information Science (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供了一种草图检索的数据处理方法。主要通过引入知识保持机制,在域损失函数、三元组损失函数、语义损失函数的基础上,额外增加构造了一个知识保持损失函数,以及利用上述所有损失函数进行训练,使得预训练模型在知识迁移过程中,既能够学习目标域的新知识,又能够保持从源域学习到的知识,从而提升草图检索的精度。

Description

一种草图检索的数据处理方法
技术领域
本发明涉及草图检索领域。特别是涉及到一种草图检索的数据处理方法。
背景技术
目前检索方法主要有两种方式,一个是基于文本的图像检索,用户通过关键词查找,检索具有相同或相似标签的图像;另一个是基于内容的图像检索,用户通过输入图片检索内容相同或相似的其他图片。在这些检索方式中,随着触摸屏设备的使用越来越普遍,手绘草图因其方便快捷,使得利用草图检索图像的技术显示出了巨大的潜力。草图检索旨在利用简单的线条轮廓检索与其相似的图片。利用深度学习技术构建一个检索模型需要大量数据样本,然而大千世界图像信息非常丰富,但是草图素材相对而言却十分稀少,如何利用有限的训练数据对卷积网络进行训练,使得训练好的网络能够对全新草图素材(从未出现的类别)进行推理,检索出与其类别相同的图像,这门技术称为零学习(Zero-shotLearning)。
目前现有技术采用已经训练好的模型构建两个孪生网络,一个网络用于编码图像信息,另一个网络用于编码草图信息。网络主要由卷积神经网络和编码器组成,如图1左半部分所示。在训练过程中,采用三种损失函数的组合对网络参数进行修正,如图1右半部分所示。一个是域损失函数,它包含一个域分类,用于对数据来源进行分类。第二个是三元组损失函数,它的输入包含三种数据,分别是草图数据、正样本图像数据和负样本图像数据,其中正样本图像数据的类别与草图数据的类别一致,负样本图像数据的类别与草图数据的类别不一致。第三个是语义损失函数,它包含一个语义重构器,训练孪生网络将语义信息融入到编码器中。
在现有技术中,利用源域已经训练好的模型,将其从源域迁移到目标域,使其学习得到从草图推理到图像的知识。然而在知识迁移之后,获得的孪生网络虽然对目标域的分类能力不断提升,但对源域的分类能力却大幅下降,导致整体的推理能力变差,草图检索精度降低。
因此,如何提高草图检索精度是亟待解决的技术问题。
发明内容
为了解决上述存在问题。本发明提供一种草图检索的数据处理方法。引入知识保持机制,并在此基础上进一步引入加权知识保持,在迁移之后,不仅学习到目标域的新知识,同时也能够保持源域的知识,从而提高网络的整体推理能力,提升草图检索精度。
为达此目的:
本发明提供了一种草图检索的数据处理方法,该方法包括:
获取来自于源域的图像分类器和其对应的第一类别集合,第一类别集合包括图像分类器能够分类的所有类别;
获取来自于目标域的待处理数据,包括图片、类别和来源标签,图片为图像或草图,
来源标签用于表示图片为图像或草图;
当图片为图像时,将图像类别属于第一类别集合的待处理数据划分到图像数据集合;
当图片为草图时,将草图类别属于第一类别集合的待处理数据划分到草图数据集合;
将图像数据集合和草图数据集合的并集,确定为训练样本的集合;
根据源域的图像分类器,构建目标域的图像编码器和目标域的草图编码器;
构建知识保持损失函数,知识保持损失函数是根据第一分类结果和第二分类结果确定的,第一分类结果是将训练样本输入到源域的图像分类器中得到的预测结果,第二分类结果是将训练样本输入到目标域的图像编码器中得到的预测结果;
构建域分类器,域分类器用于获得训练样本的来源标签的预测值;根据来源标签的预测值和训练样本的来源标签,构建域损失函数;
将训练样本中的第一草图训练样本输入到草图编码器,获得第一草图编码特征;
将训练样本集合中的与第一草图训练样本的类别相同的第一图像训练样本输入到图像编码器,获得第一图像编码特征;
将训练样本集合中的与第一草图训练样本的类别不相同的第二图像训练样本输入到图像编码器,获得第二图像编码特征;
根据第一草图编码特征、第一图像编码特征和第二图像编码特征,构建三元组损失函数;
获取语义库,语义库包括目标域的类别所对应的语义特征;
构建语义重构器,语义重构器用于预测编码特征所对应的语义特征,编码特征是将训练样本输入到图像编码器或草图编码器得到的;
根据训练样本所对应的语义特征和第一语义预测特征,构建语义损失函数,第一语义预测特征是将编码特征输入到语义重构器得到的预测结果;
利用知识保持损失函数、域损失函数、三元组损失函数和语义损失函数,对目标域的图像编码器和目标域的草图编码器进行训练,获得目标图像编码器和目标草图编码器。
进一步地,在上述构建知识保持损失函数的过程中,还包括:根据第一分类结果的识别精度,调整知识保持函数的权重。
通过上述方式,可以更好地实现知识迁移后,目标图像编码器和目标草图编码器对源域知识的保持。原因在于,源域图像分类器自身对于不同类别的识别精度是不同的,对于识别精度较高的类别给予较高的权重更有利于实现知识保持,反之亦然。
进一步地,在上述获取来自于目标域的待处理数据的过程中,还包括:对待处理数据的图片进行数据增强以及对预处理后的图片进行标准化和中心化。
通过上述方式,可以提高目标图像编码器和目标草图编码器的泛化性能和抗干扰的能力。同时,对预处理后的图片进行标准化和中心化可以加快训练过程的收敛速度,从而提升网络训练的速度。
进一步地,在上述对目标域的图像编码器和目标域的草图编码器进行训练的过程中,还包括:利用验证集样本的集合来获取目标图像编码器和目标草图编码器。
通过上述方式,可以有效避免训练过程中的图像编码器和草图编码器发生过拟合,并选出泛化能力较好的目标图像编码器和目标草图编码器。
当获得上述目标图像编码器和目标草图编码器之后,就可以把它们应用在不同的实际应用场景,例如可以用于绘画领域的绘图素材检索、刑侦领域人物画像检索人脸。
以绘图领域为例,首先获取绘图素材的图像库,之后将图像库中的图像输入到目标图像编码器,获得图像特征库;
获取用户输入的用于检索的手绘草图;
将手绘草图输入到目标草图编码器,获得草图特征向量;
根据草图特征向量和图像特征库,从图像库中确定出与草图特征向量相对应的一个或多个图像。
通过上述方式,用户可以仅通过手绘草图就可以在图像库中检索想要的图像。与此同时,用户可检索的图像类别不受目标域的类别的限制。
进一步地,在上述根据第二草图特征和图像特征库,从图像库中确定出与第二草图特征相对应的一个或多个第二图像的过程中,可以采用比较距离阈值的方式实现,例如可以采用下面的方法实现:
将图像特征库中与第二草图特征向量的距离在预设的距离阈值范围内的图像特征向量所对应的图像,确定为第二图像。
通过上述方法,具有如下优点:(1)利用源域的模型进行迁移学习时,设置一种知识保持的损失函数,用于评价训练模型的预测结果与源模型的预测结果的误差。根据此误差调整训练模型的参数,从而实现学习到新知识的同时,保持原先的知识,从而增强了目标图像编码器和目标草图编码器的提取图片特征的能力;(2)通过域损失函数,将图像特征和草图特征编码到公共域中,从而使得通过图像特征和草图特征的距离来判断图像和草图的对应关系成为可能;(3)通过三元组损失函数,使得网络能够将同类别的图像和草图编码至一个紧密的空间中,而将不同类别的图像和草图编码至一个松散的空间,从而增强网络的推理能力。(4)通过引入语义知识,建立图像特征和草图特征与语义特征的映射关系,从而提高网络的零学习的能力。
附图说明
图1现有技术网络训练框图;
图2训练目标域的图像编码器和草图编码的方法的一个示例性流程图;
图3训练样本集合和验证样本集合的预处理方法的一个示例性流程图;
图4源域的VGG16的结构图;
图5目标域的图像编码器和草图编码器的结构图;
图6改进后的网络训练框图。
具体实施方式
下面结合附图与具体实施方式对本发明作进一步详细描述。
图2是本发明训练图像编码器和草图编码器的方法的一种示例性流程图,如图2所示,该方法可以包括步骤101至步骤106。
101、获取来自源域的图像分类器及其对应的类别集合。
示例性地,可以把一些常见的图像库作为源域,例如可以使用ImageNet数据集、Sketchy数据集、TU-Berlin草图数据集等,这些图像库能够提供丰富的带有标签的图像,可以用于训练各类模型。
其中,ImageNet数据集是指图像网络大规模视觉识别挑战(ImageNet largescale visual recognition challenge,ILSVRC)竞赛所用公开数据集;
Sketchy数据集是指一个的大型草图-图像对数据集,包含来自125个不同类别的75,479张草图和73,002张图像;
TU-Berlin草图数据集是一个大型涂鸦数据集,包含来自250个不同类别的20,000张草图和204,070张图像。
示例性地,在本发明实施例中,将ImageNet数据集作为源域,将利用ImageNet中的一些带标签的图像数据训练得到的视觉几何组网络(Visual Geometry Group Network,简称VGG16)作为上述图像分类器的一个示例,将该VGG16模型所对应的1000个类别的集合作为上述类别集合的一个示例。
102、获取来自目标域的待处理数据和语义库。
可以理解的是,本发明实施例中,源域和目标域是相对的。例如,将利用第一数据集训练得到的模型迁移到第二数据集中再次进行训练,则第一数据集为源域,第二数据集为目标域。
示例性地,在本发明实施例中,将Sketchy数据集作为上述目标域,获取该数据集及其对应的125个类别的集合,每个类别都有相互对应的图像集合和草图集合。
示例性地,在本发明实施例中,给图像集合标注来源标签为数字0,给草图集合标注来源标签为数字1。
本发明实施例中的语义库是指将一个文本数据集中的语料文本用固定长度的向量进行表示,不同语料文本对应不同且唯一的向量(即语义特征),通过不同语义特征之间的距离可以表征不同语料文本之间的相关性,由大量语义特征构成的集合即语义库。
常见的公开的语义库包括利用谷歌新闻数据集训练得到的word2vec-google-news-300语义库、利用维基百科数据集训练得到的glove-wiki-gigaword-300语义库、利用推特数据集训练得到的glove-twitter-200语义库等。
示例性地,在本发明实例中,将word2vec-google-news-300语义库作为上述语义库。
103、将待处理数据划分为训练样本集合和验证样本集合。
可以理解的是,在本发明实施例中,训练样本集合和验证样本集合是相对的。例如,利用第一样本集合对模型进行训练,利用第二样本集合对模型的性能进行评估,则第一样本集合为训练样本集合,第二样本集合为验证样本集合。
示例性地,在本发明实例中,可以看作是从目标域的待处理数据中挑选出了上述训练样本,这些训练样本的类别是源于的类别集合中已有的。将剩下的图像集合和草图集合构成上述验证样本集合。利用上述方式构成的训练集合,使得目标域的训练样本集合和源域之间的隔阂尽可能的小,从而降低迁移学习的难度。利用上述方式构成的验证样本集合的类别是源域图像分类器从未见过和从未学习过的,可以较好的测试迁移学习后的模型的零学习能力。
举例说明,假设源域的类别集合中包括兔子、狗、猫、鸡,目标域中的某个待处理数据的类别为狗,则该待处理数据就可以作为上述训练样本,假设目标域中的某个待处理数据的类别为鸭子,则该待处理数据就可以作为上述验证样本。
这里需要说明的是,在本发明实施例中,我们只需要使用训练好的VGG16模型就可以,而不需要获得VGG16模型的训练样本(相当于不需要获得上述源域的训练样本)。但是,如果可以获得源域的训练样本,依然可以用来训练上述目标域的图像编码器和草图编码器。也就是说,虽然不需要获得源域的训练模型时使用的训练样本,但如果有源域的训练样本的时候,我们可以加以利用,将这些源域的训练样本对目标域的模型进行训练。这样的训练过程相当于巩固旧知识,能够利于目标域的模型(目标域的图像编码器和草图编码器)的知识保持。
示例性地,在一种可能的实现方式中,如图3所示,103可以包括:
201、将训练样本集合和验证样本集合的图像和草图转换成统一的张量。
示例性地,可以将训练样本集合和验证样本集合的图像和草图统一转换为大小为224*224的3维张量,张量中所有元素的大小在[0,255]的区间内。
202、对训练样本集合的图像张量进行数据增强。
本发明的数据增强是指利用原有图像数据,通过图像处理技术,生成新的图像数据的方法。
示例性地,可以对训练样本集合的图像张量依次进行随机旋转、随机翻转、随机仿射变换、随机调整亮度、随机尺度变换、随机裁剪,最后依然得到大小为224*224的3维图像张量。
203、对训练样本集合和验证样本集合的图像张量和草图张量进行标准化。
示例性地,可以把训练样本集合和验证样本集合的图像张量和草图张量中所有元素通过除以255的方式映射到[0,1]的区间内。
204、对训练样本集合和验证样本集合的图像张量进行中心化。
示例性地,可以利用式子(x-μ)/σ对训练样本集合和验证样本集合的图像张量进行中心化,其中x为图像张量中的任意元素,μ=[0.485,0.456,0.406]为ImageNet数据集的均值,σ=[0.229,0.224,0.225]为ImageNet数据集的方差。
该预处理方法中,通过数据增强可以提高图像编码器和草图编码器的泛化能力和抗噪声的鲁棒性;通过标准化和中心化可获得更好的训练效果。
104、构建目标域的图像编码器合目标域草图编码器。
下面结合图4和图5介绍本实施例中利用源域模型构建目标域的图像编码器和草图编码器的一种方法。如图4所示,源域的VGG16由两部分组成,一部分是卷积神经网络,用于提取图像的特征,另一部分是分类器,用于根据图像的特征对图像进行分类,输出为一个1000维的向量,向量中的元素的值为对应相应类别的置信度。如图5所示,目标域的图像编码器的结构由一个卷积神经网络分别串联一个分类器和编码器组成,其图像编码器的卷积神经网络采用源域的VGG16的卷积神经网络,用于提取图像的特征;目标域的图像编码器的分类器采用源域的VGG16的分类器,用于根据图像特征对图像分类;目标域的图像编码器的编码器为一个多层感知机,用于根据图像特征对图像进行编码。
本发明实施例中的多层感知机是指具有多层隐含层的神经网络,其结构可以分为输入层、隐藏层和输出层。一般来说,第一层是输入层、最后一层是输出层,中间的层数都是隐含层。层与层之间是全连接的,第i层的任意一个神经元一定与第i+1层的任意一个神经元相连。
如图5所示,目标域的草图编码器的结构由一个卷积神经网络串联一个编码器构成。目标域的草图编码器的卷积神经网络采用源域的VGG16的卷积神经网络,用于提取草图的特征;目标域的草图编码器的编码器为一个多层感知机,且输出向量的维数与目标域的图像编码器的编码器输出向量维数相同,用于对草图进行编码。在训练过程中,图像编码器和草图编码器不共享参数。
105、构建知识保持损失函数、域损失函数、三元组损失函数和语义损失函数。
构建知识保持损失函数的优点在于,使得网络在学习目标域知识的同时,能够保持源域的知识。
示例性地,将正样本图像和负样本图像输入到VGG16中,输出得到预测向量
Figure BDA0002625487270000071
其中|Co|表示VGG16能预测的类别总数,即|Co|=1000;N为一次运算的批数据大小,正样本和负样本的批数据大小均为N;yi,m∈[0,1]表示VGG16预测的第i个图像属于第m类别的置信度。
可以理解的是,正样本图像和负样本图像是相对的。具体地,当输入的图像类别与输入的草图类别相同时,该图像为正样本图像。当输入的图像类别与输入的草图类别不同时,该图像为负样本图像。例如,当输入的草图类别为马,图像类别为马的图像为正样本图像;若图像类别不为马,如兔、虎、牛、羊等,则该图像为负样本图像。
将输入到VGG16的正样本图像和负样本图像同样输入到目标域的图像编码器中,由其分类器可以得到相应的预测向量并收集得到
Figure BDA0002625487270000072
其中
Figure BDA0002625487270000073
表示目标域的图像编码器预测的第i个图像属于第m个类别的置信度。
示例性地,可以利用VGG16的预测向量和图像编码器的预测向量构建知识保持损失函数。
例如可以使得上述构建的知识保持损失函数满足下面的数学表达式:
Figure BDA0002625487270000074
示例性地,还可以引入加权机制,对上述知识保持损失函数进行优化。由于源域的模型对不同种类的样本的识别准确率是不同,且目标域的图像类别是已知的,因而将训练集的图像输入到源域的模型中,利用预测类别和图像类别可以得到训练集的各个类别的识别精度,以此作为知识保持损失函数的权重,将属于源域模型类别集合但不属于训练集类别集合的类别权重设置为一个较小数,如0.001。
示例性地,可以使得加权后的知识保持损失函数满足下面的数学表达式:
Figure BDA0002625487270000081
其中,αm表示第m个类别的识别精度。通过该加权知识保持损失函数可以在实现知识保持的同时更好的提升图像编码器和草图编码器的性能。
构建域损失函数的作用在于,使得图像编码器和草图编码器能够分别将图像和草图编码至一个公共的特征空间中,从而可以利用距离计算的方式去衡量草图与图像的对应关系。
示例性地,在构建域损失函数之前,需要先构建域分类器,用于预测输入数据来源于图像或草图,域分类器结构可以为多层感知机。将图像(包括正样本和负样本)和草图分别输入图像编码器和草图编码器中,由各自的编码器可以得到相应的特征向量,收集特征向量并输入到域分类器中,输出为ξi∈[0,1],i=1,2,...,3N,其中ξi表示第i个数据源于草图域而非图像域的可能性,ξi越大则数据来源于草图域的可能性越大,反之则来源于图像域的可能性越大。域损失函数采用二值化交叉熵,其数学表达式为
Figure BDA0002625487270000082
其中xi表示输入数据,lp/s(·)→{0,1}表示数据的来源标签映射函数,标签0表示数据来源于图像,标签1表示数据来源于草图;Rλ(·)表示梯度反向层,在正向传播时Rλ(x)=x,但在反向传播时
Figure BDA0002625487270000083
参数λ=0.5。域损失函数通过正梯度方向优化网络,使得域分类器根据特征向量无法区分数据来源,从而实现将图像和草图编码至一个公共的特征空间中。
构建三元组损失函数的优点在于,训练图像编码器和草图编码器将正样本图像与草图编码到一个更紧密的空间,而负样本图像数据和草图编码到一个更疏远的空间。
示例性地,将正样本图像、负样本图像和草图分别输入图像编码器和草图编码器中,根据相应的编码器得到相应的特征向量{pi,ni,si},i=1,2,...,N,收集特征向量并输入到三元组损失函数中,三元组损失函数的数学表达式为
Figure BDA0002625487270000084
其中pi表示正样本图像的特征向量;ni表示负样本图像的特征向量;si表示草图的特征向量;变量g为常数,比如g=1;d(·)表示距离函数,可以是欧几里得距离或余弦距离等。
构建语义损失函数的优点在于,将语义信息融合到图像编码器和草图编码器中,从而有利于提高图像编码器和草图编码器的零学习性能。
示例性地,在构建语义损失函数之前,需要先构建语义重构器,用于预测图像或草图的语义特征向量,语义重构器的结构可以为多层感知机。将图像(包括正样本和负样本)和草图分别输入图像编码器和草图编码器中,由相应的编码器得到特征向量,收集特征向量,并输入到语义重构器中,得到预测的语义特征向量。将根据语义库得到的类别的语义特征向量,以及预测的语义特征向量构建语义损失函数。语义损失函数的数学表达式为
Figure BDA0002625487270000091
Figure BDA0002625487270000092
其中epi表示正样本图像的预测语义特征向量,esi表示草图的预测语义特征向量,eni表示负样本图像的预测语义特征向量,wi表示草图类别的语义特征向量,Rλ(·)表示梯度反向层。
106、对目标域的图像编码器和草图编码器进行训练,获得目标图像编码器和目标草图编码器。
示例性地,可以利用图6所示方法实现目标域的图像编码器和草图编码器的一轮训练,下面结合图6进行介绍。
S1:从训练样本集合中获取草图、正样本图像数据和负样本图像数据。将正样本图像数据和负样本图像数据输入到VGG16,获得第一分类结果。
S2:将正样本图像数据输入图像编码器,获得基于正样本的第二分类结果和正样本图像的特征向量。
S3:将草图数据输入草图编码器,获得草图的特征向量。
S4:将负样本图像数据输入图像编码器,获得基于负样本的第二分类结果和负样本图像的特征向量。
S5:将草图类别输入语义库,获得语义特征向量。
S6:收集基于正样本的第二分类结果和基于负样本的第二分类结果构成第二分类结果。将第一分类结果和第二分类结果输入知识保持损失函数,计算得到知识保持误差。
S7:将正样本图像的特征向量、草图的特征向量和负样本图像的特征向量输入域损失函数和三元组损失函数,计算得到域误差和三元组误差。
S8:将正样本图像的特征向量、草图的特征向量、负样本图像的特征向量和语义特征向量输入语义损失函数,计算得到语义误差。
S9:根据知识保持误差、域误差、三元组误差和语义误差更新图像编码器的参数、草图编码器的参数、域分类器的参数和语义重构器的参数。
S10:将验证样本集合中的所有图像输入图像编码器,获得图像特征向量并构建图像特征库。将所有草图输入草图编码器,获得草图特征向量。遍历所有草图特征向量,根据草图特征向量和图像特征库,从图像特征库中确定与草图特征向量距离最近的一个或多个图像特征向量,如果存在图像特征向量对应的类别与草图特征向量对应类别一致,则找到对应的图像,由此计算出网络的识别精度。
S11:如果识别精度不低于预设的识别精度,则停止训练,获得目标图像编码器和目标草图编码器,反之则继续下一轮训练。
上述得到的图像编码器和草图编码器可以应用于不同场景,例如可以用于检索内容,包括:草图检索图像和草图检索视频。
例如可以适合于如下应用场景:
应用场景1:
影视动画领域的助手。在影视动画领域,动画制作需要设计师通过关键帧动画的形式来逐帧完成,电脑绘图技术的发展在一定程度上减少了中间画创作的难度和时间,绘图素材库也积累的相当完备,但由于检索方式落后难以实现高质量的绘图素材复用。基于草图的图像检索方法,能够帮助设计师去检索与他想要绘制的对象或场景类似的绘画素材,设计师不再需要根据自己的经验在庞大的绘图素材库中寻找合适的中间画,取而代之只需要绘制简单的对象或场景轮廓就可以检索到自己需要的素材,大大提高了工作效率。
应用场景2:
简化儿童图画教育学习。借助草图检索图像的技术,儿童只需要掌握简单的图形表达能力,就可以实现创意的表达。使得在儿童图画教育学习过程中,教育者可以将更多精力放到儿童图像思维的培养和提高,而不是放在简单的画图技巧的训练上,进而改变儿童绘画教育的模式。
应用场景3:
中小学教育的助手。在中小学教育环节,教师都需要制作合适的课件,将许多复杂和抽象的概念或问题尽可能用生动方式进行表达。利用草图检索图像技术,不需要教师有很好的画图功底,教师可以绘制简单图形,然后检索想要的素材,通过图形处理工具快速搭建场景进行讲解,使得学生更容易理解。
应用场景4:
特殊人员语言交流。具有语言交流障碍、唐氏综合征等特殊人群可以通过简单图形学习,利用草图检索图像技术,用合适的图像表达自己,从而提高交流能力和其生活质量。
下面以绘图领域为例,介绍当获得上述目标图像编码器和目标草图编码器之后,如何将其应用于不同场景。
首先获取绘图素材的图像库,之后将图像库中的图像输入到目标图像编码器,获得图像特征库;
获取用户输入的用于检索的手绘草图;
将手绘草图输入到目标草图编码器,获得草图特征向量;
根据草图特征向量和图像特征库,从图像库中确定出与草图特征向量相对应的一个或多个图像。
通过上述方式,用户可以仅通过手绘草图就可以在图像库中检索想要的图像。与此同时,用户可检索的图像类别不受目标域的类别的限制。
进一步地,在上述根据第二草图特征和图像特征库,从图像库中确定出与第二草图特征相对应的一个或多个第二图像的过程中,可以采用比较距离阈值的方式实现,例如可以采用下面的方法实现:
将图像特征库中与第二草图特征向量的距离在预设的距离阈值范围内的图像特征向量所对应的图像,确定为第二图像,即用户检索到的图像。
以上所述,仅是本发明的较佳实施例而已,并非是对本发明作任何其他形式的限制,而依据本发明的技术实质所作的任何修改或等同变化,仍属于本发明所要求保护的范围。

Claims (6)

1.一种草图检索的数据处理方法,其特征在于,包括:
获取来自于源域的图像分类器和所述图像分类器对应的第一类别集合,所述第一类别集合包括所述图像分类器能够分类的所有类别;
获取来自于目标域的待处理数据,所述待处理数据包括图片、类别和来源标签,所述图片为图像或草图,所述来源标签用于表示所述图片为所述图像或所述草图;
当所述图片为所述图像时,将所述类别属于所述第一类别集合的所述待处理数据划分到图像数据集合;
当所述图片为所述草图时,将所述类别属于所述第一类别集合的所述待处理数据划分到草图数据集合;
将所述图像数据集合和所述草图数据集合的并集,确定为训练样本的集合;
根据所述源域的图像分类器,构建所述目标域的图像编码器和所述目标域的草图编码器;
构建知识保持损失函数,所述知识保持损失函数是根据第一分类结果和第二分类结果确定的,所述第一分类结果是将所述训练样本输入到所述源域的图像分类器中得到的预测结果,所述第二分类结果是将所述训练样本输入到所述目标域的图像编码器中得到的预测结果;
构建域分类器,所述域分类器用于获得所述训练样本的所述来源标签的预测值;
根据所述来源标签的预测值和所述训练样本的来源标签,构建域损失函数;
将所述训练样本中的第一草图训练样本输入到所述草图编码器,获得第一草图编码特征;
将所述训练样本集合中的与所述第一草图训练样本的类别相同的第一图像训练样本输入到所述图像编码器,获得第一图像编码特征;
将所述训练样本集合中的与所述第一草图训练样本的类别不相同的第二图像训练样本输入到所述图像编码器,获得第二图像编码特征;
根据所述第一草图编码特征、所述第一图像编码特征和所述第二图像编码特征,构建三元组损失函数;
获取语义库,所述语义库包括所述类别所对应的语义特征;
构建语义重构器,所述语义重构器用于预测编码特征所对应的语义特征,所述编码特征是将所述训练样本输入到所述图像编码器或所述草图编码器得到的;
根据所述训练样本所对应的语义特征和第一语义预测特征,构建语义损失函数,所述第一语义预测特征是将所述编码特征输入到所述语义重构器得到的预测结果;
利用所述知识保持损失函数、所述域损失函数、所述三元组损失函数和所述语义损失函数,对所述目标域的图像编码器和所述目标域的草图编码器进行训练,获得目标图像编码器和目标草图编码器。
2.根据权利要求1所述的一种草图检索的数据处理方法,其特征在于,所述构建知识保持损失函数,还包括:
根据所述第一分类结果的识别精度,调整所述知识保持损失函数的权重。
3.根据权利要求1或2所述的方法,其特征在于,在所述获取来自于目标域的待处理数据之后,所述方法还包括:
对所述目标域的待处理数据的图片进行数据增强,所述数据增强包括对所述图片进行预处理以及将预处理后的所述图片进行标准化和中心化。
4.根据权利要求1至3所述的方法,其特征在于,所述对所述目标域的图像编码器和所述目标域的草图编码器进行训练,获得目标图像编码器和目标草图编码器,还包括:
当对所述目标域的图像编码器和所述目标域的草图编码器完成一轮次的训练之后,得到第一图像编码器和第一草图编码器;
将所述训练样本的集合之外的其它所述待处理数据,划分到验证样本的集合;
利用所述验证样本的集合,获得所述第一图像编码器和所述第一草图编码器的识别精度;
当所述第一图像编码器和所述第一草图编码器的识别精度大于或等于预设精度阈值时,将所述第一图像编码器和所述第一草图编码器分别确定为所述目标图像编码器和所述目标草图编码器;
当所述第一图像编码器和所述第一草图编码器的识别精度小于所述预设精度阈值时,对所述第一图像编码器和所述第一草图编码器进行下一轮次的训练。
5.根据权利要求1至4所述的方法,其特征在于,所述方法还包括:
获取应用场景的图像库;
将所述图像库中的图像输入到所述目标图像编码器,获得图像特征库;
获取用户输入的用于检索的第二草图;
将所述第二草图输入到所述目标草图编码器,获得第二草图特征向量;
根据所述第二草图特征和所述图像特征库,从所述图像库中确定出与所述第二草图向量相对应的一个或多个第二图像。
6.根据权利要求5所述的方法,其特征在于,所述根据所述第二草图特征和所述图像特征库,从所述图像库中确定出与所述第二草图特征相对应的一个或多个第二图像,还包括:
将所述图像特征库中与所述第二草图特征向量的距离在预设的距离阈值范围内的图像特征向量所对应的图像,确定为所述第二图像。
CN202010795565.9A 2020-08-10 2020-08-10 一种草图检索的数据处理方法 Withdrawn CN111930981A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010795565.9A CN111930981A (zh) 2020-08-10 2020-08-10 一种草图检索的数据处理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010795565.9A CN111930981A (zh) 2020-08-10 2020-08-10 一种草图检索的数据处理方法

Publications (1)

Publication Number Publication Date
CN111930981A true CN111930981A (zh) 2020-11-13

Family

ID=73308198

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010795565.9A Withdrawn CN111930981A (zh) 2020-08-10 2020-08-10 一种草图检索的数据处理方法

Country Status (1)

Country Link
CN (1) CN111930981A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113326852A (zh) * 2021-06-11 2021-08-31 北京百度网讯科技有限公司 模型训练方法、装置、设备、存储介质及程序产品
CN114445670A (zh) * 2022-04-11 2022-05-06 腾讯科技(深圳)有限公司 图像处理模型的训练方法、装置、设备及存储介质
CN115878833A (zh) * 2023-02-20 2023-03-31 中山大学 基于手绘草图语义的外观专利图像检索方法与系统

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113326852A (zh) * 2021-06-11 2021-08-31 北京百度网讯科技有限公司 模型训练方法、装置、设备、存储介质及程序产品
CN114445670A (zh) * 2022-04-11 2022-05-06 腾讯科技(深圳)有限公司 图像处理模型的训练方法、装置、设备及存储介质
CN114445670B (zh) * 2022-04-11 2022-07-12 腾讯科技(深圳)有限公司 图像处理模型的训练方法、装置、设备及存储介质
CN115878833A (zh) * 2023-02-20 2023-03-31 中山大学 基于手绘草图语义的外观专利图像检索方法与系统
CN115878833B (zh) * 2023-02-20 2023-06-13 中山大学 基于手绘草图语义的外观专利图像检索方法与系统

Similar Documents

Publication Publication Date Title
CN109918671A (zh) 基于卷积循环神经网络的电子病历实体关系抽取方法
CN109284506A (zh) 一种基于注意力卷积神经网络的用户评论情感分析系统及方法
CN112084331A (zh) 文本处理、模型训练方法、装置、计算机设备和存储介质
Li et al. Image sentiment prediction based on textual descriptions with adjective noun pairs
CN114565104A (zh) 语言模型的预训练方法、结果推荐方法及相关装置
CN111930981A (zh) 一种草图检索的数据处理方法
CN110580287A (zh) 基于迁移学习和on-lstm的情感分类方法
CN111666500A (zh) 文本分类模型的训练方法及相关设备
CN113569001A (zh) 文本处理方法、装置、计算机设备及计算机可读存储介质
CN113515632A (zh) 基于图路径知识萃取的文本分类方法
CN113515669A (zh) 基于人工智能的数据处理方法和相关设备
CN116975350A (zh) 图文检索方法、装置、设备及存储介质
CN114565808A (zh) 一种面向无监督视觉表示的双动量对比学习方法
CN114648031A (zh) 基于双向lstm和多头注意力机制的文本方面级情感识别方法
CN113934835B (zh) 结合关键词和语义理解表征的检索式回复对话方法及系统
CN116579347A (zh) 一种基于动态语义特征融合的评论文本情感分析方法、系统、设备及介质
CN112131345A (zh) 文本质量的识别方法、装置、设备及存储介质
CN111145914A (zh) 一种确定肺癌临床病种库文本实体的方法及装置
CN114330514A (zh) 一种基于深度特征与梯度信息的数据重建方法及系统
CN114239730A (zh) 一种基于近邻排序关系的跨模态检索方法
CN116662924A (zh) 基于双通道与注意力机制的方面级多模态情感分析方法
CN116977701A (zh) 视频分类模型训练的方法、视频分类的方法和装置
Luo Research and implementation of text topic classification based on text CNN
Gong et al. Autonomous learning of foreign language based on facial emotion recognition and cloud computing
CN113741759B (zh) 评论信息的展示方法、装置、计算机设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication

Application publication date: 20201113

WW01 Invention patent application withdrawn after publication