CN108647691B - 一种基于点击特征预测的图像分类方法 - Google Patents

一种基于点击特征预测的图像分类方法 Download PDF

Info

Publication number
CN108647691B
CN108647691B CN201810199059.6A CN201810199059A CN108647691B CN 108647691 B CN108647691 B CN 108647691B CN 201810199059 A CN201810199059 A CN 201810199059A CN 108647691 B CN108647691 B CN 108647691B
Authority
CN
China
Prior art keywords
click
prediction
text
word
data set
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810199059.6A
Other languages
English (en)
Other versions
CN108647691A (zh
Inventor
谭敏
俞俊
张宏源
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Dianzi University
Original Assignee
Hangzhou Dianzi University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Dianzi University filed Critical Hangzhou Dianzi University
Priority to CN201810199059.6A priority Critical patent/CN108647691B/zh
Publication of CN108647691A publication Critical patent/CN108647691A/zh
Application granted granted Critical
Publication of CN108647691B publication Critical patent/CN108647691B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/42Global feature extraction by analysis of the whole pattern, e.g. using frequency domain transformations or autocorrelation
    • G06V10/422Global feature extraction by analysis of the whole pattern, e.g. using frequency domain transformations or autocorrelation for representing the structure of the pattern or shape of an object therefor
    • G06V10/424Syntactic representation, e.g. by using alphabets or grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)
  • Editing Of Facsimile Originals (AREA)

Abstract

本发明公开了一种基于点击特征预测的图像分类方法。本发明步骤如下:1、借助有文本点击信息的图像数据集;利用分词技术及词频‑逆向文件频率算法构建每张图片的文本点击特征向量;2、在源点击数据集下,以最小化点击特征预测误差为目标,构建带位置约束的非线性词嵌入模型,从而实现基于视觉特征的点击特征预测,并利用融合的深度视觉与预测点击特征对不含点击信息的任一目标图像集分类;3、构建多任务、跨模态迁移深度学习框架,在同时最小化分类与预测损失下,利用源点击数据集、目标数据集训练深度视觉与词嵌入模型;4、通过反向传播算法对步骤2中的网络参数进行训练,直至整个网络模型收敛。本发明使得预测的点击特征更为准确。

Description

一种基于点击特征预测的图像分类方法
技术领域
本发明涉及细粒度图像分类及点击数据预测领域,尤其涉及基于点击特征预测的图像分类方法。
背景技术
细粒度视觉分类(Fine-Grained Visual Categorization,FGVC)是对视觉上非常相似的目标进行区分的过程,如鸟、狗、花的种类等,这些子类图像在视觉上差距甚小。因此传统的利用图像视觉特征(如轮廓,颜色等)的分类方法无法取得令人满意的效果,并存在较大的“语义鸿沟”。
为了解决语义鸿沟,研究者们尝试引入带有语义信息的图像特征。用户点击特征便是其中之一,它是通过搜索引擎(如Google、百度、Bing等)上获取的用户点击数据得到的。通过点击数据,图像可以被表征为查询文本点击次数向量,这种特征向量具有良好的表达语义能力。
尽管点击数据具有丰富的语义信息,但目前大多数图像分类数据集不包含点击信息,且收集图片的点击数据需要大量的人工标注且不现实。为了解决这个问题,我们提出了点击特征预测的方法,并利用融合的视觉与预测点击特征进行图像分类。
预测出的点击数据具有一定的表达语义信息的能力,并降低了数据收集的难度和人工成本。将其与视觉特征相融合进行图像分类,对促进细粒度图像分类的效果具有一定的可行性和实用性,是值得研究的。此外,点击数据作为目前科研的热门方向,将其应用在图像识别领域使得本发明具有一定的前沿性和创新性,直接从图像本身预测点击特征的方法也使得该发明有更强的现实性和普适性。
发明内容
本发明提供了一种基于点击特征预测的图像分类方法,该方法将点击预测和图像分类融合在一个统一的深度神经网络中、完成了一个端到端的深度学习模型,该模型能同时完成点击特征的预测及图像的分类任务,在点击特征预测方面,利用带位置约束的损失函数使得预测出的点击特征更加准确,在图像分类任务方面,利用预测出的点击特征改善分类效果,取得了比仅利用视觉特征分类的模型更好的效果
一种基于点击特征预测的图像分类方法,其步骤如下:
步骤(1)、借助有文本点击信息的图像数据集,即源点击数据集;利用分词技术及词频-逆向文件频率算法构建每张图片的文本点击特征向量,所述的借助有文本点击信息的图像数据集,是指利用分词技术及词频-逆向文件频率算法构建每张图片的文本点击特征向量,具体如下:
步骤(1)中图像的文本点击信息是指每个图片对应的一个M维点击次数向量,其中M代表点击数据中文本的个数;
步骤(1)中的特征向量构建的过程如下:
将M个文本解析为单词,并选取点击次数最多的前N个单词作词基,N≤M,利用tf-idf算法为每张图片构建点击特征;其中具体公式如下:
Figure GDA0002518781710000021
其中,ni,j是单词i出现在文本j中出现次数,而∑ini,j是文本j中所有单词出现次数的总和。D是文本集中的文本j出现的总数,Di是包含单词i的文本数;
步骤(2)、在源点击数据集下,以最小化点击特征预测误差为目标,在视觉特征的词嵌入模型基础上,构建带位置约束的非线性词嵌入模型,从而实现基于视觉特征的点击特征预测,并利用融合的深度视觉与预测点击特征对不含点击信息的任一目标图像集分类,所述的在视觉特征的词嵌入模型上构建带位置约束的非线性词嵌入模型,从而实现基于视觉特征的点击特征预测,具体如下:
2-1.非线性词嵌入模型是指将原始的视觉深度学习模型输出的视觉特征x,经过一系列的空间变换矩阵和非线性操作,转化为与点击特征维度相同的预测点击特征
Figure GDA0002518781710000031
具体公式如下:
Figure GDA0002518781710000032
其中,E1表示卷积层,包括卷积变换、池化以及线性整流单元(RELU)运算,E2、E3为两个全连接层,分别表征为两个词嵌入转换矩阵,f(·)表示一个非线性操作。
2-2.构建带位置约束的非线性词嵌入模型是指在构建点击预测的损失函数时,使用融合的点击次数向量和点击文本集误差;针对第i个图像样本,预测误差的具体公式如下:
Figure GDA0002518781710000033
其中,τ为权重参数,
Figure GDA0002518781710000034
为第i个样本真实的点击次数特征向量vi与预测点击特征
Figure GDA0002518781710000035
之间的误差;而
Figure GDA0002518781710000036
为点击文本集误差,用来度量预测被点击数据
Figure GDA0002518781710000037
与真实被点击数据
Figure GDA0002518781710000038
的文本集之间的距离:
Figure GDA0002518781710000039
其中,∪、\分别表示并集与差集;将公式4重写为如下文本点击有无向量S(·)之间的误差:
Figure GDA00025187817100000310
Figure GDA00025187817100000311
S(vi)和
Figure GDA00025187817100000312
分别表示真实的点击有无向量与预测的点击有无向量,xb为向量x对应的二值化向量,S(x)为将x二值化的函数,
Figure GDA0002518781710000041
为S(x)中的向量,mj代表x和xb的维度;
2-3.将公式(5)中的文本点击有无向量S(x),被如下光滑函数近似:
Figure GDA0002518781710000042
其中,T、B分别为误差阈值、带宽参数。公式6对特征小于0的部分近似为0值,大于0的部分近似为1。
步骤(3)构建多任务、跨模态迁移深度学习框架,在同时最小化分类与预测损失下,利用源点击数据集、目标数据集训练所述视觉特征的词嵌入模型;具体如下:
3-1.多任务是指在优化点击预测模型中,同时最小化预测和分类误差,使其预测的点击特征同时适用于预测和分类任务。针对此问题,构造如下多域损失函数:
Figure GDA0002518781710000043
其中,yi为样本i真实类别,λ为权重参数,oi
Figure GDA0002518781710000044
代表向量的第i和yi个元素。
3-2.跨模态:分类特征不仅是图片的视觉特征,还融合了预测的文本点击特征,图像的跨模态特征的具体公式如下:
Figure GDA0002518781710000045
其中,xi是跨模态特征,zi
Figure GDA0002518781710000046
分别是经过batch normalization的视觉特征和预测的点击特征,zi,1、zi,2为zi的第1、2个元素,
Figure GDA0002518781710000047
代表
Figure GDA0002518781710000048
的第1、2个元素。
3-3.跨领域:利用源点击数据集进行点击预测,并利用预测的点击特征对目标数据集进行分类。即构建了一个统一的框架实现对两种不同数据集的分类,并通过“图像-点击相关性”模型的迁移,使得没有点击数据的目标数据集也能进行基于用户点击的图像分类。该模型的多域损失函数公式如下:
Figure GDA0002518781710000051
其中,
Figure GDA0002518781710000052
表示源点击数据集中的图片,
Figure GDA0002518781710000053
表示目标数据集中的图片,μ为权衡不同数据集模型的参数。
步骤(4)通过反向传播算法对步骤(2)中的非线性词嵌入模型的网络参数进行训练,直至非线性词嵌入收敛,其具体过程如下:
针对以下最优化问题,通过反向传播算法迭代训练,直至模型收敛:
Figure GDA0002518781710000054
其中,θ*为深度网络模型参数。
本发明有益效果:
本发明对大部分数据集没有点击信息的现实问题,提出了利用预测点击特征进行图像分类,一定程度上解决了图像识别中的“语义鸿沟”问题,同时,提出了一个统一框架将点击特征预测和图像分类融合到了一个网络模型中,实现了端对端的多任务跨模态的迁移神经网络训练。此外,点击数据作为目前的研究热点,合理的使用也使得本发明更具有科研前沿性和创新性,点击数据直接从原图像预测的特性也使得该发明有更强的现实性和普适性,我们提出的改善的点击数据预测方法也使得预测的点击特征更为准确。
附图说明
图1是本发明方法的具体流程示意图。
图2是本发明方法中预测点击特征时的非线性词嵌入模型。
图3是本发明方法中构造的网络框架示意图。
图4为本发明预测的点击特征示意图。
具体实施方式
下面结合附图对本发明做进一步具体说明。
如图1所示,本发明提供一种基于点击特征预测的图像分类方法。
步骤(1)所述的步骤(1)所述的借助有图像文本点击的数据集,利用分词技术及tf-idf为每张原数据图片构建点击特征,具体如下:
1-1.为了满足实验需求,我们利用微软提供的进行狗种分类的点击图像数据集Clickture-Dog。该数据集有344类狗的图片,我们过滤图片数少于5张的种类,最后得到283组共95,041张图片。考虑到原始图像数据噪声太多,我们对图像进行了数据清洗的操作。
1-2.首先,我们用vgg16对95,041张图片进行训练,得到一个狗图片的VGG检测器。然后我们综合利用图片的点击次数、图片的可靠性、图片的数量对图片数据进行清洗。具体过程如下:1当图片小于8张时全部保留;2当类图片数小于100张时,点击量前一半属于该类概率大于0.2则被选中,后一半大于0.4则被选中,3当图片数大于300张时,点击量前一半属于该类概率大于0.4则被选中,后一半大于0.6则被选中,4其他情况则参考《W.Feng andD.Liu,“Fine-grained image recognition from click-through logs using deepsiamese network,”in International Conference on Multimedia Modeling,2017,pp.127–138.》,点击量前一半属于该类概率大于0.3则被选中,后一半大于0.5则被选中,最后选出近32,691张图片。下表1是图片清洗前和清洗后用VGG网络得到的准确率,可以看出数据清洗后预测准确度有明显上升,证明图片清洗有效。
表1
top1 top5
原始图片 62.8% 86.6%
清洗后图片 67.0% 88.0%
1-3.将所选择的图片的点击矩阵与文本拿出,对点击文本进行切词处理,最终在26万多个文本中得到进39,482个单词,考虑到每个单词的点击次数和模型大小,最终选中点击量最多的1000个单词作为词基。
1-4.将每张图片视为一段文档,利用tf-idf算法,将每张图片用1000维的点击特征进行表示。考虑到目标数据只有129类,将原数据也选取到129类,并考虑到数据的平衡性,大于300张的种类只取300张,最后得到129类19,833张图片,按照2∶1∶1划分训练验证测试集。
1-5.将目标数据集中的12,358张图片同样按照2∶1∶1划分训练、验证和测试集。
步骤(2)所述的在视觉特征的词嵌入模型基础上,构建带位置约束的非线性词嵌入模型,从而实现基于视觉特征进行点击特征预测,具体如下:
构建点击特征预测通道,其中如附图中的图2所示,前半部分我们使用的传统的卷积神经网络,具体来说我们使用的是VGG-S,图片经过VGG-S得到了图片的视觉特征xi,经过公式2转化为预测的点击特征
Figure GDA0002518781710000071
在这里,为了确定E1的形式,我们比对了几种非线性词嵌入的结构,包括两个全连接层(biFC),卷积加一个全连接层(CONV+FC),卷积加两个全连接层(CONV+biFC),并与传统的线性词嵌入结构(FC)进行了对比,结果如下表2。可看出,我们最终选择的卷积加两层全连接的非线性嵌入结构所预测出的点击,在分类任务上表现的更好。
表2
方法 FC biFC CONV+FC CONV+biFC
源数据(%) 63.0 68.7 68.9 69.8
目标数据(%) 44.2 54.0 51.6 56.4
在确定非线性词嵌入的结构之后,我们用公式6中的损失函数对点击特征预测通道进行训练,其中公式6中所包含的公式5中的函数S(x),其中参数T、B,经过实验,B=0.01、T=0.1时,效果最好。而公式6中的参数,经过实验,τ的取值定为0.1。最终,我们比较了原始点击数据,未加入位置条件约束的点击预测以及加入位置条件约束的点击预测的特征数据,如下图4所示,可以看出,在加入了位置条件约束后,预测的点击特征更为准确了。
为了证明带位置约束的非线性词嵌入结构的效果以及融合预测点击和视觉特征的效果,我们比较了单纯的视觉特征(V)、线性的词嵌入结构预测出的点击特征(C1)、不带位置约束的非线性词嵌入结构预测出的点击特征(CE)、带位置约束的非线性词嵌入结构预测出的点击特征(C),融合视觉特征与线性的词嵌入结构预测出的点击特征(V+C1),融合视觉特征与不带位置约束的非线性词嵌入结构预测出的点击特征(V+CE),融合视觉特征与带位置约束的非线性词嵌入结构预测出的点击特征(V+C)进行了对比,如下表3所示。结果证明了预测的点击数据对图像分类效果有一定的提升,并且我们提出的带位置约束的非线性词嵌入结构在融合视觉特征后表现最为优秀。
表3
方法 V C<sub>1</sub> C<sub>E</sub> C V+C<sub>1</sub> V+C<sub>E</sub> V+C
源数据(%) 76.5 63.0 69.8 69.7 76.4 76.6 77.5
目标数据(%) 70.7 44.2 56.4 58.6 71.3 71.6 72.2
步骤(3)所述的构建多任务、跨模态迁移深度学习框架,同时训练视觉特征的词嵌入模型。模型中,同时最小化分类与预测损失,并将有、无点击数据的样本进行融合训练网络,具体如下:
根据附图2构建深度学习模型,最后该模型的损失函数为公式9,其中τ、B、T参数在步骤2中已经确定,而μ经过实验,最终取值为0.9。
步骤(4)所述的通过反向传播算法对步骤(2)中的网络参数进行训练,直至非线性词嵌入模型收敛,具体如下:
4-1.根据公式10的最优化问题,在已经构建好的深度学习模型上进行反向传播训练,直至非线性词嵌入模型收敛。初始时,学习率为0.001,采用mini-batch的方法,每一个batch的大小为128张图片,迭代10000次,学习率下降采用固定步数下降法,即每迭代2000次学习率乘上0.1。
4-2.测试非线性词嵌入模型。在非线性词嵌入模型训练完成后,我们用测试数据作为检测标准在最后的模型上测试了准确率,并以同样的数据在一些传统的方法上进行测试,得到的准确率对比结果见下表。从表4中可以看出,我们发明的方法对图形分类效果有明显的提升。
表4
方法 SVM VGG<sub>img</sub> VGG<sub>src</sub> TDL Ours
原数据(%) 73.9 76.5 76.5 77.5 77.7
目标数据(%) 64.4 70.7 72.2 72.2 76.0
表中SVM是传统机器学习中的支持向量机算法,该方法使用的特征是VGG-S深度学习模型提取出的视觉特征。VGGimg是直接在传统VGG-S深度学习模型上进行分类,但参数的初始化是利用网络上公开的已经训练好的模型进行的。VGGsrc同样是直接在VGG-S深度学习模型上进行训练,但是它的参数初始化时已经利用我们的原数据进行预训练,“TDL”是指直接将图像的视觉特征和预测出的点击特征融合去训练一个softmax分类器。“Ours”即本文所提出的方法。

Claims (3)

1.一种基于点击特征预测的图像分类方法,其特征在于包括如下步骤:
步骤(1)、借助有文本点击信息的图像数据集,即源点击数据集;利用分词技术及词频-逆向文件频率算法构建每张图片的文本点击特征向量,所述的借助有文本点击信息的图像数据集,是指利用分词技术及词频-逆向文件频率算法构建每张图片的文本点击特征向量,具体如下:
步骤(1)中图像的文本点击信息是指每个图片对应的一个M维点击次数向量,其中M代表点击数据中文本的个数;
步骤(1)中的特征向量构建的过程如下:
将M个文本解析为单词,并选取点击次数最多的前N个单词作词基,N≤M,利用tf-idf算法为每张图片构建点击特征;其中具体公式如下:
Figure FDA0002518781700000011
其中,ni,j是单词i出现在文本j中出现次数,而∑ini,j是文本j中所有单词出现次数的总和;D是文本集中的文本j出现的总数,Di是包含单词i的文本数;
步骤(2)、在源点击数据集下,以最小化点击特征预测误差为目标,在视觉特征的词嵌入模型基础上,构建带位置约束的非线性词嵌入模型,从而实现基于视觉特征的点击特征预测,并利用融合的深度视觉与预测点击特征对不含点击信息的任一目标图像集分类,所述的在视觉特征的词嵌入模型上构建带位置约束的非线性词嵌入模型,从而实现基于视觉特征的点击特征预测,具体如下:
2-1.非线性词嵌入模型是指将原始的视觉深度学习模型输出的视觉特征x,经过一系列的空间变换矩阵和非线性操作,转化为与点击特征维度相同的预测点击特征
Figure FDA0002518781700000012
具体公式如下:
Figure FDA0002518781700000013
其中,E1表示卷积层,包括卷积变换、池化以及线性整流单元(RELU)运算,E2、E3为两个全连接层,分别表征为两个词嵌入转换矩阵,f(·)表示一个非线性操作;
2-2.构建带位置约束的非线性词嵌入模型是指在构建点击预测的损失函数时,使用融合的点击次数向量和点击文本集误差;针对第i个图像样本,预测误差的具体公式如下:
Figure FDA0002518781700000014
其中,τ为权重参数,
Figure FDA0002518781700000015
为第i个样本真实的点击次数特征向量vi与预测点击特征
Figure FDA0002518781700000021
之间的误差;而
Figure FDA0002518781700000022
为点击文本集误差,用来度量预测被点击数据
Figure FDA0002518781700000023
与真实被点击数据A={j|(vi)j≠0}的文本集之间的距离:
Figure FDA0002518781700000024
其中,∪、\分别表示并集与差集;将公式4重写为如下文本点击有无向量S(·)之间的误差:
Figure FDA0002518781700000025
Figure FDA0002518781700000026
S(vi)和
Figure FDA0002518781700000027
分别表示真实的点击有无向量与预测的点击有无向量,xb为向量x对应的二值化向量,S(x)为将x二值化的函数,
Figure FDA0002518781700000028
为S(x)中的向量,ms′代表向量x和xb的维度;
2-3.公式(5)中的文本点击有无向量S(x),被如下光滑函数近似:
Figure FDA0002518781700000029
其中,T、B分别为误差阈值、带宽参数;公式6对特征小于0的部分近似为0值,大于0的部分近似为1;
步骤(3)、构建多任务、跨模态迁移深度学习框架,在同时最小化分类与预测损失下,利用源点击数据集、目标数据集训练所述视觉特征的词嵌入模型;
步骤(4)、通过反向传播算法对步骤(2)中的非线性词嵌入模型的网络参数进行训练,直至构建的非线性词嵌入模型收敛。
2.根据权利要求1所述的一种基于点击特征预测的图像分类方法,其特征在于步骤(3)构建多任务、跨模态迁移深度学习框架,在同时最小化分类与预测损失下,利用融合的源、目标数据集训练深度视觉与词嵌入模型,具体如下:
3-1.多任务是指在优化点击预测模型中,同时最小化预测和分类误差,使其预测的点击特征同时适用于预测和分类任务;针对此问题,构造如下多域损失函数:
Figure FDA0002518781700000031
其中,yi为样本i真实类别,λ为权重参数,oi
Figure FDA0002518781700000032
代表向量的第i和yi个元素;
3-2.跨模态:分类特征不仅是图片的视觉特征,还融合了预测的文本点击特征,图像的跨模态特征的具体公式如下:
Figure FDA0002518781700000033
其中,xi是跨模态特征,zi
Figure FDA0002518781700000034
分别是经过batch normalization的视觉特征和预测的点击特征,zi,1、zi,2为zi的第1、2个元素,
Figure FDA0002518781700000035
代表
Figure FDA0002518781700000036
的第1、2个元素;
3-3.跨领域:利用源点击数据集进行点击预测,并利用预测的点击特征对目标数据集进行分类;即构建了一个统一的框架实现对两种不同数据集的分类,并通过“图像-点击相关性”模型的迁移,使得没有点击数据的目标数据集也能进行基于用户点击的图像分类;该模型的多域损失函数公式如下:
Figure FDA0002518781700000037
其中,
Figure FDA0002518781700000038
表示源点击数据集中的图片,
Figure FDA0002518781700000039
表示目标数据集中的图片,μ为权衡不同数据集模型的参数。
3.根据权利要求2所述的一种基于点击特征预测的图像分类方法,其特征在于步骤(4)通过反向传播算法对步骤(2)中的非线性词嵌入模型的参数进行训练,直至非线性词嵌入模型收敛,其具体过程如下:
针对以下最优化问题,通过反向传播算法迭代训练,直至模型收敛:
Figure FDA0002518781700000041
其中,θ*为非线性词嵌入模型的参数。
CN201810199059.6A 2018-03-12 2018-03-12 一种基于点击特征预测的图像分类方法 Active CN108647691B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810199059.6A CN108647691B (zh) 2018-03-12 2018-03-12 一种基于点击特征预测的图像分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810199059.6A CN108647691B (zh) 2018-03-12 2018-03-12 一种基于点击特征预测的图像分类方法

Publications (2)

Publication Number Publication Date
CN108647691A CN108647691A (zh) 2018-10-12
CN108647691B true CN108647691B (zh) 2020-07-17

Family

ID=63744346

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810199059.6A Active CN108647691B (zh) 2018-03-12 2018-03-12 一种基于点击特征预测的图像分类方法

Country Status (1)

Country Link
CN (1) CN108647691B (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109582782A (zh) * 2018-10-26 2019-04-05 杭州电子科技大学 一种基于用弱监督深度学习的文本聚类方法
CN109815973A (zh) * 2018-12-07 2019-05-28 天津大学 一种适用于鱼类细粒度识别的深度学习方法
CN111753116B (zh) * 2019-05-20 2024-05-24 北京京东尚科信息技术有限公司 图像检索方法、装置、设备及可读存储介质
CN110569427B (zh) * 2019-08-07 2022-03-01 智者四海(北京)技术有限公司 一种多目标排序模型训练、用户行为预测方法及装置
CN112825146B (zh) * 2019-11-21 2024-04-09 北京沃东天骏信息技术有限公司 一种重图识别方法和装置
CN111191691B (zh) * 2019-12-16 2023-09-29 杭州电子科技大学 基于词性分解的深度用户点击特征的细粒度图像分类方法
CN113538573B (zh) * 2020-04-20 2023-07-25 中移(成都)信息通信科技有限公司 服饰关键点定位方法、装置、电子设备及计算机存储介质
CN112287965A (zh) * 2020-09-21 2021-01-29 卓尔智联(武汉)研究院有限公司 图像质量检测模型训练方法、装置和计算机设备
CN112231535B (zh) * 2020-10-23 2022-11-15 山东科技大学 一种农业病虫害领域多模态数据集制作方法、处理装置和存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5594468A (en) * 1989-11-07 1997-01-14 Proxima Corporation Optical system auxiliary input calibration arrangement and method of using same
CN106919951A (zh) * 2017-01-24 2017-07-04 杭州电子科技大学 一种基于点击与视觉融合的弱监督双线性深度学习方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102346899A (zh) * 2011-10-08 2012-02-08 亿赞普(北京)科技有限公司 一种基于用户行为的广告点击率预测方法和装置
CN105654200A (zh) * 2015-12-30 2016-06-08 上海珍岛信息技术有限公司 一种基于深度学习的广告点击率预测方法及装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5594468A (en) * 1989-11-07 1997-01-14 Proxima Corporation Optical system auxiliary input calibration arrangement and method of using same
CN106919951A (zh) * 2017-01-24 2017-07-04 杭州电子科技大学 一种基于点击与视觉融合的弱监督双线性深度学习方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于用户点击数据的细粒度图像识别方法概述;俞俊等;《南京信息工程大学学报(自然科学版)》;20171128;第9卷(第6期);第567-574页 *

Also Published As

Publication number Publication date
CN108647691A (zh) 2018-10-12

Similar Documents

Publication Publication Date Title
CN108647691B (zh) 一种基于点击特征预测的图像分类方法
CN104966104B (zh) 一种基于三维卷积神经网络的视频分类方法
CN105740401B (zh) 一种基于个体行为和群体兴趣的兴趣地点推荐方法及装置
CN106919951B (zh) 一种基于点击与视觉融合的弱监督双线性深度学习方法
CN109783738B (zh) 一种基于多相似度的双极限学习机混合协同过滤推荐方法
WO2019015246A1 (zh) 图像特征获取
CN112487199B (zh) 一种基于用户购买行为的用户特征预测方法
CN108536784B (zh) 评论信息情感分析方法、装置、计算机存储介质和服务器
CN112559764B (zh) 一种基于领域知识图谱的内容推荐方法
CN109582782A (zh) 一种基于用弱监督深度学习的文本聚类方法
CN111222847B (zh) 基于深度学习与非监督聚类的开源社区开发者推荐方法
CN111563770A (zh) 一种基于特征差异化学习的点击率预估方法
CN110737805B (zh) 图模型数据的处理方法、装置和终端设备
CN107622071B (zh) 通过间接相关反馈在无查源下的衣服图像检索系统及方法
CN115687760A (zh) 一种基于图神经网络的用户学习兴趣标签预测方法
CN111209469A (zh) 一种个性化推荐方法、装置、计算机设备及存储介质
CN110569761B (zh) 一种基于对抗学习的手绘草图检索遥感图像的方法
CN115457332A (zh) 基于图卷积神经网络和类激活映射的图像多标签分类方法
Weber et al. Automated labeling of electron microscopy images using deep learning
CN105787045B (zh) 一种用于可视媒体语义索引的精度增强方法
Rijal et al. Integrating Information Gain methods for Feature Selection in Distance Education Sentiment Analysis during Covid-19.
CN117726320A (zh) 一种工业设备故障诊断方法及装置
CN116343016A (zh) 一种基于轻量型卷积网络的多角度声呐图像目标分类方法
CN111459927B (zh) Cnn-lstm开发者项目推荐方法
CN114254199A (zh) 基于二分图投影和node2vec的课程推荐方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant