CN108733801B - 一种面向数字人文的移动视觉检索方法 - Google Patents

一种面向数字人文的移动视觉检索方法 Download PDF

Info

Publication number
CN108733801B
CN108733801B CN201810474540.1A CN201810474540A CN108733801B CN 108733801 B CN108733801 B CN 108733801B CN 201810474540 A CN201810474540 A CN 201810474540A CN 108733801 B CN108733801 B CN 108733801B
Authority
CN
China
Prior art keywords
model
image
training
loss
digital human
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201810474540.1A
Other languages
English (en)
Other versions
CN108733801A (zh
Inventor
曾子明
秦思琪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan University WHU
Original Assignee
Wuhan University WHU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan University WHU filed Critical Wuhan University WHU
Priority to CN201810474540.1A priority Critical patent/CN108733801B/zh
Publication of CN108733801A publication Critical patent/CN108733801A/zh
Application granted granted Critical
Publication of CN108733801B publication Critical patent/CN108733801B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Multimedia (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开一种面向数字人文的移动视觉检索方法,包括:首先构建基于深度哈希的图像语义提取模型;通过预训练对模型各处理层的参数进行初始化;构造适用于数字人文领域的损失函数;采集数字人文图像样本,并构建模型训练数据集和验证集;对图像样本进行预处理;使用构建的损失函数和数字人文训练集对模型进行训练,优化模型参数;使用完成训练的模型提取图像语义特征向量,完成图像检索流程。本发明针对数字人文移动视觉检索中的图像深度语义特征提取和数据传输规模限制两大挑战,结合深度学习和哈希方法提出基于深度哈希的数字人文移动视觉搜索方法,该方法在数字人文领域数据集上表现优异。

Description

一种面向数字人文的移动视觉检索方法
技术领域
本发明涉及数字人文、移动视觉检索等领域,特别涉及一种面向数字人文的移动视觉检索方法。
背景技术
随着移动智能终端设备的普及、大数据和云计算技术的快速发展,互联网上产生了海量的图片、视频、3D模型等视觉内容;移动设备的便携性和无线网络的泛在化使得信息检索方式趋于移动化、多媒体化,移动视觉搜索(Mobile Visual Search,MVS)技术,即通过移动智能终端采集的图像、视频或地图等视觉数据作为检索对象来获取关联信息的信息检索模式,逐渐发展起来,并且产生了巨大的市场和应用需求。而将MVS应用到数字人文领域是近几年随着图书情报学科在MVS研究的逐渐深入而出现的,目前主要应用在图书馆、档案馆、博物馆等领域,MVS在数字人文领域的应用主要包括提供展品导览、实现精准定位、提升阅读体验等
目前有关数字人文移动视觉检索的研究主要围绕以下三个方面展开:①发展方向的探讨:通过调研研究数字人文移动视觉的处理对象、基本框架、应用实践等方面的发展和前景。②基础架构的搭建:通过分析数字人文移动视觉检索的处理对象、应用场景和技术实现方法,构建基本理论框架。③应用试验:通过构建技术框架、采集数据,进行模拟实验验证相关方法的有效性。
在上述方法中,大多数并未充分考虑到图像深层语义特征的提取以及数据传输规模限制,数字人文移动视觉检索方法仍然有较大的优化空间。
发明内容
本发明要解决的技术问题在于针对现有技术中的不足,综合考虑图像深层语义特征的提取以及数据传输规模限制,运用深度哈希技术提出一种面向数字人文的移动视觉检索方法。
本发明所采用的技术方案是:一种面向数字人文的移动视觉检索方法,包含以下步骤:
步骤1,构建基于深度哈希的图像语义提取模型,该模型总共分为九个处理层:包括五个卷积层、两个全连接层、一个哈希层和一个输出层;
步骤2,对模型进行预训练,使用预训练模型参数作为各处理层的初始化参数;
步骤3,构造基于深度哈希的图像语义提取模型的损失函数;
步骤4,采集图像样本,构建模型训练集和验证集;
步骤5,图像预处理,减少图像光照、大小对模型的影响;
步骤6,使用步骤3中构建的损失函数和步骤4构建的训练集对模型进行训练,优化模型参数;
步骤7,利用步骤6中训练完成的模型提取图像语义特征,使用步骤4中的验证集作为图像检索集,训练集作为目标集,计算图像间的距离,并根据距离大小进行排序,返回图像检索结果。
进一步的,所述步骤1中卷积处理层Ci包含卷积、
Figure BDA0001664126450000021
其中,卷积运算
Figure BDA0001664126450000023
通常是指使用卷积核对图像中的每个像素进行乘积求和的运算方式,Wi、bi分别为第i个卷积层的卷积核权重向量和偏置向量;卷积运算结果通过非线性激活函数f(·)得到输出激活值;最后通过池化方法P(·)得到最终的卷积层输出结果;
全连接层定义如下:
FCi=f(Wi·FCi-1+bi)
其中,Wi、bi分别为第i个全连接层的权重向量和偏置向量,f(·)为全连接层的激活函数;
哈希层使用基于LSH的哈希方法对特征向量进行处理,并使用激活函数保证哈希层输出在[-1,1]范围内,哈希层定义如下:
Figure BDA0001664126450000022
其中v为输入哈希层的特征向量,a是一个每一维均独立随机取自P稳定分布的d维向量,b为随机取自[0,w]的一个实数,w为量化宽度;f(·)为激活函数;
输出层的节点个数是模型需要预测的变量的个数,即数据集类别总数,使用输出激活函数,得到最终的输出激活值,定义如下:
Output=f(v)
其中v为输入输出层的特征向量。
进一步的,所述步骤2中,使用ImageNet数据集对模型进行预训练。
进一步的,所述步骤3中,构造基于深度哈希的图像语义提取模型的损失函数,定义如下:
L=Lp+Lr+φ(θ)
该损失函数包含预测损失项Lp、排序损失项Lr和正则项φ(θ)三个部分;
其中,预测损失项Lp计算模型对样本的预测值与真实值之间的误差,定义如下:
Figure BDA0001664126450000031
对于属于类别Ci的样本x,模型输出为f(x)=(x1,...,xc),xi表示该样本属于类别i的得分值,C为类别总数,xCi即表示该样本属于实际类别Ci的概率,xmaxi为模型预测的最大概率值,-log为计算对数损失.
排序损失项主要考虑到语义排序问题,将排序因素计入损失项中,排序损失项Lr定义如下:
Lr=-log(P(xci>xi))
Figure BDA0001664126450000032
Figure BDA0001664126450000033
其中,P(xCi>xi)即正样本得分排在负样本前面的概率;Lr排序损失可理解为:对于实际属于Ci类的单个样本x,理想结果是xCi>xi(i,Ci∈c;i≠Ci)且xCi趋近于1、xi趋近于0,此时P(xCi>xi)=1,Lr=0;若正样本预测得分小于负样本,则需要计入排序损失项;
正则项的主要作用是提高模型的领域泛化性,定义如下:
Figure BDA0001664126450000034
其中,λ为正则项系数,调节正则项与其他损失项的比重,n为模型训练过程中每批(batch)训练集的样本数,1/2便于梯度计算过程中的求导,w为模型中各节点的连接权重值。
进一步,所述步骤4中,采集的图像数据样本为数字人文领域,先对样本进行分类,然后构建模型训练集和验证集,且训练集和验证集相互独立。
进一步的,所述步骤5中,采用对比度归一化方法对图像进行预处理,方法如下:
Figure BDA0001664126450000035
其中,图像为标准RGB格式,表示为X∈Rr×c×3,r×c为图像像素大小,数字3即RGB格式的红、绿、蓝三个颜色通道,则Xi,j,k表示第i行第j列第k个颜色通道(1为红色、2为绿色,3为蓝色通道)的像素值;
Figure BDA0001664126450000041
为整个图像的平均值;设置
Figure BDA0001664126450000047
为一个极小值以防止出现分母为0的情况。
进一步的,所述步骤6中,采用小批量梯度下降方法对模型训练过程进行优化,模型训练和优化的参数是各处理层的连接权重值和偏置值,通过模型训练使得模型中各个处理层得到最优参数值。
进一步的,所述步骤7中使用欧式距离度量图像间的距离。
进一步的,还包括步骤8,构建数字人文移动视觉检索流程的指标对步骤7中的检索流程进行评估。
进一步的,所述步骤8中,采用P@k、R@k、mAP对步骤7中的数字人文移动视觉检索流程的效率进行评估,P@k指标反映了top k个返回结果中的准确程度,R@k反映了top k个返回结果中的全面性,mAP综合反映系统的平均检索性能,各评估指标定义如下:
Figure BDA0001664126450000042
Figure BDA0001664126450000043
其中,Nk为前k个检索结果中与搜索图片相关(即与搜索图片类别相同或有相同的语义标签)的图片数,A为图片库中与搜索图片相关的样本总数;
Figure BDA0001664126450000044
Figure BDA0001664126450000045
Figure BDA0001664126450000046
其中,P(i)为前i个检索结果中相关样本数ir所占比例;APq反映了单个查询q中返回结果的平均查准率,对于单个查询q,N为图片库中相关图片总数,n为检索返回图片数,P(i)为前i个检索结果的查准率,r(i)表示第i个返回结果是否与查询图片相关(相关则取值为1,否则为0);Q为总查询数。
本发明的优点和有益效果:
(1)提出了一种面向数字人文的移动视觉检索方法,利用深度卷积神经网络逐层迭代和抽象的特点,使模型具备学习人文图像深层语义特征的能力,通过在神经网络结构层中嵌入哈希层的方法将深度学习和哈希算法有机结合,使模型学习到更为紧凑的图像语义特征表示,满足移动视觉搜索研究领域的图像语义特征提取和快速检索要求。
(2)提出了适用于移动视觉搜索场景的模型损失函数,考虑到移动视觉搜索的语义排序问题和模型过拟合问题,在softmax分类损失的基础上加入搜索排序损失项和L2正则项,使用该损失函数对基于深度哈希的图像语义特征提取模型进行训练,能够有效增强模型的学习能力和模型泛化性能。
附图说明
图1是本发明实施例的流程图。
具体实施方式
为了使本发明的目的、技术方案更加清楚,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
如图1所示,本发明实施例的具体实施包括如下步骤:
步骤1,构建基于深度哈希的图像语义提取模型,该模型总共分为九个处理层:包括五个卷积层、两个全连接层、一个哈希层和一个输出层;各处理层的具体策略如表1:
Figure BDA0001664126450000051
其中,卷积处理层Ci包含卷积、激活和池化三个处理步骤,表示为:
Figure BDA0001664126450000052
其中,
Figure BDA0001664126450000063
是卷积运算方式,Wi、bi分别为为第i个卷积层的卷积核权重向量和偏置向量;f(·)为RELU激活函数,P(·)最大池化方法;
全连接层定义如下:
FCi=f(Wi·FCi-1+bi)
其中,Wi、bi分别为为第i个全连接层的权重向量和偏置向量,f(·)为RELU激活函数。哈希层使用基于LSH的哈希方法对特征向量进行处理,并使用Tanh作为激活函数,保证哈希层输出在[-1,1]范围内,哈希层定义如下:
Figure BDA0001664126450000061
其中v为输入哈希层的特征向量,a是一个每一维均独立随机取自P稳定分布的d维向量,b为随机取自[0,w]的一个实数,w为量化宽度;f(·)为Tanh激活函数。
输出层的节点个数是模型需要预测的变量的个数,即数据集类别总数,使用softmax函数作为激活函数,得到最终的输出激活值,定义如下:
Output=softmax(v)
其中v为输入输出层的特征向量。
步骤2,模型参数初始化:使用ImageNet对步骤1中的模型进行预训练,采用预训练模型参数作为模型的初始参数;
步骤3,构造适用于数字人文领域的损失函数,如下:
L=Lp+Lr+φ(θ)
该损失函数包含预测损失项Lp、排序损失项Lr和正则项φ(θ)三个部分;
其中,预测损失项Lp计算模型对样本的预测值与真实值之间的误差,定义如下:
Figure BDA0001664126450000062
对于属于类别Ci的样本x,模型输出为f(x)=(x1,...,xc),xi表示该样本属于类别i的得分值,C为类别总数,xCi即表示该样本属于实际类别Ci的概率,xmaxi为模型预测的最大概率值,-log为计算对数损失。
排序损失项主要考虑到语义排序问题,将排序因素计入损失项中,排序损失项Lr定义如下:
Lr=-log(P(xci>xi))
Figure BDA0001664126450000071
Figure BDA0001664126450000072
其中,P(xCi>xi)即正样本得分排在负样本前面的概率;Lr排序损失可理解为:对于实际属于Ci类的单个样本x,理想结果是xCi>xi(i,Ci∈c;i≠Ci)且xCi趋近于1、xi趋近于0,此时P(xCi>xi)=1,Lr=0;若正样本预测得分小于负样本,则需要计入排序损失项。
正则项的主要作用是提高模型的领域泛化性,定义如下:
Figure BDA0001664126450000073
其中,λ为正则项系数,调节正则项与其他损失项的比重,n为模型训练过程中每批(batch)训练集的样本数,1/2便于梯度计算过程中的求导,w为模型中各节点的连接权重值。
步骤4,在中国国家博物馆官方网站上采集数字人文领域图像样本,共有500个图片样本,包含12个人文领域类别:古钱币、瓷瓶、瓷盘、瓷碗、玉器、铜剑、佛像、铜鼎、古籍、陶俑、山水画、书法;随机选取400个样本作为训练集,其余的100个样本作为验证集。
步骤5,采用对比度归一化方法对图像进行预处理,减少移动场景下的图像噪声,方法如下:
Figure BDA0001664126450000074
其中,图像为标准RGB格式,表示为X∈Rr×c×3,r×c为图像像素大小,数字3即RGB格式的红、绿、蓝三个颜色通道,则Xi,j,k表示第i行第j列第k个颜色通道(1为红色、2为绿色,3为蓝色通道)的像素值,
Figure BDA0001664126450000075
为整个图像的平均值;设置
Figure BDA0001664126450000076
为一个极小值(如10-8)以防止出现分母为0的情况。
步骤6,使用步骤3中构建的损失函数将模型在数字人文样本训练集上进行模型训练,采用小批量梯度下降方法对模型训练过程进行优化,小批量梯度下降即模型每次迭代学习以批量样本的形式进行模型训练,一次以一个批量(mini-batch)的训练数据计算目标函数的损失并更新模型参数,主要训练的参数是模型各处理层的连接权重值和偏置值,通过模型训练使得模型中各个处理层得到最优参数值。模型训练过程的形式化表示如表2:其中,第k次迭代的学习率εk将随着训练的进行指数衰减,ε0为基础学习率,γ为学习率的衰减系数,r为学习率衰减的迭代步长;假设令ε0=0.1,,γ=0.1,r=10,则表示每隔10次训练,学习率衰减为上一次训练的十分之一;L(f(xi;θ),yi)表示在参数θ下,模型预测样本xi的损失函数值。
Figure BDA0001664126450000081
步骤7,使用步骤6中训练完成的模型提取数据集中的图像语义特征向量,使用步骤4中的验证集作为图像检索集,训练集作为目标集,使用欧式距离度量图像间的距离,并根据距离大小进行排序,返回图像检索结果。
步骤8,采用P@k=5、P@k=10、R@k=5、R@k=10、mAP来作为基于深度哈希的数字人文移动视觉检索流程的评估指标,定义如下,其中Nk为前k个检索结果中与搜索图片相关(即与搜索图片类别相同或有相同的语义标签)的图片数,A为图片库中与搜索图片相关的样本总数。P@k指标反映了top k个返回结果中的准确程度,R@k反映了top k个返回结果中的全面性,P@k和R@k在查准率(Recall)和查全率(Precision)指标的基础上进行改进,计算前k个检索结果的查全率和查准率。
Figure BDA0001664126450000082
Figure BDA0001664126450000083
通常情况下,人们更关注排在前面的检索结果,P@k、R@k仅考虑前k个检索结果的查全率和查准率,对于评估系统性能更有实际意义;
Figure BDA0001664126450000091
Figure BDA0001664126450000092
P(i)为前i个检索结果中相关样本数ir所占比例;APq反映了单个查询q中返回结果的平均查准率,其中,对于单个查询q,N为图片库中相关图片总数,n为检索返回图片数,r(i)表示第i个返回结果是否与查询图片相关(相关则取值为1,否则为0),这里的相关可定义为与搜索图片类别相同或有相同的语义标签;mAP能够综合反映系统的平均检索性能,定义如下:
Figure BDA0001664126450000093
其中,Q为总查询数。
为了证明本发明方法的效果,使用如下方法1和方法2与本发明进行对比:
(1)方法1:使用大型数据集ImageNet对CNN-f模型(仅包括五个卷积层、三个全连接层,没有哈希层)进行预训练,使得该模型具备一定的图像中层和高层语义信息学习能力,使用预训练模型ImageNet-CNN-f作为特征提取器直接提取图像特征向量;通过欧氏距离度量样本之间的距离,进行样本匹配并返回检索结果,计算相应的评估指标(即P@k=5、P@k=10、R@k=5、R@k=10、mAP)作为基准数据,便于与本发明进行对比;
(2)方法2:在预训练模型ImageNet-CNN-f的全连接层FC7和FC8之间嵌入一个哈希层,即构建本发明提出的基于深度哈希的图像语义特征提取模型,基于传统的softmax分类损失函数,利用目标人文数据集对模型进行训练,提取哈希层激活输出作为紧凑的图像语义特征序列,用于检索流程;使用欧氏距离度量样本之间的距离,进行样本匹配并返回检索结果;
(3)本发明方法:在方法2的基础上,采用本发明构造的包含Softmax分类损失项、排序损失项和L2正则项的模型损失函数,利用目标人数据集对模型进行重新训练,同样提取哈希层激活输出作为图像语义特征序列,并采用评估指标评估其检索效果。
实验结果数据如表1:
Figure BDA0001664126450000094
Figure BDA0001664126450000101
从上表中可以看出,本发明方法在查全率和查准率上均优于其他方法。
本文中所描述的具体实施例仅仅是对本发明精神作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代,但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。

Claims (8)

1.一种面向数字人文的移动视觉检索方法,其特征在于,包含以下步骤:
步骤1,构建基于深度哈希的图像语义提取模型,该模型总共分为九个处理层:包括五个卷积层、两个全连接层、一个哈希层和一个输出层;
步骤2,对模型进行预训练,使用预训练模型参数作为各处理层的初始化参数;
步骤3,构造基于深度哈希的图像语义提取模型的损失函数;
所述步骤3中,构造基于深度哈希的图像语义提取模型的损失函数,定义如下:
L=Lp+Lr+φ(θ)
该损失函数包含预测损失项Lp、排序损失项Lr和正则项φ(θ)三个部分;
其中,预测损失项Lp计算模型对样本的预测值与真实值之间的误差,定义如下:
Figure FDA0002466890320000011
对于属于类别Ci的样本x,模型输出为f(x)=(x1,...,xC),xi表示该样本属于类别i的得分值,C为类别总数,
Figure FDA0002466890320000012
即表示该样本属于实际类别Ci的概率,xmaxi为模型预测的最大概率值,-log为计算对数损失;
排序损失项主要考虑到语义排序问题,将排序因素计入损失项中,排序损失项Lr定义如下:
Figure FDA0002466890320000013
Figure FDA0002466890320000014
Figure FDA0002466890320000015
其中,
Figure FDA0002466890320000016
即正样本得分排在负样本前面的概率;Lr排序损失可理解为:对于实际属于Ci类的单个样本x,理想结果是
Figure FDA0002466890320000017
Figure FDA0002466890320000018
趋近于1、xi趋近于0,此时
Figure FDA0002466890320000019
Lr=0;若正样本预测得分小于负样本,则需要计入排序损失项;
正则项的主要作用是提高模型的领域泛化性,定义如下:
Figure FDA0002466890320000021
其中,λ为正则项系数,调节正则项与其他损失项的比重,n为模型训练过程中每批训练集的样本数,1/2便于梯度计算过程中的求导,w为模型中各节点的连接权重值;
步骤4,采集图像样本,构建模型训练集和验证集;
步骤5,图像预处理,减少图像光照、大小对模型的影响;
步骤6,使用步骤3中构建的损失函数和步骤4构建的训练集对模型进行训练,优化模型参数;
步骤7,利用步骤6中训练完成的模型提取图像语义特征,使用步骤4中的验证集作为图像检索集,训练集作为目标集,计算图像间的距离,并根据距离大小进行排序,返回图像检索结果。
2.根据权利要求1所述的一种面向数字人文的移动视觉检索方法,其特征在于:所述步骤2中,使用ImageNet数据集对模型进行预训练。
3.根据权利要求1所述的一种面向数字人文的移动视觉检索方法,其特征在于:所述步骤4中,采集的图像数据样本为数字人文领域,先对样本进行分类,然后构建模型训练集和验证集,且训练集和验证集相互独立。
4.根据权利要求1所述的一种面向数字人文的移动视觉检索方法,其特征在于:所述步骤5中,采用对比度归一化方法对图像进行预处理,方法如下:
Figure FDA0002466890320000022
其中,图像为标准RGB格式,表示为X∈Rr×c×3,r×c为图像像素大小,数字3即RGB格式的红、绿、蓝三个颜色通道,则Xm,n,k表示第m行第n列第k个颜色通道的像素值,其中1为红色、2为绿色,3为蓝色通道;
Figure FDA0002466890320000023
为整个图像的平均值;设置
Figure FDA0002466890320000024
为一个极小值以防止出现分母为0的情况。
5.根据权利要求1所述的一种面向数字人文的移动视觉检索方法,其特征在于:所述步骤6中,采用小批量梯度下降方法对模型训练过程进行优化,模型训练和优化的参数是各处理层的连接权重值和偏置值,通过模型训练使得模型中各个处理层得到最优参数值。
6.根据权利要求1所述的一种面向数字人文的移动视觉检索方法,其特征在于:所述步骤7中使用欧式距离度量图像间的距离。
7.根据权利要求1所述的一种面向数字人文的移动视觉检索方法,其特征在于:还包括步骤8,构建数字人文移动视觉检索流程的指标对步骤7中的检索流程进行评估。
8.根据权利要求7所述的一种面向数字人文的移动视觉检索方法,其特征在于:所述步骤8中,采用P@k、R@k、mAP对步骤7中的数字人文移动视觉检索流程的效率进行评估,P@k指标反映了top k个返回结果中的准确程度,R@k反映了top k个返回结果中的全面性,mAP综合反映系统的平均检索性能,各评估指标定义如下:
Figure FDA0002466890320000031
Figure FDA0002466890320000032
其中,Nk为前k个检索结果中与搜索图片类别相同或有相同的语义标签的图片数,A为图片库中与搜索图片相关的样本总数;
Figure FDA0002466890320000033
Figure FDA0002466890320000034
Figure FDA0002466890320000035
其中,P(i')为前i'个检索结果中相关样本数ir所占比例;APq反映了单个查询q中返回结果的平均查准率,对于单个查询q,N为图片库中相关图片总数,n'为检索返回图片数,r(i')表示第i'个返回结果是否与查询图片相关,相关则取值为1,否则为0;Q为总查询数。
CN201810474540.1A 2018-05-17 2018-05-17 一种面向数字人文的移动视觉检索方法 Expired - Fee Related CN108733801B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810474540.1A CN108733801B (zh) 2018-05-17 2018-05-17 一种面向数字人文的移动视觉检索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810474540.1A CN108733801B (zh) 2018-05-17 2018-05-17 一种面向数字人文的移动视觉检索方法

Publications (2)

Publication Number Publication Date
CN108733801A CN108733801A (zh) 2018-11-02
CN108733801B true CN108733801B (zh) 2020-06-09

Family

ID=63938462

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810474540.1A Expired - Fee Related CN108733801B (zh) 2018-05-17 2018-05-17 一种面向数字人文的移动视觉检索方法

Country Status (1)

Country Link
CN (1) CN108733801B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109871379B (zh) * 2018-12-10 2022-04-01 宁波大学 一种基于数据块学习的在线哈希最近邻查询方法
CN110032659A (zh) * 2019-04-08 2019-07-19 湖南城市学院 一种面向数字人文的移动视觉检索方法
CN111177421B (zh) * 2019-12-30 2023-07-04 论客科技(广州)有限公司 一种面向数字人文的电子邮件历史事件轴生成方法及装置
CN112818148B (zh) * 2021-04-16 2021-11-05 北京妙医佳健康科技集团有限公司 视觉检索的排序优化方法、装置、电子设备及存储介质
CN113128527B (zh) * 2021-06-21 2021-08-24 中国人民解放军国防科技大学 基于变换器模型和卷积神经网络的图像场景分类方法
CN115082602B (zh) * 2022-06-15 2023-06-09 北京百度网讯科技有限公司 生成数字人的方法、模型的训练方法、装置、设备和介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105512289A (zh) * 2015-12-07 2016-04-20 郑州金惠计算机系统工程有限公司 基于深度学习和哈希的图像检索方法
CN107066553A (zh) * 2017-03-24 2017-08-18 北京工业大学 一种基于卷积神经网络与随机森林的短文本分类方法
CN107679250A (zh) * 2017-11-01 2018-02-09 浙江工业大学 一种基于深度自编码卷积神经网络的多任务分层图像检索方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180068344A1 (en) * 2013-10-15 2018-03-08 Jennifer L. Sultzaberger Systems and methods for management of media campaigns

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105512289A (zh) * 2015-12-07 2016-04-20 郑州金惠计算机系统工程有限公司 基于深度学习和哈希的图像检索方法
CN107066553A (zh) * 2017-03-24 2017-08-18 北京工业大学 一种基于卷积神经网络与随机森林的短文本分类方法
CN107679250A (zh) * 2017-11-01 2018-02-09 浙江工业大学 一种基于深度自编码卷积神经网络的多任务分层图像检索方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
基于深度卷积神经网络和二进制哈希学习的图像检索方法;彭天强 等;《电子与信息学报》;20160831;第2068-2075页 *
智慧图书馆移动视觉搜索服务及其技术框架研究;曾子明;《信息技术》;20170430(第4期);全文 *

Also Published As

Publication number Publication date
CN108733801A (zh) 2018-11-02

Similar Documents

Publication Publication Date Title
CN108733801B (zh) 一种面向数字人文的移动视觉检索方法
CN111104898B (zh) 基于目标语义和注意力机制的图像场景分类方法及装置
CN111126360A (zh) 基于无监督联合多损失模型的跨域行人重识别方法
CN110533041B (zh) 基于回归的多尺度场景文本检测方法
CN109241317A (zh) 基于深度学习网络中度量损失的行人哈希检索方法
CN110516095A (zh) 基于语义迁移的弱监督深度哈希社交图像检索方法和系统
CN111782833B (zh) 基于多模型网络的细粒度跨媒体检索方法
CN109992676B (zh) 一种跨媒体资源检索方法及检索系统
CN114360067A (zh) 一种基于深度学习的动态手势识别方法
CN115482418B (zh) 基于伪负标签的半监督模型训练方法、系统及应用
CN112036511B (zh) 基于注意力机制图卷积神经网络的图像检索方法
CN111935487B (zh) 一种基于视频流检测的图像压缩方法及系统
CN113628059A (zh) 一种基于多层图注意力网络的关联用户识别方法及装置
CN112712127A (zh) 一种结合图卷积神经网络的图像情感极性分类方法
CN109710804A (zh) 一种教学视频图像知识点降维分析方法
CN111523586B (zh) 一种基于噪声可知的全网络监督目标检测方法
CN112488301A (zh) 一种基于多任务学习和注意力机制的食品反演方法
CN111046213B (zh) 一种基于图像识别的知识库构建方法
CN113378938A (zh) 一种基于边Transformer图神经网络的小样本图像分类方法及系统
CN115203471A (zh) 一种基于注意力机制的多模融合视频推荐方法
CN109284414A (zh) 基于语义保持的跨模态内容检索方法和系统
CN112182275A (zh) 一种基于多维度特征融合的商标近似检索系统和方法
CN111723692A (zh) 基于卷积神经网络语义分类的标签特征的近重复视频检测方法
CN110110120B (zh) 一种基于深度学习的图像检索方法和装置
Chandrakala et al. Application of artificial bee colony optimization algorithm for image classification using color and texture feature similarity fusion

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20200609

Termination date: 20210517

CF01 Termination of patent right due to non-payment of annual fee