CN111325200A - 图像标注方法、装置、设备及计算机可读存储介质 - Google Patents

图像标注方法、装置、设备及计算机可读存储介质 Download PDF

Info

Publication number
CN111325200A
CN111325200A CN201811541392.7A CN201811541392A CN111325200A CN 111325200 A CN111325200 A CN 111325200A CN 201811541392 A CN201811541392 A CN 201811541392A CN 111325200 A CN111325200 A CN 111325200A
Authority
CN
China
Prior art keywords
label
labels
correlation
image
vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811541392.7A
Other languages
English (en)
Other versions
CN111325200B (zh
Inventor
刘义明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Jingdong Century Trading Co Ltd
Beijing Jingdong Shangke Information Technology Co Ltd
Original Assignee
Beijing Jingdong Century Trading Co Ltd
Beijing Jingdong Shangke Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Jingdong Century Trading Co Ltd, Beijing Jingdong Shangke Information Technology Co Ltd filed Critical Beijing Jingdong Century Trading Co Ltd
Priority to CN201811541392.7A priority Critical patent/CN111325200B/zh
Publication of CN111325200A publication Critical patent/CN111325200A/zh
Application granted granted Critical
Publication of CN111325200B publication Critical patent/CN111325200B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明实施例提供一种图像标注方法、装置、设备及计算机可读存储介质。本发明实施例的方法,通过获取标签集中任意两个标签之间的相关度,根据所述标签集中任意两个标签之间的相关度和图像的特征向量,生成融合向量,该融合向量同时包含图像特征信息和标签之间的依赖关系,从而以标签之间的语义相关性来增强样本的特征维度;根据所述融合向量进行图像的标签标注,得到所述图像的标签,通过将卷积神经网络与多标签数据的标签语义相关性结合起来,能够很好的减少模型的输出预测空间,且能够提高基于标签集进行的图像标注的完整性和准确性,提升了图像标注效果。

Description

图像标注方法、装置、设备及计算机可读存储介质
技术领域
本发明实施例涉及图像标注技术领域,尤其涉及一种图像标注方法、装置、设备及计算机可读存储介质。
背景技术
图像标注问题本质上是一个多标签分类问题,在图像标注问题中,图像作为多标签分类问题中的样本数据,即多标签数据.每个样本都标注了多个类别标签,这多个类别标签组成了一个标签集合,它是以图像的特征为基础的。图像标注的目的就是利用机器学习的方法对于给定图片进行分析与理解,进而输出图像中存在的标签集合。
这种多标签的标注形式是基于事物之间存在一定的关联性的基础上逐渐形成的,在一定程度上丰富了数据的表现形式,同时也体现了数据的语义多样性,我们通过读取样本所关联的标签集合即可获取样本中存在的丰富的语义信息。
标注的多标签之间存在一定的语义关联,但目前已有的图像标注模型大多是基于标签之间相互独立的假设基础上,针对每个标签单独进行训练预测,造成预测标签不完整,甚至存在标签预测出错的情况。
发明内容
本发明实施例提供一种图像标注方法、装置、设备及计算机可读存储介质,用以解决目前已有的图像标注模型大多是基于标签之间相互独立的假设基础上,针对每个标签单独进行训练预测,造成预测标签不完整,甚至存在标签预测出错的情况的问题。
本发明实施例的一个方面是提供一种图像标注方法,包括:
获取标签集中任意两个标签之间的相关度;
提取图像的特征向量;
根据所述标签集中任意两个标签之间的相关度和所述特征向量,生成融合向量;
根据所述融合向量,得到所述图像的标签。
本发明实施例的另一个方面是提供一种图像标注装置,包括:
标签相关度处理模块,用于获取标签集中任意两个标签之间的相关度;
特征提取模块,用于提取图像的特征向量;
融合模块,用于根据所述标签集中任意两个标签之间的相关度和所述特征向量,生成融合向量;
标注模块,用于根据所述融合向量,得到所述图像的标签。
本发明实施例的另一个方面是提供一种图像标注设备,包括:
存储器,处理器,以及存储在所述存储器上并可在所述处理器上运行的计算机程序,
所述处理器运行所述计算机程序时实现上述所述的图像标注方法。
本发明实施例的另一个方面是提供一种计算机可读存储介质,存储有计算机程序,
所述计算机程序被处理器执行时实现上述所述的图像标注方法。
本发明实施例提供的图像标注方法、装置、设备及计算机可读存储介质,通过获取标签集中任意两个标签之间的相关度,根据所述标签集中任意两个标签之间的相关度和图像的特征向量,生成融合向量,该融合向量同时包含图像特征信息和标签之间的依赖关系,从而以标签之间的语义相关性来增强样本的特征维度;根据所述融合向量进行图像的标签标注,得到所述图像的标签,通过将卷积神经网络与多标签数据的标签语义相关性结合起来,能够很好的减少模型的输出预测空间,且能够提高基于标签集进行的图像标注的完整性和准确性,提升了图像标注效果。
附图说明
图1为本发明实施例一提供的图像标注方法流程图;
图2为本发明实施例一提供的图像标注的框架示意图;
图3为本发明实施例二提供的图像标注方法流程图;
图4为本发明实施例三提供的图像标注装置的结构示意图;
图5为本发明实施例五提供的图像标注设备的结构示意图。
通过上述附图,已示出本发明明确的实施例,后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本发明实施例构思的范围,而是通过参考特定实施例为本领域技术人员说明本发明的概念。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明实施例相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本发明实施例的一些方面相一致的装置和方法的例子。
本发明实施例所涉及的术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。在以下各实施例的描述中,“多个”的含义是两个以上,除非另有明确具体的限定。
下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图,对本发明的实施例进行描述。
实施例一
图1为本发明实施例一提供的图像标注方法流程图;图2为本发明实施例一提供的图像标注的框架示意图。本发明实施例针对目前已有的图像标注模型大多是基于标签之间相互独立的假设基础上,针对每个标签单独进行训练预测,造成预测标签不完整,甚至存在标签预测出错的情况的问题,提供了图像标注方法。如图1所示,该方法具体步骤如下:
步骤S101、获取标签集中任意两个标签之间的相关度。
其中,标签集是指已知的标签构成的集合。
本实施例中,对于已知的数据集,可以获取数据集内所有样本被标注的标签构成的集合,得到标签集。
其中,数据集包括大量已被标注的样本,以及样本的标注信息。样本的标注信息包括样本被标注的至少一个标签。标签集是。
可选的,可以预先获取数据集内所有样本被标注的标签构成的集合,得到标签集,并存储该标签集。该步骤中,直接获取已存储的标签集即可。
另外,可以定期地更新数据集,以丰富数据集。若数据集发生变化,根据更新后的数据集更新标签集以及标签集中任意两个标签之间的相关度。
步骤S102、提取图像的特征向量。
本实施例中,可以通过卷积神经网络的特征提取层,提取图像的特征向量。其中特征提取层可以是一个或者多个卷积层。
在卷积神经网络中,卷积单元的局部感知域能够很好地感知输入图像的局部特征并将其输入到更高层的卷积层中,通过更高层的卷积层对这些局部特征进行处理得到图像的全局特征。这样,借助于这些堆叠的卷积层,我们能够捕捉输入数据中复杂的结构和丰富的语义信息。
本实施例中图像的特征向量可以是图像的全局特征或者是局部特征,本实施例此处不做具体限定。
步骤S103、根据标签集中任意两个标签之间的相关度和特征向量,生成融合向量。
具体的,根据标签集中任意两个标签之间的相关度,生成标签集对应的一维的相关向量;将相关向量和图像的特征向量进行融合处理,得到融合向量。
可选的,在获取到标签集中任意两个标签之间的相关度之后,可以得到标签集的相关性矩阵,相关性矩阵中的元素值为所在行和所在列对应的标签之间的相关度;并对标签集的相关性矩阵进行降维处理,得到一个一维的相关向量。
可选的,在获取到标签集中任意两个标签之间的相关度之后,可以按照相关度大小排序,确定相关度的有序序列,得到一维的相关向量。
步骤S104、根据融合向量,得到图像的标注标签。
将融合向量继续输入卷积神经网络后续的预测层中,预测出融合向量对应的标签,可以得到图像对应的标签。
可选的,预测层可以是由两个隐含层及全连接层组成,用于根据融合向量进行标签标注。
本发明实施例通过获取标签集中任意两个标签之间的相关度,根据标签集中任意两个标签之间的相关度和图像的特征向量,生成融合向量,该融合向量同时包含图像特征信息和标签之间的依赖关系,从而以标签之间的语义相关性来增强样本的特征维度;根据融合向量进行图像的标签标注,得到图像的标签,通过将卷积神经网络与多标签数据的标签语义相关性结合起来,能够很好的减少模型的输出预测空间,且能够提高基于标签集进行的图像标注的完整性和准确性,提升了图像标注效果。
实施例二
图3为本发明实施例二提供的图像标注方法流程图。在上述实施例一的基础上,本实施例中,获取标签集中任意两个标签之间的相关度,包括:获取数据集,数据集包括多个样本以及样本的标注信息,样本的标注信息包括样本被标注的至少一个标签,标签集是数据集内所有样本被标注的标签构成的集合;根据数据集的样本及其标注信息,生成标签集中的标签对应的标签向量;根据标签集中的标签对应的标签向量,计算标签集中任意两个标签之间的相关度。如图3所示,该方法具体步骤如下:
步骤S201、获取数据集,数据集包括多个样本以及样本的标注信息,样本的标注信息包括样本被标注的至少一个标签,标签集是数据集内所有样本被标注的标签构成的集合。
其中,数据集包括大量已被标注的样本,以及样本的标注信息。样本的标注信息包括样本被标注的至少一个标签。标签集是。
本实施例中,对于已知的数据集,可以获取数据集内所有样本被标注的标签构成的集合,得到标签集。
步骤S202、根据数据集的样本及其标注信息,生成标签集中的标签对应的标签向量。
本实施例中,用L表示标签集中的标签数量,N表示数据集中的样本的数量,该步骤具体可以采用如下方式实现:
根据数据集的样本及其标注信息,生成L行N列的关联矩阵;将关联矩阵各行的行向量作为对应标签的标签向量。
具体的,由于任意两个标签之间都可能存在相关性,定义一个权重网图G=(V,E,W)来描述复杂的相关性,其中V代表图中的顶点集合(也即标签集,图的顶点表示标签),E表示任意两个标签的连通边,W代表任意两个标签关联权重(也即是两个标签之间的相关度)集合。
首先,根据数据集的样本及其标注信息,确定L行N列的类别标签矩阵T=(tij),其中,tij表示样本j是否具有标签i,若样本j具有标签i,则tij的值为1,若样本j不具有标签i,则tij的值为0。
进一步地,根据数据集的样本及其标注信息,采用如下公式生成关联矩阵A=(aij),其中元素aij可以按照以下公式一计算得到:
Figure BDA0001908236780000061
其中,aij表示关联矩阵第i行第j列的元素。tij表示样本j是否具有标签i,若样本j具有标签i,则tij的值为1,若样本j不具有标签i,则tij的值为0。Ii表示数据集中具有标签i的样本的总数量。i=1,2,…,L;j=1,2,…,N。
在得到关联矩阵之后,关联矩阵A中与标签i对应的第i行构成的行向量Ai即为标签i的标签向量。每个标签对应一个标签向量,存储有对应标签的标签信息。
步骤S203、根据标签集中的标签对应的标签向量,计算标签集中任意两个标签之间的相关度。
本实施例中,计算标签集中任意两个标签之间的相关度,具体可以采用如下方式实现:
根据标签集中的标签对应的标签向量,计算任意两个标签对应的标签向量的相关度。
其中,两个标签向量的相关度可以是两个向量的余弦相似度,两个标签对应的标签向量的余弦相似度的值越小,说明两个标签的相关性越强。
具体的,采用以下公式二计算两个标签向量Al和Ak之间的余弦相似度:
Figure BDA0001908236780000062
其中,l=1,2,…,L;s=1,2,…,L。
可选的,两个标签向量的相关度还可以是其他用于度量两个向量的相似性的值,例如欧氏距离、曼哈顿距离、相关系数等等,本实施例此处不做具体限定。
步骤S204、根据标签集中任意两个标签之间的相关度,生成L行L列的相关性矩阵,其中L为标签集中的标签数量,相关性矩阵中的元素值为所在行和所在列对应的标签之间的相关度。
在得到标签集中任意两个标签之间的相关度之后,可以生成L行L列的相关性矩阵S=(sls),sls是相关性矩阵第l行第s列的元素,sls的值为标签l和标签s之间的相关度,也即是标签向量Al和As的相关度(如余弦相似度)。
步骤S205、对L行L列的相关性矩阵进行降维处理,得到一维的相关向量。
可选的,可以将相关性矩阵L个列向量拼接为一个列向量,或者将相关性矩阵L个行向量拼接为一个行向量,得到一维的相关向量;或者,还可以采用现有技术中任意一种将矩阵降维成一个一维向量的降维处理方法实现,本实施例此处不做具体限定。
上述步骤S204-S205为根据标签集中任意两个标签之间的相关度,生成一维的相关向量的一种可行的实施方式。
步骤S206、提取图像的特征向量。
本实施例中,可以通过端到端的卷积神经网络,提取图像的特征向量。其中卷积神经网络中的特征提取层可以是一个或者多个卷积层。
在卷积神经网络中,卷积单元的局部感知域能够很好地感知输入图像的局部特征并将其输入到更高层的卷积层中,通过更高层的卷积层对这些局部特征进行处理得到图像的全局特征。这样,借助于这些堆叠的卷积层,我们能够捕捉输入数据中复杂的结构和丰富的语义信息。
本实施例中图像的特征向量可以是图像的全局特征或者是局部特征,本实施例此处不做具体限定。
该卷积神经网络主要由一个子网络组成:卷积网络。卷积神经网络以图像为输入,通过学习分析获取图像的局部特征和全局特征表示;同时,考虑到标签之间存在的相关性可以一定程度上增强模型的预测效果,本实施例中,将标签集中标签的共现矩阵转化为一维向量,与卷积神经网络的特征提取层输出的特性向量融合成一个融合向量。最后,在预测层基于融合向量预测图片的标签。
步骤S207、将图像的特征向量与一维的相关向量进行拼接处理,得到融合向量。
本实施例中,将图像的特征向量与一维的相关向量进行拼接处理,得到融合向量,是根据标签集中任意两个标签之间的相关度和特征向量生成融合向量的一种可行的实施方式;本实施例的其他实施方式中,还可以采用现有技术中任意一种将两个向量融合为一个向量的方法实现,本实施例此处不做具体限定。
步骤S208、将融合向量输入卷积神经网络的预测层,得到图像的标签。
另外,本实施例中,预先采用交叉熵损失函数和梯度下降法进行模型训练,得到卷积神经网络。
具体的,在训练阶段,可以采用sigmoid交叉熵损失作为图像标注任务的损失函数:
Figure BDA0001908236780000081
其中,
Figure BDA0001908236780000082
其中,K表示标签集中标签总个数;vi表示数据集中第i个样本;εi表示第i个样本vi的预测结果的损失;
Figure BDA0001908236780000083
表示预测结果中样本vi具有标签k的概率;
Figure BDA0001908236780000084
表示样本vi是否已被标注的标签包括标签k,若样本vi已被标注的标签包括标签k,则
Figure BDA0001908236780000085
的值为1,若样本vi已被标注的标签不包括标签k,则
Figure BDA0001908236780000086
的值为0;
Figure BDA0001908236780000087
表示预测结果中样本vi是否具有标签k,若预测结果中样本vi具有标签k,则
Figure BDA0001908236780000088
的值为1,若预测结果中样本vi不具有标签k,则
Figure BDA0001908236780000089
的值为0。本实施例中的预测结果是指训练阶段对样本的标注结果。
采用梯度下降法对卷积神经网络进行训练,经过多次迭代训练,使预测标签与真实的标签尽可能地保持一致。
本发明实施例通过获取标签集中任意两个标签之间的相关度,根据标签集中任意两个标签之间的相关度和图像的特征向量,生成融合向量,该融合向量同时包含图像特征信息和标签之间的依赖关系,从而以标签之间的语义相关性来增强样本的特征维度;根据融合向量进行图像的标签标注,得到图像的标签,通过将卷积神经网络与多标签数据的标签语义相关性结合起来,能够很好的减少模型的输出预测空间,且能够提高基于标签集进行的图像标注的完整性和准确性,提升了图像标注效果。
实施例三
图4为本发明实施例三提供的图像标注装置的结构示意图。本发明实施例提供的图像标注装置可以执行图像标注方法实施例提供的处理流程。如图4所示,该图像标注装置30包括:标签相关度处理模块301,特征提取模块302,融合模块303和标注模块304。
具体地,标签相关度处理模块301用于获取标签集中任意两个标签之间的相关度。
特征提取模块302用于提取图像的特征向量。
融合模块303用于根据标签集中任意两个标签之间的相关度和特征向量,生成融合向量。
标注模块304用于根据融合向量,得到图像的标签。
本发明实施例提供的装置可以具体用于执行上述实施例一所提供的方法实施例,具体功能此处不再赘述。
本发明实施例通过获取标签集中任意两个标签之间的相关度,根据标签集中任意两个标签之间的相关度和图像的特征向量,生成融合向量,该融合向量同时包含图像特征信息和标签之间的依赖关系,从而以标签之间的语义相关性来增强样本的特征维度;根据融合向量进行图像的标签标注,得到图像的标签,通过将卷积神经网络与多标签数据的标签语义相关性结合起来,能够很好的减少模型的输出预测空间,且能够提高基于标签集进行的图像标注的完整性和准确性,提升了图像标注效果。
实施例四
在上述实施例三的基础上,本实施例中,标签相关度处理模块还用于:
获取数据集,数据集包括多个样本以及样本的标注信息,样本的标注信息包括样本被标注的至少一个标签,标签集是数据集内所有样本被标注的标签构成的集合;根据数据集的样本及其标注信息,生成标签集中的标签对应的标签向量;根据标签集中的标签对应的标签向量,计算标签集中任意两个标签之间的相关度。
可选的,标签相关度处理模块还用于:
根据数据集的样本及其标注信息,生成L行N列的关联矩阵,其中L为标签集中的标签数量,N为数据集中的样本的数量;将关联矩阵各行的行向量作为对应标签的标签向量。
可选的,标签相关度处理模块还用于:
根据数据集的样本及其标注信息,采用如下公式生成关联矩阵的元素aij
Figure BDA0001908236780000101
其中,aij表示关联矩阵第i行第j列的元素;tij表示样本j是否具有标签i,若样本j具有标签i,则tij的值为1,若样本j不具有标签i,则tij的值为0;Ii表示数据集中具有标签i的样本的总数量;i=1,2,…,L;j=1,2,…,N。
可选的,标签相关度处理模块还用于:
根据标签集中的标签对应的标签向量,计算任意两个标签对应的标签向量的余弦相似度。
可选的,融合模块还用于:
根据标签集中任意两个标签之间的相关度,生成一维的相关向量;将图像的特征向量与一维的相关向量进行拼接处理,得到融合向量。
可选的,融合模块还用于:
根据标签集中任意两个标签之间的相关度,生成L行L列的相关性矩阵,其中L为标签集中的标签数量,相关性矩阵中的元素值为所在行和所在列对应的标签之间的相关度;对L行L列的相关性矩阵进行降维处理,得到一维的相关向量。
可选的,特征提取模块还用于:
利用卷积神经网络的特征提取层,提取图像的局部特征和全局特征,得到图像的特征向量。
可选的,标注模块还用于:
将融合向量输入卷积神经网络的预测层,得到图像的标签。
可选的,图像标注装置还可以包括模型训练模块,用于采用交叉熵损失函数和梯度下降法进行模型训练,得到卷积神经网络。
本发明实施例提供的装置可以具体用于执行上述实施例二所提供的方法实施例,具体功能此处不再赘述。
本发明实施例通过获取标签集中任意两个标签之间的相关度,根据标签集中任意两个标签之间的相关度和图像的特征向量,生成融合向量,该融合向量同时包含图像特征信息和标签之间的依赖关系,从而以标签之间的语义相关性来增强样本的特征维度;根据融合向量进行图像的标签标注,得到图像的标签,通过将卷积神经网络与多标签数据的标签语义相关性结合起来,能够很好的减少模型的输出预测空间,且能够提高基于标签集进行的图像标注的完整性和准确性,提升了图像标注效果。
实施例五
图5为本发明实施例五提供的图像标注设备的结构示意图。如图5所示,该设备50包括:处理器501,存储器502,以及存储在存储器502上并可由处理器501执行的计算机程序。
处理器501在执行存储在存储器502上的计算机程序时实现上述任一方法实施例提供的图像标注方法。
本发明实施例通过获取标签集中任意两个标签之间的相关度,根据标签集中任意两个标签之间的相关度和图像的特征向量,生成融合向量,该融合向量同时包含图像特征信息和标签之间的依赖关系,从而以标签之间的语义相关性来增强样本的特征维度;根据融合向量进行图像的标签标注,得到图像的标签,通过将卷积神经网络与多标签数据的标签语义相关性结合起来,能够很好的减少模型的输出预测空间,且能够提高基于标签集进行的图像标注的完整性和准确性,提升了图像标注效果。
另外,本发明实施例还提供一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时实现上述任一方法实施例提供的图像标注方法。
在本发明所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
上述以软件功能单元的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
本领域技术人员可以清楚地了解到,为描述的方便和简洁,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。上述描述的装置的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本发明的其它实施方案。本发明旨在涵盖本发明的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本发明未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本发明的真正范围和精神由下面的权利要求书指出。
应当理解的是,本发明并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求书来限制。

Claims (20)

1.一种图像标注方法,其特征在于,包括:
获取标签集中任意两个标签之间的相关度;
提取图像的特征向量;
根据所述标签集中任意两个标签之间的相关度和所述特征向量,生成融合向量;
根据所述融合向量,得到所述图像的标签。
2.根据权利要求1所述的方法,其特征在于,所述获取标签集中任意两个标签之间的相关度,包括:
获取数据集,所述数据集包括多个样本以及所述样本的标注信息,所述样本的标注信息包括所述样本被标注的至少一个标签,所述标签集是所述数据集内所有样本被标注的标签构成的集合;
根据所述数据集的样本及其标注信息,生成所述标签集中的标签对应的标签向量;
根据所述标签集中的标签对应的标签向量,计算所述标签集中任意两个标签之间的相关度。
3.根据权利要求2所述的方法,其特征在于,所述根据所述数据集的样本及其标注信息,生成所述标签集中的标签对应的标签向量,包括:
根据所述数据集的样本及其标注信息,生成L行N列的关联矩阵,其中L为所述标签集中的标签数量,N为所述数据集中的样本的数量;
将所述关联矩阵各行的行向量作为对应标签的标签向量。
4.根据权利要求3所述的方法,其特征在于,所述根据所述数据集的样本及其标注信息,生成L行N列的关联矩阵,其中L为所述标签集中的标签数量,N为所述数据集中的样本的数量,包括:
根据所述数据集的样本及其标注信息,采用如下公式生成所述关联矩阵的元素aij
Figure FDA0001908236770000011
其中,aij表示所述关联矩阵第i行第j列的元素;
tij表示样本j是否具有标签i,若样本j具有标签i,则tij的值为1,若样本j不具有标签i,则tij的值为0;
Ii表示所述数据集中具有标签i的样本的总数量;
i=1,2,…,L;
j=1,2,…,N。
5.根据权利要求2所述的方法,其特征在于,所述根据所述标签集中的标签对应的标签向量,计算所述标签集中任意两个标签之间的相关度,包括:
根据所述标签集中的标签对应的标签向量,计算任意两个标签对应的标签向量的余弦相似度。
6.根据权利要求1-5任一项所述的方法,其特征在于,所述根据所述标签集中任意两个标签之间的相关度和所述特征向量,生成融合向量,包括:
根据所述标签集中任意两个标签之间的相关度,生成一维的相关向量;
将所述图像的特征向量与所述一维的相关向量进行拼接处理,得到所述融合向量。
7.根据权利要求6所述的方法,其特征在于,所述根据所述标签集中任意两个标签之间的相关度,生成一维的相关向量,包括:
根据所述标签集中任意两个标签之间的相关度,生成L行L列的相关性矩阵,其中L为所述标签集中的标签数量,所述相关性矩阵中的元素值为所在行和所在列对应的标签之间的相关度;
对所述L行L列的相关性矩阵进行降维处理,得到一维的相关向量。
8.根据权利要求1-5任一项所述的方法,其特征在于,所述提取图像的特征向量,包括:
利用卷积神经网络的特征提取层,提取所述图像的局部特征和全局特征,得到所述图像的特征向量。
9.根据权利要求8所述的方法,其特征在于,所述根据所述融合向量,得到所述图像的标签,包括:
将所述融合向量输入所述卷积神经网络的预测层,得到所述图像的标签。
10.根据权利要求9所述的方法,其特征在于,所述方法还包括:
采用交叉熵损失函数和梯度下降法进行模型训练,得到所述卷积神经网络。
11.一种图像标注装置,其特征在于,包括:
标签相关度处理模块,用于获取标签集中任意两个标签之间的相关度;
特征提取模块,用于提取图像的特征向量;
融合模块,用于根据所述标签集中任意两个标签之间的相关度和所述特征向量,生成融合向量;
标注模块,用于根据所述融合向量,得到所述图像的标签。
12.根据权利要求11所述的装置,其特征在于,所述标签相关度处理模块还用于:
获取数据集,所述数据集包括多个样本以及所述样本的标注信息,所述样本的标注信息包括所述样本被标注的至少一个标签,所述标签集是所述数据集内所有样本被标注的标签构成的集合;
根据所述数据集的样本及其标注信息,生成所述标签集中的标签对应的标签向量;
根据所述标签集中的标签对应的标签向量,计算所述标签集中任意两个标签之间的相关度。
13.根据权利要求12所述的装置,其特征在于,所述标签相关度处理模块还用于:
根据所述数据集的样本及其标注信息,生成L行N列的关联矩阵,其中L为所述标签集中的标签数量,N为所述数据集中的样本的数量;
将所述关联矩阵各行的行向量作为对应标签的标签向量。
14.根据权利要求13所述的装置,其特征在于,所述标签相关度处理模块还用于:
根据所述数据集的样本及其标注信息,采用如下公式生成所述关联矩阵的元素aij
Figure FDA0001908236770000031
其中,aij表示所述关联矩阵第i行第j列的元素;
tij表示样本j是否具有标签i,若样本j具有标签i,则tij的值为1,若样本j不具有标签i,则tij的值为0;
Ii表示所述数据集中具有标签i的样本的总数量;
i=1,2,…,L;
j=1,2,…,N。
15.根据权利要求12所述的装置,其特征在于,所述标签相关度处理模块还用于:
根据所述标签集中的标签对应的标签向量,计算任意两个标签对应的标签向量的余弦相似度。
16.根据权利要求11-15任一项所述的装置,其特征在于,所述融合模块还用于:
根据所述标签集中任意两个标签之间的相关度,生成一维的相关向量;
将所述图像的特征向量与所述一维的相关向量进行拼接处理,得到所述融合向量。
17.根据权利要求16所述的装置,其特征在于,所述融合模块还用于:
根据所述标签集中任意两个标签之间的相关度,生成L行L列的相关性矩阵,其中L为所述标签集中的标签数量,所述相关性矩阵中的元素值为所在行和所在列对应的标签之间的相关度;
对所述L行L列的相关性矩阵进行降维处理,得到一维的相关向量。
18.根据权利要求11-15任一项所述的装置,其特征在于,所述特征提取模块还用于:
利用卷积神经网络的特征提取层,提取所述图像的局部特征和全局特征,得到所述图像的特征向量。
19.一种图像标注设备,其特征在于,包括:
存储器,处理器,以及存储在所述存储器上并可在所述处理器上运行的计算机程序,
所述处理器运行所述计算机程序时实现如权利要求1-10中任一项所述的方法。
20.一种计算机可读存储介质,其特征在于,存储有计算机程序,
所述计算机程序被处理器执行时实现如权利要求1-10中任一项所述的方法。
CN201811541392.7A 2018-12-17 2018-12-17 图像标注方法、装置、设备及计算机可读存储介质 Active CN111325200B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811541392.7A CN111325200B (zh) 2018-12-17 2018-12-17 图像标注方法、装置、设备及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811541392.7A CN111325200B (zh) 2018-12-17 2018-12-17 图像标注方法、装置、设备及计算机可读存储介质

Publications (2)

Publication Number Publication Date
CN111325200A true CN111325200A (zh) 2020-06-23
CN111325200B CN111325200B (zh) 2024-06-18

Family

ID=71166862

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811541392.7A Active CN111325200B (zh) 2018-12-17 2018-12-17 图像标注方法、装置、设备及计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN111325200B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112181270A (zh) * 2020-09-29 2021-01-05 南方科技大学 图像分割标注方法、模型训练方法、装置及存储介质
CN112434722A (zh) * 2020-10-23 2021-03-02 浙江智慧视频安防创新中心有限公司 基于类别相似度的标签平滑计算的方法、装置、电子设备及介质
CN112883731A (zh) * 2021-04-29 2021-06-01 腾讯科技(深圳)有限公司 内容分类方法和装置
CN117746167A (zh) * 2024-02-20 2024-03-22 四川大学 口腔全景片影像摆位错误分类模型训练方法及分类方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140379730A1 (en) * 2013-06-24 2014-12-25 Fujitsu Limited Multimodality-based image tagging apparatus and method
CN105808752A (zh) * 2016-03-10 2016-07-27 大连理工大学 一种基于cca和2pknn的自动图像标注方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140379730A1 (en) * 2013-06-24 2014-12-25 Fujitsu Limited Multimodality-based image tagging apparatus and method
CN105808752A (zh) * 2016-03-10 2016-07-27 大连理工大学 一种基于cca和2pknn的自动图像标注方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
YU ZHAO 等: "Multi-label Image Annotation via CNN with Graph Laplacian Regularization based on Word2Vec", 《CONFERENCE: THE INTERNATIONAL WORKSHOP ON FRONTIERS OF COMPUTER VISION (IW-FCV2018)》 *
ZHAOLONG NING等: "Integration of image feature and word relevance:Toward automatic image annotation in cyber-physical-social systems", 《DIGITAL OBJECT IDENTIFIER》 *
高耀东 等: "基于多标签学习的卷积神经网络的图像标注方法", 《计算机应用》 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112181270A (zh) * 2020-09-29 2021-01-05 南方科技大学 图像分割标注方法、模型训练方法、装置及存储介质
CN112434722A (zh) * 2020-10-23 2021-03-02 浙江智慧视频安防创新中心有限公司 基于类别相似度的标签平滑计算的方法、装置、电子设备及介质
CN112434722B (zh) * 2020-10-23 2024-03-19 浙江智慧视频安防创新中心有限公司 基于类别相似度的标签平滑计算的方法、装置、电子设备及介质
CN112883731A (zh) * 2021-04-29 2021-06-01 腾讯科技(深圳)有限公司 内容分类方法和装置
CN112883731B (zh) * 2021-04-29 2021-08-20 腾讯科技(深圳)有限公司 内容分类方法和装置
CN117746167A (zh) * 2024-02-20 2024-03-22 四川大学 口腔全景片影像摆位错误分类模型训练方法及分类方法
CN117746167B (zh) * 2024-02-20 2024-04-19 四川大学 口腔全景片影像摆位错误分类模型训练方法及分类方法

Also Published As

Publication number Publication date
CN111325200B (zh) 2024-06-18

Similar Documents

Publication Publication Date Title
RU2695489C1 (ru) Идентификация полей на изображении с использованием искусственного интеллекта
CN111325200B (zh) 图像标注方法、装置、设备及计算机可读存储介质
Fuentes et al. Deep learning-based phenotyping system with glocal description of plant anomalies and symptoms
CN109034203B (zh) 表情推荐模型的训练、表情推荐方法、装置、设备及介质
CN111666766B (zh) 数据处理方法、装置和设备
CN110633421B (zh) 特征提取、推荐以及预测方法、装置、介质和设备
CN112100387A (zh) 用于文本分类的神经网络系统的训练方法及装置
CN110851641A (zh) 跨模态检索方法、装置和可读存储介质
CN110543920B (zh) 图像识别模型的性能检测方法、装置、服务器及存储介质
CN111401309B (zh) 基于小波变换的cnn训练和遥感图像目标识别方法
CN111767390A (zh) 技能词评估方法及装置、电子设备、计算机可读介质
CN115222443A (zh) 客户群体划分方法、装置、设备及存储介质
CN101213539A (zh) 交叉描述符学习系统、方法及其程序产品
CN111985616B (zh) 一种图像特征提取方法、图像检索方法、装置及设备
Nguyen et al. Explaining how deep neural networks forget by deep visualization
CN111699472B (zh) 确定用于开发复杂嵌入式或信息物理系统的方法
CN116030295A (zh) 物品识别方法、装置、电子设备及存储介质
CN111127502B (zh) 生成实例掩码的方法、装置及电子设备
Rad et al. A multi-view-group non-negative matrix factorization approach for automatic image annotation
CN110598040B (zh) 专辑召回方法、装置、设备及存储介质
Pepper et al. Metadata verification: A workflow for computational archival science
KR20190017606A (ko) 온라인 소셜 네트워크 서비스 데이터로부터 공간 기반 사회적 행위를 추출하는 방법 및 시스템
Freytag et al. Interactive image retrieval for biodiversity research
US11367442B2 (en) Device and method with input
Gowri et al. Human Action Detection Using Deep Learning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant