CN110990617B - 一种图片标记方法、装置、设备及存储介质 - Google Patents
一种图片标记方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN110990617B CN110990617B CN201911185403.7A CN201911185403A CN110990617B CN 110990617 B CN110990617 B CN 110990617B CN 201911185403 A CN201911185403 A CN 201911185403A CN 110990617 B CN110990617 B CN 110990617B
- Authority
- CN
- China
- Prior art keywords
- image
- marked
- nouns
- images
- group
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 68
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 37
- 238000012545 processing Methods 0.000 claims description 15
- 238000012216 screening Methods 0.000 claims description 13
- 238000002372 labelling Methods 0.000 claims description 11
- 238000005516 engineering process Methods 0.000 claims description 9
- 238000004458 analytical method Methods 0.000 claims description 8
- 239000002609 medium Substances 0.000 description 14
- 238000013507 mapping Methods 0.000 description 11
- 238000003064 k means clustering Methods 0.000 description 8
- 238000012549 training Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 239000003086 colorant Substances 0.000 description 2
- 239000004744 fabric Substances 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 230000035945 sensitivity Effects 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000007621 cluster analysis Methods 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000008030 elimination Effects 0.000 description 1
- 238000003379 elimination reaction Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 239000012120 mounting media Substances 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008707 rearrangement Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/55—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/58—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/5866—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, manually generated location and time information
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Library & Information Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请实施例公开了一种图片标记方法、装置、设备及存储介质。本申请实施例提供的技术方案通过对待标记图像对应的名词进行提取,并基于提取出的名词形成图像集,利用聚类算法将图像集分成不同图像分组,并根据每组图像分组的相关度对待标记图像打标签,在完成所有待标记图像的标记后,可将带有标记的图像作为半监督学习的样本,提高图片标记的效率,解决人工打标签耗时费力成本高的问题。
Description
技术领域
本申请实施例涉及计算机技术领域,尤其涉及一种图片标记方法、装置、设备及存储介质。
背景技术
在计算机视觉中,深度学习方法已全方位在各个方向获得突破,但这往往需要大量的标注数据。比如ImageNet数据集,人工标注了100多万幅图像,尽管只是每幅图像打个标签,但也会耗费大量的人力物力。
在进行半监督学习训练前,需要先对大量的图像打上标签,再将打上标签的图像作为半监督学习训练的样本。现有技术中,一般是通过人工对每张图像进行打标签,但是通过人工逐张标记的方式费时费力,效率较低。
发明内容
本申请实施例提供一种图片标记方法、装置、设备及存储介质,以自动对图片进行标记,提高图片标记的效率。
在第一方面,本申请实施例提供了一种图片标记方法,包括:
获取待标记图像对应的文本内容中的名词;
基于不同的名词分别建立图像集,所述图像集内的所述待标记图像对应的文本内容均含有相应的名词;
通过聚类算法对每组图像集进行分组形成不同图像分组,并获取每组图像分组的相关度;
根据所述相关度对相应图像集内的待标记图像打标签。
进一步的,所述获取待标记图像对应的文本内容中的名词之前,还包括:
通过社交媒体网络获取待标记图像和与所述待标记图像对应的文本内容;
建立所述待标记图像和所述文本内容的关联关系,所述关联关系用于根据所述待标记图像确定所对应的所述文本内容。
进一步的,所述基于不同的名词分别建立图像集,包括:
筛选数量达到预设阈值的名词;
基于筛选后的名词,分别确定与每个名词对应的待标记图像;
基于每个名词对应的待标记图像分别建立图像集。
进一步的,所述获取待标记图像对应的文本内容中的名词,包括:
通过自然语义分析技术提取每张待标记图像对应的所述文本内容中的名词;
建立所述名词与所述待标记图像的关联关系,所述关联关系用于根据所述名词确定所对应的所述待标记图像。
进一步的,所述通过聚类算法对每组图像集进行分组形成不同图像分组,并获取每组图像分组的相关度,包括:
通过聚类算法将每组图像集分成两组图像分组;
获取每组图像分组的相关度。
进一步的,所述根据所述相关度对相应图像集内的待标记图像打标签,包括:
筛选图像集内相关度最高的图像分组对应的待标记图像;
利用图像集对应的名词对筛选后的待标记图像打标签。
进一步的,所述通过聚类算法对每组图像集进行分组形成不同图像分组,并获取每组图像分组的相关度之前,还包括:
对所述待标记图像进行灰度处理。
在第二方面,本申请实施例提供了一种图片标记装置,包括名词获取模块、图像集建立模块、聚类模块和执行模块,其中:
名词获取模块,用于获取待标记图像对应的文本内容中的名词;
图像集建立模块,用于基于不同的名词分别建立图像集,所述图像集内的所述待标记图像对应的文本内容均含有相应的名词;
聚类模块,用于通过聚类算法对每组图像集进行分组形成不同图像分组,并获取每组图像分组的相关度;
执行模块,用于根据所述相关度对相应图像集内的待标记图像打标签。
在第三方面,本申请实施例提供了一种图片标记设备,包括:存储器以及一个或多个处理器;
所述存储器,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如第一方面所述的图片标记方法。
在第四方面,本申请实施例提供了一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时用于执行如第一方面所述的图片标记方法。
本申请实施例通过对待标记图像对应的名词进行提取,并基于提取出的名词形成图像集,利用聚类算法将图像集分成不同图像分组,并根据每组图像分组的相关度对待标记图像打标签,在完成所有待标记图像的标记后,可将带有标记的图像作为半监督学习的样本,提高图片标记的效率,解决人工打标签耗时费力成本高的问题。
附图说明
图1是本申请实施例提供的一种图片标记方法的流程图;
图2是本申请实施例提供的另一种图片标记方法的流程图;
图3是本申请实施例提供的另一种图片标记方法的流程图;
图4是本申请实施例提供的一种图片标记装置的结构示意图;
图5是本申请实施例提供的一种图片标记设备的结构示意图。
具体实施方式
为了使本申请的目的、技术方案和优点更加清楚,下面结合附图对本申请具体实施例作进一步的详细描述。可以理解的是,此处所描述的具体实施例仅仅用于解释本申请,而非对本申请的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本申请相关的部分而非全部内容。在更加详细地讨论示例性实施例之前应当提到的是,一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各项操作(或步骤)描述成顺序的处理,但是其中的许多操作可以被并行地、并发地或者同时实施。此外,各项操作的顺序可以被重新安排。当其操作完成时所述处理可以被终止,但是还可以具有未包括在附图中的附加步骤。所述处理可以对应于方法、函数、规程、子例程、子程序等等。
图1给出了本申请实施例提供的一种图片标记方法的流程图,本实施例可适用于为图片标记,该图片标记方法可以由图片标记装置来执行,该图片标记装置可通过硬件和/或软件的方式实现,并集成在图片标记设备等计算机设备中。
下述以图片标记装置来执行图片标记方法为例进行描述。参考图1,该图片标记方法包括:
S101:获取待标记图像对应的文本内容中的名词。
其中,待标记图像和对应的文本内容可通过手机、平板、电脑等终端从互联网中下载,还可通过外部存储介质导入的方式获得。文本内容为对待标记图像的文字描述,或者是与待标记图像相互绑定或与待标记图像共同出现的文字。
例如,假设待标记图像为一张带有蛋糕图案的照片,并且这张图片在社交媒体网络发布时还附带有一段文字:今天老婆做的生日蛋糕,好好吃。则将“今天老婆做的生日蛋糕,好好吃”这段话作为与该待标记图像对应的文本内容,在采集待标记图像和文本内容时,同时采集这张图片和这段文字,分别作为待标记图像和对应的文本内容进行保存。
具体的,在获取待标记图像和对应的文本内容后,基于自然语义分析技术将文本内容中的名词提取出来,例如,在待标记图像对应的文本内容为“今天老婆做的生日蛋糕,好好吃”时,该文本内容中的名词为“老婆”和“生日蛋糕”,即“老婆”和“生日蛋糕”这两个名词可理解为对该待标记图像的文字特征描述。可选的,在部分待标记图像对应的文本内容不存在名词时,如文本内容为“好好吃”,可删除该文本内容对应的待标记图像,或者是提醒无法识别该待标记图像对应的名词,并经手动输入后重新确定。
S102:基于不同的名词分别建立图像集,所述图像集内的所述待标记图像对应的文本内容均含有相应的名词。
具体的,在获取每张待标记图像对应的文本内容中的名词后,基于每个名词,获取所有文本内容中包含有该名词的待标记图像,并基于这些待标记图像形成一个图像集,并且每一个名词均对应形成有一个图像集。其中,图像集可通过图像集映射表的方式进行记录,通过图像集映射表即可对应出名词和待标记图像之间的关联关系。
可以理解的是,若一张待标记图像对应的文本内容包含有多个名词,则该待标记图像同时存在于多个对应不同名词的图像集中。例如,在待标记图像对应的文本内容为“今天老婆做的生日蛋糕,好好吃”时,该文本内容中的名词为“老婆”和“生日蛋糕”,则该待标记图像同时存在于对应的名词分别为“老婆”和“生日蛋糕”的两个图像集中,同时,这两个图像集还分别记录有其他文本内容中的名词分别为“老婆”和“生日蛋糕”的待标记图像。
S103:通过聚类算法对每组图像集进行分组形成不同图像分组,并获取每组图像分组的相关度。
具体的,在建立图像集后,通过聚类算法分别对每组图像集对应的待标记图像进行分组,从而形成不同图像分组。对图像集的聚类算法可以是K-means 聚类算法、分层聚类算法、t-SNE聚类算法、DBSCAN聚类算法等,根据图像集内待标记图像的相似程度分成不同的分组。
例如,在通过K-means聚类算法对图像集进行聚类时,以空间中k个点为中心进行聚类,对最靠近中心点的对象归类,通过迭代的方法,逐次更新各聚类中心的值,直至得到最好的聚类结果,即适当选择k个类的初始中心(可采用随机或猜测的方式初始化类中心),对任意一个样本,求其到k个中心的距离,将该样本归到距离最短的中心所在的类,对所有属于该类的数据点求平均,将平均值作为新的类中心,重复以上步骤直到收敛,最终得到针对于图像集的不同分组,并将每个分组作为图像分组。
进一步的,在形成图像分组后,针对每一个图像集所对应的不同图像分组,计算每个图像分组的中心点距离(欧氏距离),并基于中心点距离确定图像分组的相关度。可以理解的是,中心点距离越小,对应的相关度越高。例如,可以将中心点距离的倒数作为相关度。
S104:根据所述相关度对相应图像集内的待标记图像打标签。
在确定图像集中每个图像分组的相关度后,对同一图像集内各个图像分组对应的相关度进行比较,并确认其中相关度最高(中心点距离最小)的图像分组,并确定该图像分组对应的待标记图像更符合对应名词所述的类别,在该图像集中,这组图像分组具有更密集的中心点,并利用该图像集对应的名词对相关度最高的图像分组对应的待标记图像打标签,完成对该图像集的打标签操作。逐个针对每个图像集重复上述操作,完成全部待标记图像的打标签操作。
可以理解的是,由于半监督学习的样本图片集不需要100%准确,少量不一致的样本对训练的结果准确率影响不大,在训练时可以进行容错排除,该样本图像集在半监督学习中能得到良好的实施应用。
上述,通过对待标记图像对应的名词进行提取,并基于提取出的名词形成图像集,利用聚类算法将图像集分成不同图像分组,并根据每组图像分组的相关度对待标记图像打标签,在完成所有待标记图像的标记后,可将带有标记的图像作为半监督学习的样本,提高图片标记的效率,解决人工打标签耗时费力成本高的问题。
图2为本申请实施例提供的另一种图片标记方法的流程图。该图片标记方法是对上述图片标记方法的具体化。参考图2,该图片标记方法包括:
S201:通过社交媒体网络获取待标记图像和与所述待标记图像对应的文本内容。
示例性的,本申请实施例中的待标记图像和对应的文本内容可通过手机、平板、电脑等终端从社交媒体网络中大批量下载得到,其中,社交媒体网络包括微博、微信、QQ等,本实施例不做限定。
具体的,文本内容为对待标记图像的文字描述,或者是与待标记图像相互绑定或与待标记图像共同出现的文字。例如,从微博等社交媒体网络上下载的图片作为待标记图像,其中一张待标记图像附带有一段文字:1996年,曾经是微软员工的加布·纽维尔和麦克·哈灵顿一同创建了Valve软件公司。则将“1996 年,曾经是微软员工的加布·纽维尔和麦克·哈灵顿一同创建了Valve软件公司”这段话作为与该待标记图像对应的文本内容,在采集待标记图像和文本内容时,同时采集这张图片和这段文字。
S202:建立所述待标记图像和所述文本内容的关联关系。
示例性的,在获得待标记图像和对应的文本内容后,根据待标记图像和文本内容的对应关系建立待标记图像和文本内容的关联关系,该关联关系用于根据待标记图像确定所对应的文本内容。例如,在获得待标记图像和文字为“1996 年,曾经是微软员工的加布·纽维尔和麦克·哈灵顿一同创建了Valve软件公司”的文本内容后,建立该待标记图像和文本内容的关联关系,在需要确定这张待标记图像所对应的文本内容时,根据该关联关系即可确定对应的文本内容为“1996年,曾经是微软员工的加布·纽维尔和麦克·哈灵顿一同创建了Valve 软件公司”。
示例性的,待标记图像和文本内容的关联关系的建立可通过关联映射表的方式进行,例如在获取待标记图像和文本内容时,在关联映射表中对待标记图像(或待标记图像的保存地址)和对应的文本内容(或文本内容的保存地址) 进行一一对应的记录,在需要确定与待标记图像对应的文本内容时,根据对待标记图像(或待标记图像的保存地址)在关联映射表中对应出文本内容(或文本内容的保存地址),从而确定与待标记图像对应的文本内容;关联关系的建立还可通过指针的方式进行,例如在获取待标记图像和文本内容时,在待标记图像中附带上指向对应的文本内容的保存地址的指针,在需要确定与待标记图像对应的文本内容时,根据待标记图像所附带的指针所指向的文本内容的保存地址,确定与待标记图像对应的文本内容。建立待标记图像和文本内容的关联关系的方式本申请实施例不做限定,可根据实际情况利用现有技术实现。
S203:通过自然语义分析技术提取每张待标记图像对应的所述文本内容中的名词。
具体的,在获取待标记图像和对应的文本内容并建立两者间的关联关系后,通过自然语义分析技术(例如NLP自然语言处理技术)将文本内容中的名词提取出来,用作后续对同一分组下的待标记图像的文字共同特征进行分析。
例如,在需要确定带有蛋糕图案的待标记图像对应的文本内容中的名词时,根据待标记图像和文本内容的关联关系确定对应的文本内容为“1996年,曾经是微软员工的加布·纽维尔和麦克·哈灵顿一同创建了Valve软件公司”,通过自然语义分析技术可判断文本内容中的名词为“员工”、“加布·纽维尔”、“麦克·哈灵顿”和“公司”,即“员工”、“加布·纽维尔”、“麦克·哈灵顿”和“公司”这几个名词可理解为对该待标记图像的文字特征描述,并提取出该文本内容的名词“员工”、“加布·纽维尔”、“麦克·哈灵顿”和“公司”。
S204:建立所述名词与所述待标记图像的关联关系,所述关联关系用于根据所述名词确定所对应的所述待标记图像。
具体的,在提取出文本内容中的名词后,根据名词和待标记图像的对应关系建立名词与待标记图像的关联关系,该关联关系用于根据名词确定所对应的待标记图像。
例如,在提取出文本内容的名词“员工”、“加布·纽维尔”、“麦克·哈灵顿”和“公司”时,根据待标记图像和文本内容的关联关系,可确定该名词所对应的待标记图像,并基于名词和待标记图像的对应关系建立名词与待标记图像的关联关系,在需要确定名词为“员工”、“加布·纽维尔”、“麦克·哈灵顿”和“公司”所对应的待标记图像时,根据名词与待标记图像的关联关系即可确定对应的待标记图像为带有蛋糕图案的图片。可以理解的是,一张待标记图像可与多个名词建立关联关系,相应的,一个名词也可与多张待标记图像建立关联关系。
示例性的,名词与待标记图像的关联关系的建立可通过关联映射表的方式进行,例如在获取文本内容的名词时,在关联映射表中对待标记图像(或待标记图像的保存地址)和对应的名词(或名词的保存地址)进行记录,若关联映射表中已存在该名词,则在该名词的基础上新增与新的待标记图像的关联关系,在需要确定与名词对应的待标记图像时,根据对名词(或名词的保存地址)在关联映射表中对应出待标记图像(或待标记图像的保存地址),从而确定与该名词对应的待标记图像;关联关系的建立还可通过指针的方式进行,例如在获取文本内容的名词时,在该名词中附带上指向对应的待标记图像的保存地址的指针,在需要确定与该名词对应的待标记图像时,根据该名词所附带的指针所指向的待标记图像的保存地址,确定与该名词对应的待标记图像。建立名词与待标记图像的关联关系的方式本申请实施例不做限定,可根据实际情况利用现有技术实现。
S205:筛选数量达到预设阈值的名词。
示例性的,在提取出所有待标记图像对应的名词并建立两者间的关联关系后,对每个名词对应的待标记图像的数量进行统计,并将名词对应的待标记图像的数量作为该名词的数量,例如,文本内容中包含有“员工”、“加布·纽维尔”、“麦克·哈灵顿”和“公司”的待标记图像分别有152张、7632张、 533张和9320张,则“员工”、“加布·纽维尔”、“麦克·哈灵顿”和“公司”这几个名词对应的数量分别为152、7632、533和9320。
进一步的,将每个名词的数量与预设阈值(可根据实际需要进行设置,还可针对不同的名词设置不同的预设阈值)进行比较,筛选出数量达到预设阈值的名词,并将数量未达到预设阈值的名词筛除。假设预设阈值为600,则将“员工”和“麦克·哈灵顿”这两个名词筛除,并保留“加布·纽维尔”和“公司”这两个名词。将所有名词的数量逐个与预设阈值进行比较,最后筛选出所有数量达到预设阈值的名词。
S206:基于筛选后的名词,分别确定与每个名词对应的待标记图像。
S207:基于每个名词对应的待标记图像分别建立图像集。
具体的,在完成名词的筛选后,分别针对每个筛选出的名词,获取所有文本内容中包含有对应名词的待标记图像,并基于这些待标记图像形成一个图像集,并且每一个筛选出的名词均对应形成有一个图像集。其中,图像集可通过图像集映射表的方式进行记录,通过图像集映射表即可对应出名词和待标记图像之间的关联关系。
可以理解的是,若一张待标记图像对应的文本内容包含有多个名词,则该待标记图像同时存在于多个对应不同名词的图像集中。例如,在待标记图像对应的文本内容为“1996年,曾经是微软员工的加布·纽维尔和麦克·哈灵顿一同创建了Valve软件公司”时,该文本内容中的名词为“员工”、“加布·纽维尔”、“麦克·哈灵顿”和“公司”,并且数量达到预设阈值的名词为“员工”和“麦克·哈灵顿”这两个名词,则该待标记图像同时存在于对应的名词分别为“员工”和“麦克·哈灵顿”的两个图像集中,同时,这两个图像集还分别记录有其他文本内容中的名词分别为“员工”和“麦克·哈灵顿”这两个名词的待标记图像,“员工”和“麦克·哈灵顿”这两个名词这两个名词对应的图像集中待标记图像的数量分别为7632张和9320张。
S208:通过聚类算法对每组图像集进行分组形成不同图像分组,并获取每组图像分组的相关度。
S209:根据所述相关度对相应图像集内的待标记图像打标签。
上述,通过对待标记图像对应的名词进行提取,并基于提取出的名词形成图像集,利用聚类算法将图像集分成不同图像分组,并根据每组图像分组的相关度对待标记图像打标签,在完成所有待标记图像的标记后,可将带有标记的图像作为半监督学习的样本,提高图片标记的效率,解决人工打标签耗时费力成本高的问题。并且对待标记图像、文本内容和名词之间的对应关系进行记录,方便准确对待标记图像、文本内容和名词进行确定,提高图片标记的效率。并通过社交媒体网络获取待海量的标记图像和与待标记图像对应的文本内容,保证得到的样本数量满足半监督学习训练的要求。
图3为本申请实施例提供的另一种图片标记方法的流程图。该图片标记方法是对上述图片标记方法的具体化。参考图3,该图片标记方法包括:
S301:获取待标记图像对应的文本内容中的名词。
S302:对所述待标记图像进行灰度处理。
其中,灰度处理是指使图像中每个像素只使用一个采样颜色进行表示,显示为从最暗黑色到最亮的白色的灰度,与纯黑白图像不同,在计算机图像领域中黑白图像只有黑白两种颜色,灰度图像在黑色与白色之间还有许多级的颜色深度,通常灰度值范围表示为0到255,其中白色为255,黑色为0,灰度值越小颜色越深,灰度值越大颜色越趋于白色。
在获取待标记图像后,对待标记图像进行灰度处理从而获得经灰度处理后的待标记图像,其中以待标记图像为RGB彩色图像为例(R、G、B分别为红、绿、蓝三个基色分量,其共同决定了像素点颜色),确定该待标记图像每个像素点的R、G、B基色分量,依据下述公式确定每个像素点的灰度值Y:
Y=0.3R+0.59G+0.11B
上述计算方式中,根据基色的重要性及其它人脸作画参考指标,将三个分量以不同的权值进行加权平均。由于人眼对绿色的敏感最高,对蓝色敏感最低,故绿色(G)的权值最高,取值0.59。需要说明的是,R、G、B对应的权值大小可适应性调整。在另一个实施例中,在进行灰度处理时可采取分量值法、最大值法或平均值法求取图像每个像素点的灰度值。在确定待标记图像每个像素点的灰度值后,可相应得出经灰度处理后的待标记图像。其可以理解的是,灰度处理并不会影响图像的纹理特征信息,而且各像素点只需一个灰度值便可表示,有效提高图像的处理效率。
S303:基于不同的名词分别建立图像集。
S304:通过聚类算法将每组图像集分成两组图像分组。
具体的,针对每个图像集,通过K-means聚类算法将图像集分成两组图像分组。其中K-means聚类算法是一种无监督的机器学习算法,在图像聚类方面效果比较理想。K-means聚类算法的模型原理为将某一些数据分为不同的类别,在相同的类别中数据之间的距离应该都很近,也就是说离得越近的数据应该越相似,并且数据之间的相似度与它们之间的欧氏距离成反比,这就是K-means 聚类算法模型的假设。
在通过K-means聚类算法对图像集进行聚类时,以空间中k(本实施例k 设置为2)个点为中心进行聚类,对最靠近中心点的对象归类,通过迭代的方法,逐次更新各聚类中心的值,直至得到最好的聚类结果,即适当选择k个类的初始中心(可采用随机或猜测的方式初始化类中心),对任意一个样本,求其到k 个中心的距离,将该样本归到距离最短的中心所在的类,对所有属于该类的数据点求平均,将平均值作为新的类中心,重复以上步骤直到收敛,最终得到针对于图像集的不同分组,并将每个分组作为图像分组。
例如,在对图像集内的待标记图像进行聚类分析时,先在空间选C1、C2 两个点作为中心点,然后算一下所有点(待标记图像)离这两个中心点的距离(欧氏距离),例如A离C1比较近,就把A归在C1这一图像分组,全部点分好组后,算一下每组的点离自己的中心点的距离(欧氏距离)之和,例如这时候C1图像分组的总中心距离是30,C2图像分组的总中心距离是35,那C1和 C2这个分类方式的总距离是65;然后再挑另外两个中心点C3、C4,类似的计算总中心距离,例如是70,一直挑不同的中心点(用偏导数可以知道改变的方向),直至得到最合适的中心点CF1和CF2,这时得到最小的总中心距离,例如是45,此时以CF1和CF2为中心点的两组待标记图像的组合即为该图像集的两组图像分组。进一步的,对每个图像集重复上述操作,得到每个图像集的两组图像分组。
S305:获取每组图像分组的相关度。
示例性的,在形成图像分组后,针对每一个图像集所对应的不同图像分组,计算每个图像分组的中心点距离(欧氏距离),并基于中心点距离确定图像分组的相关度。可以理解的是,中心点距离越小,对应的相关度越高。例如,可以将中心点距离的倒数作为相关度。
S306:筛选图像集内相关度最高的图像分组对应的待标记图像。
在确定各图像分组的相关度后,对同一图像集内的两组图像分组的相关度进行比较,将相关度最高的图像分组的待标记图像作为这个名词对应的待标记图像,并将相关度较小的图像分组筛除,保留相关度最高的图像分组。并重复以上操作,筛选出每个图像集内相关度最高的图像分组对应的待标记图像。
假设此时一个图像集中第一组图像分组的平均中心点距离是1,第二组图像分组的平均中心点距离是1.2,此时第一组图像分组的中心点距离小于第二组图像分组的中心点距离(第一组图像分组的相关度大于第二组图像分组的相关度),则将第一组图像分组的待标记图像作为这个名词对应的待标记图像,并删除第二组图像分组。
S307:利用图像集对应的名词对筛选后的待标记图像打标签。
在筛选出每个图像集中相关度最高图像分组对应的待标记图像后,利用该图像集对应的名词对待标记图像打标签,完成对该图像集的打标签操作。逐个针对每个图像集重复上述操作,完成全部待标记图像的打标签操作。
上述,通过对待标记图像对应的名词进行提取,并基于提取出的名词形成图像集,利用聚类算法将图像集分成不同图像分组,并根据每组图像分组的相关度对待标记图像打标签,在完成所有待标记图像的标记后,可将带有标记的图像作为半监督学习的样本,提高图片标记的效率,解决人工打标签耗时费力成本高的问题。并且对待标记图像、文本内容和名词之间的对应关系进行记录,方便准确对待标记图像、文本内容和名词进行确定,提高图片标记的效率。并对待处理图像进行灰度化处理,提高图像的处理效率,并通过K-means聚类算法有效对待标记图像进行分组。
图4为本申请实施例提供的一种图片标记装置的结构示意图。参考图4,本实施例提供的图片标记装置包括名词获取模块41、图像集建立模块42、聚类模块43和执行模块44。
其中,名词获取模块41,用于获取待标记图像对应的文本内容中的名词;图像集建立模块42,用于基于不同的名词分别建立图像集,所述图像集内的所述待标记图像对应的文本内容均含有相应的名词;聚类模块43,用于通过聚类算法对每组图像集进行分组形成不同图像分组,并获取每组图像分组的相关度;执行模块44,用于根据所述相关度对相应图像集内的待标记图像打标签。
上述,通过对待标记图像对应的名词进行提取,并基于提取出的名词形成图像集,利用聚类算法将图像集分成不同图像分组,并根据每组图像分组的相关度对待标记图像打标签,在完成所有待标记图像的标记后,可将带有标记的图像作为半监督学习的样本,提高图片标记的效率,解决人工打标签耗时费力成本高的问题。
在一个可能的实施例中,所述装置还包括图像获取模块,所述图像获取模块具体用于:在获取待标记图像对应的文本内容中的名词之前,通过社交媒体网络获取待标记图像和与所述待标记图像对应的文本内容;建立所述待标记图像和所述文本内容的关联关系,所述关联关系用于根据所述待标记图像确定所对应的所述文本内容。
在一个可能的实施例中,所述图像集建立模块42具体用于:筛选数量达到预设阈值的名词;基于筛选后的名词,分别确定与每个名词对应的待标记图像;基于每个名词对应的待标记图像分别建立图像集。
在一个可能的实施例中,所述名词获取模块41具体用于:通过自然语义分析技术提取每张待标记图像对应的所述文本内容中的名词;建立所述名词与所述待标记图像的关联关系,所述关联关系用于根据所述名词确定所对应的所述待标记图像。
在一个可能的实施例中,所述聚类模块43具体用于:通过聚类算法将每组图像集分成两组图像分组;获取每组图像分组的相关度。
在一个可能的实施例中,所述执行模块44具体用于:筛选图像集内相关度最高的图像分组对应的待标记图像;利用图像集对应的名词对筛选后的待标记图像打标签。
在一个可能的实施例中,所述装置还包括图像处理模块,所述图像处理模块具体用于在通过聚类算法对每组图像集进行分组形成不同图像分组,并获取每组图像分组的相关度之前,对所述待标记图像进行灰度处理。
本申请实施例还提供了一种图片标记设备,该图片标记设备可集成本申请实施例提供的图片标记装置。图5是本申请实施例提供的一种图片标记设备的结构示意图。参考图5,该图片标记设备包括:输入装置53、输出装置54、存储器52以及一个或多个处理器51;所述存储器52,用于存储一个或多个程序;当所述一个或多个程序被所述一个或多个处理器51执行,使得所述一个或多个处理器51实现如上述实施例提供的图片标记方法。其中输入装置53、输出装置 54、存储器52和处理器51可以通过总线或者其他方式连接,图5中以通过总线连接为例。
存储器52作为一种计算设备可读存储介质,可用于存储软件程序、计算机可执行程序以及模块,如本申请任意实施例所述的图片标记方法对应的程序指令/模块(例如,图片标记装置中的名词获取模块41、图像集建立模块42、聚类模块43和执行模块44)。存储器52可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序;存储数据区可存储根据设备的使用所创建的数据等。此外,存储器52可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中,存储器52可进一步包括相对于处理器51远程设置的存储器,这些远程存储器可以通过网络连接至设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
输入装置53可用于接收输入的数字或字符信息,以及产生与设备的用户设置以及功能控制有关的键信号输入。输出装置54可包括显示屏等显示设备。
处理器51通过运行存储在存储器52中的软件程序、指令以及模块,从而执行设备的各种功能应用以及数据处理,即实现上述的图片标记方法。
上述提供的图片标记装置和计算机可用于执行上述实施例提供的图片标记方法,具备相应的功能和有益效果。
本申请实施例还提供一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时用于执行如上述实施例提供的图片标记方法,该图片标记方法包括:获取待标记图像对应的文本内容中的名词;基于不同的名词分别建立图像集,所述图像集内的所述待标记图像对应的文本内容均含有相应的名词;通过聚类算法对每组图像集进行分组形成不同图像分组,并获取每组图像分组的相关度;根据所述相关度对相应图像集内的待标记图像打标签。
存储介质——任何的各种类型的存储器设备或存储设备。术语“存储介质”旨在包括:安装介质,例如CD-ROM、软盘或磁带装置;计算机系统存储器或随机存取存储器,诸如DRAM、DDR RAM、SRAM、EDO RAM,兰巴斯 (Rambus)RAM等;非易失性存储器,诸如闪存、磁介质(例如硬盘或光存储);寄存器或其它相似类型的存储器元件等。存储介质可以还包括其它类型的存储器或其组合。另外,存储介质可以位于程序在其中被执行的第一计算机系统中,或者可以位于不同的第二计算机系统中,第二计算机系统通过网络(诸如因特网) 连接到第一计算机系统。第二计算机系统可以提供程序指令给第一计算机用于执行。术语“存储介质”可以包括可以驻留在不同位置中(例如在通过网络连接的不同计算机系统中)的两个或更多存储介质。存储介质可以存储可由一个或多个处理器执行的程序指令(例如具体实现为计算机程序)。
当然,本申请实施例所提供的一种包含计算机可执行指令的存储介质,其计算机可执行指令不限于如上所述的图片标记方法,还可以执行本申请任意实施例所提供的图片标记方法中的相关操作。
上述实施例中提供的图片标记装置、设备及存储介质可执行本申请任意实施例所提供的图片标记方法,未在上述实施例中详尽描述的技术细节,可参见本申请任意实施例所提供的图片标记方法。
上述仅为本申请的较佳实施例及所运用的技术原理。本申请不限于这里所述的特定实施例,对本领域技术人员来说能够进行的各种明显变化、重新调整及替代均不会脱离本申请的保护范围。因此,虽然通过以上实施例对本申请进行了较为详细的说明,但是本申请不仅仅限于以上实施例,在不脱离本申请构思的情况下,还可以包括更多其他等效实施例,而本申请的范围由权利要求的范围决定。
Claims (7)
1.一种图片标记方法,其特征在于,包括:
获取待标记图像对应的文本内容中的名词,其中包括:通过自然语义分析技术提取每张待标记图像对应的所述文本内容中的名词,建立所述名词与所述待标记图像的关联关系,所述关联关系用于根据所述名词确定所对应的所述待标记图像;
基于不同的名词分别建立图像集,其中包括:筛选数量达到预设阈值的名词,基于筛选后的名词,分别确定与每个名词对应的待标记图像,基于每个名词对应的待标记图像分别建立图像集,所述图像集内的所述待标记图像对应的文本内容均含有相应的名词;
通过聚类算法对每组图像集进行分组形成不同图像分组,并获取每组图像分组的相关度,其中包括:针对每组图像集所对应的不同图像分组,计算每个图像分组的中心点距离,并基于所述中心点距离确定每组图像分组的相关度;
根据所述相关度对相应图像集内的待标记图像打标签,其中包括:筛选图像集内相关度最高的图像分组对应的待标记图像,利用图像集对应的名词对筛选后的待标记图像打标签。
2.根据权利要求1所述的图片标记方法,其特征在于,所述获取待标记图像对应的文本内容中的名词之前,还包括:
通过社交媒体网络获取待标记图像和与所述待标记图像对应的文本内容;
建立所述待标记图像和所述文本内容的关联关系,所述关联关系用于根据所述待标记图像确定所对应的所述文本内容。
3.根据权利要求1所述的图片标记方法,其特征在于,所述通过聚类算法对每组图像集进行分组形成不同图像分组,并获取每组图像分组的相关度,包括:
通过聚类算法将每组图像集分成两组图像分组;
获取每组图像分组的相关度。
4.根据权利要求1-3任一项所述的图片标记方法,其特征在于,所述通过聚类算法对每组图像集进行分组形成不同图像分组,并获取每组图像分组的相关度之前,还包括:
对所述待标记图像进行灰度处理。
5.一种图片标记装置,其特征在于,包括名词获取模块、图像集建立模块、聚类模块和执行模块,其中:
名词获取模块,用于获取待标记图像对应的文本内容中的名词,具体用于通过自然语义分析技术提取每张待标记图像对应的所述文本内容中的名词,建立所述名词与所述待标记图像的关联关系,所述关联关系用于根据所述名词确定所对应的所述待标记图像;
图像集建立模块,用于基于不同的名词分别建立图像集,具体用于筛选数量达到预设阈值的名词,基于筛选后的名词,分别确定与每个名词对应的待标记图像,基于每个名词对应的待标记图像分别建立图像集,所述图像集内的所述待标记图像对应的文本内容均含有相应的名词;
聚类模块,用于通过聚类算法对每组图像集进行分组形成不同图像分组,并获取每组图像分组的相关度,所述聚类模块具体用于针对每组图像集所对应的不同图像分组,计算每个图像分组的中心点距离,并基于所述中心点距离确定每组图像分组的相关度;
执行模块,用于根据所述相关度对相应图像集内的待标记图像打标签,所述执行模块具体用于筛选图像集内相关度最高的图像分组对应的待标记图像,利用图像集对应的名词对筛选后的待标记图像打标签。
6.一种图片标记设备,其特征在于,包括:存储器以及一个或多个处理器;
所述存储器,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-4任一所述的图片标记方法。
7.一种包含计算机可执行指令的存储介质,其特征在于,所述计算机可执行指令在由计算机处理器执行时用于执行如权利要求1-4任一所述的图片标记方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911185403.7A CN110990617B (zh) | 2019-11-27 | 2019-11-27 | 一种图片标记方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911185403.7A CN110990617B (zh) | 2019-11-27 | 2019-11-27 | 一种图片标记方法、装置、设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110990617A CN110990617A (zh) | 2020-04-10 |
CN110990617B true CN110990617B (zh) | 2024-04-19 |
Family
ID=70087528
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911185403.7A Active CN110990617B (zh) | 2019-11-27 | 2019-11-27 | 一种图片标记方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110990617B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111731960B (zh) * | 2020-06-22 | 2022-02-15 | 浙江新再灵科技股份有限公司 | 电梯门开关状态检测方法 |
CN111783899B (zh) * | 2020-07-10 | 2023-08-15 | 安徽启新明智科技有限公司 | 一种自主学习识别新型违禁品的方法 |
CN114579524B (zh) * | 2022-05-06 | 2022-07-15 | 成都大学 | 一种处理图像数据的方法及系统 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101582080A (zh) * | 2009-06-22 | 2009-11-18 | 浙江大学 | 一种基于图像和文本相关性挖掘的Web图像聚类方法 |
CN107562742A (zh) * | 2016-06-30 | 2018-01-09 | 苏宁云商集团股份有限公司 | 一种图像数据处理方法及装置 |
CN108898166A (zh) * | 2018-06-13 | 2018-11-27 | 北京信息科技大学 | 一种图像标注方法 |
CN109189959A (zh) * | 2018-09-06 | 2019-01-11 | 腾讯科技(深圳)有限公司 | 一种构建图像数据库的方法及装置 |
CN110069650A (zh) * | 2017-10-10 | 2019-07-30 | 阿里巴巴集团控股有限公司 | 一种搜索方法和处理设备 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
RU2711125C2 (ru) * | 2017-12-07 | 2020-01-15 | Общество С Ограниченной Ответственностью "Яндекс" | Система и способ формирования обучающего набора для алгоритма машинного обучения |
-
2019
- 2019-11-27 CN CN201911185403.7A patent/CN110990617B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101582080A (zh) * | 2009-06-22 | 2009-11-18 | 浙江大学 | 一种基于图像和文本相关性挖掘的Web图像聚类方法 |
CN107562742A (zh) * | 2016-06-30 | 2018-01-09 | 苏宁云商集团股份有限公司 | 一种图像数据处理方法及装置 |
CN110069650A (zh) * | 2017-10-10 | 2019-07-30 | 阿里巴巴集团控股有限公司 | 一种搜索方法和处理设备 |
CN108898166A (zh) * | 2018-06-13 | 2018-11-27 | 北京信息科技大学 | 一种图像标注方法 |
CN109189959A (zh) * | 2018-09-06 | 2019-01-11 | 腾讯科技(深圳)有限公司 | 一种构建图像数据库的方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN110990617A (zh) | 2020-04-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110990617B (zh) | 一种图片标记方法、装置、设备及存储介质 | |
WO2020253127A1 (zh) | 脸部特征提取模型训练方法、脸部特征提取方法、装置、设备及存储介质 | |
CN111144215B (zh) | 图像处理方法、装置、电子设备及存储介质 | |
CN110136198B (zh) | 图像处理方法及其装置、设备和存储介质 | |
CN110163076A (zh) | 一种图像数据处理方法和相关装置 | |
CN111950723A (zh) | 神经网络模型训练方法、图像处理方法、装置及终端设备 | |
CN112069339A (zh) | 背景图片处理及搜索结果展示方法、装置、设备和介质 | |
JP2021531571A (ja) | 証明書画像抽出方法及び端末機器 | |
CN107305691A (zh) | 基于图像匹配的前景分割方法及装置 | |
CN113505854A (zh) | 一种人脸图像质量评价模型构建方法、装置、设备及介质 | |
CN110070115A (zh) | 一种单像素攻击样本生成方法、装置、设备及存储介质 | |
CN110321892A (zh) | 一种图片筛选方法、装置及电子设备 | |
CN108304839A (zh) | 一种图像数据处理方法以及装置 | |
CN106557549A (zh) | 识别目标对象的方法和装置 | |
CN108764067A (zh) | 基于人脸识别的视频截取方法、终端、设备及可读介质 | |
CN113850748A (zh) | 点云质量的评估系统及方法 | |
CN113821296B (zh) | 可视化界面生成方法、电子设备及存储介质 | |
CN113516697B (zh) | 图像配准的方法、装置、电子设备及计算机可读存储介质 | |
CN108052918A (zh) | 一种笔迹比对系统及方法 | |
CN112528610B (zh) | 一种数据标注方法、装置、电子设备及存储介质 | |
CN112434547B (zh) | 一种用户身份稽核方法和设备 | |
CN114638596B (zh) | 一种自然资源业务流程审查方法、系统、设备和介质 | |
CN116071625A (zh) | 深度学习模型的训练方法、目标检测方法及装置 | |
CN110399867B (zh) | 一种文本类图像区域的识别方法、系统及相关装置 | |
CN117218213A (zh) | 图像处理方法、图像处理模型的训练方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |