CN114329016A - 图片标签生成方法和文字配图方法 - Google Patents
图片标签生成方法和文字配图方法 Download PDFInfo
- Publication number
- CN114329016A CN114329016A CN202210002183.5A CN202210002183A CN114329016A CN 114329016 A CN114329016 A CN 114329016A CN 202210002183 A CN202210002183 A CN 202210002183A CN 114329016 A CN114329016 A CN 114329016A
- Authority
- CN
- China
- Prior art keywords
- picture
- article
- reference picture
- labeled
- module
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 118
- 238000013528 artificial neural network Methods 0.000 claims abstract description 49
- 238000004590 computer program Methods 0.000 claims abstract description 16
- 230000015654 memory Effects 0.000 claims description 17
- 230000004927 fusion Effects 0.000 claims description 16
- 230000002457 bidirectional effect Effects 0.000 claims description 8
- 238000010276 construction Methods 0.000 claims description 7
- 238000000605 extraction Methods 0.000 claims description 7
- 238000013507 mapping Methods 0.000 claims description 6
- 230000007246 mechanism Effects 0.000 claims description 6
- 230000002159 abnormal effect Effects 0.000 claims description 4
- 239000000203 mixture Substances 0.000 claims description 4
- 230000004044 response Effects 0.000 claims description 4
- 238000013473 artificial intelligence Methods 0.000 abstract description 5
- 238000010586 diagram Methods 0.000 description 17
- 238000004891 communication Methods 0.000 description 10
- 238000012545 processing Methods 0.000 description 9
- 230000008569 process Effects 0.000 description 7
- 238000005516 engineering process Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 3
- 238000007477 logistic regression Methods 0.000 description 3
- 239000011159 matrix material Substances 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 241001465754 Metazoa Species 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000005065 mining Methods 0.000 description 2
- 238000003672 processing method Methods 0.000 description 2
- 238000003491 array Methods 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000007787 long-term memory Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 230000003252 repetitive effect Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本公开提供了一种图片标签生成方法、为文字配图的方法、装置、设备、存储介质以及计算机程序产品,涉及人工智能技术领域,具体为内容推荐技术领域,可应用于图片标签生成等场景。具体实现方案为:获取待标注图片;获取与待标注图片相关的至少一张参考图片;获取与至少一张参考图片对应的多个候选关键词;基于异构图神经网络,从多个候选关键词中选出至少一个目标关键词,作为待标注图片的标签。通过候选关键词得到待标注图片的标签,提高了图片标签生成的效率和准确率。
Description
技术领域
本公开涉及人工智能技术领域,具体为内容推荐技术领域,可应用于图片标签生成等场景,尤其涉及一种图片标签生成方法、为文字配图的方法、装置、设备、存储介质以及计算机程序产品。
背景技术
目前获取图片标签的方法可以是识别图片中包含的文字,作为图片的标签,但当图片中的文字与主题无关时,会导致标签无效;可以是识别图片中公众人物的身份,作为图片的标签,但当图片中无人脸时,该方法不可用;也可以是用一个预先训练的模型获取图片标签,但训练数据的构造过程带有主观性,泛化能力有限。
发明内容
本公开提供了一种图片标签生成方法、为文字配图的方法、装置、设备、存储介质以及计算机程序产品,提高了图片标签生成的准确率。
根据本公开的一方面,提供了图片标签生成方法,包括:获取待标注图片;获取与待标注图片相关的至少一张参考图片;获取与至少一张参考图片对应的多个候选关键词;基于异构图神经网络,从多个候选关键词中选出至少一个目标关键词,作为待标注图片的标签。
根据本公开的另一方面,提供了一种为文字配图的方法,包括:从文字中提取关键词;将关键词与预先建立的文章信息库中的文字进行匹配;获取匹配成功的文字对应的图片;将图片确定为配图。
根据本公开的又一方面,提供了一种图片标签生成装置,包括:第一获取模块,被配置为获取待标注图片;第二获取模块,被配置为获取与待标注图片相关的至少一张参考图片;第三获取模块,被配置为获取与至少一张参考图片对应的多个候选关键词;选择模块,被配置为基于异构图神经网络,从多个候选关键词中选出至少一个目标关键词,作为待标注图片的标签。
根据本公开的又一方面,提供了一种为文字配图的装置,包括:提取模块,被配置为从文字中提取关键词;匹配模块,被配置为将关键词与预先建立的文章信息库中的文字进行匹配;第四获取模块,被配置为获取匹配成功的文字对应的图片;确定模块,被配置为将图片确定为配图。
根据本公开的又一方面,提供了一种电子设备,包括:至少一个处理器;以及与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,指令被上述至少一个处理器执行,以使上述至少一个处理器能够执行上述图片标签生成方法及为文字配图的方法。
根据本公开的又一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,上述计算机指令用于使上述计算机执行上述图片标签生成方法及为文字配图的方法。
根据本公开的再一方面,提供了一种计算机程序产品,包括计算机程序,上述计算机程序在被处理器执行时实现上述图片标签生成方法及为文字配图的方法。
应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
附图用于更好地理解本方案,不构成对本公开的限定。其中:
图1是本公开可以应用于其中的示例性系统架构图;
图2是根据本公开的图片标签生成方法的一个实施例的流程图;
图3是本公开的图片标签生成方法的一个示意图;
图4是根据本公开的图片标签生成方法的另一个实施例的流程图;
图5是根据本公开的图片标签生成方法的又一个实施例的流程图;
图6是根据本公开的基于异构图神经网络确定目标关键词的方法的一个实施例的流程图;
图7是根据本公开的构建文章信息库的方法的一个实施例的流程图;
图8是根据本公开的图片标签生成方法的又一个实施例的流程图;
图9是本公开的图片标签生成方法的另一个示意图;
图10是根据本公开的为文字配图的方法的一个实施例的流程图;
图11是根据本公开的图片标签生成装置的一个实施例的结构示意图;
图12是根据本公开的为文字配图的装置的一个实施例的结构示意图;
图13是用来实现本公开实施例的图片标签生成方法或为文字配图的方法的电子设备的框图。
具体实施方式
以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
图1示出了可以应用本公开的图片标签生成方法或为文字配图的方法或图片标签生成装置或为文字配图的装置的实施例的示例性系统架构100。
如图1所示,系统架构100可以包括终端设备101、102、103,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用终端设备101、102、103通过网络104与服务器105交互,以获取待标注图片的标签等。终端设备101、102、103上可以安装有各种客户端应用,例如图片检索应用等等。
终端设备101、102、103可以是硬件,也可以是软件。当终端设备101、102、103为硬件时,可以是各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。当终端设备101、102、103为软件时,可以安装在上述电子设备中。其可以实现成多个软件或软件模块,也可以实现成单个软件或软件模块。在此不做具体限定。
服务器105可以提供各种基于确定待标注图片的标签或文字的配图的服务。例如,服务器105可以对从终端设备101、102、103获取到的待标注图片进行分析和处理,并生成处理结果(例如确定出待标注图片的标签等)。
需要说明的是,服务器105可以是硬件,也可以是软件。当服务器105为硬件时,可以实现成多个服务器组成的分布式服务器集群,也可以实现成单个服务器。当服务器105为软件时,可以实现成多个软件或软件模块(例如用来提供分布式服务),也可以实现成单个软件或软件模块。在此不做具体限定。
需要说明的是,本公开实施例所提供的图片标签生成方法或为文字配图的方法一般由服务器105执行,相应地,图片标签生成装置或为文字配图的装置一般设置于服务器105中。
应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
继续参考图2,其示出了根据本公开的图片标签生成方法的一个实施例的流程200。该图片标签生成方法包括以下步骤:
步骤201、获取待标注图片。
在本实施例中,图片标签生成方法的执行主体(例如图1所示的服务器105)可以获取待标注图片。其中,待标注图片可以是动物图片,可以是植物图片,可以是人物图片,可以是风景图片,也可以是动物、植物、人物、风景的混合图片等,本公开对此不做限定。待标注图片可以是从已有图片数据库中任选一张图片作为待标注图片,可以是从网络上任意搜索一张图片作为待标注图片,也可以从视频中截取一帧图像作为待标注图片,本公开对此不做限定。
步骤202、获取与待标注图片相关的至少一张参考图片。
在本实施例中,上述执行主体在获取待标注图片后,可以获取与待标注图片相关的至少一张参考图片。可以从文章信息库中获取与待标注图片相关的至少一张参考图片,其中,文章信息库可以是存储有多张图片及对应的多篇文章的数据库。具体地,可以计算待标注图片与文章信息库中的每一张图片的相似度,将得到的多个相似度按照从大到小进行排序,基于相似度从文章信息库中选取出至少一张图片,作为与待标注图片相关的至少一张参考图片。其中,计算相似度的方法可以采用欧氏距离、余弦距离、局部特征点配准法、全局特征描述法等方法,本公开对此不做限定。
在本实施例的一些可选实现方式中,可以从图片指纹库中获取与待标注图片相关的至少一张参考图片,其中,图片指纹库可以是存储有多张图片的数据库。具体地,可以计算待标注图片与图片指纹库中的每一张图片的相似度,将得到的多个相似度按照从大到小进行排序,基于相似度从图片指纹库中选取出至少一张图片,作为与待标注图片相关的至少一张参考图片。其中,计算相似度的方法可以采用欧氏距离、余弦距离、局部特征点配准法、全局特征描述法等方法,本公开对此不做限定。
步骤203、获取与至少一张参考图片对应的多个候选关键词。
在本实施例中,上述执行主体在获取至少一张参考图片后,可以获取与至少一张参考图片对应的多个候选关键词。其中,响应于至少一张参考图片是从文章信息库中得到的,可以直接从文章数据库中检索到与至少一张参考图片对应的文章,从检索到的每一篇文章中提取一组关键词,将提取到的所有关键词确定为与至少一张参考图片对应的多个候选关键词。
响应于至少一张参考图片是从图片指纹库中得到的,图片指纹库与文章信息库的每一条数据中都存储有一个索引标识,可以将图片指纹库中,至少一张参考图片对应的索引标识与文章信息库中的索引标识进行匹配,从文章信息库中获取匹配成功的索引标识对应的至少一篇文章,从匹配到的每一篇文章中提取一组关键词,将提取到的所有关键词确定为与至少一张参考图片对应的多个候选关键词。
步骤204、基于异构图神经网络,从多个候选关键词中选出至少一个目标关键词,作为待标注图片的标签。
在本实施例中,上述执行主体在得到多个候选关键词后,可以基于异构图神经网络,从多个候选关键词中选出至少一个目标关键词,作为待标注图片的标签。其中,异构图神经网络是以多种类型的节点作为输入的图神经网络,具体地,可以将多个候选关键词和待标注图片输入到异构图神经网络中,预测每个候选关键词与待标注图片是否存在连边,将存在连边的候选关键词确定为一个目标关键词,将获取的所有目标关键词确定为待标注图片的标签。
本公开实施例提供的图片标签生成方法,首先获取待标注图片,然后获取与待标注图片相关的至少一张参考图片,接着获取与至少一张参考图片对应的多个候选关键词,最后基于异构图神经网络,从多个候选关键词中选出至少一个目标关键词,作为待标注图片的标签。基于上述方法可以实现从待标注图片的相关图片和文章中获取待标注图片的标签,避开了复杂的图片理解和语义挖掘的过程,提高了图片标签生成的准确率。
进一步继续参考图3,图3是本公开的图片标签生成方法的一个示意图,从图3中可以看出,本公开的图片标签生成方法,可以先获取待标注图片,然后获取与待标注图片相关的至少一张参考图片,得到至少一张参考图片后,可以获取与至少一张参考图片对应的多个候选关键词,最后基于异构图神经网络,从多个候选关键词中选出至少一个目标关键词,作为待标注图片的标签。该获取待标注图片的方法可以避开复杂的图片理解和语义挖掘的过程,提高了图片标签生成的效率和准确率。
进一步继续参考图4,其示出了根据本公开的图片标签生成方法的另一个实施例的流程400。该图片标签生成方法包括以下步骤:
步骤401、获取待标注图片。
在本实施例中,步骤401具体操作已在图2所示的实施例中步骤201进行了详细的介绍,在此不再赘述。
步骤402、提取待标注图片的指纹信息。
在本实施例中,上述执行主体在获取待标注图片后,可以提取待标注图片的指纹信息。其中,指纹信息是指图片的纹理信息,纹理信息是一种全局特征,用于描述图片所对应景物的表面性质,基于纹理信息可以检索到相同或相似的图片。具体地,可以基于几何法、或者模型法、或者信号处理法、或者结构方法来提取待标注图片的指纹信息,本公开对此不做限定。其中,几何法是指复杂的纹理可以由若干简单地纹理基元以有规律的形式重复排列构成,模型法是以图像的构造模型为基础,采用模型的参数作为纹理特征,信号处理法是建立在时、频分析与多尺度分析基础上,对纹理图像中某个区域内实行变换后,再提取保持相对平稳的特征值,以此特征值表示区域内的一致性及区域间的相异性,结构方法认为纹理是由纹理基元的类型和数目以及基元之间的重复性的空间组织结构和排列规则来描述,且纹理基元具有规范的关系,假设纹理图像的基元可以分离出来,可以以基元特征和排列规则进行纹理分割。
步骤403、从预先建立的图片指纹库中,获取与指纹信息相同的至少一个目标指纹。
在本实施例中,上述执行主体在获取待标注图片的指纹信息后,可以从预先建立的图片指纹库中,获取与指纹信息相同的至少一个目标指纹。其中,图片指纹库可以是存储有多张图片及对应的指纹信息的数据库。示例性的,可以通过比较待标注图片的指纹信息,与预先建立的图片指纹库中的指纹信息的基元形状、排列规则,或者粗糙度、对比度、方向度、线像度、规整度、粗略度,从预先建立的图片指纹库中,检索出与待标注图片的指纹信息相同的至少一个指纹,作为至少一个目标指纹。
步骤404、将至少一个目标指纹对应的图片,确定为与待标注图片相关的至少一张参考图片。
在本实施例中,上述执行主体获取至少一个目标指纹后,可以将至少一个目标指纹对应的图片,确定为与待标注图片相关的至少一张参考图片。具体地,可以在图片指纹库中检索出至少一个目标指纹对应的图片,由于至少一个目标指纹是与待标注图片的指纹信息相同的指纹,因此,至少一个目标指纹对应的图片是与待标注图片相同的图片,可以将至少一个目标指纹对应的图片,确定为与待标注图片相关的至少一张参考图片。
步骤405、从预先建立的文章信息库中,确定至少一张参考图片中每张参考图片对应的文章。
在本实施例中,上述执行主体在获取至少一张参考图片后,可以从预先建立的文章信息库中,确定至少一张参考图片中每张参考图片对应的文章。其中,预先建立的文章信息库可以是存储有多篇文章的数据库,另外,文章信息库和图片指纹库中的每一条数据中,各存储有一个索引标识,图片指纹库中的图片来源于文章信息库中每一篇文章的配图,文章信息库和图片指纹库中的索引标识,是对应于文章信息库中每一篇文章的索引标识,文章信息库中的一篇文章,与图片指纹库中对应的配图具有相同的索引标识。从图片指纹库中获取至少一张参考图片后,可以从图片指纹库中获取对应的至少一个索引标识,将得到的至少一个索引标识,与文章信息库中的索引标识进行匹配,从文章信息库中获取匹配成功的索引标识对应的至少一篇文章,将得到的至少一篇文章确定为至少一张参考图片中每张参考图片对应的文章。
步骤406、将文章的多个关键词确定为多个候选关键词。
在本实施例中,上述执行主体在获取至少一张参考图片中每张参考图片对应的文章后,可以从文章中提取关键词,将文章的多个关键词确定为多个候选关键词。具体地,可以从获取的每一篇文章中提取一组关键词,将提取到的所有关键词确定为多个候选关键词。示例性的,从文章信息库中获取到两张参考图片对应的两篇文章,从一篇文章中提取到关键词“丁元英、天道”,从另一篇文章中提取到关键词“丁元英、逆袭”,将“丁元英、天道、丁元英、逆袭”确定为多个候选关键词。
步骤407、基于异构图神经网络,从多个候选关键词中选出至少一个目标关键词,作为待标注图片的标签。
在本实施例中,步骤407具体操作已在图2所示的实施例中步骤204进行了详细的介绍,在此不再赘述。
从图4中可以看出,与图2对应的实施例相比,本实施例中的图片标签生成方法,基于图片的指纹信息,能够得到与待标注图片相同的参考图片,从而基于相同的参考图片对应的文章得到待标注图片的标签,使得到的标签更准确。
进一步继续参考图5,其示出了根据本公开的图片标签生成方法的又一个实施例的流程500。该图片标签生成方法包括以下步骤:
步骤501、获取待标注图片。
步骤502、提取待标注图片的指纹信息。
步骤503、从预先建立的图片指纹库中,获取与指纹信息相同的至少一个目标指纹。
步骤504、将至少一个目标指纹对应的图片,确定为与待标注图片相关的至少一张参考图片。
步骤505、从预先建立的文章信息库中,确定至少一张参考图片中每张参考图片对应的文章。
在本实施例中,步骤501-505具体操作已在图4所示的实施例中步骤401-405进行了详细的介绍,在此不再赘述。
步骤506、从文章中提取每张参考图片的上下文和文字标注。
在本实施例中,上述执行主体在获取每张参考图片对应的文章后,可以从文章中提取每张参考图片的上下文和文字标注。其中,每张参考图片都是其对应的文章中的一幅配图,因此,可以从每张参考图片对应的文章中,先获取该参考图片在文章中的相对位置,然后获取该参考图片的相对位置的上一段文字和下一段文字,作为该参考图片的上下文,同时获取该参考图片的图名中的文字,及小注中与该参考图片有关的文字,作为该参考图片的文字标注,以此获取每张参考图片的上下文和文字标注。
步骤507、基于上下文和文字标注,生成多个候选关键词。
在本实施例中,上述执行主体在获取每张参考图片的上下文和文字标注后,可以基于上下文和文字标注,生成多个候选关键词。具体地,可以从每张参考图片的上下文和文字标注中,提取一组关键词,将提取到的所有关键词确定为多个候选关键词。示例性的,从文章信息库中获取到三张参考图片对应的两篇文章,其中两张参考图片对应第一篇文章,第三张参考图片对应第二篇文章,从第一篇文章中获取两张参考图片对应的两组上下文和文字标注,从两组上下文和文字标注中提取到两组关键词“丁元英、天道”、“丁元英、逆袭”,从第二篇文章中获取第三张参考图片对应的一组上下文和文字标注,从该组上下文和文字标注中提取到一组关键词“丁元英、穷人”,将“丁元英、天道、丁元英、逆袭、丁元英、穷人”确定为多个候选关键词。
步骤508、基于异构图神经网络,从多个候选关键词中选出至少一个目标关键词,作为待标注图片的标签。
在本实施例中,步骤508具体操作已在图2所示的实施例中步骤204进行了详细的介绍,在此不再赘述。
从图5中可以看出,与图4对应的实施例相比,本实施例中的图片标签生成方法,可以基于每张参考图片在对应文章中的上下文和文字标注确定对应的关键词,使得到的与参考图片对应的关键词更准确,进一步提高了得到的待标注图片标签的准确性。
进一步继续参考图6,其示出了根据本公开的基于异构图神经网络确定目标关键词的方法的一个实施例的流程600。该基于异构图神经网络确定目标关键词的方法包括以下步骤:
步骤601、基于待标注图片、至少一张参考图片和多个候选关键词,建立异构图。
在本实施例中,上述执行主体可以构建异构图。具体地,可以将待标注图片、至少一张参考图片和多个候选关键词作为多个节点,在两两节点之间建立连边,组成异构图,其中,连边表示连接的两个节点之间具有对应关系。
在本实施例的一些可选实现方式中,可以将待标注图片作为异构图的中心节点。由于至少一张参考图片是基于待标注图片获取的,因此,可以将至少一张参考图片作为一阶邻居节点,每一张参考图片与待标注图片都存在连边。多个候选关键词是基于参考图片对应的文章获取的,因此,可以将多个候选关键词作为二阶邻居节点,每个候选关键词与其对应的参考图片之间存在连边。将通过以上构建方法获取的图作为异构图。
在本实施例的一些可选实现方式中,可以基于候选关键词的获取方式,为每个二阶邻居节点配置权重。具体地,步骤405-406为一种获取候选关键词的方式,该方式将基于整篇文章提取的一组关键词作为文章配图对应的关键词,当一篇文章的多幅配图之间不相关时,该种方式获取的候选关键词会存在一定误差,因此,可以为基于步骤405-406获取的候选关键词配置较小的权重。步骤505-507为另一种获取候选关键词的方式,该方式从文章中每幅配图的上下文和文字标注中提取一组关键词,作为配图对应的关键词,该种方式获取的候选关键词更准确、更合理,因此,可以为基于步骤505-507获取的候选关键词配置较大的权重。
步骤602、将异构图输入到异构图神经网络中,得到多个融合候选关键词特征。
在本实施例中,上述执行主体在获取异构图后,可以将异构图输入到异构图神经网络中,得到多个融合候选关键词特征。具体地,可以将异构图从异构图神经网络的输入端输入,从异构图神经网络的输出端得到多个融合候选关键词特征,融合候选关键词特征可以是参考图片与候选关键词的融合特征,可以是参考图片与参考图片的融合特征,也可以是候选关键词与候选关键词的融合特征,本公开对此不做限定。
在本实施例的一些可选实现方式中,可以将所述异构图输入到所述异构图神经网络中,基于异构图神经网络中的多层感知机,将一阶邻居节点和二阶邻居节点映射到同一个维度空间中,基于异构图神经网络中的双向长短时记忆网络,对映射后的同类型邻居节点进行融合,得到至少一个融合候选关键词特征,基于异构图神经网络中的注意力机制,对映射后的一阶邻居节点与二阶邻居节点进行融合,得到至少一个所述融合候选关键词特征。
具体地,可以将异构图以邻接矩阵的形式输入到异构图神经网络中,其中,邻接矩阵是一种表示顶点之间相邻关系的矩阵。多层感知机可以被看作一个有向图,由多个节点层组成,每一层都全连接到下一层。一阶邻居节点和二阶邻居节点分别是图像和文本,是两种不同模态的信息,基于多层感知机将一阶邻居节点和二阶邻居节点映射到同一个维度空间中,可以消除不同模态之间的差异,便于将不同模态的信息进行编码。将一阶邻居节点和二阶邻居节点映射到同一个维度空间中后,可以分别提取一阶邻居节点和二阶邻居节点的特征,示例性的,可以通过图像本特征提取网络提取一阶邻居节点的特征,通过文本特征提取网络提取二阶邻居节点的特征,用提取到的图像特征和文本特征进行融合。可以基于异构图神经网络中的双向长短时记忆网络对同类型邻居节点进行融合,得到至少一个融合候选关键词特征,双向长短时记忆网络由前向长短时记忆网络和后向长短时记忆网络组成,通过双向长短时记忆网络可以更好的捕捉双向的语义依赖。可以基于异构图神经网络中的注意力机制,对映射后的一阶邻居节点与二阶邻居节点进行融合,其中,注意力机制是一种具有对输入分配偏好的通用池化方法。
步骤603、判断每个融合候选关键词特征与待标注图片是否存在连边。
在本实施例中,上述执行主体可以判断每个融合候选关键词特征与待标注图片是否存在连边。具体地,可以基于逻辑回归网络进行判断,将融合候选关键词特征与待标注图片输入逻辑回归网络,从逻辑回归网络的输出端得到判断结果,判断结果由0或1表示,0表示不存在连边,1表示存在连边。
步骤604、响应于存在连边,将融合候选关键词特征对应的候选关键词,确定为一个目标关键词,作为待标注图片的标签。
在本实施例中,上述执行主体若判断融合候选关键词特征与待标注图片存在连边,则将该融合候选关键词特征对应的候选关键词,确定为一个目标关键词,作为待标注图片的标签。
从图6中可以看出,本实施例中的基于异构图神经网络确定待标注图片的标签的方法,可以同时学习一阶邻居节点和二阶邻居节点的特征,再判断与待标注图片是否存在连边,使获取的标签更准确。
进一步继续参考图7,其示出了根据本公开的构建文章信息库的方法的一个实施例的流程700。该构建文章信息库的方法包括以下步骤:
步骤701、获取包含配图的文章数据集。
在本实施例中,上述执行主体可以获取包含配图的文章数据集。其中,文章数据集中的每一篇文章都包含至少一幅配图,每一篇文章都由文字和至少一幅配图组成,其中,文字部分除了文章正文的文字,也可以包含一些注解,例如可以是对正文中的一个词语的注解,也可以是对一幅配图的注解。可以从现有文章数据集中,挑选多篇包含配图的文章,作为包含配图的文章数据集,也可以从网络上检索出多篇包含配图的文章,作为包含配图的文章数据集,本公开对此不做限定。
步骤702、为文章数据集中的每一篇文章建立一个索引标识。
在本实施例中,上述执行主体在获取文章数据集后,可以为文章数据集中的每一篇文章建立一个索引标识。具体地,可以按照阿拉伯数字的顺序,给文章数据集中的每一篇文章配置一个阿拉伯数字编号,作为每一篇文章的索引标识,也可以随机生成多个不同的随机数,给文章数据集中的每一篇文章配置一个随机数,作为每一篇文章的索引标识,本公开对此不做限定。
步骤703、将一篇文章和对应的索引标识作为一条数据,将文章数据集中的文章存储到文章信息库中。
在本实施例中,上述执行主体可以将文章数据集中的文章存储到文章信息库中。具体地,可以将文章数据集中的一篇文章,和与该篇文章对应的索引标识作为一条数据,存储到文章信息库中,以此类推,将文章数据集中的每一篇文章及其索引标识存储到文章信息库中。
在本实施例的一些可选实现方式中,可以将每一篇文章的配图也存储到文章信息库中,示例性的,可以将将文章数据集中的一篇文章、与该篇文章对应的索引标识、该篇文章中的所有配图作为一条数据,存储到文章信息库中,以此类推,将文章数据集中的每一篇文章及其索引标识、该篇文章中的所有配图存储到文章信息库中。
在本实施例的一些可选实现方式中,可以将每一篇文章的配图存储到图片指纹库中,示例性的,可以将文章数据集中的一篇文章中的一幅配图及该篇文章对应的索引标识作为一条数据,存储到图片指纹库中,以此类推,将文章数据集中的每一幅配图及配图所在文章对应的索引标识存储到图片指纹库中。
在本实施例的一些可选实现方式中,可以提取文章数据集中的多幅配图对应的多个指纹信息,可以将文章数据集中的一篇文章中的一幅配图、该篇文章对应的索引标识、该幅配图的指纹信息,作为一条数据,存储到图片指纹库中,以此类推,将文章数据集中的每一幅配图、配图的指纹信息、配图所在文章对应的索引标识存储到图片指纹库中。
从图7中可以看出,本实施例中的构建文章信息库的方法,可以存储大量对应的文章和图片,便于通过查找文章信息库来获取待标注图片的标签,简化了获取图片标签的过程,提高了获取图片标签的效率。
进一步继续参考图8,其示出了根据本公开的图片标签生成方法的又一个实施例的流程800。该图片标签生成方法包括以下步骤:
步骤801、获取待标注图片。
步骤802、获取与待标注图片相关的至少一张参考图片。
步骤803、获取与至少一张参考图片对应的多个候选关键词。
步骤804、基于异构图神经网络,从多个候选关键词中选出至少一个目标关键词,作为待标注图片的标签。
在本实施例中,步骤801-804具体操作已在图2所示的实施例中步骤201-204进行了详细的介绍,在此不再赘述。
步骤805、为待标注图片建立一个索引标识。
在本实施例中,上述执行主体在得到待标注图片的标签后,可以为待标注图片建立一个索引标识。其中,待标注图片的索引标识与文章信息库中每一篇文章的索引标识是相同类型的索引标识。示例性的,若文章信息库中每一篇文章的索引标识是按照阿拉伯数字的顺序编号的,则取文章信息库中最大的阿拉伯数字,再加1,作为待标注图片的索引标识,若文章信息库中每一篇文章的索引标识是基于随机数编号的,则基于文章信息库中的随机数生成规则,生成一个新的随机数,若新的随机数与文章信息库中已有的随机数相同,则再重新获取一个随机数,直至获取到一个与文章信息库中的随机数均不相同的一个随机数,用该随机数作为待标注图片的索引标识。
步骤806、将待标注图片的索引标识和待标注图片的标签作为一条数据,存储到文章信息库中。
在本实施例中,上述执行主体可以将待标注图片存储到文章信息库中。具体地,可以将待标注图片的索引标识和待标注图片的标签作为一条数据,存储到文章信息库中。
在本实施例的一些可选实现方式中,可以将待标注图片的索引标识、待标注图片的标签和待标注图片作为一条数据,存储到文章信息库中。
在本实施例的一些可选实现方式中,可以将待标注图片的索引标识和待标注图片的标签作为一条数据,存储到文章信息库中,将将待标注图片的索引标识和待标注图片作为一条数据,存储到图片指纹库中。
在本实施例的一些可选实现方式中,可以将待标注图片的索引标识和待标注图片的标签作为一条数据,存储到文章信息库中,将将待标注图片的索引标识、待标注图片和待标注图片的指纹信息作为一条数据,存储到图片指纹库中。
从图8中可以看出,本实施例中的图片标签生成方法,可以对已有文章信息库进行扩充,使后续生成的图片标签更准确。
进一步继续参考图9,图9是本公开的图片标签生成方法的另一个示意图,从图9中可以看出,本公开的图片标签生成方法,可以预先建立图片指纹库和文章信息库,具体生成图片标签时,先获取待标注图片,提取待标注图片的指纹信息,然后将待标注图片的指纹信息与图片指纹库中的指纹信息进行匹配,从图片指纹库中获取至少一张参考图片,接着从文章信息库中获取与至少一张参考图片对应的至少一篇文章,从得到的至少一篇文章中提取到多个候选关键词,并基于异构图神经网络对多个候选关键词进行分析和处理,从多个候选关键词中选出至少一个目标关键词作为待标注图片的标签,并输出待标注图片的标签。该获取待标注图片的方法可以基于图片指纹检索到相同的多张图片,基于相同图片的关联文章确定待标注图片的标签,提高了图片标签生成的准确率。
进一步继续参考图10,其示出了根据本公开的为文字配图的方法的一个实施例的流程1000。该为文字配图的方法包括以下步骤:
步骤1001、从文字中提取关键词。
在本实施例中,上述执行主体可以从文字中提取关键词。具体地,可以基于文字的全文提取多个关键词,也可以基于文字的核心内容部分提取多个关键词,本公开对此不做限定。
步骤1002、将关键词与预先建立的文章信息库中的文字进行匹配。
在本实施例中,上述执行主体可以将关键词与预先建立的文章信息库中的文字进行匹配。其中,预先建立的文章信息库中预先存储了多篇文章,可以直接将提取到的关键词与文章信息库中的每一篇文章的全文进行比较,若文章信息库的文章中包含与提取的关键词相同的词语,则该篇文章匹配成功,若文章信息库的文章中不包含与提取的关键词相同的词语,则该篇文章匹配失败。也可以先对文章信息库中的每一篇文章都提取一组关键词,将从文字中提取的关键词和从文章信息库的文章中提取的关键词进行比较,若从文章信息库的文章中提取的关键词中,包含与从文字中提取的关键词相同的词语,则文章信息库中对应的文章匹配成功,若从文章信息库的文章中提取的关键词中,不包含与从文字中提取的关键词相同的词语,则文章信息库中对应的文章匹配失败,本公开对此不做限定。
步骤1003、获取匹配成功的文字对应的图片。
在本实施例中,上述执行主体可以获取匹配成功的文字对应的图片。具体地,可以从文章信息库中,直接检索出匹配成功的文章对应的图片,也可以先从文章信息库中获取匹配成功的文章对应的索引标识,将得到的索引标识与图片指纹库中的索引标识进行匹配,从图片指纹库中获取匹配成功的索引标识对应的图片,本公开对此不做限定。
步骤1004、将图片确定为配图。
在本实施例中,上述执行主体在获取匹配成功的文字对应的图片后,可以直接将获取的图片确定为文字的配图。
从图10中可以看出,本实施例中的为文字配图的方法,可以快速获取到准确、合适的配图,提高了为文字图的效率和准确率。
进一步参考图11,作为对图片标签生成方法的实现,本公开提供了一种图片标签生成装置的一个实施例,该装置实施例与图2所示的方法实施例相对应,该装置具体可以应用于各种电子设备中。
如图11所示,本实施例的图片标签生成装置1100可以包括第一获取模块1101,第二获取模块1102,第三获取模块1103,选择模块1104。其中,第一获取模块1101,被配置为获取待标注图片;第二获取模块1102,被配置为获取与待标注图片相关的至少一张参考图片;第三获取模块1103,被配置为获取与至少一张参考图片对应的多个候选关键词;选择模块1104,被配置为基于异构图神经网络,从多个候选关键词中选出至少一个目标关键词,作为待标注图片的标签。
在本实施例中,图片标签生成装置1100:第一获取模块1101,第二获取模块1102,第三获取模块1103,选择模块1104的具体处理及其所带来的技术效果可分别参考图2对应实施例中的步骤201-204的相关说明,在此不再赘述。
在本实施例的一些可选实现方式中,选择模块1104包括:构建子模块,被配置为基于待标注图片、至少一张参考图片和多个候选关键词,建立异构图;输入子模块,被配置为将异构图输入到异构图神经网络中,得到多个融合候选关键词特征;判断子模块,被配置为判断每个融合候选关键词特征与待标注图片是否存在连边;第一确定子模块,被配置为响应于存在连边,将融合候选关键词特征对应的候选关键词,确定为一个目标关键词。
在本实施例的一些可选实现方式中,第三获取模块1103包括:第二确定子模块,被配置为从预先建立的文章信息库中,确定至少一张参考图片中每张参考图片对应的文章;第三确定子模块,被配置为将文章的多个关键词确定为多个候选关键词。
在本实施例的一些可选实现方式中,第三获取模块1103包括:第四确定子模块,被配置为从预先建立的文章信息库中,确定至少一张参考图片中每张参考图片对应的文章;第一提取子模块,被配置为从文章中提取每张参考图片的上下文和文字标注;生成子模块,被配置为基于上下文和文字标注,生成多个候选关键字。
在本实施例的一些可选实现方式中,构建子模块包括:构建单元,被配置为将待标注图片作为中心节点,将至少一张参考图片作为一阶邻居节点,将多个候选关键词作为二阶邻居节点,构建异构图。
在本实施例的一些可选实现方式中,构建子模块还包括:配置单元,被配置为基于候选关键词的获取方式,为每个二阶邻居节点配置权重。
在本实施例的一些可选实现方式中,输入子模块包括:输入单元,被配置为将异构图输入到异构图神经网络中;映射单元,被配置为基于异构图神经网络中的多层感知机,将一阶邻居节点和二阶邻居节点映射到同一个维度空间中;第一融合单元,被配置为基于异构图神经网络中的双向长短时记忆网络,对映射后的同类型邻居节点进行融合,得到至少一个融合候选关键词特征;第二融合单元,被配置为基于异构图神经网络中的注意力机制,对映射后的一阶邻居节点与二阶邻居节点进行融合,得到至少一个融合候选关键词特征。
在本实施例的一些可选实现方式中,第二获取模块1002包括:第二提取子模块,被配置为提取待标注图片的指纹信息;获取子模块,被配置为从预先建立的图片指纹库中,获取与指纹信息相同的至少一个目标指纹;第五确定子模块,被配置为将至少一个目标指纹对应的图片,确定为与待标注图片相关的至少一张参考图片。
在本实施例的一些可选实现方式中,文章信息库是通过以下步骤构建的:获取包含配图的文章数据集;为文章数据集中的每一篇文章建立一个索引标识;将一篇文章和对应的索引标识作为一条数据,将文章数据集中的文章存储到文章信息库中。
在本实施例的一些可选实现方式中,图片标签生成装置1100还包括:建立模块,被配置为为待标注图片建立一个索引标识;存储模块,被配置为将待标注图片的索引标识和待标注图片的标签作为一条数据,存储到文章信息库中。
进一步参考图12,作为对上述为文字配图的方法的实现,本公开提供了一种为文字配图的装置的一个实施例,该装置实施例与图10所示的方法实施例相对应,该装置具体可以应用于各种电子设备中。
如图12所示,本实施例的为文字配图的装置1200可以包括提取模块1201,匹配模块1202,第四获取模块1203,确定模块1204。其中,提取模块1201,被配置为从文字中提取关键词;匹配模块1202,被配置为将关键词与预先建立的文章信息库中的文字进行匹配;第四获取模块1203,被配置为获取匹配成功的文字对应的图片;确定模块1204被配置为将图片确定为配图。
在本实施例中,为文字配图的装置1200:提取模块1201,匹配模块1202,第四获取模块1203,确定模块1204的具体处理及其所带来的技术效果可分别参考图10对应实施例中的步骤1001-1004的相关说明,在此不再赘述。
根据本公开的实施例,本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。
图13示出了可以用来实施本公开的实施例的示例电子设备1300的示意性框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。
如图13所示,设备1300包括计算单元1301,其可以根据存储在只读存储器(ROM)1302中的计算机程序或者从存储单元1308加载到随机访问存储器(RAM)1303中的计算机程序,来执行各种适当的动作和处理。在RAM 1303中,还可存储设备1300操作所需的各种程序和数据。计算单元1301、ROM 1302以及RAM 1303通过总线1304彼此相连。输入/输出(I/O)接口1305也连接至总线1304。
设备1300中的多个部件连接至I/O接口1305,包括:输入单元1306,例如键盘、鼠标等;输出单元1307,例如各种类型的显示器、扬声器等;存储单元1308,例如磁盘、光盘等;以及通信单元1309,例如网卡、调制解调器、无线通信收发机等。通信单元1309允许设备1300通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
计算单元1301可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元1301的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元1301执行上文所描述的各个方法和处理,例如图片标签生成方法或为文字配图的方法。例如,在一些实施例中,图片标签生成方法或为文字配图的方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元1308。在一些实施例中,计算机程序的部分或者全部可以经由ROM 1302和/或通信单元1309而被载入和/或安装到设备1300上。当计算机程序加载到RAM 1303并由计算单元1301执行时,可以执行上文描述的图片标签生成方法或为文字配图的方法的一个或多个步骤。备选地,在其他实施例中,计算单元1301可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行图片标签生成方法或为文字配图的方法。
本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以为分布式系统的服务器,或者是结合了区块链的服务器。服务器也可以是云服务器,或者是带人工智能技术的智能云计算服务器或智能云主机。服务器可以为分布式系统的服务器,或者是结合了区块链的服务器。服务器也可以是云服务器,或者是带人工智能技术的智能云计算服务器或智能云主机。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本公开公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本公开保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等,均应包含在本公开保护范围之内。
Claims (25)
1.一种图片标签生成方法,包括:
获取待标注图片;
获取与所述待标注图片相关的至少一张参考图片;
获取与所述至少一张参考图片对应的多个候选关键词;
基于异构图神经网络,从所述多个候选关键词中选出至少一个目标关键词,作为所述待标注图片的标签。
2.根据权利要求1所述的方法,其中,所述基于异构图神经网络,从所述多个候选关键词中选出至少一个目标关键词包括:
基于所述待标注图片、所述至少一张参考图片和所述多个候选关键词,建立异构图;
将所述异构图输入到所述异构图神经网络中,得到多个融合候选关键词特征;
判断每个融合候选关键词特征与所述待标注图片是否存在连边;
响应于存在连边,将融合候选关键词特征对应的候选关键词,确定为一个目标关键词。
3.根据权利要求2所述的方法,其中,所述获取与所述至少一张参考图片对应的多个候选关键词包括:
从预先建立的文章信息库中,确定所述至少一张参考图片中每张参考图片对应的文章;
将所述文章的多个关键词确定为所述多个候选关键词。
4.根据权利要求2或3所述的方法,其中,所述获取与所述至少一张参考图片对应的多个候选关键词包括:
从预先建立的文章信息库中,确定所述至少一张参考图片中每张参考图片对应的文章;
从所述文章中提取所述每张参考图片的上下文和文字标注;
基于所述上下文和文字标注,生成所述多个候选关键词。
5.根据权利要求2至4任一项所述的方法,其中,所述基于所述待标注图片、所述至少一张参考图片和所述多个候选关键词,建立异构图包括:
将所述待标注图片作为中心节点,将所述至少一张参考图片作为一阶邻居节点,将所述多个候选关键词作为二阶邻居节点,构建所述异构图。
6.根据权利要求5所述的方法,还包括:
基于所述候选关键词的获取方式,为每个所述二阶邻居节点配置权重。
7.根据权利要求5所述的方法,其中,所述将所述异构图输入到所述异构图神经网络中,得到多个融合候选关键词特征包括:
将所述异构图输入到所述异构图神经网络中;
基于所述异构图神经网络中的多层感知机,将所述一阶邻居节点和所述二阶邻居节点映射到同一个维度空间中;
基于所述异构图神经网络中的双向长短时记忆网络,对映射后的同类型邻居节点进行融合,得到至少一个所述融合候选关键词特征;
基于所述异构图神经网络中的注意力机制,对映射后的所述一阶邻居节点与所述二阶邻居节点进行融合,得到至少一个所述融合候选关键词特征。
8.根据权利要求1-7任一项所述的方法,其中,所述获取与所述待标注图片相关的至少一张参考图片包括:
提取所述待标注图片的指纹信息;
从预先建立的图片指纹库中,获取与所述指纹信息相同的至少一个目标指纹;
将所述至少一个目标指纹对应的图片,确定为与所述待标注图片相关的至少一张参考图片。
9.根据权利要求8所述的方法,其中,所述文章信息库是通过以下步骤构建的:
获取包含配图的文章数据集;
为所述文章数据集中的每一篇文章建立一个索引标识;
将一篇文章和对应的索引标识作为一条数据,将所述文章数据集中的文章存储到所述文章信息库中。
10.根据权利要求9所述的方法,还包括:
为所述待标注图片建立一个索引标识;
将所述待标注图片的索引标识和所述待标注图片的标签作为一条数据,存储到所述文章信息库中。
11.一种为文字配图的方法,包括:
从文字中提取关键词;
将所述关键词与预先建立的文章信息库中的文字进行匹配;
获取匹配成功的文字对应的图片;
将所述图片确定为所述配图。
12.一种图片标签生成装置,所述装置包括:
第一获取模块,被配置为获取待标注图片;
第二获取模块,被配置为获取与所述待标注图片相关的至少一张参考图片;
第三获取模块,被配置为获取与所述至少一张参考图片对应的多个候选关键词;
选择模块,被配置为基于异构图神经网络,从所述多个候选关键词中选出至少一个目标关键词,作为所述待标注图片的标签。
13.根据权利要求12所述的装置,其中,所述选择模块包括:
构建子模块,被配置为基于所述待标注图片、所述至少一张参考图片和所述多个候选关键词,建立异构图;
输入子模块,被配置为将所述异构图输入到所述异构图神经网络中,得到多个融合候选关键词特征;
判断子模块,被配置为判断每个融合候选关键词特征与所述待标注图片是否存在连边;
第一确定子模块,被配置为响应于存在连边,将融合候选关键词特征对应的候选关键词,确定为一个目标关键词。
14.根据权利要求13所述的装置,其中,所述第三获取模块包括:
第二确定子模块,被配置为从所述预先建立的文章信息库中,确定所述至少一张参考图片中每张参考图片对应的文章;
第三确定子模块,被配置为将所述文章的多个关键词确定为所述多个候选关键词。
15.根据权利要求13或14所述的装置,其中,所述第三获取模块包括:
第四确定子模块,被配置为从所述预先建立的文章信息库中,确定所述至少一张参考图片中每张参考图片对应的文章;
第一提取子模块,被配置为从所述文章中提取所述每张参考图片的上下文和文字标注;
生成子模块,被配置为基于所述上下文和文字标注,生成所述多个候选关键字。
16.根据权利要求13至15任一项所述的装置,其中,所述构建子模块包括:
构建单元,被配置为将所述待标注图片作为中心节点,将所述至少一张参考图片作为一阶邻居节点,将所述多个候选关键词作为二阶邻居节点,构建所述异构图。
17.根据权利要求16所述的装置,其中,所述构建子模块还包括:
配置单元,被配置为基于所述候选关键词的获取方式,为每个所述二阶邻居节点配置权重。
18.根据权利要求16所述的装置,其中,所述输入子模块包括:
输入单元,被配置为将所述异构图输入到所述异构图神经网络中;
映射单元,被配置为基于所述异构图神经网络中的多层感知机,将所述一阶邻居节点和所述二阶邻居节点映射到同一个维度空间中;
第一融合单元,被配置为基于所述异构图神经网络中的双向长短时记忆网络,对映射后的同类型邻居节点进行融合,得到至少一个所述融合候选关键词特征;
第二融合单元,被配置为基于所述异构图神经网络中的注意力机制,对映射后的所述一阶邻居节点与所述二阶邻居节点进行融合,得到至少一个所述融合候选关键词特征。
19.根据权利要求12-18任一项所述的装置,其中,所述第二获取模块包括:
第二提取子模块,被配置为提取所述待标注图片的指纹信息;
获取子模块,被配置为从预先建立的图片指纹库中,获取与所述指纹信息相同的至少一个目标指纹;
第五确定子模块,被配置为将所述至少一个目标指纹对应的图片,确定为与所述待标注图片相关的至少一张参考图片。
20.根据权利要求19所述的装置,其中,所述文章信息库是通过以下步骤构建的:
获取包含配图的文章数据集;
为所述文章数据集中的每一篇文章建立一个索引标识;
将一篇文章和对应的索引标识作为一条数据,将所述文章数据集中的文章存储到所述文章信息库中。
21.根据权利要求20所述的装置,还包括:
建立模块,被配置为为所述待标注图片建立一个索引标识;
存储模块,被配置为将所述待标注图片的索引标识和所述待标注图片的标签作为一条数据,存储到所述文章信息库中。
22.一种为文字配图的装置,所述装置包括:
提取模块,被配置为从文字中提取关键词;
匹配模块,被配置为将所述关键词与预先建立的文章信息库中的文字进行匹配;
第四获取模块,被配置为获取匹配成功的文字对应的图片;
确定模块,被配置为将所述图片确定为所述配图。
23.一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-11中任一项所述的方法。
24.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行根据权利要求1-11中任一项所述的方法。
25.一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现根据权利要求1-11中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210002183.5A CN114329016B (zh) | 2022-01-04 | 2022-01-04 | 图片标签生成方法和文字配图方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210002183.5A CN114329016B (zh) | 2022-01-04 | 2022-01-04 | 图片标签生成方法和文字配图方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114329016A true CN114329016A (zh) | 2022-04-12 |
CN114329016B CN114329016B (zh) | 2023-04-25 |
Family
ID=81023127
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210002183.5A Active CN114329016B (zh) | 2022-01-04 | 2022-01-04 | 图片标签生成方法和文字配图方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114329016B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117455994A (zh) * | 2023-11-07 | 2024-01-26 | 暨南大学 | 一种相机位姿估计方法、系统、电子设备及可读介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111090763A (zh) * | 2019-11-22 | 2020-05-01 | 北京视觉大象科技有限公司 | 一种图片自动标签方法及装置 |
CN111967302A (zh) * | 2020-06-30 | 2020-11-20 | 北京百度网讯科技有限公司 | 视频标签的生成方法、装置及电子设备 |
CN112784079A (zh) * | 2020-12-31 | 2021-05-11 | 深圳市汇深网信息科技有限公司 | 图片文本的制作方法、装置、电子设备以及存储介质 |
CN113127669A (zh) * | 2020-01-15 | 2021-07-16 | 百度在线网络技术(北京)有限公司 | 广告配图方法、装置、设备和存储介质 |
-
2022
- 2022-01-04 CN CN202210002183.5A patent/CN114329016B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111090763A (zh) * | 2019-11-22 | 2020-05-01 | 北京视觉大象科技有限公司 | 一种图片自动标签方法及装置 |
CN113127669A (zh) * | 2020-01-15 | 2021-07-16 | 百度在线网络技术(北京)有限公司 | 广告配图方法、装置、设备和存储介质 |
CN111967302A (zh) * | 2020-06-30 | 2020-11-20 | 北京百度网讯科技有限公司 | 视频标签的生成方法、装置及电子设备 |
CN112784079A (zh) * | 2020-12-31 | 2021-05-11 | 深圳市汇深网信息科技有限公司 | 图片文本的制作方法、装置、电子设备以及存储介质 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117455994A (zh) * | 2023-11-07 | 2024-01-26 | 暨南大学 | 一种相机位姿估计方法、系统、电子设备及可读介质 |
Also Published As
Publication number | Publication date |
---|---|
CN114329016B (zh) | 2023-04-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112199375B (zh) | 跨模态的数据处理方法、装置、存储介质以及电子装置 | |
CN112749344B (zh) | 信息推荐方法、装置、电子设备、存储介质及程序产品 | |
CN110826335B (zh) | 一种命名实体识别的方法和装置 | |
JP7242994B2 (ja) | ビデオイベント識別方法、装置、電子デバイス及び記憶媒体 | |
CN110134965B (zh) | 用于信息处理的方法、装置、设备和计算机可读存储介质 | |
WO2022174496A1 (zh) | 基于生成模型的数据标注方法、装置、设备及存储介质 | |
CN111639228B (zh) | 视频检索方法、装置、设备及存储介质 | |
CN114782719B (zh) | 一种特征提取模型的训练方法、对象检索方法以及装置 | |
CN111507285A (zh) | 人脸属性识别方法、装置、计算机设备和存储介质 | |
CN112925912A (zh) | 文本处理方法、同义文本召回方法及装置 | |
CN115565177A (zh) | 文字识别模型训练、文字识别方法、装置、设备及介质 | |
CN114329016B (zh) | 图片标签生成方法和文字配图方法 | |
CN114328800A (zh) | 文本处理方法、装置、电子设备和计算机可读存储介质 | |
CN112560425B (zh) | 模板生成方法、装置、电子设备及存储介质 | |
CN113139110A (zh) | 区域特征处理方法、装置、设备、存储介质和程序产品 | |
CN114445833B (zh) | 文本识别方法、装置、电子设备和存储介质 | |
CN113343047B (zh) | 数据处理方法、数据检索方法及装置 | |
CN113239215B (zh) | 多媒体资源的分类方法、装置、电子设备及存储介质 | |
CN115116080A (zh) | 表格解析方法、装置、电子设备和存储介质 | |
CN114443864A (zh) | 跨模态数据的匹配方法、装置及计算机程序产品 | |
CN114398434A (zh) | 结构化信息抽取方法、装置、电子设备和存储介质 | |
CN108009233B (zh) | 一种图像还原方法、装置、计算机设备及存储介质 | |
CN115130435B (zh) | 文档处理方法、装置、电子设备和存储介质 | |
CN116431767B (zh) | 文本图像查询方法、装置、电子设备以及存储介质 | |
CN113392257B (zh) | 图像检索方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |