CN110688515A - 文本图像语义转换方法、装置、计算设备、及存储介质 - Google Patents

文本图像语义转换方法、装置、计算设备、及存储介质 Download PDF

Info

Publication number
CN110688515A
CN110688515A CN201910913309.2A CN201910913309A CN110688515A CN 110688515 A CN110688515 A CN 110688515A CN 201910913309 A CN201910913309 A CN 201910913309A CN 110688515 A CN110688515 A CN 110688515A
Authority
CN
China
Prior art keywords
image
text
function
conversion
source domain
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910913309.2A
Other languages
English (en)
Inventor
陈庶
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Yingpu Technology Co Ltd
Original Assignee
Beijing Yingpu Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Yingpu Technology Co Ltd filed Critical Beijing Yingpu Technology Co Ltd
Priority to CN201910913309.2A priority Critical patent/CN110688515A/zh
Publication of CN110688515A publication Critical patent/CN110688515A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/5846Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using extracted text

Landscapes

  • Engineering & Computer Science (AREA)
  • Library & Information Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种文本图像语义转换方法、装置、计算设备、及存储介质。所述方法提取图像语义信息及文本语义信息,将图像语义信息及文本语义信息的特征嵌入相同特征空间,根据特征空间中距离的远近关系找到文本和图像间的相似关联对,通过相似关系实现文本和图像的语义替换。所述装置包括语义信息提取模块、共享嵌入模块以及嵌入空间转换转换模块。所述计算设备包括存储器、处理器和计算机程序,处理器执行所述计算机程序时实现本发明所述的方法。所述存储介质内存储有计算机程序,计算机程序在由处理器执行时实现本发明所述的方法。本发明能够提高图像检索的准确性和效率,适用于智能图像检索。

Description

文本图像语义转换方法、装置、计算设备、及存储介质
技术领域
本申请涉及智能图像检索领域,特别是涉及文本图像语义转换方法、装置、计算设备、及存储介质。
背景技术
文本和图像中存在的语义信息是自然语言处理和计算机视觉领域的研究基础,文本分类、文本信息检索、图像分类、图像检索等技术都需要依靠文本或图像本身的语义信息进行判断。以图像检索为例,检索模型的步骤一般包括:特征提取、特征编码和聚合、数据库索引。特征提取的常用方法有基于SIFT的特征提取方法,基于CNN(Convolutional NeuralNetworks,卷积神经网络)模型的特征提取方法,预训练的CNN(Convolutional NeuralNetworks,卷积神经网络)模型方法,混合CNN(Convolutional Neural Networks,卷积神经网络)模型方法;特征编码和聚合的常用方法有词袋模型(BoW),空间上下文嵌入与量化;数据库索引的常用方法有倒排索引、基于哈希的索引等,由于特征是索引技术的基础并且特征提取的好坏很大程度上决定了算法的最终准确率,因此很多学者致力于在特征提取方面改进现有方法。但如果图像索引任务是具有约束条件的智能化索引,需要根据约束条件进一步筛选数据库中的图像信息,例如智能图像检索系统需要根据用户的附加需求提供相似图像,如果有足够多的标记数据可以训练出这样的智能图像检索模型,但在实际情况中由于领域的多样性,并非所有领域都有足够多标记图像,在这种情况下想要直接检索出相似的图像几乎是不可能的,降低了图像检索的有效性和准确性。为了解决这种情况,一些学者提出采用基于生成对抗网络的图像生成模型,对图像数据库中的图像进行高级语义修改或者图像合成,该方法可以主动地根据约束条件进行图像修改以满足用户的需求,但当图像过大或者是在3D领域的图像检索任务时,渲染场景的速度过慢,降低了图像检索的效率。还有一些学者提出采用域适应的方法,减少域间差距的影响,通过微调源域数据训练的模型以应用到目标域中,该方法应用的前提条件是源域和目标域属于同一种领域的数据集,例如全部为文本数据集或者全部为图像数据集,并且要求两域间存在较高的相似性,因此这种类型的方法同样存在一定的限制。
综上所述,目前在智能图像检索领域,由于图像数据集的领域限制,并没有存在一种较好的模型可以实现具有附加条件的图像检索任务,当前的智能图像检索模型存在准确率不高、效率低下的问题。
发明内容
本申请的目的在于克服上述问题或者至少部分地解决或缓减解决上述问题。
根据本申请的一个方面,提供了一种文本图像语义转换方法,包括:
提取图像语义信息,提取文本语义信息;
定义源域和目标域的嵌入函数分别为fs和ft,定义其中,Ds为源域数据集,Dt为目标域数据集;
利用距离度量函数计算
Figure BDA0002215338140000022
Figure BDA0002215338140000023
在嵌入空间中的距离,其中,ei∈Ds,ej∈Dt
Figure BDA0002215338140000024
如果距离相近,则标记为相似,否则,标记为不相似;
定义转换函数
Figure BDA0002215338140000025
其中,代表转换后的(e,t),t为转换参数,concat( )是串联操作,NN()是两层前馈网络,对于每个转换对(q,t,r),学习目标是使得
Figure BDA0002215338140000027
接近于
Figure BDA0002215338140000028
并同时在嵌入空间中远离其他特征;
利用转换函数
Figure BDA0002215338140000029
将目标域的图像数据根据源域的替换列表转换成满足源域替换列表的图像。
可选地,对于图像数据,f(x)为ResNet-50模型;对于文本数据信息,f(x)指LSTM模型。
可选地,所述的距离度量函数为:
其中,函数fCE的计算过程如下所示:
Figure BDA0002215338140000032
其中,CE(scores,label)是softmax交叉熵函数,pi=s[ai Tb1,ai Tb2,...,ai TbN]。
根据本申请的另一个方面,提供了一种文本图像语义转换装置,包括:
语义信息提取模块,其配置成提取图像语义信息,以及提取文本语义信息;
共享嵌入模块,其配置成定义源域和目标域的嵌入函数分别为fs和ft,定义
Figure BDA0002215338140000033
其中,Ds为源域数据集,Dt为目标域数据集;
利用距离度量函数计算
Figure BDA0002215338140000034
Figure BDA0002215338140000035
在嵌入空间中的距离,其中,ei∈Ds,ej∈Dt,
Figure BDA0002215338140000036
如果距离相近,则标记为相似,否则,标记为不相似;和
嵌入空间转换转换模块,其配置成定义转换函数
Figure BDA0002215338140000037
其中,
Figure BDA0002215338140000038
代表转换后的(e,t),t为转换参数,concat( )是串联操作,NN()是两层前馈网络,对于每个转换对(q,t,r),学习目标是使得
Figure BDA0002215338140000039
接近于并同时在嵌入空间中远离其他特征;
利用转换函数
Figure BDA00022153381400000311
将目标域的图像数据根据源域的替换列表转换成满足源域替换列表的图像。
可选地,对于图像数据,f(x)为ResNet-50模型;对于文本数据信息,f(x)指LSTM模型。
可选地,所述的距离度量函数为:
Figure BDA0002215338140000041
其中,函数fCE的计算过程如下所示:
Figure BDA0002215338140000042
其中,CE(scores,label)是softmax交叉熵函数,pi=s[ai Tb1,ai Tb2,...,ai TbN]。
根据本申请的另一个方面,提供了一种计算设备,包括存储器、处理器和存储在所述存储器内并能由所述处理器运行的计算机程序,其中,所述处理器执行所述计算机程序时实现上述文本图像语义转换方法。
根据本申请的另一个方面,提供了一种存储介质,优选为非易失性可读存储介质,其内存储有计算机程序,所述计算机程序在由处理器执行时实现上述文本图像语义转换方法。
根据本申请的另一个方面,提供了一种计算机程序产品,包括计算机可读代码,当所述计算机可读代码由计算机设备执行时,导致所述计算机设备执行上述文本图像语义转换方法。
本申请的文本图像语义转换方法、装置、计算设备、存储介质、及计算机程序产品,由于将文本和图像的语义信息映射到相同特征嵌入空间,根据嵌入空间中距离的远近找到相似替换对,实现文本和图像的语义替换,因此能够帮助智能图像检索系统找到满足约束条件的相似图像,提高图像检索的准确性和效率。
根据下文结合附图对本申请的具体实施例的详细描述,本领域技术人员将会更加明了本申请的上述以及其他目的、优点和特征。
附图说明
后文将参照附图以示例性而非限制性的方式详细描述本申请的一些具体实施例。附图中相同的附图标记标示了相同或类似的部件或部分。本领域技术人员应该理解,这些附图未必是按比例绘制的。附图中:
图1是根据本申请实施例的文本图像语义转换方法的示意性流程;
图2是根据本申请实施例的文本图像语义转换装置的示意性结构框图;
图3是根据本申请实施例的一种计算设备的示意性结构框图;
图4是根据本申请实施例的一种存储介质的示意性结构框图。
具体实施方式
文本图像语义转换需要采用源域和目标域两个数据集。本实施例中,源域数据集为手动创建的文本替换列表,以此来表示具有变化的检索约束条件,替换列表例如“从街道到公园”,“从狗到男孩”等等;目标域数据集采用COCO数据集,该数据集有80K张图像,每个图像中带有5个图像说明文本。本实施例的目的是通过源域的替换列表和目标域的COCO数据集来实现文本和图像的共同嵌入和转换以及对目标域中图像的替换。
首先对本实施例涉及到的一些参数进行定义:源域数据集定义为Ds,目标域数据集定义为Dt,源域和目标域中的数据具有相似底层语义信息,相应的关系为:
Figure BDA0002215338140000051
其中如果i=j那么标签设置为相似。更具体的,源域的转换对定义为:其中,m是指源域数据集中数据的数量,
Figure BDA0002215338140000054
是转换前的特征,
Figure BDA0002215338140000055
是转换后的特征,ti是转换参数。对于目标域来说,
Figure BDA0002215338140000056
本实施的例所述方法的目标是在已知
Figure BDA0002215338140000057
的情况下,检索正确的
图1是根据本申请一个实施例的一种文本图像语义转换方法的流程图,所述方法包括:
S1、提取图像语义信息,提取文本语义信息:
对于图像数据,采用预训练的ResNet-50模型来提取图像语义信息,对于文本数据,采用LSTM(Long Short Term Memory Network,长短时记忆网络)模型来提取文本语义特征。
S2、定义源域和目标域的嵌入函数分别为fs和ft,定义
Figure BDA0002215338140000061
其中,x是原始的文本信息或者图像信息,Ds为源域数据集,Dt为目标域数据集;具体操作时,可以根据f(x)的具体形式推断出fs和ft的具体形式;函数的学习目标是为了判断标记特征
Figure BDA0002215338140000063
标记特征是否相似,其中ei∈DS,ej∈Dt,标记特征及即为原始数据经过嵌入函数(模型)提取到的语义信息;如果两者在嵌入空间中距离相近,则标记为相似,否则为不相似;
判断
Figure BDA0002215338140000064
是否相似采用距离度量函数,L代表
Figure BDA0002215338140000065
间的距离,,
Figure BDA0002215338140000066
其中,函数fCE的计算过程如下:
Figure BDA0002215338140000067
其中CE(scores,label)是softmax交叉熵函数,pi=s[ai Tb1,ai Tb2,...,ai TbN]。
S3、定义转换函数
Figure BDA0002215338140000068
其中,
Figure BDA0002215338140000069
代表转换后的(e,t),所述的“转换”是指从源域或目标域转换到嵌入空间中,
Figure BDA00022153381400000610
与嵌入函数中
Figure BDA00022153381400000611
的定义一致,t为转换参数,concat( )是串联操作,NN( )是两层前馈网络,对于每个转换对(q,t,r),学习目标是使得接近于并同时在嵌入空间中远离其他特征;
利用转换函数
Figure BDA00022153381400000614
将目标域的图像数据根据源域的替换列表转换成满足源域替换列表的图像。
本实施例将文本和图像的语义信息映射到相同特征嵌入空间,根据嵌入空间中距离的远近找到相似替换对,实现文本和图像的语义替换,并通过实验证明了其有效性,能够帮助智能图像检索系统找到满足约束条件的相似图像,提高图像检索的准确性和效率。
文本图像语义转换需要采用源域和目标域两个数据集。本实施例中,源域数据集为手动创建的文本替换列表,以此来表示具有变化的检索约束条件,替换列表例如“从街道到公园”,“从狗到男孩”等等;目标域数据集采用COCO数据集,该数据集有80K张图像,每个图像中带有5个图像说明文本。本实施例的目的是通过源域的替换列表和目标域的COCO数据集来实现文本和图像的共同嵌入和转换以及对目标域中图像的替换。
首先对本实施例涉及到的一些参数进行定义:源域数据集定义为Ds,目标域数据集定义为Dt,源域和目标域中的数据具有相似底层语义信息,相应的关系为:
Figure BDA0002215338140000071
其中
Figure BDA0002215338140000072
如果i=j那么标签设置为相似。更具体的,源域的转换对定义为:
Figure BDA0002215338140000073
其中,m是指源域数据集中数据的数量,
Figure BDA0002215338140000074
是转换前的特征,
Figure BDA0002215338140000075
是转换后的特征,ti是转换参数。对于目标域来说,
Figure BDA0002215338140000076
本实施的例所述方法的目标是在已知
Figure BDA0002215338140000077
的情况下,检索正确的
图2是根据本申请一个实施例的一种文本图像语义转换装置的结构示意图图,所述装置包括:
语义信息提取模块:对于图像数据,采用预训练的ResNet-50模型来提取图像语义信息,对于文本数据,采用LSTM(Long Short Term Memory Network,长短时记忆网络)模型来提取文本语义特征。
共享嵌入模块:定义源域和目标域的嵌入函数分别为fs和ft,定义
Figure BDA0002215338140000079
其中,x是原始的文本信息或者图像信息,Ds为源域数据集,Dt为目标域数据集;具体操作时,可以根据f(x)的具体形式推断出fs和ft的具体形式;函数的学习目标是为了判断标记特征标记特征是否相似,其中ei∈Ds,ej∈Dt,标记特征及即为原始数据经过嵌入函数(模型)提取到的语义信息;如果两者在嵌入空间中距离相近,则标记为相似,否则为不相似;
判断
Figure BDA0002215338140000083
是否相似采用距离度量函数,L代表
Figure BDA00022153381400000814
间的距离,,其中,函数fCE的计算过程如下:
Figure BDA0002215338140000086
其中CE(scores,label)是softmax交叉熵函数,pi=s[ai Tb1,ai Tb2,...,ai TbN]。
嵌入空间转换转换模块:定义转换函数
Figure BDA0002215338140000087
其中,
Figure BDA0002215338140000088
代表转换后的(e,t),所述的“转换”是指从源域或目标域转换到嵌入空间中,
Figure BDA0002215338140000089
与嵌入函数中
Figure BDA00022153381400000810
的定义一致,t为转换参数,concat( )是串联操作,NN()是两层前馈网络,对于每个转换对(q,t,r),学习目标是使得
Figure BDA00022153381400000811
接近于
Figure BDA00022153381400000812
并同时在嵌入空间中远离其他特征;
利用转换函数
Figure BDA00022153381400000813
将目标域的图像数据根据源域的替换列表转换成满足源域替换列表的图像。
本实施例将文本和图像的语义信息映射到相同特征嵌入空间,根据嵌入空间中距离的远近找到相似替换对,实现文本和图像的语义替换,并通过实验证明了其有效性,能够帮助智能图像检索系统找到满足约束条件的相似图像,提高图像检索的准确性和效率。
本申请实施例还提供了一种计算设备,参照图3,该计算设备包括存储器1120、处理器1110和存储在所述存储器1120内并能由所述处理器1110运行的计算机程序,该计算机程序存储于存储器1120中的用于程序代码的空间1130,该计算机程序在由处理器1110执行时实现用于执行任一项根据本发明的方法步骤1131。
本申请实施例还提供了一种存储介质。参照图4,该存储介质包括用于程序代码的存储单元,该存储单元设置有用于执行根据本发明的方法步骤的程序1131′,该程序被处理器执行。
本申请实施例还提供了一种包含指令的计算机程序产品。当该计算机程序产品在计算机上运行时,使得计算机执行根据本发明的方法步骤。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机加载和执行所述计算机程序指令时,全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、获取其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。
专业人员应该还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令处理器完成,所述的程序可以存储于计算机可读存储介质中,所述存储介质是非短暂性(英文:non-transitory)介质,例如随机存取存储器,只读存储器,快闪存储器,硬盘,固态硬盘,磁带(英文:magnetic tape),软盘(英文:floppy disk),光盘(英文:optical disc)及其任意组合。
以上所述,仅为本申请较佳的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应该以权利要求的保护范围为准。

Claims (8)

1.一种文本图像语义转换方法,包括:
提取图像语义信息,提取文本语义信息;
定义源域和目标域的嵌入函数分别为fs和ft,定义其中,Ds为源域数据集,Dt为目标域数据集;
利用距离度量函数计算
Figure FDA0002215338130000012
Figure FDA0002215338130000013
在嵌入空间中的距离,其中,ei∈Ds,ej∈Dt
Figure FDA0002215338130000014
如果距离相近,则标记为相似,否则,标记为不相似;
定义转换函数
Figure FDA0002215338130000015
其中,
Figure FDA0002215338130000016
代表转换后的(e,t),t为转换参数,concat( )是串联操作,NN()是两层前馈网络,对于每个转换对(q,t,r),学习目标是使得
Figure FDA0002215338130000017
接近于
Figure FDA0002215338130000018
并同时在嵌入空间中远离其他特征;
利用转换函数
Figure FDA0002215338130000019
将目标域的图像数据根据源域的替换列表转换成满足源域替换列表的图像。
2.根据权利要求1所述的方法,其特征在于,对于图像数据,f(x)为ResNet-50模型;对于文本数据信息,f(x)指LSTM模型。
3.根据权利要求1或2所述的方法,其特征在于,所述的距离度量函数为:
Figure FDA00022153381300000110
其中,函数fCE的计算过程如下所示:
Figure FDA00022153381300000111
其中,CE(scores,label)是softmax交叉熵函数,pi=s[ai Tb1,ai Tb2,...,ai TbN]。
4.一种文本图像语义转换装置,包括:
语义信息提取模块,其配置成提取图像语义信息,以及提取文本语义信息;
共享嵌入模块,其配置成定义源域和目标域的嵌入函数分别为fs和ft,定义
Figure FDA0002215338130000021
其中,Ds为源域数据集,Dt为目标域数据集;
利用距离度量函数计算
Figure FDA0002215338130000022
Figure FDA0002215338130000023
在嵌入空间中的距离,其中,ei∈Ds,ej∈Dt
Figure FDA0002215338130000024
如果距离相近,则标记为相似,否则,标记为不相似;和
嵌入空间转换转换模块,其配置成定义转换函数
Figure FDA0002215338130000025
其中,
Figure FDA0002215338130000026
代表转换后的(e,t),t为转换参数,concat( )是串联操作,NN()是两层前馈网络,对于每个转换对(q,t,r),学习目标是使得
Figure FDA0002215338130000027
接近于
Figure FDA0002215338130000028
并同时在嵌入空间中远离其他特征;
利用转换函数
Figure FDA0002215338130000029
将目标域的图像数据根据源域的替换列表转换成满足源域替换列表的图像。
5.根据权利要求4所述的装置,其特征在于,对于图像数据,f(x)为ResNet-50模型;对于文本数据信息,f(x)指LSTM模型。
6.根据权利要求4或5所述的装置,其特征在于,所述的距离度量函数为:
其中,函数fCE的计算过程如下所示:
Figure FDA0002215338130000031
其中,CE(scores,label)是softmax交叉熵函数,pi=s[ai Tb1,ai Tb2,...,ai TbN]。
7.一种计算设备,包括存储器、处理器和存储在所述存储器内并能由所述处理器运行的计算机程序,其中,所述处理器执行所述计算机程序时实现如权利要求1-3中任一项所述的方法。
8.一种存储介质,优选为非易失性可读存储介质,其内存储有计算机程序,所述计算机程序在由处理器执行时实现如权利要求1-3中任一项所述的方法。
CN201910913309.2A 2019-09-25 2019-09-25 文本图像语义转换方法、装置、计算设备、及存储介质 Pending CN110688515A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910913309.2A CN110688515A (zh) 2019-09-25 2019-09-25 文本图像语义转换方法、装置、计算设备、及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910913309.2A CN110688515A (zh) 2019-09-25 2019-09-25 文本图像语义转换方法、装置、计算设备、及存储介质

Publications (1)

Publication Number Publication Date
CN110688515A true CN110688515A (zh) 2020-01-14

Family

ID=69110295

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910913309.2A Pending CN110688515A (zh) 2019-09-25 2019-09-25 文本图像语义转换方法、装置、计算设备、及存储介质

Country Status (1)

Country Link
CN (1) CN110688515A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113240012A (zh) * 2021-05-14 2021-08-10 天津大学 一种基于二维图像的无监督多视角三维目标检索方法及装置
CN113495971A (zh) * 2020-04-08 2021-10-12 百度在线网络技术(北京)有限公司 一种数据转换模型的优化方法、装置和电子设备
CN114581706A (zh) * 2022-03-02 2022-06-03 平安科技(深圳)有限公司 证件识别模型的配置方法、装置、电子设备、存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
NAM VO 等: "Let’s Transfer Transformations of Shared Semantic Representations", 《ARXIV:1903.00793V1》 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113495971A (zh) * 2020-04-08 2021-10-12 百度在线网络技术(北京)有限公司 一种数据转换模型的优化方法、装置和电子设备
CN113495971B (zh) * 2020-04-08 2024-05-24 百度在线网络技术(北京)有限公司 一种数据转换模型的优化方法、装置和电子设备
CN113240012A (zh) * 2021-05-14 2021-08-10 天津大学 一种基于二维图像的无监督多视角三维目标检索方法及装置
CN114581706A (zh) * 2022-03-02 2022-06-03 平安科技(深圳)有限公司 证件识别模型的配置方法、装置、电子设备、存储介质
CN114581706B (zh) * 2022-03-02 2024-03-08 平安科技(深圳)有限公司 证件识别模型的配置方法、装置、电子设备、存储介质

Similar Documents

Publication Publication Date Title
US20210081796A1 (en) Neural architecture search for dense image prediction tasks
US20220309762A1 (en) Generating scene graphs from digital images using external knowledge and image reconstruction
CN111079532B (zh) 一种基于文本自编码器的视频内容描述方法
CN108694225B (zh) 一种图像搜索方法、特征向量的生成方法、装置及电子设备
CN111324774B (zh) 一种视频去重方法和装置
WO2021139191A1 (zh) 数据标注的方法以及数据标注的装置
WO2020102797A1 (en) Multimodal image classifier using textual and visual embeddings
WO2021083111A1 (zh) 一种水印信息嵌入方法以及装置
Cornia et al. Explaining digital humanities by aligning images and textual descriptions
CN115828112B (zh) 一种故障事件的响应方法、装置、电子设备及存储介质
CN110688515A (zh) 文本图像语义转换方法、装置、计算设备、及存储介质
CN108959522B (zh) 基于半监督对抗生成网络的迁移检索方法
US10733454B2 (en) Transformation of video streams
JP2018501579A (ja) 画像の内容の意味表現
WO2021212601A1 (zh) 一种基于图像的辅助写作方法、装置、介质及设备
CN115357747A (zh) 一种基于序数哈希的图像检索方法及系统
CN117009516A (zh) 换流站故障策略模型训练方法、推送方法及装置
CN114241411B (zh) 基于目标检测的计数模型处理方法、装置及计算机设备
Shah et al. Inferring context from pixels for multimodal image classification
CN113377959B (zh) 基于元学习及深度学习的少样本社交媒体谣言检测方法
CN116257609A (zh) 基于多尺度文本对齐的跨模态检索方法及系统
CN114595360A (zh) 一种基于时序特征的同源视频检索方法及系统
CN114329050A (zh) 视觉媒体数据去重处理方法、装置、设备和存储介质
Hammad et al. Characterizing the impact of using features extracted from pre-trained models on the quality of video captioning sequence-to-sequence models
Ramya et al. XML based approach for object oriented medical video retrieval using neural networks

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20200114