CN110688515A - 文本图像语义转换方法、装置、计算设备、及存储介质 - Google Patents
文本图像语义转换方法、装置、计算设备、及存储介质 Download PDFInfo
- Publication number
- CN110688515A CN110688515A CN201910913309.2A CN201910913309A CN110688515A CN 110688515 A CN110688515 A CN 110688515A CN 201910913309 A CN201910913309 A CN 201910913309A CN 110688515 A CN110688515 A CN 110688515A
- Authority
- CN
- China
- Prior art keywords
- image
- text
- function
- conversion
- source domain
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000006243 chemical reaction Methods 0.000 title claims abstract description 44
- 238000000034 method Methods 0.000 title claims abstract description 44
- 238000004590 computer program Methods 0.000 claims abstract description 17
- 238000000605 extraction Methods 0.000 claims abstract description 10
- 230000015654 memory Effects 0.000 claims abstract description 10
- 239000000284 extract Substances 0.000 claims abstract description 3
- 230000006870 function Effects 0.000 claims description 29
- 238000012546 transfer Methods 0.000 claims description 9
- 239000004576 sand Substances 0.000 claims description 8
- 238000004364 calculation method Methods 0.000 claims description 6
- 230000008569 process Effects 0.000 claims description 6
- 239000000126 substance Substances 0.000 claims description 6
- 238000013527 convolutional neural network Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 4
- 230000009466 transformation Effects 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 3
- 230000002776 aggregation Effects 0.000 description 2
- 238000004220 aggregation Methods 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000005259 measurement Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000006403 short-term memory Effects 0.000 description 2
- 239000007787 solid Substances 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 239000008186 active pharmaceutical agent Substances 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/58—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/583—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/58—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/583—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
- G06F16/5846—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using extracted text
Landscapes
- Engineering & Computer Science (AREA)
- Library & Information Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请公开了一种文本图像语义转换方法、装置、计算设备、及存储介质。所述方法提取图像语义信息及文本语义信息,将图像语义信息及文本语义信息的特征嵌入相同特征空间,根据特征空间中距离的远近关系找到文本和图像间的相似关联对,通过相似关系实现文本和图像的语义替换。所述装置包括语义信息提取模块、共享嵌入模块以及嵌入空间转换转换模块。所述计算设备包括存储器、处理器和计算机程序,处理器执行所述计算机程序时实现本发明所述的方法。所述存储介质内存储有计算机程序,计算机程序在由处理器执行时实现本发明所述的方法。本发明能够提高图像检索的准确性和效率,适用于智能图像检索。
Description
技术领域
本申请涉及智能图像检索领域,特别是涉及文本图像语义转换方法、装置、计算设备、及存储介质。
背景技术
文本和图像中存在的语义信息是自然语言处理和计算机视觉领域的研究基础,文本分类、文本信息检索、图像分类、图像检索等技术都需要依靠文本或图像本身的语义信息进行判断。以图像检索为例,检索模型的步骤一般包括:特征提取、特征编码和聚合、数据库索引。特征提取的常用方法有基于SIFT的特征提取方法,基于CNN(Convolutional NeuralNetworks,卷积神经网络)模型的特征提取方法,预训练的CNN(Convolutional NeuralNetworks,卷积神经网络)模型方法,混合CNN(Convolutional Neural Networks,卷积神经网络)模型方法;特征编码和聚合的常用方法有词袋模型(BoW),空间上下文嵌入与量化;数据库索引的常用方法有倒排索引、基于哈希的索引等,由于特征是索引技术的基础并且特征提取的好坏很大程度上决定了算法的最终准确率,因此很多学者致力于在特征提取方面改进现有方法。但如果图像索引任务是具有约束条件的智能化索引,需要根据约束条件进一步筛选数据库中的图像信息,例如智能图像检索系统需要根据用户的附加需求提供相似图像,如果有足够多的标记数据可以训练出这样的智能图像检索模型,但在实际情况中由于领域的多样性,并非所有领域都有足够多标记图像,在这种情况下想要直接检索出相似的图像几乎是不可能的,降低了图像检索的有效性和准确性。为了解决这种情况,一些学者提出采用基于生成对抗网络的图像生成模型,对图像数据库中的图像进行高级语义修改或者图像合成,该方法可以主动地根据约束条件进行图像修改以满足用户的需求,但当图像过大或者是在3D领域的图像检索任务时,渲染场景的速度过慢,降低了图像检索的效率。还有一些学者提出采用域适应的方法,减少域间差距的影响,通过微调源域数据训练的模型以应用到目标域中,该方法应用的前提条件是源域和目标域属于同一种领域的数据集,例如全部为文本数据集或者全部为图像数据集,并且要求两域间存在较高的相似性,因此这种类型的方法同样存在一定的限制。
综上所述,目前在智能图像检索领域,由于图像数据集的领域限制,并没有存在一种较好的模型可以实现具有附加条件的图像检索任务,当前的智能图像检索模型存在准确率不高、效率低下的问题。
发明内容
本申请的目的在于克服上述问题或者至少部分地解决或缓减解决上述问题。
根据本申请的一个方面,提供了一种文本图像语义转换方法,包括:
提取图像语义信息,提取文本语义信息;
定义源域和目标域的嵌入函数分别为fs和ft,定义其中,Ds为源域数据集,Dt为目标域数据集;
可选地,对于图像数据,f(x)为ResNet-50模型;对于文本数据信息,f(x)指LSTM模型。
可选地,所述的距离度量函数为:
其中,函数fCE的计算过程如下所示:
其中,CE(scores,label)是softmax交叉熵函数,pi=s[ai Tb1,ai Tb2,...,ai TbN]。
根据本申请的另一个方面,提供了一种文本图像语义转换装置,包括:
语义信息提取模块,其配置成提取图像语义信息,以及提取文本语义信息;
嵌入空间转换转换模块,其配置成定义转换函数其中,代表转换后的(e,t),t为转换参数,concat( )是串联操作,NN()是两层前馈网络,对于每个转换对(q,t,r),学习目标是使得接近于并同时在嵌入空间中远离其他特征;
可选地,对于图像数据,f(x)为ResNet-50模型;对于文本数据信息,f(x)指LSTM模型。
可选地,所述的距离度量函数为:
其中,函数fCE的计算过程如下所示:
其中,CE(scores,label)是softmax交叉熵函数,pi=s[ai Tb1,ai Tb2,...,ai TbN]。
根据本申请的另一个方面,提供了一种计算设备,包括存储器、处理器和存储在所述存储器内并能由所述处理器运行的计算机程序,其中,所述处理器执行所述计算机程序时实现上述文本图像语义转换方法。
根据本申请的另一个方面,提供了一种存储介质,优选为非易失性可读存储介质,其内存储有计算机程序,所述计算机程序在由处理器执行时实现上述文本图像语义转换方法。
根据本申请的另一个方面,提供了一种计算机程序产品,包括计算机可读代码,当所述计算机可读代码由计算机设备执行时,导致所述计算机设备执行上述文本图像语义转换方法。
本申请的文本图像语义转换方法、装置、计算设备、存储介质、及计算机程序产品,由于将文本和图像的语义信息映射到相同特征嵌入空间,根据嵌入空间中距离的远近找到相似替换对,实现文本和图像的语义替换,因此能够帮助智能图像检索系统找到满足约束条件的相似图像,提高图像检索的准确性和效率。
根据下文结合附图对本申请的具体实施例的详细描述,本领域技术人员将会更加明了本申请的上述以及其他目的、优点和特征。
附图说明
后文将参照附图以示例性而非限制性的方式详细描述本申请的一些具体实施例。附图中相同的附图标记标示了相同或类似的部件或部分。本领域技术人员应该理解,这些附图未必是按比例绘制的。附图中:
图1是根据本申请实施例的文本图像语义转换方法的示意性流程;
图2是根据本申请实施例的文本图像语义转换装置的示意性结构框图;
图3是根据本申请实施例的一种计算设备的示意性结构框图;
图4是根据本申请实施例的一种存储介质的示意性结构框图。
具体实施方式
文本图像语义转换需要采用源域和目标域两个数据集。本实施例中,源域数据集为手动创建的文本替换列表,以此来表示具有变化的检索约束条件,替换列表例如“从街道到公园”,“从狗到男孩”等等;目标域数据集采用COCO数据集,该数据集有80K张图像,每个图像中带有5个图像说明文本。本实施例的目的是通过源域的替换列表和目标域的COCO数据集来实现文本和图像的共同嵌入和转换以及对目标域中图像的替换。
首先对本实施例涉及到的一些参数进行定义:源域数据集定义为Ds,目标域数据集定义为Dt,源域和目标域中的数据具有相似底层语义信息,相应的关系为:其中如果i=j那么标签设置为相似。更具体的,源域的转换对定义为:其中,m是指源域数据集中数据的数量,是转换前的特征,是转换后的特征,ti是转换参数。对于目标域来说,本实施的例所述方法的目标是在已知的情况下,检索正确的
图1是根据本申请一个实施例的一种文本图像语义转换方法的流程图,所述方法包括:
S1、提取图像语义信息,提取文本语义信息:
对于图像数据,采用预训练的ResNet-50模型来提取图像语义信息,对于文本数据,采用LSTM(Long Short Term Memory Network,长短时记忆网络)模型来提取文本语义特征。
S2、定义源域和目标域的嵌入函数分别为fs和ft,定义其中,x是原始的文本信息或者图像信息,Ds为源域数据集,Dt为目标域数据集;具体操作时,可以根据f(x)的具体形式推断出fs和ft的具体形式;函数的学习目标是为了判断标记特征及标记特征是否相似,其中ei∈DS,ej∈Dt,标记特征及即为原始数据经过嵌入函数(模型)提取到的语义信息;如果两者在嵌入空间中距离相近,则标记为相似,否则为不相似;
判断是否相似采用距离度量函数,L代表间的距离,,其中,函数fCE的计算过程如下:其中CE(scores,label)是softmax交叉熵函数,pi=s[ai Tb1,ai Tb2,...,ai TbN]。
S3、定义转换函数其中,代表转换后的(e,t),所述的“转换”是指从源域或目标域转换到嵌入空间中,与嵌入函数中的定义一致,t为转换参数,concat( )是串联操作,NN( )是两层前馈网络,对于每个转换对(q,t,r),学习目标是使得接近于并同时在嵌入空间中远离其他特征;
本实施例将文本和图像的语义信息映射到相同特征嵌入空间,根据嵌入空间中距离的远近找到相似替换对,实现文本和图像的语义替换,并通过实验证明了其有效性,能够帮助智能图像检索系统找到满足约束条件的相似图像,提高图像检索的准确性和效率。
文本图像语义转换需要采用源域和目标域两个数据集。本实施例中,源域数据集为手动创建的文本替换列表,以此来表示具有变化的检索约束条件,替换列表例如“从街道到公园”,“从狗到男孩”等等;目标域数据集采用COCO数据集,该数据集有80K张图像,每个图像中带有5个图像说明文本。本实施例的目的是通过源域的替换列表和目标域的COCO数据集来实现文本和图像的共同嵌入和转换以及对目标域中图像的替换。
首先对本实施例涉及到的一些参数进行定义:源域数据集定义为Ds,目标域数据集定义为Dt,源域和目标域中的数据具有相似底层语义信息,相应的关系为:其中如果i=j那么标签设置为相似。更具体的,源域的转换对定义为:其中,m是指源域数据集中数据的数量,是转换前的特征,是转换后的特征,ti是转换参数。对于目标域来说,本实施的例所述方法的目标是在已知的情况下,检索正确的
图2是根据本申请一个实施例的一种文本图像语义转换装置的结构示意图图,所述装置包括:
语义信息提取模块:对于图像数据,采用预训练的ResNet-50模型来提取图像语义信息,对于文本数据,采用LSTM(Long Short Term Memory Network,长短时记忆网络)模型来提取文本语义特征。
共享嵌入模块:定义源域和目标域的嵌入函数分别为fs和ft,定义其中,x是原始的文本信息或者图像信息,Ds为源域数据集,Dt为目标域数据集;具体操作时,可以根据f(x)的具体形式推断出fs和ft的具体形式;函数的学习目标是为了判断标记特征及标记特征是否相似,其中ei∈Ds,ej∈Dt,标记特征及即为原始数据经过嵌入函数(模型)提取到的语义信息;如果两者在嵌入空间中距离相近,则标记为相似,否则为不相似;
判断是否相似采用距离度量函数,L代表间的距离,,其中,函数fCE的计算过程如下:其中CE(scores,label)是softmax交叉熵函数,pi=s[ai Tb1,ai Tb2,...,ai TbN]。
嵌入空间转换转换模块:定义转换函数其中,代表转换后的(e,t),所述的“转换”是指从源域或目标域转换到嵌入空间中,与嵌入函数中的定义一致,t为转换参数,concat( )是串联操作,NN()是两层前馈网络,对于每个转换对(q,t,r),学习目标是使得接近于并同时在嵌入空间中远离其他特征;
本实施例将文本和图像的语义信息映射到相同特征嵌入空间,根据嵌入空间中距离的远近找到相似替换对,实现文本和图像的语义替换,并通过实验证明了其有效性,能够帮助智能图像检索系统找到满足约束条件的相似图像,提高图像检索的准确性和效率。
本申请实施例还提供了一种计算设备,参照图3,该计算设备包括存储器1120、处理器1110和存储在所述存储器1120内并能由所述处理器1110运行的计算机程序,该计算机程序存储于存储器1120中的用于程序代码的空间1130,该计算机程序在由处理器1110执行时实现用于执行任一项根据本发明的方法步骤1131。
本申请实施例还提供了一种存储介质。参照图4,该存储介质包括用于程序代码的存储单元,该存储单元设置有用于执行根据本发明的方法步骤的程序1131′,该程序被处理器执行。
本申请实施例还提供了一种包含指令的计算机程序产品。当该计算机程序产品在计算机上运行时,使得计算机执行根据本发明的方法步骤。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机加载和执行所述计算机程序指令时,全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、获取其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。
专业人员应该还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令处理器完成,所述的程序可以存储于计算机可读存储介质中,所述存储介质是非短暂性(英文:non-transitory)介质,例如随机存取存储器,只读存储器,快闪存储器,硬盘,固态硬盘,磁带(英文:magnetic tape),软盘(英文:floppy disk),光盘(英文:optical disc)及其任意组合。
以上所述,仅为本申请较佳的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应该以权利要求的保护范围为准。
Claims (8)
2.根据权利要求1所述的方法,其特征在于,对于图像数据,f(x)为ResNet-50模型;对于文本数据信息,f(x)指LSTM模型。
4.一种文本图像语义转换装置,包括:
语义信息提取模块,其配置成提取图像语义信息,以及提取文本语义信息;
嵌入空间转换转换模块,其配置成定义转换函数其中,代表转换后的(e,t),t为转换参数,concat( )是串联操作,NN()是两层前馈网络,对于每个转换对(q,t,r),学习目标是使得接近于并同时在嵌入空间中远离其他特征;
5.根据权利要求4所述的装置,其特征在于,对于图像数据,f(x)为ResNet-50模型;对于文本数据信息,f(x)指LSTM模型。
7.一种计算设备,包括存储器、处理器和存储在所述存储器内并能由所述处理器运行的计算机程序,其中,所述处理器执行所述计算机程序时实现如权利要求1-3中任一项所述的方法。
8.一种存储介质,优选为非易失性可读存储介质,其内存储有计算机程序,所述计算机程序在由处理器执行时实现如权利要求1-3中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910913309.2A CN110688515A (zh) | 2019-09-25 | 2019-09-25 | 文本图像语义转换方法、装置、计算设备、及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910913309.2A CN110688515A (zh) | 2019-09-25 | 2019-09-25 | 文本图像语义转换方法、装置、计算设备、及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110688515A true CN110688515A (zh) | 2020-01-14 |
Family
ID=69110295
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910913309.2A Pending CN110688515A (zh) | 2019-09-25 | 2019-09-25 | 文本图像语义转换方法、装置、计算设备、及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110688515A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113240012A (zh) * | 2021-05-14 | 2021-08-10 | 天津大学 | 一种基于二维图像的无监督多视角三维目标检索方法及装置 |
CN113495971A (zh) * | 2020-04-08 | 2021-10-12 | 百度在线网络技术(北京)有限公司 | 一种数据转换模型的优化方法、装置和电子设备 |
CN114581706A (zh) * | 2022-03-02 | 2022-06-03 | 平安科技(深圳)有限公司 | 证件识别模型的配置方法、装置、电子设备、存储介质 |
-
2019
- 2019-09-25 CN CN201910913309.2A patent/CN110688515A/zh active Pending
Non-Patent Citations (1)
Title |
---|
NAM VO 等: "Let’s Transfer Transformations of Shared Semantic Representations", 《ARXIV:1903.00793V1》 * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113495971A (zh) * | 2020-04-08 | 2021-10-12 | 百度在线网络技术(北京)有限公司 | 一种数据转换模型的优化方法、装置和电子设备 |
CN113495971B (zh) * | 2020-04-08 | 2024-05-24 | 百度在线网络技术(北京)有限公司 | 一种数据转换模型的优化方法、装置和电子设备 |
CN113240012A (zh) * | 2021-05-14 | 2021-08-10 | 天津大学 | 一种基于二维图像的无监督多视角三维目标检索方法及装置 |
CN114581706A (zh) * | 2022-03-02 | 2022-06-03 | 平安科技(深圳)有限公司 | 证件识别模型的配置方法、装置、电子设备、存储介质 |
CN114581706B (zh) * | 2022-03-02 | 2024-03-08 | 平安科技(深圳)有限公司 | 证件识别模型的配置方法、装置、电子设备、存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20210081796A1 (en) | Neural architecture search for dense image prediction tasks | |
US20220309762A1 (en) | Generating scene graphs from digital images using external knowledge and image reconstruction | |
CN111079532B (zh) | 一种基于文本自编码器的视频内容描述方法 | |
CN108694225B (zh) | 一种图像搜索方法、特征向量的生成方法、装置及电子设备 | |
CN111324774B (zh) | 一种视频去重方法和装置 | |
WO2021139191A1 (zh) | 数据标注的方法以及数据标注的装置 | |
WO2020102797A1 (en) | Multimodal image classifier using textual and visual embeddings | |
WO2021083111A1 (zh) | 一种水印信息嵌入方法以及装置 | |
Cornia et al. | Explaining digital humanities by aligning images and textual descriptions | |
CN115828112B (zh) | 一种故障事件的响应方法、装置、电子设备及存储介质 | |
CN110688515A (zh) | 文本图像语义转换方法、装置、计算设备、及存储介质 | |
CN108959522B (zh) | 基于半监督对抗生成网络的迁移检索方法 | |
US10733454B2 (en) | Transformation of video streams | |
JP2018501579A (ja) | 画像の内容の意味表現 | |
WO2021212601A1 (zh) | 一种基于图像的辅助写作方法、装置、介质及设备 | |
CN115357747A (zh) | 一种基于序数哈希的图像检索方法及系统 | |
CN117009516A (zh) | 换流站故障策略模型训练方法、推送方法及装置 | |
CN114241411B (zh) | 基于目标检测的计数模型处理方法、装置及计算机设备 | |
Shah et al. | Inferring context from pixels for multimodal image classification | |
CN113377959B (zh) | 基于元学习及深度学习的少样本社交媒体谣言检测方法 | |
CN116257609A (zh) | 基于多尺度文本对齐的跨模态检索方法及系统 | |
CN114595360A (zh) | 一种基于时序特征的同源视频检索方法及系统 | |
CN114329050A (zh) | 视觉媒体数据去重处理方法、装置、设备和存储介质 | |
Hammad et al. | Characterizing the impact of using features extracted from pre-trained models on the quality of video captioning sequence-to-sequence models | |
Ramya et al. | XML based approach for object oriented medical video retrieval using neural networks |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200114 |