CN116128998A - 一种多路并行的文本到图像生成方法和系统 - Google Patents

一种多路并行的文本到图像生成方法和系统 Download PDF

Info

Publication number
CN116128998A
CN116128998A CN202211664553.8A CN202211664553A CN116128998A CN 116128998 A CN116128998 A CN 116128998A CN 202211664553 A CN202211664553 A CN 202211664553A CN 116128998 A CN116128998 A CN 116128998A
Authority
CN
China
Prior art keywords
image
text
model
generation
different
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211664553.8A
Other languages
English (en)
Inventor
彭宇新
叶钊达
何相腾
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Peking University
Original Assignee
Peking University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Peking University filed Critical Peking University
Priority to CN202211664553.8A priority Critical patent/CN116128998A/zh
Priority to PCT/CN2022/141736 priority patent/WO2024130753A1/zh
Publication of CN116128998A publication Critical patent/CN116128998A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • G06T11/60Editing figures and text; Combining figures or text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • G06T3/4053Scaling of whole images or parts thereof, e.g. expanding or contracting based on super-resolution, i.e. the output image resolution being higher than the sensor resolution
    • G06T3/4076Scaling of whole images or parts thereof, e.g. expanding or contracting based on super-resolution, i.e. the output image resolution being higher than the sensor resolution using the original low-resolution images to iteratively correct the high-resolution images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • G06T7/55Depth or shape recovery from multiple images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10024Color image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20212Image combination
    • G06T2207/20221Image fusion; Image merging

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及一种多路并行的文本到图像生成方法和系统。该方法包括以下步骤:1.利用预训练模型提取文本跨模态语义表征,并输入到循环神经网络,根据图像生成模型中分支的数量输出相同长度的文本条件向量序列。2.将不同的文本条件向量输入不同分支的生成网络模块中,根据不同生成策略生成相应的图像。3.根据图像空间深度预测模型输出的深度信息,赋予不同分支的生成图像不同权重,融合不同分支的生成结果。4.在训练阶段,通过构建判别模型对图像生成模型、空间深度预测模型实现基于对抗的模型训练。本发明针对不同图像内容特点学习不同的生成参数与策略,能够有效降低文本到图像生成方法的图像结果中的局部失真与形变。

Description

一种多路并行的文本到图像生成方法和系统
技术领域
本发明涉及图像生成领域,具体涉及一种多路并行的文本到图像生成方法和系统。
背景技术
文本到图像生成是使计算机能够根据用户给定的自然语言文本描述(语音识别、图像OCR、文字输入等)从无到有地自动生成语义一致、内容真实且符合逻辑的图像视觉内容。
在现有技术中,一些方法通过检索技术获得与文本描述相关的视觉内容,通过组合与拼接生成视觉内容。例如Wang等人提出Write-A-Video技术(Miao Wang,et.al.,Write-A-Video:Computational Video Montage from Themed Text,ACM Transactionson Graphics,2019),可以根据用户输入的文字,搜索与文本描述相匹配的候选视频镜头并自动组合与剪辑视频。该类以检索为核心的生成技术,主要通过分析文本描述与已有视觉内容的相似性,检索得到相似的已有视觉内容,很难满足用户个性化、多样化的需求。另外一类方法是通过设计不同的生成网络结构将文本信息映射到图像空间中,实现文本到图像生成。例如,Reed等人(Scott E.Reed,et.al.,Learning What and Where to Draw,AnnualConference on Neural Information Processing Systems,2016)提出了基于文本流形插值与图文匹配的生成式对抗网络方法,以文本语义向量作为生成模型的输入,并通过图文匹配约束使得文本与生成图像保持语义一致性,实现了文本到图像的生成。Zhang等人(Zizhao Zhang,et.al.,Photographic Text-to-Image Synthesis WithaHierarchically-Nested Adversarial Network,IEEE Conference on Computer Visionand Pattern Recognition,2018)提出一种具有层次结构的生成式对抗网络,能够将生成的低分辨率图像扩展到高分辨率图像。
然而,上述方法都没有考虑生成内容自身的性质,采用统一的网络结构与参数生成不同的图像内容,导致生成模型未能有效建模部分图像区域内容,生成的图像中存在局部失真、扭曲等情况。
发明内容
本发明针对上述问题,提出了一种多路并行的文本到图像生成方法,通过并行的生成结构,针对不同图像内容特点学习不同的生成参数与策略,能够有效降低生成结果中的局部失真与形变。
为达到以上目的,本发明采用的技术方案如下:
一种多路并行的文本到图像生成方法,包括以下步骤:
(1)利用预训练文本图像关联模型提取文本跨模态语义特征,并通过循环神经网络将文本跨模态语义特征进行解耦,得到文本条件向量序列;
(2)将不同的文本条件向量输入图像生成模型中不同分支的生成网络模块中,使得不同分支的生成网络模块能够根据不同生成策略生成图像;
(3)利用空间深度预测模型预测生成的图像的空间深度信息,给不同分支的生成网络模块生成的图像赋予相应的权重,将不同分支的生成网络模块生成的图像融合为一张图像。
进一步,上述方法中,在训练阶段,构建判别模型实现对抗训练:通过区分图像生成模型生成的图像与真实成对的图像,提高图像生成模型的生成质量;通过区分空间深度预测模型预测的图像的空间深度信息与提取的真实图像的空间深度信息,提高空间深度预测模型的准确率。
进一步,上述方法中,步骤(1)中的文本跨模态语义特征具体为预训练文本图像关联模型(例如CLIP)的文本编码模块中间特征。并采用了基于循环神经网络的深度模型,将文本跨模态语义特征输入到循环神经网络,根据图像生成模型中分支的数量,输出相同数量的文本条件向量。
进一步,上述方法中,步骤(2)的图像生成模型中不同分支的生成网络模块,采用了基于StyleGAN的多级图生成模型,以对应的文本条件向量和上阶段生成的图像结果作为输入,从低分辨率到高分辨率逐级生成图像。多级图生成模型生成的图像像素通过残差累加的形式得到最终的图像:
imgk=Upsample(imgk-1)+RGBk
其中imgk表示第k级生成的图像,RGBk表示当前阶段生成的内容,Upsample表示上采样操作。
进一步,上述方法中,步骤(3)采用了空间深度预测模型预测生成的图像的空间深度信息,然后利用预测的空间深度信息,将不同分支的生成网络模块生成的图像融合为一张图像。针对不同分支的生成网络模块生成的第k级图像像素信息
Figure BDA0004014252390000021
其中n为分支的数量;其融合方式可公式化为:
Figure BDA0004014252390000022
其中dhk为空间深度预测模型生成的第k级图像的空间深度信息,FC*为权重映射网络,Cov2D为卷积操作,用于实现图像像素融合。
进一步,上述方法中,在训练阶段,针对图像生成模型,判别模型旨在区分图像生成模型的结果与真实成对的图像-文本对数据,其提供的损失函数为:
Figure BDA0004014252390000031
其中第一项为无条件向量的损失函数,其目的在于评价图像的生成质量,其第二项为基于文本条件向量的损失函数,其目的在于评价图像与文本的语义一致性。Di表示图像判别器,Dt表示基于文本条件向量的图像判别器,Isa表示文本条件向量,x表示图像样本,Ex~Real表示图像样本来源于真实图像时的期望,Ex~G表示图像样本来源于生成图像时的期望。
进一步,上述方法中,在训练阶段,针对空间深度预测模型,判别模型旨在区分空间深度预测模型的预测结果与真实图像提取的空间深度信息,其损失函数为:
Figure BDA0004014252390000032
其中x表示图像,depth表示空间深度预测模型,Ddep表示图像深度判别器,GT表示基于图像提取的深度信息。
进一步,本发明提出一种多路并行的文本到图像生成系统,其包括:
文本特征提取模块,负责利用预训练文本图像关联模型提取文本跨模态语义特征,并输入到循环神经网络,根据图像生成模型中分支的数量输出相同数量的文本条件向量;
多路图像生成模块,负责将不同的文本条件向量输入图像生成模型中不同分支的生成网络模块中,使得不同分支的生成网络模块能够根据不同生成策略生成图像;
图像空间深度预测模块,负责利用空间深度预测模型预测生成的图像的空间深度信息,给不同分支的生成网络模块生成的图像赋予相应的权重,将不同分支的生成网络模块生成的图像融合为一张图像。
本发明的效果在于与现有方法相比,本方法考虑生成图像内容自身的性质差异性,针对不同图像内容特点学习不同的生成参数与策略,能够有效降低文本到图像生成方法的图像结果中的局部失真与形变。
本方法之所以具有上述发明效果,其原因在于:本方法通过并行的生成结构针对不同图像内容特点学习不同的生成参数与策略。此外,方法引入了图像的空间深度信息帮助生成模型分析和解耦图像内容,为多路图像生成结果的融合提供依据,进一步降低了生成模型生成过程中出现局部失真与形变的概率。
附图说明
图1是本发明的多路并行的文本到图像生成方法流程图。
图2是本发明的网络结构细节图,其中Conv 3x3表示卷积核大小为3x3的卷积操作,AdaIn表示基于图像的均值和标准差的仿射变换。
具体实施方式
下面结合附图和具体实施例对本发明作进一步的详细描述。
本发明的多路并行的文本到图像生成方法,其流程如图1所示,包含以下步骤:
(1)利用预训练文本图像关联模型提取文本跨模态语义特征,并输入到循环神经网络,根据生成网络即图像生成模型中分支的数量生成相同数量的文本条件向量。
(2)将步骤(1)中不同的文本条件向量分别输入不同分支的多级生成网络模块中,根据学习到的不同生成策略生成相应的图像。
如图2所示,步骤(2)中的文本条件向量输入多级图生成模型(例如StyleGAN),以上阶段的生成图像和文本条件向量作为输入生成相应的图像,从低分辨率到高分辨率逐级生成图像。多级图生成模型生成的图像像素通过残差累加的形式得到最终的图像。
imgk=Upsample(imgk-1)+RGBk
其中imgk表示第k级生成的图像,RGBk表示当前阶段生成的内容,Upsample表示上采样操作。
(3)利用空间深度预测网络预测生成图像的深度信息,赋予不同模块分支的生成像素相应权重,并融合不同分支的生成结果。
针对不同模块生成的第k级图像像素信息
Figure BDA0004014252390000041
其融合结果方式可公式化为:
Figure BDA0004014252390000042
其中dhk为空间深度预测模型生成的第k级图像的空间深度信息,FC*为权重映射网络,Cov2D为卷积操作,用于实现图像像素融合。
(4)在训练阶段,通过构建判别模型实现基于对抗的模型训练。
其中利用成对的图像-文本对数据,判别模型通过区分图像生成模型的图像与真实图像的区别,提高生成模型的性能。针对生成模型,判别模型旨在区分图像生成模型的结果与真实图像,其训练的损失函数为:
Figure BDA0004014252390000051
其中第一项为无条件向量的损失函数,其目的在于评价图像的生成质量,其第二项为基于文本条件向量的损失函数,其目的在于评价图像与文本的语义一致性。Di表示图像判别器,Dt表示基于文本条件向量的图像判别器,Isa表示文本条件向量,x表示图像样本,Ex~Real表示图像样本来源于真实图像时的期望,Ex~G表示图像样本来源于生成图像时的期望。
针对空间深度预测模型,利用提取的真实图像空间深度信息,判别模型通过区分空间深度预测模型的预测结果与真实图像中提取的空间深度信息,提高空间深度预测模型的准确率,其训练损失函数为:
Figure BDA0004014252390000052
其中x表示图像,depth表示空间深度预测模型,Ddep表示图像深度判别器,GT表示基于图像提取的深度信息。
(5)在生成阶段,基于跨模态文本图像关联模型的文本编码模块提取用户输入文本的表征,采用步骤2和3中相同的方法,生成与用户输入文本语义一致的图像。
本实施例采用CUB数据集进行实验,该数据集由文献“The CALTECH-UCSD birds-200-2011dataset”(作者C.Wah等人)提出。我们测试了以下3种方法作为实验对比:
现有方法一:文献“Stackgan:Text to photo-realistic image synthesis withstacked generative adversarial networks”(作者Zhang H等人)中的StackGAN方法。
现有方法二:文献“Attngan:Fine-grained text to image generation withattentional generative adversarial networks”(作者Xu T等人)中的AttnGAN方法。
现有方法三:文献“Lafite:Towards language-free training for text-to-image generation”(作者Zhou Y等人)中的LAFITE方法。
本发明:本实施例的方法。
在评价指标上,IS常用于表示图像内容的可分辨程度,分值越高越好。对于一张清晰的图像,它属于某一类的概率应该非常大,而属于其它类的概率应该很小;越清晰的图像,与所有图像概率向量的均值差异越大。而FID常用于表示图像内容的生成质量,数值越低越好。对于一张高质量生成图像,它与真实图像在视觉特征具有高度的相似性;质量越高的图像,其视觉特征的统计分布与真实图像视觉特征统计分布越接近。
从表1可以看出,本方法在IS和FID指标上相比对比方法具有提升,这表明方法通过学习不同的生成策略能有效提高模型对图像生成的质量。三种现有方法都没有考虑生成内容自身的性质,采用统一的网络结构与参数生成不同的图像内容。由于生成模型未能有效建模部分图像区域内容,导致生成的图像中存在局部失真、扭曲的情况。本发明通过并行的生成结构,针对不同图像内容特点学习不同的生成参数与策略,取得了更好的生成效果。
表1.各方法在CUB数据集上的实验结果
Figure BDA0004014252390000061
本发明的另一实施例提供一种多路并行的文本到图像生成系统,其包括:
文本特征提取模块,负责利用预训练文本图像关联模型提取文本跨模态语义特征,并输入到循环神经网络,根据图像生成模型中分支的数量输出相同数量的文本条件向量;
多路图像生成模块,负责将不同的文本条件向量输入图像生成模型中不同分支的生成网络模块中,使得不同分支的生成网络模块能够根据不同生成策略生成图像;
图像空间深度预测模块,负责利用空间深度预测模型预测生成的图像的空间深度信息,给不同分支的生成网络模块生成的图像赋予相应的权重,将不同分支的生成网络模块生成的图像融合为一张图像。
其中各模块的具体实施过程参见前文对本发明方法的描述。
本发明的另一实施例提供一种计算机设备(计算机、服务器、智能手机等),其包括存储器和处理器,所述存储器存储计算机程序,所述计算机程序被配置为由所述处理器执行,所述计算机程序包括用于执行本发明方法中各步骤的指令。
本发明的另一实施例提供一种计算机可读存储介质(如ROM/RAM、磁盘、光盘),所述计算机可读存储介质存储计算机程序,所述计算机程序被计算机执行时,实现本发明方法的各个步骤。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (10)

1.一种多路并行的文本到图像生成方法,包括以下步骤:
利用预训练文本图像关联模型提取文本跨模态语义特征,并通过循环神经网络将文本跨模态语义特征进行解耦,得到文本条件向量序列;
将不同的文本条件向量输入图像生成模型中不同分支的生成网络模块中,使得不同分支的生成网络模块能够根据不同生成策略生成图像;
利用空间深度预测模型预测生成的图像的空间深度信息,给不同分支的生成网络模块生成的图像赋予相应的权重,将不同分支的生成网络模块生成的图像融合为一张图像。
2.如权利要求1所述的方法,其特征在于,在训练阶段,构建判别模型实现对抗训练:通过区分图像生成模型生成的图像与真实成对的图像,提高图像生成模型的生成质量;通过区分空间深度预测模型预测的图像的空间深度信息与提取的真实图像的空间深度信息,提高空间深度预测模型的准确率。
3.如权利要求1所述的方法,其特征在于,所述文本跨模态语义特征具体为预训练文本图像关联模型中文本编码模块的中间特征,并采用了基于循环神经网络的深度模型,将文本跨模态语义特征输入到循环神经网络,生成与图像生成模型中分支的数量相同的文本条件向量。
4.如权利要求1所述的方法,其特征在于,所述图像生成模型中不同分支的生成网络模块,采用多级图生成模型,以对应的文本条件向量和前一阶段生成的图像作为输入,从低分辨率到高分辨率逐级生成图像;多级图生成模型生成的像素通过残差累加的形式得到最终的图像:
imgk=Upsample(imgk-1)+RGBk
其中,imgk表示第k级生成的图像,RGBk表示当前阶段生成的内容,Upsample表示上采样操作。
5.如权利要求1所述方法,其特征在于,所述空间深度预测模型针对不同分支的生成网络模块生成的第k级图像像素信息
Figure FDA0004014252380000011
其融合方式公式化为:
Figure FDA0004014252380000012
其中,dhk为空间深度预测模型生成的第k级图像的空间深度信息,FC*为权重映射网络,Cov2D为卷积操作,用于实现图像像素融合。
6.如权利要求1所述方法,其特征在于,在训练阶段,针对图像生成模型,判别模型旨在区分图像生成模型的结果与真实图像的差异,其用于训练的损失函数为:
Figure FDA0004014252380000021
其中,第一项为无条件向量的损失函数,其目的在于评价图像的生成质量;第二项为基于文本条件向量的损失函数,其目的在于评价图像与文本的语义一致性;Di表示图像判别器,Dt表示基于文本条件向量的图像判别器,Isa表示文本条件向量,x表示图像样本,Ex~Real表示图像样本来源于真实图像时的期望,Ex~G表示图像样本来源于生成图像时的期望。
7.如权利要求1所述方法,其特征在于,在训练阶段,针对空间深度预测模型,判别模型旨在区分空间深度预测模型的预测结果与真实图像提取的空间深度信息,其损失函数为:
Figure FDA0004014252380000022
其中,x表示图像,depth表示空间深度预测模型,Ddep表示图像深度判别器,GT表示基于图像提取的深度信息。
8.一种多路并行的文本到图像生成系统,其特征在于,包括:
文本特征提取模块,负责利用预训练文本图像关联模型提取文本跨模态语义特征,并输入到循环神经网络,根据图像生成模型中分支的数量输出相同数量的文本条件向量;
多路图像生成模块,负责将不同的文本条件向量输入图像生成模型中不同分支的生成网络模块中,使得不同分支的生成网络模块能够根据不同生成策略生成图像;
图像空间深度预测模块,负责利用空间深度预测模型预测生成的图像的空间深度信息,给不同分支的生成网络模块生成的图像赋予相应的权重,将不同分支的生成网络模块生成的图像融合为一张图像。
9.一种计算机设备,其特征在于,包括存储器和处理器,所述存储器存储计算机程序,所述计算机程序被配置为由所述处理器执行,所述计算机程序包括用于执行权利要求1~7中任一项所述方法的指令。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储计算机程序,所述计算机程序被计算机执行时,实现权利要求1~7中任一项所述的方法。
CN202211664553.8A 2022-12-23 2022-12-23 一种多路并行的文本到图像生成方法和系统 Pending CN116128998A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202211664553.8A CN116128998A (zh) 2022-12-23 2022-12-23 一种多路并行的文本到图像生成方法和系统
PCT/CN2022/141736 WO2024130753A1 (zh) 2022-12-23 2022-12-25 一种多路并行的文本到图像生成方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211664553.8A CN116128998A (zh) 2022-12-23 2022-12-23 一种多路并行的文本到图像生成方法和系统

Publications (1)

Publication Number Publication Date
CN116128998A true CN116128998A (zh) 2023-05-16

Family

ID=86309314

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211664553.8A Pending CN116128998A (zh) 2022-12-23 2022-12-23 一种多路并行的文本到图像生成方法和系统

Country Status (2)

Country Link
CN (1) CN116128998A (zh)
WO (1) WO2024130753A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116883528A (zh) * 2023-06-12 2023-10-13 阿里巴巴(中国)有限公司 图像生成方法及装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116883528A (zh) * 2023-06-12 2023-10-13 阿里巴巴(中国)有限公司 图像生成方法及装置

Also Published As

Publication number Publication date
WO2024130753A1 (zh) 2024-06-27

Similar Documents

Publication Publication Date Title
Ma et al. TS-LSTM and temporal-inception: Exploiting spatiotemporal dynamics for activity recognition
Agnese et al. A survey and taxonomy of adversarial neural networks for text‐to‐image synthesis
CN110322446B (zh) 一种基于相似性空间对齐的域自适应语义分割方法
CN111581961B (zh) 一种中文视觉词汇表构建的图像内容自动描述方法
Shi et al. An end-to-end trainable neural network for image-based sequence recognition and its application to scene text recognition
CN111738169B (zh) 一种基于端对端网络模型的手写公式识别方法
Shen et al. FEXNet: Foreground extraction network for human action recognition
CN114495129B (zh) 文字检测模型预训练方法以及装置
CN114119975A (zh) 一种语言引导的跨模态实例分割方法
CN113392265A (zh) 多媒体处理方法、装置及设备
CN114691864A (zh) 文本分类模型训练方法及装置、文本分类方法及装置
Gupta et al. [Retracted] CNN‐LSTM Hybrid Real‐Time IoT‐Based Cognitive Approaches for ISLR with WebRTC: Auditory Impaired Assistive Technology
CN116049450A (zh) 一种基于距离聚类的支持多模态的图文检索方法及装置
CN115033736A (zh) 一种自然语言指导的视频摘要方法
CN116933051A (zh) 一种用于模态缺失场景的多模态情感识别方法及系统
CN116561305A (zh) 基于多模态和transformer的假新闻检测方法
CN110347853B (zh) 一种基于循环神经网络的图像哈希码生成方法
CN117251795A (zh) 基于自适应融合的多模态虚假新闻检测方法
CN116128998A (zh) 一种多路并行的文本到图像生成方法和系统
Le et al. Multi visual and textual embedding on visual question answering for blind people
Li A deep learning-based text detection and recognition approach for natural scenes
Bacharidis et al. Improving deep learning approaches for human activity recognition based on natural language processing of action labels
CN117056474A (zh) 会话应答方法和装置、电子设备、存储介质
CN116975347A (zh) 图像生成模型训练方法及相关装置
CN116910683A (zh) 一种基于事件依赖的多模态虚假新闻检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination