CN116503517A - 长文本生成图像的方法及系统 - Google Patents

长文本生成图像的方法及系统 Download PDF

Info

Publication number
CN116503517A
CN116503517A CN202310764770.2A CN202310764770A CN116503517A CN 116503517 A CN116503517 A CN 116503517A CN 202310764770 A CN202310764770 A CN 202310764770A CN 116503517 A CN116503517 A CN 116503517A
Authority
CN
China
Prior art keywords
preset
text
features
feature map
fusion
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202310764770.2A
Other languages
English (en)
Other versions
CN116503517B (zh
Inventor
杨文姬
安航
杨振姬
马欣欣
钱文彬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiangxi Agricultural University
Original Assignee
Jiangxi Agricultural University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiangxi Agricultural University filed Critical Jiangxi Agricultural University
Priority to CN202310764770.2A priority Critical patent/CN116503517B/zh
Publication of CN116503517A publication Critical patent/CN116503517A/zh
Application granted granted Critical
Publication of CN116503517B publication Critical patent/CN116503517B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • G06T11/60Editing figures and text; Combining figures or text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/126Character encoding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • G06N3/0442Recurrent networks, e.g. Hopfield networks characterised by memory or gating, e.g. long short-term memory [LSTM] or gated recurrent units [GRU]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T17/00Three dimensional [3D] modelling, e.g. data description of 3D objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/50Image enhancement or restoration using two or more images, e.g. averaging or subtraction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/761Proximity, similarity or dissimilarity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20212Image combination
    • G06T2207/20221Image fusion; Image merging
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Biophysics (AREA)
  • Multimedia (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Computer Graphics (AREA)
  • Geometry (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Processing Or Creating Images (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供了一种长文本生成图像的方法及系统,该方法包括:在潜在空间中随机获取一特征向量,并将所述特征向量输入至预设全连接层中,以生成对应的初始特征图;通过预设融合块和预设融合器将预设长文本特征对应融合至所述初始特征图中,以生成对应的中间特征图;依次通过预设卷积层和预设激活层对所述中间特征图进行图像化处理,以生成对应的目标图像,所述目标图像包含所述预设长文本特征中的特征元素。通过上述方式能够将外界的长文本特征对应融合至随机生成的初始特征图中,并最终根据该初始特征图生成需要的目标图像,并且该目标图像包含与上述长文本特征对应的特征元素,即对应的场景图像。

Description

长文本生成图像的方法及系统
技术领域
本发明涉及数据处理技术领域,特别涉及一种长文本生成图像的方法及系统。
背景技术
场景设计主要是指动画影视片中的一切事务的造型设计,即是一种具有空间层次感的场面构图。现有的场景设计师在进行场景设计的过程中,都需要使用专门的场景设计软件,以制作出高质量的景观图像以及动画。
其中,现有技术大部分通过编辑特定的文本,并将该文本输入至场景设计软件中,以生成对应的场景图像,用于后续方案的预览以及评估。
然而,现有技术大部分只能处理用户输入的短文本,而对长文本的处理能力不足,导致不能生成与用户输入的长文本相对应的场景图像,同时生成的场景图像缺乏细节以及多样性,从而对应降低了用户的使用体验。
发明内容
基于此,本发明的目的是提供一种长文本生成图像的方法及系统,以解决现有技术大部分只能处理用户输入的短文本,而对长文本的处理能力不足,导致不能生成与用户输入的长文本相对应的场景图像,同时生成的场景图像缺乏细节以及多样性,从而对应降低了用户的使用体验的问题。
本发明实施例第一方面提出了一种长文本生成图像的方法,所述方法包括:
在潜在空间中随机获取一特征向量,并将所述特征向量输入至预设全连接层中,以生成对应的初始特征图;
通过预设融合块和预设融合器将预设长文本特征对应融合至所述初始特征图中,以生成对应的中间特征图;
依次通过预设卷积层和预设激活层对所述中间特征图进行图像化处理,以生成对应的目标图像,所述目标图像包含所述预设长文本特征中的特征元素。
本发明的有益效果是:通过在潜在空间中随机获取一特征向量,并将所述特征向量输入至预设全连接层中,以生成对应的初始特征图;进一步的,通过预设处理模块将预设长文本特征对应融合至所述初始特征图中,以生成对应的中间特征图;最后只需依次通过预设卷积层和预设激活层对所述中间特征图进行图像化处理,以生成对应的目标图像,所述目标图像包含所述预设长文本特征中的特征元素。通过上述方式能够将外界的长文本特征对应融合至随机生成的初始特征图中,并最终根据融合后的初始特征图生成需要的目标图像,并且该目标图像包含与上述长文本特征对应的特征元素,即对应的场景图像,从而能够满足用户的使用需求,对应提升了用户的使用体验。
优选的,所述通过预设处理模块将预设长文本特征对应融合至所述初始特征图中的步骤包括:
识别出所述预设长文本特征中的特性文本、元素文本以及指令文本,并分别将所述特性文本、所述元素文本以及所述指令文本对应输入至所述预设的特性文本编码器、元素文本编码器以及指令文本编码器中;
通过所述特性文本编码器和所述元素文本编码器分别对所述特性文本以及所述元素文本进行双向长短时记忆网络编码,以分别生成对应的特性文本特征以及元素文本特征,并通过所述指令文本编码器对所述指令文本进行层次化长短时记忆网络编码,以生成对应的指令文本特征;
将所述特性文本特征、所述元素文本特征以及所述指令文本特征分别对应融合至所述初始特征图中。
优选的,所述将所述特性文本特征、所述元素文本特征以及所述指令文本特征分别对应融合至所述初始特征图中的步骤包括:
将所述特性文本特征和所述元素文本特征同时输入至预设元素特性融合块中,以生成对应的元素特性特征,并将所述元素文本特征以及所述指令文本特征输入至预设指令元素融合块中,以生成对应的指令元素特征;
将所述元素特性特征以及所述指令元素特征对应输入至所述初始特征图中,以对所述初始特征图进行融合处理。
优选的,所述将所述元素特性特征以及所述指令元素特征对应输入至所述初始特征图中,以对所述初始特征图进行融合处理的步骤包括:
将所述元素特性特征以及所述初始特征图同时输入至预设元素特性融合块中,并通过所述预设元素特性融合快中的元素特性仿射变换以及所述元素特性特征对所述初始特征图进行通道仿射变换处理;
将所述特性文本特征、所述元素文本特征以及通道仿射变换处理后的初始特征图输入至预设第一步骤要素融合器中,以将所述特性文本特征、所述元素文本特征分步骤要素融入生成对应的中间特征图,并将所述中间特征图通过所述预设元素特性融合快和所述预设第一步骤要素融合器三次融合处理后得到第一融合特征图;
将所述第一融合特征图输入至预设指令元素融合块中,并通过指令元素仿射变换以及所述指令元素特征对所述初始特征图进行通道仿射变换处理;
将所述元素文本特征、所述指令文本特征以及通道仿射变换处理后的初始特征图同时输入至预设第二步骤要素融合器中,以将所述元素文本特征、所述指令文本特征分步骤要素融入生成对应的所述中间特征图,并将所述中间特征图通过所述预设指令元素融合块和所述预设第二步骤要素融合器三次融合处理后得到第二融合特征图,以将所述第一融合特征图和所述第二融合特征图经过卷积和激活形成目标图像。
优选的,所述依次通过预设卷积层和预设激活层对所述第二融合特征图进行图像化处理,以生成对应的目标图像的步骤之后,所述方法还包括:
当获取到所述目标图像时,将所述目标图像传输至若干个下采样块中,以获取到对应的采样图像;
将所述采样图像输入至空间注意力模型中,以使所述空间注意力模型输出对应的图像特征;
根据所述图像特征判断出所述目标图像的真假。
优选的,所述方法还包括:
建立与预设显示终端的无线通讯连接,并将所述目标图像转换成对应的显示信号,所述显示信号与所述预设显示终端适配;
将所述显示信号传输至所述预设显示终端内,以在所述预设显示终端内实时显示出所述目标图像。
优选的,所述目标图像由若干个步骤要素融合特征图组成,所述步骤要素融合特征图包含若干个特征通道,每一所述特征通道均具有唯一性。
本发明实施例第二方面提出了一种长文本生成图像的系统,所述系统包括:
获取模块,用于在潜在空间中随机获取一特征向量,并将所述特征向量输入至预设全连接层中,以生成对应的初始特征图;
第一处理模块,用于通过预设融合块和预设融合器将预设长文本特征对应融合至所述初始特征图中,以生成对应的中间特征图;
第二处理模块,用于依次通过预设卷积层和预设激活层对所述中间特征图进行图像化处理,以生成对应的目标图像,所述目标图像包含所述预设长文本特征中的特征元素。
其中,上述长文本生成图像的系统中,所述第一处理模块具体用于:
识别出所述预设长文本特征中的特性文本、元素文本以及指令文本,并分别将所述特性文本、所述元素文本以及所述指令文本对应输入至所述预设的特性文本编码器、元素文本编码器以及指令文本编码器中;
通过所述特性文本编码器和所述元素文本编码器分别对所述特性文本以及所述元素文本进行双向长短时记忆网络编码,以分别生成对应的特性文本特征以及元素文本特征,并通过所述指令文本编码器对所述指令文本进行层次化长短时记忆网络编码,以生成对应的指令文本特征;
将所述特性文本特征、所述元素文本特征以及所述指令文本特征分别对应融合至所述初始特征图中。
其中,上述长文本生成图像的系统中,所述第一处理模块还具体用于:
将所述特性文本特征和所述元素文本特征同时输入至预设元素特性融合块中,以生成对应的元素特性特征,将元素特性特征继续在所述预设元素特性融合块中处理生成中间特征图,并将所述中间特征图以及所述特性文本特征和元素文本特征同时输入至预设第一步骤要素融合器中,以生成对应的步骤要素融合特征图;
将所述元素文本特征和所述指令文本特征同时输入至预设指令元素融合块中,以生成对应的指令元素特征,将指令元素特征继续在所述预设指令元素融合块中处理生成中间特征图,并将所述中间特征图以及所述指令文本特征和元素文本特征同时输入至预设第二步骤要素融合器中,以生成对应的步骤要素融合特征图;
其中,上述长文本生成图像的系统中,所述第一处理模块还具体用于:
将所述元素特性特征以及所述初始特征图同时输入至预设元素特性融合块中,并通过所述预设元素特性融合块中的元素特性仿射变换以及所述元素特性特征对所述初始特征图进行通道仿射变换处理;
将所述特性文本特征、所述元素文本特征以及通道仿射变换处理后的初始特征图同时输入至预设第一步骤要素融合器中,以将所述特性文本特征、所述元素文本特征分步骤要素融入生成对应的中间特征图,并将所述中间特征图通过所述预设元素特性融合块和所述预设第一步骤要素融合器三次融合处理后得到第一融合特征图;
将所述第一融合特征图输入至预设指令元素融合块中,并通过指令元素仿射变换以及所述指令元素特征对所述初始特征图进行通道仿射变换处理;
将所述元素文本特征、所述指令文本特征以及通道仿射变换处理后的初始特征图同时输入至预设第二步骤要素融合器中,以将所述元素文本特征、所述指令文本特征分步骤要素融入生成对应的所述中间特征图,并将所述中间特征图通过所述预设指令元素融合块和所述预设第二步骤要素融合器三次融合处理后得到第二融合特征图,以将所述第一融合特征图和所述第二融合特征图经过卷积和激活形成目标图像。
其中所述的第一步骤要素融合器中的要素特征代表特性文本特征、步骤特征代表元素文本特征、第二步骤要素融合器中的要素特征代表元素文本特征、步骤特征代表指令文本特征。
其中,上述长文本生成图像的系统中,所述长文本生成图像的系统还包括判断模块,所述判断模块具体用于:
当获取到所述目标图像时,将所述目标图像传输至若干个下采样块中,以获取到对应的采样图像;
将所述采样图像输入至空间注意力模型中,以使所述空间注意力模型输出对应的图像特征;
根据所述图像特征判断出所述目标图像的真假。
其中,上述长文本生成图像的系统中,所述长文本生成图像的系统还包括显示模块,所述显示模块具体用于:
建立与预设显示终端的无线通讯连接,并将所述目标图像转换成对应的显示信号,所述显示信号与所述预设显示终端适配;
将所述显示信号传输至所述预设显示终端内,以在所述预设显示终端内实时显示出所述目标图像。
其中,上述长文本生成图像的系统中,所述目标图像由若干个步骤要素融合特征图组成,所述步骤要素融合特征图包含若干个特征通道,每一所述特征通道均具有唯一性。
本发明实施例第三方面提出了一种计算机,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上面所述的长文本生成图像的方法。
本发明实施例第四方面提出了一种可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上面所述的长文本生成图像的方法。
本发明的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
图1为本发明第一实施例提供的长文本生成图像的方法的流程图;
图2为本发明第二实施例提供的长文本生成图像的方法中的步骤要素融合器的控制原理图;
图3为本发明第二实施例提供的长文本生成图像的方法中的预设元素特性融合块的处理流程图;
图4为本发明第二实施例提供的长文本生成图像的方法中的预设指令元素融合块的处理流程图;
图5为本发明第三实施例提供的长文本生成图像的系统的结构框图。
如下具体实施方式将结合上述附图进一步说明本发明。
具体实施方式
为了便于理解本发明,下面将参照相关附图对本发明进行更全面的描述。附图中给出了本发明的若干实施例。但是,本发明可以以许多不同的形式来实现,并不限于本文所描述的实施例。相反地,提供这些实施例的目的是使对本发明的公开内容更加透彻全面。
需要说明的是,当元件被称为“固设于”另一个元件,它可以直接在另一个元件上或者也可以存在居中的元件。当一个元件被认为是“连接”另一个元件,它可以是直接连接到另一个元件或者可能同时存在居中元件。本文所使用的术语“垂直的”、“水平的”、“左”、“右”以及类似的表述只是为了说明的目的。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本发明。本文所使用的术语“及/或”包括一个或多个相关的所列项目的任意的和所有的组合。
现有技术大部分只能处理用户输入的短文本,而对长文本的处理能力不足,导致不能生成与用户输入的长文本相对应的场景图像,同时生成的场景图像缺乏细节以及多样性,从而对应降低了用户的使用体验。
请参阅图1,所示为本发明第一实施例提供的长文本生成图像的方法,本实施例提供的长文本生成图像的方法能够将外界的长文本特征对应融合至随机生成的初始特征图中,并最终根据该初始特征图生成需要的目标图像,并且该目标图像包含与上述长文本特征对应的特征元素,即对应的场景图像,从而能够满足用户的使用需求,对应提升了用户的使用体验。
具体的,本实施例提供的长文本生成图像的方法具体包括以下步骤:
步骤S10,在潜在空间中随机获取一特征向量,并将所述特征向量输入至预设全连接层中,以生成对应的初始特征图;
具体的,在本实施例中,首先需要说明的是,本实施例提供的长文本生成图像的方法具体应用在各类景观设计软件中,用于实时根据用户输入的长文本生成对应的场景图像,基于此,可进一步对实时生成的场景图像进行优化,以提升工作效率。
另外,在本实施例中,还需要指出的是,本实施例提供的长文本生成图像的方法是基于设置在后台的文本编码器、生成器以及鉴别器实施的,其中,本实施例提供的文本编码器还具体包括特性文本编码器、元素文本编码器以及指令文本编码器,并且本实施例提供的编码器都是经过预训练的,即可以直接使用,以完成对文本的编码。
基于此,在本步骤中,需要说明的是,本步骤会首先在现有的潜在空间中随机获取一个特征向量,具体的,该特征向量具有服从高斯分布的特性,进一步的,本步骤会进一步将当前特征向量输入至预先设置好的全连接层中,以使该全连接层能够输出对应的初始特征图,其中,需要指出的是,本实施例提供的特征向量的范围为0至1之间。
步骤S20,通过预设融合块和预设融合器将预设长文本特征对应融合至所述初始特征图中,以生成对应的中间特征图;
进一步的,在本步骤中,需要说明的是,本步骤会首先获取到需要的预设长文本特征,具体的,该预设长文本特征可以是用户实时输入的,也可以是从文本数据库中调出的,基于此,本步骤会实时通过预设融合块和预设融合器将当前预设长文本特征融合至上述初始特征图中,以进一步生成对应中间特征图。
步骤S30,依次通过预设卷积层和预设激活层对所述中间特征图进行图像化处理,以生成对应的目标图像,所述目标图像包含所述预设长文本特征中的特征元素。
最后,在本步骤中,需要说明的是,在通过上述步骤获取到需要的中间特征图之后,本步骤会进一步调出预设卷积层以及预设激活层,具体的,本步骤会将上述中间特征图依次输入至预设卷积层以及预设激活层中,以进行对应的图像化处理,即生成对应的场景图像,该场景图像就是需要的目标图像,并且该目标图像中包含有上述预设长文本特征中的全部特征元素。
使用时,通过在潜在空间中随机获取一特征向量,并将所述特征向量输入至预设全连接层中,以生成对应的初始特征图;进一步的,通过预设融合块和预设融合器将预设长文本特征对应融合至所述初始特征图中,以生成对应的中间特征图;最后只需依次通过预设卷积层和预设激活层对所述中间特征图进行图像化处理,以生成对应的目标图像,所述目标图像包含所述预设长文本特征中的特征元素。通过上述方式能够将外界的长文本特征对应融合至随机生成的初始特征图中,并最终根据该初始特征图生成需要的目标图像,并且该目标图像包含与上述长文本特征对应的特征元素,即对应的场景图像,从而能够满足用户的使用需求,对应提升了用户的使用体验。
需要说明的是,上述的实施过程只是为了说明本申请的可实施性,但这并不代表本申请的长文本生成图像的方法只有上述唯一一种实施流程,相反的,只要能够将本申请的长文本生成图像的方法实施起来,都可以被纳入本申请的可行实施方案。
综上,本发明上述实施例提供的长文本生成图像的方法能够将外界的长文本特征对应融合至随机生成的初始特征图中,并最终根据该初始特征图生成需要的目标图像,并且该目标图像包含与上述长文本特征对应的特征元素,即对应的场景图像,从而能够满足用户的使用需求,对应提升了用户的使用体验。
本发明第二实施例也提供了一种长文本生成图像的方法,本实施例提供的长文本生成图像的方法与上述第一实施例提供的长文本生成图像的方法不同之处在于:
上述通过预设融合块和预设融合器将预设长文本特征对应融合至所述初始特征图中的步骤包括:
具体的,在本实施例中,需要说明的是,本实施例会进一步识别出所述预设长文本特征中的特性文本、元素文本以及指令文本,并分别将所述特性文本、所述元素文本以及所述指令文本对应输入至所述预设特性文本编码器、元素文本编码器以及指令文本编码器中;
进一步的,如图2至图4所示,需要说明的是,通过所述特性文本编码器和所述元素文本编码器分别对所述特性文本以及所述元素文本进行双向长短时记忆网络编码,以分别生成对应的特性特征向量以及元素特征向量,并通过所述指令文本编码器对所述指令文本进行层次化长短时记忆网络编码,以生成对应的指令特征向量;
将所述特性特征向量、所述元素特征向量以及所述指令特征向量分别对应融合至所述初始特征图中。
其中,在本实施例中,需要指出的是,本实施例为了能够有效的训练出上述特性文本编码器、元素文本编码器以及指令文本编码器,本实施例会采用对比损失训练方法,即使一批训练样本之间的图像-文本相似性最大化。具体的,本实施例会首先计算出所有可能的文本-图像对的相似度矩阵:
其中,M表示相似度矩阵,n表示图像数量,T表示转置,ei表示文本特征,fi表示图像特征,进一步的,本实施例还会将上述相似度矩阵转化成对应的匹配概率,具体的,该匹配概率的表达式为:
其中,Mi,j表示第i个文本特征与第j个图像特征之间的点积相似度,exp表示自然指数函数。
进一步的,为了最大化属于同一对的文本特征和图像特征之间的相似性,本实施例对应构建出的最小化对比损失的表达式为:
其中,L表示最小化对比损失,通过上述方式能够将接收到的文本特征映射为对应的图像特征,以进一步生成需要的场景图像。
具体的,在本实施例中,还需要说明的是,上述将所述特性文本特征、所述元素文本特征以及所述指令文本特征分别对应融合至所述初始特征图中的步骤包括:
其中,需要指出的是,本实施例会将上述特性文本特征ef和元素文本特征ee同时输入至上述预设元素特性融合块中,以生成上述元素特性特征eef,具体的,上述特性文本特征:ef=BiLSTM(Tf),上述元素文本特征:ee=BiLSTM(Te),进一步的,上述元素特性特征:eef=Connect(ee,ef),其中,BiLSTM()表示双向LSTM模型,Tf和Te分别表示特性文本以及元素文本。
另外,还需要指出的是,本实施例还会将上述元素文本特征ee和指令文本特征es同时输入至上述预设指令元素融合块中,以生成上述指令元素特征ese,其中,上述元素文本特征:ee=BiLSTM(Te),进一步的,上述指令文本特征:es=HierarchicalLSTM(Ts),对应的,上述指令元素特征:ese=Connect(es,ee),同理,BiLSTM表示双向LSTM模型,HierarchicalLSTM表示层次LSTM模型,Ts表示指令文本。
另外,在本实施例中,需要说明的是,上述将所述元素特性特征以及所述指令元素特征对应输入至所述初始特征图中,以对所述初始特征图进行融合处理的步骤包括:
将所述元素特性特征以及所述初始特征图同时输入至预设元素特性融合块中,并通过所述预设元素特性融合块中的元素特性仿射变换以及所述元素特性特征对所述初始特征图进行通道仿射变换处理;
将所述特性文本特征、所述元素文本特征以及通道仿射变换处理后的初始特征图同时输入至预设第一步骤要素融合器中,以将所述特性文本特征、所述元素文本特征分步骤要素融入生成对应的中间特征图,并将所述中间特征图通过所述预设元素特性融合块和所述预设第一步骤要素融合器三次融合处理后得到第一融合特征图;
将所述第一融合特征图输入至预设指令元素融合块中,并通过指令元素仿射变换以及所述指令元素特征对所述初始特征图进行通道仿射变换处理;
将所述元素文本特征、所述指令文本特征以及通道仿射变换处理后的初始特征图同时输入至预设第二步骤要素融合器中,以将所述元素文本特征、所述指令文本特征分步骤要素融入生成对应的所述中间特征图,并将所述中间特征图通过所述预设指令元素融合块和所述预设第二步骤要素融合器三次融合处理后得到第二融合特征图,以将所述第一融合特征图和所述第二融合特征图经过卷积和激活形成目标图像。
其中,需要说明的是,本实施例对上述初始特征图进行元素特性仿射变换的仿射变换处理的表达式为:
其中,ht表示RNN的隐藏状态,是输入的第i尺度特征图,γt、βt表示由两个以ht为条件的单隐藏层MLP预测的参数,其中,γt=MLP1(ht),βt=MLP2(ht),进一步的,使用RNN对上述元素特性融合块的时间结构中进行建模,具体的,使用LSTM模型进行建模,在此,初始隐状态h0和记忆单元状态c0定义如下:
其中z是随机噪音。
本实施例提供的元素特性仿射变换中的隐状态ht更新规则如下:
其中,eef是元素特性特征,Y是仿射变换,σ表示sigmoid函数,tanh表示双曲正切函数,it、ft、ot、ut分别表示输入门、遗忘门、输出门,候选记忆单元状态,ct表示当前时刻记忆单元状态,ct-1表示上一时刻的记忆单元状态,ht表示当前时刻的隐状态,ht-1表示上一时刻的隐状态。
指令元素融合块的仿射变换处理和元素特性融合块的仿射变换处理原理相同,区别在于隐状态ht更新过程中,元素特性融合块融入元素特性特征,而指令元素融合块融入指令元素特征。
另外,还需要说明的是,本实施例提供的步骤要素融合器能够模仿出真实的设计场景,并且随着步骤的推移。具体的,如图2所示,描述了步骤要素融合器的网络结构,需要说明的是,其中,表示要素特征列表,其中,dpart表示该列表中第m个要素特征的维度。在此基础之上,第i个尺度的图像特征表示为/>,其中,C表示为通道深度,L=W×H表示为特征的分辨率。具体的,图像特征Fi与要素特征/>融合,以产生要素融合特征,其中,每个图像特征大小为C×L。要素融合特征/>的第j个通道通过以下方法计算:
其中,V(·)表示将要素特征变换到与第i个尺度图像特征Fi相同维度的1×1卷积。/>是Fi的第j个通道,σ(·)是一个Softmax函数,它输出一个大小为L的注意力图,带有概率值,以指示要素特征的空间分布。通过上述Softmax函数为每个要素特征生成一个注意力图,即/>
进一步的,通过多个门控循环单元(GRU)对步骤特征进行顺序编码,其中,第一个GRU单元用要素融合特征图初始化,如图2所示,一个步骤特征融合后的结果被送到下一个步骤特征融合中。本实施例会用一个设计步骤序列来表示,其中,/>表示步骤序列中第n个步骤特征,/>是第n个步骤特征的维度。
将要素融合特征和步骤特征分步骤融合形成步骤融合特征,具体如下:
其中,表示在第i尺度下的步骤融合特征的第j个通道。最终得到的步骤融合特征与Fi具有相同的维度,通道数为C,大小为W×H。为此,将图像Fi、要素融合特征/>和步骤融合特征/>三组特征进行通道连接并送入残差块得到图像特征,进而作为下一次迭代的输入。
另外,在本实施例中,还需要说明的是,上述依次通过预设卷积层和预设激活层对所述中间特征图进行图像化处理,以生成对应的目标图像的步骤之后,所述方法还包括:
当获取到所述目标图像时,将所述目标图像传输至若干个下采样块中,以获取到对应的采样图像;
将所述采样图像输入至空间注意力模型中,以使所述空间注意力模型输出对应的图像特征;
根据所述图像特征判断出所述目标图像的真假。
另外,在本实施例中,还需要说明的是,本实施例在通过上述步骤获取到需要的目标图像之后,为了能够准确的验证出当前目标图像的有效性,本实施例会进一步将当前目标图像输入至预先设置好的若干个采样块中,优选的,该步骤中的采样块设置为五个,从而能够输出对应的采样图像。
进一步的,本实施例还会将当前采样图像输入至预先设置好的空间注意力模型中,以进一步输出对应的图像特征,最后只需根据该图像特征就能够准确的判断出当前目标图像的真假。
进一步的,在本实施例中,需要说明的是,所述方法还包括:
建立与预设显示终端的无线通讯连接,并将所述目标图像转换成对应的显示信号,所述显示信号与所述预设显示终端适配;
将所述显示信号传输至所述预设显示终端内,以在所述预设显示终端内实时显示出所述目标图像。
进一步的,需要说明的是,为了能够使工作人员实时观测到目标图像的生成过程,本实施例会建立与显示终端的无线通讯连接,与此同时,将上述目标图像转换成对应的显示信号,基于此,将该显示信号传输至上述显示终端内,从而能够实时有效的在该显示终端中实时显示出上述目标图像。
进一步的,在本实施例中,需要说明的是,所述目标图像由若干个步骤要素融合特征图组成,所述步骤要素融合特征图包含若干个特征通道,每一所述特征通道均具有唯一性。
基于此,本实施例通过有效的构建出每一个特征通道,就能够最终对应构建出需要的目标图像,从而大幅提升了目标图像的生成效率,对应提升了用户的使用体验。
需要指出的是,本发明第二实施例所提供的方法,其实现原理及产生的一些技术效果和第一实施例相同,为简要描述,本实施例未提及之处,可参考第一实施例提供的相应内容。
综上,本发明上述实施例提供的长文本生成图像的方法能够将外界的长文本特征对应融合至随机生成的初始特征图中,并最终根据该初始特征图生成需要的目标图像,并且该目标图像包含与上述长文本特征对应的特征元素,即对应的场景图像,从而能够满足用户的使用需求,对应提升了用户的使用体验。
请参阅图5,所示为本发明第三实施例提供的长文本生成图像的系统,所述系统包括:
获取模块12,用于在潜在空间中随机获取一特征向量,并将所述特征向量输入至预设全连接层中,以生成对应的初始特征图;
第一处理模块22,用于通过预设融合块和预设融合器将预设长文本特征对应融合至所述初始特征图中,以生成对应的中间特征图;
第二处理模块32,用于依次通过预设卷积层和预设激活层对所述中间特征图进行图像化处理,以生成对应的目标图像,所述目标图像包含所述预设长文本特征中的特征元素。
其中,上述长文本生成图像的系统中,所述第一处理模块22具体用于:
识别出所述预设长文本特征中的特性文本、元素文本以及指令文本,并分别将所述特性文本、所述元素文本以及所述指令文本对应输入至所述预设融合器的特性文本编码器、元素文本编码器以及指令文本编码器中;
通过所述特性文本编码器和所述元素文本编码器分别对所述特性文本以及所述元素文本进行双向长短时记忆网络编码,以分别生成对应的特性特征向量以及元素特征向量,并通过所述指令文本编码器对所述指令文本进行层次化长短时记忆网络编码,以生成对应的指令特征向量;
将所述特性特征向量、所述元素特征向量以及所述指令特征向量分别对应融合至所述初始特征图中。
其中,上述长文本生成图像的系统中,所述第一处理模块22还具体用于:
将所述特性文本特征和所述元素文本特征同时输入至预设元素特性融合块中,特性文本特征和元素文本特征在所述预设元素特性融合块中相互融合以生成对应的元素特性特征,并将所述元素文本特征以及所述指令文本特征同时输入至预设指令元素融合块中,元素文本特征和指令文本特征在所述预设指令元素融合块中相互融合以生成对应的指令元素特征;
将所述元素特性特征以及所述指令元素特征对应输入至所述初始特征图中,以对所述初始特征图进行融合处理。
其中,上述长文本生成图像的系统中,所述第一处理模块22还具体用于:
将所述元素特性特征以及所述初始特征图同时输入至预设元素特性融合块中,并通过所述预设元素特性融合块中的元素特性仿射变换以及所述元素特性特征对所述初始特征图进行通道仿射变换处理;
将所述特性文本特征、所述元素文本特征以及通道仿射变换处理后的初始特征图同时输入至预设第一步骤要素融合器中,以将所述特性文本特征、所述元素文本特征分步骤要素融入生成对应的中间特征图,并将所述中间特征图通过所述预设元素特性融合块和所述预设第一步骤要素融合器三次融合处理后得到第一融合特征图;
将所述第一融合特征图输入至预设指令元素融合块中,并通过指令元素仿射变换以及所述指令元素特征对所述初始特征图进行通道仿射变换处理;
将所述元素文本特征、所述指令文本特征以及通道仿射变换处理后的初始特征图同时输入至预设第二步骤要素融合器中,以将所述元素文本特征、所述指令文本特征分步骤要素融入生成对应的所述中间特征图,并将所述中间特征图通过所述预设指令元素融合块和所述预设第二步骤要素融合器三次融合处理后得到第二融合特征图,以将所述第一融合特征图和所述第二融合特征图经过卷积和激活形成目标图像。
其中,上述长文本生成图像的系统中,所述长文本生成图像的系统还包括判断模块42,所述判断模块42具体用于:
当获取到所述目标图像时,将所述目标图像传输至若干个下采样块中,以获取到对应的采样图像;
将所述采样图像输入至空间注意力模型中,以使所述空间注意力模型输出对应的图像特征;
根据所述图像特征判断出所述目标图像的真假。
其中,上述长文本生成图像的系统中,所述长文本生成图像的系统还包括显示模块52,所述显示模块52具体用于:
建立与预设显示终端的无线通讯连接,并将所述目标图像转换成对应的显示信号,所述显示信号与所述预设显示终端适配;
将所述显示信号传输至所述预设显示终端内,以在所述预设显示终端内实时显示出所述目标图像。
其中,上述长文本生成图像的系统中,所述目标图像由若干个步骤要素融合特征图组成,所述步骤要素融合特征图包含若干个特征通道,每一所述特征通道均具有唯一性。
本发明第四实施例提供了一种计算机,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述实施例提供的长文本生成图像的方法。
本发明第五实施例提供了一种可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上述实施例提供的长文本生成图像的方法。
综上所述,本发明上述实施例提供的长文本生成图像的方法及系统能够将外界的长文本特征对应融合至随机生成的初始特征图中,并最终根据该初始特征图生成需要的目标图像,并且该目标图像包含与上述长文本特征对应的特征元素,即对应的场景图像,从而能够满足用户的使用需求,对应提升了用户的使用体验。
需要说明的是,上述各个模块可以是功能模块也可以是程序模块,既可以通过软件来实现,也可以通过硬件来实现。对于通过硬件来实现的模块而言,上述各个模块可以位于同一处理器中;或者上述各个模块还可以按照任意组合的形式分别位于不同的处理器中。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。
计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、 “示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。

Claims (10)

1.一种长文本生成图像的方法,其特征在于,所述方法包括:
在潜在空间中随机获取一特征向量,并将所述特征向量输入至预设全连接层中,以生成对应的初始特征图;
通过预设融合块和预设融合器将预设长文本特征对应融合至所述初始特征图中,以生成对应的中间特征图;
依次通过预设卷积层和预设激活层对所述中间特征图进行图像化处理,以生成对应的目标图像,所述目标图像包含所述预设长文本特征中的特征元素。
2.根据权利要求1所述的长文本生成图像的方法,其特征在于:所述通过预设融合块和预设融合器将预设长文本特征对应融合至所述初始特征图中的步骤包括:
识别出所述预设长文本特征中的特性文本、元素文本以及指令文本,并分别将所述特性文本、所述元素文本以及所述指令文本对应输入至特性文本编码器、元素文本编码器以及指令文本编码器中;
通过所述特性文本编码器和所述元素文本编码器分别对所述特性文本以及所述元素文本进行双向长短时记忆网络编码,以分别生成对应的特性文本特征以及元素文本特征,并通过所述指令文本编码器对所述指令文本进行层次化长短时记忆网络编码,以生成对应的指令文本特征;
将所述特性文本特征、所述元素文本特征以及所述指令文本特征分别对应融合至所述初始特征图中。
3.根据权利要求2所述的长文本生成图像的方法,其特征在于:所述将所述特性文本特征、所述元素文本特征以及所述指令文本特征分别对应融合至所述初始特征图中的步骤包括:
将所述特性文本特征和所述元素文本特征同时输入至预设元素特性融合块中,所述特性文本特征和所述元素文本特征在所述预设元素特性融合块中相互融合以生成对应的元素特性特征,并将所述元素文本特征以及所述指令文本特征同时输入至预设指令元素融合块中,所述元素文本特征和所述指令文本特征在所述预设指令元素融合块中相互融合以生成对应的指令元素特征;
将所述元素特性特征以及所述指令元素特征对应输入至所述初始特征图中,以对所述初始特征图进行融合处理。
4.根据权利要求3所述的长文本生成图像的方法,其特征在于:所述将所述元素特性特征以及所述指令元素特征对应输入至所述初始特征图中,以对所述初始特征图进行融合处理的步骤包括:
将所述元素特性特征以及所述初始特征图同时输入至预设元素特性融合块中,并通过所述预设元素特性融合块中的元素特性仿射变换以及所述元素特性特征对所述初始特征图进行通道仿射变换处理;
将所述特性文本特征、所述元素文本特征以及通道仿射变换处理后的初始特征图同时输入至预设第一步骤要素融合器中,以将所述特性文本特征、所述元素文本特征分步骤要素融入生成对应的中间特征图,并将所述中间特征图通过所述预设元素特性融合块和所述预设第一步骤要素融合器三次融合处理后得到第一融合特征图;
将所述第一融合特征图输入至预设指令元素融合块中,并通过指令元素仿射变换以及所述指令元素特征对所述初始特征图进行通道仿射变换处理;
将所述元素文本特征、所述指令文本特征以及通道仿射变换处理后的初始特征图同时输入至预设第二步骤要素融合器中,以将所述元素文本特征、所述指令文本特征分步骤要素融入生成对应的所述中间特征图,并将所述中间特征图通过所述预设指令元素融合块和所述预设第二步骤要素融合器三次融合处理后得到第二融合特征图,以将所述第一融合特征图和所述第二融合特征图经过卷积和激活形成目标图像。
5.根据权利要求1所述的长文本生成图像的方法,其特征在于:所述依次通过预设卷积层和预设激活层对所述中间特征图进行图像化处理,以生成对应的目标图像的步骤之后,所述方法还包括:
当获取到所述目标图像时,将所述目标图像传输至若干个下采样块中,以获取到对应的采样图像;
将所述采样图像输入至空间注意力模型中,以使所述空间注意力模型输出对应的图像特征;
根据所述图像特征判断出所述目标图像的真假。
6.根据权利要求1所述的长文本生成图像的方法,其特征在于:所述方法还包括:
建立与预设显示终端的无线通讯连接,并将所述目标图像转换成对应的显示信号,所述显示信号与所述预设显示终端适配;
将所述显示信号传输至所述预设显示终端内,以在所述预设显示终端内实时显示出所述目标图像。
7.根据权利要求1所述的长文本生成图像的方法,其特征在于:所述目标图像由若干个步骤要素融合特征图组成,所述步骤要素融合特征图包含若干个特征通道,每一所述特征通道均具有唯一性。
8.一种长文本生成图像的系统,其特征在于,所述系统包括:
获取模块,用于在潜在空间中随机获取一特征向量,并将所述特征向量输入至预设全连接层中,以生成对应的初始特征图;
第一处理模块,用于通过预设融合块和融合器将预设长文本特征对应融合至所述初始特征图中,以生成对应的中间特征图;
第二处理模块,用于依次通过预设卷积层和预设激活层对所述中间特征图进行图像化处理,以生成对应的目标图像,所述目标图像包含所述预设长文本特征中的特征元素。
9.一种计算机,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7中任意一项所述的长文本生成图像的方法。
10.一种可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1至7中任意一项所述的长文本生成图像的方法。
CN202310764770.2A 2023-06-27 2023-06-27 长文本生成图像的方法及系统 Active CN116503517B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310764770.2A CN116503517B (zh) 2023-06-27 2023-06-27 长文本生成图像的方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310764770.2A CN116503517B (zh) 2023-06-27 2023-06-27 长文本生成图像的方法及系统

Publications (2)

Publication Number Publication Date
CN116503517A true CN116503517A (zh) 2023-07-28
CN116503517B CN116503517B (zh) 2023-09-05

Family

ID=87320665

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310764770.2A Active CN116503517B (zh) 2023-06-27 2023-06-27 长文本生成图像的方法及系统

Country Status (1)

Country Link
CN (1) CN116503517B (zh)

Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111401418A (zh) * 2020-03-05 2020-07-10 浙江理工大学桐乡研究院有限公司 一种基于改进Faster r-cnn的员工着装规范检测方法
WO2020181685A1 (zh) * 2019-03-12 2020-09-17 南京邮电大学 一种基于深度学习的车载视频目标检测方法
WO2020221298A1 (zh) * 2019-04-30 2020-11-05 北京金山云网络技术有限公司 文本检测模型训练方法、文本区域、内容确定方法和装置
WO2021017998A1 (zh) * 2019-07-26 2021-02-04 第四范式(北京)技术有限公司 文本位置定位方法和系统以及模型训练方法和系统
CN112598004A (zh) * 2020-12-21 2021-04-02 安徽七天教育科技有限公司 一种基于扫描的英语作文试卷版面分析方法
CN113537416A (zh) * 2021-09-17 2021-10-22 深圳市安软科技股份有限公司 基于生成式对抗网络的文本转换图像的方法及相关设备
WO2021232589A1 (zh) * 2020-05-21 2021-11-25 平安国际智慧城市科技股份有限公司 基于注意力机制的意图识别方法、装置、设备及存储介质
WO2022068426A1 (zh) * 2020-09-30 2022-04-07 京东方科技集团股份有限公司 文本识别方法和文本识别系统
CN114387366A (zh) * 2022-01-14 2022-04-22 湖南大学 一种感知联合空间注意力文本生成图像方法
CN114399757A (zh) * 2022-01-13 2022-04-26 福州大学 多路并行位置关联网络的自然场景文本识别方法及系统
CN114863407A (zh) * 2022-07-06 2022-08-05 宏龙科技(杭州)有限公司 一种基于视觉语言深度融合的多任务冷启动目标检测方法
WO2022257578A1 (zh) * 2021-06-07 2022-12-15 京东科技信息技术有限公司 用于识别文本的方法和装置
CN115797495A (zh) * 2023-02-07 2023-03-14 武汉理工大学 一种句子-字符语义空间融合感知的文本生成图像的方法
CN115908978A (zh) * 2022-11-25 2023-04-04 昂坤视觉(北京)科技有限公司 缺陷样本仿真方法、系统、计算机及可读存储介质
WO2023060434A1 (zh) * 2021-10-12 2023-04-20 中国科学院深圳先进技术研究院 一种基于文本的图像编辑方法和电子设备

Patent Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020181685A1 (zh) * 2019-03-12 2020-09-17 南京邮电大学 一种基于深度学习的车载视频目标检测方法
WO2020221298A1 (zh) * 2019-04-30 2020-11-05 北京金山云网络技术有限公司 文本检测模型训练方法、文本区域、内容确定方法和装置
WO2021017998A1 (zh) * 2019-07-26 2021-02-04 第四范式(北京)技术有限公司 文本位置定位方法和系统以及模型训练方法和系统
CN111401418A (zh) * 2020-03-05 2020-07-10 浙江理工大学桐乡研究院有限公司 一种基于改进Faster r-cnn的员工着装规范检测方法
WO2021232589A1 (zh) * 2020-05-21 2021-11-25 平安国际智慧城市科技股份有限公司 基于注意力机制的意图识别方法、装置、设备及存储介质
WO2022068426A1 (zh) * 2020-09-30 2022-04-07 京东方科技集团股份有限公司 文本识别方法和文本识别系统
CN112598004A (zh) * 2020-12-21 2021-04-02 安徽七天教育科技有限公司 一种基于扫描的英语作文试卷版面分析方法
WO2022257578A1 (zh) * 2021-06-07 2022-12-15 京东科技信息技术有限公司 用于识别文本的方法和装置
CN113537416A (zh) * 2021-09-17 2021-10-22 深圳市安软科技股份有限公司 基于生成式对抗网络的文本转换图像的方法及相关设备
WO2023060434A1 (zh) * 2021-10-12 2023-04-20 中国科学院深圳先进技术研究院 一种基于文本的图像编辑方法和电子设备
CN114399757A (zh) * 2022-01-13 2022-04-26 福州大学 多路并行位置关联网络的自然场景文本识别方法及系统
CN114387366A (zh) * 2022-01-14 2022-04-22 湖南大学 一种感知联合空间注意力文本生成图像方法
CN114863407A (zh) * 2022-07-06 2022-08-05 宏龙科技(杭州)有限公司 一种基于视觉语言深度融合的多任务冷启动目标检测方法
CN115908978A (zh) * 2022-11-25 2023-04-04 昂坤视觉(北京)科技有限公司 缺陷样本仿真方法、系统、计算机及可读存储介质
CN115797495A (zh) * 2023-02-07 2023-03-14 武汉理工大学 一种句子-字符语义空间融合感知的文本生成图像的方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
应自炉;赵毅鸿;宣晨;邓文博;: "多特征融合的文档图像版面分析", 中国图象图形学报, no. 02 *
张宇昂;贾云鹏;刘家鹏;: "一种多特征融合的长文本分类方法", 中国电子科学研究院学报, no. 09 *
李媛丽;黄刚;王军;孟祥豪;张坤峰;段永胜;: "基于眼动预测与多层邻域感知的显著目标检测算法", 通信技术, no. 06 *
罗会兰;岳亮亮;: "跨层多模型特征融合与因果卷积解码的图像描述", 中国图象图形学报, no. 08 *

Also Published As

Publication number Publication date
CN116503517B (zh) 2023-09-05

Similar Documents

Publication Publication Date Title
CN110363716B (zh) 一种基于条件生成对抗网络复合降质图像高质量重建方法
CN110929869B (zh) 序列数据处理方法、装置、设备及存储介质
EP3834137A1 (en) Committed information rate variational autoencoders
CN113240115B (zh) 一种生成人脸变化图像模型的训练方法及相关装置
CN116664719A (zh) 一种图像重绘模型训练方法、图像重绘方法及装置
CN111460876A (zh) 用于识别视频的方法和装置
CN112990078A (zh) 一种基于生成式对抗网络的人脸表情生成方法
CN114283347B (zh) 目标检测方法、系统、智能终端及计算机可读存储介质
CN111768326A (zh) 一种基于gan扩增图像前景物体的高容量数据保护方法
CN116503517B (zh) 长文本生成图像的方法及系统
CN115937374B (zh) 一种数字人体建模方法、装置、设备及介质
CN117197632A (zh) 一种基于Transformer的电镜花粉图像目标检测方法
CN117094365A (zh) 图文生成模型的训练方法、装置、电子设备及介质
CN116958700A (zh) 一种基于提示工程和对比学习的图像分类方法
CN116957921A (zh) 图像渲染方法、装置、设备及存储介质
CN115512368B (zh) 一种跨模态语义生成图像模型和方法
CN116863003A (zh) 视频生成方法、训练视频生成模型的方法及装置
CN115880526A (zh) 图像处理方法、装置、电子设备及存储介质
CN115035223A (zh) 一种图像处理方法、装置、设备及介质
CN114333069A (zh) 对象的姿态处理方法、装置、设备及存储介质
Wang et al. MLAN: Multi-Level Attention Network
CN114693759B (zh) 一种基于编解码网络的轻量级快速图像深度估计方法
CN117853678B (zh) 基于多源遥感进行地理空间数据三维实体化改造的方法
CN117252787B (zh) 图像重新照明方法、模型训练方法、装置、设备及介质
CN116452600B (zh) 实例分割方法、系统、模型训练方法、介质及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant