CN114549935B - 信息生成方法和装置 - Google Patents

信息生成方法和装置 Download PDF

Info

Publication number
CN114549935B
CN114549935B CN202210176112.7A CN202210176112A CN114549935B CN 114549935 B CN114549935 B CN 114549935B CN 202210176112 A CN202210176112 A CN 202210176112A CN 114549935 B CN114549935 B CN 114549935B
Authority
CN
China
Prior art keywords
image
text
vector
target
loss function
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210176112.7A
Other languages
English (en)
Other versions
CN114549935A (zh
Inventor
黄路扬
牛国成
刘家辰
肖欣延
吴华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN202210176112.7A priority Critical patent/CN114549935B/zh
Publication of CN114549935A publication Critical patent/CN114549935A/zh
Application granted granted Critical
Publication of CN114549935B publication Critical patent/CN114549935B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)

Abstract

本公开提供了信息生成方法和装置,具体涉及计算机视觉和自然语言处理技术领域。具体实现方案为:响应于获取到目标信息,将目标信息转换为对应的文本向量和图像向量;将文本向量和图像向量进行拼接,得到目标向量;基于目标向量和生成模型,得到与目标信息对应的图像和文本。该方式实现了图像和描述文本的同时生成。

Description

信息生成方法和装置
技术领域
本公开涉及计算机技术领域,具体涉及计算机视觉和自然语言处理技术领域,尤其涉及一种信息生成方法和装置。
背景技术
现有的技术将图片生成文字,文字生成图片作为两个子任务处理,使用图片-文字对作为训练数据训练模型,根据不同的任务,设计不同的模型:
(1)图像描述生成:以OSCAR(Object-Semantics Aligned Pre-training forVision-Language Tasks,面向视觉语言任务的对象语义对齐预训练模型),UNIMO(TowardsUnifified-Modal Understanding and Generation via Cross-Modal ContrastiveLearning,跨模态对比学习的统一模态理解和生成)为代表的Transformer Encoder预训练模型,模型先使用目标识别模型提取图片中的关键目标信息,将目标信息作为一维序列输入Transformer Encoder模型,并自回归生成描述。
(2)文本生成图像模型:分为基于Transformer的文生图模型和基于CNN(Convolutional Neural Networks,卷积神经网络)的文生图模型。DALL.E是基于Transformer decoder的文生图模型,DALL.E使用dVAE(discrete variationalautoencoder,离散化变分自编码器)离散化编码图像,自回归地生成图像标识,并通过dVAE的解码器还原图片。
发明内容
本公开实施例提供了一种信息生成方法、装置、设备以及存储介质。
第一方面,本公开实施例提供了一种信息生成方法,该方法包括:响应于获取到目标信息,将目标信息转换为对应的文本向量和图像向量;将文本向量和所述图像向量进行拼接,得到目标向量;基于目标向量和生成模型,得到与目标信息对应的图像和文本。
第二方面,本公开实施例提供了一种信息生成装置,该装置包括:获取模块,被配置成响应于获取到目标信息,将目标信息转换为对应的文本向量和图像向量;拼接模块,被配置成将文本向量和图像向量进行拼接,得到目标向量;生成模块,被配置成基于目标向量和生成模型,得到与目标信息对应的图像和文本。
第三方面,本公开实施例提供了一种电子设备,该电子设备包括一个或多个处理器;存储装置,其上存储有一个或多个程序,当一个或多个程序被该一个或多个处理器执行,使得一个或多个处理器实现如第一方面的任一实施例的信息生成方法。
第四方面,本公开实施例提供了一种计算机可读介质,其上存储有计算机程序,该程序被处理器执行时实现如第一方面的任一实施例的信息生成方法。
第五方面,本公开实施例提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现如第一方面的任一实施例的信息生成方法。
本公开实现了图像和描述文本的同时生成。
应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其他特征将通过以下的说明书而变得容易理解。
附图说明
图1是本公开可以应用于其中的示例性系统架构图;
图2是根据本公开的信息生成方法的一个实施例的流程图;
图3是根据本公开的信息生成方法的一个应用场景的示意图;
图4是根据本公开的信息生成方法的又一个实施例的流程图;
图5是根据本公开的信息生成装置的一个实施例的示意图;
图6是适于用来实现本公开实施例的电子设备的计算机系统的结构示意图。
具体实施方式
以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
需要说明的是,在不冲突的情况下,本公开中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本公开。
图1示出了可以应用本公开的信息生成方法的实施例的示例性系统架构100。
如图1所示,系统架构100可以包括终端设备101、102、103,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用终端设备101、102、103通过网络104与服务器105交互,以接收或发送消息等。终端设备101、102、103上可以安装深度神经网络框架。
终端设备101、102、103可以是硬件,也可以是软件。当终端设备101、102、103为硬件时,可以是具有显示屏的各种电子设备,包括但不限于手机和笔记本电脑。当终端设备101、102、103为软件时,可以安装在上述所列举的电子设备中。其可以实现成多个软件或软件模块(例如用来提供信息生成服务),也可以实现成单个软件或软件模块。在此不做具体限定。
服务器105可以是提供各种服务的服务器,例如,响应于获取到目标信息,将目标信息转换为对应的文本向量和图像向量;将文本向量和图像向量进行拼接,得到目标向量;基于目标向量和生成模型,得到与目标信息对应的图像和文本。
需要说明的是,服务器105可以是硬件,也可以是软件。当服务器105为硬件时,可以实现成多个服务器组成的分布式服务器集群,也可以实现成单个服务器。当服务器为软件时,可以实现成多个软件或软件模块(例如用来提供信息生成服务),也可以实现成单个软件或软件模块。在此不做具体限定。
需要指出的是,本公开的实施例所提供的信息生成方法可以由服务器105执行,也可以由终端设备101、102、103执行,还可以由服务器105和终端设备101、102、103彼此配合执行。相应地,信息生成装置包括的各个部分(例如各个单元、子单元、模块、子模块)可以全部设置于服务器105中,也可以全部设置于终端设备101、102、103中,还可以分别设置于服务器105和终端设备101、102、103中。
应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
图2示出了信息生成方法的实施例的流程示意图200。该信息生成方法包括以下步骤:
步骤201,响应于获取到目标信息,将目标信息转换为对应的文本向量和图像向量。
在本实施例中,执行主体(例如,图1中的服务器105或终端设备101、102、103)可以从本地或远端的存储有目标信息的服务器获取待转换为图像和文本的目标信息,并将目标信息转换为对应的文本向量和图像向量。
其中,目标信息可以是任意的表征客观事实的信息或信息的组合,例如,文本、图像、表格等。
在一些可选的方式中,响应于获取到目标信息,将目标信息转换为对应的文本向量和图像向量,包括:响应于确定获取的目标信息为文本,将文本转换为对应的文本向量和预设的可训练的图像向量。
在本实现方式中,若执行主体仅获取到文本,则可根据文本进行转换,得到对应的文本向量,同时使用一个占位符,如一个trainable向量,即预设的可训练的向量,代替缺失的模态,即缺失的图像向量。
其中,执行主体可以采用现有技术或未来发展技术中的编码方法将文本转换为对应的文本向量,例如,BPE(byte pair encoder,字节对编码)、WordPiece、SentencePiece等。
其中,BPE也可以叫做digram coding双字母组合编码,主要目的是为了数据压缩,算法描述为字符串里频率最常见的一对字符被一个没有在这个字符中出现的字符代替的层层迭代过程。
该实现方式通过响应于确定获取的目标信息为文本,将文本转换为对应的文本向量和预设的可训练的图像向量,进而基于文本向量和图像向量拼接成的目标向量以及生成模型,得到与文本对应的图像,有助于在目标信息仅包括文本时生成对应的图像。
在一些可选的方式中,响应于获取到目标信息,将目标信息转换为对应的文本向量和图像向量,包括:响应于确定获取的目标信息为图像,将图像转换为对应的图像向量和预设的可训练的文本向量。
在本实现方式中,若执行主体仅获取到图像,则可根据图像进行转换,得到对应的图像向量,同时使用一个占位符,如一个trainable向量,即预设的可训练的向量,代替缺失的模态,即缺失的文本向量。
其中,执行主体可以采用现有技术或未来发展技术中的编码方法将图像转换为对应的图像向量,例如,Faster R-CNN、Vision Transformer(ViT)等,本申请对此不作限定。
这里,ViT将CV(Computer Vision,计算机视觉)和NLP(Natural LanguageProcessing,自然语言处理)领域知识结合起来,对原始图片进行分块,展平成序列,输入进原始Transformer模型的编码器Encoder部分,最后接入一个全连接层对图片进行分类,ViT可降低提取图像表示所耗费的时间。
该实现方式通过响应于确定获取的目标信息为图像,将图像转换为对应的图像向量和预设的可训练的文本向量,进而基于文本向量和图像向量拼接成的目标向量以及生成模型,得到与图像对应的文本,有助于在目标信息仅包括图像时生成对应的文本。
在一些可选的方式中,响应于获取到目标信息,将目标信息转换为对应的文本向量和图像向量,包括:响应于确定获取的目标信息为图像和文本,将图像和文本转换为对应的图像向量和文本向量。
在本实现方式中,若执行主体获取到图像和文本,则可根据获取的图像进行转换,得到对应的图像向量,根据获取的文本进行转换,得到对应的文本向量。
具体地,执行主体获取到图像和文本,对于图像,可通过Vision Transformer(ViT),获得基于patch的编码表示,以确定图像向量ximage,每个patch代表p×p像素点;对于文本,通过BPE将文本拆分为byte pair encoding(BPE)token,以确定文本向量xtext。步骤202,将文本向量和图像向量进行拼接,得到目标向量。
在本实施例中,执行主体在获取到文本向量和图像向量后,可文本向量和图像向量进行拼接,得到目标向量。
步骤203,基于目标向量和生成模型,得到与目标信息对应的图像和文本。
在本实施例中,执行主体在得到目标向量后,可将目标向量输入生成模型,得到与目标信息对应的图像和文本。
其中,生成模型可以基于样本对训练得到,样本对包括图像样本和文本样本,图像样本和文本样本互为标注数据。
这里,样本对中的文本样本用于描述该样本对中的图像样本。
具体地,执行主体可以获取样本对集,样本对包括图像样本和文本样本,将样本对输入初始生成模型,得到与样本对中的图像样本对应的预测的文本和与样本对中的文本样本对应的预测的图像,基于预测的文本和图像,与输入的图像样本和文本样本对应的标注数据,即文本样本和图像样本,确定文本损失函数和图像损失函数,其中,文本损失函数可以基于预测的文本和文本样本确定,图像损失函数可以基于预测的图像和图像样本确定。进一步地,执行主体可以根据文本损失函数和图像损失函数,确定目标损失函数,基于目标损失函数和样本对集,对初始生成模型进行训练,得到训练完成的生成模型。
这里,目标损失函数可通过下式表示:
Ltotal=Ltext+αLimage
其中,Ltext表征文本损失函数,Limage表征图像损失函数,α表征第一损失系数,可根据实际需求设定。
需要指出的是,生成模型可以基于Transformer模型架构构建,Transformer分为Encoder和Decoder两个模块,其中最主要的部分是Multi-Head Attention,Decoder部分会多一个mask,主要作用就是在解码过程中避免模型看到未来信息。
在一些可选的方式中,基于目标向量和生成模型,得到与目标信息对应的图像和文本,包括:将目标向量输入生成模型,得到初始结果;响应于确定初始结果包含与目标信息对应的图像的序列信息,基于矢量量化变分自动编码将序列信息转换为图像。
在本实现方式中,执行主体可将目标向量输入生成模型,得到初始结果,判断初始结果中是否包含与目标信息对应的图像的序列信息,若包括,则根据VQ-VAE(VectorQuantised Variational AutoEncoder,矢量量化变分自动编码)将序列信息转换为图像。
其中,VQ-VAE用于首先将连续的序列信息转换为离散化的token序列,每个token序列代表p*p个像素点,进而将token序列转换为图像。
该实现方式通过将目标向量输入生成模型,得到初始结果;响应于确定初始结果包含与目标信息对应的图像的序列信息,基于矢量量化变分自动编码将序列信息转换为图像,有助于提升生成的图像的准确性。
继续参见图3,图3是根据本实施例的信息生成方法的应用场景的一个示意图。执行主体301从本地获取到文本,如“Rows of unripe bananas.”302和图像,如,展示陈列架上的成熟苹果的图像303,采用BPE和ViT将文本和图像转换为对应的文本向量304和图像向量305;将文本向量304和图像向量305进行拼接,得到目标向量306;基于目标向量306和生成模型307,得到与输入文本对应的图像,如,展示陈列架上的未成熟香蕉的图像308,和与输入图像对应的描述文本,如,“Rows of ripe apples.”309。其中,生成模型基于样本对训练得到,样本对包括图像样本和文本样本,图像样本和文本样本互为标注数据。
本公开的实施例提供的信息生成方法,通过响应于获取到文本和图像,将文本和图像转换为对应的文本向量和图像向量;将文本向量和所述图像向量进行拼接,得到目标向量;基于目标向量和生成模型,得到与文本和图像对应的图像和文本,充分考虑了图生文和文生图的对偶性质,实现了图像和描述文本的同时生成,即实现了同时完成多模态的生成任务,有效利用了图文对数据,同时也节省了训练多个模型的所耗费的资源,节约了识别图像中关键目标信息的时间。
进一步参考图4,其示出了图2所示的信息生成方法的又一个实施例的流程400。在本实施例中,生成模型的训练的流程400,可包括以下步骤:
步骤401,获取训练样本对集。
在本实施例中,执行主体可以采用有线或无线连接方式获取训练样本对集,样本对包括图像样本和文本样本,图像样本和文本样本互为标注数据,即样本对中的图像样本是文本样本的标注数据,文本样本是图像样本的标注数据。
具体地,一个样本对中的图像样本为展示陈列架上的未成熟香蕉的图像,文本样本为“Rows of unripe bananas as on a display shelf.”,文本样本用于描述图像样本,且图像样本和文本样本互为标注数据。
其中,无线连接方式可以包括但不限于3G/4G连接、WiFi连接、蓝牙连接、WiMAX连接、Zigbee连接、UWB(ultra wideband)连接、以及其他现在已知或将来开发的无线连接方式
步骤402,基于第一损失函数,构建目标损失函数。
在本实施例中,执行主体可根据第一损失函数,构建目标损失函数,其中,第一损失函数基于第一预测结果、输入的样本对构建。
这里,第一预测结果通过以下方式得到:将样本对中的图像样本或文本样本进行随机掩码,得到掩码后的样本对,将掩码后的样本对对应的目标向量输入初始生成模型,得到第一预测结果。
这里,第一损失函数的构建用于执行去噪任务,即训练初始生成模型还原被掩码的文本/图像,具体可通过优化交叉熵来学习还原图像/文本。
具体地,目标损失函数可通过下式表示:
其中,表征第一损失函数。
在一些可选的方式中,基于第一损失损失函数,构建目标损失函数,包括:基于第一损失函数和图像表示一致性损失函数,构建目标损失函数。
在本实现方式中,执行主体可以根据第一损失函数和图像表示一致性损失函数,构建目标损失函数。
其中,图像表示一致性损失函数用于在训练时统一编码器和解码器的表示,使图生文和文生图这一对对偶任务在训练时相互增强,以提升生成模型的图像表示和生成能力。
具体地,目标损失函数可通过下式表示:
其中,表征第一损失函数,Lcom表征图像表示一致性损失函数,α表征第一损失系数,β表征第二损失系数,α、β可根据实际需求设定。
该实现方式通过基于第一损失函数和图像表示一致性损失函数构建目标损失函数,进而根据目标损失函数和样本对集对初始生成模型进行训练,得到训练完成的生成模型,有助于提升生成模型的图像和文本生成能力。
在一些可选的方式中,基于第一损失函数,构建目标损失函数,包括:基于第一损失函数和第二损失函数,构建目标损失函数。
在本实现方式中,执行主体可根据第一损失函数、第二损失函数,构建目标损失函数。
其中,第一损失函数基于第一预测结果、输入的样本对构建,第二损失函数基于第二预测结果、输入的样本对构建。
这里,第一预测结果通过以下方式得到:将样本对中的图像样本或文本样本进行随机掩码,得到掩码后的样本对,将掩码后的样本对对应的目标向量输入初始生成模型,得到第一预测结果。
第二预测结果通过以下方式得到:将样本对中的图像样本或文本样本对应的目标向量输入初始生成模型,得到第二预测结果。
这里,第一损失函数的构建用于执行去噪任务,即训练初始生成模型还原被掩码的文本/图像,具体可通过优化交叉熵来学习还原图像/文本。
第二损失函数的构建用于执行翻译任务,即训练初始生成模型还原缺失的模态,具体可通过优化交叉熵来学习图像或文本的生成能力。
具体地,目标损失函数可通过下式表示:
其中,表征第一损失函数,/>表征第二损失函数。
该实现方式通过基于第一损失函数、第二损失函数构建目标损失函数,进而根据目标损失函数和样本对集对初始生成模型进行训练,得到训练完成的生成模型,有助于生成模型自适应地学习图像和文本对之间地对应关系,提升生成模型的图像和文本生成能力。
在一些可选的方式中,基于第一损失函数和第二损失函数,构建目标损失函数,包括:基于第一损失函数、第二损失函数和图像表示一致性损失函数构建目标损失函数。
在本实现方式中,执行主体可以根据第一损失函数、第二损失函数和图像表示一致性损失函数构建目标损失函数。
其中,图像表示一致性损失函数用于在训练时统一编码器和解码器的表示,使图生文和文生图这一对对偶任务在训练时相互增强,以提升生成模型的图像表示和生成能力。
具体地,目标损失函数可通过下式表示:
其中,表征第一损失函数,/>表征第二损失函数,α表征第一损失系数,β表征第二损失系数,α、β可根据实际需求设定。
Lcom表征图像表示一致性损失函数,ximage表征输入编码器的嵌入式向量,yimage表征解码器输出的嵌入式向量。V表征样本对集D中的样本对。
该实现方式通过基于第一损失函数、第二损失函数和图像表示一致性损失函数构建目标损失函数,进而根据目标损失函数和样本对集对初始生成模型进行训练,得到训练完成的生成模型,有助于进一步提升生成模型的图像表示和生成能力。
步骤403,基于训练样本对集和目标损失函数,对初始生成模型进行训练,得到训练完成的生成模型。
在本实施例中,执行主体可以根据训练样本对集和目标损失函数,对初始生成模型进行训练,响应于确定目标损失函数的值满足预设条件,得到训练完成的目标损失函数。
本公开的上述实施例,主要用于描述图2所示的生成模型的训练过程。该实施例通过获取训练样本对集;基于第一损失函数,构建目标损失函数,其中,第一损失函数基于第一预测结果、输入的样本对构建,第一预测结果通过以下方式得到:将样本对中的图像样本或文本样本进行随机掩码,得到掩码后的样本对,将所述掩码后的样本对对应的目标向量输入初始生成模型,得到第一预测结果,进而根据目标损失函数和样本对集对初始生成模型进行训练,得到训练完成的生成模型,有助于训练得到的生成模型学习跨模态信息的融合,即通过生成的方式学习图文关联能力,进而提升生成的图像和文本的准确性和可靠性。
在一些可选的方式中,生成模型通过以下方式训练得到:获取训练样本对集;基于第二损失函数,构建目标损失函数;基于样本对集和目标损失函数,对初始生成模型进行训练,得到训练完成的生成模型。
在本实现方式中,执行主体可以采用有线或无线连接方式获取训练样本对集,样本对包括图像样本和文本样本,图像样本和文本样本互为标注数据,即样本对中的图像样本是文本样本的标注数据,文本样本是图像样本的标注数据。
根据第二损失函数,构建目标损失函数,其中,第二损失函数基于二预测结果、输入的样本对构建。
这里,第二预测结果通过以下方式得到:将样本对中的图像样本或文本样本对应的目标向量输入初始生成模型,得到第二预测结果。
其中,第二损失函数的构建用于执行翻译任务,即训练初始生成模型还原缺失的模态,具体可通过优化交叉熵来学习图像或文本的生成能力。
具体地,目标损失函数可通过下式表示:
其中,表征第二损失函数。
该实现方式通过基于第二损失函数构建目标损失函数,进而根据目标损失函数和样本对集对初始生成模型进行训练,得到训练完成的生成模型,有助于生成模型自适应地学习图像和文本对之间地对应关系,提升生成模型的图像和文本生成能力。
在一些可选的方式中,基于第二损失函数,构建目标损失函数,包括:基于第二损失函数和图像表示一致性损失函数,构建目标损失函数。
在本实现方式中,执行主体可以根据第二损失函数和图像表示一致性损失函数,构建目标损失函数。
其中,图像表示一致性损失函数用于在训练时统一编码器和解码器的表示,使图生文和文生图这一对对偶任务在训练时相互增强,以提升生成模型的图像表示和生成能力。
具体地,目标损失函数可通过下式表示:
其中,表征第二损失函数,Lcom表征图像表示一致性损失函数,α表征第一损失系数,β表征第二损失系数,α、β可根据实际需求设定。
该实现方式通过基于第二损失函数和图像表示一致性损失函数构建目标损失函数,进而根据目标损失函数和样本对集对初始生成模型进行训练,得到训练完成的生成模型,有助于提升生成模型的图像和文本生成能力。
进一步参考图5,作为对上述各图所示方法的实现,本公开提供了一种信息生成装置的一个实施例,该装置实施例与图1所示的方法实施例相对应,该装置具体可以应用于各种电子设备中。
如图5所示,本实施例的信息生成装置500包括:获取模块501、拼接模块502和生成模块503。
其中,获取模块501,可被配置成响应于获取到目标信息,将目标信息转换为对应的文本向量和图像向量。
拼接模块502,可被配置成将文本向量和所述图像向量进行拼接,得到目标向量。
生成模块503,可被配置成基于目标向量和生成模型,得到与目标信息对应的图像和文本。
在本实施例的一些可选的方式中,生成模型通过以下方式训练得到:获取训练样本对集;基于第一损失函数,构建目标损失函数,其中,第一损失函数基于第一预测结果、输入的样本对构建,第一预测结果通过以下方式得到:将样本对中的图像样本或文本样本进行随机掩码,得到掩码后的样本对,将所述掩码后的样本对对应的目标向量输入初始生成模型,得到第一预测结果;基于训练样本对集和目标损失函数,对初始生成模型进行训练,得到训练完成的生成模型。
在本实施例的一些可选的方式中,基于第一损失函数,构建目标损失函数,包括:基于第一损失函数和第二损失函数,构建目标损失函数,其中,第二损失函数基于第二预测结果、输入的样本对构建,所述第二预测结果通过以下方式得到:将样本对中的图像样本或文本样本对应的目标向量输入初始生成模型,得到第二预测结果。
在本实施例的一些可选的方式中,基于第一损失函数和第二损失函数,构建目标损失函数,包括:基于第一损失函数、第二损失函数和图像表示一致性损失函数,构建目标损失函数。
在本实施例的一些可选的方式中,基于第一损失函数,构建目标损失函数,包括:基于第一损失函数和图像表示一致性损失函数,构建目标损失函数。
在本实施例的一些可选的方式中,生成模型通过以下方式训练得到:获取训练样本对集;基于第二损失函数,构建目标损失函数;基于样本对集和目标损失函数,对初始生成模型进行训练,得到训练完成的生成模型。
在本实施例的一些可选的方式中,基于第二损失函数,构建目标损失函数,包括:基于第二损失函数和图像表示一致性损失函数,构建目标损失函数。
在本实施例的一些可选的方式中,获取模块进一步被配置成:响应于确定获取的
目标信息为文本,将文本转换为对应的文本向量和预设的可训练的图像向量。
在本实施例的一些可选的方式中,获取模块进一步被配置成:响应于确定获取的目标信息为图像,将图像转换为对应的图像向量和预设的可训练的文本向量。
在本实施例的一些可选的方式中,获取模块进一步被配置成:响应于确定获取的目标信息为图像和文本,将图像和文本转换为对应的图像向量和文本向量。
在本实施例的一些可选的方式中,生成模块进一步被配置成:将目标向量输入生成模型,得到初始结果;响应于确定初始结果包含与目标信息对应的图像的序列信息,基于矢量量化变分自动编码将序列信息转换为图像。
本公开的技术方案中,所涉及的用户个人信息的获取,存储和应用等,均符合相关法律法规的规定,且不违背公序良俗。
根据本公开的实施例,本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。
如图6所示,是根据本公开实施例的信息生成方法的电子设备的框图。
600是根据本公开实施例的信息生成方法的电子设备的框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。
如图6所示,该电子设备包括:一个或多个处理器601、存储器602,以及用于连接各部件的接口,包括高速接口和低速接口。各个部件利用不同的总线互相连接,并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理,包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如,耦合至接口的显示设备)上显示GUI的图形信息的指令。在其它实施方式中,若需要,可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样,可以连接多个电子设备,各个设备提供部分必要的操作(例如,作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图6中以一个处理器601为例。
存储器602即为本公开所提供的非瞬时计算机可读存储介质。其中,所述存储器存储有可由至少一个处理器执行的指令,以使所述至少一个处理器执行本公开所提供的信息生成方法。本公开的非瞬时计算机可读存储介质存储计算机指令,该计算机指令用于使计算机执行本公开所提供的信息生成方法。
存储器602作为一种非瞬时计算机可读存储介质,可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块,如本公开实施例中的信息生成方法对应的程序指令/模块(例如,附图5所示的获取模块501、拼接模块502和生成模块503)。处理器601通过运行存储在存储器602中的非瞬时软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述方法实施例中的信息生成方法。
存储器602可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储人脸跟踪的电子设备的使用所创建的数据等。此外,存储器602可以包括高速随机存取存储器,还可以包括非瞬时存储器,例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中,存储器602可选包括相对于处理器601远程设置的存储器,这些远程存储器可以通过网络连接至车道线检测的电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
信息生成方法的电子设备还可以包括:输入装置603和输出装置604。处理器601、存储器602、输入装置603和输出装置604可以通过总线或者其他方式连接,图6中以通过总线连接为例。
输入装置603可接收输入的数字或字符信息,以及产生与车道线检测的电子设备的用户设置以及功能控制有关的键信号输入,例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置604可以包括显示设备、辅助照明装置(例如,LED)和触觉反馈装置(例如,振动电机)等。该显示设备可以包括但不限于,液晶显示器(LCD)、发光二极管(LED)显示器和等离子体显示器。在一些实施方式中,显示设备可以是触摸屏。
此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、专用ASIC(专用集成电路)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
这些计算程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令,并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的,术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如,磁盘、光盘、存储器、可编程逻辑装置(PLD)),包括,接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。
根据本公开实施例的技术方案,实现了图像和描述文本的同时生成。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本公开公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本公开保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等,均应包含在本公开保护范围之内。

Claims (13)

1.一种信息生成方法,包括:
响应于获取到目标信息,将所述目标信息转换为对应的文本向量和图像向量;
将所述文本向量和所述图像向量进行拼接,得到目标向量;
基于所述目标向量和生成模型,得到与所述目标信息对应的图像和文本,其中,所述生成模型基于样本对集和目标损失函数对初始生成模型进行训练得到,所述样本对包括图像样本和文本样本,所述图像样本和所述文本样本互为标注数据,所述目标损失函数基于第一损失函数和第二损失函数中的至少一项和图像表示一致性损失函数构建,所述第一损失函数基于第一预测结果、输入的样本对构建,所述第一预测结果通过以下方式得到:将样本对中的图像样本或文本样本进行随机掩码,得到掩码后的样本对,将所述掩码后的样本对对应的目标向量输入初始生成模型,得到第一预测结果,所述第二损失函数基于第二预测结果、输入的样本对构建,所述第二预测结果通过以下方式得到:将样本对中的图像样本或文本样本对应的目标向量输入初始生成模型,得到第二预测结果。
2.根据权利要求1所述的方法,其中,所述基于目标向量和生成模型,得到与所述目标信息对应的图像和文本,包括:
将所述目标向量输入生成模型,得到初始结果;
响应于确定所述初始结果包含与所述目标信息对应的图像的序列信息,基于矢量量化变分自动编码将所述序列信息转换为图像。
3.根据权利要求1-2任一所述的方法,其中,所述响应于获取到目标信息,将所述目标信息转换为对应的文本向量和图像向量,包括:
响应于确定获取的目标信息为文本,将所述文本转换为对应的文本向量和预设的可训练的图像向量。
4.根据权利要求1-2任一所述的方法,其中,所述响应于获取到目标信息,将所述目标信息转换为对应的文本向量和图像向量,包括:
响应于确定获取的目标信息为图像,将所述图像转换为对应的图像向量和预设的可训练的文本向量。
5.根据权利要求1-2任一所述的方法,其中,所述响应于获取到目标信息,将所述目标信息转换为对应的文本向量和图像向量,包括:
响应于确定获取的目标信息为图像和文本,将所述图像和文本转换为对应的图像向量和文本向量。
6.一种信息生成装置,包括:
获取模块,被配置成响应于获取到目标信息,将所述目标信息转换为对应的文本向量和图像向量;
拼接模块,被配置成将所述文本向量和所述图像向量进行拼接,得到目标向量;
生成模块,被配置成基于所述目标向量和生成模型,得到与所述目标信息对应的图像和文本,其中,所述生成模型基于样本对集和目标损失函数对初始生成模型进行训练得到,所述样本对包括图像样本和文本样本,所述图像样本和所述文本样本互为标注数据,所述目标损失函数基于第一损失函数和第二损失函数中的至少一项和图像表示一致性损失函数构建,所述第一损失函数基于第一预测结果、输入的样本对构建,所述第一预测结果通过以下方式得到:将样本对中的图像样本或文本样本进行随机掩码,得到掩码后的样本对,将所述掩码后的样本对对应的目标向量输入初始生成模型,得到第一预测结果,所述第二损失函数基于第二预测结果、输入的样本对构建,所述第二预测结果通过以下方式得到:将样本对中的图像样本或文本样本对应的目标向量输入初始生成模型,得到第二预测结果。
7.根据权利要求6所述的装置,其中,所述生成模块进一步被配置成:
将所述目标向量输入生成模型,得到初始结果;
响应于确定所述初始结果包含与所述目标信息对应的图像的序列信息,基于矢量量化变分自动编码将序列信息转换为图像。
8.根据权利要求6-7任一所述的装置,其中,所述获取模块进一步被配置成:
响应于确定获取的目标信息为文本,将所述文本转换为对应的文本向量和预设的可训练的图像向量。
9.根据权利要求6-7任一所述的装置,其中,所述获取模块进一步被配置成:
响应于确定获取的目标信息为图像,将所述图像转换为对应的图像向量和预设的可训练的文本向量。
10.根据权利要求6-7任一所述的装置,其中,所述获取模块进一步被配置成:
响应于确定获取的目标信息为图像和文本,将所述图像和文本转换为对应的图像向量和文本向量。
11.一种电子设备,其特征在于,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-5中任一项所述的方法。
12.一种存储有计算机指令的非瞬时计算机可读存储介质,其特征在于,所述计算机指令用于使所述计算机执行权利要求1-5中任一项所述的方法。
13.一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现根据权利要求1-5中任一项所述的方法。
CN202210176112.7A 2022-02-25 2022-02-25 信息生成方法和装置 Active CN114549935B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210176112.7A CN114549935B (zh) 2022-02-25 2022-02-25 信息生成方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210176112.7A CN114549935B (zh) 2022-02-25 2022-02-25 信息生成方法和装置

Publications (2)

Publication Number Publication Date
CN114549935A CN114549935A (zh) 2022-05-27
CN114549935B true CN114549935B (zh) 2024-05-07

Family

ID=81680191

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210176112.7A Active CN114549935B (zh) 2022-02-25 2022-02-25 信息生成方法和装置

Country Status (1)

Country Link
CN (1) CN114549935B (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114972823A (zh) * 2022-06-14 2022-08-30 北京有竹居网络技术有限公司 数据处理方法、装置、设备及计算机介质
CN115292455B (zh) * 2022-10-08 2023-03-24 有米科技股份有限公司 图文匹配模型的训练方法及装置
CN115510193B (zh) * 2022-10-10 2024-04-16 北京百度网讯科技有限公司 查询结果向量化方法、查询结果确定方法及相关装置
CN115393854B (zh) * 2022-10-27 2023-02-21 粤港澳大湾区数字经济研究院(福田) 一种视觉对齐处理方法、终端及存储介质
CN115880506B (zh) * 2022-12-27 2024-03-08 北京百度网讯科技有限公司 图像生成方法、模型的训练方法、装置及电子设备
CN116051668B (zh) * 2022-12-30 2023-09-19 北京百度网讯科技有限公司 文生图扩散模型的训练方法和基于文本的图像生成方法
JP7489503B1 (ja) 2023-02-14 2024-05-23 エヌ・ティ・ティ・コムウェア株式会社 テキスト生成装置、テキスト生成方法、およびプログラム
CN116152577B (zh) * 2023-04-19 2023-08-29 深圳须弥云图空间科技有限公司 图像分类方法及装置
CN116883528A (zh) * 2023-06-12 2023-10-13 阿里巴巴(中国)有限公司 图像生成方法及装置

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110110145A (zh) * 2018-01-29 2019-08-09 腾讯科技(深圳)有限公司 描述文本生成方法及装置
CN112200031A (zh) * 2020-09-27 2021-01-08 上海眼控科技股份有限公司 一种用于生成图像对应文字说明的网络模型训练方法与设备
CN112990302A (zh) * 2021-03-11 2021-06-18 北京邮电大学 基于文本生成图像的模型训练方法、设备和图像生成方法
CN113240056A (zh) * 2021-07-12 2021-08-10 北京百度网讯科技有限公司 多模态数据联合学习模型训练方法及装置
CN113360699A (zh) * 2021-06-30 2021-09-07 北京百度网讯科技有限公司 模型训练方法和装置、图像问答方法和装置
CN113590858A (zh) * 2021-06-30 2021-11-02 北京百度网讯科技有限公司 目标对象的生成方法、装置、电子设备以及存储介质
CN113591902A (zh) * 2021-06-11 2021-11-02 中国科学院自动化研究所 基于多模态预训练模型的跨模态理解与生成方法和装置
CN113781598A (zh) * 2021-10-25 2021-12-10 北京邮电大学 图像生成模型的训练方法和设备以及图像生成方法
CN113792113A (zh) * 2020-07-31 2021-12-14 北京京东尚科信息技术有限公司 视觉语言模型获得及任务处理方法、装置、设备及介质
CN113889074A (zh) * 2021-09-27 2022-01-04 平安科技(深圳)有限公司 语音生成方法、装置、设备及介质
CN113919363A (zh) * 2021-10-20 2022-01-11 中国平安人寿保险股份有限公司 基于人工智能的句向量生成模型的处理方法、装置及设备
CN114037003A (zh) * 2021-10-21 2022-02-11 北京百度网讯科技有限公司 问答模型的训练方法、装置及电子设备

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11605019B2 (en) * 2019-05-30 2023-03-14 Adobe Inc. Visually guided machine-learning language model
CN111143535B (zh) * 2019-12-27 2021-08-10 北京百度网讯科技有限公司 用于生成对话模型的方法和装置
CN111461203A (zh) * 2020-03-30 2020-07-28 北京百度网讯科技有限公司 跨模态处理方法、装置、电子设备和计算机存储介质
CN111832292B (zh) * 2020-06-03 2024-02-02 北京百度网讯科技有限公司 文本识别处理方法、装置、电子设备和存储介质
CN111428008B (zh) * 2020-06-11 2020-09-29 北京百度网讯科技有限公司 用于训练模型的方法、装置、设备以及存储介质

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110110145A (zh) * 2018-01-29 2019-08-09 腾讯科技(深圳)有限公司 描述文本生成方法及装置
CN113792113A (zh) * 2020-07-31 2021-12-14 北京京东尚科信息技术有限公司 视觉语言模型获得及任务处理方法、装置、设备及介质
CN112200031A (zh) * 2020-09-27 2021-01-08 上海眼控科技股份有限公司 一种用于生成图像对应文字说明的网络模型训练方法与设备
CN112990302A (zh) * 2021-03-11 2021-06-18 北京邮电大学 基于文本生成图像的模型训练方法、设备和图像生成方法
CN113591902A (zh) * 2021-06-11 2021-11-02 中国科学院自动化研究所 基于多模态预训练模型的跨模态理解与生成方法和装置
CN113360699A (zh) * 2021-06-30 2021-09-07 北京百度网讯科技有限公司 模型训练方法和装置、图像问答方法和装置
CN113590858A (zh) * 2021-06-30 2021-11-02 北京百度网讯科技有限公司 目标对象的生成方法、装置、电子设备以及存储介质
CN113240056A (zh) * 2021-07-12 2021-08-10 北京百度网讯科技有限公司 多模态数据联合学习模型训练方法及装置
CN113889074A (zh) * 2021-09-27 2022-01-04 平安科技(深圳)有限公司 语音生成方法、装置、设备及介质
CN113919363A (zh) * 2021-10-20 2022-01-11 中国平安人寿保险股份有限公司 基于人工智能的句向量生成模型的处理方法、装置及设备
CN114037003A (zh) * 2021-10-21 2022-02-11 北京百度网讯科技有限公司 问答模型的训练方法、装置及电子设备
CN113781598A (zh) * 2021-10-25 2021-12-10 北京邮电大学 图像生成模型的训练方法和设备以及图像生成方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Unifying vision-and-language tasks via text generation;Jaemin Cho 等;《In Proceedings of the 38th International Conference on Machine Learning》;20211231;1931–1942 *
一种基于注意力机制与多模态的图像描述方法;牛斌;李金泽;房超;马利;徐和然;纪兴海;;辽宁大学学报(自然科学版);20190215(第01期);44-51 *
跨层多模型特征融合与因果卷积解码的图像描述;罗会兰;岳亮亮;;中国图象图形学报;20200812(第08期);96-109 *

Also Published As

Publication number Publication date
CN114549935A (zh) 2022-05-27

Similar Documents

Publication Publication Date Title
CN114549935B (zh) 信息生成方法和装置
CN113240056B (zh) 多模态数据联合学习模型训练方法及装置
EP3859604A2 (en) Image recognition method and apparatus, device, and computer storage medium
CN112036509A (zh) 用于训练图像识别模型的方法和装置
CN111783870A (zh) 人体属性的识别方法、装置、设备及存储介质
CN111709873B (zh) 图像转换模型生成器的训练方法和装置
CN112149829B (zh) 确定网络模型剪枝策略的方法、装置、设备以及存储介质
EP3859605A2 (en) Image recognition method, apparatus, device, and computer storage medium
CN112270711B (zh) 模型训练以及姿态预测方法、装置、设备以及存储介质
CN114820871B (zh) 字体生成方法、模型的训练方法、装置、设备和介质
CN111753761B (zh) 模型生成方法、装置、电子设备及存储介质
CN110852379B (zh) 用于目标物体识别的训练样本生成方法及装置
CN113590858A (zh) 目标对象的生成方法、装置、电子设备以及存储介质
CN111078825A (zh) 结构化处理方法、装置、计算机设备及介质
CN111767833A (zh) 模型生成方法、装置、电子设备及存储介质
CN111680517A (zh) 用于训练模型的方法、装置、设备以及存储介质
CN115376211B (zh) 唇形驱动方法、唇形驱动模型的训练方法、装置及设备
CN114863437B (zh) 文本识别方法、装置、电子设备和存储介质
CN112149634A (zh) 图像生成器的训练方法、装置、设备以及存储介质
CN112149741A (zh) 图像识别模型的训练方法、装置、电子设备及存储介质
CN113870399B (zh) 表情驱动方法、装置、电子设备及存储介质
CN111523467A (zh) 人脸跟踪方法和装置
CN112085103B (zh) 基于历史行为的数据增强方法、装置、设备以及存储介质
CN116578925B (zh) 基于特征画像的行为预测方法、装置及存储介质
CN117746125A (zh) 图像处理模型的训练方法、装置及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant