CN112070852A - 图像的生成方法和系统、数据处理方法 - Google Patents
图像的生成方法和系统、数据处理方法 Download PDFInfo
- Publication number
- CN112070852A CN112070852A CN201910497678.8A CN201910497678A CN112070852A CN 112070852 A CN112070852 A CN 112070852A CN 201910497678 A CN201910497678 A CN 201910497678A CN 112070852 A CN112070852 A CN 112070852A
- Authority
- CN
- China
- Prior art keywords
- semantic
- image
- sequence
- scene
- text information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 141
- 238000003672 processing method Methods 0.000 title claims abstract description 13
- 230000009471 action Effects 0.000 claims description 38
- 238000013528 artificial neural network Methods 0.000 claims description 32
- 230000015654 memory Effects 0.000 claims description 29
- 238000012545 processing Methods 0.000 claims description 21
- 238000004458 analytical method Methods 0.000 claims description 12
- 239000000463 material Substances 0.000 claims description 10
- 238000003062 neural network model Methods 0.000 abstract description 27
- 230000008569 process Effects 0.000 description 31
- 241000406668 Loxodonta cyclotis Species 0.000 description 22
- 238000010586 diagram Methods 0.000 description 17
- 230000000694 effects Effects 0.000 description 15
- 230000006870 function Effects 0.000 description 12
- 230000000007 visual effect Effects 0.000 description 11
- 230000005540 biological transmission Effects 0.000 description 8
- 230000008859 change Effects 0.000 description 5
- 238000012549 training Methods 0.000 description 5
- 238000004891 communication Methods 0.000 description 4
- 230000014509 gene expression Effects 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 4
- 241000234295 Musa Species 0.000 description 3
- 235000021015 bananas Nutrition 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000010295 mobile communication Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000007670 refining Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T11/00—2D [Two Dimensional] image generation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Biophysics (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Processing Or Creating Images (AREA)
Abstract
本申请公开了一种图像的生成方法和系统、数据处理方法。其中,该方法包括:根据接收到的文本信息生成场景数据,其中,上述场景数据包括:上述文本信息所包含的语义主体和任意两个上述语义主体之间的关系;根据用于表示上述场景数据的场景序列,预测上述文本信息对应的图像的图像信息,其中,上述图像信息包含上述语义主体在上述图像中的布局参数;根据上述图像信息生成上述文本信息对应的图像。本申请解决了现有技术中将场景图作为神经网络模型的输入,导致得到的语义构图的结果不准确的技术问题。
Description
技术领域
本申请涉及计算机视觉领域,具体而言,涉及一种图像的生成方法和系统、数据处理方法。
背景技术
基于语义信息的多物体图像生成与图像检索一直是计算机视觉领域需要解决的核心问题之一。近年来,研究者逐渐意识到了语义构图的重要性并把语义构图作为连接语义信息与图像的中间表达形态,因此,由语义信息推理得到语义构图逐渐发展成为一个核心独立子问题。
研究者通过进一步将语义信息细化,由诸如自然语言形态的非结构化语义信息,向结构化的场景图表达过渡,使得整个问题拆分为两部分:1)由非结构化语义信息预测结构化场景图,属于自然语言处理范畴;2)由结构化场景图预测语义构图,则属于计算机视觉范畴。
现有技术中为解决第2)部分提及的问题,采用图卷积网络完成由场景图整体到语义构图整体的端到端的生成。但是,现有技术中由场景图整体作为神经网络模型的输入的方式极大地增加了场景图的变化,会造成几乎无穷多种不同的场景图使得数据难以被有效表达和泛化,最终导致语义构图的学习结果不准确。
针对上述现有技术中将场景图作为神经网络模型的输入,导致得到的语义构图的结果不准确的问题,目前尚未提出有效的解决方案。
发明内容
本申请实施例提供了一种图像的生成方法和系统、数据处理方法,以至少解决现有技术中将场景图作为神经网络模型的输入,导致得到的语义构图的结果不准确的技术问题。
根据本申请实施例的一个方面,提供了一种图像的生成方法,包括:根据接收到的文本信息生成场景数据,其中,上述场景数据包括:上述文本信息所包含的语义主体和任意两个上述语义主体之间的关系;根据用于表示上述场景数据的场景序列,预测上述文本信息对应的图像的图像信息,其中,上述图像信息包含上述语义主体在上述图像中的布局参数;根据上述图像信息生成上述文本信息对应的图像。
根据本申请实施例的另一方面,还提供了一种图像的生成方法,包括:接收文本文本信息;对上述文本信息进行语义分析,得到上述文本信息对应的场景数据,其中,上述场景数据包括:上述文本信息所包含的语义主体和上述语义主体之间的关系;根据上述场景数据确定上述文本信息对应的图像。
根据本申请实施例的另一方面,还提供了一种图像的生成方法,包括:获取结构化场景图对应的场景序列,其中,上述结构化场景图包括:用于表示语义主体的节点和任意两个节点之间的有向连接关系;根据上述场景序列预测上述结构化场景图对应的语义构图序列,其中,上述语义构图序列包括:与上述结构化场景图对应的语义构图中上述语义主体的布局参数;根据上述语义构图序列生成上述语义构图。
根据本申请实施例的另一方面,还提供了一种图像的生成方法,包括:接收文本信息,其中,上述文本信息包括;语义主体和任意两个上述语义主体之间的关系;根据上述文本信息对应的场景序列确定上述语义主体在图像中的布局参数;从图像数据库中查找上述语义主体对应的图像元素,并根据上述语义主体的布局参数将上述图像元素还原至对应的位置,得到上述语义主体对应的图像。
根据本申请实施例的另一方面,还提供了一种图像的生成系统,包括:处理器;以及存储器,与上述处理器连接,用于为上述处理器提供处理以下处理步骤的指令:根据接收到的文本信息生成场景数据,其中,上述场景数据包括:上述文本信息所包含的语义主体和任意两个上述语义主体之间的关系;根据用于表示上述场景数据的场景序列,预测上述文本信息对应的图像的图像信息,其中,上述图像信息包含上述语义主体在上述图像中的布局参数;根据上述图像信息生成上述文本信息对应的图像。
根据本申请实施例的另一方面,还提供了一种存储介质,上述存储介质包括存储的程序,其中,在上述程序运行时控制上述存储介质所在设备执行任意一项上述的图像的生成方法。
根据本申请实施例的另一方面,还提供了一种处理器,上述处理器用于运行程序,其中,上述程序运行时执行任意一项上述的图像的生成方法。
根据本申请实施例的另一方面,还提供了一种数据处理方法,包括:接收文本信息,其中,上述文本信息包含:语义主体和至少两个语义主体之间的关系;根据上述文本信息,生成场景序列;根据上述场景序列,生成上述文本信息对应的图像信息,其中,上述图像信息包含上述语义主体在上述图像中的布局参数。
在本申请实施例中,采用学习语义构图的生成过程而非直接学习其生成结果的方式,通过根据接收到的文本信息生成场景数据,其中,上述场景数据包括:上述文本信息所包含的语义主体和任意两个上述语义主体之间的关系;根据用于表示上述场景数据的场景序列,预测上述文本信息对应的图像的图像信息,其中,上述图像信息包含上述语义主体在上述图像中的布局参数;根据上述图像信息生成上述文本信息对应的图像。
基于本申请实施例,通过采用学习语义构图的生成过程而非直接学习其生成结果的方式,达到了提高基于场景图预测语义构图的结果准确性的目的,从而实现了更佳的完成生成图像或检索图像的视觉任务的技术效果,进而解决了现有技术中将场景图作为神经网络模型的输入,导致得到的语义构图的结果不准确的技术问题。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1是根据本申请实施例的一种用于实现图像的生成方法的计算机终端(或移动设备)的硬件结构框图;
图2是根据本申请实施例的一种图像的生成方法的流程图;
图3是根据本申请实施例的一种可选的图像的生成方法的流程图;
图4是根据本申请实施例的一种可选的图像的生成方法的场景示意图;
图5是根据本申请实施例的另一种图像的生成方法的流程图;
图6是根据本申请实施例的又一种图像的生成方法的流程图;
图7是根据本申请实施例的再一种图像的生成方法的流程图;
图8是根据本申请实施例的一种图像的生成装置的示意图;
图9是根据本申请实施例的另一种图像的生成装置的示意图;
图10是根据本申请实施例的又一种图像的生成装置的示意图;
图11是根据本申请实施例的再一种图像的生成装置的示意图;
图12是根据本申请实施例的一种计算机终端的结构框图;
图13是根据本申请实施例的一种数据处理方法的流程图;以及
图14是根据本申请实施例的一种数据处理装置的示意图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
首先,在对本申请实施例进行描述的过程中出现的部分名词或术语适用于如下解释:
序列到序列的学习(Sequence-to-sequence learning):也即序列到序列的神经网络,是训练将一个领域(如英文)的序列转换为另一个领域(如法语)的序列的神经网络的技术。
场景图(Scene graph):是一种用于组织场景的“图”数据结构,通常以逻辑关系(如整体-部分)划分数据,也可以按照其他关系(如空间关系、状态等)划分数据,其特点是层次结构,由于某个层次的数据的规模相比整体数据大规模衰减,缩小规模进而提高效率。
语义构图(Semantic layout):是指基于语义主体的布局参数所合成的层次化文本图像,为所有由语义定界框所组成的集合。
语义定界框(Semantic bounding box,sBBox):用于语义构图中以标记语义主体的位置和大小。
图卷积神经网络(Graph convolution network):是指一种能够对图数据(Graph)进行深度学习的方法,其研究对象是图数据,研究模型是卷积神经网络;其中,卷积神经网络是一类包含卷积计算且具有深度结构的前馈神经网络。
实施例1
根据本申请实施例,提供了一种图像的生成方法的实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
本申请实施例1所提供的方法实施例可以在移动终端、计算机终端或者类似的运算装置中执行。图1示出了一种用于实现图像的生成方法的计算机终端(或移动设备)的硬件结构框图。如图1所示,计算机终端10(或移动设备10)可以包括一个或多个(图中采用102a、102b,……,102n来示出)处理器102(处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)、用于存储数据的存储器104、以及用于通信功能的传输模块106。除此以外,还可以包括:显示器、输入/输出接口(I/O接口)、通用串行总线(USB)端口(可以作为I/O接口的端口中的一个端口被包括)、网络接口、电源和/或相机。本领域普通技术人员可以理解,图1所示的结构仅为示意,其并不对上述电子装置的结构造成限定。例如,计算机终端10还可包括比图1中所示更多或者更少的组件,或者具有与图1所示不同的配置。
应当注意到的是上述一个或多个处理器102和/或其他数据处理电路在本文中通常可以被称为“数据处理电路”。该数据处理电路可以全部或部分的体现为软件、硬件、固件或其他任意组合。此外,数据处理电路可为单个独立的处理模块,或全部或部分的结合到计算机终端10(或移动设备)中的其他元件中的任意一个内。如本申请实施例中所涉及到的,该数据处理电路作为一种处理器控制(例如与接口连接的可变电阻终端路径的选择)。
存储器104可用于存储应用软件的软件程序以及模块,如本申请实施例中的(图像的生成方法对应的程序指令/数据存储装置,处理器102通过运行存储在存储器104内的软件程序以及模块,从而执行各种功能应用以及数据处理,即实现上述的图像的生成方法。存储器104可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器104可进一步包括相对于处理器102远程设置的存储器,这些远程存储器可以通过网络连接至计算机终端10。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
传输模块106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括计算机终端10的通信供应商提供的无线网络。在一个实例中,传输模块106包括一个网络适配器(Network Interface Controller,NIC),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,传输模块106可以为射频(Radio Frequency,RF)模块,其用于通过无线方式与互联网进行通讯。
显示器可以例如触摸屏式的液晶显示器(LCD),该液晶显示器可使得用户能够与计算机终端10(或移动设备)的用户界面进行交互。
在上述运行环境下,本申请提供了如图2所示的图像的生成方法,图2是根据本申请实施例的一种图像的生成方法的流程图,如图2所示,上述图像的生成方法,包括以下方法步骤:
步骤S202,根据接收到的文本信息生成场景数据,其中,上述场景数据包括:上述文本信息所包含的语义主体和任意两个上述语义主体之间的关系。
本申请上述实施例的步骤可以由智能终端执行,尤其可以是智能家居设备,例如:智能音箱等。
具体的,上述文本信息可以是在设备进入指定功能后收到的文本信息,例如,设备进入文本搜图的功能后所接收到的文本信息。上述场景数据是根据文本信息转化得到的数据,该数据可以以场景图像的方式或其他方式存储。
图3是根据本申请实施例1的一种生成图像的示意图,在一种可选的实施例中,结合图3所示,左侧为以场景图像的方式记录场景数据。场景图像中包括多个节点,节点之间还具有有向的连接关系,其中,每个节点用于表示语义主体,而节点之间的连接关系则用于表示任意两个语义主体之间的关系。
作为一种可选的实施例,上述文本信息可以为非结构化语义信息,例如自然语言文本,例如,一个儿童说出的一句话,例如,“一个女孩在喂一个大象”;接收到该语音信息后,对该语音信息进行语音识别,得到文本信息,然后可以根据文本信息所包含的语义主体“女孩”和“大象”,以及两个语义主体“女孩”和“大象”之间的关系“喂”,生成与该文本信息对应的场景数据;其中,上述语义主体可以但不限于包括:用于表示主语的第一语义主体“女孩”,用于表示谓语的第二语义主体“喂”和用于表示宾语的第三语义主体“大象”。
步骤S204,根据用于表示上述场景数据的场景序列,预测上述文本信息对应的图像的图像信息,其中,上述图像信息包含上述语义主体在上述图像中的布局参数。
具体的,场景序列是场景数据的一种表现方式,用于将场景数据中各个语义主体之间的关系通过序列的方式抽象出来。上述布局参数可以包括语义主体在图像中的位置、大小等参数。
在一种可选的实施例中,上述图像信息可以使用预设的由序列到序列的神经网络模型,根据场景序列进行预测得到,从而得到的图像信息也是序列的表现形式。
步骤S206,根据上述图像信息生成上述文本信息对应的图像。
由于基于上述步骤S204中确定了语义主体及其布局参数,因此可以根据语义主体查找到其所对应的元素,再根据语义主体的布局参数,将语义主体对应的元素贴至预设的背景图像中,与布局参数对应的位置,即可生成上述文本信息对应的图像。
在一种可选的实施例中,仍结合图3所示,右侧部分表示的即为生成的图像,该图像与左侧的场景图像中所表达的各个语义主体之间的关系相同。
如图3所示,该图像中包括A子图像、B子图像、C子图像,分别对应左侧的场景图像中所表达的各个语义主体之间的关系,A子图像中展示了一个正在拍摄照片的男人,B子图像中展示了一个正在喂大象吃香蕉的女孩,C子图像中展示了一个正在伸头去够香蕉的大象,B子图像和C子图像存在交叉,交叉部分即女孩手中拿着香蕉和大象的鼻子,A子图像中的男人站在B子图像中女孩的后方,并且,根据语义主体“女孩”查找到其所对应的元素“笑”、“穿”和“T恤”,还可以确定该女孩穿着T恤,表情是笑着的。
需要说明的是,本申请实施例所提出的图像的生成方法即可以理解为一种由场景图生成图像(即语义构图)的序列到序列的神经网络学习方法(序列到序列的学习方法),具体的,该神经网络可以为图卷积神经网络;该方法可以但不限于应用在儿童早教、儿童智力培养等儿童教育领域,例如,可以根据接收到的儿童输出的文本信息生成场景数据,并基于用于表示该场景数据的场景序列预测与该文本信息对应的图像的图像信息,进而根据该图像信息生成与该文本信息对应的图像。
作为一种可选的实施例,可以通过对上述文本信息进行语义分析,得到上述文本信息对应的场景数据,上述场景数据中还可以包括:图像的背景信息和定界框,其中,根据上述图像的图像信息中的语义主体和语义主体的布局参数(例如,位置和大小)设置图像的定界框;上述图像的背景信息可以是随机的,例如,可以是预设的素材库中的一个图像元素,且该图像元素作为背景信息可以固定在图像的最底层,并且平铺至整个图像。
以上述文本信息为一个儿童说出的一句话:“一个女孩在喂一个大象,她的后方有一个男人在拍照”为例,则可以将在“女孩”的后方正在拍照的“男人”作为图像的背景信息,固定在图像的最底层,并且平铺至整个图像。
在本申请实施例中,可以先根据接收到的文本信息生成场景数据,再基于场景数据的场景序列,预测上述文本信息对应的图像的图像信息,依据该图像信息生成与文本信息对应的图像,其中,最终所生成的与文本信息对应的图像可以但不限于为贴图。
本申请实施例通过学习语义构图的生成过程而不是直接学习其生成结果,并且,本申请实施例中以非结构化的文本信息作为序列到序列的神经网络模型的输入,实现对语义构图的预测,进而可以完成生成图像或检索图像的视觉任务,达到更佳的图像生成效果或图像检索效果。
仍需要说明的是,由于一幅语义构图主要由其中所有互相有关系的语义主体所决定,本申请实施例进一步将神经网络模型的输入细分到组成语义构图的最基本单元:语义主体之间的关系,并通过学习如何拖拽关系内的语义主体至语义构图,例如,学习一张场景图中的各个关系,每获取到一个任意两个语义主体之间的关系,在语义构图“画布”上拖拽语义主体的两个定界框(例如,一个主语对应的第一语义主体,一个宾语对应的第三语义主体)的位置并调整两个定界框的大小的过程;并将生成语义构图的过程进行建模,抽象成为若干个如表1所示的基础动作代码段BACS,通过学习通用的基础动作代码段的共性减少神经网络模型的输入的变化,以达到更好学习最终语义构图的目的。
表1
其中,在上表1中前缀c表示设置定界框所属语义类的索引号(class index),例如:若总共有100类物体,其中比如“房子”为第1类物体,则索引号为0。在表1中,若前缀c表示将语义定界框sBBox的类索引号设置为0,则对应的代码可以例举为c00。
上表1中的定界框sBBox还包括:x:定界框在图像上的最小x,y:定界框在图像上的最小y,坐标(x,y)定义了定界框的左上角坐标;w:定界框的宽度,h:定界框的高度。上表1中xp表示设置语义定界框sBBox中x的最小值为一个正值,该正值为对应所处图像格沿x方向的索引号。若图像沿x方向有1000个像素,量化分成40个图像格grid,那坐标x为0-24的所有像素都会落到x索引号为0的图像格grid内,与xp同理,表1中xn,yp,yn都有类似含义。
在上表1中ixp、ixn、iyp、iyn(表1中索引号6-9)为设置宾语语义定界框sBBox所对应的x,y坐标;与主语代码不同,主语语义定界框sBBox和宾语语义定界框sBBox构成了一个语义关系三元组所对应的两端,且关系是被相对位置所学习的,而宾语ix,iy所对应的是这种相对位置,意为相对于主语语义定界框sBBox的x和y坐标,设置宾语语义定界框sBBox的x和y坐标为右移(ixp),左移(ixn),上移(iyn),下移(iyp)若干个图像格grid坐标。所有的语义关系都被编码到这个相对坐标内。因为关系不会影响物体大小,因此物体主宾的w和h采用同样的代码。
仍需说明的是,上表1中的前缀imgar则主要用于标识设置画布的长宽比,为可选输出项,并非必须。
在本申请实施例中,采用学习语义构图的生成过程而非直接学习其生成结果的方式,通过根据接收到的文本信息生成场景数据,其中,上述场景数据包括:上述文本信息所包含的语义主体和任意两个上述语义主体之间的关系;根据用于表示上述场景数据的场景序列,预测上述文本信息对应的图像的图像信息,其中,上述图像信息包含上述语义主体在上述图像中的布局参数;根据上述图像信息生成上述文本信息对应的图像。
基于本申请实施例,通过采用学习语义构图的生成过程而非直接学习其生成结果的方式,达到了提高基于场景图预测语义构图的结果准确性的目的,从而实现了更佳的完成生成图像或检索图像的视觉任务的技术效果,进而解决了现有技术中将场景图作为神经网络模型的输入,导致得到的语义构图的结果不准确的技术问题。
在一种可选的实施例中,根据用于表示上述场景数据的场景序列,预测上述文本信息对应的图像的图像信息,包括:
步骤S302,获取上述场景数据对应的场景序列;
步骤S304,基于上述场景序列,根据序列到序列的神经网络,预测得到图像信息序列,其中,上述图像信息序列包括用于表示上述图像信息的基础动作代码段。
具体的,上述序列到序列的神经网络的输入和输出均为以序列的方式所表示的数据,序列到序列的神经网络在训练的过程中学习的是设计师拖住的动作。
在一种可选的实施例中,获取海量的图像元素(在最初的训练中,该图像元素可以由设计师绘制,随着样本的增多,设计师无需再绘制新的图像元素,而是可以直接进行使用),设计师根据场景数据,将语义主体对应的图像元素拖拽至预定的位置。将场景数据对应的序列和设计师拖拽的动作或位置作为样本集合,由序列到序列的神经网络进行学习即可。
在一种可选的实施例中,上述图像信息序列包括两组基础动作代码段,其中,第一组动作代码段用于表示第一语义主体(即用于表示主语的第一语义主体)的布局参数,第二组动作代码段用于表示第三语义主体(即用于表示宾语的第三语义主体)的布局参数。
在另一种可选的实施例中,上述场景序列可以为依据场景数据中的关系三元组构成的场景序列,基于获取到的场景数据对应的场景序列,根据序列到序列的神经网络,可以预测得到图像信息序列,由于该图像信息序列包括用于表示上述图像信息的基础动作代码段,也即可以预测得到文本信息对应的图像(即语义构图)的图像信息。
在一种可选的实施例中,可以采用一个转换器(例如,6层转换器Transformer)作为编解码器组成的序列到序列的神经网络,以一个场景序列SGSeq作为序列到序列的神经网络模型的输入,预测得到图像信息序列SLSeq,其中,该图像信息序列SLSeq可以包括两组基础动作代码段(brick-action code segments,BACS),例如,用于表示第一语义主体的布局参数的第一组动作代码段,用于表示第三语义主体的布局参数的第二组动作代码段。
需要说明的是,每组基础动作代码段BACS与场景序列SGSeq中的一个关系三元组一一对应并且包含有以下信息:如何在图像中设置第一语义主体的布局参数(也即,第一语义主体的定界框在图像中的位置和大小)和第三语义主体的布局参数(也即,第三语义主体的定界框在图像中的位置和大小)。
作为一种可选的实施例,上述基础动作代码段BACS的类型和功能可以如上表1所示,例如,每个基础动作代码段BACS可以由10个词组成,与其对应的场景序列的关系三元组相对应;上述10个词的前缀可以分别为:c,xp(n),yp(n),w,h,c,ixp(n),iyp(n),w,h;在上述10个词中,前5个词用于表示主语所对应的定界框sBBox的类型以及其在语义构图中的绝对位置及大小,后5个词用于表示宾语所对应的定界框sBBox的类型以及其在语义构图中相对主语的位置及大小。
通过学习主语在语义构图中的绝对位置和宾语在语义构图中的相对位置,可以学习得到场景数据中的主语和宾语之间的关系。通过学习同时在语义构图中出现的多个关系的历史数据,可以学习多个关系间的语义构图的图像信息。
在一种可选的实施例中,获取上述场景数据对应的场景序列,包括:
步骤S402,提取上述场景数据中的关系三元组,其中,上述关系三元组包括:用于表示主语的第一语义主体,用于表示谓语的第二语义主体和用于表示宾语的第三语义主体;
步骤S404,根据上述关系三元组构成上述场景序列。
在本申请实施例中,可以通过场景图的形式展示上述场景数据,如图4所示,根据接收到的文本信息生成场景数据,并且,该场景数据中至少包括:上述文本信息所包含的语义主体和任意两个上述语义主体之间的关系,通过提取场景数据中的关系三元组,将一张场景图转换为一个由场景数据中的关系三元组(用于表示主语的第一语义主体-用于表示谓语的第二语义主体-用于表示宾语的第三语义主体)构成的场景序列SGSeq,其中,如图4所示,上述根据关系三元组构成场景序列的过程即为场景序列化。作为一种可选的实施例,上述场景图可以为结构化场景图,例如,有向图。
在一种可选的实施例中,根据上述图像信息生成上述文本信息对应的图像,包括:
步骤S502,根据上述图像信息中的语义主体和上述语义主体的布局参数设置上述定界框;
步骤S504,基于上述定界框构成上述图像。
在一种可选的实施例中,上述语义主体的布局参数包括:上述语义主体的定界框在上述图像中的位置和大小。
可选的,上述定界框即语义定界框,可以应用于语义构图中以标记语义主体的位置和大小。
在本申请一种可选的实施例中,由于图像信息包含语义主体在图像中的布局参数,即该语义主体的定界框在上述图像中的位置和大小。在根据场景数据中的关系三元组构成场景序列之后,根据场景数据对应的场景序列预测得到文本信息对应的图像的图像信息,进而根据图像信息中的语义主体和该语义主体的布局参数设置该语义主体的定界框;并基于上述定界框构成上述图像。
作为一种可选的实施例,可以从图像数据库中查找上述语义主体对应的图像元素,并根据上述语义主体的布局参数将上述图像元素还原至对应的位置,得到上述语义主体对应的图像。
在一种可选的实施例中,基于上述定界框构成上述图像,包括:
步骤S602,从预设的素材库中,选择上述图像信息中的语义主体所对应的语义主体图像;
步骤S604,根据上述定界框确定上述语义主体图像的位置和大小,得到上述文本信息对应的图像。
作为一种可选的实施例,可以将语义主体图像预存至预设的素材库中,由于图像信息中的语义主体与语义主体图像存在一一对应关系,可以在生成文本信息对应的图像的情况下,从预设的素材库中选择图像信息中的语义主体所对应的语义主体图像,并根据语义主体的定界框确定语义主体图像的位置和大小,得到与文本信息对应的图像。
在一种可选的实施例中,在根据上述图像信息生成上述文本信息对应的图像之前,上述方法还包括:步骤S702,获取标识信息序列。
由于将一张场景图转换为一个由关系三元组构成的场景序列SGSeq,可能存在丢失语义主体之间的对应关系的问题,因此,本申请实施例中,在根据上述图像信息生成上述文本信息对应的图像之前,还可以获取每个语义主体对应的标识构成的标识信息序列nSeq(如图4所示的节点序列),并以该标识信息序列nSeq作为根据图像信息生成文本信息对应的图像的辅助。
在上述步骤S702中,获取标识信息序列的步骤包括:
步骤S7021,提取上述场景数据中的关系三元组,其中,上述关系三元组包括:用于表示主语的第一语义主体,用于表示谓语的第二语义主体和用于表示宾语的第三语义主体;
步骤S7023,获取上述关系三元组中每个语义主体对应的标识;
步骤S7025,根据上述关系三元组中上述每个语义主体对应的标识构成上述标识信息序列。
在上述可选的实施例中,在依据接收到的文本信息生成场景数据之后,可以提取该场景数据中的关系三元组,并获取关系三元组中每个语义主体对应的标识,进而基于该关系三元组中每个语义主体对应的标识构成标识信息序列。
在一种可选的实施例中,根据上述图像信息生成上述文本信息对应的图像,包括:步骤S802,根据上述图像信息和上述标识信息序列生成上述文本信息对应的图像。
为避免在将一张场景图转换为一个由关系三元组构成的场景序列SGSeq的过程中,可能存在的丢失语义主体之间对应关系的问题,在本申请一种可选的实施例中,可以将标识信息序列作为根据图像信息生成文本信息对应的图像的辅助,仍如图4所示,在获取到标识信息序列nSeq之后,根据图像信息序列SLSeq(即如图4所示的场景构图序列)和标识信息序列nSeq(即如图4所示的节点序列)得到场景构图,并基于该场景构图生成得到与文本信息对应的图像。
在步骤S802中,根据上述图像信息和上述标识信息序列生成上述文本信息对应的图像的步骤包括:
步骤S8021,根据上述标识信息序列确定上述图像信息中用于表示同一个语义主体的定界框;
步骤S8023,将用于表示同一个语义主体的定界框进行融合;
步骤S8025,根据上述图像信息中的语义主体和上述语义主体的布局参数设置上述定界框;
步骤S8027,基于上述定界框构成上述图像。
在本申请实施例中,可以基于预测得到的图像信息序列SLSeq中所包括的图像信息的基础动作代码段BACS,生成与接收到的文本信息对应的图像。采用标识信息序列nSeq中的关系三元组中每个语义主体对应的标识(例如,节点ID),可以判断预测得到的基础动作代码段BACS中的哪些语义定界框对应同一个语义主体,进而可以将用于表示同一个语义主体的定界框进行融合,最终基于上述定界框生成文本信息对应的图像。
需要说明的是,采用序列到序列的神经网络学习的方式,学习关系内语义主体的相对位置以代表这个关系的特点,解决此类问题的类似方法都应包含在本申请所要求保护的范围内。
实施例2
根据本申请实施例,还提供了另一种图像的生成方法的实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
在上述运行环境下,本申请提供了如图5所示的图像的生成方法,图5是根据本申请实施例的另一种图像的生成方法的流程图,如图5所示,上述图像的生成方法,包括以下方法步骤:
步骤S902,接收文本信息;
步骤S904,对上述文本信息进行语义分析,得到上述文本信息对应的场景数据,其中,上述场景数据包括:上述文本信息所包含的语义主体和上述语义主体之间的关系;
步骤S906,根据上述场景数据确定上述文本信息对应的图像。
本申请上述实施例的步骤可以由智能终端执行,尤其可以是智能家居设备,例如:智能音箱等。
具体的,上述文本信息可以是在设备进入指定功能后收到的文本信息,例如,设备进入文本搜图的功能后所接收到的文本信息,或者设备进入文本搜图功能后对接收到的语音信息进行语音识别后得到的文本信息。上述场景数据是根据文本信息转化得到的数据,该数据可以以场景图像的方式或其他方式存储。
在一种可选的实施例中,仍结合图3所示,左侧为以场景图像的方式记录场景数据。场景图像中包括多个节点,节点之间还具有有向的连接关系,其中,每个节点用于表示语义主体,而节点之间的连接关系则用于表示任意两个语义主体之间的关系。
在本申请实施例中,可以先根据接收到的文本信息生成场景数据,再基于场景数据的场景序列,预测上述文本信息对应的图像的图像信息,依据该图像信息生成与文本信息对应的图像,其中,最终生成的与文本信息对应的图像可以为贴图。
具体的,场景序列是场景数据的一种表现方式,用于将场景数据中各个语义主体之间的关系通过序列的方式抽象出来。上述布局参数可以包括语义主体在图像中的位置、大小等参数。
在一种可选的实施例中,上述图像信息可以使用预设的由序列到序列的神经网络模型,根据场景序列进行预测得到,从而得到的图像信息也是序列的表现形式。
在本申请上述可选的实施例中,确定了语义主体及其布局参数,因此可以根据语义主体查找到其所对应的元素,再根据语义主体的布局参数,将语义主体对应的元素贴至预设的背景图像中,与布局参数对应的位置,即可得到生成的图像。在一种可选的实施例中,仍结合图3所示,右侧部分表示的即为生成得到的图像,该图像与左侧的场景图像中所表达的各个语义主体之间的关系相同。
需要说明的是,本申请实施例所提出的图像的生成方法即可以理解为一种由场景图生成图像(即语义构图)的序列到序列的神经网络学习方法,可以但不限于应用在儿童教育领域,例如,可以根据接收到的儿童的文本信息生成场景数据,并基于用于表示该场景数据的场景序列预测与儿童的文本信息对应的图像的图像信息,进而根据该图像信息生成与该儿童的文本信息对应的图像。
可选的,上述文本信息可以为非结构化语义信息,例如自然语言文本,例如,一个儿童说出的一句话,例如,“一个女孩在喂一个大象”;可以根据文本信息所包含的语义主体“女孩”和“大象”,以及两个语义主体“女孩”和“大象”之间的关系“喂”,生成与该文本信息对应的场景数据;其中,上述语义主体可以但不限于包括:用于表示主语的第一语义主体“女孩”,用于表示谓语的第二语义主体“喂”和用于表示宾语的第三语义主体“大象”。
作为一种可选的实施例,可以通过对上述文本信息进行语义分析,得到上述文本信息对应的场景数据,上述场景数据中还可以包括:图像的背景信息和定界框,其中,根据上述图像的图像信息中的语义主体和语义主体的布局参数(例如,位置和大小)设置图像的定界框;上述图像的背景信息可以是随机的,例如,可以是预设的素材库中的一个图像元素,且该图像元素作为背景信息可以固定在图像的最底层,并且平铺至整个图像。
以上述文本信息为一个儿童说出的“一个女孩在喂一个大象,她的后方有一个男人在拍照”为例,则可以将在“女孩”的后方正在拍照的“男人”作为图像的背景信息,固定在图像的最底层,并且平铺至整个图像。
本申请实施例通过学习语义构图的生成过程而不是直接学习其生成结果,并且,本申请实施例中以非结构化的文本信息作为序列到序列的神经网络模型的输入,实现对语义构图的预测,进而可以完成生成图像或检索图像的视觉任务,达到更佳的图像生成效果或图像检索效果。
仍需要说明的是,由于一幅语义构图主要由其中所有互相有关系的语义主体所决定,本申请实施例进一步将神经网络模型的输入细分到组成语义构图的最基本单元:语义主体之间的关系,并通过学习如何拖拽关系内的语义主体至语义构图,例如,学习一张场景图中的各个关系,每获取到一个任意两个语义主体之间的关系,在语义构图“画布”上拖拽语义主体的两个定界框(例如,一个主语对应的第一语义主体,一个宾语对应的第三语义主体)的位置并调整两个定界框的大小的过程;并将生成语义构图的过程进行建模,抽象成为若干个基础动作代码段BACS,通过学习通用的基础动作代码段的共性减少神经网络模型的输入的变化,以达到更好学习最终语义构图的目的。
在本申请实施例中,采用学习语义构图的生成过程而非直接学习其生成结果的方式,通过接收文本信息;对上述文本信息进行语义分析,得到上述文本信息对应的场景数据,其中,上述场景数据包括:上述文本信息所包含的语义主体和上述语义主体之间的关系;根据上述场景数据确定上述文本信息对应的图像。
基于本申请实施例,通过采用学习语义构图的生成过程而非直接学习其生成结果的方式,达到了提高基于场景图预测语义构图的结果准确性的目的,从而实现了更佳的完成生成图像或检索图像的视觉任务的技术效果,进而解决了现有技术中将场景图作为神经网络模型的输入,导致得到的语义构图的结果不准确的技术问题。
需要说明的是,本实施例的可选或优选实施方式可以参见实施例1中的相关描述,此处不再赘述。
实施例3
根据本申请实施例,还提供了又一种图像的生成方法的实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
在上述运行环境下,本申请提供了如图6所示的图像的生成方法,图6是根据本申请实施例的又一种图像的生成方法的流程图,如图6所示,上述图像的生成方法,包括以下方法步骤:
步骤S1002,获取结构化场景图对应的场景序列,其中,上述结构化场景图包括:用于表示语义主体的节点和任意两个节点之间的有向连接关系。
本申请上述实施例的步骤可以由智能终端执行,尤其可以是智能家居设备,例如:智能音箱等。
具体的,上述结构化场景图可以是用于记录场景数据的场景图像;更具体的,可以是用于记录根据文本信息转换得到的场景数据的场景图像。其所包括的节点即为文本信息中的语义主体,而节点之间的连接关系既可以为文本信息中语义主体的关联关系。该关联关系可以是主语与宾语之间的连接关系。
步骤S1004,根据上述场景序列预测上述结构化场景图对应的语义构图序列,其中,上述语义构图序列包括:与上述结构化场景图对应的语义构图中上述语义主体的布局参数。
步骤S1006,根据上述语义构图序列生成上述语义构图。
具体的,上述语义构图指的是由语义边框所组成的集合。结合图3所示,即为图3中矩形边框的集合。
需要说明的是,本申请实施例所提出的图像的生成方法即可以理解为一种由场景图生成图像(即语义构图)的序列到序列的神经网络学习方法,具体的,该神经网络可以为图卷积神经网络;该方法可以但不限于应用在儿童早教、儿童智力培养等儿童教育领域。
可选的,上述结构化场景图可以为有向图,包括用于表示语义主体的节点和任意两个节点之间的有向连接关系。
具体的,如图4所示的场景序列是场景数据的一种表现方式,用于将场景数据中各个语义主体之间的关系通过序列的方式抽象出来。上述布局参数可以包括语义主体在图像中的位置、大小等参数。
在本申请的一种可选的实施例中,上述场景序列可以用于表示上述结构化场景图的场景数据,基于上述场景序列,根据序列到序列的神经网络,预测得到语义构图序列,也即,与上述结构化场景图对应的语义构图中的语义主体的布局参数;进而根据语义构图中的义主体和该语义主体的布局参数设置该语义主体的定界框;并基于上述定界框生成语义构图。
在本申请上述可选的实施例中,确定了语义主体及其布局参数,因此可以根据语义主体查找到其所对应的元素,再根据语义主体的布局参数,将语义主体对应的元素贴至预设的背景图像中,与布局参数对应的位置,即可得到生成的语义构图。在一种可选的实施例中,仍结合图3所示,右侧部分表示的即为生成得到的语义构图,该语义构图与左侧的场景图像中所表达的各个语义主体之间的关系相同。
可选的,上述语义构图序列可以为一种图像信息序列,该图像信息序列可以包括两组基础动作代码段,其中,第一组动作代码段用于表示上述第一语义主体的布局参数,第二组动作代码段用于表示上述第三语义主体的布局参数。
在一种可选的实施例中,上述语义主体的布局参数包括:上述语义主体的定界框在上述图像中的位置和大小。可选的,上述定界框即语义定界框,可以应用于语义构图中以标记语义主体的位置和大小。
仍需要说明的是,由于一幅语义构图主要由其中所有互相有关系的语义主体所决定,本申请实施例进一步将神经网络模型的输入细分到组成语义构图的最基本单元:语义主体之间的关系,并通过学习如何拖拽关系内的语义主体至语义构图,例如,学习一张场景图中的各个关系,每获取到一个任意两个语义主体之间的关系,在语义构图“画布”上拖拽语义主体的两个定界框(例如,一个主语对应的第一语义主体,一个宾语对应的第三语义主体)的位置并调整两个定界框的大小的过程;并将生成语义构图的过程进行建模,抽象成为若干个基础动作代码段BACS,通过学习通用的基础动作代码段的共性减少神经网络模型的输入的变化,以达到更好学习最终语义构图的目的。
在本申请实施例中,采用学习语义构图的生成过程而非直接学习其生成结果的方式,通过获取结构化场景图对应的场景序列,其中,上述结构化场景图包括:用于表示语义主体的节点和任意两个节点之间的有向连接关系;根据上述场景序列预测上述结构化场景图对应的语义构图序列,其中,上述语义构图序列包括:与上述结构化场景图对应的语义构图中上述语义主体的布局参数;根据上述语义构图序列生成上述语义构图。
基于本申请实施例,通过采用学习语义构图的生成过程而非直接学习其生成结果的方式,达到了提高基于场景图预测语义构图的结果准确性的目的,从而实现了更佳的完成生成图像或检索图像的视觉任务的技术效果,进而解决了现有技术中将场景图作为神经网络模型的输入,导致得到的语义构图的结果不准确的技术问题。
需要说明的是,本实施例的可选或优选实施方式可以参见实施例1中的相关描述,此处不再赘述。
实施例4
根据本申请实施例,还提供了再一种图像的生成方法的实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
在上述运行环境下,本申请提供了如图7所示的图像的生成方法,图7是根据本申请实施例的再一种图像的生成方法的流程图,如图7所示,上述图像的生成方法,包括以下方法步骤:
步骤S1102,接收文本信息,其中,上述文本信息包括;语义主体和任意两个上述语义主体之间的关系;
步骤S1104,根据上述文本信息对应的场景序列确定上述语义主体在图像中的布局参数;
步骤S1106,从图像数据库中查找上述语义主体对应的图像元素,并根据上述语义主体的布局参数将上述图像元素还原至对应的位置,得到上述语义主体对应的图像。
本申请上述实施例的步骤可以由智能终端执行,尤其可以是智能家居设备,例如:智能音箱等。
具体的,上述文本信息可以是在设备进入指定功能后收到的文本信息,例如,设备进入文本搜图的功能后所接收到的文本信息。上述场景数据是根据文本信息转化得到的数据,该数据可以以场景图像的方式或其他方式存储。
在一种可选的实施例中,仍结合图3所示,左侧为以场景图像的方式记录场景数据。场景图像中包括多个节点,节点之间还具有有向的连接关系,其中,每个节点用于表示语义主体,而节点之间的连接关系则用于表示任意两个语义主体之间的关系。
在本申请上述可选的实施例中,确定了语义主体及其布局参数,因此可以根据语义主体查找到其所对应的元素,再根据语义主体的布局参数,将语义主体对应的元素贴至预设的背景图像中,与布局参数对应的位置,即可得到生成的图像。在一种可选的实施例中,仍结合图3所示,右侧部分表示的即为生成得到的图像,该图像与左侧的场景图像中所表达的各个语义主体之间的关系相同。
在本申请实施例中,可以先根据接收到的文本信息对应的场景序列确定上述语义主体在图像中的布局参数,从图像数据库中查找上述语义主体对应的图像元素,并根据上述语义主体的布局参数将上述图像元素还原至对应的位置,得到上述语义主体对应的图像。其中,最终生成的与语义主体对应的图像可以为贴图。
需要说明的是,本申请实施例所提出的图像的生成方法即可以理解为一种由场景图生成图像(即语义构图)的序列到序列的神经网络学习方法,可以但不限于应用在儿童教育领域,例如,可以根据接收到的儿童的文本信息生成场景数据,并基于用于表示该场景数据的场景序列预测儿童的文本信息中语义主体在图像中的布局参数,进而从图像数据库中查找上述语义主体对应的图像元素,并根据上述语义主体的布局参数将上述图像元素还原至对应的位置,得到上述语义主体对应的图像。
可选的,上述文本信息可以为非结构化语义信息,例如自然语言文本,例如,一个儿童说出的一句话,例如,“一个女孩在喂一个大象”;可以根据文本信息所包含的语义主体“女孩”和“大象”,以及两个语义主体“女孩”和“大象”之间的关系“喂”,生成与该文本信息对应的场景数据;其中,上述语义主体可以但不限于包括:用于表示主语的第一语义主体“女孩”,用于表示谓语的第二语义主体“喂”和用于表示宾语的第三语义主体“大象”。
作为一种可选的实施例,可以通过对上述文本信息进行语义分析,得到上述文本信息对应的场景数据,上述场景数据中还可以包括:图像的背景信息和定界框,其中,根据上述图像的图像信息中的语义主体和语义主体的布局参数(例如,位置和大小)设置图像的定界框;上述图像的背景信息可以是随机的,例如,可以是预设的素材库中的一个图像元素,且该图像元素作为背景信息可以固定在图像的最底层,并且平铺至整个图像。
以上述文本信息为一个儿童说出的“一个女孩在喂一个大象,她的后方有一个男人在拍照”为例,则可以将在“女孩”的后方正在拍照的“男人”作为图像的背景信息,固定在图像的最底层,并且平铺至整个图像。
在一种可选的实施例中,上述语义主体的布局参数包括:上述语义主体的定界框在上述图像中的位置和大小。可选的,上述定界框即语义定界框,可以应用于语义构图中以标记语义主体的位置和大小。
在本申请实施例中,由于可以根据接收到的文本信息对应的场景序列确定上述语义主体在图像中的布局参数,即该语义主体的定界框在上述图像中的位置和大小;进而可以根据语义主体和该语义主体的布局参数设置该语义主体的定界框,并基于上述定界框将语义主体对应的图像元素还原至对应的位置,得到语义主体对应的图像。
本申请实施例通过学习语义构图的生成过程而不是直接学习其生成结果,并且,本申请实施例中以非结构化的文本信息作为序列到序列的神经网络模型的输入,实现对语义构图的预测,进而可以完成生成图像或检索图像的视觉任务,达到更佳的图像生成效果或图像检索效果。
仍需要说明的是,由于一幅语义构图主要由其中所有互相有关系的语义主体所决定,本申请实施例进一步将神经网络模型的输入细分到组成语义构图的最基本单元:语义主体之间的关系,并通过学习如何拖拽关系内的语义主体至语义构图,例如,学习一张场景图中的各个关系,每获取到一个任意两个语义主体之间的关系,在语义构图“画布”上拖拽语义主体的两个定界框(例如,一个主语对应的第一语义主体,一个宾语对应的第三语义主体)的位置并调整两个定界框的大小的过程;并将生成语义构图的过程进行建模,抽象成为若干个基础动作代码段BACS,通过学习通用的基础动作代码段的共性减少神经网络模型的输入的变化,以达到更好学习最终语义构图的目的。
在本申请实施例中,采用学习语义构图的生成过程而非直接学习其生成结果的方式,通过接收文本信息,其中,上述文本信息包括;语义主体和任意两个上述语义主体之间的关系;根据上述文本信息对应的场景序列确定上述语义主体在图像中的布局参数;从图像数据库中查找上述语义主体对应的图像元素,并根据上述语义主体的布局参数将上述图像元素还原至对应的位置,得到上述语义主体对应的图像。
基于本申请实施例,通过采用学习语义构图的生成过程而非直接学习其生成结果的方式,达到了提高基于场景图预测语义构图的结果准确性的目的,从而实现了更佳的完成生成图像或检索图像的视觉任务的技术效果,进而解决了现有技术中将场景图作为神经网络模型的输入,导致得到的语义构图的结果不准确的技术问题。
需要说明的是,本实施例的可选或优选实施方式可以参见实施例1中的相关描述,此处不再赘述。
仍需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本申请所必须的。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本申请各个实施例上述的方法。
实施例5
根据本申请实施例,还提供了一种用于实施上述图像的生成方法的图像的生成系统的实施例,该图像的生成系统包括:
处理器;以及存储器,与上述处理器连接,用于为上述处理器提供处理以下处理步骤的指令:根据接收到的文本信息生成场景数据,其中,上述场景数据包括:上述文本信息所包含的语义主体和任意两个上述语义主体之间的关系;根据用于表示上述场景数据的场景序列,预测上述文本信息对应的图像的图像信息,其中,上述图像信息包含上述语义主体在上述图像中的布局参数;根据上述图像信息生成上述文本信息对应的图像。
实施例6
根据本申请实施例,还提供了一种用于实施上述图像的生成方法的装置实施例,图8是根据本申请实施例的一种图像的生成装置的示意图,如图8所示,该图像的生成装置800包括:第一生成模块801、预测模块803和第二生成模块805,其中:
第一生成模块801,用于根据接收到的文本信息生成场景数据,其中,上述场景数据包括:上述文本信息所包含的语义主体和任意两个上述语义主体之间的关系;预测模块803,用于根据用于表示上述场景数据的场景序列,预测上述文本信息对应的图像的图像信息,其中,上述图像信息包含上述语义主体在上述图像中的布局参数;第二生成模块805,用于根据上述图像信息生成上述文本信息对应的图像。
此处需要说明的是,上述第一生成模块801、预测模块803和第二生成模块805对应于实施例1中的步骤S202至步骤S206,三个模块与对应的步骤所实现的实例和应用场景相同,但不限于上述实施例1所公开的内容。需要说明的是,上述模块作为装置的一部分可以运行在实施例1提供的计算机终端10中。
需要说明的是,本实施例的可选或优选实施方式可以参见实施例1至4中的相关描述,此处不再赘述。
实施例7
根据本申请实施例,还提供了另一种用于实施上述图像的生成方法的装置实施例,图9是根据本申请实施例的另一种图像的生成装置的示意图,如图9所示,该图像的生成装置900包括:第一接收模块901、分析模块903和确定模块905,其中:
第一接收模块901,用于接收文本信息;分析模块903,用于对上述文本信息进行语义分析,得到上述文本信息对应的场景数据,其中,上述场景数据包括:上述文本信息所包含的语义主体和上述语义主体之间的关系;确定模块905,用于根据上述场景数据确定上述文本信息对应的图像。
此处需要说明的是,上述第一接收模块901、分析模块903和确定模块905对应于实施例2中的步骤S902至步骤S906,三个模块与对应的步骤所实现的实例和应用场景相同,但不限于上述实施例2所公开的内容。需要说明的是,上述模块作为装置的一部分可以运行在实施例1提供的计算机终端10中。
需要说明的是,本实施例的可选或优选实施方式可以参见实施例1至4中的相关描述,此处不再赘述。
实施例8
根据本申请实施例,还提供了又一种用于实施上述图像的生成方法的装置实施例,图10是根据本申请实施例的又一种图像的生成装置的示意图,如图10所示,该图像的生成装置1000包括:获取单元1001、预测单元1003和第一生成单元1005,其中:
获取单元1001,用于获取结构化场景图对应的场景序列,其中,上述结构化场景图包括:用于表示语义主体的节点和任意两个节点之间的有向连接关系;预测单元1003,用于根据上述场景序列预测上述结构化场景图对应的语义构图序列,其中,上述语义构图序列包括:与上述结构化场景图对应的语义构图中上述语义主体的布局参数;第一生成单元1005,用于根据上述语义构图序列生成上述语义构图。
此处需要说明的是,上述获取单元1001、预测单元1003和第一生成单元1005对应于实施例3中的步骤S1002至步骤S1006,三个单元与对应的步骤所实现的实例和应用场景相同,但不限于上述实施例3所公开的内容。需要说明的是,上述模块作为装置的一部分可以运行在实施例1提供的计算机终端10中。
需要说明的是,本实施例的可选或优选实施方式可以参见实施例1至4中的相关描述,此处不再赘述。
实施例9
根据本申请实施例,还提供了再一种用于实施上述图像的生成方法的装置实施例,图11是根据本申请实施例的再一种图像的生成装置的示意图,如图11所示,该图像的生成装置1100包括:接收单元1101、确定单元1103和第二生成单元1105,其中:
接收单元1101,用于接收文本信息,其中,上述文本信息包括;语义主体和任意两个上述语义主体之间的关系;确定单元1103,用于根据上述文本信息对应的场景序列确定上述语义主体在图像中的布局参数;第二生成单元1105,用于从图像数据库中查找上述语义主体对应的图像元素,并根据上述语义主体的布局参数将上述图像元素还原至对应的位置,得到上述语义主体对应的图像。
此处需要说明的是,上述接收单元1101、确定单元1103和第二生成单元1005对应于实施例4中的步骤S1102至步骤S1104,三个单元与对应的步骤所实现的实例和应用场景相同,但不限于上述实施例4所公开的内容。需要说明的是,上述模块作为装置的一部分可以运行在实施例1提供的计算机终端10中。
需要说明的是,本实施例的可选或优选实施方式可以参见实施例1至4中的相关描述,此处不再赘述。
实施例10
根据本申请实施例,还提供了一种计算机终端的实施例,该计算机终端可以是计算机终端群中的任意一个计算机终端设备。可选地,在本实施例中,上述计算机终端也可以替换为移动终端等终端设备。
可选地,在本实施例中,上述计算机终端可以位于计算机网络的多个网络设备中的至少一个网络设备。
在本实施例中,上述计算机终端可以执行应用程序的图像的生成方法中以下步骤的程序代码:根据接收到的文本信息生成场景数据,其中,上述场景数据包括:上述文本信息所包含的语义主体和任意两个上述语义主体之间的关系;根据用于表示上述场景数据的场景序列,预测上述文本信息对应的图像的图像信息,其中,上述图像信息包含上述语义主体在上述图像中的布局参数;根据上述图像信息生成上述文本信息对应的图像。
可选地,图12是根据本申请实施例的一种计算机终端的结构框图,如图12所示,该计算机终端1200可以包括:一个或多个(图中仅示出一个)处理器1202、存储器1204、以及外设接口1206。
其中,存储器可用于存储软件程序以及模块,如本申请实施例中的图像的生成方法和装置对应的程序指令/模块,处理器通过运行存储在存储器内的软件程序以及模块,从而执行各种功能应用以及数据处理,即实现上述的图像的生成方法。存储器可包括高速随机存储器,还可以包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器可进一步包括相对于处理器远程设置的存储器,这些远程存储器可以通过网络连接至计算机终端1200。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
处理器可以通过传输装置调用存储器存储的信息及应用程序,以执行下述步骤:根据接收到的文本信息生成场景数据,其中,上述场景数据包括:上述文本信息所包含的语义主体和任意两个上述语义主体之间的关系;根据用于表示上述场景数据的场景序列,预测上述文本信息对应的图像的图像信息,其中,上述图像信息包含上述语义主体在上述图像中的布局参数;根据上述图像信息生成上述文本信息对应的图像。
可选的,上述处理器还可以执行如下步骤的程序代码:获取上述场景数据对应的场景序列;基于上述场景序列,根据序列到序列的神经网络,预测得到图像信息序列,其中,上述图像信息序列包括用于表示上述图像信息的基础动作代码段。
可选的,上述处理器还可以执行如下步骤的程序代码:提取上述场景数据中的关系三元组,其中,上述关系三元组包括:用于表示主语的第一语义主体,用于表示谓语的第二语义主体和用于表示宾语的第三语义主体;根据上述关系三元组构成上述场景序列。
可选的,上述处理器还可以执行如下步骤的程序代码:根据上述图像信息中的语义主体和上述语义主体的布局参数设置上述定界框;基于上述定界框构成上述图像。
可选的,上述处理器还可以执行如下步骤的程序代码:从预设的素材库中,选择上述图像信息中的语义主体所对应的语义主体图像;根据上述定界框确定上述语义主体图像的位置和大小,得到上述文本信息对应的图像。
可选的,上述处理器还可以执行如下步骤的程序代码:获取标识信息序列,其中,获取标识信息序列的步骤包括:提取上述场景数据中的关系三元组,其中,上述关系三元组包括:用于表示主语的第一语义主体,用于表示谓语的第二语义主体和用于表示宾语的第三语义主体;获取上述关系三元组中每个语义主体对应的标识;根据上述关系三元组中上述每个语义主体对应的标识构成上述标识信息序列。
可选的,上述处理器还可以执行如下步骤的程序代码:根据上述图像信息和上述标识信息序列生成上述文本信息对应的图像;根据上述图像信息和上述标识信息序列生成上述文本信息对应的图像的步骤包括:根据上述标识信息序列确定上述图像信息中用于表示同一个语义主体的定界框;将用于表示同一个语义主体的定界框进行融合;根据上述图像信息中的语义主体和上述语义主体的布局参数设置上述定界框;基于上述定界框构成上述图像。
处理器还可以通过传输装置调用存储器存储的信息及应用程序,以执行下述步骤:接收文本信息;对上述文本信息进行语义分析,得到上述文本信息对应的场景数据,其中,上述场景数据包括:上述文本信息所包含的语义主体和上述语义主体之间的关系;根据上述场景数据确定上述文本信息对应的图像。
处理器还可以通过传输装置调用存储器存储的信息及应用程序,以执行下述步骤:获取结构化场景图对应的场景序列,其中,上述结构化场景图包括:用于表示语义主体的节点和任意两个节点之间的有向连接关系;根据上述场景序列预测上述结构化场景图对应的语义构图序列,其中,上述语义构图序列包括:与上述结构化场景图对应的语义构图中上述语义主体的布局参数;根据上述语义构图序列生成上述语义构图。
处理器还可以通过传输装置调用存储器存储的信息及应用程序,以执行下述步骤:接收文本信息,其中,上述文本信息包括;语义主体和任意两个上述语义主体之间的关系;根据上述文本信息对应的场景序列确定上述语义主体在图像中的布局参数;从图像数据库中查找上述语义主体对应的图像元素,并根据上述语义主体的布局参数将上述图像元素还原至对应的位置,得到上述语义主体对应的图像。
采用本申请实施例,提供了一种图像的生成方案。通过根据接收到的文本信息生成场景数据,其中,上述场景数据包括:上述文本信息所包含的语义主体和任意两个上述语义主体之间的关系;根据用于表示上述场景数据的场景序列,预测上述文本信息对应的图像的图像信息,其中,上述图像信息包含上述语义主体在上述图像中的布局参数;根据上述图像信息生成上述文本信息对应的图像。
基于本申请实施例,通过采用学习语义构图的生成过程而非直接学习其生成结果的方式,达到了提高基于场景图预测语义构图的结果准确性的目的,从而实现了更佳的完成生成图像或检索图像的视觉任务的技术效果,进而解决了现有技术中将场景图作为神经网络模型的输入,导致得到的语义构图的结果不准确的技术问题。
本领域普通技术人员可以理解,图12所示的结构仅为示意,计算机终端也可以是智能手机(如Android手机、iOS手机等)、平板电脑、掌声电脑以及移动互联网设备(MobileInternet Devices,MID)、PAD等终端设备。图12其并不对上述电子装置的结构造成限定。例如,计算机终端1200还可包括比图12中所示更多或者更少的组件(如网络接口、显示装置等),或者具有与图12所示不同的配置。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:闪存盘、只读存储器(Read-Only Memory,ROM)、随机存取器(RandomAccess Memory,RAM)、磁盘或光盘等。
实施例11
根据本申请实施例,还提供了一种存储介质的实施例。可选地,在本实施例中,上述存储介质可以用于保存上述实施例1至4所提供的图像的生成方法所执行的程序代码。
可选地,在本实施例中,上述存储介质可以位于计算机网络中计算机终端群中的任意一个计算机终端中,或者位于移动终端群中的任意一个移动终端中。
可选地,在本实施例中,存储介质被设置为存储用于执行以下步骤的程序代码:根据接收到的文本信息生成场景数据,其中,上述场景数据包括:上述文本信息所包含的语义主体和任意两个上述语义主体之间的关系;根据用于表示上述场景数据的场景序列,预测上述文本信息对应的图像的图像信息,其中,上述图像信息包含上述语义主体在上述图像中的布局参数;根据上述图像信息生成上述文本信息对应的图像。
可选地,在本实施例中,存储介质被设置为存储用于执行以下步骤的程序代码:获取上述场景数据对应的场景序列;基于上述场景序列,根据序列到序列的神经网络,预测得到图像信息序列,其中,上述图像信息序列包括用于表示上述图像信息的基础动作代码段。
可选地,在本实施例中,存储介质被设置为存储用于执行以下步骤的程序代码:提取上述场景数据中的关系三元组,其中,上述关系三元组包括:用于表示主语的第一语义主体,用于表示谓语的第二语义主体和用于表示宾语的第三语义主体;根据上述关系三元组构成上述场景序列。
可选地,在本实施例中,存储介质被设置为存储用于执行以下步骤的程序代码:根据上述图像信息中的语义主体和上述语义主体的布局参数设置上述定界框;基于上述定界框构成上述图像。
可选地,在本实施例中,存储介质被设置为存储用于执行以下步骤的程序代码:从预设的素材库中,选择上述图像信息中的语义主体所对应的语义主体图像;根据上述定界框确定上述语义主体图像的位置和大小,得到上述文本信息对应的图像。
可选地,在本实施例中,存储介质被设置为存储用于执行以下步骤的程序代码:获取标识信息序列,其中,获取标识信息序列的步骤包括:提取上述场景数据中的关系三元组,其中,上述关系三元组包括:用于表示主语的第一语义主体,用于表示谓语的第二语义主体和用于表示宾语的第三语义主体;获取上述关系三元组中每个语义主体对应的标识;根据上述关系三元组中上述每个语义主体对应的标识构成上述标识信息序列。
可选地,在本实施例中,存储介质被设置为存储用于执行以下步骤的程序代码:根据上述图像信息和上述标识信息序列生成上述文本信息对应的图像;根据上述图像信息和上述标识信息序列生成上述文本信息对应的图像的步骤包括:根据上述标识信息序列确定上述图像信息中用于表示同一个语义主体的定界框;将用于表示同一个语义主体的定界框进行融合;根据上述图像信息中的语义主体和上述语义主体的布局参数设置上述定界框;基于上述定界框构成上述图像。
可选地,在本实施例中,存储介质被设置为存储用于执行以下步骤的程序代码:接收文本信息;对上述文本信息进行语义分析,得到上述文本信息对应的场景数据,其中,上述场景数据包括:上述文本信息所包含的语义主体和上述语义主体之间的关系;根据上述场景数据确定上述文本信息对应的图像。
可选地,在本实施例中,存储介质被设置为存储用于执行以下步骤的程序代码:获取结构化场景图对应的场景序列,其中,上述结构化场景图包括:用于表示语义主体的节点和任意两个节点之间的有向连接关系;根据上述场景序列预测上述结构化场景图对应的语义构图序列,其中,上述语义构图序列包括:与上述结构化场景图对应的语义构图中上述语义主体的布局参数;根据上述语义构图序列生成上述语义构图。
可选地,在本实施例中,存储介质被设置为存储用于执行以下步骤的程序代码:接收文本信息,其中,上述文本信息包括;语义主体和任意两个上述语义主体之间的关系;根据上述文本信息对应的场景序列确定上述语义主体在图像中的布局参数;从图像数据库中查找上述语义主体对应的图像元素,并根据上述语义主体的布局参数将上述图像元素还原至对应的位置,得到上述语义主体对应的图像。
实施例12
根据本申请实施例,还提供了一种数据处理方法的实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
在上述运行环境下,本申请提供了如图13所示的数据处理方法,图13是根据本申请实施例的一种数据处理方法的流程图,如图13所示,上述数据处理方法,包括以下方法步骤:
步骤1302,接收文本信息,其中,上述文本信息包含:语义主体和至少两个语义主体之间的关系;
步骤1304,根据上述文本信息,生成场景序列;
步骤1306,根据上述场景序列,生成上述文本信息对应的图像信息,其中,上述图像信息包含上述语义主体在上述图像中的布局参数。
本申请上述实施例的步骤可以由智能终端执行,尤其可以是智能家居设备,例如:智能音箱等。
具体的,上述文本信息可以是在设备进入指定功能后收到的文本信息,例如,设备进入文本搜图的功能后所接收到的文本信息。
仍结合图3所示,左侧为以场景图像的方式记录场景数据。场景图像中包括多个节点,节点之间还具有有向的连接关系,其中,每个节点用于表示语义主体,而节点之间的连接关系则用于表示任意两个语义主体之间的关系。
作为一种可选的实施例,上述文本信息可以为非结构化语义信息,例如自然语言文本,例如,一个儿童说出的一句话,例如,“一个女孩在喂一个大象”;接收到该语音信息后,对该语音信息进行语音识别,得到文本信息,然后可以根据文本信息所包含的语义主体“女孩”和“大象”,以及两个语义主体“女孩”和“大象”之间的关系“喂”,生成与该文本信息对应的场景数据;其中,上述语义主体可以但不限于包括:用于表示主语的第一语义主体“女孩”,用于表示谓语的第二语义主体“喂”和用于表示宾语的第三语义主体“大象”。
具体的,场景序列是场景数据的一种表现方式,用于将场景数据中各个语义主体之间的关系通过序列的方式抽象出来,上述场景数据是根据文本信息转化得到的数据,该数据可以以场景图像的方式或其他方式存储。上述布局参数可以包括语义主体在图像中的位置、大小等参数。
在一种可选的实施例中,上述图像信息可以使用预设的由序列到序列的神经网络模型,根据场景序列进行预测得到,从而得到的图像信息也是序列的表现形式。
在一种可选的实施例中,根据上述场景序列,生成上述文本信息对应的图像信息,包括:
步骤S13062,基于上述场景序列,根据序列到序列的神经网络,预测得到用于表示上述图像信息的图像信息序列,其中,上述图像信息序列包括用于表示上述图像信息的基础动作代码段。
具体的,上述序列到序列的神经网络的输入和输出均为以序列的方式所表示的数据,序列到序列的神经网络在训练的过程中学习的是设计师拖住的动作。
在一种可选的实施例中,获取海量的图像元素(在最初的训练中,该图像元素可以由设计师绘制,随着样本的增多,设计师无需再绘制新的图像元素,而是可以直接进行使用),设计师根据场景数据,将语义主体对应的图像元素拖拽至预定的位置。将场景数据对应的序列和设计师拖拽的动作或位置作为样本集合,由序列到序列的神经网络进行学习即可。
在一种可选的实施例中,上述图像信息序列包括两组基础动作代码段,其中,第一组动作代码段用于表示第一语义主体(即用于表示主语的第一语义主体)的布局参数,第二组动作代码段用于表示第三语义主体(即用于表示宾语的第三语义主体)的布局参数。
在另一种可选的实施例中,上述场景序列可以为依据场景数据中的关系三元组构成的场景序列,基于获取到的场景数据对应的场景序列,根据序列到序列的神经网络,可以预测得到图像信息序列,由于该图像信息序列包括用于表示上述图像信息的基础动作代码段,也即可以预测得到文本信息对应的图像(即语义构图)的图像信息。
作为一种可选的实施例,在根据上述场景序列,生成上述文本信息对应的图像信息之后,上述方法还包括:步骤S1308,根据上述图像信息生成上述文本信息对应的图像。
由于在本申请实施例中已经确定了语义主体及其布局参数,因此可以根据语义主体查找到其所对应的元素,再根据语义主体的布局参数,将语义主体对应的元素贴至预设的背景图像中与布局参数对应的位置,即可生成上述文本信息对应的图像。
在一种可选的实施例中,仍结合图3所示,右侧部分表示的即为生成的图像,该图像与左侧的场景图像中所表达的各个语义主体之间的关系相同。
需要说明的是,本申请实施例所提出的图像的生成方法即可以理解为一种由场景图生成图像(即语义构图)的序列到序列的神经网络学习方法(序列到序列的学习方法),具体的,该神经网络可以为图卷积神经网络;该方法可以但不限于应用在儿童早教、儿童智力培养等儿童教育领域,例如,可以根据接收到的儿童输出的文本信息生成场景数据,并基于用于表示该场景数据的场景序列预测与该文本信息对应的图像的图像信息,进而根据该图像信息生成与该文本信息对应的图像。
作为一种可选的实施例,可以通过对上述文本信息进行语义分析,得到上述文本信息对应的场景数据,上述场景数据中还可以包括:图像的背景信息和定界框,其中,根据上述图像的图像信息中的语义主体和语义主体的布局参数(例如,位置和大小)设置图像的定界框;上述图像的背景信息可以是随机的,例如,可以是预设的素材库中的一个图像元素,且该图像元素作为背景信息可以固定在图像的最底层,并且平铺至整个图像。
在本申请实施例所提供的数据处理方法中,可以先根据接收到的文本信息生成场景数据,再基于场景数据的场景序列,预测上述文本信息对应的图像的图像信息,依据该图像信息生成与文本信息对应的图像,其中,最终所生成的与文本信息对应的图像可以但不限于为贴图。
本申请实施例通过学习语义构图的生成过程而不是直接学习其生成结果,并且,本申请实施例中以非结构化的文本信息作为序列到序列的神经网络模型的输入,实现对语义构图的预测,进而可以完成生成图像或检索图像的视觉任务,达到更佳的图像生成效果或图像检索效果。
在本申请实施例中,采用学习语义构图的生成过程而非直接学习其生成结果的方式,通过接收文本信息,其中,上述文本信息包含:语义主体和至少两个语义主体之间的关系;根据上述文本信息,生成场景序列;根据上述场景序列,生成上述文本信息对应的图像信息,其中,上述图像信息包含上述语义主体在上述图像中的布局参数。
基于本申请实施例,通过采用学习语义构图的生成过程而非直接学习其生成结果的方式,达到了提高依据文本信息对应的场景序列生成图像信息的数据处理准确性的目的,从而实现了更佳的完成生成图像或检索图像的视觉任务的技术效果,进而解决了现有技术中将场景图作为神经网络模型的输入,导致得到的语义构图的结果不准确的技术问题。
仍需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本申请所必须的。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本申请各个实施例上述的方法。
实施例13
根据本申请实施例,还提供了一种用于实施上述数据处理方法的装置实施例,图14是根据本申请实施例的一种数据处理装置的示意图,如图14所示,该数据处理装置1400包括:第二接收模块1402、第三生成模块1404和第四生成模块1406,其中:
第二接收模块1402,接收文本信息,其中,上述文本信息包含:语义主体和至少两个语义主体之间的关系;第三生成模块1404,用于根据上述文本信息,生成场景序列;第四生成模块1406,用于根据上述场景序列,生成上述文本信息对应的图像信息,其中,上述图像信息包含上述语义主体在上述图像中的布局参数。
此处需要说明的是,上述第二接收模块1402、第三生成模块1404和第四生成模块1406对应于实施例12中的步骤S1302至步骤S1306,三个模块与对应的步骤所实现的实例和应用场景相同,但不限于上述实施例12所公开的内容。需要说明的是,上述模块作为装置的一部分可以运行在实施例1提供的计算机终端10中。
需要说明的是,本实施例的可选或优选实施方式可以参见实施例12中的相关描述,此处不再赘述。
上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。
在本申请的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅是本申请的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本申请的保护范围。
Claims (17)
1.一种图像的生成方法,其特征在于,包括:
根据接收到的文本信息生成场景数据,其中,所述场景数据包括:所述文本信息所包含的语义主体和任意两个所述语义主体之间的关系;
根据用于表示所述场景数据的场景序列,预测所述文本信息对应的图像的图像信息,其中,所述图像信息包含所述语义主体在所述图像中的布局参数;
根据所述图像信息生成所述文本信息对应的图像。
2.根据权利要求1所述的方法,其特征在于,根据用于表示所述场景数据的场景序列,预测所述文本信息对应的图像的图像信息,包括:
获取所述场景数据对应的场景序列;
基于所述场景序列,根据序列到序列的神经网络,预测得到图像信息序列,其中,所述图像信息序列包括用于表示所述图像信息的基础动作代码段。
3.根据权利要求2所述的方法,其特征在于,获取所述场景数据对应的场景序列,包括:
提取所述场景数据中的关系三元组,其中,所述关系三元组包括:用于表示主语的第一语义主体,用于表示谓语的第二语义主体和用于表示宾语的第三语义主体;
根据所述关系三元组构成所述场景序列。
4.根据权利要求3所述的方法,其特征在于,所述图像信息序列包括两组基础动作代码段,其中,第一组动作代码段用于表示所述第一语义主体的布局参数,第二组动作代码段用于表示所述第三语义主体的布局参数。
5.根据权利要求1所述的方法,其特征在于,所述语义主体的布局参数包括:所述语义主体的定界框在所述图像中的位置和大小。
6.根据权利要求5所述的方法,其特征在于,根据所述图像信息生成所述文本信息对应的图像,包括:
根据所述图像信息中的语义主体和所述语义主体的布局参数设置所述定界框;
基于所述定界框构成所述图像。
7.根据权利要求6所述的方法,其特征在于,基于所述定界框构成所述图像,包括:
从预设的素材库中,选择所述图像信息中的语义主体所对应的语义主体图像;
根据所述定界框确定所述语义主体图像的位置和大小,得到所述文本信息对应的图像。
8.根据权利要求5所述的方法,其特征在于,在根据所述图像信息生成所述文本信息对应的图像之前,所述方法还包括:获取标识信息序列,其中,获取标识信息序列的步骤包括:
提取所述场景数据中的关系三元组,其中,所述关系三元组包括:用于表示主语的第一语义主体,用于表示谓语的第二语义主体和用于表示宾语的第三语义主体;
获取所述关系三元组中每个语义主体对应的标识;
根据所述关系三元组中所述每个语义主体对应的标识构成所述标识信息序列。
9.根据权利要求8所述的方法,其特征在于,根据所述图像信息生成所述文本信息对应的图像,包括:根据所述图像信息和所述标识信息序列生成所述文本信息对应的图像;
根据所述图像信息和所述标识信息序列所述文本信息对应的图像的步骤包括:
根据所述标识信息序列确定所述图像信息中用于表示同一个语义主体的定界框;
将用于表示同一个语义主体的定界框进行融合;
根据所述图像信息中的语义主体和所述语义主体的布局参数设置所述定界框;
基于所述定界框构成所述图像。
10.一种图像的生成方法,其特征在于,包括:
接收文本信息;
对所述文本信息进行语义分析,得到所述文本信息对应的场景数据,其中,所述场景数据包括:所述文本信息所包含的语义主体和所述语义主体之间的关系;
根据所述场景数据确定所述文本信息对应的图像。
11.一种图像的生成方法,其特征在于,包括:
获取结构化场景图对应的场景序列,其中,所述结构化场景图包括:用于表示语义主体的节点和任意两个节点之间的有向连接关系;
根据所述场景序列预测所述结构化场景图对应的语义构图序列,其中,所述语义构图序列包括:与所述结构化场景图对应的语义构图中所述语义主体的布局参数;
根据所述语义构图序列生成所述语义构图。
12.一种图像的生成方法,其特征在于,包括:
接收文本信息,其中,所述文本信息包括;语义主体和任意两个所述语义主体之间的关系;
根据所述文本信息对应的场景序列确定所述语义主体在图像中的布局参数;
从图像数据库中查找所述语义主体对应的图像元素,并根据所述语义主体的布局参数将所述图像元素还原至对应的位置,得到所述语义主体对应的图像。
13.一种图像的生成系统,其特征在于,包括:
处理器;以及
存储器,与所述处理器连接,用于为所述处理器提供处理以下处理步骤的指令:
根据接收到的文本信息生成场景数据,其中,所述场景数据包括:所述文本信息所包含的语义主体和任意两个所述语义主体之间的关系;
根据用于表示所述场景数据的场景序列,预测所述文本信息对应的图像的图像信息,其中,所述图像信息包含所述语义主体在所述图像中的布局参数;
根据所述图像信息生成所述文本信息对应的图像。
14.一种存储介质,其特征在于,所述存储介质包括存储的程序,其中,在所述程序运行时控制所述存储介质所在设备执行权利要求1至12中任意一项所述的图像的生成方法。
15.一种处理器,其特征在于,所述处理器用于运行程序,其中,所述程序运行时执行权利要求1至12中任意一项所述的图像的生成方法。
16.一种数据处理方法,其特征在于,包括:
接收文本信息,其中,所述文本信息包含:语义主体和至少两个语义主体之间的关系;
根据所述文本信息,生成场景序列;
根据所述场景序列,生成所述文本信息对应的图像信息,其中,所述图像信息包含所述语义主体在所述图像中的布局参数。
17.根据权利要求16所述的方法,其特征在于,根据所述场景序列,生成所述文本信息对应的图像信息,包括:
基于所述场景序列,根据序列到序列的神经网络,预测得到用于表示所述图像信息的图像信息序列,其中,所述图像信息序列包括用于表示所述图像信息的基础动作代码段;
在根据所述场景序列,生成所述文本信息对应的图像信息之后,所述方法还包括:根据所述图像信息生成所述文本信息对应的图像。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910497678.8A CN112070852A (zh) | 2019-06-10 | 2019-06-10 | 图像的生成方法和系统、数据处理方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910497678.8A CN112070852A (zh) | 2019-06-10 | 2019-06-10 | 图像的生成方法和系统、数据处理方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112070852A true CN112070852A (zh) | 2020-12-11 |
Family
ID=73658229
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910497678.8A Pending CN112070852A (zh) | 2019-06-10 | 2019-06-10 | 图像的生成方法和系统、数据处理方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112070852A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114119811A (zh) * | 2022-01-28 | 2022-03-01 | 北京智谱华章科技有限公司 | 图像的生成方法、装置和电子设备 |
CN116188618A (zh) * | 2023-04-24 | 2023-05-30 | 清华大学 | 基于结构化语义图的图像生成方法及装置 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103514614A (zh) * | 2012-06-29 | 2014-01-15 | 联想(北京)有限公司 | 生成图像的方法及电子设备 |
US20140362086A1 (en) * | 2013-06-06 | 2014-12-11 | Activevideo Networks, Inc. | System and Method for Exploiting Scene Graph Information in Construction of an Encoded Video Sequence |
CN104866308A (zh) * | 2015-05-18 | 2015-08-26 | 百度在线网络技术(北京)有限公司 | 一种场景图像的生成方法及装置 |
US20170061250A1 (en) * | 2015-08-28 | 2017-03-02 | Microsoft Technology Licensing, Llc | Discovery of semantic similarities between images and text |
CN106503055A (zh) * | 2016-09-27 | 2017-03-15 | 天津大学 | 一种从结构化文本到图像描述的生成方法 |
CN106682059A (zh) * | 2015-11-11 | 2017-05-17 | 奥多比公司 | 根据图像的结构化的知识建模和提取 |
US20180329892A1 (en) * | 2017-05-02 | 2018-11-15 | Dassault Systemes | Captioning a region of an image |
CN109117233A (zh) * | 2018-08-22 | 2019-01-01 | 百度在线网络技术(北京)有限公司 | 用于处理信息的方法和装置 |
CN109767397A (zh) * | 2019-01-09 | 2019-05-17 | 三星电子(中国)研发中心 | 一种基于人工智能的图像优化方法和系统 |
CN109783666A (zh) * | 2019-01-11 | 2019-05-21 | 中山大学 | 一种基于迭代精细化的图像场景图谱生成方法 |
-
2019
- 2019-06-10 CN CN201910497678.8A patent/CN112070852A/zh active Pending
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103514614A (zh) * | 2012-06-29 | 2014-01-15 | 联想(北京)有限公司 | 生成图像的方法及电子设备 |
US20140362086A1 (en) * | 2013-06-06 | 2014-12-11 | Activevideo Networks, Inc. | System and Method for Exploiting Scene Graph Information in Construction of an Encoded Video Sequence |
CN104866308A (zh) * | 2015-05-18 | 2015-08-26 | 百度在线网络技术(北京)有限公司 | 一种场景图像的生成方法及装置 |
US20170061250A1 (en) * | 2015-08-28 | 2017-03-02 | Microsoft Technology Licensing, Llc | Discovery of semantic similarities between images and text |
CN106682059A (zh) * | 2015-11-11 | 2017-05-17 | 奥多比公司 | 根据图像的结构化的知识建模和提取 |
CN106503055A (zh) * | 2016-09-27 | 2017-03-15 | 天津大学 | 一种从结构化文本到图像描述的生成方法 |
US20180329892A1 (en) * | 2017-05-02 | 2018-11-15 | Dassault Systemes | Captioning a region of an image |
CN109117233A (zh) * | 2018-08-22 | 2019-01-01 | 百度在线网络技术(北京)有限公司 | 用于处理信息的方法和装置 |
CN109767397A (zh) * | 2019-01-09 | 2019-05-17 | 三星电子(中国)研发中心 | 一种基于人工智能的图像优化方法和系统 |
CN109783666A (zh) * | 2019-01-11 | 2019-05-21 | 中山大学 | 一种基于迭代精细化的图像场景图谱生成方法 |
Non-Patent Citations (2)
Title |
---|
JUSTION JOHNSON ET AL: "Image Generation from Scene Graphs", 2018 IEEE/CVF CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION, vol. 10, 16 December 2018 (2018-12-16), pages 1 - 10 * |
刘毅;: "一种图像局部特征的语义提取方法", 计算机工程与科学, no. 06, 15 June 2010 (2010-06-15) * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114119811A (zh) * | 2022-01-28 | 2022-03-01 | 北京智谱华章科技有限公司 | 图像的生成方法、装置和电子设备 |
CN114119811B (zh) * | 2022-01-28 | 2022-04-01 | 北京智谱华章科技有限公司 | 图像的生成方法、装置和电子设备 |
CN116188618A (zh) * | 2023-04-24 | 2023-05-30 | 清华大学 | 基于结构化语义图的图像生成方法及装置 |
CN116188618B (zh) * | 2023-04-24 | 2023-08-15 | 清华大学 | 基于结构化语义图的图像生成方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112232425B (zh) | 图像处理方法、装置、存储介质及电子设备 | |
US11983926B2 (en) | Video content recognition method and apparatus, storage medium, and computer device | |
CN116561276A (zh) | 知识问答方法、装置、设备及存储介质 | |
CN107391505A (zh) | 一种图像处理方法及系统 | |
CN114005012A (zh) | 多模态预训练模型的训练方法、装置、设备及存储介质 | |
EP3989120A1 (en) | Method and device for generating training sample for semantic segmentation model, storage medium, and electronic device | |
CN110968808B (zh) | 一种实现网页主题更新的方法及装置 | |
CN115393854B (zh) | 一种视觉对齐处理方法、终端及存储介质 | |
CN113011320B (zh) | 视频处理方法、装置、电子设备及存储介质 | |
CN113536856A (zh) | 图像识别方法和系统、数据处理方法 | |
CN115114395A (zh) | 内容检索及模型训练方法、装置、电子设备和存储介质 | |
CN116561277A (zh) | 知识问答方法、装置、设备及存储介质 | |
CN112070852A (zh) | 图像的生成方法和系统、数据处理方法 | |
CN113592881B (zh) | 图片指代性分割方法、装置、计算机设备和存储介质 | |
CN113849575B (zh) | 数据处理方法、装置和系统 | |
CN115115740A (zh) | 思维导图识别方法、装置、设备、介质及程序产品 | |
CN113434722B (zh) | 图像分类方法、装置、设备及计算机可读存储介质 | |
CN113052025B (zh) | 图像融合模型的训练方法、图像融合方法及电子设备 | |
CN117786068A (zh) | 知识问答方法、装置、设备及可读存储介质 | |
KR20190023787A (ko) | 스마트폰 사용자를 위한 사용자 정의 기계학습 장치 및 그 방법 | |
CN116939288A (zh) | 视频生成方法及其装置、计算机设备 | |
CN114579869B (zh) | 模型训练方法以及相关产品 | |
CN115454554A (zh) | 文本描述的生成方法、装置、终端及存储介质 | |
CN115168609A (zh) | 一种文本匹配方法、装置、计算机设备和存储介质 | |
CN115204139A (zh) | 一种文本匹配处理方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |