CN116320524A - 图片生成方法、直播间图像生成方法以及装置 - Google Patents
图片生成方法、直播间图像生成方法以及装置 Download PDFInfo
- Publication number
- CN116320524A CN116320524A CN202310331107.3A CN202310331107A CN116320524A CN 116320524 A CN116320524 A CN 116320524A CN 202310331107 A CN202310331107 A CN 202310331107A CN 116320524 A CN116320524 A CN 116320524A
- Authority
- CN
- China
- Prior art keywords
- picture
- theme
- target
- text
- image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 71
- 238000004590 computer program Methods 0.000 claims description 14
- 238000009877 rendering Methods 0.000 claims description 10
- 238000013507 mapping Methods 0.000 claims description 7
- 239000013598 vector Substances 0.000 claims description 6
- 238000013135 deep learning Methods 0.000 claims description 5
- 230000003993 interaction Effects 0.000 description 8
- 230000008569 process Effects 0.000 description 8
- 238000012545 processing Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 7
- 230000006870 function Effects 0.000 description 7
- 238000012549 training Methods 0.000 description 6
- 238000004891 communication Methods 0.000 description 4
- 238000005034 decoration Methods 0.000 description 4
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000013461 design Methods 0.000 description 3
- 238000009792 diffusion process Methods 0.000 description 3
- 241000196324 Embryophyta Species 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 241000208140 Acer Species 0.000 description 1
- 241001465382 Physalis alkekengi Species 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- LGZXYFMMLRYXLK-UHFFFAOYSA-N mercury(2+);sulfide Chemical compound [S-2].[Hg+2] LGZXYFMMLRYXLK-UHFFFAOYSA-N 0.000 description 1
- 239000003607 modifier Substances 0.000 description 1
- 229940028444 muse Drugs 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- GMVPRGQOIOIIMI-DWKJAMRDSA-N prostaglandin E1 Chemical compound CCCCC[C@H](O)\C=C\[C@H]1[C@H](O)CC(=O)[C@@H]1CCCCCCC(O)=O GMVPRGQOIOIIMI-DWKJAMRDSA-N 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/21—Server components or server architectures
- H04N21/218—Source of audio or video content, e.g. local disk arrays
- H04N21/2187—Live feed
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/431—Generation of visual interfaces for content selection or interaction; Content or additional data rendering
- H04N21/4312—Generation of visual interfaces for content selection or interaction; Content or additional data rendering involving specific graphical features, e.g. screen layout, special fonts or colors, blinking icons, highlights or animations
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/47—End-user applications
- H04N21/488—Data services, e.g. news ticker
- H04N21/4888—Data services, e.g. news ticker for displaying teletext characters
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Databases & Information Systems (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
Abstract
本申请涉及图像生成以及网络直播技术领域,提出一种图片生成方法、直播间图像生成方法、装置、电子设备及存储介质,该方法包括:获取样本图片;将所述样本图片输入至图片描述模型,获得所述样本图片对应的若干个图片描述文本;根据目标主题,对每个所述图片描述文本进行修改,获得所述目标主题对应的若干个主题文本;将每个所述主题文本输入至文本生成图像模型,获得所述目标主题对应的若干个主题图片。本申请实施例通过图片描述模型,自动生成图片描述文本,通过对图片描述文本进行修改,自动生成主题文本,通过文本生成图像模型,自动生成主题图片,提高了图片生成效率,降低了成本。
Description
技术领域
本申请实施例涉及图像生成以及网络直播技术领域,尤其涉及一种图片生成方法、直播间图像生成方法、装置、电子设备以及存储介质。
背景技术
随着文本生成图像算法越趋成熟,用户无需具备优秀的绘图能力,即可通过设计文本生成相应的图片。例如,主播在直播时,可以通过设计文本生成的图片作为直播间的背景图片,以满足主播进行绿幕背景开播的需求。
相关技术中,需要人工设计文本,结合文本图像算法,生成相应的背景图片。然而,人工设计文本花费时间长,效率低,且成本较高,而且每条文本生成的图片极度相似。因此,这种方案较难大规模的生成多样性的背景图片,无法满足直播、短视频等数十亿级用户对于背景图片的需求。
发明内容
本申请实施例提供了一种图片生成方法、直播间图像生成方法、装置、电子设备以及存储介质,可以提高图片生成效率,降低成本,该技术方案如下:
第一方面,本申请实施例提供了一种图片生成方法,包括步骤:
获取样本图片;
将样本图片输入至图片描述模型,获得样本图片对应的若干个图片描述文本;
根据目标主题,对每个图片描述文本进行修改,获得目标主题对应的若干个主题文本;
将每个主题文本输入至文本生成图像模型,获得目标主题对应的若干个主题图片。
第二方面,本申请实施例提供了一种直播间图像生成方法,方法包括如下步骤:
获取直播背景样本图片,采用上述的图片生成方法,生成直播背景样本图片对应的主题图片;
获取主播图像,将主播图像与主题图片进行融合,获得直播间图像;
将直播间图像在直播间进行渲染显示。
第三方面,本申请实施例提供了一种图片生成装置,包括:
样本图片获取模块,用于获取样本图片;
图片描述文本获得模块,用于将样本图片输入至图片描述模型,获得样本图片对应的若干个图片描述文本;
主题文本获得模块,用于根据目标主题,对每个图片描述文本进行修改,获得目标主题对应的若干个主题文本;
主题图片获得模块,用于将每个主题文本输入至文本生成图像模型,获得目标主题对应的若干个主题图片。
第四方面,本申请实施例提供了一种直播间图像生成装置,包括:
主题图片生成模块,用于获取直播背景样本图片,采用上述的图片生成方法,生成直播背景样本图片对应的主题图片;
直播间图像获得模块,用于获取主播图像,将主播图像与主题图片进行融合,获得直播间图像;
图像渲染显示模块,用于将直播间图像在直播间进行渲染显示。
第五方面,本申请实施例提供了一种电子设备,处理器、存储器以及存储在存储器中并可在处理器上运行的计算机程序,处理器执行计算机程序时实现如第一方面或第二方面方法的步骤。
第六方面,本申请实施例提供了一种计算机可读存储介质,该计算机可读存储介质存储有计算机程序,该计算机程序被处理器执行时实现如第一方面或第二方面方法的步骤。
本申请实施例通过获取样本图片;将样本图片输入至图片描述模型,获得样本图片对应的若干个图片描述文本;根据目标主题,对每个图片描述文本进行修改,获得目标主题对应的若干个主题文本;将每个主题文本输入至文本生成图像模型,获得目标主题对应的若干个主题图片。本申请实施例通过图片描述模型,自动生成图片描述文本,通过对图片描述文本进行修改,自动生成主题文本,通过文本生成图像模型,自动生成主题图片,提高了图片生成效率,降低了成本。
为了更好地理解和实施,下面结合附图详细说明本申请的技术方案。
附图说明
图1为本申请实施例提供的图片生成方法的应用场景示意图;
图2为本申请实施例提供的图片生成方法的流程示意图;
图3为本申请实施例提供的直播间图像生成方法的流程示意图;
图4为本申请实施例提供的图片生成装置的结构示意图;
图5为本申请实施例提供的直播间图像生成装置的结构示意图;
图6为本申请实施例提供的电子设备的结构示意图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。
在本申请使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本申请。在本申请和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本申请可能采用术语第一、第二、第三等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本申请范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。取决于语境,如在此所使用的词语“如果”/“若”可以被解释成为“在……时”或“当……时”或“响应于确定”。
本申请提供的图片生成方法可以用于任意主题的主题图片生成,具体可以基于主题图片用于广告设计、海报设计、网站页面以及网络直播等应用场景,本申请实施例以主题图片应用于直播间的背景图片为例进行说明。
请参阅图1,图1为本申请实施例提供的图片生成方法的应用场景示意图,该应用场景包括本申请实施例提供的主播客户端101、服务器102和观众客户端103,主播客户端101与观众客户端103通过服务器102进行交互。
其中,主播客户端101是指发送网络直播视频的一端,通常来说是网络直播中主播(即,直播主播用户)所采用的客户端。
观众客户端103是指接收和观看网络直播视频的一端,通常来说是网络直播中观看视频的观众(即,直播观众用户)所采用的客户端。
主播客户端101和观众客户端103所指向的硬件,本质上是指计算机设备,具体地,如图1所示,其可以是智能手机、智能交互平板和个人计算机等类型的计算机设备。主播客户端101和观众客户端103均可以通过公知的网络接入方式接入互联网,与服务器102建立数据通信链路。
服务器102作为一个业务服务器,其可以负责进一步连接起相关音频数据服务器、视频流服务器以及其他提供相关支持的服务器等,以此构成逻辑上相关联的服务机群,来为相关的终端设备,例如图1中所示的主播客户端101和观众客户端103提供服务。
本申请实施例中,主播客户端101与观众客户端103可以加入同一个直播间(即直播频道),上述的直播间是指依靠互联网技术实现的一种聊天室,通常具备音视频播控功能。主播用户通过主播客户端101在直播间内进行直播,观众客户端103的观众可以登录服务器102进入直播间观看上直播。
在直播间内,主播与观众之间可通过语音、视频、文字等公知的线上交互方式来实现互动,一般是主播用户以音视频流的形式为观众表演节目,并且在互动过程中还可产生经济交易行为。当然,直播间的应用形态并不局限于在线娱乐,也可推广到其他相关场景中,例如:用户配对互动场景、视频会议场景、产品推介销售场景以及其他任何需要类似互动的场景中。
具体地,观众观看直播的过程如下:观众可以点击访问安装在观众客户端103上的直播应用程序(例如YY),并选择进入任意一个直播间,触发观众客户端103为该观众加载直播间界面,该直播间界面内包括若干交互组件,通过加载这些交互组件可以使观众在直播间内观看直播,并进行多种线上互动。
主播在直播时,可以为直播间设置虚拟背景。具体地,可以使用背景图片作为虚拟背景,以满足主播进行绿幕背景开播的需求。
相关技术中,需要人工设计文本,结合文本图像算法,生成相应的背景图片,以满足主播进行绿幕背景开播的需求。然而,人工设计文本花费时间长,效率低,且成本较高,而且每条文本生成的图片极度相似。因此,这种方案较难大规模的生成多样性的背景图片,无法满足直播、短视频等数十亿级用户对于背景图片的需求。
为此,本申请实施例提供了一种图片生成方法,可以由主播客户端或服务器作为执行主体。
请参阅图2,图2为本申请实施例提供的图片生成方法的流程示意图,该方法包括如下步骤:
S10:获取样本图片。
其中,样本图片为从某一图片类别的图片数据集中选取的一张图片。
具体地,可以将大量的图片输入至图片分类模型,获得若干个图片类别以及每个图片类别对应的图片数据集。也可以是按照预设的图片类别,从网络上收集相应类别的图片数据集。
S20:将样本图片输入至图片描述模型,获得样本图片对应的若干个图片描述文本。
其中,图片描述模型用于对图片进行描述,生成文本。
在本申请实施例中,图片描述模型为基于VIT的BLIP模型。其中,VIT(VisionTransformer)即视觉变换,BLIP(Bootstrapping Language-Image Pre-training)模型即引导语言预训练模型,包括编码器和解码器,解码器部分采用nucleus sampling或者top-psampling策略,以此来保证同一张图片生成的图片描述文本在语义接近的同时尽量保证语法或者用词上的多样性。
通过将样本图片输入至图片描述模型,可以自动快捷地获得样本图片对应的若干个图片描述文本。其中,若干个图片描述文本之间语法或用词不同,但语义接近。
S30:根据目标主题,对每个图片描述文本进行修改,获得目标主题对应的若干个主题文本。
其中,目标主题可以是根据主播直播需求的场景主题。例如,目标主题可以是情人节场景主题、圣诞节场景主题、春节场景主题、六一儿童节场景主题或者求婚场景主题等等。
具体地,获取与目标主题相关的主题词,通过将主题词与图片描述文本中的词汇进行组合,以对图片描述文本进行局部修改或改写,获得目标主题对应的主题文本。
S40:将每个主题文本输入至文本生成图像模型,获得目标主题对应的若干个主题图片。
其中,文本生成图像模型用于根据给定的文本生成符合文本描述的图像。具体地,文本生成图像模型可以是扩散模型,也可以是谷歌发布的Parti模型或MUSE模型。
在本申请实施例中,将每个主题文本输入至扩散模型,获得目标主题对应的若干个主题图片,主播可以从若干个主题图片中选取一张或多张主题图片作为直播间的背景图片,以满足主播进行绿幕背景开播的需求。
应用本申请实施例,通过获取样本图片;将样本图片输入至图片描述模型,获得样本图片对应的若干个图片描述文本;根据目标主题,对每个图片描述文本进行修改,获得目标主题对应的若干个主题文本;将每个主题文本输入至文本生成图像模型,获得目标主题对应的若干个主题图片。本申请实施例通过图片描述模型,自动生成图片描述文本,通过对图片描述文本进行修改,自动生成主题文本,通过文本生成图像模型,自动生成主题图片,提高了图片生成效率,降低了成本。
在一个可选的实施例中,步骤S10包括步骤S101~S102,具体如下:
S101:根据预设数量的图片类别,获取每个图片类别对应的图片数据集;
S102:获取目标图片类别,从图片数据集中选取图片类别与目标图片类别一致的样本图片。
其中,目标图片类别为待生成主题图片对应的图片类别。
在本申请实施例中,可以利用网络爬虫技术获取每个图片类别对应的50-100张图片,形成每个图片类别对应的图片数据集,以供图片描述模型寻找相应的特征。从图片数据集中随机选取一张图片类别与目标图片类别一致的样本图片,从而无需人工参与,自动快捷地获得样本图片。
在一个可选的实施例中,步骤S101之前,包括步骤S100,具体如下:
S100:根据预设的图片分类方法,获得预设数量的图片类别。
在本申请实施例中,预设的图片分类方法可以是根据场景进行图片类别划分,场景包括室内场景、户外场景以及摄影风景,预设数量的图片类别包括室内场景类别、户外场景类别以及摄影风景类别的一种或多种。具体地,室内场景类别包括室内卧室、室内客厅以及主题酒店场景类别。户外场景类别包括户外阳台、户外露台、户外街拍以及户外游乐园场景类别。摄影风景类别包括江景、海景、山景、湖景、冬季雪景、秋季枫叶景以及花海场景类别。通过预设数量的图片类别,可以满足主播使用绿幕直播时对不同背景图片的需求。
在一个可选的实施例中,步骤S30包括步骤S31~S32,具体如下:
S31:根据目标主题,获取与目标主题相关的若干个主题词;
S32:将若干个主题词与每个图片描述文本进行组合,获得目标主题对应的若干个主题文本。
其中,主题词可以是目标主题对应的场景中涉及的物品以及道具,例如,目标主题为春节主题,主题词可以是灯笼Lanterns、烟花fireworks以及炮竹firecrackers等。主题词也可以是场景修饰词,包括修饰场景的形容词或者名词,例如,中国红Chinese red。
在本申请实施例中,可以从若干个主题词随机选取一个或部分主题词与图片描述文本中的词汇进行拼接,从而自动快捷地获得目标主题对应的主题文本。
可选的,还可以获取预设的若干个图片风格词汇,将若干个图片风格词汇、若干个主题词与图片描述文本中的词汇进行组合,获得目标主题对应的主题文本。其中,图片风格词汇用于表示图片风格,包括时尚潮流类、动漫类以及古风类。
在一个可选的实施例中,步骤S32包括步骤S321~S322,具体如下:
S321:遍历每个图片描述文本,若当前图片描述文本包括预设的关键词,根据预设的关键词与目标主题词的映射关系,从若干个主题词中选取与关键词对应的一个或者两个以上的目标主题词;
S322:按照预设的拼接方式,将目标主题词与关键词进行拼接,获得当前图片描述文本对应的主题文本。
其中,关键词可以是预设的特定词汇,例如,卧室(bedroom)、酒店(hotel)或者阳台(balcony)。对于每个关键词,预先设定有对应的若干个目标主题词。具体地,建立关键词与目标主题词的映射关系,映射关系可以是映射表,在映射表中,一个关键词对应一个或多个目标主题词。例如,关键词bedroom的目标主题词包括Spring festival decoration、onValentine's Day、Gorgeous以及Simple等。
在本申请实施例中,通过识别图片描述文本中每个词汇,若图片描述文本中存在关键词,通过查找映射表,获得该关键词对应的多个目标主题词,从多个目标主题词中选取一个或两个以上的目标主题词,将选取的目标主题词与关键词进行拼接,从而对图片描述文本进行修改,获得图片描述文本对应的主题文本,来提高生成主题图片的质量和准确性。
在一个可选的实施例中,步骤S322包括步骤S3221~S3222,具体如下:
S3221:获取关键词在当前图片描述文本的位置;
S3222:将目标主题词插入到位置的相邻位置,获得当前图片描述文本对应的主题文本;其中,相邻位置为当前图片描述文本中位于关键词后面或前面、且紧靠关键词的位置。
在本申请实施例中,图片描述文本中的每个词汇都有对应的位置。具体地,可以按照首个词汇到末尾词汇的顺序,对每个词汇进行编号,从而确定每个词汇的位置。例如,图片描述文本为“A bedroom with a rug and curtains and plants”,关键词bedroom在首个词汇“A”之后,首个词汇A的编号为1,关键词bedroom的编号为2,词汇with的编号为3。获取关键词bedroom的目标主题词Spring festival decoration,可以将目标主题词Springfestival decoration插入到关键词bedroom之后,词汇with之前,即主题文本为“Abedroom spring festival decoration with a rug and curtains and plants”。
各个词汇在图片描述文本的位置不同,相应的权重也会不同。其中,权重用于表示词汇的重要程度。具体地,靠近关键词的权重大,远离关键词的权重小。通过将目标主题词插入到关键词所处位置的相邻位置,可以提高目标主题词的权重,提高后续主题文本生成主题图片的准确性。
在一个可选的实施例中,图片生成方法,包括步骤S50,具体如下:
S50:对若干个主题图片进行语义去重,获得目标主题图片。
在本申请实施例中,扩散模型生成的若干个主题图片可能较为相似,通过对若干个主题图片进行语义去重,可以淘汰语义较为相近的冗余图片,降低图片存储压力。
在一个可选的实施例中,步骤S50包括步骤S501~S502,具体如下:
S501:将每个主题图片输入至深度学习网络模型,获得每个主题图片的语义特征向量;
S502:计算每两个语义特征向量之间的相似度,将相似度小于预设阈值的主题图片作为目标主题图片。
在本申请实施例中,深度学习网络模型用于提取图片的语义特征。具体地,深度学习网络模型为基于VIT网络训练的CLIP模型。其中,CLIP(Contrastive Language-ImagePre-Training,对比语言图像预训练)模型是OpenAI发布的用于匹配图像和文本的预训练神经网络模型。深度学习网络模型对主题图片提取语义特征,获得语义特征向量。计算每两个语义特征向量之间的余弦距离值,将余弦距离值大于0.9的主题图片去除,将余弦距离值小于或等于0.9的主题图片作为目标主题图片,从而去除了重复或相似的主题图片。
请参阅图3,为本申请实施例提供的直播间图像生成方法的流程示意图,可以由主播客户端作为执行体,该方法包括如下步骤:
S100:获取直播背景样本图片,采用上述的图片生成方法,生成直播背景样本图片对应的主题图片;
S200:获取主播图像,将主播图像与主题图片进行融合,获得直播间图像;
S300:将直播间图像在直播间进行渲染显示。
其中,直播背景样本图片可以是主播利用主播客户端的摄像头拍摄的图片,也可以是主播客户端预先存储的图片。
在本申请实施例中,通过渲染器对直播间图像进行渲染,将主题图片作为主播的直播间的背景图片,以满足主播进行绿幕背景开播的需求。
请参阅图4,图4为本申请实施例提供的图片生成装置的结构示意图。该装置可以通过软件、硬件或两者的结合实现成为计算机设备的全部或一部分。本申请实施例提供的图片生成装置6,包括:
样本图片获取模块61,用于获取样本图片;
图片描述文本获得模块62,用于将样本图片输入至图片描述模型,获得样本图片对应的若干个图片描述文本;
主题文本获得模块63,用于根据目标主题,对每个图片描述文本进行修改,获得目标主题对应的若干个主题文本;
主题图片获得模块64,用于将每个主题文本输入至文本生成图像模型,获得目标主题对应的若干个主题图片。
需要说明的是,上述实施例提供的图片生成装置在执行图片生成方法时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将设备的内部结构划分为不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的图片生成装置与图片生成方法属于同一构思,其体现实现过程详见方法实施例,这里不再赘述。
请参阅图5,为本申请实施例提供的直播间图像生成装置的结构示意图。该装置可以通过软件、硬件或两者的结合实现成为计算机设备的全部或一部分。该装置7包括:
主题图片生成模块71,用于获取直播背景样本图片,采用上述的图片生成方法,生成直播背景样本图片对应的主题图片;
直播间图像获得模块72,用于获取主播图像,将主播图像与主题图片进行融合,获得直播间图像;
图像渲染显示模块73,用于将直播间图像在直播间进行渲染显示。
需要说明的是,上述实施例提供的直播间图像生成装置在执行直播间图像生成方法时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将设备的内部结构划分为不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的直播间图像生成装置与直播间图像生成方法属于同一构思,其体现实现过程详见方法实施例,这里不再赘述。
请参阅图6,为本申请提供的电子设备的结构示意图。如图6所示,该电子设备21可以包括:处理器210、存储器211以及存储在该存储器211并可以在该处理器210上运行的计算机程序212,例如:图片生成程序;该处理器210执行该计算机程序212时实现上述实施例中的步骤。
其中,该处理器210可以包括一个或多个处理核心。处理器210利用各种接口和线路连接计算机设备21内的各个部分,通过运行或执行存储在存储器211内的指令、程序、代码集或指令集,以及调用存储器211内的数据,执行计算机设备21的各种功能和处理数据,可选的,处理器210可以采用数字信号处理(Digital Signal Processing,DSP)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)、可编程逻辑阵列(Programble LogicArray,PLA)中的至少一个硬件形式来实现。处理器210可集成中央处理器(CentralProcessing Unit,CPU)、图像处理器(Graphics Processing Unit,GPU)和调制解调器等中的一种或几种的组合。其中,CPU主要处理操作系统、用户界面和应用程序等;GPU用于负责触摸显示屏所需要显示的内容的渲染和绘制;调制解调器用于处理无线通信。可以理解的是,上述调制解调器也可以不集成到处理器210中,单独通过一块芯片进行实现。
其中,存储器211可以包括随机存储器(Random Access Memory,RAM),也可以包括只读存储器(Read-Only Memory)。可选的,该存储器211包括非瞬时性计算机可读介质(non-transitory computer-readable storage medium)。存储器211可用于存储指令、程序、代码、代码集或指令集。存储器211可包括存储程序区和存储数据区,其中,存储程序区可存储用于实现操作系统的指令、用于至少一个功能的指令(比如触控指令等)、用于实现上述各个方法实施例的指令等;存储数据区可存储上面各个方法实施例中涉及到的数据等。存储器211可选的还可以是至少一个位于远离前述处理器210的存储装置。
本申请实施例还提供了一种计算机存储介质,该计算机存储介质可以存储有多条指令,该指令适用于由处理器加载并执行上述实施例的方法步骤,具体执行过程可以参见上述实施例的具体说明,在此不进行赘述。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。另外,各功能单元、模块的具体名称也只是为了便于相互区分,并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述或记载的部分,可以参见其它实施例的相关描述。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
在本发明所提供的实施例中,应该理解到,所揭露的装置/终端设备和方法,可以通过其它的方式实现。例如,以上所描述的装置/终端设备实施例仅是示意性的,例如,模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口,装置或单元的间接耦合或通讯连接,可以是电性,机械或其它的形式。
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,计算机程序包括计算机程序代码,计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。
本发明并不局限于上述实施方式,如果对本发明的各种改动或变形不脱离本发明的精神和范围,倘若这些改动和变形属于本发明的权利要求和等同技术范围之内,则本发明也意图包含这些改动和变形。
Claims (13)
1.一种图片生成方法,其特征在于,包括如下步骤:
获取样本图片;
将所述样本图片输入至图片描述模型,获得所述样本图片对应的若干个图片描述文本;
根据目标主题,对每个所述图片描述文本进行修改,获得所述目标主题对应的若干个主题文本;
将每个所述主题文本输入至文本生成图像模型,获得所述目标主题对应的若干个主题图片。
2.根据权利要求1所述的图片生成方法,其特征在于:
所述根据目标主题,对每个所述图片描述文本进行修改,获得所述目标主题对应的若干个主题文本的步骤,包括:
根据目标主题,获取与所述目标主题相关的若干个主题词;
将所述若干个主题词与每个所述图片描述文本进行组合,获得所述目标主题对应的若干个主题文本。
3.根据权利要求2所述的图片生成方法,其特征在于:
所述将所述若干个主题词与每个所述图片描述文本进行组合,获得所述目标主题对应的若干个主题文本的步骤,包括:
遍历每个所述图片描述文本,若当前所述图片描述文本包括预设的关键词,根据预设的关键词与目标主题词的映射关系,从所述若干个主题词中选取与所述关键词对应的一个或者两个以上的目标主题词;
按照预设的拼接方式,将所述目标主题词与所述关键词进行拼接,获得当前所述图片描述文本对应的主题文本。
4.根据权利要求3所述的图片生成方法,其特征在于:
所述按照预设的拼接方式,将所述目标主题词与所述关键词进行拼接,获得当前所述图片描述文本对应的主题文本的步骤,包括:
获取所述关键词在当前所述图片描述文本的位置;
将所述目标主题词插入到所述位置的相邻位置,获得当前所述图片描述文本对应的主题文本;其中,所述相邻位置为当前所述图片描述文本中位于所述关键词后面或前面、且紧靠所述关键词的位置。
5.根据权利要求1所述的图片生成方法,其特征在于,所述方法包括步骤:
对若干个所述主题图片进行语义去重,获得目标主题图片。
6.根据权利要求5所述的图片生成方法,其特征在于:
所述对若干个所述主题图片进行语义去重,获得目标主题图片的步骤,包括:
将每个所述主题图片输入至深度学习网络模型,获得每个所述主题图片的语义特征向量;
计算每两个所述语义特征向量之间的相似度,将所述相似度小于预设阈值的主题图片作为目标主题图片。
7.根据权利要求1至6任意一项所述的图片生成方法,其特征在于:
所述获取样本图片的步骤,包括:
根据预设数量的图片类别,获取每个所述图片类别对应的图片数据集;
获取目标图片类别,从所述图片数据集中选取图片类别与所述目标图片类别一致的样本图片。
8.根据权利要求7所述的图片生成方法,其特征在于:
所述根据预设数量的图片类别,获取每个所述图片类别对应的图片数据集的步骤之前,包括:
根据预设的图片分类方法,获得预设数量的图片类别。
9.一种直播间图像生成方法,其特征在于,所述方法包括如下步骤:
获取直播背景样本图片,采用权利要求1至8任意一项所述的图片生成方法,生成所述直播背景样本图片对应的主题图片;
获取主播图像,将所述主播图像与所述主题图片进行融合,获得直播间图像;
将所述直播间图像在直播间进行渲染显示。
10.一种图片生成装置,其特征在于,包括:
样本图片获取模块,用于获取样本图片;
图片描述文本获得模块,用于将所述样本图片输入至图片描述模型,获得所述样本图片对应的若干个图片描述文本;
主题文本获得模块,用于根据目标主题,对每个所述图片描述文本进行修改,获得所述目标主题对应的若干个主题文本;
主题图片获得模块,用于将每个所述主题文本输入至文本生成图像模型,获得所述目标主题对应的若干个主题图片。
11.一种直播间图像生成装置,其特征在于,包括:
主题图片生成模块,用于获取直播背景样本图片,采用权利要求1至8任意一项所述的图片生成方法,生成所述直播背景样本图片对应的主题图片;
直播间图像获得模块,用于获取主播图像,将所述主播图像与所述主题图片进行融合,获得直播间图像;
图像渲染显示模块,用于将所述直播间图像在直播间进行渲染显示。
12.一种电子设备,包括:处理器、存储器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至8任意一项所述方法或权利要求9所述方法的的步骤。
13.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至8任意一项所述方法或权利要求9所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310331107.3A CN116320524A (zh) | 2023-03-29 | 2023-03-29 | 图片生成方法、直播间图像生成方法以及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310331107.3A CN116320524A (zh) | 2023-03-29 | 2023-03-29 | 图片生成方法、直播间图像生成方法以及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116320524A true CN116320524A (zh) | 2023-06-23 |
Family
ID=86824019
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310331107.3A Pending CN116320524A (zh) | 2023-03-29 | 2023-03-29 | 图片生成方法、直播间图像生成方法以及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116320524A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116797684A (zh) * | 2023-08-21 | 2023-09-22 | 腾讯科技(深圳)有限公司 | 图像生成方法、装置、电子设备及存储介质 |
CN116884003A (zh) * | 2023-07-18 | 2023-10-13 | 南京领行科技股份有限公司 | 图片自动标注方法、装置、电子设备及存储介质 |
CN117593392A (zh) * | 2023-09-27 | 2024-02-23 | 书行科技(北京)有限公司 | 图像生成方法、装置、计算机设备和计算机可读存储介质 |
-
2023
- 2023-03-29 CN CN202310331107.3A patent/CN116320524A/zh active Pending
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116884003A (zh) * | 2023-07-18 | 2023-10-13 | 南京领行科技股份有限公司 | 图片自动标注方法、装置、电子设备及存储介质 |
CN116884003B (zh) * | 2023-07-18 | 2024-03-22 | 南京领行科技股份有限公司 | 图片自动标注方法、装置、电子设备及存储介质 |
CN116797684A (zh) * | 2023-08-21 | 2023-09-22 | 腾讯科技(深圳)有限公司 | 图像生成方法、装置、电子设备及存储介质 |
CN116797684B (zh) * | 2023-08-21 | 2024-01-05 | 腾讯科技(深圳)有限公司 | 图像生成方法、装置、电子设备及存储介质 |
CN117593392A (zh) * | 2023-09-27 | 2024-02-23 | 书行科技(北京)有限公司 | 图像生成方法、装置、计算机设备和计算机可读存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108401175B (zh) | 一种弹幕消息的处理方法、装置、存储介质及电子设备 | |
CN116320524A (zh) | 图片生成方法、直播间图像生成方法以及装置 | |
Bevan et al. | Behind the curtain of the" ultimate empathy machine" on the composition of virtual reality nonfiction experiences | |
CN109547819B (zh) | 直播列表展示方法、装置以及电子设备 | |
US10088983B1 (en) | Management of content versions | |
US20210084362A1 (en) | Method and system of processing information flow and method of displaying comment information | |
CN112068750A (zh) | 一种房源的处理方法和装置 | |
CN108171160B (zh) | 一种任务结果识别方法、装置、存储介质及电子设备 | |
CN114025186A (zh) | 直播间内的虚拟语音互动方法、装置及计算机设备 | |
CN113938696B (zh) | 基于自定义虚拟礼物的直播互动方法、系统及计算机设备 | |
CN114979682B (zh) | 多主播虚拟直播方法以及装置 | |
CN113873280A (zh) | 连麦直播对战互动方法、系统、装置及计算机设备 | |
CN114339285A (zh) | 知识点的处理方法、视频处理方法、装置及电子设备 | |
CN112827172A (zh) | 拍摄方法、装置、电子设备及存储介质 | |
CN114845127A (zh) | 直播间词条展示方法、系统、装置、设备及存储介质 | |
WO2024187948A1 (zh) | 信息推荐方法、装置、电子设备、计算机可读存储介质及计算机程序产品 | |
CN110446090A (zh) | 一种虚拟观众席观众连线方法、系统、装置和存储介质 | |
CN114139491A (zh) | 一种数据处理方法、装置及存储介质 | |
CN113438492A (zh) | 直播中的题目生成方法、系统、计算机设备及存储介质 | |
CN116954437A (zh) | 信息互动处理方法、装置、设备及计算机存储介质 | |
CN113542845A (zh) | 一种信息展示方法、装置、设备及存储介质 | |
CN115209211A (zh) | 字幕显示方法、装置、电子设备、存储介质及程序产品 | |
CN114513679B (zh) | 基于音频预播放的直播间推荐方法、系统及计算机设备 | |
CN114640863B (zh) | 直播间内的人物信息显示方法、系统、装置及计算机设备 | |
US11717755B2 (en) | Content generation system and method |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |