CN117788275A - 元宇宙ugc摄影作品ai风格化实现方法 - Google Patents

元宇宙ugc摄影作品ai风格化实现方法 Download PDF

Info

Publication number
CN117788275A
CN117788275A CN202311853992.8A CN202311853992A CN117788275A CN 117788275 A CN117788275 A CN 117788275A CN 202311853992 A CN202311853992 A CN 202311853992A CN 117788275 A CN117788275 A CN 117788275A
Authority
CN
China
Prior art keywords
meta
universe
stylization
ugc
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311853992.8A
Other languages
English (en)
Inventor
李浥尘
张欣悦
闫晓林
李华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dustsea Interactive Technology Suzhou Co ltd
Original Assignee
Dustsea Interactive Technology Suzhou Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dustsea Interactive Technology Suzhou Co ltd filed Critical Dustsea Interactive Technology Suzhou Co ltd
Priority to CN202311853992.8A priority Critical patent/CN117788275A/zh
Publication of CN117788275A publication Critical patent/CN117788275A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)

Abstract

本发明涉及一种元宇宙UGC摄影作品AI风格化实现方法,其包括如下操作步骤:在元宇宙中预设配置有多个基础扩散模型;用户向元宇宙上传原始图片,并且从多个基础扩散模型中选取一个确定作为风格模型,根据风格模型自适应调整原始图片获得第一中间图片;根据前一步骤所确定的风格模型弹出对应的基础提示词,由用户按需选取对应的提示词后对第一中间图片进行二次处理获得第二中间图片;用户自主输入提示词,元宇宙将自主输入的提示词向量化处理后与向量数据库中的向量比对提取最接近的操作指令,并根据操作指令对第二中间图片进行处理;AI风格化处理完成,获得最终图片。本申请可以简化用户的操作,方便用户自主、便利地对性作品进行创作。

Description

元宇宙UGC摄影作品AI风格化实现方法
技术领域
本发明涉及元宇宙数据处理与控制技术领域,具体是一种元宇宙UGC摄影作品AI风格化实现方法。
背景技术
元宇宙(Metaverse),是人类运用数字技术构建的,由现实世界映射或超越现实世界,可与现实世界交互的虚拟世界 [57],具备新型社会体系的数字生活空间。“元宇宙”本身并不是新技术,而是集成了一大批现有技术,包括5G、云计算、人工智能、虚拟现实、区块链、数字货币、物联网、人机交互等,在元宇宙技术的发展过程中, 也越来越注重用户的自主创建、自助丰富功能的投入。其中,UGC(User Generated Content,用户生成内容),指的是由普通用户主动创建、发布和分享的内容,相对于由专业内容创作者或机构创作的内容,UGC更加注重用户参与和创造,尤其是UGC摄影作品的上传及再创造,这是目前普通用户最为看重的。
目前图片的AI风格化,通常使用一些AI模型去完成,有mid journey,stablediffusion等,mid journey可定制化成都不高,stablediffusion的使用又需要很多的专业基础,并且他们对提示词的要求都很高,普通用户难以生成自己满意的作品,Web2.0时代的UGC,需要用户在某方面具有一定的专业水准,才能去创作自己的作品,但为了能够降低用户的使用标准,提高用户感受,如何降低UGC作品的风格化调整的难度,是本申请所需要解决的技术问题。
发明内容
本发明的目的是要提供一种元宇宙UGC摄影作品AI风格化实现方法,其可以简化用户的操作,方便用户自主、便利地对性作品进行创作。
为达到上述目的,本发明采用的技术方案是:
本发明提供了一种元宇宙UGC摄影作品AI风格化实现方法,其包括如下操作步骤:
在元宇宙中预设配置有多个基础扩散模型;
用户向元宇宙上传原始图片,并且从所述多个基础扩散模型中选取一个确定作为风格模型,根据所述风格模型自适应调整所述原始图片获得第一中间图片;
根据前一步骤所确定的所述风格模型弹出对应的基础提示词,由用户按需选取对应的提示词后对第一中间图片进行二次处理获得第二中间图片;
用户自主输入提示词,元宇宙将自主输入的提示词向量化处理后与向量数据库中的向量比对提取最接近的操作指令,并根据所述操作指令对所述第二中间图片进行处理;
AI风格化处理完成,获得最终图片。
对于上述技术方案,申请人还有进一步的优化措施。
可选地,所述基础扩散模型包括赛博朋克风格模型、波普风格模型、古风模型、哥特风格模型。
可选地,对于所述基础扩散模型的各类型风格模型分别预先包装有一套符合摄影作品标准的所述基础提示词。
可选地,用户自主输入提示词是通过语音输入文字或者对话框输入文字段落。
可选地,所述元宇宙中封装配置有语义理解系统,所述语义理解系统对应于不同的摄影相关的操作指令设置有向量数据库,所述语义理解系统提取所述用户自主输入提示词中的关键字并且映射提取所述向量数据库中的操作指令,进而根据所述操作指令对所述第二中间图片进行处理。
可选地,所述语义理解系统采用的是GPT系统。
可选地,所述元宇宙中对应于各个提示词设置有方便参数调整的滑动式调节要素。
可选地,所述滑动式调节要素为滑动条或者滚动条。
特别地,本发明还提供了一种计算设备,包括存储器、处理器和存储在所述存储器内并能由所述处理器运行的计算机程序,其中,所述处理器执行所述计算机程序时实现如上所述的方法。
本发明还提供了一种计算机可读存储介质,其内存储有计算机程序,所述计算机程序在由处理器执行时实现如上所述的方法。所述计算机可读存储介质优选为非易失性可读存储介质。
与现有技术相比较,本发明专利申请的优点在于:
本申请的元宇宙UGC摄影作品AI风格化实现方法,用户可通过只需要通过少量的ui操作以及少量的文字描述,就能得到风格化设计的摄影作品,整个过程AI介入性强,但需要人工专业化操作的程度低,可在有效提高摄影作品质量的同时有效改善用户感受。
附图说明
后文将参照附图以示例性而非限制性的方式详细描述本发明的一些具体实施例。附图中相同的附图标记标示了相同或类似的部件或部分。本领域技术人员应该理解,这些附图未必是按比例绘制的。附图中:
图1是根据本发明一个实施例的元宇宙UGC摄影作品AI风格化实现方法的工作流程示意图;
图2是根据本申请另一个实施例的计算设备结构图;
图3是根据本申请另一个实施例的计算机可读存储介质结构图。
具体实施方式
下面将结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
此外,下面所描述的本发明不同实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互结合。
本实施例描述了一种元宇宙UGC摄影作品AI风格化实现方法,如图1所示,其包括如下操作步骤:
在元宇宙中预设配置有多个基础扩散模型;
用户向元宇宙上传原始图片,并且从所述多个基础扩散模型中选取一个确定作为风格模型,根据所述风格模型自适应调整所述原始图片获得第一中间图片;
根据前一步骤所确定的所述风格模型弹出对应的基础提示词,由用户按需选取对应的提示词后对第一中间图片进行二次处理获得第二中间图片;
用户自主输入提示词,元宇宙将自主输入的提示词向量化处理后与向量数据库中的向量比对提取最接近的操作指令,并根据所述操作指令对所述第二中间图片进行处理;
AI风格化处理完成,获得最终图片。
在本实施例中,训练了一些风格化的基础扩散模型,比如赛博朋克风格模型、波普风格模型、古风模型、哥特风格模型。主要覆盖了目前元宇宙一些主流的风格,用户可以在自己的元宇宙中,上传自己的摄影作品,然后通过界面选择自己喜欢的风格,也可以使用默认的当前元宇宙场景风格进行自主的风格化调整。
对于所述基础扩散模型的各类型风格模型分别预先包装有一套符合摄影作品标准的所述基础提示词。这样的话,不用用户自主地创作输入任何提示词,就能每次生成高清的、风格化的摄影作品
在一实施方式下,用户自主输入提示词是通过语音输入文字或者对话框输入文字段落,所述元宇宙中封装配置有语义理解系统,所述语义理解系统对应于不同的摄影相关的操作指令设置有向量数据库,所述语义理解系统提取所述用户自主输入提示词中的关键字并且映射提取所述向量数据库中的操作指令,进而根据所述操作指令对所述第二中间图片进行处理,所述语义理解系统可优选采用GPT系统等大语言模型。
语义理解系统,把当前主要的图片操作方式,比如prompt提示词,controlnet插件控制图片风格等,openpose插件控制人物动作等,对应成一段文字描述,(比如,我想在左边生成一束光。。等等)然后把文字描述通过text-embeding方式向量化,接着把整个操作的数据,操作过程(比如生成光需要的controlnet脚本),以及文字向量化后的向量值,全部存入定制的向量数据库中。
所以当用户有自己的特殊需求时,用户可以在UI输入框中输入自己的想法,我们通过自己封装的语义理解系统,生成第二部分操作。比如,用户输入“我想在左边生成一束光”,我们把输入文本向量化后,与我们向量数据库中的向量比对,就能从向量数据库中,获得一个与玩家想法最接近的操作。然后再次生成关于一束光方面的prompt提示词。并且还能把预制封装中的一些插件使用,比如controlnet、openpose等,来自动修改图片生成。
这样做相对于,直接使用GPT等多模态生成图片的好处是,可以直接在自己的摄影作品上去修改,而不是直接让多模态模型去生成新的图片。这是一套把用户输入的文本,基于大语言模型和向量相似度检索后,生成对应prompt提示词,以及对应AI插件自动调用的系统。
可选地,所述元宇宙中对应于各个提示词设置有方便参数调整的滑动式调节要素,所述滑动式调节要素为滑动条或者滚动条。关于参数调整,本实施例把stablediffusion模型中的CFG scale,Denoising strength等参数通过封装,让用户可以通过滚动条控制自己摄影作品的抽象程度,以及和自己原有作品的相似程度。
综上可知,本申请的元宇宙UGC摄影作品AI风格化实现方法,用户可通过只需要通过少量的ui操作以及少量的文字描述,就能得到风格化设计的摄影作品,整个过程AI介入性强,但需要人工专业化操作的程度低,可在有效提高摄影作品质量的同时有效改善用户感受。。
本申请的基于Websocket的数字人参数动态同步与管理系统可具有一下潜在优势:
多端支持:通过websocket技术,我们可以使配置元宇宙小程序的用户终端、线下显示终端等设备与服务器端打通,建立起一个完整的体系。
数据共享:websocket技术,使一份数据,可以多端共享,优化了系统间的响应时间,提供了用户的访问速率和体验。
实时通知:通过websocket技术,实现了对线下显示终端的实时推送和通知功能,让用户都能体验到最新的版本,避免了数据的延迟和冲突。
低延迟:webSocket是建立在TCP之上的,可以直接在已经建立的连接上进行数据传输,无需重复的连接建立和断开过程,可以减少网络延迟,提供更快的数据传输速度。
较少的网络负载:由于webSocket使用了长连接,相对于频繁的HTTP请求响应机制,减少了冗余的头部信息和连接建立的开销,降低了网络负载。
根据下文结合附图对本申请的具体实施例的详细描述,本领域技术人员将会更加明了本申请的上述以及其他目的、优点和特征。
本申请实施例还提供了一种计算设备,参照图2,该计算设备包括存储器1120、处理器1110和存储在所述存储器1120内并能由所述处理器1110运行的计算机程序,该计算机程序存储于存储器1120中的用于程序代码的空间1130,该计算机程序在由处理器1110执行时实现用于执行任一项根据本发明的方法步骤1131。
本申请实施例还提供了一种计算机可读存储介质。参照图3,该计算机可读存储介质包括用于程序代码的存储单元,该存储单元设置有用于执行根据本发明的方法步骤的程序1131′,该程序被处理器执行。
本申请实施例还提供了一种包含指令的计算机程序产品。当该计算机程序产品在计算机上运行时,使得计算机执行根据本发明的方法步骤。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机加载和执行所述计算机程序指令时,全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、获取其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。
专业人员应该还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令处理器完成,所述的程序可以存储于计算机可读存储介质中,所述存储介质是非短暂性(英文:non-transitory)介质,例如随机存取存储器,只读存储器,快闪存储器,硬盘,固态硬盘,磁带(英文:magnetic tape),软盘(英文:floppy disk),光盘(英文:optical disc)及其任意组合。
特别地,本发明还提供了一种计算设备,包括存储器、处理器和存储在所述存储器内并能由所述处理器运行的计算机程序,其中,所述处理器执行所述计算机程序时实现如上所述的方法。
本发明还提供了一种计算机可读存储介质,其内存储有计算机程序,所述计算机程序在由处理器执行时实现如上所述的方法。所述计算机可读存储介质优选为非易失性可读存储介质。
上述实施例只为说明本发明的技术构思及特点,其目的在于让熟悉此项技术的人士能够了解本发明的内容并据以实施,并不能以此限制本发明的保护范围,凡根据本发明精神实质所作的等效变化或修饰,都应涵盖在本发明的保护范围之内。

Claims (10)

1.一种元宇宙UGC摄影作品AI风格化实现方法,其特征在于,包括如下操作步骤:
在元宇宙中预设配置有多个基础扩散模型;
用户向元宇宙上传原始图片,并且从所述多个基础扩散模型中选取一个确定作为风格模型,根据所述风格模型自适应调整所述原始图片获得第一中间图片;
根据前一步骤所确定的所述风格模型弹出对应的基础提示词,由用户按需选取对应的提示词后对第一中间图片进行二次处理获得第二中间图片;
用户自主输入提示词,元宇宙将自主输入的提示词向量化处理后与向量数据库中的向量比对提取最接近的操作指令,并根据所述操作指令对所述第二中间图片进行处理;
AI风格化处理完成,获得最终图片。
2.根据权利要求1所述的元宇宙UGC摄影作品AI风格化实现方法,其特征在于,所述基础扩散模型包括赛博朋克风格模型、波普风格模型、古风模型、哥特风格模型。
3.根据权利要求2所述的元宇宙UGC摄影作品AI风格化实现方法,其特征在于,对于所述基础扩散模型的各类型风格模型分别预先包装有一套符合摄影作品标准的所述基础提示词。
4.根据权利要求1所述的元宇宙UGC摄影作品AI风格化实现方法,其特征在于,用户自主输入提示词是通过语音输入文字或者对话框输入文字段落。
5.根据权利要求4所述的元宇宙UGC摄影作品AI风格化实现方法,其特征在于,所述元宇宙中封装配置有语义理解系统,所述语义理解系统对应于不同的摄影相关的操作指令设置有向量数据库,所述语义理解系统提取所述用户自主输入提示词中的关键字并且映射提取所述向量数据库中的操作指令,进而根据所述操作指令对所述第二中间图片进行处理。
6.根据权利要求5所述的元宇宙UGC摄影作品AI风格化实现方法,其特征在于,所述语义理解系统采用的是GPT系统。
7.根据权利要求1所述的元宇宙UGC摄影作品AI风格化实现方法,其特征在于,所述元宇宙中对应于各个提示词设置有方便参数调整的滑动式调节要素。
8.根据权利要求7所述的元宇宙UGC摄影作品AI风格化实现方法,其特征在于,所述滑动式调节要素为滑动条或者滚动条。
9.一种计算设备,包括存储器、处理器和存储在所述存储器内并能由所述处理器运行的计算机程序,其中,所述处理器执行所述计算机程序时实现如权利要求1至8中任一项所述的方法。
10.一种计算机可读存储介质,其内存储有计算机程序,所述计算机程序在由处理器执行时实现如权利要求1至8中任一项所述的方法。
CN202311853992.8A 2023-12-29 2023-12-29 元宇宙ugc摄影作品ai风格化实现方法 Pending CN117788275A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311853992.8A CN117788275A (zh) 2023-12-29 2023-12-29 元宇宙ugc摄影作品ai风格化实现方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311853992.8A CN117788275A (zh) 2023-12-29 2023-12-29 元宇宙ugc摄影作品ai风格化实现方法

Publications (1)

Publication Number Publication Date
CN117788275A true CN117788275A (zh) 2024-03-29

Family

ID=90381358

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311853992.8A Pending CN117788275A (zh) 2023-12-29 2023-12-29 元宇宙ugc摄影作品ai风格化实现方法

Country Status (1)

Country Link
CN (1) CN117788275A (zh)

Similar Documents

Publication Publication Date Title
Mehri et al. Structured fusion networks for dialog
US20190228070A1 (en) Deep learning based dialog method, apparatus, and device
WO2019204710A1 (en) Task-independent conversational systems
US11934777B2 (en) Systems and methods for generating content for a screenplay
EP3889846A1 (en) Deep learning model training method and system
KR102656497B1 (ko) 멀티미디어 메시징 애플리케이션의 수정 가능한 비디오들에서의 텍스트 메시지들의 맞춤화
KR20220094008A (ko) 인공지능을 이용한 디지털 휴먼 기반 콘텐츠 생성 장치 및 방법
KR20210043894A (ko) 전자 장치 및 이의 문장 제공 방법
KR20240027071A (ko) 가상 메타버스에서의 공간화된 오디오 채팅
CN116934924A (zh) 卡通形象生成方法、装置及计算机设备
CN113641806A (zh) 对话方法、系统、电子设备及存储介质
WO2022237633A1 (zh) 一种图像处理方法、装置、设备及介质
CN117079651B (zh) 一种基于大规模语言模型的语音交叉实时增强现实方法
CN117576257A (zh) 一种通过文本编辑人脸图像方法、终端及存储介质
CN113590247A (zh) 文本创作方法及计算机程序产品
CN117788275A (zh) 元宇宙ugc摄影作品ai风格化实现方法
CN117633296A (zh) 视频生成及其模型训练方法、电子设备
CN116740210A (zh) 一种图像内容再生成方法、装置、设备及存储介质
US20220360545A1 (en) Graph-Based Natural Language Generation for Conversational Systems
CN113330457A (zh) 使用插入操作生成神经网络输出
US20240155071A1 (en) Text to video generation
US20240161462A1 (en) Embedding an input image to a diffusion model
CN116432746A (zh) 一种基于提示学习的联邦建模方法、装置、设备、介质
KR102366173B1 (ko) 객체에 관한 플로팅 홀로그램을 제공하기 위한 방법, 시스템 및 비일시성의 컴퓨터 판독 가능한 기록 매체
WO2022241396A1 (en) Graph-based natural language generation for conversational systems

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination