CN115756455A - 一种基于多模态ai的ui生成方法 - Google Patents
一种基于多模态ai的ui生成方法 Download PDFInfo
- Publication number
- CN115756455A CN115756455A CN202211419408.3A CN202211419408A CN115756455A CN 115756455 A CN115756455 A CN 115756455A CN 202211419408 A CN202211419408 A CN 202211419408A CN 115756455 A CN115756455 A CN 115756455A
- Authority
- CN
- China
- Prior art keywords
- generation
- feature
- image
- text
- different
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 29
- 230000006870 function Effects 0.000 claims abstract description 43
- 238000013461 design Methods 0.000 claims abstract description 19
- 239000013598 vector Substances 0.000 claims abstract description 11
- 238000005457 optimization Methods 0.000 claims abstract description 9
- 238000005516 engineering process Methods 0.000 claims abstract description 6
- 238000013528 artificial neural network Methods 0.000 claims abstract description 5
- 230000007547 defect Effects 0.000 claims abstract description 4
- 230000004927 fusion Effects 0.000 claims abstract description 4
- 238000012552 review Methods 0.000 claims description 18
- 238000012827 research and development Methods 0.000 claims description 14
- 238000013507 mapping Methods 0.000 claims description 13
- 230000000007 visual effect Effects 0.000 claims description 11
- 238000003062 neural network model Methods 0.000 claims description 8
- 238000009792 diffusion process Methods 0.000 claims description 6
- 230000008520 organization Effects 0.000 claims description 3
- 238000004806 packaging method and process Methods 0.000 claims description 3
- 230000007812 deficiency Effects 0.000 description 3
- 235000012736 patent blue V Nutrition 0.000 description 2
- 238000007670 refining Methods 0.000 description 2
- 238000009877 rendering Methods 0.000 description 2
- 238000009825 accumulation Methods 0.000 description 1
- 239000012141 concentrate Substances 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
Images
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Processing Or Creating Images (AREA)
Abstract
本发明公开一种基于多模态AI的UI生成方法,获取目标网站官网的需求文档,并根据需求文档将需求细化为对照具体UI界面的不同功能形成功能切面,针对不同的功能切面进行不同维度特征提取形成特征切面;针对不同功能切面提供的特征集合进行融合操作建立特征之间的联系形成需求全面覆盖,并根据融合的特征集结果封装成神经网络预测模型所需特征向量;将特征向量录入到核心为多模态AI技术为驱动的UI自动生成工具中执行UI图像生成功能,预测生成功能需求对应UI图像;对生成的不同功能需求的UI图像进行评审,不足之处参照入参特征进行局部优化以进行二次生成,最后将生成的不同UI交付使用。本发明有效的缩短了UI设计时间成本。
Description
技术领域
本发明涉及图形界面技术领域,尤其涉及一种基于多模态AI的UI生成方法。
背景技术
目前软件研发中UI设计从需求文档到UI界面生成完全依靠设计人员,主要的UI设计方式主要分为两种:一种是设计人员通过自身对需求的理解手工绘制UI图,一种是依靠UI界面组件库资源,选用组件库中组件进行UI图设计。该过程需要UI设计人员花大量的时间去构思设计UI,同时针对行业潮流界面所需组件,需求实时积累并更新至组件资源库。设计构思与组件记录过程占用了设计人员大量的时间,同时受个人风格影响所设计的UI,最终呈现效果也很难切实迎合客户需求。
如图1所示,UI设计人员需要消耗大量时间去构思设计界面,不能更专注于细节的挖掘,传统的UI界面中选用的组件元素,来自于自身组件库积累或组件公开资源库,但是缺陷也很明显,首先业内组件库没有统一资源,针对行业内流行组件元素的出现要不断的更新完善组件库资源,需要时刻关注行业发展趋势,维护成本较高。选取的组件也受设计人员选用角度不同而造成风格差异,当设计人员对需要理解片面、自身知识面狭窄往往造成UI设计图不够人性化、不合符审美需求、图像表征性不强等问题。
发明内容
本发明的目的在于提供一种基于多模态AI的UI生成方法。
本发明采用的技术方案是:
一种基于多模态AI的UI生成方法,其包括以下步骤:
步骤1,获取目标网站官网的需求文档,并根据需求文档将需求细化为对照具体UI界面的不同功能形成功能切面,
具体地,以电信集团官网为例,在给出电信集团官网需求文档后,UI设计人员根据需求文档进行功能拆分,将需求细化为可对照具体UI界面的明确功能A(导航栏模块)、功能B(新闻媒体模块)、功能C(商品展示模块)形成功能切面,便于需求变更时复用;
步骤2,针对不同的功能切面进行不同维度特征提取形成特征切面;
具体地,针对功能A、B、C切面进行不同维度特征提取形成特征切面,如该切面中导航栏包括新闻、企业文化、信息公开、商品专栏等导航,便于用户快速跳转使用该功能,颜色应区别于整体色彩如整体色调白色,导航栏可选用天空蓝或深蓝色色调突出导航的醒目特点,将特征封装成切面目的是让切面复用性更高、灵活性更强;
步骤3,针对不同功能切面提供的特征集合进行融合操作建立特征之间的联系形成需求全面覆盖,并根据融合的特征集结果封装成神经网络预测模型所需特征向量;
步骤4,将特征向量录入到核心为多模态AI技术为驱动的UI自动生成工具中执行UI图像生成功能,预测生成功能需求对应UI图像;
步骤5,对生成的不同功能需求的UI图像进行评审,判断是否符合需求文档要求;是则,完成UI生成并交付研发;否则,执行步骤4。
进一步地,步骤1中不同的功能包括导航栏功能、新闻媒体功能和商品展示功能。
进一步地,步骤4具体包括以下步骤:
步骤4-1,根据输入的特征文本向量将特征文本语义利用神经网络模型CLIP提供的文本编码建立特征文本到视觉空间的映射;
具体地,该过程是神经网络模型在大量学习了政府、新闻媒体、商城等官网首页数据后,将电信官网特征文本与视觉图像建立联系,形成图文映射关系。
步骤4-2,通过扩散模型将特征文本的编码在加入特征文本条件的基础上扩散到视觉空间对应的图像编码,
步骤4-3,通过GLID生成模型反向扩散从特征文本的表示空间映射到图像空间,生成不同功能需求对应的UI图像。
进一步的,步骤5中根据需求文档对UI图像进行自我评审是否满足需求文档基本要求;是则,进行归档保存;否则,针对不足之处参照入参特征进行局部优化,并执行步骤4重新选取特征或细化特征指标作为UI生成文本条件进行二次生成。
具体地,针对生成的UI图像A(导航栏UI)、B(新闻专栏UI)、C(商品专栏)进行评审,首先根据需求文档自我评审是否满足需求文档基本要求,针对不足之处参照入参特征进行局部优化,重新选取特征或细化特征指标作为UI生成文本条件进行二次生成,最后将生成的不同UI进行归档保存以备后续专家评审。
进一步的,步骤5中对自我评审通过的UI图像进行专家评审。
进一步的,专家评审时,组织需求方、UI设计、软件研发、市场推广人员参会形成专家评审团,根据最终的UI图像判断是否满足功能基本需求、软件开发可行性、用户审美及功能需要;是则,交付研发;否则,执行步骤4进行回归优化。
本发明采用以上技术方案,以多模态AI技术为驱动的研发需求到UI图像自动生成的解决方案,实现了软件研发领域中自然语言文本描述的研发需求与计算机视觉的结合。目的为UI设计人员提供一种将研发需求自动生成UI图像的方案,并支持根据生成的UI图像继续调整需求文本图像生成特征,用于提升文本渲染与研发需求对应UI图像的相似度,让图像更具表征性,有效的缩短了UI设计时间成本,让即使非专业UI设计人员也能快速的设计出UI图像,同时不会因为UI设计人员的更换造成功能迭代中UI设计风格的断层,生成工具在海量数据支撑下所生成的图像更符合用户需求。与传统利用组件资源库或直接手绘的UI设计的方式相比,具有如下技术特点:1) 生成方式完全不同,传统方式从需求文档到UI图像的生成,完全依赖于UI设计人员编写配置文件与配置文件解析器,该过程中程序编写占用了大量的时间,同时对UI设计人员有较高的编程技术要求,而本专利中根据文本语义可匹配到CLIP神经网络提供的文本编码,文本到图像的生成过程,根据特征文本编码到图像空间中的图像编码映射,自动完成特征文本到图像空间的映射。2) UI界面资源来源不同,传统方式生成的UI完全依赖于UI设计人员组件资源库,需要根据需求实时更新补充组件库资源。本专利资源来源于学习了数以亿级图像的神经网络模型,能很好地建立文本语义与视觉语义之间的映射,同时根据图像被选取的次数权重,自动选取用户欢迎度更高的图像元素。
附图说明
以下结合附图和具体实施方式对本发明做进一步详细说明;
图1为现有技术的UI生成方法的流程示意图;
图2为本发明一种基于多模态AI的UI生成方法的流程示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图对本申请实施例中的技术方案进行清楚、完整地描述。
如图2所示,本发明公开了一种基于多模态AI的UI生成方法,其包括以下步骤:
步骤1,获取目标网站官网的需求文档,并根据需求文档将需求细化为对照具体UI界面的不同功能形成功能切面,
具体地,以电信集团官网为例,在给出电信集团官网需求文档后,UI设计人员根据需求文档进行功能拆分,将需求细化为可对照具体UI界面的明确功能A(导航栏模块)、功能B(新闻媒体模块)、功能C(商品展示模块)形成功能切面,便于需求变更时复用;
步骤2,针对不同的功能切面进行不同维度特征提取形成特征切面;
具体地,针对功能A、B、C切面进行不同维度特征提取形成特征切面,如该切面中导航栏包括新闻、企业文化、信息公开、商品专栏等导航,便于用户快速跳转使用该功能,颜色应区别于整体色彩如整体色调白色,导航栏可选用天空蓝或深蓝色色调突出导航的醒目特点,将特征封装成切面目的是让切面复用性更高、灵活性更强;
步骤3,针对不同功能切面提供的特征集合进行融合操作建立特征之间的联系形成需求全面覆盖,并根据融合的特征集结果封装成神经网络预测模型所需特征向量;
步骤4,将特征向量录入到核心为多模态AI技术为驱动的UI自动生成工具中执行UI图像生成功能,预测生成功能需求对应UI图像;
步骤5,对生成的不同功能需求的UI图像进行评审,判断是否符合需求文档要求;是则,完成UI生成并交付研发;否则,执行步骤4。
进一步地,步骤1中不同的功能包括导航栏功能、新闻媒体功能和商品展示功能。
进一步地,步骤4具体包括以下步骤:
步骤4-1,根据输入的特征文本向量将特征文本语义利用神经网络模型CLIP提供的文本编码建立特征文本到视觉空间的映射;
具体地,该过程是神经网络模型在大量学习了政府、新闻媒体、商城等官网首页数据后,将电信官网特征文本与视觉图像建立联系,形成图文映射关系。
步骤4-2,通过扩散模型将特征文本的编码在加入特征文本条件的基础上扩散到视觉空间对应的图像编码,
步骤4-3,通过GLID生成模型反向扩散从特征文本的表示空间映射到图像空间,生成不同功能需求对应的UI图像。
进一步的,步骤5中根据需求文档对UI图像进行自我评审是否满足需求文档基本要求;是则,进行归档保存;否则,针对不足之处参照入参特征进行局部优化,并执行步骤4重新选取特征或细化特征指标作为UI生成文本条件进行二次生成。
具体地,针对生成的UI图像A(导航栏UI)、B(新闻专栏UI)、C(商品专栏)进行评审,首先根据需求文档自我评审是否满足需求文档基本要求,针对不足之处参照入参特征进行局部优化,重新选取特征或细化特征指标作为UI生成文本条件进行二次生成,最后将生成的不同UI进行归档保存以备后续专家评审。
进一步的,步骤5中对自我评审通过的UI图像进行专家评审。
进一步的,专家评审时,组织需求方、UI设计、软件研发、市场推广人员参会形成专家评审团,根据最终的UI图像判断是否满足功能基本需求、软件开发可行性、用户审美及功能需要;是则,交付研发;否则,执行步骤4进行回归优化。
本发明采用以上技术方案,以多模态AI技术为驱动的研发需求到UI图像自动生成的解决方案,实现了软件研发领域中自然语言文本描述的研发需求与计算机视觉的结合。目的为UI设计人员提供一种将研发需求自动生成UI图像的方案,并支持根据生成的UI图像继续调整需求文本图像生成特征,用于提升文本渲染与研发需求对应UI图像的相似度,让图像更具表征性,有效的缩短了UI设计时间成本,让即使非专业UI设计人员也能快速的设计出UI图像,同时不会因为UI设计人员的更换造成功能迭代中UI设计风格的断层,生成工具在海量数据支撑下所生成的图像更符合用户需求。与传统利用组件资源库或直接手绘的UI设计的方式相比,具有如下技术特点:1) 生成方式完全不同,传统方式从需求文档到UI图像的生成,完全依赖于UI设计人员编写配置文件与配置文件解析器,该过程中程序编写占用了大量的时间,同时对UI设计人员有较高的编程技术要求,而本专利中根据文本语义可匹配到CLIP神经网络提供的文本编码,文本到图像的生成过程,根据特征文本编码到图像空间中的图像编码映射,自动完成特征文本到图像空间的映射。2) UI界面资源来源不同,传统方式生成的UI完全依赖于UI设计人员组件资源库,需要根据需求实时更新补充组件库资源。本专利资源来源于学习了数以亿级图像的神经网络模型,能很好地建立文本语义与视觉语义之间的映射,同时根据图像被选取的次数权重,自动选取用户欢迎度更高的图像元素。
显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此,本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
Claims (6)
1.一种基于多模态AI的UI生成方法,其特征在于:其包括以下步骤:
步骤1,获取目标网站官网的需求文档,并根据需求文档将需求细化为对照具体UI界面的不同功能形成功能切面,
步骤2,针对不同的功能切面进行不同维度特征提取形成特征切面;
步骤3,针对不同功能切面提供的特征集合进行融合操作建立特征之间的联系形成需求全面覆盖,并根据融合的特征集结果封装成神经网络预测模型所需特征向量;
步骤4,将特征向量录入到核心为多模态AI技术为驱动的UI自动生成工具中执行UI图像生成功能,预测生成功能需求对应UI图像;
步骤5,对生成的不同功能需求的UI图像进行评审,判断是否符合需求文档要求;是则,完成UI生成并交付研发;否则,执行步骤4。
2.根据权利要求1所述的一种基于多模态AI的UI生成方法,其特征在于:步骤1中不同的功能包括导航栏功能、新闻媒体功能和商品展示功能。
3.根据权利要求1所述的一种基于多模态AI的UI生成方法,其特征在于:步骤4具体包括以下步骤:
步骤4-1,根据输入的特征文本向量将特征文本语义利用神经网络模型CLIP提供的文本编码建立特征文本到视觉空间的映射;
具体地,该过程是神经网络模型在大量学习了政府、新闻媒体、商城等官网首页数据后,将电信官网特征文本与视觉图像建立联系,形成图文映射关系;
步骤4-2,通过扩散模型将特征文本的编码在加入特征文本条件的基础上扩散到视觉空间对应的图像编码,
步骤4-3,通过GLID生成模型反向扩散从特征文本的表示空间映射到图像空间,生成不同功能需求对应的UI图像。
4.根据权利要求1所述的一种基于多模态AI的UI生成方法,其特征在于:步骤5中根据需求文档对UI图像进行自我评审是否满足需求文档基本要求;是则,进行归档保存;否则,针对不足之处参照入参特征进行局部优化,并执行步骤4重新选取特征或细化特征指标作为UI生成文本条件进行二次生成。
5.根据权利要求4所述的一种基于多模态AI的UI生成方法,其特征在于:步骤5中对自我评审通过的UI图像进行专家评审。
6.根据权利要求5所述的一种基于多模态AI的UI生成方法,其特征在于:专家评审时,组织需求方、UI设计、软件研发、市场推广人员参会形成专家评审团,根据最终的UI图像判断是否满足功能基本需求、软件开发可行性、用户审美及功能需要;是则,交付研发;否则,执行步骤4进行回归优化。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211419408.3A CN115756455A (zh) | 2022-11-14 | 2022-11-14 | 一种基于多模态ai的ui生成方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211419408.3A CN115756455A (zh) | 2022-11-14 | 2022-11-14 | 一种基于多模态ai的ui生成方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115756455A true CN115756455A (zh) | 2023-03-07 |
Family
ID=85370980
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211419408.3A Pending CN115756455A (zh) | 2022-11-14 | 2022-11-14 | 一种基于多模态ai的ui生成方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115756455A (zh) |
-
2022
- 2022-11-14 CN CN202211419408.3A patent/CN115756455A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10191721B1 (en) | Systems and methods for generating functional application designs | |
KR101710465B1 (ko) | 검색 추천 방법 및 장치 | |
Fan et al. | A process ontology based approach to easing semantic ambiguity in business process modeling | |
CN118093801B (zh) | 基于大语言模型的信息交互方法、装置以及电子设备 | |
CN112163420A (zh) | 一种基于nlp技术的rpa流程自动生成方法 | |
CN110134931A (zh) | 媒介标题生成方法、装置、电子设备及可读介质 | |
US20230396857A1 (en) | Video generation method and apparatus, and electronic device and computer-readable medium | |
CN112764736B (zh) | 一种web端流程图建模方法、设备和系统 | |
CN108304190A (zh) | 网络店铺生成方法及装置 | |
CN111488147A (zh) | 一种智能布局方法及装置 | |
US11868790B2 (en) | One-to-many automatic content generation | |
CN114416516A (zh) | 基于截图的测试用例及测试脚本生成方法、系统及介质 | |
Suh et al. | Roadmapping for prioritisation of smartphone feature requirements based on user experiences | |
Tian | Application and analysis of artificial intelligence graphic element algorithm in digital media art design | |
Maccioni et al. | Sustainability as a value-adding concept in the early design phases? Insights from stimulated ideation sessions | |
CN115756455A (zh) | 一种基于多模态ai的ui生成方法 | |
Bräker et al. | How does business process modeling reflect augmented reality-based processes? | |
CN118014686A (zh) | 对象推荐方法及装置、理财产品推荐方法及装置 | |
KR102251050B1 (ko) | 스마트 공장 어플리케이션 개발을 위한 클라우드 플랫폼 자동 생성 장치 | |
CN114091925A (zh) | 银行业务流程的展示方法及装置 | |
CN114461886A (zh) | 一种标注方法、装置、电子设备及存储介质 | |
US20200409672A1 (en) | Constraint based authoring | |
Savolainen et al. | Developing platforms for multiple software product lines | |
Paludan et al. | Towards Sustainable Creativity Support: An Exploratory Study on Prompt Based Image Generation | |
Yan et al. | A Digital Twin Approach for Smart Product-Service System Design: A Smart E-Vehicle Application |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |