CN116643681A - 用于交互的方法、装置、设备和存储介质 - Google Patents
用于交互的方法、装置、设备和存储介质 Download PDFInfo
- Publication number
- CN116643681A CN116643681A CN202310672666.0A CN202310672666A CN116643681A CN 116643681 A CN116643681 A CN 116643681A CN 202310672666 A CN202310672666 A CN 202310672666A CN 116643681 A CN116643681 A CN 116643681A
- Authority
- CN
- China
- Prior art keywords
- image
- pattern
- target
- tag
- image generation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 70
- 230000003993 interaction Effects 0.000 title claims abstract description 33
- 230000004044 response Effects 0.000 claims abstract description 27
- 230000008569 process Effects 0.000 claims description 37
- 238000012545 processing Methods 0.000 claims description 23
- 238000009877 rendering Methods 0.000 claims description 12
- 238000004590 computer program Methods 0.000 claims description 6
- 230000000007 visual effect Effects 0.000 abstract description 12
- 238000010586 diagram Methods 0.000 description 28
- 241000219357 Cactaceae Species 0.000 description 11
- 230000000694 effects Effects 0.000 description 11
- 230000006870 function Effects 0.000 description 9
- 238000004891 communication Methods 0.000 description 8
- 238000010801 machine learning Methods 0.000 description 8
- 238000013507 mapping Methods 0.000 description 7
- 230000007704 transition Effects 0.000 description 7
- 241000196324 Embryophyta Species 0.000 description 4
- 238000009792 diffusion process Methods 0.000 description 4
- 241001465754 Metazoa Species 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 3
- 241001481833 Coryphaena hippurus Species 0.000 description 2
- 238000013459 approach Methods 0.000 description 2
- 238000007635 classification algorithm Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 230000001960 triggered effect Effects 0.000 description 2
- 241001522296 Erithacus rubecula Species 0.000 description 1
- 241001464837 Viridiplantae Species 0.000 description 1
- 238000013475 authorization Methods 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000010422 painting Methods 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/048—Interaction techniques based on graphical user interfaces [GUI]
- G06F3/0484—Interaction techniques based on graphical user interfaces [GUI] for the control of specific functions or operations, e.g. selecting or manipulating an object, an image or a displayed text element, setting a parameter value or selecting a range
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/44—Arrangements for executing specific programs
- G06F9/451—Execution arrangements for user interfaces
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Software Systems (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
根据本公开的实施例,提供了用于交互的方法、装置、设备和存储介质。该方法包括在第一用户界面中呈现输入控件;在第一用户界面中呈现经由输入控件接收到的图案,图案包括一个或多个线条;基于图案获取第一图像,第一图像在视觉上与图案至少部分地匹配;呈现第一图像;以及响应于预设条件被满足,与第一图像的至少一部分一起呈现实时捕获的第二图像的至少一部分。由此,在用户给出简单图案的情况下,便可提供更丰富的视觉效果。这可以增强交互时的互动性与趣味性,从而提高用户的交互体验。
Description
技术领域
本公开的示例实施例总体涉及计算机领域,特别地涉及用于交互的方法、装置、设备和计算机可读存储介质。
背景技术
当前越来越多应用被设计来向用户提供各种服务。例如,用户可以在应用中浏览、评论、转发各类内容,包括诸如视频、图像、图像集、音频等各种媒体内容。此外,内容分享类应用还支持与用户的交互,以便于用户拍摄和分享内容,例如照片、视频或动图等。在交互中,用户可能期望在所创作的内容中包括特定元素,例如动物、景色、物品等。
发明内容
在本公开的第一方面,提供了一种交互方法。该方法包括:在第一用户界面中呈现输入控件;在第一用户界面中呈现经由输入控件接收到的图案,图案包括一个或多个线条;基于图案获取第一图像,第一图像在视觉上与图案至少部分地匹配;呈现第一图像;以及响应于预设条件被满足,与第一图像的至少一部分一起呈现实时捕获的第二图像的至少一部分。
在本公开的第二方面,提供了一种用于交互的装置。该装置包括:控件呈现模块,被配置为在第一用户界面中呈现输入控件;图案呈现模块,被配置为在第一用户界面中呈现经由输入控件接收到的图案,图案包括一个或多个线条;图像获取模块,被配置为基于图案获取第一图像,第一图像在视觉上与图案至少部分地匹配;第一图像呈现模块,被配置为呈现第一图像;以及第二图像呈现模块,被配置为响应于预设条件被满足,与第一图像的至少一部分一起呈现实时捕获的第二图像的至少一部分。
在本公开的第三方面,提供了一种电子设备。该设备包括至少一个处理单元;以及至少一个存储器,至少一个存储器被耦合到至少一个处理单元并且存储用于由至少一个处理单元执行的指令。指令在由至少一个处理单元执行时使设备执行第一方面的方法。
在本公开的第四方面,提供了一种计算机可读存储介质。该计算机可读存储介质上存储有计算机程序,计算机程序可由处理器执行以实现第一方面的方法。
应当理解,本内容部分中所描述的内容并非旨在限定本公开的实施例的关键特征或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的描述而变得容易理解。
附图说明
结合附图并参考以下详细说明,本公开各实施例的上述和其他特征、优点及方面将变得更加明显。在附图中,相同或相似的附图标记表示相同或相似的元素,其中:
图1示出了本公开的实施例能够在其中实现的示例环境的示意图;
图2示出了根据本公开的一些实施例的用于交互的过程的流程图;
图3A示出了根据本公开的一些实施例的用于接收用户输入的用户界面的示意图;
图3B示出了根据本公开的一些实施例的呈现提示动画的用户界面的示意图
图4A至图4E示出了根据本公开的一些实施例的图案绘制的示例的示意图;
图4F示出了根据本公开的一些实施例的用于呈现第一图像的用户界面的示意图;
图5示出了根据本公开的一些实施例的用户界面的示意图;
图6A至图6C示出了根据本公开的一些实施例的绘制过程的回放的示例的示意图;
图7示出了根据本公开的一些实施例的用于生成第一图像的过程的流程图;
图8示出了根据本公开的一些实施例的用于生成第一图像的框架的示意图;
图9示出了根据本公开的一些实施例的示例标签模型映射的示意图;
图10示出了根据本公开的一些实施例的用于交互的装置的框图;以及
图11示出了能够实施本公开的多个实施例的设备的框图。
具体实施方式
可以理解的是,在使用本公开各实施例公开的技术方案之前,均应当依据相关法律法规通过恰当的方式对本公开所涉及个人信息的类型、使用范围、使用场景等告知用户并获得用户的授权。
例如,在响应于接收到用户的主动请求时,向用户发送提示信息,以明确地提示用户,其请求执行的操作将需要获取和使用到用户的个人信息。从而,使得用户可以根据提示信息来自主地选择是否向执行本公开技术方案的操作的电子设备、应用程序、服务器或存储介质等软件或硬件提供个人信息。
作为一种可选的但非限定性的实现方式,响应于接收到用户的主动请求,向用户发送提示信息的方式例如可以是弹窗的方式,弹窗中可以以文字的方式呈现提示信息。此外,弹窗中还可以承载供用户选择“同意”或者“不同意”向电子设备提供个人信息的选择控件。
可以理解的是,上述通知和获取用户授权过程仅是示意性的,不对本公开的实现方式构成限定,其它满足相关法律法规的方式也可应用于本公开的实现方式中。
可以理解的是,本技术方案所涉及的数据(包括但不限于数据本身、数据的获取或使用)应当遵循相应法律法规及相关规定的要求。
下面将参照附图更详细地描述本公开的实施例。虽然附图中示出了本公开的某些实施例,然而应当理解的是,本公开可以通过各种形式来实现,而且不应该被解释为限于这里阐述的实施例,相反,提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是,本公开的附图及实施例仅用于示例性作用,并非用于限制本公开的保护范围。
需要注意的是,本文中所提供的任何节/子节的标题并不是限制性的。本文通篇描述了各种实施例,并且任何类型的实施例都可以包括在任何节/子节下。此外,在任一节/子节中描述的实施例可以以任何方式与同一节/子节和/或不同节/子节中描述的任何其他实施例相结合。
在本公开的实施例的描述中,术语“包括”及其类似用语应当理解为开放性包含,即“包括但不限于”。术语“基于”应当理解为“至少部分地基于”。术语“一个实施例”或“该实施例”应当理解为“至少一个实施例”。术语“一些实施例”应当理解为“至少一些实施例”。下文还可能包括其他明确的和隐含的定义。术语“第一”、“第二”等可以指代不同的或相同的对象。下文还可能包括其他明确的和隐含的定义。
如本文中所使用的,术语“模型”可以从训练数据中学习到相应的输入与输出之间的关联,从而在训练完成后可以针对给定的输入,生成对应的输出。模型的生成可以基于机器学习技术。深度学习是一种机器学习算法,通过使用多层处理单元来处理输入和提供相应输出。在本文中,“模型”也可以被称为“机器学习模型”、“机器学习网络”或“网络”,这些术语在本文中可互换地使用。一个模型又可以包括不同类型的处理单元或网络。
图1示出了本公开的实施例能够在其中实现的示例环境100的示意图。在该示例环境100中,终端设备110中安装有应用120。用户140可以经由终端设备110和/或终端设备110的附接设备来与应用120进行交互。应用120可以是内容生成类应用、内容分享类应用或社交应用,其能够向用户140提供与媒体内容相关的服务,包括内容的浏览、评论、转发、创作(例如,拍摄和/或编辑)、发布等等。在本文中,“媒体内容”包括一个或多个类型的内容,例如视频、图像、动图、图像集、音频、文本等等。
在图1的环境100中,终端设备110可以呈现应用120的用户界面150。用户界面150可以包括应用120所能提供的各类界面,诸如内容呈现界面、内容创作界面、内容发布界面、消息界面、个人主页,等等。应用120可以提供内容浏览功能,以浏览在应用120中发布的各类内容。应用120还可以提供内容创作功能,包括拍摄、上传、编辑和/或发布媒体内容。
在一些实施例中,终端设备110与服务器130通信,以实现对应用120的服务的供应。终端设备110可以是任意类型的移动终端、固定终端或便携式终端,包括移动手机、台式计算机、膝上型计算机、笔记本计算机、上网本计算机、平板计算机、媒体计算机、多媒体平板、个人通信系统(PCS)设备、个人导航设备、个人数字助理(PDA)、音频/视频播放器、数码相机/摄像机、定位设备、电视接收器、无线电广播接收器、电子书设备、游戏设备或者前述各项的任意组合,包括这些设备的配件和外设或者其任意组合。在一些实施例中,终端设备110也能够支持任意类型的针对用户的接口(诸如“可佩戴”电路等)。服务器130可以是能够提供计算能力的各种类型的计算系统/服务器,包括但不限于大型机、边缘计算节点、云环境中的计算设备,等等。
应当理解,仅出于示例性的目的描述环境100中各个元素的结构和功能,而不暗示对于本公开的范围的任何限制。
如前文所提及的,用户可能期望所创作的内容包括特定元素,例如某个动物、物品或景色等。在交互中,为了表达自己期望的元素,一种可能的方案是用自然语言(例如,文字或语音)来表述,但是有些元素可能难以用简单的语言来描述。为此,可以支持用户自己绘制所期望的元素。然而,不同用户的绘画水平可能不同,并且用户自己绘制的图案通常比较“单薄”,例如色彩和元素不够丰富。另一方面,随着计算机技术的发展,机器已经可以生成各种图像。
为此,本公开的实施例提出了一种交互方案。根据该方案,在用户界面种呈现输入控件以及通过输入控件接受到的包括一个或多个线条的图案。例如,用户可以在界面上手绘简笔画。获取并且呈现与该图案在视觉上至少部分地匹配的图像。例如,该图像可以是利用图像生成模型生成的。在后续交互中,与该图像一起呈现实时捕获的另一图像。由此,用户可以在所创作或所观看的内容中包括所期望的元素。
根据本公开的实施例,用户只需要通过线条简单地绘制所期望的元素,便可获得具有与之相似的元素但美化的图像。以此方式,在用户给出简单图案的情况下,即可提供更丰富的视觉效果。这可以有利地增强交互时的互动性与趣味性,从而提高用户的交互体验。
以下将继续参考附图描述本公开的一些示例实施例。
图2示出了根据本公开的一些实施例的用于交互的过程200的流程图。过程200可以在终端设备(例如终端设备110)处实现、在服务器(例如服务器130)处实现、或部分地在终端设备处实现、部分地在服务器处实现。为便于讨论,将参考图1的环境100来描述过程200。
在框205,在第一用户界面中呈现输入控件。该输入控件供用户提供图案。在框210,在第一用户界面中呈现经由输入控件接收到的图案。图案包括一个或多个线条。这里的图案可以是任意图案,例如,简笔画。在本公开中,用户所输入的图案也可以称为目标图案。
可以呈现任何适当形式的输入控件来供用户140提供图案。例如,该输入控件可以用于指定预先绘制的图案,或用于绘制图案。
在一些实施例中,该输入控件可以是用于上传指定内容的选项(例如,按钮)。通过触发(例如,点击)该选项,用户可以指定预先绘制和存储的图案。可以以任何合适的格式来存储预先绘制的图案。特别地,在一些实施例中,可以以视频或动图的形式来预先绘制的图案。以此方式,可以记录图案的绘制过程。
备选地或附加地,在一些实施例中,该输入控件可以是用户界面中用于提供自定义输入的区域。用户140可以利用触笔或手势在该区域中绘制图案。示例性,该输入控件可以是用于图案绘制的画板。相应地,用户140可以在画板中现场绘制图案。在这种情况下的第一用户界面也称为画板界面。为加强互动效果,画板界面中还可以呈现有当前捕获的当前图像,其可以是终端设备110的相机或附接到终端设备110的相机捕获的。例如,当前图像可以是当前正在绘制图案的用户的图像,或用户所处的环境的图像。在这种实施例下,可以在呈现当前图像的同时,接收用户140通过画板绘制的图案。例如,应用120可以基于在该画板中接收到的笔触(例如,来自触笔或手指)确定图案。
示例性地参考图3A。图3A示出了根据本公开的一些实施例的用于接收用户输入的用户界面(其是第一用户界面的示例)的示意图。如图3A所示,用户界面包括用于呈现当前图像的图像显示区域310以及用于图案绘制的画板320,且画板320叠加在图像显示区域310中的当前图像之上。在一些实施例中,为避免画板320对图像显示区域310中显示的当前图像的遮挡,画板320可以是至少部分透明的。例如,画板320可以具有20%的透明度。
在一些实施例中,画板320可以被设置有默认尺寸、默认的显示位置以及默认的透明度。备选地或附加地,可以由用户来设置或调整画板320的尺寸、显示位置以及透明度。调整完成后用户可以对设置参数进行保存,如此后续再次进入该用户界面时,应用120可以按照用户设置或调整的参数对画板界面进行显示。进一步地,为使得画板320的外观更加美观,提升用户进行绘制图案时的操作体验,还可以对画板320设置边框、设置颜色等等。这些参数可以具有默认设置,或者用户可以基于自己的喜好对画板320进行个性化设置。
应当理解,图3A以及下文中将描述的其他附图中的界面仅仅是示例界面,实际可以存在各种界面设计。界面中的各个图形元素可以具有不同的布置和不同的视觉表示,其中的一个或多个元素可以省略或被替换,并且还可以存在一个或多个其他元素。本公开的实施例在此方面不受限制。
在一些实施例中,为提升用户对应用的使用体验,还可以对用户交互做出引导,以便用户在画板上绘制图案。示例性地,参考图3B。如图3B所示,可以在图像显示区域310呈现当前图像的同时,在用户图案绘制的画板320上播放提示动画,以向用户指示画板用于图案绘制。这里的提示动画可以是任何形式的,例如视频或动图,本公开对此不作限制。在一些实施例中,还可以通过播放提示音频、呈现提示文字等多种方式中的一项或多项来向用户指示画板用于图案绘制。在一些实施例中,应用120还可以在用户界面中的多个控件处呈现提示信息,以指示用户这多个控件各自的作用。
如上文所提及的,在这种实施例中,可以在呈现当前图像的同时,接收用户通过画板而绘制的图案。也即,应用120可以接收指示图案的绘制过程的用户输入。下面将参考图4A至图4D来讨论图案的绘制和呈现。如图4A所示,可以在用户界面的画板410中接收用户绘制的图案。可以基于在画板410中接收到的用户的触控操作,来确定用户所输入的图案,并将其呈现在画板410中。在图4A中,用户绘制了三个线条。而后,用户继续绘制,所绘制的图案如图4B所示。
在一些实施例中,画板界面还可以包括对图案进行处理的控件,例如用于删除已绘制图案的删除控件、用于撤销先前绘制的线条的撤销控件和用于确认当前所绘制的图案的确认控件。这些控件可以被呈现在用户界面当中的任意适当位置。应用120可以响应于接收到对特定控件的触发操作,相应地处理画板410中显示的图案。示例性的,如图4A所示,画板界面中还可以包括删除控件401、撤销控件402以及确认控件403。应用120可以响应于接收到对删除控件401的触控操作,删除画板410中当前呈现的图案。
在一些实施例中,响应于接收到对撤销控件402的触发操作,可以在当前所呈现的图案的基础上撤销最近一次绘制的线条。可以支持连续多次的撤销。例如,应用120可以通过抓帧来实现线条的撤销。在绘制中,可以在每一笔结束时触发抓帧,将当前帧存储并呈现在画板中。如果检测到撤销控件402被触发,将当前所显示的图案对应的帧清除,并显示所存储的上一帧。在一些实施例中,还可以对连续的撤销操作的数目进行限制,即对所存储的帧的数目进行限制。例如,最多可以存储连续的10张抓帧图,即最多可以连续撤销10次。参考图4B和图4C,如果用户在图4B所呈现的中间图案的基础上,连续两次触发撤销控件,则在画板410中呈现如图4C所示的中间图案。
如图4D所示,可以基于通过画板410来接收用户绘制的图案。在一些实施例中,响应于接收到对确认控件403的触发操作,可以确定绘制完成,从而触发执行后续处理。在一些实施例中,如果经过了预定时长而没有接收到用户对显示在画板410中的图案的任何操作(例如对控件的触发操作)或者没有任何用户输入,可以自动确定绘制完成,从而触发执行后续处理。
继续参考图2,在框215处,基于图案获取第一图像。第一图像在视觉上与图案至少部分地匹配。在图案被接收后,基于图案确定第一图像。第一图像可以是终端设备110基于图案确定的,也可以是由终端设备110将图案提供给服务器130并且由服务器130确定的。第一图像在视觉上与图案至少部分地匹配是指第一图像包括与图案的主体(或整个图案)在视觉上相同或相似的元素,例如该元素与图案的主体可以具有相似的形状、轮廓或轨迹。但该元素与图案的主体在大小、颜色等方面可以不同。例如,图案的主体为用线条表示的仙人掌,则第一图像也包括仙人掌,但尺寸、颜色等可以与图案不同。
第一图像可以是各种类型的图像,例如利用相机捕获的图像或利用机器学习模型生成的图像。可以以各种合适的方式获取第一图像。在一些实施例中,第一图像可以是从图像集中选择的。例如,该图像集可以包括预先利用机器学习模型生成的图像和/或由相机等采集设备捕获的图像。这些图像可以包括各种类型的元素,例如多种动物、多种植物、多种景色、多种物品等。在图案被获取后,可以从图像集中确定与该图案在视觉上相匹配的图像,这个图像将被确定为第一图像。例如,可以利用各种合适的特征提取模型提取图案的视觉特征和图像集中各个图像的视觉特征。在视觉特征上与图案最相近的图像可以被确定为第一图像。
在一些实施例中,第一图像可以是基于图案,利用机器学习模型(也称为图像生成模型)生成的。具体地,图案可以被提供给模型,模型可以基于该图案生成与该图案对应的第一图像。在这种实施例中,第一图像也可以称为机器生成图像。与相机捕获图像相比,机器生成图像能够具有现实世界不存在的或难以捕捉的视觉元素,从而产生更丰富多元的视觉效果。这可以给用户带来趣味性更强的视觉体验。下文将参考图7至图9具体描述这样的实施例。
在框220,呈现第一图像。例如,获取到的第一图像可以被呈现在应用120的用户界面中。在一些实施例中,可以与第一图像一起呈现其他内容。例如,可以与第一图像一起呈现目标图案。考虑到此时交互的重点是向用户展示所获取的第一图像。为此,与图案相比,第一图像的展示更加重要。有鉴于此,在一些实施例中,目标图案可以被叠加在第一图像之上。目标图案可以被叠加在第一图像的任何位置。叠加在第一图像至少的目标图案可以具有小于第一图像的尺寸。例如,目标图案的尺寸与第一图像的尺寸之比可以小于阈值。备选地或附加地,叠加在第一图像之上的目标图案可以是至少部分透明的。在一些实施例中,用于呈现目标图案的尺寸、位置、透明度等可以基于用户的设置操作而进行调整。
参考图4F,其示出了根据本公开的一些实施例的用于呈现第一图像的用户界面的示意图。如图4F所示,在用户界面中,呈现有图案420和与图案在视觉上部分匹配的第一图像430。图案420被叠加在第一图像430之上,并且图案420的尺寸远小于第一图像430的尺寸。在该示例中,图案420具有一定的透明度。图案420可以被叠加在第一图像430的任意位置,例如,叠加在第一图像430的左上角。
从该示例中可以看出,用户输入的原本“单薄”的简笔画被赋予了更丰富的元素,提升了视觉效果。此外,以这种方式来同时呈现机器生成图像和原本的图案,一方面可以使用户直观感受到机器生成图像与图案的相似程度,另一方面又能更突出机器生成图像。
关于第一图像的呈现方式,在一些实施例中,可以利用转场效果来呈现第一图像,以突出第一图像。例如,在第一图像被获取前,第一用户界面是以目标图案为注意力焦点的。在本公开中,以某个元素为注意力焦点的用户界面可以是指以任何合适的方式在用户界面中突出该元素,以使得注视者在看到用户界面时聚焦于该元素。例如,该元素可以在用户界面中占据较大面积。又如,与用户界面中的其他元素相比,该元素可以具有更鲜艳的颜色。再如,该元素的轮廓或边缘可以被高亮。在第一图像被获取后,从以目标图案为注意力焦点的第一用户界面切换到以第一图像为注意力焦点的第二用户界面。也即,实现了从目标图案到第一图像的转场。
继续图4D的示例。响应于用户点击了确认控件403,可以确定图案绘制完成。相应地,图案用于获取第一图像,并且停止呈现删除控件401、撤销控件402和确认控制403,以指示图案绘制完成,诸如图4E所示。图4E所示的包含画板410的用户界面可以被视为以目标图案为注意力焦点的第一用户界面。此外,在诸如图4E所示的用户界面中还可以呈现第一图像正在被获取的指示信息。例如,画板410的边缘可以闪烁、朝某个方向流动等。在获取第一图像430之后,从图4E中的用户界面切换到如图4F所示的用户界面。该用户界面可以被视为以第一图像430为注意力焦点的第二用户界面。
这种由一个用户界面切换至另一个用户界面的转场效果可以以任何合适的转场方式实现。作为示例,可以停止显示以目标图案为注意力焦点的第一用户界面,并且显示以第一图像为注意力焦点的第二用户界面。作为另一示例,第一用户界面切换至第二用户界面的方式可以是旋转式切换,其可以表现为第一用户界面以一定速度旋转至呈现第二用户界面。作为又一示例,第一用户界面切换至第二用户界面的方式可以是覆盖式切换,即第二用户界面可以逐渐覆盖在第一用户界面上。作为又一示例,可以是擦除式转场,例如第一用户界面逐渐被擦除,被擦除的部分英语呈现第二用户界面,等等。以上关于切换方式的描述仅是示例性,而无意限制本公开的范围。在本公开的实施例中,可以以任何合适的方式实现第一用户界面和第二用户界面的切换。在一些实施例中,可以基于用户的设置来确定具体的转场方式。这丰富了交互过程的画面切换,从而增加交互的趣味性。
继续参考图2,在框230处,响应于预设条件被满足,与第一图像的至少一部分一起呈现实时捕获的第二图像的至少一部分。第二图像可以是通过终端设备110的图像采集组件(例如相机)或附接到终端设备110的图像采集组件来捕获的实时图像。例如,第二图像可以是通过终端设备110的前置相机捕获的包含用户的实时图像。又如,第二图像可以是通过终端设备110的后置相机捕获的用户所处环境的实时图像。
预设条件可以是任何合适的条件。在一些实施例中,预设条件可以包括第一图像的获取。也即,在获取到第一图像后,可以将其与实时捕获的第二图像一同呈现在用户界面中。在一些实施例中,预设条件可以与预设时长相关。例如,可以先呈现获取到的第一图像,在经过预定时长后再一同呈现实时捕获的第二图像。例如,在获取到第一图像后,首先呈现图4F所示的用户界面,其中展示有第一图像。在经过预定时长后,再呈现图5所示的用户界面,其中展示有实时捕获的第二图像520,其在该示例中为捕获的用户图像。在一些实施例中,预设条件可以包括用户对预设控件的触发。例如,该预设控件可以是专用于一同呈现第一图像和第二图像的控件,或者可以是针对内容拍摄的触发控件。在一些实施例中,预设条件可以包括图案的绘制过程的回放的结束。下文将描述这样的实施例。
尽管将第二图像520示出为叠加在第一图像430之上的,但这仅是示例性的,而无意任何限制。在本公开的实施例中,所呈现的第二图像相对于所呈现的第一图像的位置、尺寸、透明度等不受限制。
在本公开的实施例中,第一图像的至少一部分与第二图像的至少一部分可以以任何合适的方式被一起呈现。在一些实施例中,第一图像可以用作第二图像的背景或前景。在一些实施例中,第二图像可以用作第一图像的背景或前景。在一些实施例中,第二图像的至少一部分可以叠加在第一图像之上,诸如图5所示,或者第一图像的至少一部分可以叠加在第二图像之上。在一些实施例中,第一图像和第二图像可以以对等的关系被一同呈现。例如,可以分屏显示第一图像和第二图像。
在一些实施例中,还可以响应于针对内容拍摄的触发操作,基于第一图像和第二图像生成媒体内容。例如,所生成的媒体内容可以视为一种特效。所生成的媒体内容可以是静止的图像或动态的视频,并且随后用户可以发布所生成的媒体内容。作为示例,可以在用户界面中呈现拍摄控件,诸如拍摄控件404。如果用户触发了该拍摄控件,则可以开始录制用户的交互过程,并且生成相应的媒体内容,诸如视频。
在一些实施例中,对内容拍摄的触发操作可以发生在获取第一图像之前。例如,用户触发了内容拍摄(例如,点击了拍摄控件404),并唤出了用于提供图案的入口,例如画板320,从而开始绘制图案。在这样的实施例中,从图案的绘制开始进行录制并且生成媒体内容。也即,这里的媒体内容可以包括如图4A至图4D所示的图案的绘制过程、图4D切换至呈现图4F所示的用户界面的转场、以及图4F至图5的过程、以及图5之后的后续拍摄。
在一些实施例中,针对内容拍摄的触发操作可以发生在获取第一图像之后。例如,用户可以在图4F或图5所示的用户界面中触发拍摄控件404。响应于此,终端设备110可以开始录制用户的后续交互,并且相应生成媒体内容,例如视频。在这种情况下,还可以呈现目标图案的绘制过程。如果图案是用户经由输入控件绘制的,可以将图案的绘制过程中每一帧图案对应的坐标数据存储在一个数组中。在回放过程中,可以从数组中取出每一帧图案对应的坐标数据并基于这个坐标数据绘制图案以回放绘制过程。以此方式,可以控制回放的速度。如果用户输入了图案绘制过程的视频或动图,可以播放该视频或动图。
在上文提及的针对内容拍摄的触发操作发生在获取第一图像之后的实施例中,回放绘制过程可以是响应于检测到针对内容拍摄的触发操作。图6A至图6C示出了图4A至图4D所示的图案绘制的回放。响应于接收到对如图4F或图5所示的拍摄控件404的触发操作,可以基于预先存储的坐标数据,生成并呈现如图6A至图6C的图案回放。在该示例中,目标图案的回放是用户界面的注意力焦点。进一步地,在回放结束后,可以与第一图像的至少一部分一起呈现第二图像的至少一部分。例如,从图6C所示的用户界面切换至图5所示的用户界面。在这种实施例中,在开始录制媒体内容之后,重新展示图案的绘制,并且继续录制后续交互。这使得所生成的媒体内容能够记录图案的绘制过程,保证了交互的连续性和完整性。
对于上文所提及的针对内容拍摄的触发操作发生在获取第一图像之前的实施例,也可以进行图案绘制过程的回放。作为示例,可以在图5所示的用户界面中,回放图案的绘制过程。例如,可以在用户界面的左上角位置先回放图案的绘制过程,然后再呈现图案420。
以上描述了交互的示例过程。如上文所提及的,在一些实施例中,第一图像可以是利用图像生成模型生成的。下文将参考图7至图9来讨论第一图像的生成。
图7示出了根据本公开的一些实施例的用于生成第一图像的过程700的流程图。过程700可以部分地在终端设备处实现(例如终端设备110处实现)、部分地在服务器处实现(例如服务器130处实现)。为便于讨论,将参考图1的环境100来描述过程700。
在框710处,通过对图案的图像识别,从多个预定义标签中确定针对图案的目标标签。目标标签描述图案中所识别到的对象。例如,可以对图案的主体进行识别,并对识别到的主体进行分类。目标标签可以视为对图案的分类。
在获取到图案之后,可以利用任何合适的图像识别算法或图像分类算法对图案进行图像识别,以确定针对图案的标签。例如,如果用户输入未为仙人掌的简笔画,则生成的标签可以为仙人掌、绿色、植物、带刺的植物、沙漠、仙人球、绿植等。在一些实施例中,图像识别算法或图像分类算法所得出的标签可以直接用作目标标签,以用于后续处理。在一些实施例中,该标签可以视为初始标签,其将被作为从预定义标签中确定目标标签的依据。预定义标签可以是预先存储的、可以被机器学习模型所识别的标签。
目标标签可以为预定义标签中与初始标签在语义上匹配的标签。例如,初始标签为“A车”,则预定义标签中的标签“B车”可以作为被确定的目标标签,因为初始标签“A车”和目标标签“B车”具有匹配的语义“车”。备选地或附加地,目标标签可以为预定义标签中所描述的对象与初始标签所表述的对象在视觉上匹配的标签。例如,初始标签为“护照”,则预定义标签中的标签“书”可以作为被确定的目标标签,因为护照与书的外形在视觉上匹配。
从预定义标签中确定目标标签可以采用任何合适的方式。例如,可以根据语义匹配性和/或视觉匹配性,预先设置各种可能的标签到预定义标签的映射。可以基于该映射来确定与初始标签对应的预定义标签作为目标标签。又如,可以预先训练将各种标签映射到预定义标签的模型。本公开的实施例在此方面不受限制。
参考图8描述一个示例。图8示出了根据本公开的一些实施例的用于生成第一图像的框架800的示意图。如图8所示,图案801可以被提供给标签识别单元810,标签识别单元810可以对图案801进行图像识别以确定图案对应的初始标签。初始标签被提供给参数确定单元820,参数确定单元820可以从配置文件802中获取各种初始标签与预定义标签之间的映射。相应地,参数确定单元820可以从多个预定义标签中确定与初始标签对应的目标标签。
继续参考图7,在框720处,确定多个图像生成模型中与目标标签对应的目标图像生成模型。多个图像生成模型分别对应于多个风格,并且每个图像生成模型用于生成对应风格的图像。图像风格的示例包括但不限于水彩、蜡笔、素描、漫画等等。框720例如可以由参数确定单元820执行。
在一些实施例中,可以获取多个预定义标签与多个风格之间的标签风格映射。例如,参数确定单元820可以从配置文件802中获取标签风格映射。这里的标签风格映射包括针对多个预定义标签的相应条目,并且每个条目指示多个风格中与相应的预定义标签对应的候选风格。可以基于标签风格映射,从多个风格中确定与目标标签对应的至少一个风格。进而基于风格与模型之间的对应关系,从多个图像生成模型中确定与至少一个风格相对应的至少一个候选图像生成模型。
在一些实施例中,为了更加直观的基于目标标签确定候选图像生成模型,可以获取多个预定义标签与多个图像生成模型之间的标签模型映射。例如,参数确定单元820可以从配置文件802中获取标签模型映射。这里的标签模型映射包括针对多个预定义标签的相应条目,并且每个条目指示多个图像生成模型中与相应的预定义标签对应的候选图像生成模型。进一步地,可以基于标签模型映射中针对目标标签的条目,确定与目标标签对应的至少一个候选图像生成模型。这种标签模型映射可以是预先确定的。例如,与未被标识为候选图像生成模型的模型相比,被标识为候选图像生成模型的模型对该预定义标签具有更好的效果。
图9示出了根据本公开的一些实施例的标签模型映射900的示意图。如图9所示,模型标签映射中的每一行对应一个标签,每一列对应一个图像生成模型。也即,每一行对应于一个条目,例如图9所示的条目901。以目标标签为标签B为例,条目901即为标签模型映射900中针对标签B的条目。基于条目901可以确定模型3与模型6对标签B的生成效果是合格的,也可以理解为,模型3和模型6对于标签B的图像生成效果超过阈值效果。因此,可以将模型3与模型6确定为与标签B对应的两个候选图像生成模型。
可以理解的是,图像风格的种类数目通常小于标签数目。在这种情况下,一个图像生成模型和/或风格可以用过多个不同标签的候选。例如,在图9的示例中,模型5对标签C、D、E而言均是候选模型。
在确定至少一个候选图像生成模型之后,可以从至少一个候选图像生成模型中确定目标图像生成模型。可以理解,在仅包含一个候选图像生成模型的情况下,该候选图像生成模型将被直接确定为目标图像生成模型。在包含多个候选图像生成模型的情况下,在一些实施例中,可以采取随机确定的方式从至少一个候选图像生成模型中确定目标生成模型。
在一些实施例中,还可以采取轮流的方式来确定目标图像生成模型。示例性的,对于标签B而言,如果在前次针对标签B生成图像时使用了模型3,那么可以将模型6确定为目标图像生成模型。
在一些实施例中,还可以响应于用户选择来确定目标图像生成模型。示例性的,在候选图像生成模型包括模型3与模型6的情况下,可以将模型3与模型6都呈现给用户(例如通过用户界面呈现模型3与模型6的模型名称、模型标识等),并将用户选中的模型确定为目标图像生成模型。
在一些实施例中,还可以预先确定多个图像生成模型针对不同标签的优先级,并基于至少一个候选图像生成模型针对目标标签的优先级,将优先级较高的候选图像生成模型确定为目标图像生成模型。这里的优先级可以与针对该标签的图像生成效果相关联。这里的优先级可以是用户预先设置好的,也可以是基于历史情况自行确定的。
继续参考图7,在框730处,基于图案,利用目标图像生成模型,生成第一图像。例如,参数确定单元820可以将目标图像生成模型的标识和目标图像提供给图像生成单元830。图像生成单元830可以部署或能够访问每个图像生成模型,并且将目标图案提供给目标图像生成模型。相应地,目标图像生成模型可以生成第一图像。
图像生成模型可以具有默认参数信息,并可以基于自身的默认参数信息,根据获取到的目标图案来生成第一图像。
在一些实施例中,为了保证第一图像的生成效果,一些标签可以具有其定制的参数信息。在这种定制的参数信息的情况下,图像生成模型可以具有更好的生成效果。如果目标标签是这种具有定制参数信息的标签,还可以获取针对目标标签的目标参数信息,目标参数信息将与图案一同被提供给目标图像生成模型。这里的目标参数信息不同于目标图像生成模型的默认参数信息。例如,参数确定单元820可以从配置文件802中获取目标参数信息,并将目标参数信息与目标图案一起提供给图像生成单元830。
目标参数信息可以包括与目标标签对应的提示词,例如,期望生成的内容。作为示例,如果目标标签是“仙人掌”,提示词可以包括文字“仙人掌”或文字“植物”。目标参数信息还可以包括目标图像生成模型的标识,例如其索引或对应的风格。
在一些实施例中,目标参数信息可以包括与目标标签对应的用于辅助图像生成的文本,也称为辅助文本。例如,辅助文本可以用于描述图案中的对象所处的文本。以图案中包括仙人掌为例,辅助文本例如可以包括“沙漠”。以图案包括海豚为例,辅助文本例如可以包括“大海”。
备选地或附加地,在一些实施例中,目标参数信息可以包括不允许目标图像生成模型生成的内容。以图案包括海豚为例,不允许目标图像生成模型生成的内容例如可以为人脸等等。
备选地或附加地,在一些实施例中,目标参数信息可以包括所生成的图像按照与目标图像生成模型相对应的风格而风格化的强度。可以理解,强度越高,则所生成的图像越符合与目标图像生成模型相对应的风格。例如,对应的风格为“漫画”,则强度越高,所生成的图像的漫画感越强烈。
备选地或附加地,在一些实施例中,目标参数信息可以包括在图像生成中图案对第一图像的影响程度。这里的影响程度可以理解为所生成的图像与图案在形状、大小、轮廓等方面的相似度。例如,图案中包括仙人掌,在影响程度较大的情况下,所生成的图像中的仙人掌与图案所指示的仙人掌在形状、轮廓、大小等方面的相似度较高。
备选地或附加地,在一些实施例中,目标参数信息可以包括在图像生成中对噪声图像采样的次数。例如,目标图像生成模型可以先生成一张噪声图像,进而通过对噪声图像进行采样来生成第一图像。目标参数信息可以包括采样的次数。在目标图像生成模型为扩散模型的情况下,这里的次数还可以是扩散模型中的扩散步数。
备选地或附加地,在一些实施例中,目标参数信息可以包括在图像生成中应用于噪声图像的采样器。例如,目标图像生成模型(例如,基于扩散的模型)可以先生成一张噪声图像,进而通过采样器对噪声图像进行降噪来生成第一图像。不同的采样器具有不同的能力,采样器的选择将会影响目标图像生成模型生成第一图像的生成效果。
参考图8描述一个示例过程。如图8所示,参数确定单元820可以基于确定的目标标签,根据配置文件802中的标签模型映射,从多个图像生成模型中确定至少一个候选图像生成模型,进而从中确定目标图像生成模型。参数确定单元820还可以从配置文件802中获取针对目标标签而预先确定的用于目标图像生成模型的目标参数信息。参数确定单元820将确定的目标参数信息提供给图像生成单元830。图像生成单元830中包括多个图像生成模型,图像生成单元830可以利用参数确定单元820所确定的目标图像生成模型,基于图案801以及参数确定单元提供的参数信息来生成第一图像803。由此,可以基于图案对应的标签确定相匹配的图像生成模型,进而获取到生成效果较好的第一图像。
综上所述,根据该方案,在用户界面种呈现输入控件以及通过输入控件接受到的包括一个或多个线条的图案。获取并且呈现与该图案在视觉上至少部分地匹配的图像。在后续交互中,与该图像一起呈现实时捕获的另一图像。由此,用户只需要通过线条简单地绘制所期望的元素,便可获得具有与之相似的元素但美化的图像。以此方式,在用户给出简单图案的情况下,即可提供更丰富的视觉效果。这可以有利地增强交互时的互动性与趣味性,从而提高用户的交互体验。
图10示出了根据本公开的某些实施例的用于交互的装置1000的示意性结构框图。装置1000可以被实现为或者被包括在终端设备110和/或服务器130中。装置1000中的各个模块/组件可以由硬件、软件、固件或者它们的任意组合来实现。
如图所示,装置1000包括控件呈现模块1010,被配置为在第一用户界面中呈现输入控件。装置1000还包括图案呈现模块1020,被配置为在所述第一用户界面中呈现经由所述输入控件接收到的图案,所述图案包括一个或多个线条。装置1000还包括图像获取模块1030,被配置为基于所述图案获取第一图像,所述第一图像在视觉上与所述图案至少部分地匹配。装置1000还包括第一图像呈现模块1040,被配置为呈现所述第一图像。装置1000还包括第二图像呈现模块1050,被配置为响应于预设条件被满足,与所述第一图像的至少一部分一起呈现实时捕获的第二图像的至少一部分。
在一些实施例中,装置1000还包括:回放模块,被配置为回放图案的绘制过程。
在一些实施例中,响应于在获取第一图像之后检测到针对内容拍摄的触发操作而回放绘制过程,并且响应于回放的结束而与第一图像的至少一部分一起呈现第二图像的至少一部分。
在一些实施例中,输入控件包括用于图案绘制的画板,并且第一用户界面中还呈现有当前捕获的当前图像,装置1000还包括:画板呈现模块,被配置为呈现用于图案绘制的画板和当前捕获的当前图像;以及图案接收模块,被配置为在呈现当前图像的同时,接收用户通过画板而绘制的图案。
在一些实施例中,画板至少部分透明地叠加在当前图像之上。
在一些实施例中,装置1000还包括:提示动画播放模块,被配置为在画板上播放提示动画,以向用户指示画板用于图案绘制。
在一些实施例中,装置1000还包括:媒体内容生成模块,被配置为响应于针对内容拍摄的触发操作,基于第一图像和第二图像生成媒体内容。
在一些实施例中,装置1000还包括:图案呈现模块,被配置为与第一图像一起呈现图案,图案叠加在第一图像之上并且具有小于第一图像的尺寸。
在一些实施例中,第一图像呈现模块1020包括:界面切换模块,被配置为响应于获取第一图像,从以图案为注意力焦点的第一用户界面切换到以第一图像为注意力焦点的第二用户界面。
在一些实施例中,第一图像是利用图像生成模型生成的。
在一些实施例中,装置1000还包括:标签确定模块,被配置为通过对图案的图像识别,从多个预定义标签中确定针对图案的目标标签,目标标签描述图案中所识别到的对象;模型确定模块,被配置为确定多个图像生成模型中与目标标签对应的目标图像生成模型,多个图像生成模型分别对应于多个风格,并且每个图像生成模型用于生成对应风格的图像;以及第一图像生成模块,被配置为基于图案,利用目标图像生成模型,生成第一图像。
在一些实施例中,模型确定模块包括:模型映射获取模块,被配置为获取多个预定义标签与多个图像生成模型之间的标签模型映射,标签模型映射包括针对多个预定义标签的相应条目,并且每个条目指示多个图像生成模型中与相应的预定义标签对应的候选图像生成模型;候选模型确定模块,被配置为基于标签模型映射中针对目标标签的条目,确定与目标标签对应的至少一个候选图像生成模型;以及目标模型确定模块,被配置为从至少一个候选图像生成模型中确定目标图像生成模型。
在一些实施例中,第一图像生成模块包括:参数信息获取模块,被配置为获取针对目标标签而预先确定的用于目标图像生成模型的目标参数信息,目标参数信息与目标图像生成模型的默认参数信息不同;提供模块,被配置为将图案和目标参数信息提供给目标图像生成模型;以及第一图像获取模块,被配置为从目标图像生成模型获取第一图像。
在一些实施例中,目标参数信息包括以下至少一项:与目标标签对应的用于辅助图像生成的文本,不允许目标图像生成模型生成的内容,所生成的图像按照与目标图像生成模型相对应的风格而风格化的强度,在图像生成中图案对第一图像的影响程度,在图像生成中对噪声图像采样的次数,或在图像生成中应用于噪声图像的采样器。
在一些实施例中,标签确定模块包括:初始标签生成模块,被配置为通过对图案的图像识别,生成描述对象的初始标签;以及目标标签确定模块,被配置为基于初始标签,从多个预定义标签中确定目标标签,其中目标标签与初始标签在语义上匹配,或目标标签所描述的对象与初始标签所描述的对象在视觉上匹配。
图11示出了示出了其中可以实施本公开的一个或多个实施例的电子设备1100的框图。应当理解,图11所示出的电子设备1100仅仅是示例性的,而不应当构成对本文所描述的实施例的功能和范围的任何限制。图11所示出的电子设备1100可以用于实现图1的终端设备110和/或服务器130。
如图11所示,电子设备1100是通用电子设备的形式。电子设备1100的组件可以包括但不限于一个或多个处理器或处理单元1110、存储器1120、存储设备1130、一个或多个通信单元1140、一个或多个输入设备1150以及一个或多个输出设备1160。处理单元1110可以是实际或虚拟处理器并且能够根据存储器1120中存储的程序来执行各种处理。在多处理器系统中,多个处理单元并行执行计算机可执行指令,以提高电子设备1100的并行处理能力。
电子设备1100通常包括多个计算机存储介质。这样的介质可以是电子设备1100可访问的任何可以获取的介质,包括但不限于易失性和非易失性介质、可拆卸和不可拆卸介质。存储器1120可以是易失性存储器(例如寄存器、高速缓存、随机访问存储器(RAM))、非易失性存储器(例如,只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、闪存)或它们的某种组合。存储设备1130可以是可拆卸或不可拆卸的介质,并且可以包括机器可读介质,诸如闪存驱动、磁盘或者任何其他介质,其可以能够用于存储信息和/或数据并且可以在电子设备1100内被访问。
电子设备1100可以进一步包括另外的可拆卸/不可拆卸、易失性/非易失性存储介质。尽管未在图11中示出,可以提供用于从可拆卸、非易失性磁盘(例如“软盘”)进行读取或写入的磁盘驱动和用于从可拆卸、非易失性光盘进行读取或写入的光盘驱动。在这些情况中,每个驱动可以由一个或多个数据介质接口被连接至总线(未示出)。存储器1120可以包括计算机程序产品1125,其具有一个或多个程序模块,这些程序模块被配置为执行本公开的各种实施例的各种方法或动作。
通信单元1140实现通过通信介质与其他电子设备进行通信。附加地,电子设备1100的组件的功能可以以单个计算集群或多个计算机器来实现,这些计算机器能够通过通信连接进行通信。因此,电子设备1100可以使用与一个或多个其他服务器、网络个人计算机(PC)或者另一个网络节点的逻辑连接来在联网环境中进行操作。
输入设备1150可以是一个或多个输入设备,例如鼠标、键盘、追踪球等。输出设备1160可以是一个或多个输出设备,例如显示器、扬声器、打印机等。电子设备1100还可以根据需要通过通信单元1140与一个或多个外部设备(未示出)进行通信,外部设备诸如存储设备、显示设备等,与一个或多个使得用户与电子设备1100交互的设备进行通信,或者与使得电子设备1100与一个或多个其他电子设备通信的任何设备(例如,网卡、调制解调器等)进行通信。这样的通信可以经由输入/输出(I/O)接口(未示出)来执行。
根据本公开的示例性实现方式,提供了一种计算机可读存储介质,其上存储有计算机可执行指令,其中计算机可执行指令被处理器执行以实现上文描述的方法。根据本公开的示例性实现方式,还提供了一种计算机程序产品,计算机程序产品被有形地存储在非瞬态计算机可读介质上并且包括计算机可执行指令,而计算机可执行指令被处理器执行以实现上文描述的方法。
这里参照根据本公开实现的方法、装置、设备和计算机程序产品的流程图和/或框图描述了本公开的各个方面。应当理解,流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合,都可以由计算机可读程序指令实现。
这些计算机可读程序指令可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理单元,从而生产出一种机器,使得这些指令在通过计算机或其他可编程数据处理装置的处理单元执行时,产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中,这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作,从而,存储有指令的计算机可读介质则包括一个制造品,其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。
可以把计算机可读程序指令加载到计算机、其他可编程数据处理装置、或其他设备上,使得在计算机、其他可编程数据处理装置或其他设备上执行一系列操作步骤,以产生计算机实现的过程,从而使得在计算机、其他可编程数据处理装置、或其他设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。
附图中的流程图和框图显示了根据本公开的多个实现的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分,模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
以上已经描述了本公开的各实现,上述说明是示例性的,并非穷尽性的,并且也不限于所公开的各实现。在不偏离所说明的各实现的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择,旨在最好地解释各实现的原理、实际应用或对市场中的技术的改进,或者使本技术领域的其他普通技术人员能理解本文公开的各个实现方式。
Claims (18)
1.一种交互方法,包括:
在第一用户界面中呈现输入控件;
在所述第一用户界面中呈现经由所述输入控件接收到的图案,所述图案包括一个或多个线条;
基于所述图案获取第一图像,所述第一图像在视觉上与所述图案至少部分地匹配;
呈现所述第一图像;以及
响应于预设条件被满足,与所述第一图像的至少一部分一起呈现实时捕获的第二图像的至少一部分。
2.根据权利要求1所述的方法,还包括:
回放所述图案的绘制过程。
3.根据权利要求2所述的方法,其中响应于在获取所述第一图像之后检测到针对内容拍摄的触发操作而回放所述绘制过程,并且响应于所述回放的结束而与所述第一图像的所述至少一部分一起呈现所述第二图像的所述至少一部分。
4.根据权利要求1所述的方法,其中所述输入控件包括用于图案绘制的画板,并且所述第一用户界面中还呈现有当前捕获的当前图像,所述方法还包括:
在呈现所述当前图像的同时,接收用户通过所述画板而绘制的所述图案。
5.根据权利要求4所述的方法,其中所述画板至少部分透明地叠加在所述当前图像之上。
6.根据权利要求4所述的方法,还包括:
在所述画板上播放提示动画,以向所述用户指示所述画板用于图案绘制。
7.根据权利要求1所述的方法,还包括:
响应于针对内容拍摄的触发操作,基于所述第一图像和所述第二图像生成媒体内容。
8.根据权利要求1所述的方法,还包括:
与所述第一图像一起呈现所述图案,所述图案叠加在所述第一图像之上并且具有小于第一图像的尺寸。
9.根据权利要求1所述的方法,其中呈现所述第一图像包括:
响应于获取所述第一图像,从以所述图案为注意力焦点的所述第一用户界面切换到以所述第一图像为注意力焦点的第二用户界面。
10.根据权利要求1所述的方法,其中所述第一图像是利用图像生成模型生成的。
11.根据权利要求10所述的方法,其中以如下方式来利用图像生成模型生成所述第一图像:
通过对所述图案的图像识别,从多个预定义标签中确定针对所述图案的目标标签,所述目标标签描述所述图案中所识别到的对象;
确定多个图像生成模型中与所述目标标签对应的目标图像生成模型,所述多个图像生成模型分别对应于多个风格,并且每个图像生成模型用于生成对应风格的图像;以及
基于所述图案,利用所述目标图像生成模型,生成所述第一图像。
12.根据权利要求11所述的方法,其中确定所述目标图像生成模型包括:
获取所述多个预定义标签与所述多个图像生成模型之间的标签模型映射,所述标签模型映射包括针对所述多个预定义标签的相应条目,并且每个条目指示所述多个图像生成模型中与相应的预定义标签对应的候选图像生成模型;
基于所述标签模型映射中针对所述目标标签的条目,确定与所述目标标签对应的至少一个候选图像生成模型;以及
从所述至少一个候选图像生成模型中确定所述目标图像生成模型。
13.根据权利要求11所述的方法,其中生成所述第一图像包括:
获取针对所述目标标签而预先确定的用于所述目标图像生成模型的目标参数信息,所述目标参数信息与所述目标图像生成模型的默认参数信息不同;
将所述图案和所述目标参数信息提供给所述目标图像生成模型;以及
从所述目标图像生成模型获取所述第一图像。
14.根据权利要求13所述的方法,其中所述目标参数信息包括以下至少一项:
与所述目标标签对应的用于辅助图像生成的文本,
不允许所述目标图像生成模型生成的内容,
所生成的图像按照与所述目标图像生成模型相对应的风格而风格化的强度,
在图像生成中所述图案对所述第一图像的影响程度,
在图像生成中对噪声图像采样的次数,或
在图像生成中应用于噪声图像的采样器。
15.根据权利要求11所述的方法,其中确定所述目标标签包括:
通过对所述图案的图像识别,生成描述所述对象的初始标签;以及
基于所述初始标签,从所述多个预定义标签中确定所述目标标签,其中所述目标标签与所述初始标签在语义上匹配,或所述目标标签所描述的对象与所述初始标签所描述的对象在视觉上匹配。
16.一种用于交互的装置,包括:
控件呈现模块,被配置为在第一用户界面中呈现输入控件;
图案呈现模块,被配置为在所述第一用户界面中呈现经由所述输入控件接收到的图案,所述图案包括一个或多个线条;
图像获取模块,被配置为基于所述图案获取第一图像,所述第一图像在视觉上与所述图案至少部分地匹配;
第一图像呈现模块,被配置为呈现所述第一图像;以及
第二图像呈现模块,被配置为响应于预设条件被满足,与所述第一图像的至少一部分一起呈现实时捕获的第二图像的至少一部分。
17.一种电子设备,包括:
至少一个处理单元;以及
至少一个存储器,所述至少一个存储器被耦合到所述至少一个处理单元并且存储用于由所述至少一个处理单元执行的指令,所述指令在由所述至少一个处理单元执行时使所述电子设备执行根据权利要求1至15中任一项所述的方法。
18.一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序可由处理器执行以实现根据权利要求1至15中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310672666.0A CN116643681A (zh) | 2023-06-07 | 2023-06-07 | 用于交互的方法、装置、设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310672666.0A CN116643681A (zh) | 2023-06-07 | 2023-06-07 | 用于交互的方法、装置、设备和存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116643681A true CN116643681A (zh) | 2023-08-25 |
Family
ID=87619737
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310672666.0A Pending CN116643681A (zh) | 2023-06-07 | 2023-06-07 | 用于交互的方法、装置、设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116643681A (zh) |
-
2023
- 2023-06-07 CN CN202310672666.0A patent/CN116643681A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20230415030A1 (en) | Virtualization of Tangible Interface Objects | |
US20230343092A1 (en) | Virtualization of Tangible Interface Objects | |
Betancourt et al. | The evolution of first person vision methods: A survey | |
CN115443641A (zh) | 将第一用户界面内容组合到第二用户界面中 | |
US20150277686A1 (en) | Systems and Methods for the Real-Time Modification of Videos and Images Within a Social Network Format | |
KR20210023680A (ko) | 증강 현실 환경에서의 콘텐트 생성 | |
US10999226B2 (en) | Apparatus and method for message image reference management | |
US20210232298A1 (en) | Detection and visualization of a formation of a tangible interface object | |
KR20120075487A (ko) | 센서-기반 모바일 검색, 관련 방법들 및 시스템들 | |
US10033943B1 (en) | Activity surface detection, display and enhancement | |
US9519355B2 (en) | Mobile device event control with digital images | |
US20220206738A1 (en) | Selecting an audio track in association with multi-video clip capture | |
CA3185810A1 (en) | Systems and methods for augmented or mixed reality writing | |
US20230057963A1 (en) | Video playing method, apparatus and device, storage medium, and program product | |
WO2022146798A1 (en) | Selecting audio for multi-video clip capture | |
CN116643681A (zh) | 用于交互的方法、装置、设备和存储介质 | |
EP3612921A1 (en) | Enhanced inking capabilities for content creation applications | |
US10990241B2 (en) | Rich media icon system | |
CN114584704A (zh) | 拍摄方法、装置和电子设备 | |
CN114245193A (zh) | 显示控制方法、装置和电子设备 | |
CN112686990A (zh) | 一种三维模型显示方法、装置、存储介质和计算机设备 | |
WO2024113679A1 (zh) | 多媒体资源处理方法、装置和设备 | |
US20240193836A1 (en) | Method and system for customization of a virtual avatar | |
CN116975337A (zh) | 图像搜索方法、装置、电子设备和可读存储介质 | |
CN117311884A (zh) | 内容显示方法、装置、电子设备及可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |