CN117768768A - 辅助构图方法、装置以及电子设备 - Google Patents
辅助构图方法、装置以及电子设备 Download PDFInfo
- Publication number
- CN117768768A CN117768768A CN202311798660.4A CN202311798660A CN117768768A CN 117768768 A CN117768768 A CN 117768768A CN 202311798660 A CN202311798660 A CN 202311798660A CN 117768768 A CN117768768 A CN 117768768A
- Authority
- CN
- China
- Prior art keywords
- preview thumbnail
- preview
- reference example
- thumbnail
- camera parameters
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 56
- 238000010586 diagram Methods 0.000 claims abstract description 48
- 230000008859 change Effects 0.000 claims description 22
- 238000000059 patterning Methods 0.000 claims description 19
- 238000005259 measurement Methods 0.000 claims description 4
- 230000000007 visual effect Effects 0.000 abstract description 6
- 238000012545 processing Methods 0.000 description 15
- 230000008569 process Effects 0.000 description 9
- 238000012549 training Methods 0.000 description 9
- 230000006870 function Effects 0.000 description 7
- 238000011160 research Methods 0.000 description 3
- 230000004044 response Effects 0.000 description 3
- 230000004913 activation Effects 0.000 description 2
- 239000008186 active pharmaceutical agent Substances 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 241000501754 Astronotus ocellatus Species 0.000 description 1
- 208000001613 Gambling Diseases 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000009792 diffusion process Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000007667 floating Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
Landscapes
- Studio Devices (AREA)
Abstract
本申请实施例公开了一种辅助构图方法、装置以及电子设备。该方法包括:获取预览缩略图;基于预览缩略图和多模态大语言模型,得到预览缩略图对应的优化相机参数;基于预览缩略图、优化相机参数和图生图模型,得到预览缩略图对应的参考示例图;将参考示例图显示在电子设备的屏幕中,以便用户参照参考示例图进行构图。通过上述方式使得,可以在获取到预览缩略图后,基于预览缩略图和多模态大语言模型,得到优化相机参数,并基于预览缩略图、优化相机参数和图生图模型,得到预览缩略图对应的参考示例图,以将参考示例图显示在电子设备的屏幕中,通过将辅助构图信息以图像的形式显示在电子设备的屏幕中,可以得到更加清晰、直观的辅助构图信息。
Description
技术领域
本申请涉及计算机技术领域,更具体地,涉及一种辅助构图方法、装置以及电子设备。
背景技术
随着电子设备(如手机、平板、智能手表等)的不断发展,人们越来越喜欢用电子设备进行拍照。但由于用户的拍摄水平参差不齐,排出的照片可能不够出彩,因此辅助构图开始成为研究热点。
在相关方式中,可以在用户按下拍照键前,通过电子设备的图像采集装置(如摄像头等)所采集到的图像进行分析,并给出辅助构图信息。但相关方式中,可能存在得到的辅助构图信息不够清晰的问题。
发明内容
鉴于上述问题,本申请提出了一种辅助构图方法、装置以及电子设备,以实现改善上述问题。
第一方面,本申请提供了一种辅助构图方法,应用于电子设备,所述方法包括:获取预览缩略图;基于所述预览缩略图和多模态大语言模型,得到所述预览缩略图对应的优化相机参数;基于所述预览缩略图、所述优化相机参数和图生图模型,得到所述预览缩略图对应的参考示例图;将所述参考示例图显示在所述电子设备的屏幕中,以便用户参照所述参考示例图进行构图。
第二方面,本申请提供了一种辅助构图装置,运行于电子设备,所述装置包括:预览缩略图获取单元,用于获取预览缩略图;优化相机参数获取单元,用于基于所述预览缩略图和多模态大语言模型,得到所述预览缩略图对应的优化相机参数;参考示例图获取单元,用于基于所述预览缩略图、所述优化相机参数和图生图模型,得到所述预览缩略图对应的参考示例图;显示单元,用于将所述参考示例图显示在所述电子设备的屏幕中,以便用户参照所述参考示例图进行构图。
第三方面,本申请提供了一种电子设备,包括一个或多个处理器以及存储器;一个或多个程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个程序配置用于执行上述的方法。
第四方面,本申请提供的一种计算机可读存储介质,所述计算机可读存储介质中存储有程序代码,其中,在所述程序代码运行时执行上述的方法。
本申请提供的一种辅助构图方法、装置、电子设备以及存储介质,在获取预览缩略图后,基于所述预览缩略图和多模态大语言模型,得到所述预览缩略图对应的优化相机参数,基于所述预览缩略图、所述优化相机参数和图生图模型,得到所述预览缩略图对应的参考示例图,将所述参考示例图显示在所述电子设备的屏幕中,以便用户参照所述参考示例图进行构图。通过上述方式使得,可以在获取到预览缩略图后,基于预览缩略图和多模态大语言模型,得到优化相机参数,并基于预览缩略图、优化相机参数和图生图模型,得到预览缩略图对应的参考示例图,以将参考示例图显示在电子设备的屏幕中,通过将辅助构图信息以图像的形式显示在电子设备的屏幕中,可以得到更加清晰、直观的辅助构图信息。并且,可以使用户更加直观地了解到应该如何构图,并且在构图过程中可以随时基于参考示例图调整自身的拍照姿势、拍照角度等,进而降低了用户理解辅助构图信息的难度。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示出了本申请实施例提出的一种辅助构图方法的流程图;
图2示出了本申请实施例提出的一种指令提示词的示意图;
图3示出了本申请实施例提出的一种参考示例图显示在屏幕中的示意图;
图4示出了本申请另一实施例提出的一种辅助构图方法的流程图;
图5示出了本申请实施例提出的一种辅助构图方法的业务流程的示意图;
图6示出了本申请实施例提出的一种辅助构图装置的结构框图;
图7示出了本申请提出的一种电子设备的结构框图;
图8是本申请实施例的用于保存或者携带实现根据本申请实施例的辅助构图方法的程序代码的存储单元。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
随着人类生活水平的提高,人们越来越喜欢用电子设备进行拍照。但由于用户的拍摄水平参差不齐,排出的照片可能不够出彩,因此辅助构图开始成为研究热点。在相关方式中,可以在用户按下拍照键前,通过电子设备的图像采集装置(如摄像头等)所采集到的图像进行分析,并给出辅助构图信息。
发明人在对相关研究中发现,相关方式还存在得到的辅助构图信息不够清晰的问题。例如,在相关方式中辅助构图信息为文字形式,由于辅助构图信息相对专业,需要有一定摄影基础的人才能够准确的理解其含义,从而对部分无摄影基础的用户(如老人、小孩等)不够友好,同时,文字表达能力有限,可能无法解释清楚所有的辅助构图信息。
因此,发明人提出了本申请中的一种辅助构图方法、装置以及电子设备,在获取预览缩略图后,基于所述预览缩略图和多模态大语言模型,得到所述预览缩略图对应的优化相机参数,基于所述预览缩略图、所述优化相机参数和图生图模型,得到所述预览缩略图对应的参考示例图,将所述参考示例图显示在所述电子设备的屏幕中,以便用户参照所述参考示例图进行构图。通过上述方式使得,可以在获取到预览缩略图后,基于预览缩略图和多模态大语言模型,得到优化相机参数,并基于预览缩略图、优化相机参数和图生图模型,得到预览缩略图对应的参考示例图,以将参考示例图显示在电子设备的屏幕中,通过将辅助构图信息以图像的形式显示在电子设备的屏幕中,可以得到更加清晰、直观的辅助构图信息。并且,可以使用户更加直观地了解到应该如何构图,并且在构图过程中可以随时基于参考示例图调整自身的拍照姿势、拍照角度等,进而降低了用户理解辅助构图信息的难度。
请参阅图1,本申请实施例提供的一种辅助构图方法,应用于电子设备,所述方法包括:
S110:获取预览缩略图。
其中,预览缩略图可以为电子设备中图像采集装置所采集到的预览图像等比例缩小的图像,预览图像可以为图像采集装置执行拍照指令前所采集的图像。以电子设备是手机为例,当用户控制手机相机启动后到按下拍照键之前这段时间内所采集到的图像可以为预览图像。
作为一种方式,可以在电子设备的图像采集装置被开启后,在拍照界面中显示构图图标,响应于构图图标被触控,获取当前图像采集装置所采集到的预览图像,并将采集到的预览图像进行等比例缩小,得到预览缩略图。
在本申请实施例中,通过将预览图像进行等比例缩小得到预览缩略图,可以在不破坏预览图像整体构图框架的情况下缩小图像尺寸,从而可以节约存储空间,以及后续图像处理所需的计算资源等。
在本申请实施例中,可以预设有多种构图方式,以供用户选择,例如,可以设置有标准构图、专业构图等。
可选的,可以在电子设备的图像采集装置被开启后,在拍照界面中显示多种构图方式各自对应的构图图标,响应于其中一个构图图标被触控,获取当前图像采集装置所采集到的预览图像,并将采集到的预览图像进行等比例缩小,得到预览缩略图。
S120:基于所述预览缩略图和多模态大语言模型,得到所述预览缩略图对应的优化相机参数。
其中,多模态大语言模型可以指能够同时处理多种输入模态(如文本、图像音频等)的大语言模型,大语言模型(Large Language Model,LLM)可以指用于生成自然语言文本或理解语言文本的含义的模型,示例性的,大语言模型可以为ChatGPT(Chat GenerativePre-trained Transformer)模型。在本申请中,多模态大语言模型可以为LLaMA(LargeLanguage Model Meta AI)模型族中的一种模型,例如,多模态大语言模型可以为LLaMA-65B。
优化相机参数可以指用于使用户拍摄到的图更加好看的相机参数,相机参数可以有对焦、白平衡、曝光等。
作为一种方式,可以基于预览缩略图和第一提示词模板,得到第一提示词;将第一提示词输入多模态大语言模型,得到优化相机参数。
其中,第一提示词模板可以为用于辅助多模态大语言模型理解任务的模板。第一提示词可以指基于预览缩略图和第一提示词模板组成的提示词(prompt)。
示例性的,第一提示词模板可以包含任务描述部分、图像填充部分、输出要求部分,其中,任务描述部分可以用于简述任务信息,任务描述部分可以为“请详细分析照片给出优化的拍摄参数”;图像填充部分可以用于填入预览缩略图;输出要求部分可以用于描述任务所需要输出的详细内容,输出要求部分可以为“输出相机的优化参数,包括曝光、对焦、白平衡等参数”,从而通过将预览缩略图填充至第一提示词模板,可以得到第一提示词。
可选的,为了使多模态大语言模型可以理解输入的第一提示词,可以使用Tokenizer分词算法,基于Tokenizer可以将文本转换成独立的token列表,进而转换成输入的向量成为多模态大语言模型可以理解的输入形式。在本申请实施例中,多模态大语言模型的Tokenizer可以为基于BPE(Byte-Pair Encoding)算法构造的Tokenizer。
在本申请实施例中,通过多模态大语言模型将不同模态的信息进行融合和交互,可以提高多模态大语言模型的表达能力和理解能力,进而获得更准确的结果。
可选的,多模态大语言模型可以是预先训练好的模型。在多模态大语言模型训练过程中,可以先使用开源数据集对待训练多模态大语言模型进行训练,得到预训练多模态大语言模型;在基于非开源数据集对预训练多模态大语言模型进行训练(也可以称为微调),得到多模态大语言模型。
其中,开源数据集可以为The Pile、C4、OSCAR等。
可选的,可以通过从网络中获取带有Exif(Exchangeable image file format,可交换图像文件)信息的图像,Exif信息可以指用于记录数码照片的属性信息和拍摄数据的信息,Exif信息可以包含拍摄日期、拍摄器材、拍摄参数、图像处理参数、图像描述及版权信息等。
可选的,在待训练多模态大语言模型中可以用SwiGLU激活函数替换ReLU激活函数,同时采用MQA(Multi Query Attention,多查询注意力)机制和Flash Attention提升训练速度。
可选的,在从网络中获取到大量带有Exif信息的图像后,可以对大量带有Exif信息的图像的进行数据预处理,数据预处理可以包括对数据来源进行过滤、提取文本、语言识别、图像去重等。数据来源进行过滤可以用于过滤掉来自欺诈和成人网站(主要是色情、暴力、与赌博有关的网站等)的图像,例如可以基于URL(Uniform Resource Locator,统一资源定位器)对数据来源进行过滤。提取文本可以用于提取对应网站页面中的主要内容,以及忽略菜单、页眉、页脚和广告等。语言识别可以用于识别对应网站页面中语言的类别,以辅助提取文本。图像去重可以用于删除重复的图像。
可选的,在数据预处理完成后,可以基于NLP基准集中数据集构建的方式,构建非开源数据集。
虽然经过预训练之后的多模态大语言模型具有广泛的知识储备、强大的自然语言推理和代码处理能力,但在某些任务上的Zero-Shot能力很差。为了进一步提高多模态大语言模型在未见任务上的指令泛化能力,即Zero-Shot能力,需要在自然语言众包指令数据上微调预训练模型,指令prompt格式可以如图2所示。通过self instruct的方式可以让多模态大语言模型生成大量的<指令,API>数据对多模态大语言模型进行有监督的微调,实现其在广泛APIs集合上的准确调用。
S130:基于所述预览缩略图、所述优化相机参数和图生图模型,得到所述预览缩略图对应的参考示例图。
其中,图生图模型可以指基于输入图片生成新的图片的模型,图生图模型可以为SD(Stable Diffusion,稳定扩散)模型。本申请中的图生图模型的模型架构可以为SDXL1.0模型。参考示例图可以指包含辅助构图信息的图。
作为一种方式,可以基于预览缩略图、优化相机参数和第二提示词模板,得到第二提示词;将第二提示词输入图生图模型,得到参考示例图。
其中,第二提示词模板可以为用于辅助图生图模型理解任务的模板。第二提示词可以指基于预览缩略图、优化相机参数和第二提示词模板组成的提示词(prompt)。
示例性的,第二提示词模板可以包含任务描述部分、图像填充部分、相机参数填充部分、输出要求部分,其中,任务描述部分可以用于简述任务信息,任务描述部分可以为“请详细分析照片并给出构图示例”;图像填充部分可以用于填入预览缩略图;相机参数填充部分可以用于填入优化相机参数;输出要求部分可以用于描述任务所需要输出的详细内容,输出要求部分可以为“参考图像填充部分、相机参数填充部分的内容,输出构图示例”,从而通过将预览缩略图、优化相机参数分别填充至第二提示词模板对应部分,得到第二提示词。
可选的,图生图模型可以是预先训练好的模型。在图生图模型训练过程中,可以先使用开源数据集对待训练图生图模型进行训练,得到预训练图生图模型;在基于非开源数据集对预训练图生图模型进行训练(也可以称为微调),得到图生图模型。
其中,非开源数据集可以为多组图像对,每组图像对可以包括在同一视角下由两个不同拍摄水平的拍摄者所拍摄的照片,其中,拍摄水平高的拍摄者所拍摄的照片可以为优质照片,拍摄水平低的拍摄者所拍摄的照片可以为普通照片。视角可以指拍摄角度,例如,从目标拍摄对象的正面拍摄,从目标拍摄对象的左侧拍摄等。
可选的,为了减少了下游任务的可训练参数的数量,降低微调难度和耗时,可以采用LoRA(低秩自适应)的方式进行微调。
S140:将所述参考示例图显示在所述电子设备的屏幕中,以便用户参照所述参考示例图进行构图。
作为一种方式,可以将参考示例图以悬浮窗的形式显示在电子设备的屏幕中,以便用户参照参考示例图进行构图。
示例性的,如图3所示,在用户进行拍照时,可以将参考示例图显示在屏幕的右上方,以便用户可以实时将预览图像与参考示例图进行比对。
可选的,在将参考示例图显示在电子设备的屏幕中时,还可以自动将电子设备的相机参数调整至与优化相机参数相同。
在本申请实施例中,通过自动将电子设备的相机参数调整至与优化相机参数相同,可以简化相机参数的设置方式,降低了高级设置的使用难度,使用户无需关注相机参数信息,仅通过参照参考示例图进行拍摄姿势、拍摄角度等的调整,就可得到与参照参考示例图相近的、优质的图像。
再者,在本申请实施例中,通过将多模态大语言模型对图文的理解能力与图生图模型相结合,可以更加智能地得到更高质量的优化相机参数和参考示例图,以辅助用户可以拍出更满意的照片,从而使拍摄水平不佳的用户也可以靠自己拍出优质照片。
本实施例提供的一种辅助构图方法,在获取预览缩略图后,基于所述预览缩略图和多模态大语言模型,得到所述预览缩略图对应的优化相机参数,基于所述预览缩略图、所述优化相机参数和图生图模型,得到所述预览缩略图对应的参考示例图,将所述参考示例图显示在所述电子设备的屏幕中,以便用户参照所述参考示例图进行构图。通过上述方式使得,可以在获取到预览缩略图后,基于预览缩略图和多模态大语言模型,得到优化相机参数,并基于预览缩略图、优化相机参数和图生图模型,得到预览缩略图对应的参考示例图,以将参考示例图显示在电子设备的屏幕中,通过将辅助构图信息以图像的形式显示在电子设备的屏幕中,可以得到更加清晰、直观的辅助构图信息。并且,可以使用户更加直观地了解到应该如何构图,并且在构图过程中可以随时基于参考示例图调整自身的拍照姿势、拍照角度等,进而降低了用户理解辅助构图信息的难度。
请参阅图4,本申请实施例提供的一种辅助构图方法,所述方法包括:
S210:响应于所述电子设备的图像采集装置启动,周期性地获取图像采集装置所采集到的预览图像。
作为一种方式,可以响应于所述电子设备的图像采集装置启动,周期性地获取图像采集装置所采集到的预览图像。
可选的,在电子设备的图像采集装置启动时,拍摄帧率可以保持在较高水平,例如手机相机的拍摄帧率可以为60帧/秒,而由于在用户思考如何构图期间,手机基本固定不动,因此,每帧预览图像的变化可能较小,因此为了在满足实时性的同时减小处理的数据量和处理时间,可以通过抽帧的方式获取预览图像,从而实现了周期性地获取图像采集装置所采集到的预览图像。
其中,抽帧的方式可以理解为每隔预设帧数抽取一帧预览图像。示例性的,可以每隔20帧抽取一帧。
S220:将当前周期获取到的预览图像等比例缩小至预设大小,得到所述当前周期下缩小后的预览图像,并将所述当前周期下缩小后的预览图像作为所述当前周期获取到的预览缩略图。
作为一种方式,可以将当前周期获取到的预览图像等比例缩小至预设大小,得到当前周期下缩小后的预览图像,并将当前周期下缩小后的预览图像作为当前周期获取到的预览缩略图。
其中,预设大小可以基于多次试验结果得到,示例性的,预设大小可以为512kb。
S230:若所述当前周期获取的预览缩略图与参考预览缩略图的画面变化值大于或等于预设变化值,基于所述当前周期获取的预览缩略图和所述多模态大语言模型,得到所述当前周期获取的预览缩略图对应的优化相机参数,所述参考预览缩略图为所述电子设备屏幕中当前所显示的参考示例图对应的预览缩略图。
作为一种方式,若当前周期获取的预览缩略图与参考预览缩略图的画面变化值大于或等于预设变化值,可以基于当前周期获取的预览缩略图和多模态大语言模型,得到当前周期获取的预览缩略图对应的优化相机参数;若当前周期获取的预览缩略图与参考预览缩略图的画面变化值小于预设变化值,可以放弃对当前周期获取的预览缩略图进行后续处理(如获取当前周期获取的预览缩略图对应的优化相机参数、参考示例图),并且电子设备屏幕中的参考示例图保持不变,即仍然为参考预览缩略图对应的参考示例图。
可选的,可以获取第一特征和第二特征,第一特征可以为当前周期获取的预览缩略图的画面特征,第二特征可以为参考预览缩略图的画面特征;将第一特征和第二特征进行相似度度量,得到画面变化值。
可选的,可以采用余弦距离进行第一特征和第二特征的相似度度量,余弦距离越小,可以表明当前周期获取的预览缩略图与参考预览缩略图越相似,也就表明当前周期获取的预览缩略图与参考预览缩略图的画面变化值越小。
可选的,可以基于图生图模型得到第一特征和第二特征。示例性,由于图生图模型可以有多层网络结构,可以将位置靠前的隐藏层的输出结果作为对应的第一特征和第二特征。
S240:基于所述预览缩略图、所述优化相机参数和图生图模型,得到所述预览缩略图对应的参考示例图。
作为一种方式,若当前周期获取的预览缩略图与参考预览缩略图的画面变化值大于或等于预设变化值,可以基于当前周期获取的预览缩略图、当前周期获取的预览缩略图对应的优化相机参数和图生图模型,得到当前周期获取的预览缩略图对应的参考示例图。
S250:将所述参考示例图显示在所述电子设备的屏幕中,以便用户参照所述参考示例图进行构图。
作为一种方式,若当前周期获取的预览缩略图与参考预览缩略图的画面变化值大于或等于预设变化值,可以使用当前周期获取的预览缩略图对应的参考示例图替换当前屏幕所显示的参考示例图,以将当前周期获取的预览缩略图对应的参考示例图显示在电子设备的屏幕中,以便用户参照参考示例图进行构图。
本实施例提供的一种辅助构图方法,通过上述方式使得,可以在获取到预览缩略图后,基于预览缩略图和多模态大语言模型,得到优化相机参数,并基于预览缩略图、优化相机参数和图生图模型,得到预览缩略图对应的参考示例图,以将参考示例图显示在电子设备的屏幕中,通过将辅助构图信息以图像的形式显示在电子设备的屏幕中,可以得到更加清晰、直观的辅助构图信息。并且,可以使用户更加直观地了解到应该如何构图,并且在构图过程中可以随时基于参考示例图调整自身的拍照姿势、拍照角度等,进而降低了用户理解辅助构图信息的难度。并且,在本实施例中,通过周期性地获取预览图像,得到每个周期对应的预览缩略图,并在每次得到预览缩略图后将当前周期获取到的预览缩略图与参考预览缩略图进行比较,实时追踪画面的变动情况,以基于实时画面变动情况及时更新参考示例图,使得参考示例图会根据画面的变化情况实时变化,从而提高了辅助构图方法的灵活性和实时性。
为了更好地理解本申请中的方案,下面对本申请提出的辅助构图方法的业务流程进行介绍。
请参阅图5,本申请提出的辅助构图方法可以分为模型训练、辅助构图两个阶段。在辅助构图阶段,可以在基于步骤S1、步骤S2确定图像采集装置启动以及用户选定构图方式后,基于步骤S3获取对应构图方式下的预览缩略图;然后基于步骤S4将包含预览缩略图的第一提示词输入多模态大语言模型,得到优化相机参数,再基于步骤S5将包含预览缩略图、优化相机参数的第二提示词输入图生图模型,以得到参考示例图,再执行步骤S6得到并显示参考示例图。
请参阅图6,本申请提供的一种辅助构图装置600,运行于电子设备,所述装置600包括:
预览缩略图获取单元610,用于获取预览缩略图;
优化相机参数获取单元620,用于基于所述预览缩略图和多模态大语言模型,得到所述预览缩略图对应的优化相机参数;
参考示例图获取单元630,用于基于所述预览缩略图、所述优化相机参数和图生图模型,得到所述预览缩略图对应的参考示例图;
显示单元640,用于将所述参考示例图显示在所述电子设备的屏幕中,以便用户参照所述参考示例图进行构图。
作为一种方式,预览缩略图获取单元610具体用于响应于所述电子设备的图像采集装置启动,周期性地获取图像采集装置所采集到的预览图像;将当前周期获取到的预览图像等比例缩小至预设大小,得到所述当前周期下缩小后的预览图像,并将所述当前周期下缩小后的预览图像作为所述当前周期获取到的预览缩略图。优化相机参数获取单元620具体用于若所述当前周期获取的预览缩略图与参考预览缩略图的画面变化值大于或等于预设变化值,基于所述当前周期获取的预览缩略图和所述多模态大语言模型,得到所述当前周期获取的预览缩略图对应的优化相机参数,所述参考预览缩略图为所述电子设备屏幕中当前所显示的参考示例图对应的预览缩略图。
可选的,优化相机参数获取单元620具体用于获取第一特征和第二特征,所述第一特征为所述当前周期获取的预览缩略图的画面特征,所述第二特征为所述参考预览缩略图的画面特征;将所述第一特征和所述第二特征进行相似度度量,得到所述画面变化值。
作为一种方式,优化相机参数获取单元620具体用于基于所述预览缩略图和第一提示词模板,得到第一提示词;将所述第一提示词输入所述多模态大语言模型,得到所述优化相机参数。
作为一种方式,参考示例图获取单元630具体用于基于所述预览缩略图、所述优化相机参数和第二提示词模板,得到第二提示词;将所述第二提示词输入所述图生图模型,得到所述参考示例图。
作为一种方式,显示单元640具体用于将所述电子设备的相机参数调整至与所述优化相机参数相同。
下面将结合图7对本申请提供的一种电子设备进行说明。
请参阅图7,基于上述的辅助构图方法、装置,本申请实施例还提供的另一种可以执行前述辅助构图方法的电子设备100。电子设备100包括处理器102、存储器104、图像采集装置106,其中,该存储器104中存储有可以执行前述实施例中内容的程序,而处理器102可以执行该存储器104中存储的程序。
其中,处理器102可以包括一个或者多个处理核。处理器102利用各种接口和线路连接整个电子设备100内的各个部分,通过运行或执行存储在存储器104内的指令、程序、代码集或指令集,以及调用存储在存储器104内的数据,执行电子设备100的各种功能和处理数据。可选地,处理器102可以采用网络处理器(Neural network Processing Unit,NPU)、数字信号处理(Digital Signal Processing,DSP)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)、可编程逻辑阵列(Programmable Logic Array,PLA)中的至少一种硬件形式来实现。处理器102可集成中央处理器(Central Processing Unit,CPU)、辅助构图器(Graphics Processing Unit,GPU)、网络处理器(Neural networkProcessing Unit,NPU)和调制解调器等中的一种或几种的组合。其中,CPU主要处理操作系统、用户界面和应用程序等;GPU用于负责显示内容的渲染和绘制;NPU负责处理视频、图像类的多媒体数据;调制解调器用于处理无线通信。可以理解的是,上述调制解调器也可以不集成到处理器102中,单独通过一块通信芯片进行实现。
存储器104可以包括随机存储器(Random Access Memory,RAM),也可以包括只读存储器(Read-Only Memory)以及双倍速率同步动态随机存储器(Double DataRate,DDR)。存储器104可用于存储指令、程序、代码、代码集或指令集。存储器104可包括存储程序区和存储数据区,其中,存储程序区可存储用于实现操作系统的指令、用于实现至少一个功能的指令(比如触控功能、声音播放功能、图像播放功能等)、用于实现下述各个方法实施例的指令等。存储数据区还可以存储电子设备100在使用中所创建的数据(比如电话本、音视频数据、聊天记录数据)等。
图像采集装置106可以用于采集图像或视频,图像采集装置106可以为摄像头等。
请参考图8,其示出了本申请实施例提供的一种计算机可读存储介质的结构框图。该计算机可读存储介质800中存储有程序代码,所述程序代码可被处理器调用执行上述方法实施例中所描述的方法。
计算机可读存储介质800可以是诸如闪存、EEPROM(电可擦除可编程只读存储器)、EPROM、硬盘或者ROM之类的电子存储器。可选地,计算机可读存储介质800包括非易失性计算机可读存储介质(non-transitory computer-readable storage medium)。计算机可读存储介质800具有执行上述方法中的任何方法步骤的程序代码810的存储空间。这些程序代码可以从一个或者多个计算机程序产品中读出或者写入到这一个或者多个计算机程序产品中。程序代码810可以例如以适当形式进行压缩。
综上所述,本申请提供的一种辅助构图方法、装置以及电子设备,在获取预览缩略图后,基于所述预览缩略图和多模态大语言模型,得到所述预览缩略图对应的优化相机参数,基于所述预览缩略图、所述优化相机参数和图生图模型,得到所述预览缩略图对应的参考示例图,将所述参考示例图显示在所述电子设备的屏幕中,以便用户参照所述参考示例图进行构图。通过上述方式使得,可以在获取到预览缩略图后,基于预览缩略图和多模态大语言模型,得到优化相机参数,并基于预览缩略图、优化相机参数和图生图模型,得到预览缩略图对应的参考示例图,以将参考示例图显示在电子设备的屏幕中,通过将辅助构图信息以图像的形式显示在电子设备的屏幕中,可以得到更加清晰、直观的辅助构图信息。并且,可以使用户更加直观地了解到应该如何构图,并且在构图过程中可以随时基于参考示例图调整自身的拍照姿势、拍照角度等,进而降低了用户理解辅助构图信息的难度。
最后应说明的是:以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不驱使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。
Claims (10)
1.一种辅助构图方法,其特征在于,应用于电子设备,所述方法包括:
获取预览缩略图;
基于所述预览缩略图和多模态大语言模型,得到所述预览缩略图对应的优化相机参数;
基于所述预览缩略图、所述优化相机参数和图生图模型,得到所述预览缩略图对应的参考示例图;
将所述参考示例图显示在所述电子设备的屏幕中,以便用户参照所述参考示例图进行构图。
2.根据权利要求1所述的方法,其特征在于,所述基于所述预览缩略图和多模态大语言模型,得到所述预览缩略图对应的优化相机参数,包括:
基于所述预览缩略图和第一提示词模板,得到第一提示词;
将所述第一提示词输入所述多模态大语言模型,得到所述优化相机参数。
3.根据权利要求1所述的方法,其特征在于,所述基于所述预览缩略图、所述优化相机参数和图生图模型,得到所述预览缩略图对应的参考示例图,包括:
基于所述预览缩略图、所述优化相机参数和第二提示词模板,得到第二提示词;
将所述第二提示词输入所述图生图模型,得到所述参考示例图。
4.根据权利要求1所述的方法,其特征在于,所述方法还包括:
将所述电子设备的相机参数调整至与所述优化相机参数相同。
5.根据权利要求1所述的方法,其特征在于,所述获取预览缩略图,包括:
响应于所述电子设备的图像采集装置启动,周期性地获取图像采集装置所采集到的预览图像;
将当前周期获取到的预览图像等比例缩小至预设大小,得到所述当前周期下缩小后的预览图像,并将所述当前周期下缩小后的预览图像作为所述当前周期获取到的预览缩略图。
6.根据权利要求5所述的方法,其特征在于,所述基于所述预览缩略图和多模态大语言模型,得到所述预览缩略图对应的优化相机参数,包括:
若所述当前周期获取的预览缩略图与参考预览缩略图的画面变化值大于或等于预设变化值,基于所述当前周期获取的预览缩略图和所述多模态大语言模型,得到所述当前周期获取的预览缩略图对应的优化相机参数,所述参考预览缩略图为所述电子设备屏幕中当前所显示的参考示例图对应的预览缩略图。
7.根据权利要求6所述的方法,其特征在于,所述方法还包括:
获取第一特征和第二特征,所述第一特征为所述当前周期获取的预览缩略图的画面特征,所述第二特征为所述参考预览缩略图的画面特征;
将所述第一特征和所述第二特征进行相似度度量,得到所述画面变化值。
8.一种辅助构图装置,其特征在于,运行于电子设备,所述装置包括:
预览缩略图获取单元,用于获取预览缩略图;
优化相机参数获取单元,用于基于所述预览缩略图和多模态大语言模型,得到所述预览缩略图对应的优化相机参数;
参考示例图获取单元,用于基于所述预览缩略图、所述优化相机参数和图生图模型,得到所述预览缩略图对应的参考示例图;
显示单元,用于将所述参考示例图显示在所述电子设备的屏幕中,以便用户参照所述参考示例图进行构图。
9.一种电子设备,其特征在于,包括一个或多个处理器以及存储器;
一个或多个程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个程序配置用于执行权利要求1-7任一所述的方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有程序代码,其中,在所述程序代码运行时执行权利要求1-7任一所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311798660.4A CN117768768A (zh) | 2023-12-25 | 2023-12-25 | 辅助构图方法、装置以及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311798660.4A CN117768768A (zh) | 2023-12-25 | 2023-12-25 | 辅助构图方法、装置以及电子设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117768768A true CN117768768A (zh) | 2024-03-26 |
Family
ID=90310368
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311798660.4A Pending CN117768768A (zh) | 2023-12-25 | 2023-12-25 | 辅助构图方法、装置以及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117768768A (zh) |
-
2023
- 2023-12-25 CN CN202311798660.4A patent/CN117768768A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP3758364B1 (en) | Dynamic emoticon-generating method, computer-readable storage medium and computer device | |
WO2019091412A1 (zh) | 拍摄图像的方法、装置、终端和存储介质 | |
US11231838B2 (en) | Image display with selective depiction of motion | |
RU2628494C1 (ru) | Способ и устройство для генерирования фильтра изображения | |
US11949848B2 (en) | Techniques to capture and edit dynamic depth images | |
US9690980B2 (en) | Automatic curation of digital images | |
CN112235635B (zh) | 动画显示方法、装置、电子设备及存储介质 | |
CN112150347A (zh) | 从有限的修改后图像集合中学习的图像修改样式 | |
CN112785488A (zh) | 一种图像处理方法、装置、存储介质及终端 | |
CN117351115A (zh) | 图像生成模型的训练方法、图像生成方法、装置及设备 | |
CN112866577A (zh) | 图像的处理方法、装置、计算机可读介质及电子设备 | |
CN115294055A (zh) | 图像处理方法、装置、电子设备和可读存储介质 | |
CN117597940A (zh) | 用于呈现适用于摄像装置的功能的用户界面 | |
CN114926351A (zh) | 图像处理方法、电子设备以及计算机存储介质 | |
CN114697530B (zh) | 一种智能取景推荐的拍照方法及装置 | |
CN117689752A (zh) | 文学作品插图生成方法、装置、设备及存储介质 | |
CN117768768A (zh) | 辅助构图方法、装置以及电子设备 | |
CN117011415A (zh) | 一种特效文字的生成方法、装置、电子设备和存储介质 | |
CN108875670A (zh) | 信息处理方法、装置和存储介质 | |
CN108647097B (zh) | 文本图像处理方法、装置、存储介质及终端 | |
CN116347009B (zh) | 视频生成方法及电子设备 | |
CN114697525B (zh) | 一种确定跟踪目标的方法及电子设备 | |
CN113012039B (zh) | 图像处理方法、装置、电子设备及存储介质 | |
KR102718174B1 (ko) | 모션을 선택적으로 묘사한 이미지 디스플레이 | |
CN116170626A (zh) | 视频编辑方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |