CN115702572A

CN115702572A - 电子设备和电子设备的控制方法

Info

Publication number: CN115702572A
Application number: CN202180040923.8A
Authority: CN
Inventors: 李载烨; 金东灿; 潘宗明; 裵慧灿; 边东南; 吴城宇; 吕海东; 黄陈煐
Original assignee: Samsung Electronics Co Ltd
Current assignee: Samsung Electronics Co Ltd
Priority date: 2020-06-10
Filing date: 2021-06-04
Publication date: 2023-02-14
Also published as: EP4133715A4; US11290640B2; US20210392267A1; WO2021251689A1; US20240040240A1; EP4133715A1; US20220217269A1; US11831980B2

Abstract

本公开提供了一种电子设备和电子设备的控制方法。根据本公开的电子设备的控制方法包括以下步骤：基于接收到用于或与通过包括多个彼此不同的镜头的相机获取实况取景图像相关的第一用户输入，获取多个镜头中的每个镜头的多个图像帧，并将图像帧存储在第一存储器中，以预定的时间间隔将存储在第一存储器中的每个镜头的多个图像帧输入到神经网络模型中，并获取包括每个输入图像帧的构图偏好信息的分数信息，基于分数信息在多个镜头中选择至少一个镜头，在预定的时间间隔期间将通过所选择的至少一个镜头获取的图像帧存储在第二存储器中，以及基于接收到用于启动实况取景图像的记录的第二用户输入，将与存储在第二存储器中的图像帧相关的图像存储在第三存储器中，直到接收到用于结束记录的第三用户输入的时间点。

Description

电子设备和电子设备的控制方法

技术领域

本公开涉及一种电子设备及其控制方法，更具体地，涉及一种能够自动合并通过多个镜头中的每个镜头获取的图像帧并将图像帧提供给用户的电子设备及其控制方法。

背景技术

最近随着社交媒体等的发展。制作图像内容的用户正在迅速增加。特别地，试图通过用被包括在一个电子设备中的多个相机拍摄场景，然后将拍摄的图像合并成一个图像来产生高质量图像内容的用户数量也呈增长趋势。

同时，当用户直接合并通过多个相机获取的图像帧时，对于用户来说是不方便的，并且用户可能花费大量的努力和时间来掌握用于图像编辑的应用。此外，即使用户通过克服编辑过程的不便和困难来获取图像，也存在图像的美学质量得不到保证的问题。

因此，越来越需要一种能够自动组合从不同相机获取的图像帧并提供高质量图像的技术。

发明内容

技术问题

本公开的一个方面提供了一种电子设备及其控制方法，该电子设备能够通过自动组合通过多个不同的镜头中的每个镜头获取的图像帧中适于提供给用户的图像帧来获取新图像。

技术方案

根据用于实现上述目的的本公开的实施例，一种电子设备包括：相机，包括多个彼此不同的镜头；第一存储器，临时存储通过多个镜头中的每个镜头获取的多个图像帧；第二存储器，临时存储存储在第一存储器中的多个图像帧中用于实况取景(live view)的图像帧；第三存储器，存储与存储在第二存储器中的图像帧相关的图像；以及处理器，被配置为基于接收到的用于通过相机获取实况取景图像的第一用户输入，获取多个镜头中的每个镜头的多个图像帧并将图像帧存储在第一存储器中，以预定的时间间隔将存储在第一存储器中的每个镜头的多个图像帧输入到神经网络模型中，并且获取包括每个输入图像帧的构图偏好信息的分数信息，基于分数信息在多个镜头中选择至少一个镜头，在预定的时间间隔期间将通过所选择的至少一个镜头获取的图像帧存储在第二存储器中，以及基于接收到用于启动记录实况取景图像的第二用户输入，将与存储在第二存储器中的图像帧相关的图像存储在第三存储器中，直到接收到用于结束记录的第三用户输入的时间点。

此外，根据用于实现上述目的的本公开的实施例，一种电子设备的控制方法包括以下步骤：基于接收到用于通过包括多个彼此不同的镜头的相机获取实况取景图像的第一用户输入，获取多个镜头中的每个镜头的多个图像帧，并将图像帧存储在第一存储器中，以预定的时间间隔将存储在第一存储器中的每个镜头的多个图像帧输入到神经网络模型中，并且获取包括每个输入图像帧的构图偏好信息的分数信息，基于分数信息在多个镜头中选择至少一个镜头，在预定的时间间隔期间将通过所选择的至少一个镜头获取的图像帧存储在第二存储器中，以及基于接收到用于启动实况取景图像的记录的第二用户输入，将与存储在第二存储器中的图像帧相关的图像存储在第三存储器中，直到接收到用于结束记录的第三用户输入的时间点。

另外，根据用于实现上述目的的本公开的实施例，在包括执行电子设备的控制方法的程序的非暂时性计算机可读记录介质中，电子设备的控制方法包括以下步骤：基于接收到用于通过包括多个彼此不同的镜头的相机获取实况取景图像的第一用户输入，获取多个镜头中的每个镜头的多个图像帧并将图像帧存储在第一存储器中，以预定的时间间隔将存储在第一存储器中的每个镜头的多个图像帧输入到神经网络模型中，并且获取包括每个输入图像帧的构图偏好信息的分数信息，基于分数信息在多个镜头中选择至少一个镜头，在预定的时间间隔期间，将通过所选择的至少一个镜头获取的图像帧存储在第二存储器中，以及基于接收到用于开始记录实况取景图像的第二用户输入，将与存储在第二存储器中的图像帧相关的图像存储在第三存储器中，直到接收到用于结束记录的第三用户输入的时间点。

在示例性实施例中，可以有一种电子设备，包括：相机系统，包括多个不同的镜头；第一存储器，被配置为存储通过多个镜头中的每个镜头获取的多个图像帧；第二存储器，被配置为存储存储在第一存储器中的多个图像帧中用于实况取景的图像帧；第三存储器，被配置为存储与存储在第二存储器中的实况取景的图像帧相关的图像；以及处理器，被配置为：基于接收到与获取实况取景图像相关的第一用户输入，控制相机系统通过多个镜头中的每个镜头获取多个图像帧，并将多个图像帧存储在第一存储器中，以预定的时间间隔将存储在第一存储器中的多个镜头中的每个镜头的多个图像帧中的图像帧输入到神经网络模型中，以及获取包括每个输入图像帧的构图偏好信息的分数信息，基于分数信息在多个镜头中选择至少一个镜头，在预定的时间间隔期间将通过所选择的至少一个镜头获取的图像帧存储在第二存储器中，以及基于接收到用于开始实况取景图像的记录的第二用户输入，将与存储在第二存储器中的图像帧相关的图像存储在第三存储器中，直到接收到用于结束记录的第三用户输入。

在又一实施例中，存在一种电子设备的控制方法，该方法包括：基于接收到与通过包括多个不同的镜头的相机系统获取实况取景图像相关的第一用户输入，通过多个镜头中的每个镜头获取多个图像帧，并将多个图像帧存储在第一存储器中；以预定的时间间隔将存储在第一存储器中的多个镜头中的每个镜头的多个图像帧中的图像帧输入到神经网络模型中，并且获取包括每个输入图像帧的构图偏好信息的分数信息；基于分数信息在多个镜头中选择至少一个镜头；在预定的时间间隔期间将通过所选择的至少一个镜头获取的图像帧存储在第二存储器中；以及基于接收到用于开始实况取景图像的记录的第二用户输入，将与存储在第二存储器中的图像帧相关的图像存储在第三存储器中，直到接收到用于结束记录的第三用户输入。

在另一实施例中，存在一种非暂时性计算机可读记录介质，其包括执行电子设备的上述控制方法的程序。

附图说明

图1是用于示意性示出根据本公开实施例的电子设备的图；

图2是示出根据本公开实施例的电子设备的控制方法的每个操作的流程图；

图3是根据本公开的用于详细示出通过使用神经网络模型获取分数信息的过程的图；

图4A-图4K是用于详细示出与分数信息相关的预定义的规则的图；

图5A是用于示出与电子设备的相机系统包括具有不同视角的多个镜头的情况相关的实施例的图；

图5B是用于示出与电子设备的相机系统包括具有不同视角的多个镜头和镜头选择的情况相关的实施例的图；

图6A是用于示出在电子设备的相机系统还包括位于电子设备前部的镜头以及位于电子设备后部的多个镜头的情况下的实施例的图；

图6B是用于示出在电子设备的相机还包括位于电子设备前部的镜头以及位于电子设备后部的多个镜头以及镜头的选择的情况下的实施例的图；

图7是用于示出与放大通过所选择的镜头获取的图像帧的部分区域并提供该部分区域相关的实施例的图；

图8A-图8E是用于示出与放大通过所选择的镜头获取的图像帧的部分区域并显示该部分区域相关的其他实施例的图；

图9A是用于详细示出根据本公开实施例的与为每个片段选择镜头和应用场景过渡效果相关的实施例的图；

图9B是示出根据本公开实施例的应用场景过渡效果的方法的每个操作的流程图；

图10是示出根据本公开实施例的电子设备的配置的框图；和

图11是更详细地示出根据本公开实施例的电子设备的硬件配置的框图。

具体实施方式

可以对本公开的实施例进行各种修改，并且可以有各种类型的实施例。因此，将在附图中示出具体实施例，并且将在详细描述中详细描述这些实施例。然而，应当注意，各种实施例不是为了将本公开的范围限制到特定实施例，而是它们应当被解释为包括本公开的实施例的所有修改、等同和/或替代物。此外，关于附图的详细描述，相似的组件可以用相似的附图标记表示。

同时，在确定在描述实施例时，相关已知功能或组件的详细解释可能不必要地混淆本公开的要点的情况下，将省略详细解释。

此外，以下实施例可以以各种不同的形式修改，并且本公开的技术构思的范围不限于以下实施例。相反，提供这些实施例是为了使本公开更加充分和完整，并向本领域技术人员充分传达本公开的技术构思

同时，本公开中使用的术语仅用于解释本公开的具体实施例，并不旨在限制本公开的范围。此外，单数表达包括复数表达，除非在上下文中有明显不同的定义。

此外，在本公开中，诸如“具有”、“可能具有”、“包括”和“可能包括”的表达应该被解释为表示存在这样的特征(例如：诸如数值、函数、操作和组件的元素)，并且这些术语不旨在排除附加特征的存在。

此外，在本公开中，表述“A或B”、“A和/或B中的至少一个”或“A和/或B中的一个或多个”等可以包括所列项目的所有可能组合。例如，“A或B”、“A和B中的至少一个”或“A或B中的至少一个”可以指以下所有情况：(1)包括至少一个A，(2)包括至少一个B，或(3)包括至少一个A和至少一个B。

此外，本公开中使用的表述“第一”、“第二”等可用于描述各种元件，而不管任何顺序和/或重要程度。此外，这样的表达仅用于将一个元素与另一个元素区分开来，而不是要限制这些元素。

此外，本公开中关于一个元件(例如，第一元件)“可操作地或通信地”与另一个元件(例如，第二元件)“耦合”或“连接”/一个元件(例如，第一元件)“可操作地或通信地耦合到”或“连接到”另一个元件(例如，第二元件)的描述应该被解释为包括一个元件直接耦合到另一个元件的情况，以及一个元件通过又一个元件(例如，第三元件)耦合到另一个元件的情况两者。

相比之下，一个元件(例如，第一元件)“直接耦合”或“直接连接”到另一个元件(例如，第二元件)的描述可以被解释为意味着在该一个元件和该另一个元件之间不存在又一个元件(例如，第三元件)。

同时，在本公开中使用的表述“被配置为”可以根据情况与其他表述互换使用，诸如“适合于”、“具有能力”、“设计为”、“适合于”、“制成”和“能够”。同时，术语“被配置为”未必意味着设备在硬件方面是“专门设计的”。

相比之下，在某些情况下，表述“被配置为”可能意味着该设备“能够”与另一设备或组件一起执行操作。例如，短语“被配置为执行A、B和C的处理器”可以表示用于执行相应操作的专用处理器(例如，嵌入式处理器)，或者可以通过执行存储在存储器设备中的一个或多个软件程序来执行相应操作的通用处理器(例如，CPU或应用处理器)。

此外，在本公开的实施例中，“模块”或“部分”执行至少一个功能或操作，并且它可以被实现为硬件或软件，或者硬件和软件的组合。此外，除了需要被实现为特定硬件的“模块”或“部件”之外，多个“模块”或“部件”可以被集成到至少一个模块中，并且被实现为至少一个处理器。

同时，示意性地示出了附图中的各种元件和区域。因此，本公开的技术构思不受附图中所示的相对大小或间隔的限制。

同时，根据本公开的各种实施例的电子设备可以包括例如智能手机、平板PC、台式PC、膝上型PC或可穿戴设备中的至少一种。可穿戴设备可以包括附件类型设备(例如，手表、戒指、手镯、脚踝手镯、项链、眼镜、隐形眼镜或头戴式设备(head-mounted-device，HMD))、与织物或衣服集成的设备(例如，电子服装)、身体附着设备(例如，皮肤垫或纹身)或生物可植入电路中的至少一个。

在一些实施例中，电子设备可以包括例如电视、数字视频光盘(digital videodisk，DVD)播放器、音频、冰箱、空调、吸尘器、烤箱、微波炉、洗衣机、空气净化器、机顶盒、家庭自动化控制面板、安全控制面板、媒体盒(例如：Samsung HomeSync^TM、Apple TV^TM或Google TV^TM)、游戏控制台(例如：Xbox^TM、PlayStation^TM)、电子词典、电子钥匙、便携式摄像机或电子相框。

在其他实施例中，电子设备可以包括各种类型的医疗仪器(例如，各种类型的便携式医疗测量仪器(血糖仪、心率仪、血压计或温度计等)、磁共振血管造影术(magneticresonance angiography，MRA)、磁共振成像(magnetic resonance imaging，MRI)、计算机断层摄影(computed tomography，CT)、摄影设备或超声波仪器等)、导航设备、全球导航卫星系统(global navigation satellite system，GNSS)、事件数据记录器(event datarecorder，EDR)、飞行数据记录器(flight data recorder，FDR)、车辆信息娱乐设备、用于船只的电子设备(例如：用于船只的导航设备、回转罗盘等)、航空电子设备、安全设备、用于车辆的主机、工业或家用机器人、无人机、金融机构的ATM、商店的销售点(point of sales，POS)、或物联网(Internet of things，IoT)设备(例如：灯泡、各种类型的传感器、喷水设备、火警、恒温器、路灯、烤面包机、锻炼设备、热水箱、加热器、锅炉等)中的至少一种。

在下文中，将参照附图详细描述本公开的实施例，使得本公开所属领域的普通技术人员能够容易地实施这些实施例。

图1是用于示意性示出根据本公开实施例的电子设备的图。

如图1所示，根据本公开的“电子设备100”可以包括相机110，并通过相机110获取图像。例如，电子设备100可以被实现为如图1所示的智能手机。然而，根据本公开的电子设备100不限于特定类型的设备，并且它可以被实现为各种类型的电子设备100，诸如平板PC、数码相机、摄像机、笔记本PC等。

根据本公开的电子设备100的相机110可以包括多个彼此不同的镜头。在本公开的另一实施例中，电子设备100可以包括相机系统，该相机系统包括多个相机，并且该多个相机可以包括多个镜头。多个相机中的每一个包括与多个相机中的另一个不同的镜头。每个镜头可以由单个镜头或镜头的组合组成。

在多个镜头不同的情况下，多个镜头的视场(fields of view，FOV)不同和/或多个镜头的位置不同等。例如，如图1所示，电子设备100的相机110可以包括位于电子设备100后部的远摄镜头10、广角镜头20和超广角镜头30，并且还可以包括三维(3D)深度镜头40。此外，连同位于电子设备100后部的远摄镜头10、广角镜头20和超广角镜头30，电子设备100还可以包括位于电子设备100前部的远摄镜头(未示出)。也就是说，根据本公开，对镜头的数量和类型没有特别的限制。然而，为了下面解释的方便，将集中于电子设备100的相机110包括两个镜头，即第一镜头和第二镜头的情况进行解释。此外，通过位于电子设备100的前部或后部，镜头可以布置在电子设备100的相应前表面或后表面中或布置在其上。

同时，尽管在图1中未示出，但是电子设备100可以包括电子设备100内部的存储器。具体地，电子设备100可以包括：第一存储器，临时存储通过多个镜头中的每个镜头获取的多个图像帧；第二存储器，临时存储存储在第一存储器中的多个图像帧中用于实况取景的图像帧；以及第三存储器，存储与存储在第二存储器中的多个图像帧相关的图像。在下文中，将基于根据本公开的电子设备100包括多个存储器(诸如第一存储器、第二存储器和第三存储器)的情况的前提进行解释，但是本公开不限于此。也就是说，本公开可以被实现为使得第一存储器、第二存储器和第三存储器中的至少两个存储器被包括在物理上是一件硬件的存储器中，并且对应于存储器内部分配的多个区域中的每一个。

图2是示出根据本公开实施例的电子设备的控制方法的每个操作的流程图。

如图2所示，根据本公开的电子设备100可以接收用于或涉及在操作S210获取实况取景图像的第一用户输入。这里，“实况取景图像”指的是这样的图像，其中通过相机的镜头进入的光通过相机的图像传感器被转换成电子图像信号，并被显示在电子设备100的显示器上。此外，“第一用户输入”可以是例如用于操作存储在电子设备100中的相机应用的用户输入。此外，可以基于通过电子设备100的显示器的用户触摸输入、通过电子设备100的麦克风接收的用户语音或电子设备100上提供的物理按钮的输入、由用于控制电子设备100的遥控设备发送的控制信号等来接收第一用户输入。

如果接收到用于获取实况取景图像或与获取实况取景图像相关的第一用户输入，则电子设备100可以从多个镜头中的每个镜头获取多个图像帧，并将图像帧存储在第一存储器中。具体地，在电子设备100的相机包括两个镜头(即，第一镜头和第二镜头)的情况下，如果接收到第一用户输入，则在操作S220，电子设备100可通过第一镜头和第二镜头中的每个镜头获取多个图像帧，并将图像帧存储在第一存储器中。更具体地，如果接收到第一用户输入，则电子设备100可以同时操作第一镜头和第二镜头，并且通过第一镜头获取第一多个图像帧，并且在通过第一镜头获取第一多个图像帧时通过第二镜头获取第二多个图像帧。然后，电子设备100可以将通过第一镜头获取的第一多个图像帧和通过第二镜头获取的第二多个图像帧临时存储在第一存储器中。这里，在彼此相同的时间点获取的第一和第二多个图像帧中的图像帧可以彼此对应。

同时，根据本公开的第一镜头和第二镜头可以不同，因此，在相同时间点通过第一镜头获取的图像帧和通过第二镜头获取的图像帧中包括的对象和对象的角度可以不同。

例如，如果第一镜头是在电子设备100后部的广角镜头，并且第二镜头是布置在电子设备100后部的超广角镜头，则通过第一镜头获取的图像帧中不包括的对象可以包括在通过视角比第一镜头更宽的第二镜头获取的图像帧中。此外，即使被包括在通过第一镜头获取的图像帧中的对象和被包括在通过第二镜头获取的图像帧中的对象彼此相同，对象在通过第一镜头获取的图像帧中具有的角度和对象在通过视角比第一镜头更宽的第二镜头获取的图像帧中具有的角度也可以彼此不同。因此，需要在通过第一镜头获取的图像帧和通过第二镜头在相同时间点获取的图像帧中选择将被包括在将被提供给用户的图像中的图像帧，为此，根据本公开的电子设备100可以通过使用神经网络模型来获取分数信息，如下面将解释的。

电子设备100可以以预定的时间间隔将存储在第一存储器中的每个镜头的多个图像帧的图像帧输入到神经网络模型中，并获取每个输入图像帧的分数信息。具体地，在操作S230，电子设备100可将在预定的时间间隔期间获取的多个图像帧中的图像帧输入到神经网络模型中，并获取每个输入图像帧的分数信息。

更具体地，如果每当多个图像帧被获取并存储在第一存储器中时，存储在第一存储器中的所有图像帧的分数信息都被获取，则可能导致处理速度的延迟。因此，电子设备100可以在与存储在第一存储器中的多个图像帧中的预定的时间间隔相对应的时间点，将存储在第一存储器中的一些图像帧顺序输入到神经网络模型中，并获取每个输入图像帧的相应分数信息。

例如，预定的时间间隔可以是0.2秒，并且在设置为以每秒30帧(fps)的帧速率获取图像帧的情况下，电子设备100可以将存储在第一存储器中的多个图像帧中的六帧顺序输入到神经网络模型中，并且获取输入图像帧的各个分数信息。然而，预定的时间间隔不限于前述示例。

同时，在本公开中，“分数信息”是指根据图像帧中包括的对象的类型和对象的组成等将评估结果放在一起的值，并定量指示结果。具体地，根据本公开的分数信息可以基于预定的对象是否被包括在图像帧中或者美感如何根据图像帧内的对象的构图来确定，例如，图像帧内的对象的构图的美学。这里，指示根据构图的美感的信息被称为“构图偏好信息”，通过该构图，包括在图像帧中的诸如对象和背景的整个组件被布置在图像帧中。同时，根据本公开的术语分数信息可以与指示量化值本身的术语“分数”互换。

同时，可以“通过将图像帧输入到训练的神经网络模型中”来获取分数信息的特征不仅可以包括神经网络模型的输出是分数信息本身的情况，还可以包括基于神经网络模型输出的信息来获取分数信息的情况。具体地，根据本公开的分数信息可以根据如下神经网络模型的类型通过各种方法来获取。

首先，电子设备100可以通过使用被训练为输出图像帧的分数信息的第一神经网络模型来获取分数信息。具体地，电子设备100可以将图像帧输入到第一神经网络模型中，并且获取图像帧的分数信息作为输入图像帧的输出。

例如，第一神经网络模型可以是所谓的美学模型。美学模型可以输出分数信息，该分数信息指示输入图像帧的构成与专家评估的学习数据的构成有多相似。也就是说，美学模型可以输出如上定义的构图偏好信息作为分数信息。

第二，电子设备100可以通过使用被训练为输出图像帧中包括的对象的位置信息的第二神经网络模型来获取分数信息。具体地，电子设备100可以将图像帧输入到第二神经网络模型中，并获取包括在输入图像帧中的对象的位置的信息，并基于与对象的构成相关的预定义的规则获取分数信息。

例如，第二神经网络模型可以是对象检测模型、显著对象检测模型(显著性模型)、或对象分割模型。对象检测模型可输出包括在输入图像帧中的对象的位置的信息，例如，与包括在输入图像帧中的对象的位置相对应的边界框的信息。此外，显著对象检测模型可使用视觉注意机制，并通过将对象与周围区域区分来输出显示包括在输入图像帧中的显著对象的显著性图的信息。此外，对象分割模型可以输出与包括在输入图像帧中的对象的形状相对应的对象的位置信息。

第三，电子设备100可以通过使用第三神经网络模型来获取分数信息，该第三神经网络模型被训练为输出对象的类型的信息以及图像帧中包括的对象的位置的信息。具体地，电子设备100可以通过使用第三神经网络模型来获取对象的类型的信息和对象的位置的信息，并且基于与对象的类型和对象的组成等相关的预定义的规则来获取分数信息。

例如，第三神经网络模型可以是所谓的对象识别模型。对象识别模型不仅可以像前述对象检测模型那样输出对象的位置信息，还可以对检测到的对象的特征进行分类并输出对象的类型信息。

同时，在使用第二神经网络模型或第三神经网络模型之后应用的预定义的规则可以包括各种规则中的至少一种，诸如对象是否位于图像帧在水平/垂直方向上被三等分的交点上(所谓的三等分规则)，对象是否位于图像帧的中心部分，图像帧是否满足对称性等。此外，对于预定义的规则，各种规则，诸如在对象的类型属于人的情况下，人和图像帧的最上端之间的空间(所谓的顶部空间)是否合适，图像帧内是否存在消失点，图像帧内水平方向上是否存在水平线，图像帧内的适当位置是否存在水平线等可能被添加。将参照图3至图4K更详细地描述通过使用根据本公开的神经网络模型和与其相关的预定义的规则来获取分数信息的过程。

当通过上述过程获取分数信息时，电子设备100可以基于获取的分数信息从多个镜头中选择至少一个镜头，并且在预定的时间间隔期间将通过选择的至少一个镜头获取的图像帧存储在第二存储器中。也就是说，电子设备100可以基于分数信息在多个镜头中选择两个或更多个镜头，并且在预定的时间间隔期间将通过所选择的两个或更多个镜头中的每个镜头获取的图像帧存储在第二存储器中。

这里，选择两个或更多个镜头而不是一个镜头的原因是，合成在相同时间点通过不同镜头获取的多个图像帧的方法可用于将场景过渡效果应用于通过不同镜头获取的至少一些图像帧的过程中，如下面将描述的。这也是因为通过特定镜头获取的图像帧可以以原始数据的形式存储。然而，在下文中，为了便于解释，将针对从多个镜头中选择一个镜头的情况进行解释。同时，在下文中，将基于分数信息指示量化值本身的前提进行解释，并且随着量化值更高，根据对象的类型和对象的组成等的评估结果越优越。

具体地，如果在操作S240-是获取第一图像帧的时间点，通过第一镜头获取的第一图像帧的分数信息高于或等于通过第二镜头获取的第二图像帧的分数信息，则在操作S250-1，电子设备100可以在第一镜头和第二镜头之间选择第一镜头，并且在操作S260，在预定的时间间隔期间将通过第一镜头获取的图像帧存储在第二存储器中。相反，如果在操作S240-否，第一图像帧的分数信息低于第二图像帧的分数信息，则在操作S250-2，电子设备100可以在第一镜头和第二镜头之间选择第二镜头，并且在操作S260，在预定的时间间隔期间将通过第二镜头获取的图像帧存储在第二存储器中。

这里，“预定的时间间隔”可以等同于在操作S230将存储在第一存储器中的多个图像帧输入到神经网络模型中的时间间隔。具体地，如果基于通过神经网络模型获取的分数信息从多个镜头中选择了至少一个镜头，则电子设备100可以将通过先前选择的至少一个镜头获取的图像帧存储在第二存储器中，直到之后通过将存储在第一存储器中的其他图像帧输入到神经网络模型中而再次选择了多个镜头中的至少一个镜头。例如，电子设备100可以以0.2秒的间隔将存储在第一存储器中的每个镜头的多个图像帧输入到神经网络模型中，并且据此以0.2秒的间隔在多个镜头中选择至少一个镜头，并且当在多个镜头中选择至少一个镜头时，电子设备100可以将通过所选择的至少一个镜头获取的图像帧存储在第二存储器中0.2秒。

同时，在以预定的时间间隔将存储在第一存储器中的每个镜头的多个图像帧输入到神经网络模型中并且基于预定的时间间隔从多个镜头中选择至少一个镜头的情况下，如果如下所述通过合并通过不同镜头获取的图像帧来生成图像，则将在生成的图像中过度地执行每个不同镜头的图像帧之间的切换，并且因此将产生不自然。也就是说，在预定的时间间隔是0.2秒的情况下，可以在生成的图像中生成每0.2秒执行每个不同镜头的图像帧之间的切换的片段。因此，根据本公开的实施例，不管如上所述基于分数信息在多个镜头中选择一个镜头，都可以设置保持对特定镜头的选择的最小时间。例如，即使在第一图像帧的分数信息低于第二图像帧的分数信息的情况下，电子设备100也可以在相应片段中的第一镜头和第二镜头之间选择第一镜头，用于保持第一镜头的选择大于或等于预定的最小时间。

同时，获取第一图像帧的分数信息和第二图像帧的分数信息的过程可以根据包括在电子设备100的相机中的第一镜头和第二镜头的类型而变化，如下所述。

根据本公开的实施例，根据本公开的电子设备100的相机可以包括第一镜头和第二镜头，第一镜头是布置在电子设备100后部的广角镜头，第二镜头是在电子设备100后部的超广角镜头。在这种情况下，如果预定的对象不被包括在第一图像帧中而是被包括在第二图像帧中，则第一图像帧的分数信息可以被获取为比第二图像帧的分数信息更低的值。换句话说，如果在特定时间点，特定对象的至少一些部分在作为广角镜头的第一镜头的视角之外，并且没有在作为超广角镜头的第二镜头的视角之内，则可以评估在特定时间点获通过第二镜头获取的帧的构图比通过第一镜头获取的帧的构图更好。此外，在这种情况下，电子设备100可以在第一镜头和第二镜头之间选择第二镜头，并将通过第二镜头获取的图像帧存储在第二存储器中。

同时，“预定的对象”可以是由电子设备100的用户在被包括在第一图像帧或第二图像帧中的多个对象中选择的对象，并且它可以是例如人或动物。此外，预定的对象被包括在特定图像帧中的特征可以意味着整个预定的对象被包括在特定图像帧中，并且预定的对象不被包括在特定图像帧中的特征可以意味着预定的对象的至少一个或多个部分不被包括在特定图像帧中。

将参照图5A-图5B更详细地描述在电子设备100的相机中包括的第一镜头是在后部的广角镜头并且第二镜头是在后部的超广角镜头的情况下根据本公开获取分数信息的具体过程。

根据本公开的另一个实施例，根据本公开的电子设备100的相机可以包括在电子设备100后部的第一镜头和在电子设备100前部的第二镜头。在这种情况下，如果第二图像帧中包括用户的预定的操作，则第一图像帧的分数信息可以被获取为比第二图像帧的分数信息更低的值。换句话说，不管通过电子设备100后部的第一镜头获取的第一图像帧的分数信息如何在特定片段中，如果作为分析通过电子设备100前部的第二镜头获取的第二图像帧的结果，用户的预定的操作被包括在第二图像帧中，则可以评估第二图像帧的分数信息高于第一图像帧的分数信息。此外，在这种情况下，电子设备100可以在第一镜头和第二镜头之间选择第二镜头，并将通过第二镜头获取的图像帧存储在第二存储器中。

这里，“用户的预定的操作”可以包括诸如露出手掌的操作、微笑操作、发声操作等操作。将参照图6更详细地描述在电子设备100的相机还包括位于电子设备100前部的镜头的情况下，根据本公开获取分数信息的具体过程。

同时，当通过选择的至少一个镜头获取的图像帧被存储在第二存储器中时，电子设备100可以在电子设备100的显示器上显示存储在第二存储器中的图像帧。也就是说，电子设备100可以基于通过选择的至少一个镜头获取的图像帧向用户实时提供实况取景图像(或预览图像)。

具体地，电子设备100可以在显示器上将通过所选择的至少一个镜头获取的图像帧显示为整个屏幕，并且当在显示器上将通过被设置为第一镜头和第二镜头之间的默认镜头的一个镜头获取的图像帧显示为整个屏幕时，电子设备100可以在显示器上以画旁画(Picture by Picture，PBP)或画中画(Picture inPicture，PIP)的形式显示通过所选择的至少一个镜头获取的图像帧。

同时，在操作S270，电子设备100可以接收用于发起或开始实况取景图像的记录的第二用户输入。然后，如果在操作S270-是接收到用于发起或开始实况取景图像的记录的第二用户输入，则在操作S280电子设备100可将与存储在第二存储器中的图像帧相关的图像存储在第三存储器中，直到接收到用于结束实况取景图像的记录的第三用户输入的时间点。

这里，“第二用户输入”可以是例如用于选择通过相机应用提供的用户界面中包括的记录按钮的用户输入，而“第三用户输入”可以是例如用于选择通过相机应用提供的用户界面中包括的记录结束按钮的用户输入。然而，第二用户输入和第三用户输入的示例不限于此，并且第二用户输入和第三用户输入可以基于通过电子设备100的显示器的用户触摸输入、通过电子设备100的麦克风接收的用户语音或者电子设备100上提供的物理按钮的输入、由用于控制电子设备100的遥控设备发送的控制信号等来接收。

具体地，当接收到第二用户输入时，电子设备100可以发起生成与存储在第二存储器中的图像帧相关的图像并将该图像存储在第三存储器中的操作，并且生成与存储在第二存储器中的图像帧相关的图像并将该图像存储在第三存储器中的操作可以继续，直到接收到第三用户输入。这里，“与存储在第二存储器中的图像帧相关的图像”是指通过根据获取图像帧的时间顺序合并存储在第二存储器中的至少一些图像帧而生成的图像。然而，与实时显示在显示器上的实况取景图像不同，存储在第三存储器中的图像可以是通过编解码器以数字数据的形式生成的图像。在下文中，通过将存储在第三存储器中的图像与显示在显示器上的实况取景图像相区分，将该图像简称为“存储的图像”。

同时，电子设备100不仅可以合并第一图像帧和第二图像帧，还可以附加地一起执行编辑处理或合成处理，以便在存储的图像中不自然地在通过第一镜头获取的图像帧和通过第二镜头获取的图像帧之间切换。

具体地，电子设备100可以选择存储在第二存储器中的图像帧的部分区域，放大所选择的部分区域，并将该区域合并到其他图像帧中。例如，在第一镜头是在电子设备100后部的广角镜头并且第二镜头是在电子设备100后部的超广角镜头的情况下，电子设备100可以选择通过具有更宽视角的第二镜头获取的图像帧中的部分区域，放大所选择的部分区域，并且将放大的所选择的部分区域合并到通过第一镜头获取的图像帧中。因此，可以防止根据通过第一镜头获取的图像帧和通过第二镜头获取的图像帧之间的对象尺寸的急剧变化的不自然。这里，为了增强随着选择的部分区域被放大而减小的图像帧的分辨率，电子设备100可以在放大选择的部分区域之后附加地执行应用各种超分辨率技术的处理。

此外，电子设备100可以获取存储的图像，其中场景过渡效果被应用于存储的图像中通过第一镜头获取的图像帧和通过第二镜头获取的图像帧中的至少一些。将参照图9A和图9B更详细地描述根据本公开的与场景过渡效果相关的实施例。

到目前为止，描述了用于不使存储图像中通过第一镜头获取的图像帧和通过第二镜头获取的图像帧之间的切换看起来不自然的编辑处理或合成处理。然而，如上所述的编辑处理或合成处理也可以应用于基于存储在第二存储器中的图像帧在显示器上显示实况取景图像。

根据如上所述的本公开的各种实施例，电子设备100可以通过在为被包括在相机中的多个彼此不同的镜头中的每个镜头获取的图像帧中自动添加适于提供给用户的图像帧来获取新图像，因此，可以提供显著的用户便利。

此外，在根据本公开的神经网络模型以内置(on-device)的形式实现的情况下，可以在多个镜头中选择获取要提供给用户的图像帧的镜头，而无需将为多个镜头中的每个镜头获取的图像帧发送到外部服务器。也就是说，根据本公开，与用户隐私相关的安全性可以与用户便利性一起得到保证。

此外，虽然根据本公开的电子设备100获取多个镜头中的每个镜头的多个图像帧，但是电子设备100可以通过实况取景方法向用户提供与实时选择的镜头相对应的图像帧。此外，电子设备100可以生成图像，其中与实时选择的镜头相对应的图像帧被合并，因此可以进一步提高用户便利性。

图3是用于详细示出根据本公开的通过使用神经网络模型获取分数信息的过程的图，图4A至图4K是用于详细示出与分数信息相关的预定义的规则的图。也就是说，图3至图4K是用于更详细地示出图2中的操作S230的图。

首先，“神经网络模型”是指包括人工神经网络的人工智能模型，它可以通过深度学习来训练。例如，神经网络模型可以包括深度神经网络(Deep Neural Network，DNN)、卷积神经网络(Convolution Neural Network，CNN)、递归神经网络(Recurrent NeuralNetwork，RNN)和生成对抗网络(Generative Adversarial Networ，GAN)中的至少一个人工神经网络。然而，根据本公开的神经网络模型不限于前述示例。

如上所述，根据本公开的神经网络模型可以包括被训练为输出图像帧的构图的分数信息的第一神经网络模型、被训练为输出图像帧中包括的对象的位置信息的第二神经网络模型、以及被训练为输出对象的类型信息以及图像帧中包括的对象的位置信息的第三神经网络模型。

在图3中，将基于通过多个镜头获取的图像帧被输入到根据本公开的神经网络模型中的美学模型1000、对象检测模型2000-1和显著对象检测模型(显著性模型)2000-2的情况的前提，详细描述根据本公开的由每个神经网络模型输出的信息和获取分数信息的过程。这里，输入到神经网络模型中的图像帧可以以数据的形式输入，该数据包括图像帧的水平长度、图像帧的垂直长度以及图像帧的每个像素的RGB值的信息。

美学模型1000指的是被训练为输出分数信息的神经网络模型，该分数信息指示输入图像帧的构图与由专家评估的学习数据的构图有多相似，并且它属于根据本公开的第一神经网络模型的示例。例如，如图3所示，如果图像帧310被输入到美学模型1000中，则美学模型1000可以将输入图像帧310与包括被专家评估为具有良好构图的多个图像帧的信息的学习数据进行比较，并输出包括输入图像帧310的构图偏好信息的分数信息。

对象检测模型2000-1是根据本公开的第二神经网络模型的示例。对象检测模型2000-1指的是被训练来输出被包括在输入图像帧中的对象的位置信息的神经网络模型。例如，如图3所示，如果图像帧310被输入到对象检测模型2000-1中，则对象检测模型2000-1可以输出与被包括在输入图像帧中的对象的位置相对应的边界框320的信息，作为被包括在输入图像帧中的对象的位置的信息。

显著对象检测模型2000-2是根据本公开的第二神经网络模型的示例。显著对象检测模型2000-2可通过使用视觉注意机制将对象与周围区域区分开来输出显示被包括在输入图像帧中的显著对象的显著性图的信息。例如，如图3所示，如果图像帧310被输入到显著对象检测模型2000-2中，则显著对象检测模型2000-2可通过将对象与周围区域区分来输出显示被包括在输入图像帧中的显著对象的显著性图330的信息。

同时，如上所述，美学模型1000可以输出分数信息本身，并且据此，电子设备100可以通过美学模型1000获取分数信息。相比之下，对象检测模型2000-1或显著对象检测模型2000-2可以输出对象的位置信息，但不输出分数信息本身。因此，为了获取与输入图像帧的构图相关的分数信息，需要涉及应用与分数信息相关的预定义的规则的过程，所述预定义的规则包括关于对象是否位于图像帧内的良好构图中的规则。

也就是说，如果通过对象检测模型2000-1或显著对象检测模型2000-2对象的位置信息被获取，则电子设备100可以通过使用与分数信息相关的预定义的规则来获取分数信息。在下文中，将参照图4A至图4K描述与分数信息相关的预定义的规则的示例。

图4A是用于示出三等分规则的示意图。如图4A所示，在左侧的图像帧的情况下，对象位于图像帧在水平/垂直方向上被三等分的交点上，但是在右侧的图像帧的情况下，对象被布置在远离图像帧在水平/垂直方向上被三等分的交点的位置。在这种情况下，根据三等分规则，左侧的图像帧可比右侧的图像帧具有更高的分数信息。

图4B是用于示出关于对象是否位于图像帧的中心部分的规则的图。如图4B所示，在左侧的图像帧的情况下，对象位于图像帧的中心部分，但是在右侧的图像帧的情况下，对象远离图像帧的中心部分并且位于一侧。在这种情况下，根据关于对象是否位于图像帧的中心部分的规则，左侧的图像帧可比右侧的图像帧具有更高的分数信息。

图4C是用于示出关于对称性的规则的图。如图4C所示，在左侧的图像帧的情况下，基于图像基准线410，左侧和右侧的对称性高，但是在右侧的图像帧的情况下，基于基准线415，左侧和右侧的对称性相对不高。在这种情况下，根据关于对称性的规则，左侧的图像帧可比右侧的图像帧具有更高的分数信息。用于确定对称性的基准线可以是垂直位于图像帧的死点的线，如图4C中的基准线410、415，但不限于此。

图4D是用于示出关于顶部空间的规则的图。如图4D所示，在左侧的图像帧的情况下，人和图像帧的最上端之间的空间(所谓的顶部空间)与图中所示的框420相对应的空间一样多，但是在右侧的图像帧的情况下，人和图像帧的最上端之间的空间几乎不存在。在这种情况下，根据关于顶部空间的规则，左侧的图像帧可比右侧的图像帧具有更高的分数信息。

图4F和图4G是用于示出关于对象存在的规则的图。特别地，关于对象存在的规则中的对象可以是人或动物。

如图4E所示，在左侧的图像帧的情况下，作为图像帧内的对象的整个“人”存在于图像帧内，但是在右侧的图像帧的情况下，只有人的一部分被包括在图像帧内。在这种情况下，根据关于对象存在的规则，左侧的图像帧可比右侧的图像帧具有更高的分数信息。

如图4F所示，在左侧的图像帧的情况下，作为图像帧内的对象的整个“人脸”存在于图像帧内，但是在右侧的图像帧的情况下，只有人脸的一部分被包括在图像帧内。在这种情况下，根据关于对象存在的规则，左侧的图像帧可比右侧的图像帧具有更高的分数信息。

如图4G所示，在左侧的图像帧的情况下，作为图像帧内的对象的整个“多个人”存在于图像帧内，但是在右侧的图像帧的情况下，多个人中的左侧和右侧的人的一些部分不被包括在图像帧内。在这种情况下，根据关于对象存在的规则，左侧的图像帧可比右侧的图像帧具有更高的分数信息。

图4H是用于示出图4C中描述的关于对称性的规则也可以应用于背景的构图的图。如图4H所示，在左侧的图像帧的情况下，基于基准线425，左侧和右侧的对称性高，但是在右侧的图像帧的情况下，基于基准线430，左侧和右侧的对称性相对不高。在这种情况下，根据关于对称性的规则，左侧的图像帧可比右侧的图像帧具有更高的分数信息。

图4I是用于示出关于消失点的规则的图。如图4I所示，在左侧的图像帧的情况下，消失点435存在于图像帧内，但是在右侧的图像帧的情况下，消失点440存在于图像帧外。在这种情况下，根据关于消失点的规则，左侧的图像帧可比右侧的图像帧具有更高的分数信息。

图4J是用于示出关于水平线的规则的图。如图4J所示，在左侧的图像帧的情况下，在水平线445和图像帧的最上端之间存在一定程度的空间，但是在右侧的图像帧的情况下，在水平线450和图像帧的最上端之间存在相对较小的空间。在这种情况下，根据关于消失点的规则，左侧的图像帧可比右侧的图像帧具有更高的分数信息。

图4K是用于示出可以通过将如上所述的预定义的规则中的两个或更多个规则放在一起来获取分数信息的图。如图4K所示，在左侧的图像帧的情况下，在人和图像帧的最上端之间存在一定程度的距离455，但是在右侧的图像帧的情况下，在人和图像帧的最上端之间存在相对小的距离460。此外，在左侧的图像帧的情况下，其中图像帧在水平/垂直方向上被三等分的交叉点和对象的中心部分之间的距离465是近的，但是在右侧的图像帧的情况下，其中图像帧在水平/垂直方向上被三等分的交叉点和对象的中心部分之间的距离470是远的。将上述内容放在一起，左侧的图像帧可比右侧的图像帧具有更高的分数信息。

到目前为止，描述了根据本公开的与分数信息相关的预定义的规则的各种示例，但是它们仅仅是可以应用于本公开的示例。也就是说，除了上述规则之外，可以评估图像帧中包括的对象的类型、对象的特征以及对象的构成等的各种规则显然可以应用于本公开。此外，根据本公开的各种实施例，也可以不同地设置将在各种规则中使用哪些规则，以及将为每个规则添加什么样的加权值。同时，应用前述规则的过程不仅可以基于规则来操作，还可以通过单独的神经网络模型来执行。此外，这样的单独的神经网络模型可以以与根据本公开的第一神经网络模型、第二神经网络模型或第三神经网络模型集成的形式应用。

同时，根据本公开的神经网络模型不限于如上所述的第一神经网络模型、第二神经网络模型或第三神经网络模型，例如，根据本公开的神经网络模型还可以包括能够分析人的面部表情并识别人的情绪的情绪识别模型。在这种情况下，如果通过情绪识别模型获取图像帧中包括的人具有快乐情绪的信息，则电子设备100可以基于该人是否位于图像帧内的良好构图中来获取分数信息。

同时，电子设备100可以基于通过使用第一神经网络模型获取的分数信息、通过使用第二神经网络模型获取的分数信息和通过使用第三神经网络模型获取的分数信息中的一个分数信息来执行将在下面描述的片段选择过程。然而，电子设备100还可以基于通过将通过使用第一神经网络模型获取的分数信息、通过使用第二神经网络模型获取的分数信息和通过使用第三神经网络模型获取的分数信息中的至少两个放在一起而获取的综合分数信息来执行片段选择过程。也就是说，如图3所示，可以基于通过将通过使用美学模型1000获得的分数信息、通过使用对象检测模型2000-1获得的分数信息和通过使用显著对象检测模型2000-2获得的分数信息放在一起而获得的综合分数信息来识别合并部分。这里，可以通过获得每个分数信息的总和或平均值来计算综合分数信息，或者可以通过获得加权和来计算综合分数信息，其中加权值已经被添加到特定分数信息的值。

同时，根据本公开的实施例，电子设备100可以根据图像帧中是否包括预定的对象来不同地选择用于获取分数信息的神经网络模型。这里，预定的对象可以是人或动物，但不限于此。例如，如果基于通过对象识别模型(未示出)获取的对象的类型的信息，识别出作为预定的对象的人被包括在图像帧中，则电子设备100可以基于所识别的人的位置的信息，通过应用前述规则来获取分数信息。相反，如果识别出作为预定的对象的人没有被包括在图像帧中，则电子设备100可以通过将图像帧输入到美学模型1000中来获取分数信息。

图5A和图5B是用于示出与电子设备的相机包括具有不同视角的多个镜头的情况相关的实施例的图。

根据本公开的实施例，电子设备100的相机可以在电子设备100的后部包括远摄镜头、广角镜头和超广角镜头。这里，广角镜头可以具有比远摄镜头更宽的视角，超广角镜头可以具有比广角镜头更宽的视角。例如，远摄镜头的视角可以是8度至28度，广角镜头的视角可以是63度至84度，超广角镜头的视角可以是94度至114度。

具体来说，远摄镜头视角窄，焦距长。因此，即使通过远摄镜头获取的图像帧是远离电子设备的对象，该图像帧也可以作为放大的尺寸被包括在图像帧内，但是由于其视角窄，所以它可能仅包括相对窄视野中的场景。

与远摄镜头相比，广角镜头具有更宽的视角和短的焦距。因此，通过广角镜头获取的图像帧可包括相对宽范围内的场景，但是图像帧中包括的对象的尺寸可能变小，并且可能发生透视失真。

超广角镜头比广角镜头具有更宽的角度和更短的焦距。因此，通过超广角镜头获取的图像帧可包括比广角镜头视野更宽的场景，但是图像帧中包括的对象的尺寸甚至可能变得比广角镜头更小，并且可能发生透视失真。

图5A示出了在相同时间点通过远摄镜头、广角镜头和超广角镜头中的每一个获取的图像帧。参照图5A，可以看出，通过广角镜头获取的图像帧包括比通过远摄镜头获取的图像帧更宽视野中的场景，并且通过超广角镜头获取的图像帧包括比通过广角镜头获取的图像帧更宽视野中的场景。因此，如图5A所示，通过远摄镜头、广角镜头和超广角镜头获取的每个图像帧中包括的对象以及对象的组成可以不同。

图5B示出了根据本公开的多个图像帧中输入到神经网络模型中的图像帧和输入图像帧的分数信息。具体地，图5B中的图像帧A至D表示通过远摄镜头获取的多个图像帧中输入到神经网络模型中的图像帧，图像帧E至H表示通过广角镜头获取的多个图像帧中输入到神经网络模型中的图像帧，图像帧I至L表示通过超广角镜头获取的多个图像帧中输入到神经网络模型中的图像帧。

同时，图像帧A、E和I是在相同时间点通过远摄镜头、广角镜头和超广角镜头获取的图像帧(在下文中，它们将被称为“对应图像帧”)。同样，图像帧B、F和J、图像帧C、G和K以及图像帧D、H和L分别指示相应的图像帧。在下文中，将基于图5B中的分数信息具有0到5.0的数值范围的前提进行解释，并且随着该值更高，根据对象的类型和对象的组成等的评估结果越优越。

参照图5B，在相应的图像帧A、E和I中，图像帧A的分数信息最高。因此，电子设备100可以基于图像帧A、E和I中的每一个的分数信息在远摄镜头、广角镜头和超广角镜头中选择远摄镜头，并且将通过远摄镜头获取的图像帧存储在第二存储器中，直到基于图像帧B、F和J的分数信息再次选择一个镜头。也就是说，电子设备100可以在第二存储器中存储从图像帧A开始到图像帧B之前出现的图像帧的图像帧。

同样，电子设备100可以基于图像帧B、F和J中的每一个的分数信息选择超广角镜头，并将通过超广角镜头获取的图像帧存储在第二存储器中，并且基于图像帧C、G和K的分数信息选择超广角镜头，并将通过超广角镜头获取的图像帧存储在第二存储器中，并且基于图像帧D、H和L的分数信息选择广角镜头，并将通过广角镜头获取的图像帧存储在第二存储器中。

如上所述，对于根据图像帧被输入到神经网络模型的预定的时间间隔的每个片段，可以选择远摄镜头、广角镜头和超广角镜头中的一个镜头，并且如果通过为每个片段选择的镜头获取的图像帧被存储在第二存储器中，则电子设备100可以合并存储在第二存储器中的图像帧并获取存储的图像。

同时，到目前为止，描述了一个实施例，其中对于根据图像帧被输入到神经网络模型的预定的时间间隔的每个片段，选择多个镜头中的至少一个镜头，并且通过为每个片段选择的镜头获取的图像帧被存储在第二存储器中，但是根据本公开的另一个实施例，电子设备100可以在比图像帧被输入到神经网络模型的预定的时间间隔更宽的范围内设置片段，并且为每个设置的片段选择多个镜头中的至少一个镜头，并且将通过选择的镜头获取的图像帧存储在第二存储器中。

例如，在图像帧被输入到神经网络模型的预定的时间间隔是0.2秒(即，在帧速率是30fps的情况下是6帧的间隔)的情况下，电子设备100可以被设置为通过比较以1秒的间隔(即，在帧速率是30fps的情况下是30帧的间隔)区分的多个片段中的每个片段的分数信息来选择多个镜头中的一个镜头。在这种情况下，可以根据被包括在多个片段中的多个图像帧中输入到神经网络模型中的图像帧的分数信息的平均值，计算成为多个片段中的每个片段的比较对象的分数信息。也就是说，在为每个设置的片段选择多个镜头中的至少一个镜头的情况下，如图5B所示的A到L可以是被包括在多个片段中的一个图像帧，并且图5B中的分数信息可以是被包括在每个片段中的多个图像帧中输入到神经网络模型中的图像帧的分数信息的平均值。

图6A和图6B是用于示出在电子设备的相机还包括位于电子设备前部的镜头以及位于电子设备后部的多个镜头的情况下的实施例的图。

根据本公开的实施例，电子设备100的相机还可以包括在电子设备100前部的远摄镜头(下文中称为前部远摄镜头)，以及在电子设备100后部的远摄镜头(下文中称为后部远摄镜头)、广角镜头(下文中称为后部广角镜头)和超广角镜头(下文中称为后部超广角镜头)。也就是说，图6A和图6B中的实施例是关于仅还包括前部远摄镜头的情况，而其他部分与图5A和图5B中的实施例相同。因此，在下面解释图6A和图6B时，将省略关于图5A和图5B中描述的内容的重复解释。

图6A示出了在相同时间点通过后部远摄镜头、后部广角镜头、后部超广角镜头和前部远摄镜头中的每一个获取的图像帧。参考图6A，除了图5A所示的图像帧之外，还示出了通过前部远摄镜头获取的图像帧。在这种情况下，通过前部远摄镜头获取的图像帧可以包括关于与通过后部远摄镜头、后部广角镜头和后部超广角镜头获取的图像帧相反方向上的场景的不同对象。具体地，如图6A所示，在通过前部远摄镜头获取的图像帧中，通过使用电子设备100拍摄图像的用户可以被包括为对象。

类似于图5B，图6B示出了根据本公开的多个图像帧中输入到神经网络模型中的图像帧和输入图像帧的分数信息。具体地，图6B中的图像帧A至L和图像帧的分数信息与图5B中的图像帧A至L和图像帧的分数信息相同，并且图6B中的图像帧M至P指示通过前部远摄镜头获取的图像帧和图像帧的分数信息。在下文中，将基于图6B中的分数信息具有0到5.0的数值范围的前提进行解释，并且类似于图5B的情况，随着该值更高，根据对象的类型和对象的组成等的评估结果越优越。

同时，在电子设备100包括电子设备100前部的镜头以及电子设备100后部的镜头的情况下，如果通过电子设备100前部的镜头获取的图像帧中包括用户的预定的操作，则通过电子设备100后部的镜头获取的图像帧的分数信息可以被获取为比通过电子设备100前部的镜头获取的图像帧的分数信息更低的值。这里，“用户的预定的操作”可以包括诸如露出手掌的操作、微笑操作、发声操作等操作。

例如，在图6B的情况下，包括具有无表情面部的用户的图像帧M、N和P的所有分数信息是3.3，但是包括微笑用户的图像帧O的分数信息指示最高点5.0。此外，图像帧O的分数信息可以被获取为比通过后部远摄镜头获取的图像帧C、通过后部广角镜头获取的图像帧G和通过后部超广角镜头获取的图像帧K更高的值。

参照图6B，图像帧M的分数信息低于图像帧A的分数信息。因此，尽管通过前部远摄镜头获取了图像帧M，但是在彼此对应的图像帧A、E、I和M中，图像帧A的分数信息最高，类似于图5B的情况。因此，电子设备100可以基于图像帧A、E、I和M中的每个图像帧的分数信息从后部远摄镜头、后部广角镜头和后部超广角镜头中选择后部远摄镜头。此外，电子设备100可以基于彼此对应的图像帧B、F、J和N的分数信息选择后部超广角镜头，并且基于彼此对应的图像帧D、H、L和P的分数信息选择后部广角镜头，如图5B的情况。

然而，与图5B的情况不同，由于通过前部远摄镜头获取的图像帧O的分数信息高于通过后部超广角镜头获取的图像帧K的分数信息，所以电子设备100可以基于彼此对应的图像帧C、G、K和O中的每个图像帧的分数信息来选择前部远摄镜头而不是后部超广角镜头。

如上所述，如果根据图像帧被输入到神经网络模型的预定的时间间隔为每个片段选择远摄镜头、广角镜头和超广角镜头中的一个镜头，并且通过为每个部分选择的镜头获取的图像帧被存储在第二存储器中，则电子设备100可以通过合并存储在第二存储器中的图像帧来生成图像，并且将生成的图像存储在第三存储器中。

同时，到目前为止，基于用户的微笑操作是用于具有高分数信息的预定的操作的前提进行了解释，但是根据本公开的另一实施例，电子设备100可以通过使用可以通过分析用户的面部表情来识别人的情绪的情绪识别模型来获取图像帧中包括的用户具有快乐情绪的信息，并且基于该信息获取具有高值的分数信息作为图像帧O的分数信息。

根据以上通过图6A和图6B描述的实施例，电子设备100可以自动合并在为电子设备100后部的多个镜头中的每个镜头获取的图像帧中具有良好构图的图像帧，同时，在通过使用电子设备100执行拍摄的用户进行预定的操作的情况下，电子设备100可以将用于该操作的图像帧插入到图像中，从而向用户提供更特殊的体验。

图7是用于示出与放大通过所选择的镜头获取的图像帧的部分区域并提供该区域相关的实施例的图。此外，图8A至图8E是用于示出与放大通过所选择的镜头获取的图像帧的部分区域并显示该区域相关的其他实施例的图。

如上所述，如果通过选择的至少一个镜头获取的图像帧存储在第二存储器中，则电子设备100可以在电子设备100的显示器上实时显示存储在第二存储器中的图像帧。在这种情况下，电子设备100可以不按原样显示存储在第二存储器中的图像帧，而是从存储在第二存储器中的图像帧中选择一些图像帧的部分区域，放大所选择的部分区域，并在显示器上显示这些区域。

同时，如上所述，电子设备100可以生成图像，其中存储在第二存储器中的图像帧根据获取的时间的顺序被合并，并且将该图像存储在第三存储器中。在这种情况下，电子设备100可以不按原样合并存储在第二存储器中的图像帧，而是从存储在第二存储器中的图像帧中选择一些图像帧的部分区域，放大所选择的部分区域，并将该区域合并到其他图像帧中。

在关于图7的描述中，将基于电子设备100的相机包括两个镜头(即，广角镜头和超广角镜头)的前提来描述与在存储在第二存储器中的图像帧中选择一些图像帧的部分区域并放大所选择的部分区域相关的实施例。

参照图7，电子设备100可以基于通过广角镜头获取的第一图像帧710和通过超广角镜头获取的第二图像帧720的分数信息中的每个分数信息，在广角镜头和超广角镜头之间选择一个镜头。这里，如通过图4G描述的，在第一图像帧710的情况下，只有人71的一部分被包括在图像帧内，但是在第二图像帧720的情况下，整个人71存在于图像帧内。因此，在这种情况下，第二图像帧720的分数信息被获取为比第一图像帧710的分数信息更高的值，因此，第一图像帧710和第二图像帧720之间的第二图像帧720可以被存储在第二存储器中。

同时，在通过像第二图像帧720那样的超广角镜头获取的图像帧被包括在与通过像第一图像帧710那样的广角镜头获取的图像帧连续的存储的图像或实况取景图像中的情况下，由于通过广角镜头获取的图像帧中包括的对象和通过超广角镜头获取的图像帧中包括的对象的尺寸之间的差异，用户可能感觉连续图像看起来不自然。因此，电子设备100可以像第二图像帧720一样选择通过超广角镜头获取的图像帧的部分区域725，放大选择的部分区域725并获取新的图像帧730，并将获取的新的图像帧730作为实况取景图像显示在显示器上，或者将该图像帧包括在存储在第三存储器中的存储的图像中。

这里，选择的部分区域725可以是其中至少一个预定的对象被包括在第二图像帧720内的区域。具体地，可以通过用于检测感兴趣区域(region of interest，ROI)的神经网络模型来确定所选择的部分区域725。具体而言，可以通过用于检测感兴趣区域的神经网络模型来检测包括诸如人或动物的预定的对象的感兴趣区域，从而确定所选择的部分区域。

同时，可以基于用于从显示器上显示的多个对象中选择至少一个对象的用户输入来确定选择的部分区域725。例如，可以通过触摸显示器上显示的人71和人72或者根据指定包括人71和人72的区域的交互来输入用于选择至少一个对象的用户输入。

然而，选择图像帧的部分区域的方法不限于上述示例。因此，在下文中，将参照图8A至图8E描述与选择图像帧的部分区域的方法相关的更多各种实施例。在图8A至图8E的每一个图中，在左侧示出的图像帧是通过选择的镜头获取并存储在第二存储器中的图像帧，并且在右侧示出的图像帧指示通过放大存储在第二存储器中的图像帧的部分区域而生成的新图像帧。

参照图8A，选择的部分区域810可以是包括图像帧中包括的多个人中看起来具有最大运动的人的区域。也就是说，如图8A所示，所选择的部分区域810可以是包括图像帧中包括的多人中包括跑步的人而不包括站立的人和坐着的人的区域。具体地，在识别图像帧中包括的人的运动时，不仅可以使用图像帧，还可以使用图像帧之前或之后的一些帧。

参照图8B，选择的部分区域820可以是包括图像帧中包括的人的具有大运动的身体部位的区域。也就是说，如图8A所示，在图像帧中包括的人正在弹奏钢琴的情况下，选择的部分区域820可以是包括人的手指的区域。具体地，在不仅基于图像帧而且基于图像帧之前或之后的一些帧来识别包括在对象中的人的移动的情况下，当弹奏钢琴的人缓慢地移动手指时，电子设备100可以在图8B的左侧显示与图像帧相同大小的图像帧，而当弹奏钢琴的人快速地移动手指时，电子设备100可以以与图8B中右侧的图像帧相同的尺寸显示图像帧。

同时，如图8C所示，选择的部分区域830可以是包括由图像帧中包括的人的手指指示的部分的区域，并且如图8D所示，选择的部分区域840可以是包括图像中包括的多个人中正在说话的人的区域。此外，如图8E所示，选择的部分区域850可以是包括图像中包括的多个人中的微笑的人的区域。

同时，在如上参照图7至图8E所述放大所选择的部分区域的情况下，图像帧的分辨率可能会大大降低，因此，可能会生成与其中没有执行部分区域的选择和放大的图像帧相关的差异感。因此，电子设备100可以附加地执行放大所选择的部分区域并应用各种分辨率修改技术(诸如放大)的处理。

图9A是用于详细示出根据本公开实施例的与为每个片段选择镜头和应用场景过渡效果相关的实施例的图。此外，图9B是示出根据本公开实施例的应用场景过渡效果的方法的每个操作的流程图。

如图9A所示，电子设备100可以将通过第一至第五片段中所选择的镜头获取的图像帧存储在第二存储器中，并且基于存储在第二存储器中的图像帧在显示器上实时显示实况取景图像，或者生成存储在第三存储器中的图像(即，存储的图像)。

具体地，如果在第一片段的开始时间点选择了第一镜头，则电子设备100可以将通过第一片段中的第一镜头获取的图像帧存储在第二存储器中。如果在第二片段的开始时间点选择了第二镜头，则电子设备100可以将通过第二片段中的第二镜头获取的图像帧存储在第二存储器中。如果在第三片段的开始时间点选择了第一镜头，则电子设备100可以将通过第三片段中的第一镜头获取的图像帧存储在第二存储器中。如果在第四片段的开始时间点选择了第二镜头，则电子设备100可以将通过第四片段中的第二镜头获取的图像帧存储在第二存储器中。此外，如果在第五片段的起点处选择了第一镜头，则电子设备100可以将通过第五片段中的第一镜头获取的图像帧存储在第二存储器中。

如上所述，如果通过为每个片段所选择的镜头获取的图像帧被存储在第二存储器中，则电子设备100可以基于存储在第二存储器中的图像帧在显示器上显示实况取景图像。具体地，在相机应用完成之前，从接收到用于操作存储在电子设备100中的相机应用的第一用户输入的时间点开始，实况取景图像可以显示在显示器上。同时，如果接收到用于发起或开始实况取景图像的记录的第二用户输入，则电子设备100可以基于从接收到第二用户输入的时间点到接收到用于结束实况取景图像的记录的第三用户输入的时间点存储在第二存储器中的图像帧来生成存储的图像，并将该图像存储在第三存储器中。

同时，在提供实况取景图像或存储的图像的过程中合并存储在第二存储器中的图像帧的情况下，包括视角或亮度等的硬件规格对于每个镜头可能是不同的。因此，在通过不同镜头获取的图像帧之间发生切换的部分，用户可能会感觉到不协调或不自然。

因此，电子设备100可以将场景过渡效果应用于通过第一镜头获取的图像帧和通过第二镜头获取的图像帧中的至少一些，并获取存储的图像或实况取景图像。在下文中，将参照图9B描述与根据本公开的各种实施例的应用场景过渡效果的方法相关的实施例。具体地，在下文中，为了便于解释，将描述对在作为随机片段的第一片段中获取的图像帧和在作为从第一片段延续的片段的第二片段中获取的图像帧中的至少一些应用场景过渡效果的方法。然而，如下所述的方法显然可以在根据本公开获取图像帧的整个片段中执行。

参照图9B，在操作S910，在第一片段和第二片段的每个片段中，电子设备100可以将通过在第一镜头和第二镜头之间选择的镜头获取的图像帧存储在第二存储器中。然后，在操作S920，电子设备100可以识别在第一片段中选择的镜头和在第二片段中选择的镜头是否不同。换句话说，电子设备100可以识别根据本公开的所选择的镜头的切换是否在第一片段和第二片段的边界时间点执行。

如果在操作S920-否，在第一片段中选择的镜头和在第二片段中选择的镜头相同，则电子设备100可以不执行用于应用场景过渡效果的操作(S930和S940)，并且在操作S950，获取存储的图像或实况取景图像，其中存储在第二存储器中的至少一些图像帧在第一片段和第二片段中被合并。

相反，如果在操作S920-是，在第一片段中选择的镜头和在第二片段中选择的镜头不同，则在操作S930，基于第一片段和第二片段的边界时间点之前和之后的图像帧，电子设备100可识别与图像帧相对应的场景的种类。

具体地，电子设备100可以在将通过第一镜头获取的图像帧切换到通过第二镜头获取的图像帧的时间点之前和之后输入预定的数量的图像帧到训练的场景识别模型中，并且识别与输入的图像帧相对应的场景的种类。这里，“场景识别模型”指的是被训练来输出与输入图像帧相对应的场景的种类或与输入图像帧相对应的场景的情况的信息的神经网络模型。例如，场景识别模型可以输出与输入图像帧相对应的场景的种类是“动态场景”(dynamic scene)的信息或者场景的种类是“平静场景”(peaceful scene)的信息。

如果识别了与第一片段和第二片段的边界时间点之前和之后的图像帧相对应的场景的种类，则在操作S940，电子设备100可将与识别的场景的种类相对应的场景过渡效果应用于边界时间点之前和之后的至少一些图像帧。

这里，“应用场景过渡效果”可以意味着将预存的编辑的图像插入到在边界时间点之前和之后的至少一些图像帧中。这里，“编辑的图像”是为场景的自然过渡而预先产生的短长度(例如：0.5到1秒)的图像，并且它可以从外部设备接收并更新。具体地，电子设备100可以在预存的编辑的图像中识别与所识别的场景种类相对应的编辑的图像，并将所识别的编辑的图像插入到该时间点之前和之后的至少一些图像帧中。

例如，在与第一片段和第二片段的边界时间点之前和之后的图像帧相对应的场景的种类是“动态场景”的情况下，电子设备100可以在预存的编辑的图像中识别与“动态场景”相对应的编辑的图像，并将识别的编辑的图像插入到时间点之前和之后的至少一些图像帧中，从而使得通过第一镜头和第二镜头获取的彼此不同的图像帧之间的切换适合于动态场景。同时，在与第一片段和第二片段的边界时间点之前和之后的图像帧相对应的场景的种类是“平静场景”的情况下，与“平静场景”相对应的编辑的图像可以被插入到边界时间点之前和之后的至少一些图像帧中。

此外，“应用场景过渡效果”可以意味着基于边界时间点之前和之后的至少一些图像帧来应用预定的编辑技术。这里，“预定的编辑技术”可以包括用于编辑的图像帧的各种技术，诸如淡入、淡出、放大、缩小和屏幕旋转等。具体地，电子设备100可以将被设置为与所识别的场景种类相对应的编辑技术应用于第一片段和第二片段的边界时间点之前和之后的至少一些图像帧。

例如，在与第一片段和第二片段的边界时间点之前和之后的图像帧相对应的场景的种类是“平静场景”的情况下，电子设备100可以在存储的编辑的图像中识别与“平静场景”相对应的编辑的图像。然后，在基于通过第一镜头获取的第t个图像帧到第t+19个图像帧和通过第二镜头获取的第t个图像帧到第t+19个图像帧执行淡入技术的情况下，电子设备100可以通过对通过第一镜头获取的第t个图像帧的95％和通过第二镜头获取的第t个图像帧的5％进行加权求和来应用淡入技术，以及对通过第一镜头获取的第t+1图像帧的90％和通过第二镜头获取的第t+1图像帧的10％进行加权求和，并且进一步以相同的方式，对通过第一镜头获取的第t+19图像帧的5％和通过第二镜头获取的第t+19图像帧的95％进行加权求和。同时，在与第一片段和第二片段的边界时间点之前和之后的图像帧相对应的场景的种类是“动态场景”的情况下，可以应用诸如屏幕旋转的动态编辑技术。

返回参考图9A，图9A中的编辑的图像910指示通过根据时间的流逝减小通过第一镜头获取的图像帧的比率并增大通过第二镜头获取的图像帧的比率的方法生成的编辑的图像，用于从通过第一镜头获取的图像帧到通过第二镜头获取的图像帧的自然切换。同时，图9A中的编辑的图像920指示通过根据时间的流逝减小通过第二镜头获取的图像帧的比率并增大通过第一镜头获取的图像帧的比率的方法生成的编辑的图像，用于从通过第二镜头获取的图像帧到通过第一镜头获取的图像帧的自然切换。

在如上所述在第一片段和第二片段的边界点上执行选择的镜头的切换的情况下，在操作S950，电子设备100可应用如上所述的场景过渡效果，并获取存储的图像或实况取景图像，其中存储在第二存储器中的至少一些图像帧在第一片段和第二片段中被合并。根据以上参照图9A和图9B描述的实施例，可以克服由于在通过不同镜头获取的图像帧之间切换而可能产生的不协调感或不自然感。

图10是示出根据本公开实施例的电子设备的配置的框图。

如图10所示，根据本公开的电子设备100可以包括相机110、存储器120和处理器130，并且还包括分数信息获取模块1020、镜头选择模块1030、图像获取模块1040、图像存储模块1050和图像显示模块1060等。

相机110可以获取至少一个对象的图像。具体地，相机110可以包括图像传感器，并且图像传感器可以将通过镜头进入的光转换成电子图像信号。具体地，根据本公开的相机110可以包括多个不同镜头的镜头。

在一种情况下，多个镜头的不同之处在于视场(FOV)不同，而在另一种情况下，多个镜头中的每一个所处的位置不同，等等。例如，电子设备100的相机110可以包括超远摄镜头、远摄镜头、普通镜头、广角镜头和超广角镜头，并且多个镜头中的每个镜头可以布置在电子设备100的各种位置，例如前、后或侧，例如前表面、后表面或侧表面等。

具体来说，远摄镜头的视角比超级远摄镜头宽，普通镜头的视角比远摄镜头宽，广角镜头的视角比普通镜头宽，超广角镜头的视角比广角镜头宽。例如，远摄镜头的视角可以从3度到6度，远摄镜头的视角可以从8度到28度，普通镜头的视角可以是47度，广角镜头的视角可以是63度到84度，超广角镜头的视角可以是94度到114度。

此外，随着镜头的视角变宽，通过镜头获取的图像帧可以包括相对较宽范围内的场景，但是图像帧中包括的对象的尺寸可能变得相对较小，并且可能出现透视失真。同时，随着镜头的视角变窄，通过镜头获取的图像帧可以通过放大对象的尺寸来包括对象，但是它可以包括相对较窄视图中的场景。

具体地，在根据本公开的各种实施例中，电子设备100可以同时操作多个镜头，并获取多个镜头中的每个镜头的多个图像帧。

在存储器120中，可以存储关于电子设备100的至少一个指令。此外，在存储器120中，可以存储用于操作电子设备100的操作系统(O/S)。此外，在存储器120中，可以存储用于使电子设备100根据本公开的各种实施例进行操作的各种类型的软件程序或应用。此外，存储器120可以包括诸如闪存的半导体存储器或诸如硬盘的磁存储介质等。

具体地，在存储器120中，可以存储用于操作根据本公开的各种实施例的电子设备100的各种类型的软件模块，并且处理器130可以通过执行存储在存储器120中的各种类型的软件模块来控制电子设备100的操作。也就是说，处理器130可以访问存储器120，并且由处理器130的数据的读取/记录/纠正/删除/更新等可以被执行。

同时，在本公开中，存储器120可以是处理器130内部的ROM(未示出)和RAM(未示出)，或者安装在电子设备100上或电子设备100中的存储卡(未示出)(例如，微型SD卡、记忆棒等)。

具体地，在根据本公开的各个实施例中，存储器120可以包括第一存储器121、第二存储器122和第三存储器123。这里，第一存储器121指的是临时存储通过多个镜头中的每个镜头获取的多个图像帧的存储器，并且它可以被实现为例如像帧缓冲器的易失性存储器。第二存储器122是指临时存储存储在第一存储器121中的多个图像帧中的用于实况取景的图像帧的存储器，并且它可以被实现为像第一存储器121一样的易失性存储器。此外，第三存储器123是指存储与存储在第二存储器122中的多个图像帧相关的图像的存储器，并且它可以被实现为像闪存那样的非易失性存储器。

同时，在解释本公开时，基于根据本公开的电子设备100包括多个存储器(即，第一存储器121、第二存储器122和第三存储器123)的前提进行了解释，但是本公开可以被实现为使得第一存储器121、第二存储器122和第三存储器123中的至少两个存储器被包括在物理上是一个硬件的存储器120中，并且与存储器120内部分配的多个区域中的每一个相对应。例如，本公开可以以这样的形式实现，其中电子设备100包括一个存储器120，并且在存储器120中，分配了用于临时存储通过多个镜头中的每个镜头获取的多个图像帧的第一区域、用于临时存储在第一区域中存储的多个图像帧中用于实况取景的图像帧的第二区域、以及用于存储与在第二区域中存储的多个图像帧相关的图像的第三区域。

处理器130控制电子设备100的整体操作。具体地，处理器130连接到电子设备100的组件，包括如上所述的相机110和存储器120，并且处理器130可以通过执行如上所述的存储在存储器120中的至少一个指令来控制电子设备100的整体操作。具体地，处理器130不仅可以被实现为一个处理器130，还可以被实现为多个处理器130。

此外，处理器130可以以各种方式实现。例如，处理器130可以实现为专用集成电路(ASIC)、嵌入式处理器、微处理器、硬件控制逻辑、硬件有限状态机(FSM)或数字信号处理器(DSP)中的至少一种。同时，在本公开中，术语处理器130可以用作包括中央处理单元(CPU)、图形处理单元(GPU)和主处理单元(MPU)等的意思。

具体地，在根据本公开的各种实施例中，如果通过相机110接收到用于获取实况取景图像或与获取实况取景图像相关的第一用户输入，则至少一个处理器130可以获取多个镜头的多个图像帧，并将这些图像帧存储在第一存储器121中，以预定的时间间隔将存储在第一存储器121中的每个镜头的多个图像帧输入到神经网络模型1010中，并获取包括每个输入图像帧的构图偏好信息的分数信息，基于分数信息在多个镜头中选择至少一个镜头，在预定的时间间隔期间将通过所选择的至少一个镜头获取的图像帧存储在第二存储器122中，以及如果接收到用于发起或开始实况取景图像的记录的第二用户输入，将与存储在第二存储器122中的图像帧相关的图像存储在第三存储器123中，直到接收到用于结束记录的第三用户输入的时间点。

具体地，如图10所示，处理器130可以加载存储在存储器120中的神经网络模型1010并使用它。此外，处理器130可以包括分数信息获取模块1020、镜头选择模块1030、图像获取模块1040、图像存储模块1050和图像显示模块1060等。

分数信息获取模块1020是指基于从神经网络模型1010输出的信息获取分数信息的模块。具体地，分数信息获取模块1020可以获取神经网络模型1010的输出，如美学模型本身，作为分数信息，或者它可以基于从神经网络模型1010输出的对象的位置信息等，通过应用如上参考图4A至图4K所述的预定义的规则来获取分数信息。

镜头选择模块1030指的是基于通过分数信息获取模块1020获取的分数信息从多个镜头中选择至少一个镜头的模块。例如，在电子设备100的相机110包括两个镜头，即第一镜头111和第二镜头112的情况下，如果在获取第一图像帧的时间点，通过第一镜头111获取的第一图像帧的分数信息高于或等于通过第二镜头112获取的第二图像帧的分数信息，电子设备100可以在第一镜头111和第二镜头112之间选择第一镜头111，并且如果第一图像帧的分数信息低于第二图像帧的分数信息，则电子设备100可以在第一镜头111和第二镜头112之间选择第二镜头112。

此外，如果通过镜头选择模块1030选择了多个镜头中的至少一个镜头，则电子设备100可以在预定的时间间隔期间将通过所选择的至少一个镜头获取并存储在第一存储器121中的图像帧存储在第二存储器122中。具体地，镜头选择模块1030不仅可以实现为软件模块，还可以实现为集成到处理器130的硬件模块，或者实现为与处理器130分离的硬件模块。

图像获取模块1040指的是基于存储在第二存储器122中的图像帧获取要在显示器161设备上显示的实况取景图像或者要存储在第三存储器123中的存储的图像的模块。具体地，图像获取模块1040不仅可以根据获取图像帧的时间顺序合并存储在第二存储器122中的图像帧，还可以执行放大存储在第二存储器122中的图像帧的一些区域并将这些区域合并到其他图像帧中的过程，以及对通过第一镜头111获取的图像帧和通过第二镜头112获取的图像帧中的至少一些应用场景过渡效果的过程。

图像存储模块1050指的是将通过图像获取模块1040获取的存储的图像存储在第三存储器123中的模块。如上所述，第三存储器123可以实现为像闪存那样的易失性存储器，并且存储的图像可以以各种格式的视频文件的形式存储在第三存储器123中。因此，用户可以再现和观看存储在第三存储器123中的存储的图像，或者将该图像发送到外部设备并与另一用户共享该图像。

图像显示模块1060是指控制显示器实时显示通过图像获取模块1040获取的实况取景图像的模块。具体地，图像显示模块1060可以将用于使通过所选择的至少一个镜头获取的图像帧显示为整个屏幕的控制信号发送到显示器，并且当通过设置为第一镜头111或第二镜头112之间的默认的一个镜头获取的图像帧显示在显示器上作为整个屏幕时，图像显示模块160可以将用于使通过所选择的至少一个镜头获取的图像帧以画旁画(PBP)或画中画(PIP)的形式显示的控制信号发送到显示器。

除以上之外，以上参考图1至图9B描述了基于处理器130的控制的根据本公开的各种实施例。因此，将省略重复的解释。

如图11所示，根据本公开的电子设备100不仅可以包括相机110、存储器120和处理器130，还可以包括通信器140、输入器150和输出器160等。然而，上述组件仅仅是示例性的，并且在实施本公开时，显然除了上述组件之外，还可以添加新的组件，或者可以省略一些组件。

通信器140包括电路，并且它可以执行与外部设备的通信。具体地，处理器130可以从通过通信器140连接的外部设备接收各种数据或信息，并且它还可以向外部设备发送各种数据或信息。

通信器140可以包括WiFi模块、蓝牙模块、无线通信模块或NFC模块中的至少一个。具体地，WiFi模块和蓝牙模块可以分别通过WiFi方法和蓝牙方法执行通信。在使用WiFi模块或蓝牙模块的情况下，各种类型的连接信息，诸如SSID等可以首先被发送和接收，并且通过使用它来连接通信，然后可以发送和接收各种信息。

此外，无线通信模块可以根据各种通信标准执行通信，诸如IEEE、紫蜂、第三代(3G)、第三代合作伙伴计划(3GPP)、长期演进(LTE)、第五代(5G)等。此外，NFC模块可以通过使用各种RF-ID频带(诸如135kHz、13.56MHz、433MHz、860～960MHz、2.45GHz等)中的13.56MHz频带的近场通信(NFC)方法来执行通信。

具体地，在根据本公开的各种实施例中，通信器140可以从外部设备接收各种信息，诸如神经网络模型1010、与神经网络模型1010相关的数据、与分数信息相关的预定义的规则的信息、生成编辑的图像的模板信息等。

输入器150包括电路，并且处理器130可以通过输入器150接收用于控制电子设备100的操作的用户输入。具体地，输入器150可以包括诸如麦克风和遥控信号接收器(未示出)等组件，并且它也可以被实现为作为触摸屏被包括在显示器161中的形式。

具体地，在根据本公开的各种实施例中，输入器150可以接收用户输入，诸如用于获取实况取景图像或与获取实况取景图像相关的第一用户输入、用于启动或开始实况取景图像的记录的第二用户输入、以及用于结束实况取景图像的记录的第三用户输入等。

输出器160包括电路，并且处理器130可以输出电子设备100可以通过输出器160执行的各种功能。此外，输出器160可以包括显示器161和扬声器162。具体地，显示器161可以被实现为液晶显示(LCD)面板、有机发光二极管(有机发光二极管)等。此外，显示器161也可能取决于情况被实现为柔性显示器、透明显示器等。然而，根据本公开的显示器161不限于特定类型。

具体地，在根据本公开的各个实施例中，输出器160可以输出通过图像获取模块1040获取的实况取景图像，并根据用户输入输出存储的图像，以再现存储在第三存储器123中的存储图像。

同时，根据前述实施例的电子设备100的控制方法可以被实现为程序并被提供给电子设备100。具体地，可以提供包括电子设备100的控制方法的程序，并将其存储在非暂时性计算机可读介质中。

具体地，在包括执行电子设备100的控制方法的程序的非暂时性计算机可读记录介质中，电子设备100的控制方法包括以下操作：基于接收到的用于或与通过包括多个彼此不同的镜头的相机110获取实况取景图像相关的第一用户输入，获取多个镜头中的每个镜头的多个图像帧并将图像帧存储在第一存储器121中，以预定的时间间隔将存储在第一存储器121中的每个镜头的多个图像帧输入到神经网络模型1010中，并获取包括每个输入图像帧的构图偏好信息的分数信息，基于分数信息在多个镜头中选择至少一个镜头在预定的时间间隔期间，将通过所选择的至少一个镜头获取的图像帧存储在第二存储器122中，并且基于接收到用于启动或开始记录实况取景图像的第二用户输入，将与存储在第二存储器122中的图像帧相关的图像存储在第三存储器123中，直到接收到用于结束记录的第三用户输入的时间点。

这里，非暂时性计算机可读介质指的是半永久性地存储数据并且可由机器读取的介质，而不是暂时存储数据的介质，诸如寄存器、高速缓存和存储器120。具体地，可以在存储在诸如CD、DVD、硬盘、蓝光盘、USB、存储器120卡、ROM等非暂时性计算机可读介质中时提供前述各种应用或程序。

到目前为止，简要描述了电子设备100的控制方法以及包括执行电子设备100的控制方法的程序的计算机可读记录介质，但是这仅仅是为了省略重复的解释，并且很明显，关于电子设备100的各种实施例可以应用于电子设备100的控制方法以及包括执行电子设备100的控制方法的程序的计算机可读记录介质。

根据本公开的上述各种实施例，电子设备100可以通过自动合并针对被包括在相机110中的彼此不同的多个镜头中的每个镜头获取的图像帧中适合于提供给用户的图像帧来获取新图像，因此，可以提供显著的用户便利。

此外，在根据本公开的神经网络模型1010内置实现的情况下，可以在多个镜头中选择获取要提供给用户的图像帧的镜头，而无需将为多个镜头中的每个镜头获取的图像帧发送到外部服务器。也就是说，根据本公开，与用户隐私相关的安全性可以与用户便利性一起得到保证。

此外，根据本公开的电子设备100可以自动合并在为电子设备100后部的多个镜头中的每个镜头获取的图像帧中具有良好构图的图像帧，同时，在用户通过使用电子设备100执行拍摄或捕获视频进行预定的操作的情况下，电子设备100可以将用于该操作的图像帧插入到图像中，从而向用户提供更特殊的体验。

此外，根据本公开的电子设备100可以在提供实况取景图像或存储的图像的过程中对通过彼此不同的镜头获取的至少一些图像帧应用场景过渡效果，从而根据对于每个镜头的硬件规格的差异(诸如视角或亮度的差异等)克服不协调感或不自然感。

同时，如上所述的与神经网络模型相关的功能可以通过存储器和处理器来执行。处理器可以由一个或多个处理器组成。这里，一个或多个处理器可以是通用处理器(诸如CPU、AP等)、图形专用处理器(诸如GPU、VPU等)、或人工智能专用处理器(诸如NPU)。一个或多个处理器执行控制，以根据存储在非易失性存储器和易失性存储器中的预定义的操作规则或人工智能模型来处理输入数据。预定义的操作规则或人工智能模型的特征在于，它是通过学习而得到的。

这里，通过学习进行是指将学习算法应用于多个学习数据，从而形成具有期望特性的预定义的操作规则或人工智能模型。这样的学习可以在设备中执行，其中人工智能根据本公开本身执行，或者通过单独的服务器和/或系统执行。

人工智能模型可以由多个神经网络层组成。每个层具有多个权重值，并且通过前一层的运算结果和多个权重值的运算来执行该层的运算。作为神经网络的示例，有卷积神经网络(CNN)、深度神经网络(DNN)、递归神经网络(RNN)、受限玻尔兹曼机器(RBM)、深度信念网络(DBN)、双向递归深度神经网络(BRDNN)、生成对抗网络(GAN)和深度Q网络，但是本公开中的神经网络不限于前述示例，不包括特定情况。

学习算法是一种通过使用多个学习数据来训练特定对象设备(例如，机器人)并由此使特定对象设备自己做出决定或做出预测的方法。作为学习算法的示例，有监督学习、非监督学习、半监督学习或强化学习，但是本公开中的学习算法不限于上述示例，不包括特定情况。

机器可读的存储介质可以以非暂时性存储介质的形式提供。这里，术语“非暂时性存储介质”仅意味着该设备是有形设备，而不包括信号(例如，电波)，并且该术语不区分数据被半永久性地存储在存储介质中的情况和数据被临时存储的情况。例如，“非暂时性存储介质”可以包括临时存储数据的缓冲器。

根据本公开的实施例，可以提供根据本公开中描述的各种实施例的方法，同时将其包括在计算机程序产品中。计算机程序产品是指一种产品，它可以在卖方和买方之间交易。计算机程序产品可以以机器可读的存储介质(例如：光盘只读存储器(CD-ROM))的形式分发，或者可以直接在两个用户设备(例如：智能手机)之间分发，以及通过应用商店(例如：play store^TM)在线分发(例如：下载或上传)。在在线分发的情况下，计算机程序产品的至少一部分(例如：可下载的app)可以至少临时存储在制造商的服务器、应用商店的服务器或中继服务器的存储器可读的存储介质中，或者可以临时生成。

此外，根据本公开的前述各种实施例的每个组件(例如，模块或程序)可以由单个对象或多个对象组成。此外，在上述相应的子组件中，一些子组件可以被省略，或者其他子组件可以还被包括在各个实施例中。可替换地或附加地，一些组件(例如，模块或程序)可以被集成为对象，并且以相同或相似的方式执行由集成之前的每个组件执行的功能。

此外，由根据本公开的各种实施例的模块、程序或其他组件执行的操作可以顺序地、并行地、重复地或启发式地执行。或者，至少一些操作可以以不同的顺序执行、被省略或者可以添加其他操作。

同时，在本公开中使用的术语“部分”或“模块”包括由硬件、软件或固件组成的单元，并且它可以与例如逻辑、逻辑块、组件或电路的术语互换使用。此外，“部件”或“模块”可以是由执行一个或多个功能的集成主体或最小单元或其一部分组成的组件。例如，模块可以由专用集成电路(ASIC)组成。

此外，本公开的各种实施例可以实现为包括存储在机器可读存储介质中的指令的软件，其可以由机器(例如，计算机)读取。机器指的是调用存储在存储介质中的指令并且能够根据调用的指令进行操作的设备，并且该设备可以包括根据前述实施例的电子设备(例如，电子设备100)。

在指令由处理器执行的情况下，处理器可以自己或者通过使用在其控制下的其他组件来执行与该指令相对应的功能。指令可以包括由编译器或解释器生成或执行的代码。

虽然已经示出和描述了本公开的优选的实施例，但是本公开不限于上述具体实施例，并且很明显，本公开所属技术领域的普通技术人员可以进行各种修改，而不脱离如所附权利要求所要求的本公开的主旨。此外，这样的修改不应独立于本公开的技术构思或前景来解释。

Claims

1.一种电子设备，包括：

相机系统，包括多个不同的镜头；

第一存储器，被配置为存储通过所述多个镜头中的每个镜头获取的多个图像帧；

第二存储器，被配置为存储存储在第一存储器中的所述多个图像帧中用于实况取景的图像帧；

第三存储器，被配置为存储与存储在第二存储器中的用于实况取景的图像帧相关的图像；和

处理器，被配置为：

基于接收到与获取实况取景图像相关的第一用户输入，控制相机系统通过所述多个镜头中的每个镜头获取所述多个图像帧，并将所述多个图像帧存储在第一存储器中，

以预定的时间间隔将存储在第一存储器中的所述多个镜头中的每个镜头的所述多个图像帧中的图像帧输入到神经网络模型中，并且获取包括每个输入图像帧的构图偏好信息的分数信息，

基于分数信息在所述多个镜头中选择至少一个镜头，

在预定的时间间隔期间将通过所选择的至少一个镜头获取的图像帧存储在第二存储器中，以及

基于接收到用于开始实况取景图像的记录的第二用户输入，将与存储在第二存储器中的图像帧相关的图像存储在第三存储器中，直到接收到用于结束记录的第三用户输入。

2.根据权利要求1所述的电子设备，

其中，所述多个镜头包括第一镜头和第二镜头，并且

所述至少一个处理器被配置为：

基于在获取第一图像帧的时间点通过第一镜头获取的第一图像帧的分数信息高于或等于通过第二镜头获取的第二图像帧的分数信息，选择第一镜头，以及

基于第一图像帧的分数信息低于第二图像帧的分数信息，选择第二镜头。

3.根据权利要求2所述的电子设备，

其中，第一镜头和第二镜头设置在电子设备的第一表面，

第一镜头的视场小于第二镜头的视场，以及

基于预定的对象不被包括在第一图像帧中而被包括在第二图像帧中，第一图像帧的分数信息低于第二图像帧的分数信息。

4.根据权利要求3所述的电子设备，

其中，预定的对象是由电子设备的用户在被包括在第一图像帧或第二图像帧中的多个对象中选择的对象。

5.根据权利要求2所述的电子设备，

其中，第一镜头位于电子设备的后部，

第二镜头位于电子设备的前部，以及

基于用户的预定的操作被包括在第二图像帧中，第一图像帧的分数信息低于第二图像帧的分数信息。

6.根据权利要求2所述的电子设备，

其中，与存储在第二存储器中的图像帧相关的图像是通过根据时间顺序合并存储在第二存储器中的至少一个图像帧而生成的图像，或者

与存储在第二存储器中的图像帧相关的图像是其中场景过渡效果被应用于通过第一镜头获取的图像帧和通过第二镜头获取的图像帧中的至少一个的图像。

7.根据权利要求6所述的电子设备，

其中，通过将预存储的图像插入到通过第一镜头获取的图像帧和通过第二镜头获取的图像帧之间的边界时间点之前和之后的至少一个图像帧中，或者基于边界时间点之前和之后的至少一个图像帧应用预定的编辑技术，场景过渡效果被应用于与存储在第二存储器中的图像帧相关的图像。

8.根据权利要求1所述的电子设备，还包括：

显示器，

其中，所述至少一个处理器被配置为：

基于通过所选择的至少一个镜头获取的图像帧被存储在第二存储器中，控制显示器实时显示存储在第二存储器中的图像帧。

9.根据权利要求8所述的电子设备，

其中，所述至少一个处理器被配置为：

放大存储在第二存储器中的图像帧的部分区域，以及

控制显示器显示放大的部分区域。

10.根据权利要求9所述的电子设备，

其中，图像帧的部分区域包括至少一个由用户预定的对象。

11.一种电子设备的控制方法，所述方法包括：

基于接收到与通过包括多个不同的镜头的相机系统获取实况取景图像相关的第一用户输入，通过所述多个镜头中的每个镜头获取多个图像帧，并将所述多个图像帧存储在第一存储器中；

以预定的时间间隔将存储在第一存储器中的所述多个镜头中的每个镜头的所述多个图像帧中的图像帧输入到神经网络模型中，并且获取包括每个输入图像帧的构图偏好信息的分数信息；

基于分数信息在所述多个镜头中选择至少一个镜头；

在预定的时间间隔期间将通过所选择的至少一个镜头获取的图像帧存储在第二存储器中；以及

12.根据权利要求11所述的电子设备的控制方法，

其中，所述多个镜头包括第一镜头和第二镜头，并且

选择至少一个镜头包括：

基于在获取第一图像帧的时间点通过第一镜头获取的第一图像帧的分数信息高于或等于通过第二镜头获取的第二图像帧的分数信息，选择第一镜头；以及

13.根据权利要求12所述的电子设备的控制方法，

其中，第一镜头和第二镜头设置在电子设备的第一表面，

第一镜头的视场小于第二镜头的视场，以及

14.根据权利要求13所述的电子设备的控制方法，

15.一种包括执行电子设备的控制方法的程序的非暂时性计算机可读记录介质，

其中，电子设备的控制方法包括：

基于分数信息在所述多个镜头中选择至少一个镜头；