CN116828099A

CN116828099A - 一种拍摄方法、介质和电子设备

Info

Publication number: CN116828099A
Application number: CN202311097617.5A
Authority: CN
Inventors: 吴馨怡; 武臻尧; 王松
Original assignee: Honor Device Co Ltd
Current assignee: Honor Device Co Ltd
Priority date: 2023-08-29
Filing date: 2023-08-29
Publication date: 2023-09-29
Anticipated expiration: 2043-08-29
Also published as: CN116828099B

Abstract

本申请涉及智能终端技术领域，公开了一种拍摄方法、介质和电子设备，可以实时按照用户输入的拍照意图分析图像帧，并自动拍照得到符合用户的实际拍照意图的照片，满足用户的个性化拍照需求。该方法应用于电子设备，方法包括：检测到用户的第一拍摄操作；采集多帧图像，并基于用户的拍摄意图指令，从多帧图像中选择出与拍摄意图指令对应的第一图像；存储第一图像作为第一拍摄操作对应的目标照片。

Description

一种拍摄方法、介质和电子设备

技术领域

本申请涉及智能终端技术领域，特别涉及一种拍摄方法、介质和电子设备。

背景技术

随着通信技术的不断进步，用户对手机、平板电脑等电子设备的操作便捷性的需求越来越高，如用户对电子设备拍摄照片的便捷性的要求越来越高。目前，用户在拍摄照片的过程中，可能想要抓拍一些精彩瞬间，如运动员奔跑时某个精彩瞬间。而电子设备打开相机应用时，用户通常需要手动对一些场景进行拍照，一旦错过时机就无法及时拍照而错过精彩瞬间。

发明内容

本申请实施例提供一种拍摄方法、介质和电子设备，可以实时按照用户输入的拍照意图分析图像帧，并自动拍照得到符合用户的实际拍照意图的照片，满足用户的个性化拍照需求。

第一方面，本申请实施例提供一种拍摄方法，应用于电子设备，方法包括：检测到用户的第一拍摄操作；采集多帧图像，并基于用户的拍摄意图指令，从多帧图像中选择出与拍摄意图指令对应的第一图像；存储第一图像作为第一拍摄操作对应的目标照片。

如此，本申请可以基于用户实时输入的拍摄意图指令识别出用户的拍照意图例如“鸟张开翅膀的照片”或者“自行车轮离开地面”，在拍照或者录像的过程中获取多个图像帧，并根据该拍照意图分析这些图像帧，识别出符合该拍照意图的图像帧并触发自动拍照，以获取符合用户实际拍照意图的照片，如鸟张开翅膀角度较大的照片或自行车的两个轮子均离开地面较远的照片。那么，对于拍摄场景发生的时间不确定性，由于本申请中电子设备是在拍照或录像过程中自动触发拍照的，避免了用户手动拍照的动作过慢而错过拍照时机。并且，由于本申请可以实时按照用户输入的拍照意图分析图像帧，使得自动拍照得到的照片符合用户实际的拍照意图，满足了用户的个性化拍照需求。

在一种可能的实现方式中，第一拍摄操作包括下列中的至少一种：用户触发电子设备采集多帧图像的操作（如对相机应用的拍摄预览界面中的拍摄控件的操作），用户触发电子设备接收拍摄意图指令的操作（如对拍摄预览界面中的语音输入控件、文本输入控件等意图输入控件的输入）。显然，相比于常规拍摄方法，本申请的拍摄预览界面中新增了用户输入拍摄意图指令的入口，支持用户根据需求实时输入或调整拍摄意图。

在一种可能的实现方式中，上述方法还包括：显示拍摄预览界面，拍摄预览界面中包括第一控件，其中第一控件用于用户触发电子设备接收拍摄意图指令的操作。例如，上述第一控件可以为拍摄预览界面中的语音输入控件、文本输入控件等意图输入控件。

在一种可能的实现方式中，拍摄意图指令包括下列中的至少一种：语音指令，文本指令。如此，有利于用户根据自身需求选择合适输入方式输入拍摄意图指令。

在一种可能的实现方式中，上述方法还包括：对应于拍摄意图指令为语音指令，获取拍摄意图指令的语音特征；基于第一语言模型对语音特征进行识别得到拍摄意图指令的意图特征，意图特征用于指示图像内容或动作。例如，第一语言模型可以先将语音转换成文本，再对文本进行语义理解（即意图识别），以识别出意图特征。

在一种可能的实现方式中，上述方法还包括：对应于拍摄意图指令为文本指令，获取拍摄意图指令的文本特征；基于第二语言模型对文本特征进行识别得到拍摄意图指令的意图特征，意图特征用于指示图像内容或动作（如微动作）。例如，第二语言模型可以对文本进行语义理解，以识别出意图特征。

在一种可能的实现方式中，上述基于用户的拍摄意图指令，从多帧图像中选择出与拍摄意图指令对应的第一图像，包括：确定多帧图像中第i帧图像与拍摄意图指令的意图特征之间的匹配度；从多帧图像中与意图特征的匹配度最高的前N个图像中选择出第一图像。例如，N为2，且电子设备中可以采用候选池对应的缓存单元实时缓存当前匹配度最高的前N个图像。

在一种可能的实现方式中，上述从多帧图像中与意图特征的匹配度最高的前N个图像中选择出第一图像，包括：将N个图像中匹配度最高的图像作为第一图像；或者向用户显示N个图像，并将N个图像中用户选中的图像作为第一图像。可以理解，用户选中的第一图像可以为N个图像匹配度最高或次高的图像，以支持用户根据实际需求选中拍照的图像。

在一种可能的实现方式中，上述向用户显示N个图像，并将N个图像中用户选中的图像作为第一图像，包括：响应于第一拍摄操作，显示拍摄界面，其中，拍摄界面中包括N个图像中每个图像的缩略图；将用户所选择的缩略图所对应的图像作为第一图像。例如，在拍摄界面中显示多个N个图像的缩略图时，用户可以点击某个图像的缩略图，以将该图像选中的第一图像。

在一种可能的实现方式中，上述拍摄界面中还包括取景框中显示的图像的匹配度的数值。如此，用户可以直观的查看到各个图像的匹配度，以快速保存匹配度较高的图像。

在一种可能的实现方式中，上述确定多帧图像中第i帧图像与拍摄意图指令的意图特征之间的匹配度，包括：对第i帧图像进行图像美学评价得到美学评价结果；对第i帧图像进行语义理解得到图像语义信息；对应于意图特征指示图像内容，基于美学评价结果和图像语义信息，确定第i帧图像与意图特征之间的匹配度。可以理解，美学评价结果的美学评价越高、图像语音信息与意图特征相同且分数越高，则当前图像与意图特征的匹配度越高。

在一些实施例中，对应于意图特征指示图像内容，上述基于美学评价结果和图像语义信息，确定第i帧图像与意图特征之间的匹配度，包括：获取用户个人数据，其中用户个人数据包括用户人脸匹配数据、用户日程、地理位置和用户偏好信息中的至少一项；对应于意图特征指示图像内容，基于第i帧图像的美学评价结果和图像语义信息以及用户个人数据，确定第i帧图像与意图特征之间的匹配度。例如，在图像语义信息与意图特征相同或相似时，美学评价结果的分数越高、图像语义信息的分数越高、用户个人数据与意图特征的相关性越高，则当前图像与意图特征的匹配度越高。

在一种可能的实现方式中，上述对应于意图特征指示图像内容，基于美学评价结果和图像语义信息，确定第i帧图像与意图特征之间的匹配度，包括：根据第i帧图像和第i+1帧图像，获取第i帧图像的光流；根据第i帧图像的光流确定第i帧图像的图像动作特征；获取用户个人数据，其中用户个人数据包括用户人脸匹配数据、用户日程、地理位置和用户偏好信息中的至少一项；对应于意图特征指示动作，基于第i帧图像的美学评价结果、图像语义信息、图像动作特征以及用户个人数据，确定第i帧图像与意图特征之间的匹配度。可以理解，图像的光流用于表示图像中物体的运动情况，以得到该物体如人体的图像动作特征。

第二方面，本申请实施例提供了一种可读介质，该可读介质上存储有指令，该指令在电子设备上执行时使电子设备执行如第一方面及其任一种可能的实现方式中的拍摄方法。

第三方面，本申请实施例提供了一种电子设备，包括：存储器，用于存储由电子设备的一个或多个处理器执行的指令，以及处理器，是电子设备的处理器之一，用于执行第一方面及其任一种可能的实现方式中的拍摄方法。

附图说明

图1根据本申请的一些实施例，示出了一种拍摄预览界面的示意图；

图2A根据本申请的一些实施例，示出了一种包含语音输入控件的拍摄预览界面的示意图；

图2B根据本申请的一些实施例，示出了一种包含文本输入控件的拍摄预览界面的示意图；

图2C根据本申请的一些实施例，示出了一种在拍摄预览界面中输入文本的场景示意图；

图2D根据本申请的一些实施例，示出了一种在拍摄预览界面中输入拍摄意图指令的场景示意图；

图2E根据本申请的一些实施例，示出了一种在拍摄预览界面中显示拍摄意图指令的文字的场景示意图；

图3A根据本申请的一些实施例，示出了一种个性化拍摄的拍照界面的示意图；

图3B根据本申请的一些实施例，示出了一种个性化拍摄的拍照界面的示意图；

图3C根据本申请的一些实施例，示出了一种个性化拍摄的录像界面的示意图；

图3D根据本申请的一些实施例，示出了一种个性化拍摄的录像界面的示意图；

图3E根据本申请的一些实施例，示出了一种个性化拍摄的拍摄界面的示意图；

图4A根据本申请的一些实施例，示出了一种相机应用开启场景的示意图；

图4B根据本申请的一些实施例，示出了一种相册应用的相册列表的示意图；

图4C根据本申请的一些实施例，示出了一种相册应用中个性拍摄照片列表的示意图；

图4D根据本申请的一些实施例，示出了一种相册应用中个性拍摄照片的示意图；

图4E根据本申请的一些实施例，示出了一种相册应用中个性拍摄短视频的示意图；

图5根据本申请的一些实施例，示出了一种手机的软件架构的示意图；

图6A根据本申请的一些实施例，示出了一种个性拍摄流程的架构示意图；

图6B根据本申请的一些实施例，示出了一种个性拍摄流程的架构示意图；

图6C根据本申请的一些实施例，示出了一种个性拍摄流程的架构示意图；

图6D根据本申请的一些实施例，示出了一种个性拍摄流程的架构示意图；

图7A根据本申请的一些实施例，示出一种拍摄方法的流程示意图；

图7B根据本申请的一些实施例，示出一种拍摄过程中图像与拍摄意图的匹配度的关系示意图；

图8根据本申请的一些实施例，示出一种拍摄方法的流程示意图；

图9根据本申请的一些实施例，示出一种拍摄方法的流程示意图；

图10根据本申请的一些实施例，示出一种拍摄方法的流程示意图；

图11根据本申请的一些实施例，示出了一种手机的结构示意图。

具体实施方式

本申请的说明性实施例包括但不限于一种拍摄方法、介质、程序产品及电子设备。

由背景技术可知，在用户看到期望的拍摄场景时，可以手动操作电子设备进行拍照。其中，拍摄场景的发生时间具有不确定性，且这些场景往往发生的很快，有的时候因为用户动作稍微慢一点儿就错过了，导致用户有时很难拍摄到自己预想的场景的照片，且用户往往为了对这些场景进行拍照会花费较长时间等待导致耗时较长。例如，这些场景可以包括天气现象、难以预知的运动动作等，例如喷泉喷发，烟花绽放，闪电，射门，鸟起飞，鸟张开翅膀，投篮，以及动物或小孩儿的某种特定姿势如运动员骑自行车的动作等。以喷泉喷发为例，如果用户想要对喷泉水柱最高的场景进行拍照，而由于实际场景变化较快，用户看到喷泉的水柱到达最高点时可能还未手动拍照水柱就已经下降，从而导致用户无法及时拍摄得到预期的照片。

在一些实施例中，一些相关技术方案可以对一些拍摄场景自动进行拍照操作。具体地，该方案通过预设一些条件，在视频录制过程中基于这些条件选择出自动拍照时快门时间附近的最高质量的一帧作为出图结果。例如，该方案对于喷泉喷发可以预设喷泉喷出水柱数量最多的场景为自动拍照的条件，那么在喷泉喷发时将自动对喷泉喷出水柱最多的场景进行拍照。即，该方案中预设的条件是用于指示对预定的拍摄场景进行拍照，是对已知的瞬间的拍照。而实际拍摄过程中，用户通常具有个性化的拍照需求，例如在喷泉喷发时用户需求对喷泉水柱最高的场景进行拍照，而相关技术方案中预设的条件仅能自动对喷泉喷出水柱最多的场景进行拍照，这与用户的需求是不符的。那么，由于相关技术的方案中预设的条件通常无法考虑到所有的拍摄场景，因此电子设备按照预设的条件自动拍照得到的照片可能不符合用户的个性化需求。

为了满足在各种拍摄场景下用户的个性化拍照需求，本申请在电子设备在打开相机应用但未开始拍摄之前可以实时接收用户输入的拍摄意图指令，基于该拍摄意图指令识别出用户的拍照意图例如“鸟张开翅膀的照片”或者“自行车轮离开地面”等。然后，电子设备开始拍摄之后可以在拍照或者录像的过程中获取多个图像帧，并根据该拍照意图分析这些图像帧，识别出符合该拍照意图的图像帧并触发自动拍照，以获取符合用户实际拍照意图的照片，如鸟张开翅膀角度较大的照片或自行车的两个轮子均离开地面较远的照片。那么，对于拍摄场景发生的时间不确定性，由于本申请中电子设备是在拍照或录像过程中自动触发拍照的，避免了用户手动拍照的动作过慢而错过拍照时机。并且，由于本申请可以实时按照用户输入的拍照意图分析图像帧，使得自动拍照得到的照片符合用户实际的拍照意图，满足了用户的个性化拍照需求。

可以理解，本申请实施例中，电子设备打开相机应用但未开始拍摄时显示的界面可以称为拍摄预览界面，而在拍摄过程中显示的界面可以称为拍摄界面例如拍照界面或录像界面。作为示例，本申请中电子设备可以在显示拍摄预览界面时接收用户输入的拍摄意图指令，并在显示拍摄预览界面时接收用户输入的触发电子设备开始拍摄的操作，进而在电子设备开始拍摄之后显示拍摄界面并执行实际的拍照或录像操作。

在一些实施例中，用户可以通过语音输入方式、文本输入方式等方式向电子设备输入用户的拍摄意图指令。并且，电子设备将基于语音识别技术、文本识别技术等从输入的拍摄意图指令中识别出用户的拍照意图，即识别出表示拍照意图的意图特征。

在一些实施例中，本申请中根据用户的拍照意图分析图像帧的过程可以包括：采用匹配算法将拍照意图与图像帧进行匹配，并对匹配度（或称匹配置信度）最高的图像帧进行拍照操作。

在一些实施例中，本申请中的匹配算法可以采用多模态算法实现，例如基于对比文本-图像对的预训练方法（contrastive language image pre-training，CLIP）、统一视觉语言理解和生成的自举法语言图像预训练（Bootstrapping Language-Image Pre-training for UnifiedVision-Language Understanding and Generation，BLIP）。

可以理解，本申请中的拍摄方法可以应用于拍照过程中，也可以应用于录像过程中，对此不做具体限定。其中，在拍照过程中，电子设备可以采集多个图像帧组成的预览图像序列，但是在拍摄结束后电子设备只保存符合用户的拍照意图的图像对应的照片，而不保存其他图像，也不会保存视频。而在录像过程中，电子设备可以采集多个图像帧得到预览图像序列，并且在拍摄结束后电子设备不仅保存符合用户的拍照意图的图像对应的照片，还会保存基于预览图像序列录制得到的视频。此时，拍摄过程中预览图像序列中的图像也称为图像帧或视频帧。即，预览图像序列是拍摄预览界面中实时采集并显示的多个图像帧。

在一些实施例中，本申请拍摄过程中触发拍照的图像可以称为精彩时刻（magicmoment，MM），即精彩画面瞬间。即，在拍照过程中或录像过程中符合用户的拍照意图的拍摄场景称为精彩时刻。例如，MM可以是最佳运动瞬间，最佳表情时刻或最佳打卡动作。可以理解，本申请对术语MM不作限定，MM也可以称作美好时刻，神奇时刻，精彩瞬间，决定性瞬间，或最佳拍摄（bestshot，BS）等。在不同的场景下，精彩时刻可以为不同类型的画面瞬间。例如在足球比赛场景下，精彩时刻可以是射门或传球时，运动员脚与足球接触的瞬间，精彩时刻也可以是足球飞进球门的瞬间；当在人物从地面起跳的场景下，精彩时刻可以是人物在空中最高点的瞬间，也可以是人物在空中时动作最舒展的瞬间。

在一些实施例中，本申请可以进行个性拍摄，其中，个性拍摄可以理解为用户使用相机应用拍摄时，获取用户输入的拍照意图之后，通过一次按下“拍摄”图标，可以得到包括一张或多张精彩时刻照片，此外还可以得到一段或多段精选视频的功能。个性拍摄的实现过程可以是：决策节点在拍摄过程中根据用户输入的拍摄意图指令的拍照意图自动识别精彩时刻并触发拍照，得到精彩时刻的照片；在拍摄结束后，用户打开图库时可以向用户推荐精彩时刻MM的照片或者精彩短视频（或称作精选短视频，或精彩视频，或精选视频）或者录制的完整视频。可以理解的是，通过个性拍摄获得的精彩短视频的时长小于整段完整视频的时长。例如，录制的整段完整视频为1分钟，可以得到一张或多张精彩时刻照片和时长为15秒或5秒的精彩短视频。作为示例，上述精彩短视频可以包括当前拍摄过程中的精彩时刻照片的短视频，如该精彩时刻照片为短视频中心位置的一帧图像。

其中上述提及的决策节点，用于对采集的预览图像序列中的图像帧进行分析，识别或决策精彩时刻，并在识别到精彩时刻时自动触发拍照。决策也称作精彩时刻节点，精彩帧决策引擎，MM决策引擎，BS决策引擎，MM决策模块等，这些术语具备如前所示的精彩时刻节点的功能。

在一些实施例中，本申请可以通过MM标签（TAG），也称为时间标签记录精彩时刻在采集的预览图像序列中的位置，即精彩时刻在录制的视频文件的各个视频帧中的位置。

在一些实施例中，在录像过程中或者在开启个性拍摄功能的拍照过程中，用户可同时进行手动拍照，获得期望拍摄的画面（即手动抓拍）。

在本申请的一些实施例中，电子设备可以是手机、智慧屏、平板电脑、可穿戴电子设备、车载电子设备、增强现实（augmented reality，AR）设备、虚拟现实（virtualreality，VR）设备、笔记本电脑、超级移动个人计算机（ultra-mobile personal computer，UMPC）、上网本、个人数字助理（personal digital assistant，PDA）、投影仪等等。

本申请将以电子设备为手机，手机中安装相机应用且具有麦克风为例，详细介绍本申请提供的拍摄方法。

在本申请的一些实施例中，用户可以手动开启或关闭本申请实施例提供的“个性拍摄”功能。例如，手机的设置应用中可以提供开启和关闭“个性拍摄”功能的控件，支持用户打开设置应用并手动操作该控件来开启或关闭该功能。又如，手机的相机应用的设置菜单中可以提供开启和关闭“个性拍摄”功能的控件，支持用户打开相机应用后打开该设置菜单并手动操作该控件来开启或关闭该功能。又如，手机的相机应用的拍摄预览界面上可以提供独立的开启和关闭“个性拍摄”功能的控件，以支持用户直接操作该控件来开启或关闭该功能。

可以理解，本申请中针对相机应用开启“个性拍摄”功能的情况下，手机可以采用相机应用执行本申请的拍摄方法，基于用户输入的拍摄意图指令中包含的拍照意图，从采集的预览图像序列中识别出符合该拍照意图的图像帧并自动触发拍照，以得到符合用户实际需求的照片。

在一些实施例中，本申请中手机的设置应用或者相机应用的设置菜单中可以提供“个性拍摄”功能相关的设置选项。例如，上述设置现象可以包括用于设置“个性拍摄”功能下精彩时刻照片的保存张数的设置选项1，“个性拍摄”功能下精彩时刻照片的分辨率的设置选项2，“个性拍摄”功能下是否保存精彩短视频的设置选项3，“个性拍摄”功能下选择用户输入指令的方式为语音方式或文字方式或使用时询问方式的设置选项4等。

在一些实施例中，在相机应用处于“拍照”的拍摄模式下，手机在进行个性拍摄后可以按照设置选项设置的张数保存精彩时刻照片，而不保存拍摄过程中的预览图像序列对应的视频文件以及精彩短视频。而在相机应用处于“录像”的拍摄模式下，手机在进行个性拍摄后可以按照设置选项预先设置的张数保存精彩时刻照片，保存拍摄过程中完整的视频，并按照设置选项预先设置选择是否保存精彩短视频。

在一些实施例中，本申请提供的电子设备可以提供语音助手应用，并基于语音助手进行个性拍摄。例如，用户可以在电子设备中唤醒语音助手，并输入语音形式的拍摄意图指令，使得语音助手响应于该拍摄意图指令触发电子设备打开相机应用，并在用户对相机应用的拍摄控件进行触发后，手机通过相机应用开始基于拍摄意图指令进行拍照或录像。又如，用户在电子设备中唤醒语音助手，并输入语音形式的拍摄意图指令之后，语音助手响应于该拍摄意图指令可以触发电子设备打开相机应用并自动基于拍摄意图指令进行拍照或录像。

下面基于电子设备的显示界面对本申请实施例提供的拍摄方法进行介绍。

参照图1所示，为本申请实施例提供的一种拍摄过程的图形用户界面（graphicaluser interface，GUI）的示意图。

如图1所示，用户打开相机应用并显示拍摄预览界面，且该拍摄预览界面中包括“相册”200，“个性拍摄”功能开关201，“设置”202，拍摄控件203，取景框204，以及“人像”，“拍照”，“录像”等拍摄模式选择控件等。其中“相册”200用于触发手机显示最近一次拍摄过程中拍摄得到的照片或视频。拍摄控件203用于触发手机开始拍摄操作例如拍照或录像。取景框204用于显示手机实时采集的拍摄预览图像。“个性摄像”功能开关201用于触发手机开启或关闭“个性拍摄”功能，且图1中的功能开关201表示“个性拍摄”功能处于关闭状态。虽然附图未示出，但是图1示出的“设置”202可以用于提供“个性拍摄”功能的开启或关闭控件以及“个性拍摄”功能相关的设置选项（例如上述设置选项1至3）。此外，图1中“人像”，“拍照”，“录像”等拍摄模式下均可以打开“个性拍摄”功能进行拍摄。并且，上述取景框204用于显示拍摄预览图像，即当前采集的图像帧。当然，用户再次点击操作“个性摄像”功能开关201可以触发手机关闭“个性拍摄”功能。

在一些实施例中，本申请手机打开“个性拍摄”功能时，相机应用的拍摄预览界面可以提供语音或文本的输入入口，以支持用户输入包含拍照意图的语音或文本。

可以理解，用户对图1所示的拍摄预览界面中的“个性拍摄”功能开关201进行点击操作后，“个性拍摄”功能开关201将处于开启状态。例如，用户对图1示出的“个性拍摄”功能开关201进行点击操作后，手机可以显示图2A或图2B示出的拍摄预览界面。其中，如图2A-图2B示出的拍摄预览界面中的“个性拍摄”功能开关201均表示“个性拍摄”功能处于开启状态。并且，图2A-图2B示出的拍摄预览界面中支持用户输入拍照意图的方式不同。

如图2A示出的拍摄预览界面中包括语音输入控件205，用户对语音输入控件205进行长按操作并输入语音，该语音中包含个性拍摄功能的拍照意图。例如，图2A所示用户输入的语音为“拍摄自行车轮离开地面的照片”。

如图2B所示的拍摄预览界面的取景框204上还显示有文本输入框206，用户对语音输入框206进行点击操作后，如图2C所示的拍摄预览界面中的取景框204上弹出显示键盘207。并且，如图2C所示用户可以通过键盘207在文本输入框206内输入文本“鸟张开翅膀”，并点击键盘207中的确定控件2071完成文本输入。

如图2D所示的拍摄预览界面的取景框204上还显示有输入控件208。用户点击操作输入控件208之后，如图2D所示的拍摄预览界面上可以弹出“语音输入”209和“文本输入”210两种输入方式的控件。那么，用户点击操作“语音输入”209之后可以输入语音例如语音“拍摄自行车轮离开地面的照片”，或者用户点击操作“文本输入”210之后可以通过弹出的键盘输入文本例如“自行车轮离开地面”，以支持用户按照自身需求的方式输入拍摄意图指令。

可以理解，在用户点击拍摄预览界面中的拍摄控件触发个性拍摄之前，如果用户的拍照意图发生变化，则可以采用图2A至2D中提供的方式重新输入包含新的拍摄意图的拍摄意图指令。

在一些实施例中，本申请在用户输入拍摄意图指令之后，手机的拍摄预览界面中可以显示该拍摄意图指令对应的文本（记为指令文本）或者该拍摄意图指令被识别出的拍照意图的文本（记为意图文本）。

例如，手机在开始拍摄之前或者拍摄过程中，可以在取景框204上叠加显示指令文本或者意图文本。当然，用户还可以触发手机移动指令文本或者意图文本的显示位置或者取消显示指令文本或者意图文本。例如，在图2A或图2D示出的支持语音输入方式的拍摄预览界面的基础上，如图2E所示的拍摄预览界面上还包括悬浮叠加显示的意图文本例如“自行车轮离开地面”。虽然附图未示出，但是用户可以拖动图2E示出的意图文本“自行车轮离开地面”以移动其显示位置，或者用户可以将图2E示出的意图文本“自行车轮离开地面”拖动到拍摄预览界面的预设位置例如该拍摄预览界面顶端的位置以触发取消显示该文本。此外，在图2B或图2C示出的支持文本输入方式的拍摄预览界面的基础上，上述指令文本可以显示在输入框中。

在其他一些实施例中，本申请中相机应用的拍摄预览界面中不显示如图1至图2E示出的“个性拍摄”功能开关201，手机可以默认开启“个性拍摄”功能。此时，用户通过图2A示出的语音输入控件205，图2B示出的文本输入框206，图2D示出的意图输入控件208输入包含拍照意图的语音或文本对应的拍摄意图指令。当然，如果用户不输入拍摄意图指令的语音/文本，而是直接点击拍摄预览界面中的拍摄控件203，则手机通过相机应用正常拍照或录像。

在一些实施例中，本申请中用户点击图2A示出的语音输入控件205之后，手机可以通过相机应用调用语音助手接收用户的拍摄意图指令对应的语音，以及将该语音转换为文字，从而支持后续手机基于该语音或该文字识别出拍摄意图指令的拍照意图。

以上图1至图2E的示例均以相机应用处于拍照模式下输入用户的拍摄意图指令，此时手机可以在用户的触发下开始执行拍摄流程，如点击拍摄预览界面中的拍摄控件203触发手机开始执行拍摄操作。可以理解，手机先接收用户输入的拍摄意图指令，再点击拍摄控件203，即这两个操作之间的时间差值通常较小。此外，在用户关闭“个性拍摄”功能例如再次点击图2B至图2E示出的“个性拍摄”功能开关201时，或者用户退出相机应用时，可以删除当前保存的拍照意图，并等待用户重新在相机应用中输入拍摄意图指令。

例如，用户在图2A示出的拍摄预览界面中输入包含拍摄意图指令的语音之后，在选中拍照模式的情况下可以点击该界面中的拍摄控件203，并显示如图3A所示的拍摄界面，该拍摄界面为个性拍摄功能下的拍照界面。其中，图3A示出的拍照界面中包括拍摄控件203，手动抓拍控件301，匹配度最高的N（如N为2）张缩略图302，匹配度显示控件205’，显示拍摄预览图像的取景框303。其中，用户对图3A示出的拍摄控件203的操作可以触发手机结束拍照，并自动保存匹配度最高的N个图像帧的缩略图（如缩略图1和缩略图2，N为2），或者保存用户选择的图像帧。缩略图302中的N个缩略图为匹配度最高的N个图像帧的缩略图，可以支持用户点击打开查看以及选择是否保存。匹配度显示控件205’用于显示取景框303显示的拍摄预览图像与用户的拍照意图的匹配度，即该图像的图像特征与相应的意图特征的匹配度。可以理解，匹配度显示控件205’复用图2A示出的语音输入控件205。

类似的，在图2C示出的拍摄预览界面中输入拍摄意图指令的文本之后，在选中拍照模式的情况下可以点击该界面中的拍摄控件203，可以显示如图3B所示的拍摄界面并开始拍照，该拍摄界面为个性拍摄功能下的拍照界面。其中，图3B与图3A示出的拍照界面类似，不同之处在于，图3B示出的拍照界面中拍摄预览图像与用户的拍照意图的匹配度是通过匹配度显示控件206’显示的，且该匹配度显示控件206’复用图2C示出的文本输入控件206。

在其他一些实施例中，本申请还可以在录像模式下，基于用户输入的拍摄意图指令的语音或文本自动触发拍照，以获得符合用户的拍照意图的精彩时刻照片以及完整视频等。

例如，用户在图2A示出的拍摄预览界面中输入包含拍照意图的语音之后，可以选中录像模式并显示如图3C所示的拍摄预览画面。进而，在图3C中的拍摄预览界面中点击拍摄控件203，可以显示如图3D示出的拍摄界面并开始录像，该拍摄界面为个性拍摄功能下的录像界面。其中，图3D示出的录像界面中包括手动抓拍控件301，暂停控件304，结束控件305，缩略图302，匹配度显示控件205’，取景框303。其中，用户对图3D示出的暂停控件304的操作可以触发手机暂停录像。用户对结束控件305的操作可以触发手机保存视频，并自动保存匹配度最高的N个图像帧的缩略图（如缩略图1和缩略图2），或者保存用户选择的图像帧。缩略图302和匹配度显示控件205’可以参照图3A示中的描述，此处不做赘述。

类似的，在开启个性摄像的录像模式下，手机的拍摄界面也可以通过复用图2C示出的文本输入控件206显示取景框中的拍摄预览图像与用户的拍照意图的匹配度。

基于图3A示出的拍照界面，如图3E所示拍照界面中的取景框303中显示有图像M3，并且缩略图302中包括图像M2的缩略图和图像M1的缩略图，匹配度显示控件205’中显示的匹配度为45。此时，图像M3中的图像特征与意图特征“自行车轮离开地面”之间的匹配度为45。此外，图3A示出的缩略图显示在拍照界面的右下方，且图像M1的缩略图和图像M2的缩略图是按照图像采集时间的先后顺序排列的，M1是在M2之前采集到的。可以理解，本申请的拍照界面中的缩略图的显示顺序和显示位置包括但不限于图3E中的示例，此处不做限定。

此外，如图3E所示的拍摄界面中显示的图像的缩略图上还可以显示确认控件，以支持用户选择该图像进行出图，即进行拍照操作。具体地，图3E示出的图像M1上显示有确认控件3021用于支持用户选择图像M1进行出图，图像M2上显示有确认控件3022用于支持用户选择图像M2进行出图。

可以理解，本申请实施例中用户对手机显示的各个控件的操作，包括但不限于上述点击操作、长按操作等，还可以是手势操作、多击操作等，本申请对此不做具体限定。

基于以上各种实现方式，可以开启手机的“个性拍摄”功能并在“个性拍摄”功能下进行拍摄。手机在基于“个性拍摄”在拍照模式下拍摄得到的文件可以在图库中查看。以下结合图4A至图4C进行描述。

如图4A所示，示出了手机的桌面主界面，包括相机应用401的图标和图库应用（即图库）402的。用户对图4A示出的图库应用的图标402的点击操作之后，如图4B所示，手机可以显示的图库主界面，该主界面中包括“相机”相册、“所有照片”相册、“视频”相册和“个性拍摄”相册。其中，“相机”相册保存的是手机在拍照模式下拍摄的照片，即“相机”相册的预览界面按照时间倒序显示照片的缩略图，该预览界面中的第一个缩略图即为最新拍摄的照片的缩略图。“视频”相册默认保存的是手机在视频拍摄模式下拍摄的视频，即“视频”相册的预览界面按照时间倒序显示视频的缩略图，该预览界面中的第一个缩略图即为最新拍摄的视频的缩略图。“所有照片”相册保存的是手机10已经拍摄的所有视频和照片，即“所有照片”相册的预览界面按照时间倒序显示视频或以及自动触发拍照或手动触发拍照的照片的缩略图，该预览界面中的第一个缩略图即为最新拍摄的视频或照片以及抓拍的照片的缩略图。“个性拍摄”相册保存的是手机已经基于用户输入的拍摄意图指令拍照得到的照片以及精彩短视频，即“个性拍摄”相册的预览界面按照时间倒序显示的照片或精彩短视频的缩略图，该预览界面中的第一个缩略图即为最新拍照的照片的缩略图。

作为一种示例，用户对图4B示出的“个性拍摄”相册进行点击操作，手机可以显示如图4C示出的“个性拍摄”相册的预览界面，该预览界面中包括照片A1的缩略图，时长为5秒的精彩短视频A2的缩略图，以及照片A3-A5的缩略图等。其中，照片A1可以为对上文中的图像M2拍照得到的照片，即该照片为符合用户的拍照意图“自行车轮离开地面”的精彩时刻照片。精彩短视频A2中可以包括上文中的图像M1和M2等，例如该视频的中心位置的图像为图像M2，即该视频为符合用户的拍照意图“自行车轮离开地面”的精彩时刻照片。照片A3-A5可以为符合用户的其他拍照意图的照片。进一步的，在用户点击操作图4C示出的照片A1缩略图之后，手机可以显示如图4D示出的照片A1的预览界面，该预览界面中还包括“分享”、“删除”、“编辑”以及“更多”等控件，那么用户对这些控件的操作可以触发手机对照片A1执行相应的操作例如分享或删除等。此外，用户点击操作图4C示出的精彩短视频A2缩略图之后，手机可以显示如图4E所示的精彩短视频A2的预览界面，该预览界面中还包括“分享”、“删除”、“编辑”、“保存”以及“更多”等控件，那么用户对这些控件的操作可以触发手机对精彩短视频A2执行相应的操作，如分享或删除等。

此外，手机在停止拍摄操作并保存符合用户拍照意图的精彩时刻照片时，可以重新显示包括“相册”200的拍摄预览界面。那么，用户点击操作当前拍摄预览界面中的“相册”200，可以触发手机显示最近拍摄的照片A1的预览界面，或者触发手机显示图4C示出的“个性拍摄”相册的预览界面。并且，手机结束拍摄后的预览拍摄界面中的“相册”200中可以显示最近拍照得到的照片的缩略图，如上述照片A1的缩略图。

作为一种示例，假设上述照片A1是在录像模式下自动拍摄得到的，则在用户点击图4D示出的更多控件之后，手机可以在照片A1的预览界面上显示链接包含照片A1的完整视频的原视频控件。用户点击操作原视频控件之后，手机可以显示相应的完整视频的播放界面。即，用户可以通过自动生成的照片的预览界面跳转至相关的视频的播放界面，方便用户查看相关联的视频和自动生成的照片。

可以理解的是，本申请实施例对精彩时刻照片的数量也不做限制，精彩时刻的照片可以是1张或多张，具体的，通常符合用户的拍照意图的精彩时刻照片可以是1张或2张。

需要说明的是，在录像模式下执行个性拍摄时，个性拍摄相册中保存的精彩短视频可以是虚拟视频。虚拟视频是指没有实际生成视频文件的数据文件，比如，虚拟视频可以是可扩展标记语言（extensible markup language，XML）播放逻辑。并且，虚拟视频在个性拍摄相册中也会有对应的视频缩略图。由于虚拟视频并非是实际生成的视频文件，所以虚拟视频占用的内存空间小于实际生成的视频文件。比如说，实际生成的视频文件占用5M，虚拟视频占用30k。另外，如果用户触发了保存精彩短视频的动作，那么实际生成的精彩短视频文件也会保存在该个性拍摄相册中。

作为一种示例，在手机显示图4E所示的精彩短视频A2的预览界面时，用户点击操作图4E中的“保存”控件可以触发手机实际保存该精彩短视频的视频文件。此外，作为一种示例，假设上述精彩短视频A2是在录像模式下自动拍摄得到的，那么，图4E示出的预览界面中还包括“原视频”控件，用户对该“原视频”控件的点击操作可以触发手机显示对应的完整视频的预览界面。即，用户可以通过精彩短视频的预览界面跳转至相关的视频的播放界面，方便用户查看相关联的视频和自动生成的精彩短视频。

作为另一种可选的实施方式，在录制结束后，也可以基于MM标签直接生成精彩短视频进行存储。另外，基于此实施方式生成的精彩短视频，在用户删除录制的原始视频时，也可以向用户提示是否删除原始视频对应的个性拍摄的精彩时刻照片或精彩短视频。

以下实施例中，本申请主要以在录像模式下采用个性拍摄功能进行拍摄，以获取符合用户的拍照意图的精彩时刻照片和视频等。

图5是本申请实施例的电子设备100的软件结构示意图。分层架构将软件分成若干个层，每一层都有清晰的角色和分工。层与层之间通过软件接口通信。在一些实施例中，将Android系统可以分为五层，从上至下分别为应用程序（application，APP）层、应用程序框架层（简称为FWK）、系统库、硬件抽象层（hardware abstraction layer，HAL）以及驱动层。

应用程序层可以包括一系列应用程序包。例如，如图5所示，应用程序层包括相机应用、图库应用以及音频框架。其中，相机应用支持录像模式或拍照模式等。

应用程序层可以分为应用界面（UI）和应用逻辑。相机的应用界面可以包括录像模式、拍照模式等。

应用逻辑包括以下模块：捕获流（CaptureFlow），视频标签（Video TAG），精彩时刻MM，捕获照片回调函数（OnPictureTaken），手动抓拍（joint photographic expertsgroup，JPEG），个性拍摄JPEG等。即拍照得到的图像为JPEG。音频程序用于获取用户输入拍摄意图指令的语音。

CaptureFlow支持用户手动触发的拍照操作。

Video TAG用于保存框架层发送的精彩时刻MM标签的时间信息，以及精彩时刻的语义信息（包括LV0-LV3）的描述。精彩时刻语义信息的描述包括但不限于：精彩时刻的类型（比如，精彩时刻的类型是笑容、跳跃、回眸、进球瞬间等等），以及，精彩时刻的评分等。可以理解，精彩时刻的语义信息用于表征对应图像的图像特征的含义。

OnPictureTaken是一种回调函数，用于回调图像数据。在图8中，应用逻辑层中的OnPictureTaken可用于回调手动抓拍的图像数据。应用逻辑层中的手动抓拍JPEG用于基于OnPictureTaken回调的手动拍照的图像数据，生成手动拍照的图像。

精彩时刻MM用于保存个性拍摄JPEG队列数据。作为一种可能的实现方式，该个性拍摄JPEG队列数据可以传输至个性拍摄JPEG模块，以便通过个性拍摄JPEG模块生成个性拍摄JPEG。

可以理解，应用程序层也可以包括其他应用程序，比如，日历、通话、地图、导航、WLAN、蓝牙、音乐、视频、短信息、浏览器、微信、支付宝、淘宝、输入法等应用程序。

应用程序框架层为应用程序层的应用程序提供应用程序编程接口（applicationprogramming interface，API）和编程框架。应用程序框架层可以包括一些预定义的函数。

如图5所示，应用程序框架层可以包括相机框架（或者说相机应用对应的接口）和私有拍照通路。私有拍照通路用于将图像的数据传输至应用程序层的相应模块。一种实现方式，个性拍摄JPEG队列通过私有拍照通路传输至应用程序层的精彩时刻MM模块，在图库应用中呈现精彩时刻MM的照片，比如，图4D所示的照片A1。一种实现方式，手动拍照的图像的数据通过私有拍照通路传输至应用程序层的OnPictureTaken模块。

可以理解，应用程序框架层还可以包括其他内容，比如，窗口管理器、内容提供器、视图系统、电话管理器、资源管理器和通知管理器等。

窗口管理器用于管理窗口程序。窗口管理器可以获取显示屏大小，判断是否有状态栏、锁定屏幕和截取屏幕等。

内容提供器用来存放和获取数据，并使这些数据可以被应用程序访问。所述数据可以包括视频、图像、音频、拨打和接听的电话、浏览历史和书签、以及电话簿。

视图系统包括可视控件，例如显示文字的控件和显示图片的控件。视图系统可用于构建应用程序。显示界面可以由一个或多个视图组成，例如，包括短信通知图标的显示界面，可以包括显示文字的视图以及显示图片的视图。应用程序层和应用程序框架层运行在虚拟机中。虚拟机将应用程序层和应用程序框架层的java文件执行为二进制文件。虚拟机用于执行对象生命周期的管理、堆栈管理、线程管理、安全和异常的管理、以及垃圾回收等功能。

如图5所示，系统库可以包括相机服务功能。

系统库还可以包括多个功能模块（图5中未示出），例如：表面管理器（surfacemanager），媒体库（Media Libraries），三维图形处理库（例如：针对嵌入式系统的开放图形库（open graphics library for embedded systems，OpenGL ES）和2D图形引擎（例如：skia图形库（skia graphics library，SGL））。

表面管理器用于对显示子系统进行管理，并且为多个应用程序提供了2D图层和3D图层的融合。

媒体库支持多种音频格式的回放和录制、多种视频格式回放和录制以及静态图像文件。媒体库可以支持多种音视频编码格式，例如:MPEG4、H.264、动态图像专家组音频层面3（moving picture experts group audio layer III，MP3）、高级音频编码（advancedaudiocoding，AAC）、自适应多码率（adaptive multi-rate，AMR）、联合图像专家组（jointphotographic experts group，JPG）和便携式网络图形（portable networkgraphics，PNG）。

三维图形处理库可以用于实现三维图形绘图、图像渲染、合成和图层处理。

二维图形引擎是2D绘图的绘图引擎。

硬件抽象层（HAL）是位于操作系统内核与硬件电路之间的接口层,其目的在于将硬件抽象化。它隐藏了特定平台的硬件接口细节，为操作系统提供虚拟硬件平台，使其具有硬件无关性，可在多种平台上进行移植。

如图5所示，硬件抽象层包括视频管道模式组件（video pipeline）、决策节点、照片管道模式组件（photo pipeline）、MM标签、个性拍摄JPEG队列以及视频编码MP4。其中，照片管道模式组件中包括原始（RAW）队列、RAW域拍照算法、拜耳处理阶段（Bayer processingsegment，BPS）模块、图像处理引擎（Image processing engine，IPE）模块、风格化模块以及JPEG编码器（encoder，Enc）。

驱动层是硬件和软件之间的层。如图5所示，驱动层可以包括显示驱动、摄像头驱动等驱动模块。其中，摄像头驱动是相机（camera）器件的驱动层，主要负责和硬件的交互。

以相机应用为例，应用程序层中的相机应用可以以图标的方式显示在电子设备的屏幕上。当相机应用的图标被触发时，电子设备运行相机应用。相机应用运行在电子设备上，电子设备可以根据用户的操作，向驱动层发送相应的触摸事件。当触摸屏接收到触摸事件，启动相机应用，通过调用驱动层的摄像头驱动启动摄像头。

下面对本申请实施例提供的录像方法所涉及的软件模块和软件模块间的交互进行说明。如图5所示，应用程序中的相机应用接收用户触发的语音输入请求。应用程序中的音频程序可以与框架层中的音频框架交互，将语音输入请求输入至音频框架。音频框架可以经过系统库、硬件抽象层启动音频驱动来驱动音频硬件（如麦克风）采集用户输入的语音。用户输入的语音经过硬件抽象层、系统库、硬件框架层返回给音频程序。此外，如图5所示应用程序层中的相机应用接收到用户触发的录像请求。应用程序层中的相机应用可以与框架层中的相机框架交互，将录像请求发送至相机框架。相机框架将录像请求发送至系统库中的相机服务。系统库中的相机服务将录像请求发送至硬件抽象层的视频管道模式组件。硬件抽象层的视频管道模式组件将录像的视频流数据发送至决策节点。

决策节点基于从音频程序获取的录音从录制的视频流中确定精彩时刻MM，并在确定出精彩时刻MM时调用摄像头驱动进行拍照，同时将拍照数据送入照片管道模式组件处理。决策节点还可以将精彩时刻MM的时间信息（或者说MM在视频中所处的时间位置）以及精彩时刻的类型或者说是精彩时刻的语义层面的描述（比如，精彩时刻MM为回眸、笑容、跳跃等信息）输送至MM标签模块。MM标签模块，可以以精彩时刻的标签作为元数据（meta）并以clip为单位，将精彩时刻MM的时间信息以及精彩时刻的类型实时上报给video pipeline。精彩时刻MM的时间信息以及精彩时刻的类型通过video pipeline传输至系统库的相机服务。进一步地，相机服务将精彩时刻MM的时间信息以及精彩时刻的类型传递至框架层的相机框架，并通过相机框架发送至应用程序层的Video Tag模块。在决策节点识别到精彩时刻MM触发自动拍照时，照片管道模式组件可以将精彩时刻MM的照片数据进行处理，输出个性拍摄JPEG队列（即精彩时刻MM照片的JPEG数据）。具体地，照片管道模式组件中的RAW队列用于将RAW数据送入RAW域拍照算法处理。RAW域拍照算法输出的数据送入BPS模块。BPS模块用于将RAW数据转换为拜耳数据。经过BPS模块处理后得到的拜耳数据进入IPE模块。IPE模块用于对拜耳数据进行进一步处理，以提升成像的清晰度、纹理细节、影调色彩、锐化等。经过IPE模块处理后的数据送入风格化模块。风格化模块用于对图像进行渲染（比如将图像渲染为有艺术风格的画作）。经过风格化模块处理后的图像数据送入JPEG编码器。JPEG编码器用于将从风格化模块获得的图像数据进行处理，得到JPEG数据。硬件抽象层的个性拍摄JPEG队列可通过私有拍照通路将JPEG数据回调至应用程序层的精彩时刻MM模块。应用程序层的精彩时刻MM模块可以将个性拍摄JPEG队列传递至应用程序层的个性拍摄JPEG模块。应用程序层的精彩时刻MM模块还可以向私有拍照通路注册MM。个性拍摄JPEG模块可以基于JPEG数据生成JPEG，即精彩时刻MM的照片。另外，硬件抽象层中的视频管道模式组件可以将录制的视频数据传递至MP4模块。MP4模块用于输出录制的原视频。录制的原视频可通过录像请求中的录像标识与应用程序层中的个性拍摄JPEG建立关联关系。

示例性地，应用程序层中的图库应用接收用户触发的查看操作，该查看操作用于查看个性拍摄的JPEG图像。图库应用通过调用显示驱动将个性拍摄的JPEG图像显示在显示屏上。比如，用户点击操作图4C中的照片A1，查看精彩时刻的照片（或者说个性拍摄的JPEG图像）。

可选地，在录像过程中同时支持手动抓拍功能。图8中的架构提供了手动抓拍功能的相关结构。

示例性地，在录像模式下，应用程序层中的CaptureFlow向框架层中的相机框架下发用户触发的手动抓拍请求。框架层将手动抓拍请求通过系统库中的相机服务下发至硬件抽象层的视频管道模式组件。视频管道模式组件将该手动抓拍请求发送至手动抓拍选帧模块。手动抓拍选帧模块调用摄像头驱动进行拍照，并将拍照数据送入照片管道模式组件进行处理。照片管道模式组件中包含的各个模块的处理参考上文描述，这里不作赘述。照片管道模式组件输出手动抓拍的图像数据。手动抓拍的图像数据可通过私有拍照通路反馈至应用程序层的OnPictureTaken模块。应用程序层的OnPictureTaken模块可以基于手动抓拍的图像数据，确定手动抓拍的是哪些帧，然后基于这些帧可得到手动抓拍JPEG图像。

示例性地，应用程序层中的图库接收到用户触发的查看手动抓拍图像的操作，图库应用也通过调用显示驱动将手动抓拍JPEG图像显示在显示屏上。

应理解，图5中所示的架构并不对本申请实施例构成限定。还应理解，本申请实施例中所涉及的技术方案可以在具有图5所示的软件架构的电子设备100中实现。

此外，应理解的是图5示出的应用程序以及音频框架等可以替换为输入法程序和输入框架，相应的用户输入的语音可以替换为文字。此时，用户输入的语音可以输入到决策节点，使得决策节点可基于用户输入的文字从录制的视频流中确定精彩时刻MM。

接下来，对图5示出的决策节点的功能和结构进行介绍。

在一些实施中，决策节点可以包括意图编码器和图像编码器。参照图6A所示，为本申请实施例提供的一种拍摄过程的数据处理流程示意图。图6A中用户输入的个性摄像的语音/文本可以经过意图特征编码器识别出意图特征以得到用户的拍照意图，并且电子设备实时采集的图像帧表示的图像经过图像编码器识别出图像特征，进而意图特征和图像特征经过匹配算法确定出匹配度。

在一些实施例中，本申请可以通过一个缓存单元（buffer）存储实时采集的预览图像序列以向决策节点提供图像，该buffer可以记为序列缓存器。并且，本申请中可以通过另一个缓存单元（buffer）存储决策节点识别出匹配度最高的N个（如N为2）的图像，该buffer可以记为RAW图记录器。例如，上述图像序列缓存器和RAW图记录器可以由电子设备中的存储器实现。那么，本申请中手机可以通过决策节点中的意图编码器和图像编码器与存储器中的图像序列缓存器和RAW图记录器交互，实现拍摄方法的数据处理流程。

参照图6B所示，为本申请提供的一种拍摄过程的数据处理流程示意图。用户输入的个性摄像的语音/文本可以经过意图特征编码器识别出意图特征以得到用户的拍照意图。并且在拍照模式或录像模式下手机可以实时采集多个图像帧组成的预览图像序列并存储在序列缓存器中。那么，手机可以按照意图特征逐帧对预览图像序列中的图像依次进行处理。即对于预览图像序列中的一个图像，可以经过图像编码器识别出图像特征，再将该图像特征和意图特征经过匹配算法计算出匹配度。进而，将当前图像与RAW图记录器中存储的图像的匹配度进行比较，将匹配度最高（即最高分数）的图像存储到RAW图记录器中。例如，RAW图记录器中可以存储2个图像。然后，手机可以通过判断用户是否触发结束拍摄来判断匹配算法是否结束，如果算法结束则将RAW图记录器中分数最高的1或2张经过图像信号处理器（image signal processor，ISP）处理后进行出图以得到精彩时刻照片。此外，如果算法未结束，则对预览图像序列中的下一个时刻即下一帧图像进行图像识别以及匹配算法等处理步骤，直至用户触发手机结束拍摄为止。

在一些实施例中，本申请中的意图编码器可以包括基于语言模型的指令分类、语义特征编码器、文字特征编码器。并且，图像编码器可以包括图像美学判断器、图像内容理解编码器、光流提取器、图像与光流编码器。此外，上述匹配算法可以通过图像与指令匹配器实现。

参照图6C所示，为本申请提供的一种拍摄过程的数据处理流程示意图。图6C示出的流程包括：用户语音输入经过语音特征编码器识别出语音特征，或者用户文字输入经过文字特征编码器识别出文本特征，即用户的拍摄意图指令的语音或文本的特征。语音特征或文本特征经过基于语言模型的指令分类，确定图像内容指令和微动作指令。并且，预览图像序列中的一张图像可以经过图像美学判断器识别出美学评价结果，经过图像内容理解编码器识别出语音信息，经过光流提取器和图像与光流编码器识别出动作特征。进而，拍摄指令、微动作指令、当前图像的美学评价结果、语义信息或动作特征以及用户个人数据，并输出当前图像与用户的拍照意图的匹配度。如果当前图像的匹配度与RAW图记录器中的图像的匹配度相比最高，则删除RAW图记录器中匹配度较低的图像将当前图像存储至RAW图记录器中。进而，对预览图像序列中的下一张图像相同操作以识别出匹配度。直至用户触发手机停止拍摄或预览图像序列中的图像均被遍历结束，并将RAW图记录器中匹配度最高的图像输出到ISP进行出图。

语音特征编码器的输入可以为用户的拍摄意图指令的语音，进而语音特征编码器可以将语音转换成文字并输出文字。此外，语音特征编码器不仅可以将可以转换成文字，再识别出该文字中的实际指令文字，如从语音的文字“拍摄自行车轮离开地面的照片”中识别出指令文字“自行车轮离开地面”并作为输出。

文字特征编码器的输入可以为用户的拍摄意图指令的文字，进而文字特征编码器可以识别出该文字中的实际指令文字，如从文字“自行车轮离开地面的照片”中识别出指令文字“自行车轮离开地面”并作为输出。

基于语言模型的指令分类的输入可以为语音特征编码器或文字特征编码器输出的文字，输出可以为图像内容指令或微动作指令，例如图像内容指为自行车轮子离开地面，微动作指令为射门。

可以理解，本申请基于语言模型可以区分用于指令的目的，即判断用户拍意图，如场景中涵盖什么具体内容或者针对动作的要求。

在一些实施中，基于语言模型的指令分类可以根据预定的训练数据集，通过学习文本的特征来判断新的文本属于哪个类别。通常使用监督学习的方法，即通过已经标注好的训练数据进行模型的训练和预测。

图像美学编码器可以用于对进行图像美学评价，可以通过建立端到端的深度卷积网络模型来自动提取特征进行美学质量评价。此外，图像美学质量评价可以与图像语义联系起来，即图像美学评价的结果受图像语义的影响。具体地，图像美学编码器的输入可以预览图像序列中的一个图像，输出为该图像的美学评分。

图像内容理解编码器器用于对图像进行图像理解（image understanding，IU），即语义理解。例如，图像理解编码器可以基于深度学习算法，多维度识别图片中的内容，如图像中人物行为、属性、所处场景、图像中的物体等，以标签形式返回识别后的结果。

光流（Optical flow）用来描述相对于观察者的运动所造成的观测目标、表面或边缘的运动，可用于运动检测等。例如，光流特征中包含了一个视频当中运动相关的信息，在视频动作定位当中可使用光流特进行判断。具体地，光流提取器可以逐帧提取预览图像序列中的光流。假设相邻两帧图像中的像素之间存在连续性，可以使用局部连读变化来计算像素之间的运动。

图像与光流编码器用于基于光流提取器提取的连续两张图像的光流，确定当前图像中的运动信息例如人物的动作，如射门、上楼梯等。

具体的，图6C中图像与指令匹配器的输入包括三类数据，第一类为用户输入的拍摄意图指令对应的拍摄内容指令或微动作指令等意图特征（也称为指令特征），第二类为当前图像的美学评价结果以及图像语义信息或动作特征等图像特征，第三类可以为用户个人数据，输出就是该图像与该拍摄意图指令的匹配度。

此外，图6C中的用户个人数据可以包括但不限于：用户人脸匹配数据、用户日程、地理位置和用户偏好等信息。作为示例，用户日程和地理位置可以反映用户所在的场景例如家场景或公司场景，或者用户所在地点例如旅游景点或地铁站等。用户偏好信息可以反映用户喜欢的拍照场景，如用户喜欢拍摄人物，或者用户喜欢拍摄动物，或者用户喜欢拍摄景物等。

可以理解，图像与指令匹配器就是用于计算图像与用户的指令之间的匹配程度，输出匹配度（也称为置信度）。其输入包括指令特征（语音/文字）所表示的拍照意图、图像特征和用户个人数据。其中，图像特征包括但不限于来自多项独立的特征编码器，图像特征的选取用户个人数据选择可以针对场景与用户指令来判断，本申请对此不做限定。

需要说明的是，本申请中的图像内容理解编码器所在分支与光流提取器所在分支可以为并列的分支，手机可以基于用户输入的拍摄意图指令的不同选择不同分支。如果用户输入拍摄意图指令要求拍摄内容，则开启图像内容理解编码器，以提取图像中的人体物体检测信息，人物姿态信息，场景识别信息等。如果用户的拍摄意图指令要求拍摄具体动作，则开启光流提取器对应的分支。具体地，光流提取器获取当前帧与前一帧之间的光流，再通过图像与光流编码器获取动作特征。

参照图6D所示，为本申请实施例提供的拍摄过程的数据处理流程示意图。图6D示出的流程与图6C示出的流程的区别在于，基于语言模型的指令分类仅识别出了图像内容指令，相应的不包含光流提取器所在的分支，但是包含图像内容理解编码器所在的分支。此时，基于语言模型的指令分类识别出了拍摄意图指令为图像内容指令。然后，预览图像序列中的图像可以经过图像美学判断器识别出美学评分结果并经过图像内容理解编码器识别出图像语义信息。进而，图像与指令匹配器可以根据美学评分结果、图像语义信息、用户个人数据和图像内容指令，确定出当前图像与图像内容指令的匹配度。

在一些实施例中，图像与指令匹配器计算图像与图像内容指令的匹配度的过程取决于以下因素：在图像语义信息与图像内容指令相同时图像语义信息的分数越高匹配度越高，在图像语义信息与图像内容指令相同时图像美学评价结果的数值越大匹配度越大，在图像语义特征与用户个人数据的相关性的数值越高匹配度越高。可选的，不同因素可以设置不同权重，进而对这些因素下的分数可以进行加权计算得到最终的匹配度数值。

在一些实施例中，图像与指令匹配器计算图像与微动作指令的匹配度的过程取决于以下因素：在图像语义信息与微动作指令相同时图像语义信息的分数越高匹配度越高，在图像语义信息与微动作指令相同时图像美学评价结果的数值越大匹配度越大，微动作指令与图像动作特征相同时动作特征的分数越高匹配度越高，在图像语义特征与用户个人数据的相关性越强匹配度越高。可选的，不同因素可以设置不同权重，进而对这些因素下的分数可以进行加权计算得到最终的匹配度数值。

可以理解，相机拍摄过程中通常支持延迟拍摄模式和非延迟拍摄模式。其中，延迟拍摄模式是指用户触发相机拍摄之后，手机延迟一段时间再开始采集图像帧并拍摄。例如，在延迟拍摄模式下用户点击拍摄预览界面中的拍摄控件之后，手机可以倒计时5至10秒再开始采集图像并进行拍照操作。相应的，在非延迟拍摄模式下，用户触发相机拍摄之后，手机将直接开始采集图像帧并进行拍摄操作。

在一些实施例中，手机可以先接收用户输入拍摄意图指令的操作，再接收用户触发拍摄的操作。例如，在延迟拍摄模式和非延迟拍摄模式下，手机可以先后接收这两个操作。作为示例，用户先点击图2A示出的语音输入控件205输入拍摄意图指令，再点击图2A示出的拍摄控件203触发手机进行拍摄操作。

在一些实施例中，手机可以先接收用户触发拍照的操作，再接收用户输入拍摄意图指令的操作。例如，在延迟拍摄模式下手机均可以先接收这两个操作。作为示例，用户可以先点击图2A示出的拍摄控件203触发手机进行延迟拍摄操作，再点击图2A示出的语音输入控件205输入拍摄意图指令。

在一些实施例中，手机可以接收用户的一个操作，先接收用户输入的拍摄意图指令再自动开始拍摄操作。例如，在延迟拍摄模式和非延迟拍摄模式下，手机可以接收该操作。作为示例，用户可以对手机的拍摄预览界面中的拍摄控件进行操作，先接收用户输入的拍摄意图指令再进行拍摄操作。

以下实施例中，本申请以用户先接收用户输入拍摄意图指令的操作，再接收用户触发拍摄的操作为例，对拍摄过程进行说明。

实施例一

接下来，结合图7A对本申请实施提供的拍摄方法的流程进行说明。该方法的执行主体可以为手机。具体地，图7A示出的方法默认手机开启了“个性拍摄”功能，即手机是在个性拍摄功能下进行拍摄的。

如图7A所示，该方法包括如下步骤：

S701:接收用户的第一操作。

例如，上述第一操作可以为用户打开相机应用的操作，如用户对图4A示出的桌面界面中的相机应用401的点击操作。当然，第一操作还可以是其他任意可实现的打开相机应用的操作，例如对锁屏界面中相机应用的快捷键的点击操作等，但不限于此。

S702：响应于第一操作，显示相机应用的拍摄预览界面。

例如，手机可以显示图2A、图2B或图2D示出的拍摄预览界面。

S703：接收用户输入的拍摄意图指令的语音或文字。

例如，用户可以对图2A示出的语音输入控件205进行点击操作以输入“拍摄自行车轮离开地面的照片”的语音。又如，用户可以对图2C示出的键盘207进行操作以输入“自行车轮离开地面”的文字，并通过点击操作确定控件2071完成输入。又如，用户对图2D示出的意图控件208、语音输入控件209、文本输入控件210等控件的操作之后可以输入语音或文字。

S704：从语音或文字中识别出用户的拍照意图，该拍照意图包括图像内容指令或微动作指令。

可以理解，图像内容指令和微动作指令表示拍摄意图指令中的拍照意图。例如，图像内容指令可以为“自行车轮离开地面”，而微动作指令可以为“射门”等。

在用户输入语音时，本申请可以先将语音转换成文本再识别其包含的拍照意图。

可选的，上述图像内容指令或微动作指令可以采用基于语言模型的指令分类实现。

S705：接收用户的第二操作。

第二操作可以为用户在拍照模式触发手机开始拍摄的操作。此外，在其他一些实施例中，第二操作还可以是在录像模式下触发手机开始拍摄的操作。

例如，第二操作可以为用户对图2A至图2E中拍照模式下任一拍摄预览界面示出的拍摄控件203的点击操作。又如，第二操作可以为用户对图3C示出的录像模式下的拍摄预览界面中的拍摄控件203的点击操作。

S706：响应于第二操作，逐帧采集图像，并在拍摄界面中显示实时采集的第i帧图像。

第i帧图像可以为预览图像序列中的图像，此时预览图像序列为连续的多帧图像。具体地，在录像模式下预览图像序列就是视频流。并且，预览图像序列中的图可为RAW格式。

在一些实施例中，本申请中逐帧采集图像时，可以缓存实时采集的图像，例如，本申请可以通过序列缓存器缓存逐帧采集的图像，如实时缓存最新采集的5帧或10帧图像。

S707：获取第i帧图像的图像特征信息，该图像特征信息包括美学评价结果、图像语义信息、图像动作特征。

可以理解，图像特征的信息包括但不限于上述示例，还可以为更多或更少的图像特征。例如，本申请识别第i帧图像的图像特征信息中可以仅美学评价结果和图像语义信息。

在一些实施例中，本申请可以基于识别出的拍照意图的类别选择识别出的图像特征信息的类别。例如，在识别出用户的拍照意图为图像内容指令即时，本申请识别出的第i帧图像的图像特征信息中可以仅包括美学评价结果和图像语义信息。又如，在识别出用户的拍照意图包括图像内容指令和微动作指令时，本申请识别出的第i帧图像的图像特征信息可以包括美学评价结果、图像语义信息和图像动作特征。

可以理解，上述图像特征信息可以由深度学习网络或神经学习网络等网络学习得到。例如，美学评价结果可以由图像美学评判断器识别得到，图像语义信息可以由图像内容理解编码器识别得到，图像动作特征可以由光流提取器和图像与光流编码器识别得到。

例如，图像美学评价结果通常为数值且数值越大美学评价越高，表示该图像通常越符合用户的审美。图像语义信息结果通常包括内容类别和分数数值，该分数数值越高表示识别出的该内容类别越准。图像动作特征结果通常包括动作类别和分数数值，该分数数值越高表示识别出的该动作类别越准。

S708:基于用户个人数据，确定用户的拍照意图与第i帧图像的图像特征信息的匹配度。

在其他一些实施中，图像的匹配度计算也可以不考虑用户个人数据，而是根据用户的拍照意图与第i帧图像的图像特征信息确定两者之间的匹配度。其中，用户个人数据可以包括但不限于：用户人脸匹配数据、用户日程、地理位置和用户偏好等信息。

在一些实施例中，拍照意图与图像语义信息相同时图像语音信息的数值越大则匹配度越高，拍照意图与图像动作特征相同时图像动作特征的数值越大则匹配度越高，用户个人数据与识别出的图像语义信息关联性的数值越大匹配度越高。图像美学评价结果的分数越大匹配度越大。并且，这些因素可以基于不同的权重进行加权计算得到最终的匹配度数值。

在一些实施例中，本申请中手机可以实时存储采集的预览图像序列中符合用户的拍照意图的N个（如N为2）图像帧，如匹配度最高的N个图像，以对匹配度最高的一个或多个图像进行拍照操作。例如，手机可以提供候选池存储预览图像序列中符合用户的拍照意图的N个图像帧，例如候选池可以为手机中的存储器或缓存单元。如此，避免缓存过多图像帧造成的资源浪费，并保证拍摄过程中匹配度较高的图像不会丢失。

参照图7B所示，为本申请实施例提供的图像的匹配度的示例图。如图7B所示，在用户输入拍摄意图指令为图像内容指令“自行车轮离开地面”的情况下，手机连续采集多帧图像F1至F5。假设候选池中实时存储匹配度最高的两个图像帧，在手机采集到图像帧F1时检测到图像帧F1与图像内容指令的匹配度为21%，此时候选池（即RAW图记录器）中缓存的图像为F1。在检测到图像帧F2与图像内容指令的匹配度为65%，此时候选池中缓存的图像为F1和F2。在检测到图像帧F3与图像内容指令的匹配度为98%，此时候选池中缓存的图像为F2和F3。在检测到图像帧F4与图像内容指令的匹配度为80%，此时候选池中缓存的图像为F3和F4。在检测到图像帧F4与图像内容指令的匹配度为0%，此时候选池中缓存的图像仍为F3和F4。那么，结束拍摄时候选池中匹配度最高的图像帧F3将进行拍照操作以得到精彩时刻照片。

S709：i增加1，并重新回到S707，直至接收用户的第三操作。

第三操作可以为用户在拍照模式或录像模式下触发手机结束拍摄的操作。

例如，第三操作可以为用户对图3A、图3B或图3E中拍照模式下任一拍摄界面示出的拍摄控件203的点击操作。又如，第三操作可以为用户对图3D示出的录像模式下的拍摄界面中的结束件305的点击操作。

S710：响应于第三操作，对第1至i帧图像组成的拍摄预览序列中匹配度最高的图像进行拍照操作得到精彩时刻照片。此时，本申请是自动匹配度最高的图像进行拍照操作的。

可以理解，响应于第三操作，本申请将不再采集新的图像帧，那么也不会缓存新的图像帧。

在一些实施例中，本申请默认对拍摄预览序列中匹配度最高的一个图像进行拍照操作，以得到符合用户拍照意图的一张精彩时刻照片。

在其他一些实施例中，本申请默认对拍摄预览序列中匹配度最高的N个图像（如N为2）均进行拍照操作得到多张精彩时刻照片。

可以理解，本申请中对RAW格式的图像进行拍照操作，可以是将该图像经过ISP处理得到最终的照片，如JPEG格式的照片。

此外，在其他一些实施例中，响应于第三操作，本申请可以从第1至i帧图像组成的拍摄预览序列中选择图像帧作为精彩短视频，且该精彩短视频包括匹配度最高的图像。

在其他一些实施例中，响应于第三操作，在录像模式下，本申请可以从第1至i帧图像组成的拍摄预览序列拍摄得到视频。

如此，本申请无需用户手动抓拍需求的瞬间的照片，而是在触发拍摄操作后可以由手机自行拍照得到符合用户实际需求的精彩时刻照片。提升了拍摄过程的便捷性和准确性，避免用户错过想要拍摄的场景。

实施例二

接下来，结合图8对本申请实施提供的拍摄方法的流程进行说明。该方法的执行主体可以为手机。具体地，图8示出的方法默认手机开启了“个性拍摄”功能，即手机是在个性拍摄功能下进行拍摄的。此外，图8与图7A的区别在于，图8中用户可以通过选择拍摄界面上的缩略图，选择最终触发拍照的图像，即支持用户自主选择精彩时刻照片。

如图8所示，该方法包括如下步骤：

S801-S808，与图7A示出的S701-S708的步骤相同，此处不再赘述。

S809：在a小于N且i小于N时，缓存第i帧图像，并在拍摄界面显示的图像上叠加显示第i帧图像的缩略图。

其中，a为当前已经缓存的图像的数量，N为允许缓存的图像的最大值，如N为2。例如，本申请可以通过缓存匹配度较高的图像，并且RAW图记录器中的图像可以缩略图形式显示在拍摄界面上。

S810：在a等于N且在i＞N时，对应于第i帧图像的匹配度大于已经缓存的第一图像的匹配度，则将缓存的匹配度第一图像替换为第i帧图像，并将拍摄界面上显示的第一图像的缩略图替换为第i帧图像的缩略图。

S811：接收用户对拍摄界面上显示的第二图像的缩略图的第四操作。

可以理解，拍摄界面上显示第二图像的缩略图时，第二图像已经被缓存。例如，第四操作可以为用户对图3E示出的图像M1的缩略图的确认控件3021的点击操作，或者对图3E示出的图像M2的缩略图的确认控件3022的点击操作。

S812：响应于第四操作，确定已经缓存的第二图像为用户选中的待拍照图像。

在一些实施例中，已经缓存的图像中用户选中的待拍照图像在结束本次拍摄的过程中不会被替换或删除。

S813：i增加1，并重新回到S807，直至接收到第三操作。

即，在结束本次拍摄过程中，如果未接收到用户触发结束拍摄的操作，将重新对当前帧图像的下一帧图像进行匹配度的计算。

类似的，对第三操作的描述可以参照对上述S709的描述，不再赘述。

S814：响应于第三操作，判断第二图像是否为已经缓存的匹配度最高的图像，如果是则进入S815，如果否则进入S816。

S815：对缓存的第二图像进行拍照操作得到精彩时刻照片。

S816：对缓存的中匹配度最高的图像进行拍照操作，并对缓存的第二图像进行拍照操作，以得到多张精彩时刻照片。

如此，本申请可以在拍摄过程中实时向用户展示与用户拍照意图的匹配度较高的图像，以支持用户根据实际需求手动选择图像并生成照片，提升了拍摄过程的个性化和定制化。

实施例三

接下来，基于图6D示出的框架，参照图9对本申请实施提供的拍摄方法的流程进行说明，该方法的执行主体可以为手机中的功能单元或模块。具体地，图9示出的方法默认手机开启了“个性拍摄”功能，即手机是在个性拍摄功能下进行拍摄的。

如图9所示，该方法包括：

S901：语音特征编码器接收用户语音输入。其中，语音特征编码器可以识别用户语音输入得到语音特征。

其中，用户语音输入就是包含用户拍照意图的拍摄意图指令。

S902：语音特征编码器向语言模型发送语音特征。

S903：文字特征编码器接收用户文字输入。其中，文字特征编码器可以识别用户文字输入得到文字特征。

其中，用户文字输入就是包含用户拍照意图的拍摄意图指令。

S904：文字特征编码器向语言模型发送文字特征。

可以理解，S901至S902与S903至S904是并列的步骤，实际中用户只采用语音方式或者只采用文字方式输入拍摄意图指令。

S905：语言模型对语音特征或文字特征进行指令分类，得到图像内容指令。

S906：语言模型将图像内容指令发送给图像与指令匹配器。

S907：序列缓存器中逐帧缓存图像得到预览图像序列。

在一些实施例中，序列缓存器可以在用户触发手机开始拍摄并采集图像帧之后缓存的。

S908：图像美学判断器从序列缓存器中获取第i帧图像。进而，图像美学判断器可以对第i帧图像进行图像美学评价得到美学评价结果。

S909：图像美学判断器将第i帧图像的美学评价结果发送给图像与指令匹配器。

S910：图像内容理解编码器从序列缓存器中获取第i帧图像。进而，图像内容理解编可以对第i帧图像进行语义理解得到图像语义信息。

S911：图像内容理解编码器向图像与指令匹配器发送第i帧图像的图像语义信息。

S912：图像与指令匹配器获取用户个人数据。

S913：图像与指令匹配器确定第i帧图像与图像内容指令的匹配度。具体的，图像与指令匹配器根据用户个人数据、第i帧图像的美学评价结果和图像语义信息以及图像内容指令，确定第i帧图像与图像内容指令的匹配度。

S914：图像与指令匹配器向RAW图记录器发送第i帧图像。

S915：在a小于N且i小于N时，RAW图记录器存储第i帧图像。其中，a为RAW图记录器中当前存储的图像张数，N为RAW图记录器中允许存储的最大图像张数。

S916：在a等于N且在i＞N时，对应于第i帧图像的匹配度大于RAW图记录器中的第一图像的匹配度，则RAW图记录器将存储的第一图像替换为第i帧图像。

S917：i增加1，并重新执行S908-S916，直至序列缓存器中不包含图像。

S918：ISP从RAW图记录器中获取匹配度最高的图像。

S919：ISP对匹配度最高的图像进行处理并输出精彩时刻照片。

如此，本申请识别出用户的拍摄意图指令为图像内容指令时，可以基于图像内容指令识别出图像的美学评价结果和图像语义信息，以确定出图像内容指令与图像特征信息的匹配度。从而按照匹配度筛选出符合用户的拍摄意图的精彩时刻照片。

实施例四

接下来，基于图6C示出的框架，参照图10对本申请实施提供的拍摄方法的流程进行说明，该方法的执行主体可以为手机中的功能单元或模块。具体地，图10示出的方法默认手机开启了“个性拍摄”功能，即手机是在个性拍摄功能下进行拍摄的。此外，图10与图9示出的方法的不同在于，图9识别出的拍照意图不仅包括图像内容指令，还包括微动作指令。

如图10所示，该方法包括：

S1001-S1004，与图9示出的S901-S904相同，此处不再赘述。

S1005：语言模型对语音特征或文字特征进行指令分类，得到图像内容指令和微动作指令。

S1006：语言模型将图像内容指令和微动作指令发送给图像与指令匹配器。

S1007：序列缓存器中逐帧缓存图像得到预览图像序列。

S1008-S1012，与图10示出的S1008-S1012相同，此处不再赘述。

S1013：光流提取器从序列缓存器中获取第i帧图像和第i+1帧图像。

进而，光流提取器根据i帧图像和第i+1帧图像确定第i帧图像的光流。

S1014:图像与光流编码器从光流提取器获取第i帧图像的光流。图像与光流编码器可以根据第i帧图像和第i+1帧图像之间的差异得到第i帧图像的光流，并根据第i帧图像的光流确定第i帧图像中的图像动作特征。

S1015：图像与光流编码器将第i帧图像中的图像动作特征发送给图像与指令匹配器。

S1016：图像与指令匹配器根据用户个人数据、第i帧图像的美学评价结果、图像语义信息和图像动作特征以及图像内容指令和微动作指令，确定第i帧图像与图像内容指令和微动作指令的匹配度。

S1017：图像与指令匹配器向RAW图记录器发送第i帧图像的匹配度。

S1018：在a小于N且i小于N时，RAW图记录器存储RAW图记录器中。其中，a为RAW图记录器中当前存储的图像张数，N为RAW图记录器中允许存储的最大图像张数。

S1019：在a等于N且在i＞N时，对应于第i帧图像的匹配度大于RAW图记录器中的第一图像的匹配度，则RAW图记录器将存储的第一图像替换为第i帧图像。

S1020：i增加1，并重新执行S1008-S1019，直至序列缓存器中不包含图像。

S1021：ISP从RAW图记录器中获取匹配度最高的图像。

S1022：ISP对匹配度最高的图像进行处理并输出精彩时刻照片。

如此，本申请识别出用户的拍摄意图指令为微动作指令时，可以基于微动作识别出图像的美学评价结果和图像语义信息以及图像动作特征，以确定出微动作指令与图像特征信息的匹配度。从而按照匹配度筛选出符合用户的拍摄意图的精彩时刻照片。

下文以电子设备为手机为例，图11示出了本申请实施例提供的一种电子设备100的结构示意图。以上实施例中所涉及的技术方案均可以在具有上述硬件架构的电子设备100中实现。

电子设备100可以包括处理器110，外部存储器接口120，内部存储器121，通用串行总线（universal serial bus，USB）接口130，充电管理模块140，电源管理模块141，电池142，天线1，天线2，移动通信模块150，无线通信模块160，音频模块170，扬声器170A，受话器170B，麦克风170C，耳机接口170D，传感器模块180，按键190，马达191，指示器192，摄像头193，显示屏194，以及用户标识模块（subscriber identification module，SIM）卡接口195等。其中传感器模块180可以包括压力传感器180A，陀螺仪传感器180B，气压传感器180C，磁传感器180D，加速度传感器180E，距离传感器180F，接近光传感器180G，指纹传感器180H，温度传感器180J，触摸传感器180K，环境光传感器180L，骨传导传感器180M等。

需要说明的是，图1所示的结构并不构成对电子设备100的具体限定。在本申请另一些实施例中，电子设备100可以包括比图1所示的部件更多或更少的部件，或者，电子设备100可以包括图1所示的部件中某些部件的组合，或者，电子设备100可以包括图1所示的部件中某些部件的子部件。图1示的部件可以以硬件、软件、或软件和硬件的组合实现。

处理器110可以包括一个或多个处理单元。例如，处理器110可以包括以下处理单元中的至少一个：应用处理器（application processor，AP）、调制解调处理器、图形处理器（graphicsprocessing unit，GPU）、ISP、控制器、图像编码器、视频编解码器、数字信号处理器（digital signal processor，DSP）、基带处理器、神经网络处理器（neural-networkprocessing unit，NPU）。其中，不同的处理单元可以是独立的器件，也可以是集成的器件。

控制器可以根据指令操作码和时序信号，产生操作控制信号，完成取指令和执行指令的控制。

处理器110中还可以设置存储器，用于存储指令和数据。在一些实施例中，处理器110中的存储器为高速缓冲存储器。该存储器可以保存处理器110刚用过或循环使用的指令或数据。如果处理器110需要再次使用该指令或数据，可从所述存储器中直接调用。避免了重复存取，减少了处理器110的等待时间，因而提高了系统的效率。例如，上述存储器可以用于实时存储采集的预览图像序列中符合用户的拍照意图的N个（如N为2）图像帧。

在一些实施例中，处理器110可以包括一个或多个接口。例如，处理器110可以包括以下接口中的至少一个：内部集成电路（inter-integrated circuit，I2C）接口、内部集成电路音频（inter-integratedcircuit sound，I2S）接口、脉冲编码调制（pulse codemodulation，PCM）接口、通用异步接收传输器（universal asynchronous receiver/transmitter，UART）接口、移动产业处理器接口（mobile industry processor interface，MIPI）、通用输入输出（general-purpose input/output，GPIO）接口、SIM接口、USB接口。图1所示的各模块间的连接关系只是示意性说明，并不构成对电子设备100的各模块间的连接关系的限定。可选地，电子设备100的各模块也可以采用上述实施例中多种连接方式的组合。

电子设备100可以通过GPU、显示屏194以及应用处理器实现显示功能。GPU为图像处理的微处理器，连接显示屏194和应用处理器。GPU用于执行数学和几何计算，用于图形渲染。处理器110可包括一个或多个GPU，其执行程序指令以生成或改变显示信息。

显示屏194可以用于显示图像或视频。显示屏194包括显示面板。显示面板可以采用液晶显示屏（liquid crystal display，LCD）、有机发光二极管（organiclight-emittingdiode，OLED）、有源矩阵有机发光二极体（active-matrix organic light-emittingdiode，AMOLED）、柔性发光二极管（flex light-emitting diode，FLED）、迷你发光二极管（mini light-emitting diode，Mini LED）、微型发光二极管（micro light-emittingdiode，Micro LED）、微型OLED（Micro OLED）或量子点发光二极管（quantum dotlightemitting diodes，QLED）。在一些实施例中，电子设备100可以包括1个或N个显示屏194，N为大于1的正整数。作为一种可能的实现方式，在用户查看精彩时刻的照片和精选短视频时，显示屏194可用于显示精彩时刻MM的照片以及精选短视频。

电子设备100可以通过ISP、摄像头193、视频编解码器、图像编码器、NPU、GPU、显示屏194以及应用处理器等实现拍摄功能。

ISP用于处理摄像头193反馈的数据。例如，拍照时，打开快门，光线通过镜头被传递到摄像头感光元件上，光信号转换为电信号，摄像头感光元件将所述电信号传递给ISP处理，转化为肉眼可见的图像。ISP可以对图像的噪点、亮度和色彩进行算法优化，ISP还可以优化拍摄场景的曝光和色温等参数。在一些实施例中，ISP可以设置在摄像头193中。

摄像头193用于捕获静态图像或视频。物体通过镜头生成光学图像投射到感光元件。感光元件可以是电荷耦合器件（charge coupled device，CCD）或互补金属氧化物半导体（complementary metal-oxide-semiconductor，CMOS）光电晶体管。感光元件把光信号转换成电信号，之后将电信号传递给ISP转换成数字图像信号。ISP将数字图像信号输出到DSP加工处理。DSP将数字图像信号转换成标准的红绿蓝（red green blue，RGB），YUV等格式的图像信号。在一些实施例中，电子设备100可以包括1个或N个摄像头193，N为大于1的正整数。例如，在本申请实施例中，处理器110可基于摄像头193采集的预览图像序列，根据用户输入的拍照意图确定预览图像序列中的精彩时刻MM，并在确定出MM时，调用摄像头193自动触发拍照。ISP和DSP可对精彩时刻MM的图像信号进行处理，以得到精彩时刻的图像。

数字信号处理器用于处理数字信号，除了可以处理数字图像信号，还可以处理其他数字信号。

视频编解码器用于对数字视频压缩或解压缩。电子设备100可以支持一种或多种视频编解码器。这样，电子设备100可以播放或录制多种编码格式的视频，例如：动态图像专家组（moving picture experts group，MPEG）1、MPEG2、MPEG3和MPEG4。

NPU是一种借鉴生物神经网络结构的处理器，例如借鉴人脑神经元之间传递模式对输入信息快速处理，还可以不断地自学习。通过NPU可以实现电子设备100的智能认知等功能，例如：图像识别、人脸识别、语音识别和文本理解。例如，本申请的一些实施例中，NPU可以基于用户输入的语音或文本识别出用户的拍照意图对应的意图特征，NPU也可以称为意图编码器。

外部存储器接口120可以用于连接外部存储卡，例如安全数码（secure digital，SD）卡，实现扩展电子设备100的存储能力。

内部存储器121可以用于存储计算机可执行程序代码，所述可执行程序代码包括指令。内部存储器121可以包括存储程序区和存储数据区。其中，存储程序区可存储操作系统，至少一个功能（例如，声音播放功能和图像播放功能）所需的应用程序。存储数据区可存储电子设备100使用过程中所创建的数据（例如，音频数据和电话本）。此外，内部存储器121可以包括高速随机存取存储器，还可以包括非易失性存储器，例如：至少一个磁盘存储器件、闪存器件和通用闪存存储器（universal flash storage，UFS）等。处理器110通过运行存储在内部存储器121的指令和/或存储在设置于处理器中的存储器的指令，执行电子设备100的各种处理方法。

电子设备100可以通过音频模块170、扬声器170A、受话器170B、麦克风170C、耳机接口170D以及应用处理器等实现音频功能，如音乐播放和录音。例如，麦克风170C可以将检测到的用户输入的拍照指令的语音传递给处理器110，再由处理器110中的意图特征编码器识别出用户的拍照意图。

触摸传感器180K，也称为触控器件。触摸传感器180K可以设置于显示屏194，由触摸传感器180K与显示屏194组成触摸屏，触摸屏也称为触控屏。触摸传感器180K用于检测作用于其上或其附近的触摸操作。触摸传感器180K可以将检测到的触摸操作传递给应用处理器，以确定触摸事件类型。可以通过显示屏194提供与触摸操作相关的视觉输出。在另一些实施例中，触摸传感器180K也可以设置于电子设备100的表面，并且与显示屏194设置于不同的位置。例如，触摸传感器180K可以检测用户输入的拍摄意图指令中的文本，将检测到的文本传递给处理器110，再由处理器110中的意图特征编码器识别出用户的拍照意图。

按键190包括开机键和音量键。按键190可以是机械按键，也可以是触摸式按键。电子设备100可以接收按键输入信号，实现于按键输入信号相关的功能。

在一些实施例中，本申请提供一种可读介质，该可读介质上存储有指令，该指令在电子设备上执行时使所述电子设备执行本申请中的拍摄方法。

在一些实施例中，本申请提供一种电子设备，包括：存储器，用于存储由电子设备的一个或多个处理器执行的指令，以及处理器，是该电子设备的处理器之一，用于执行本申请中的拍摄方法。

本申请公开的机制的各实施例可以被实现在硬件、软件、固件或这些实现方法的组合中。本申请的实施例可实现为在可编程系统上执行的计算机程序或程序代码，该可编程系统包括至少一个处理器、存储系统（包括易失性和非易失性存储器和/或存储元件）、至少一个输入设备以及至少一个输出设备。

可将程序代码应用于输入指令，以执行本申请描述的各功能并生成输出信息。可以按已知方式将输出信息应用于一个或多个输出设备。为了本申请的目的，处理系统包括具有诸如例如数字信号处理器（DSP）、微控制器、专用集成电路（ASIC）或微处理器之类的处理器的任何系统。

程序代码可以用高级程序化语言或面向对象的编程语言来实现，以便与处理系统通信。在需要时，也可用汇编语言或机器语言来实现程序代码。事实上，本申请中描述的机制不限于任何特定编程语言的范围。在任一情形下，该语言可以是编译语言或解释语言。

在一些情况下，所公开的实施例可以以硬件、固件、软件或其任何组合来实现。所公开的实施例还可以被实现为由一个或多个暂时或非暂时性机器可读（例如，计算机可读）存储介质承载或存储在其上的指令，其可以由一个或多个处理器读取和执行。例如，指令可以通过网络或通过其他计算机可读介质分发。因此，机器可读介质可以包括用于以机器（例如，计算机）可读的形式存储或传输信息的任何机制，包括但不限于，软盘、光盘、光碟、只读存储器（CD-ROMs）、磁光盘、只读存储器（ROM）、随机存取存储器（RAM）、可擦除可编程只读存储器（EPROM）、电可擦除可编程只读存储器（EEPROM）、磁卡或光卡、闪存、或用于利用因特网以电、光、声或其他形式的传播信号来传输信息（例如，载波、红外信号数字信号等）的有形的机器可读存储器。因此，机器可读介质包括适合于以机器（例如，计算机）可读的形式存储或传输电子指令或信息的任何类型的机器可读介质。

在附图中，可以以特定布置和/或顺序示出一些结构或方法特征。然而，应该理解，可能不需要这样的特定布置和/或排序。而是，在一些实施例中，这些特征可以以不同于说明性附图中所示的方式和/或顺序来布置。另外，在特定图中包括结构或方法特征并不意味着暗示在所有实施例中都需要这样的特征，并且在一些实施例中，可以不包括这些特征或者可以与其他特征组合。

需要说明的是，本申请各设备实施例中提到的各单元/模块都是逻辑单元/模块，在物理上，一个逻辑单元/模块可以是一个物理单元/模块，也可以是一个物理单元/模块的一部分，还可以以多个物理单元/模块的组合实现，这些逻辑单元/模块本身的物理实现方式并不是最重要的，这些逻辑单元/模块所实现的功能的组合才是解决本申请所提出的技术问题的关键。此外，为了突出本申请的创新部分，本申请上述各设备实施例并没有将与解决本申请所提出的技术问题关系不太密切的单元/模块引入，这并不表明上述设备实施例并不存在其它的单元/模块。

需要说明的是，在本专利的示例和说明书中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

虽然通过参照本申请的某些优选实施例，已经对本申请进行了图示和描述，但本领域的普通技术人员应该明白，可以在形式上和细节上对其作各种改变，而不偏离本申请的精神和范围。

Claims

1.一种拍摄方法，其特征在于，应用于电子设备，所述方法包括：

检测到用户的第一拍摄操作；

采集多帧图像，并基于用户的拍摄意图指令，从所述多帧图像中选择出与所述拍摄意图指令对应的第一图像；

存储所述第一图像作为所述第一拍摄操作对应的目标照片。

2.根据权利要求1所述的方法，其特征在于，所述第一拍摄操作包括下列中的至少一种：

用户触发所述电子设备采集所述多帧图像的操作，用户触发所述电子设备接收所述拍摄意图指令的操作。

3.根据权利要求2所述的方法，其特征在于，所述方法还包括：

显示拍摄预览界面，所述拍摄预览界面中包括第一控件，其中所述第一控件用于用户触发所述电子设备接收所述拍摄意图指令的操作。

4.根据权利要求1至3中任一项所述的方法，其特征在于，所述拍摄意图指令包括下列中的至少一种：语音指令，文本指令。

5.根据权利要求4所述的方法，其特征在于，所述方法还包括：

对应于所述拍摄意图指令为语音指令，获取所述拍摄意图指令的语音特征；

基于第一语言模型对所述语音特征进行识别得到所述拍摄意图指令的意图特征，所述意图特征用于指示图像内容或动作。

6.根据权利要求4所述的方法，其特征在于，所述方法还包括：

对应于所述拍摄意图指令为文本指令，获取所述拍摄意图指令的文本特征；

基于第二语言模型对所述文本特征进行识别得到所述拍摄意图指令的意图特征，所述意图特征用于指示图像内容或动作。

7.根据权利要求1所述的方法，其特征在于，所述基于用户的拍摄意图指令，从所述多帧图像中选择出与所述拍摄意图指令对应的第一图像，包括：

确定所述多帧图像中第i帧图像与所述拍摄意图指令的意图特征之间的匹配度；

从所述多帧图像中与所述意图特征的匹配度最高的前N个图像中选择出所述第一图像。

8.根据权利要求7所述的方法，其特征在于，所述从所述多帧图像中与所述意图特征的匹配度最高的前N个图像中选择出所述第一图像，包括：

将所述N个图像中匹配度最高的图像作为第一图像；或者

向用户显示所述N个图像，并将所述N个图像中用户选中的图像作为所述第一图像。

9.根据权利要求8所述的方法，其特征在于，所述向用户显示所述N个图像，并将所述N个图像中用户选中的图像作为所述第一图像，包括：

响应于所述第一拍摄操作，显示拍摄界面，其中，所述拍摄界面中包括所述N个图像中每个图像的缩略图；

将用户所选择的缩略图所对应的图像作为所述第一图像。

10.根据权利要求9所述的方法，其特征在于，所述拍摄界面中还包括取景框中显示的图像的匹配度的数值。

11.根据权利要求7所述的方法，其特征在于，所述确定所述多帧图像中第i帧图像与所述拍摄意图指令的意图特征之间的匹配度，包括：

对所述第i帧图像进行图像美学评价得到美学评价结果；

对所述第i帧图像进行语义理解得到图像语义信息；

对应于所述意图特征指示图像内容，基于所述美学评价结果和所述图像语义信息，确定所述第i帧图像与所述意图特征之间的匹配度。

12.根据权利要求11所述的方法，其特征在于，所述对应于所述意图特征指示图像内容，基于所述美学评价结果和所述图像语义信息，确定所述第i帧图像与所述意图特征之间的匹配度，包括：

获取用户个人数据，其中所述用户个人数据包括用户人脸匹配数据、用户日程、地理位置和用户偏好信息中的至少一项；

对应于所述意图特征指示图像内容，基于所述第i帧图像的美学评价结果和图像语义信息以及所述用户个人数据，确定所述第i帧图像与所述意图特征之间的匹配度。

13.根据权利要求11所述的方法，其特征在于，所述对应于所述意图特征指示图像内容，基于所述美学评价结果和所述图像语义信息，确定所述第i帧图像与所述意图特征之间的匹配度，包括：

根据第i帧图像和第i+1帧图像，获取所述第i帧图像的光流；

根据所述第i帧图像的光流确定所述第i帧图像的图像动作特征；

对应于所述意图特征指示动作，基于所述第i帧图像的美学评价结果、图像语义信息、图像动作特征以及所述用户个人数据，确定所述第i帧图像与所述意图特征之间的匹配度。

14.一种可读介质，其特征在于，所述可读介质上存储有指令，所述指令在电子设备上执行时使所述电子设备执行权利要求1至13中任一项所述的拍摄方法。

15.一种电子设备，其特征在于，包括：存储器，用于存储由电子设备的一个或多个处理器执行的指令，以及处理器，是所述电子设备的处理器之一，用于执行权利要求1至13中任一项所述的拍摄方法。