CN110139021B

CN110139021B - 辅助拍摄方法及终端设备

Info

Publication number: CN110139021B
Application number: CN201810136117.0A
Authority: CN
Inventors: 韩文静; 王志翔; 任陶瑞; 郭逸飞; 邵伟; 朱璇
Original assignee: Samsung Electronics Co Ltd
Current assignee: Samsung Electronics Co Ltd
Priority date: 2018-02-09
Filing date: 2018-02-09
Publication date: 2023-01-13
Anticipated expiration: 2038-02-09
Also published as: CN110139021A

Abstract

本发明应用于图像处理技术领域，公开了一种辅助拍摄方法及终端设备。该辅助拍摄方法包括：获取被摄对象的目标表情信息；根据所述目标表情信息输出拍摄辅助信息。本发明中，通过上述技术方案，使得不擅长拍照的用户也可以拍出表情自然、情感丰富的高品质照片；并且通过该方案中的处理，使得拍照过程更加有趣，也为用户提供了更好的拍照体验。

Description

辅助拍摄方法及终端设备

技术领域

本发明涉及图像处理技术领域，特别是涉及一种辅助拍摄方法及终端设备。

背景技术

众所周知，一张好的人物照应当具备以下两个要点：1)情绪与表情丰富多变而不单调；2)面部表情自然而不僵硬。然而对于具备上述两点的高品质照片，基本都是出自优秀的摄影师之手，他们在拍摄过程中往往很善于记录人物的表情呈现，善于抓拍人物自然而丰富的表情。但是，随着移动终端的普遍性以及便利性应用，很多时候人们在利用移动终端上的拍照功能进行自拍时，无法拍出上述所提及的高品质照片。此外，即使在由其他人帮忙拍照的情况下，也往往很难拍出表情丰富自然的照片。所以，如何能够拍出具备上述两个要点的高品质照片成为了当前亟待解决的技术问题。

发明内容

本发明提供一种辅助拍摄方法及终端设备，以实现对照片拍摄时的辅助。

本发明提供了一种辅助拍摄方法，包括：

获取被摄对象的目标表情信息；

根据所述目标表情信息输出拍摄辅助信息。

优选地，所述获取被摄对象的目标表情信息，包括：

获取被摄对象对应的表情序列，所述表情序列包括所述被摄对象在至少一个角度下的至少一个表情类型对应的表情变化序列；

输出所述表情序列；

根据针对所述表情序列中的表情信息的选择操作，确定所述被摄对象的目标表情信息。

优选地，所述获取被摄对象对应的表情序列，包括：

获取所述被摄对象至少一张人脸图像；

根据该至少一张人脸图像，构建所述被摄对象的人脸模型；

利用所述人脸模型生成所述被摄对象对应的表情序列。

优选地，所述获取被摄对象至少一张人脸图像，包括：

在预先存储的所述被摄对象的人脸图像中提取该被摄对象至少一张人脸图像；或，

采集所述被摄对象至少一张人脸图像。

优选地，还包括：

在被摄对象对应的表情序列中，根据下述至少一项确定所述被摄对象对应的推荐表情信息：所述被摄对象的用户属性信息、所述被摄对象的当前状态信息、所述被摄对象的距离信息、当前环境信息、获取的拍摄主题信息、所述被摄对象的历史表情选择信息；

输出所述推荐表情信息。

优选地，根据所述目标表情信息输出拍摄辅助信息，包括：

根据所述目标表情信息，确定对应所述目标表情信息的拍摄辅助信息；

输出对应所述目标表情信息的拍摄辅助信息，以触发所述被摄对象调整当前表情。

优选地，所述拍摄辅助信息包括如下至少一项：

发音内容信息；

情绪触发信息；

表情调整提示信息。

优选地，确定对应所述目标表情信息的发音内容信息，包括：

根据所述目标表情信息以及所述被摄对象发音时的表情变化情况，确定对应所述目标表情信息的发音内容信息。

优选地，输出对应所述目标表情信息的发音内容信息，包括：

输出所述发音内容信息，指示所述被摄对象按照所述发音内容信息进行发音。

优选地，确定对应所述目标表情信息的情绪触发信息，包括：

根据所述目标表情信息以及下述至少一项，确定对应所述目标表情信息的情绪触发信息：

所述被摄对象的用户属性信息、所述被摄对象的当前状态信息、所述被摄对象的历史状态信息、所述被摄对象的距离信息、当前环境信息、获取的拍摄主题信息、拍摄辅助信息的输出设备信息、所述被摄对象的历史触发选择信息。

优选地，所述情绪触发信息包括如下至少一项：

用于通过增强现实AR显示信息以触发所述被摄对象调整当前表情的AR显示信息；

用于通过多媒体信息以触发所述被摄对象调整当前表情的多媒体信息；

用于通过对话方式以触发所述被摄对象调整当前表情的对话信息。

优选地，当所述情绪触发信息包括AR显示信息时，所述方法还包括：

根据所述被摄对象针对所述AR显示信息的交互操作，调整输出的所述AR显示信息。

优选地，确定对应所述目标表情信息的表情调整提示信息，包括：

获取所述被摄对象的当前表情信息；

确定所述被摄对象的当前表情信息与所述目标表情信息之间的差异；

基于确定的差异，确定对应所述目标表情信息的表情调整提示信息。

优选地，确定所述被摄对象的当前表情信息与所述目标表情信息之间的差异，包括：

确定所述当前表情信息和所述目标表情信息分别对应的人脸关键点；

将所述当前表情信息和所述目标表情信息分别对应的人脸关键点进行比对，得到所述被摄对象的当前表情信息与所述目标表情信息之间的差异。

优选地，输出对应所述目标表情信息的表情调整提示信息，包括：

根据所述表情调整提示信息与所述被摄对象的当前表情信息，确定对应的AR显示信息，输出所述AR显示信息；或

通过多媒体信息的方式，输出对应所述目标表情信息的表情调整提示信息。

优选地，还包括：

根据所述被摄对象的当前表情信息，预估所述被摄对象在设定帧数后的表情信息；

若预估的表情信息和所述目标表情信息一致，则对所述被摄对象的图像进行抓拍。

优选地，根据获取的被摄对象的当前表情信息，预估所述被摄对象在设定帧数后的表情信息，包括：

根据所述被摄对象的当前表情信息，检测所述被摄对象的当前人脸关键点信息；

根据检测出的当前人脸关键点信息，预估所述被摄对象在设定帧数之后的人脸关键点信息；

根据预估的人脸关键点信息，确定所述被摄对象在设定帧数后的表情信息。

优选地，还包括：

根据所述目标表情信息，对拍摄的图像进行相应处理；

所述相应处理包括下述至少一项：

设置与所述目标表情信息对应的滤镜；

添加与所述目标表情信息对应的贴图；

生成与所述目标表情信息对应的AR显示信息。

本发明还提供了一种终端设备，包括：

获取单元，用于获取被摄对象的目标表情信息；

输出单元，用于根据所述目标表情信息输出拍摄辅助信息。

本发明还提供了一种终端设备，包括：

处理器；以及

存储器，配置用于存储机器可读指令，所述指令在由所述处理器执行时，使得所述处理器执行上述的辅助拍摄方法。

与现有技术相比，本发明至少具有以下优点：

通过提供拍摄辅助信息，从而实现拍照时的智能辅助，进而帮助用户拍出表情自然、情感丰富的高品质照片；同时，通过拍摄辅助信息的输出，使得拍照过程充满趣味性，进而提升了用户的拍照体验。

附图说明

图1是本发明实施例提供的辅助拍摄方法流程图；

图2是本发明实施例提供的辅助拍摄方法具体实施流程图；

图3是本发明实施例提供的表情合成示意图；

图4是本发明实施例提供的合成后的表情序列示意图；

图5是本发明实施例提供的基于发音内容的辅助拍摄示意图；

图6是本发明实施例提供的基于情绪触发的辅助拍摄示意图；

图7是本发明实施例提供的基于情绪触发的AR显示信息示意图；

图8是本发明实施例提供的获取多媒体信息示意图；

图9是本发明实施例提供的基于情绪触发的对话信息示意图；

图10是本发明实施例提供的基于多种拍摄辅助信息进行拍摄的流程示意图；

图11是本发明实施例提供的基于表情调整提示的AR显示信息示意图；

图12是本发明实施例提供的基于表情调整提示的多媒体信息示意图；

图13是本发明实施例提供的自动抓怕处理示意图；

图14是本发明实施例提供的基于滤镜的后处理示意图；

图15是本发明实施例提供的基于贴图的后处理示意图；

图16是本发明实施例提供的基于AR显示信息的后处理示意图；

图17是本发明实施例提供的辅助拍摄的完整处理流程示意图；

图18是本发明实施例提供的辅助拍摄方法中各组成部分的结构示意图；

图19是本发明实施例提供的表情推荐处理示意图；

图20是本发明实施例提供的自动抓拍算法示意图；

图21是本发明实施例提供的终端设备的结构示意图；

图22是本发明实施例提供的终端设备的实体结构图。

具体实施方式

本发明提出一种辅助拍摄方法及终端设备，下面结合附图，对本发明具体实施方式进行详细说明。

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能解释为对本发明的限制。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解，当我们称元件被“连接”或“耦接”到另一元件时，它可以直接连接或耦接到其他元件，或者也可以存在中间元件。此外，这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或多个相关联的列出项的全部或任一单元和全部组合。

本技术领域技术人员可以理解，除非另外定义，这里使用的所有术语(包括技术术语和科学术语)，具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是，诸如通用字典中定义的那些术语，应该被理解为具有与现有技术的上下文中的意义一致的意义，并且除非像这里一样被特定定义，否则不会用理想化或过于正式的含义来解释。

针对现有技术中所亟待解决的问题，本发明提供了一种辅助拍摄方法，通过该方法中的辅助拍摄处理，使得能够帮助用户拍出表情自然的高品质照片。根据上述本发明所提供的辅助拍摄方案，不仅能帮助用户拍出高品质照片，同时，还能达到其他的技术效果。下面对本发明中所提供的辅助拍摄方案所能达到的其他效果进行具体阐释。

首先，本发明技术方案中通过为每个用户定制个性化的表情示例，使得用户可以在自己的人脸表情序列中选择自己想要的表情帧作为预设的示例照片，从而使得用户可选的表情示例更精细，更能匹配用户需求。

其次，本发明技术方案中提出了根据性别识别、年龄识别以及环境识别等技术得到的属性，从而使得能够自适应地为用户推荐出适合的表情。

再次，本发明技术方案中提出了多样化的表情引导、触发和抓拍方式，使得用户能够扮出满意的目标表情，同时也不会漏掉用户满意表情的精彩瞬间。

另外，在本发明技术方案中还提供了通过后处理方式来增强烘托照片中特定情感的表达的处理。

通过本发明所提供的上述技术方案，可以帮助用户轻松地拍出表情多变、自然而不僵硬的高品质照片，节省了用户为拍照所花的精力。同时用户在按照该辅助拍摄方法的流程进行拍照时，也可以获得更有趣的拍照体验。

基于上述本发明所提供的智能辅助拍摄方案的阐述，下面对该辅助拍摄方法的处理流程进行详尽阐释，该辅助拍摄方法可以应用于所有带有拍摄功能的终端设备，部分功能可以应用于所有终端设备。这里所使用的“终端”、“终端设备”可以是便携式、可运输、安装在交通工具(航空、海运和/或陆地)中的，或者适合于和/或配置为在本地运行，和/或以分布形式，运行在地球和/或空间的任何其他位置运行。这里所使用的“终端”、“终端设备”还可以是通信终端，例如可以是PDA、MID(Mobile Internet Device，移动互联网设备)和/或智能手机，还可以是可穿戴式智能终端，例如智能手表、智能眼镜。

如图1所示，为本发明实施例提供的辅助拍摄方法流程图，包括步骤：

步骤101，获取被摄对象的目标表情信息；

步骤102，根据所述目标表情信息输出拍摄辅助信息。

通过提供的上述拍摄辅助信息，可以实现拍照时的智能辅助，进而帮助用户拍出表情自然、情感丰富的高品质照片；同时，通过拍摄辅助信息的输出，使得拍照过程充满趣味性，进而提升了用户的拍照体验。

如图2所示，为本发明实施例提供的辅助拍摄方法具体实现流程图，该辅助拍摄方法具体包括如下步骤：

步骤201，获取被摄对象对应的表情序列。

其中，上述表情序列包括所述被摄对象在至少一个角度下的至少一个表情类型对应的表情变化序列。

本发明实施例提出，可以获取被摄对象在至少一个角度下的表情变化序列，每个角度下的表情变化序列包含至少一个表情类型对应的表情变化序列，任一表情类型对应的表情变化序列是指从无表情人脸逐渐过渡到该表情类型的表情变化过程，表情变化序列由若干表情帧组成。

表情类型包括微笑、大笑、惊讶、恐惧、反感、难过等。

该获取被摄对象对应的表情序列的处理，包括：

S1、获取所述被摄对象至少一张人脸图像。

所述获取被摄对象至少一张人脸图像，包括：

采集所述被摄对象至少一张人脸图像。

其中，作为示例，对于上述至少一张人脸图像的获取，可以首先通过人脸检测、人脸识别等方式判断终端设备内是否已经存储有当前用户(即被摄对象，本发明实施例中的用户都可以指代被摄对象，后续不再赘述)的人脸图像。如果已经存储有，则自动调取存储在设备上的当前用户的人脸图像，否则请求用户输入至少一张人脸图像，例如请求用户通过摄像头等设备实时采集至少一张人脸图像。

S2、根据该至少一张人脸图像，构建所述被摄对象的人脸模型。

这里的人脸建模可以是2D建模或者3D建模，如果终端设备的摄像头为能够采集图像深度信息的深度摄像头，则可以构建3D人脸模型，如果为普通摄像头，则可以利用多张人脸图像进行3D建模，或者直接进行2D建模。

在收到用户输入的至少一张人脸图像后，终端设备可以检测是否存储有之前该用户的人脸图像、人脸模型或表情序列。如果存储有该用户的表情序列，则终端设备可以自动调取之前为该用户生成过的表情序列，如果存储有该用户的人脸模型，则终端设备可以自动调取之前为该用户构建的人脸模型，根据该人脸模型生成用户对应的表情序列，如果存储有该用户的人脸图像，则终端设备可以自动调取之前为该用户采集的人脸图像，根据该人脸图像构建人脸模型，并生成用户对应的表情序列。如果没有存储有该用户的人脸图像、人脸模型和表情序列，则终端设备为该用户采集人脸图像，构建人脸模型并生成对应的表情序列。

本发明实施例提出，由于构建人脸模型时所使用的人脸图像越多，得到的人脸模型精细程度就越高，故在一种优选的实施方式中，为了得到更为精细的人脸模型，可以请求用户输入至少两张不同角度的人脸图像，并根据至少两张不同角度的人脸图像进行人脸模型的构建。例如在拍摄预览阶段，请求用户变换头部角度，从而得到不同角度的多张人脸照片，用户可以挥动终端设备并在不同的位置短暂停留。

S3、利用所述人脸模型生成所述被摄对象对应的表情序列。

根据该构建的人脸模型，结合人脸数据以及对应的面部肌肉群运动轨迹，生成当前被摄对象做表情时表情渐变的表情序列。

进一步地，对于生成的表情序列，将其进行输出展示，以供被摄对象进行选择。

进一步地，还可以在生成的表情序列中确定被摄对象对应的推荐表情信息，并输出确定出的推荐表情信息。

在被摄对象对应的表情序列中，对于该被摄对象对应的推荐表情信息，可以根据下述至少一项来确定：

所述被摄对象的用户属性信息、所述被摄对象的当前状态信息、所述被摄对象的距离信息、当前环境信息、获取的拍摄主题信息、所述被摄对象的历史表情选择信息。

上述用户属性信息包括用户的年龄、性别、肤色、社交关系中的至少一项。例如不同年龄的用户对应的推荐表情信息不同，因此可以根据被摄对象的年龄确定对应的推荐表情信息；

上述被摄对象的当前状态信息包括被摄对象的当前穿着、样貌、体型、发型等中的至少一项。例如可以根据被摄对象当前的发型，确定出更合适的推荐表情信息；

上述被摄对象的距离信息是指被摄对象与终端设备之间的距离，距离不同，推荐表情信息也可能不同，例如距离越远，更适合表情程度越大的表情；

上述当前环境信息可以但不限于为通过摄像头、声音传感器等采集到的环境音频和/或视频信息，通过采集到的环境音频和/或视频信息，可以确定出被摄对象当前所处的环境，然后确定出符合当前所处环境的推荐表情信息。例如夸张的大笑表情在聚会环境中是合适的，但是在图书馆环境中是不恰当的；

不同的拍摄主题，其适合的表情类型、表情程度都可能不同，因此也可以根据拍摄主题，确定出符合当前拍摄主题的推荐表情信息；

此外，也可以根据被摄对象的历史表情选择信息，来确定推荐表情信息，例如可以将被摄对象的历史选择的表情作为推荐表情信息推荐给被摄对象。

本发明实施例提出，确定出的推荐表情信息，可以为表情类型，例如微笑、惊讶、难过这样粗粒度的表情类型，也可以是表情序列中的表情帧，例如微笑的表情变化序列中的第二帧、惊讶的表情变化序列中的第三帧、难过的表情变化序列中的第一帧等。

终端设备为被摄对象推荐效果更好的表情类型或表情帧时，可以推荐一个或多个表情类型或表情帧。

此外，在输出推荐表情信息时，可以在输出展示的表情序列中，将推荐表情信息以高亮显示的方式输出。如当推荐表情为某一表情帧时，可以将该表情帧的背景加深。用户可以选择推荐的表情信息，也可以忽视该推荐，自己选择想要的其他表情类型或表情帧。

作为示例，如图3所示，在启动终端设备的辅助拍摄功能后，首先进入人脸3D建模过程，表情合成系统采集被摄对象在不同角度的两张人脸图像，用户通过点击“合成”按键即可得到合成的表情序列，合成的表情序列如图4所示，包括微笑的表情变化序列、难过的表情变化序列、惊讶的表情变化序列、反感的表情变化序列等。用户也可以点击“取消”按键来重新采集人脸图像。如果智能的辅助拍摄功能检测到为当前被摄对象采集过人脸图像，或构建过人脸模型，或合成过表情序列，则可以直接输出之前合成的表情序列，或调取之前构建的人脸模型生成表情序列，或调取之前采集的人脸图像构建人脸模型并合成表情序列。

步骤202，根据针对所述表情序列中的表情信息的选择操作，确定所述被摄对象的目标表情信息。

在将表情序列推荐给被摄对象之后，被摄对象可以进行该表情序列的浏览，并从中选择自己想要的表情帧作为拍照表情的示范，也即该选择的表情信息为目标表情信息。

如图4所示，为用户合成了微笑、难过、惊讶、反感等表情类型对应的表情变化序列，被摄对象可以在每个表情类型对应的表情变化序列里选择不同的表情程度的表情帧。而在实际使用时，不限于图中的表情选择方式，例如还可以不为用户提供如图4中所示离散的表情程度，而是提供一个滑动条，被摄对象可以通过控制滑动条以控制表情程度的连续变化，使用户能得到一个表情中最想要的表情程度的表情帧作为自己的表情示范。

其中，对于上述201和202两个步骤，可以合并成为一个步骤，即获取被摄对象的目标表情信息。

步骤203，根据所述目标表情信息，确定对应所述目标表情信息的拍摄辅助信息。

其中，该拍摄辅助信息包括如下至少一项：

发音内容信息；

情绪触发信息；

表情调整提示信息。

对于该发音内容信息的确定，包括：

在一具体实施例中，如图5所示，用户选完自己想要的目标表情后，终端设备拍摄应用界面会出现用户选择的目标表情。该目标表情的示范窗口的位置并不仅限于图5所示，其可以随用户拖动改变位置以及大小，避免其位置影响到用户的正常拍摄。

如果用户感到自己无法轻松做出该表情，或者其他想要借助该终端设备的发音内容情形时，即可点击拍摄界面中的“短语暗示”按键。终端设备根据用户之前选择的目标表情为用户推荐可以用来达到该目标表情的发音内容(如短语)。具体的，如检测到用户之前选择的目标表情为开心的表情，则可能会推荐用户念出“Cheese”。一方面会让用户产生与开心、快乐相关的心理暗示，一方面用户念“cheese”时面部的肌肉动作就像是在笑一样，使得用户轻松做出开心的表情。该终端设备提示用户念什么短语的交互方式包括但不限于语音和/或弹窗。

此外，当用户想要的目标表情为惊讶的表情时，终端设备可能推荐用户念“wow”来帮用户更好地做出惊讶表情；当用户想要的目标表情为反感的表情时，终端设备可能推荐用户念“ouch”来帮用户更好地做出痛苦表情，包括但不限于如上提到的表情种类和表情暗示短语(即发音内容)。

对于该情绪触发信息的确定，包括：

上述用户属性信息包括用户的年龄、性别、肤色、社交关系中的至少一项。例如不同年龄的用户对同样触发内容的反应不同，产生的表情变化不同，因此不同年龄的用户对应的情绪触发信息可能不同，因此可以根据被摄对象的年龄确定对应的情绪触发信息；

上述被摄对象的当前状态信息包括被摄对象的当前穿着、样貌、体型、发型等中的至少一项。上述被摄对象的历史状态信息包括被摄对象的历史穿着、样貌、体型、发型等中的至少一项。具体的，可以确定出被摄对象的当前状态信息和历史状态信息之间的差异，针对该差异确定对应的情绪触发信息，例如，被摄对象的目标表情是开心的表情，可以根据被摄对象的当前发型和历史发型之间的差异，发现该被摄对象的发型发生了较大改变，因此可以发出类似“新的发型很漂亮”之类的情绪触发信息，以触发被摄对象达到开心的表情；

上述被摄对象的距离信息是指被摄对象与终端设备之间的距离，距离不同，其适合的情绪触发信息也可能不同；

上述当前环境信息可以但不限于为通过摄像头、声音传感器等采集到的环境音频和/或视频信息，通过采集到的环境音频和/或视频信息，可以确定出被摄对象当前所处的环境，然后确定出符合当前所处环境的情绪触发信息的类型和/或内容。例如在安静的环境，情绪触发信息可以为语音信息；

不同的拍摄主题，其适合的情绪触发信息可能不同，因此也可以根据拍摄主题，确定出符合当前拍摄主题的情绪触发信息；

此外，本发明实施例还提出，还可以根据拍摄辅助信息的输出设备信息确定情绪触发信息的类型和/或内容，例如，如果拍摄辅助信息的输出设备为智能手表，那么情绪触发信息可以为语音信息，如果拍摄辅助信息的输出设备为智能眼镜，那么情绪触发信息可以为AR显示信息。

进一步地，该情绪触发信息包括如下至少一项：

用于通过增强现实(AR，Augmented Reality)显示信息以触发所述被摄对象调整当前表情的AR显示信息；

被摄对象在选完自己想要的目标表情后，将正式进入拍照过程。如果用户感到自己无法轻松达到该目标表情，或者借助的发音内容信息得到的表情效果不够好时，或者其他想要借助辅助拍摄功能的情感触发功能拍照的情形时，可以按照如图6所示，点击拍摄界面中的“情感触发”按键，从弹出的AR触发(AR显示信息)、多媒体触发(多媒体信息)、聊天机器人触发(对话信息)按键中选择自己想要的模式，开启相应的情绪触发功能。若想要关闭情绪触发功能，只需再次点击“情感触发”按键，然后点击正在开启的AR触发/多媒体触发/聊天机器人触发按键，即可关闭情绪触发功能。

当然，终端设备可以根据包括但不限于虚拟触控按键/语音/快捷物理键等的交互方式开启情绪触发功能。

其中，当所述情绪触发信息包括AR显示信息时，所述方法还包括：

具体的，如图7所示，用户点击情感触发按键进入AR触发模式后，终端设备根据用户选择的目标表情，为用户使用与之相对应的AR显示信息(也可以称为AR特效)。该图7的左图中终端设备检测到用户选择的目标表情为笑容表情，因此生成了一个虚拟小猫咪，并与真实场景进行渲染，得到AR显示信息，试图以此触发用户的开心情绪；该图7的右图中终端设备检测到用户选择的目标表情为惊恐表情，因此将原有的背景替换为了包含恐怖元素的AR背景，试图以此触发用户的惊恐情绪。

在实际运用中，终端设备会根据用户的目标表情来生成包括但不限于如上图中所示的两个AR显示信息。

当然，终端设备可以根据包括但不限于虚拟触控按键/语音/快捷物理键的交互方式开启AR触发模式。

当所述情绪触发信息包括多媒体信息时，用户点击情感触发按键进入多媒体触发模式后，终端设备根据用户选择的目标表情，为用户使用与之相对应的多媒体触发方式。

多媒体信息包含多种形式，如视频、图像、音频、文本(如文学作品)、社交应用等等。具体如图8所示，各种多媒体信息可以通过网络大数据获得。

对于不同的多媒体形式，既可以由用户选择自己倾向的多媒体形式，也可以由终端设备根据目标表情、用户历史选择等信息为用户智能选择多媒体信息，然后输出多媒体信息，在非自拍的情况下，也可以通过可穿戴设备播放多媒体信息给用户。输出多媒体的形式可以包括：通过相机屏幕播放视频、通过扬声器或可穿戴设备播放音频、通过语音播报文本等。

当然，终端设备可以根据包括但不限于虚拟触控按键语音/快捷物理键的交互方式开启多媒体触发方式。

当所述情绪触发信息包括对话信息时，用户点击情感触发按键进入聊天机器人触发模式后，终端设备根据用户选择的目标表情，调用与目标表情相对应的情绪聊天机器与该用户对话。开启聊天机器触发功能后，原有的拍照界面虚化或消失为聊天界面提供背景，但摄像头仍然继续工作以捕捉用户表情完成抓拍，用户通过语音或文字与聊天机器人或其他不影响取景以及时捕捉到用户表情的方式进行聊天。

在该图9中，聊天机器人可以根据需要主动发起话题。例如，可以由物体识别、人物识别、关系识别、事件识别、环境识别等特征识别得到的特征作为对话生成器的一个输入，与用户之前的特征比对检测到新的事件，如用户换了新的发型，因此可以由此发起话题，并成功激发了用户的开心情绪。实际运用中，聊天机器人可以发起天气状况、突发新闻、鲜为人知的冷知识在内的等话题主动发起聊天，也可以根据特征识别检测到的用户以及环境变化的事件来发起话题。

当然，终端设备可以根据包括但不限于虚拟触控按键/语音/快捷物理键的交互方式开启/关闭聊天机器情绪触发方式。

更进一步地，如图10所示，在实际运用过程中，单一的情绪触发方式可能无法成功触发用户的情绪，因此终端设备需要采用多轮次多层面地去触发用户的情绪，即会智能地选择不同的情绪触发方式去尝试触发用户的情绪，如果用户当前选择的触发方式效果多次都不理想，则终端设备可以自动将当前情绪触发方式替换为其他的情绪触发方式。例如若用户对多媒体触发不敏感，且多次尝试都无法达到目标表情，则终端设备可以将该触发方式调整为AR触发或者聊天机器人触发，以触发用户的情绪使其自然做出相应表情。具体的，当进入拍照流程后，终端设备可以检测被摄对象的当前表情，判断是否达到目标表情，若达到目标表情，则可以预测自动抓拍时间点然后进行抓拍，若未达到目标表情，则终端设备可以判断当前表情是否优于上次表情，即当前表情是否与目标表情的差异更小，若更好，则可以继续使用相同触发方式，若更差，则可以选择其他触发方式。

当然，用户也可以根据需要关闭该触发方式的智能推荐，坚持选用自己倾向的触发方式。终端设备可以根据包括但不限于虚拟触控按键/语音/快捷物理键的交互方式开启/关闭多轮多层次触发的功能。

对于该表情调整指示信息的确定，包括：

获取被摄对象的当前表情信息；

确定被摄对象的当前表情信息与目标表情信息之间的差异；

基于确定的差异，确定对应目标表情信息的表情调整提示信息。

进一步地，确定所述被摄对象的当前表情信息与所述目标表情信息之间的差异，包括：

具体的，当用户的当前表情距离之前选择的目标表情相差不大时，或其他并不需要发音内容信息和情绪触发信息帮自己做出想要的目标表情情况时，用户可以通过点击拍摄界面中的“微调提示”按键，打开微调提示功能。想要关闭微调提示功能时，只需再次点击“微调提示”按键即可。当终端设备检测到用户距离目标表情相差不大时，也可以自动打开微调提示功能。用户可以在终端设备设置中设置关闭自动打开微调提示功能。

其中，该表情调整指示信息可以包括AR显示信息和/或多媒体信息。下面分别就该两种表情调整指示信息进行阐释。

该表情调整指示信息包括AR显示信息时，如图11所示，在用户打开终端设备的微调功能后，终端设备会将用户当前表情的人脸关键点标记出来，根据用户之前所选的目标表情的人脸关键点，比对当前表情与目标表情的差异，可以用箭头将差异部分标记出来，从而可以提示用户把嘴角张得再大一点。用户按照该提示对表情进行微调后即可做到之前所选择的目标表情。

实际运用过程中，终端设备可以使用但不限于图中效果的AR显示信息来提示用户该如何微调表情。用户也可以在终端设备中设置AR显示信息包括但不限于颜色、效果在内等属性。例如用户如果觉得关键点影响了照片的预览，就可以设置隐藏人脸关键点标识。

该表情调整指示信息包括多媒体信息时，如图12所示，用户打开微调功能后，如果通过AR显示信息进行微调的效果不理想，或在使用AR显示信息不方便时，可以选择使用多媒体信息进行提示。终端设备会使用自然语言理解将提示信息转化为文字，再用TTS(Textto Speech，文本到语音)算法将文字通过语音播放给用户，如“嘴角再稍微抬高一点”。用户按照图12的左图中的语音提示微调自己表情后即做到了之前所选择的如图12中右图所示的目标表情。当然，上述使用语音提示的方式仅是为了说明本发明技术方案所优选的一种实施方式，对于其他任意通过多媒体信息进行提示的方式均可以实现本发明的上述处理过程。

当然，终端设备可以根据包括但不限于虚拟触控按键/语音/快捷物理键的交互方式开启/关闭微调提示功能。在不相互影响的情况下，用户也可以同时打开包括“短语暗示”、“情感触发”、“微调提示”在内的多个表情辅助功能进行操作处理。

步骤204，输出对应目标表情信息的拍摄辅助信息，以触发被摄对象调整当前表情。

该拍摄辅助信息可以经由拍摄设备(即上述终端设备)和/或终端设备连接的可穿戴设备来输出。

例如在一具体实施例中，该拍摄设备为手机终端，被摄对象在使用手机终端进行照片拍摄，在确定好对应目标表情信息的拍摄辅助信息后，手机终端将该拍摄辅助信息进行输出显示，该被摄对象根据手机终端上所显示的拍摄辅助信息进行对应的表情调整，从而实现将当前表情调整为目标表情。

在另一实施例中，被摄对象头戴有AR眼镜的可穿戴设备进行拍摄时，通过在该其所穿戴的AR眼镜中显示该对应目标表情信息的拍摄辅助信息，从而使得被摄对象根据该拍摄辅助信息进行对应的表情调整，进而实现了将当前表情调整为目标表情。

其中，在进行拍摄辅助信息输出时，若当前拍摄辅助信息为发音内容信息，则该输出处理，包括：

在进行拍摄辅助信息输出时，若当前拍摄辅助信息为表情调整提示信息，则该输出处理，包括：

步骤205，对被摄对象的图像进行抓拍。

本步骤中，该抓拍处理具体包括：

根据被摄对象的当前表情信息，预估该被摄对象在设定帧数后的表情信息；

若预估的表情信息和目标表情信息一致，则对该被摄对象的图像进行抓拍。

进一步地，根据获取的被摄对象的当前表情信息，预估所述被摄对象在设定帧数后的表情信息，包括：

如图13所示，用户选择了目标表情后，终端设备检测出用户的当前表情即将与目标表情匹配时需要进行自动抓拍的处理。该图13中的左边三张图是根据用户人脸定制生成的表情序列示例，用户选择第3张表情图作为目标表情；右边三张图是用户按照目标表情进行拍摄过程中的表情图像。

具体的，终端设备根据右边前两帧表情图像，检测用户当前人脸关键点信息(坐标及运动方向、速度)；并根据所检测到的当前人脸关键点信息预测下一帧图像的人脸关键点信息，且预估即将到来的第三帧图像与之前预设的目标表情匹配，因此自动启动快门功能，及时为用户拍摄并保存照片。

在实际拍照过程中，选取目标表情后，自动抓拍功能将自动打开，用户可以在终端设备中关闭该自动抓拍功能，同时还可以设置包括但不限于自动抓拍灵敏度、自动抓拍最大保存张数、自动抓拍提醒方式在内的自动抓拍功能的相关属性信息。

在被摄对象当前表情与目标表情匹配时，通过对该当前表情的抓拍，得到与目标表情匹配的图像；在得到该拍摄的图像后，还可以对该图像进行后期的修饰处理，以使该图像与目标表情信息具有较高的匹配度。

步骤206，根据目标表情信息，对拍摄的图像进行相应处理。

其中，该相应处理包括下述至少一项：

设置与所述目标表情信息对应的滤镜；

添加与所述目标表情信息对应的贴图；

生成与所述目标表情信息对应的AR显示信息。

通过该相应处理，包括针对不同人物表情的滤镜后处理、针对不同人物表情的贴图后处理、以及针对不同人物表情的AR显示信息后处理，增强了用户拍下照片时所想要传达的表情与情绪。

在实际运用过程中，可以是终端设备自动完成包括滤镜、贴图、AR显示信息在内的处理，也可以由用户设置关闭自动后处理，从而进行手动后处理或不进行任何后处理。

具体的，对于上述的滤镜处理，如图14所示，展示了使用滤镜来增强图像中人物情绪的实施例。在用户完成拍摄后，可以通过点击下部的“滤镜”按键切换为滤镜后处理模式。

该图14中的上图为滤镜处理前的图像，下图为滤镜处理后的图像。终端设备获取到用户的目标表情为微笑表情，或者根据表情识别引擎识别出拍摄的图像中用户的微笑表情。而明媚的色彩风格更容易让人觉得开心，因此在进行滤镜后处理时，可以为拍摄的图像添加一个色彩风格为明媚的滤镜，提升了用户的开心情绪，从而得到了通过滤镜增强的图像。

在实际运用时，并不限于如14图中所示的界面及交互方式。滤镜包括但不限于如图14中所示的滤镜。滤镜所能覆盖的情绪包括但不限于开心/高兴/惊讶/沮丧/惊恐等等。

具体的，对于上述的贴图处理，如图15所示，展示了通过贴图增强图像中人物情绪的实施例。用户完成拍摄后，可以通过点击下部的“贴图”按键切换为贴图后处理模式。

该图15中的上图为无贴图的图像，下图为有贴图的图像。终端设备获取到用户的目标表情为微笑表情，或根据表情识别引擎识别出拍摄的图像中用户的微笑表情，于是为图像中的人物添加了“爱心”贴图，以增强图中人物的开心情绪，得到了通过贴图增强的图像。

在实际运用时，不限于如图15中所示的界面及交互方式。贴图所能覆盖的情绪包括但不限于开心/高兴/惊讶/沮丧/惊恐等等。除了终端设备智能选择贴图外，也可以将贴图罗列出来供被摄对象自主选择。

具体的，对于上述的生成AR显示信息(也可以称为AR特效)的处理，如图16所示，展示了通过AR显示信息增强照片中人物情绪的实施例。用户完成拍摄后，可以通过点击下部的“AR特效”按键切换为AR显示信息后处理模式。

该图16中的上图为未经过AR显示信息处理的图像，下图为经过了AR显示信息处理后的图像。终端设备获取到用户的目标表情为惊恐表情，或根据表情识别引擎识别出拍摄的图像中用户的惊恐表情，于是为拍摄的图像中的人物添加了虚拟显示信息“恐龙”，得到如图16下图所示的AR显示信息，以增强图中用户的惊恐情绪，得到了通过AR显示信息增强的图像。

在实际运用时，不限于如图16中所示的界面及交互方式。AR显示信息所能覆盖的情绪包括但不限于开心/高兴/惊讶/沮丧/惊恐等等。除了终端设备智能选择AR显示信息处理外，也可以将可以添加的虚拟现实信息罗列出来供用户自主选择。

另外需要特别指出的是，本发明除了对拍摄完成后的图像立即进行后处理，也可以对终端设备上其他来源的图像进行后处理。只要点击图像选择对应的按键后，待后处理的图像即会出现在图14-16中对应的上部图片的位置。

通过上述本发明的技术方案，使得不擅长拍照的用户也可以拍出表情自然、情感丰富的高品质照片；并且通过该方案中的处理，使得拍照过程更加有趣，也为用户提供了更好的拍照体验。

基于上述对本发明所提供的辅助拍摄方案的阐述，下面介绍该辅助拍摄方法的整体流程，如图17所示，该流程可以包括：

(1)预处理流程：进入终端设备的拍照应用后，拍照应用首先为用户进行人脸建模；然后基于用户人脸模型为用户生成其个人专属的不同表情下、不同程度的表情照片(对应图17中的表情示例)，然后拍照应用根据特征识别得到的用户属性为用户推荐恰当的表情，用户选择自己想要的表情类别与期望的表情程度。

(2)拍照中流程：此流程主要是为了帮用户达到之前选择的预期表情。帮用户达到预期表情有发音内容、触发情绪、表情调整提示三种方法。若用户在其中一个方法下无法达到预期表情，则试用其他的方法，直到用户达到想要的表情为止。

(3)后处理流程：拍照完成后，用户可以使用图像处理技术进一步美化照片。包括为不同的表情照片使用定制滤镜和/或定制贴图和/或定制AR显示信息。

基于上述本发明所提供的辅助拍摄方法整体流程中的三个大的流程分类，可以将该三个处理流程具体细化为六个构成要点，如图18所示，下面分别就构成该三个处理流程的六个构成要点进行具体阐释。

第一处理流程：预处理流程(拍照前)

1、为每位被拍摄者定制生成属于其本人的参照表情示范

针对目标表情信息的生成，提出了一种目标表情信息生成方法，该方法首先对被摄对象进行人脸建模，这里的人脸建模可以是2D建模或3D建模，如果摄像头为深度摄像头，则可以得到3D模型，如果是普通RGB摄像头，则可以利用多帧人脸图像进行3D建模，或直接进行2D建模。人脸建模后，进行人脸表情渐变序列的生成，这里的表情渐变序列是指从无表情人脸，逐渐过渡到某个特定表情类型的人脸表情的变化过程，由若干表情帧组成。至于应该生成哪种表情类型的表情渐变序列(如大笑还是嘟嘴)作为示例的表情，则可以通过表情推荐模块来完成。

进一步地，该目标表情信息生成可以包括目标表情信息的生成、表情推荐以及对应的核心算法三部分。

1)目标表情信息的生成

用户打开摄像头开始拍照前会有或长或短的预览阶段，可以利用这一阶段进行人脸检测和建模，例如在预览阶段，请求用户变换角度，从而得到不同角度的多张人脸照片。构建的人脸模型数据至少包含人脸关键点数据(如五官特征点数据，人脸轮廓特征点数据等)，3D人脸模型会包含深度数据。得到人脸模型后，结合人脸数据和面部肌肉群运动轨迹进行计算机所模拟的当前用户做表情时渐变序列的生成(因为是计算机根据当前用户的3D人脸模型生成的表情序列，所以该表情序列是个性化的，专属于每个用户的)，包括大笑/惊讶/恐惧/反感/难过等各表情序列的生成，但不仅限于这些表情。生成的表情渐变序列会展示给用户，用户可以进行序列浏览并从中选择自己想要的表情帧作为自己的拍照表情照片示范，同时方便后面进一步的照片拍摄辅助。可以保存高频用户的表情序列，若表情生成系统之前已经为某高频用户生成过表情序列，且用户面貌变化不大，则可以直接读取之前为用户生成的表情序列。

当然，也可以使用用户预先存储在终端设备中的照片来进行人脸建模，其中，为了简化用户操作流程，可以先检测本地是否存储有用户多个角度的人脸照片，如果已存储有，则无需用户在预览阶段变换不同的拍摄角度。

该方法生成的表情序列基于当前用户人脸进行建模，不同于现有技术中的选择他人照片作为拍照示例的方式，而是具有为当前用户量身定制的特点——每个用户通过此系统生成的都是根据当前用户脸部3D模型而模拟生成的用户真实表情图，因此能够令用户对拍照预期具有客观的认识和了解，有助于拍出符合预期的、满意的照片。从表情渐变序列中选取表情帧的方式，则方便用户选取同一表情类型下不同程度的表情作为示例。

2)表情推荐

表情推荐属于表情生成方法的附属功能。人类有着灵活而细腻的面部肌肉，可以表现出多变的表情，然而由于人的五官特征、年龄、性格、拍摄场合、拍摄主题等因素的不同，会有着各自适合的表情类型以及表情程度，不存在对每个人以及每种场合都普遍适用的表情。例如，夸张的大笑在聚会上是合适的，但在图书馆可能是不恰当的；反感表情在亲密的摄影师朋友前是合适的，但对公司的上级可能是不恰当的。本发明实施例根据终端设备采集的图像(如拍摄预览阶段采集的图像)进行识别和分析，得到被拍摄者的用户属性信息(年龄、性别、肤色、社交关系等)、当前状态信息(穿着、发型、样貌、体型等)、当前环境信息、距离信息、拍摄的主题信息以及历史表情选择信息，然后为其推荐适合于该被摄对象的表情。推荐的既可以是微笑、惊讶、难过这样粗粒度的表情类型，也可以是微笑的表情渐变序列中的第二帧、惊讶的表情渐变序列中的第三帧、难过的表情渐变序列中的第一帧这样细粒度的指定了表情程度的某个表情帧；当然，根据用户设置可以选择不限于这两种推荐方式的其他推荐方式。

在表情生成系统为用户生成表情序列后，用户选择自己想要的表情类型和表情程度前，表情推荐系统可以为用户推荐适合该用户拍照的表情信息，用户也可以忽略推荐系统的推荐，选择推荐以外的表情。

3)核心算法

构建表情生成系统的过程：首先线下收集大规模的人脸在各种表情下、程度由小到大表现过程的3D模型，计算出人脸关键肌肉和特征点在各个表情浮现过程中，表情程度由小到大这一运动过程肌肉群的运动轨迹，存储以供之后的表情生成过程调用。同时也可以将表情生成系统的3D模型降维为2D模型，以供计算能力相对较弱、无法高效运行用户人脸3D模型或者不具备深度摄像设备的拍摄终端使用。

表情生成过程：表情生成系统捕捉到两张或多张被摄对象的照片后，通过特征点匹配计算出图片集间的空间映射关系，由该空间映射关系校正图片。通过最小化图片块间像素误差来找到图片间对应用户脸部同一部位的图像块，根据同一部位在不同图像上的坐标差值计算出该部位对相机的相对远近，即得到了用户人脸的3D模型。实际应用时，可以使用但不限于如上所描述的人脸建模技术。对用户人脸的3D模型应用之前得到的表情浮现过程中的肌肉群运动轨迹，即可得到用户表现出各个表情的表情序列。系统会根据每个表情完整做出的时间长短来为每个表情类型生成不同帧数的序列——时间更长的表情生成更多的关键帧数，持续时间更短的表情生成更少的关键帧数。除此之外，用户还可以使用滑条从表情的连续变化中选择自己最想要的表情程度。由于每位用户的相貌(即人脸3D模型)不同，因此相同的肌肉群运动轨迹也会表现出不同的表情观感，即达到为每位用户个性化定制表情图片的效果。

表情推荐过程：如图19所示，表情推荐前期主要依赖于人为设定的先验知识，后期将部分依赖于大数据或用户的历史选择。首先人工标注出每个表情、每种程度与某个特征人群的契合程度/关系，推荐前再根据图像识别、分析或探测，得出当前用户的年龄、性别、样貌、体型、穿着、发型、肤色、环境、距离、关系等特征，通过该用户得到的各特征计算出每种表情类型下的每个表情与该用户的综合契合程度，将契合程度最高的某个表情类型或表情，以包括但不限于加亮底色或动画强调的方式推荐给用户，推荐的表情类别可以但不限于为兴奋、沮丧、甜美、难过、庄严、冷淡等。后期可以不依赖于人工标注的先验知识，由用户的历史选择和/或用户当前的特征识别结果预测用户此刻最想要的表情，即基于用户进行表情推荐。根据当前用户的历史选择和/或用户的特征识别结果计算出与当前用户相似的用户群体，那么这一用户群体的选择也更可能是用户即将做出的选择，根据这一用户群体的选择来预测当前用户当前最可能选择什么表情，从而进行表情推荐。

第二处理流程：拍照中流程(拍照中)

1、通过请求被拍摄者说特定的短语来引导用户扮出相应表情

为了让用户选择目标表情后更轻松地做出自己所期望的表情，本发明的辅助拍摄方法提供了发音内容功能。该功能利用了短语的含义对用户情绪的带入，短语的发音对用户表情的改变来起到辅助功能。也即根据用户朗读该发音内容信息来使用户表情发生变化。

1)通过发音内容以辅助表情

当用户念出指定的发音内容信息时，用户的面部肌肉会发生相应变化，面部表情就会与对应的某些表情比较相似，此外，某些内容也会对用户心理产生影响，可能会触发用户相应的情感。因此用户念出指定的发音内容信息时会有助于将用户带入指定情绪或协助用户做出相应的表情。

终端在检测到用户从表情序列中选择了目标表情后，会为用户推荐与目标表情相对应的暗示短语(即发音内容)。通过用户念暗示短语，一方面会让用户产生相应的心理暗示，使得用户更容易在此心理暗示下做出相应表情；另一方面念暗示短语也会使用户调用相应的面部肌肉，看起来就像是用户在做相应的表情。比如，中文的“开心”，有助于将用户带入到高兴的情绪表达，用户发音“心”时，有助于做出咧嘴微笑的表情。

2)核心算法

推荐暗示短语主要依赖于大数据学习和人工筛除，从互联网语库中搜集可能会让用户产生相应情绪或达到相应表情的短语，通过灰度测试方法将短语推送给小部分用户，通过表情检测、表情识别等算法来测试用户念该短语内容后最可能产生的表情，如果大部分用户念了该短语后倾向于中性表情，则可以人工筛除该表情。通过灰度测试确保某个短语确实能帮助用户产生相应情绪或做出相应表情的，则将此短语以与前述表情推荐给需要的用户。

除了记录短语是否能让用户产生某表情外，还可以记录短语所能让用户产生表情的程度，同时也记录用户念发音内容时的表情变化难易程度(有的用户稍微暗示就能产生较大的表情，有的用户通过猛烈暗示却也只能产生微弱表情)。然后推荐表情时，可以将用户念发音内容时的表情变化难易程度这一属性考虑进去——为容易被暗示出表情的用户推荐出表情程度更小的短语，为难以被暗示出表情的用户推荐表情程度更大的短语。

2、触发被拍摄者的情绪来使他们自然地做出相应表情

一些人并不擅长扮演表情，但仍能在特定的情绪下自然地做出相应表情。为了让用户选择目标表情后更自然地做出自己期望的表情，本发明除了提供短语暗示等功能外，还提供了情绪触发功能。

人的每个表情都有与之相对应的情绪，人在与之对应的情绪下会自然地做出相应表情，与用户刻意扮出来的表情相比也会更加真实。本发明提供的触发方式包括AR显示信息的触发、多媒体信息的触发、以及通过聊天机器人对话信息的触发。

1)AR显示信息的触发

AR是最生动的交互方式，但在现有的摄影技术中只是把AR物体作为摄影道具。本发明提供了通过AR物体或AR背景来触发与用户选择表情相对应情绪的方法，使用户在相应情绪下拍出表情自然的照片。在取景器界面，智能地生成可以触发出相应预设表情的AR特效，与取景器里的用户产生互动，进而触发用户的情绪。在用户无法看到取景器界面(例如用户被拍照)时，也可以使用包括但不限于AR眼镜、AR头盔在内的可穿戴设备为用户形成AR特效。

其中，AR特效包括AR物体和AR背景两类。AR物体与用户产生交互，AR背景则是将取景器中照片的背景替换为新的可以催发用户某种情绪的背景。用户在保存照片时，既可以保留照片上的AR物体和/或AR背景，也可以使用AR物体/AR背景不存在的原照片。

2)多媒体信息的触发

多媒体信息的触发主要包括视频/图片触发、音频触发、文本触发等，分别指为用户播放一段视频/几张图片、为用户播放一段音频、为用户播放一段文本。多媒体信息可以为用户营造出具体的某种氛围，进而触发用户的相应情绪并使用户自然地做出相应表情。在实际使用时，会根据图像识别分析周围的环境，例如在嘈杂的公众场合，如果用户没有耳机则不适合语音媒介。

如果用户没有选择具体的触发方式，则终端设备将根据用户历史选择和触发效果智能选择触发方式。例如用户音频触发效果更好，则将为用户优先选择音频触发方式。

3)聊天机器人对话信息的触发

语言交流是人传递情绪最直接的方式，因此本发明也提供了通过聊天机器人与用户聊天的对话来触发用户情绪的方式。终端设备会在拍照界面提供一个语音/文字聊天交互的入口，通过用户选择的目标表情，调用预先训练好的不同聊天风格的聊天机器人与用户进行对话聊天，使得用户受到聊天机器人的影响而触发出相应情绪。

4)核心算法

AR显示信息的触发过程：AR触发中使用的虚拟显示信息(如AR物体/AR背景)主要依赖于人为预先设计，根据用户选择的目标表情而提供给用户对应的AR物体/AR背景，也会根据用户接收到AR物体/AR背景后的反应来筛除掉效果不好的AR物体/AR背景。

多媒体信息的触发过程：多媒体触发方式中推荐多媒体的算法和推荐暗示短语的算法相似，也主要依赖于大数据学习和人工筛除。从视频/图片网站中收集可能会触发用户情绪的视频/图片；从音乐或音频网站收集可能会触发用户情绪的音乐/音频；从小说/文字网站收集可能会触发用户情绪的文本/短句，通过灰度测试方法将其推送给一小部分用户，通过表情检测、表情识别算法来测试该视频/图片/音频/文本推送给用户后，用户最可能产生的表情，人工筛除效果不好的触发源。

聊天机器人对话信息的触发过程：首先大规模收集标记了情绪类别的对话，从每种情绪的大规模对话中各训练出一个seq2seq(Sequence toSequence，序列到序列)的情绪聊天机器——RNN(递归神经网络，recurrent neural network)编码器将句子的词向量序列编码为一个定长的表征，初始化一个表征表情类别的定长表情向量，和句子的定长表征一起作为包括了内部表情记忆单元和外部表情记忆单元的RNN解码器的输入，RNN解码器再由该输入解码出一句话。RNN解码器的内部记忆单元可以平衡解码时语法的正确和情感状态的改变，外部记忆单元则是为了显式地控制情绪词汇和通常词汇。RNN编码器的参数、RNN解码器的参数、表情向量的值在训练不断改变以最小化该seq2seq系统的输出与实际回复的差异。训练结束后，代表了不同情绪类别的各个seq2seq即可以根据用户输入的句子输出一个附带了相应情绪的句子回复给用户以触发出用户的相应情绪。实际聊天过程中，聊天系统如果没有输入，情绪化的机器人则可以根据天气状况、突发新闻、特征识别检测到的用户/环境变化、鲜为人知的冷知识等话题主动发起聊天。话题可以包括任意通过灰度测试检测后确实有效的方面。

3、表情调整提示信息帮助用户精准地做出响应表情

在用户表情与预先选择了的目标表情只有微小差距时，通过提示用户如何具体调整自己的表情来完成拍照。按照提示的方式包括AR提示(即上述AR显示信息)和多媒体提示(即上述多媒体信息)，如语音提示等。

1)AR提示

终端设备在拍摄界面上标记出用户当前表情的人脸关键点，通过在面部的箭头动画提示用户该如何调动面部肌肉，以弥补当前表情和目标表情相比不完美的地方。其中，该AR提示可以与语音提示同时进行。

2)语音提示

终端设备在拍摄界面上标记出用户当前表情的人脸关键点，通过语音提示用户该如何调动面部肌肉，以弥补当前表情和目标表情相比不完美的地方。其中，该语音提示可以与AR提示同时进行。

3)核心算法

终端设备根据关键点检测算法计算出用户当前表情的人脸关键点相对坐标，与用户之前选择了的目标表情的人脸关键点相对坐标比对，得出其中存在较大差值的部位(即用户当前表情与目标表情之间的差异)，通过箭头动画等AR提示方式提示用户如何调整表情，也可以根据文本生成技术、语音合成技术来通过语音提示的方式提示用户如何调整当前表情。

4、快门自动抓拍

在拍照时，由于被摄对象的分神，摄影师按下快门时可能已经错过了被摄对象的最佳表情帧。为了避免被摄对象长时间做同一表情导致的僵硬，使终端设备能够捕捉到被摄对象最自然的表情，本发明实施例提供了自动抓拍功能。

1)功能模块的简述

在此功能模块的帮助下，用户不再需要手动按快门，只需要在生成的表情序列中选择好自己想要拍出的表情，然后在用户即将做出该表情时，终端设备会检测到用户即将做出该表情，并自动进行抓拍。此功能模块可以避免用户长时间做同一个表情所导致的表情僵硬，也可以避免因手动按快门而错过不可多得的精彩表情。

2)核心算法

如图20所示，终端设备根据摄像头采集得到的最近几帧图像检测出这几张图像中的人脸关键点坐标，计算出人脸关键点的运动方向和速度，并由此结合人脸面部结构预测出即将到来的临近几帧的人脸表情，其中，当可以对人脸进行3D建模时，可以预测人脸的3D表情，当无法对人脸进行3D建模时，可以预测人脸的2D表情。当预测表情和之前用户选择了的目标表情相匹配时，发出自动抓拍指令，自动启动快门，抓拍得到用户的完美表情照片。

第三处理流程：后处理流程(拍照后)

1、后处理以增强照片中传递的情绪

后处理功能是通过包括滤镜、贴图、AR显示信息在内的后处理技术，进一步美化照片，增强并烘托出照片中表达的特定情绪。

1)滤镜

不同于常见的美颜滤镜，本发明实施例中设置的滤镜主要是为了烘托照片中想要表达的情绪。例如饱和度高的照片更容易使人感受到开心，灰暗的照片更容易让人感到难过、沮丧。终端设备使用不同的滤镜来烘托照片中相应用户表情想要传达的情绪。

2)贴图

不同于常见的美颜贴图，本发明实施例中添加的贴图主要是为了烘托照片中想要表达的情绪。不同的贴图可以传达不同的情绪，与照片中想要传达的情绪相匹配的贴图可以烘托照片中想要传达的情绪。

3)AR显示信息

本发明实施例生成的AR显示信息与情绪触发信息中的AR显示信息类似，但是这里的AR显示信息是在照片拍摄完成后用来烘托照片中想要传达的情绪。

4)核心算法

滤镜、贴图以及AR显示信息可以预先进行设计，或者是通过互联网采集得到相关素材。可以通过灰度测试确保某一滤镜和/或贴图和/或AR显示信息确实可以烘托照片中想要传达的情绪；如果效果不好，则可以不进行相应处理。

基于上述本发明所提供的技术方案及其对应的具体处理细节，本发明还提供了一种终端设备，如图21所示，包括：

获取单元2101，用于获取被摄对象的目标表情信息；

输出单元2102，用于根据所述目标表情信息输出拍摄辅助信息。

该获取单元2101，包括：

第一获取子单元21011，用于获取被摄对象对应的表情序列，所述表情序列包括所述被摄对象在至少一个角度下的至少一个表情类型对应的表情变化序列；

第二获取子单元21012，用于输出所述表情序列；

第三获取子单元21013，用于根据针对所述表情序列中的表情信息的选择操作，确定所述被摄对象的目标表情信息。

第一获取子单元21011，具体用于获取所述被摄对象至少一张人脸图像；根据该至少一张人脸图像，构建所述被摄对象的人脸模型；利用所述人脸模型生成所述被摄对象对应的表情序列。

第一获取子单元21011，具体用于在预先存储的所述被摄对象的人脸图像中提取该被摄对象至少一张人脸图像；或，采集所述被摄对象至少一张人脸图像。

还包括：

处理单元2103，用于在被摄对象对应的表情序列中，根据下述至少一项确定所述被摄对象对应的推荐表情信息：所述被摄对象的用户属性信息、所述被摄对象的当前状态信息、所述被摄对象的距离信息、当前环境信息、获取的拍摄主题信息、所述被摄对象的历史表情选择信息；

输出单元2102，还用于输出所述推荐表情信息。

输出单元2102，包括：

第一输出子单元21021，用于根据所述目标表情信息，确定对应所述目标表情信息的拍摄辅助信息；

第二输出子单元21022，用于输出对应所述目标表情信息的拍摄辅助信息，以触发所述被摄对象调整当前表情。

其中，所述拍摄辅助信息包括如下至少一项：

发音内容信息；

情绪触发信息；

表情调整提示信息。

第一输出子单元21021，具体用于根据所述目标表情信息以及所述被摄对象发音时的表情变化情况，确定对应所述目标表情信息的发音内容信息。

第二输出子单元21022，具体用于输出所述发音内容信息，指示所述被摄对象按照所述发音内容信息进行发音。

第一输出子单元21021，具体用于根据所述目标表情信息以及下述至少一项，确定对应所述目标表情信息的情绪触发信息：所述被摄对象的用户属性信息、所述被摄对象的当前状态信息、所述被摄对象的历史状态信息、所述被摄对象的距离信息、当前环境信息、获取的拍摄主题信息、拍摄辅助信息的输出设备信息、所述被摄对象的历史触发选择信息。

其中，所述情绪触发信息包括如下至少一项：

当所述情绪触发信息包括AR显示信息时，还包括：

调整单元2104，用于根据所述被摄对象针对所述AR显示信息的交互操作，调整输出的所述AR显示信息。

第一输出子单元21021，具体用于获取所述被摄对象的当前表情信息；确定所述被摄对象的当前表情信息与所述目标表情信息之间的差异；基于确定的差异，确定对应所述目标表情信息的表情调整提示信息。

第一输出子单元21021，进一步用于确定所述当前表情信息和所述目标表情信息分别对应的人脸关键点；将所述当前表情信息和所述目标表情信息分别对应的人脸关键点进行比对，得到所述被摄对象的当前表情信息与所述目标表情信息之间的差异。

第二输出子单元21022，具体用于根据所述表情调整提示信息与所述被摄对象的当前表情信息，确定对应的AR显示信息，输出所述AR显示信息；或通过多媒体信息的方式，输出对应所述目标表情信息的表情调整提示信息。

还包括：

抓怕单元2105，用于根据所述被摄对象的当前表情信息，预估所述被摄对象在设定帧数后的表情信息；若预估的表情信息和所述目标表情信息一致，则对所述被摄对象的图像进行抓拍。

抓怕单元2105，具体用于根据所述被摄对象的当前表情信息，检测所述被摄对象的当前人脸关键点信息；根据检测出的当前人脸关键点信息，预估所述被摄对象在设定帧数之后的人脸关键点信息；根据预估的人脸关键点信息，确定所述被摄对象在设定帧数后的表情信息。

还包括：

图像处理单元2106，用于根据所述目标表情信息，对拍摄的图像进行相应处理；

所述相应处理包括下述至少一项：

设置与所述目标表情信息对应的滤镜；

添加与所述目标表情信息对应的贴图；

生成与所述目标表情信息对应的AR显示信息。

本发明还提供了一种终端设备，如图22所述，包括：

处理器2201；以及

存储器2202，配置用于存储机器可读指令，所述指令在由所述处理器2801执行时，使得所述处理器2201执行上述的辅助拍摄方法。

本发明中，通过上述技术方案，使得不擅长拍照的用户也可以拍出表情自然、情感丰富的高品质照片；并且通过该方案中的处理，使得拍照过程更加有趣，也为用户提供了更好的拍照体验。

本技术领域技术人员可以理解，可以用计算机程序指令来实现这些结构图和/或框图和/或流图中的每个框以及这些结构图和/或框图和/或流图中的框的组合。本技术领域技术人员可以理解，可以将这些计算机程序指令提供给通用计算机、专业计算机或其他可编程数据处理方法的处理器来实现，从而通过计算机或其他可编程数据处理方法的处理器来执行本发明公开的结构图和/或框图和/或流图的框或多个框中指定的方案。

其中，本发明装置的各个模块可以集成于一体，也可以分离部署。上述模块可以合并为一个模块，也可以进一步拆分成多个子模块。

本领域技术人员可以理解附图只是一个优选实施例的示意图，附图中的模块或流程并不一定是实施本发明所必须的。

本领域技术人员可以理解实施例中的装置中的模块可以按照实施例描述进行分布于实施例的装置中，也可以进行相应变化位于不同于本实施例的一个或多个装置中。上述实施例的模块可以合并为一个模块，也可以进一步拆分成多个子模块。

上述本发明序号仅仅为了描述，不代表实施例的优劣。

以上公开的仅为本发明的几个具体实施例，但是，本发明并非局限于此，任何本领域的技术人员能思之的变化都应落入本发明的保护范围。

Claims

1.一种辅助拍摄方法，其特征在于，包括：

根据针对被摄对象对应的表情序列中的表情信息的选择操作，确定所述被摄对象的目标表情信息，所述表情序列包括所述被摄对象在至少一个角度下的至少一个表情类型对应的表情变化序列，所述表情信息包括表情类型和/或表情；

根据所述目标表情信息输出拍摄辅助信息。

2.如权利要求1所述方法，其特征在于，所述根据针对被摄对象对应的表情序列中的表情信息的选择操作，确定所述被摄对象的目标表情信息，包括：

获取被摄对象对应的表情序列；

输出所述表情序列；

3.如权利要求2所述方法，其特征在于，所述获取被摄对象对应的表情序列，包括：

获取所述被摄对象至少一张人脸图像；

根据该至少一张人脸图像，构建所述被摄对象的人脸模型；

利用所述人脸模型生成所述被摄对象对应的表情序列。

4.如权利要求3所述方法，其特征在于，所述获取被摄对象至少一张人脸图像，包括：

采集所述被摄对象至少一张人脸图像。

5.如权利要求1-4中任一项所述方法，其特征在于，还包括：

输出所述推荐表情信息。

6.如权利要求1-5中任一项所述方法，其特征在于，根据所述目标表情信息输出拍摄辅助信息，包括：

7.如权利要求6所述方法，其特征在于，所述拍摄辅助信息包括如下至少一项：

发音内容信息；

情绪触发信息；

表情调整提示信息。

8.如权利要求7所述方法，其特征在于，确定对应所述目标表情信息的发音内容信息，包括：

9.如权利要求7或8所述方法，其特征在于，输出对应所述目标表情信息的发音内容信息，包括：

10.如权利要求7所述方法，其特征在于，确定对应所述目标表情信息的情绪触发信息，包括：

11.如权利要求7或10所述方法，其特征在于，所述情绪触发信息包括如下至少一项：

12.如权利要求11所述方法，其特征在于，当所述情绪触发信息包括AR显示信息时，所述方法还包括：

13.如权利要求7所述方法，其特征在于，确定对应所述目标表情信息的表情调整提示信息，包括：

获取所述被摄对象的当前表情信息；

14.如权利要求13所述方法，其特征在于，确定所述被摄对象的当前表情信息与所述目标表情信息之间的差异，包括：

15.如权利要求7、13或14所述方法，其特征在于，输出对应所述目标表情信息的表情调整提示信息，包括：

16.如权利要求1-15中任一项所述方法，其特征在于，还包括：

17.如权利要求16所述方法，其特征在于，根据获取的被摄对象的当前表情信息，预估所述被摄对象在设定帧数后的表情信息，包括：

18.如权利要求1-17中任一项所述方法，其特征在于，还包括：

根据所述目标表情信息，对拍摄的图像进行相应处理；

所述相应处理包括下述至少一项：

设置与所述目标表情信息对应的滤镜；

添加与所述目标表情信息对应的贴图；

生成与所述目标表情信息对应的AR显示信息。

19.一种终端设备，其特征在于，包括：

获取单元，用于根据针对被摄对象对应的表情序列中的表情信息的选择操作，确定所述被摄对象的目标表情信息，所述表情序列包括所述被摄对象在至少一个角度下的至少一个表情类型对应的表情变化序列，所述表情信息包括表情类型和/或表情；

输出单元，用于根据所述目标表情信息输出拍摄辅助信息。

20.如权利要求19所述终端设备，其特征在于，所述获取单元，包括：

第一获取子单元，用于获取被摄对象对应的表情序列；

第二获取子单元，用于输出所述表情序列；

第三获取子单元，用于根据针对所述表情序列中的表情信息的选择操作，确定所述被摄对象的目标表情信息。

21.如权利要求20所述终端设备，其特征在于，第一获取子单元具体用于：

获取所述被摄对象至少一张人脸图像；

根据该至少一张人脸图像，构建所述被摄对象的人脸模型；

利用所述人脸模型生成所述被摄对象对应的表情序列。

22.如权利要求21所述终端设备，其特征在于，第一获取子单元，具体用于：

采集所述被摄对象至少一张人脸图像。

23.如权利要求19-22中任一项所述终端设备，其特征在于，该终端设备还包括：

处理单元，用于在被摄对象对应的表情序列中，根据下述至少一项确定所述被摄对象对应的推荐表情信息：所述被摄对象的用户属性信息、所述被摄对象的当前状态信息、所述被摄对象的距离信息、当前环境信息、获取的拍摄主题信息、所述被摄对象的历史表情选择信息；

输出单元，还用于输出所述推荐表情信息。

24.如权利要求19-23中任一项所述终端设备，其特征在于，输出单元包括：

第一输出子单元，用于根据所述目标表情信息，确定对应所述目标表情信息的拍摄辅助信息；

第二输出子单元，用于输出对应所述目标表情信息的拍摄辅助信息，以触发所述被摄对象调整当前表情。

25.如权利要求24所述终端设备，其特征在于，所述拍摄辅助信息包括如下至少一项：

发音内容信息；

情绪触发信息；

表情调整提示信息。

26.如权利要求25所述终端设备，其特征在于，确第一输出子单元具体用于：

27.如权利要求25或26所述终端设备，其特征在于，第二输出子单元，具体用于：

28.如权利要求25所述终端设备，其特征在于，第一输出子单元具体用于：

29.如权利要求25或28所述终端设备，其特征在于，所述情绪触发信息包括如下至少一项：

30.如权利要求29所述终端设备，其特征在于，当所述情绪触发信息包括AR显示信息时，该终端设备还包括：

调整单元，用于根据所述被摄对象针对所述AR显示信息的交互操作，调整输出的所述AR显示信息。

31.如权利要求25所述终端设备，其特征在于，第一输出子单元具体用于：

获取所述被摄对象的当前表情信息；

32.如权利要求31所述终端设备，其特征在于，第一输出子单元进一步用于：

33.如权利要求25、31或32所述终端设备，其特征在于，第二输出子单元，具体用于：

34.如权利要求19-33中任一项所述终端设备，其特征在于，还包括：

抓拍单元，用于根据所述被摄对象的当前表情信息，预估所述被摄对象在设定帧数后的表情信息；若预估的表情信息和所述目标表情信息一致，则对所述被摄对象的图像进行抓拍。

35.如权利要求34所述终端设备，其特征在于，抓怕单元具体用于：

36.如权利要求19-35中任一项所述终端设备，其特征在于，还包括：

图像处理单元，用于根据所述目标表情信息，对拍摄的图像进行相应处理；

所述相应处理包括下述至少一项：

设置与所述目标表情信息对应的滤镜；

添加与所述目标表情信息对应的贴图；

生成与所述目标表情信息对应的AR显示信息。

37.一种终端设备，其特征在于，包括：

处理器；以及

存储器，配置用于存储机器可读指令，所述指令在由所述处理器执行时，使得所述处理器执行权利要求1～18中任一项所述的辅助拍摄方法。