CN117795551A

CN117795551A - 用于自动捕捉和处理用户图像的方法和系统

Info

Publication number: CN117795551A
Application number: CN202280053557.4A
Authority: CN
Inventors: A·库马尔; N·梅纳
Original assignee: Samsung Electronics Co Ltd
Current assignee: Samsung Electronics Co Ltd
Priority date: 2021-08-11
Filing date: 2022-08-01
Publication date: 2024-03-29
Also published as: EP4352690A1; WO2023018084A1; US20230066331A1

Abstract

一种用于自动捕捉和处理用户的图像的方法。该方法可以包括确定从多媒体内容识别的情感水平；通过基于用户信息调整情感水平来确定多媒体内容的经调整的情感水平；基于经调整的情感水平大于第一阈值且基于用户的多个图像而确定的用户的反应小于第二阈值，在时间段内捕捉多个图像；基于多个图像的帧情感水平、多个图像中用户的面部特征或者多个图像中的面部数量中的至少一个对多个图像进行优先级排序；以及处理经优先级排序的图像以生成输出。

Description

用于自动捕捉和处理用户图像的方法和系统

技术领域

本公开涉及一种用于智能自动相机控制和优先级排序的方法。具体地，本公开涉及一种自动捕捉和处理用户图像的方法和系统。

背景技术

生成个性化媒体的趋势变得非常流行，如图1A和图1B所示。图1A和图1B示出了这种趋势。个性化媒体制作的持续趋势示例如下。

o用户单击自己的图片-创建具有与图片最佳匹配功能的特征(图片的上下文/统计分析)。

o用户单击自己的图片-卡通化贴纸，生成表情(媒体创建基于使用OpenCV中的Vison API)。

o用户单击自己的图片-与图片最匹配的表情符号/GIF建议(图片的上下文或统计分析)。

o视频通话中的媒体过滤器-过滤器实时应用于用户的面部卡通化(面部识别和特征提取)。

o通过记录用户的真实反应，它允许为具有个性化反应的用户创建更个性化的虚拟形象(avatar)。

然而，个性化媒体(诸如个性化图形交换格式(GIF)、贴纸、表情符号的虚拟形象等)可能看起来像用户，但行为不像用户。例如，生成的虚拟形象看起来像用户，但行为不像用户。使用相关技术生成的虚拟形象没有任何个性化动作。虚拟形象的动作是固定的和预先确定的，与用户的真实情感和动作无关。此外，用户需要手动生成个性化媒体，并且不存在自动相机控制。设备的相机不够智能，无法仅记录有意义的内容，从而捕捉用户的真实情感。用户的记录的视频帧可能包含用户以后可能需要编辑和删除的无意义内容，因此，需要自动捕捉和编辑方法。

在相关技术中，媒体的生成仅依赖于用户对相机的输入来生成任何媒体。没有现有的方法可以自动捕捉用户的真实图像。为了捕捉日常生活中珍贵的瞬间，减少用户手动操作捕捉或记录媒体的不便，需要自动启动相机。此外，从任何相关技术方法创建的媒体和/或虚拟形象缺乏多样性，因为为任何用户生成的媒体使用相同样式的改变媒体中的虚拟形象。同时，使用相关技术的方法生成的媒体缺乏对当前媒体情感的正确阐释。相关技术方法存在以下缺点：

·相关技术方法仅具有基于相机控制的特定特征，诸如当每个人微笑时自动拍照，询问“有人眨眼了吗？”，红眼检测。没有适用于所有情况的通用方法。

·相关技术方法不关注相机或媒体生成的自动化。

此外，当前技术在媒体生成中缺乏个性化元素。这些技术没有考虑到自动化或媒体生成的所有用户的情感。目前还没有一种基于上下文的视频自动捕捉技术能够考虑上下文中的情感。此外，媒体中的情感对于用户来说不是个性化的，因此不能正确地描述用户的情绪。

发明内容

问题的解决方案

提供发明内容是为了引入在本公开的详细描述中进一步描述的概念。本公开内容并不旨在限制或定义本公开的范围。

根据本公开的示例实施例的一个方面，提供一种用于自动捕捉和处理用户的图像的方法。所述方法可以包括确定从多媒体内容识别的情感水平。所述方法可以包括通过基于用户信息调整情感水平来确定多媒体内容的经调整的情感水平。所述方法可以包括基于经调整的情感水平大于第一阈值且基于用户的多个图像而确定的用户的反应小于第二阈值，在时间段内捕捉多个图像。所述方法可以包括基于多个图像的帧情感水平、多个图像中用户的面部特征或者多个图像中的面部数量中的至少一个对多个图像进行优先级排序。所述方法可以包括处理经优先级排序的图像以生成输出。

根据本公开的示例实施例的一个方面，提供一种用于自动捕捉和处理用户的图像的电子设备。所述电子设备可以包括至少一个处理器。所述至少一个处理器可以被配置为确定从多媒体内容识别的情感水平。所述至少一个处理器可以被配置为通过基于用户信息调整情感水平来确定多媒体内容的经调整的情感水平。所述至少一个处理器可以被配置为基于经调整的情感水平大于第一阈值且基于用户的多个图像而确定的用户的反应小于第二阈值，在时间段内捕捉多个图像。所述至少一个处理器可以被配置为基于多个图像的帧情感水平、多个图像中用户的面部特征或者多个图像中的面部数量中的至少一个对多个图像进行优先级排序。所述至少一个处理器可以被配置为处理经优先级排序的图像以生成输出。

根据本公开的示例实施例的一个方面，提供了一种计算机可读介质。计算机可读介质存储由电子设备的一个或多个处理器执行的指令。计算机可读介质可以使一个或多个处理器：确定从多媒体内容识别的情感水平。计算机可读介质可以使一个或多个处理器：通过基于用户信息调整情感水平来确定多媒体内容的经调整的情感水平。计算机可读介质可以使一个或多个处理器：基于经调整的情感水平大于第一阈值且基于用户的多个图像而确定的用户的反应小于第二阈值，在时间段内捕捉多个图像。计算机可读介质可以使一个或多个处理器：基于多个图像的帧情感水平、多个图像中用户的面部特征或者多个图像中的面部数量中的至少一个对多个图像进行优先级排序。计算机可读介质可以使一个或多个处理器：处理经优先级排序的图像以生成输出。

附图说明

通过结合附图进行的以下描述，本公开实施例的上述和其他方面、特征和优点将更加显而易见，其中：

图1A和图1B示出了使用个性化内容的趋势；

图2A和图2B示出了用于生成个性化内容的相关技术；

图3示出了用于视频滤波的相关技术；

图4A示出了根据本公开的示例实施例的用于自动捕捉和处理用户图像的方法的流程图；

图4B示出了根据本公开的示例实施例的用于自动捕捉和处理用户图像的方法的流程图；

图5A和图5B示出了根据本公开的示例实施例的内容级别确定机制的示例；

图6A和图6B示出了根据本公开的示例实施例的用于调整内容级别的机制；

图7A-图7G示出了根据本公开的示例性实施例的用于自动控制图像捕捉单元的各个阶段；

图8A-图8M示出了根据本公开的示例性实施例用于对用户的多个图像进行优先级排序的各个阶段；

图9示出了根据本公开的示例实施例生成的各种输出；

图10示出了根据本公开的示例实施例的用于自动捕捉和处理用户图像的系统的框图；

图11示出了根据本公开的示例实施例的用于自动捕捉和处理用户图像的系统的框图；

图12-图14示出了根据本公开示例实施例的机制的各种示例应用；

图15A和图15B示出了相关技术与本公开的示例实施例之间的比较；并且

图16示出了根据本公开的示例实施例的系统架构。

具体实施方式

为了进一步阐明本公开的优点和特征，将参考附图中所示的本公开的示例实施例来提供本公开的描述。应了解，这些附图仅描绘本公开的几个示例实施例，因此不应被视为限制其范围。将结合附图以附加的特定性和细节来描述和解释本公开。

此外，本领域技术人员将理解，为了简单起见对附图中的元素进行了图示，并且可能不必按比例绘制。例如，流程图根据所涉及的最突出步骤来说明方法，以帮助提高对本公开的各个方面的理解。此外，就设备的构造而言，设备的一个或多个组件可以在附图中用常规符号表示，并且附图可以仅示出与理解本公开的实施例相关的那些特定细节，以便不使用对于受益于本文描述的本领域普通技术人员来说显而易见的细节来掩盖附图。

首先应当理解，尽管下面示出了本公开实施例的说明性实现，但是可以使用任何数量的技术来实现本公开，无论这些技术是当前已知的还是存在的。本公开不应以任何方式限制于下文所示的说明性实现、附图和技术，包括本文所示和描述的示例性设计和实现，而是可以在所附权利要求的范围内以及其全部等同物范围内进行修改。

本文中使用的术语“一些”被定义为“无、或一个、或一个以上、或全部”。因此，术语“无”、“一个”、“一个以上”、“一个以上但不是全部”或“全部”将全部属于“一些”的定义。术语“一些实施例”可指代没有实施例或一个实施例或多个实施例或所有实施例。因此，术语“一些实施例”被定义为意味着“没有实施例，或者一个实施例，或者多个实施例，或者所有实施例”

本文采用的术语和结构用于描述、教导和说明一些实施例及其具体特征和元素，并不限制、约束或缩小权利要求或其等同物的精神和范围。

更具体地说，本文中使用的任何术语，例如但不限于“包括”、“包含”、“具有”、“由…组成”及其语法变体，不指定确切的限制或约束，当然也不排除可能添加一个或多个特征或元素，除非另有说明，此外，不得视为排除一个或多个所列特征和元素的可能移除，除非另有限制性语言“必须包括”或“需要包含”的陈述。

无论某一特征或元素是否仅限于一个特征或元素，特定特征或元素可被称为“一个或多个特征”或“一个或多个元素”或“至少一个特征”或“至少一个元素”。此外，术语“一个或多个”或“至少一个”特征或元素的使用并不排除不存在该特征或元素，除非限制语言另有规定，诸如“需要一个或多个特征”或“需要一个或多个元素”

除非另有定义，否则本文中使用的所有术语，尤其是任何技术和/或科学术语可被视为具有本领域普通技术人员通常理解的相同含义。

下面将参考附图详细描述本发明的示例实施例。

图2A和图2B示出了相关技术，诸如生成个性化媒体的增强现实(AR)服务AR区。AR区生成用户的虚拟形象并为用户生成媒体。通过捕捉用户的照片并将来自一组特征的最佳匹配特征分配给虚拟形象来生成虚拟形象。媒体从改变虚拟形象的一组预先存在的样式生成。图3示出了相关技术，诸如视频过滤器。视频滤波器检测用户的面部和面部特征的变化。基于检测的面部特征变化，用户需要选择要应用的过滤器。

图4A示出了根据本发明的示例实施例的用于自动捕捉和处理用户图像的方法的流程图。

在根据图4A的示例性实施例中，提供了一种用于自动捕捉和处理用户图像的方法。

方法400包括在操作401接收多媒体内容。多媒体内容可以是音频和视频内容、文本内容、音频内容和/或视频内容。例如，多媒体内容可以是用户正在观看的内容，或者用户的记录、用户的直播视频等。

然后，在操作403，方法400包括确定与多媒体内容相关联的情感水平。在实施例中，情感可以定义为包含(或表达)在多媒体内容中的感觉，并且情感水平可以定义为该感觉的程度(或极端性)。在实施例中，可以通过使用预配置的确定模型基于从多媒体内容识别的情感来确定情感概率值并基于情感概率值来确定情感水平，确定情感水平。图5A和图5B中描述了确定情感水平的示例实施例。在示例实施例中，多媒体内容是音频/视频(A/V)输入。如图5A所示，A/V输入被提供给音频特征提取单元(501)和视频特征提取单元(503)。音频特征提取单元(501)确定音频特征，诸如基频、基频的时间变化特性、幅度的均方根(RMS)值、语音速度等。视频特征提取单元(503)确定视频特征，诸如镜头长度、颜色直方图、颜色直方图的时间变化特性以及来自视频信号数据的运动向量、面部表情等。基于确定的音频和视频特征，从内容中识别诸如快乐、恐惧、悲伤、惊讶、愤怒、厌恶、畏惧等情感。然后，将提取的音频和视频特征分别提供给情感概率确定音频和视频模型(505、507)，以确定情感概率值。在实施例中，情感概率确定可以包括使用学习音频和视频信号数据预配置的一个或多个统计模型，例如，隐马尔可夫模型。应当注意，可以使用任何其他已知模型来确定情感概率值。基于情感概率值，可以由情感水平确定块(509)确定内容的情感水平(e,v)。情感概率值可以是指示包括特定情感的内容的可能性的值。例如，如图5B所示，当将包含(或可能引起)恐惧情感的输入内容提供给情感水平确定单元(501b)时，情感被确定为“恐惧”，并且内容的情感水平为0.9。在实施例中，情感水平可在0<v<1之间变化，其中0为中等且1为极端。

应当注意，对于诸如文本内容的其它类型的多媒体内容，可以使用本领域的已知技术从内容中识别情感并确定内容的情感水平。

在操作405，基于用户信息调整确定的情感水平，以确定多媒体内容的经调整的情感水平。在实施例中，用户信息可以包括用户的人口统计数据、用户的过去使用历史和过去传感器生物数据中的至少一个。在实施例中，可以通过基于用户信息来确定情感的调整因子并使用调整因子确定经调整的情感水平，确定经调整的情感水平。图6A和图6B中描述了确定经调整的情感水平的示例实施例。内容的情感水平是情感概率的原始量。在内容情感概率和用户在观看内容时感受的情感之间可能没有直接关系。同一内容可能会导致一个用户产生极端情感，但可能会导致另一用户产生中度情感，具体取决于用户的性格。因此，需要根据用户信息调整情感水平。为了考虑上述因素，可以在经调整的情感水平(w)和内容情感水平(v)之间建立以下关系。

w＝v±A，其中A>0，是小的正常数

A是情感水平的调整因子，其可以使用诸如年龄、性别和过去使用模式的用户信息来确定。对于每种情感，可以使用基本强化Q学习模型计算，如下所示：

Acur＝Aprev+aδ

Acur是要计算的调整因子的当前值，Aprev是调整因子的先前值，a是增益因子(例如，通常为0.8)，δ是预期误差，可以使用最大化奖励行动类型Q学习模型来计算。应注意，上述模型只是更新调整因子的示例模型。可使用任何其他已知模型来确定调整因子。基于调整因子A，可以确定内容的经调整的情感水平。例如，如图6B所示，当基于特定用户的用户信息调整情感恐惧的情感水平0.9时，对于该特定用户的情感恐惧，经调整的情感水平被确定为0.8。

在确定经调整的情感水平之后，在操作407，如果经调整的情感水平高于第一阈值水平，则方法400打开图像捕捉设备以在时间段内捕捉用户的多个图像。在实施例中，多个图像描述用户对多媒体内容的反应。在实施例中，第一阈值是识别情感的静态面部表情和动态面部表情的最小表情强度。然而，方法400包括在操作409，如果用户的反应低于第二阈值水平，则关闭图像捕捉设备。

在实施例中，图像捕捉设备可以是无线和/或有线设备(诸如移动设备、电视、膝上型计算机等)的相机。图7A-图7G中示出了自动控制图像捕捉单元(或图像捕捉设备)的示例实施例，例如相机。在此应当注意，术语“图像捕捉单元”和“相机”在整个描述和附图中互换使用。

在实施例中，当用户使用两级阈值对内容作出反应时，本发明自动记录有意义的时刻。如图7A所示，确定是否满足第一阈值(701)。如果是，则打开(ON)相机。根据内容的情感水平进行确定。然后，确定是否满足第二阈值(703)。如果是，则关闭(OFF)相机。根据用户的移动进行确定。在实施例中，双阈值相机控制器(700)自动打开和关闭相机以记录帧，即，在观看恐惧内容的同时在相机的视野内(例如，在前面)的用户的视频和/或图像。在相机打开和关闭时间之间记录用户的帧。从图7B可以看出，双阈值相机控制器(700)的输出是记录在观看内容时捕捉用户真实情感的用户帧。

图7C示出了用于确定第一阈值并检查多媒体内容的情感水平是否满足第一阈值的机制。在实施例中，可以通过识别多媒体内容中的情感来确定第一阈值。例如，可以确定内容中的情感是“恐惧”。在识别出情感之后，可以通过从情感阈值表中检索与识别的情感相对应的值来确定第一阈值。在示例中，假设总共有K个预定情感类别，包括E₁、E₂、…、E_k(例如，快乐、悲伤、恐惧、滑稽等)，并且映射被保持为<E_i,W_i>，其中E_i是第i个情感类别，W_i是E_i的对应阈值。如下所示，并且W_i是常数，0<W_i<1：

E₁<->W₁

E₂<->W₂

E₃<->W₃

E₄<->W₄

在实施例中，W_i是分配给每个情感E_i的固定的预定权重。W_i的值可以从本领域已知的数据库中确定。

情感阈值表的示例如下所示：

【表1】

情感	情感阈值
		快乐	0.2
悲伤	0.4
		惊讶	0.4
愤怒	0.4
		厌恶	0.4
畏惧	0.5
		恐惧	0.5

在实施例中，给定阈值可以基于以静态和动态表情改变为基础而创建的识别数据库，该识别数据库是使用暴露于不同程度的表情(诸如快乐、悲伤、惊讶等)的人类的照片或短视频(例如，一秒)而获得的。情感阈值，即第一阈值可以被定义为识别情感的静态面部表情和动态面部表情所需的最小表情强度，诸如快乐、悲伤、愤怒、厌恶、畏惧和惊讶。

在识别情感e之后，从情感阈值表<e,W>中检索输入情感e的对应第一阈值W，使得，

e∈{E₁,E₂,....,E_k}，并且W是e的对应第一阈值。

基于上面所示的示例情感阈值表，对于作为“恐惧”的输入情感e，可以将对应预定阈值确定为W＝0.5

在确定第一阈值之后，基于阈值函数将经调整的情感水平(w)与第一阈值(W)进行比较，如下所示，

o当w>W时，满足第一阈值

o当w≤W时，不满足第一阈值

如图7C所示，当经调整的情感水平0.8的输入与情感阈值表中的情感“恐惧”相对应的第一阈值映射时，确定经调整的情感水平大于第一阈值。因此，确定满足第一阈值。在确定满足第一阈值之后，相机自动打开，如图7D所示。然而，如果不满足第一阈值，则方法400不进一步进行。如图7D所示，在打开相机之后，获得当前记录帧Ct_c作为相机的输出(如图中的“Out 1”所示)。

图7D-图7F示出了用于确定第二阈值并检查用户的反应是否低于第二阈值的机制。在实施例中，第二阈值是通过确定检测的相对于用户在前一图像的位置与用户在当前图像中的位置相对应的变化来确定的。例如，通过首先确定用户在当前图像和先前图像中的面部位置并且基于确定的面部位置确定用户对当前图像和先前图像中的内容的反应的差异来确定第二阈值。从图像捕捉设备(例如，相机)接收当前图像和先前图像。此后，通过基于用户反应的改变确定连续图像中的差异来确定第二阈值。如图7D所示，当相机打开时，相机在当前时间实例t记录当前帧。在实施例中，

·当前记录帧Ct_c可以是指“相机在当前时间实例t_c记录的单个帧”

·当前记录帧Ct_c可以是指像素的N×M阵列，其中Ct_c(i,j)可以表示对应像素的RGBA值。

在实施例中，保持缓冲器用于存储由相机在先前时间实例t_p捕捉的用户的先前记录帧或图像Ct_p。t_c和t_p之间的关系将在后面解释。

在捕捉用户的当前图像和先前图像之后，确定用户反应的改变。特别地，用户面部的位置是在N×M个像素中确定的。在实施例中，这可以通过使用已知的相关技术来实现，例如，深度神经网络(DNN)面部检测器，其是广泛使用的面部检测技术。假设当用户的面部位于连续图像C_tc和C_tp中的i＝n₁至i＝n₂和j＝m₁至j＝m₂的像素阵列内时，则面部位置确定的输出是n₁、n₂、m₁、m₂，即用户面部的开始和结束像素位置对。可以注意，面部位置确定可以是提高本公开的方法的处理速度的可选操作。也就是说，面部位置确定可以用于通过限制要处理的像素区域来减少确定用户反应的改变所需的处理量，而不是处理当前图像和先前图像的整个区域。

此后，如下确定连续图像C_tc和C_tp中的差异：

for(i＝n₁ to i＝n₂)

for(j＝m₁ to j＝m₂)

D_t(i,j)＝C_tc(i,j)-C_tp(i,j)

D_t是差异图像，该差异图像是当前时间实例处的连续记录帧之间的差异。在实施例中，差异图像D_t是RGBA像素的(n₂-n₁)X(m₂-m₁)阵列，其包含关于用户面部周围的记录帧的改变的信息。因此，确定了用户对用户访问的多媒体内容的移动和/或反应。

在实施例中，t_c和t_p之间的关系定义如下：

t_c＝t_p+N_i

其中，N_i定义了周期性。换言之，上述公式传达了“连续帧差异计算”(或连续帧之间的差异的计算)不是对每个帧执行的，而是根据定义N_i的周期性来周期性地执行的。在实施例中，周期性N_i的值可以取决于正被捕捉的可能情感。由于人类的反应率对于不同情感可能不同，因此可以使用不同的周期性来提高准确性。基于以显示各种情感的个人的图像为基础来识别面部情感的已知技术，可以得出以下结论：

【表2】

情感	Ni
		快乐、恐惧	23-28ms
中性、厌恶、惊讶	70-75ms
		悲伤、愤怒	230-280ms

应当注意，可以使用任何其他已知的方法来计算周期性值。

在实施例中，差异图像D_t可以用于确定第二阈值水平。在确定第二阈值之后，确定用户的反应是否低于第二阈值水平。在图7E中进一步解释该确定。如图7E所示，差异图像D_t被转换为灰度图像D_tgray。因此，D_tgray是灰度像素的(n₂-n₁)X(m_2-m₁)阵列。D_tgray(i,j)是0到1之间的值，其中0表示全黑像素，1表示全白像素。此后，计算黑色分数β。黑色分数β是为用户记录的帧之间的变化量的度量。黑色分数β的值越高表示变化越小或基本上没有变化。在实施例中，黑色分数β表示图像D_tgray中存在的几乎黑色分数的比例，即，

其中，0<ε<0.3是小的正常数。

在计算黑色分数之后，比较黑色分数的值以确定是否满足第二阈值(B)。B的值需要微调。在实施例中，B>0.6。如果满足第二阈值(B)(即，β>B)，则输出为1，即，相机关闭，如图7F所示。否则，重复图4A中的401-407的先前操作。在关闭相机之后，获得从相机打开的时间点到相机关闭的时间点之间的整个记录的视频帧作为相机的输出(如图7F中的“Out 2”所示)。

双阈值相机控制器的输出是在关闭相机之后生成的“记录的视频帧(V)”，如图7G所示。V可以被视为多个帧的阵列，并且可以被定义如下：

V[i]是第i个记录的帧；V[i]是RGBA像素的N x M阵列

在从相机捕捉用户的多个图像之后，在操作411，该方法基于图像中存在的帧情感水平、图像中存在的用户的面部特征和图像中存在的面部数量中的至少一个，对捕捉的用户的多个图像进行优先级排序。在实施例中，通过将多个图像分类成帧集合，对多个图像进行优先级排序，其中每个帧集合包括用于预定义情感类别的用户的图像。此后，根据存在于每个帧集合中的图像计算帧情感水平。然后，通过将预定函数应用于计算的每个帧集合中的帧情感水平，生成优先级值。在实施例中，预定函数可以包括每个帧集合的帧情感水平的加权求和、每个帧中的面部数量的确定以及面部优先级值的确定。基于优先级值，对每个帧集合中的图像进行优先级排序。

图8A-图8M详细示出了根据本公开实施例的用于对用户的多个图像进行优先级排序的各个阶段。在实施例中，优先级排序单元(800)可以对捕捉的用户的多个图像进行优先级排序。在实施例中，优先级排序单元(800)可以细化所接收的记录的帧，基于每个帧的情感水平选择用于媒体生成的帧，并且通过使用以下操作分别对预定义情感类别的帧进行优先级排序：

·确定每个帧的情感水平，并为每个情感类别映射情感阈值。

·选择满足阈值的帧，并对连续(例如，三个或更多个)帧进行复制。

·基于SNF最大化因子生成优先级值，稍后将对此进行详细描述。

·生成用于媒体生成的每个情感类别的优先级排序的帧的阵列。

在实施例中，优先级排序的输入是记录的视频帧阵列(V)，其中V[i]是第i个记录的帧，V[i]为RGBA像素的N×M阵列，并且输出是每个预定义情感类别的帧的优先级排序阵列，如图8A所示。参考图8B-图8M来详细解释帧的优先级排序。

首先，如图8B所示，帧分离器(801b)可以将捕捉的用户的图像分类为帧集合。帧集合可以包括用于预定义情感类别的用户的图像。例如，帧集合可以包括“快乐”情感的用户图像，另一帧集合可以包括“悲伤”情感的用户图像。此后，帧的阵列被传递作为输入，其中帧情感水平被确定用于每个帧集合并且被调整用于每个帧。可以以与上面参考图6A-图6B描述的方式相同的方式来调整帧情感水平。然后，在帧中捕捉用户的面部特征，然后使用支持向量机(SVM)模型进行处理，以识别帧中的主导情感。例如，对于输入阵列V，其中V[i]是第i个记录的帧，并且是RGBA像素的NxM阵列，对于每个帧

V[i]->情感水平确定->帧-情感对(V[i],E'[i])

其中，E'[i]是情感-值对(e',v')，其中e'对应于主导情感，v'对应于其帧v[i]的水平。

此后，基于用户信息调整情感值对，以实现更准确的用户情感水平。经调整的情感水平w'可以计算为w'＝v'±Δ，其中v'是帧情感水平，Δ>0，是小的正常数。Δ的值可以使用诸如年龄、性别和过去使用模式的用户信息来确定。在实施例中，Δ的值可以使用强化学习模型来确定。应注意，可以使用任何其他已知技术来计算Δ的值。图8B示出了在确定帧情感水平之后的输出。

在实施例中，如果帧集合包括单个帧，则帧情感水平可以被确定为帧中的图像的情感水平。然而，如果帧集合包括多个帧，则可以将帧情感水平确定为所有帧的情感值的加权求和。

基于a)单个/多个帧情感对、b)情感类型对帧进行进一步分类。如图8D所示，没有描绘足够的情感值的帧被消除。这种消除可以以两个步骤执行。

阈值W_i'或帧是基于情感类型来计算的。这些阈值可以使用提供静态和动态情感面部的阈值的任何已知数据库来映射。在使用之前，可以对这些值进行进一步归一化。例如，-(e',w')＝(快乐,0.2)。下面提供了映射的示例：

E1'<->W1'

E2'<->W2'

E3'<->W3'

E4'<->W4'

每个情感类别Ei'将被分配阈值Wi'。Wi'是常数，例如，0<Wi'<1。

如果帧集合具有单个帧，则对于e E_k'的任何情感-值帧(V[i],(e',w'))，如果值w'<W_k'，则帧被标记为无效。

如果帧集合具有多个帧，则对这些帧进行进一步处理，以生成任何三个或更多连续有效帧的副本。

在所有选择的单个/多个帧中，每个帧被分类在其预定义情感类别中。连续帧情感对被分类为帧中显示的所有情感，并且如图8E所示，为每个类别保持副本。

此后，通过将预定函数应用于每个帧集合中计算的帧情感水平来生成优先级值。在实施例中，预定函数可以包括每个帧集合的帧情感水平的加权求和、每个帧中面部数量的确定以及面部优先级值的确定。图8F示出了帧情感水平的加权求和的示例实施例。如图8F所示，求和单元(880f)可以用于计算加权求和。求和单元(800f)基于每个选择的帧情感对的帧情感水平将它们映射到求和值。在实施例中，求和值(S)被分配给每个帧情感对。单个帧情感对的总和值是该帧本身的帧情感水平。多个帧情感对的求和值是所有帧情感的情感水平的加权求和，除以对的总数，如下所示：

图8G示出了多个帧情感对V[1]到V[4]的给定输入的示例求和值。

参考图8H来描述面部优先级值的确定。如图8H所示，可以使用最大化单元(800h)计算面部优先级值。在实施例中，面部优先级值(F)可以通过确定在每个帧集合的图像中预定义面部特征的存在来确定，其中预定义面部特征被分配预定权重，并且基于预定义面部特征的存在和预定权重来确定面部优先级值。特别地，面部优先级值可以基于相关帧中某些面部特征的存在来确定。例如，每个情感类别都有一个面部特征列表“r”，例如，r_i[j]表示第i个情感类别中的第j个特征。预定权重“t”被分配给这些特征，例如，ti[j]表示第i个情感类别中的第j个特征的权重。在实施例中，权重的相对优先级可以通过使用相关技术来确定，诸如用于面部表情的多情感类别的技术。在实施例中，可以提供六种基本情感的面部特征之间的相对优先级，例如，(快乐-抬起脸颊＝1，嘴角拉起＝2)。

每个类别的优先级排序的帧-情感对阵列

属于第k个情感类别的任何帧V[i]的面部优先级被计算如下:

在上面的公式中，面部优先级值(F)被计算为帧中存在的所有面部特征的权重之和。图8I示出了对于来自恐惧类别的帧V[2]的给定输入的示例面部优先级值。

图8J示出了优先级值的生成。如图8J所示，基于预定函数来生成优先级值。在实施例中，预定函数可以是SNF函数，即帧情感水平(S)、帧情感对中的面部数量(N)和面部优先级值(F)的加权求和值。S、N和F中的每一个分别被赋予预定权重s_k、n_k和f_k，其中k是情感的类别。基于这些权重创建＜情感，优先级因子＞映射。可以使用基本的梯度下降模型来确定权重。这些权重的基本值是为所有情感决定的，使得：

1)s_k+n_k+f_k＝1

2)s_k+f_k>＝n_k

3)s_k+f_k>＝0.75

应注意，用于在最大化单元中计算SNF优先级值的上述公式可以根据输出要求而改变。如图8K所示，可以使用基本梯度下降模型分别对每个情感进一步微调这些值。在示例中，用于情感识别的样本图片可以用于训练模型并微调这些值。还可以根据接收的反馈进一步调整这些值，从而为每个用户生成个性化优先级权重值。用于调整权重的模型可以根据最终需要生成的输出而改变。此后，基于优先级因子及其权重来计算优先级值，并分配优先级值(SNF)。

在生成优先级值之后，可以对每个帧集合中的图像进行优先级排序，如图8L中所讨论的。在实施例中，SNF最大化单元(800h)可以基于优先级值对图像进行优先级排序。在实施例中，基于帧-情感对的优先级值对其进行排序。在实施例中，可以使用以下情感优先级因子映射：

情感优先因子映射

E1'<->(s1,n1,f1)

E2'<->(s2,n2,f2)

......

Ek'<->(sk,nk,fk)

每个类别中的对被单独地进行优先级排序，这导致每个情感类别的单独优先级排序的帧。基于s、n、f权重的SNF优先级计算不受限制，并且可以根据所需的输出来改变。下面提供根据记录的帧进行优先级计算的示例。

对于属于第k个情感类别的任何帧V[i]，可以如下计算SNF优先级：

类别k的帧的优先级值(SNF)＝S*s_k+(1-N)*n_k+F*f_k

图8M示出了对多个帧情感对V[1]至V[4]的给定输入的恐惧类别中的经优先级排序的图像。

在对用户的多个图像进行优先级排序之后，方法400在操作413处理经优先级排序的图像以生成输出。在实施例中，处理单元可以基于输出要求执行各种动作。可以在该块中执行的一些出来如下，下面将详细解释：

·帧增强

·媒体生成

·健康指数计算

·视频编辑

帧增强：

可以通过调整帧中的模糊、照明、清晰度和颜色内容来增强从先前块接收的帧。可以使用来自OpenCV的视觉API来执行调整和增强。

媒体生成：

根据输出要求，可以从帧生成媒体，例如，帧-情感对制作帧的简单卡通化版本，使用过去情感数据创建虚拟形象，以及在模拟用户显示的情感的视频通话中创建直播虚拟形象。它还可以用于创建用户的个性化模因模板，编辑与用户显示的情感匹配的可用模因。

健康指数计算：

可以对帧进行分析以从显示的情感计算快乐指数。还可以监测高快乐指数和低快乐指数的频率，其可以进一步用于向用户通知任何潜在风险。

视频编辑：

记录在媒体中的视频帧可以根据用户要求和过去使用进行编辑。可以根据需要执行诸如修剪、缩放、连接或覆盖动画的基本编辑，以向用户提供编辑的输出。

在处理经优先级排序的图像之后，可以生成各种输出，如图9所示。例如，可以生成贴纸/图形交换格式(GIF)/模因作为输出。在示例中，可以生成用于监测用户情绪或健康状况(诸如紧张水平)的情绪计量作为输出。在示例中，可以生成编辑的视频作为输出。在示例中，可以生成实时创建的直播虚拟形象，该直播虚拟形象穿着并表现得像记录的帧中的用户。应注意，提供上述示例仅用于说明目的，作为可以根据本公开生成的输出的示例。然而，使用本公开的上述实施例，其他形式的输出生成也是可能的，并且所有这样生成的输出都将落入本公开的范围内。

图10示出了根据本公开的示例实施例的用于自动捕捉和处理用户图像的系统的框图。如图10所示，系统1000可以包括被配置为接收多媒体内容的输入单元(1001)。系统(1000)还可以包括确定单元(1003)，被配置为：确定与多媒体内容相关联的情感水平，并且通过基于用户信息调整情感水平来确定多媒体内容的经调整的情感水平。在实施例中，确定单元(1003)可以包括可以根据图5A和图5B的示例实施例操作的内容情感水平确定器；以及可以根据图6A和图6B的示例实施例操作的个性化调整器。系统(1000)还可以包括双阈值相机控制器(1005)，被配置为：如果经调整的情感水平高于第一阈值水平，则打开图像捕捉设备以在时间段内捕捉用户的多个图像，其中多个图像描绘用户对多媒体内容的反应；并且如果用户的反应低于第二阈值水平，则关闭图像捕捉设备。在实施例中，双阈值相机控制器(1005)还可以包括情感水平阈值检查器、连续帧区分器和移动水平阈值检查器，其可以根据图7A-图7G的示例实施例运行。系统(1000)还可以包括优先级排序单元(1007)，被配置为基于图像中存在的帧情感水平、图像中存在的用户的面部特征和图像中存在的面部数量中的至少一个对捕捉的用户的多个图像进行优先级排序。在实施例中，优先级排序单元(1007)可以包括帧分离器、求和单元和最大化单元，这些单元已经参考图8A-图8M进行了描述。系统(1000)还可以包括处理单元(1009)，被配置为处理经优先级排序的图像以生成输出。在实施例中，处理单元(1009)还可以包括用于处理经优先级排序的图像的后处理器和用于生成输出的输出生成器，如参考图9所述。如上所述，多媒体内容可以包括音频/视频内容、文本内容、音频内容或视频内容。在文本内容的情况下，可以执行适当的文本内容分析来代替A/V内容视频分析，如参考图5A-图5B所讨论的。可以对文本执行分析以确定文本中包含的情感。可以单独对音频执行相同的处理，包括人声/非人声音频，以确定音频情感概率。此外，可以单独对视频执行相同的处理以确定视频情感概率。音频情感概率可以指示音频包括特定情感的可能性，视频情感概率可以表示视频包括特定情感的可能性。系统(1000)还可以包括本领域技术人员已知的各种其他实体/单元，诸如媒体设备、设备上加速单元、数据库等。因此，对这些单元的描述不提供说明书的简洁性。此外，应当注意，系统(1000)可以被配置为执行图4A-图9的示例实施例。

在示例实施例中，各种单元1001、1003、1005、1007、1009可以是单个处理单元或多个单元，所有这些单元都可以包括多个计算单元。各种单元1001、1003、1005、1007、1009可以实现为一个或多个微处理器、微型计算机、微控制器、数字信号处理器、中央处理单元、状态机、逻辑电路和/或基于操作指令操纵信号的任何设备。在其他能力中，处理器各种单元1001、1003、1005、1007、1009可以被配置为获取并执行存储在存储器中的计算机可读指令和数据。处理器各种单元1001、1003、1005、1007、1009可以包括一个或多个处理器。此时，一个或多个处理器可以是通用处理器，诸如中央处理单元(CPU)、应用处理器(AP)等，仅图形处理单元，诸如图形处理单元(GPU)、视觉处理单元(VPU)，和/或人工智能(AI)专用处理器，诸如神经处理单元(NPU)。一个或多个处理器根据存储在非易失性存储器和易失性存储器中的预定义操作规则或人工智能(AI)模型来控制输入数据的处理。预定义操作规则或人工智能模型是通过训练或学习提供的。

图4B示出了根据本公开的示例实施例的用于自动捕捉和处理用户图像的方法的流程图。

方法420包括在操作421处确定与多媒体内容相关联的情感水平。在实施例中，情感可以定义为多媒体内容中包含(或表达)的感觉，并且情感水平可以定义为该感觉的程度(或极端性)。在实施例中，情感水平可以通过使用预配置的确定模型基于从多媒体内容识别的情感来确定情感概率值，并基于情感概率值来确定情感水平来确定。在图5A和图5B中描述了情感水平的确定的示例实施例。

在操作423，基于用户信息调整确定的情感水平，以确定多媒体内容的经调整的情感水平。在实施例中，用户信息可以包括用户的人口统计数据、用户过去使用历史和过去传感器生物数据中的至少一个。在实施例中，经调整的情感水平可以通过基于用户信息来确定情感的调整因子并使用调整因子来确定经调整的情感水平来确定。图6A和图6B描述了确定经调整的情感水平的示例实施例。内容的情感水平是情感概率的原始量。

在操作425，方法420包括基于经调整的情感水平大于第一阈值且基于用户的多个图像而确定的用户的反应小于第二阈值，在时间段内捕捉多个图像。在实施例中，多个图像描绘了用户对多媒体内容的反应。在实施例中，第一阈值是识别情感的静态面部表情和动态面部表情的最小表情强度。

在操作427，方法420包括基于多个图像的帧情感水平、多个图像中用户的面部特征或者多个图像中的面部数量中的至少一个对多个图像进行优先级排序。在操作429，方法420包括处理经优先级排序的图像以生成输出。

图11示出了根据本公开的示例实施例的用于自动捕捉和处理用户图像的系统1100的框图。如图11所示，在后处理器中提供了附加AR虚拟形象更新器。在该实施例中，所公开的方法可以在连续帧区分器中执行全帧处理，即，可以处理整个帧，而不是仅在用户面部周围处理记录媒体。除了附加AR虚拟形象更新器之外，系统1100以与参考图10所讨论的类似的方式运行。

图12-图14示出了根据本公开的示例实施例的基于机制的各种示例应用。例如，图12和图13示出了由本公开的技术生成的一些可能输出，诸如基于用户观看的内容的用户的个性化图片，以及用户的个性化2D/3D虚拟形象。类似地，图14示出了本公开的一些用例场景，下面将对此进行讨论：

1)野生动物捕捉：智能相机控制可用于检测稀有动物和动物的任何运动，以捕捉动物的重要时刻。特别是，相机可能会放置数小时或数天，以自行捕捉野生动物的相关照片。它节省了用户等待完美移动以捕捉野生动物图像的时间，并通过只捕捉相关媒体来节省存储空间。

2)闭路电视(CCTV)相机控制：智能相机可以在诸如博物馆、图书馆的相当大的地方使用，只捕捉相关AV内容，而不是记录所有内容。特别是，在相当大的地方使用智能安全相机可以让相机自动捕捉到任何检测到的动作。它节省了存储并节省了分析相关内容的安全足迹的时间。

3)自动视频编辑：智能相机可用于记录视频，并根据上下文的相关性对内容应用基本的视频编辑功能，诸如修剪、缩放等。特别地，在基于上下文相关性捕捉视频的同时，可以实时应用基本编辑功能。该功能可用于电影制作和短视频创作的视频编辑。

图15A和15B示出了相关技术与本公开的示例实施例之间的比较。如图15A所示，相关技术具有以下缺点：

1.缺乏多样性-固定的GIF和贴纸集合可用；

2.搜索最适合的-用户需要在可用选项中进行搜索，以最好地表达他们的反应；

3.具有固定情感的AR表情符号-AR表情符号表达动作和情感有局限性；以及

4.需要手动生成虚拟形象-没有自动GIF生成方法的方法。

另一方面，如图15B所示，根据示例实施例提供的技术具有以下优点：

1.增加了多样性-基于观看的多媒体内容量，增加了GIF和贴纸的多样性；

2.在真实情感中搜索-用户不需要搜索他人提供的动作和情感，而是可以使用他或她的个人反应集合；

3.贴纸和GIF的自动生成-用户设备可以根据用户的反应自动生成贴纸和GIF，供用户用来表达情感；以及

4.自动虚拟形象生成-可以从生成的媒体自动创建能够模仿情感的个性化虚拟形象。

图16示出了根据本公开实施例的系统架构，并以计算机系统1600的形式示出了系统1000的示例硬件配置。计算机系统1600可以包括指令集，这些指令可以被执行以使计算机系统1600执行所公开的方法的任何一个或多个操作。计算机系统1600可以作为独立设备操作，或者可以例如使用网络连接到其他计算机系统或外围设备。

在联网部署中，计算机系统1600可以作为服务器操作，或者在服务器-客户端用户网络环境中作为客户端用户计算机操作，或者作为对等(或分布式)网络环境中的对等计算机系统操作。计算机系统1600还可以被实现为或被合并在各种设备上，诸如个人计算机(PC)、平板电脑、个人数字助理(PDA)、移动设备、掌上电脑、膝上型计算机、台式计算机、通信设备、无线电话、陆线电话、网络设备、网络路由器、交换机或桥接器，或者能够执行指定该机器要采取的动作的指令集(顺序或其他)的任何其他机器。此外，虽然示出了单个计算机系统1600，但术语“系统”也应被解释为包括单独或联合执行一个或多个指令集以执行一个或多个计算机功能的系统或子系统的任何集合。

计算机系统1600可以包括处理器1602，例如中央处理单元(CPU)、图形处理单元(GPU)或两者。处理器1602可以是各种系统中的组件。例如，处理器1602可以是标准个人计算机或工作站的一部分。处理器1602可以是一个或多个通用处理器、数字信号处理器、专用集成电路、现场可编程门阵列、服务器、网络、数字电路、模拟电路其组合，或者用于分析和处理数据的其他现在已知的或以后开发的设备。处理器1602可以实现软件程序，诸如手动生成(即编程)的代码。

计算机系统1600可以包括存储器1604，存储器1604可以经由总线1608进行通信。存储器1604可以包括但不限于计算机可读存储介质，诸如各种类型的易失性和非易失性存储介质，包括但不局限于随机存取存储器、只读存储器、可编程只读存储器、电可编程只读存储器、电可擦除只读存储器、闪存、磁带或磁盘、光学介质等。在示例中，存储器1604包括用于处理器1602的高速缓存或随机存取存储器。在替代示例中，存储器1604与处理器1602分离，诸如处理器的高速缓冲存储器、系统存储器或其他存储器。存储器1604可以是用于存储数据的外部存储设备或数据库。存储器1604可操作用于存储可由处理器1602执行的指令。图中所示或所描述的功能、动作或任务可以由编程处理器1602执行，用于执行存储在存储器1604中的指令。功能、动作或任务独立于特定类型的指令集、存储介质、处理器或处理策略，并且可以由单独或组合操作的软件、硬件、集成电路、固件、微代码等来执行。同样，处理策略可以包括多处理、多任务处理、并行处理等。

计算机系统1600还可以包括或可以不包括显示器1610，诸如液晶显示器(LCD)、有机发光二极管(OLED)、平板显示器、固态显示器、阴极射线管(CRT)、投影仪、打印机或用于输出确定的信息的其他现在已知或以后开发的显示设备。显示器1610可以充当用户接收处理器1602的功能结果的接口，或者具体地充当与存储在存储器1604或驱动单元1616中的软件相关联的接口。

此外，计算机系统1600可以包括用户输入设备1612，被配置为允许用户与系统1600的任何组件交互。计算机系统1600还可以包括驱动单元1616(例如，磁盘或光学驱动单元)。磁盘驱动单元1616可以包括计算机可读介质1622，其中可以嵌入一个或多个指令1624的集合，例如，软件。此外，指令1624可以体现所描述的方法或逻辑中的一个或多个。在示例中，在计算机系统1600执行期间，指令1624可以完全或至少部分地驻留在存储器1604内或处理器1602内。

本公开设想了一种计算机可读介质，包括指令1624或者响应于传播信号接收并执行指令1624，使得连接到网络1626的设备可以通过网络1626传送语音、视频、音频、图像或任何其他数据。此外，可以经由通信端口或接口1620或使用总线1608在网络1626上发送或接收指令1624。通信端口或接口1620可以是处理器1602的一部分，或者可以是单独的组件。通信端口1620可以在软件中创建，或者可以在硬件中创建物理连接。通信端口1620可以被配置为与网络1626、外部介质、显示器1610、或系统1600中的任何其他组件或其组合连接。与网络1626的连接可以是物理连接，诸如有线以太网连接，或者可以无线地建立。同样地，与系统1600的其他组件的附加连接可以是物理的或者可以无线地建立。可替换地，网络1626可以直接连接到总线1608。

网络1626可以包括有线网络、无线网络、以太网AVB网络或其组合。无线网络可以是蜂窝电话网络、802.11、802.16、802.20、802.1Q或WiMax网络。此外，网络826可以是诸如互联网的公共网络、诸如内联网的专用网络或其组合，并且可以利用现在可用或以后开发的各种网络协议，包括但不限于基于TCP/IP的网络协议。系统不限于使用任何特定标准和协议进行操作。例如，可以使用互联网和其他分组交换网络传输的标准(例如，TCP/IP、UDP/IP、HTML和HTTP)。

至少凭借上述特征，本公开的示例实施例提供了一种用于自动控制诸如相机的图像捕捉单元以捕捉用户在观看、阅读和/或收听多媒体内容时的实时反应的方法。此外，本公开的示例实施例基于用户反应对用户的图像进行优先级排序，并使用经优先级排序的图像生成个性化媒体。

虽然使用了特定语言描述本公开，但不打算因此而产生任何限制。如本领域技术人员显而易见的，可以根据本公开的发明概念对方法进行各种工作修改。

附图和以上描述给出了实施例的示例。本领域技术人员将理解，所描述的元件中的一个或多个可以组合成单个功能元件。可替换地，某些元件可以被分割成多个功能元件。可以将来自一个实施例的元件添加到另一实施例中。例如，本文描述的处理的顺序可以改变，并且不限于本文描述的方式。

此外，任何流程图的动作都不需要按照所示的顺序执行；也不一定需要执行所有的动作。此外，那些不依赖于其他行为的行为可以与其他行为并行执行。示例实施例的范围决不受这些具体示例的限制。无论规范中是否明确给出，许多变化都是可能的，诸如结构、尺寸和材料使用的差异。实施例的范围至少与以下权利要求所给出的范围一样宽。

上面已经关于具体实施例描述了益处、其他优点和问题的解决方案。然而，益处、优点、问题的解决方案以及可能导致任何益处、优点或解决方案发生或变得更加明显的任何组成部分不应被解释为任何或所有权利要求的关键、必需或基本特征或组成部分。

根据本公开的示例实施例的一个方面，提供了一种用于自动捕捉和处理用户的图像的方法。该方法包括：确定从多媒体内容识别的情感水平；通过基于用户信息调整情感水平来确定多媒体内容的经调整的情感水平；基于经调整的情感水平大于第一阈值，打开图像捕捉设备以在时间段内捕捉用户的多个图像；基于以多个图像为基础确定的用户的反应小于第二阈值，关闭图像捕捉设备；基于多个图像的帧情感水平、多个图像中用户的面部特征或者多个图像中的面部数量中的至少一个对多个图像进行优先级排序；以及处理经优先级排序的图像以生成输出。该方法可以包括确定从多媒体内容识别的情感水平。该方法可以包括通过基于用户信息调整情感水平来确定多媒体内容的经调整的情感水平。该方法可以包括基于经调整的情感水平大于第一阈值且基于用户的多个图像而确定的用户的反应小于第二阈值，在时间段内捕捉多个图像。该方法可以包括基于多个图像的帧情感水平、多个图像中用户的面部特征或者多个图像中的面部数量中的至少一个对多个图像进行优先级排序。该方法可以包括处理经优先级排序的图像以生成输出。

根据本公开的实施例，确定多媒体内容的情感水平可以包括通过使用预配置的确定模型，基于使用预配置的确定模型从多媒体内容识别的情感来确定情感概率值。确定多媒体内容的情感水平可以包括基于情感概率值来确定情感水平。

根据本公开的实施例，确定经调整的情感水平可以包括基于用户信息来确定情感的调整因子。用户信息可以包括用户的人口统计数据、用户的过去使用历史或者过去传感器生物数据中的至少一个。确定经调整的情感水平可以包括基于调整因子来确定经调整的情感水平。

根据本公开的实施例，第一阈值可以通过从情感阈值表中检索与识别的情感相对应的值而被确定。

根据本公开的实施例，第一阈值可以是要被检测的情感的静态面部表情和动态面部表情中的至少一个的最小表情强度。

根据本公开的实施例，第二阈值可以通过确定用户在当前捕捉图像和先前捕捉图像中的位置而被确定。第二阈值可以通过基于与用户在当前捕捉图像和先前捕捉图像中的位置相对应的区域确定当前捕捉图像和先前捕捉图像中的差异并基于差异确定用户的反应的改变而被确定，从而确定第二阈值。

根据本公开的实施例，对多个图像进行优先级排序可以包括：将多个图像分类为至少一个帧集合，其中，每个帧集合包括与预定义情感类别相对应的用户的图像。对多个图像进行优先级排序可以包括：对于至少一个帧集合中的每一个，从每个帧集合中包括的图像获得帧情感水平。对多个图像进行优先级排序可以包括：通过将预定函数应用于每个帧集合中的所获得的帧情感水平来生成优先级值，其中，预定函数包括每个帧集合的帧情感水平的加权求和。对多个图像进行优先级排序可以包括：基于优先级值对每个帧集合中的图像进行优先级排序。

根据本公开的实施例，可以通过基于帧集合中包括的图像的情感值的加权求和来确定帧情感水平，获得帧集合的帧情感水平。

根据本公开的实施例，预定函数可以包括通过确定在每个帧集合的图像中存在至少一个预定义面部特征来确定面部优先级值，其中，至少一个预定义面部特征中的每一个被分配预定权重。预定函数可以包括基于存在至少一个预定义面部特征以及预定权重来确定面部优先级值。

根据本公开的实施例，处理经优先级排序的图像可以包括增强经优先级排序的图像。处理经优先级排序的图像可以包括从经优先级排序的图像生成新媒体内容。处理经优先级排序的图像可以包括获得用户的健康指数。处理经优先级排序的图像可以包括编辑多媒体内容。处理经优先级排序的图像可以包括增强经优先级排序的图像，或者从经优先级排序的图像生成新媒体内容。对经优先级排序的图像进行处理可以包括获得用户的健康指数，或者编辑多媒体内容。处理经优先级排序的图像可以包括增强经优先级排序的图像，或者获得用户的健康指数。对经优先级排序的图像进行处理可以包括从经优先级排序的图像生成新媒体内容，或者编辑多媒体内容。处理经优先级排序的图像可以包括从经优先级排序的图像生成新媒体内容，获得用户的健康指数，或者编辑多媒体内容。处理经优先级排序的图像可以包括增强经优先级排序的图像，获得用户的健康指数，或者编辑多媒体内容。处理经优先级排序的图像可以包括增强经优先级排序的图像，从经优先级排序的图像生成新媒体内容，或者编辑多媒体内容。处理经优先级排序的图像可以包括增强经优先级排序的图像，从经优先级排序的图像生成新媒体内容，或者获得用户的健康指数。处理经优先级排序的图像可以包括增强经优先级排序的图像，从经优先级排序的图像生成新媒体内容，获得用户的健康指数，或者编辑多媒体内容。增强可以包括调整经优先级排序的图像中的模糊、照明、清晰度或颜色内容中的至少一个。新媒体内容可以包括用户的表情符号、虚拟形象、视频、音频或动画图像中的至少一个。健康指数可以指示用户的情绪。编辑可以包括缩放、修剪或动画化多媒体内容中的至少一个。

根据本公开的实施例，多媒体内容可以包括音频和视频内容、文本内容、音频内容或视频内容中的至少一个。

根据本公开的实施例，多媒体内容可以包括直播内容或存储内容中的至少一个。

根据本公开的示例实施例的一个方面，提供一种用于自动捕捉和处理用户的图像的电子设备。该电子设备可以包括至少一个处理器。该至少一个处理器可以被配置为确定从多媒体内容识别的情感水平。该至少一个处理器可以被配置为通过基于用户信息调整情感水平来确定多媒体内容的经调整的情感水平。该至少一个处理器可以被配置为基于经调整的情感水平大于第一阈值且基于用户的多个图像而确定的用户的反应小于第二阈值，在时间段内捕捉多个图像。该至少一个处理器可以被配置为基于多个图像的帧情感水平、多个图像中用户的面部特征或者多个图像中的面部数量中的至少一个对多个图像进行优先级排序。该至少一个处理器可以被配置为处理经优先级排序的图像以生成输出。

根据本公开的实施例，至少一个处理器可以被配置为通过使用预配置的确定模型，基于从多媒体内容识别的情感来确定情感概率值，从而确定情感水平。至少一个处理器可以被配置为通过基于情感概率值来确定情感水平来确定情感水平。

根据本公开的实施例，至少一个处理器可以被配置为通过基于用户信息来确定情感的调整因子来确定经调整的情感水平，其中，用户信息包括用户的人口统计数据、用户的过去使用历史或者过去传感器生物数据中的至少一个。至少一个处理器可以被配置为通过基于调整因子来确定经调整的情感水平来确定经调整的情感水平。

根据本公开的实施例，至少一个处理器可以被配置为通过从情感阈值表中检索与识别的情感相对应的值来确定第一阈值。

根据本公开的实施例，至少一个处理器可以被配置为通过确定用户在当前捕捉图像和先前捕捉图像中的位置来确定第二阈值。至少一个处理器可以被配置为通过基于与用户在当前捕捉图像和先前捕捉图像中的位置相对应的区域确定当前捕捉图像和先前捕捉图像的差异并基于差异确定用户的反应的改变来确定第二阈值，从而确定第二阈值。

根据本公开的实施例，至少一个处理器可以被配置为通过将多个图像分类为至少一个帧集合对多个图像进行优先级排序，其中，每个帧集合包括与预定义情感类别相对应的用户的图像。至少一个处理器可以被配置为通过对于至少一个帧集合中的每一个从每个帧集合中包括的图像获得帧情感水平来对多个图像进行优先级排序。至少一个处理器可以被配置为通过将预定函数应用于每个帧集合中的所获得的帧情感水平来生成优先级值，从而对多个图像进行优先级排序，其中，预定函数包括每个帧集合的帧情感水平的加权求和。至少一个处理器可以被配置为通过基于优先级值对每个帧集合中的图像进行优先级排序对多个图像进行优先级排序。

根据本公开的实施例，至少一个处理器可以被配置为通过基于帧集合中包括的图像的情感值的加权求和来确定帧情感水平，获得帧集合的帧情感水平。

根据本公开的实施例，至少一个处理器可以被配置为确定面部优先级值。至少一个处理器可以被配置为确定在每个帧集合的图像中是否存在至少一个预定义面部特征，其中，至少一个预定义面部特征中的每一个被分配有预定权重。至少一个处理器可以被配置为基于存在至少一个预定义面部特征以及预定权重来确定面部优先级值。

根据本公开的实施例，至少一个处理器可以被配置为处理经优先级排序的图像，可以包括增强经优先级排序的图像。至少一个处理器可以被配置为从经优先级排序的图像生成新媒体内容。至少一个处理器可以被配置为获得用户的健康指数。至少一个处理器可以被配置为编辑多媒体内容。至少一个处理器可以被配置为增强经优先级排序的图像，或者从经优先级排序的图像生成新媒体内容。至少一个处理器可以被配置为获得用户的健康指数，或者编辑多媒体内容。至少一个处理器可以被配置为增强经优先级排序的图像，或者获得用户的健康指数。至少一个处理器可以被配置为从经优先级排序的图像生成新媒体内容，或者编辑多媒体内容。至少一个处理器可以被配置为从经优先级排序的图像生成新媒体内容，获得用户的健康指数，或者编辑多媒体内容。至少一个处理器可以被配置为增强经优先级排序的图像，获得用户的健康指数，或者编辑多媒体内容。至少一个处理器可以被配置为增强经优先级排序的图像，从经优先级排序的图像生成新媒体内容，或者编辑多媒体内容。至少一个处理器可以被配置为增强经优先级排序的图像，从经优先级排序的图像生成新媒体内容，或者获得用户的健康指数。至少一个处理器可以被配置为增强经优先级排序的图像，从经优先级排序的图像生成新媒体内容，获得用户的健康指数，或者编辑多媒体内容。增强可以包括调整经优先级排序的图像中的模糊、照明、清晰度或颜色内容中的至少一个。新媒体内容可以包括用户的表情符号、虚拟形象、视频、音频或动画图像中的至少一个。健康指数可以指示用户的情绪。编辑可以包括缩放、修剪或动画化多媒体内容中的至少一个。

根据本公开的实施例，多媒体内容可以包括直播内容或存储的内容。

根据本公开的示例实施例的一个方面，提供了一种用于自动捕捉和处理用户的图像的系统，该系统包括至少一个处理器以实现：确定单元，被配置为：确定从多媒体内容识别的情感的水平；并且通过基于用户信息调整情感水平来确定多媒体内容的经调整的情感水平；双阈值相机控制器，被配置为：基于经调整的情感水平大于第一阈值，打开图像捕捉设备以在时间段内捕捉用户的多个图像；基于以多个图像为基础确定的用户的反应小于第二阈值，关闭图像捕捉设备；以及优先级排序单元，被配置为基于多个图像的帧情感水平、多个图像中用户的面部特征或者多个图像中的面部数量中的至少一个对多个图像进行优先级排序；以及处理单元，被配置为处理经优先级排序的图像以生成输出。

根据实施例，确定单元可以被配置为通过使用预配置确定模型基于从多媒体内容识别的情感来确定情感概率值，并基于情感概率值来确定情感水平，从而确定情感水平。

根据实施例，确定单元可以被配置为通过以下方式确定经调整的情感水平：基于用户信息来确定情感的调整因子，其中，用户信息包括用户的人口统计数据、用户的过去使用历史或者过去传感器生物数据中的至少一个；以及基于调整因子来确定经调整的情感水平。

根据实施例，双阈值相机控制器可以被配置为通过从情感阈值表中检索与识别的情感相对应的值来确定第一阈值。

根据实施例，第一阈值可以是要被检测的情感的静态面部表情和动态面部表情中的至少一个的最小表情强度。

根据实施例，双阈值相机控制器可以被配置为通过确定用户在当前图像和先前图像中的位置(当前图像和先前图像是从图像捕捉设备接收的)、基于与用户在当前图像和先前图像中的位置相对应的区域确定当前图像和先前图像中的差异、并基于差异确定用户的反应的改变来确定第二阈值，从而确定第二阈值。

根据实施例，优先级排序单元可以被配置为通过以下方式对多个图像进行优先级排序：将多个图像分类为至少一个帧集合，其中，每个帧集合包括与预定义情感类别相对应的用户的图像，对于至少一个帧集合中的每一个，从每个帧集合中包括的图像获得帧情感水平，通过将预定函数应用于每个帧集合中的所获得的帧情感水平来生成优先级值，其中，预定函数包括每个帧集合的帧情感水平的加权求和，并基于优先级值对每个帧集合中的图像进行优先级排序。

根据实施例，优先级排序单元可以被配置为通过基于帧集合中包括的图像的情感值的加权求和来确定帧情感水平，获得帧集合的帧情感水平。

根据实施例，预定函数可以包括确定面部优先级值。优先级排序单元可以被配置为确定在每个帧集合的图像中存在至少一个预定义面部特征，并且基于存在至少一个预定义面部特征以及预定权重来确定面部优先级值。至少一个预定义面部特征中的每一个可以被分配有预定权重。

根据实施例，处理单元可以被配置为通过以下中的至少一个处理经优先级排序的图像：增强经优先级排序的图像，其中，增强包括调整经优先级排序的图像中的模糊、照明、清晰度或颜色内容中的至少一个，基于经优先级排序的图像生成新媒体内容，其中，媒体内容包括用户的表情符号、虚拟形象、视频、音频或动画图像中的至少一个，获得用户健康指数，其中，健康指数指示用户的情绪；或者编辑多媒体内容，其中，编辑包括缩放、修剪或动画化多媒体属性中的至少一个。

根据实施例，多媒体内容可以包括音频和视频内容、文本内容、音频内容或视频内容中的至少一个。

根据实施例，多媒体内容可以包括直播内容或存储的内容。

Claims

1.一种用于自动捕捉和处理用户的图像的方法，所述方法包括：

确定从多媒体内容识别的情感水平；

通过基于用户信息调整所述情感水平来确定所述多媒体内容的经调整的情感水平；

基于所述经调整的情感水平大于第一阈值且基于所述用户的多个图像而确定的所述用户的反应小于第二阈值，在时间段内捕捉所述多个图像；

基于所述多个图像的帧情感水平、所述多个图像中用户的面部特征或者所述多个图像中的面部数量中的至少一个对所述多个图像进行优先级排序；以及

处理经优先级排序的图像以生成输出。

2.根据权利要求1所述的方法，其中，确定所述多媒体内容的情感水平包括：

通过使用预配置的确定模型，基于从所述多媒体内容识别的情感来确定情感概率值；以及

基于所述情感概率值来确定所述情感水平。

3.根据权利要求1至2中任一项所述的方法，其中，确定所述经调整的情感水平包括：

基于所述用户信息来确定所述情感的调整因子，其中所述用户信息包括所述用户的人口统计数据、所述用户的过去使用历史或者过去传感器生物数据中的至少一个；以及

基于所述调整因子来确定所述经调整的情感水平。

4.根据权利要求1至3中任一项所述的方法，其中，所述第一阈值通过从情感阈值表中检索与识别的情感相对应的值而被确定。

5.根据权利要求1至4中任一项所述的方法，其中，所述第一阈值是要被检测的所述情感的静态面部表情和动态面部表情中的至少一个的最小表情强度。

6.根据权利要求1至5中任一项所述的方法，其中，所述第二阈值通过以下而被确定：

确定所述用户在当前捕捉图像和先前捕捉图像中的位置；以及

基于与所述用户在所述当前捕捉图像和所述先前捕捉图像中的位置相对应的区域确定所述当前捕捉图像和所述先前捕捉图像中的差异，并基于所述差异确定所述用户的反应的改变，以确定所述第二阈值。

7.根据权利要求1至6中任一项所述的方法，其中，对所述多个图像进行优先级排序包括：

将所述多个图像分类为至少一个帧集合，其中每个帧集合包括与预定义情感类别相对应的所述用户的图像；

对于所述至少一个帧集合中的每一个，从每个帧集合中包括的图像获得帧情感水平；

通过将预定函数应用于每个帧集合中的所获得的帧情感水平来生成优先级值，其中所述预定函数包括每个帧集合的帧情感水平的加权求和；以及

基于所述优先级值对每个帧集合中的图像进行优先级排序。

8.根据权利要求7所述的方法，其中，帧集合的帧情感水平通过以下来获得：

基于所述帧集合中包括的图像的情感值的加权求和来确定所述帧情感水平。

9.根据权利要求7至8中任一项所述的方法，其中，所述预定函数还包括通过以下来确定面部优先级值：

确定在每个帧集合的图像中存在至少一个预定义面部特征，其中所述至少一个预定义面部特征中的每一个被分配预定权重；以及

基于存在所述至少一个预定义面部特征以及所述预定权重来确定所述面部优先级值。

10.根据权利要求1至9中任一项所述的方法，其中，处理所述经优先级排序的图像包括以下中的至少一个：

增强所述经优先级排序的图像，其中增强包括调整所述经优先级排序的图像中的模糊、照明、清晰度或颜色内容中的至少一个；

从所述经优先级排序的图像生成新媒体内容，其中所述新媒体内容包括所述用户的表情符号、虚拟形象、视频、音频或动画图像中的至少一个；

获得所述用户的健康指数，其中所述健康指数指示所述用户的情绪；或者

编辑所述多媒体内容，其中编辑包括缩放、修剪或动画化所述多媒体内容中的至少一个。

11.根据权利要求1至10中任一项所述的方法，其中，所述多媒体内容包括音频和视频内容、文本内容、音频内容或视频内容中的至少一个。

12.根据权利要求1至11中任一项所述的方法，其中，所述多媒体内容包括直播内容或存储内容中的至少一个。

13.一种用于自动捕捉和处理用户的图像的电子设备，所述电子设备包括至少一个处理器，所述至少一个处理器被配置为：

确定从多媒体内容识别的情感水平；

处理经优先级排序的图像以生成输出。

14.根据权利要求13所述的电子设备，其中，所述至少一个处理器还被配置为通过以下来确定所述情感水平：

基于所述情感概率值来确定所述情感水平。

15.一种存储指令的计算机可读介质，所述指令在由电子设备的一个或多个处理器执行时使得所述一个或多个处理器：

确定从多媒体内容识别的情感水平；

处理经优先级排序的图像以生成输出。