CN113392722A

CN113392722A - 视频中的对象情绪识别方法、装置、电子设备及存储介质

Info

Publication number: CN113392722A
Application number: CN202110568418.2A
Authority: CN
Inventors: 金超逸
Original assignee: Beijing IQIYI Science and Technology Co Ltd
Current assignee: Beijing IQIYI Science and Technology Co Ltd
Priority date: 2021-05-24
Filing date: 2021-05-24
Publication date: 2021-09-14

Abstract

本申请提供的视频中的对象情绪识别方法、装置、电子设备及存储介质，所述方法包括：从视频中获取目标对象的至少一帧面部图像，将面部图像输入预先训练好的情绪特征提取模型，从而得到与面部图像对应的包含多维情绪特征值的情绪向量，根据至少一帧面部图像对应的情绪向量确定目标对象情绪的情绪。本方案对目标对象的面部图像从多个维度进行特征提取，从而得到多维的情绪向量，采用多维的情绪向量确定出的情绪可以更细致的表示目标对象的情绪，使得解读出的情绪更加准确和细致。

Description

视频中的对象情绪识别方法、装置、电子设备及存储介质

技术领域

本申请涉及情绪识别领域，具体涉及一种视频中的对象情绪识别方法、装置、电子设备及存储介质。

背景技术

影视作品通常通过镜头语言讲故事，人物情绪是故事重要的叙事内容。通过对视频中的人物情绪进行识别，可以对人物的情绪表达能力进行分析，进而有助于了解人物的表演技术。

目前在识别人物情绪时，通常是利用人脸识别技术识别视频图像中人物的表情，基于表情确定人物的情绪，此种方式只能对“笑”、“哭”、“高兴”、“生气”、“难过”等几种简单的情绪进行识别，并不足以充分表现人物的情感特征，细致性低。

发明内容

为了解决现有技术中人物情绪识别细致性低的技术问题，本申请提供了一种视频中的对象情绪识别方法、装置、电子设备及存储介质。

第一方面，本申请提供了一种视频中的对象情绪识别方法，包括：

从视频中获取目标对象的至少一帧面部图像；

将所述面部图像输入预先训练好的情绪特征提取模型，以使所述情绪特征提取模型提取所述面部图像多个维度的情绪特征值；

根据所述面部图像多个维度的情绪特征值，生成所述面部图像的情绪向量；

根据至少一帧所述面部图像的情绪向量确定所述目标对象的情绪。

作为一种可能的实现方式，所述根据至少一帧所述面部图像的情绪向量确定所述目标对象的情绪，包括：

从至少一帧所述面部图像的情绪向量中确定目标情绪向量；

将所述目标情绪向量输入预设的情绪解读模型，得到与所述目标情绪向量对应的用于表示所述目标对象情绪的情绪解读信息，所述情绪解读模型中包括多个情绪向量对应的多个情绪解读信息。

作为一种可能的实现方式，所述从至少一帧所述面部图像的情绪向量中确定目标情绪向量，包括：

若从所述视频中获取到了目标对象的一帧面部图像，则确定该面部图像的情绪向量为目标情绪向量；

若从所述视频中获取到了目标对象的多帧面部图像，则按照多帧所述面部图像的播放时刻由先到后的顺序，生成关于情绪向量的时间序列，所述时间序列中包括多帧所述面部图像的情绪向量；

将所述时间序列对应的时间区间划分为多个候选时间区间；

针对每个所述候选时间区间，确定所述候选时间区间包含的各情绪向量的密度；

从多个所述候选时间区间中，选取包含的各情绪向量的密度符合预设要求的候选时间区间作为目标时间区间；

确定所述目标时间区间内密度最高的情绪向量为目标情绪向量。

作为一种可能的实现方式，所述确定所述候选时间区间包含的各情绪向量的密度，包括：

计算所述候选时间区间包含的各情绪向量之间的编辑距离；

针对所述候选时间区间内的每一情绪向量，将所述候选时间区间内与所述情绪向量之间的编辑距离小于预设距离阈值的其它情绪向量，作为所述情绪向量的相似向量；

针对所述候选时间区间内的每一情绪向量，根据所述情绪向量以及所述情绪向量的相似向量，确定所述情绪向量的密度。

作为一种可能的实现方式，所述根据所述情绪向量以及所述情绪向量的相似向量，确定所述情绪向量的密度，包括：

对所述情绪向量在所述候选时间区间内出现的频次以及所述相似向量在所述候选时间区间内出现的频次进行加权求和，得到和值；

利用所述和值除以所述候选时间区间的时间跨度，得到所述情绪向量的密度。

作为一种可能的实现方式，所述从多个所述候选时间区间中，选取包含的各情绪向量的密度符合预设要求的候选时间区间作为目标时间区间，包括：

针对每个所述候选时间区间，按照预设的密度等级划分规则确定所述候选时间区间包含的各情绪向量的密度所属的密度等级；

针对每个情绪向量，将所述情绪向量的密度与该密度所属密度等级对应的密度阈值进行比较；

若所述候选时间区间包含的各情绪向量的密度均大于对应的密度阈值，则确定所述候选时间区间符合预设要求，并将所述候选时间区间作为目标时间区间。

作为一种可能的实现方式，所述情绪特征提取模型包括多个图像回归模型，所述图像回归模型以面部图像为输入，以情绪特征值为输出，不同的图像回归模型输出的情绪特征值的维度不同。

作为一种可能的实现方式，所述根据所述面部图像多个维度的情绪特征值，生成所述面部图像的情绪向量，包括：

对所述面部图像多个维度的情绪特征值分别进行离散化；

将离散化后的多个维度的所述情绪特征值组成所述面部图像的情绪向量。

第二方面，本申请实施例还提供了一种视频中的对象情绪识别装置，包括：

获取模块，用于从视频中获取目标对象的至少一帧面部图像；

特征提取模块，用于将所述面部图像输入预先训练好的情绪特征提取模型，以使所述情绪特征值提取模型提取所述面部图像多个维度的情绪特征值；

向量生成模块，用于根据多个维度的所述情绪特征值生成所述面部图像的情绪向量；

情绪确定模块，用于根据至少一帧所述面部图像的情绪向量确定所述目标对象的情绪。

第三方面，本发明实施例还提供一种计算机设备，包括：处理器和存储器，所述处理器用于执行所述存储器中存储的视频中的对象情绪识别方法程序，以实现第一方面所述的视频中的对象情绪识别方法。

第四方面，本发明实施例还提供一种存储介质，所述存储介质存储有一个或者多个程序，所述一个或者多个程序可被一个或者多个处理器执行，以实现第一方面所述的视频中的对象情绪识别方法。

本申请实施例提供的上述技术方案与现有技术相比具有如下优点：

本申请实施例提供的一种视频中的对象情绪识别方法，从视频中获取目标对象的至少一帧面部图像，将面部图像输入预先训练好的情绪特征提取模型，从而得到与面部图像对应的包含多维情绪特征值的情绪向量，根据至少一帧面部图像对应的情绪向量确定目标对象情绪的情绪。本方案对目标对象的面部图像从多个维度进行特征提取，从而得到多维的情绪向量，采用多维的情绪向量确定出的情绪可以更细致的表示目标对象的情绪，使得解读出的情绪更加准确和细致。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本申请。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本申请的实施例，并与说明书一起用于解释本申请的原理。

图1是根据一示例性实施例示出的一种视频中的对象情绪识别方法的流程图；

图2是根据一示例性实施例示出的一种情绪特征提取模型训练方法的流程图；

图3是根据一示例性实施例示出的一种情绪特征提取模型的示意图；

图4是根据另一示例性实施例示出的一种视频中的对象情绪识别方法的流程图；

图5是根据一示例性实施例示出的一种确定目标情绪向量的方法流程图；

图6是根据一示例性实施例示出的一种视频中的对象情绪识别装置的框图；

图7是根据一示例性实施例示出的一种电子设备的示意图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。

参见图1，为本申请的一个实施例提供的一种视频中的对象情绪识别方法的流程图。如图1所示，本实施例提供的视频中的对象情绪识别方法可以包括：

S11.从视频中获取目标对象的至少一帧面部图像。

在本发明实施例中，获取待进行对象情绪识别的视频，然后确定需要进行情绪识别的对象(人或动物等)，将该对象作为目标对象，然后从视频中提取出至少一帧包含目标对象的面部的图像。其中目标对象可以由用户(比如运营人员)选定，也可以从视频中随机选取一个对象作为目标对象。

作为一个实施例，可以采用下述步骤从视频中获取目标对象的面部图像：

步骤1：对视频进行帧采样，得到视频帧集合。

在本发明实施例中，可以按照预设的采样频率对视频进行帧采样，采样频率可以预先根据实际需求设置采样频率，比如原视频为每秒25帧，然后可以将采样频率设置为每秒8帧，如此可见，采样频率可以动态设置。按照采样频率对视频进行帧采样可以在保证准确识别的基础上，减少后续的图像处理量。

在实际应用中，可以采用premiere软件按照预设的采样频率对视频进行抽帧处理，从而得到视频帧集合。

步骤2：对视频帧集合中的每张图像分别进行面部识别，确定至少一张包含目标对象面部的图像。

在本发明实施例中，可以获取包含目标对象清晰面部的图像，然后基于该图像采用人脸识别算法对视频帧集合中的每张图像分别进行面部识别，从而从视频帧集合中识别出包含目标对象面部的图像，并将包含目标对象面部的图像作为目标对象的面部图像。

进一步的，若上述步骤1中确定出了多张包含目标对象面部的图像，为了提高情绪识别的准确率，可以对多张图像进行筛选，从中筛选出面部质量较好的图像作为目标对象的面部图像，具体的，可以通过步骤3对图像进行筛选。

步骤3：提取包含目标对象面部的图像的面部质量，并从中选取面部质量符合预设质量条件的图像作为目标对象的面部图像。

在本发明实施例中，面部质量可以包括多个面部质量参数(比如可以包括面部清晰度、侧脸角度和/或面部尺寸等参数)。

作为一个实施例，针对每张包含目标对象面部的图像，可以将面部质量参数分别与参数对应的阈值进行比较，根据比较结果确定该图像的面部质量是否符合预设质量条件。比如面部质量参数包括面部清晰度、侧脸角度和面部尺寸，则可以将面部质量中的面部清晰度与预设的清晰度阈值进行比较，将侧脸角度与预设的角度阈值进行比较，将面部尺寸与预设的尺寸阈值进行比较，若确定清晰度低于清晰度阈值，或侧脸角度大于角度阈值，或人脸尺寸小于尺寸阈值，则确定图片不符合预设质量条件，若确定清晰度不低于清晰度阈值，且侧脸角度不大于角度阈值，且人脸尺寸不小于尺寸阈值，则确定图片符合预设质量条件。

在本发明实施例中，通过上述方式可以过滤掉清晰度过低、侧脸角度过大、面部尺寸过小等质量偏低的噪声图像，对图像进行降噪，得到质量较高的面部图像，使得基于面部图像确定的情绪识别结果更准确。

S12.将面部图像输入预先训练好的情绪特征提取模型，以使情绪特征提取模型提取面部图像多个维度的情绪特征值。

在本发明实施例中，情绪特征提取模型为预先训练并存储的模型，该模型以面部图像作为输入，以面部图像中对象的多维的情绪特征值为输出。其中，每个维度代表一个抽象语义层面的情绪特征，不同的维度待编的情绪特征不同，比如情绪特征提取模型可以从joy-sadness、anticipation-surprise、anger-fear和disgust-trust等多个维度对面部图像进行特征提取。

进一步的，同一维度下，不同的情绪特征值可以体现不同的情绪。

至于情绪特征提取模型是如何训练的，将在下文中结合图2进行说明，此处先不详述。

S13.根据面部图像多个维度的情绪特征值，生成该面部图像的情绪向量。

在本发明实施例中，可以将面部图像多个维度的情绪特征值按照预设的排列顺序进行拼接，从而生成面部图像的情绪向量，其中排列顺序可以根据实际需求设定。以得到的多维的情绪特征值对应的维度分别为joy-sadness、anticipation-surprise、anger-fear和disgust-trust为例，则预设的排列顺序可以为joy-sadness，anticipation-surprise，anger-fear，disgust-trust。

S14.根据至少一帧面部图像的情绪向量确定目标对象的情绪。

在本发明实施例中，不同的情绪向量可以对应不同的情绪，在得到情绪向量后，可以根据预设的情绪向量与情绪的对应关系，确定与情绪向量对应的情绪，并以此作为目标对象的情绪。

情绪特征的维度越大，则可以生成的情绪向量的种类就越多，对应的情绪的种类也越多，由此可见，本申请可以识别更多种类的情绪，细致性更高。

本申请实施例提供的一种视频中的对象情绪识别方法，从视频中获取目标对象的至少一帧面部图像，将面部图像输入预先训练好的情绪特征提取模型，从而得到与面部图像对应的包含多维情绪特征值的情绪向量，根据至少一帧面部图像对应的情绪向量确定目标情绪向量，将目标情绪向量输入预设的情绪解读模型得到对应的用于表示目标对象情绪的情绪解读信息。本方法对目标对象的面部图像从多个维度进行特征提取，从而得到多维的情绪向量，而采用多维的情绪向量确定出的情绪解读信息可以更细致的表示目标对象的情绪，使得解读出的情绪更加准确和细致。

参加图2，为本发明实施例提供的一种情绪特征提取模型训练方法的流程图，如图2所示，可以包括如下步骤：

S21.确定初始模型。

在本发明实施例中，初始模型中可以包含多个图像回归模型，不同的图像回归模型对应不同的维度，例如初始模型中可以包括4个图像回归模型，4个图像回归模型对应的维度分别为joy-sadness，anticipation-surprise，anger-fear，disgust-trust。

需要说明的是，初始模型中包含的图像回归模型的数量可以根据实际需求设定，本实施例不做具体限定。

S22.分别对每个图像回归模型进行训练。

在本发明实施例中，图像回归模型的训练可以包括如下步骤：

步骤1：获取训练数据集。

作为一个实施例，训练数据集可以包括多帧(比如10万帧)标注有情绪标签的面部图像，所述情绪标签表示面部图片中的对象在目标维度上的情绪特征值，其中目标维度为当前训练的图像回归模型对应的维度。比如在对与joy-sadness这一维度对应的图像回归模型进行训练时，目标维度就是joy-sadness，则获取的训练数据中的情绪标签就是表示joy、sadness或无情绪的情绪标签，其中情绪标签可以利用-1、0或1表示，其中-1joy，0表示无情绪，1表示sadness。

作为一个实施例，为了获取足够的训练数据，并保证训练数据的标注质量，可以采用对影视作品经典片段进行截帧方式构建训练数据集，具体的可以包括：

人工挑选在要训练的图像回归模型对应的目标维度上具备显著特征(特征为1或-1)的经典片段(一般时长在五分钟以内)，截取此片段中呈现出目标维度对应的情绪的对象的关键帧，并对截取的关键帧统一添加标签(0、1或-1)，然后将添加有标签的关键帧存储至预设位置，在对该图像回归模型进行训练时，直接从预设位置获取存储的图像作为训练数据集即可。

进一步的，在针对每个图像回归模型构建训练数据集时，都可以采用平衡选取的方式选取经典片段的数量，如同一个演员的作品不要选取过多，演员要有男有女有老有少，有古装也有民国、现代扮相等，控制了对象、作品的数量，以及角色自身的演员、性别、年龄等不直接决定情绪维度特点的因素的分布，以保证训练数据能够合理地反映这一维度上的情绪特征。

步骤2：利用训练数据集对图像回归模型进行训练，得到训练好的图像回归模型。

在本发明实施例中，图像回归模型可以为深度卷积神经网络，因此采用现有的深度卷积神经网络训练方法对图像回归模型进行训练即可，本实施例不再赘述。

S23.将训练好的多个图像回归模型组成一个情绪特征提取模型。

以4维的情绪特征提取模型为例，如图3所示，该情绪特征模型中包括4个图像回归模型，4个图像回归模型共用一个输入口，不同的图像回归模型对应不同的输出口，如此，则情绪特征模型可以包括1个输入口和4个输出口，在应用时，至于输入一张面部图像即可输出该面部图像对应的4个维度的情绪特征值。

通过上述方式训练得到的情绪特征提取模型可以只输入一张面部图像，然后得到多个维度的情绪特征值，能便于更真实细致的体现对象的情绪。

在使用采用上述方式训练得到的情绪特征提取模型进行情绪特征提取时，由于图像回归模型通常以0～1之间的数值为输出，因此情绪特征提取模型输出的情绪特征值为0～1之间的数值，而通常一维度可以对应三种情绪，比如joy-sadness这一维度下，对应的情绪可以为joy，无情绪，或sadness。如此，在同一维度下，不同的情绪特征值对应的情绪可能相同，比如joy-sadness这一维度下，0～0.2之间的任一情绪特征值，表示的情绪是joy，0.2～0.8之间的任一情绪特征值，表示的情绪是无情绪，0.8～1之间的任一情绪特征值，表示的情绪是sadness。

基于上述内容，在本发明的另一实施例中，在根据面部图像多个维度的情绪特征值，生成面部图像的情绪向量之前，可以先对各维度的情绪特征值进行离散化，然后再将离散化后的情绪特征值组成情绪向量。

作为一个实施例中，针对每个维度的情绪特征值，可以按照该维度对应的上阈值和下阈值，将情绪特征值离散化为-1，0或1，其中-1，0或1分别表示不同的情绪，比如，在joy-sadness这一维度下，-1可以表示joy，0可以表示无情绪，1可以表示sadness。

具体的，可以分别针对每个维度设置上阈值和下阈值，然后针对每个维度，可以根据该维度的上阈值和下阈值对情绪特征值进行离散化，从而将情绪特征值离散为-1、0、1三个极性之一。以joy-sadness这一维度为例，其对应的上阈值可以为0.80，下阈值可以为可以0.20，若该维度的情绪特征值为0.15，则该情绪特征值将被离散化为-1，若情绪特征值为0.45，则将被离散化为0，若输出结果为0.90，则将被离散化为1。

其中，不同的维度对应的上阈值和下阈值可以不同，具体各维度的上下两个阈值可以由实验决定。具体的，针对每个维度可以采用下述方式确定上下阈值：获取一个包含多张样本图像的样本集，为样本集中的样本图像标注情绪标签，将样本集输出维度对应的图像回归模型，得到输出结果，然后针对上阈值和下阈值可以分别取等间隔的阈值数值进行穷举，并计算惩罚函数f＝Σ5e2+e1(e2代表模型输出结果为-1人工标注为+1，或模型输出结果为+1人工标注为-1，e1代表模型输出结果为0人工标注为+1或-1，或模型输出结果为+1或-1人工标注0)，得到使f最小的上下阈值作为该维度对应的上下阈值。

通过本发明实施例，对特征数据值进行离散化后再生成情绪向量，将每个维度的情绪特征值都映射到了-1、0、1三个极性，使得表示相同情绪的不同情绪特征值都由同一的数值表示，保证了最终得到的每个情绪向量都可以表示不一样的情绪，降低了后续处理的复杂度。

参见图4为本发明另一实施例提供的一种视频中的对象情绪识别方法的流程图，如图4所示，该方法可以包括：

S41.从视频中获取目标对象的至少一帧面部图像。

S42.将面部图像输入预先训练好的情绪特征提取模型，以使情绪特征提取模型提取面部图像多个维度的情绪特征值。

S43.根据面部图像多个维度的情绪特征值，生成面部图像的情绪向量。

S41-S43的具体实现，可以参见S11-S13的详细描述，此处不再赘述。

S44.从至少一帧面部图像的情绪向量中确定目标情绪向量。

在本发明实施例中，若在S41中从视频中获取到了目标对象的一帧面部图像，则确定该面部图像的情绪向量为目标情绪向量；若在S41中从视频中获取到了目标对象的多帧面部图像，则可以从多帧面部图像中选取情绪显著的面部图像对应的情绪向量作为目标情绪向量。

而至于如何从多帧面部图像中选取情绪显著的面部图像对应的情绪向量作为目标情绪向量，将在下文中结合附图5进行说明，此处先不详述。

S45.将目标情绪向量输入预设的情绪解读模型，得到与目标情绪向量对应的用于表示目标对象情绪的情绪解读信息。

在本发明实施例中，情绪解读信息可以是用于表示情绪的词汇，比如焦虑、担心等。情绪解读模型中包括多个情绪向量对应的多个情绪解读信息，比如，若情绪特征提取模型可以输出4个维度的情绪特征值，则根据情绪特征提取模型输出的情绪特征值，理论上可以生成3的4次方即81种不同的情绪向量，而不同的情绪向量可以表示不同的对象情绪状态，例如可以表示焦虑、担心、期待、嫉妒等81种细分情绪，则情绪解读模型中就可以包含与81中情绪向量对应的81中情绪解读信息。

作为一个实施例，情绪解读模型中还可以为81种情绪解读信息之间提供相互的语义关联，比如可以将警觉与疑虑设置为相似的情绪解读信息，因为其中都包含了“外界发生的事情在意料之外”的心理活动，可以将充满希望和愤世嫉俗的设置为相反的情绪解读信息，因为其中充满希望表示的是对外界环境发生事实抱有“欣然接受”的态度，而愤世嫉俗则表示的是对外界环境抱有“嗤之以鼻”的态度，两者截然相反。通过设置语义关联，可以使后续根据与解读出的情绪解读信息相关联的情绪解读信息更准确细致的解读目标对象的情绪。

进一步的，在得到与目标情绪向量对应的情绪解读信息之后，还可以生成包含情绪解读信息的情绪解读语句。

作为一个实施例，可以预先根据实际需求设定特定句式，然后在特定句式中预置用于插入情绪解读信息的位置，从而在得到与目标情绪向量对应的情绪解读信息之后，可以调用预设的函数将得到的情绪解读信息插入到对应的位置中，从而生成包含情绪解读信息的情绪解读语句。例如，特定句式可以为“目标对象感到()”，其中()即为被设置为用于插入情绪解读信息的位置，若情绪解读信息为懊恼，则生成的情绪解读语句就是“目标对象感到懊恼”。

作为另一个实施例，还可以在特定句式中预置用于插入目标对象标识(比如姓名、品种等)的位置，然后在确定出情绪解读信息之后，将目标对象标识和情绪解读信息分别插入到特定句式的相应位置中生成对应的情绪解读语句。例如，预设的句式可以为“()感到()”，其中第一个()被设置为用于填充目标对象标识，第二个()被设置为用于填充情绪解读信息，若目标对象姓名为A，情绪解读信息为懊恼，则生成的情绪解读语句就是“A感到懊恼”。其中，目标对象标识可以由外部输入，也可以预先设置对象图像与对象标识的对应关系表，然后通过查表的方式获取。

通过上述方式，生成情绪解读语句可以更直观的了解对象的情绪。

在本发明实施例中，在获取到多帧面部图像时，通过对情绪向量进行筛选可以在保证识别结果准确性的基础上，减少计算量，提高工作效率。

参见图5，为本发明实施例提供的一种确定目标情绪向量的方法的流程图，如图5所示，可以包括如下步骤：

S51.按照多帧面部图像的播放时刻由先到后的顺序，生成关于情绪向量的时间序列，时间序列中包括多帧面部图像的情绪向量。

作为一个实施例，可以确定各面部图像对应的播放时间，然后为各面部图像的情绪向量添加对应的播放时间标签，以标识情绪向量对应的播放时间，最后按照播放时间由先到后的顺序对情绪向量进行排序，从而得到时间序列。

S52.将时间序列对应的时间区间划分为多个候选时间区间。

在本发明实施例中，可以通过固定长度的滑动窗口对时间序列对应的时间区间进行划分，其中滑动窗口的长度可以根据实际需求设定，例如可以为5分钟，通过在时间序列中对滑动窗口进行滑动可以将时间序列的时间区间划分为多个连续的子时间区间，也就是候选时间区间，比如若时间序列的时间区间的总长度为20分钟，则采用长度为5分钟的滑动窗口可以将该时间序列的时间区间划分为4个长度均为5分钟的候选时间区间。

S53.针对每个候选时间区间，确定候选时间区间包含的各情绪向量的密度。

在本发明实施例中，候选时间区间中情绪向量的密度可以反映情绪向量在候选时间内出现的频率，密度越大，则说明该情绪向量出现的频率越大，也就表示该情绪向量对应的情绪在该候选时间区间内表现的更明显。

S54.从多个候选时间区间中，选取包含的各情绪向量的密度符合预设要求的候选时间区间作为目标时间区间。

在本发明实施例中，针对每个候选时间区间，可以采用下述步骤确定是否符合预设要求：

步骤1：按照预设的密度等级划分规则确:候选时间区间包含的各情绪向量的密度所属的密度等级。

其中，密度等级划分规则可以包含多个密度等级以及多个密度等级各自对应的密度值，因此根据密度等级划分规则即可确定各密度对应的密度等级。

步骤2：针对每个情绪向量，将情绪向量的密度与该密度所属密度等级对应的密度阈值进行比较。

作为一个实施例，密度阈值可以采用下述方式确定：

人工标注若干影视片段中对象情绪饱满的片段，由算法得出各密度等级的数值，对每一级密度取这些片段的最低值，在最低值的基础上向下取整(如最低值为2.24，取2)作为密度阈值。

步骤3：候选时间区间包含的各情绪向量的密度均大于对应的密度阈值，则确定候选时间区间符合预设要求，否则确定候选时间区间不符合预设要求。

通过上述方式可以筛选区包含饱满对象情绪的面部图像。

S55.确定目标时间区间内密度最高的情绪向量为目标情绪向量。

下面对S53确定候选时间区间包含的各情绪向量的密度的方式进行说明：

在本发明实施例中，针对任意一个候选时间区间，均可以采用下述步骤确定其包含的各情绪向量的密度：

步骤1：计算候选时间区间内各情绪向量之间的编辑距离。

在本发明实施例中，编辑距离的定义：两个情绪向量v1与v2的编辑距离＝Σ1000(当i1＝-i2，)，or 1(当i1*i2＝0)，or 0(当i1＝i2)，其中i1是v1中维度i的数值，i2是v2中维度i的数值。

步骤2：针对候选时间区间内的每一情绪向量，将候选时间区间内与该情绪向量之间的编辑距离小于预设距离阈值的其它情绪向量，作为该情绪向量的相似向量。

在本发明实施例中，距离阈值可以根据实际需求设定，例如可以为0或1。

步骤3：针对候选时间区间内的每一情绪向量，根据情绪向量以及情绪向量的相似向量，确定情绪向量的密度。

在本发明实施例中，根据情绪向量以及情绪向量的相似向量，确定情绪向量的密度可以包括：

对情绪向量在候选时间区间内出现的频次以及该情绪向量的相似向量在该候选时间区间内出现的频次进行加权求和，得到和值，利用和值除以候选时间区间的时间跨度，得到该情绪向量的密度，密度的单位为帧每秒。

其中，情绪向量在候选时间区间内出现的频次即为候选时间区间内该情绪向量对应的面部图像的帧数，相似向量的频次同理。加权求和时的各权值可以根据需求设定。候选时间区间的时间跨度即为候选时间区间的起止时间的差值，例如候选时间区间的起始时间为00:01，终止时间为05:01，则该候选时间区间的时间跨度5分钟即为300秒。

本申请实施例提供的，根据情绪向量的密度对面部图像进行筛选，筛选出包含饱满对象情绪的面部图像，然后基于包含饱满对象情绪的面部图像的情绪向量确定目标对象情绪，保证了情绪识别的准确性。

本发明的另一实施例中，视频中的对象情绪识别方法还可以包括：从视频中获取与目标对象相关的文本类的信息，则可以使用词袋模型从文本中提取关键词(直接形容人情绪状态的形容词或间接表现人情绪状态的动词)，并基于情绪轮盘模型的相关理论研究，确定目标对象的情绪。

参见图6，为本发明另一实施例提供的一种视频中的对象情绪识别装置，如图6所示，该装置可以包括：

获取模块601，用于从视频中获取目标对象的至少一帧面部图像。

特征提取模块602，用于将面部图像输入预先训练好的情绪特征提取模型，以使情绪特征值提取模型提取面部图像多个维度的情绪特征值。

向量生成模块603，用于根据多个维度的情绪特征值生成面部图像的情绪向量。

情绪确定模块604，用于根据至少一帧面部图像的情绪向量确定目标对象的情绪。

作为一个实施例，情绪确定模块604，具体用于：

从至少一帧面部图像的情绪向量中确定目标情绪向量；

将目标情绪向量输入预设的情绪解读模型，得到与目标情绪向量对应的用于表示目标对象情绪的情绪解读信息，情绪解读模型中包括多个情绪向量对应的多个情绪解读信息。

作为一个实施例，从至少一帧所述面部图像的情绪向量中确定目标情绪向量，包括：

若从视频中获取到了目标对象的一帧面部图像，则确定该面部图像的情绪向量为目标情绪向量；

若从视频中获取到了目标对象的多帧面部图像，则按照多帧面部图像的播放时刻由先到后的顺序，生成关于情绪向量的时间序列，时间序列中包括多帧面部图像的情绪向量；

将时间序列对应的时间区间划分为多个候选时间区间；

从多个候选时间区间中，选取包含的各情绪向量的密度符合预设要求的候选时间区间作为目标时间区间；

确定目标时间区间内密度最高的情绪向量为目标情绪向量。

作为一个实施例，确定候选时间区间包含的各情绪向量的密度，包括：

计算候选时间区间包含的各情绪向量之间的编辑距离；

针对候选时间区间内的每一情绪向量，将候选时间区间内与该情绪向量之间的编辑距离小于预设距离阈值的其它情绪向量，作为该情绪向量的相似向量；

针对候选时间区间内的每一情绪向量，根据情绪向量以及情绪向量的相似向量，确定情绪向量的密度。

作为一个实施例，根据情绪向量以及情绪向量的相似向量，确定情绪向量的密度，包括：

对情绪向量在候选时间区间内出现的频次以及相似向量在候选时间区间内出现的频次进行加权求和，得到和值；

利用和值除以候选时间区间的时间跨度，得到情绪向量的密度。

作为一个实施例，从多个候选时间区间中，选取包含的各情绪向量的密度符合预设要求的候选时间区间作为目标时间区间，包括：

针对每个候选时间区间，按照预设的密度等级划分规则确定候选时间区间包含的各情绪向量的密度所属的密度等级；

针对每个情绪向量，将情绪向量的密度与该密度所属密度等级对应的密度阈值进行比较；

若候选时间区间包含的各情绪向量的密度均大于对应的密度阈值，则确定候选时间区间符合预设要求，并将该候选时间区间作为目标时间区间。

作为一个实施例，情绪特征提取模型包括多个图像回归模型，图像回归模型以面部图像为输入，以情绪特征值为输出，不同的图像回归模型输出的情绪特征值的维度不同。

作为一个实施例，向量生成模块603具体用于：

对所述面部图像多个维度的情绪特征值分别进行离散化；

参见图7，图7是本申请的另一实施例提供的一种电子设备的结构示意图。

如图7所示，本实施例提供的电子设备包括：至少一个处理器701、存储器702、至少一个网络接口703和其他用户接口704。电子设备700中的各个组件通过总线系统705耦合在一起。可理解，总线系统705用于实现这些组件之间的连接通信。总线系统705除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见，在图X中将各种总线都标为总线系统705。

其中，用户接口704可以包括显示器、键盘或者点击设备(例如，鼠标，轨迹球(trackball)、触感板或者触摸屏等。

可以理解，本发明实施例中的存储器702可以是易失性存储器或非易失性存储器，或可包括易失性和非易失性存储器两者。其中，非易失性存储器可以是只读存储器(Read-Only Memory，ROM)、可编程只读存储器(Programmable ROM，PROM)、可擦除可编程只读存储器(Erasable PROM，EPROM)、电可擦除可编程只读存储器(Electrically EPROM，EEPROM)或闪存。易失性存储器可以是随机存取存储器(Random Access Memory，RAM)，其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的RAM可用，例如静态随机存取存储器(Static RAM，SRAM)、动态随机存取存储器(Dynamic RAM，DRAM)、同步动态随机存取存储器(Synchronous DRAM，SDRAM)、双倍数据速率同步动态随机存取存储器(Double Data RateSDRAM，DDRSDRAM)、增强型同步动态随机存取存储器(Enhanced SDRAM，ESDRAM)、同步连接动态随机存取存储器(Synch link DRAM，SLDRAM)和直接内存总线随机存取存储器(DirectRambus RAM，DRRAM)。本文描述的存储器702旨在包括但不限于这些和任意其它适合类型的存储器。

在一些实施方式中，存储器702存储了如下的元素，可执行单元或者数据结构，或者他们的子集，或者他们的扩展集：操作系统7021和第二应用程序7022。

其中，操作系统7021，包含各种系统程序，例如框架层、核心库层、驱动层等，用于实现各种基础业务以及处理基于硬件的任务。第二应用程序7022，包含各种第二应用程序，例如媒体播放器(Media Player)、浏览器(Browser)等，用于实现各种应用业务。实现本发明实施例方法的程序可以包含在第二应用程序7022中。

在本发明实施例中，通过调用存储器702存储的程序或指令，具体的，可以是第二应用程序7022中存储的程序或指令，处理器701用于执行各方法实施例所提供的方法步骤，例如包括：

从视频中获取目标对象的至少一帧面部图像；

上述本发明实施例揭示的方法可以应用于处理器701中，或者由处理器701实现。处理器701可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器701中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器701可以是通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(FieldProgrammable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件单元组合执行完成。软件单元可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器702，处理器701读取存储器702中的信息，结合其硬件完成上述方法的步骤。

可以理解的是，本文描述的这些实施例可以用硬件、软件、固件、中间件、微码或其组合来实现。对于硬件实现，处理单元可以实现在一个或多个专用集成电路(ApplicationSpecific Integrated Circuits，ASIC)、数字信号处理器(Digital Signal Processing，DSP)、数字信号处理设备(DSPDevice，DSPD)、可编程逻辑设备(Programmable LogicDevice，PLD)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)、通用处理器、控制器、微控制器、微处理器、用于执行本申请功能的其它电子单元或其组合中。

对于软件实现，可通过执行本文功能的单元来实现本文的技术。软件代码可存储在存储器中并通过处理器执行。存储器可以在处理器中或在处理器外部实现。

本发明实施例还提供了一种存储介质(计算机可读存储介质)。这里的存储介质存储有一个或者多个程序。其中，存储介质可以包括易失性存储器，例如随机存取存储器；存储器也可以包括非易失性存储器，例如只读存储器、快闪存储器、硬盘或固态硬盘；存储器还可以包括上述种类的存储器的组合。

当存储介质中一个或者多个程序可被一个或者多个处理器执行，以实现上述在电子设备侧执行的视频中的对象情绪识别方法。

处理器用于执行存储器中存储的视频中的对象情绪识别方法程序，以实现以下在电子设备侧执行的视频中的对象情绪识别方法的步骤：

从视频中获取目标对象的至少一帧面部图像；

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

可以理解的是，上述各实施例中相同或相似部分可以相互参考，在一些实施例中未详细说明的内容可以参见其他实施例中相同或相似的内容。

需要说明的是，在本申请的描述中，术语“第一”、“第二”等仅用于描述目的，而不能理解为指示或暗示相对重要性。此外，在本申请的描述中，除非另有说明，“多个”的含义是指至少两个。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本申请的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本申请的实施例所属技术领域的技术人员所理解。

应当理解，本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本申请各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器，磁盘或光盘等。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

尽管上面已经示出和描述了本申请的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本申请的限制，本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种视频中的对象情绪识别方法，其特征在于，包括：

从视频中获取目标对象的至少一帧面部图像；

2.根据权利要求1所述的方法，其特征在于，所述根据至少一帧所述面部图像的情绪向量确定所述目标对象的情绪，包括：

从至少一帧所述面部图像的情绪向量中确定目标情绪向量；

3.根据权利要求2所述的方法，其特征在于，所述从至少一帧所述面部图像的情绪向量中确定目标情绪向量，包括：

将所述时间序列对应的时间区间划分为多个候选时间区间；

4.根据权利要求3所述的方法，其特征在于，所述确定所述候选时间区间包含的各情绪向量的密度，包括：

计算所述候选时间区间包含的各情绪向量之间的编辑距离；

5.根据权利要求4所述的方法，其特征在于，所述根据所述情绪向量以及所述情绪向量的相似向量，确定所述情绪向量的密度，包括：

6.根据权利要求3所述的方法，其特征在于，所述从多个所述候选时间区间中，选取包含的各情绪向量的密度符合预设要求的候选时间区间作为目标时间区间，包括：

7.根据权利要求1-6任一所述的方法，其特征在于，所述情绪特征提取模型包括多个图像回归模型，所述图像回归模型以面部图像为输入，以情绪特征值为输出，不同的图像回归模型输出的情绪特征值的维度不同。

8.根据权利要求7所述的方法，其特征在于，所述根据所述面部图像多个维度的情绪特征值，生成所述面部图像的情绪向量，包括：

对所述面部图像多个维度的情绪特征值分别进行离散化；

9.一种视频中的对象情绪识别装置，其特征在于，包括：

10.一种电子设备，其特征在于，包括：处理器和存储器，所述处理器用于执行所述存储器中存储的视频中的对象情绪识别方法程序，以实现权利要求1-8任一所述的视频中的对象情绪识别方法。

11.一种存储介质，其特征在于，所述存储介质存储有一个或者多个程序，所述一个或者多个程序可被一个或者多个处理器执行，以实现权利要求1-8任一所述的视频中的对象情绪识别方法。