CN109993025B

CN109993025B - 一种关键帧提取方法及设备

Info

Publication number: CN109993025B
Application number: CN201711478791.9A
Authority: CN
Inventors: 季双双; 楼振华; 孟希羲
Original assignee: China Mobile Communications Group Co Ltd; China Mobile Hangzhou Information Technology Co Ltd
Current assignee: China Mobile Communications Group Co Ltd; China Mobile Hangzhou Information Technology Co Ltd
Priority date: 2017-12-29
Filing date: 2017-12-29
Publication date: 2021-07-06
Anticipated expiration: 2037-12-29
Also published as: CN109993025A

Abstract

本发明公开了一种关键帧提取方法及设备，用于提取出视频片段中的关键帧。该方法包括：获取待提取关键帧的视频片段；提取所述视频片段包括的每一个视频帧中的人脸特征；根据所述视频片段中每一个视频帧的表情识别率和包括的人脸数量、与所述视频片段对应的音频片段包括的至少一个语音段的语音识别率以及所述人脸特征，从所述视频片段中提取关键帧；其中，所述表情识别率用于表征通过人脸识别模型识别出的目标人物的人脸的表情类型的正确率，所述语音识别率用于表征通过语音识别模型识别出的情绪类型的正确率。

Description

一种关键帧提取方法及设备

技术领域

本发明涉及数据处理领域，特别涉及一种关键帧提取方法及设备。

背景技术

目前，由于工作时间或者其他原因造成的用户无法待在家里时，用户无法照顾家里的孩子或者老人，因而现在很多用户会选择聘请保姆来照顾老人或者小孩，但是对于保姆的责任心无法进行评估，并且现在存在着很多保姆打骂老人和小孩的情况，因此这种方式虽然较为方便，但是也存在着安全隐患。

为了能够随时知晓家中老人或者小孩的当前状态，用户通常可以在家中安装视频监控装置，用户可以通过查看到视频监控装置上传到服务器端的视频数据和音频数据来查看老人和小孩的状态。但是视频监控装置虽然在安全问题上起到了一定有益作用，但是用户不可能一直关注着视频监控装置实时传输的视频数据和音频数据，虽然可以在后期回放已经采集的视频数据和音频数据，但是视频数据和音频数据的数据量较为庞大，用户在进行回放时较为费时。

发明内容

本发明实施例提供一种关键帧提取方法及设备，用于提取出视频片段中的关键帧。

第一方面，提供一种关键帧提取方法，该方法包括：

获取待提取关键帧的视频片段；

提取所述视频片段包括的每一个视频帧中的人脸特征；

根据所述视频片段中每一个视频帧的表情识别率和包括的人脸数量、与所述视频片段对应的音频片段包括的至少一个语音段的语音识别率以及所述人脸特征，从所述视频片段中提取关键帧；其中，所述表情识别率用于表征通过人脸识别模型识别出的目标人物的人脸的表情类型的正确率，所述语音识别率用于表征通过语音识别模型识别出的情绪类型的正确率。

可选的，根据所述视频片段中每一个视频帧的表情识别率和包括的人脸数量、与所述视频片段对应的音频片段包括的至少一个语音段的语音识别率以及所述人脸特征，从所述视频片段中提取关键帧，包括：

通过模糊聚类算法对所述视频片段包括的视频帧进行聚类，所述模糊聚类算法的聚类公式为：

其中，ω_i为第i个视频帧的权值，所述权值与所述人脸数量、所述表情识别率和所述语音识别率相关，1≤i≤N，N为所述视频片段包括的视频帧的数量；C为需要提取的关键帧的数量；x_i为第i个视频帧的特征向量；v_k为聚类原型；μ_ik为第i个视频帧在所述聚类公式所划分的C个类中的第k类中的隶属度，1≤k≤C；m为模糊加权参数；λ₁为用于消除时间上的不一致性的调节参数；i-ω≤N_i≤i+ω，i-ω表征第i个视频帧之前的第ω个视频帧，i+ω表征第i个视频帧之后的第ω个视频帧；M_k＝{1,2,……,C}\{k}；

通过所述聚类公式得到所述C个类，以及每一个类对应的聚类原型v_k和所述N个视频帧的隶属度μ_ik；

将所述C个类中每一个类中隶属度μ_ik最高的视频帧确定为所述关键帧。

可选的，所述方法还包括：

根据公式ω_i＝ω_ni*ω_vi*ω_ei确定所述第i个视频帧的权值；

其中，ω_ni＝exp(λ₂y_ni)，ω_ni表征第i个视频帧中人脸数量的权值，y_ni表征第i个视频帧中的人脸数量，λ₂为用于调节ω_ni在ω_i中所占的比例的调节参数；ω_vi＝exp(λ₃y_vi)，ω_vi表征第i个视频帧对应的语音段语音识别率的权值，y_vi表征第i个视频帧对应的语音段的语音识别率，λ₃为用于调节ω_vi在ω_i中所占的比例的调节参数；ω_ei＝exp(λ₄y_ei)，ω_ei表征第i个视频帧的表情识别率的权值，y_ei表征第i个视频帧的表情识别率，λ₄为用于调节ω_ei在ω_i中所占的比例的调节参数。

可选的，获取待提取关键帧的视频片段，包括：

接收采集装置发送的音频流和视频流；

通过所述语音识别模型对所述音频流进行识别，获取所述音频流中所述目标人物的情绪类型和语音识别率；其中，所述情绪类型包括第一情绪类型和至少一种第二情绪类型，所述第一情绪类型与所述第二情绪类型不同；

根据所述人脸识别模型对所述视频流进行识别，获取所述视频流中所述目标人物的表情类型和表情识别率；所述表情类型包括第一表情类型和至少一种第二表情类型，所述第一表情类型和所述第二表情类型不同，所述第一表情类型与所述第一情绪类型相对应；

若第一视频帧为所述第二表情类型，所述第一视频帧的前一个视频帧为所述第一表情类型，且所述第一视频帧对应的第一语音段的情绪类型由所述第一情绪类型转换为所述第二情绪类型，则将所述第一视频帧确定为所述视频片段的起点帧；

若第二视频帧为所述第二表情类型，所述第二视频帧的后一个视频帧为所述第一表情类型，且所述第二视频帧对应的第二语音段的情绪类型由所述第二情绪类型转换为所述第一情绪类型，则将所述第二视频帧确定为所述视频片段的结束帧；

从所述视频流中截取所述起点帧和所述结束帧之间的视频片段。

可选的，在根据所述视频片段中每一个视频帧的表情识别率和包括的人脸数量、与所述视频片段对应的音频片段包括的至少一个语音段的语音识别率以及所述人脸特征，从所述视频片段中提取关键帧之后，所述方法还包括：

根据所述关键帧制作视频相册，并将所述视频相册推送给指定的用户设备。

可选的，所述至少一种第二情绪类型括哭泣情绪类型和生气情绪类型，所述至少一种第二表情类型包括哭泣表情类型和生气表情类型，则所述方法还包括：

若识别出的所述目标人物的情绪类型为所述哭泣情绪类型或者所述生气情绪类型，且表情类型为所述哭泣表情类型或者所述生气表情类型时，则向指定的用户设备发送提醒信息，所述提醒信息用于提醒所述用户设备对应的用户，所述目标人物存在安全隐患。

可选的，所述至少一种第二情绪类型包括哭泣情绪类型，则所述方法还包括：

若所述目标人物保持所述哭泣情绪类型的时间超过预设时间阈值，且保持为哭泣的时间对应的视频帧中均未包括除所述目标人物之外的其他人物，则向指定的用户设备发送提醒信息，所述提醒信息用于提醒所述用户设备对应的用户，所述目标人物存在安全隐患。

第二方面，提供一种关键帧提取设备，该设备包括：

获取单元，用于获取待提取关键帧的视频片段；

提取单元，用于提取所述视频片段包括的每一个视频帧中的人脸特征；

所述提取单元，还用于根据所述视频片段中每一个视频帧的表情识别率和包括的人脸数量、与所述视频片段对应的音频片段包括的至少一个语音段的语音识别率以及所述人脸特征，从所述视频片段中提取关键帧；其中，所述表情识别率用于表征通过人脸识别模型识别出的目标人物的人脸的表情类型的正确率，所述语音识别率用于表征通过语音识别模型识别出的情绪类型的正确率。

可选的，

所述提取单元，具体用于通过模糊聚类算法对所述视频片段包括的视频帧进行聚类，所述模糊聚类算法的聚类公式为：

通过所述聚类公式得到所述C个类，以及每一个类对应的聚类原型v_k和所述N个视频帧的隶属度μ_ik；将所述C个类中每一个类中隶属度μ_ik最高的视频帧确定为所述关键帧；

其中，ω_i为第i个视频帧的权值，所述权值与所述人脸数量、所述表情识别率和所述语音识别率相关，1≤i≤N，N为所述视频片段包括的视频帧的数量；C为需要提取的关键帧的数量；x_i为第i个视频帧的特征向量；v_k为聚类原型；μ_ik为第i个视频帧在所述聚类公式所划分的C个类中的第k类中的隶属度，1≤k≤C；m为模糊加权参数；λ₁为用于消除时间上的不一致性的调节参数；i-ω≤N_i≤i+ω，i-ω表征第i个视频帧之前的第ω个视频帧，i+ω表征第i个视频帧之后的第ω个视频帧；M_k＝{1,2,……,C}\{k}。

可选的，

所述提取单元，具体还用于根据公式ω_i＝ω_ni*ω_vi*ω_ei确定所述第i个视频帧的权值；

可选的，所述获取单元具体包括接收子单元，语音识别子单元，人脸识别子单元，确定子单元，截取子单元；

所述接收子单元，用于接收采集装置发送的音频流和视频流；

所述语音识别子单元，用于通过所述语音识别模型对所述音频流进行识别，获取所述音频流中所述目标人物的情绪类型和语音识别率；其中，所述情绪类型包括第一情绪类型和至少一种第二情绪类型，所述第一情绪类型与所述第二情绪类型不同；

所述人脸识别子单元，用于根据所述人脸识别模型对所述视频流进行识别，获取所述视频流中所述目标人物的表情类型和表情识别率；所述表情类型包括第一表情类型和至少一种第二表情类型，所述第一表情类型和所述第二表情类型不同，所述第一表情类型与所述第一情绪类型相对应；

所述确定子单元，用于若第一视频帧为所述第二表情类型，所述第一视频帧的前一个视频帧为所述第一表情类型，且所述第一视频帧对应的第一语音段的情绪类型由所述第一情绪类型转换为所述第二情绪类型，则将所述第一视频帧确定为所述视频片段的起点帧；以及，若第二视频帧为所述第二表情类型，所述第二视频帧的后一个视频帧为所述第一表情类型，且所述第二视频帧对应的第二语音段的情绪类型由所述第二情绪类型转换为所述第一情绪类型，则将所述第二视频帧确定为所述视频片段的结束帧；

所述截取子单元，用于从所述视频流中截取所述起点帧和所述结束帧之间的视频片段。

可选的，所述设备还包括相册制作单元；

所述相册制作单元，用于根据所述关键帧制作视频相册，并将所述视频相册推送给指定的用户设备。

可选的，所述至少一种第二情绪类型括哭泣情绪类型和生气情绪类型，所述至少一种第二表情类型包括哭泣表情类型和生气表情类型，所述设备还包括第一发送单元；

所述第一发送单元，用于若识别出的所述目标人物的情绪类型为所述哭泣情绪类型或者所述生气情绪类型，且表情类型为所述哭泣表情类型或者所述生气表情类型时，则向指定的用户设备发送提醒信息，所述提醒信息用于提醒所述用户设备对应的用户，所述目标人物存在安全隐患。

可选的，所述至少一种第二情绪类型包括哭泣情绪类型，所述设备还包括第二发送单元；

所述第二发送单元，用于若所述目标人物保持所述哭泣情绪类型的时间超过预设时间阈值，且保持为哭泣的时间对应的视频帧中均未包括除所述目标人物之外的其他人物，则向指定的用户设备发送提醒信息，所述提醒信息用于提醒所述用户设备对应的用户，所述目标人物存在安全隐患。

第三方面，提供一种计算机装置，所述装置包括至少一个处理器，所述处理器用于执行存储器中存储的计算机程序时实现如第一方面提供的关键帧提取方法的步骤。

第四方面，提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如第一方面提供的关键帧提取方法的步骤。

在本发明实施例中，会提取出视频片段包括的关键帧，这样，用户只需要对关键帧进行浏览，而无需查看完整的视频流，从而节省时间。另外，在提取视频片段中的关键帧时，除了会根据视频片段中的视频帧所包括的人脸特征来进行提取，还会基于对视频帧进行人脸识别所识别出的表情类型的正确率、以及视频帧中所包括的人脸数量和与视频片段对应的音频片段进行语音识别所识别出的情绪类型的正确率来提取，从而提取出的关键帧可以更加倾向于人脸数量更多且目标人物的表情更为丰富的视频帧，即提取的关键帧所包含的信息相较视频片段中的其他视频帧来讲更具分析参考价值。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例中所需要使用的附图作简单地介绍，显而易见地，下面所介绍的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的关键帧提取方法的流程示意图；

图2为本发明实施例提供的获取待提取关键帧的视频片段的流程示意图；

图3为本发明实施例提供的关键帧提取设备的一种结构示意图；

图4为本发明实施例提供的计算机装置的一种结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。

下面介绍本发明实施例的技术背景。

目前，为了能够随时知晓家中老人或者小孩的当前状态，用户通常可以在家中安装视频监控装置，用户可以通过查看到视频监控装置上传到服务器端的视频数据和音频数据来查看老人和小孩的状态。但是视频监控装置虽然在安全问题上起到了一定有益作用，但是用户不可能一直关注着视频监控装置实时传输的视频数据和音频数据，虽然可以在后期回放已经采集的视频数据和音频数据，但是视频数据和音频数据的数据量较为庞大，用户在进行回放时较为费时。

鉴于此，本发明实施例提供一种关键帧提取方法，在该方法中，会提取出视频片段包括的关键帧，这样，用户只需要对关键帧进行浏览，而无需查看完整的视频流，从而节省时间。另外，在提取视频片段中的关键帧时，除了会根据视频片段中的视频帧所包括的人脸特征来进行提取，还会基于对视频帧进行人脸识别所识别出的表情类型的正确率、以及视频帧中所包括的人脸数量和与视频片段对应的音频片段进行语音识别所识别出的情绪类型的正确率来提取，从而提取出的关键帧可以更加倾向于人脸数量更多且目标人物的表情更为丰富的视频帧，即提取的关键帧所包含的信息相较视频片段中的其他视频帧来讲更具分析参考价值。

下面结合附图介绍本发明实施例提供的技术方案。

请参见图1，本发明一实施例提供一种关键帧提取方法，该方法可以通过本发明实施例的关键帧提取设备来执行，关键帧提取设备可以通过个人计算机(PersonalComputer，PC)或者服务器来实现，其中，服务器例如可以为视频监控设备上传视频数据和音频数据的服务器。该方法包括：

步骤101：获取待提取关键帧的视频片段；

步骤102：提取视频片段包括的每一个视频帧中的人脸特征；

步骤103：根据视频片段中每一个视频帧的表情识别率和包括的人脸数量、与视频片段对应的音频片段包括的至少一个语音段的语音识别率以及人脸特征，从视频片段中提取关键帧；其中，表情识别率用于表征通过人脸识别模型识别出的目标人物的人脸的表情类型的正确率，语音识别率用于表征通过语音识别模型识别出的情绪类型的正确率。

本发明实施例中，用户在家中安装采集装置之后，采集装置则可以将采集的视频流和音频流实时的发送给服务器。其中，采集装置例如为上述的视频监控装置，视频监控装置可以同时采集音频流和视频流；另外，采集装置也可以包括视频采集装置和音频采集装置，即视频流和音频流对应的采集装置为不同的装置，视频采集装置和音频采集装置都可以将采集到的数据分别发送给服务器。

由于服务器接收到的音频流和视频流所包括的数据量较为庞大，并且音频流和视频流还包括许多无效片段，例如音频流中可能存在并没有目标人物声音的语音片段或者语音的分贝值很低的语音片段，视频流中也可能存在没有人物出现的视频片段，若是基于所有音频流和视频流进行关键帧的提取，反而会增加计算量，增加设备的负担，因此，关键帧的提取可以是只针对音频流和视频流包括的部分频段，那么则需要从视频流中确定出待提取关键帧的视频片段。

请参见图2，为获取待提取关键帧的视频片段的流程示意图。

步骤201：接收采集装置发送的音频流和视频流。

接收采集装置发送的音频流和视频流的过程在上述已经进行描述，具体可参见上述过程，在此不再赘述。

步骤202：通过语音识别模型对音频流进行识别，获取音频流中目标人物的情绪类型和语音识别率。

具体的，音频流可以是实时的传输到服务器，那么对于音频流的处理也可以实时进行的。音频流可以包括多个音频片段，且每个音频片段可以包括多个语音段。若是确定接收到的语音段的分贝值小于或者等于第一预设分贝阈值时，则可将这样的语音段直接忽略不做处理，即无需对这样的语音段进行识别。其中，预设分贝值可以按照经验值进行设置。

本发明实施例中，在语音段的分贝值大于第一预设分贝阈值时，可以通过语音识别模型对该语音段进行识别，以识别出该语音段中目标人物的情绪类型和语音识别率。其中，目标人物即为需要监控的人物，例如可以为老人或者小孩，情绪类型用于表征目标人物的情绪，情绪类型可以包括第一情绪类型和至少一种第二情绪类型，第一情绪类型与第二情绪类型不同。具体的，第一情绪类型可以为目标人物在常态下的情绪，即没有情绪波动下的情绪；第二情绪类型则可以为目标人物存在情绪波动时的情绪，第二情绪类型例如可以为哭泣情绪类型、欢笑情绪类型或者谩骂情绪类型等，当然，还可以是其他可能的情绪类型，本发明实施例对此不做限制。

为了能够对目标人物的情绪类型进行识别，可以在识别之前，通过采集目标人物在各种情绪类型时的语音数据，并对语音数据进行训练，以形成语音识别模型，并用于后续进行情绪类型的识别。语音识别率是指通过语音识别模型识别出的情绪类型的正确率，也就是说语音段中目标人物的情绪类型与语音识别模型中训练得到的该情绪类型的子模型的相似程度。

当识别出的语音段中目标人物的情绪类型为哭泣情绪类型或者谩骂情绪类型等，且该情绪类型保持的时间超过预设时间阈值，例如连续几个语音段的情绪类型皆为哭泣情绪类型或者谩骂情绪类型，以及声音的分贝值大于第二预设分贝阈值，即哭泣或者谩骂的声音较大时，则可以向指定的用户设备发送提醒信息，以提醒用户设备对应的用户，目标人物可能存在安全隐患。其中，第二预设分贝阈值大于第一预设分贝阈值。另外，为了该用户更为直观的查看目标人物的状态，还可以截取保持为哭泣情绪类型或者谩骂情绪类型的音频片段对应的视频片段，在发送提醒信息时，还将该视频片段推送给该用户。

当然，除了可以对目标人物的语音数据进行识别，还可以将家庭中的其他成员的语音数据进行识别，这样，除了可以识别出目标人物的情绪类型，还可以识别出家庭中与目标人物同时存在的其他成员，以及其他成员的情绪类型，进而也可以根据其他成员的情绪类型判断目标人物是否安全。例如，还可以对保姆的语音数据加以训练，进而识别保姆是否与目标人物待在一起，以及保姆当前的情绪类型，若保姆的情绪类型为谩骂情绪类型时，则可以提醒用户，目标人物可能存在安全隐患。

步骤203：根据人脸识别模型对视频流进行识别，获取视频流中目标人物的表情类型和表情识别率。

具体的，视频流也可以是实时的传输到服务器，那么对于视频流的处理也可以实时的进行的，视频流和音频流能够通过时间进行对应。视频流可以包括多个视频片段，且每个视频片段可以包括多个视频帧。可以对视频流包括的所有帧进行人脸检测，若是一视频帧中，未检测出人脸，对于这样的视频帧可以忽略不进行处理，即无需通过人脸识别模型对这样的视频帧进行表情类型的识别；若是在视频帧中检测到人脸，记录该视频帧中的人脸数量。

在本发明实施例中，通过视频模型对包括人脸的视频帧进行人脸识别，若是该视频帧中并未包括目标人物的人脸，且在步骤S202中该视频帧对应的语音段的分贝值低于第一预设分贝阈值，则也可以将该视频帧忽略，并进行下一帧的处理。在识别出视频帧中包括目标人物的人脸时，通过人脸识别模型对该视频帧进行表情类型的识别。表情类型用于表征目标人物在视频帧中的表情，表情类型可以包括第一表情类型和至少一种第二表情类型，第一表情类型和第二表情类型不同，第一表情类型与第一情绪类型相对应。其中，第一表情类型可以是目标人物在常态下的表情；第二情绪类型则可以为目标人物存在情绪波动时的表情，第二情绪类型例如可以为哭泣表情类型、欢笑表情类型或者谩骂表情类型等，当然，还可以是其他可能的表情类型，本发明实施例对此不做限制。

为了能够对目标人物的表情类型进行识别，可以在识别之前，通过采集目标人物在各种情绪类型时的表情数据，并对表情数据进行训练，以形成人脸识别模型，并用于后续进行表情类型的识别。表情识别率是指通过人脸识别模型识别出的表情类型的正确率，也就是说用于表征视频帧中目标人物的表情类型与人脸识别模型中训练得到的该表情类型的子模型的相似程度。当然，除了对目标人物进行表情类型的识别，也可以对家庭中其他成员进行表情类型的识别。例如对保姆也可以进行表情识别，通过保姆和小孩的表情共同判断小孩是否存在安全隐患。例如当保姆的表情为生气，而小孩的表情为哭泣，或者相应的语音片段中小孩的情绪也为哭泣时，则可能存在保姆打骂小孩的情况，即小孩当前存在安全隐患。

本发明实施例中，在识别出的视频帧中目标人物的表情类型为第一表情类型，且该视频帧对应的语音段中目标人物的情绪类型为第一情绪类型时，则对这样的视频帧也进行忽略。其中，这样的视频帧通常为目标人物没有任何情绪波动时候的视频帧，而关键帧的提取通常需要提取目标人物的表情更为丰富的视频帧，或者情绪较为丰满的语音段对应的视频帧，因而对于没有情绪波动的视频帧则可以忽略。

本发明实施例中，步骤202和步骤203并没有实质上的先后顺序，在实际执行时，可以同时执行步骤202和步骤203，也可以先后顺序执行，例如先执行步骤202，再执行步骤203，或者，先执行步骤203，再执行步骤202，本发明实施例对此不做限制。

本发明实施例中，若识别出的目标人物的情绪类型为哭泣情绪类型或者生气情绪类型，且表情类型为哭泣表情类型或者生气表情类型时，则可以向指定的用户设备发送提醒信息，提醒信息用于提醒用户设备对应的用户，目标人物存在安全隐患。例如，通过语音识别模型识别出小孩正在哭泣，声音的频率有增大的趋势时，且对应的视频流中并未出现大人时，则可以向对应的用户设备发送提醒信息。另外，为了该用户更为直观的查看目标人物的状态，还可以相应的视频片段，在发送提醒信息时，还将该视频片段推送给该用户。

步骤204：若第一视频帧为第二表情类型，第一视频帧的前一个视频帧为第一表情类型，且第一视频帧对应的第一语音段的情绪类型由第一情绪类型转换为第二情绪类型，则将第一视频帧确定为视频片段的起点帧。

本发明实施例中，将第一视频帧与第一视频帧的前一个视频帧进行比较，若是第一视频帧的前一个视频帧中目标人物的表情类型为第一表情类型，而第一视频帧中目标人物的表情类型为第二表情类型，且第一视频帧对应的第一语音段的情绪类型由第一情绪类型转换为第二情绪类型时，则将第一视频帧确定为待提取关键帧的视频片段的起点帧。

步骤205：若第二视频帧为第二表情类型，第二视频帧的后一个视频帧为第一表情类型，且第二视频帧对应的第二语音段的情绪类型由第二情绪类型转换为第一情绪类型，则将第二视频帧确定为视频片段的结束帧。

本发明实施例中，在确定起点帧之后，还会继续进行第一视频帧之后的视频帧与该视频帧的前一个视频帧的对比。若是在第二视频帧中目标人物的表情类型为第一表情类型，而第二视频帧的前一个视频帧中目标人物的表情类型为第二表情类型，且与第二视频帧对应的第二语音段中目标人物的情绪类型由第二情绪类型转换为第一情绪类型时，则可以将第二视频帧确定为待提取关键帧的视频片段的结束帧。

其中，为了保证结束帧确定的准确性，还可以在第二视频帧之后的一段时间内的视频帧中目标人物均为第一表情类型，且第二语音段之后的一段时间内的语音段中目标人物均为第一情绪类型时，才将第二视频帧确定为视频片段的结束帧。这样，则可以防止对于第二视频帧的识别错误引起的视频片段的中断。例如，第二视频帧中目标人物为第一表情类型，而第二视频帧的后一个视频帧又转换成第二表情类型，若是直接将第二视频帧作为结束帧，则可能造成截取的视频片段时间过短，而被忽略不处理。

步骤206：从视频流中截取起点帧和结束帧之间的视频片段。

本发明实施例中，在起点帧和结束帧确定之后，则可以截取起点帧和结束帧之间的视频片段，该视频片段包括起点帧和结束帧。另外，若是截取的视频片段的时间较短，其中包括的视频帧的数量较少，那么包括目标人物的精彩瞬间的可能性也较小，则可以将时间较短的视频片段忽略不进行处理，例如视频片段只有2s或者3s时，则可以将视频片段忽略；若是截取的视频片段的时间较长，则可以重复S202～S205的过程，调整起点帧和结束帧的位置，以缩减视频片段的长度，减少后续的计算量。

下面请继续参见图1。

本发明实施例中，获取待提取关键帧的视频片段之后，则可以从该视频片段中提取出关键帧。本发明实施例可以通过模糊C-均值聚类算法(Fuzzy C-Means Algorithm，FCMA)来进行关键帧的提取，下面将针对提取关键帧的过程进行具体的描述。

本发明实施例中，可以提取出视频片段包括的每一个视频帧中的人脸特征。具体的，可以通过CENTRIST空间金字塔算法提取出视频帧中的人脸特征，并通过主成分分析(Principal Component Analysis，PCA)对提取的人脸特征进行降维处理，以减小特征的冗余，进而减少后续的计算量。并且由于PCA处理之后的人脸特征的量纲也不统一，因此还可以对人脸特征进行归一化处理，以统一人脸特征包括的所有数据的量纲，归一化处理之后的人脸特征可以用f_i进行表示。

本发明实施例中，假设视频片段包括N个视频帧，以及需要从该视频片段中提取出C个关键帧。其中，C的数量可以根据视频片段的总时长以及预设置的每分钟的视频片段中需要提取的关键帧的数量进行设置，每分钟的视频片段中需要提取的关键帧的数量根据设备的处理能力进行设置，或者根据经验数据进行设置。

视频帧中第i个视频帧可以用x_i进行表示，则x_i可以表示为：

这样的表示方法提供了更有实用意义的描述符，而不会增加算法所消耗消耗的时间。

其中，y_i为第i个视频帧的方向特征，且y_i可以表示为：

其中，y_ni表征第i个视频帧中的人脸数量；y_vi表征第i个视频帧对应的语音段的语音识别率，y_ei表征第i个视频帧的表情识别率。

则视频片段可以通过如下矩阵X进行表示：

X＝[x₁,x₂,…,x_N]∈R^d×N

其中，d为视频帧包括的像素点的数量，即视频片段包括的每一个视频帧都可以用一个d维的特征向量来进行表示。需要提取的关键帧的集合则可以通过如下矩阵

进行表示：

其中，t₁,t₂,…,t_C∈{1,2,…N}。

可以看到，提取哪些视频帧作为关键帧的问题可以转换成获取矩阵X的一个最优的子集

的问题，对于该问题，通常可以通过聚类算法来取得结果。由于在视频片段中的两个连续的视频帧通常存在相似之处，即两个连续的视频帧存在模糊过度，因而可以通过模糊聚类算法来获取最优的子集

具体的，在需要提取的关键帧的数量为C时，即是需要根据视频片段包括的视频帧得到C个类，其中，模糊聚类算法的聚类公式如下：

其中，μ_ik为第i个视频帧在所述聚类公式所划分的C个类中的第k类中的隶属度，1≤i≤N，1≤k≤C；v_k为聚类原型；m为模糊加权参数。其中，m对聚类结果的模糊度权重指数起决定作用，m∈[1,∞)，m的经验取值范围为1.5≤m≤2.5，例如，m的取值可以为2。

上述聚类公式中并未考虑到视频片段中各个视频帧之间时间上的关系，例如，相邻的视频帧由于内容较为类似，即区别点较小，因而相邻的视频帧在各个类中的隶属度比较接近，因而考虑到相邻视频帧的特性，可以将上述聚类公式中的目标函数可以进一步表示为：

其中，λ₁为用于消除时间上的不一致性的调节参数；

表示第p个视频帧在第q类中的隶属度，其中，p的取值范围即为集合N_i，且i-ω≤N_i≤i+ω，即N_i＝{i-ω,i-ω+1,……,i+ω-1,i+ω}，q的取值范围为集合M_k，M_k＝{1,2,……,C}\{k}，即q的取值为集合{1,2,……,C}中除去k之外的其他任意值；i-ω表征第i个视频帧之前的第ω个视频帧，i+ω表征第i个视频帧之后的第ω个视频帧。

本发明实施例中，由于考虑到相邻的视频帧的相似性，从而使得在进行聚类时，能够更快的实现聚类。

本发明实施例中，在聚类时，为了使得提取的关键帧更倾向于为人脸数量更多，表情更为丰富的视频帧，在进行聚类时，还将上述聚类算法与视频帧的方向信息相结合。具体的，通过为视频片段设置权值，进而提取出的关键帧会倾向于权值更大的视频帧，其中，第i个视频帧的权值为ω_i，其中，第i个视频帧的权值的计算公式为：

ω_i＝ω_ni*ω_vi*ω_ei；

ω_ni＝exp(λ₂y_ni)；

ω_vi＝exp(λ₃y_vi)；

ω_ei＝exp(λ₄y_ei)；

其中，ω_ni表征第i个视频帧中人脸数量的权值，λ₂为用于调节ω_ni在ω_i中所占的比例的调节参数，λ₂的经验取值可以为0.5≤λ₂≤1；ω_vi＝exp(λ₃y_vi)，ω_vi表征第i个视频帧对应的语音段语音识别率的权值，λ₃为用于调节ω_vi在ω_i中所占的比例的调节参数，λ₃的经验取值可以为0.5≤λ₃≤1；ω_ei＝exp(λ₄y_ei)，ω_ei表征第i个视频帧的视频识别率的权值，λ₄为用于调节ω_ei在ω_i中所占的比例的调节参数，λ₄的经验取值可以为0.5≤λ₄≤1。

本发明实施例中，考虑了视频帧的权值的聚类公式中的目标函数可以进一步表示为：

其中，通过上述聚类公式可以得到C个类，以及每个类对应的聚类原型v_k，以及视频片段包括的视频帧在每个类中的隶属度μ_ik。

本发明实施例中，聚类原型v_k即为上述聚类公式的局部最优解，获取局部最优解的方式可以采用迭代计算的方法。

具体的，计算每一次迭代过程中的聚类原型v_k以及隶属度μ_ik，每一次迭代过程的隶属度μ_ik为：

对隶属度μ_ik进行归一化后，则隶属度μ_ik可以表示为：

每一次迭代过程的聚类原型v_k为：

其中，在迭代初始化时，令t＝0，

即是从N个视频帧中随机选取的C个视频帧。

在进行多次迭代之后，计算该次迭代和上一次迭代过程所得到的聚类原型v_k之间的欧氏距离，且在满足以下公式时继续进行迭代，公式如下：

即当聚类原型v_k之间的欧氏距离中值最大的欧氏距离大于预设迭代停止阈值ε之时，继续下一次迭代，直至不满足上述公式，即聚类原型v_k之间的欧氏距离中值最大的欧氏距离小于或者等于预设迭代停止阈值ε时停止迭代。

本发明实施例中，在停止迭代之后，则可以获取最后一次迭代过程中的聚类原型v_k，以及隶属度μ_ik。但是由于通过迭代计算得到的每一个聚类原型v_k中都包括N个序列，但实质上所需要提取的关键帧的数量为C，因此，还可以通过如下公式来得到关键帧：

其中，通过上述获取的C个关键帧即为每个类中与聚类原型v_k的隶属度μ_ik最高的视频帧。

本发明实施例中，在提取出关键帧之后，则可以将关键帧制作成视频相册，并将视频相册推送给指定的用户设备，以便使用该用户设备的用户即使未在家中，也能够欣赏到家中老人或者小孩的图片，并且用户无需浏览完整的视频流，进而还节省了用户浏览视频流所消耗的时间。其中，对于视频相册在服务器端或者用户设备端进行制作，本发明实施例对此并不进行限制。也就是说，视频相册可以是在服务器端进行制作，那么服务器端只需将制作完成的视频相册推送给用户设备；或者，服务器端可以将提取的关键帧直接发送给用户设备，用户设备在可以根据关键帧制作视频相册。

具体的，在向用户发送提醒信息时，还可以不将相应的视频片段推送给用户设备，而是将提取的关键帧推送给用户设备，以便用户更为直观的查看目标人物当前的状态。当然，在发送提醒信息时，也可以同时推送相应的视频片段和关键，本发明实施例对此不做限制。

综上所述，本发明实施例中，会提取出视频片段包括的关键帧，这样，用户只需要对关键帧进行浏览，而无需查看完整的视频流，从而节省时间。另外，在提取视频片段中的关键帧时，除了会根据视频片段中的视频帧所包括的人脸特征来进行提取，还会基于对视频帧进行人脸识别所识别出的表情类型的正确率、以及视频帧中所包括的人脸数量和与视频片段对应的音频片段进行语音识别所识别出的情绪类型的正确率来提取，从而提取出的关键帧可以更加倾向于人脸数量更多且目标人物的表情更为丰富的视频帧，即提取的关键帧所包含的信息相较视频片段中的其他视频帧来讲更具分析参考价值。并且，本发明实施例的方案不仅解决了保姆照顾小孩和老人时的存在的安全隐患问题，最重要的是记录老人和小孩的日常生活，从冗长的视频中提取关键帧并制作成家庭视频相册，方便用户的查看。

请参见图3，基于同一发明构思，本发明一实施例提供一种关键帧提取设备30，该设备包括：

获取单元301，用于获取待提取关键帧的视频片段；

提取单元302，用于提取视频片段包括的每一个视频帧中的人脸特征；

提取单元302，还用于根据视频片段中每一个视频帧的表情识别率和包括的人脸数量、与视频片段对应的音频片段包括的至少一个语音段的语音识别率以及人脸特征，从视频片段中提取关键帧；其中，表情识别率用于表征通过人脸识别模型识别出的目标人物的人脸的表情类型的正确率，语音识别率用于表征通过语音识别模型识别出的情绪类型的正确率。

可选的，

提取单元302，具体用于通过模糊聚类算法对视频片段包括的视频帧进行聚类，模糊聚类算法的聚类公式为：

通过聚类公式得到C个类，以及每一个类对应的聚类原型v_k和N个视频帧的隶属度μ_ik；将C个类中每一个类中隶属度μ_ik最高的视频帧确定为关键帧；

其中，ω_i为第i个视频帧的权值，权值与人脸数量、表情识别率和语音识别率相关，1≤i≤N，N为视频片段包括的视频帧的数量；C为需要提取的关键帧的数量；x_i为第i个视频帧的特征向量；v_k为聚类原型；μ_ik为第i个视频帧在聚类公式所划分的C个类中的第k类中的隶属度，1≤k≤C；m为模糊加权参数；λ₁为用于消除时间上的不一致性的调节参数；i-ω≤N_i≤i+ω，i-ω表征第i个视频帧之前的第ω个视频帧，i+ω表征第i个视频帧之后的第ω个视频帧；M_k＝{1,2,……,C}\{k}。

可选的，

提取单元302，具体还用于根据公式ω_i＝ω_ni*ω_vi*ω_ei确定第i个视频帧的权值；

可选的，获取单元301具体包括接收子单元3011，语音识别子单元3012，人脸识别子单元3013，确定子单元3014，截取子单元3015；

接收子单元3011，用于接收采集装置发送的音频流和视频流；

语音识别子单元3012，用于通过语音识别模型对音频流进行识别，获取音频流中目标人物的情绪类型和语音识别率；其中，情绪类型包括第一情绪类型和至少一种第二情绪类型，第一情绪类型与第二情绪类型不同；

人脸识别子单元3013，用于根据人脸识别模型对视频流进行识别，获取视频流中目标人物的表情类型和表情识别率；表情类型包括第一表情类型和至少一种第二表情类型，第一表情类型和第二表情类型不同，第一表情类型与第一情绪类型相对应；

确定子单元3014，用于若第一视频帧为第二表情类型，第一视频帧的前一个视频帧为第一表情类型，且所述第一视频帧对应的第一语音段的情绪类型由第一情绪类型转换为第二情绪类型，则将第一视频帧确定为视频片段的起点帧；以及，若第二视频帧为第二表情类型，第二视频帧的后一个视频帧为第一表情类型，且所述第二语音段对应的第二语音段的情绪类型由第二情绪类型转换为第一情绪类型，则将第二视频帧确定为视频片段的结束帧；

截取子单元3015，用于从视频流中截取起点帧和结束帧之间的视频片段。

可选的，设备还包括相册制作单元303；

相册制作单元303，用于根据关键帧制作视频相册，并将视频相册推送给指定的用户设备。

可选的，至少一种第二情绪类型括哭泣情绪类型和生气情绪类型，至少一种第二表情类型包括哭泣表情类型和生气表情类型，设备还包括第一发送单元304；

第一发送单元304，用于若识别出的目标人物的情绪类型为哭泣情绪类型或者生气情绪类型，且表情类型为哭泣表情类型或者生气表情类型时，则向指定的用户设备发送提醒信息，提醒信息用于提醒用户设备对应的用户，目标人物存在安全隐患。

可选的，至少一种第二情绪类型包括哭泣情绪类型，设备还包括第二发送单元305；

第二发送单元305，用于若目标人物保持哭泣情绪类型的时间超过预设时间阈值，且保持为哭泣的时间对应的视频帧中均未包括除目标人物之外的其他人物，则向指定的用户设备发送提醒信息，提醒信息用于提醒用户设备对应的用户，目标人物存在安全隐患。

该设备可以用于执行图1和图2所示的实施例所提供的方法，因此，对于该设备的各功能模块所能够实现的功能等可参考图1和图2所示的实施例的描述，不多赘述。其中，相册制作单元303、第一发送单元304和第二发送单元305在图3中一并示出，但需要知道的是，相册制作单元303、第一发送单元304和第二发送单元305并不是别选的功能单元，因此图2中以虚线示出。

请参见图4，本发明一实施例还提供一种计算机装置，该计算机装置包括至少一个处理器401，至少一个处理器401用于执行存储器中存储的计算机程序时实现图1和图2所示的实施例提供的关键帧提取方法的步骤。

可选的，至少一个处理器401具体可以包括中央处理器(CPU)、特定应用集成电路(application specific integrated circuit，ASIC)，可以是一个或多个用于控制程序执行的集成电路，可以是使用现场可编程门阵列(field programmable gate array，FPGA)开发的硬件电路，可以是基带处理器。

可选的，至少一个处理器401可以包括至少一个处理核心。

可选的，该计算机装置还包括存储器402，存储器402可以包括只读存储器(readonly memory，ROM)、随机存取存储器(random access memory，RAM)和磁盘存储器。存储器402用于存储至少一个处理器401运行时所需的数据。存储器402的数量为一个或多个。其中，存储器402在图4中一并示出，但需要知道的是存储器402不是必选的功能模块，因此在图4中以虚线示出。

本发明一实施例还提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现图1和图2所示的实施例提供的关键帧提取方法的步骤。

在本发明实施例中，应该理解到，所揭露的设备和方法，可以通过其它的方式实现。例如，以上所描述的设备实施例仅仅是示意性的，例如，所述单元或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，设备或单元的间接耦合或通信连接，可以是电性或其它的形式。

在本发明实施例中的各功能单元可以集成在一个处理单元中，或者各个单元也可以均是独立的物理模块。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实施例的技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备，例如可以是个人计算机，服务器，或者网络设备等，或处理器(processor)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：通用串行总线闪存盘(universal serial bus flash drive)、移动硬盘、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以对本申请的技术方案进行了详细介绍，但以上实施例的说明只是用于帮助理解本发明实施例的方法，不应理解为对本发明实施例的限制。本技术领域的技术人员可轻易想到的变化或替换，都应涵盖在本发明实施例的保护范围之内。

Claims

1.一种关键帧提取方法，其特征在于，包括：

获取待提取关键帧的视频片段；

提取所述视频片段包括的每一个视频帧中的人脸特征；

根据所述视频片段中每一个视频帧的表情识别率、包括的人脸数量和权值，与所述视频片段对应的音频片段包括的至少一个语音段的语音识别率以及所述人脸特征，从所述视频片段中提取关键帧；其中，所述表情识别率用于表征通过人脸识别模型识别出的目标人物的人脸的表情类型的正确率，所述语音识别率用于表征通过语音识别模型识别出的情绪类型的正确率，第i个视频帧的权值ω_i根据公式ω_i＝ω_ni*ω_vi*ω_ei确定，1≤i≤N，N为所述视频片段包括的视频帧的数量；ω_ni＝exp(λ₂y_ni)，ω_ni表征所述第i个视频帧中人脸数量的权值，y_ni表征第i个视频帧中的人脸数量，λ₂为用于调节ω_ni在ω_i中所占的比例的调节参数，ω_vi＝exp(λ₃y_vi)，ω_vi表征第i个视频帧对应的语音段语音识别率的权值，y_vi表征第i个视频帧对应的语音段的语音识别率，λ₃为用于调节ω_vi在ω_i中所占的比例的调节参数，ω_ei＝exp(λ₄y_ei)，ω_ei表征第i个视频帧的表情识别率的权值，y_ei表征第i个视频帧的表情识别率，λ₄为用于调节ω_ei在ω_i中所占的比例的调节参数。

2.如权利要求1所述的方法，其特征在于，根据所述视频片段中每一个视频帧的表情识别率和包括的人脸数量、与所述视频片段对应的音频片段包括的至少一个语音段的语音识别率以及所述人脸特征，从所述视频片段中提取关键帧，包括：

其中，C为需要提取的关键帧的数量；x_i为第i个视频帧的特征向量；v_k为聚类原型；μ_ik为第i个视频帧在所述聚类公式所划分的C个类中的第k类中的隶属度，1≤k≤C；m为模糊加权参数；λ₁为用于消除时间上的不一致性的调节参数；i-ω≤N_i≤i+ω，i-ω表征第i个视频帧之前的第ω个视频帧，i+ω表征第i个视频帧之后的第ω个视频帧；q的取值范围为集合M_k，M_k＝{1,2,……,C}\{k}，表征q的取值为集合{1,2,……,C}中除去k之外的其他值；

3.如权利要求1所述的方法，其特征在于，获取待提取关键帧的视频片段，包括：

接收采集装置发送的音频流和视频流；

若第二视频帧为所述第二表情类型，所述第二视频帧的后一个视频帧为所述第一表情类型，且所述第二视频帧对应的第二语音段的情绪类型由所述第二情绪类型转换为所述第一情绪类型，所述第二语音段对应的则将所述第二视频帧确定为所述视频片段的结束帧；

4.如权利要求1所述的方法，其特征在于，在根据所述视频片段中每一个视频帧的表情识别率和包括的人脸数量、与所述视频片段对应的音频片段包括的至少一个语音段的语音识别率以及所述人脸特征，从所述视频片段中提取关键帧之后，所述方法还包括：

5.如权利要求3所述的方法，其特征在于，所述至少一种第二情绪类型括哭泣情绪类型和生气情绪类型，所述至少一种第二表情类型包括哭泣表情类型和生气表情类型，则所述方法还包括：

6.如权利要求3所述的方法，其特征在于，所述至少一种第二情绪类型包括哭泣情绪类型，则所述方法还包括：

7.一种关键帧提取设备，其特征在于，包括：

获取单元，用于获取待提取关键帧的视频片段；

所述提取单元，还用于根据所述视频片段中每一个视频帧的表情识别率、包括的人脸数量和权值，与所述视频片段对应的音频片段包括的至少一个语音段的语音识别率以及所述人脸特征，从所述视频片段中提取关键帧；其中，所述表情识别率用于表征通过人脸识别模型识别出的目标人物的人脸的表情类型的正确率，所述语音识别率用于表征通过语音识别模型识别出的情绪类型的正确率，第i个视频帧的权值ω_i根据公式ω_i＝ω_ni*ω_vi*ω_ei确定，1≤i≤N，N为所述视频片段包括的视频帧的数量；ω_ni＝exp(λ₂y_ni)，ω_ni表征所述第i个视频帧中人脸数量的权值，y_ni表征第i个视频帧中的人脸数量，λ₂为用于调节ω_ni在ω_i中所占的比例的调节参数，ω_vi＝exp(λ₃y_vi)，ω_vi表征第i个视频帧对应的语音段语音识别率的权值，y_vi表征第i个视频帧对应的语音段的语音识别率，λ₃为用于调节ω_vi在ω_i中所占的比例的调节参数，ω_ei＝exp(λ₄y_ei)，ω_ei表征第i个视频帧的表情识别率的权值，y_ei表征第i个视频帧的表情识别率，λ₄为用于调节ω_ei在ω_i中所占的比例的调节参数。

8.一种计算机装置，其特征在于，所述装置包括处理器，所述处理器用于执行存储器中存储的计算机程序时实现如权利要求1-6中任一项所述方法的步骤。

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于：所述计算机程序被处理器执行时实现如权利要求1-6中任一项所述方法的步骤。