CN111339842A

CN111339842A - 一种视频卡顿识别方法、装置及终端设备

Info

Publication number: CN111339842A
Application number: CN202010087225.0A
Authority: CN
Inventors: 胡甜敏
Original assignee: OneConnect Financial Technology Co Ltd Shanghai
Current assignee: OneConnect Smart Technology Co Ltd; OneConnect Financial Technology Co Ltd Shanghai
Priority date: 2020-02-11
Filing date: 2020-02-11
Publication date: 2020-06-26
Also published as: WO2021159609A1

Abstract

本申请提供了一种视频卡顿识别方法、装置及终端设备，适用于视频处理技术领域，该方法包括：当视频监控状态为第一状态且视频中存在人脸时，将监控状态修改为第二状态；若为第二状态，对视频采样得到N张第一帧图像；若N张第一帧图像之间的图像差异度小于第一差异阈值，将最早的采样时刻作为卡顿起始时刻，并将监控状态设置为第三状态；若监控状态为第三状态，对视频采样得到M张第二帧图像；若M张第二帧图像之间的图像差异度大于或等于第一差异阈值，将最晚的采样时刻作为视频的卡顿终止时刻，将监控状态设置为第一状态，并识别视频的卡顿时间段。本申请实施例实现了对卡顿开始和结束的精确识别，从而实现了对卡顿时间段的精确识别。

Description

一种视频卡顿识别方法、装置及终端设备

技术领域

本申请属于视频处理技术领域，尤其涉及视频卡顿识别方法及终端设备。

背景技术

随着技术的不断进步，通过网络进行视频通话(以下简称通话)已经成为了生活和工作中常见的一幕场景，由于实时通话的效果会受到实时网络状态、视频设备状态和视频服务器资源等的影响，其中只要任意一环出现问题都有可能导致通话过程中出现视频卡顿。为了改善卡顿的情况，首先需要确定出通话过程中具体何时出现了卡顿，再对卡顿时的各环节情况进行分析进而定位出卡顿原因，以精确改善视频卡顿情况。

现有技术中都是由测试人员手动对通话录制的视频文件进行查阅，并确定出其中存在卡顿的时段，然而这样识别的效率极为低下。

发明内容

有鉴于此，本申请实施例提供了一种视频卡顿识别方法及终端设备，可以解决对视频通话卡顿识别效率低下的问题。

本申请实施例的第一方面提供了一种视频卡顿识别方法，包括：

当实时通话过程中的视频对应的监控状态为第一状态时，对所述视频进行人脸检测，并在检测到所述视频中存在人脸时，将所述视频对应的监控状态修改为第二状态；

若所述监控状态为第二状态，以第一频率对所述视频进行采样得到N张第一帧图像，并对N张所述第一帧图像进行比对，其中，N为大于1的正整数；

若比对结果为N张所述第一帧图像之间的图像差异度小于第一差异阈值，将各张所述第一帧图像对应的采样时刻中最早的采样时刻，作为所述视频的卡顿起始时刻，并将所述监控状态设置为第三状态；

若所述监控状态为第三状态，以第二频率对所述视频进行采样得到M张第二帧图像，并对M张所述第二帧图像进行比对，其中，M为大于1的正整数；

若比对结果为M张所述第二帧图像之间的图像差异度大于或等于所述第一差异阈值，将各张所述第二帧图像对应的采样时刻中最晚的采样时刻，作为所述视频的卡顿终止时刻，将所述监控状态设置为第一状态，并基于所述卡顿起始时刻和所述卡顿终止时刻识别所述视频的卡顿时间段。

在第一方面的第一种可能的实现方式中，所述对N张所述第一帧图像进行比对，包括：

针对每张所述第一帧图像进行人脸器官坐标分析，得到N个第一人脸器官坐标集；

利用N个所述第一人脸器官坐标集对N个所述第一帧图像进行比对。

在第一种可能实现方式的基础上，在第一方面的第二种可能的实现方式中，所述第一人脸器官坐标集为多个坐标组的集合，每个坐标组对应一种人脸器官，且每个坐标组中包含对应的人脸器官的多个坐标；

所述针对每张所述第一帧图像进行人脸器官坐标分析，包括：

将待分析的所述第一帧图像作为目标图像，对所述目标图像进行人脸轮廓绘制，得到对应的人脸轮廓图形；

获取各个人脸器官在所述人脸轮廓图形中的第一相对位置；

利用所述第一相对位置对所述目标图像进行人脸器官的定位，得到各个人脸器官在所述目标图像中的器官中心坐标，并基于多个所述器官中心坐标，识别出各个人脸器官在所述目标图像中分别对应的第一图像区域；

对各个所述第一图像区域分别进行坐标提取，得到各个人脸器官在所述目标图像中分别对应的所述坐标组。

在第二种可能实现方式的基础上，在第一方面的第三种可能的实现方式中，获取各个人脸器官在所述人脸轮廓图形中的第一相对位置，包括：

将所述人脸轮廓图形与人脸轮廓库中的多个样本轮廓图像进行图形匹配；

若匹配成功，获取匹配成功的所述样本轮廓图形对应的相对位置集，所述相对位置集中包含各个人脸器官在所述样本轮廓图形中的第二相对位置；将所述相对位置集中的各个人脸器官对应的第二相对位置，作为各个人脸器官在所述人脸轮廓图形中的第一相对位置。

在第二种可能实现方式的基础上，在第一方面的第四种可能的实现方式中，所述基于多个所述器官中心坐标，识别出各个人脸器官在所述目标图像中分别对应的第一图像区域：

获取各个人脸器官对应的检索矩形尺寸，并根据所述检索矩形尺寸和所述器官中心坐标，识别各个人脸器官在所述目标图像中分别对应的第二图像区域，所述第二图像区域的形状为矩形；

对各个所述第二图像区域分别进行人脸器官检测，并根据检测结果从所述第二图像区域中识别出人脸器官对应的所述第一图像区域。

在第二种可能实现方式的基础上，在第一方面的第五种可能的实现方式中，

所述对各个所述第一图像区域分别进行坐标提取，得到各个人脸器官在所述目标图像中分别对应的所述坐标组，包括：

获取各个人脸器官分别对应的采样点数量，其中，嘴部、眼部、眉部和鼻子对应的所述采样点数量依次减小；

对各个所述人脸器官对应的所述第一图像区域进行特征点采样，并获取各个特征点的坐标，得到各个人脸器官在所述目标图像中分别对应的所述坐标组，所述特征点采样的采样点数量为所述人脸器官各自对应的所述采样点数量。

本申请实施例的第二方面提供了一种视频卡顿识别装置，包括：

人脸检测模块，用于在实时通话过程中的视频对应的监控状态为第一状态时，对所述视频进行人脸检测，并在检测到所述视频中存在人脸时，将所述视频对应的监控状态修改为第二状态；

第一图像比对模块，用于若所述监控状态为第二状态，以第一频率对所述视频进行采样得到N张第一帧图像，并对N张所述第一帧图像进行比对，其中，N为大于1的正整数；

卡顿开始识别模块，用于若比对结果为N张所述第一帧图像之间的图像差异度小于第一差异阈值，将各张所述第一帧图像对应的采样时刻中最早的采样时刻，作为所述视频的卡顿起始时刻，并将所述监控状态设置为第三状态；

第二图像比对模块，用于若所述监控状态为第三状态，以第二频率对所述视频进行采样得到M张第二帧图像，并对M张所述第二帧图像进行比对，其中，M为大于1的正整数；

卡顿结束识别模块，用于若比对结果为M张所述第二帧图像之间的图像差异度大于或等于所述第一差异阈值，将各张所述第二帧图像对应的采样时刻中最晚的采样时刻，作为所述视频的卡顿终止时刻，将所述监控状态设置为第一状态，并基于所述卡顿起始时刻和所述卡顿终止时刻识别所述视频的卡顿时间段。

本申请实施例的第三方面提供了一种终端设备，所述终端设备包括存储器、处理器，所述存储器上存储有可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如上述第一方面中任一项所述视频卡顿识别方法的步骤。

本申请实施例的第四方面提供了一种计算机可读存储介质，包括：存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如上述第一方面中任一项所述视频卡顿识别方法的步骤。

本申请实施例的第五方面提供了一种计算机程序产品，当计算机程序产品在终端设备上运行时，使得终端设备执行上述第一方面中任一项所述视频卡顿识别方法。

本申请实施例与现有技术相比存在的有益效果是：预先对通话过程中的视频设置第一状态的监控状态，再对实时通话过程中产生的视频进行实时监控，当发现视频中存在人脸需要进行卡顿分析时，将视频的监控状态设置为第二状态，在视频为第一状态时对视频进行帧图像采样，并识别是否有连续多张帧图像不变的情况，若有说明视频开始卡顿，并同时将视频的监控状态标记为第三状态，在视频卡顿开始后，再继续进行帧图像采样和比对，若出现连续多张帧图像之间差异较大说明视频恢复，此时即可获取到对应的卡顿结束时刻，再根据的卡顿开始时刻和卡顿结束时刻即可识别出视频对应出现卡顿的时间段，最后将视频的监控状态修改为第一状态，从而结束对视频当次的卡顿识别。本申请实施例一方面实现了对卡顿开始和结束的高效精确识别，另一方面，通过对不同卡顿阶段设置不同的监控状态，从而实现对每次卡顿的有效区分处理，保障了对每一次卡顿识别的准确性。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例一提供的视频卡顿识别方法的实现流程示意图；

图2是本申请实施例二提供的视频卡顿识别方法的实现流程示意图；

图3是本申请实施例三提供的视频卡顿识别方法的实现流程示意图；

图4是本申请实施例四提供的视频卡顿识别方法的实现流程示意图；

图5是本申请实施例五提供的视频卡顿识别方法的实现流程示意图；

图6是本申请实施例六提供的视频卡顿识别方法的实现流程示意图；

图7是本申请实施例七提供的视频卡顿识别装置的结构示意图；

图8是本申请实施例八提供的终端设备的示意图。

具体实施方式

以下描述中，为了说明而不是为了限定，提出了诸如特定系统结构、技术之类的具体细节，以便透彻理解本申请实施例。然而，本领域的技术人员应当清楚，在没有这些具体细节的其它实施例中也可以实现本申请。在其它情况中，省略对众所周知的系统、装置、电路以及方法的详细说明，以免不必要的细节妨碍本申请的描述。

为了说明本申请所述的技术方案，下面通过具体实施例来进行说明。

为了便于理解本申请，此处先对本申请实施例进行简要说明，由于实时通话的效果会受到通话网络各个环节的影响，其中只要任意一个环节出现问题都有可能会导致通话的视频出现卡顿。为了准确识别出视频出现卡顿的时间段，现在都是由技术人员在通话结束后手动对录制的视频进行查阅，但一方面这样查阅定位的成本高昂且效率极为低下，无法适应越来越多的视频卡顿分析数量、成本和效率上的需求，另一方面，在一些对通话流畅性要求较高特殊的场景之中，例如银行贷款视频面审的场景，通话结束后识别卡顿虽然可以为后续的通话提供一些分析保障，但对当次的通话而言并没有太大的实际意义。

为了提高对通话过程中的视频卡顿识别，在本申请实施例中，预先对通话过程中的视频设置第一状态的监控状态，再对实时通话过程中产生的视频进行实时监控，当发现视频中存在人脸需要进行卡顿分析时，将视频的监控状态设置为第二状态，在视频为第一状态时对视频进行帧图像采样，并识别是否有连续多张帧图像不变的情况，若有说明视频开始卡顿，并同时将视频的监控状态标记为第三状态，在视频卡顿开始后，再继续进行帧图像采样和比对，若出现连续多张帧图像之间差异较大，即说明视频恢复变化，此时即可获取到对应的卡顿结束时刻，此时根据记录的卡顿开始时刻和卡顿结束时刻即可识别出视频对应出现卡顿的时间段，最后将视频的监控状态修改为第一状态，从而结束对视频当次的卡顿识别。本申请实施例一方面实现了对卡顿开始和结束的精确识别，另一方面，通过对不同识别阶段和卡顿阶段设置不同的监控状态，从而实现对每次卡顿的有效区分处理，保障了对每一次卡顿识别的准确性，使得本申请实施例可以实现对视频的连续卡顿识别。

同时，本申请实施例中视频卡顿识别方法的执行主体为具有一定视频处理能力的终端设备，其中一定的视频处理能力，是指可以对视频进行帧图像的提取以及进行帧图像比对，终端设备的具体设备种类等此处不予限定，可由技术人员根据实际场景需求选取，包括但不限于进行视频通话的终端设备，如手机电脑等，亦可以是与进行视频通话的终端设备通信连接的第三方设备，例如服务器等。

对本申请实施例详述如下：

图1示出了本申请实施例一提供的视频卡顿识别方法的实现流程图，详述如下：

S101，当实时通话过程中的视频对应的监控状态为第一状态时，对视频进行人脸检测，并在检测到视频中存在人脸时，将视频对应的监控状态修改为第二状态。

在本申请实施例中，监控状态用于标记视频实时所处的卡顿阶段，其中监控状态包含第一状态、第二状态和第三状态，分别对应于视频的卡顿未知阶段、卡顿开始阶段和卡顿结束阶段，同时本申请实施例会针对每个卡顿阶段的特点或实际需求，设计不同的识别策略，以实现对卡顿开始和结束的准确识别，在本申请实施例中，不对监控状态的具体标记方法进行限定，可由技术人员自行设定，例如可以采用对视频添加不同的标识等方式来进行监控状态标记，如设置第一状态、第二状态和第三状态对应的标识分别为数字1、2和3，此时只需要对视频添加/修改不同的数字标识，即可实现对视频监控状态的灵活设置。本申请实施例会预先将所有实时通话的视频均默认标记为第一状态，以保证通话开始时对视频卡顿状态的和卡顿识别策略的准确选取。

在本申请实施例中，会在通话的过程中实时检测通话视频的监控状态，考虑到实际应用中，仅当视频通话双方有用户存在时视频通话才具有意义(当无用户存在时，即使出现卡顿也没必要进行卡顿分析和优化)，因此为了提高卡顿分析的有效性，本申请实施例在检测出视频处于第一状态时，会同时开始实时检测视频中是否出现人脸，并仅会在存在人脸时，才将监控状态切换为第二状态，并对卡顿是否开始进行识别。

S102，若监控状态为第二状态，以第一频率对视频进行采样得到N张第一帧图像，并对N张第一帧图像进行比对，其中，N为大于1的正整数。

当监控状态处于第二状态时，说明这个阶段实时视频有可能会出现卡顿，因此本申请实施例会开始对视频卡顿是否开始进行分析，具体而言：

为了识别视频是否开始卡顿，本申请实施例会以第一频率来对视频进行帧图像的采样，以得到待分析的第一帧图像，同时考虑到卡顿并不一定充斥于整个通话的过程而是会在通话过程的某一时刻开始，因此本申请实施例会在每次采样出一张新的第一帧图像时，仅对最新采样出的N张第一帧图像进行图像比对，以实现对卡顿开始的精确识别，例如，假设第一频率为1张/秒，N＝5，开始采样的时刻为00：00，在00：00～01：00共一分钟时间内，理论上每秒都可以采集到一张新的第一帧图像，且在01：00时刻时共采集到了60张第一帧图像，此时，在每次采集到新的一张帧图像时，本申请实施例都会获取最新的5张第一帧图像进行比对，如在01：00时刻采集到第60张第一帧图像时，会将第56张至第60张共5张第一帧图像进行比对，以保证卡顿开始的识别不会受到相隔过远的历史图像的影响，保障识别的准确性。

其中，本申请实施例不对第一频率和N的具体值进行限定，可由技术人员根据实际需求来进行设定，例如，可以将第一频率设置为1～5张/秒，设置N为5～12，或者参考到实际应用中判定是否卡顿的时长来设置好第一频率和N的转换关系，并设置好第一频率和N中任意一个具体值，再根据转换关系和已知的具体值来计算出另一个值，例如，假设当视频画面5秒内无变化，则认为视频处于卡顿状态，此时可知转换关系为N＝5秒×第一频率，此时若将第一频率设置为1次/秒，根据转换关系即可计算出N＝5。其中判定是否卡顿的时长，亦可由技术人员根据实际场景的需求来进行设定，此处不予限定。

同时，本申请实施例也不对第一帧图像之间的图像比对方法进行限定，可由技术人员根据实际需求进行选取或设定，包括但不限于如，计算N张第一帧图像中所有相邻图像之间的图像欧氏距离，并将欧式距离的均值或最大值作为对应图像差异度，或者对N张第一帧图像进行随机图像对组合，对各个图像对内的第一帧图像分别进行交叉相关计算，再基于交叉相关结果来计算对应的差异度，亦可以参考本申请实施例二至六的相关说明。

S103，若比对结果为N张第一帧图像之间的图像差异度小于第一差异阈值，将各张第一帧图像对应的采样时刻中最早的采样时刻，作为视频的卡顿起始时刻，并将监控状态设置为第三状态。

当图像比对结果为N张第一帧图像之间的图像差异度小于第一差异阈值时，说明视频已经持续一段时间没有或者基本没有画面变动了，此时本申请实施例会直接判定视频开始了卡顿，并同时将此次处理的N张第一帧图像中最早的采样时刻作为开始卡顿的具体时刻，从而实现了对卡顿开始的准确识别，以及对卡顿开始时刻的精确定位。其中，第一差异阈值的具体值可由技术人员根据实际场景的需求来进行选取或设定，例如，可以设置为5％～15％。

考虑到卡顿一般都会持续一段时间，在这段时间的若仍以S102和S103的方式来继续处理，会出现大量的卡顿开始时刻，从而导致卡顿识别出现异常，因此本申请实施例在确定出卡顿开始时刻的同时，还会将视频的监控状态修改为第三状态，由于监控状态不再是第二状态，从而使得S102和S103对视频进行卡顿开始的识别操作得以终止，同时使得后续对对卡顿终止的识别操作得以开启，进而保障了对视频卡顿起始和终止的正常识别。

S104，若监控状态为第三状态，以第二频率对视频进行采样得到M张第二帧图像，并对M张第二帧图像进行比对，其中，M为大于1的正整数。

当监控状态处于第三状态时，说明这个阶段实时视频正处于卡顿之中，同时视频随时可能会恢复正常，即卡顿随时可能会终止，因此本申请实施例会开始对视频卡顿是否终止进行分析，其中，S104采样和图像比对的原理与S102基本相同，具体可参考对S102的说明，此处不予赘述，但应当说明地，第二频率与第一频率既可以相同也可以不同，同时M与N既可以相同也可以不同，这些参数的具体值均可由技术人员根据实际需求来进行选取设定，此处均不予限定。

作为本申请的一个具体实施例，考虑到实际情况中有时候即使没有出现卡顿，也可能会出现连续多帧图像相似度较高的情况，例如视频双方都在思考某一个问题时，一小段时间内可能会出现双方基本不动的情况，因此为了提高对卡顿开始识别的精确性，本申请实施例中，会设置第一频率>第二频率，且M>N，以保证在进行视频卡顿开始识别时的采样数据量。

S105，若比对结果为M张第二帧图像之间的图像差异度大于或等于第一差异阈值，将各张第二帧图像对应的采样时刻中最晚的采样时刻，作为视频的卡顿终止时刻，将监控状态设置为第一状态，并基于卡顿起始时刻和卡顿终止时刻识别视频的卡顿时间段。

当图像比对结果为M张第二帧图像之间的差异度较大时，说明视频画面已经恢复了正常，此时本申请实施例会直接判定视频卡顿结束，并同时将此次处理的M张第二帧图像对应的所有采样时刻中最晚的采样时刻作为卡顿结束的具体时刻，进而实现了对此次卡顿起始时刻和终止时刻的精准定位，卡顿起始时刻至卡顿终止时刻之间的时间段即为此次视频的卡顿时间段。与此同时，本申请实施例还会将视频的监控状态还原为第一状态，此时本申请实施例又会返回执行S101的操作，进行下一次视频卡顿的识别，因此，本申请实施例一会在视频通话过程中持续循环，直至通话结束才会终止，以实现对整个通话过程中所有卡顿情况的精准识别。

作为本申请的一个实施例，在获取到此次卡顿时间段之后，还可以将卡顿时间段发送给第三方设备，以进行后续卡顿分析和改进等操作，例如可以发送给特定的服务器，由服务器进行卡顿分析和优化等操作。

为了提高对通话过程中的视频卡顿识别，在本申请实施例中，预先对通话过程中的视频设置第一状态的监控状态，再对实时通话过程中产生的视频进行实时监控，当发现视频中存在人脸需要进行卡顿分析时，将视频的监控状态设置为第二状态，在视频为第一状态时对视频进行帧图像采样，并识别是否有连续多张帧图像不变的情况，若有说明视频开始卡顿，并同时将视频的监控状态标记为第三状态，在视频卡顿开始后，再继续进行帧图像采样和比对，若出现连续多张帧图像之间差异较大，即说明视频恢复变化，此时即可获取到对应的卡顿结束时刻，此时根据记录的卡顿开始时刻和卡顿结束时刻即可识别出视频对应出现卡顿的时间段，最后将视频的监控状态修改为第一状态，从而结束对视频当次的卡顿识别。

一方面，本申请实施例实现了对每次卡顿开始和结束时刻的实时精确识别，并能在卡顿结束的同时，确定出当次卡顿发生的时间段，对于通话流畅性需求较高的场景而言，在本申请实施例的基础上，只需结合一个可以进行实时卡顿原因分析和优化的方案，即可实现对视频通话的实时卡顿优化，保障通话的实时流畅性，相对仅能在视频通话结束后才能查找出卡顿的时间段而言，可以极大地提高视频通话的质量。

另一方面，由于一次视频通话中可能会存在多次卡顿，且每次卡顿的时长无法预测，通过对不同卡顿阶段设置不同的监控状态，以实现对每次卡顿的起始和终止的有效区分处理，使得本申请实施例在每次对卡顿识别完成之后都可以快速进入下一次的卡顿识别，两次识别之间不会有相互干扰，保障了对每一次卡顿识别的准确性，使得本申请实施例可以实现对视频的连续卡顿识别。

作为本申请实施例一中进行图像比对的一种具体实现方式，考虑到实际应用中视频通话的重点往往在于用户的人脸，而人脸的核心又在于人脸的各个器官活动情况，因此本申请实施例在进行图像比对时不会对整张帧图像进行比对处理，而是会仅对其中的人脸器官进行分析比对，以提高比对的效率，如图2所示，本申请实施例二中进行图像比对的步骤，包括：

S201，针对每张第一帧图像进行人脸器官坐标分析，得到N个第一人脸器官坐标集。

在本申请实施例中会对各张第一帧图像进行人脸器官的识别，并对各个人脸器官在第一帧图像中的坐标进行提取，从而得到每张第一帧图像分别对应的人脸器官坐标集，其中，具体识别的人脸器官种类数量可由技术人员自行设定，包括但不限于嘴部、眼部、眉部和鼻子中的任意一种或多种，同时，具体使用的人脸器官识别方法此处亦不予限定，可由技术人员根据实际需求选取或设计，包括但不限于如基于几何特征、基于神经网络模型和基于弹性模型等进行人脸器官识别，亦可以参考本申请实施例三至六。

S202，利用N个第一人脸器官坐标集对N个第一帧图像进行比对。

在得到各张第一帧图像分别对应的第一人脸器官坐标集之后，对这些坐标集进行数据比对，得到N个第一人脸器官坐标集之间的差异度，并将该差异度作为N个第一帧图像之间的图像差异度，从而实现本申请实施例一中的图像比对，其中，具体的坐标集数据比对方法此处不予限定，可由技术人员自行选取或设定，包括但不限于如计算坐标集之间的欧氏距离，并将基于欧氏距离计算对应的差异度。

作为本申请实施例二中进行人脸器官坐标集提取的一种具体实现方式，在本申请实施例中，将每种人脸器官作为一个独立的分析对象进行分析和坐标提取，并得到各个人脸器官对应的坐标组，即第一人脸器官坐标集为多个坐标组的集合，如图3所示，本申请实施例三中，对单张待分析的第一帧图像进行人脸器官分析的操作具体包括：

S301，将待分析的第一帧图像作为目标图像，对目标图像进行人脸轮廓绘制，得到对应的人脸轮廓图形。

考虑到实际情况中每种人脸器官在人脸中的分布位置是相对固定的，例如嘴部在人脸中的位置大致为人脸长的1/4宽的1/2处，鼻子则为人脸长的1/2宽的1/2处，因此为了提高对人脸器官的定位效率，本申请实施例会预先设置好各种人脸器官在人脸中的相对位置，并会对目标图像进行人脸识别即定位出目标图像中的人脸，再对人脸进行轮廓绘制，从而得到对应的人脸轮廓图形，以进行后续的人脸器官粗定位。

S302，获取各个人脸器官在人脸轮廓图形中的第一相对位置。

在绘制出人脸轮廓图形之后，根据预先存储好的相对位置，即可确定出各个人脸器官在人脸轮廓图形中的第一相对位置，实现对人脸器官的粗定位。

作为本申请实施例三中获取人脸器官在人脸轮廓图形中第一相对位置的一种具体实现方式，虽然人脸器官在人脸中大致的位置是可以获知的，但考虑到不同的用户其人脸可能会存在一定的差异，导致不同用户实际脸型和人脸器官在人脸中的位置可能会存在一些差异，为了提高人脸器官粗定位的精确度，本申请实施例四会预先对实际生活中存在的一些脸型，以及各种脸型下人脸器官分布位置的情况进行分析，根据分析的情况绘制多个不同脸型的样本轮廓图形，并确定出每个样本轮廓图形对应的人脸器官的相对位置数据，再根据这些样本轮廓图形来进行实际人脸器官的相对位置识别，如图4所示，本申请实施例四获取第一相对位置的步骤，具体包括：

S401，将人脸轮廓图形与人脸轮廓库中的多个样本轮廓图像进行图形匹配。

在本申请实施例中，会预先将绘制好的多个样本轮廓图形储存在一个人脸轮廓库之中，在绘制出人脸轮廓图形之后再对该人脸轮廓库进行图形匹配，以筛选出合适的样本轮廓图形。

S402，若匹配成功，获取匹配成功的样本轮廓图形对应的相对位置集，相对位置集中包含各个人脸器官在样本轮廓图形中的第二相对位置。将相对位置集中的各个人脸器官对应的第二相对位置，作为各个人脸器官在人脸轮廓图形中的第一相对位置。

若存在样本轮廓图形与人脸轮廓图形匹配成功，说明绘制的人脸轮廓图形与该样本轮廓图形脸型相近，此时本申请实施例会直接读取该样本轮廓图形对应人脸器官的相对位置数据，并直接作为本申请实施例三中人脸轮廓图形的人脸器官相对位置。

作为本申请的一个实施例，在本申请实施例四的基础上，考虑到实际情况中预存的样本轮廓图形数量一般较为有限，有时候可能会预先图形匹配失败的情况，为了在匹配失败时也能获取到人脸器官在目标图像中准确的相对位置，在本申请实施例中，会预先设置一个默认的相对位置集，其中储存好各个人脸器官对应的相对位置数据，在匹配失败时则读取该默认的相对位置集即可。

S303，利用第一相对位置对目标图像进行人脸器官的定位，得到各个人脸器官在目标图像中的器官中心坐标，并基于多个器官中心坐标，识别出各个人脸器官在目标图像中分别对应的第一图像区域。

在获取到人脸器官的相对位置之后，本申请实施例会根据人脸在目标图像中的实际位置，以及人脸器官在人脸中的相对位置，来确定出各个人脸在目标图像中的坐标位置，并将该位置来作为对应的器官中心坐标，从而实现在目标图像中的粗定位。

由于人脸在不同拍摄环境下，得到的人脸图像是会有一定的差异的，甚至不同的表情下人脸器官的位置也会有一点点变动，例如撇嘴的时候，嘴部的坐标就会有一定的变化，因此粗定位的坐标无法表征人脸器官，甚至不一定会处于人脸器官的区域图像之中。因此在获取到器官中心坐标之后，本申请实施例会以该器官中心坐标为起点，对周围的图像区域进行器官识别，以实现对各个人脸器官的精准定位，例如以嘴部对应的器官中心坐标为起点，对该坐标周围的一片图像区域进行嘴部的识别，从而确定出实际嘴部对应的第一图像区域，进而实现对嘴部的精准定位。

作为本申请实施例四中对人脸器官进行精准定位的一种具体实现方式，考虑到实际情况中，即使已经知道了某个人脸器官的器官中心坐标，但若没有具体的检索范围的话，仍需要较多次的尝试才能确定出合适的周围检索范围，并识别出其中的人脸器官，其中需要耗费较多的计算机资源且效率较低，因此，为了提高人脸器官的检索效率，实现人脸器官的精准快速定位，如图5所示，本申请实施例五对人脸器官精准定位的步骤，具体包括：

S501，获取各个人脸器官对应的检索矩形尺寸，并根据检索矩形尺寸和器官中心坐标，识别各个人脸器官在目标图像中分别对应的第二图像区域，第二图像区域的形状为矩形。

考虑到实际情况中，人脸器官在人脸中大致的比例大小是相对固定的，例如，鼻子一般高度约为人脸长度的1/3宽度约为人脸宽度的1/5，在已知人脸器官中心坐标的情况下，再结合人脸的尺寸数据以及人脸器官与人脸尺寸的比例数据，即可以快速定位出人脸器官在人脸中大致所处的图像区域。基于上述原理，在本申请实施例中，会预先设置好各个人脸器官与人脸尺寸的比例数据，再根据目标图像中实际人脸的尺寸和设置的比例数据，来确定出各个人脸器官对应的检索矩阵尺寸，如仍以上述鼻子的实例为例，假设目标图像中人脸长为10cm，宽为7cm，根据高度为人脸长度的1/3宽度为人脸宽度的1/5计算，即可确定出对应的检索矩阵尺寸为3.33cm×1.4cm。

在确定出检索矩阵尺寸后，以人脸器官的器官中心坐标为矩阵中心点，在目标图像中确定出长宽为检索矩阵尺寸的第二图像区域，即可得到各个人脸器官对应所处的大致区域。

S502，对各个第二图像区域分别进行人脸器官检测，并根据检测结果从第二图像区域中识别出人脸器官对应的第一图像区域。

在确定出待检索的第二图像区域之后，再在第二图像区域内进行对应的人脸器官检索，即可实现对人脸器官的精准定位，例如上述的鼻子实例中，在确定出鼻子对应的尺寸为3.33cm×1.4cm的第二图像区域之后，本申请实施例会对该第二图像区域进行鼻子的识别检索，从而确定出其中包含的鼻子，以及鼻子实际在第二图像区域中的第一图像区域。

S304，对各个第一图像区域分别进行坐标提取，得到各个人脸器官在目标图像中分别对应的坐标组。

在准确定位出各个人脸器官所处的第一图像区域后，本申请实施例会对第一图像区域进行坐标提取，由于第一图像区域内包含较多的图像信息，因此在进行坐标提取后每个第一图像区域都会对应得到多个坐标数据，在本申请实施例中，会将单个第一图像区域对应的所有坐标数据存储在一个坐标组之中，从而得到各个人脸器官分布对应的坐标组，进而得到本申请实施例二中所需的目标图像的第一人脸器官坐标集。

在本申请实施例三中，通过对人脸器官先进行粗定位，再基于粗定位快速进行周围图像区域人脸器官检索，即可实现对人脸器官的快速精准定位识别，相对直接在人脸中进行各个器官的识别而言，本申请实施例识别的效率更高，且运算量更小。

作为本申请实施例五中对第一图像区域进行坐标提取的一种具体实施方式，考虑到实际视频通话过程中，不同人脸器官使用的频率不同导致在视频过程中变化的频率会存在较大的差异，例如一般情况下，视频过程中人会说较多的话，此时嘴部的使用频率极高，对应视频中嘴部变化的频率也是极高的，而对于鼻子而言，若通话过程中用户头部保持不动，那视频中鼻子基本的状态和对应的坐标情况基本不会有变化，因此不同人脸器官对第一帧图像比对以判断视频是否卡顿的参考价值差异较大，为了提高坐标提取的有效性，以保证后续图像比对结果的准确可靠，如图6所示，本申请实施例六中对第一图像区域坐标提取的步骤，具体包括：

S601，获取各个人脸器官分别对应的采样点数量，其中，嘴部、眼部、眉部和鼻子对应的采样点数量依次减小。

在本申请实施例中，根据通话过程中各个人脸器官使用的频率，对嘴部、眼部、眉部和鼻子进行了排序，并根据频率的高低分别各个人脸器官设置了对应的采样点数量，其中频率越高采样点数量越大，以便后续实际进行特征点采样和坐标提取时，对提取的坐标数量进行区分。其中，具体的采样点数量值可由技术人员根据实际需求设定，此处不予限定。

S602，对各个人脸器官对应的第一图像区域进行特征点采样，并获取各个特征点的坐标，得到各个人脸器官在目标图像中分别对应的坐标组，特征点采样的采样点数量为人脸器官各自对应的采样点数量。

在确定出各个第一图像区域对应的采样点数量之后，开始对第一图像区域进行特征点采样，对于每个第一图像区域而言，仅会采样对应的采样点数量的特征点，例如，假设第一图像区域A对应的采样点数量为20，此时仅会从第一图像区域A中采样出20个特征点。在采样出所需数量的特征点之后，再获取这些特征点的坐标数据，从而得到各个第一图像区域对应的坐标组，即得到各个人脸器官在目标图像中的坐标组。其中，具体的特征点采样方法此处不予限定，可由技术人员根据实际需求设定，包括但不限于如SIFT算法和Susan算法等，其中为了精确控制提取出的采样点数量，若使用的特征点提取算法本身无法设定特征点采样的数量，可以在正常提取特征点完成之后，对特征点进行删减或增选操作，直至满足对应的采样点数量。

应当理解地，上述本申请实施例二至六虽然是对第一帧图像比对的细化或优化方案，但在本申请实施例中同样可以适用于对第二帧图像的比对操作，即上述本申请实施例二至六同样可以结合至本申请实施例一的S104之中进行应用，此时只需要将处理的对象由第一帧图像替换为第二帧图像即可，具体可参考上述说明，此处不予赘述。

对应于上文实施例的方法，图7示出了本申请实施例提供的视频卡顿识别装置的结构框图，为了便于说明，仅示出了与本申请实施例相关的部分。图7示例的视频卡顿识别装置可以是前述实施例一提供的视频卡顿识别方法的执行主体。

参照图7，该视频卡顿识别装置包括：

人脸检测模块71，用于在实时通话过程中的视频对应的监控状态为第一状态时，对所述视频进行人脸检测，并在检测到所述视频中存在人脸时，将所述视频对应的监控状态修改为第二状态。

第一图像比对模块72，用于若所述监控状态为第二状态，以第一频率对所述视频进行采样得到N张第一帧图像，并对N张所述第一帧图像进行比对，其中，N为大于1的正整数。

卡顿开始识别模块73，用于若比对结果为N张所述第一帧图像之间的图像差异度小于第一差异阈值，将各张所述第一帧图像对应的采样时刻中最早的采样时刻，作为所述视频的卡顿起始时刻，并将所述监控状态设置为第三状态。

第二图像比对模块74，用于若所述监控状态为第三状态，以第二频率对所述视频进行采样得到M张第二帧图像，并对M张所述第二帧图像进行比对，其中，M为大于1的正整数。

卡顿结束识别模块75，用于若比对结果为M张所述第二帧图像之间的图像差异度大于或等于所述第一差异阈值，将各张所述第二帧图像对应的采样时刻中最晚的采样时刻，作为所述视频的卡顿终止时刻，将所述监控状态设置为第一状态，并基于所述卡顿起始时刻和所述卡顿终止时刻识别所述视频的卡顿时间段。

进一步地，第一图像比对模块72，包括：

坐标分析模块，用于针对每张所述第一帧图像进行人脸器官坐标分析，得到N个第一人脸器官坐标集。

坐标比对摸，用于利用N个所述第一人脸器官坐标集对N个所述第一帧图像进行比对。

进一步地，所述第一人脸器官坐标集为多个坐标组的集合，每个坐标组对应一种人脸器官，且每个坐标组中包含对应的人脸器官的多个坐标，坐标分析模块，包括：

轮廓绘制模块，用于将待分析的所述第一帧图像作为目标图像，对所述目标图像进行人脸轮廓绘制，得到对应的人脸轮廓图形。

位置获取模块，用于获取各个人脸器官在所述人脸轮廓图形中的第一相对位置。

器官图像查找模块，用于利用所述第一相对位置对所述目标图像进行人脸器官的定位，得到各个人脸器官在所述目标图像中的器官中心坐标，并基于多个所述器官中心坐标，识别出各个人脸器官在所述目标图像中分别对应的第一图像区域。

坐标提取模块，用于对各个所述第一图像区域分别进行坐标提取，得到各个人脸器官在所述目标图像中分别对应的所述坐标组。

进一步地，位置获取模块，包括：

将所述人脸轮廓图形与人脸轮廓库中的多个样本轮廓图像进行图形匹配。

若匹配成功，获取匹配成功的所述样本轮廓图形对应的相对位置集，所述相对位置集中包含各个人脸器官在所述样本轮廓图形中的第二相对位置。将所述相对位置集中的各个人脸器官对应的第二相对位置，作为各个人脸器官在所述人脸轮廓图形中的第一相对位置。

进一步地，器官图像查找模块，包括：

获取各个人脸器官对应的检索矩形尺寸，并根据所述检索矩形尺寸和所述器官中心坐标，识别各个人脸器官在所述目标图像中分别对应的第二图像区域，所述第二图像区域的形状为矩形。

进一步地，坐标提取模块，包括：

获取各个人脸器官分别对应的采样点数量，其中，嘴部、眼部、眉部和鼻子对应的所述采样点数量依次减小。

本申请实施例提供的视频卡顿识别装置中各模块实现各自功能的过程，具体可参考前述图1所示实施例一的描述，此处不再赘述。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。

应当理解，当在本申请说明书和所附权利要求书中使用时，术语“包括”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解，在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

如在本申请说明书和所附权利要求书中所使用的那样，术语“如果”可以依据上下文被解释为“当...时”或“一旦”或“响应于确定”或“响应于检测到”。类似地，短语“如果确定”或“如果检测到[所描述条件或事件]”可以依据上下文被解释为意指“一旦确定”或“响应于确定”或“一旦检测到[所描述条件或事件]”或“响应于检测到[所描述条件或事件]”。

另外，在本申请说明书和所附权利要求书的描述中，术语“第一”、“第二”、“第三”等仅用于区分描述，而不能理解为指示或暗示相对重要性。还应理解的是，虽然术语“第一”、“第二”等在文本中在一些本申请实施例中用来描述各种元素，但是这些元素不应该受到这些术语的限制。这些术语只是用来将一个元素与另一元素区分开。例如，第一帧图像可以被命名为第二帧图像，并且类似地，第二帧图像可以被命名为第一帧图像，而不背离各种所描述的实施例的范围。第一帧图像和第二帧图像都是帧图像，但是它们不是同一帧图像。

在本申请说明书中描述的参考“一个实施例”或“一些实施例”等意味着在本申请的一个或多个实施例中包括结合该实施例描述的特定特征、结构或特点。由此，在本说明书中的不同之处出现的语句“在一个实施例中”、“在一些实施例中”、“在其他一些实施例中”、“在另外一些实施例中”等不是必然都参考相同的实施例，而是意味着“一个或多个但不是所有的实施例”，除非是以其他方式另外特别强调。术语“包括”、“包含”、“具有”及它们的变形都意味着“包括但不限于”，除非是以其他方式另外特别强调。

本申请实施例提供的视频卡顿识别方法可以应用于手机、平板电脑、可穿戴设备、车载设备、增强现实(augmented reality，AR)/虚拟现实(virtual reality，VR)设备、笔记本电脑、超级移动个人计算机(ultra-mobile personal computer，UMPC)、上网本、个人数字助理(personal digital assistant，PDA)等终端设备上，本申请实施例对终端设备的具体类型不作任何限制。

例如，所述终端设备可以是蜂窝电话、无绳电话、会话启动协议(SessionInitiationProtocol，SIP)电话、无线本地环路(Wireless Local Loop，WLL)站、个人数字处理(Personal Digital Assistant，PDA)设备、具有无线通信功能的手持设备、计算设备或连接到无线调制解调器的其它处理设备、车载设备、车联网终端、电脑、膝上型计算机、手持式通信设备、手持式计算设备、卫星无线设备、无线调制解调器卡、电视机顶盒(set topbox，STB)、用户驻地设备(customer premise equipment，CPE)和/或用于在无线系统上进行通信的其它设备以及下一代通信系统，例如，5G网络中的移动终端或者未来演进的公共陆地移动网络(Public Land Mobile Network，PLMN)网络中的移动终端等。

作为示例而非限定，当所述终端设备为可穿戴设备时，该可穿戴设备还可以是应用穿戴式技术对日常穿戴进行智能化设计、开发出可以穿戴的设备的总称，如眼镜、手套、手表、服饰及鞋等。可穿戴设备即直接穿在身上，或是整合到用户的衣服或配件的一种便携式设备。可穿戴设备不仅仅是一种硬件设备，更是通过软件支持以及数据交互、云端交互来实现强大的功能。广义穿戴式智能设备包括功能全、尺寸大、可不依赖智能手机实现完整或者部分的功能，如智能手表或智能眼镜等，以及只专注于某一类应用功能，需要和其它设备如智能手机配合使用，如各类进行体征监测的智能手环、智能首饰等。

图8是本申请一实施例提供的终端设备的结构示意图。如图8所示，该实施例的终端设备8包括：至少一个处理器80(图8中仅示出一个)、存储器81，所述存储器81中存储有可在所述处理器80上运行的计算机程序82。所述处理器80执行所述计算机程序82时实现上述各个视频卡顿识别方法实施例中的步骤，例如图1所示的步骤101至105。或者，所述处理器80执行所述计算机程序82时实现上述各装置实施例中各模块/单元的功能，例如图7所示模块71至75的功能。

所述终端设备8可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述终端设备可包括，但不仅限于，处理器80、存储器81。本领域技术人员可以理解，图8仅仅是终端设备8的示例，并不构成对终端设备8的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如所述终端设备还可以包括输入发送设备、网络接入设备、总线等。

所称处理器80可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

所述存储器81在一些实施例中可以是所述终端设备8的内部存储单元，例如终端设备8的硬盘或内存。所述存储器81也可以是所述终端设备8的外部存储设备，例如所述终端设备8上配备的插接式硬盘，智能存储卡(Smart Media Card，SMC)，安全数字(SecureDigital，SD)卡，闪存卡(Flash Card)等。进一步地，所述存储器81还可以既包括所述终端设备8的内部存储单元也包括外部存储设备。所述存储器81用于存储操作系统、应用程序、引导装载程序(BootLoader)、数据以及其他程序等，例如所述计算机程序的程序代码等。所述存储器81还可以用于暂时地存储已经发送或者将要发送的数据。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

本申请实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现可实现上述各个方法实施例中的步骤。

本申请实施例提供了一种计算机程序产品，当计算机程序产品在移动终端上运行时，使得移动终端执行时实现可实现上述各个方法实施例中的步骤。

所述集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(Read-Only Memory，ROM)、随机存取存储器(RandomAccess Memory，RAM)、电载波信号、电信信号以及软件分发介质等。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述或记载的部分，可以参见其它实施例的相关描述。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

以上所述实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使对应技术方案的本质脱离本申请各实施例技术方案的精神和范围，均应包含在本申请的保护范围之内。

Claims

1.一种视频卡顿识别方法，其特征在于，包括：

2.如权利要求1所述的视频卡顿识别方法，其特征在于，所述对N张所述第一帧图像进行比对，包括：

3.如权利要求2所述的视频卡顿识别方法，其特征在于，所述第一人脸器官坐标集为多个坐标组的集合，每个坐标组对应一种人脸器官，且每个坐标组中包含对应的人脸器官的多个坐标；

获取各个人脸器官在所述人脸轮廓图形中的第一相对位置；

4.如权利要求3所述的视频卡顿识别方法，其特征在于，获取各个人脸器官在所述人脸轮廓图形中的第一相对位置，包括：

5.如权利要求3所述的视频卡顿识别方法，其特征在于，所述基于多个所述器官中心坐标，识别出各个人脸器官在所述目标图像中分别对应的第一图像区域：

6.如权利要求3所述的视频卡顿识别方法，其特征在于，所述对各个所述第一图像区域分别进行坐标提取，得到各个人脸器官在所述目标图像中分别对应的所述坐标组，包括：

7.一种视频卡顿识别装置，其特征在于，包括：

8.如权利要求7所述的视频卡顿识别方法，其特征在于，第一图像比对模块，包括：

坐标分析模块，用于针对每张所述第一帧图像进行人脸器官坐标分析，得到N个第一人脸器官坐标集；

9.一种终端设备，其特征在于，所述终端设备包括存储器、处理器，所述存储器上存储有可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如权利要求1至6任一项所述方法的步骤。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至6任一项所述方法的步骤。