CN112464786A

CN112464786A - 一种视频的检测方法及装置

Info

Publication number: CN112464786A
Application number: CN202011335952.0A
Authority: CN
Inventors: 贾晨; 邓玥琳; 李驰; 刘岩; 杨颜如
Original assignee: Taikang Insurance Group Co Ltd
Current assignee: Taikang Insurance Group Co Ltd
Priority date: 2020-11-24
Filing date: 2020-11-24
Publication date: 2021-03-09
Anticipated expiration: 2040-11-24
Also published as: CN112464786B

Abstract

本发明提供了一种视频的检测方法、装置、计算机设备及计算机可读存储介质，包括：将待检测视频中的一帧初始图像中的关键点确定为初始关键点，确定待检测视频中的部分或全部图像中的一帧图像的待检测关键点，并根据初始关键点和待检测关键点，确定一帧图像与初始图像之间的相似度，若相似度大于或等于预设相似度，说明该帧图像中目标对象的位置变化范围较小，则可以判断该帧图像中包含目标对象，进一步可以根据待检测视频中的部分或全部图像是否包含目标对象，判断待检测视频中目标对象是否发生出框行为，从而避免了由于目标对象的面部遮挡、低头或侧身等特殊情况导致的检测结果不准确，提高了视频质检的准确性，使得视频质检过程的鲁棒性较高。

Description

一种视频的检测方法及装置

技术领域

本发明属于图像识别技术领域，特别是涉及一种视频的检测方法、装置、计算机设备及计算机可读存储介质。

背景技术

为规范业内保险销售人员的销售行为，有效保护消费者权益、促进纠纷妥善解决，实现销售过程的智能化合规监控，保险行业采取了对保险销售过程进行现场录音、录像的双录措施。

现有技术中，在对录制的视频进行质检时，为判定保险代理或投保人是否全程在线，只能通过人脸检测和识别技术，对视频中的每一帧图像进行检测和识别，确定具有人脸特征的人脸区域，并将人脸区域与预先设置的保险代理或投保人的标准人脸图像进行对比，从而判断保险代理或投保人是否存在于这一帧图像中，若图像中检测不到人脸区域，或者与保险代理和投保人的标准人脸图像不匹配，则可以确定这一帧图像中不存在保险代理或投保人，在录制视频的过程中保险代理或投保人发生了出框行为。

但是，在利用人脸检测和识别技术进行视频质检时，若录制视频的复杂程度较高，如发生人物面部遮挡、低头或侧身等检测不到人脸区域的情况，将导致视频的质检结果不准确，使得质检过程的鲁棒性较差。

发明内容

有鉴于此，本发明提供一种视频的检测方法、装置、计算机设备及计算机可读存储介质，在一定程度上解决了目前方案中视频质检结果不准确，质检过程的鲁棒性较差的问题。

依据本发明的第一方面，提供了一种视频的检测方法，包括：

获取待检测视频；

从所述待检测视频中选择一帧初始图像，并将所述初始图像中包含的目标对象的多个关键点确定为所述目标对象的多个初始关键点；

对所述待检测视频的部分或全部图像进行所述人体姿态关键点检测，得到所述部分或全部图像中包含的所述目标对象的多个待检测关键点；

根据所述初始关键点和所述待检测关键点，确定所述部分或全部图像中每一帧图像与所述初始图像之间的相似度；

在所述部分或全部图像中的一帧图像的相似度大于或等于预设相似度的情况下，确定所述部分或全部图像中的一帧图像中包含所述目标对象；

根据所述部分或全部图像中每一帧图像是否包含所述目标对象，确定所述待检测视频中所述目标对象是否发生出框行为。

依据本发明的第二方面，提供了一种视频的检测装置，该装置可以包括：

第一获取模块，用于获取待检测视频；

第一检测模块，用于从所述待检测视频中选择一帧初始图像，并将所述初始图像中包含的目标对象的多个关键点确定为所述目标对象的多个初始关键点；

第二检测模块，用于对所述待检测视频的部分或全部图像进行所述人体姿态关键点检测，得到所述部分或全部图像中包含的所述目标对象的多个待检测关键点；

第一确定模块，用于根据所述初始关键点和所述待检测关键点，确定所述部分或全部图像中每一帧图像与所述初始图像之间的相似度；

第二确定模块，用于在所述部分或全部图像中的一帧图像的相似度大于或等于预设相似度的情况下，确定所述部分或全部图像中的一帧图像中包含所述目标对象；

第三确定模块，用于根据所述部分或全部图像中每一帧图像是否包含所述目标对象，确定所述待检测视频中所述目标对象是否发生出框行为。

第三方面，本发明实施例提供了一种计算机设备，所述计算机设备包括：

存储器，用于存储程序指令；

处理器，用于调用所述存储器中存储的程序指令，按照获得的程序指令执行如第一方面所述的视频的检测方法包括的步骤。

第四方面，本发明实施例提供了一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储计算机程序，所述计算机程序被处理器执行时实现如第一方面所述的视频的检测方法的步骤。

针对在先技术，本发明具备如下优点：

本发明提供的一种视频的检测方法，包括：获取待检测视频；从待检测视频中选择一帧初始图像，并将初始图像中包含的目标对象的多个关键点确定为目标对象的多个初始关键点；对待检测视频的部分或全部图像进行人体姿态关键点检测，得到部分或全部图像中包含的目标对象的多个待检测关键点；根据初始关键点和待检测关键点，确定部分或全部图像中每一帧图像与初始图像之间的相似度；在部分或全部图像中的一帧图像的相似度大于或等于预设相似度的情况下，确定部分或全部图像中的一帧图像中包含目标对象；根据部分或全部图像是否包含目标对象，确定待检测视频中目标对象是否发生出框行为。本发明在对待检测视频进行质检的过程，是对待检测视频中的图像进行人体姿态关键点检测，确定图像中包含的表征人体姿态的多个关键点，从而利用关键点判断图像中是否包含目标对象，具体的，可以将待检测视频中的一帧初始图像中的关键点确定为初始关键点，以初始关键点作为判断基准，并根据初始关键点和待检测关键点，确定部分或全部图像中每一帧图像与初始图像之间的相似度，若待检测视频中的部分或全部图像中的一帧图像与初始图像之间的相似度大于或等于预设相似度，说明该帧图像中目标对象的位置变化范围较小，则可以判断在该帧图像中包含目标对象，进一步可以根据待检测视频中的部分或全部图像中每一帧图像是否包含目标对象的检测结果，判断待检测视频中目标对象是否发生出框行为，从而避免了由于目标对象的面部遮挡、低头或侧身等特殊情况导致的检测结果不准确，提高了视频质检的准确性，使得视频质检过程的鲁棒性较高。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1是本发明实施例提供的一种视频的检测方法的步骤流程图；

图2是本发明实施例提供的一种双录视频质检平台的结构示意图；

图3是本发明实施例提供的一种双录视频质检平台在视觉方向的核心技术及应用的示意图；

图4是本发明实施例提供的一种目标对象关键点的示意图；

图5是本发明实施例提供的一种目标对象发生出框行为的统计示意图；

图6是本发明实施例提供的一种待检测视频的检测结果示意图；

图7是本发明实施例提供的另一种视频的检测方法的步骤流程图；

图8是本发明实施例提供的一种分水岭算法的应用机制示意图；

图9是本发明实施例提供的另一种目标对象关键点的示意图；

图10是本发明实施例提供的另一种待检测视频的检测结果的示意图；

图11是本发明实施例提供的一种视频的检测装置的框图。

具体实施方式

下面将参照附图更详细地描述本发明的示例性实施例。虽然附图中显示了本发明的示例性实施例，然而应当理解，可以以各种形式实现本发明而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本发明，并且能够将本发明的范围完整的传达给本领域的技术人员。

图1是本发明实施例提供的一种视频的检测方法的步骤流程图，如图1所示，该方法可以包括：

步骤101、获取待检测视频。

在该步骤中，首先获取需要进行检测的待检测视频。

在本发明实施例中，上述视频的检测方案可以应用于保险公司对于双录视频进行质检的过程中，其中，待检测视频可以是保险公司的代理人在与客户进行沟通的过程中，对保险销售等过程进行现场录音、录像的产生的双录视频，保险公司的质检人员则需要对录制的待检测视频文件进行质检，判定保险代理或投保人是否在待检测视频的画面中，是否在待检测视频的录制期间发生了出框行为。

图2是本发明实施例提供的一种双录视频质检平台的结构示意图，如图2所示，双录视频的质检平台的场景应用层中包含双录视频质检平台能够实现的业务功能有：产品介绍、提示提醒、意见征求、证件展示、保单展示、签名展示、现场阅读、确认回答等，双录视频的质检平台的核心技术层中包含能够实现上述业务功能的核心技术，包括视觉技术：关键点检测、光学字符识别(Optical Character Recognition，OCR)、人脸识别及比对、行为检测、图像分类、视频编解码等；语音技术：声纹识别、语音识别、音频编解码等；文本(自然语言处理)技术：文本结构化、语义识别与匹配、规则知识库等，从而可以调用核心技术层中的一个或多个特定技术接口，实现不同的业务功能。

图3是本发明实施例提供的一种双录视频质检平台在视觉方向的核心技术及应用的示意图，如图3所示，应用层的证件展示、签名展示和保单展示等环节，可以利用核心技术中的OCR技术识别证件，签名单或保单中的字符，从而确定展示的证件符合规则处理中规定的证件，或确定签名单中的签名符合规则处理规定的签名，或确定代理人/投保人展示的文件属于规则处理规定的保单。同时，应用层的同框识别和出框识别，是可以对离线的待检测视频进行全程的检测和跟踪，无需对前期视频的录制流程进行更改，主要利用核心技术中的关键点检测和人脸比对，确定待检测视频中的目标对象是否出框，以及在包含多个对象的情况下，多个对象是否同框。此外，还可以利用视频解码技术将录制的视频进行编码传输，并在进行检测时解码，从而实现异步检测视频，也可以利用影像质量检测确保待检测视频的影响质量，从而提高检测结果的可靠性。在进行异步检测时，双录视频质检平台会统一对前期采集的双录视频进行视频解码，然后分别按照不同的环境对视频进行切分并输入到不同的任务模块中，从而优化质检工作，提升时效，并可以输出质检结论作为人工质检的辅助参考，提高质检效率、缩短质检时间、解放劳动力、降低人力成本。

步骤102、从所述待检测视频中选择一帧初始图像，并将所述初始图像中包含的目标对象的多个关键点确定为所述目标对象的多个初始关键点。

在该步骤中，可以从待检测视频中选择一帧图像作为初始图像，并将该初始图像中包含的目标对象的多个关键点作为目标对象的初始关键点。

具体的，可以通过人体姿态关键点检测和人脸识别和比对技术从待检测视频中确定所述初始图像。

其中，所述人体姿态关键点检测可以利用基于深度网络的人体姿态估计算法，基于18个人体关键点，这18个关键点包括人体鼻子、颈部、右肩、右肘、右手腕、左肩、左肘、左手腕、右髋、右膝、右脚踝、左髋、左膝、左脚踝、右眼、左眼、右耳、左耳对应的关键点。在一般的双录视频质检中，由于仅要求代理人或投保人上半身入框，因此，可以仅检测视频的画面中包括左右耳、左右眼、鼻子、颈部、左右肩等部位对应的关键点，利用这些关键点就可对代理人或投保人做出是否发生了出框行为的判断。

具体的，人体姿态估计算法可以为OpenPose、DeepCut和AlphaPose等。

其中，OpenPose算法是一种自底向上的多人人体姿态估计方法，先检测出一幅图像中的所有关节(即每个人的关节)，然后将检出的关节连接/分组，从而找出属于每个人的关节，这种方法的优点在于多人同框的场景下计算时间不会根据人数的增加而指数增长。OpenPose网络首先使用前面的几个特征提取网络层从图像中提取特征，提取到的特征被传给两个平行的卷积层分支，第一个卷积层分支用来预测18个置信图，每个置信图代表人体骨架中的一个关节，使用关节置信图，可以在每个关节对之间形成二分图；第二个分支预测一个集合，该集合中包含38个关节仿射场(Part Affinity Fields，PAFs)，用于描述各关节之间的连接程度，可以利用PAF值将二分图里较弱的连接删除，最终，OpenPose优化每个分支的预测值，检测出图像中所有人的人体姿态骨架，并将其分配给对应的人。

DeepCut同样是一个自底向上的多人人体姿态估计方法，其主要过程为：1、生成一个由多个关节候选项组成的候选集合，该集合代表了图像中所有人的所有关节的可能位置；2、在上述关节候选集中选取一个子集，为每个被选取的人体关节添加一个标签，该标签是人体关节所属的关节类，每个关节类代表一种关节，如“胳膊”、“腿”、“躯干”等；3、将被标记的关节划分给每个对应的人，从而得到每个人的姿态。

AlphaPose是一个自顶向下姿态估计算法，自顶向下方法的性能通常依赖于人体检测器的精度，错误的定位和重复的候选框会使姿态检测算法的性能降低。为解决上诉问题，AlphaPose使用对称空间变换网络(Symmetric Spatial Transformer Network，SSTN)从不准确的候选框中抽取高质量的单人区域；使用单人姿态估计器(Single Person PoseEstimator，SPPE)从抽取到的单人区域中估计姿态骨架；使用空间逆变换网络(SpatialDe-Transformer Network，SDTN)将估计出的姿态重新映射到原来的图像空间；使用参数化的姿态非极大抑制(Non-Maximum Suppression，NMS)方法来处理重复预测的问题。此外，AlphaPose还引入了一种姿态候选生成器(Pose Guided Proposals Generator)来扩增训练样本，从而更好地训练SPPE和SSTN网络。

需要说明的是，所述初始图像可以是从位于待检测视频片头的若干帧图像中选择的一帧图像，从而将初始图像中检测到的目标对象的关键点确定为目标对象的初始关键点，用以与待检测视频中包含的其他图像中的待检测关键点进行对比，从而以待检测视频片头中的图像作为基准，判断待检测视频的其他图像中是否包含目标对象。

具体的，可以对待检测视频片头的若干帧图像进行人体姿态关键点检测，并根据检测到的图像中包含的关键点确定该图像中包含的人脸区域，进而将确定的人脸区域与该待检测视频中目标对象的标准人脸图像进行比对，确定该人脸区域是否与标准人脸图像匹配，若图像中确定的人脸区域与标准人脸图像匹配，说明该帧图像中包含目标对象，则可以选择该帧图像作为所述初始图像；若图像中确定的人脸区域与标准人脸图像不匹配，说明该帧图像中不包含目标对象，则不能选择将该帧图像作为所述初始图像。进一步的，若从待检测视频片头的若干帧图像中筛选出多张包含目标对象的图像，则可以进一步根据图像中包含的关键点的数量确定初始图像，具体的，可以将关键点信息最完整，即关键点数量最多，或目标对象重要部位(如上半身)对应的关键点数量最多的一帧图像选择为所述初始图像，以供与待检测视频中的其他帧图像进行比对。

例如，若获取到的待检测视频为一个时长12分52秒的语音播报视频，则对该视频进行视频编解码时，按照10帧/秒的帧率保存图像，则可以得到一组连续帧序列共计7729帧图像，若待检测图像包含一个目标对象，则可以对待检测视频片头前若干秒包含的多帧图像进行人体姿态关键点检测，根据图像中的关键点确定每帧图像中包含的人脸区域，并将每帧图像中包含的人脸区域与目标对象对应的标准人脸图像进行比对，若检测结果为：该待检测视频第10秒对应的图像S，即第100帧图像S中根据关键点确定的人脸区域与目标对象的标准人脸图像相匹配，即图像S中包含的关键点为目标对象对应的关键点，且图像S中包含的目标对象对应的关键点信息较为完整，例如，相比于其他帧图像，图像S中包含目标对象的全部18个关键点，或目标对象的关键部位(上半身)的8个关键点，则可以选择图像S作为初始图像，从而将该帧初始图像S作为判断其他图像中是否包含目标对象的判断基准。

图4是本发明实施例提供的一种目标对象关键点的示意图，如图4所示，图像A可以为从待检测视频片头中选择的一帧初始图像，图像A1中包含针对图像A进行了人体姿态关键点检测后标注了图像中目标对象的11个初始关键点：鼻子、左右眼、左右耳、颈部、左右肩、左右肘和左手腕。

步骤103、对所述待检测视频的部分或全部图像进行所述人体姿态关键点检测，得到所述部分或全部图像中包含的所述目标对象的多个待检测关键点。

在该步骤中，可以在确定目标对象的初始关键点之后，对待检测视频的部分或全部图像依次进行人体姿态关键点检测，从而得到部分或全部图像中每一张图像中包含的目标对象的多个待检测关键点。

具体的，若待检测视频较长，则待检测视频中包含的图像数量较多，因此，可以对待检测视频中包含的全部图像进行人体姿态关键点检测，从而对每一张图像中的目标对象进行检测，判断每一张图像中是否包含目标对象，进而确定待检测视频中目标对象是否发生了出框行为；也可以从待检测视频中包含的全部图像中抽取部分图像进行处理，从而降低数据处理量，例如，可以每间隔一秒钟抽取一张图像，仅对抽取后得到的部分图像进行人体姿态关键点检测。

参照图4，图像A可以为从待检测视频片头的多帧图像中选择的初始图像，图像B为待检测视频中与图像A间隔1秒的图像，图像C为待检测视频中的与图像B间隔1秒的图像，图像B1为对图像B经过人体姿态关键点检测得到的标注了待检测关键点的图像，其中包含10个待检测关键点：鼻子、左右眼、左右耳、颈部、左右肩和左右肘，图像C1为对图像C经过人体姿态关键点检测得到的标注了待检测关键点的图像，其中包含12个待检测关键点：鼻子、左右眼、左右耳、颈部、左右肩、左右肘和左右手腕。

步骤104、根据所述初始关键点和所述待检测关键点，确定所述部分或全部图像中每一帧图像与所述初始图像之间的相似度。

在该步骤中，在选择了作为判断基准的一帧初始图像，以及确定了初始图像中包含的目标对象的初始关键点，并确定了待检索视频中需要进行判断的部分或全部图像，以及所述部分或全部图像的每一帧图像中目标对象对应的待检测关键点之后，可以根据每一帧图像中的待检测关键点与初始关键点，确定所述部分或全部图像中每一帧图像与初始图像之间的相似度，以供根据所述相似度，确定部分或全部图像中的每一帧图像中是否包含目标对象。

具体的，可以通过对比所述部分或全部图像中每一帧图像与初始图像，确定该帧图像与初始图像相比较，目标对象发生的动作的幅度，即目标对象的位置变化范围，从而判断目标对象是否仍旧处于该帧图像中。例如，可以通过计算一帧图像中的待检测关键点与对应的初始关键点之间的距离，并采用多个待检测关键点的距离总和表征该帧图像与初始图像之间相似度。

参照图4，图像B1中包含10个待检测关键点：鼻子、左右眼、左右耳、颈部、左右肩和左右肘，初始图像A1中包含11个初始关键点：鼻子、左右眼、左右耳、颈部、左右肩、左右肘和左手腕，因此，可以计算目标对象在图像B1中的左眼与图像A1中的左眼之间的距离S1、目标对象在图像B1中的右眼与图像A1中的右眼之间的距离S2、目标对象在图像B1中的左耳与图像A1中的左耳之间的距离S3、目标对象在图像B1中的右耳与图像A1中的右耳之间的距离S4、目标对象在图像B1中的鼻子与图像A1中的鼻子之间的距离S5、目标对象在图像B1中的颈部与图像A1中的颈部之间的距离S6、目标对象在图像B1中的左肩与图像A1中的左肩之间的距离S7、目标对象在图像B1中的右肩与图像A1中的右肩之间的距离S8、目标对象在图像B1中的左手肘与图像A1中的左手肘之间的距离S9、目标对象在图像B1中的右手肘与图像A1中的右手肘之间的距离S10，由于图像B1中并未检测到左手腕关键点，则可以利用与左手腕关键点最近邻的关键点进行替代，即计算目标对象在图像B1中左手肘与图像A1中的左手腕之间的距离S11，最终，对S1至S11进行求和，得到图像B1中多个待检测关键点与图像A1中多个初始关键点之间的距离总和S。

进一步的，可以利用一帧图像中多个待检测关键点与初始图像中多个初始关键点之间的距离总和，确定一帧图像与初始图像之间的相似度，具体的，所述距离总和越小，说明该帧图像中目标对象的位置变化范围较小，即该帧图像与初始图像之间的相似度越大。

需要说明的是，若利用人体姿态估计算法检测18个人体关键点，则需要计算一帧图像中的18个待检测关键点与初始图像中的18个初始关键点之间的距离的总和。若在实际业务中，仅利用人体姿态估计算法检测人体上半身的8个人体关键点(鼻子、颈部、右肩、左肩、右眼、左眼、右耳和左耳)，则只需计算一帧图像中的8个待检测关键点与初始图像中的8个初始关键点之间的距离的总和。

在本申请实施例中，待检测关键点和对应的初始关键点之间的距离可以包括：欧氏距离、曼哈顿距离、切比雪夫距离、闵可夫斯基距离、标准化欧氏距离、马氏距离等。

其中，欧氏距离是最直观的距离度量方法，即空间中两点间的直线距离。假设空间中两个关键点分别为A＝(x₁,y₁),B＝(x₂,y₂)，则关键点A和B之间的欧氏距离为：

曼哈顿距离顾名思义，即从曼哈顿街区的一个十字路口开车到另一个十字路口的实际驾驶距离，曼哈顿距离也称为城市街区距离，表示两个点在标准坐标系上的绝对轴距总和，关键点A和B之间的曼哈顿距离为：

d＝|x₁-x₂|+|y₁-y₂|

在国际象棋中，国王可以直行、横行、斜行，所以国王走一步可以移动到相邻8个方格中的任意一个。切比雪夫距离表示国王从一个格子走到格子另一个各自的最少步数，即各坐标数值差的最大值，关键点A和B之间的切比雪夫距离为：

d＝max(|x₂-x₁|,|y₂-y₁|)

闵可夫斯基距离(闵氏距离)是一组距离的抽象定义，是对多个距离度量公式的概括性的表述。两个n维变量a(x₁₁,x₁₂,...,x_1n)与b(x₂₁,x₂₂,...,x_2n)，即两个关键点之间的闵可夫斯基距离定义为：

其中，p是一个变参数：当p＝1时为曼哈顿距离；当p＝2时为欧氏距离；当p趋近于无穷时为切比雪夫距离。

标准化欧氏距离是针对欧氏距离而改进的度量方法，即根据数据各维分量的分布进行标准化，如果将方差的倒数看成一个权重，标准化欧氏距离也可称作加权欧氏距离，假设样本集X的均值为m，标准差为s，则X的标准化变量表示为：

标准化欧氏距离的定义公式为：

马氏距离是基于样本分布的一种距离，其物理意义表示为在规范化的主成分空间中的欧氏距离，特别地，利用主成分分析对一些数据进行主成分分解，再对所有主成分分解轴做归一化，形成新的坐标轴，由这些坐标轴张成的空间就是规范化的主成分空间，假设有M个样本向量(X₁,...,X_m)，协方差矩阵记为S，均值记为向量μ，则其中样本向量X到μ的马氏距离表示为：

向量X_i,X_j之间的马氏距离定义为：

若协方差矩阵是单位矩阵(各个样本向量之间独立同分布)，则X_i,X_j之间的马氏距离等于他们的欧氏距离：

步骤105、在所述部分或全部图像中的一帧图像的相似度大于或等于预设相似度的情况下，确定所述部分或全部图像中的一帧图像中包含所述目标对象。

在该步骤中，根据在部分或全部图像中的一帧图像中，可以确定目标对象的每一个待检测关键点与对应的初始关键点之间的距离，参照图4，图像B1中包含10个待检测关键点：鼻子、左右眼、左右耳、颈部、左右肩和左右肘，初始图像A1中包含11个初始关键点：鼻子、左右眼、左右耳、颈部、左右肩、左右肘和左手腕，因此，可以计算得到11组对应的待检测关键点与初始关键点之间的距离，并根据11组距离确定图像B1中的多个待检测关键点与初始图像A1中的多个初始关键点之间的距离总和，进而根据所述距离总和确定图像B1与初始图像A1之间的相似度。若图像B1与初始图像A1之间的相似度大于或等于预设相似度，则可以确定图像B1中的目标对象相对于初始图像A1中的目标对象的位置变化范围较小，即图像B1与图像A1同样包含有目标对象。若直接采用对该图像进行人脸识别和检测，判断该图像中是否包含目标对象的方法，若该图像中目标对象发生了侧脸或低头等检测不到人脸的情况，则可能导致检测结果有误，因此，采用本申请实施例的方法，可以提高检测结果的准确度。

在本发明实施例中，可以按照部分或全部图像位于待检测图像中的时间信息，依次检测每一帧图像中的待检测关键点与初始图像中的初始关键点之间的距离，判断每一帧图像与初始图像之间的相似度，始终将初始图像作为判断的基准。

此外，可以在检测到一帧图像与初始图像之间的相似度小于预设相似度的情况下，更新作为判断基准的初始图像，具体的，在检测到一帧图像与初始图像之间的相似度小于预设相似度时，可以进一步根据该帧图像中包含的关键点确定该帧图像中的人脸区域，并将人脸区域目标对象的标准人脸图像进行比对，若该帧图像中的人脸区域与标准人脸图像匹配成功，说明当前进行检测的一帧图像仍旧包含目标对象，但目标对象的位置变化范围较大，则需要更新初始图像，将当前进行检测的一帧图像更新为所述初始图像，将当前进行检测的一帧图像中包含的关键点更新为所述初始关键点；若该帧图像中的人脸区域与标准人脸图像匹配失败，说明当前进行检测的一帧图像相比于初始图像而言，目标对象的位置变化范围较大，从而发生了出框，当前进行检测的一帧图像中的关键点不是目标对象对应的关键点，则不需要更新初始图像。

可选的，所述预设相似度可以为预先设置的一个固定值：80％或70％。

步骤106、根据所述部分或全部图像中每一帧图像是否包含所述目标对象，确定所述待检测视频中所述目标对象是否发生出框行为。

在该步骤中，可以根据待检测视频中部分或全部图像中每一帧图像是否包含所述目标对象的情况，确定待检测视频中的目标对象是否发生出框行为。

在本发明实施例中，若部分或全部图像中检测到连续的几帧图像中均不包含所述目标对象，则可以确定在待检测视频中与这几帧图像对应的时间段内目标对象发生出框行为。

图5是本发明实施例提供的一种目标对象发生出框行为的统计示意图，如图5所示，可以对待检测视频每间隔1秒提取一张图像作为部分图像进行检测，在检测到待检测视频中9分25秒至9分38秒的13帧图像中均不包含目标对象的情况下，可以判断待检测视频中目标对象在9分25秒至9分38秒的时间段内发生了出框行为，可以输出出框时间段和该时间段内的任意一帧图像作为出框行为示例；在检测到待检测视频中10分24秒至10分39秒的15帧图像中均不包含目标对象的情况下，可以判断待检测视频中目标对象在10分24秒至10分39秒的时间段内发生了出框行为，可以输出出框时间段和该时间段内的任意一帧图像作为出框行为示例；在检测到待检测视频中10分57秒至11分07秒的10帧图像中均不包含目标对象的情况下，可以判断待检测视频中目标对象在10分57秒至11分07秒的时间段内发生了出框行为，可以输出出框时间段和该时间段内的任意一帧图像作为出框行为示例。

进一步的，可以对出框时间段内的图像进行识别，若图像主要包括保单、免责声明、说明书等投保资料，但图像中不包含目标对象的人脸，则可以说明在该时间段内，目标对象由于阅读或查看投保资料而发生出框行为。

同时，在完成对待检测视频的检测之后，可以输出对该待检测视频的检测结果，图6是本发明实施例提供的一种待检测视频的检测结果示意图，如图6所示，对待检测视频按照10帧/秒的抽帧率进行抽帧，确定需要进行人体姿态关键点检测的部分图像，并对确定的部分图像中的每一帧图像的待检测关键点与初始关键点进行比较，确定每一帧图像中是否包含目标对象，从而得到表征检测结果的出框判断，若检测到在待检测视频中的部分图像中，9分25秒至9分38秒对应的连续的多帧图像中检测到不包含目标对象的情况下，则可以将该时长13秒对应的时间段确定为目标对象发生出框行为的出框时间段，确定在该时间段内目标对象发生了一次出框行为；若检测到在待检测视频中的部分图像中，10分24秒至10分39秒对应的连续的多帧图像中检测到不包含目标对象的情况下，则可以将该时长15秒对应的时间段确定为目标对象发生出框行为的出框时间段，确定在该时间段内目标对象发生了一次出框行为；若检测到在待检测视频中的部分图像中，10分57秒至11分07秒对应的连续的多帧图像中检测到不包含目标对象的情况下，则可以将该时长10秒对应的时间段确定为目标对象发生出框行为的出框时间段，确定在该时间段内目标对象发生了一次出框行为。因此，可以确定在待检测视频中目标对象总共发生出框行为的出框次数为3次。

在本发明实施例中，在实际应用双录视频质检平台进行视频检测时，由于所有已经录好的双录视频保存在保险公司提供的指定连接页面上，因此，可以通过与双录视频对应的保单的保单号、分公司码、视频标识号(identity document，id)等特定字段从指定连接页面进行下载，对下载的双录视频进行视频解码后进行抽帧，抽取部分帧图像进行检测，并可以将抽取的图像存储在对应的视频id目录下，在完成上述视频的检测之后，输出包括出框次数、每次出框的时间段(开始时间和结束时间)的检测结果，同时，还可以通过人脸识别和比对，确定待检测视频中发生出框行为的目标对象的姓名和身份证等信息，从而输出目标对象的姓名和身份证等信息。

综上所述，本发明实施例提供的一种视频的检测方法，在对待检测视频进行质检的过程，是对待检测视频中的图像进行人体姿态关键点检测，确定图像中包含的表征人体姿态的多个关键点，从而利用关键点判断图像中是否包含目标对象，具体的，可以将待检测视频中的一帧初始图像中的关键点确定为初始关键点，以初始关键点作为判断基准，并根据初始关键点和待检测关键点，确定部分或全部图像中每一帧图像与初始图像之间的相似度，若待检测视频中的部分或全部图像中的一帧图像与初始图像之间的相似度大于或等于预设相似度，说明该帧图像中目标对象的位置变化范围较小，则可以判断在该帧图像中包含目标对象，进一步可以根据待检测视频中的部分或全部图像中每一帧图像是否包含目标对象的检测结果，判断待检测视频中目标对象是否发生出框行为，从而避免了由于目标对象的面部遮挡、低头或侧身等特殊情况导致的检测结果不准确，提高了视频质检的准确性，使得视频质检过程的鲁棒性较高。

图7是本发明实施例提供的另一种视频的检测方法的步骤流程图，如图7所示，该方法可以包括：

步骤201、获取待检测视频。

该步骤具体可以参照上述步骤101，此处不再赘述。

步骤202、从所述待检测视频中选择一帧初始图像，确定所述初始图像中包含的目标对象的多个关键点。

在该步骤中，可以从待检测视频中选择一帧图像作为初始图像，并确定初始图像中包含的目标对象全部的关键点。

其中，从待检测视频中选择一帧图像作为初始图像的过程，具体可以为对待检测视频片头的若干帧图像进行人体姿态关键点检测，并根据检测到的图像中包含的关键点确定该图像中包含的人脸区域，进而将确定的人脸区域与该待检测视频中目标对象的标准人脸图像进行比对，确定该人脸区域是否与标准人脸图像匹配，若图像中确定的人脸区域与标准人脸图像匹配，说明该帧图像中包含目标对象，则可以选择该帧图像作为所述初始图像；若图像中确定的人脸区域与标准人脸图像不匹配，说明该帧图像中不包含目标对象，则不能选择将该帧图像作为所述初始图像。进一步的，若从待检测视频片头的若干帧图像中筛选出多张包含目标对象的图像，则可以进一步根据图像中包含的关键点的数量确定初始图像，具体的，可以将关键点信息最完整，即关键点数量最多，或目标对象重要部位(如上半身)对应的关键点数量最多的一帧图像选择为所述初始图像，以供与待检测视频中的其他帧图像进行比对。

步骤203、确定所述关键点的尺寸信息，并将尺寸大于或等于预设尺寸的关键点确定为所述初始关键点。

在该步骤中，在确定初始图像中包含的目标对象全部的关键点之后，可以进一步根据关键点的尺寸信息，从所有关键点中筛选出符合预设尺寸的初始关键点。

例如，若初始图像为目标对象手持自己的身份证件的画面，则通过人体姿态关键点检测可以从该图像中识别得到目标对象的两组关键点，从而可以根据预先设置符合实体人物的关键点的预设尺寸，从两组关键点中将尺寸大于或等于预设尺寸的关键点确定为初始图像中包含的目标对象的初始关键点。

步骤204、对所述待检测视频的部分或全部图像进行所述人体姿态关键点检测，得到所述部分或全部图像中包含的所述目标对象的多个待检测关键点。

该步骤具体可以参照上述步骤103，此处不再赘述。

步骤205、确定所述初始关键点对应的初始坐标，以及所述待检测关键点对应的待检测坐标。

在该步骤中，在确定了初始图像中包含的目标对象的初始关键点，以及部分或全部图像中包含的目标对象的多个待检测关键点之后，可以进一步确定初始关键点对应的初始坐标，以及待检测关键点对应的待检测坐标，以供根据所述初始坐标和所述待检测坐标，确定相对应的初始关键点和待检测关键点之间的距离。

步骤206、根据所述初始坐标以及所述待检测坐标，确定所述部分或全部图像中每一个所述待检测关键点和对应的初始关键点之间的距离。

在该步骤中，可以利用初始关键点对应的初始坐标以及待检测关键点对应的待检测坐标，计算每一帧图像中的待检测关键点与对应的初始关键点之间的距离，以供计算每一帧图像中全部待检测关键点与初始关键点之间的距离总和，用于表征每一帧图像与初始图像之间相似度。

例如，若待检测关键点a为一帧图像中的左肩关键点，与待检测关键点a对应的初始关键点b为所选择图像中的左肩关键点，待检测关键点a对应的待检测坐标为(x₁,y₁)，初始关键点b对应的初始坐标为(x₂,y₂)，则可以根据欧氏距离的计算方法，计算得到待检测关键点a与初始关键点b之间的距离d为：

同理，可以采用相同的计算方法计算一帧图像中除待检测关键点a之外的其他待检测关键点与对应的初始关键点之间的距离。

步骤207、在所述部分或全部图像的每一帧图像中，确定多个所述待检测关键点对应的距离总和。

在该步骤中，可以根据一帧图像中每一个待检测关键点与对应的初始关键点之间的距离，确定待检测视频中部分或全部图像的每一帧图像中多个待检测关键点与初始关键点之间的距离总和，以供根据所述距离总和确定每一帧图像与初始图像之间的相似度。

步骤208、根据预先设置的距离总和与相似度之间的对应关系，确定与所述距离总和对应的相似度，并将所述相似度确定为所述部分或全部图像中每一帧图像与所述初始图像之间的相似度。

在该步骤中，在确定了每一帧图像中多个待检测关键点与初始关键点之间的距离总和之后，可以进一步根据预先设置的距离总和与相似度之间的对应关系，确定与所述距离总和对应的相似度，从而将所述相似度确定为所述部分或全部图像中每一帧图像与所述初始图像之间的相似度。

具体的，若一帧图像中多个待检测关键点与初始关键点之间的距离总和较大，说明相对于初始图像中目标对象的初始关键点而言，该帧图像中目标对象的待检测关键点与初始关键点之间的位置偏差较大，则可以确定待检测视频中相对于初始图像中的目标对象所处的位置，该帧图像中目标对象的位置变化范围较大，该帧图像与初始图像之间的相似度较小；若一帧图像中多个待检测关键点与初始关键点之间的距离总和较小，说明相对于初始图像中目标对象的初始关键点而言，该帧图像中目标对象的待检测关键点与初始关键点之间的位置偏差较小，则可以确定待检测视频中相对于初始图像中的目标对象所处的位置，该帧图像中目标对象的位置变化范围较小，该帧图像与初始图像之间的相似度较大。因此，可以确定一帧图像与初始图像之间相似度，与一帧图像中的待检测关键点与初始图像中的初始关键点之间的距离总和呈反比例的对应关系。

例如，若计算得到一帧图像中的待检测关键点与初始图像中的初始关键点之间的距离总和在0.1d-0.2d的范围内，则可以确定与该距离总和对应的相似度为70％，其中，d可以为该帧图像的对角线的长度；若计算得到一帧图像中的待检测关键点与初始图像中的初始关键点之间的距离总和为在0.05d-0.1d的范围内，则可以确定与该距离总和对应的相似度为80％；若计算得到一帧图像中的待检测关键点与初始图像中的初始关键点之间的距离总和为在0.01d-0.05d的范围内，则可以确定与该距离总和对应的相似度为90％；若计算得到一帧图像中的待检测关键点与初始图像中的初始关键点之间的距离总和为在0-0.0.01d的范围内，则可以确定与该距离总和对应的相似度为100％。

步骤209、在所述部分或全部图像中的一帧图像的相似度大于或等于预设相似度的情况下，确定所述部分或全部图像中的一帧图像中包含所述目标对象。

该步骤具体可以参照上述步骤105，此处不再赘述。

步骤210、在所述部分或全部图像中的一帧图像的相似度均小于所述预设相似度的情况下，识别所述部分或全部图像中的一帧图像中的人脸区域。

在步骤208中，若判断一帧图像与初始图像的相似度大于或等于预设相似度，则可以说明相对于初始图像，该帧图像中包含目标对象。若一帧图像与初始图像的相似度小于预设相似度，则可以说明相对于初始图像，该帧图像中目标对象移动的距离均较大，目标对象由于移动距离较大从而移出该帧图像的可能性较大，因此，可以进一步通过人脸识别和比对，确定该帧图像中是否包含目标对象。

具体的，可以识别该帧图像中的人脸区域，利用识别得到的人脸区域进行人脸比对。

步骤211、获取所述目标对象对应的标准人脸图像。

在该步骤中，可以获取与目标对象对应的标准人脸图像，从而与从图像中识别出的人脸区域进行比对，判断图像人脸区域中的人脸是否与标准人脸图像相匹配，从而判断图像中是否包含目标对象。

具体的，可以在获取待检测视频的同时，获取待检测视频中包含的目标对象的身份信息，例如：目标对象的姓名和身份证号码等，从而可以根据目标对象的身份信息，从预先设置的人脸数据库中获取与目标对象对应的标准人脸图像。

步骤212、对比所述人脸区域与所述标准人脸图像，在所述人脸区域中的人脸特征与所述标准人脸图像中的人脸特征相匹配的情况下，确定所述部分或全部图像中的一帧图像中包含所述目标对象。

在该步骤中，可以对比从图像中识别出的人脸区域与获取到的目标对象对应的标准人脸图像，从而判断图像中是否包含目标对象。

具体的，对比所述人脸区域与所述标准人脸图像的对比结果可以为一个布尔值，若人脸区域中的人脸特征与标准人脸图像中的人脸特征相匹配，对比结果为“1”，说明人脸区域中的人脸特征符合目标对象的人脸特征，则可以确定该帧图像中包含目标对象；若人脸区域中的人脸特征与标准人脸图像中的人脸特征不匹配，对比结果为“0”，说明人脸区域中的人脸特征不符合目标对象的人脸特征，则可以确定该帧图像中不包含目标对象。

此外，若在该图像与初始图像之间的相似度小于预设相似度，且在图像中识别不到人脸区域，或者在人脸区域中不能确定包含的人脸特征，则输出对比结果也为“0”，即图像中目标对象发生低头或面部遮挡等情况时，也确定该帧图像中不包含目标对象的检测结果，此时，可以将该图像中的待检测关键信息的信息置零。

需要说明的是，若单独采用人脸识别的比对判断图像中是否包含目标对象，则可能在图像中目标对象发生低头或面部遮挡等情况时，直接确定该帧图像中不包含目标对象，而在本发明实施例中，首先利用关键点信息判断该帧图像与初始图像之间的相似度，从而即使在目标对象发生低头或面部遮挡等情况时，若检测到所述相似度大于或等于预设相似度，即该帧图像相对于初始图像目标对象的移动距离较小，因而也可以得出该帧图像中包含目标对象的检测结果，从而提高判断过程的准确率，减少误判。

步骤213、根据所述部分或全部图像中每一帧图像是否包含所述目标对象，确定所述待检测视频中所述目标对象是否发生出框行为。

在该步骤中，在检测完部分或全部图像之后，可以根据步骤208和步骤212得到的待检测视频中部分或全部图像中每一帧图像是否包含所述目标对象的情况，确定待检测视频中的目标对象是否发生出框行为。

可选的，若需要对待检测视频中的全部图像进行检测，则可以预先确定待检测视频中包含的图像总数，若需要通过抽帧将待检测视频中的部分图像进行检测，则可以确定部分图像的图像总数，从而在依次对每一帧图像进行检测时，在已完成检测的图像的数量大于或等于预先确定的图像总数之后，可以结束对图像的检测，从而根据已经得到的检测结果，判断待检测视频中目标对象是否发生出框行为，若判断目标对象发生出框行为，还可以生成报警信息，输出目标对象发生出框行为的具体信息以及对应的图像，从而辅助质检人员的二次审核。

可选的，步骤213具体可以包括以下子步骤：

子步骤2131、确定所述部分或全部图像中不包含所述目标对象的目标图像，并获取所述目标图像位于所述待检测视频中的时间信息。

在该步骤中，确定待检测视频中部分或全部图像中每一帧图像是否包含目标对象之后，可以进一步确定其中不包含目标对象的目标图像，并获取该目标图像位于待检测视频中的时间信息。

例如，可以对待检测视频每间隔1秒提取一张图像作为部分图像进行检测，若检测到待检测视频中9分25秒至9分38秒的13帧图像中均不包含目标对象，则可以将9分25秒至9分38秒的13帧图像确定为目标图像，每一帧目标图像位于待检测视频中的时间信息分别9分25秒至9分38秒。

子步骤2132、根据所述目标图像对应的时间信息，确定在所述待检测视频中不包含所述目标对象的时长。

在该步骤中，可以根据目标图像对应的时间信息，确定在待检测视频中不包含目标对象的时长。

具体的，可以根据目标图像对应的时间信息，确定时间连续的多张目标图像，从而根据时间连续的多张目标图像，确定待检测视频在该连续的时间段内不包含目标对象的时长。

例如，若检测到待检测视频中9分25秒至9分38秒内连续的13帧图像中均不包含目标对象，则可以确定待检测图像在9分25秒至9分38秒对应的时间范围内不包含目标对象，且本次不包含目标对象的时长为13秒；若检测到待检测视频中11分10秒至11分14秒内连续的4帧图像中均不包含目标对象，则可以确定待检测图像在11分10秒至11分14秒对应的时间范围内不包含目标对象，且本次不包含目标对象的时长为4秒。

子步骤2133、在所述时长大于或等于预设时长的情况下，确定所述待检测视频中所述目标对象发生所述出框行为。

在该步骤中，若待检测视频中不包含目标对象的时长大于或等于预设时长，说明在待检测视频中本次不包含目标对象的时长较长，即目标对象发生出框的时间较长，则可以确定待检测视频中目标对象发生了出框行为；若待检测视频中不包含目标对象的时长小于预设时长，说明在待检测视频中本次不包含目标对象的时长较短，即目标对象发生出框的时间较短，则可以确定待检测视频中目标对象并未发生出框行为，从而避免漏检、调试摄像头等情况下造成的误判。

其中，所述预设时长可以是预先设置的判断目标对象是否发生出框行为的时间阈值，可以设置为3秒、5秒或7秒等。

例如，若所述预设时长为5秒，若检测到待检测视频中9分25秒至9分38秒内连续的13帧图像中均不包含目标对象，即待检测视频此次不包含目标对象的时长为13秒，则可以确定待检测视频在9分25秒至9分38秒内发生了一次出框行为；若检测到待检测视频中11分10秒至11分14秒内连续的4帧图像中均不包含目标对象，即待检测视频此次不包含目标对象的时长为4秒，则可以确定待检测视频在9分25秒至9分38秒内并未发生出框行为，从而避免漏检、调试摄像头等情况下造成的误判。例如，在实际业务场景中，可能由于发生了摄像头晃动的情况，导致在9分25秒至9分38秒内目标对象瞬时出框；也可能由于发生了某一帧图像中关键点和人脸的漏检，导致在9分25秒至9分38秒内目标对象判断瞬时出框，因而，可以将持续时间较短的出框行为确定为由于漏检或调试摄像头等造成的误判情况，从而提高检测过程的准确率。

在本发明实施例中，可以采用分水岭算法判断待检测视频中目标对象是否发生出框行为。

具体的，可以将上述步骤中确定的一帧图像中是否包含目标对象的结果转化为掩码，并按照部分或全部图像在待检测视频中的时间进行展示，得到掩码数值随时间信息的分布曲线，并利用分水岭阈值划分掩码的数据分布，然后根据掩码数值和预设时长得到出框行为的起始时间和终止时间，并统计待检测视频中目标对象发生出框行为的出框次数和出框时间。

图8是本发明实施例提供的一种分水岭算法的应用机制示意图，如图8所示，将上述步骤中确定的一帧图像中是否包含目标对象的结果转化为掩码，同时掩码数值综合表征一帧图像中的多个待检测关键点与对应的初始关键点之间的相似度，即一帧图像中的待检测关键点与对应的初始关键点之间的相似度较小时，该帧图像对应的掩码数值较小，一帧图像中的待检测关键点与对应的初始关键点之间的相似度较大时，该帧图像对应的掩码数值较大，可以设置分水岭阈值，从而在部分或全部图像中筛选出掩码数值小于分水岭阈值的图像，筛选出的图像即为其中的待检测关键点与初始关键之间的相似度较小的目标图像，该目标图像中不包含目标对象。

进一步的，若设置所述预设时长为5秒，则进一步判断掩码数值小于分水岭阈值的多张连续的目标图像的持续时长是否大于或等于预设时长，参照图8，第一次掩码数值小于分水岭阈值的多张连续的目标图像的持续时长为7秒，大于预设时长5秒，因此，可以判断此时目标对象发生出框行为；第二次掩码数值小于分水岭阈值的多张连续的目标图像的持续时长为6秒，大于预设时长5秒，因此，可以判断此时目标对象发生出框行为；第三次掩码数值小于分水岭阈值的多张连续的目标图像的持续时长为3秒，小于预设时长5秒，因此，可以判断此时目标对象未发生出框行为，则在待检测视频中发生出框行为的次数为2次。

步骤214、根据所述目标图像对应的时间信息，确定所述待检测视频中所述目标对象发生所述出框行为的时间信息。

在该步骤中，可以根据待检测视频中不包含目标对象的目标图像对应的时间信息，确定所述待检测视频中目标对象发生出框行为对应的时间信息。

参照图5，对待检测视频每间隔1秒提取一张图像作为部分图像进行检测时，待检测视频中9分25秒至9分38秒的13帧图像中均不包含目标对象，因此，可以将待检测视频中9分25秒至9分38秒内连续的13帧图像确定为目标图像，且13帧目标图像对应的时间信息分别为9分25秒至9分38秒中的一秒，最终可以确定待检测视频中目标对象发生出框行为的时间信息为9分25秒至9分38秒，发生出框行为的时长为13秒。

步骤215、在所述目标对象为至少两个的情况下，根据每一个所述目标对象发生所述出框行为的时间信息，确定所述待检测视频中至少两个所述目标对象是否处于同框状态。

在待检测视频中包含至少两个目标对象的情况下，可以通过上述步骤，分别确定每一个目标对象发生出框行为的时间信息，从而综合每一个目标对象发生所述出框行为的时间信息，确定待检测视频中至少两个目标对象是否处于同框状态。

具体的，图9是本发明实施例提供的另一种目标对象关键点的示意图，如图9所示，待检测视频中包含两个目标对象，图像D可以为从待检测视频片头前十秒包含的多帧图像中选择的初始图像，其中，待检测图像包含两个目标对象：左侧目标对象和右侧目标对象，对待检测视频片头前十秒包含的多帧图像进行人体姿态关键点检测，根据图像中的关键点确定每帧图像中包含的人脸区域，并将每帧图像中包含的人脸区域与两个目标对象对应的标准人脸图像进行比对，检测结果为：待检测视频片头前十秒包含的多帧图像中第十秒对应的图像D包含有两个目标对象，且图像D中包含的两个目标对象对应的关键点信息较为完整，因此，可以选择图像D为初始图像。图像E为待检测视频中与图像D间隔1秒的图像，图像F为待检测视频中的与图像E间隔1秒的图像。图像D1为对图像D经过人体姿态关键点检测得到的标注了待检测关键点的图像，其中包含左侧目标对象中11个待检测关键点：鼻子、左右眼、左右耳、颈部、左右肩、左右肘和左手腕，以及右侧目标对象中10个待检测关键点：鼻子、左右眼、左右耳、颈部、右肩、左右肘和左手腕；图像E1为对图像E经过人体姿态关键点检测得到的标注了待检测关键点的图像，其中包含左侧目标对象中10个待检测关键点：鼻子、左右眼、左右耳、颈部、左右肩和左右肘，以及右侧目标对象中12个待检测关键点：鼻子、左右眼、左右耳、颈部、左右肩、左右肘和左右手腕；图像F1为对图像F经过人体姿态关键点检测得到的标注了待检测关键点的图像，其中包含左侧目标对象中11个待检测关键点：鼻子、左右眼、左右耳、颈部、左右肩、左右肘和左手腕，以及右侧目标对象中12个待检测关键点：鼻子、左右眼、左右耳、颈部、左右肩、左右肘和左右手腕。

进一步的，可以针对每一个目标对象，确定部分或全部图像中的每一帧图像中是否包含目标对象，从而判断在待检测图像中每一个目标对象是否发生了出框行为，以及记录每一个目标对象发生出框行为的时间信息，从而在图像中同时包含全部目标对象时，确定至少两个目标对象处于同框状态，若图像中不包含任意一个目标对象，则可以确定至少两个目标对象不处于同框状态。

图10是本发明实施例提供的另一种待检测视频的检测结果的示意图，如图10所示，可以在对待检测视频进行检测之前，首先识别待检测视频中包含的目标对象的数量和身份信息，在对待检测视频片头的若干帧图像进行人脸识别和比对之后，确定待检测视频中包含左边代理人和右边投保人两个目标对象。

进一步的，对待检测视频按照10帧/秒的抽帧率进行抽帧，确定需要进行人体姿态关键点检测的部分图像，并针对每一个目标对象，对确定的部分图像中的每一帧图像的待检测关键点与初始关键点进行比较，确定每一帧图像中是否包含该目标对象，从而得到表征检测结果的出框判断。

参照图10，对于目标对象为左边代理人的检测结果为：发生出框行为的出框次数为10次，分别为在[6分32秒，6分45秒]的时间范围内发生出框行为，且持续时长为13秒；在[7分03秒，7分21秒]的时间范围内发生出框行为，且持续时长为18秒；在[7分38秒，7分57秒]的时间范围内发生出框行为，且持续时长为19秒；在[8分21秒，8分28秒]的时间范围内发生出框行为，且持续时长为7秒；在[8分31秒，8分37秒]的时间范围内发生出框行为，且持续时长为6秒；在[9分16秒，9分24秒]的时间范围内发生出框行为，且持续时长为8秒；在[9分38秒，9分46秒]的时间范围内发生出框行为，且持续时长为8秒；在[9分58秒，10分17秒]的时间范围内发生出框行为，且持续时长为19秒；在[10分30秒，10分40秒]的时间范围内发生出框行为，且持续时长为10秒；在[11分11秒，11分22秒]的时间范围内发生出框行为，且持续时长为11秒。对于目标对象为右边投保人的检测结果为：发生出框行为的出框次数为3次，分别为在[7分03秒，7分21秒]的时间范围内发生出框行为，且持续时长为18秒；在[7分46秒，7分52秒]的时间范围内发生出框行为，且持续时长为6秒；在[8分21秒，8分28秒]的时间范围内发生出框行为，且持续时长为7秒。

可选的，步骤215具体可以包括以下子步骤：

子步骤2151、在所述待检测视频中的同一时刻，至少两个所述目标对象中任意一个目标对象发生所述出框行为的情况下，确定在所述待检测视频中的所述时刻，至少两个所述目标对象未处于所述同框状态。

在该步骤中，可以根据至少两个目标对象中每一个目标对象是否发生出框行为，以及所述出框行为对应的时间信息，确定在待检测视频中的同一时刻，若至少两个目标对象中任意一个目标对象发生出框行为，则可以判断至少两个目标对象在此刻未处于同框状态。

参照图10，左边代理人在[7分03秒，7分21秒]的时间范围内发生出框行为，右边投保人也在[7分03秒，7分21秒]的时间范围内发生出框行为，因此，可以判断左边代理人和右边投保人在[7分03秒，7分21秒]的时间范围内未处于同框状态；左边代理人在[7分38秒，7分57秒]的时间范围内发生出框行为，右边投保人在[7分46秒，7分52秒]的时间范围内发生出框行为，由此可知在[7分46秒，7分57秒]的时间范围内左边代理人和右边投保人均发生了出框行为，因而未处于同框状态，此外，在[7分38秒，7分46秒]和[7分52秒，7分57秒]的时间范围内，虽然右边投保人未发生出框行为，但由于此时左边代理人发生了出框行为，因此，在[7分38秒，7分46秒]和[7分52秒，7分57秒]的时间范围内，左边代理人和右边投保人同样未处于同框状态。

因此，根据每一个所述目标对象发生所述出框行为的时间信息，在至少两个目标对象中的目标对象均为发生出框行为的情况下，才能确定至少两个目标对象处于同框状态，参照图10，在[6分45秒，7分03秒]的时间范围内，左边代理人和右边投保人均未发生出框行为，则可以判断在该时间范围内左边代理人和右边投保人处于同框状态。

需要说明的是，若待检测视频中存在至少两个目标对象，在从待检测视频中选择一帧图像作为初始图像时，可以对待检测视频片头的若干帧图像进行人体姿态关键点检测，并根据检测到的图像中包含的关键点确定该图像中包含的至少两个人脸区域，并将每帧图像中包含的至少两个人脸区域与至少两个目标对象对应的标准人脸图像进行比对，将图像中同时包含至少两个目标对象，且包含至少两个目标对象对应的关键点信息最完整的一帧图像确定为初始图像。此外，由于初始图像中包含至少两个目标对象对应的至少两组初始关键点，因此，可以利用输入的待检测视频相关的至少两个目标对象的标准人脸图像和身份信息等先验信息，通过上述人脸比对过程，确定初始图像中每组初始关键点具体属于哪一个目标对象，从而完成初始关键点的聚类。

综上所述，本发明实施例提供的一种视频的检测方法，在对待检测视频进行质检的过程，是对待检测视频中的图像进行人体姿态关键点检测，确定图像中包含的表征人体姿态的多个关键点，从而利用关键点判断图像中是否包含目标对象，具体的，可以将待检测视频中的一帧初始图像中的关键点确定为初始关键点，以初始关键点作为判断基准，并根据初始关键点和待检测关键点，确定部分或全部图像中每一帧图像与初始图像之间的相似度，若待检测视频中的部分或全部图像中的一帧图像与初始图像之间的相似度大于或等于预设相似度，说明该帧图像中目标对象的位置变化范围较小，则可以判断在该帧图像中包含目标对象，进一步可以根据待检测视频中的部分或全部图像中的每一帧图像是否包含目标对象的检测结果，判断待检测视频中目标对象是否发生出框行为，从而避免了由于目标对象的面部遮挡、低头或侧身等特殊情况导致的检测结果不准确，提高了视频质检的准确性，使得视频质检过程的鲁棒性较高。

此外，还可以在待检测视频中存在至少两个目标对象时，可以根据每一个目标对象发生出框行为的此时和对应的时间信息，确定至少两个目标对象是否处于同框状态。

图11是本发明实施例提供的一种视频的检测装置的框图，如图11所示，该装置可以包括：

第一获取模块301，用于获取待检测视频；

第一检测模块302，用于从所述待检测视频中选择一帧初始图像，并将所述初始图像中包含的目标对象的多个关键点确定为所述目标对象的多个初始关键点；

第二检测模块303，用于对所述待检测视频的部分或全部图像进行所述人体姿态关键点检测，得到所述部分或全部图像中包含的所述目标对象的多个待检测关键点；

第一确定模块304，用于根据所述初始关键点和所述待检测关键点，确定所述部分或全部图像中每一帧图像与所述初始图像之间的相似度；

第二确定模块305，用于在所述部分或全部图像中的一帧图像的相似度大于或等于预设相似度的情况下，确定所述部分或全部图像中的一帧图像中包含所述目标对象；

第三确定模块306，用于根据所述部分或全部图像中每一帧图像是否包含所述目标对象，确定所述待检测视频中所述目标对象是否发生出框行为。

可选的，所述装置还包括：

识别模块，用于在所述部分或全部图像中的一帧图像的相似度小于所述预设相似度的情况下，识别所述部分或全部图像中的一帧图像中的人脸区域；

第二获取模块，用于获取所述目标对象对应的标准人脸图像；

对比模块，用于对比所述人脸区域与所述标准人脸图像，在所述人脸区域中的人脸特征与所述标准人脸图像中的人脸特征相匹配的情况下，确定所述部分或全部图像中的一帧图像中包含所述目标对象。

可选的，所述第三确定模块，包括：

第一确定子模块，用于确定所述部分或全部图像中不包含所述目标对象的目标图像，并获取所述目标图像位于所述待检测视频中的时间信息；

第二确定子模块，用于根据所述目标图像对应的时间信息，确定在所述待检测视频中不包含所述目标对象的时长；

第三确定子模块，用于在所述时长大于或等于预设时长的情况下，确定所述待检测视频中所述目标对象发生所述出框行为。

可选的，所述装置还包括：

第四确定模块，用于根据所述目标图像对应的时间信息，确定所述待检测视频中所述目标对象发生所述出框行为的时间信息；

第五确定模块，用于在所述目标对象为至少两个的情况下，根据每一个所述目标对象发生所述出框行为的时间信息，确定所述待检测视频中至少两个所述目标对象是否处于同框状态。

可选的，所述第五确定模块，包括：

确定单元，用于在所述待检测视频中的同一时刻，至少两个所述目标对象中任意一个目标对象发生所述出框行为的情况下，确定在所述待检测视频中的所述时刻，至少两个所述目标对象未处于所述同框状态。

可选的，所述第一检测模块，包括：

检测子模块，用于从所述待检测视频中选择一帧初始图像，确定所述初始图像中包含的目标对象的多个关键点；

第四确定子模块，用于确定所述关键点的尺寸信息，并将尺寸大于或等于预设尺寸的关键点确定为所述初始关键点。

可选的，所述第一确定模块，包括：

第五确定子模块，用于确定所述初始关键点对应的初始坐标，以及所述待检测关键点对应的待检测坐标；

第六确定子模块，用于根据所述初始坐标以及所述待检测坐标，确定所述部分或全部图像中每一个所述待检测关键点和对应的初始关键点之间的距离；

第七确定子模块，用于在所述部分或全部图像的每一帧图像中，确定多个所述待检测关键点对应的距离总和；

第八确定子模块，用于根据预先设置的距离总和与相似度之间的对应关系，确定与所述距离总和对应的相似度，并将所述相似度确定为所述部分或全部图像中每一帧图像与所述初始图像之间的相似度。

综上所述，本发明实施例提供的一种视频的检测装置，在对待检测视频进行质检的过程，是对待检测视频中的图像进行人体姿态关键点检测，确定图像中包含的表征人体姿态的多个关键点，从而利用关键点判断图像中是否包含目标对象，具体的，可以将待检测视频中的一帧初始图像中的关键点确定为初始关键点，以初始关键点作为判断基准，并根据初始关键点和待检测关键点，确定部分或全部图像中每一帧图像与初始图像之间的相似度，若待检测视频中的部分或全部图像中的一帧图像与初始图像之间的相似度大于或等于预设相似度，说明该帧图像中目标对象的位置变化范围较小，则可以判断在该帧图像中包含目标对象，进一步可以根据待检测视频中的部分或全部图像中每一帧图像是否包含目标对象的检测结果，判断待检测视频中目标对象是否发生出框行为，从而避免了由于目标对象的面部遮挡、低头或侧身等特殊情况导致的检测结果不准确，提高了视频质检的准确性，使得视频质检过程的鲁棒性较高。

对于上述装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

优选的，本发明实施例还提供一种计算机设备，包括处理器，存储器，存储在存储器上并可在所述处理器上运行的计算机程序，该计算机程序被处理器执行时实现上述视频的检测方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

本发明实施例还提供一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，该计算机程序被处理器执行时实现上述视频的检测方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。其中，所述的计算机可读存储介质，如只读存储器(Read-Only Memory，简称ROM)、随机存取存储器(Random Access Memory，简称RAM)、磁碟或者光盘等。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

本领域技术人员易于想到的是：上述各个实施例的任意组合应用都是可行的，故上述各个实施例之间的任意组合都是本发明的实施方案，但是由于篇幅限制，本说明书在此就不一一详述了。

在此提供的视频的检测方法不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述，构造具有本发明方案的系统所要求的结构是显而易见的。此外，本发明也不针对任何特定编程语言。应当明白，可以利用各种编程语言实现在此描述的本发明的内容，并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

类似地，应当理解，为了精简本发明并帮助理解各个发明方面中的一个或多个，在上面对本发明的示例性实施例的描述中，本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释成反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如权利要求书所反映的那样，发明方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。

本领域那些技术人员可以理解，可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件，以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外，本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如，在权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

本发明的各个部件实施例可以以硬件实现，或者以在一个或者多个处理器上运行的软件模块实现，或者以它们的组合实现。本领域的技术人员应当理解，可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的视频的检测方法中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如，计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上，或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到，或者在载体信号上提供，或者以任何其他形式提供。

应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

Claims

1.一种视频的检测方法，其特征在于，所述方法包括：

获取待检测视频；

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

在所述部分或全部图像中的一帧图像的相似度小于所述预设相似度的情况下，识别所述部分或全部图像中的一帧图像中的人脸区域；

获取所述目标对象对应的标准人脸图像；

对比所述人脸区域与所述标准人脸图像，在所述人脸区域中的人脸特征与所述标准人脸图像中的人脸特征相匹配的情况下，确定所述部分或全部图像中的一帧图像中包含所述目标对象。

3.根据权利要求1所述的方法，其特征在于，所述根据所述部分或全部图像中每一帧图像是否包含所述目标对象，确定所述待检测视频中所述目标对象是否发生出框行为的步骤，包括：

确定所述部分或全部图像中不包含所述目标对象的目标图像，并获取所述目标图像位于所述待检测视频中的时间信息；

根据所述目标图像对应的时间信息，确定在所述待检测视频中不包含所述目标对象的时长；

在所述时长大于或等于预设时长的情况下，确定所述待检测视频中所述目标对象发生所述出框行为。

4.根据权利要求3所述的方法，其特征在于，在所述确定所述待检测视频中所述目标对象发生所述出框行为的步骤之后，所述方法还包括：

根据所述目标图像对应的时间信息，确定所述待检测视频中所述目标对象发生所述出框行为的时间信息；

在所述目标对象为至少两个的情况下，根据每一个所述目标对象发生所述出框行为的时间信息，确定所述待检测视频中至少两个所述目标对象是否处于同框状态。

5.根据权利要求4所述的方法，其特征在于，所述根据每一个所述目标对象发生所述出框行为的时间信息，确定所述待检测视频中至少两个所述目标对象是否处于同框状态的步骤，包括：

在所述待检测视频中的同一时刻，至少两个所述目标对象中任意一个目标对象发生所述出框行为的情况下，确定在所述待检测视频中的所述时刻，至少两个所述目标对象未处于所述同框状态。

6.根据权利要求1所述的方法，其特征在于，所述从所述待检测视频中选择一帧初始图像，并将所述初始图像中包含的目标对象的多个关键点确定为所述目标对象的多个初始关键点的步骤，包括：

从所述待检测视频中选择一帧初始图像，确定所述初始图像中包含的目标对象的多个关键点；

确定所述关键点的尺寸信息，并将尺寸大于或等于预设尺寸的关键点确定为所述初始关键点。

7.根据权利要求1所述的方法，其特征在于，所述根据所述初始关键点和所述待检测关键点，确定所述部分或全部图像中每一帧图像与所述初始图像之间的相似度的步骤，包括：

确定所述初始关键点对应的初始坐标，以及所述待检测关键点对应的待检测坐标；

根据所述初始坐标以及所述待检测坐标，确定所述部分或全部图像中每一个所述待检测关键点和对应的初始关键点之间的距离；

在所述部分或全部图像的每一帧图像中，确定多个所述待检测关键点对应的距离总和；

根据预先设置的距离总和与相似度之间的对应关系，确定与所述距离总和对应的相似度，并将所述相似度确定为所述部分或全部图像中每一帧图像与所述初始图像之间的相似度。

8.一种图像的检测装置，其特征在于，所述装置包括：

第一获取模块，用于获取待检测视频；

9.一种计算机设备，其特征在于，所述计算机设备包括：

存储器，用于存储程序指令；

处理器，用于调用所述存储器中存储的程序指令，按照获得的程序指令执行权利要求1至7中任一所述的视频的检测方法包括的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储计算机程序，所述计算机程序被处理器执行时实现如权利要求1至7中任一所述的视频的检测方法。