CN110163043B

CN110163043B - 面部检测方法、装置、存储介质及电子装置

Info

Publication number: CN110163043B
Application number: CN201810482950.0A
Authority: CN
Inventors: 孙祥学
Original assignee: Tencent Technology Shenzhen Co Ltd; Tencent Cloud Computing Beijing Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd; Tencent Cloud Computing Beijing Co Ltd
Priority date: 2018-05-18
Filing date: 2018-05-18
Publication date: 2023-09-26
Anticipated expiration: 2038-05-18
Also published as: CN110163043A

Abstract

本发明公开了一种面部检测方法、装置、存储介质及电子装置。其中，该方法包括：对待检测的视频帧进行面部识别，得到面部相似度，其中，面部相似度用于指示视频帧中出现了目标面部的概率；获取待检测的视频帧对应的目标信息，并根据目标信息调整当前相似度，得到目标相似度；在面部相似度高于目标相似度的情况下，确定视频帧为出现了目标面部的目标视频帧。本发明解决了相关技术中面部检测效率较低的技术问题。

Description

面部检测方法、装置、存储介质及电子装置

技术领域

本发明涉及计算机领域，具体而言，涉及一种面部检测方法、装置、存储介质及电子装置。

背景技术

现有视频检索都是单一的应用面部识别技术找出视频中指定人物出现的时间点，一般面部识别深度学习模型认为相似度>83％则认为可信，但实际使用场景中还是会带来许多误检，另外受当前面部识别技术效果的限制，对于某些侧脸、群像、存在部分遮挡、视频模糊的场景识别效果不是很好，导致检索的相似度都会比较低而被过滤掉，从而带来许多漏检。如果稍微降低相似度筛选标准到80％即认为可信，则会带来更多的误检。可见，目前相关技术中面部检测的漏检和误检的风险较大，检测的准确性较低，导致检测效率较低。

针对上述的问题，目前尚未提出有效的解决方案。

发明内容

本发明实施例提供了一种面部检测方法、装置、存储介质及电子装置，以至少解决相关技术中面部检测效率较低的技术问题。

根据本发明实施例的一个方面，提供了一种面部检测方法，包括：对待检测的视频帧进行面部识别，得到面部相似度，其中，所述面部相似度用于指示所述视频帧中出现了目标面部的概率；获取所述待检测的视频帧对应的目标信息，并根据所述目标信息调整当前相似度，得到目标相似度；在所述面部相似度高于所述目标相似度的情况下，确定所述视频帧为出现了所述目标面部的目标视频帧。

根据本发明实施例的另一方面，还提供了一种面部检测装置，包括：识别模块，用于对待检测的视频帧进行面部识别，得到面部相似度，其中，所述面部相似度用于指示所述视频帧中出现了目标面部的概率；处理模块，用于获取所述待检测的视频帧对应的目标信息，并根据所述目标信息调整当前相似度，得到目标相似度；确定模块，用于在所述面部相似度高于所述目标相似度的情况下，确定所述视频帧为出现了所述目标面部的目标视频帧。

根据本发明实施例的另一方面，还提供了一种存储介质，其特征在于，所述存储介质中存储有计算机程序，其中，所述计算机程序被设置为运行时执行上述任一项中所述的方法。

根据本发明实施例的另一方面，还提供了一种电子装置，包括存储器和处理器，其特征在于，所述存储器中存储有计算机程序，所述处理器被设置为通过所述计算机程序执行上述任一项中所述的方法。

在本发明实施例中，采用对待检测的视频帧进行面部识别，得到面部相似度，其中，面部相似度用于指示视频帧中出现了目标面部的概率；获取待检测的视频帧对应的目标信息，并根据目标信息调整当前相似度，得到目标相似度；在面部相似度高于目标相似度的情况下，确定视频帧为出现了目标面部的目标视频帧的方式，在对待检测的视频帧进行面部检测时，通过面部识别得到面部相似度，根据获取到的视频帧的目标信息调整当前相似度，得到目标相似度，通过面部相似度与目标相似度的比较，将面部相似度高于目标相似度的视频帧确定为目标视频帧，根据视频帧的目标信息对相似度的阈值进行调整，从而能够使得用于判定视频帧中是否出现了目标面部的相似度阈值更加满足当前待检测的视频帧所携带的信息，从而降低了漏检和误检的风险，提高了面部检测的准确率，从而实现了提高面部检测的检测效率的技术效果，进而解决了相关技术中面部检测效率较低的技术问题。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是根据本发明实施例的一种可选的面部检测方法的示意图；

图2是根据本发明实施例的一种可选的面部检测方法的应用环境示意图；

图3是根据本发明可选的实施方式的一种可选的面部检测方法的示意图；

图4是根据本发明可选的实施方式的另一种可选的面部检测方法的示意图；

图5是根据本发明实施例的一种可选的面部检测装置的示意图；

图6是根据本发明实施例的一种可选的面部检测方法的应用场景示意图；以及

图7是根据本发明实施例的一种可选的电子装置的示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

根据本发明实施例的一个方面，提供了一种面部检测方法，如图1所示，该方法包括：

S102，对待检测的视频帧进行面部识别，得到面部相似度，其中，面部相似度用于指示视频帧中出现了目标面部的概率；

S104，获取待检测的视频帧对应的目标信息，并根据目标信息调整当前相似度，得到目标相似度；

S106，在面部相似度高于目标相似度的情况下，确定视频帧为出现了目标面部的目标视频帧。

可选地，在本实施例中，上述面部检测方法可以应用于如图2所示的客户端202所构成的硬件环境中。如图2所示，客户端202对待检测的视频帧进行面部识别，得到面部相似度，其中，面部相似度用于指示视频帧中出现了目标面部的概率；获取待检测的视频帧对应的目标信息，并根据目标信息调整当前相似度，得到目标相似度；在面部相似度高于目标相似度的情况下，确定视频帧为出现了目标面部的目标视频帧。

可选地，在本实施例中，上述面部检测方法可以但不限于应用于对视频资源中出现的面部进行检测的场景中。其中，上述客户端可以但不限于为各种类型的应用，例如，在线教育应用、即时通讯应用、社区空间应用、游戏应用、购物应用、浏览器应用、金融应用、多媒体应用、直播应用等。具体的，可以但不限于应用于在上述多媒体应用中对视频资源中出现的面部进行检测的场景中，或还可以但不限于应用于在上述即时通讯应用中对视频资源中出现的面部进行检测的场景中，以提高面部检测的检测效率。上述仅是一种示例，本实施例中对此不做任何限定。

可选地，在本实施例中，在获取待检测的视频帧时可以将视频资源中的每一个视频帧确定为待检测的视频帧，或者，为了进一步提高检测效率，可以获取视频资源的全部视频帧，再从这些视频帧中提取出关键帧，将提取的关键帧确定为待检测的视频帧。上述待检测的视频帧可以但不限于包括视频资源中的每一帧，或者，视频资源中的关键帧等等。

可选地，在本实施例中，上述目标面部可以但不限于为各种类型的面部，比如：人的面部、猫的面部、狗的面部、马的面部、机器人的面部等等。

可选地，在本实施例中，上述面部识别的方式可以但不限于包括人脸识别技术，或者，其他用于进行面部识别的算法。

可选地，在本实施例中，可以采集目标面部的样本对深度学习模型进行训练，得到输入参数为面部特征，输出参数为该特征与目标面部的面部特征之间的相似度的智能模型，利用该智能模型对视频帧进行面部识别，将智能模型输出的相似度值作为上述面部相似度。

可选地，在本实施例中，上述目标信息可以但不限于包括从视频帧中提取的能够影响视频帧中目标面部出现的概率的信息。例如：视频帧中的文字信息(比如：字幕等)、视频帧对应的音频信息(比如：配音、音乐等)、视频帧所对应的关联信息(比如：该视频帧之前是否检测出目标视频帧)等等。

可选地，在本实施例中，对当前相似度调整的幅度可以预先设定，或者也可以通过人工智能技术自动识别。

在一个可选的实施方式中，如图3所示，终端设备A上安装有用于进行面部检测的客户端B，用户点击客户端B的图标打开客户端B，在客户端B上选择需要检测的视频资源及目标面部，客户端B对待检测的视频帧进行面部识别，得到面部相似度，获取待检测的视频帧对应的目标信息，并根据目标信息调整当前相似度，得到目标相似度，在面部相似度高于目标相似度的情况下，确定视频帧为出现了目标面部的目标视频帧。客户端B将目标视频帧对应的相关信息(比如时间信息等)显示在界面上。

可见，通过上述步骤，在对待检测的视频帧进行面部检测时，通过面部识别得到面部相似度，根据获取到的视频帧的目标信息调整当前相似度，得到目标相似度，通过面部相似度与目标相似度的比较，将面部相似度高于目标相似度的视频帧确定为目标视频帧，根据视频帧的目标信息对相似度的阈值进行调整，从而能够使得用于判定视频帧中是否出现了目标面部的相似度阈值更加满足当前待检测的视频帧所携带的信息，从而降低了漏检和误检的风险，提高了面部检测的准确率，从而实现了提高面部检测的检测效率的技术效果，进而解决了相关技术中面部检测效率较低的技术问题。

作为一种可选的方案，根据目标信息调整当前相似度，得到目标相似度包括：

S1，在目标信息指示出视频帧所在的视频资源中出现目标面部的概率上升的情况下，将当前相似度调整到目标相似度，其中，目标相似度小于当前相似度。

可选地，在本实施例中，当目标信息指示出视频帧所在的视频资源中出现目标面部的概率上升时，可以适当降低当前相似度，以降低漏检和误检的风险。

可选地，在本实施例中，当目标信息指示出视频帧所在的视频资源中出现目标面部的概率不变时，可以保持当前相似度。

可选地，在本实施例中，当目标信息指示出视频帧所在的视频资源中出现目标面部的概率下降时，可以适当提高当前相似度或者保持当前相似度不变，以降低漏检和误检的风险。

可选地，在本实施例中，可以指示出视频帧所在的视频资源中出现目标面部的概率上升的目标信息可以但不限于包括：目标文字信息、目标音频信息、目标关联信息，其中，目标文字信息为携带有用于指示目标面部所属于的身份信息的文字，目标音频信息为携带有用于指示目标面部所属于的身份信息的音频，目标关联信息用于指示在视频帧所在的视频资源中位于视频帧之前的视频帧中包括目标视频帧。

可选地，在本实施例中，身份信息可以但不限于包括目标面部的名称、标识等信息。例如：以人脸检测为例，当字幕中出现所要检测的目标人脸的名字，或者，音频中出现该名字的声音，或者，在之前的视频帧中检测出该目标人脸时，可以认为此人在本视频中出现的概率会上升，因此可以适当降低当前相似度，使得检测出的稍低的面部相似度也可以被认为是符合要求的。

作为一种可选的方案，在目标信息指示出视频帧所在的视频资源中出现目标面部的概率上升的情况下，将当前相似度调整到目标相似度包括：

S1，在目标信息包括以下之一：目标文字信息、目标音频信息、目标关联信息的情况下，将当前相似度调整到第一相似度，并将第一相似度确定为目标相似度；

S2，在目标信息包括以下至少之二：目标文字信息、目标音频信息、目标关联信息的情况下，将当前相似度调整到第二相似度，并将第二相似度确定为目标相似度，其中，第二相似度小于第一相似度；

其中，目标文字信息为携带有用于指示目标面部所属于的身份信息的文字，目标音频信息为携带有用于指示目标面部所属于的身份信息的音频，目标关联信息用于指示在视频帧所在的视频资源中位于视频帧之前的视频帧中包括目标视频帧。

可选地，在本实施例中，当目标信息包括目标文字信息、目标音频信息、目标关联信息中之一的信息时，可以将当前相似度降低一个较小的幅度，例如将当前相似度调整至第一相似度。

可选地，在本实施例中，当目标信息包括目标文字信息、目标音频信息、目标关联信息中至少之二的信息时，可以将当前相似度降低一个较大的幅度，例如将当前相似度降低到小于第一相似度的第二相似度。

可选地，在本实施例中，对于目标信息包括目标文字信息、目标音频信息、目标关联信息中的两种信息和目标信息包括目标文字信息、目标音频信息和目标关联信息的情况，调整到的第二相似度可以不同，比如对于目标信息包括三种信息时的第二相似度可以小于目标信息包括两种信息时的第二相似度。也就是说，目标信息包括的能够指示出视频帧所在的视频资源中出现目标面部的概率上升的信息种类越多，对当前相似度调整的幅度可以越大。

作为一种可选的方案，获取待检测的视频帧对应的目标信息包括：

S1，从视频帧中获取文字信息；

S2，对文字信息进行文字识别，得到文字识别结果；

S3，在文字识别结果用于指示文字信息为目标文字信息的情况下，确定目标信息指示出视频帧所在的视频资源中出现目标面部的概率上升，其中，目标文字信息为携带有用于指示目标面部所属于的身份信息的文字。

可选地，在本实施例中，根据目标文字信息调整当前相似度时，还可以考虑目标文字信息中携带的目标面部所属于的身份信息在目标文字信息中出现的次数以及出现的场景等等。比如：识别出目标文字信息中身份信息出现1次时可以将当前相似度调整至相似度1，识别出目标文字信息中身份信息出现2次时可以将当前相似度调整至相似度2，识别出目标文字信息中身份信息出现3次时可以将当前相似度调整至相似度3，识别出目标文字信息中身份信息出现4次或者4次以上时可以将当前相似度调整至相似度4，其中，相似度1>相似度2>相似度3>相似度4。

S1，获取视频帧对应的音频帧，并从音频帧中获取音频信息；

S2，对音频信息进行音频识别，得到音频识别结果；

S3，在音频识别结果用于指示音频信息包括目标音频信息的情况下，确定目标信息指示出视频帧所在的视频资源中出现目标面部的概率上升，其中，目标音频信息为携带有用于指示目标面部所属于的身份信息的音频。

可选地，在本实施例中，根据目标音频信息调整当前相似度时，还可以考虑目标音频信息中携带的目标面部所属于的身份信息在目标音频信息中出现的次数以及出现的场景等等。比如：识别出目标音频信息中身份信息出现1次时可以将当前相似度调整至相似度A，识别出目标音频信息中身份信息出现2次时可以将当前相似度调整至相似度B，识别出目标音频信息中身份信息出现3次时可以将当前相似度调整至相似度C，识别出目标音频信息中身份信息出现4次或者4次以上时可以将当前相似度调整至相似度D，其中，相似度A>相似度B>相似度C>相似度D。

S1，获取面部检测信息，其中，面部检测信息用于指示对在视频帧所在的视频资源中位于视频帧之前的视频帧进行面部检测的检测结果；

S2，在面部检测信息包括目标关联信息的情况下，确定目标信息指示出视频帧所在的视频资源中出现目标面部的概率上升，其中，目标关联信息用于指示在视频帧所在的视频资源中位于视频帧之前的视频帧中包括目标视频帧。

可选地，在本实施例中，根据面部检测信息调整当前相似度时，还可以考虑目标关联信息中目标视频帧的个数等等。比如：目标关联信息中目标视频帧的个数较少时可以将当前相似度调整一个较小的幅度，目标关联信息中目标视频帧的个数较多时可以将当前相似度调整一个较大的幅度。

作为一种可选的方案，获取待检测的视频帧对应的目标信息，并根据目标信息调整当前相似度，得到目标相似度包括：

S1，确定视频帧所属的场景信息，其中，场景信息用于指示视频帧中包括的面部数量，目标信息包括场景信息；

S2，在场景信息用于指示视频帧所展示的场景中包括一个面部的情况下，将当前相似度调整到第三相似度，并将第三相似度确定为目标相似度，其中，第三相似度大于当前相似度；

S3，在场景信息用于指示视频帧所展示的场景中包括多个面部的情况下，将当前相似度调整到第四相似度，并将第四相似度确定为目标相似度，其中，第四相似度小于当前相似度。

可选地，在本实施例中，还可以按场景调整当前相似度，比如当视频帧中出现的场景为群像场景的情况下，可以降低当前相似度，当视频帧中出现的场景为单人场景的情况下，可以升高当前相似度。

作为一种可选的方案，对待检测的视频帧进行面部识别，得到面部相似度包括：

S1，对视频帧进行面部检测；

S2，在检测出视频帧中携带有面部的情况下，确定视频帧中的面部区域；

S3，对面部区域进行特征提取，得到面部特征信息；

S4，获取面部特征信息与目标面部对应的目标特征信息之间的特征相似度，并将特征相似度确定为面部相似度。

可选地，在本实施例中，利用深度卷积神经网络模型训练人脸特征库，对用户提交的图片首先进行人脸检测，若存在人脸则将每个人脸区域进行模型对齐，找到五点坐标(左眼，右眼，鼻尖，左嘴角，右嘴角)，然后根据五点坐标提取特征向量，用特征向量去数据层进行查询比对，确定是否为目标面部。

作为一种可选的方案，在确定视频帧为携带有目标面部的目标视频帧之后，还包括：

S1，获取目标视频帧对应的时间戳信息，其中，时间戳信息用于指示目标面部在目标视频帧所在的视频资源中所出现的时间；

S2，显示时间戳信息。

可选地，在本实施例中，检测出视频资源中的目标视频帧后可以将目标视频帧的时间戳信息显示在界面上，供用户查看。

在一个可选的实施方式中，如图4所示，终端设备A上安装有用于进行面部检测的客户端B，用户点击客户端B的图标打开客户端B，在客户端B上选择需要检测的视频资源及目标面部，客户端B对待检测的视频帧进行面部识别，得到面部相似度，获取待检测的视频帧对应的目标信息，并根据目标信息调整当前相似度，得到目标相似度，在面部相似度高于目标相似度的情况下，确定视频帧为出现了目标面部M的目标视频帧为视频帧1、视频帧2、视频帧3和视频帧4。客户端B获取上述目标视频帧对应的时间戳信息视频帧1对应21.840，视频帧2对应23.40，视频帧3对应24.440，视频帧4对应27.568。则客户端B将上述时间戳信息显示出来。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本发明所必须的。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

根据本发明实施例的另一个方面，还提供了一种用于实施上述面部检测方法的面部检测装置，如图5所示，该装置包括：

识别模块52，用于对待检测的视频帧进行面部识别，得到面部相似度，其中，面部相似度用于指示视频帧中出现了目标面部的概率；

处理模块54，用于获取待检测的视频帧对应的目标信息，并根据目标信息调整当前相似度，得到目标相似度；

确定模块56，用于在面部相似度高于目标相似度的情况下，确定视频帧为出现了目标面部的目标视频帧。

可选地，在本实施例中，上述面部检测装置可以应用于如图2所示的客户端202所构成的硬件环境中。如图2所示，客户端202对待检测的视频帧进行面部识别，得到面部相似度，其中，面部相似度用于指示视频帧中出现了目标面部的概率；获取待检测的视频帧对应的目标信息，并根据目标信息调整当前相似度，得到目标相似度；在面部相似度高于目标相似度的情况下，确定视频帧为出现了目标面部的目标视频帧。

可选地，在本实施例中，上述面部检测装置可以但不限于应用于对视频资源中出现的面部进行检测的场景中。其中，上述客户端可以但不限于为各种类型的应用，例如，在线教育应用、即时通讯应用、社区空间应用、游戏应用、购物应用、浏览器应用、金融应用、多媒体应用、直播应用等。具体的，可以但不限于应用于在上述多媒体应用中对视频资源中出现的面部进行检测的场景中，或还可以但不限于应用于在上述即时通讯应用中对视频资源中出现的面部进行检测的场景中，以提高面部检测的检测效率。上述仅是一种示例，本实施例中对此不做任何限定。

可见，通过上述装置，在对待检测的视频帧进行面部检测时，通过面部识别得到面部相似度，根据获取到的视频帧的目标信息调整当前相似度，得到目标相似度，通过面部相似度与目标相似度的比较，将面部相似度高于目标相似度的视频帧确定为目标视频帧，根据视频帧的目标信息对相似度的阈值进行调整，从而能够使得用于判定视频帧中是否出现了目标面部的相似度阈值更加满足当前待检测的视频帧所携带的信息，从而降低了漏检和误检的风险，提高了面部检测的准确率，从而实现了提高面部检测的检测效率的技术效果，进而解决了相关技术中面部检测效率较低的技术问题。

作为一种可选的方案，处理模块包括：

第一调整单元，用于在目标信息指示出视频帧所在的视频资源中出现目标面部的概率上升的情况下，将当前相似度调整到目标相似度，其中，目标相似度小于当前相似度。

作为一种可选的方案，第一调整单元包括：

第一调整子单元，用于在目标信息包括以下之一：目标文字信息、目标音频信息、目标关联信息的情况下，将当前相似度调整到第一相似度，并将第一相似度确定为目标相似度；

第二调整子单元，用于在目标信息包括以下至少之二：目标文字信息、目标音频信息、目标关联信息的情况下，将当前相似度调整到第二相似度，并将第二相似度确定为目标相似度，其中，第二相似度小于第一相似度；

作为一种可选的方案，处理模块包括：

第一获取单元，用于从视频帧中获取文字信息；

第一识别单元，用于对文字信息进行文字识别，得到文字识别结果；

第一确定单元，用于在文字识别结果用于指示文字信息为目标文字信息的情况下，确定目标信息指示出视频帧所在的视频资源中出现目标面部的概率上升，其中，目标文字信息为携带有用于指示目标面部所属于的身份信息的文字。

作为一种可选的方案，处理模块包括：

第二获取单元，用于获取视频帧对应的音频帧，并从音频帧中获取音频信息；

第二识别单元，用于对音频信息进行音频识别，得到音频识别结果；

第二确定单元，用于在音频识别结果用于指示音频信息包括目标音频信息的情况下，确定目标信息指示出视频帧所在的视频资源中出现目标面部的概率上升，其中，目标音频信息为携带有用于指示目标面部所属于的身份信息的音频。

作为一种可选的方案，处理模块包括：

第三获取单元，用于获取面部检测信息，其中，面部检测信息用于指示对在视频帧所在的视频资源中位于视频帧之前的视频帧进行面部检测的检测结果；

第三确定单元，用于在面部检测信息包括目标关联信息的情况下，确定目标信息指示出视频帧所在的视频资源中出现目标面部的概率上升，其中，目标关联信息用于指示在视频帧所在的视频资源中位于视频帧之前的视频帧中包括目标视频帧。

作为一种可选的方案，处理模块包括：

第四确定单元，用于确定视频帧所属的场景信息，其中，场景信息用于指示视频帧中包括的面部数量，目标信息包括场景信息；

第二调整单元，用于在场景信息用于指示视频帧所展示的场景中包括一个面部的情况下，将当前相似度调整到第三相似度，并将第三相似度确定为目标相似度，其中，第三相似度大于当前相似度；

第三调整单元，用于在场景信息用于指示视频帧所展示的场景中包括多个面部的情况下，将当前相似度调整到第四相似度，并将第四相似度确定为目标相似度，其中，第四相似度小于当前相似度。

作为一种可选的方案，识别模块包括：

检测单元，对视频帧进行面部检测；

第五确定单元，用于在检测出视频帧中携带有面部的情况下，确定视频帧中的面部区域；

提取单元，用于对面部区域进行特征提取，得到面部特征信息；

第四获取单元，用于获取面部特征信息与目标面部对应的目标特征信息之间的特征相似度，并将特征相似度确定为面部相似度。

作为一种可选的方案，在确定视频帧为携带有目标面部的目标视频帧之后，装置还包括：

获取模块，用于获取目标视频帧对应的时间戳信息，其中，时间戳信息用于指示目标面部在目标视频帧所在的视频资源中所出现的时间；

显示模块，用于显示时间戳信息。

本发明实施例的应用环境可以但不限于参照上述实施例中的应用环境，本实施例中对此不再赘述。本发明实施例提供了用于实施上述实时通信的连接方法的一种可选的具体应用示例。

作为一种可选的实施例，上述面部检测方法可以但不限于应用于如图6所示的对视频资源中的面部进行检测的场景中。在本场景中，以人脸检索为例，提供了一个人脸检索系统，该系统的架构如图6所示，该系统进行人脸检索时一般分为两个过程，即构建目标人脸数据库阶段和视频检索阶段。

在构建目标人脸数据库阶段中，系统提供一套目标人物数据管理的接口，用于将用户需要关注的目标人物添加到人脸数据库。架构中接入层可以用于接收客户端的请求并进行请求转发。客户端提交目标人物人脸照片时可以调用人脸识别服务模块提取人脸特征向量，从而将特征向量存储在数据层，构建目标人脸数据库。

在视频检索阶段中，构建完目标人脸数据库后，用户即可通过接口提交视频链接，在指定视频中搜索其关注的目标人物的目标面部。架构中视频处理模块主要功能就是拉取视频进行处理，分离音频帧、视频帧，根据视频关键帧按截图间隔生成图片，并将图片提交人脸识别服务进行人脸检测、特征向量提取以及特征向量检索，并将返回结果上报策略层；同时将图片提交OCR文字识别服务进行文字识别，并将结果上报策略层，另外将音频帧进行转码和重采样后提交ASR语音识别服务，并将识别结果上报策略层。

人脸识别服务模块采用人脸识别引擎，其利用深度卷积神经网络模型训练人脸特征库，对用户提交的图片首先进行人脸检测，若存在人脸则将每个人脸区域进行模型对齐，找到五点坐标(左眼，右眼，鼻尖，左嘴角，右嘴角)，然后根据五点坐标提取特征向量，用特征向量去数据层进行查询比对，找出最相似的候选人，并将结果返回给视频处理模块上报策略层。

考虑到新闻类视频中介绍目标人物相关新闻时一般都会出现目标人物的姓名文字，故可用于辅助视频检索。系统中OCR文字识别服务模块采用文字识别引擎，对视频处理模块提交的图片进行文字识别，并将识别结果返回视频处理模块上报策略层。

考虑到新闻类视频中播音员播报目标人物相关新闻时一般都会提及目标人物的姓名，故可用于辅助视频检索。系统采用ASR语音识别引擎，对视频处理模块统一转码重采样后的音频流进行语音识别，并将识别结果返回给视频处理模块上报策略层。

系统中数据存储服务主要用于存储用户提交的目标人脸特征向量数据，供视频处理模块中截图请求人脸识别服务模块后提取的特征向量进行相似性检索，此处可以采用Facebook开源相似性搜索库faiss进行特征向量的相似搜索；另外目标人脸特征向量会进行redis集群备份存储，防止目标人脸数据库数据丢失。

系统中的策略层主要用于对视频处理模块上报的人脸比对结果、OCR文字识别结果以及ASR语音识别结果根据筛选策略进行处理，并将视频检索结果返回给客户端，当前筛选策略如下：

1、对于特征向量相似度达到95％则认为可信，一般深度学习模型认为相似度>83％则认为可信，但为避免误检，提高当前相似度。

2、根据OCR上报结果，如果识别出的文字中存在目标人物的名字，则认为该人物后续在视频中出现的概率非常高，故适当降低当前相似度。

3、根据ASR上报结果，如果语音识别的输出中存在目标人物的名字，则认为该人物后续在视频中出现的概率非常高，故适当降低当前相似度。

4、区分群像和单人像的场景，不同场景动态调整当前相似度。

5、根据视频的关联性，前面识别出来的人物在后面出现的概率比其他人物首次出现概率要高，可适当降低当前相似度。

根据本发明实施例的又一个方面，还提供了一种用于实施上述面部检测的电子装置，如图7所示，该电子装置包括：一个或多个(图中仅示出一个)处理器702、存储器704、传感器706、编码器708以及传输装置710，该存储器中存储有计算机程序，该处理器被设置为通过计算机程序执行上述任一项方法实施例中的步骤。

可选地，在本实施例中，上述电子装置可以位于计算机网络的多个网络设备中的至少一个网络设备。

可选地，在本实施例中，上述处理器可以被设置为通过计算机程序执行以下步骤：

S1，对待检测的视频帧进行面部识别，得到面部相似度，其中，面部相似度用于指示视频帧中出现了目标面部的概率；

S2，获取待检测的视频帧对应的目标信息，并根据目标信息调整当前相似度，得到目标相似度；

S3，在面部相似度高于目标相似度的情况下，确定视频帧为出现了目标面部的目标视频帧。

可选地，本领域普通技术人员可以理解，图7所示的结构仅为示意，电子装置也可以是智能手机(如Android手机、iOS手机等)、平板电脑、掌上电脑以及移动互联网设备(Mobile Internet Devices，MID)、PAD等终端设备。图7其并不对上述电子装置的结构造成限定。例如，电子装置还可包括比图7中所示更多或者更少的组件(如网络接口、显示装置等)，或者具有与图7所示不同的配置。

其中，存储器702可用于存储软件程序以及模块，如本发明实施例中的面部检测方法和装置对应的程序指令/模块，处理器704通过运行存储在存储器702内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的目标组件的控制方法。存储器702可包括高速随机存储器，还可以包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器702可进一步包括相对于处理器704远程设置的存储器，这些远程存储器可以通过网络连接至终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

上述的传输装置710用于经由一个网络接收或者发送数据。上述的网络具体实例可包括有线网络及无线网络。在一个实例中，传输装置710包括一个网络适配器(NetworkInterface Controller，NIC)，其可通过网线与其他网络设备与路由器相连从而可与互联网或局域网进行通讯。在一个实例中，传输装置710为射频(Radio Frequency，RF)模块，其用于通过无线方式与互联网进行通讯。

其中，具体地，存储器702用于存储应用程序。

本发明的实施例还提供了一种存储介质，该存储介质中存储有计算机程序，其中，该计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。

可选地，在本实施例中，上述存储介质可以被设置为存储用于执行以下步骤的计算机程序：

可选地，存储介质还被设置为存储用于执行上述实施例中的方法中所包括的步骤的计算机程序，本实施例中对此不再赘述。

可选地，在本实施例中，本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：闪存盘、只读存储器(Read-Only Memory，ROM)、随机存取器(Random Access Memory，RAM)、磁盘或光盘等。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

上述实施例中的集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在上述计算机可读取的存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在存储介质中，包括若干指令用以使得一台或多台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。

在本发明的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的客户端，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种面部检测方法，其特征在于，包括：

对待检测的视频帧进行面部识别，得到面部相似度，其中，所述面部相似度用于指示所述视频帧中出现了目标面部的概率；

获取所述待检测的视频帧对应的目标信息，并在所述目标信息指示出所述视频帧所在的视频资源中出现所述目标面部的概率上升的情况下，将当前相似度调整到所述目标相似度，其中，所述目标相似度小于所述当前相似度；

在所述面部相似度高于所述目标相似度的情况下，确定所述视频帧为出现了所述目标面部的目标视频帧。

2.根据权利要求1所述的方法，其特征在于，在所述目标信息指示出所述视频帧所在的视频资源中出现所述目标面部的概率上升的情况下，将所述当前相似度调整到所述目标相似度包括：

在所述目标信息包括以下之一：目标文字信息、目标音频信息、目标关联信息的情况下，将所述当前相似度调整到第一相似度，并将所述第一相似度确定为所述目标相似度；

在所述目标信息包括以下至少之二：所述目标文字信息、所述目标音频信息、所述目标关联信息的情况下，将所述当前相似度调整到第二相似度，并将所述第二相似度确定为所述目标相似度，其中，所述第二相似度小于第一相似度；

其中，所述目标文字信息为携带有用于指示所述目标面部所属于的身份信息的文字，所述目标音频信息为携带有用于指示所述目标面部所属于的身份信息的音频，所述目标关联信息用于指示在所述视频帧所在的视频资源中位于所述视频帧之前的视频帧中包括所述目标视频帧。

3.根据权利要求1所述的方法，其特征在于，获取所述待检测的视频帧对应的所述目标信息包括：

从所述视频帧中获取文字信息；

对所述文字信息进行文字识别，得到文字识别结果；

在所述文字识别结果用于指示所述文字信息为目标文字信息的情况下，确定所述目标信息指示出所述视频帧所在的视频资源中出现所述目标面部的概率上升，其中，所述目标文字信息为携带有用于指示所述目标面部所属于的身份信息的文字。

4.根据权利要求1所述的方法，其特征在于，获取所述待检测的视频帧对应的所述目标信息包括：

获取所述视频帧对应的音频帧，并从所述音频帧中获取音频信息；

对所述音频信息进行音频识别，得到音频识别结果；

在所述音频识别结果用于指示所述音频信息包括目标音频信息的情况下，确定所述目标信息指示出所述视频帧所在的视频资源中出现所述目标面部的概率上升，其中，所述目标音频信息为携带有用于指示所述目标面部所属于的身份信息的音频。

5.根据权利要求1所述的方法，其特征在于，获取所述待检测的视频帧对应的所述目标信息包括：

获取面部检测信息，其中，所述面部检测信息用于指示对在所述视频帧所在的视频资源中位于所述视频帧之前的视频帧进行面部检测的检测结果；

在所述面部检测信息包括目标关联信息的情况下，确定所述目标信息指示出所述视频帧所在的视频资源中出现所述目标面部的概率上升，其中，所述目标关联信息用于指示在所述视频帧所在的视频资源中位于所述视频帧之前的视频帧中包括所述目标视频帧。

6.根据权利要求1所述的方法，其特征在于，获取所述待检测的视频帧对应的所述目标信息，并在所述目标信息指示出所述视频帧所在的视频资源中出现所述目标面部的概率上升的情况下，将所述当前相似度调整到所述目标相似度，其中，所述目标相似度小于所述当前相似度包括：

确定所述视频帧所属的场景信息，其中，所述场景信息用于指示所述视频帧中包括的面部数量，所述目标信息包括所述场景信息；

在所述场景信息用于指示所述视频帧所展示的场景中包括一个面部的情况下，将所述当前相似度调整到第三相似度，并将所述第三相似度确定为所述目标相似度，其中，所述第三相似度大于所述当前相似度；

在所述场景信息用于指示所述视频帧所展示的场景中包括多个面部的情况下，将所述当前相似度调整到第四相似度，并将所述第四相似度确定为所述目标相似度，其中，所述第四相似度小于所述当前相似度。

7.根据权利要求1所述的方法，其特征在于，对待检测的视频帧进行面部识别，得到所述面部相似度包括：

对所述视频帧进行面部检测；

在检测出所述视频帧中携带有面部的情况下，确定所述视频帧中的面部区域；

对所述面部区域进行特征提取，得到面部特征信息；

获取所述面部特征信息与所述目标面部对应的目标特征信息之间的特征相似度，并将所述特征相似度确定为所述面部相似度。

8.根据权利要求1至7中任一项所述的方法，其特征在于，在确定所述视频帧为携带有所述目标面部的目标视频帧之后，所述方法还包括：

获取所述目标视频帧对应的时间戳信息，其中，所述时间戳信息用于指示所述目标面部在所述目标视频帧所在的视频资源中所出现的时间；

显示所述时间戳信息。

9.一种面部检测装置，其特征在于，包括：

识别模块，用于对待检测的视频帧进行面部识别，得到面部相似度，其中，所述面部相似度用于指示所述视频帧中出现了目标面部的概率；

处理模块，用于获取所述待检测的视频帧对应的目标信息，并在所述目标信息指示出所述视频帧所在的视频资源中出现所述目标面部的概率上升的情况下，将当前相似度调整到所述目标相似度，其中，所述目标相似度小于所述当前相似度；

确定模块，用于在所述面部相似度高于所述目标相似度的情况下，确定所述视频帧为出现了所述目标面部的目标视频帧。

10.根据权利要求9所述的装置，其特征在于，所述处理模块包括：

第一调整子单元，用于在所述目标信息包括以下之一：目标文字信息、目标音频信息、目标关联信息的情况下，将所述当前相似度调整到第一相似度，并将所述第一相似度确定为所述目标相似度；

第二调整子单元，用于在所述目标信息包括以下至少之二：所述目标文字信息、所述目标音频信息、所述目标关联信息的情况下，将所述当前相似度调整到第二相似度，并将所述第二相似度确定为所述目标相似度，其中，所述第二相似度小于第一相似度；

11.根据权利要求9至10中任一项所述的装置，其特征在于，所述装置还包括：

获取模块，用于获取所述目标视频帧对应的时间戳信息，其中，所述时间戳信息用于指示所述目标面部在所述目标视频帧所在的视频资源中所出现的时间；

显示模块，用于显示所述时间戳信息。

12.一种存储介质，其特征在于，所述存储介质中存储有计算机程序，其中，所述计算机程序被设置为运行时执行所述权利要求1至8任一项中所述的方法。

13.一种电子装置，包括存储器和处理器，其特征在于，所述存储器中存储有计算机程序，所述处理器被设置为通过所述计算机程序执行所述权利要求1至8任一项中所述的方法。